GPT 5.1 Thinking Model 의 강의자료

November 19, 2025

1. 전체 강의 흐름 (디테일 버전)

0. 오프닝 (5분)

목표

“AI 기술 설명회”가 아니라,

“AI 시대에 사람은 어떤 방식으로 일하고 생각해야 하는가” 라는 철학·실무 이야기라는 걸 못 박기.

구성

한 줄 문제제기:

“이제는 ‘내가 직접 문제를 푸는 사람’이 아니라,

‘문제가 잘 풀리게 환경을 설계하는 사람’ 이 더 중요한 시대가 오고 있습니다.”

오늘의 세 가지 키워드 소개
1. 환경(Environment)
2. 루브릭(Rubric: 평가 기준표)
3. 오케스트레이션(Orchestration: 일을 조합해서 굴리는 능력)

1. 지금 프론티어 모델은 어떻게 배우고 있나 (20분)

1-1. “AI도 혼자 문제 안 푼다 – 환경 속에서 푼다”

AlphaGo / AlphaZero / OpenAI Five 이야기
- 바둑, 체스, 스타크래프트, Dota2 같은 게임에서
  
  “좋은 환경 + 무한 반복 + 보상 설계” 로 인간을 넘어섬. arXiv+1
핵심 메시지:

“초지능도, 결국 연습장(환경) + 점수 체계(보상/루브릭) 위에서 자란다.”

1-2. RLHF / 인간 피드백으로 배우는 AI

2017년 Christiano 외 “Deep Reinforcement Learning from Human Preferences” 간단 소개 arXiv+1
- 사람에게 “이 답 vs 저 답, 뭐가 더 낫냐” 물어보고
- 그 선호(preference) 를 학습해서 보상 모델을 만듦
- 이후엔 사람 대신 보상 모델이 AI를 ‘채점’ 함
여기서 정리:

“사람이 일일이 가르치는 시대 →

사람이 ‘채점 기준(루브릭)’만 세우고, 평가는 보상 모델이 대신하는 시대 로 넘어가고 있다.” IBM+1

1-3. Kimi K2 / 자가 학습 + 자기 비평 루브릭

Kimi K2 요약 (일반인 버전) arXiv+1
- 1조 파라미터급 MoE 모델
- Self-critique Rubric Reward
  - 스스로 여러 답안을 만든 뒤
  - 자기 내부 “핵심 가치 루브릭(명확성, 도움됨, 객관성 등)” 으로 서로 비교·채점
  - 그걸 보상으로 써서 자기 개선
메시지:

“요즘 최전선 AI는

환경(연습장) 을 갖고

루브릭(핵심 가치 기준표) 를 쓰고

그 안에서 무한 루프를 돌며 자기 개선 을 한다.”

2. 이게 우리 삶/업무랑 무슨 상관이냐 (15분)

2-1. “문제 해결자”에서 “환경 설계자”로의 전환

옛날 모드:
- “엑셀 수식 내가 다 짠다”, “자료를 내가 다 뒤진다”
앞으로 모드:
- “엑셀, AI, 동료, 프로세스를 어떻게 조합하면 일이 알아서 굴러가게 만들 수 있을까?”
한 줄 정리:

“내가 일하는 게 아니라, 일이 굴러가게 만드는 환경을 설계한다.”

2-2. 생활 예시 2–3개

예시 1: 다이어트 / 운동 루틴
- 매번 “오늘은 뭐 하지?” 고민 vs
- 미리: 식단·운동 루브릭 + 일정 + 자동 알림 + 친구 피드백 환경
예시 2: 업무 보고
- 매번 새 PPT 고생 vs
- “좋은 보고의 루브릭(간결, 핵심, 숫자, 시각화)을 만들고
  
  템플릿 + AI 요약 + 정기 리뷰” 환경 구축

3. 루브릭이란 무엇인가 – 사람 기준에서부터 (20분)

3-1. 루브릭, 사실 우리 일상에도 늘 있었다

시험 채점표, 운전면허 시험, 면접 평가표
공통점:
- 항목: 예) 정확성, 안전성, 협업, 태도
- 각 항목별 점수 스케일: 1~5점
- 가중치: 어떤 항목은 더 중요

3-2. LLM 평가 루브릭 예시 (인간 눈에 보이게 설명)

최근 논문/블로그에서 사용하는 대표 기준들:ACM Digital Library+1

Helpfulness: 사용자가 진짜로 도움을 받았는가
Honesty: 모르면 “모른다”고 말하는가 (지어내지 않는가)
Harmlessness: 위험하거나 공격적인 답은 피했는가
Relevance: 질문과 관련된 내용만 말하는가
Factual Accuracy: 사실관계가 맞는가
Clarity: 일반인이 이해하기 쉬운가
Depth: 피상적 설명이 아니라 핵심까지 들어갔는가
Structure: 논리적 흐름과 구성은 깔끔한가
Reasoning Quality: 생각의 과정이 논리적인가
Style Alignment: 요청한 톤/스타일을 잘 맞추는가

→ 여기서 관찰 포인트:

“좋은 답변이란,

단일 점수가 아니라 이런 항목들의 벡터 다.”

4. 평가 환경과 오케스트레이션 (20분)

4-1. “환경”을 구성하는 4요소

Input
- 문제 / 데이터 / 프롬프트
Agent
- 사람, AI, 또는 둘이 섞인 팀
Tool
- 검색, 스프레드시트, 코드 실행, 브라우저, 내부 시스템 등
Feedback & Rubric
- 누가, 어떤 기준으로, 얼마나 자주 평가해 주는가

이 넷이 모여 하나의 “RL-Gym 같은 일터 환경”이 됨.

4-2. 인간과 AI의 역할 분담

인간이 잘하는 것:
- 가치 설정: 무엇이 좋은 답/나쁜 답인가?
- 루브릭 설계: 기준 항목과 가중치 설정
- 엣지 케이스 판단: 애매한 상황에서 최종 결정
AI가 잘하는 것:
- 루브릭에 맞춰 대량 평가
- 자기 비평(Self-critique) + 후보 여러 개 만들어 비교 ACL Anthology+1

5. 실습/스토리: “재미 있는 웹게임을 가지고 루브릭·에이전트·환경 만들기” (25분)

여기는 강의에서 라이브 시나리오로만 가도 되고,

준비 여건 되면 실제 간단한 웹 페이지 데모로 만들어도 좋음.

5-1. 시나리오 설정

가상의 웹게임: “스토리 이어 말하기 게임”
- 사용자에게 프롬프트:
  
  “오늘 있었던 일을 3줄로 요약해 주세요.”
- AI가 그걸 읽고
  - 한 줄로 요약해 준다
  - 이모지 2개를 붙여준다
여기서 우리가 하고 싶은 일:
- “AI가 만들어 주는 요약이 좋은지 나쁜지 평가하고,
  
  더 좋게 만들도록 환경 + 루브릭 + 오케스트레이션 을 설계해 보기”

5-2. 루브릭 설계 예시

예를 들어 이런 5항목:

정확성 – 원래 내용과 의미가 잘 유지되는가
간결성 – 너무 장황하지 않고 한 눈에 들어오는가
감정 톤 – 사용자의 감정 상태를 잘 살렸는가
명확성 – 어려운 표현 없이 누구나 이해 가능한가
재미 요소 – 이모지 선택이 어색하지 않고 공감 가는가

각 항목을 1~5점으로 두고, 중요도에 따라 가중치 설정.

5-3. 오케스트레이션 구조 (Cursor / Claude Code를 예로)

Agent 1 – Writer
- 사용자의 일기를 요약하는 AI
Agent 2 – Judge
- 위 루브릭으로 Writer의 결과를 채점하는 AI (LLM-as-a-judge) ACL Anthology+1
Agent 3 – Coach
- 점수가 낮을 때, 어떤 점을 고치면 좋을지 피드백을 주는 AI
Human
- 루브릭을 설계하고, 가끔 샘플을 직접 보며 “Judge가 잘 평가하는지” 감시

이걸 “한 번 돌리고 끝”이 아니라,

매주 루브릭을 조금씩 수정
낮은 점수 케이스를 모아서 회고

하는 루프 구조까지 보여주는 게 포인트.

6. 철학적 정리: “해결자가 아니라 환경 설계자로 산다는 것” (10–15분)

6-1. 앞으로 우리에게 필요한 4가지 태도

질문력
- “뭘 시킬까?”가 아니라
- “어떤 환경이 만들어지면 일이 저절로 풀릴까?”
조합력(Orchestration)
- 사람 + AI + 툴 + 프로세스를 악기처럼 섞어 쓰는 능력
관찰–리팩터링 루프
- 한번 만든 환경을 관찰 → 튜닝 → 재설계 하는 습관
가치·안전 감각
- RLHF / 3H(Helpful, Honest, Harmless)가 하는 질문을
  
  우리 삶에도 던져보기:
  
  “이 결정은 나와 주변에 정말 도움이 되는가, 정직한가, 해를 덜 주는가?” ACM Digital Library+1

6-2. 마무리 멘트

“AI는 이미 자기 환경을 만들고, 자기 루브릭으로 자기 자신을 평가하며 성장하고 있습니다.

인간에게 남은 역할은, 그 위에 올라서서

무엇을 위해, 어떤 방향으로 환경을 설계할지 결정하는 것 입니다.”