GPT 5.1 Thinking Model 의 강의자료
1. 전체 강의 흐름 (디테일 버전)
0. 오프닝 (5분)
목표
-
“AI 기술 설명회”가 아니라,
“AI 시대에 사람은 어떤 방식으로 일하고 생각해야 하는가” 라는 철학·실무 이야기라는 걸 못 박기.
구성
- 한 줄 문제제기:
“이제는 ‘내가 직접 문제를 푸는 사람’이 아니라,
‘문제가 잘 풀리게 환경을 설계하는 사람’ 이 더 중요한 시대가 오고 있습니다.”
- 오늘의 세 가지 키워드 소개
-
환경(Environment)
-
루브릭(Rubric: 평가 기준표)
-
오케스트레이션(Orchestration: 일을 조합해서 굴리는 능력)
-
1. 지금 프론티어 모델은 어떻게 배우고 있나 (20분)
1-1. “AI도 혼자 문제 안 푼다 – 환경 속에서 푼다”
-
AlphaGo / AlphaZero / OpenAI Five 이야기
-
바둑, 체스, 스타크래프트, Dota2 같은 게임에서
“좋은 환경 + 무한 반복 + 보상 설계” 로 인간을 넘어섬. arXiv+1
-
-
핵심 메시지:
“초지능도, 결국 연습장(환경) + 점수 체계(보상/루브릭) 위에서 자란다.”
1-2. RLHF / 인간 피드백으로 배우는 AI
-
2017년 Christiano 외 “Deep Reinforcement Learning from Human Preferences” 간단 소개 arXiv+1
- 사람에게 “이 답 vs 저 답, 뭐가 더 낫냐” 물어보고
- 그 선호(preference) 를 학습해서 보상 모델을 만듦
- 이후엔 사람 대신 보상 모델이 AI를 ‘채점’ 함
-
여기서 정리:
“사람이 일일이 가르치는 시대 →
사람이 ‘채점 기준(루브릭)’만 세우고, 평가는 보상 모델이 대신하는 시대 로 넘어가고 있다.” IBM+1
1-3. Kimi K2 / 자가 학습 + 자기 비평 루브릭
-
Kimi K2 요약 (일반인 버전) arXiv+1
-
1조 파라미터급 MoE 모델
-
Self-critique Rubric Reward
- 스스로 여러 답안을 만든 뒤
- 자기 내부 “핵심 가치 루브릭(명확성, 도움됨, 객관성 등)” 으로 서로 비교·채점
- 그걸 보상으로 써서 자기 개선
-
-
메시지:
“요즘 최전선 AI는
- 환경(연습장) 을 갖고
- 루브릭(핵심 가치 기준표) 를 쓰고
- 그 안에서 무한 루프를 돌며 자기 개선 을 한다.”
2. 이게 우리 삶/업무랑 무슨 상관이냐 (15분)
2-1. “문제 해결자”에서 “환경 설계자”로의 전환
-
옛날 모드:
- “엑셀 수식 내가 다 짠다”, “자료를 내가 다 뒤진다”
-
앞으로 모드:
- “엑셀, AI, 동료, 프로세스를 어떻게 조합하면 일이 알아서 굴러가게 만들 수 있을까?”
-
한 줄 정리:
“내가 일하는 게 아니라, 일이 굴러가게 만드는 환경을 설계한다.”
2-2. 생활 예시 2–3개
-
예시 1: 다이어트 / 운동 루틴
- 매번 “오늘은 뭐 하지?” 고민 vs
- 미리: 식단·운동 루브릭 + 일정 + 자동 알림 + 친구 피드백 환경
-
예시 2: 업무 보고
-
매번 새 PPT 고생 vs
-
“좋은 보고의 루브릭(간결, 핵심, 숫자, 시각화)을 만들고
템플릿 + AI 요약 + 정기 리뷰” 환경 구축
-
3. 루브릭이란 무엇인가 – 사람 기준에서부터 (20분)
3-1. 루브릭, 사실 우리 일상에도 늘 있었다
-
시험 채점표, 운전면허 시험, 면접 평가표
-
공통점:
- 항목: 예) 정확성, 안전성, 협업, 태도
- 각 항목별 점수 스케일: 1~5점
- 가중치: 어떤 항목은 더 중요
3-2. LLM 평가 루브릭 예시 (인간 눈에 보이게 설명)
최근 논문/블로그에서 사용하는 대표 기준들:ACM Digital Library+1
-
Helpfulness: 사용자가 진짜로 도움을 받았는가
-
Honesty: 모르면 “모른다”고 말하는가 (지어내지 않는가)
-
Harmlessness: 위험하거나 공격적인 답은 피했는가
-
Relevance: 질문과 관련된 내용만 말하는가
-
Factual Accuracy: 사실관계가 맞는가
-
Clarity: 일반인이 이해하기 쉬운가
-
Depth: 피상적 설명이 아니라 핵심까지 들어갔는가
-
Structure: 논리적 흐름과 구성은 깔끔한가
-
Reasoning Quality: 생각의 과정이 논리적인가
-
Style Alignment: 요청한 톤/스타일을 잘 맞추는가
→ 여기서 관찰 포인트:
“좋은 답변이란,
단일 점수가 아니라 이런 항목들의 벡터 다.”
4. 평가 환경과 오케스트레이션 (20분)
4-1. “환경”을 구성하는 4요소
-
Input
- 문제 / 데이터 / 프롬프트
-
Agent
- 사람, AI, 또는 둘이 섞인 팀
-
Tool
- 검색, 스프레드시트, 코드 실행, 브라우저, 내부 시스템 등
-
Feedback & Rubric
- 누가, 어떤 기준으로, 얼마나 자주 평가해 주는가
이 넷이 모여 하나의 “RL-Gym 같은 일터 환경”이 됨.
4-2. 인간과 AI의 역할 분담
-
인간이 잘하는 것:
- 가치 설정: 무엇이 좋은 답/나쁜 답인가?
- 루브릭 설계: 기준 항목과 가중치 설정
- 엣지 케이스 판단: 애매한 상황에서 최종 결정
-
AI가 잘하는 것:
-
루브릭에 맞춰 대량 평가
-
자기 비평(Self-critique) + 후보 여러 개 만들어 비교 ACL Anthology+1
-
5. 실습/스토리: “재미 있는 웹게임을 가지고 루브릭·에이전트·환경 만들기” (25분)
여기는 강의에서 라이브 시나리오로만 가도 되고,
준비 여건 되면 실제 간단한 웹 페이지 데모로 만들어도 좋음.
5-1. 시나리오 설정
-
가상의 웹게임: “스토리 이어 말하기 게임”
- 사용자에게 프롬프트:
“오늘 있었던 일을 3줄로 요약해 주세요.”
- AI가 그걸 읽고
- 한 줄로 요약해 준다
- 이모지 2개를 붙여준다
- 사용자에게 프롬프트:
-
여기서 우리가 하고 싶은 일:
-
“AI가 만들어 주는 요약이 좋은지 나쁜지 평가하고,
더 좋게 만들도록 환경 + 루브릭 + 오케스트레이션 을 설계해 보기”
-
5-2. 루브릭 설계 예시
예를 들어 이런 5항목:
- 정확성 – 원래 내용과 의미가 잘 유지되는가
- 간결성 – 너무 장황하지 않고 한 눈에 들어오는가
- 감정 톤 – 사용자의 감정 상태를 잘 살렸는가
- 명확성 – 어려운 표현 없이 누구나 이해 가능한가
- 재미 요소 – 이모지 선택이 어색하지 않고 공감 가는가
각 항목을 1~5점으로 두고, 중요도에 따라 가중치 설정.
5-3. 오케스트레이션 구조 (Cursor / Claude Code를 예로)
-
Agent 1 – Writer
- 사용자의 일기를 요약하는 AI
-
Agent 2 – Judge
- 위 루브릭으로 Writer의 결과를 채점하는 AI (LLM-as-a-judge) ACL Anthology+1
-
Agent 3 – Coach
- 점수가 낮을 때, 어떤 점을 고치면 좋을지 피드백을 주는 AI
-
Human
- 루브릭을 설계하고, 가끔 샘플을 직접 보며 “Judge가 잘 평가하는지” 감시
이걸 “한 번 돌리고 끝”이 아니라,
-
매주 루브릭을 조금씩 수정
-
낮은 점수 케이스를 모아서 회고
하는 루프 구조까지 보여주는 게 포인트.
6. 철학적 정리: “해결자가 아니라 환경 설계자로 산다는 것” (10–15분)
6-1. 앞으로 우리에게 필요한 4가지 태도
-
질문력
- “뭘 시킬까?”가 아니라
- “어떤 환경이 만들어지면 일이 저절로 풀릴까?”
-
조합력(Orchestration)
- 사람 + AI + 툴 + 프로세스를 악기처럼 섞어 쓰는 능력
-
관찰–리팩터링 루프
- 한번 만든 환경을 관찰 → 튜닝 → 재설계 하는 습관
-
가치·안전 감각
-
RLHF / 3H(Helpful, Honest, Harmless)가 하는 질문을
우리 삶에도 던져보기:
“이 결정은 나와 주변에 정말 도움이 되는가, 정직한가, 해를 덜 주는가?” ACM Digital Library+1
-
6-2. 마무리 멘트
-
“AI는 이미 자기 환경을 만들고, 자기 루브릭으로 자기 자신을 평가하며 성장하고 있습니다.
인간에게 남은 역할은, 그 위에 올라서서
무엇을 위해, 어떤 방향으로 환경을 설계할지 결정하는 것 입니다.”