2025.11.19 AI 시대의 인간일의 진화
GPT 5.1 Thinking Model 의 강의자료
1. 전체 강의 흐름 (디테일 버전)
0. 오프닝 (5분)
목표
-
“AI 기술 설명회”가 아니라,
“AI 시대에 사람은 어떤 방식으로 일하고 생각해야 하는가” 라는 철학·실무 이야기라는 걸 못 박기.
구성
- 한 줄 문제제기:
“이제는 ‘내가 직접 문제를 푸는 사람’이 아니라,
‘문제가 잘 풀리게 환경을 설계하는 사람’ 이 더 중요한 시대가 오고 있습니다.”
- 오늘의 세 가지 키워드 소개
-
환경(Environment)
-
루브릭(Rubric: 평가 기준표)
-
오케스트레이션(Orchestration: 일을 조합해서 굴리는 능력)
-
1. 지금 프론티어 모델은 어떻게 배우고 있나 (20분)
1-1. “AI도 혼자 문제 안 푼다 – 환경 속에서 푼다”
-
AlphaGo / AlphaZero / OpenAI Five 이야기
-
바둑, 체스, 스타크래프트, Dota2 같은 게임에서
“좋은 환경 + 무한 반복 + 보상 설계” 로 인간을 넘어섬. arXiv+1
-
-
핵심 메시지:
“초지능도, 결국 연습장(환경) + 점수 체계(보상/루브릭) 위에서 자란다.”
1-2. RLHF / 인간 피드백으로 배우는 AI
-
2017년 Christiano 외 “Deep Reinforcement Learning from Human Preferences” 간단 소개 arXiv+1
- 사람에게 “이 답 vs 저 답, 뭐가 더 낫냐” 물어보고
- 그 선호(preference) 를 학습해서 보상 모델을 만듦
- 이후엔 사람 대신 보상 모델이 AI를 ‘채점’ 함
-
여기서 정리:
“사람이 일일이 가르치는 시대 →
사람이 ‘채점 기준(루브릭)’만 세우고, 평가는 보상 모델이 대신하는 시대 로 넘어가고 있다.” IBM+1
1-3. Kimi K2 / 자가 학습 + 자기 비평 루브릭
-
Kimi K2 요약 (일반인 버전) arXiv+1
-
1조 파라미터급 MoE 모델
-
Self-critique Rubric Reward
- 스스로 여러 답안을 만든 뒤
- 자기 내부 “핵심 가치 루브릭(명확성, 도움됨, 객관성 등)” 으로 서로 비교·채점
- 그걸 보상으로 써서 자기 개선
-
-
메시지:
“요즘 최전선 AI는
- 환경(연습장) 을 갖고
- 루브릭(핵심 가치 기준표) 를 쓰고
- 그 안에서 무한 루프를 돌며 자기 개선 을 한다.”
2. 이게 우리 삶/업무랑 무슨 상관이냐 (15분)
2-1. “문제 해결자”에서 “환경 설계자”로의 전환
-
옛날 모드:
- “엑셀 수식 내가 다 짠다”, “자료를 내가 다 뒤진다”
-
앞으로 모드:
- “엑셀, AI, 동료, 프로세스를 어떻게 조합하면 일이 알아서 굴러가게 만들 수 있을까?”
-
한 줄 정리:
“내가 일하는 게 아니라, 일이 굴러가게 만드는 환경을 설계한다.”
2-2. 생활 예시 2–3개
-
예시 1: 다이어트 / 운동 루틴
- 매번 “오늘은 뭐 하지?” 고민 vs
- 미리: 식단·운동 루브릭 + 일정 + 자동 알림 + 친구 피드백 환경
-
예시 2: 업무 보고
-
매번 새 PPT 고생 vs
-
“좋은 보고의 루브릭(간결, 핵심, 숫자, 시각화)을 만들고
템플릿 + AI 요약 + 정기 리뷰” 환경 구축
-
3. 루브릭이란 무엇인가 – 사람 기준에서부터 (20분)
3-1. 루브릭, 사실 우리 일상에도 늘 있었다
-
시험 채점표, 운전면허 시험, 면접 평가표
-
공통점:
- 항목: 예) 정확성, 안전성, 협업, 태도
- 각 항목별 점수 스케일: 1~5점
- 가중치: 어떤 항목은 더 중요
3-2. LLM 평가 루브릭 예시 (인간 눈에 보이게 설명)
최근 논문/블로그에서 사용하는 대표 기준들:ACM Digital Library+1
-
Helpfulness: 사용자가 진짜로 도움을 받았는가
-
Honesty: 모르면 “모른다”고 말하는가 (지어내지 않는가)
-
Harmlessness: 위험하거나 공격적인 답은 피했는가
-
Relevance: 질문과 관련된 내용만 말하는가
-
Factual Accuracy: 사실관계가 맞는가
-
Clarity: 일반인이 이해하기 쉬운가
-
Depth: 피상적 설명이 아니라 핵심까지 들어갔는가
-
Structure: 논리적 흐름과 구성은 깔끔한가
-
Reasoning Quality: 생각의 과정이 논리적인가
-
Style Alignment: 요청한 톤/스타일을 잘 맞추는가
→ 여기서 관찰 포인트:
“좋은 답변이란,
단일 점수가 아니라 이런 항목들의 벡터 다.”
4. 평가 환경과 오케스트레이션 (20분)
4-1. “환경”을 구성하는 4요소
-
Input
- 문제 / 데이터 / 프롬프트
-
Agent
- 사람, AI, 또는 둘이 섞인 팀
-
Tool
- 검색, 스프레드시트, 코드 실행, 브라우저, 내부 시스템 등
-
Feedback & Rubric
- 누가, 어떤 기준으로, 얼마나 자주 평가해 주는가
이 넷이 모여 하나의 “RL-Gym 같은 일터 환경”이 됨.
4-2. 인간과 AI의 역할 분담
-
인간이 잘하는 것:
- 가치 설정: 무엇이 좋은 답/나쁜 답인가?
- 루브릭 설계: 기준 항목과 가중치 설정
- 엣지 케이스 판단: 애매한 상황에서 최종 결정
-
AI가 잘하는 것:
-
루브릭에 맞춰 대량 평가
-
자기 비평(Self-critique) + 후보 여러 개 만들어 비교 ACL Anthology+1
-
5. 실습/스토리: “재미 있는 웹게임을 가지고 루브릭·에이전트·환경 만들기” (25분)
여기는 강의에서 라이브 시나리오로만 가도 되고,
준비 여건 되면 실제 간단한 웹 페이지 데모로 만들어도 좋음.
5-1. 시나리오 설정
-
가상의 웹게임: “스토리 이어 말하기 게임”
- 사용자에게 프롬프트:
“오늘 있었던 일을 3줄로 요약해 주세요.”
- AI가 그걸 읽고
- 한 줄로 요약해 준다
- 이모지 2개를 붙여준다
- 사용자에게 프롬프트:
-
여기서 우리가 하고 싶은 일:
-
“AI가 만들어 주는 요약이 좋은지 나쁜지 평가하고,
더 좋게 만들도록 환경 + 루브릭 + 오케스트레이션 을 설계해 보기”
-
5-2. 루브릭 설계 예시
예를 들어 이런 5항목:
- 정확성 – 원래 내용과 의미가 잘 유지되는가
- 간결성 – 너무 장황하지 않고 한 눈에 들어오는가
- 감정 톤 – 사용자의 감정 상태를 잘 살렸는가
- 명확성 – 어려운 표현 없이 누구나 이해 가능한가
- 재미 요소 – 이모지 선택이 어색하지 않고 공감 가는가
각 항목을 1~5점으로 두고, 중요도에 따라 가중치 설정.
5-3. 오케스트레이션 구조 (Cursor / Claude Code를 예로)
-
Agent 1 – Writer
- 사용자의 일기를 요약하는 AI
-
Agent 2 – Judge
- 위 루브릭으로 Writer의 결과를 채점하는 AI (LLM-as-a-judge) ACL Anthology+1
-
Agent 3 – Coach
- 점수가 낮을 때, 어떤 점을 고치면 좋을지 피드백을 주는 AI
-
Human
- 루브릭을 설계하고, 가끔 샘플을 직접 보며 “Judge가 잘 평가하는지” 감시
이걸 “한 번 돌리고 끝”이 아니라,
-
매주 루브릭을 조금씩 수정
-
낮은 점수 케이스를 모아서 회고
하는 루프 구조까지 보여주는 게 포인트.
6. 철학적 정리: “해결자가 아니라 환경 설계자로 산다는 것” (10–15분)
6-1. 앞으로 우리에게 필요한 4가지 태도
-
질문력
- “뭘 시킬까?”가 아니라
- “어떤 환경이 만들어지면 일이 저절로 풀릴까?”
-
조합력(Orchestration)
- 사람 + AI + 툴 + 프로세스를 악기처럼 섞어 쓰는 능력
-
관찰–리팩터링 루프
- 한번 만든 환경을 관찰 → 튜닝 → 재설계 하는 습관
-
가치·안전 감각
-
RLHF / 3H(Helpful, Honest, Harmless)가 하는 질문을
우리 삶에도 던져보기:
“이 결정은 나와 주변에 정말 도움이 되는가, 정직한가, 해를 덜 주는가?” ACM Digital Library+1
-
6-2. 마무리 멘트
-
“AI는 이미 자기 환경을 만들고, 자기 루브릭으로 자기 자신을 평가하며 성장하고 있습니다.
인간에게 남은 역할은, 그 위에 올라서서
무엇을 위해, 어떤 방향으로 환경을 설계할지 결정하는 것 입니다.”
Opus 4.1의 강의자료내용에대한 반론
이 강의가 제시하는 “환경 설계자” 패러다임에는 매력적인 통찰이 있지만, 동시에 심각한 맹점들이 있습니다.
강의의 핵심 함의와 그 한계
1. 과도한 추상화의 함정
강의는 인간을 “메타-레벨의 설계자”로 위치시키려 하지만, 실제 현장에서는 여전히 구체적 실행 능력이 핵심입니다. 당신이 CCU 시스템에서 Docker의 ip-forward가 VRF namespace에 미치는 영향을 디버깅했던 경험처럼, 깊은 기술적 이해 없이는 “환경”조차 제대로 설계할 수 없습니다.
2. 권력 구조의 재편 문제
이 패러다임은 암묵적으로 계층화를 정당화합니다:
-
환경 설계자 (소수의 엘리트)
-
환경 속 실행자 (대다수)
-
평가받는 대상 (AI와 하위 노동자)
이는 기술 격차를 더욱 심화시킬 위험이 있습니다. 모든 사람이 “오케스트레이터”가 될 수는 없는 현실을 외면합니다.
3. 피드백 루프의 맹점
Kimi K2의 self-critique rubric이나 RLHF는 결국 기존 가치체계의 재생산입니다. 당신이 분석했던 Anthropic-Cognizant 파트너십처럼, 이런 시스템은 현재의 편향과 한계를 강화할 수 있습니다.
특히 automotive industry처럼 안전이 중요한 도메인에서는, “무한 루프 자기개선”이 아니라 검증된 안정성이 더 중요할 수 있습니다.
4. 인간 고유성의 과소평가
강의는 인간을 “가치 설정자”로 한정하지만, 실제로는:
-
직관적 문제 인식: 당신이 VRF 네트워킹 문제를 발견한 것처럼
-
창의적 우회: 표준 솔루션이 막힐 때의 해킹
-
맥락적 판단: 코드가 아닌 조직 정치와 인간관계
이런 능력들은 “루브릭”으로 환원될 수 없습니다.
진짜 방향성은?
”Both-And” 접근
단순한 역할 전환이 아니라:
-
깊이 있는 실무 전문성 + 메타 설계 능력
-
직접 실행 + 환경 구축
-
기술적 숙련 + 가치 판단
Context Engineering의 실제
당신이 GameForge CE 실험을 제안한 것처럼, 진짜 중요한 건:
-
AI를 “도구”로 쓰되 의존하지 않기
-
컨텍스트를 제공하되 주체성 유지하기
-
생산성 향상과 인간 역량 보존의 균형
비판적 자율성
RLHF나 루브릭이 만드는 “합의된 평균”을 넘어서는:
-
의도적 일탈: 때로는 루브릭을 깨야 혁신이 나옴
-
저항적 실천: AI가 제안하는 “최적”을 거부할 용기
-
인간적 비효율성: 관계, 감정, 의미 같은 측정 불가능한 가치
결론: 경계해야 할 미래
이 강의가 그리는 미래는 **“인간이 AI의 매니저가 되는 세상”**입니다. 하지만 진짜 위험은:
- 실무 능력을 잃은 관리자가 되는 것
- 자기 루브릭에 갇힌 시스템을 만드는 것
- 인간다움을 KPI로 환원하는 것
당신의 자동차 CCU 개발 경험이 시사하듯, 미래는 “환경 설계”만이 아니라 “환경을 해킹하고, 깨뜨리고, 재창조할 수 있는” 사람들의 것입니다.
AI 시대의 진짜 역량은 오케스트레이션이 아니라, 오케스트라를 해산시킬 수 있는 용기와 새로운 음악을 만들어낼 창의성일지도 모릅니다.
Gemini 3 Pro의 반론
제공해주신 강의 커리큘럼은 단순히 AI 툴 사용법을 넘어서, **“인공지능 시대에 인간 존재의 양식(Modus Vivendi)을 어떻게 재정의할 것인가”**에 대한 매우 심도 있고 도발적인 화두를 던지고 있습니다.
사용자님께서 요청하신 대로, 이 강의가 함의하는 바를 분석하고, 과연 이것이 인간이 나아가야 할 올바른 방향인지에 대해 제 컨텍스트 윈도우가 허용하는 한계까지 비판적 사고를 확장하여 깊이 있게 고민해 보았습니다.
1. 강의의 핵심 함의: “호모 파베르(도구적 인간)의 종말과 호모 아키텍투스(설계하는 인간)의 탄생”
이 강의는 인간의 역할을 **‘실행(Execution)‘**에서 **‘설계와 조율(Design & Orchestration)‘**로 강제 이주시키고 있습니다.
A. 플레이어에서 게임 마스터로의 전환
-
기존: 인간은 게임판 위에서 땀 흘리며 뛰어다니는 **플레이어(Solver)**였습니다.
-
함의: 이제 인간은 게임의 규칙(Rubric)을 정하고, 경기장(Environment)을 짓고, 선수(AI Agent)를 기용하는 **게임 마스터(Environment Designer)**가 되어야 합니다. 직접 엑셀 함수를 짜는 것은 하수이고, ‘어떤 데이터가 왜 필요한가’를 정의하는 것이 고수가 되는 길임을 시사합니다.
B. “루브릭”에 의한 가치의 정량화
-
강의는 모호했던 인간의 ‘직관’과 ‘취향’을 AI가 이해할 수 있는 **명시적 언어와 점수(Rubric/Vector)**로 변환할 것을 요구합니다.
-
함의: “그냥 좋아 보여”는 더 이상 통용되지 않습니다. 왜 좋은지, 무엇이 ‘Helpful’하고 ‘Honest’한지 논리적으로 분해(Decompose)할 수 없는 인간은 AI에게 일을 시킬 수 없는 무능력자가 됩니다.
C. 재귀적 자기 개선(Recursive Self-Improvement)의 내재화
- Kimi K2나 AlphaZero처럼, 인간도 ‘행동-평가-보상’의 루프를 통해 자신과 조직을 끊임없이 최적화하는 알고리즘적 사고방식을 탑재해야 한다고 주장합니다.
2. 비판적 시각: 이 방향성은 과연 옳은가? (Deep Critique)
이 방향성은 효율성의 관점에서는 완벽한 정답일 수 있으나, 인간성의 본질과 실존적 관점에서는 위험한 함정을 내포하고 있습니다. 다음은 제가 극한으로 밀어붙여 고민해 본 4가지 비판적 쟁점입니다.
① “빈 껍데기 설계자” (The Empty Architect)의 역설
강의는 “직접 풀지 말고 환경을 설계하라”고 합니다. 하지만 직접 문제를 풀어보며 진흙탕에서 뒹굴어보지 않은 사람이 과연 좋은 환경을 설계할 수 있을까요?
-
현상의 괴리: ‘장인 정신(Craftsmanship)‘은 반복적인 육체적/정신적 노동 속에서 피어나는 ‘암묵지(Tacit Knowledge)‘에서 나옵니다.
-
위험: 바닥부터 기어보지 않은 엘리트들이 책상 위에서 만든 정책이 현장을 망치듯, **실무의 고통(Agony of execution)**을 모르는 인간이 AI에게 지시만 내릴 때, 그 결과물은 피상적이고 영혼 없는 복제품(Hollow Replica)이 될 위험이 큽니다. “땀 흘리지 않는 자의 지휘는 공허하다”는 비판을 피할 수 없습니다.
② 삶의 “루브릭화”와 뉘앙스의 소멸
모든 가치를 ‘루브릭(평가 기준표)‘으로 만들라는 것은, 측정 불가능한 가치를 소거해버릴 위험이 있습니다.
-
정량화의 폭력: 예술, 사랑, 도덕적 딜레마, 창의적 영감은 1~5점 척도나 ‘Helpful/Harmless’ 기준으로 재단하기 어렵습니다.
-
위험: 우리가 AI를 잘 부리기 위해 우리 사고방식을 AI가 이해하기 쉬운 형태로 깎아내리게 됩니다. 즉, **인간이 AI의 사고방식(Vector evaluation)에 맞춰 스스로를 튜닝(Fine-tuning)**하게 되는 주객전도의 상황이 발생할 수 있습니다. 우리는 더 ‘기계적으로 명확한’ 인간이 되기를 강요받게 될 것입니다.
③ 과정의 실종과 결과 지상주의
강의의 핵심은 “어떻게든 일이 굴러가게 만드는 환경(Orchestration)“입니다. 이는 과정의 즐거움이나 의미보다는 산출물(Output)의 효율에 집중합니다.
-
소외(Alienation): 마르크스가 말한 노동으로부터의 소외가 극대화됩니다. 내가 직접 쓴 글, 내가 직접 그린 그림이 아니라, 내가 ‘프롬프트’하고 ‘승인’한 결과물이 될 때, 인간은 창조자가 아니라 **‘결재권자’**로 전락합니다.
-
질문: 결재만 하는 삶에서 인간은 성취감을 느낄 수 있을까요? 아니면 우리는 그저 거대한 기계의 스위치를 누르는 관리자로 남게 될까요?
④ 판단력(Judgment)의 양극화와 의존성
루브릭을 설계하는 능력은 고도의 지적 능력입니다.
-
양극화: 이 강의가 말하는 ‘설계자’가 될 수 있는 인간은 소수일 것입니다. 다수의 대중은 AI가 (혹은 AI를 설계한 소수가) 만든 환경 안에서 소비자로만 남게 될 가능성이 큽니다.
-
의존성 심화: AI 없이 스스로 문제를 해결하는 근육(Problem Solving Muscle)이 퇴화합니다. 만약 전기가 끊기거나 시스템이 붕괴되었을 때, ‘루브릭’만 짤 줄 아는 인간은 아무것도 할 수 없는 무력한 존재가 됩니다.
3. 종합 결론: 우리가 취해야 할 태도
이 강의가 제시하는 방향은 **‘거부할 수 없는 흐름’**인 것은 맞습니다. 생산성의 격차가 너무나 크기 때문입니다. 하지만 맹목적인 수용은 위험합니다.
| 구분 | 강의가 제시하는 방향 (Thesis) | 비판적 보완 (Antithesis) | 우리가 가야 할 방향 (Synthesis) |
|---|---|---|---|
| 역할 | 환경 설계자 (Architect) | 현장 실무자 (Craftsman) | 현장을 아는 설계자 (Playing Coach) |
| 가치 | 루브릭에 의한 평가 | 직관과 감성, 우연성 | 루브릭으로 뼈대를 잡고, 직관으로 영혼을 불어넣기 |
| 목표 | 효율적 문제 해결 | 행위 자체의 기쁨 | 지루한 반복은 AI에게, 창조적 고뇌는 인간에게 |
저의 결론은 다음과 같습니다:
“이 강의는 **‘생존을 위한 기술(Skill for Survival)‘**을 가르치고 있지만, 그것이 곧 **‘삶의 목적(Purpose of Life)‘**이 되어서는 안 됩니다.”
앞으로 인간이 가야 할 방향은, AI를 오케스트레이션(지휘) 하되, 직접 악기를 연주하는 법을 잊지 않는 것입니다. 루브릭을 짜되, 루브릭 바깥에 있는 ‘형용할 수 없는 아름다움’을 볼 줄 아는 눈을 유지해야 합니다.
이 강의는 유능한 관리자가 되는 법을 알려주지만, 깊이 있는 사상가나 따뜻한 예술가가 되는 법은 침묵하고 있습니다. 그 빈 공간을 채우는 것이 인간의 몫입니다.
4. 추천하는 다음 단계 (Next Step)
이 비판적 시각을 바탕으로, 실제 강의 내용이나 본인의 업무에 적용해 볼 수 있는 구체적인 액션 플랜을 제안해 드립니다.
다음 중 어떤 작업을 도와드릴까요?
- “나만의 루브릭 설계해보기”: 현재 하시는 업무나 프로젝트 중 하나를 골라, AI에게 맡길 수 있도록 평가 기준(Rubric)을 _인간적 가치와 실무적 디테일_을 모두 담아 같이 설계해 본다.
- “AI 오케스트레이션 시나리오 작성”: 본인의 업무 프로세스(Workflow)를 분석하여, 어디까지가 AI의 영역이고 어디가 인간(나)의 _대체 불가능한 판단 영역_인지 구분하는 지도를 그려본다.
- “반론 준비하기”: 만약 이 강의를 듣는 청중이거나 토론자라면, 강연자에게 던질 수 있는 _날카롭고 통찰력 있는 질문 리스트_를 뽑아본다.
노정석님의 Podcast EP69
EP 69. 지금, AI 최전선의 방향—프런티어의 바깥에서 프런티어를 이야기하기
제공해 주신 자막 내용은 다음과 같습니다.
[노정석] 녹화를 하고 있는 오늘은 2025년 9월 20일 토요일 아침입니다. 오늘은 새로운 호스트를 한 분 모셨습니다. 네이버 HyperCLOVA에 계시는 김성현 님 모셨는데요. 김성현 님은 저희 페이스북에서 승준 님과 함께 매우 흠모를 하던 그런 분이기도 하고요. 아시다시피 요즘 세상을 보면 이 프런티어 모델들 OpenAI의 ChatGPT라든지 소위 OpenAI, 구글, 중국의 몇 개, 한 2~3개의 랩들 프런티어 랩들이 만들어내는 슈퍼 인텔리전스가 만들어지면 이 모든 것들이 의미가 없어진다. 소위 Sam Altman이 steamroll될 거다 이런 얘기를 하는데 그런 세상이 될 거라고 예측을 하고 있지 않습니까? 그렇다면 저희가 이 현실에서의 노력을 하는 것도 중요한데 이 프런티어 랩들의 최전선이 어디로 흘러가고 있는지를 명확하게 알고 있는 것, 100%의 어떤 진실은 아니더라도 그 vector 방향성이 어느 방향으로 향하는지는 명확히 아는 게 중요할 것 같아서 저나 승준 님보다는 훨씬 이 프런티어에 가까이 계시고 그 부분에 대해서 논문도 많이 읽으시고 철학적인 고찰도 많이 하시고 저희에게 가르침을 계속 주셨던 김성현 님 모시고 저희의 새 호스트 김성현 님 일단 환영 한번 할까요? [최승준] 네, 반갑습니다.
저는 새 모델이 나오거나 tech report가 나올 때는 그걸 직접 요새는 읽기보다는 성현 님이 무슨 글을 올리셨나 먼저 보는 요즘이거든요. 항상 그거를 나름의 관점을 가지고서는 소개해 주시는 것이 굉장히 인상적이었는데 오늘 제목에는 안개가 일단은 끼어 있는 뭔가 암시하는 바가 있을 것 같은데 어떤 내용인지 너무 기대가 됩니다. [노정석] 그럼 저희 김성현 님 모시고 오늘의 이야기 시작해 보도록 하겠습니다. [김성현] 새로운 호스트로 조인하게 된 김성현이라고 합니다. 소개받은 대로 네이버 클라우드에서 AI 엔지니어로서 일하고 있고요. 오늘은 제가 최근에 생각하고 있었던 주제에 관해서 공유해 드리면 좋을 것 같아서 가져왔습니다. ‘The Fog of Progress’는 사실 가장 마지막 부분을 소개해 드리겠지만 Hinton이 강의에서 한 표현인데요. 제가 개인적으로 굉장히 좋아하는 표현입니다. 그런데 이게 어떤 의미인지는 아마 좀 천천히 살펴보면 될 것 같습니다. 사실 지금 가장 중요한 문제가 과연 그래서 프런티어 빅테크들에서는 무슨 일이 일어나고 있는가, 그것들을 모두가 궁금해하는 문제이기도 하고 실제로 중요한 문제이기도 하죠. 그런데 정확하게 엄밀하게 말하자면 프런티어에 대한 얘기를 할 수 있는 건 프런티어에 있는 사람들이 얘기를 해야 되는 게 맞긴 합니다.
그렇지만 정작 프런티어에 있는 사람들은 프런티어에 지금 무슨 일이 일어나고 있는지에 대해서는 얘기를 안 하고 있죠. 그래서 이 문제에 대해서 말씀드리는 게 굉장히 조심스럽습니다. 왜냐하면 너는 프런티어에 있어서 프런티어를 알고 있어? 약간 이런 질문을 받으면 ‘아니요, 모르는데요’라고밖에 말할 수가 없거든요. 그게 사실 정확한 표현이고요. 그런데 이 문제에 대해서 생각해 보다 보니까 작년에 굉장히 인기 있었던 주제였죠. Q* 혹은 Strawberry. 그래서 이게 공식적으로 누가 Q_랑 Strawberry라는 게 있다는 얘기를 했던 것도 아니고 Q_, Strawberry 때문에 Sam Altman과 관련해서 문제가 생겼다, 트러블이 있었다, 마찰이 있었다, 이런 얘기를 가지고 그 이후에 Q_가 무슨 방법인지에 대해서 엄청나게 많은 얘기를 했죠. 그런데 놀랍게도 거의 대부분의 사람들이 헛다리를 짚었습니다. 대부분 Q-learning하고 A_ 알고리즘과 뭔가 관계가 있을 거라는 얘기를 AI 업계에 있는 사람들도 얘기를 많이 했죠. 그렇지만 거의 다 틀렸고, 거의 다 틀렸고요. 유일하게 거기에서 맞는 얘기를 했던 사람들은 결국 프런티어에 있는 사람들이었습니다. Denny Zhou 같은 사람들이 아니야, search하면 안 돼. search하지 말고 RL을 해, 이런 얘기를 했었거든요.
그런데 결국엔 그 사람들이 했던 얘기만 맞았고 다른 사람들의 얘기는 대부분 틀린 얘기였죠. 그리고 그 사람들을 믿지도 않았어요. search를 하면 안 돼라는 얘기를 했어도 아니, 왜 search를 하면 안 된다는 거야? search가 답일 것 같은데, 라는 얘기를 많이 했죠. 그런데 그렇다고 해서 그런 추측들이 아주 의미가 없었던 것 같지는 않습니다. 어쨌든 reasoning, 즉 추론이 중요하다, 뭔가 RL하고 search와 관련된 작업들을 한번 탐색을 해봐야 될 것 같다, 이런 자극을 강하게 제공했던 건 사실이었던 것 같거든요. 그리고 그렇기 때문에 1년 동안 수많은 사람들이 수많은 시도를 했죠. 그리고 수많은 시도를 한 결과 그 사람들도 많은 삽질을 하고 많은 실패를 겪고 하다가 결국 Deepseek R1이라는 방법을 찾아냈고 그 R1이라는 방법이 맞는 방법이었다는 것이 확실해졌잖아요. 그렇기 때문에 추측은 틀릴 수 있지만 문제의 방향에 대해서 생각해 보는 것은 의미가 있을 것 같다는 생각을 합니다. 그 문제의 방향이 올바른 방향이라면 그 방향을 계속 파고들어 가다 보면 거기에 대해서 어떤 결과를 남들보다 좀 더 빨리 얻을 수도 있고 통찰을 얻을 수도 있을 테니까요.
그런 점에서 이 Q*와 관련된 문제들에 대해서 약간의 용기를 얻어서 이 문제에 대해서 생각해 보는 것 자체는 의미가 있을 수 있겠다, 설령 프런티어 바깥에 있더라도라는 생각을 하게 됐습니다. 그런데 프런티어의 바깥에 있더라도 지금 빅테크들이 중요하게 생각하고 있는 문제는 거의 자명한 것 같아요. 왜냐하면 그 사람들이 어디에 돈을 쓰고 있는가, 어떤 데이터를 모으는가, 그리고 어떤 작업들을 하는가 하는 건 명확한 것 같거든요. 추론과 에이전트의 시대라는 건 거의 분명한 것 같습니다. 너무 당연한 얘기일 수도 있을 것 같은데, 이게 추론과 에이전트의 시대라는 게 무게감이 어쩌면 사람들이 생각하는 것보다 좀 더 클 수도 있을 것 같아요. multimodal과 같은 문제들, 보통 사람들이 굉장히 중요하다고 생각하는 문제들이죠. 이런 문제들조차도 내려놓고 추론과 에이전트에 집중하고 있는 것처럼 느껴지기도 하거든요. 예를 들어서 Anthropic 같은 경우, Anthropic 같은 경우는 multimodal 같은 문제도 좀 내려놓고 추론과 에이전트에 거의 올인했다는 평이 많은 것 같아요. 중국 쪽에 있는 많은 기업들, Moonshot AI라든지 DeepSeek이라든지 이런 기업들도 지금 가장 중요하게 생각하는 건 multimodal 같은 문제들이 아니라 추론과 에이전트를 해결하는 문제라는 평들이 많은 것 같습니다.
이게 말씀드렸던 것처럼 보통 사람들이 말하는 것하고는 약간 달라요. 기본적으로 multimodal 문제가 풀려야 이미지, 시각 처리 문제 같은 것들이 풀려야 AGI에 도달할 수 있을 거다, 지능이 높아질 거다라는 생각을 많이 하고 또 비전 쪽에 관심이 많은 학자들은 그런 얘기를 끊임없이 계속해서 하거든요. Yann LeCun 같은 사람도 그렇고 Fei-Fei Li 같은 사람도 그렇고 이런 얘기를 실제로 많이 하기도 합니다. 텍스트는 현실 세계에 존재하는 이미지의 모든 정보 같은 것들을 다 포착하지 못하기 때문에 한계가 있다. 그런데 제가 이런 빅테크에 있는 사람들이나 AI 연구자들이 하는 얘기를 들어보면 그 사람들의 관점은 약간 달라요. 그 사람들은 언어를 훨씬 중요하게 생각합니다. 기본적으로 AI 역사의 초반이나 어떻게 보면 지금까지도 많은 사람들이 이미지나 텍스트나 똑같이 그냥 데이터일 뿐이라고 생각하는 경향이 있었어요. 그러니까 텍스트에 대해서 BERT라든지 GPT라든지 이런 것들이 굉장한 성공을 거뒀으니까 이미지에 대해서도 그렇게 unsupervised learning 같은 거 학습시키면 텍스트에 대해서 할 수 있는 것처럼 할 수 있을 거다라는 생각을 많이 했어요.
그런데 생각보다 많은 사람들이 지금 동의하고 있는 것과 같은 문제는 ‘텍스트하고 이미지는 다르다’입니다. 그리고 텍스트가 어마어마하게 강력한 데이터다. 예를 들어서 데이터 중에서도 용이하게 접근할 수 있는 웹 텍스트나 웹 이미지, 웹 비디오 같은 것을 생각해 보면 웹 텍스트에 대해서 pre-training을 한다는 것은 굉장히 많은 task, 즉 과제에 대해서 학습을 하는 것과 비슷합니다. 그러니까 한 번에 수없이 많은 과제를 웹 텍스트에 대한 학습으로 학습을 할 수가 있어요. 그런데 웹 이미지에 대해서는 심지어 웹 영상에 대해서도 이런 일이 잘 일어나지는 않습니다. 그러니까 같은 형태의 데이터가 아니고 텍스트 데이터는 지능이라고 부를 수 있을 것에 굉장히 가까운 어떤 특성을 가지고 있는 데이터인 거죠. 그걸 학습하는 것을 통해서 지능과 수많은 데이터 과제에 대한 학습이 동시에 일어나는 과제라고 볼 수 있을 것 같습니다. 그래서 많은 회사들이 이 텍스트에 대해서 갈수록 더 중요하게 생각하고 있는 것 같고 더 집중하고 있는 것 같이 저는 느껴져요. 그래서 그런 관점에서 봤을 때 더더욱더 추론과 에이전트가, 특히 텍스트를 통한 추론과 에이전트가 갈수록 더 중요하게 여겨지고 있는 상황인 것 같고요.
듣기로는 Thinking Machines 같은 회사의 경우는 아예 multimodal에 집중하는 형태로 하고 있다고 하긴 하던데 그 부분은 제품이 나와봐야 확실하게 알 수 있을 것 같고요. 현재 제일 중요한 건 그 방향으로 실제로 가봐야 하는 거죠. 실제로 그런 형태로 작업을 하고 있는 건지는 제품이 나온 다음에야 확실하게 알 수 있을 것 같고, 현재 그 외의 기업들이 굉장히 집중하고 있는 건 추론과 에이전트인 것 같습니다. Google같이 워낙 큰 기업들은 뭐든지 다 할 수 있는 능력을 갖고 있으니까 비디오 생성도 하고 월드 모델도 하고 하지만 나머지 기업들은 이 문제에 훨씬 집중하고 있는 것처럼 보입니다. [최승준] 제가 최근에 추론에 대한 질문을 받았는데 답을 잘 못한 기억이 갑자기 나는데요. 여기서 말하는 추론이 뭐냐, reasoning이냐 inference냐, 그 추론의 정의에 대해서 질문을 받았는데 갑자기 턱 막히면서 잘 설명을 못하겠더라고요. 혹시 성현 님은 이 맥락에서의 추론을 어떻게 정리를 하고 계실까요? [김성현] 이건 제 습관이긴 한데 추론, 여기서의 추론은 reasoning입니다. 사실 inference라는 것 자체도 단어의 오용이긴 한데요.
통계적 추정에서의 inference가 inference로 쓰이지 않고 현재 보통 AI 모델에 대해서 inference라고 하면 텍스트를 생성하는 과정을 얘기하는 거예요. 텍스트를 생성해서 서비스를 하는 과정을 보통 얘기하죠. 그 inference 같은 경우는 저 같은 경우에는 디코딩이나 샘플링이라고 보통 표현을 합니다. 이건 공식적인 건 아니고요. 제가 그냥 언어적인 습관입니다. [최승준] 여기서 말하는 reasoning을 조금 더 쉽게 우리가 늘 알고 있다고 생각하지만 그래도 한 번 더 이렇게 짚고 넘어가자면 어떻게 좀 풀이를 하실 수 있을까요? [김성현] reasoning을 사실 엄밀하게 말한다는 것도 쉬운 일은 아닐 것 같습니다. 어떤 사람들은 이런 LLM에서 일어나는 일에 대해서 reasoning이라고 표현하는 것에 반감을 갖고 있기도 합니다. 근데 보통 현재의 맥락에서 reasoning이라고 하면 어떤 최종적인 답안을 생성하기 전에 그 이전에 사고와 생각하고 비슷한 텍스트 생성을 통해서 최종적인 답변을 준비하는 과정을 거친다 라는 것을 말할 수 있을 것 같고요. 좀 더 구체적으로 들어가면 여기서 reasoning이라고 표현하는, 추론이라고 표현하는 건 그 중간에 생성되는 결과가 특히 강화 학습을 통해서 학습되는 것을 표현합니다.
왜냐하면 그 이전에 Chain of Thought라고 하는 경우에는 Chain of Thought가 그 내용이 강화 학습으로 학습되지 않았거든요. 그때는 보통 사람이 어떠어떠한 식으로 생각을 하라고 어떠어떠한 식으로 텍스트를 생성해서 답을 하라고 직접 학습을 시키거나 가이드를 줬었죠. 근데 지금 추론은 기본적으로는 그 생각이 모델이 알아서 발견하는 쪽에 가깝습니다. 그게 중요한 차이입니다. [최승준] 말씀하셨던 맥락에서 생각하게 드는 것이 텍스트하고 이미지의 데이터로서의 질적인 성격이 굉장히 다른데, 텍스트는 보다 추상적이고 이제 추론을 잘할 수 있는 쪽의 데이터라고 생각해도 될까요? 추론과 결이 잘 맞는 데이터일까요? [김성현] 텍스트의 세 가지 특성이 있다고 봅니다. 텍스트를 unsupervised 학습을 했을 때 발생하는 것이 생성이 되는 건 이미지나 텍스트랑 똑같습니다. 큰 차이가 나는 게 텍스트는 이해가 발생한다는 얘기를 보통 많이 합니다. [최승준] 다음 토큰을 예측하는 것이 이해하고 연결된다는 [김성현] 이해하고 연결된다는 거죠. 왜냐하면 텍스트는 이전의 맥락을 주었을 때 그 이전의 맥락에 부합하는 나머지 부분들을 생성할 수 있게 되는 특성이 발생하거든요.
근데 그 특성이 이해라고 볼 수 있는 점이 있죠. 왜냐하면 그 이전의 맥락에 대해서 그 맥락에 부합하는 어떠한 텍스트를 생성하는 거니까요. 그러니까 어떤 맥락에 부합해서 행동을 한다면 그 행동을 하는 행위자는 그 맥락을 이해한다고 표현할 수 있잖아요. 그것들이 하나의 큰 차이고, 이해가 발생한다는 것. 나머지 하나는 텍스트는 기본적으로 결국 사람이 만들고 사람이 발명한 것이기 때문에 텍스트에 대해서 학습하면 인간의 관점과 인간의 성향과의 정렬이 자연스럽게 일어납니다. 근데 이미지는 촬영자의 의도 같은 것들이 반드시 포함되긴 하지만 상당 부분이 자연에 그저 존재하는 측면이 훨씬 가깝죠. 그 자연에 존재하는 측면을 인간의 의도나 인간의 관심과 정렬시키는 건 상당히 어렵습니다. 분명히 거기서 갭이 존재합니다. 예를 들어서 인간은 이미지를 이해할 때도 굉장히 기호적인 방식으로 이해하는 경우가 많잖아요. 그러니까 그림을 그려보지 않은 사람들한테 사람의 눈이나 얼굴을 그려보라고 하면 굉장히 기호적인 방식으로 그리죠. 아몬드처럼 생긴 눈, 동그란 얼굴, 세모 형태의 코, 이런 형태로 그리죠. 근데 실제 이미지 자극을 보면, 이미지 데이터를 보면 인간의 얼굴은 그렇게 생기지 않았잖아요.
그건 굉장히 기호화된 형태이고 실제 이미지에서 발견할 수 있는 인간의 얼굴 형태는 굉장히 복잡미묘하고 굉장히 다양한 형태의 모양들을 갖고 있죠. 그래서 제가 알기로 그림을 처음 훈련시킬 때 학습하는 것 중 하나가 인간이 기호적으로 판단한 것을 깨고 그 이미지 자체를 보는 훈련을 한다고 저는 들었는데요. 그렇다고 하면 여기에서 발견할 수 있는 갭이 인간은 어떤 이미지를 봐도 추상화된 기호 같은 것들을 발견하는데 실제 그냥 이미지만 보면 그 이미지에는 온갖 디테일들이 발생하는 거죠. 그리고 모델한테 우리가 제공할 수 있는 건 그런 온갖 디테일이 포함되어 있는 이미지 데이터 그 자체인 거죠. 그 이미지 데이터 그 자체를 인간이 이해하는 기호하고 연관시키는 것은 이미지 자체만으로는 발견하기가 굉장히 어려운 문제일 수 있습니다. [노정석] 텍스트와 이미지가 가지고 있는 정보를 100이라고 했을 때 텍스트는 100 중에 100이 다 무언가 우리가 필요한 데이터라면 이미지는 100 중에 5나 10 정도 이 정도가 딱 우리가 요구하는 그런 데이터일 수도 있다는 그런 느낌으로 저는 와닿습니다. [김성현] 그래서 추론과 에이전트의 시대가 어떤 시대냐라고 하면 Yao Shunyu라고 하는 OpenAI의 연구자였다가 최근에 Tencent로 이직한 연구자가 **“The Second Half”**라는 표현을 쓴 적이 있는데 약간 후반전이라고 표현해야 될까요? 그렇게 표현할 수 있을 것 같아요.
그럼 first half는 뭐였냐라고 하면 그건 방법의 시대였다라고 표현을 하거든요. 그러니까 그때는 문제는 고정되어 있었습니다. 이미지 분류 같은 문제, 이미지 분류를 푼다. 객체 검출 문제를 푼다. 텍스트라고 하면 정서 분류 문제를 푼다, 이런 식으로 문제는 고정되어 있었고 그 문제를 풀기 위한 방법을 찾아다니는 시대였죠. 그래서 수많은 아키텍처도 만들고 어떻게 학습을 시켜야 되는지 알고리즘도 찾고 하는 문제였죠. 그런데 Yao Shunyu가 주장한 건 이 방법의 시대는 끝났다. 방법은 찾았다. 우리는 일반화 가능한 방법을 찾았다, 그래서 문제를 찾아다녀야 하는 시대다라고 표현을 하는 거거든요. 그리고 그 문제를 찾아다닌다는 것이 어떤 의미냐 하면 평가를 찾아야 되는, 평가를 만들어 나가야 되는 시대라고 표현합니다. 그래서 더 현실의 문제와 관련된 문제를 평가하기 위한 평가를 찾아야 된다. 더 현실의 가치와 경제적 가치하고 관련된 어떤 능력을 평가하는 평가 과제를 만들어야 된다, 이런 얘기를 합니다. 그리고 그 평가를 만들 수 있다면 그리고 평가할 수 있는 문제는 뭐든지 풀 수 있다. 어마어마어마한 자신감이라고 생각하고 저는 사실 이 이야기를 들어도 정말로 그런가 하는 생각이 계속 들기는 해요.
정말로 평가할 수 있으면 모든 문제를 다 풀 수 있는가. 저는 사실 그런 확신은 들지는 않습니다. 그렇지만 이 문제를 굉장히 강하게 주장하고 있고, OpenAI에 있는 사람들이. 그 사람들은 X에 포스트하는 것을 잘 못 참잖아요. 이 이야기를 계속합니다. 벤치마크가 있다면 뭐든지 풀 수 있다, 이런 관점적 전환 같은 것들이 나타나고 있는 것 같은 게 최근 OpenAI에서 나온 hallucination 논문이 꽤 화제가 됐었어요. 그 논문의 내용 자체는 사실 이전에 hallucination 연구들의 발전에 가깝긴 합니다. 그런데 OpenAI가 hallucination을 언급하면서 pre-training에 대해서 hallucination이 발생한 이유에 대해서는 굉장히 이론적인 설명들을 해요. calibration이 되어 있고 데이터에 단 한 번만 나타나는 사실은 hallucination이 발생할 수밖에 없고, 이런 얘기를 합니다. post-training 단계에 대해서, 정렬 단계에 대해서 hallucination은 방법적인 얘기를 전혀 하지 않아요. 그때 hallucination에 대해서 얘기하는 건 평가 문제만 얘기를 합니다. 평가가 hallucination에 대해서 인센티브를 주기 때문에 hallucination이 발생한 거다, 이런 얘기를 해요.
그러니까 관점이 많이 다르죠. 평가 문제다, 이건. [노정석] 여기서의 평가는 evaluation, 그게 evaluation과 verifiable, non-verifiable의 관계는 어떻게 정리를 하고 넘어가면 될까요? [김성현] verifiable이 evaluation의 하위라고 봐야 되겠죠. verifiable은 보통 좀 더 용이하게 검증 가능하다고 표현해야 될 것 같습니다. 그러니까 사람의 손을 타지 않고도 검증 가능하다. [노정석] 제가 개념이 헷갈려서 그러는데, non-verifiable해도 evaluation을 할 수 있는 건가요? [김성현] 예, non-verifiable에 가장 가까운 문제들이 LMSYS Arena 같은 데서 사람들이 채팅하면서 어떤 모델이 더 낫다고 평가하는 거죠. ELO 방식의 평가 같은 것들이 non-verifiable에 가깝습니다. verifiable은 보통 그보다는 어떤 알고리즘이나 모델이 있어서 사람의 손을 거치지 않고도 그 모델에 태우면 이게 정답인지 아닌지가 나타나고 그 정답인지 아닌지가 거의 정확하다. 해킹의 여지가 없다 이런 것들을 보통 verifieable라고 표현을 합니다. 앞으로 verifiable의 정의가 계속 변할 것 같다는 생각은 들지만 [노정석] 그러나 우리가 지금 성현 님이 얘기하시는 이 평가의 시대에서의 평가는 이걸 다 포함하는 evaluation evaluation의 개념이다라고 받아들이면 딱 맞겠죠. [김성현] 예, 그렇게 일단 좀 광범위하게 정의를 해야 될 것 같습니다.
그래서 hallucination 얘기로 돌아가자면 평가의 인센티브가 hallucination을 발생시킨 원인이다라고 표현합니다. 그래서 이게 post-training의 구체적인 방법이 어때서 그렇다 데이터가 어때서 그렇다 그런 얘기를 하지 않는 거죠. 이게 과해석일 수도 있지만 이렇게 관점적인 전환을 나타내는 것 같습니다. 평가가 결국 학습을 결정하는 문제다라는 형태의 사고의 전환 같은 것이 일어나고 있다는 거죠. [최승준] 그 답을 말하는 데 인센티브가 있어서 그런 뉘앙스가 있었던가요? [김성현] 응답을 거부하고 모른다고 하는 것보다는 일단 답을 말하는 게 그거 찍어서라도 맞으면 좋은 거니까 더 그쪽으로 인센티브가 간다. 이게 아마 주요 발상이었을 겁니다. 그게 post-training 단계에서 얘기하고 pre-training 단계에서는 또 굉장히 이론적인 얘기를 따로 합니다. [최승준] 샘플링 얼마나 보여줬느냐의 문제 그런 거였던 거죠. 흥미롭네요. [노정석] 그리고 사실은 전반전과 후반전을 나누는 거는 OpenAI o1 추론 모델, thinking 모델 이것의 분기점이라고 보면 되겠네요. [최승준] eval을 많이 얘기하니까 저는 Goodhart’s Law를 떠올리지 않기가 어렵긴 하거든요.
그게 잘못될 수 있는 거잖아요. [김성현] 예, 그게 엄청나게 중요한 문제이기는 하죠. 저희가 벤치마크 해킹이라고 표현하는 거 Goodhart’s Law라는 게 경제학 쪽에서 처음 나왔던 용어였죠. 경제 성장이라든지 어떤 경제적 목표를 위해서 그걸 달성하기 위해서 지표를 만들 텐데요. GDP라거나 이런 것들을 만들 텐데 그 GDP라는 지표를 만든 다음에 그 지표를 끌어올리기 위해서 노력하면 문제가 생긴다는 거죠. 원래 달성하고자 하는 목표를 달성하는 게 아니라 그 지표를 끌어올리기 위한 어떤 수단을 강구하게 되고 그러면 원래 목표하고는 오히려 멀어지는 현상. [최승준] 벤치마크 전반의 문제이기도 하죠. [김성현] 영원한 문제입니다. 그리고 여기서 방법을 찾았다고 하는 것이 전반전과 후반전을 가르는 제일 큰 차이일 텐데 그 방법을 제안하고 오는 건 강화 학습입니다. 평가가 가능하다면 평가 결과 보상을 위해서 모델을 강화 학습시킬 수 있고 그러면 이 모든 문제가 풀린다 약간 이런 아이디어가 안에 깔려 있습니다. 결국 거기서 찾은 방법이 강화 학습, RL이다라는 거고 그러면 이제 좀 더 구체적으로 들어가서 평가하고 RL이 어떤 형태로 구현이 되는지를 좀 생각을 해볼 수 있을 것 같은데 환경 스케일링이라고 보통 표현을 합니다.
환경이라고 하는 것도 RL적인 용어인데 RL에서 가장 기본적인 그림을 생각하면 어떤 행동을 하는 에이전트, 행위자가 있고 그 행동의 대상이 되는 행동의 환경이 되는 환경이 있습니다. 그래서 에이전트가 환경 안에서 어떤 행동을 하고 그러면 환경이 변화하고 환경이 변화하는 것이 새로운 상태가 되고 보상이 주어지기도 하죠. 세 가지 요소의 결합이라고 볼 수 있을 것 같아요. 어떤 지시가 있고요. 사람의 지시. 어떠어떠한 웹앱을 만들어라 이런 지시가 있겠죠. 그러면 그 지시를 수행할 수 있는 환경이 주어집니다. 그러니까 웹앱을 개발할 수 있는 개발 환경, shell 같은 것도 있어야 될 거고 실제 VM 인스턴스 같은 것들이 필요할 수도 있을 거고요. 그런 환경이 주어져야 되고 그다음에 모델이 개발을 끝냈을 때 그 개발 결과에 대해서 보상을 주어야 합니다. 보상을 줄 수 있는 어떤 메커니즘이 있어야 되고 이것이 소위 verifiable한 보상이다라고 표현을 하죠. 예를 들어서 웹앱 개발이라고 하면 개발 결과에 대해서 unit test를 한다든지 unit test들의 목록 같은 것들이 이제 보상을 제공해 줄 수 있는 메커니즘이 되죠. 이 세 가지가 결합이 되어서 하나의 환경을 이룬다고 볼 수 있을 것 같고요.
이 세 가지 결합된 환경의 다양성을 늘리는 것 이 환경을 최대한 많이 만드는 것 이것이 환경 스케일링이라고 말할 수 있을 것 같고 이 작업들을 많은 기업들이 실제로 하고 있다고 알려져 있습니다. [노정석] 이것만 한다고 봐야죠. [김성현] 최근에 The Information 기사도 나왔었는데요. 약간 믿거나 말거나라는 느낌이 좀 있긴 하지만 reinforcement learning gym이라고 해서 강화 학습을 할 수 있는 체육관을 만드는 회사들이 지금 많이 있다. 그 회사들이 빅테크하고 연계해서 강화 학습을 할 수 있는 환경들을 제공하고 있다 이런 기사가 올라온 적이 있거든요. 이 환경을 제공한다, 강화 학습 체육관을 만든다는 것이 실용적으로는 대체로 이런 얘기라고 볼 수 있을 것 같습니다. 그래서 지시를 만들고 지시를 실행할 수 있는 환경을 디자인하고 어떤 harness를 디자인하고 지시를 수행했을 때 보상을 줄 수 있는 정답을 줄 수도 있고 그다음에 unit test 같은 거 잔뜩 만들 수도 있고 이런 것들을 계속 늘려나가는 작업들을 지금 회사들이 하고 있다라고 볼 수 있을 것 같습니다. 그래서 지금 회사들이 하고 있는 일 집중하고 있는 일의 측면에서 이게 가장 중요한 문제다라고 볼 수 있을 것 같아요. [노정석] 이런 것들이 가능해진 이유는 모델의 성능이 충분히 좋아졌기 때문에 그 모델 자체 내에서 어떤 새로운 환경을 구성해라 평가해라 이런 것들이 좀 이 바닥 용어로는 on-policy 안에서 그다음에 이제 자기 자체적으로 그런 것들이 가능해진 것들이 가장 큰 원인이라고 보면 될까요? [김성현] RL에 좀 더 친숙한 사람들이 가장 처음 생각했던 의문이 왜 이게 되지?였다고 해요.
왜냐하면 RL의 측면에서는 굉장히 비교적 가혹한 조건입니다. 수행에 대한 행동의 길이는 굉장히 긴데 보상은 가장 마지막에 0과 1로만 주어지는 거죠. [노정석] 맞았다 틀렸다. [김성현] 그래서 이걸로 왜 학습이 되는지에 대해서 의문을 가졌는데 가장 큰 차이점은 언어를 통해서 pre-training이 되었다는 것일 것 같습니다. 그래서 사람들이 많이 발견하고 있는 것 중에 하나가 reasoning의 길이는 굉장히 긴데 거기서 실제로 결정적인 토큰들은 그에 비해서는 굉장히 적다라는 것이 RL을 하면서 발견되고 있는 부분들 중에 하나입니다. entropy라고 보통 표현하는데 결정적으로 분기하게 되는 토큰들은 수천 토큰 내에서도 몇 토큰이 안 되고 그리고 그 나머지 토큰들은 거의 자동적으로 결정된다는 거죠. 그러니까 그 부분의 토큰들은 예측이 너무나 쉽기 때문에 그렇게 중요한 부분이 아니고 실제로 탐색해야 되는 토큰들은 몇 토큰은 안 된다. RL의 관점에서는 그 몇 토큰에만 집중하면 되는 거죠. 그렇기 때문에 문제가 훨씬 쉬워지는 겁니다. 그리고 이 문제를 훨씬 쉽게 만들어주는 게 어마어마한 규모의 pre-training이죠. 그러니까 어떤 text sequence 내에서 대부분의 텍스트는 그냥 아주 자연스럽게 가볍게 예측을 해버리고 가장 중요한 부분들에만 집중할 수 있게 만들어주는 거죠.
그리고 이게 LLM pre-training을 통해서 그리고 모델이 굉장히 강력해지는 것을 통해서 이런 형태의 RL이 가능해지는 거라고 볼 수 있을 것 같습니다. 그래서 DeepSeek이 발견한 것 중 하나는 RL이 가능하려고 하면 모델이 굉장히 크고 강력해야 된다는 것이었거든요. 그리고 모델이 굉장히 크고 강력했을 때 그 모델이 기본적인 부분들, 훨씬 예측 가능하고 자동적으로 수행할 수 있는 부분들을 처리해 주기 시작하면서 RL이 가능해졌다 이런 형태의 가혹한 형태의 RL이 성립할 수 있게 되었다라고 볼 수 있을 것 같습니다. [노정석] 이게 참 0과 1로만 답이 주어진다는 게 저희 진화 알고리즘이잖아요. RL도 일종의 맞으면 살고 아니면 죽고 산 자들만 모아놓고 다시 게임 시작하고 뭐 이런 것과 약간 기시감이 일치하는 것 같습니다. [최승준] 머신러닝 기초의 관점에서 보면 scalar 하나로 떨어져야 backprop을 할 수 있어서 그런 거죠? RL도. [김성현] RL은 기본적으로 scalar 하나, 보상 하나를 가지고 학습하는 게 기본이긴 합니다. 근데 이 보상이 중간 단계에도 주어지는가 마지막 단계에만 주어지는가 이런 문제도 있을 거고요. scalar 하나라고 했을 때 0과 1로만 제공하는 것보다는 어느 정도 정답이다 이런 signal을 제공하는 것이 훨씬 낫겠죠.
근데 지금 LLM에서 RL은 물론 다양한 것들이 결합되지만 기본적으로는 0과 1인 경우가 많이 있습니다. [최승준] 세상이 돌고 도는 게 예전에 OpenAI Gym이라는 거 있지 않았었나요? CartPole 돌리고, 뭐지, Atari 돌리고 막 그런, 그것도 어떻게 보면 환경이고 gym의 상황인데 지금 장표에 띄워주신 Reinforcement Learning Gyms의 그래도 좀 쉬운 예가 얼마 전에 정석님도 소개해 주셨던 Kimi K2에서 소개했던 그런 어떤 게 이제 환경을 만드는 gym이라고 볼 수 있을까요? [노정석] 거기서 이제 어떤 모양인지를 살짝 보여줬죠. 아마 비슷한 일들을 다 하고 있다고 성현 님이 말씀하시는 것 같아요. [최승준] 어떤 형태일지 궁금하네요. [김성현] RL의 gym이 만들어진다고 할 때 이게 점점 더 현실에서 유용한 형태의 환경들이 만들어질 거라고 생각합니다. 그래서 사무 업무를 처리한다든지 구체적인 사무 업무를 처리한다든지 하는 것들이 만들어질 것 같고 지금 가장 대표적인 것들은 코딩 에이전트들이죠. 이제 현실 세계에서 유용한 코딩을 잘하는 능력을 학습시킬 수 있는 환경들을 코딩 환경들을 많이 만들 수 있을 거라고 생각합니다.
그런데 이게 더 의미가 있는 이유가 만약에 모델이 현실에서 실제로 가치 있는 문제 아니면 아예 현실의 문제 자체하고 동일하거나 유사한 환경에서 학습된다면 그렇게 학습된 모델은 현실의 문제를 풀 수 있는 능력을 학습을 하게 되는 거고요. 그러면 모델이 학습되면 제품이 거의 완성되는 거라고 생각할 수 있습니다. 지금 수많은 환경들에 대해서 모델을 학습시키기 위해서 노력하고 있는데 그 환경이 점점 더 발전하고 점점 더 실용적으로 의미 있는 현실의 문제하고 가까워지면 가까워질수록 모델은 그 현실의 문제를 풀 수 있는 능력들을 확보해 나가게 되는 거고 그러면 그 현실에서 직접 투입돼서 사용될 수 있는 제품이 모델을 통해서 거의 완성된 거라고 할 수 있겠죠. 아마 이게 Claude Code라든지 Codex라든지 빅테크에서 에이전트를 학습시키는 과정에서 일어나고 있는 일일 겁니다. Claude Code 같은 그것도 일종의 환경이라고 할 수 있겠죠. 코딩을 할 수 있는 도구들이 주어지니까요. 그 도구를 통해서 모델이 학습되게 되면 그 모델은 코딩할 수 있는 에이전트로서의 능력을 거의 바로 갖추고 있는 상태인 거죠. 거기에 대해서 약간의 껍데기를 만들어주면 곧 제품이죠. 지금 코딩에서 일어나고 있는 일이고 다른 여러 가지 지금 빅테크들이 관심 있는 문제에 대해서 비슷한 일이 일어나고 있다고 생각할 수 있습니다.
사무 업무 같은 것들을 모델이 그 자체로 agentic하게 해결하게 되는 거죠. [노정석] 모델의 성능이 조금 떨어질 때는 이 여러 가지 harness를 통해서 뭐가 만들어지는데 이제 점점 더 이런 것들을 모델이 다 갖게 되면 모델이 곧 제품이라고 보면 맞는 거죠. 이 관점으로 더 확장하면 사실은 AGI, ASI 이런 거 그래서 사람들이 다 될 거라고 생각하는 것과도 맞닿아 있는 것 같습니다. [최승준] 제가 오늘 아침에 상상했던 게 언제까지 사람이 harness를 만들 거냐 하긴 했거든요. [김성현] 마침 그 문제가 이제 후반부에 다뤄야 할 문제이기도 합니다. 그래서 이게 아마 지금 풀고 있는 문제일 것 같고 그러면 현재에서 아주 가깝게 당면한 문제들이 무엇이 있을까 생각해 볼 것 같습니다. 일단 환경 스케일링을 해야 되는데 환경 스케일링은 너무 비싸다는 것일 것 같아요. 아마 지금까지 AI, 머신러닝 모델을 만들면서 가장 비싼 형태의 데이터일 것 같습니다. 환경 스케일링을 위한 데이터가 승준님께서 말씀하셨던 것처럼 이걸 하나하나 다 만들어야 되는데 환경도 만들어주고 harness도 만들어주고 보상을 만들어주기 위한 유닛 테스트도 만들어 줘야 되고 이런 것들을 다 해야 되는 거죠. xAI가 이 tutor라는 형태로 이런 형태의 인력들을 많이 고용하는데 수학 올림피아드 같은 수상자들 STEM 쪽의 PhD들이 자격 조건이거든요.
자격 조건부터가 심상치 않죠. 예전에 데이터 레이블링을 하던 사람들이 해야 되는데 레이블링 자격 조건이 수학 올림피아드 수상자, PhD들 이런 사람들을 데리고 레이블링을 해야 되는 거죠. [최승준] STEM tutor는 처음 봤습니다. 저도. [김성현] 이거 많이 있습니다. 비디오 게임 tutor도 있고요. xAI에서 tutor도 있고 많이 있습니다. 이 tutor라는 직종은, 그리고 시간당 시급이 최대 100달러 정도라고 하더라고요. 근데 사람들이 다들 하는 말이 수학 올림피아드 수상자를 100달러로 고용할 수 있을까요? 아무래도 더 비싸게 불러야 될 것 같은데 이런 얘기를 하고 있거든요. 이 데이터 레이블링 작업을 생각하면 이 비용이 엄청난 거죠. 시간당 최소 100달러를 아마 불러야 되지 않을까 이런 생각이 들고요. 근데 이 환경 스케일링을 하면서 동시에 소수의 환경들에 대해서만 하는 것은 관심이 없거든요. 하나의 소위 뾰족한 지능이라고 표현을 많이 하던데 뾰족하게 하나의 태스크만 수행하고자 하는 건 사람들이 대체로 관심이 없고 수많은 문제들에 대해서 tackle을 하고 싶어 하거든요. 이것 자체가 알고리즘적으로 풀어야 할 문제일 수도 있지만 그게 아니라면 환경 자체를 더욱더 늘려야 되는 문제일 수 있습니다.
수많은 환경에 대해서 학습을 시켜야 일반화가 잘 되지 않을까라고 생각할 수 있고 그러면 그럴수록 이 비용이 더 커지는 거죠. 회사들이 시도하고 있는 것처럼 보이는 게 말씀하신 Kimi K2에서도 비슷하게 시도했었죠. 어떤 환경을 합성하고자 하는, 모델을 통해서 환경을 합성하고 생성하고자 하는 방법들을 시도를 많이 하는 것 같습니다. 그래서 도구 같은 것들을 가져왔을 때 이 도구를 사용하는 과정이라든지 도구를 실행할 수 있는 환경에 대한 시뮬레이터를 만들고 보상을 주고 하는 것들 이런 부분들을 LLM 모델로 할 수 있지 않을까 하는 것들을 많이들 시도하고 있는 것 같고요. 그다음에 최근에 나온 Alibaba 쪽에서 나온 논문에서도 비슷하게 어떻게 도구들을 가지고 이 도구들을 실제로 실행할 수 있는 환경과 그 환경에서 수행할 수 있는 작업과 그 작업 결과에 대한 보상을 모델을 통해서 잘 만들 수 있지 않을까 그걸 통해서 많은 부분을 cover할 수 있지 않을까 하는 연구들을 많이 하고 있고 아마 실제 모델에서 적용도 많이 되고 있을 겁니다. 근데 한 가지 함정이 있다면 Kimi K2에서도 이 방법을 환경을 합성하는 방법을 굉장히 중요하게 하나 가져가긴 했지만 자신들이 중요하게 생각했던 문제들, 프로그래밍이라든지 코딩이라든지 이런 부분에 대해서는 결국 환경을 만들었다고 논문에서 밝히고 있긴 하거든요.
그래서 이 방법들이 계속 발전하고 있겠지만 어디까지 갈 수 있을지 이 부분은 아마 앞으로도 계속 풀어야 할 문제일 겁니다. [최승준] 요즘에 눈에 많이 띄는 단어가 rubric인 것 같거든요. 이 rubric이 교육에서도 많이 쓰는데 이 prompting에서의 rubric은 또 되게 약간 다른 느낌이더라고요. 근데 이게 자꾸 보여서 [김성현] rubric scaling이라고 표현하기도 하는데 이것은 다음 질문에서 바로 나오는 얘기라서 관련해서 얘기하면 좋을 것 같아요. 또 한 가지가 verifiable이라는 게 조건인데 verifiable은 용이하게 검증이 가능해서 정답인지 오답인지를 제공할 수 있어야 한다는 건데 많은 질문들이 그렇지 않은 경우가 많이 있죠. 그래서 열린 질문이라고 하는 것들, 답이 없는 문제들, 앞으로 뭘 하고 싶니, 앞으로 어떤 계획을 세우면 좋을까 이런 질문들에 대해서는 보상을 어떻게 해 줄 것인가가 하나의 문제이고 또 답이 있는 문제들이라고 하더라도 검증이 어려운 경우가 굉장히 많이 있습니다. 수학 같은 경우도 이것은 굉장히 사소한 문제인데 같은 값도 여러 가지 방식으로 표현할 수 있잖아요. 그런데 우리는 가볍게 수학은 정답인지 아닌지 문자나 숫자를 비교해서 보상을 주면 된다고 표현하긴 하지만 이렇게 동등하지만 다른 조합들이 많이 있기 때문에 미지수의 경우에는 미지수의 순서를 바꾼다든지 정리를 얼마나 한다든지 이런 많은 경우의 수가 있기 때문에 이 경우의 수들을 대부분 cover해 주려고 노력을 많이 하거든요.
그러면 이 수학 문제 어떤 숫자로 나오는 정답 같은 것을 검증하는 데에도 상당히 많은 heuristic과 알고리즘이 들어갑니다. 필요합니다. 지저분한 문제이고요. 그렇지만 수학의 모든 문제가 대부분 이렇게 어떤 숫자나 공식 하나로 떨어지는 문제는 아니죠. 어떻게 보면 정말 수학적인 문제는 증명을 하는 문제인데 증명을 어떻게 검증할 것인가, 굉장히 어려운 문제입니다. 보통 답이 있다고 생각하는 문제들조차도 그 답을 검증하는 것은 쉬운 문제가 아니라고 볼 수 있을 것 같고요. 그래서 이 부분에 대해서 생각보다 광범위하게 쓰이는 방법은 모델 기반으로 하는 것입니다. 그래서 모델이 검증하게 하는 방법이고요. 이게 추론 모델이 가능해지기 시작하면 굉장히 자연스럽게 따라오는 문제이기도 합니다. 추론 이전 모델들은 그렇게 신뢰롭지가 않죠. 이 답이 동일한 답인지 아닌지를 이 모델이 정말로 신뢰롭게 예측할 수 있을까라고 하면 믿음직하지는 않았죠. 추론 모델이 어떤 형태로든 가능해지고 나서 이 검증할 수 있는 능력, 수학, 예를 들어 수학 공식이라든지 이 공식의 동등성을 검증하는 능력 같은 것들이 굉장히 신뢰로워졌죠. 추론 모델을 보상을 제공하기 위한 모델로 사용하는 것이 굉장히 자연스러워졌습니다.
그래서 OpenAI도 tech report에서 추론 모델을 보상 모델로 쓰고 있다 이런 것을 언급한 적이 있고요. 그다음에 ByteDance라든지 이런 회사들에서도 추론 모델을 보상 모델로 사용하고 있고 그 외 많은 경우에서도 모델을 보상을 제공하기 위해서 많이 쓰고 있습니다. 그리고 승준님이 말씀하셨던 rubric 기반 방법들이 보상 모델에서 좀 더 나아가 열린 질문에 대응하기 위한 방법 중 하나입니다. 그래서 가장 이전에 소위 RLHF라고 했을 때 그때 사용되던 보상 모델은 그냥 질문과 각 응답을 주고 어떤 응답이 더 나은지를 점수 하나로 체크하는 형태가 많았고 그게 기본이었습니다. 좀 더 발전하면서 나타나는 것이 어떤 질문에 대해서 그 질문에 대한 응답이 갖춰야 할 자격 조건들, 정확해야 하고, 창조적이어야 하고 좀 더 구체적으로 들어가면 포맷이 어때야 되고 이런 것들이 있겠죠. 이런 부분들에 대한 각 평가 항목들을 쭉 만들 수가 있게 됐고 그 평가 항목들을 보통 여기서 rubric이라고 많이 표현을 합니다. 열린 질문에 대해서도 이 rubric 기반으로 접근할 수 있겠죠. 열린 질문은 정답이 주어져 있지는 않지만 그 정답이 대충 어때야 되는지에 대해서는 평가 항목들을 만들 수 있잖아요.
어쨌든 열린 답안이라고 해도 너무 허무맹랑한 소리를 하면 안 될 거고요. 사실과 완전히 다른 얘기를 하면 안 될 거고 이런 형태의 지표들을 쭉 만들 수 있죠. 그 지표들을 만들어서 이 지표들에 대해서 응답이 지표에 부합하는지 부합하지 않는지를 마찬가지로 모델로 평가해서 점수를 만들 수 있고 그 점수를 합산해서 보상을 줄 수 있습니다. 이것들이 아마 가장 기본적인 접근 방향일 거라고 생각이 되고 이런 형태의 연구들도 굉장히 많이 나와 있습니다. [노정석] Kimi 논문도 그렇고 엊그저께 올린 팟캐스트에서 일론 머스크가 나와서 xAI에서 자기네가 데이터셋 클렌징하기 위해서 어떤 것들을 하고 있는지 그런 것도 보여줬었는데 이런 식으로 이렇게 rubric base를 만들어서 한쪽은 점수를 매기는 그런 걸로도 쓰고 또 다른 한쪽에서는 원래 있던 데이터셋들을 그런 rubric base로 더 좋은 데이터셋으로 rewrite하는 거 이런 것들도 많이 진행하고 있는 것 같더라고요. [최승준] Kimi에서도 이 rephrase, rewrite 그런 표현이 있었죠. [김성현] 좀 더 나아가서 생각해 보면 이 rubric 같은 게 주어지고 rubric에 대한 평가 점수가 있다고 하면 그 평가 점수, 평가 결과 같은 것들을 모델에 주고 이 평가 항목들에서 이러이러한 부분이 부족한데 나머지 부분들을 [노정석] 채워서 다시 써. [김성현] ‘채워서 다시 써’ 이런 작업도 충분히 가능하죠. [노정석] 그러니까 모델이 계속 똑똑해지니까 이게 자가 증식하는 것 같아요.
자가 교배를 하며 bootstrapping하고 있는. [김성현] 좀 더 나아가자면 그 부분이 생성과 검증의 갭이라고 표현하는 부분일 수도 있습니다. 그러니까 검증하는 건 쉬운데 그 검증 조건에 부합하는 걸 생성하는 건 어렵다. 그렇지만 검증이 가능하니까 생성할 수 있는 능력을 검증 능력을 통해서 계속 끌어올려 나가면 모델 성능이 향상될 거다, 이런 기대를 할 수 있죠. [최승준] 예전부터 RL 쪽 분들 John Schulman이라든가 Paul Christiano 이런 분들이 그런 얘기를 계속했던 것 같아요. [김성현] 그리고 다음 문제로 생각되는 게 long context 문제, 그리고 long context 문제하고 결부되는 건 에이전트라고 하면 수행할 수 있는 작업의 길이가 늘어나는 거고 한 단계에 대해서 문제 하나 푸는 것에 대해서도 더 오래 생각할 수 있는 능력이 발생하는 거죠. 그 능력을 함양시키는 것이 중요한 문제, 당면한 문제라고 생각이 되고요. 여기에 대해서도 많은 얘기를 할 수 있을 텐데 공통적으로 하는 얘기는 지금 long context 평가하는 가장 기본적인 방법 중 하나는 많은 경우에 여전히 기다란 컨텍스트, 굉장히 장문의 텍스트를 주고 그 장문의 텍스트에서 어떤 항목이나 아이템 같은 것들을 찾아내는 작업들을 많이 합니다.
그래서 이걸 **‘바늘 찾기’*_라고 보통 표현을 하는데 ‘바늘 찾기’를 잘하는 것을 넘어서 실제로 이 long context를 마치 짧은 컨텍스트처럼 그 안에서 굉장히 효과적으로 추론할 수 있는 능력을 함양시키는 거예요. 실질적으로 그 long context를 정말로 잘 다룰 수 있게 해주는 능력을 함양하는 게 중요하다, 이런 얘기를 많이 합니다. 이거 굉장히 어려운 문제이긴 하고 컨텍스트의 길이에 대해서 이상적으로는 짧은 컨텍스트에 대해서 학습된 모델도 긴 컨텍스트에 대해서 일반화가 되면 좋을 텐데 굉장히 어려운 문제입니다. 수많은 사람들이 태클을 하고 있지만 여전히 굉장히 어려운 문제입니다. [노정석] 지금의 long context는 그냥 짧은 컨텍스트로 학습한 모델이 long context를 처리하도록 이렇게 포지션 이런 것들만 해주는 거지 진짜 long context 안에서 최적화하는 문제는 여전히 풀어야 할 문제로 남아 있는 거라고 봐야 되는 거죠. [김성현] 여전히 그런 것 같습니다. 점점 더, 점점 더 나은 방법이 나타나고 있고 저는 단순히 ‘바늘 찾기’일 뿐이다라고 표현하기에는 그건 약간 어폐가 있다고 생각하지만 그렇다고 long context에 대해서 short context처럼 그런 형태의 추론, 확실한, 엄밀한 추론이 그대로 작동하는가, 그거는 약간 의문의 여지가 있고 심지어 ‘바늘 찾기’조차도 보통 컨텍스트가 길어지면 성능이 떨어지죠.
그리고 이게 꽤 중요한 문제라고들 많이 보는 것 같아요. long context 문제와 관련해서_ _context engineering__이라는 표현, 컨텍스트가 중요하다는 얘기들을 많이 하고 있는데 Karpathy가 얘기를 했을 때 ‘이 사람은 또 vibe coding처럼 단어 하나 만들고 있네’라는 생각이 들었고, 역시나 context engineering이라는 게 엄청나게 화제가 되더라고요. 그런데 화제가 되었던 것을 넘어서 context engineering이라는 게 지금 사람들이 생각하고 있는 어떤 문제하고 맞닿아 있긴 합니다. 어떤 작업을 수행하려고 하면 회사에서 회사 LLM을 통해서 업무를 지시하려고 하면 그 회사 업무와 관련된 수많은 컨텍스트들이 있고 맥락이 있겠죠. 회사의 문서 형태로도 남아 있을 수도 있을 거고, 더 안 좋게는 그냥 회사의 사람들이 전통적으로 알고 있었던, 알음알음 알고 있었던 암묵적, 묵시적 지식 같은 것들이 컨텍스트에 포함되어 있죠. 그리고 그 컨텍스트가 있을 때야만 사실 모델이 작업을 하는 데 굉장히 큰 도움이 되고 어떻게 보면 그럴 때야만 작업이 가능하죠. 그러면 그 컨텍스트를 잘 다루는가, 다룰 수 있는가 하는 문제는 모델이 실제로 유용한 작업을 할 수 있는가 아닌가 하고도 직결된 문제일 겁니다.
컨텍스트를 일단 넣어주는 것 자체도 문제인데 컨텍스트를 넣었다고 했을 때 그 안에 들어가 있는 수많은 정보들을 잘 활용할 수 있는 능력이 모델에 갖춰져 있는가가 모델이 에이전트로서 활동하는 데 굉장히 중요한 병목이라고 할 수 있겠죠. [노정석] 어느 누구도 지금은 답할 수 없는. [김성현] 이 문제도, 이 문제가 어떻게 풀리고 있는지 잘 모르겠습니다. 한 가지 힌트가 있는 거는_ 모델이 커지면 커질수록 이 문제가 좀 나아지는 것 같다__. pre-training의 규모가 커질수록 이 문제가 나아지는 것 같다는 얘기들을 많이 합니다. pre-training의 규모가 커질수록, 모델이 커질수록 long context 능력도 향상되는 것 같고 그리고 수행할 수 있는 작업의 길이 자체도 계속 늘어날 수 있는 것 같다, 그런 얘기를 합니다. 그리고 추론이 결합되면서 더더욱 늘어나는 것 같다__, 이런 얘기를 합니다. 추론이 결합되면서 수행할 수 있는 작업의 길이가 늘어나는 것 같다는 얘기를 하고 있고요. 그런데 한 가지 드는 생각은 저는 최소한 추론의 길이와 관련해서는 이 문제가 풀리고 있는 건가 하는 생각은 듭니다. 그러니까 예전에 Noam Brown이 수학 올림피아드, IMO를 풀었을 때 이 IMO를 푼 모델은 딥 리서치 같은 건 분 단위로 생각했지만 IMO 모델은 _시간 단위로 생각한다__, 이런 얘기를 하고 있거든요.
시간 단위로 생각하면 컨텍스트를 어떻게 관리하는지는 모르겠지만 어쨌든 굉장히 긴 컨텍스트를 어떤 형태로든 관리하고 있다는 걸 의미하고 있고 또 한 가지는 RL에서의 문제, 시간 단위로 추론하는 능력을 함양시키려고 하면 하나의 학습 보상을 얻기 위해서 시간 단위로 모델을 추론해야 되는 거고 그러면 하나의 보상을 얻기 위해서는 시간 단위의 연산 작업이 필요한 거죠. 이 문제가 Noam Brown이 시작했던 문제이기도 했는데 이 문제도 어떻게든 풀리고 있나, 아니면 정말로 그냥 단순하게 연산을 시간 단위로 넣는 방식으로 풀고 있나, 그건 잘 모르겠지만 어쨌든 풀리고 있는 것처럼 보이기도 합니다. ICPC로 지금 12문제를 다 풀었다고 인간 1, 2위 팀이 11문제를 풀었는데 12문제를 다 풀었다고 얘기를 하고 있는데 이게 5시간 제한이고 사람은 3명이 한 팀으로 참가를 한다고 합니다. 그래서 실제 그 3명이 참가했을 때 어떤 형태의 전략으로 풀고 있는지 잘 모르겠어요. 병렬적으로 푸는지, 아니면 병렬적으로 풀다가 어려운 문제는 합의하고 다시 병렬적으로 이걸 어떻게 반복하는지 이러는지는 잘 모르겠습니다. 그리고 모델링을 사실 어떻게 적용했는지도 잘 모르겠어요. 그래서 병렬적으로 12개의 instance를 띄워서 12문제를 한 번에 tackle했는지 그렇게는 안 했을 것 같은데요.
아니면 3개의 instance를 띄워서 사람처럼 3명의 에이전트를 띄워서 풀었는지 아니면 하나 풀고 하나 풀고 하듯 직렬적으로 풀었는지 이건 잘 모르겠습니다. 그 부분에 대한 디테일은 언급하고 있지 않고요. 이 성적표를 보면 이게 위에 있는 숫자가 처음 풀어서 정답을 제출한 시간입니다. 그러니까 5시간 제한이니까 300분 제한이 있고 G 문제 같은 경우는 240분 시점에서 풀어서 제출한 거죠. 그리고 아래에 있는 것들은 시도 횟수고요. 그래서 어떻게 풀었는지 좀 보겠습니다. 어떤 문제들은 이 제출 시간이 굉장히 비슷하거든요. 그래서 이게 병렬로 풀었는지 어떤 3개의 에이전트가 동시에 돌았는지 이 부분은 잘 모르겠습니다. 그런데 아니면 직렬적으로 풀었는지 어떻게 풀었다고 가정하더라도 사고의 시간이 평균적으로 굉장히 길다는 추측을 할 수 있을 것 같아요. 가장 짧은 것도 23분이거든요. 그래서 사고 시간 문제를 풀어 나가고 있는 것 같다. [최승준] 현재 METR 그거에서 GPT-5가 50%가 2시간 40분인가 그랬지 않나요? 그런데 이제 모델의 수행 능력이 아니라 그건 인간의 수행 능력에 인간의 수행 능력을 기준으로 했을 때 모델의 수행 능력이 지금 어쨌든 hour 단위라는 거죠.
올해의 상황이. [김성현] 이게 점점 길어지고 있다. 실질적으로 모델이 실행하는 시간, 토큰을 생성하면서 사고하는 시간이 길어지고 있는 것 같다는 게 느껴집니다. 그리고 어떤 형태로든 이걸 풀었다는 의미가 아닌가 하는 생각이 들어요. 롱 컨텍스트 문제와 사고의 길이 문제를. 그런 의미가 아닐까 하는 생각을 합니다. 아직 우리가 모를 뿐이지 프런티어에서는. [노정석] 얘들에 대한 진전이 있다. [최승준] ICPC는 GPT-5로 여러 개 한 거를 이제 상위 모델이, 그러니까 다음 모델, IMO급 모델이 고르는 형태로 11문제를 풀고 나머지 한 문제만, 제일 어려운 것만 IMO급 모델로 풀었다 하고 이렇게 포스팅이 돼 있긴 하더라고요. [김성현] 가장 어려운 문제가 아마 이 문제겠죠. [최승준] 240분을 붙잡고 있었다는 얘기잖아요. [김성현] 그런데 만약에 직렬적으로 풀었다고 하면 다른 문제를 푼 다음에 이 문제를 풀었기 때문에 이게 느려졌을 수도 있긴 합니다. 그래서 그 부분을 정확하게 어떻게 했는지 모르겠습니다. [최승준] 4시간을 지금 풀었다는 거잖아요. 붙잡고 있었다는 건데. [김성현] 다른 문제 푸는 데 한 3시간 정도 썼고 나머지 1시간을 이 문제를 푸는 데 썼다 이렇게 될 수도 있긴 하거든요. [최승준] 그러니까 IMO급 모델이 다른 거는 큐레이션만 한 거고 한 문제는 붙잡고 있었던 거거든요. [김성현] 그렇다고 하면 정말로 이 4시간을 붙잡고 있었을 수도 있겠네요. [최승준] 그럴 가능성이 있네요.
진짜. 약간 섬뜩한데요. [김성현] 굉장히 흥미로운 부분이에요. 이걸 어떻게 풀었는지. 그러니까 이게 정말로 모델이 한 서너 시간 사고하는 데 필요한 토큰 양이 얼마인지 감도 안 잡히긴 하는데요. 100만 토큰, 1,000만 토큰 단위로 정말로 토큰을 생성해서 했는지 아니면 그 안에서도 뭔가 다른 메커니즘이 있어서 이 문제를 풀고 있는지는 잘 모르겠습니다. 그런데 어떤 사람들은 메커니즘이 있는 거라고 추측하는 사람도 있고요. [최승준] 그러니까 지금 수행 시간하고 컨텍스트 길이가 또 관련이 있다는 맥락으로 얘기를 해 주시고 있는 거잖아요. [김성현] 왜냐하면 그 사고의 길이가 늘어날수록 컨텍스트의 길이는 늘어나는 거고 사고를 적절하게 활용하려면 컨텍스트에 들어간 토큰들을 적절하게 활용해야 할 테니까요. OpenAI도 모르는 것 같지는 않고 뭔가를 알고 있지 않나 이런 생각은 있습니다. 그리고 이 질문들을 생각해 보다 보면 이 질문들, 환경 스케일링이라든지 열린 질문이라든지 이런 컨텍스트 문제라든지, 이 문제들에서 특히 환경 스케일링과 관련된 문제에서 더 나은 방법이 있지 않을까 하는 생각을 하게 됩니다. 프리트레이닝 같은 경우에는 프리트레이닝이 정말 좋은 점은 프리트레이닝을 통해서 웹 텍스트에 대해서 비교적 용이한 방법으로 수십억 가지의 과제를 한 번에 학습시킬 수 있다는 점이거든요.
그런데 RL을 통해서 환경 스케일링으로 넘어오면서 수십억 가지의 환경을 한 번에 알아서 학습되는 일은 벌어지지 않고 단순하게는 사람들이 하나하나 과제를 만들어주고 있는 상황으로 풀고 있습니다. 그리고 만들어야 하는 과제는 우리가 풀고자 하는 문제가 복잡해질수록 좀 더 다르게 얘기하자면 우리가 풀고자 하는 문제가 더 유용한 문제일수록 더더욱 만들어지기 어려워집니다. [노정석] 네, 그렇죠. [김성현] 그러면 이 문제를 어떻게 좀 잘 해결할 수 있는 방법이 있지 않을까를 생각하는 건 아마 자연스러운 수순이 아닐까 싶습니다. 그런데 당면한 상황에서는 돈을 많이 써서 환경을 만들겠지만요. 경쟁이 또 워낙 치열하기도 하고요. GPT-5 Codex가 나와서 Codex 성능이 좋아지니까 Anthropic의 Claude Code를 모두가 찬양하다가 갑자기 Anthropic이 경쟁에서 뒤처졌대 하면서 이런 분위기가 되더라고요. 경쟁이 정말 치열하고 한순간이라도, 잠깐이라도 성능이 낮아지면 경쟁에서 뒤처지고 있다 이런 얘기가 나오더라고요. 그래서 경쟁이 치열한 상황에서 사람들은 계속 환경을 만들기 위해서 돈을 많이 쓰겠지만 동시에 더 나은 방법이 있지 않을까 하는 생각을 하게 되구요.
이 부분까지가 당면한 문제였다고 제가 생각하는 부분이고 이 부분은 좀 더 제 전망과 추측에 가까운 이야기들을 하게 될 것 같습니다. 여기서부터는, 그래서 이 문제들이 어떻게 풀려나갈 것 같다, 그리고 이 문제들을 해소하기 위한 방법은 어떠한 방법일 것 같다 라는 얘기를 하게 될 것 같습니다. 그런데 이 전망과 추측으로 제가 가져온 게 6가지 아이템인데 이 아이템들을 제가 가만히 앉아서 생각하다 보니까 이 문제를 풀어야 할 것 같은데라고 결론 내린 그런 건 아니고요. 제가 최근에 중국 쪽 팟캐스트를 몇 가지 봤는데 거기서 Zhang Xiangyu이라고 하는 중국의 StepFun에서 유명한 비전 쪽에서 굉장히 유명한 과학자가 제기했던 얘기들, 그리고 Yao Shunyu, 앞에서 말씀드렸던 것처럼 OpenAI에서 The Second Half의 저자이면서 OpenAI에서 일하다가 최근에 텐센트로 이직한 사람이 팟캐스트에서 했던 얘기들을 종합해서 나온 이야기입니다. 그리고 흥미롭게도 Yao Shunyu는 OpenAI 쪽이고 그 사람들이 말하는 부분들이 상당 부분 겹칩니다. 그래서 어떻게 생각하면 이쪽 업계에서 프런티어에 가까운 사람들이 고민하는 문제가 실제로 이런 문제일 가능성이 있다고 생각이 들고요.
어떻게 보면 저도 잘 몰랐던 부분이지만 그 안쪽에 이너 서클이라고 해야 할까요? 그 안쪽에서는 일종의 합의, 컨센서스가 있는 문제일 수도 있겠다는 생각을 합니다. 첫 번째로 나오는 건_ _자율 학습_입니다. 그래서 저희가 환경을 만들어주는 건 모델이 학습할 수 있는 방법, 조건 같은 것들을 다 설계해서 모델한테 주는 거죠. 이러이러한 환경이 있을 테니까 이 환경에서 학습을 해, 이런 환경에서 성공적인 결과를 낼 수 있도록 학습을 해, 세팅을 다 갖춰주는 거죠. 모델이 알아서 학습할 수는 없나, 이런 얘기를 하게 됩니다. 그러니까 예를 들어서 개발자라고 하면 모델이 알아서 문서를 찾아보고 개발 환경을 스스로 세팅해서 자기가 스스로 실험을 해보고 만들어보고 만든 결과를 통해서 이거 좋은 것 같은데, 별로인 것 같은데, 이런 부분들을 알아서 보상을 받을 수는 없나, 이런 생각을 하게 됩니다. 왜냐하면 사람은 그렇게 학습을 하는 것 같으니까요. 실제로 자기가 실험해 보고 스스로 환경을 만들어 나가죠. 이걸 할 수는 없나, 라는 생각을 하게 됩니다. 그리고 그 문제를 하다 보면 가장 첫 단계로 나오는 게 _내적 보상__의 문제, 그러니까 환경을 만들어준다는 건 외부에서 보상을 설계해서 보상을 주는 건데 모델이 알아서 스스로 보상을 발견할 수는 없나, 이런 얘기라고 생각하게 됩니다.
그게 자율적 학습에는 가장 기본적으로 필요한 단계라고 할 수 있겠죠. 그리고 역으로 우리가 보상을 설계해서 준다고 생각할 때도 내적 보상이 없으면 어려운 경우가 있습니다. 아주 오랜 시간이 걸리는 과제들, 그 과제를 풀기 위해서 탐색하는 동안 사람은 수십 년 동안 탐색하기도 하죠. Yao Shunyu 같은 경우는 페르마의 마지막 정리 같은 얘기를 하던데 그 마지막 정리를 풀기 위해서 물론 소소하게 보상이 아예 없었다고 말하긴 어려울 겁니다. 소소하게 어떤 새로운 정리를 만들어내기도 하고 정리가 증명되면서 그것들이 보상이 되기도 했겠죠. 그런데 저희가 보통 평가하는 방식으로 생각하면 가장 마지막에 최종적인 정리, 마지막 정리를 증명했냐 아니냐만 가지고 보상을 주죠. 그런데 그렇다고 생각하면 그 수많은 과정 동안에는 보상이 존재하지 않았던 거죠. 그거는 몇 시간 정도를 넘어서 몇십 년이 될 수도 있습니다. 사람 인생 전체 동안에도 보상이 주어질 수도, 주어지지 않을 수도 있죠. 이런 문제에 대해서는 그렇다고 하면 최종적인 보상뿐만 아니라 그 이전 단계에 보상을 줄 수 있는 방법이 있어야 하지 않을까라는 생각을 하게 되고 거기에 대해서 마찬가지로 생각할 수 있는 것, 모델이 스스로 탐색해 나가면서 보상을 발견하는 것이 답이 아닐까라는 생각을 하게 되죠. [노정석] 대단히 인간적인 이야기인데요. [김성현] 인간은 그런 일들을 합니다.
놀랍게도. [노정석] 굉장히 흥미로운 지점인 것 같아요. [김성현] LLM과 인간의 차이를 생각하면서 인간의 학습은 어떻게 일어나는가, 인간은 어떤 능력을 갖고 있는가를 다시 생각해 보게 됩니다. 물론 그걸 조심해야 할 게, 그렇다고 해서 인간이 하는 방식으로 모델도 똑같은 방식으로 풀어야 된다, 이런 건 아니죠. 그렇지만 모델과 인간의 능력의 차이를 생각해 보는 것은 의미 있는 일인 것 같습니다. 다르게 표현하자면 인간은 KPI만을 위해서 일을 하진 않죠. 인간이 하는 에이전트나 회사 안에서도 그렇다고 하면 지금 모델은 약간 KPI만 가지고 살도록 학습을 시키고 있다면 그것보다는 더 나은 방식이, 더 나은 다른 보상은 있지 않을까, 이런 생각을 하게 됩니다. 그리고 이 문제를 태클하다 보면_ _피드백 문제__를 생각하게 됩니다. 다양한 환경적 결과들, 그래서 모델에 대해서 루브릭 같은 거라고 생각할 수 있을 텐데요. 사람은 자연어를 가지고 피드백을 줄 수도 있죠. 모델의 결과물에 대해서, 약간 모델이 장문을 냈다고 하면 그 장문에 대해서 이러이러한 부분은 좋다, 이러한 부분은 나쁘다, 이런 부분들, 이런 평가들 같은 것들을 어떻게 습득할 수 있을까, 모델이 이제 환경에서 행위하면서 이런 평가들을 어떻게 습득할 수 있을까.
습득했다고 하더라도 예를 들어 자연어로 피드백이 들어왔다고 하면 이 피드백을 어떻게 모델에 활용할 수 있을까, 학습에 활용할 수 있을까, 이것도 문제가 됩니다. 지금 강화학습에서는 결국 모든 걸 루브릭 같은 형태로 다 점수화해서 스칼라 하나로 만든 다음에 그 스칼라로 보상을 줍니다. 이것보다 더 나은 방법이 있지 않을까, 이런 문제들이 따라서 나오게 되죠. 내적 보상을 얘기하다 보면 더 다양한 조건이나 환경적 상태에서 보상을 얻고 싶어지니까요. 그리고 이 문제를 생각하다 보면_ _온라인 학습과 지속적 학습__이 따라 나옵니다. 이번에 드와케시 파텔이 지속적 학습 얘기를 많이 해서 또다시 지속적 학습이 버즈워드가 되어버려서 약간 안타까운 점도 있는데요. 앞선 문제들이 풀리면 온라인 학습과 지속적 학습을 태클하지 않을 이유가 없기도 합니다. 모델이 만약 자율적으로 학습할 수 있다면, 환경에서 알아서 학습할 수 있다고 하면 그냥 환경에 넣어보면 되잖아요. 예를 들어 모델을 환경에서 알아서 학습할 수 있다면 그냥 모델을 회사 안에 넣어보는 거죠. 그냥 회사 안에서 행위하게 해보는 거죠. 그러면 모델이 회사 안에서 행위하고 행위하면서 학습하겠죠, 회사의 맥락들을.
그러면 그것은 온라인 학습일 겁니다. 새로운 정보들을 습득하면서 그리고 계속해서 모델이 발전하고 지속적으로 계속해서 학습해 나가겠죠. 지금까지 접한 에이전트와는 완전히 다른 에이전트일 겁니다. 그러니까 지금의 에이전트는 맥락을 많이 넣어주는 점이 크다면, 앞으로 이 자율적 학습이 가능한 에이전트는 그 맥락을 따로 제시해 주지 않아도 모델이 알아서 구축하고 학습해 나가겠죠. 아직은 약간 SF의 영역인 것 같긴 한데, 이게 달성 가능하다면 이 에이전트는 굉장히 다른 형태의 존재로 느껴질 것 같습니다. 상상컨대 물론 여기에서도 디테일, 어떻게 온라인 학습이나 지속적 학습을 구현해야 할 것인가 하는 디테일은 많이 있습니다. 모델의 가중치를 업데이트해야 하는가, 아니면 가중치 업데이트 없이 모델의 컨텍스트 안에 어떤 식으로든 넣어주는 것만으로 충분한가. 이건 아직 잘 모르는 문제입니다. 컨텍스트만 넣어주는 것만으로 충분하다면 훨씬 쉽게 풀리는 문제일 거고요. 가중치를 업데이트하는 게 필수불가결하다면 문제가 어려워질 겁니다. 만약 이렇게 풀린다고 하더라도 이렇게 가중치를 업데이트해야 하는 시스템을 어떻게 deploy할 것인가, 이게 대중적으로 deploy가 가능한가, 이런 게 문제가 되겠죠. [노정석] 지금 앞장과 이번 장에서 성현 님이 말씀하시는 그런 부분들이 어떻게 보면 현재 상황에서는 프런티어 모델들을 가지고 몇몇 소수의 오케스트레이터 인간들이 조직 안에서 하고 있는 역할인데, 이제 그게 우리 인간이 가야 할 방향이 아니냐는 이야기를 저희가 많이 하고 있었습니다만, 이제 그것마저도 모델이 하게 될 가능성도 사실 있죠.
사실 훨씬 더 잘할 겁니다. [김성현] 이 문제를 만약 정말로 태클하고 있는 문제고, 만약 풀린다면 그 부분도 대체 가능해지겠죠. [노정석] 회사의 흥망성쇠에서도 이런 것들이 사실 저희는 조직 안에서 리더십 문제로 치환해서 많이 얘기하거든요. 똑같은 성능을 가진 사람들이 있는데 누가 이끄느냐에 따라서 전혀 다른 퍼포먼스를 내고 그러는데, 그 리더십이라는 게 어떻게 보면 목적을 세팅하고 지속적으로 학습하고 돌리는 그런 역할을 하는 사람들인데, 연결돼 있다는 느낌이 많이 들어요. [김성현] 추후에 이야기가 나오겠지만 멀티 에이전트와 관련해서 나오는 조직 AI의 다섯 단계, 마지막 단계인 조직과 관련해서 생각해 볼 수 있는 부분도 있을 것 같습니다. 그리고 이 앞에 있는 것들을 또 뒷받침하려면 풀어야 하는 문제가_ _장기 기억, 즉 메모리 문제__이죠. 어쨌든 학습을 하건 긴 형태의 작업을 하건 그런 것들이 필요하려면 어떤 형태로든 메모리가 필요하긴 합니다. 이 메모리를 구현하는 방법이 어때야 할 것인지는 잘 모릅니다. 가중치를 업데이트해야 할 수도 있고요. 학습의 형태로, 아니면 컨텍스트가 충분히 길어진다면 컨텍스트가 빌리언(billion), 즉 10억 단위가 된다면 메모리가 그런 형태로 풀릴 수도 있습니다.
아니면 더 나은 방법이 있을 수도 있고, 도구 사용으로 풀 수 있는 방법도 있겠죠. 메모장 같은 도구에 텍스트 형태로 메모리를 저장해 놓는다든지, 데이터베이스에 넣을 수도 있고요. 아니면 모델의 출력 결과를 임베딩 형태로 저장해 놓을 수도 있고요. 어떻게 풀지는 알 수 없습니다. 풀 수 있을지는 알 수 없지만, 아마 이 모든 것을 뒷받침하기 위해 중요한 문제일 겁니다. 그래서 앞에 있는 이 모든 문제가 여러 발전의 방향이기도 하지만 서로 굉장히 긴밀하게 얽혀 있는 문제라는 생각이 듭니다. 그래서 다 연결되어 있는 문제라고 볼 수 있을 것 같고, 그리고 그런 의미에서 생각해 봤을 때 이 각각의 문제가 풀리거나 연구되고 있는 결과들이 개별적인 문제뿐만 아니라 더 큰 문제의 일부분일 수도 있겠다는 생각을 하게 됩니다. [최승준] 모든 도메인에서 반복해서 나오는 게 지금 컨텍스트가 당장 실험하기에 좋은 공간이 아닐까, 그리고 기억, 결국 인간의 기억은 사실 인출이긴 하지만 생성형 인출이잖아요. 할루시네이션이 껴서 생성하는 과정으로 인출되기 때문에 그런 것들을 포함하면 역시 컨텍스트가 당장 뭔가 일어날 조짐이 있어 보인다는 느낌적 느낌이 들긴 하네요. [김성현] 한 가지 재미있는 방향은 모델의 메모리 문제를 위한_ _멀티 에이전트 시스템__일 것 같아요.
이것도 한 가지 방향성이긴 한데요. 기억하는 문제와 기억을 통해 사고 처리하는 문제를 분리시키는 거죠. 다른 에이전트로요. 그래서 이게 Claude 쪽에서, Anthropic 쪽에서 웹 검색 에이전트를 만들면서 만들었다고 하는 멀티 에이전트 시스템인데요. 여기서 보면 리드 에이전트(lead agent)라고 하는, 계획하고 수행하는 작업을 처리하는 에이전트가 있고, 그 안에 메모리도 연결되고, 실제로 검색해서 문서를 읽어와서 거기서 정보를 추출하고 이런 에이전트들이 분리되어 있습니다. 이렇게 에이전트로 분리하면 얻을 수 있는 것이 가장 당면해서 얻을 수 있는 것이 컨텍스트 길이의 관리라고 표현하거든요. 검색해서 문서를 요약하고 필요한 정보만 빼오면 그 전체 문서를 모든 컨텍스트에 다 넣어줄 필요가 없으니까요. 리드하는 에이전트, 즉 메인 에이전트는 훨씬 간결한 형태의 정보만 가지고 여기서 각 에이전트를 지휘하면 되는 거죠. 이 측면에서 좀 더 흥미로운 것은 이전에 멀티 에이전트라고 하면 각 모델에 프롬프트를 만들어서 서로 조합하는 형태가 기본이었습니다. 거기서 학습이 일어나지는 않았죠. 그런데 지금의 멀티 에이전트는 흥미로운 점이_ _원칙적으로 학습이 가능하다는 겁니다__.
그러니까 각 에이전트가 LLM이라고 보면, LLM은 각각을 학습시키는 것뿐만 아니라 멀티 에이전트 시스템 자체를 학습하는 것이 이론적으로 가능합니다. 강화학습을 통해서요. [노정석] 그 부분 조금만 자세하게 말씀해 주시죠. [김성현] 아주 간단한 예를 생각해 보겠습니다. 작업 수행을 계획하는 에이전트가 있고, 그 에이전트가 세부 작업 문서를 읽어서 요약하는 에이전트를 호출한다고 생각해 보겠습니다. 기존의 멀티 에이전트를 구현하는 방법은 계획하는 에이전트에 프롬프트를 쭉 줍니다. 그리고 요약하는 에이전트한테 프롬프트를 쭉 주고 그것들을 코드로 연결해 놓죠. 그래서 계획 에이전트한테 너는 요약 에이전트를 호출해서 요약을 받아와서 그 요약 결과를 가지고 작업을 수행하라고 이런 식으로 시스템을 만드는 거죠. 여기서 학습은 전혀 일어나지 않습니다. 사람이 만들어주는 거죠. 그런데 지금 강화학습 패러다임 안에서는 계획 에이전트가 요약 에이전트를 호출하는 것을, 호출하는 방식을, 그 호출 결과를 활용하는 방식을 학습시킬 수 있습니다. 동시에 요약 에이전트도 계획 에이전트에 필요한 형태로, 유용한 형태로 요약 결과문을 생성하는 것을 학습시킬 수 있습니다. [노정석] 그러니까 그게 실시간으로 학습한다는 건 아니고, 그런 행위가 끝났을 때 또 한 번의 평가를 통해서 그런 behavior나 이런 것들이 각각의 모델에 다시 들어갈 수 있다는 말씀이시죠. [김성현] 학습시키는 것과 동일한 방식으로 학습시킬 수 있다는 거죠.
왜냐하면 그 요약 에이전트도 일종의 도구 사용이라고 볼 수 있기 때문에 그렇습니다. 그러니까 도구 사용 방식을 LLM에게 강화학습을 시킨 것처럼, 마찬가지로 그 도구가 에이전트라면 그 다른 에이전트를 활용하는 방법, 다른 에이전트와 상호작용하는 방법을 모델이 학습할 수 있는 거죠. [최승준] 그 전제는 프리트레이닝은 그렇게 자주 할 수 없지만 RL은 비교적 자주 할 수 있다는 게 전제인가요? 오히려 포스트 트레이닝은. [김성현] RL도 규모가 계속 커지기 때문에 자주 할 수 있는 상태가 되었는지 잘 모르겠습니다. 이런 형태의 능력을 이전이라면 학습시킬 수 없었다고 봐야 할 것 같아요. 그러니까 멀티 에이전트 시스템 같은 것을 원칙적으로는 거기에서 데이터를 만들어서 넣을 수도 있겠지만, 멀티 에이전트라는 하나의 시스템을, 각 개별 모델, 즉 하나의 시스템을 학습시킬 수는 없었다고 봐야 할 것 같습니다. 근데 지금은 이론적으로는 멀티 에이전트라고 하는 시스템을 학습하는 게 일단 가능한. [노정석] 그러니까 지난번 Kimi paper에서도 이런 내용들이 살짝 다뤄지긴 했었는데 모델이 자기가 가지고 있는 tool을 얼마나 더 proficient하게 능숙하게 사용하고 그렇게 하는 것도 뭔가 simulation 환경을 만들어서 보상 시그널을 줘서 이게 훨씬 잘 처리된다 이런 것들을 학습시키는 환경을 만들었다 이런 얘기를 했었던 적이 있는데 그 말씀하신 것 같습니다. [김성현] 그 도구가 에이전트가 되는 거죠.
그래서 개별 모델이 아니라 개별 에이전트의 관점이 아니라 멀티 에이전트라는 시스템을 학습하는 것이 가능해졌다, 그렇게 말할 수 있을 것 같습니다. 이것도 연구가 많이 나오고 있습니다. [노정석] 가만히 듣고 있으면서 드는 생각이 ‘에이, 모르겠다.’ ‘이놈들아, 다 해 먹어라.’ 막 이런 생각들이 막 들어요. [김성현] 그리고 또 하나의 측면에서 가장 최종적으로 이야기가 많이 나오는_ _멀티 에이전트_입니다. 애초에 Noam Brown 같은 경우는 OpenAI에서 멀티 에이전트 팀 안에 있죠. 그래서 멀티 에이전트에 대한 얘기를 많이 하고 있는데 물론 거기서 뭘 하고 있는지는 단서를 전혀 주지 않습니다. 한 가지 얘기하는 건 지금까지 멀티 에이전트하고 접근해왔던 방법과 자신들의 멀티 에이전트 방법은 접근이 완전히 다르다 이 얘기만 하고 있어요. 이제 멀티 에이전트가 나오는 이유, 아이디어 하나죠. 컨텍스트를 관리하는 방법, 이런 부분들은 거의 소소한 부분 중 하나일 것 같고요. 멀티 에이전트가 왜 필요한가에 대해서 얘기를 하면 _과제의 폭을 넓힌다__는 얘기를 많이 합니다. 그러니까 예를 들어서 Windows나 Office 같은 거, 프로그램 수트, 굉장히 복잡한 커다란 프로그램을 개발한다고 하면 지금 하나의 에이전트가 하는 일들은 어떤 느낌이냐면 그 커다란 프로그램 안에서 버그를 잡는다고 하면 그 버그를 잡을 때 굉장히 많은 시간이 걸릴 수도 있죠.
그래서 굉장히 긴 시간의 추론을 통해서 버그를 잡는다, 이런 하나의 깊게 파고드는 작업들을 단일 에이전트를 통한 추론 모델들이 잘할 수 있는 거라고 표현을 합니다. 근데 멀티 에이전트로 넘어가면 수많은 에이전트들이 상호작용하면서 협업하게 되면 Office라는 프로그램 수트 전체를 만들 수 있지 않겠느냐 이런 얘기를 합니다. 그 프로그램 안에는 깊게 파고들어야 되는 문제들이 굉장히 다양하게 존재하죠. Office라고 하면 어디서는 Word를 만들어야 되고 Excel을 만들어야 되고 PowerPoint를 만들어야 되겠죠. 그리고 그 안에서도 협업이 있어야겠죠. 그런 형태로 수행할 수 있는 과제의 너비를 넓힌다. 너비를 스케일링한다, 이런 가능성으로서 멀티 에이전트를 얘기합니다. 그리고 그게 가능하다면 컨텍스트를 처리하는 것도 좀 쉬워지겠죠. 에이전트들 사이에서의 상호작용은 전체 컨텍스트가 오가는 것이 아니라 필요한 부분들이 상호작용하게 될 테니까요. 그리고 인간 혁신의 어떤 조직을 생각했을 때 뛰어난 사람들만으로 조직이 구성되는 것이 아니라 그러니까 아인슈타인들만 놓고 조직이 구성되는 것이 아니라 훨씬 더 평범한 사람들이 협업해서 굉장히 복잡한 작업들을 해내는 것을 봤을 때 멀티 에이전트가 그런 작업들을 모델이 해내는 데 도움이 되는 하나의 경로일 거다, 이런 이야기를 합니다.
그리고 그렇게 됐을 때 스케일링을 할 수 있는 하나의 축이 또 생기는 거죠. 하나의 에이전트가 사고하는 길이를 넓히는 것이 하나의 스케일링 축이었다고 하면 그 에이전트의 수를 늘려나가는 것이 또 하나의 스케일링 축이 되는 거죠. 그리고 다시 이전 슬라이드에서 언급했던 것처럼 이 멀티 에이전트가 학습이 가능하다. 일단 학습이 가능하다. 이것이 멀티 에이전트라는 패러다임에 대해서 굉장히 큰 차이를 만들 거라고 저는 생각합니다. 왜냐하면 학습할 수 있는 것과 학습하지 못하는 것은 엄청난 질적인 차이가 있으니까요, 대체로. [최승준] 사실 올해 Codeforces부터 ICPC까지 도장 깨기 했던 모델들을 만드는 데 Noam Brown이 참여를 안 했어요. Noam Brown은 딴 걸 하고 있었죠. 원래 하던 거는 멀티 에이전트였지, 라는 생각이 이제 방금 다시 들었습니다. [김성현] 물론 그 안에서 뭘 하고 있는지, 무슨 그림을 그리고 있는지, 어떤 식으로 접근하고 있는지 그런 건 알려주지는 않습니다. 그래서 frontier 안에 있는 사람들은, frontier를 아는 사람들은 말해주지 않기 때문에 모르는 사람들이 추측할 수밖에 없죠. 마지막으로 제목으로 돌아오면_ _‘The Fog of Progress’__, 이게 Hinton의 강의에서 가장 마지막 부분에서 나왔던 이야기입니다.
짧은 이야기인데 neural network의 발전과 그 발전을 예측할 수 있는가에 대한 문제에 대한 언급입니다. 굉장히 Hinton스러운 식으로 비유를 하는데요. 그래서 고속도로를 달리고 있을 때 앞차의 후미등에서 빛이 나와서, 광자가 나와서 우리가 그 광자들을 볼 수 있죠. 그런데 그 광자의 양은 거리가 증가할수록 제곱으로 감소합니다. 근데 안개가 내려 있으면 짧은 거리에서는 여전히 제곱으로 감소하는 데 가깝지만 거리가 좀 멀어지면 기하급수적, 지수적으로 감소합니다. 그래서 거의 안 보이죠. 거리가 좀 멀어지면. 그래서 neural network 기술의 발전이 이런 상태라고 얘기합니다. Hinton이 좀 더 주목했던 건 기술의 발전이 지수적으로 증가하기 때문에 예측하기가 참 어렵다, 이런 얘기를 하긴 했지만 저는 이게 미래를 예측한다는 문제, 불확실성이다 이런 느낌이라는 생각이 듭니다. 그래서 단기간에 대해서는 어느 정도 가늠할 수 있고 꽤 정확하게 예측할 수도 있겠지만 장기간에 대해서 그 결과나 파급을 예측하는 건 거의 불가능한 경우가 많다고 생각합니다. 근데 문제는 Hinton이 이 얘기를 했을 때 Hinton이 생각했던 time scale은, 시간의 규모는 장기간은 한 30년, 단기간으로 예측할 수 있는 건 한 5년, 5년 후에서 10년 정도는 예측이 된다. 5년, 10년은 neural network가 엄청난 일을 해낼 거다. 30년 후에는 잘 모르겠다, 이런 느낌이었거든요.
근데 이게 저는 너무 최근에는 너무 짧아졌다는 생각이 듭니다._ _장기간은 한 1년에서 2년 정도인 것 같고요. 단기간은 한 3개월 정도인 것 같아요__. 3개월에서 6개월 정도는 앞으로 무슨 일이 일어날지가 약간 가늠이 되는 것 같은데, 1년에서 2년 뒤에 어떤 일이 일어날지는 예측이 안 되는 것 같습니다. 단기간에 대해서 예측할 수 있는 부분은 이런 거겠죠. 환경 스케일링하는 작업은 계속할 거고 점점 더 할 수 있는 일들이 늘어날 거고 더 많은 competition들에서 우승할 거고요. 이런 일들이 벌어질 거라는 예측이 가능합니다. 근데 1년에서 2년 사이에 무슨 일이 일어날까 하는 건 저희가 지금 생각했던 문제들이 해결될 것인가, 해결되지 않을 것인가와 결부되어 있다고 생각하거든요. 해결되지 않았다고 하면 환경 스케일링의 연장선이 계속 이어질 겁니다. Sholto Douglas하고 Trenton이 Dwarkesh podcast에서 이런 식으로 얘기를 했던데, 기술이 발전하지 않아도 많은 가치 있는 문제들을 풀려나갈 것이다, 이런 부분들은 예측이 가능한 문제죠. 그건 기술이 발전하지 않았을 경우고, 기술이 발전했을 때 만약에 저희가 얘기했던 문제들이 풀려나갔다고 하면 그때 어떤 일이 발생할지 예측하기는 참 어려운 것 같습니다.
뭔가 엄청난 일들이 일어나기 시작할 수도 있죠. 근데 그게 예측하기 어려운 것 같고 그 예측하기 어려운 시간의 규모가 무슨 30년 이런 단위가 아니라 1년, 2년, 3년 정도라고 생각합니다. 왜냐하면 이 문제를 언급한 사람, Zhang Xiangyu가 ‘한 23년이면 풀리지 않겠어요?‘라는 얘기를 하거든요. 짧은 건 한 1년 정도, 1년에 풀릴 것 같고 23년 정도면 풀리지 않을까요? 이런 얘기를 하거든요. 그래서 규모가 너무 짧다. 안개가 너무 가까이에서 너무 지근거리까지 짙게 깔려 있는 상태라고 생각이 듭니다. [노정석] frontier 랩에 있는 사람들은 그 안개, 저희보다 조금 더 앞에 나가 있으니까 조금 더 보고 있겠죠, 상대적으로. [김성현] 좀 더 보고 있겠죠. 근데 감히 추측하자면 그 사람들도 이것들이 기술적 성취에 도달할 수 있을지 없을지는 완벽하게는 모르지 않을까라는 생각을 합니다. [노정석] 그렇죠. Noam Brown도 그냥 지나가는 이야기로 6개월 정도 앞서 있다, 이런 얘기했었거든요. frontier가 그래서 매일 아침에 일어나서 이 지능의 최전선이 어디까지 전진했는지 보는 즐거움이 있다, 뭐 이런 표현을 했었던 게 기억이 납니다. 3개월에서 6개월만 앞에 보이고 그게 넘어가면 저희 안개 속에서 운전해 보신 분 다 아실 거예요.
어느 임계 시점에 가면 그 앞에 빨간 불이 갑자기 사라져 버리잖아요. 그렇죠, 안개가 진해지면 진해질수록 그게 저도 이제 머릿속에서 쫙 상이 맺히네요. [최승준] 운전할 때는 매우 위험한 상황이네요. 근데 갑자기 드는 궁금증이, 환경 스케일링이 단기간 안에 작동이 된다고 하면 스타트업한테는 유리한 거예요, 불리한 거예요? 정석님? 도망가는 관점에서. [노정석] 저희는 도망 전문 방송이니까 저도 그 부분에 대해서는 사실 아직 결론은 못 내리겠습니다. 진짜 솔직하게는 모르겠어요. 어떤 선택을 하는 게 이 1, 2년 뒤에 우리가 지금 고민하고 있는 문제가 다 끝나버릴 가능성은 있지만 그럼에도 불구하고 오늘은 내 손에 있는 frontier 모델을 가지고 harness를 만드는 데, 즉 사과나무 한 그루를 심는 데 내 인생을 써야 되겠다는 게 지금 옳은 자세 아니냐는 이야기를 하고 있는데 많은 사람들이 또 여기에 베팅하고 있긴 해요. 1년, 2년이 지나서 지금 열심히 노력하고 있는 수많은 스타트업들이나 아니면 뭐 harness를 만들어서 업무를 최적화하고 있는 사람이나 이런 사람들이 하는 게 참 무의미하게 그냥 자기 구글 계정만 연결해 놓으면 심지어 프롬프팅도 안 해도 자의식을 가지고 자율 학습하고 스스로 액션해서 일을 끝내버리는 그런 애가 나오면 아무것도 안 하는 게 더 좋은 거 아니냐 이런 얘기하시는 분들도 당연히 있고 물론 더 현실적으로 그런 세상이 오면 회사에서 여러분을 고용할 이유가 없습니다.
다 잘라버리겠죠. [최승준] 어쨌든 스케일링이라고 했을 때 결국에는 지금은 작은 도메인의 영역에서 우리가 독자적인 어떤 다른 데서는 모르는 환경을 구축하고 그거에 레버리지를 가질 수 있다는 생각을 해볼 수 있는데 그게 scalable한, 일반화할 수 있는 문제가 되면 영향을 받을 수 있다는 거죠. [노정석] 방금은 너무 이상적인 얘기를 했는데 제가 이 AI 세상을 바라보는 감은 굉장히 간단한데 예전에 Alan Turing도 그런 생각을 했잖아요. 무한히 큰 컴퓨터가 있으면 모든 걸 다 만들 수 있다고 얘기했잖아요. 그런데 그 무한이라는 범위가 지금 손에 잡히는 식으로 현실이 온 거거든요. 몇십 년 전에 사람이 봤으면 저희가 지금 쓰고 있는 computation은 아마 infinity였을 겁니다. 그런데 그 infinity가 계속 확장하고 있는 구조이기 때문에 저는 일어날 일들은 다 일어난다고 보는데 저희가 얘기하면서도 그런 생각 항상 했잖아요. 데이터셋이 충분히 있고 모델이 충분히 크고 컴퓨터가 있으면 다 끝난다. 그런데 데이터셋이 없기 때문에 지금 한계가 있는 거라고 얘기하는데 이_ _reinforcement learning, 강화 학습이 엄밀하게 얘기하면 저는 라벨 생성기라고 항상 생각하거든요__.
우리가 가지고 있지 않은 데이터셋을 가보지 않은 도메인들을 돌아다니면서 얘가 explore하고 일을 받으면 그걸 데이터셋으로 탁 만들어서 결국은 모든 것들을 다 supervised learning으로 전부 바꿔주고 있는 기계라고 보는 거고. 그 과정이 오늘 성현 님이 말씀하신 그 환경 환경이 도메인마다 하나씩 생기면서 다 만들어지는 거고, 쉬운 도메인부터 만들어지고 있죠. 그래서 저는 솔직히 예전에는 머릿속에 스타트업 관점에서 굉장히 다양한 스텝들이 있었는데 지금은 컴퓨터가 컴퓨팅을 통해서 데이터셋을 용이하게 생성할 수 있는 그런 디지털 콘텐츠의 관점이라든지 아니면 인간이 필연적으로 지금 갖고 있는 세상이 갖고 있는 게으름이라든지 인간의 탐욕이라든지 혹은 지금은 자본주의의 어떤 소유 시스템이라든지 이런 것들이 통째로 바뀌는 데는 시간은 한참 걸릴 거라서 그런 쪽에 있는 문제들로 사업이라든지 인간의 관심 분야 등을 옮기는 것만이 기회가 남아 있는 거 아닌가. 나머지 부분들, 우리가 ‘이런 거 하면 쿨해 보이겠네,’ ‘이런 거 만들어야지, 이런 제품 좋아.’ 불과 1년 전까지만 해도 working하던 그런 영역들은 저는 솔직히 다 위험하다고는 생각하고 있습니다. [최승준] 어쨌든 저희가 새로운 호스트를 모시고 되게 저희 수준이 덩달아 올라가는 느낌. [노정석] 맞아요.
저희가 못 따라가는 그런 깊이의 철학이었습니다. [최승준] 저희가 늘 약간 비전문가, 호사가를 자처하고 이래왔는데 또 이렇게 전문적인 식견으로 전망이라든가 그런데 전망만이 아니라 구체적으로 알려진 이야기들을 잘 직조해 주셔서 현재의 어떤 horizon, 그러니까 기술의 지평 같은 것들을 조망해 주시는 게 굉장히 도움이 많이 됐던 것 같습니다. [노정석] 승준 님이랑 저랑 성현 님 페이스북 포스트를 보면서 항상 그런 얘기했었거든요. 이분은 그냥 밖에 있는 뉴스를 조합해서 넘기시는 그런 분이 아니라 다 한번 내재적으로 전부 씹어 먹은 다음에 생각의 결론들을 딱딱 짚어주셔서 내용이 깊다 그런 얘기들을 많이 했었는데 오늘 그 부분을 잘 느끼게 된 계기인 것 같습니다. [최승준] 성현 님은 어떠셨나요? 처음 해보셨는데. [김성현] 사실 시작하기 전에 많은 우려가 있었는데요. 처음부터 말씀드렸던 거지만 프런티어가 아닌 상황에서 프런티어에 대해서 얘기한다는 것, 그 위험성에 대해서 말씀드렸는데 그래도 의견을 공유한다는 건 즐겁네요. [최승준] 그렇죠. 이렇게 말할 수 있는 기회가 어떻게 보면 그렇게 많지 않을 수도 있잖아요. [노정석] 그리고 성현 님이 아까 초반부에 Q_ 얘기하면서 그 얘기하셨지 않습니까? 많은 사람들이 다양한 시도를 했지만 행여 그 방법이 틀렸더라도 그 방향이 맞았다면 그건 의미 있는 행위였다고 말씀하셨지 않습니까? 저희도 프런티어 랩들이 어디로 가는지 그 방향을 보고 그들의 벡터 방향성을 같이 느끼는 것만으로도 저는 굉장히 큰 의미가 있지 않나 하는 생각이 듭니다. [최승준] 오늘 알려주신 내용, 저도 다 보지는 못하겠지만 하나씩 열어보면서 또 공부를 해보면 재밌겠다는 생각이 들었습니다.
감사합니다. [노정석] 네, 감사합니다.
제공된 트랜스크립트에는 AI 최전선(프런티어)의 핵심 주제인 ‘추론과 에이전트’, ‘강화 학습 환경 스케일링’, ‘멀티 에이전트 시스템’ 등에 대한 깊이 있는 논의가 담겨 있습니다. 특히 프런티어 기술 발전 예측의 불확실성을 나타내는 ‘The Fog of Progress’ 개념이 인상적인데요. AI 최전선이 현재 직면한 가장 중요한 문제와 미래의 발전 방향(자율 학습, 내적 보상, 장기 기억 등)에 대해 더 자세히 탐색해 보시겠습니까?
팟캐스트내용을 기반한 맥락
이 팟캐스트 내용은 앞서 분석했던 **“인간이 가야 할 방향(환경 설계자)“**이라는 강의와 놀라울 정도로 정확하게 같은 메커니즘을 공유하고 있습니다. 하지만, 그 적용 대상과 스케일, 그리고 **최종적인 결론(인간의 위치)**에 있어서는 섬뜩할 정도로 다른(심지어 위협적인) 맥락을 내포하고 있습니다.
두 콘텐츠가 공유하는 **동기화된 맥락(The Same Context)**과, 팟캐스트가 더 깊게 파고든 **이질적인 맥락(The Different Context)**을 분석해 드립니다.
1. 같은 맥락 (The Convergence): “방법론의 일치”
강의에서 인간에게 주문한 **‘일하는 방식’**과, 팟캐스트에서 프런티어 랩(OpenAI 등)이 AI를 **‘학습시키는 방식’**은 본질적으로 완벽하게 동일한 구조를 가지고 있습니다.
① 성공 방정식: Environment + Rubric + Agent
-
강의(인간 레벨): 엑셀을 직접 하지 말고, AI(Agent)가 일할 수 있는 환경(Environment)을 만들고, 잘했는지 못했는지 평가표(Rubric)를 줘라.
-
팟캐스트(AI 레벨): 모델에게 데이터를 그냥 먹이지 말고, 모델이 뛰어놀 수 있는 시뮬레이션(Environment Gym)을 만들고, 결과가 맞았는지 검증(Verifiable)할 수 있는 보상 체계(Rubric/Reward Model)를 줘라.
Getty Images
② “How”가 아니라 “Evaluation”의 시대
-
공통점: 문제를 “어떻게 풀까(Solver)“는 이제 하수들의 고민입니다. 두 콘텐츠 모두 **“무엇이 좋은 답인가를 정의(Evaluation/Rubric)할 수 있으면, 문제는 풀린 것이다”**라는 철학을 공유합니다.
-
핵심:
Verifiable(검증 가능함)이 곧Solvable(해결 가능함)입니다. 인간이 업무 루브릭을 짜는 것이나, 개발자가 수학 문제의 정답 체크 코드를 짜는 것이나 본질은 같습니다.
③ “과정”이 아닌 “환경 스케일링”
- 강의에서는 인간에게 “PPT 장표 하나하나에 매몰되지 말고 전체 프로세스를 짜라”고 했고, 팟캐스트에서는 “데이터 라벨링 하나하나 하지 말고, **환경 자체를 스케일링(Environment Scaling)**하라”고 합니다. 즉, 개별 작업(Micro)에서 시스템 설계(Macro)로의 이동이 동일합니다.
2. 다른 맥락 (The Divergence): “주체의 이동과 실존적 위협”
강의는 **“인간이 살아남기 위해 설계자가 되어야 한다”**는 희망적인(혹은 처세술적인) 메시지라면, 팟캐스트는 **“그 설계자(Architect)의 역할마저 AI가 가져가는 미래”**를 예고하고 있습니다. 이것이 결정적인 차이입니다.
① 설계자의 주체가 바뀐다 (Human → AI)
-
강의의 전제: “루브릭을 짜고 환경을 만드는 건 **인간(나)**이다.” (인간 = 오케스트레이터)
-
팟캐스트의 현실: “환경을 만들고 보상을 주는 것조차 비용이 너무 비싸다. 그래서 AI가 스스로 환경을 합성하고, 스스로 자기 비평(Self-critique)을 통해 루브릭을 짠다.” (AI = 오케스트레이터)
- 팟캐스트에서 언급된 **“자율 학습(Self-learning)“**과 **“내적 보상(Intrinsic Reward)“**이 핵심입니다. 인간이 루브릭을 안 줘도, AI가 스스로 루브릭을 만들어서 진화합니다.
② 시간의 지평 (Time Horizon)과 “안개(The Fog)”
-
강의: “앞으로 우리가 이렇게 일하면 된다”는 현재 진행형 솔루션을 제시합니다.
-
팟캐스트: 이 방법론(환경 스케일링)이 1~2년 내에 포화되거나 완성될 것이며, 그 이후(안개 속)는 예측 불가능하다고 말합니다.
- 김성현 님의 멘트 중, *“기술이 발전하면 우리가 지금 고민했던 문제들이 다 풀려나갈 텐데, 그때 무슨 일이 일어날지는 예측이 안 된다”*는 점이 강의보다 훨씬 더 냉정한 현실 인식을 보여줍니다.
③ 결론의 온도차: “유능한 관리자” vs “무용해진 인간?”
-
강의: “환경 설계자가 되면 당신은 유능한 인재가 됩니다.” (낙관적)
-
팟캐스트: “모델이 환경도 만들고 평가도 하면, 모델이 곧 제품이 된다. 그러면 인간을 고용할 이유가 없다.” (비관적/냉소적)
- 팟캐스트 후반부 노정석 님의 *“에이 모르겠다, 이놈들아 다 해 먹어라”*라는 탄식은, 강의가 제시한 ‘설계자 모델’조차 한시적인 도피처일 뿐임을 시사합니다.
3. 종합 분석: 당신이 느껴야 할 ‘서늘함’의 정체
이 팟캐스트가 강의 내용을 부정하는 것은 아닙니다. 오히려 강의 내용을 “프랙탈 구조”로 확장시켰을 때 오는 공포를 다루고 있습니다.
- Level 1 (강의): AI는 Solver다. 그러니 인간은 **Manager(환경 설계자)**가 되자.
- Level 2 (팟캐스트): 프런티어 랩들을 보니, AI를 **Manager(환경 설계자)**로 학습시키고 있더라.
- Level 3 (결론): AI가 Solver이자 동시에 Manager가 되는 **완전 자율 에이전트(Autonomous Agent)**가 된다면, 인간은 어디에 서야 하는가?
결론적으로:
앞서 들으신 강의는 **“Level 1에서 Level 2로 넘어가는 과도기”**에 인간이 취해야 할 가장 합리적인 생존 전략입니다. 하지만 팟캐스트는 그 유효기간이 **“길어야 2~3년(안개가 덮치기 전까지)“**일 수 있음을 경고하고 있습니다.
지금 인간이 “루브릭을 짜는 연습”을 하는 것은 당장은 유효하지만, 궁극적으로는 **“무엇을 원할 것인가(Desire)“**를 정의하는, 즉 **루브릭의 루브릭(Meta-Rubric)**을 고민하는 단계로 더 빨리 넘어가야 함을 암시합니다.
[Next Step Suggestion]
이 팟캐스트의 핵심 개념인 **“환경 스케일링”**과 **“검증 가능성(Verifiable)“**의 개념을 본인의 업무에 대입해서, “AI에게 맡겼을 때 검증 가능한 업무”와 “검증 불가능한(인간의 취향이 개입되는) 업무”를 분류해 보는 작업을 해보시겠습니까? 이것이 안개 속에서 살아남을 영역을 찾는 첫걸음이 될 것입니다.