AI 연구의 두 거장, ‘경험의 시대’ 선언
강화학습(RL) 분야의 세계적인 권위자 두 명이 AI의 미래에 대한 중요한 화두를 던졌습니다. 바로 리처드 서튼(Richard S. Sutton)과 데이비드 실버(David Silver)입니다.
- 리처드 서튼: ‘강화학습의 대부’로 불리며 2024년 튜링상 수상자로 선정된 석학
- 데이비드 실버: 딥마인드에서 알파고(AlphaGo), 알파제로(AlphaZero) 등 혁신적인 RL 연구를 이끌었음.
이들은 수십 년간 기계가 ‘행동을 통해 배우도록’ 가르치는 강화학습 연구에 매진해왔습니다. 최근 컴퓨팅, 시뮬레이션, 딥러닝 기술의 발전과 RL 기반 제품의 성공에 힘입어, 이들은 AI 발전의 다음 단계를 “경험의 시대(The Era of Experience)“라고 명명했습니다.
이들이 말하는 핵심은 이것입니다: “AI는 이제 경험이 개선의 핵심 동력이 되는 새로운 시대의 문턱에 서 있으며, 이 경험의 규모는 결국 현재 시스템이 사용하는 인간 데이터의 규모를 압도할 것이다.” 즉, 인간이 만든 데이터가 아닌, AI가 스스로 쌓는 ‘경험’이 미래 AI 발전의 가장 중요한 자원이 될 것이라는 선언입니다.
AI 발전, 새로운 변곡점을 맞다
지난 몇 년, AI, 특히 LLM의 발전은 정말 눈부셨습니다. 시도 쓰고, 코드도 짜고, 문서 요약까지. 인간 지식 노동의 상당 부분을 넘나들며 엄청난 가능성을 보여줬죠. P&G 실험에서 본 것처럼 AI가 ‘사이버네틱 팀원’ 역할을 하며 생산성을 높이는 모습은 이미 현실입니다.
하지만 명확한 한계: 이 모든 발전은 ‘인간 데이터의 시대’라는 기반 위에 있습니다. “인간 데이터를 암기하는 것은 우리가 이미 가본 곳까지만 갈 수 있게 합니다.”
- AI 성능은 결국 우리가 준 데이터의 양과 질에 묶입니다.
- 고품질 데이터는 이미 소진 중이거나 곧 바닥을 보일 거라는 경고음.
- 인간 지식의 경계 안에서는, 아무리 똑똑해도 인간을 뛰어넘는 새로운 발견(새 과학 법칙, 혁신 기술 등)은 어렵습니다. 2027년 AI 비용 효율성 예측처럼 효율 개선만으론 진정한 ‘퀀텀 점프’는 어렵다는 거죠.
AI가 진짜 초인적 능력을 갖추려면, 인간 데이터 울타리를 넘어 스스로 환경과 상호작용하며 얻는 ‘경험’에서 배워야 한다는 것입니다. 결국 “인간 데이터가 아닌, AI 경험이 새로운 석유” 가 되어야 된다는 거죠.
1. ‘경험의 시대’는 무엇이 다른가? – 핵심 특징 4가지
‘경험의 시대’는 단순히 데이터 소스 변화를 넘어, AI 작동 방식의 근본적 변화를 의미합니다. Silver와 Sutton이 제시한 네 가지 기둥은 다음과 같습니다.
- Streams (경험 스트림)
- 현재: 짧은 질답 위주의 단편적 상호작용.
- 미래: 인간처럼 평생 지속되는 경험 ‘스트림’ 속에서 학습. (Acting, Observing, Iterating!)
- 결과: 장기 목표(개인 건강 관리, 신약 개발 등) 설정 및 지속적 자기 개선 가능.
- Actions & Observations (풍부한 행동과 관찰)
- 현재: 주로 텍스트 기반 상호작용.
- 미래: 실제 세계(디지털 포함)와 직접적, 자율적 상호작용. (API 호출, UI 조작, 센서 분석, 로봇 제어 등)
- 결과: 세상을 더 능동적으로 탐색하고 이해하며 변화시킴.
- Grounded Rewards (현실 기반 보상)
- 현재: 인간의 주관적 피드백/사전 판단에 의존. (RLHF 등)
- 미래: 환경과의 상호작용 결과로 나타나는 실제 측정 가능 신호를 보상으로 활용. (에너지 효율, 실험 성공률, 혈압, 재료 강도 등)
- 결과: 인간의 편견이나 예측을 뛰어넘는 최적 해답 스스로 발견 가능성 증대. (사용자 피드백으로 보상 함수 조정도 가능)
- Experience-Based Planning & Reasoning (경험 기반 계획 및 추론)
- 현재: 인간 사고 과정 모방 (Chain-of-Thought 등).
- 미래: 자신의 행동이 세상에 미칠 결과를 예측하는 ‘월드 모델’ 기반 계획.
- 결과: 인간 언어/논리와 다른, 더 효율적이고 강력한 비인간적 추론 방식 발전 가능.
2. 왜 지금 ‘경험의 시대’인가? – 강화학습(RL)의 만개
경험 기반 학습(RL) 아이디어는 새롭지 않습니다. 알파고/알파제로는 이미 게임에서 경험 학습의 힘을 보여줬죠.
- 과거 RL (“시뮬레이션 시대”): 명확한 규칙/보상이 있는 ‘닫힌’ 환경(게임 등)에서의 성공. 현실 문제 확장 어려움.
- 현재 LLM (“인간 데이터 시대”): 놀라운 ‘일반성’ 확보. 하지만 스스로 새 지식을 만드는 능력(AlphaZero)은 잃음.
- 이제 결합의 시간: 컴퓨팅 파워, 시뮬레이션 기술, 딥러닝 표현력, 접근 가능한 프레임워크, 그리고 RL 기반 제품의 성공(RLHF 등)이 완벽한 폭풍을 만들었습니다.
- LLM의 ‘일반성’ + RL의 ‘자기 발견 능력’
- 에이전트가 실제 환경과 상호작용하는 기술 발전 (예: 컴퓨터 제어 에이전트)
- 강력한 RL 방법론 발전 (예: AlphaProof의 수학 증명)
이제 시뮬레이션을 넘어, 현실 세계의 복잡하고 다양한 ‘경험’ 속에서 AI가 학습할 기반이 마련되었습니다.
3. 그래서 실제로 무엇이 바뀔 것인가?
이 변화는 철학적 논의를 넘어 실제 파이프라인의 변화를 의미한다고 생각합니다.
- 기억하기
- AI는 한 번 학습하고 멈추지 않습니다. 수 주, 수개월, 수년에 걸쳐 경험적 기억을 축적합니다.
- 하지만 모든 것을 기억할 순 없죠. 중요한 순간을 압축, 태깅, 반복 학습하는 ‘메모리 큐레이션/압축’ 기술이 중요해질 것입니다.
- 보상 설계 = UX (Reward as UX)
- 피드백이 ‘좋아요/싫어요’ 이모지를 넘어 혈압, 재료 강도, 에러율 같은 실제 결과 지표로 바뀝니다.
- 프롬프트 엔지니어링은 ‘보상 디자인(Reward Design)’으로 진화합니다. 이는 실제 결과와 직결되는 진화하는 제품 개발 영역입니다.
- 시뮬레이터 = 사전학습 환경
- AI가 현실(기후 정책, 생명 공학 등)에 개입하기 전에, 고도로 발달된 가상 세계에서 먼저 학습받습니다. (과학용 심시티?)
- AI가 실험하고 실패하며 똑똑해질수록 시뮬레이터도 함께 발전하는 피드백 루프가 강력한 경쟁 우위(moat)가 됩니다.
- 현실 실험이 느린 분야(재료, 기후, 생물학)에서는 이 방식이 과거 데이터 기반 모델을 압도할 수 있습니다.
4. 주목해야 할 새로운 트렌드
- 경험 브로거의 시대
- 과거: 데이터 자체가 자산.
- 미래: 가치는 경험(trajectory)을 생성하는 환경과 보상 채널을 통제하는 곳으로 이동합니다. 데이터 브로커가 아닌 ‘경험 브로커’의 시대?
- 월드 모델에 대한 모니터링
- AI가 미래를 ‘상상’하여 계획한다면, 우리는 그 상상을 들여다볼 필요가 있습니다.
- AI의 ‘꿈’을 설명하는 새로운 XAI 도구(왜 그 행동/시뮬레이션을 선택했는지)가 필요해집니다. (Casual AI와 연결)
- 호기심 그리고 위험에 대한 권한
- 탐험하도록 장려된 AI는 예상치 못한 것을 발견할 것입니다. (강력하거나, 위험하거나)
- 알파고의 37수는 안전했지만, AI 과학자가 우리가 아직 이해 못 하는 물질을 발견하면 어떻게 될까요?
5. ‘경험의 시대’가 우리에게 던지는 의미는?
Silver와 Sutton의 논리는 명확합니다: AI에게 풍부한 현실 인터페이스, 유연한 보상 시스템, 그리고 충분한 시간을 주면 인간 데이터와 인간의 추론 방식을 넘어설 것이다.
이는 특히 진화하는 AI 제품을 개발하는 이 에게 중요한 시사점을 던집니다.
- 프롬프트 라이브러리 → 경험 파이프라인 (Experience Pipelines)
- 정적 데이터셋 → 진화하는 환경 (Evolving Environments)
- 단발성 챗 세션 → 지속적 학습 루프 (Continuous Learning Loops)
미래의 AI는 단순히 주어진 문제를 푸는 것을 넘어, 스스로 문제를 정의하고, 규칙을 바꾸며, 수많은 가능성을 시뮬레이션할 것입니다. 우리는 이런 AI와 어떻게 협력을 구축해야 할까요?
- 도전 과제: 자율성 높아진 AI의 안전과 통제, 비인간적 추론의 해석 가능성 문제는 여전히 중요합니다.
- 지식 노동의 미래: P&G 실험의 ‘사이버네틱 팀원’을 넘어, AI는 독자적 ‘연구자/탐험가’ 역할 수행 가능해지고, 단순 AI ‘사용’ 능력을 넘어, AI가 효과적으로 ‘경험’하고 학습할 환경 설계 능력, 결과 해석 및 협력 능력 중요해질 것입니다. 마치 MCP가 LLM의 컨텍스트 활용을 도왔듯, 미래엔 AI의 현실 경험 데이터 활용을 돕는 새 프로토콜이 고민 될 것입니다.
6. 결론: 새로운 시대를 준비하며
데이비드 실버와 리처드 서튼이 제시한 ‘경험의 시대’는 AI 발전의 다음 단계를 명확히 보여줍니다. 인간 데이터의 한계를 넘어, AI가 스스로 세상을 경험하며 학습할 때, 우리는 진정한 초인적 지능에 다가설 수 있습니다.
이는 단순 기술 진보를 넘어, AI와 협력하는 방식, 지식 노동의 본질, 사회 시스템 전반에 근본적 변화를 가져올 것입니다. Silver와 Sutton의 말처럼, “오늘날의 기술은 적절히 선택된 알고리즘과 함께라면 이미 이러한 돌파구를 달성할 충분한 기반을 제공합니다.”
결국 경험을 설계하고, 보상을 정의하며, 학습 루프를 통제하는 자가 미래 AI의 방향을 결정할 것입니다.
끝!