P&G 실험으로 확인한 AI와의 협업의 미래 – 팀의 적정 규모는?

1. 연구 소개: 왜 P&G는 AI와 팀워크에 주목했는가

글로벌 소비재 거인 프록터 앤 갬블(P&G)은 최근 하버드 비즈니스 스쿨, 워튼스쿨, ESSEC 비즈니스 스쿨 등의 연구진과 협력하여 생성형 AI가 팀워크에 미치는 영향을 탐구하는 대규모 현장 실험을 진행했습니다. 디지털 데이터 디자인 연구소(Digital Data Design Institute at Harvard)에서 주도한 이 연구는 실제 업무 환경에서 AI의 영향력을 정확히 파악하기 위해 설계되었습니다.

왜 P&G 같은 거대 기업이 이런 연구에 투자했을까요? P&G는 오랫동안 R&D와 현업(Commercial) 부서 간의 협업을 통한 혁신을 중시해왔습니다. 그러나 이 협업에는 고질적인 문제가 있었습니다. 서로 다른 부서 전문가들이 한자리에 모이기 위한 시간 조율의 어려움, 그리고 R&D와 상업 부서 간의 문화적 차이와 전문 영역의 경계가 혁신의 품질을 저하시키는 요인이었죠.

P&G 경영진은 이런 마찰을 줄이고 혁신 파이프라인의 초기 단계, 즉 “씨앗(seeds)” 단계의 품질을 높이는 방법을 찾고자 했습니다. 한 경영진의 말을 빌리자면 “더 좋은 씨앗이 더 좋은 나무를 만든다(better seeds lead to better trees)”는 것이 P&G의 혁신 철학이었습니다. AI가 이런 초기 단계 협업을 개선할 수 있을지에 대한 의문이 이 연구의 출발점이 되었습니다.

연구팀은 776명의 P&G 직원들이 참여한 현장 실험을 설계했습니다. 이들은 평균 10년 이상의 P&G 경력을 가진 베테랑 직원들로, 유럽과 미국에서 근무하는 전문가들이었습니다. 참가자들은 아기용품, 여성용품, 그루밍, 구강 관리 등 실제 자신이 근무하는 사업부의 제품 개발, 패키징, 소매 전략 등에 관한 과제를 수행했으며, 최고의 아이디어는 실제 경영진에게 제출되어 실행 가능성을 검토받는 등 실질적인 결과물을 도출하는 실험이었습니다.

실험에서는 현업 전문가와 기술 R&D 전문가로 구성된 두 종류의 전문가가 참여했으며, 이들은 무작위로 한 명씩 짝을 이루어 팀을 구성했습니다. 절반은 GPT-4 또는 GPT-4o를 사용할 수 있었고, 나머지 절반은 AI를 사용하지 않았습니다. 또한 두 유형의 전문가들 중 일부는 개인으로 작업하도록 무작위로 선택되었으며, 그 중 절반은 AI에 접근할 수 있었습니다. 이러한 설계를 통해 AI와 팀워크의 효과를 독립적으로, 그리고 조합하여 분석할 수 있었습니다.

2. 놀라운 발견: AI는 도구를 넘어 “사이버네틱 팀원”

연구 결과는 상당히 흥미로웠습니다.

첫째, AI는 성과를 크게 향상시켰습니다. AI 없이 일할 때, 팀은 개인보다 0.24 표준편차 더 높은 성과를 보였습니다. 그러나 놀라운 점은 AI를 사용한 개인들의 성과였습니다. AI를 사용한 개인은 AI 없이 일하는 팀과 동등한 품질의 솔루션을 제시했으며, 기준선보다 0.37 표준편차 향상된 성과를 보였습니다. 이는 AI가 단순한 생산성 도구가 아니라 인간 협업의 이점을 효과적으로 복제할 수 있음을 시사합니다. 요 실험 결과를 기반으로 최근 1인 기업과 같은 소규모 스타트업이 생겨나는것과 연결지어서 생각해 볼 수 있을 거 같습니다.

AI를 사용한 팀은 전체적으로 가장 좋은 성과를 보였으며, 기준선보다 0.39 표준편차 향상되었습니다. 비록 AI를 사용한 개인과 AI를 사용한 팀 간의 차이는 통계적으로 유의미하지 않았지만, 정말 뛰어난 솔루션, 즉 품질 면에서 상위 10%에 속하는 솔루션을 살펴보면 흥미로운 패턴이 발견되었습니다. AI를 사용한 팀은 이러한 최상위 솔루션을 생산할 가능성이 크게 높았으며, 이는 AI만 사용하는 것을 넘어서 인간 팀이 문제에 대해 함께 작업하는 데 가치가 있음을 시사합니다.

또한 AI를 사용한 두 그룹 모두 작업 속도가 훨씬 빨랐으며, AI를 사용하지 않은 그룹보다 12-16% 적은 시간을 소비하면서도 더 길고 상세한 솔루션을 제시했습니다. 이는 AI가 단순히 품질만 향상시키는 것이 아니라 작업 효율성도 크게 개선함을 보여줍니다.

둘째, AI는 전문 영역 간의 장벽을 무너뜨렸습니다. AI 없이는 R&D 전문가들이 기술적 솔루션을, 현업 부서 전문가들은 시장 중심의 제안을 하는 명확한 전문적 사일로가 존재했습니다. AI 없이 이러한 전문가들이 팀으로 일할 때, 그들은 교차 기능 협업을 통해 더 균형 잡힌 솔루션을 만들어냈습니다(팀워크의 가치는 여전하군요..).

그러나 AI가 또 다른 큰 차이를 만들어냈습니다. AI와 함께할 때, R&D와 상업 전문가 모두, 팀으로 일하든 혼자 일하든, 기술적 관점과 상업적 관점을 모두 통합한 균형 잡힌 솔루션을 제시했습니다. AI를 사용한 조건에서는 전문가 간의 구분이 사실상 사라졌으며, 이는 그래프에서도 명확히 볼 수 있습니다. 팀에서도 유사한 효과가 나타났습니다.

이 효과는 제품 개발에 덜 익숙한 직원들에게 특히 두드러졌습니다. AI 없이는 이러한 경험이 적은 직원들이 팀으로 일하더라도 상대적으로 성과가 좋지 않았습니다. 그러나 AI의 도움으로, 그들은 갑자기 경험 있는 구성원을 포함한 팀과 비슷한 수준의 성과를 내기 시작했습니다. AI는 사람들이 기능적 지식 격차를 효과적으로 메우고, 전문 교육을 넘어 생각하고 창조할 수 있도록 도우며, 아마추어가 전문가처럼 행동할 수 있게 도왔습니다.

셋째, 가장 놀라운 점은 AI가 업무 만족도에 미친 긍정적 영향이었습니다. 기술적 변화, 특히 AI는 종종 직장 만족도 감소와 스트레스 증가와 연관되어 왔습니다. 그러나 이 연구 결과는 적어도 이 경우에는 정반대의 결과를 보여주었습니다.

AI를 사용한 참가자들은 AI 없이 일하는 사람들보다 흥분, 에너지, 열정과 같은 긍정적 감정을 유의미하게 더 많이 보고했습니다. 그들은 또한 불안감과 좌절감과 같은 부정적 감정을 덜 보고했습니다. AI를 사용한 개인들은 인간 팀으로 일하는 사람들과 비슷하거나 더 나은 감정적 경험을 했습니다. 이러한 긍정적인 정서적 효과는 AI를 더 자주 사용하려는 참가자들의 미래 계획과도 연관성을 보였습니다.

3. 연구의 시사점: 지식 노동자의 위치와 역할 재정의

이 연구 결과는 지식 노동자의 역할에 대한 근본적인 질문을 제기합니다. 조직에서 AI를 단순히 또 다른 생산성 도구로 바라보기보다는 ‘사이버네틱 팀원‘으로 인식해야 할 필요가 있다는 겁니다. 이는 팀 구조, 교육 프로그램, 심지어 전통적인 전문 분야 간의 경계에 대해 다르게 생각해야 함을 의미합니다.

조직 구조와 팀 구성의 변화

AI가 전통적인 팀워크의 이점을 복제할 수 있다면, 조직은 팀 규모와 구성을 재고해야 합니다. 에단 몰릭(Ethan Mollick)은 “조직이 단순히 AI에서 효율성 향상만을 추구한다면, 근로자들은 자신을 불필요하게 만들 것을 두려워하여 AI 발견을 공유하기를 꺼릴 뿐만 아니라, 미래 업무에 대해 더 크게 생각할 기회도 놓치게 될 것”이라고 지적합니다.

특히 최상위 10%의 솔루션 생성에서 AI와 인간 팀의 조합이 가장 효과적이었다는 점은 주목할 만합니다. 이는 조직이 탁월한 성과를 위해서는 AI와 인간 협업의 균형을 찾아야 함을 시사합니다. 기업마다 효율성을 중시할지, 아니면 최고의 성과 가능성을 위해 팀 협업을 유지할지 결정해야 합니다.

전문성 경계의 재정의

AI는 전문 영역의 경계를 흐릿하게 만들고 있습니다. 전통적으로 R&D, 마케팅, 영업과 같은 기능적 전문성은 명확히 구분되어 왔습니다. 그러나 AI의 도움으로 지식 노동자들은 자신의 전문 영역을 넘어 더 폭넓은 관점에서 문제를 접근할 수 있게 됩니다.

이는 특히 제품 개발에 덜 익숙한 직원들에게서 두드러졌습니다. AI의 도움으로 이들은 전문가 수준의 성과를 낼 수 있었습니다. 이는 AI가 전문성을 민주화하며, 더 많은 직원들이 전문화된 업무에 의미 있게 기여할 수 있게 하고, 잠재적으로 새로운 경력 경로를 열어줄 수 있음을 시사합니다.

이런 변화는 지식 노동자들이 더 이상 좁은 전문 영역에 국한되지 않고, 통합적 사고와 다학제적 접근이 더 중요해짐을 의미합니다. 또한 이는 교육과 훈련 방식의 변화도 요구합니다. 직원들이 AI 도구를 효과적으로 활용하여 기능적 경계를 넘어 생각할 수 있도록 훈련해야 합니다.

새로운 핵심 역량으로서의 AI 상호작용

지식 노동자의 가치는 점점 더 AI와의 효과적인 협업 능력에서 나오게 될 것입니다. 이 연구에 참여한 직원들은 AI 프롬프팅에 상대적으로 경험이 적었음에도 불구하고 상당한 이점을 얻었습니다. 이는 관찰된 효과가 실제로는 더 클 수 있음을 시사합니다.

단순히 정보를 알고 있는 것보다 AI와 어떻게 상호작용하고, AI의 출력을 어떻게 평가하고 맥락화하며, 자신의 도메인 지식을 어떻게 AI 프롬프트에 통합할지 아는 능력이 더 중요해질 것입니다. 이 연구에서 AI를 사용한 참가자들은 평균 18.7개의 프롬프트를 사용했으며, 이는 단순히 AI에 의존하는 것이 아니라 반복적인 상호작용을 통해 최적의 결과를 이끌어내는 데 노력했음을 보여줍니다.

업무의 본질 변화

가장 흥미로운 시사점은 AI가 단순히 기존 작업을 자동화하는 것이 아니라 업무 자체에 대한 우리의 생각을 바꾼다는 것입니다. 미래의 업무는 단순히 개인이 AI에 적응하는 것이 아니라, 조직이 팀워크와 관리 구조의 근본적인 성격을 재고하는 것에 관한 것입니다.

협업의 본질이 변화할 것입니다. 전통적인 인간-인간 협업에서 인간-AI 협업, 그리고 AI가 매개하는 인간-인간 협업으로 진화할 것입니다. 이는 협업의 속도와 규모를 확장시킬 뿐만 아니라, 협업의 구조적 방식 자체를 변화시킬 것입니다.

P&G의 연구는 현재의 AI 도구들이 인간의 능력을 증강시킨다는 점을 보여줍니다(augmented human…). 이는 도구로서의 AI에서 팀 맴버로서의 AI로 우리의 관점을 전환해야 함을 시사합니다. AI가 단순한 도구가 아닌 “사이버네틱 팀원”으로 기능할 수 있음을 보여주는 이 연구는 조직이 협업, 전문성 개발, 팀 구성에 대한 근본적인 가정을 재고해야 함을 의미하고 있다고 생각합니다.

미래의 지식 노동은 인간과 AI가 각자의 강점을 활용하는 공생 관계를 중심으로 재구성될 것이며, 이 과정에서 가장 성공적인 조직은 이러한 새로운 협업 형태를 효과적으로 활용하는 방법을 먼저 이해한 조직이 될 것입니다. 그리고 이는 단순히 기술적 솔루션이 아닌, 새로운 조직적 사고를 요구하는 도전일 것입니다.

그럼 팀 규모는 얼마가 적당할까?

그럼 AI와 일하는 가정하에 몇명의 팀 규모가 가장 효율이 좋을까하는 질문을 해볼 수 있습니다. 실험에서는 팀을 2인(R&D + 현업)이라고 정의했는데 실험 결과를 기반으로 아래와 같은 규모를 팀의 목표를 기반으로 정리해 볼 수 있을 거 같습니다.

소규모 팀 (2-3명 + AI)

  • 장점: 의사결정 속도가 빠르고, AI 출력에 대한 검토와 피드백이 효율적
  • 효과적인 상황: 명확한 문제 정의가 필요하거나, 신속한 의사결정이 중요한 프로젝트
  • P&G 실험 : 2인 팀 + AI가 최상위 10% 아이디어 생성에 효과적이었음

중간 규모 팀 (4-7명 + AI)

  • 장점: 다양한 관점과 경험을 AI 프롬프팅에 통합할 수 있음
  • 잠재적 문제: ‘너무 많은 사공’ 문제로 AI 지시가 불명확해질 위험
  • 효과적인 상황: 복잡한 문제를 다양한 각도에서 접근해야 할 때

대규모 팀 (8명 이상 + AI)

  • 효과적인 상황: 고위험 의사결정이나 다학제적 접근이 필수적인 경우
  • 장점: 다양한 전문 영역 커버, AI 출력의 철저한 검증 가능
  • 잠재적 문제: AI와의 상호작용 방식에 대한 합의 도출 어려움

AI 역할에 따른 최적 팀 사이즈

또 다른 관점은 AI가 팀 내에서 어떤 역할을 하느냐에 따라 최적 팀 사이즈가 달라질 수 있다는 것입니다:

  1. AI를 정보 제공자로 활용할 때: 팀 사이즈가 클수록 AI의 출력을 비판적으로 평가하고 검증할 수 있는 다양한 전문가가 있어 유리할 수 있습니다.
  2. AI를 아이디어 생성 도구로 활용할 때: 2-4명의 소규모 팀이 AI와 빠르게 반복하며 아이디어를 발전시키기 좋습니다.
  3. AI를 코디네이터로 활용할 때: 오히려 더 큰 팀(5-8명)이 효과적일 수 있습니다. AI가 다양한 팀원들의 의견을 종합하고 정리하는 역할을 할 수 있기 때문이죠.

실용적 관점에서의 제안

제 경험과 P&G 실험 결과를 종합해볼 때, 가장 효과적인 조합은 다음과 같을 것 같습니다:

최적 조합: 3-4명 + AI

  • 충분한 다양성을 확보하면서도 의사결정 속도를 유지할 수 있는 규모
  • 서로 다른 2-3개 전문 영역이 교차하는 지점에서 AI가 ‘중재자’ 역할을 효과적으로 수행
  • AI 프롬프팅에 합의를 이루기 쉬우면서도 출력 검증에 충분한 다양한 관점 존재

특히 흥미로운 점은 전통적인 ‘매직 넘버 7±2′(인간이 효과적으로 관리할 수 있는 정보 수)가 AI와의 협업에서는 더 줄어들 수 있다는 것입니다. AI가 정보 처리와 종합의 부담을 덜어준다면, 더 작은 팀으로도 효과적인 협업이 가능할 것입니다.

물론 이런 추론은 더 많은 실증 연구로 검증되어야 합니다. P&G 실험은 2인 팀만 테스트했으니까요. 다양한 팀 규모와 AI의 조합을 테스트하는 후속 연구가 나오길 기대해봅니다. 그때까지는 각 조직이 자체적으로 다양한 조합을 실험해보는 것이 가장 현명할 것 같네요.

사실 이런 AI 팀원을 영입하려면 컨텍스트를 충분히 늘려줄 필요가 있는데, 어떤 서비스나 플랫폼이 필요할지 고민해 보는것도 좋을거 같습니다.

AI가 사이버네틱 팀원으로 효과적으로 기능하려면 그에 맞는 서비스와 플랫폼이 필요할 것입니다: 아마도 아래와 같은 것들이 필요할것으로 예상해 볼 수 있겠습니다.

  1. 실시간 회의 보조 시스템
    • 클로바 노트와 같은 회의록 자동 작성 및 요약 도구
    • Otter.ai, Microsoft Teams 등
  2. 협업 지식 관리 시스템
    • 팀의 문서, 결정사항, 지식을 수집하고 맥락화하는 도구
    • Works, Notion AI, Coda AI, Obsidian Copilot, Evernote AI 등
  3. 프로젝트 관리 AI 어시스턴트
    • 작업 할당, 진행 상황 추적, 병목 현상 식별
    • Asana의 AI 기능, ClickUp의 Brain, Monday.com의 AI 기능 등
  4. 다중 전문성 영역 통합 도구
    • R&D와 마케팅 같은 다른 부서의 언어/관점을 번역하는 도구
    • 복잡한 기술 정보를 비전문가가 이해할 수 있게 변환
  5. 의사결정 지원 시스템
    • 데이터 분석과 시나리오 모델링을 제공하는 AI
    • 팀원들의 다양한 관점을 종합하고 결정사항 요약
    • EvidentlyAI, IBM Watson Studio 등
  6. 의견 통합 및 조율 시스템
    • 팀 내 다양한 의견을 수집하고 통합하는 도구
    • Slido, Mentimeter, Miro와 AI 결합 형태

현재는 이런 기능들이 개별 도구로 존재하지만, 앞으로는 통합된 “AI 팀원” 플랫폼으로 발전할 가능성이 높습니다. 단순히 회의록을 정리하는 것을 넘어 팀의 정보 처리, 의사소통, 의사결정 전반을 지원하는 통합 시스템이 필요하다는 것이죠. 예를 들어 Microsoft Copilot과 같은 솔루션은 필자가 이해하기로는 이러한 방향으로 발전을 꾀하고 있는 것으로 알고 있습니다.

앞으로 위와 같은 개별 서비스나 플랫폼이 빠르게 AI와 통합되어야 될거 같고, 이들을 엮어서 하나의 에이전트로 역할하게 하는 솔루션의 고민들이 이어지지 않을까 하는 예측을 해봅니다.

다시 돌아가 보면, AI 능력의 빠른 발전 속도를 고려하면 이 최적 조합(1 AI + 3 휴먼)도 계속 변화할 것입니다. METR 보고서의 예측대로 AI가 더 긴 작업을 처리할 수 있게 된다면, 팀 규모와 구성에 대한 우리의 가정도 지속적으로 재평가해야 할 것입니다. 조직, 사람보다 더 빠르게 AI가 발전하는 세상.. 맞춰가기도 쉽지 않군요.
끝!