AI Agent의 현실과 이상 그리고 지금 해야 될 것

LLM 에이전트와 기술의 현재 위치

최근 들어 LLM(대규모 언어 모델) 기반 에이전트들의 성능과 가능성에 대한 논의가 활발히 이루어지고 있습니다. 이들은 웹 검색, 코드 작성, 프로그램 실행, 동료와의 소통 등 디지털 작업자와 유사한 방식으로 실제 업무를 수행할 수 있는 잠재력을 가진 도구로 주목받고 있습니다. 하지만 현재의 성과를 보면, 인간의 생산성을 완벽히 대체하기에는 아직 갈 길이 멀어 보입니다.

최근 연구에서 LLM 에이전트의 성능을 측정하기 위해 TheAgentCompany라는 확장 가능한 벤치마크를 도입했습니다. 이를 통해 다양한 작업에 대한 에이전트들의 자율적 문제 해결 능력을 평가했는데, 가장 경쟁력 있는 모델조차 약 24%의 작업만 자율적으로 완료할 수 있음을 보여줬습니다. 모델별 세부 성능은 리더보드에서 확인할 수 있지만, 현재로서는 인간 작업자의 보조 역할 정도인거 같습니다.

이외 다양한 벤치마크 결과를 통해 LLM 에이전트의 성능을 메모하면 다음과 같습니다:

  • Claude AI Agent Computer Interface(ACI): 인간 대비 약 14.9%의 성능을 기록.
  • SWE-bench Verified 테스트: 49.0%의 성과.
  • TAU-bench 결과: 소매 도메인에서는 69.2%, 항공 도메인에서는 46.0%라는 성과를 보임.

이처럼 작업 도메인이나 환경에 따라 성능 편차가 존재하며, 특정 시나리오에서만 상대적으로 높은 성과를 기록하고 있습니다. 또한 OpenAI의 AI Operator와 같은 웹 기반 에이전트는 아직 기술적으로 미숙한 부분이 많습니다. 팝업과 같은 비정형 환경에 취약하다는 사실은 잘 알려져 있으며, 이는 실질적인 업무 환경에서의 사용성을 크게 제한합니다.

https://openai.com/index/computer-using-agent/

기술 발전이 제시하는 방향성

비록 현재의 성능이 제한적이지만, 이러한 시도들은 기술 발전의 방향성을 평가하는 데 있어 중요한 기준이 됩니다. 추구해야 되는 AI의 목표를 재확인 하는 것이죠.

완전한 자동화를 추구하는 이면에, 구글, 퍼플렉시티(Perplexity), OpenAI와 같은 주요 기업들이 Deep Research 기능을 제안하며 최소 1년 동안 AI 활용의 주요 방향성을 제시했다고 생각합니다. 이들은 모든 작업의 자동화 보다는, 인간의 정보 탐색과 정리 과정을 혁신적으로 변화시키고 있습니다.

perplexity의 deep research

이러한 기술은 강력한 테스트-타임 추론(test-time reasoning) 능력과 결합해 다음과 같은 방식으로 정보 처리 방식을 바꿀 수 있습니다:

  1. 정보 탐색 및 요약 능력 강화
    기존의 웹 검색 중심 환경에서 벗어나, 필요한 정보를 다양한 소스에서 수집하고 이를 맥락에 맞게 정리하는 작업을 수행할 수 있습니다. 이는 지식 노동자가 정보 수집과 정리에 소요하던 시간을 최대 30%까지 줄일 가능성을 열어줍니다.
  2. 내부 시스템과의 통합
    단순히 웹 검색에 머무르지 않고, 기업 내부 시스템(RPA 등)과 결합해 동적으로 워크플로우를 구성하고 실행할 수 있습니다. 이를 통해 복잡한 업무를 보다 효율적으로 처리하고, 기업의 생산성을 전반적으로 향상시킬 수 있을 것입니다.

필자의 실제 활용 사례: 블로그 글감 워크플로우 자동화

LLM은 다양한 자동화 도구와 결합해 실질적인 업무 효율화를 추구할 수 있습니다. 예를 들어, n8n과 같은 워크플로우 자동화 도구를 사용해 반복적인 작업을 간소화하고, 창의적인 작업에 더 많은 시간을 할애할 수 있습니다.

필자의 경우, n8n을 활용한 워크플로우 자동화를 통해 블로그 소재를 발굴하는 작업을 자동화했습니다. 이러한 간단한 시도가 기존 블로그 글 갱신 주기를 5배 이상 줄이면서 동시에 글감을 발굴하는데 들이는 시간을 거의 0에 수렴시켰습니다.

필자의 n8n 블로그 글감 수집 자동화 워크 플로우

위에서 정리된 글감에 저의 개인적인 스토리나 독창성을 유도하기 위한 LLM의 능동적인 질문과 그에 따른 나의 의견들로 글을 작성 프로세스를 좀더 강화해볼 생각입니다.

마치며

지금까지의 발전은 LLM 기반 기술이 단순히 언어 생성에서 벗어나, 인간의 생산성을 보조할 수 있는 도구로 진화하고 있음을 보여줍니다. 앞으로 이러한 에이전트들은 더욱 발전하여, 인간의 정보 처리 및 의사결정의 부담을 줄이고, 창의적이고 고차원적인 작업에 더 많은 시간을 할애할 수 있도록 도울 것입니다.

기술을 더욱 효과적으로 활용하기 위해서는, 단순히 기술의 발전만을 기다릴 것이 아니라, 현재 사용 가능한 도구들을 적극적으로 통합하여 실질적인 업무 효율성을 극대화하는 데 초점을 맞추어야 합니다. n8n과 같은 워크플로우 자동화 도구를 활용하거나, 새로운 에이전트 기능을 기존 시스템에 적용해보는 등의 작은 시도들이 큰 변화를 만들어낼 수 있다고 믿습니다.

결국, LLM 에이전트의 발전은 단순히 “기술의 미래”를 의미하는 것이 아니라, 오늘날 우리가 어떻게 일하고, 정보를 활용하며, 가치를 창출하는지에 대한 근본적인 질문을 던지는 계기가 되고 있습니다. 스스로 자신이 만드는 가치들에 대해서 곰곰이 생각해보고 LLM으로 혁신 가능한 자그만 부분이라도 찾아보는 고민을 해보면 어떨까 합니다. 아마도 여기에 아주 짧은 기간일 지라도 당분간의 우리의 미래가 있지 않을까 하는 생각입니다.

끝!

ps. 이글을 읽기 전에 글의 작성 일자가 2025년 3월 3일이라는 사실을 꼭 상기할 필요가 있음