‘에이전틱 AI’는 최근 기업 기술 분야에서 가장 주목받는 용어가 됐다. 벤더는 스스로 판단하고 행동하는 시스템을 내세우며, AI를 단순한 보조 도구에서 실행 주체로 끌어올리겠다고 약속하고 있다. AI 투자에서 가시적인 성과를 내야 한다는 압박을 받는 CIO에게 이런 제안은 매력적으로 들릴 수밖에 없다. 그러나 이런 기대와 달리, 현장에서는 프로젝트를 잠시 멈추는 기업도 늘고 있다.
가트너(Gartner)는 2027년 말까지 에이전틱 AI 프로젝트의 40% 이상이 중단될 것으로 내다봤다. 가트너의 시니어 디렉터 애널리스트 아누슈리 베르마는 그 배경이 복잡하지 않다고 설명했다. 베르마는 “현재 진행 중인 에이전틱 AI 프로젝트 대부분은 초기 단계의 실험이나 개념 증명(PoC) 수준에 머물러 있다. 과도한 기대에 의해 추진되거나 실제로는 적절하지 않은 영역에 적용되는 사례가 많다”라고 설명했다.
가트너는 또 다른 문제로 이른바 ‘에이전트 워싱(agent washing)’을 지목했다. 에이전틱 AI에 대한 관심이 높아지자, 기존 챗봇이나 생성형 AI 어시스턴트를 단순히 ‘에이전트’로 리브랜딩하는 사례가 늘었다는 것이다. 하지만 리브랜딩이 실제 성과로 이어지는 경우는 많지 않다. 베르마는 “현재 모델은 복잡한 비즈니스 목표를 자율적으로 달성하거나, 미묘한 지시를 장기간에 걸쳐 일관되게 수행할 만큼 충분히 성숙하거나 자율적이지 않다. 그 결과 상당수 에이전틱 AI 제안은 뚜렷한 가치나 투자 대비 수익(ROI)을 보여주지 못하고 있다”라고 진단했다.
실제로도 파일럿 단계를 넘어 실제 운영 환경에 들어가서야 괴리가 드러나는 경우가 많다. 상당수 파일럿 프로젝트가 본격적인 배포로 이어지지 못하면서 비용은 계속 늘고 있다. 동시에 경영진은 추가 투자를 정당화할 근거를 요구하고 있다. 그 결과 프로젝트를 중단하거나 아예 취소하는 사례도 점차 증가하는 추세다.
다만 앞으로 나타날 대규모 프로젝트 중단 흐름은 기술 자체의 실패라기보다, 기대 수준과 운영 현실 사이의 간극에서 비롯된 결과일 가능성이 높다. 기업은 초기 데모에서 보였던 모습과 달리, 실제 환경에 자율성을 적용하기가 훨씬 더 어렵고 비용도 많이 든다는 사실을 체감하고 있다.
파일럿 프로젝트가 현실을 반영하지 못할 때
초기 단계에서 에이전틱 AI는 대체로 유망해 보인다. 적용 범위가 좁고 데이터가 정제돼 있으며, 사람의 감독도 강하게 이뤄지는 조건에서는 시스템이 유능하고 효율적인 것처럼 보이기 쉽다. 그러나 실제 운영 환경에 들어가면 조건이 그대로 유지되기 어렵다.
베르마는 가치 설정 방식 자체가 초기 경고 신호가 될 수 있다고 짚었다. 그는 “여전히 시간 절감이나 개인 생산성 향상만을 논한다면 고객이 투자한 비용을 정당화하기 어렵다. 에이전틱 시스템은 재무, 인사, 보안, 운영 등 구체적인 기능 영역에서 실질적인 비즈니스 성과와 연결돼야 한다. 그렇지 않으면 경영진의 검증을 통과하기 어렵다”라고 설명했다.
클라우드 기반 소프트웨어 기업 블랙라인(BlackLine)의 CTO 제러미 웅 역시 벤더 입장에서 비슷한 흐름이 나타났다고 전했다. 웅은 “파일럿 프로젝트는 대체로 인상적인 결과를 보여준다. 격리된 환경에서는 기대 이상의 성과가 나오기도 한다”라고 말했다. 그러나 문제는 확장 단계다. 문서 형식은 제각각이고, 예외 상황은 빠르게 늘어나며 사용자 행동도 일관되지 않다. 웅은 “확장 단계에서 대부분의 프로젝트가 무너진다”라고 강조했다.
에이전틱 시스템이 실제 업무 프로세스에 깊이 통합되면 되돌리기는 훨씬 어려워진다. 자율 프로세스가 일관되지 않은 결과를 낼 경우, 기업은 단순히 무엇이 잘못됐는지에 그치지 않고 시스템이 어떤 추론 과정을 거쳐 그 결론에 도달했는지까지 파악해야 한다. 이런 가시성이 확보되지 않으면 롤백은 위험해지고 시간도 오래 걸린다.
변화 관리는 또 다른 부담일 수 있다. 웅은 “지금은 처음으로 인력과 AI 에이전트를 동시에 관리해야 하는 시기”라고 말했다. 자율 시스템을 감독하도록 사람을 교육하고, 시스템을 어디까지 신뢰해야 하는지 기준을 세우는 작업은 많은 조직이 예상했던 것보다 훨씬 까다로운 과제인 것으로 나타났다.
흔들리는 비용 모델
파일럿 프로젝트에서 가치를 확인하더라도, 확장 단계에서는 경제성이 발목을 잡는 경우가 많다. 에이전틱 시스템은 기존 기업용 소프트웨어와는 전혀 다른 방식으로 자원을 소모한다. 하나의 자율 작업이 여러 단계의 추론과 도구 호출, 재시도, 검증 과정을 연쇄적으로 유발할 수 있다. 웅은 “워크플로우가 복잡해질수록 처리 과정에서 더 많은 토큰이 소모된다. 에이전틱 워크플로우로 갈수록 독립적인 작업을 수행하는 데 더 많은 자원을 소비한다”라고 설명했다.
사용량에 따라 자원 소비가 급격히 바뀌는 구조로 인해 비용 변동성은 커지고 예측이 어려워진다. 토큰 기반 과금은 인프라 용량이 아니라 실제 사용량에 따라 요금이 달라진다. 고정적인 인프라 비용에 익숙한 재무 조직 입장에서는 관리가 쉽지 않은 구조다. 이사회 역시 AI 비용이 명확한 수익을 전제로 한 투자라기보다 한도가 보이지 않는 운영비처럼 보이는 이유에 대한 설명을 요구하고 있다.
베르마는 현재 많은 기업이 에이전틱 시스템에 생성형 AI의 비용 가정을 그대로 적용하고 있다고 지적했다. 그는 “기업이 단순한 LLM 비용 기준에 의존하고 있지만, 에이전트는 다르다. 오케스트레이터와 거버넌스 계층, 여러 개의 에이전트가 추가되면 비용은 매우 빠르게 증가한다”라고 말했다.
결과적으로 일부 조직은 적용 범위를 의도적으로 축소했으며, 또 다른 기업은 비용 통제 체계가 어느 정도 자리 잡을 때까지 확장을 전면 중단했다.
이사회 논의 사항이 된 에이전틱 AI
에이전틱 AI 프로젝트가 점점 규모를 키우고 비용도 늘어나면서, 논의 역시 IT 부서를 넘어 이사회로 옮겨가는 추세다. 이 변화는 많은 조직에 부담으로 작용하고 있다.
자동화와 달리, 에이전틱 AI는 하위 조직에 위임하기 어려운 리스크가 있다. 자율 시스템이 의사결정을 내리고, 실제로 행동하며, 고객이나 재무 시스템과 직접 상호작용하기 때문이다. 기업의 법적 책임과 직결될 수 있다는 의미다. 그 결과 CIO는 시스템의 작동 여부를 넘어, 의사결정 과정을 설명하고 책임질 수 있는지까지 점검받고 있다.
베르마는 많은 프로젝트가 이 지점에서 흔들린다고 분석했다. 그는 “현재의 거버넌스와 리스크 통제 체계는 에이전틱 시스템에 맞춰 정교하게 설계돼 있지 않다. 특히 여러 에이전트가 서로 상호작용하고 다양한 애플리케이션에 접근하는 구조에서는 통제가 더 복잡해진다”. 자율성이 높아질수록 누가 어떤 조건에서 해당 행동을 승인했는지, 어떤 안전장치가 적용됐는지 같은 기본적인 거버넌스 질문에 답하기가 더 어려워진다”라고 강조했다.
이사회는 책임 소재에 대해서도 보다 명확한 기준을 요구하고 있다. 에이전트가 잘못된 결정을 내렸다고 해서 모델이 책임지는 것은 아니다. 최종 책임은 해당 시스템의 도입을 승인한 경영진에게 돌아간다. 따라서 기업은 에이전틱 AI를 실험적 혁신이 아니라, 재무 시스템이나 사이버보안 통제와 같은 수준의 검증과 통제를 요구받는 핵심 인프라로 다뤄야 하는 상황이다.
이 같은 변화로 인해 많은 조직이 전환점을 맞고 있다. 작동 원리를 명확히 설명하지 못하거나 경제적 타당성을 입증하지 못하는 프로젝트는 더 이상 관성적으로 유지되기 어렵다. 경영진의 공식 검토를 거치면서 상당수 프로젝트가 중단되고 있다.
자율성과 현실의 복잡성이 만날 때
일반적인 인식과 달리, 에이전틱 AI의 핵심 문제는 모델 정확도가 아니다. 더 근본적인 과제는 단편화, 예외, 불확실성이 뒤섞인 실제 운영 환경에 자율 시스템을 배치하는 일이다.
SAS의 응용 AI 및 모델링 부문 부사장 우도 스글라보는 “어려운 문제는 모델링 자체가 아니다. 에이전트를 실제 운영 환경에 투입하는 과정이 더 큰 과제”라고 설명했다. 스글라보는 기업 환경에 부분적인 장애와 통합 지연, 각종 예외 상황이 상존하고 있다면서, 자율 시스템이 이런 환경에서 작동할 경우 작은 변수도 빠르게 누적되며 복잡성이 커진다고 분석했다.
사람은 경험과 판단을 바탕으로 이런 상황에 대응한다. 그러나 에이전트는 그렇지 않다. 스글라보는 “사람은 직관을 갖고 있는 반면 에이전트는 뭔가 이상하다는 감각을 인지하지 못한다”라고 말했다. 에이전트가 한 번도 접해보지 못한 상황에 놓일 경우 환각 가능성은 높아지며, 때로는 심각한 결과로 이어질 수 있다는 지적이다.
사람이 개입하는 ‘휴먼 인 더 루프(Human-in-the-Loop)’ 설계가 중요한 이유도 여기에 있다. 스글라보는 “SAS가 수행한 거의 모든 구축 사례에서 사람의 개입이 필요했다”라고 언급했다. 자율성은 시스템이 일상적인 업무를 처리하고 예외 상황을 식별해 알리는 방식으로 작동할 때 가장 효과적이며, 중대한 결정을 시스템이 독립적으로 내리도록 하는 구조는 아직 위험 부담이 크다는 것이다.
설명 가능성과 감사 가능성 역시 도입의 핵심 요건으로 떠오르고 있다. 스글라보는 “시스템이 행동한 이유를 설명할 수 없고 의사결정 과정을 재구성할 수 없다면 고객은 해당 시스템을 사용하지 않을 것”이라고 말했다. 특히 규제 산업에서는 의사결정 이후에도 오랜 기간 책임을 소명해야 하는 만큼, 요구 수준이 더욱 높다고 그는 강조했다.
실제 병목이 된 거버넌스
에이전틱 AI가 운영 단계에 가까워질수록, 제약 요인은 지능 자체가 아니라 거버넌스로 옮겨가고 있다. AI 서비스 기업 액셀러레이트(Accelirate)의 CEO 아흐메드 자이디는 거버넌스를 사람, 프로세스, 기술로 나눠 설명했다. 먼저 기술 측면에서 기업은 확률적으로 작동하는 시스템에 접근 통제와 가드레일을 적용하는 데 어려움을 겪고 있다. 자이디는 “구조화된 시스템에서도 접근 통제를 설계하는 일은 쉽지 않다. 환각 가능성이 있는 LLM에 각종 도구 사용 권한까지 부여하는 일이기 때문”이라고 말했다.
프로세스 거버넌스도 마찬가지로 복잡하다. 수작업 워크플로우에는 암묵적인 점검 절차가 포함되는 경우가 많지만, 자동화는 그렇지 않다. 재설계 없이 자동화만 진행할 경우, 오류를 줄이기보다 오히려 더 빠르게 확산시킬 위험도 있다. 여기에 인력 거버넌스까지 더해진다. 직원 교육, 책임 범위의 재정의, 새로운 실패 유형에 대한 조직 차원의 대비가 모두 요구되고 있다.
자이디는 성숙한 거버넌스에 프로젝트를 중단할 수 있는 판단력도 포함된다고 강조했다. 그는 위험 요소가 크고 ROI가 불분명하거나 점차 감소하는 프로젝트의 경우, 빠르게 일시 중단하거나 취소하고 있다고 설명했다. 그는 “프로젝트를 취소했다고 해서 거버넌스가 실패한 것은 아니다. 오히려 거버넌스가 제대로 작동했다는 의미”라고 말했다.
자이디에 따르면 반복적으로 나타나는 패턴도 있다. 리스크를 통제하기 위해 추가 통제 장치나 검증 계층, 사람의 감독을 도입하다 보면, 당초 기대했던 수익이 상당 부분 줄어드는 경우가 많다. 그는 이런 상황에서 프로젝트를 중단하는 것이 합리적인 선택이 될 수 있다고 진단했다.
살아남는 에이전틱 AI의 조건
중단되는 프로젝트가 늘고 있지만, 에이전틱 AI 자체가 후퇴하는 것은 아니다. 대신 적용 범위가 좁아지고 있다. 실제로 살아남는 프로젝트에는 몇 가지 공통점이 있다. 범용 에이전트를 지향하기보다 특정 업무에 집중한다는 점이다. 또 입력과 출력 범위를 통제할 수 있는 제한된 환경에서 운영되며, 성과 역시 추상적인 생산성 향상이 아니라 측정 가능한 비즈니스 지표로 정의된다.
베르마는 변화를 분명히 감지하고 있다고 밝혔다. 그는 “기존 애플리케이션에 단계적으로 추가되는 업무 특화형 에이전트로 이동하는 추세”라며 “성공하는 프로젝트는 개인의 효율성 향상에 머무르지 않고, 조직 차원의 실질적인 성과를 만들어내는 사례”라고 설명했다.
웅도 같은 견해를 내놨다. 그는 “핵심은 시간을 얼마나 절약했느냐가 아니라 비즈니스에 어떤 성과를 가져오는지다”라고 말했다. 그는 성숙한 도입 사례가 에이전트의 행동을 KPI와 경영진 대시보드에 연계해, 기대에 못 미치는 경우 신속히 방향을 조정할 수 있는 구조를 갖췄다고 덧붙였다.
전문가들은 한 가지 공통된 원칙을 강조했다. 자율성을 한 번에 완성하는 것이 아니라 단계적으로 확보해야 한다는 점이다. 중대한 의사결정 지점에는 여전히 사람이 개입해야 하며, 문제가 발생했을 때를 대비한 롤백 경로도 사전에 설계돼 있어야 한다. 거버넌스 역시 사후 대응이 아니라, 상시적으로 작동하는 체계여야 한다.
에이전틱 AI 도입의 다음 단계는 이전보다 조용하게 전개될 가능성이 크다. 대대적인 발표는 줄어들고, 일시 중단되는 프로젝트는 늘어나며, 재무 조직과 이사회의 검토는 한층 더 엄격해질 전망이다. 그러나 부정적으로만 해석할 필요는 없다. 에이전틱 AI가 실험 단계를 지나, 책임이 수반되는 영역으로 이동하고 있음을 보여주는 변화다.
자이디는 많은 기업이 과거의 교훈을 다시 확인하고 있다고 말했다. 시스템은 사람보다 더 높은 완성도를 요구받는다는 점이다. 기대를 충족하기 위해 필요한 것은 과장된 홍보가 아니라, 통제와 규율이라는 설명이다. 결국 CIO에게 중요한 질문은 에이전트가 행동할 수 있는지 여부가 아니다. 에이전트가 실제로 행동했을 때, 그 결과를 통제하고 설명하며 비용까지 감당할 준비가 돼있는지 여부다. dl-ciokorea@foundryco.com