칼럼 | 점점 늘어나는 추론 비용···올해의 AI 실험을 운영 체계로 전환하려면

현재 많은 기업이 사실상 두 부류의 AI를 운영하고 있다.

첫째는 눈에 띄고 흥미를 끄는 AI다. 개발자가 주도하는 코파일럿, 고객지원 조직의 검색 증강 생성(RAG) 파일럿 운영, 누군가가 클라우드 환경에서 빠르게 만든 에이전틱 PoC, 그리고 SaaS 애플리케이션 내부에 포함된 AI가 여기에 해당한다. 현업 부서가 빠르게 구축할 수 있고 활용도도 높으며 잠재력도 크지만, 대부분 IT의 영역 바깥에서 움직이는 경우가 많다.

다른 하나는 CIO가 관리해야 하는 AI다. 이는 거버넌스가 필요하고, 비용을 관리해야 하며, 보안 기준을 충족하고, 이사회의 기대에도 부합해야 한다. 최근에는 두 AI가 서로 충돌하고 있다. AI 스타트업 라이터(Writer)의 CEO 메이 하비브는 “포춘 500대 기업 임원의 42%는 AI가 ‘회사를 분열시키고 있다’고 느낀다고 답했다”라고 언급했다.

과거 혁신 기술의 흐름을 보면 AI도 예외가 아니다. 새로운 기술은 개발자의 놀이터에서 시작해 CIO의 고민거리가 되고, 결국 중앙에서 관리되는 플랫폼이 된다. 가상화, 클라우드, 쿠버네티스가 그랬고 AI 역시 같은 길을 걷고 있다.

그동안 애플리케이션 및 사업 조직은 실제 문제를 해결하기 위해 연간 IT 프로젝트를 기다리는 대신 강력한 생성형 AI 도구를 빠르게 도입해 왔다. 이는 생성형 AI가 지금까지 제공해온 가치다. 하지만 성공은 무분별한 확산을 낳기 마련이다. 지금 기업은 여러 개의 RAG 스택, 서로 다른 모델 제공업체, SaaS 내부의 중복된 코파일럿, 공유되지 않은 가드레일 등 복잡한 문제에 직면하고 있다.

이 긴장은 2025년 기업 보고서 곳곳에서 드러나고 있다. AI의 성과는 조직별로 편차가 크고 내부 갈등은 더 심해졌다. 이제는 IT 부서가 개입해 ‘기업의 AI 운영 방식’을 정리해야 할 시점이다. 단일한 모델 접근 방식, 일관된 정책, 더 나은 경제성, 충분한 가시성을 갖춘 체계를 마련해야 한다는 의미다. 맥킨지가 “제품팀이 소비할 수 있는 플랫폼을 구축하라”라고 분석한 것도 같은 맥락이다.

AI가 기존 혁신 기술과 다른 점은 ‘문제가 터지는 지점’이다. 예컨대 클라우드 도입 초기에는 보안과 네트워크가 첫 번째 장애물이었다. 하지만 AI는 추론 단계에서 문제가 발생한다. 추론은 비즈니스 가치가 발생하고 민감한 데이터가 오가는 영역이며, 운영비 대부분을 차지하는 요인으로 꼽힌다. 맥킨지는 파일럿 프로젝트를 추가하는 대신 “가치를 실현하도록 구조를 재구축해야 한다”라고 강조했다. 이는 최근 MIT 연구 결과와도 맞닿아 있다. MIT에 따르면 기업의 생성형 AI 도입 사례 중 95%는 기존 워크플로우에 통합되지 않아 손익(P&L)에 측정 가능한 영향을 주지 못한 것으로 나타났다.

문제는 모델이 작동하지 않는 것이 아니다. 모델이 통합되고 관리되는 공통 경로 위에 놓이지 않았다는 데 있다.

플랫폼화는 거버넌스와 수익성 회복으로 가는 길

오늘날 기업이 저지르는 주요 실수는 AI 인프라를 정적인 전용 자원처럼 다루는 것이다. 대규모 및 소규모 언어 모델의 요구사항, 데이터 주권 압박, 끊임없는 비용 절감 요구는 모두 하나의 결론으로 모인다. AI가 이제 실험 수준을 넘어 기업 인프라의 필수 기능으로 자리 잡았다는 점이다. 해결책은 더 많은 하드웨어가 아니라, 책임과 통제력을 확보해 AI를 전략적 인프라 서비스로 끌어올리는 CIO 중심의 플랫폼화 전략이다. 이를 위해서는 명확한 역할 분리와, 단순 확장이 아니라 규모에 맞는 체계적 확장 방식을 도입해야 한다.

역할을 분리하고 ‘AI 손익 센터’를 구축

AI 인프라 관리의 재무적 우선순위를 높여야 한다. 이를 위해 인프라팀과 데이터 사이언스팀의 역할을 명확히 나눠야 한다. 인프라팀은 보안 확보, 분산 토폴로지 운영, 백만 토큰당 비용 절감 등 플랫폼 운영에 전념하고, 데이터 사이언스팀은 비즈니스 가치 창출과 모델 정확도 향상에 집중하는 구조가 필요하다.

필자가 ‘AI 손익 센터’라고 부르는 프레임워크는 인프라 선택이 곧 비용과 수익에 직접 영향을 주는 재무적 결정이 되도록 하고, 동시에 규제 준수를 보장하는 체계를 제공한다. 최근 여러 연구에서도 측정 가능한 AI 가치를 얻기 위해 CIO가 강력한 AI 거버넌스와 비용 통제 프레임워크를 구축해야 한다는 요구가 점차 커지고 있음이 확인됐다.

단순 확장을 넘어 체계적 확장으로

기술 전략은 단순히 규모를 늘리는 방식이 아니라, 경제적 기준에 따라 모델을 지속적으로 모니터링하고 분석하며 최적화하고 배포하는 ‘스마트 확장(scale-smart)’ 철학을 구현해야 한다. 이는 모델이 요구하는 성능과 인프라가 제공할 수 있는 역량을 정밀하게 맞추는 지능형 운영 체계를 의미한다. 이러한 운영 방식으로의 전환이 중요한 이유는, 최근 AI 혁신의 핵심으로 꼽히는 2가지 기술을 도입하려면 자원을 효율적으로 배분하고 활용할 수 있는 체계가 필수이기 때문이다.

소규모 언어 모델(SLM): 기업 전용 데이터로 정교하게 조정된 SLM은 범용 대규모 모델보다 특정 기업 업무에서 훨씬 높은 정확도와 문맥 적합성을 제공한다. 모델이 작기 때문에 비용이 절감될 뿐 아니라, 높은 정밀도로 오류를 줄여 추가 비용을 방지할 수 있다. 일부 연구에서도 SLM을 도입한 기업이 범용 모델을 사용한 기업보다 더 나은 정확도와 빠른 ROI를 창출한 것으로 나타났다. 가트너는 2027년까지 기업이 업무 특화 SLM을 범용 LLM보다 3배 더 많이 활용할 것으로 내다봤다.
에이전틱 워크플로우: 차세대 애플리케이션은 단일 사용자 요청이 여러 모델로 연쇄적으로 전달되는 에이전틱 AI를 기반으로 한다. 다중 모델에 기반한 프로세스를 운영하려면, 키 값(KV) 캐시 위치 기반 라우팅, 자동 프리필/디코딩 분리, 플래시 어텐션, 양자화, 추측 디코딩, 이기종 GPU 및 CPU 간 모델 샤딩 등 복잡한 최적화를 자동으로 수행할 수 있는 지능형 플랫폼이 필요하다. 요약하면, 이런 기술은 복잡한 AI 작업의 지연과 비용을 크게 줄여주는 핵심 요소다.

SLM이든 에이전틱 워크플로든, 또는 어느 모델이든 추론이 실행되는 순간 비용 효율성을 확보하려면 모든 요청이 비용 정책에 따라 자동으로 최적 경로로 라우팅되고, 하드웨어 특성에 맞춰 지속적으로 실행 방식이 조정돼야 한다. 이런 구조로 최적화될 때만 백만 토큰당 비용을 두 자릿수 수준으로 낮출 수 있다. 이를 가능하게 하는 유일한 기반은 기업 전반의 추론을 일관되게 운영할 수 있는 중앙 통합 플랫폼이다.

기존 AI 추론의 비효율 해결

기존 엔터프라이즈 인프라를 운영하던 방식, 즉 필자가 ‘단순 확장’이라고 부르는 접근은 지속적인 AI 추론 환경에서는 제대로 작동하지 않는다. 이 방식은 오늘날 CIO가 필요로 하는 추론 플랫폼 구축에도 활용되기 어렵다. 그동안 기업은 전용 대규모 클러스터를 미리 과다하게 확보하고, 최신 GPU를 도입하며, 고비용 학습 환경을 추론 단계에서도 그대로 활용해 왔다.

그러나 이는 최소 2가지 이유에서 근본적으로 비효율적이다.

추론 작업은 부하 변동이 매우 크고 유휴 시간이 길다. 장시간 실행되는 훈련과 달리, 추론 요청은 갑작스럽게 몰리기도 하고 예측하기 어려우며, 그 사이에 공백이 길게 발생한다. 이런 간헐적 요청을 처리하기 위해 대규모 클러스터를 유지한다면 결국 막대한 용량을 놀리는 셈이 되고, 활용률은 떨어지며 재무 부서는 이에 대해 의문을 제기하게 된다. 지금 중요한 비용 지표는 이론적 처리량이 아니라 백만 토큰당 실제 비용이다. 가트너 조사에서도 생성형 AI의 예측하기 어려운 비용 급증을 관리하는 것이 CIO의 최우선 과제 중 하나로 꼽혔다. 최적화의 목표는 이론적 성능이 아니라 경제성이다.
또한 AI 추론은 태생적으로 하이브리드 배포 환경을 전제로 한다. 추론을 중앙 집중식의 단일하고 균질한 환경에서만 처리하기는 사실상 불가능하다. 금융, 의료처럼 규제가 강한 산업이나, 내부 고유 데이터를 기반으로 운영되는 업무에서는 데이터가 보안 경계를 벗어나선 안 된다. 따라서 추론은 온프레미스, 엣지, 또는 보안이 보장된 콜로케이션 등 다양한 환경에서 수행돼야 한다. 중요한 워크로드를 일반적인 클라우드 API 엔드포인트로 밀어넣는 방식은 이러한 규제 및 보안 요건을 충족하기 어려워, 기업은 자연스럽게 하이브리드 및 엣지 아키텍처로 이동하고 있다. 여기에 더해 하드웨어 역시 CPU, GPU, DPU 등 다양한 프로세서가 혼재된 이기종 환경이기 때문에 플랫폼은 이를 모두 매끄럽게 관리할 수 있어야 한다.

CIO의 필수 과제는 ‘AI 추론 플랫폼의 완성’

통합 플랫폼의 목적은 하나의 모델로 강제 통일하는 것이 아니다. 기업이 요구하는 보안과 비용 관리 기준을 충족하면서 훨씬 다양한 모델, 에이전트, 애플리케이션을 활용할 수 있도록 하는 거버넌스 계층을 마련하는 데 있다.

‘단순 확장’에서 ‘스마트 확장’으로의 전환은 기술 리더에게 주어진 핵심 과제다. AI의 미래 가치는 훈련한 모델이 아니라, 추론 운영을 통해 얼마나 안정적인 마진을 확보하는가에 달려있다.

모든 기술 리더는 AI 손익 센터의 플랫폼 소유자이자 재무 설계자로서 역할을 수행해야 한다. 이 구조적 변화가 이루어져야만 데이터 사이언스팀이 보안·규제 준수·비용이 최적화된 기반 위에서 기존 속도를 유지하며 혁신을 이어갈 수 있다.

플랫폼을 정착시키고 스마트 확장 전략을 도입하면, AI 비용이 걷잡을 수 없이 증가하는 상황에서 벗어나 지속 가능한 수익 기반 경쟁력을 확보할 수 있다. 남은 선택지는 분명하다. 분산된 AI 환경의 비용과 혼란을 계속해서 수동적으로 관리할 것인지, 아니면 추론을 수익 창출 기반으로 전환하는 AI 손익 센터를 구축해 장기적 경쟁우위를 확보할 것인가다.
dl-ciokorea@foundryco.com

Read More from This Article: 칼럼 | 점점 늘어나는 추론 비용···올해의 AI 실험을 운영 체계로 전환하려면
Source: News