엔터프라이즈 클라우드 지출이 걷잡을 수 없이 증가하고 있으며, 전체 기업의 절반 이상은 클라우드 예산 중 40% 이상이 방지할 수 있었던 실수나 비효율적인 프로세스 때문에 낭비되고 있다고 추산하고 있다.
AI 도입이 빠르게 확산되면서 상황은 더욱 악화되고 있다. 클라우드 네트워킹은 종종 간과되는 영역이지만, AI 기반 데이터 이동의 수요가 커지면서 문제는 더욱 복잡해지고 있다. 특히 에이전틱 AI가 확산될 경우 네트워크 트래픽은 기하급수적으로 증가할 수 있으며, 그 흐름을 예측하기도 훨씬 어려워질 수 있다.
예상치 못한 클라우드 비용 증가
시장조사기관 플렉세라(Flexera)가 지난 3월 말 발표한 ‘클라우드 현황 보고서’에 따르면, 현재 전체 엔터프라이즈 워크로드의 절반 이상이 퍼블릭 클라우드에서 운영되고 있으며, 올해 클라우드 지출은 전년 대비 28% 증가할 것으로 예상된다. 전 세계 700명 이상의 클라우드 의사결정권자를 대상으로 한 조사 결과, 전체 기업 중 40%는 연간 퍼블릭 클라우드 지출이 1,200만 달러(약 164억 원)를 초과한다고 답했다. 이는 지난해의 36%보다 늘어난 수치다.
하지만 전체 클라우드 지출 중 27%는 불필요하게 낭비되고 있는 것으로 나타났다. 이는 4년 전 32%보다 낮아진 수치지만 여전히 높은 수준이다. 특히 네트워킹 비용이 주요 낭비 요인으로 지목됐다. 영국 버크셔에 위치한 레딩대학교의 운영 책임자 케빈 모티머는 “클라우드에서 숨겨진 비용은 컴퓨팅 영역이 아니라 네트워크와 스토리지에서 발생한다”라며 “퍼블릭 클라우드에서는 대규모 네트워크 인프라를 손쉽게 구축할 수 있지만, 이 중 상당 부분은 실제로 불필요한 경우도 있다”라고 말했다.
모티머는 클라우드는 필요에 따라 확장 및 축소가 가능하기 때문에 기존 배포 방식보다 유리하다고 언급했다. 그러나 실제로는 네트워크를 비활성화하더라도 백그라운드에서는 여전히 자원을 소모하며 클라우드 비용이 발생한다고 설명했다. 레딩대학교 역시 실제로 대형 네트워크가 생성돼 예기치 않은 비용과 보안 문제가 동시에 발생한 사례가 있었다고 전했다. 또한 데이터를 클라우드로 전송하거나 클라우드에서 꺼내는 데 드는 비용, 즉 데이터 이그레스(Egress) 비용도 고려해야 한다고 강조했다. “이그레스 비용에 대해서는 아무도 얘기하지 않는다”고 모티머는 설명했다.
클라우드 비용 최적화 전문 기업 노스(North)의 공동 설립자이자 최고경영자인 매트 비링거는 “클라우드 네트워킹은 조용한 예산 파괴자”라며 “대부분 컴퓨트 비용에만 집중하다가, 나중에야 전체 비용의 절반이 리전 간 데이터 전송에서 발생했다는 사실을 뒤늦게 알게 된다”라고 설명했다. 그는 “이런 비용은 문제로 인식되기 전까지는 외부에 잘 드러나지 않는 비용이다”라고 덧붙였다.
클라우드 거버넌스 기업 스택렛(Stacklet)이 2024년 10월 발표한 보고서에서도 비슷한 결과가 나타났다. 조사 대상 기업의 절반은 클라우드 지출의 40% 이상이 낭비되고 있다고 응답했다. 특히 기업 규모가 클수록 낭비 비율도 높아지는 경향을 보였다.
클라우드 컨설팅 기업 아스페리타스(Asperitas)의 클라우드 부문 리더 스콧 휠러는 “이 같은 비용 낭비는 여러 원인에서 비롯된다”며 “여전히 많은 기업이 자본 지출(CapEx)에서 운영 지출(OpEx)로 전환된 구조에 적응하지 못했다”고 분석했다. 예를 들어, 클라우드 비용을 전담해 관리하는 팀이나 담당자가 아예 존재하지 않거나, 존재하더라도 그것이 주된 책임이 아닌 경우가 많다고 설명했다.
휠러는 “담당자가 비용 외에도 여러 업무를 동시에 맡고 있어서, 클라우드 지출은 부차적인 이슈가 되기 쉽다”라고 분석했다. 특정 프로젝트를 위해 예산을 배정해놓고, 이후 실제로 그 예산이 계속 필요한지를 다시 점검하지 않는 기업도 존재한다고 한다. 휠러는 “예산을 다시 검토하는 일이 귀찮기 때문에 그냥 넘어가는 경우가 많다”라고 전했다.
휠러는 비용을 모니터링하고, 데이터 보존 정책을 관리하며, 설정 오류나 기타 클라우드 문제를 감지할 수 있는 다양한 도구가 이미 존재한다고 말했다. 그는 “애저, 구글, AWS에서 관련 도구를 기본적으로 제공하고 있으며, 비용 관리를 위한 외부 솔루션도 많다”라며 “하지만 문제는 이를 제대로 설정해 사용하지 않는 데 있다”라고 설명했다.
휠러에 따르면, 한 고객사는 최근 연간 200만 달러(약 27억 원)의 클라우드 비용을 절감할 수 있는 로그 데이터 저장량 축소 프로젝트를 제안받았지만, 20만 달러(약 2억 원)의 초기 비용이 든다는 이유로 이를 실행하지 않았다. 휠러는 “리더십 입장에서는 다른 일들을 더 우선순위로 두고 있어서, 클라우드 비용 최적화는 뒷전으로 밀리는 경우가 많다”고 언급했다.
일부 기업은 리스크 부담 때문에 클라우드 비용 절감을 쉽게 결정하지 못하기도 한다. 클라우드 비용 최적화 기업 클라우드제로(CloudZero)의 설립자이자 최고기술책임자(CTO) 에릭 피터슨은 “클라우드 자원을 줄인다는 건 간단하지 않다”라며 “어떤 이는 ‘굳이 시스템을 줄이다 사용자 접속이 차단되면 내 커리어에 위험이 생기지 않을까? 차라리 조금 더 지출하는 게 낫지 않을까’라고 생각한다”라고 전했다.
하지만 피터슨은 이러한 태도는 경제가 좋을 때나 가능한 논리라고 지적했다. 경기 침체 상황에서는 낭비되는 비용을 그냥 넘길 수 없다는 의미다. 자바 플랫폼 기업 아줄(Azul)의 의뢰로 센서스와이드(Censuswide)가 지난 3월 말 발표한 보고서에 따르면, CIO 300명을 대상으로 한 조사에서 83%는 올해 클라우드 지출이 예상보다 많았다고 답했다.
그럼에도 불구하고 클라우드 인프라는 여전히 온프레미스보다 비용 효율이 높은 것으로 나타났다. 같은 조사에서 CIO의 80%는 클라우드 이전을 통해 전체 비용이 줄었다고 답했다. 하지만 향후 더 많은 워크로드를 클라우드로 이전할 계획도 가지고 있다. 현재 전체 인프라 및 애플리케이션 워크로드의 68%가 퍼블릭, 프라이빗, 또는 하이브리드 클라우드에 배치돼 있으며, 향후 5년 내 이 비율은 75%까지 증가할 것으로 전망된다. 이는 클라우드 비용 낭비가 더 커질 가능성도 있다는 의미다.
경제 상황이 더 나빠질 경우 기술 책임자에게는 클라우드 예산 낭비를 막기 위한 압박이 더욱 심해질 것으로 보인다. 비용 효율성은 클라우드 이전을 추진하는 주요 이유 중 두 번째에 불과하다. 가장 중요한 이유는 바로 AI와 데이터 분석이다. 하지만 AI 관련 지출은 과도해질 수 있으며, 그만큼 예측하기도 어렵다.
AI로 인해 복잡해지는 클라우드 비용 구조
IDC는 지난 4월 발표한 보고서에서, AI가 2030년까지 전 세계 경제에 미치는 누적 효과가 22조 달러(약 3경 원)에 이를 것으로 전망했다. IDC 애널리스트 카를라 라 크로체는 보고서에서 “전 세계 조직이 AI 투자에 대한 의지를 계속해서 강화하고 있다”라고 설명했다.
가트너는 2025년 생성형AI 관련 지출이 6,440억 달러(약 881조 원)에 이를 것으로 내다봤다. 이는 전년 대비 76% 증가한 수치다. 웨이크필드 리서치(Wakefield Research)가 4월에 발표한 보고서에 따르면, IT 임원 1,000명을 대상으로 한 조사에서 63%는 생성형AI를 전사적으로 통합했다고 밝혔고, 추가로 24%는 이미 도입을 마친 상태라고 답했다. 이들 중 62%는 100% 이상의 투자수익률(ROI)을 경험했다고 밝혔다.
에이전틱 AI에 대한 기대는 이보다도 컸다. 전체 응답자의 94%는 생성형AI보다 더 빠르게 에이전틱 AI를 도입할 계획이라고 답했으며, 평균 ROI는 171%로 예상됐다. IDC는 AI 인프라 지출의 72%가 클라우드에 집중되고 있다고 분석했다. 그러나 AI는 막대한 양의 데이터를 필요로 하는 기술이며, 이 데이터를 클라우드 내외로 이동시키는 데 드는 비용은 매우 빠르게 커질 수 있다.
피터슨은 “AI 시대 이전에는 데이터가 중력처럼 중심이 돼 애플리케이션과 서비스를 끌어당겼다”라며 “하지만 지금은 AI가 더 강력한 중력 역할을 하며 데이터를 끌어당기고 있다. 이 변화는 네트워크 설계에 중대한 영향을 미친다”라고 설명했다.
이러한 변화가 미치는 영향을 많은 기업이 인지하지 못하고 있다고 피터슨은 덧붙였다. 많은 엔터프라이즈 AI 실험이 서로 다른 팀에서 동시에 진행되고 있으며, 이들은 가능한 모든 곳에서 데이터를 끌어온다. 피터슨은 “API를 통해 데이터에 접근해 모델 학습을 시작할 수 있다”며 “하지만 그 과정에서 페타바이트(PB)급 데이터가 네트워크를 넘나든다는 사실을 모를 수 있다”고 말했다.
이러한 데이터 이동이 하나의 클라우드 공급자 내에서 일어날 경우 그나마 비용이 덜하지만, 실제로는 외부 프레임워크를 활용하는 경우가 많다. 예를 들어, 어떤 부서는 오픈AI를, 또 다른 부서는 구글의 AI 서비스를, 또 다른 곳은 앤트로픽의 시스템을 사용할 수 있다. 피터슨은 “이렇게 되면 내 클라우드 공급자 외부에서 데이터가 인터넷을 통해 이동하게 되고, 이로 인해 이그레스 비용이 발생한다”라며 “예상치 못한 비용이 발생하는 원인이 된다”라고 언급했다.
기존 생성형AI에서는 모델을 학습하거나 파인튜닝할 때, 그리고 생성형AI 질의에 문맥을 더하는 RAG(검색 기반 생성) 임베딩을 적용할 때 대량의 데이터가 이동한다. 질문-응답 상호작용에서 컨텍스트 윈도우가 커질수록 모델이 받아들이는 정보량도 늘어난다.
피터슨은 “거대한 AI 블랙홀은 점점 더 커지고 있다”라며 “AI가 받아들이는 데이터가 많아질수록 그 영향력은 더 커진다”라고 표현했다.
에이전틱 AI는 이러한 구조를 한층 더 확장한다. 단순한 질문-응답 방식이 아니라, 다수의 에이전트가 협업하며 비결정론적 방식으로 업무를 수행하는 것이 특징이다. 특정 단계는 원하는 결과가 나올 때까지 반복되며, 필요에 따라 다른 시스템을 호출해 지원받기도 한다. 그리고 이 에이전트들이 통제를 벗어나지 않도록 설계된 보호 인프라도 존재하는데, 이 역시 생성형AI로 작동하는 경우가 많다.
피터슨은 “복잡한 구조가 순식간에 현실이 되고 있다”고 표현했다.
클라우드 네트워킹 비용을 줄이는 방법
네트워크 아키텍처 설계와 워크로드 흐름 최적화, 중복 제거 등 기본 전략을 바탕으로 클라우드 비용을 절감할 수 있다는 분석이 나왔다.
영국 레딩대학교(University of Reading)의 모티머는 고정 대역폭 구매, 데이터 중복 제거, 워크플로우 조정을 통해 클라우드 네트워킹 비용을 통제하고 있다. 이 대학교는 영국과 말레이시아 캠퍼스에서 1만 9,000명 이상의 학생을 지원하고 있으며, 연구자들은 시뮬레이션, 모델링, 영상 처리 등의 작업을 통해 매달 테라바이트급 데이터를 생성한다. 이러한 데이터 작업은 온프레미스 컴퓨팅과 함께 마이크로소프트(MS)의 애저, AWS, 오라클 클라우드 등 다양한 환경에서 운영되고 있다.
모티머는 “애저 기반 워크로드 대부분을 익스프레스라우트(ExpressRoute)를 통해 캠퍼스로 우회시켜 이그레스 비용을 줄이고 있다”라며 “이는 고정 대역폭에 대한 고정 요금제를 사용하는 방식으로, VPN과 달리 사용량 변동에 따라 요금이 달라지지 않는다. 익스프레스라우트는 처리량에 대한 서비스 수준 협약(SLA)이 보장되는 데다, 가격도 고정돼 있어 예측이 용이하다”라고 설명했다.
애저 익스프레스라우트는 온프레미스 인프라와 MS 데이터센터 간에 전용 프라이빗 연결을 설정할 수 있게 해주는 서비스다. 레딩대학교는 이 외에도 루브릭 클라우드 볼트(Rubrik Cloud Vault)를 백업 솔루션으로 도입해 중복 파일을 제거하고, 클라우드 저장 공간을 70%까지 줄였다. 이 역시 네트워크 트래픽 비용 절감에 기여하고 있다.
하지만 모티머는 결국 기본적인 부분이 핵심이라고 강조했다. 그는 “동료 대학이나 다른 기관을 보면 데브옵스(DevOps)를 활용해 다양한 것을 잘 만들어내면서도, 정작 데이터 서버 최적화 같은 기본은 놓치는 경우가 많다”라며 “온프레미스 환경에서 잘 해왔던 일들을 클라우드에서도 동일하게 적용해야 한다. 이런 기본적인 질문을 던지다 보면, 비용 절감은 물론 필요 없는 데이터를 삭제하고 정리하는 관리 관행도 자연스럽게 따라온다”라고 언급했다.
모티머는 이를 ‘튜닝’이라고 표현했다. 그는 “물론 튜닝이 만능 해결책이 아니다”라며 “우리는 가장 비용 효율적인 방식을 찾기 위해 균형점을 맞추려 노력하고 있다”라고 전했다.
클라우드 네트워킹 비용을 줄이는 데 활용할 수 있는 핵심 전략은 여러 가지가 있다. 딜로이트컨설팅의 클라우드 핀옵스 총괄 니킬 로이차우두리는 지능형 라우팅, 스토리지 계층화, 정기적인 비용 감사를 대표적인 예로 들었다. 또한 그중에서도 가장 중요한 것은 네트워크 아키텍처, 즉 데이터가 실제로 어디에 있는지 결정하는 것이라고 조언했다.
로이차우두리는 “대부분의 클라우드 제공업체는 데이터 업로드는 무료로 제공하지만, 서비스를 넘나들거나 온프레미스 데이터센터로 다시 전송하는 경우 비용이 발생한다”고 말했다. 이어 “데이터가 처리될 위치와 스토리지 위치를 일치시키는 것이 중요하다”며 “이렇게 하면 데이터가 사용 지점 근처에서 처리되고 저장되기에, 이그레스 비용이 낮아지고 성능도 개선된다”고 설명했다.
노스의 비링거는 로이차우두리가 언급한 전략과 같은 접근이 AI 시대에는 더욱 중요해질 것이라고 내다봤다. 비링거는 “에이전틱 AI 시대에는 데이터 이동이 폭발적으로 증가할 것”이라며 “애플리케이션은 더 똑똑해지고 자율성이 강화되며, 동시에 훨씬 더 많은 데이터를 주고받게 된다. 이로 인해 예기치 못한 네트워크 트래픽 증가, 빈번한 스토리지 갱신, 그리고 인프라 계층 간 경계가 더욱 흐릿해질 수 있다”고 분석했다.
비링거는 이에 대한 대응으로 인프라 계층 자체에 지능을 구축해야 한다고 조언했다. 시스템의 동작 방식이 점점 예측 불가능해지는 상황에서도 전체 흐름을 가시화할 수 있는 기반을 마련해야 한다는 의미다.
dl-ciokorea@foundryco.com
Read More from This Article: AI가 키운 데이터 이동, 조용히 새는 클라우드 비용···전문가가 말하는 해결책은?
Source: News