지난 수년간 기업은 설비 투자를 최소화하고 비용을 절감하기 위해 가능한 많은 데이터를 신속하게 퍼블릭 클라우드로 이전하려 노력했다. 그러나 점점 더 많은 CIO가 이러한 투자를 재검토하며 생산성 향상과 비용 절감 효과가 실제로 있는지 분석하고 있다.
포레스터의 수석 애널리스트 트레이시 우는 “많은 기업이 비용 분석 없이 서둘러 퍼블릭 클라우드로 전환했다”라며 “연간 클라우드 비용이 급증하는 상황에서, 긴축 예산으로 인해 현안 해결을 위한 방안을 모색하는 조직이 많다”라라고 밝혔다.
Forrester
재보험 기업 RGA(Reinsurance Group of America)의 수석 부사장 겸 최고기술책임자(CTO) 론 할로웰은 ” 2025년에는 퍼블릭 클라우드와 프라이빗 클라우드 전반에서 업무 도입, 분배 기준, 구현 방식 등의 프로세스를 성숙시켜 퍼블릭 클라우드 활용을 최적화하는 데 중점을 둘 예정이다”라며 “비용 최적화와 명확한 워크로드 선택 기준이 퍼블릭 클라우드와 프라이빗 클라우드 간의 적합한 활용 방안을 결정할 것”라고 설명했다.
소프트웨어 기업 엔다바(Endava) 클라우드 기능 담당 부사장 라두 분불리아는 대기업의 많은 CIO와 컨설팅을 진행하고 있다. 분불리아 부사장은 “올해는 하이브리드 클라우드, 멀티 클라우드, 온프레미스로의 이전 등에 대해 더 많이 논의하는 한 해가 될 것”이라고 전했다. 그는 예상보다 높은 비용뿐만 아니라 성능 및 지연(latency) 문제, 보안, 데이터 프라이버시 및 규제 준수 이슈, 그리고 데이터의 위치, 이동, 처리와 관련된 지역 디지털 주권 규정이 이러한 논의를 주도하고 있다고 밝혔다.
할로웰은 “프라이빗 클라우드를 퍼블릭 클라우드보다 선호하게 만드는 주요 요인은 비용”이라고 강조했다. 할로웰 CTO는 쇼핑몰, 항공사, 예매 사이트처럼 특정 시기에 트래픽이 집중되는 서비스에서 퍼블릭 클라우드가 비용 효율적인 기술이라고 평가했다. 그는 “안정적인 업무 부하를 가진 서비스는 프라이빗 클라우드나 전용 서버 운영이 더 경제적일 수 있다”고 설명했다.
RGA
분불리아 부사장은 많은 CIO들이 비용 문제로 퍼블릭 클라우드 전략을 재검토 중이라고 밝혔다. 엔다바의 엔터프라이즈급 시스템 중 80%가 퍼블릭 클라우드를 전체 또는 부분적으로 사용하지만, 이 중 60%는 최소 한 개 시스템의 마이그레이션을 진행하고 있다. 분불리아는 ‘이러한 추세가 최근의 일반적인 경향’이라고 표현했다.
우 애널리스트는 “온프레미스, 온프레미스 프라이빗 클라우드 또는 호스팅 프라이빗 클라우드와 퍼블릭 클라우드에 대한 관심이 다시 높아지고 있으며, 특히 생성형 AI와 같이 데이터가 많은 워크로드로 인해 클라우드 지출이 천문학적으로 증가하기 시작했다”고 설명했다. 이어 “애플리케이션을 다시 온프레미스로 이동하거나 온프레미스 또는 호스팅된 프라이빗 클라우드 서비스를 사용함으로써 CIO는 데이터 프라이버시를 보장하면서 멀티테넌시를 피할 수 있다”라고 밝혔다. 포레스터는 올해 클라우드 리더의 80%가 프라이빗 클라우드 투자 규모를 20% 늘릴 것으로 전망했다.
우 애널리스트는 “2025년의 클라우드 전략이 온프레미스 복귀에만 국한되지 않을 것”이라며 “프라이빗 클라우드 투자가 생성형AI, 비용, 디지털 주권 이슈, 성능 요건 등으로 인해 증가하고 있지만, 퍼블릭 클라우드 투자도 여전히 늘고 있다”라고 설명했다. 이어 “퍼블릭 클라우드가 기술 접근성과 비용 효율성, 혁신 지원 측면에서 매력적인 옵션을 제공하며, 이러한 특성들이 퍼블릭 클라우드에 대한 수요를 지속적으로 증가시키고 있다”라고 분석했다.
퍼블릭 클라우드의 숨겨진 비용과 과제들
세인트주드 산하 연구병원의 수석 부사장 겸 최고정보책임자(CIO) 키스 페리는 퍼블릭 클라우드가 생태계 외부 연구자들에게 지식을 전달하는 효과적인 수단이라고 언급했다. 세인트주드 병원은 온프레미스 슈퍼컴퓨터를 사용해 연구 데이터를 생성하며, 이 데이터를 퍼블릭 클라우드로 이동시키고 다시 가져오는 데 드는 비용이 상당히 클 수 있다. 페리는 ” 연구기관들은 대용량 데이터를 고성능 컴퓨팅 시설 근처에서 처리해야 하므로 데이터 전송 비용 부담이 크다”라고 전했다.
할로웰에 따르면, 데이터 집약적인 작업에서 지속적인 고성능 컴퓨팅이 필요할 경우 비용이 크게 증가할 수 있다. 할로웰은 “데이터 이동은 비용뿐만 아니라 성능에도 영향을 미친다”며, “데이터 라이프사이클을 신중히 관리해 클라우드 간 전송을 최소화하고 있다”라고 말했다.
우 애널리스트에 따르면, 퍼블릭 클라우드는 가용 영역(AZ), 지역, 클라우드 간의 데이터 저장 및 전송 비용이 모두 발생하므로 데이터 집약적 워크로드의 비용 부담이 크다고 지적했다. 특히 공급업체들은 특정 가용 영역으로 유입되는 데이터와 유출되는 데이터 모두에 대해 전송 요금을 부과하여 추가적인 비용이 발생한다. 우 애널리스트는 “AZ 간 전송의 경우 기본적으로 두 번 요금이 부과되며, 숨겨진 전송 수수료는 정말 엄청날 수 있다”고 전했다.
분불리아는 특히 페타바이트 단위의 데이터 전송 비용이 높고 데이터 전송 및 동기화가 복잡할 수 있다고 언급했다. 분불리아는 “어떤 AI 프로젝트에서는 클라우드 비용의 약 45%가 데이터를 퍼블릭 클라우드에서 다른 위치로 이동시키는 데서 발생했다”라며 “전체 시스템을 구축해 서비스 주변의 모든 필요 사항을 충족하는 과정에서 초기 예상보다 3~4배 더 많은 비용이 들 수 있다”고 설명했다.
예를 들어, 오픈AI를 활용해 AI 솔루션을 구축하는 조직은 AI 서비스 외에도 비밀 데이터를 보호하기 위한 금고 설정, 보안 장치 및 정책 정의와 구성, 보안 스토리지, 데이터 변환, 모니터링, 감사, 컴플라이언스 계층 등을 추가로 고려해야 한다. 이러한 요구 사항을 충족하기 위해 10~12개의 추가 클라우드 서비스를 활용해야 하며, 이는 시스템의 복잡성을 더욱 증가시킨다.
모자이크 컴퍼니(Mosaic Company)의 CIO 제프 위소키는 이러한 예산 초과 문제를 인정하면서도, CIO가 퍼블릭 클라우드 공급업체와 협력하여 이러한 비용을 통제할 수 있다고 전했다. 예를 들어, 모자이크는 최근 MS의 빙(Bing) 플랫폼에서 채굴 작업을 위한 데이터 집약적인 모자이크 GPT 안전 모델을 만들었으며, 곧 파일럿으로 출시할 예정이다. 이 모델에는 수년간의 안전 정보가 포함되어 있어 채굴 현장에서 일하는 계약자는 안전과 관련된 질문을 입력하고 주어진 상황에 대처하는 방법을 확인할 수 있다.
위소키는 “비용 문제를 해결하기 위해 아키텍처를 변경했다”고 설명했다. 모자이크의 팀이 모델을 구축한 방식과 MS가 솔루션을 설계한 방식은 프로젝트를 예산 범위 내에서 유지하는 데 도움이 되었다. 위소키는 “MS와 함께 비용을 합리적인 수익으로 간주할 수 있는 수준으로 낮추기 위해 몇 가지 사항을 변경했다”고 전했다.
위소키는 처음에는 프라이빗 클라우드에 있던 모자이크의 ERP 시스템이 지금은 SAP 프라이빗 클라우드에서 실행되고 있다고 언급했다. 하지만 일부 서버는 항상 온프레미스에 있을 것이며, 클라우드 동기화 기능을 갖춘 엣지 서버 솔루션이 있긴 하지만 이러한 추세는 변하지 않을 것이라고 설명했다. 위소키는 “현재 상황에서 크게 발전할 것으로 보이지는 않는다”며 “회사 IT 운영의 80~85%가 클라우드에서 이루어지고 있으며, 앞으로도 계속 그렇게 될 것으로 예상한다”고 전했다.
예산을 초과할 수 있는 AI 프로젝트의 위험성
가트너(Gartner)의 클라우드, 엣지, AI 인프라 서비스 및 기술 담당 부사장 시드 내그는 필요한 컴퓨팅 성능의 규모가 사내에서 재현하기에는 너무 비싸기 때문에 조직이 ChatGPT 3.5 및 4.0과 같은 대규모 기반 모델을 사용하는 데 있어 선택의 여지가 많지 않다고 설명했다. AI와 머신 러닝은 데이터 집약적이기 때문에 이러한 프로젝트는 클라우드 비용을 크게 증가시킬 수 있다.
가트너는 2027년까지 기업이 사용하는 차세대 AI LLM의 50% 이상이 산업별로 특화될 것이라고 예측했다. 이는 대규모 범용 기반 모델에서 훨씬 더 작은 부분이 될 것이며, 다른 곳에서 실행될 수도 있다. 레드햇(Red Hat)의 인스트럭트랩과 같은 도구를 사용해 이러한 산업별 모델을 회사별 데이터로 보강한 후에도 여전히 그 규모는 작다. 내그 부사장은 “산업별 모델은 교육에 더 적은 리소스가 필요하므로 온프레미스, 프라이빗 클라우드 또는 호스팅된 프라이빗 클라우드 인프라에서 실행할 수 있다”고 전했다.
“”
분불리아는 모델을 훈련하거나 최적화하는 데 필요한 컴퓨팅 성능과 인프라를 온프레미스에서 찾거나 구매하기가 쉽지 않다고 언급했다. 분불리아는 “컴퓨팅 요구 사항은 가장 중요한 요소 중 하나”라고 강조했다. 다행히도 클라우드 공급업체는 기업이 자체 데이터에 대해 모델을 학습시키는 데 사용할 수 있는 상용 AI 플랫폼도 제공한다. 분불리아는 “따라서 온프레미스에서 실행하기로 결정하더라도 온프레미스 시스템을 구성할 필요가 없다”고 설명했다.
내그 부사장은 “프라이빗 클라우드 호스팅이나 온프레미스로 가는 것에 대해 신중을 기하고 싶다”며 “신탁 책임이 있는 의사 결정권자는 특별한 이유가 없는 한 CapEx 시대로 돌아가는 것을 주저할 것”이라고 전했다.
분불리아는 클라우드 공급업체가 서비스형 플랫폼의 일부로 더 많은 AI 및 ML 서비스를 계속 제공하고 있다고 설명했다. 사전 학습된 모델로 시작하여 자체 데이터를 가져와서 문제 없이 서비스를 사용하기만 하면 된다. 분불리아는 “퍼블릭 클라우드 공급업체에서 제공하는 모델이 대부분의 기업이 필요로 하는 표준 요구 사항의 90%까지 충족할 수 있을 만큼 충분히 성숙해졌다”고 강조했다. 이러한 서비스를 사용할지 여부는 결국 비용으로 귀결될 것이다. 결국 비즈니스 모델에 적합한 비용인지가 관건이다.
저렴하지만 성능이 떨어지는 서비스의 한계
포레스터(Forrester)의 우 애널리스트는 처음에 CIO가 비용 절감에 초점을 맞추지만, 이것이 항상 성능 고려 사항이나 최종 목표와 일치하는 것은 아니라고 설명했다. 퍼블릭 클라우드가 비용이 적게 드는 옵션이라고 해도 잠재적인 지연 시간이나 기타 성능 문제를 고려하면 최선의 선택이 아닐 수 있다. 분불리아는 특히 결제 처리 및 금융 서비스와 같이 지연 시간을 용납할 수 없는 산업에서 더욱 그렇다고 강조했다.
페리 CIO는 “데이터를 생성하는 기기와 데이터를 처리하는 컴퓨팅 성능 사이의 지연 시간은 데이터 위치를 결정하는 데 중요한 변수”라고 설명했다. 경우에 따라 해당 기기는 고성능 컴퓨팅 리소스에 거의 즉각적으로 연결되어야 한다. 페리는 “연구 기기와 온프레미스 및 퍼블릭 클라우드의 고성능 컴퓨터 사이의 지연 시간 때문에 퍼블릭 클라우드를 사용하여 실시간 점검을 수행하는 것은 의미가 없다”고 전했다. 또한 고성능 컴퓨팅을 처리할 수 있는 대규모 GPU 클러스터를 구축하는 퍼블릭 클라우드 하이퍼스케일러가 늘어남에 따라 비용도 고려해야 한다고 언급했다.
게놈 시퀀싱은 가격만 맞다면 로컬 슈퍼컴퓨터에서 퍼블릭 클라우드로 일부 처리를 오프로드하는 것이 합리적일 수 있는 분야 중 하나다. 페리는 게놈 시퀀싱과 관련된 일부 워크플로가 시간이 지나면서 어느 정도 표준화된다고 설명했다. 이러한 경우 비용에 따라 파이프라인을 규모에 맞게 최적화하고 클라우드에서 실행하는 것이 더 합리적일 수 있다. 페리는 “우리는 일부 게놈 시퀀싱 파이프라인을 클라우드로 이전하여 온프레미스 고성능 컴퓨팅의 주기를 확보하기 위해 노력했다”고 밝혔다.
위소키는 성능이 분명 중요하지만, 모자이크의 채굴 운영 사이트의 엣지 서버에서 실행되는 일부 애플리케이션을 제외하고는 퍼블릭 클라우드에서 애플리케이션을 호스팅할지 여부를 선택할 때 결정적인 요소는 아니라고 전했다. 위소키는 “우리에게는 항상 디바이스나 디바이스 근처에 있어야 효과적인 엣지 컴퓨팅에 대한 필요성이 있을 것”이라고 설명했다.
위치의 문제, 데이터 주권과 규제
위소키는 “보안, 개인정보 보호, 비용이 우리에게 세 가지 주요 요소”라고 전했다. 하지만 지금까지 퍼블릭 클라우드 서비스에서 보안과 개인정보 보호는 큰 문제가 되지 않았다.
할로웰은 RGA가 퍼블릭 클라우드 서비스의 보안에 만족하고 있다고 언급했다. 할로웰은 “데이터 격리 및 보안을 제공하는 AWS의 베드락 서비스를 통해 앤스로픽(Anthropic), 미트랄(Mitral) 등의 기반 모델을 활용하고 있으며, 이를 통해 안전한 환경에서 ChatGPT와 같은 기능을 제공할 수 있다”고 설명했다.
우 애널리스트는 디지털 주권 문제는 다른 차원이라고 지적했다. 현지화 규정이 엄격한 국가에서는 퍼블릭 클라우드를 사용할 수 없을 수도 있다. 우 애널리스트는 “온프레미스 프라이빗 클라우드나 호스팅 프라이빗 클라우드를 선택하여 직접 관리하거나 다른 사람이 관리할 수 있다”며 “어느 쪽이든 데이터의 위치를 제어할 수 있다”고 전했다.
할로웰은 규제 환경만이 유일한 요인은 아니라고 설명했다. 할로웰은 “일부 지역에서는 데이터 현지화 및 개인정보 보호 요구사항이 고객 계약에 직접 포함되어 있다”고 강조했다. 이러한 경우 프라이빗 클라우드가 더 유연한 솔루션을 제공할 수 있다. 분불리아는 온프레미스와 클라우드 간의 하이브리드 접근 방식이 여러 국가에서 운영되는 대규모 조직에 가장 적합한 선택이라고 설명했다. 지역 규정과 관련하여 퍼블릭 클라우드 제공업체를 선택하는 것도 중요하다. 분불리아는 “예를 들어 중동의 특정 지역에서 워크로드를 실행하려는 경우 오라클 클라우드가 가장 좋은 옵션 중 하나”라며 각 국가마다 데이터 처리와 관련하여 자체 규제가 있기 때문이라고 설명했다. 모든 국가에 진출한 단일 클라우드 공급업체는 없지만, 오라클은 중동 지역에서 큰 입지를 확보하고 있으므로 오라클 및 다른 클라우드 공급업체와 함께 온프레미스 워크로드를 실행할 수 있다.
할로웰은 하이브리드 클라우드에도 단점이 있다고 지적했다. 할로웰은 “퍼블릭 및 하이브리드 클라우드 환경 전반에서 대규모 데이터 세트의 상호 운용성과 성능을 관리하는 것은 여전히 해결해야 할 핵심 과제”라고 강조했다.
유연성 유지 및 조정에 대한 대비 전략
할로웰은 “단순히 모든 것을 퍼블릭 클라우드로 옮기는 것이 아니라 새로운 기능에 대한 진화하는 비즈니스 요구 사항과 자연스러운 애플리케이션 수명주기 관리 관행이라는 렌즈를 통해 호스팅 결정을 평가하는 것이 우리의 전략적 의도”라고 설명했다. 기존의 컨버지드 인프라로 충족할 수 있는 일관된 용량 요구 사항을 가진 애플리케이션은 프라이빗 클라우드에서 실행하고, 지속적으로 높은 컴퓨팅을 필요로 하지 않는 애플리케이션은 퍼블릭 클라우드의 후보로 남을 것이다.
페리는 조직의 애플리케이션에 적합한 IT 인프라를 구축하는 것은 올바른 건축 자재를 사용하는 것과 같다고 비유했다. 페리는 “퍼블릭 클라우드는 아키텍처 솔루션을 구축하는 데 필요한 자재 중 하나일 뿐이며, 적절한 균형을 유지해야 한다”고 강조했다.
안타깝게도 온프레미스, 프라이빗 클라우드, 퍼블릭 클라우드 서비스의 조합을 최적화하는 것은 쉽지 않다. 페리는 “기술이 끊임없이 발전하고 있기 때문에 모든 것이 올바른 위치에 있다고 말할 수는 없다”고 설명했다. 페리는 클라우드 기술이 항상 변화하고 있으므로 시대에 맞춰 변화할 수 있도록 준비해야 한다고 조언했다. 현재 사용하는 도구가 내일은 필요하지 않을 수도 있기 때문에 이를 위한 올바른 도구를 확보하는 것이 매우 중요하다.
분불리아는 기술이 발전함에 따라 변화해야 한다는 점도 벤더 종속을 피해야 하는 이유라고 지적했다. 클라우드 워크로드를 가장 최적화된 방식으로 실행하려면 공급업체의 가장 진보된 독점 기능을 사용해야 할 수도 있기 때문에 이는 곤란한 문제다.
분불리아는 결국 온프레미스, 퍼블릭 클라우드, 프라이빗 클라우드 간에 더 쉽게 이동할 수 있는 유연성을 확보하기 위해 종속을 피하고 싶다고 설명했다.
Read More from This Article: “AI 도입했더니 클라우드 비용 폭탄”··· IT 리더 6인이 전하는 퍼블릭 클라우드 전략 재검토 이유
Source: News