엔비디아 독주 속 균열 조짐…구글 TPU 전략 통했다

수치로 드러났다. 구글은 단일 기업 기준으로 가장 많은 AI 연산 자원을 보유하고 있으며, 그 상당 부분을 엔비디아에 크게 의존하지 않는 방식으로 운영하고 있다.

비영리 AI 연구소인 에포크 AI 연구소가 7일 공개한 분석 자료에 따르면, 전 세계 AI 연산 자원의 60% 이상이 미국 하이퍼스케일러에 의해 보유되고 있으며, 이 가운데 약 4분의 1을 구글이 차지하고 있다. 구글은 자체 설계한 TPU(Tensor Processing Units)에 크게 의존하고 있는 반면, 다수 경쟁사는 여전히 엔비디아 인프라에 묶여 있는 상황이다.

분석가들은 소수 거대 기업에 연산 자원과 인프라가 집중된 구조가 향후 AI 발전 속도를 좌우할 수 있다고 보고 있다. 가령 기술 전문 분석가 카미 레비는 “하이퍼스케일러가 되기 위해서는 막대한 자본 투자가 필요하다는 점을 누구도 부인하지 않는다”라며 “이들은 소규모 기업이 상상하기 어려운 규모의 경제를 제공할 수 있다”라고 설명했다.

이어 “하지만 이들이 사실상 시장에서 유일한 선택지에 가까운 존재가 되면, 대안이 없는 시장에서 가격과 계약 조건, 공급 여부에까지 영향을 미칠 수 있다는 점을 외면하기 어렵다”라고 지적했다.

주요 AI 인프라 기업, 엔비디아 의존 구조 지속

에포크 AI는 연산 역량을 ‘H100 환산 단위(H100e)’로 평가한다. 이는 특정 클라우드 기업이나 회사가 보유한 TPU, 그래픽처리장치(GPU), 기타 가속기를 통해 엔비디아 H100 프로세서와 동일한 수준의 출력을 낼 수 있는지를 기준으로 산정한 지표다.

이 기준에 따르면, 구글은 약 500만 개의 H100 GPU에 해당하는 연산 역량을 보유하고 있다. 이 가운데 약 400만 개 규모는 자체 개발한 TPU 칩에서 나온다. 구글이 전체 연산 자원 중 엔비디아 GPU에 할당한 비중은 약 4분의 1 수준에 그친다.

컨설팅 기업 무어 인사이트 앤 스트래티지의 부사장 겸 수석 애널리스트인 맷 킴볼은 이러한 수치가 경쟁사와 비교해 “상당히 낮은 편”이라고 평가했다. 이어 “구글이 AI 인프라를 TPU 중심으로 운영해왔다는 점을 잘 보여준다”라고 설명했다. 또한 구글이 구글 클라우드 운영을 위해 7세대 아이언우드 TPU를 적극 활용하고 있다고 전했다.

마이크로소프트(MS)는 약 350만 개에 조금 못 미치는 H100 환산 연산 역량으로 2위를 기록했다. MS는 대부분 엔비디아 인프라에 의존하고 있으며, 일부 연산 자원은 AMD 기반으로 운영된다.

아마존은 약 250만 개 수준으로 3위에 올랐고, 메타는 225만 개로 4위, 오라클은 100만 개를 약간 웃도는 H100 환산 역량으로 5위를 차지했다. 에포크 AI에 따르면, 메타는 엔비디아와 AMD 인프라를 혼합해 사용하고 있으며, 아마존은 AMD와 자체 AWS 트레이니움(Trainium) 칩을 거의 동일한 비중으로 활용한다. 오라클은 엔비디아 인프라 의존도가 높은 것으로 나타났다.

온프레미스 비중, 계속 줄어든다

시너지 리서치 그룹 또한 같은 맥락의 분석을 제시했다. 관련 자료에 따르면, 현재 하이퍼스케일 사업자는 전 세계 데이터센터 전체 용량의 약 48%를 차지하고 있다. 2031년에는 그 비중이 67%를 넘어설 것으로 전망된다.

보고서에 따르면 전체 하이퍼스케일 용량의 60%는 하이퍼스케일러가 직접 구축하고 소유한 데이터센터에 위치해 있다. 반면 기업의 온프레미스 데이터센터가 차지하는 비중은 전체의 32%에 그친다. 이는 2018년 전체 데이터센터 용량의 56%가 온프레미스 시설에 있었던 것과 비교하면 뚜렷한 변화다.

시너지는 온프레미스 데이터센터 용량이 오랜 기간 사실상 성장 정체 상태를 이어왔지만, 최근 생성형 AI 애플리케이션과 GPU 인프라 확산에 힘입어 다소 반등하고 있다고 분석했다. 다만 전체 시장에서 차지하는 비중은 매년 최소 2%포인트씩 감소해 2031년에는 19% 수준까지 떨어질 것으로 내다봤다.

시너지 리서치 그룹의 수석 애널리스트 존 딘스데일은 “전 세계는 글로벌 데이터센터 용량의 대부분을 하이퍼스케일 사업자가 담당하는 구조로 빠르게 이동하고 있다”라고 진단했다.

엔비디아·구글 선두 유지…시장 판도는 변화 조짐

엔비디아는 여전히 AI 중심 기술 구조에서 핵심적인 위치를 차지하고 있다.

카미 레비는 “엔비디아는 AI 확산의 흐름을 매우 영리하게 활용해왔으며, 연산 수요가 급증하는 AI 중심 세계의 요구에 부합하는 프로세서 수준의 솔루션을 제공하며 정당한 평가를 받아왔다”라고 분석했다.

다만 단일 칩 벤더에 대한 과도한 의존은 다른 기업에 불필요한 위험을 안길 수 있다고 레비는 지적했다. 이로 인해 구글, 메타, 아마존 등 플랫폼 기업은 자체 기술 기반의 대안을 모색하고 있다. 자체 실리콘을 개발하든, 공급망을 다변화하든 방식 자체는 본질적인 차이가 없다는 설명이다.

레비는 “중요한 것은 자체 개발과 연산 역량 배치의 이점을 인식하고, 다른 기업이 시장의 조건을 정하도록 맡길 때 발생하는 위험을 이해하는 것”이라고 밝혔다.

인포테크 리서치 그룹의 연구원 빌 웡은 구글이 앞으로도 “가장 큰, 혹은 그에 준하는” 연산 자원 수요 기업으로 남을 것이라고 전망했다.

웡은 “구글의 비즈니스 모델은 구글 검색과 제미니를 무료로 제공하는 구조를 기반으로 전 세계적인 수요를 이끌고 있다”라고 설명했다. 다만 기업 시장에서는 MS 애저와 아마존 AWS가 더 강한 입지를 확보하고 있어, 구글이 동일한 수준의 확산력을 확보하기는 쉽지 않을 것이라고 분석했다.

웡은 또한 AI 인프라가 ‘소버린 AI’라는 새로운 흐름의 영향을 받고 있다고 짚었다. 이는 AI 스택을 보다 자국 중심 또는 온프레미스 방식으로 통제하려는 움직임이다. 덴마크와 같은 국가는 AI와 비AI 워크로드를 모두 미국 공급업체, 특히 MS와 구글에서 이전하는 방안을 검토하고 있다.

추론 시장이 가져올 변화에 주목

현재 공개된 수치는 주로 대규모 학습을 목표로 구축된 인프라를 반영한다. 이 영역은 엔비디아의 칩과 CUDA 병렬 컴퓨팅 플랫폼이 주도해왔다.

그러나 추론이 본격적으로 성숙 단계에 접어들면 시장 점유율에도 변화가 나타날 가능성이 있다고 맷 킴볼은 전망했다. AMD와 세레브라스 같은 공급업체가 가격과 성능 측면에서 차별화된 경쟁력을 갖추고 있어 점차 영향력을 확대할 수 있다는 설명이다.

또한 이번 순위에는 AWS의 트레이니움, MS의 마이아(Maia), 메타의 MTIA 등 일부 맞춤형 가속기가 충분히 반영되지 않았다. 킴볼은 클라우드 사업자가 가격과 성능 측면의 이점을 고려해 가능한 한 자체 실리콘을 적극 배치하려 할 것이라고 내다봤다.

킴볼은 “현재는 엔비디아가 시장을 지배하고 있고, 앞으로도 선도적 위치를 유지할 것”이라면서도 “추론이 시장에서 의미 있는 비중을 확보하게 되면 판도가 어떻게 달라질지 지켜봐야 한다”라고 언급했다.

킴볼은 클라우드 환경에서 AI를 사용하는 기업 입장에서는 엔비디아 중심의 시장 구조가 혼란을 줄 수 있다고 봤다. “기업이 접하는 대부분의 정보는 현재 사용 중인 모델이 엔비디아 아키텍처 위에서 구축됐기 때문에 엔비디아를 선택해야 한다는 메시지를 전달한다”라고 설명했다.

하지만 추론은 상황이 다르다고 그는 밝혔다. 적합한 추론 플랫폼을 선택하려면 모델 유형과 규모, 추론 패턴, 이식성, 메모리 아키텍처 등 다양한 요소를 고려해야 한다. 또한 추론은 데이터센터뿐 아니라 엣지와 디바이스 등 기업 전반에서 이뤄지기 때문에 소프트웨어 스택과 이식성 역시 중요한 판단 기준이 된다.

결국 기업 IT는 AI를 기존 데이터센터 인프라의 연장선이 아닌 ‘백지 상태에서 시작하는 프로젝트’로 바라봐야 한다고 킴볼은 조언했다. 단일 스택이나 단일 칩에 종속되는 구조는 피해야 한다는 설명이다.
dl-ciokorea@foundryco.com

Read More from This Article: 엔비디아 독주 속 균열 조짐…구글 TPU 전략 통했다
Source: News

엔비디아 독주 속 균열 조짐…구글 TPU 전략 통했다

주요 AI 인프라 기업, 엔비디아 의존 구조 지속

온프레미스 비중, 계속 줄어든다

엔비디아·구글 선두 유지…시장 판도는 변화 조짐

추론 시장이 가져올 변화에 주목

Related posts