엔비디아 CFO 콜렛 크레스는 지난 주 실적 발표에서 “클라우드는 모두 매진됐고 엔비디아 GPU 설치 기반은 전부 가동되고 있다”라고 밝혀 주주들의 환호를 받았지만, AI 컴퓨팅 확장을 엔비디아에 의존해온 CIO와 데이터센터 관리자는 공급업체를 바꾸거나 계획을 수정해야 하는 상황에 놓였다.
이날 실적 발표에서 향후 12~18개월 내에 공급이 수요를 따라잡을 수 있는 현실적인 경로가 보이느냐는 질문을 받은 엔비디아 CEO 젠슨 황은 모든 것이 계획대로라고 강조하며, “공급망을 정말 잘 설계했다. 엔비디아 공급망에는 전 세계 거의 모든 기술 기업이 참여한다”라고 말했다.
하지만 모두가 이 주장에 동의하는 것은 아니다. 의문을 제기한 인물 가운데에는 포레스터의 수석 애널리스트 앨빈 응우옌이 있다. 응우옌은 “수요가 공급을 크게 초과하면서 엔비디아 GPU를 구하지 못할 때 어떻게 해야 하느냐”는 고객 문의를 여러 건 받았다고 말했다.
응우옌은 “온프레미스 환경에서는 AMD, 인텔, 커스텀 ASIC, CPU가, 클라우드에서는 TPU와 커스텀 ASIC이 대안이 될 수 있지만, AI 도입 규모가 커지면서 이런 선택지가 모든 기업의 요구를 충족하지 못할 가능성도 있다”라고 분석했다.
이어 “기업과 CIO가 필요한 AI 인프라를 확보하지 못하면 전체 AI 비전을 달성할 수 없으므로 실행 가능한 수준으로 목표를 재조정해야 한다. 세일즈포스, 서비스나우 같은 서비스 업체가 제공하는 AI 플랫폼을 활용하면 일부 요구 사항을 줄일 수 있다”라고 조언했다.
모든 것이 너무 빠르게 변화하고 있다
응우옌은 최고 IT 의사결정권자가 더 적은 인프라로도 동작하는 소형 모델을 살펴보고, 이를 실험해 미래 AI 판단 기준을 마련하는 방안을 고려해야 한다고 제안했다. 또한, 이 분야의 지속적인 혁신이 “기업이 인프라 구매 시점과 구성 방식에 따라 기술 부채를 줄이거나 오히려 쌓게 만들 수 있다”라며, “결국 상황에 따라 다르다는 말이 될 수밖에 없지만, 모든 흐름이 너무 빨라 정답은 시간이 지나야만 명확해진다”라고 설명했다.
무어 인사이츠 앤 스트래티지의 대표 애널리스트 매트 킴벌은 엔비디아 GPU 수급 문제는 중요한 질문이라고 평가했다. 킴벌은 “인프라 규모 적정화를 미리 검토했다면 피할 수 있는 어려움도 많다”라고 분석했다.
킴벌은 “엔비디아 칩(다른 칩도 마찬가지)은 성능 특성이 다르고, 와트당 성능과 비용 대비 성능도 다르다. 최신 GB300이 항상 최적의 선택지는 아니다. 특히 학습과 추론 환경을 나눠 보면 요구 사항에 따라 인프라 적정화를 적용하는 것이 훨씬 더 중요해진다”라고 강조했다.
이런 접근법의 이점은 최신 세대 칩만 바라보며 초대형 업체와 물량 확보 경쟁을 벌일 필요가 줄어든다. 킴벌은 “또한 엔비디아 칩이 항상 필요한지도 검토할 필요가 있다. 기술 업계에서는 이례적인 발언일 수도 있지만, 특히 추론 환경에서는 추론 인프라가 어떤 구조인지, 어디에 배치되는지, 어떤 워크로드인지 이해하는 것이 더 중요하다”라고 말했다.
예를 들어, 실시간 센서 기반 환경인 해상 시추 플랫폼에서는 ASIC 기반 솔루션이 더 적합할 수도 있다.
킴벌은 “엔비디아를 선택하지 말라는 의미가 아니다. 공급망 문제가 없더라도 AI 요구 사항을 전체적으로 살펴보고 적정한 가속 방식을 적용하는 것이 매우 바람직하다”라며, “클라우드는 항상 선택지가 된다. 클라우드 서비스 업체는 엔비디아 칩을 가장 먼저 공급받는 고객이므로 AI 수요를 충족하는 데 클라우드를 활용하는 것은 자연스러운 일이다”라고 덧붙였다.
CIO가 명심해야 할 핵심 과제 : 선제 대응
가트너의 애널리스트 가우라브 굽타는 “엔비디아는 공급망을 강하게 통제하고 있다고 주장하지만, 복잡성이 너무 높아 CIO가 우선순위로 모니터링해야 한다”라고 조언했다.
굽타는 “최첨단 웨이퍼, 고급 패키징, HBM처럼 잘 알려진 요소에서 부족이 발생할 수 있을 뿐 아니라, 열 관리, 액침 냉각, 서버 랙에 들어가는 소형 부품과 정밀 기계 부품 같은 잘 드러나지 않는 제약이 병목이 될 가능성이 있다. 또한 데이터센터를 운영하려면 전력 계획도 필수다”라고 설명했다.
또한, GPU 같은 컴퓨트 자원을 주문할 때 “대기줄 마지막에 서지 않기 위해” 선제적으로 대비하고 미리 계획해야 한다고 강조했다.
인포테크 리서치 그룹의 자문 펠로 스콧 비클리는 “전 세계가 엔비디아가 연간 약 2,500억 달러 수준에서 3,500억 달러, 궁극적으로는 5,000억 달러 이상으로 어떻게 성장할지 의문을 제기하기 시작했다. 엔비디아는 모든 칩이 매진됐고 재고가 있었다면 더 많이 판매했을 것이라고 분명히 말했다. 이런 복잡하고 취약한 공급망을 면밀히 검토하며 ‘GPU 출하량을 제한할 만한 중대한 장애가 발생하면 어떻게 되는가’라는 질문을 던지는 것은 타당하다”라고 말했다.
비클리는 공급망 위험이 “여러 형태로 존재하지만 엔비디아가 모든 공급업체에서 최우선 고객이기 때문에 생산 흐름을 보장하기 위해 과도한 자원이 배분되고 있다”고 분석했다. 또한 “공급망 교란이 발생한다면 공급업체의 공정이나 인력 문제가 아니라 자재 기반 문제가 될 가능성이 크다”라고 설명했다.
이어 “중장기적으로 가장 큰 교란 위험은 지정학적 사건이며, 중국-대만 사태, 러시아-우크라이나 분쟁 확대, 미중 무역전쟁 심화 등이 대표적인 경우다”라고 덧붙였다.
비클리는 경미한 장애의 경우, “엔비디아는 월가에 매우 보수적인 출하 목표를 제시하고 분기마다 이를 거의 항상 초과 달성한다. 이 전략은 인력·공정·지정학적 문제를 흡수할 여유를 제공한다. 출하량이 목표를 넘지 못할 수는 있지만 공급은 지속될 것”이라고 설명했다.
하지만, 비클리는 “가장 나쁜 시나리오에서 GPU 출하가 심각하게 제약되면, 대규모 클라우드 사업자만큼 영향력을 가진 기업이 아닌 이상 엔터프라이즈가 취할 대응책은 사실상 거의 없다”라고 덧붙였다.
기업은 ‘매우 긴 대기줄’에 합류하는 중
그레이하운드 리서치의 최고 애널리스트 산치트 비르 고기아는 이번 엔비디아 실적 발표가 “엔터프라이즈 AI의 병목은 더 이상 상상력이나 예산이 아니라 용량임을 확인했다”라고 평가했다. 고기아는 엔비디아가 분기 매출 570억 달러를 기록했으며, 이 중 510억 달러 이상이 데이터센터 고객 매출이지만 여전히 역대 최대 수준의 공급 제약을 인정했다고 설명했다.
고기아는 블랙웰과 블랙웰 울트라가 AI 인프라의 기본 통화처럼 자리 잡았지만, 주당 약 1천 개 GPU 랙을 생산해도 수요를 충족하지 못한다고 분석했다.
엔비디아의 장기 공급 및 용량 약정 규모는 약 503억 달러에 달하며, 다년 클라우드 서비스 계약도 260억 달러까지 증가해 향후 공급의 상당 부분이 이미 하이퍼스케일러와 첨단 연구소에 선점됐다. 따라서 엔터프라이즈는 개방 시장으로 진입하는 것이 아니라 긴 대기줄의 맨 뒤에 서는 셈이다.
공급 불균형은 칩만의 문제가 아니라 칩을 둘러싼 모든 요소의 문제이다. 여기에는 긴 제조 리드타임, 고급 패키징과 HBM의 제한적 가용성, 미래 용량 확보를 위한 대규모 선불금과 취소 불가 약정 등이 포함된다.
고기아는 CIO에게 가장 중요한 결정이 “AI 전략을 엔비디아 중심으로 설계할 것인지, 엔비디아 위험을 중심으로 설계할 것인지”라고 강조했다. 고기아는 두 선택지는 동일한 의미가 아니며, 엔비디아 중심 전략은 플랫폼을 황금률로 인정하고 12개월 선 주문, 동일 구성의 OEM 다수 활용, 재무팀과의 선불금 협의, 출하 일정 변동을 흡수할 수 있는 프로그램 타임라인 설계 등이 필요하다고 설명했다.
반대로 위험 중심 전략은 “엔비디아가 핵심이라는 점을 인정하되 유일한 경로가 될 수 없음을 받아들이고, 다변화를 논리적 논쟁이 아니라 회복 탄력성 확보 수단으로 다뤄야 한다”라고 강조했다.
dl-ciokorea@foundryco.com
Read More from This Article: “엔비디아 GPU 품절” 기업의 새로운 과제와 AI 인프라 다변화 전략
Source: News

