베인앤컴퍼니(Bain & Company)가 지난 24일 발표한 보고서에 따르면, AI 컴퓨팅 파워에 대한 수요가 급증하면서 데이터센터 칩, 개인용 컴퓨터, 스마트폰의 공급망을 압박할 전망이다. 베인은 “지속되는 지정학적 긴장과 기타 공급 리스크가 맞물려 다음 반도체 부족 사태를 촉발할 수 있다”라고 전했다.
보고서 저자들은 반도체 공급업체가 팬데믹을 예측할 수는 없었지만, 다음 반도체 공급망 위협에는 대비할 수 있다고 언급했다.
저자들은 “반도체의 공급과 수요는 미묘한 균형을 이루고 있으며, 업계와 고객들은 지난 몇 년간의 경험을 통해 이를 잘 알게 됐다. 팬데믹으로 인한 칩 부족 사태는 지났지만, 경영진은 인공지능으로 인한 다음 잠재적 위기에 대비하기 시작했다”라고 말했다.
보고서는 반도체 공급망이 “믿을 수 없을 정도로 복잡하다”라며, “약 20% 이상의 수요 증가가 균형을 무너뜨리고 칩 부족을 야기할 가능성이 높다”라고 설명했다.
주요 연구 결과는 다음과 같다.
- 데이터센터와 이를 구동하는 특수 칩에 대한 지출은 둔화될 조짐이 보이지 않는다. 주요 클라우드 서비스 업체들은 2024년에 전년 대비 자본 지출을 36% 늘릴 것으로 예상되며, 이는 대부분 AI와 가속 컴퓨팅에 대한 투자에 힘입은 결과다.
- 현재 추세로 볼 때 합리적인 가정은 2026년까지 현 세대 그래픽 처리 장치(GPU)에 대한 데이터센터 수요가 2배로 증가할 수 있다는 것이다. 이를 고려한다면 주요 부품 공급업체들은 경우에 따라 생산량을 30% 이상 늘려야 한다.
- AI 성장을 이루기 위해서는 데이터센터와 웨이퍼 팹(제조 시설) 건설부터 첨단 패키징 및 충분한 전력 확보에 이르기까지 복잡한 공급망 요소들이 한데 어우러져야 한다.
보고서는 칩을 구매하는 조직이 해야 할 일에 초점을 맞추고 있지만, 필요 제품에 액세스하도록 보장하거나 급격한 가격 변동에 대비하려는 CIO라면 취할 만한 조치가 있다.
인포테크 리서치 그룹(Info-Tech Research Group)의 연구 실무 책임자인 스콧 비클리는 “첨단 반도체 공급망은 세계에서 가장 취약한 공급망이다. 말 그대로 5,000개 이상의 벤더가 완벽한 조화를 이뤄야만 최첨단 칩을 생산할 수 있다”라고 말했다.
비클리는 벤더 중 “많은 수가 단일 기업에 단일 부품을 공급하며, 이 부품이 없으면 전체 시스템이 멈춰버린다. 기술적 장애물만으로도 어마어마하다. TSMC가 직면한 지정학적 위험과 일반적인 물류 관리의 어려움은 말할 것도 없다”라고 덧붙였다.
비클리는 기술 구매자들이 2 가지 주요 구매자 세그먼트로 나뉜다고 언급하며 “프라이빗 클라우드 환경 또는 F200 규모의 소비 고객과 같은 대규모 인프라 계층을 위해 조달하는 기술 구매자와, 데이터센터 현대화, 소규모 사내 LLM 모델, 첨단 AI 지원 PC 같은 소규모 프로젝트를 위한 기술 구매자”라고 설명했다.
프라이빗 클라우드 계층에 대해 비클리는 “구매자가 지금 기술 전략을 수립해야 한다. 예를 들어, 엔비디아의 차세대 블랙웰 라인 GPU에 베팅할 것인지, 아니면 첫 세대 H100을 구매하고 대안으로 모델 훈련에 더 많은 시간을 투자할 것인지 결정해야 한다. 데이터센터 인프라 장애물은 사소하지 않다. 수냉식 환경으로의 전환과 에너지 소비, 성능, 환경 규제를 균형 있게 조절하는 고밀도 GPU 클러스터 설계가 필요하다”라고 조언했다.
그는 또한 “기업 환경의 전통적인 기술 구매자는 규모의 부족으로 인해 벤더에 대한 영향력이 제한되는 등 여러 도전에 직면해 있다. 이런 환경의 구매자들은 나중에 공급을 확보하기 위해 지금 과도하게 확장하고 베팅을 할 필요가 있다. 가령 델이나 슈퍼마이크로 같은 전통적인 벤더를 통해 유통될 최신 AI 지원 PC와 서버의 공급업체들은 지금 진지한 주문자들에 관심을 갖고 있다”라고 언급했다.
생산 지연에 대비하려면 구매자가 단기간에 구식이 될 최첨단 기술 제품의 값비싼 재고를 떠안아야 할 수도 있다고 그는 덧붙였다.
한편 포레스터 리서치(Forrester Research)의 수석 분석가인 알빈 응우옌은 CIO가 필요한 제품에 대한 지속적인 접근을 보장하거나 급격한 가격 변동에 대비하기 위해 고려해야 할 몇 가지 범주가 있다고 설명했다.
- 리스크: 응우옌은 “생성형 AI의 발전 속도와 오늘날 특정 모델이나 접근 방식에 대한 과도한 투자는 나중에 잘못되거나 최적이 아닌 선택으로 판명될 수 있다. AI 시장을 주도하기보다는 대부분의 기업처럼 AI를 잘 활용하고자 한다면 리스크를 감수하고 상당한 AI 인프라를 확보하려고 무리하기보다는 기존 AI 서비스를 활용하는 전략이 합리적이다”라고 설명했다.
- 인재: 그는 “CIO와 기술 임원은 기존 직원의 훈련/기술 향상과 코드 개발 같이 효과적으로 활용할 수 있는 알려진 AI 사용 사례에 대한 기본적인 AI 기술을 갖춘 새로운 인재 채용에 투자해야 한다. 기술자, 설계자, 엔지니어가 최신 AI 기술을 실험해 어떤 선택을 해야 할지 결정할 수 있어야 한다. 만약 상당한 AI 인프라를 확보할 수 있다면, 다른 기업에 경쟁 우위를 확보하기 위해 이 부분에 크게 투자해야 한다”라고 말했다.
- AI 인프라(서버 및 AI 가속기): 응우옌은 “당분간 수요가 공급을 초과할 것이며, 이는 향후 몇 년 동안 계속될 것으로 보인다. 따라서 AI 가속기/GPU에 대한 프리미엄이 당분간 지속될 전망이다. AI 가속기를 충분히 많이 할당받을 수 없다면 AI 및 클라우드 서비스 업체의 AI 서비스를 활용하는 것이 더 합리적이다”라고 조언했다.
- 지속 가능성: 응우옌은 생성형 AI가 더 많은 에너지와 수자원을 필요로 하기 때문에 일부 조직에서 지속 가능성 목표를 달성하는 데 영향을 미쳤다고 언급했다. 그는 “AI에 대한 수요가 계속 증가하는 한 이런 상황은 변함없을 것이다. CIO와 기술 임원은 재생 가능한 자원에서 전력을 구매하고 가능한 경우 지속 가능한 건물 및 운영 관행(건축 자재 선택, 공법, 재활용)을 채택해 목표 달성 궤도에 다시 오르도록 해야 한다”라고 진단했다.
Read More from This Article: 수요 폭증으로 예고된 AI 칩 부족··· 전문가들이 전한 ‘IT 리더의 대비 방법’
Source: News