미 IT 언론사 더인포메이션은 17일 보도를 통해 발열 관련 설계 문제로 인해 제품 출하가 지연되면서 구글, 메타, 마이크로소프트를 포함한 주요 고객사들이 블랙웰 서버를 일정에 맞춰 배치할 수 있을지에 대한 우려가 제기됐다.
디인포메이션이 인터뷰한 익명의 관계자는 “블랙웰 GPU가 72개의 프로세서가 탑재된 초집적 서버에서 과열이 발생한다”라며 “각 블랙웰 프로세서는 1000W 이상의 전력을 소비하므로 비교적 작은 공간에서 엄청난 열과 전력을 소모한다”라고 언급했다.
엔비디아는 공급업체 및 파트너와 긴밀히 협력하여 과열 문제를 해결하기 위한 수정 사항을 개발하고 설계를 변경하고 있다고 밝혔다. 이러한 재설계는 종종 있는 일이지만, 이번 문제로 인해 당초 이번 분기에 예정됐던 출하 일정이 지연되고 있는 상황이다.
블랙웰과 관련된 문제가 불거진 것은 이번이 처음이 아니다. 지난 8월에는 엔비디아와 제조 파트너인 TSMC가 프로세서 패키징 설계로 인해 수율 문제를 겪고 있다는 소식이 전해졌지만, 이 문제는 신속히 해결되어 분기 실적 발표에서 더 이상 논의되지 않았다.
엔비디아는 11월 20일 수요일, 주식 시장 거래 마감 후 실적을 발표한다. 현재 엔비디아 대변인은 “엔비디아 GB200 시스템은 지금까지 만들어진 컴퓨터 중 가장 진보된 컴퓨터다. 이를 다양한 데이터센터 환경에 통합하려면 고객과의 공동 엔지니어링이 필요하다”라며 “우리의 엔지니어링 작업은 기대치에 부합하고 있다. 델 테크놀로지스와 코어위브(CoreWeave) 등 일부 파트너는 컨퍼런스 및 소셜미디어에서 새로운 엔비디아 GB200 NVL72 설계를 홍보하고 있다”라고 전했다.
무어 인사이트 앤 스트래티지스(Moore Insights & Strategy)의 수석 애널리스트인 안셀 사그는 엔비디아의 주장에 대해 회의적인 입장을 보였다. 사그는 “현재 나타난 문제가 전체적으로 큰 영향을 미치는 심각한 문제인지, 아니면 특정한 상황이나 환경(구성)에만 국한된 문제인지 알 수 없다”라며 “엔비디아가 이미 고성능 부품의 발열 문제를 해결하기 위해 충분한 냉각 시스템을 갖춘 설계를 하고 있을 가능성이 높기 때문에, 과열 문제가 있는 제품을 시장에 내놓았을 거라고 보기 어렵다”라고 설명했다.
또한 사그는 이 소식이 나온 시기에 주목했다. “이번 주에 열리고 있는 슈퍼컴퓨팅 24(Supercomputing 24) 컨퍼런스에서는 열리고 있는 기간으로, HPC 업계 관계자들이 소문과 정보를 교환하는 자리가 열린다. 다시 말해 발열 문제 같은 루머를 퍼뜨리기에 딱 좋은 시점이다”라며 “자연스럽게 퍼진 소문이었다면, 쇼 이후 비공식적인 대화와 소문을 통해 확산되었을 것이다. 하지만 이번 경우는 경쟁사가 자사 플랫폼에 주목을 끌기 위해 엔비디아를 견제할 목적으로 흘린 정보일 가능성도 있다”라고 밝혔다.
[email protected]
Read More from This Article: “엔비디아 차세대 GPU 블랙웰, 심각한 발열 문제 직면” 더인포메이션
Source: News