최근 익명의 사용자가 X에 공유한 글이 논란이 됐다. 해당 게시물에는 자신이 ‘알파벳(Alphabet) 생성형 AI 수석 아키텍트’라고 주장한 인물의 의견이 담겼다. 그는 코어위브(CoreWeave)와 람다랩스(Lambda Labs)가 달성했다는 60~70%의 사용률을 가정했을 때, GPU 수명은 예상된 5년이 아닌 3년 정도라고 언급했다. 따라서 더 낮은 사용률로 운영해야 GPU가 5년의 생산 수명을 얻는다고 말했다.
무리한 주장이 아니다. 실제로 GPU는 매우 뜨겁게 작동한다. 호퍼(Hopper) 세대는 700W 이상의 전력을 소비하며, 곧 출시될 블랙웰(Blackwell)은 최대 1000W의 전력을 소비한다. 높은 열 때문에 사실상 공랭식으로는 효율적인 냉각이 불가능해 수냉식이 필요하다.
이야깃거리지만 비슷한 사례가 있다. 암호화폐 채굴에 사용된 중고 고성능 그래픽카드를 구매한 게이머들 사례다. 수개월에서 수년간 24시간 내내 가동된 그래픽카드는 이를 모르고 구매한 몇몇 게이머들의 손에서 결국 작동을 멈췄다.
존 페디 리서치(Jon Peddie Research)의 대표이자 전기공학 학위를 보유한 존 페디는 PC를 켜고 끄는 과정이 계속 작동시킬 때보다 더 해롭다고 지적했다. 페디는 “칩에 손상을 주는 원인은 전원을 켜고 끄는 행위다. 이는 연결부에 영향을 미치는 온도 변화를 일으킨다. 데이터센터의 추가 보드가 고장 나는 유일한 이유는 인접한 보드에서 발생하는 열 때문이다. 농담이 아니라 RTX 4090 하나가 작은 실험실을 데우고 있다”라고 말했다.
발열 문제와는 별개로 구글은 논란에 압박감을 느낀 듯하다. 이례적으로 이 문제를 전면 부인했기 때문이다.
구글 대변인은 이메일을 통해 “엔비디아 GPU 하드웨어 사용률과 수명에 대한 ‘익명의 출처’의 주장은 부정확하며, 구글이 엔비디아 기술을 활용하는 방식이나 경험과 다르다. 엔비디아 GPU는 내부 시스템과 클라우드 서비스 모두에서 우리 인프라의 핵심 부분이다. 엔비디아 GPU에 대한 구글의 경험은 업계 기준과 일치한다”라고 설명했다.
중고 채굴 카드 구매로 피해를 본 게이머들의 사례는 있지만 데이터센터 GPU의 조기 고장을 주장하는 기업은 아직 나오지 않았다. 따라서 이는 사실이 아닌 추측으로 봐야 한다.
[email protected]
Read More from This Article: 블로그 | 데이터센터 GPU는 수명이 더 짧을까?
Source: News