피자 상자 크기의 거대한 ‘AI 칩’을 제조하는 세레브라스 시스템이 자사 제품의 AI 처리 성능에 대해 인상적인 주장을 펼쳤다.
최근 열린 슈퍼컴퓨팅 24 전시회에서 AI 칩 제조 스타트업 세레브라스(Cerebras systems)는 분자 역학 시뮬레이션에 있어 획기적인 발전을 이루었다고 발표했다. 서드파티 벤치마크 기업 아티피셜 애널리시스(Artificial Analysis)의 데이터에 따르면 웨이퍼 스케일 엔진-2(WSE) 1개를 탑재한 단일 세레브라스 CS-2 시스템이 초당 110만 스텝을 넘어서는 기록을 달성했으며, 이는 프론티어 슈퍼컴퓨터보다 748배 빠른 속도라는 주장이다.
프론티어는 엘 캐피탄이 등장하기 전까지 최근 세계에서 가장 빠른 슈퍼컴퓨터 타이틀 보유했던 시스템이다.
회사는 전력 효율성도 강조했다. 단일 CS-2 서버 장치에 단일 WSE 칩이 탑재되어 있어 높이가 약 16U인 랙 하나를 차지하며 27킬로와트의 전력을 소비한다는 설명이다. 프론티어는 3만 7,000개의 GPU와 CPU가 캐비닛에 열을 지어 배치되어 있으며 21메가와트의 전력을 소비한다.
더욱 인상적인 점은 이 벤치마크가 구형 세레브라스 모델인 CS-2에서 실행되었다는 점입니다. CS-3 및 3세대 WSE 칩은 CS-2보다 최소 두 배 이상 빠르다.
해당 테스트는 샌디아 국립 연구소, 로렌스 리버모어 국립 연구소, 로스 알라모스 국립 연구소와의 협력으로 진행됐다.
세ㅂ레브라스 시스템의 공동 설립자이자 첨단 기술 수석 아키텍트인 마이클 제임스는 “번이 새로운 세계 기록은 과학자들이 이제 종전에는 2년이 걸렸을 GPU 기반 시뮬레이션 작업을 매일 완료할 수 있다는 것을 의미한다. 이는 분자 시뮬레이션에서 파생되는 혁신을 크게 가속화할 것”이라고 말했다.
그는 이어 “이번 중요한 돌파구는 물질의 구조와 기능에 대한 통찰력을 제시할 준비를 갖췄다. 이 연구를 생체 분자로 확장하면 단백질 폴딩, 의학 및 신약 개발 분야에서 새로운 역량을 발휘할 수 있다”라고 덧붙였다.
웨이퍼 스케일 엔진의 크기는 8인치 x 8인치로, 약 1인치에서 1.5인치 정도인 기존 GPU보다 훨씬 크다. GPU에는 약 5,000개의 코어가 있는 반면, WSE에는 85만 개의 코어와 HBM 메모리보다 10배 빠른 40GB의 온칩 SRAM 메모리가 있다. 이를 통해고밀도 행렬에서는 초당 20 PB의 메모리 대역폭과 6.25 페타플롭의 처리 성능을, 스파스 행렬에서는 62.5 페타플롭의 처리 성능을 제공한다.
생성형 AI를 훈련하는 데 사용되는 메타 라마 3.1-405B 모델에 대한 또 다른 벤치마크에서 세레브라스는 초당 969개의 토큰을 생성함으로써 초당 164개의 토큰을 생성한 삼바 노바(Samba Nova)를 훨씬 앞질렀습니다. 이는 AWS의 AI 인스턴스보다 12배, 가장 가까운 경쟁사인 삼바 노바보다 6배 빠른 처리량이다.
이러한 성능에는 이유가 있다는 설명이다. 세레브라스의 제품 마케팅 디렉터인 제임스 왕은 85만 개의 코어가 모두 고속으로 서로 통신할 수 있는 거대한 웨이퍼 스케일 엔진이 그 비결이라고 전했다.
왕은 “오늘날의 슈퍼컴퓨터는 약한 스케일링(weak scaling)에 적합하다. 더 많은 작업, 더 많은 양의 작업을 수행할 수는 있지만 같은 작업을 더 빠르게 처리할 수는 없다. 동일 작업에 대한 성능은 노드당 최대 GPU 구성에 따라 8~16개 정도에서 점점 줄어든다. 그 이상에서는 더 많은 양을 처리할 수는 있지만 더 빠르게 처리할 수는 없다. 하지만 우리 시스템에서는 이런 문제가 없다. 말 그대로 칩 자체가 워낙 크기 때문에 확장 곡선을 끌어올릴 수 있다”라고 설명했다.
그에 따르면 8개의 GPU가 장착된 단일 서버 내부에서 GPU는 NV링크를 사용하여 데이터를 공유하고 통신하기 때문에 마치 단일 프로세서처럼 보이도록 프로그래밍할 수 있기는 하다. 하지만 GPU가 8개를 넘어가면 모든 슈퍼컴퓨터 구성에서 상호 연결이 NV링크에서 인피니밴드 또는 이더넷으로 바뀐다. “그 시점에서는 단일 장치처럼 프로그래밍할 수 없다”라고 왕은 전했다.
한편 세레브라스는 이달 초 샌디아 국립연구소가 AI 워크로드를 위한 세레브라스 CS-3 테스트베드를 구축한다고 발표한 바 있다.
킹피셔(Kingfisher)라는 별칭을 가진 이 시스템은 4개의 CS-3 시스템 클러스터로 구성된 것으로, 향후 8개의 시스템으로 확장될 예정이다. 킹피셔 클러스터는 미국 에너지부의 전통적인 HPC 시뮬레이션 작업과 생성형 AI 작업 모두에 사용될 예정이다.
[email protected]
Read More from This Article: 세레브라스, 분자 역할 시뮬레이션 신기록 달성 “프론티어보다 748배 빠르다”
Source: News