엔비디아는 대규모 문맥(Context) 처리와 토큰 기반 소프트웨어 코딩, 생성형 비디오에 특화된 차세대 플랫폼과 전용 GPU를 9일 공개했다.
루빈 CPX 칩은 블랙웰(Blackwell) GPU의 후속작인 차세대 루빈 GPU 아키텍처를 기반으로 한 파생 제품으로, 긴 문맥 추론에 최적화됐다. 실제 활용 면에서 루빈 CPX는 긴 문맥 처리에서 최고 성능을 발휘하며 토큰 기반 수익 극대화에 초점을 맞췄다.
챗GPT, 구글 제미나이, 퍼플렉서티 등 생성형 AI 서비스 제공업체는 토큰 단위로 서비스를 판매하고, 모델이 이를 처리한다. 단순 질의에는 100개 토큰이 필요하지만, 복잡한 추론 질의는 이보다 100배 이상 많은 토큰이 소모될 수 있다. 제공업체가 토큰을 더 빠르고 효율적으로 처리할수록 수익도 늘어난다.
엔비디아 데이터센터 그룹 제품 총괄 샤르 나라시만은 AI 추론이 흔히 단일 단계로 여겨지지만 실제로는 문맥(혹은 프리필(prefill)) 단계와 디코드 단계라는 두 가지 워크로드로 나뉜다고 설명했다. 문맥 단계는 연산 집약적이고, 디코드 단계는 메모리 집약적이지만, 지금까지 GPU는 두 작업을 동시에 담당해왔다는 것이다. 나라시만은 루빈 CPX가 특히 문맥 단계 연산 성능을 강화하도록 설계됐다고 전했다.
나라시만은 “AI 팩토리의 생산성과 성능을 획기적으로 높일 것”이라며 “대규모 토큰 생성 능력을 통해 더 많은 작업 단위를 처리하고, 그만큼 더 많은 수익을 창출할 수 있다”고 말했다.
루빈 GPU는 다이(die) 2개에 각각 25 페타플롭스 성능, NVLink 인터커넥트, 288GB HBM4 고대역폭 메모리를 제공한다. 반면 루빈 CPX는 단일 다이에 30 페타플롭스 성능, NVLink 미탑재, 128GB GDDR7 메모리를 지원한다. 이 때문에 루빈 CPX는 많은 메모리가 필요 없는 긴 문맥 처리에 최적화됐으며, 가격도 표준 루빈보다 저렴할 전망이다. 다만 엔비디아는 구체적인 가격은 공개하지 않았다.
비디오 처리의 경우 AI 모델이 1시간 분량 콘텐츠에 최대 100만 개 토큰을 필요로 하며, 생성에는 수 시간에서 수일이 걸릴 수 있다. 시스템이 더 많은 토큰을 생성할수록 대규모 처리에 유리하다.
루빈 CPX는 NVFP4 정밀도로 최대 30 페타플롭스 연산 성능을 제공한다. 또한 기존에 주로 사용되던 HBM 대신 128GB GDDR7 메모리를 탑재했다. GDDR7은 HBM보다 저렴하지만 성능은 충분하다는 게 엔비디아의 설명이다. 엔비디아는 루빈 CPX가 GB300 NVL72 시스템 대비 어텐션(Attention) 성능을 3배 빠르게 구현한다고 덧붙였다.
루빈 CPX는 여러 가지 구성으로 제공된다. 대표적으로 ‘베라 루빈 NVL144 CPX’는 퀀텀-X800 인피니밴드 확장형 패브릭이나 엔비디아 스펙트럼-XGS 이더넷 기술과 커넥트X-9 슈퍼NIC을 갖춘 스펙트럼-XTM 이더넷 네트워킹 플랫폼과 결합할 수 있다.
엔비디아는 새로운 ‘베라 루빈 NVL144 CPX’ 랙도 함께 발표했다. 샤르 나라시만은 이 시스템이 “AI 서비스 제공업체가 인프라에 1억 달러를 투자할 때 50억 달러의 매출을 창출할 수 있어 수익성을 획기적으로 높일 수 있다”고 말했다.
이 랙은 두 가지 구성으로 제공된다. 단일 랙 버전은 루빈 CPX GPU 144개, 루빈 GPU 144개, 베라 CPU 36개를 탑재해 NVFP4 기준 8 엑사플롭스 연산 성능, 100TB 고속 메모리, 초당 1.7PB 메모리 대역폭을 지원한다. 엔비디아는 해당 시스템이 현행 최고 사양인 GB300 NVL72보다 7.5배 빠르다고 밝혔다.
또 다른 구성은 이중 랙 시스템으로, 한 랙에는 베라 CPU와 루빈 GPU를, 다른 랙에는 루빈 CPX를 전용으로 배치해 문맥(프리필) 작업을 전담하도록 했다. 고객은 CPX 서버가 없는 랙, CPX 서버가 혼합된 랙, CPX 서버 전용의 별도 랙 등 다양한 조합을 선택할 수 있다.
엔비디아 루빈 CPX는 2026년 말 출시될 예정이다.
dl-ciokorea@foundryco.com
Read More from This Article: 엔비디아, AI 추론·대규모 워크로드용 신규 GPU ‘루빈 CPX’ 공개
Source: News

