스펙트럼-X는 자사의 스펙트럼-4 이더넷 스위치와 인피니밴드 기반의 블루필드-3 슈퍼닉 스마트 네트워킹 카드를 결합한 제품이다. 이 제품은 통합 이더넷을 통한 원격 직접 메모리 액세스를 위한 RoCE v2를 지원한다.
엔비디아에 따르면, 스펙트럼-4 SN5000 스위치는 64개의 800Gbps 이더넷 포트를 통해 최대 51.2Tbps의 총 대역폭을 제공한다. 엔비디아는 이 스위치에 적응형 라우팅과 혼잡 제어 기능을 추가해 네트워크 혼잡을 줄이고 장애 발생 시 우회할 수 있도록 했다고 설명했다.
적응형 라우팅된 패킷은 순서와 관계없이 목적지에 도착할 수 있으며, 블루필드-3 DPU가 패킷의 정확한 순서를 인식해 적절히 재구성한다. 엔비디아는 기술 블로그를 통해 “기존 이더넷 환경에서는 패킷이 순서대로 도착하지 않을 경우, 많은 패킷을 재전송해야 했다”라고 전했다.
엔비디아는 적응형 라우팅이 데이터 흐름 충돌을 완화하고 대역폭 효율성을 높여 스토리지 시스템의 성능이 표준 RoCE v2보다 크게 향상된다고 언급했다. 엔비디아는 “스펙트럼-X를 사용하면 대상 호스트의 슈퍼닉 또는 데이터 처리 장치가 패킷의 정확한 순서를 파악해 호스트 메모리에 순차적으로 배치하고, 애플리케이션이 네트워크 최적화 방식과 무관하게 그대로 동작하면서도, 성능 향상을 누릴 수 있다”라고 설명했다.
GPU에 관심이 집중되면서 AI 시스템에서 스토리지의 중요성은 상대적으로 주목받지 못했다. 그러나 대규모 언어 모델(LLM)의 크기는 테라바이트(TB) 단위에 이르며, 이를 원활하게 처리하기 위해서는 신속한 데이터 이동이 필수적이다. 데이터 이동 속도가 빨라질수록 GPU가 데이터를 기다리며 유휴 상태로 있는 시간이 줄어들기 때문이다.
엔비디아는 새로운 스펙트럼-4 기능을 자사의 AI 슈퍼컴퓨터 ‘이스라엘(Israel)-1’에서 테스트했다고 밝혔다. 테스트에서는 엔비디아 HGX H100 GPU 서버 클라이언트가 스토리지를 액세스할 때 생성되는 읽기 및 쓰기 대역폭을 측정했다. 일단 기존 RoCE v2 네트워크 환경에서 성능을 측정한 후, 스펙트럼-X의 적응형 라우팅 및 혼잡 제어 기능을 활성화한 상태에서 다시 테스트를 진행했다.
엔비디아에 따르면, 테스트는 40개에서 800개까지 다양한 GPU 서버를 클라이언트로 설정해 진행됐으며, 모든 경우에서 스펙트럼-X가 기존 RoCE v2 환경보다 더 높은 성능을 보였다. 스펙트럼-X 네트워크를 적용했을 때 읽기 대역폭은 20%에서 최대 48%까지, 쓰기 대역폭은 9%에서 최대 41%까지 향상됐다.
또한 효율성을 높이는 또 다른 방법으로 ‘체크포인트 저장(checkpointing)’을 활용할 수 있다. 이는 처리 작업의 상태를 주기적으로 저장해, 학습이 중단될 경우 처음부터 다시 시작하지 않고 저장된 상태에서 재개할 수 있도록 하는 기술이다.
엔비디아는 DDN, 델, HPE, 레노버, VAST 데이터(VAST Data), 웨카(WEKA) 등 주요 스토리지 파트너가 향후 스펙트럼-X 기능을 지원할 가능성이 높다고 밝혔다.
[email protected]
Read More from This Article: 엔비디아 “스펙트럼-X로 AI 스토리지 속도 50% 높여”
Source: News