오픈AI가 AMD, 브로드컴, 인텔, 마이크로소프트(MS), 엔비디아 등 주요 기술 기업과 함께 네트워크 혼잡 문제 해결을 위한 새로운 프로토콜을 공개했다.
이번에 공개된 프로토콜 ‘MRC(Multipath Reliable Connection)’은 AI 처리에 필요한 대규모 데이터 전송 과정에서 발생하는 병목 현상을 줄이기 위해 설계됐다. 특히 10만 개 이상의 GPU를 활용하는 초대형 모델 학습 환경을 고려해, 트래픽을 소수 경로에 집중시키는 대신 수백 개의 네트워크 경로로 동시에 분산하는 방식을 채택했다.
오픈AI는 공식 블로그를 통해 “네트워크 혼잡과 링크 및 장비 장애는 데이터 전송 지연과 지터의 가장 흔한 원인”이라며 “클러스터 규모가 커질수록 이러한 문제는 더 빈번해지고 해결도 어려워진다”라고 밝혔다.
이어 “단일 장애만으로도 학습 작업이 중단되거나 저장된 체크포인트에서 재시작해야 하는 상황이 발생할 수 있다”며 “네트워크가 경로를 재계산하는 동안 수 초간 진행이 멈추기도 한다”고 설명했다. 또한 “이러한 중단은 GPU 자원과 시간 측면에서 모두 큰 비용을 초래한다”고 덧붙였다.
오픈AI는 “작업 규모가 커질수록 단일 링크 장애의 영향은 더욱 커진다”며 “이러한 워크로드는 일종의 ‘장애 증폭기’로 작용하기 때문에 이를 방지하는 것이 핵심 과제로 떠올랐다”고 강조했다.
MRC 개발은 오픈AI가 주도했으며 AMD, 브로드컴, 인텔, 마이크로소프트, 엔비디아가 기술적으로 기여했다. 해당 프로젝트는 오픈 컴퓨트 프로젝트(Open Compute Project, OCP) 컨소시엄이 운영과 조정을 맡고 있다.
엔비디아는 자사의 ‘스펙트럼-X 이더넷(Spectrum-X Ethernet)’을 MRC 구성 요소로 적용하며 존재감을 드러냈다. 엔비디아는 이 기술이 오픈AI를 포함한 세계 최대 규모 AI 학습 클러스터 일부에서 실제 운영 중이며, 챗GPT와 코덱스 같은 최첨단 대규모 언어 모델 학습에 활용되고 있다고 밝혔다.
스펙트럼-X는 MS의 ‘페어워터(Fairwater)’와 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure, OCI)의 ‘애빌린(Abilene)’ 데이터센터(프로젝트 스타게이트의 일부)에서도 사용되고 있다. 이들 시설은 차세대 LLM 학습과 배포를 위해 구축된 대규모 AI 인프라다.
MRC는 모든 가용 경로에 트래픽을 균등하게 분산해 GPU 활용률을 극대화한다. 또한 실시간으로 과부하된 경로를 회피해 네트워크 혼잡을 줄인다. 오픈AI에 따르면 기존 네트워크 구조는 장애 발생 이후 안정화까지 수 초에서 수십 초가 소요된다.
이 기술은 네트워크 지연이나 장애가 발생해도 학습 작업을 중단 없이 지속할 수 있도록 지원한다. 동시에 관리자는 단일 대시보드에서 네트워크 트래픽을 세밀하게 모니터링하고 제어할 수 있다.
오픈AI는 MRC의 멀티플레인 네트워크 설계를 통해 기존 800Gb/s 네트워크에서 요구되던 3~4단계 스위치 계층 대신, 단 2단계 이더넷 스위치만으로도 10만 개 이상의 GPU를 연결할 수 있다고 설명했다.
한편 MRC 기술 사양은 이날 OCP를 통해 공개됐으며, 관련 연구 논문도 함께 발표됐다.
dl-ciokorea@foundryco.com
Read More from This Article: AI 데이터 폭증 대응…빅테크 5사, 차세대 네트워킹 기술 공동 개발
Source: News

