퍼플렉시티, 비용 부담 없이 조(兆) 단위 모델 실행하는 오픈소스 ‘트랜스퍼엔진’ 공개

퍼플렉시티AI는 AI 시스템을 운영하는 기업들이 직면한 두 가지 비용 문제, 즉 특정 클라우드 사업자에 종속되는 문제와 대규모 모델을 실행하기 위해 최신 하드웨어를 구매해야 하는 부담을 해결하는 오픈소스 소프트웨어 도구를 31일 공개했다.

트랜스퍼엔진은 대형 언어 모델이 서로 다른 클라우드 사업자의 하드웨어 간에도 최고 속도로 통신할 수 있도록 지원한다. 퍼플렉시티는 연구 논문에서 “기업들이 딥시크 V3(DeepSeek V3)와 키미 K2(Kimi K2) 같은 조(兆) 단위 파라미터 모델을 고가의 차세대 하드웨어를 기다리지 않고, 기존 H100과 H200 GPU 시스템에서도 실행할 수 있게 됐다”라고 설명했다.

퍼플렉시티는 이 도구를 깃허브에 오픈소스 형태로 공개했다. 연구진은 논문에서 “기존 구현체들은 특정 네트워크 인터페이스 컨트롤러(NIC)에 종속돼 추론 엔진 통합과 하드웨어 간 이식성을 저해하고 있다”라고 지적했다.

벤더 종속의 함정

퍼플렉시티의 연구에 따르면 이러한 종속 문제는 근본적으로 기술적 비호환성에서 비롯된다. 클라우드 서비스 제공자들은 고속 GPU 통신을 위해 서로 다른 네트워킹 프로토콜을 사용하고 있다. 엔비디아의 커넥트X(ConnectX) 칩은 하나의 표준을 따르지만, AWS의 엘라스틱 패브릭 어댑터(Elastic Fabric Adapter, EFA)는 완전히 다른 독자적 프로토콜을 사용한다.

논문은 기존 솔루션들이 한쪽 시스템에서는 작동하지만 다른 쪽에서는 불가능했다고 지적했다. 이로 인해 기업들은 특정 클라우드 사업자의 생태계에 묶이거나, 현저히 느려진 성능을 감수해야 했다.

퍼플렉시티는 이러한 문제가 최근 주목받는 ‘MoE(Mixture-of-Experts)’ 모델에서 특히 심각하다고 밝혔다. 연구에 따르면 딥시크 V3는 6,710억 개의 파라미터를, 키미 K2는 1조 개의 파라미터를 포함하고 있다. 이처럼 거대한 모델은 단일 8GPU 시스템에는 담을 수 없다.

가장 명확한 해법은 엔비디아의 신형 GB200 시스템이다. 이는 사실상 하나의 초대형 72GPU 서버다. 하지만 이 장비는 수백만 달러에 달할 만큼 고가이며, 공급 부족이 심각하고 전 세계 어디에서나 구할 수 있는 것도 아니다. 반면 H100과 H200 시스템은 상대적으로 저렴하고 쉽게 확보할 수 있다.

문제는 이런 구형 시스템 여러 대에 모델을 분산해 실행하면 성능 저하가 극심하다는 점이다. 연구팀은 “현재 클라우드 간 추론(LLM inference)을 위한 실용적인 솔루션은 존재하지 않는다”라며 “기존 라이브러리들은 AWS 지원이 전혀 없거나, 아마존 하드웨어에서 심각한 성능 저하를 보인다”라고 지적했다.

트랜스퍼엔진은 이러한 문제를 해결하기 위해 설계됐다. 연구진은 “트랜스퍼엔진은 클라우드 네이티브 환경에서의 집합적 라이브러리를 보완하면서, 현대 대형 언어 모델(LLM) 구조를 위한 이식 가능한 포인트 투 포인트 통신을 구현해 벤더 종속을 방지한다”라고 설명했다.

트랜스퍼엔진의 작동 방식

논문에 따르면 트랜스퍼엔진은 GPU 간 통신을 위한 ‘범용 번역기’ 역할을 한다. 다양한 네트워크 하드웨어가 공통적으로 갖는 핵심 기능을 식별해, 서로 다른 시스템에서도 작동할 수 있는 공통 인터페이스를 만들어내는 방식이다.

트랜스퍼엔진은 RDMA(Remote Direct Memory Access) 기술을 활용한다. 이 기술은 중앙처리장치(CPU)를 거치지 않고 그래픽카드(GPU) 간 데이터를 직접 전송할 수 있게 해, 칩 사이에 마련된 전용 고속 차선과 같은 역할을 한다.

퍼플렉시티의 구현은 엔비디아 커넥트X-7과 AWS EFA 환경 모두에서 초당 400기가비트의 전송 속도를 달성했으며, 단일 플랫폼 전용 솔루션과 동일한 성능을 보였다. 또한 GPU 한 개에 여러 네트워크 카드를 동시에 사용하는 것도 지원해, 대역폭을 묶어 더 빠른 통신을 구현할 수 있다.

논문은 “트랜스퍼엔진은 이기종 RDMA 하드웨어 간의 공통 기능을 활용해 이식성을 확보한다”라며 “순서 보장을 하지 않더라도 신뢰할 수 있는 추상화 계층을 구성함으로써 다양한 프로토콜 위에서 작동한다”라고 설명했다.

실제 서비스 환경에서 검증된 기술

이 기술은 단순히 연구 단계에 머무르지 않는다. 퍼플렉시티는 이미 트랜스퍼엔진을 실제 서비스 환경에서 자사 AI 검색엔진의 핵심 인프라로 활용하고 있다.

회사는 이 기술을 세 가지 주요 시스템에 적용했다. 우선 분리형 추론(disaggregated inference) 환경에서는 트랜스퍼엔진이 서버 간 캐시 데이터를 고속으로 전송해, 기업이 AI 서비스를 유연하게 확장할 수 있도록 돕는다. 또 강화학습 시스템에서도 트랜스퍼엔진을 활용해, 1조 파라미터 규모의 모델 가중치를 단 1.3초 만에 업데이트하는 성능을 달성했다고 연구진은 밝혔다.

핵심 적용 사례는 MoE 라우팅이다. 이러한 모델은 입력 요청마다 다른 ‘전문가’ 모듈로 분산 처리하기 때문에 기존 모델보다 훨씬 많은 네트워크 트래픽이 발생한다. 딥시크는 이를 해결하기 위해 ‘딥EP(DeepEP)’라는 자체 프레임워크를 개발했지만, 이는 엔비디아 커넥트X 하드웨어에서만 작동했다.

연구진은 트랜스퍼엔진이 커넥트X-7 환경에서 딥EP와 동일한 성능을 보였다고 설명했다. 더 나아가 엔비디아 하드웨어에서는 ‘최신 수준의 지연시간(state-of-the-art latency)’을 달성했으며, 동시에 AWS EFA와 호환되는 최초의 실질적 구현체를 만들어냈다고 밝혔다.

퍼플렉시티는 AWS H200 인스턴스에서 딥시크 V3와 키미 K2를 테스트한 결과, 여러 노드에 모델을 분산 배치했을 때 특히 중간 배치 크기 환경에서 큰 폭의 성능 향상을 확인했다고 전했다. 이는 실제 상용 환경에 최적화된 구간으로 평가된다.

오픈소스 전략

퍼플렉시티가 자사의 핵심 인프라를 오픈소스로 공개한 결정은 기술 구현을 비공개로 유지하는 오픈AI와 앤트로픽 같은 경쟁사들과 뚜렷이 대비된다.

퍼플렉시티는 코드, 파이썬 바인딩, 벤치마킹 도구를 포함한 전체 라이브러리를 오픈 라이선스 형태로 공개했다.

이 같은 행보는 메타 가 파이토치를 오픈소스로 공개해 업계 표준을 정립하고 커뮤니티의 참여를 유도한 전략과 유사하다. 퍼플렉시티는 앞으로도 아마존의 네트워킹 라이브러리 업데이트에 맞춰 AWS 환경에서의 지연시간을 추가로 줄이기 위해 기술을 지속적으로 최적화할 계획이라고 밝혔다.
dl-ciokorea@foundryco.com

퍼플렉시티, 비용 부담 없이 조(兆) 단위 모델 실행하는 오픈소스 ‘트랜스퍼엔진’ 공개

벤더 종속의 함정

트랜스퍼엔진의 작동 방식

실제 서비스 환경에서 검증된 기술

오픈소스 전략

Related posts