중국 AI 기업 지푸AI가 화웨이 프로세서만을 사용해 이미지 생성 모델을 학습했다. 이는 첨단 서구권 반도체에 접근하지 못하더라도 중국 기업이 경쟁력 있는 AI 시스템을 구축할 수 있음을 보여준다.
지푸AI는 7일 깃허브 페이지를 통해 이번에 공개한 모델이 중국산 칩을 기반으로 전체 학습 사이클을 완료한 최초의 최첨단 멀티모달 모델이라고 밝혔다. 베이징에 본사를 둔 지푸AI는 마인드스포어 AI 프레임워크를 활용해 화웨이의 어센드 어틀라스 800T A2 장비에서 모델을 학습했으며, 데이터 전처리부터 대규모 학습까지 전 과정을 서구권 하드웨어에 의존하지 않고 수행했다.
이번 성과는 지푸AI에 전략적으로 중요한 의미를 갖는다. 미국 상무부는 지난해 지푸AI가 중국 군과 연계돼 있다는 의혹을 이유로 미국의 국가 안보 또는 외교 정책에 반하는 활동을 하는 기업 목록에 이 회사를 추가했다. 이로 인해 지푸AI는 첨단 AI 모델 학습의 표준으로 자리 잡은 엔비디아의 H100과 A100 GPU 사용이 사실상 차단됐고, 중국 기업들은 자국 칩 아키텍처를 중심으로 한 대안을 개발해야 하는 상황에 놓였다.
이 같은 지정 이후 지푸AI는 화웨이와 협력해 GLM-이미지 개발에 착수했다. 화웨이의 어센드 프로세서는 엔비디아 하드웨어 구매가 제한된 중국 AI 기업들에게 주요 대안으로 부상하고 있다. 어센드 칩에서 모델 학습을 성공적으로 완료했다는 점은 서구권 칩 접근이 제한된 환경에서도 중국 기업이 경쟁력 있는 AI 시스템을 개발할 수 있음을 보여주는 하나의 사례로 평가된다.
지푸AI는 보도자료를 통해 “국내에서 개발된 풀스택 컴퓨팅 플랫폼 위에서 고성능 멀티모달 생성 모델을 학습하는 것이 가능하다는 점을 입증했다”고 설명했다.
지푸AI는 GLM-이미지를 API 형태로 공개했으며, 이미지 1장 생성 비용은 0.1위안(약 0.014달러)이다. 또한 모델 가중치를 깃허브, 허깅페이스, 모델스코프 커뮤니티에 공개해 독립적인 배포가 가능하도록 했다.
이 같은 가격 정책은 마케팅 자료, 프레젠테이션 등 텍스트 비중이 높은 시각 콘텐츠를 대규모로 생성하려는 기업에게 비용 효율적인 선택지로 GLM-이미지를 자리매김하게 한다.
기술적 접근과 벤치마크 성능
지푸AI의 기술 보고서에 따르면 GLM-이미지는 90억 개 파라미터 규모의 자기회귀 모델과 70억 개 파라미터 디퓨전 디코더를 결합한 하이브리드 아키텍처를 적용했다. 자기회귀 모델은 명령 이해와 전체 이미지 구성을 담당하며, 디퓨전 디코더는 세부 묘사와 정확한 텍스트 렌더링에 초점을 맞춘다.
이 같은 아키텍처는 프레젠테이션 슬라이드, 인포그래픽, 상업용 포스터처럼 의미 이해와 정밀한 텍스트 표현이 동시에 요구되는 지식 집약적 시각 콘텐츠 생성 과정에서 발생하는 과제를 해결하기 위한 설계다.
여러 이미지 위치에 텍스트를 정확하게 배치하는 능력을 평가하는 CVTG-2K 벤치마크에서 GLM-이미지는 단어 정확도 0.9116을 기록하며 오픈소스 모델 가운데 1위를 차지했다. 긴 텍스트를 자연스럽게 구현하는 능력을 측정하는 롱텍스트-벤치(LongText-Bench)에서도 영어 0.952, 중국어 0.979의 점수를 기록했다. 간판, 포스터, 대화 상자 등 8개 시나리오 전반에서 높은 성능을 보였다는 평가다.
보고서에 따르면 GLM-이미지는 재학습 없이도 1024×1024부터 2048×2048 픽셀까지 다양한 해상도를 기본적으로 지원한다.
하드웨어 최적화 전략
어센드 하드웨어에서 GLM-이미지를 학습하기 위해 지푸AI는 화웨이 칩 아키텍처에 맞춘 맞춤형 최적화 기법을 개발해야 했다. 지푸AI는 학습 과정의 서로 다른 단계를 동시에 실행할 수 있도록 동적 그래프 기반 다단계 파이프라인 배포 방식을 적용한 학습 스위트를 구축해 병목 현상을 줄였다.
또한 어센드 아키텍처와 호환되는 고성능 퓨전 연산자를 개발하고, 분산 학습 과정에서 통신과 연산을 겹쳐 수행하는 멀티스트림 병렬화 기법을 적용했다. 이는 대부분의 AI 프레임워크가 기본적으로 목표로 삼는 엔비디아 GPU와는 다른 방식으로 동작하는 하드웨어에서 최대 성능을 끌어내기 위한 최적화 전략이다.
이 같은 기술적 접근은 중국의 자국 칩 생태계에서도 경쟁력 있는 AI 모델을 학습할 수 있음을 검증했다는 점에서 의미가 있다. 다만 개발에 소요된 시간과 엔지니어링 노력의 비용이 어느 정도인지는 여전히 명확하지 않다.
지푸AI는 모델 학습에 사용된 프로세서 수나 소요 기간, 엔비디아 기반 시스템과 비교했을 때의 자원 요구 사항에 대해서는 공개하지 않았다.
글로벌 AI 개발에 대한 시사점
중국에서 사업을 운영하는 다국적 기업 입장에서는 GLM-이미지가 자국 하드웨어에서 학습됐다는 점이 중국 AI 인프라가 최첨단 모델 개발을 지원할 수 있음을 보여주는 근거가 될 수 있다. 중국 내 사업을 전개하는 기업들은 화웨이의 어센드와 마인드스포어 같은 플랫폼과 프레임워크를 중심으로 한 전략을 검토해야 할 가능성도 있다.
이번 공개는 중국 기업들이 자국 AI 인프라 대안에 대한 투자를 확대하는 흐름 속에서 나왔다. 수출 통제가 글로벌 AI 생태계의 병렬적 발전을 늦출지, 아니면 오히려 가속화할지는 정책적 논쟁의 대상으로 남아 있다.
dl-ciokorea@foundryco.com
Read More from This Article: 중국 지푸AI, 화웨이 칩만으로 이미지 생성 모델 학습
Source: News

