중국 AI 개발사 딥시크(DeepSeek)가 6,710억 개의 매개 변수를 특징으로 하는 추론 모델인 딥시크-R1(DeepSeek-R1) 오픈소스 버전을 공개했다. 회사는 이 모델이 주요 벤치마크에서 오픈AI의 o1보다 우수한 성능을 자랑한다고 주장했다.
딥시크는 관련한 기술 논문에서 “딥시크-R1은 AIME 2024에서 79.8% Pass@1의 점수를 달성해 오픈AI-o1-1217을 소폭 능가했다. 또 MATH-500에서 97.3%라는 인상적인 점수를 달성해 오픈AI-o1-1217과 동등한 성능을 보였으며 다른 모델보다 훨씬 우수한 성능을 보였다”라고 주장했다.
이 밖에 코딩 관련 작업과 관련해 코드포스(Codeforces)에서 2,029 Elo 등급을 달성했으며, 인간 참가자 중 96.3%를 능가했다고 회사는 덧붙였다.
딥스크는 “엔지니어링 관련 작업에서 딥스크-R1은 [회사의 또 다른 모델인] 딥스크-V3보다 약간 더 나은 성능을 발휘했다. 개발자가 실제 작업에서 도움을 받을 수 있는 수준이다”라고 말했다.
딥시크-R1은 AI 개발 플랫폼 허깅 페이스에서 사용할 수 있으며, 상업용 용도로 제한 없이 사용할 수 있는 MIT 라이선스로 이용할 수 있다.
이 회사는 또한 15억에서 700억 개의 파라미터를 가진 R1의 “정제된”(distilled) 버전을 제공한다. 그중 가장 작은 버전은 노트북에서 실행할 수 있다. 더 강력한 하드웨어가 필요한 풀스케일 R1은 오픈AI의 o1보다 최대 95% 저렴한 비용으로 API를 통해 사용할 수 있다.
추론 모델인 R1은 그 결과물을 스스로 점검하기 때문에 다른 모델에서 흔히 발생하는 오류를 줄일 수 있다. 추론 모델은 속도가 느린 대신 물리학, 과학, 수학 등의 분야에서 필요한 높은 신뢰성을 제공할 수 있다.
AI 군비 경쟁 가속화
언어 모델 구축 경쟁은 특히 지정학적 현실의 변화와 함께 더욱 치열해지고 있다. 라고 IDC의 부사장 샤라스 스리니바사무르티는 “오픈AI를 비롯한 다른 미국 기반 기업들이 확실히 퍼스트무버의 이점을 가지고 있다. 그러나 중국은 경쟁력 잇는 후발주자가 되기 위해 AI에 크게 투자하고 있다”라고 말했다.
딥시크-R1이 주요 지표에서 기록한 높은 성능은 현실의 여러 기업용 애플리케이션의 수학적 추론, 문제 해결 및 코딩 작업에서 향상된 역량으로 이어진다. 포레스터의 부사장 겸 수석 애널리스트인 찰리 다이는 “이 결과는 딥시크-R1이 이러한 특정 역량을 필요로 하는 실제 시나리오에서 오픈AI의 o1을 능가할 수 있음을 시사한다. 단 최종 결과는 데이터의 AI 준비성, RAG 및 에이전트 지원, 모델옵스 및 데브옵스 툴체인 통합, 클라우드 및 데이터 인프라 지원, AI 거버넌스와 같은 광범위한 AI 생태계 내의 다양한 요인에 따라 달라진다”라고 말했다.
딥시크-R1이 주장하는 성능은 매력적일 수 있지만, 학습된 데이터에 대한 명확성이 부족하기 때문에 실제 효과가 불확실하다는 지적도 있다. 스리니바사무르티는 “모델의 우수성은 학습된 데이터가 결정한다. 중국의 데이터 소비 및 공개에 대한 제한적인 정책으로 인해 데이터가 편향되거나 불완전할 가능성이 있다”라고 말했다.
스리니바사무르티는 또 LLM의 진정한 잠재력은 텍스트와 이미지 같은 다양한 양식을 처리하는 데 있다고 지적했다. 이미 많은 모델이 이를 달성했지만, R1은 아직 종합적인 솔루션으로 성장하기까지 개선될 여지를 가진다.
기업용으로의 잠재력
딥시크-R1의 MIT 라이선스는 무제한 상업적 사용과 커스터마이제이션을 허용하며, 비용이 저렴하다. 기업용으로 채택하기에 매력적이고 비용효율적인 옵션으로서 잠재력을 가진다.
그러나 에베레스트 그룹의 선임 애널리스트인 만시 굽타에 따르면, 기업들은 더 높은 ROI를 위해 특정 비즈니스 요구에 맞게 모델을 맞춤화, 미세조정함에 있어 MIT 라이선스와 관련된 추가 비용을 고려해야 할 수도 있다.
아울러 중국 이외 지역의 기업들의 경우 AI 도입에 영향을 미치는 규제 문제로 인해 데이터를 사용하여 모델을 훈련하거나 운영에 통합하는 것을 꺼릴 수 있다는 설명이다. 굽타는 “특히 글로벌 기업이라면 R1 사용과 관련된 지정학적 위험을 신중하게 평가해야 한다. 여기에는 중국의 규정을 꼼꼼하게 살피고 철저한 규정 준수 평가 및 위험 분석을 수행하는 작업이 포함된다. 궁극적으로 R1의 채택 여부는 기업이 잠재적 ROI와 지정학적 및 규제적 문제 사이의 균형을 얼마나 잘 최적화할 수 있는지에 달려 있다”라고 말했다.
[email protected]
Read More from This Article: 中 AI 스타트업 딥시크, ‘오픈AI o1’ 겨냥한 오픈소스 모델 공개
Source: News