AI 추론 강화 향한 “급선회”··· 엔비디아 에이전트 AI 구축용 라마 모델 공개

18일 산호세에서 개최된 GTC 2025 행사에서 엔비디아가 에이전트 AI 플랫폼 구축을 위한 새로운 개방형 추론 AI 모델 제품군을 출시했다.

이 회사는 다단계 수학(multistep math), 코딩, 추론, 복잡한 의사 결정 작업에 맞춰 새로운 라마 네모트론(Llama Nemotron) 추론 모델 제품군을 사후 교육했다. 목표는 개발자나 기업이 독립적인 또는 연결된 팀의 일부로 작동할 수 있는 AI 에이전트를 만들기 위한 비즈니스 준비 기반을 제공하는 것이다.

사후 교육(Post-training)은 데이터 세트에 대한 초기 학습 후 머신러닝 모델을 개선하고 최적화하는 일련의 프로세스와 기법이다. 모델의 성능과 효율성을 향상시키기 위한 이 작업에는 종종 더 작고 구체적인 데이터 세트에 대한 모델의 미세 조정이 포함되기도 한다.

엔비디아의 AI 제품 소프트웨어 관리 담당 부사장인 카리 브리스키는 “1월 맹렬하게 급선회했다. 추론을 위한 이 모델군의 훈련을 시작했고, 그 결과에 대해 정말 흥분하고 있다. 라마는 널리 사용되는 개방형 모델이지만, 추론 기능이 없었다”라고 말했다.

1월에 AI 분야에 등장한 딥시크와 같은 추론 모델은 표준 대규모 언어 모델(LLM)처럼 통계적으로 가능성 높은 출력을 생성하지 않는다. 대신 논리적 추론을 사용하여 복잡한 질문을 작은 단계로 나누고, ‘사고의 사슬’ (chain of thought) 프로세스를 사용해 다양한 접근 방식을 탐색하고 검증하여 답변을 제공한다. 이 과정은 다른 생성형 AI 모델의 접근 방식보다 인간에 더 가깝기 때문에 추론 모델이 어떻게 결론을 내렸는지 보여줄 수 있다.

추론 모델의 등장은 최근 가속화되고 있다. 특히 1월 딥시크가 공개된 이후로 불이 붙었다. 오픈AI는 2024년 1월 말 o3-미니 추론 모델을 공개했다. 알리바바는 이달 초에 QwQ-32B 소형 추론 모델을 발표했다. 마이크로소프트는 자체 추론 기능을 개발하고 있는 것으로 알려졌다. 바이두는 이번 주 초 어니 XI(Ernie XI)를 공개했다.

엔비디아의 브리스키는 추론에 대한 회사의 ‘하드 피봇’이 기본 모델에 비해 라마 네모트론 모델의 정확도를 최대 20%까지 향상시켰다며, 추론 속도 또한 다른 주요 개방형 추론 모델에 비해 5배까지 최적화되었다고 주장했다. 이러한 추론 성능 향상으로 인해 모델 제품군이 더 복잡한 추론 작업을 처리할 수 있게 되었고, 이는 결과적으로 기업의 운영 비용을 절감할 수 있다는 설명이다.

라마 네모트론 모델 제품군은 나노, 슈퍼, 울트라 크기별로 엔비디아 NIM 마이크로서비스로 제공된다. 즉 조직은 필요에 맞는 크기로 모델을 배포할 수 있다. 참고로 나노 마이크로서비스는 PC와 엣지 장치를 겨냥한다. 슈퍼 마이크로서비스는 단일 GPU에서 높은 처리량을 처리하는 데 적합하다. 울트라 마이크로서비스는 멀티 GPU 서버와 데이터센터 규모 애플리케이션를 대상으로 한다.

파트너들도 추론을 라마 생태계로 확장

엔비디아의 파트너들도 이 활동에 동참하고 있다. 마이크로소프트는 라마 네모트론 추론 모델과 NIM 마이크로서비스를 통해 애저 AI 파운드리 모델 카탈로그를 확장하고 있다. 마이크로소프트 365용 애저 AI 에이전트 서비스와 같은 서비스를 고도화하기 위해서다. SAP는 SAP 비즈니스 AI 솔루션과 줄(Joule) 코파일럿에 대해 이들을 활용하고 있다. 또한 SAP ABAP 프로그래밍 언어 모델의 코드 완성 정확도를 높이기 위해 네모 마이크로서비스를 사용하고 있다. 서비스나우는 라마 네모트론 모델이 AI 에이전트에게 더 높은 성능과 정확성을 제공할 것이라고 밝혔다.

액센츄어와 딜로이트 등의 서비스 제공업체들도 자사 제품에 라마 네모트론 추론 모델을 활용하고 있다고 전했다. 액센츄어는 자사의 AI 리파이너리(Refinery) 플랫폼에서 이 모델을 사용할 수 있도록 했고, 딜로이트는 최근 출시한 조라(Zora) 에이전트 AI 플랫폼에 이 모델을 통합하고 있다.

새로운 모델군은 엔비디아 AI 엔터프라이즈 소프트웨어 플랫폼의 일부로, 다음과 같은 새로운 요소와 함께 제공된다.

• 다중 모드 정보 검색을 위해 엔비디아 네모 리트리버를 사용하고 에이전트 및 데이터 연결, 최적화 및 투명성을 위해 엔비디아 에이전트IQ(AgentIQ) 툴킷을 사용하는 엔비디아 AI-Q 블루프린트.
• AI 쿼리 에이전트를 통해 기업 인프라를 위한 맞춤형 참조 설계를 제공하는 엔비디아 AI 데이터 플랫폼

라마 네모트론 나노와 슈퍼 모델 그리고 NIM 마이크로서비스는 ‘build.nvidia.com’과 허깅 페이스에서 호스팅된 API로 제공된다. 엔비디아는 엔비디아 개발자 프로그램의 회원들이 개발, 테스트, 연구 목적으로 무료로 액세스할 수 있다고 밝혔다. 기업들은 가속화된 데이터센터와 클라우드 인프라에서 엔비디아 AI 엔터프라이즈를 사용해 생산 환경에서 라마 네모트론 NIM 마이크로서비스를 실행할 수 있다.
dl-ciokorea@foundryco.com

Read More from This Article: AI 추론 강화 향한 “급선회”··· 엔비디아 에이전트 AI 구축용 라마 모델 공개
Source: News

AI 추론 강화 향한 “급선회”··· 엔비디아 에이전트 AI 구축용 라마 모델 공개

파트너들도 추론을 라마 생태계로 확장

Related posts