5일 공개된 라마 4는 오픈 가중치(Open-weight) 방식으로 배포되어 외부 개발자가 자유롭게 연구하고 맞춤 활용할 수 있다. 이 모델은 메타가 처음으로 전문가 혼합(MoE) 아키텍처를 적용한 사례로, 하나의 토큰을 처리할 때 전체 파라미터 중 일부만 사용함으로써 연산 효율을 크게 높였다. 또한 텍스트와 이미지를 함께 처리할 수 있도록 초기 단계에서 정보를 결합하는 ‘초기 융합(early fusion)’ 기술을 적용해 멀티모달 기능을 기본으로 지원한다.
메타에 따르면, 라마 4 모델은 개발 과정에서 편향성 문제도 개선했다. 정치적, 사회적 주제에 대한 거부율이 라마 3.3의 7%에서 2% 미만으로 감소했으며, 불균형한 응답 거부율도 1% 미만으로 낮아졌다.
라마 4 스카우트는 170억 개의 활성 파라미터와 16개의 전문가(Experts)를 갖추었으며, 단일 엔비디아 H100 GPU에서 구동 가능하고 한 번에 처리할 수 있는 텍스트 분량이 최대 1,000만 토큰에 달해, 긴 문서나 대화에서도 앞뒤 맥락을 폭넓게 이해할 수 있다. 메타는 스카우트가 기존 라마 시리즈뿐 아니라 젬마 3, 제미나이 2.0 플래시 라이트, 미스트랄 3.1보다 우수한 성능을 보인다고 밝혔다.
라마 4 매버릭은 170억 개의 활성 파라미터를 갖추었으나, 128개의 전문가로 구성되어 더 정교한 추론과 다양한 입력 방식에 대응할 수 있다. 메타는 이 모델이 GPT-4o 및 제미나이 2.0 플래시보다 높은 성능을 기록했다고 주장했다.
두 모델은 메타가 아직 외부에 공식 공개하지 않은 ‘라마 4 비히모스(Llama 4 Behemoth)’에서 지식을 증류(distillation)받아 개발되었다. 여기서 말하는 지식 증류란 대규모 고성능 모델이 학습한 결과를 기반으로, 더 작고 효율적인 모델을 학습시키는 기술이다. 복잡한 모델의 풍부한 지식에서 핵심만 추출해 작은 모델에 전달하는 방식이라는 점에서, 업계에서는 이를 ‘증류’라는 표현으로 부르고 있다.
‘거대 조직체’를 의미하는 비히모스는 2,880억 개의 활성 파라미터와 약 2조 개의 총 파라미터를 가진 초대규모 멀티모달 모델이다. 메타는 이 모델이 자사가 개발한 가장 강력한 AI로, 수학, 코딩, 과학 분야에서 GPT-4.5, 클로드 소넷 3.7, 제미나이 2.0 프로를 능가하는 성능을 보인다고 주장했다. 또한 비히모스를 일종의 ‘선생님 모델’로 삼아, 더 작고 효율적인 ‘학생 모델’을 학습시키는 방식으로 품질과 성능을 동시에 확보하고 있다고 설명했다.
라마 4 스카우트와 매버릭은 메타 공식 웹사이트와 허깅페이스를 통해 다운로드할 수 있으며, 왓츠앱, 메신저, 인스타그램 다이렉트, 메타.AI 등 메타 제품에서 라마 4가 적용된 AI 기능을 체험할 수 있다.
jihyun.lee@foundryco.com
Read More from This Article: 메타, 차세대 멀티모달 AI 모델 ‘라마 4’ 시리즈 공개
Source: News