아스 테크니카 보도에 따르면, 마이크로소프트는 마그마가 텍스트, 이미지, 비디오와 같은 멀티모달 데이터를 기반으로 자체적으로 작동할 수 있는 최초의 모델이라고 설명했다. 물리적 세계와 디지털 세계 모두를 가로질러 단일 모델상에서 상호작용적으로 작동할 수 있다는 의미다.
과거에도 유사한 AI 기반 로봇 프로젝트가 있었다. 구글의 PALM-E와 RT-2, 마이크로소프트의 로봇용 챗GPT 등이 그것이다. 이러한 프로젝트들은 인터페이스로 LLM을 사용했지만 인식과 제어를 위해서는 별도의 모델을 필요로 했다. 이번 마그마는 이러한 기능을 모두 단일 기본 모델에 통합했다는 점에서 차별화된다.
한편 마이크로소프트는 마그마를 에이전틱 AI를 향한 진전이기도 하다고 의미를 부여했다. 마그마가 자율적으로 계획을 세우고, 단순히 보이는 것에 대한 질문에 대답하는 것뿐만 아니라 인간을 대신하여 복잡한 작업을 수행할 수 있는 시스템을 포함하기 때문이다.
마이크로소프트는 이에 대해 마그마가 이미지, 비디오, 로봇 공학 데이터, UI 상호 작용을 혼합하여 훈련함으로써, 언어적 지능에 더해 공간적 지능도 갖추기 때문이라고 전했다.
마그마의 코드 일부는 이번 주 깃허브에 게시될 예정이다.
[email protected]
Read More from This Article: 마이크로소프트, 로봇 제어 특화한 생성형 AI 모델 ‘마그마’ 발표
Source: News