LLM과 에이전트 이후의 AI, 비디오 언어 모델이 이끈다

2024년 테슬라가 공개한 영상에는 휴머노이드 로봇 옵티머스가 손님에게 음료를 제공하는 모습이 담겼다. 이는 새로운 AI 기술이 현실에서의 AI 활용을 더 안정적으로 만들어줄 수 있음을 보여줬다. 예를 들어 휴머노이드 로봇은 지금보다 더 능숙하게 사람들 사이를 이동하거나 각자의 취향에 맞는 음료를 제공할 수 있다. 일부에서는 이를 구성하는 AI 기술을 ‘월드 모델(World Model)’이라고 부른다.

월드 모델은 ‘비디오 언어 모델’로도 불리며, 챗GPT와 AI 에이전트의 뒤를 잇는 차세대 AI 기술로 평가되고 있다. 현재의 AI 기술이 주로 디지털 결과물에 영향을 미쳤다면, 월드 모델은 AI가 물리적 세계에 영향을 미치는 것을 목표로 한다.

월드 모델은 로봇이 주변의 물리적 환경을 이해하도록 돕기 위해 설계됐다. 이를 통해 로봇은 사물을 추적하고 식별하며 기억할 수 있다. 아울러 사람이 미래를 계획하듯, 월드 모델은 로봇이 다음에 어떤 일이 벌어질지를 판단하고 그에 맞춰 행동을 계획할 수 있게 한다.

엔비디아(Nvidia)의 월드 모델 코스모스(Cosmos) 제품 관리 총괄 TJ 갈다는 “생성형 AI가 그럴듯한 결과를 만들어내는 데서 출발했다면, 월드 모델의 차별점은 현실에서 가능한 행동이 무엇인지 이해한다는 데 있다”라고 설명했다.

또한 월드 모델은 로봇 공학을 넘어 현실의 다양한 시나리오를 시뮬레이션하는 데도 활용될 수 있다. 가령 자율주행차의 안전 기능을 개선하거나, 공장 현장을 가상으로 구현해 직원을 교육하는 용도로도 사용될 수 있다.

가트너의 디렉터 애널리스트 디팍 세스는 월드 모델이 현실에서 인간 경험과 AI를 결합하는 역할을 한다고 설명했다. 세스는 “우리가 실제로 경험하는 환경과 주변에서 벌어지는 일들이 월드 모델의 일부가 된다. 이런 요소는 현재의 언어 모델이 갖추지 못한 영역”이라고 언급했다.

현재의 AI 모델과 대규모 언어 모델(LLM)은 디지털을 넘어서는 영역을 이해하는 데 한계가 있지만, 월드 모델은 물리적 세계에서 인간과 AI의 협업을 가능하게 할 것으로 전망된다. 엔비디아는 최근 모건스탠리 연구를 인용해 2050년까지 휴머노이드 로봇의 수가 10억 대에 이를 수 있다고 밝혔다.

엔비디아의 코스모스 외에도 구글 딥마인드는 ‘지니3(Genie 3)’라는 월드 모델을 개발했다. 이는 복잡한 수학과 물리 시뮬레이션을 활용해 방 안을 이동하거나 식기세척기에 그릇을 넣는 등 실제 행동을 로봇이 이해하고 예측하며 계획하도록 돕는다.

로봇이 주변 환경에 대한 원시적인 시각·물리 정보를 얻을 때는 카메라와 센서를 활용하는데, 월드 모델은 여기에 멀티모달 시스템을 결합해 시각적 또는 이미지 기반 명령을 해석한 뒤 실제 작업을 수행하도록 지원한다.

스탠더드 봇츠의 AI 리서치 엔지니어 케니 지버트는 “물리적 AI에서 월드 모델은 3차원 시각 기하학과 중력, 마찰, 충돌 등 다양한 물리 법칙을 포착해, 임의의 환경에서 모든 유형의 객체와 상호작용하는 과정을 이해해야 한다”라고 설명했다.

또한 월드 모델은 로봇이 취하려는 행동이 어떤 결과로 이어질지를 이해하고 평가하는 역할도 한다. 일부 월드 모델은 각 단계에서 발생할 수 있는 결과를 짧은 비디오 형태의 시뮬레이션으로 생성해, 로봇이 여러 선택지 가운데 가장 적합한 행동을 선택하도록 돕는다.

갈다는 “월드 모델은 표지판에 적힌 단어를 예측하거나 다음에 나타날 픽셀을 맞히는 것을 넘어, 실제로 어떤 일이 벌어질지를 이해해야 한다”라고 설명했다. 예를 들어 로봇은 공장 바닥이나 도로에서 ‘정지’ 또는 ‘위험 구역’과 같은 표지판을 인식하는 데 그치지 않고, 이후 이동 과정에서 각별한 주의가 필요하다는 점까지 판단할 수 있어야 한다.

그는 또 “자동차나 로봇을 개발할 때 사람 사이의 물리적 공간에서 AI를 적용해야 한다면, 해당 시스템이 안전한지에 대해 확신할 수 있어야 하고, AI가 어떤 행동을 하게 될지를 명확히 이해하는 것이 필수적”이라고 언급했다.

지버트는 월드 모델이 현실에 로봇을 배치하는 데 활용될 여러 기술 가운데 하나이며, 관련 기술이 앞으로도 계속 발전할 것이라고 내다봤다.

다만 월드 모델 역시 챗GPT나 비디오 생성 모델과 마찬가지로 환각 현상과 성능 저하 문제를 안고 있다. 환각이 현실로 옮겨질 경우 피해로 이어질 수 있는 만큼, 연구진은 이 같은 위험을 줄이기 위한 해결책을 모색하고 있다.

이를 위해 PAN이라는 새로운 범용 월드 모델도 개발되고 있다. 이는 안전하고 통제된 시뮬레이션 환경에서 로봇이 ‘사고 실험’을 수행하고, 더 다양한 행동 시나리오를 시험할 수 있도록 한다. PAN 모델은 내부 메모리를 구축해 장면이 어떻게 변화해야 하는지에 대한 일관성을 유지한다.

아랍에미리트의 모하메드 빈 자이드 인공지능대학교 연구진이 개발한 PAN은 로봇 공학에만 국한되지 않는다. 연구진은 논문에서 PAN이 자율주행, 안전 시뮬레이션, 그리고 “행동에 따라 세계가 어떻게 변화하는지를 예측하고 추론하는” 장기적인 현실 시뮬레이션에도 활용될 수 있다고 설명했다.

연구진에 의하면 PAN은 사람의 행동 방식을 참고해 먼저 상황을 상상하고, 이를 시각화한 뒤 행동을 계획하는 방식으로 작동한다. 즉, 영상으로 결과를 확인하기 전에 행동의 원인과 결과를 이해하는 데 초점을 둔다. 일반적인 행동은 시각 프레임과 자연어 입력을 활용한다.

PAN은 더 길고 일관성 있는 비디오 시뮬레이션을 생성하며, 시간의 흐름에 따라 장면이 비현실적인 방향으로 흐트러지지 않고 지속적으로 일관성을 유지하도록 설계됐다.

반면 기존 비디오 생성 모델은 인과관계를 추적하거나 시간에 따른 구조적 안정성을 유지하는 데 한계가 있다. 시뮬레이션이 길어질수록 장면의 일관성이 무너지는 문제가 나타난다.

연구진은 “기존의 비디오 생성 모델은 대체로 단일하고 상호작용이 없는 비디오 세그먼트를 생성하는 데 그친다”라고 지적했다. 대표적인 비디오 생성 모델로는 구글의 비오3(Veo-3)와 오픈AI의 소라(Sora)가 있다. 오픈AI는 소라를 ‘월드 시뮬레이터’로 보고 있다.

연구진은 “이에 비해 PAN은 다른 비디오 생성기나 오픈소스 월드 모델과 비교해, 행동에 의해 주도되는 세계의 변화를 보다 정밀하게 시뮬레이션할 수 있다”라고 밝혔다.

PAN의 핵심 성과로는 미래 상태를 상상하고 시각화할 수 있도록 하는 생성 잠재 예측(GLP) 기능이 있다. ‘인과적 스윈-DPM’이라고도 부르는 이 구조는 행동에 따른 결과가 자연스럽게 이어지도록 설계돼, 시간의 흐름에 따라 비디오의 일관성을 유지하면서도 잡음과 불확실성을 줄이는 역할을 한다.

지버트는 월드 모델이 시간이 지날수록 더욱 고도화될 것이라고 전망했다. 그는 “시뮬레이션 기반 평가, 롱테일 학습 데이터 생성, 하드웨어 제약이 있는 소규모 모델로의 증류(distillation) 등 다양한 활용 가능성이 보인다. 월드 모델이 발전할수록 현재로서는 예측하기 어려운 영역까지 사용례가 확장될 것”이라고 진단했다.
dl-ciokorea@foundryco.com

Read More from This Article: LLM과 에이전트 이후의 AI, 비디오 언어 모델이 이끈다
Source: News

LLM과 에이전트 이후의 AI, 비디오 언어 모델이 이끈다

Related posts