새로운 로봇을 현장에 투입할 때의 문제는 이들이 특정 작업을 수행하도록 훈련시키는 과정이 어렵고 비용이 많이 들며, 시간이 오래 걸린다는 점이다. 한 번 훈련시킨 후에도 시스템에 사소한 수정이 있을 때마다 로봇을 다시 훈련시켜야 한다. 로봇은 능력이 뛰어나지만, 유연성은 매우 떨어진다.
일부 훈련은 소프트웨어 코딩으로 처리된다. 다른 방법은 모방 학습이 대표적인데, 이는 사람이 로봇을 원격으로 조작해 로봇의 움직임을 시뮬레이션하고 학습 데이터를 제공하는 방식이다. 로봇은 훈련 중에는 기본적으로 인형처럼 작동한다. 두 가지 접근법 모두 시간이 많이 걸리고 비용이 많이 든다.
이 문제를 더욱 복잡하게 만드는 것은 표준의 부재다. 각 로봇 제조업체는 자체적으로 특화된 프로그래밍 언어를 사용한다. 특히 로봇 교육에 사용되는 티치 펜던트(teach pendants)는 주요 비독점 소프트웨어 개발 환경의 최신 속성을 갖추지 못한 경우가 많다. 티치 펜던트는 작업자가 로봇을 프로그래밍하고 제어할 수 있는 핸드헬드 기기로, 로봇의 움직임과 기능을 정확히 조작할 수 있다.
표준 부재는 복잡성과 비용을 증가시키는 요인이다. 로봇 프로그래밍 과정은 비용이 수천 달러에 이르며, 회사는 여러 로봇 프로그래밍 플랫폼을 사용할 수 있도록 직원을 교육해야 한다.
표준이 부족하고 첫 훈련 이후에는 유연성이 떨어지며, 로봇 기술 개발이 수작업과 작업별로 이루어지기 때문에 복잡하고 시간이 많이 소모되며, 비용도 많이 든다.
MIT가 구세주가 될 수 있을까?
MIT 연구팀은 로봇 훈련과 관련한 문제를 해결하기 위해 ‘HPT(Heterogeneous Pretrained Transformers)’라는 획기적이고 혁신적인 방법을 개발하고 있다. 이 개념은 최근 생성형 AI 붐을 일으킨 LLM과 유사한 개념에 기반한다.
LLM은 수십억 개의 매개변수를 가진 방대한 신경망을 사용해 대규모 학습 데이터셋에서 학습한 패턴을 기반으로 텍스트를 처리하고 생성한다.
HPT는 트랜스포머 모델을 사용해 다양한 소스 및 형태의 로봇 데이터를 처리한다. 모델은 이 데이터에 시각적 및 로봇 움직임 입력을 토큰 형태로 추가해 정렬한다. 이런 모든 데이터는 실제 LLM에서 처리된다. 트랜스포머 규모가 클수록 로봇의 성능이 향상된다.
LLM과 HPT는 매우 다르지만, 모두 다수의 출처로부터 방대한 훈련 데이터셋을 포함한다는 공통점이 있다.
HPT의 경우, 연구팀은 실제 물리적 로봇과 시뮬레이션 환경, 비전 센서와 로봇 팔 위치 인코더 같은 다양한 데이터 소스를 추가해 52개 이상의 데이터셋과 20만 개 이상의 로봇 궤적을 포함한 방대한 사전 훈련 데이터셋을 생성했다.
그 결과, HPT는 특정 작업에 대한 데이터 요구량이 훨씬 적다. 또한 이 방법은 아직 초기 단계다. LLM과 마찬가지로 추가 데이터와 최적화를 통해 성능이 크게 향상될 것으로 기대된다. 연구팀은 HPT 방식이 시뮬레이션과 실제 실험 모두에서 기존 방식 대비 20% 이상 성능이 뛰어나다는 사실을 발견했다.
HPT 로봇 훈련의 한계
HPT가 가능성을 보여주고 있지만, 여전히 한계는 존재하고 개발이 필요하다.
더 발전한 LLM 기반 챗봇조차 환각 문제를 일으키고 부정확한 데이터에 오염되는 경향이 있듯이, HPT도 데이터셋에서 불량 데이터를 걸러낼 수 있는 메커니즘이 필요하다. 강력한 산업용 로봇이 환각 현상으로 인해 공장 현장에서 오작동하는 상황은 누구도 원치 않을 것이다.
LLM과 HPT의 개념은 유사하지만, LLM은 훨씬 발전된 상태다. 이를 산업화하려면 시뮬레이션 데이터와 실제 데이터를 더 많이 확보해야 한다. 초기의 LLM처럼 현재 MIT에서 진행 중인 HPT 연구는 성공률이 평균 90% 미만이다.
연구팀은 HPT의 한계를 극복하기 위해 향후 몇 가지 중요한 연구 방향을 탐색할 필요가 있다고 언급했다. 로봇 학습의 잠재력을 극대화하기 위해서는 지도 학습을 넘어선 훈련 목표, 즉 자가 지도 학습이나 비지도 학습을 연구해야 한다.
데이터셋을 다양하고 고품질의 데이터로 확장하는 것도 중요하다. 여기에는 원격 작동 데이터, 시뮬레이션, 사람의 행동을 담은 영상, 배치된 로봇 데이터 등이 포함될 수 있다. 더 높은 HPT 성공률을 위해 최적의 데이터 유형 조합을 찾는 작업이 필요하다.
또한, 연구팀과 산업계는 다양한 로봇 모델을 비교할 수 있는 표준화된 가상 테스트 환경을 마련해야 한다. 이는 아마도 엔비디아가 제공할 가능성이 높다. 이와 함께 연구팀은 더 복잡한 실제 작업에서 로봇을 테스트해야 한다. 양손을 사용하는 로봇이나 이동하면서 더 긴 작업을 수행하는 로봇이 포함될 수 있다. 이는 로봇에게 더 현실적이고 까다로운 과제를 부여하는 개념이다.
연구팀은 데이터 양과 로봇의 ‘두뇌’ 크기(모델 크기), 성능 간의 관계도 연구하고 있다. 이 관계를 이해하면 더 효율적으로 로봇을 설계할 수 있을 것이다.
또 다른 흥미로운 분야는 로봇이 다양한 유형의 정보를 이해하도록 가르치는 것이다. 예를 들면 주변 환경의 3D 지도, 촉각 센서, 인간의 행동에서 얻은 데이터 같은 것들이다. 이런 모든 다양한 입력을 결합함으로써 로봇은 인간처럼 주변 환경을 이해하는 방법을 배울 수 있다.
이런 모든 연구 아이디어는 현실에서 더 다양한 작업을 처리할 수 있는 더 스마트하고 다재다능한 로봇을 만드는 것을 목표로 한다. 오늘날의 로봇 학습 시스템 한계를 극복하고 로봇의 역량을 확대하는 것이 핵심이다. MIT 연구에 대한 기사에 따르면, “연구팀은 데이터 다양성이 HPT 성능을 어떻게 향상할 수 있는지 연구할 계획이며, GPT-4와 같은 LLM처럼 라벨링되지 않은 데이터를 처리할 수 있도록 HPT를 강화할 예정”이라고 전했다.
궁극적인 목표는 추가 훈련 없이도 다운로드하여 사용할 수 있는 ‘범용 로봇 두뇌’를 만드는 것이다. 본질적으로 HPT를 사용하면 로봇이 인간처럼 더 자연스럽게 작업할 수 있다. 실제 세계에서는 조립 라인에 신입 직원이 투입되면 따로 훈련받지 않아도 물건을 집어 들고 이동하며, 물건을 다루고 시각적으로 물건을 식별하는 방법을 알고 있다. 이후 신입 직원은 경험을 쌓으며 자신감을 얻고 추가적인 기술을 습득한다. MIT 연구팀은 HTP로 훈련된 로봇도 이와 같은 방식으로 작동할 것으로 기대한다.
인간 노동자를 로봇으로 대체할 가능성에 대한 우려가 생길 수 있지만, 이는 또 다른 칼럼에서 다뤄야 할 주제다. 어찌됐든 필자는 MIT 연구팀이 산업 로봇 혁명을 급격히 가속화할 새로운 기술을 발견하고 있다고 생각한다.
dl-ciokorea@foundryco.com
Read More from This Article: 칼럼 | 산업용 로봇이 생성형 AI 챗봇처럼 학습하면 어떻게 될까?
Source: News