마이크로소프트(MS)가 로컬 기기만으로 복잡한 작업을 자동화할 수 있는 소형 컴퓨터 사용 에이전트(CUA) 모델 ‘파라-7B’를 공개하며, 에이전틱 AI 기술을 개별 PC의 영역으로 확장하고 있다.
이번 공개는 사용자 피드백을 수집하기 위한 실험 목적이며, 기업이 민감한 워크플로를 클라우드로 전송하지 않고도 처리할 수 있는 AI 에이전트의 방향성을 미리 제시한다. MS는 실제 UI 네비게이션 작업에서 GPT-4o 같은 대형 모델과 견주거나 그 이상을 보여주는 성능도 확인할 수 있다는 점을 강조했다.
MS는 블로그 게시물에서 “텍스트 기반 응답을 생성하는 기존 대화형 모델과 달리, 파라-7B와 같은 컴퓨터 사용 에이전트(CUA)는 마우스와 키보드 등 실제 컴퓨터 인터페이스를 활용해 사용자를 대신해 작업을 수행한다”라며 “70억 파라미터 규모임에도 동급 모델군에서 최고 수준의 성능을 보여주며, 여러 대규모 모델을 조합해 동작하는 고비용 에이전트 시스템과 비교해도 충분히 경쟁력이 있다”라고 설명했다.
파라-7B는 스크린샷을 분석해 화면 요소를 픽셀 수준에서 해석하며, 코드 구조가 복잡하거나 접근할 수 없는 환경에서도 화면 기반으로 인터페이스를 탐색할 수 있다.
MS에 의하면 Fara-7B는 내부 벤치마크 웹보이저(WebVoyager) 테스트에서 73.5%의 성공률을 기록해, 동일한 컴퓨터 사용 에이전트 환경에서 평가된 GPT-4o를 앞섰다. MS는 이 모델이 기존 7B급 시스템보다 훨씬 적은 단계로 작업을 완료하는 경향이 있어 데스크톱 환경에서 더 빠르고 예측 가능한 자동화를 구현할 수 있다고 설명했다.
또한 MS는 이메일 발송이나 금융 거래 수행처럼 되돌릴 수 없는 행동을 진행하기 전, 에이전트가 반드시 멈춰 사용자 승인을 요청하도록 하는 ‘크리티컬 포인트(Critical Points)’ 안전 장치를 모델에 적용했다.
로컬 모델로의 전환
분석가들은 파라-7B처럼 소형 로컬 모델로 이동하는 흐름이 엔터프라이즈 AI 아키텍처 전반의 광범위한 변화와 맞닿아 있다고 봤다.
오늘날 대규모 추론이나 조직 차원의 검색은 여전히 클라우드 기반 시스템이 주도하고 있다. 그러나 실제 기업에서 이뤄지는 일상적 워크플로우는 노트북 내에서 데이터를 이동하는 작업처럼, 정보가 기기 밖으로 나갈 수 없는 방식이 상당수다.
파리크 컨설팅 CEO인 파리크 자인은 “엣지 기반 모델은 클라우드 AI의 3가지 주요 문제, 즉 연산 비용, 기기 외부로의 데이터 전송 문제, 지연 시간을 해결한다. 대부분의 기업 업무는 노트북 내부 애플리케이션에서 이뤄지기 때문에 로컬 에이전트가 훨씬 적합하다”라고 말했다.
포레스터 부사장이자 수석 애널리스트인 찰리 다이는 조직이 에이전트 기반 AI 도입을 가속화할수록, 파라-7B와 같이 경량화된 온디바이스 에이전트의 중요성이 더욱 커질 것이라고 진단했다.
다이는 “기업 입장에서 이는 AI 워크로드가 점차 분산되는 흐름을 의미한다. 초대규모 인프라 의존도가 낮아지는 만큼 엣지 거버넌스와 모델 수명주기 관리를 위한 새로운 전략이 요구된다”라고 설명했다.
카덴스 인터내셔널 수석 부사장 툴리카 실은 이런 흐름이 하이브리드 AI 아키텍처의 확대로 이어지고 있다고 분석했다. 이는 로컬 에이전트가 프라이버시 민감 업무를 처리하고, 클라우드가 확장성을 맡는 구조를 의미한다. 특히 소규모 온디바이스 에이전트는 외부 시스템에 정보를 노출하지 않으면서 민감하거나 반복적인 데스크톱 작업을 자동화할 수 있는 현실적인 방안이 될 수 있다.
실용성과 거버넌스 과제
픽셀 단위로 화면을 해석하는 에이전트는 별도의 통합 작업 없이 다양한 애플리케이션에서 동작할 수 있어 높은 호환성을 보장하지만, 동시에 운영상 위험도 수반한다. 자인은 이를 AI 기능이 강화된 로보틱 프로세스 자동화(RPA)에 가깝다고 설명했는데, 에이전트가 마우스와 키보드 입력을 모방해 시스템 간 데이터를 이동시키기 때문이다.
dl-ciokorea@foundryco.com
Read More from This Article: 로컬 에이전틱 AI 구현되나···MS, 소규모 AI 모델 ‘파라-7B’ 공개
Source: News

