구글, 제미나이 3 플래시에 시각적 추론 강화···에이전트 기반 이미지 분석 구현

구글은 제미나이 3 플래시 모델에 에이전틱 비전 기능을 추가했다고 밝혔다. 이 기능은 시각적 추론과 코드 실행을 결합해 응답을 시각적 증거에 기반하도록 설계됐다. 구글에 따르면 에이전틱 비전은 인공지능 모델이 이미지를 처리하는 방식 자체를 근본적으로 변화시킨다.

27일에 공개된 이번 에이전틱 비전은 구글 AI 스튜디오 개발 도구의 제미나이 API와 제미나이 앱 내 버텍스 AI를 통해 제공된다.

구글은 제미나이 플래시에 적용된 에이전틱 비전이 이미지 이해를 정적인 행위에서 에이전트 기반 프로세스로 전환한다고 설명했다. 시각적 추론과 코드 실행을 결합해 모델이 이미지를 확대하고, 세부를 점검하며, 단계적으로 조작하는 계획을 스스로 수립한다. 지금까지 멀티모달 모델은 대체로 이미지를 한 번의 정적인 시선으로 처리해 왔다. 이 과정에서 일련번호나 멀리 있는 표지판과 같은 작은 요소를 놓치면 추측에 의존할 수밖에 없었다는 것이 구글의 설명이다. 반면 에이전틱 비전은 이미지 이해를 능동적인 조사 과정으로 바꿔, 이미지 이해 작업에 ‘생각하고, 행동하고, 관찰하는’ 에이전트 루프를 도입한다.

에이전틱 비전은 이미지에 주석을 달아 모델이 환경과 상호작용할 수 있도록 한다. 단순히 보이는 내용을 설명하는 데 그치지 않고, 제미나이 3 플래시는 코드를 실행해 캔버스 위에 직접 그림을 그리며 추론의 근거를 명확히 한다. 또한 고밀도 테이블을 해석하고 파이썬 코드를 실행해 분석 결과를 시각화할 수도 있다. 구글은 향후 에이전틱 비전에 더 많은 코드 기반 암묵적 동작을 추가하고, 제미나이 모델에 다양한 도구를 제공하는 한편, 플래시를 넘어 더 다양한 모델 크기로 이 기능을 확장할 계획이라고 밝혔다.
dl-ciokorea@foundryco.com

구글, 제미나이 3 플래시에 시각적 추론 강화···에이전트 기반 이미지 분석 구현

Related posts