오픈AI는 새로운 리스폰스 API와 업그레이드된 에이전트 SDK는 기업이 고급 추론과 다중 모드 기능을 갖춘 에이전트를 더 쉽게 구축할 수 있도록 도울 것이라고 12일 밝혔다.
새로운 도구는 앤트로픽 같은 기존 경쟁사는 물론 딥시크, 버터플라이 이펙트(마누스 개발사)를 포함한 중국의 신흥 경쟁사의 도전을 막는 데 도움이 될 수 있다.
오픈AI는 에이전트 SDK를 업그레이드하며, 에이전트의 워크플로 실행을 추적하고 검사할 수 있는 통합 가시성(Observability) 도구를 추가했다. 또한, 리스폰스 API는 기존 챗 컴플리션(Chat Completions) API와 어시스턴트(Assistants) API의 기능을 결합했다. 오픈AI는 이런 통합이 복잡한 작업을 처리하는 AI 에이전트를 구축할 때 유용할 것이라고 기대했다.
오픈AI는 이러한 방식으로 기능을 재구성하면 개발자가 여러 API 또는 외부 공급업체를 통합하는 복잡한 과정 없이 내장된 도구를 앱에 통합하는 데 도움이 될 것이라고 설명했다.
오픈AI의 최고제품책임자(CPO) 케빈 와일은 간담회에서 “개발자들은 여러 곳에서 제공하는 다양한 저수준 API를 조합해야 한다고 느낀다”라며 “이 과정은 어렵고, 속도가 느리며, 종종 취약하다는 인상을 준다”라고 설명했다.
리스폰스 API에 포함된 기능
현재 오픈AI는 웹 검색, 파일 검색, 컴퓨터 사용 등 세 가지 기능을 패키징해 개발자가 AI 모델을 실제 환경과 연결하고, 보다 효율적으로 작업을 수행할 수 있도록 지원하고 있다.
웹 검색 기능은 챗GPT 검색을 지원하는 것과 동일한 도구로, 파인튜닝된 GPT-4o 및 GPT-4o 미니 모델을 기반으로 한다. 오픈AI 제품팀 엔지니어 니쿤지 한다는 간담회에서 이 같은 내용을 밝혔다.
오픈AI 엔지니어 스티브 코피에 따르면, 파일 검색 기능은 지난해 어시스턴트 API의 일부로 도입되었으며, 개발자가 문서에서 RAG(Retrieval-Augmented Generation)를 수행할 수 있도록 했다. 이번 업데이트에서는 메타데이터 필터링 기능이 추가돼 파일 속성을 기준으로 검색할 수 있으며, AI 모델을 거치지 않고 직접 데이터 저장소를 검색할 수 있는 엔드포인트도 포함됐다.
세 번째 기능인 컴퓨터 사용 도구는 챗GPT에서 사용되는 오퍼레이터 모델을 활용한다. 한다는 “컴퓨터 사용 도구는 API 내 오퍼레이터 역할을 하지만, 사용자가 운영하는 컴퓨터를 직접 제어할 수 있도록 한다”라며 “이 기능은 가상머신이나 기존 GUI 기반 애플리케이션을 대상으로 할 수 있으며, API 접근이 불가능한 환경에서도 활용할 수 있다”라고 설명했다.
경쟁사와의 차별점
경쟁사인 앤트로픽은 지난해 10월 클로드 3.5 소넷 모델에서 API를 통해 접근할 수 있는 유사한 컴퓨터 사용 기능을 도입했다. 이를 통해 화면에 표시된 내용을 읽고 해석할 수 있으며, 텍스트 입력, 커서 이동, 버튼 클릭, 창 전환 등의 작업이 가능하다.
컨설팅 기업 무어인사이트앤스트래티지의 수석 애널리스트 제이슨 앤더슨은 오픈AI의 접근 방식이 스크린샷 기반인 반면, 앤트로픽은 명령어 출력을 활용할 수 있다는 차이점을 주목했다.
또한, 포레스터의 부사장 겸 수석 애널리스트 찰리 다이는 두 AI 기업이 각기 다른 설계 철학, 보안 고려 사항, 생태계 통합 전략을 가지고 있어 컴퓨터 사용 기능의 구현 방식에 차이가 있을 수 있다고 분석했다.
그는 “오픈AI의 모델이 더 범용적이고 다양한 환경에서 활용될 가능성이 높다”라며 “반면 앤트로픽은 AI 관련 보안과 조정을 우선시하는 접근 방식을 취할 것으로 보이는데, ‘모델이 프롬프트 인젝션(prompt injection)에 저항하도록 훈련했으며, 추가적인 방어 계층을 도입했다’는 앤트로픽의 주장에서 이를 확인할 수 있다”라고 설명했다.
앤더슨은 리스폰스 API가 개발자들이 대규모 마이그레이션 없이도 업무 자동화를 구현할 수 있는 기회를 제공한다고 평가했다. 하지만 사용자가 늘어나고 작업이 복잡해질수록 비용이 증가할 가능성이 있다고 경고했다.
현재 리스폰스 API는 즉시 사용할 수 있으며 별도로 과금되지 않는다. 즉, 기업은 오픈AI의 기존 요금 체계에 따라 토큰과 도구 사용량에 대해 비용을 지불하면 된다.
챗 컴플리션 API, 계속 제공될까?
오픈AI는 챗 컴플리션 API가 리스폰스 API에 통합되었음에도 불구하고 계속 지원될 예정이며, 새로운 모델도 추가될 것이라고 밝혔다. 내장 도구를 사용하지 않는 개발자는 여전히 챗 컴플리션 API를 사용할 수 있지만, 최신 통합 기능이 필요할 경우 리스폰스 API를 활용하는 것이 더 적합하다고 강조했다.
또한, 오픈AI는 어시스턴트 API의 모든 기능을 리스폰스 API에 포함한 후, 2026년 중반까지 단계적으로 폐지할 계획이다. API가 공식적으로 종료되기 전에 “개발자가 모든 데이터를 보존하고 애플리케이션을 원활하게 이전할 수 있도록 명확한 마이그레이션 가이드를 제공할 것”이라고 밝혔다.
오픈AI의 에이전트 SDK란?
에이전트 SDK는 지난해 오픈AI가 실험적으로 출시한 ‘스웜(Swarm)’의 일종의 업그레이드 버전이다. 스웜은 개발자가 에이전트 기반 워크플로를 구성할 수 있도록 지원하는 도구로, 실험적 성격을 띠었음에도 불구하고 이미 여러 기업이 도입했다고 오픈AI는 밝혔다.
이번에 스웜은 에이전트 SDK로 브랜드를 변경하면서, 새로운 에이전트 기능, 에이전트 간 핸드오프(업무 인계), 보안 장치(가드레일), 에이전트 디버깅 및 성능 추적을 위한 가시성 도구 등 다양한 개선 사항이 추가됐다.
앤더슨은 “SDK는 중요한 의미를 갖는다”라며 “아마존 베드록과 구글 버텍스 AI 같은 플랫폼이 워크플로 및 에이전트 간 협업 기능을 빠르게 확장하고 있는 상황에서 더욱 그렇다”라고 설명했다.
또한 앤더슨은 “오픈AI는 그동안 대규모로 훈련된 범용 모델을 주로 강조해왔다”라며 “그러나 협업형 에이전트 개념을 도입한 것은 오픈AI 역시 특정 작업을 수행하는 작은 규모의 특화 모델이 다른 모델과 함께 작동하는 방식을 수용하고 있음을 시사한다”라고 언급했다.
오픈AI에 따르면, 에이전트 SDK는 리스폰스 API와 챗 컴플리션 API와 함께 작동한다.
또한, 다른 제공업체의 모델과도 연동할 수 있으며, 해당 모델이 챗 컴플리션 API 스타일의 엔드포인트를 제공하면 활용이 가능하다. 오픈AI는 개발자가 즉시 파이썬코드베이스에 SDK를 통합할 수 있으며, 노드.js 지원도 곧 추가될 예정이라고 밝혔다.
[email protected]
Read More from This Article: 경쟁 심화되는 AI 시장··· 오픈AI 새 API와 SDK로 차별화 나서
Source: News