오픈AI, GPT-4.1 모델군 발표··· “코딩 및 복잡한 작업 성능 높여”

오픈AI는 공식 블로그를 통해 새로운 GPT-4.1 모델군(GPT-4.1, GPT-4.1 미니, GPT-4.1 나노)을 공개하며, 해당 모델들이 전반적으로 GPT-4o 및 GPT-4o 미니보다 우수한 성능을 보인다고 설명했다. 이와 함께 API를 통해 제공되던 GPT-4.5 프리뷰는 단계적으로 종료되며, 오는 2025년 7월 14일에는 완전히 중단된다. 중단 이유에 대해서는 GPT-4.1이 이전 모델인 GPT-4.5 프리뷰보다 더 빠른 속도와 낮은 비용으로, 동등하거나 더 나은 성능을 제공하기 때문이라고 설명했다.

이번에 공개된 GPT-4.1 모델은 전작 대비 문맥 처리 능력이 크게 향상됐다. GPT-4o가 지원하던 12만 8,000 토큰보다 훨씬 많은 100만 토큰의 문맥 처리 범위를 제공하며, 긴 문서에 대한 이해 능력도 강화됐다. 출력 토큰 수 한도 역시 기존 GPT-4o의 1만 6,385개에서 GPT-4.1에서는 3만 2,767개로 확대됐다.

다만 GPT-4.1 모델은 챗GPT가 아닌 API를 통해서만 사용할 수 있다. 오픈AI는 이미 많은 기능이 최신 버전의 GPT-4o에 반영됐으며, 향후 더 많은 개선사항이 추가될 예정이라고 설명했다.

오픈AI는 개발자 커뮤니티와 긴밀히 협력해 새로운 모델군을 개발했다고 전했다. 예를 들어 GPT-4.1은 코드 수정 능력 평가에 많이 쓰이는 SWE-벤치 기준 코딩 점수에서 GPT-4o 대비 21.4% 향상된 성과를 기록했다.

“코딩과 복잡한 작업에 더 강하다”

오픈AI는 GPT-4.1 미니와 GPT-4.1 나노 모델의 성능을 특히 강조했다. 오픈AI는 “GPT-4.1 미니는 소형 모델 성능 측면에서 큰 도약을 이뤘으며, 많은 벤치마크에서 GPT-4o를 능가한다. 지능 평가(Intelligence eval)에서도 GPT-4o와 동등하거나 그 이상 수준을 기록했고, 지연시간은 절반으로, 비용은 83%까지 줄였다”고 전했다.

또한 오픈AI는 “GPT-4.1 나노는 지연시간이 중요한 작업에 최적화된 가장 빠르고 저렴한 모델이다. 100만 토큰의 문맥 범위를 기반으로, 작은 모델임에도 뛰어난 성능을 발휘하며, 종합 지식 기반 시험 문제 해결 능력을 평가하는 MMLU에서 80.1%, 대학원 수준의 과학·기술 질문 해결 능력을 측정하는 GPQA에서 50.3%, 코드 자동완성 성능을 평가하는 에이더 폴리글롯 코딩에서 9.8%의 점수를 기록해 GPT-4o 미니보다도 높은 수치를 나타냈다. 분류나 자동완성과 같이 경량화가 중요한 작업에 특히 적합하다”라고 설명했다.

이러한 성능 개선과 함께, 챗컴플리션 API와 리스폰스 API처럼 에이전트 구축에 핵심이 되는 기능도 함께 제공돼, 방대한 문서에서 인사이트를 추출하거나 고객 요청을 최소한의 개입으로 처리하는 등 복잡한 작업을 더 유용하고 안정적으로 수행할 수 있는 에이전트를 개발할 수 있게 됐다고 오픈AI는 설명했다.

오픈AI는 또 GPT-4.1이 코딩 작업 수행, 프론트엔드 개발, 불필요한 코드 수정 감소, 변경사항(diff) 형식의 일관된 처리, 툴 사용 일관성 유지 등 다양한 영역에서 GPT-4o보다 우수한 성능을 보여준다고 설명했다.

가격 측면에서도 GPT-4.1은 경제적이다. 오픈AI는 GPT-4.1의 중간 쿼리 기준 가격이 GPT-4o보다 26% 저렴하며, 프롬프트 캐싱(prompt caching) 할인율도 기존 50%에서 75%로 상향됐다고 전했다. 또한 방대한 분량의 입력을 처리하는 장문 요청도 일반 토큰 단가로 요금이 부과되며, 배치 API(Batch API)를 통해 사용하면 추가로 50% 할인이 적용된다고 설명했다.

효율성과 확장성, 실현 가능할까?

하지만 일부 전문가들은 오픈AI의 주장에 의문을 제기하고 있다. 컨설팅 기업 인포텍리서치그룹(Info-Tech Research Group)의 기술 고문인 저스틴 세인트모리스는 “이번 발표는 효율성, 가격, 확장성 측면에서 이번 발표는 몇 가지 의문을 불러일으킨다”라며 “특히 비용을 83% 절감했다는 주장이 사실이라면 대기업과 클라우드 벤더가 ‘전력당 가치(value per watt)’를 중시하는 상황에서 매우 큰 변화가 될 수 있다. 다만 어떤 기준 모델과 비교한 결과인지 구체적인 설명이 없다”라고 분석했다.

세인트모리스는 가격 인하에도 불구하고 GPT-4.1 모델은 여전히 프리미엄 제품이라고 봤다. 그는 “오픈AI가 긴 문맥 처리 성능에 집중하고, 미니·나노 같은 효율적인 모델을 선보인 점은 MCP(Model Context Protocol) 서버와 에이전틱 시스템 관련 최근 업계 논의와 맥락을 같이한다”라며 “100만 토큰을 실시간으로 처리할 수 있다는 점은 복잡한 워크플로우와 실시간 추론을 가능하게 하지만, 입력 토큰 100만 개당 2달러, 출력 토큰 100만 개당 8달러라는 가격은 프리미엄 요금제에 가깝다. 특히 비용에 민감한 대규모 추론 환경에서는 라마(Llama)와 같은 대안이 점점 더 부각되고 있다”라고 언급했다.

그는 “오픈AI가 비용과 성능 측면에서 실제로 개선 효과를 입증할 수 있다면, 효율성과 확장성 측면에서 경쟁 우위를 더욱 강화할 수 있을 것”이라며 “하지만 기업 시장에서의 채택을 확대하려면, 실용적인 벤치마크와 가격 기준에 대해 더 투명하게 공개해야 한다”라고 전했다.
dl-ciokorea@foundryco.com

Read More from This Article: 오픈AI, GPT-4.1 모델군 발표··· “코딩 및 복잡한 작업 성능 높여”
Source: News

오픈AI, GPT-4.1 모델군 발표··· “코딩 및 복잡한 작업 성능 높여”

“코딩과 복잡한 작업에 더 강하다”

효율성과 확장성, 실현 가능할까?

Related posts