지난 6월 10일, 오픈AI(OpenAI)가 대표 추론 모델인 o3의 가격을 대폭 인하했다. 입력 100만 토큰당 10달러, 출력 100만 토큰당 40달러였던 가격이 각각 2달러, 8달러로 약 80% 줄어든 것이다. API 리셀러들도 곧바로 반응했다. 커서(Cursor)는 이제 o3 요청을 GPT-4o와 동일하게 계산하며, 윈드서프(Windsurf)도 ‘o3-reasoning’ 등급을 단일 크레딧으로 낮췄다. 커서 사용자 입장에서는 하루 만에 비용이 10분의 1로 줄어든 셈이다.
지연 시간도 함께 개선됐다. 오픈AI는 새로운 지연 시간 수치를 공식적으로 발표하진 않았지만, 서드파티 대시보드에서는 여전히 긴 프롬프트의 경우 첫 토큰 출력까지 약 15~20초가 소요되는 것으로 나타난다. 그러나 새롭게 도입된 엔비디아 GB200 클러스터와 긴 프롬프트를 더 많은 GPU에 나눠 처리하는 스케줄러 덕분에 실제 사용 환경에서는 o3가 훨씬 더 민첩하게 반응하는 것으로 체감된다. 경량 모델에 비해 여전히 느리긴 하지만, 더 이상 커피를 마시며 기다릴 수준은 아니다.
빠르지만 엉성한 클로드 4
한편 커뮤니티의 관심은 주로 클로드 4(Claude 4)에 쏠려 있다. 속도는 분명히 빠르고, 20만 토큰의 문맥 창도 인상적이다. 하지만 일상적인 코딩 작업에서는 단점이 드러난다. 필자와 여러 레딧(Reddit), 디스코드(Discord) 이용자들은 클로드의 ‘행동 편향’에 자주 발목이 잡힌다. 실제 구현 대신 스텁 함수를 임의로 만들거나, 단위 테스트를 날조하고, 수정하지 말라고 지시한 목(mock) 코드를 다시 작성하는 경우도 있다. 빠른 속도는 장점이지만, 결과물의 완성도는 아쉬운 경우가 많다.
신중하고 꼼꼼한 o3, 이제는 합리적인 가격
o3는 클로드와 정반대의 성향을 보인다. 먼저 사고하고, 명확히 이해하려 하며, 실제로 컴파일 가능한 코드를 생성하는 경향이 있다. 불과 일주일 전만 해도 이런 신중함은 마치 억만장자 요트처럼 값비쌌다. 그러나 이제는 중고차 수준의 가격으로 제공된다. 예를 들어, 입력 4,000 토큰/출력 1,600 토큰 기준 프롬프트 비용이 0.10달러에서 0.02달러로 줄어들며, 오픈AI의 공식 인하율과 정확히 일치하는 80% 하락을 기록했다.
툴 콜 남용 주의… “계획 과잉” 경향도
주의할 점도 있다. o3는 툴 호출(tool call, 인공지능 모델이 외부 도구나 기능을 호출해 작업을 수행하는 기능)을 지나치게 선호하는 경향이 있다. 윈드서프 사용자들은 “불필요한 툴 호출을 남용하면서도 정작 코드를 제대로 작성하지 못한다”고 불만을 제기한다. 필자의 경험에서도 o3는 클로드보다 더 자주 diff, 테스트 실행, 검색, 파일 시스템 읽기 등 툴을 호출하는 경향을 보인다. 클로드나 소형 모델은 툴 없이도 답을 유추하려 하지만, o3는 직접 데이터를 확인하고 싶어한다. 이 방식은 때로 유용하지만, 지나치면 문제가 된다. 따라서 필자는 o3에게 전체 프로젝트를 조망하지 말고, 분할된 하위 작업 단위로 접근하라고 지시하는 편이다.
효율적인 사용을 위한 팁은 다음과 같다.
- 호출 제한: “최대 8개 툴 호출까지만 허용” 등으로 제한 설정
- 범위 지정: “이 두 파일만 수정”과 같이 수정 범위를 명확히 설정
- 변경 사항 수시 확인 및 커밋: 완벽하지 않은 모델인 만큼 자주 검토 필요
코딩에서 ‘추론’의 힘
추론 기반 모델은 클래스 이름 변경, 데이터베이스 마이그레이션 업데이트, 통합 테스트 수정 등 다단계 제약 조건을 처리하는 데 강점을 보인다. 코드 생성에서 체인 오브 쏘트(chain-of-thought)를 적용한 연구에 따르면, 휴먼이발(HumanEval)과 MBPP(Mostly Basic Python Problems) 같은 벤치마크에서 단일 실행 성공률(pass-at-1)을 두 자릿수 이상 높이는 효과가 확인됐다. 소형 모델은 세 번째 단계에서 성능이 급감하지만, o3는 더 많은 불변 조건을 작업 기억에 유지해 첫 초안부터 통과 확률이 높다.
진짜 추론일까?
애플은 최근 논문 ‘The Illusion of Thinking’을 통해, 이른바 대형 추론 모델(LRM)이 실제로 추론을 하는 것이 아니라 더 긴 토큰 패턴을 단순히 매칭하는 것에 불과하다고 주장했다. 해당 논문은 LRM이 합성된 고난이도 퍼즐에서 성능이 정체된다고 분석했다. 이는 현업 종사자들이 이미 체감하고 있는 현실과도 맞닿아 있다. 체인 오브 쏘트는 강력하지만 마법은 아니라는 것이다. 이를 ‘추론’이라 부르든, ‘고도화된 자동완성’이라 부르든, 기능 향상은 확실하며, 가격 인하를 통해 그 기능이 더 널리 활용될 수 있게 됐다.
모델의 기반: 보조금, 반도체, 대규모 인프라
오픈AI가 입력 2달러/출력 8달러라는 가격에 수익을 낼 수 있으려면, 지난해 겨울 수준의 추론 비용을 그대로 유지할 수는 없다. 이 수치가 성립하려면 두 가지 조건이 충족되어야 한다:
1.하드웨어 도약: 엔비디아(Nvidia)의 GB200 NVL72는 동일 노드 기준 H100 클러스터보다 최대 30배 높은 추론 처리량을 제공하며, 전력 소모는 대폭 줄일 수 있는 것으로 알려졌다.
2. 자본 전략: 오라클(Oracle)은 오픈AI와 15년에 걸친 400억 달러 규모의 칩 임대 계약을 체결해, GPU 투자비용(capex)을 10년 이상에 걸쳐 분산시키고 이를 클라우드 운영비용(op-ex)처럼 전환했다.
그럼에도 불구하고 주요 벤더들은 모두 시장 선점을 위한 경쟁에 돌입한 상태다. 규제와 범용화가 본격화되기 전, 개발자를 자사 생태계에 묶어두기 위해 실질적으로 초당 부동소수점 연산(FLOPS)을 보조금 형태로 제공하고 있다.
대안 모델의 부상도 압박 요인
오픈AI의 경쟁자들도 기회를 노리고 있다.
- BitNet b1.58 (마이크로소프트 리서치): CPU 기반에서 작동 가능한 1비트 모델로, 코드 생성 성능도 준수해 인프라 비용을 크게 절감할 수 있다.
- Qwen3-235B-A22B (알리바바): 클로드급 추론력을 가진 아파치 2.0 기반 전문가 혼합(MoE) 모델이며, 토큰당 활성화되는 파라미터는 220억 개에 불과하다.
BitNet은 절대 성능 면에서 o3나 GPT-4o에 미치진 못하지만, 소형 하드웨어에서도 작동 가능하다는 점에서 ‘더 커야만 진보’라는 통념을 반박한다. 이러한 소형 아키텍처는 절대 최상위 성능엔 도달하지 못해도, 실무에서 필요한 수준은 충분히 충족할 수 있다.
Qwen은 속도와 역량 면에서 여전히 o3에 뒤처지지만, 고도화된 추론 기능이 저비용 범용 기술로 전환되고 있다는 흐름은 분명하다. 벤더들이 쏟아붓는 보조금은 회수되지 않을 가능성이 크고, 락인(lock-in)이 강하지 않은 상황에서 오픈소스 기반 하드웨어와 빠른 릴리스는 고급 추론의 한계 비용을 사실상 제로에 가깝게 만들 수 있다.
실무를 위한 워크플로 조정 팁
- o3를 주력 코딩 및 플래너 모델로 승격: 대기 시간은 이제 감내할 만하고, 가격도 현실적이며, 체인 오브 쏘트 추론이 그만한 값을 한다. 기다리는 시간은 생기지만, 재작업이 줄어드는 만큼 실효성은 크다.
- 경량 백업 모델 유지: “브랜치 만들기”나 “도커 시작”처럼 단순 작업에까지 고급 추론을 기다릴 필요는 없다. 가볍고 저렴한 모델을 하나 골라 두자.
- 툴 콜 과잉 제어: 요청당 툴 호출 횟수를 명시적으로 제한하고, 병합 전에는 diff 리뷰를 반드시 수행할 것.
- 경제적인 프롬프트 구성: $2/$8 가격이라 해도 비효율적인 프롬프트는 돈을 낭비한다. 시스템 메시지는 간결하게, 맥락은 ID로 참조하고 전체 파일 복붙은 지양할 것.
- 지연 시간 급증 대비: 보조금 시대에도 수요 급증 시 쓰로틀링이 발생할 수 있다. IDE에 백업 모델을 미리 지정해 두자.
- Cursor·Windsurf 대안 모색: 필자는 다양한 모델 조합을 쓰기 위해 자체 AI 코딩 도우미를 만들기 시작했다. 오픈소스 대안인 루코드(Roo Code)나 클라인(Cline)을 활용하면 유사한 방식이 가능하다. 문제점도 있지만, 오픈라우터(OpenRouter)를 통해 다양한 모델을 활용해볼 수 있다는 것 자체가 큰 장점이다.
결론: ‘o3’는 더 이상 느리고 비싼 모델이 아니다
몇 주 전까지만 해도 o3는 “일상 코딩에 너무 느리고 비쌌다”고 평가했다. 하지만 지금은 둘 다 아니다. 아직 대화형 REPL 수준은 아니지만, ‘뇌 용량 대비 가격’은 완전히 역전됐다. o3는 신뢰성 면에서 클로드보다 앞서며, 이제는 부담 없는 가격에 항상 대기 상태로 두고 쓸 수 있다.
6월의 성탄절, ‘산타 샘(Sam)’은 보조금으로 충전된 FLOPS를 선물했다. 이제 o3를 실행하고, 프롬프트는 간결하게, 과도한 사고는 모델에 맡기면 된다.
Read More from This Article: 칼럼 | 오픈AI의 ‘o3’ 가격 인하, ‘바이브 코더’의 판을 뒤흔들다
Source: News