AI 성능을 평가할 때 벤치마크는 핵심적인 기준이 된다. 모델의 신뢰성, 정확도, 활용 범위 등 다양한 측면에서 장단점을 파악할 수 있는 수단이기 때문이다. 하지만 메타가 새로운 생성형AI 모델인 라마4(Llama 4)의 성능을 부풀렸다는 의혹이 제기되면서, 최근 AI 벤치마크 결과의 정확성과 타당성에 대한 경각심이 커지고 있다. 특히 모델 개발자가 특정 벤치마크에 유리하도록 알고리즘을 조정하는 경우가 많아, 그 신뢰성에 의문이 제기되고 있다.
IDC의 AI 및 자동화 부문 리서치 부사장 데이브 슈브멜은 “조직은 각자 모델 성능 주장을 직접 검증해야 한다”라며 “실제 운영 환경이나 데이터, 프롬프트의 차이만으로도 결과는 충분히 달라질 수 있다”라고 설명했다.
결과 조작 가능성에도 IT 구매자는 여전히 주목
지난 토요일, 메타는 새로운 라마 모델 ‘스카우트(Scout)’와 ‘매버릭(Maverick)’을 기습적으로 공개하며, 매버릭이 GPT-4o와 제미나이 2.0 플래시(Gemini 2.0 Flash)를 앞서고, 딥시크 v3(DeepSeek v3)와 유사한 수준의 추론 및 코딩 성능을 보였다고 주장했다. 실제로 매버릭은 AI 모델 성능을 비교하는 온라인 플랫폼 LM아레나(LMArena)에서 제미나이 2.5 프로(Gemini 2.5 Pro)에 이어 2위를 차지했다.
메타는 스카우트가 제미나이 2.0 플래시-라이트(Gemini 2.0 Flash-Lite), 젬마3(Gemma 3), 미스트랄 3.1(Mistral 3.1)보다 다양한 벤치마크에서 우수한 성과를 거뒀다고도 밝혔다.
그런데 외부 연구자들이 라마 공식 웹사이트의 주석을 확인한 결과, 메타가 일반에 공개된 버전이 아닌 대화에 특화된 실험용 매버릭 버전을 벤치마크에 사용했다는 사실이 알려졌다. 이 실험용 모델은 대화형 성능을 강화한 것으로, 일반에 공개된 버전과 다르다. 메타는 이에 대해 문제가 없다는 입장을 밝힌 상태다.
이처럼 벤더가 벤치마크 결과를 의도적으로 왜곡하는 사례는 처음이 아니다. 전문가들은 이 같은 왜곡이 있다고 해도, 기업의 AI 도입 판단에는 큰 영향을 주지 않을 것으로 보고 있다.
컨설팅 기업 애멀감 인사이트(Amalgam Insights)의 CEO이자 수석 애널리스트인 현 박은 “모든 벤더는 벤치마크 결과를 자사 기술의 우수성을 드러내는 수단으로 활용하려 한다”라며 “특히 불투명한 방식으로 벤치마크를 조작하려는 경우 의심을 살 수밖에 없다”라고 언급했다.
다만 박은 주요 생성형AI 벤더가 경쟁사 수준에 부합하거나 추월할 가능성을 보이는 한, 이런 이슈가 장기적으로 큰 반향을 일으킬 가능성은 낮다고 분석했다. 그는 “기초 모델 시장은 매우 빠르게 변화하고 있으며, 성능이나 생산성 면에서의 비약적인 발전이 매달 혹은 그보다 더 짧은 주기로 발생하고 있다”라며 “솔직히 말해, 지금의 모델 벤치마크 순위는 6개월에서 1년 안에 의미가 없어질 것”이라고 전했다.
AI 검토 시 기업의 실환경 테스트가 더 중요
모델이 급증하고 있는 현재, 조직이나 개발자가 AI가 자사 환경에서 어떻게 작동할지를 이해하는 것은 매우 중요하다. 벤치마크는 이런 이해를 돕는 첫걸음이 될 수 있다. 슈브멜은 “AI 모델을 활용한 애플리케이션이 복잡해지면서 성능 중요도가 더욱 커지고 있으며, 벤치마크는 시작점으로서 유용하다”라고 말했다. 그러나 그는 “궁극적으로는 각 기업의 데이터, 프롬프트, 운영 환경에서의 테스트가 진짜 벤치마크가 된다”라고 강조했다.
박은 벤치마크가 실제 환경을 얼마나 정확히 시뮬레이션했는지가 관건이라고 설명했다. 서버나 데이터베이스처럼 정형화된 기술에서는 벤치마크가 고부하 환경이나 특정 연산 조건을 비교적 정확히 반영할 수 있다. 그러나 생성형AI의 목표는 특정 규칙이나 작업을 수행하는 것이 아니라 결과 중심인 경우가 많아, 단순한 벤치마크로는 한계가 있다.
예를 들어, 고객 문의에 답하는 것과 실제 고객 요청을 해결하는 것은 완전히 다른 문제다. AI가 전자에는 강점을 보일 수 있지만, 후자의 경우 복잡한 사고 흐름(chain-of-thought, CoT)을 요구하기 때문에 어려움을 겪을 수 있다.
박은 모델을 평가할 때, 벤치마크에서 수행한 과제가 실제 비즈니스 프로세스와 결과를 반영하는지 먼저 고려해야 한다고 말했다. 벤치마크가 실제 업무 흐름이나 최종 결과까지 반영하지 못하고 중간 과정만 평가했다면, 그 결과만으로 모델의 가치를 판단하기는 어렵다. 기업은 자사의 실제 업무 흐름을 명확히 파악한 뒤, 벤치마크 결과가 해당 업무에 어떻게 적용될 수 있는지를 연결해 이해해야 한다.
또한 실제 벤치마크 환경이 기업의 운영 환경과 유사한지 확인하고, 네트워크, 컴퓨팅, 저장소, 입력값과 출력값, 문맥 보강 방식 등 차이점을 명확히 문서화해야 한다고 설명했다.
박은 “벤치마크에 사용된 모델이 미리보기나 실제 서비스에서 제공되는 모델과 동일한지도 반드시 확인해야 한다”라며 “일부 모델은 벤치마크를 위해 최적화돼 있지만, 그 과정에서 얼마나 많은 비용과 시간이 투입됐는지는 명시되지 않는 경우가 많다”라고 분석했다.
결국 박은 “기업이 AI 모델을 제대로 비교 평가하려면 벤치마크를 출발점으로 삼되, 자사 온프레미스나 클라우드 환경에서 실제 상황에 맞춰 시나리오 테스트를 해야 한다”라고 강조했다.
[email protected]
Read More from This Article: AI 성능 평가, 벤치마크만으론 부족하다··· 메타 라마4 논란이 보여준 실사용 검증의 필요성
Source: News