“LLM이 LLM을 채점” AI 에이전트, 배포보다 비싼 ‘평가’의 함정

AI 에이전트를 배포한 기업은 성능을 미세 조정하는 과정에서 비용 때문에 충격을 받을지도 모른다. 몇몇 설문조사에 따르면, 기업의 약 80%가 이미 AI 에이전트를 배포했지만, 대부분 기업은 에이전트를 학습시키고 결과물을 평가하는 데 드는 비용 구조를 이해하지 못하고 있다. 전문가들은 이 때문에 예상을 크게 뛰어넘는 비용이 발생할 수 있다고 경고한다.

AI 옵저버빌리티 기업 몬테 카를로(Monte Carlo)의 CTO 리오르 가비시는 많은 조직이 “배포 후 혼란”을 막기 위해 에이전트 문제를 사전에 잡아내는 최적의 방법을 여전히 실험 중이라고 전했다.

특히, 많은 기업이 LLM 기반 에이전트의 결과물을 검증하기 위해 ‘두 번째’ LLM을 동원하면서, 에이전트 테스트가 전통적인 소프트웨어 테스트보다 몇 배 이상 비싸질 수 있다. 이른바 ‘LLM을 심판으로 쓰는 방식(LLM-as-a-judge)’은 에이전트를 돌리는 비용보다 평가 비용이 더 커질 때도 있다. 장시간 LLM을 호출한 비용이 누적되기 때문이다.

가비시는 “이런 출력물을 테스트하거나 모니터링하는 게 까다롭다”라며, “사람들은 기본적으로 또 다른 LLM에 다양한 기준으로 LLM의 성능을 채점하게 하는데, 그 기준은 사용례마다 천차만별”이라고 지적했다.

몬테 카를로 역시 이 문제를 겪었다. LLM 기반 평가를 며칠 동안 계속 돌렸다가 수만 달러짜리 청구서를 받은 것이다. 가비시는 “LLM 호출 한 번의 비용은 전통적인 소프트웨어에서 우리가 하던 어떤 작업보다도 한 자릿수 차이로 비싸다”라고 강조했다.

LLM이 LLM을 채점하는 구조의 함정

AI 에이전트의 출력물을 검토하는 데 보조 LLM을 쓰는 방식은, 보조 LLM의 판단이 정확하다는 전제가 필요하기 때문에 그 자체로도 문제가 될 수 있다. 정확성에 대한 의문이 커지면, 조직이 결과를 검증하려고 테스트를 반복 실행하면서 비용이 더 늘어날 수 있다.

가비시는 “이런 점검은 비결정적이고, 반복 실행해도 동일한 결과를 보장하지 않는다”라며, “주의하지 않으면 실행할 때마다 다른 답이 나오기도 해, ‘통과/실패’가 명확한 전통적인 소프트웨어 모니터링·테스트와는 다르다”라고 설명했다.

AI 생성 콘텐츠 서비스 업체 블로그버스터(BlogBuster)의 AI R&D 총괄 러셀 트윌리기어는 에이전트 평가 비용이 에이전트의 복잡도에 따라 극단적으로 달라질 수 있다고 지적했다. 범위가 좁고 규모가 작은 에이전트는 평가 비용이 수천 달러 수준에서 끝날 수 있지만, 더 복잡한 에이전트는 평가 비용이 수만 달러까지 뛸 수 있다는 것이다.

트윌리기어는 “테스트 실행, 로깅, 사람의 리뷰까지 모두 비용으로 잡아야 한다”라며, “변경이 한 번 생길 때마다 평가를 다시 돌려야 하고, 그러면 비용이 빠르게 불어난다”라고 덧붙였다.

AI 전문가들에 따르면, 에이전트 평가는 단일 지표가 아니라 여러 지표를 동시에 본다. 에이전트의 추론, 실행 품질, 데이터 유출 가능성, 응답 톤, 프라이버시, 심지어 도덕적 정렬까지 포함할 수 있다.

AI 컨설팅 업체 클리어리드 AI 컨설팅(Clearlead AI Consulting)의 설립자 폴 퍼거슨은 좋은 평가는 반드시 사람의 개입을 포함해야 하며, 에이전트 출력물을 확인할 도메인 전문가가 필요하다고 말한다. 특히, 모호한 사용례에서 ‘정답’의 정의 자체가 어렵다는 점을 핵심 난제로 꼽았다.

퍼거슨은 “대부분 IT 리더는 컴퓨팅 시간, API 호출, 엔지니어링 투입 시간 같은 눈에 보이는 비용은 예산에 반영하지만, ‘그라운드 트루스(ground truth)’를 정의하기 위한 사람의 판단 비용을 놓친다”라고 지적했다.

이어 “에이전트가 고객 문의를 제대로 처리했는지, 적절한 답변을 작성했는지 평가하려면 도메인 전문가가 수작업으로 결과를 채점하고 ‘정답이 어떤 모습인지’에 대한 합의를 만들어야 한다”라며, “이런 인간의 보정 계층은 비싸고, 흔히 간과된다”라고 설명했다.

코드 컴파일과 유닛 테스트 통과 여부를 보는 전통적 소프트웨어 평가는 비교적 명확하지만, “이 데이터를 이해하도록 도와달라”, “이 고객에게 답장을 작성해 달라” 같은 모호한 요청에서는 무엇이 ‘정답’인지 정의하는 것 자체가 어렵다. 경우에 따라 사람끼리도 의견이 갈릴 수 있다.

에이전트 평가 비용을 줄이는 방법

Redcar.ai의 소프트웨어 엔지니어 청위 장은 충격적인 에이전트 평가 비용은 에이전트 자체의 컴퓨팅 비용보다, 테스트가 비결정적이어서 생기는 “증폭 효과”에서 나온다고 분석했다. 장은 에이전트 학습을 신규 직원 교육에 비유하며, 둘 다 ‘기분’이 있을 수 있다고 표현했다.

장은 “프롬프트를 한 번만 테스트해선 안 된다. 서로 다른 시나리오에서 50번은 돌려 에이전트가 버티는지, 환각을 내는지 봐야 한다”라며, “프롬프트를 조금 손보거나 모델을 바꾸는 순간, 테스트 한 번이 아니라 수천 번 시뮬레이션을 다시 돌리는 일이 된다”라고 설명했다.

장에 따르면, 에이전트 평가는 저비용 유닛 테스트, 다른 AI 모델을 활용한 합성 채점, 레드팀 시뮬레이션, 그리고 고비용 ‘휴먼 섀도잉(human shadowing)’ 등 다양한 방식으로 수행할 수 있다. 휴먼 섀도잉은 사람이 1주일 이상 에이전트와 나란히 붙어 실제 운용 환경에서 출력을 점검하는 형태다.

다만 조직이 평가 비용을 줄이려 “다른 AI 모델만으로 채점”하는 지름길을 찾는 경우가 많은데, 이런 접근은 권하지 않는다.

장은 “평가는 일종의 보험”이라며, “평가를 대충 넘기는 건 기술 부채를 뒤로 미루는 것이고, VIP 고객 앞에서 에이전트가 환각을 일으킬 때 이자까지 얹어 치르게 된다”라고 지적했다. 이어 “오늘 평가 비용 1만 달러를 아낄 수는 있지만, 금융 에이전트가 거래 처리에서 환각을 일으키면 1만 달러는 하찮은 수준이 될 것”이라고 덧붙였다. ([Wise][1])

비용을 아끼려면 테스트를 줄이기보다 에이전트의 범위를 좁히는 편이 낫다. 장은 “사람의 리뷰나 레드팀 같은 비싼 단계를 건너뛰면, 결국 확률에만 의존하게 된다”라고 경고했다.

퍼거슨은 평가 비용을 통제하려면 먼저 정답·오답이 명확한 사용례(예: 코드 컴파일)부터 시작한 뒤, 주관성이 큰 시나리오로 확장하라고 조언했다. 또한 랭스미스(LangSmith), 프롬프트레이어(PromptLayer), 라가스(Ragas) 같은 LLM 평가 프레임워크를 활용하고, 처음부터 자체 도구를 새로 만들려 하지 말라고도 했다.

테스트를 가능한 한 빨리 시작해야 한다고도 강조했다. 퍼거슨은 “프로덕션 이후에 평가 체계를 뒤늦게 덧대는 것보다 프로덕션 전에 평가를 구축하는 편이 훨씬 저렴하다”라고 말했다.

가비시는 평가 비용을 줄이기 위한 추가 방법으로 평가 예산 상한을 설정하고, 에이전트 테스트에 사용할 LLM을 고를 때도 충분히 검토하라고 조언했다. 가비시는 “모델 규모를 상황에 맞게 조정할 수 있다”라며, “최신 최고 성능의 챗GPT를 모든 평가에 쓰는 선택도 가능하지만, 아마 그러면 안 될 것”이라고 덧붙였다.
dl-ciokorea@foundryco.com

Read More from This Article: “LLM이 LLM을 채점” AI 에이전트, 배포보다 비싼 ‘평가’의 함정
Source: News

“LLM이 LLM을 채점” AI 에이전트, 배포보다 비싼 ‘평가’의 함정

LLM이 LLM을 채점하는 구조의 함정

에이전트 평가 비용을 줄이는 방법

Related posts