파이썬은 OK, 문서는 위험···AI 한계 드러낸 MS 연구

19개의 대규모 언어모델(LLM)이 복잡한 다단계 작업을 얼마나 잘 수행하는지를 평가한 실험 결과, 이들 모델은 오류 발생 가능성이 높고 많은 경우 신뢰하기 어려운 것으로 나타났다.

이 같은 결과는 MS 연구진 필립 라반, 토비아스 슈나벨, 제니퍼 네빌이 공동 작성한 사전 공개 논문 ‘LLMs Corrupt Your Documents When You Delegate’에 담겼다. 연구진은 ‘DELEGATE-52’라는 벤치마크를 통해 지식 노동자의 실제 업무 흐름을 모사했으며, 해당 논문은 현재 동료 검토를 진행 중이다.

연구진에 따르면 이 벤치마크는 코딩, 결정학, 계보학, 악보 표기 등 52개 전문 분야에 걸친 310개의 작업 환경으로 구성됐다. 각 환경은 약 1만 5,000 토큰 분량의 실제 문서와, 사용자가 LLM에 요청할 수 있는 5~10개의 복잡한 편집 작업으로 이루어져 있다.

연구진은 논문 초록에서 “현재 LLM은 신뢰할 수 있는 업무 대리자가 아니며, 드물지만 치명적인 오류를 발생시켜 장시간 상호작용 과정에서 문서를 조용히 훼손한다”고 밝혔다.

또한 “최신 고성능 모델(Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4)조차 20번의 반복 작업 이후 평균적으로 문서 내용의 25%를 손실했으며, 전체 모델 평균 성능 저하율은 50%에 달했다”고 설명했다.

벤치마크 실험, 업계에서는 긍정적 평가

인포테크 리서치 그룹(Info-Tech Research Group)의 수석 연구 책임자 브라이언 잭슨은 이번 연구 결과에 대해 “매우 흥미롭다”고 평가했다. 그는 “다양한 업무 영역에서 여러 LLM을 비교 평가하는 방식은 유용한 인사이트를 제공한다”며 “이 같은 벤치마크는 특정 워크플로우 자동화를 위해 에이전트형 AI를 활용하려는 기업 개발자들에게 한계와 가능성을 이해하는 데 도움이 될 것”이라고 말했다.

다만 잭슨은 “이번 결과를 두고, 기초 모델이 20번의 편집 이후 문서 품질을 저하시켰다고 해서 특정 분야에서 자동화에 활용할 수 없다고 결론 내려서는 안 된다”며 “현재 구조에서는 모든 작업을 완전히 수행하기 어렵다는 의미일 뿐”이라고 설명했다.

이어 “정확한 결과가 중요한 기업 환경에서는 이러한 방식으로 접근하지 않는다”며 “오류를 방지하기 위해 더 강력한 가드레일을 갖춘 자동화 흐름을 설계해야 한다”고 강조했다. 그는 “예를 들어 하나의 에이전트가 편집을 수행하고, 다른 에이전트가 오류를 검토하고 수정하는 식으로 역할을 나눌 수 있다”고 덧붙였다.

그레이하운드 리서치(Greyhound Research)의 수석 애널리스트 산치트 비르 고지아는 “이번 마이크로소프트 논문은 기업용 AI 실패를 주장하는 것이 아니라, 위임형 AI에 대한 중요한 경고로 읽어야 한다”고 지적했다. 이어 “현재는 사전 공개 논문인 만큼 신중한 해석이 필요하지만, 핵심 질문은 CIO가 반드시 고민해야 할 문제”라며 “AI가 반복적인 위임 과정에서도 복잡한 작업의 무결성을 유지할 수 있는가”라고 말했다.

고지아는 이번 연구가 기존의 “형식적인 AI 벤치마크”보다 더 의미 있다고 평가했다. 그는 “단순히 한 번의 정답을 맞히는 것이 아니라 실제 작업 결과물을 검증한다는 점이 다르다”며 “되돌릴 수 있는 편집 작업, 도메인별 평가자, 그리고 반복 편집 후 문서가 원형을 유지하는지를 확인하는 ‘라운드트립’ 방식이 활용됐다”고 설명했다.

이어 “하지만 많은 경우 문서는 원래 상태로 돌아오지 못했다”며 “핵심은 환각 문제가 아니라 결과물 자체의 무결성 문제”라고 강조했다.

“AI, 아직 신뢰하기엔 이르다”

고지아는 이번 연구의 핵심 결과를 두고 “불편하지만 외면할 수 없는 사실”이라고 평가했다. 그는 “가장 성능이 뛰어난 모델조차 장시간 워크플로우를 거치면 문서 내용의 약 25%를 훼손하며, 전체 모델 평균 성능 저하율은 약 50%에 이른다”며 “또한 성능은 도메인별로 큰 차이를 보이는데, 대부분의 모델이 ‘준비됐다’고 평가된 분야는 파이썬이 유일하며, 최고 성능 모델도 52개 분야 중 11개에서만 해당 기준을 충족했다”고 설명했다.

고지아는 “AI는 글을 작성하지 못해서 실패하는 것이 아니라, 결과를 유지하지 못하기 때문에 실패한다”고 짚었다.

이어 “이번 연구는 오류가 어떻게 누적되는지를 보여준다는 점에서 특히 의미가 크다”며 “문서가 클수록, 상호작용이 길어질수록, 불필요한 파일이 많을수록 결과는 더 악화된다”고 분석했다. 그는 “짧은 테스트에서는 성능이 좋아 보이지만, 긴 워크플로우에서는 한계가 드러난다”며 “이는 업무가 복잡하고 파일 상태가 불완전하며 맥락이 혼재된 실제 기업 환경과 정확히 맞아떨어진다”고 덧붙였다.

또한 “결론은 AI를 기업 워크플로우에서 배제해야 한다는 것이 아니라, 중요한 결과물을 단독으로 맡기기에는 아직 충분히 신뢰할 수 없다는 것”이라고 강조했다.

고지아는 계약서, 회계 장부, 정책 문서, 코드베이스, 이사회 보고서, 규정 준수 기록 등 중요한 문서를 AI가 편집할 경우 발생하는 책임은 여전히 기업에 있다고 경고했다.

피해 줄이려면 ‘맞춤 학습’과 ‘검증 체계’ 필요

브라이언 잭슨은 이러한 문제를 줄이기 위한 방법으로 추가 학습과 파인튜닝을 제시했다. 그는 “기초 모델은 다양한 작업을 수행하는 데는 강점이 있지만, 특정 작업을 매우 잘 수행하는 데는 한계가 있다”며 “기업이 원하는 수준에 도달하려면 자체 데이터를 활용해 모델을 개선해야 한다”고 말했다.

이어 “이번 MS 논문에서도 일부 멀티 에이전트 구조가 오히려 성능 저하를 심화시킨 사례가 언급된다”며 “성능 저하를 탐지하는 방식 자체가 정교하게 설계돼야 한다”고 설명했다.

또 다른 방법으로는 수학적 검증을 활용한 결정론적 정확도 검증이 제시됐다. 그는 “어떤 분야가 단일 LLM으로 자동화하기 어려운지 파악하면, 개발자는 해당 과정에 추가적인 검증 단계를 설계할 수 있다”고 말했다.

또한 “모델이 완전 오픈소스인지, 혹은 독점형인지에 따라 커스터마이징 유연성이 달라진다”며 “기업 개발자는 이번 결과를 바탕으로 특정 분야에 가장 적합한 LLM을 선택하고, 추가 학습을 통해 성능을 고도화할 수 있다”고 덧붙였다.

“사람은 사라지지 않는다…역할이 바뀔 뿐”

고지아는 이번 연구가 ‘AI에도 여전히 사람이 필요하다’는 단순한 메시지를 넘어선다고 강조했다. 그는 “AI는 인간의 역할을 생산에서 감독, 검증, 책임으로 이동시킨다”며 “이는 많은 기업 경영진이 기대하는 운영 모델과는 상당히 다른 모습”이라고 말했다.

이어 “사람은 사라지지 않는다. 다만 역할이 이동할 뿐”이라며 “인력 감축을 추진하는 기업 입장에서는 불편한 사실일 수 있다”고 지적했다.

특히 “AI 오류를 가장 잘 발견할 수 있는 인력은 조직이 줄이려는 전문가들인 경우가 많다”며 “워크플로우에서 도메인 전문성을 제거하면, AI가 조용히 결과를 훼손했는지를 판단할 수 있는 능력도 함께 사라진다”고 경고했다.

고지아는 “전문성의 가치는 줄어드는 것이 아니라 오히려 더 커진다”며 “고성능 모델은 단순히 내용을 삭제하는 것이 아니라 왜곡하거나 미묘하게 변형시키는 경우가 많기 때문에, 이를 식별하려면 전문적인 검토가 필요하다”고 강조했다.
dl-ciokorea@foundryco.com

Read More from This Article: 파이썬은 OK, 문서는 위험···AI 한계 드러낸 MS 연구
Source: News

파이썬은 OK, 문서는 위험···AI 한계 드러낸 MS 연구

벤치마크 실험, 업계에서는 긍정적 평가

“AI, 아직 신뢰하기엔 이르다”

피해 줄이려면 ‘맞춤 학습’과 ‘검증 체계’ 필요

“사람은 사라지지 않는다…역할이 바뀔 뿐”

Related posts