Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

칼럼 | 적절한 의도와 잘못된 주체…오픈AI ‘심플QA’의 한계

수많은 CIO가 반짝이는 새로운 생성형 AI 툴에서 의미 있는 ROI를 산출하려고 지속적이고 잠재적으로 헛된 노력을 한다. 이런 노력에서 가장 큰 장애물은 ‘환각’ 현상이다. 생성형 AI가 내놓은 분석의 유효성과 유용성을 심각하게 고민하게 만드는 것이 바로 환각이기 때문이다. 

이런 관점에서 오픈AI가 생성형 AI 툴의 객관적 정확성을 판단하기 위한 테스트를 시도한 점은 환영할 만하다. 하지만 심플QA(SimpleQA)라는 이름의 노력은 2가지 측면에서 기업 기술 의사결정권자에게 실망을 안긴다. 

첫째, 오픈AI는 생성형 AI의 알고리즘의 정확성을 판단하는 데 있어 CIO가 신뢰할 수 있는 최후의 주체다. 다른 산업에 비유하면 월마트, 타깃, 아마존이 제작한 쇼핑 사이트 추천 앱과 토요타 혹은 GM이 만든 자동차 평가 툴을 얼마나 신뢰할 수 있을까?  

둘째, 심플QA는 지나치게 단순한 문제에 초점을 맞춘다. 이 테스트는 단 하나의 정답만 존재하는 명확하고 단순한 질문에만 집중한다. 더 중요한 점은 이런 질문에 대한 답은 툴 없이도 쉽게 검증하고 결정할 수 있다는 점이다. 대부분 기업이 생성형 AI 기술을 활용하고자 하는 방식과는 거리가 멀다. 

예를 들어, 엘리 릴리(Eli Lilly)와 화이자(Pfizer)는 새로운 질병 치료용 약물 조합을 찾기 위해 AI를 사용하고자 한다. 나중에 치료법을 테스트한 결과 생성형 AI의 답변이 틀린 것이 드러나면 많은 노력을 낭비하는 셈이다. 코스트코(Costco)와 월그린(Walgreens)는 새로운 매장을 열기 위한 가장 수익성 높은 위치를 찾고자 하고, 보잉(Boeing)은 더 효율적인 항공기 제작 방식을 구상하기를 원한다.

심플QA, 무엇이 문제인가?

우선 오픈AI가 발표한 내용을 살펴보자. 오픈AI 문서에서 발췌한 내용을 보고, 회사의 의견을 더 나은 맥락으로 해석해본다.

“AI가 아직 해결하지 못한 문제는 사실에 맞는 응답을 생성하는 모델을 훈련하는 방법을 알아내는 것이다”. 이를 해석하면, “가끔이라도 정답을 맞히는 AI 모델을 만드는 것이 좋겠다고 생각했다”라는 의미다. 

“더 정확한 응답과 환각이 더 적은 언어 모델은 더 신뢰할 수 있고 더 광범위한 애플리케이션에 사용될 수 있다.” 즉, “우리를 히피라고 불러도 좋지만, 브레인스토밍을 통해 제품이 실제로 작동하면 수익을 개선할 수 있다는 결론을 내렸다”라는 뜻이다. 

다소 경박한 표현은 제쳐두고, 오픈AI가 구체적인 정답을 확인할 수 있는 기본적인 방법으로 생성형 AI의 정확성을 평가하려는 선의의 노력을 기울였다는 점은 인정해야 한다. 하지만 직접 제작하기보다는 신뢰할 수 있는 제3의 컨설팅 또는 분석 기관에 이를 의뢰하고, 오픈AI의 개입을 최소화했다면 더 신뢰를 받을 수 있었을 것이다. 

심플QA가 실용성이 없는 이유

그래도 없는 것보다 있는 것이 낫기 때문에 오픈AI의 말을 들어본다. 오픈AI는 심플QA를 다음과 같이 설명했다. 

“심플QA는 모델이 ‘알고 있는 것을 알고’ 답변을 제공하는지 평가하는 간단하고 목표 지향적인 툴이다. 명확한 하나의 정답이 존재하는 질문으로 구성되며, 각 답변은 ‘정답’, ‘오답’, ‘시도하지 않음’ 중 하나로 평가된다. 이상적인 동작을 하는 모델은 정답을 알고 있다고 확신할 수 없는 문제는 시도하지 않으면서 가능한 한 많은 문제를 정답으로 맞힐 것이다.”

이런 접근 방식이 왜 효과가 있는지(혹은 ‘있을 것 같은지’) 생각해보면, 도움이 되지 않는 이유가 분명해진다. 심플QA는 모델이 이런 질문에 정확하게 답할 수 있다면 다른 질문에도 동일한 정확도로 답할 수 있을 것이라고 가정한다. 그리고 이런 가정에는 심각한 결함이 있다. 생성형 AI는 1만 개의 질문에 정확히 답하다가도, 그다음 50개 질문에서는 환각을 일으킬 수 있다. 환각은 예측 가능성이 전혀 없이 무작위로 발생하기 때문에 심플QA의 테스트는 적합하지 않다. 계산기 같은 툴에서는 작동할 수 있다. 

조금 더 구체적으로 말하자면, 생성형 AI 툴이 심플QA의 모든 답을 맞힌다면 의미가 없을 것이다. 하지만 그 반대는 사실이 아니다. 필자가 테스트한 모델이 심플QA 테스트의 전부 혹은 대부분을 틀린다면, 이 모델은 IT팀에 상당한 시사점을 준다. 기술 관점에서 보면 테스트가 불공평해 보인다. A를 받으면 무시된다. F를 받으면 믿게 된다. 영화 워게임(The War Game)에서 AI 프로그램 조슈아가 말했듯이 “유일한 승리는 게임을 하지 않는 것”이다. 

오픈AI도 이런 문제를 인정하고 있다. 문서에서 “이 연구에서 오픈AI는 언어 모델의 개방성을 회피하기 위해 단일 답변이 존재하는 짧은, 사실 지향적인 질문만 고려했다. 범위를 축소한 것이 중요한 이유는 사실성을 측정하는 작업을 훨씬 더 잘 다룰 수 있기 때문이다. 하지만 이로 인해 짧은 사실성에 대한 개선이 긴 형식의 사실성으로 일반화될 수 있는지가 여전히 미해결로 남는다”라고 밝혔다. 

또한 문서 후반부에서 오픈AI는 “심플QA의 가장 큰 한계는 명확하다. 하나의 검증 가능한 답변이 있는 짧은 사실 지향형 쿼리라는 제한된 설정에서만 사실성을 측정한다는 점이다. 사실에 입각한 짧은 답변을 제공하는 능력이 수많은 사실로 채워진 긴 답변을 작성하는 능력과 상관관계가 있는지는 아직 연구 중이다”라고 덧붙였다. 

심플QA는 4,326개의 “짧고 사실을 묻는 질문”으로 구성돼 있다.

기업에서의 실질적인 한계

심플QA 테스트의 또 다른 구성 요소는 답변 작성자가 아닌 질문 작성자가 더 큰 책임을 진다는 점이다. 예를 들어, “버락과 미셸 오바마가 만난 장소는 어디인가?”와 같은 질문에 대한 답은 ‘시카고’ 또는 ‘법률 회사 시들리 앤 오스틴(the law firm Sidley & Austin)이 모두 가능하다. 따라서 질문자는 “어느 도시에서” 또는 “어느 회사에서”와 같이 범위를 명확히 지정해야 한다. 비슷한 예로 단순히 ‘언제’라고 묻는 대신 ‘몇 년도’ 또는 ‘몇 월 며칠”이라고 물어야 한다. 

이런 방식은 기업 환경에서는 실용성이 떨어진다. 기업 사용자는 질문을 명확하게 정의하지 않는다. “자연어로 질문하면 시스템이 알아서 문맥을 통해 의미를 파악한다”라는 약속을 믿고 도입했기 때문이다. 심플QA 테스트는 이런 점을 고려하지 않는다. 

환각 현상은 그 특성상 정량화할 방법이 없다. 예측 가능하다면, IT팀은 매 75번째 응답을 무시하도록 툴을 프로그래밍하면 된다. 하지만 현재로서는 불가능한 일이다. 환각을 완전히 제거할 방법이 나오기 전까지는 신뢰할 수 없는 답변 문제는 지속될 것이다.
[email protected]


Read More from This Article: 칼럼 | 적절한 의도와 잘못된 주체…오픈AI ‘심플QA’의 한계
Source: News

Category: NewsNovember 15, 2024
Tags: art

Post navigation

PreviousPrevious post:네이버 밴드, 미국 월간 활성 사용자 600만 돌파 “3년 만에 2배 성장”NextNext post:Overcoming AI obstacles: Learnings from AI practitioners in the Enterprise

Related posts

Start small, think big: Scaling AI with confidence
May 9, 2025
CDO and CAIO roles might have a built-in expiration date
May 9, 2025
What CIOs can do to convert AI hype into tangible business outcomes
May 9, 2025
IT Procurement Trends Every CIO Should Watch in 2025
May 9, 2025
‘서둘러 짠 코드가 빚으로 돌아올 때’··· 기술 부채 해결 팁 6가지
May 9, 2025
2025 CIO 현황 보고서 발표··· “CIO, 전략적 AI 조율가로 부상”
May 9, 2025
Recent Posts
  • Start small, think big: Scaling AI with confidence
  • CDO and CAIO roles might have a built-in expiration date
  • What CIOs can do to convert AI hype into tangible business outcomes
  • IT Procurement Trends Every CIO Should Watch in 2025
  • ‘서둘러 짠 코드가 빚으로 돌아올 때’··· 기술 부채 해결 팁 6가지
Recent Comments
    Archives
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.