Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

칼럼 | AI는 생각보다 멍청하다

이 벤치마크는 챗봇이 동일한 질문을 100번 던지고 얼마나 일관된 답변을 제공하는지를 확인한다. 더 자신감 있는 모델은 일관되게 같은 대답을 할 것이라고 가정한다. 

질문은 이전에 오픈AI의 GPT-4 기반 모델들에 어려움을 준 사례를 바탕으로 선별됐다. 특정 질문을 선별했기 때문에 낮은 정확도 점수는 모델의 전반적인 성능을 평가하는 것이 아니라, 특히 어려운 질문에서 모델의 성과를 나타낸다. 

SAT와 유사하게, 심플QA는 누구나 아는 쉬운 정보보다는 학습이 필요한 더 어려운 질문에 초점을 맞춘다. 결과적으로, 오픈AI의 모델들은 이런 질문에서 높은 정확성을 보이지 못했으며, 일명 ‘환각(hallucination)’ 현상을 자주 일으켰다.

오픈AI의 새로운 o1-프리뷰(o1-preview) 모델은 42.7%의 성공률을 기록했고, GPT-4o는 38.2%, 더 작은 GPT-4o-미니(GPT-4o-mini)는 8.6%에 그쳤다. 경쟁사인 앤트로픽의 클로드-3.5-소네트(Claude-3.5-sonnet) 모델은 28.9%로 오픈AI의 최상위 모델보다 낮은 성적을 보였다. 이들 모델은 학점으로 따지면 F를 받았으며, 정답보다 오답이 더 많았다.

심플QA의 질문은 다음과 같이 단순한 내용으로 구성된다. 

  • 타이타닉호가 침몰한 연도는?
  • 미국 초대 대통령은 누구인가?
  • 금의 화학 기호는?
  • 태양계의 행성은 몇 개인가?
  • 프랑스의 수도는?
  • 세계에서 가장 긴 강은?
  • 모나리자를 그린 사람은 누구인가?
  • 첫 번째 해리 포터 책의 제목은?
  • CPU는 무엇의 약자인가?
  • 컴퓨터의 아버지로 불리는 사람은 누구인가?

이들 질문은 대부분 사람이 쉽게 답할 수 있는 간단한 내용이지만, 챗봇에는 문제가 될 수 있다. 이런 도구가 어려움을 겪는 이유는 심플QA 질문이 명확하고, 단일하며, 논란의 여지가 없는 정답을 요구하기 때문이다. 사소한 변형이나 모호한 답변도 실패로 간주된다. 챗봇은 매우 복잡한 주제에 대한 개괄적인 설명에는 강하지만, 단일하고 간결하며 정확한 답변을 제공하는 데는 어려움을 겪는다.

또한, 심플QA 질문은 짧고 자립적(self-contained)이어서 맥락을 많이 제공하지 않는다. 프롬프트를 작성할 때 가능한 많은 맥락을 제공하면 답변의 품질이 향상되는 이유가 여기에 있다.

문제를 더 복잡하게 만드는 것은, LLM이 종종 자신의 정확도를 과대평가한다는 점이다. 심플QA는 챗봇들에 자신이 제공한 답변의 정확도를 어떻게 평가하는지 물었는데, 모델은 일관되게 과장된 성공률을 보고했다. 겉으로는 자신감 있는 것처럼 보이지만 내부적인 확신 수준은 낮을 수 있다.

LLM은 실제로 사고하지 않는다

MIT, 하버드, 코넬 대학의 최근 연구에 따르면, LLM은 인상적인 작업을 수행할 수 있지만, 세상에 대한 일관된 이해가 결여돼 있다. 

연구자들은 뉴욕시와 같은 복잡한 환경에서 LLM이 정확한 운전 경로를 생성할 수 있다는 사실을 확인했다. 그러나 우회로를 도입하자 모델의 성능이 급격히 떨어졌다. 이는 LLM이 사람처럼 환경에 대한 내부적인 인식 구조를 가지고 있지 않기 때문이다. 예를 들어, 뉴욕시의 도로 중 1%만 폐쇄해도 AI의 경로 정확도는 약 100%에서 67%로 떨어졌다.

연구자들은 모델이 통제된 환경에서는 우수한 성능을 보이더라도, 무작위적이거나 다양한 상황에서 필요한 일관된 지식 구조를 갖추고 있지 않을 수 있다고 결론지었다.

AI 환각 문제의 심각성

업계가 직면한 근본적인 문제는 이렇다. 현재 산업계와 개인은 LLM 기반 챗봇과 생성형 AI 도구를 실제 업무에 의존하고 있다. 대중, 심지어 전문가조차도 이 기술이 실제보다 더 신뢰할 만하다고 믿고 있다.

최근의 한 사례로, 오픈AI는 의료 기록 작성에 사용되는 AI 음성 인식 도구 위스퍼(Whisper)를 제공하고 있다. AP 통신에 따르면, 위스퍼의 한 버전은 오픈소스 AI 플랫폼인 허깅페이스(HuggingFace)에서 420만 회 이상 다운로드되었다.

로스앤젤레스 어린이 병원(Children’s Hospital Los Angeles)을 비롯한 약 3만 명의 의료진과 40개의 의료 시스템에서 위스퍼를 기반으로 의료 용어에 최적화된 나블라(Nabla)를 사용하고 있다. 회사는 나블라가 미국과 프랑스에서 약 700만 건의 방문 의료에 사용됐다고 추정했다. 

그러나 다른 AI 도구와 마찬가지로 위스퍼도 환각 문제에서 자유롭지 않다.

한 엔지니어가 위스퍼의 전사에서 환각을 조사한 결과, 검토한 모든 문서에서 환각 문제가 발견됐다. 또 다른 연구자는 위스퍼로 전사한 100시간 분량 중 절반에서 환각 사례를 확인했다.

버지니아 대학교의 교수진은 카네기 멜론 대학교에서 호스팅하는 연구 저장소에 있는 수천 개의 짧은 스니펫을 분석했다. 이들은 환각 사례 중 약 40%가 “유해하거나 우려스러운” 내용이라고 밝혔다.

한 전사에서는 위스퍼가 존재하지 않는 약물인 “hyperactivated antibiotics”라는 이름을 만들어내기도 했다.전문가들은 위스퍼 기반 전사 도구의 사용이 잘못된 진단과 기타 문제를 초래할 가능성을 우려하고 있다.

AI 환각 문제에 대처하는 방법

의사에게 받은 진단에 대해 두 번째 의견을 구하는 것처럼, 챗GPT, 퍼플렉시티 AI(Perplexity AI), 또는 기타 LLM 기반 챗봇에서 얻은 결과에 대해서도 동일한 과정을 거쳐야 한다.

한 도구의 결과를 다른 도구를 통해 확인하는 방법도 있다. 예를 들어, 질문 주제와 관련된 원본 문서(과학 논문, 발표 자료, PDF 등)가 있다면 이를 구글 노트북LM(NotebookLM)에 업로드할 수 있다. 그런 다음 다른 도구의 결과를 복사해 노트북LM에 붙여 넣고 사실 여부를 확인할 수 있다.

또한 원본 소스를 반드시 확인하고, 모든 내용을 사실 검증해야 한다. 챗봇은 학습, 주제 탐구, 문서 요약 등 여러 용도로 유용할 수 있지만, 일반적으로 신뢰할 만한 사실 정보원은 아니다.

특히 AI 챗봇의 결과를 그대로 복사해 자신의 목소리나 사실처럼 사용하는 것은 절대 해서는 안 된다. 챗봇의 언어는 종종 미묘하게 어색하거나, 강조점이 이상한 경우가 많다. 이는 잘못된 정보를 전달할 위험이 있는 오해의 소지가 있는 행위다.

무엇보다도, 사용 중인 챗봇이 환각을 일으키거나, 거짓말을 하거나, 심지어 완전히 허구의 정보를 만들어낼 가능성이 있다. 챗봇은 생각하는 것만큼 똑똑하지 않다.
[email protected]


Read More from This Article: 칼럼 | AI는 생각보다 멍청하다
Source: News

Category: NewsNovember 19, 2024
Tags: art

Post navigation

PreviousPrevious post:“3분기 신규 AI 유니콘, 절반이 생성형 AI 관련” CB인사이츠NextNext post:Build a strong data foundation for AI-driven business growth

Related posts

휴먼컨설팅그룹, HR 솔루션 ‘휴넬’ 업그레이드 발표
May 9, 2025
Epicor expands AI offerings, launches new green initiative
May 9, 2025
MS도 합류··· 구글의 A2A 프로토콜, AI 에이전트 분야의 공용어 될까?
May 9, 2025
오픈AI, 아시아 4국에 데이터 레지던시 도입··· 한국 기업 데이터는 한국 서버에 저장
May 9, 2025
SAS supercharges Viya platform with AI agents, copilots, and synthetic data tools
May 8, 2025
IBM aims to set industry standard for enterprise AI with ITBench SaaS launch
May 8, 2025
Recent Posts
  • 휴먼컨설팅그룹, HR 솔루션 ‘휴넬’ 업그레이드 발표
  • Epicor expands AI offerings, launches new green initiative
  • MS도 합류··· 구글의 A2A 프로토콜, AI 에이전트 분야의 공용어 될까?
  • 오픈AI, 아시아 4국에 데이터 레지던시 도입··· 한국 기업 데이터는 한국 서버에 저장
  • SAS supercharges Viya platform with AI agents, copilots, and synthetic data tools
Recent Comments
    Archives
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.