Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

“학습만큼 망각이 필요”··· IBM이 강조하는 ‘LLM 언러닝’

IBM 리서치의 사이언스 라이터(Science Writer)인 킴 마티노(Kim Martineau)가 ‘LLM에게 잊어버리라고 가르치는 이유’라는 블로그 콘텐츠를 통해 ‘대규모 언어 모델의 언러닝(large language model unlearning)’의 필요성과 중요성을 설명했다. 다음은 이를 요약한 내용이다.

머신 언러닝(Machine Unlearning)은 머신러닝(Machine Learning)의 반대 개념이다. 머신러닝이 다양한 데이터로 인공지능을 학습시켜 사람의 뇌처럼 기억하고 생각할 수 있도록 하는 기반을 만드는 것이라면, 머신 언러닝은 이러한 학습 과정에서 알게 된 정보에서 특정 데이터를 걸러내 이를 사용하지 못하도록 하는 것이다.

이를 테면 거짓, 욕설, 편견 등 잘못되거나 부적절한 데이터를 선별해서 제거해야, 잘못되거나 오해의 소지가 있는 콘텐츠를 생성하는 환각(hallucinating)을 줄일 수 있다. 은어, 속어, 욕설 등 유해한 언어를 걸러내는 것도 중요하다. 타인에게 공개되서는 안 되는 개인 정보나 저작권이 있는 콘텐츠 역시 AI가 학습했더라고 기억해서는 안 되는 정보 범주에 들어간다.

문제는 학습한 데이터에서 이렇게 선택적으로 특정 데이터를 제거하는 것이 쉽지 않다는 것이다. 언어 모델을 학습시킬 때 레이블이 지정된 데이터를 사용하든 인터넷에 있는 데이터를 사용하든, 언어 모델이나 생성형 AI 기반 모델이 학습한 것에서 이를 선택적으로 제거하는 것은 매우 어려운 작업이다.

특히, 대규모 언어 모델이 가진 거대하고 방대한 학습 데이터의 규모는 이를 더욱 힘들게 만든다. 대규모 언어 모델은 테라바이트 규모의 벙댜헌 데이터와 수십 억 개 이상의 가중치 포함하고 있기 때문이다. 언러닝으로 데이터를 제거하는 과정에서 모델 성능이 저하되지 않으면서 의도한 대로 작동하고 있다는 것을 증명하는 것도 쉽지 않은 일이다.

킴 마티노는 “검색 증강 생성(RAG)과 같은 기술은 데이터베이스의 문서에 대한 모델의 응답을 제한함으로써 환각을 줄이는 데 도움이 될 수 있지만, 저작권이 있는 데이터, 개인 정보 또는 기타 책임 문제가 있는 데이터를 제거하는 데는 아무런 도움이 되지 못한다. HAP 탐지기와 기타 도구가 문제가 있는 데이터를 표시하는 데 도움이 될 수 있지만, 이를 제거하려면 모델을 처음부터 다시 학습시켜야 하는 경우가 많기 때문에 비용이 엄청나게 많이 들 수 있다”라고 설명했다.

결국 앞에서 언급한 여러 가지 이유와 온라인 개인정보 보호법에서 강조하는 ‘잊힐 권리’를 충족하려면, 대규모 언어 모델이 잘 학습하는 능력만큼이나 ‘재학습 없이 불필요한 데이터를 삭제하는 능력’이 필요하다. 여기서 핵심은 ‘재학습’을 하지 않는다는 것이다. 재학습에 들어가는 비용과 시간 손실이 만만치 않기 때문이다.

이러한 조건에 가장 가까운 방법으로 대규모 언어 모델의 언러닝을 수행하는 방법으로는 두 가지 전략이 사용되다. 첫째는, 가중치를 조정해 모델이 아키텍처를 변경하는 것이고, 둘째는 모델은 그대로 둔 채 추론 시점에 들어오는 프롬프트를 조정하는 것이다. 가중치 조절은 장기 기억에 영향을 주는 것과 비슷하고, 프롬프트 기반 기술은 작업 기억을 조정하는 것에 가깝다.

IBM 리서치의 AI 보안 및 개인정보 보호 전문가인 나탈리 바라칼도는 “진정한 언러닝은 원치 않는 정보의 흔적을 모두 제거하여 모델이 문제가 되는 질문을 받았을 때 답을 찾지 못하도록 한다. 모욕적인 행동에 대해 ‘언러닝’한 모델은 더 이상 유해하다는 사실을 알지 못한다”고 밝혔다.

언러닝을 통해 원하지 않는 데이터가 삭제되었다면, 그런 데이터로 인한 영향이 사라졌다는 수학적으로 보장(mathematical guarantee)할 수 있어야 한다. 하지만 그러기 위해서는 일반적으로 모델을 재학습해야 하고, 대규모 언어 모델에서 재학습을 수행할 경우 많은 비용이 들어갈 수 있기 때문에 다른 최적화 기술들이 연구되고 있다.

킴 마티노는 “대규모 언어 모델의 언러닝 분야가 발전함에 따라 그 효과를 측정하는 벤치마크가 확산되기 시작했다. 하지만 원치 않는 데이터를 잊어버리는 능력을 측정하는 것은 정확한 과학이 아니다. 연구자들은 정확히 어떤 정보를 잊어버릴지 정의하는 것 외에도 몇 가지 근본적인 문제를 해결하려고 노력하고 있다”라고 전했다.

예를 들면 “많은 모델이 수십억에서 수조 개의 토큰화된 단어로 학습된다. 언러닝 알고리즘이 모든 사례를 모두 포착했는지 어떻게 검증할 수 있을까? 데이터 유형에 따라 다른 검증 기술이 필요할 수도 있고, 개별 데이터 포인트를 학습 해제하는 과정에서 모델이 손실했을 수 있는 개념을 식별하는 것도 연구의 또 다른 초점이다. 모델의 성능을 저해할 수 있는 손실된 지식을 어떻게 식별하고 측정할 수 있을까?” 등이 언러닝 연구의 주요 주제라고 설명했다.

IBM은 이러한 관점에서 오픈소스 AI 모델인 그래나이트(Granite) 기반 대규모 언어 모델에 언러닝을 적용하는 방법을 실험하고 있다. 이 과정에서 언러닝 데이터 필터가 사전 학습이나 정렬 과정에서 원하지 않는 데이터를 거르는 데 효과가 있지만 여전히 문제가 있는 콘텐츠는 빠져나가고 있다.

결국 인공지능이 사람의 지능을 완벽하게 모방하려면 ‘망각’의 기술까지도 사람 수준으로 끌어 올려야 한다. 사람에게는 어렵지 않은 ‘선택적 망각’을 수행하는 것이 머신 언러닝에서는 쉬운 일이 아니다. 사람이나 인공지능이나 잊고 싶은 기억을 잊을 수 없다면, 얻는 것보다 잃는 것이 더 많을 수도 있다. dl-foundryco.com


Read More from This Article: “학습만큼 망각이 필요”··· IBM이 강조하는 ‘LLM 언러닝’
Source: News

Category: NewsOctober 16, 2024
Tags: art

Post navigation

PreviousPrevious post:인텔-AMD, 주요 IT 기업 12곳과 ‘x86 생태계 자문 그룹’ 발족NextNext post:의료 보안의 새로운 취약점··· 스마트 기기와 랜섬웨어 증가

Related posts

CDO and CAIO roles might have a built-in expiration date
May 9, 2025
What CIOs can do to convert AI hype into tangible business outcomes
May 9, 2025
IT Procurement Trends Every CIO Should Watch in 2025
May 9, 2025
‘서둘러 짠 코드가 빚으로 돌아올 때’··· 기술 부채 해결 팁 6가지
May 9, 2025
2025 CIO 현황 보고서 발표··· “CIO, 전략적 AI 조율가로 부상”
May 9, 2025
독일 IT 사용자 협회, EU 집행위에 브로드컴 민원 제기··· “심각한 경쟁 위반”
May 9, 2025
Recent Posts
  • CDO and CAIO roles might have a built-in expiration date
  • What CIOs can do to convert AI hype into tangible business outcomes
  • IT Procurement Trends Every CIO Should Watch in 2025
  • ‘서둘러 짠 코드가 빚으로 돌아올 때’··· 기술 부채 해결 팁 6가지
  • 2025 CIO 현황 보고서 발표··· “CIO, 전략적 AI 조율가로 부상”
Recent Comments
    Archives
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.