Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

칼럼 | AI가 드러낼 ‘기업의 데이터 실력’

스마트한 LLM을 구축하려는 경쟁이 치열한 가운데 “더 많은 데이터!”라는 구호가 울려 퍼지고 있다. 심지어 기업 이사회에도 그렇다. 기업들이 AI를 활용해 경쟁 우위를 확보하기 위해 서두르면서, 가능한 한 많은 데이터를 수집하고 활용하려는 움직임이 부산하다.

더 나은 LLM을 구축하기 위해 더 많은 데이터가 필요하다면, AI 비즈니스 솔루션에도 같은 원리가 적용되지 않을까?

단답형 답변은 ‘아니오’다. AI에 데이터를 무분별하게 쏟아붓는 것은 단기적 시각이다. 대신 기업은 기존 데이터의 한계를 이해하고, AI 솔루션 구동을 위한 양질의 데이터를 확보하고 활용하기 위한 단계를 이해해야 한다. 데이터의 시대가 도래했으며, 기업은 데이터의 양뿐 아니라 품질에도 주의해야 한다.

부실한 데이터 관행

AI의 등장으로 기업들은 대규모 데이터를 저장, 유지보수, 활용하는 방식에 대해 훨씬 더 깊이 고민해야 하는 상황이다. AI 솔루션을 도입할 때 기업이 직면하는 현실 중 하나는 LLM이나 SLM에 데이터가 일단 투입되면 되돌리기 어렵다는 점이다.

전통적으로 대규모 데이터를 다루는 기업들은 데이터 레이크를 사용해 데이터를 저장하고 처리했다. 그러나 이 과정에서 데이터 소스의 관리, 최신 업데이트, 데이터 무결성을 보장하기 위한 기타 거버넌스 조치 등은 상대적으로 부실했다.

이러한 데이터 저장 관행이 오늘날 기업들에게 문제를 일으킨다. 왜냐하면 LLM을 훈련하는 데 오래된 또는 부정확한 데이터를 사용하면 그 오류가 모델에 내재되기 때문이다. 모델 자체가 환각을 일으키는 것이 아니라, 모델을 훈련시킨 데이터 자체부터 문제인 셈이다.

또 하나의 우려스러운 현실은 데이터가 LLM의 블랙박스 내에 존재하기 때문에, 답변이 잘못되었다는 것을 알기 어렵다는 점이다. 답변을 비교할 다른 자료가 없다면, 사용자는 답변을 곧이곧대로 받아들이기 쉽다. 즉 AI 구동에 더 많은 데이터가 필요할 수 있지만, 데이터가 잘못되었다면 AI 구동이 무의미해질 수 있다.

오늘날의 과제

현재 비즈니스 데이터에는 다음과 같은 주요 도전 과제가 있다.

1. 데이터 출처

데이터 레이크에 대규모 데이터를 저장하는 시도는 기업 데이터에 대한 불확실성을 초래했다. 이 데이터는 누가 생성했을까? 어디서 왔을까? 마지막으로 업데이트된 시점은 언제인가? 신뢰할 수 있는 출처인가? 데이터 세트의 출처를 추적하는 것은 데이터를 신뢰하고 활용하기 위한 필수적인 첫 번째 단계다.

2. 데이터 분류

데이터 레이크, 또는 각종 연결성이 강조된 기법으로 데이터가 저장됨에 따라 또 다른 도전 과제가 발생한다. 바로 분류다. 특정 데이터에 접근할 수 있는 사람은 누구인가? 모든 데이터가 모든 사람에게 개방되어서는 안 된다. 데이터는 적절히 분류되어야 하며, 이러한 분류 카테고리와 그에 따른 제한 사항이 데이터가 통합되거나 활용될 때 유지되어야 한다.

3. 안정성

데이터는 또한 노후화된다. 예를 들어, 신규 직원 채용을 위한 업무 요청서를 작성하는 특정 프로세스를 9년간 사용해 왔지만 지난해 프로세스를 개정했다고 가정해본다. 10년 동안의 데이터를 모델 훈련에 사용한 후 업무 요청서를 어떻게 열어야 하는지 묻는다면, 대부분의 경우 잘못된 답변이 나올 것이다. 왜냐하면 대부분의 데이터가 오래되었기 때문이다.

상당량의 데이터는 일시적이다. 예를 들어 센서에서 데이터를 수집한다면, 센서 측정값에 따라 데이터를 얼마나 자주 갱신해야 하는지 이해해야 한다. 이른바 데이터 안정성(data stability) 이슈다. 지속적으로 변하는 데이터가 다른 결과를 초래할 수 있기 때문이다.

이는 더 많은 데이터가 항상 더 나은 것은 아니라는 명확한 예시다. 주요 프로세스가 도중에 변경된 10년 분량의 데이터는 현재 프로세스를 정확히 반영하는 작은 규모의 데이터보다 가치가 낮다.

4. 편향의 재현

AI 모델이 실제를 반영하는 대신 원하는 결과를 반영하도록 훈련될 위험이 있다. 예를 들어, 인사 부서가 AI를 사용하여 채용 후보자를 선별하는 상황을 들어본다. 회사의 기존 데이터를 사용하여 이상적인 후보자의 모습을 모델에 학습시키면, 모델은 연령이나 성별과 관련된 기존 편향을 복제할 수 있다.

모델은 데이터세트의 현실이 아닌 달성하고자 하는 결과에 기반하여 훈련되어야 하며, 이는 데이터와 그 한계를 명확히 이해하는 것에서 시작된다.

문제 있는 데이터의 위험성

문제 있는 데이터를 사용해 LLMs를 훈련하면 심각한 위험이 발생할 수 있다. 환각 현상을 증가시키고 결과에 대한 신뢰를 약화시키는 결과로 이어진다. 부정확한 결과나 원하는 대로 작동하지 않는 시스템이 출현할 수도 있다. 결국 직원들의 시스템 사용 의향이 하락하게 된다.

불량 데이터를 사용하면 평판 손상까지 초래할 수 있다. 고객을 대상으로 하는 도구를 훈련하는 데 데이터를 사용했는데 해당 도구가 성능이 부실하다면 고객은 회사에 대한 신뢰를 잃을 것이다.

손상된 데이터를 회사 관련 보고서를 작성하는 데 사용한다면, 컴플라이언스 문제로 발전할 수도 있다. 또한 데이터가 잘못 분류되면 개인 정보가 노출될 위험이 나타난다. 이러한 모든 시나리오는 재정 및 평판 측면에서 큰 비용 지출로 이어질 수 있다.

지금 가능한 조치

AI 혁명을 활용하기 위해 오늘 바로 다음과 같은 데이터 관리 단계를 수행할 수 있다.

1. 데이터 거버넌스 프로세스 강화

모든 기업에게 강력한 데이터 거버넌스 프로세스가 필요하다. 데이터의 처리, 저장, 업데이트에 대한 규칙을 정의하기 위해 다음과 같은 질문에 답변할 수 있어야 한다.

• 데이터 분류에 대한 책임자는 누구인가?
• 데이터 접근 권한을 관리하는 책임자는 누구인가?
• 해당 데이터의 관리 책임을 지는 사람은 누구인가?
• 최고 데이터 책임자(CDO), 분석 팀, 또는 다른 인력을 지정할 것인가?
• 데이터를 얼마나 오래 보관할 것이며, 그 결정은 누가 내릴 것인가?

AI 솔루션에 기업 데이터를 활용하기에 앞서 이러한 질문을 묻고 답하면 큰 도움이 된다.

2. 컴플라이언스 프로세스 확보

기업은 강력한 거버넌스 프로세스와 동일한 수준의 컴플라이언스 프로세스를 결합해야 한다. 데이터가 선택될 때, 해당 데이터를 제출한 사람이 적절한 거버넌스 검사를 거쳤는지 확인하는 프로세스가 존재하는가?

AI 도구 도입 시점의 관행만으로는 충분하지 않다. 데이터의 무결성을 보장하는 정책과 절차는 데이터가 접근되고 사용되는 모든 곳에 적용되어야 한다. 거버넌스 및 준수 프로세스는 데이터 무결성을 유지하는 데 중심적 역할을 하며, 기업이 축적하는 데이터의 방대한 양을 고려할 때 그 중요성은 더욱 커진다.

브라이언 이스트우드는 다음과 같이 말했다: 오늘날 병원은 평균적으로 매년 약 50페타바이트의 데이터를 생성한다. 이는 의회도서관이 저장한 데이터의 두 배 이상에 달하는 양이다. 매일 생성하는 데이터 용량이 137TB에 달한다.” 데이터가 기업에 필수적이며 빠르게 증가하고 있다면, 이를 보호하고 관리하며 활용하기 위해 명확한 계획과 역할 책임을 수립해야 한다.

3. 데이터를 이해

데이터 사용량의 결정이 보유한 데이터의 양에 따라 이뤄져서는 안 된다. 대신 데이터와 목표를 이해하는 것이 중요하다. AI 초기에는 더 많은 데이터가 더 우수한 LLM을 의미한다는 것이 일반적인 인식이었다. 이후 더 정확한 데이터로 세밀하게 조정된 소규모 언어 모델로 트렌드가 전환되었다. 어떤 접근 방식을 선택할지는 현재 상황에 따라 달라진다. 그러나 데이터와 그 한계를 충분히 이해하지 못한다면 정보에 기반한 결정을 내릴 수 없다.

에이전트 AI의 데이터 관리하기

다음 큰 도전은 에이전틱 AI와 데이터를 어떻게 활용할 것인지다. LLM을 사용하는 AI 에이전트를 활용하는 것이 더 효과적일까, 아니면 각자 SLM을 갖춘 다중 AI 에이전트를 조정하는 단일 마스터 에이전트를 사용하는 것이 더 나을까?

에이전트형 AI가 기업에 가져올 가능성은 매우 흥미롭다. 어떤 접근 방식이 대세가 되든, 에이전트형 AI는 강력한 데이터 거버넌스 및 준수 프로세스에 기반을 두게 될 것이다. 강력한 데이터 무결성은 AI가 진정한 가치를 발휘할 수 있도록 할 것이다.

AI 모델 훈련에 있어 단순히 “더 많은 데이터!”가 미덕인 시대는 지났다. 대신 품질 높은 데이터를 요구해야 한다. 현재 높은 기준을 설정하는 것이 미래에 최적화된 결과를 가져올 것이라는 점을 인식해야 한다.
[email protected]


Read More from This Article: 칼럼 | AI가 드러낼 ‘기업의 데이터 실력’
Source: News

Category: NewsApril 24, 2025
Tags: art

Post navigation

PreviousPrevious post:SAP, 경기 침체 속에서도 실적 상승··· 1분기 매출·이익 모두 증가NextNext post:엔비디아, AI 에이전트 엔진 ‘네모 마이크로서비스’ 공식 출시

Related posts

INE Security Partners with Abadnet Institute for Cybersecurity Training Programs in Saudi Arabia
May 22, 2025
OWASP, AI 에이전트 자동 식별 방안 ‘ANS’ 제시··· 표준화 가능성은?
May 22, 2025
‘CPU 사업 강화에 집중’··· 인텔, 네트워크 사업 매각 검토
May 22, 2025
레드햇, RHEL 10 발표··· “생성형 AI 기반 ‘라이트스피드’ 통합”
May 22, 2025
Galicia, a la vanguardia de la digitalización en salud 
May 22, 2025
I dati sintetici e la linea sottile che divide il successo dal disastro
May 22, 2025
Recent Posts
  • INE Security Partners with Abadnet Institute for Cybersecurity Training Programs in Saudi Arabia
  • OWASP, AI 에이전트 자동 식별 방안 ‘ANS’ 제시··· 표준화 가능성은?
  • ‘CPU 사업 강화에 집중’··· 인텔, 네트워크 사업 매각 검토
  • 레드햇, RHEL 10 발표··· “생성형 AI 기반 ‘라이트스피드’ 통합”
  • Galicia, a la vanguardia de la digitalización en salud 
Recent Comments
    Archives
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.