스마트한 LLM을 구축하려는 경쟁이 치열한 가운데 “더 많은 데이터!”라는 구호가 울려 퍼지고 있다. 심지어 기업 이사회에도 그렇다. 기업들이 AI를 활용해 경쟁 우위를 확보하기 위해 서두르면서, 가능한 한 많은 데이터를 수집하고 활용하려는 움직임이 부산하다.
더 나은 LLM을 구축하기 위해 더 많은 데이터가 필요하다면, AI 비즈니스 솔루션에도 같은 원리가 적용되지 않을까?
단답형 답변은 ‘아니오’다. AI에 데이터를 무분별하게 쏟아붓는 것은 단기적 시각이다. 대신 기업은 기존 데이터의 한계를 이해하고, AI 솔루션 구동을 위한 양질의 데이터를 확보하고 활용하기 위한 단계를 이해해야 한다. 데이터의 시대가 도래했으며, 기업은 데이터의 양뿐 아니라 품질에도 주의해야 한다.
부실한 데이터 관행
AI의 등장으로 기업들은 대규모 데이터를 저장, 유지보수, 활용하는 방식에 대해 훨씬 더 깊이 고민해야 하는 상황이다. AI 솔루션을 도입할 때 기업이 직면하는 현실 중 하나는 LLM이나 SLM에 데이터가 일단 투입되면 되돌리기 어렵다는 점이다.
전통적으로 대규모 데이터를 다루는 기업들은 데이터 레이크를 사용해 데이터를 저장하고 처리했다. 그러나 이 과정에서 데이터 소스의 관리, 최신 업데이트, 데이터 무결성을 보장하기 위한 기타 거버넌스 조치 등은 상대적으로 부실했다.
이러한 데이터 저장 관행이 오늘날 기업들에게 문제를 일으킨다. 왜냐하면 LLM을 훈련하는 데 오래된 또는 부정확한 데이터를 사용하면 그 오류가 모델에 내재되기 때문이다. 모델 자체가 환각을 일으키는 것이 아니라, 모델을 훈련시킨 데이터 자체부터 문제인 셈이다.
또 하나의 우려스러운 현실은 데이터가 LLM의 블랙박스 내에 존재하기 때문에, 답변이 잘못되었다는 것을 알기 어렵다는 점이다. 답변을 비교할 다른 자료가 없다면, 사용자는 답변을 곧이곧대로 받아들이기 쉽다. 즉 AI 구동에 더 많은 데이터가 필요할 수 있지만, 데이터가 잘못되었다면 AI 구동이 무의미해질 수 있다.
오늘날의 과제
현재 비즈니스 데이터에는 다음과 같은 주요 도전 과제가 있다.
1. 데이터 출처
데이터 레이크에 대규모 데이터를 저장하는 시도는 기업 데이터에 대한 불확실성을 초래했다. 이 데이터는 누가 생성했을까? 어디서 왔을까? 마지막으로 업데이트된 시점은 언제인가? 신뢰할 수 있는 출처인가? 데이터 세트의 출처를 추적하는 것은 데이터를 신뢰하고 활용하기 위한 필수적인 첫 번째 단계다.
2. 데이터 분류
데이터 레이크, 또는 각종 연결성이 강조된 기법으로 데이터가 저장됨에 따라 또 다른 도전 과제가 발생한다. 바로 분류다. 특정 데이터에 접근할 수 있는 사람은 누구인가? 모든 데이터가 모든 사람에게 개방되어서는 안 된다. 데이터는 적절히 분류되어야 하며, 이러한 분류 카테고리와 그에 따른 제한 사항이 데이터가 통합되거나 활용될 때 유지되어야 한다.
3. 안정성
데이터는 또한 노후화된다. 예를 들어, 신규 직원 채용을 위한 업무 요청서를 작성하는 특정 프로세스를 9년간 사용해 왔지만 지난해 프로세스를 개정했다고 가정해본다. 10년 동안의 데이터를 모델 훈련에 사용한 후 업무 요청서를 어떻게 열어야 하는지 묻는다면, 대부분의 경우 잘못된 답변이 나올 것이다. 왜냐하면 대부분의 데이터가 오래되었기 때문이다.
상당량의 데이터는 일시적이다. 예를 들어 센서에서 데이터를 수집한다면, 센서 측정값에 따라 데이터를 얼마나 자주 갱신해야 하는지 이해해야 한다. 이른바 데이터 안정성(data stability) 이슈다. 지속적으로 변하는 데이터가 다른 결과를 초래할 수 있기 때문이다.
이는 더 많은 데이터가 항상 더 나은 것은 아니라는 명확한 예시다. 주요 프로세스가 도중에 변경된 10년 분량의 데이터는 현재 프로세스를 정확히 반영하는 작은 규모의 데이터보다 가치가 낮다.
4. 편향의 재현
AI 모델이 실제를 반영하는 대신 원하는 결과를 반영하도록 훈련될 위험이 있다. 예를 들어, 인사 부서가 AI를 사용하여 채용 후보자를 선별하는 상황을 들어본다. 회사의 기존 데이터를 사용하여 이상적인 후보자의 모습을 모델에 학습시키면, 모델은 연령이나 성별과 관련된 기존 편향을 복제할 수 있다.
모델은 데이터세트의 현실이 아닌 달성하고자 하는 결과에 기반하여 훈련되어야 하며, 이는 데이터와 그 한계를 명확히 이해하는 것에서 시작된다.
문제 있는 데이터의 위험성
문제 있는 데이터를 사용해 LLMs를 훈련하면 심각한 위험이 발생할 수 있다. 환각 현상을 증가시키고 결과에 대한 신뢰를 약화시키는 결과로 이어진다. 부정확한 결과나 원하는 대로 작동하지 않는 시스템이 출현할 수도 있다. 결국 직원들의 시스템 사용 의향이 하락하게 된다.
불량 데이터를 사용하면 평판 손상까지 초래할 수 있다. 고객을 대상으로 하는 도구를 훈련하는 데 데이터를 사용했는데 해당 도구가 성능이 부실하다면 고객은 회사에 대한 신뢰를 잃을 것이다.
손상된 데이터를 회사 관련 보고서를 작성하는 데 사용한다면, 컴플라이언스 문제로 발전할 수도 있다. 또한 데이터가 잘못 분류되면 개인 정보가 노출될 위험이 나타난다. 이러한 모든 시나리오는 재정 및 평판 측면에서 큰 비용 지출로 이어질 수 있다.
지금 가능한 조치
AI 혁명을 활용하기 위해 오늘 바로 다음과 같은 데이터 관리 단계를 수행할 수 있다.
1. 데이터 거버넌스 프로세스 강화
모든 기업에게 강력한 데이터 거버넌스 프로세스가 필요하다. 데이터의 처리, 저장, 업데이트에 대한 규칙을 정의하기 위해 다음과 같은 질문에 답변할 수 있어야 한다.
• 데이터 분류에 대한 책임자는 누구인가?
• 데이터 접근 권한을 관리하는 책임자는 누구인가?
• 해당 데이터의 관리 책임을 지는 사람은 누구인가?
• 최고 데이터 책임자(CDO), 분석 팀, 또는 다른 인력을 지정할 것인가?
• 데이터를 얼마나 오래 보관할 것이며, 그 결정은 누가 내릴 것인가?
AI 솔루션에 기업 데이터를 활용하기에 앞서 이러한 질문을 묻고 답하면 큰 도움이 된다.
2. 컴플라이언스 프로세스 확보
기업은 강력한 거버넌스 프로세스와 동일한 수준의 컴플라이언스 프로세스를 결합해야 한다. 데이터가 선택될 때, 해당 데이터를 제출한 사람이 적절한 거버넌스 검사를 거쳤는지 확인하는 프로세스가 존재하는가?
AI 도구 도입 시점의 관행만으로는 충분하지 않다. 데이터의 무결성을 보장하는 정책과 절차는 데이터가 접근되고 사용되는 모든 곳에 적용되어야 한다. 거버넌스 및 준수 프로세스는 데이터 무결성을 유지하는 데 중심적 역할을 하며, 기업이 축적하는 데이터의 방대한 양을 고려할 때 그 중요성은 더욱 커진다.
브라이언 이스트우드는 다음과 같이 말했다: 오늘날 병원은 평균적으로 매년 약 50페타바이트의 데이터를 생성한다. 이는 의회도서관이 저장한 데이터의 두 배 이상에 달하는 양이다. 매일 생성하는 데이터 용량이 137TB에 달한다.” 데이터가 기업에 필수적이며 빠르게 증가하고 있다면, 이를 보호하고 관리하며 활용하기 위해 명확한 계획과 역할 책임을 수립해야 한다.
3. 데이터를 이해
데이터 사용량의 결정이 보유한 데이터의 양에 따라 이뤄져서는 안 된다. 대신 데이터와 목표를 이해하는 것이 중요하다. AI 초기에는 더 많은 데이터가 더 우수한 LLM을 의미한다는 것이 일반적인 인식이었다. 이후 더 정확한 데이터로 세밀하게 조정된 소규모 언어 모델로 트렌드가 전환되었다. 어떤 접근 방식을 선택할지는 현재 상황에 따라 달라진다. 그러나 데이터와 그 한계를 충분히 이해하지 못한다면 정보에 기반한 결정을 내릴 수 없다.
에이전트 AI의 데이터 관리하기
다음 큰 도전은 에이전틱 AI와 데이터를 어떻게 활용할 것인지다. LLM을 사용하는 AI 에이전트를 활용하는 것이 더 효과적일까, 아니면 각자 SLM을 갖춘 다중 AI 에이전트를 조정하는 단일 마스터 에이전트를 사용하는 것이 더 나을까?
에이전트형 AI가 기업에 가져올 가능성은 매우 흥미롭다. 어떤 접근 방식이 대세가 되든, 에이전트형 AI는 강력한 데이터 거버넌스 및 준수 프로세스에 기반을 두게 될 것이다. 강력한 데이터 무결성은 AI가 진정한 가치를 발휘할 수 있도록 할 것이다.
AI 모델 훈련에 있어 단순히 “더 많은 데이터!”가 미덕인 시대는 지났다. 대신 품질 높은 데이터를 요구해야 한다. 현재 높은 기준을 설정하는 것이 미래에 최적화된 결과를 가져올 것이라는 점을 인식해야 한다.
[email protected]
Read More from This Article: 칼럼 | AI가 드러낼 ‘기업의 데이터 실력’
Source: News