“모든 데이터가 똑같지는 않다” AI 성패 가를 데이터 전략의 과제

생성형 AI는 거의 모든 산업에서 파괴적 영향력을 키우고 있지만, 최고 수준의 AI 모델과 도구를 쓰는 것만으로는 충분하지 않다. 모든 기업이 비슷한 모델과 도구를 쓰는 상황에서 경쟁우위를 만드는 핵심은 자체 모델을 학습하고 미세 조정하거나 모델에 차별화된 맥락을 제공하는 역량이며, 이런 역량에는 데이터가 필요하다.

코드 베이스와 문서, 변경 로그는 코딩 에이전트를 위한 데이터다. 과거 제안서와 계약서 라이브러리는 작문 어시스턴트의 학습 재료가 된다. 고객 DB와 지원 티켓은 고객 서비스 챗봇의 기반 데이터다. 다만 데이터가 많다고 해서 ‘좋은 데이터’가 되는 것은 아니다.

IT서비스 기업 유니시스(Unisys)의 클라우드·애플리케이션·인프라 솔루션 부문 수석부사장 겸 총괄 책임자 만주 나그라푸르는 “접근 가능한 어떤 데이터든 모델에 연결하기가 너무 쉽다”라며, “지난 3년간 같은 실수가 반복되는 걸 봤다. ‘쓰레기를 넣으면 쓰레기가 나온다’는 오래된 격언은 여전히 유효하다”라고 강조했다.

실제로 보스턴 컨설팅 그룹이 9월에 공개한 설문 조사에서 1,250명의 AI 의사결정권자 중 68%가 ‘고품질 데이터 접근 부족’을 AI 도입의 핵심 장애 요인으로 꼽았다. 10월에 시스코가 8,000명 이상 AI 리더를 대상으로 진행한 조사에서도 AI 에이전트에 필요한 ‘정제되고 중앙화된 데이터’를 실시간으로 통합해 둔 기업은 35%에 그쳤다. IDC는 2027년까지 고품질의 이른바 ‘AI 레디 데이터(AI-ready data)’를 우선순위로 두지 않는 기업은 생성형 AI와 에이전틱 솔루션 확장에 어려움을 겪고, 생산성이 15% 감소할 수 있다고 경고했다.

시맨틱 계층이 무너지는 순간

데이터를 한데 ‘뭉뚱그려’ 모아두면 또 다른 문제가 생긴다. 시맨틱(Semantic) 계층이 혼란스러워진다는 점이다. 여러 소스에서 들어온 데이터는 같은 정보라도 정의와 구조가 제각각일 수 있다. 신규 프로젝트나 인수합병으로 데이터 소스가 늘어날수록 이 문제는 커진다. 특히 ‘고객’처럼 가장 중요한 데이터조차 식별하고 정합성을 유지하기 어렵다는 호소가 많다.

데이터·신용정보 기업 던 앤 브래드스트리트(Dun & Bradstreet)는 지난해 조사에서 절반이 넘는 조직이 AI에 활용하는 데이터의 신뢰성과 품질을 우려한다고 보고했다. 금융 서비스 업종에서는 52%가 ‘데이터 품질 문제’로 AI 프로젝트가 실패했다고 답했고, 2,000명 이상 업계 전문가를 대상으로 12월 설문에서는 44%가 2026년 최대 우려로 ‘데이터 품질’을 꼽았다. 이는 ‘사이버보안’ 다음으로 큰 걱정거리였다.

클라우드 컨설팅 기업 레몬그라스(Lemongrass)의 CTO 이먼 오닐은 “데이터 표준이 서로 충돌하지 않는 곳이 없다. 불일치(mismatch) 하나하나가 리스크이지만, 사람이라면 어떻게든 해결한다”라고 지적했다. 오닐은 AI도 비슷한 방식으로 ‘문제를 우회’하게 만들 수 있지만, 그러려면 문제가 무엇인지 정확히 파악하고 이를 바로잡는 데 시간과 노력을 투입해야 한다고 짚었다. 데이터가 이미 깨끗하더라도 시맨틱 매핑은 필요하고, 데이터가 완벽하지 않다면 정리 작업에 더 많은 시간이 든다는 것이다.

오닐은 “작은 데이터로 시작해 해당 사용례를 제대로 맞추는 게 현실적인 접근”이라며 “그 다음에 확장하는 방식이 성공적인 도입의 모습”이라고 덧붙였다.

관리되지 않고 구조도 없는 데이터

오닐은 기업 정보에 AI를 연결할 때 또 다른 흔한 실수로 ‘비정형 데이터 소스’에 무작정 연결하는 방식을 꼽았다. LLM이 문서, 텍스트, 이미지에서 의미를 뽑아내는 데 강한 건 사실이지만, 모든 문서가 AI의 ‘관심’을 받을 자격이 있는 건 아니라는 지적이다.

예를 들어 문서가 구버전이거나 아직 교정되지 않은 초안이거나 오류가 포함된 버전일 수 있다. 오닐은 “사람들이 늘 겪는 문제다. 원드라이브나 파일 스토리지를 챗봇에 연결하면, ‘버전 2’와 ‘버전 2 최종’을 구분하지 못하는 상황이 생긴다”라고 전했다.

버전 관리는 사람에게도 어렵다. 오닐은 “마이크로소프트는 버전 관리를 도와주지만, 사용자들은 여전히 ‘다른 이름으로 저장’을 반복한다”며 “그 결과 비정형 데이터가 끝없이 늘어난다”고 말했다.

에이전틱 AI와 더 복잡해지는 보안

CIO가 AI 보안을 떠올릴 때 보통은 모델 가드레일, 학습 데이터 보호, RAG 임베딩용 데이터 보호 등을 생각한다. 하지만 챗봇 중심 AI가 에이전틱 AI로 진화하면서 보안 문제는 훨씬 복잡해진다.

예컨대 임직원 급여 DB가 있다고 가정해 보자. 직원이 급여를 문의하면, RAG 방식에서는 전통적인 코드로 필요한 데이터만 추출해 프롬프트에 포함시킨 뒤 AI에 질의한다. 이때 AI는 ‘허용된 정보’만 보게 되고, 나머지 데이터 보호는 전통적인 소프트웨어 스택이 맡는다.

반면 에이전틱 AI 시스템에서는 AI 에이전트가 MCP 서버 등을 통해 DB를 자율적으로 조회할 수 있다. 모든 직원 질문에 답해야 한다는 전제 때문에 에이전트가 전체 임직원 데이터에 접근해야 하고, 그 과정에서 정보가 잘못 흘러들어가지 않도록 막는 일이 큰 과제가 된다. 시스코 조사에 따르면, AI 시스템에 ‘동적이고 세밀한 접근 제어’를 갖춘 기업은 27%에 불과했고, 민감 데이터 보호나 무단 접근 방지에 자신 있다고 답한 비율도 절반을 밑돌았다.

오닐은 데이터 레이크로 모든 데이터를 모으는 방식이 문제를 더 키울 수 있다며, “각 데이터 소스에는 저마다의 보안 모델이 있다. 하지만 이를 블록 스토리지에 쌓아 올리면 그 ‘세분화된 통제’가 사라진다”라고 지적했다. 사후적으로 보안 계층을 덧붙이기보다 원천 데이터 소스에 직접 접근하고 데이터 레이크를 가능한 한 우회하는 전략이 더 현실적일 수 있다는 설명이다.

‘속도전’이 가장 위험한 함정

디지털 트랜스포메이션 컨설팅 기업 서덜랜드 글로벌(Sutherland Global)의 CIO 겸 CDO 더그 길버트는 CIO가 저지르는 1순위 실수로 ‘너무 빨리 가는 것’을 꼽았다. 길버트는 “대부분의 프로젝트가 실패하는 이유다. 속도 경쟁이 과열돼 있다”라고 분석했다.

데이터 이슈를 ‘병목’으로만 보고 건너뛰려 하지만, 사실상 그 모든 것이 큰 리스크로 돌아온다는 경고도 덧붙였다. 길버트는 “AI 프로젝트를 진행하는 많은 조직이 결국 감사를 받게 되고, 그때 가서 전부 다시 해야 할 수 있다”고 말했다. 이어 “데이터를 제대로 갖추는 건 속도를 늦추는 게 아니라, 올바른 인프라를 깔아 혁신 속도를 올리고 감사도 통과하며 컴플라이언스를 확보하는 길”이라고 강조했다.

테스트 역시 시간 낭비로 보기 쉽지만, 빠르게 만들고 나중에 고치는 전략이 항상 최선은 아니라는 지적이다. 길버트는 “빛의 속도로 움직이는 실수의 비용이 얼마인가”라고 반문하며 “나는 언제나 테스트를 먼저 보겠다. 테스트 없이 시장에 나오는 제품이 생각보다 많다”라고 지적했다.

데이터 정리를 돕는 AI

데이터 품질 문제는 사용례가 늘어날수록 더 악화될 것처럼 보인다. 데이터 관리 소프트웨어 기업 에이브포인트(AvePoint)가 10월에 775명의 글로벌 비즈니스 리더를 조사한 보고서에 따르면, 81%는 데이터 관리 또는 데이터 보안 문제로 AI 보조 도구 배포를 이미 미룬 경험이 있다고 답했다. 평균 지연 기간은 6개월이었다. 데이터 규모도 빠르게 불어난다. 응답자의 52%는 기업이 500페타바이트 이상의 데이터를 관리하고 있다고 답했는데, 이는 1년 전 41%에서 크게 늘었다.

그럼에도 AI가 역설적으로 데이터 정리를 더 쉽게 만들 것이라는 분석도 있다. 유니시스의 나글라푸르는 “고객에 대한 360도 뷰를 확보하고, 여러 데이터 소스를 정리하고 조정하는 일이 AI 덕분에 더 쉬워질 것”이라며, “역설적이지만, AI가 모든 걸 돕게 될 것”이라고 표현했다. 이어 “3년 걸릴 디지털 트랜스포메이션도 이제 AI로 12~18개월이면 가능해질 수 있다. AI 도구는 현실에 가까워지고 있고, 변화 속도를 더 끌어올릴 것”이라고 전망했다.
dl-ciokorea@foundryco.com

Read More from This Article: “모든 데이터가 똑같지는 않다” AI 성패 가를 데이터 전략의 과제
Source: News