IBM의 데이터 담당 부사장 겸 최고데이터책임자(CDO)인 에드 러블리는 혁신적인 AI 전략을 구축하려는 조직이라면 무엇보다 경쟁력 있는 데이터 전략을 먼저 갖춰야 한다고 조언한다. AI를 확장하는 관점에서 보면 데이터는 근간이기 때문이다.
하지만 러블리에 따르면, 실제로 AI 목표에 부합하는 데이터 아키텍처를 갖춘 조직은 많지 않다. 대신 일관된 데이터 표준에 따라 관리되지 않는 사일로형 데이터가 여전히 존재한다. 이는 전사적 인공지능 배포를 지원하기보다는 특정 시점의 의사결정을 제공하기 위해 애플리케이션 단위로 IT 환경을 구축해 온 기존 엔터프라이즈 데이터 전략의 결과다.
IBM이 2025년에 발표한 연구 보고서 ‘AI 야망은 커지고 있지만, 기업 데이터는 준비됐는가?’는 많은 조직이 데이터 문제로 어려움을 겪고 있음을 보여준다. 이 조사에 따르면 전 세계 1,700명의 CDO 가운데, 데이터가 새로운 AI 기반 수익원을 지원할 수 있다고 확신한 응답자는 26%에 그쳤다.
러블리는 해법으로 데이터가 생성되는 위치와 관계없이 동일한 표준과 거버넌스, 메타데이터를 적용하는 통합 전사 데이터 아키텍처가 필요하다고 설명했다.
데이터 전략을 업데이트해야 한다는 인식은 러블리만의 견해가 아니다.
IDC 글로벌 데이터스피어 및 글로벌 스토리지스피어 연구 프로그램의 연구 매니저이자 2025년 보고서 ‘생성형 AI 시대의 콘텐츠 생성’ 공동 저자인 애덤 라이트는 “AI는 데이터의 활용 방식뿐 아니라 활용 목적과 가치가 창출되는 지점까지 바꾸고 있다”라며 “대부분의 조직은 이러한 변화에 맞춰 데이터 전략을 현대화할 필요가 있다”라고 분석했다.
라이트는 “기존 데이터 전략은 보고, BI, 자동화를 위해 설계됐지만, AI는 반복적이고 모델 중심적인 워크플로를 구동할 수 있는 훨씬 더 역동적이고 세분화된 실시간 데이터 파이프라인을 요구한다”라며 “이는 정적인 데이터 거버넌스에서 벗어나 지속적인 데이터 품질 모니터링, 강화된 메타데이터와 계보 추적, 그리고 일시적·캐시·저장 데이터가 혼재된 AI 특성을 반영한 보존 정책으로의 전환을 의미한다”라고 설명했다.
이어 그는 “AI 시대에는 모든 데이터를 수집하고 저장하려는 사고방식에서 벗어나, 비용과 위험, 그리고 달성하려는 구체적인 AI 성과를 균형 있게 고려하는 목적 지향적 데이터 전략으로 진화해야 한다”라고 덧붙였다.
성숙도가 높은 데이터 기반
대부분의 조직은 아직 이러한 목표와 거리가 멀다. IDC의 애덤 라이트는 “많은 조직이 AI 활용 사례를 지원하는 데 필요한 ‘적절한’ 데이터를 확보하는 데 여전히 어려움을 겪고 있다”라며 “이는 데이터의 충분한 양, 적절한 품질, 또는 필요한 맥락 메타데이터 중 어느 하나라도 부족한 경우를 포함한다”라고 설명했다.
그는 이어 “IDC 연구와 업계 논의를 보면 데이터 준비도는 AI 가치를 실현하는 데 가장 큰 장애 요인 중 하나로 꾸준히 지목되며, 종종 컴퓨팅 비용이나 모델 선택보다 더 큰 문제로 인식된다”라고 말했다. 또한 “대부분의 기업은 여전히 분절된 시스템과 일관성 없는 거버넌스, 그리고 실제로 어떤 데이터를 보유하고 있으며 그 데이터가 얼마나 신뢰할 수 있는지에 대한 제한적인 가시성 문제를 안고 있다”라고 분석했다.
러블리는 IBM 역시 과거에는 이러한 문제를 다수 겪었지만, 지난 3년간 데이터를 AI에 적합한 상태로 만들기 위해 이를 해결하는 데 집중해 왔다고 설명했다.
AI 시대를 겨냥한 IBM의 데이터 전략은 오랜 기간 유지해 온 기존 접근 방식에 대한 여러 변화를 포함하고 있으며, 이를 통해 러블리가 말하는 통합 전사 데이터 아키텍처를 구축할 수 있었다. 예를 들어 IBM은 데이터 오너라는 개념을 유지하면서도, 해당 데이터가 특정 조직이 아닌 IBM 전체의 자산이라는 점을 이해하도록 했다. 러블리는 “데이터를 통제되고 안전한 방식으로 민주화할 수 있다면, 비즈니스를 더 효율적이고 생산적으로 운영할 수 있다”라고 설명했다.
그 결과 IBM은 여러 팀이 사일로 형태로 데이터를 관리하던 구조에서 벗어나, 공통 표준과 공통 아키텍처를 사용하는 단일 조직 체계로 전환했다. 또한 전사 리더는 300테라바이트 규모의 데이터를 통합하고, 회사가 추구하는 성과와 이를 이끄는 워크플로를 기준으로 필요한 데이터를 선별했다.
러블리는 “의도적으로 접근했다”라고 설명하며, 현재 IBM의 데이터 플랫폼이 전체 워크플로의 약 80%를 포괄하고 있다고 밝혔다. 그는 이어 “오늘날 기업에서 가장 큰 생산성 향상 요인 가운데 하나는 통합 전사 데이터 아키텍처를 구축하는 것”이라며 “데이터에 대한 투자가 있었기에 IBM은 AI를 전사적으로 빠르게 도입할 수 있었다”라고 말했다.
더 나은 데이터 전략을 구축하기 위한 8가지 제언
데이터 기반과 데이터 활용 역량에서 높은 성숙도를 달성하려면, 조직은 AI 시대에 맞는 데이터 전략이 필요하다. 이는 데이터 품질을 강화하고 데이터 사일로를 해소하며, 비즈니스가 우선순위로 삼은 AI 활용 사례에 데이터 역량을 정렬하는 전략이다.
업계 전문가는 다음과 같은 실행 단계를 제시한다.
1. 데이터 소유 개념을 재정의하라
IDC의 라이트는 “데이터 소유를 순수한 IT 문제로만 다루는 전통적 모델은 더 이상 유효하지 않다”라며 “사업부, 제품 조직, AI 플랫폼이 지속적으로 데이터를 생성하고 변환하는 환경에서는 이러한 접근이 작동하지 않는다”라고 설명했다. 그는 “이상적으로는 CDO와 같은 고위 데이터 리더가 명확한 책임을 져야 하지만, CDO가 없는 조직이라면 IT, 보안, 사업 부문 전반에 걸쳐 데이터 거버넌스 책임을 명확하게 분산해야 한다”라고 말했다.
또한 그는 “정책을 정의하는 단일한 권한 창구와 실행을 담당하는 연합형 모델을 함께 갖추는 것이 중요하다”라며 “이를 통해 사업부의 자율성은 유지하되, 통제되지 않은 상태는 피할 수 있다”라고 덧붙였다.
세인트토머스대학교 소프트웨어공학·데이터사이언스학과 학과장이자 응용 인공지능 센터 소장인 만짓 레게는 데이터 오너의 역할을 데이터 관리자, 즉 데이터 스튜어드로 재정의할 것을 권고했다. 레게는 이들이 데이터를 소유하는 존재가 아니라, 중앙 데이터 조직이 정한 표준과 거버넌스, 보안, 상호운용성을 기반으로 데이터의 의미와 품질을 책임지는 역할을 맡아야 한다고 설명했다.
2. 데이터 사일로를 해소하라
이를 위해 라이트는 “생성형 AI는 워크플로와 프로세스, 데이터 소스가 전사적으로 연결될 때에만 가치를 창출하기 때문에, CIO는 공통의 AI 및 데이터 성과를 중심으로 사업 부문을 정렬해야 한다”라고 설명했다.
그는 이어 “이를 위해서는 크로스펑셔널 거버넌스를 구축하고, 분류 체계와 정책을 표준화하며, 데이터를 보호하기보다 공유하도록 유도하는 인센티브를 마련해야 한다”라고 말했다. 또한 “통합 플랫폼, 메타데이터 계층, 공통 보안 프레임워크 같은 기술도 도움이 되지만, 진정한 전환을 이끄는 요소는 C레벨과 주요 비즈니스 이해관계자 전반에 걸친 조율된 리더십”이라고 설명했다.
3. AI 시대를 위한 데이터 기술에 투자하라
라이트는 AI 시대에 필요한 데이터 기술로 현대적인 데이터 레이크와 데이터 레이크하우스, 벡터 데이터베이스, 확장형 오브젝트 스토리지를 꼽았다. 그는 이러한 기술이 “강력한 거버넌스를 유지하면서도 대용량의 멀티모달 데이터를 처리할 수 있다”라고 설명했다.
또한 조직은 AI 워크플로가 처음부터 끝까지 안정적으로 작동하도록 데이터 수집, 정제, 변환, 이동을 자동화하는 오케스트레이션 및 파이프라인 도구를 갖춰야 한다. 모델이 데이터의 맥락을 이해하고 계보를 추적하며 구조화 데이터와 비구조화 데이터를 안전하고 신뢰성 있게 활용하려면 메타데이터 엔진과 거버넌스 계층 역시 필수적이다.
만짓 레게는 “모듈형이며 거버넌스가 적용되고, 지속적으로 진화할 수 있는 데이터 플랫폼 계층을 구축해야 한다”라고 조언했다. 그는 “데이터를 단일 파이프라인을 위한 자원이 아니라 재사용 가능한 제품으로 다룰 수 있어야 하며, 배치 처리와 실시간 요구를 모두 지원할 수 있는 아키텍처가 필요하다”라고 설명했다.
레게는 데이터 레이크와 데이터 레이크하우스에 대해서도 긍정적인 평가를 내렸다. 그는 이들 기술이 구조화 데이터와 비구조화 데이터를 모두 처리할 수 있어 “AI의 핵심 기반으로 자리 잡고 있다”라고 말했다.
또한 쏘트웍스의 최고 AI·데이터 책임자인 샤얀 모한티는 CIO에게 모듈형 기술과 유연한 구조를 갖춘 컴포저블 엔터프라이즈를 구축할 것을 권고했다. 이를 통해 사람과 AI가 여러 계층에 걸쳐 데이터에 접근하고 협업할 수 있다는 설명이다.
전문가들은 데이터 라이프사이클의 변화에 대응하는 기술 투자도 중요하다고 조언한다.
라이트는 “생성형 AI는 데이터 라이프사이클을 근본적으로 재편하고 있으며, 일시적 데이터, 캐시 데이터, 영구 저장 데이터가 훨씬 더 역동적으로 혼재되는 환경을 만들고 있다”라고 설명했다. 그는 “대부분의 생성형 AI 결과물은 수 초에서 수 분, 길어야 수 시간만 사용되기 때문에, 빠른 반복과 캐싱, 변동성이 큰 워크플로를 처리할 수 있는 DRAM과 SSD 같은 고성능 인프라에 대한 수요가 커지고 있다”라고 말했다.
반면 그는 “최종 문서, 승인된 미디어 자산, 합성 학습 데이터, 규제 대응과 관련된 콘텐츠 등 일부 생성형 AI 결과물은 장기간 보존된다”라며 “이러한 데이터는 여전히 비용 효율적이면서 대용량을 제공하는 HDD 기반 스토리지에 크게 의존하고 있다”라고 설명했다. 이어 “생성형 AI 도입이 확대될수록, 초고속 메모리를 활용한 일시적 콘텐츠 처리부터 HDD 기반의 견고한 아카이브까지 전 주기를 포괄하는 데이터 전략이 필요해질 것”이라며 “스토리지 부담과 구조 자체가 변화하고 있기 때문”이라고 분석했다.
4. 데이터 아키텍처에 자동화와 지능 요소를 더하라
모한티는 기업 데이터 환경이 열악한 원인으로 데이터 생산자와 데이터 소비자 간의 단절을 지목했다. 그는 생성된 데이터가 이른바 데이터 웨어하우스라는 “어딘가의 거대한 더미”에 쌓인 뒤, 이를 활용하기 위해 별도의 분석 계층을 덧붙이는 방식이 일반적이라고 설명했다. 이러한 접근은 실제로 작동하게 만들기 위해 많은 인적 지식과 수작업을 필요로 한다는 지적이다.
이에 따라 모한티는 데이터 생산자와 데이터 소비자의 거리를 좁히기 위해 데이터 제품 관점을 도입하고, 필요할 때 AI가 적절한 데이터를 식별하고 접근할 수 있도록 전사 아키텍처에 자동화와 지능을 추가해야 한다고 조언했다.
그는 CIO가 모델 컨텍스트 프로토콜(MCP)을 활용해 데이터를 감싸고, 프로토콜 수준의 접근 방식을 제공할 수 있다고 설명했다. 다만 이를 위해서는 데이터의 발견 가능성을 보장할 수 있도록, 조직이 데이터 카탈로그와 도구 전반에 걸쳐 관련 정보를 체계적으로 인코딩해야 한다고 덧붙였다.
5. 구조화·비구조화 데이터를 AI에 맞게 준비하라
라이트는 “구조화 데이터는 일관된 형식으로 정리되고, 적절한 거버넌스가 적용되며, 정확한 메타데이터로 보강될 때 AI에 적합한 상태가 된다”라며 “이 경우 모델이 데이터를 이해하고 활용하기가 훨씬 쉬워진다”라고 설명했다. 그는 “조직은 강력한 데이터 품질 관리와 마스터 데이터 관리, 명확한 책임 체계를 우선적으로 구축해 구조화 데이터셋이 신뢰성과 상호운용성을 유지하고, 특정 AI 활용 사례에 맞게 정렬되도록 해야 한다”라고 말했다.
전문가들은 이러한 규율을 비구조화 데이터에도 동일하게 적용해야 한다고 강조한다. 비구조화 데이터 역시 적절한 태깅과 분류, 메타데이터 보강을 통해 AI 시스템이 효과적으로 이해하고 검색할 수 있도록 준비돼야 한다는 설명이다.
만짓 레게는 “비구조화 데이터를 일급 데이터 자산으로 다뤄야 한다”라며 “고객 서비스 음성 통화, 메시지, 문서와 같은 비구조화 데이터에 가장 흥미로운 AI 활용 사례가 존재하지만, 많은 조직에서 여전히 비구조화 데이터는 사각지대로 남아 있다”라고 지적했다.
레게는 이러한 비구조화 데이터를 검색 가능한 형태로 활용하기 위해 벡터 데이터베이스에 저장할 것을 권고했다.
6. 외부 데이터 소스와 합성 데이터 활용을 검토하라
라이트는 “기존 데이터가 불완전하거나 편향돼 있거나, 규모가 부족하거나, 추진하려는 AI 활용 사례와 충분히 맞지 않는 경우에는 외부 데이터나 합성 데이터가 필요한지 반드시 검토해야 한다”라고 말했다. 그는 “합성 데이터는 실제 데이터가 민감하거나 수집 비용이 높고, 개인정보 보호나 규제, 운영상의 제약으로 활용이 제한될 때 특히 유용하다”라고 설명했다.
7. 고성숙도 데이터 기반을 단계적으로 구축하라
세일즈포스의 전사 IT 전략 담당 수석부사장인 시바니 아후자는 데이터가 완벽하게 정비될 때까지 기다리지 말라고 조언했다.
아후자는 “모든 데이터를 완벽하게 준비한 뒤에야 본격적으로 시작할 수 있다고 느끼는 조직이 있지만, 동시에 AI 여정을 시작하라는 압박도 받고 있다”라고 설명했다.
그는 대부분의 전사 프로그램이 성숙해 가는 과정과 마찬가지로, AI 시대를 위한 데이터 프로그램 역시 점진적인 접근이 필요하다고 강조했다. CIO와 경영진은 단계적으로 데이터 프로그램을 구축할 수 있고, 또 그렇게 해야 한다는 것이다.
아후자는 하나의 AI 기반 성과를 지원하는 데이터 전략과 아키텍처를 먼저 구축한 뒤, 이를 바탕으로 다음 성과로 확장해 나가는 방식으로 데이터 프로그램을 고도화할 것을 권고했다.
그는 “필요한 결과에서 거꾸로 설계하는 사고방식”이라며 “운영 환경에 배포하고, 적절한 가드레일을 갖췄는지 확인한 뒤 이를 관찰하고 조정해 확장성을 확보한 다음, 다음 단계를 진행하면 된다”라고 설명했다.
8. 데이터 조직을 전사 협업 구조로 구축하라
라이트는 “데이터는 IT, 데이터 거버넌스, 보안, 그리고 실제로 데이터를 활용해 의사결정을 내리는 사업 부문을 모두 아우르는 크로스펑셔널 생태계의 지원을 받아야 한다”라고 설명했다.
그는 “AI 시대의 데이터 전략은 이들 조직이 공동으로 책임을 나눌 때 가장 효과적으로 작동한다”라며 “IT 조직은 인프라를 뒷받침하고, 거버넌스 조직은 신뢰성과 품질을 보장하며, 사업 조직은 데이터의 맥락과 가치를 정의하는 역할을 맡아야 한다”라고 말했다.
dl-ciokorea@foundryco.com
Read More from This Article: AI 성공의 출발점, 기업 데이터 전략을 바꾸는 8가지 원칙
Source: News

