칼럼 | 깨끗한 데이터는 드물다, 그러니 데이터 준비를 ‘프로젝트화’하자

CIO가 AI 이니셔티브에서 성공적인 성과를 내려면 데이터를 제대로 준비하는 일이 필수적이다. 이 점은 분명하다. 그러나 AI가 데이터를 활용하는 방식의 특성을 고려할 때, 그 준비 과정이 구체적으로 무엇을 의미하는지, 그리고 조직이 AI에 적합한 ‘좋은’ 데이터를 확보하기 위한 기반 작업에 필요한 비용을 어떻게 마련할 것인지는 여전히 불분명하다.

문제의 핵심은 AI가 많은 전통적 애플리케이션이 사용하지 않던 데이터까지 활용한다는 데 있다. 또한 AI 워크플로에 가장 적합한 데이터가 항상 최고 수준의 품질을 갖춘 데이터인 것도 아니다. AI에서 말하는 ‘좋은’ 데이터란 비즈니스 활용 사례의 구체적인 맥락과 이를 구동하는 알고리즘의 특성에 부합하는 데이터다. 따라서 특정 사용 사례에 적합하다면, 일부가 누락됐거나 완전히 정제되지 않은 데이터라도 충분히 활용할 수 있다.

그렇다면 CIO는 이러한 데이터 난제를 심각하게 받아들여야 할까. 답은 그렇다. 이유는 두 가지다.

첫째, IT 데이터 분석가는 전통적 기준에서 보면 ‘잘못된’ 것처럼 보일 수 있는 데이터라도 AI에 적합한 ‘올바른’ 데이터로 만들어낼 수 있도록 역할과 관점을 재정립해야 한다. 이를 위해 데이터 관리 업무 관행을 수정하고, AI 프로젝트를 담당하는 데이터 분석가의 접근 방식도 재조정할 필요가 있다.

둘째, 전통적 애플리케이션이든 AI든 데이터 관련 작업에는 시간과 자원이 소요된다. 더구나 이러한 작업은 인프라 차원의 기반 업무이기 때문에 CEO를 비롯한 C레벨 경영진이 외부에서 체감할 수 있는 가시적 가치를 제공하기 어렵다. 그렇다면 CIO는 AI를 위해 새로운 데이터 준비 기반 작업이 왜 필요한지, 그리고 이를 위한 예산이 왜 정당한지 어떻게 설명해야 할까.

AI 데이터 품질의 역설을 받아들여라

머신러닝 엔지니어이자 데이터 분석가인 이샤 카타나는 “운영 환경의 AI에서는 완전히 정제된 데이터는 드물지만, 가치 있는 데이터는 어디에나 존재한다”라고 말했다. 이어 “더 똑똑한 AI 시스템을 구축한다는 것은 오탈자가 가득한 로그, 갑자기 멈추는 센서 값, 매달 바뀌는 카테고리 이름, 다른 팀 누군가가 ‘수동으로 조정한’ 값과 같은 현실을 받아들이는 일”이라고 설명했다.

이 같은 불안정성은 전통적인 IT 시스템의 데이터 관리 및 거버넌스 관행과 정면으로 배치된다. CIO 입장에서는 부담스럽게 느껴질 수 있는 대목이다. 그럼에도 AI가 충분히 정제되지 않았을 수도 있는 다양한 출처의 데이터를 끌어와 활용하려면, 일관성이 없고 변동성이 큰 데이터는 피할 수 없는 현실이다. 카타나는 자신의 경험을 바탕으로 “현실의 데이터는 지저분하다. 그러나 그 안에서 의미를 찾아낼 때 실제 영향력이 나온다”라고 전했다.

그렇다면 CIO는 불완전하거나 왜곡된 데이터를 어떻게 해석해야 할까. 우선 AI 이해관계자와 경영진에게 AI가 사용하는 데이터는 IT가 전통적으로 설정해 온 품질 기준에서 결코 ‘정상적’이라고 볼 수 없다는 점을 분명히 설명해야 한다. 동시에 AI가 특정 도메인을 충분히 이해하려면, 외부에 존재하는 관련 데이터를 가능한 한 폭넓게 받아들여야 하며, 이 과정에서 완벽하지 않은 데이터도 활용할 수밖에 없다는 점을 설득해야 한다.

AI가 비정형적이고 비표준적인 데이터를 활용한다는 사실을 설명하는 일은 중요하다. 이러한 데이터로 작업하려면 AI용 데이터를 준비하는 데이터 분석가에게 기존과는 다른 데이터 관리 방식과 역량이 요구되기 때문이다. 그 결과 CEO와 다른 비즈니스 이해관계자는 AI 프로젝트에서 새로운 데이터 준비 작업이 추가되는 모습을 보게 된다. 이러한 작업은 시간과 자원, 예산을 소모한다. 그러나 많은 이해관계자는 데이터 준비를 부가가치가 낮은 단순 작업으로 인식하기 때문에 이를 반기지 않을 가능성이 크다.

결국 다양한 유형의 데이터를 각기 다른 방식으로 준비해야 하는 이유를 이해관계자에게 설명하는 일은 CIO의 몫이다. 이러한 데이터 준비 작업의 필요성을 설득하는 한 가지 방법은, 알고리즘의 결함이나 부적절한 데이터 준비로 인해 AI 시스템이 잘못된 결과를 내놓을 경우 기업이 감수해야 할 위험을 구체적으로 제시하는 것이다.

AI 프로젝트별 맞춤형 데이터 준비 체계를 수립하라

데이터 준비 측면에서 모든 AI 프로젝트는 저마다 고유한 특성을 지닌다. 다만 공통적으로 적용할 수 있는 몇 가지 기본 원칙은 존재한다.

우선 AI가 다양한 출처의 데이터를 활용한다는 점을 인정해야 한다. 이로 인해 AI로 유입되는 일부 데이터는 완전하지 않을 수밖에 없다. 예를 들어, 입력되는 데이터를 정확성 검증 없이 그대로 활용하는 자동화된 머신러닝 기능이 이에 해당한다. 또 다른 사례로는 센서 기반 데이터를 활용하는 AI 시스템을 들 수 있다. 일부 센서 데이터에는 잡음(jitter)이 포함될 수 있으며, 이는 사전에 제거해야 한다. 반대로 백신 개발을 위한 분자 모델링처럼 전 세계 연구 데이터를 활용하는 경우에는, 유입되는 데이터 규모가 방대해 특정 분자명을 명시적으로 언급한 연구로 수집 범위를 의도적으로 좁혀야 할 수도 있다.

이러한 작업은 AI 거버넌스 영역에 속한다. 이는 단순히 데이터를 추출·적재·변환하는 전통적 ETL 작업을 넘어, 해당 데이터가 활용될 AI 맥락 안에서 다양한 유형의 데이터를 평가하고 선별하는 역량을 요구한다.

AI 데이터 준비 작업을 ‘프로젝트화’하라

AI 프로젝트 관리자는 데이터 준비라는 ‘기초 작업’을 다른 AI 업무에 숨기고 싶은 유혹을 느낄 수 있다. 데이터 준비 업무가 겉으로 드러나지 않도록 하려는 시도다. 그러나 이런 접근은 결국 프로젝트 일정 지연과 예산 초과로 이어질 가능성이 크다.

따라서 경영진에게 AI에 특화된 데이터 준비가 필요하다는 사실을 처음부터 투명하게 설명하고, 데이터 준비 작업을 AI 프로젝트 계획에 명확히 포함시키는 편이 바람직하다. 대부분의 CEO는 이를 이해할 수 있다. AI 시스템의 오류로 인해 값비싼 사업적 실수나 대외적 이미지 훼손이 발생하는 상황을 누구도 원하지 않기 때문이다.
dl-ciokorea@foundryco.com

Read More from This Article: 칼럼 | 깨끗한 데이터는 드물다, 그러니 데이터 준비를 ‘프로젝트화’하자
Source: News

칼럼 | 깨끗한 데이터는 드물다, 그러니 데이터 준비를 ‘프로젝트화’하자

AI 데이터 품질의 역설을 받아들여라

AI 프로젝트별 맞춤형 데이터 준비 체계를 수립하라

AI 데이터 준비 작업을 ‘프로젝트화’하라

Related posts