데이터는 흔히 ‘새로운 금’이라고 불릴 만큼 귀중한 자산이 됐다. 하지만 실존의 관점에서 보면 더 적절한 비유가 있다. 지구가 암석 행성에서 시작해 생명이 넘치는 행성으로 진화했다는 이론처럼 데이터도 비슷한 변화를 겪었다. 20년 전만 해도 조직 내 데이터는 초기 지구에 흩어진 암석과 같았다. 데이터를 가치로 전환하는 데 필요한 비즈니스 지식은 개인의 머릿속이나 엑셀 시트에 갇혀 있거나 아날로그 신호로만 존재했기 때문에 ‘살아있지’ 않았다.
디지털 트랜스포메이션은 일상을 디지털화했고, 지난 10년간 AI와 머신러닝(ML)의 발전으로 데이터 환경이 극적으로 변화했다. 이제 데이터 패턴에서 규칙을 해독하고 ML 모델에 비즈니스 지식을 담고 있다. 곧 AI 에이전트가 데이터를 활용해 의사결정을 대신 내리게 될 시대가 온다. 데이터는 이제 수집, 정제, 제품 출력의 형태로 기업의 혈관에 흐르는 ‘살아있는’ 유기체다. 이 유기체는 기업의 경쟁 우위를 결정짓는 핵심 요소다. 따라서 신중하고 책임감 있는 육성과 관리가 필요하다.
오늘날 환경에서 성공하려면 기업 규모에 관계없이 데이터 중심적 사고방식을 받아들여야 한다. 이 글에서는 조직이 고유한 요구 사항에 맞춰 ‘최신’ 데이터 관리 기능을 구현하는 방법론을 제시한다. ‘최신’이란 자동화와 소프트웨어 엔지니어링 모범 사례를 최대한 활용하는 엔지니어링 중심의 방법론을 의미한다. 이는 반복 가능하고, 수동 제어에의 의존도를 최소화하며, 데이터 관리를 위해 여러 기술과 AI를 활용하고, 디지털 제품 개발 프로세스과 원활히 통합된다. 최신 데이터 관리 실무를 5가지 기능적 축(데이터 플랫폼, 데이터 엔지니어링, 분석 및 보고, 데이터 사이언스 및 AI, 데이터 거버넌스)으로 소개한다.
Manish Limaye
데이터 플랫폼
데이터 플랫폼은 조직이 배치(batch) 작업과 스트리밍 모드에서 대용량 데이터를 처리할 수 있게 하는 도구, 프레임워크, 처리 및 호스팅 기술로 구성된다. 조직은 온프레미스 설정, AWS, 구글 클라우드 플랫폼(GCP), 애저 등의 클라우드 솔루션 또는 스노우플레이크나 데이터브릭스 같은 전문 데이터 플랫폼 업체 중에서 호스팅 업체를 선택한다. 또한 스파크, 빔, SQL 기반 처리와 같은 데이터 처리 프레임워크를 선택하고 ML용 도구도 결정해야 한다.
비즈니스 요구 사항과 데이터의 특성(원시 또는 정형)에 따라 조직은 데이터 웨어하우스나 레이크를 구축할지, 데이터 패브릭 기술을 도입할지 결정해야 한다. 이때 벤더 선택은 더 광범위한 클라우드 혹은 온프레미스 전략과 일치해야 한다. 예를 들어 기업이 AWS를 주요 클라우드 서비스 업체로 선택했다면 AWS 데이터 플랫폼을 활용하는 방법이 합리적이다. 마찬가지로 기업의 전반적인 기술 전략에 따라 스노우플레이크, 클라우데라 같은 플랫폼을 선택할 수 있다.
주의할 점은 ‘최고의 제품’이라는 환상에 사로잡혀 수많은 도구를 조합하는 방식이다. 그러면 도구를 통합하는 데 과도한 시간을 들이게 된다. 기술은 DIY 통합이 따라잡기에는 너무 빠르게 진화한다. 또한 일반적으로 클라우드 중립성을 달성하기 위해 데이터를 여러 클라우드 업체의 데이터베이스에 분산시키는 방법도 바람직하지 않을 수 있다. 클라우드 네이티브 데이터 아키텍처의 치명적인 문제는 데이터를 한 위치에서 다른 위치로 복사할 때 나타난다. 이는 불필요한 비용을 지출하게 하고, 엔드-투-엔드(E2E) 가치 창출에 심각한 영향을 끼친다.
기술도 중요하지만, 데이터 플랫폼의 진정한 목적은 비즈니스 가치 창출을 위한 기반을 구축하는 데 있다. 최신 기술이나 트렌드에만 집중하다 보면 시간과 비용 대비 실제 비즈니스 가치 창출이라는 본질을 놓치기 쉽다. 마치 실용성은 제쳐두고 기술 실험만 하는 고등학교 과학 시간처럼 될 수 있다. 데이터 플랫폼은 본질적으로 엔지니어링에 중점을 둔 영역이다. 처음에는 수동 설정으로 시작할 수 있지만 반드시 완전 자동화된 사고방식으로 전환해야 한다. 데이터 플랫폼을 수동으로 관리하면 운영 오류가 발생할 위험이 높고, 이는 장기적으로 막대한 비용 손실을 초래할 수 있다.
데이터 엔지니어링
데이터 엔지니어링은 원시 데이터를 정제된 데이터 제품으로 변환하는 역할을 한다. 원시 데이터는 데이터 플랫폼이 제공하는 도구와 프레임워크를 사용해 특정 목적에 맞게 수집, 변환, 정제된다. 기술 중심의 데이터 플랫폼과 달리 데이터 엔지니어링은 비즈니스 규칙이 포함된 분산 병렬 데이터 파이프라인 구축에 집중한다. 비즈니스 요구사항이 파이프라인 구성을 주도해야 하며, 그 반대가 되어서는 안 된다는 점을 기억해야 한다. 예를 들어 이벤트 순서 보존이 비즈니스 요구사항에서 중요하다면 이런 요구사항을 충족하도록 적절한 배치, 마이크로배치 또는 스트리밍 구성을 구현해야 한다.
또 다른 핵심 영역은 데이터 파이프라인의 운영 상태 관리다. 이는 파이프라인을 통해 흐르는 데이터의 품질 모니터링에 중점을 둔다. 품질이 낮은 데이터는 파이프라인 중단만큼이나 해롭고, 잘못된 의사결정을 초래하거나 고객에게 해로운 정보를 제공할 수 있다. 데이터 통합 가시성 분야는 최근 많은 상용 도구가 출시되는 등 상당한 성장을 이뤘다. 오픈소스 구성 요소를 사용해 DIY 솔루션을 구축할 수도 있다. 다만 데이터 품질 문제에 대한 경고 임계값을 설정하는 작업이 어려울 수 있다. 실제 데이터는 고정 임계값이 효과를 발휘하기 어려울 만큼 동적이기 때문이다. ML 기능을 구현하면 적절한 임계값을 찾는 데 유용할 수 있다. 수동 설정된 임계값으로 시작해도 괜찮지만, 궁극적인 목표는 자가 학습 메커니즘으로 자동화하는 방식이어야 한다.
마지막으로 이 영역의 ‘엔지니어링’ 측면을 강조할 만하다. 작업이 데이터 중심적이거나 SQL이 많이 사용된다고 해서 예외가 되어선 안 된다. 모든 SQL 쿼리, 스크립트, 데이터 이동 구성은 코드로 취급돼야 하며, 최신 소프트웨어 개발 방법론을 따르고 데브옵스(DevOps)와 SRE 모범 사례를 준수해야 한다.
분석 및 보고
분석 및 보고는 보다 전통적인 데이터 관리 영역이다. 여기에는 설명적 분석과 진단적 분석 기능이 포함되는데, 일반적으로 2가지 범주로 나뉜다.
- 고정된, 미리 준비된 또는 표준 보고
- 임시 또는 개별 사용 보고
데이터가 제한적인 소규모 기업은 광범위하게 자동화된 엔지니어링 규칙 없이도 이 영역을 관리할 수 있다. 그러나 중기업 및 대기업은 데이터 웨어하우스나 레이크하우스 내의 정제된 데이터셋 위에 정교한 셀프 서비스 보고 플랫폼을 구축해야 한다.
앞서 설명한 데이터 플랫폼은 보고 및 시각화 도구를 설정하고, 데이터 엔지니어링은 정제된 데이터를 중앙 집중화한다. 분석 및 보고 기능은 보고의 구성과 셀프 서비스 분석을 주도해야 한다. 또한 데이터 카탈로그에 의미 있고 신뢰할 수 있는 정보를 포함시키고 적절한 접근 제어와 결합해 데이터의 민주화를 촉진해야 한다.
비즈니스 분석의 가장 어려운 측면은 보고가 상충되거나 신뢰할 수 없는 정보를 생성하지 않도록 일관된 데이터 정의 세트를 만드는 데 있다. 생성형 AI와 자연어 데이터 분석이 기업에 도입되면서 이 문제가 더 악화될 가능성이 있다. 따라서 시맨틱 레이어의 개념이 주목을 받고 있다. 데이터 관리 체계가 고도화된 조직이라면 이를 고려할 필요가 있다.
이 영역에 필요한 엔지니어링 역량은 보고의 중요도와 상관관계가 있다. 중요도와 데이터 다운타임에 대한 민감도가 높을수록 더 고도화된 엔지니어링과 자동화가 필요하다.
데이터 과학과 AI
이 영역은 예측 분석과 처방 분석을 포함한다. 과거에는 분석 및 보고 영역이었으며 여전히 그런 경우가 많다. 하지만 AI/ML 모델이 이제는 다른 기술 제품처럼 운영돼야 하는 고객 대면 제품 및 서비스에 통합되고 있기 때문에 의도적으로 분리했다. 이는 업계의 중요한 변화를 의미한다. ML과 AI에 대해 심도 있는 엔지니어링 중심 접근 방식이 필요한 시점이다.
이 영역에는 데이터 과학, ML, AI 기술이 요구된다. 엔지니어링 규칙을 확립하기 위한 ML옵스와, 비즈니스 요구 사항, 모델 개발, 모델 배포, 모델 모니터링을 포괄적으로 연결할 수 있는 아키텍트의 존재도 중요하다. 이를 갖추지 않으면 고객 응답이 너무 느리거나, 시간이 흐르면서 편향이 발생하거나, 프로덕션 모델 모니터링 부족으로 인해 고객에게 해를 끼치는 모델을 구축할 위험이 있다. 프로덕션에서 모델 문제가 발생하면 잘못된 데이터를 제공하는 것보다 고객에게 오류를 반환하는 쪽이 낫다. 높은 수준의 엄격함을 갖추려면 강력한 엔지니어링 규칙과 운영 성숙도가 필요하다.
과거에는 모델을 처음부터 구축하는 기술적 전문성이 필요했기 때문에 데이터 과학이 특정 조직만의 영역이었다. 하지만 소규모 기업에게도 희소식이 전해지고 있다. 데이터 중심 AI, 제미나이, 오픈소스 및 상용 AI 모델의 가용성이 발전하면서 AI 전략이 ‘자체 구축’에서 ‘구매 및 재사용’으로 변하고 있다. 따라서 소규모 조직이 AI/ML 기능을 더 쉽게 도입할 기회가 늘고 있다.
데이터 거버넌스
데이터 거버넌스는 일반적으로 회사 정책을 준수하기 위해 다른 사람의 작업을 감독하는 관리 기구인 기업 혹은 IT 거버넌스와 혼동될 수 있다. 데이터 거버넌스에 대한 새로운 용어가 필요하다는 의미다. 과거에는 운영 데이터와 분석 데이터가 완전히 분리되어 있었기 때문에 데이터 거버넌스 책임자들이 다른 팀의 활동을 감독하고 승인하는 방식으로 운영됐다. 데이터 거버넌스 범위가 분석 시스템에만 국한되고, 실제 업무에 사용되는 운영 및 거래 시스템이 별도로 운영되던 시기에는 합리적인 접근 방식이었다.
그러나 환경은 급속히 변화하고 있다. 전통적인 데이터 거버넌스 구조는 여전히 필요하지만, 거래 시스템을 포함한 기업의 거의 모든 측면에 가치 있는 데이터가 스며드는 환경에서는 충분하지 않다. 최신 데이터 거버넌스는 데이터가 모든 곳에서 올바른 상태를 유지하고, 일관되게 정확하고, 안전하고, 적절한 사람이 접근할 수 있어야 한다. 기업은 운영 및 분석 시스템 전반에서 규정 준수 의무를 충족하는 생태계를 만들어야 한다. 광범위해진 거버넌스에는 제품 개발 수명 주기에 완전히 통합된, 잘 정의되고 자동화된 제어와 지침이 필요하다.
예를 들어 데이터 거버넌스 정책에서 제약 조건이나 최소/최대값과 같은 제어를 사용해 카탈로그에 데이터 스키마를 설명하도록 요구하는 경우, 이 단계는 자동화된 소프트웨어 개발 수명 주기의 일부여야 한다. 이는 배포 중에 시스템이 유효한 스키마를 확인하도록 보장해야 한다. 사이버 보안도 지난 20년간 비슷한 진화를 겪었다. 과거 시스템 보안은 소프트웨어 개발 수명 주기와 분리된 소수의 사이버 보안 전문가의 책임이었다. 이제 고도화된 조직은 데브섹옵스(DevSecOps) 관행을 통해 광범위하게 사이버 보안을 구현한다. 데이터 거버넌스도 정책 문서와 컨플루언스 페이지에서 벗어나 코드로서의 데이터 정책으로 전환해야 한다. 데이터가 올바른 상태에 있도록 보장하는 것은 모든 사람의 책임이며, 데이터 거버넌스 생태계는 자동화를 통해 이를 지원해야 한다.
통합 데이터 거버넌스를 구축하려면 운영팀과 분석팀 간의 인센티브 조정이 필요하며, 잘못된 데이터가 고객에게 해를 끼치고 기업의 평판을 위험하게 할 수 있다는 점을 모든 직원이 인식해야 한다. 이 문제는 향후 AI 에이전트가 데이터를 기반으로 의사 결정을 내리게 되면 더 악화될 수 있다. 따라서 강력한 엔지니어링 규율로 데이터 거버넌스를 강화할 필요가 있다.
새로운 유형의 엔지니어링 중심 데이터 조직
지난 10년간 AI와 ML이 발전하면서 데이터 관리는 백오피스 보고 및 거버넌스 기능을 넘어 중요한 경쟁 우위 요소가 됐다. AI/ML 모델은 이제 응답 시간 1초 미만으로 고객 대면 제품을 지원한다. 이제 기업에는 앞의 5가지 축으로 구성된 새로운 유형의 엔지니어링 중심 데이터 조직이 필요하다.
데이터 관리를 처음 시작하는 대부분의 기업은 운영 효율성을 위한 비즈니스 운영 간소화에 집중할 터다. 이후 성장에 따라 새로운 비즈니스 이니셔티브와 매출 성장 기회로 초점을 옮기게 된다. 본문의 다이어그램에서는 모든 축이 동일한 크기의 원으로 표시됐지만, 실제로 투자와 노력은 ‘방사형 그래프’와 비슷할 것이며, 모든 영역에 항상 동일한 주의를 기울여야 하는 것은 아니다.
Manish Limaye
조직 보고의 관점에서 소규모 기업은 5가지 기능을 모두 한 리더 아래에 통합할 수 있다. 중기업은 데이터 플랫폼과 엔지니어링 기능을 한 리더에 아래에 두고 나머지 세 기능을 다른 리더 아래에 통합할 수 있다. 규제가 고도화된 대기업은 5가지 축을 모두 다른 리더에게 분산할 수 있다.
데이터 기능의 규모, 범위, 크기는 기업마다 다르겠지만 한 가지는 확실하다. 데이터는 어디에나 존재한다는 것이다. 상담원이 받은 고객 서비스 전화는 더 이상 아날로그 신호가 아니라 고객의 고충과 서비스 품질에 통찰력을 제공하는 디지털 데이터다. 따라서 모든 기업은 데이터 기업처럼 생각하고, 적절한 데이터 관리 능력을 갖춰 이를 경쟁 우위로 활용해야 한다.
Manish Limaye는 핀테크 및 여행 업계의 IT 및 비즈니스 혁신 분야에서 30년 이상 경력을 쌓은 데이터 및 기술 리더다. 에퀴팩스(Equifax) USIS 사업부의 수석 아키텍트 겸 데이터 엔지니어링 책임자로 근무할 때 기술 전략을 주도하고 대규모 데이터 엔지니어링 조직을 운영해 회사를 혁신했다. 현재는 스타트업 및 중기업의 기술 고문으로 활동하고 있다.
[email protected]
Read More from This Article: 칼럼 | 데이터의 미래일까? 최신 데이터 관리의 핵심 영역 5가지
Source: News