데이터가 새로운 석유라고 영국의 수학자 클라이브 햄비는 2006년 말했다. 석유와 마찬가지로 데이터도 원시 상태로는 쓸모가 제한적이다. 활용을 위해서는 정제, 처리, 배포 작업이 필요하다. 거의 20년이 지난 지금, 데이터 관련 비즈니스 관행은 꽤 발전했다. 데이터 통합에 사용되는 데이터옵스 자동화, 정확성, 규정 준수, 사용 편의성을 보장하는 데이터 거버넌스, 위협과 침해로부터 데이터를 보호하는 데이터 보안 등이 대표적이다.
경영진과 비즈니스 리더들은 이들의 중요성을 잘 알고 있다. 생성형 AI를 디지털 혁신 전략에 추가하고 AI 거버넌스를 필수적인 안전 장치로 설정하는 요즘의 움직임 때문에 더욱 그렇다.
최근 데이터 및 AI 리더들을 대상으로 데이터 운영, 데이터 거버넌스, 데이터 보안 관행의 효과를 어떻게 측정해야 하는지에 대한 질문을 제기해봤다. 명확한 지표 없이 기업들이 AI에 돈을 쏟아붓고 있다는 우려가 커지고 있기 때문이었다.
또 오늘날 택할 수 있는 옵션이 많다는 점을 감안해 이들 리더들에게 실제로 효과가 있는 것을 공유해 달라고 요청했다. 데이터 옵스, 데이터 거버넌스, 데이터 보안 구현의 가치와 효과를 가장 잘 보여주는 지표는 무엇일까? 전문가들의 대답을 정리했다.
비즈니스 가치 지표
일단 비즈니스 리더들이 데이터 옵스, 거버넌스, 보안에 대한 투자를 가치 있게 여기게 해야 한다. 이를 위해서는 신뢰할 수 있고 시기적절한 데이터의 비즈니스 가치를 보여주는 지표가 필요하다.
코브르(Kovrr)의 CEO이자 공동 설립자인 야키르 골란은 “비즈니스 가치를 입증하기 위해서는 전통적인 IT 지표보다는 미션과 직접적으로 연결되는 KPI를 활용해야 한다. 예를 들어, 자동화를 통한 비용 절감이나 위험 노출 감소와 같은 기술 이니셔티브의 이점을 재무적 측면에서 정량화하면 경영진 수준에서 보다 실질적인 대화가 가능해진다. 예상되는 위험 노출을 200만 달러 줄인다는 메시지는 IT 티켓 해결률보다 훨씬 더 강력하다”라고 말했다.
더 모던 데이터 컴퍼니(The Modern Data Company)의 CEO 스루잔 아쿨은 “CIO가 사용할 수 있는 데이터 효과성 지표들이 있다. 마케팅 기여도와 유사한 데이터 ROI가 대표적이다. 전달된 비즈니스 가치와 통찰력 확보에 걸리는 시간에 대한 구체적인 데이터 처리 및 저장 비용을 계산해보라”라고 조언했다.
데이터 ROI 측정
비용 절감, 위험 감소, 투자 수익률은 비즈니스 리더들에게 투자 가치를 적절하게 전달하는 지표다. 단 이 지표들은 이니셔티브와 플랫폼의 총합을 검토할 때 유용한 포트폴리오 수준의 지표이다. 개별적인 지표로는 파악하기 어려울 수 있다.
애스트로머(Astronomer)의 제품 담당 수석 부사장인 피트 드조이는 “때로 단순한 KPI가 중요하다. 비즈니스 팀이 신뢰할 수 있는 데이터에 얼마나 빨리 액세스하고 그에 따라 조치를 취할 수 있는지가 바로 그것이다. 보안 및 거버넌스 표준을 유지하면서 그 타임라인을 몇 주에서 몇 시간으로 단축하면 데이터 운영 이니셔티브에 대한 지속적인 투자를 설득력 있게 만들 수 있다”라고 말했다.
데이터 처리 시간
데이터 처리 시간은 데이터 처리 작업과 액세스 지연 시간을 측정하기 위해 데이터 운영에 사용되는 일반적인 지표다. 이 지표는 밤새 데이터를 처리하는 배치 처리 작업을 실행하는 조직에 중요한 지표다. 많은 경우 애널리틱스는 어제 또는 그 이전의 데이터만 보여준다.
데이터 신뢰도
또 다른 중요한 지표인 데이터 신뢰도 지표는 다음과 같은 여러 지표의 비즈니스 관련 가중치를 합한 값이다.
• 정확성, 완전성, 일관성, 유효성 등의 데이터 품질 지표
• 설문 조사, 데이터 카탈로그 또는 데이터 문제와 관련된 서비스 데스크 지표를 통해 측정된 사용자 신뢰도 점수.
• 거버넌스 및 보안 정책을 충족하는 데이터 세트의 수와 관련된 거버넌스 지표.
데이터 거버넌스 또는 보안 팀 담당자라면, CIO, 최고 정보 보안 책임자(CISO), 최고 데이터 책임자(CDO)가 투자 우선 순위를 정하고 집중해야 할 이니셔티브 유형을 결정할 때 고려할 지표가 무엇인지 확인할 필요가 있다.
프루프로인트 DSPM 그룹(Proofpoint DSPM Group)의 GVP 아메르 디바는 CIO가 데이터 중 어느 정도가 가치 있거나 민감한지 파악하고, 매출, 규정 준수, 혁신 등 비즈니스에 미치는 중요성을 수치화해야 한다고 설명했다. 그는 “통찰에 걸리는 시간, 도구의 ROI, 사용하지 않는 섀도우 데이터 제거로 인한 비용 절감, 데이터 사고를 줄이는 도구의 비율과 같은 지표는 모두 명확한 가치와 연결되는 지표의 좋은 예이다”라고 말했다.
비즈니스 가치 지표 요약
• 비용 절감, 위험 감소, ROI와 같은 포트폴리오 수준의 지표.
• 데이터 품질, 사용자 신뢰, 거버넌스를 측정하는 데이터 신뢰와 같은 조직 수준의 지표.
• 데이터 도달 시간, 사고 도달 시간, 툴 ROI, 사고 감소와 같은 플랫폼 및 이니셔티브 수준의 지표.
데이터 옵스 지표
데이터 옵스 기술 전략에는 데이터 이동을 위한 데이터 파이프라인, IoT와 같은 실시간 데이터 소스를 위한 데이터 스트리밍, 파이프라인 내 데이터 품질 자동화 등이 포함된다. 수도관의 안정성을 예시로 사용하면 꽤 유용하다. 왜냐하면 아무도 파이프라인 막힘, 누수, 압력 강하, 배관 시스템의 오염된 물을 원하지 않기 때문이다.
레이턴트뷰(LatentView)의 데이터 엔지니어링 실무 책임자인 수닐 칼라는 “데이터 옵스의 효율성은 파이프라인의 성공-실패 비율과 데이터 준비에 소요된 시간을 추적하여 측정할 수 있다. 문제를 해결하기 위해 계획된 배포와 계획되지 않은 배포를 비교하는 것도 프로세스 효율성에 대한 통찰력을 제공할 수 있다”라고 말했다. 칼라는 파이프라인 전체에서 데이터의 상태, 정확성, 신뢰성을 모니터링하는 데이터 가시성 프랙티스 개발을 권장했다.
랩데브(RapDev)의 설립자이자 대표인 타밈 호라니는 “조직 전반에 걸쳐 가시성을 성공적으로 도입하기 위해서는 투명성, 셀프 서비스, 태그 관리의 세 가지 핵심 요소가 필요하다. 태그 정확도를 측정하고 깨끗한 데이터를 수집하면 셀프 서비스 도입이 가속화되어 조직 전체의 엔지니어와 파워 유저가 필요한 모든 데이터에 액세스할 수 있다”라고 말했다.
태그 지정은 데이터 파이프라인에서 자동화할 수 있는 데이터 강화의 한 유형이다. 이 밖에 다른 데이터 운영 지표들은 필요한 속도, 품질, 효율성으로 강력한 파이프라인을 운영하는 것이 비즈니스에 미치는 영향을 보여줄 수 있다.
액셀데이터의 CTO 겸 공동 설립자 애시윈 라지바는 “가치 창출 시간, 데이터 품질 점수, 자동화 비율은 데이터가 수집에서 인사이트로 이동하는 효율성을 보여주고, 데이터 관련 사고와 규정 준수 위험의 감소는 운영 탄력성을 정량화한다. 이러한 KPI를 비용 절감, 생산성 향상, 전략적 성장과 연결함으로써 CIO는 더 많은 투자를 유도하고, 조직 문화를 변화시키며, 데이터를 핵심 경쟁 우위로 만들 수 있다”라고 설명했다.
컴퍼니 서치 인코포레이티드(Company Search Incorporated)의 공동 설립자이자 COO인 폴 보인튼은 “데이터 운영팀은 배포 빈도, 사고 대응 시간, 데이터 품질 점수와 같은 KPI를 사용해야 한다”라고 제안했다.
데이터 운영팀 지표 요약
• 파이프라인 신뢰성, 자동화 비율, 데이터 품질 자동화에 대한 예외 비율과 같은 운영 지표는 데이터 파이프라인의 견고성을 나타낸다.
• 데이터옵스 팀의 계획된 배포와 계획되지 않은 배포, 배포 빈도, 사고 대응 시간, 데이터 파이프라인 문제로부터 복구하는 데 걸리는 평균 시간, 자동화된 데이터 준비와 수동 데이터 준비에 소요되는 시간 등의 지표는 팀이 문제를 얼마나 잘 해결하고 자동화를 지속적으로 개선하고 있는지를 보여준다.
데이터 거버넌스 지표
데이터 거버넌스 지표는 주제별로 구분되며 정확성, 완전성, 적시성, 고유성, 규정 준수에 초점을 맞춘다. 데이터 거버넌스 지표는 최종 사용자의 데이터 기반 관행 채택을 증가시킬 수 있다.
베드록 시큐리티(Bedrock Security)의 CTO이자 공동 설립자 프라나바 아두리는 “데이터 보안과 거버넌스 효과를 측정하려면 데이터 요청에 걸리는 시간, 소유자가 지정되지 않은 데이터의 양, 분류된 데이터와 분류되지 않은 데이터의 비율이라는 세 가지 필수적인 OKR을 추적해야 한다”라고 설명했다.
그는 이어 “CIO가 우선시해야 할 요소가 있다. 보안 팀과 개발 팀 간의 마찰을 줄이고, SOC 팀의 경고 피로를 최소화하며, 서로 다른 플랫폼 전반에 걸친 정책 시행을 가속화하기 위해 개선된 데이터 소유권 명확성을 입증하는 것이다. 이러한 OKR은 조직의 데이터 운영 규모를 조정하고 AI 모델 훈련과 같은 새로운 사용 사례에 대한 데이터를 신속하게 확보할 수 있는 능력을 지원한다”라고 덧붙였다.
데이터 거버넌스가 조직에 미치는 영향을 측정하는 데 중점을 두라는 권고도 있다. IBM 왓슨X 플랫폼의 제품 관리 담당 부사장인 에드워드 칼베스버트는 “데이터 거버넌스 프로그램의 KPI에는 데이터 중복 감소, 데이터 사용 개선, 데이터 처리 감소로 인한 비용 절감, 새로운 통찰력과 애플리케이션의 출시 시간 단축 등이 포함될 수 있다”라고 설명했다.
규정 준수 및 리스크 관리의 이점은 세 번째로 측정해야 할 영역이다. 칼베스버트는 “데이터 거버넌스는 규정 준수 비용을 절감하고, 벌금과 평판 손상을 방지한다. 이는 CIO 오피스를 뛰어넘는 파급 효과를 가진 KPI로, 기업 전체에 걸쳐 기회를 창출한다”라고 말했다.
더 모던 데이터 컴퍼니의 아쿨라는 데이터 거버넌스 프로그램의 효율성에 대한 몇몇 KPI를 추가했다. “보안 및 거버넌스를 위해 민감한 데이터 노출률, 적절하게 통제된 중요 데이터의 비율, 그리고 거버넌스 격차를 나타내는 불필요한 사본을 측정하는 데이터 중복 지수를 추적할 만하다”라고 그는 덧붙였다.
또 다른 중요한 고려 사항은 최종 사용자의 채택이다. 프루프포인트의 디바는 팀이 거버넌스 정책을 얼마나 잘 채택하고 마찰 없이 안전하게 데이터에 액세스하는지 측정하는 것도 중요하다고 강조했다.
이 밖에 글로벌 기업과 규제 대상 기업이라면 데이터 출처와 주권 관행을 측정해야 한다. 데이터 출처(Data provenance)는 데이터의 수명 주기 동안 데이터의 출처, 이력, 변형을 추적하며, 데이터 계보(data lineage)를 캡처해야 하는 규제 대상 산업에서 중요하다. 데이터 주권(Data sovereignty)은 데이터가 저장되거나 처리되는 국가 또는 지역을 기반으로 한 데이터의 법적 및 규제적 소유권을 의미한다.
EDB의 분석, 데이터, AI 엔지니어링 부사장인 제레미 켈웨이는 “데이터 계보 정확성 및 데이터 노출 사고와 같은 주권을 입증하는 정량적 지표를 통해 거버넌스 프로그램의 효과를 측정해야 한다. 성공 지표에 포함되는 항목으로는 민감한 데이터 노출 위험 감소, 데이터 지역 준수 점수 개선, 관할권 경계를 넘어 데이터가 AI 시스템과 어떻게 상호 작용하는지에 대한 가시성 향상 등이 있다”라고 설명했다.
데이터 거버넌스 기능을 구현하는 과정에서 매우 어려운 과제는 비즈니스의 협력을 이끌어내는 것이다 데이터 소유자를 지정하고 데이터 세트를 분류하는 것만으로 쉽지 않다. 데이터 거버넌스 팀이 협업을 할 수 없다면, 어떤 다른 옵션을 고려해야 할까?
미트라테크(Mitratech)의 GRC 솔루션 담당 이사인 알라스테어 파는 “경쟁력 있는 데이터 보안 및 거버넌스 문화를 조성하면 더 많은 사람들의 지지를 얻고 더 큰 성공을 거둘 수 있다. KPI와 OKR은 선택된 측정 기준에 따라 부서 및 기능 수준에서 비교 점수를 통합해야 한다”라고 말했다.
데이터 거버넌스 지표 요약
• 프로그램의 효율성 측정에는 소유자가 지정되지 않은 데이터의 양, 분류된 데이터와 분류되지 않은 데이터의 비율, 데이터 정리 작업에 소요되는 시간 단축 등이 포함된다.
• 감사 통과와 민감한 데이터 노출 위험 감소로 비용 절감 및 위험 감소가 측정된다.
• 데이터 거버넌스 팀의 효율성 측정에는 데이터 중복, 직원들의 정책 준수, 최종 사용자의 적절한 데이터 소스 접근 용이성 등이 포함된다.
데이터 보안 지표
전문가들은 데이터 보안 지표를 ISO 27001, NIST CSF 2.0, CIS와 같은 표준에 맞추라고 제안한다.
디렉트도조(DefectDojo)의 CEO이자 설립자 그렉 앤더슨은 “간단히 말해서, 효과성 측정은 어떤 프레임워크와 수준을 선택하느냐에 달린 작업이다. 그 다음에는 조직의 어느 정도가 규정을 준수하고 있는지 모니터링하는 작업으로 이어진다. ISO 27001은 아마도 가장 널리 사용되는 표준이다. 그 범위가 넓다”라고 말했다.
앤더슨은 사용 중인 프레임워크와 관계없이 다음 지표를 추적할 것을 제안했다.
• 침해 건수와 무단 액세스 시도 건수를 포함한 사고 지표.
• 보안 문제를 감지하는 데 걸리는 시간(MTTD)과 대응하는 데 걸리는 시간(MTTR), 그리고 위협을 식별하고 해결하는 속도.
• GDPR, HIPAA 및 기타 규정 준수 요건에 대한 합격/불합격 비율.
• 개방된 취약성과 패치 적용 빈도를 포함한 취약성 지표.
• 보안 프로토콜 교육을 받은 직원 비율과 같은 교육 완료.
• 암호화된 민감 데이터의 비율.
• 최소 권한 접근을 다루는 접근 통제 지표.
• 심각성과 중요성에 따라 분류된 데이터의 비율(이 지표는 데이터 거버넌스 기능과 함께 작동함).
데이터 운영, 거버넌스, 보안 지표의 실제 적용
캐피털원Capital One)의 소프트웨어 엔지니어링 부사장인 카잘 우드는 데이터 효율성 이론을 실천에 옮기는 방법을 소개했다. 그는 “효율성 측정은 잘 관리되고 고품질의 데이터 생태계를 구축하는 것에서부터 시작된다. 이를 위해 우리는 정확성, 완전성, 접근성, 가용성과 같은 데이터 품질 지표를 고려하여 팀이 데이터를 신뢰하고 효과적으로 사용할 수 있도록 한다”라고 말했다.
그는 이어 “관찰 가능성과 데이터 계보 범위 및 민감한 데이터 탐지와 수정, 사고 대응 시간과 같은 보안 KPI는 거버넌스의 성숙도를 보여준다. 파이프라인 배포 속도, 자동화 비율, 소비 경험과 같은 데이터옵스 효율성 지표는 민첩성을 반영한다”라고 설명했다.
그에 따르면 이러한 포괄적인 지표 목록의 목표는 “이러한 지표를 비즈니스 성과(더 빠른 혁신, 위험 감소, 개선된 의사 결정)와 연계하여 데이터에서 실질적인 가치를 창출하는 것”이다.
성숙한 데이터 기반 조직은 이와 같은 지표를 모두 지원할 수 있겠지만, 관행 개발에는 시간이 걸린다. 때로는 소수의 의미 있는 지표를 가지고 시작하는 편이 오히려 나을 수 있다. 간단한 세 가지 질문 테스트를 통해 활용할 지표를 확인한다.
• 비즈니스가 메트릭을 이해하고, 가치와 연결되어 있는가?
• 투자가 이루어지는 곳을 측정하고 개선을 입증하는가?
• 메트릭을 캡처하는 것이 자동화되어 있고 보고하기 쉬운가?
점점 더 많은 조직이 데이터 운영, 데이터 거버넌스, 데이터 보안에 투자함에 따라, 가치, 운영 효율성, 관련된 위험을 측정하는 메트릭이 중요해지고 있다.
[email protected]
Read More from This Article: 우리 회사 AI 투자는 건강할까?··· 데이터 운영·거버넌스· 보안 제대로 측정하기
Source: News