가트너에 따르면 불량 데이터(bad data )로 인해 지출되는 비용은 연간 1,290만 달러에 이른다. 비즈니스 인텔리전스(BI) 및 애널리틱스에 사용할 수 있는 단일 데이터 소스를 모색하려는 움직임이 지난 수십 년에 걸쳐 이어온 배경이다.
데이터에 일관성을 부여하기 위해 BI 업계는 행, 열, 필드 이름으로 설명된 원시 데이터 사이에 ‘시맨틱 계층’이라는 개념을 도입했다. 이는 데이터 전문가가 이해할 수 있고 비즈니스 사용자에게 인사이트를 제공하는 추상화 계층을 의미한다. 시맨틱 계층은 데이터의 복잡성을 숨기고 데이터를 비즈니스 정의, 논리 및 관계에 매핑한다. 결과적으로 비즈니스 사용자는 매출, 수익과 같은 표준 용어를 사용해 셀프 서비스 애널리틱스를 수행할 수 있었다.
시맨틱 계층의 확산
시맨틱 계층은 환영할 만한 발전이었다. 적어도 각종 BI 도구와 그와 관련된 시맨틱 계층이 범람하기 전까지는 그랬다.
비즈니스오브젝트(BusinessObjects)라는 기업이 1990년대에 SAP 비즈니스 오브젝트에 최초의 경량 시맨틱 계층을 구축했다. 그러나 비즈니스오브젝트와 같은 초기 BI 제품군이 모놀리식이어서 사용자 친화적이지 않았다. 불만을 품은 사용자들은 사용 편의성이 개선된 태블로(Tableau), 파워 BI(Power BI) 및 루커(Looker)를 점차 채택했다.
이러한 도구가 조직 전체에 걸쳐 성장하고 복제됐으며, 그 결과 단일 데이터 원본이라는 개념이 희미해질 지경에 이르렀다. 이제 조직의 여러 부서에서 서로 다른 BI, 분석 및 데이터 과학 도구를 사용해 고유한 데이터 정의, 차원, 측정값, 논리 및 컨텍스트를 생성하고 있다. 또한 각 팀에서 자체적인 시맨틱 체계 계층을 관리한다. 이로 인해 사용자 그룹 간에 데이터 해석, 비즈니스 논리 및 정의에 차이가 발생하고, 이로 인해 데이터 기반 보고서와 인텔리전스에 대한 불신이 생긴다.
일관성 없는 데이터는 종종 팀 간에도 혼란을 야기한다. 예를 들어, 활성 고객이란 서비스에 대한 지속적인 유료 구독을 구매한 사용자를 의미할까? 아니면 지난 7일 이내에 로그인한 적이 있는 사람일까? 아니면 7일 무료 평가판에 가입한 사람일까? 일관되지 않은 정의는 청구 목적의 재무팀, 고객 식별을 위한 갱신팀, 판매된 제품에 대한 정확한 처리 및 보고를 위한 운영팀에 영향을 미친다.
데이터 웨어하우스 내 각종 시맨틱 계층의 확산
이러한 상황에 더해 데이터 아키텍트들도 데이터 웨어하우스 내에 시맨틱 계층을 구현하기 시작했다. 이들 설계자들은 이렇게 데이터 자산을 관리하면 모든 사용 사례에 대한 단일 데이터 원본을 확보할 수 있다고 기대했다.
그러나 일반적으로는 그렇지 않다. 수백만 개의 비정규화된 테이블 구조는 일반적으로 “비즈니스에 사용할 수 있는” 상태가 아니기 때문이다.
시맨틱 계층이 다양한 웨어하우스에 내장되어 있는 경우, 데이터 엔지니어가 애널리틱스 사용 사례를 데이터에 연결해야만 한다. ‘분석이 가능한’ 데이터를 생성할 수 있도록 데이터 파이프라인을 설계하고 유지 관리해야 한다는 의미다.
일관된 시맨틱 계층이 없는 상황에서, 데이터 엔지니어는 데이터 소비자를 지원하기 위해 구축된 파이프라인에 시맨틱 의미(semantic meaning)를 하드코딩하게 된다. 그 결과 시맨틱 의미(정의)는 순식간에 유연성이 없고 정적인 상태로 변모한다. 결과적으로 중앙 집중식 아키텍처 팀이 다양한 작업 그룹의 도메인별 요구 사항을 따라잡기 어렵게 된다. 즉 코드가 확장됨에 따라 관리가 어려워지고 일관성이 없어진다. 이러한 접근 방식은 지연과 종속성을 유발하여 데이터 기반 의사 결정을 방해한다.
로컬화된 시맨틱 계층의 확산
데이터 웨어하우스가 클라우드로 이동함으로 인해 사용자 쿼리가 고통스러울 정도로 느려질 수 있다. 이러한 현상은 비즈니스 사용자가 더 쉬운 조작과 빠른 쿼리를 추구하게 만든다. 그 결과 로컬화된 시맨틱 계층 내에서 시맨틱이 확산되도록 촉진됐다.
오늘날 대부분의 경우, 데이터 스택에는 약간의 시맨틱 계층들이 떠돌아다니고 있다. 클라우드 데이터 웨어하우스, 변환 파이프라인들, 각 BI 도구 등에 모두 조금씩은 존재한다. 이러한 시맨틱의 확산은 극도의 비효율을 초래한다. 데이터 엔지니어가 새로운 데이터 파이프라인을 설계할 때마다 일반적인 비즈니스 개념(예: 전년 대비 예측 또는 통화 변환)을 다시 만들어야 하는 식이다.
즉 데이터 팀은 다양한 데이터 정의 또는 비즈니스 논리와 관련된 새로운 비즈니스 질문에 대한 답을 찾아야 할 때마다 다양한 의미 계층에 흩어져 있는 공통 비즈니스 개념을 끊임없이 재창조하며 하루 종일 두더지 찾기에 몰두한다. 중복된 엔지니어링 작업이자 시간과 리소스의 낭비다.
유니버설 시맨틱 계층 만들기
그래서 바로 유니버설 시맨틱 계층이 필요하다. 이는 각종 시각화 도구, 고객 대면 분석, 임베디드 분석, AI 에이전트 등 가능한 모든 데이터 경험에 대한 모든 메트릭과 메타데이터를 정의하는 계층을 뜻한다. 유니버설 시맨틱 계층을 사용하면 비즈니스 전반의 모든 사람이 ‘고객’, ‘리드’ 등의 용어에 대한 표준 정의와 데이터 간의 표준 관계(표준 비즈니스 로직 및 정의)에 동의하게 되기에, 데이터 팀은 하나의 일관된 시맨틱 데이터 모델을 구축할 수 있다.
유니버설 시맨틱 계층은 데이터 웨어하우스 위에 위치하여 다양한 데이터 애플리케이션에 데이터 시맨틱(컨텍스트)을 제공한다. 이 계층은 변환 도구와 원활하게 작동하여 비즈니스에서 메트릭을 정의하고, 데이터 모델을 준비하며, 다양한 BI 및 분석 도구에 노출할 수 있게 해준다.
유니버설 시맨틱 계층을 구축하려면 데이터 팀은 먼저 시맨틱 데이터 모델에 들어가는 비즈니스 로직, 계산 및 컨텍스트를 확립해야 한다. 비즈니스에서 해결해야 하는 실제 문제를 이해하고 필요한 데이터를 수집한 다음, 데이터 간의 관계를 인코딩하고 신뢰할 수 있는 액세스를 가능하게 하는 거버넌스 및 보안 정책을 정의하는 것부터 시작한다. 그런 다음 메타데이터를 사용해 데이터에 대한 추상화를 구축하여 차원, 계층 구조, 계산을 다운스트림 데이터 소비자에게 일관되게 노출한다.
기초 데이터와 시맨틱이 확립되면 유니버설 시맨틱 계층을 생성형 AI, BI, 스프레드시트 및 임베디드 분석과 같은 데이터 소비자와 통합해야 한다. 미리 구축된 수많은 통합과 강력한 API 제품군을 제공하는 범용 시맨틱 계층 플랫폼으로 큐브 클라우드(Cube Cloud)가 있다. 이는 기업이 데이터를 한 번만 모델링하면 어디서나 데이터를 제공할 수 있도록 해준다. 또한 데이터 모델을 보다 쉽게 협업 및 구축하고, 캐싱 및 사전 집계를 설정하고, 데이터 액세스 제어를 유지할 수 있는 다양한 개발자 도구를 제공한다.
유니버설 시맨틱 계층의 이점
유니버설 시맨틱 계층을 사용하면 데이터 팀은 더 많은 거버넌스와 제어 권한을 갖게 된다. 또 올바르게 구현된 경우 최종 사용자는 데이터에서 더 많은 가치를 얻을 수 있으며, 팀 간의 오해가 줄어들 수 있다. 즉 모든 데이터 소비처에서 동일하고 정확한 데이터로 작업할 수 있다. 따라서 대시보드를 보는 사람이 데이터를 사용하든, 누군가에게 질문에 대한 답을 제공하는 대규모 언어 모델을 사용하든, 데이터는 일관성을 유지한다.
이 덕분에 데이터 팀은 내부 및 외부에서 함께 일하는 다양한 소비자에게 데이터를 신속하게 전달하기가 더 쉬워진다. 데이터 팀은 새로운 메트릭을 쉽게 업데이트하거나 정의하고, 도메인별 데이터 보기를 설계하고, 새로운 원시 데이터 소스를 통합할 수 있다. 또한 액세스 제어, 정의 및 성능을 포함한 거버넌스 정책을 시행할 수 있다.
또 다른 이점도 있다. 데이터 양이 폭발적으로 증가함에 따라 클라우드 컴퓨팅 비용도 치솟기 마련이다. 유니버설 시맨틱 계층은 데이터를 전처리하거나 사전 집계하고, 자주 사용되는 비즈니스 메트릭을 저장하고, 이를 분석의 기반으로 사용하여 클라우드 데이터 비용을 절감함으로써 이 문제를 해결한다. 또한 범용 시맨틱 계층은 전사적 데이터에 대해 매우 높은 성능과 짧은 지연 시간을 제공하여 사용자 쿼리 속도를 높여줄 수 있다.
마침내 등장한 단일 데이터 소스
유니버설 시맨틱 계층은 차세대 데이터 기반 애플리케이션을 구동하기 위해 요구되는 존재다. 데이터를 시각화하고 사용하기 위한 다양한 도구와 다양한 데이터 소스가 존재하는 현실을 인정하고 수용하는 존재이기도 하다. 마침내 각종 기업 메트릭에 대한 단일 데이터 소스를 생성하는 유니버설 시맨틱 계층이 출현했다. 덕분에 의사 결정자는 일관되고 신속하며 정확한 답을 얻는 데 필요한 데이터를 확보할 수 있게 됐다.
아르톰 키두노프는 큐브의 창립자 겸 CEO다.
본 기고문은 인포월드 뉴 테크 포럼에 최초로 게재됐다. 뉴 테크 포럼은 벤더 및 기타 외부 기고자를 포함한 기술 리더들이 깊이 있고 폭넓게 새로운 엔터프라이즈 기술을 탐구하고 토론하기 위한 공간이다. 단순 게재를 위한 마케팅 자료를 받지 않으며, 인포월드는 제공된 모든 콘텐츠를 편집할 권리를 가진다. 문의를 위한 연락처는 [email protected]이다.
Read More from This Article: 기고 | ‘유니버설 시맨틱 계층’으로 데이터 불일치 문제 해결하기
Source: News