개념? 아키텍처? 기술?··· 데이터 메시 vs. 데이터 패브릭 vs. 데이터 가상화 이해하기

데이터에서 가치를 추출하려는 노력이 진지하게 이어지고 있다. 특히 데이터가 여러 클라우드, 데이터센터, 데이터 사일로에 분산되어 있을 때 더욱 그렇다. 이 기술을 배우는 과정에서 자주 듣게 되는 3가지 용어는 데이터 메시, 데이터 패브릭, 데이터 가상화다. 이 3개의 개념은 처음 접할 때 서로 겹치는 것처럼 보일 수 있다. 하지만 이 세 개념 사이에는 차이가 있다.

호스팅어드바이스(HostingAdvice)의 시니어 애널리스트 조 워니몬트는 이들 개념을 이해하는 한 가지 방법을 제시한다. “데이터 패브릭은 데이터를 이동시키는 실제 고속도로 시스템이라고 생각해본다. 데이터 메시는 조직의 데이터 접근 방식이라는 무형의 요소에 초점을 맞춘다고 볼 수 있다. 데이터 가상화는 조직의 모든 부분과 그 안의 시스템이 데이터를 이동할 때 서로 이해할 수 있도록 번역자 역할을 한다고 비유할 수 있다.
”
데이터 메시, 데이터 패브릭, 데이터 가상화를 더 잘 이해하기 위해 세부 사항을 알아보는 한편, 3가지 개념이 공존하는 사례를 살펴본다.

데이터 메시란?

“데이터 메시는 데이터의 분산형 모델이다. 이 모델에서는 제품 엔지니어나 LLM 전문가와 같은 도메인 전문가들이 자신의 데이터를 직접 관리하고 통제한다”라고 오리온 이노베이션(Orion Innovation)의 데이터 및 애널리틱스 글로벌 책임자 아산 파루키는 설명했다.

특정 기반 기술과 연결되어 있지만 데이터 메시는 근본적으로는 사고 방식의 변화다. 데이터 메시 아키텍처를 채택한 조직에서는 도메인별 데이터가 해당 도메인과 관련된 팀이 소유하는 제품으로 간주된다. “데이터 메시는 팀에 권한을 부여하는 모델이다. 데이터를 팀의 전략적 자산으로 취급한다”라고 파루키는 설말했다.

데이터 메시는 도메인 주도 설계(Domain-Driven Design) 개념에서 비롯되었으며, 이는 다시 마이크로서비스 기반 아키텍처의 아이디어를 형성했다. 데이터 메시는 데이터에 대한 마이크로서비스 기반 아키텍처로 생각할 수 있다. 즉 특정 도메인 아래의 데이터는 해당 팀이 소유하며, API나 기타 기술을 통해 해당 데이터를 잠재적 소비자에게 제공할 수 있다.

데이터 패브릭이란?

데이터 패브릭은 조직 내 다양한 위치에 저장된 데이터에 대한 통합된 액세스를 제공하는 아키텍처 유형이다. 코넬리스 네트웍스(Cornelis Networks)의 필드 CTO인 매트 윌리엄스는 다음과 같이 설명했다.

“데이터 패브릭은 데이터가 어디에 저장되어 있든 관계없이 온프레미스, 클라우드, 하이브리드, 에지 환경을 가로지르며 지능적이고 실시간 액세스를 제공하는 아키텍처 및 데이터 서비스 세트다. 이는 다중 애플리케이션에 걸친 대규모 데이터센터에서 선호하는 아키텍처다.”

데이터 패브릭 개념은 대부분의 기업이 모든 부서의 귀중한 데이터를 통합할 수 없거나 원하지 않는다는 점을 인정한다. 개별 데이터 사일로를 상호작용하는 추상화 계층으로 기능하며, 대규모 전통적인 RDBMS부터 작은 부서별 NoSQL 데이터베이스에 이르기까지 모든 곳에 저장된 중요한 정보를 연결한다.

데이터 패브릭은 AI/ML을 활용해 모든 데이터 간의 관계를 이해하고 유용한 인사이트를 제공한다. (데이터 패브릭의 작동 방식과 채택 현황에 대한 자세한 내용은 본지의 ‘What is data fabric? How it offers a unified view of your data’를 참고한다.)
https://www.infoworld.com/article/3958517/what-is-data-fabric-how-it-offers-a-unified-view-of-your-data.html
간단히 말해 데이터 패브릭은 데이터 메시보다 기술적이며, 데이터 메시는 더 개념적이다. 여러 벤더가 데이터 패브릭 솔루션을 판매하고 있다. 대개 기업의 데이터에 대한 단일 창을 제공하는 대규모 아키텍처 솔루션을 의미한다.

데이터 가상화?

데이터 패브릭과 데이터 메시 모두 여러 장소에 걸쳐 여러 형식으로 저장된 데이터를 처리해야 한다. 데이터 가상화는 이를 가능하게 하는 핵심 기술이다. “데이터 가상화는 여러 시스템에 걸쳐 데이터의 통합된 뷰를 생성하고, 사용자가 데이터를 물리적으로 이동하거나 복사하지 않고도 액세스, 쿼리, 분석할 수 있도록 하는 기술 레이어다”라고 윌리엄스는 설명했다. 이는 서로 다른 데이터 저장소를 일치시키거나 오래된 데이터를 처리하는 데 신경 쓰지 않아도 된다는 의미다.

데이터 패브릭은 데이터 가상화를 활용해 단일 창(single pane of glass)을 생성한다: 사용자는 데이터가 물리적으로 분산되어 있더라도 통합된 세트로서 볼 수 있다. 이는 데이터 메시를 구현하는 기업에서도 중요하다. 결국 데이터 소유 부서는 자체적으로 이질적인 데이터 환경을 다루어야 하며, 통합되고 유용한 데이터 제품을 생성하기 위해 데이터 가상화가 필요하다.

데이터 패브릭, 메시, 가상화의 실제 적용 사례

로빈 파트라(Robin Patra)는 세인트루이스에 본사를 두고 있는 아르코 컨스트럭션(ARCO Construction)의 데이터, 분석 및 AI 담당 디렉터다. 파트라는 이 세 가지 개념이 실제 상황에서 어떻게 상호 보완될 수 있는지 다음과 같이 설명했다:

“우리는 CRM부터 법务, 재무, 인사까지 다양한 기능에 걸쳐 10개 이상의 ERP 시스템을 운영하고 있었고, 각 시스템에서 동일한 데이터 요소를 서로 다르게 정의하고 있었다. 건설 회사에게 중요한 데이터 포인트인 ‘평방 피트’는 시스템마다 다른 의미를 가졌다. 데이터 메시를 통해 데이터 소유권을 분산시키고 비즈니스 도메인 중심으로 데이터를 정렬했다. 예를 들어 ‘프로젝트’ 도메인의 소유자는 이제 모든 시스템에서 평방 피트를 정의하고 표준화하며 관리하는 책임을 지게 되었다.”

“데이터 메시를 통해 소유권과 책임감을 확립한 후, 우리는 도메인 간 원활하고 관리된 데이터 흐름이 필요했다. 데이터 패브릭은 이 연결 고리를 제공한다. 이는 하이브리드 환경에서 도메인을 연결하는 기술적 레이어다. 이를 통해 실시간으로 신뢰할 수 있는 지표를 추출해 비즈니스 전반에서 측정 가능하고 실행 가능한 자산으로 전환한다. 이는 의사결정 레이어를 지원한다.”

“데이터가 연결되고 표준화되자, 데이터를 이동하거나 조작하지 않고 사용할 수 있는 인력이 필요했다. 가상화를 통해 팀은 시스템 간에 데이터를 복제하거나 변경하지 않고 관리된 데이터를 쿼리할 수 있다. 이는 비용 효율성, 데이터 일관성, 수치에 대한 신뢰를 보장한다.”

“요약하자면, 데이터 메시는 명확성과 소유권을 제공하며, 데이터 패브릭은 연결성과 흐름을, 데이터 가상화는 혼란 없이 접근성을 제공한다. 이들은 경쟁 개념이 아니다. 아르코 컨스트럭션에서 이들은 함께 구동함으로써 진정한 데이터 중심 기업을 뒷받침하고 있다.”
dl-ciokorea@foundryco.com

개념? 아키텍처? 기술?··· 데이터 메시 vs. 데이터 패브릭 vs. 데이터 가상화 이해하기

데이터 메시란?

데이터 패브릭이란?

데이터 가상화?

데이터 패브릭, 메시, 가상화의 실제 적용 사례

Related posts