데이터 레이크하우스 전쟁은 사실상 끝났다. 오픈소스 아파치 아이스버그가 승리했다. 아이스버그의 개발자들이 설립한 스타트업인 타뷸러를 데이터브릭스가 10억 달러(추정)에 인수한 사실도 이 현실을 바꾸지는 못할 것이다.
그럼에도 불구하고 데이터브릭스의 대담한 움직임은 일부 CIO와 전문가들을 혼란스럽게 하고 있다. 레이크하우스 분야의 선구자인 데이터브릭스가 무슨 이유로 타뷸러를 인수하기 위해 그렇게 많은 비용을 지출했는지 납득하기 어렵기 때문이다. 큰 잠재력을 가졌을지라도 타뷸라는 연 매출 100만 달러에 불과한 3년 차 신생 스타트업이다.
일각에서는 데이터브릭스가 순항 중인 아이스버그 생태계에 불확실성을 더하여 속도를 늦추고자 했다고 추측한다. 또 다른 이들은 데이터브릭스의 의도에 대해 타뷸러 팀이 델터 레이크 프로젝트에 집중하도록 하는 것이라고 바라본다. 참고로 타뷸러 팀은 아이스버그의 운영과 개발에 핵심적인 역할을 해왔던 바 있다. 즉 자체 플랫폼에 도움이 되는 동시에 대체 레이크하우스 테이블 진영의 리소스를 빼앗으려 한다는 관측이다.
또 다른 가설도 있다. 경쟁사의 전략 희석하기 위해 데이터브릭스 경영진이 수십억 달러의 돈을 들였다는 것이다. 또 임박한 IPO를 앞두고 월스트리트의 불안감을 달래기 위해 자신을 차별화할 수 있는 빠른 방법을 원했을 수도 있다.
이유가 무엇이든, 데이터브릭스는 이번 인수가 가져올 개방성과 이동성에 대해 적절한 주장을 펼치고 있다. 여러 추측을 불러일으킬 만큼 모호한 표현이긴 하지만 말이다.
AWS의 오픈소스 전략 및 마케팅 디렉터인 데이빗 날리는 “이번 인수에 다소 산만한 면이 있지만, 이런 종류의 자금이 움직일 때는 그럴 수 있다고 본다. 내가 확인한 뚜렷한 신호 중 하나는 더 많이 이들이 몰려들고 있다는 것이다. 실제로 속도가 빨라지고 있다. 그 점이 매우 기쁘다”라고 말했다. AWS 글루와 아마존 아테나 등의 분석 서비스에 아이스버그를 통합한 AWS는 지난 3년 동안 아이스버그 개발에 적극적으로 참여해 왔다.
실제로, 오늘날 진행 중인 작업의 대부분은 아이스버그 테이블 형식과 관련된 것이 아니다. 그리고 내부자들에 따르면 작업 대부분은 비교적 안정적인 상황이다. 아울러 아이스버그가 기본 테이블 형식으로 자리를 잡은 가운데 상단에 있는 REST 카탈로그 계층, 즉 아이스버그의 확장 가능 범위와 데이터 전문가의 관리 기능을 정의하는 데 도움이 되는 API가 새로운 격전지로 떠오르고 있다.
이 영역은 데이터브릭스가 영향력을 발휘할 수 있는 곳이기도 하다. 자신들이 관할하는 데이터와 경쟁 플랫폼에 저장된 정보를 결합하는 방법을 통해서다. 실제로 데이터브릭스는 이미 이를 시도하고 있다. 데이터브릭스는 타뷸러를 인수한 바로 다음 주에 자체 거버넌스 도구인 데이터브릭스 유니티 카탈로그를 오픈소스로 공개했다.
클라우데라의 벤캇 라자지 제품 관리 수석 부사장은 “데이터 카탈로그는 비즈니스에서 메타데이터를 관리하는 곳이기 때문에 매우 중요하다”라고 말했다. 클라우데라 또한 자사 플랫폼의 아이스버그 및 REST 카탈로그 기능 모두에 투자해 왔다. 그는 “최근 아이스버그 REST 카탈로그를 중심으로 엄청난 혁신이 이뤄지고 있다. 데이터 영역 싸움이 끝났기 때문이다. 하지만 메타데이터 영역 전쟁은 이제 막 시작됐다”라고 말했다.
레이크하우스의 매력
데이터 레이크하우스 테이블 형식에 대한 홍보 문구를 듣다보면 실로 매력적이다. 이는 기본적으로 비즈니스 분석가와 데이터 과학자가 필요한 데이터 저장소가 어디에 있든, 어떤 처리 엔진을 선택하든 이를 혼합하고 조합할 수 있는 기능을 제공하는 추상화 계층이다.
메타데이터 변경 사항을 포함해 모든 것이 기록되므로 다양한 관리 및 거버넌스 기능을 위한 기반을 마련할 수 있다. 데이터 자체는 복사되지 않고 변경되지 않은 상태로 그대로 유지된다. 따라서 여러 프로젝트에서 한 번에 데이터를 활용할 수 있다. 그리고 테이블 형식은 모든 데이터를 추적한다.
또 이 형식은 개별 프로젝트의 불필요한 데이터 복사본을 없애기에 스토리지 비용 부담을 줄이며, 덕분에 보안, 안정성, 관리 문제도 감소한다. CIO들은 엄지손가락을 치켜세우는 이유다. 그리고 적어도 이론적으로는 이 모든 것이 공급업체에 종속되지 않고 이뤄진다.
비종속성, 즉 기업을 독점 데이터 웨어하우스에 묶어두는 독점적인 기능 추가와 가파른 수수료와 같은 호텔 캘리포니아 스타일의 문제가 없다는 점은 당시 넷플릭스 소속이었던 아이스버그 창안자들이 아이스버그를 개발할 때 주력했던 부분이다.
실제로 공급업체에 구애받지 않도록 하는 접근 방식은 애플, 씨티뱅크, 핀터레스트와 같은 데이터 중심 기업을 이 프로젝트에 끌어들이는 데도 도움이 되었다. 그리고 이 접근 방식은 계속해서 인기를 얻고 있다.
델타 레이크도 기술적으로도 개방되어 있다. 데이터브릭스는 넷플릭스가 아이스버그 프로젝트를 아파치 소프트웨어 재단에 넘긴 것과 거의 같은 시기에 델타 레이크를 리눅스 재단에 기부했다. 그러나 이 플랫폼에 대해 데이터브릭스의 영향력이 커짐에 따라 데이터브릭스 런타임과 같은 독점적인 장치를 유지 및 강화할 수 있는 기회가 출현할 가능성을 일부 CIO들은 우려하고 있다.
스노우플레이크의 수석 엔지니어인 러셀 스피처는 “사실 델타 레이크가 한 회사의 아이디어라는 느낌이 분명히 있다”라고 말했다. 지난 6월 애플에서 스노우플레이크로 옮긴 스피처는 아이버그 프로젝트 관리 위원회(PMC)뿐만 아니라 스노우플레이크가 6월 아파치에 기부한 REST 호환 API인 아파치 폴라리스(Apache Polaris)의 포들링(인큐베이팅) PMC의 일원으로 활동하고 있다. 또한 두 프로젝트 모두에 코드를 기여하고 있다. 그는 “오픈소스로 알려져 있지만 실제로는 데이터브릭스 제품이다”라고 말했다.
이길 수 없다면…
아이스버그 채택의 첫 번째 물결은 2020년경에 본격적으로 시작됐다. 톱 레벨 아파치 프로젝트가 된 시기다. 이 때부터 AWS 외에도 클라우데라, 드레미오와 같은 개방형 중심 공급업체들이 아이스버그를 중심으로 서비스를 구축하기 시작했다. 구글도 이 물결의 막바지에 뛰어들었다.
대부분의 독점 데이터 플랫폼 제공사들은 초기에 방관했다. 아이스버그의 모든 데이터-모든 엔진 구조(any-data-any-engine construct)가 기존 비즈니스 모델에 위협이 될 수 있다는 이유에서였다. 단 스노우플레이크는 예외였다. 이 데이터 플랫폼 제공업체는 강력한 경쟁사인 델타 레이크의 레이크하우스 형식에 대응할 수 있는 솔루션이 필요했기 때문에 이 시기에 아이스버그에 투자하기 시작했다.
하지만 기업들이 생태계 내 여러 웨어하우스의 데이터를 아이스버그와 결합할 것이 분명해지자 독점 플랫폼 제공업체들은 본격적으로 지원을 추가하기 시작했다. 데이터를 관리하고 처리까지 호스팅할 수 있는 더 나은 위치를 확보하기 위해서였다.
작년에만 컨플루언트, 오라클, 세일즈포스가 아이스버그에 대한 지원을 추가했다. 스노우플레이크는 폴라리스를 통해 아이스버그 지원을 더욱 강화했다. 델타 레이크에 대한 투자로 인해 마지막 클라우드 서비스 제공업체로 남아있던 마이크로소프트도 6월에 스노우플레이크의 출시 파티에 합류했다. 물론 데이터브릭스도 범위를 빠르게 확장하고 있다.
스노우플레이크의 스피처는 “아이스버그의 성취는 놀랍다. 예전에는 왜 (아이스버그에) 관심을 가져야 하는지 설명해야 했다. 하지만 이제는 모두가 알고 있다. 그리고 모두가 아이스버그를 향해 나아가고 있다는 것을 모두가 알고 있다”라고 말했다.
메타데이터의 중요성
아이스버그는 서로 다른 데이터 저장소를 결합하고 작업할 수 있는 훌륭한 기반을 만들어 준다. 이제 엔터프라이즈 데이터 분석 생태계가 기본적으로 마련됐으며, 다음 단계의 작업은 카탈로그 계층에서 이루어지고 있다. 그리고 AWS, 클라우데라, 데이터브릭스, 스노우플레이크 등은 모두 아이스버그가 최대한 많은 데이터로 잘 작동하도록 하기 위해 노력하고 있다.
AWS의 오픈 데이터 분석 엔진 디렉터이자 회사의 아이스버그 기여를 관리하고 있는 로드 버드는 “카탈로그란 테이블 형식 그 이상이다. 카탈로그는 거버넌스에 관한 것이기도 하다”라며, “따라서 테이블 형식 위에 있는 추상화 계층인 카탈로그 API를 혁신할 수 있는 또 다른 좋은 기회가 있다. 이것이 바로 고객들이 요구하는 바다. 고객들에게 문제 해결의 새로운 지평을 열어주고 있기 때문이다”라고 말했다.
[email protected]
Read More from This Article: 칼럼 | 꿈의 데이터 레이크하우스가 한층 가까워진다
Source: News