데이터브릭스 부사장 “분석·운영 데이터 통합이 AI 성패 가른다”…플랫폼 전략 공개

이날 기조연설자로 나선 데이터브릭스 아태지역 필드 엔지니어링 담당 부사장 닉 에어스는 기업들이 AI 전환 과정에서 직면한 근본적인 문제로 ‘데이터 분산’을 지목했다. 그는 “오늘날 대부분의 기업은 다양한 시스템에 데이터가 흩어져 있어 동일한 데이터가 중복되거나 서로 다른 기준으로 관리되는 문제가 발생한다”고 설명했다

이어 분석 데이터와 운영 데이터가 분리된 구조 역시 AI 활용을 저해하는 핵심 요인이라고 지적했다. 에어스 부사장은 “AI가 실제 비즈니스에 적용되기 위해서는 분석용 데이터뿐 아니라 실시간 운영 데이터까지 통합적으로 활용돼야 한다”며 “이 두 영역을 하나로 결합하는 것이 AI 시대의 핵심 과제”라고 밝혔다. 기업마다 서로 다른 데이터 정의와 거버넌스 체계가 존재하는 점도 문제로 꼽았다. 그는 “같은 ‘매출’이라도 시스템마다 정의가 다르면 AI 결과를 신뢰하기 어렵다”며 “데이터의 표준화와 통합 거버넌스가 필수”라고 말했다.

이를 위해 데이터브릭스가 제시한 해법이 레이크하우스와 레이크베이스(Lakebase)의 결합이다. 레이크하우스가 대규모 분석 데이터를 처리하는 역할을 해왔다면, 레이크베이스는 포스트그레스(Postgres) 기반의 운영용 데이터베이스로서 서버리스 자동 확장, 브랜칭, 스냅샷 등의 기능을 제공한다. 에어스 부사장은 “에이전트가 0에서 1,000까지 확장할 때 필요한 탄력성, 에이전트 버전이 진화할 때의 브랜칭 기능, 문제 발생 시 이전 상태로 돌아가는 스냅샷 기능을 레이크베이스가 지원한다”고 설명했다.

에어스 부사장은 데이터 기반이 갖춰지더라도 기업 맥락 없이는 AI가 범용적인 답변만 내놓을 수밖에 없다고 지적하며, 이를 해결하는 제품으로 ‘지니(Genie)’를 소개했다. 그는 “프론티어 모델들은 일반적인 문제 해결에는 뛰어나지만, 고객사의 데이터·제품·정책에 대해서는 학습돼 있지 않다”며 “지니가 유니티 카탈로그에 저장된 데이터와 비즈니스 의미를 실시간으로 연결해 대화에 맥락을 부여한다”고 설명했다. 지니는 코드를 모르는 현업 사용자가 자연어로 데이터를 탐색·시각화하는 ‘지니 스페이스’와, 고급 사용자가 자율 에이전트와 협업해 파이프라인·예측 모델 등을 구축하는 ‘지니 코드’로 나뉜다.

에이전트를 프로덕션 환경에서 안정적으로 운영하고 품질을 유지하는 과제에 대해서는 에이전트브릭스(AgentBricks)를 제시했다. 에어스 부사장은 “에이전트를 만드는 것 자체는 어렵지 않지만, 프로덕션에서 품질 있는 결과를 보장하는 것이 진짜 어려운 문제”라며 “소프트웨어 공학의 테스트 주도 개발(TDD)처럼 에이전틱 시대에는 ‘평가 주도 개발(evaluation-driven development)’이 새로운 패러다임이 돼야 한다”고 말했다. 에이전트브릭스는 평가 프레임워크를 자동 생성하고 일종의 LLM 평가 도구(judge)를 통해 에이전트 품질을 검증한 뒤, 비용과 품질 간의 최적점을 찾아 제시하는 방식으로 작동한다.

Databricks

행사와 별도로 진행된 기자간담회에서는 데이터브릭스의 한국 시장 전략과 기술 방향이 보다 구체적으로 공유됐다.

강형준 데이터브릭스 코리아 지사장은 회사의 핵심 철학으로 ‘데이터와 AI의 민주화’를 제시하며, “AI를 통한 데이터의 민주화, 데이터를 통한 AI의 민주화가 데이터브릭스가 추구하는 방향”이라고 밝혔다. 그는 “제대로 정제된 데이터 없이는 AI의 답변이 정확할 수 없다”며 기업이 자체 데이터를 기반으로 AI를 활용하는 것이 중요하다고 강조했다.

한국 시장 진출 4년 차인 데이터브릭스 코리아는 지난 3년간 매년 100% 이상의 매출 성장을 이어가고 있으며, 올해도 같은 수준의 성장을 목표로 하고 있다. 강 지사장은 그 배경으로 한국의 탄탄한 디지털 인프라, 선도 기업을 빠르게 따라가는 얼리어답터 문화, 정부의 적극적인 AI 정책 지원 등 세 가지를 꼽았다.

차별화 전략과 관련해 강 지사장은 “범용 파운데이션 모델만으로는 기업에 의미 있는 답변을 얻을 수 없다”며 “데이터브릭스는 최신 파운데이션 모델들을 플랫폼 안에 탑재해 보안과 거버넌스, 접근성이 제어되는 환경에서 기업 데이터를 활용할 수 있도록 한다”고 설명했다. 기업들이 오픈AI, 구글, 앤트로픽 등 외부 모델에 자사 데이터가 학습에 활용될 수 있다는 우려를 갖고 있는 만큼, 플랫폼 내에서 모델을 구동해 이러한 우려를 해소하는 것이 핵심이라고 덧붙였다.

최근 업계에서 제기되는 ‘SaaS포칼립스(SaaSpocalypse)’ 일명 SaaS 위기론에 대해서도 선을 그었다. 강 지사장은 본사 경영진의 해외 매체 인터뷰를 언급하며 “데이터브릭스는 세일즈포스 같은 SaaS 회사가 아니라, AI에 필요한 데이터 프로세싱·저장·에이전트 구축을 위한 플랫폼을 제공하는 회사”라며 “SaaS포칼립스와는 거리가 있는 기업이며, 데이터브릭스 플랫폼이 클로드 코드와 같은 도구로 대체되기는 어렵다고 보고 있다”라고 밝혔다.

조성현 데이터브릭스 코리아 기술총괄은 올해 한국 시장에서 중점 추진하는 제품으로 레이크베이스, 지니, 에이전트브릭스를 제시했다. 조 기술 총괄은 “기존 데이터베이스는 스토리지와 컴퓨팅이 긴밀하게 결합돼 확장이 어렵고, 버전 업그레이드 시 셧다운이 필요하며, 운영 데이터를 분석에 활용하려면 별도 ETL 파이프라인을 구축해야 했다”라며 “AI 시대에는 데이터베이스가 더 자동화되고 지능화돼야 한다”고 말했다. 레이크베이스는 글로벌에서 올해 정식 출시(GA)됐으며, 한국에는 5월 배포 예정이다.

지니는 올해 1분기 한국 리전에 배포됐으며, 이를 구동하는 LLM 모델도 국내에서 서비스되고 있다. 조 총괄은 이를 통해 제조·금융 등 보안에 민감한 기업들도 활용을 확대하고 있다고 설명했다. 에이전트브릭스 역시 올해 한국에서 정식 출시(GA)됐다. 데이터브릭스에 따르면 해당 기능은 멀티 에이전트 시스템 구축 시 평가 지표를 자동 생성하고, 벤치마킹과 최적화를 반복 수행하며 비용 대비 적합한 모델을 추천하는 것이 특징이다.

AI로 다양한 기능을 직접 구현할 수 있는 환경에서도, 조 총괄은 기업이 자체 구축 대신 데이터브릭스 기능을 활용하는 배경으로 현실적인 과제를 짚었다. 그는 “기업에서 커서(Cursor)나 클로드 코드로 개발 환경을 구축할 경우 특정 사용자의 LLM 토큰 사용량 통제나 기업 데이터의 외부 모델 유출 방지 등 관리 이슈가 발생한다”고 지적했다. 이어 데이터브릭스가 파운데이션 모델 API(FMA)를 통해 다양한 모델을 제공하고 AI 게이트웨이를 통해 모니터링·가드레일·비용 통제를 지원함으로써 이러한 관리 문제 해결에 기여한다고 설명했다.

또한 조성현 총괄은 “지니 코드는 백엔드에서 클로드 코드 기반으로 구현돼 있다”며 “CLI 기반 개발을 원하는 고객에게는 데이터브릭스 환경과의 인터페이스 가이드를 제공하고, UI 기반 개발은 지니 코드를 활용하도록 조언하고 있다”고 밝혔다.

한편 ‘AI 데이즈 서울’ 행사에서는 데이터브릭스의 기술 소개 세션과 별개로 LG유플러스, 티맵모빌리티, 놀유니버스 등 기업의 기술 리더들이 참여해 도입 사례를 발표했다.
jihyun.lee@foundryco.com

데이터브릭스 부사장 “분석·운영 데이터 통합이 AI 성패 가른다”…플랫폼 전략 공개

Related posts