비즈니스 의사결정을 더 정확하기 내리기 위해 생성형 AI를 사용하려는 움직임이 거세다. 비즈니스 관리자, 데이터 분석가, 시민 데이터 과학자와 같은 다양한 구성원들은 이제 SQL 쿼리 대신 프롬프트를 사용하여 질문하고, 대시보드 대신 대규모 언어 모델과 상호 작용하며, 데이터를 탐색하는 대신 ML이 생성한 권장 사항을 스캔하여 인사이트를 얻을 수 있다.
2024년 와튼 AI(AI at Wharton) 보고서에 따르면 응답자의 72%가 일주일에 한 번 이상 생성형 AI를 사용하고 있다. IT, 비즈니스 인텔리전스, 고객 서비스, 마케팅, 운영, 제품 개발 분야에서 일하는 응답자의 80% 이상이 생성형 AI 사용으로 인해 중간에서 높은 수준의 업무 변화가 나타났다고 답했다.
데이터 과학자, 엔지니어, 아키텍트, 데이터 거버넌스 전문가 등이 속한 데이터 팀의 역할이 그래서 중요하다. 이 팀은 생성형 AI를 도입하는 부서에 더 많은 데이터 서비스를 제공할 수 있는 기회를 잡아야 한다. 생성형 AI 도구, 자동화, 머신러닝 기능, 데이터 시각화를 사용하여 업무의 미래를 새롭게 그려나가야 하는 것이다.
딜로이트의 기업 내 생성형 AI 현황 보고서(2024년 3분기)에 따르면, 이미 75%의 조직이 데이터 수명주기 관리를 위한 기술 투자를 늘렸다. 가장 많이 취한 조치로는 데이터 보안 강화, 데이터 품질 개선, 거버넌스 프레임워크 업데이트, 클라우드 서비스 제공업체 또는 IT 통합업체와의 협업 강화 등이 있었다.
SAP 데이터 및 분석 부문 사장 겸 최고 제품 책임자 이르판 칸은 “데이터 팀의 역할이 중대하다. 이들이 데이터 액세스를 민주화하고 데이터 기반 의사결정을 위한 견고한 기반을 확보함으로써 조직 내 업무의 미래를 변화시켜야 한다”라고 말했다.
그는 이어 “데이터 팀은 데이터 관리, 거버넌스, 분석을 통해 계산을 자동화하거나 대시보드를 만드는 것 이상의 역할을 수행할 수 있다. 더 깊은 인사이트를 발견하고 직원들이 업무를 더 효율적으로 수행하는 동시에 리소스가 부족한 IT 부서의 밀려드는 요구 사항을 줄이도록 지원한다”라고 덧붙였다.
다음은 데이터 전문가와 데이터 팀이 생성형 AI를 사용하는 여러 현업 팀을 위해 데이터 검색 및 변환을 지원할 수 있는 5가지 방법이다.
데이터 보안은 타협불가
데이터 거버넌스에서 보안은 점점 더 큰 도전 과제다. 최근의 써드파티 위험 관리 연구에 따르면 61%의 기업이 타사 데이터 유출 또는 보안 사고를 보고했으며, 이는 작년에 비해 49% 증가한 수치다. 데이터 액세스 거버넌스는 비즈니스 팀이 LLM 기능을 활용하면서 더욱 데이터 중심적인 조직으로 거듭남에 있어 조직을 보호하는 중요한 첫 단계다.
프루프포인트 DSPM 그룹의 아머 디바 GVP는 “데이터 환경을 거대한 저택이라고 상상해보라. 모두가 열쇠를 원하지만 모든 방에 마스터 키를 나눠줄 수는 없다. 데이터 액세스 거버넌스는 각 사용자에게 필요한 정확한 키를 제공하는 것이며, 그 이상도 이하도 아니다”라고 말했다.
그는 이어 “먼저 모든 데이터 자산을 검색하고 카탈로그화하여 무엇이 어디에 저장되어 있는지, 어디에 있는지, 그 민감도를 명확히 파악하는 것부터 시작하라. 이러한 기본 인사이트를 바탕으로 최소 권한 원칙을 적용하여 사용자가 필요한 것만 액세스하도록 보장하고 제로 트러스트를 지원하며 중요하고 민감한 정보에 대한 위험을 최소화할 수 있다”라고 설명했다.
한편 AI 기능에 대한 현업의 수요가 높다면, 데이터 팀에게는 비정형 데이터 보안 개선, 타사 위험 평가 수행, AI 거버넌스 정책 정의와 같이 꼭 필요한 데이터 관행을 요구할 기회가 더욱 커진다고 그는 덧붙였다.
LLM 문서 처리로 데이터 품질 개선
현업 팀에서 비정형 데이터 소스를 RAG 및 LLM에서 사용하려 한다면, 데이터 팀은 데이터 정리, 준비 및 카탈로그화 작업을 통해 이를 지원할 수 있다.
EDB의 분석, 데이터 및 AI 엔지니어링 담당 부사장인 제레미 켈웨이는 “업무의 미래가 데이터에 기반한 의사 결정에 달려 있다. 우선순위 결정은 종종 데이터의 정확성과 적시성에 달려 있다. 데이터 팀은 데이터를 공급하는 분석 및 AI 애플리케이션이 조직의 목표를 진정으로 반영하는지 확인해야 한다. RAG AI 애플리케이션에서 문서 준비는 의미 있는 결과를 도출하는 데 적합한 데이터를 결정하는 데 중요한 단계다”라고 말했다.
비정형 데이터를 위한 데이터 파이프라인을 구축하는 단계에는 엔티티 추출, 감정 분석, 편향성 탐지가 포함된다. LLM 기술 이전에는 데이터 추출을 위한 자연어 처리를 위해 문서 구문 분석, 키워드 검색, 감정 및 편향성을 위한 전문 알고리즘 활용 등을 혼합해야 했다. 생성형 AI와 머신러닝은 문서 처리에 대해 더 나은 기능 옵션을 제공한다.
사다(SADA)의 데이터 과학자 콜린 디트리히는 “데이터 파이프라인의 각 단계에서 AI를 활용하면 새로운 프로젝트를 빠르게 시작하고 비즈니스 가치를 더 빨리 제공할 수 있다. AI와 ML은 데이터 웨어하우징, 큐레이션, 퍼블리싱 프로세스 전반에 걸쳐 가속기 역할을 할 수 있다. 파생 데이터 생성을 자동화하고, 예측 알고리즘을 개선하며, 자연어로 의사 결정 지원 제품을 향상시킬 수 있다”라고 말했다.
데이터 중앙집중화를 통한 시민 데이터 과학자 역량 강화
다음으로 데이터 팀은 데이터 관리 전략과 데이터 원본에 더 쉽고 빠르게 접근할 수 있는 방법을 고려해야 한다. 기업이 고려할 수 있는 데이터 관리 기술로는 데이터 웨어하우스, 데이터 레이크 및 레이크하우스, 데이터 패브릭 등이 있다. 어떤 기술이든 시민 데이터 과학자와 비즈니스 팀의 사용 편의성이 핵심이다.
IBM의 제품 관리 부사장 미드햇 샤히드는 “데이터 액세스를 간소화하고 실시간 분석을 위한 양질의 데이터를 지원하는 아키텍처 접근 방식이 데이터 패브릭이다. 이는 이미 시민 데이터 과학을 지원함으로써 팀의 업무 방식을 변화시키고 있으며, 더 많은 부서에서 사용자 친화적인 대시보드를 통해 데이터를 생성, 액세스, 활용할 수 있도록 지원한다”라고 설명했다.
그는 이어 “나아가 셀프 서비스 문화를 조성함으로써 모든 부서가 데이터 기반 의사 결정에 기여하고 그에 따라 행동할 수 있도록 지원하여 데이터에 기반한 확장 가능한 비즈니스 문화를 조성한다”라고 덧붙였다.
LLM 이전에는 시민 데이터 과학자의 주요 업무로는 대시보드 개발, 새로운 데이터 원본에 대한 데이터 탐색 단계 수행, 임시 쿼리 수행 등이 있었다. 하지만 이제 현업 팀과 데이터 과학자들은 더 확장된 업무 영역을 가진다. RAG 개발, SaaS LLM에 지식 포함, AI 에이전트 활용 등이 대표적이다. 이를 감안할 때 데이터 팀은 기본 데이터 소스에 사용할 수 있는 API와 현재 및 향후 사용 사례에 사용할 수 있는 지식 리포지토리를 보유해야 한다.
사이센스(Sisense)의 아리엘 카츠 CEO는 “LLM 지식을 엔터프라이즈 데이터와 통합하면 예측 인사이트를 확보하고 실시간 의사 결정을 내릴 수 있기에 정보 작업자를 능동적인 의사 결정자이자 혁신의 촉매제로 전환할 수 있다. 데이터 팀은 게이트키퍼에서 인에이블러로 진화해야 한다. 복잡성을 추상화하고 모든 크리에이터가 손쉽게 분석을 내장할 수 있도록 지원하는 데이터 API 서비스를 제공해야 한다”라고 말했다.
나임(KNIME)의 마이클 버톨드 CEO는 모델을 프로덕션에 적용하기 전에 데이터 품질과 액세스에 대한 가드레일을 마련하는 것이 중요하다고 강조했다. 그는 “모델이 잘못된 예측을 하거나 민감한 정보를 유출할 수 있다는 사실을 기업들이 깨닫고 있다. 효과적인 도구는 데이터 흐름과 모델 사용을 관리하고, 이러한 위험을 줄이기 위한 보호 장치를 추가하는 데 도움이 된다”라고 말했다.
데이터 검색을 간소화하기 위한 데이터 마켓플레이스 구축
데이터 팀이 고려해야 할 최종 사용자 페르소나는 시민 데이터 과학자만이 아니다. 기술 수준이 낮은 다른 비즈니스 사용자도 데이터 원본을 검색하고 액세스할 수 있어야 한다. 데이터 카탈로그를 사용하고 데이터 사전을 만드는 것은 더 광범위한 데이터 액세스를 가능하게 하는 중요한 첫 단계다. 데이터 마켓플레이스를 구축하는 과정에서 조직은 셀프 서비스 데이터 및 AI 프로그램을 확장할 수 있는 기회를 잡을 수 있다.
이뮤타(Immuta)의 최고 제품 책임자 모리츠 플라스니그는 “여러 계층의 IT 및 거버넌스 관료주의가 데이터 액세스 속도를 늦추고 있다. 또 혁신의 속도를 높이고 공급망 물류를 개선하며 혁신적인 AI 애플리케이션을 배포하는 것을 어렵게 만들고 있다”라고 지적했다.
그는 이어 “AI의 도입이 가속화되면서 데이터가 새로운 킬러 앱으로 부상했다. 데이터 팀은 검색과 액세스를 자동화하는 동시에 엔터프라이즈급 거버넌스와 보안을 제공하는 내부 데이터 마켓플레이스를 구축함으로써 조직 구성원 모두가 데이터를 소비하도록 지원할 수 있다”라고 말했다.
데이터 마켓플레이스는 여러 주요 대용량 데이터 소스를 통합해야 하는 산업에서 특히 유용할 수 있다. 이를 테면 제조, 건설, 에너지 및 기타 산업 분야의 기업은 데이터 카탈로그와 마켓플레이스를 사용하여 마케팅, 현장 운영, 공급망, 재무 및 기타 부서의 의사 결정을 지원하기 위해 실시간 데이터 소스를 집계하고 간소화할 수 있다.
아주리(Augury)의 전략 담당 부사장 아르템 크라우페네프는 “데이터는 풍부하지만 탐색하기 어려운 제조업과 같은 산업에서 데이터 팀이 특히 중요하다. 데이터 팀의 역할은 단순히 데이터를 운영하는 것이 아니라, 데이터에 액세스하고 사용하기 쉬우며 영향력 있는 데이터를 확보하여 모든 사람이 데이터 과학자가 될 수 있도록 지원하는 것이다”라고 말했다.
협업을 촉진하는 데이터 제품 개발
마켓플레이스는 데이터 원본을 검색하고, 액세스하고, 통합하는 데에만 유용하지 않다. 이제 데이터 팀은 고급 대시보드, 머신러닝 모델, LLM 기능, AI 에이전트를 데이터 제품으로 간주하고 제품 개발 이니셔티브로 관리할 수 있다. 각 제품별로 고객 세그먼트, 가치 제안, 전략적 목표를 설정하고 제품 로드맵을 통해 관리할 수 있다.
애스트로노머(Astronomer)의 피트 드조이 전략 담당 수석 부사장은 “데이터 제품이라는 개념은 유행어에서 현대 데이터 기반 조직의 중요한 요소로 진화했다”라며, “이러한 물리적 제품 및 공급망 비유와의 연계는 엔드투엔드 데이터 수명 주기를 명확히 하여 기술 팀과 비기술 팀 간의 커뮤니케이션 격차를 해소하는 데 도움이 된다”라고 말했다.
점점 더 많은 현업 팀이 데이터를 중심으로 작업하고 AI가 점점 더 중요한 비즈니스 역량이 되면서 데이터와 비즈니스 팀을 구분하는 경계가 모호해지고 있다. 미래의 업무 환경에서는 데이터 팀이 자신의 임무를 재정립하고 더 많은 부서와 사용 사례에 서비스를 제공해야 한다. 더 구체적으로는 향상된 데이터 거버넌스, 데이터옵스, 마켓플레이스 및 데이터 제품을 책임져야 한다.
[email protected]
Read More from This Article: ‘AI 조직 지향한다면…’ 데이터 팀이 나서야 할 5가지 영역
Source: News