칼럼 | 데이터 과학자가 생성형 AI 혁신을 위해 갖춰야 할 5가지 역량

최근까지 데이터 과학자와 분석가의 주된 작업 결과물은 데이터 시각화, ML 모델, 대시보드, 보고서, 스토리텔링에 사용되는 분석 인사이트였다.

앞으로 데이터 과학자는 생성형 AI의 기능을 활용해서 비정형 데이터 소스까지 포함하도록 분석 범위를 확장하고, 비즈니스팀이 데이터 기반 의사 결정으로 전환하도록 돕고, AI 윤리와 거버넌스에 대해 자문하고, 갈수록 늘어나는 시민 데이터 과학자를 위한 가드레일을 마련해야 한다.

인포시스 코발트(Infosys Cobalt)의 부사장 아난트 아디야는 “생성형 AI는 인사이트 도출 시간을 가속화하고 기술 장벽을 낮추고 데이터 기반 의사 결정을 위해 역량을 확장할 수 있게 해준다. 사람의 전문 지식은 여전히 중요하지만, 생성형 AI는 강력한 전력 승수 역할을 하면서 인간의 역량을 강화하고 새로운 데이터 혁신 기회를 창출한다”라고 말했다.

파운드리가 오픈텍스트(OpenText) 의뢰로 최근 실시한 AI와 분석에 대한 설문에서 응답자 75%는 데이터 시각화와 보고에 생성형 AI를 사용하는 것이 중요하다고 답했다. 그러나 데이터 아키텍처 및 분석 직무를 담당하는 응답자 중에서 생성형 AI가 “매우 중요하다”라고 답한 비율은 27%에 그쳤다. AI에는 많은 비즈니스 기대가 따른다. 경영진은 데이터 과학자와 분석가가 경쟁 우위를 확보하는 데 필요한 지식과 기술을 얻기를 바란다. 데이터 과학팀은 현재의 목표를 점검하고 생성형 AI 활용을 위한 전략을 논의해야 한다.

젠팩트(Genpact)의 DTAI 부문 글로벌 책임자인 스리칸스 메논은 “분석, 데이터 시각화, ML은 생성형 AI가 가진 역량을 통해 빠르게 발전하면서 더 직관적인 데이터 상호 작용, 자동화된 인사이트, 정교한 예측 모델을 실현하고 있다. 이와 같은 기술이 발전함에 따라 생성형 AI는 더 정확한 시각화를 생성하고 자연어 처리를 통해 복잡한 데이터 해석을 간소화하고 분석 보고서를 자동으로 생성함으로써 이런 분야를 강화한다”라고 말했다.

최근 필자는 AI 혁신과 새로운 비즈니스 동인에 대응해서 데이터 거버넌스와 소프트웨어 개발, 로우코드 개발, 데브섹옵스가 어떻게 발전하고 있는지를 주제로 글을 썼다. 여기서는 데이터 과학자와 분석가의 역할과 책임, 그리고 이들이 사용하는 툴과 프로세스의 발전 동향에 기반해 데이터 과학자 및 분석가가 앞으로 갖춰야 할 역량을 살펴본다.

매출과 성장을 위한 분석

데이터 과학자는 마케팅팀을 위한 리드 생성, 영업팀을 위한 파이프라인 최적화, 재무팀을 위한 수익성 분석, HR팀을 위한 스킬 개발 등 항상 자신의 기술을 적용할 사용례 포트폴리오를 추구해 왔다. 생산성을 개선할 부분을 찾는 것도 중요하지만, 생성형 AI가 등장한 이후 기업이 AI를 활용해서 새로운 디지털 트랜스포메이션 기회를 추구함에 따라 데이터 과학자는 매출 성장 영역에서 자신의 서비스에 대한 요구가 더 커질 것임을 예상해야 한다.

이노바 솔루션(Innova Solutions)의 CTO 스리다르 카지페타는 “단순한 생산성 향상 이상의 목표를 달성하기 위해서는 이미 디지털 트랜스포메이션의 혜택을 얻고 있지만 여전히 사람의 분석에 의존하는 롱테일 매출을 가속화하는 데 초점을 맞추는 것이 중요하다. 이제 AI로 이 영역을 강화해서 더 큰 매출 성장을 이룰 수 있다. 주요 영역으로는 롱테일 고객 요구사항 분석을 통한 제품 및 서비스 조정, 가격 및 프로모션 최적화, 틈새 영역을 위한 타겟 마케팅 콘텐츠 제작, 전통적인 영업 전략 이상의 새로운 고객 세그먼트 파악 등이 있다”라고 말했다.

컴퍼니 서치 인코퍼레이티드(Company Search Incorporated: CSI)의 COO인 폴 보인튼은 전략적 분석 사용례로 “생성형 AI는 시장 동향 분석, 제품 수요 예측, 공급망 효율성 최적화, 판매와 성장을 이끄는 파트너십 식별을 위한 사용자 인터페이스를 대폭 개선해 준다”라고 설명했다.

이처럼 증가하는 비즈니스 요구를 충족하려면 데이터 과학자는 비즈니스에 대한 이해도를 높이고 매출 성장을 위한 새로운 데이터 집합을 발견하고 분석할 방법을 찾아야 한다.

AI 생성 대시보드와 통합

데이터 과학자는 전통적으로 새로운 데이터 집합에 대해 파악하거나 비즈니스 사용자가 데이터에 대한 질문에 답하는 데 도움을 주기 위한 빠르고 쉬운 방편으로 대시보드를 개발해 왔다. 데이터 시각화와 분석 플랫폼에는 지난 몇 년에 걸쳐 자연어 쿼리와 ML 알고리즘이 추가됐지만, 데이터 과학자는 생성형 AI가 이끄는 새로운 혁신의 물결을 예상하고 대비해야 한다.

IBM의 비즈니스 분석 제품 관리 부사장인 앨빈 프란시스는 “향후 2년 동안 정적인 비즈니스 인텔리전스 대시보드에서 더 동적이고 개인화된 분석 경험으로 전환될 것으로 예상된다. 생성형 AI를 통해 사용자들이 분석에서 노이즈를 제거하고 실용적인 인사이트를 대화 형식으로 얻을 수 있게 되면서 기존 대시보드에 대한 의존도는 줄어들게 된다. 임시 대시보드를 생성할 필요가 없게 된 데이터 분석가와 데이터 과학자는 조직 지식을 의미 계층으로 문서화하고 전략적 분석을 통해 선순환을 구축하는 데 집중하게 될 것”이라고 언급했다.

C데이터(CData)의 선임 기술 에반젤리스트인 제로드 존슨은 “생성형 AI 플랫폼이 시각화 툴에 통합되면서 더 동적이고 인터랙티브한 데이터 표현이 실현되고 실시간 합성과 시나리오 분석이 가능해질 것이다. 이런 툴이 향후 몇 년 동안 발전해서 시각화의 직관성과 인사이트를 강화하고, 더 나아가 묻지 않은 질문에도 답하는 등 혁신적인 발견을 지원할 수 있게 될 것”이라고 예상했다.

데이터 과학자는 이 기간 동안 자신의 데이터 시각화 플랫폼에서 생성형 AI 기능을 사용하는 방법을 익혀야 한다. 시각화가 더 쉬워짐에 따라 데이터 과학자는 고급 분석 기능을 사용해 새로운 유형의 인사이트를 제공할 준비를 해야 한다.

시민 데이터 과학자 지원

많은 전문가가 시민 데이터 과학자를 대상으로 하는 기능이 증가하고 생성형 AI 기능을 갖춘 셀프 서비스 비즈니스 인텔리전스 툴을 배우는 비즈니스 인력이 증가할 것으로 전망한다.

SAP 북미 사업부 AI 책임자인 제러드 코일은 “생성형 AI는 데이터의 잠재력을 끌어내서 IT 전문가가 확장된 기능과 자동화된 워크플로를 통해 계획 및 분석 역량을 최적화할 수 있게 해준다. 이 발전을 통해 복잡한 작업이 간소화되고 기술 전문가가 아닌 사용자도 고급 툴에 더 쉽게 접근할 수 있게 된다. 향후 몇 년 동안 더 많은 일상적인 작업이 자동화되면서 팀은 더 전략적인 작업에 집중할 수 있게 되고 조직 전반적으로 더 효율적인 데이터 주도 의사 결정이 이뤄질 것”이라고 말했다.

이 성장은 데이터 시각화 툴을 통해 자연어 기능이 강화되고 ML 모델 적용이 자동화되는 데 따르는 결과다. 이런 기능은 시민 데이터 과학자의 작업을 간소화해서 전문 지식이 많지 않은 사용자도 보다 간편하게 데이터를 쿼리하고 이상값을 찾고 추세를 파악하고 대시보드를 만들고 유지할 수 있게 된다.

RR 도넬리(RR Donnelley)의 엔터프라이즈 AI 설계자 샤모딥 사카르는 “생성형 AI 기반 애플리케이션과 플랫폼은 동적인 시각화, 데이터 스토리텔링 내러티브, 복잡한 데이터 인사이트에 대한 명확한 설명을 생성할 수 있다. 이를 통해 기술 전문가가 아닌 사용자도 데이터를 더 쉽게 이해할 수 있으므로 대규모 조직 전반에서 유능한 시민 데이터 분석가를 육성하는 데 도움이 될 것”이라고 강조했다.

데이터, 분석, 시각화, 모델링 기술이 데이터 과학에서 비즈니스팀으로 이전되는 추세는 약 10년 전부터 일어나고 있지만, 생성형 AI는 이 전환을 가속화하는 역할을 하게 될 가능성이 높다. 이것이 데이터 과학자와 이들의 업무에 의미하는 바는 무엇일까?

EDB의 최고 제품 엔지니어링 책임자 조제프 드브라이스는 “생성형 AI가 분석에 통합되면서 데이터 준비, 기본 분석과 같은 일상적인 작업은 점점 더 자동화되고 그에 따라 인사이트에 더 깊이 파고들 수 있는 시간은 늘어난다. 고급 AI 툴은 데이터 시각화와 스토리텔링을 더 직관적으로 만들어 주므로 데이터 과학자가 복잡한 결과물을 기술 전문가가 아닌 동료에게 더 쉽게 전달할 수 있고, 동료는 자연어를 사용해 데이터를 탐색할 수 있다. 이는 데이터 팀과 다른 부서 간의 간극을 이어 더 협업적인 환경을 조성하는 데 도움이 될 것”이라고 말했다.

아스트로노머(Astronomer)의 CTO 줄리안 라니브는 데이터 과학팀은 생성형 AI 기능으로 인해 이해관계자의 관심과 참여가 증가할 것을 예상해야 한다면서 “데이터를 다루고 데이터에서 인사이트를 추출하는 작업의 진입 장벽이 대폭 낮아지게 되므로 견고한 데이터 문화와 관행을 확립하는 것이 매우 중요하다”라고 설명했다.

라니브는 기술 전문가가 아닌 동료를 위해 데이터 엔지니어링 베스트 프랙티스와 잘 분류된 데이터 사전을 기반으로 적절한 데이터 플랫폼을 개발할 것을 권했다. 또 다른 역할은 최종 사용자를 위한 적절한 거버넌스와 가드레일에 대한 컨설팅이다.

비정형 데이터 집합 활용

비즈니스 사용자가 쉽게 데이터 행과 열을 분석할 수 있게 되면서 데이터 과학자는 비정형 데이터 소스를 살펴보기 위한 기술과 분석 노력을 확장해야 한다. 마케팅, 영업, 고객 서비스 데이터 집합은 대부분 비정형이므로 이를 분석하면 성장과 경쟁 우위를 추구하는 비즈니스와 보조를 맞추는 데 도움이 된다.

m펄스(mPulse)의 CPO 사이드 아민자데는 “생성형 AI는 고객 중심 기업이 대량의 자유 텍스트 대화를 종합하고 분석하는 방법에 혁신을 일으키고 있다. 이런 고급 툴은 고객 의도와 요구를 대규모로 정확히 분류함으로써 더 풍부하고 실용적인 인사이트를 제공한다”라고 언급했다.

데이터 과학자가 배워야 할 기술은 그래프 데이터베이스다. 또 다른 기술인 지식 그래프는 도메인 인텔리전스로 LLM 모델을 증강하는 RAG를 개발하는 데 유용할 수 있다.

릴레이셔널AI(RelationalAI)의 연구 ML 부문 부사장 니콜라우스 바실로글로우는 “데이터를 일반 SQL 테이블이 아닌 지식 그래프로 체계화하면 고급 분석 수행과 ML 모델 실행 측면에서 큰 이점이 있다. 가장 빈번한 작업은 특징 공학(feature engineering)이며, LLM이 지식 그래프에 내장됨에 따라 데이터 과학자는 더 유의미한 특징 생성을 기대할 수 있다”라고 조언했다.

쿠모 AI(Kumo AI)의 공동 창업자이자 엔지니어링 책임자인 헤마 라가반은 데이터 과학자는 그래프 신경망(graph neural networks, GNN)에 익숙해야 한다면서 “GNN은 여러 테이블을 살펴보고 예측 AI 작업에 필요한 신호를 찾는 기능을 통해 많은 특징 공학 워크플로우의 필요성을 없애준다. 그러면 데이터 과학자는 영향과 예측을 연결할 수 있는 비즈니스의 기회를 식별하는 데 집중할 수 있다”라고 강조했다.

AI 에이전트 및 모델 활용

데이터 과학자가 관심을 가져야 할 2가지 새로운 AI 기능은 업종별 AI 모델과 AI 에이전트다.

예를 들어 최근 세일즈포스는 자동차, 금융 서비스, 의료, 제조, 소매를 포함한 15개 업종에 걸쳐 업종별 과제를 해결하는 맞춤 구성할 수 있는 사전 구축된 AI 기능 모음인 인더스트리 AI(Industries AI)를 발표했다. 한 의료 모델은 혜택 확인 기능을 제공하고 자동차 모델은 차량 텔레메트리 요약 기능을 제공한다.

AI 에이전트와 관련, 에이세라(Aisera) CEO 아비 마헤시와리는 “AI 에이전트는 추론, 계획, 의사 결정, 툴 사용에 관여해서 CRM, ERP 트랜잭션과 같은 작업을 자율적으로 처리함으로써 LLM을 강화한다. 이런 에이전트는 일반적으로 데이터 분석가가 수행하는 데이터 정제, 탐색을 위한 데이터 분석, 특징 공학, 예측 등의 데이터 작업을 간소화해준다”라고 말했다.

이 2가지 추세는 데이터 과학의 역할에 대한 2차적인 변화, 즉 데이터 랭글링에서 ML 모델 개발, AI 에이전트 활용, 서드파티 모델 조사, 그리고 시민 데이터 과학자와의 협업을 통한 AI, ML, 기타 데이터 과학 기능 적용으로의 변화를 보여준다.

또한 데이터 과학자는 AI 윤리와 이것이 기업의 AI 거버넌스에 어떻게 기여하는지에도 정통해야 한다. 플로우X.AI(FlowX.AI)의 AI 책임자 보그단 라두타는 “생성형 AI가 분석에 더 깊이 개입함에 따라 데이터 과학팀은 새로운 기술을 습득하고 전략적 협업에 집중하고 AI 윤리를 우선시하는 방식으로 적응해 나가야 한다”라고 언급했다.

젠팩트의 메논은 “데이터 스토리텔링에서 생성형 AI를 사용하기 위해서는 윤리적인 사용, 투명성, 공정성을 보장하기 위한 책임감 있는 AI를 통해 생성된 콘텐츠의 정확성을 보장하고 편견을 줄이는 것과 같은 지속적인 과제를 해결해서 데이터 주도 의사 결정의 신뢰와 정확성을 강화해야 한다”라고 강조했다.

AI가 데이터 과학자가 업무를 수행하는 방식과 이들이 집중하는 작업의 유형에 변화를 일으키고 있음은 의심할 여지가 없다. 따라서 진정한 기회는 이 기술을 통해 기업을 앞으로 이끌고 분석 기반 효과를 윤리적인 방식으로 제공하는 데 있다.
dl-ciokorea@foundryco.com

Read More from This Article: 칼럼 | 데이터 과학자가 생성형 AI 혁신을 위해 갖춰야 할 5가지 역량
Source: News