예전에는 데이터 관리가 데이터 웨어하우스 팀의 영역이었다. 하지만 데이터 품질이 고객 경험과 비즈니스 성과 모두의 핵심으로 간주되면서 점점 더 최고 경영진의 우선 순위가 되고 있다. 그러나 사일로화된 데이터 및 컴플라이언스 문제와 함께 열악한 데이터 품질이 여전히 엔터프라이즈 AI 프로젝트의 발목을 잡고 있다. 또한 대부분의 경영진은 대체적으로 데이터를 신뢰하기는 하지만 사용 가능한 데이터를 3분의 2 미만으로 보고 있다.
일반적으로 AI 활용을 위한 데이터 준비 작업의 첫 단계는 시스템 간의 불일치 확인을 위해 크로스 커팅 방식(cross-cutting way)으로 데이터를 살펴보는 것이라고 AI 코딩 어시스턴트 탭나인(Tabnine)의 공동 창립자이자 CTO 에란 야하브는 말했다.
이러한 작업은 데이터베이스에 다양한 팀의 요구에 대응하는 유효하고 올바른 필드가 있는지 확인하는 것과 같은 기본적인 데이터 위생 확보로 시작될 수 있다. 또는 원하는 결과 도출을 위해 AI용 데이터를 정리하는 작업이 진행될 수도 있다. 야하브는 “우리의 경우 우수 직원이 가진 지식을 AI도 가지도록 하는데 중점을 둔다. 이를 위해서는 위생과 일관성을 위한 큐레이션과 정리가 필요하며 피드백 루프도 필요하다”라고 말했다.
대규모 데이터 세트가 항상 작은 데이터 세트보다 낫지는 않다. 가령 자체 코드베이스를 사용하여 AI 코딩 어시스턴트에게 모범 사례를 가르치려는 조직은 불량한 패턴을 가진 레거시 코드를 제거해야 한다. 야하브는 “기존 프로젝트를 복사하고 수정하여 새로운 프로젝트를 만들고자 했던 한 고객사가 있었다. 이들에게는 사소한 변형만 가미한 동일한 사본이 수백 개나 있었는데, 이들의 중요성을 구분할 방법이 없었다”라고 말했다.
올바른 데이터 거버넌스 작업에는 항상 구조화된 데이터를 색인화 및 분류하는 작업이 포함되기 마련이다. 데이터 세트의 오류와 불일치를 처리하고, 중복을 제거하고, 오타를 수정하고, 데이터의 형식과 유형을 표준화 및 검증하고, 불완전한 정보를 보강하거나 데이터의 비정상적인 변형을 감지하는 과정이다. 그러나 AI의 경우 다뤄야 하는 비정형 및 반정형 데이터의 종류가 훨씬 더 다양하기에 추가 작업이 필요하다. AI를 위한 데이터 품질은 편향 탐지, 침해 방지, 모델 특징에 대한 데이터의 왜곡 탐지, 노이즈 탐지 등을 포함해야 한다.
일반적인 데이터 관리 관행은 느리고, 구조적이며, 경직된 경향을 보인다. 이로 인해 데이터 정리가 특정 사용 사례에 맞게 컨텍스트별로 이루어져야 하는 AI에 적합하지 않다. 즉 AI 측면에서는 데이터가 ‘충분히 깨끗한’ 시점에 대한 보편적인 기준은 없다.
이는 보다 전통적인 머신러닝(ML)의 경우도 적용되는 이야기다. 비즈니스 인텔리전스 및 재무를 위한 대규모 데이터 정리 작업이 데이터 과학 팀의 요구를 충족시키는 경우가 거의 없다. 오히려 그 과정에서 관리되지 않는 데이터의 사일로를 더 많이 생성하곤 한다고 도미노 데이터 랩의 AI 전략 책임자인 켈 칼슨은 전했다.
데이터를 충분히 정리하지 않으면 분명 문제가 발생하지만 다른 핵심은 컨텍스트다. 구글의 AI가 접착제를 사용한 피자 레시피를 제안했던 이유는 음식 사진작가들이 녹은 모짜렐라 치즈 이미지를 매력적으로 보이게 만드는 방법이었기 때문이었다. LLM학습에서 제외되어야 할 데이터이지만, 동시에 이 데이터는 사진 촬영 팁을 제공하기 위해 AI를 학습시킬 때에는 포함되어야 한다.
칼슨은 “데이터 품질의 중요성은 분명하다. 그러나 여기에만 매몰되면 잘못된 방향으로 나아갈 수 있다. 많은 시간과 노력만 낭비하는 상황이 펼쳐지기 십상이다. 최악의 경우 데이터에서 유용한 신호를 제거하여 상충되는 결과를 초래할 수도 있다”라고 말했다.
기준은 상대적
도메인과 애플리케이션에 따라 필요한 데이터 정리 수준은 다르다. 데이터 정리를 모든 목적에 적합한 데이터를 얻기 위한 획일적인 작업으로 볼 수 없다. 비즈니스 인텔리전스의 목표였던 기존의 ‘단일 버전의 진실’은 사실상 편향된 데이터 집합이다. ‘깨끗한 데이터’라는 것은 존재하지 않는다. 칼슨은 “깨끗한 데이터란 항상 사용 목적에 따라 상대적이다. 다양한 사용 사례에 따라 정리된 데이터의 모습은 매우 다르다”라고 말했다.
급여 처리와 회사 소식을 담은 사내 메일링 캠페인에 모두 사용할 수 있는 직원 기록의 데이터 품질이 한 예다. 히타치 Ltd의 전액 출자 자회사인 펜타호의 제품 관리 수석 디렉터 쿤주 카샬리카르는 “이 두 가지를 다르게 봐야 하고, 품질도 다르게 결정해야 한다”라고 말했다.
AI 활용 측면에서는 보다 민첩하고 협업적이며 반복적이고 데이터 사용 방식에 맞게 맞춤화된 데이터 정리가 필요하다고 칼슨은 덧붙였다. 그는 “우리가 이전에는 하지 않았던 다양한 방식으로 데이터를 사용하고 있다는 점이 긍정적이다. 하지만 이제 데이터를 사용하는 모든 다양한 방식에서 ‘정제’에 대해 생각해야 한다는 것이 과제다”라며, 즉 때로는 정리를 위해 더 많은 작업을 해야 할 수도 있고, 때로는 더 적은 작업을 해야 할 수도 있다고 말했다.
칼슨은 조직이 AI 사용 사례를 이해하고 구축하기에 앞서 데이터 준비 작업을 지나치게 서두르면 악수가 될 수 있다고 경고했다. 엔터프라이즈 AI를 위한 대대적인 데이터 정리에 착수하기 전에 데이터를 너무 깨끗하게 만드는 실수를 조심해야 한다는 의미다.
수익 감소
소프트웨어 개발업체 코히시티의 EMEA CTO인 마크 몰리뉴는 CIO들로부터 데이터 정리법에 대한 질문을 종종 듣는다며, CIO들은 어디까지 정리해야 할지도 물어야 한다고 지적했다. “이론적으로는 데이터의 규모에 따라 영원히 정리 작업을 해야할 수도 있다”라고 그는 말했다.
시니티(Syniti) EMEA의 크리스 코튼이 이에 대한 사례를 공유했다. 한 자판기 회사의 고객 주소를 정리하는 데 초기에 상당한 시간을 보냈지만 실제로 필요한 것은 청구서를 보내기 위한 이메일 주소나 서비스를 위한 장비의 특정 위치였음 드러났던 것이다.
그는 많은 조직이 운영상 유용성이 없는 대규모 데이터 세트를 쌓아두고 있다며, 대규모의 값비싼 데이터 정리 프로그램을 시작하기 전에 정리된 데이터가 어떤 가치를 제공할 수 있는지 파악하는 것이 중요하다고 강조했다. 고튼은 “데이터로 필요한 활동이나 결과가 비즈니스에 어떤 가치로 연결되는지 설명할 수 없다면 데이터 정리를 할 필요가 없다”라고 말했다.
80/20 법칙을 떠올릴 만하다. 오래된 데이터를 정리함으로써 얻을 수 있는 이득은 그만한 가치가 없을 수도 있다. 데이터 세트에서 잘못된 전화번호를 탐지하고 제거하는 데 드는 비용이 잘못된 통화 횟수나 문자 메시지 발송 오류보다 더 크다면, 전화번호를 수정하는 데 드는 ROI는 없다.
카샬리카르는 “많은 조직에서 우편번호를 폐기하거나 개선하는 데 많은 시간을 소비한다. 애석하게도 대부분의 데이터 과학에서 우편번호내 하위 섹션은 중요하지 않다. 추세 확인을 위해서는 일반적인 지리 정보만 보아도 충분하다. 넘침으로써 낭비되는 전형적인 사례다”라고 말했다.
컬럼비아 대학의 보건 정책 및 관리 겸임 교수인 하워드 프리드먼은 데이터 정리에서 가치를 얻는지 확인하려면 성공을 정의하고 모델의 요점을 이해하는 것부터 시작해야 한다고 설명했다. 누락된 데이터, 범위 확인, 분포 및 상관관계에 대한 기본적인 데이터 분류와 표준 품질 검사 작업부터 시작한다. 모든 열이 동일한 것은 아니므로 모델과 비즈니스 성과에 중요한 데이터 기능의 정리 우선순위를 정해야 한다. 데이터를 정리하는 대신 기본적인 작업을 자동화하고, 누락된 데이터를 설명하는 패턴을 찾고, 스케일링으로 인해 값이 압축되거나 분산이 증가할 수 있으므로 기능 변환을 고려하라고 그는 조언했다.
그리고 데이터 품질 개선을 위한 고도화 작업을 추구하기 전에 점진적인 모델 개선이 어느 정도인지 평가하라는 주문이다. 프리드먼은 “완벽한 데이터를 얻기 위해 25만 달러를 투자해야 하는 경우와 몇 시간의 노력과 몇 천 달러만 투자한 데이터로 모델 가치의 90%를 얻을 수 있다면 어떨까요 모델을 조금 개선하는 데 10%를 더 투자하는 것은 그만한 가치가 없을 수도 있다”라고 말했다.
“즉 시간과 돈을 어디에 투자하고 어떤 수익을 기대할 수 있는지에 대한 비즈니스 문제로 생각하라”라고 그는 덧붙였다.
기존 프로젝트를 조사하여 데이터 품질 문제가 실제로 어떤 영향을 미치는지 확인하는 작업도 필요하다. 품질이 낮은 데이터 집합을 정리하는 데 투자하는 대신 사용할 수 있는 다른 소스가 있을 수 있다. 그것은 구매 데이터일 수도 있고, 직접 구축한 황금 데이터 집합일 수도 있다.
스탠포드 대학교 의과대학의 생의학 데이터 나이트-헤네시의 스칼라인 악사이 스와미나탄은 “데이터 정리를 위한 예산이 제한적이라면, 사람이 큐레이션한 고품질 데이터 입력과 골드 표준 출력 세트를 만들도록 하는 데 예산을 투자하는 것이 좋다. 생성형 AI 세계에서는 정확도라는 개념이 훨씬 더 모호하다”라고 말했다. 질문의 황금 데이터 세트와 황금 표준 응답을 함께 사용하면 기술이 개선됨에 따라 새로운 모델을 빠르게 벤치마킹할 수 있다고 그는 덧붙였다.
기회 비용
지나친 데이터 정리는 시간과 비용을 낭비할 뿐만 아니라, 유용한 데이터 값을 제거할 수도 있다. 카샬리카르는 “원래 100만 개의 레코드가 있었는데 50만 개의 레코드가 최상의 품질로 제공된 상황을 가정해보자. 누락된 50만 개 중 얼마나 많은 레코드가 유용했는지가 관건일 수 있다. 충분히 유용하지만 깨끗한 품질이 아닌 25만 개가 있었다면 잠재적 데이터의 1/4을 상실하는 데 자원을 소비한 것이다”라고 말했다.
또한 데이터의 고유성을 잃을 정도로 데이터를 지나치게 정리하지 않는 것도 중요합니다. 데이터 집합을 과도하게 표준화하거나 균질화하면 AI 모델에 중요한 특징인 가치 있는 변형과 뉘앙스가 제거되어 일반화 능력이 저하될 수 있다. 예를 들어, 지역적 차이를 고려하지 않고 주소 철자를 정규화하면 중요한 인구통계학적 인사이트가 사라질 수 있다.
이상값(outliers) 손실은 과도한 정규화와 비슷한 문제다. 그러나 이는 전체 데이터 집합이 아닌 개별 데이터 포인트에 대한 문제다. 이상값과 극단적인 경우를 적극적으로 제거하면 중요한 특수 사례가 제거된다. “한 사람의 쓰레기가 다른 사람의 보물일 수 있다”라고 스와미나탄은 말했다.
가격이 음수이거나 사람의 나이가 200세가 넘는 등 불가능한 값은 데이터 집합에서 쉽고 안전하게 수정할 수 있다. 단지 제거하는 데 그치지 않고 수동 데이터 수집이나 잘못 설계된 데이터베이스로 인한 오류인지를 확인해야 한다. 탭나인은 야하브는 “병원에서 응급상황이 발생함에 따라 키와 몸무게를 바꾼 사람이 데이터를 입력했을 수도 있다”라고 말했다. 예를 들어, 그가 담당했던 한 제품 데이터베이스에는 제품 일련번호 입력란이 없어서 직원이 무게 입력란에 일련번호를 입력했다. “갑자기 장난감 가게에 무게가 5톤이나 되는 제품이 들어왔던 것”이라고 그는 덧붙였다.
그러나 일부 이상값이나 ‘더러워 보이는’ 데이터 요소는 오류가 아니라 진짜 신호일 수 있으며, 탐색할 흥미로운 영역을 나타내기도 한다. “폭우로 인해 5시간 동안 교통 체증이 나타났다면 이는 교통 정보에 대한 흥미로운 이상값이다”라고 야하브는 말했다.
그에 따르면 의료 데이터의 비식별화를 위해 모델을 훈련하는 경우, 고유 이름, 주소의 변형 형식, 식별 번호와 같은 이상값을 정확하게 감지할 수 있도록 강력한 기능이 있어야 한다. 특히 코드가 업데이트될 가능성이 없는 레거시 시스템을 다룰 때는 데이터 파이프라인에서 알려진 문제를 검증하고 정리해야 한다. 하지만 신호가 아닌 진짜 오류를 구별하기 위해 사람의 판단이 필요할 수 있다.
편견 추가
유효성 검사 과정에서 문제를 가진 레코드를 지나치게 공격적으로 정리하면, 특정 특성을 가진 레코드가 손실되기 때문에 데이터 세트에 편견을 불러일으킬 수 있다. 가령 중간 이니셜이 없는 레코드를 제거하면 인도 특정 지역에 사는 사람들이 제거될 수 있다. 마찬가지로, 특이한 이름을 제거하거나 모든 이름이 두 글자 이상이어야 한다고 고집하면 다양한 인구에 대해 제대로 작동하지 않는 편향된 모델이 될 수 있다.
카샬리카르는 “모델을 만드는 데이터 과학자는 데이터가 없는 경우의 비즈니스적 의미를 이해하지 못할 수 있다. 해결하려는 문제의 맥락을 이해하는 사람이 데이터 정리에 관한 의사 결정에 참여하는 것이 중요하다”라고 말했다.
컨텍스트 제거
데이터 세트를 너무 철저하게 정리하면 전체 상황을 파악에 중요한 컨텍스트 정보가 제거될 수 있다. 일부 피싱 메시지는 일부러 잘못된 철자나 문법을 사용하며, 가짜 링크에 실제 도메인 이름과 유사한 URL을 사용한다. 이러한 데이터를 정리하는 과정에서 오탈자를 기어이 수정하는 행위는 중요한 단서의 제거로 이어진다. 특히 LLM은 기존 ML과는 다른 방식으로 데이터를 사용하므로 데이터의 의미가 매우 중요할 수 있다.
이를 테면 의료 트랜스크립션 모델용 데이터 세트 정체에는 사용자에게 ‘좋아요와 구독’을 요청하는 유튜브 동영상의 일반적인 문구가 포함되어서는 안 된다. 오픈AI의 위스퍼(Whisper)와 같은 범용 모델은 왜곡된 오디오를 처리할 때 이러한 문구에 대해 종종 착각하기 때문이다. 하지만 이러한 데이터는 동영상 트랜스크립션 모델을 만드는 경우 매우 중요하다.
또 표준 데이터 클리닝에서는 화자가 끝내지 않는 단어, 일시 정지, 한숨, 망설임 등을 제거하는데, 이러한 단서는 구매 의지나 의도를 예측하는 경우에는 유용한 정보라고 칼슨은 지적했다. 그는 “고객의 관심 수준을 감지하여 고객 담당자에게 이 사람은 분명히 관심이 없으니 강매를 중단해야 한다고 알려주는 모델이 있다면 유용할 것이다”라고 말했다. 그렇기 때문에 데이터를 정리하기 전에 어떤 용도로 사용할 것인지 파악하는 것이 매우 중요하다.
현실 세계의 혼란을 간과
머신러닝은 지저분한 데이터에 취약하기 때문에 데이터를 제거하고 싶은 유혹에 빠지기 쉽다. 하지만 데이터를 너무 균일하게 만들면 학습 세트와 같이 깨끗하고 구조화된 데이터에서는 잘 작동하지만 실제의 복잡한 데이터에서는 어려움을 겪는 모델이 출현할 수 있다. 실 생산 환경에서는 성능이 저하되는 결과로 이어진다.
LLM이 변호사 시험이나 의사 시험에 합격할 수 있는 이유는 이러한 시험이 깔끔하기 때문이다. 스와미나탄은 “의사 시험의 경우 모든 관련 정보가 깔끔하게 존재하는 환자 사례를 예시한다. 환자의 바이탈 사인과 영상 및 검사실 결과를 알려준다. 하지만 실제 세계에서는 이러한 모든 정보가 저절로 제공되지 않는다. 의사가 개별적으로 이끌어내야 한다”라고 말했다. 마찬가지로 고객 지원을 위한 황금 데이터 세트를 만들 때는 고객의 요청을 너무 깔끔하고 유익한 정보로만 구성하려는 유혹을 피해야 한다.
프리드먼은 이와 관련한 역설이 있다고 인정했다. “훈련하는 데이터 세트가 더러울수록 모델이 제대로 학습하고 동작하기가 어려워진다. 하지만 동시에 실제 세계에서 완벽하게 작동하려면 더 더러운 환경에서도 작동할 수 있어야 한다”라고 말했다.
특히 LLM은 잘못된 입력에 대응할 수 있어야 한다. 구어체, 철자 오류 또는 지역적 언어 차이를 제거하면 모델이 실제 언어 사용을 처리하는 데 방해가 될 수 있다. “깨끗한 데이터뿐만 아니라 더티 데이터에 대응하는 방법을 이해하는 것이 이상적이다. 깨끗한 데이터로 시작하는 것도 좋지만 결국에는 견고성을 갖춰야 한다”라고 프리드먼은 덧붙였다.
트렌드 누락
한편 오래 된 데이터와 새로운 데이터를 같은 방식으로 정리하면 색다른 문제가 발생할 수 있다. 새로운 센서는 더 정밀하고 정확할 가능성이 높다. 고객으로부터의 지원 요청이 회사의 제품 최신 버전에 관한 것일 수 있다. 또는 기업이 온라인에서 새로운 잠재 고객에 대한 메타데이터를 포착하는 사례도 있다.
데이터 소스가 무엇이든, 캡처해야 할 새로운 정보가 출현할 수 있으며, 시간이 지남에 따라 데이터의 기능이 변경될 수 있다. 예를 들어, 인도에서는 최근에야 이혼이 공식적으로 인정됐다. 이전 기록에 이를 추가할 수는 없지만, 일관성을 위해 새 기록에서 이를 삭제해서는 안 된다. 따라서 데이터 정리로 인해 이전 데이터와 새 데이터의 차이가 가려져 진화하는 추세를 고려하지 않는 모델이 되지 않도록 주의해야 한다.
스와미나탄은 “동일한 사용 사례라도 시간이 지남에 따라 기본 데이터가 바뀔 수 있다. 예를 들어, 2024년 10월에 고객의 질문에 답하기 위해 만든 기준이 자연재해 발생으로 인해 생필품이 부족해지면서 3개월 만에 구식화될 수 있다. 같은 회사에서 같은 고객을 대상으로 하는 같은 업무라도 시간이 지나면 벤치마크가 구식이 될 수 있다”라고 말했다.
트렌드가 변화함에 따라 데이터의 신호가 사라지기도 한다. 고객의 연락처 번호가 유선전화에서 휴대전화로 바뀌면서 조직은 번호에서 고객 위치를 추출할 수 없게 됐다. 종전처럼 지역 번호를 사용하여 위치를 확인할 수 없게 되는 것이다. 이 밖에도 두 회사가 합병하는 경우 두 회사를 동일한 법인으로 취급할지, 아니면 회사 마스터 레코드에서 별도로 유지할지는 사용 사례에 따라 결정해야 한다.
큰 변화가 없음에도 불구하고 기초 데이터 자체가 변동되는 경우도 있다. 프리드먼은 “관심 있는 결과 변수와 기능 간의 관계가 변경되었을 수 있다. 단순히 ‘이 데이터 집합은 절대적으로 완벽하다’고 고정시켜 놓고 1년 후의 문제에 사용하기 위해 선반에서 꺼내어 사용할 수는 없다”라고 말했다.
이러한 모든 문제를 방지하려면 실제 오류와 의미 있는 신호를 구별할 수 있는 전문 지식을 갖춘 사람을 참여시키고, 데이터 정리에 대한 결정과 그 이유를 문서화하고, 데이터 정리가 모델 성능과 비즈니스 성과 모두에 미치는 영향을 정기적으로 검토해야 한다.
또 대량의 데이터를 미리 정리하고 나서야 개발을 시작하는 대신, 점진적인 데이터 정리와 빠른 실험을 통해 반복적인 접근 방식을 취할 필요가 있다. 야하브는 “데이터를 점진적으로 온보딩하는 정책이 유효하곤 했다. 모든 것을 연결하고 그것이 효과가 있을 것이라고 믿고 싶은 유혹이 크다. 하지만 막상 문제가 발생하면 무엇이 고장났는지 알 수 없으므로 연결을 끊어야 한다”라고 말했다.
따라서 소량의 최근 데이터 또는 신뢰할 수 있는 데이터로 시작하여 그것이 어떻게 작동하는지 확인하고, 거기에서 더 많은 소스 또는 데이터 양을 구축하여 어디가 끊어지는지 확인하라는 주문이다. 야하브는 “결국 간과했던 무언가가 메인 파이프라인에 도달하면, 깜짝 놀랄 만한 상황이 발생하고 결국 끊어지게 될 것이다. 프로세스는 원인을 이해할 수 있을 만큼 점진적으로 진행되어야 한다”라고 말했다.
[email protected]
Read More from This Article: 지나친 깨끗함은 더러움만 못하다?!··· AI 위한 데이터 관리 체크포인트
Source: News