Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

기고 | 기업의 AI 프로젝트가 개념 증명(PoC)에서 멈추는 이유

2023년, 다양한 산업 분야의 기업은 기술의 잠재력을 탐색하기 위해 생성형 AI 개념 증명(POC)에 막대한 투자를 했다. 2024년으로 넘어가면서 기업은 AI 이니셔티브를 프로토타입에서 생산 단계로 전환해야 하는 새로운 과제에 직면하게 된다.

가트너(Gartner)는 2025년까지 생성형 AI 프로젝트의 최소 30%가 POC 단계 이후 중단될 것이라고 전망했다. 그 이유는 열악한 데이터 품질, 거버넌스 격차, 명확한 비즈니스 가치의 부재다. 기업들은 이제 모델을 구축하는 것 자체가 주요 과제가 아니라, 모델에 공급되는 데이터의 품질을 확보하는 것이 관건임을 깨닫고 있다. 또한 파일럿 단계에서 실제 서비스로 전환하는 과정에서 가장 큰 장애물은 올바른 데이터를 큐레이션하는 것임을 인식하고 있다.

데이터가 많다고 해서 항상 좋은 것은 아니다

AI 개발 초기에는 데이터가 많을수록 더 나은 결과를 얻을 수 있다는 믿음이 널리 퍼져 있었다. 그러나 AI 시스템이 더욱 정교해짐에 따라 데이터의 양보다 질이 더 중요해졌다. 이러한 변화에는 몇 가지 이유가 있다.

첫째, 대규모 데이터 세트에는 오류, 불일치, 편향이 포함될 가능성이 커서 모델 결과에 영향을 미칠 수 있다. 데이터가 너무 많으면 모델이 학습하는 내용을 제어하기가 어려워져 학습 데이터 세트에 집착하게 되고 새로운 데이터에 대한 효율성이 떨어질 가능성이 있다. 둘째, AI 모델이 학습하는 데이터 내에서 빈번하게 나타나는 정보(다수 개념)가 상대적으로 드문 정보(소수 개념)를 덮어버릴 수 있다. 다시말해 모델이 전체적인 데이터의 경향에만 맞춰져서 특정한 상황이나 예외적인 경우를 제대로 학습하지 못하고, 새로운 데이터나 예상치 못한 상황에서는 잘 작동하지 않을 수 있다.

셋째, 데이터가 너무 많으면 이를 처리하는 데 시간이 오래 걸려, AI 모델을 개선하기 위한 실험이나 업데이트가 늦어지고, 결과적으로 중요한 의사결정을 내리는 데 걸리는 시간도 길어진다. 마지막으로, 소규모 조직이나 스타트업의 경우 대규모 데이터 세트를 처리하는 데 비용이 많이 들 수 있다

AI 프로젝트를 성공하려면 조직은 충분한 데이터를 확보하면서도 적절한 데이터를 확보하는 균형을 맞춰야 한다. 즉, 데이터 축적을 넘어 데이터 품질에 집중해야 한다. 데이터 정제, 검증, 보강과 같은 절차에 투자함으로써 고품질 데이터 기반의 AI 모델을 구축하고 실제 운영 환경에서도 효율적으로 확장하고 성능을 유지할 수 있도록 해야 한다.

저품질 데이터의 대가

IBM 연구에 따르면 데이터 품질 저하로 인해 미국 경제가 매년 약 3조 1,000억 달러의 손실을 입는다고 밝혔다. 이는 산업 전반에서 AI 프로젝트가 POC 이후 정체되는 주요 원인으로 작용하며, 자원을 낭비하고 운영 규모의 AI 달성을 저해한다.

실패한 AI 프로젝트는 직접적인 재정적 손실 외에도 시간 및 컴퓨팅 리소스 낭비 등 상당한 간접 비용을 발생시킨다. 가장 중요한 것은 이러한 실패가 경쟁 우위를 확보할 수 있는 기회를 놓치고 대내외 평판을 손상시킬 수 있다는 점이다. 반복되는 실패는 위험을 회피하는 문화를 조성하여 AI가 약속하는 혁신을 저해할 수 있다.

한 연구에 따르면 데이터 과학자는 의미 있는 분석을 수행하기 전에 약 80%의 시간을 데이터 준비와 정리에 소비한다고 한다.

고품질 데이터의 주요 특징

데이터 품질 저하라는 근본적인 문제를 극복하기 위해 고성능 AI 데이터 세트는 5가지 주요 특성을 갖춰야 한다.

1. 현실 세계를 정확하게 반영

2. 형식과 구조의 일관성

3. 적응력을 높이기 위한 다양성

4. 특정 목표와의 관련성

5. 데이터 수집 및 라벨링의 윤리적 고려 사항

이러한 특성의 중요성을 설명하기 위해 차량 하역 및 주차 결제를 자동화하는 회사인 오토모터스(Automotus)의 예를 살펴보자. 오토모터스는 중복되거나 손상된 이미지 등으로 인해 방대한 이미지 데이터를 AI 모델의 학습 데이터 세트로 전환하는 데 어려움을 겪었다. 이러한 문제를 해결하기 위해 오토모터스는 데이터 품질 도구를 사용하여 불량 사례를 제거함으로써 데이터 세트를 효율적으로 선별ㅎ하여 물체 감지 모델의 평균 정밀도(mAP)를 20% 향상시켰다. 데이터 감소로 모델 정확도가 향상되는 동시에 라벨링 비용이 33% 절감됐다. 데이터 품질에 투자함으로써 성능 향상과 비용 절감의 두 가지 혜택을 얻은 것이다.

고품질 데이터를 확보하는 방법

AI 개발의 과제를 해결하기 위해 조직은 데이터 관행을 개선하기 위해 다음과 같은 구체적인 조치를 취해야 한다.

1. 명확한 데이터 거버넌스 정책을 수립. 조직은 데이터 관리를 위한 역할, 책임, 표준을 설명하는 포괄적인 데이터 거버넌스 정책을 수립해야 한다. 이러한 지침은 조직 전체에 일관된 데이터 품질을 보장하여 잘못된 데이터가 의사결정에 영향을 미칠 위험을 줄여준다.

2. 엄격한 데이터 정제 기술 활용: 이상값 탐지, 결측값 대입, 정규화 등의 기술을 사용하여 데이터 세트의 무결성을 유지해야 한다. 이러한 관행은 AI 모델에 사용되는 데이터의 정확성과 신뢰성을 보장하는 데 도움이 된다.

3. 정확한 라벨링 프로세스에 투자: 고품질 라벨은 모델의 정확성을 위해 필수적이다. 자동화된 데이터 라벨링은 비용을 절감하고 프로세스를 간소화함으로써 수동 라벨링에 비해 상당한 이점을 제공할 수 있다. 그러나 자동화된 도구와 사람의 감독을 결합한 하이브리드 접근 방식은 두 가지 방법의 강점을 모두 활용하여 정확도를 높일 수 있다.

4. 다양하고 신뢰할 수 있는 출처에서 데이터 확보: 기업은 편향을 줄이고 모델 성능을 개선하기 위해 다양한 데이터 소스를 찾아야 한다. 여기에는 공개 데이터 세트, 산업별 데이터베이스, 서드파티 데이터 제공업체 등이 포함된다. 데이터 품질을 유지하려면 이러한 소스의 신뢰성을 확보하는 것이 중요하다.

5. 고급 데이터 관리 도구를 활용: 지속적인 AI 성능을 보장하려면 고급 데이터 관리 도구를 활용하여 학습 데이터 세트를 지속적으로 큐레이션하고 업데이트해야 한다. 데이터 배포는 프로덕션 환경에서 시간이 지남에 따라 변경될 수 있으며, 이러한 도구는 기업이 그에 따라 데이터 세트를 조정하는 데 도움이 될 수 있다.

데이터 품질 향상으로 AI 확장

AI 도입이 증가함에 따라 고품질 데이터에 대한 수요는 더욱 증가할 것이다. 가트너는 2025년까지 기업이 데이터의 75%를 기존 데이터센터나 클라우드 외부에서 처리할 것으로 예측하면서 분산 환경에서 데이터 품질을 유지하기 위한 새로운 전략의 필요성을 강조했다. 이러한 과제를 해결하기 위해 데이터 품질 분야에서는 자동화된 데이터 검사, 데이터 정리를 위한 머신러닝, 분산 데이터에서 모델을 학습하기 위한 개인정보 보호 방법, 실제 데이터 세트를 개선하기 위한 합성 데이터 생성 등 주요 혁신이 등장하고 있다.

이러한 발전 덕분에 모든 기업이 데이터 중심 문화를 조성할 수 있게 되었고, 또 쉽게 조성할 수 있게 되었다. 데이터 품질을 우선시함으로써 기업은 단순히 함정을 피하는 것이 아니라 AI의 잠재력을 최대한 활용하고 새로운 업계 표준을 설정할 수 있다. 이제는 경쟁 우위뿐 아니라 전체 AI 생태계를 향상시키기 위해 양질의 데이터의 힘을 한데 모아야 할 때다. AI가 계속 발전함에 따라 이제 질문은 “데이터가 충분한가?”가 아니다. 대신 “미래의 AI 솔루션을 뒷받침할 수 있는 올바른 데이터를 보유하고 있는가?”라는 질문을 던져야 할 때다.

*필자 울릭 스티그 한센은 기업이 AI를 위해 데이터를 관리하고 준비할 수 있도록 구축된 AI 데이터 개발 플랫폼인 엔코드(Encord)의 설립자다.
[email protected]


Read More from This Article: 기고 | 기업의 AI 프로젝트가 개념 증명(PoC)에서 멈추는 이유
Source: News

Category: NewsNovember 13, 2024
Tags: art

Post navigation

PreviousPrevious post:가트너 “AI 데이터센터 40%, 2027년까지 전력 부족 발생”NextNext post:Cómo alcanzar el éxito como CIO (y mantenerse)

Related posts

Start small, think big: Scaling AI with confidence
May 9, 2025
CDO and CAIO roles might have a built-in expiration date
May 9, 2025
What CIOs can do to convert AI hype into tangible business outcomes
May 9, 2025
IT Procurement Trends Every CIO Should Watch in 2025
May 9, 2025
‘서둘러 짠 코드가 빚으로 돌아올 때’··· 기술 부채 해결 팁 6가지
May 9, 2025
2025 CIO 현황 보고서 발표··· “CIO, 전략적 AI 조율가로 부상”
May 9, 2025
Recent Posts
  • Start small, think big: Scaling AI with confidence
  • CDO and CAIO roles might have a built-in expiration date
  • What CIOs can do to convert AI hype into tangible business outcomes
  • IT Procurement Trends Every CIO Should Watch in 2025
  • ‘서둘러 짠 코드가 빚으로 돌아올 때’··· 기술 부채 해결 팁 6가지
Recent Comments
    Archives
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.