Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

최형광 칼럼 | 데이터는 더 이상 정제되지 않는다

데이터는 원목, 원유와 같다. 처리되는 과정을 거쳐야 비로소 가치를 갖게 되는 자원이다. 데이터가 쌓인다고 정보가 되거나 지식으로 발전되지 않는다. (관련 칼럼: 데이터 비긴즈.) 프로그래머는 데이터를 정제하고 엑셀과 SQL로 다듬는다. 결측치를 제거하고, 이상치를 조정하며 데이터를 ‘쓸만한 정보’로 만들기 위해 노력한다. 생성형 AI의 시대의 대규모 언어모델(LLM)은 정제 과정 없이 데이터를 해석하고 의미를 도출한다.

데이터 처리와 지식 체계화

전통적 정보체계에서는 정답을 만들기 위한 데이터 축적이 중요했다. 데이터는 분석 과정에서 인간의 행위가 포함되어 정보와 지식으로 체계화됐다. 따라서 정보는 사실 내지는 자료에 지적인 처리를 가하여 지식으로 발전했고 이를 통해 의사결정으로 이어졌다.

데이터를 기반으로 정보가 추출되고 추출된 정보는 지식으로 이어지는 ‘데이터 정보 지식’의 선형적 관계를 가졌다. 인간은 정제와 필터링, 해석의 주체가 되었다. 한편, 가치 창출까지의 프로세스의 시간소요, 인간 중심의 해석으로 왜곡 등의 객관성 문제가 나타난다. 고정된 스키마와 질의 구조를 가진 SQL 기반의 기능적 한계와 인간 중심의 한계성을 내포했다.

단어의 의미는 벡터 관계에 있다

생성형 AI가 이끄는 데이터 처리 방식은 비선형 구조를 만든다. 즉 데이터를 입력 받으면 가공하여 정보로 만들지 않고 바로 의미 단위로 전환한다. 대규모 언어모델(LLM)과 비전 언어모델(VLM)의 등장은 데이터가 정제되지 않아도 되는 세계를 만들었다. 수많은 원천 데이터에서 단어 간 관계, 문맥 그리고 의미 기반으로 벡터화하며 학습한다. [그림1]은 소스데이터의 벡터화 과정과 벡터 데이터베이스로 저장되는 모습을 볼 수 있다. 저장된 벡터 데이터는 쿼리를 통해 의미로 나타나게 된다.

Vectorization and Vector Database

[그림1] 데이터의 벡터화 및 벡터 데이터베이스

최형광

이미지 모델은 픽셀 단위의 정보를 ‘개념’으로 해석하며, 영상 데이터는 시간의 흐름 속에서 의미를 추론한다. 이 과정에서 데이터는 사람이 정해 놓은 규칙으로 필터 되지 않고, AI의 시선으로 해석된다. AI는 스키마와 같은 정형화된 구조 없이 텍스트, 이미지, 음성, 영상 데이터를 스스로 해석하고 의미를 도출한다. 따라서 사람이 개입되는 정제의 과정이 사라지고, 데이터 해석이 곧 활용으로 직결되는 방식으로 전환된다.

AI 시대는 ‘데이터 정제’가 아닌 ‘데이터 이해’

생성형 AI에서는 정제된 데이터보다 날것 그대로의 데이터가 더 유용하게 활용된다. 이제 단어의 의미는 사전(dictionary) 속에서 찾는 것이 아니라 벡터 값의 관계에서 더 정확하게 찾을 수 있다. AI는 단어를 고정된 정의가 아닌, 문맥 속에서 어떤 의미로 쓰이는지를 벡터 공간에서 추론하기 때문이다. ‘강하다’라는 단어가 스포츠 기사에서는 ‘힘이 세다’는 뜻이고, 커피 리뷰에서는 ‘쓴맛이 강하다’로 해석되듯, AI는 이 차이를 맥락 벡터를 통해 실시간으로 구별한다. 모든 것은 맥락속에 벡터화 되어 있고 AI는 질문자의 문맥, 의도에 맞게 해석하여 답변한다. 심지어 질문자의 감정까지도 이해하고, 해석하며 대응한다.

생성형 AI 시대와 데이터 맥락

생성형 AI 시대에서 데이터는 선형적 기반이 아닌 비선형적 맥락(Context aware)과 확률 기반 데이터처리로 바뀐다. 데이터와 정보, 지식의 경계가 불분명해지고 데이터이면서 정보가 되고, 정보가 곧 지식이 될 수 있는 관계성을 갖는다.

LLM(Large Language Model)은 비정형 텍스트와 자료 데이터를 해석하여 문맥 기반 의미로 추론하여 답을 제공한다. VLM(Vision Language Model)은 이미지와 동영상 데이터를 텍스트화하여 인식하고, 내용을 해석하여 전달한다. LLM, VLM은 데이터의 종류가 어떤 것이든 실시간으로 질의 응답을 지원한다. 그에 따른 텍스트를 생성하고 영상을 요약 및 해석하고 대응을 지원한다.

데이터가 정보가 되는 프로세스가 축약되고 지능화되며 출력이 자동으로 이루어진다. 즉, 해석과 인식, 활용이 병행적, 동시적으로 발생한다. 이제는 데이터를 정리하고 클렌징하고 저장하여 인간이 분석하는 방법은 과거의 방식이다. 지금은 데이터를 입력하면 AI가 해석(심지어 의미조차)하고 출력(생성)해 준다. 출력된 데이터는 계속적인 서비스 개선을 위한 원천으로 피드백 된다.

정제하지 않는 새로운 데이터

인간의 언어는 모호하고 중립적인 특성을 지닌다. 단어의 벡터화는 이를 해결하는 방법이다. 단어의 거리와 유사도로 관계의 구현이 시도되었다. 앞서 설명한 임베딩(Embedding)은 모든 데이터(텍스트, 사운드, 이미지, 코드와 동영상)를 의미 벡터공간으로 수치화하고 변환한다. 이를 통해 정형화 없이 문맥과 유사성으로 비교와 검색, 의미 기반의 추론을 가능하게 한다.

데이터가 부족할 경우, 합성 데이터(Synthetic Data)가 대안이 된다. 생성형 AI는 과거 사례를 기반 또는 시뮬레이션 환경에서 새로운 데이터를 만든다. 그 기술은 점점 정교해지고 다양한 분야에서 실제 데이터를 대신할 수 있을 정도로 활용도가 높아졌다. 물론, 현실성과 대표성이 떨어질 수 있고, 편향이 강화될 가능성도 있다. [그림2]에서는 새로운 합성데이터 성장과 생성을 볼 수 있다.

srcset=”https://b2b-contenthub.com/wp-content/uploads/2025/05/chg02.png?quality=50&strip=all 1436w, https://b2b-contenthub.com/wp-content/uploads/2025/05/chg02.png?resize=300%2C140&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/05/chg02.png?resize=768%2C358&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/05/chg02.png?resize=1024%2C477&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/05/chg02.png?resize=1240%2C578&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/05/chg02.png?resize=150%2C70&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/05/chg02.png?resize=854%2C398&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/05/chg02.png?resize=640%2C298&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/05/chg02.png?resize=444%2C207&quality=50&strip=all 444w” width=”1024″ height=”477″ sizes=”(max-width: 1024px) 100vw, 1024px”>

[그림2] 합성데이터 전망과 합성데이터 생성.

가트너

RAG(Retrieval Augmented Generation 검색 증강 생성), VLM 등은 필요할 때 외부 문서나 데이터 베이스에서 정제된 지식베이스 없이도 실시간 답변으로 반응한다. 이러한 기술 등장은 데이터 전략 수립의 새로운 트리거가 되고 있다.
데이터가 의미 중심으로 통합되어 질의와 추론 속에서 활용됨으로써 언어의 진정한 이해에 다가서고 있다. 데이터 정제는 분석을 위해 필요한 과정이 아니라 모델이 이해하지 못할 때 필요한 과정일 뿐이다. 중요한 것은 데이터 정제의 정확성이 아니라, 해석의 맥락과 활용의 창의성이다. 데이터는 더 이상 정제되지 않는다.
dl-foundryco.com


Read More from This Article: 최형광 칼럼 | 데이터는 더 이상 정제되지 않는다
Source: News

Category: NewsMay 23, 2025
Tags: art

Post navigation

PreviousPrevious post:“GPU 가속 AI 성능 증가”··· 인텔, ‘제온 6’ 신제품 3종 출시NextNext post:AI security analytics: Turning your data into defenses

Related posts

8 señales de que los sistemas informáticos obsoletos están acabando con su negocio
June 17, 2025
Salesforce study warns against rushing LLMs into CRM workflows without guardrails
June 17, 2025
Why leaderboards fall short in measuring AI model value
June 17, 2025
8 signs that outdated IT systems are killing your business
June 17, 2025
¿Qué implica la digitalización del sector público? Los CIO hablan
June 17, 2025
AI benefits don’t scale
June 17, 2025
Recent Posts
  • 8 señales de que los sistemas informáticos obsoletos están acabando con su negocio
  • Salesforce study warns against rushing LLMs into CRM workflows without guardrails
  • Why leaderboards fall short in measuring AI model value
  • 8 signs that outdated IT systems are killing your business
  • ¿Qué implica la digitalización del sector público? Los CIO hablan
Recent Comments
    Archives
    • June 2025
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.