Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

“실제 데이터와 깻잎 한 장 차이” 합성 데이터의 장점과 단점, 주의할 점

AI 학습에 사용되는 데이터의 최대 20%는 이미 합성 데이터, 즉 실제 세계를 관찰해 얻은 것이 아니라 생성된 데이터로, LLM은 수백만 개의 합성 샘플을 사용한다. 가트너에 따르면, 2028년에는 그 비율이 최대 80%에 달할 것이며, 2030년에는 비즈니스 의사 결정에 실제 데이터보다 더 많이 사용될 것이다. 하지만 엄밀히 말하면 LLM에서 얻는 모든 결과물이 합성 데이터이다.

가트너의 대표 연구원 비브하 치트카라는 합성 데이터가 빛을 발하는 분야가 바로 AI 학습이라고 말한다. 치트카라는 “합성 데이터는 편향, 불완전성, 노이즈, 역사적 한계, 개인 식별 정보를 포함한 개인정보 보호 및 규제 문제 등 실제 데이터와 관련된 많은 내재적 문제를 효과적으로 해결한다”라고 설명했다.

대량의 학습 데이터를 필요에 따라 생성하는 것은 느리고 비용이 많이 드는 실제 데이터 수집에 비해 매력적이다. 실제 데이터는 개인정보 보호 문제가 있거나 아예 사용할 수 없는 경우도 있다. 합성 데이터는 개인정보를 보호하고 개발 속도를 높이며 기업이 다른 방법으로는 해결할 수 없는 롱테일 시나리오에 더 비용 효율적이다. 또한 충분히 정확하게 만들 수 있다는 가정 하에 통제된 실험에도 사용할 수 있다.

목적에 맞게 구축된 데이터는 시나리오 계획과 지능형 시뮬레이션 실행에 이상적이며, 전체 시나리오를 포괄할 만큼 상세한 합성 데이터는 자산, 프로세스, 고객의 미래 행동을 예측할 수 있어 비즈니스 계획에 매우 유용하다. 할 것이다. 이런 첨단에는 시뮬레이션 엔진이 필요하며, 일부 초기 도입 영역 외에는 아직 개발 중인 디지털 트윈에 상응하는 시뮬레이션이 필요하다.

재료 과학, 제약 연구, 석유 및 가스, 제조 산업이 확실한 시장이지만, 공급망과 보험 산업에서도 관심이 높아지고 있다. 충분히 접근 가능하고 정확한 도구는 비즈니스 의사 결정의 여러 영역에서 최적화된 비용과 위험 감소는 물론 운영 개선과 수익 창출을 가져올 수 있다.

또한 마케팅 및 제품 디자인팀은 구매 데이터와 기존 고객 설문조사를 기반으로 시뮬레이션 고객을 생성한 다음, 이들과의 인터뷰를 통해 신제품 및 캠페인에 대한 피드백을 얻을 수 있다. 한 글로벌 공급망 기업은 복원력을 향상시키기 위해 자연재해, 팬데믹, 지정학적 변화와 같은 혼란을 시뮬레이션하는 실험을 하고 있다. 이는 이런 시나리오가 공급 및 배송 경로에 미칠 영향에 대한 데이터 세트를 생성하는 시뮬레이션 엔진을 구축한 다음, 이런 시나리오를 분석하고 공급망을 강화하는 방법을 제안하는 AI 모델을 학습시키는 다단계 프로세스이다.

합성 데이터를 바로 활용하는 것이 더 평범한 일인지도 모른다. 실제로 기업은 이미 AI 외의 영역에서 제한된 방식으로 합성 데이터를 사용하고 있을 것이다. 웹 및 애플리케이션 개발자는 실제 사용자가 문제 영역에 도달할 때까지 기다리는 대신 다양한 시나리오, 위치, 기기에 대한 성능과 가용성을 측정하거나 출시 전에 새로운 앱과 기능을 테스트하기 위해 대규모로 사용자 인터랙션을 시뮬레이션하는 합성 모니터링에 의존하고 있다.

정확한 데이터 증폭

제대로 생성된 합성 데이터는 원본 데이터 세트의 실제 기록을 포함하지 않고도 실제 데이터의 통계적 특성과 패턴을 모방한다. 그리고 IBM 리서치의 AI 모델 담당 부사장인 데이빗 콕스는 데이터를 생성하는 것이 아니라 증폭하는 것으로 볼 것을 제안한다. 콕스는 “실제 데이터는 생성하는 데 엄청난 비용이 들 수 있지만, 조금만 있으면 이를 증폭시킬 수 있다.”라며, “어떤 경우에는 원본보다 훨씬 더 높은 품질의 합성 데이터를 만들 수 있다. 실제 데이터는 샘플이다. 실제 세계에서 발생할 수 있는 다양한 변형과 순열을 모두 포함하지는 못한다”라고 설명했다.

이 방법은 개인 데이터와 위협 모델이 없는 경우에 가장 유용하다. 예를 들어, 자체 환경에서 함수 및 API라고 하는 LLM 기반 에이전트를 개선하기 위해 여러 예제를 종합하면 모델이 확실히 개선된다.

이런 시나리오에서 콕스는 IBM과 같은 업체의 턴키 툴이 안전하고 강력하다고 주장한다. 콕스는 “여기서 합성 데이터는 여러분의 친구다”라며, “합성 데이터는 모델을 더 잘 만들 수 있도록 도와준다. 실제 사람이나 유출이 우려되는 데이터와 연결되지 않는다. 완전히 무해하고 안전하다”라고 강조했다.

합성 데이터에 도메인 지식을 주입하고 특성과 속성 및 특징의 실제 분포를 보장하면 실제 데이터로만 학습했을 때보다 모델이 실제로 더 잘 작동한다. 실시간 데이터 플랫폼 전문업체 싱글스토어(SingleStore)의 최고 혁신 책임자인 라훌 라스토기는 “생산 과정에서 발생하는 대부분의 문제는 경계 조건으로 인해 발생하지만, 실제 데이터는 이런 조건을 모두 나타내지 못한다”라고 지적했다.

예를 들어, 조립 라인에서 손상이나 흠집이 있는 제품을 감지하고자 하는 제조업체가 컴퓨터 비전 모델이 감지할 수 있는 모든 가능한 조합의 이미지를 보유하고 있지는 않다. 사기 탐지 및 사이버 보안은 합성 데이터로 더 극단적인 테스트를 수행할 수 있다. 라스토기는 “위협 모델링을 수행하고 가능한 한 많은 합성 데이터를 생성하는 것이 가장 좋은 방법일 것이다. 모델에 누수가 발생하거나 잘못된 결과 또는 너무 많은 오탐을 생성할 때까지 기다릴 여유가 없기 때문이다”라고 설명했다.

EU의 AI법은 합성 데이터 사용을 장려하기도 한다. 에너지 지속 가능성이나 중요 인프라 보호 등 공익 기준에 부합하는 워크로드용으로 AI 규제 샌드박스에서 개인 데이터를 사용하려면 합성 데이터를 대신 사용할 수 없음을 증명해야 한다. 이를 입증하려면 합성 데이터로 실험을 해야 하는데, 이는 합성 데이터가 충분히 유용한 곳에 더 널리 채택될 수 있음을 의미한다.

가트너는 EU AI법의 영향을 받지 않는 기업이라도 생성형 AI 모델이 프롬프트에 직간접적으로 포함된 개인 데이터를 보유할 가능성이 높기 때문에 가능하면 합성 데이터를 사용할 것을 권장한다. 언어 사용 패턴, 관심 주제 또는 사용자 프로필만으로도 개인을 재식별할 위험성이 있다. 하지만 이런 장점에도 불구하고 합성 데이터를 올바르게 활용하는 것이 항상 간단한 것은 아닙니다.

가트너의 VP 애널리스트 켈 칼슨은 “합성 데이터는 선한 영향력을 발휘할 수 있지만, 잘못 사용하면 엉망이 될 수도 있다”라며, “어떤 식으로든 합성 데이터를 사용해 대부분의 사용례를 개선할 수 있지만, 합성 데이터에는 위험이 따르고 사람들이 익숙하지도 않다. 자신이 무엇을 하고 있는지 알고 있는 사람이 필요하며, 자신이 하는 일에 대해 신중해야 한다”고 조언했다.

과도가 복제로 인한 유출 위험성

개인정보 보호로 인해 AI를 개선할 수 있는 데이터 공유가 차단된 의료 분야는 합성 데이터의 확실한 고객이지만, 고객 데이터가 특히 중요한 모든 산업군에 유용하다.

라스토기는 이름을 밝힐 수 없는 한 회사에 글로벌 보고, 분석 및 데이터 서비스를 제공한 일을 사례로 제시했다. 라스토기는 처음에는 회의적이었지만, 먼저 차원성, 데이터 분포, 데이터의 모든 항목 간의 조합 관계를 확인했다. 이후 합성 고객 데이터를 테스트에 성공적으로 사용했고, 솔루션 업체가 실제 고객 데이터에 액세스하지 않고도 새로운 기술을 평가할 수 있었다고 설명했다.

라스토기는 “우리는 실제 데이터를 사용하는 것에 대해 민감했다”라며, “실제 데이터가 최상의 결과를 제공하긴 하지만, 우리는 항상 주저했다”고 덧붙였다. 5년 전의 일이지만, 지금도 기업은 AI용으로 데이터를 사용할 때 비슷한 문제에 직면하고 있다고 본다.

IBM 리서치의 콕스는 “실제 데이터는 저급 방사성 물질이다”라며, “데이터를 회사 외부로 옮기는 것은 아니지만, 가능하다면 아예 옮기고 싶지 않을 것이다. 그리고 개발자용으로 복사한 데이터는 도난당할 수 있는 데이터이다. 많은 기업이 매우 조심스러워하면서도 그 가치를 충분히 활용하지 못하는 데이터의 금광을 깔고 앉아 있기 때문에 기회는 무수히 많다. 고객 데이터베이스의 복사본을 만들어 다른 곳에 저장하는 것은 큰 위험이므로 합성 대리 데이터를 만드는 것이 훨씬 안전하다”라고 지적했다.

합성 데이터는 실제 개인이 포함되지 않은 데이터 세트의 합성 버전을 만들기 때문에 개인정보를 보호하는 방식으로 이를 수행할 수 있다. 하지만 실수할 수도 있다. 칼슨은 “실수로 한 개인을 너무 자주 과도하게 샘플링해 그 사람을 복제하고 나중에 실제 사람과 일치하는 사람을 제거하기 위해 위생 처리를 하지 않을 수도 있다. 또는 서로 다른 분야 간의 관계가 충분히 강하기 때문에 누군가가 리버스 엔지니어링을 통해 이를 알아낼 수 있다”고 설명했다. 여러 데이터 세트를 결합하면 재식별 가능성이 훨씬 더 높아진다.

도미노 데이터 랩의 최고 데이터 과학자 재로드 보드리는 이런 종류의 의도치 않은 복제 모델을 유출이라고 본다. 또 “이런 위험은 생성형 AI 기술과 함께 진화해 왔다. 최신 GAN 및 LLM 기반 방법은 때때로 민감한 학습 사례를 암기하고 재생산할 수 있으므로 기업은 차등 개인정보 보호와 같은 엄격한 개인정보 보호 방법을 구현해 재식별에 대한 보호를 수학적으로 보장해야 한다”라고 조언했다.

고객 인구 통계와 구매 습관이 담긴 데이터베이스가 있다고 가정해 보자. 차등 프라이버시를 사용하면 노이즈를 추가해 프라이버시를 보장할 수 있지만, 정확도가 떨어질 수 있다는 단점이 있다. 콕스는 “노이즈를 더 많이 추가할수록 데이터는 데이터답지 않게 된다”라고 경고했다.

합성 데이터에는 이미 전문 지식이 필요하며, 차등 개인정보 보호와 같은 고급 기술은 그 기준을 더욱 높여 많은 기업이 내부 역량보다는 AI 플랫폼에 의존하거나 정교한 파트너와 협력하게 될 것이다.

편향 제거의 한계

칼슨은 모든 데이터 세트는 사실상 편향성이 있다고 말한다. 단지 얼마나 편향되어 있느냐가 문제다. 과소 대표되는 인구 집단을 데이터 세트에 다시 추가하면 모델의 편향이 제거될 수 있다.

이론적으로 합성 데이터는 다양한 모집단이나 어려운 상황에서 더 나은 성능을 발휘하는 모델을 제공할 수 있다. 오디오의 경우, 엣지 케이스(Edge Case), 억양, 소매점 환경과 같은 시끄러운 조건, 정확히 파악해야 하는 희귀 용어, 한 언어에서 다른 언어로 전환되는 대화 등의 예시를 더 추가할 수 있다.

칼슨은 “데이터에서 잘 드러나지 않는 그룹을 변형해 합성 버전을 추가로 만들 수 있다”라며, “한 임상시험에서는 특정 인종, 연령, 성별을 가진 사람이 충분하지 않았다”라고 예를 들었다. 충분한 다양성으로 대표성을 높이면 데이터 집합의 균형을 다시 맞출 수 있다. 칼슨은 “이런 개인을 중심으로 추가 변형을 가미한 합성 버전을 만들어 해당 그룹에 대해 실제로 이 모델이 더 나은 성능을 발휘하도록 만들 수 있다. 또한 너무 작은 그룹의 사람을 과도하게 샘플링해 같은 개인을 계속해서 복제할 수도 있는데, 이는 개인정보 보호 관점에서 좋지 않을 뿐만 아니라 해당 개인이 이 그룹을 제대로 대표하지 못할 수 있기 때문에 도움이 되지 않는다. 자칫 잘못하면 데이터 문제를 악화시키고 이전보다 훨씬 더 편향된 데이터를 만들 수 있다”라고 설명했다.

ACM 디지털 라이브러리의 최근 연구에 따르면, 인구 통계 데이터를 기반으로 한 지침이나 제어 기능을 제공하지 않고 편향되지 않은 데이터 세트를 약속하는 도구조차도 다양해 보이지만 실제 인구의 상당 부분을 차지하는 일부 그룹이 완전히 누락된 극도로 불균형적인 인종 데이터 세트를 생성할 수 있다. 이런 샘플의 특정 특징이 실제 인구에 어떻게 분포되어 있는지 알지 못한 채 매우 적은 수의 기본 데이터 샘플을 기반으로 생성된 데이터는 대표성이 없는 통계적 다양성을 가질 수 있다. 칼슨은 “모델이 작동할 것이라는 잘못된 안전감에 빠져들게 된다”고 덧붙였다.

따라서 합성 데이터의 품질이 좋지 않거나 잘못된 것일 수 있으므로 각 사용례에 맞는 올바른 기술을 사용해 데이터를 만드는 것은 철저한 확인만큼이나 중요하다.

보드리는 “표 형식의 데이터는 통계적 상관관계가 지나치게 단순화될 수 있는 반면, 합성 이미지는 실제 시각적 데이터에 존재하는 미묘한 변화가 부족할 수 있다. 텍스트 생성은 사실의 정확성과 일관성을 유지하는 데 어려움을 겪는다. 또한 합성 데이터가 실제 데이터의 복잡성과 뉘앙스를 제대로 포착하지 못해 합성 테스트에서는 잘 작동하지만, 프로덕션 환경에서는 실패하는 모델이 발생하는 경우도 문제가 된다”고 지적했다.

전문지식을 기반으로 한 합성 데이터 구축

AI 라이프사이클 플랫폼인 퓨처 AGI(Future AGI)의 CEO 니킬 파릭은 LLM과 마찬가지로 합성 데이터도 환각이나 말도 안 되는 말을 내뱉지 않도록 RAG 등을 통해 실제 상황에 대한 엄격한 근거를 마련해야 한다고 말한다. 그럴듯해 보이는 합성 데이터도 클래스 불균형이나 상관관계 불일치 등 분포가 부정확하면 문제를 일으킬 수 있다.

반복적인 검증과 시맨틱 클러스터링을 통해 생성된 데이터를 실제 관찰된 패턴에 고정하는 것이 도움이 될 수 있으며, 특히 시뮬레이션을 통해 잘못된 데이터를 발견할 수 있도록 도메인 전문 지식이 필요하다.

좋은 소식은 이를 통해 기업은 차별화 기회를 얻을 수 있다는 점이다. 콕스는 “비즈니스, 고객, 비즈니스 운영 방식에 대한 도메인 전문 지식이 가장 핵심적인 부분”이라고 강조했다.

비결은 비즈니스 내부에 적합한 전문가를 참여시키고 적절한 기술 전문성을 확보하는 것이다. 하지만 기업이 고용할 수 있는 숙련된 합성 데이터 엔지니어는 거의 남아있지 않다. 치트카라는 “목적에 맞는 고품질의 데이터를 생성하려면 전문 지식과 전문 기술이 필요하기 때문에 오늘날 많은 기업이 어려움을 겪고 있다”라고 경고한다. 그리고 기업이 합성 데이터와 이를 둘러싼 거버넌스를 신뢰할 수 있을 때까지 합성 데이터의 도입은 더디게 진행될 것이다.

콕스는 “AI를 적용하려는 비즈니스 이해관계자에게 오늘날 가장 중요한 개발 기술은 벤치마킹과 평가”라며, “좋다는 것이 무엇을 의미하는지, 시스템이 합성 데이터를 추가하기 전보다 더 잘 작동하는지 이해하기 위해 시스템을 어떻게 테스트할 것인지에 대한 기준선이 있어야 한다”라고 덧붙였다. 모니터링과 평가는 지속적으로 이뤄져야 하며 비즈니스 목표와 연계되어야 한다.

합성 데이터도 인프라가 필요하다

합성 데이터는 생성하는 것은 실제 데이터를 확보하는 것보다 쉬운 경우가 많고, 또 여러 시나리오를 포괄하기 위해 많은 예제를 생성하는 것이 핵심이기 때문에, 기업은 훨씬 더 큰 데이터 세트를 보유하게 될 가능성이 크다. 또한 합성 데이터를 만드는 데 필요한 인프라를 과소평가할 수도 있다.

보드리는 “규칙 기반 생성이나 SMOTE와 같은 초기 접근 방식은 최소한의 컴퓨팅 자원만 필요했지만, GAN과 같은 최신 딥러닝 접근 방식은 상당한 GPU 성능을 요구한다”라며, “최신 LLM 기반 합성 데이터 생성에는 특히 대규모 이미지 또는 비디오 합성의 경우 엔터프라이즈급 인프라가 필요할 수도 있다”라고 지적했다.

또한 기업은 합성 데이터가 생성된 후 감사를 위해 합성 데이터 세트와 모델 아티팩트를 보관해야 하며, 명확한 문서 추적을 통해 합성 데이터가 어떻게 생성, 검증, 사용됐는지 보여줄 수 있어야 한다.

합성 데이터는 지저분한 실제 데이터의 노이즈, 중복, 비정형 요소 없이 구조화되고 간결하다. 하지만 시나리오 탐색과 지능형 시뮬레이션은 생성되는 데이터의 양이 많기 때문에 상당한 컴퓨팅 자원과 스토리지 용량이 필요하다. 때로 합성 미디어 데이터 세트는 용량이 페타바이트 규모에 달할 수 있다.

콕스는 “풍요로 인한 당혹스러움”이라며, “어떻게 해야 할지 아는 것보다 더 많은 데이터를 쉽게 만들 수 있다. 합성 데이터라고 해서 데이터를 보관하고 감사하고 어떻게 생성하고 어떻게 사용했는지 이해할 필요가 없다는 의미는 아니다. 여전히 처리해야 한다”라고 강조했다.
dl-ciokorea@foundryco.com


Read More from This Article: “실제 데이터와 깻잎 한 장 차이” 합성 데이터의 장점과 단점, 주의할 점
Source: News

Category: NewsMay 26, 2025
Tags: art

Post navigation

PreviousPrevious post:5 questions to test tech resilience and build a 90-day action planNextNext post:El camino hacia S/4HANA: cómo están gestionando los CIO el fin del soporte de SAP ECC

Related posts

Barb Wixom and MIT CISR on managing data like a product
May 30, 2025
Avery Dennison takes culture-first approach to AI transformation
May 30, 2025
The agentic AI assist Stanford University cancer care staff needed
May 30, 2025
Los desafíos de la era de la ‘IA en todas partes’, a fondo en Data & AI Summit 2025
May 30, 2025
“AI 비서가 팀 단위로 지원하는 효과”···퍼플렉시티, AI 프로젝트 10분 완성 도구 ‘랩스’ 출시
May 30, 2025
“ROI는 어디에?” AI 도입을 재고하게 만드는 실패 사례
May 30, 2025
Recent Posts
  • Barb Wixom and MIT CISR on managing data like a product
  • Avery Dennison takes culture-first approach to AI transformation
  • The agentic AI assist Stanford University cancer care staff needed
  • Los desafíos de la era de la ‘IA en todas partes’, a fondo en Data & AI Summit 2025
  • “AI 비서가 팀 단위로 지원하는 효과”···퍼플렉시티, AI 프로젝트 10분 완성 도구 ‘랩스’ 출시
Recent Comments
    Archives
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.