Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

Dati sintetici: tutte le ragioni per considerarli subito indispensabili

Nei loro progetti con l’intelligenza artificiale, i CIO possono beneficiare enormemente dell’utilizzo dei dati sintetici. Di questo concetto si parla molto: non è una novità assoluta (come non lo è l’intelligenza artificiale in sé), ma oggi – con la diffusione dell’AI in azienda – rappresenta una delle opportunità più interessanti per i CIO nell’addestramento dei modelli linguistici e nella creazione di scenari simulati. Ma come procedere, quali sono i costi e i rischi da cui guardarsi?

“I synthetic data non sono banalmente dei dati ‘falsi’, ma informazioni generate artificialmente che mimano le proprietà statistiche di un set di dati reali”, ci ha spiegato il Dott. Alfonso Maria Gallo, AI Consultant e analista delle policy tecnologiche. “Gli impieghi odierni sono molteplici e toccano settori diversi; il loro impiego nelle imprese italiane è non solo possibile, ma anche auspicabile per rimanere competitivi. Certo, un CIO deve valutare attentamente l’investimento. Inoltre, i dati sintetici sono senza dubbio un vantaggio enorme, soprattutto a livello di costi ma, come per ogni strumento potente, devono essere maneggiati con cura”.

Come nei dati reali, anche in quelli sintetici la questione centrale resta la qualità, che dipende dai modelli e dagli algoritmi utilizzati per generarli, nonché dalla rappresentatività dei dati di addestramento originali. La generazione di dati sintetici di alta qualità richiede una profonda comprensione dei dati reali e dei modelli statistici sottostanti. Se non sono generati correttamente, i dati sintetici possono introdurre distorsioni o artefatti che potrebbero influenzare negativamente le prestazioni dei modelli di machine learning. Per questo, molti esperti consigliano la combinazione di dati sintetici e reali.

Detto questo, i benefici appaiono innegabili. Come ha affermato [in inglese] Dinand Tinholt, VP, Insights and Data, North America, Capgemini, i dati sintetici sono cruciali “perché affrontano i problemi di privacy, sicurezza, scarsità dei dati e controllo che possono presentarsi nell’addestramento dei modelli AI. Le fonti di dati tradizionali stanno raggiungendo il loro limite: le leggi sulla privacy sono sempre più severe e i dati reali spesso non sono vari a sufficienza. Prevedo che il 2025 sarà l’anno in cui i dati sintetici diventeranno protagonisti. Le aziende che sapranno sfruttarli costruiranno modelli potenti e adattabili con velocità mai viste prima”.

Il futuro delle aziende data-driven si basa anche sui dati sintetici

La Principal research analyst di Gartner, Vibha Chitkara, ci ha confermato: “I dati sintetici non sono un hype: stanno rapidamente diventando un asset strategico per i processi decisionali basati sui dati e potenziati dall’AI. Il futuro delle aziende data-driven non si basa solo sui dati reali ma anche sui dati sintetici”.

Infatti, Gartner prevede che, entro il 2030, supereranno i reali come fondamenta per il decision-making nelle aziende, anche perché questi ultimi saranno sempre più soggetti a restrizioni per motivi di privacy, bias e disponibilità e, di conseguenza, i dati sintetici emergeranno come soluzione per permettere ai team IT di simulare complessi scenari di business, accelerare l’addestramento dei modelli e fare innovazione data-driven con l’AI.

“Per esempio, gli istituti finanziari usano i dati sintetici per addestrare modelli di fraud detection su tipologie di frodi rare o emergenti che potrebbero non essere ben rappresentate nei dataset del mondo reale”, osserva Chitkara. “Le aziende della manifattura usano dati simulati, al posto di quelli reali dei sensori, per ottimizzare la manutenzione predittiva, ottenendo informazioni affidabili senza dover aspettare i dati dei reali malfunzionamenti dei macchinari. Nella sanità, i dati sintetici dei pazienti permettono lo sviluppo di diagnostica avanzata basata sull’AI senza ledere la privacy delle persone”.

Un altro campo di applicazione in forte crescita è quello della robotica e della guida autonoma, dove le aziende generano enormi quantità di dati di guida simulati per addestrare i loro veicoli e gestire situazioni pericolose che sarebbero troppo rischiose da replicare nel mondo reale, ci ha indicato il Dott. Gallo.

Tanti i benefici anche per le aziende delle telecomunicazioni: queste possiedono enormi quantità di dati che potrebbero valorizzare, ma si tratta all’80-85% di dati personali dei clienti non utilizzabili per questioni di privacy, come nota lo studio di ADLittle [in inglese] del 2024 “Synthetic data: facilitating innovative solutions”. I dati sintetici possono supplire permettendo alle telco di svolgere i loro analytics e comprendere il comportamento e le preferenze degli utenti senza compromettere la riservatezza delle loro informazioni. Lo stesso discorso si applica alle società dell’energia, le utility, o a quelle del retail, che hanno bisogno di analizzare i dati dei clienti per personalizzare le offerte e generare raccomandazioni, ma sono spesso limitate dal GDPR.

Gallo conferma: “Ovunque ci sia la necessità di dati abbondanti, vari e che tutelino la privacy, i dati sintetici stanno diventando una risorsa strategica”.

Come si ottengono e quanto costano i dati sintetici

Il Dott. Gallo ci ha spiegato che il processo per ottenere i dati sintetici si basa principalmente su modelli di deep learning, autoencoder variazionali (VAE), che comprimono e ricostruiscono informazioni, e modelli linguistici di grandi dimensioni (LLM), che possono generare dati testuali e tabulari. In particolare, vengono usate le Reti Generative Avversarie, o GAN (Generative Adversarial Networks), dove due reti neurali competono tra loro: una, il “generatore”, crea dati sintetici cercando di renderli il più realistici possibile, mentre l’altra, il “discriminatore”, impara a distinguere i dati reali da quelli sintetici. Questa competizione spinge il generatore a produrre dati di qualità sempre maggiore, fino a quando il discriminatore non è più in grado di distinguerli da quelli veri.

Certo, si tratta di tecniche avanzate tra cui il CIO deve sapersi muovere con consapevolezza dei rispettivi vantaggi e limiti, anche se oggi si sta formando un ecosistema con vendor e marketplace dei dati sintetici, che rende più facile e meno costoso l’accesso. Ma occorre sempre investire in tecnologia e persone.

“La sfida principale dell’utilizzo dei dati sintetici nelle aziende non risiede tanto nella complessità tecnica, quanto nella disponibilità delle competenze necessarie per implementare e gestire queste tecnologie”, sottolinea il Dott. Gallo. “Fortunatamente, il mercato offre soluzioni sempre più accessibili”.

Esistono, per esempio, piattaforme “synthetic data as a service” che permettono alle aziende di generare dati su misura senza dover costruire da zero un’infrastruttura complessa, abbattendo così i costi iniziali, ma dovendo valutare – attentamente – l’investimento.

“I costi non sono trascurabili e includono sia l’eventuale licenza del software o l’utilizzo della piattaforma, sia il tempo delle risorse umane specializzate – data scientist e ingegneri AI – in grado di supervisionare il processo e validare la qualità dei dati generati. Il ritorno sull’investimento però può essere significativo”, indica Gallo.

Tanti vantaggi, alcuni rischi  

In particolare, i dati sintetici permettono di accelerare i cicli di sviluppo dei prodotti basati su AI, facendo leva su dati che non sono soggetti alle restrizioni imposte dalle leggi sulla privacy.

“Uno dei maggiori vantaggi dei dati sintetici”, spiega Gallo, “sta nel fatto che i dati più preziosi che le aziende possiedono, spesso quelli dei clienti, sono bloccati dal GDPR e da altre normative sulla privacy”.

Oppure si possono esplorare nuove opportunità di business che sarebbero precluse dalla mancanza di dati reali.

In ogni caso, la chiave per un’implementazione di successo è “partire con un progetto pilota ben definito, che affronti un problema di business specifico, per poi scalare gradualmente l’adozione in altre aree dell’azienda”.

Quanto ai rischi, il principale è il cosiddetto “synthetic data bias”, evidenzia Gallo. Se il set di dati originali da cui si parte per generare quelli sintetici contiene dei bias, ovvero delle distorsioni, i dati artificiali non solo li replicheranno, ma potrebbero addirittura amplificarli.

Un altro aspetto da considerare è la “deriva del modello” (model drift). Il mondo reale cambia costantemente e i dati sintetici, per quanto ben fatti, sono una fotografia di un determinato momento.

“In estremo, possono portare al collasso del modello”, spiega Gallo, “dove un modello diventa meno creativo e più prevenuto nei suoi output, compromettendo seriamente la sua funzionalità e generando così tante allucinazioni da risultare inutilizzabile. È fondamentale che i CIO mettano in atto processi di monitoraggio continuo per garantire che i modelli addestrati su dati sintetici mantengano le loro performance nel tempo e vengano riaddestrati con dati aggiornati, siano essi reali o sintetici di nuova generazione”.

L’approccio vincente è ibrido

L’esperto punta l’attenzione anche sul tema della validazione: è cruciale avere delle metriche robuste per misurare la qualità e la fedeltà dei dati sintetici rispetto a quelli reali.

“Serve assicurarsi che il team IT non si limiti a generare dati, ma che implementi un framework rigoroso per testare che questi dati siano effettivamente adatti allo scopo, preferendo un approccio ibrido”, afferma Gallo: “le migliori pratiche suggeriscono di combinare dati sintetici e reali, tenere traccia della creazione dei dati e mantenere processi di generazione trasparenti con pipeline versionate, test di utilità e privacy e monitoraggio dei bias”.

Chitkara di Gartner conferma: “Garantire la qualità dei dati richiede una continua validazione (experts-in-the-loop) rispetto ai dati reali per riflettere le mutevoli realtà aziendali. Per la maggior parte delle aziende, il percorso verso i dati sintetici sarà costituito da un mix di acquisti da fornitori specializzati, costruzione di conoscenze interne per i casi d’uso critici e utilizzo di piattaforme specializzate nella generazione di dati sintetici”.

Per realizzare a pieno la promessa dei dati sintetici, secondo Chitkara, i CIO devono integrare nella loro data strategy governance, validazione continua e compliance, trasformando i potenziali ostacoli in un vantaggio competitivo sostenibile.

Sul vantaggio reale gli analisti non hanno dubbi. “Come ogni strumento, i dati sintetici non sono una bacchetta magica”, conclude Gallo, “ma, se governati con attenzione e competenza, sono un tool strategico che può sbloccare un potenziale immenso per l’innovazione e la crescita aziendale”.


Read More from This Article: Dati sintetici: tutte le ragioni per considerarli subito indispensabili
Source: News

Category: NewsJune 24, 2025
Tags: art

Post navigation

PreviousPrevious post:“AI가 뒤바꾼 지형도” 2025년 IT가 직면한 10대 과제NextNext post:인터뷰 | “좋은 기술은 현장에서 쓰여야 한다”··· 롯데건설 기술연구원 구경영 TRF TFT 팀장

Related posts

LG AI연구원장·전 네이버 대표, 각각 과기정통부·중기부 장관 후보로
June 24, 2025
깃허브, AI 코파일럿 유료 과금 정책 강화···‘무료 엔터프라이즈 도구 시대’ 막 내리나
June 24, 2025
“AI가 뒤바꾼 지형도” 2025년 IT가 직면한 10대 과제
June 24, 2025
인터뷰 | “좋은 기술은 현장에서 쓰여야 한다”··· 롯데건설 기술연구원 구경영 TRF TFT 팀장
June 24, 2025
기고 | 쌓일수록 혁신은 무너진다··· ‘데브옵스 부채’ 해결법
June 24, 2025
마이크로소프트, 윈도우11 내장 생성형 AI 모델 ‘뮤’ 공개
June 24, 2025
Recent Posts
  • LG AI연구원장·전 네이버 대표, 각각 과기정통부·중기부 장관 후보로
  • 깃허브, AI 코파일럿 유료 과금 정책 강화···‘무료 엔터프라이즈 도구 시대’ 막 내리나
  • “AI가 뒤바꾼 지형도” 2025년 IT가 직면한 10대 과제
  • Dati sintetici: tutte le ragioni per considerarli subito indispensabili
  • 인터뷰 | “좋은 기술은 현장에서 쓰여야 한다”··· 롯데건설 기술연구원 구경영 TRF TFT 팀장
Recent Comments
    Archives
    • June 2025
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.