Dati sintetici: tutte le ragioni per considerarli subito indispensabili

Nei loro progetti con l’intelligenza artificiale, i CIO possono beneficiare enormemente dell’utilizzo dei dati sintetici. Di questo concetto si parla molto: non è una novità assoluta (come non lo è l’intelligenza artificiale in sé), ma oggi – con la diffusione dell’AI in azienda – rappresenta una delle opportunità più interessanti per i CIO nell’addestramento dei modelli linguistici e nella creazione di scenari simulati. Ma come procedere, quali sono i costi e i rischi da cui guardarsi?

“I synthetic data non sono banalmente dei dati ‘falsi’, ma informazioni generate artificialmente che mimano le proprietà statistiche di un set di dati reali”, ci ha spiegato il Dott. Alfonso Maria Gallo, AI Consultant e analista delle policy tecnologiche. “Gli impieghi odierni sono molteplici e toccano settori diversi; il loro impiego nelle imprese italiane è non solo possibile, ma anche auspicabile per rimanere competitivi. Certo, un CIO deve valutare attentamente l’investimento. Inoltre, i dati sintetici sono senza dubbio un vantaggio enorme, soprattutto a livello di costi ma, come per ogni strumento potente, devono essere maneggiati con cura”.

Come nei dati reali, anche in quelli sintetici la questione centrale resta la qualità, che dipende dai modelli e dagli algoritmi utilizzati per generarli, nonché dalla rappresentatività dei dati di addestramento originali. La generazione di dati sintetici di alta qualità richiede una profonda comprensione dei dati reali e dei modelli statistici sottostanti. Se non sono generati correttamente, i dati sintetici possono introdurre distorsioni o artefatti che potrebbero influenzare negativamente le prestazioni dei modelli di machine learning. Per questo, molti esperti consigliano la combinazione di dati sintetici e reali.

Detto questo, i benefici appaiono innegabili. Come ha affermato [in inglese] Dinand Tinholt, VP, Insights and Data, North America, Capgemini, i dati sintetici sono cruciali “perché affrontano i problemi di privacy, sicurezza, scarsità dei dati e controllo che possono presentarsi nell’addestramento dei modelli AI. Le fonti di dati tradizionali stanno raggiungendo il loro limite: le leggi sulla privacy sono sempre più severe e i dati reali spesso non sono vari a sufficienza. Prevedo che il 2025 sarà l’anno in cui i dati sintetici diventeranno protagonisti. Le aziende che sapranno sfruttarli costruiranno modelli potenti e adattabili con velocità mai viste prima”.

Il futuro delle aziende data-driven si basa anche sui dati sintetici

La Principal research analyst di Gartner, Vibha Chitkara, ci ha confermato: “I dati sintetici non sono un hype: stanno rapidamente diventando un asset strategico per i processi decisionali basati sui dati e potenziati dall’AI. Il futuro delle aziende data-driven non si basa solo sui dati reali ma anche sui dati sintetici”.

Infatti, Gartner prevede che, entro il 2030, supereranno i reali come fondamenta per il decision-making nelle aziende, anche perché questi ultimi saranno sempre più soggetti a restrizioni per motivi di privacy, bias e disponibilità e, di conseguenza, i dati sintetici emergeranno come soluzione per permettere ai team IT di simulare complessi scenari di business, accelerare l’addestramento dei modelli e fare innovazione data-driven con l’AI.

“Per esempio, gli istituti finanziari usano i dati sintetici per addestrare modelli di fraud detection su tipologie di frodi rare o emergenti che potrebbero non essere ben rappresentate nei dataset del mondo reale”, osserva Chitkara. “Le aziende della manifattura usano dati simulati, al posto di quelli reali dei sensori, per ottimizzare la manutenzione predittiva, ottenendo informazioni affidabili senza dover aspettare i dati dei reali malfunzionamenti dei macchinari. Nella sanità, i dati sintetici dei pazienti permettono lo sviluppo di diagnostica avanzata basata sull’AI senza ledere la privacy delle persone”.

Un altro campo di applicazione in forte crescita è quello della robotica e della guida autonoma, dove le aziende generano enormi quantità di dati di guida simulati per addestrare i loro veicoli e gestire situazioni pericolose che sarebbero troppo rischiose da replicare nel mondo reale, ci ha indicato il Dott. Gallo.

Tanti i benefici anche per le aziende delle telecomunicazioni: queste possiedono enormi quantità di dati che potrebbero valorizzare, ma si tratta all’80-85% di dati personali dei clienti non utilizzabili per questioni di privacy, come nota lo studio di ADLittle [in inglese] del 2024 “Synthetic data: facilitating innovative solutions”. I dati sintetici possono supplire permettendo alle telco di svolgere i loro analytics e comprendere il comportamento e le preferenze degli utenti senza compromettere la riservatezza delle loro informazioni. Lo stesso discorso si applica alle società dell’energia, le utility, o a quelle del retail, che hanno bisogno di analizzare i dati dei clienti per personalizzare le offerte e generare raccomandazioni, ma sono spesso limitate dal GDPR.

Gallo conferma: “Ovunque ci sia la necessità di dati abbondanti, vari e che tutelino la privacy, i dati sintetici stanno diventando una risorsa strategica”.

Come si ottengono e quanto costano i dati sintetici

Il Dott. Gallo ci ha spiegato che il processo per ottenere i dati sintetici si basa principalmente su modelli di deep learning, autoencoder variazionali (VAE), che comprimono e ricostruiscono informazioni, e modelli linguistici di grandi dimensioni (LLM), che possono generare dati testuali e tabulari. In particolare, vengono usate le Reti Generative Avversarie, o GAN (Generative Adversarial Networks), dove due reti neurali competono tra loro: una, il “generatore”, crea dati sintetici cercando di renderli il più realistici possibile, mentre l’altra, il “discriminatore”, impara a distinguere i dati reali da quelli sintetici. Questa competizione spinge il generatore a produrre dati di qualità sempre maggiore, fino a quando il discriminatore non è più in grado di distinguerli da quelli veri.

Certo, si tratta di tecniche avanzate tra cui il CIO deve sapersi muovere con consapevolezza dei rispettivi vantaggi e limiti, anche se oggi si sta formando un ecosistema con vendor e marketplace dei dati sintetici, che rende più facile e meno costoso l’accesso. Ma occorre sempre investire in tecnologia e persone.

“La sfida principale dell’utilizzo dei dati sintetici nelle aziende non risiede tanto nella complessità tecnica, quanto nella disponibilità delle competenze necessarie per implementare e gestire queste tecnologie”, sottolinea il Dott. Gallo. “Fortunatamente, il mercato offre soluzioni sempre più accessibili”.

Esistono, per esempio, piattaforme “synthetic data as a service” che permettono alle aziende di generare dati su misura senza dover costruire da zero un’infrastruttura complessa, abbattendo così i costi iniziali, ma dovendo valutare – attentamente – l’investimento.

“I costi non sono trascurabili e includono sia l’eventuale licenza del software o l’utilizzo della piattaforma, sia il tempo delle risorse umane specializzate – data scientist e ingegneri AI – in grado di supervisionare il processo e validare la qualità dei dati generati. Il ritorno sull’investimento però può essere significativo”, indica Gallo.

Tanti vantaggi, alcuni rischi

In particolare, i dati sintetici permettono di accelerare i cicli di sviluppo dei prodotti basati su AI, facendo leva su dati che non sono soggetti alle restrizioni imposte dalle leggi sulla privacy.

“Uno dei maggiori vantaggi dei dati sintetici”, spiega Gallo, “sta nel fatto che i dati più preziosi che le aziende possiedono, spesso quelli dei clienti, sono bloccati dal GDPR e da altre normative sulla privacy”.

Oppure si possono esplorare nuove opportunità di business che sarebbero precluse dalla mancanza di dati reali.

In ogni caso, la chiave per un’implementazione di successo è “partire con un progetto pilota ben definito, che affronti un problema di business specifico, per poi scalare gradualmente l’adozione in altre aree dell’azienda”.

Quanto ai rischi, il principale è il cosiddetto “synthetic data bias”, evidenzia Gallo. Se il set di dati originali da cui si parte per generare quelli sintetici contiene dei bias, ovvero delle distorsioni, i dati artificiali non solo li replicheranno, ma potrebbero addirittura amplificarli.

Un altro aspetto da considerare è la “deriva del modello” (model drift). Il mondo reale cambia costantemente e i dati sintetici, per quanto ben fatti, sono una fotografia di un determinato momento.

“In estremo, possono portare al collasso del modello”, spiega Gallo, “dove un modello diventa meno creativo e più prevenuto nei suoi output, compromettendo seriamente la sua funzionalità e generando così tante allucinazioni da risultare inutilizzabile. È fondamentale che i CIO mettano in atto processi di monitoraggio continuo per garantire che i modelli addestrati su dati sintetici mantengano le loro performance nel tempo e vengano riaddestrati con dati aggiornati, siano essi reali o sintetici di nuova generazione”.

L’approccio vincente è ibrido

L’esperto punta l’attenzione anche sul tema della validazione: è cruciale avere delle metriche robuste per misurare la qualità e la fedeltà dei dati sintetici rispetto a quelli reali.

“Serve assicurarsi che il team IT non si limiti a generare dati, ma che implementi un framework rigoroso per testare che questi dati siano effettivamente adatti allo scopo, preferendo un approccio ibrido”, afferma Gallo: “le migliori pratiche suggeriscono di combinare dati sintetici e reali, tenere traccia della creazione dei dati e mantenere processi di generazione trasparenti con pipeline versionate, test di utilità e privacy e monitoraggio dei bias”.

Chitkara di Gartner conferma: “Garantire la qualità dei dati richiede una continua validazione (experts-in-the-loop) rispetto ai dati reali per riflettere le mutevoli realtà aziendali. Per la maggior parte delle aziende, il percorso verso i dati sintetici sarà costituito da un mix di acquisti da fornitori specializzati, costruzione di conoscenze interne per i casi d’uso critici e utilizzo di piattaforme specializzate nella generazione di dati sintetici”.

Per realizzare a pieno la promessa dei dati sintetici, secondo Chitkara, i CIO devono integrare nella loro data strategy governance, validazione continua e compliance, trasformando i potenziali ostacoli in un vantaggio competitivo sostenibile.

Sul vantaggio reale gli analisti non hanno dubbi. “Come ogni strumento, i dati sintetici non sono una bacchetta magica”, conclude Gallo, “ma, se governati con attenzione e competenza, sono un tool strategico che può sbloccare un potenziale immenso per l’innovazione e la crescita aziendale”.

Read More from This Article: Dati sintetici: tutte le ragioni per considerarli subito indispensabili
Source: News

Dati sintetici: tutte le ragioni per considerarli subito indispensabili

Il futuro delle aziende data-driven si basa anche sui dati sintetici

Come si ottengono e quanto costano i dati sintetici

Tanti vantaggi, alcuni rischi

L’approccio vincente è ibrido

Related posts