I dati sintetici e la linea sottile che divide il successo dal disastro

Fino al 20% dei dati utilizzati per l’addestramento dell’intelligenza artificiale è già sintetico, ovvero generato anziché ottenuto dall’osservazione del mondo reale, con LLM che utilizzano milioni di campioni sintetizzati. Secondo Gartner, questa percentuale potrebbe raggiungere l’80% entro il 2028, aggiungendo che, da qui al 2030, i dati sintetici saranno utilizzati per il 50% delle decisioni aziendali. Va, tuttavia, precisato che qualsiasi output ottenuto da un LLM è un dato sintetico.

L’addestramento dell’AI è il campo in cui i dati sintetici danno il meglio di sé, evidenzia Vibha Chitkara [in inglese], ricercatrice principale di Gartner. “Affronta efficacemente molte sfide intrinseche associate ai dati del mondo reale, come la parzialità, l’incompletezza, il rumore, i limiti storici e le preoccupazioni relative alla privacy e alla regolamentazione, comprese le informazioni di identificazione personale”, afferma.

La generazione di grandi volumi di dati di formazione su richiesta è interessante rispetto alla raccolta lenta e costosa di quelli reali, che può essere soggetta a problemi di privacy o semplicemente non disponibile. I dati sintetici [in inglese] dovrebbero aiutare a preservare la privacy, accelerare lo sviluppo ed essere più convenienti per scenari a lungo termine che le imprese non potrebbero altrimenti affrontare, aggiunge. Possono anche essere utilizzati per sperimentazioni controllate, a condizione che siano sufficientemente accurati.

I dati appositamente creati sono ideali per la pianificazione di scenari e l’esecuzione di simulazioni intelligenti, mentre i dati sintetici sufficientemente dettagliati da coprire interi scenari potrebbero prevedere il comportamento futuro di risorse, processi e clienti, che sarebbe prezioso per la pianificazione aziendale. Questo tipo di utilizzo avanzato richiede motori di simulazione e l’equivalente dei gemelli digitali, ancora in fase di sviluppo al di fuori di alcune aree di adozione precoce.

La scienza dei materiali, la ricerca farmaceutica, il settore petrolifero e del gas e la produzione sono mercati ovvii, ma l’interesse sta crescendo anche nei settori della supply chain e delle assicurazioni. In tutti questi casi, strumenti sufficientemente accessibili e accurati potrebbero garantire miglioramenti operativi e aumento dei ricavi, oltre a ottimizzare i costi e ridurre i rischi in molti settori del processo decisionale aziendale.

Inoltre, i team di marketing e progettazione dei prodotti potrebbero creare clienti simulati sulla base dei dati di acquisto e dei sondaggi esistenti sui clienti, per poi intervistarli e ottenere feedback sui nuovi prodotti e sulle nuove campagne. Un’azienda globale della catena di fornitura sta sperimentando la simulazione di interruzioni dovute a disastri naturali, pandemie e cambiamenti geopolitici per migliorare la resilienza. Si tratta di un processo in più fasi che prevede la creazione di appositi motori che generano set di dati sull’impatto che questi scenari avranno sulle rotte di approvvigionamento e consegna, e poi l’addestramento di modelli di AI per analizzare tali scenari e suggerire come rafforzare le catene di fornitura.

Gli usi più immediati dei dati sintetici possono essere più prosaici. In effetti, le organizzazioni probabilmente li stanno già utilizzando in modo limitato al di fuori dell’intelligenza artificiale. Gli sviluppatori web e di applicazioni si affidano, per esempio, al monitoraggio sintetico che simula le interazioni degli utenti su larga scala per misurare le prestazioni e la disponibilità per diversi scenari, luoghi e dispositivi, invece di aspettare che gli utenti reali incontrino aree problematiche, o di testare nuove app e funzionalità prima del lancio.

Amplificazione accurata

Se creati correttamente, i dati sintetici imitano le proprietà statistiche e i modelli dei dati reali senza contenere record effettivi dal set di dati originale, sottolinea Jarrod Vawdrey, capo data scientist operativo di Domino Data Lab. David Cox [in inglese], vice president per i modelli AI di IBM Research, suggerisce di considerarli un’amplificazione piuttosto che una creazione di dati. “Quelli reali possono essere estremamente costosi da produrre, ma se ne avete una piccola quantità, potete moltiplicarli”, sottolinea. “In alcuni casi, è possibile creare dati sintetici di qualità molto superiore all’originale perché i dati reali sono un campione e non coprono tutte le diverse variazioni e permutazioni che si possono incontrare nel mondo reale”.

Sono particolarmente utili quando non ci sono dati personali e nessun modello di minaccia. Per esempio, sintetizzare più casi per migliorare gli agenti basati su LLM e le API nel proprio ambiente ha effetti positivi dimostrabili sui modelli.

Per questi scenari, Cox sostiene che gli strumenti-chiave in mano a vendor come IBM sono sicuri e potenti. “I dati sintetici sono un valido alleato in questo caso”, dice. “Aiutano a migliorare il modello in determinati ambiti. Non sono associati a persone reali, e sono, pertanto, del tutto innocui e sicuri”. Incorporare la conoscenza di un determinato domain e garantire la distribuzione reale di tratti, proprietà e caratteristiche nei dati sintetici migliora effettivamente i modelli rispetto a quelli che sarebbero stati se fossero stati addestrati solo su dati reali.

“La maggior parte dei problemi che si riscontrano in produzione sono dovuti a condizioni di contorno, che i fati reali non sono in grado di rappresentare in maniera esaustiva”, dichiara Rahul Rastogi, Chief Innovation Officer della piattaforma di dati in tempo reale SingleStore.

Le aziende che necessitano di rilevare prodotti danneggiati o difettosi su una linea di assemblaggio, per esempio, difficilmente dispongono di tutte le combinazioni possibili rilevabili dai modelli di visione artificiale. Così come, la sicurezza informatica può effettuare test più estremi con i dati sintetici, afferma. “Probabilmente la pratica migliore è quella di effettuare una modellazione delle minacce e generare quanti più dati sintetici possibile, perché non ci si può permettere di aspettare che il modello presenti delle falle, generi risultati errati o troppi falsi positivi”, commenta.

L’AI Act dell’UE [in inglese] potrebbe incoraggiare un maggiore utilizzo dei dati sintetici perché se le organizzazioni vogliono utilizzare i dati personali in un sandbox normativo per carichi di lavoro che soddisfano i criteri di interesse pubblico, per esempio la sostenibilità energetica o la protezione delle infrastrutture critiche, devono dimostrare che non è possibile farne ricorso.

Anche per le aziende non interessate dalla legge UE sull’IA, Gartner raccomanda l’uso di dati sintetici, ove possibile, data la probabilità che i modelli di intelligenza artificiale generativa possano conservare i dati personali inclusi (direttamente o indirettamente) in un prompt. I modelli di utilizzo del linguaggio, gli argomenti di interesse o semplicemente il profilo dell’utente possono essere sufficienti per rischiare di reidentificare un individuo. Tuttavia, nonostante i potenziali vantaggi, ottenere dati sintetici corretti non è sempre facile.

“Possono essere una forza positiva, ma anche causare gravi problemi”, tiene a precisare Kjell Carlsson, vice president e analista di Gartner. “Potremmo migliorare la maggior parte dei nostri casi d’uso utilizzando i dati sintetici in qualche modo, ma ciò comporta dei rischi e le persone non hanno familiarità con essi. È necessario che vengano affidati soltanto a chi sa che cosa sta facendo, e che si presti attenzione a ciò che si fa”.

Replicare troppo la realtà

Il settore sanitario, dove la protezione della privacy impedisce la condivisione di dati che potrebbero migliorare l’intelligenza artificiale, è un cliente ovvio per i dati sintetici, ma questi sono utili per qualsiasi circostanza in cui i dati dei clienti sono particolarmente preziosi.

Sebbene non possa rivelare il nome dell’azienda per cui ha gestito i servizi di reporting, analisi e dati a livello globale mentre lavorava in Apple, Rastogi afferma che, nonostante lo scetticismo iniziale, dopo aver verificato la dimensionalità, la distribuzione dei dati e le relazioni cartesiane con i dati, il suo ex team ha utilizzato con successo i dati sintetici dei clienti per i bakeoff, valutando nuove tecnologie per evitare di dare ai fornitori l’accesso ai dati reali dei clienti.

“Eravamo molto sensibili all’uso dei nostri dati reali”, rileva. “Sebbene quelli reali offrano i risultati migliori, eravamo sempre molto titubanti”. Questo accadeva cinque anni fa, ma Rastogi ritiene che oggi le aziende si trovino ad affrontare difficoltà simili nell’utilizzo dei propri dati per l’AI.

“Le informazioni reali sono materiale radioattivo a basso grado”, aggiunge Cox di IBM Research. “Non li si sposta fuori dalle mura dell’azienda, ma se è possibile evitare è meglio non farlo”. Inoltre, i dati copiati per gli sviluppatori possono essere rubati. Si tratta di un’enorme opportunità, poiché molte aziende dispongono di una miniera d’oro di dati di cui sono molto caute e di cui non sfruttano appieno il valore. Fare una copia del database dei clienti e metterla da qualche altra parte è un rischio notevole, quindi è molto più sicuro creare un surrogato sintetico”.

I dati sintetici promettono di farlo in modo da preservare la privacy, afferma Carlsson, poiché si creano strutture equivalenti del set di dati, che non dovrebbero includere alcun individuo reale. Ma questo processo può fallire. “Si potrebbe, per esempio, commettere un errore sovracampionando un individuo in maniera troppo frequente, finendo per replicare quella persona e per non ripulire il dato in seguito quando occorra rimuovere chiunque corrisponda a persone reali”, nota. “Oppure qualcuno potrebbe semplicemente decodificarlo, perché le relazioni tra i diversi campi sono abbastanza forti da poterlo capire”. La reidentificazione è ancora più probabile quando si combinano più set di dati.

Vawdrey definisce questo tipo di replica involontaria “modello di fuga” e “questo rischio si è evoluto insieme alle tecniche di generazione”, afferma. “I moderni metodi basati su GAN e LLM a volte possono memorizzare e riprodurre esempi di addestramento sensibili, quindi le aziende dovrebbero implementare metodi rigorosi di tutela della privacy come la privacy differenziale per garantire matematicamente la protezione contro la reidentificazione”.

I limiti della distorsione

Tutti i set di dati [in inglese] sono effettivamente distorti, precisa Carlsson. È solo una questione di grado. Aggiungere popolazioni sottorappresentate al set di dati può eliminare la distorsione dal modello.

In teoria, i dati sintetici possono fornire modelli che funzionano meglio con popolazioni diverse o in situazioni difficili. Per l’audio, è possibile aggiungere altri esempi di casi limite, accenti, condizioni rumorose come gli ambienti di vendita al dettaglio, terminologia rara che deve essere corretta o conversazioni che passano da una lingua all’altra.

“È possibile creare versioni sintetiche aggiuntive con variazioni dei gruppi sottorappresentati nei dati”, fa notare Carlsson. “Nella mia sperimentazione clinica, non ho abbastanza persone di una determinata etnia, età o sesso”. Aumentare la rappresentatività con una varietà sufficiente riequilibra il set di dati. ”Posso creare versioni sintetiche di questi individui con ulteriori variazioni e rendere questo modello effettivamente più performante per quel gruppo. Posso anche rovinare tutto e sovracampionare un gruppo di persone troppo piccolo, finendo per duplicare più volte lo stesso individuo, il che è negativo dal punto di vista della privacy e non aiuta, perché quella persona potrebbe non essere particolarmente rappresentativa di quel gruppo. È facile sbagliare e peggiorare i problemi con i dati, rendendoli ancora più distorti di prima”.

Un recente studio [in inglese] del database IT ACM Digital Library mostra che anche gli strumenti che promettono set di dati imparziali senza offrire indicazioni o controlli basati su dati demografici possono produrre insiemi razziali drammaticamente sbilanciati che appaiono diversificati ma omettono del tutto alcuni gruppi che possono costituire una parte significativa della popolazione reale. Se i dati generati si basano su un numero molto ridotto di campioni di dati di base senza conoscere la distribuzione di alcune caratteristiche specifiche di tali informazioni nella popolazione reale, si può ottenere una diversità statistica non rappresentativa.

“Ci si è illusi che il modello avrebbe funzionato”, chiarisce Carlsson.

Il pericolo evidente è, quindi, che i dati sintetici possano essere di scarsa qualità o semplicemente errati, quindi utilizzare le tecniche giuste per creare dati per ogni caso d’uso è fondamentale quanto controllarli accuratamente.“ Con i dati tabulari, le correlazioni statistiche possono essere eccessivamente semplificate, mentre le immagini sintetiche potrebbero non presentare le sottili variazioni presenti nei dati visivi del mondo reale”, afferma Vawdrey. “La generazione di testo deve affrontare sfide legate all’accuratezza dei fatti e alla coerenza”. Problemi si verificano anche quando i dati sintetici non riescono a cogliere la vera complessità e le sfumature dei dati del mondo reale, portando a modelli che funzionano bene nei test sintetici ma falliscono negli ambienti di produzione.

Basatevi sulla vostra esperienza

Come gli LLM, i dati sintetici necessitano di una solida base nel contesto reale, per esempio attraverso il RAG, per evitare allucinazioni o affermazioni senza senso, avverte Nikhil Pareek, CEO della piattaforma Future AGI. Dati sintetici dall’aspetto plausibile possono causare problemi se la distribuzione è imprecisa, con squilibri di classe o discrepanze di correlazione.

La convalida iterativa e il clustering semantico per ancorare i dati generati a modelli effettivamente osservati possono essere d’aiuto in questo senso, ma richiedono competenze specifiche nel settore, in modo da poter individuare i dati errati, soprattutto se ci si avventura nella simulazione.

La buona notizia è che questo offre alle imprese un’opportunità di differenziazione, afferma Cox. “La competenza nel settore in cui opera la vostra azienda, la conoscenza dei vostri clienti e del funzionamento della vostra attività sono gli elementi essenziali”, afferma.

Il segreto sta nel coinvolgere gli esperti giusti all’interno dell’azienda e acquisire le competenze tecniche adeguate. Tuttavia, sono pochi gli ingegneri esperti in dati sintetici che le aziende possono assumere. “La generazione di dati di alta qualità e adatti allo scopo richiede conoscenze e competenze specialistiche, il che rappresenta, oggi, un ostacolo per molte societài”, avverte Chitkara. E finché queste ultime non potranno fidarsi dei dati sintetici e della governance che li circonda, la loro adozione sarà lenta.

“Per gli stakeholder aziendali che intendono applicare l’AI, le competenze più importanti da sviluppare attualmente sono il benchmarking e la valutazione“, continua Cox. “È necessario avere una base di riferimento su cosa significa ‘buono’ e su come testare il sistema per capire se funziona meglio rispetto a prima dell’aggiunta dei dati sintetici”. Il monitoraggio e la valutazione devono essere continui e legati agli obiettivi aziendali.

Esaurimento dello spazio

Poiché i dati sintetici sono spesso più facili da produrre rispetto ai dati reali e poiché l’obiettivo è quello di creare molti esempi per coprire più scenari, le aziende rischiano di ritrovarsi con set di dati molto più grandi. Potrebbero anche sottovalutare l’infrastruttura necessaria per creare questo genere di informazioni.

“Gli approcci iniziali, come la generazione basata su regole o SMOTE, richiedevano risorse computazionali minime, mentre i moderni approcci di deep learning come le GAN richiedono una notevole capacità GPU”, indica Vawdrey. ‘La più recente generazione di dati sintetici basata su LLM può richiedere un’infrastruttura di livello aziendale, soprattutto per la sintesi di immagini o video su larga scala’.

Dopo averli generati, le aziende devono anche conservare i set di dati sintetici e gli artefatti dei modelli per la revisione; una documentazione chiara deve mostrare come sono stati creati, convalidati e utilizzati i dati sintetici, che possono essere strutturati e compatti, senza il rumore, le ridondanze e gli elementi non strutturati dei dati reali, spesso disordinati. Tuttavia, l’esplorazione di scenari e le simulazioni intelligenti richiedono notevoli risorse di calcolo e capacità di archiviazione a causa dei grandi volumi di dati generati, aggiunge Chitkara. I set di dati multimediali sintetici possono raggiungere i petabyte.

“È una situazione di imbarazzo per l’abbondanza”, conclude Cox. “È possibile creare facilmente più cose di quante se ne sappia cosa fare. Solo perché si tratta di dati sintetici non significa che non sia necessario conservarli, controllarli e capire come sono stati creati e come sono stati utilizzati. Bisogna comunque gestirli”.