Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

I dati sintetici e la linea sottile che divide il successo dal disastro

Fino al 20% dei dati utilizzati per l’addestramento dell’intelligenza artificiale è già sintetico, ovvero generato anziché ottenuto dall’osservazione del mondo reale, con LLM che utilizzano milioni di campioni sintetizzati. Secondo Gartner, questa percentuale potrebbe raggiungere l’80% entro il 2028, aggiungendo che, da qui al 2030, i dati sintetici saranno utilizzati per il 50% delle decisioni aziendali. Va, tuttavia, precisato che qualsiasi output ottenuto da un LLM è un dato sintetico.

L’addestramento dell’AI è il campo in cui i dati sintetici danno il meglio di sé, evidenzia Vibha Chitkara [in inglese], ricercatrice principale di Gartner. “Affronta efficacemente molte sfide intrinseche associate ai dati del mondo reale, come la parzialità, l’incompletezza, il rumore, i limiti storici e le preoccupazioni relative alla privacy e alla regolamentazione, comprese le informazioni di identificazione personale”, afferma.

La generazione di grandi volumi di dati di formazione su richiesta è interessante rispetto alla raccolta lenta e costosa di quelli reali, che può essere soggetta a problemi di privacy o semplicemente non disponibile. I dati sintetici [in inglese] dovrebbero aiutare a preservare la privacy, accelerare lo sviluppo ed essere più convenienti per scenari a lungo termine che le imprese non potrebbero altrimenti affrontare, aggiunge. Possono anche essere utilizzati per sperimentazioni controllate, a condizione che siano sufficientemente accurati.

I dati appositamente creati sono ideali per la pianificazione di scenari e l’esecuzione di simulazioni intelligenti, mentre i dati sintetici sufficientemente dettagliati da coprire interi scenari potrebbero prevedere il comportamento futuro di risorse, processi e clienti, che sarebbe prezioso per la pianificazione aziendale. Questo tipo di utilizzo avanzato richiede motori di simulazione e l’equivalente dei gemelli digitali, ancora in fase di sviluppo al di fuori di alcune aree di adozione precoce.

La scienza dei materiali, la ricerca farmaceutica, il settore petrolifero e del gas e la produzione sono mercati ovvii, ma l’interesse sta crescendo anche nei settori della supply chain e delle assicurazioni. In tutti questi casi, strumenti sufficientemente accessibili e accurati potrebbero garantire miglioramenti operativi e aumento dei ricavi, oltre a ottimizzare i costi e ridurre i rischi in molti settori del processo decisionale aziendale.

Inoltre, i team di marketing e progettazione dei prodotti potrebbero creare clienti simulati sulla base dei dati di acquisto e dei sondaggi esistenti sui clienti, per poi intervistarli e ottenere feedback sui nuovi prodotti e sulle nuove campagne. Un’azienda globale della catena di fornitura sta sperimentando la simulazione di interruzioni dovute a disastri naturali, pandemie e cambiamenti geopolitici per migliorare la resilienza. Si tratta di un processo in più fasi che prevede la creazione di appositi motori che generano set di dati sull’impatto che questi scenari avranno sulle rotte di approvvigionamento e consegna, e poi l’addestramento di modelli di AI per analizzare tali scenari e suggerire come rafforzare le catene di fornitura.

Gli usi più immediati dei dati sintetici possono essere più prosaici. In effetti, le organizzazioni probabilmente li stanno già utilizzando in modo limitato al di fuori dell’intelligenza artificiale. Gli sviluppatori web e di applicazioni si affidano, per esempio, al monitoraggio sintetico che simula le interazioni degli utenti su larga scala per misurare le prestazioni e la disponibilità per diversi scenari, luoghi e dispositivi, invece di aspettare che gli utenti reali incontrino aree problematiche, o di testare nuove app e funzionalità prima del lancio.

Amplificazione accurata

Se creati correttamente, i dati sintetici imitano le proprietà statistiche e i modelli dei dati reali senza contenere record effettivi dal set di dati originale, sottolinea Jarrod Vawdrey, capo data scientist operativo di Domino Data Lab. David Cox [in inglese], vice president per i modelli AI di IBM Research, suggerisce di considerarli un’amplificazione piuttosto che una creazione di dati. “Quelli reali possono essere estremamente costosi da produrre, ma se ne avete una piccola quantità, potete moltiplicarli”, sottolinea. “In alcuni casi, è possibile creare dati sintetici di qualità molto superiore all’originale perché i dati reali sono un campione e non coprono tutte le diverse variazioni e permutazioni che si possono incontrare nel mondo reale”.

Sono particolarmente utili quando non ci sono dati personali e nessun modello di minaccia. Per esempio, sintetizzare più casi per migliorare gli agenti basati su LLM e le API nel proprio ambiente ha effetti positivi dimostrabili sui modelli.

Per questi scenari, Cox sostiene che gli strumenti-chiave in mano a vendor come IBM sono sicuri e potenti. “I dati sintetici sono un valido alleato in questo caso”, dice. “Aiutano a migliorare il modello in determinati ambiti. Non sono associati a persone reali, e sono, pertanto, del tutto innocui e sicuri”. Incorporare la conoscenza di un determinato domain e garantire la distribuzione reale di tratti, proprietà e caratteristiche nei dati sintetici migliora effettivamente i modelli rispetto a quelli che sarebbero stati se fossero stati addestrati solo su dati reali.

“La maggior parte dei problemi che si riscontrano in produzione sono dovuti a condizioni di contorno, che i fati reali non sono in grado di rappresentare in maniera esaustiva”, dichiara Rahul Rastogi, Chief Innovation Officer della piattaforma di dati in tempo reale SingleStore.

Le aziende che necessitano di rilevare prodotti danneggiati o difettosi su una linea di assemblaggio, per esempio, difficilmente dispongono di tutte le combinazioni possibili rilevabili dai modelli di visione artificiale. Così come, la sicurezza informatica può effettuare test più estremi con i dati sintetici, afferma. “Probabilmente la pratica migliore è quella di effettuare una modellazione delle minacce e generare quanti più dati sintetici possibile, perché non ci si può permettere di aspettare che il modello presenti delle falle, generi risultati errati o troppi falsi positivi”, commenta.

L’AI Act dell’UE [in inglese] potrebbe incoraggiare un maggiore utilizzo dei dati sintetici perché se le organizzazioni vogliono utilizzare i dati personali in un sandbox normativo per carichi di lavoro che soddisfano i criteri di interesse pubblico, per esempio la sostenibilità energetica o la protezione delle infrastrutture critiche, devono dimostrare che non è possibile farne ricorso.

Anche per le aziende non interessate dalla legge UE sull’IA, Gartner raccomanda l’uso di dati sintetici, ove possibile, data la probabilità che i modelli di intelligenza artificiale generativa possano conservare i dati personali inclusi (direttamente o indirettamente) in un prompt. I modelli di utilizzo del linguaggio, gli argomenti di interesse o semplicemente il profilo dell’utente possono essere sufficienti per rischiare di reidentificare un individuo. Tuttavia, nonostante i potenziali vantaggi, ottenere dati sintetici corretti non è sempre facile.

“Possono essere una forza positiva, ma anche causare gravi problemi”, tiene a precisare Kjell Carlsson, vice president e analista di Gartner. “Potremmo migliorare la maggior parte dei nostri casi d’uso utilizzando i dati sintetici in qualche modo, ma ciò comporta dei rischi e le persone non hanno familiarità con essi. È necessario che vengano affidati soltanto a chi sa che cosa sta facendo, e che si  presti attenzione a ciò che si fa”.

Replicare troppo la realtà

Il settore sanitario, dove la protezione della privacy impedisce la condivisione di dati che potrebbero migliorare l’intelligenza artificiale, è un cliente ovvio per i dati sintetici, ma questi sono utili per qualsiasi circostanza in cui i dati dei clienti sono particolarmente preziosi.

Sebbene non possa rivelare il nome dell’azienda per cui ha gestito i servizi di reporting, analisi e dati a livello globale mentre lavorava in Apple, Rastogi afferma che, nonostante lo scetticismo iniziale, dopo aver verificato la dimensionalità, la distribuzione dei dati e le relazioni cartesiane con i dati, il suo ex team ha utilizzato con successo i dati sintetici dei clienti per i bakeoff, valutando nuove tecnologie per evitare di dare ai fornitori l’accesso ai dati reali dei clienti.

“Eravamo molto sensibili all’uso dei nostri dati reali”, rileva. “Sebbene quelli reali offrano i risultati migliori, eravamo sempre molto titubanti”. Questo accadeva cinque anni fa, ma Rastogi ritiene che oggi le aziende si trovino ad affrontare difficoltà simili nell’utilizzo dei propri dati per l’AI.

“Le informazioni reali sono materiale radioattivo a basso grado”, aggiunge Cox di IBM Research. “Non li si sposta fuori dalle mura dell’azienda, ma se è possibile evitare è meglio non farlo”. Inoltre, i dati copiati per gli sviluppatori possono essere rubati. Si tratta di un’enorme opportunità, poiché molte aziende dispongono di una miniera d’oro di dati di cui sono molto caute e di cui non sfruttano appieno il valore. Fare una copia del database dei clienti e metterla da qualche altra parte è un rischio notevole, quindi è molto più sicuro creare un surrogato sintetico”.

I dati sintetici promettono di farlo in modo da preservare la privacy, afferma Carlsson, poiché si creano strutture equivalenti del set di dati, che non dovrebbero includere alcun individuo reale. Ma questo processo può fallire. “Si potrebbe, per esempio, commettere un errore sovracampionando un individuo in maniera troppo frequente, finendo per replicare quella persona e per non ripulire il dato in seguito quando occorra rimuovere chiunque corrisponda a persone reali”, nota. “Oppure qualcuno potrebbe semplicemente decodificarlo, perché le relazioni tra i diversi campi sono abbastanza forti da poterlo capire”. La reidentificazione è ancora più probabile quando si combinano più set di dati.

Vawdrey definisce questo tipo di replica involontaria “modello di fuga” e “questo rischio si è evoluto insieme alle tecniche di generazione”, afferma. “I moderni metodi basati su GAN e LLM a volte possono memorizzare e riprodurre esempi di addestramento sensibili, quindi le aziende dovrebbero implementare metodi rigorosi di tutela della privacy come la privacy differenziale per garantire matematicamente la protezione contro la reidentificazione”.

I limiti della distorsione

Tutti i set di dati [in inglese] sono effettivamente distorti, precisa Carlsson. È solo una questione di grado. Aggiungere popolazioni sottorappresentate al set di dati può eliminare la distorsione dal modello.

In teoria, i dati sintetici possono fornire modelli che funzionano meglio con popolazioni diverse o in situazioni difficili. Per l’audio, è possibile aggiungere altri esempi di casi limite, accenti, condizioni rumorose come gli ambienti di vendita al dettaglio, terminologia rara che deve essere corretta o conversazioni che passano da una lingua all’altra.

“È possibile creare versioni sintetiche aggiuntive con variazioni dei gruppi sottorappresentati nei dati”, fa notare Carlsson. “Nella mia sperimentazione clinica, non ho abbastanza persone di una determinata etnia, età o sesso”. Aumentare la rappresentatività con una varietà sufficiente riequilibra il set di dati. ”Posso creare versioni sintetiche di questi individui con ulteriori variazioni e rendere questo modello effettivamente più performante per quel gruppo. Posso anche rovinare tutto e sovracampionare un gruppo di persone troppo piccolo, finendo per duplicare più volte lo stesso individuo, il che è negativo dal punto di vista della privacy e non aiuta, perché quella persona potrebbe non essere particolarmente rappresentativa di quel gruppo. È facile sbagliare e peggiorare i problemi con i dati, rendendoli ancora più distorti di prima”.

Un recente studio [in inglese] del database IT ACM Digital Library mostra che anche gli strumenti che promettono set di dati imparziali senza offrire indicazioni o controlli basati su dati demografici possono produrre insiemi razziali drammaticamente sbilanciati che appaiono diversificati ma omettono del tutto alcuni gruppi che possono costituire una parte significativa della popolazione reale. Se i dati generati si basano su un numero molto ridotto di campioni di dati di base senza conoscere la distribuzione di alcune caratteristiche specifiche di tali informazioni nella popolazione reale, si può ottenere una diversità statistica non rappresentativa.

“Ci si è illusi che il modello avrebbe funzionato”, chiarisce Carlsson.

Il pericolo evidente è, quindi, che i dati sintetici possano essere di scarsa qualità o semplicemente errati, quindi utilizzare le tecniche giuste per creare dati per ogni caso d’uso è fondamentale quanto controllarli accuratamente.“ Con i dati tabulari, le correlazioni statistiche possono essere eccessivamente semplificate, mentre le immagini sintetiche potrebbero non presentare le sottili variazioni presenti nei dati visivi del mondo reale”, afferma Vawdrey. “La generazione di testo deve affrontare sfide legate all’accuratezza dei fatti e alla coerenza”. Problemi si verificano anche quando i dati sintetici non riescono a cogliere la vera complessità e le sfumature dei dati del mondo reale, portando a modelli che funzionano bene nei test sintetici ma falliscono negli ambienti di produzione.

Basatevi sulla vostra esperienza

Come gli LLM, i dati sintetici necessitano di una solida base nel contesto reale, per esempio attraverso il RAG, per evitare allucinazioni o affermazioni senza senso, avverte Nikhil Pareek, CEO della piattaforma Future AGI. Dati sintetici dall’aspetto plausibile possono causare problemi se la distribuzione è imprecisa, con squilibri di classe o discrepanze di correlazione.

La convalida iterativa e il clustering semantico per ancorare i dati generati a modelli effettivamente osservati possono essere d’aiuto in questo senso, ma richiedono competenze specifiche nel settore, in modo da poter individuare i dati errati, soprattutto se ci si avventura nella simulazione.

La buona notizia è che questo offre alle imprese un’opportunità di differenziazione, afferma Cox. “La competenza nel settore in cui opera la vostra azienda, la conoscenza dei vostri clienti e del funzionamento della vostra attività sono gli elementi essenziali”, afferma.

Il segreto sta nel coinvolgere gli esperti giusti all’interno dell’azienda e acquisire le competenze tecniche adeguate. Tuttavia, sono pochi gli ingegneri esperti in dati sintetici che le aziende possono assumere. “La generazione di dati di alta qualità e adatti allo scopo richiede conoscenze e competenze specialistiche, il che rappresenta, oggi, un ostacolo per molte societài”, avverte Chitkara. E finché queste ultime non potranno fidarsi dei dati sintetici e della governance che li circonda, la loro adozione sarà lenta.

“Per gli stakeholder aziendali che intendono applicare l’AI, le competenze più importanti da sviluppare attualmente sono il benchmarking e la valutazione“, continua Cox. “È necessario avere una base di riferimento su cosa significa ‘buono’ e su come testare il sistema per capire se funziona meglio rispetto a prima dell’aggiunta dei dati sintetici”. Il monitoraggio e la valutazione devono essere continui e legati agli obiettivi aziendali.

Esaurimento dello spazio

Poiché i dati sintetici sono spesso più facili da produrre rispetto ai dati reali e poiché l’obiettivo è quello di creare molti esempi per coprire più scenari, le aziende rischiano di ritrovarsi con set di dati molto più grandi. Potrebbero anche sottovalutare l’infrastruttura necessaria per creare questo genere di informazioni.

“Gli approcci iniziali, come la generazione basata su regole o SMOTE, richiedevano risorse computazionali minime, mentre i moderni approcci di deep learning come le GAN richiedono una notevole capacità GPU”, indica Vawdrey. ‘La più recente generazione di dati sintetici basata su LLM può richiedere un’infrastruttura di livello aziendale, soprattutto per la sintesi di immagini o video su larga scala’.

Dopo averli generati, le aziende devono anche conservare i set di dati sintetici e gli artefatti dei modelli per la revisione; una documentazione chiara deve mostrare come sono stati creati, convalidati e utilizzati i dati sintetici, che possono essere strutturati e compatti, senza il rumore, le ridondanze e gli elementi non strutturati dei dati reali, spesso disordinati. Tuttavia, l’esplorazione di scenari e le simulazioni intelligenti richiedono notevoli risorse di calcolo e capacità di archiviazione a causa dei grandi volumi di dati generati, aggiunge Chitkara. I set di dati multimediali sintetici possono raggiungere i petabyte.

“È una situazione di imbarazzo per l’abbondanza”, conclude Cox. “È possibile creare facilmente più cose di quante se ne sappia cosa fare. Solo perché si tratta di dati sintetici non significa che non sia necessario conservarli, controllarli e capire come sono stati creati e come sono stati utilizzati. Bisogna comunque gestirli”.

Articoli correlati:

I dati sintetici affrontano le sfide della formazione nell’ambito dell’intelligenza artificiale [in inglese]

Tre passaggi per preparare i dati all’intelligenza artificiale [in inglese]

Superare i colli di bottiglia dei dati nell’intelligenza artificiale [in inglese]

Le 15 tecnologie più sottovalutate nel settore IT [in inglese]

Risolvere il problema della qualità dei dati nell’intelligenza artificiale generativa [in inglese]


Read More from This Article: I dati sintetici e la linea sottile che divide il successo dal disastro
Source: News

Category: NewsMay 22, 2025
Tags: art

Post navigation

PreviousPrevious post:Galicia, a la vanguardia de la digitalización en salud NextNext post:150년 전통의 스웨덴 제조 기업 빌레루드, ERP로 제조 현장을 디지털화하다

Related posts

Data analytics and AI on and off the court in Orlando
May 22, 2025
SAP wants to make AI ubiquitous — just don’t ask about S/4HANA
May 22, 2025
SAP and AWS launch co-innovation program to accelerate enterprise AI adoption
May 22, 2025
Aleida Alcaide, directora general de Inteligencia Artificial en España, inaugurará Data & AI Summit 2025
May 22, 2025
“AI로 쇼핑 광고 성과 극대화”···네이버, 광고 자동화 솔루션 ‘애드부스트 쇼핑’ 출시
May 22, 2025
영화·코딩·콘텐츠 산업 겨냥···구글, 창작자 위한 AI 구독 모델 ‘울트라 플랜’ 공개
May 22, 2025
Recent Posts
  • Data analytics and AI on and off the court in Orlando
  • SAP wants to make AI ubiquitous — just don’t ask about S/4HANA
  • SAP and AWS launch co-innovation program to accelerate enterprise AI adoption
  • Aleida Alcaide, directora general de Inteligencia Artificial en España, inaugurará Data & AI Summit 2025
  • “AI로 쇼핑 광고 성과 극대화”···네이버, 광고 자동화 솔루션 ‘애드부스트 쇼핑’ 출시
Recent Comments
    Archives
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.