Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

GenAI e dati: le difficoltà per i CIO di oggi. Tra privacy, compliance e anonimizzazione

Nel pieno del clamore suscitato dall’intelligenza artificiale generativa – complici gli entusiastici annunci dei big tecnologici e le applicazioni consumer entrate rapidamente nel lavoro in azienda – non stupisce che la GenAI sia risultata la prima tipologia di soluzione AI implementata nelle aziende in un sondaggio [in inglese] condotto da Gartner alla fine del 2023 e pubblicato nelle scorse settimane. Il 29% dei 644 manager interpellati all’interno di imprese di Stati Uniti, Germania e Regno Unito ha affermato di aver già in uso soluzioni di intelligenza artificiale generativa. La GenAI è risultata più diffusa di altre tecnologie legate all’intelligenza artificiale, come algoritmi di ottimizzazione, sistemi rule-based, natural language processing (elaborazione del linguaggio naturale) e altri tipi di machine learning.

La vera sfida, però, è “dimostrare e stimare” il valore dei progetti (è il 49% delle risposte nel sondaggio) non solo rispetto al Total Cost of Ownership e ai benefici ad ampio spettro che si possono ottenere, ma di fronte ad ostacoli come la mancanza di fiducia negli aspetti tecnologici dell’AI (indicata dal 40%) e la difficoltà di avere volumi di dati sufficienti (39%). Ma non si tratta di sfide insormontabili.

GenAI, opzione dati sintetici per proteggere la privacy

Il primo passo nei progetti AI e GenAI è sempre ottenere i dati. Come spiega Vincenzo Laveglia, Ph.D. (con tesi di ricerca sulle reti neurali dinamiche) e Tecnologo presso l’Università di Firenze, “Nei casi in cui la privacy è imprescindibile si cerca di anonimizzarli quanto più possibile per poi passare ad addestrare il modello. Occorre un bilanciamento tra privacy e utilità: se dopo l’anonimizzazione il livello di informazione del dato è lo stesso, il dato è ancora utile; se invece, una volta tolti i riferimenti personali o sensibili, il dato non è più efficace si crea un problema. I dati sintetici evitano queste difficoltà, ma non sono esenti dalla necessità del trade-off: dovremo accertarci di avere un equilibrio tra le varie classi di informazioni, altrimenti il modello diventerà molto esperto su un tema e molto incerto su un altro”.

Sotto l’ombrello dei dati sintetici rientrano quelli generati con metodi di data augmentation, ovvero il processo di generazione artificiale di nuovi dati a partire da quelli esistenti, con cui si addestrano i modelli di machine learning.

“Quando è possibile applicarla, la data augmentation risolve il problema dell’insufficienza di dati o della compliance alle norme sulla privacy e la proprietà intellettuale”, afferma Laveglia.

Anche secondo Gartner i dati sintetici possono aiutare a risolvere il problema della disponibilità di dati per i prodotti AI, nonché le sfide della privacy, della conformità e dell’anonimizzazione delle informazioni. I dati sintetici, infatti, possono essere generati per rispecchiare le stesse caratteristiche statistiche dei dati reali, ma senza rivelare informazioni personali identificabili, quindi rispettosi delle norme sulla privacy by design, e altri dettagli riservati. L’alternativa ai dati sintetici è rendere anonimi e de-identificare manualmente i set di dati, ma ciò richiede più tempo e lavoro e comporta un tasso di errore più elevato.

Di dati sintetici parla anche l’AI Act europeo, citandoli come misura possibile per mitigare i rischi connessi all’uso di dati personali per l’addestramento di sistemi di intelligenza artificiale.

“Il livello di attenzione sulla tutela dei dati personali in ambito AI si è notevolmente alzato negli ultimi mesi, anche grazie a specifici interventi delle autorità garanti, inclusa quella italiana”, evidenzia Chiara Bocchi, avvocata in ambito TMT/Commerciale/Protezione dei dati e counsel dello studio legale Dentons. “Guardando ai modelli di AI per finalità generali, al momento i riflettori sono puntati in particolare sul data scraping, sia dal punto di vista di chi effettua scraping, sia dal punto di vista di chi lo subisce. L’autorità italiana ha adottato una nota informativa su web scraping e intelligenza artificiale generativa indicando proprio alcune misure che possono essere prese in considerazione per prevenire questa attività”.

Da dove vengono i dati: le complessità della compliance

In questa nota informativa dello scorso maggio, il Garante italiano per la protezione dei dati personali ha evidenziato come l’addestramento dei modelli su cui si basano i sistemi di GenAI richiede sempre “una mole ingente di dati (anche di carattere personale)” e che questi sono spesso ottenuti con la tecnica del web scraping, ovvero “una raccolta massiva ed indiscriminata effettuata sul web”. L’attività di web scraping può essere diretta (effettuata dallo stesso soggetto che sviluppa il modello) o indiretta (effettuata su dataset creati mediante tecniche di web scraping da soggetti terzi rispetto allo sviluppatore del modello, quindi attingendo a data lake di terze parti precedentemente creati mediante scraping).

Per i CIO diventa complicato accertarsi che i dati siano stati raccolti in modo conforme e, soprattutto, di poterli a sua volta usare in piena compliance.

“Dal punto di vista della normativa in materia di tutela dei dati personali e di tutela del diritto d’autore, non è complesso capire se un dato è protetto; la complessità, in particolare sul versante privacy, è garantire un uso del dato pubblico o pubblicamente accessibile anche per fini diversi da quelli che ne hanno determinato la diffusione”, sottolinea l’avvocata Bocchi. “Guardando solo alla base giuridica del trattamento, ottenere il consenso di tutti i soggetti ai quali possono essere raccolti i dati personali con la tecnica dello scraping è sostanzialmente impossibile”.

Per questo le autorità per la privacy stanno cercando di trovare delle linee guida.

“In particolare l’interrogativo, e la valutazione, è se la base giuridica del legittimo interesse possa essere applicabile per il trattamento di dati personali, raccolti con la tecnica dello scraping, a fini dell’addestramento di sistemi di AI”, prosegue Bocchi. “Il garante italiano ha annunciato, in sede di pubblicazione della propria nota informativa su web scraping e intelligenza artificiale generativa, che si pronuncerà a breve sulla liceità del web scraping di dati personali basato sul legittimo interesse”. 

Su questo tema sono già intervenuti il Garante privacy olandese e il Garante privacy francese (Cnil [in inglese]); quest’ultimo ha indicato, ancora una volta, nei dati sintetici e nelle tecniche di anonimizzazione e pseudonimizzazione una misura valida per limitare i rischi connessi al trattamento di dati personali per l’addestramento dei sistemi di GenAI.

“Uno dei rischi derivanti dall’uso di sistemi di GenAI oggi è la difficoltà di assicurarne la conformità con il GDPR, la normativa copyright e, a tendere, l’AI Act per quel che riguarda l’AI e l’AI generativa, con conseguenti sanzioni”, osserva Bocchi.

Le strategie per mitigare i rischi dell’AI

Tra tante complessità, come capitalizzare sulle potenzialità della GenAI mitigando i rischi?

“Sicuramente una strategia vincente è definire delle soluzioni che assicurino la conformità alla normativa privacy fin dalla fase di design del sistema di GenAI, partendo dalla base dati di addestramento”, afferma Bocchi. “L’AI Act entrerà a breve in vigore e, con esso e con riferimento specifico ai modelli di intelligenza artificiale per finalità generali, l’obbligo di adottare politiche per adempiere alla normativa in materia di diritto d’autore e di redigere, rendendola pubblica, una sintesi dettagliata dei contenuti usati per l’addestramento dei modelli di intelligenza artificiale e, quindi, anche dei dati”.

Un’altra iniziativa efficace è strutturare l’azienda in modo da garantire la collaborazione tra diverse figure manageriali, creando un dialogo continuo e costante tra il CIO e le altre funzioni, così da unire competenze tecniche e giuridiche. Non solo: “Per incrementare la fiducia nelle nuove tecnologie, molte società anche parte di gruppi internazionali si stanno attivando con la creazione di comitati etici interni, ai quali sono attribuite anche funzioni di sostegno e promozione di una governance dell’innovazione”, sottolinea l’avvocata.

Sull’addestramento dei modelli AI e la conservazione dei dati, il Garante francese Cnil suggerisce alle imprese anche di concentrarsi sullo sviluppo trasparente dei sistemi di intelligenza artificiale e sulla loro auditability, ovvero la possibilità che siano verificati da terze parti, e che le tecniche di sviluppo dei modelli siano sottoposte a un’efficace peer review.

Fidarsi della GenAI: come muoversi tra tecnologia e change management

Per quanto riguarda il trust nella tecnologia dell’intelligenza artificiale, i CIO temono soprattutto le allucinazioni e i rischi di discriminazione: per potersi “fidare” del risultato, è, ancora una volta, necessario assicurare la qualità del dataset, nonché limitare opportunamente la memorizzazione dei dati per evitare che le informazioni personali o sensibili siano riportate alla superficie.

Con queste premesse, afferma Laveglia, l’AI è uno strumento del tutto affidabile: l’importante è che il sistema sia costruito bene, ovvero che le performance sui dati di test siano rassicuranti, e che il dataset usato sia molto rappresentativo della vera distribuzione dei dati.

“Un esempio è Alpha Fold, molto usato nell’ambito della biologia strutturale e bioinformatica in generale”, riferisce il ricercatore. “Si tratta di un programma basato interamente su tecniche di intelligenza artificiale sviluppato da DeepMind per predire la struttura tridimensionale delle proteine a partire dalla loro sequenza aminoacidica: è rivoluzionario perché accelera il lavoro delle persone, svolgendo in una giornata compiti che ai ricercatori richiederebbero mesi o anni, con un tasso di errore bassissimo. Il modello è ben fatto e il risultato è assolutamente affidabile, anche se il dataset per l’addestramento, il protein data bank PDB, è grande (ci sono diverse centinaia di migliaia di esempi), ma non ha certo un ordine di grandezza paragonabile ai dataset usati per addestrare i Large Language Model moderni”.

Le aziende possono muoversi in modo simile, partendo da un modello pre-addestrato, che assicura una configurazione ottimale, e svolgere su questo il fine tuning, adattandolo al proprio caso d’uso. Partire da zero con un proprio modello, infatti, richiede molto più lavoro di raccolta dati e molte competenze (infatti, è l’opzione meno frequente nel citato sondaggio di Gartner); usare i prodotti incorporati nelle suite delle big tech, d’altro lato, è una soluzione più immediata (e, infatti, è la più frequente), ma meno personalizzabile: potrebbe costringere i CIO nei confini definiti di alcune applicazioni. Scaricare un modello pre-formato e raffinarlo poi con i propri dati è il giusto compromesso per la creatività del team IT, purché, insieme al business, si siano prima individuati i casi d’uso che hanno il potenziale di portare vantaggio in azienda.

Adottare l’AI in azienda in modo maturo vuol dire, infatti, diffondere questa tecnologia su vasta scala nei processi e nelle funzioni, cercando di generare benefici che vanno oltre l’aumento della produttività. Occorre anche un focus dell’IT sull’engineering dell’AI, ovvero lo sviluppo tecnologico e l’implementazione concreta: oggi solo il 48% dei progetti AI entra in produzione, con un tempo medio di 8 mesi per uscire dalla fase del prototipo.

I progetti, infine, vanno accompagnati da un aggiornamento delle competenze (upskilling) delle persone e da attività di change management, perché il modo di organizzare i team e il lavoro è destinato a cambiare significativamente: secondo lo studio “PwC AI Jobs Barometer”, la domanda di competenze che fanno uso dell’AI sono in rapida crescita sul mercato (+25%) e ciò significa che – più che essere sostituiti dall’AI – dovremo imparare a lavorarci insieme. Lo confermano i risultati di un altro studio di PwC, il “Global CEO Survey 2024”: per il 69% del campione l’intelligenza artificiale richiederà alla maggioranza dei loro dipendenti di sviluppare nuove competenze.


Read More from This Article: GenAI e dati: le difficoltà per i CIO di oggi. Tra privacy, compliance e anonimizzazione
Source: News

Category: NewsJuly 23, 2024
Tags: art

Post navigation

PreviousPrevious post:El incidente de CrowdStrike lleva a los CIO a replantearse sus estrategias en la nubeNextNext post:Survey reveals businesses are running multiple cloud-native platforms: Explore the opportunities and complexities of this approach

Related posts

IA segura y nube híbrida, el binomio perfecto para acelerar la innovación empresarial 
May 23, 2025
How IT and OT are merging: Opportunities and tips
May 23, 2025
The implementation failure still flying under the radar
May 23, 2025
보안 자랑, 잘못하면 소송감?···법률 전문가가 전하는 CISO 커뮤니케이션 원칙 4가지
May 23, 2025
“모델 연결부터 에이전트 관리까지” 확장 가능한 AI 표준을 위한 공개 프로토콜에 기대
May 23, 2025
AWS, 클라우드 리소스 재판매 제동···기업 고객에 미칠 영향은?
May 23, 2025
Recent Posts
  • IA segura y nube híbrida, el binomio perfecto para acelerar la innovación empresarial 
  • How IT and OT are merging: Opportunities and tips
  • The implementation failure still flying under the radar
  • 보안 자랑, 잘못하면 소송감?···법률 전문가가 전하는 CISO 커뮤니케이션 원칙 4가지
  • “모델 연결부터 에이전트 관리까지” 확장 가능한 AI 표준을 위한 공개 프로토콜에 기대
Recent Comments
    Archives
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.