Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

Ecco come i CIO possono proteggere le informazioni di identificazione personale

Il mondo dell’industria è sempre più alle prese con la gestione dei dati e, ormai, non può più fare a meno di affidarsi all’intelligenza artificiale per migliorare i processi e il decision making. Tuttavia, a fronte di questa necessità, si presenta è una sfida significativa per garantire la privacy delle informazioni sensibili di identificazione personale, le cosiddette PII, Personal Identifiable Information [in inglese] presenti nella maggior parte dei set di dati. La salvaguardia delle PII, d’altra parte, non è un problema nuovo, poiché i team IT interrogano i dati contenenti PII, ma solo pochi eletti ne richiedono l’accesso: la limitazione degli accessi, la protezione di questi ultimi basata sui ruoli, e il mascheramento sono stati ampiamente adottati nelle applicazioni di BI tradizionali per gestire l’accesso ai dati sensibili.

La protezione di questi ultimi nelle pipeline AI/ML di ultima generazione può avere diversi requisiti. La categoria emergente – e in continua crescita – di chi utilizza dati è costituita dai data scientist esperti di ML e dalle applicazioni che richiedono set di dati più grandi. In entrambi i casi, i proprietari dei dati devono camminare sul filo del rasoio per garantire che le componenti del loro ciclo di vita AI/ML abbiano l’accesso più appropriato a ciò di cui hanno bisogno, massimizzando, al contempo, la privacy dei dati PII.

Una nuova classe

I data scientist che si occupano di machine learning necessitano di grandi quantità di dati per addestrare i modelli di apprendimento automatico, i quali diventano poi, a loro volta, consumatori di grandi quantità di dati per fornire informazioni utili alle decisioni aziendali.

A differenza degli utenti tradizionali che hanno bisogno di accedere solo a quantità limitate di dati, questa nuova categoria di data scientist, come pure le applicazioni di ML richiedono l’accesso a interi set di dati per garantire che i loro modelli rappresentino gli output con precisione. E, anche quando essi vengono criptati o mascherati, non è detto che un malintenzionato non riesca a ricavare, dalla loro analisi, informazioni sensibili su coloro a cui fanno capo.

Per estrarre informazioni dai dati, gli scienziati dell’informazione utilizzano spesso tecniche avanzate come il deep learning, l’elaborazione del linguaggio naturale e la computer vision. Tuttavia, questi sforzi possono risultare rallentati o bloccati perché si trovano di fronte a dati sensibili PII presenti in alte percentuali nei set di dati: secondo le statistiche, si parla di percentuali di dati notevoli, che possono arrivare anche fino al 44% del totale [in inglese]. È facile comprendere, quindi, la misura in cui tale limitazione blocchi la strada verso la “terra promessa” dell’IA nella creazione di valore, nell’efficienza e nell’esplorazione di nuovi e rivoluzionari casi di utilizzo.

Sebbene, per ovviare al problema, siano state introdotte tecniche avanzate come la differential privacy, l’apprendimento federato, i dati sintetici e la crittografia omomorfa, che mirano a proteggere le PII che consentono ai data scientist e alle applicazioni di ML di accedere e analizzare i dati di cui hanno bisogno, il mercato ha ancora bisogno di soluzioni da implementare lungo tutto il ciclo di vita del ML (prima e dopo l’addestramento del modello) per proteggere le PII e allo stesso tempo accedere a vasti set di dati, senza modificare drasticamente la metodologia e l’hardware utilizzati oggi.

Come garantire la privacy e la sicurezza dei dati nel moderno ciclo di vita del ML

La nuova generazione di consumatori di dati di ML deve implementare misure di privacy in entrambe le fasi del suo ciclo di vita: quella dell’addestramento e quella dell’implementazione (o inferenza).

Nella fase di addestramento, l’obiettivo principale è quello di utilizzare gli esempi esistenti per istruire un modello, il quale dovrà poi effettuare previsioni accurate, come classificare campioni di dati che non ha potuto considerare come parte del dataset di addestramento. Gli insiemi di dati utilizzati in questo processo spesso contengono informazioni sensibili (come le PII) in ogni record che, per essere protette, richiedono tecniche e controlli avanzati che permettano di preservare la privacy.

Nella fase di implementazione del ML, quindi, il modello addestrato effettua previsioni sui nuovi dati che non ha esaminato durante l’addestramento, quelli di implementazione. Se, da un lato, è fondamentale garantire che le informazioni personali utilizzate per addestrare il modello di ML siano protette e che le previsioni del modello non rivelino informazioni sensibili, dall’altro è altrettanto importante proteggere le informazioni sensibili e quelle personali all’interno dei campioni di dati di inferenza. Quest’ultima operazione, tuttavia, quando si effettua su dati criptati è caratterizzata da una grande lentezza, proibitiva per la maggior parte delle applicazioni, anche quando si fa uso hardware personalizzato. Per questo motivo, c’è, oggi, un’esigenza critica di disponibilità soluzioni di privacy praticabili e a basso costo per garantire la riservatezza dei dati durante l’intero ciclo di vita del ML.

Il moderno kit di strumenti per la privacy per il ML e l’IA: vantaggi e svantaggi

Negli ultimi tempi, sono state sviluppati diversi sistemi per risolvere le questioni “calde” della PII, e l’apprendimento federato, il confidential computing, e i dati sintetici rappresentano esempi che la nuova classe di consumatori di dati sta esplorando per gestire la privacy nella ML e nell’AI. Tuttavia, ciascuna di queste metodologie si presenta con diversi livelli di efficacia e di complessità di implementazione per soddisfare i requisiti degli utenti.

Apprendimento federato

L’apprendimento federato è una tecnica di apprendimento automatico che consente l’addestramento su un set di dati decentralizzato e distribuito su più dispositivi. Invece di inviare i dati a un server centrale per l’elaborazione, avviene localmente su ogni macchina e solo gli aggiornamenti del modello vengono trasmessi a un server centrale.

Limitazioni: una ricerca condotta nel 2020 dall’Institute of Electrical and Electronics Engineers ha mostrato che un aggressore potrebbe acquisire informazioni private [in inglese] dai parametri del modello di apprendimento federato. Inoltre, tale metodologia non affronta la fase di inferenza, la quale espone i dati al modello ML durante l’implementazione del cloud o dei dispositivi edge.

Differential privacy

La privacy differenziale delimita i confini di come un singolo record di dati utilizzati per l’addestramento contribuisca alla creazione del modello di apprendimento automatico. Un test di appartenenza sui record di dati di addestramento assicura che, se un singolo record di dati viene rimosso dal set di dati, l’output non cambi oltre una certa soglia.

Limitazioni: sebbene l’addestramento con privacy differenziale presenti dei vantaggi, richiede, comunque, l’accesso del data scientist a grandi volumi di dati in chiaro. Inoltre, non affronta in alcun modo la fase di implementazione del ML.

Crittografia omomorfa

La crittografia omomorfa consente di eseguire calcoli sui dati mentre questi rimangono criptati. Ciò significa che gli algoritmi di apprendimento automatico possono operare sui dati crittografati senza dover essere prima decifrati. Ciò può garantire una maggiore privacy e sicurezza per i dati sensibili, poiché non vi è necessità che essi vengano rivelati in chiaro.

Limitazioni: La crittografia omomorfa può avere costi proibitivi, poiché operando sui dati crittografati anziché su quelli in chiaro, presuppone un’elevata intensità di calcolo. La crittografia omomorfa spesso richiede hardware personalizzato per ottimizzare le prestazioni, che può essere costoso da sviluppare e mantenere. Infine, per effettuare le operazioni crittografiche di questo tipo gli scienziati dei dati utilizzano reti neurali profonde spesso difficili da implementare in questo contesto.

Dati sintetici

I dati sintetici sono dati generati dal computer imitando quelli del mondo reale. Vengono spesso utilizzati per addestrare i modelli di machine learning e per proteggere i dati sensibili nel settore sanitario e finanziario. Possono generare rapidamente grandi quantità di dati e aggirare i rischi per la privacy.

Limitazioni: sebbene i dati sintetici possano aiutare ad addestrare un modello predittivo, coprono adeguatamente solo alcune possibili sotto-aree di dati del mondo reale. Ciò può comportare una perdita di precisione e compromettere le capacità del modello nella fase di inferenza. Inoltre, durante quest’ultima è necessario proteggere i dati reali, un aspetto del quale i dati sintetici non possono occuparsi.

Confidential computing

Il confidential computing è un approccio alla sicurezza che protegge i dati durante il loro utilizzo. Importanti aziende, tra le quali Google, Intel, Meta e Microsoft, si sono unite al Confidential Computing Consortium per promuovere i Trusted Execution Environments (TEEs), ambienti di esecuzione affidabili basati su hardware. La soluzione isola i calcoli in questi TEE per salvaguardare i dati.

Limitazioni: Il confidential computing richiede alle aziende di sostenere costi aggiuntivi per spostare i loro servizi basati sul ML su piattaforme che richiedono hardware specializzato. La soluzione, inoltre, è solo parzialmente esente da rischi. Un attacco del maggio 2021 [in inglese] ha raccolto e corrotto dati da TEEs basati sulla tecnologia Intel SGX [in inglese].

Sebbene queste soluzioni siano utili, i loro limiti diventano evidenti durante l’addestramento e l’implementazione dei modelli di intelligenza artificiale. La prossima fase della privacy delle PII dovrà essere leggera e integrare le misure e i processi di privacy esistenti, fornendo al contempo l’accesso a set di dati contenenti informazioni sensibili.

L’equilibrio tra la riservatezza delle PII e l’IA: una nuova classe di protezione

Quelli che abbiamo esaminato finora sono soltanto alcuni approcci recenti per salvaguardare le PII e per affrontare le sfide della nuova classe di consumatori di dati. Si tratta di un equilibrio in cui le PII non possono essere esposte all’IA, ma i consumatori di dati devono utilizzare quanti più dati possibile per generare nuovi casi d’uso e di generazione di valore. Inoltre, la maggior parte di queste soluzioni si occupa della protezione dei dati durante la fase di addestramento dell’intelligenza artificiale, senza offrire una risposta valida per la salvaguardia dei dati del mondo reale durante l’implementazione dell’IA.

In questo caso, abbiamo bisogno di una soluzione specifica per gestire questo equilibrio. Una di quelle che abbiamo utilizzato è Stained Glass Transform [in inglese], che consente alle aziende di estrarre istruzioni di ML dai dati proteggendoli, al contempo, dalla fuga di informazioni sensibili. La tecnologia sviluppata da Protopia AI è in grado di trasformare qualsiasi tipo di dato identificando ciò che i modelli di AI richiedono, eliminando le informazioni non necessarie e trasformando i dati il più possibile, pur mantenendo una loro quasi perfetta accuratezza. Per salvaguardare i dati degli utenti mentre lavorano sui modelli di IA, le aziende possono scegliere l’applicazione per migliorare l’addestramento e l’implementazione, ottenendo così previsioni e risultati migliori, e preoccupandosi meno dell’esposizione dei dati. 

Inoltre, questa tecnologia aggiunge un nuovo livello di protezione per tutto il ciclo di vita del ML, sia per la formazione che per l’implementazione. In questo modo, si risolve una lacuna significativa, in cui la gestione della privacy rimaneva irrisolta durante la fase di inferenza ML per la maggior parte delle soluzioni, anche di ultima generazione.

L’ultima Gartner AI TriSM guide [in inglese] sull’implementazione e sulla gestione del Trust, dei Rischi e della Sicurezza nell’IA ha evidenziato lo stesso problema e la medesima soluzione. TRiSM guida le figure leader nel campo dell’analisi e i data scientist per aiutarli a garantire l’affidabilità, l’attendibilità e la sicurezza dell’IA.

Sebbene esistano diverse procedure per proteggere i dati sensibili, l’obiettivo finale è quello di consentire alle aziende di sfruttare al meglio i propri dati per alimentare l’IA.

Come scegliere la giusta soluzione

La scelta delle giuste soluzioni per la tutela della privacy è essenziale per vincere le sfide che riguardano ML e AI. È necessario, quindi, valutare attentamente ogni alternativa e selezionare quelle che completano, aumentano o si integrano meglio per soddisfare le vostre esigenze specifiche. Per esempio, i dati sintetici possono migliorare quelli del mondo reale, accrescendo le prestazioni dei modelli di IA, e possono essere utilizzati per simulare eventi rari che potrebbero essere difficili da studiare (vedi i disastri naturali), e per aumentare i dati del mondo reale quando sono limitati.

Un’altra soluzione promettente è il confidential computing, che può trasformare i dati prima del loro ingresso in un ambiente di esecuzione affidabile. Questa tecnologia costituisce un’ulteriore barriera, riducendo al minimo la superficie di attacco, e garantendo che i dati in chiaro non vengano compromessi anche qualora il TEE dovesse venire violato. Pertanto, scegliete le soluzioni di tutela della privacy che si adattano meglio alle vostre esigenze e massimizzate le prestazioni della vostra IA senza compromettere la privacy dei dati.

Per concludere

La protezione dei dati sensibili non è soltanto un problema tecnologico: è anche una sfida a livello aziendale. Via via che i nuovi consumatori di dati espandono le loro capacità di AI e ML, la protezione delle informazioni di identificazione personale (PII) [in inglese] diventa ancora più critica. Per creare modelli ad alte prestazioni che forniscano un valore corretto, dobbiamo massimizzare l’accesso ai dati e, contemporaneamente, salvaguardarli. Ogni soluzione per la tutela della privacy deve essere, quindi, valutata attentamente per risolvere le problematiche più urgenti dell’IA e del ML. In definitiva, dobbiamo ricordare che la riservatezza delle PII non riguarda solo la conformità e gli obblighi legali, ma anche il rispetto e la protezione della privacy e del benessere delle persone.

Data Privacy
Read More from This Article: Ecco come i CIO possono proteggere le informazioni di identificazione personale
Source: News

Category: NewsJune 8, 2023
Tags: art

Post navigation

PreviousPrevious post:Salesforce’s Marketing GPT and Commerce GPT to help build personalized servicesNextNext post:Zero-trust: Why You Shouldn’t Ignore Your Print Environment

Related posts

Barb Wixom and MIT CISR on managing data like a product
May 30, 2025
Avery Dennison takes culture-first approach to AI transformation
May 30, 2025
The agentic AI assist Stanford University cancer care staff needed
May 30, 2025
Los desafíos de la era de la ‘IA en todas partes’, a fondo en Data & AI Summit 2025
May 30, 2025
“AI 비서가 팀 단위로 지원하는 효과”···퍼플렉시티, AI 프로젝트 10분 완성 도구 ‘랩스’ 출시
May 30, 2025
“ROI는 어디에?” AI 도입을 재고하게 만드는 실패 사례
May 30, 2025
Recent Posts
  • Barb Wixom and MIT CISR on managing data like a product
  • Avery Dennison takes culture-first approach to AI transformation
  • The agentic AI assist Stanford University cancer care staff needed
  • Los desafíos de la era de la ‘IA en todas partes’, a fondo en Data & AI Summit 2025
  • “AI 비서가 팀 단위로 지원하는 효과”···퍼플렉시티, AI 프로젝트 10분 완성 도구 ‘랩스’ 출시
Recent Comments
    Archives
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.