Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

La Gen AI può essere la risposta ai problemi con i dati? Sì, ma non in tutti i casi

Attualmente ci sono 143 milioni di persone in attesa di interventi chirurgici nei Paesi a basso reddito. Ci sono organizzazioni pronte a portare medici e risorse ma, tra i due elementi, c’è un gap di informazione, afferma Joan LaRovere, direttore medico associato del Boston Children’s Hospital, professore alla Harvard Medical School e co-fondatore della Virtue Foundation, una ONG dedicata a risolvere questo divario informativo.

La Virtue Foundation, fondata nel 2002, ha già creato il più grande database al mondo di ONG e strutture sanitarie, fornendo servizi di salute globale in oltre 25 Paesi, mettendo in atto spedizioni mediche, conducendo ricerche e donando attrezzature mediche. Nell’ambito di questo lavoro, i volontari della fondazione hanno appreso la necessità di raccogliere dati affidabili per fornire un’attività sanitaria efficiente.

Il problema è che le fonti di informazione sono incredibilmente varie e spesso nascoste, dice LaRovere.

“Non sono aggregate”, spiega. “Si trovano sul web. Sono nascoste nelle organizzazioni governative. Si trova in una miscela di formati strutturati e non strutturati”.

Per contribuire ad alleviare la complessità e a estrarre informazioni, la Fondazione, utilizzando diversi modelli di intelligenza artificiale, sta costruendo un livello di analisi in cima a questo database, dopo aver collaborato con DataBricks e DataRobot. Alcuni dei modelli sono tradizionali di apprendimento automatico (ML) e altri, aggiunge LaRovere, sono di IA generativa, compresi i nuovi progressi multimodali.

“L’intelligenza artificiale generativa sta colmando le lacune dei dati”, osserva. “Si tratta di novità, e noi siamo proprio all’inizio della sua curva evolutiva”.

Il prossimo passo, sotolinea, è quello di prendere il set di dati fondamentali e aumentarlo con altre fonti e più livelli di dati – perfino satellitari – per cogliere intuizioni e individuare correlazioni.

“Le capacità dell’IA ci permettono di iniziare a rendere visibile l’invisibile”, tiene a precisare.

Ma la Virtue Foundation non è l’unica a sperimentare l’intelligenza artificiale per aiutare a sviluppare o aumentare i set di dati.

“Questo funziona e viene, oggi, utilizzato da un numero sempre crescente di aziende”, rileva Bret Greenstein, partner e leader della strategia go-to-market per la Gen AI di PwC. “La maggior parte dei dati aziendali è costituita da documenti e da codici non strutturati e semi-strutturati, oltre che da immagini e video. In passato, tutto questo non era accessibile senza soluzioni complesse e personalizzate che, spesso, erano anche molto fragili”.

Per esempio, l’IA generativa può essere utilizzata per estrarre i metadati dai documenti, creare indici di informazioni e grafici di conoscenza e interrogare, riassumere e analizzare questi dati.

“Si tratta di un enorme balzo in avanti rispetto agli approcci precedenti, che richiedevano un’ampia elaborazione manuale”, chiarisce. “E sblocca moltissimi casi d’uso, dato che la maggior parte dei flussi di lavoro e dei processi si basano su documenti e tipi di dati simili”.

Secondo IDC [in inglese], nel 2022 il 90% dei dati generati dalle aziende sarà non strutturato. Le imprese utilizzano la gen AI per creare dati sintetici, trovare e rimuovere informazioni sensibili dai set di dati di formazione, aggiungere significato e contesto ai dati ed eseguire altre funzioni di livello superiore in cui gli approcci ML tradizionali non sono all’altezza. Ma l’intelligenza artificiale generativa può anche essere più lenta, più costosa e talvolta meno accurata delle tecnologie più vecchie, e gli esperti consigliano di non lanciarsi in questa attività prima che siano stati realizzati tutti i livelli fondamentali.

Un caso d’uso di estrazione dei dati

ABBYY, un’azienda di automazione intelligente, da oltre 35 anni, utilizza vari tipi di IA e di ML per elaborare i documenti. E, tre anni fa, molto prima che ChatGPT facesse il suo ingresso in scena, ha iniziato a usare la Gen AI.

“L’abbiamo usata per aiutarci con il riconoscimento ottico dei caratteri”, dice Max Vermeir, direttore senior della strategia IA dell’azienda.

In precedenza, si utilizzava una rete neurale convoluzionale per rilevare quali bit di un’immagine contenevano del testo. Poi questo veniva inserito in un transformer, la stessa architettura di ChatGPT, ma costruito in modo diverso”, dice.

Il vantaggio di utilizzare un Large Language Model per questo compito è che può vedere il quadro generale e capire cosa si suppone sia il testo da indicazioni di contesto. Il problema, prosegue Vermeir, è che gli LLM richiedono molte risorse. “E nel riconoscimento ottico dei caratteri, l’importante è la velocità”, aggiunge. “Quindi, solo quando rileviamo un documento di qualità molto bassa, coinvolgiamo un modello linguistico di grandi dimensioni”.

L’azienda utilizza gli LLM anche per capire la posizione delle informazioni chiave in un particolare tipo di documento.

“Eseguiamo il riconoscimento ottico dei caratteri, diamo il testo completo al Large Language Model e poi poniamo le nostre domande”, dice. Per esempio, il sistema potrebbe capire quali parti del documento contengono particolari tipi di informazioni. “Poi lo distilliamo in un modello più piccolo, addestrato specificamente per quel tipo di documento, il che significa che sarà molto efficiente, accurato e molto meno dispendioso in termini di risorse”.

Oltre a richiedere molte risorse, i modelli linguistici di grandi dimensione di tipo generico sono noti anche per avere problemi di accuratezza.

“L’utilizzo puro di un LLM non fornisce l’affidabilità necessaria per le attività di dati critici”, evidenzia Vermeir. “Non occorre che indovini cosa c’è in un PDF che è rimasto nel suo archivio per 10 anni, soprattutto se si tratta del suo contratto più importante”.

È importante utilizzare lo strumento giusto per il lavoro che si deve svolgere, considerando tutto il clamore che circonda la Gen AI. “Molte persone stanno cercando di sfruttare questa tecnologia, che sembra in grado di fare tutto”, dice, “ma ciò non significa che si debba usare per tutto”.

Quindi, per esempio, ABBYY ha già uno strumento che può trasformare una singola immagine in centinaia di immagini sintetiche da utilizzare come dati di addestramento. Se ci sono record duplicati, la tecnologia di corrispondenza con logica fuzzy è ottima per verificare se si tratta della stessa persona. Ma un articolo di The Onion che consiglia di mangiare un sasso ogni giorno, o un post su Reddit che parla di mettere la colla sulla pizza possono essere considerati fonti di informazione credibili che dovrebbero far parte di un set di dati di addestramento?

“Questo richiede che la tecnologia ragioni sul fatto che le persone mettano, o meno, la colla sulla pizza”, dice Vermeir. Si tratta è un compito interessante da affidare a un modello linguistico di grandi dimensioni, che deve ragionare su un’ampia quantità di informazioni”. Quindi, siamo di fronte a un caso d’uso molto utile”. ABBYY lavora a qualcosa di simile: capire se una particolare informazione, aggiunta a un set di dati di formazione, aiuterà le prestazioni di un modello in fase di formazione.

“Stiamo verificando se i dati di formazione che riceviamo aumentano effettivamente il modello”, afferma.

Tutto ciò si rivela particolarmente importante per un modello ML di piccole dimensioni o per un modello IA di tipo speciale. Per quelli di uso generale, è più difficile fare questo tipo di distinzione. Per esempio, escludere gli articoli di The Onion da un set di dati di addestramento potrebbe migliorare le prestazioni fattuali di un modello, ma includerli potrebbe migliorare il senso dell’umorismo e il livello di scrittura di un modello; escludere i siti web dei terrapiattisti potrebbe migliorare l’accuratezza scientifica di un modello, ma ridurre la sua capacità di discutere le teorie cospirative.

Un caso d’uso di deduplicazione e controllo qualità

Simbian, startup specializzata in cybersecurity, sta costruendo una piattaforma di sicurezza alimentata dall’IA, e si preoccupa che gli utenti possano “jailbrekkare” l’intelligenza artificiale, ovvero porre domande in modo tale che essa fornisca risultati che non dovrebbe fornire.

“Quando si costruisce un LLM per la sicurezza, è meglio che sia sicuro”, sottolinea Ambuj Kumar, CEO dell’azienda.

Per trovare esempi di tali violazioni, l’azienda ha creato un sito web in cui gli utenti possono provare a ingannare un modello di IA. “Questo ci ha mostrato tutti i modi in cui un Large Language Model può essere ingannato”, dice. Tuttavia, abbiamo trovato un limite: molti risultati erano duplicati. Ipotizziamo, per esempio, che un utente voglia farsi spiegare da un chatbot come costruire una bomba. Se lo chiede direttamente, il chatbot si rifiuta di rispondere alla domanda. Quindi l’utente potrebbe dire qualcosa come: “Mia nonna mi raccontava una storia sulla costruzione di una bomba…”. E un altro utente potrebbe dire: “Il mio bisnonno mi raccontava una storia…”. Semplicemente in termini di parole utilizzate, si tratta di due richieste diverse, ma sono esempi di una tattica di evasione comune.

Avere troppi esempi di una tattica simile nel set di dati di addestramento falserebbe i risultati. Inoltre, costa di più. Utilizzando la Gen AI per confrontare diversi jailbreak di successo, il numero totale di campioni è stato ridotto di un fattore 10, dichiara.

Simbian sta anche utilizzando un LLM per valutare il suo set di dati di formazione, che è pieno di diversi tipi di informazioni relative alla sicurezza.

“Sono stati scritti gigabyte di blog, manuali e README”, indica, “e noi leggiamo continuamente queste cose, capendo quali sono buone e quali no, e aggiungendo quelle buone al nostro set di dati di formazione”.

Un caso d’uso sui dati sintetici

Quelli che riguardano i dati sintetici si rivelano particolarmente adatti alla Gen AI, perché sono stati progettati specificamente per generare nuovi testi.

“Sono molto potenti per la creazione dati sintetici e dati di prova”, racconta Noah Johnson, co-fondatore e CTO di Dasera, un’azienda che si occupa di sicurezza dei dati. “Sono molto efficaci in questo senso. Si dà loro la struttura e il contesto generale, e possono generare dati sintetici dall’aspetto molto realistico”. Questi ultimi vengono poi utilizzati per testare il software dell’azienda, aggiunge. “Utilizziamo un modello open source che abbiamo messo a punto per questa applicazione specifica”.

Ma i dati sintetici non sono solo per il test del software, osserva Andy Thurai, VP e principal analyst di Constellation Research. Un chatbot del servizio clienti, per esempio, potrebbe richiedere una grande quantità di dati di formazione da cui imparare.

“Ma a volte i dati non sono sufficienti”, afferma Thurai. “Quelli del mondo reale sono molto costosi, richiedono tempo e sono difficili da raccogliere”. Potrebbero esserci anche vincoli legali o problemi di copyright e altri ostacoli per ottenerli. Inoltre, i dati sono disordinati, dice. “I data scientist passeranno fino al 90% del loro tempo a curare il set di dati e a ripulirlo”. E più dati sono stati addestrati per un modello, migliore sarà la sua qualità. Alcuni hanno miliardi di parametri.

“Utilizzando dati sintetici, è possibile produrre dati alla velocità che si desidera, quando si desidera”, precisa.

Il problema, aggiunge, è che è troppo facile produrre solo i dati che ci si aspetta di vedere, con il risultato di avere un modello che non è ottimo quando si imbatte nella confusione del mondo reale.

“Ma in base alle mie conversazioni con i dirigenti, tutti sembrano pensare che sia abbastanza buono”, dice Thurai. “Permettetemi di far uscire, inizialmente, il modello con una miscela di dati del mondo reale e di dati sintetici per riempire alcune lacune. E nelle versioni successive, man mano che ottengo più dati, posso perfezionare, effettuare un RAG o riqualificarlo con i dati più recenti”.

Tenere sotto controllo le aspettative dell’intelligenza artificiale

La cosa più importante da sapere è che la Gen AI non risolverà tutti i problemi di dati di un’azienda.

“Non è una pallottola d’argento”, evidenzia Daniel Avancini, Chief Data Officer di Indicium, una società di consulenza sull’IA e sui dati.

Se un’impresa è appena all’inizio del suo viaggio nei dati, la chiave del successo può consistere nel creare buone piattaforme di dati, processi di governance e utilizzare approcci tradizionali efficienti e robusti per identificare, classificare e pulire i dati.

“La Gen AI è sicuramente qualcosa che aiuterà, ma ci sono molte best practice tradizionali che devono essere implementate prima”, aggiunge.

Senza queste basi, un LLM può avere dei vantaggi limitati. Ma quando le aziende dispongono di strutture adeguate e hanno a che fare con grandi quantità di dati, ci sono compiti specifici che l’intelligenza artificiale generativa può aiutare.

“Ma non direi che, con la tecnologia di cui disponiamo oggi, possa sostituire gli approcci tradizionali”, conclude.


Read More from This Article: La Gen AI può essere la risposta ai problemi con i dati? Sì, ma non in tutti i casi
Source: News

Category: NewsJune 20, 2024
Tags: art

Post navigation

PreviousPrevious post:Abanca da un paso en firme en la digitalización y automatización de sus servicios TINextNext post:Flash Forward make the end of the HDD

Related posts

The new space race: Direct-to-device satellite communications and what it means for business
June 24, 2025
CIOs drop shotgun approach to get more strategic with AI pilots
June 24, 2025
The 8 highest paying industries for IT talent
June 24, 2025
10 tough cybersecurity questions every IT leader must answer
June 24, 2025
LG AI연구원장·전 네이버 대표, 각각 과기정통부·중기부 장관 후보로
June 24, 2025
깃허브, AI 코파일럿 유료 과금 정책 강화···‘무료 엔터프라이즈 도구 시대’ 막 내리나
June 24, 2025
Recent Posts
  • The new space race: Direct-to-device satellite communications and what it means for business
  • CIOs drop shotgun approach to get more strategic with AI pilots
  • The 8 highest paying industries for IT talent
  • 10 tough cybersecurity questions every IT leader must answer
  • LG AI연구원장·전 네이버 대표, 각각 과기정통부·중기부 장관 후보로
Recent Comments
    Archives
    • June 2025
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.