L’intelligenza artificiale generativa è una delle tecnologie a più rapida crescita della storia. Sta trasformando il mondo e, secondo un sondaggio pubblicato a settembre da Real-Time Population Survey su oltre 3.000 adulti che lavorano negli Stati Uniti, un quarto aveva utilizzato la GenAI per lavoro almeno una volta nella settimana precedente alla rilevazione, con quasi l’11% che ha dichiarato di farne uso ogni giorno.
Alla luce di questi dati, si può rilevare un tasso di adozione della tecnologia circa due volte più veloce di quello che ha caratterizzato Internet e, in un recente rapporto di S&P Global Market Intelligence per conto di Weka, l’88% delle aziende intervistate utilizza l’AI generativa, mentre il 24% l’ha integrata nei propri flussi di lavoro.
Più specificamente, un LLM è un tipo di GenAI che si concentra sul testo e sul codice invece che sulle immagini o sull’audio, anche se alcuni hanno iniziato a integrare diverse modalità. I Large Language Model oggi più popolari nelle aziende sono ChatGPT e altri modelli GPT OpenAI, Claude di Anthropic, Gemini di Google, Llama di Meta e Mistral, un progetto open source [in inglese] creato da ex dipendenti di Meta e DeepMind di Google.
Di conseguenza, con l’aumento dello slancio e della pressione del settore per impegnarsi più direttamente con la GenAI, può essere utile esaminare sette diversi gradi di complessità che le aziende stanno, oggi, affrontando per implementare gli LLM, e le relative fasi che attraverseranno per garantirsi un vantaggio competitivo.
Lo sviluppo dei chatbot
I chatbot [in inglese] sono il modo più semplice per iniziare a utilizzare la GenAI in azienda. Esistono opzioni gratuite e pubbliche per i casi d’uso a basso rischio, come le ricerche su Internet alimentate dall’AI o la sintesi di documenti pubblici. Esistono anche versioni aziendali di questi chatbot, per le quali i fornitori promettono di mantenere tutte le conversazioni sicure e di non utilizzarle per addestrare le loro AI.
Secondo un rapporto di luglio di Netskope Threat Labs, il 96% delle imprese utilizza chatbot basati sulla Generative AI, rispetto al 74% di un anno fa, con ChatGPT che è la piattaforma più popolare, con un tasso di utilizzo dell’80%. Seguono Microsoft Copilot al 67% e Google Gemini al 51%.
Inoltre, i fornitori di software aziendali stanno incorporando sempre più funzionalità di intelligenza artificiale nelle loro piattaforme. Grammarly, per esempio, dispone di funzionalità di intelligenza artificiale, così come Salesforce. La maggior parte dei principali fornitori di software aziendali ha già lanciato alcune funzionalità di GenAI o le ha inserite nelle proprie roadmap.
“Certamente, la maggior parte della generazione di valore che si potrà attribuire all’AI generativa nel corso di quest’anno e nei prossimi due, probabilmente si manifesterà nella forma di copilota o assistente, nei motori di ricerca, nelle applicazioni e negli strumenti”, sottolinea Nick Kramer, leader delle soluzioni applicate di SSA & Company, una società di global consulting.
Inoltre, nella sua valutazione, Gartner prevede che oltre l’80% dei vendor di software aziendale avrà capacità di GenAI entro il 2026, rispetto a meno del 5% del marzo di quest’anno.
Le API
La prossima strategia di implementazione dell’intelligenza artificiale generativa potrebbe essere quella che riguarda l’aggiunta di API nelle piattaforme aziendali. Per esempio, se un dipendente utilizza un’applicazione per tenere traccia delle riunioni, è possibile utilizzare un’API per generare automaticamente i riassunti delle trascrizioni. Gartner afferma che entro il 2026, oltre il 30% dell’aumento della domanda di API deriverà dalla GenAI.
“Gli LLM commerciali, creati dalle grandi aziende tecnologiche, sono accessibili tramite API con un modello di costo a consumo”, evidenzia Bharath Thota, partner della divisione digital e analytics di Kearney. “Molti cloud provider rendono questi LLM di facile l’accesso”.
Per attività semplici, come il riassunto di un rapporto, l’LLM può essere usato così com’è, dice, senza incorporazioni Retrieval Augmented Generation (RAG) o messa a punto; solitamente, è sufficiente il solo prompt, ma molto dipende dal problema aziendale da risolvere. Si tratta di una modalità a basso rischio e a basso costo per aggiungere funzionalità di intelligenza artificiale ai sistemi aziendali, senza spese generali significative. Ed è anche un’opportunità per le aziende di imparare come funzionano queste API e come creare prompt efficaci.
Secondo OpenAI, il 92% delle aziende Fortune 500 utilizza le sue API, con moli di impiego che, da luglio, risultano raddoppiate grazie al rilascio di nuovi modelli, ai costi inferiori e alle migliori prestazioni.
Database vettoriali e RAG
Per la maggior parte delle aziende che desiderano personalizzare i loro LLM, RAG è la strada da percorrere. Se qualcuno parla di embedding o di database vettoriali, di solito si riferisce a questo. Il modo in cui funziona è che se un utente pone una domanda, per esempio su una policy o su un prodotto aziendale, questa non viene inviata subito al Large Language Model, ma prima elaborata per determinare se l’utente ha il diritto di accedere a quelle informazioni. Quando esistono i diritti di accesso, vengono recuperate tutte le informazioni potenzialmente rilevanti, di solito da un database vettoriale. Dopodiché, la domanda e le informazioni rilevanti vengono inviate all’LLM e inserite in un prompt ottimizzato che potrebbe anche specificare il formato preferito della risposta e il tono che il modello dovrebbe utilizzare.
Un database vettoriale è un modo per organizzare le informazioni in una serie di elenchi, ognuno dei quali è ordinato in base a un diverso attributo. Per esempio, se c’è una lista alfabetica, più le sue risposte sono vicine a quell’ordine, più sono rilevanti. Un elenco alfabetico è un database vettoriale unidimensionale, ma può avere dimensioni illimitate, consentendo di cercare risposte correlate in base alla vicinanza a qualsiasi numero di fattori. Ciò li rende perfetti da usare in combinazione con gli LLM.
“In questo momento, stiamo convertendo tutto in un database vettoriale”, racconta Ellie Fields, Chief Product and Engineering Officer di Salesloft, un vendor di piattaforme per l’incremento delle vendite. “E sì, funzionano”.
Ed è anche più efficace rispetto all’utilizzo di semplici documenti per fornire un contesto alle query LLM, dice. L’azienda utilizza principalmente ChromaDB, un archivio vettoriale open-source, il cui uso principale è per i Large Language Model. Un altro database vettoriale utilizzato da Salesloft è PGVector, un’estensione di ricerca di similarità vettoriale per PostgreSQL.
“Abbiamo anche fatto delle ricerche utilizzando FAISS e Pinecone”, tiene a precisare Fields. FAISS, o Facebook AI Similarity Search, è una libreria open-source fornita da Meta che supporta la ricerca di somiglianze nei documenti multimediali.
Pinecone è, invece, un database vettoriale proprietario basato sul cloud, anch’esso diventato popolare tra gli sviluppatori; il suo livello gratuito supporta fino a 100.000 vettori. Una volta recuperate le informazioni rilevanti dalla base di dati e inserite in un prompt, vengono inviate a OpenAI che le manderà in esecuzione in un’istanza privata su Microsoft Azure.
“Abbiamo fatto certificare Azure come nuovo sottoprocessore sulla nostra piattaforma”, dichiara Fields. “Informiamo sempre i clienti quando abbiamo un nuovo processore per le loro informazioni”.
Ma Salesloft collabora anche con Google e IBM, e sta lavorando a una funzionalità di AI che utilizza anche queste piattaforme.
“Lavoreremo sicuramente con diversi fornitori e diversi modelli”, dice. “Le cose cambiano di settimana in settimana. Se non si esaminano diversi modelli, si perde la nave”. Quindi RAG consente alle aziende di separare i loro dati proprietari dal modello stesso, rendendo molto più facile scambiare i modelli in entrata e in uscita, via via che ne vengono rilasciati di migliori. Inoltre, il database vettoriale può essere aggiornato, anche in tempo reale, senza bisogno di effettuare ulteriori messe a punto o riqualificazioni del modello.
A volte i diversi modelli hanno API diverse. Ma cambiare un modello è comunque più facile che riqualificarlo. “Non abbiamo ancora trovato un caso d’uso che sia meglio servito dalla messa a punto piuttosto che da un database vettoriale”, aggiunge Fields. “Credo che ci siano diversi casi d’uso validi, ma finora non ne abbiamo trovato uno che funzioni meglio degli altri”.
Una delle prime applicazioni di LLM che Salesloft ha realizzato è stata l’aggiunta di una funzione che consente ai clienti di generare un’e-mail di vendita a un potenziale cliente. “Gli utenti impiegavano molto tempo per scrivere questi messaggi”, osserva Fields. “Era difficile iniziare e c’era una sorta di blocco dello scrittore”. Ora, invece, i clienti possono specificare il target, la loro proposta di valore e l’invito all’azione e, per di più, ricevono tre diverse bozze di e-mail che possono personalizzare.
Modelli open source gestiti localmente
Per Andy Thurai, VP e principal analyst di Constellation Research, è chiaro che gli LLM open source sono diventati molto potenti. Per esempio, Meta ha appena rilasciato il modello Llama 3.2 in diverse dimensioni con nuove funzionalità di visione, e dichiara che è stato scaricato quasi 350 milioni di volte – con un aumento di 10 volte nel corso di un solo anno – e ha più di 60.000 modelli derivati, messi a punto per casi d’uso specifici.
Secondo la Chatbot Arena LLM Leaderboard, il modello top Llama di Meta è paragonabile, a livello qualitàtivo, a GPT 4 di OpenAI e a Claude 3.5 Sonnet di Anthropic.
“Mentre Llama ha il vantaggio iniziale, molte altre aziende stanno creando la propria versione di LLM open source”, rileva Thurai, tra cui Granite di IBM, Titan di AWS e Google con i suoi diversi modelli open source. Alla luce di questa crescita, la società API Kong ha, recentemente, pubblicato un sondaggio su centinaia di professionisti IT e leader aziendali, da cui è emerso che la maggior parte delle aziende utilizza OpenAI, direttamente o attraverso Azure AI, seguito da Google Gemini – ma Llama di Meta è arrivato al terzo posto.
Il fatto che i modelli open source siano disponibili in molte dimensioni è un vantaggio per le aziende, poiché i più piccoli sono più economici e più veloci. “Molte imprese si stanno spostando verso la modalità di distribuzione restando lontane dalla sperimentazione, e il costo dell’inferenza e dell’ottimizzazione sta diventando un problema importante”, riferisce Thurai. “E molte di loro sono alle prese con diverse difficoltà per perseguire la necessaria scalabilità”.
Ikigai Labs, con sede a Boston, offre anche una piattaforma che consente alle aziende di costruire modelli grafici personalizzati di grandi dimensioni, o modelli AI progettati per lavorare con dati strutturati. Ma per rendere l’interfaccia più facile da usare, Ikigai alimenta il suo front-end con gli LLM. Per esempio, l’azienda utilizza la versione da sette miliardi di parametri dell’LLM open source Falcon e lo esegue nel proprio ambiente per alcuni clienti.
Per alimentare le informazioni nell’LLM, Ikigai utilizza un database vettoriale, anch’esso eseguito localmente, spiega il co-fondatore e co-CEO Devavrat Shah. “Al MIT, quattro anni fa, alcuni dei miei studenti e io abbiamo sperimentato una tonnellata di database vettoriali”, dice Shah, che è anche professore di AI al MIT. “Sapevo che sarebbe stato utile, ma non così tanto”.
Mantenere sia il modello che il database vettoriale a livello locale significa che i dati non possono trapelare a terzi, chiarisce. “Per i clienti che non hanno problemi a inviare query ad altri, usiamo OpenAI”, dice Shah. “Siamo agnostici rispetto agli LLM”.
Poi c’è PricewaterhouseCoopers, che ha costruito il proprio strumento ChatPwC ed è anche agnostico rispetto agli LLM. “ChatPwC rende i nostri associati più capaci”, dichiara Bret Greenstein, partner dell’azienda e leader della strategia go-to-market per la GenAI. Per esempio, include suggerimenti e incorporazioni precostituite per implementare casi d’uso come la generazione delle descrizioni degli annunci di lavoro. “Viene implementato per utilizzare i nostri formati, i nostri modelli e la nostra terminologia”, sottolinea. “Per crearlo, abbiamo esperti di risorse umane, di dati e di prompt, e ottimizziamo ciascun caso d’uso per generare job posting validi e coerenti. Oggi, gli utenti finali non hanno bisogno di sapere come fare il prompt per generarli”.
Lo strumento è costruito sulla base di Microsoft Azure, ma esiste anche una variante per Google Cloud Platform e per AWS. “Dobbiamo servire i nostri clienti, che operano su tutti i cloud”, precisa Greenstein. Allo stesso modo, è ottimizzato per utilizzare diversi modelli sul back-end, perché è così che i clienti vogliono. “Abbiamo tutti i principali modelli funzionanti”, aggiunge. “Claude, Anthropic, OpenAI, Llama, Falcon: abbiamo tutto”.
Il mercato sta cambiando rapidamente e in modo naturale, e Greenstein suggerisce alle aziende di adottare una politica di “non rimpianto” per le loro implementazioni di AI.
“Ci sono molte cose che le persone possono fare, come costruire i loro dati indipendenti dai modelli e creare una governance”, dice. Poi, quando il mercato cambierà e usciranno nuovi modelli e tecnologie, i dati e la struttura di governance saranno ancora rilevanti.
Fine tuning
La società di consulenza manageriale AArete utilizza l’ottimizzazione basata sull’apprendimento rapido [in inglese] su Claude 2.5 Sonnet di AWS Bedrock. “Siamo i maggiori utilizzatori di quest’ultima applicazione nell’intera regione Est-1 degli Stati Uniti”, racconta Priya Iragavarapu, VP dei servizi tecnologici digitali dell’azienda. “Siamo stati in grado di scalare la nostra applicazione di AI generativa in produzione in modo efficace”.
Se AArete utilizzasse un modello in hosting e vi si collegasse tramite API, sorgerebbero problemi di sicurezza. “Siamo preoccupati di dove possano finire i dati del prompting”, sostiene l’esperta. “Non vogliamo correre questi rischi”.
Quando si sceglie un modello open source, si guarda quante volte è stato scaricato in precedenza, quale sia l’entità del supporto della community e i requisiti hardware.
“I modelli fondamentali sono diventati così potenti rispetto agli inizi dell’anno scorso che non dobbiamo preoccuparci dell’efficacia dei risultati per la rilevanza dei compiti”, osserva. “L’unica differenza ora è che i modelli si differenziano per il numero di token che possono accettare e per il versioning”.
Molte aziende del mondo finanziario e del settore sanitario stanno perfezionando gli LLM sulla base dei loro set di dati aggiuntivi. Il Large Language Model di base sono addestrati sull’intera Internet, ma con il fine tuning, un’azienda può creare un modello specifico per il proprio caso d’uso aziendale. Un modo comune di farlo è quello di creare un elenco di domande e di risposte, e poi perfezionare un modello sulla loro base. In effetti, OpenAI ha iniziato a consentire la messa a punto del suo modello GPT 3.5 nell’agosto 2023, utilizzando un approccio Q&A, e ha presentato una suite di nuove opzioni di ottimizzazione, personalizzazione e RAG per GPT 4 durante il DevDay di novembre. Si tratta di un sistema particolarmente utile per il servizio clienti e per le applicazioni di help desk, dove un’azienda potrebbe già disporre di una banca dati di FAQ.
Le aziende di software che costruiscono applicazioni SaaS potrebbero praticare il fine tuning, dice Greenstein di PricewaterhouseCoopers. “Se si dispone di un modello altamente ripetibile, la regolazione fine può ridurre i costi”, dice, ma per le implementazioni aziendali, il RAG è più efficiente fino al 95% dei casi.
Iniziare da zero
Poche aziende costruiranno il proprio LLM da zero. Il GPT 3 di OpenAI ha 175 miliardi di parametri, è stato addestrato su un set di dati di 45 terabyte ed è costato 4,6 milioni di dollari. Secondo il CEO di OpenAI, Sam Altman, GPT 4 è costato oltre 100 milioni di dollari. Questa dimensione è ciò che conferisce agli LLM la loro magia e la capacità di elaborare il linguaggio umano, con un certo grado di buon senso e la capacità di seguire le istruzioni. “Anche se è possibile creare un proprio LLM, ciò richiede un investimento significativo in termini di dati e potenza di elaborazione”, afferma Carm Taglienti, Chief Data Officer di Insight. “L’addestramento di un modello da zero richiede un volume di dati sufficiente per poter eseguire i compiti LLM previsti in base ai dati”.
Dopodiché, una volta che il modello avrà terminato il suo addestramento di base, c’è la fase di apprendimento di rinforzo con il feedback umano, RLHF, che è necessaria affinché il modello interagisca con gli utenti in modo appropriato.
Oggi, quasi tutti gli LLM provengono dai grandi hyperscaler o da startup focalizzate sull’AI come OpenAI e Anthropic. Anche le aziende con un’esperienza consistente nella costruzione di modelli propri stanno evitando di creare i propri modelli. Salesloft, per esempio, costruisce da anni i propri modelli di AI e ML, compresi quelli di GenAI che utilizzano tecnologie precedenti, ma esita a creare da zero un modello di base nuovo e all’avanguardia.
“Si tratta di un passo computazionale enorme che, almeno in questa fase, non ci vede impegnati”, dichiara Fields.
Model garden
Per le aziende più mature, un singolo modello di AI può non essere sufficiente poiché per ciascun caso concreto può esserci più di un modello adatto con costi e metriche di performance diversi. Inoltre, nuovi attori entrano costantemente nel settore, superando i giganti consolidati. Senza contare che alcuni modelli possono essere eseguiti on-premise o in centri dati di colocation, portando a una riduzione dei costi per le aziende e fornire maggiore sicurezza o flessibilità. Per trarre vantaggio da queste opzioni, le aziende creano dei model garden curati, collezioni private di LLM attentamente vagliati, personalizzati e perfezionati, e utilizzano un sistema di routing per incanalare le richieste verso quelle più appropriate. “Non sono ancora molte le aziende che ci sono arrivate”, conclude Thota di Kearney. “È complicato, ma credo che il futuro sarà questo”.
Read More from This Article: 7 modi per creare il proprio Large Language Model
Source: News