Il boom dell’AI non ha fine e, ogni settimana, vediamo nuovi progressi nella tecnologia, nuovi casi d’uso e nuovi timori che l’AI travolga l’umanità o, almeno, alcuni suoi settori. Gli esperti prevedono riallineamenti radicali e l’emergere di nuove superpotenze industriali, simili a quelle che abbiamo visto durante la transizione delle dot-com.
Le aziende che vedono la loro stessa sopravvivenza messa a repentaglio sono disposte a spendere qualsiasi somma di denaro per rimanere rilevanti. Altre vogliono solo stare davanti ai loro concorrenti più lenti o, semplicemente, approfittare degli aumenti di produttività e delle nuove opportunità commerciali che si prevede arriveranno come risultato dell’intelligenza artificiale generativa. Tuttavia, a prescindere dall’importanza che l’AI può avere o meno per un’impresa, non ha senso sprecare denaro. La gen AI include un rischio elevato di spendere troppo e ottenere troppo poco in cambio, quando invece le aziende possono utilizzare i loro budget per l’AI generativa in modo più strategico, consentendo di trarre maggiori benefici dagli investimenti e di anticipare i concorrenti. La chiave per arrivare più lontano e più velocemente spendendo meno denaro è essere più riflessivi e attenti ai primi passi.
Secondo gli ultimi dati di McKinsey, il 65% delle imprese dichiara di utilizzare regolarmente la gen AI, una percentuale quasi doppia rispetto a 10 mesi prima, e tre quarti di esse prevedono che porterà a cambiamenti significativi o dirompenti nei loro settori nei prossimi anni.
A ciò va aggiunto che, secondo le previsioni di IDC [in inglese], nel 2024, la spesa in gen AI raddoppierà rispetto al 2023, per raggiungere i 151 miliardi di dollari nel 2027. Tuttavia, secondo un sondaggio condotto, a metà giugno, da Lucidworks su 2.500 leader aziendali, il tasso di crescita di questo capitolo di spesa si sta stabilizzando, soprattutto per via delle preoccupazioni sui costi. L’anno scorso, solo il 3% degli intervistati ha dichiarato che le spese per l’implementazione della gen AI era una preoccupazione. Quest’anno, alla stessa domanda, ha risposto il 46% degli intervistati, con un aumento di 14 volte. Un sondaggio simile condotto da Gartner a maggio ha mostrato che la stima e la dimostrazione del valore aziendale sono la principale barriera all’adozione dell’intelligenza artificiale generativa. I motivi principali per cui questi costi possono aumentare rapidamente quando un’azienda inizia a implementare l’AI su scala includono quelli dei token, le spese aggiuntive impreviste e la dispersione dell’AI più in generale.
I costi dei token
Un’azienda che ha avuto modo di considerare tutti questi aspetti, sia nei suoi progetti interni che per i suoi clienti, è la società di consulenza cloud DoiT. I token, cioè i gettoni che costituiscono la base della maggior parte delle strutture di prezzo della gen AI, sono una strana metrica.
“Non sono un’unità di valore”, riflette Eric Moakley, responsabile della gestione dei prodotti dell’azienda. “Quindi il modo in cui si valuta una cosa e il modo in cui la si paga sono completamente diversi”.
Con i prezzi basati sui token, i clienti pagano i fornitori di AI in base alla lunghezza delle domande che pongono e alla lunghezza delle risposte che ricevono, in cambio, dall’AI. Per ottenere feedback più accurati, le aziende rendono le domande, o i prompt, più lunghi, incorporando istruzioni specifiche su come devono essere formulate le risposte, fornendo informazioni generali sull’azienda e informazioni provenienti dai database interni. Alcune risposte richiedono domande di follow-up o un fact-checking. E tutto questo si somma. Acquistare token è un po’ come giocare d’azzardo in un casinò, dice Moakley.
“All’improvviso si hanno dei gettoni e bisogna pensare costantemente a collegarli al ritorno che si ottiene”, dice.
Quindi, per controllare i costi operativi, DoiT è strategica negli investimenti e nelle spese di gen AI, spiega. “Li tracciamo”, sottolinea. Per esempio, uno dei migliori casi d’uso che ha trovato è stato anche uno dei più economici. Quando gli ingegneri dell’azienda attivano un server AWS e arriva la fattura, questa è scritta in un linguaggio fatto di SKU, tariffe orarie, sconti e crediti. Se c’è un’anomalia nei costi, può essere difficile capire il significato di una voce specifica. Quindi DoiT ha aggiunto una funzionalità, chiedendo a un modello di intelligenza artificiale di spiegare questi termini.
“È un caso d’uso molto ristretto”, dice Moakley. “È solo un pulsante accanto alle informazioni. Non viene richiesto, non si può regolare. E abbiamo scoperto che è molto prezioso”.
Certo, si tratta di una funzionalità che la stessa AWS potrebbe fornire in futuro, ma DoiT stava comunque sperimentando la gen AI e questo era un progetto molto semplice.
“È una cosa facile da fare per un LLM”, dice. “Otteniamo le informazioni giuste al momento giusto e siamo in grado di costruirle velocemente grazie all’AI. La variante generativa di quest’ultima era già stata addestrata sui dati di cui avevamo bisogno, perché stavamo lavorando anche su altre cose”.
Lo sviluppo di questa funzionalità ha richiesto solo un paio di ore di sviluppo. “Ci siamo chiesti quanto sarebbe stato difficile aggiungere le visualizzazioni che loro guardavano comunque”, aggiunge. Ma poi è arrivata la parte di governance. Chi stava facendo la richiesta? Quale servizio sta chiamando? Quanti token ci vorranno e come si tradurranno in denaro? E infine: vale la pena costruirlo, o è più facile aspettare che il fornitore aggiunga la funzionalità da solo?
“Penso che il vantaggio del time to market, dal punto di vista del prodotto, spesso valga la pena”, osserva Moakley.
Ma l’azienda ha anche terminato un certo numero di investimenti in gen AI, perché non c’erano gli indicatori di performance, dice. “I clienti non rispondevano, non ci dava la spinta che volevamo”.
DoiT ottimizza anche le sue interazioni LLM per controllare il numero di token.
“Siamo attenti a sfrondare i dati e gli input”, spiega. “E le risposte non possono superare una certa lunghezza, d’altra parte non stiamo scrivendo un libro. Quando è possibile, inoltre, cerchiamo di essere meno aperti e più mirati. Più si può ridurre l’interattività, più il sistema risulta facile e i costi diventano fissi”.
Sondare le acque
Un altro modo per ridurre i costi dei token è quello di essere strategici riguardo al modello da utilizzare. Un modello più economico potrebbe comunque dare buoni risultati ed essere sufficientemente veloce. Per esempio, la società di consulenza Publicis Sapient ha, recentemente, lavorato su un progetto rivolto al cliente per Marriott Homes & Villas, una società di affitti a breve termine.
“Se vuole andare in vacanza in una casa al mare e portare i suoi cani, le fornirà un elenco di case basato su query in un back-end che è stato messo a punto sui dati della proprietà”, descrive Sheldon Monteiro, Chief Product Officer dell’azienda. Dopodiché, ha esaminato il miglioramento delle conversioni, cioè l’aumento del fatturato derivante dall’aggiunta della funzionalità di ricerca gen AI, trovando che il modello più costoso non fornisce necessariamente anche il miglior valore commerciale.
“Si potrebbe ottenere una risposta migliore dal GPT 4, ma i tassi di conversione effettivi non erano molto diversi dal GPT 3.5”, ha dichiarato. “Quindi alla fine abbiamo optato per quest’ultimo”.
Come DoiT, Marriott Homes and Villas ha scoperto che una query LLM controllata, incorporata nell’applicazione, funzionava meglio di un chatbot aperto.
“Abbiamo capito che le persone non vogliono avere una conversazione”, dice Monteiro. “Vogliono subito entrare nel merito, per capire come potrebbe essere la loro vacanza”.
Una volta che il modello AI ha ottenuto i risultati, i visitatori sarebbero stati portati immediatamente a un’esperienza di ricerca standard, familiare a tutti coloro che hanno utilizzato i servizi online.
“Non diamo mai una risposta testuale, ma solo un elenco di case con una nuova ricerca parametrizzata”, aggiunge. In questo modo non solo si elimina l’opportunità che le conversazioni con i chatbot accumulino costi di token, ma si elimina anche la possibilità per gli utenti di abusare del sistema.
Un altro modo per avere un buon controllo sui costi totali è quello di non passare direttamente dal proof of concept alla produzione, ma di fare prima un roll-out su piccola scala.
“Se lo sottopone a tutta la sua base di clienti, potrebbe essere sorpreso da quanto sia diffusa l’adozione”, dice Monteiro. “Ma se lo espone prima a un piccolo numero di utenti, per esempio l’1%, e basa la sua modellazione sul modo in cui utilizzeranno effettivamente l’esperienza, può prevedere cosa accadrà quando scalerà al 100%”.
La chiave è adottare un approccio disciplinato alla modellazione dei costi. “Non solo come esercizio su carta, ma con una piccola percentuale di utenti in produzione”, tiene a precisare. E, una volta scelto un modello, non è detto che il percorso sia arrivato alla sua conclusione.
“Con il ritmo di evoluzione dei modelli, la buona notizia è che il continuo miglioramento della tecnologia, farà diminuire i prezzi dei servizi”, afferma. “OpenAI e altri fornitori stanno riducendo i costi dei loro modelli più vecchi e stanno anche rendendo disponibili funzionalità notevolmente migliorate, che costano di più”.
Queste nuove funzionalità sono un’altra opportunità per le aziende di decidere se creeranno un effettivo valore aziendale.
Ma ci sono anche molti casi d’uso in cui un LLM più piccolo, l’apprendimento automatico tradizionale o persino una ricerca per parole chiave potrebbero essere sufficienti. “Non usi un modello linguistico di grandi dimensioni per fare qualcosa che può fare un modello linguistico di dimensioni contenute o un sistema basato su regole”, dice Monteiro. E ci sono altri vantaggi nel farlo, oltre alla riduzione dei costi.
“Se utilizziamo un piccolo modello linguistico addestrato su un particolare dominio, possiamo ottenere risposte molto rapidamente”, dichiara. “Ma una ricerca per parole chiave sarà molto più veloce che se fosse inserita in un modello linguistico”.
I costi di latenza
Le spese per l’utilizzo dell’AI generativa vanno oltre la determinazione del costo di un particolare prompt: va determinato anche il costo della latenza, che potrebbe non essere evidente in un proof of concept, ma una volta che un progetto è in produzione con documenti e utenti reali e inizia a scalare, le prestazioni potrebbero iniziare a soffrire.
“Quando inseriamo migliaia di documenti, su uno qualsiasi degli LLM, il tempo di risposta varia da 30 a 60 secondi, perché la finestra di contesto si riempie”, racconta Swaminathan Chandrasekaran, responsabile dell’architettura delle soluzioni digitali di KPMG. “Se gli utenti dicono di non poter aspettare 60 secondi per fare la domanda successiva, aumentiamo la capacità, aggiungiamo istanze dedicate e i costi iniziano a salire”.
C’è anche un limite di throughput al minuto impostato dagli hyperscaler, che è un problema per molte grandi aziende, compresa la stessa KPMG. “Noi siamo il cliente zero”, dice. “Stiamo sperimentando la creazione di un nostro cluster Nvidia per vedere se riusciamo a risolvere il problema della latenza”, precisa.
Oltre a sostituire i costosi modelli commerciali con quelli open source, o con gli small language model (SLM), KPMG sta sperimentando anche alternative all’hardware di elaborazione AI tradizionale. Per esempio, è possibile eseguire alcuni SLM su hardware di uso generale, o addirittura incorporarli in applicazioni web per la classificazione e la generazione in-memory.
Prendiamo un sistema di e-commerce che ha bisogno di un’intelligenza artificiale per riassumere le recensioni dei prodotti: in questo caso non ha bisogno di utilizzare un grande modello linguistico nel cloud. “Può essere incorporato nell’applicazione di e-commerce”, indica Chandrasekaran.
Allo stesso modo, un motore di classificazione dei prodotti può classificare tutte le nuove SKU che arrivano, oppure un’applicazione sanitaria può classificare le richieste di risarcimento. “Si tratta di modelli linguistici molto specializzati”, avverte. La quantization è un’altra tecnica per ottenere migliori prestazioni da un modello linguistico, afferma, anche se comporta una minore precisione.
Infine, il caching è un’altra opzione per risolvere il problema della latenza quando gli utenti fanno sempre le stesse domande.
“Una difficoltà può sopraggiungere quando la domanda è formulata in modo diverso”, dice. “Ma ci sono tecniche di similarità”.
La gen AI porta con sé anche tutta una serie di costi generici presenti anche prima della sua introduzione. “Ci sono quelli di archiviazione, per esempio, o per lo sviluppo e per l’esecuzione dell’applicazione”, prosegue Chandrasekaran. Per esempio, aggiunge, recentemente il suo team ha speso 7.000 dollari per configurare un’implementazione di Llama 3 su Azure, perché non era ancora disponibile su base pay-as-you-go.
“Bisognava configurarlo”, dice. “E il calcolo necessario per eseguire un modello da 70 miliardi è significativo. L’abbiamo configurato noi stessi, abbiamo fatto il provisioning di un server, abbiamo distribuito il modello e poi c’è stato l’utilizzo in aggiunta”.
Azure offre ora un’opzione pay-as-you-go in cui i clienti pagano solo i costi del token, ma per le aziende che cercano di implementare modelli on-premise, i costi di configurazione esistono ancora.
“In un mondo ideale, questo sarebbe lo scenario migliore, perché non si è più vincolati dai costi dei token”, sostiene. “L’unico da pagare è quello dell’infrastruttura. Ma deve comunque disporre della capacità di calcolo e di altri elementi, come la rete”.
I costi di supervisione
Quando l’intelligenza artificiale viene trasferita in produzione, un altro costo inaspettato potrebbe essere quello relativo alla necessaria supervisione. Molti sistemi richiedono l’intervento di persone o costose protezioni tecniche per verificare l’accuratezza, ridurre il rischio o per motivi di conformità.
“Non credo che ci aspettassimo che le normative arrivassero così presto”, si sorprende Sreekanth Menon, globale head dell’AI di Genpact. “Una volta che l’intelligenza artificiale generativa è entrata in scena, è diventata un argomento di punta della leadership, e tutti i governi si sono svegliati e hanno detto che abbiamo bisogno di regolamenti”.
La legge dell’UE è già in vigore e negli Stati Uniti si sta lavorando. “Ora le aziende devono tener conto di questo aspetto nello sviluppo dell’AI, e questo è un costo”, rileva. Ma le normative non sono una cosa negativa, aggiunge. “Abbiamo bisogno di norme affinché le decisioni dell’AI siano buone ed eque”, precisa.
Anche aggiungere la conformità alle normative dopo che i sistemi sono stati costruiti è costoso, ma le aziende possono pianificare in anticipo mettendo in atto buoni sistemi di governance dell’intelligenza artificiale. Garantire la sicurezza dei modelli di gen AI e dei sistemi associati è un altro costo a cui le aziende potrebbero non essere preparate. Eseguire un test di produzione su piccola scala non solo aiuterà le imprese a identificare i problemi di conformità e di sicurezza, ma le aiuterà a calcolare meglio altri costi accessori, come quelli associati a infrastrutture aggiuntive, ricerca, database, API e altro ancora. “Pensare in grande, testare in piccolo e scalare rapidamente”, dice.
L’AI si estende a macchia d’olio
In passato, con l’AI tradizionale, potevano essere necessari uno o due anni di sperimentazione prima che un modello fosse pronto per l’uso, ma i progetti di intelligenza artificiale generativa si muovono rapidamente.
“I modelli di base disponibili oggi consentono alle aziende di pensare rapidamente ai casi d’uso”, avverte Menon. “Ora siamo in una fase in cui possiamo pensare a un esperimento e poi passare rapidamente alla produzione”. Suggerisce alle aziende di trattenersi dal realizzare tutti i progetti di AI in una volta sola, e di prevedere, invece, un meccanismo di costi e obiettivi chiari per ogni progetto e iniziare in piccolo, scalare con saggezza e investire continuamente nell’aggiornamento professionale.
“L’aggiornamento è un costo, ma vi aiuterà a risparmiare su altri”, afferma.
Matthew Mettenheimer, direttore associato di S-RM Intelligence and Risk Consulting, sostiene di vedere spesso una dispersione di gen AI all’interno delle aziende.
“Un CIO o un consiglio di amministrazione che vuole abilitare l’intelligenza artificiale in tutta l’azienda, deve tener conto di dover affrontare un bel po’ di spesa e sperimentare diversi di casi d’uso”, chiarisce.
Per esempio, S-RM ha lavorato, di recente, con un grande produttore di beni di consumo che ha deciso di spingere l’abilitazione dell’AI nella sua azienda senza prima costruire una struttura di governance. “E ogni singolo reparto si è scatenato e ha iniziato a cercare di implementare l’AI generativa”, racconta. “C’erano contratti che si sovrapponevano con strumenti diversi per le varie parti dell’impresa e, di conseguenza, la spesa ha iniziato a gonfiarsi. Il reparto marketing utilizzava uno strumento, il team IT un altro. Anche all’interno dello stesso reparto, i diversi team facevano uso di tool diversi”.
Di conseguenza, l’azienda pagava per servizi simili più e più volte, con ogni gruppo che aveva i propri contratti, e difettava dell’efficienza dche deriva dal fare le cose in scala. E le persone ricevevano abbonamenti a prodotti di gen AI che non sapevano come utilizzare.
“C’erano molte grandi intenzioni e idee a metà”, ricorda. Di conseguenza, c’è stato un aumento massiccio della spesa IT, dice. Le aziende devono iniziare a capire dove la gen AI può davvero avere un impatto e costruire i loro progetti passo dopo passo, in modo sostenibile, piuttosto che andare a comprare il più possibile. Alcune aree di particolare preoccupazione, in cui le imprese potrebbero voler trattenere la spesa, sono i casi d’uso che comportano un’elevata responsabilità per l’azienda.
“Per esempio, una compagnia assicurativa che utilizza l’intelligenza artificiale per determinare se una richiesta di risarcimento sarà pagata o meno potrà ritrovarsi in una situazione di difficoltà se il meccanismo dell’AI non è stato utilizzato o calibrato correttamente”, avverte Mettenheimer. Invece, potrà dare priorità a tutti quei casi in cui i lavoratori possono essere liberati per gestire compiti più complessi.
“Se una persona passa cinque ore alla settimana ad aggiornare lo stesso foglio di calcolo e questo tempo può essere ridotto a zero ore alla settimana sarà libera per essere più produttiva”, aggiunge. Ma se il controllo del prodotto di lavoro dell’AI richiede tanto tempo quanto ne fa risparmiare, il meccanismo non risuklterà efficiente.
“L’AI generativa è uno strumento davvero potente e incredibile, ma non è magica”, osserva. “C’è l’idea sbagliata che l’intelligenza artificiale sarà in grado di fare tutto senza bisogno di processi manuali o di convalida umana, ma non siamo ancora a quel punto”.
Raccomanda inoltre di non realizzare progetti di AI quando esistono già valide soluzioni non AI.
“Conosco alcuni casi in cui le persone vogliono usare l’intelligenza artificiale per avere la sensazione di ottenere un vantaggio competitivo e poter dire che stanno usando l’AI per il loro prodotto”, racconta. “Quindi la includono, ma non ottengono alcun beneficio, se non quello di dire che la stanno usando”.
I dirigenti di alto livello sono ansiosi di iniziare a lavorare sulla gen AI, afferma Megan Amdahl, SVP per le relazioni con i partner e per le operation della società Insight.
“Ma senza una destinazione precisa in mente, possono spendere molto tempo in cicli che non raggiungono i risultati sperati”, chiarisce. Per esempio, creare casi circoscritti che migliorano l’efficienza di un numero ridotto di persone può sembrare un ottimo progetto, ma se non c’è modo di espanderlo, è facile che ci si ritrovi con un mare di soluzioni puntuali, ma nessuna delle quali produce un reale impatto positivo sull’azienda.
“Qui a Insight, stavamo selezionando il team da seguire per migliorare il feedback dell’help desk”, rivela. Un caso d’uso importante riguardava una squadra di 50 persone che controllava lo stato degli ordini dei clienti. Tuttavia, non solo il team era piccolo, ma le persone si trovavano in località a basso costo. Migliorare la loro efficienza con l’AI avrebbe avuto un certo impatto, ma non significativo. Un altro team sottoposto ad analisi era quello deputato a creare le distinte dei materiali per i clienti, ed era molto più grande. “Ci siamo concentrati sulle dimensioni del team, che era di 850 persone, in modo da avere un impatto più ampio”, aggiunge.
Oltre a selezionare i progetti capaci di generare l’impatto più ampio possibile, la manager raccomanda anche di cercare quelli che hanno un ambito più ristretto, per quanto riguarda i requisiti dei dati. Prendiamo per esempio un assistente di help desk gestito dalla gen AI.
“Non cercare ogni tipo di domanda che l’azienda può ricevere”, dice. “Restringi il campo e monitora le risposte che ricevi. In questo modo si riduce anche la quantità di dati da raccogliere”.
L’organizzazione dei dati è una sfida importante per le aziende che impiegano l’AI, ed è anche costosa. I dati devono essere puliti e in un formato strutturato per ridurre l’imprecisione. L’esperta consiglia alle aziende che stanno cercando di decidere quali progetti di intelligenza artificiale realizzare per primi, di considerare quelli che si concentrano sulla generazione di ricavi, sulla riduzione dei costi e sul miglioramento dell’affinità con il proprio marchio.
Read More from This Article: I costi della gen AI crescono? Ecco come tenerli sotto controllo
Source: News