L’Europa prova a crearsi una sovranità digitale nell’intelligenza artificiale con il progetto OpenEuroLLM, un’alleanza per sviluppare un modello linguistico open source di nuova generazione che riunisce aziende e istituzioni di ricerca europee specializzate nell’AI. Il consorzio, come si legge nel comunicato stampa di presentazione del progetto [in inglese], è composto da 20 centri di ricerca, aziende e centri Euro Hpc (European high performance computing) ed è coordinato da Jan Hajič (Università Carolina di Praga) e co-guidato da Peter Sarlin (ceo di Silo AI, Finlandia). OpenEuroLLM lavorerà alla creazione di una famiglia di modelli linguistici di base ad alte prestazioni, multilingue, destinati a servizi commerciali, industriali e pubblici. Il consorzio ha avviato ufficialmente il suo lavoro il 1 febbraio 2025. Il budget totale è di 37,4 milioni di euro, di cui 20,6 milioni vengono dal the Digital Europe Programme della Commissione Europea. L’obiettivo è creare un LLM state-of-the-art, ovvero, alla fine del progetto, il modello sarà alla pari con i modelli state-of-the-art del campo.
“Il progetto AI europeo è una notizia positiva, date le sue caratteristiche, e l’augurio è che possa aiutare l’Europa ad essere meno burocratizzata”, commenta Alberto Dalla Francesca, Chief Information Officer di Omis Group (manifattura di macchinari industriali). “La questione centrale che riguarda l’AI è la fiducia, o trust: soprattutto noi CIO ci chiediamo dove finiscono le domande, i documenti e i dati che immettiamo nei modelli AI e nei prodotti di intelligenza artificiale generativa. Oggi l’industria dell’AI è dominata da USA e Cina – prosegue il manager -, ma ci fidiamo di come le imprese o i governi di questi Paesi stanno sviluppando la tecnologia AI? Io mi sento di poter riporre maggiore fiducia nel progetto europeo, che nasce già rispettando policy, regole, privacy, e così via. L’importante, riguardo al modello europeo, è che sia di grandi dimensioni e livello per poter competere con l’offerta extra-UE”.
Le caratteristiche essenziali
Tre le caratteristiche fondamentali di OpenEuroLLM, che descriviamo dopo aver sentito Laura Morselli, AI and HPC Expert e coordinatrice di diversi progetti in ambito AI e HPC di Cineca.
Primo, il progetto svilupperà un modello di linguaggio nelle lingue dell’Unione Europea, più altre lingue importanti per l’ambiente economico-sociale europeo. Si tratta di circa 35 lingue, includendo tutte quelle ufficiali dell’UE. Questo rende l’impresa ambiziosa, perché non in tutte le lingue esistono volumi sufficienti di dati, soprattutto in quelle di Paesi molto piccoli.
Secondo, il modello è open source e libera le aziende utenti da ogni lock-in con un fornitore.
Terzo, sarà nativamente conforme all’AI Act.
Le sue sfide principali sono due: quella dei dati necessari all’addestramento e quella della scelta architetturale. Il settore dei grandi modelli linguistici, infatti, evolve a velocità eccezionali e le architetture continuano a cambiare: i ricercatori di OpenEuroLLM dovranno essere abili e visionari nella loro selezione.
Riguardo ai dati, i partecipanti stanno valutando il ricorso anche a quelli sintetici, ma al momento è solo un’ipotesi, perché non è detto che l’aumento dei dati con le tecniche di sintesi si traduca in maggiore qualità.
Come funziona il progetto sull’AI sovrano
Il consorzio di OpenEuroLLM si è aggregato dopo aver risposto a una call europea intorno all’Università Carolina di Praga, che opera da coordinatore. L’Università ceca ha poi ampliato il consorzio a ulteriori centri di ricerca, coinvolgendo anche Cineca come centro HPC per avere a disposizione il maggior numero possibile di ore di calcolo.
Cineca non fornirà, ovviamente, tutte le ore necessarie per l’addestramento del modello, perché si tratta di milioni di GPU hours: se si dedicasse esclusivamente ad OpenEuroLLM l’ente sarebbe impossibilitato a servire per alcuni mesi i clienti di Leonardo, il supercomputer che Cineca ospita e gestisce. Invece Cineca darà una parte delle ore necessarie, accanto ad altri centri HPC europei che sono nel consorzio: l’unione farà la forza. Arriveranno, inoltre, nuove call per aggiungere ore di calcolo per lo sviluppo del modello.
Ma, come visto, la sfida di OpenEuroLLM non sono le ore di calcolo, bensì i dati e la scelta architetturale. Gli LLM oggi sul mercato (pensiamo a Deepseek, Llama o ChatGPT) usano architetture diverse; per esempio, Deepseek, in inferenza, attiva solo una parte del modello, in base alla tecnica cosiddetta mixture of expert, e quindi è energeticamente più efficiente. Ma potrebbe essere meno accurato. Di conseguenza il consorzio sta studiando le varie opzioni disponibili, per verificarne la scalabilità e le prestazioni nelle varie lingue europee.
Una volta selezionata l’architettura, seguirà l’addestramento e, a metà progetto (verso la fine del 2026), uscirà una prima versione più piccola dell’LLM, con qualche decina di miliardo di parametri.
A 36 mesi dall’inizio (febbraio 2028), sarà rilasciata la versione definitiva di OpenEuroLLM, con centinaia di miliardi di parametri.
Il ruolo del centro italiano di HPC Cineca
Nel progetto OpenEuroLLM Cineca non fornisce solo parte delle ore di calcolo per il training del modello, ma la sua conoscenza su come ottimizzare i workflow sull’infrastruttura. I workflow della GenAI, infatti, sono molto complicati, perché prevedono il calcolo parallelo, con la comunicazione tra le varie GPU, e questa va ottimizzata per ridurre il tempo di addestramento.
Il centro di super calcolo di Cineca ospita diversi modelli AI italiani: Italia di iGenius, Velvet di Almawave, Minerva dell’Università La Sapienza e quello di Translated. Non sono modelli molto grandi (i parametri sono nell’ordine dei miliardi, mentre ChatGPT viaggia sui trilioni), perché non riescono ad avere alle spalle enormi quantità di ore per l’addestramento, ma questo non vuol dire che siano di qualità inferiore. Anzi, potrebbero essere molto più efficaci per le nostre imprese se il compito è circoscritto.
Sarà anche più facile installarli on-premises, perché potrebbe bastare qualche server con una GPU. Per fare un confronto, un modello come Llama, che ha 400 miliardi di parametri, necessita di 16 GPU e l’investimento diventa molto più impegnativo.
Anche i modelli dei fornitori privati possono essere portati “in casa” dalle imprese, ma con un prezzo imposto dal vendor, mentre OpenEuroLLM non si baserà su una proposta commerciale. Dovrebbe, quindi, evitare il lock-in e garantire anche il controllo dell’azienda utente, visto che è progettato per essere trasparente. Essendo open source, le aziende che vorranno usarlo potranno prenderlo in casa e modificarlo o seguire le modifiche apportate dalla comunità OS.
L’LLM europeo sarà competitivo? La parola ai CIO
“Il progetto OpenEuroLLM rappresenta un’iniziativa di grande interesse per l’ecosistema europeo dell’intelligenza artificiale, in particolare per la sua attenzione alla trasparenza, alla sicurezza e alla conformità normativa”, commentaGiuseppe Ridulfo, Vice Responsabile Dipartimento Organizzazione e Responsabile Sistemi Informativi di Banca Popolare Etica Scpa. “Come Banca Etica, seguiamo con attenzione l’evoluzione di queste tecnologie, pur non avendo al momento progetti concreti di implementazione nel breve periodo. Ma riconosciamo il valore di soluzioni open source e conformi per principi progettuali all’AI Act. Banca Etica si distingue per un approccio alla tecnologia orientato all’etica e alla sostenibilità. La possibilità di adottare strumenti basati su modelli linguistici di grandi dimensioni sviluppati secondo criteri di trasparenza e responsabilità potrebbe rappresentare un’opportunità per migliorare i servizi senza compromettere principi fondamentali come la privacy e il rispetto dei diritti delle persone”.
Secondo Ridulfo la caratteristica open source e il coinvolgimento di attori europei qualificati, come Cineca, garantiscono un elevato grado di controllo e adattabilità, elementi essenziali per tutte le imprese che vogliono assicurare la protezione dei dati sensibili e il rispetto della propria missione etica.
“Al momento non abbiamo in programma implementazioni dirette, ma continueremo a monitorare con interesse il progetto e le sue possibili applicazioni in ambito bancario”, afferma Ridulfo.
Secondo Dalla Francesca, l’LLM europeo aiuterebbe anche a trattenere in Unione Europea i talenti che tendono ad andare a studiare e lavorare all’estero, soprattutto negli Stati Uniti, proprio perché in Europa non esistono al momento grandi aziende o progetti legati all’AI.
“L’UE e l’Italia hanno bisogno di trattenere le persone brave”, evidenzia Dalla Francesca.
Anche per Stefano Bombara, Responsabile IT (Servizio Sistemi tecnici) presso Crédit Agricole Vita, il progetto OpenEuroLLM è “molto interessante”, benché gli investimenti finora messi in campo, rispetto a quanto fatto da Usa e Cina, siano molto più bassi.
“Bisogna capire dove si riuscirà ad arrivare”, evidenzia il manager. “Vedremo se si unirà il supporto di enti istituzionali e governi: secondo me l’iniziativa sarebbe più incisiva se i partner non fossero solo università e centri di ricerca”.
La parte attraente del progetto, prosegue Bombara, è che OpenEuroLLM “non ha un fine commerciale e garantisce autonomia nell’uso dei dati. Non esclude l’uso dei servizi delle big tech americane, ma per alcuni impieghi potrebbe garantire un livello di indipendenza alle imprese europee. A detta di molti, l’Europa è in ritardo nel costruire un suo LLM, ma con l’open source e l’addestramento su dati europei e nelle lingue europee, e con specifici usi verticali, potremmo recuperare il gap”.
OpenEuroLLM potrebbe proporsi, infatti, come servizio aperto e trasparente specializzato nelle applicazioni verticali (finanza, sanità, Tlc, eccetera), complementare con i prodotti commerciali americani e con più garanzie per gli usi settoriali. Purché, sottolinea Bombara, “Questi sviluppi verticali abbiano come obiettivo un aumento della produttività delle aziende: allora l’LLM europeo sarebbe davvero concorrenziale”.
“È positiva l’acquisita consapevolezza di quanto strategica possa essere questa tematica da un punto di vista tecnologico: il ‘motore della AI’. Ma, ancora più importante e critico, il fatto che ogni motore di AI richieda dei dati per potersi addestrare ed evolvere imparando, ed è fondamentale avere sotto controllo dove questi risiedono”, è il commento di Tiziano Andreoli, Head of IT di BioNerviano Società Benefit (NMS Group) e delegato del CIO Club Italia per la Lombardia. Così così il tempismo, prosegue il manager: “Non possiamo essere troppo lenti, perché, USA in primis ma anche Cina, sono molto avanti… Dobbiamo compiere uno sforzo molto forte, perché, mentre sviluppiamo le sinergie e le partnership, le attuali tecnologie ricevono dati da tutto il mondo, compresa l’Europa, fattore che va in contrasto con il tema della territorialità dei dati”.
Secondo Andreoli, l’Europa deve imparare l’impatto possibile di una tecnologia nella vita “reale”, ma questa capacità per ora ci lascia indietro nella corsa del progresso tecnologico.
Inoltre, tecnologie come Deepseek hanno fatto emergere un altro aspetto: la sostenibilità. “È facile prendere decisioni in modo binario su quanto investire in una tecnologia: o troppo o poco”, evidenzia Andreoli. “Impegnativo, ma con risultati strabilianti, è analizzare a fondo ed ottimizzare la tecnologia per renderla più sostenibile, meno esosa nel consumo di risorse, più flessibile e resiliente, e contemporaneamente efficace ed efficiente”.
Più spostato sullo scetticismo Vincenzo Pensa, Direttore sistemi informativi e innovazione di ACI: “L’idea di modelli europei open source, nativamente conformi all’AI Act, ha sicuramente un senso in ottica di sovranità digitale, che ritengo effettivamente un punto altamente strategico. Ma sull’altro piatto della bilancia pesa l’approccio fortemente burocratico che l’Europa è solita adottare anche in settori come questo, dove la velocità e la flessibilità operativa sono i fattori decisivi per imporsi a livello globale”, afferma Pensa. “Rischiamo, come spesso capita, di giocare la stessa partita con regole diverse e per noi sempre penalizzanti, se si guarda al puro risultato in termini di sviluppo”.
Applicazioni per le aziende
Sicuramente, i settori regolati, come finanza, sanità, energia e pubblica amministrazione, potrebbero essere i più attratti da una proposta come quella di OpenEuroLLM. Secondo Ridulfo, guardando al futuro, ci sono alcune aree in cui un modello aperto e compliant come questo potrebbero risultare utili.
Una è quella dell’interazione con la clientela in un contesto europeo multilingue, soprattutto se la clientela è sensibile a tematiche etiche e sociali. Un LLM sviluppato in un contesto europeo e in linea con i valori comunitari potrebbe facilitare l’assistenza ai clienti in più lingue, garantendo una comunicazione chiara e inclusiva.
Altra area promettente è quella dell’analisi avanzata dei testi. Spiega il manager: “Le banche gestiscono grandi volumi di dati testuali, dai feedback dei clienti ai report finanziari e normativi. L’impiego di un modello addestrato su standard di trasparenza e tracciabilità potrebbe supportare l’analisi automatica di questi dati per individuare trend, rischi e opportunità in modo più efficace”.
La capacità di dare supporto alla compliance normativa è un’altra caratteristica attraente: strumenti basati su modelli di AI già progettati nel rispetto dell’AI Act potrebbero costituire un aiuto nella gestione di documentazione complessa, nell’interpretazione di nuove regolamentazioni e nell’identificazione precoce di eventuali rischi di non conformità.
Anche la produzione di contenuti interni ed esterni sarebbe facilitata: “Dai report periodici alle comunicazioni con i clienti e gli stakeholder, la possibilità di generare testi chiari e coerenti grazie a modelli sviluppati con un approccio open source potrebbe semplificare il lavoro interno, mantenendo al contempo un alto livello di trasparenza e affidabilità”, secondo Ridulfo.
Per i CIO occasione anche dalla AI Factory
Un’ulteriore iniziativa comunitaria sull’AI è rappresentata dalle AI Factory. Sono diventate operative dal 1 aprile, inclusa quella italiana, “IT4LIA AI Factory”. La piattaforma è ospitata presso il Tecnopolo Manifattura di Bologna e metterà a disposizione servizi per utenti industriali usando l’infrastruttura di Cineca: con l’AI Factory, infatti, le imprese potranno avere ore di calcolo per allenare i loro modelli AI e creare servizi o prototipi di servizi su loro infrastruttura per poi portarli in produzione sul cloud di provider nazionali o esteri.
L’AI Factory italiana è cofinanziata equamente dall’UE con lo EuroHPC Joint Undertaking e dall’Italia (Ministero dell’Università e della Ricerca, Agenzia per la Cybersicurezza Nazionale, Regione Emilia-Romagna, CINECA, Istituto Nazionale di Fisica Nucleare, Agenzia ItaliaMeteo, Istituto italiano di Intelligenza Artificiale per l’Industria, Fondazione Bruno Kessler).
Parte essenziale del progetto, oltre all’infrastruttura tecnologica, è la costruzione di un ecosistema che metta insieme ricerca e industria per colmare la distanza tra chi fornisce servizi di AI – ricercatori, sviluppatori, startup e PMI – e i potenziali utilizzatori, tra cui grandi aziende, PMI e pubblica amministrazione.
Il trasferimento tecnologico è, infatti, il compito strategico assegnato dall’Europa alle sue AI Factory. Il modello organizzativo dovrà essere quello del one-stop-shop, in grado di offrire un servizio completo e di alta usabilità per consentire a tutti i potenziali utilizzatori l’accesso alle risorse di calcolo, alle competenze e alle opportunità di formazione.
Read More from This Article: AI: come funziona OpenEuroLLM, il progetto europeo di Large Language Model aperto e sovrano
Source: News