Un modello linguistico creato per il bene pubblico

Florian Meyer, Comunicazione ETH Zurigo, Mélissa Anchisi, Responsabile della comunicazione sull'IA, EPFL (Traduzione italiana: Maria Grazia Giuffreda, CSCS)

All’inizio della settimana a Ginevra è stato inaugurato il primo International Open-Source LLB Builders Summit alla presenza di rappresentanti di 50 iniziative e organizzazioni leader a livello mondiale nel campo dello sviluppo di Linguaggi Linguistici open source e di una IA affidabile e trasparente. L’evento organizzato dai centri IA dell’EPFL e dell’ETH Zurigo ha segnato un primo passo significativo per creare un ecosistema internazionale vivace e collaborativo per modelli di base aperti. I modelli LLM aperti sono considerati sempre più valide alternative ai sistemi commerciali, la maggior parte dei quali sono sviluppati a porte chiuse negli Stati Uniti o in Cina.

I partecipanti al summit hanno avuto un’anteprima di un modello LLM completamente aperto e sviluppato pubblicamente, co-creato dai ricercatori dell'EPFL, dell'ETH di Zurigo e di altre università svizzere in stretta collaborazione con gli ingegneri del CSCS. Attualmente in fase di test finale, il modello scaricabile sotto open license, punta sulla trasparenza, sulle prestazioni multilingue e su un'ampia accessibilità.

Il modello è completamente aperto: il codice sorgente e i “weights” saranno disponibili al pubblico. Inoltre i dati su cui è stato addestrato saranno trasparenti e riproducibili, favorendone l'adozione in ambito scientifico, governativo, educativo e nel settore privato. Con questo approccio si vuole promuovere sia l'innovazione che la responsabilità.

“I modelli completamente aperti consentono applicazioni altamente affidabili e sono necessari per far progredire la ricerca sui rischi e le opportunità dell'IA. I processi trasparenti consentono inoltre di implementare una conformità normativa”, afferma Imanol Schlág, ricercatore presso l'ETH AI Center, che sta guidando i lavori insieme ai membri della facoltà dell'EPFL AI Center e professori Antoine Bosselut e Martin Jaggi.

Multilingue by design

Una caratteristica distintiva dell'LLM è la sua capacità in oltre 1000 lingue. “Abbiamo posto l'accento sulla creazione di modelli multilingue fin dall'inizio”, afferma Antoine Bosselut.

L'addestramento del modello di base è stato effettuato su un ampio set di dati testuali in oltre 1500 lingue, di cui circa il 60% in inglese e il 40% in altre lingue, nonché su dati matematici e codici di programmazione. Data la rappresentazione di contenuti provenienti da tutte le lingue e culture, il modello risultante mantiene la massima applicabilità a livello globale.

Progettato per la scalabilità e l'inclusività

Il modello sarà rilasciato in due versioni, con 8 miliardi e 70 miliardi di parametri, per soddisfare un'ampia gamma di esigenze di utenti. La versione da 70 miliardi sarà tra i modelli completamente aperti più potenti al mondo. Il numero di parametri riflette la capacità di un modello di apprendere e generare risposte complesse.

L'elevata affidabilità è ottenuta grazie all'addestramento su oltre 15 trilioni di token di alta qualità (che rappresentano una parola o parte di essa), consentendo una solida comprensione del linguaggio e casi d'uso versatili.

Pratiche responsabili in materia di dati

L'LLM è stato sviluppato nel rispetto delle leggi svizzere sulla protezione dei dati, delle leggi svizzere sul diritto d'autore e degli obblighi di trasparenza previsti dalla legge dell'UE sull'IA. In un recente studio, i responsabili del progetto hanno dimostrato che per la maggior parte delle attività quotidiane e l'acquisizione di conoscenze generali, il rispetto delle opzioni di opt-out dal web crawling durante l'acquisizione dei dati non comporta praticamente alcun degrado delle prestazioni.

I ricercatori dell'EPFL, dell'ETH di Zurigo e del CSCS hanno sviluppato da zero un modello linguistico completamente aperto, che dovrebbe essere rilasciato alla fine dell'estate 2025.

Il supercomputer come fattore abilitante dell'IA indipendente

Il modello è stato addestrato sul supercomputer “Alps” del CSCS di Lugano, una delle piattaforme di IA più avanzate al mondo, dotata di oltre 10.000 NVIDIA Grace Hopper Superchip. Le dimensioni e l'architettura del sistema hanno permesso di addestrare il modello in modo efficiente utilizzando elettricità verde al 100% (carbon neutral).

La realizzazione di “Alps” è stata notevolmente facilitata da una collaborazione con NVIDIA e HPE/Cray che dura da oltre 15 anni. Questa partnership è stata fondamentale per definire le capacità di “Alps”, perché garantisce di soddisfare i requisiti impegnativi dei carichi di lavoro dell’IA su larga scala, compreso il pre-addestramento di LLM complessi.

“L'addestramento di questo modello è stato possibile solo grazie al nostro investimento strategico in “Alps”, un supercomputer appositamente progettato per l'IA”, afferma Thomas Schulthess, direttore del CSCS e professore al Politecnico federale di Zurigo. “La nostra collaborazione di lunga data con NVIDIA e HPE è un esempio di come gli sforzi congiunti tra istituti di ricerca pubblici e leader industriali del settore possano promuovere infrastrutture indipendenti, favorendo l'innovazione aperta, non solo per la Svizzera, ma per la scienza e la società a livello globale”.

Accesso pubblico e riutilizzo globale

Alla fine dell'estate, l'LLM sarà pubblicato con licenza Apache 2.0. La documentazione allegata descriverà in dettaglio l'architettura del modello, i metodi di addestramento e le linee guida per l'utilizzo, al fine di consentire un riutilizzo trasparente e un ulteriore sviluppo. “In qualità di scienziati di istituzioni pubbliche, il nostro obiettivo è promuovere modelli aperti e consentire alle organizzazioni di utilizzarli per le proprie applicazioni”, afferma Antoine Bosselut.

“Abbracciando la piena trasparenza, a differenza dei modelli commerciali sviluppati a porte chiuse, speriamo che il nostro approccio stimoli l'innovazione in Svizzera e in Europa attraverso collaborazioni multinazionali. Inoltre, è un fattore chiave per attrarre e coltivare i migliori talenti”, afferma Martin Jaggi, professore dell'EPFL.

Immagine di copertina: generata dall'intelligenza artificiale

Nota dell'editore: Una versione precedente di questo articolo utilizzava l'espressione “fluidità” in oltre 1000 lingue per descrivere il modello. Questa affermazione è stata modificata in “capacità” per riflettere il fatto che il modello è stato intenzionalmente addestrato su dati provenienti da oltre 1000 lingue, dimostrando capacità più elevate in molte di esse, tradizionalmente poco servite dai sistemi di IA.

Informazioni sull'Iniziativa svizzera per l'IA

Lanciata nel dicembre 2023 dall'EPFL e dall'ETH di Zurigo, l'Iniziativa svizzera per l'IA è sostenuta da oltre 10 istituzioni accademiche in tutta la Svizzera. Con oltre 800 ricercatori coinvolti e l'accesso a oltre 20 milioni di ore di GPU all'anno sul supercomputer “Alps” del CSCSè la più grande iniziativa al mondo di scienza aperta e open source dedicata ai modelli di base dell'IA.
L'iniziativa svizzera per l'IA riceve il sostegno finanziario del Consiglio dei Politecnici Federali, l'organo di gestione strategica e di vigilanza del settore dei PF (ETH, EPFL, PSI, WSL, Empa, Eawag), per il periodo 2025-2028.
L'iniziativa svizzera per l'IA è guidata da ricercatori dei centri AI dell’ETH Zurigo e dell'EPFL, entrambi unità regionali dell'ELLIS (European Laboratory for Learning and Intelligent Systems), una rete paneuropea di IA incentrata sulla ricerca fondamentale nell'ambito dell'IA affidabile, dell'innovazione tecnica e dell'impatto sociale nelle società aperte europee.

CSCS come partner

Il Centro Svizzero di Calcolo Scientifico (CSCS) è membro e partner del consorzio LUMI, che garantisce agli scienziati svizzeri l'accesso a infrastrutture all'avanguardia a Kajaani, in Finlandia. Ciò è in linea con la strategia del CSCS di espandere le infrastrutture di calcolo su scala estrema, che in futuro saranno notevolmente più grandi, attraverso collaborazioni multinazionali con regioni con abbondanti risorse idroelettriche e di raffreddamento, posizionando così la ricerca e l'innovazione nel campo dell'IA per garantire rilevanza globale e impatto regionale.