iGenius presenta “Italia”, la GenAI tricolore

L'intelligenza artificiale generativa di iGenius, già annunciata all'inizio del 2024, è ora realtà

iGenius, l’azienda deep-tech che sviluppa tecnologie di AI fondata da Uljan Sharka, ha appena presentato “Italia”, il large language model (LLM) addestrato con fonti native in italiano, già annunciato a inizio 2024 e rilasciato open source con licenza MIT. L’intelligenza artificiale generativa si annuncia come una rivoluzione sociale, oltre che tecnologica: “Grazie al suo Dna umanistico, l’Italia ha l’opportunità di promuovere un Rinascimento digitale, che può dare vita a un nuovo modo di realizzare soluzioni di AI, dove le persone sono al centro”, ha spiegato in una nota la società.

In questa chiave Italia è un modello di linguaggio sviluppato in conformità con le normative europee sull’AI ed è pensato per aiutare le aziende nell’adozione dell’intelligenza artificiale generativa in settori altamente regolamentati, come i servizi finanziari, l’industria e la Pubblica Amministrazione. L’addestramento di Italia continuerà anche dopo questo primo rilascio: iGenius sta lavorando a nuove versioni che siano ancora più potenti, accurate e versatili.

“La decisione di sviluppare Italia come modello open source riflette pienamente la nostra missione di umanizzare i dati e democratizzare la conoscenza aziendale”, ha spiegato Uljan Sharka, fondatore e Ceo di iGenius. “Adesso il nostro obiettivo è investire in nuovi modelli che siano rappresentativi di altre lingue e culture. Stiamo lavorando per rilasciare a breve una versione di Italia da 10 miliardi di parametri e, successivamente, una versione multilingua”.

L’addestramento

Italia è stato sviluppato in cinque mesi dai membri del team iGenius, che dal 2016 lavora nell’ambito dei modelli di linguaggio, ed è stato addestrato sul supercomputer Leonardo, una delle infrastrutture di calcolo più potenti al mondo, gestita dal Consorzio Interuniversitario Cineca.

iGenius, inoltre, ha collaborato con Editoriale Nazionale, società del gruppo Monrif, per utilizzare il loro archivio storico di articoli di stampa come fonte integrativa per migliorare il modello. Questa collaborazione proseguirà con l’addestramento delle future versioni, per estendere ulteriormente il livello di conoscenza generale del modello.

Questo large language model è stato addestrato da zero in italiano su oltre mille miliardi di parole, utilizzando un mix eterogeneo di fonti: sorgenti pubbliche, dati sintetici e contenuti di settore forniti da partner commerciali selezionati di iGenius.

Per garantire l’integrità etica dei contenuti generati dal modello, sono stati sviluppati filtri di sicurezza specifici per la lingua italiana, pensati per rimuovere contenuti sensibili, espliciti e ad alto potenziale di bias, nonché per limitare al massimo l’esposizione di contenuti coperti da copyright.

© Riproduzione riservata