Il benchmark dei Large Language Models per la lingua italiana

Nel panorama dell’intelligenza artificiale, sempre più orientato allo sviluppo in lingua inglese, i benchmark hanno spesso privilegiato l’inglese come standard di riferimento o si sono basati su traduzioni, anche quando si trattava di modelli linguistici destinati a più lingue. Per superare questa limitazione, Martin Cimmino, Paolo Albano, Michele Resta, Marco Madeddu, Viviana Patti e Roberto Zanoli hanno ideato Evalita-LLM, il benchmark più completo mai realizzato per valutare i modelli in italiano, sviluppato interamente su dati nativi per garantire fedeltà linguistica e accuratezza contestuale.
Con i suoi 10 task di elaborazione del linguaggio naturale – dal riconoscimento di entità all’analisi del sentiment, passando per la sintesi automatica e il textual entailment – Evalita-LLM riproduce scenari d’uso reali, offrendo una valutazione più precisa e obiettiva delle prestazioni dei modelli. Allo stesso tempo, mette alla prova la solidità dei prompt, mostrando come i risultati possano cambiare sensibilmente in base alla loro formulazione.
Tre elementi distintivi rendono Evalita-LLM diverso da qualsiasi altro benchmark:
- Lingua nativa: tutti i task sono svolti direttamente in italiano, evitando le distorsioni e i bias introdotti dalle traduzioni.
- Varietà dei compiti: il benchmark include sia task di classificazione sia generativi, così da riprodurre interazioni più ricche e naturali con i modelli.
- Diversità dei prompt: ogni task viene testato con più formulazioni, riducendo la sensibilità dei modelli a un’unica espressione e assicurando valutazioni più imparziali.
I task inclusi in Evalita-LLM sono stati selezionati e adattati da diverse campagne Evalita realizzate negli anni, e il progetto può contare sul supporto di istituzioni di riferimento a livello nazionale. Tra queste figurano l’Associazione Italiana di Linguistica Computazionale (AILC), l’Associazione Italiana per l’Intelligenza Artificiale (AI*IA) e l’Associazione Italiana di Scienze della Voce (AISV).
Ad oggi, 22 modelli sono già stati messi alla prova con Evalita-LLM, valutandone le prestazioni sia in modalità zero-shot sia in few-shot. Dai test sono emerse alcune evidenze interessanti:
- Le performance e le classifiche fra i modelli cambiano sensibilmente in base al prompt, a conferma che una valutazione basata su un’unica formulazione rischia di essere parziale o poco equa.
- I task generativi richiedono molte più risorse computazionali rispetto a quelli a scelta multipla, un fattore cruciale da considerare nella progettazione di benchmark e nella scelta dei compiti da includere.
- Gli output generativi risultano più semplici da analizzare e valutare quando i prompt sono redatti con particolare attenzione.
- Il few-shot prompting porta a un netto miglioramento delle prestazioni, soprattutto nei task complessi come il riconoscimento di entità e l’estrazione di relazioni.
- Avere un modello di dimensioni maggiori non significa automaticamente ottenere risultati più accurati, e lo stesso vale per i modelli addestrati specificamente sulla lingua dei dati di test.
In definitiva, Evalita-LLM rappresenta uno strumento fondamentale per aziende private e pubbliche che vogliono capire davvero come si comportano i modelli nei contesti reali, quelli più delicati e specifici per ciascun dominio. È un passo avanti verso sistemi di intelligenza artificiale non soltanto potenti, ma anche affidabili, equi e pienamente rilevanti per la realtà italiana.