29 September 2025
·
3 min

Il benchmark dei Large Language Models per la lingua italiana

La copertina di un libro con una forma geometrica sfocata sullo sfondo

Nel panorama dell’intelligenza artificiale, sempre più orientato allo sviluppo in lingua inglese, i benchmark hanno spesso privilegiato l’inglese come standard di riferimento o si sono basati su traduzioni, anche quando si trattava di modelli linguistici destinati a più lingue. Per superare questa limitazione, Martin Cimmino, Paolo Albano, Michele Resta, Marco Madeddu, Viviana Patti e Roberto Zanoli hanno ideato Evalita-LLM, il benchmark più completo mai realizzato per valutare i modelli in italiano, sviluppato interamente su dati nativi per garantire fedeltà linguistica e accuratezza contestuale.

Con i suoi 10 task di elaborazione del linguaggio naturale – dal riconoscimento di entità all’analisi del sentiment, passando per la sintesi automatica e il textual entailment – Evalita-LLM riproduce scenari d’uso reali, offrendo una valutazione più precisa e obiettiva delle prestazioni dei modelli. Allo stesso tempo, mette alla prova la solidità dei prompt, mostrando come i risultati possano cambiare sensibilmente in base alla loro formulazione.

Tre elementi distintivi rendono Evalita-LLM diverso da qualsiasi altro benchmark:

  1. Lingua nativa: tutti i task sono svolti direttamente in italiano, evitando le distorsioni e i bias introdotti dalle traduzioni.
  2. Varietà dei compiti: il benchmark include sia task di classificazione sia generativi, così da riprodurre interazioni più ricche e naturali con i modelli.
  3. Diversità dei prompt: ogni task viene testato con più formulazioni, riducendo la sensibilità dei modelli a un’unica espressione e assicurando valutazioni più imparziali.

I task inclusi in Evalita-LLM sono stati selezionati e adattati da diverse campagne Evalita realizzate negli anni, e il progetto può contare sul supporto di istituzioni di riferimento a livello nazionale. Tra queste figurano l’Associazione Italiana di Linguistica Computazionale (AILC), l’Associazione Italiana per l’Intelligenza Artificiale (AI*IA) e l’Associazione Italiana di Scienze della Voce (AISV).

Ad oggi, 22 modelli sono già stati messi alla prova con Evalita-LLM, valutandone le prestazioni sia in modalità zero-shot sia in few-shot. Dai test sono emerse alcune evidenze interessanti:

  1. Le performance e le classifiche fra i modelli cambiano sensibilmente in base al prompt, a conferma che una valutazione basata su un’unica formulazione rischia di essere parziale o poco equa.
  2. I task generativi richiedono molte più risorse computazionali rispetto a quelli a scelta multipla, un fattore cruciale da considerare nella progettazione di benchmark e nella scelta dei compiti da includere.
  3. Gli output generativi risultano più semplici da analizzare e valutare quando i prompt sono redatti con particolare attenzione.
  4. Il few-shot prompting porta a un netto miglioramento delle prestazioni, soprattutto nei task complessi come il riconoscimento di entità e l’estrazione di relazioni.
  5. Avere un modello di dimensioni maggiori non significa automaticamente ottenere risultati più accurati, e lo stesso vale per i modelli addestrati specificamente sulla lingua dei dati di test.

In definitiva, Evalita-LLM rappresenta uno strumento fondamentale per aziende private e pubbliche che vogliono capire davvero come si comportano i modelli nei contesti reali, quelli più delicati e specifici per ciascun dominio. È un passo avanti verso sistemi di intelligenza artificiale non soltanto potenti, ma anche affidabili, equi e pienamente rilevanti per la realtà italiana.

Leggi la ricerca
Authors
Pellentesque leo justo, placerat in dui ut, tincidunt tempus tellus praesent viverra consectetur tortor, rhoncus accumsan arcu venenatis id.
No items found.
it