FinReflectKG - HalluBench: un benchmark GraphRAG per la valutazione delle allucinazioni nei sistemi di question answering in ambito finanziario

L'adozione crescente di questi strumenti porta però con sé una sfida critica: gli output prodotti dai modelli possono apparire fluenti, autorevoli e ben argomentati, pur contenendo informazioni sbagliate.
In domini ad alto rischio come la finanza, dove le decisioni dipendono da dati precisi estratti da documenti regolatori, questo fenomeno ha un nome: allucinazione.
Tra gli approcci più promettenti per ridurre il rischio di allucinazione c'è l'utilizzo dei Knowledge Graph (KG), che vincolano le risposte dei modelli a dati strutturati e verificabili.
Tuttavia, nonostante i sistemi potenziati da KG abbiano dimostrato miglioramenti in termini di accuratezza, una domanda fondamentale è ad oggi ancora priva di risposta: cosa succede quando il knowledge graph stesso contiene errori?
Nella pratica, le pipeline di estrazione dei KG sono intrinsecamente imprecise, ovvero possono produrre triple (le unità base di un Knowledge Graph) distorte, incomplete o contraddittorie, con cui qualsiasi sistema in produzione è costretto a fare i conti.
Il team di ricerca di Domyn ha affrontato direttamente questo problema, introducendo FinBench-QA-Hallucination, un benchmark costruito specificamente per valutare la robustezza dei metodi di rilevazione delle allucinazioni in presenza di triple KG imperfette.
Il dataset è composto da 755 esempi di question-answer annotati, estratti dai report SEC 10-K dell'anno fiscale 2024 di 57 aziende dell’indice S&P 100 e validati manualmente da nove revisori interni tramite un protocollo conservativo di tracciabilità delle fonti. Sono stati valutati sei diversi metodi di rilevazione delle allucinazioni, in due condizioni controllate, con e senza triple KG, per isolare con precisione l'impatto delle distorsioni introdotte nella fase di estrazione delle informazioni sull'affidabilità di ciascun metodo.
I risultati sono molto promettenti: in condizioni ideali, i modelli LLM utilizzati come valutatori e i metodi basati su embedding registrano le performance migliori, con F1 score compresi tra 0,82 e 0,86. Quando vengono introdotte le triple KG imprecise, ovvero nello scenario realistico di qualsiasi deployment in produzione, la maggior parte dei metodi subisce un degrado significativo, con cali del Matthews Correlation Coefficient compresi tra il 44% e l'84%. Gli approcci basati su embedding si distinguono nettamente, mostrando un calo molto meno elevato, pari a solo il 9%, nelle stesse condizioni.
L'analisi manuale ha individuato la causa strutturale della riduzione delle performance, nel fenomeno di dipendenza eccessiva (over-reliance) dai segnali strutturati. I modelli LLM utilizzati come valutatori tendono infatti ad ancorare le proprie valutazioni alla struttura del KG, anche quando questa contraddice il testo sorgente.
Il paper, co-firmato da Mahesh Kumar, Bhaskarjit Sarmah e Stefano Pasquali, fornisce un’indicazione chiara a chi sviluppa sistemi AI su documenti regolatori: le performance in condizioni controllate non sono garanzia di robustezza reale. Le imprecisioni intrinseche delle pipeline di estrazione KG sono sufficienti a compromettere la maggior parte degli approcci attualmente disponibili.
Cosa significa questo per chi vuole costruire sistemi di AI in ambito finanziario di cui potersi davvero fidare? La risposta è nel paper.