21 December 2025
·
3 min

FinReflectKG – EvalBench: un benchmark multi-dimensionale per i Knowledge Graph finanziari

La copertina di un libro con una forma geometrica sfocata sullo sfondo

I Large Language Models (LLM) non servono solo a generare testo. Nel settore dei servizi finanziari sono particolarmente efficaci per estrarre conoscenza da documenti complessi e non strutturati, come le comunicazioni regolamentari (ad esempio i filing SEC). Nonostante i notevoli progressi nelle tecniche di knowledge extraction, il settore ha finora sofferto l’assenza di uno standard rigoroso e condiviso per il benchmarking e la valutazione dei Knowledge Graph (KG) finanziari derivati da questi testi. Questa mancanza rende difficile confrontare approcci diversi, validare i fatti estratti o riporre piena fiducia negli output degli LLM in contesti finanziari ad alta criticità.

Il team di ricerca Domyn introduce FinReflectKG – EvalBench, il primo framework sistematico di benchmarking e valutazione pensato specificamente per l’estrazione di Knowledge Graph finanziari. Basato sui filing SEC Form 10-K delle aziende dell’indice S&P 100 – documenti noti per la loro densità informativa e ambiguità semantica – il benchmark colma una lacuna fondamentale nella valutazione dell’affidabilità con cui gli LLM estraggono triple strutturate da disclosure finanziarie reali. EvalBench integra in un unico framework diverse strategie di estrazione, tra cui approcci single-pass, multi-pass e reflection-based, consentendo confronti diretti e significativi tra metodologie.

Anziché affidarsi a un’unica metrica, il team ha scomposto le prestazioni lungo più dimensioni, come faithfulness, precision e relevance. Questa visione multi-dimensionale riflette la realtà: nessuna singola metrica è in grado di catturare pienamente la qualità di un Knowledge Graph finanziario. Un metodo di estrazione può generare un numero elevato di fatti, ma tali fatti differiscono per aderenza al testo di origine, chiarezza espressiva e utilità per applicazioni downstream come il monitoraggio della compliance, la ricerca per investimenti, la valutazione del rischio di credito o l’analisi di portafoglio.

Per garantire valutazioni robuste, scalabili e riproducibili, il framework adotta un protocollo LLM-as-Judge con controlli espliciti sui bias. EvalBench introduce una procedura di valutazione deterministica “commit-then-justify”, progettata per mitigare noti bias degli LLM, come gli effetti di posizione, la tendenza alla valutazione indulgente, la preferenza per risposte verbose o l’uso di conoscenza esterna non presente nel testo di origine. In presenza di evidenza ambigua, il giudice applica un principio di conservatorismo, optando per una valutazione negativa per privilegiare l’affidabilità rispetto alla sovra-generazione. Verdict strutturati e segnali di warning supportano inoltre un’analisi degli errori trasparente e un miglioramento iterativo delle pipeline di estrazione.

I risultati evidenziano trade-off rilevanti tra le diverse strategie. I metodi reflection-based mostrano in generale le migliori prestazioni in termini di precisione, rilevanza e completezza, suggerendo che il ragionamento iterativo migliori la copertura e la qualità strutturale. Al contrario, l’estrazione single-pass ottiene il punteggio più alto in termini di faithfulness, indicando un allineamento più conservativo al testo di origine. Questo risultato, apparentemente controintuitivo, dimostra perché una valutazione multi-dimensionale sia essenziale: aumentare la copertura può comportare un costo in termini di rigoroso ancoraggio fattuale.

Co-firmato da Fabrizio Dimino, Abhinav Arun, Bhaskarjit Sarmah e Stefano Pasquali, questo lavoro fornisce una base critica per confrontare le diverse metodologie, diagnosticare gli errori e avanzare sul fronte della trasparenza e della governance nell’estrazione automatica di conoscenza finanziaria. L’obiettivo finale è migliorare l’affidabilità e le performance dell’AI applicata alla finanza.

Authors
Pellentesque leo justo, placerat in dui ut, tincidunt tempus tellus praesent viverra consectetur tortor, rhoncus accumsan arcu venenatis id.
No items found.
it