14 November 2025
·
3 min

FinReflectKG – MultiHop: un benchmark di Financial QA per il reasoning basato su Knowledge Graph

Nel complesso mondo dei dati finanziari, rispondere a una singola domanda richiede spesso molto più che consultare un documento: significa collegare informazioni distribuite su più anni, aziende e filing ufficiali.

Immagina un analista che chieda: “In che modo una carenza di materie prime nel 2023 ha influenzato i ricavi di un’azienda nel 2025?”

Per rispondere, un sistema di AI deve collegare eventi, rischi e risultati — un processo noto come multi-step reasoning, o nel gergo dei ricercatori, multi-hop reasoning. Tuttavia, la maggior parte dei large language models (LLM) fatica con questo tipo di analisi complessa perché le informazioni necessarie sono disperse in grandi quantità di testo non strutturato, causando inefficienza, un elevato consumo di token e frequenti errori.

Per affrontare questa sfida, il team di ricerca di Domyn — Abhinav Arun, Reetu Raj Harsh, Baskharjit Sarmah, Stefano Pasquali — ha introdotto FinReflectKG–MultiHop, un nuovo benchmark pensato specificamente per il multi-hop question answering (QA) in ambito finanziario. Costruito a partire da FinReflectKG (un Knowledge Graph), il benchmark collega entità strutturate come aziende, metriche finanziarie, fattori di rischio, concetti ESG e dati temporali estratti da documenti societari come i report 10-K. Ancorando i task di QA al Knowledge Graph, il benchmark consente ai modelli di recuperare le informazioni in modo molto più preciso rispetto alla ricerca attraverso migliaia di token testuali. In sintesi, introduce un benchmark sistematico e specifico per la finanza che abilita un reasoning complesso, simile a quello degli analisti, basato su dati strutturati e sensibili al tempo.

Dopo aver costruito il dataset, il team di ricerca di Domyn ha progettato una pipeline estremamente accurata per aggiungere ulteriore realismo. Per prima cosa, sono stati estratti i “pattern” di reasoning più comuni all’interno dell’S&P 100, quindi sono state generate migliaia di coppie domanda-risposta basate su questi collegamenti. Ogni domanda è stata poi associata a tre diversi livelli di evidenza: percorsi precisi collegati al Knowledge Graph, frammenti di testo puri e porzioni di documento “rumorose”, contenenti informazioni distraenti. Questa struttura ha permesso di misurare non solo la capacità dei modelli di ragionare, ma anche la loro efficienza nel recupero delle informazioni in contesti rumorosi o strutturati.

I test condotti su diversi LLM open-source e proprietari hanno prodotto risultati notevoli. I modelli che utilizzavano evidenze collegate al Knowledge Graph hanno ottenuto una correttezza superiore di circa il 24%, utilizzando allo stesso tempo circa l’84,5% di token in meno rispetto ai modelli basati sul retrieval testuale tradizionale. Anche i modelli più piccoli hanno beneficiato dell’evidenza strutturata, dimostrando che un miglior retrieval — non necessariamente modelli più grandi — può aumentare significativamente l’accuratezza del reasoning nei task finanziari. Al contrario, i modelli che si affidavano esclusivamente al testo grezzo tendevano a “annegare” in dati irrilevanti, generando risposte incoerenti o errate.

Per il settore finanziario, le implicazioni sono chiare: integrare sistemi di retrieval strutturato basati su Knowledge Graph renderà l’analisi finanziaria tramite AI più accurata, efficiente e interpretabile. E questo è solo l’inizio. Ben oltre una semplice lettura superficiale, FinReflectKG–MultiHop rappresenta un passo fondamentale verso un reasoning più profondo e fondato su evidenze solide, aumentando il valore dei LLM specializzati come asset strategici per l’intero settore.

Authors
Pellentesque leo justo, placerat in dui ut, tincidunt tempus tellus praesent viverra consectetur tortor, rhoncus accumsan arcu venenatis id.
No items found.
it