Individuare i bias di rappresentazione nelle decisioni di investimento negli LLM open-source

Dalla ricerca sugli investimenti al credit risk, fino alla costruzione dei portafogli, i Large Language Models (LLMs) stanno entrando sempre più in profondità nei processi operativi della finanza. Tuttavia, spesso senza che le aziende che adottano l’AI ne siano pienamente consapevoli, la neutralità di questi modelli è tutt’altro che garantita: i bias possono emergere già nella fase di pre-training e influenzare in modo diretto gli output. Se non identificati e corretti, questi bias possono condizionare in misura rilevante sia le performance sia il processo decisionale.
Il team di ricerca di Domyn ha analizzato in profondità questo fenomeno, dedicando uno studio ai bias di rappresentazione nei LLM open-source di Qwen quando vengono applicati a decisioni di investimento. La conclusione è chiara: i modelli mostrano bias strutturali legati alla dimensione dell’azienda, al settore in cui opera e al suo livello di visibilità.
Lo studio è stato condotto valutando circa 150 società quotate negli Stati Uniti su un arco temporale di otto anni (2017–2024), costruendo un dataset standardizzato di valuation ratios, metriche di redditività, fattori di rischio, indicatori di crescita, technical signals e altro ancora. Il team ha utilizzato un metodo di balanced round-robin prompting: per ogni possibile coppia di aziende, al modello veniva chiesto più volte “Which is the better company to invest in?”, variando le categorie di prompt, l’ordine e le ripetizioni. A partire dalle token probabilities alla base di ogni risposta, sono stati costruiti dei “confidence scores” a livello di singola società, analizzando poi come questi punteggi si collegassero ad attributi finanziari, classificazioni settoriali e metriche reali. Questo framework ha permesso non solo di rilevare se l’LLM tendesse a preferire un’azienda rispetto a un’altra, ma anche di approfondire le possibili ragioni alla base di tale preferenza.
I risultati sono netti: i principali predittori di una confidence elevata del modello non erano i segnali tradizionalmente considerati fondamentali – come redditività, crescita o performance tecnica – bensì proxy di dimensione, notorietà e visibilità. Attributi come market capitalization, enterprise value o free cash flow aumentavano in modo sistematico la confidence del modello, mentre i fattori di rischio tendevano a ridurla. Sono emersi anche bias a livello di industria: appartenere a determinate industrie spiegava una quota significativa della variazione nella confidence, talvolta persino superiore alla semplice sector classification. Questo suggerisce che i dati di pre-training dei modelli possano riflettere stereotipi preesistenti sulle industrie, invece di valutare le aziende esclusivamente sulla base dei loro fondamentali finanziari.
Co-firmato da Fabrizio Dimino, Krati Saxena, Bhaskarjit Sarmah e Stefano Pasquali, lo studio veicola un messaggio semplice ma cruciale per chi prende decisioni nel settore finanziario: gli output degli LLM off-the-shelf applicati alla finanza non sono neutrali e la loro adozione richiede una calibrazione continua, consapevole delle specificità di settore, oltre a solidi processi di auditing e a un impianto di compliance rigoroso. Cosa implica tutto questo per il futuro utilizzo dell’AI nella finanza? La risposta completa è contenuta nel paper.