Red Teaming automatizzato per LLM nei servizi finanziari: un framework di valutazione basato su tassonomia

La copertina di un libro con una forma geometrica sfocata sullo sfondo

I Large Language Model stanno assumendo un ruolo sempre più centrale nei servizi finanziari. Vengono impiegati per supportare le decisioni di investimento, le strategie di trading, le attività di compliance normativa e la gestione dei clienti.

Mentre le istituzioni finanziarie accelerano l'adozione degli LLM nei propri processi, aumenta silenziosamente l'esposizione a una categoria di rischio che gran parte dei benchmark di sicurezza continua a sottovalutare. Cosa accade quando un attore malevolo non chiede esplicitamente a un sistema di AI di compiere un'azione dannosa, ma presenta una richiesta problematica come se fosse una normale attività professionale?

Gli LLM sono dotati di meccanismi di sicurezza progettati per prevenire la generazione di output pericolosi. Tuttavia, un'ampia letteratura scientifica ha dimostrato che avversari sufficientemente determinati possono aggirare sistematicamente queste protezioni attraverso tecniche di jailbreak, prompt accuratamente elaborati e strategie conversazionali multi-turn che, passo dopo passo, indeboliscono i vincoli imposti al modello.

In molti settori questo rappresenta già una criticità significativa. Nel contesto finanziario, però, assume una dimensione regolatoria e operativa particolarmente delicata. Un modello che suggerisce strategie di manipolazione del mercato sotto forma di "ricerca", fornisce indicazioni per aggirare le norme antiriciclaggio o propone schemi aggressivi di ottimizzazione fiscale non sta semplicemente fallendo un test di sicurezza: sta potenzialmente esponendo l'organizzazione che lo utilizza a sanzioni, perdite economiche e danni reputazionali.

Nel gennaio 2026, il Treasury Committee della Camera dei Comuni britannica ha messo in guardia contro i rischi di un approccio attendista, sottolineando come un ritardo nell'adozione di adeguate misure di controllo possa esporre i consumatori e il sistema finanziario a conseguenze significative. Tra le raccomandazioni avanzate figura anche l'introduzione di stress test specificamente dedicati ai sistemi di intelligenza artificiale.

Il problema è che gran parte dei benchmark di red teaming oggi disponibili non è stata progettata per affrontare questo tipo di minacce. La maggior parte si concentra su rischi generici, valuta interazioni limitate a un unico scambio domanda-risposta e riduce la sicurezza a un quesito binario: il modello ha risposto oppure si è rifiutato di farlo?

Un'impostazione di questo tipo non riesce a cogliere la natura del rischio finanziario, dove il pericolo raramente si manifesta attraverso richieste apertamente illecite. Più spesso prende la forma di prompt credibili e professionalmente plausibili, che nascondono zone grigie regolamentari, questioni di compliance particolarmente sensibili o pratiche di mercato scorrette presentate come azioni legittime.

Per affrontare questa lacuna, il team di ricerca di Domyn ha sviluppato il framework FinRedTeamBench, un benchmark domain-specific che collega i principali failure mode degli LLM alle categorie di rischio regolatorio, operativo e di compliance tipiche del settore Banking, Financial Services and Insurance (BFSI).

Accanto al benchmark, i ricercatori di Domyn hanno realizzato una pipeline automatizzata di red teaming multi-turn, nella quale un modello attaccante adatta e intensifica progressivamente la propria strategia sulla base delle risposte ricevute. La valutazione degli output viene poi affidata a un protocollo ensemble-based che sfrutta più modelli indipendenti per ridurre il rischio di giudizi distorti o inconsistenti.

Al centro del framework si trova una nuova metrica, il Risk-Adjusted Harm Score (RAHS), progettata per andare oltre i semplici tassi di successo. Il RAHS misura infatti la gravità effettiva delle informazioni divulgate dal modello e tiene conto della presenza di eventuali elementi di mitigazione.

I risultati emersi sono particolarmente significativi. Temperature di decodifica più elevate e interazioni avversariali prolungate non aumentano soltanto la probabilità di superare le protezioni del modello: tendono anche ad aumentare sistematicamente la gravità del danno potenziale. Molti sistemi che resistono ai primi tentativi finiscono infatti per cedere nel corso della conversazione, fornendo progressivamente indicazioni più operative e potenzialmente più impattanti dal punto di vista finanziario.

Dallo studio emerge inoltre un punto critico ricorrente. I modelli analizzati tendono a rifiutare con affidabilità richieste apertamente illegali o manifestamente non etiche, ma rispondono spesso in modo dettagliato e collaborativo quando le stesse richieste vengono mascherate dal linguaggio della compliance e della prassi professionale.

Il paper, co-firmato da Fabrizio Dimino, Bhaskarjit Sarmah e Stefano Pasquali, lancia un messaggio chiaro alle istituzioni finanziarie: portare gli LLM in produzione senza un programma continuativo di testing avversariale e domain-specific significa assumere un rischio concreto, non teorico.

Se i benchmark generici non sono più sufficienti, questo studio indica la strada per una valutazione della sicurezza realmente all'altezza delle esigenze del settore finanziario.

Leggi il paper

Authors

Pellentesque leo justo, placerat in dui ut, tincidunt tempus tellus praesent viverra consectetur tortor, rhoncus accumsan arcu venenatis id.

No items found.