Domyn Small: un Modello Linguistico di Ragionamento Europeo da 10 Miliardi di Parametri

La copertina di un libro con una forma geometrica sfocata sullo sfondo

Domyn Small è un modello di ragionamento compatto e open-weight, adatto ad ambienti con risorse limitate. Offrendo una latenza ridotta e requisiti computazionali contenuti, rappresenta un compromesso ideale tra la conoscenza e le capacità di ragionamento di un modello più grande e l'efficienza di uno più piccolo.

Grazie ai suoi pesi aperti, costituisce inoltre una base versatile per estensioni più specializzate: effettuando il fine-tuning di Domyn Small su uno specifico dominio di conoscenza, ogni organizzazione può sbloccare il suo reale potenziale, ottenendo piena proprietà e controllo del modello.

Proprio come Domyn Large, Domyn Small è stato sviluppato seguendo un principio fondamentale dell'approccio di Domyn al training degli LLM: intervenire in qualsiasi fase del ciclo di vita dell'addestramento — pre-training, mid-training o post-training — applicando ciascuno in maniera selettiva. Questo ha reso possibile sviluppare capacità mirate senza dover ricominciare il training da zero, supportando la realizzazione di IA domain-specific per i settori regolamentati che operano sotto rigidi requisiti di sovranità dei dati.

In particolare, Domyn Small ha seguito una pipeline di mid e post-training completa e articolata in più fasi, in cui ciascuna fase è stata deliberatamente costruita sulla precedente.

Prima di tutto, una fase di Continual Pre-Training ha esposto il modello a un grande volume di contenuti tecnici di alta qualità, per estendere la sua capacità di elaborare e ragionare su documenti più lunghi;
A questa ha fatto seguito una fase di Supervised Fine-Tuning che ha insegnato al modello come seguire istruzioni su un'ampia gamma di task e come ragionare passo dopo passo quando necessario;
Una prima fase di Reinforcement Learning tramite Group Relative Policy Optimization (GRPO) ha poi migliorato le capacità di ragionamento matematico del modello, allenandolo a produrre risposte corrette e verificabili;
Successivamente, una fase di Direct Preference Optimization ha avvicinato le risposte del modello alle aspettative umane — migliorando la sua capacità di seguire le istruzioni con precisione e di comportarsi in modo naturale e utile;
Infine, una seconda fase di Reinforcement Learning ha utilizzato un GRPO multi-environment per estendere questa ottimizzazione su cinque domini di task distinti simultaneamente, rendendo il modello più robusto e capace su un'ampia gamma di casi d'uso reali.

Complessivamente, queste cinque fasi riflettono un approccio deliberato ed end-to-end al post-training, che privilegia la profondità di ragionamento, l'allineamento comportamentale e l'efficienza in deployment.

Il risultato è un modello che ragiona con maggiore attenzione, gestisce la complessità su larga scala e presenta un trade-off positivo tra token efficiency (un numero inferiore di token richiesti per task) e accuratezza sui task di ragionamento, garantendo costi e latenza ridotti in produzione senza sacrificare le capacità.

Inoltre, la pipeline è stata supportata in ogni fase da Domyn Swarm, un framework sviluppato internamente per l'inferenza scalabile di LLM su cluster HPC, rilasciato in modalità open-source per supportare la community nella generazione di dati sintetici e nella valutazione di modelli su larga scala.

Co-firmato da Alberto Veneri, Alessandro Rognoni, Andrea Valenti, Dario Salvati, Federico D'Ambrosio, Francesco Bertolotti, Martin Cimmino, Michele Resta, Nicolò Ruggeri, Simone Angarano, questo lavoro riflette l'impegno di Domyn nel mettere imprese e istituzioni di ricerca in Europa e oltre nelle condizioni di costruire sistemi di IA che possano possedere, governare e di cui possano fidarsi.

Vuoi saperne di più su Domyn Small? Scoprilo nel paper dedicato.

Leggi il paper

Authors

Pellentesque leo justo, placerat in dui ut, tincidunt tempus tellus praesent viverra consectetur tortor, rhoncus accumsan arcu venenatis id.

No items found.