Dati di addestramento utilizzati per

Domyn Large

Version of the Summary: v1 - Ultimo aggioramento: 19 marzo 2026

Table of contents

Questa pagina delinea il riepilogo dei dati di addestramento utilizzati per Domyn Large, in conformità ai requisiti stabiliti dall'articolo 53 (1)(d) del Regolamento (UE) 2024/1689 (AI Act). Lo scopo di questo riepilogo è migliorare la trasparenza e consentire agli stakeholder di comprendere meglio la natura dei dati di addestramento. Questo riepilogo è stato preparato seguendo il modello emesso dall'Ufficio europeo per l’IA eriflette il nostro impegno nel rispettare gli obblighi dell'AI Act, promuovendouno sviluppo responsabile e trasparente dell'IA.

1. Informazioni Generali

1.1 Identificazione del Modello e del Fornitore

Nome e contatti del fornitore: Domyn S.p.A., Piazza Gae Aulenti 8, 20154 Milano, Italia, email: legal@domyn.com

Nome(i) del modello: Domyn Large

Dipendenze del modello: Il modello è una modifica di un modello di intelligenza artificiale a scopo generale già immesso sul mercato dell'Unione, specificamente Colosseum 355B

1.2 Data di Immissione sul Mercato e Data di Taglio della Conoscenza

Data di immissione sul mercato dell'Unione: 20 marzo 2026

Data di taglio della conoscenza: Settembre 2024 (basata sul taglio del datasetdi pre-addestramento)

1.3 Dimensione Complessiva dei Dati diAddestramento, Modalità e Caratteristiche

Dimensione dei Dati per Modalità

Modalità

Dimensione Complessiva

Stato

Testo

Numero di token o byte: 11,1 Trilioni

Utilizzato

Immagine

Numero di immagini (o coppie con altri media): 0

Non Utilizzato

Video

Numero di minuti (o coppie con altri media): 0

Non Utilizzato

Audio

Numero di minuti (o coppie con altri media): 0

Non Utilizzato

Altro

Numero di immagini (o coppie con altri media): 0

Non Utilizzato

Categorie di Contenuto per Modalità

Testo

Testi fictional, letteratura

Comunicazione sociale (es. messaggi)

Testi scientifici ed educativi

Promozione, pubblicità, recensioni di prodotti eservizi

Notizie, giornalismo e opinioni

Altri testi

Documenti legali e ufficiali

Immagine

Fotografia

Illustrazione e design grafico

Dipinti e belle arti

Immagini sociali/personali

Infografiche

Speciali

Source code

Dati strutturati (es. calendari, mappe)

Altri

Video

Film, spettacoli, performance

Video notizie e giornalismo

Contenuti video animati

Contenuti utente, video brevi

Altri contenuti video (es. arte sperimentale,effetti video)

Documentari

Audio

Musica

Programmi radio e podcast

Narrativa e finzione (es. audiolibri)

Comunicazione sociale (chiamate telefoniche, messaggi vocali)

Contenuti audio educativi non-fiction

Altri (es. suoni e ambientazioni)

Descrizione delle caratteristiche linguistiche, regionali, demografiche e altre rilevanti

Caratteristiche linguistiche:

Lingua primaria: Inglese (maggioranza dei dati di pre-addestramento eCPT)

Copertura multilingue: 56 lingue estratte da FineWeb2-HQ e HPLT, con pesatura a livelli.

Post-addestramento multilingue: Dati SFT includono split multilingue dedicati (Spagnolo, Francese, Tedesco, Italiano ecc.)

Linguaggi di programmazione: Python, C++, Java, JavaScript, SQL e altri (tramite The Stack V2)

Caratteristiche regionali:

I dati sono prevalentemente tratti dal web aperto (corpora derivati da CommonCrawl: DCML, Dolma), con una prevalenza di contenuti web in inglese e Europa occidentale.

Dati multilingue con upweight intenzionale per lingue europee (Livello A: ES, IT, FR, DE) per allinearsi alla base clienti enterprise regolamentata di Domyn nei mercati europei.

Dati accademici (ArXiv, peS2o) riflettono l'output di ricerca globale in inglese.

Dump di Wikipedia coprono tutte le edizioni linguistiche disponibili, con rappresentazione proporzionale alla dimensione di ciascuna Wikipedia.

Caratteristiche demografiche:

Nessuna annotazione o campionamento demografico esplicito è stato applicato ai dati di addestramento.

Dati web-crawled ereditano i bias demografici della produzione di contenuti internet — rappresentano sproporzionatamente popolazioni con maggiore accesso a internet, alfabetizzazione e partecipazione digitale.

Corpora accademici riflettono le demografiche della pubblicazione accademica (prevalentemente ricercatori anglofoni affiliatia università).

Altre caratteristiche rilevanti:

Copertura domini: Web generale, codice, accademico/STEM, matematica, Wikipedia/enciclopedico, function calling/utilizzo tool.

Gamma temporale: Crawl web principalmente dal 2023–2024; corpora accademici e codice riflettono archivi storici.

2. Elenco delle Fonti di Dati

2.1 Dataset Pubblicamente Accessibili

Il modello è stato addestrato su dati solo testuali tratti da dataset pubblicamente disponibili.

Principali grandi dataset pubblicamente disponibili utilizzati per il pre-addestramento:

DCML (Settembre 2024)
The Stack v2 (Settembre 2024)
HPLT (Settembre 2024)
HuggingFaceFW fineweb-2 (Settembre 2025)

Descrizione generale di altri dataset pubblicamente disponibili

I dati di addestramento rimanenti comprendono circa 5-6 trilioni di token in totale, tratti dalle seguenti categorie:

Crawls Web — Dati web multilingue solo testuali, principalmente da DCML.
Codice — Codice sorgente machine-readable derivato da The Stack v2.
Accademico — Contenuti scientifici e matematici solo testuali, inclusi ProofPile 2 (arXiv).
Wiki — Contenuti enciclopedici solo testuali estratti da dump di Wikipedia.
Multilingue — Crawl web solo testuali in più lingue, principalmente da HPLT e FineWeb-2.
Sintetici — Testo generato da machine comprendente più di cinque dataset di contenuti in stile QA, prodotti da documenti web di alta qualità.

2.2 Dataset privati non pubblicamente disponibili ottenuti da terze parti

Non abbiamo utilizzato dataset privati non pubblicamente accessibili di terze parti.

2.3. Dati crawled e scraped da fonti online

Non abbiamo effettuato crawl, scraping o compilazione diretta di dati da fonti online noi stessi o tramite terze parti per nostro conto (esclusi i dataset di terze parti pubblicamente disponibili coperti nella sezione 2.1 sopra).

2.4 Dati utente

Nessun dato utente raccolto dai nostri servizie prodotti, inclusi tramite servizi email, piattaforme social media, piattaforme di contenuti o interazioni con i nostri modelli e/o sistemi AI, è stato utilizzato per addestrare il Modello.

2.5 Dati Sintetici

Una porzione dei dati di addestramento consiste in dati sintetici generati da IA creati da noi o per nostro conto.

Modalità dei dati sintetici: Solo testo

Nome del modello AI utilizzato per generare idati sintetici:

2.6 Altre fonti di dati

Nessun dato al di fuori delle categorie descritte nelle sezioni precedenti è stato utilizzato per l'addestramento.

3. Altri Aspetti Rilevanti dell'Elaborazione dei Dati

3.1 Rispetto della riserva di diritti dall'eccezione o limitazione del text and data mining

Siamo firmatari del Code of Practice per modelli di intelligenza artificiale a scopo generale che include impegni a rispettare le riserve di diritti dall'eccezione o limitazione del text and data mining (TDM).

Misure implementate per rispettare le riservedi diritti dall'eccezione del text and data mining ai sensi dell'Art.4(3) della Direttiva DSM durante la raccolta dei dati:

Specificazione di protocolli di opt-out: Tuttii dataset aperti hanno utilizzato crawler web che rispettano segnali di opt-out machine-readable — come robots.txt e metadati standard.
Soluzioni rispettate dal fornitore: Viene mantenuto un canale di feedback pubblico per i titolari di diritti per richiedere la rimozione. Gli aggiornamenti vengono applicati dinamicamente a blocchi a livello di dominio/URL in base alle richieste.
Misure implementate dopo il completamento della raccolta dei dati per identificare e rimuovere contenuti per cui i diritti sono stati riservati dai titolari: Blocco basato su URL/dominio difonti segnalate, classificatori ML addestrati per rilevare contenuti protetti, revisione manuale e rimozione scatenata da notifiche dei titolari di diritti.

3.2 Rimozione di Contenuti Non Desiderati

Descrizione dei contenuti ritenuti indesiderati dal fornitore come parte dei dati di addestramento:

Materiali esplicitamente opt-out ai sensi del copyright
Contenuti illegali o odiosi
Contenuti da fonti coinvolte in infrazioni sistematiche del copyright.

Elenco delle misure prese per evitare e/o rimuovere tali contenuti:

Blacklists: Blacklist dinamiche di dominio/URL mantenute in base a input dei titolari di diritti o considerazioni legali. Utilizziamo inoltre le blacklist URL pubbliche mantenute dall'Université Toulouse 1 Capitole — le UT1 blacklist — per filtrare domini indesiderati.

Parole chiave: Manteniamo un elenco curato di parole chiave e frasi sensibili utilizzate per identificare e filtrare contenuti indesiderati, inclusi ma non limitati a:

Indicatori di contenuti per adulti (“porn”,“hard pornography”, “adult site”, “XXX”)
Insulti di odio o termini offensivi espliciti
Appelli alla violenza o contenuti estremisti
Termini relativi al gioco d'azzardo (“betting”, “casino”, “gambling site”)
Linguaggio malware/phishing (“download here”, “free crack”, “keygen”)

Queste parole chiave vengono abbinate sia negli URL che nei contenuti delle pagine; qualsiasi documento che supera una soglia di punteggio viene escluso.

Elenco delle misure prese per evitare e/o rimuovere tali contenuti:

Classificatori basati su modelli: Curiamo esempi positivi e negativi (es. contenuti indesiderati vs. accettabili) nonché classificatori generali per dati di alta qualità, spesso utilizzando fonti autorevoli come Wikipedia per definire esempi positivi. Abbiamo rilevato che combinare più classificatori produce prestazioni elevate con un basso tasso di errore. Per l'addestramento, utilizziamo principalmente modelli basati su transformer come BERT o RoBERTa, ottimizzati per deployment compatti ed efficienti. Inoltre, iteriamo campionando falsi positivi da versioni precedenti dei classificatori, generiamo esempi sintetici “specchiati” e riaddestriamo i modelli per ridurre significativamente i falsi positivi. Infine, manteniamo set di validazione e hold-out separati per stimare affidabilmente i tassi di errore nel mondo reale e garantire una generalizzazione robusta.

Altre misure: Revisione manuale su segnalazione.

Misure applicate dai curatori dei dataset elencati:

DCML: Domini sorgente curati con compliance copyright nota. Impiegano una combinazione di filtraggio basato su modelli e metodi euristici per curare i contenuti, mirando a escludere materiali soggetti a riserve di copyright.
The Stack v2: Include principalmente codice sotto licenze open-source. Per facilitare la compliance con i requisiti di licenza, il dataset The Stack v2 fornisce informazioni sulla provenienza per ciascun punto dati, consentendo agli utenti di tracciare l'origine e i termini di licenza del codice incluso.
ProofPile 2 (arXiv): Include contenuti accademici con permessi espliciti di autori/recensori.
HPLT / crawl web multilingue: Applicano filtraggio open-license ed esclusione basata su lingua.
Dataset QA sintetici: Generati da documenti web di alta qualità cleared per il riutilizzo; misure per rispettare le riservedi diritti rispettate.