Questa pagina delinea il riepilogo dei dati di addestramento utilizzati per Domyn Large, in conformità ai requisiti stabiliti dall'articolo 53 (1)(d) del Regolamento (UE) 2024/1689 (AI Act). Lo scopo di questo riepilogo è migliorare la trasparenza e consentire agli stakeholder di comprendere meglio la natura dei dati di addestramento. Questo riepilogo è stato preparato seguendo il modello emesso dall'Ufficio europeo per l’IA eriflette il nostro impegno nel rispettare gli obblighi dell'AI Act, promuovendouno sviluppo responsabile e trasparente dell'IA.
1. Informazioni Generali
1.1 Identificazione del Modello e del Fornitore
Nome e contatti del fornitore: Domyn S.p.A., Piazza Gae Aulenti 8, 20154 Milano, Italia, email: legal@domyn.com
Nome(i) del modello: Domyn Large
Dipendenze del modello: Il modello è una modifica di un modello di intelligenza artificiale a scopo generale già immesso sul mercato dell'Unione, specificamente Colosseum 355B
1.2 Data di Immissione sul Mercato e Data di Taglio della Conoscenza
Data di immissione sul mercato dell'Unione: 20 marzo 2026
Data di taglio della conoscenza: Settembre 2024 (basata sul taglio del datasetdi pre-addestramento)
1.3 Dimensione Complessiva dei Dati diAddestramento, Modalità e Caratteristiche
Dimensione dei Dati per Modalità
Modalità
Dimensione Complessiva
Stato
Testo
Numero di token o byte: 11,1 Trilioni
Utilizzato
Immagine
Numero di immagini (o coppie con altri media): 0
Non Utilizzato
Video
Numero di minuti (o coppie con altri media): 0
Non Utilizzato
Audio
Numero di minuti (o coppie con altri media): 0
Non Utilizzato
Altro
Numero di immagini (o coppie con altri media): 0
Non Utilizzato
Categorie di Contenuto per Modalità
Testo
Testi fictional, letteratura
Comunicazione sociale (es. messaggi)
Testi scientifici ed educativi
Promozione, pubblicità, recensioni di prodotti eservizi
Notizie, giornalismo e opinioni
Altri testi
Documenti legali e ufficiali
Immagine
Fotografia
Illustrazione e design grafico
Dipinti e belle arti
Immagini sociali/personali
Infografiche
Speciali
Source code
Dati strutturati (es. calendari, mappe)
Altri
Video
Film, spettacoli, performance
Video notizie e giornalismo
Contenuti video animati
Contenuti utente, video brevi
Altri contenuti video (es. arte sperimentale,effetti video)
Documentari
Audio
Musica
Programmi radio e podcast
Narrativa e finzione (es. audiolibri)
Comunicazione sociale (chiamate telefoniche, messaggi vocali)
Contenuti audio educativi non-fiction
Altri (es. suoni e ambientazioni)
Descrizione delle caratteristiche linguistiche, regionali, demografiche e altre rilevanti
Caratteristiche linguistiche:
Lingua primaria: Inglese (maggioranza dei dati di pre-addestramento eCPT)
Copertura multilingue: 56 lingue estratte da FineWeb2-HQ e HPLT, con pesatura a livelli.
Post-addestramento multilingue: Dati SFT includono split multilingue dedicati (Spagnolo, Francese, Tedesco, Italiano ecc.)
Linguaggi di programmazione: Python, C++, Java, JavaScript, SQL e altri (tramite The Stack V2)
Caratteristiche regionali:
I dati sono prevalentemente tratti dal web aperto (corpora derivati da CommonCrawl: DCLM, Dolma), con una prevalenza di contenuti web in inglese e Europa occidentale.
Dati multilingue con upweight intenzionale per lingue europee (Livello A: ES, IT, FR, DE) per allinearsi alla base clienti enterprise regolamentata di Domyn nei mercati europei.
Dati accademici (ArXiv, peS2o) riflettono l'output di ricerca globale in inglese.
Dump di Wikipedia coprono tutte le edizioni linguistiche disponibili, con rappresentazione proporzionale alla dimensione di ciascuna Wikipedia.
Caratteristiche demografiche:
Nessuna annotazione o campionamento demografico esplicito è stato applicato ai dati di addestramento.
Dati web-crawled ereditano i bias demografici della produzione di contenuti internet — rappresentano sproporzionatamente popolazioni con maggiore accesso a internet, alfabetizzazione e partecipazione digitale.
Corpora accademici riflettono le demografiche della pubblicazione accademica (prevalentemente ricercatori anglofoni affiliatia università).
Altre caratteristiche rilevanti:
Copertura domini: Web generale, codice, accademico/STEM, matematica, Wikipedia/enciclopedico, function calling/utilizzo tool.
Gamma temporale: Crawl web principalmente dal 2023–2024; corpora accademici e codice riflettono archivi storici.
2. Elenco delle Fonti di Dati
2.1 Dataset Pubblicamente Accessibili
Il modello è stato addestrato su dati solo testuali tratti da dataset pubblicamente disponibili.
Principali grandi dataset pubblicamente disponibili utilizzati per il pre-addestramento:
- DCML (Settembre 2024)
- The Stack v2 (Settembre 2024)
- HPLT (Settembre 2024)
- HuggingFaceFW fineweb-2 (Settembre 2025)
Descrizione generale di altri dataset pubblicamente disponibili
I dati di addestramento rimanenti comprendono circa 5-6 trilioni di token in totale, tratti dalle seguenti categorie:
- Crawls Web — Dati web multilingue solo testuali, principalmente da DCML.
- Codice — Codice sorgente machine-readable derivato da The Stack v2.
- Accademico — Contenuti scientifici e matematici solo testuali, inclusi ProofPile 2 (arXiv).
- Wiki — Contenuti enciclopedici solo testuali estratti da dump di Wikipedia.
- Multilingue — Crawl web solo testuali in più lingue, principalmente da HPLT e FineWeb-2.
- Sintetici — Testo generato da machine comprendente più di cinque dataset di contenuti in stile QA, prodotti da documenti web di alta qualità.
2.2 Dataset privati non pubblicamente disponibili ottenuti da terze parti
Non abbiamo utilizzato dataset privati non pubblicamente accessibili di terze parti.
2.3. Dati crawled e scraped da fonti online
Non abbiamo effettuato crawl, scraping o compilazione diretta di dati da fonti online noi stessi o tramite terze parti per nostro conto (esclusi i dataset di terze parti pubblicamente disponibili coperti nella sezione 2.1 sopra).
2.4 Dati utente
Nessun dato utente raccolto dai nostri servizie prodotti, inclusi tramite servizi email, piattaforme social media, piattaforme di contenuti o interazioni con i nostri modelli e/o sistemi AI, è stato utilizzato per addestrare il Modello.
2.5 Dati Sintetici
Una porzione dei dati di addestramento consiste in dati sintetici generati da IA creati da noi o per nostro conto.
Modalità dei dati sintetici: Solo testo
Nome del modello AI utilizzato per generare idati sintetici:
2.6 Altre fonti di dati
Nessun dato al di fuori delle categorie descritte nelle sezioni precedenti è stato utilizzato per l'addestramento.
3. Altri Aspetti Rilevanti dell'Elaborazione dei Dati
3.1 Rispetto della riserva di diritti dall'eccezione o limitazione del text and data mining
Siamo firmatari del Code of Practice per modelli di intelligenza artificiale a scopo generale che include impegni a rispettare le riserve di diritti dall'eccezione o limitazione del text and data mining (TDM).
Misure implementate per rispettare le riservedi diritti dall'eccezione del text and data mining ai sensi dell'Art.4(3) della Direttiva DSM durante la raccolta dei dati:
- Specificazione di protocolli di opt-out: Tuttii dataset aperti hanno utilizzato crawler web che rispettano segnali di opt-out machine-readable — come robots.txt e metadati standard.
- Soluzioni rispettate dal fornitore: Viene mantenuto un canale di feedback pubblico per i titolari di diritti per richiedere la rimozione. Gli aggiornamenti vengono applicati dinamicamente a blocchi a livello di dominio/URL in base alle richieste.
- Misure implementate dopo il completamento della raccolta dei dati per identificare e rimuovere contenuti per cui i diritti sono stati riservati dai titolari: Blocco basato su URL/dominio difonti segnalate, classificatori ML addestrati per rilevare contenuti protetti, revisione manuale e rimozione scatenata da notifiche dei titolari di diritti.
3.2 Rimozione di Contenuti Non Desiderati
Descrizione dei contenuti ritenuti indesiderati dal fornitore come parte dei dati di addestramento:
- Materiali esplicitamente opt-out ai sensi del copyright
- Contenuti illegali o odiosi
- Contenuti da fonti coinvolte in infrazioni sistematiche del copyright.
Elenco delle misure prese per evitare e/o rimuovere tali contenuti:
Blacklists: Blacklist dinamiche di dominio/URL mantenute in base a input dei titolari di diritti o considerazioni legali. Utilizziamo inoltre le blacklist URL pubbliche mantenute dall'Université Toulouse 1 Capitole — le UT1 blacklist — per filtrare domini indesiderati.
Parole chiave: Manteniamo un elenco curato di parole chiave e frasi sensibili utilizzate per identificare e filtrare contenuti indesiderati, inclusi ma non limitati a:
- Marcatori relativi al copyright (es. “©”, “All rights reserved”, “Unauthorized reproduction”)
- Indicatori di contenuti per adulti (“porn”,“hard pornography”, “adult site”, “XXX”)
- Insulti di odio o termini offensivi espliciti
- Appelli alla violenza o contenuti estremisti
- Termini relativi al gioco d'azzardo (“betting”, “casino”, “gambling site”)
- Linguaggio malware/phishing (“download here”, “free crack”, “keygen”)
Queste parole chiave vengono abbinate sia negli URL che nei contenuti delle pagine; qualsiasi documento che supera una soglia di punteggio viene escluso.
Elenco delle misure prese per evitare e/o rimuovere tali contenuti:
Classificatori basati su modelli: Curiamo esempi positivi e negativi (es. contenuti indesiderati vs. accettabili) nonché classificatori generali per dati di alta qualità, spesso utilizzando fonti autorevoli come Wikipedia per definire esempi positivi. Abbiamo rilevato che combinare più classificatori produce prestazioni elevate con un basso tasso di errore. Per l'addestramento, utilizziamo principalmente modelli basati su transformer come BERT o RoBERTa, ottimizzati per deployment compatti ed efficienti. Inoltre, iteriamo campionando falsi positivi da versioni precedenti dei classificatori, generiamo esempi sintetici “specchiati” e riaddestriamo i modelli per ridurre significativamente i falsi positivi. Infine, manteniamo set di validazione e hold-out separati per stimare affidabilmente i tassi di errore nel mondo reale e garantire una generalizzazione robusta.
Altre misure: Revisione manuale su segnalazione.
Misure applicate dai curatori dei dataset elencati:
- DCML: Domini sorgente curati con compliance copyright nota. Impiegano una combinazione di filtraggio basato su modelli e metodi euristici per curare i contenuti, mirando a escludere materiali soggetti a riserve di copyright.
- The Stack v2: Include principalmente codice sotto licenze open-source. Per facilitare la compliance con i requisiti di licenza, il dataset The Stack v2 fornisce informazioni sulla provenienza per ciascun punto dati, consentendo agli utenti di tracciare l'origine e i termini di licenza del codice incluso.
- ProofPile 2 (arXiv): Include contenuti accademici con permessi espliciti di autori/recensori.
- HPLT / crawl web multilingue: Applicano filtraggio open-license ed esclusione basata su lingua.
- Dataset QA sintetici: Generati da documenti web di alta qualità cleared per il riutilizzo; misure per rispettare le riservedi diritti rispettate.