Nel maggio 2025, l’Ufficio dell’Unione europea per la proprietà intellettuale (EUIPO) ha pubblicato un articolato studio dedicato all’analisi dell’intelligenza artificiale generativa (GenAI) sotto il profilo del diritto d’autore. Il documento, commissionato all’Osservatorio dell’EUIPO, affronta in maniera sistematica le principali questioni giuridiche ed economiche legate allo sviluppo e all’utilizzo dei modelli GenAI nell’ambito del copyright, e propone alcune ipotesi operative per garantire un equilibrio tra tutela della creatività umana e promozione dell’innovazione tecnologica.
Lo studio si concentra su due momenti centrali della “filiera” dell’AI generativa: da un lato, l’uso delle opere dell’ingegno esistenti per l’addestramento dei modelli (input); dall’altro, la natura e la gestione dei contenuti prodotti dagli stessi sistemi (output). La prima fase solleva interrogativi fondamentali sulla legittimità dell’utilizzo dei dataset che contengono opere protette dal diritto d’autore, soprattutto in relazione alla disciplina europea sul text and data mining (TDM).
Addestramento dei modelli, text and data mining e diritto d’autore
La direttiva (UE) 2019/790 sul diritto d’autore nel mercato unico digitale (CDSM) ha introdotto due eccezioni specifiche che permettono l’utilizzo delle opere protette per attività di TDM, a certe condizioni. In ambito commerciale – ossia quello tipico delle applicazioni GenAI – è particolarmente rilevante l’eccezione prevista dall’articolo 4, che consente il TDM anche da parte di soggetti privati e a scopo di lucro, a meno che i titolari non si siano opposti esplicitamente.
Proprio questa clausola dell’opt-out costituisce, secondo l’EUIPO, uno dei punti più critici della disciplina attuale. Lo studio sottolinea infatti che, sebbene in teoria il diritto di esclusione sia garantito, nella pratica non esistono ancora meccanismi tecnici e normativi pienamente efficaci per farlo valere. I titolari dovrebbero poter esercitare l’opt-out “in modo appropriato”, ma non esiste ad oggi una definizione univoca di cosa si intenda per “appropriato”: alcuni si affidano a clausole nei termini d’uso online, altri all’inserimento di metadati, altri ancora all’uso di file robots.txt o intestazioni HTTP. Tuttavia, manca una prassi consolidata che garantisca l’effettiva esclusione delle opere.
Il rischio evidenziato è che l’opt-out diventi uno strumento di tutela meramente formale, difficilmente applicabile in concreto, specie considerando la natura automatizzata, dispersa e opaca della raccolta dati su scala industriale. Lo studio evidenzia inoltre come i contenuti, una volta caricati online, siano spesso copiati, rielaborati o aggregati da soggetti terzi, perdendo nel processo gli eventuali metadati di esclusione. Di conseguenza, anche i titolari che esercitano correttamente l’opt-out difficilmente hanno la garanzia che le loro opere vengano effettivamente escluse dai dataset.
Verso un opt-out realmente efficace?
Per affrontare queste criticità, l’EUIPO suggerisce l’adozione e la promozione di standard tecnici interoperabili, che consentano ai titolari di dichiarare in maniera chiara, leggibile da macchina e universalmente riconosciuta la loro volontà di non autorizzare il TDM. Tra le soluzioni indicate figurano sistemi di identificazione digitale delle opere, metadati standardizzati, strumenti di watermarking e tecnologie di tracciamento dei contenuti, come quelli sviluppati nell’ambito delle iniziative C2PA (Coalition for Content Provenance and Authenticity).
Parallelamente, lo studio propone una riflessione di più ampio respiro: l’opt-out, per quanto essenziale, dovrebbe essere solo una tappa verso la costruzione di un mercato organizzato delle licenze per il TDM. Se le condizioni tecniche e giuridiche lo permettessero, gli autori e i titolari dei diritti potrebbero non solo escludere l’uso delle loro opere, ma anche concederlo in modo trasparente e remunerato. Per arrivare a questo traguardo, però, è indispensabile sviluppare sistemi affidabili per la gestione dei diritti, la misurazione del contributo delle singole opere all’addestramento e la ripartizione equa dei ricavi.
Le criticità degli output
La fase dell’output non è meno problematica. Se da un lato l’AI Act introduce nuovi obblighi di trasparenza per segnalare contenuti generati artificialmente, dall’altro il confine tra opere originali, derivative o semplicemente “in stile” si fa sempre più sfumato. L’EUIPO analizza diversi strumenti tecnici per marcare, monitorare o identificare i contenuti creati dall’AI, come il watermarking, i metadati standardizzati, le tecnologie C2PA o le tecniche di prompt‑rewriting. Tuttavia, emerge con chiarezza che la sola tecnologia non basta: è necessario un contesto normativo e contrattuale che renda possibile far valere i diritti anche a valle della produzione, e che renda rintracciabili le fonti utilizzate durante l’addestramento.
Le licenze sui dataset
Uno degli aspetti più innovativi del documento è la riflessione sul potenziale emergere di un mercato strutturato per la concessione in licenza dei contenuti da utilizzare nei dataset di training. Alcuni operatori – come editori, autori o archivi digitali – stanno iniziando a considerare la concessione dei diritti per l’addestramento come una possibile fonte di ricavi, ma per rendere davvero operativo questo mercato servono regole certe, tariffe trasparenti, metriche affidabili e infrastrutture tecniche adeguate. Il rischio, altrimenti, è che il sistema rimanga sbilanciato a favore degli sviluppatori di modelli, lasciando i creatori privi di strumenti per negoziare un’equa remunerazione.
Il ruolo delle autorità pubbliche, e in particolare dell’EUIPO, emerge con forza nelle conclusioni dello studio. L’ufficio propone di agire da catalizzatore per la definizione di standard tecnici, linee guida operative, strumenti informativi e piattaforme collaborative. Tra le proposte più concrete vi è quella di istituire un “Copyright Knowledge Centre” a livello europeo, per promuovere la convergenza tra i vari attori coinvolti – sviluppatori, autori, editori, organismi di gestione collettiva, piattaforme tecnologiche – e sostenere l’adozione di prassi comuni, sia a livello giuridico che tecnologico.
Il documento si chiude con l’identificazione di sei aree prioritarie per lo sviluppo armonico del settore: la necessità di uniformare i meccanismi di opt‑out per l’addestramento, l’esigenza di distinguere in modo chiaro i contenuti artificiali da quelli umani, lo sviluppo di un mercato delle licenze efficiente, il rafforzamento del coordinamento tra pubblico e privato, la promozione di soluzioni innovative nel rispetto della creatività e la possibilità di far valere i diritti anche in fase di enforcement.
Lo studio non offre risposte definitive, ma piuttosto una mappa concettuale e pratica per orientarsi in un terreno ancora scivoloso e in rapida evoluzione.