by

L’utilizzo di dati, immagini e contenuti da parte dei sistemi di intelligenza artificiale generativa per il proprio addestramento può fare affidamento sulla nuova eccezione dedicata al text and data mining (TDM) introdotta dalla Direttiva Copyright?

I sistemi di intelligenza artificiale generativa si “auto-addestrano” utilizzando algoritmi di apprendimento automatico che analizzano enormi quantità di dati, immagini e contenuti e imparano ad utilizzare tali informazioni per creare nuovi contenuti simili a quelli esistenti.

Tale analisi, tuttavia, potrebbe essere considerata come una riproduzione, anche se solo temporanea, dei dati e delle fonti utilizzate, incluse le eventuali opere protette o intere porzioni dei database impiegati. Pertanto, dall’estrazione automatizzata di tali contenuti possono derivare dei problemi di coordinamento con la disciplina a tutela del diritto d’autore e dei diritti ad esso connessi – in particolare, del diritto esclusivo di riproduzione ex art. 13 legge sul diritto d’autore n. 633/1941. Ma non solo. Tale utilizzo potrebbe inoltre essere in contrasto con il diritto del costitutore di una banca dati di vietare l’estrazione o il reimpiego della totalità o di una parte sostanziale della stessa.

Nell’ambito del diritto d’autore, la dottrina si è interrogata sulla possibilità di realizzare un’elaborazione creativa dell’informazione e/o dell’opera protetta. Sul punto, in realtà, si è già espresso il legislatore europeo, secondo cui, nel processo di elaborazione dei dati, l’assenza di un’autorizzazione da parte dell’autore dell’opera da cui sono estratti può integrare una violazione del diritto d’autore. Tuttavia, è evidente che subordinare l’attività di estrazione di dati e contenuti al previo ottenimento dell’autorizzazione da parte del titolare dei diritti di privativa coinvolti, comporterebbe elevati costi transattivi e anche tempi incompatibili con quelli di sviluppo di sistemi di intelligenza artificiale. È proprio per tali ragioni che il legislatore europeo è intervenuto riformando la materia attraverso l’introduzione di alcune eccezioni e limitazioni al diritto d’autore obbligatorie per ogni Stato Membro.

In particolare, in materia di estrazione di dati, la Direttiva Copyright 2019/790/UE ha introdotto le eccezioni di c.d. di text and data mining (TDM), disciplinate agli artt. 3 (Estrazione di testo e di dati per scopi di ricerca scientifica) e 4 (Eccezioni o limitazioni ai fini dell’estrazione di testo e di dati) che potrebbero essere rilevanti per l’addestramento dei sistemi di intelligenza artificiale. Il TDM viene definito all’art. 2 della Direttiva Copyright come “qualsiasi tecnica di analisi automatizzata volta ad analizzare testi e dati in formato digitale avente lo scopo di generare informazioni inclusi, a titolo non esaustivo, modelli, tendenze e correlazioni”. A livello nazionale tali articoli sono stati trasposti, rispettivamente, con l’introduzione nella legge sul diritto d’autore degli artt. 70-ter – che riguarda unicamente l’estrazione per fini scientifici da parte di organismi di ricerca e istituti di tutela del patrimonio culturale – e 70-quater – che consente l’estrazione di testo e dati in generale, da parte di chiunque, anche per mero fine di lucro.

Viste le grandi quantità di dati utilizzati dai sistemi di AI per generare nuovi contenuti, risulta evidente lo stretto rapporto che sussiste tra l’intelligenza artificiale generativa e l’eccezione copyright di TDM: l’eccezione di text and data mining consente ai sistemi di AI di accedere a grandi quantità di dati, che vengono utilizzati dall’AI generativa per creare nuovi contenuti. Qualora questi sistemi non fossero autorizzati ad accedere a tali dati, la loro capacità di generare contenuti risulterebbe indubbiamente limitata.

Tra le due eccezioni copyright di TDM disciplinate dal legislatore europeo, merita particolare attenzione per i sistemi di intelligenza artificiale la seconda, che ammette l’estrazione anche per fini di lucro. L’art. 70-quater legge sul diritto d’autore, infatti, esenta qualsiasi attività di text and data mining che venga svolta sull’opera dell’ingegno, ivi incluso il software o il database protetto da un diritto connesso, a prescindere dallo scopo o dalla qualificazione del soggetto che la esercita.

Ciò, tuttavia, a condizione che:

  1. tale soggetto abbia avuto accesso legittimo al contenuto ai fini dell’estrazione di testo e di dati; e
  2. il titolare del diritto d’autore e dei diritti connessi e/o il titolare del database non abbiano espressamente riservato l’estrazione di testo e di dati (c.d. meccanismo di opt out), così richiamando le attività di TDM al proprio controllo esclusivo.

Tuttavia, la portata liberalizzatrice del meccanismo di opt out concesso dall’art. 70-quater dipende dalle modalità con cui viene effettuata la riserva da parte del titolare dei diritti. È lo stesso articolo 4, comma 3, della Direttiva Copyright a prevedere che la riserva venga espressa “in modo appropriato, ad esempio attraverso strumenti che consentano una lettura automatizzata in caso di contenuti resi pubblicamente disponibili online“. Tale previsione sembra dunque richiedere che la dichiarazione di riserva sia leggibile in modo automatizzato quando l’opera cui si riferisce è messa a disposizione del pubblico in Internet. Gli effetti dell’opt out possono in realtà derivare anche dall’inserimento di un’apposita clausola in un contratto, assunto peraltro confermato dalla stessa Direttiva Copyright, che non include l’art. 4 tra le norme inderogabili.

Inoltre, la qualificazione della dichiarazione di riserva è indipendente da qualsiasi valutazione relativa all’eventuale presenza di meccanismi informatici atti a impedire l’estrazione dei dati. Tale interpretazione si fonda sulla funzione meramente informativa della riserva. Così, sarà sufficiente includere la riserva nelle R&D del sito web, anche se privo di misure di protezione.

Pertanto, la riserva

  • potrà essere una dichiarazione “digitale” priva di meccanismi di protezione informatica, come ad esempio i protocolli di esclusione contenuti nei file robots.txt; oppure
  • potrà essere realizzata attraverso l’apposizione di un sistema di digital rights management che oltre ad avere una funzione di protezione informatica, incorpora anche una dichiarazione informatica automaticamente rilevabile; e
  • non potrà invece consistere nella mera apposizione di misure tecniche di protezione che non includano alcuna dichiarazione, e che pertanto risultano essere mere manifestazioni tacite di volontà. Così, l’apposizione di misure tecniche non ha l’effetto di rendere di per sé illecita qualsiasi attività di TDM, ma rende comunque vietate le estrazioni incompatibili con la misura tecnica adottata, poiché l’art. 174-ter vieta di aggirare le misure tecnologiche di protezione.

Un ulteriore aspetto problematico concerne la conservazione delle copie dopo che il data mining si è concluso. Rispetto a ciò, il comma 2 dell’art. 70-quarter prevede che le riproduzioni e le estrazioni “possono essere conservate per il tempo necessario ai fini dell’estrazione di testo e di dati”, ciò perché la funzionalità di una copia all’estrazione di testo o di dati cessa nel momento in cui essa è compiuta. Pertanto, non è consentito che l’intelligenza artificiale conservi le copie per fini ulteriori rispetto a quello dell’eccezione copyright TDM, come ad esempio per verificare e dimostrare i risultati raggiunti. Vi è però parte della dottrina che sostiene che le riproduzioni per data mining possono essere conservate anche per il tempo necessario ad addestrare i sistemi di intelligenza artificiale. Rispetto a ciò, in realtà occorrerebbe verificare caso per caso se l’addestramento dell’AI costituisce un’estrazione di testo e di dati o se, invece, costituisce un’attività ad essa successiva. Solamente nel primo caso le copie potrebbero essere conservate anche durante la fase dell’addestramento dell’intelligenza artificiale.

L’art. 70-quater, tuttavia, omette di disciplinare le riproduzioni ed eventuali ulteriori utilizzazioni necessarie per l’uso del testo e dei dati estratti a seguito della loro analisi computazionale, ovvero l’uso che i sistemi di AI potrebbero potenzialmente farne. Sul punto, parte della dottrina ha osservato che l’utilizzo del risultato del data mining potrebbe essere condizionato all’autorizzazione del titolare dei diritti sui contenuti analizzati. Quando con il data mining viene estratta soltanto la forma o una sua porzione, occorre verificare se i frammenti estratti e riutilizzati costituiscono porzioni autonomamente creative e pertanto protette. Rispetto a tale questione, vi è chi ritiene che l’uso di frammenti creativi non interferisca col diritto d’autore quando il loro significato originario impresso dall’autore non risulta più comprensibile, ad esempio perché nel nuovo contesto tali frammenti risultano irriconoscibili.

Pertanto, gli sviluppatori che intendano utilizzare opere protette dal copyright per addestrare un sistema di intelligenza artificiale generativa dovranno seguire tre passaggi:

  • ottenere un accesso legittimo ai dati;
  • verificare che i titolari dei diritti non si siano riservati il diritto di effettuare le riproduzioni a fini del TDM;
  • conservare le copie effettuate solo per il tempo necessario ai fini del TDM.

È evidente che per comprendere le concrete modalità di applicazione di tali requisiti occorrerà tenere d’occhio la futura giurisprudenza.

Su di un simile argomento, il seguente articolo può essere di interesse “Come sfruttare il potenziale dell’intelligenza artificiale (AI) generativa gestendo le problematiche legali”.

Autrici: Carolina Battistella ed Elena Varese.

(Visited 1.077 times, 3 visits today)
Close Search Window