by

Il Comitato Europeo per la Protezione dei Dati (EDPB) ha recentemente pubblicato un rapporto di un gruppo di esperti sull’esercizio dei diritti degli interessati nel contesto di algoritmi complessi basati sull’intelligenza artificiale (AI).

Più specificamente, il GDPR conferisce agli interessati diritti quali il diritto di rettifica, il diritto alla cancellazione e il diritto di opporsi alle decisioni automatizzate. Tuttavia, l’attuazione di questi diritti nei sistemi basati sull’AI presenta sfide significative a causa del modo in cui i modelli di intelligenza artificiale apprendono e memorizzano informazioni dai dati personali.

Sfide nell’applicazione dei diritti degli interessati

I modelli di AI, in particolare quelli basati sul deep learning, memorizzano i dati di addestramento in forma compressa. Ciò crea difficoltà nel garantire la conformità al diritto di rettifica e al diritto alla cancellazione. Le principali sfide includono:

  1. Comprensione limitata dell’impatto di ciascun dato sul modello: i modelli di AI funzionano come “scatole nere”, rendendo difficile determinare l’impatto specifico di singoli dati.
  2. Stocasticità dell’addestramento: il processo di addestramento è intrinsecamente casuale a causa del campionamento in batch, dell’ordine casuale dei dati e dell’elaborazione parallela, il che porta a variazioni nel modello finale.
  3. Processo di addestramento incrementale: negli ambienti di apprendimento federato, gli aggiornamenti dei dati influenzano gli aggiornamenti successivi, rendendo insufficiente la rimozione di un singolo dato per eliminare il suo effetto.
  4. Stocasticità dell’apprendimento: l’algoritmo di apprendimento è probabilistico, quindi può essere difficile correlare un dato specifico con il suo contributo all’apprendimento del modello.

Tecniche per la cancellazione e il disapprendimento dei dati

  1. Riaddestramento dei modelli da zero

Un approccio diretto per la cancellazione dei dati consiste nell’eliminare i dati personali, riaddestrare il modello senza di essi e sostituire la versione precedente con quella aggiornata. Sebbene efficace per modelli di piccole dimensioni, questo metodo è estremamente costoso dal punto di vista computazionale per i sistemi AI su larga scala, rendendolo impraticabile in caso di richieste frequenti di cancellazione.

  1. Metodi di disapprendimento esatto

Sono stati sviluppati diversi metodi di cd. “machine unlearning” per rimuovere dati specifici senza dover riaddestrare l’intero modello:

  • Disapprendimento agnostico al modello: questo metodo memorizza i gradienti del modello o modifica il processo di addestramento per facilitare il disapprendimento. Una tecnica diffusa è il metodo SISA (Sharded, Isolated, Sliced, and Aggregated), che suddivide i dati di addestramento in più parti per limitare l’influenza di ciascun dato su porzioni specifiche del modello.
  • Disapprendimento intrinseco al modello: alcune tecniche di disapprendimento sono progettate per modelli specifici, come alberi decisionali e foreste casuali, in cui modifiche mirate consentono una rimozione selettiva.
  • Disapprendimento specifico per applicazione: nei sistemi di raccomandazione, dove i dati sono altamente sparsi, possono essere utilizzate strutture dati efficienti per rimuovere informazioni personali senza riaddestrare completamente il modello.
  1. Tecniche di disapprendimento approssimato

Quando il disapprendimento esatto è troppo costoso, vengono adottati metodi approssimativi per ridurre l’influenza dei dati eliminati senza riaddestrare il modello:

    • Fine-tuning: il modello subisce un addestramento aggiuntivo limitato per ridurre l’impatto di dati specifici.
    • Disapprendimento basato sull’influenza: questo metodo stima l’influenza dei dati eliminati sul modello e aggiorna i parametri di conseguenza.
    • Classificazione errata intenzionale: invece di rimuovere i dati, il modello viene riaddestrato per classificarli erroneamente, rendendoli irriconoscibili.
    • Cancellazione dei parametri: memorizzando gli aggiornamenti storici dei parametri, il disapprendimento può essere ottenuto ripristinando specifici aggiornamenti.

Verifica e problematiche del disapprendimento automatico

Una delle sfide principali del disapprendimento è la verifica. Metriche come l’accuratezza del disapprendimento, l’accuratezza residua e gli attacchi di inferenza di appartenenza vengono utilizzate per valutare se un modello ha effettivamente dimenticato i dati. Tuttavia, il disapprendimento approssimato non offre garanzie forti e alcuni modelli possono produrre output quasi identici nonostante la rimozione di dati di addestramento.

Ulteriori preoccupazioni includono:

  • Rischi per la privacy: se gli attaccanti possono confrontare gli output del modello prima e dopo il disapprendimento, potrebbero dedurre quali dati sono stati rimossi.
  • Problemi di bias e equità: le richieste di cancellazione provengono più frequentemente da specifici gruppi demografici, il che potrebbe introdurre distorsioni nei modelli IA.

Affrontare la fuga di dati nei modelli generativi

I modelli di AI generativa, come i modelli linguistici di grandi dimensioni e i generatori di immagini, presentano rischi specifici poiché potrebbero involontariamente generare dati personali. Per mitigare questi rischi, sono state sviluppate diverse strategie:

  1. Fine-tuning del modello: regolazione dell’addestramento per impedire la generazione di dati o concetti specifici.
  2. Riduzione dei dati: utilizzo di tecniche di addestramento avversario per evitare che il modello apprenda determinate informazioni personali.
  3. Modifica dell’output: impiego di classificatori per filtrare e bloccare determinati output prima che vengano mostrati agli utenti.

Conclusione

Garantire l’esercizio effettivo dei diritti degli interessati nei sistemi di AI rimane una sfida complessa. Sebbene il riaddestramento da zero offra la soluzione più robusta, esso è impraticabile per modelli di grandi dimensioni. Le tecniche emergenti di disapprendimento, sia esatte che approssimate, forniscono alternative, ma necessitano di ulteriore sviluppo.

Man mano che l’AI continua ad evolversi, sarà fondamentale concentrarsi sulla privacy by design, incorporando meccanismi per la rettifica e la cancellazione dei dati sin dalle prime fasi di sviluppo. Inoltre, regolamentazioni più severe e misure di trasparenza possono contribuire a garantire che i sistemi di IA rispettino i diritti degli individui, bilanciando al contempo le sfide tecniche.

Su un argomento simile può essere d’interesse l’articolo: “Pubblicata la prima bozza del Codice di condotta per l’AI per finalità generali

(Visited 1 times, 1 visits today)
Close Search Window