by

Lo sfruttamento di enormi quantità di dati personali per l’addestramento dei sistemi di intelligenza artificiale genera numerose minacce per la privacy delle persone, è opinione di molti che l’utilizzo di dati sintetici potrebbe costituire una importante risorsa per proteggere la privacy degli individui.

I dati sintetici come strumento di minimizzazione

Come evidenziato dal Comitato Consultivo della Convenzione sulla Protezione delle Persone rispetto al Trattamento Automatizzato di Dati a Carattere Personale (Convenzione 108), un’innovazione responsabile nel settore dell’AI necessita di un approccio incentrato sulla prevenzione e attenuazione dei potenziali rischi del trattamento dei dati personali.

L’uso di dati sintetici può rappresentare una soluzione atta a minimizzare la quantità di dati personali trattati dalle applicazioni di intelligenza artificiale, evitare la riconducibilità delle informazioni ai soggetti a cui si riferiscono (garantendo l’irreversibilità della de-identificazione) e superare gli ostacoli all’evoluzione tecnologica posti dalla normativa sulla protezione dei dati personali.

I dati sintetici – così definiti perché ottenuti tramite un processo di sintetizzazione – sono informazioni fittizie, ricavate partendo da dati reali, grazie ad algoritmi di machine learning di tipo generativo. L’algoritmo è addestrato per riprodurre le caratteristiche e la struttura dei dati originali, consentendo in tal modo di ottenere risultati accurati in chiave statistica.

Il processo di sintetizzazione – che può essere attuato tramite diverse tecniche – prende le mosse da un dataset reale, che può includere informazioni di qualsiasi genere (comprese le immagini), per ottenere un insieme di dati artificiali che riflettono le caratteristiche del dataset originario. Questo processo permette di riprodurre le caratteristiche e la struttura delle informazioni di partenza, senza che sia necessario riprodurre o risalire agli elementi identificativi di quelli di partenza (i.e., rivelare alcun dato personale).

I dati sintetici permettono di superare i limiti dell’anonimizzazione

Queste caratteristiche rappresentano un importante progresso rispetto alla possibilità di sfruttare dati personali perché permettono di superare gli inconvenienti connessi all’utilizzo di dati anonimizzati. Come noto, la normativa sulla tutela dei dati personali non trova applicazione ai dati anonimizzati poiché non rientrano nella nozione di “dati personali”.

Tuttavia, perché possa parlarsi davvero di dati anonimizzati, è necessario che sia impossibile risalire all’identità dell’individuo a cui si riferiscono. Tale circostanza rappresenta un freno all’utilizzo delle informazioni, sia perché il progresso tecnologico ha reso molto difficoltoso garantire l’assoluta irreversibilità dei dati ottenuti, sia perché la sottrazione di ogni elemento identificativo per garantire la piena anonimizzazione comporta spesso la riduzione dell’utilità dei dati così ottenuti.

Simili problematiche possono superarsi proprio grazie al processo di sintetizzazione descritto.

Inoltre, il fatto che i dati sintetici – come i dati anonimi – non siano qualificabili come “dati personali”, rende inapplicabile al loro utilizzo la normativa sulla tutela di tali dati, che prevede molti ostacoli allo sfruttamento delle informazioni. L’AI Act equipara i dati sintetici e quelli anonimizzati quando, all’art. 54, disciplina le condizioni di utilizzo dei dati personali per lo sviluppo nello spazio di sperimentazione normativa per l’intelligenza artificiale.

Quanto precede spiega le ragioni per cui l’utilizzo di dati sintetici sia sempre più frequente nel settore dell’apprendimento automatico i cui algoritmi hanno bisogno di un’enorme quantità di dati per essere “addestrati”.

I rischi per la privacy derivanti dall’utilizzo di dati sintetici

Nessun rischio allora per la privacy? Purtroppo, non è così.

Sebbene abbiano natura artificiale, i dati sintetici vengono ottenuti partendo da informazioni reali, che devono dunque essere trattate nel rispetto della normativa sulla protezione dei dati personali.

In primo luogo, questo deve essere tenuto presente nella fase della raccolta delle informazioni da utilizzare nel processo di sintetizzazione. Il rispetto delle disposizioni normative a tutela dei dati personali deve essere assicurato quando si selezionano o si ottengono le informazioni che l’algoritmo dovrà sintetizzare. In particolare, è necessario garantire che gli individui siano debitamente informati delle finalità del trattamento dei rispettivi dati, abbiano la possibilità di mantenere un controllo sul loro utilizzo e tale utilizzo sia fondato su un’adeguata base giuridica.

Ciò è particolarmente importante se si considera che, a norma dell’art. 2-decies del Codice Privacy (D.lgs. n. 196/2003 ss.mm.), i dati personali trattati in violazione della disciplina sul trattamento dei dati personali non possono essere utilizzati.

Inoltre, occorre definire adeguati criteri per verificare che l’algoritmo di sintetizzazione non sia viziato da carenze nella rielaborazione del dataset originario, tali da permettere di risalire all’identità degli interessati.

È necessario che siano adottate le misure atte ad evitare la possibilità di risalire ai dati originari. Secondo l’EDPS, è necessario eseguire un “privacy assurance assessment” per valutare in che misura gli interessati potrebbero essere reidentificati e quali informazioni verrebbero rivelate su di loro in tal caso.

D’altra parte, dovrebbero essere adottate le cautele opportune per garantire un utilizzo trasparente dei dati sintetici, evitando il rischio di distorsioni potenzialmente molto dannose (si pensi di furto d’identità o alla tecnica del “deep fake”, che consente di creare contenuti multimediali sintetici che possono generare effetti distorsivi sull’opinione pubblica).

Infine, è necessario scongiurare il rischio di discriminazione che potrebbe derivare dall’uso di dati sintetici che non siano adeguatamente rappresentativi dei fenomeni cui si rivolgono. La qualità dei dati sintetici è strettamente correlata con quella delle informazioni originali e del modello di generazione dei dati. I dati sintetici possono riflettere i bias presenti nel dataset di partenza. Tale rischio è acuito dalla difficoltà di verificare gli output dell’algoritmo, soprattutto quando si ha a che fare con dataset particolarmente complessi.

Le riflessioni che precedono evidenziano come i dati sintetici – al pari di molte altre novità introdotte dall’AI – possano rappresentare uno strumento utilissimo, del cui impiego potrebbe beneficiare l’intera società. È però necessario che il loro utilizzo sia controllato e avvenga nel rispetto della normativa vigente, in particolare quella a tutela dei dati personali. Anche in quest’ottica, si auspica che l’AI Act fornisca risposte chiare e sia in grado di assicurare un uso responsabile della tecnologia in discussione.

Su un simile argomento, può essere interessante l’articolo: “I dati sintetici sui problemi IP e privacy dell’intelligenza artificiale“.

(Visited 65 times, 1 visits today)
Close Search Window