Dati sintetici : cosa sono e quali conseguenze sulla privacy

8 Aprile 2022• byDLA Piper

Le ricerche dimostrano un crescente uso dei dati sintetici anche nelle c.d. reti neurali che fanno sorgere però delle problematiche privacy.

E’ necessario verificare che i dati sintetici, generati sulla base di un dataset contenente dati personali, siano impiegati adeguati strumenti al fine di garantire una completa protezione dei dati personali per tutelare gli interessati in conformità con la normativa privacy.

I dati sintetici sono dati creati “artificialmente” da sistemi di intelligenza artificiale, imitando il “mondo reale”. Alcune società di settore sostengono che questo sarà l’anno dei c.d. dati sintetici; a confermarlo è una recente stima secondo la quale, nel giro di poco tempo, una sostanziale parte dei dati impiegati soprattutto per lo sviluppo di software di intelligenza artificiale saranno generati in laboratorio e, dunque, per via sintetica. Più specificatamente, si intende la creazione ex novo di dati basata sulle inferenze statistiche riferite a un dataset esistente.

L’alternativa ai dati reali, sebbene artificiale, risulta persino migliore per lo sviluppo di reti neurali e l’allenamento dei rispettivi modelli che, grazie alla diversità dei dati impiegati, risulteranno più accurati. I pionieri del settore aggiungono che una simile privacy preserving technique presenta, inoltre, un non indifferente vantaggio sotto l’aspetto economico. In tal senso, è considerevolmente più conveniente generare dati sintetici piuttosto che acquistare quelli reali. Sebbene il limite sia sempre quello di dover preferire la qualità alla quantità, la medesima metodologia di cui si sta discutendo è impiegata per la generazione e, quindi, la selezione di un dataset che ottimizzi la prestazione di un modello. Sul punto, si rammenti che anche solo una piccola quantità di dati, che sia il più realistica possibile e qualificata nel modo corretto, può esponenzialmente incrementare le prestazioni di un’intelligenza artificiale rispetto all’addestramento basato su un maggior numero di dati scorretti.

Un ulteriore vantaggio risiede sotto l’aspetto della protezione dei dati dal momento che, in linea generale, la metodologia che qui si discute appartiene a una di quelle tecniche atte a preservare la privacy degli interessati. Da qui, è doveroso premettere che la normativa in vigore può rendere talvolta difficile trattare i dati per lo sviluppo di software IA; dunque, se le neo-informazioni sono considerate “sicure”, pertanto non riferibili a dati reali, resta da chiedersi se ci possa essere una effettiva correlazione tra il dato reale e quello sintetico. In altre parole, nessuno vorrebbe trovarsi nella situazione di poter inferire il dato personale partendo da quello artificiale poiché estremamente simile al primo; infatti, come già accennato, il dato sintetico deve rispecchiare il più possibile la realtà affinchè il programma possa raggiungere un grado di accuratezza in linea con gli standard di mercato.

Concludendo, se i dati sintetici vengono generati sulla base di un dataset contenente dati personali o particolari raccolti in forza di una valida base giuridica, conformemente alla normativa, allora il problema potrebbe non essere rilevante. Altrimenti, impiegare tale tecnica come strumento che rappresenta una completa protezione dei dati personali o particolari, comporterà l’esigenza di capire se, in concreto, la combinazione di questa e ulteriori privacy preserving techniques riuscirà a garantire una maggiore tutela degli interessati.

Su di un simile argomento, potrebbe interessarti “Le criticità legali dell’intelligenza artificiale e cosa deve cambiare“.

(Visited 205 times, 1 visits today)

About the Author: DLA Piper

I riferimenti dello Studio Legale DLA Piper sono disponibili qui https://www.dlapiper.com/it/italy/

La definizione di dato personale rimane invariata: impatto del Digital Omnibus sull’addestramento dell’IA

La definizione di dato personale rimane invariata nel quadro del Digital Omnibus. Cosa significa questo per...

Indagine di EIOPA su GenAI e assicurazioni: a che punto siamo?

Il 2 febbraio 2026 EIOPA ha pubblicato la sua indagine a livello UE sull’adozione dell’Intelligenza...

La Corte di giustizia dell’Unione europea chiarisce l’impugnabilità delle decisioni vincolanti dell’EDPB ai sensi del GDPR

La sentenza pronunciata dalla Corte di giustizia dell’Unione europea (“CGUE”) il 10 febbraio 2026 nella...

Previous: Infografica – Quali regole sulla pubblicità dei dispositivi medici, cosa FARE e cosa NON FARE in Italia

Next: 5 punti rilevanti sul trasferimento dei dati emersi dal Privacy Symposium

Dati sintetici: una reale garanzia per la privacy?

About the Author: DLA Piper

Related Posts

Indagine di EIOPA su GenAI e assicurazioni: a che punto siamo?

Popular This Week

Daily Popular