Dati sintetici: una reale garanzia per la privacy?

Le ricerche dimostrano un crescente uso dei dati sintetici anche nelle c.d. reti neurali che fanno sorgere però delle problematiche privacy.

E’ necessario verificare che i dati sintetici, generati sulla base di un dataset contenente dati personali, siano impiegati adeguati strumenti al fine di garantire una completa protezione dei dati personali per tutelare gli interessati in conformità con la normativa privacy.

I dati sintetici sono dati creati “artificialmente” da sistemi di intelligenza artificiale, imitando il “mondo reale”. Alcune società di settore sostengono che questo sarà l’anno dei c.d. dati sintetici; a confermarlo è una recente stima secondo la quale, nel giro di poco tempo, una sostanziale parte dei dati impiegati soprattutto per lo sviluppo di software di intelligenza artificiale saranno generati in laboratorio e, dunque, per via sintetica. Più specificatamente, si intende la creazione ex novo di dati basata sulle inferenze statistiche riferite a un dataset esistente.

L’alternativa ai dati reali, sebbene artificiale, risulta persino migliore per lo sviluppo di reti neurali e l’allenamento dei rispettivi modelli che, grazie alla diversità dei dati impiegati, risulteranno più accurati. I pionieri del settore aggiungono che una simile privacy preserving technique presenta, inoltre, un non indifferente vantaggio sotto l’aspetto economico. In tal senso, è considerevolmente più conveniente generare dati sintetici piuttosto che acquistare quelli reali. Sebbene il limite sia sempre quello di dover preferire la qualità alla quantità, la medesima metodologia di cui si sta discutendo è impiegata per la generazione e, quindi, la selezione di un dataset che ottimizzi la prestazione di un modello. Sul punto, si rammenti che anche solo una piccola quantità di dati, che sia il più realistica possibile e qualificata nel modo corretto, può esponenzialmente incrementare le prestazioni di un’intelligenza artificiale rispetto all’addestramento basato su un maggior numero di dati scorretti.

Un ulteriore vantaggio risiede sotto l’aspetto della protezione dei dati dal momento che, in linea generale, la metodologia che qui si discute appartiene a una di quelle tecniche atte a preservare la privacy degli interessati. Da qui, è doveroso premettere che la normativa in vigore può rendere talvolta difficile trattare i dati per lo sviluppo di software IA; dunque, se le neo-informazioni sono considerate “sicure”, pertanto non riferibili a dati reali, resta da chiedersi se ci possa essere una effettiva correlazione tra il dato reale e quello sintetico. In altre parole, nessuno vorrebbe trovarsi nella situazione di poter inferire il dato personale partendo da quello artificiale poiché estremamente simile al primo; infatti, come già accennato, il dato sintetico deve rispecchiare il più possibile la realtà affinchè il programma possa raggiungere un grado di accuratezza in linea con gli standard di mercato.

Concludendo, se i dati sintetici vengono generati sulla base di un dataset contenente dati personali o particolari raccolti in forza di una valida base giuridica, conformemente alla normativa, allora il problema potrebbe non essere rilevante. Altrimenti, impiegare tale tecnica come strumento che rappresenta una completa protezione dei dati personali o particolari, comporterà l’esigenza di capire se, in concreto, la combinazione di questa e ulteriori privacy preserving techniques riuscirà a garantire una maggiore tutela degli interessati.

Su di un simile argomento, potrebbe interessarti “Le criticità legali dell’intelligenza artificiale e cosa deve cambiare“.