7 Settembre 2023• byChiara Fiore
Nel panorama sempre più complesso della protezione dei dati personali, prosegue con determinazione la lotta dei Garanti privacy contro il fenomeno del web scraping illegale. Negli ultimi giorni, alcuni Garanti da tutto il mondo hanno reso pubblica una lettera aperta rivolta in particolare alle piattaforme social, evidenziando i rischi che questa pratica comporta in tema di privacy. In Italia, il Garante per la Protezione dei Dati Personali ha recentemente emesso un provvedimento sanzionatorio significativo in materia.
Il termine web scraping (o web harvesting) fa riferimento alla pratica di ricerca ed estrazione di dati dal web, con l’obiettivo di organizzarli in formati facilmente utilizzabile. Il web scraping viene comunemente realizzato in maniera automatizzata, tramite l’impiego di bot o script che navigando attraverso le pagine web, recuperano i dati di interesse organizzandoli in tabelle o banche dati.
Questa pratica ha guadagnato una grande popolarità negli ultimi anni: costituisce infatti una risorsa essenziale per raccogliere e catalogare grandi quantità di informazioni.
In ambito aziendale, il web scraping si dimostra particolarmente utile nel rilevare tendenze emergenti all’interno del mercato. La raccolta di dati riguardanti nuovi prodotti, servizi o trend consente alle aziende di adattare le loro strategie in modo tempestivo, sfruttando al meglio le opportunità che si presentano e orientando le scelte di business. Nel campo dei media e del giornalismo, questa pratica è impiegata per raccogliere e monitorare notizie da diverse fonti. Questo consente agli analisti dei media di rilevare news ed eventi in tempo reale, contribuendo a una copertura informativa più accurata e tempestiva. Infine, in ambito accademico la raccolta di dati da fonti online è ormai essenziale per orientare molte ricerche scientifiche.
Sebbene il web scraping non sia vietato per legge e, anzi, rappresenti una risorsa di notevole rilevanza, l’attenzione si sposta sui rischi emergenti quando questa pratica coinvolge dati personali degli utenti, con conseguenti implicazioni per la privacy e la sicurezza. Particolare rilevanza ha il tema nel caso dei social media che costituiscono uno dei principali serbatoi di dati personali, dati che gli utenti condividono volontariamente. Nonostante le piattaforme di social networking stabiliscano spesso nei loro Termini e Condizioni il divieto di attività di web scraping, ciò non impedisce del tutto comportamenti abusivi e illeciti.
I rischi del web scraping: la lettera aperta dei Garanti
Il 24 agosto scorso, le Autorità garanti per la protezione dei dati hanno unito le loro voci in una lettera aperta indirizzata in particolare ai principali social network. La comunicazione affronta in modo diretto i rischi per la privacy derivanti dal “rastrellamento” dei dati all’interno dei social media e di altri siti web accessibili pubblicamente. Le autorità hanno sottolineato un concetto chiave: nonostante le informazioni personali siano considerate “pubblicamente disponibili”, “pubblicamente accessibili” o “di natura pubblica” su Internet, esse restano comunque soggette alle leggi vigenti in materia di protezione dei dati, indipendentemente dalla scelta degli utenti di renderle accessibili al pubblico.
Nella lettera, i Garanti hanno spiegato che l’utilizzo di questa pratica espone gli utenti a numerosi pericoli, tra questi i principali sono:
- Attacchi informatici mirati: ad esempio, le informazioni di identità e di contatto possono essere pubblicate sui “forum di hacking” o utilizzate da malintenzionati in attività di social engineering targhettizzato o di phishing;
- Furto d’identità: i dati raccolti possono essere utilizzati per presentare richieste fraudolente di prestiti o carte di credito o per impersonare una persona creando falsi account sui social media;
- Monitoraggio, profilazione e sorveglianza: i dati possono essere utilizzati per alimentare database di riconoscimento facciale e fornire accesso non autorizzato a servizi delle autorità;
- Scopi politici o di raccolta di informazioni non autorizzati: i dati possono essere utilizzati da governi stranieri o agenzie di intelligence per scopi non autorizzati;
- Marketing diretto o spam indesiderato: i dati possono includere informazioni di contatto che possono essere utilizzati per attività di marketing indesiderate.
In una prospettiva più ampia, il controllo sulle proprie informazioni personali sfugge agli individui quando queste vengono catturate a loro insaputa. Rimane sempre in generale il rischio che tali dati vengano aggregati e/o combinati con altre informazioni personali e utilizzarli per scopi inaspettati. Questo processo potrebbe minare la fiducia degli individui nei confronti dei social media e di altre piattaforme web, generando potenzialmente effetti negativi nell’ambito dell’economia digitale.
La lettera aperta in questione richiama all’azione, evidenziando la necessità di interventi concreti. In tale contesto, spetta alle piattaforme social e ad altri siti web assicurare la tutela delle informazioni personali dalle attività di data scraping non autorizzato. Considerando l’evoluzione costante delle tecniche di estrazione di valore da dati accessibili al pubblico, la sicurezza dei dati diviene una responsabilità dinamica che richiede continua vigilanza. I Garanti hanno infine esortato le piattaforme web ad incrementare i controlli tecnici e ad adottare procedure multi-livello per mitigare i rischi legati a questa pratica.
Il recente Provvedimento del Garante Privacy italiano
Con Provvedimento del 17 maggio 2023, l’Autorità Garante per la Protezione dei Dati Personali ha sanzionato il titolare di un sito web che rendeva disponibile un database di numeri telefonici e indirizzi di oltre 26 milioni di utenti ottenuti “rastrellando” il web.
Il Garante si è attivato a seguito della segnalazione di numerosi utenti che lamentavano la pubblicazione non autorizzata dei loro dati personali online. In alcuni casi la pubblicazione avrebbe riguardato anche dati personali di soggetti che avevano particolari esigenze di riservatezza per motivi connessi all’attività lavorativa svolta, la cui diffusione dei recapiti personali avrebbe costituito un importante fattore di rischio per l’incolumità dei soggetti in questione e delle loro famiglie.
Dalle indagini del Garante è emerso che parte dei dati contenuti nell’archivio del sito erano estrapolati da uno spider che effettuava quotidianamente la scansione di migliaia di siti web.
Come ha ribadito il Garante, in questa occasione, la raccolta di dati personali liberamente disponibili in Internet mediante tecniche di web scraping costituisce un trattamento di dati personali: alla luce delle norme in tema di protezione dei dati europee, tale attività deve trovare legittimazione in una delle basi giuridiche previste dall’art. 6 GDPR. La costituzione di elenchi telefonici, tra l’altro, è consentita in Italia solo se questi sono estratti dal Data Base Unico che contiene i numeri telefonici e i dati identificativi dei clienti di tutti gli operatori nazionali di telefonia fissa e mobile.
Nel caso di specie, i dati personali erano stati acquisiti e trattati senza alcun consenso degli interessati e senza che fosse invocabile alcuna altra base giuridica. Per questa e per altre irregolarità riscontrate, il Garante ha condannato il proprietario del sito per illecito trattamento dei dati personali, comminandogli una sanzione pari a 60.000 euro.
L’Autorità Garante ha più volte avuto modo di affrontare il tema del web scraping illegale in passato. In un importante caso risalente a febbraio 2022, la società Clearview AI è stata condannata al pagamento di 20 milioni di euro. Tra le violazioni contestate figurava anche il web scraping.
In conclusione, sebbene il web scraping abbia il potenziale per offrire vantaggi significativi in diversi contesti, l’estrazione di dati personali dai social media presenta rischi notevoli per la privacy, la sicurezza e la legalità. È fondamentale che gli sviluppatori, le aziende e gli individui esaminino attentamente le implicazioni etiche e legali prima di intraprendere attività di web scraping soprattutto quando queste riguardano dati personali.
Sull’argomento può essere di interesse il seguente articolo: “Il Garante sanziona Clearview AI per 20milioni per monitoraggio biometrico”.