by

Il Garante per la protezione dei dati personali ha recentemente pubblicato una nota informativa con indicazioni dettagliate su come difendere i dati personali pubblicati online da soggetti pubblici e privati dal web scraping nell’ambito del training dei sistemi di intelligenza artificiale (“AI”).

Si tratta di indicazioni di natura orientativa e non obbligatoria, che possono rappresentare un utile benchmark per i titolari del trattamento che desiderano proteggere meglio le informazioni personali pubblicate online. Il documento riflette i contributi ottenuti dall’Autorità durante un’indagine conoscitiva iniziata lo scorso dicembre e contiene indicazioni preliminari in attesa che il Garante si pronunci su varie istruttorie in corso rispetto a sistemi di AI.

Definizione di Web Scraping e identificazione del fenomeno

Il Garante per la protezione dei dati ha definito il web scraping come l’attività di raccolta massiva e indiscriminata di dati, inclusi quelli personali, mediante tecniche di web crawling. Questa pratica implica non solo la raccolta, ma anche la memorizzazione e la conservazione dei dati raccolti dai bot, per utilizzi successivi, come l’addestramento di sistemi di intelligenza artificiale generativa. Il documento rilasciato dal Garante fornisce un’analisi dettagliata del fenomeno, evidenziando che una quota significativa del traffico Internet è generata da bot e che i dati raccolti sono spesso utilizzati per addestrare modelli di AI.

Le misure suggerite dal Garante

Per contrastare questo fenomeno, il Garante ha suggerito diverse misure:

  • Creazione di Aree Riservate: limitando l’accesso ai dati solo agli utenti registrati, si riduce la disponibilità pubblica dei dati e il rischio di scraping, nel rispetto del principio di minimizzazione del GDPR, evitando la duplicazione non necessaria dei dati.
  • Clausole nei Termini di Servizio: includere un divieto esplicito di utilizzo delle tecniche di scraping nei Termini di Servizio può servire da deterrente legale, consentendo azioni giudiziarie in caso di violazioni.
  • Monitoraggio del Traffico di Rete: analizzare le richieste HTTP per identificare flussi di dati anomali e implementare contromisure come il Rate Limiting può prevenire accessi non autorizzati.
  • Interventi sui Bot: l’uso di CAPTCHA e l’aggiornamento periodico del markup HTML possono ostacolare l’attività dei bot, così come l’incorporazione dei dati in oggetti multimediali complica la loro estrazione.
  • Utilizzo del file robots.txt: sebbene basato sul rispetto volontario da parte dei bot, questo file può indicare di non indicizzare o raccogliere certi dati.

Tuttavia, è fondamentale riconoscere che nessuna di queste misure può garantire una protezione completa contro il web scraping. Pertanto, devono essere considerate come strumenti precauzionali che i titolari del trattamento devono valutare e adottare in base al principio di accountability, per prevenire utilizzi non autorizzati di dati personali da parte di terzi.

Precedenti e cosa aspettarsi in futuro

Non è la prima volta che un’autorità per la protezione dei dati prende una posizione con riferimento al web scraping. Il 1° maggio 2024, l’Autorità olandese per la protezione dei dati ha pubblicato linee guida simili, chiarendo che il data scraping comprende non solo la raccolta automatizzata di informazioni dalle pagine web, ma anche la raccolta di domande e lamentele dei clienti, o il monitoraggio dei messaggi online per la gestione della reputazione. L’autorità olandese sottolinea la necessità di conformare questa pratica al GDPR, provvedendo a verificare volta per volta di avere una adeguata base giuridica per il trattamento di ciascuna categoria di dati personali oggetto di scraping.

L’intelligenza artificiale generativa offre enormi benefici, ma l’addestramento di questi sistemi richiede un’enorme quantità di dati, spesso raccolti tramite web scraping. È cruciale che i gestori di siti web adottino misure appropriate per proteggere i dati personali, equilibrando la necessità di innovazione con la tutela della privacy degli individui.

Sebbene l’implementazione di misure come il captcha sia raccomandata per difendere i dati personali sulle piattaforme online, è importante riconoscere che tali soluzioni potrebbero non essere sempre efficaci. I moderni bot di intelligenza artificiale, per esempio, sono ora capaci di superare facilmente i sistemi captcha, evidenziando la necessità di adottare strategie di sicurezza più sofisticate e multilivello.

Di fronte a queste sfide, è essenziale che le aziende non si affidino unicamente su soluzioni standardizzate come il captcha, ma esplorino approcci più avanzati e personalizzati per la protezione dei dati. Questo può includere l’uso combinato di analisi comportamentale della navigazione, autenticazione a più fattori e monitoraggio continuo delle attività sospette, per creare un ambiente più sicuro e resistente agli attacchi più sofisticati.

La nota qui in esame tiene in considerazione le risultanze dell’indagine avviata dal Garante a fine novembre, per saperne di più puoi leggere l’articolo “Indagine del Garante privacy sull’uso del web scraping per l’addestramento dei sistemi di Intelligenza Artificiale

(Visited 69 times, 1 visits today)
Close Search Window