by

È notizia recente che alcuni media francesi abbiano deciso di bloccare al tool di web crawling “GPTBot”, utilizzato da OpenAI per l’addestramento dei suoi Generative Pretrained Transformers (come ChatGPT), l’accesso ai propri siti web.

Con la maggiore diffusione dei sistemi di Intelligenza Artificiale ed il loro utilizzo in ambiti sempre diversi, la raccolta indiscriminata di dati viene infatti ad assumere un peso ben diverso per i giornali. Alcuni decidono di fermarne l’avanzata e altri invece di salire sul treno, in uno scenario globale che continua a complicarsi e dividersi.

Nel caso in questione OpenAI aveva da tempo affermato di utilizzare il GPTBot per alimentare l’addestramento delle prossime versioni, in particolare di GPT-5. Questa versione potrà dunque basarsi su una conoscenza molto più ampia. Il crawler è un software che legge tutti i contenuti di una pagina web o un database in maniera automatizzata ed effettua anche una copia di tutti i documenti presenti, ordinandoli secondo un indice per facilitarne il successivo utilizzo.

Sin dalla pubblicazione del noto sistema ChatGPT, OpenAI aveva rivelato che la maggior parte dei dati utilizzati per l’addestramento del modello provenisse da Internet, dichiarando al contempo una copertura temporale dei contenuti che si estendeva fino a settembre 2021. Le problematiche legate a questa raccolta dei dati per i GPT riguardano in primis la qualità dei dati raccolti e analizzati. La scarsa qualità dei dati è un fenomeno che si è incrementato con la diffusione e il maggior utilizzo dei Big Data e rappresenta da tempo un ostacolo per il sano sviluppo dei sistemi di AI. Ad esempio, i dati raccolti dalle piattaforme social hanno evidentemente una qualità inferiore rispetto ai dati raccolti dagli articoli pubblicati dai giornali, che risultano molto più curati e possiedono un valore e una qualità maggiore.

La raccolta indiscriminata di dati su Internet risulta essere una sfida importante anche per le autorità di sorveglianza e regolazione. Le autorità per la protezione dei dati hanno recentemente sollevato preoccupazioni sulla privacy riguardo al “rastrellamento” dei dati su social media e altri siti web pubblici. Le informazioni pubblicamente accessibili su Internet rimangono in ogni caso soggette alle leggi sulla protezione dei dati. Questo tipo di pratica espone gli utenti a rischi come attacchi informatici, furto d’identità, sorveglianza non autorizzata e marketing indesiderato. È importante per le piattaforme web adottare misure per proteggere le informazioni personali da queste raccolte di dati non autorizzate e garantire la sicurezza delle stesse.

Di fronte a questa raccolta indiscriminata di dati, i giornali come Radio France e TF1 hanno interrotto la disponibilità del proprio sito al web-crawler di ChatGPT e successivamente hanno proposto un accordo a OpenAI che garantisse loro un compenso. Anche altri media nel mondo come, ad esempio, il New York Times e la CNN hanno disabilitato GPTBot volendo proteggere ed evitare la violazione del copyright sui contenuti, ma soprattutto volendo escludere la possibilità che altre aziende, utilizzando i prodotti di OpenAI, potessero beneficiare del lavoro intellettuale svolto dai giornali.

Al contrario, si è invece posta la partnership che l’American Journalism Project, un importante ente filantropico statunitense che ha l’obiettivo di ricostruire e sostenere l’informazione locale. Tale ente ha stipulato un accordo con OpenAI per sperimentare i modi in cui l’AI può sostenere il settore dell’informazione. Lo scopo di tale partnership sarebbe migliorare le realtà giornalistiche locali, in quanto, con l’utilizzo dell’AI i giornali potrebbero espandere le loro capacità.

In conclusione, le sfide legate alla qualità dei dati e alla tutela del lavoro giornalistico sottolineano l’importanza di raggiungere accordi equi tra aziende e giornali per compensare adeguatamente le fonti originali per l’utilizzo dei loro contenuti nell’addestramento dei sistemi di AI. Al contempo i sistemi di AI possono rappresentare una risorsa molto importante per le realtà giornalistiche più piccole. Questo equilibrio tra accesso ai dati e tutela dei diritti rappresenta una sfida cruciale per lo sviluppo etico e sostenibile dell’intelligenza artificiale, in un contesto in rapida evoluzione.

Questo articolo parla di alcune prese di posizione di giornali e organizzazioni del settore nei confronti della raccolta indiscriminata di dati per l’addestramento dei sistemi di AI. Su un argomento simile è stato scritto un precedente articolo: “Il web scraping sotto la lente dei Garanti: esplorando il fenomeno tra opportunità e rischi per la privacy”:

(Visited 163 times, 1 visits today)
Close Search Window