WEBSCRAPING? Come difendersi da “estrazioni” indesiderate!

Il webscraping prevede l’estrazione e l’archiviazione di informazioni e dati raccolti dalle pagine web. Esistono diverse tecniche di scraping, ma in via generale, si parla di scraping automatico e di scraping manuale (ad es. il c.d. copia-incolla).

Rarissimamente viene utilizzato lo scraping manuale per l’estrapolazione e la memorizzazione di quantitativi elevati di dati ed informazioni.

Lo scraping automatico ricerca pagine web per estrarre informazioni e dati attraverso software o algoritmi, queste tecniche possono dissimulare la navigazione di un utente raccogliendo i dati presenti nei siti web ed archiviandoli.

Poiché tali attività potrebbero comportare un trattamento illecito di dati, in data 18 gennaio 2024, è stato pubblicato in Gazzetta Ufficiale un avviso di indagine conoscitiva da parte dell’Autorità Garante dei Dati Personali, in materia di webscraping, il cui obiettivo era quello di acquisire osservazioni ed eventuali proposte operative inerenti le misure che i gestori dei siti web e di piattaforme on-line (sia pubbliche che private), avrebbero potuto adottare per impedire la raccolta massiva (webscraping) di dati personali da parte di società che si occupano dello sviluppo di intelligenza artificiale generativa. Queste società, infatti, utilizzano i dati raccolti sul web per l’addestramento delle IAG (intelligenze artificiali generative).

A conclusione della suddetta indagine il Garante, con provvedimento n. 329 del 20 maggio 2024, ha fornito apposite indicazioni per tutelare dal webscraping i dati personali pubblicati online da soggetti pubblici e privati e che si configurano titolari del trattamento.

Trattasi di indicazioni la cui attuazione non è obbligatoria da parte di tutti i titolari del trattamento ed il cui scopo è quello di sottrarre i dati personali ai bot di terze parti, mediante una serie di misure di contrasto quali:

  • Creazione di aree riservate
  • Inserimento di clausole ad hoc nei termini di servizio
  • Monitoraggio del traffico di rete
  • Intervento sui bot (trattasi di programmi automatici che eseguono compiti ripetitivi in rete)
  • L’incorporazione dei dati all’interno di oggetti multimediali
  • Il monitoraggio dei file di log (nel caso concreto trattasi di un registro che documenta azioni ed operazioni che si verificano all’interno del sito o della piattaforma online) al fine di bloccare eventuali user-agent non desiderati (qualora siano identificabili)

 

Come affermato dal Garante le misure indicate non possono compiutamente impedire la raccolta di dati ed informazioni attraverso il webscraping, ma risultano comunque utili per ridurre i rischi associati a tale attività.

Share Button