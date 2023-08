Se una volta Internet era continuamente analizzato principalmente dai crawler dei motori di ricerca, il più famoso dei quali è GoogleBot (ecco come segnalare un sito per aumentare il traffico), l'avvento dei modelli di intelligenza artificiale come ChatGPT ha segnato l'arrivo di un nuovo tipo di bot.

Sempre più affamati di conoscenza e dati per il proprio allenamento, questi strumenti hanno scandagliato (e scandagliano tutt'ora, grazie alla capacità di connessione) il web in lungo e in largo, senza possibilità di porre un argine al fenomeno, ma ora OpenAI ha pubblicato una guida su come evitarlo, almeno per GPTBot.

Il problema

Ma perché potreste non volere che il vostro sito non venga utilizzato dai modelli? OpenAI afferma infatti che la scansione delle pagine web tramite GPTBot possono potenzialmente "essere utilizzate per migliorare i modelli futuri e vengono filtrate per rimuovere le fonti che richiedono l'accesso al paywall, raccolgono informazioni di identificazione personale (PII) o contengono testi che violano le [loro] politiche", e "consentire a GPTBot di accedere al [vostro] sito può aiutare i modelli di intelligenza artificiale a diventare più accurati e migliorare le loro capacità generali e la loro sicurezza".

C'è però un problema. I bot assimilano i dati dei siti gratuitamente e li riutilizzano per produrre contenuti a pagamento, senza rendere conto dei diritti d'autore o altro. ChatGPT o Bard apprendono da post di social media come da opere protette da copyright indiscriminatamente, e intasano i server di aziende come Reddit e Twitter con le loro chiamate, tanto che queste aziende alla fine hanno deciso, per avere la loro fetta di torta, di limitare l'accesso alle API e così tagliando fuori i client di terze parti.

I modelli di intelligenza artificiale assimilano i contenuti di opere e le riproducono, senza chiedere il permesso a nessuno. Per questo motivo, l'anno scorso il sito DevianArt ha concepito il tag "noai", per indicare la volontà degli artisti di non includere la loro opera nell'addestramento del modello proprietario del sito.

La soluzione

Ora, anche OpenAI offre la possibilità di non far scandagliare il vostro sito da GPTBot. Il funzionamento è molto simile al sistema che usereste per non far indicizzare il sito da un motore di ricerca.

Potete infatti inserire nel file robots.txt del sito le seguenti stringhe:

User-agent: GPTBot

Disallow: /

O in alternativa limitare l'accesso a certe parti del sito inserendo, sempre nel file robots.txt, i seguenti contenuti (da personalizzare):

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

In alternativa, potete bloccare il blocco di indirizzi IP di OpenAI che trovate qui.

Tenete presente che questo non rimuoverà i dati del vostro sito già utilizzati, ma bloccherà le analisi da ora in avanti. Certo è solo l'inizio, ma è un passo nella giusta direzione, anche se c'è ancora molto lavoro da fare. Le società che sviluppano questi modelli, infatti, hanno promesso, addirittura alla Casa Bianca, che avrebbero lavorato per far sapere alla gente se un contenuto è stato generato dall'IA o meno (qualcosa che anche loro non riescono a scoprire), ma al momento non si sa a che punto siano i lavori.