Google lavora a uno standard ufficiale per il file robots.txt

Alle celebrazioni per il compleanno speciale del file robots.txt, rilasciato ufficialmente il 30 giugno del 1994, si è aggiunto Google, che attraverso una serie di pubblicazioni sul Webmasters Official Blog annuncia alcuni “regali” in arrivo per gli utenti e per i siti.

Uno standard ufficiale per il file robots.txt

La notizia principale riguarda l’impegno che il team del motore di ricerca più usato al mondo si è imposto: provare a creare uno standard Internet ufficiale e condiviso per le regole incluse nel file robots.txt, che finora non hanno avuto una struttura definita in modo formale e univoco.

La storia del file robots.txt

È il 1994 e i crawler stanno sovraccaricando i server con le loro richieste: per aiutare i webmaster, Martijn Koster (webmaster lui stesso) propone un protocollo per controllare gli url del sito a cui consentire l’accesso ai crawler. Il protocollo è molto semplice ed efficace: specificando un user-agent e le regole relative, i webmaster hanno un controllo granulare sulle aree accessibili ai crawler, non imposta se si tratti di singoli Url, di un file di tipo specifico o di un intero sito.

Incertezza per l’assenza di regole univoche

In questo quarto di secolo, il REP – Robots Exclusion Protocol – non ha mai adottato uno standard ufficiale ed è stato adottato dai motori di ricerca in maniera varia, lasciando agli sviluppatori libera interpretazione delle norme. Inoltre, non è stato realmente aggiornato per coprire tutti gli usi odierni, e ad esempio non è chiaro se un errore con status code HTTP 500 significhi che il crawler può scansionare tutto o nulla, come si legge nel tweet dell’account Google Webmasters.

Incertezza per l'errore 500

Una situazione che provoca errori

Per cercare di risolvere questi problemi e offrire una procedura più lineare a webmaster, web developer, proprietari di siti, SEO (e per semplificare le operazioni di scansione di Googlebot e altri spider!), il team di Google si è messo al lavoro con Martijn Koster, il papà del Robots Exclusion Protocol, con webmasters e altri motori di ricerca per realizzare lo standard ufficiale del file robots.txt.

Nei 25 anni di attività il robots.txt è stato largamente adottato, al punto che si stima che oltre mezzo miliardi di siti lo usano: le linee di comando più usate sono user-agent, disallow, and allow, ma da Google raccontano che hanno trovato regole che consentono a Googlebot di “imparare emozioni” o di “assimilare The Pickled Pixie” (in inglese, “Learn Emotion” e “Assimilate The Pickled Pixie”).