Pochi giorni fa abbiamo parlato delle attenzioni che Google sta dedicando al file robots.txt e all’impegno per uno standard condiviso, anticipando anche che la compagnia stava modificando le regole non supportate da Googlebot come crawl-delay, nofollow e noindex. Vediamo più nel dettaglio quali sono le nuove specifiche previste per il crawler di Google.
Il documento ufficiale di Google
Il riferimento è un documento ufficiale della compagnia di Mountain View, chiamato proprio “Specifiche relative al file robots.txt”, che contiene l’elenco dettagliato di tutte le procedure corrette che gli sviluppatori devono seguire nella realizzazione di un file valido e senza errori.
Googlebot e file robots.txt, cosa cambia
Come già dicevamo nel precedente articolo, i cambiamenti più grandi e interessanti sono 5, riassunti da un tweet della Googler Lizzy Harvey:
-
- Googlebot segue fino a 5 redirect.
- Non ci sono restrizioni di crawling se non è disponibile da più di 30 giorni.
- Google considera le richieste non riuscite o i dati incompleti come un errore del server.
- Limite di 500 KiB: se si supera, il contenuto del file viene ignorato.
- Supporto di tutti i protocolli basati su URI.
I chiarimenti sulle regole per Googlebot
Nello specifico, Google ufficializza che il suo bot segue fino a cinque passaggi di reindirizzamento e se non viene trovato alcun file robots.txt, Google lo considera come un 404 per il file robots.txt. La gestione dei reindirizzamenti logici per il file robots.txt basato sul contenuto HTML che restituisce 2xx (frame, JavaScript o redirect di tipo meta-refresh) è scoraggiata e il contenuto della prima pagina viene utilizzato per trovare le regole applicabili.