Torniamo un po’ alle basi della SEO grazie alla nuova pillola di #askGoogleWebmaster, la serie in cui John Mueller risponde a una domanda posta dalla community SEO. Nell’ultimo episodio si parla del file Robots.txt e, per la precisione, delle best practices per la gestione di alcune tipologie di file e di estensioni, come ad esempio .css e .htacess, e il Googler ci spiega qual è la strada giusta da intraprendere in questi casi. Ovvero, se sia meglio lasciare accesso a Googlebot o impedire la sua scansione di quelle pagine.

Usare il disallow per i file speciali?

Tutto parte, come accennato, dalla domanda di un utente, che chiede al Senior Webmaster Trends Analyst di Google come comportarsi rispetto al file robots.txt e “se mettere in disallow file come /*.css$, /php.ini e anche /.htaccess”, e quindi, più in generale, come gestire questi file speciali.

John Mueller risponde innanzitutto con la consueta ironia, dicendo di non “poter impedire dall’impedire” l’accesso a tali file (letteralmente, “I can’t disallow you from disallowing those files”), per poi entrare un po’ più nel dettaglio e offrire il suo parere reale, perché quell’approccio sembra “essere una cattiva idea”.

Gli effetti negativi di blocchi indesiderati

In alcuni casi, il disallow di file speciali è semplicemente ridondante e quindi non necessario, ma in altre circostanze potrebbe compromettere seriamente la capacità di Googlebot di eseguire la scansione di un sito, con tutti gli effetti negativi conseguenti.

La procedura che ha in mente l’utente rischia infatti di provocare danni alla capacità di crawling del bot di Google, e quindi di pregiudicare la comprensione delle pagine, la corretta indicizzazione e, non in ultimo, il posizionamento.

Cosa significa il disallow sui file speciali

Mueller spiega rapidamente cosa significa procedere con quel disallow e quali possono essere le conseguenze per Googlebot e per il sito.

  • disallow: /*.css$

negherebbe l’accesso a tutti i file CSS: Google deve invece avere la possibilità di accedere ai file CSS, in modo da poter renderizzare correttamente le pagine del sito. Questo è cruciale, ad esempio, per poter riconoscere quando una pagina è ottimizzata per i dispositivi mobili. Il Googler aggiunge che “generalmente i non vengono indicizzati, ma dobbiamo essere in grado di eseguirne la scansione”.

Quindi, se la preoccupazione di proprietari dei siti e webmaster è mettere in disallow i file CSS per evitare che vengano indicizzati, Mueller li rassicura dicendo che questo di solito non accade. Al contrario, bloccarli complica la vita di Google, che necessita del file a prescindere, e ad ogni modo anche se un file CSS finisce per essere indicizzato non danneggerà il sito (o comunque meno del caso opposto).

  • disallow: /php.ini

php.ini è un file di configurazione per PHP. In generale, questo file deve essere bloccato o rinchiuso in una posizione speciale in modo che nessuno possa accedervi: ciò significa che anche Googlebot non ha accesso a tale risorsa. Quindi, vietare la scansione di /php.ini nel file robots.txt è semplicemente ridondante e non necessario.

  • disallow: /.htaccess

come nel caso precedente, anche .htaccess è un file un file di controllo speciale, bloccato per impostazione predefinita che, quindi, non offre possibilità di accesso esterno, nemmeno a Googlebot. Di conseguenza, non c’è bisogno di usare il disallow in modo esplicito perché il bot non vi può accedere né sottoporlo a scansione.

Non usare un file Robots.txt copiato da un altro sito

Prima di concludere il video, John Mueller offre qualche spunto di riflessione e un suggerimento preciso per una corretta gestione del file robots.txt.

Il messaggio è chiaro: non copiare in maniera a-critica e riutilizzare un file robots.txt di un altro sito presumendo semplicemente che andrà bene anche per il proprio. Il miglior modo di procedere per evitare errori è di pensare attentamente “di quali parti del tuo sito vuoi evitare la scansione” e quindi usare il disallow di conseguenza per impedire l’accesso a Googlebot.