Robots.txt e file speciali, le regole per non fare errori

Provaci
Mettici alla prova
Analizza il tuo sito
Seleziona la lingua del database:

Torniamo un po’ alle basi della SEO grazie alla nuova pillola di #askGoogleWebmaster, la serie in cui John Mueller risponde a una domanda posta dalla community SEO. Nell’ultimo episodio si parla del file Robots.txt e, per la precisione, delle best practices per la gestione di alcune tipologie di file e di estensioni, come ad esempio .css e .htacess, e il Googler ci spiega qual è la strada giusta da intraprendere in questi casi. Ovvero, se sia meglio lasciare accesso a Googlebot o impedire la sua scansione di quelle pagine.

Usare il disallow per i file speciali?

Tutto parte, come accennato, dalla domanda di un utente, che chiede al Senior Webmaster Trends Analyst di Google come comportarsi rispetto al file robots.txt e “se mettere in disallow file come /*.css$, /php.ini e anche /.htaccess”, e quindi, più in generale, come gestire questi file speciali.

John Mueller risponde innanzitutto con la consueta ironia, dicendo di non “poter impedire dall’impedire” l’accesso a tali file (letteralmente, “I can’t disallow you from disallowing those files”), per poi entrare un po’ più nel dettaglio e offrire il suo parere reale, perché quell’approccio sembra “essere una cattiva idea”.

Gli effetti negativi di blocchi indesiderati

In alcuni casi, il disallow di file speciali è semplicemente ridondante e quindi non necessario, ma in altre circostanze potrebbe compromettere seriamente la capacità di Googlebot di eseguire la scansione di un sito, con tutti gli effetti negativi conseguenti.

La procedura che ha in mente l’utente rischia infatti di provocare danni alla capacità di crawling del bot di Google, e quindi di pregiudicare la comprensione delle pagine, la corretta indicizzazione e, non in ultimo, il posizionamento.

Cosa significa il disallow sui file speciali

Mueller spiega rapidamente cosa significa procedere con quel disallow e quali possono essere le conseguenze per Googlebot e per il sito.

  • disallow: /*.css$

negherebbe l’accesso a tutti i file CSS: Google deve invece avere la possibilità di accedere ai file CSS, in modo da poter renderizzare correttamente le pagine del sito. Questo è cruciale, ad esempio, per poter riconoscere quando una pagina è ottimizzata per i dispositivi mobili. Il Googler aggiunge che “generalmente i non vengono indicizzati, ma dobbiamo essere in grado di eseguirne la scansione”.

Quindi, se la preoccupazione di proprietari dei siti e webmaster è mettere in disallow i file CSS per evitare che vengano indicizzati, Mueller li rassicura dicendo che questo di solito non accade. Al contrario, bloccarli complica la vita di Google, che necessita del file a prescindere, e ad ogni modo anche se un file CSS finisce per essere indicizzato non danneggerà il sito (o comunque meno del caso opposto).

  • disallow: /php.ini

php.ini è un file di configurazione per PHP. In generale, questo file deve essere bloccato o rinchiuso in una posizione speciale in mod