Oggi è il compleanno di un elemento molto importante per la SEO tecnica e, più in generale, per la corretta gestione di un sito: compie 25 anni il file robots.txt rilasciato online, come dicevamo già in un altro approfondimento, esattamente il 30 giugno 1994. A distanza di 25 anni, però, ci sono ancora alcuni punti critici da chiarire ed errori da evitare: ecco quali sono i più comuni e i peggiori, che possono far affondare un progetto sul Web.

Perché usare il file robots.txt

Prima di elencare gli errori facciamo un passo indietro: il file robots.txt è utile e importante per un sito e per la SEO perché consente di gestire meglio le indicazioni da dare ai bot dei motori di ricerca che eseguono la scansione, offrendo una localizzazione precisa della sitemap e limitando l’accesso a risorse inutili per ottimizzare il crawl budget attraverso il comando disallow.

Già da questo si capisce che è uno strumento da usare con cautela, perché possibili interpretazioni sbagliate delle sue funzioni o, peggio, comandi erronei possono provocare conseguenze negative al posizionamento del sito web e al suo rendimento. Ecco dunque alcuni dei comportamenti da evitare assolutamente!

1.     Il primo errore: un file robots vuoto

Nelle linee guida di questo strumento, Google spiega che il file robots è necessario solo se vogliamo bloccare l’autorizzazione a eseguire la scansione da parte dei crawler, e siti “senza file robots.txt, meta tag robots o intestazioni HTTP X-Robots-Tag” possono essere sottoposti a scansione e indicizzati normalmente. Pertanto, se non ci sono sezioni o Url che si vuol tenere lontani dalla scansione, non serve creare un file robots.txt e, soprattutto, non bisogna creare una risorsa vuota.

2.     Evitare file troppo pesanti

Gli eccessi non sono mai positivi: se un file vuoto è ovviamente un controsenso, bisogna tenersi alla larga anche dalla situazione diametralmente opposta, ovvero realizzare robots.txt troppo complessi e pesanti, che possono aprire la strada a problemi per webmaster e Google.

Lo standard limita la grandezza del file a 500 kb, e Google chiarisce che ignorerà il testo in eccesso. Ad ogni modo, va ricordato che i file Robots.txt dovrebbero essere sempre brevi, precisi e molto chiari.

3.     Lo sbaglio più grave: bloccare risorse utili

Da queste premesse si comprende anche la conseguenza peggiore di un uso sbagliato del file robots.txt, ovvero bloccare la scansione di risorse e pagini utili del sito, che invece dovrebbero essere pienamente accessibili a Googlebot e agli altri crawler per il business del progetto. Sembra un errore banale, ma in realtà capita di frequente di trovare URL potenzialmente competitivi bloccati, in modo involontario o per una cattiva comprensione dello strumento.

Comprendere come usare il file robots.txt

Come dicevamo, il file può essere uno strumento potente in qualsiasi arsenale SEO perché è un modo valido per controllare ed eventualmente limitare le modalità di accesso di crawler e robot di motori di ricerca a determinate aree del sito o a contenuti che non offrono un valore se trovati dagli utenti nelle ricerche.

Bisogna però assicurarsi di capire come funziona il file robots.txt, proprio per evitare di impedire per errore a Googlebot o a qualsiasi altro bot di eseguire la scansione dell’intero sito e, di conseguenza, non trovarlo nei risultati di ricerca.

4.     Usare il file per nascondere informazioni riservate

Il file robots.txt è pubblico e può essere visualizzato da utenti mediamente esperti: pensare di utilizzare questo sistema per nascondere pagine riservate o contenenti dati degli utenti è un errore di concetto, oltre che uno sbaglio clamoroso. Per ottenere questo obiettivo bisogna invece utilizzare altri sistemi, a cominciare da metodi di protezione mediante credenziali.

5.     Cercare di impedire l’indicizzazione di pagine

Ne parlavamo anche in un altro approfondimento: spesso si interpreta in modo sbagliato l’utilità e la funzione del file robots.txt e si ritiene che mettere un URL in disallow possa evitare che la risorsa appaia nei risultati di ricerca. Al contrario, bloccare una pagina txt non impedisce a Google di indicizzarla né serve a rimuovere la risorsa dall’Indice o dai risultati di ricerca, soprattutto se questi Url sono linkati da pagine “aperte”.

Un malinteso di questo tipo provoca la comparsa in SERP dell’URL in Disallow, privo però del giusto titolo e della giusta meta description (campo in cui compare un messaggio di errore).

6.     Usare il disallow su pagine con tag noindex

Un fraintendimento simile, sempre legato a risorse che si intende bloccare, riguarda l’uso del comando disallow nel Robots.txt su pagine che hanno già un’impostazione meta tag noindex: in questo caso, il risultato è esattamente l’opposto di quello desiderato!

Il bot infatti non può leggere correttamente il comando che blocca l’indicizzazione della pagina, e quindi si potrebbe generare un caso paradossale: l’Url con meta tag noindex potrebbe essere indicizzato e posizionarsi in SERP, perché il disallow nel file robots.txt ha reso inefficace le altre indicazioni. Il modo corretto per impedire a una pagina di apparire nei risultati di ricerca è di impostare il meta tag noindex e lasciare regolare accesso ai bot sulla risorsa.

7.     Bloccare pagine con altri tag

Restando ancora in questa tipologia di errore, citiamo anche limitare l’accesso a pagine con rel=canonical oppure meta tag nofollow: come detto, bloccare un Url impedisce ai crawler di leggere il contenuto delle pagine e anche dei comandi impostati, compresi quelli importanti appena citati.

Pertanto, per consentire a Googlebot e affini di leggere e considerare in modo preciso gli status code o i meta tag degli Url bisogna evitare di bloccare tali risorse nel Robots.txt.

8.     Non verificare gli status code

Passando ad alcuni aspetti tecnici legati a questo strumento, c’è un elemento a cui è necessario prestare attenzione, quello degli status code delle pagine. Come segnalato nelle guide di Google per gli sviluppatori, sono vari i codici risultato Http che possono essere generati dalla scansione, e per la precisione:

  • Codice 2xx, esito positivo

In questo caso si riceve un’istruzione di scansione di tipo “conditional allow”.

  • 3xx (reindirizzamento)

Di consueto, Google segue i redirect fino all’individuazione di un risultato valido o al riconoscimento di un loop. Secondo quanto comunicato, esiste comunque un numero massimo di tentativi di reindirizzamento (ad esempio, il documento RFC 1945 per HTTP/1.0 consente fino a 5 reindirizzamenti), superato il quale il processo si interrompe e restituisce un errore 404. La gestione dei redirect dal file robots.txt agli URL non consentiti “non è definita né consigliata”, e la gestione dei reindirizzamenti logici per il file robots.txt “basata su contenuti HTML che restituisce un errore di tipo 2xx” non è definita né consigliata, dicono da Mountain View.

  • 4xx (errori client)

Tutti gli errori 4xx (inclusi i codici 401 “Autorizzazione negata” e 403 “Accesso negato”) sono trattati allo stesso modo, ovvero presupponendo che non esistano file robots.txt validi e che non vi siano restrizioni: si tratta di un’istruzione di scansione interpretata come “full allow”.

  • 5xx (errore del server)

Google interpreta gli errori del server come “errori temporanei che generano un’istruzione di scansione di tipo full disallow”: anche in questo la richiesta di scansione viene ripetuta, fino a ottenere un codice risultato diverso da quello dell’errore del server. Nello specifico, se Google “riesce a stabilire che un sito è configurato in modo errato e restituisce un errore di tipo 5xx anziché 404 per le pagine mancanti, l’errore 5xx restituito da tale sito viene trattato come errore 404”.

A queste tipologie di problematiche bisogna aggiungere le richieste non riuscite o dati incompleti, che derivano dalla gestione di un file robots.txt “che non può essere recuperato a causa di problemi di rete o DNS come timeout, risposte non valide, connessioni ripristinate/interrotte, errori di suddivisione HTTP e così via”.

9.     Non curare la sintassi del file

È importante sapere e ricordare che il file robots.txt file è case sensitive, ovvero è sensibile alle differenze tra lettere maiuscole e minuscole. Questo implica innanzitutto l’obbligo a nominare correttamente il file (quindi “robots.txt” con la minuscola e senza altre variazioni), e poi a verificare che tutti i dati (directory, subdirectory e nomi dei file) siano scritti senza mescolare maiuscole e minuscole in modo non opportuno.

10.   Non aggiungere la posizione di una Sitemap

Conosciamo (o dovremmo conoscere) l’importanza delle sitemap, che sono “un valido metodo per indicare i contenuti che Google dovrebbe sottoporre a scansione e i contenuti che Google può o non può sottoporre a scansione”, come ci ricordano sempre le guide del motore di ricerca. Pertanto, è importante inserire la posizione di una sitemap all’interno del file robots.txt per gestire correttamente queste attività in base alle proprie esigenze e richieste.