Per chi non ha particolare competenze in ambito di SEO tecnica, a prima vista i termini robots.txt e meta tag robots potrebbero confondere e indicare apparentemente la stessa cosa; in realtà, questi elementi sono molto diversi, pur avendo un tratto in comune, essere cioè delle istruzioni comunicate ai robots dei motori di ricerca. Cerchiamo di approfondire l’importanza di tali fattori con le best practices da seguire per non commettere errori.

Robots.txt e Meta Tag Robots, differenze e modi d’uso

C’è una differenza di fondo tra il file robots.txt e i meta tag robots, come già dicevamo nel nostro focus specifico su questo argomento. Mentre le istruzioni per i crawler contenuti nel robots.txt valgono per l’intero sito, i meta tag robots sono specifici per la singola pagina.

Come spiega un articolo di searchenginejournal, non esiste uno strumento migliore dell’altro da usare in ottica SEO, ma sono l’esperienza e le competenze che possono spingere a preferire un metodo anziché l’altro a seconda dei casi. Ad esempio, l’autrice Anna Crowe ammette di usare i meta tag robots in molti ambiti per cui “altri professionisti SEO potrebbero semplicemente preferire la semplicità del file robots.txt”.

Che cosa fa un file robots

Un file robots.txt fa parte del protocollo di esclusione dei robot (REP) e indica ai crawler (ad esempio Googlebot) cosa deve essere sottoposto a scansione.

Google impegna Googlebot per eseguire la scansione dei siti Web e registrare informazioni su quel sito per capire come classificarlo nei risultati di ricerca. È possibile trovare il file robots.txt di qualsiasi sito aggiungendo /robots.txt dopo l’indirizzo web, in questo modo:

www.mywebsite.com/robots.txt

Le istruzioni del file

Il primo campo che si visualizza è quello dell’user-agent: se è presente un asterisco *, significa che le istruzioni contenute valgono per tutti i bot che arrivano al sito, senza eccezioni; in alternativa, è possibile anche dare indicazioni specifiche a un solo crawler.

Il file robots di SEOZoom

Lo slash dopo “disallow” segnala al robot le categorie/sezioni del sito da cui deve stare alla larga, mentre nel campo allow si possono dare indicazioni sulla scansione.

Il valore del file robots.txt

Nell’esperienza di consulenza SEO dell’autrice, capita spesso che i clienti – dopo la migrazione di un sito o il lancio di un nuovo progetto – si lamentano perché non vedono risultati positivi nel ranking a distanza di sei mesi; nel 60 per cento dei casi il problema sta in un file robots.txt non aggiornato correttamente.

In termini pratici, quasi sei siti su dieci hanno un file robots.txt che appare in questo modo:

User-agent: *
Disallow: /

Tale istruzione blocca tutti i web crawler e ogni pagina del sito.

Un altro motivo per cui robots.txt è importante è il crawl budget di Google: soprattutto se abbiamo un sito di grandi dimensioni con pagine di bassa qualità che non vogliamo sottoporre scansione da Google, possiamo bloccarle con un disallow nel file robots.txt. Questo ci permette di liberare parte del budget di scansione di Googlebot, che potrebbe usare il suo tempo per indicizzare solo per le pagine di alta qualità, quelle che vogliamo posizionare nelle SERP.

Nel luglio 2019 Google aveva annunciato l’intenzione di lavorare a uno standard ufficiale per il robots.txt, ma ad oggi non ci sono ancora regole fisse e ferree e per orientarsi bisogna far riferimento alle classiche best practices di implementazione.

Consigli per la gestione del file robots.txt

E quindi, le istruzioni del file sono cruciali per la SEO ma possono anche creare qualche grattacapo, soprattutto a chi non mastica nozioni tecniche. Come dicevamo, i motori di ricerca eseguono la scansione e l’indicizzazione del sito in base a ciò che trovano nel file robots.txt usando direttive ed espressioni.

Queste sono alcune delle più comuni direttive robots.txt:

  • User-agent: * – È la prima riga nel file robots.txt per fornire ai crawler le regole di ciò che vuoi sia scansionato sul sito. L’asterisco, come dicevamo, informa tutti gli spider.
  • User-agent: Googlebot – Sono istruzioni valide solo per lo spider di Google.
  • Disallow: / – Questo dice a tutti i crawler di non eseguire la scansione dell’intero sito.
  • Disallow: – Questo indica a tutti i crawler di eseguire la scansione dell’intero sito.
  • Disallow: / staging / : indica a tutti i crawler di ignorare il sito di staging.
  • Disallow: / ebooks / * .pdf : indica ai crawler di ignorare tutti i formati PDF che potrebbero causare problemi di contenuti duplicati.
  • User-agent: Googlebot
    Disallow: / images / – Questo dice solo al crawler di Googlebot di ignorare tutte le immagini sul sito.
  • * – Questo è visto come un carattere jolly che rappresenta qualsiasi sequenza di caratteri.
  • $ : Viene utilizzato per abbinare la fine dell’URL.

Prima di iniziare a creare il file robots.txt ci sono altri elementi da ricordare:

  • Formatta il robots.txt correttamente. La struttura segue questo schema:

User-agent → Disallow → Allow → Host → Sitemap

Ciò consente agli spider dei motori di ricerca di accedere alle categorie e alle pagine Web nel giusto ordine.

  • Assicurati che ogni URL indicato con “Allow:” o “Disallow:” sia posizionato su una riga separata e non usare la spaziatura per la separazione.
  • Usa sempre lettere minuscole per nominare il robots.txt.
  • Non utilizzare caratteri speciali tranne * e $; altri caratteri non sono riconosciuti.
  • Crea file robots.txt separati per i vari sottodomini.
  • Usa # per lasciare commenti nel tuo file robots.txt. I crawler non rispettano le linee con il carattere #.
  • Se una pagina non è consentita nei file robots.txt, l’equità del collegamento non passerà.
  • Non utilizzare mai robots.txt per proteggere o bloccare i dati sensibili.

Cosa nascondere con il file

I file Robots.txt vengono spesso utilizzati per escludere directory, categorie o pagine specifiche dalle SERP, usando semplicemente la direttiva “disallow”. Tra le pagine più comuni che si possono nascondere, secondo Crowe, ci sono:

  • Pagine con contenuti duplicati (spesso contenuti printer-friendly)
  • Pagine di paginazione.
  • Pagine dinamiche di prodotti e servizi.
  • Pagine degli account.
  • Pagine admin.
  • Carrello della spesa
  • Chat
  • Thank you page.

Come funzionano i Meta Tag Robots

Chiamati anche come direttive meta robot, i meta tag robots sono snippet di codice HTML, aggiunti alla sezione <head> di una pagina Web, che indicano ai crawler dei motori di ricerca come eseguire la scansione e l’indicizzazione di quella specifica pagina.

Questi elementi sono composti da due parti: la prima è name=”, che identifica l’user-agent, la seconda è content=”, che segnala ai robot quale deve essere il comportamento

Ci sono due tipi di elementi:

  1. Meta tag robots.

Sono comunemente usati dai SEO e consentono di segnalare agli user-agent di eseguire la scansione di aree specifiche del sito.

Ad esempio,

<meta name = “googlebot” content = “noindex, nofollow”>

indica a Googlebot di non indicizzare la pagina nei motori di ricerca e di non seguire alcun backlink.

Quindi, questa pagina non farà parte delle SERP e tali comando possono servire ad esempio per una pagina di ringraziamento.

Se si usano diverse direttive per diversi user-agent, bisognerà utilizzare tag separati per ciascun bot.

È inoltre fondamentale non posizionare i meta tag robots all’esterno della sezione <head>.

  1. X-robots tag

Il tag x-robots consente di fare la stessa cosa dei meta, ma all’interno degli header di una risposta HTTP.

In sostanza, offre più funzionalità rispetto ai tag meta robot, ma sarà necessario accedere ai file .php, .htaccess o server.

Ad esempio, spiega Crowe, se si desidera bloccare un’immagine o un video ma non l’intera pagina, conviene utilizzare x-robots tag.

Suggerimenti sull’uso dei meta tag robots

Indipendentemente dal modo in cui li implementiamo sul sito, ci sono anche in questo caso alcune best practices da seguire.

  • Mantieni la distinzione tra caratteri maiuscoli e minuscoli. I motori di ricerca riconoscono attributi, valori e parametri sia in maiuscolo che in minuscolo: l’autrice consiglia di attenersi alle lettere minuscole per migliorare la leggibilità del codice, un suggerimento che i SEO dovrebbero tenere bene a mente.
  • Evita più tag <meta>. L’uso di più metatag causerà conflitti nel codice. Per usare più valori nello stesso tag bisogna rispettare la sintassi con la virgola, come nel caso

<meta name = “robots” content = “noindex, nofollow”>.

  • Non utilizzare meta tag in conflitto per evitare errori di indicizzazione. Ad esempio, se ci sono più righe di codice con meta tag come questo

<meta name = “robots” content = “follow”>

e questo

<meta name = “robots” content = “nofollow”>

verrà preso solo “nofollow” in considerazione, perché i robot danno priorità ai valori restrittivi.

Far lavorare insieme Robots.txt e Meta Robots

Uno dei più grandi errori che vedo quando lavoro sui siti Web dei miei clienti, dice Anne Crowe, è che il file robots.txt non corrisponde a quello che viene dichiarato nei meta tag robot.

Ad esempio, il file robots.txt nasconde la pagina dall’indicizzazione, ma i tag meta robot fanno il contrario.

In base alla sua esperienza, l’autrice dice che Google dà la priorità a ciò che è proibito dal file robots.txt. Tuttavia, è possibile eliminare la non conformità tra meta tag robot e robots.txt indicando chiaramente ai motori di ricerca quali pagine devono essere nascoste.