Negli ultimi tempi abbiamo incontrato spesso riferimenti ai meta tag robots, in modo particolare dopo i cambiamenti che Google ha apportato al rel nofollow, con conseguenze anche sui meta robots, come dicevamo nei nostri approfondimenti. È dunque il caso di soffermarci in modo più analitico su queste direttive.

Che cosa sono i meta tag robots

Con il nome meta tag robots ci riferiamo a etichette o istruzioni nel codice HTML che si applicano ai crawler dei motori di ricerca, per controllare il comportamento di Googlebot. È una stringa di codice che fa parte dei comandi ufficiali di Google e influenza il modo in cui il crawler esegue la scansione e l’indicizzazione dei contenuti trovati nelle pagine web.

Meta tag robots e x-robots tag

Oltre agli interventi sulla pagina HTML esistono anche altre meta direttive robot, le intestazioni HTTP X-Robots-Tag, che il server Web invia come intestazioni HTTP di un URL specifico. I crawler seguono le istruzioni in entrambe le varianti, ciò che cambia è appunto solo il modo per comunicare i parametri; gli x-robots tag possono però essere utili in caso di pagine non HTML sul sito, tipo immagini particolari e PDF.

La differenza tra meta tag robots e robots.txt

A questo punto è bene chiarire subito anche la differenza tra meta tag robots e file robots.txt: quest’ultimo è un documento che contiene le stesse istruzioni relative a singole pagine o intere cartelle del sito, mentre le indicazioni delle etichette sono specifiche per ogni contenuto e pagina web del sito, risultando perciò più precise e utili.

Difatti, dallo scorso mese di settembre è stata definitivamente abbandonata la regola del noindex nel file robots.txt, un comando mai supportato da Google ma a quanto pare molto diffuso tra i webmaster, così come è stato chiarito che Googlebot non segue nofollow o crawl-delay in robots. Il metodo consigliato per bloccare l’inserimento o rimuovere gli Url delle pagine nell’Indice di Google è un comando no-index nei meta tag robots.

Come usare i meta tag robots

Il meta tag robot fa parte del codice HTML di una pagina Web e appare come un elemento di codice all’interno della sezione <head>. Può contenere istruzioni generiche, rivolte a tutti i crawler dei motori di ricerca, oppure indirizzarsi a specifici user-agent, come ad esempio Googlebot; inoltre, è possibile usare più direttive in una sola pagina separandole con virgole, se rivolte allo stesso robot.

Se invece stiamo usando diversi comandi per diversi user-agent di ricerca, dovremo usare tag separati per ciascun bot.

A cosa servono le direttive

Secondo le linee guida di Google per gli sviluppatori, i meta tag robots consentono di “utilizzare un approccio granulare e specifico di pagina”, e nello specifico a “controllare in che modo una pagina singola dovrebbe essere indicizzata e fornita agli utenti nei risultati di ricerca Google”.

Con questo strumento è quindi possibile suggerire a Google quali sono le risorse da non prendere in considerazione per l’indicizzazione e per il posizionamento, perché non offrono purpose per gli utenti o sono pubblicate solo per motivi di servizio.

Le direttive per la gestione degli snippet

Da qualche tempo, inoltre, i webmaster possono sfruttare questi comandi anche per “controllare l’indicizzazione e la pubblicazione” di uno snippet di Google, ovvero i brevi estratti di testo che compaiono in SERP e servono a “dimostrare la pertinenza di un documento alla query di un utente”.

Le istruzioni dei meta tag robots

Proviamo ora a fornire un quadro sintetico ma completo delle istruzioni che è possibile inserire in queste etichette: come vedremo, con tali comandi possiamo indirizzare non solo la scansione delle pagine del sito, ma anche indicare ai robots che peso dare ai link in uscita o quanti caratteri utilizzare per gli snippet dei risultati di ricerca.

  • all – è il valore predefinito, per pagine senza limitazioni per indicizzazione e pubblicazione.
  • noindex – è il comando per non far comparire la pagina nei risultati di ricerca.
  • nofollow – serve a non far seguire i link sulla pagina. Google ora però legge queste istruzioni come suggerimento, non come direttiva.
  • none – equivale a noindex e nofollow.
  • noarchive – blocca la comparsa del link “Copia cache” nei risultati di ricerca.
  • nosnippet – impedisce la presenza di uno snippet di anteprima in SERP. Si applica a qualsiasi forma di risultato di ricerca e vale per la classica Ricerca, per Google Immagini e per Discover.
  • max-snippet:[number] – impone una quantità massima di caratteri da usare in uno snippet testuale per questo risultato di ricerca, senza influire sulle anteprime di immagini o video. L’istruzione viene ignorata se non si specifica una cifra [number] analizzabile, con due valori speciali:

0 equivale a nosnippet e blocca la comparsa degli snippet.

-1 indica che non ci sono limiti di lunghezza per lo snippet.

  • max-image-preview:[setting] – serve a impostare una dimensione massima dell’anteprima di un’immagine in SERP. Ci sono tre valori accettati per il comando:

none non fa comparire alcuna anteprima;

standard determina un’anteprima predefinita;

large imposta una larghezza massima quanto l’area visibile.

  • max-video-preview:[number] – determina il numero massimo di secondi di un video da usare per uno snippet video in SERP. Supporta due valori numerici:

0, al massimo, un’immagine statica può essere usata nel rispetto dell’impostazione max-image-preview;

-1: nessun limite.

  • notranslate – evita la traduzione della pagina nei risultati di ricerca.
  • noimageindex – blocca l’indicizzazione delle immagini.
  • unavailable_after: [date/time] – imposta una “data di scadenza” per una pagina, che dopo la data e l’ora specificata non sarà più mostrata in SERP.