Meta tag robots, come usarli in modo efficace per Google
Negli ultimi tempi abbiamo incontrato spesso riferimenti ai meta tag robots, in modo particolare dopo i cambiamenti che Google ha apportato agli attributi rel del link, con conseguenze anche sui meta robots, come dicevamo nei nostri approfondimenti. È dunque il caso di soffermarci in modo più analitico su queste direttive.
Che cosa sono i meta tag robots
Con il nome meta tag robots ci riferiamo a etichette o istruzioni nel codice HTML che si applicano ai crawler dei motori di ricerca, per controllare il comportamento di Googlebot. È una stringa di codice che fa parte dei comandi ufficiali di Google e influenza il modo in cui il crawler esegue la scansione e l’indicizzazione dei contenuti trovati nelle pagine web.
Meta tag robots e x-robots tag
Oltre agli interventi sulla pagina HTML esistono anche altre meta direttive robot, le intestazioni HTTP X-Robots-Tag, che il server Web invia come intestazioni HTTP di un URL specifico. I crawler seguono le istruzioni in entrambe le varianti, ciò che cambia è appunto solo il modo per comunicare i parametri; gli x-robots tag possono però essere utili in caso di pagine non HTML sul sito, tipo immagini particolari e PDF.
La differenza tra meta tag robots e robots.txt
A questo punto è bene chiarire subito anche la differenza tra meta tag robots e file robots.txt: quest’ultimo è un documento che contiene le stesse istruzioni relative a singole pagine o intere cartelle del sito, mentre le indicazioni delle etichette sono specifiche per ogni contenuto e pagina web del sito, risultando perciò più precise e utili.
Difatti, dallo scorso mese di settembre è stata definitivamente abbandonata la regola del noindex nel file robots.txt, un comando mai supportato da Google ma a quanto pare molto diffuso tra i webmaster, così come è stato chiarito che Googlebot non segue nofollow o crawl-delay in robots. Il metodo consigliato per bloccare l’inserimento o rimuovere gli Url delle pagine nell’Indice di Google è un comando no-index nei meta tag robots.
Come usare i meta tag robots
Il meta tag robot fa parte del codice HTML di una pagina Web e appare come un elemento di codice all’interno della sezione <head>. Può contenere istruzioni generiche, rivolte a tutti i crawler dei motori di ricerca, oppure indirizzarsi a specifici user-agent, come ad esempio Googlebot; inoltre, è possibile usare più direttive in una sola pagina separandole con virgole, se rivolte allo stesso robot.
Se invece stiamo usando diversi comandi per diversi user-agent di ricerca, dovremo usare tag separati per ciascun bot.
A cosa servono le direttive
Secondo le linee guida di Google per gli sviluppatori, i meta tag robots consentono di “utilizzare un approccio granulare e specifico di pagina”, e nello specifico a “controllare in che modo una pagina singola dovrebbe essere indicizzata e fornita agli utenti nei risultati di ricerca Google”.
Con questo strumento è quindi possibile suggerire a Google quali sono le risorse da non prendere in considerazione per l’indicizzazione e per il posizionamento, perché non offrono purpose per gli utenti o sono pubblicate solo per motivi di servizio.
Le direttive per la gestione degli snippet
Da qualche tempo, inoltre, i webmaster possono sfruttare questi comandi anche per “controllare l’indicizzazione e la pubblicazione” di uno snippet di Google, ovvero i brevi estratti di testo che compaiono in SERP e servono a “dimostrare la pertinenza di un documento alla query di un utente”.
Le istruzioni dei meta tag robots
Proviamo ora a fornire un quadro sintetico ma completo delle istruzioni che è possibile inserire in queste etichette: come vedremo, con tali comandi possiamo indirizzare non solo la scansione delle pagine del sito, ma anche indicare ai robots che peso dare ai link in uscita o quanti caratteri utilizzare per gli snippet dei risultati di ricerca.
- all – è il valore predefinito, per pagine senza limitazioni per indicizzazione e pubblicazione.
- noindex – è il comando per non far comparire la pagina nei risultati di ricerca.
- nofollow – serve a non far seguire i link sulla pagina. Google ora però legge queste istruzioni come suggerimento, non come direttiva.
- none – equivale a noindex e nofollow.
- noarchive – blocca la comparsa del link “Copia cache” nei risultati di ricerca.
- nosnippet – impedisce la presenza di uno snippet di anteprima in SERP. Si applica a qualsiasi forma di risultato di ricerca e vale per la classica Ricerca, per Google Immagini e per Discover.
- max-snippet:[number] – impone una quantità massima di caratteri da usare in uno snippet testuale per questo risultato di ricerca, senza influire sulle anteprime di immagini o video. L’istruzione viene ignorata se non si specifica una cifra [number] analizzabile, con due valori speciali:
0 equivale a nosnippet e blocca la comparsa degli snippet.
-1 indica che non ci sono limiti di lunghezza per lo snippet.
- max-image-preview:[setting] – serve a impostare una dimensione massima dell’anteprima di un’immagine in SERP. Ci sono tre valori accettati per il comando:
none non fa comparire alcuna anteprima;
standard determina un’anteprima predefinita;
large imposta una larghezza massima quanto l’area visibile.
- max-video-preview:[number] – determina il numero massimo di secondi di un video da usare per uno snippet video in SERP. Supporta due valori numerici:
0, al massimo, un’immagine statica può essere usata nel rispetto dell’impostazione max-image-preview;
-1: nessun limite.
- notranslate – evita la traduzione della pagina nei risultati di ricerca.
- noimageindex – blocca l’indicizzazione delle immagini.
- unavailable_after: [date/time] – imposta una “data di scadenza” per una pagina, che dopo la data e l’ora specificata non sarà più mostrata in SERP.