Meta Tag Robots, le istruzioni per comunicare con i crawler

Provaci

Mettici alla prova

Analizza il tuo sito
Seleziona la lingua del database:

Nella nostra battaglia per la visibilità online non possiamo trascurare alcun aspetto, e in particolare è essenziale comprendere come i motori di ricerca interagiscono con i contenuti che pubblichiamo. Qui entra in gioco un elemento che a volte rischia di essere ingiustamente sottovalutato come i meta tag robots, che sono appunto specifiche istruzioni destinate ai robots dei motori di ricerca. Questi brevi frammenti di codice HTML sono dei veri e propri segnali stradali per i crawler, indicando loro come navigare e interpretare le pagine del nostro sito: comprendere le loro funzioni e come utilizzarli correttamente è quindi fondamentale per una SEO efficace.

Che cosa sono i Meta Tag Robots

I meta tag robots sono una stringa di codice che si inserisce nella sezione <head> di una pagina HTML e consente di comunicare direttamente con i crawler dei motori di ricerca, in modo da fornire istruzioni specifiche su come scansionare e indicizzare le nostre pagine web.

Prenditi cura del tuo sito

Scopri dove e come intervenire per ottenere risultati migliori e guadagnare di più in modo facile e veloce
Academy
Webinar
Tools
Registrazione

Si tratta quindi di un tipo molto specifico di meta tag HTML, impostazioni a livello di pagina e di testo che servono a controllare in maniera granulare a livello di pagina il comportamento di Googlebot e degli altri bot automatizzati dei motori di ricerca che esplorano il web per indicizzare i contenuti.

A cosa servono queste istruzioni

In particolare, forniscono istruzioni specifiche su come una determinata pagina dovrebbe essere trattata: se deve essere indicizzata, se i link presenti devono essere seguiti e altre direttive che influenzano la SEO. Un utilizzo corretto dei meta tag robots permette quindi di adattare il modo in cui Google presenta i nostri contenuti nei risultati di ricerca.

Possono ad esempio essere impiegati per prevenire la duplicazione dei contenuti, escludere pagine non essenziali o private dall’indice o per ottimizzare l’uso delle risorse di crawling, assicurando che i motori di ricerca si concentrino sulle pagine più importanti.

È importante sottolineare che queste impostazioni possono essere lette e seguite solo se ai crawler viene consentito di accedere alle pagine che le includono.

Secondo le linee guida di Google per gli sviluppatori, i meta tag robots consentono di “utilizzare un approccio granulare e specifico di pagina”, e più precisamente a “controllare in che modo una pagina singola dovrebbe essere indicizzata e fornita agli utenti nei risultati di ricerca Google”.

Con questo strumento è quindi possibile suggerire a Google quali sono le risorse da non prendere in considerazione per l’indicizzazione e per il posizionamento, perché non offrono valore aggiunto per gli utenti o sono pubblicate solo per motivi di servizio. Ad esempio, possiamo usare uno di questi tag per chiedere di escludere dall’indicizzazione pagine di test o aree riservate, impedire ai motori di ricerca di seguire i link verso siti web di bassa qualità o anche proteggere la nostra privacy impedendo la memorizzazione della cache.

Da qualche tempo, inoltre, possiamo sfruttare questi comandi anche per controllare l’indicizzazione e la pubblicazione di uno snippet di Google, ovvero i brevi estratti di testo che compaiono in SERP e servono a dimostrare la pertinenza di un documento alla query di un utente.

La sintassi corretta per le istruzioni

Dal punto di vista tecnico e formale, i meta tag robots seguono le stesse regole sintattiche dei più ampi meta tag HTML.

Ciò significa che innanzitutto vanno inseriti all’interno dell’header di ogni pagina web, tra i tag <head> e </head>, perché altrimenti non possono essere correttamente letti e recepiti. Anzi, un posizionamento errato non solo renderebbe inefficaci queste direttive, ma potrebbe addirittura danneggiare la visibilità del sito.

Inoltre, questi frammenti di codice possono contenere istruzioni generiche, rivolte a tutti i crawler dei motori di ricerca, oppure indirizzarsi a specifici user-agent, come ad esempio Googlebot; ancora, è possibile usare più direttive in una sola pagina separandole con virgole, se rivolte allo stesso robot. Se invece stiamo usando diversi comandi per diversi user-agent di ricerca, dovremo usare tag separati per ciascun bot. Le regole non sono case sensitive, quindi non fanno distinzione tra maiuscole e minuscole.

Andando nei dettagli, i meta tag robots si compongono di due parti: la prima è “meta name=”robots” identifica il tipo di meta tag e l’user-agent di riferimento, mentre “content=” specifica le direttive per i crawler dei motori di ricerca e indica quale deve essere il comportamento da seguire.

Ad esempio,

<meta name = “googlebot” content = “noindex, nofollow”>

indica al solo Googlebot di non indicizzare la pagina nei motori di ricerca e di non seguire alcun backlink.

Quindi, questa pagina non farà parte delle SERP e non passerà valore alle pagine linkate; questo comando può servire ad esempio per una pagina di ringraziamento.

Quali sono tutti i Meta Tag Robots

Esistono diversi tipi di meta tag robots, ognuno con una funzione ben precisa.

Facendo riferimento all’elenco ufficiale delle regole seguite da Google (ma non necessariamente valide per altri motori di ricerca), abbiamo:

  • all – È il valore predefinito, per pagine senza limitazioni per indicizzazione e pubblicazione. In pratica, questa regola non ha alcun effetto se viene inclusa in modo esplicito.
  • noindex – È il comando per non far comparire la pagina, l’elemento multimediale o comunque la risorsa nei risultati di ricerca.
  • nofollow – Serve a non far seguire i link sulla pagina. Google ora però legge queste istruzioni come suggerimento, non come direttiva.
  • none – Equivale a noindex e nofollow insieme. È l’opposto di “all”.
  • noarchive – Impedisce a Google di mostrare un link “Copia cache” nei risultati di ricerca. È un comando in via di dismissione dopo l’addio alla cache di Google.
  • nositelinkssearchbox – Impedisce a Google di mostrare la casella di ricerca dei sitelink per il sito web nei risultati di ricerca.
  • nosnippet – Impedisce la visualizzazione di uno snippet di anteprima testuale o video in SERP. Si applica a qualsiasi forma di risultato di ricerca e vale per la classica Ricerca, per Google Immagini e per Discover. Potrebbe però ancora essere visibile la miniatura statica di un’immagine (se disponibile), se secondo Google può migliorare l’esperienza utente.
  • indexifembedded – Questa direttiva comunica a Google di indicizzare i contenuti di una pagina incorporata (embedded) all’interno di un’altra tramite un iframe, tag HTML o altri metodi di incorporamento nonostante la presenza di una regola noindex. Il meta tag indexifembedded è quindi un’eccezione specifica al noindex ed è valido solo se è accompagnato del comando noindex.
  • max-snippet:[numero] – Impone una quantità massima di caratteri che Google può mostrare in uno snippet testuale per questo risultato di ricerca, senza influire sulle anteprime di immagini o video. L’istruzione viene ignorata se non si specifica una cifra [number] analizzabile, con due valori speciali:

0 equivale a nosnippet e blocca la comparsa degli snippet.

-1 indica che non ci sono limiti di lunghezza per lo snippet.

  • max-image-preview:[impostazione] – Serve a impostare una dimensione massima dell’anteprima di un’immagine per la pagina in SERP. Ci sono tre valori accettati per il comando:

none non fa comparire alcuna anteprima;

standard determina un’anteprima predefinita;

large imposta una larghezza massima quanto l’area visibile.

  • max-video-preview:[numero] – Determina il numero massimo di secondi di un video da usare per uno snippet video in SERP. Se non specificato, è Google a stabilire la durata dell’anteprima dello snippet video eventualmente visualizzato nei risultati di ricerca. La regola viene ignorata se il valore [numero] specificato non è analizzabile e supporta due valori numerici:

0, al massimo, un’immagine statica può essere usata nel rispetto dell’impostazione max-image-preview;

-1: nessun limite.

  • notranslate – Evita la traduzione della pagina nei risultati di ricerca. Se il comando non è specificato, Google potrebbe fornire una traduzione del link del titolo e dello snippet per i risultati che non sono nella lingua della query di ricerca; se l’utente fa clic sul link del titolo tradotto, tutte le successive interazioni saranno gestite automaticamente tramite Google Traduttore.
  • noimageindex – Blocca l’indicizzazione delle immagini.
  • unavailable_after: [data/ora] – Imposta una “data di scadenza” per una pagina, che dopo la data e l’ora specificata non sarà più mostrata in SERP. Per impostazione predefinita, i contenuti non hanno data di scadenza e quindi Google può mostrare le risorse nelle sue SERP a tempo indeterminato. La data e l’ora devono essere specificate in un formato ampiamente adottato, come ad esempio RFC 822, RFC 850 o ISO 8601, altrimenti la regola viene ignorata.

Ci sono poi i due comandi ulteriori “index” e “follow”, che in realtà sono essenzialmente meta tag robots impliciti: questi tag dicono ai motori di ricerca di aggiungere la pagina all’indice (index) e di seguire i link presenti nella pagina (follow). Specificare questi valori è in genere ridondante, poiché i crawler dei motori di ricerca operano con la presunzione di poter indicizzare la pagina e seguire i link a meno che non vengano fornite istruzioni contrarie.

Come è evidente, i tag index e follow sono l’esatto contrario di noindex o nofollow, direttive che si discostano dal comportamento standard dei crawler. Quindi, non è necessario includere i tag index e follow a meno che non si voglia sovrascrivere una direttiva precedente che specificava noindex o nofollow.

Come scrivere e inserire correttamente i meta tag robots

Chiarito il quadro teorico, possiamo fornire alcuni consigli pratici e linee guida per scrivere e posizionare i meta tag robots in modo efficace, in modo da contribuire a guidare i motori di ricerca attraverso il nostro sito web nel modo che preferiamo e riteniamo più opportuno.

La prima regola, come ampiamente detto, è che i meta tag robots devono essere inseriti all’interno del tag <head> di una pagina HTML. Questo è il primo posto che i crawler dei motori di ricerca esaminano per cercare indicazioni su come trattare la pagina.

Se rispettiamo la sintassi corretta, la sezione <head> con il meta tag robots incluso apparirà così:

<!DOCTYPE html>
<html>
<head>
    <title>Titolo della Pagina</title>
    <meta name="robots" content="noindex, nofollow">
    <!-- Altri meta tag e risorse come CSS e JavaScript -->
</head>
<body>
    <!-- Contenuto della pagina -->
</body>
</html>

In questo caso, abbiamo comunicato a tutti i robots di non indicizzare la pagina e di non seguire i collegamenti presenti.

Altre best practice per garantire che le istruzioni meta tag robots funzionino sono:

  1. Scegliere il meta tag adatto.
  2. Scrivere il meta tag correttamente. Usare il tag <meta> con attributi name e content, impostando nel campo “name” i giusti user-agents (robots per tutti, googlebot per specificare solo il crawler di Google) e specificando nel campo “content” le istruzioni. I valori devono essere separati da una virgola e non devono contenere spazi.
  3. Non essere ridondanti. I meta tag robots si applicano a livello di pagina singola per dare istruzioni specifiche ai motori di ricerca. Non è necessario utilizzare meta tag robots per le pagine che desideriamo siano indicizzate e i cui link siano seguiti, poiché questo è il comportamento predefinito dei crawler.
  4. Mantenere la distinzione tra caratteri maiuscoli e minuscoli. I motori di ricerca riconoscono attributi, valori e parametri sia in maiuscolo che in minuscolo: l’autrice consiglia di attenersi alle lettere minuscole per migliorare la leggibilità del codice, un suggerimento che i SEO dovrebbero tenere bene a mente.
  5. Evitare contraddizioni. Non inserire meta tag robots in conflitto nella stessa pagina, poiché ciò potrebbe confondere i crawler e portare a risultati indesiderati soprattutto in termini di di indicizzazione. Ad esempio, se ci sono più righe di codice con meta tag come questo <meta name = “robots” content = “follow”> e questo <meta name = “robots” content = “nofollow”> verrà rispettato solo “nofollow”, perché i crawler danno priorità ai valori restrittivi.
  6. Essere parsimoniosi ed evitare troppi tag <meta>. L’uso di più metatag causerà conflitti nel codice. Per questo, ad esempio, è preferibile usare più valori nello stesso tag rispettando la sintassi con la virgola divisoria. In caso di regole robots in conflitto, Google applica quella più restrittiva: ad esempio, se una pagina ha entrambe le regole “max-snippet:50” e “nosnippet”, applica la regola nosnippet.
  7. Controllare la compatibilità con diversi motori di ricerca. Come detto, i crawler dei motori di ricerca potrebbero avere comportamenti e regole differenti.
  8. Verificare sempre. Dopo aver inserito i meta tag, è opportuno verificare che siano stati implementati correttamente; possiamo utilizzare strumenti come Google Search Console o anche fare scansioni con lo Spider di SEOZoom per controllare che i motori di ricerca stiano seguendo le direttive.

La differenza tra meta tag robots e robots.txt

Per chi non ha particolare competenze in ambito di SEO tecnica, ci può essere una iniziale confusione di fronte a termini come robots.txt e meta tag robots, che potrebbero sembrare indicare apparentemente la stessa cosa.

In realtà, questi elementi sono molto diversi, anche se effettivamente hanno un tratto in comune: essere delle istruzioni comunicate ai robots dei motori di ricerca.

Come spiega un articolo di Anne Crowe su searchenginejournal, però, c’è una differenza di fondo essenziale: mentre i meta tag robots sono specifici per la singola pagina, come appena detto, le istruzioni presenti nel file robots.txt valgono per l’intero sito.

Pertanto, il file robots è un documento che contiene le stesse istruzioni relative a singole pagine o intere cartelle del sito, mentre le indicazioni delle etichette sono specifiche per ogni contenuto e pagina web del sito, risultando perciò più precise e utili.

In generale non esiste uno strumento migliore dell’altro da usare in ottica SEO, ma sono l’esperienza e le competenze che possono spingere a preferire un metodo anziché l’altro a seconda dei casi. Ad esempio, l’autrice ammette di usare i meta tag robots in molti ambiti per cui “altri professionisti SEO potrebbero semplicemente preferire la semplicità del file robots.txt”.

Far lavorare insieme Robots.txt e Meta Robots

Uno dei più grandi e frequenti errori che “riscontro quando lavoro sui siti Web dei miei clienti” dice Anne Crowe, è che il file robots.txt “non corrisponde a quello che viene dichiarato nei meta tag robots”.

Ad esempio, il file robots.txt nasconde la pagina dall’indicizzazione, ma i tag meta robots fanno il contrario.

In base alla sua esperienza, l’autrice dice che Google dà la priorità a ciò che è proibito dal file robots.txt. Tuttavia, è possibile eliminare la non conformità tra meta tag robot e robots.txt indicando chiaramente ai motori di ricerca quali pagine devono essere nascoste.

Più in generale, la coerenza tra le istruzioni fornite nel file robots.txt e nei meta tag robots è fondamentale per una gestione efficace della scansione e dell’indicizzazione del sito da parte dei motori di ricerca e  imprecisioni tra queste due fonti di direttive possono portare a una serie di problemi che potrebbero influenzare negativamente la SEO e la visibilità del sito, come ad esempio:

  • Pagina indicizzata nonostante il divieto nel robots.txt.Se il file txt impedisce ai crawler di accedere a una certa pagina, ma il meta tag robots nella pagina stessa indica “index, follow“, i motori di ricerca potrebbero comunque indicizzare la pagina. Questo accade perché il robots.txt impedisce la scansione, ma non l’indicizzazione di URL scoperti attraverso link esterni. Di conseguenza, se altri siti linkano alla pagina, questa potrebbe apparire nei risultati di ricerca, contrariamente alle intenzioni del gestore del sito.
  • Risorse importanti ignorate.Supponiamo che il file txt blocchi l’accesso a una directory che contiene file JavaScript o CSS cruciali per il rendering corretto delle pagine: se i meta tag robots nelle pagine HTML non indicano restrizioni, i crawler potrebbero tentare di indicizzare queste pagine senza poter accedere alle risorse bloccate. Il risultato sarebbe una rappresentazione errata del sito nei risultati di ricerca, che potrebbe danneggiare l’esperienza utente e la percezione del sito da parte dei motori di ricerca.
  • Contenuti duplicati.Se il file txt consente l’accesso a pagine con contenuti duplicati che si intende escludere dall’indicizzazione, ma i meta tag robots su queste pagine non specificano noindex, i motori di ricerca potrebbero indicizzare comunque tali pagine. Questo può portare a problemi di contenuto duplicato, che possono diluire la pertinenza dei risultati di ricerca e potenzialmente portare a penalizzazioni da parte dei motori di ricerca.
  • Dispendio inefficace delle risorse di scansione.I crawler dei motori di ricerca hanno un crawl budget per ogni sito: se il txt consente la scansione di pagine di bassa qualità o irrilevanti, mentre i meta tag robots su queste pagine non limitano l’indicizzazione, i crawler potrebbero sprecare risorse preziose. Questo potrebbe ridurre la frequenza con cui le pagine più importanti vengono visitate e aggiornate nei risultati di ricerca.

Le differenze tra Meta Tag Robots e X-Robots Tag

Ma c’è ancora un altro metodo per comunicare con i crawler: l’intestazione HTTP X-Robots-Tag, un elemento della risposta che il server Web invia come intestazione HTTP di un URL specifico.

Mentre i meta tag robots sono specifici per le pagine HTML, gli X-Robots-Tag sono utilizzati nelle intestazioni HTTP e possono essere applicati a qualsiasi tipo di file, come PDF o immagini, e possono includere le stesse regole utilizzabili in un meta tag robots.

Academy
Webinar
Tools
Registrazione

Semplifica e migliora il tuo lavoro

Riduci i tempi di analisi e trova subito soluzioni per migliorare il sito

Gli X-Robots-Tag offrono una maggiore flessibilità, perché consentono di controllare l’indicizzazione a un livello più granulare e di applicare direttive a file che non possono contenere tag HTML. I crawler seguono le istruzioni in entrambe le varianti, ciò che cambia è appunto solo il modo per comunicare i parametri; gli x-robots tag possono però essere utili in caso di pagine non HTML sul sito, tipo immagini particolari e PDF. Ad esempio, se desideriamo bloccare un’immagine o un video ma non l’intera pagina, conviene utilizzare x-robots tag. Inoltre, il supporto delle regex o espressioni regolari consente un elevato livello di flessibilità.

Le altre differenze tra meta tag robots e X-robots-tag riguardano:

  • Posizionamento:i meta tag robots si inseriscono nell’header HTML, mentre l’header X-Robots-Tag viene inviato tramite l’header HTTP della pagina.
  • Compatibilità:i meta tag robots sono compatibili con tutti i motori di ricerca, mentre l’header X-Robots-Tag non è supportato da tutti.
  • Priorità:in caso di conflitto tra meta tag robots e header X-Robots-Tag, la priorità viene data al secondo.

In sostanza, il tag x-robots consente di fare la stessa cosa dei meta, ma all’interno degli header di una risposta HTTP: offre quindi più versatilità rispetto ai tag meta robot e permette di specificare le regole di scansione da applicare globalmente a un sito, ma rendere necessario accedere ai file .php, .htaccess o server per le impostazioni.

Come utilizzare x-robots-tag: la sintassi e le regole

Possiamo implementare X-Robots-Tag alle risposte HTTP di un sito tramite i file di configurazione del software server del nostro sito e la sintassi corretta per l’inserimento degli X-Robots-Tag dipende dal server web che stiamo utilizzando.

Ad esempio, se il sito web è ospitato su un server che utilizza Apache, possiamo aggiungere le direttive X-Robots-Tag al file .htaccess o al file di configurazione del server.

Ecco un esempio di come possiamo configurare un X-Robots-Tag per impedire l’indicizzazione di tutti i PDF sul sito:

<FilesMatch "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

In questo esempio, FilesMatch viene utilizzato per applicare la regola a tutti i file che terminano con l’estensione .pdf. La direttiva Header set aggiunge l’intestazione X-Robots-Tag con i valori noindex, nofollow alle risposte HTTP per questi file.

Per i server che utilizzano NGINX, le direttive X-Robots-Tag possono essere aggiunte modificando il file di configurazione del server. Ecco come fare per impedire l’indicizzazione di tutti i PDF:

location ~* \.pdf$ {
  add_header X-Robots-Tag "noindex, nofollow";
}

In questo frammento di codice, location identifica i file che corrispondono al pattern (in questo caso, tutti i file PDF), e add_header aggiunge l’intestazione X-Robots-Tag alle risposte per quei file.

Iscriviti alla newsletter

Prova SEOZoom

7 giorni di Prova Gratuita

Inizia ad aumentare il tuo traffico con SEOZoom!
TOP