La possiamo definire come una vera e propria mappa che aiuta i motori di ricerca a farsi strada all’interno del nostro sito Web, trovando (e analizzando) più facilmente gli URL inseriti, ed è un elemento cruciale nella costruzione di un dialogo positivo tra il nostro sito e Googlebot, soprattutto per far scoprire le pagine per noi rilevanti. I nostri approfondimenti ci portano oggi ad affrontare un tema apparentemente semplice, eppure spesso sottovalutato: che cos’è una sitemap e perché può essere utile comunicarla a Google e agli altri motori di ricerca?

Che cos’è una Sitemap

La definizione di sitemap è facile: è un file che contiene tutti gli URL di un sito, elencati secondo una gerarchia impostata in fase di creazione. Inizialmente, il senso della sitemap era agevolare la navigazione degli utenti, come una vera mappa del sito, ma la sua utilità si estende anche all’attività di scansione e indicizzazione da parte dei crawler dei motori di ricerca.

Più in particolare, questo file “è un segnale di quali URL del tuo sito vuoi che Google scansioni” e può fornire informazioni sugli URL appena creati o modificati.

A cosa serve la Sitemap

Grazie alla sitemap, un crawler dei motori di ricerca come Googlebot può eseguire una scansione più efficiente del sito perché ha a disposizione una panoramica dei contenuti disponibili, con indicazioni delle risorse presenti e sul percorso per raggiungerle.

In linea di massima, i web crawler riescono a trovare la maggior parte dei contenuti se le pagine di un sito sono collegate in modo corretto: usare una mappa è un sistema sicuro per consentire ai motori di ricerca di comprendere più velocemente e in modo preciso l’intera struttura del sito.

L’utilità della Sitemap in Google

Il file della mappa consente infatti ai webmaster di sottoporre le pagine dei siti disponibili per la scansione e fornire informazioni ai crawler sulle pagine stesse e sulle risorse presento sul sito, evidenziando come accennato le gerarchie e le correlazioni tra i vari elementi; inoltre, contiene anche dettagli precisi sulle pagine come data dell’ultimo aggiornamento, frequenza di modifica ed eventuali versioni in altre lingue delle pagine.

Cosa dice il protocollo sitemapI formati di Sitemap

Sono essenzialmente due i formati di Sitemap più utilizzati: il primo è il file Sitemap HTML, più vecchio e usato anche per facilitare la navigazione degli utenti e dunque migliorare la user experience.

Più specifico il formato Sitemap XML, inventato da Google nel 2005 (e chiamato allora Google Sitemaps) e poi adottato anche da altri motori di ricerca: esiste un vero e proprio protocollo, regolamentato dalla Attribution-ShareAlike Creative Commons License, e questo ha reso possibile l’estensione della mappa anche agli altri motori di ricerca.

A questi due tipi bisogna aggiungere per completezza anche le tipologie speciali di sitemap, che sono correlate ai contenuti presenti e dunque specifiche per siti per immagini, per video e per notizie.

Esempio di una sitemap

Che cos’è la Sitemap XML

La guida di Google per i webmaster contiene una voce sulle Sitemap XML, che sono definite come “un file XML contenente gli URL di un sito insieme ai rispettivi metadati” associati, vale a dire importanza rispetto agli altri URL del sito, frequenza generale delle modifiche o data dell’ultimo aggiornamento, che permette “ai motori di ricerca di eseguire la scansione del sito in modo più efficiente”. Grazie a questo sistema, anche i siti dinamici possono fornire URL corretti e assicurarsi una indicizzazione più intelligente, comunicando al motore di ricerca anche informazioni quali la data dell’ultimo aggiornamento della pagina e la presenza di versioni in altre lingue.

I limiti delle Sitemap

Ci sono due requisiti fondamentali da rispettare: tutti i formati di Sitemap non possono superare il limite di 50 MB e 50.000 URL. Se il proprio sito ha un file di dimensioni maggiori o contenente più URL sarà necessario suddividere l’elenco in varie Sitemap o creare un unico file Indice Sitemap (che racchiude un elenco di mappe) da sottoporre a Google.

Uso di Sitemap e indicizzazione delle pagine

È sempre Google a chiarire con precisione alcuni aspetti su questo tema: innanzitutto, “l’utilizzo del Protocollo Sitemap non garantisce l’inclusione delle pagine web nei motori di ricerca”, e quindi non c’è certezza che le pagine presenti nel file della mappa siano tutte poi effettivamente indicizzate, perché Googlebot agisce secondo i propri criteri e rispettando i propri algoritmi complessi, che non sono influenzati dalla Sitemap.

Uso di Sitemap e posizionamento su Google

Anche sul posizionamento ci sono delle informazioni utili: la Sitemap non influisce sul ranking delle pagine di un sito nei risultati di ricerca, ma la priorità assegnata a una pagina attraverso la Sitemap potrebbe potenzialmente rappresentare un fattore di ranking.

Perché usare le Sitemap per Google

Dopo queste premesse, a che serve in concreto usare una Sitemap? Ovviamente, tutti i siti possono beneficiare di una scansione migliore, ma ci sono casi particolari in cui Google consiglia vivamente di usare questi file. Innanzitutto, siti molto grandi devono usare la Sitemap per comunicare le pagine nuove o aggiornate di recente ai crawler, che altrimenti potrebbero trascurare la scansione di queste risorse; ancor più utile la mappa se il sito ha molte pagine di contenuti isolate o non ben collegate, che rischiano quindi di non essere considerate da Google.

I siti che devono usare la Sitemap

La Sitemap è consigliata poi per i siti nuovi e con pochi backlink in ingresso: in questo caso, Google e il suo crawler potrebbero avere difficoltà a trovare il sito perché non si evidenziano percorsi tra i link del Web. Infine, si invita a usare la mappa se il sito “utilizza contenuti multimediali, viene visualizzato in Google News o utilizza altre annotazioni compatibili con le sitemap”, aggiungendo che se “appropriato, Google può prendere in considerazione altre informazioni contenute nelle Sitemap per utilizzarle ai fini della ricerca”.

Come creare una Sitemap

Per generare una Sitemap bisogna innanzitutto decidere quali pagine del sito si desidera indicare e sottoporre a scansione da parte di Google, stabilendo la versione canonica di ogni pagina. Il secondo passaggio è la scelta del formato Sitemap da utilizzare, per poi mettersi all’opera con editor di testo o software appositi, oppure affidarsi a un’alternativa più facile e veloce, alla portata di tutti.

Creare una mappa con Sitemap Generator

Se infatti i più esperti possono creare manualmente il file, in Rete si trovano molte risorse che consentono di generare sitemap in automatico: su Google è presente addirittura una pagina che elenca i Web Sitemap generator, suddivisi per “server-side programs”, “CMS and other plugins”, “Downloadable Tools”, “Online Generators/Services”, “CMS with integrated Sitemap generators”. Inoltre, sono segnalati anche gli strumenti per generare sitemap per Google News e “Code Snippets/Libraries”.

Qualunque sia la scelta, è fondamentale mettere subito la Sitemap creata a disposizione di Google, aggiungendola al file robots.txt o inviandola direttamente alla Search Console.

I vantaggi della Sitemap

In definitiva, dunque, usare una Sitemap è un metodo per facilitare la vita dei crawler e per fornire una mappa dei contenuti del proprio sito a Googlebot. Pur non garantendo che gli elementi indicati siano poi effettivamente scansionati e indicizzati, si consiglia di usare sempre una Sitemap perché “nella maggior parte dei casi l’esistenza di una Sitemap costituisce comunque un vantaggio per il tuo sito e non verrai mai penalizzato per il fatto di averne una”, come dice Google.

Una guida per gestire le Sitemap con la Google Search Console

Gli strumenti della Google Search Console, e in particolare il Rapporto Sitemap, ci permettono di facilitare la comunicazione con i crawler del motore di ricerca, come spiegato anche da un episodio della webserie Google Search Console Training, in cui Daniel Waisberg ci accompagna alla scoperta di questo argomento.

In particolare, il Developer Advocate ci ricorda che Google supporta quattro modalità di sintassi espansa con cui possiamo fornire informazioni aggiuntive, utili per descrivere file e contenuti difficili da analizzare al fine di migliorarne l’indicizzazione: possiamo così descrivere un URL con immagini incluse o con un video, segnalare la presenza di lingue alternative o versioni geolocalizzate con le annotazioni hreflang, oppure (per i siti di news) usare una particolare variante che consente di indicare gli aggiornamenti più recenti.

Google e Sitemap

“Se non ho una Sitemap, Google può comunque trovare tutte le pagine del mio sito?”. Il Search Advocate risponde anche a questa domanda frequente, spiegando che una sitemap potrebbe non essere necessaria se abbiamo un sito relativamente piccolo e con una linking interna appropriata tra le pagine, perché Googlebot dovrebbe essere in grado di scoprire i contenuti senza problemi. Inoltre, potremmo non aver bisogno di questo file se abbiamo pochi file multimediali (video e immagini) o pagine di notizie che intendiamo mostrare nei risultati di ricerca appropriati.

Al contrario, in determinati casi una sitemap è utile e necessaria per aiutare Google a decidere cosa e quando sottoporre a scansione del tuo sito:

  • Se abbiamo un sito molto grande, con il file possiamo indicare una priorità degli URL da scansionare.
  • Se le pagine sono isolate o non ben collegate.
  • Se abbiamo un sito nuovo (e quindi poco linkato da siti esterni) o con contenuti che cambiano rapidamente.
  • Se il sito include molti contenuti rich media (video, immagini) o viene visualizzato in Google News.

Ad ogni modo, ci ricorda il Googler, l’uso di una sitemap non garantisce che tutte le pagine sia sottoposte a crawling e indicizzazione, anche se nella maggior parte dei casi fornire questo file ai bot del motore di ricerca può darci benefici (e di sicuro non dà svantaggi). Inoltre, le sitemaps non sostituiscono le scansioni normali e gli URL non inseriti nel file non sono esclusi dal crawling.

Come realizzare una sitemap

Idealmente, il CMS che gestisce il sito può fare automaticamente dei file sitemap, usando dei plugin o delle estensioni (e ricordiamo il progetto per integrare le sitemap di default in WordPress), e Google stesso suggerisce di trovare un modo di creare sitemap in modo automatico anziché manualmente.

Ci sono due limiti alle sitemap, che non possono superare un numero massimo di URL (50mila per file) e una dimensione massima (50 MB non compressa), ma se necessitiamo di più spazio possiamo creare più sitemaps. Possiamo inoltre inviare tutte queste sitemaps insieme sotto forma di un file Indice Sitemap.

Daniel Weisberg ci spiega il rapporto sitemap

Il Rapporto Sitemap della Search Console

Per tenere sotto controllo queste risorse possiamo usare il Rapporto Sitemap in Search Console, uno degli strumenti per webmaster più utili, che serve per inviare a Google una nuova Sitemap per la proprietà, visualizzare la cronologia di invio, visualizzare eventuali errori riscontrati durante l’analisi e rimuovere file non più rilevanti. Questa azione rimuove la sitemap solo dalla Search Console e non dalla memoria di Google: per cancellare una sitemap dobbiamo rimuoverla dal nostro sito e fornire un 404; dopo vari tentativi, Googlebot smetterà di seguire quella pagina e non aggiornerà più la sitemap.

Lo strumento ci consente di gestire tutte le Sitemaps del sito, a patto che siano state inviate attraverso la Search Console, e quindi non mostra file scoperti attraverso robots.txt o altri metodi (che comunque possono essere sottoposti in GSC anche se già rilevati).

Il rapporto sitemap contiene le informazioni su tutti i file inviati, e in particolare l’URL del file relativo alla radice della proprietà, il tipo o formato (come XML, text, RSS o atom), la data di invio, la data dell’ultima lettura di Google, il crawl status (dell’invio o della scansione), il numero di URL rilevati.

Usare il rapporto sitemap in Search Console

Come leggere gli stati della sitemap

Il rapporto indica tre possibili stati dell’invio o della scansione della sitemap.

  • Completato è la situazione ideale, perché significa che il file è stato caricato ed elaborato in modo corretto e senza errori e che tutti gli URL saranno messi in coda per la scansione.
  • Presenta errori significa che la Sitemap potrebbe essere analizzata, ma presenta uno o più errori; gli URL che potrebbero eventualmente essere analizzati verranno messi in coda per la scansione. Cliccando sulla tabella del rapporto possiamo scoprire maggiori dettagli sui problemi e avere indicazioni sugli interventi di correzione.
  • Impossibile recuperare, se qualche motivo ha impedito il recupero del file. Per scoprire la causa dobbiamo fare un test in tempo reale sulla Sitemap con lo strumento Controllo URL.

Sitemap XML, 3 passaggi per migliorare la SEO

Nonostante tutte le accortezze che possiamo usare, ci sono comunque situazioni in cui la sitemap presenta criticità che possono diventare un ostacolo per le prestazioni organiche; per evitare noie e problemi, ci sono tre passaggi fondamentali da valutare, che possono anche a migliorare la SEO, come suggerisce un articolo pubblicato da searchengineland che ci segnala una rapida checklist da seguire per le nostre sitemap fornite ai crawler dei motori di ricerca, utili a evitare errori come l’assenza di URL importanti (che potenzialmente quindi potrebbero non essere indicizzati) o l’inserimento di URL sbagliati.

Verificare la presenza degli URL prioritari e rilevanti

Il primo passo è verificare che abbiamo inserito nella sitemap tutti gli URL chiave del sito, quelli cioè che rappresentano il cardine della nostra strategia online.

Una Sitemap XML può essere statica, rappresentando quindi un’istantanea del sito Web al momento della creazione (e quindi non più aggiornata successivamente) oppure, in maniera più efficace, dinamica. La sitemap dinamica è preferibile perché si aggiorna automaticamente, ma le impostazioni devono essere controllate per assicurarci di non escludere sezioni o URL centrali per il sito.

Per verificare che le pagine rilevanti siano tutte incluse nella sitemap possiamo fare anche una semplice ricerca con il comando site: di Google, così da scoprire immediatamente se i nostri URL chiave sono stati correttamente indicizzati. Un metodo più diretto è usare alcuni strumenti di crawling con cui confrontare le pagine effettivamente indicizzate e quelle inserite nella sitemap sottoposta al motore di ricerca.

Controllare se sono inseriti URL da rimuovere

Di segno completamente opposto il secondo controllo: non tutti gli URL vanno inseriti nella sitemap XML ed è anzi meglio evitare di includere indirizzi che abbiano determinate caratteristiche, come

Una sitemap XML dovrebbe normalmente contenere solo URL indicizzabili, che rispondono con un codice di stato 200 e che sono collegati all’interno del sito Web. Includere altre tipologie di pagine, come quelle indicate, potrebbe contribuire a peggiorare il crawl budget e potenzialmente causare problemi, come l’indicizzazione di URL orfani.

Fare una scansione della sitemap con gli strumenti di crawling permette di evidenziare se ci sono risorse inserite in maniera errata e, quindi, di intervenire per rimuoverle.

Accertarci che Google abbia indicizzato tutti gli URL della sitemap XML

L’ultimo step riguarda il modo in cui Google ha recepito la nostra mappa: per avere un’idea migliore di quali URL siano stati effettivamente indicizzati, dobbiamo inviare la Sitemap in Search Console e usare il citato rapporto Sitemap e il rapporto sullo stato della copertura dell’indice, che ci offrono indicazioni sulla copertura del motore di ricerca.

In particolare, l’index coverage report ci permette di controllare la sezione degli Errori (che mette in luce problemi con le mappe come URL che generano un errore 404) e quella degli URL Esclusi (pagine che non sono state indicizzate e non appaiono su Google), indicando anche i motivi di questa assenza.

Se si tratta di pagine utili – non duplicate né bloccate – potrebbe esserci un problema di qualità, come i famosi thin content o contenuti sottili, o uno status code non corretto, in particolare per le pagine scansionate ma attualmente non indicizzate (Google ha scelto di non inserire per ora la pagina nell’Indice) e per le pagine rilevate, ma non indicizzate (Google ha provato a fare una scansione, ma il sito era sovraccarico), e quindi è il caso di intervenire con opportune ottimizzazioni onsite.

Sitemap, i 10 errori da non commettere su un sito

Se questi sono alcuni dei check prioritari da fare per verificare che la sitemap che abbiamo creato e sottoposto a Google sia efficace e valida, è bene poi avere un quadro anche dei possibili errori presenti nelle sitemap, così da poter capire più facilmente se nel nostro processo di creazione del file siamo incappati in una situazione simile.

Questo, nello specifico, è un elenco dei 10 errori di sitemap che possono pregiudicare le prestazioni di un sito e influenzare negativamente i risultati nella ricerca organica.

1.     Sbagliare formato per la sitemap

L’errore più comune con la sitemap riguarda il formato: Google supporta diverse tipologie di file da inserire in Search Console, attendendo l’utilizzo del protocollo Sitemap standard in tutti i formati e non prevedendo (al momento) l’attributo <priority> nelle Sitemap. I formati accettati sono quello XML, il più diffuso, e poi ancora .txt (file testuale, valido solo se la mappa contiene URL di pagine web e non altre risorse), feed RSS 2.0, mRSS e Atom 1.0, ma Google supporta anche la sintassi espansa delle Sitemap per determinati contenuti multimediali.

2.     Usare codifiche e caratteri non supportati

Caratteri critici per la sitemapUna imprecisione simile, ma più specifica, riguarda il metodo di codifica dei caratteri usati per generare i file Sitemap: lo standard richiesto è la codifica UTF-8, che in genere si può applicate quando si salva il file, e la Guida di Google spiega che “tutti i valori dei dati (inclusi gli URL) devono utilizzare codici di escape” per alcuni caratteri critici (come si vede nell’immagine in pagina).

In dettaglio, una mappa può contenere soltanto caratteri ASCII, mentre non sono supportati caratteri ASCII maiuscoli né particolari codici di controllo e caratteri speciali (ad esempio, asterisco * e parentesi graffe {}). Se si usano questi caratteri nell’URL della Sitemap si genera un errore al momento di aggiungere la Sitemap.

3.     Superare le dimensioni massime dei file

Il terzo problema è frequente con i siti molto estesi, con centinaia di migliaia di pagine e tonnellate di contenuti: le dimensioni massime consentite per un file sitemap sono di 50.000 URL e 50 MB in formato non compresso. Quando il nostro file supera questi limiti, bisogna suddividere la mappa in Sitemap più piccole, creando poi un file Indice Sitemap in cui sono elencate le altre risorse e inviando a Google solo questo file. Questo passaggio serve a evitare “che il server venga sovraccaricato se Google richiede spesso la Sitemap”.

4.     Includere più versioni degli URL

È un inconveniente che si riscontra soprattutto con siti che non hanno completato perfettamente la migrazione da protocollo http a quello https, e quindi presentano pagine che hanno entrambe le versioni: se si includono entrambi gli URL nella Sitemap, il crawler potrebbe eseguire una scansione incompleta e imperfetta del sito.

5.     Inserire URL incompleti, relativi o non uniformi

È poi fondamentale comunicare correttamente agli spider dei motori di ricerca qual è il percorso preciso del collegamento da seguire, perché Googlebot e gli altri eseguono la scansione degli URL esattamente come sono indicati. Pertanto, inserire nel file Sitemap URL relativi, non uniformi o incompleti rappresenta un grave errore, perché genera link non validi. In termini pratici, questo significa che bisogna includere il protocollo, ma anche (se richiesto dal server web) la barra finale: l’indirizzo https://www.esempio.it/ rappresenta dunque un URL valido per una Sitemap, mentre www.esempio.it, https://example.com/ (senza usare il www) o ./mypage.html non lo sono.

6.     Includere ID di sessione nella Sitemap

Il sesto punto è piuttosto specifico: è la pagina delle FAQ del progetto sitemaps a chiarire che “l’inserimento di ID di sessione negli URL può comportare una scansione incompleta e ridondante del sito”. Dunque, includere nella tua Sitemap ID sessione di URL può provocare l’incremento della scansione duplicata di tali link.

7.     Sbagliare l’inserimento delle date

Sappiamo che i motori di ricerca, e in particolare Google, stanno attribuendo sempre maggiore attenzione all’inserimento delle date nelle pagine web, ma la gestione del “fattore tempo” può essere talvolta problematica per l’inserimento in Sitemap.

Il processo valido per l’inserimento delle date e degli orari del protocollo Sitemaps è usare la codifica W3C Datetime, che consente di gestire tutte le variabili temporali, compresi gli aggiornamenti periodici approssimativi, se pertinenti. I formati accettati sono, ad esempio, anno-mese-giorno (2019-04-28) o, specificando l’ora, 2019-04-28T18:00:15+00:00, indicando anche il fuso orario di riferimento.

Questi parametri possono evitare la scansione di URL che non hanno subito modifiche, e quindi ridurre i requisiti della larghezza di banda e della CPU per i server web.

8.     Non inserire attributi o tag XML obbligatori

Questo è uno degli errori che spesso vengono segnalati dal rapporto Sitemap della Search Console: in alcuni file possono mancare attributi XML obbligatori oppure tag XML obbligatori in una o più voci. All’inverso, è similmente sbagliato inserire tag duplicati in Sitemap: in tutti i casi, bisogna intervenire per correggere il problema e i valori degli attributi, per poi inviare nuovamente la Sitemap.

9.     Creare una sitemap vuota

Chiudiamo con due tipologie di errori tanto gravi quanto marchiani, che in pratica pregiudicano tutto quello che abbiamo detto di positivo e utile sulle mappe. Il primo è davvero da principianti, ovvero salvare un file vuoto che non contiene alcun URL e inviarlo alla Search Console: inutile aggiungere altro.

10.     Rendere una Sitemap non accessibile a Google

L’altro e ultimo problema riguarda un concetto fondamentale per chi lavora online e cerca di competere sui motori di ricerca: per assolvere al suo compito, la Sitemap “deve essere accessibile a e non deve essere bloccata da alcun requisito di accesso”, scrive Google, quindi tutti i blocchi e le limitazioni che sono riscontrate rappresentano un ostacolo al processo.

Un esempio è inserire nel file URL bloccati dal file robots.txt, che quindi non consente a Googlebot di accedere ad alcuni contenuti, che altrimenti non posso essere sottoposti alla normale scansione. Il crawler potrebbe anche avere difficoltà a seguire determinati URL, soprattutto se contengono troppi reindirizzamenti: il suggerimento in questo caso è di “sostituire il reindirizzamento nelle tue Sitemap con gli URL che dovrebbero essere effettivamente sottoposti a scansione” o, nel caso in cui tale redirect sia permanente, di usare appunto un reindirizzamento permanente, come si spiega nelle linee guida di Google.