Nella costruzione di un dialogo positivo tra il nostro sito e Googlebot le sitemap hanno un ruolo importante, lo sappiamo; per limitare gli errori – che possono costare molto in termini di indicizzazione delle pagine e di rendimento del sito – possiamo usare gli strumenti della Google Search Console, e in particolare il Rapporto Sitemap. Proprio di questo si parla nel nuovo episodio della webserie Google Search Console Training.

Una guida per le sitemap

La nostra guida è sempre Daniel Waisberg, che inizia a descrivere cosa sia una sitemap mettendo in luce gli aspetti principali di questo file: in breve, “è un segnale di quali URL del tuo sito vuoi che Google scansioni” e può fornire informazioni sugli URL appena creati o modificati.

Google supporta inoltre quattro modalità di sintassi espansa con cui possiamo fornire informazioni aggiuntive, utili per descrivere file e contenuti difficili da analizzare al fine di migliorarne l’indicizzazione: possiamo così descrivere un URL con immagini incluse o con un video, segnalare la presenza di lingue alternative o versioni geolocalizzate con le annotazioni hreflang, oppure (per i siti di news) usare una particolare variante che consente di indicare gli aggiornamenti più recenti.

Google e Sitemap

“Se non ho una Sitemap, Google può comunque trovare tutte le pagine del mio sito?”. Il Search Advocate risponde anche a questa domanda frequente, spiegando che una sitemap potrebbe non essere necessaria se abbiamo un sito relativamente piccolo e con una linking interna appropriata tra le pagine, perché Googlebot dovrebbe essere in grado di scoprire i contenuti senza problemi.

Al contrario, in determinati casi una sitemap è utile e necessaria per aiutare Google a decidere cosa e quando sottoporre a scansione del tuo sito:

  • Se abbiamo un sito molto grande, con il file possiamo indicare una priorità degli URL da scansionare.
  • Se le pagine sono isolate o non ben collegate.
  • Se abbiamo un sito nuovo o con contenuti che cambiano rapidamente.

Ad ogni modo, ci ricorda il Googler, l’uso di una sitemap non garantisce che tutte le pagine sia sottoposte a crawling e indicizzazione, anche se nella maggior parte dei casi fornire questo file ai bot del motore di ricerca può darci benefici (e di sicuro non dà svantaggi). Inoltre, le sitemaps non sostituiscono le scansioni normali e gli URL non inseriti nel file non sono esclusi dal crawling.

Come realizzare una sitemap

Idealmente, il CMS che gestisce il sito può fare automaticamente dei file sitemap, usando dei plugin o delle estensioni (e ricordiamo il progetto per integrare le sitemap di default in WordPress), e Google stesso suggerisce di trovare un modo di creare sitemap in modo automatico anziché manualmente.

Ci sono due limiti alle sitemap, che non possono superare un numero massimo di URL (50mila per file) e una dimensione massima (50 MB non compressa), ma se necessitiamo di più spazio possiamo creare più sitemaps. Possiamo inoltre inviare tutte queste sitemaps insieme sotto forma di un file Indice Sitemap.

Daniel Weisberg ci spiega il rapporto sitemap

Il Rapporto Sitemap della Search Console

Per tenere sotto controllo queste risorse possiamo usare il Rapporto Sitemap in Search Console, che serve per inviare a Google una nuova Sitemap per la proprietà, visualizzare la cronologia di invio, visualizzare eventuali errori riscontrati durante l’analisi e rimuovere file non più rilevanti. Questa azione rimuove la sitemap solo dalla Search Console e non dalla memoria di Google: per cancellare una sitemap dobbiamo rimuoverla dal nostro sito e fornire un 404; dopo vari tentativi, Googlebot smetterà di seguire quella pagina e non aggiornerà più la sitemap.

Lo strumento ci consente di gestire tutte le Sitemaps del sito, a patto che siano state inviate attraverso la Search Console, e quindi non mostra file scoperti attraverso robots.txt o altri metodi (che comunque possono essere sottoposti in GSC anche se già rilevati).

Il rapporto sitemap contiene le informazioni su tutti i file inviati, e in particolare l’URL del file relativo alla radice della proprietà, il tipo o formato (come XML, text, RSS o atom), la data di invio, la data dell’ultima lettura di Google, il crawl status (dell’invio o della scansione), il numero di URL rilevati.

Come leggere gli stati della sitemap

Il rapporto indica tre possibili stati dell’invio o della scansione della sitemap.

  • Completato è la situazione ideale, perché significa che il file è stato caricato ed elaborato in modo corretto e senza errori e che tutti gli URL saranno messi in coda per la scansione.
  • Presenta errori significa che la Sitemap potrebbe essere analizzata, ma presenta uno o più errori; gli URL che potrebbero eventualmente essere analizzati verranno messi in coda per la scansione. Cliccando sulla tabella del rapporto possiamo scoprire maggiori dettagli sui problemi e avere indicazioni sugli interventi di correzione.
  • Impossibile recuperare, se qualche motivo ha impedito il recupero del file. Per scoprire la causa dobbiamo fare un test in tempo reale sulla Sitemap con lo strumento Controllo URL.