Sitemap: cos’è, come si invia a Google e perché è utile per un sito

Provaci

Mettici alla prova

Analizza il tuo sito
Seleziona la lingua del database:

La possiamo definire come una vera e propria mappa che aiuta i motori di ricerca a farsi strada all’interno del nostro sito Web, trovando (e analizzando) più facilmente gli URL inseriti, ed è un elemento cruciale nella costruzione di un dialogo positivo tra il nostro sito e Googlebot, soprattutto per far scoprire le pagine per noi rilevanti. I nostri approfondimenti ci portano oggi ad affrontare un tema apparentemente semplice, eppure spesso sottovalutato: che cos’è una sitemap e perché può essere utile comunicarla a Google e agli altri motori di ricerca?

Che cos’è una Sitemap

La definizione di sitemap è facile: è un file che contiene tutti gli URL di un sito, elencati secondo una gerarchia impostata in fase di creazione. Inizialmente, il senso della sitemap era agevolare la navigazione degli utenti, come una vera mappa del sito, ma la sua utilità si estende anche all’attività di scansione e indicizzazione da parte dei crawler dei motori di ricerca, che così possono comprendere prima e meglio la struttura del sito grazie alle informazioni che reperiscono circa le relazioni tra le pagine.
Più in particolare, questo file “è un segnale di quali URL del tuo sito vuoi che Google scansioni” e può fornire informazioni sugli URL appena creati o modificati.

A cosa serve la Sitemap

Grazie alla sitemap, un crawler dei motori di ricerca come Googlebot può eseguire una scansione più efficiente del sito perché ha a disposizione una panoramica dei contenuti disponibili, con indicazioni delle risorse presenti e sul percorso per raggiungerle.

In linea di massima, i web crawler riescono a trovare la maggior parte dei contenuti se le pagine di un sito sono collegate in modo corretto: usare una mappa è un sistema sicuro per consentire ai motori di ricerca di comprendere più velocemente e in modo preciso l’intera struttura del sito.

L’utilità della Sitemap in Google

Il file della mappa consente infatti ai webmaster di sottoporre le pagine dei siti disponibili per la scansione e fornire informazioni ai crawler sulle pagine stesse e sulle risorse presento sul sito, evidenziando come accennato le gerarchie e le correlazioni tra i vari elementi; inoltre, contiene anche dettagli precisi sulle pagine come data dell’ultimo aggiornamento, frequenza di modifica ed eventuali versioni in altre lingue delle pagine.
Cosa dice il protocollo sitemap

I formati di Sitemap: le varie tipologie

Sono essenzialmente due i formati di Sitemap più utilizzati: il primo è il file Sitemap HTML, più vecchio e usato anche per facilitare la navigazione degli utenti e dunque migliorare la user experience.

Più specifico il formato Sitemap XML, inventato da Google nel 2005 (e chiamato allora Google Sitemaps) e poi adottato anche da altri motori di ricerca: esiste un vero e proprio protocollo, regolamentato dalla Attribution-ShareAlike Creative Commons License, e questo ha reso possibile l’estensione della mappa anche agli altri motori di ricerca.

A questi due tipi bisogna aggiungere per completezza anche le tre tipologie speciali di sitemap, che sono correlate a particolari categorie di contenuti pubblicati sulle pagine, e quindi specifiche per siti che ospitano immagini, video e notizie, e facilitano la comprensione di tali risorse da parte dei motori di ricerca.

Esempio di una sitemap

Che cos’è la Sitemap XML

La guida di Google per i webmaster contiene una voce sulle Sitemap XML, che sono definite come “un file XML contenente gli URL di un sito insieme ai rispettivi metadati” associati, vale a dire importanza rispetto agli altri URL del sito, frequenza generale delle modifiche o data dell’ultimo aggiornamento, che permette “ai motori di ricerca di eseguire la scansione del sito in modo più efficiente”. Grazie a questo sistema, anche i siti dinamici possono fornire URL corretti e assicurarsi una indicizzazione più intelligente, comunicando al motore di ricerca anche informazioni quali la data dell’ultimo aggiornamento della pagina e la presenza di versioni in altre lingue.

I limiti delle Sitemap

Ci sono due requisiti fondamentali da rispettare: tutti i formati di Sitemap non possono superare il limite di 50 MB e 50.000 URL. Se il proprio sito ha un file di dimensioni maggiori o contenente più URL sarà necessario suddividere l’elenco in varie Sitemap o creare un unico file Indice Sitemap (che racchiude un elenco di mappe) da sottoporre a Google.

Uso di Sitemap e indicizzazione delle pagine

È sempre Google a chiarire con precisione alcuni aspetti su questo tema: innanzitutto, “l’utilizzo del Protocollo Sitemap non garantisce l’inclusione delle pagine web nei motori di ricerca”, e quindi non c’è certezza che le pagine presenti nel file della mappa siano tutte poi effettivamente indicizzate, perché Googlebot agisce secondo i propri criteri e rispettando i propri algoritmi complessi, che non sono influenzati dalla Sitemap.

Uso di Sitemap e posizionamento su Google

Anche sul posizionamento ci sono delle informazioni utili: la Sitemap non influisce sul ranking delle pagine di un sito nei risultati di ricerca, ma la priorità assegnata a una pagina attraverso la Sitemap potrebbe potenzialmente rappresentare un fattore di ranking.

Perché usare le Sitemap secondo Google

Dopo queste premesse, a che serve in concreto usare una Sitemap? Ovviamente, tutti i siti possono beneficiare di una scansione migliore, ma ci sono casi particolari in cui Google consiglia vivamente di usare questi file, come leggiamo in questa guida sul tema. Innanzitutto, siti molto grandi devono usare la Sitemap per comunicare le pagine nuove o aggiornate di recente ai crawler, che altrimenti potrebbero trascurare la scansione di queste risorse; ancor più utile la mappa se il sito ha molte pagine di contenuti isolate o non ben collegate, che rischiano quindi di non essere considerate da Google.

Quali siti devono usare la Sitemap

La Sitemap è consigliata poi per i siti nuovi e con pochi backlink in ingresso: in questo caso, Google e il suo crawler potrebbero avere difficoltà a trovare il sito perché non si evidenziano percorsi tra i link del Web. Infine, si invita a usare la mappa se il sito “utilizza contenuti multimediali, viene visualizzato in Google News o utilizza altre annotazioni compatibili con le sitemap”, aggiungendo che se “appropriato, Google può prendere in considerazione altre informazioni contenute nelle Sitemap per utilizzarle ai fini della ricerca”.

E quindi, ricapitolando, la sitemap è utile se:

  • Il sito è grande, perché generalmente sui siti di grandi dimensioni è più difficile assicurarsi che ogni pagina sia collegata da almeno un’altra pagina del sito, e quindi è più probabile che Googlebot non rilevi alcune delle pagine nuove.
  • Il sito è nuovo e riceve pochi backlink. Googlebot e altri web crawler eseguono la scansione del Web seguendo i collegamenti da una pagina all’altra, quindi in assenza di tali link Googlebot potrebbe non rilevare le pagine.
  • Il sito ha molti contenuti multimediali (video, immagini) o viene visualizzato in Google News, perché possiamo fornire ulteriori informazioni ai crawler attraverso le specifiche sitemap.

A quali siti potrebbe non servire una sitemap

Se questi sono i casi in cui Google raccomanda fortemente l’invio di una sitemap, ci sono invece situazioni in cui non è così necessario provvedere a fornire il file. In particolare, potremmo non aver bisogno di una mappa del sito se:

  • Il sito è “piccolo” e ospita circa 500 pagine o meno (calcolando solo le pagine che riteniamo debbano essere incluse nei risultati di ricerca).
  • Il sito è completamente linkato internamente e Google può quindi trovare tutte le pagine importanti seguendo i link a partire dalla home page.
  • Non pubblichiamo molti file multimediali (video, immagini) o pagine di notizie che desideriamo visualizzare nei risultati di ricerca. Le Sitemap possono aiutare Google a trovare e comprendere file video e immagini o articoli di notizie sul sito, ma non necessitiamo che questi risultati vengano visualizzati nella Ricerca, potremmo non inviare il file.

Come creare una Sitemap

Per generare una Sitemap bisogna innanzitutto decidere quali pagine del sito si desidera indicare e sottoporre a scansione da parte di Google, stabilendo la versione canonica di ogni pagina. Il secondo passaggio è la scelta del formato Sitemap da utilizzare, per poi mettersi all’opera con editor di testo o software appositi, oppure affidarsi a un’alternativa più facile e veloce, alla portata di tutti.

Creare una mappa con Sitemap Generator

Se infatti i più esperti possono creare manualmente il file, in Rete si trovano molte risorse che consentono di generare sitemap in automatico: su Google è presente addirittura una pagina che elenca i Web Sitemap generator, suddivisi per “server-side programs”, “CMS and other plugins”, “Downloadable Tools”, “Online Generators/Services”, “CMS with integrated Sitemap generators”. Inoltre, sono segnalati anche gli strumenti per generare sitemap per Google News e “Code Snippets/Libraries”.

Qualunque sia la scelta, è fondamentale mettere subito la Sitemap creata a disposizione di Google, aggiungendola al file robots.txt o inviandola direttamente alla Search Console.

I vantaggi della Sitemap

In definitiva, dunque, usare una Sitemap è un metodo per facilitare la vita dei crawler e per fornire una mappa dei contenuti del proprio sito a Googlebot. Pur non garantendo che gli elementi indicati siano poi effettivamente scansionati e indicizzati, si consiglia di usare sempre una Sitemap perché “nella maggior parte dei casi l’esistenza di una Sitemap costituisce comunque un vantaggio per il tuo sito e non verrai mai penalizzato per il fatto di averne una”, come dice Google.

Creare e inviare una sitemap, la nuova guida di Google

Nel mese di febbraio 2023 Google ha aggiornato la documentazione ufficiale di supporto alla creazione e all’invio di una sitemap, indicando le procedure consigliate per eseguire tutti i passaggi in modo corretto.

Nello specifico, la guida descrive come creare una sitemap e renderla disponibile a Google, iniziando a indicando quali sono i formati supportati – ovvero, quelli definiti dal protocollo delle sitemaps – e sottolineando che Google non ha una preferenza specifica, anche perché ogni sitemap ha i suoi vantaggi e difetti (e quindi la scelta sul tipo dipende da quello che si rivela più appropriato per il nostro sito e la nostra configurazione).

Formati di sitemap per Google: i pro e i contro

Come si vede anche dalla schermata qui sotto, Google riconosce e accetta tre formati:

  • Le sitemap XML sono le più versatili, perché facili da estendere e modificare, e possono servire anche per fornire dati aggiuntivi su immagini, video e contenuti di notizie, nonché per le versioni localizzate delle pagine. Tra i pro, quindi, ci sono appunto l’essere estendibile e versatile, oltre che la capacità di fornire molte informazioni sugli URL e di poter essere facilmente generate anche con plugin per i principali CMS; tra i contro, non sempre lavorarci è comodo e, in particolare, può essere complesso mantenere la mappatura su siti più grandi o siti in cui gli URL cambiano spesso.
  • RSS, mRSS, and Atom 1.0 hanno una struttura simile alle sitemap XML, tuttavia sono spesso più facili da fornire perché i CMS le creano automaticamente. Quindi, tra i pro troviamo appunto la possibilità di generazione automatica di feed RSS e Atom attraverso i CMS e la possibilità di utilizzare tali file anche per fornire a Google informazioni sui video, mentre tra i contro ci sono l’impossibilità di fornire informazioni su immagini o notizie e una generale difficoltà nel lavorarci.
  • Il testo è il più semplice dei formati e può elencare solo gli URL in HTML e altre pagine indicizzabili. Il suo vantaggio è proprio la semplicità di utilizzo e gestione, soprattutto su siti di grandi dimensioni, ma ha lo svantaggio di essere limitato a HTML e altre pagine indicizzabili.

I formati di sitemap supportati

Le caratteristiche dei vari formati di sitemap

Andando ancora più in profondità, Google descrive le principali caratteristiche dei tre formati disponibili per creare sitemap.

  • Come detto, la sitemap XML è il più versatile dei formati supportati: utilizzando le estensioni supportate da Google, possiamo anche fornire informazioni aggiuntive su immagini, video e contenuti di notizie , nonché sulle versioni localizzate delle pagine. Nell’esempio qui sotto, la mappa include la posizione di un singolo URL:

COme creare sitemap xml

Inoltre, la guida segnala che:

    • Come con tutti i file XML, tutti i valori dei tag devono usare codici entity escaped.
    • Google ignora valori <priority> e <changefreq>.
    • Google utilizza il valore <lastmod> se è accurato in modo coerente e verificabile (ad esempio confrontandolo con l’ultima modifica della pagina).
  • La sitemap RSS, mRSS e Atom 1.0 è consigliata se abbiamo un blog con un feed RSS o Atom, e basta inviare l’URL del feed come mappa del sito. La maggior parte dei software per blog è in grado di creare un feed per noi, ma dobbiamo essere consapevoli che questo feed fornisce solo informazioni sugli URL recenti.

Tra le note aggiuntive, Google ricorda che:

    • Google accetta i feed RSS 2.0 e Atom 1.0.
    • Possiamo utilizzare un feed mRSS (RSS multimediale) per fornire a Google dettagli sui contenuti video del sito.
    • Come con tutti i file XML, tutti i valori dei tag devono usare codici entity escaped.
  • Infine, se la sitemap include solo URL di pagine web, possiamo fornire a Google un semplice file di testo contenente un URL per riga, come nell’esempio:

Sitemap testuale

In aggiunta, Google ricorda che:

    • Non possiamo inserire nient’altro che URL nel file della sitemap.
    • Possiamo nominare il file di testo come preferiamo, a condizione di lasciare l’estensione .txt (ad esempio, sitemap.txt).

Come creare una sitemap: strumenti e modalità

Dopo aver deciso quali URL includere nella mappa del sito, abbiamo a disposizione diversi modi per creare il file, a seconda dell’architettura e delle dimensioni del sito:

  • Lasciare che il tuo CMS generi una sitemap. Se utilizziamo un CMS come WordPress, Wix o Blogger, è probabile che la sitemap sia già resa disponibile ai motori di ricerca.
  • Creare manualmente una Sitemap (per i file con meno di qualche decina di URL). Per farlo, basta un editor di testo come Windows Notepad o Nano (Linux, MacOS) e seguire la sintassi prima descritta, badando a nominare il file con caratteri consentiti in un URL. Questo processo è fattibile anche per file più grandi, ma è un processo noioso e difficile da mantenere a lungo termine.
  • Generare automaticamente una Sitemap (per i file con più di qualche decina di URL). Ci sono vari strumenti che possono generare una sitemap ma, secondo Google, il modo migliore è fare in modo che il software del sito web lo generi in modo automatico. Ad esempio, possiamo estrarre gli URL del sito dal database e quindi esportare gli URL sullo schermo o sul file effettivo sul server web.

Come inviare la sitemap a Google

Premesso che l’invio di una mappa del sito è solo un suggerimento e non garantisce che Google scaricherà o utilizzerà la stessa per eseguire la scansione degli URL sul sito, la guida indica i diversi modi per rendere disponibile la Sitemap a Google. Possiamo cioè:

  • Inviare una mappa del sito in Search Console utilizzando il rapporto Sitemap, che ci consentirà di vedere quando Googlebot ha avuto accesso alla mappa del sito e anche potenziali errori di elaborazione.
  • Utilizzare l’API di Search Console per inviare in modo programmatico una mappa del sito.
  • Usare lo strumento ping. Inviare una richiesta GET nel browser o dalla riga di comando a questo indirizzo, specificando l’URL completo della mappa del sito – badando che che il file Sitemap sia accessibile a Googlebot:

ping tool per invio sitemap

  • Inserire la riga seguente in un punto qualsiasi del file robots.txt, specificando il percorso della mappa del sito, che Google troverà alla successiva scansione del file robots.txt.

Invio sitemap in robots

  • Utilizzare WebSub per trasmettere le modifiche ai motori di ricerca, incluso Google (ma solo se usiamo Atom o RSS).

I metodi per l’invio incrociato di sitemap per più siti

Se gestiamo più siti web, possiamo semplificare il processo di invio creando una o più Sitemap che includano gli URL di tutti i siti verificati e salvando le Sitemap in un’unica posizione. I metodi per questo invio multiplo e incrociato sono:

  • Una singola mappa del sito che include URL per più siti web, inclusi siti di domini diversi. Ad esempio, la mappa del sito che si trova in https://host1.example.com/sitemap.xml può includere i seguenti URL.
    • https://host1.example.com
    • https://host2.example.com
    • https://host3.example.com
    • https://host1.example1.com
    • https://host1.example.ch

Sitemap individuali (una per ogni sito) che risiedono tutte in un’unica posizione.

    • https://host1.example.com/host1-example-sitemap.xml
    • https://host1.example.com/host2-example-sitemap.xml
    • https://host1.example.com/host3-example-sitemap.xml
    • https://host1.example.com/host1-example1-sitemap.xml
    • https://host1.example.com/host1-example-ch-sitemap.xml

Per inviare sitemap tra siti ospitate in un’unica posizione, possiamo utilizzare Search Console o robots.txt.

In particolare, con Search Console dobbiamo innanzitutto aver verificato la proprietà di tutti i siti che aggiungeremo nella mappa del sito, e poi crea una o più sitemap includendo gli URL di tutti i siti che desideriamo coprire. Se preferiamo, dice la guida, possiamo includere le mappe dei siti in un file indice delle sitemap e lavorare con quell’indice. Utilizzando Google Search Console, invieremo le sitemap o il file dell’indice.

Se preferiamo l’invio incrociato di Sitemap con robots.txt dobbiamo creare una o più sitemap per ogni singolo sito e, per ogni singolo file, includere solo gli URL di quel particolare sito. Successivamente, caricheremo tutte le sitemap su un singolo sito su cui abbiamo il controllo, ad esempio https://sitemaps.example.com.

Per ogni singolo sito, dobbiamo controllare che il file robots.txt faccia riferimento alla sitemap per quel singolo sito. Ad esempio, se abbiamo creato una mappa del sito per https://example.com/ e stiamo ospitando la mappa del sito in https://sitemaps.example.com/sitemap-example-com.xml, faremo riferimento alla mappa del sito nel file robots.txt in https://example.com/robots.txt.

Le best practices con le sitemap

La documentazione di Google riporta anche alcuni consigli pratici sul tema, riprendendo quando indicato dal citato sitemaps protocol, e in particolare si concentra su limiti di dimensione, posizione del file e URL inclusi nelle mappe.

  • Per quanto riguarda i limiti, vale quanto scritto prima: tutti i formati limitano una singola Sitemap a 50 MB (non compressi) o 50.000 URL. Se abbiamo un file più grande o più URL, è necessario suddividere la Sitemap in più Sitemap di dimensioni inferiori e, facoltativamente, creare un file sitemap index e inviare solo questo indice a Google – oppure inviare più Sitemap e anche il file Indice Sitemap, in modo particolare se desideriamo monitorare le prestazioni di ricerca di ogni singola sitemap in Search Console.
  • Google non bada all’ordine degli URL nella sitemap e l’unico limite è quello dimensionale.
  • Codifica e posizione del file sitemap: il file deve essere codificato in UTF-8. Possiamo ospitare le sitemap ovunque sul tuo sito, ma consapevoli che una mappa del sito influisce solo sui discendenti della directory principale: pertanto, una sitemap pubblicata nella root del sito può influire su tutti i file del sito, motivo per cui è questa la posizione consigliata.
  • Proprietà degli URL di riferimento: dobbiamo utilizzare URL completi e assoluti nelle Sitemap. Google eseguirà la scansione degli URL esattamente come elencati. Ad esempio, se il sito si trova in https://www.example.com/, non dobbiamo specificare un URL come /mypage.html (un URL relativo), ma l’URL completo e assoluto: https://www.example.com/mypage.html.
  • Nella sitemap includeremo gli URL che desideriamo visualizzare nei risultati di ricerca di Google. Di solito, il motore di ricerca mostra gli URL canonici nei suoi risultati di ricerca, e possiamo influenzare questa decisione con le sitemap. Se disponiamo di URL diversi per le versioni mobile e desktop di una pagina, la guida consiglia di puntare a una sola versione in una Sitemap o, in alternativa, puntare a entrambi gli URL ma annotando gli URL per indicare le versioni desktop e mobile.
  • Quando creiamo una sitemap del sito, comunichiamo ai motori di ricerca quali URL preferiamo mostrare nei risultati di ricerca e quindi gli URL canonici: quindi, se abbiamo lo stesso contenuto accessibile con URL diversi, dobbiamo scegliere l’URL preferito includendolo nella mappa del sito ed escludendo tutti gli URL che portano allo stesso contenuto.

Quali pagine escludere dalle sitemap

Allargando il discorso sulle pratiche consigliate, non dobbiamo pensare che il file serva a contenere tutti gli URL del sito, e anzi ci sono alcune tipologie di pagina che andrebbero escluse per impostazione predefinita, perché poco utili.

In linea generale, nella sitemap andrebbero inclusi solo gli URL rilevanti, quelli che offrono valore aggiunto agli utenti e che desideriamo siano visibili nella Ricerca; tutti gli altri andrebbero esclusi dal file (e ciò comunque non assicura che siano “invisibili”, a meno di non aggiungere un tag “no-index”), e ciò vale in particolare per:

  • Pagine non canoniche
  • Pagine duplicate
  • Pagine di paginazione
  • URL con parametri
  • Pagine dei risultati di ricerca del sito
  • URL creati dalle opzioni di filtro
  • Pagine d’archivio
  • Eventuali reindirizzamenti (3xx), pagine mancanti (4xx) o pagine di errore del server (5xx)
  • Pagine bloccate da robots.txt
  • Pagine no-index
  • Pagine accessibili da un modulo lead gen (PDF, ecc.)
  • Pagine di utilità (pagina di accesso, pagine della lista dei desideri/carrello, ecc.)

Una guida per gestire le Sitemap con la Google Search Console

Gli strumenti della Google Search Console, e in particolare il Rapporto Sitemap, ci permettono di facilitare la comunicazione con i crawler del motore di ricerca, come spiegato anche da un episodio della webserie Google Search Console Training, in cui Daniel Waisberg ci accompagna alla scoperta di questo argomento.

In particolare, il Developer Advocate ci ricorda che Google supporta quattro modalità di sintassi espansa con cui possiamo fornire informazioni aggiuntive, utili per descrivere file e contenuti difficili da analizzare al fine di migliorarne l’indicizzazione: possiamo così descrivere un URL con immagini incluse o con un video, segnalare la presenza di lingue alternative o versioni geolocalizzate con le annotazioni hreflang, oppure (per i siti di news) usare una particolare variante che consente di indicare gli aggiornamenti più recenti.

Google e Sitemap

“Se non ho una Sitemap, Google può comunque trovare tutte le pagine del mio sito?”. Il Search Advocate risponde anche a questa domanda frequente, spiegando che una sitemap potrebbe non essere necessaria se abbiamo un sito relativamente piccolo e con una linking interna appropriata tra le pagine, perché Googlebot dovrebbe essere in grado di scoprire i contenuti senza problemi. Inoltre, potremmo non aver bisogno di questo file se abbiamo pochi file multimediali (video e immagini) o pagine di notizie che intendiamo mostrare nei risultati di ricerca appropriati.

Al contrario, in determinati casi una sitemap è utile e necessaria per aiutare Google a decidere cosa e quando sottoporre a scansione del tuo sito:

  • Se abbiamo un sito molto grande, con il file possiamo indicare una priorità degli URL da scansionare.
  • Se le pagine sono isolate o non ben collegate.
  • Se abbiamo un sito nuovo (e quindi poco linkato da siti esterni) o con contenuti che cambiano rapidamente.
  • Se il sito include molti contenuti rich media (video, immagini) o viene visualizzato in Google News.

Ad ogni modo, ci ricorda il Googler, l’uso di una sitemap non garantisce che tutte le pagine sia sottoposte a crawling e indicizzazione, anche se nella maggior parte dei casi fornire questo file ai bot del motore di ricerca può darci benefici (e di sicuro non dà svantaggi). Inoltre, le sitemaps non sostituiscono le scansioni normali e gli URL non inseriti nel file non sono esclusi dal crawling.

Come realizzare una sitemap

Idealmente, il CMS che gestisce il sito può fare automaticamente dei file sitemap, usando dei plugin o delle estensioni (e ricordiamo il progetto per integrare le sitemap di default in WordPress), e Google stesso suggerisce di trovare un modo di creare sitemap in modo automatico anziché manualmente.

Ci sono due limiti alle sitemap, che non possono superare un numero massimo di URL (50mila per file) e una dimensione massima (50 MB non compressa), ma se necessitiamo di più spazio possiamo creare più sitemaps. Possiamo inoltre inviare tutte queste sitemaps insieme sotto forma di un file Indice Sitemap.

Daniel Weisberg ci spiega il rapporto sitemap

Il Rapporto Sitemap della Search Console

Per tenere sotto controllo queste risorse possiamo usare il Rapporto Sitemap in Search Console, uno degli strumenti per webmaster più utili, che serve per inviare a Google una nuova Sitemap per la proprietà, visualizzare la cronologia di invio, visualizzare eventuali errori riscontrati durante l’analisi e rimuovere file non più rilevanti. Questa azione rimuove la sitemap solo dalla Search Console e non dalla memoria di Google: per cancellare una sitemap dobbiamo rimuoverla dal nostro sito e fornire un 404; dopo vari tentativi, Googlebot smetterà di seguire quella pagina e non aggiornerà più la sitemap.

Lo strumento ci consente di gestire tutte le Sitemaps del sito, a patto che siano state inviate attraverso la Search Console, e quindi non mostra file scoperti attraverso robots.txt o altri metodi (che comunque possono essere sottoposti in GSC anche se già rilevati).

Il rapporto sitemap contiene le informazioni su tutti i file inviati, e in particolare l’URL del file relativo alla radice della proprietà, il tipo o formato (come XML, text, RSS o atom), la data di invio, la data dell’ultima lettura di Google, il crawl status (dell’invio o della scansione), il numero di URL rilevati.

Usare il rapporto sitemap in Search Console

Come leggere gli stati della sitemap

Il rapporto indica tre possibili stati dell’invio o della scansione della sitemap.

  • Completato è la situazione ideale, perché significa che il file è stato caricato ed elaborato in modo corretto e senza errori e che tutti gli URL saranno messi in coda per la scansione.
  • Presenta errori significa che la Sitemap potrebbe essere analizzata, ma presenta uno o più errori; gli URL che potrebbero eventualmente essere analizzati verranno messi in coda per la scansione. Cliccando sulla tabella del rapporto possiamo scoprire maggiori dettagli sui problemi e avere indicazioni sugli interventi di correzione.
  • Impossibile recuperare, se qualche motivo ha impedito il recupero del file. Per scoprire la causa dobbiamo fare un test in tempo reale sulla Sitemap con lo strumento Controllo URL.

Sitemap XML, 3 passaggi per migliorare la SEO

Nonostante tutte le accortezze che possiamo usare, ci sono comunque situazioni in cui la sitemap presenta criticità che possono diventare un ostacolo per le prestazioni organiche; per evitare noie e problemi, ci sono tre passaggi fondamentali da valutare, che possono anche a migliorare la SEO, come suggerisce un articolo pubblicato da searchengineland che ci segnala una rapida checklist da seguire per le nostre sitemap fornite ai crawler dei motori di ricerca, utili a evitare errori come l’assenza di URL importanti (che potenzialmente quindi potrebbero non essere indicizzati) o l’inserimento di URL sbagliati.

Verificare la presenza degli URL prioritari e rilevanti

Il primo passo è verificare che abbiamo inserito nella sitemap tutti gli URL chiave del sito, quelli cioè che rappresentano il cardine della nostra strategia online.

Una Sitemap XML può essere statica, rappresentando quindi un’istantanea del sito Web al momento della creazione (e quindi non più aggiornata successivamente) oppure, in maniera più efficace, dinamica. La sitemap dinamica è preferibile perché si aggiorna automaticamente, ma le impostazioni devono essere controllate per assicurarci di non escludere sezioni o URL centrali per il sito.

Per verificare che le pagine rilevanti siano tutte incluse nella sitemap possiamo fare anche una semplice ricerca con il comando site: di Google, così da scoprire immediatamente se i nostri URL chiave sono stati correttamente indicizzati. Un metodo più diretto è usare alcuni strumenti di crawling con cui confrontare le pagine effettivamente indicizzate e quelle inserite nella sitemap sottoposta al motore di ricerca.

Controllare se sono inseriti URL da rimuovere

Di segno completamente opposto il secondo controllo: non tutti gli URL vanno inseriti nella sitemap XML ed è anzi meglio evitare di includere indirizzi che abbiano determinate caratteristiche, come

Una sitemap XML dovrebbe normalmente contenere solo URL indicizzabili, che rispondono con un codice di stato 200 e che sono collegati all’interno del sito Web. Includere altre tipologie di pagine, come quelle indicate, potrebbe contribuire a peggiorare il crawl budget e potenzialmente causare problemi, come l’indicizzazione di URL orfani.

Fare una scansione della sitemap con gli strumenti di crawling permette di evidenziare se ci sono risorse inserite in maniera errata e, quindi, di intervenire per rimuoverle.

Accertarci che Google abbia indicizzato tutti gli URL della sitemap XML

L’ultimo step riguarda il modo in cui Google ha recepito la nostra mappa: per avere un’idea migliore di quali URL siano stati effettivamente indicizzati, dobbiamo inviare la Sitemap in Search Console e usare il citato rapporto Sitemap e il rapporto sullo stato della copertura dell’indice, che ci offrono indicazioni sulla copertura del motore di ricerca.

In particolare, l’index coverage report ci permette di controllare la sezione degli Errori (che mette in luce problemi con le mappe come URL che generano un errore 404) e quella degli URL Esclusi (pagine che non sono state indicizzate e non appaiono su Google), indicando anche i motivi di questa assenza.

Se si tratta di pagine utili – non duplicate né bloccate – potrebbe esserci un problema di qualità, come i famosi thin content o contenuti sottili, o uno status code non corretto, in particolare per le pagine scansionate ma attualmente non indicizzate (Google ha scelto di non inserire per ora la pagina nell’Indice) e per le pagine rilevate, ma non indicizzate (Google ha provato a fare una scansione, ma il sito era sovraccarico), e quindi è il caso di intervenire con opportune ottimizzazioni onsite.

Sitemap, i 10 errori da non commettere su un sito

Se questi sono alcuni dei check prioritari da fare per verificare che la sitemap che abbiamo creato e sottoposto a Google sia efficace e valida, è bene poi avere un quadro anche dei possibili errori presenti nelle sitemap, così da poter capire più facilmente se nel nostro processo di creazione del file siamo incappati in una situazione simile.

Questo, nello specifico, è un elenco dei 10 errori di sitemap che possono pregiudicare le prestazioni di un sito e influenzare negativamente i risultati nella ricerca organica.

1.     Sbagliare formato per la sitemap

L’errore più comune con la sitemap riguarda il formato: Google supporta diverse tipologie di file da inserire in Search Console, attendendo l’utilizzo del protocollo Sitemap standard in tutti i formati e non prevedendo (al momento) l’attributo <priority> nelle Sitemap. I formati accettati sono quello XML, il più diffuso, e poi ancora .txt (file testuale, valido solo se la mappa contiene URL di pagine web e non altre risorse), feed RSS 2.0, mRSS e Atom 1.0, ma Google supporta anche la sintassi espansa delle Sitemap per determinati contenuti multimediali.

2.     Usare codifiche e caratteri non supportati

Caratteri critici per la sitemapUna imprecisione simile, ma più specifica, riguarda il metodo di codifica dei caratteri usati per generare i file Sitemap: lo standard richiesto è la codifica UTF-8, che in genere si può applicate quando si salva il file, e la Guida di Google spiega che “tutti i valori dei dati (inclusi gli URL) devono utilizzare codici di escape” per alcuni caratteri critici (come si vede nell’immagine in pagina).

In dettaglio, una mappa può contenere soltanto caratteri ASCII, mentre non sono supportati caratteri ASCII maiuscoli né particolari codici di controllo e caratteri speciali (ad esempio, asterisco * e parentesi graffe {}). Se si usano questi caratteri nell’URL della Sitemap si genera un errore al momento di aggiungere la Sitemap.

3.     Superare le dimensioni massime dei file

Il terzo problema è frequente con i siti molto estesi, con centinaia di migliaia di pagine e tonnellate di contenuti: le dimensioni massime consentite per un file sitemap sono di 50.000 URL e 50 MB in formato non compresso. Quando il nostro file supera questi limiti, bisogna suddividere la mappa in Sitemap più piccole, creando poi un file Indice Sitemap in cui sono elencate le altre risorse e inviando a Google solo questo file. Questo passaggio serve a evitare “che il server venga sovraccaricato se Google richiede spesso la Sitemap”.

4.     Includere più versioni degli URL

È un inconveniente che si riscontra soprattutto con siti che non hanno completato perfettamente la migrazione da protocollo http a quello https, e quindi presentano pagine che hanno entrambe le versioni: se si includono entrambi gli URL nella Sitemap, il crawler potrebbe eseguire una scansione incompleta e imperfetta del sito.

5.     Inserire URL incompleti, relativi o non uniformi

È poi fondamentale comunicare correttamente agli spider dei motori di ricerca qual è il percorso preciso del collegamento da seguire, perché Googlebot e gli altri eseguono la scansione degli URL esattamente come sono indicati. Pertanto, inserire nel file Sitemap URL relativi, non uniformi o incompleti rappresenta un grave errore, perché genera link non validi. In termini pratici, questo significa che bisogna includere il protocollo, ma anche (se richiesto dal server web) la barra finale: l’indirizzo https://www.esempio.it/ rappresenta dunque un URL valido per una Sitemap, mentre www.esempio.it, https://example.com/ (senza usare il www) o ./mypage.html non lo sono.

6.     Includere ID di sessione nella Sitemap

Il sesto punto è piuttosto specifico: è la pagina delle FAQ del progetto sitemaps a chiarire che “l’inserimento di ID di sessione negli URL può comportare una scansione incompleta e ridondante del sito”. Dunque, includere nella tua Sitemap ID sessione di URL può provocare l’incremento della scansione duplicata di tali link.

7.     Sbagliare l’inserimento delle date

Sappiamo che i motori di ricerca, e in particolare Google, stanno attribuendo sempre maggiore attenzione all’inserimento delle date nelle pagine web, ma la gestione del “fattore tempo” può essere talvolta problematica per l’inserimento in Sitemap.

Il processo valido per l’inserimento delle date e degli orari del protocollo Sitemaps è usare la codifica W3C Datetime, che consente di gestire tutte le variabili temporali, compresi gli aggiornamenti periodici approssimativi, se pertinenti. I formati accettati sono, ad esempio, anno-mese-giorno (2019-04-28) o, specificando l’ora, 2019-04-28T18:00:15+00:00, indicando anche il fuso orario di riferimento.

Questi parametri possono evitare la scansione di URL che non hanno subito modifiche, e quindi ridurre i requisiti della larghezza di banda e della CPU per i server web.

8.     Non inserire attributi o tag XML obbligatori

Questo è uno degli errori che spesso vengono segnalati dal rapporto Sitemap della Search Console: in alcuni file possono mancare attributi XML obbligatori oppure tag XML obbligatori in una o più voci. All’inverso, è similmente sbagliato inserire tag duplicati in Sitemap: in tutti i casi, bisogna intervenire per correggere il problema e i valori degli attributi, per poi inviare nuovamente la Sitemap.

9.     Creare una sitemap vuota

Chiudiamo con due tipologie di errori tanto gravi quanto marchiani, che in pratica pregiudicano tutto quello che abbiamo detto di positivo e utile sulle mappe. Il primo è davvero da principianti, ovvero salvare un file vuoto che non contiene alcun URL e inviarlo alla Search Console: inutile aggiungere altro.

10.     Rendere una Sitemap non accessibile a Google

L’altro e ultimo problema riguarda un concetto fondamentale per chi lavora online e cerca di competere sui motori di ricerca: per assolvere al suo compito, la Sitemap “deve essere accessibile a e non deve essere bloccata da alcun requisito di accesso”, scrive Google, quindi tutti i blocchi e le limitazioni che sono riscontrate rappresentano un ostacolo al processo.

Un esempio è inserire nel file URL bloccati dal file robots.txt, che quindi non consente a Googlebot di accedere ad alcuni contenuti, che altrimenti non posso essere sottoposti alla normale scansione. Il crawler potrebbe anche avere difficoltà a seguire determinati URL, soprattutto se contengono troppi reindirizzamenti: il suggerimento in questo caso è di “sostituire il reindirizzamento nelle tue Sitemap con gli URL che dovrebbero essere effettivamente sottoposti a scansione” o, nel caso in cui tale redirect sia permanente, di usare appunto un reindirizzamento permanente, come si spiega nelle linee guida di Google.

Iscriviti alla newsletter

Prova SEOZoom

7 giorni di Prova Gratuita

Inizia ad aumentare il tuo traffico con SEOZoom!
TOP