Nei giorni passati abbiamo focalizzato la nostra attenzione alla spiegazione di che cos’è una sitemap, provando anche a motivare la sua utilità per i siti web: oggi completiamo il discorso fornendo un elenco dei 10 errori di sitemap che possono pregiudicare le prestazioni di un sito e influenzare negativamente i risultati.

1.     Sbagliare formato per la sitemap

L’errore più comune con la sitemap riguarda il formato: Google supporta diverse tipologie di file da inserire in Search Console, attendendo l’utilizzo del protocollo Sitemap standard in tutti i formati e non prevedendo (al momento) l’attributo <priority> nelle Sitemap. I formati accettati sono quello XML, il più diffuso, e poi ancora .txt (file testuale, valido solo se la mappa contiene URL di pagine web e non altre risorse), feed RSS 2.0, mRSS e Atom 1.0, ma Google supporta anche la sintassi espansa delle Sitemap per determinati contenuti multimediali.

2.     Usare codifiche e caratteri non supportati

Caratteri critici per la sitemapUna imprecisione simile, ma più specifica, riguarda il metodo di codifica dei caratteri usati per generare i file Sitemap: lo standard richiesto è la codifica UTF-8, che in genere si può applicate quando si salva il file, e la Guida di Google spiega che “tutti i valori dei dati (inclusi gli URL) devono utilizzare codici di escape” per alcuni caratteri critici (come si vede nell’immagine in pagina).

In dettaglio, una mappa può contenere soltanto caratteri ASCII, mentre non sono supportati caratteri ASCII maiuscoli né particolari codici di controllo e caratteri speciali (ad esempio, asterisco * e parentesi graffe {}). Se si usano questi caratteri nell’URL della Sitemap si genera un errore al momento di aggiungere la Sitemap.

3.     Superare le dimensioni massime dei file

Il terzo problema è frequente con i siti molto estesi, con centinaia di migliaia di pagine e tonnellate di contenuti: le dimensioni massime consentite per un file sitemap sono di 50.000 URL e 50 MB in formato non compresso. Quando il nostro file supera questi limiti, bisogna suddividere la mappa in Sitemap più piccole, creando poi un file Indice Sitemap in cui sono elencate le altre risorse e inviando a Google solo questo file. Questo passaggio serve a evitare “che il server venga sovraccaricato se Google richiede spesso la Sitemap”.

4.     Includere più versioni degli URL

È un inconveniente che si riscontra soprattutto con siti che non hanno completato perfettamente la migrazione da protocollo http a quello https, e quindi presentano pagine che hanno entrambe le versioni: se si includono entrambi gli URL nella Sitemap, il crawler potrebbe eseguire una scansione incompleta e imperfetta del sito.

5.     Inserire URL incompleti, relativi o non uniformi

È poi fondamentale comunicare correttamente agli spider dei motori di ricerca qual è il percorso preciso del collegamento da seguire, perché Googlebot e gli altri eseguono la scansione degli URL esattamente come sono indicati. Pertanto, inserire nel file Sitemap URL relativi, non uniformi o incompleti rappresenta un grave errore, perché genera link non validi. In termini pratici, questo significa che bisogna includere il protocollo, ma anche (se richiesto dal server web) la barra finale: l’indirizzo https://www.esempio.it/ rappresenta dunque un URL valido per una Sitemap, mentre www.esempio.it, https://example.com/ (senza usare il www) o ./mypage.html non lo sono.

6.     Includere ID di sessione nella Sitemap

Il sesto punto è piuttosto specifico: è la pagina delle FAQ del progetto sitemaps a chiarire che “l’inserimento di ID di sessione negli URL può comportare una scansione incompleta e ridondante del sito”. Dunque, includere nella tua Sitemap ID sessione di URL può provocare l’incremento della scansione duplicata di tali link.

7.     Sbagliare l’inserimento delle date

Sappiamo che i motori di ricerca, e in particolare Google, stanno attribuendo sempre maggiore attenzione all’inserimento delle date nelle pagine web, ma la gestione del “fattore tempo” può essere talvolta problematica per l’inserimento in Sitemap.

Il processo valido per l’inserimento delle date e degli orari del protocollo Sitemaps è usare la codifica W3C Datetime, che consente di gestire tutte le variabili temporali, compresi gli aggiornamenti periodici approssimativi, se pertinenti. I formati accettati sono, ad esempio, anno-mese-giorno (2019-04-28) o, specificando l’ora, 2019-04-28T18:00:15+00:00, indicando anche il fuso orario di riferimento.

Questi parametri possono evitare la scansione di URL che non hanno subito modifiche, e quindi ridurre i requisiti della larghezza di banda e della CPU per i server web.

8.     Non inserire attributi o tag XML obbligatori

Questo è uno degli errori che spesso vengono segnalati dal rapporto Sitemap della Search Console: in alcuni file possono mancare attributi XML obbligatori oppure tag XML obbligatori in una o più voci. All’inverso, è similmente sbagliato inserire tag duplicati in Sitemap: in tutti i casi, bisogna intervenire per correggere il problema e i valori degli attributi, per poi inviare nuovamente la Sitemap.

9.     Creare una sitemap vuota

Chiudiamo con due tipologie di errori tanto gravi quanto marchiani, che in pratica pregiudicano tutto quello che abbiamo detto di positivo e utile sulle mappe. Il primo è davvero da principianti, ovvero salvare un file vuoto che non contiene alcun URL e inviarlo alla Search Console: inutile aggiungere altro.

10.     Rendere una Sitemap non accessibile a Google

L’altro e ultimo problema riguarda un concetto fondamentale per chi lavora online e cerca di competere sui motori di ricerca: per assolvere al suo compito, la Sitemap “deve essere accessibile a e non deve essere bloccata da alcun requisito di accesso”, scrive Google, quindi tutti i blocchi e le limitazioni che sono riscontrate rappresentano un ostacolo al processo.

Un esempio è inserire nel file URL bloccati dal file robots.txt, che quindi non consente a Googlebot di accedere ad alcuni contenuti, che altrimenti non posso essere sottoposti alla normale scansione. Il crawler potrebbe anche avere difficoltà a seguire determinati URL, soprattutto se contengono troppi reindirizzamenti: il suggerimento in questo caso è di “sostituire il reindirizzamento nelle tue Sitemap con gli URL che dovrebbero essere effettivamente sottoposti a scansione” o, nel caso in cui tale redirect sia permanente, di usare appunto un reindirizzamento permanente, come si spiega nelle linee guida di Google.

GM