La canonicalizzazione non significa un raggruppamento per topic, ma è un sistema per assegnare la priorità a un URL da un insieme di pagine dal contenuto identico o quasi, per ridurre le duplicazioni: è con questa affermazione che si apre il nuovo episodio di SEO Mythbusting season 2, la serie di Google su YouTube in cui si affrontano i principali “falsi miti” della SEO.

I principali falsi miti sulla canonicalization

Nell’ultimo video, l’ospite e interlocutrice dell’host Martin Splitt è Rachel Costello (Technical SEO Consultant presso Builtvisible e già Technical SEO & Content Manager di DeepCrawl, incarico ricoperto all’epoca della registrazione), e il tema centrale è appunto la Canonicalization o canonicalizzazione.

Splitt e Costello parlano di canonicalizzazione

Ovvero, come sintetizza il Googler, la “gestione dei doppioni” tra i contenuti pubblicati da un sito per segnalare la versione preferita della pagina da mostrare nella Ricerca e rimuovere le duplicazioni, da un lato per non rischiare la cannibalizzazione delle keyword e, dall’altro, per evitare a Google di dover sottoporre a scansione più volte le stesse cose – perché Google non vuole fare crawl o rendering multipli in modo inutile, né servire lo stesso contenuto proposto in URL differenti, perché questi non sarebbero buoni risultati di ricerca.

In generale, i falsi miti su questo topic includono i dubbi se la canonicalizzazione sia un segnale o una direttiva, se possa essere utilizzata come reindirizzamento, e poi ancora le preferenze del sito rispetto alle preferenze dell’utente e altro ancora.

Le interpretazioni sbagliate sul canonical

Secondo l’esperienza di Costello, sono due le principali credenze sbagliate maggiormente diffuse su questo tema: innanzitutto, “le persone pensano che sia una direttiva, impostano un tag canonical e sarà accettato”. In realtà, il canonical è un suggerimento HTML che un sito può impostare per segnalare a un motore di ricerca quale sia l’URL principale da usare per una pagina/contenuto.

Un altro caso frequente di misconcezione è l’utilizzo della canonicalizzazione come una redirection: “Se hai una pagina di prodotto che non è disponibile, aggiungi un canonical a quella pagina di categoria”, dice l’esperta, aggiungendo che “non funziona proprio così”, perché “i contenuti devono essere identici o quasi identici”, come conferma Martin Splitt.

Le spiegazioni di Google

Ed è proprio il Developer Advocate di Google a chiarire questi dubbi e spiegare per bene che cos’è la canonicalizzazione: innanzitutto, non è una direttiva – ovvero un’istruzione che i motori di ricerca sono tenuti a rispettare – ma un segnale, vale a dire un hint, un suggerimento, che aiuta i motori di ricerca a capire cosa vogliamo canonicalizzare (a cosa vogliamo dare importanza e priorità nella Ricerca), ma che gli stessi motori di ricerca possono decidere se usare o meno.

La canonicalizzazione non è una direttiva

Quando si parla di canonicalizzazione, dice Splitt, “stiamo parlando di rilevare il contenuto o lo stesso contenuto o un contenuto molto simile che esiste su indirizzi diversi e i diversi URL”, e Google può “fare molte cose diverse per identificare queste cose”. Ad esempio, può semplicemente fare crawling di più pagine e scoprire che trattano lo stesso contenuto, o ancora vedere se gli URL usano gli stessi link e lo stesso tipo di contesto, o appunto usare il tag canonical.

Bisogna cioè comprendere che Google usa molti segnali diversi per “capire se qualcosa ha lo stesso contenuto o meno”, e la canonicalization tramite il tag canonical è solo uno di questi. Per renderlo efficace, però, è necessario impostare bene il canonical tag: non funzionerà “metterlo su pagine che non hanno lo stesso contenuto, ma non va bene neppure metterlo su ognuna delle pagine identiche”.

Come segnalare la canonicalizzazione

Usare bene la canonicalizzazione di una pagina evita di demandare del tutto la scelta a Googlebot sulla pagina migliore da mostrare tra i risultati di ricerca: oltre allo specifico tag, ci sono come accennato altri segnali che Google prende in considerazione per combinare gli URL dal contenuto simile e operare una deduplicazione.

Tra gli altri, ricordiamo i redirect tra le pagine, i link interni, i link in uscita, le indicazioni in sitemap, hreflang, URL puliti o accorciati.

La canonicalizzazione non è un reindirizzamento

Non bisogna neppure usare il tag canonical per fare un reindirizzamento, avverte Splitt, perché non serve come un redirect, anche se spesso c’è confusione su questo aspetto. Lo conferma Rachel Costello, che racconta di aver notato come le persone cerchino in ogni modo di raggruppare la link equity in un unico posto e pagina, e quindi usano il canonical come tentativo disperato per raggiungere l’obiettivo.

Si tratta di un altro errore, perché – ribadisce Martin Splitt – la canonicalizzazione entra in gioco e ha senso solo quando “incroci lo stesso contenuto su piattaforme o canali diversi in luoghi leggermente diversi, per qualsiasi motivo tu lo stia facendo”.

Ma, nel caso di prodotti fuori stock e non disponibili, bisogna semplicemente fare un redirect “verso qualcosa di simile che ha senso per l’utente a quel punto”, oppure mettere la pagina in 404 per comunicare a Google che “questa è la situazione attuale ma potrebbe tornare”.

Canonicalizzazione e spreco del crawl budget

È importante prestare attenzione all’uso corretto del tag canonical, perché in caso contrario possiamo rischiare di sprecare crawl budget.

Se abbiamo pagine identiche e non abbiamo impostato (o abbiamo fatto male, o invertiamo spesso la pagina scelta) la canonicalizzazione, Googlebot tornerà a fare la scansione di tutti i contenuti in maniera inutile e dannosa per l’economia del sito.

Ancora peggio è usare il canonical come un reindirizzamento, perché in questo caso il motore di ricerca si trova di fronte a pagine marcate come identiche, ma che in realtà non lo sono, e quindi continuerà a passare su tutte.

Duplicazione e deduplicazione, i segnali per Google

Nel video si passa poi a discutere dei fattori tecnici che Google prende in considerazione per eseguire la deduplicazione dei contenuti dello stesso sito: sono tutti segnali automatici perché il lavoro su duplicazione e deduplicazione è fatto “senza molta interazione umana”, dice Splitt, ma “Google apprezza il content fingerprinting” e cerca di comprendere “qual è l’essenza, quali sono le informazioni, come si rapporta alla struttura del sito, cosa c’è scritto nella sitemap; insomma, ci troviamo di fronte a una serie di fattori diversi, per lo più tecnici”.

E, in pratica, Google assegna un punteggio su base continuativa, quindi non determina queste questioni una sola volta e si attiene sempre alla stessa decisione: “Guardiamo sempre il contenuto fresco preso dal crawling, e poi diamo un’occhiata alla pagina – questo cambia, questo è cambiato, ora è molto vicino alla versione precedente, ora qualcosa che era una duplicazione non lo è più, perché il contenuto è stato modificato”.

A volte, prosegue Splitt, “soprattutto quando praticamente tutto è mostrato nella stessa struttura di URL ed è come versioni in linguaggio diverso della stessa cosa, ma con lo stesso contenuto, allora potremmo finire con un punteggio molto simile”. Se Google vede due versioni, “diciamo uno 0.49 e uno 0,51 di quello che pensiamo sia un doppione dell’altro, allora è davvero difficile scegliere quale sarà la pagina canonica”.

A complicare ancor più le cose c’è il fatto che la situazione può modificarsi: Google può fare crawling in modo differente, oppure può cambiare il modo in cui il crawler fa fetching dei dati, e anche le pagine toccate prima possono influenzare “ad avere una specie di salto tra questi due numeri”.

E poi c’è il canonical: un segnale chiaro per aiutare i motori di ricerca e non confondere gli algoritmi impegnati a comprendere quale sia la duplicazione tra i contenuti analizzati. “Perché, se abbiamo due contenuti uguali, come facciamo a sapere quale scegliere?”, sintetizza Martin Splitt.

Preferenze del sito o preferenze degli utenti?

Nonostante queste indicazioni, però, a volte Google può comunque prendere una decisione diversa e sostituire la pagina canonica preferita del sito con una migliore per gli utenti – ne parlava anche John Mueller in un altro video su YouTube.

Ciò accade spesso con contenuti identici in lingue diverse: ad esempio, se è presente un tag canonical che punta alla versione inglese di una pagina, ma l’utente si trova in Germania, Google mostrerà la versione tedesca della pagina.

Canonicalizzazione e contenuto unico

L’ultimo aspetto investigato da questo episodio riguarda la quantità di contenuto unico presente su una pagina necessaria affinché Google la possa accettare come versione canonica, e secondo Splitt può bastare anche una piccola quota di contenuto originale che non esiste su altre pagine.

Tuttavia, “se il contenuto è completamente diverso o abbastanza diverso per gli algoritmi, tanto da decidere che non si tratta di un duplicato, allora il canonical è inutile”, conclude.