Alle volte una pagina web può essere raggiunta usando più di un URL, oppure un sito presenta diverse pagine con contenuti simili (tipico caso di versioni alternative desktop e mobile, ad esempio): in queste situazioni, Google può incontrare difficoltà a comprendere quale sia il contenuto prioritario e deve prendere una decisione su quale sia la versione da mostrare nella Ricerca, considerando tutte le altre versioni duplicate di tale pagina.
Già da questo si dovrebbe capire perché è importante la canonizzazione, ovvero il sistema per segnalare al motore di ricerca la priorità di un URL da un insieme di pagine dal contenuto identico o quasi, e perché è cruciale il rel canonical, l’elemento tag con cui concretamente possiamo comunicare la nostra scelta a Google (che però potrebbe anche non accettarla, come vedremo) e suggerire correttamente gli URL canonici.
Cos’è il tag rel canonical?
Il tag canonical, rel canonical o canonical link è un attributo specifico che si inserisce manualmente nel codice HTML di una pagina per specificarne una caratteristica di priorità e indicare ai motori di ricerca che quell’URL specifico rappresenta la copia principale di una pagina, la sua versione originale e definitiva rispetto ad altre pagine duplicate, quasi duplicate e simili.
Lo snippet rel=canonical è un attributo del tag link che comunica ai motori di ricerca quale, tra i vari disponibili di contenuto simile, è l’URL più rappresentativo per l’indicizzazione di un sito. In pratica, attraverso questo comando possiamo impostare un unico URL come versione canonica, chiedendo ai crawler di eseguire la scansione prioritariamente su tale pagina, mentre tutti gli altri URL simili vengono considerati URL duplicati e sottoposti a scansione con minore frequenza.
Come appare il tag rel=canonical
I tag canonici utilizzano una sintassi semplice e coerente e vanno inseriti nella sezione “head” di una pagina Web; di base hanno questo aspetto
“link rel=“canonical” href=“https://example.com/sample-page/” /”
e ogni parte di tale codice ha un significato. Per la precisione, la prima parte [link rel=“canonical”] rappresenta il suggerimento, l’indicazione del tag, mentre la seconda parte [href=“https://example.com/sample-page/”] indica concretamente quale URL intendiamo segnalare come versione principale canonica della pagina.
Cosa significa canonizzazione e cosa sono gli URL canonici
Si chiama dunque canonizzazione (a volte tradotto anche come canonicalizzazione) il processo di selezione della pagina e degli URL ritenuti prioritari per un particolare sito, che viene eseguito per risolvere gli eventuali problemi di ridondanza, ovvero la duplicazione dei contenuti su URL differenti.
Il termine deriva dal latino canone (poi adottato anche in italiano), che significa sostanzialmente regola o criterio da adottare, e canonico indica quindi qualcosa che è conforme a questo principio.
Restando in tema di definizioni, ne consegue che chiamiamo URL canonico la versione della pagina che Google ritiene più rappresentativa tra un insieme di pagine duplicate sullo stesso sito, che diventa la fonte principale per valutare contenuti e qualità forniti.
Cos’è la canonizzazione, le spiegazioni di Google sul canonical
Nel mese di luglio 2023 Google ha aggiornato la sua documentazione di supporto sulla canonizzazione, suddividendo il tema in tre sezioni distinte e modificando gran parte del contenuto per fornire dettagli più chiari sul funzionamento della ricerca Google e del canonical.
Nella nuova versione, si legge che la canonizzazione è il processo di selezione dell’URL rappresentativo o canonico di un contenuto. Di conseguenza, un URL canonico è l’URL di una pagina che Google ha scelto come la più rappresentativa da un insieme di pagine duplicate. Spesso chiamato deduplicazione, questo processo aiuta Google a mostrare solo una versione del contenuto altrimenti duplicato nei suoi risultati di ricerca.
Ci sono molte ragioni per cui un sito può avere contenuti duplicati:
- Varianti regionali. È il caso, ad esempio, di un contenuto singolo creato per gli Stati Uniti e uno per il Regno Unito, accessibili da URL diversi, ma essenzialmente simili e nella stessa lingua
- Varianti del dispositivo. Accade quando serviamo una pagina con una versione mobile e una versione desktop.
- Varianti di protocollo. Può succedere con versioni HTTP e HTTPS di un sito.
- Funzioni del sito. Dipendono, ad esempio, dai risultati delle funzioni di ordinamento e filtro di una pagina di categoria.
- Varianti accidentali. È ciò che può capitare, ad esempio, se lasciamo la versione demo del sito accidentalmente lasciata accessibile ai crawler.
È bene premettere che alcuni contenuti duplicati su un sito sono normali e non costituiscono una violazione delle norme antispam di Google, ma la guida sottolinea che avere lo stesso contenuto accessibile tramite molti URL diversi può essere un’esperienza utente negativa e potrebbe rendere più difficile monitorare il rendimento dei contenuti nei risultati di ricerca.
Canonical e SEO: perché è importante segnalare l’URL canonico
L’uso efficace del rel canonical ci permette innanzitutto di evitare la presenza di contenuti duplicati agli occhi di Google, che possono danneggiare il posizionamento di un sito Web sui motori di ricerca, causando il noto effetto della cannibalizzazione delle keyword o, ancor più nello specifico, la cannibalizzazione degli URL, situazione che avviene quando il motore di ricerca riconosce più pagine di contenuto simile – o, per meglio dire, un sito offre informazioni ambigue al crawler e non lo agevola nella comprensione di quale sia la pagina principale da sottoporre a scansione ed eventualmente posizionare; inoltre, se la presenza di contenuti duplicati su URL multipli è molto frequente, il motore di ricerca potrebbe anche penalizzare il sito per spam. Ancora, impostare una pagina preferita può servire a risolvere il problema di posizione Google sbagliata: se Google posiziona per una keyword che ci interessa una pagina diversa da quella “desiderata” e ottimizzata, impostare il canonical su quest’ultima può servire a fortificare i segnali che inviamo al motore di ricerca.
Pertanto, impostare l’attributo rel = canonical e verificare il consolidamento dei segnali mediante la standardizzazione di URL e pratiche di linking interna ci può anche aiutare a garantire che i motori di ricerca indirizzino gli utenti verso le pagine desiderate, con benefici per la SEO.
La canonizzazione serve però anche a Google e ai motori di ricerca, perché evita ai crawler di dover sottoporre a scansione più volte le stesse cose, alla luce del fatto che Google non vuole fare crawl o rendering multipli in modo inutile, né servire lo stesso contenuto proposto in URL differenti, perché questi non sarebbero buoni risultati di ricerca.
I principali falsi miti sulla canonicalization
Questo tema è stato anche al centro di un episodio di SEO Mythbusting season 2, la serie di Google su YouTube in cui si affrontano i principali “falsi miti” della SEO, che ha chiarito alcuni aspetti controversi sulla canonizzazione, specificando innanzitutto che non significa un raggruppamento per topic, ma è un sistema per assegnare la priorità a un URL da un insieme di pagine dal contenuto identico o quasi, per ridurre le duplicazioni.
Nell’occasione, l’ospite e interlocutrice dell’host Martin Splitt è stata Rachel Costello (Technical SEO Consultant presso Builtvisible e già Technical SEO & Content Manager di DeepCrawl, incarico ricoperto all’epoca della registrazione), che racconta come in base alla sua esperienza i falsi miti su questo topic includono i dubbi se la canonizzazione sia un segnale o una direttiva, se possa essere utilizzata come reindirizzamento e poi ancora le preferenze del sito rispetto alle preferenze dell’utente e altro ancora.
In particolare, sono due le principali credenze sbagliate maggiormente diffuse sulla canonizzazione: innanzitutto, “le persone pensano che sia una direttiva, impostano un tag canonical e sarà accettato”. In realtà, il canonical è un suggerimento HTML che un sito può impostare per segnalare a un motore di ricerca quale sia l’URL principale da usare per una pagina/contenuto.
Un altro caso frequente di misconcezione è l’utilizzo della canonizzazione come una redirection: “Se hai una pagina di prodotto che non è disponibile, aggiungi un canonical a quella pagina di categoria”, dice l’esperta, aggiungendo che “non funziona proprio così”, perché “i contenuti devono essere identici o quasi identici”, come conferma Martin Splitt.
Le spiegazioni di Google sul rel canonical
Ed è proprio il Developer Advocate di Google a chiarire questi dubbi e spiegare per bene che cos’è la canonizzazione: innanzitutto, non è una direttiva – ovvero un’istruzione che i motori di ricerca sono tenuti a rispettare – ma un segnale, vale a dire un hint, un suggerimento, che aiuta i motori di ricerca a capire cosa vogliamo canonicalizzare (a cosa vogliamo dare importanza e priorità nella Ricerca), ma che gli stessi motori di ricerca possono decidere se usare o meno.
La canonizzazione non è una direttiva
Quando si parla di canonizzazione, dice Splitt, “stiamo parlando di rilevare il contenuto o lo stesso contenuto o un contenuto molto simile che esiste su indirizzi diversi e i diversi URL”, e Google può “fare molte cose diverse per identificare queste cose”. Ad esempio, può semplicemente fare crawling di più pagine e scoprire che trattano lo stesso contenuto, o ancora vedere se gli URL usano gli stessi link e lo stesso tipo di contesto, o appunto usare il tag canonical.
Bisogna cioè comprendere che Google usa molti segnali diversi per “capire se qualcosa ha lo stesso contenuto o meno”, e la canonicalization tramite il tag canonical è solo uno di questi. Per renderlo efficace, però, è necessario impostare bene il canonical tag: non funzionerà “metterlo su pagine che non hanno lo stesso contenuto, ma non va bene neppure metterlo su ognuna delle pagine identiche”. Usare bene la canonizzazione di una pagina evita di demandare del tutto la scelta a Googlebot sulla pagina migliore da mostrare tra i risultati di ricerca: oltre allo specifico tag, ci sono come accennato altri segnali che Google prende in considerazione per combinare gli URL dal contenuto simile e operare una deduplicazione.
Tra gli altri, ricordiamo i redirect tra le pagine, i link interni, i link in uscita, le indicazioni in sitemap, hreflang, URL puliti o accorciati.
La canonizzazione e redirect, le teorie SEO e la realtà
Non bisogna neppure usare il tag canonical per fare un reindirizzamento, avverte Splitt, perché non serve come un redirect, anche se spesso c’è confusione su questo aspetto. Lo conferma Rachel Costello, che racconta di aver notato come le persone cerchino in ogni modo di raggruppare la link equity in un unico posto e pagina, e quindi usano il canonical come tentativo disperato per raggiungere l’obiettivo.
Si tratta di un altro errore, perché – ribadisce Martin Splitt – la canonizzazione entra in gioco e ha senso solo quando “incroci lo stesso contenuto su piattaforme o canali diversi in luoghi leggermente diversi, per qualsiasi motivo tu lo stia facendo”.
Ma, nel caso di prodotti fuori stock e non disponibili, bisogna semplicemente fare un redirect “verso qualcosa di simile che ha senso per l’utente a quel punto”, oppure mettere la pagina in 404 per comunicare a Google che “questa è la situazione attuale ma potrebbe tornare”.
In campo SEO ci sono in realtà alcune teorie che invitano a usare un redirect dalle risorse duplicate verso l’URL preferito: il redirect 301 trasmette infatti link equity alla pagina di destinazione, mentre non ci sono posizioni ufficiali circa i tag canonical. Tuttavia, a fronte di questo ipotetico vantaggio la tecnica pone di fronte a qualche dubbio, soprattutto in termini di usabilità ed esperienza dell’utente: con i reindirizzamenti le pagine duplicate sono eliminate, perché l’utente viene automaticamente trasferito all’altra risorsa e, per lui (e i crawler) l’altra pagina non esiste.
Al contrario, il rel canonical semplifica la vita al crawler (che legge l’impostazione e scansiona gli URL come descritto), mentre in termini pratici gli utenti possono visitare tutti gli URL, anche non canonici.
Per chi volesse approfondire il tema rimandiamo a una delle lezioni della nostra Academy con docente ospite Filippo Jatta, che ha trattato proprio dei metodi per comunicare con Google attraverso indicazioni come Canonical, Noindex e Redirect; per visualizzare il video basta registrarsi in modo gratuito all’Academy di SEOZoom ed eseguire il login.
Canonizzazione e spreco del crawl budget
È importante prestare attenzione all’uso corretto del tag canonical, perché in caso contrario possiamo rischiare di sprecare crawl budget.
Se abbiamo pagine identiche e non abbiamo impostato (o abbiamo fatto male, o invertiamo spesso la pagina scelta) la canonizzazione, Googlebot tornerà a fare la scansione di tutti i contenuti in maniera inutile e dannosa per l’economia del sito, che aumenterà anche il suo carico di scansione di Google.
Ancora peggio è usare il canonical come un reindirizzamento, perché in questo caso il motore di ricerca si trova di fronte a pagine marcate come identiche, ma che in realtà non lo sono, e quindi continuerà a passare su tutte.
Duplicazione e deduplicazione, i segnali per Google
Nel video si passa poi a discutere dei fattori tecnici che Google prende in considerazione per eseguire la deduplicazione dei contenuti dello stesso sito: sono tutti segnali automatici perché il lavoro su duplicazione e deduplicazione è fatto “senza molta interazione umana”, dice Splitt, ma “Google apprezza il content fingerprinting” e cerca di comprendere “qual è l’essenza, quali sono le informazioni, come si rapporta alla struttura del sito, cosa c’è scritto nella sitemap; insomma, ci troviamo di fronte a una serie di fattori diversi, per lo più tecnici”.
E, in pratica, Google assegna un punteggio su base continuativa, quindi non determina queste questioni una sola volta e si attiene sempre alla stessa decisione: “Guardiamo sempre il contenuto fresco preso dal crawling, e poi diamo un’occhiata alla pagina – questo cambia, questo è cambiato, ora è molto vicino alla versione precedente, ora qualcosa che era una duplicazione non lo è più, perché il contenuto è stato modificato”.
A volte, prosegue Splitt, “soprattutto quando praticamente tutto è mostrato nella stessa struttura di URL ed è come versioni in linguaggio diverso della stessa cosa, ma con lo stesso contenuto, allora potremmo finire con un punteggio molto simile”. Se Google vede due versioni, “diciamo uno 0.49 e uno 0,51 di quello che pensiamo sia un doppione dell’altro, allora è davvero difficile scegliere quale sarà la pagina canonica”.
A complicare ancor più le cose c’è il fatto che la situazione può modificarsi: Google può fare crawling in modo differente, oppure può cambiare il modo in cui il crawler fa fetching dei dati, e anche le pagine toccate prima possono influenzare “ad avere una specie di salto tra questi due numeri”.
E poi c’è il canonical: un segnale chiaro per aiutare i motori di ricerca e non confondere gli algoritmi impegnati a comprendere quale sia la duplicazione tra i contenuti analizzati. “Perché, se abbiamo due contenuti uguali, come facciamo a sapere quale scegliere?”, sintetizza Martin Splitt.
Canonizzazione e contenuto unico
Un altro aspetto investigato da questo episodio riguarda la quantità di contenuto unico presente su una pagina necessaria affinché Google la possa accettare come versione canonica, e secondo Splitt può bastare anche una piccola quota di contenuto originale che non esiste su altre pagine.
Tuttavia, “se il contenuto è completamente diverso o abbastanza diverso per gli algoritmi, tanto da decidere che non si tratta di un duplicato, allora il canonical è inutile”, dice il Googler.
Google e canonical: il motore di ricerca può scegliere una pagina diversa
Nonostante queste indicazioni, però, a volte Google può comunque prendere una decisione diversa e sostituire la pagina canonica preferita del sito con una migliore per gli utenti.
Ne parla approfonditamente un’altra delle voci pubbliche di Mountain View (e spesso ospite del nostro blog), John Mueller, rispondendo in uno degli appuntamenti di #AskGoogleWebmasters alla domanda posta da un utente (@uale75, l’italiana Mariachiara Marsella): “Puoi indicare la tua preferenza su Google utilizzando varie tecniche, ma Google può scegliere una pagina diversa come canonica rispetto a quella da te impostata, per vari motivi. Quindi, quali sono le ragioni?”, chiede la co-founder di BEM Research.
La spiegazione di John Mueller inizia dalle basi: per un sito è frequente avere URL unici multipli che trattano dello stesso argomento, e cita casi comuni come quelli di un sito con versione WWW e senza WWW che mostrano gli stessi contenuti, di una home page accessibile anche aggiungendo /index.html, o di pagine a cui sono dirette versioni di URL che usano lettere minuscole e maiuscole.
L’impostazione dell’URL canonico
La situazione ideale per Google è non dover incontrare queste versioni alternative, ed è per questo che si consiglia di scegliere un formato di URL e usarlo in maniera coerente sul sito web. Per il sistema di Ricerca su Google, infatti, non ha senso indicizzare e mostrare tutte queste versioni di pagine che puntano allo stesso contenuto, e quindi Google cerca di selezionarne e di focalizzarsi soltanto su di una.
Si tratta appunto dell’URL canonico, che può essere indicato dal webmaster o scelto in maniera automatica dal motore di ricerca. Più precisamente, come dice anche l’esaustiva guida ufficiale, Googlebot sceglie la pagina che considera più completa e utile e la contrassegna come canonica.
La canonizzazione secondo Google
Sono due le linee guida a cui si attiene l’algoritmo per selezionare un URL canonico:
- Quale URL somiglia a quella che il sito vuole usare, ovvero qual è la preferenza del sito.
- Quale URL è più utile per gli utenti.
Rispetto alle preferenze del sito, Google prende in considerazioni differenti parametri, come l’annotazione link rel canonical che possono usare i gestori dei siti, ma anche i redirect, i link interni, URL inserito nella sitemap, presenza di protocollo HTTPS (preferito al vecchio HTTP), fino ad arrivare a un criterio per così dire estetico. Ovvero, Mueller dice che Google valuta anche quale URL sembra essere più carino dal punto di vista della struttura e della forma.
In che modo Google indicizza e sceglie l’URL canonico
Quando Google indicizza una pagina, determina il contenuto principale (o elemento centrale) di ogni pagina: se trova più pagine che sembrano uguali o dal contenuto principale molto simile, sceglie la pagina che, in base ai fattori (o segnali) raccolti dal processo di indicizzazione è oggettivamente la più completa e utile per gli utenti della ricerca, contrassegnandola come canonical. La pagina canonica verrà sottoposta a scansione più regolarmente, mentre i duplicati vengono sottoposti a scansione meno frequentemente per ridurre il crawling load sui siti.
Ci sono una manciata di fattori che svolgono un ruolo nella canonicalizzazione: se la pagina viene pubblicata tramite HTTP o HTTPS, reindirizzamenti, presenza dell’URL in una mappa del sito e annotazioni dei link rel=”canonical”. Possiamo indicare la nostra preferenza a Google utilizzando queste tecniche, ma Google potrebbe comunque scegliere una pagina diversa come canonica, per vari motivi.
Il motivo è che indicare una preferenza canonica è un suggerimento, non una regola che Google è obbligato a seguire.
Google utilizza la pagina canonica come fonte principale per valutare contenuto e qualità, e un risultato di Search di solito punta alla pagina canonica, a meno che uno dei duplicati non sia esplicitamente più adatto per un utente di ricerca: ad esempio, il risultato punterà probabilmente alla pagina mobile se l’utente si trova su un dispositivo mobile, anche se la pagina desktop è contrassegnata come canonica.
Le valutazioni per consolidare gli URL
Il sistema del motore di ricerca prende in considerazione tutti questi fattori per ogni potenziale URL canonico e decide quale versione canonizzare, analizzando quella che mette insieme meglio i parametri.
Perciò, dice il Search Advocate, “se sei il proprietario di un sito e hai una forte preferenza per gli URL che desideri mostrare agli utenti nella ricerca, dovresti prima di tutto assicurarti di utilizzare tali preferenze in modo coerente in tutto il tuo sito Web”, consiglia Mueller.
I metodi per segnalare una canonizzazione
A livello teorico e in una situazione ideale, “i motori di ricerca non dovrebbero imbattersi in nessuna di queste alternative: se hai una preferenza, attieniti a essa“, aggiunge il Googler. A parte questo, e tornando al mondo reale, per limitare i problemi bisogna assicurarsi che un sito abbia tutti questi fattori di canonizzazione allineati in modo similare: che i link interni usino il formato preferito di URL, che la sitemap elenchi solo gli URL preferiti, che gli elementi del rel canonical link siano abbinati.
Più si riesce a essere coerenti, più alte saranno le probabilità che i sistemi di Google seguiranno le indicazioni fornite e sceglieranno gli URL preferiti come canonici.
Come specificare un canonical
Uscendo dai video e tornando alla nuova versione della guida, possiamo quindi vedere quali sono i suggerimenti che Google ci invita a seguire per specificare un URL canonico su pagine duplicate o molto simili indicando la preferenza.
Abbiamo infatti diversi metodi, ordinati per quanto fortemente possono influenzare la canonicalizzazione:
- Redirect. Sono un segnale forte che l’obiettivo del reindirizzamento dovrebbe diventare canonico.
- Attributi rel=”canonical” ai link. Sono un segnale forte che l’URL specificato deve diventare canonico.
- Inclusione della sitemap. È un segnale debole che aiuta gli URL inclusi in una sitemap a diventare canonici.
Possiamo usare queste soluzioni in modo combinato, rendendoli così più efficaci e aumentando la possibilità che l’URL canonico preferito appaia effettivamente nei risultati di ricerca.
- Usare annotazioni link rel=”canonical”
Google supporta le annotazioni link rel canonical fornite attraverso due metodi. Il consiglio è di scegliere solo una delle strade: anche se supportato, infatti, l’utilizzo contemporaneo di entrambi i metodi è più soggetto a errori (ad esempio, potremmo fornire un URL nell’intestazione HTTP e un altro URL nell’elemento link rel=”canonical”).
- Elemento link rel=”canonical” nel codice HTML.
Noto anche come elemento canonico o canonical element, è un elemento utilizzato nella sezione head dell’HTML per indicare che un’altra pagina è rappresentativa del contenuto della pagina. Ad esempio, se vogliamo che https://example.com/dresses/green-dresses sia l’URL canonico, anche se una varietà di URL può accedere a questo contenuto, possiamo canonizzarlo con questi passaggi:
Aggiungiamo un elemento “link” con l’attributo rel=”canonical”alla sezione “head” delle pagine duplicate, puntando alla pagina canonica, come nell’immagine.
Se la pagina canonica ha una variante per dispositivi mobili su un URL separato, aggiungiamo un elemento link rel=”alternate”, indirizzando alla versione per dispositivi mobili della pagina:
Aggiungiamo qualsiasi hreflang o altro elemento appropriato per la pagina.
Usiamo percorsi assoluti anziché percorsi relativi con l’elemento link rel=”canonical”. Anche se i percorsi relativi sono supportati da Google, possono causare problemi a lungo termine (ad esempio, se consentiamo involontariamente la scansione del sito di test) e quindi non sono consigliati.
L’elemento link rel=canonical è accettato solo se appare nella sezione “head” dell’HTML, quindi dobbiamo accertarci che almeno la sezione “head” sia HTML valida. Se utilizziamo JavaScript per aggiungere l’elemento canonical, dobbiamo usare la corretta procedura di injection.
- HTTP header link rel=”canonical”.
Se possiamo modificare la configurazione del server, possiamo utilizzare un’intestazione HTTP rel=”canonical” anziché un elemento HTML per indicare l’URL canonico per un documento supportato dalla Ricerca, inclusi i documenti non HTML come i file PDF.
Attualmente Google supporta questo metodo solo per i risultati di ricerca web.
Se pubblichiamo contenuti in molti formati di file, come PDF o Microsoft Word, ciascuno sul proprio URL, possiamo restituire un’intestazione HTTP rel=”canonical” per indicare a Googlebot qual è l’URL canonico per i file non HTML. Ad esempio, per indicare che la versione PDF della versione .docx deve essere canonica, potremmo aggiungere questa intestazione HTTP nell’immagine per la versione .docx del contenuto.
Come per l’elemento link rel=”canonical”, Google ci ricorda di usare URL assoluti rel=”canonical” nell’intestazione HTTP e solo virgolette doppie intorno all’URL.
- Usare una sitemap
In questo caso, sceglieremo un URL canonico per ciascuna delle pagine e invieremo l’elenco in una sitemap: tutte le pagine elencate in una sitemap sono suggerite come canoniche, e Google deciderà quali pagine (se presenti) sono duplicate, in base alla somiglianza del contenuto.
Fornire gli URL canonici preferiti nelle sitemap è un modo semplice per definire i canonical per un sito di grandi dimensioni e le sitemap sono un modo utile per indicare a Google quali pagine consideriamo più importanti sul sito.
- Usare i redirect
Questo metodo è utile per sbarazzarci delle pagine duplicate esistenti. Tutti i metodi di redirect (301 e 302, meta-refresh, reindirizzamenti JavaScript) hanno lo stesso effetto su Ricerca Google, tuttavia il tempo necessario ai motori di ricerca per notare i diversi metodi di reindirizzamento potrebbe essere diverso.
Per un effetto più rapido, Google invita a utilizzare i reindirizzamenti lato server, ovvero i redirect HTTP 3xx
Se la pagina può essere raggiunta in diversi modi, come nell’esempio
- https://example.com/home
- https://home.example.com
- https://www.example.com
possiamo scegliere uno di questi URL come URL canonico e utilizzare i reindirizzamenti per inviare il traffico dagli altri URL a quello URL preferito.
- Altri segnali
Oltre ai metodi forniti in modo esplicito, Google utilizza anche una serie di segnali di canonizzazione generalmente basati sulla configurazione del sito: preferenza HTTPS su HTTP e URL nei cluster hreflang.
- Preferenza di HTTPS a HTTP per gli URL canonici
Google preferisce le pagine HTTPS rispetto alle pagine HTTP equivalenti come canoniche, tranne quando ci sono problemi o segnali contrastanti come i seguenti:
- La pagina HTTPS ha un certificato SSL non valido.
- La pagina HTTPS contiene dipendenze non sicure (diverse dalle immagini).
- La pagina HTTPS reindirizza gli utenti a o tramite una pagina HTTP.
- La pagina HTTPS ha un link rel=”canonical” alla pagina HTTP.
Sebbene i sistemi di Google preferiscano per impostazione predefinita le pagine HTTPS rispetto alle pagine HTTP, possiamo rafforzare questo comportamento intraprendendo una delle seguenti azioni:
- Aggiungere redirect dalla pagina HTTP alla pagina HTTPS.
- Aggiungere un link rel=”canonical” dalla pagina HTTP alla pagina HTTPS.
- Implementare HST .
Per impedire a Google di rendere erroneamente canonica la pagina HTTP, invece, dobbiamo seguire le seguenti indicazioni:
- Evitare i certificati TLS/SSL errati e i reindirizzamenti da HTTPS a HTTP perché fanno sì che Google preferisca fortemente HTTP. L’implementazione di HSTS non può ignorare questa forte preferenza.
- Non includere la versione HTTP delle pagine nella sitemap o nelle annotazioni hreflang al posto della la versione HTTPS.
- Evitare di implementare il certificato SSL/TLS per la variante host sbagliata – come se example.com serve il certificato per subdomain.example.com. Il certificato deve corrispondere all’URL completo del sito o essere un certificato con caratteri jolly che può essere utilizzato per più sottodomini su un dominio.
- Preferire gli URL nei cluster hreflang
Per aiutare gli sforzi di localizzazione dei siti, ai fini della canonizzazione Google preferisce gli URL che fanno parte di cluster hreflang. Ad esempio, se https://example.com/de-de/cats e https://example.com/de-ch/cats puntano reciprocamente l’una all’altra con annotazioni hreflang, ma non a https://example.com/de-at/cats, le pagine per de-de e de-ch saranno preferite come canoniche invece della pagina /de-at/ che non appare nel cluster hreflang.
Quando e perché utilizzare il Rel Canonical
La guida di Google ci permette di comprendere quando utilizzare il Rel Canonical: se più pagine hanno lo stesso contenuto, se sono ottimizzate per le stesse keyword (e quindi competono tra loro), se hanno alcune proprietà simili come meta tag, headlines o links in content.
Più precisamente, è opportuno scegliere espressamente una pagina canonica in un insieme di pagine duplicate o simili in queste situazioni e con questi obiettivi:
- Per specificare l’URL da mostrare nei risultati di ricerca. Ad esempio, se preferiamo che gli utenti raggiungano la pagina relativa agli abiti verdi tramite https://www.example.com/dresses/green/greendress.html anziché https://example.com/dresses/cocktail?gclid=ABCD.
- Per raggruppare gli indicatori associati ai link per pagine simili o duplicate. Consente ai motori di ricerca di raggruppare le informazioni in loro possesso relative ai singoli URL (ad esempio link che rimandano agli URL) in un unico URL preferito. Ciò significa che i link presenti in altri siti che rimandano a http://example.com/dresses/cocktail?gclid=ABCD vengono raggruppati con i link che rimandano a https://www.example.com/dresses/green/greendress.html.
- Per semplificare il monitoraggio delle metriche relative a un singolo prodotto o argomento. La presenza di URL diversi rende più complicato ricevere metriche raggruppate per un contenuto specifico.
- Per evitare di impiegare tempo a eseguire la scansione di pagine duplicate. Per ottimizzare la scansione del sito, è preferibile che Googlebot sottoponga a scansione pagine nuove (o aggiornate), anziché le versioni desktop e per dispositivi mobili delle stesse pagine.
I vantaggi dell’uso della canonizzazione dovrebbero ormai essere chiari: si segnala direttamente a Google qual è la pagina più pertinente (per noi!) da indicizzare, evita lo spreco di crawl budget perché il crawler non deve sottoporre a scansione le pagine duplicate, si semplifica il monitoraggio delle metriche relative a un singolo prodotto o argomento.
I consigli generali su canonical e canonizzazione
Per tutti i metodi di canonizzazione, Google invita a rispettare alcune best practices semplici e intuitive.
- Non utilizzare il file robots.txt per la canonizzazione.
- Non utilizzare lo strumento per le rimozioni di URL per la canonizzazione perché rimuove tutte le versioni di un URL dalla Ricerca.
- Non specificare URL diversi come canonici per una stessa pagina utilizzando le stesse o diverse tecniche di canonizzazione (ad esempio, non specificare un URL in una Sitemap e un altro URL per la stessa pagina utilizzando rel=”canonical”).
- Non utilizzare noindex per impedire la selezione di una pagina canonica, perché questa istruzione serve solo a escludere la pagina dall’indice, non a gestire la scelta di una pagina canonica.
- Specificare una pagina canonica quando si usano i tag hreflang, designando una pagina canonica in una stessa lingua o nella migliore lingua sostitutiva, qualora non esista una pagina canonica per la stessa lingua.
- Utilizza l’URL canonico per il link, anziché un URL duplicato, quando si impostano i collegamenti all’interno del sito. Utilizzare sempre lo stesso URL per i link aiuta Google a comprendere quale sia la preferenza per l’URL canonico.
Cosa succede quando Google imposta un altro URL canonico
Ma cosa succede in caso contrario, quando Google sceglie un URL diverso?
Un caso possibile è, ad esempio, quando ci sono contenuti identici in lingue diverse: se è presente un tag canonical che punta alla versione inglese di una pagina, ma l’utente si trova in Germania, Google mostrerà la versione tedesca della pagina.
Tali situazioni impattano, come si nota, solo sull’URL mostrato nei risultati di ricerca di Google, e secondo John Mueller “se i nostri sistemi scelgono un URL diverso come canonico, si posizionerà allo stesso modo nella Ricerca”.
Dunque, “alla fine, dipende solo dalle tue valutazioni: se hai delle preferenze sugli URL, allora indicale ai motori di ricerca senza che ci sia possibilità di errore, ma va bene anche lasciar scegliere Google”. Inoltre, se capita che il motore di ricerca scelga un URL diverso “questo non influirà negativamente sul sito”, rassicura Mueller.
Canonical e duplicazione delle pagine
La duplicazione dei contenuti è un problema che può riguardare tutti i siti, anche se in genere è più frequente per gli e-Commerce; è bene ricordare, innanzitutto, che per un motore di ricerca ogni URL univoco rappresenta una singola pagina, e la stessa homepage potrebbe essere raggiungibile da percorsi differenti (con o senza www, con HTTPS o senza, con aggiunta di /index.php e così via) e diventare una pagina unica per i crawler.
Il fenomeno è ancora più evidente quando si aggiungono automaticamente tag, che creano più percorsi e URL per giungere allo stesso contenuto e moltiplicano parametri URL per ricerche, ordinamenti, opzioni di valuta e così via.
Gli URL duplicati per gli eCommerce
La situazione rischia di divenire critica soprattutto per i siti eCommerce, dove un singolo prodotto può potenzialmente essere raggiunto da più pagine differenti in base al percorso di consultazione degli utenti (se cliccano da banner promozionali in home, se scelgono l’ordinamento per prezzi e così via). Senza il rel canonical tutti i link diretti a queste pagine risultano divisi anziché consolidati, generando dunque contenuti duplicati per i crawler.
Motivi validi per avere pagine simili o duplicate
Ma è Google stesso a chiarire che ci sono motivi validi per cui un sito può avere URL diversi che indirizzano a una stessa pagina oppure pagine duplicate o molto simili che indirizzano a URL diversi.
Tra le situazioni più comuni, la guida segnala gli utilizzi:
- Per supportare più tipi di dispositivi (tipicamente desktop e mobile):
https://example.com/news/koala-rampage
https://m.example.com/news/koala-rampage
https://amp.example.com/news/koala-rampage
- Per attivare gli URL dinamici per elementi come parametri di ricerca o ID di sessione:
https://www.example.com/products?category=dresses&color=green
https://example.com/dresses/cocktail?gclid=ABCD
https://www.example.com/dresses/green/greendress.html
- Se il sistema del blog salva automaticamente più URLquando viene inserito uno stesso post in più sezioni:
https://blog.example.com/dresses/green-dresses-are-awesome/
https://blog.example.com/green-things/green-dresses-are-awesome/
- Se il server è configurato per pubblicare gli stessi contenuti per le varianti www/non www e/o http/https:
http://example.com/green-dresses
https://example.com/green-dresses
http://www.example.com/green-dresses
- Se i contenuti proposti in un blog da distribuire in syndication su altri siti vengono copiati in parte o per intero su questi domini:
https://news.example.com/green-dresses-for-every-day-155672.html (post distribuito in syndication)
https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (post originale)
In realtà, come vedremo, la questione dei contenuti in syndication è particolarmente complessa e Google sta adottando un approccio differente.
Problemi di canonizzazione: come risolvere i più frequenti
In alcuni casi, però, una canonizzazione non corretta può essere problematica per la gestione del nostro sito: ciò avviene, è bene ribadirlo, anche se designiamo esplicitamente una pagina canonica, perché Google potrebbe comunque scegliere una pagina canonica diversa per vari motivi, come la qualità dei contenuti.
Prima di risolvere i problemi, comunque, la guida ufficiale ci invita a verificare se l’URL canonico selezionato da Google abbia più senso per i nostri utenti provenienti da Ricerca Google rispetto a quello che abbiamo impostato personalmente.
Fatto questo controllo, esistono vari motivi per cui l’URL canonico selezionato differisce dall’URL canonico che preferiremmo vedere nella Ricerca. I problemi più comuni sono:
- Varianti linguistiche senza annotazioni localizzate
Se abbiamo più siti web che pubblicano sostanzialmente gli stessi contenuti localizzati per diversi utenti in tutto il mondo, dobbiamo seguire le linee guida di Google per i siti localizzati: ad esempio, se abbiamo siti diversi per gli utenti di lingua inglese rispettivamente negli Stati Uniti, nel Regno Unito e in Australia, ma il contenuto è lo stesso, l’aggiunta di annotazioni hreflang alle pagine può aiutare a far emergere le pagine giuste per gli utenti in diverse regioni.
- Elementi canonici errati
Alcuni sistemi di gestione dei contenuti (CMS) o plug-in CMS possono utilizzare in modo errato le tecniche di canonizzazione per puntare a URL su siti Web esterni. Dobbiamo quindi controllare il codice HTML con gli strumenti per sviluppatori del browser per verificare se questo è il caso: se il nostro sito indica una preferenza URL canonica inaspettata, forse a causa di un uso errato rel=”canonical” o di un reindirizzamento 3xx, possiamo contattare il provider CMS per segnalare l’errore.
- Server configurati in modo errato
Alcune configurazioni errate dell’hosting possono causare una selezione imprevista di URL tra domini. Per esempio:
- Un server potrebbe essere configurato in modo errato per restituire il contenuto example.com in risposta a una richiesta di un URL su other.example.
- Due server web non correlati possono restituire pagine soft 404 identiche che Google non riesce a identificare come pagine di errore. Se questo è il nostro caso, possiamo contattare il provider di hosting per la risoluzione.
- Hacking dannoso
Alcuni attacchi ai siti Web introducono codice che restituisce un reindirizzamento HTTP 3xx o inserisce un’annotazione interdominio link rel=”canonical” nell'”head” HTML o nell’intestazione HTTP, che in genere punta a un URL che ospita contenuti dannosi o spam. In questi casi, gli algoritmi di Google potrebbero scegliere l’URL dannoso o contenente spam anziché l’URL del sito Web compromesso.
- Un sito Web emulato
In rare situazioni, gli algoritmi di Google potrebbero selezionare un URL da un sito esterno che ospita i nostri contenuti senza la nostra autorizzazione – siti copycat, ovvero imitatori truffaldini. Se siamo vittime di questa situazione – e quindi un altro sito sta duplicando i nostri contenuti in violazione della legge sul copyright – possiamo contattare l’host del sito per richiedere la rimozione e richiedere a Google di rimuovere la pagina in violazione dai risultati di ricerca, presentando una richiesta ai sensi del Digital Millennium Copyright Act.
- Contenuti distribuiti in syndication
L’elemento link canonico è sconsigliato per gli utenti che vogliono evitare la duplicazione da parte dei partner di syndication – distribuiti identici su una rete di siti, per effetto di accordi di replica che permettono il copia-incolla – dato che le pagine sono spesso molto diverse. In questi casi la soluzione più efficace è consentire ai partner di bloccare l’indicizzazione dei contenuti, ovvero chiedere di impostare i meta robots noindex sulle pagine interessate.
Questa è una delle novità tecniche più rilevanti della versione aggiornata a luglio della documentazione ufficiale di Google, che in precedenza suggeriva al contrario il canonical; in realtà, come hanno notato alcuni analisti, la modifica alla raccomandazione è una sorta di ammissione che il motore di ricerca non è in grado di identificare efficacemente i contenuti duplicati o quasi-duplicati tra siti differenti.
L’importanza SEO del rel canonical sugli URL
Da quanto scritto si dovrebbe comprendere il valore della canonizzazione e l’importanza di utilizzare in modo preciso i tag rel canonical sugli URL del sito: questa tecnica permette da un lato di impostare la priorità della pagina per i crawler (mettendo al riparo da una potenziale penalizzazione dei contenuti duplicati sui motori di ricerca) e, dall’altro, garantisce che gli utenti da Search arrivino sulla pagina giusta ogni volta.
È comunque vero che i motori di ricerca cercano di determinare quale pagina tra le varianti a disposizione possa essere quella canonica, ma il processo non sempre funziona in maniera ottimale e dunque, in ottica SEO, è sempre meglio impostare un URL canonico nei casi dubbi.
Google e gli URL canonici
Tra gli strumenti di Google ci sono anche tool specifici per suggerire gli URL canonici per le pagine del sito, oltre che per verificare se le indicazioni sono state inserite in maniera adeguata. Ad esempio, se si teme di non aver selezionato il miglior URL canonico per i propri contenuti si può controllare l’indirizzo della pagina con lo Strumento Controllo URL di Search Console, che mostrerà la canonizzazione selezionata da Google.
Ad ogni modo, quando si trovano di fronte a più copie di una pagina sullo stesso sito, i sistemi di Google devono compiere una scelta e prendono in considerazioni vari parametri per decretare qual è la pagina canonica: uno degli aspetti che può fare la differenza, come rivelato da John Mueller, è la lunghezza dell’URL, perché “un URL più corto e pulito” ha maggiori probabilità di essere interpretato come canonico rispetto a un indirizzo più lungo e complesso, magari con tanti slash.
Google ha eliminato l’info command
Il tool Controllo URL è stato inoltre aggiornato nel tempo e mostra ora ogni canonical selezionato da Google per un URL, non soltanto quelli delle proprietà gestite nella Search Console; allo stesso tempo, da qualche anno Google ha annunciato il ritiro di “info:command“, il comando info che era un modo alternativo per scoprire i canonici, ritenuto però poco usato e meno completo del nuovo sistema.
A cosa serviva il comando info
Digitando il comando “info” nella barra del motore di ricerca prima di un dominio, Google mostrava l’elenco degli URL canonici per quello specifico sito. In realtà, fino al 2017 il comando info non mostrava solo gli URL canonici, ma anche collegamenti alla cache, alle pagine simili, ai link e ad altre informazioni, possibilità che sono state rimosse appunto ormai oltre cinque anni fa.
Ora, per scoprire gli URL canonici bisogna utilizzare la Search Console e lo strumento Controllo URL (e, dunque, eseguire l’accesso verificato), e non c’è più possibilità di verificare le informazioni nella barra di ricerca pubblica di Google.