Oggi affrontiamo un tema particolarmente spinoso per la SEO, quello dei contenuti duplicati: ovvero, per semplificare, contenuti che si trovano ripetuti identici o largamente simili in varie pagine web, all’interno dello stesso sito o su siti differenti. Questa pratica può avere un intento ingannevole, ma in genere è frutto di scarsa ottimizzazione o di pigrizia, e può determinare un peggioramento del ranking delle pagine e, in generale, una difficoltà a posizionare questi contenuti. Ecco tutto ciò che c’è da sapere su cosa sono i contenuti duplicati, come individuarli, come correggere il problema ed evitare la sua ricomparsa.

Contenuti duplicati SEO, un nodo da affrontare

Volendo fornire una definizione, contenuto duplicato è un contenuto riproposto come copia identica o molto simile in più posizioni sul Web, all’interno di un singolo sito Web o su più domini, e quindi ogni contenuto che si trova in più di un singolo indirizzo Web o URL.

Più precisamente, la guida di Google spiega che l’espressione si riferisce a “blocchi di contenuti importanti all’interno o tra i domini che sono identici o molto simili”, che possono dar vita a quello che abbiamo indicato come un grave e frequente errore SEO.

Non sono considerati contenuti duplicati porzioni di testo in lingue differenti, così come non sono identificate come un errore le citazioni (anche di interi paragrafi), soprattutto se usiamo il markup semantico <cite> all’interno del codice sorgente.

Perché i contenuti duplicati rappresentano un problema e un errore

Pur non generando tecnicamente una penalizzazione, i contenuti duplicati possono comunque a volte influire negativamente sul posizionamento nei motori di ricerca: quando si trova di fronte a più parti di contenuto “sensibilmente simili” in più di una posizione su Internet, Google ha difficoltà a decidere quale versione è più pertinente per una determinata query di ricerca.

In generale, i contenuti duplicati sono considerati un nodo da risolvere perché – sostanzialmente – non offrono valore aggiunto all’esperienza dell’utente sulle pagine del sito, che dovrebbe essere il punto focale di ogni contenuto pubblicato. Ragionando come un utente, visiteremmo regolarmente un sito che presenta degli articoli non originali, o cercheremo di leggere direttamente la fonte originaria di queste informazioni?

Oltre a problemi nella ricerca organica, i contenuti duplicati possono essere anche in violazione delle policy di Google AdSense Publisher, e ciò può impedire l’uso di Google Ads in siti con contenuto di copyright o copiato: ovvero, in pagine che copiano e ripubblicano contenuto da altri senza aggiungere alcuna formulazione originale o valore intrinseco; pagine che copiano contenuto da altri con lievi modifiche (riscrivendolo manualmente, sostituendo alcuni termini con semplici sinonimi, o usando tecniche automatiche) o siti dedicati a inserire contenuti come video, immagini o altri media da altre fonti, sempre senza aggiungere valore sostanziale all’utente.

Le varie tipologie di contenuti duplicati

Tra gli esempi di contenuti duplicati non dannosi e non ingannevoli Google cita:

  • Forum di discussione, che possono generare sia pagine regolari sia pagine “abbreviate” associate a dispositivi mobili.
  • Articoli di un negozio online visualizzati o collegati tramite più URL distinti.
  • Versioni di pagine web disponibili solo per la stampa.

In realtà, bisogna chiarire che esistono due grandi categorie di contenuti duplicati, quelli nello stesso sito e quelli invece presenti su altri siti Web, che ovviamente rappresentano due problemi di ordine e scala differenti.

Contenuti duplicati sul web

I contenuti duplicati sul Web, o contenuti duplicati esterni, si verificano quando un intero contenuto o una porzione di esso (ad esempio un paragrafo) si trova ripetuto su più siti differenti (domain overlapping).

Questo errore può derivare da una serie di fattori, e ad esempio è frequente negli e-Commerce che pubblicano come riproposizione senza variazioni le schede prodotto fornite dal produttore originale di un articolo in vendita, ma a volte può anche essere una tecnica manipolativa nel “tentativo di controllare il posizionamento nei motori di ricerca o acquisire un traffico maggiore”.

Una eventualità che Google conosce e cerca di punire (penalizzando il ranking dei siti coinvolti o addirittura rimuovendo dall’Indice i siti stessi), perché “pratiche ingannevoli come questa possono causare un’esperienza utente non soddisfacente”, mostrando ai visitatori “sempre gli stessi contenuti ripetuti in un insieme di risultati di ricerca”.

Oltre a questo problema di diversità per gli utenti, un contenuto duplicato esterno mette anche in imbarazzo Googlebot che, di fronte a contenuti identici in URL diversi, non sa inizialmente decidere qual sia la fonte originale ed è quindi costretto a prendere una decisione per favorire una pagina sulle altre, considerando elementi quali la data di indicizzazione, l’autorità del sito e così via.

Contenuti duplicati nello stesso sito

Altra questione sono i contenuti duplicati nello stesso sito, detti anche contenuti duplicati interni, che invece sono riferiti a livello di identicità di dominio o nome host.

In questo caso, i danni sono minori e riguardano prevalentemente un possibile peggioramento della possibilità di buoni posizionamenti in SERP delle pagine interessate, sempre a causa della difficoltà per i crawler dei motori di ricerca di determinare quale versione sia da preferire e mostrare agli utenti come risposta pertinente alla loro query.

Contenuti duplicati e-commerce

Anche questo secondo tipo di problema si ritrova di frequente nei siti e-Commerce, ad esempio in caso di cattiva gestione dei parametri URL e della navigazione faceted, che crea quindi più pagine con contenuti identici raggiungibili a indirizzi differenti, tutti indicizzati dai motori di ricerca, oppure di impreciso utilizzo dei tag, che creano una sovrapposizione con le pagine di categoria.

Le cause dei contenuti duplicati

Abbiamo citato alcuni potenziali elementi che determinano situazioni di contenuti duplicati interni o esterni sui siti, ma ora è il caso di elencare in modo più analitico le cinque cause tecniche involontarie del problema.

  1. Varianti dell’URL

I parametri URL, come il monitoraggio dei clic e alcuni codici di analisi, possono causare problemi di contenuti duplicati, così come gli ID di sessione che assegnano un ID diverso memorizzato nell’URL a ogni utente che visita il sito o, ancora, le versioni stampabili (quando più versioni delle pagine vengono indicizzate).

Il consiglio in questo caso è cercare di evitare di aggiungere parametri URL o versioni alternative di URLm usando eventualmente script per trasmettere le informazioni che contengono.

  1. Versioni separate delle pagine

Può incorrere in un problema di contenuto duplicato un sito che ha versioni separate con prefisso www e senza, oppure se non ha completato il passaggio da HTTP:// ad HTTPS://, e mantiene attive e visibili ai motori di ricerca entrambe le versioni. Altre versioni separate sono le pagine con e senza trailing-slash, URL case sensitive (ovvero sensibili alla distinzione tra maiuscole e minuscole), URL ottimizzati per il mobile e le versioni AMP delle pagine.

  1. Contenuti scarni o sottili

Sono definiti scarni o thin content quei contenuti in genere brevi e di scarsa formulazione, senza valore aggiunto per gli utenti né originalità, che possono ripresentare porzioni del sito già pubblicate in altri URL.

Ne fanno parte anche le pagine archivi dei CMS come tag, autori e date e soprattutto quelle di paginazione (archivi di elenchi di post successivi alla prima pagina), che non siano adeguatamente ottimizzate o bloccate con un meta tag “noindex, follow”.

  1. Boilerplate content

Un elemento che può generare contenuti duplicati è anche il boilerplate content, ovvero il testo presente in header, footer e sidebar che per alcuni siti può addirittura essere la parte predominante del contenuto on page: essendo presente su tutti gli URL, può quindi diventare un problema se non adeguatamente trattato (ad esempio, implementando variazioni in base alla sezione del sito in cui si trova l’utente).

  1. Contenuto raschiato o copiato

In questa casistica non rientrano solo i problemi col plagio (che viola la legge sul diritto d’autore e contro cui Google ha attivato una specifica procedura per chiedere la rimozione della pagina colpevole dai risultati di ricerca ai sensi del Digital Millennium Copyright Act, la legge statunitense sul copyright), ma tutte le circostanze in cui sulle pagine si trovano riproposizioni raschiate (scraped) o esplicitamente copiate.

Oggetto di copia possono essere innanzitutto post di blog e contenuti editoriali, ma anche pagine di informazioni sui prodotti, i cui contenuti finiscono in più posizioni sul Web.

Le conseguenze negative dei contenuti duplicati

I contenuti duplicati rappresentano un problema a vario livello per tutti gli attori del Web – motori di ricerca, proprietari dei siti e utenti – e già questo ci fa comprendere perché è importante intervenire per correggere questi casi e per evitare la loro comparsa.

In dettaglio, per i motori di ricerca i contenuti duplicati possono presentare tre problemi principali:

  1. Incapacità di decidere quali versioni includere o escludere dai loro indici.
  2. Indecisione se indirizzare le metriche dei link (fiducia, autorità, testo di ancoraggio, link equity e così via) a una pagina specifica o tenerle separate tra più versioni.
  3. Difficoltà a decidere quale versione classificare per i risultati della query.

Per i proprietari di siti, invece, la presenza di contenuti duplicati può determinare peggioramenti di ranking e perdite di traffico, che derivano di solito da due problemi principali che, in entrambi i casi, non consentono al contenuto di raggiungere la visibilità nella Ricerca che altrimenti potrebbe avere:

  1. Una diluizione della visibilità di ciascuna delle pagine con contenuto duplicato – perché i motori di ricerca raramente mostrano più versioni dello stesso contenuto e quindi sono costretti a scegliere autonomamente quale versione è più probabile che sia il miglior risultato.
  2. Una diluzione ulteriore della link equity, perché anche altri siti dovranno scegliere tra i duplicati e quindi i backlink non punteranno a un solo contenuto.

Quando i contenuti duplicati sono responsabili di fluttuazioni nel posizionamento nelle SERP si verifica il problema della cannibalizzazione: Google non riesce a comprendere quale pagina offra il contenuto più rilevante per la query e quindi testa alternativamente gli URL di destinazione alla ricerca di quello più pertinente.

Per gli utenti, infine, i contenuti duplicati non sono utili e non offrono valore aggiunto, perché non sono unici.

Come risolvere i problemi con i contenuti duplicati

A livello generale, la risoluzione dei problemi relativi ai contenuti duplicati si riduce a un solo obiettivo: specificare quale dei duplicati è quello “corretto“. Ci sono quindi alcuni interventi che possono servire a evitare la presenza di contenuti duplicati interni, e più in generale serve entrare nell’ottica di comunicare sempre a Google e ai motori di ricerca la versione preferita della pagina a fronte di quelle eventualmente duplicate.

Queste sono le operazioni da eseguire per “risolvere in modo proattivo i problemi dei contenuti duplicati ed essere sicuri che i visitatori visualizzino i contenuti a loro destinati”, come dice la citata guida di Google.

 

  • Utilizzare un redirect 301 dalla pagina “duplicata” alla pagina del contenuto originale nel file .htaccess per reindirizzare gli utenti, Googlebot e altri spider in modo intelligente. Quando più pagine con il potenziale per classificarsi bene vengono combinate in una singola pagina, non solo smettono di competere tra loro, ma creano anche una maggiore rilevanza e un segnale di popolarità in generale. Ciò avrà un impatto positivo sulla capacità della pagina “corretta” di posizionarsi bene.
  • Usare il rel= canonical per specificare la versione ufficiale della pagina e indicare a Google di trascurare l’indicizzazione di eventuali varianti che potrebbe trovare durante il crawling del sito (ma, attenzione, Google può scegliere anche una pagina canonica diversa da quella impostata).
  • Mantenere la coerenza anche con i link interni.
  • Utilizzare domini di primo livello per consentire a Google di visualizzare la versione più appropriata di un documento.
  • Prestare attenzione alla diffusione di contenuti su altri siti, anche in casi di distribuzione in syndication (eventualmente, usare o chiedere di usare il tag noindex per impedire ai motori di ricerca di indicizzare la versione dei contenuti duplicata).
  • Ridurre al minimo la ripetizione di testo boilerplate.
  • Usare lo strumento per la gestione dei parametri in Search Console per indicare come vorremmo che Google gestisca i parametri URL.
  • Evitare la pubblicazione di pagine incomplete, come quelle per le quali non disponiamo ancora di contenuti effettivi (pagine segnaposto, per cui si può usare eventualmente il tag noindex per bloccarle ed evitare che vengano indicizzate).
  • Familiarizzare con il sistema di gestione dei contenuti e con le sue modalità di visualizzazione dei contenuti: ad esempio, una voce di blog può comparire con la stessa etichetta nella home page di un blog, in una pagina di archivio e in una pagina di altre voci.
  • Ridurre al minimo i contenuti simili, eventualmente espandendo le pagine troppo simili o consolidandole tutte in una sola pagina. Ad esempio, dice la guida, “se il tuo sito di viaggi contiene pagine distinte per due città ma le informazioni sono le stesse su entrambe le pagine, potresti unire le due pagine in una sola pagina riguardante entrambe le città o espandere ciascuna di esse in modo che presenti contenuti unici su ciascuna città”.

Come verificare la presenza di contenuti duplicati

Per verificare se sul nostro sito sono presenti contenuti duplicati interni abbiamo a disposizione vari strumenti: restando nell’ambito della nostra suite, possiamo lanciare una scansione con il SEO Spider che evidenzierà l’esistenza di pagine che abbiano lo stesso tag title, la stessa descrizione o gli stessi heading (un indicatore potenziale del problema), segnalando anche se abbiamo impostato correttamente un canonical. Inoltre, da questa scansione possiamo anche visualizzare l’elenco degli URL del sito e analizzarli per verificare di non aver usato parametri problematici.

Più complessa è invece la ricerca di contenuti duplicati esterni al sito: in questo caso, si può fare affidamento su tool specifici come copyscape oppure lanciare delle ricerche manuali su Google. In pratica, si deve selezionare una porzione di testo “incriminato” (o che pensiamo possa esser stato copiato) e inserirlo tra virgolette nella barra di ricerca del search engine per scoprire se effettivamente quel contenuto si trova duplicato su altri siti.