Pagine orfane: cosa sono e come rintracciarle tutte sul sito

Tempo di lettura : 5 minuti

Il nome è piuttosto evocativo e simbolico: pagine orfane, e sta a indicare proprio la caratteristica principale di queste risorse, che non hanno riferimenti in ingresso da alcuna altra pagina del sito. Vale a dire, sono pagine che non ricevono link interni, praticamente isolate dalla struttura del sito e dalle altre pagine. Anche solo da questa sintesi si comprende che la presenza copiosa di tale situazione può rappresentare un problema per la SEO, ma la ricerca e la correzione delle pagine orfane non è complicata e ci sono vari strumenti per intervenire.

La definizione di pagine orfane

Nel linguaggio SEO, si definiscono pagine orfane quelle che sono presenti sul sito ma non hanno alcun link che punti verso di esse da nessuna altra pagina. Una orphan page, in inglese, può essere quindi un URL o una sotto-pagina fisicamente presente, ma sostanzialmente invisibile per gli utenti che navigano perché assente dalla struttura di linking interna del sito.

Attenzione a non confonderle con le pagine dead-end: queste ultime sono dei vicoli ciechi, ovvero pagine che non conducono da nessuna altra parte perché non hanno link in uscita (ma hanno, al contrario, link in ingresso).

I problemi SEO per le pagine orfane

Le pagine orfane sono URL che non possono essere trovati regolarmente dagli utenti e, per certi versi (se non sono nella sitemap), neppure da Googlebot, che ha la funzione di seguire i link, esterni e interni, e determinare la struttura e la forma del sito.

La loro presenza causa vari problemi alla SEO, come un index poco curato, dei disturbi alla struttura di linking interna (se la pagina orfana ha collegamenti in uscita verso altre risorse), ma anche difficoltà con il keyword targeting.

Le cause delle pagine orfane

Ci sono diversi motivi che possono portare alla comparsa di questi URL: pagine di prodotti non più in stock, vecchi contenuti news ormai disattivati o video cancellati.

Altri motivi che generano pagine orfane sono un utilizzo sbagliato del CMS per la creazione di pagine, cattiva gestione di una migrazione, categorie messe offline senza un redirect, mancata eliminazione di pagine test (ad esempio, quelle usate per i test A/B).

Ci sono poi due cause tecniche comuni che danno vita a pagine orfane che dovrebbero essere immediatamente affrontate e risolte, perché creano essenzialmente duplicati di pagina che dovrebbero reindirizzare automaticamente e in modo coerente a un solo URL. Si tratta della gestione di HTTPS/HTTP e www/non-www non canonici e quella dei trailing slash, lo slash finale del percorso.

Controllare le varianti delle pagine

A livello ideale, ogni pagina pubblica del sito dovrebbe utilizzare HTTP o HTTPS (preferibilmente) in modo coerente e, sempre con coerenza, versione con www o senza www.

Per controllare che non ci siano errori, si può fare una semplice prova: digitare le quattro varianti della home page del sito nel browser –

  • https://www.example.com
  • http://www.example.com
  • https://example.com
  • http://example.com

– verificare che tutte e quattro reindirizzino automaticamente allo stesso identico URL che, per coerenza, dovrebbe essere impostata come canonical a se stessa.

Se una di queste varianti non reindirizza correttamente, può essere un segno di problemi simili sul sito anche in altre pagine e bisogna controllare altri URL per la variante incriminata, per vedere se si tratta di un errore più diffuso, testando poi alcune pagine del tuo sito e il file .htaccess per assicurarsi che i reindirizzamenti per queste siano impostati correttamente.

Verificare i percorsi con trailing slash

Un’altra cosa a cui prestare attenzione è l’uso coerente delle barre finali, ovvero dei trailing slash. Ad esempio, questi due URL possono produrre lo stesso contenuto, ma gli URL non sono identici:

  • https://example.com/page1/
  • https://example.com/page1

Per sapere se le impostazioni sono corrette, basta fare un controllo random su alcune pagine del sito cercate con e senza lo slash finale, verificando che ci sia un redirect automatico allo stesso URL e che la scelta sia coerente.

Gli effetti negativi per la SEO

In generale, la struttura dei link di un sito web dovrebbe essere organizzata in modo uniforme per garantire due obiettivi: favorire il passaggio di link juice interna alle pagine importanti e assicurare una buona esperienza utente.

Lasciate così, le pagine orfane non hanno nessun valore per il sito e anzi possono diventare dannose, soprattutto se presenti in grande numero.

Da un lato, creano user experience frustranti, perché gli utenti non possono raggiungere quelle pagine attraverso la struttura naturale del sito; se ci sono informazioni importanti o utili su quelle pagine, vanno quindi sprecate.

Dall’altro lato, possono impattare sull’ottimizzazione del crawl budget e sulla qualità delle visite/conversioni del sito: il web crawler non può riportare molti dati o un profilo favorevole all’indicizzazione, e ciò alla lunga può influire sul posizionamento, facendo apparire il sito web di minore qualità.

Non avendo collegamenti interni, poi, non ricevono alcuna equity e i motori di ricerca non hanno un contesto semantico o strutturale in cui valutare la pagina: non hanno modo cioè di comprendere dove la pagina si inserisce nel sito nel suo insieme, e questo rende più difficile determinare per quali query la pagina è rilevante.

La ricerca delle pagine dei crawler

I motori di ricerca, come Google, di solito trovano nuove pagine in due modi:

  • Il crawler segue un collegamento da un’altra pagina.
  • Il crawler trova l’URL elencato nella sitemap XML.

Affinché Google esegua la scansione e l’indicizzazione della pagina, deve innanzitutto essere in grado di trovarla grazie ai link; nel caso delle pagine orfane, ciò non è possibile e quindi questi URL spesso non vengono indicizzati e non possono essere mai visualizzati nei risultati di ricerca.

Anche se elencate nella sitemap XML, le orphan pages restano quindi un problema per la SEO e bisogna provare a individuarle e correggerle.

Come trovare tutte le pagine orfane del sito web

Il primo passaggio per risolvere il problema delle orphan pages è identificare le pagine scansionabili, ovvero creare un elenco completo degli URL che attualmente possono essere raggiunti attraverso il crawling dei link del sito.

È importante avere una lista di tutti gli URL attivi – quelli cioè che possono ricevono hit dai crawler – e quindi escludere le pagine che non sono indicizzabili dai motori di ricerca, perché classificate come noindex o bloccate con impostazione in robots.txt. La scansione dovrebbe iniziare sempre dalla home page del sito e procedere assicurandosi di utilizzare l’URL canonico, inclusi HTTPS o HTTP corretti e versioni www o senza www.

Confrontare gli elenchi di URL per scoprire i gap

Ottenuta la scansione, si esporta l’elenco di URL in un foglio di lavoro excel, incollandoli in una colonna.

Ora bisogna procedere con la gap analysis, che mette a raffronto i dati di fonti diverse alla ricerca di eventuali discrepanze: ad esempio, i dati Google Analytics, quelli della Search Console, della Sitemap oppure dei file server log del sito.

Ciò che conta è avere delle liste complete di URL da analizzare alla ricerca di risorse che “mancano” per identificare i gap, per l’appunto: usando ad esempio la formula match si lancia automaticamente la ricerca di corrispondenze e assenze e sarà possibile trovare gli URL orfani.

Come affrontare e risolvere le pagine orfane

Dopo aver eseguito questi passaggi e trovato tutte le pagine orfane, è il momento di capire quale destino devono avere sulla base di alcune valutazioni e riflessioni:

  • La pagina è rilevante?
  • Si posiziona per alcune keyword, nonostante tutto?
  • Genera visite?
  • Riceve backlink da fonti esterne autorevoli?
  • Ha senso la sua esistenza nella tassonomia del sito?
  • È ottimizzata?

Se le risposte sono positive, bisogna valorizzare ulteriormente questa pagina e inserirla all’interno della struttura di link interni del sito, semplicemente collegandolo da una pagina esistente regolare; per migliorare le sue performance, poi, si può aggiornare e migliorare se necessario il suo contenuto.

Al contrario, se la pagina è inutile e, per di più, presenta contenuto duplicato o quasi, l’opzione migliore è rimuoverla, impostando un codice di stato HTTP 404 o 410, che potrebbe offrire benefici anche in termini di efficienza del crawl budget.

TOP