Come verificare se il sito è indicizzato in Google

Provaci
Mettici alla prova
Analizza il tuo sito
Seleziona la lingua del database:

È una domanda apparentemente banale, ma che in realtà sottintende una rilevanza tutt’altro che minima per il rendimento del nostro progetto online e sulla sua effettiva visibilità: “Il mio sito compare nei risultati di ricerca di Google”? E, di conseguenza, quali sono i modi e le tecniche per verificare se le pagine di un sito sono correttamente indicizzate dal motore di ricerca? Proviamo ad approfondire questi concetti legati al più ampio tema della indicizzazione, che come sappiamo rappresenta uno step fondamentale per ogni pagina che intende lanciare la scalata alle SERP di Google.

Come verificare se il sito è presente su Google

Come so che il mio sito è ricercabile su Google? Per dirla in altre parole, siamo sicuri di essere su Google, di comparire effettivamente nelle sue SERP e di poter quindi partecipare alla corsa verso la mitica prima posizione? Con questa domanda si apre la quinta puntata di Search for Beginners, la serie di piccoli video a cura di Google Search Central su YouTube dedicata a chi ha (ancora) poche competenze nel mondo del web, e in particolare a chi possiede o gestisce un piccolo progetto online. E quindi, può capitare che tali persone che “hanno dei siti web, sia per attività online che per hobby”, non sappiano come controllare la propria presenza online e “a volte trovano il sito tra i risultati della Ricerca di Google, ma a volte no”.

L’importanza dell’indicizzazione su Google

Classificare, o per dirla più brutalmente piazzare, le pagine del nostro sito nelle prime posizioni di Google è, in estrema sintesi, il traguardo che tutti cerchiamo di ottenere e il fine ultimo della SEO. Prima del ranking, però, c’è un passaggio decisivo che non dobbiamo dimenticare e che spesso diamo per scontato, ovvero l’indicizzazione, che tecnicamente rappresenta la seconda fase del meccanismo di funzionamento di Ricerca Google, posta per così dire a metà tra il crawling e il posizionamento.

Tutto inizia quindi con il crawling, ovvero il processo di scansione e download di testi, immagini e video dalle pagine trovate su Internet tramite programmi automatizzati chiamati crawler, come Googlebot, lanciati per scoprire pagine nuove o aggiornate da aggiungere all’Indice di Google. Nel corso dello step successivo, che è appunto l’indicizzazione, Googlebot processa ogni pagina che scansiona per compilare questo indice, vale a dire un enorme grande database in costante espansione che comprende tutte le parole, i contenuti e i file multimediali che vede e della loro posizione all’interno di ogni pagina, memorizzando le informazioni e rendendole rapidamente fruibili per le successive chiamate.

Quando un utente lancia una query su Google, il sistema automatizzato del motore compie una ricerca nell’indice per trovare le pagine rispondenti e restituisce i risultati che ritiene essere i più rilevanti e pertinenti per gli utenti. È ciò che chiamiamo classificazione o posizionamento, il processo finale in cui i risultati sono ordinati gerarchicamente sulla base di criteri specifici, con l’obiettivo di restituire informazioni pertinenti alla query dell’utente

Per chiarire l’importanza dell’indicizzazione possiamo affermare che avere un sito ma non entrare nell’Indice equivale a non essere presenti su Google, ed è praticamente come essere intestatari di una linea telefonica di cui nessuno conosce il numero. Il motivo è presto detto: entrando nell’Indice il nostro sito si iscrive alla gara verso le posizioni di visibilità in SERP, e sarà poi nella successiva fase del posizionamento che si gioca effettivamente la partita; vale a dire, con l’indicizzazione abbiamo una chance di conquistare il posto al sole, con la classificazione Google dimostra di ritenere la nostra pagine degna, affidabile e rilevante per determinate query, e quindi iniziamo a fare effettivamente traffico.

Non tutte le pagine entrano però nell’Indice, e nelle linee guida di Google Search Essentials si chiarisce che tra i fattori che possono ostacolare l’indicizzazione ci sono impostazioni che impediscono a Googlebot di trovare la pagina e accedervi, pagina non funzionante e, non ultimo, presenza in pagina di contenuti non indicizzabili. Tra gli altri problemi comuni di indicizzazione ci sono anche bassa qualità dei contenuti sulla pagina e struttura del sito che rende complicata la scansione (ad esempio a causa di un massiccio uso di JavaScript).

Usare site: per controllare se le pagine sono indicizzate

E quindi, non è scontato che il nostro sito possa effettivamente essere presente su Google, a prescindere poi dalla posizione in cui compare nelle SERP pertinenti, e questo porta ad altre due domande da principianti: “Perché succede? E come fare in modo che il mio sito compaia nella Ricerca?”.

Per fortuna, c’è un sistema pratico e veloce per verificare se Google conosce il sito e se l’indicizzazione delle pagine del sito avviene in modo corretto, ovvero l’uso del comando *site: *, che sappiamo essere uno dei più utili operatori di ricerca avanzata su Google.

Il comando site: su Google

Per compiere questa operazione basta andare sulla pagina iniziale di Google da qualsiasi browser e digitare nella barra di ricerca site: seguito dall’indirizzo del sito web: questo comando specifica che la ricerca è limitata solo alle pagine indicizzate di quel determinato sito. Quindi, se inseriamo il nostro sito web e otteniamo un elenco di varie pagine, significa che Google sa che questo sito esiste e ne ha già indicizzato diverse pagine.

Esempio di verifica indicizzazione di SEOZoom

Controllare se è indicizzato con www e senza www

Con il comando site: possiamo anche scoprire se il nostro sito è indicizzato correttamente o se è presente un errore frequente, ovvero la presenza contemporanea su Google di due versioni del nostro dominio, con www e senza il www (indirizzo nudo).

Fino a qualche anno fa, la Google Search Console metteva a disposizione un tool di impostazione dominio preferito, e da allora è il motore di ricerca stesso a selezionare automaticamente l’Url di dominio canonico, quello che vogliamo sia utilizzato per indicizzare le pagine del sito. I webmaster possono suggerire la loro preferenza attraverso alcuni strumenti (canonical, sitemap o redirect 301, ad esempio), ciò nonostante può capitare che nell’Indice siano presenti due versioni della stessa pagina, con o senza www ad esempio, e dobbiamo cercare di risolvere il problema.

I problemi della doppia versione del sito

In precedenza, era impensabile non inserire la sigla www (che sappiamo essere l’acronimo di World Wide Web) per accedere a siti web non locali, mentre invece oggi questa motivazione tecnica legata a struttura dei domini e servizi associati non ha più senso e possiamo anche togliere il www se abbiamo impostato correttamente le impostazioni DNS del dominio e se segnaliamo in maniera efficace la versione preferita a Google tramite il rel canonical o gli altri metodi.

Ciò che dobbiamo verificare è che il nostro sito sia indicizzato correttamente solo con una delle due versioni, quella che per noi è più efficace e preferita (con o senza www), mentre la presenza contemporanea di entrambe le versioni può rappresentare un problema per la SEO.

Non specificare un dominio preferito potrebbe infatti spingere Google a trattare le versioni www e non www del dominio come riferimenti distinti a pagine distinte, ovvero come due siti differenti che presentano gli stessi contenuti, con potenziali rischi in termini di duplicazione dei contenuti e cannibalizzazione delle keyword.

Versioni separate delle pagine, come usare il comando site:

In termini pratici, basta andare su Google e inserire nella casella di ricerca il comando site:, scrivendo di seguito la home del sito con www e senza. Ad esempio, site:www.sito.it e site:sito.it.

Se il sito è indicizzato correttamente, visualizzeremo gli snippet indicizzati di una sola delle due versioni, quella che abbiamo impostato come canonica o così riconosciuta dal motore di ricerca stesso.

Se invece appaiono risultati misti è un campanello dall’allarme: o il sito è stato trasferito da poco (e Google non ha ancora digerito la modifica), oppure è necessario controllare meglio tutte le impostazioni per correggere l’errore.

Inoltre, come consiglio ulteriore, è sempre importante restare coerenti con la versione prescelta quando ad esempio facciamo link building o utilizziamo la comunicazione dei nostri canali social, diffondendo solo e unicamente la versione in cui il sito effettivamente si carica, che sia https://sito.it o https://www.sito.it.

Controllare il modo in cui sono mostrati i risultati

Un altro elemento a cui prestare attenzione è come il sito appare sulla Ricerca Google: la descrizione è precisa e rappresentativa di ciò che il sito offre? O ci sono aspetti da migliorare? In questo secondo caso, bisogna lavorare per ottimizzare quello che vedono gli utenti quando eseguono ricerche per le keyword con le quali il sito è posizionato.

Verificare l’indicizzazione su Google con la Search Console

Se abbiamo accesso ai dati della Search Console, possiamo usare un altro metodo alternativo per trovare informazioni precise sulle pagine che Google ha trovato nel sito, su quelle effettivamente indicizzate e sugli eventuali problemi di indicizzazione riscontrati: si tratta del Report Copertura dell’indice, cruciale soprattutto quando il nostro progetto online ha dimensioni rilevanti – in particolare, Google ne consiglia l’uso ai siti che abbiano più di 500 pagine.

In estrema sintesi, questo strumento elenca tutte le pagine nella proprietà che Google ha provato a sottoporre a scansione e indicizzazione, indicando una proprietà di stato per ogni URL (valido, escluso, valido con avvisi, errore) e fornendo quindi dettagli per risolvere gli eventuali problemi.

Come usare il Rapporto sullo stato della copertura dell’indice nella GSC

Ad accompagnarci nei dettagli del funzionamento di questo strumento arriva in nostro supporto un apposito episodio di Google Search Console Training, in cui Daniel Waisberg presenta appunto una guida all’uso del Rapporto sullo stato della copertura dell’indice di Google, che ci dà modo di scoprire se effettivamente le nostre pagine sono su Google o se ci sono errori da correggere, e più precisamente comprendere se le pagine del nostro sito sono state sottoposte a scansione e indicizzate da Google e se ci sono problemi riscontrati in questo processo.

L’Index coverage status nasce proprio per darci una panoramica di tutte le pagine del nostro sito che Google ha indicizzato o provato a indicizzare, e segnala anche via mail la comparsa di un problema di indicizzazione, anche se – è importante saperlo – non si ricevono notifiche in caso di errori che peggiorano: il primo consiglio del Googler è quindi di controllare periodicamente il rapporto per verificare che sia tutto in ordine.

Questo strumento è utile soprattutto in caso di siti di grandi dimensioni e sono le stesse linee guida della GSC a definirne “non necessario” l’utilizzo se il nostro progetto online ha meno di 500 pagine: in questo caso, infatti, è più semplice verificare se il sito compare su Google attraverso il comando site: descritto prima.

In linea teorica, quando il sito cresce dovremmo notare un aumento graduale del numero di pagine indicizzate valide: cali o picchi potrebbero derivare da problemi. Non dobbiamo aspettarci che tutti gli URL del nostro sito siano indicizzati, perché il nostro scopo dovrebbe essere far indicizzare la versione canonica di ogni pagina; inoltre, possono servire alcuni giorni a Google per indicizzare nuovi contenuti aggiunti sul sito, ma possiamo ridurre il ritardo richiedendo manualmente il processo.

Cosa significano gli stati segnalati

La schermata di default dello strumento riepiloga gli errori di indicizzazione presenti sul sito, ma possiamo anche focalizzarci direttamente sulle quattro tipologie segnalate: errore, valido con avviso, escluse o valido regolarmente, che sono raggruppate e ordinate per “stato e motivo”, lavorando prima alla correzione dei problemi che hanno maggiore impatto sul nostro progetto.

I valori dello stato possibili per una pagina sono dunque quattro e ognuno ha un motivo specifico:

  • Errore. C’è un problema che impedisce l’indicizzazione della pagina, che quindi non può comparire tra i risultati della Ricerca di Google, e quindi determina perdita di traffico per il sito.

È il caso, ad esempio, di un URL inviato che contiene un tag “noindex”, oppure di pagine che restituiscono uno status code 404 o errori col server. I problemi delle pagine sottoposte tramite sitemap sono esplicitamente indicati per facilitarne la correzione.

  • Valida con avviso. La pagina potrebbe apparire o meno in Google Search a seconda di un problema di cui dobbiamo essere a conoscenza.

Ad esempio, le pagine bloccate nel file robots.txt sono indicate come avviso perché Google non è certo che il blocco sia intenzionale (sappiamo infatti che le direttive robots.txt non sono il modo giusto per bloccare l’indicizzazione delle pagine, ma dobbiamo usare altri metodi).

  • Valida. La pagina è stata indicizzata e può comparire tra i risultati di ricerca: non dobbiamo fare nulla, se non lavorare all’ottimizzazione SEO per un miglior posizionamento!
  • Esclusa. La pagina non è stata indicizzata e non appare su Google, che ritiene sia una scelta intenzionale o giusta.

Ad esempio, la pagina contiene un’istruzione noindex (scelta intenzionale), potrebbe essere un duplicato di un’altra pagina già indicizzata (scelta giusta) oppure non è stata trovata perché il bot ha incontrato un errore 404.

Conoscere e correggere gli errori

Le pagine che presentano errori sono quelle su cui dovremmo concentrare subito la nostra attenzione; la tabella del rapporto è ordinata in base alla gravità del problema e al numero delle pagine che ne sono colpite, e cliccando sulla riga possiamo verificare la distribuzione temporale del danno e una lista di esempi per approfondire l’aspetto.

Dopo aver fatto le correzioni (in prima persona o ricorrendo al supporto di uno sviluppatore, a cui possiamo dare un accesso limitato alla Search Console tramite la condivisione del link), dobbiamo validare le modifiche cliccando sull’apposito pulsante e attendere che Google processi il nostro lavoro.

Guida all'uso del Rapporto sullo stato della copertura dell'Indice di Google

Uno strumento utile per una strategia di successo

In definitiva, il Rapporto sullo stato della copertura dell’indice di Google è uno strumento utile e fondamentale perché ci offre informazioni più chiare sulle decisioni di scansione e indicizzazione e su come Google gestisce i contenuti del nostro sito, ma anche perché ci consente di scoprire in tempo i problemi tecnici, anche su vasta scala, e di intervenire per correggerli evitando che portino a cali di traffico.

Cosa fare se il sito non compare su Google

Ma cosa fare in concreto se le pagine del sito non compaiono tra i risultati di una ricerca con site: o se ci sono errori nel Report? In questa situazione, potrebbero esserci problemi di crawling e indicizzazione, e quindi bisogna intervenire per risolverli.

Sito non indicizzato su Google

Il primo rimedio è inviare la sitemap e gli URL del sito attraverso la Google Search Console, che come sappiamo è lo strumento per gestire la presenza online su Ricerca Google.

Google non ha indicizzato il sito

È possibile anche testare i singoli URL usando lo strumento Controllo URL, che fornisce informazioni su una pagina specifica, chiarisce i motivi per cui l’indicizzazione della pagina da parte di Google è riuscita o meno e consente anche di verificare se un URL sia potenzialmente indicizzabile.

Se riusciamo a correggere i problemi segnalati, Google conoscerà il nostro sito web e inserirà le nostre pagine all’interno del suo Indice, e quindi abbiamo risolto gli step tecnici che precedono il lavoro per migliorarne la visibilità, ovvero gli interventi con le tecniche di SEO per raggiungere risultati migliori nelle SERP. Le prime operazioni sono piuttosto semplici: si può iniziare a controllare che il sito compaia nelle ricerche relative, “come bella maglietta, negozio di magliette nelle vicinanze o comprare maglietta online”, e verificare che la pagina mostrata sia effettivamente quella migliore e più pertinente tra quelle del nostro sito. Tutto il resto è SEO.

Iscriviti alla newsletter

Prova SEOZoom

7 giorni di Prova Gratuita

Inizia ad aumentare il tuo traffico con SEOZoom!
TOP