Una lezione speciale dedicata a uno dei temi che spesso affligge i SEO e chi lavora sui siti: il crawl budget e, più in generale, l’analisi delle scansioni di Google. Torna con un appuntamento extra la serie Google Search Console Training, con un episodio incentrato appunto sul tema del crawling e sul nuovo rapporto Statistiche di scansione presente in Google Search Console, che permette innanzitutto di verificare la capacità di Googlebot di eseguire la scansione di un determinato sito.

Il video di Google su crawling e crawl status report

La lezione è affidata, come nelle precedenti occasioni, al Search Advocate Daniel Waisberg, che fornisce innanzitutto una breve introduzione al modo in cui Google esegue la scansione delle pagine, definisce alcuni termini relativi come crawl rate, crawl demand e crawl budget, e poi si dedica a descrivere il rapporto Statistiche di scansione, che fornisce dati sulle richieste di crawl, sul tempo medio di risposta e altro ancora.

Come disclaimer, il Googler spiega che tali argomenti sono più rilevanti per chi lavora su un sito web di grandi dimensioni, mentre chi ha un progetto con poche migliaia di pagine non deve preoccuparsene troppo (anche se, dice, “non mai male imparare qualcosa di nuovo, e chissà che il tuo sito non possa diventare the next big thing, la prossima grande cosa”).

Crawling: cos’è e come funziona per Google

Il processo di scansione inizia con un elenco di URL di precedenti scansioni e sitemap forniti dai proprietari dei siti: Google utilizza i web crawler per visitare questi indirizzi, leggere le informazioni che contengono e seguire i link su quelle pagine.

I crawler rivisiteranno le pagine già presenti nell’elenco per verificare se sono state modificate e scansioneranno anche le nuove pagine rilevate. Durante questo processo, i crawler devono prendere decisioni importanti, come dare la priorità a quando e cosa sottoporre a scansione, assicurandosi che il sito web possa gestire le richieste del server fatte da Google.

Le pagine sottoposte con successo a scansione vengono elaborate e trasmesse all’indicizzazione di Google per preparare il contenuto per la pubblicazione nei risultati di ricerca. Google è molto attento a non sovraccaricare i server, quindi la frequenza delle scansioni dipende da tre fattori:

  • Crawl rate o velocità di scansione: numero massimo di connessioni simultanee che un crawler può utilizzare per eseguire la scansione di un sito.
  • Crawl demand: quanto il contenuto è desiderato da Google.
  • Crawl budget: numero di URL che Google può e desidera sottoporre a scansione.

L’importanza del crawling

Più in dettaglio, Waisberg spiega che il crawl demand dipende da “quanto il contenuto è desiderato da Google” ed è “influenzato da URL che non sono stati scansionati da Google prima, e dalla stima di Google su quanto spesso il contenuto cambia sui non-URLs”.

Google calcola il crawl rate di un sito periodicamente, in base alla reattività del sito stesso o, in altre parole, alla quota di traffico di crawling che può effettivamente gestire: se il sito è veloce e coerente nel rispondere ai crawler, il tasso sale se c’è richiesta di indicizzazione; se invece il sito rallenta o risponde con errori del server, il tasso scende e Google scansiona meno.

Nei rari casi in cui i crawler di Google sovraccaricano i server, è possibile impostare un limite alla velocità di scansione utilizzando le impostazioni in Search Console.

Prendendo insieme la velocità e la domanda di scansione è possibile “definire il crawl budget come il numero di URL che Google può e vuole sottoporre a scansione”, come dicevamo parlando di cosa significa crawl budget per Google.

Quando Googlebot è in grado di eseguire la scansione di un sito in modo efficiente, permette a un sito di ottenere rapidamente nuovi contenuti indicizzati nei risultati di ricerca e aiuta Google a scoprire le modifiche apportate ai contenuti esistenti.

Cos’è e come si utilizza il rapporto Statistiche di scansione di Google

Per scoprire quanto spesso Google scansiona il sito e quali sono state le risposte, è possibile usare il Crawl Stats report in Google Search Console, che fornisce statistiche sul comportamento di crawling di Google e aiutare a comprendere e ottimizzare la scansione.

La nuova versione di questo strumento, rilasciata sul finire dello scorso anno come annunciato anche in Google Search News di novembre 2020, permette di avere dati che rispondono a domande come:

  • Qual è la disponibilità generale del sito?
  • Qual è la risposta media della pagina per una richiesta di crawl?
  • Quante richieste sono state fatte da Google al sito negli ultimi 90 giorni?

Il rapporto Statistiche di scansione si aggiunge ai i vecchi webmaster tools ed è disponibile solo per proprietà a livello di directory principale: i proprietari dei siti possono trovarlo accedendo a Search Console e andando alla pagina “Impostazioni”.

All’apertura del rapporto compare una pagina di riepilogo, che include un grafico delle tendenze di scansione, dettagli sullo stato dell’host e un’analisi dettagliata della richiesta di scansione.

Il grafico sulle tendenze di scansione

In particolare, il grafico delle tendenze di scansione riporta informazioni su tre metriche:

  • Richieste di scansione totali per gli URL del sito (riuscite o meno). Le richieste di risorse ospitate al di fuori del sito non vengono contate, quindi se le immagini sono servite su un altro dominio (come una rete CDN) non appariranno qui.
  • Dimensioni totali di download dal sito durante la scansione. Le risorse di pagina utilizzate da più pagine che Google ha memorizzato nella cache vengono richieste solo la prima volta (in corrispondenza della memorizzazione).
  • Tempo medio di risposta della pagina per una richiesta di ricerca per indicizzazione per recuperare il contenuto della pagina. Questa metrica non include il recupero delle risorse della pagina come script, immagini e altri contenuti collegati o incorporati, e non tiene conto del tempo di rendering della pagina.

Quando si analizzano questi dati, Waisberg consiglia di cercare “picchi, cali e tendenze maggiori nel tempo”: ad esempio, se si nota un calo significativo delle richieste di scansione totali, è bene assicurarsi che nessuno abbia aggiunto un nuovo file robots.txt al sito; se il sito risponde lentamente a Googlebot potrebbe essere un segno che il server non riesce a gestire tutte le richieste, così come un aumento costante del tempo medio di risposta è un altro “indicatore del fatto che i server potrebbero non gestire tutto il carico”, anche se potrebbe non influire immediatamente sulla velocità di scansione quanto piuttosto sulla user experience.

Analisi dello stato dell’host

I dati sullo stato dell’host consentono di controllare la disponibilità generale di un sito negli ultimi 90 giorni. Gli errori in questa sezione indicano che Google non può eseguire la scansione del sito per motivi tecnici.

Anche in questo caso ci sono 3 categorie che forniscono dettagli sullo stato dell’host:

  • Recupero robots.txt (robots.txt fetch): la percentuale di errori durante la scansione del file robots.txt. Non è obbligatorio avere un file robots.txt, ma deve restituire la risposta 200 o 404 (file valido, compilato o vuoto, o file non esistente); se Googlebot ha un problema di connessione, come ad esempio un 503, smetterà di scansionare il sito.
  • Risoluzione DNS (DNS Resolution): indica quando il server DNS non ha riconosciuto il nome host o non ha risposto durante la scansione. In caso di errori, si suggerisce di contattare il registrar per verificare che il sito sia configurato correttamente e che il server sia connesso a Internet.
  • Connettività server (Server connectivity): mostra quando il server non risponde o non ha fornito la risposta completa per l’URL durante una scansione. Se si notano picchi o problemi di connettività consistenti, si suggerisce di parlare con il provider per aumentare la capacità o risolvere i problemi di disponibilità.

Un errore sostanziale in una qualsiasi delle categorie può tradursi in una riduzione della disponibilità. Sono tre i valori dello stato host che compaiono nel rapporto: se Google ha trovato almeno uno di questi errori sul sito nell’ultima settimana, compare un alert a forma di icona rossa con punto esclamativo; se l’errore è più vecchio di una settimana e risale agli ultimi 90 giorni, compare un’icona bianca con spunta verde che segnala appunto che ci sono stati problemi in passato (temporanei o risolti nel frattempo), che si possono verificare tramite i server log o con uno sviluppatore; infine, se non ci sono stati problemi sostanziali di disponibilità negli ultimi 90 giorni è tutto a posto e appare un’icona verde con spunta bianca.

Le richieste di scansioni di Googlebot

Le schede di richiesta di scansione mostrano diversi dati scomposti che aiutano capire cosa hanno trovato i crawler di Google nel sito. In questo caso, ci sono quattro ripartizioni:

  • Risposta di scansione: le risposte ricevute da Google durante la scansione del sito, raggruppate in base al tipo, come percentuale di tutte le risposte alle scansioni. I tipi di risposta comuni sono 200, 301, 404 o errori del server.
  • Tipi di file sottoposti a scansione: mostra i tipi di file restituiti dalla richiesta (il cui valore percentuale fa riferimento alle risposte ricevute per quel tipo e non ai byte recuperati); i più comuni sono HTML, immagini, video o JavaScript.
  • Scopo della scansione: mostra il motivo della scansione del sito, come la scoperta di un URL nuovo per Google o il refresh per un re-crawl di una pagina nota
  • Tipo di Googlebot: indica il tipo di user agent utilizzato per effettuare la richiesta di scansione, ad esempio smartphone, desktop, immagine e altri.

Conclusioni e take away sul crawling

Prima di concludere, Waisberg ricapitola le informazioni principali fornite nel video.

Il crawl budget è il numero di URL che Google può e vuole scansionare sui siti web ogni giorno, ed è un parametro “rilevante per i siti web di grandi dimensioni, perché Google ha bisogno di dare priorità a cosa scansionare prima, quanto scansionare e quanto frequentemente ripetere la scansione”.

Per comprendere e ottimizzare la scansione di Google è possibile usare il rapporto Statistiche di scansione della Google Search Console, iniziando dal grafico di riepilogo della pagina per analizzare il volume e le tendenze della scansione, proseguendo con i dettagli sullo stato dell’host per controllare la disponibilità generale del sito e, infine, verificando la ripartizione delle richieste di crawl per capire cosa trova Googlebot quando scansiona il sito.

Queste sono le basi dell’utilizzo del crawl status report per garantire che Googlebot possa eseguire la scansione del sito in modo efficiente per la Ricerca, a cui far seguire le necessarie operazioni di ottimizzazione crawl budget e gli interventi generali per far emergere il sito su Search.