È il parametro che identifica il tempo e le risorse che Google intende dedicare a un sito web attraverso le scansioni di Googlebot, un valore non univoco e definibile numericamente, come chiarito ripetutamente dalle fonti ufficiali della compagnia, anche se possiamo comunque intervenire per ottimizzarlo. Oggi parliamo di crawl budget, un argomento che sta diventando sempre più centrale per il miglioramento delle performance dei siti, e delle varie strategie per ottimizzare questo parametro e perfezionare l’attenzione che il crawler può dedicare a contenuti e pagine per noi prioritarie.

Che cos’è il crawl budget

Il mio sito web piace a Google? Questa è la domanda che dovrebbero farsi tutti quelli hanno un sito web che desiderano posizionare sui motori di ricerca. Esistono diversi metodi per capire se effettivamente un sito piace a Big G, ad esempio attraverso i dati presenti all’interno di Google Search Console e del rapporto Statistiche di Scansione, uno strumento che ci permette di conoscere appunto le statistiche di scansione degli ultimi 90 giorni e di scoprire quanto tempo il motore di ricerca dedica al nostro sito.

Detto in maniera ancora più semplice, in questo modo possiamo scoprire qual è il crawl budget che ci ha dedicato Big G.

La definizione di crawl budget

Il crawl budget è un parametro, o meglio un valore, che Google assegna al nostro sito. In pratica è proprio come un budget che Googlebot ha a disposizione per scansionare le pagine del nostro sito. Attraverso Search Console è possibile capire quanti file, pagine e immagini vengono scaricati e scansionati ogni giorno dal motore di ricerca.

È facile capire che più alto è questo valore, più abbiamo importanza per il motore di ricerca stesso. In pratica, se ogni giorno Google scansiona e scarica tante pagine, significa che vuole i nostri contenuti perché considerati di qualità e valore per la composizione delle sue SERP.
crawl budget esempio

Schermata delle statistiche scansioni di Search ConsolePrincipalmente i valori da tenere in considerazione sono sicuramente due, ovvero il numero di pagine che Google scansiona ogni giorno e il tempo che impiega per farlo. Andiamo a vedere nel dettaglio il tutto:

  • Pagine sottoposte a scansione giornalmente: il valore ideale è quello di avere un numero totale di pagine scansionate più alto del numero delle pagine presenti sul sito web, ma anche un pareggio (pagine scansionate uguale al numero di pagine del sito web) va più che bene.
  • Tempo trascorso per il download: questo indica principalmente il tempo che impiega Googlebot per effettuare una scansione delle nostre pagine, bisognerebbe mantenere basso questo valore andando ad aumentare la velocità del nostro sito web. Questo andrà a influire anche sul numero di kb scaricati dal motore di ricerca durante le scansioni, ovvero con quanta facilità (e velocità) Google riesce a “scaricare” le pagine di un sito web.

Le due immagini qui pubblicate mostrano anche l’evoluzione di questo dominio: i valori che nel 2016 (screen in alto) segnalavano un’attività media oggi sono invece indice di una richiesta di bassa intensità.

Che cos’è il crawl budget per Google

Cambiando approccio, il crawl budget è il numero di URL che Googlebot può (in base alla velocità del sito) e vuole (in base alla domanda degli utenti) sottoporre a scansione. Concettualmente, quindi, è la frequenza bilanciata tra i tentativi di Googlebot di non sovraccaricare il server e il desiderio generale di Google di eseguire la scansione del dominio.

Curare questo aspetto potrebbe permettere di aumentare la velocità con cui i robot dei motori di ricerca visitano le pagine del sito; maggiore è la frequenza di questi passaggi, più rapidamente l’indice rileva gli aggiornamenti delle pagine. Quindi, un valore più alto di ottimizzazione del crawl budget può potenzialmente aiutare a mantenere aggiornati i contenuti popolari e impedire che i contenuti più vecchi diventino obsoleti.

Come si misura il crawl budget

Il crawl budget si può definire come il numero di URL che Googlebot può e desidera sottoporre a scansione, e determina il numero di pagine che i motori di ricerca scansionano durante una sessione di ricerca per la indicizzazione. In termini tecnici, il suo valore dipende dalla velocità di scansione (crawl rate) e dalla domanda di scansione (crawl demand).

Che cosa sono il crawl rate e crawl demand

Con l’espressione crawl rate si fa riferimento al numero di richieste al secondo che uno spider effettua verso un sito e il tempo che passa tra le fetches, mentre la crawl demand è la frequenza con cui tali bot eseguono la scansione. Per questo, secondo i consigli ufficiali di Google, i siti che devono essere più attenti a questi aspetti sono quelli di dimensioni maggiori e con più pagine o quelli che hanno pagine auto-generate basate su parametri URL.

I limiti del crawl rate per un sito

Andando più a fondo con le spiegazioni, il limite del crawl rate è dato innanzitutto dal rispetto per il sito: Googlebot cercherà di non peggiorare mai l’esperienza degli utenti a causa di un sovraccarico di fetching. Dunque, esiste per ogni sito un numero massimo di connessioni parallele simultanee che Googlebot può utilizzare per eseguire la scansione, e la velocità di scansione può aumentare o diminuire in base alla salute (se un sito risponde velocemente, il limite si alza e Google usa più connessioni per il crawling; se la scansione è lenta o si presentano errori di server, il limite scende) e al limite imposto in Search Console.

Popolarità e staleness determinano la crawl demand di Google

La crawl demand, invece, è legata alla popolarità: gli URL che sono più popolari sul Web sono tendenzialmente sottoposti a scansione più frequentemente per tenerli “più freschi” nell’Indice di Google. Inoltre, i sistemi del motore di ricerca cercano di impedire la staleness, ovvero che gli URL diventino obsoleti nell’indice.

Perché il crawl budget è importante per la SEO

Quando ottimizzato, il crawl budget consente ai webmaster di assegnare una priorità alle pagine che devono scansionate e indicizzate per prime, nel caso in cui i crawler possano analizzare ogni percorso. Al contrario, sprecare risorse del server in pagine che non generano risultati e non producono effettivamente un valore produce un effetto negativo e rischia di non far emergere i contenuti di qualità di un sito.

Come aumentare il crawl budget

Ma esiste un modo per andare ad aumentare il crawl budget che Google stesso ci mette a disposizione? La risposta è sì e bastano alcuni accorgimenti.

Uno dei metodi per incrementare il crawl budget è sicuramente quello di aumentare il trust del sito. Come sappiamo bene, tra i fattori di posizionamento di Google ci sono sicuramente i link: se un sito è linkato vuol dire che è “consigliato” e di conseguenza il motore di ricerca lo interpreta proprio come un consiglio e, quindi, va a prendere in considerazione quel contenuto.

A influire sul crawl budget è anche la frequenza di aggiornamento del sito, ovvero quanti contenuti nuovi vengono creati e con quale periodicità. In pratica, se Google arriva su un sito web e scopre ogni giorno pagine nuove quello che farà è ridurre il tempo di scansione del sito stesso. Un esempio concreto: di solito, un sito di notizie che pubblica 30 articoli al giorno avrà un tempo di scansione più corto rispetto a un blog che pubblica un articolo al giorno.

Un altro modo per aumentare il crawl budget è sicuramente la velocità del sito web, ovvero la risposta del server nel servire a Googlebot la pagina richiesta. Possiamo, infine, usare anche il file robots.txt per evitare che Googlebot vada a scansionare quelle pagine che hanno all’interno il tag “noindex” o il tag “canonical”, per evitare che debba comunque vederle e scansionarle per sapere se può indicizzarle o meno; usando il robots.txt in modo intelligente, quindi, possiamo permettere al crawler di concentrarsi sulle pagine migliori del sito web.

Come migliorare il crawl budget

Più in generale, uno dei modi più immediati per ottimizzare il crawl budget è limitare la quantità di URL a basso valore presenti su un sito Web, che possono come detto sottrarre tempo e risorse preziose all’attività di scansione delle pagine più importanti di un sito.

Tra le pagine a basso valore rientrano quelle che presentano contenuto duplicato, le pagine di errore soft, la faceted navigation e i session identifiers, e poi ancora pagine compromesse da hacking, spazi e proxy infiniti e ovviamente contenuti di bassa qualità e spam. Un primo lavoro che si può fare è dunque verificare la presenza di questi problemi sul sito, controllando anche i rapporti sugli errori di scansione in Search Console e riducendo al minimo gli errori del server.

Ottimizzazione del crawl budget per la SEO, le best practices

Un approfondimento su Search Engine Land di Aleh Barysevich presenta un elenco di consigli per ottimizzare il crawl budget e migliorare la crawlability di un sito, con 8 regole semplici da seguire per ogni sito:

  • Non bloccare le pagine importanti.
  • Resta fedele al codice HTML quando possibile, evitando file pesanti in JavaScript o altri formati.
  • Risolvi le catene di redirect troppo lunghe.
  • Segnala a Googlebot i parametri degli URL.
  • Correggi gli errori HTTP.
  • Mantieni aggiornate le Sitemap.
  • Usa il rel canonical per evitare contenuti duplicati.
  • Usa i tag hreflang per indicare il Paese e la lingua.

Un ulteriore consiglio tecnico per ottimizzare il crawl budget di un sito arriva da Gary Illyes, che spiega come impostare il disallow sugli URL non rilevanti permette di non pesare sul crawl budget, e dunque usare il comando disallow nel file robots può consentire di gestire meglio la scansione di Googlebot. Nello specifico, in una conversazione su Twitter il Googler ha spiegato che “se usi il disallow su una directory inutile con milioni di URL guadagni crawl budget”, perché il bot dedicherà il suo tempo ad analizzare e sottoporre a scansione risorse più utili del sito.

I possibili interventi di ottimizzazione sul sito

Approfondendo i consigli descritti possiamo quindi definire alcuni interventi specifici che potrebbero aiutare a gestire meglio il crawl budget del sito: nulla di particolarmente “nuovo”, perché si tratta di alcuni noti segnali della salute del sito web.

Il primo suggerimento è quasi banale, ovvero consentire la scansione delle pagine importanti del sito nel file robots.txt, un passo semplice ma decisivo per avere sotto controllo le risorse sottoposte a scansione e quelle bloccate. Ugualmente, è bene prendersi cura della sitemap XML, così da dare ai robot un modo semplice e più veloce di comprendere dove conducono i collegamenti interni; ricordiamoci di usare solo gli URL canonici per la sitemap e di aggiornarla sempre alla versione più recente caricata del robots.txt.

Sarebbe poi bene verificare – o evitare del tutto – le catene di reindirizzamento, che costringono Googlebot a sottoporre a scansione più URL: in presenza di una quota eccessiva di redirect, il crawler del motore di ricerca potrebbe improvvisamente terminare la scansione senza raggiungere la pagina che deve indicizzare. Se i 301 e 302 andrebbero limitati, altri codici di stato HTTP sono ancora più nocivi: le pagine in 404 e 410 pagine tecnicamente consumano crawl budget e, per di più, danneggiano anche l’user experience del sito. Non meno fastidiosi sono gli errori 5xx legati al server, motivo per il quale è bene fare un’analisi periodica e un checkup di salute del sito, usando magari il nostro SEO spider!

Un’altra riflessione da fare riguarda i parametri URL, perché gli URL separati vengono conteggiati dai crawler come pagine separate, e quindi sprecano in modo inestimabile parte del budget e rischiano anche di sollevare dubbi sui contenuti duplicati. Nei casi di siti multilingua, poi, dobbiamo usare al meglio il tag hreflang, informando nel modo più chiaro possibile Google delle versioni geolocalizzate delle pagine, sia con l’header che con l’elemento <loc> per un dato URL.

Una scelta di fondo per migliorare la scansione e semplificare l’interpretazione di Googlebot potrebbe essere infine quella di preferire sempre l’HTML agli altri linguaggi: anche se Google sta imparando a gestire JavaScript in maniera sempre più efficace (e ci sono tante tecniche per l’ottimizzazione SEO di JavaScript), il vecchio HTML resta ancora il codice che dà maggiori garanzie.

Le criticità SEO del crawl budget

Uno dei Googler che più spesso si è dedicato a questo tema è John Mueller che, in particolare, ha ribadito anche su Reddit che non c’è un benchmark per il crawl budget di Google, e che quindi non esiste un “numero” di riferimento ottimale verso cui tendere con gli interventi sul sito.

Quello che possiamo fare, in termini pratici, è cercare di ridurre gli sprechi sulle pagine “inutili” del nostro sito – vale a dire quelle che non hanno keyword posizionate o che non generano visite – per ottimizzare l’attenzione che Google dedica ai contenuti per noi importanti e che possono rendere di più in ottica di traffico.

L’assenza di un parametro di riferimento o un valore ideale a cui tender fa basare tutta la discussione sul crawl budget si basa su astrazioni e teorie: quel che sappiamo di certo è che Google solitamente è più lento a eseguire la scansione di tutte le pagine di un piccolo sito che non si aggiorna spesso o non ha molto traffico rispetto a quella di un grande sito con molte modifiche giornaliere e una quantità significativa di traffico organico.

Il problema sta nel quantificare i valori di “spesso” e “molto”, ma soprattutto nell’individuare un numero univoco sia per i siti enormi e potenti che per i piccoli blog; ad esempio, sempre in linea teorica, un valore X di crawl budget raggiunto da un sito web di rilievo potrebbe essere problematico, mentre per un blog con poche centinaia di pagine e poche centinaia di visitatori al giorno potrebbe essere il livello massimo raggiunto, difficile da migliorare.

Dare priorità alle pagine rilevanti per noi

Per questo motivo, un’analisi seria di questo “budget di ricerca per indicizzazione” si deve concentrare su una gestione complessiva del sito, cercando di migliorare la frequenza dei risultati su pagine importanti (quelle che convertono o che attraggono traffico) utilizzando strategie diverse, piuttosto che cercare di ottimizzare la frequenza complessiva dell’intero sito.

Tattiche rapide per raggiungere questo obiettivo sono i redirect per portar via Googlebot da pagine meno importanti (bloccandole dalla scansione) e l’uso dei link interni per incanalare una maggiore importanza sulle pagine che si desidera promuovere (che, ça va sans dire, devono fornire contenuti di qualità). Se operiamo bene in questa direzione – usando anche gli strumenti di SEOZoom per verificare su quali URL conviene concentrarsi e concentrare le risorse – potremmo aumentare la frequenza dei passaggi di Googlebot sul sito, perché Google dovrebbe teoricamente vedere più valore nell’inviare traffico alle pagine che indicizza, aggiorna e classifica del sito.

Capire se un sito piace a Google senza Search Console (e con SEOZoom)

Se non abbiamo accesso alla Search Console (ad esempio, se il sito non è nostro), c’è comunque un modo per capire se il sito sta piacendo al motore di ricerca grazie a SEOZoom e alla Zoom Authority, la nostra metrica nativa che fa individuare immediatamente quanto è influente e rilevante un sito per Google.

La ZA prende in considerazione molti criteri e, dunque, non solo le pagine posizionate nella top 10 di Google o il numero di link ottenuti, e quindi un valore elevato equivale a un gradimento generale del motore di ricerca, che premia con visibilità frequente i contenuti di quel sito – e possiamo anche analizzare la pertinenza per argomento attraverso la metrica della Topical Zoom Authority.

Ancora più precisamente, la rinnovata sezione Pagine di SEOZoom e lo strumento “Rendimento Pagine” catalogano le pagine web di ogni sito inserito a progetto e le raggruppa in base al rendimento sui motori di ricerca, così da sapere in maniera chiara dove intervenire, come farlo e quando è il caso di eliminare pagine inutili o duplicate che sprecano il crawl budget.

Rendimento Paine su SEOZoom

In pratica, questo strumento ci offre una visualizzazione sintetica e immediata degli URL che impegnano e sprecano più risorse dei crawler, così da poter intervenire e rendere più efficace la gestione del sito nel suo complesso.

Le considerazioni finali sul crawl budget

In definitiva, dovrebbe essere abbastanza chiaro che avere sotto controllo il crawl budget è molto importante, perché può essere un’indicazione positiva del fatto che le nostre pagine piacciano a Google, soprattutto se il nostro sito viene scansionato ogni giorno, più volte al giorno.

Secondo Illyes – autore già nel 2017 di un approfondimento sul blog ufficiale di Google – però il crawl budget non dovrebbe preoccupare troppo se “le nuove pagine tendono a essere sottoposte a scansione lo stesso giorno in cui vengono pubblicate” o “se un sito ha meno di qualche migliaio di URL”, perché in genere questo significa che la scansione di Googlebot funziona in modo efficiente.

Anche altre voci pubbliche di Google hanno spesso invitato proprietari di siti e webmaster a non preoccuparsi in maniera esagerata del crawl budget, o meglio a non pensare esclusivamente agli aspetti tecnici assoluti quando si eseguono interventi di ottimizzazione onsite. Ad esempio, in uno scambio su Twitter John Mueller consiglia piuttosto di concentrarsi prima sugli effetti positivi in termini di user experience e di incremento delle conversioni che potrebbero derivare da questa strategia.

Per la precisione, il Search Advocat sostiene che esistono molte buone pratiche per ottimizzare il crawl budget, ma possono avere pochi effetti pratici: ad esempio, rimuovere 25 pagine inutili è un’ottima soluzione per rendere i siti più snelli ed evitare che gli utenti si perdano durante la navigazione, ma non è un’operazione che si deve fare per migliorare il crawl budget (crawl-budget question) o per sperare in riscontri concreti sul ranking.