Torniamo a concentrarci sulla SEO tecnica e, grazie all’aggancio fornito dal blog per webmaster di Google, dedichiamo un approfondimento a un tema che sta diventando sempre più centrale per l’ottimizzazione dei siti, ovvero il crawl budget, andando a scoprire il suo rapporto con Googlebot anche alla luce delle evoluzioni dello spider di Google.

Il significato del crawl budget

Partiamo da una premessa: nel corso degli ultimi anni, le voci pubbliche di Google hanno spesso invitato proprietari di siti e webmaster a non preoccuparsi in maniera esagerata del crawl budget, o meglio a non pensare esclusivamente agli aspetti tecnici assoluti quando si eseguono interventi di ottimizzazione onsite. Ad esempio, in uno scambio su Twitter John Mueller consiglia piuttosto di concentrarsi prima sugli effetti positivi in termini di user experience e di incremento delle conversioni che potrebbero derivare da questa strategia.
Crawl Budget, le spiegazioni di Mueller

Pensare agli effetti positivi complessivi degli interventi sul sito

Per la precisione, il Senior Webmaster Trends Analyst, che spesso citiamo da queste pagine, spiega che esistono molte buone pratiche che possono però avere pochi effetti sul posizionamento: ad esempio, rimuovere 25 pagine inutili è un’ottima soluzione per rendere i siti più snelli ed evitare che gli utenti si perdano durante la navigazione, ma non è una questione di crawl budget (crawl-budget question).

Quando il crawl budget è efficiente per Google

Andando indietro nel tempo, il citato post di Gary Illyes sul blog aziendale di Big G sottolinea che il crawl budget non dovrebbe preoccupare troppo se “le nuove pagine tendono a essere sottoposte a scansione lo stesso giorno in cui vengono pubblicate” o “se un sito ha meno di qualche migliaio di URL”, perché in genere questo significa che la scansione di Googlebot funziona in modo efficiente.

I consigli per migliorare la crawlability del sito

Come sappiamo, però, il miglioramento del crawl budget può essere effettivamente un intervento che dà una spinta ai risultati di un sito, e anche la nuova sezione Contenuti di SEOZoom offre indicazioni in tal senso, permettendo una visualizzazione degli URL che impegnano e sprecano più risorse dei crawler, così da poter intervenire e rendere più efficace la gestione.

In sintesi, bisogna verificare la crawlability, ovvero la capacità di un crawler dei motori di ricerca come Googlebot di accedere a un sito ed eseguire la scansione corretta delle sue pagine, perché questo passaggio è fondamentale per l’indicizzazione. È bene ricordare che i crawler hanno accesso solo ai collegamenti forniti nella Sitemap e disponibili dalla home page, e quindi eventuali errori nella sitemap o blocchi nel file robots.txt provocano problemi anche all’ingresso dei contenuti nell’Indice di Google Search.

Come si misura il crawl budget

Il crawl budget si può definire come il numero di URL che Googlebot può e desidera sottoporre a scansione, e determina il numero di pagine che i motori di ricerca scansionano durante una sessione di ricerca per la indicizzazione. In termini tecnici, il suo valore dipende dalla velocità di scansione (crawl rate) e dalla domanda di scansione (crawl demand).

Che cosa sono il crawl rate e crawl demand

Con l’espressione crawl rate si fa riferimento al numero di richieste al secondo che uno spider effettua verso un sito e il tempo che passa tra le fetches, mentre la crawl demand è la frequenza con cui tali bot eseguono la scansione. Per questo, riprendendo le parole di John Mueller, i siti che devono essere più attenti a questi aspetti sono quelli di dimensioni maggiori e con più pagine o quelli che hanno pagine auto-generate basate su parametri URL.

I limiti del crawl rate per un sito

Andando più a fondo con le spiegazioni, il limite del crawl rate è dato innanzitutto dal rispetto per il sito: Googlebot cercherà di non peggiorare mai l’esperienza degli utenti a causa di un sovraccarico di fetching. Dunque, esiste per ogni sito un numero massimo di connessioni parallele simultanee che Googlebot può utilizzare per eseguire la scansione, e la velocità di scansione può aumentare o diminuire in base alla salute (se un sito risponde velocemente, il limite si alza e Google usa più connessioni per il crawling; se la scansione è lenta o si presentano errori di server, il limite scende) e al limite imposto in Search Console.

Popolarità e staleness determinano la crawl demand di Google

La crawl demand, invece, è legata alla popolarità: gli URL che sono più popolari sul Web sono tendenzialmente sottoposti a scansione più frequentemente per tenerli “più freschi” nell’Indice di Google. Inoltre, i sistemi del motore di ricerca cercano di impedire la staleness, ovvero che gli URL diventino obsoleti nell’indice.

Perché il crawl budget è importante per la SEO

Quando ottimizzato, il crawl budget consente ai webmaster di assegnare una priorità alle pagine che devono scansionate e indicizzate per prime, nel caso in cui i crawler possano analizzare ogni percorso. Al contrario, sprecare risorse del server in pagine che non generano risultati e non producono effettivamente un valore produce un effetto negativo e rischia di non far emergere i contenuti di qualità di un sito.

Come ottimizzare il crawl budget

Per chiudere, approfittiamo di un recente approfondimento su Search Engine Land di Aleh Barysevich per presentare un elenco di consigli per ottimizzare il crawl budget e migliorare la crawlability di un sito, con 8 regole semplici da seguire per ogni sito:

  • Non bloccare le pagine importanti.
  • Resta fedele al codice HTML quando possibile.
  • Risolvi le catene di redirect troppo lunghe.
  • Segnala a Googlebot i parametri degli URL.
  • Correggi gli errori HTTP.
  • Mantieni aggiornate le Sitemap.
  • Usa il rel canonical per evitare contenuti duplicati.
  • Usa i tag hreflang per indicare il Paese e la lingua.

AGGIORNAMENTO DEL 24 GIUGNO 2019. C’è anche un altro consiglio tecnico da aggiungere per ottimizzare il crawl budget di un sito ed è ancora Gary Illyes a rivelarlo: usare il disallow per gli URL permette di non pesare sul crawl budget, e dunque usare il comando disallow nel file robots può consentire di gestire meglio la scansione di Googlebot. Nello specifico, in una conversazione su Twitter il Googler ha spiegato che “se usi il disallow su una directory inutile con milioni di URL guadagni crawl budget”, perché il bot dedicherà il suo tempo ad analizzare e sottoporre a scansione risorse più utili del sito.

Usare il disallow ottimizza il crawl budget

GM