SEO Gennaro Mancini 8 Maggio 2023 Tempo di lettura : 14 minuti

Guida al crawling o scansione, alla base di Google e della SEO

Mettici alla prova

Analizza il tuo sito

Seleziona la lingua del database:

Inizia tutto da qui: senza la scansione o il crawling non esisterebbero i motori di ricerca come li conosciamo, e quindi non ci sarebbe alcun posizionamento né, chiaramente, la SEO. Insomma, è sull’attività di ricerca e dalle visite compiute dai bot che si basa il funzionamento della Rete (e il nostro lavoro per conquistare la visibilità online), e già solo questo dovrebbe farci comprendere l’importanza di conoscere almeno superficialmente questo tema, come proviamo a fare con questa guida al crawling per la SEO.

Che cos’è il crawling, la scansione per i motori di ricerca

Essenzialmente, la scansione è il processo di scoperta durante il quale i motori di ricerca inviano nel Web un team di robot, chiamati crawler o spider, per trovare contenuti nuovi e aggiornati, che saranno poi aggiunti ai vari indici dei search engine.

La tipologia di contenuto è ampia e può variare —una pagina web, un’immagine, un video, un PDF e così via — ma, indipendentemente dal formato, il contenuto viene scoperto tramite link, che siano presenti su pagine già note o attraverso le sitemap che un sito fornisce direttamente.

In inglese, l’attività si chiama crawling: la parola deriva dal verbo to crawl che letteralmente significa strisciare, ma in ambito tecnico identifica appunto l’intero processo di accesso a un sito web e recupero di dati ottenuti tramite un programma informatico o software. Vale a dire, attraverso il lavoro dei bot (solitamente noti come crawler o anche spider perché, come ragni, seguono il percorso tracciato dai fili dei link per creare la Rete) che automaticamente cercano o aggiornano le pagine web per conto del motore di ricerca.

Come dicevamo, questo passaggio è essenziale per ogni singolo sito Web: se i nostri contenuti non vengono sottoposti a scansione, non abbiamo alcuna possibilità di ottenere una visibilità reale sui motori di ricerca, a cominciare da Google.

Crawling: cos’è e come funziona per Google

Soffermandoci proprio sul funzionamento del crawling per Google, la scansione rappresenta il modo in cui il motore di ricerca cerca di capire quali pagine esistono sul Web: non esiste un registro centrale di tutte le pagine web, pertanto Google deve costantemente cercare pagine nuove e aggiornate per aggiungerle al proprio elenco di pagine note.

Il processo di scansione inizia con un elenco di URL di precedenti scansioni e sitemap forniti dai proprietari dei siti: Google utilizza i web crawler e nello specifico Googlebot (nome con cui è noto il suo programma per effettuare l’operazione di recupero attraverso il lavoro di una quantità enorme di computer che eseguono la scansione di miliardi di pagine sul web) per visitare questi indirizzi, leggere le informazioni che contengono e seguire i link su quelle pagine.

I crawler rivisiteranno le pagine già presenti nell’elenco per verificare se sono state modificate e scansioneranno anche le nuove pagine rilevate. Durante questo processo, i crawler devono prendere decisioni importanti, come dare la priorità a quando e cosa sottoporre a scansione, assicurandosi che il sito web possa gestire le richieste del server fatte da Google.

Più precisamente, nella fase di crawling Googlebot recupera alcune pagine Web pubblicamente accessibili, quindi segue i collegamenti lì presenti per trovare nuovi URL; saltando lungo questo percorso di link, il crawler è in grado di trovare nuovi contenuti e aggiungerli all’Indice, che sappiamo essere un enorme database di URL scoperti, da cui (ma qui siamo già alle fasi seguenti della Ricerca) sono successivamente recuperati quando un utente cerca informazioni a cui il contenuto di quell’URL fornisce una risposta pertinente.

La scansione si chiama anche “Individuazione degli URL“, a indicare appunto il modo in cui Google scopre nuove informazioni da aggiungere al suo catalogo. Di solito, il modo in cui Google trova un nuovo sito Web è seguendo i link da un sito Web a un altro, come detto: proprio come facciamo noi utenti quando esploriamo i contenuti sul Web, i crawler passano da una pagina all’altra e archiviano informazioni su ciò che trovano su tali pagine e su altri contenuti accessibili pubblicamente, che finiscono nell’indice della Ricerca Google.

Alcune pagine sono note perché Google le ha già visitate, altre pagine vengono scoperte quando Googlebot segue un link che vi rimanda (ad esempio, una pagina hub, come una pagina di categoria, rimanda a un nuovo post del blog), altre ancora vengono scoperte quando inviamo a Google una Sitemap per la scansione.

Ad ogni modo, quando Googlebot trova l’URL di una pagina potrebbe visitare o “sottoporre a scansione” la pagina stessa per scoprirne i contenuti. È importante comprendere, infatti, che Googlebot non esegue la scansione di tutte le pagine che ha rilevato, anche perché alcune pagine potrebbero essere non autorizzate per la scansione dal proprietario del sito, mentre altre potrebbero non essere accessibili senza che venga effettuato l’accesso al sito.

Durante la scansione, Google visualizza la pagina ed esegue eventuale codice JavaScript rilevato utilizzando una versione recente di Chrome, in modo simile a quello che fa un comune browser nel visualizzare la pagina che visitiamo. Il rendering è importante perché i siti web spesso si affidano a JavaScript per mostrare i contenuti sulla pagina e, senza il rendering, Google potrebbe non vedere questi contenuti, ci dice la guida ufficiale a questo proposito.

Il crawling per Google: frequenza, velocità e budget

Googlebot utilizza un processo algoritmico per determinare i siti di cui eseguire la scansione, con quale frequenza farlo e quante pagine recuperare da ogni sito. Anche i crawler di Google sono programmati in modo da tentare di non eseguire la scansione del sito troppo velocemente per evitare di sovraccaricarlo. Questo meccanismo si basa sulle risposte del sito (ad esempio, gli errori HTTP 500 significano “rallentamento”) e sulle impostazioni in Search Console.

Le pagine sottoposte con successo a scansione vengono elaborate e trasmesse alla indicizzazione di Google per preparare il contenuto per la pubblicazione nei risultati di ricerca; i sistemi del motore di ricerca visualizzano i contenuti della pagina come farebbe il browser e prendono nota dei segnali principali, dalle parole chiave all’aggiornamento del sito web, conservando tutte queste informazioni nell’indice di ricerca.

Poiché il Web e altri contenuti cambiano costantemente, i processi di scansione di Google sono in continua esecuzione per stare al passo, apprendendo la frequenza con cui contenuti già esaminati vengono modificati e scansionandoli se necessario, e scoprendo anche nuovi contenuti man mano che vengono visualizzati nuovi link a tali pagine o informazioni.

Come chiarisce sempre la guida di riferimento, Google non accetta mai pagamenti per eseguire la scansione di un sito più frequentemente, fedele alla promessa di fornire gli stessi strumenti a tutti i siti web per garantire i migliori risultati possibili per gli utenti.

Inoltre, Google è molto attento a non sovraccaricare i server, quindi la frequenza delle scansioni dipende da tre fattori:

Crawl rateo velocità di scansione: numero massimo di connessioni simultanee che un crawler può utilizzare per eseguire la scansione di un sito.
Crawl demand: quanto il contenuto è desiderato da Google.
Crawl budget: numero di URL che Google può e desidera sottoporre a scansione.

Sono tre anche i problemi comuni di accesso ai siti da parte di Googlebot, che possono impedire o bloccare il crawling ai bot di Google:

Problemi con il server che gestisce il sito
Problemi di rete
Regole del file robots.txt che impediscono l’accesso alla pagina da parte di Googlebot

Come vedremo più approfonditamente, l’insieme di strumenti presente nella Search Console può servire agli “autori di contenuti per aiutarci a scansionare meglio i loro contenuti”, suggerisce la documentazione ufficiale, che si aggiunge a standard consolidati quali le Sitemap o il file robots.txt per specificare la frequenza con cui Googlebot dovrebbe visitare i propri contenuti o se non devono essere inclusi nell’indice di ricerca.

L’importanza del crawling per Google e per i siti

Per capire meglio il peso che questa attività ha per Google, e quindi per la SEO, possiamo pensare all’analogia proposta da Lizzy Harvey su web.dev: il crawling è “come leggere tutti i libri di una biblioteca“. Prima che i motori di ricerca possano servire qualsiasi risultato di ricerca, devono avere quante più informazioni possibili dal web, e quindi utilizzano il crawler, un programma che viaggia da un sito all’altro e si comporta come un browser.

Questo controllo include l’HTML e tutti i contenuti menzionati nell’HTML, come immagini, video o JavaScript. I crawler estraggono anche i collegamenti dai documenti HTML, in modo che il crawler possa visitare anche gli URL collegati, sempre con l’obiettivo di trovare nuove pagine sul Web.

Dal punto di vista tecnico, i crawler non fanno clic attivamente su link o pulsanti, ma inviano gli URL a una coda per eseguirne la scansione in un secondo momento. Quando si accede a un nuovo URL, non sono disponibili cookie, service worker o storage locale (come IndexedDB).

I crawler tentano di recuperare ogni URL per determinare lo stato del documento: se un libro o un documento è mancante o danneggiato, il bot non può leggerlo, così come se un documento restituisce un codice di stato di errore, i bot non possono utilizzare nessuno dei suoi contenuti, ma potrebbero riprovare l’URL in un secondo momento. Ciò garantisce che solo i documenti accessibili pubblicamente entrino nell’indice. Ancora, se i crawler scoprono un codice di stato di redirect 301 o 302, ad esempio, seguono il reindirizzamento a un nuovo URL e continuano lì: quando ottengono una risposta positiva, e pertanto hanno trovato un documento accessibile agli utenti, controllano se è consentito eseguire la scansione e quindi scaricano il contenuto.

Tornando quindi alle definizioni precedenti, la velocità di scansione o crawl rate rappresenta il numero massimo di connessioni simultanee che un crawler può utilizzare per eseguire la scansione di un sito. Il crawl demand dipende invece da “quanto il contenuto è desiderato da Google” ed è “influenzato da URL che non sono stati scansionati da Google prima, e dalla stima di Google su quanto spesso il contenuto cambia sui non-URLs”.

Google calcola il crawl rate di un sito periodicamente, in base alla reattività del sito stesso o, in altre parole, alla quota di traffico di crawling che può effettivamente gestire: se il sito è veloce e coerente nel rispondere ai crawler, il tasso sale se c’è richiesta di indicizzazione; se invece il sito rallenta o risponde con errori del server, il tasso scende e Google scansiona meno.

Quando Googlebot è in grado di eseguire la scansione di un sito in modo efficiente, permette a un sito di ottenere rapidamente nuovi contenuti indicizzati nei risultati di ricerca e aiuta Google a scoprire le modifiche apportate ai contenuti esistenti.

Come gestire le scansioni di Google su un sito

Parlare di scansione significa anche affrontare un tema che sta diventando sempre più popolare negli ultimi anni e che spesso affligge i SEO e chi lavora sui siti, ovvero il crawl budget che abbiamo già definito come il tempo (espresso sotto forma di quantità di URL) che Googlebot può e vuole dedicare al crawling di un sito – in altre parole, la somma di crawl rate e crawl demand.

Per guidarci nell’analisi del funzionamento del meccanismo delle scansioni di Google possiamo far riferimento a un appuntamento con la serie Google Search Console Training affidato, come nelle precedenti occasioni, al Search Advocate Daniel Waisberg, che fa una veloce ma esaustiva panoramica sul modo in cui Google esegue la scansione delle pagine, per poi soffermarsi sul rapporto Statistiche di scansione della Search Console, che permette innanzitutto di verificare la capacità di Googlebot di eseguire la scansione di un determinato sito e fornisce dati sulle richieste di crawl, sul tempo medio di risposta e altro ancora.

Come disclaimer, il Googler spiega che tali argomenti sono più rilevanti per chi lavora su un sito web di grandi dimensioni, mentre chi ha un progetto con poche migliaia di pagine non deve preoccuparsene troppo (anche se, dice, “non mai male imparare qualcosa di nuovo, e chissà che il tuo sito non possa diventare the next big thing, la prossima grande cosa”).

Come ridurre la velocità di scansione di Googlebot nel modo giusto

Nei rari casi in cui i crawler di Google sovraccaricano i server, è possibile impostare un limite alla velocità di scansione utilizzando le impostazioni in Search Console o altri interventi on-site.

Come chiarisce una recente pagina ufficiale di Google, per ridurre la velocità di scansione di Googlebot possiamo essenzialmente:

Utilizzare Search Console per ridurre temporaneamente la velocità di scansione.
Restituire un codice di stato HTTP 500, 503 o 429 a Googlebot quando esegue la scansione troppo velocemente.

Un codice tipo 4xx identifica gli errori del client: server restituiscono un segnale che indica che la richiesta del client era sbagliata in un certo senso e per un certo motivo; nella maggior parte dei casi, gli errori in questa categoria sono piuttosto benigni, dice Google, come ad esempio “non trovato”, “proibito”, “sono una teiera” (uno dei più famosi Easter Eggs di Google), perché non suggeriscono che stia accadendo qualcosa di sbagliato con il server stesso.

L’unica eccezione è 429, che sta per “troppe richieste”: questo errore è un chiaro segnale per qualsiasi robot ben educato, incluso Googlebot, che deve rallentare perché sta sovraccaricando il server.

Tuttavia, e sempre a eccezione del codice 429, tutti gli errori 4xx non vanno bene per il rate limiting di Googlebot, proprio perché non suggeriscono la presenza un errore con il server: non che sia sovraccarico, non che abbia riscontrato un errore critico e non sia in grado di rispondere alla richiesta. Significano semplicemente che la richiesta del cliente era in qualche modo negativa o sbagliata. Non esiste un modo sensato per associare, ad esempio, un errore 404 al sovraccarico del server (e non potrebbe essere altrimenti, perché un afflusso di 404 potrebbe derivare da un utente che si collega accidentalmente alle pagine sbagliate del sito e non può incidere, a sua volta, sul rallentamento della scansione di Googlebot), e lo stesso vale per gli stati 403, 410, 418.

C’è poi un altro aspetto da considerare: tutti i codici di stato HTTP 4xx (di nuovo, tranne 429) causeranno la rimozione dei contenuti dalla Ricerca Google; ancora peggio, pubblicare un file robots.txt con un codice di stato HTTP 4xx lo rende praticamente inutile, perché verrà trattato come se non esistesse – e quindi tutte le regole impostate, comprese le direttive sulle aree vietate alla scansione, sono praticamente accessibili a tutti, con svantaggi per tutti.

In definitiva, quindi, Google ci invita caldamente a non utilizzare 404 e altri errori del client 4xx per ridurre la frequenza di scansione di Googlebot, che pure sembra essere una strategia di tendenza tra proprietari di siti web e di alcune reti di distribuzione di contenuti (CDN).

Cos’è e come si utilizza il rapporto Statistiche di scansione di Google

A questo proposito, ben più efficace è imparare a utilizzare l’apposito strumento presente in Google Search Console, il Rapporto Statistiche di scansione o Crawl Stats report, che ci permette di scoprire quanto spesso Google scansiona il sito e quali sono state le risposte, ma anche di visualizzare statistiche sul comportamento di crawling di Google e di supportare la comprensione e l’ottimizzazione del processo di scansione.

La versione più recente di questo strumento è stata rilasciata sul finire del 2020 (come annunciato anche in Google Search News di novembre 2020) e permette di avere dati che rispondono a domande come:

Qual è la disponibilitàgenerale del sito?
Qual è la risposta media della pagina per una richiesta di crawl?
Quante richiestesono state fatte da Google al sito negli ultimi 90 giorni?

Il rapporto Statistiche di scansione è disponibile solo per proprietà a livello di directory principale: i proprietari dei siti possono trovarlo accedendo a Search Console e andando alla pagina “Impostazioni”.

All’apertura del rapporto compare una pagina di riepilogo, che include un grafico delle tendenze di scansione, dettagli sullo stato dell’host e un’analisi dettagliata della richiesta di scansione.

Il grafico sulle tendenze di scansione

In particolare, il grafico delle tendenze di scansione riporta informazioni su tre metriche:

Richieste di scansione totali per gli URL del sito (riuscite o meno). Le richieste di risorse ospitate al di fuori del sito non vengono contate, quindi se le immagini sono servite su un altro dominio (come una rete CDN) non appariranno qui.
Dimensioni totali di downloaddal sito durante la scansione. Le risorse di pagina utilizzate da più pagine che Google ha memorizzato nella cache vengono richieste solo la prima volta (in corrispondenza della memorizzazione).
Tempo medio di rispostadella pagina per una richiesta di ricerca per indicizzazione per recuperare il contenuto della pagina. Questa metrica non include il recupero delle risorse della pagina come script, immagini e altri contenuti collegati o incorporati, e non tiene conto del tempo di rendering della pagina.

Quando si analizzano questi dati, Waisberg consiglia di cercare “picchi, cali e tendenze maggiori nel tempo”: ad esempio, se si nota un calo significativo delle richieste di scansione totali, è bene assicurarsi che nessuno abbia aggiunto un nuovo file robots.txt al sito; se il sito risponde lentamente a Googlebot potrebbe essere un segno che il server non riesce a gestire tutte le richieste, così come un aumento costante del tempo medio di risposta è un altro “indicatore del fatto che i server potrebbero non gestire tutto il carico”, anche se potrebbe non influire immediatamente sulla velocità di scansione quanto piuttosto sulla user experience.

Analisi dello stato dell’host

I dati sullo stato dell’host consentono di controllare la disponibilità generale di un sito negli ultimi 90 giorni. Gli errori in questa sezione indicano che Google non può eseguire la scansione del sito per motivi tecnici.

Anche in questo caso ci sono 3 categorie che forniscono dettagli sullo stato dell’host:

Recupero robots.txt(robots.txt fetch): la percentuale di errori durante la scansione del file robots.txt. Non è obbligatorio avere un file robots.txt, ma deve restituire la risposta 200 o 404 (file valido, compilato o vuoto, o file non esistente); se Googlebot ha un problema di connessione, come ad esempio un 503, smetterà di scansionare il sito.
Risoluzione DNS(DNS Resolution): indica quando il server DNS non ha riconosciuto il nome host o non ha risposto durante la scansione. In caso di errori, si suggerisce di contattare il registrar per verificare che il sito sia configurato correttamente e che il server sia connesso a Internet.
Connettività server(Server connectivity): mostra quando il server non risponde o non ha fornito la risposta completa per l’URL durante una scansione. Se si notano picchi o problemi di connettività consistenti, si suggerisce di parlare con il provider per aumentare la capacità o risolvere i problemi di disponibilità.

Un errore sostanziale in una qualsiasi delle categorie può tradursi in una riduzione della disponibilità. Sono tre i valori dello stato host che compaiono nel rapporto: se Google ha trovato almeno uno di questi errori sul sito nell’ultima settimana, compare un alert a forma di icona rossa con punto esclamativo; se l’errore è più vecchio di una settimana e risale agli ultimi 90 giorni, compare un’icona bianca con spunta verde che segnala appunto che ci sono stati problemi in passato (temporanei o risolti nel frattempo), che si possono verificare tramite i server log o con uno sviluppatore; infine, se non ci sono stati problemi sostanziali di disponibilità negli ultimi 90 giorni è tutto a posto e appare un’icona verde con spunta bianca.

Le richieste di scansioni di Googlebot

Le schede di richiesta di scansione mostrano diversi dati scomposti che aiutano capire cosa hanno trovato i crawler di Google nel sito. In questo caso, ci sono quattro ripartizioni:

Risposta di scansione: le risposte ricevute da Google durante la scansione del sito, raggruppate in base al tipo, come percentuale di tutte le risposte alle scansioni. I tipi di risposta comuni sono 200, 301, 404 o errori del server.
Tipidi file sottoposti a scansione: mostra i tipi di file restituiti dalla richiesta (il cui valore percentuale fa riferimento alle risposte ricevute per quel tipo e non ai byte recuperati); i più comuni sono HTML, immagini, video o JavaScript.
Scopo della scansione: mostra il motivo della scansione del sito, come la scoperta di un URL nuovo per Google o il refresh per un re-crawl di una pagina nota
Tipo di Googlebot: indica il tipo di user agent utilizzato per effettuare la richiesta di scansione, ad esempio smartphone, desktop, immagine e altri.

Comunicare ai motori di ricerca come eseguire la scansione del sito

Ricapitolando, per comprendere e ottimizzare la scansione di Google possiamo usare il rapporto Statistiche di scansione della Search Console, iniziando dal grafico di riepilogo della pagina per analizzare il volume e le tendenze della scansione, proseguendo con i dettagli sullo stato dell’host per controllare la disponibilità generale del sito e, infine, verificando la ripartizione delle richieste di crawl per capire cosa trova Googlebot quando scansiona il sito.

Queste sono le basi dell’utilizzo del crawl status report per garantire che Googlebot possa eseguire la scansione del sito in modo efficiente per la Ricerca, a cui far seguire le necessarie operazioni di ottimizzazione crawl budget e gli interventi generali per assicurare che il nostro sito possa effettivamente entrare nell’Indice di Google per poi iniziare la scalata alle posizioni di visibilità.

Fermo restando che il crawl budget – ovvero il numero di URL che Google può e vuole scansionare sui siti web ogni giorno, repetita iuvant – è un parametro “rilevante per i siti web di grandi dimensioni, perché Google ha bisogno di dare priorità a cosa scansionare prima, quanto scansionare e quanto frequentemente ripetere la scansione”, è comunque utile sapere in che modo guidare il processo di scansione del nostro sito da parte dei crawler dei motori di ricerca.

In tal senso, come ben ci sintetizza il lavoro di Moz (da cui abbiamo attinto alcune delle immagini in pagina), ci sono alcune ottimizzazioni che possiamo fare implementare per indirizzare meglio Googlebot su come desideriamo che esegua la scansione dei nostri contenuti pubblicati sul web, e dire personalmente ai motori di ricerca come eseguire il crawling delle nostre pagine può darci maggiore e migliore controllo di ciò che finisce nell’Indice.

Gli interventi sul sito per ottimizzare la scansione dei crawler

Prima di entrare nel dettaglio delle operazioni da compiere, però, facciamo un’ultima digressione. Di solito, ci concentriamo sul lavoro necessario ad assicurare che Google possa trovare le nostre pagine importanti, ed è sicuramente un bene. Non dobbiamo però dimenticare che probabilmente ci sono pagine che non vogliamo che Googlebot trovi, come ad esempio vecchi URL con contenuti sottili, URL duplicati (come parametri di ordinamento e filtri per l’e-commerce), pagine di codici promozionali speciali, pagine di staging o test e così via.

È anche a questo che serve la gestione dell’attività di crawling, che ci permette di allontanare i crawler da determinate pagine e sezioni del sito. E questi sono i metodi comuni e più efficaci.

Robots.txt

L’abbiamo citato più volte: i file Robots.txt si trovano nella directory principale dei siti Web e suggeriscono di quali parti del sito i motori di ricerca devono e non devono eseguire la scansione, nonché la velocità con cui eseguono la scansione del sito , tramite specifiche direttive.

Sitemap

Anche le sitemap possono essere utili: si tratta, come chiarisce il nome, di un elenco di URL sul sito che i crawler possono utilizzare per scoprire e indicizzare i contenuti. Uno dei modi più semplici per assicurarsi che Google trovi le tue pagine con la massima priorità è creare un file che soddisfi gli standard di Google e inviarlo tramite Google Search Console. Sebbene l’invio di una sitemap non sostituisca la necessità di una buona navigazione nel sito, può sicuramente aiutare i crawler a seguire un percorso verso tutte le pagine importanti.

Struttura del sito

A volte, gli errori di navigazione possono impedire ai crawler di vedere tutto il sito: è il caso di una navigazione mobile che mostra risultati diversi rispetto alla navigazione desktop, di voci di menu abilitate per JavaScript (e non per HTML), della personalizzazione o visualizzazione di una navigazione univoca per un tipo specifico di visitatore rispetto ad altri (che potrebbe apparire come cloaking ai crawler), di un mancato collegamento a una pagina primaria del sito nella navigazione, di testo nascosto all’interno di contenuto non testuale, di contenuto nascosto dietro i moduli di accesso e così via.

Secondo gli esperti, è essenziale che il sito web abbia una navigazione chiara e utili strutture di cartelle URL.

Al tempo stesso, è opportuno impostare una architettura delle informazioni pulita, seguendo la pratica di organizzare ed etichettare i contenuti in modo da migliorare l’efficienza e la reperibilità per gli utenti, partendo dal presupposto che la migliore architettura delle informazioni è intuitiva, ovvero permette agli utenti di non pensare molto per scorrere il sito o per trovare qualcosa.

Ottimizzare il crawl budget

Infine, ci sono gli interventi tecnici per ottimizzare il crawl budget, che è il numero medio di URL che Googlebot scansiona sul sito prima di uscirne, e serve quindi a evitare che Googlebot perda tempo a scansionare pagine non importanti rischiando di ignorare quelle importanti. Il crawl budget è molto importante su siti molto grandi, con decine di migliaia di URL , ma non è mai una cattiva idea impedire ai crawler di accedere a contenuti che sicuramente non ci interessano. Ciò che dobbiamo assicurarci è non bloccare l’accesso di un crawler alle pagine su cui abbiamo aggiunto altre direttive, come tag canonical o noindex: se Googlebot è bloccato da una pagina, non sarà in grado di vedere le istruzioni presenti.