I processi di scansione e indicizzazione sono la base con cui i motori di ricerca possono poi classificare i risultati, e quindi è bene conoscere almeno superficialmente questi elementi. Negli ultimi anni Google ha dato sempre più attenzione a Googlebot, ovvero il crawler che ha il compito di scandagliare il Web alla ricerca di siti e contenuti.

Gli aggiornamenti di Googlebot

Nel corso del 2019, ad esempio, è arrivato un potenziamento al motore che ha reso lo spider di Google evergreen, ovvero in grado di aggiornarsi automaticamente all’ultima versione di Chromium. Oggi facciamo un passo indietro e cerchiamo di spiegare sinteticamente cos’è Googlebot e come funziona, ma soprattutto perché è importante per un sito sapere in che modo Google ci guarda!

In questo modo, infatti, possiamo avere le nozioni di base su come funzionano la scansione e l’indicizzazione, elementi che possono aiutarci a risolvere i problemi tecnici SEO e a garantire che le pagine del sito siano opportunamente accessibili ai motori di ricerca.

Martin Splitt spiega come lavora Googlebot

Lo spunto per approfondire questo argomento arriva dal secondo episodio di SEO Mythbusting, la serie su YouTube realizzata dal Googler Martin Splitt: dopo aver dedicato il primo video alla definizione dei 3 principali fattori SEO da curare su un sito, il Webmaster Trends Analyst di Google si è concentrato a spiegare proprio cos’è Googlebot, spinto dalle richieste di tanti webmaster e sviluppatori e dalla domanda precisa di Suz Hinton (Cloud Developer Advocate presso Microsoft), che è stata l’ospite dell’occasione.
Informazioni sul crawling di Google

I temi del secondo video sui falsi miti della SEO

Anche questo video non è stato propriamente dedicato a “sfatare dei miti”, quanto piuttosto ad approfondire l’attività dello spider di Google, andando a toccare argomenti come “cosa fa Googlebot“, “come lavora in modo simile a un browser mobile”, “come esegue la scansione”, “come si pone con siti JavaScript”, fino a offrire alcuni spunti sul mobile-first index, che come sappiamo è stato appena promosso a sistema prioritario di scansione per i siti nuovi per Google dal 1 luglio.

Che cos’è Googlebot?

Partiamo dalla definizione. Sostanzialmente Googlebot è un programma che esegue tre funzioni: la prima è il crawling, l’analisi approfondita del Web alla ricerca di pagine e contenuti; la seconda è indicizzare tali risorse e la terza è il “ranking”, che però “non fa più Googlebot”, dice Martin Splitt nel video.

Come funziona Googlebot

In pratica, il bot prende contenuti da Internet, cerca di capire l’argomento dei contenuti e quali “materiali” possono essere proposti agli utenti che cercano “queste cose”, e infine determina quali delle risorse precedentemente indicizzate è effettivamente la migliore per quella specifica query in quel particolare momento.

Ranking su Google e Googlebot, qual è il rapporto?

Tuttavia, Splitt tiene a specificare che l’attività di ranking su Google è informata da Googlebot, ma non è parte di Googlebot. Questo significa dunque che durante la fase di indicizzazione il programma assicura che il contenuto sottoposto a scansione sia utile per il motore di ricerca e il suo algoritmo di posizionamento, che utilizza, come abbiamo detto svariate volte, specifici criteri per classificare le pagine, i famosi 200 fattori di ranking.

Un esempio per capire la relazione: la Ricerca come una biblioteca

Per chiarire ancora questo aspetto, Martin Splitt propone una similitudine con una biblioteca, in cui il responsabile “deve stabilire quale sia il contenuto dei vari libri per dare le giuste risposte alle persone che li chiedono in prestito. Per farlo, consulta il catalogo di tutti i volumi presenti e legge l’indice dei singoli libri”. Il catalogo è dunque l’Indice di Google creato attraverso le scansioni di Googlebot, e poi “qualcun altro” usa queste informazioni per prendere decisioni ponderate e presentare agli utenti il contenuto che richiedono (il libro che vogliono leggere, per proseguire nell’analogia fornita).

Quando una persona chiede al bibliotecario “qual è il miglior libro per imparare a fare torte di mele in modo molto veloce”, quest’ultimo deve essere in grado di rispondere adeguatamente studiando gli indici degli argomenti dei vari libri che parlano di cucina, ma sa anche quali sono i più popolari. Quindi, in ambito Web abbiamo l’indice fornito da Googlebot e la “seconda parte”, la classificazione, che si basa su un sistema sofisticato che studia l’interazione tra i contenuti presenti per decidere quali “libri” raccomandare a chi chiede informazioni.

Una spiegazione semplice e non tecnica della scansione

Splitt è tornato successivamente a chiarire l’analogia sul funzionamento di Googlebot: un articolo di SearchEngineLand riporta infatti le sue parole per spiegare in modo non tecnico il processo scansione del crawler di Google.

“Tu stai scrivendo un nuovo libro e il bibliotecario deve concretamente prendere il libro, capire di cosa tratta e anche a cosa si riferisce, se ci sono altri libri che potrebbero essere stati fonte di partenza o potrebbero essere referenziati da questo libro”, ha detto il Googler. Nel suo esempio, il bibliotecario è il crawler web di Google, ovvero Googlebot, mentre il libro è un sito o una pagina Web.

Semplificando, il processo dell’indicizzazione funziona quindi in questo modo: “devi leggere [il libro], devi capire di cosa si tratta, devi capire come si collega agli altri libri, e poi puoi ordinarlo nel catalogo”. Pertanto, il contenuto della pagina web viene memorizzato nel “catalogo“, che rappresenta fuor di metafora l’indice del motore di ricerca, da dove può essere classificato e pubblicato come risultato per le query pertinenti.

In termini tecnici, ciò significa che Google ha “un elenco di URL e prendiamo ciascuno di questi URL, facciamo loro una richiesta di rete, quindi guardiamo la risposta del server e poi lo renderizziamo (fondamentalmente, lo apriamo in un browser per eseguire JavaScript); quindi guardiamo di nuovo il contenuto e poi lo inseriamo nell’indice a cui appartiene, in modo simile a quello che fa il bibliotecario”.

Quando Googlebot scansiona un sito?

Completata la discussione teorica, nel video si affrontano poi tematiche più tecniche legate al bot di Mountain View, e in particolare Splitt spiega come e quando un sito viene sottoposto a scansione da Googlebot: “Nella prima fase di crawling arriviamo alla tua pagina perché abbiamo trovato un link su un altro sito o perché hai inviato una Sitemap o perché in qualche modo sei stato inserito nel nostro sistema”. Un esempio di questo tipo è usare la Search Console per segnalare il sito a Google, un metodo che dà un suggerimento e uno sprone al bot e lo sprona (hint and trigger).

Quanto spesso Googlebot esegue la scansione

Collegato a questo tema c’è un altro punto importante, la frequenza della scansione: Splitt inizia a dire che il bot prova a capire se tra le risorse già presenti nell’Indice c’è qualcosa che ha bisogno di essere controllato più spesso. Ovvero, il sito offre notizie di attualità che cambiano ogni giorno, è un eCommerce che propone offerte che cambiano ogni 15 giorni, o addirittura ha contenuti che non cambiano perché è il sito di un museo che si aggiorna raramente (magari per mostre temporanee)?

Ciò che fa Googlebot è separare i dati dell’indice in una sezione che viene chiamata “daily or fresh” che viene inizialmente sottoposta a scansione in modo assiduo per poi ridurre la frequenza col tempo. Se Google si accorge che il sito è “super spammy o super broken“, Googlebot potrebbe non scansionare il sito, così come le regole imposte al sito (come dicevamo a proposito del file robots.txt) tengono lontano il bot.

Come funziona la scansione di Google

Nel video si aggiunge anche che Googlebot non scansiona semplicemente tutte le pagine di un sito allo stesso momento, sia per limitazioni di risorse interne sia per evitare di sovraccaricare il servizio del sito.

Dunque, Google cerca di capire quanto può spingersi nella scansione, quante risorse proprie ha a disposizione e quanto può stressare il sito, determinando quello che spesso viene definito crawl budget e che spesso è difficile determinare. “Ciò che facciamo – aggiunge Splitt – è lanciare una scansione per un po’, alzare il livello di intensità e quando iniziamo a vedere errori ridurre il carico“.

Il mio sito è visitato da Googlebot?

Questa è la crawler part dello spider di Google, a cui seguono altre attività tecniche più specifiche come il rendering; per i siti, però, può essere importante sapere come capire se un sito è visitato da Googlebot, e Martin Splitt spiega come fare.

Google usa un browser a due fasi (crawling e vero rendering), e in entrambi i momenti presenta ai siti una richiesta con intestazione dell’user agent, che lascia tracce ben visibili nei log referrer. Come si legge nei documenti ufficiali di Mountain View, Google usa una decina di token dello user-agent, responsabili di una parte specifica di crawling (ad esempio, AdsBot-Google-Mobile controlla la qualità dell’annuncio nella pagina web Android).

Offrire ai crawler pagine che possono elaborare

I siti possono scegliere di offrire ai crawler una versione non completa delle pagine, ma un HTML pre-renderizzato appositamente per facilitare la scansione: è quello che si chiama rendering dinamico, che significa in pratica avere contenuti visualizzati lato client e contenuti pre-visualizzati per specifici user-agent, come si legge nelle guide di Google.

Che cos’è il rendering dinamico o dynamic rendering

Il rendering dinamico o dynamic rendering viene consigliato soprattutto per siti che hanno contenuti generati con JavaScript, che restano di difficile elaborazione per molti crawler, e offre agli user-agent dei contenuti adatti alle proprie capacità, come ad esempio una versione HTML statica della pagina.

Google e la navigazione mobile

L’episodio 2 di SEO Mythbusting prosegue dedicando attenzione a un tema caldo, ovvero la navigazione mobile; nello specifico, Suz Hinton chiede dettagli circa il modo con cui Google analizza e distingue i contenuti di siti mobile e di siti desktop. L’analyst di Big G si sofferma innanzitutto a spiegare cos’è il mobile first index per Google, ovvero il modo in cui “scopriamo i tuoi contenuti utilizzando un user agent mobile e una viewport mobile”, che serve al motore di ricerca per assicurarsi di servire qualcosa di carino (something nice) alle persone che navigano da dispositivo mobile.
L'analisi di Google

L’importanza di un sito mobile friendly

Proseguendo nel discorso, Martin Splitt dedica attenzione anche ai correlati concetti di mobile readiness o mobile friendliness: rendere una pagina mobile friendly significa assicurarsi che tutti i contenuti rientrino nell’area viewport, che i “tap targets” siano sufficientemente larghi da evitare errori di pressione, che i contenuti possano essere letti senza dover necessariamente allargare lo schermo e così via.

Tutto questo è un indicatore di qualità per Google, ovvero uno dei 200 fattori di ranking di cui abbiamo fatto cenno prima, anche se alla fine il consiglio che dà l’analyst è di “offrire buoni contenuti per l’utente“, perché è la cosa più importante per un sito.

GM