Nelle ultime settimane abbiamo dato differenti notizie sugli aggiornamenti che Google ha apportato al suo Googlebot, ovvero il crawler che ha il compito di scandagliare il Web alla ricerca di siti e contenuti, che ha ricevuto un potenziamento al motore che lo ha reso lo spider di Google evergreen, ovvero in grado di aggiornarsi automaticamente all’ultima versione di Chromium. Oggi facciamo un passo indietro e cerchiamo di spiegare sinteticamente cos’è Googlebot e come funziona, ma soprattutto perché è importante per un sito sapere in che modo Google ci guarda!

Martin Splitt spiega come lavora Googlebot

Lo spunto per approfondire questo argomento arriva dal secondo episodio di SEO Mythbusting, la serie su YouTube realizzata dal Googler Martin Splitt: dopo aver dedicato il primo video alla definizione dei 3 principali fattori SEO da curare su un sito, il Webmaster Trends Analyst di Google si è concentrato a spiegare proprio cos’è Googlebot, spinto dalle richieste di tanti webmaster e sviluppatori e dalla domanda precisa di Suz Hinton (Cloud Developer Advocate presso Microsoft), che è stata l’ospite dell’occasione.
Informazioni sul crawling di Google

I temi del secondo video sui falsi miti della SEO

Anche questo video non è stato propriamente dedicato a “sfatare dei miti”, quanto piuttosto ad approfondire l’attività dello spider di Google, andando a toccare argomenti come “cosa fa Googlebot“, “come lavora in modo simile a un browser mobile”, “come esegue la scansione”, “come si pone con siti JavaScript”, fino a offrire alcuni spunti sul mobile-first index, che come sappiamo è stato appena promosso a sistema prioritario di scansione per i siti nuovi per Google dal 1 luglio.

Che cos’è Googlebot?

Partiamo dalla definizione. Sostanzialmente Googlebot è un programma che esegue tre funzioni: la prima è il crawling, l’analisi approfondita del Web alla ricerca di pagine e contenuti; la seconda è indicizzare tali risorse e la terza è il “ranking”, che però “non fa più Googlebot”, dice Martin Splitt nel video.

Come funziona Googlebot

In pratica, il bot prende contenuti da Internet, cerca di capire l’argomento dei contenuti e quali “materiali” possono essere proposti agli utenti che cercano “queste cose”, e infine determina quali delle risorse precedentemente indicizzate è effettivamente la migliore per quella specifica query in quel particolare momento.

Ranking su Google e Googlebot, qual è il rapporto?

Tuttavia, Splitt tiene a specificare che l’attività di ranking su Google è informata da Googlebot, ma non è parte di Googlebot. Questo significa dunque che durante la fase di indicizzazione il programma assicura che il contenuto sottoposto a scansione sia utile per il motore di ricerca e il suo algoritmo di posizionamento, che utilizza, come abbiamo detto svariate volte, specifici criteri per classificare le pagine, i famosi 200 fattori di ranking.

Un esempio per capire la relazione: la Ricerca come una biblioteca

Per chiarire ancora questo aspetto, Martin Splitt propone una similitudine con una biblioteca, in cui il responsabile “deve stabilire quale sia il contenuto dei vari libri per dare le giuste risposte alle persone che li chiedono in prestito. Per farlo, consulta il catalogo di tutti i volumi presenti e legge l’indice dei singoli libri”. Il catalogo è dunque l’Indice di Google creato attraverso le scansioni di Googlebot, e poi “qualcun altro” usa queste informazioni per prendere decisioni ponderate e presentare agli utenti il contenuto che richiedono (il libro che vogliono leggere, per proseguire nell’analogia fornita).

Quando una persona chiede al bibliotecario “qual è il miglior libro per imparare a fare torte di mele in modo molto veloce”, quest’ultimo deve essere in grado di rispondere adeguatamente studiando gli indici degli argomenti dei vari libri che parlano di cucina, ma sa anche quali sono i più popolari. Quindi, in ambito Web abbiamo l’indice fornito da Googlebot e la “seconda parte”, la classificazione, che si basa su un sistema sofisticato che studia l’interazione tra i contenuti presenti per decidere quali “libri” raccomandare a chi chiede informazioni.

Quando Googlebot scansiona un sito?

Completata la discussione teorica, nel video si affrontano poi tematiche più tecniche legate al bot di Mountain View, e in particolare Splitt spiega come e quando un sito viene sottoposto a scansione da Googlebot: “Nella prima fase di crawling arriviamo alla tua pagina perché abbiamo trovato un link su un altro sito o perché hai inviato una Sitemap o perché in qualche modo sei stato inserito nel nostro sistema”. Un esempio di questo tipo è usare la Search Console per segnalare il sito a Google, un metodo che dà un suggerimento e uno sprone al bot e lo sprona (hint and trigger).

Quanto spesso Googlebot esegue la scansione

Collegato a questo tema c’è un altro punto importante, la frequenza della scansione: Splitt inizia a dire che il bot prova a capire se tra le risorse già presenti nell’Indice c’è qualcosa che ha bisogno di essere controllato più spesso. Ovvero, il sito offre notizie di attualità che cambiano ogni giorno, è un eCommerce che propone offerte che cambiano ogni 15 giorni, o addirittura ha contenuti che non cambiano perché è il sito di un museo che si aggiorna raramente (magari per mostre temporanee)?

Ciò che fa Googlebot è separare i dati dell’indice in una sezione che viene chiamata “daily or fresh” che viene inizialmente sottoposta a scansione in modo assiduo per poi ridurre la frequenza col tempo. Se Google si accorge che il sito è “super spammy o super broken“, Googlebot potrebbe non scansionare il sito, così come le regole imposte al sito (come dicevamo a proposito del file robots.txt) tengono lontano il bot.

Come funziona la scansione di Google

Nel video si aggiunge anche che Googlebot non scansiona semplicemente tutte le pagine di un sito allo stesso momento, sia per limitazioni di risorse interne sia per evitare di sovraccaricare il servizio del sito.

Dunque, Google cerca di capire quanto può spingersi nella scansione, quante risorse proprie ha a disposizione e quanto può stressare il sito, determinando quello che spesso viene definito crawl budget e che spesso è difficile determinare. “Ciò che facciamo – aggiunge Splitt – è lanciare una scansione per un po’, alzare il livello di intensità e quando iniziamo a vedere errori ridurre il carico“.

Il mio sito è visitato da Googlebot?

Questa è la crawler part dello spider di Google, a cui seguono altre attività tecniche più specifiche come il rendering; per i siti, però, può essere importante sapere come capire se un sito è visitato da Googlebot, e Martin Splitt spiega come fare.

Google usa un browser a due fasi (crawling e vero rendering), e in entrambi i momenti presenta ai siti una richiesta con intestazione dell’user agent, che lascia tracce ben visibili nei log referrer. Come si legge nei documenti ufficiali di Mountain View, Google usa una decina di token dello user-agent, responsabili di una parte specifica di crawling (ad esempio, AdsBot-Google-Mobile controlla la qualità dell’annuncio nella pagina web Android).

Offrire ai crawler pagine che possono elaborare

I siti possono scegliere di offrire ai crawler una versione non completa delle pagine, ma un HTML pre-renderizzato appositamente per facilitare la scansione: è quello che si chiama rendering dinamico, che significa in pratica avere contenuti visualizzati lato client e contenuti pre-visualizzati per specifici user-agent, come si legge nelle guide di Google.

Che cos’è il rendering dinamico o dynamic rendering

Il rendering dinamico o dynamic rendering viene consigliato soprattutto per siti che hanno contenuti generati con JavaScript, che restano di difficile elaborazione per molti crawler, e offre agli user-agent dei contenuti adatti alle proprie capacità, come ad esempio una versione HTML statica della pagina.

Google e la navigazione mobile

L’episodio 2 di SEO Mythbusting prosegue dedicando attenzione a un tema caldo, ovvero la navigazione mobile; nello specifico, Suz Hinton chiede dettagli circa il modo con cui Google analizza e distingue i contenuti di siti mobile e di siti desktop. L’analyst di Big G si sofferma innanzitutto a spiegare cos’è il mobile first index per Google, ovvero il modo in cui “scopriamo i tuoi contenuti utilizzando un user agent mobile e una viewport mobile”, che serve al motore di ricerca per assicurarsi di servire qualcosa di carino (something nice) alle persone che navigano da dispositivo mobile.
L'analisi di Google

L’importanza di un sito mobile friendly

Proseguendo nel discorso, Martin Splitt dedica attenzione anche ai correlati concetti di mobile readiness o mobile friendliness: rendere una pagina mobile friendly significa assicurarsi che tutti i contenuti rientrino nell’area viewport, che i “tap targets” siano sufficientemente larghi da evitare errori di pressione, che i contenuti possano essere letti senza dover necessariamente allargare lo schermo e così via.

Tutto questo è un indicatore di qualità per Google, ovvero uno dei 200 fattori di ranking di cui abbiamo fatto cenno prima, anche se alla fine il consiglio che dà l’analyst è di “offrire buoni contenuti per l’utente“, perché è la cosa più importante per un sito.

GM