Guida all’uso e all’analisi del log file per la SEO

Iscriviti alla newsletter

Sono registri digitali che documentano gli eventi che si verificano all’interno di un sistema informatico e, come il classico diario di bordo di un capitano di nave, annotano ogni singolo evento che accade durante il viaggio. I log file o files di log sono generati automaticamente dai vari software e servizi che utilizziamo, e forniscono un resoconto dettagliato di ciò che sta accadendo “sotto il cofano” e, nell’ottica di un sito, possono offrirci un modo per controllare il comportamento effettivo di Googlebot e degli altri crawler sulle nostre pagine. Già da questo si dovrebbe capire il valore SEO dell’analisi dei log files, che ci offrono anche altri dati utili per l’analisi delle informazioni legate agli aspetti tecnici del dominio, così da avere gli strumenti per verificare se un motore di ricerca legge correttamente il sito e ne scansiona tutte le pagine.

Che cos’è il log file

Chiamati anche log files o file di registro, i file di log sono appunto dei file in cui il server Web registra ogni singola richiesta lanciata da bot o utenti al nostro sito, riportando ogni tipo di evento che ha avuto luogo in un determinato momento con, eventualmente, dei metadati che lo contestualizzano.

Potremmo pensare che siano solo una serie di codici e numeri incomprensibili, ma in realtà contengono informazioni preziose: ogni riga rappresenta un evento specifico, come l’avvio di un programma, un errore di sistema, o un tentativo di accesso non autorizzato, e la lettura di questi dati può aiutarci a capire meglio come funziona il nostro sistema, a identificare eventuali problemi e a prevenire futuri malfunzionamenti.

In realtà, la struttura di base di un file di registro include una serie di voci, ognuna delle quali solitamente composta da una serie di campi separati da spazi o da altri caratteri di delimitazione, che rappresentano un evento specifico. Sebbene la struttura esatta possa variare a seconda del software o del servizio che genera il file di log, la maggior parte delle voci include almeno le seguenti informazioni:

  • Il timestamp, che indica il momento preciso in cui si è verificato l’evento registrato, espresso in formato di data e ora.
  • Livello di log, che indica la gravità dell’evento. I livelli comuni includono “INFO” per gli eventi normali, “WARNING” per gli eventi potenzialmente problematici e “ERROR” per gli errori.
  • Messaggio di log, che fornisce dettagli sull’evento, includendo ad esempio, il nome del servizio o del software che lo ha generato, l’azione che è stata eseguita o l’errore che si è verificato.

Tuttavia, a seconda del tipo di origine del registro, il file conterrà anche una grande quantità di dati rilevanti: i log del server, ad esempio includeranno anche la pagina web di riferimento, il codice di stato HTTP, i byte serviti, gli user agent e altro.

Pertanto, questo file di registro generato dal computer contiene informazioni su modelli di utilizzo, attività e operazioni all’interno di un sistema operativo, un’applicazione, un server o un altro dispositivo, ed essenzialmente servono a verificare se le risorse funzionano correttamente e in modo ottimale.

Un esempio di file di log potrebbe essere il seguente:

2022-01-01 12:34:56 INFO Il servizio X è stato avviato correttamente.

In questo caso, veniamo a conoscenza del fatto che l’evento è avvenuto il 1° gennaio 2022 alle 12:34:56, che si tratta di un evento normale (come indicato dal livello “INFO”) e che il servizio X è stato avviato correttamente.

Perché si chiamano files di log

In informatica, i log sono la registrazione sequenziale e cronologica delle operazioni effettuate da un sistema, e più in generale questo termine deriva dal gergo nautico del Diciottesimo secolo, quando il log era letteralmente il pezzo di legno che serviva a calcolare approssimativamente la velocità della nave in base al numero di nodi fuori bordo (motivo per cui la velocità delle navi si misura ancora oggi in nodi).

Tornando alle nostre questioni quotidiane, i log files sono dunque le registrazioni di chi ha avuto accesso al sito e del contenuto a cui ha avuto accesso; inoltre, contengono informazioni su chi ha effettuato la richiesta di accesso al sito web (noto anche come “client”), distinguendo tra visitatori umani e bot di un motore di ricerca, come Googlebot o Bingbot.

Le registrazioni dei file di registro sono raccolte dal server web del sito, di solito sono conservate per un certo intervallo di tempo e sono resi disponibili solo al webmaster del sito. Così come i vecchi diari di bordo marinari, insomma, sono una registrazione storica di tutto ciò che accade all’interno di un sistema, inclusi eventi come transazioni, errori e intrusioni, per poter continuare la navigazione senza intoppi.

Come sono fatti i file di log

Ogni server registra diversamente gli eventi nei log, ma le informazioni fornite sono comunque simili, organizzate in campi. Quando un utente o un bot visita una pagina web del sito, il server scrive una voce nel file di registro per la risorsa caricata: il log file contiene tutti i dati su questa richiesta e mostra esattamente come gli utenti, i motori di ricerca e altri crawler interagiscono con le nostre risorse online.

Dal punto di vista visivo, un file di log ha questo aspetto:

27.300.14.1 – – [14/Sep/2017:17:10:07 -0400] “GET https://example.com/ex1/ HTTP/1.1” 200 “https://example.com” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Andando a dividere le sue parti, troviamo queste informazioni:

  • L’IP del cliente.
  • Un timestamp con la data e l’ora della richiesta.
  • Il metodo di accesso al sito, che potrebbe essere GET o POST.
  • L’URL richiesto, che contiene la pagina a cui si accede.
  • Lo status code della pagina richiesta, che mostra l’esito positivo o negativo della richiesta.
  • L’user agent, che contiene informazioni aggiuntive sul client che effettua la richiesta, inclusi il browser e il bot (ad esempio, se proviene da mobile o desktop).

Alcune soluzioni di hosting possono anche fornire altre informazioni, che potrebbero includere ad esempio:

  • Il nome dell’host.
  • L’IP del server.
  • Byte scaricati.
  • Il tempo impiegato per fare la richiesta.

File di log significato e valore

Il log file racconta quindi tutta la storia delle operazioni registrate nel corso del quotidiano utilizzo del sito (o, più in generale, di un software, di un’applicazione, di un computer), conservando in ordine cronologico tutte le informazioni sia in caso di funzionamento regolare che quando si verificano errori e problemi.

Il registro contiene quindi dati utili per avere piena consapevolezza sulla salute del sito, perché ci permette ad esempio di individuare se le pagine sono scansionate da bot dannosi o inutili (a cui poi impedire l’accesso, così da alleggerire il server), se la velocità effettiva del sito è buona o se ci sono pagine troppo lente, se ci sono link rotti o pagine che restituiscono uno status code problematico.

Più in generale, attraverso i file di registro possiamo scoprire capire quali pagine sono visitate di più e con quale frequenza, identificare eventuali bug nel codice software online, individuare falle nella sicurezza e raccogliere dati sugli utenti del sito per migliorare la user experience.

Dove trovare e come leggere i log files

Banalmente, per poter analizzare il log file del sito dobbiamo ottenerne una copia: il metodo per averne accesso dipende dalla soluzione di hosting (e dal livello di autorizzazione), ma in alcuni casi è possibile ottenere i file di registro da un CDN o anche dalla riga di comando, da scaricare localmente sul computer ed eseguiti nel formato di esportazione.

Molto però dipende dal sistema che stiamo utilizzando: su un sistema operativo Windows, ad esempio, i file di log possono essere trovati all’interno del Visualizzatore Eventi, mentre su un sistema Linux, si trovano solitamente nella directory /var/log.

Di solito, per accedere al file di registro del sito bisogna invece utilizzare il file manager del pannello di controllo del server, tramite la riga di comando, o un client FTP (come Filezilla, che è gratis e generalmente consigliato), e proprio questa seconda opzione è quella più comune.

In questo caso, dobbiamo connetterci al server e accedere alla posizione del log file, che in genere, nelle comuni configurazioni server, è:

    • Apache: /var/log/access_log
    • Nginx: logs/access.log
    • IIS: %SystemDrive%inetpublogsLogFiles

A volte non è semplice recuperare il file di registro, perché possono intervenire errori o problemi. Ad esempio, i file potrebbero non essere disponibili perché disabilitati da un amministratore del server, oppure potrebbero essere di grandi dimensioni, o potrebbe essere impostato per memorizzare solo dati recenti; in altre circostanze ci potrebbero essere dei problemi causati da CDN o l’esportazione potrebbe essere consentita solo in formato personalizzato, che risulta illeggibile sul computer locale. Ad ogni modo, nessuna di queste situazioni è irrisolvibile e basta lavorare insieme a uno sviluppatore o un amministratore del server per superare gli ostacoli.

Per quanto riguarda la lettura dei file di log, esistono vari strumenti che possono aiutarci a decifrare le informazioni contenute: alcuni sono integrati nei sistemi operativi, come il già citato Visualizzatore Eventi di Windows, mentre altri sono software di terze parti, come Loggly o Logstash. Questi strumenti possono variare da semplici editor di testo con funzionalità di ricerca, a software dedicati che offrono funzionalità avanzate come l’analisi in tempo reale, l’allarme automatico e la visualizzazione dei dati.

A volte, infatti, i log files possono diventare molto grandi e complessi, soprattutto in sistemi di grandi dimensioni o molto attivi, e quindi ricorrere a tali strumenti di analisi dei log può servire a filtrare, cercare e visualizzare le informazioni in modo più gestibile.

Che cos’è l’analisi dei file di log e a cosa serve

Ecco quindi che abbiamo già degli spunti che ci fanno comprendere perché l’analisi dei file di registro può essere un’attività strategica per migliorare il rendimento del sito, visto che ci rivela insights su come i motori di ricerca stanno scansionando il dominio e le sue pagine web, e più in generale su ciò che sta accadendo al nostro sistema, fornendoci una visione dettagliata degli eventi, anche quelli “indesiderati”.

Ad esempio, se stiamo riscontrando problemi con un particolare software, l’analisi dei file di log può aiutarci a identificare l’origine del problema. Se notiamo che il nostro sito web è più lento del solito, i file di log possono dirci se si tratta di un problema di traffico, di un errore nel codice, o di un attacco informatico. Se stiamo cercando di ottimizzare le prestazioni del nostro sistema, i file di log possono fornirci dati preziosi su come i vari componenti stanno funzionando.

Inoltre, l’analisi dei file di log può svolgere un ruolo cruciale nella sicurezza informatica: il registro può rivelare tentativi di accesso non autorizzato, attività sospette e altri segnali di possibili attacchi informatici e, analizzando questi dati, possiamo rilevare le minacce prima che diventino un problema serio e prendere le misure appropriate per proteggere i nostri sistemi.

Per quanto riguarda la SEO, poi, possiamo analizzare i files di log per concentrarci sullo studio di alcuni aspetti, come:

  • Frequenza con la quale Googlebot esegue la scansione del sito, elenco delle pagine più importanti (e se vengono sottoposte a scansione) e identificazione delle pagine che non vengono sottoposte a scansione spesso.
  • Identificazione delle pagine e delle cartelle sottoposte a scansione con maggior frequenza.
  • Determinazione del crawl budget e verifica degli eventuali sprechi per pagine irrilevanti.
  • Ricerca degli URL con parametri sottoposti a scansione inutilmente.
  • Verifica del passaggio all’indicizzazione mobile-first di Google.
  • Codice di stato specifico servito per ciascuna delle pagine del sito e ricerca di aree di interesse.
  • Verifica di pagine inutilmente grandi o lente.
  • Ricerca di risorse statiche sottoposte a scansione troppo frequentemente.
  • Ricerca di catene di redirect sottoposte a scansione di frequente.
  • Individuazione di improvvisi aumenti o cali nell’attività del crawler.

Come usare la log file analysis per la SEO

Guardare un file di registro per la prima volta può creare un po’ di confusione, ma basta un po’ di pratica per riuscire a comprendere il valore di questo documento ai fini dell’ottimizzazione del nostro sito.

Eseguire un’analisi del log file ci può infatti fornire informazioni utili su come il sito viene visto dai crawler dei motori di ricerca, così da aiutarci nella definizione di una strategia SEO e degli interventi di ottimizzazione che si rivelano necessari.

Sappiamo, infatti, che ogni pagina ha tre stati SEO di basescansionabile, indicizzabile e classificabile: per essere indicizzata, una pagina deve essere prima letta da un bot, e l’analisi dei log file ci permette di sapere se questo passaggio è correttamente completato.

Infatti, lo studio dei permette agli amministratori di sistema e ai professionisti SEO di comprendere esattamente quello che legge un bot, il numero di volte che il bot legge la risorsa e il costo, in termini di tempo impiegato, delle ricerche per indicizzazione.

Il primo passaggio consigliato nell’analisi, secondo Ruth Everett, è selezionare i dati di accesso al sito per visualizzare solo i dati dai bot dei motori di ricerca, impostando un filtro limitato solo agli user agent a cui siamo interessati.

La stessa esperta suggerisce alcune domande di esempio che possono guidarci nell’analisi del file di registro per la SEO:

  • Quanto del sito viene effettivamente sottoposto a scansione dai motori di ricerca?
  • Quali sezioni del sito sono o non sono sottoposte a scansione?
  • Quanto è profonda la scansione del sito?
  • Con quale frequenza viene eseguita la scansione di determinate sezioni del sito?
  • Con quale frequenza vengono scansionate le pagine regolarmente aggiornate?
  • Dopo quanto tempo vengono scoperte e scansionate le nuove pagine dai motori di ricerca?
  • In che modo la modifica della struttura/architettura del sito ha influito sulla scansione dei motori di ricerca?
  • Qual è la velocità di scansione del sito Web e di download delle risorse?

Log file e SEO, le informazioni utili da ricercare

Il file di registro ci permette di avere un’idea sulla crawlability del nostro sito e sul modo in cui è speso il crawl budget che Googlebot ci dedica: anche se sappiamo che “la maggior parte dei siti non deve preoccuparsi troppo del crawl budget”, come ripete spesso John Mueller di Google, è comunque utile sapere di quali pagine Google sta eseguendo la scansione e con quale frequenza, così da poter intervenire eventualmente per ottimizzare il crawl budget destinandolo a risorse più importanti per il nostro business.

A livello più ampio, dobbiamo accertarci che il sito sia scansionato in modo efficiente ed efficace, e soprattutto che le pagine chiave, quelle nuove e quelle che sono regolarmente aggiornate e siano trovate e scansionate rapidamente e con frequenza adeguata.

Informazioni di questo tipo possiamo trovarle anche nel rapporto Statistiche di scansione di Google, che consente di visualizzare le richieste di scansione di Googlebot negli ultimi 90 giorni, conanalisi dei codici di stato e delle richieste di tipo di file, nonché sul tipo di Googlebot (desktop, mobile, Ads, Immagine, eccetera) sta effettuando la richiesta e se si tratta di nuove pagine trovate o precedenti pagine scansionate.

Tuttavia, questo report presenta solo un esempio di pagine campionate, quindi non offre il quadro completo che invece è disponibile dai file di registro del sito.

Quali dati estrapolare nell’analisi

In aggiunta a quanto già scritto, l’analisi del log file ci offre altri spunti utili da ricercare per approfondire la nostra supervisione.

Ad esempio, possiamo combinare i dati dei codici di stato per verificare quante richieste si concludono con esiti differenti al codice 200, e quindi quanto crawl budget stiamo sprecando su pagine non funzionanti o di reindirizzamento. Allo stesso tempo, possiamo anche esaminare in che modo i bot dei motori di ricerca stanno eseguendo la scansione delle pagine indicizzabili sul sito, rispetto alle pagine non indicizzabili.

Inoltre, combinando i dati del log file con le informazioni di una scansione del sito possiamo anche scoprire la profondità nell’architettura del sito che i bot stanno effettivamente scansionando: secondo Everett, “se abbiamo pagine di prodotti chiave ai livelli quattro e cinque, ma i file di registro mostrano che Googlebot non esegue spesso la scansione di questi livelli, dobbiamo eseguire ottimizzazioni che aumentino la visibilità di queste pagine”.

Un intervento possibile per migliorare questo aspetto sono i link interni, un altro importante punto dati che possiamo esaminare da questo uso combinato di file di log e analisi di scansione: in genere, più collegamenti interni ha una pagina, più facile è scoprirla.

Ancora, i dati del file di registro sono utili per esaminare come cambia il comportamento di un motore di ricerca nel tempo, elemento particolarmente quando è in corso una migrazione di contenuti o una modifica della struttura del sito per capire in che modo tale intervento ha influito sulla scansione del sito.

Infine, i dati del file di registro mostrano anche l’user agent utilizzato per accedere alla pagina e possono quindi farci sapere se l’accesso è stato effettuato da un bot mobile o desktop: ciò significa che possiamo scoprire quante pagine del sito vengono sottoposte a scansione da dispositivi mobili rispetto a desktop, come questo è cambiato nel tempo ed eventualmente lavorare per capire come ottimizzare la versione “preferita” da Googlebot.

Prova SEOZoom

7 giorni di Prova Gratuita

Inizia ad aumentare il tuo traffico con SEOZoom!
TOP