Log file: cosa sono, come si usano, a cosa servono

SEO Gennaro Mancini 29 Aprile 2024 Tempo di lettura : 11 minuti

Mettici alla prova

Analizza il tuo sito

Seleziona la lingua del database:

Sono registri digitali che annotano ogni passaggio, ogni accesso e ogni azione che si verificano all’interno di un sistema informatico e, in particolare, sul server che ospita il nostro sito web. In pratica, sono la versione digitale del vecchio diario di bordo di un capitano di nave, e quindi registrano ogni singolo evento che accade durante il viaggio. I log file o file di log sono generati automaticamente dai vari software e servizi che utilizziamo, e forniscono un resoconto dettagliato di ciò che sta accadendo “sotto il cofano”: per questo, possono offrirci un modo per controllare il comportamento effettivo di Googlebot e degli altri crawler sulle nostre pagine e rivelare dati nascosti da trasformare in opportunità per ottimizzare la nostra presenza online. Già da questo si dovrebbe capire il valore SEO dell’analisi dei log files, che ci offrono anche altri dati utili per l’analisi delle informazioni legate agli aspetti tecnici del dominio, così da avere gli strumenti per verificare se un motore di ricerca legge correttamente il sito e ne scansiona tutte le pagine.

Che cos’è il file di log

Un file di log è semplicemente un registro che documenta gli eventi in un sistema informatico, offrendo una visione trasparente e dettagliata di ciò che accade in modo da agire con precisione e cognizione di causa.

La scelta di chi vuole davvero fare la differenza online

SEOZoom è la chiave per dominare le ricerche online: tutti i dati e i consigli per conquistare visite e guadagnare di più con il tuo sito

Scopri di più

Chiamati anche log files o file di registro, i file di log sono appunto dei documenti digitali in cui il server Web registra ogni singola richiesta lanciata da bot o utenti al nostro sito, riportando ogni tipo di evento che ha avuto luogo in un determinato momento con, eventualmente, dei metadati che lo contestualizzano.

In pratica, ogni qualvolta un utente o un bot interagisce con il nostro sito, il server annota questa attività in un file di log, come se tenesse un diario di bordo di tutte le visite.

File di log cosa sono davvero e dove si trovano

I file di log si trovano nel cuore del server che ospita il sito e sono accessibili attraverso il pannello di controllo del nostro hosting o tramite protocolli come FTP o SSH, a seconda del livello di controllo che abbiamo sul server stesso.

Anche se il termine log file potrebbe evocare immagini di codici incomprensibili e stringhe di testo criptiche, in realtà questi documenti sono abbastanza accessibili e, soprattutto, sono utili per la gestione piena e completa di un sito.

Questi file contengono infatti informazioni preziose: ogni riga rappresenta un evento specifico, come l’avvio di un programma, un errore di sistema, o un tentativo di accesso non autorizzato, e la lettura di questi dati può aiutarci a capire meglio come funziona il nostro sistema, a identificare eventuali problemi e a prevenire futuri malfunzionamenti.

Come sono fatti i log files

Questi file sono solitamente in formato testuale, il che li rende leggibili (anche se non sempre immediatamente comprensibili) e sono organizzati in modo tale da poter essere analizzati con strumenti specifici. La loro posizione e struttura possono variare a seconda del sistema operativo del server e del software utilizzato, ma la loro presenza è una costante in ogni ambiente di hosting.

La struttura di base di un file di registro include una serie di voci, ognuna delle quali solitamente composta da una serie di campi separati da spazi o da altri caratteri di delimitazione, che rappresentano un evento specifico. Sebbene la struttura esatta possa variare a seconda del software o del servizio che genera il file di log, la maggior parte delle voci include almeno le seguenti informazioni:

Il timestamp, che indica il momento preciso in cui si è verificato l’evento registrato, espresso in formato di data e ora.
Livellodi log, che indica la gravità dell’evento. I livelli comuni includono “INFO” per gli eventi normali, “WARNING” per gli eventi potenzialmente problematici e “ERROR” per gli errori.
Messaggiodi log, che fornisce dettagli sull’evento, includendo ad esempio, il nome del servizio o del software che lo ha generato, l’azione che è stata eseguita o l’errore che si è verificato.

Tuttavia, a seconda del tipo di origine del registro, il file conterrà anche una grande quantità di dati rilevanti: i log del server, ad esempio includeranno anche la pagina web di riferimento, il codice di stato HTTP, i byte serviti, gli user agent e altro.

Pertanto, questo file di registro generato dal computer contiene informazioni su modelli di utilizzo, attività e operazioni all’interno di un sistema operativo, un’applicazione, un server o un altro dispositivo, ed essenzialmente servono a verificare se le risorse funzionano correttamente e in modo ottimale.

File di log: analisi della struttura standard

Ogni server registra diversamente gli eventi nei log, ma le informazioni fornite sono comunque simili, organizzate in campi. Quando un utente o un bot visita una pagina web del sito, il server scrive una voce nel file di registro per la risorsa caricata: il log file contiene tutti i dati su questa richiesta e mostra esattamente come gli utenti, i motori di ricerca e altri crawler interagiscono con le nostre risorse online.

Dal punto di vista visivo, un file di log ha questo aspetto:

27.300.14.1 – – [14/Sep/2017:17:10:07 -0400] “GET https://example.com/ex1/ HTTP/1.1” 200 “https://example.com” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Andando a dividere le sue parti, troviamo queste informazioni:

L’IP del cliente.
Un timestamp con la data e l’ora della richiesta.
Il metodo di accesso al sito, che potrebbe essere GET o POST.
L’URL richiesto, che contiene la pagina a cui si accede.
Lo status code della pagina richiesta, che mostra l’esito positivo o negativo della richiesta.
L’user agent, che contiene informazioni aggiuntive sul client che effettua la richiesta, inclusi il browser e il bot (ad esempio, se proviene da mobile o desktop).

Alcune soluzioni di hosting possono anche fornire altre informazioni, che potrebbero includere ad esempio:

Il nome dell’host.
L’IP del server.
Byte scaricati.
Il tempo impiegato per fare la richiesta.

Esempio di file di log: come appaiono e cosa comunicano

Un esempio di file di log potrebbe essere il seguente:

2022-01-01 12:34:56 INFO Il servizio X è stato avviato correttamente.

In questo caso, veniamo a conoscenza del fatto che l’evento è avvenuto il 1° gennaio 2022 alle 12:34:56, che si tratta di un evento normale (come indicato dal livello “INFO”) e che il servizio X è stato avviato correttamente.

Per capire meglio forniamo un altro esempio di estratto di un file di log.

Potremmo vedere qualcosa di simile a questo:

123.123.123.123 – – [12/Mar/2023:06:25:45 +0000] “GET /pagina-esempio.html HTTP/1.1” 200 5324 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

In questa riga, abbiamo un indirizzo IP che identifica chi ha fatto la richiesta, la data e l’ora dell’evento, il tipo di richiesta (in questo caso, un “GET”), il percorso della risorsa richiesta, il codice di stato HTTP restituito dal server (200 indica che la richiesta è stata soddisfatta con successo), la dimensione del file inviato in risposta, e infine l’User-Agent, che ci dice che l’accesso è stato effettuato da Googlebot, il crawler di Google.

Analizzando questi dati, possiamo trarre conclusioni preziose sul comportamento dei visitatori e dei bot sul nostro sito, e utilizzare queste informazioni per affinare la nostra strategia SEO.

Perché si chiamano files di log

In informatica, i log sono la registrazione sequenziale e cronologica delle operazioni effettuate da un sistema, e più in generale questo termine deriva dal gergo nautico del Diciottesimo secolo, quando il log era letteralmente il pezzo di legno che serviva a calcolare approssimativamente la velocità della nave in base al numero di nodi fuori bordo (motivo per cui la velocità delle navi si misura ancora oggi in nodi).

Tornando alle nostre questioni quotidiane, i log files sono dunque le registrazioni di chi ha avuto accesso al sito e del contenuto a cui ha avuto accesso; inoltre, contengono informazioni su chi ha effettuato la richiesta di accesso al sito web (noto anche come “client”), distinguendo tra visitatori umani e bot di un motore di ricerca, come Googlebot o Bingbot.

Le registrazioni dei file di registro sono raccolte dal server web del sito, di solito sono conservate per un certo intervallo di tempo e sono resi disponibili solo al webmaster del sito. Così come i vecchi diari di bordo marinari, insomma, sono una registrazione storica di tutto ciò che accade all’interno di un sistema, inclusi eventi come transazioni, errori e intrusioni, per poter continuare la navigazione senza intoppi.

A cosa servono i file di log: significato e valore

Il log file racconta quindi tutta la storia delle operazioni registrate nel corso del quotidiano utilizzo del sito (o, più in generale, di un software, di un’applicazione, di un computer), conservando in ordine cronologico tutte le informazioni sia in caso di funzionamento regolare che quando si verificano errori e problemi.

Il registro contiene quindi dati utili per avere piena consapevolezza sulla salute del sito, perché ci permette ad esempio di individuare se le pagine sono scansionate da bot dannosi o inutili (a cui poi impedire l’accesso, così da alleggerire il server), se la velocità effettiva del sito è buona o se ci sono pagine troppo lente, se ci sono link rotti o pagine che restituiscono uno status code problematico.

Più in generale, attraverso i file di registro possiamo scoprire capire quali pagine sono visitate di più e con quale frequenza, identificare eventuali bug nel codice software online, individuare falle nella sicurezza e raccogliere dati sugli utenti del sito per migliorare la user experience.

Ecco perché i file di log sono una miniera d’oro per chi si occupa di SEO e digital marketing: attraverso la loro analisi possiamo comprendere come i motori di ricerca interagiscono con il nostro sito, quali pagine vengono indicizzate, quali errori vengono rilevati e molto altro; inoltre, i file di log possono essere utilizzati per scopi di sicurezza, per identificare tentativi di accesso non autorizzati o comportamenti sospetti.

Dove trovare e come leggere i log files

Banalmente, per poter analizzare il log file del sito dobbiamo ottenerne una copia: il metodo per averne accesso dipende dalla soluzione di hosting (e dal livello di autorizzazione), ma in alcuni casi è possibile ottenere i file di registro da un CDN o anche dalla riga di comando, da scaricare localmente sul computer ed eseguiti nel formato di esportazione.

Molto però dipende dal sistema che stiamo utilizzando: su un sistema operativo Windows, ad esempio, i file di log possono essere trovati all’interno del Visualizzatore Eventi, mentre su un sistema Linux, si trovano solitamente nella directory /var/log.

Di solito, per accedere al file di registro del sito bisogna invece utilizzare il file manager del pannello di controllo del server, tramite la riga di comando, o un client FTP (come Filezilla, che è gratis e generalmente consigliato), e proprio questa seconda opzione è quella più comune.

In questo caso, dobbiamo connetterci al server e accedere alla posizione del log file, che in genere, nelle comuni configurazioni server, è:

Apache: /var/log/access_log
Nginx: logs/access.log
IIS: %SystemDrive%inetpublogsLogFiles

A volte non è semplice recuperare il file di registro, perché possono intervenire errori o problemi. Ad esempio, i file potrebbero non essere disponibili perché disabilitati da un amministratore del server, oppure potrebbero essere di grandi dimensioni, o potrebbe essere impostato per memorizzare solo dati recenti; in altre circostanze ci potrebbero essere dei problemi causati da CDN o l’esportazione potrebbe essere consentita solo in formato personalizzato, che risulta illeggibile sul computer locale. Ad ogni modo, nessuna di queste situazioni è irrisolvibile e basta lavorare insieme a uno sviluppatore o un amministratore del server per superare gli ostacoli.

Per quanto riguarda la lettura dei file di log, esistono vari strumenti che possono aiutarci a decifrare le informazioni contenute: alcuni sono integrati nei sistemi operativi, come il già citato Visualizzatore Eventi di Windows, mentre altri sono software di terze parti, come Loggly o Logstash. Questi strumenti possono variare da semplici editor di testo con funzionalità di ricerca, a software dedicati che offrono funzionalità avanzate come l’analisi in tempo reale, l’allarme automatico e la visualizzazione dei dati.

A volte, infatti, i log files possono diventare molto grandi e complessi, soprattutto in sistemi di grandi dimensioni o molto attivi, e quindi ricorrere a tali strumenti di analisi dei log può servire a filtrare, cercare e visualizzare le informazioni in modo più gestibile.

Che cos’è l’analisi dei file di log e a cosa serve

Ecco quindi che abbiamo già degli spunti che ci fanno comprendere perché l’analisi dei file di registro può essere un’attività strategica per migliorare il rendimento del sito, visto che ci rivela insights su come i motori di ricerca stanno scansionando il dominio e le sue pagine web, e più in generale su ciò che sta accadendo al nostro sistema, fornendoci una visione dettagliata degli eventi, anche quelli “indesiderati”.

Ad esempio, se stiamo riscontrando problemi con un particolare software, l’analisi dei file di log può aiutarci a identificare l’origine del problema. Se notiamo che il nostro sito web è più lento del solito, i file di log possono dirci se si tratta di un problema di traffico, di un errore nel codice, o di un attacco informatico. Se stiamo cercando di ottimizzare le prestazioni del nostro sistema, i file di log possono fornirci dati preziosi su come i vari componenti stanno funzionando.

Inoltre, l’analisi dei file di log può svolgere un ruolo cruciale nella sicurezza informatica: il registro può rivelare tentativi di accesso non autorizzato, attività sospette e altri segnali di possibili attacchi informatici e, analizzando questi dati, possiamo rilevare le minacce prima che diventino un problema serio e prendere le misure appropriate per proteggere i nostri sistemi.

Per quanto riguarda la SEO, poi, possiamo analizzare i files di log per concentrarci sullo studio di alcuni aspetti, come:

Frequenza con la quale Googlebot esegue la scansione del sito, elenco delle pagine più importanti (e se vengono sottoposte a scansione) e identificazione delle pagine che non vengono sottoposte a scansione spesso.
Identificazione delle pagine e delle cartelle sottoposte a scansione con maggior frequenza.
Determinazione del crawl budget e verifica degli eventuali sprechi per pagine irrilevanti.
Ricerca degli URL con parametri sottoposti a scansione inutilmente.
Verifica del passaggio all’indicizzazione mobile-first di Google.
Codice di stato specifico servito per ciascuna delle pagine del sito e ricerca di aree di interesse.
Verifica di pagine inutilmente grandi o lente.
Ricerca di risorse statiche sottoposte a scansione troppo frequentemente.
Ricerca di catene di redirect sottoposte a scansione di frequente.
Individuazione di improvvisi aumenti o cali nell’attività del crawler.

Come usare la log file analysis per la SEO

Guardare un file di registro per la prima volta può creare un po’ di confusione, ma basta un po’ di pratica per riuscire a comprendere il valore di questo documento ai fini dell’ottimizzazione del nostro sito.

Eseguire un’analisi del log file ci può infatti fornire informazioni utili su come il sito viene visto dai crawler dei motori di ricerca, così da aiutarci nella definizione di una strategia SEO e degli interventi di ottimizzazione che si rivelano necessari.

Sappiamo, infatti, che ogni pagina ha tre stati SEO di base – scansionabile, indicizzabile e classificabile: per essere indicizzata, una pagina deve essere prima letta da un bot, e l’analisi dei log file ci permette di sapere se questo passaggio è correttamente completato.

Infatti, lo studio dei permette agli amministratori di sistema e ai professionisti SEO di comprendere esattamente quello che legge un bot, il numero di volte che il bot legge la risorsa e il costo, in termini di tempo impiegato, delle ricerche per indicizzazione.

Il primo passaggio consigliato nell’analisi, secondo Ruth Everett, è selezionare i dati di accesso al sito per visualizzare solo i dati dai bot dei motori di ricerca, impostando un filtro limitato solo agli user agent a cui siamo interessati.

La stessa esperta suggerisce alcune domande di esempio che possono guidarci nell’analisi del file di registro per la SEO:

Quanto del sito viene effettivamente sottoposto a scansione dai motori di ricerca?
Quali sezioni del sito sono o non sono sottoposte a scansione?
Quanto è profonda la scansione del sito?
Con quale frequenza viene eseguita la scansione di determinate sezioni del sito?
Con quale frequenza vengono scansionate le pagine regolarmente aggiornate?
Dopo quanto tempo vengono scoperte e scansionate le nuove pagine dai motori di ricerca?
In che modo la modifica della struttura/architettura del sito ha influito sulla scansione dei motori di ricerca?
Qual è la velocità di scansione del sito Web e di download delle risorse?

Log file e SEO, le informazioni utili da ricercare

Il file di registro ci permette di avere un’idea sulla crawlability del nostro sito e sul modo in cui è speso il crawl budget che Googlebot ci dedica: anche se sappiamo che “la maggior parte dei siti non deve preoccuparsi troppo del crawl budget”, come ripete spesso John Mueller di Google, è comunque utile sapere di quali pagine Google sta eseguendo la scansione e con quale frequenza, così da poter intervenire eventualmente per ottimizzare il crawl budget destinandolo a risorse più importanti per il nostro business.

A livello più ampio, dobbiamo accertarci che il sito sia scansionato in modo efficiente ed efficace, e soprattutto che le pagine chiave, quelle nuove e quelle che sono regolarmente aggiornate e siano trovate e scansionate rapidamente e con frequenza adeguata.

Informazioni di questo tipo possiamo trovarle anche nel rapporto Statistiche di scansione di Google, che consente di visualizzare le richieste di scansione di Googlebot negli ultimi 90 giorni, conanalisi dei codici di stato e delle richieste di tipo di file, nonché sul tipo di Googlebot (desktop, mobile, Ads, Immagine, eccetera) sta effettuando la richiesta e se si tratta di nuove pagine trovate o precedenti pagine scansionate.

Tuttavia, questo report presenta solo un esempio di pagine campionate, quindi non offre il quadro completo che invece è disponibile dai file di registro del sito.

Quali dati estrapolare nell’analisi

In aggiunta a quanto già scritto, l’analisi del log file ci offre altri spunti utili da ricercare per approfondire la nostra supervisione.

Domina le ricerche su Google

Tutta la potenza dei dati per perfezionare le tue strategie SEO.

Scopri di più

Ad esempio, possiamo combinare i dati dei codici di stato per verificare quante richieste si concludono con esiti differenti al codice 200, e quindi quanto crawl budget stiamo sprecando su pagine non funzionanti o di reindirizzamento. Allo stesso tempo, possiamo anche esaminare in che modo i bot dei motori di ricerca stanno eseguendo la scansione delle pagine indicizzabili sul sito, rispetto alle pagine non indicizzabili.

Inoltre, combinando i dati del log file con le informazioni di una scansione del sito possiamo anche scoprire la profondità nell’architettura del sito che i bot stanno effettivamente scansionando: secondo Everett, “se abbiamo pagine di prodotti chiave ai livelli quattro e cinque, ma i file di registro mostrano che Googlebot non esegue spesso la scansione di questi livelli, dobbiamo eseguire ottimizzazioni che aumentino la visibilità di queste pagine”.

Un intervento possibile per migliorare questo aspetto sono i link interni, un altro importante punto dati che possiamo esaminare da questo uso combinato di file di log e analisi di scansione: in genere, più collegamenti interni ha una pagina, più facile è scoprirla.

Ancora, i dati del file di registro sono utili per esaminare come cambia il comportamento di un motore di ricerca nel tempo, elemento particolarmente quando è in corso una migrazione di contenuti o una modifica della struttura del sito per capire in che modo tale intervento ha influito sulla scansione del sito.

Infine, i dati del file di registro mostrano anche l’user agent utilizzato per accedere alla pagina e possono quindi farci sapere se l’accesso è stato effettuato da un bot mobile o desktop: ciò significa che possiamo scoprire quante pagine del sito vengono sottoposte a scansione da dispositivi mobili rispetto a desktop, come questo è cambiato nel tempo ed eventualmente lavorare per capire come ottimizzare la versione “preferita” da Googlebot.

Log file: cosa sono, come si usano, a cosa servono

Che cos’è il file di log

File di log cosa sono davvero e dove si trovano

Come sono fatti i log files

File di log: analisi della struttura standard

Esempio di file di log: come appaiono e cosa comunicano

Perché si chiamano files di log

A cosa servono i file di log: significato e valore

Dove trovare e come leggere i log files

Che cos’è l’analisi dei file di log e a cosa serve

Come usare la log file analysis per la SEO

Log file e SEO, le informazioni utili da ricercare

Quali dati estrapolare nell’analisi

Iscriviti alla newsletter