Non sono stati mesi facili, per Google: oltre alle ormai note vicende legali con l’Unione Europea (in questi anni, il colosso statunitense ha subito complessivamente multe per quasi 10 miliardi di euro!, l’ultima per la rete AdSense a marzo) e ad altre criticità anche con gli strumenti di ricerca (come nel caso della morte di Giovanni Buttarelli, come raccontato dal Corriere della Sera), la compagnia ha dovuto fronteggiare anche una serie di problemi all’Indice, iniziati nell’aprile scorso e proseguiti poi con una periodicità preoccupante.

I problemi di Google

Soltanto attraverso il nostro blog, ad esempio, abbiamo raccontato del nuovo problema riscontrato a maggio e degli effetti del precedente bug di Google, ma questi issue sono stati in realtà ancora più frequenti. E anche se, come si legge nel post sul blog ufficiale della compagnia, “il più delle volte il nostro motore di ricerca funziona correttamente”, come in tutti i sistemi complessi “a volte possono verificarsi interruzioni maggiori, che possono portare a interruzioni sia per gli utenti che per i creatori di siti Web”.

Il lavoro dei tecnici

È da questa considerazione che parte il lungo articolo firmato da Vincent Courson, Google Search Outreach, che prova a spiegare in dettaglio cosa sta succedendo a Google e come reagisce il team di sviluppatori e tecnici quando si verificano questi problemi (più o meno gravi). Ovviamente, la premessa è che le varie squadre impegnate a Mountain View “lavorano duramente per prevenire problemi tecnici che potrebbero interessare i nostri utenti che effettuano ricerche sul Web o i webmaster i cui siti indicizziamo e serviamo agli utenti”.

Allo stesso modo, “anche i sistemi sottostanti che utilizziamo per alimentare il motore di ricerca funzionano come previsto per la maggior parte del tempo”, e “quando si verificano piccole interruzioni, non sono in gran parte visibili a nessuno tranne ai nostri team che assicurano che i nostri prodotti siano attivi e funzionanti”.

Il bug all’Indice di Google

Nonostante questo impegno, però, è possibile che qualcosa vada storto, e negli ultimi mesi si sono verificati vari problemi “con i nostri sistemi di indicizzazione, che hanno avuto un effetto a catena su alcune altre parti della nostra infrastruttura”. Google ha “lavorato il più rapidamente possibile per porre rimedio alla situazione” scusandosi per l’interruzione “poiché il nostro obiettivo è fornire continuamente prodotti di alta qualità ai nostri utenti e all’ecosistema web”, e ora intende chiarire cosa è successo e quale lezione ha imparato.

Si parte proprio dai problemi di aprile al sistema di indicizzazione di Google, ovvero “il database che contiene le centinaia di miliardi di pagine Web sottoposte a scansione sul Web e che riteniamo possano rispondere ad alcune delle domande dei nostri utenti”. Come spiega l’autore, “quando un utente inserisce una query nel motore di ricerca di Google, i nostri algoritmi di classificazione ordinano le pagine dell’indice di ricerca per trovare i risultati più pertinenti e utili in una frazione di secondo”. In pratica, l’ossatura del motore di ricerca e primo passo per la visibilità di ogni sito, ancor prima del posizionamento e delle tecniche SEO.

I data center di Google e gli aggiornamenti dell’Indice

L’inconveniente è stato piuttosto grave, perché Google ha temporaneamente perso parte dell’indice di ricerca a causa di una serie di problemi tecnici. Courson descrive il processo standard regolare: “Per accelerare la velocità del servizio, quando forniamo risultati di ricerca agli utenti la query dell’utente viaggia solo fino al più vicino dei nostri data center che supportano il prodotto di ricerca di Google, da cui è generata la pagina dei risultati dei motori di ricerca (SERP). Pertanto, quando ci sono modifiche alla composizione dell’indice (pagine aggiunte e rimosse, i documenti uniti o altri tipi di modifica dei dati), questi cambiamenti devono riflettersi in tutti quei data center, e la conseguenza è che gli utenti di tutto il mondo ricevono costantemente pagine dalla versione più recente dell’indice”.

Google ha perso parte del suo indice

Appare chiaro che “mantenere unificato l’indice in tutti quei data center è un’attività non banale”, è l’incidente occorso il 5 aprile dimostra che anche un piccolo dettaglio fa la differenza (e può provocare danni!). In quel giorno, quando Google ha “spinto alcune modifiche pianificate all’indice di ricerca, si sono rotte parti del sistema di distribuzione”, e per giunta di venerdì! In dettaglio, “mentre stavamo aggiornando l’indice su alcuni dei nostri data center, un piccolo numero di documenti è stato eliminato accidentalmente dall’indice, quindi abbiamo perso parte dell’indice”, scrive l’autore.

Fortunatamente – per il motore di ricerca, per gli utenti ma anche e soprattutto per i siti interessati – “i nostri ingegneri di guardia hanno colto il problema abbastanza rapidamente”, grazie anche al tamtam partito sui social e “siamo riusciti a iniziare a ripristinare l’indice di ricerca al suo precedente stato stabile in tutti i data center solo poche ore dopo che il problema è stato scoperto”. Lavoro proseguito fino all’11 aprile, quando tutti i data center sono stati ripristinati definitivamente a una versione completa dell’indice.

Le conseguenze del problema alla Search Console

In seguito a questo issue, però, sono derivati altri problemi, come quello che ha interessato la Google Search Console, descritta come “l’insieme di strumenti e rapporti che qualsiasi webmaster può utilizzare per accedere ai dati sulle prestazioni del proprio sito Web in Ricerca“. Alcuni dati presenti provengono infatti dall’indice di ricerca stesso, come ovviamente l’Index Coverage (Rapporto sullo stato della copertura dell’indice) o il Rich Results reports.

Anche in questo caso il Googler si sofferma a descrivere il funzionamento standard del processo: “Molti rapporti individuali di Search Console prendono i dati da un database dedicato, parzialmente costruito utilizzando le informazioni che provengono dall’indice di ricerca”. A causa del problema e nella necessità di tornare una versione precedente dell’indice, Google ha dovuto “mettere in pausa l’aggiornamento del database di Search Console, provocando l’appiattimento per alcuni report l’inaffidabilità per altri, come lo strumento di ispezione URL”. Il lavoro di ripristino della Search Console è stato posticipato al termine degli interventi sull’Indice, e in particolare si è esteso fino al 30 aprile.

Altri bug non collegati al precedente

Tutto finito? Non proprio, perché la Ricerca di Google “si basa su una serie di sistemi che lavorano insieme”, e se “alcuni di questi sistemi possono essere strettamente collegati tra loro, in alcuni casi diverse parti del sistema riscontrano problemi non correlati nello stesso periodo”. E quindi, più o meno in contemporanea al principale bug di indicizzazione, il team di Mountain View ha dovuto affrontare “anche brevi problemi nella raccolta di nuovi contenuti di Google News. Inoltre, durante il rendering delle pagine, alcuni URL hanno iniziato a reindirizzare Googlebot verso altre pagine non correlate”. Questi problemi erano completamente non legati al bug di indicizzazione e sono stati risolti rapidamente.

Trasparenza e maggiore comunicazione

Lo sforzo di Google si è concentrato anche nel migliorare la comunicazione, e proprio nel periodo di crisi l’azienda ha deciso di informare gli utenti e i webmaster non solo attraverso i social (soprattutto Twitter), ma anche con messaggi in Search Console e con l’Help Center della stessa GSC, ma è soprattutto grazie al tweeting che è stato possibile tenere aggiornati tutti sulle evoluzioni e soprattutto rassicurare sulla situazione (e sulla presa in carico del problema). La promessa dell’azienda è di garantire sempre la trasparenza anche in eventuali casi futuri.Google