È da sempre un argomento controverso, che ha generato polemiche e veri e propri attacchi frontali (come quello del Wall Street Journal nel novembre 2019) e che quindi ha richiesto un nuovo intervento di chiarificazione, forse definitiva. Danny Sullivan, voce pubblica di Google, ha infatti firmato un articolo in cui spiega come vengono implementate le modifiche al ranking della Ricerca, soffermandosi in modo particolare sul ruolo dei quality raters di Google in questo processo.

Un sistema di ricerca in continua evoluzione

“Ogni ricerca che fai su Google è una di miliardi che riceviamo quel giorno”, esordisce il Public Liaison for Search di Mountain View, che ricorda come “in meno di mezzo secondo, i nostri sistemi selezionano centinaia di miliardi di pagine Web per cercare di trovare i risultati più pertinenti e utili a disposizione”.

Ma questo sistema non può essere statico, lo sappiamo, anche perché “le esigenze del Web e delle informazioni delle persone continuano a cambiare”, e quindi Google apporta “molti miglioramenti ai nostri algoritmi di ricerca per tenere il passo”, al ritmo di migliaia all’anno (circa 3200 cambiamenti nel solo 2018, ad esempio).

Google lavora per migliorare sempre i risultati

L’obiettivo di Google, ribadito in numerose altre circostanze, è “lavorare sempre a nuovi modi per rendere i nostri risultati più utili, sia che si tratti di una nuova funzionalità, sia che offrano nuove modalità di comprensione della lingua alla ricerca” (è il caso esplicito di Google BERT).

Questi miglioramenti sono approvati al termine di un preciso e rigoroso processo di valutazione, progettato in modo che le persone in tutto il mondo “continuino a trovare Google utile per tutto ciò che stanno cercando”. E Sullivan sottolinea che ci sono alcuni “modi in cui insights e feedback delle persone di tutto il mondo aiutano a migliorare la ricerca”.

Il compito del team di ricerca di Google

In linea generale, Google lavora per rendere più facile per le persone trovare informazioni utili, ma la vastità della platea determina anche che gli utenti abbiano esigenze di informazione diverse a seconda dei loro interessi, della lingua che parlano e della loro posizione nel mondo.

Quindi, la mission di base è rendere le informazioni universalmente accessibili e utili, e a questo contribuisce lo specifico team di ricerca di Google (research team) che ha il compito di entrare in contatto con persone di tutto il mondo per capire come la Ricerca (con la maiuscola, nel senso di Search) può essere più utile. Le persone sono invitate a fornire feedback su diverse iterazioni dei progetti, o è lo stesso gruppo di lavoro a fare ricerche sul campo per capire come gli utenti nelle diverse comunità accedono alle informazioni online.

L’esempio di Google Go: insights per rispondere alle esigenze

Sullivan racconta anche un esempio concreto: “nel corso degli anni abbiamo appreso le esigenze uniche e le limitazioni tecniche che hanno le persone nei mercati emergenti quando accedono alle informazioni online”, e questo ha portato allo sviluppo di Google Go, “un’app di ricerca leggera che funziona bene con telefoni meno potenti e connessioni meno affidabili”. Sulla stessa app, successivamente, Google ha introdotto “funzionalità straordinariamente utili, tra cui una che consente di ascoltare le pagine web ad alta voce, particolarmente utile per le persone che imparano una nuova lingua o che potrebbero essere a disagio con la lettura di testi lunghi”, che non sarebbero state sviluppate senza i giusti insights delle persone che alla fine le usano.

L’impegno per la qualità dei risultati

Di pari passo c’è il lavoro costante sull’effettivo funzionamento del motore di ricerca e sulla qualità dei risultati proposti agli utenti. Come dice il Googler, “una parte fondamentale del nostro processo di valutazione è ottenere feedback dagli utenti di tutti i giorni sul fatto che i nostri sistemi di classificazione e i miglioramenti proposti stiano funzionando bene”.

Ovvero, che le SERP facciano emergere contenuti di qualità, come spiegato in modo dettagliato nelle linee guida per il search quality rating (lunghe più di 160 pagine), il cui senso si può sintetizzare dicendo che “la Ricerca è progettata per restituire risultati pertinenti dalle fonti più affidabili disponibili”.

Per determinare alcuni paramenti, i sistemi di Google utilizzano automaticamente “segnali dal Web stesso – ad esempio, dove compaiono sulle pagine Web le parole della tua ricerca o come le pagine si collegano tra loro sul Web – per capire quali informazioni sono correlate alla tua query e se sono informazioni di cui le persone tendono a fidarsi”. Tuttavia, le nozioni di pertinenza e affidabilità “sono in definitiva giudizi umani, quindi, per misurare se i nostri sistemi li stanno effettivamente capendo correttamente, dobbiamo raccogliere insights e indicazioni dalle persone”.

Chi sono i Search quality raters

È questo il compito dei search quality raters, un “gruppo di oltre 10.000 persone in tutto il mondo” che aiuta Google a “misurare il modo in cui è probabile che le persone entrino in contatto con i nostri risultati”. Questi collaboratori e osservatori esterni “forniscono valutazioni basate sulle nostre linee guida e rappresentano gli utenti reali e le loro probabili esigenze di informazione, usando il loro miglior giudizio per rappresentare la loro località”. Queste persone, specifica Sullivan, “studiano e sono testate sulle nostre linee guida prima di poter iniziare a fornire valutazioni”.

Come funziona una valutazione

L’articolo sul blog The Keyword descrive anche il processo standard della valutazione dei quality raters.

Google genera “un campione di query (diciamo, poche centinaia), che assegna a un gruppo di rater, a cui sono mostrate due versioni diverse delle pagine dei risultati per tali ricerche [una sorta di test A/B, in pratica]. Un set di risultati proviene dall’attuale versione di Google e l’altro set deriva da un miglioramento che stiamo prendendo in considerazione”.

I raters “riesaminano ogni pagina elencata nel set di risultati e valutano quella pagina rispetto alla query”, facendo riferimento alle indicazioni contenute nelle citate linee guida, e in particolare “stabiliscono se quelle pagine soddisfano le esigenze di informazione in base alla loro comprensione di ciò che quella query stava cercando” (ovvero, se rispondono al search intent) e “prendono in considerazione elementi come quanto autorevole e affidabile quella fonte sembra essere sull’argomento nella query”.

Le analisi sul paradigma EAT

Per valutare i “parametri come competenza, autorevolezza e affidabilità – a volte denominati “EAT” – ai raters viene chiesto di fare ricerca reputazionale sulle fonti”, e Sullivan offre un ulteriore esempio per semplificare questo lavoro.

“Immagina che la query sia ricetta della torta di carote: il set di risultati può includere articoli da siti di ricette, riviste alimentari, marchi alimentari e forse blog. Per determinare se una pagina web soddisfa le esigenze di informazione, un valutatore può considerare quanto siano facili da comprendere le istruzioni di cottura, quanto sia utile la ricetta in termini di istruzioni visive e immagini, e se ci siano altre utili funzionalità sul sito, come uno strumento per creare una lista della spesa o un calcolatore automatico per modificare le dosi”.

Allo stesso tempo, “per capire se l’autore ha esperienza in materia, un rater farà qualche ricerca online per vedere se l’autore ha qualifiche nel cooking, se ha profili o referenze su altri siti Web a tema food o ha prodotto altri contenuti di qualità che hanno ottenuto recensioni o valutazioni positive su siti di ricette”.

L’obiettivo di fondo di questa operazione di ricerca è “rispondere a domande del tipo: questa pagina è degna di fiducia e proviene da un sito o un autore con una buona reputazione?”.

Le valutazioni non sono usate per il ranking

Dopo che i valutatori hanno svolto questa ricerca, forniscono quindi un punteggio di qualità per ogni pagina. A questo punto, Sullivan sottolinea con forza che “questa valutazione non influisce direttamente sul posizionamento di questa pagina o sito nella ricerca”, ribadendo quindi che il lavoro dei quality rater non ha peso sul ranking.

Inoltre, “nessuno sta decidendo che una determinata fonte è autorevole o affidabile” e “alle pagine non vengono assegnati rating come un modo per determinare quanto bene classificarle”. E non potrebbe essere altrimenti, dice Sullivan, perché per noi questo “sarebbe un compito impossibile e soprattutto un segnale mediocre da usare: con centinaia di miliardi di pagine che cambiano costantemente, non c’è modo in cui gli umani possano valutare ogni pagina su base ricorrente”.

Al contrario, il ranking è composto da “un data point che, preso in forma aggregata, ci aiuta a misurare l’efficacia dei nostri sistemi per fornire contenuti di qualità in linea con il modo in cui le persone, in tutto il mondo, valutano le informazioni”.

A cosa servono le valutazioni

Ma quindi a cosa servono in concreto questi interventi umani? Lo spiega ancora Sullivan rivelando che solo lo scorso anno Google ha “effettuato oltre 383.605 Search quality test e 62.937 esperimenti fianco a fianco con i nostri search quality raters per misurare la qualità dei nostri risultati e aiutarci a fare oltre 3.600 miglioramenti ai nostri algoritmi di ricerca”.

Gli esperimenti dal vivo

A questi due tipi di feedback si aggiunge un ulteriore sistema usato per apportare miglioramenti: Google deve “capire come funzionerà una nuova feature quando è effettivamente disponibile in Ricerca e le persone la usano come farebbero nella vita reale”. Per essere sicuri di poter ottenere queste informazioni, la compagnia testa “il modo in cui le persone interagiscono con le nuove funzionalità attraverso esperimenti dal vivo”.

Questi test live sono “effettivamente disponibili per una piccola parte di persone selezionate casualmente utilizzando la versione corrente di Ricerca” e “per testare una modifica, avvieremo una funzione su una piccola percentuale di tutte le query che riceviamo ed esaminiamo una serie di metriche diverse per misurare l’impatto”.

Si tratta di avere risposte a domande come “Le persone hanno fatto clic o tap sulla nuova funzione? La maggior parte delle persone lo ha ignorato? Ha rallentato il caricamento della pagina?”, che generano insights che “possono aiutarci a capire un po’ se quella nuova funzionalità o modifica è utile e se le persone la useranno effettivamente”.

Sempre lo scorso anno, Google ha “eseguito oltre 17.000 esperimenti di traffico in tempo reale per testare nuove funzionalità e miglioramenti alla ricerca”. Confrontare questo numero con quello effettivo delle modifiche apportate (circa 3600, come detto prima), si comprende come “solo i potenziamenti migliori e più utili approdano in Google Search”.

L’obiettivo di offrire risultati sempre più utili

Ammettendo che “i nostri risultati di ricerca non saranno mai perfetti”, Sullivan conclude dicendo che però “questi processi di ricerca e valutazione si sono dimostrati molto efficaci negli ultimi due decenni”, consentendo a Google di “apportare frequenti miglioramenti e garantire che i cambiamenti apportati rappresentino le esigenze delle persone di tutto il mondo che vengono alla ricerca di informazioni”.