Una squadra di circa 14mila persone, attivi in tutto il mondo e impegnati in un compito specifico: valutare i risultati forniti da Google alla luce delle linee guida pubblicate dalla compagnia, per scoprire se effettivamente le SERP rispettano i criteri segnalati e se, quindi, gli utenti ricevono un servizio efficace, utile e positivo. Oggi proviamo a scoprire qualcosa in più sui Google Quality Raters e sui documenti a cui devono far riferimento, per capire cosa fanno realmente, sfatare alcuni miti e, non meno importante, comprendere come il loro lavoro influisce sulla Ricerca e cosa bisogna sapere sul concetto di EAT.

Chi sono i quality raters di Google

È almeno dal 2005 che Google ha lanciato il programma quality raters, coinvolgendo un piccolo esercito di tester, valutatori e revisori di qualità nel lavoro valutazione del suo prodotto finale, ovvero le SERP mostrate al pubblico, le pagine con i risultati di ricerca.

Dopo vari anni di indiscrezioni e speculazioni, nell’agosto 2022 l’azienda ha redatto un documento ufficiale che spiega chi sono e come lavorano queste figure, confermando di impiegare indirettamente circa 14mila quality rater in tutto il mondo, pagati a ora (13,5 dollari, pare), tramite un network di società appaltanti. Questi collaboratori esterni di Google sono assunti attraverso contratti di lavoro a termine e temporanei, che possono essere rinnovati ma che, in genere, non durano mai molto a lungo.

Queste persone sono il motore del “processo di valutazione della qualità della Ricerca” (Search Quality Rating Process), che misura appunto la qualità dei risultati della Ricerca su base continuativa grazie all’impegno dei 14mila Quality Raters esterni, che forniscono valutazioni basate su apposite linee guida e “rappresentano utenti reali e le loro probabili esigenze informative, utilizzando il proprio giudizio per rappresentare la propria località”, come chiarito da Google.

Come si diventa Google evaluator?

Intorno a questo programma c’è ovviamente una buona dose di riserbo e segretezza, e non esiste un modo per sottoporre la propria candidatura a quality rater né un ufficio o mail a cui inviare un curriculum: secondo quanto si può presupporre, è Google che contatta direttamente le persone che individua come potenziali valutatori ritenendole all’altezza del compito (a volte blogger sparsi in tutto il mondo), oppure delega in subappalto la ricerca ad agenzie specializzate.

La breve durata dei contratti ha una ratio ben specifica: impedisce ai quality raters di poter interferire in qualche modo con il sistema della ricerca andando oltre le proprie mansioni o di approfittare della propria posizione.

In questi 17 anni, il programma di Google ha impiegato milioni di QR, che sono stati gli occhi esterni e umani per vigilare sulla qualità delle SERP e dei risultati forniti.

Uscendo dal campo delle speculazioni, Google ha (finalmente) specificato chi sono effettivamente i Quality Raters, 14mila persone distribuite in varie parti del mondo (come si vede nella mappa, circa 3300 sono quelli impiegati per l’area EMEA, che comprende Europa, Medio Oriente e Africa) che rappresentano gli utenti di Search nella loro zona locale, così da assicurare la diversità dei luoghi e l’efficienza nelle varie zone. La compagnia americana ha ammesso che il recruiting è affidato a fornitori esterni e il numero effettivo dei QR può variare in base alle esigenze operative.

Dove sono localizzati i GQR

Le caratteristiche richieste per il lavoro sono “una grande familiarità con la lingua del compito e del luogo, per rappresentare l’esperienza delle persone locali” ma anche una comprensibile “familiarità e confidenza con l’uso di un motore di ricerca”.

Per quanto riguarda le altre richieste del datore di lavoro, poi, le valutazioni non devono basarsi su opinioni personali, preferenze, credenze religiose o opinioni politiche dei raters (come sancito anche dall’aggiornamento di dicembre 2019 delle linee guida per i quality raters di Google), che sono chiamati a “usare sempre il loro miglior giudizio e rappresentare gli standard culturali del loro Paese e luogo di valutazione”. Inoltre, per ottenere effettivamente l’incarico i potenziali raters devono superare un test sulle linee guida, che serve a garantire il rispetto degli standard di qualità di Google.

I compiti e le funzioni dei Quality Raters di Google

E quindi, cosa fanno questi Google evalutor? Possiamo pensare a loro come a un gruppo di revisori della qualità, che valutano i risultati di un’azienda sulla base di criteri, principi e documenti forniti dalla dirigenza.

Nel caso del motore di ricerca, i GQR sono incaricati di analizzare e studiare le informazioni contenute nei risultati delle query utilizzando le linee guida di Google e, soprattutto, le specifiche Search Quality Rater’s Guidelines, disponibili al pubblico online e costantemente aggiornate – la versione più recente è stata pubblicata a fine luglio 2022.

I Google quality rater non determinano penalizzazioni, declassamenti o ban

È bene chiarire subito un aspetto: i collaboratori a progetto di Google non hanno accesso o controllo ad alcun componente degli algoritmi di Google e non determinano direttamente penalizzazioni, ban o cali di ranking per i siti.

La loro funzione non è decidere le posizioni dei risultati in SERP, ma solo verificare che il prodotto – vale a dire l’algoritmo di ricerca – stia funzionando nel modo previsto e secondo le regole prestabilite.

Ciò detto, con il loro giudizio i quality raters possono comunque influenzare indirettamente il posizionamento organico delle pagine, perché analizzano la qualità dei contenuti e assegnano una valutazione umana che sarà poi interpretata ed elaborata dai preposti team di Google.

Volendo sintetizzare, possiamo dire non influenzano il ranking dei siti che valutano, ma influenzano le classifiche di ogni sito rispetto alle query oggetto di valutazione. Per usare le parole di Google, i quality raters lavorano sulla base di un insieme comune di linee guida e ricevono compiti specifici da portare a termine. Le valutazioni aggregate servono a Google per misurare quanto i suoi sistemi stiano lavorando per fornire contenuti utili in tutto il mondo; in più, le valutazioni sono utilizzate per migliorare questi sistemi, fornendo loro esempi positivi e negativi di risultati di ricerca.

Come funziona il lavoro di valutazione umana sulla qualità dei risultati in SERP

Ogni quality rater ha il compito di verificare la qualità di un gruppo di SERP e quindi controlla una serie di pagine web (in genere, quelle meglio posizionate per le query più delicate); il suo compito è giudicare, in base a una precisa check-list, se il documento rispetta le linee guida relative alla qualità informativa e tecnica delle pagine.

Completata questa revisione, il quality rater assegna un rating di qualità, su una scala di voto da minimo a massimo: non è una valutazione soggettiva o personale, ma il margine di discrezionalità è molto limitato e il revisore deve rispettare in modo tassativo le citate linee guida redatte da Google. Questi dati sono poi forniti ai sistemi di machine learning, che li utilizzano per migliorare gli algoritmi basati sui fattori noti.

Grazie a questo lavoro, Google può individuare gli elementi di disinformazione che possono sfuggire ai sistemi algoritmici automatizzati. La mission dei quality raters è quindi quella di contribuire, attraverso un giudizio umano, a rendere le pagine dei risultati di ricerca utili e di alta qualità, riducendo la presenza di risultati fuorvianti e di contenuti non all’altezza degli standard.

Rater Task: qual è il processo dietro alle valutazioni

È ancora il documento di Big G a chiarire come funziona il processo standard di valutazione (definito Rater Task): per prima cosa, Google genera un campione di ricerche (ad esempio, qualche centinaio) per analizzare un particolare tipo di ricerca o un potenziale cambiamento di classifica. A un gruppo di valutatori viene assegnato questo insieme di ricerche, su cui dovranno eseguire alcuni task: ad esempio, un tipo di compito è l’esperimento side-by-side, in cui ai Rater vengono mostrate due diverse serie di risultati di ricerca, una con la modifica proposta già implementata e una senza, per segnalare quali risultati preferiscono e perché.

Inoltre, i valutatori forniscono anche un prezioso feedback su altri sistemi, come l’ortografia. Per valutare i miglioramenti proposti al sistema ortografico, Google chiede ai valutatori se la query originale è scritta male e se la correzione generata dal sistema ortografico migliorato sia accurata per le singole query.

I raters esaminano anche ogni pagina elencata nel set di risultati e la valutano in base a scale di valutazione stabilite nelle apposite linee guida per i valutatori; la valutazione della qualità della ricerca si compone di due parti, come si vede in questa immagine.

Quality rating process

Da un lato c’è il focus sulla “Page Quality“, la qualità della pagina – che cerca di determinare quanto la pagina raggiunge il suo scopo attraverso analisi del purpose stesso, valutazioni sugli eventuali rischi del contenuto e definizione della valutazione – e dall’altro invece l’attenzione sui “Needs Met” o soddisfazione dei bisogni dell’utente, che fa riferimento a quanto è utile un risultato per una determinata ricerca attraverso la determinazione del search intent (user intent) e della sua valutazione generale.

Anche qui, si ribadisce apertamente che “nessuna singola valutazione – o singolo valutatore – influisce direttamente sul posizionamento di una determinata pagina o sito nella Ricerca”. Anche perché, aggiunge il documento, “con trilioni di pagine che cambiano continuamente, non c’è modo che gli esseri umani possano valutare ogni pagina in modo ricorrente”, e pertanto utilizzare semplicemente le Search Quality Rating per il ranking non sarebbe fattibile, “poiché gli esseri umani non potrebbero mai valutare singolarmente ogni pagina sul web”.

Oltre a essere un compito impossibile, utilizzare solo i Search Quality Ratings per determinare il ranking non fornirebbe segnali sufficienti per stabilire come dovrebbe funzionare la classificazione stessa, e ci sono “così tante dimensioni della qualità e della rilevanza che sono fondamentali, come ad esempio i segnali che indicano qualcosa che potrebbe essere spam, segnalano che un sito potrebbe essere pericoloso o non sicuro o indicano che una pagina potrebbe essere obsoleta”.

Pertanto, chiosa il documento, “nessuna singola fonte di informazioni, come una valutazione della qualità della ricerca, potrà o potrebbe mai cogliere tutte le dimensioni importanti per un compito così complesso come il ranking”.

Il processo di valutazione: le indicazioni di Google sulla qualità delle pagine

Come accennato, la prima fase del lavoro dei quality rater si incentra sull’individuazione e sulla valutazione della Page Quality, vale a dire la qualità della pagina su cui sono chiamati a esprimersi.

L’obiettivo dei PQ rating process è di valutare quanto la pagina raggiunga effettivamente il suo scopo e si suddivide in tre step:

  1. Determinazione dello scopo o purpose

Per assegnare una valutazione, i valutatori devono innanzitutto comprendere lo scopo della pagina: ad esempio, lo scopo di una homepage di un sito di notizie è quello di informare gli utenti su eventi recenti o importanti. Questo permette ai valutatori di capire meglio quali criteri sono importanti per valutare la qualità di quella pagina nella terza fase 3.

Google inoltre chiarisce che, essendoci tipi diversi di siti e pagine web che possono avere finalità molto diverse, le sue “aspettative e gli standard per i diversi tipi di pagine sono anch’essi diversi”.

Tabella di esempi di scopi della pagina

Nel documento viene ribadito un altro aspetto molto interessante: per Google, i siti e le pagine web dovrebbero essere creati per aiutare le persone (e quando non ci riescono è giustificata e appropriata una valutazione di qualità Bassa). Quando le pagine sono utili e sono create per aiutare le persone, Google non fa distinzione di qualità tra un particolare scopo o tipo di pagina e un altro: detto in altri termini, le pagine di enciclopedia non sono necessariamente di qualità superiore rispetto alle pagine umoristiche, fin quando tutte aiutano l’utente.

Esistono pagine web di alta e bassa qualità di tutti i tipi e scopi diversi, come “pagine di shopping, pagine di notizie, pagine di forum, pagine di video, pagine con messaggi di errore, PDF, immagini, pagine di gossip, pagine umoristiche, homepage e tutti gli altri tipi di pagine”, e “il tipo di pagina non determina la valutazione PQ”, che invece viene determinata solo comprendendo lo scopo della pagina stessa.

  1. Valutazione sull’eventuale pericolosità dello scopo

Nel secondo step del processo, i quality raters sono chiamati ad accertare se lo scopo della pagina è dannoso o se la pagina può potenzialmente nuocere e provocare danni.

Se il sito o la pagina hanno uno scopo dannoso o sono progettati per ingannare le persone sul loro vero scopo, devono essere immediatamente classificati come di qualità più bassa relativamente al PQ. Sono di lowest quality, ad esempio, siti web o pagine che sono dannosi per le persone o la società, inaffidabili o di spam, come specificato nelle linee guida. Tuttavia, Google spiega che sul Web “ci sono molti contenuti che alcuni potrebbero trovare controversi, non imparziali, sgradevoli o di cattivo gusto, ma che non sono da considerarsi dannosi” ai sensi dei requisiti individuati da Google.

  1. Stabilire il rating

L’ultima fase è quella dell’effettiva determinazione della valutazione e, quindi, del PQ rating, che si basa sulla capacità della pagina di raggiungere il suo scopo su una scala che va da Lowest (minima) a Highest (qualità massima).

Punteggi di Page Quality
Il criterio principale per il voto di page quality è riferirsi ai parametri E-A-T della pagina, ovvero ai livelli di competenza, autorevolezza e attendibilità che comunica. Nello specifico, i quality raters devono considerare e valutare:

  • La competenza del creatore.
  • L’autorevolezza del creatore, del contenuto principale e del sito web.
  • L’affidabilità del creatore, del contenuto principale e del sito web.

Nello specifico, il documento ufficiale spiega che i QR determinano il rating della Page Quality attraverso:

  • Esame della quantità e della qualità del Contenuto principale (Main Content). Come regola generale, il contenuto principale è di alta qualità se richiede una quantità significativa di tempo, impegno, esperienza o talento/abilità per essere creato.
  • Esame delle informazioni disponibili sul sito web e sul creatore. A seconda del tipo di sito web, sarà necessaria una quantità soddisfacente di informazioni perché gli utenti si fidino del suo contenuto o della sua interfaccia.
  • Ricerca della reputazione del sito e del creatore. La reputazione di un sito web si basa sull’esperienza di utenti reali e sull’opinione di persone esperte dell’argomento trattato dal sito.

A proposito di topic, poi, qui Google fa riferimento esplicito alle pagine con contenuti YMYL o Your Money, Your Life, che richiedono standard di qualità diversi rispetto ad altri perché potrebbero “avere un impatto significativo sulla salute, sulla stabilità finanziaria o sulla sicurezza delle persone, o sul benessere della società”.

La delicatezza dei temi YMYL

I raters sono chiamati ad applicare standard di PQ molto elevati per le pagine sugli argomenti YMYL, perché pagine di bassa qualità potrebbero avere un impatto negativo sulla salute, sulla stabilità finanziaria o sulla sicurezza delle persone, o sul benessere della società. Allo stesso modo dovrebbero ricevere la valutazione più bassa, altri siti web o pagine che sono dannosi per le persone o la società, inaffidabili o di spam.

Needs Met rating, il grado di soddisfazione dell’utente

Il secondo, grande, compito dei Google Quality Raters è la valutazione dei Needs Met o bisogni soddisfatti, in cui devono concentrarsi sulle esigenze degli utenti e sull’utilità del risultato per le persone che utilizzano Google Search.

L’utilità di un risultato di ricerca riguarda l’intento dell’utente o search intent, come interpretato dalla query, e il grado di soddisfazione di tale intento (quanto il risultato soddisfi pienamente questo intento).

Ci sono quindi due fasi per la valutazione dei bisogni soddisfatti:

  1. Determinazione dell’user intent dalla query

Una query è “ciò che un utente digita o pronuncia nel nostro sistema di ricerca”, dice Google, che spiega di usare “contenuto della query e, se pertinente, la posizione dell’utente per determinare l’intento”.

Ad esempio, se un utente cerca “caffetterie” e risiede a Londra, il motore di ricerca può determinare che il suo intento è trovare “caffetterie” nella capitale inglese. Tuttavia, molte query hanno anche più di un significato: ad esempio, il termine “mercurio” potrebbe legarsi all’intento di conoscere maggiori informazioni sul pianeta Mercurio o sull’elemento chimico.

Google parte dal presupposto che “gli utenti stiano cercando informazioni attuali su un argomento, e i valutatori sono istruiti a pensare al significato attuale della query mentre valutano” – e quindi effettivamente il fattore tempo e la freschezza hanno un valore e un peso.

  1. Determinazione del rating

Il secondo step è la valutazione specifica del livello di Needs Met della pagina, che si basa su quanto un risultato di ricerca risponda all’intento dell’utente.

Valutazione dei Needs Met

Nel determinare la valutazione, il Quality Rater deve considerare la misura in cui il risultato:

  • “calza a pennello” la query;
  • è completo;
  • è aggiornato;
  • proviene da una fonte autorevole;
  • soddisfa l’utente o se l’utente desidera vedere altri risultati.

Stando a questi criteri, un risultato valutato come “fully meets” (soddisfazione piena) significa che un utente sarebbe immediatamente e pienamente soddisfatto dal risultato e non avrebbe bisogno di visualizzare altri risultati per soddisfare le proprie esigenze.

Esempio di pagina con basso livello di NM

Le linee guida di Google per i quality rater

Il cuore di questa importante attività è quindi rappresentato dalle istruzioni contenute nelle linee guida per i Search Quality Rater, un documento che conta più di 150 pagine all’ultima versione e che scandaglia tutto ciò che significa qualità per Google, offrendo le indicazioni ai QR (ma in realtà a chiunque, essendo accessibile e pubblico) per portare avanti il proprio lavoro. Nello specifico, valutare i risultati di query campione e valutare in che misura le pagine elencate sembrano dimostrare caratteristiche di affidabilità e utilità.

Come si legge in apertura del documento, “le linee guida generali riguardano principalmente la valutazione della qualità della pagina (PQ) e la soddisfazione dei fabbisogni (NM, needs met in originale)”: in pratica, i quality raters hanno il compito di esprimere un giudizio e un voto sul modo in cui il motore di ricerca risponde a search intent (le esigenze) e livelli qualitativi richiesti.

L’interpretazione dell’utilità dei risultati

In un approfondimento su SearchEngineJournal, Dave Davies ci fornisce alcune indicazioni utili sul lavoro dei quality raters e in particolare sul processo di valutazione, che probabilmente si basa sulla domanda “Quanto è utile e soddisfacente questo risultato?”.

Durante il test, un valutatore può visitare una singola pagina web oppure concentrarsi su una SERP intera, analizzando ogni risultato posizionato. In entrambi i casi, invierà a Google dei segnali in merito alla struttura del sito, al dispositivo, alle differenze demografiche e ai risultati della posizione, più una serie di altri fattori che si applicano alla classificazione di ciascun risultato.

Questi dati serviranno a guidare le modifiche per migliorare i risultati e determinare algoritmicamente quali fattori o combinazioni di fattori sono comuni ai risultati con ranking più alto. La valutazione dei needs met richiede una qualità della pagina almeno decente e si basa sia sulla query che sul risultato.

Il lavoro umano è utile anche nell’interpretazione di query ambigue, come quelle che hanno molteplici risultati: in questi casi, il punteggio di NM deve dare più peso alle pagine che soddisfano intenti più elevati e ricercati, così da impedire il posizionamento alto di pagine che trattano topic che non corrispondono al search intent generale e l’invio di segnali sbagliati agli algoritmi, che quindi possono concentrarsi sui segnali giusti per la maggior parte degli utenti.

Le valutazioni sulla qualità delle pagine

In realtà, e come era facile intuire, le indicazioni per valutare la qualità delle pagine fornite ai tester umani non si discostano molto dalle best practices a cui classicamente si fa riferimento per i siti: le valutazioni si basano su una serie di fattori, tutti collegati tra loro, e il peso attribuito a ogni fattore si basa sul tipo di sito e query.

Ci sono alcune tipologie di topic e categorie che sono sotto una lente di ingrandimento speciale, e in particolare quello più attenzionato è il settore Your Money or Your Life (YMYL) per le possibili implicazioni nocive e dannose per una singola persona, per gruppi di persone o addirittura per l’intera società, e per questi argomenti i raters devono prestare maggiore cura e sono invitati a dare più peso all’EAT.

La divisione dei contenuti del sito

Secondo le linee guida, le sezioni di un sito Web possono essere classificate in tre categorie principali:

  • Contenuto principale (o main content, MC): qualsiasi parte della pagina che aiuta direttamente la pagina a raggiungere il suo scopo.
  • Contenuto supplementare (o supplemental content, SC): contenuti aggiuntivi che contribuiscono alla buona esperienza dell’utente sulla pagina, ma non aiutano direttamente la pagina a raggiungere il suo scopo. L’esempio fornito dal documento sono i link di navigazione: un elemento essenziale per il sito, ma non necessario per soddisfare le esigenze dei visitatori.
  • Annunci (Ads): advertising o monetizzazione sono contenuti e/o link che sono visualizzati in pagina allo scopo di monetizzare, ovvero ricevere soldi. La presenza o l’assenza di annunci non è di per sé un motivo per una valutazione di qualità alta o bassa: senza pubblicità e monetizzazione, alcune pagine web non potrebbero esistere, perché mantenere un sito web e creare contenuti di alta qualità richiede costi anche molti elevati.

La facilità di accesso e il volume del main content fanno la loro parte nei calcoli sulla qualità della pagina: è ciò che aiuta il rater a valutare non solo se sono soddisfatte le esigenze/intenti, ma anche se e quanto è facile accedere al contenuto supplementare, se lo si desidera.

Il focus sull’E-A-T

La sezione relativa al paradigma EAT è una delle più complesse e discusse, e spesso anche i Googler sono intervenuti per fornire chiarimenti e indicazioni su questi parametri (come ad esempio Gary Illyes nell’articolo linkato).

Il primo punto da comprendere è che Expertise, Authoritativeness, Trustworthiness, le sigle di EAT (in italiano Competenza, Autorevolezza, Affidabilità) non sono fattori di ranking su Google.

Sono i parametri che i quality rater cercano e utilizzano per orientarsi nella valutazione dei siti Web e per capire se i sistemi di Google funzionano bene nel fornire buone informazioni, ma non fanno parte di alcun algoritmo.

Il funzionamento è quindi il seguente: i rater usano i principi EAT per giudicare i siti Web e Google utilizza le loro valutazioni per regolare il suo algoritmo. Quindi, alla fine l’algoritmo si allineerà ai principi EAT, che possono esserci utili come principio guida nella progettazione del sito, nella creazione di contenuti e nel supporto ai segnali esterni.

Non c’è una ottimizzazione specifica che possiamo fare per questi parametri, ma possiamo comunque lavorare per migliorare il modo (complesso) in cui Google vede, interpreta e valuta il nostro sito e le nostre pagine e, quindi, per migliorare l’EAT dei nostri contenuti, ad esempio lavorando su alcuni segnali che possiamo fornire al motore di ricerca.

Il peso di EAT dipende comunque dal tipo di topic trattato, e le linee guida chiariscono che alcuni argomenti richiedono una competenza “meno formale”: ad esempio, molte persone scrivono recensioni estremamente dettagliate e utili di prodotti o ristoranti, altre condividono consigli ed esperienze di vita su forum, blog eccetera. Queste persone comuni possono essere considerate esperte negli argomenti in cui hanno esperienza di vita.

Se sembra che la persona che crea il contenuto abbia il tipo e la quantità di esperienza di vita che la rendono un “esperto” dell’argomento, Google darà valore a questa “competenza comune” (everyday expertise) e non penalizzerà la persona/pagina/sito web per il fatto di non avere un’istruzione o una formazione “formale” nel settore.

È anche possibile avere una competenza comune sugli argomenti YMYL: per esempio, ci sono forum e pagine di supporto per persone con malattie specifiche e la condivisione di esperienze personali è una forma di competenza comune; allo stesso tempo, però, informazioni e consigli medici specifici (e non quindi descrizioni di esperienze di vita) dovrebbero provenire da medici o altri professionisti della salute.

In definitiva, possiamo dire che lo standard di competenza dipende dall’argomento della pagina, e per comprenderlo dovremmo chiederci quale tipo di competenza è necessaria perché la pagina raggiunga bene il suo scopo.