Qualità dei risultati, gli strumenti usati da Google per difendere la Ricerca

News Gennaro Mancini 14 Settembre 2020 Tempo di lettura : 11 minuti

Mettici alla prova

Analizza il tuo sito

Seleziona la lingua del database:

Per molte persone – vale a dire più del 92 per cento di tutti gli utenti del Web, stando alle ultime statistiche globali – Google Search è IL posto in cui andare per trovare informazioni su un topic qualsiasi, “che si tratti di saperne di più su un problema o di verificare le affermazioni di un amico che cita una statistica sulla tua squadra preferita”.

Ogni giorno Google riceve miliardi di query – e addirittura il 15 per cento è rappresentato da query nuove e mai cercate prima, un dato sempre più alto – e uno dei motivi per cui le persone continuano a rivolgersi a questo motore di ricerca “è che sanno che spesso possono trovare informazioni pertinenti e affidabili di cui possono fidarsi”.

Gli sforzi di Google per offrire risultati affidabili

Scrive così Danny Sullivan, il Public Liaison for Search di Mountain View, nell’articolo pubblicato su The Keyword in cui racconta le ultime evoluzioni del sistema con cui Google analizza e protegge i risultati di ricerca per evitare manipolazioni, vandalismo e, in generale, risposte di scarsa qualità, intensificando i suoi sforzi per fornire informazioni pertinenti e affidabili.

Va ancora più nello specifico il contributo di Pandu Nayak, Google Fellow e Vice President di Search, che elenca e riassume gli ultimi investimenti della compagnia nella qualità delle informazioni in Search e in News.

Non ci sono indicazioni particolarmente nuove o sconvolgenti, ma conoscere gli sforzi fatti da Google in questo settore può servire da stimolo a migliorare costantemente il proprio sito, così da garantire la massima qualità, contenuti più pertinenti, affidabili e accurati e una user experience globalmente positiva.

Una sempre migliore comprensione della qualità dei contenuti web

Offrire un’esperienza di ricerca di alta qualità è uno degli elementi che rende Google così utile, dice Sullivan, e “fin dai primi giorni in cui abbiamo introdotto l’algoritmo PageRank, la comprensione della qualità dei contenuti web era ciò che distingueva Google dagli altri motori di ricerca”.

Con l’aumentare della consapevolezza degli utenti, però, crescono anche le domande e l’interesse su cosa “si intenda per qualità” e su quali siano le assicurazioni sul fatto “che le informazioni che le persone trovano su Google siano affidabili”.

La risposta sta nei “tre elementi chiave nel nostro approccio alla qualità delle informazioni”:

In primo luogo, “progettiamo i nostri sistemi di ranking per identificare le informazioni che le persone presumibilmente troveranno utili e affidabili”.
Come elemento complementare, “abbiamo anche sviluppato una serie di feature che non solo ti aiutano a dare un senso a tutte le informazioni che vedi online, ma che forniscono anche accesso diretto alle informazioni delle autorità, come organizzazioni sanitarie o enti governativi”.
Infine, “abbiamo policy per ciò che può essere visualizzato nelle feature di Ricerca per assicurarci di mostrare contenuti utili e di alta qualità”.

Questi tre approcci permettono al sistema di continuare a migliorare e aumentare il proprio livello di qualità, sempre con l’obiettivo di offrire un’esperienza affidabile per le persone di tutto il mondo.

Sistemi di ranking costruiti intorno alla qualità

Per capire quali risultati sono più rilevanti per ogni query, Google utilizza una varietà di sistemi di comprensione del linguaggio “che mirano a far corrispondere le parole e i concetti nella tua query con le informazioni correlate nel nostro indice”, spiega Sullivan.

Si va da “sistemi che comprendono cose come errori di ortografia o sinonimi a quelli più avanzati, basati su AI, come ad esempio BERT, in grado di comprendere query più complesse e in linguaggio naturale”. Tali aggiornamenti ai sistemi di comprensione della lingua “rendono sicuramente i risultati della ricerca più pertinenti e migliorano l’esperienza complessiva”, ma resta comunque un gap, ovvero l’impossibilità – anche per strumenti con elevate e avanzate capacità di comprensione delle informazioni – di capire i contenuti come fanno gli umani. E quindi, “spesso non possiamo dire solo dalle parole o dalle immagini se qualcosa è esagerato, errato, di bassa qualità o comunque inutile”.

Come funziona la ricerca della qualità

Ciò che possono fare però i motori di ricerca è comprendere in modo ampio la qualità dei contenuti attraverso quelli che vengono comunemente chiamati segnali, che sono “indizi sulle caratteristiche di una pagina che si allineano con ciò che gli esseri umani potrebbero interpretare come di alta qualità o affidabile”. Un esempio, citato nell’articolo, è “il numero di pagine di qualità che linkano a una determinata pagina”, che è un segnale “che quella pagina può essere una fonte attendibile di informazioni su un topic”.

Il lavoro dei quality rater e il valore dell’EAT

Google considera una varietà di altri segnali di qualità ed esegue test per verificare se la combinazione di segnali di qualità funziona; in più, impiega oltre 10 mila quality rater che “eseguono milioni di ricerche campione e valutano la qualità dei risultati in base a quanto sono all’altezza di ciò che chiamiamo EEAT – Esperienza, Competenza, Autorevolezza e Affidabilità”.

I raters, seguendo le istruzioni contenute nelle Search Quality Rater Guidelines – linee guida pubbliche e aggiornate periodicamente, l’ultima volta per ora a dicembre 2019 – analizzano i risultati per query campione e valutano se e quanto le pagine elencate sembrano dimostrare queste caratteristiche di qualità.

Un processo in costante evoluzione

Sullivan ci tiene a sottolineare due concetti: i quality rater aiutano Google nel processo di valutazione della ricerca, ma le loro indicazioni non vengono utilizzate direttamente negli algoritmi di classificazione. Questi collaboratori esterni “forniscono dati che, se presi in forma aggregata, ci aiutano a misurare il funzionamento dei nostri sistemi per mostrare contenuti di qualità in linea con il modo in cui le persone valutano le informazioni in ogni parte del mondo, aiutandoci a migliorare i nostri sistemi e a garantire risultati di alta qualità”.

L’attenzione per i temi YMYL

Un focus specifico viene dedicato poi ai contenuti YMYL, “argomenti in cui l’informazione di qualità è particolarmente importante, come la salute, la finanza, le informazioni utili per la cittadinanza e le situazioni di crisi”, in cui Google pone un’enfasi ancora maggiore sui fattori legati alla competenza e all’affidabilità.

Questa decisione si basa sul fatto che è emerso “che i siti che dimostrano autorevolezza e competenza su un argomento hanno meno probabilità di pubblicare informazioni false o fuorvianti”; quindi, costruendo “i nostri sistemi per identificare i segnali di tali caratteristiche, possiamo continuare a fornire informazioni affidabili” e questo lavoro “è la nostra più grande difesa contro i contenuti di bassa qualità, inclusa la potenziale disinformazione”.

Informazioni da esperti direttamente nella Ricerca

Nella maggior parte dei casi, afferma con un pizzico di orgoglio Sullivan, “i nostri sistemi di classificazione fanno un ottimo lavoro nel semplificare la ricerca di informazioni pertinenti e affidabili dal Web aperto, in particolare per argomenti come la salute o in tempi di crisi”. Ma in queste aree, Google sta sviluppando anche funzionalità per rendere disponibili direttamente sulla Ricerca le informazioni di organizzazioni autorevoli come governi locali, agenzie sanitarie e commissioni elettorali.

Ad esempio, “da tempo disponiamo di knowledge panel nella Ricerca con informazioni su condizioni di salute e sintomi, controllati da esperti medici”, e negli ultimi tempi “abbiamo assistito a un aumento significativo delle persone che cercano informazioni sui sussidi di disoccupazione, quindi abbiamo collaborato con le agenzie amministrative per evidenziare i dettagli sull’idoneità e su come accedere a questo servizio”; ancora, “da molti anni offriamo funzionalità che ti aiutano a scoprire come votare e dove si trova il tuo seggio elettorale”. Si tratta di feature che aiutano a garantire che le persone ottengano una guida essenziale quando ne hanno più bisogno.

Il Knowledge Graph per fornire informazioni accurate

Su questo tema fornisce qualche dettaglio aggiuntivo Pandu Nayak nell’altro articolo, soffermandosi in particolare sull’uso dei Knowledge Graph per accedere rapidamente ai fatti da fonti sul Web: per garantire la presenza di informazioni accurate e di alta qualità in queste funzionalità e proteggersi da potenziali atti di vandalismo, Google ha realizzato partnership con agenzie governative, organizzazioni sanitarie e Wikipedia.

Ad esempio, per rispondere alle esigenze sorte con il COVID-19 Google ha “collaborato con organizzazioni sanitarie di tutto il mondo per fornire indicazioni e informazioni locali per mantenere le persone al sicuro”, e sta facendo lo stesso per rispondere alle emergenti esigenze di informazione, “come l’impennata di persone in cerca di sussidi di disoccupazione, a cui forniamo un facile accesso alle informazioni direttamente dalle agenzie governative negli Stati Uniti e in altri Paesi” o per dare notizie sulle elezioni, “lavorando con organizzazioni civiche apartitiche che forniscono informazioni autorevoli su metodi di voto, candidati, risultati elettorali e altro ancora”.

Le fonti del Knowledge Panel

Le informazioni nei Knowledge Panel “provengono da centinaia di fonti e una delle basi di conoscenza più complete è Wikipedia”, che ha creato sistemi robusti per proteggere la neutralità e l’accuratezza grazie alla sua community, usando “strumenti di apprendimento automatico abbinati a una complessa supervisione umana per individuare e affrontare il vandalismo”, e oggi “la maggior parte degli atti vandalici su Wikipedia viene ripristinata in pochi minuti”.

Per completare i sistemi di Wikipedia, Google ha “aggiunto ulteriori protezioni e sistemi di rilevamento per impedire la visualizzazione di informazioni potenzialmente imprecise nei knowledge panel” e per intervenire nei rari casi di vandalismo su Wikipedia che sono sfuggiti al controllo. Secondo Nayak, “abbiamo migliorato i nostri sistemi per rilevare ora il 99 per cento di quei casi di potenziale vandalismo, e quando si verificano questi problemi, disponiamo di policy che ci consentono di agire rapidamente per risolverli”.

Inoltre, per supportare ulteriormente la comunità di Wikipedia, l’anno scorso Google ha creato il programma WikiLoop “che ospita diversi strumenti di editor incentrati sulla qualità dei contenuti”, compreso WikiLoop DoubleCheck, “uno dei numerosi strumenti che gli editori di Wikipedia e gli utenti possono utilizzare per tenere traccia delle modifiche su una pagina e segnalare potenziali problemi”. In più, Google fornisce “dati dai nostri sistemi di rilevamento, che i membri della comunità possono utilizzare per scoprire nuove informazioni”.

Un aiuto alla comprensione delle informazioni

Google si sta evolvendo anche in uno strumento per approfondire argomenti di attualità o per ottenere più informazioni su un tema, e sempre più spesso “le persone usano Search dopo aver ascoltato informazioni altrove, con l’obiettivo di vedere cosa dicono gli altri per formarsi la propria opinione”.

L’obiettivo del motore di ricerca è quindi anche quello di fornire agli utenti gli strumenti giusti “per dare un senso alle informazioni che stanno vedendo online, per trovare fonti affidabili ed esplorare il quadro completo su un argomento”, e questo viene raggiunto attraverso vari metodi.

Il più recente è la possibilità di individuare facilmente le notizie verificate in Ricerca, News e ora anche in Google Immagini visualizzando i label fact check – che “provengono da editori che utilizzano il markup ClaimReview per contrassegnare il fact check sugli articoli che hanno pubblicato. Da anni poi “offriamo una copertura completa su Google News e Ricerca, aiutando le persone a esplorare e capire come si sono evolute le storie ed esplorare angolazioni e prospettive diverse”.

Il fact checking di Google

Anche su questo topic offre spunti aggiuntivi l’articolo di Pandu Nayak, che ricorda come Search e News siano progettati per aiutare gli utenti a vedere il quadro completo e comprendere facilmente il contesto dietro le informazioni che si possono trovare online.

Solo quest’anno, fino al 10 settembre incluso, gli utenti hanno visto i fact check su Ricerca e Notizie più di 4 miliardi di volte, che è più di tutto il 2019 messo insieme. Inoltre, Google supporta l’ecosistema impegnato a smascherare le informazioni fuorvianti e di recente ha donato altri 6,5 milioni di dollari per aiutare le organizzazioni di fact checking e le organizzazioni non profit a concentrarsi sulla disinformazione sulla pandemia.

L’uso di BERT per migliorare l’affidabilità delle informazioni

Scopriamo poi che è stato “appena lanciato un aggiornamento utilizzando i nostri modelli di comprensione del linguaggio BERT per migliorare la corrispondenza tra le notizie e i fact check disponibili”.

Questi sistemi possono capire meglio “se una rivendicazione di fact check è correlata all’argomento centrale di una storia e mettono in evidenza tali verifiche dei fatti in modo più evidente in Copertura totale (Full Coverage), una funzionalità di News che fornisce un quadro completo del modo in cui una storia viene riportata da una varietà di fonti”.

Con un semplice tap, Copertura totale “ti consente di vedere i titoli principali da diverse fonti, video, notizie locali, domande frequenti, commenti sociali e una timeline per le storie che si sono dispiegate nel tempo”.

Le policy per difendere le feature di Search

L’ultimo tema trattato dal Public Liaision di Search riguarda le policy applicate per garantire e difendere la qualità dei risultati mostrati nelle più generali feature della Ricerca, come knowledge panel, featured snippet e sistema di completamento automatico, che “evidenziano e organizzano le informazioni in modi unici o prevedono le query che potresti voler eseguire”.

Per queste funzionalità Google applica standard di qualità molto elevati e segue linee guida specifiche, a cui i siti devono far riferimento per comprendere quali contenuti possono apparire in quegli spazi. In particolare, i sistemi di classificazione automatizzata sono all’opera per mostrare contenuti utili ma, non essendo sempre perfetti, sono aiutati dai team umani che lavorano per impedire la visualizzazione di contenuti che violano le norme e che agiscono contro chi si rende responsabile di violazioni.

La tutela della funzione di completamento automatico

Proprio di Autocomplete parla più in dettaglio il vicepresidente di Search, che ricorda le policy “che da lungo tempo proteggono dalla visualizzazione di previsioni offensive e inappropriate nel completamento automatico”. I sistemi di Google sono progettati per applicare automaticamente tali norme e “abbiamo migliorato i nostri sistemi automatizzati per non mostrare previsioni se rileviamo che la query potrebbe non portare a contenuti affidabili”.

In queste settimane, Google ha “ampliato le nostre norme sul completamento automatico relative alle elezioni e rimuoveremo le previsioni che potrebbero essere interpretate come rivendicazioni a favore o contro qualsiasi candidato o partito politico”. La rimozione sarà applicata anche a “previsioni che potrebbero essere interpretate come rivendicazioni sulla partecipazione alle elezioni – ad esempio, dichiarazioni sui metodi di voto, requisiti o stato dei seggi elettorali – o sull’integrità o la legittimità dei processi elettorali, come la sicurezza delle elezioni”.

In pratica, ciò significa “che previsioni come puoi votare per telefono, non puoi votare per telefono o fai una donazione a qualsiasi partito o candidato, non dovrebbero apparire nel completamento automatico”, ma naturalmente ciò non impedisce l’utente di cercare comunque ciò che desidera e trovare risultati appropriati.

Gli investimenti di Google per la qualità di Ricerca e News

L’articolo di Pandu Nayak – pubblicato in pratica nelle stesse ore del precedente – dedica anche un paragrafo più specifico agli investimenti messi in campo dall’azienda per assicurare risultati di qualità in Search e in News.

“Fornire risultati di alta qualità è ciò che ha sempre contraddistinto Google dagli altri motori di ricerca, anche nei nostri primi giorni; nel corso degli anni, man mano che il prodotto e l’esperienza utente si sono evoluti, i nostri investimenti nella qualità sono aumentati”, esordisce il vicepresidente della divisione Search, che fornisce anche dei numeri che spiegano questo sforzo.

Google esegue “test approfonditi per garantire che la Ricerca sia il più utile possibile, dalla qualità delle informazioni che forniamo all’esperienza complessiva: dal 2017 abbiamo eseguito più di 1 milione di test di qualità della ricerca e ora abbiamo una media di oltre 1.000 test al giorno”.

Sempre più attenzione all’utilità delle informazioni

Mai come in quest’anno, garantire l’accesso a informazioni affidabili è più importante che mai, per effetto non solo della pandemia da Covid-19 – il più grande topic nella storia di Google Trends, tanto da stravolgere completamente i volumi di ricerca, come si vede anche con la nostra funzione Previsione Trend – ma anche per aggiornamenti sui disastri naturali e per i vari momenti di partecipazione civica in tutto il mondo.

Per questo, Google ha apportato nuovi miglioramenti per continuare a fornire informazioni di alta qualità, sempre all’insegna di un “impegno di lunga data per la qualità, che rimane al centro della nostra missione di rendere le informazioni sul mondo accessibili e utili”.

Nuovi insight dall’Intelligence Desk

Il panorama delle informazioni può cambiare rapidamente a causa delle nuove e molteplici cose che accadono in tutto il mondo ogni giorno: per capire come si comportano i sistemi quando arrivano le notizie, Google ha sviluppato un Intelligence Desk, “che monitora e identifica attivamente le potenziali minacce informatiche”.

Nayak spiega che “questo impegno è nato dal nostro team di Crisis Response, che per anni ha effettuato il monitoraggio in tempo reale degli eventi in tutto il mondo, lanciando avvisi SOS in Ricerca e Mappe per aiutare le persone a ottenere rapidamente informazioni vitali” e nel corso di questi anni ha “monitorato migliaia di eventi e lanciato centinaia di avvisi per aiutare a mantenere le persone al sicuro”, come si vede anche in questa immagine.

L’Intelligence Desk è un team globale di analisti che monitora eventi news 24 ore su 24, 7 giorni su 7, che abbracciano disastri naturali e crisi, momenti breaking news e gli ultimi sviluppi in argomenti in corso come il Coronavirus. In dettaglio, “quando si verificano eventi, i nostri analisti raccolgono dati su come i nostri sistemi stanno rispondendo e compilano rapporti sulle narrazioni che stanno emergendo, come nuove affermazioni sui trattamenti COVID”. Successivamente, i product teams di Google “utilizzano questi set di dati e rapporti dall’Intelligence Desk per eseguire test di qualità più affidabili e garantire che i nostri sistemi funzionino come previsto per l’ampia gamma di argomenti cercati dalle persone”.

Sistemi migliorati per breaking news e crisi

La velocità dell’evoluzione delle situazioni rende necessario un cambio di marcia anche per Google: lo sviluppo delle notizie infatti rischia di rendere anche le informazioni più recenti pubblicate sul Web improvvisamente obsolete, o comunque poco accurate e quindi poco affidabili, e più in generale “il bisogno di informazioni delle persone può accelerare più velocemente di quanto i fatti possano materializzarsi”.

Per questo, negli ultimi anni Google ha migliorato i suoi sistemi “per riconoscere automaticamente le ultime notizie su momenti di crisi come i disastri naturali e assicurarci di restituire le informazioni più autorevoli disponibili”.

Passi da gigante sono stati fatti anche nella capacità complessiva di identificare con precisione i momenti breaking news e di farlo più rapidamente: “Abbiamo migliorato il nostro tempo di rilevamento, che solo pochi anni fa era di 40 minuti, per arrivare oggi a solo pochi minuti dalle notizie”, scrive Nayak, riuscendo sempre a garantire risultati affidabili e di qualità, con analisi degli argomenti che potrebbero essere suscettibili di informazioni incitanti all’odio, offensive e fuorvianti.