Gli algoritmi di Google lavorano instancabilmente per fornire agli utenti le informazioni più utili, usando diversi fattori e indicatori per valutare i contenuti e creare le classifiche: come sappiamo, ci sono centinaia di fattori di ranking, come ad esempio le parole usate nella query, la pertinenza e l’usabilità delle pagine, l’affidabilità delle fonti, la posizione geografica dell’utente e le sue impostazioni di navigazione. Tutti questi processi si svolgono praticamente all’istante e compongono quello che Google ha ora definito “Google Search ranking systems“, i sistemi di ranking della Ricerca Google, che sono al centro di una nuova guida ufficiale che ne spiega il funzionamento e rivela quali algoritmi sono usati effettivamente per il ranking e quali invece sono stati deprecati.

Google Search ranking systems: come lavorano i sistemi automatizzati

Nella pagina ora pubblicata su Google Search Central (e al momento non ancora tradotta in italiano) leggiamo che Google utilizza sistemi di ranking automatizzati che esaminano molti fattori e segnalano centinaia di miliardi di pagine web e altri contenuti nel nostro indice di ricerca “per presentare i risultati più pertinenti e utili, il tutto in una frazione di secondo”.

Questo complesso meccanismo si basa su diversi “sistemi di ranking“, alcuni dei quali fanno parte dei principali sistemi di classificazione di Google, che sono le tecnologie sottostanti che producono risultati di ricerca in risposta alle query, mentre altri sono coinvolti in specifiche esigenze di classificazione.

Google migliora regolarmente questi sistemi attraverso rigorosi test e valutazioni e fornisce “notifica degli aggiornamenti ai nostri sistemi di classificazione quando potrebbero essere utili ai creatori di contenuti e ad altri”, sempre con l’obiettivo finale di adempiere la mission “di organizzare le informazioni a livello mondiale e renderle universalmente accessibili e utili”.

Ricerca Google, i fattori principali

Data la grande quantità di informazioni disponibili, sarebbe praticamente impossibile trovare nel Web ciò che cerchiamo senza uno strumento di organizzazione: è quello che fanno i sistemi di ranking di Google, che sono progettati appunto per ordinare “centinaia di miliardi di pagine web e altri contenuti nell’indice di ricerca per fornire risultati utili e pertinenti in una frazione di secondo”.

Come detto, questi algoritmi si basano su una serie (estesa) di fattori di peso e importanza differenti anche in base al tipo di ricerca – ad esempio, la data di pubblicazione dei contenuti ha un ruolo più incisivo nel rispondere a query relative ad argomenti di attualità piuttosto che a query riguardanti le definizioni del dizionario – ma tutti rientrano in cinque grandi categorie di fattori principali che determinano i risultati di una query:

  • Significato. Ovvero l’intento della ricerca, con modelli linguistici che cercano di comprendere in che modo le poche parole inserite nella casella di ricerca corrispondono ai contenuti più utili a disposizione.
  • Pertinenza. I sistemi analizzano successivamente i contenuti per valutare se contengono informazioni pertinenti alla ricerca (ad esempio, se includono le stesse keyword della query nella pagina, nelle intestazioni o nel corpo del testo), usando dati aggregati e anonimi sulle interazioni per verificare che la pagina presenti altri contenuti pertinenti oltre alle sole parole chiave.
  • Qualità. I sistemi di Google danno poi priorità ai contenuti che sembrano più utili, identificando gli indicatori che aiutano a individuare i contenuti che mettono in risalto competenze, autorevolezza e affidabilità, vale a dire i parametri di E-A-T.
  • Usabilità. Nell’analisi dell’usabilità, i contenuti ritenuti più accessibili dagli utenti potrebbero anche avere le prestazioni migliori, con valutazioni su aspetti quali facilità di visualizzazione da dispositivi mobile o rapidità di caricamento.
  • Contesto. Informazioni quali la posizione, la cronologia delle ricerche precedenti e le impostazioni della Ricerca consentono a Google di garantire che i risultati mostrati a un utente corrispondano a ciò che è più utile e pertinente per lui in quel momento.

Il chiarimento: sistemi di ranking e update dei sistemi

L’articolo con cui Danny Sullivan presenta il Google Search ranking systems si sofferma anche su una importanza distinzione lessicale: contrariamente a quanto fatto finora, infatti, Google ha deciso di differenziare l’utilizzo delle parole “sistemi” e “update” per evitare confusione, soprattutto quando intervengono successivi aggiornamenti migliorativi.

Pertanto, il termine sistema identifica un algoritmo di ranking, mentre la parola update sarà usata solo per i successivi miglioramenti a tale processo. Più precisamente, un sistema è costantemente in esecuzione in background, mentre update si riferisce a una modifica una tantum ai sistemi di classificazione.

In concreto, quindi, Google ha ammesso che la denominazione Page Experience Update o Helpful Content Update non è corretta, perché rende poi complicato chiamare e comprendere gli update (che diventano qualcosa tipo “update degli update”), e quindi ha anticipato che in futuro userà la formulazione “system” per le novità algoritmiche e “update” solo per gli aggiornamenti ai rispettivi sistemi.

Quali sono i sistemi di ranking di Google attivi attualmente

La nuova guida di Google entra poi nel dettaglio dei sistemi di ranking della Ricerca attualmente attivi e funzionanti, elencandoli in ordine alfabetico (dall’iniziale inglese, ovviamente).

  1. BERT. Abbreviazione di Bidirectional Encoder Representations from Transformers, BERT consente a Googe di comprendere come le combinazioni di parole possano esprimere significati e intenti diversi.
  2. Crisis information systems – Sistemi informativi di crisi. Google ha sviluppato sistemi per fornire serie specifiche di informazioni utili e tempestive durante i periodi di crisi, sia in situazioni di crisi personali (quando le persone cercano informazioni con query relative a suicidio, violenza sessuale, ingestione di veleno, violenza di genere o tossicodipendenza Google mostra hotline e contenuti di organizzazioni fidate) che per crisi più generali (ad esempio gli avvisi SOS durante i periodi di calamità naturali o situazioni di crisi diffuse quali alluvioni, incendi, terremoti, uragani e altri disastri, con cui Google mostra gli aggiornamenti delle autorità locali, nazionali o internazionali con numeri di telefono e siti Web di emergenza, mappe, traduzioni di frasi utili, opportunità di donazione e altro).
  3. Deduplication systems – Sistemi di deduplicazione. I sistemi di ricerca di Google mirano a evitare di pubblicare pagine Web duplicate o quasi duplicate: le ricerche su Google possono trovare migliaia o addirittura milioni di pagine web corrispondenti, che a volte possono essere molto simili tra loro, e gli algoritmi mostrano solo i risultati più pertinenti per evitare inutili duplicazioni. La deduplicazione avviene anche con i featured snippet: se il risultato posizionato di una pagina web viene elevato per diventare uno snippet in primo piano, non sarà ripetuto una seconda volta nella prima pagina dei risultati.
  4. Exact match domain system – Sistema di corrispondenza esatta del dominio. Gli algoritmi di Google “considerano le parole nei nomi di dominio come uno dei tanti fattori per determinare se il contenuto è rilevante per una ricerca”, ma questo algoritmo specifico garantisce di non dare troppo credito ai contenuti ospitati su domini “progettati per corrispondere esattamente a determinate query” – ad esempio, creare un nome di dominio contenente le parole “i posti migliori dove mangiare a pranzo” nella speranza che tutte quelle parole nel nome di dominio spingano il contenuto in alto nelle classifiche è inutile.
  5. Freshness systems – Sistemi di freschezza. Google dispone di vari sistemi “query deserves freshness” progettati per mostrare contenuti più aggiornati per le query dove la freschezza è necessaria e attesa. Ad esempio, se qualcuno sta cercando informazioni su un film appena uscito, probabilmente vorrà recensioni recenti piuttosto che articoli più vecchi di quando è iniziata la produzione; oppure, normalmente una ricerca di “terremoto” potrebbe riportare materiale sulla preparazione e sulle risorse, ma se si è verificato un terremoto di recente, potrebbero apparire articoli con notizie e contenuti più recenti.
  6. Helpful content system – Sistema sui contenuti utili. Fin qui noto come HCU, come detto, è un sistema progettato per garantire che le persone vedano nelle SERP contenuti originali e utili “scritti da persone, per le persone”, piuttosto che contenuti creati principalmente per ottenere traffico dai motori di ricerca.
  7. Link analysis systems and PageRank – Sistemi di analisi dei collegamenti e PageRank. Google dispone di vari sistemi che capiscono come le pagine si linkano tra loro per determinare di cosa trattano le pagine e quali potrebbero essere più utili in risposta a una query. Tra questi c’è PageRank, uno dei principali sistemi di ranking utilizzato quando Google è stato lanciato per la prima volta: anche se il funzionamento del PageRank si è evoluto molto da allora, continua a far parte dei principali sistemi di ranking del motore di ricerca.
  8. Local news systems – Sistemi di notizie locali. Algoritmi che funzionano per identificare e far emergere fonti locali di notizie se sono pertinenti alla query, ad esempio attraverso le nostre funzionalità “Notizie principali” e “Notizie locali”.
  9. MUM. Abbreviazione di Multitask Unified Model, MUM è un sistema di intelligenza artificiale in grado di comprendere e generare linguaggio. Al momento non è utilizzato per il ranking generale nella Ricerca, ma piuttosto per alcune applicazioni specifiche, ad esempio per migliorare le ricerche di informazioni sul vaccino COVID-19 e per migliorare i callout dei featured snippet che compaiono in SERP.
  10. Neural matching – Corrispondenza neurale. La corrispondenza neurale è un sistema di intelligenza artificiale che Google utilizza per comprendere le rappresentazioni dei concetti nelle query e nelle pagine e abbinarle tra loro.
  11. Original content systems – Sistemi di contenuti originali. Servono a garantire che Google mostri i contenuti originali in primo piano nei risultati di ricerca, inclusi i rapporti originali, prima di pagine che li citano semplicemente; . ciò include il supporto di uno speciale markup canonical che i creatori possono utilizzare per aiutare Google a capire meglio qual è la pagina principale se una pagina è stata duplicata in più punti.
  12. Removal-based demotion systems – Sistemi di retrocessione basati sulla rimozione. Google dispone di norme che consentono la rimozione di determinati tipi di contenuti: se un sito riceve un volume elevato di richieste valide di rimozione dei contenuti, ciò viene usato come segnale per fornire risultati migliori (e il sito viene retrocesso nelle ricerche). Google distingue in particolare le rimozioni legali (segnali di retrocessione per violazione del copyright o reclami relativi a diffamazione, merci contraffatte e rimozioni ordinate dal tribunale) e le rimozioni di informazioni personali (retrocessione di siti che attuano pratiche di sfruttamento ritorsivo delle rimozioni o per contenuti doxxing e protezioni automatiche progettate per impedire che immagini personali esplicite non consensuali si posizionino in alto in risposta a domande che coinvolgono nomi).
  13. Page experience system – Sistema dell’esperienza sulle pagine. Algoritmo che valuta vari criteri per determinare se una pagina web offre una buona esperienza utente; in situazioni in cui sono presenti molte possibili corrispondenze con una pertinenza di livello pressoché uguale, questo sistema aiuta a dare la preferenza ai contenuti con una migliore esperienza sulla pagina.
  14. Passage ranking system – Sistema di ranking dei passaggi. È un sistema di intelligenza artificiale utilizzato da Google per identificare singole sezioni o “passaggi” di una pagina web per capire meglio quanto sia rilevante una pagina per una ricerca.
  15. Product reviews system – Sistema di recensioni dei prodotti. Algoritmo progettato per premiare le recensioni di prodotti di alta qualità, contenuti che forniscono analisi approfondite e ricerche originali, scritti da esperti o appassionati che conoscono bene l’argomento.
  16. RankBrain. È un sistema di intelligenza artificiale che aiuta Google a capire come le parole sono correlate ai concetti; RankBrain consente a Google di restituire risultati pertinenti anche se non contengono tutte le parole esatte utilizzate in una query, comprendendo che il contenuto è correlato ad altre parole e concetti.
  17. Reliable information systems – Sistemi sulle informazioni affidabili. Google dispone di più sistemi per mostrare informazioni affidabili, che ad esempio fanno emergere pagine più autorevoli, premiano il giornalismo di qualità e degradano i contenuti di bassa qualità; se mancano informazioni affidabili, i sistemi visualizzano automaticamente avvisi di contenuti su argomenti in rapida evoluzione o segnalano che Google non ha molta fiducia nella qualità complessiva dei risultati disponibili per la ricerca, suggerendo all’utente come cercare in modi che potrebbero portare a risultati più utili.
  18. Site diversity system – Sistema di diversità dei siti. Questo algoritmo impedisce a Google di mostrare più di due risultati di pagine web dello stesso sito nelle prime posizioni, per evitare che un singolo sito possa dominare tutti i migliori risultati. Tuttavia, Google potrebbe comunque mostrare più di due risultati nei casi in cui i sistemi stabiliscano che è particolarmente pertinente farlo per una determinata ricerca.
  19. Spam detection systems – Sistemi di rilevamento dello spam. Si occupano di contenuti e comportamenti che violano le norme antispam di Google; Internet presenta ancora enormi quantità di spam che, se non gestite, impedirebbero di mostrare i risultati più utili e pertinenti, e per questo motivo una serie di sistemi di rilevamento dello spam, tra cui SpamBrain, gestiscono contenuti e comportamenti che violano le norme antispam e vengono costantemente aggiornati per tenere il passo con gli ultimi modi in cui si evolve la minaccia dello spam.

I sistemi di Google non più attivi (o integrati in altri strumenti)

La pagina della guida elenca anche per scopi storici alcuni dei sistemi di Google che non sono più attivi in maniera indipendente, ma che oggi risultano incorporati in successivi o sono diventati parte dei più ampi sistemi di classificazione di base del motore di ricerca (che sono le tecnologie sottostanti che producono risultati di ricerca in risposta alle query).

  1. Hummingbird. Lanciato nell’agosto 2013, è stato un importante miglioramento dei sistemi di classificazione generale di Google, che da allora “hanno continuato a evolversi, proprio come si erano evoluti prima”.
  2. Mobile-friendly ranking system – Sistema di classificazione mobile-friendly. Questo sistema interviene nelle situazioni in cui sono presenti molte possibili corrispondenze con una pertinenza relativamente uguale, dando priorità e preferenza ai contenuti mobile-friendly che hanno migliore visualizzazione sui dispositivi mobili, più utili per le persone che effettuano ricerche da smartphone e tablet. Oggi è incorporato nel sistema Page Experience.
  3. Page speed system – Sistema di velocità della pagina. Annunciato originariamente nel 2018 come “Page Update“, questo algoritmo interveniva in situazioni di pari condizioni per classificare meglio i contenuti che si caricavano più velocemente per gli utenti da dispositivi mobili. Oggi è diventato parte del sistema Page Experience.
  4. Panda system. Annunciato nel 2011 e soprannominato “Panda“, questo sistema era progettato per assicurare la visibilità di contenuti originali e di alta qualità nei risultati di ricerca. Nel tempo si è evoluto e dal 2015 è diventato parte dei core ranking systems di Google.
  5. Penguin system. Annunciato nel 2012 e soprannominato “Penguin Update”, era progettato per combattere lo spam di link ed è stato integrato nei principali sistemi di classificazione nel 2016.
  6. Secure sites system – Sistema di siti sicuri. Annunciato nel 2014, era un algoritmo che assicurava una priorità nelle classifiche ai siti protetti con HTTPS a parità di altri condizioni; secondo Google, ha contribuito a incoraggiare la crescita di siti sicuri in un momento in cui l’uso di HTTPS era ancora piuttosto raro, e da allora è diventato parte del sistema dell’esperienza sulle pagine.

L’evoluzione di Google – e della SEO

Queste informazioni sono utili innanzitutto per avere una bussola su quelli che sono i principali sistemi che attualmente sono all’opera per formare le classifiche e le SERP di Google, ma anche per conoscere alcuni dettagli interessanti sulla considerazione che Google ha di tali sistemi e di quale apporto forniscono in concreto al ranking.

Ad esempio, possiamo notare che nella maggior parte dei casi si tratta di sistemi tie-breaker, che servono cioè a rompere la parità di fattori e condizioni determinando quindi quale pagina e quale contenuto debba apparire prima. È poi curioso scoprire che Google usa ancora un sistema che interpreta l’exact match per il dominio, ma poi concretamente ci dice che non vale la pena investire su un nome dominio così costruito solo per scopi di ranking perché sarebbe vano.

Più in generale, però, questa guida ci dà informazioni pratiche per la nostra attività, a cominciare dalla svolta lessicale voluta dal motore di ricerca – anche se (almeno per ora) non cambieremo i vecchi articoli rinominando gli update in system, lasciando quindi i vecchi nomi, anche per una questione di abitudine.

Di sicuro, questo è un ennesimo segnale di quanto Google stia cambiando e continui a evolvere, sia nel modo in cui presenta le informazioni agli utenti sia negli aggiornamenti degli algoritmi, che determinano di conseguenza un adattamento anche delle best practices SEO, che devono tenere il passo con cosa significa ottimizzare correttamente un sito web oggi.

Ad esempio, fino a non molto tempo fa la definizione di pertinenza significava semplicemente che una pagina web doveva riguardare ciò che l’utente stava cercando, ma oggi ciò non è più sufficiente perché i contenuti devono essere anche utili, originali e legati direttamente al search intent. Google si sta sempre più allontanando dall’identificazione delle parole chiave per raggiungere la comprensione dei molteplici significati inerenti alle query di ricerca, e ha detto chiaramente ai creatori di smettere di scrivere contenuti incentrati solo sulle keyword perché appaiono innaturali e forzati.

L’altro aspetto considerevole è il contesto, l’ambientazione in cui qualcosa viene detto o fatto, che fornisce significato a quelle azioni o impostazioni: oggi il contesto di una ricerca può influenzare i risultati e Google sta ridefinendo cosa significa essere rilevanti comprendendo il contesto dell’utente.