Non tutti i mali vengono per nuocere, dice un vecchio adagio, e per i misspelling questa massima sembra essere particolarmente calzante: il sistema di ricerca su Google evolve, infatti, anche grazie a errori di battitura, refusi basati di conoscenze approssimative o digitazioni errate, che servono all’algoritmo per crescere e migliorare.

Errori e misspelling nella Ricerca Google

Il tema dei termini misspelling era stato già al centro delle anticipazioni di Google Search On 2020, quando il Senior Vice President di Search, Prabhakar Raghavan, aveva rivelato che “una query di ricerca su dieci contiene errori di ortografia”.

Questi dati, insieme al numero di nuove parole costantemente inserite (e che a volte possono non dare risultati pertinenti), ha reso necessario lo sviluppo di un nuovo algoritmo dedicato alla decifrazione degli errori di ortografia, con elevati capacità di comprensione e correzione ortografica e possibilità di rispondere con i risultati giusti “in meno di 3 millisecondi”.

Grazie a questo algoritmo Google è in grado di comprendere meglio e più rapidamente il contesto delle parole con errori di ortografia e fornire così suggerimenti mirati all’utente; in poche parole, è il segreto che permette a Google di sapere magicamente ciò che stiamo cercando, anche quando la nostra query di ricerca contiene errori di battitura ed è scritta male.

I misspelling aiutano Google

Sul tema è intervenuto di recente anche Pandu Nayak, Google Fellow e Vice President di Search, che ha scritto un interessante articolo su “l’ABC dello spelling nella ricerca” in cui spiega innanzitutto che è già da oltre 20 anni che Google ha introdotto e utilizza un sistema di controllo ortografico, anche se lo spelling e l’ortografia restano “una sfida continua per la comprensione della lingua”.

Prima ancora di poter “iniziare a cercare risultati pertinenti per una query di ricerca”, Google deve “sapere cosa sta cercando un utente, digitato correttamente”: ma il numero elevato di query di ricerca con errori di ortografia e la continua introduzione di nuove parole, “insieme a nuovi modi per scriverle in modo errato”, rendono necessario un lavoro costante e specifico per migliorare.

Come Google classifica gli errori di ortografia

La prima cosa che l’intelligenza artificiale di Google fa quando si imbatte in quella che ritiene essere una parola con errori di ortografia è classificarla, ed esistono due principali categorie di misspelling: errori concettuali ed errori di slittamento del dito.

Gli errori concettuali sono quelli commessi “quando non siamo sicuri di come si scrive qualcosa e cerchiamo di indovinare con la nostra migliore ipotesi”.

Gli errori di slittamento del dito (slip-of-finger) avvengono quando “sappiamo come si scrive ciò che stiamo cercando, ma lo digitiamo accidentalmente in modo errato”.

Gli esempi di errori concettuali su Google

Noto anche come best-effort spelling (sforzo per migliorare l’ortografia), un errore di questo tipo si verifica se un utente non sa come si scrive una parola e la digita in quello che ritiene essere il modo migliore.

Nayak chiarisce la situazione con un esempio legato al termine gobbledygook (che identifica parole incomprensibili), che oltretutto è “una parola difficile da pronunciare e ha due ortografie comunemente accettate, tra cui gobbledegook“. Se vogliamo approfondire il significato di gobbledygook ma non sappiamo esattamente come scriverlo, rischiamo di digitare quella che riteniamo essere la soluzione per noi migliore (e più vicina alla realtà), come ad esempio “garbledygook”, “gobblydegook”, “gobbleygook”, “gobbly gook” e altro ancora.

Gli esempi di errori da slittamento del dito su Google

Differente è il caso dei misspelling provocati da slip-on-finger, che possono essere considerati una sorta dei classici refusi di stampa: l’utente conosce il termine e sa come si scrive, ma sbaglia a digitarlo nella casella a causa di fretta o distrazione.

Si tratta quindi di un errore accidentale, piuttosto frequente e in forte crescita con la diffusione degli smartphone – “ma succede anche quando digitiamo su tastiere di dimensioni standard”

È una situazione che ognuno di noi ha probabilmente sperimentato almeno una volta ed è il motivo per cui vediamo più di 10.000 varianti di query come YouTube, tutte generate dallo scorrimento accidentale di un dito, come ytoube, 7outub, yoitubd e tourube” (tutte lettere o cifre che sulla tastiera sono vicine a quelle corrette).

Gli interventi sui misspelling

Nonostante la frequenza con cui capitano gli errori, molte query con misspelling “vengono visualizzate solo una volta, rendendo l’ortografia una sfida unica per la Ricerca” e, indipendentemente dal tipo di errore di ortografia, i sistemi di Google trovano modi per capire cosa intendiamo.

Il precedente approccio di Google alle query di ricerca con errori di ortografia mai visti prima si basava semplicemente sul design della tastiera: ad esempio, spiega Pandu Nayak, “se hai provato a digitare u ma hai commesso un errore, i nostri sistemi avevano appreso che era più probabile che premessi y piuttosto che z perché su una tastiera in lingua inglese standard il tasto y è adiacente a u“.

I modelli di Google “hanno applicato il concetto generale a tutti i nuovi errori di ortografia, procedendo con le sostituzioni di lettere nelle vicinanze finché non è stato identificato un termine di sostituzione popolare”. In pratica, avrebbero analizzato l’errore nella query e iniziato a sostituire la lettera più vicina a quella digitata per vedere “l’effetto finale”, continuando eventualmente con quella ancora adiacente e poi via così con le successive fino a trovare una lettera adatta a comporre una parola corretta.

All’apparenza, questo è un modo ovvio per risolvere gli errori di scivolamento delle dita, ma in realtà si è dimostrato un approccio valido anche per correggere gli errori concettuali.

Il nuovo sistema basato sul deep learning

Grazie ai progressi nel deep learning, da qualche mese Google ha avviato “un modo migliore per comprendere l’ortografia”, introducendo “un nuovo algoritmo di spelling che utilizza una rete neurale profonda che meglio modella e impara da errori di ortografia meno comuni e unici”.

Tale avanzamento “consente di eseguire un modello con più di 680 milioni di parametri in meno di due millisecondi, in modo che le persone possano cercare senza essere interrotti dai propri errori di ortografia”.

Il progresso è evidente: in precedenza, l’algoritmo faceva affiorare i risultati che un utente stava cercando in meno di tre millisecondi, mentre oggi modelli con oltre 680 milioni di parametri in meno di due millisecondi – “un modello molto grande che funziona più velocemente del battito delle ali di un colibrì”, dice Nayak.

Come funziona l’algoritmo di Google per i misspelling

Invece di utilizzare il precedente approccio da tastiera, il nuovo algoritmo utilizza il contesto per capire cosa intendeva digitare un utente, riuscendo così “a sapere cosa sta cercando qualcuno, indipendentemente dal tipo di errore e se non abbiamo mai visto l’errore di ortografia prima”.

In dettaglio, spiega il VP di Search, i modelli di comprensione del linguaggio naturale di Google “esaminano una ricerca nel contesto, come la relazione che hanno tra loro le parole e le lettere all’interno della query”, cercando innanzitutto di decifrare o cercare di comprendere l’intera query di ricerca. Da lì, “generiamo le migliori sostituzioni per le parole con errori di ortografia nella query in base alla nostra comprensione generale di ciò che stai cercando”.

Ad esempio, dall’analisi degli altri termini della query “average home coast” Google deduce dedurre che probabilmente l’utente sta cercando informazioni su “average home cost” (in italiano sarebbe costa medio casa e costo medio casa).

Sintetizzando, quindi, con il nuovo approccio l’algoritmo di misspelling di Google:

  1. Valuta l’intera query, non solo la parola errata.
  2. Ricerca parole sostitutive che si adattino alla query complessiva.
  3. Fornisce i risultati della ricerca in base alla “migliore corrispondenza”.

La correzione delle query misspelled

Possiamo vedere queste tecnologie di ortografia apparire in Ricerca Google in modi diversi, che correggono un possibile misspelling con una previsione probabilistica di ciò che intendevamo cercare.

esempio di query su Google con forse cercavi

Quando l’algoritmo è “abbastanza sicuro” di sapere cosa stiamo cercando, può suggerire cortesemente che “forse cercavi” un’altra query e mostrare l’alternativa che pensa sia più probabile noi stessimo cercando.

Correzione di misspelling su google

Quando l’algoritmo è “molto sicuro” di aver identificato correttamente l’errore di ortografia, mostrerà automaticamente i risultati per ciò che pensa noi stiamo cercando, “ma ti faremo sempre sapere e ti forniremo un modo per tornare alla tua ortografia originale”. Vale a dire che una nota sotto la barra di ricerca ci informa che c’è stata una modifica e ci dà la possibilità di vedere i risultati di ricerca per la query originale con misspelled.

Perché gli errori sono utili a Google

Il modo in cui rispondiamo a queste note e interagiamo con i risultati così forniti influisce direttamente sull’algoritmo, poiché Google utilizza questi segnali per continuare ad addestrare l’IA. Come dice Pandu Nayak, “che tu accetti o meno il nostro suggerimento, impariamo e miglioriamo costantemente i nostri sistemi in base a quel feedback per rendere la ricerca più utile”.

E così, anche un errore di ortografia durante una ricerca su Google, che all’apparenza può sembrare solo fastidioso, diventa in realtà qualcosa di utile e “più grande”, che permette al motore di ricerca di “continuare a migliorare il nostro spelling in modo che tu possa continuare a cercare”.