Prosegue il lavoro di Google per la semplificazione e uniformazione del file robots.txt e, come annunciato in occasione del compleanno di questa risorsa, dal primo settembre cambiano le specifiche seguite da Googlebot, e in particolare quel che riguarda la gestione del noindex. Per questo, un messaggio in Google Search Console invita webmaster, proprietari e gestori di siti ad attivarsi in tempo e non farsi cogliere impreparati.

Un messaggio in Search Console per chi usa noindex nel robots

A cominciare dal 29 luglio, nella posta degli ormai ex webmaster tools di Google gli utenti iscritti hanno trovato un messaggio del team del motore di ricerca, che segnala la presenza di istruzioni noindex all’interno del file robots.txt sottoposto in Search Console.

Dal 1 settembre addio definitivo alla regola non supportata

Una regola che, come spiegato sempre da Mountain View, non è mai stata ufficialmente supportata e che sarà deprecata proprio dal prossimo primo settembre, quando entreranno in vigore le nuove regole per l’indicizzazione delle pagine da parte di Googlebot e, in particolare, per l’esclusione dall’indice del motore di ricerca.

Google non segue più noindex, nofollow e crawl-delay in robots.txt

La notifica è stata inviata solo a chi utilizza la regola noindex nel file robots ed è dunque a questa categoria specifica di webmaster e sviluppatori che si rivolge Google: se si rientra nell’elenco, è bene prendere provvedimenti al più presto ed eliminare la norma entro il primo settembre, insieme agli altri comandi non supportati come nofollow o crawl-delay, anche queste in via di pensionamento definitivo.

Come gestire l’indicizzazione delle pagine su Google

In attesa di capire come evolverà il lavoro sulla standardizzazione del file robots.txt – un obiettivo tanto ambizioso quanto utile, per semplificare le operazioni e ridurre gli errori su una risorsa così delicata e importante – è bene ricordare quali sono le opzioni valide per bloccare l’indicizzazione di una pagina:

  • Noindex nei meta tag robots direttamente nel codice HTML della pagina.
  • Codici di stato HTTP 404 e 410.
  • Protezione delle pagine con password.
  • Uso del disallow nel file robots.txt.
  • Strumento per la rimozione degli URL all’interno della Google Search Console.