Un vero e proprio giro di vite contro lo spam, con tanto di minaccia per editori e proprietari di siti che non proteggono le proprie pagine dallo spam UGC. Google continua la sua lotta contro questo problema e, dopo la pubblicazione del Webspam Report 2020, approfondisce ulteriormente i numeri del fenomeno, con particolare riguardo al sistema della Ricerca, fornendo indicazioni per tutelare i siti e, di conseguenza, il motore di ricerca da risultati fuorvianti, inutili e spesso pericolosi.

L’impegno per un’esperienza di ricerca sicura e priva di spam

A ribadire l’impegno di Google per rendere l’esperienza di Ricerca “sicura e priva di spam” è un articolo firmato da Cherry Prommawin, Search Relations, e Duy Nguyen, Search Quality Analyst, che riepilogano i risultati del lavoro compiuto nel 2020 sul motore di ricerca per “mantenere puliti i risultati su Google e offrire risultati da siti Web di alta qualità creati da te anziché quelli contenenti spam”.

Ma questo obiettivo non si può raggiungere senza la collaborazione di tutti, compresi i proprietari dei siti, perché “un Web e un ecosistema di Ricerca Google più sicuri e privi di spam iniziano con siti Web ben costruiti”. Ed è per questo che Google lavora costantemente per fornire informazioni, strumenti e risorse migliori per semplificare la creazione di siti con la migliore user experience possibile.

Collaborazione contro lo spam

Prevenzione dallo spam: numeri, tool e risorse di Google

I numeri ci consentono di capire la mole di lavoro che richiede questo compito: solo nel 2020, Google ha inviato “oltre 140 milioni di messaggi ai proprietari di siti in Search Console, un aumento rispetto all’anno precedente”.

E se è vero che l’incremento è stato in gran parte determinato “da nuovi siti che utilizzano Search Console, da annunci di nuove funzioni per aiutare i proprietari di siti durante l’emergenza COVID-19, nonché da informazioni e notifiche utili su potenziali problemi che avrebbero potuto influire sull’aspetto del loro sito nella Ricerca”, una parte consistente ha comunque riguardato notifiche di azioni manuali per spam.

Ben 2,9 milioni di messaggi hanno riguardato tale problema, anche se oggi la maggior parte delle situazioni è risolto attraverso gli algoritmi e non quindi con azione manuale, in calo rispetto agli anni passati: ad esempio, nel 2018 le notifiche di azioni manuali furono 4 milioni e nel 2017 addirittura 6 milioni.

Tali comunicazioni contengono “informazioni utili per i proprietari di siti che hanno subito una violazione, con indicazioni per affrontare prontamente i problemi di sicurezza e ridurre al minimo le interruzioni e i danni agli utenti”.

Il team di Search Console ha lavorato “instancabilmente durante tutto l’anno” per offrire funzionalità che possono aiutarci a rilevare spam o comportamenti non sicuri sui siti web, come lo strumento Disavow link, una nuova versione del rapporto sulle statistiche di scansione e il rapporto sul filtro SafeSearch. Il team ha anche lavorato su funzionalità che possono “aiutare a creare siti Web con contenuti di alta qualità, che è vitale per migliorare l’ecosistema e ridurre lo spam: ad esempio, abbiamo superato la versione beta di Rich Results Test per supportare meglio gli sviluppatori che lavorano con interessanti tipi di risultati multimediali di Google come Eventi o Offerte di lavoro”.

Aumentate anche le risorse che Google mette a disposizione di tutti: sul versante formativo, ad esempio, l’articolo cita la serie di guida all’utilizzo della Search Console che permette di “ottenere il massimo dagli strumenti che forniamo” e ricorda la migrazione di tutti i blog della compagnia per centralizzare le risorse, confluite nel nuovo Centro Ricerca Google. Infine, per garantire un supporto migliore, l’azienda ha lanciato un nuovo canale di supporto per segnalare problemi di sicurezza persistenti causati da malware, hack o download dannosi, rivelando di aver ricevuto un’ampia serie di segnalazioni che poi si sono risolte positivamente per i proprietari di siti.

Il coinvolgimento della comunità

Nel 2020 ci sono stati anche quasi 40mila post sottoposti da proprietari di siti nella community di assistenza di Search Central, che continua a fornire supporto alle domande e a risolvere i problemi, dimostrandosi in grado di “aiutare le aziende di tutte le dimensioni a migliorare la loro presenza online o affacciarsi per la prima volta”.

Sul fronte pratico, Google ha ampliato la comunità globale per includere nel 2020 arabo, cinese (semplificato), polacco e turco e ora supporta 17 lingue.

Oltre a cinque eventi di persona che è stato possibile organizzare all’inizio del 2020, nel prosieguo dei mesi Google ha trovato nuovi modi di riunione e ha ospitato oltre 50 eventi online e tenuto più di 80 sessioni di office hour online; inoltre, ha lanciato i Search Central Lightning Talks e i Product summit, fruibili comodamente da casa, e ha avviato podcast Search Off the Record e il primo Virtual Webmaster Unconference.

Come proteggere il sito dallo spam

Oltre agli sforzi di Google, anche i proprietari di siti devono fare la propria parte per contribuire a creare un Web più sicuro e privo di spam, e un secondo articolo del Search Quality Team si concentra proprio sulle indicazioni pratiche per evitare in anticipo che ci possano essere violazioni indesiderate.

Un elemento da non trascurare è l’aggiornamento costante dei software, con rilevanza particolare agli aggiornamenti di sicurezza importanti, perché “gli spammer possono sfruttare i problemi di sicurezza nelle versioni precedenti di blog, bacheche e altri content management systems”.

Il consiglio diretto è di usare alcuni sistemi anti-spam completi come Akismet, che “dispongono di plugin per molti blog e sistemi di forum che sono facili da installare e svolgono la maggior parte del lavoro di lotta allo spam” in modo automatico; inoltre, per alcune piattaforme “sono disponibili plugin di sicurezza affidabili e ben noti, che aiutano ad assicurare il sito Web e potrebbero essere in grado di rilevare gli abusi in anticipo”.

Il problema con lo spam UGC

Uno dei problemi più urgenti è lo spam UGC, ovvero quello generato dagli utenti nei possibili canali di interazione sui siti: forum, guestbook, piattaforme di social media, uploader di file, servizi di hosting gratuiti o servizi di ricerca interna.

Esempio di spam nei forum

Gli spammer, infatti, “spesso traggono vantaggio da questi tipi di servizi per generare centinaia di pagine di spam che aggiungono poco o nessun valore al web”, esponendo lo stesso sito a un rischio: secondo i principi stabiliti nelle Istruzioni per i webmaster di Google, infatti, queste situazioni potrebbero comportare l’adozione di azioni manuali da parte di Google sulle pagine interessate.

Esempio di spam free hosting

Contenuti spam di questo tipo possono essere dannosi per il sito e gli utenti in diversi modi:

  • I contenuti di bassa qualità in alcune parti di un sito Web possono influire sul posizionamento dell’intero sito.
  • I contenuti spam possono potenzialmente portare gli utenti a contenuti indesiderati o addirittura dannosi, come siti con malware o phishing, che possono ridurre la reputazione del sito.
  • Il traffico involontario proveniente da contenuti non correlati sul sito può rallentare il sito stesso e aumentare i costi di hosting.
  • Google potrebbe rimuovere o retrocedere le pagine invase da spam generato da terze parti per proteggere la qualità dei risultati di ricerca complessivi.

Esempio di spam nella ricerca interna

I suggerimenti per bloccare gli spammer sul sito

L’articolo offre quindi una serie di suggerimenti pratici per impedire agli spammer di avere accesso e compiere abusi su un sito.

  • Impedire la creazione automatica di account

Quando gli utenti creano un account sul sito, sarebbe meglio implementare un servizio CAPTCHA gratuito di Google o strumenti di verifica simili (ad esempio: Securimage o Jcaptcha) per consentire la richiesta solo da parte di persone vere e impedire che script automatici generino account e contenuti sulle piattaforme pubbliche del sito.

Un’altra soluzione è richiedere ai nuovi utenti di convalidare la registrazione attraverso un indirizzo email reale, perché così si può impedire a molti bot di spam di creare automaticamente account. Ancora, possiamo impostare filtri per bloccare indirizzi e-mail sospetti o provenienti da servizi e-mail di cui non ci fidiamo.

  • Attivare le funzioni di moderazione

È utile abilitare le funzionalità di moderazione alla creazione di commenti e profili, che richiedono agli utenti di avere una certa reputazione prima che i link possano essere pubblicati. Se possibile, si consiglia di modificare le impostazioni in modo da non consentire la pubblicazione anonima e sottoporre i post di nuovi utenti ad approvazione prima che siano visibili pubblicamente.

  • Monitorare il sito per trovare contenuti di spam e ripulire eventuali problemi

Google suggerisce di utilizzare la Search Console per monitorare la situazione del sito, controllando in particolare il rapporto Problemi di sicurezza e il rapporto Azioni manuali per verificare se sono stati rilevati problemi e il pannello Messaggi per ottenere ulteriori informazioni.

Spam terze parti in Search Console

Inoltre, è bene controllare periodicamente il sito alla ricerca di contenuti imprevisti o spam utilizzando l’operatore site: in Ricerca Google, insieme a parole chiave commerciali o per adulti che non sono correlate all’argomento del sito. Ad esempio, dice l’articolo, “cercare [site:your-domain-name viagra] o [site:your-domain-name watch online] permette di rilevare i contenuti non pertinenti sul sito”, e in particolare:

  1. Testo fuori contesto o link fuori tema con l’unico scopo di promuovere un sito web o servizi di terze parti (ad esempio, “download / visione di film gratuiti online”).
  2. Testo senza senso o generato automaticamente (non scritto da un utente reale)
  3. Risultati di ricerca interna in cui la query dell’utente appare fuori tema con lo scopo di promuovere un sito Web / servizi di terze parti.

Un altro consiglio è di monitorare i file di registro del server web per identificare improvvisi picchi di traffico, in particolare per le pagine appena create, concentrandosi ad esempio sugli URL con parole chiave nei pattern URL che sono completamente irrilevanti per il sito. Per identificare potenziali URL problematici ad alto traffico, possiamo usare il rapporto Pagine in Google Analytics.

Infine, possiamo bloccare preventivamente la pubblicazione di contenuti ovviamente inappropriati sulla nostra piattaforma con un elenco di termini contenenti spam (ad esempio: streaming o download, per adulti, gioco d’azzardo, termini correlati a farmaci) usando funzionalità o i plugin integrati che possono eliminare o contrassegnare questi contenuti come spam. In tal senso, Google ricorda che su Google Alert si può impostare un avviso come [site:your-domain-name spammy-keywords], utilizzando parole chiave commerciali o per adulti che non ci aspettiamo di vedere sul sito, e che inoltr “Google Alert è anche un ottimo strumento per rilevare le pagine compromesse”.

  • Identificare e chiudere gli account spam

Il web server log può servire anche a studiare le registrazioni degli utenti e identificare alcuni classici pattern di spam, come:

  1. Un gran numero di moduli di iscrizione completati in breve tempo.
  2. Numero di richieste inviate dallo stesso intervallo di indirizzi IP.
  3. User Agent imprevisti utilizzati durante la registrazione.
  4. Nomi utente senza senso o altri valori inviati senza senso durante la registrazione. Ad esempio, nomi utente commerciali (nomi come “Download gratuito di film”) che non sembrano veri nomi umani e rimandano a siti non correlati.

 

  • Impedire alla Ricerca Google di mostrare o seguire contenuti non attendibili

Se il nostro sito consente agli utenti di creare pagine come pagine di profilo, thread di forum o siti web, possiamo scoraggiare l’abuso di spam impedendo alla Ricerca Google di mostrare o seguire contenuti nuovi o non attendibili.

Tecniche per bloccare spam

Ad esempio, possiamo utilizzare il meta noindex per bloccare l’accesso a pagine non attendibili, oppure il disallow in robots.txt per bloccare temporaneamente le pagine. Possiamo anche contrassegnare come UGC i link ai contenuti generati dagli utenti, come commenti e post del forum, utilizzando rel=”ugc” o rel=”nofollow”, così da spiegare a Google il rapporto con la pagina collegata e a richiedere di non seguire quel collegamento.

  • Consolidare il contenuto della piattaforma aperta in un percorso di file o directory concentrato

Con script o software automatizzati, gli spammer possono generare un gran numero di pagine di spam sul sito in breve tempo; alcuni di questi contenuti possono essere ospitati in percorsi di file o directory frammentati, che impediscono ai proprietari dei siti di rilevare e ripulire efficacemente lo spam.

Ne sono esempi:

example.com/best-online-pharma-buy-red-viagra-online
example.com/free-watch-online-2021-full-movie

È quindi consigliabile consolidare i contenuti generati dagli utenti in un percorso di file o directory concentrato per facilitare la manutenzione e il rilevamento dello spam. Un percorso di file consigliato è:

example.com/user-generated-content-dir-name/example01.html
example.com/user-generated-content-dir-name/example02.html

Prevenire lo spam sul sito per evitare azioni manuali

In definitiva, quindi, i due articoli confermano che Google sta proseguendo la sua battaglia contro lo spam nei risultati di ricerca e che tutti devono fare la propria parte.

I proprietari di siti, in particolare, sono chiamati a vigilare sulla sicurezza delle proprie pagine, anche perché i rischi in caso di violazione sono piuttosto elevati.

Quello che attualmente è un “consiglio” a monitorare le pagine ed evitare spam UGC potrebbe anche rivelarsi una sorta di avvertimento in anticipo sull’intenzione di Google di spingere con maggiore insistenza sulle azioni manuali come “deterrente” alla presenza di contenuti, link e profili utente spam sui siti.