Spam sul Web, come proteggere il sito e come Google tutela la Ricerca

SEO Gennaro Mancini 7 Ottobre 2022 Tempo di lettura : 11 minuti

Mettici alla prova

Analizza il tuo sito

Seleziona la lingua del database:

Lo spam resta ancora un problema aperto, sia nell’esperienza quotidiana degli utenti del Web che per Google, che nel corso degli anni ha intensificato il lavoro di contrasto a questo fastidioso (e pericoloso) fenomeno. Tra gli ultimi esempi c’è la creazione di una nuova sezione nelle linee guida sulla qualità, denominata “Prevenire gli abusi sul tuo sito e sulla tua piattaforma“, che offre indicazioni precise in particolare su come proteggere un sito dallo spam generato dagli utenti, una delle piaghe più frequenti riscontrate nell’attività di detenzione. Già da tempo, infatti, Google aveva avviato un vero e proprio giro di vite contro lo spam, con tanto di minaccia per editori e proprietari di siti che non proteggono le proprie pagine dallo spam UGC perché, come ribadito anche con la pubblicazione del Webspam Report 2021, i numeri sono ancora alti e colpiscono il sistema della Ricerca, rendendo necessario fronire indicazioni per tutelare i siti e, di conseguenza, il motore di ricerca da risultati fuorvianti, inutili e spesso pericolosi.

Le indicazioni di Google per evitare lo spam sul sito

Nell’esperienza di Google, le principali vie di ingresso degli spammer su un sito sono “i moduli di commenti aperti e altri input di contenuti generati dagli utenti”, che consentono ai malintenzionati di generare contenuti di spam su un sito a insaputa del suo proprietario; anche le piattaforme di hosting possono essere soggette a comportamenti illeciti, e in generale gli spammer potrebbero creare un numero elevato di siti che violano le norme sulla qualità e aggiungere valore scarso o nullo al Web.

Per fortuna, ci dice la nuova guida di Google, “evitare abusi sulla tua piattaforma o sul tuo sito in genere non è difficile“, e per scoraggiare scoraggiare gli spammer potrebbero bastare “anche deterrenti semplici, come una sfida insolita che gli utenti devono completare prima di interagire con la tua proprietà”.

Nello specifico, ci sono almeno sei possibili interventi che possono prevenire o ridurre la presenza di spam sul sito, ovvero:

Informa gli utenti che non consenti lo spam sul tuo servizio
Identifica gli account di spam
Utilizzare l’approvazione manuale per le interazioni degli utenti sospette
Utilizzare un elenco di blocco per prevenire tentativi di spamming ripetitivi
Blocca la creazione automatica dell’account
Monitora il tuo servizio per eventuali abusi.

Gli interventi per ridurre l’attività degli spammer

Il primo consiglio di Google è comunicare esplicitamente agli utenti che non ammettiamo spam nel servizio, pubblicando norme chiare sui comportamenti illeciti per gli utenti, ad esempio durante la procedura di registrazione. Inoltre, aggiunge la guida, potrebbe essere utile consentire agli utenti attendibili di segnalare contenuti della proprietà che considerano spam.

Il secondo suggerimento è di tipo pratico e invita a studiare un modo per identificare quali sono gli account spammer in azione sul sito, conservando record delle registrazioni e di altre interazioni degli utenti con la piattaforma e provando a identificare schemi di spam tipici, come ad esempio:

Data e ora di completamento del modulo.
Numero di richieste inviate dallo stesso intervallo di indirizzi IP.
User agent utilizzati durante la registrazione.
Nomi utente o altri valori del modulo scelti durante la registrazione.

Questi indicatori potrebbero aiutarci a creare un sistema di reputazione degli utenti, utile sia a coinvolgere gli utenti che a identificare gli spammer. Dal momento che numerosi spammer di commenti vogliono che i loro contenuti siano presenti nei motori di ricerca, dice la guida, una buona prassi è “aggiungere un meta tag robots noindex ai post dei nuovi utenti che non sono conosciuti all’interno della piattaforma”: dopo un certo periodo di tempo, quando l’utente si sarà costruito una buona reputazione, possiamo consentire che i suoi contenuti vengano indicizzati. Questo metodo scoraggia particolarmente gli spammer a interagire con la piattaforma. Inoltre, visto che spesso gli spammer sono motivati a lasciare un link al loro sito, può essere utile aggiungere un attributo rel di tipo nofollow o ugc a tutti i link nei contenuti non attendibili.

Un modo efficace per combattere lo spam, anche se richiede una mole ulteriore di lavoro e aggiunge un “carico alle tue attività giornaliere”, è prevedere un sistema di approvazione (o moderazione) manuale per alcune interazioni degli utenti: in questo modo, impediamo agli spammer di creare immediatamente contenuti che potrebbero essere spam, e la sua efficacia rappresenta il motivo per cui, ad esempio, la moderazione dei commenti è una funzionalità integrata nella maggior parte dei CMS.

Altra pratica suggerita da Google è semplificare la rimozione di altri eventuali profili simili a quelli già individuati come spammer: in concreto, ciò significa ad esempio che se diversi profili contenenti spam provengono dallo stesso indirizzo IP, possiamo aggiungere questo indirizzo in un elenco definitivo di indirizzi vietati, usando plugin come Akismet su vari CMS (ad esempio WordPress) o provvedendo a inserire l’indirizzo IP all’elenco di tipi non consentiti del firewall.

Sempre per disincentivare la pubblicazione rapida di contenuti spam, poi, può essere efficace anche una soluzione basic come l’introduzione di reCAPTCHA o strumenti di verifica simili nel modulo di registrazione, così da abilitare solo le richieste provenienti da persone e impedire agli script automatici di generare numerosi siti sul servizio di hosting.

Infine, l’ultimo punto della guida di Google ci ricorda l’importanza del monitoraggio del servizio per individuare eventuali comportamenti illeciti, facendo particolare attenzione a tre aspetti:

Monitorare la proprietà per rilevare eventuali indicatori di spam come reindirizzamenti, quantità elevate di sezioni di annunci, parole chiave specifiche contenenti spam e ampie sezioni di codice JavaScript codificato. L’operatore di ricerca site: o Google Alert possono aiutarci a rilevare i problemi, ci spiega Google.
Tenere d’occhio i file di log del server web per rilevare improvvisi picchi di traffico.
Monitorare la proprietà per individuare eventuali pagine di phishing e infettate da malware. Sul fronte pratico, possiamo “utilizzare l’API Navigazione sicura di Google per testare regolarmente gli URL del tuo servizio”, e la guida consiglia anche di valutare modi alternativi per verificare lo stato del servizio: ad esempio, “se scegli come target principalmente utenti in Giappone, quali sono le probabilità che si verifichino migliaia di interazioni da parte di un IP italiano durante la notte nella tua proprietà?”. Sono disponibili numerosi strumenti per rilevare la lingua dei nuovi siti, come le librerie di rilevamento della lingua o l’API Google Translate v2.

L’impegno per un’esperienza di ricerca sicura e priva di spam

A ribadire l’impegno di Google per rendere l’esperienza di Ricerca “sicura e priva di spam” è stato in precedenza un articolo firmato da Cherry Prommawin, Search Relations, e Duy Nguyen, Search Quality Analyst, che riepilogano i risultati del lavoro compiuto nel 2020 sul motore di ricerca per “mantenere puliti i risultati su Google e offrire risultati da siti Web di alta qualità creati da te anziché quelli contenenti spam”.

Ma questo obiettivo non si può raggiungere senza la collaborazione di tutti, compresi i proprietari dei siti, perché “un Web e un ecosistema di Ricerca Google più sicuri e privi di spam iniziano con siti Web ben costruiti”. Ed è per questo che Google lavora costantemente per fornire informazioni, strumenti e risorse migliori per semplificare la creazione di siti con la migliore user experience possibile.

Prevenzione dallo spam: numeri, tool e risorse di Google

I numeri ci consentono di capire la mole di lavoro che richiede questo compito: solo nel 2020, Google ha inviato “oltre 140 milioni di messaggi ai proprietari di siti in Search Console, un aumento rispetto all’anno precedente”.

E se è vero che l’incremento è stato in gran parte determinato “da nuovi siti che utilizzano Search Console, da annunci di nuove funzioni per aiutare i proprietari di siti durante l’emergenza COVID-19, nonché da informazioni e notifiche utili su potenziali problemi che avrebbero potuto influire sull’aspetto del loro sito nella Ricerca”, una parte consistente ha comunque riguardato notifiche di azioni manuali per spam.

Ben 2,9 milioni di messaggi hanno riguardato tale problema, anche se oggi la maggior parte delle situazioni è risolto attraverso gli algoritmi e non quindi con azione manuale, in calo rispetto agli anni passati: ad esempio, nel 2018 le notifiche di azioni manuali furono 4 milioni e nel 2017 addirittura 6 milioni.

Tali comunicazioni contengono “informazioni utili per i proprietari di siti che hanno subito una violazione, con indicazioni per affrontare prontamente i problemi di sicurezza e ridurre al minimo le interruzioni e i danni agli utenti”.

Il team di Search Console ha lavorato “instancabilmente durante tutto l’anno” per offrire funzionalità che possono aiutarci a rilevare spam o comportamenti non sicuri sui siti web, come lo strumento Disavow link, una nuova versione del rapporto sulle statistiche di scansione e il rapporto sul filtro SafeSearch. Il team ha anche lavorato su funzionalità che possono “aiutare a creare siti Web con contenuti di alta qualità, che è vitale per migliorare l’ecosistema e ridurre lo spam: ad esempio, abbiamo superato la versione beta di Rich Results Test per supportare meglio gli sviluppatori che lavorano con interessanti tipi di risultati multimediali di Google come Eventi o Offerte di lavoro”.

Aumentate anche le risorse che Google mette a disposizione di tutti: sul versante formativo, ad esempio, l’articolo cita la serie di guida all’utilizzo della Search Console che permette di “ottenere il massimo dagli strumenti che forniamo” e ricorda la migrazione di tutti i blog della compagnia per centralizzare le risorse, confluite nel nuovo Centro Ricerca Google. Infine, per garantire un supporto migliore, l’azienda ha lanciato un nuovo canale di supporto per segnalare problemi di sicurezza persistenti causati da malware, hack o download dannosi, rivelando di aver ricevuto un’ampia serie di segnalazioni che poi si sono risolte positivamente per i proprietari di siti.

Il coinvolgimento della comunità

Nel 2020 ci sono stati anche quasi 40mila post sottoposti da proprietari di siti nella community di assistenza di Search Central, che continua a fornire supporto alle domande e a risolvere i problemi, dimostrandosi in grado di “aiutare le aziende di tutte le dimensioni a migliorare la loro presenza online o affacciarsi per la prima volta”.

Sul fronte pratico, Google ha ampliato la comunità globale per includere nel 2020 arabo, cinese (semplificato), polacco e turco e ora supporta 17 lingue.

Oltre a cinque eventi di persona che è stato possibile organizzare all’inizio del 2020, nel prosieguo dei mesi Google ha trovato nuovi modi di riunione e ha ospitato oltre 50 eventi online e tenuto più di 80 sessioni di office hour online; inoltre, ha lanciato i Search Central Lightning Talks e i Product summit, fruibili comodamente da casa, e ha avviato podcast Search Off the Record e il primo Virtual Webmaster Unconference.

Come proteggere il sito dallo spam

Oltre agli sforzi di Google, anche i proprietari di siti devono fare la propria parte per contribuire a creare un Web più sicuro e privo di spam, e un secondo articolo del Search Quality Team si concentra proprio sulle indicazioni pratiche per evitare in anticipo che ci possano essere violazioni indesiderate.

Un elemento da non trascurare è l’aggiornamento costante dei software, con rilevanza particolare agli aggiornamenti di sicurezza importanti, perché “gli spammer possono sfruttare i problemi di sicurezza nelle versioni precedenti di blog, bacheche e altri content management systems”.

Il consiglio diretto è di usare alcuni sistemi anti-spam completi come Akismet, che “dispongono di plugin per molti blog e sistemi di forum che sono facili da installare e svolgono la maggior parte del lavoro di lotta allo spam” in modo automatico; inoltre, per alcune piattaforme “sono disponibili plugin di sicurezza affidabili e ben noti, che aiutano ad assicurare il sito Web e potrebbero essere in grado di rilevare gli abusi in anticipo”.

Il problema con lo spam UGC

Uno dei problemi più urgenti è lo spam UGC, ovvero quello generato dagli utenti nei possibili canali di interazione sui siti: forum, guestbook, piattaforme di social media, uploader di file, servizi di hosting gratuiti o servizi di ricerca interna.

Gli spammer, infatti, “spesso traggono vantaggio da questi tipi di servizi per generare centinaia di pagine di spam che aggiungono poco o nessun valore al web”, esponendo lo stesso sito a un rischio: secondo i principi stabiliti nelle Istruzioni per i webmaster di Google, infatti, queste situazioni potrebbero comportare l’adozione di azioni manuali da parte di Google sulle pagine interessate.

Contenuti spam di questo tipo possono essere dannosi per il sito e gli utenti in diversi modi:

I contenuti di bassa qualità in alcune parti di un sito Web possono influire sul posizionamento dell’intero sito.
I contenuti spam possono potenzialmente portare gli utenti a contenuti indesiderati o addirittura dannosi, come siti con malware o phishing, che possono ridurre la reputazione del sito.
Il traffico involontario proveniente da contenuti non correlati sul sito può rallentare il sito stesso e aumentare i costi di hosting.
Google potrebbe rimuovere o retrocedere le pagine invase da spam generato da terze parti per proteggere la qualità dei risultati di ricerca complessivi.

I suggerimenti per bloccare gli spammer sul sito

Anche questo articolo offre quindi una serie di suggerimenti pratici per impedire agli spammer di avere accesso e compiere abusi su un sito, che ricalcano le indicazioni ufficiali di Google (ma offrono anche spunti ulteriori).

Impedire la creazione automatica di account

Quando gli utenti creano un account sul sito, sarebbe meglio implementare un servizio CAPTCHA gratuito di Google o strumenti di verifica simili (ad esempio: Securimage o Jcaptcha) per consentire la richiesta solo da parte di persone vere e impedire che script automatici generino account e contenuti sulle piattaforme pubbliche del sito.

Un’altra soluzione è richiedere ai nuovi utenti di convalidare la registrazione attraverso un indirizzo email reale, perché così si può impedire a molti bot di spam di creare automaticamente account. Ancora, possiamo impostare filtri per bloccare indirizzi e-mail sospetti o provenienti da servizi e-mail di cui non ci fidiamo.

Attivare le funzioni di moderazione

È utile abilitare le funzionalità di moderazione alla creazione di commenti e profili, che richiedono agli utenti di avere una certa reputazione prima che i link possano essere pubblicati. Se possibile, si consiglia di modificare le impostazioni in modo da non consentire la pubblicazione anonima e sottoporre i post di nuovi utenti ad approvazione prima che siano visibili pubblicamente.

Monitorare il sito per trovare contenuti di spam e ripulire eventuali problemi

Google suggerisce di utilizzare la Search Console per monitorare la situazione del sito, controllando in particolare il rapporto Problemi di sicurezza e il rapporto Azioni manuali per verificare se sono stati rilevati problemi e il pannello Messaggi per ottenere ulteriori informazioni.

Inoltre, è bene controllare periodicamente il sito alla ricerca di contenuti imprevisti o spam utilizzando l’operatore site: in Ricerca Google, insieme a parole chiave commerciali o per adulti che non sono correlate all’argomento del sito. Ad esempio, dice l’articolo, “cercare [site:your-domain-name viagra] o [site:your-domain-name watch online] permette di rilevare i contenuti non pertinenti sul sito”, e in particolare:

Testo fuori contesto o link fuori tema con l’unico scopo di promuovere un sito web o servizi di terze parti (ad esempio, “download / visione di film gratuiti online”).
Testo senza senso o generato automaticamente (non scritto da un utente reale)
Risultati di ricerca interna in cui la query dell’utente appare fuori tema con lo scopo di promuovere un sito Web / servizi di terze parti.

Un altro consiglio è di monitorare i file di registro del server web per identificare improvvisi picchi di traffico, in particolare per le pagine appena create, concentrandosi ad esempio sugli URL con parole chiave nei pattern URL che sono completamente irrilevanti per il sito. Per identificare potenziali URL problematici ad alto traffico, possiamo usare il rapporto Pagine in Google Analytics.

Infine, possiamo bloccare preventivamente la pubblicazione di contenuti ovviamente inappropriati sulla nostra piattaforma con un elenco di termini contenenti spam (ad esempio: streaming o download, per adulti, gioco d’azzardo, termini correlati a farmaci) usando funzionalità o i plugin integrati che possono eliminare o contrassegnare questi contenuti come spam. In tal senso, Google ricorda che su Google Alert si può impostare un avviso come [site:your-domain-name spammy-keywords], utilizzando parole chiave commerciali o per adulti che non ci aspettiamo di vedere sul sito, e che inoltr “Google Alert è anche un ottimo strumento per rilevare le pagine compromesse”.

Identificare e chiudere gli account spam

Il web server log può servire anche a studiare le registrazioni degli utenti e identificare alcuni classici pattern di spam, come:

Un gran numero di moduli di iscrizione completati in breve tempo.
Numero di richieste inviate dallo stesso intervallo di indirizzi IP.
User Agent imprevisti utilizzati durante la registrazione.
Nomi utente senza senso o altri valori inviati senza senso durante la registrazione. Ad esempio, nomi utente commerciali (nomi come “Download gratuito di film”) che non sembrano veri nomi umani e rimandano a siti non correlati.

Impedire alla Ricerca Google di mostrare o seguire contenuti non attendibili

Se il nostro sito consente agli utenti di creare pagine come pagine di profilo, thread di forum o siti web, possiamo scoraggiare l’abuso di spam impedendo alla Ricerca Google di mostrare o seguire contenuti nuovi o non attendibili.

Ad esempio, possiamo utilizzare il meta noindex per bloccare l’accesso a pagine non attendibili, oppure il disallow in robots.txt per bloccare temporaneamente le pagine. Possiamo anche contrassegnare come UGC i link ai contenuti generati dagli utenti, come commenti e post del forum, utilizzando rel=”ugc” o rel=”nofollow”, così da spiegare a Google il rapporto con la pagina collegata e a richiedere di non seguire quel collegamento.

Consolidare il contenuto della piattaforma aperta in un percorso di file o directory concentrato

Con script o software automatizzati, gli spammer possono generare un gran numero di pagine di spam sul sito in breve tempo; alcuni di questi contenuti possono essere ospitati in percorsi di file o directory frammentati, che impediscono ai proprietari dei siti di rilevare e ripulire efficacemente lo spam.

Ne sono esempi:

example.com/best-online-pharma-buy-red-viagra-online
example.com/free-watch-online-2021-full-movie

È quindi consigliabile consolidare i contenuti generati dagli utenti in un percorso di file o directory concentrato per facilitare la manutenzione e il rilevamento dello spam. Un percorso di file consigliato è:

example.com/user-generated-content-dir-name/example01.html
example.com/user-generated-content-dir-name/example02.html

Prevenire lo spam sul sito per evitare azioni manuali

In definitiva, quindi, i due articoli confermano che Google sta proseguendo la sua battaglia contro lo spam nei risultati di ricerca e che tutti devono fare la propria parte.

I proprietari di siti, in particolare, sono chiamati a vigilare sulla sicurezza delle proprie pagine, anche perché i rischi in caso di violazione sono piuttosto elevati.

Quello che attualmente è un “consiglio” a monitorare le pagine ed evitare spam UGC potrebbe anche rivelarsi una sorta di avvertimento in anticipo sull’intenzione di Google di spingere con maggiore insistenza sulle azioni manuali come “deterrente” alla presenza di contenuti, link e profili utente spam sui siti.