Sito hackerato: eliminare velocemente migliaia di URL da Google

Conosci il modo di dire “il calzolaio ha sempre le scarpe rotte“? Da sviluppatori web noi non siamo da meno e nel Settembre 2021 abbiamo trovato il nostro sito WordPress hackerato.

Chiariamo subito: hackerato non è il termine corretto da utilizzare, ma il risultato di questa violazione ha prodotto migliaia di pagine SPAM e in questi casi, seppur erroneamente, si parla di “attacco hacker“.

Da tempo non aggiornavamo alcuni plugin del nostro WordPress e una falla di sicurezza in uno di questi ha permesso la generazione di migliaia di pagine spazzatura sul nostro www.ma2.it

Queste pagine SPAM sono state velocemente lette da Google e prontamente indicizzate con uno sgradevole effetto collaterale: in 2/3 giorni le pagine “buone” del nostro sito sono scomparse dalle SERP (Search Engine Results Page, pagine dei risultati dwel motore di ricerca) Google che presidiavamo da tempo.

  Hai bisogno d’aiuto? CONTATTACI ORA

Da una semplice ricerca in Google, la situazione è apparsa subito chiara:

Eliminare migliaia di URL da Google di un sito hackerato
URL SPAM da eliminare dall’indice Google

 

Questa invece è la copia cache Google della pagina www.ma2.it/blog/ datata 6 Settembre 2021: ovviamente, sul nostro sito, non abbiamo mai venduto guantoni da baseball in Giappone!

Pagina WordPress SPAM da eliminare
Pagina WordPress SPAM da eliminare

 

Come rimuovere una pagina web dall’indice Google

Dopo aver ripristinato il sito, la rimozione di una pagina web da Google è una procedura piuttosto banale: è sufficiente infatti che il crawler del motore di ricerca scansioni nuovamente le pagine indesiderate e, nel momento in cui queste restituiranno come risposta uno status code HTTP 404 verranno rimosse dall’indice (questo perché nella pagina 404 che andremo a visualizzare al posto delle pagine indesiderate è impostato un meta tag name=”robots” content=”noindex”).

Facile a dirsi, vero ? Meno a farsi nella nostra situazione, perché come si nota dalla prima immagine in questa pagina il nostro sito www.ma2.it ora ha in indice oltre 7.000 pagine e recuperare l’elenco completo di queste 7.000 e più pagine per inviarle a Google e rimuoverle velocemente non è immediato.

  Il tuo sito ha lo stesso problema e vuoi risolverlo? CONTATTACI

Dopo aver sanato il sito, ciascuna delle 7.000 e più pagine spazzatura, ha “autonomamente” iniziato a restituire al crawler di Google la pagina 404 con conseguente (lenta) rimozione della stessa dall’indice, ma dato che nostra intenzione è rimuovere le pagine velocemente (soprattutto per ripristinare i posizionamenti perduti) abbiamo voluto velocizzare la procedura e da qui è nata questa guida.

La situazione è ancora più evidente in Google Search Console: 32 di pagine (le pagine “buone” del nostro sito) in indice sino al 7 Settembre 2021 che dal giorno successivo sono quasi 7.500.

Google Search Console pagine in indice
Google Search Console pagine in indice valide

 

Col passare dei giorni Google continua a scansionare le pagine spazzatura che l’8 Settembre hanno risposto con uno status code HTTP 200, trovando ora, correttamente, una pagina 404 come risposta e questo lo si nota dall’andamento decrescente del grafico dell’immagine qui sopra. Purtroppo la de-indicizzazione è molto lenta e per questo, il 21 Ottobre 2021, abbiamo deciso di velocizzarla.

 

Come trovare tutti gli URL delle pagine indicizzate di un sito hackerato ?

Primo step: trovare tutti gli URL delle pagine da rimuovere da Google.

Nel nostro caso sono URL come:

https://ma2.it/93160ad06/376-mai3iam76.html

https://ma2.it/a6e234c19/17987-v3rm36691r3v023245.html

https:// www.ma2/62936d2d6/nacole/cabinet/apd-messagecard300.gif

https://www.ma2/829485c83/nakajapan/cabinet/monbijou/introduction4/ourk105.jpg

 

Facile estrarne qualcuno: li vogliamo tutti, ma estrarre l’elenco completo degli URL da Google Search Console non è possibile perché pur potendo accedere alla schermata Copertura > Indicizzata, ma non inviata tramite la Sitemap lo strumento di esportazione non ci permette di ottenere più di 1.000 URL.

Lo stesso vale per le pagine Google: anche estraendo gli URL in indice navigando le SERP (è possibile farlo tramite un semplice bookmarklet JavaScript) non abbiamo ottenuto più di 400 / 600 URL unici da de-indicizzare, oltre che un sacco di duplicati da pulire con Excel o altro strumento.

L’elenco completo ed esaustivo lo possiamo trovare solo analizzando l’Access Log del web server che ospita il nostro sito web. Per chi non lo sapesse l’Access Log è una sorta di registro testuale che raccoglie tutte le pagine navigate e il relativo codice di risposta (200, 404 o altro che sia) restituito dal server.

Estraendo i log del 7 Settembre 2021 abbiamo ottenuto una lista di  8.108 URL a cui il server ha risposto erroneamente con uno status code HTTP 200, ovvero le pagine che oggi vogliamo eliminare.

Elenco URL WordPress da eliminare da Google
L’analisi dei log per individuare gli URL indesiderati

 

In realtà, degli 8.108 URL trovati, alcune sono chiamate a risorse valide o duplicate, per questo, col buon Excel, abbiamo ripulito il listato – si, è un lavoraccio!

Con l’elenco degli URL da eliminare da Google ora siamo pronti a “costruire gli strumenti necessari” a velocizzare la de-indicizzazione delle pagine WordPress indesiderate del nostro sito.

Non dobbiamo infatti fare altro che assicurarci che Google scansioni questi URL e dobbiamo “invitarlo” a farlo, forzandogli la mano. Come ?

  Hai bisogno di assistenza per il tuo sito web? CONTATTACI ORA

Abbiamo due metodi per farlo:

  1. creare una sitemap contenente gli URL delle pagine da rimuovere (URL che ora restituiranno correttamente una 404 – meglio ripeterlo!)
  2. creare una semplice pagina HTML contenenti i link a questi URL

Come procedere? Nel primo caso aggiungere la nuova sitemap in Google Search Console, nel secondo caso o richiede la scansione della pagina HTML del sito sempre da Google Search Console oppure inserire il link a questa in una delle pagine “buone” del sito

Il risultato di tutte queste azioni porterà Google a scansionare le pagine indesiderate (sia che esse siano nella nuova sitemap oppure likate da una pagina che le raccoglie tutte). Dopo aver letto e scansionato le pagine indesiderate ora non troverà può come risposta uno status code HTTP 200, ma un 404 che porterà alla rimozione delle pagine indesiderate dall’indice. Quanto tempo ? Lo monitoreremo a partire da oggi (21 Ottobre 2021).

 

Quale tra i due metodi preferire ?

Dato che è nostra intenzione eliminare velocemente queste pagine noi li abbiamo utilizzati entrambi e, prossimamente, aggiorneremo questa pagina per valutarne i risultati.

Tra l’altro, uno dei motivi per cui questo articolo è stato pubblicato, è per invitare Google a scansionare una “nuova buona” pagina del nostro sito web, pagina nella quale abbiamo linkato la pagina contenente gli URL che vogliamo eliminare!

 

Quanto tempo ci vuole per de-indicizzare le pagine di un sito da Google

Trascorse 2 settimane dalla pubblicazione di questo articolo e dalla messa in atto della strategia sopra descritta, valutiamo lo stato di rimozione degli URL spammosi dall’indice Google.

Il comando site: al 5 Novembre 2021, per la prima volta, restituisce 5.050 pagine in indice. La de-indicizzazione è in atto, anche se l’attendibilità del comando site: sappiamo essere limitata.

Al 15 Novembre, al comando site:, Google indica 2.580 pagine in indice.

Più significativo (e utile da monitorare) è lo stato del sito da Google Search Console:

Rimozione pagine indice Google
Rimozione pagine indice Google: lo stato della situazione da Google Search Console

 

Delle oltre 7.000 pagine spazzature in indice, al 2 Novembre 2021 (Google Search Console è sempre in ritardo di qualche giorno) ne troviamo “solo” 3.465. La rimozione (o de-indicizzazione) procede “a gradini” nonostante Google quotidianamente scansioni le pagine del nostro sito (sia URL “buoni e validi” che URL spam e da rimuovere).

 

Dal metà Novembre 2021 in poi la procedura di de-indicizzazione si è fatta via via sempre più lenta e oltre 2.500 pagine spammose erano ancora in indice Google. Abbiamo quindi voluto “dare un’accelerata” a questo processo. Purtroppo però il tempo da dedicare al nostro sito non ne abbiamo molto e, ritardo dopo ritardo, siamo riusciti a mettere in atto un ultimo intervento solo il 23 Dicembre 2021.

Da qui, forzando Google ad una “scansione approfondita” del nostro sito, la de-indicizzazione si è fatta molto più rapida e oggi, 18 Gennaio 2022, la situazione si è normalizzata.

Sono poco più di 30 le pagine del nostro sito in indice Google, come è giusto che sia. E i posizionamenti ? Anche questi recuperati con estremo piacere !

Le pagine del nostro sito indicizzate in Google nel Gennaio 2022
Le pagine del nostro sito indicizzate in Google nel Gennaio 2022

Tutto chiaro? 🙂 Se hai dubbi o domande ti aspettiamo nei commenti.

 CONTATTI

 

PS: per velocizzare ancor maggiormente la de-indicizzazione delle pagine è buona cosa che il tuo sito sia particolarmente prestante e restituisca il più velocemente possibile le risorse richieste dal crawler di Google, ma questo già rientra nelle buone pratiche SEO moderne.

Lascia un commento