Recentemente mi sono trovato di fronte a una sfida SEO piuttosto ardua: la migrazione di un sito web molto datato, realizzato con un CMS poco conosciuto chiamato Zope. Il precedente sviluppatore, purtroppo, non era disponibile a fornirci il database per l’estrazione dei dati, il che ha reso il processo ancor più complesso, dato che il sito conteneva decine di migliaia di pagine.
La strategia di scrape e importazione
Vista la mancanza di cooperazione per l’accesso ai dati, dopo essermi consultato con il cliente, sono dovuto ricorrere alla metodologia del buon vecchio scraping per recuperare le informazioni essenziali dal sito.
Per questo lavoro ho ritenuto come strumento adeguato lo spider Screaming Frog. Questo strumento, solitamente utilizzato per fare delle scansioni degli errori di un sito, ha delle funzionalità molto potenti anche per l’estrazione dei dati da un sito web.
La funzione in questione si chiama Custom Extraction.
Le “Custom Extraction” di Screaming Frog sono una funzionalità avanzata del SEO Spider che ti permette di estrarre dati specifici da una pagina web durante la scansione del sito. Questo può includere qualsiasi elemento HTML, attributi o anche script inline utilizzando espressioni XPath, CSS Path o Regex (espressioni regolari).
I dati di cui avevo bisogno erano:
- URL precedente
- Title
- H1
- Contenuto del post
Tutti elementi cruciali per preservare il SEO value durante la migrazione.