Hoe een grote site te crawlen en gegevens te extraheren met de SEO Spider van Screaming Frog

Screaming Frog SEO Spider

We staan ​​momenteel verschillende klanten bij Marketo-migraties. Aangezien grote bedrijven dergelijke bedrijfsoplossingen gebruiken, is het als een spinnenweb dat zich jarenlang in processen en platforms verweeft… tot het punt dat bedrijven zich niet eens bewust zijn van elk contactpunt.

Met een marketingautomatiseringsplatform voor ondernemingen zoals Marketo zijn formulieren het toegangspunt van gegevens op sites en op bestemmingspagina's. Bedrijven hebben vaak duizenden pagina's en honderden formulieren op hun sites die moeten worden geïdentificeerd om bij te werken.

Een geweldig hulpmiddel hiervoor is Screaming Frog's SEO Spider... misschien wel het meest populaire platform op de markt voor het crawlen, controleren en extraheren van gegevens van een site. Het platform is rijk aan functies en biedt honderden opties voor vrijwel elke taak die u nodig heeft.

Screaming Frog SEO Spider: kruipen en extraheren

Een belangrijk kenmerk van Screaming Frog SEO Spider is dat u aangepaste extracties kunt uitvoeren op basis van regex, XPathof CSSPad bijzonderheden. Dit is buitengewoon handig omdat we de sites van de klant willen crawlen en de MunchkinID- en FormId-waarden van pagina's willen controleren en vastleggen.

Open met de tool Configuratie> Aangepast> Extractie om elementen te identificeren die u wilt extraheren.

screamingfrog aangepaste extractie

Het extractiescherm maakt vrijwel onbeperkte gegevensverzameling mogelijk:

Screaming Frog SEO Spider Extraction-regels

Regex, XPath en CSSPath Extraction

Voor de MunchkinID bevindt de identifier zich in het formulierscript dat zich op de pagina bevindt:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

We passen dan een Regex-regel om de id vast te leggen vanuit de scripttag die op de pagina is ingevoegd:

Regex: ["']id["']: *["'](.*?)["']

Voor de formulier-ID bevinden de gegevens zich in een invoertag in het Marketo-formulier:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

We passen een XPath-regel om de id vast te leggen vanuit het formulier dat op de pagina is ingevoegd. De XPath-query zoekt naar een formulier met een invoer met de naam formidabel, dan slaat de extractie het waarde:

XPath: //form/input[@name="formid"]/@value

Screaming Frog SEO Spider Javascript-weergave

Een andere geweldige optie van Screaming Frog is dat je niet beperkt bent tot de HTML op de pagina, maar dat je elk JavaScript kunt renderen dat formulieren op je site gaat invoegen. Binnen Configuratie> Spider, kunt u naar het tabblad Rendering gaan en dit inschakelen.

Screaming Frog SEO Spider Javascript-weergave

Dit duurt natuurlijk iets langer om de site te crawlen, maar u krijgt formulieren die door JavaScript aan de clientzijde worden weergegeven, evenals formulieren die aan de serverzijde worden ingevoegd.

Hoewel dit een heel specifieke applicatie is, is het een ongelooflijk nuttige applicatie omdat u met grote sites werkt. U wilt absoluut controleren waar uw formulieren op de hele site zijn ingesloten.

Screaming Frog SEO Spider downloaden

Wat denk je?

Deze site gebruikt Akismet om spam te verminderen. Ontdek hoe uw reactiegegevens worden verwerkt.