Hogyan lehet feltérképezni egy nagy webhelyet és kivonni az adatokat a Screaming Frog SEO Spider segítségével
Jelenleg több ügyfelünknek is segítünk a Marketo migrációval kapcsolatban. Mivel a nagyvállalatok az ehhez hasonló vállalati megoldásokat alkalmazzák, ez olyan, mint egy pókháló, amely éveken keresztül folyamatokba és platformokba szövi magát, amíg a vállalatok még csak nem is ismernek minden érintkezési pontot.
Egy olyan vállalati marketingautomatizálási platformon, mint a Marketo, az űrlapok jelentik az adatok belépési pontját a webhelyeken és a céloldalakon. A vállalatok webhelyeiken gyakran több ezer oldal és több száz űrlap található, amelyeket azonosítani kell a frissítéshez.
Ehhez remek eszköz az Visító Frog SEO Spider… talán a legnépszerűbb platform a keresőoptimalizálási piacon a webhelyek feltérképezésére, auditálására és adatok kinyerésére. A funkciókban gazdag platform több száz lehetőséget kínál gyakorlatilag minden feladathoz, amire szüksége van. A szolgáltatások azonban jóval túlmutatnak a keresésre való optimalizáláson, és egy hihetetlenül hasznos funkcióval kinyerhetjük az adatokat a webhelyről a feltérképezés közben.
Screaming Frog SEO Spider: Feltérképezés és kivonat
A Screaming Frog SEO Spider egyik legfontosabb jellemzője, hogy ezek alapján egyedi kivonatokat hajthat végre regex, XPathvagy CSSPath konkrétumok. Ez rendkívül hasznos, mivel szeretnénk feltérképezni az ügyfél webhelyeit, és ellenőrizni és rögzíteni szeretnénk az oldalak MunchkinID és FormId értékeit.
Az eszközzel nyissa ki Konfiguráció> Egyéni> Kicsomagolás a kivonni kívánt elemek azonosításához.
A kinyerési képernyő gyakorlatilag korlátlan adatgyűjtést tesz lehetővé:
Regex, XPath és CSSPath kibontás
A MunchkinID esetében az azonosító az oldalon található űrlapszkriptben található:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
Ezután alkalmazzuk a Regex szabály az azonosító rögzítése az oldalon beillesztett szkriptcímkéből:
Regex: ["']id["']: *["'](.*?)["']
Az űrlapazonosító esetében az adatok a Marketo űrlapon lévő bemeneti címkében találhatók:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
Alkalmazunk egy XPath szabály hogy rögzítse az azonosítót az oldalba beillesztett űrlapon belülről. Az XPath lekérdezés olyan űrlapot keres, amelynek bemeneti neve a félelmetes, akkor az extrakció menti a érték:
XPath: //form/input[@name="formid"]/@value
Kivonat Inline Style Címkék
Segítünk egy kliensnek megtisztítani egy webhelyet, ahol az Elementor beépülő modulon belüli stílusokat használtak az oldal gyakorlatilag minden elemének testreszabásához. A soron belüli stílusok használatának meghatározásához a webhelyet több RegEx-szabállyal töröltük az egyéni kinyeréshez:
- Beépített stílus:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Horgonycímke soron belüli stílusa:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Div címke beágyazott stílusa:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Címsor címke soron belüli stílusa:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
Kizárások
At Martech Zone, az oldalt több nyelven, különböző aldomaineken szolgáljuk ki. A fordítások feltérképezése nem szükséges, mivel az összes eszköz és információ az alapwebhelyen alapul. Emiatt engedélyeztük a Kizárási lista konfigurációját, és hozzáadtuk a következő szabályt:
.*\.martech.zone
Használhatja azt is, hogy kihagyja a szükségtelen útvonalak, például a címkék feltérképezését a következő hozzáadásával:
martech.zone/tag/.*
Nem akarjuk feltérképezni az AMP-oldalainkat sem, amelyek a következőre végződnek: ?amp=1
, tehát a
https?://[^\s]+?\?amp=1
A platform még egy szép módszert is kínál néhány tesztelésére URL-ek megsérti a szabályokat, hogy a webhely feltérképezése előtt megbizonyosodjon arról, hogy megfelelően működnek.
Screaming Frog SEO Spider JavaScript renderelés
A Screaming Frog másik nagyszerű lehetősége az, hogy nem korlátozódik a HTML az oldalon bármilyen JavaScriptet előállíthat, amely űrlapokat szúr be a webhelyén. Belül Konfiguráció> Pók, akkor lépjen a Rendering fülre, és engedélyezze ezt.
Természetesen egy kicsit hosszabb ideig tart a webhely feltérképezése, de kap olyan formanyomtatványokat, amelyeket a kliens oldallá tesz a JavaScript, valamint a kiszolgálóoldali beillesztett űrlapokat.
Bár ez egy nagyon specifikus alkalmazás, hihetetlenül hasznos, mivel nagy webhelyekkel dolgozik. Feltétlenül ellenőriznie kell, hogy az űrlapok hol vannak beágyazva az egész webhelyre.
Letöltés Screaming Frog SEO Spider
Közzététel: Martech Zone ebben a cikkben a kapcsolódó linkjeit használja.