Logfile-Analysen: Was tun Crawler auf der Website?
Für die Suchmaschinenoptimierung/SEO ist es wichtig zu wissen, wie sich der Crawler der Suchmaschine auf der eigenen Website verhält: welche URL wird oft gecrawlt, welcher HTTP-Statuscode ausgegeben, was behindert die Indexierung der Website? Logfile-Analysen können hier hilfreiche Antworten liefern.
Logfiles, die Spuren der Besucher
Logfiles sind die aufgezeichneten Zugriffe auf einen Server. Ob Suchmaschine, User oder Tool, alle Zugriffe hinterlassen einen Eintrag im Logfile des Servers. Während das Nutzerverhalten mittlerweile besser mit Tools wie Google Analytics interpretiert werden kann, sind Logfiles für die Crawler-Analyse immer noch ein guter Ausgangspunkt.
Wenn der Crawler die Datei nicht findet
Werden Website-Inhalte vom Crawler erst spät gefunden und indexiert, ist dies ein Wettbewerbsnachteil, der durch SEO-Maßnahmen korrigiert werden kann. Dazu muss der Crawling-Engpass aber erst erkannt werden. Meist handelt es sich dabei um ein Mix verschiedener Probleme, die den Bot an der Indexierung hindern.
Logfiles des Crawlers können gefiltert werden
Über die Reverse-DNS-Lookup der Windows Console kann über die Server-IP die Herkunft einer Anfrage als Googlebot bestimmt werden. Da die Zahl der Zugriffe aber Regionen erreichen kann, die kaum noch zu validieren sind, wird bei über 10 Mio. Zugriffen des Googlebot innerhalb eines Monats nur noch der IP-Bereich 66.249.*.*. analysiert. Ein Vergleich der Zugriffe mit den ‚Crawl Statistiken‘ der Google-Search-Console empfiehlt sich an dieser Stelle. Je länger der Betrachtungszeitraum und je umfangreicher die Daten, desto aussagekräftiger sind Auffälligkeiten und ‚Bottlenecks‘ im Crawling-Verhalten.
Userdaten zusammenfassen und extrahieren
Mit der Windows Console, GREP oder Terminal für Mac-User lassen sich die Daten zusammenfassen und auswerten. Dabei sind insbesondere Zugriffsdatum und Zeit, die vollständige Anfrage, Statuscode, Größe und der Useragent interessant. Mit Logfile-Analyse-Tools wie Screaming-Frog-Analyzer können die Datenelemente in weitere Bestandteile zerlegt werden.
Statuscode signalisiert strukturelle Schwierigkeiten
Der Statuscode ist die erste Antwort, die ein Crawler bei einem Seitenabruf erhält. Er teilt die Erreichbarkeit oder eine Weiterleitung einer URL mit, aber auch, wenn übermäßig viele URL nicht mit dem regulären 200er-Code aufgerufen werden. Weiterleitungen mit 301-Code sind zwar üblich, belasten aber das Crawelbudget. Temporäre 302-Weiterleitungen werden oft für permanente Weiterleitungen benutzt, wodurch die Ranking-Signale nicht auf die Ziel-URL übertragen werden. Zahlreiche 404-Codes für nicht auffindbare Inhalte können auf strukturelle Probleme der Website hinweisen. Weitere Statuscodes im 5er-Bereich deuten auf Schwierigkeiten mit der Serverarchitektur hin.
Parameter können Crawlereffizienz schwächen
Parameter für die Generierung spezieller Inhalte werden vom Crawler case-sensitiv interpretiert. Das bedeutet, dass jede Abweichung wie Groß- oder Kleinschreibung neu mit den einzelnen URL kombiniert wird. Solche URL müssen von der Indexierung ausgeschlossen werden, da sie Duplicate Content erzeugen und die Crawlereffizienz einschränken.
Weitere Spuren des Bots verraten viel über die Website-Sichtbarkeit
Weitere interessante Punkte, die sich aus einer Logfile-Analyse ergeben sind die Crawlfrequenz, die Crawltiefe in den Verzeichnissen, der Aufruf irrelevanter URLs oder die Frage ob Bing und Google beim Crawlen zu unterschiedlichen Ergebnissen kommen. Auch das häufigere Crawlen responsiver Websites im Rahmen von Googles Mobile-First-Index ist feststellbar. Weitere Analysedaten zu Traffic oder Backlinks lassen je nach Analyseziel weitere Rückschlüsse über das Crawl-Verhalten zu.
Logfile-Analyse ist nur ein Teil der SEO-Optimierung
Um Websites im Hinblick auf ihre Indexierung zu optimieren, ist neben einer Logfile-Analyse aber stets ein enger Zusammenhang mit SEO-abgestimmten Content und weiteren On- und Offpage-Maßnahmen erforderlich.