robots.txt: Sinn und Bearbeitung der .txt-Datei
Die Aufgabe einer robots.txt-Datei ist es, Bots vorzugeben, welche Seite diese crawlen sollen und welche sie beim Crawling nicht berücksichtigen müssen. Bei diesem Datei-Typ handelt es sich um eine normale .txt-Datei, die UTF-8-kodiert wird. Auf die UTF-8-Kodierung sollte man auf jeden Fall achten, denn Fehler oder Lücken im Code führen dazu, dass der Bot diese nicht richtig interpretiert, worunter auch die weitere Bearbeitung leiden würde.
Google gibt als maximale Größe von robots-txt-Dateien 500kB an. Die in der Datei aufgelisteten Regeln gelten ausschließlich für den Server, auf dem die Datei sich befindet. Ablegen sollte man die robots-txt im Kernkatalog, zum Beispiel so: http://seo-kueche.de/robots.txt.
So funktioniert die robots-txt Datei
Eine der nachfolgenden Anweisungen erhält der Bot wenn er die Instruktionen bearbeitet:
2xx – die Anfrage war erfolgreich:
Abhängig von der Abfragemethode beinhaltet die Antwort die angefragten Daten.
3xx – Umleitung:
Auf der Suche nach neuen Antworten nimmt der Suchroboter eine Umleitung. In der Regel versucht der Bot fünf Mal, eine andere Antwort zu finden. Ist er dabei nicht erfolgreich, erscheint 404 als Fehlermeldung.
4xx – Client Fehler:
Der Suchroboter geht bei dieser Anweisung davon aus, dass er den kompletten Inhalt der Website crawlen soll.
5xx – Server-Fehler:
Der Bot erkennt hier einen Fehler am Server und damit ein Verbot, die Website oder Teile dieser zu scannen. Auf der Suche nach einer anderen Antwort, wendet sich der Suchroboter der betreffenden Datei so lange zu, bis er erfolgreich ist. Dabei kann er selbst entscheiden, ob die fehlende Seite richtig rückgemeldet wird oder nicht. So kann eine 5xx-Seite als Seite mit 404 Status-Code bewertet und bearbeitet werden.
Notwendigkeit und Sinn der robot.txt Datei
Jede Website sollte eine Datei des Typs robots.txt haben. Denn damit kann man dem Crawler gezielt bei der Suche nach der Sitemap.xml helfen. Zudem kann man mit der Datei dafür sorgen, dass Suchmaschinen Scripts oder Verzeichnisse finden. Durch die Möglichkeit, nicht zu indexieren, kann man außerdem doppelte Inhalte vermeiden, beispielsweise bei HTML Dateien und deren zugehörigen Druckversionen.
Selbst wenn man eine Seite vom Index ausschließt, kann es passieren, dass sie dennoch in den Suchergebnissen auftaucht. Durch einen Verweis von einer anderen Seite kann sie nämlich ungewollt in den Index rutschen. Das kann man aber ganz einfach vermeiden, indem man die betreffende Seite so bezeichnet:
Regeln und Anweisungen für die robots-txt Datei
User-agent:
Diese Regel legt fest, welcher Bot die Anweisungen in der robots-txt durchforsten muss.
Allow:
Mit dieser Regel kann man dem Bot mitteilen, welche Seite oder welches Verzeichnis er scannen darf.
Disallow:
Diese Klausel legt fest, welche Seiten der Suchroboter nicht durchsehen muss.
Sitemap:
So teilt man dem Bot mit, dass die beinhalteten URLs in den Index gesetzt werden sollen.
Crawl-delay:
Hier kann man einen Kennwert eingeben, der festlegt, über welchen Zeitraum hinweg der Suchroboter die Website und ihre Seiten scannen kann.
Fazit
Die robots-txt Datei ist maßgeblich für den Erfolg einer Website. Mit ihrer Hilfe kann man dem Suchroboter nämlich vorgeben, unter welchen Voraussetzungen er Seiten crawlen darf und welche Seiten oder Verzeichnisse er scannen soll, zum Beispiel indem man Pfade, Elemente, Seiten & Co. Indexiert oder sie vom Index ausschließt.