European Business Connect Blog » 2020 » März

Archiv für 27. März 2020

robots.txt: Sinn und Bearbeitung der .txt-Datei

Freitag, 27. März 2020

Die Aufgabe einer robots.txt-Datei ist es, Bots vorzugeben, welche Seite diese crawlen sollen und welche sie beim Crawling nicht berÃ¼cksichtigen mÃ¼ssen. Bei diesem Datei-Typ handelt es sich um eine normale .txt-Datei, die UTF-8-kodiert wird. Auf die UTF-8-Kodierung sollte man auf jeden Fall achten, denn Fehler oder LÃ¼cken im Code fÃ¼hren dazu, dass der Bot diese nicht richtig interpretiert, worunter auch die weitere Bearbeitung leiden wÃ¼rde.

Google gibt als maximale GrÃ¶ÃŸe von robots-txt-Dateien 500kB an. Die in der Datei aufgelisteten Regeln gelten ausschlieÃŸlich fÃ¼r den Server, auf dem die Datei sich befindet. Ablegen sollte man die robots-txt im Kernkatalog, zum Beispiel so: http://seo-kueche.de/robots.txt.

So funktioniert die robots-txt Datei

Eine der nachfolgenden Anweisungen erhÃ¤lt der Bot wenn er die Instruktionen bearbeitet:

2xx â€“ die Anfrage war erfolgreich:

AbhÃ¤ngig von der Abfragemethode beinhaltet die Antwort die angefragten Daten.

3xx â€“ Umleitung:

Auf der Suche nach neuen Antworten nimmt der Suchroboter eine Umleitung. In der Regel versucht der Bot fÃ¼nf Mal, eine andere Antwort zu finden. Ist er dabei nicht erfolgreich, erscheint 404 als Fehlermeldung.

4xx â€“ Client Fehler:

Der Suchroboter geht bei dieser Anweisung davon aus, dass er den kompletten Inhalt der Website crawlen soll.

5xx â€“ Server-Fehler:

Der Bot erkennt hier einen Fehler am Server und damit ein Verbot, die Website oder Teile dieser zu scannen. Auf der Suche nach einer anderen Antwort, wendet sich der Suchroboter der betreffenden Datei so lange zu, bis er erfolgreich ist. Dabei kann er selbst entscheiden, ob die fehlende Seite richtig rÃ¼ckgemeldet wird oder nicht. So kann eine 5xx-Seite als Seite mit 404 Status-Code bewertet und bearbeitet werden.

Notwendigkeit und Sinn der robot.txt Datei

Jede Website sollte eine Datei des Typs robots.txt haben. Denn damit kann man dem Crawler gezielt bei der Suche nach der Sitemap.xml helfen. Zudem kann man mit der Datei dafÃ¼r sorgen, dass Suchmaschinen Scripts oder Verzeichnisse finden. Durch die MÃ¶glichkeit, nicht zu indexieren, kann man auÃŸerdem doppelte Inhalte vermeiden, beispielsweise bei HTML Dateien und deren zugehÃ¶rigen Druckversionen.

Selbst wenn man eine Seite vom Index ausschlieÃŸt, kann es passieren, dass sie dennoch in den Suchergebnissen auftaucht. Durch einen Verweis von einer anderen Seite kann sie nÃ¤mlich ungewollt in den Index rutschen. Das kann man aber ganz einfach vermeiden, indem man die betreffende Seite so bezeichnet:

Regeln und Anweisungen fÃ¼r die robots-txt Datei

User-agent:

Diese Regel legt fest, welcher Bot die Anweisungen in der robots-txt durchforsten muss.

Allow:

Mit dieser Regel kann man dem Bot mitteilen, welche Seite oder welches Verzeichnis er scannen darf.

Disallow:

Diese Klausel legt fest, welche Seiten der Suchroboter nicht durchsehen muss.

Sitemap:

So teilt man dem Bot mit, dass die beinhalteten URLs in den Index gesetzt werden sollen.

Crawl-delay:

Hier kann man einen Kennwert eingeben, der festlegt, Ã¼ber welchen Zeitraum hinweg der Suchroboter die Website und ihre Seiten scannen kann.

Fazit

Die robots-txt Datei ist maÃŸgeblich fÃ¼r den Erfolg einer Website. Mit ihrer Hilfe kann man dem Suchroboter nÃ¤mlich vorgeben, unter welchen Voraussetzungen er Seiten crawlen darf und welche Seiten oder Verzeichnisse er scannen soll, zum Beispiel indem man Pfade, Elemente, Seiten & Co. Indexiert oder sie vom Index ausschlieÃŸt.

Veröffentlicht in Suchmaschinenoptimierung | Keine Kommentare »

Seiten

Startseite Blog
Startseite Branchenverzeichnis

Archive
- Februar 2024
- Januar 2024
- Dezember 2023
- Oktober 2023
- September 2023
- August 2023
- Juni 2023
- April 2023
- Februar 2023
- Januar 2023
- Dezember 2022
- November 2022
- September 2022
- Juli 2022
- Mai 2022
- April 2022
- März 2022
- Januar 2022
- Dezember 2021
- November 2021
- Oktober 2021
- September 2021
- August 2021
- Juni 2021
- Mai 2021
- April 2021
- Februar 2021
- Januar 2021
- Dezember 2020
- November 2020
- September 2020
- August 2020
- Juli 2020
- Mai 2020
- April 2020
- März 2020
- Januar 2020
- November 2019
- Oktober 2019
- September 2019
- August 2019
- Juni 2019
- Mai 2019
- März 2019
- Februar 2019
- Januar 2019
- November 2018
- Oktober 2018
- September 2018
- Juli 2018
- Mai 2018
- April 2018
- Februar 2018
- Dezember 2017
- Oktober 2017
- August 2017
- Juni 2017
- März 2017
- Februar 2017
- Januar 2017
- November 2016
- Oktober 2016
- September 2016
- August 2016
- Juli 2016
- Mai 2016
- März 2016
- Februar 2016
- Dezember 2015
- November 2015
- Oktober 2015
- September 2015
- August 2015
- Juli 2015
- Juni 2015
- Mai 2015
- April 2015
- März 2015
- Februar 2015
- Januar 2015
- Dezember 2014
- November 2014
- Oktober 2014
- September 2014
- August 2014
- Juli 2014
- Juni 2014
- Mai 2014
- April 2014
- März 2014
- Februar 2014
- Januar 2014
- Dezember 2013
- Oktober 2013
- September 2013
- August 2013
- Juni 2013
- April 2013
- März 2013
- Februar 2013
- Januar 2013
- Dezember 2012
- November 2012
- September 2012
- August 2012
- Juli 2012
- Juni 2012
- November 2011
- März 2011
- Juni 2010
- März 2010
- November 2009
- September 2009
- Juli 2009
- Mai 2009
- April 2009
- Februar 2009
- Dezember 2008
- Oktober 2008
- August 2008
- Juli 2008
- April 2008
- März 2008
Kategorien
- Allgemein (39)
- Backlink Checker (15)
- Branchenbuch (20)
- Branchenverzeichnis (14)
- Firmenportale (12)
- Industriefirmen (12)
- Online-Marketing (31)
- Suchmaschinenoptimierung (98)
- Webkatalog (12)
- Webverzeichnis (12)

Kalender
März 2020

M D M D F S S

« Jan Apr »

1

2 3 4 5 6 7 8

9 10 11 12 13 14 15

16 17 18 19 20 21 22

23 24 25 26 27 28 29

30 31

März 2020
M	D	M	D	F	S	S
« Jan				Apr »
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Branchenbuch