Eine robots.txt gehört zu jeder guten Webseite dazu. Korrekt angelegt kann man über sie kontrollieren, welche Bereiche einer Webseite von einem Robot bzw. Crawler durchsucht werden dürfen. Robots sind hierbei als Programme zu verstehen, die Webseiten nach Inhalten durchforsten.
Der Dateiname “robots.txt” muss zwingend in Kleinbuchstaben gespeichert werden. Außerdem ist es wichtig, dass die Textdatei direkt in das Hauptverzeichnis der Webseite gespeichert wird. Bearbeiten kann man die Datei mit jedem beliebigen Texteditor.
Mittels User-agent legt man fest, für welchen Robot der anschließende Befehl gelten soll. Das * Zeichen bedeutet, dass hier alle Robots gemeint sind. Disallow: / drückt somit aus, dass allen Robots untersagt wird, die komplette Webseite zu durchsuchen.
User-agent: *
Disallow: /
Eine Angabe wie Disallow: /ordner/ verhindert nur das Durchsehen des Ordners und kann für weitere Ordner beliebig oft wiederholt werden.
In der Regel werden von jedem Robot vor dem Durchsuchen der Webseite die robots.txt und darin enthaltene Befehle abgefragt. Allerdings können Robots die robots.txt ignorieren. Insbesondere Robots, die Webseiten nach Sicherheitslücken oder e-Mail Adressen scannen, lassen sich nicht von solch einem “Verbot” stören.
Mehr zur Syntax
Das folgende Beispiel erlaubt dem “Googlebot”, die Webseite komplett zu durchsuchen. Im Vergleich dazu dürfen “Googlebot-Image” und “Slurp” aber keine Vorschaubilder scannen. Dem “msnbot” ist es untersagt den Downloadordner sowie die default.html zu durchsuchen. Für alle übrigen Robots wurde die Website Indexierung in diesem Beispiel komplett gesperrt.
User-agent: Googlebot
Disallow:
User-agent: Googlebot-Image
User-agent: Slurp
Disallow: /images/thumbnails/
User-agent: msnbot
Disallow: /downloads/
Disallow: /default.html
# allen anderen Robots das Durchsuchen verbieten
User-agent: *
Disallow: /
Wichtig ist bei diesem Beispiel, dass zuerst die spezifischen Angaben zu einem Robot aufgeführt werden müssen, bevor zum Schluss die allgemeine Regel eingebaut wird. Ein Robot liest nämlich nur das Segment, welches für ihn gilt. Würde die allgemeine Regel oben stehen, dann dürfte kein Robot die Seite scannen, da er den spezifischen Eintrag weiter unten nicht lesen würde.
Mit dem # Zeichen werden Kommentare eingeleitet, die an jeder Stelle erlaubt sind. Leerzeilen sind allerdings nur über der Zeile “User-agent” gestattet. Regeln für einen Robot müssen ein zusammenhängendes Segment ergeben und dürfen nicht durch Leerzeilen unterbrochen werden.
Weiterführende Informationen hält die Seite robotstxt.org bereit. Hier ist auch eine Liste von mehreren Hundert Robots sowie eine Syntax-Prüfung zu finden.
2 Kommentare zu " robots.txt erstellen "
Pingback & Trackback
Kommentieren