Robots.txt

Was ist die robots.txt-Datei? Einfach erklärt!

Robots.txt ist eine Dokumentationsdatei nach Industriestandard, die Webcrawlern und Suchmaschinen vorgibt, welche Teile einer Website für die Indizierung freigegeben sind. Sie legt fest, auf welche Teile der Website automatisierte Programme oder Bots, wie sie von Suchmaschinen verwendet werden, nicht zugreifen dürfen. Die robots.txt-Datei enthält Anweisungen, die Bots befolgen müssen, um erfolgreich auf die Website zugreifen zu können. 

Wenn ein Bot die Website besucht, prüft er, ob eine robots.txt-Datei vorhanden ist, bevor er auf den Hauptinhalt der Website zugreift, und hält sich an alle Anweisungen in der Datei, bevor er weitergeht. Dies kann hilfreich sein, wenn eine Website bestimmte sensible Informationen davor schützen muss, versehentlich indexiert zu werden, oder wenn eine große Anzahl von Seiten von der Aufnahme in die Suchmaschinenergebnisse ausgeschlossen werden soll.

Wo ist die robots.txt zu finden? 

Die robots.txt befindet sich im Stammverzeichnis von Websites. Es ist ganz einfach, die robots.txt zu finden – rufe einfach die Hauptdomain deiner Website auf (z. B. www.beispiel.de/robots.txt) und du solltest die Informationen erhalten. Wenn du sie dort nicht findest, musst du vielleicht in anderen Unterverzeichnissen wie /pages/ nachsehen. Einige Hosting-Anbieter bieten auch die Möglichkeit, eine robots.txt-Datei über die Benutzeroberfläche zu erstellen, zu bearbeiten oder zu deaktivieren, um den Komfort zu erhöhen.

Warum ist sie so wichtig? 

Die robots.txt ist ein wichtiger Bestandteil der Website-Verwaltung und der Suchmaschinenoptimierung, denn damit können Website-Besitzer Vorgaben erstellen, welche Teile der Website von Suchmaschinen gecrawlt werden. Die robots.txt-Datei ist auch ein wichtiges Instrument, um Probleme mit doppelten Inhalten zu vermeiden. Da einige Webcrawler unbeabsichtigt auf mehrere Versionen derselben Seite zugreifen und diese indexieren können, hilft die robots.txt-Datei, dies zu verhindern. Das  Robots-Exclusion-Standard-Protokoll legt fest, dass ein Webcrawler auf einer Webseite zuerst die Datei robots.txt ansteuert.

Funktionsweise der robots.txt

Die robots.txt-Datei gehört zu den ersten Dateien, die von Webcrawlern angesteuert wird. In der Datei wird festgelegt, welche URLs der Webseite indexiert werden dürfen und welche von der Indexierung ausgeschlossen werden sollen. Dies stellt aber keinen Garanten dar, da die ausgeschlossenen URLs auch über andere Webseite angesteuert werden könnten und über diese Links indexiert werden können. Solche kompletten Ausschlüsse können aber auch über andere Wege, wie bestimmte Tags, realisiert werden. 

Aufbau der robots.txt

Eine robots.txt ist meistens relativ einfach aufgebaut. Dies wird in folgendem Beispiel mit zwei Regeln ersichtlich: 

user-agent: googlebot

disallow: /nogooglebot/

user-agent: *

allow: /

sitemap: https://www.beispiel.de/sitemap.xml

Sinngemäß können diese Anweisungen wie folgt gelesen werden:

  • Wenn der User-Agent googlebot auf die Webseite zugreift, darf er keine URLs indexieren, die mit https://www.beispiel.de/nogooglebot/ anfangen.
  • Der zweite Block dieser Anweisung besagt, dass alle anderen User-Agents die komplette Webseite ohne weitere Einschränkungen indexieren können. Da dies standardmäßig der Fall ist, könnte diese Anweisung auch einfach weggelassen werden.
  • Der dritte Block verweist auf den Speicherort der XML-Sitemap-Datei. Diese Datei enthält eine Auflistung aller Unterseiten der Website in Link-Form, was die weitergehende Erfassung für den Crawler vereinfacht.

Syntax der robots.txt

Die Syntax ist ebenfalls relativ einfach aufgebaut und umfasst nur wenige Befehle. Die Regeln werden in Regelsätzen gruppiert. Dies dient unter anderem auch der Übersichtlichkeit. Jeder Regelsatz kann mehrere Anweisungen in je einer Zeile enthalten und beginnt immer mit dem User-Agent-Befehl, der angibt, für wen die Anweisung gelten soll. Wenn hier keine Einschränkung erfolgen soll, kann der Befehl user-agent: * verwendet werden. Mit dieser Wildcard haben dann alle Crawler und User-Agents Zugriff auf die Webseite.

In jedem Regelsatz muss angegeben werden, für wen die Gruppe gilt, auf welche Verzeichnisse der Webseite zugegriffen werden darf und auf welche nicht. Diese Regelgruppen werden immer von oben nach unten abgearbeitet. Ein User-Agent kann immer nur eine Regelgruppe verarbeiten, sodass es sinnvoll ist, alle Anweisungen für einen bestimmten User-Agent in einer Gruppe zusammenzufassen.

Über die Anweisungen Allow und Disallow wird gesteuert, welche Verzeichnisse zugänglich sind (allow: /Verzeichnis/) und welche gesperrt werden sollen (disallow: /Verzeichnis/). Sollen nur bestimmte Dateien freigegeben oder gesperrt werden, können diese über die Angabe des Dateityps gefolgt von einem Dollarzeichen festgelegt werden. Um z. B. PDF-Dateien zu verbieten, kann die Anweisung disallow: /*.pdf$ verwendet werden.

Mit dem Sitemap-Befehl wird der Speicherort der sitemap.xml angegeben, sofern diese für die Webseite erstellt wurde. Dieser Befehl ist nur sinnvoll, wenn die Datei auch existiert, ansonsten kann er weggelassen werden. Mit # können eigene Kommentare in der Datei eingetragen werden, die nicht verarbeitet werden. So können z. B. Regeln vorübergehend auskommentiert und damit außer Betrieb gesetzt werden.

Bis September 2019 konnten zusätzlich die Befehle noindex, nofollow und crawl-delay verwendet werden. Mit noindex konnte eine Seite komplett aus der Indexierung ausgeschlossen werden, teilweise wurden diese Seiten sogar komplett gelöscht, wenn sie bereits im Index vorhanden waren. Nofollow sorgte dafür, dass Crawler keinen Links auf der Seite mehr folgten und die Ziel-URLs nicht mit indexiert wurden. Mit crawl-delay konnte festgelegt werden, in welchen Zeitintervallen ein Crawler eine Webseite besuchen durfte. Beispielsweise konnte mit crawl-delay: 10 geregelt werden, dass der Crawler nur alle 10 Sekunden eine Unterseite der Webseite abrufen durfte, um den Server vor Überlastungen zu schützen.

Erstellung einer eigenen robots.txt-Datei

Die Erstellung deiner eigenen robots.txt ist ein ziemlich unkomplizierter Prozess, der in wenigen Schritten erledigt werden kann. 

  1. Öffne zunächst deinen bevorzugten Texteditor, z. B. Notepad, und erstelle eine neue Textdatei.
  1. Diese Textdatei sollte robots.txt heißen (alles kleingeschrieben). Achte darauf, dass du sie als Nur-Text-Datei und als UTF-8 speicherst, so wird sie von den Suchmaschinenrobotern leicht gelesen und verstanden.
  2. Als Nächstes musst du entscheiden, welchen Robot/Crawler du mit der robots.txt-Datei ansprechen willst. Du kannst alle Suchmaschinen-Crawler angeben, wenn du möchtest, dass alle Robot-Besucher blockiert werden, oder du kannst bestimmte Crawler wie googlebot, bingbot oder msnbot auswählen.
  3. Für jeden oben genannten Robot/Crawler musst du spezifische Anweisungen hinzufügen, die der Robot beim Besuch deiner Website befolgen soll. Der folgende Code würde googlebot zum Beispiel sagen, dass er keine Seite auf deiner Website crawlen soll: user-agent: Googlebot Disallow: /
    Hinweis: Benutzer für jede Anweisungen eine neue Zeile, wenn du mehrere Regeln für verschiedene Robots/Crawler in dieselbe Datei einfügst.
  4. Sobald du diese Anweisungen hinzugefügt hast, speicherst du das Textdokument zunächst als robots.txt auf deinem Rechner ab.

Upload und Prüfung einer robots.txt

Um die erstellte Datei für deine Webseite hochladen zu können, solltest du die Dokumentation deines Anbieters lesen, da der Vorgang bei den verschiedenen Hosting-Anbietern unterschiedlich sein kann. Zusammenfassend überträgst du die erstellte Datei von deinem Rechner in das Stammverzeichnis deiner Website – dort suchen die Suchmaschinen-Spider zuerst, wenn sie deine Website besuchen. Das typische Format dieses Pfades ist www.beispiel.de/robots.txt. Danach ist die robots.txt öffentlich zugänglich und für Crawler lesbar.  

Abschließend solltest du immer überprüfen, ob die Crawler deine Anweisungen sehen können und auch richtig interpretieren. Die Erreichbarkeit kannst du ganz einfach über einen privaten oder Inkognito-Tab und der Eingabe des Speicherorts, z. B. https:\\www.beispiel.de\robots.txt, testen. Die Lesbarkeit kannst du z. B. über Google mit dem Tool robots.txt-Tester oder über die Open-Source-Bibliothek von Google testen.

Auswirkungen der robots.txt in der SEO

Die Optimierung der Suchmaschinenoptimierung (SEO) beginnt mit dem Verständnis der Grundlagen, wie Suchmaschinen funktionieren. Die korrekte Erstellung und Verwendung einer robots.txt-Datei kann die Suchmaschinenoptimierung deiner Website verbessern. Sie sorgt dafür, dass qualitativ hochwertige Inhalte in der organischen Suche gut platziert werden, Probleme mit doppelten Inhalten verringert werden und die Ladegeschwindigkeit der Seite verbessert wird, da der Browser auf weniger Dateien zugreifen muss. Es ist jedoch wichtig, dass du bei der Erstellung dieser Datei vorsichtig vorgehst, da eine falsche Konfiguration dazu führen kann, dass nützliche Inhalte nicht indiziert werden, was zu einer schlechten Sichtbarkeit in den organischen Suchergebnissen führt.