Disallow einfach erklärt

Karin WagnerGeschäftsführerin Seokratie Österreich

Zuletzt aktualisiert: 13. Sep 2022

Disallow (abweisen) ist ein Befehl, der Crawlern verbietet eine Seite oder ganze Verzeichnisse sowie einzelne Dateien oder Dateiformate zu durchsuchen. Mit disallow kannst Du alle oder einzelne Crawler aussperren. Den Befehl disallow trägst Du in die Datei robots.txt ein.

Inhalt

Was ist die robots.txt?
- So ist die robots.txt aufgebaut
- Was ist, wenn Du keine robots.txt hast?
Wie trägst Du disallow in die robots.txt ein?
Bessere Alternativen zu disallow: noindex
Wann ist ein disallow sinnvoll?
- Das solltest Du zusätzlich beachten
Weiterführende Links

Was ist die robots.txt?

Die robots.txt ist eine Textdatei, die definiert, was auf Deiner Website gecrawlt werden darf. Sie kann mit jedem beliebigen Texteditor erstellt und bearbeitet werden. Du musst sie im Hauptverzeichnis Deiner Domain ablegen. Die Bots der Suchmaschinen halten sich auch (meist) an die Befehle in der robots.txt. Wenn Du Dir nicht sicher bist, ob Du eine robots.txt auf Deiner Website eingebaut hast, überprüfe es unter https://deinedomain.at/robots.txt. Die robots.txt ist immer öffentlich einsehbar. So findest Du auch die von Google unter https://www.google.de/robots.txt .

So ist die robots.txt aufgebaut

In der robotst.txt definierst Du die Regeln für die Crawler. Du kannst in Deiner robots.txt Datei mehrere Anweisungen festlegen. Jede Regel oder jede Gruppe von Regeln muss folgende Angaben enthalten:

Für wen (User agent) die Regel oder die Gruppe gilt.
Für welches Verzeichnis oder welche Datei die Regel gilt.

Standardmäßig kannst Du davon ausgehen, dass ein User-agent alle Seiten und Verzeichnisse crawlen darf/soll.

Eine ausführliche Anleitung zur Bearbeitung der Datei robots.txt erhältst Du in unserem Blogpost „robots.txt, SEO und Crawling Steuerung“.

Das solltest Du noch beachten:

Groß- und Kleinschreibung ist wichtig!
Sternchen/Asterisk (*) sind Platzhalter (Wildcards) und gelten für alle Dateien, Verzeichnisse oder auch Formate (zum Beispiel disallow: /*.pdf).
Jede Regel beginnt mit einem Slash (/) und wenn sich der Befehl auf ein Verzeichnis bezieht, schließt er auch mit / ab.
Das Dollarzeichen ($) dient als Zeilenende-Anker.
Das Hashtag (#) zeigt den Beginn eines Kommentars an.
Wenn Du mehrere Regeln anwenden willst, brauchst Du für jede Regel eine Zeile:
User agent: *
Disallow: /news/
Allow: /news/index.html

Was ist, wenn Du keine robots.txt hast?

Es ist kein Problem, wenn Du keine robots.txt Datei auf Deiner Website integriert hast, ganz im Gegenteil: Schließe Crawler nur in Notfällen aus.

TIPP: Sieh Dir die robots.txt von uns an – Du wirst staunen 😊:
https://www.seokratie.at.at/robots.txt

Wie trägst Du disallow in die robots.txt ein?

In der Datei robots.txt gibst Du in der ersten Zeile den User-agent (Suchmaschinen Robot) an. In der nächsten Zeile definierst Du nach dem Befehl „disallow“ den Bereich, den Du für das Crawlen sperren willst.

Beispiel 1: Googlebot, Crawlingverbot für das Verzeichnis Fotos:

User-agent: googlebot
Disallow: /fotos/

Beispiel 2: alle Bots, Crawlingverbot für das Verzeichnis Fotos:

User-agent: *
Disallow: /fotos/

Willst Du nur einem bestimmten Bot das Crawling untersagen (Beispiel 1), musst Du nach dem Doppelpunkt bei User agent den betreffenden Bot angeben. Eine übersichtliche Liste aller Bots findest Du hier: List of User Agent Strings

Mit einem Asterisk (*) als Platzhalter erfasst Du automatisch alle Crawler (Beispiel 2).

Beispiel 3: alle Bots, Crawlingverbot für alle Verzeichnisse, die mit Fotos beginnen:

User-agent: *
Disallow: /fotos*/

Mit dem Asterisk (*) kannst Du alle Verzeichnisse, die identisch beginnen, vom Crawling ausschließen. Im Beispiel 3 werden alle Verzeichnisse nach /fotos automatisch ausgesperrt, wie zum Beispiel /fotos-firmenfeier oder /fotos-2021.

Der Asterisk (*) als Platzhalter funktioniert auch vor dem Wort und schaut wie folgt aus:

Beispiel 4: alle Bots, Crawlingverbot für alle Verzeichnisse, die mit Fotos enden:

User-agent: *
Disallow: /*fotos/

Verzeichnisse, wie /firmenfotos, /mitarbeiterfotos oder /kundenfotos werden nicht mehr gecrawlt.

Bessere Alternativen zu disallow: noindex

Selbst wenn Du nicht alle Inhalte Deiner Website für die Allgemeinheit optimiert hast und es vorziehst, mit bestimmtem Content nicht in den Suchergebnissen zu erscheinen, musst Du nicht zwingend den Befehl disallow in der robots.txt anwenden.

Unserer Meinung nach ist es besser, wenn Du die noindex Anweisung verwendest. Sie weist Google an, die URL nicht zu indexieren. Die Seite wird aber trotzdem gecrawlt. Erweiterst Du den noindex um den nofollow Tag wird die Seite weder indexiert noch gecrawlt. Die noindex Anweisung schreibst Du in den Head Bereich Deiner URL.

Wann ist ein disallow sinnvoll?

Es gibt immer wieder Situationen, für die der Ausschluss von Crawlern sinnvoll ist:

Temporärer Ausschluss: wenn Du zum Beispiel beim Aufbau einer Domain bist; sobald Du live gehst, darfst Du nicht vergessen, die Sperre wieder aufzuheben.
Verbrauch von Serverressourcen: ein Bot crawlt ständig – ohne Effekt – und verbraucht dabei wertvolle Serverressourcen.
Sensible Daten verbergen: wenn bestimmte Daten geschützt bleiben sollen, so kannst Du Verzeichnisse oder bestimme Formate ausschließen.
Bereiche ohne Mehrwert: wenn Du zum Beispiel Testseiten erstellst, die für Deine Nutzer und auch für Suchmaschinen keinen Nutzen bieten.
Sparen von Crawling Ressourcen: Wenn bestimmte Verzeichnisse zu viel Ressourcen brauchen, kannst Du sie aussperren, sodass andere – wichtige – Verzeichnisse stattdessen gecrawlt werden.

Das solltest Du zusätzlich beachten

Lass den Bot crawlen und sperre ihn nur in Ausnahmefällen aus. Das Sperren kann sich mitunter negativ auf das Ranking auswirken. Google hat es nicht gerne, wenn er vor verschlossenen Türen steht. J
Wenn Du sensible Inhalte entfernen möchtest, wie zum Beispiel das Foto eines Mitarbeiters, löst Du das besser in der GSC unter Index und Entfernen oder Du löschst den betreffenden Inhalt oder das Foto vom Server.
Wenn Du für eine Landingpage einen noindex-Meta-Tag setzt, damit die Seite nicht in der SERP (Search Engine Result Page = Suchergebnis) erscheint und Du zusätzlich ein disallow in der robots.txt aktiv hast, wird der noindex Tag nutzlos, da der Google Bot ihn nicht auslesen darf.
Verwende disallow und noindex nicht im Übermaß, sonst kannst Du leicht den Überblick verlieren, was die Performance Deiner Website verschlechtert.

Weiterführende Links

Unser kostenloser SEO-Kurs

Erweitere Dein Wissen über Suchmaschinenoptimierung in nur 5 Tagen!

Das erwartet Dich:

E-Mails mit 5 spannenden Inhalten für ein solides Grundlagenwissen
Erlerne Schritt für Schritt alle Basics für sichtbare und nachhaltige Erfolge
Verbessere Deine Rankings bei Google und sorge für mehr Traffic auf Deiner Website

Melde Dich hier kostenlos an:

Nach der Anmeldung erhälst Du unseren kostenlosen SEO-Kurs fünf Tage lang. Anschließend bekommst Du 2-3x pro Woche unseren Newsletter (auch kostenlos) mit aktuellen Tipps zum Thema SEO und Online Marketing. Deine Daten werden vertraulich behandelt und nicht an Dritte weitergegeben. Du kannst Dich jederzeit abmelden. Datenschutz