Zum Hauptinhalt springen

Was ist robots.txt?

image

Definition

robots.txt ist eine Textdatei, die sich im Hauptverzeichnis einer Website befindet und Suchmaschinen-Crawlern (Bots) mitteilt, welche Seiten sie crawlen dürfen und welche nicht. Diese Datei folgt einem Standard namens Robots Exclusion Protocol oder Robots Exclusion Standard.

Die robots.txt-Datei fungiert wie ein Verkehrspolizist für Ihre Website. Sie ist die erste Datei, die Suchmaschinen-Bots überprüfen, wenn sie eine Website besuchen, und dadurch verstehen sie die Crawling-Richtlinien des Website-Betreibers. Sie können beispielsweise Bereiche angeben, die nicht in Suchergebnissen erscheinen sollen, wie Admin-Seiten, doppelte Inhalte oder Testseiten.

Ein wichtiger Punkt ist, dass robots.txt eine "Anfrage" ist, kein "Befehl". Während die meisten legitimen Suchmaschinen-Bots (Google, Naver, Bing usw.) die Regeln in dieser Datei respektieren, können bösartige Bots oder Scraper sie ignorieren. Daher ist robots.txt allein nicht ausreichend, um sensible Informationen zu schützen, und angemessene Zugriffskontrollen oder Verschlüsselungsmaßnahmen sind erforderlich.

Merkmale

  • Crawl-Budget-Optimierung: Durch das Blockieren des Crawlings unwichtiger Seiten können Sie Suchmaschinen ermutigen, mehr Ressourcen für wirklich wichtige Seiten bereitzustellen.
  • Vermeidung doppelter Inhalte: Sie können SEO-Probleme verhindern, indem Sie Seiten mit ähnlichem Inhalt oder doppelte URLs blockieren, die durch verschiedene Parameter generiert werden.
  • Angabe des Sitemap-Standorts: Sie können den Standort der Sitemap innerhalb der robots.txt-Datei angeben, damit Suchmaschinen sie leicht finden können.
  • Einfaches und standardisiertes Format: Es kann mit einem Texteditor ohne besondere technische Kenntnisse einfach geschrieben und geändert werden.
  • Sofortige Anwendung: Sobald die Datei hochgeladen wird, tritt sie sofort in Kraft, und die neuen Regeln werden beim nächsten Besuch von Suchmaschinen-Bots angewendet.

Anwendung

So schreiben und verwalten Sie eine robots.txt-Datei effektiv.

Schritt 1: Grundstruktur verstehen Die robots.txt-Datei basiert auf "User-agent"- und "Disallow/Allow"-Anweisungen. User-agent gibt an, für welchen Bot die Regel gilt, Disallow gibt Pfade an, die nicht gecrawlt werden dürfen, und Allow gibt Pfade an, die gecrawlt werden dürfen.

Schritt 2: Zu blockierende Bereiche identifizieren Identifizieren Sie Bereiche auf Ihrer Website, die nicht für Suchmaschinen sichtbar sein sollten. In der Regel gehören dazu Admin-Seiten (/admin), Seiten mit persönlichen Informationen, doppelte Inhalte, Testseiten, Suchergebnisseiten, Warenkörbe oder Checkout-Seiten.

Schritt 3: robots.txt-Datei schreiben Schreiben Sie die robots.txt-Datei mit einem Texteditor. Regeln für alle Bots beginnen mit "User-agent: *", und Sie können auch separate Regeln für bestimmte Bots angeben.

Schritt 4: In das Hauptverzeichnis hochladen Laden Sie die geschriebene robots.txt-Datei in das Hauptverzeichnis Ihrer Website hoch. Die Datei muss in der Form https://yoursite.com/robots.txt zugänglich sein.

Schritt 5: Testen Verwenden Sie das robots.txt-Testtool der Google Search Console, um zu überprüfen, ob die Datei korrekt geschrieben wurde und die gewünschten URLs ordnungsgemäß blockiert oder zugelassen werden.

Schritt 6: Regelmäßige Überprüfung Wann immer sich die Website-Struktur ändert, sollte auch die robots.txt-Datei aktualisiert werden. Es ist wichtig, regelmäßig zu überprüfen, ob wichtige Seiten nicht versehentlich blockiert wurden.

Beispiele

Beispiel 1: Grundlegende robots.txt-Struktur

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /temp/
Allow: /

Sitemap: https://zero-coke.com/sitemap.xml

Dies ist die grundlegendste robots.txt-Datei. Sie weist alle Suchmaschinen-Bots an, die Verzeichnisse admin, private und temp nicht zu crawlen und erlaubt alles andere. Am Ende wird der Sitemap-Standort angegeben.

Beispiel 2: Regeln für bestimmte Bots

# Google-Bot-Regeln
User-agent: Googlebot
Disallow: /search/
Disallow: /cart/
Allow: /

# Bing-Bot-Regeln
User-agent: Bingbot
Disallow: /admin/
Allow: /

# Bildsuch-Bot
User-agent: Googlebot-Image
Disallow: /private-images/
Allow: /

# Schlechte Bots blockieren
User-agent: BadBot
Disallow: /

# Alle anderen Bots
User-agent: *
Crawl-delay: 10
Disallow: /admin/

Sitemap: https://zero-coke.com/sitemap.xml
Sitemap: https://zero-coke.com/sitemap-images.xml

Dieses Beispiel zeigt, wie verschiedene Regeln für verschiedene Bots angewendet werden. Kommentare (#) werden verwendet, um die Lesbarkeit zu verbessern.

Beispiel 3: Verwendung von Wildcards

User-agent: *
# Alle PDF-Dateien blockieren
Disallow: /*.pdf$

# URLs mit bestimmten Parametern blockieren
Disallow: /*?sort=
Disallow: /*?filter=

# Dateien mit bestimmten Erweiterungen blockieren
Disallow: /*.php$
Disallow: /*.inc$

# Aber bestimmte Verzeichnisse erlauben
Allow: /public/*.pdf$

Sitemap: https://zero-coke.com/sitemap.xml

Sie können mit Wildcards (*) und Pfad-End-Spezifizierern ($) ausgefeiltere Regeln erstellen.

Beispiel 4: E-Commerce-Website robots.txt

User-agent: *
# Benutzerkonto-bezogene Seiten blockieren
Disallow: /account/
Disallow: /login/
Disallow: /register/
Disallow: /checkout/
Disallow: /cart/

# Doppelte Inhalte vermeiden - Sortier- und Filterparameter
Disallow: /*?sort=
Disallow: /*?page=
Disallow: /*?filter=

# Suchergebnisseiten
Disallow: /search?

# Admin-Bereich
Disallow: /admin/

# Produktseiten erlauben (wichtig!)
Allow: /products/

# Crawl-Verzögerung festlegen (Server-Last-Management)
Crawl-delay: 5

Sitemap: https://zero-coke.com/sitemap.xml
Sitemap: https://zero-coke.com/sitemap-products.xml
Sitemap: https://zero-coke.com/sitemap-categories.xml

Dies ist ein umfassendes robots.txt-Beispiel, das für tatsächliche E-Commerce-Websites verwendet werden kann.

Vor- und Nachteile

Vorteile

  • Verbesserte Crawling-Effizienz: Es hilft Suchmaschinen, keine Zeit und Ressourcen mit dem Crawlen unnötiger Seiten zu verschwenden, sodass sie sich mehr auf wichtige Inhalte konzentrieren können. Dies ist besonders wichtig für die effiziente Verwaltung von Crawl-Budgets bei großen Websites.

  • Reduzierte Serverlast: Sie können die Serverlast durch übermäßiges Crawling reduzieren. Mit der Crawl-delay-Anweisung können Sie das Intervall zwischen Bot-Anfragen steuern, um Serverressourcen zu schützen.

  • Einfache Implementierung: Es kann mit nur einer Textdatei ohne komplexe Programmierkenntnisse einfach implementiert werden, und Änderungen können sofort vorgenommen werden. Es sind keine separaten Datenbank- oder Serverkonfigurationsänderungen erforderlich.

Nachteile

  • Keine Sicherheitsmaßnahme: robots.txt ist lediglich eine Empfehlung und hat keine Durchsetzungskraft. Bösartige Bots oder Hacker können diese Datei ignorieren, daher ist sie nicht geeignet, um sensible Informationen zu schützen. Tatsächlich kann das Angeben blockierter Pfade in robots.txt Angreifern den Standort versteckter Seiten verraten.

  • Schwerwiegende Auswirkungen durch Fehler: Wenn die robots.txt-Datei falsch geschrieben wird, könnten Sie versehentlich die gesamte Website blockieren oder wichtige Seiten von den Suchergebnissen ausschließen. Nur ein falscher Eintrag wie "Disallow: /" kann Ihre gesamte Website aus Suchmaschinen verschwinden lassen.

  • Nicht sofort wirksam: Auch wenn Sie die robots.txt-Datei aktualisieren, spiegeln Suchmaschinen dies möglicherweise nicht sofort wider. Um bereits indizierte Seiten zu entfernen, reicht robots.txt allein nicht aus, und Sie müssen separat eine URL-Entfernung in der Google Search Console beantragen.

FAQ

F: Kann ich bereits indizierte Seiten mit robots.txt löschen? A: Nein, robots.txt blockiert nur neues Crawling und löscht keine bereits indizierten Seiten. Tatsächlich verhindert das Blockieren mit robots.txt, dass Suchmaschinen die Seite erneut crawlen, sodass sie aktualisierte Informationen (z. B. noindex-Tag) nicht überprüfen können. Um bereits indizierte Seiten zu entfernen, sollten Sie zuerst ein noindex-Meta-Tag zur Seite hinzufügen, Suchmaschinen dies überprüfen lassen und es dann in robots.txt blockieren. Alternativ können Sie das URL-Entfernungstool der Google Search Console verwenden.

F: Was passiert, wenn es keine robots.txt-Datei gibt? A: Auch ohne robots.txt-Datei funktioniert die Website normal, und Suchmaschinen gehen davon aus, dass alle Seiten gecrawlt werden können. Mit anderen Worten, alles ist erlaubt. Für kleine Websites oder Websites, bei denen alle Seiten in Suchergebnissen erscheinen sollen, ist dies kein Problem, aber wenn es Bereiche gibt, die blockiert werden müssen, müssen Sie eine robots.txt-Datei erstellen.

F: Was ist der Unterschied zwischen Disallow und noindex? A: Disallow (robots.txt) blockiert Suchmaschinen daran, eine Seite zu crawlen, aber wenn die Seite von anderswo verlinkt ist, kann sie immer noch in Suchergebnissen erscheinen (nur mit Titel und URL, kein Inhalt). Andererseits erlaubt noindex (Meta-Tag) das Crawlen, weist aber an, dass die Seite niemals in Suchergebnissen angezeigt werden soll. Um eine Seite vollständig aus Suchergebnissen zu entfernen, sollten Sie das noindex-Meta-Tag verwenden, nicht robots.txt-Blockierung.

F: Wie funktionieren Wildcards (*)? A: Wildcards () bedeuten null oder mehr beliebige Zeichen. Zum Beispiel blockiert "Disallow: /admin" alle Pfade, die mit admin beginnen, wie /admin, /admin/, /admin/users, /administrator. "$" zeigt das Ende einer URL an, also blockiert "Disallow: /*.pdf$" alle URLs, die auf .pdf enden. Allerdings unterstützen nicht alle Suchmaschinen Wildcards, sie funktionieren also in wichtigen Suchmaschinen (Google, Bing usw.), können aber von einigen älteren Bots ignoriert werden.