Common Mistakes bei robots.txt

Einführung

Die robots.txt-Datei ist ein mächtiges Instrument zur Steuerung von Suchmaschinen-Crawlern, aber auch eine häufige Fehlerquelle. Viele Website-Betreiber machen kritische Fehler bei der Konfiguration, die zu Indexierungsproblemen und Traffic-Verlusten führen können.

Die häufigsten robots.txt-Fehler

1. Falsche Platzierung der Datei

Problem: Die robots.txt-Datei wird nicht im Root-Verzeichnis der Domain platziert.

Korrekte Lösung:

Datei muss unter https://ihredomain.com/robots.txt erreichbar sein
Nicht in Unterverzeichnissen wie /admin/robots.txt oder /public/robots.txt

Auswirkung: Crawler können die Datei nicht finden und ignorieren alle Anweisungen.

2. Falsche Syntax und Formatierung

Häufige Syntax-Fehler:

Fehler

Korrekte Syntax

Erklärung

User-agent: *

Doppelpunkt nach User-agent

Disallow: /admin

Disallow: /admin/

Slash am Ende für Verzeichnisse

Allow: /public

Allow: /public/

Konsistente Formatierung

User-agent: Googlebot
Disallow: /private

User-agent: Googlebot
Disallow: /private/

Leerzeile zwischen User-agent-Blöcken

3. Übermäßig restriktive Regeln

Problem: Zu viele Disallow-Regeln blockieren wichtige Inhalte.

Beispiel einer problematischen robots.txt:

User-agent: *
Disallow: /
Disallow: /css/
Disallow: /js/
Disallow: /images/
Disallow: /admin/
Disallow: /private/

Bessere Lösung:

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /temp/
Allow: /css/
Allow: /js/
Allow: /images/

4. Fehlende Sitemap-Referenz

Problem: Die XML-Sitemap wird nicht in der robots.txt referenziert.

Korrekte Ergänzung:

User-agent: *
Disallow: /admin/

Sitemap: https://ihredomain.com/sitemap.xml
Sitemap: https://ihredomain.com/sitemap-images.xml

5. Inkonsistente User-Agent-Behandlung

Problem: Verschiedene Crawler werden unterschiedlich behandelt, ohne klare Strategie.

Empfohlene Struktur:

# Alle Crawler
User-agent: *
Disallow: /admin/
Disallow: /private/

# Spezifische Crawler-Regeln
User-agent: Googlebot
Allow: /important-content/

User-agent: Bingbot
Disallow: /test-pages/

Technische Fehler vermeiden

1. Encoding-Probleme

Problem: Falsche Zeichenkodierung führt zu Parsing-Fehlern.

Lösung:

Datei muss UTF-8 kodiert sein
Keine BOM (Byte Order Mark) verwenden
Nur ASCII-Zeichen in Pfaden

2. Case-Sensitivity

Problem: Groß-/Kleinschreibung wird nicht beachtet.

Wichtige Regeln:

User-agent (nicht user-agent oder User-Agent)
Disallow (nicht disallow)
Allow (nicht allow)

3. Wildcard-Missbrauch

Problem: Falsche Verwendung von Wildcards.

Richtige Verwendung:

# Korrekt
Disallow: /admin/*.php
Disallow: /temp/

# Falsch
Disallow: /admin*
Disallow: /*.pdf

Content-spezifische Fehler

1. Wichtige Seiten blockieren

Häufig blockierte wichtige Inhalte:

Produktseiten
Kategorieseiten
Blog-Artikel
Landing Pages

Checkliste vor Deployment:

Alle wichtigen Seiten sind erlaubt
Keine Produkt-URLs blockiert
Blog-Content ist zugänglich
Sitemap-URLs sind erlaubt

2. Duplicate Content nicht berücksichtigt

Problem: Parameter-URLs und Duplicate Content nicht richtig behandelt.

Lösung:

User-agent: *
Disallow: /?*
Disallow: /search?*
Allow: /produkt?color=*

3. Mobile vs. Desktop Content

Problem: Mobile-spezifische Inhalte werden blockiert.

Mobile-optimierte robots.txt:

User-agent: *
Disallow: /admin/

User-agent: Googlebot-Mobile
Allow: /mobile/
Disallow: /desktop-only/

Testing und Validierung

1. Google Search Console Testing

Schritte:

GSC → Crawling → robots.txt-Tester
URL testen, die blockiert werden soll
Ergebnis überprüfen
Bei Fehlern korrigieren

2. Externe Tools nutzen

Empfohlene Tools:

Screaming Frog SEO Spider
SEMrush Site Audit
Ahrefs Site Explorer
Online robots.txt Validator

3. Crawl-Log-Analyse

Überwachung:

Server-Logs auf Crawler-Aktivitäten prüfen
Blockierte Requests identifizieren
Crawl-Budget optimieren

Best Practices Checkliste

Vor Deployment

Syntax mit Validator prüfen
Alle wichtigen Seiten sind erlaubt
Sitemap-URL ist korrekt
Encoding ist UTF-8
Keine Wildcard-Fehler
User-Agent-Syntax korrekt

Nach Deployment

GSC Testing durchgeführt
Crawl-Errors überwacht
Indexierungs-Status geprüft
Traffic-Entwicklung beobachtet
Server-Logs analysiert

Regelmäßige Wartung

Monatliche robots.txt-Überprüfung
Neue Seiten auf Blockierung prüfen
Crawl-Budget optimieren
Sitemap-Updates berücksichtigen

Häufige Fragen

F: Kann ich mit robots.txt bestimmte Crawler komplett blockieren?
A: Ja, aber Vorsicht bei Googlebot - das kann zu Ranking-Problemen führen.

F: Wie lange dauert es, bis robots.txt-Änderungen wirken?
A: Normalerweise 24-48 Stunden, kann aber bis zu einer Woche dauern.

F: Kann ich robots.txt für SEO-Tests nutzen?
A: Ja, aber nur vorsichtig und mit klarem Rollback-Plan.

F: Was passiert bei Syntax-Fehlern?
A: Crawler ignorieren die gesamte Datei und crawlen alles.