Common Mistakes bei robots.txt

Einführung

Die robots.txt-Datei ist ein mächtiges Instrument zur Steuerung von Suchmaschinen-Crawlern, aber auch eine häufige Fehlerquelle. Viele Website-Betreiber machen kritische Fehler bei der Konfiguration, die zu Indexierungsproblemen und Traffic-Verlusten führen können.

Die häufigsten robots.txt-Fehler

1. Falsche Platzierung der Datei

Problem: Die robots.txt-Datei wird nicht im Root-Verzeichnis der Domain platziert.

Korrekte Lösung:

  • Datei muss unter https://ihredomain.com/robots.txt erreichbar sein
  • Nicht in Unterverzeichnissen wie /admin/robots.txt oder /public/robots.txt

Auswirkung: Crawler können die Datei nicht finden und ignorieren alle Anweisungen.

2. Falsche Syntax und Formatierung

Häufige Syntax-Fehler:

Fehler
Korrekte Syntax
Erklärung
User-agent: *
User-agent: *
Doppelpunkt nach User-agent
Disallow: /admin
Disallow: /admin/
Slash am Ende für Verzeichnisse
Allow: /public
Allow: /public/
Konsistente Formatierung
User-agent: Googlebot
Disallow: /private
User-agent: Googlebot
Disallow: /private/
Leerzeile zwischen User-agent-Blöcken

3. Übermäßig restriktive Regeln

Problem: Zu viele Disallow-Regeln blockieren wichtige Inhalte.

Beispiel einer problematischen robots.txt:

User-agent: *
Disallow: /
Disallow: /css/
Disallow: /js/
Disallow: /images/
Disallow: /admin/
Disallow: /private/

Bessere Lösung:

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /temp/
Allow: /css/
Allow: /js/
Allow: /images/

4. Fehlende Sitemap-Referenz

Problem: Die XML-Sitemap wird nicht in der robots.txt referenziert.

Korrekte Ergänzung:

User-agent: *
Disallow: /admin/

Sitemap: https://ihredomain.com/sitemap.xml
Sitemap: https://ihredomain.com/sitemap-images.xml

5. Inkonsistente User-Agent-Behandlung

Problem: Verschiedene Crawler werden unterschiedlich behandelt, ohne klare Strategie.

Empfohlene Struktur:

# Alle Crawler
User-agent: *
Disallow: /admin/
Disallow: /private/

# Spezifische Crawler-Regeln
User-agent: Googlebot
Allow: /important-content/

User-agent: Bingbot
Disallow: /test-pages/

Technische Fehler vermeiden

1. Encoding-Probleme

Problem: Falsche Zeichenkodierung führt zu Parsing-Fehlern.

Lösung:

  • Datei muss UTF-8 kodiert sein
  • Keine BOM (Byte Order Mark) verwenden
  • Nur ASCII-Zeichen in Pfaden

2. Case-Sensitivity

Problem: Groß-/Kleinschreibung wird nicht beachtet.

Wichtige Regeln:

  • User-agent (nicht user-agent oder User-Agent)
  • Disallow (nicht disallow)
  • Allow (nicht allow)

3. Wildcard-Missbrauch

Problem: Falsche Verwendung von Wildcards.

Richtige Verwendung:

# Korrekt
Disallow: /admin/*.php
Disallow: /temp/

# Falsch
Disallow: /admin*
Disallow: /*.pdf

Content-spezifische Fehler

1. Wichtige Seiten blockieren

Häufig blockierte wichtige Inhalte:

  • Produktseiten
  • Kategorieseiten
  • Blog-Artikel
  • Landing Pages

Checkliste vor Deployment:

  • Alle wichtigen Seiten sind erlaubt
  • Keine Produkt-URLs blockiert
  • Blog-Content ist zugänglich
  • Sitemap-URLs sind erlaubt

2. Duplicate Content nicht berücksichtigt

Problem: Parameter-URLs und Duplicate Content nicht richtig behandelt.

Lösung:

User-agent: *
Disallow: /?*
Disallow: /search?*
Allow: /produkt?color=*

3. Mobile vs. Desktop Content

Problem: Mobile-spezifische Inhalte werden blockiert.

Mobile-optimierte robots.txt:

User-agent: *
Disallow: /admin/

User-agent: Googlebot-Mobile
Allow: /mobile/
Disallow: /desktop-only/

Testing und Validierung

1. Google Search Console Testing

Schritte:

  1. GSC → Crawling → robots.txt-Tester
  2. URL testen, die blockiert werden soll
  3. Ergebnis überprüfen
  4. Bei Fehlern korrigieren

2. Externe Tools nutzen

Empfohlene Tools:

  • Screaming Frog SEO Spider
  • SEMrush Site Audit
  • Ahrefs Site Explorer
  • Online robots.txt Validator

3. Crawl-Log-Analyse

Überwachung:

  • Server-Logs auf Crawler-Aktivitäten prüfen
  • Blockierte Requests identifizieren
  • Crawl-Budget optimieren

Best Practices Checkliste

Vor Deployment

  • Syntax mit Validator prüfen
  • Alle wichtigen Seiten sind erlaubt
  • Sitemap-URL ist korrekt
  • Encoding ist UTF-8
  • Keine Wildcard-Fehler
  • User-Agent-Syntax korrekt

Nach Deployment

  • GSC Testing durchgeführt
  • Crawl-Errors überwacht
  • Indexierungs-Status geprüft
  • Traffic-Entwicklung beobachtet
  • Server-Logs analysiert

Regelmäßige Wartung

  • Monatliche robots.txt-Überprüfung
  • Neue Seiten auf Blockierung prüfen
  • Crawl-Budget optimieren
  • Sitemap-Updates berücksichtigen

Häufige Fragen

F: Kann ich mit robots.txt bestimmte Crawler komplett blockieren?
A: Ja, aber Vorsicht bei Googlebot - das kann zu Ranking-Problemen führen.

F: Wie lange dauert es, bis robots.txt-Änderungen wirken?
A: Normalerweise 24-48 Stunden, kann aber bis zu einer Woche dauern.

F: Kann ich robots.txt für SEO-Tests nutzen?
A: Ja, aber nur vorsichtig und mit klarem Rollback-Plan.

F: Was passiert bei Syntax-Fehlern?
A: Crawler ignorieren die gesamte Datei und crawlen alles.

Monitoring und Optimierung

KPIs überwachen

  • Crawl-Errors in GSC
  • Indexierungs-Rate
  • Crawl-Budget-Verbrauch
  • Server-Response-Codes

Regelmäßige Audits

  • Quartalsweise robots.txt-Review
  • Neue Content-Typen prüfen
  • Crawler-Verhalten analysieren
  • Performance-Metriken auswerten

Verwandte Themen