Die robots.txt Datei ist ein wichtiges technisches SEO-Element, das Website-Betreibern ermöglicht, Suchmaschinen-Crawlern mitzuteilen, welche Bereiche einer Website gecrawlt werden dürfen und welche nicht. Diese Datei befindet sich im Root-Verzeichnis einer Domain und folgt einem spezifischen Syntax-Format.

Grundlegende Syntax-Regeln

1. Datei-Format und -Speicherort

Die robots.txt Datei muss:

  • Im Root-Verzeichnis der Domain gespeichert werden (z.B. https://example.com/robots.txt)
  • Als reine Textdatei vorliegen
  • UTF-8 kodiert sein
  • Kleinbuchstaben verwenden (robots.txt, nicht Robots.txt)

2. Grundstruktur

User-agent: [Crawler-Name]
Disallow: [Pfad]
Allow: [Pfad]
Crawl-delay: [Sekunden]
Sitemap: [URL]

User-Agent Direktiven

Spezifische Crawler ansprechen

User-agent: Googlebot
Disallow: /admin/

User-agent: Bingbot
Disallow: /private/

Alle Crawler ansprechen

User-agent: *
Disallow: /temp/

Häufige User-Agents

Crawler
User-Agent
Zweck
Google
Googlebot
Web-Crawling
Google Images
Googlebot-Image
Bild-Indexierung
Bing
Bingbot
Web-Crawling
Yahoo
Slurp
Web-Crawling
Facebook
facebookexternalhit
Link-Preview

Disallow und Allow Direktiven

Disallow verwenden

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /temp/

Allow verwenden

User-agent: *
Disallow: /images/
Allow: /images/public/

Wildcards und Pattern Matching

User-agent: *
Disallow: /*.pdf$
Disallow: /temp/*
Disallow: /admin/

Crawl-Delay Direktive

Crawling-Geschwindigkeit kontrollieren

User-agent: *
Crawl-delay: 10

Crawler-spezifische Delays

User-agent: Googlebot
Crawl-delay: 1

User-agent: Bingbot
Crawl-delay: 5

Sitemap Direktive

XML-Sitemaps angeben

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml
Sitemap: https://example.com/sitemap-news.xml

Häufige Syntax-Fehler

1. Falsche Groß-/Kleinschreibung

❌ Falsch:

User-Agent: *
DisAllow: /admin/

✅ Richtig:

User-agent: *
Disallow: /admin/

2. Fehlende Doppelpunkte

❌ Falsch:

User-agent *
Disallow /admin/

✅ Richtig:

User-agent: *
Disallow: /admin/

3. Leerzeichen vor Doppelpunkten

❌ Falsch:

User-agent : *
Disallow : /admin/

✅ Richtig:

User-agent: *
Disallow: /admin/

4. Mehrfache User-Agent Blöcke

❌ Falsch:

User-agent: *
Disallow: /admin/

User-agent: *
Disallow: /private/

✅ Richtig:

User-agent: *
Disallow: /admin/
Disallow: /private/

Best Practices für Robots.txt

1. Vollständige Blockierung vermeiden

❌ Vorsicht bei:

User-agent: *
Disallow: /

2. Wichtige Bereiche freigeben

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
Allow: /css/
Allow: /js/
Allow: /images/

3. Sitemap-URLs angeben

User-agent: *
Disallow: /admin/

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml

4. Kommentare für Dokumentation

# Hauptrobots.txt für example.com
# Letzte Aktualisierung: 2025-01-21

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/

# Sitemaps
Sitemap: https://example.com/sitemap.xml

Testing und Validierung

1. Google Search Console

  • Robots.txt Tester verwenden
  • Crawling-Status überprüfen
  • Fehler identifizieren

2. Online-Tools

  • Robots.txt Validatoren nutzen
  • Syntax-Checker verwenden
  • Crawling-Simulation testen

3. Manuelle Tests

curl -A "Googlebot" https://example.com/robots.txt

Erweiterte Konfigurationen

E-Commerce Websites

User-agent: *
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
Disallow: /search?*
Allow: /products/
Allow: /categories/

Sitemap: https://example.com/sitemap-products.xml
Sitemap: https://example.com/sitemap-categories.xml

Multilingual Websites

User-agent: *
Disallow: /admin/
Disallow: /private/

Sitemap: https://example.com/sitemap-de.xml
Sitemap: https://example.com/sitemap-en.xml
Sitemap: https://example.com/sitemap-fr.xml

Development/Staging Umgebungen

User-agent: *
Disallow: /

# Nur für interne Tests
User-agent: InternalBot
Allow: /

Monitoring und Wartung

1. Regelmäßige Überprüfung

  • Monatliche Syntax-Validierung
  • Crawling-Logs analysieren
  • Sitemap-Status prüfen

2. Änderungen dokumentieren

  • Versionskontrolle nutzen
  • Änderungsprotokoll führen
  • Team informieren

3. Performance-Monitoring

  • Crawling-Frequenz überwachen
  • Server-Last beobachten
  • Crawl-Budget optimieren

Häufige Probleme und Lösungen

Problem: Crawler ignorieren Robots.txt

Lösung:

  • Syntax-Fehler beheben
  • User-Agent korrekt spezifizieren
  • Crawl-Delay anpassen

Problem: Wichtige Seiten nicht gecrawlt

Lösung:

  • Allow-Direktiven hinzufügen
  • Disallow-Regeln überprüfen
  • Sitemap aktualisieren

Problem: Zu viele Crawling-Anfragen

Lösung:

  • Crawl-Delay erhöhen
  • Unnötige Bereiche blockieren
  • Crawl-Budget optimieren

Checkliste für Robots.txt

  • ☐ Datei im Root-Verzeichnis gespeichert
  • ☐ UTF-8 Kodierung verwendet
  • ☐ Syntax korrekt (Groß-/Kleinschreibung)
  • ☐ Doppelpunkte nach Direktiven
  • ☐ Keine Leerzeichen vor Doppelpunkten
  • ☐ Sitemap-URLs angegeben
  • ☐ Wichtige Bereiche freigegeben
  • ☐ Kommentare für Dokumentation
  • ☐ Mit Tools validiert
  • ☐ In GSC getestet

Verwandte Themen

Letzte Aktualisierung: 21. Oktober 2025