Die robots.txt Datei ist ein wichtiges technisches SEO-Element, das Website-Betreibern ermöglicht, Suchmaschinen-Crawlern mitzuteilen, welche Bereiche einer Website gecrawlt werden dürfen und welche nicht. Diese Datei befindet sich im Root-Verzeichnis einer Domain und folgt einem spezifischen Syntax-Format.
Grundlegende Syntax-Regeln
1. Datei-Format und -Speicherort
Die robots.txt Datei muss:
- Im Root-Verzeichnis der Domain gespeichert werden (z.B.
https://example.com/robots.txt) - Als reine Textdatei vorliegen
- UTF-8 kodiert sein
- Kleinbuchstaben verwenden (
robots.txt, nichtRobots.txt)
2. Grundstruktur
User-agent: [Crawler-Name]
Disallow: [Pfad]
Allow: [Pfad]
Crawl-delay: [Sekunden]
Sitemap: [URL]
User-Agent Direktiven
Spezifische Crawler ansprechen
User-agent: Googlebot
Disallow: /admin/
User-agent: Bingbot
Disallow: /private/
Alle Crawler ansprechen
User-agent: *
Disallow: /temp/
Häufige User-Agents
Crawler
User-Agent
Zweck
Google
Googlebot
Web-Crawling
Google Images
Googlebot-Image
Bild-Indexierung
Bing
Bingbot
Web-Crawling
Yahoo
Slurp
Web-Crawling
Facebook
facebookexternalhit
Link-Preview
Disallow und Allow Direktiven
Disallow verwenden
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /temp/
Allow verwenden
User-agent: *
Disallow: /images/
Allow: /images/public/
Wildcards und Pattern Matching
User-agent: *
Disallow: /*.pdf$
Disallow: /temp/*
Disallow: /admin/
Crawl-Delay Direktive
Crawling-Geschwindigkeit kontrollieren
User-agent: *
Crawl-delay: 10
Crawler-spezifische Delays
User-agent: Googlebot
Crawl-delay: 1
User-agent: Bingbot
Crawl-delay: 5
Sitemap Direktive
XML-Sitemaps angeben
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml
Sitemap: https://example.com/sitemap-news.xml
Häufige Syntax-Fehler
1. Falsche Groß-/Kleinschreibung
❌ Falsch:
User-Agent: *
DisAllow: /admin/
✅ Richtig:
User-agent: *
Disallow: /admin/
2. Fehlende Doppelpunkte
❌ Falsch:
User-agent *
Disallow /admin/
✅ Richtig:
User-agent: *
Disallow: /admin/
3. Leerzeichen vor Doppelpunkten
❌ Falsch:
User-agent : *
Disallow : /admin/
✅ Richtig:
User-agent: *
Disallow: /admin/
4. Mehrfache User-Agent Blöcke
❌ Falsch:
User-agent: *
Disallow: /admin/
User-agent: *
Disallow: /private/
✅ Richtig:
User-agent: *
Disallow: /admin/
Disallow: /private/
Best Practices für Robots.txt
1. Vollständige Blockierung vermeiden
❌ Vorsicht bei:
User-agent: *
Disallow: /
2. Wichtige Bereiche freigeben
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
Allow: /css/
Allow: /js/
Allow: /images/
3. Sitemap-URLs angeben
User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml
4. Kommentare für Dokumentation
# Hauptrobots.txt für example.com
# Letzte Aktualisierung: 2025-01-21
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
# Sitemaps
Sitemap: https://example.com/sitemap.xml
Testing und Validierung
1. Google Search Console
- Robots.txt Tester verwenden
- Crawling-Status überprüfen
- Fehler identifizieren
2. Online-Tools
- Robots.txt Validatoren nutzen
- Syntax-Checker verwenden
- Crawling-Simulation testen
3. Manuelle Tests
curl -A "Googlebot" https://example.com/robots.txt
Erweiterte Konfigurationen
E-Commerce Websites
User-agent: *
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
Disallow: /search?*
Allow: /products/
Allow: /categories/
Sitemap: https://example.com/sitemap-products.xml
Sitemap: https://example.com/sitemap-categories.xml
Multilingual Websites
User-agent: *
Disallow: /admin/
Disallow: /private/
Sitemap: https://example.com/sitemap-de.xml
Sitemap: https://example.com/sitemap-en.xml
Sitemap: https://example.com/sitemap-fr.xml
Development/Staging Umgebungen
User-agent: *
Disallow: /
# Nur für interne Tests
User-agent: InternalBot
Allow: /
Monitoring und Wartung
1. Regelmäßige Überprüfung
- Monatliche Syntax-Validierung
- Crawling-Logs analysieren
- Sitemap-Status prüfen
2. Änderungen dokumentieren
- Versionskontrolle nutzen
- Änderungsprotokoll führen
- Team informieren
3. Performance-Monitoring
- Crawling-Frequenz überwachen
- Server-Last beobachten
- Crawl-Budget optimieren
Häufige Probleme und Lösungen
Problem: Crawler ignorieren Robots.txt
Lösung:
- Syntax-Fehler beheben
- User-Agent korrekt spezifizieren
- Crawl-Delay anpassen
Problem: Wichtige Seiten nicht gecrawlt
Lösung:
- Allow-Direktiven hinzufügen
- Disallow-Regeln überprüfen
- Sitemap aktualisieren
Problem: Zu viele Crawling-Anfragen
Lösung:
- Crawl-Delay erhöhen
- Unnötige Bereiche blockieren
- Crawl-Budget optimieren
Checkliste für Robots.txt
- ☐ Datei im Root-Verzeichnis gespeichert
- ☐ UTF-8 Kodierung verwendet
- ☐ Syntax korrekt (Groß-/Kleinschreibung)
- ☐ Doppelpunkte nach Direktiven
- ☐ Keine Leerzeichen vor Doppelpunkten
- ☐ Sitemap-URLs angegeben
- ☐ Wichtige Bereiche freigegeben
- ☐ Kommentare für Dokumentation
- ☐ Mit Tools validiert
- ☐ In GSC getestet
Verwandte Themen
Letzte Aktualisierung: 21. Oktober 2025