Robots.txt - Grundlagen und Bewährte Praktiken 2025
Was ist eine Robots.txt-Datei?
Die robots.txt-Datei ist ein wichtiges technisches SEO-Element, das Website-Betreibern ermöglicht, Suchmaschinen-Crawlern mitzuteilen, welche Bereiche einer Website gecrawlt werden dürfen und welche nicht. Sie fungiert als "Hausordnung" für Webcrawler und ist ein zentraler Bestandteil des technischen SEO.
Grundlegende Funktionen
Die robots.txt-Datei erfüllt mehrere wichtige Funktionen:
- Crawling-Steuerung: Bestimmt, welche Verzeichnisse und Dateien gecrawlt werden dürfen
- Crawl-Budget-Optimierung: Lenkt Crawler zu wichtigen Inhalten
- Server-Entlastung: Verhindert unnötige Crawling-Anfragen
- URL-Liste-Verweis: Zeigt Crawlern den Standort der XML-Sitemap
Robots.txt-Syntax und Struktur
Basis-Syntax
Die robots.txt-Datei folgt einer einfachen, aber präzisen Syntax:
User-agent: [Crawler-Name]
Disallow: [Verbotener Pfad]
Allow: [Erlaubter Pfad]
Crawl-delay: [Sekunden]
Sitemap: [Sitemap-URL]
User-Agent-Direktiven
Die User-Agent-Direktive spezifiziert, für welchen Crawler die Regeln gelten:
Disallow-Direktiven
Disallow-Direktiven definieren, welche Pfade nicht gecrawlt werden sollen:
Disallow: /- Blockiert die gesamte WebsiteDisallow: /admin/- Blockiert das Admin-VerzeichnisDisallow: *.pdf- Blockiert alle PDF-DateienDisallow: /private/- Blockiert den private-Ordner
Allow-Direktiven
Allow-Direktiven überschreiben Disallow-Regeln:
Allow: /public/- Erlaubt Crawling des public-OrdnersAllow: /important-page.html- Erlaubt spezifische Seite
Best Practices für Robots.txt
1. Datei-Platzierung
Die robots.txt-Datei muss im Root-Verzeichnis der Domain platziert werden:
- ✅
https://example.com/robots.txt - ❌
https://example.com/subfolder/robots.txt
2. Dateigröße und Format
3. Crawl-Delay-Optimierung
Crawl-Delay-Direktiven helfen bei der Server-Entlastung:
User-agent: *
Crawl-delay: 1
Empfohlene Werte:
- Kleine Websites: 0-1 Sekunde
- Große Websites: 1-2 Sekunden
- E-Commerce: 2-5 Sekunden
4. Sitemap-Integration
Immer die XML-Sitemap in der robots.txt referenzieren:
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml
Sitemap: https://example.com/sitemap-news.xml
Häufige Robots.txt-Fehler
1. Syntax-Fehler
2. Logische Fehler
Problem: Widersprüchliche Regeln
User-agent: *
Disallow: /admin/
Allow: /admin/public/
Lösung: Spezifischere Regeln zuerst
User-agent: *
Allow: /admin/public/
Disallow: /admin/
3. Übermäßige Restriktionen
Vermeiden:
User-agent: *
Disallow: /
Besser:
User-agent: *
Disallow: /private/
Disallow: /admin/
Disallow: /temp/
Robots.txt für verschiedene Website-Typen
E-Commerce-Websites
User-agent: *
Allow: /products/
Allow: /categories/
Disallow: /checkout/
Disallow: /cart/
Disallow: /user/
Disallow: /admin/
Disallow: /search?*
Disallow: /filter?*
Sitemap: https://shop.example.com/sitemap.xml
Blog-Websites
User-agent: *
Allow: /posts/
Allow: /categories/
Allow: /tags/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /?s=
Disallow: /search/
Sitemap: https://blog.example.com/sitemap.xml
Corporate-Websites
User-agent: *
Allow: /about/
Allow: /services/
Allow: /contact/
Disallow: /internal/
Disallow: /drafts/
Disallow: /test/
Sitemap: https://company.example.com/sitemap.xml
Testing und Validierung
1. Google Search Console
Die Google Search Console bietet ein integriertes Testing-Tool:
- Robots.txt-Tester aufrufen
- URL testen eingeben
- Crawling-Status überprüfen
- Fehler identifizieren und beheben
2. Online-Validierungstools
Empfohlene Tools:
- Google Search Console Robots.txt-Tester
- Screaming Frog SEO Spider
- Ryte Website Checker
- SEMrush Site Audit
3. Manuelle Tests
Test-Checkliste:
- [ ] Datei ist unter
/robots.txterreichbar - [ ] Syntax ist korrekt
- [ ] Keine 404-Fehler
- [ ] Sitemap-URLs funktionieren
- [ ] Crawl-Delay ist angemessen
Advanced Robots.txt-Techniken
1. Wildcard-Nutzung
User-agent: *
Disallow: /private*
Disallow: /*.pdf$
Disallow: /temp/
2. Spezifische Crawler-Regeln
User-agent: Googlebot
Allow: /important-content/
Disallow: /admin/
User-agent: Bingbot
Crawl-delay: 2
Disallow: /admin/
3. Sitemap-Index-Integration
Sitemap: https://example.com/sitemap-index.xml
Sitemap: https://example.com/sitemap-pages.xml
Sitemap: https://example.com/sitemap-images.xml
Sitemap: https://example.com/sitemap-news.xml
Beobachtung und Wartung
1. Regelmäßige Überprüfung
Wöchentliche Tasks:
- Crawling-Errors in GSC prüfen
- Neue Verzeichnisse auf Blocking-Bedarf bewerten
- Sitemap-URLs validieren
Monatliche Reviews:
- Vollständige robots.txt-Analyse
- Crawl-Budget-Optimierung
- Performance-Impact messen
2. Änderungsmanagement
Bei Website-Änderungen:
- Neue Verzeichnisse bewerten
- Robots.txt aktualisieren
- Testing durchführen
- GSC über Änderungen informieren