Robots.txt - Grundlagen und Best Practices 2025

Was ist eine Robots.txt-Datei?

Die robots.txt-Datei ist ein wichtiges technisches SEO-Element, das Website-Betreibern ermöglicht, Suchmaschinen-Crawlern mitzuteilen, welche Bereiche einer Website gecrawlt werden dürfen und welche nicht. Sie fungiert als "Hausordnung" für Webcrawler und ist ein zentraler Bestandteil des technischen SEO.

Grundlegende Funktionen

Die robots.txt-Datei erfüllt mehrere wichtige Funktionen:

  1. Spider-Aktivität-Steuerung: Bestimmt, welche Verzeichnisse und Dateien gecrawlt werden dürfen
  2. Crawl-Budget-Optimierung: Lenkt Crawler zu wichtigen Inhalten
  3. Server-Entlastung: Verhindert unnötige Crawling-Anfragen
  4. Sitemap-Verweis: Zeigt Crawlern den Standort der XML-Sitemap

Robots.txt-Syntax und Struktur

Basis-Syntax

Die robots.txt-Datei folgt einer einfachen, aber präzisen Syntax:

User-agent: [Crawler-Name]
Disallow: [Verbotener Pfad]
Allow: [Erlaubter Pfad]
Crawl-delay: [Sekunden]
Sitemap: [Sitemap-URL]

User-Agent-Direktiven

Die User-Agent-Direktive spezifiziert, für welchen Crawler die Regeln gelten:

User-Agent
Beschreibung
Verwendung
*
Alle Crawler
Standardregeln für alle Bots
Googlebot
Google's Hauptcrawler
Spezifische Google-Regeln
Bingbot
Microsoft Bing Crawler
Bing-spezifische Regeln
Slurp
Yahoo Crawler
Yahoo-spezifische Regeln

Disallow-Direktiven

Disallow-Direktiven definieren, welche Pfade nicht gecrawlt werden sollen:

  • Disallow: / - Blockiert die gesamte Website
  • Disallow: /admin/ - Blockiert das Admin-Verzeichnis
  • Disallow: *.pdf - Blockiert alle PDF-Dateien
  • Disallow: /private/ - Blockiert den private-Ordner

Allow-Direktiven

Allow-Direktiven überschreiben Disallow-Regeln:

  • Allow: /public/ - Erlaubt Crawling des public-Ordners
  • Allow: /important-page.html - Erlaubt spezifische Seite

Best Practices für Robots.txt

1. Datei-Platzierung

Die robots.txt-Datei muss im Root-Verzeichnis der Domain platziert werden:

  • https://example.com/robots.txt
  • https://example.com/subfolder/robots.txt

2. Dateigröße und Format

Aspekt
Empfehlung
Begründung
Dateigröße
Max. 500 KB
Google-Limit für robots.txt
Zeichenkodierung
UTF-8
Unterstützung internationaler Zeichen
Zeilenenden
Unix (LF)
Konsistenz mit Web-Standards
Leerzeilen
Vermeiden
Klarere Struktur

3. Crawl-Delay-Optimierung

Crawl-Delay-Direktiven helfen bei der Server-Entlastung:

User-agent: *
Crawl-delay: 1

Empfohlene Werte:

  • Kleine Websites: 0-1 Sekunde
  • Große Websites: 1-2 Sekunden
  • E-Commerce: 2-5 Sekunden

4. Sitemap-Integration

Immer die XML-Sitemap in der robots.txt referenzieren:

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml
Sitemap: https://example.com/sitemap-news.xml

Häufige Robots.txt-Fehler

1. Syntax-Fehler

Fehler
Korrekt
Problem
User-Agent: *
User-agent: *
Groß-/Kleinschreibung
Disallow: /folder
Disallow: /folder/
Trailing Slash fehlt
Allow: /folder
Allow: /folder/
Konsistenz mit Disallow

2. Logische Fehler

Problem: Widersprüchliche Regeln

User-agent: *
Disallow: /admin/
Allow: /admin/public/

Lösung: Spezifischere Regeln zuerst

User-agent: *
Allow: /admin/public/
Disallow: /admin/

3. Übermäßige Restriktionen

Vermeiden:

User-agent: *
Disallow: /

Besser:

User-agent: *
Disallow: /private/
Disallow: /admin/
Disallow: /temp/

Robots.txt für verschiedene Website-Typen

E-Commerce-Websites

User-agent: *
Allow: /products/
Allow: /categories/
Disallow: /checkout/
Disallow: /cart/
Disallow: /user/
Disallow: /admin/
Disallow: /search?*
Disallow: /filter?*
Sitemap: https://shop.example.com/sitemap.xml

Blog-Websites

User-agent: *
Allow: /posts/
Allow: /categories/
Allow: /tags/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /?s=
Disallow: /search/
Sitemap: https://blog.example.com/sitemap.xml

Corporate-Websites

User-agent: *
Allow: /about/
Allow: /services/
Allow: /contact/
Disallow: /internal/
Disallow: /drafts/
Disallow: /test/
Sitemap: https://company.example.com/sitemap.xml

Testing und Verifikation

1. Google Search Console

Die Google Search Console bietet ein integriertes Testing-Tool:

  1. Robots.txt-Tester aufrufen
  2. URL testen eingeben
  3. Crawling-Status überprüfen
  4. Fehler identifizieren und beheben

2. Online-Validierungstools

Empfohlene Tools:

  • Google Search Console Robots.txt-Tester
  • Screaming Frog SEO Spider
  • Ryte Website Checker
  • SEMrush Site Audit

3. Manuelle Tests

Test-Checkliste:

  • [ ] Datei ist unter /robots.txt erreichbar
  • [ ] Syntax ist korrekt
  • [ ] Keine 404-Fehler
  • [ ] Sitemap-URLs funktionieren
  • [ ] Crawl-Delay ist angemessen

Advanced Robots.txt-Techniken

1. Wildcard-Nutzung

User-agent: *
Disallow: /private*
Disallow: /*.pdf$
Disallow: /temp/

2. Spezifische Crawler-Regeln

User-agent: Googlebot
Allow: /important-content/
Disallow: /admin/

User-agent: Bingbot
Crawl-delay: 2
Disallow: /admin/

3. Sitemap-Index-Integration

Sitemap: https://example.com/sitemap-index.xml
Sitemap: https://example.com/sitemap-pages.xml
Sitemap: https://example.com/sitemap-images.xml
Sitemap: https://example.com/sitemap-news.xml

Monitoring und Wartung

1. Regelmäßige Überprüfung

Wöchentliche Tasks:

  • Crawling-Errors in GSC prüfen
  • Neue Verzeichnisse auf Blocking-Bedarf bewerten
  • Sitemap-URLs validieren

Monatliche Reviews:

  • Vollständige robots.txt-Analyse
  • Crawl-Budget-Optimierung
  • Performance-Impact messen

2. Änderungsmanagement

Bei Website-Änderungen:

  1. Neue Verzeichnisse bewerten
  2. Robots.txt aktualisieren
  3. Testing durchführen
  4. GSC über Änderungen informieren

Verwandte Themen