Robots.txt - Grundlagen und Bewährte Praktiken 2025

Was ist eine Robots.txt-Datei?

Die robots.txt-Datei ist ein wichtiges technisches SEO-Element, das Website-Betreibern ermöglicht, Suchmaschinen-Crawlern mitzuteilen, welche Bereiche einer Website gecrawlt werden dürfen und welche nicht. Sie fungiert als "Hausordnung" für Webcrawler und ist ein zentraler Bestandteil des technischen SEO.

Grundlegende Funktionen

Die robots.txt-Datei erfüllt mehrere wichtige Funktionen:

Crawling-Steuerung: Bestimmt, welche Verzeichnisse und Dateien gecrawlt werden dürfen
Crawl-Budget-Optimierung: Lenkt Crawler zu wichtigen Inhalten
Server-Entlastung: Verhindert unnötige Crawling-Anfragen
URL-Liste-Verweis: Zeigt Crawlern den Standort der XML-Sitemap

Robots.txt-Syntax und Struktur

Basis-Syntax

Die robots.txt-Datei folgt einer einfachen, aber präzisen Syntax:

User-agent: [Crawler-Name]
Disallow: [Verbotener Pfad]
Allow: [Erlaubter Pfad]
Crawl-delay: [Sekunden]
Sitemap: [Sitemap-URL]

User-Agent-Direktiven

Die User-Agent-Direktive spezifiziert, für welchen Crawler die Regeln gelten:

User-Agent

Beschreibung

Verwendung

Alle Crawler

Standardregeln für alle Bots

Googlebot

Google's Hauptcrawler

Spezifische Google-Regeln

Bingbot

Microsoft Bing Crawler

Bing-spezifische Regeln

Slurp

Yahoo Crawler

Yahoo-spezifische Regeln

Disallow-Direktiven

Disallow-Direktiven definieren, welche Pfade nicht gecrawlt werden sollen:

Disallow: / - Blockiert die gesamte Website
Disallow: /admin/ - Blockiert das Admin-Verzeichnis
Disallow: *.pdf - Blockiert alle PDF-Dateien
Disallow: /private/ - Blockiert den private-Ordner

Allow-Direktiven

Allow-Direktiven überschreiben Disallow-Regeln:

Allow: /public/ - Erlaubt Crawling des public-Ordners
Allow: /important-page.html - Erlaubt spezifische Seite

Best Practices für Robots.txt

1. Datei-Platzierung

Die robots.txt-Datei muss im Root-Verzeichnis der Domain platziert werden:

✅ https://example.com/robots.txt
❌ https://example.com/subfolder/robots.txt

2. Dateigröße und Format

Aspekt

Empfehlung

Begründung

Dateigröße

Max. 500 KB

Google-Limit für robots.txt

Zeichenkodierung

UTF-8

Unterstützung internationaler Zeichen

Zeilenenden

Unix (LF)

Konsistenz mit Web-Standards

Leerzeilen

Vermeiden

Klarere Struktur

3. Crawl-Delay-Optimierung

Crawl-Delay-Direktiven helfen bei der Server-Entlastung:

User-agent: *
Crawl-delay: 1

Empfohlene Werte:

Kleine Websites: 0-1 Sekunde
Große Websites: 1-2 Sekunden
E-Commerce: 2-5 Sekunden

4. Sitemap-Integration

Immer die XML-Sitemap in der robots.txt referenzieren:

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml
Sitemap: https://example.com/sitemap-news.xml

Häufige Robots.txt-Fehler

1. Syntax-Fehler

Fehler

Korrekt

Problem

User-Agent: *

User-agent: *

Groß-/Kleinschreibung

Disallow: /folder

Disallow: /folder/

Trailing Slash fehlt

Allow: /folder

Allow: /folder/

Konsistenz mit Disallow

2. Logische Fehler

Problem: Widersprüchliche Regeln

User-agent: *
Disallow: /admin/
Allow: /admin/public/

Lösung: Spezifischere Regeln zuerst

User-agent: *
Allow: /admin/public/
Disallow: /admin/

3. Übermäßige Restriktionen

Vermeiden:

User-agent: *
Disallow: /

Besser:

User-agent: *
Disallow: /private/
Disallow: /admin/
Disallow: /temp/

Robots.txt für verschiedene Website-Typen

E-Commerce-Websites

User-agent: *
Allow: /products/
Allow: /categories/
Disallow: /checkout/
Disallow: /cart/
Disallow: /user/
Disallow: /admin/
Disallow: /search?*
Disallow: /filter?*
Sitemap: https://shop.example.com/sitemap.xml

Blog-Websites

User-agent: *
Allow: /posts/
Allow: /categories/
Allow: /tags/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /?s=
Disallow: /search/
Sitemap: https://blog.example.com/sitemap.xml

Corporate-Websites

User-agent: *
Allow: /about/
Allow: /services/
Allow: /contact/
Disallow: /internal/
Disallow: /drafts/
Disallow: /test/
Sitemap: https://company.example.com/sitemap.xml

Testing und Validierung

1. Google Search Console

Die Google Search Console bietet ein integriertes Testing-Tool:

Robots.txt-Tester aufrufen
URL testen eingeben
Crawling-Status überprüfen
Fehler identifizieren und beheben

2. Online-Validierungstools

Empfohlene Tools:

Google Search Console Robots.txt-Tester
Screaming Frog SEO Spider
Ryte Website Checker
SEMrush Site Audit

3. Manuelle Tests

Test-Checkliste:

[ ] Datei ist unter /robots.txt erreichbar
[ ] Syntax ist korrekt
[ ] Keine 404-Fehler
[ ] Sitemap-URLs funktionieren
[ ] Crawl-Delay ist angemessen

Advanced Robots.txt-Techniken

1. Wildcard-Nutzung

User-agent: *
Disallow: /private*
Disallow: /*.pdf$
Disallow: /temp/

2. Spezifische Crawler-Regeln

User-agent: Googlebot
Allow: /important-content/
Disallow: /admin/

User-agent: Bingbot
Crawl-delay: 2
Disallow: /admin/

3. Sitemap-Index-Integration

Sitemap: https://example.com/sitemap-index.xml
Sitemap: https://example.com/sitemap-pages.xml
Sitemap: https://example.com/sitemap-images.xml
Sitemap: https://example.com/sitemap-news.xml

Beobachtung und Wartung

1. Regelmäßige Überprüfung

Wöchentliche Tasks:

Crawling-Errors in GSC prüfen
Neue Verzeichnisse auf Blocking-Bedarf bewerten
Sitemap-URLs validieren

Monatliche Reviews:

Vollständige robots.txt-Analyse
Crawl-Budget-Optimierung
Performance-Impact messen

2. Änderungsmanagement

Bei Website-Änderungen:

Neue Verzeichnisse bewerten
Robots.txt aktualisieren
Testing durchführen
GSC über Änderungen informieren