{{ title }} | SEO-Wiki

Die robots.txt Datei ist ein wichtiges technisches SEO-Element, das Website-Betreibern ermöglicht, Suchmaschinen-Crawlern mitzuteilen, welche Bereiche einer Website gecrawlt werden dürfen und welche nicht. Diese Datei befindet sich im Root-Verzeichnis einer Domain und folgt einem spezifischen Syntax-Format.

Grundlegende Syntax-Regeln

1. Datei-Format und -Speicherort

Die robots.txt Datei muss:

Im Root-Verzeichnis der Domain gespeichert werden (z.B. https://example.com/robots.txt)
Als reine Textdatei vorliegen
UTF-8 kodiert sein
Kleinbuchstaben verwenden (robots.txt, nicht Robots.txt)

2. Grundstruktur

User-agent: [Crawler-Name]
Disallow: [Pfad]
Allow: [Pfad]
Crawl-delay: [Sekunden]
Sitemap: [URL]

User-Agent Direktiven

Spezifische Crawler ansprechen

User-agent: Googlebot
Disallow: /admin/

User-agent: Bingbot
Disallow: /private/

Alle Crawler ansprechen

User-agent: *
Disallow: /temp/

Häufige User-Agents

Crawler

User-Agent

Zweck

Google

Googlebot

Web-Crawling

Google Images

Googlebot-Image

Bild-Indexierung

Bing

Bingbot

Web-Crawling

Yahoo

Slurp

Web-Crawling

Facebook

facebookexternalhit

Link-Preview

Disallow und Allow Direktiven

Disallow verwenden

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /temp/

Allow verwenden

User-agent: *
Disallow: /images/
Allow: /images/public/

Wildcards und Pattern Matching

User-agent: *
Disallow: /*.pdf$
Disallow: /temp/*
Disallow: /admin/

Crawl-Delay Direktive

Crawling-Geschwindigkeit kontrollieren

User-agent: *
Crawl-delay: 10

Crawler-spezifische Delays

User-agent: Googlebot
Crawl-delay: 1

User-agent: Bingbot
Crawl-delay: 5

Sitemap Direktive

XML-Sitemaps angeben

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml
Sitemap: https://example.com/sitemap-news.xml

Häufige Syntax-Fehler

1. Falsche Groß-/Kleinschreibung

❌ Falsch:

User-Agent: *
DisAllow: /admin/

✅ Richtig:

User-agent: *
Disallow: /admin/

2. Fehlende Doppelpunkte

❌ Falsch:

User-agent *
Disallow /admin/

✅ Richtig:

User-agent: *
Disallow: /admin/

3. Leerzeichen vor Doppelpunkten

❌ Falsch:

User-agent : *
Disallow : /admin/

✅ Richtig:

User-agent: *
Disallow: /admin/

4. Mehrfache User-Agent Blöcke

❌ Falsch:

User-agent: *
Disallow: /admin/

User-agent: *
Disallow: /private/

✅ Richtig:

User-agent: *
Disallow: /admin/
Disallow: /private/

Best Practices für Robots.txt

1. Vollständige Blockierung vermeiden

❌ Vorsicht bei:

User-agent: *
Disallow: /

2. Wichtige Bereiche freigeben

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
Allow: /css/
Allow: /js/
Allow: /images/

3. Sitemap-URLs angeben

User-agent: *
Disallow: /admin/

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml

4. Kommentare für Dokumentation

# Hauptrobots.txt für example.com
# Letzte Aktualisierung: 2025-01-21

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/

# Sitemaps
Sitemap: https://example.com/sitemap.xml

Testing und Validierung

1. Google Search Console

Robots.txt Tester verwenden
Crawling-Status überprüfen
Fehler identifizieren

2. Online-Tools

Robots.txt Validatoren nutzen
Syntax-Checker verwenden
Crawling-Simulation testen

3. Manuelle Tests

curl -A "Googlebot" https://example.com/robots.txt

Erweiterte Konfigurationen

E-Commerce Websites

User-agent: *
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
Disallow: /search?*
Allow: /products/
Allow: /categories/

Sitemap: https://example.com/sitemap-products.xml
Sitemap: https://example.com/sitemap-categories.xml

Multilingual Websites

User-agent: *
Disallow: /admin/
Disallow: /private/

Sitemap: https://example.com/sitemap-de.xml
Sitemap: https://example.com/sitemap-en.xml
Sitemap: https://example.com/sitemap-fr.xml

Development/Staging Umgebungen

User-agent: *
Disallow: /

# Nur für interne Tests
User-agent: InternalBot
Allow: /

Monitoring und Wartung

1. Regelmäßige Überprüfung

Monatliche Syntax-Validierung
Crawling-Logs analysieren
Sitemap-Status prüfen

2. Änderungen dokumentieren

Versionskontrolle nutzen
Änderungsprotokoll führen
Team informieren

3. Performance-Monitoring

Crawling-Frequenz überwachen
Server-Last beobachten
Crawl-Budget optimieren

Häufige Probleme und Lösungen

Problem: Crawler ignorieren Robots.txt

Lösung:

Syntax-Fehler beheben
User-Agent korrekt spezifizieren
Crawl-Delay anpassen

Problem: Wichtige Seiten nicht gecrawlt

Lösung:

Allow-Direktiven hinzufügen
Disallow-Regeln überprüfen
Sitemap aktualisieren

Problem: Zu viele Crawling-Anfragen

Lösung:

Crawl-Delay erhöhen
Unnötige Bereiche blockieren
Crawl-Budget optimieren

Checkliste für Robots.txt

☐ Datei im Root-Verzeichnis gespeichert
☐ UTF-8 Kodierung verwendet
☐ Syntax korrekt (Groß-/Kleinschreibung)
☐ Doppelpunkte nach Direktiven
☐ Keine Leerzeichen vor Doppelpunkten
☐ Sitemap-URLs angegeben
☐ Wichtige Bereiche freigegeben
☐ Kommentare für Dokumentation
☐ Mit Tools validiert
☐ In GSC getestet

Grundlegende Syntax-Regeln

1. Datei-Format und -Speicherort

2. Grundstruktur

User-Agent Direktiven

Spezifische Crawler ansprechen

Alle Crawler ansprechen

Häufige User-Agents

Disallow und Allow Direktiven

Disallow verwenden

Allow verwenden

Wildcards und Pattern Matching

Crawl-Delay Direktive

Crawling-Geschwindigkeit kontrollieren

Crawler-spezifische Delays

Sitemap Direktive

XML-Sitemaps angeben

Häufige Syntax-Fehler

1. Falsche Groß-/Kleinschreibung

2. Fehlende Doppelpunkte

3. Leerzeichen vor Doppelpunkten

4. Mehrfache User-Agent Blöcke

Best Practices für Robots.txt

1. Vollständige Blockierung vermeiden

2. Wichtige Bereiche freigeben

3. Sitemap-URLs angeben

4. Kommentare für Dokumentation

Testing und Validierung

1. Google Search Console

2. Online-Tools

3. Manuelle Tests

Erweiterte Konfigurationen

E-Commerce Websites

Multilingual Websites

Development/Staging Umgebungen

Monitoring und Wartung

1. Regelmäßige Überprüfung

2. Änderungen dokumentieren

3. Performance-Monitoring

Häufige Probleme und Lösungen

Problem: Crawler ignorieren Robots.txt

Problem: Wichtige Seiten nicht gecrawlt

Problem: Zu viele Crawling-Anfragen

Checkliste für Robots.txt

Verwandte Themen