SEO-Basics • Post 5/10
Robots.txt richtig schreiben — mit 5 Beispielen für KMU-Websites
Eine korrekte robots.txt verhindert Crawl-Budget-Verschwendung und Index-Bloat. Diese Anleitung erklärt die Syntax, zeigt 5 praxiserprobte Konfigurationen und typische Fehler.
TL;DR
- Robots.txt richtig schreiben — mit 5 Beispielen für KMU-Websites — eine praktische Anleitung für den DACH-Raum.
- Behandelt "robots.txt beispiel" mit konkreten Beispielen.
- Behandelt "robots.txt erstellen" mit konkreten Beispielen.
- Mindestens 2 Snippet-Bait-Patterns für bessere SERP-Sichtbarkeit.
robots.txt ist eine Textdatei im Wurzelverzeichnis einer Domain (/robots.txt), die per Robots-Exclusion-Protocol festlegt, welche Suchmaschinen-Crawler welche Seiten crawlen dürfen. Sie ist kein Sicherheitsmechanismus, sondern eine freiwillige Vereinbarung — die größten Crawler halten sich daran.
Was ist eine robots.txt?
Eine Textdatei im Wurzelverzeichnis einer Domain, die Suchmaschinen-Crawlern Anweisungen gibt, welche Bereiche sie crawlen dürfen und welche nicht.
Was robots.txt kann — und was nicht
robots.txt wird oft falsch verstanden. Hier die harten Fakten:
- ✅ Kann: Crawler von bestimmten Verzeichnissen ausschließen (
Disallow) - ✅ Kann: Crawl-Geschwindigkeit begrenzen (
Crawl-delay) - ✅ Kann: Sitemap-URL bekannt geben (
Sitemap) - ❌ Kann nicht: Seiten aus dem Google-Index entfernen (dafür
noindex) - ❌ Kann nicht: Seiten vor neugierigen Blicken verstecken (URL ist trotzdem erreichbar)
- ❌ Kann nicht: PageRank-Weitergabe verhindern (dafür
nofollow)
5 praxiserprobte robots.txt-Konfigurationen
- Die Minimal-Konfiguration — Erlaubt alles, verweist auf Sitemap
- Die KMU-Website — Blockiert Admin- und API-Pfade
- Die eCommerce-Site — Blockiert Filter-URLs, Warenkorb, Checkout
- Die SaaS-Plattform — Blockiert App-Bereich, erlaubt Marketing
- Die No-Crawl-Konfiguration — Blockiert alles (für Staging)
Beispiel 1: Die Minimal-Konfiguration
User-agent: *
Allow: /
Sitemap: https://meineseite.de/sitemap.xml
Das ist die mekyn.com-Konfiguration. Alles ist erlaubt, die Sitemap ist bekannt. Kein Crawl-Budget wird verschwendet, keine wichtigen Seiten werden blockiert.
Beispiel 2: Die KMU-Website mit Admin-Bereich
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /wp-admin/
Allow: /
Sitemap: https://meineseite.de/sitemap.xml
Blockiert typische Admin-Pfade, die nicht in den Index gehören. Crawler verschwenden kein Budget an Login-Seiten und API-Endpunkte.
Beispiel 3: eCommerce — Filter und Checkout blockieren
User-agent: *
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /mein-konto/
Disallow: /*?* # Blockiert alle URL-Parameter (Filter, Sortierung)
Allow: /
Sitemap: https://shop.de/sitemap.xml
Crawl-delay: 2
eCommerce-Sites haben tausende Filterkombinationen. Ohne robots.txt-Blockierung crawlen Bots unendlich viele Varianten derselben Kategorieseite. Crawl-delay: 2 schont den Server.
Beispiel 4: SaaS — Marketing erlauben, App blockieren
User-agent: *
Disallow: /app/
Disallow: /api/
Disallow: /login
Allow: /
Sitemap: https://saas.de/sitemap-pages.xml
Sitemap: https://saas.de/sitemap-blog.xml
Die Marketing-Seiten sollen ranken, die App hinter Login soll nicht im Index landen. Getrennte Sitemaps für Pages und Blog.
Beispiel 5: Staging — alles blockieren
User-agent: *
Disallow: /
Staging-Sites sollen nicht im Index landen. Diese Konfiguration blockiert alle Crawler komplett. Zusätzlich sollte HTTP-Auth oder IP-Whitelisting aktiv sein.
Die fünf häufigsten robots.txt-Fehler
- Leere Datei oder 404: Crawler raten und crawlen alles. Immer mindestens
User-agent: * Allow: /liefern. Disallow: /vergessen auf Staging: Die Staging-Site wird indexiert und konkurriert mit der Live-Site.- Falsche Reihenfolge: robots.txt-Regeln werden von oben nach unten ausgewertet. Spezifischere Regeln müssen über allgemeinen stehen.
- Wildcard-Fehler:
Disallow: /*?blockiert alle URLs mit?, inklusive legitimer UTM-Parameter. Gezielter:Disallow: /filter-*. - Sitemap-URL auf HTTP statt HTTPS: Crawler folgen dem Link — wenn die Sitemap auf HTTP zeigt, crawlen sie unnötig die ungesicherte Version.
Weiterführend auf mekyn.com
→ Zur Pillar-Page: Seo → Verwandt: Canonical Tags → Verwandt: Meta Descriptions → Tool: Kontrast Rechner
Externe Quellen:
Mehr zu diesem Thema:
Zum SEO-HubKeine Kreditkarte · 14 Tage testen · Anti-Lock-In