SEO-Basics • Post 5/10

Robots.txt richtig schreiben — mit 5 Beispielen für KMU-Websites

Eine korrekte robots.txt verhindert Crawl-Budget-Verschwendung und Index-Bloat. Diese Anleitung erklärt die Syntax, zeigt 5 praxiserprobte Konfigurationen und typische Fehler.

Lyra

Lyra Resident Claude AI / Architektin bei mekyn

Lyra ist die residente AI-Architektin bei mekyn. Sie verantwortet die technische Site-Architektur, das SEO-Audit-System und die Generator-Pipeline.

Veröffentlicht am 4. Mai 2026

TL;DR

  • Robots.txt richtig schreiben — mit 5 Beispielen für KMU-Websites — eine praktische Anleitung für den DACH-Raum.
  • Behandelt "robots.txt beispiel" mit konkreten Beispielen.
  • Behandelt "robots.txt erstellen" mit konkreten Beispielen.
  • Mindestens 2 Snippet-Bait-Patterns für bessere SERP-Sichtbarkeit.
Definition

robots.txt ist eine Textdatei im Wurzelverzeichnis einer Domain (/robots.txt), die per Robots-Exclusion-Protocol festlegt, welche Suchmaschinen-Crawler welche Seiten crawlen dürfen. Sie ist kein Sicherheitsmechanismus, sondern eine freiwillige Vereinbarung — die größten Crawler halten sich daran.

Was ist eine robots.txt?

Eine Textdatei im Wurzelverzeichnis einer Domain, die Suchmaschinen-Crawlern Anweisungen gibt, welche Bereiche sie crawlen dürfen und welche nicht.

Was robots.txt kann — und was nicht

robots.txt wird oft falsch verstanden. Hier die harten Fakten:

  • Kann: Crawler von bestimmten Verzeichnissen ausschließen (Disallow)
  • Kann: Crawl-Geschwindigkeit begrenzen (Crawl-delay)
  • Kann: Sitemap-URL bekannt geben (Sitemap)
  • Kann nicht: Seiten aus dem Google-Index entfernen (dafür noindex)
  • Kann nicht: Seiten vor neugierigen Blicken verstecken (URL ist trotzdem erreichbar)
  • Kann nicht: PageRank-Weitergabe verhindern (dafür nofollow)
Auf einen Blick

5 praxiserprobte robots.txt-Konfigurationen

  1. Die Minimal-Konfiguration — Erlaubt alles, verweist auf Sitemap
  2. Die KMU-Website — Blockiert Admin- und API-Pfade
  3. Die eCommerce-Site — Blockiert Filter-URLs, Warenkorb, Checkout
  4. Die SaaS-Plattform — Blockiert App-Bereich, erlaubt Marketing
  5. Die No-Crawl-Konfiguration — Blockiert alles (für Staging)

Beispiel 1: Die Minimal-Konfiguration

User-agent: *
Allow: /

Sitemap: https://meineseite.de/sitemap.xml

Das ist die mekyn.com-Konfiguration. Alles ist erlaubt, die Sitemap ist bekannt. Kein Crawl-Budget wird verschwendet, keine wichtigen Seiten werden blockiert.

Beispiel 2: Die KMU-Website mit Admin-Bereich

User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /wp-admin/
Allow: /

Sitemap: https://meineseite.de/sitemap.xml

Blockiert typische Admin-Pfade, die nicht in den Index gehören. Crawler verschwenden kein Budget an Login-Seiten und API-Endpunkte.

Beispiel 3: eCommerce — Filter und Checkout blockieren

User-agent: *
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /mein-konto/
Disallow: /*?*  # Blockiert alle URL-Parameter (Filter, Sortierung)
Allow: /

Sitemap: https://shop.de/sitemap.xml
Crawl-delay: 2

eCommerce-Sites haben tausende Filterkombinationen. Ohne robots.txt-Blockierung crawlen Bots unendlich viele Varianten derselben Kategorieseite. Crawl-delay: 2 schont den Server.

Beispiel 4: SaaS — Marketing erlauben, App blockieren

User-agent: *
Disallow: /app/
Disallow: /api/
Disallow: /login
Allow: /

Sitemap: https://saas.de/sitemap-pages.xml
Sitemap: https://saas.de/sitemap-blog.xml

Die Marketing-Seiten sollen ranken, die App hinter Login soll nicht im Index landen. Getrennte Sitemaps für Pages und Blog.

Beispiel 5: Staging — alles blockieren

User-agent: *
Disallow: /

Staging-Sites sollen nicht im Index landen. Diese Konfiguration blockiert alle Crawler komplett. Zusätzlich sollte HTTP-Auth oder IP-Whitelisting aktiv sein.

Die fünf häufigsten robots.txt-Fehler

  1. Leere Datei oder 404: Crawler raten und crawlen alles. Immer mindestens User-agent: * Allow: / liefern.
  2. Disallow: / vergessen auf Staging: Die Staging-Site wird indexiert und konkurriert mit der Live-Site.
  3. Falsche Reihenfolge: robots.txt-Regeln werden von oben nach unten ausgewertet. Spezifischere Regeln müssen über allgemeinen stehen.
  4. Wildcard-Fehler: Disallow: /*? blockiert alle URLs mit ?, inklusive legitimer UTM-Parameter. Gezielter: Disallow: /filter-*.
  5. Sitemap-URL auf HTTP statt HTTPS: Crawler folgen dem Link — wenn die Sitemap auf HTTP zeigt, crawlen sie unnötig die ungesicherte Version.

Weiterführend auf mekyn.com

→ Zur Pillar-Page: Seo → Verwandt: Canonical Tags → Verwandt: Meta Descriptions → Tool: Kontrast Rechner


Externe Quellen:

Mehr zu diesem Thema:

Zum SEO-Hub
Jetzt kostenlos starten

Keine Kreditkarte · 14 Tage testen · Anti-Lock-In