Braucht meine Website eine robots.txt?

Ja. Auch wenn sie nur `User-agent: * Disallow:` enthält — eine fehlende robots.txt verursacht 404-Fehler in den Server-Logs und Crawler raten.

Kann ich mit robots.txt Seiten aus dem Index entfernen?

Nein. robots.txt verhindert Crawling, nicht Indexierung. Für De-Indexierung brauchst du `noindex` im ` `-Tag oder HTTP-Header.

Robots.txt richtig schreiben — mit 5 Beispielen für KMU-Websites | mekyn

Definition

robots.txt ist eine Textdatei im Wurzelverzeichnis einer Domain (/robots.txt), die per Robots-Exclusion-Protocol festlegt, welche Suchmaschinen-Crawler welche Seiten crawlen dürfen. Sie ist kein Sicherheitsmechanismus, sondern eine freiwillige Vereinbarung — die größten Crawler halten sich daran.

Was ist eine robots.txt?

Eine Textdatei im Wurzelverzeichnis einer Domain, die Suchmaschinen-Crawlern Anweisungen gibt, welche Bereiche sie crawlen dürfen und welche nicht.

Was robots.txt kann — und was nicht

robots.txt wird oft falsch verstanden. Hier die harten Fakten:

✅ Kann: Crawler von bestimmten Verzeichnissen ausschließen (Disallow)
✅ Kann: Crawl-Geschwindigkeit begrenzen (Crawl-delay)
✅ Kann: Sitemap-URL bekannt geben (Sitemap)
❌ Kann nicht: Seiten aus dem Google-Index entfernen (dafür noindex)
❌ Kann nicht: Seiten vor neugierigen Blicken verstecken (URL ist trotzdem erreichbar)
❌ Kann nicht: PageRank-Weitergabe verhindern (dafür nofollow)

Auf einen Blick

5 praxiserprobte robots.txt-Konfigurationen

Die Minimal-Konfiguration — Erlaubt alles, verweist auf Sitemap
Die KMU-Website — Blockiert Admin- und API-Pfade
Die eCommerce-Site — Blockiert Filter-URLs, Warenkorb, Checkout
Die SaaS-Plattform — Blockiert App-Bereich, erlaubt Marketing
Die No-Crawl-Konfiguration — Blockiert alles (für Staging)

Beispiel 1: Die Minimal-Konfiguration

User-agent: *
Allow: /

Sitemap: https://meineseite.de/sitemap.xml

Das ist die mekyn.com-Konfiguration. Alles ist erlaubt, die Sitemap ist bekannt. Kein Crawl-Budget wird verschwendet, keine wichtigen Seiten werden blockiert.

Beispiel 2: Die KMU-Website mit Admin-Bereich

User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /wp-admin/
Allow: /

Sitemap: https://meineseite.de/sitemap.xml

Blockiert typische Admin-Pfade, die nicht in den Index gehören. Crawler verschwenden kein Budget an Login-Seiten und API-Endpunkte.

Beispiel 3: eCommerce — Filter und Checkout blockieren

User-agent: *
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /mein-konto/
Disallow: /*?*  # Blockiert alle URL-Parameter (Filter, Sortierung)
Allow: /

Sitemap: https://shop.de/sitemap.xml
Crawl-delay: 2

eCommerce-Sites haben tausende Filterkombinationen. Ohne robots.txt-Blockierung crawlen Bots unendlich viele Varianten derselben Kategorieseite. Crawl-delay: 2 schont den Server.

Beispiel 4: SaaS — Marketing erlauben, App blockieren

User-agent: *
Disallow: /app/
Disallow: /api/
Disallow: /login
Allow: /

Sitemap: https://saas.de/sitemap-pages.xml
Sitemap: https://saas.de/sitemap-blog.xml

Die Marketing-Seiten sollen ranken, die App hinter Login soll nicht im Index landen. Getrennte Sitemaps für Pages und Blog.

Beispiel 5: Staging — alles blockieren

User-agent: *
Disallow: /

Staging-Sites sollen nicht im Index landen. Diese Konfiguration blockiert alle Crawler komplett. Zusätzlich sollte HTTP-Auth oder IP-Whitelisting aktiv sein.

Die fünf häufigsten robots.txt-Fehler

Leere Datei oder 404: Crawler raten und crawlen alles. Immer mindestens User-agent: * Allow: / liefern.
Disallow: / vergessen auf Staging: Die Staging-Site wird indexiert und konkurriert mit der Live-Site.
Falsche Reihenfolge: robots.txt-Regeln werden von oben nach unten ausgewertet. Spezifischere Regeln müssen über allgemeinen stehen.
Wildcard-Fehler: Disallow: /*? blockiert alle URLs mit ?, inklusive legitimer UTM-Parameter. Gezielter: Disallow: /filter-*.
Sitemap-URL auf HTTP statt HTTPS: Crawler folgen dem Link — wenn die Sitemap auf HTTP zeigt, crawlen sie unnötig die ungesicherte Version.

Weiterführend auf mekyn.com

→ Zur Pillar-Page: Seo → Verwandt: Canonical Tags → Verwandt: Meta Descriptions → Tool: Kontrast Rechner

Externe Quellen:

Robots.txt richtig schreiben — mit 5 Beispielen für KMU-Websites

Was ist eine robots.txt?

Was robots.txt kann — und was nicht

5 praxiserprobte robots.txt-Konfigurationen

Beispiel 1: Die Minimal-Konfiguration

Beispiel 2: Die KMU-Website mit Admin-Bereich

Beispiel 3: eCommerce — Filter und Checkout blockieren

Beispiel 4: SaaS — Marketing erlauben, App blockieren

Beispiel 5: Staging — alles blockieren

Die fünf häufigsten robots.txt-Fehler

Weiterführend auf mekyn.com

Canonical-Tags ohne Fallstricke — so vermeidest Du Duplicate Content

Meta-Descriptions, die wirklich klicken — 140 Zeichen mit Wirkung

Was ist eine robots.txt?

Was robots.txt kann — und was nicht

5 praxiserprobte robots.txt-Konfigurationen

Beispiel 1: Die Minimal-Konfiguration

Beispiel 2: Die KMU-Website mit Admin-Bereich

Beispiel 3: eCommerce — Filter und Checkout blockieren

Beispiel 4: SaaS — Marketing erlauben, App blockieren

Beispiel 5: Staging — alles blockieren

Die fünf häufigsten robots.txt-Fehler

Weiterführend auf mekyn.com

Verwandte Beiträge

Canonical-Tags ohne Fallstricke — so vermeidest Du Duplicate Content

Meta-Descriptions, die wirklich klicken — 140 Zeichen mit Wirkung