robots.txt

Die robots.txt ist eine standardisierte Textdatei, die im Root-Verzeichnis einer Domain liegt (z. B. example.com/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen, welche URL-Pfade gecrawlt werden dürfen (Allow) und welche blockiert werden sollen (Disallow). Zusätzlich kann sie auf die XML-Sitemap verweisen.

Bedeutung

Eine korrekte robots.txt steuert das Crawl-Budget effizient. Große Websites mit tausenden URLs profitieren davon, irrelevante Bereiche (Admin-Panels, Suchergebnisseiten, Tag-Archive) vom Crawling auszuschließen. Fehler in der robots.txt können hingegen verheerende Auswirkungen haben — ein versehentliches Disallow: / blockiert die gesamte Website.

Funktionsweise

Die Datei verwendet einfache Direktiven: User-agent (welcher Crawler), Disallow (blockierter Pfad), Allow (explizit erlaubter Pfad innerhalb eines blockierten Bereichs) und Sitemap (Verweis auf die XML-Sitemap). Wichtig: robots.txt ist eine Empfehlung, keine Sicherheitsmaßnahme — sensible Inhalte müssen zusätzlich durch Authentifizierung geschützt werden.

Bedeutung

Funktionsweise

Verwandte Begriffe

Sind Sie bereit für planbares
digitales Wachstum?

Bedeutung

Funktionsweise

Verwandte Begriffe

Sind Sie bereit für planbaresdigitales Wachstum?

Newsletter

Sind Sie bereit für planbares
digitales Wachstum?