Die robots.txt ist eine standardisierte Textdatei, die im Root-Verzeichnis einer Domain liegt (z. B. example.com/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen, welche URL-Pfade gecrawlt werden dürfen (Allow) und welche blockiert werden sollen (Disallow). Zusätzlich kann sie auf die XML-Sitemap verweisen.
Bedeutung
Eine korrekte robots.txt steuert das Crawl-Budget effizient. Große Websites mit tausenden URLs profitieren davon, irrelevante Bereiche (Admin-Panels, Suchergebnisseiten, Tag-Archive) vom Crawling auszuschließen. Fehler in der robots.txt können hingegen verheerende Auswirkungen haben — ein versehentliches Disallow: / blockiert die gesamte Website.
Funktionsweise
Die Datei verwendet einfache Direktiven: User-agent (welcher Crawler), Disallow (blockierter Pfad), Allow (explizit erlaubter Pfad innerhalb eines blockierten Bereichs) und Sitemap (Verweis auf die XML-Sitemap). Wichtig: robots.txt ist eine Empfehlung, keine Sicherheitsmaßnahme — sensible Inhalte müssen zusätzlich durch Authentifizierung geschützt werden.
Verwandte Begriffe
- Sitemap: Die XML-Sitemap wird in der robots.txt referenziert und hilft Crawlern, alle relevanten URLs zu finden.
- Technical SEO: Die robots.txt ist ein zentrales Element der technischen Suchmaschinenoptimierung.
- Index/Noindex: Granulare Steuerung der Indexierung auf Seitenebene, ergänzend zur robots.txt.