Definition
Technical SEO im Bereich Crawlability (Crawlbarkeit) bezeichnet die technischen Maßnahmen an einer Website, die sicherstellen, dass Suchmaschinen-Bots die Seitenstruktur und deren Inhalte fehlerfrei erfassen können. Es handelt sich um die technische Grundvoraussetzung für die Indexierung (Aufnahme in die Suchmaschinendatenbank) von Webdokumenten.
Bedeutung
Die Crawlbarkeit ist ein fundamentaler Bestandteil der Suchmaschinenoptimierung, da nicht erfasste Inhalte nicht in den Suchergebnissen erscheinen können. Bei umfangreichen Websites wie E-Commerce-Plattformen limitiert das sogenannte Crawl-Budget (die Anzahl der Seiten, die ein Bot pro Besuch abruft) die Erfassung. Eine fehlerhafte Architektur führt dazu, dass Suchmaschinen Ressourcen an irrelevante Seiten verschwenden, während wichtige Inhalte unentdeckt bleiben.
Funktionsweise
Suchmaschinen nutzen automatisierte Programme, sogenannte Crawler oder Spider (wie den Googlebot), um Links im Internet systematisch zu folgen. Die Steuerung dieser Bots erfolgt primär über die Datei robots.txt, welche Verzeichnisse für das Crawling freigibt oder sperrt. Zusätzlich liefert eine XML-Sitemap (ein maschinenlesbares Inhaltsverzeichnis) direkte Pfade zu allen relevanten URLs. Der Crawler analysiert HTTP-Statuscodes (Serverantworten), wobei ein Code wie 200 (OK) eine erfolgreiche Erfassung signalisiert, während Weiterleitungsketten (Status 301) oder Fehler (Status 404) den Prozess verlangsamen oder abbrechen. Eine flache Informationsarchitektur stellt sicher, dass der Bot jede Unterseite mit wenigen Klicks von der Startseite aus erreicht.
Praxisbeispiel
Ein Onlineshop mit tausenden Produkten generiert durch Filterfunktionen (wie Farbe oder Größe) dynamisch eine Vielzahl an Parameter-URLs. Um zu verhindern, dass der Suchmaschinen-Bot sein Crawl-Budget für diese nahezu identischen Filterseiten aufbraucht, werden diese Parameter über die robots.txt gesperrt und per Canonical-Tag (Verweis auf die Original-URL) konsolidiert. Dadurch konzentriert der Bot seine Ressourcen auf die Erfassung der eigentlichen Produktdetailseiten und Kategorien.
Verwandte Begriffe
- Indexierung: Der Prozess, bei dem Suchmaschinen die gecrawlten Daten verarbeiten und in ihre Datenbank aufnehmen.
- Crawl-Budget: Die begrenzte Anzahl an URLs, die ein Suchmaschinen-Bot innerhalb eines bestimmten Zeitraums auf einer Domain abruft.
- robots.txt: Eine Textdatei im Stammverzeichnis einer Website, die Crawlern Anweisungen gibt, welche Bereiche durchsucht werden dürfen.
- XML-Sitemap: Eine strukturierte Datei, die Suchmaschinen alle relevanten URLs einer Website sowie deren Aktualisierungsdatum auflistet.
- Canonical-Tag: Ein HTML-Element, das Suchmaschinen bei doppelten Inhalten auf die bevorzugte Hauptversion einer Webseite hinweist.