Crawler sind Softwareprogramme, die das Internet durchforsten. Dabei analysieren und indexieren sie Inhalte wie Bilder, Texte oder Links. Suchmaschinen nutzen die gesammelten Informationen solcher Crawler, um für Suchen die relevantesten Suchergebnisse anzuzeigen. Außerdem werden Crawler auch Spider, Robot, Web-Crawler, Bot oder Searchbot genannt.

Wie funktioniert ein Crawler?

Ein Crawler besucht eine URL oder eine Liste mit mehreren URLs, wo er die Inhalte extrahiert und in einer Datenbank speichert. Dabei werden weitere URLs u. a. durch Verlinkungen gespeichert, um diese später auch zu besuchen. Mithilfe der gesammelten Informationen können beispielsweise Suchmaschinen ihre Suchergebnisse erstellen und gestalten.

Da sich die Inhalte einer Website ändern können, kommen Crawler von Suchmaschinen in regelmäßigen Abständen wieder vorbei. So werden auch neue URLs erfasst und indexiert. Eine Sitemap kann einem Suchmaschinen-Crawler durch eine systematische Aufschlüsselung der relevanten URLs / Inhalte das „Crawlen“ erleichtern.

Wenn Sie nicht möchten, dass ein Crawler einem bestimmten Link folgt, können Sie einem Link das Attribut rel=nofollow hinzufügen. Es ist auch möglich, bestimmte Seiten von einer Indexierung mit der Anweisung noindex in einem Meta-Tag im <head>-Bereich einer URL auszuschließen.

Für Content-Management-Systeme wie WordPress gibt es Erweiterungen, die solche Einstellungen für Indexierungsausschlüsse (z.B. Kategorieseiten, Tags, Autorenseiten) erleichtern.

Was sind die bekanntesten Crawler?

Es gibt verschiedene Arten von Crawlern. Gerade im SEO-Bereich sind natürlich besonders die Crawler der Suchmaschinen von großer Bedeutung. Dazu zählen zum Beispiel:

  • Googlebot (der Crawler von Googler)
  • Bingbot (… von Bing)
  • Baidu Spider (von Baidu)
  • Yandex Bot (von Yandex)
  • Yahoo! Slurp (von Yahoo)

Darüber hinaus gibt es aber auch spezielle Crawler für z.B. Preisvergleiche, Social Media, Data Mining, Scraping, Plagiat-Check und vieles mehr.

Einige Beispiele dafür sind:

  • Instagram Crawler (sammelt Daten von Instagram konten)
  • Amazon-Crawler (für Produkte auf Amazon)
  • YouTube Crawler (für Videos auf YouTube)

Crawler und SEO

Crawler sind für die Suchmaschinenoptimierung von essenzieller Bedeutung. Daher ist es wichtig, dass die wichtigsten Seiten Ihrer Website auch gut crawlbar sind, um so idealerweise mehr Sichtbarkeit in den Suchmaschinen zu bekommen. Denn mehr Sichtbarkeit in Suchmaschinen kann zu mehr Traffic und so auch zu mehr Aufträgen / Verkäufen / Anfragen / Werbeeinnahmen führen.

Einige SEO-Tipps in Bezug auf Crawler:

  • Kontrollieren Sie, dass alle wichtigen Seiten für Crawler erreichbar sind und diese auch gut auf der Website von passenden Stellen verlinkt werden
  • Je häufiger eine Website intern / extern verlinkt ist, desto wahrscheinlicher sind häufige Crawler-Besuche
  • Achten Sie darauf, dass Ihre Website eine klare / logische URL-Struktur hat
  • Stellen Sie eine XML-Sitemap zur Verfügung, die dem Crawler das Crawlen / Erfassen Ihrer wichtigen Inhalte und Unterseiten erleichtert
  • Schließen Sie bestimmte Seiten / Bereiche der Website von der Indexierung durch Crawler aus (robot.txt, noindex)
  • Lassen Sie wirklich nur relevante URLs crawlen, da sie sonst ihr Crawl-Budget auch erschöpfen können. Manche Systeme generieren viele unnötige URLs, die nicht für SEO relevant sind
  • Überprüfen Sie z.B. über die Google Search Console mögliche Crawling-Fehler, 404 Fehler, kaputte Links, langsame Ladezeiten, Probleme bei der mobilen Suche (Mobile First), usw.

Weitere hilfreiche Ressourcen

Siehe auch: