Crawler – Kurzerklärung

Crawler (englisch für „Kriecher“), auch Webcrawler oder Searchbots genannt, sind automatisierte Computerprogramme, die das World Wide Web nach oftmals vorher bestimmten Inhalten durchsuchen und analysieren. In erster Linie werden Crawler für die Indexierung von Webseiten eingesetzt, womit sie für Internet-Suchmaschinen eine elementare Grundvoraussetzung darstellen. Darüber hinaus können Crawler aber auch für das Sammeln von diversen anderen Informationen aus dem World Wide Web benutzt werden.

Funktionsweise der Crawler bei Suchmaschinen

Ein neu programmierter Webcrawler startet immer mit einer Liste von bestimmten Webseiten-URLs, die er durchsuchen soll. Aus den dortigen Seiten speichert und kopiert er alle Informationen in eine virtuelle Ablage. Über etwaige Hyperlinks auf den besuchten Seiten gelangt er außerdem zu weiteren Seiten, die er dann, sofern nicht anders bestimmt, ebenfalls durchsucht. Dadurch füllt sich die Ablage immer weiter, wodurch immer mehr Informationen zur Verfügung stehen. So können Crawler theoretisch immer weiterlaufen, bis sie alle verlinkten Seiten des World Wide Webs besucht bzw. durchsucht haben. In der Praxis statten die Programmierer der Webcrawler diese jedoch meistens mit bestimmten Suchkriterien aus, sodass beispielsweise vermieden wird, dass der Crawler gleichen Inhalt mehrmals speichert (z. B. im Fall, dass gleicher Inhalt unter mehreren URLs zu finden ist).

Bei Suchmaschinen wird dieser Ablauf für die Indexierung des Webs genutzt. Auf Basis der erhaltenen Informationen können die durchsuchten Webseiten nach verschiedensten Kriterien sortiert und angezeigt werden. Google ist die mit Abstand meist genutzte Suchmaschine der Welt und auch diejenige, die am meisten Webseiten (Deep Web ausgeschlossen) indexiert hat. Googles Webcrawler haben bis 2016 ungefähr 130 Billionen einzelne URLs indexiert, wobei monatlich mehrere Milliarden hinzukommen. Mittlerweile stammt auch rund die Hälfte des gesamten Internetverkehrs von Bots, also automatisierten Programmen. Der überwiegende Anteil an diesem Verkehr wird durch Crawler erzeugt.

Crawling-Richtlinien

Um die Funktionsweise von Webcrawlern zu optimieren, werden durch entsprechende Algorithmen eine oder mehrere Richtlinien eingebunden.

Grundsätzlich kann man diese Richtlinien nach vier Arten unterscheiden:

Selektive Richtlinien

Die Webcrawler werden hierbei so programmiert, damit sie sich beim Kopieren der Informationen auf bestimmte Webseiten fokussieren, statt die Informationen aus dem gesamten Web heranzuziehen. Die Kriterien, nach denen der Crawler seine Auswahl an relevanten Webseiten treffen soll, können dabei völlig unterschiedlich sein. So kann sich ein Crawler durch Vorabanalysen etwa auf Webseiten mit einem bestimmten Level an Popularität (z. B. gemessen an den Zugriffen in einem gewissen Zeitraum) beschränken sowie Informationen von kleineren Webseiten ignorieren und nicht herunterladen. Auch technische Kriterien können bestimmt werden. Dadurch kann ein Crawler sich beispielsweise auf Webseiten mit einem bestimmten Internet Media Type konzentrieren und etwa nur HTML-Webseiten berücksichtigen.

Darüber hinaus können Webcrawler auch mit thematischen Richtlinien arbeiten. Erreicht werden kann dies z. B. durch die Eingabe von themenrelevanten Keywords, auf die der Crawler die Webseiten vorab untersucht und dann entsprechend auswählt oder nicht. Ein Beispiel für eine Suchmaschine mit so arbeitenden Crawlern ist Google Scholar, Googles Suchmaschine, die sich speziell auf akademische Quellen im Web fokussiert.

Revisit-Richtlinien

Die Revisit-Richtlinien betreffen das Intervall, in dem der Webcrawler Informationen einer bereits besuchten Webseite wieder überprüfen soll. Da das Internet äußerst schnelllebig und dynamisch ist, kann sich der Inhalt von Webseiten schnell ändern. So kann es sein, dass die von dem Crawler gesammelten Informationen über eine Seite schon etwas später nicht mehr aktuell sind. Für Suchmaschinen-Betreiber ist es aber wichtig, den Web-Index immer möglichst „frisch“ zu halten. Durch gezielte Richtlinien kann der Webcrawler eine Webseite in einem festgelegten Intervall immer wieder neu besuchen. Um die Server der besuchten Webseiten aber nicht unnötig zu belasten, werden bei gut programmierten Crawlern die Intervalle für unterschiedliche Webseiten auf der Basis von Erfahrungswerten unterschiedlich eingestellt. So können sich Webcrawler beispielsweise merken, dass Nachrichtenseiten häufiger besucht werden müssen als z. B. ein Web-Glossar.

Höflichkeits-Richtlinien

Diese Richtlinien betreffen vor allem die Serverbelastung. Wie schon erwähnt, machen Bots und dabei in erster Linie Searchbots einen großen Anteil des täglichen Internetverkehrs aus. Sie stellen somit eine ernstzunehmende Belastung für die Webseiten dar, die von ihnen besucht werden. Durch diese Belastungen können die Seiten je nach Serverleistung stark verlangsamt werden. Für die Webseitenbetreiber ist das ein Problem, da sie so befürchten müssen, ungeduldige Besucher zu verlieren. Durch Höflichkeits-Richtlinien wird klargestellt, dass die eingesetzten Webcrawler so programmiert werden, dass sie mit dem Zugang auf einzelne Seiten nicht übertreiben.

Für die Webseitenbetreiber gibt es die zusätzliche Möglichkeit, eine robots.txt-Datei („Robots Exclusion Protocol“) auf ihrer Seite zu hinterlassen. Im Rahmen der Höflichkeits-Richtlinien werden Webcrawler, die auf robot.txt stoßen, die von dem Betreiber festgelegten Seiten nicht durchsuchen. So kann der Webseitenbetreiber etwa nur die wichtigen Seiten von einer Suchmaschine indexieren lassen und bei den restlichen Unterseiten den Webserver schonen. Damit spielt diese Richtlinie bei Webseitenbetreibern und Online-Marketern eine wichtige Rolle in der Suchmaschinenoptimierung, genauer gesagt in der On-Page-Optimierung.

Parallelisierung

Hierbei werden Webcrawler so programmiert, dass sie auf verschiedenen Computern parallel betrieben werden können. So kann die Download-Last effektiv auf verschiedene Crawler verteilt werden. Große Suchmaschinen-Betreiber wie Google, Yahoo oder Microsoft betreiben ihre Webcrawler von tausenden Computern aus.

Alternative Verwendungszwecke für Crawler

Neben der Indexierung des Webs können Crawler auch für andere Zwecke verwendet werden. So zum Beispiel für das Data-Mining, das Sammeln von E-Mails oder die Entdeckung von illegalen oder urheberrechtlich geschützten Inhalten.