Besuchen Sie uns auf der it-sa 2024!

Digitale Spinne

Was ist ein Crawler?

Crawler kommen im Internet in den unterschiedlichsten Bereichen zum Einsatz. Sie durchsuchen automatisiert Dokumente im Netz. Website-Betreiber kennen in erster Linie die Web Crawler von Suchmaschinen wie Google oder Bing, doch der Einsatz von Crawlern kann auch für missbräuchliche Zwecke erfolgen und Unternehmen schaden.

Beispiel Crawler

01

Crawler: eine Definition

Crawler sind Computerprogramme, welche für das Durchsuchen des Internets programmiert werden. Üblicherweise programmieren Entwickler einen Crawler so, dass er die gleichen Aktionen immer wieder wiederholt. Auf diese Weise erfolgt eine Automatisierung der Suche, weshalb eine weitere Bezeichnung für Crawler auch „Robots“ lautet. Weil sie sich im Netz des WWW bewegen, ist „Spider“ ein weiterer Begriff dafür.

Google und andere Suchmaschinen verwenden Crawler für die Indexierung von Websites. Damit eine Seite in den Google-Ergebnissen erscheint, ist es Voraussetzung, dass der Google-Crawler diese Seite besucht und gelistet hat.

02

Wie funktioniert ein Crawler?

Ein Crawler arbeitet sukzessiv im Vorfeld festgelegte Arbeitsschritte ab. Daher ist es entscheidend, diese Schritte vor dem Crawl festzulegen. Üblicherweise besucht ein Crawler die verschiedenen URLs einer Website nacheinander und speichert das Ergebnis in einem entsprechenden Index ab. Wie dieser Index aussieht, hängt vom jeweiligen Algorithmus ab. Beispielsweise legt der Google-Algorithmus fest, in welcher Reihenfolge die Anzeige der Ergebnisse für eine bestimmte Suchanfrage erfolgt.

03


Welcher Arten von Crawlern gibt es?

Entwickler setzen Crawler in unterschiedlichen Bereichen ein:

Suchmaschinen

Besonders verbreitet und bekannt ist der Einsatz von Crawlern durch Suchmaschinen wie Google oder Bing. Die Arbeit dieser Suchmaschinen basiert auf dem Einsatz von Web Crawlern. Denn sie sind es, die die Suchergebnisse für den User aufbereiten, indem sie einen entsprechenden Index erstellen.

Focused Crawler

Sogenannte Focused Crawler sind das themengebundene Gegenstück zur Universalsuchmaschine. Sie beschränken sich auf einen bestimmten Bereich des Internets, beispielsweise auf Seiten zu einem Thema oder besonders aktuelle Meldungen, und erstellen einen ausführlichen Index davon.

Webanalyse

Webmaster setzen ebenfalls Crawler ein, um Websites bezüglich Daten wie Seitenaufrufen oder Links zu analysieren. Meist nutzen sie hier spezielle Tools für die Webanalyse.

Preisvergleich

Bei vielen Produkten, etwa Flügen oder Elektronikartikeln, variieren die Preise je nach Anbieter. Preisvergleichs-Websites nutzen Crawler, um ihren Usern einen Überblick über die aktuellen Preise anzubieten.

Person am arbeiten

04

Crawler vs. Scraper: ein Vergleich

Auf den ersten Blick funktionieren Scraper ähnlich wie Crawler: Sie sammeln die Daten anderer Websites für die Weiterverwendung. Allerdings verwenden Cyber-Kriminelle Scraper oftmals für missbräuchliche Zwecke und scrapen damit den gesamten für den User sichtbaren Inhalt einer Seite. Während Crawler vor allem die Metadaten einer URL erfassen und einordnen, kopieren Scraper oftmals den gesamten Content anderer Websites, um diesen im Anschluss auf einer anderen URL zugänglich zu machen.

05

Wie werden Crawler blockiert und verwaltet?

Unter bestimmten Umständen kann es sinnvoll sein, Crawler im Allgemeinen oder bestimmte Crawler auf der eigenen Website zu blockieren. Über die robots.txt-Datei können Webmaster bestimmte Crawler ausschließen. Dies ist etwa sinnvoll, wenn andernfalls eine hohe Belastung der Website durch die Crawling-Tätigkeit entsteht.

Über die robots.txt-Datei können Website-Betreiber die Indexierung einer URL in Suchmaschinen nicht komplett ausschließen. Will man verhindern, dass Suchmaschinen eine bestimmte URL indexieren – etwa bei ausschließlich für Werbeanzeigen optimierten SEA-Landingpages – ist das Meta-Element Noindex die richtige Wahl.

Dokumenten Suche

06

Welche Gefahren gehen von Spam-Crawlern aus?

Webmaster monitoren den Traffic auf ihren Websites genau. Allerdings stellen Crawler hier ein Problem dar, denn sie verzerren die Zahlen. Da inzwischen eine Vielzahl von Crawlern im Internet aktiv ist, kommt es in vielen Fällen zu einem relevanten Anteil an Spam Traffic durch Crawler. Insbesondere der Crawler Referrer Spam stellt hier ein Risiko dar, denn diese Crawler ignorieren die robots.txt-Datei und greifen direkt auf die Website zu.

Code auf einem Bildschirm

07

Crawler: Das müssen Sie wissen

Als Webseitenbetreiber sind die Crawler-Aktivitäten auf der eigenen Seite stets im Auge zu behalten. Neben wertvollen Crawlern wie den Web Crawlern von Suchmaschinen gibt es auch diejenigen Crawler, die hauptsächlich eine Belastung für die Performance der Website darstellen. Mit einem professionellen Bot Management steuern Sie die Aktivität von Crawlern, sodass die Performance der Website insbesondere zu Peak-Zeiten – etwa bei Shopping-Events – gesichert ist.

Zur Myra Application Security