Besuchen Sie uns auf der it-sa 2024!

Geöffneter Laptop mit Diagrammen

Was ist Web Scraping?

Der Begriff des Web Scrapings beschreibt das automatische Auslesen von Inhalten einer Website. Neben dem legalen und erwünschten Web Scraping, wie es beispielsweise Suchmaschinen durchführen, um Websites zu indexieren, gibt es auch schädliche und missbräuchliche Methoden des Web Scrapings. So nutzen etwa Angreifer diese Technologie, um den Content einer Website komplett zu kopieren und auf einer anderen Seite zu veröffentlichen. Für Unternehmen hat ein solches Vorgehen geschäftsschädigende Folgen.

Ablauf von Web Scraping

01

Web Scraping: eine Definition

Web Scraping, auch Screen Scraping genannt, bezeichnet generell den Vorgang des Extrahierens, Kopierens, Speicherns sowie der Wiederverwendung fremder Inhalte im Netz. Neben dem manuellen Scrapen, bei dem Content von Hand kopiert wird, haben sich auch einige Tools für das automatisierte Auslesen von Webseiten etabliert. Ein positiver Anwendungsfall des Web Scrapings ist die Indexierung von Websites durch Google oder andere Suchmaschinen. Diese Indexierung ist in den meisten Fällen gewollt, denn nur so können Nutzer im Netz auf die gesuchten Unternehmensseiten stoßen. Schädlich angewandtes Screen Scraping mit dem Ziel, geistiges Eigentum unerlaubt zu entwenden, verstößt hingegen gegen das Urheberrecht und ist damit illegal.

02

Wie funktioniert Web Scraping?

Beim Web Scraping kommen unterschiedliche Technologien und Tools zum Einsatz:

Manuelles Scraping

Tatsächlich werden sowohl Inhalte als auch Quellcode-Abschnitte von Websites gelegentlich von Hand kopiert. Auf diese Methode greifen Internet-Kriminelle insbesondere dann zurück, wenn Bots und weitere Scraping-Programme durch die robots.txt-Datei blockiert sind.

Software-Tools

Web-Scraping-Tools wie Scraper API, ScrapeSimple oder Octoparse ermöglichen das Erstellen von Web Scrapern auch mit geringen oder keinen Programmierkenntnissen. Entwickler nutzen diese Tools auch als Basis, um eigene Scraping-Lösungen zu entwickeln.

Text Pattern Matching

Das automatisierte Abgleichen und Auslesen von Informationen aus Webseiten kann auch mit Hilfe von Befehlen in Programmiersprachen wie Perl oder Python erfolgen.

HTTP-Manipulation

Mittels HTTP-Request lassen sich Inhalte von statischen oder auch dynamischen Websites kopieren.

Data Mining

Web Scraping ist ebenfalls per Data Mining möglich. Hierzu setzen Webentwickler auf eine Analyse von Templates und Skripten, in welchen die Inhalte einer Website eingebettet sind. Dabei identifizieren sie den gesuchten Content und spielen diesen über einen sogenannten Wrapper auf der eigenen Seite aus.

HTML-Parser

Die aus Browsern bekannten HTML-Parser dienen beim Web Scraping zum Auslesen und Umwandeln des gesuchten Contents.

Auslesen von Mikroformaten

Mikroformate sind häufig Bestandteil von Websites. Sie enthalten beispielsweise Metadaten oder semantische Anmerkungen. Das Auslesen dieser Daten ermöglicht Rückschlüsse auf die Lokalisierung spezieller Data Snippets.

03

Nutzung und Einsatzgebiete

Web Scraping findet in vielen verschiedenen Bereichen Anwendung. Stets dient es der Datenextraktion – oftmals zu völlig legitimen Zwecken, doch auch die missbräuchliche Verwendung ist Usus.

Webcrawler von Suchmaschinen

Die Indexierung von Websites ist die Basis für die Funktionsweise von Suchmaschinen wie Google und Bing. Nur durch den Einsatz von Webcrawlern, welche URLs analysieren und indexieren, ist die Sortierung sowie Darstellung von Suchergebnissen überhaupt möglich. Webcrawler gehören zu den sogenannten Bots, es handelt sich also um Programme, die automatisch definierte und sich wiederholende Aufgaben erledigen.

Webservice-Ersatz

Screen Scraper können als Ersatz für Webservices verwendet werden. Dies ist insbesondere für Unternehmen interessant, welche auf einer Website ihren Kunden bestimmte Auswertungsdaten zur Verfügung stellen wollen. Einen Webservice dafür zu nutzen, zieht jedoch hohe Kosten nach sich. Daher sind Screen Scraper, welche die Daten extrahieren, die kostengünstigere Option.

Remixing

Beim Remixing bzw. Mashup werden die Inhalte verschiedener Webdienste miteinander verbunden. Das Ergebnis ist ein neuer Dienst. Oft geschieht das Remixing über Schnittstellen, doch in dem Fall, dass keine solchen APIs vorhanden sind, wird hier ebenfalls die Technik des Screen Scraping angewandt.

 

 

Missbrauch

Die missbräuchliche Verwendung von Web Scraping oder auch Web Harvesting kann unterschiedliche Zielsetzungen haben:

  • Preis-Grabbing: Eine besondere Form des Web-Scrapings stellt das Preis-Grabbing dar: Dabei liest ein Anbieter mithilfe von Bots die Produktpreise der Konkurrenten aus, um diese gezielt zu unterbieten und damit Kunden zu gewinnen. Durch die große Preistransparenz im Internet wandern Kunden schnell zum nächstgünstigen Anbieter – der Preisdruck steigt.

  • Content- / Product Grabbing: Statt Preisen oder Preisgefügen haben es die Bots beim sogenannten Content-Grabbing auf die Inhalte der Webseite abgesehen. Aufwändige gestaltete Produktseiten in Online-Shops kopieren Angreifer dabei originalgetreu und nutzen den teuer erstellten Content für die eigenen E-Commerce-Portale. Ebenfalls beliebte Ziele für Content-Grabbing stellen Online-Marktplätze, Jobbörsen oder Kleinanzeigen dar.

  • Verlängerung der Ladezeiten: Web-Scraping verschwendet wertvolle Serverkapazitäten: Bots in großer Anzahl aktualisieren ständig Produktseiten auf der Suche nach neuen Preisangaben. Dies verlängert – insbesondere bei Hochlastzeiten – die Ladezeiten für herkömmliche Nutzer. Dauert das Laden der gewünschten Web-Inhalte zu lange, wandern Kunden schnell zur Konkurrenz ab.

  • Phishing: Cyberkriminelle nutzen Web Scraping, um im Internet veröffentlichte E-Mail-Adressen abzugreifen und für Phishing zu nutzen. Darüber hinaus können Kriminelle eine täuschend echt aussehende Kopie der Original-Seite für Phishing-Aktivitäten nachbauen.

04

Wie können Unternehmen Web Scraping blockieren?

Es gibt einige Maßnahmen, welche verhindern, dass eine Website von Scraping getroffen werden kann:

  • Bot Management: Mittels Bot-Management-Lösungen haben Unternehmen die Möglichkeit, fein granular zu bestimmen, welche Bots Informationen von der Webseite abgreifen dürfen und welche als Schädlinge zu behandeln sind.

  • robots.txt: Über die robots.txt-Datei können Seitenbetreiber festlegen, welche Bereiche der Domain gecrawlt werden dürfen und bestimmte Bots von vornherein ausschließen.

  • Captcha-Abfragen: Die Integration von Captcha-Abfragen auf Websites bietet ebenfalls einen Schutz vor Bot-Anfragen.

  • Richtige Integration von Telefonnummern und E-Mail-Adressen: Seitenbetreiber schützen Kontaktdaten vor Scraping, indem sie die Informationen hinter ein Kontaktformular setzen. Daneben bietet sich auch eine Integration der Daten per CSS an.

  • Firewall: Strikte Firewall-Regeln für Webserver schützen ebenfalls vor ungewollten Scraping-Attacken.

Google Suchmaschiene auf einem Handy

05

Scraping als Spam

Websites mit gescraptem Content ohne Quellenangabe verletzen in vielen Fällen das Urheberrecht. Darüber hinaus werden sie von Suchmaschinen wie Google als Spam eingestuft. Für die Webseiten mit dem originalen Content stellen diese Spam-Seiten auch ein Risiko dar, weil Suchmaschinen im Zweifelsfall die legitime Website als duplicate content betrachtet und entsprechend abstraft. Die Folge davon ist ein wesentlich schlechteres SEO-Ranking. Um frühzeitig aktiv gegen Web Scraping vorzugehen, setzen Unternehmen und Webmaster beispielsweise spezielle Google Alerts ein, die über verdächtigen Content im Internet informieren.

06

Rechtlicher Rahmen: Ist Screen Scraping legal?

Viele Formen des Web Scrapings sind vom Gesetz gedeckt. Dies gilt beispielsweise für Online-Portale, welche die Preise verschiedener Anbieter vergleichen. Ein entsprechendes Urteil des Bundesgerichtshofs aus dem Jahr 2014 stellt klar: Solange keine technische Schutzvorrichtung überwunden wird, die Screen Scraping verhindern soll, handelt es sich nicht um eine wettbewerbswidrige Behinderung.

Allerdings wird Web Scraping zum Problem, wenn es gegen das Urheberrecht verstößt. Wer urheberschutzfähige Texte ohne Quellenangabe in seine Website integriert, handelt also illegal.

Darüber hinaus ist bei einer missbräuchlichen Verwendung von Web Scraping beispielsweise für Phishing vielleicht nicht das Scraping an sich illegal, wohl aber die in der Folge durchgeführten Aktivitäten.

Uhr

07

Web Scraping: Das müssen Sie wissen

Web Scraping ist ein fester Bestandteil des modernen Internets. Viele bekannte Dienste wie Suchmaschinen oder Preisvergleichsportale wären ohne das automatisierte Abgreifen von Informationen aus Webseiten gar nicht möglich. Der missbräuchliche Einsatz birgt jedoch auch große Gefahren für Unternehmen – etwa wenn skrupellose Konkurrenten den teuer erstellten Content aus dem eigenen Online-Shop abziehen und kopieren. Auch die Traffic-Belastung durch autonom agierende Bots ist nicht zu vernachlässigen. Heutzutage generieren Bots etwa die Hälfte des Datenverkehrs auf Webseiten. Daher ist ein effektives Bot-Management ein entscheidender Faktor, um die Unternehmenswebsite vor Scraping-Attacken zu schützen.

Jetzt informieren

Häufige Fragen zu Web Scraping