Crawling

Inhaltsverzeichnis

Was ist ein Crawler

Ein Crawler ist eine Software, die bestimmte, oder alle Seiten im Internet aufruft und Daten einer Website analysiert. Solche Crawler werden vorzugsweise von Suchmaschinen verwendet um alle Websites des Internets zu indexieren und als Suchergebniss in ihren Suchergebnissen dargestellt. Des Weiteren nutzen verschiedene Tools, wie z.B. Website-Analyse Tools, oder Backlink Checker solche Crawler, um die benötigten Informationen zu sammeln.

Grundsätlich kann jeder eine solche Software entwickeln und nutzen.

Sprachen für einen eigenen Crawler

Python
C#
Java
JavaScript (NodeJs)
Ruby
PHP

Unterschied Crawler und Scraper

Ein Crawler sammelt Daten wie URLS, Titels und andere Metadaten, um diese Daten in einem Index zusammenzufassen. Ein Scraper hingegen sammelt die erwähnten Metadaten und extrahiert weitere Daten, wie z.B. den Content einer Seite um ihn selbst zu Veröffentlichen, weiterzuverarbeiten, oder Ähnliches. Der Einsatz von Scrapern zählt in diesem Sinne eher zu den nicht erwünschten Besuchern einer Website.

Einen Crawler sperren

Wer einem bestimmten Crawler das Crawlen seiner Website verbieten möchte, kann dies über die Robots.txt Datei bewerkstelligen. Dafür muss man den eindeutigen User-Agent des Crawlers wissen und kann dann mit einer einfachen Regeln den Bot sagen, dass das Crawlen nicht erwünscht ist.

Beispielregel für den Google Crawler:

User-Agent: Googlebot
Disallow: /

* Diese Regel würde das Crawlen der gesamten Website verbieten.

Was ist ein Crawler

Sprachen für einen eigenen Crawler

Unterschied Crawler und Scraper

Einen Crawler sperren

Tobias Keller Web Entwickler

Kommentare