Inhaltsverzeichnis
Was ist ein Crawler
Ein Crawler ist eine Software, die bestimmte, oder alle Seiten im Internet aufruft und Daten einer Website analysiert. Solche Crawler werden vorzugsweise von Suchmaschinen verwendet um alle Websites des Internets zu indexieren und als Suchergebniss in ihren Suchergebnissen dargestellt. Des Weiteren nutzen verschiedene Tools, wie z.B. Website-Analyse Tools, oder Backlink Checker solche Crawler, um die benötigten Informationen zu sammeln.
Grundsätlich kann jeder eine solche Software entwickeln und nutzen.
Sprachen für einen eigenen Crawler
- Python
- C#
- Java
- JavaScript (NodeJs)
- Ruby
- PHP
Unterschied Crawler und Scraper
Ein Crawler sammelt Daten wie URLS, Titels und andere Metadaten, um diese Daten in einem Index zusammenzufassen. Ein Scraper hingegen sammelt die erwähnten Metadaten und extrahiert weitere Daten, wie z.B. den Content einer Seite um ihn selbst zu Veröffentlichen, weiterzuverarbeiten, oder Ähnliches. Der Einsatz von Scrapern zählt in diesem Sinne eher zu den nicht erwünschten Besuchern einer Website.
Einen Crawler sperren
Wer einem bestimmten Crawler das Crawlen seiner Website verbieten möchte, kann dies über die Robots.txt Datei bewerkstelligen. Dafür muss man den eindeutigen User-Agent des Crawlers wissen und kann dann mit einer einfachen Regeln den Bot sagen, dass das Crawlen nicht erwünscht ist.
Beispielregel für den Google Crawler:
User-Agent: Googlebot
Disallow: /
* Diese Regel würde das Crawlen der gesamten Website verbieten.
Kommentare
Geschlossen wegen DSGVO, Artikel 13 Gedöns