recent.digital

Inhalt

Bots, Spiders und Crawler: Shops im Fadenkreuz Teil 1: Eine Einführung

# Crawler# Bots+ 2 weitere Tags

Das Ziel dieser Bots ist es Webseiten auf Ihre Inhalte zu überprüfen und die Inhalte für einen Zweck weiterzuverarbeiten.

Torben Zarnick

Begriffsbestimmung

Bots, Spiders und Web Crawlers meinen im Grunde immer das Gleiche. Je nach Dienst, Anbieter, Dozent oder Gesprächsteilnehmer mag es Unterschiede in den Feinheiten geben; am Ende erfüllen Bots, Spiders und Crawlers aber immer den selben Zweck: Systematisches Scannen von Inhalten auf einem Web-Dienst.

Web-Crawler, Web-Bots, Web-Spiders

Wir beschränken uns wenigstens in diesem Beitrag auf die Web-Bots und nennen sie ab hier auch nur noch Bots.

Das Ziel dieser Bots ist es Webseiten auf Ihre Inhalte zu überprüfen und die Inhalte für einen Zweck weiterzuverarbeiten.

Beispiel: Der Google-Bot scannt eine Seite und indexiert den Inhalt für seine Suchergebnisseiten – Im besten Fall.

Abgrenzung zu anderen Bots

Es gibt diverse weitere Dienste und Tools, die einen Bot losschicken. Beispielsweise um Sicherheitslücken zu erkennen, Aktionen auf Webseiten durchzuführen, z.B. Logins oder Kommentare erstellen.

User Agents

Jeder Browser kann anhand eines User Agents identifiziert werden. Im sogenannten Header einer Web-Anfrage (HTTP-Request) wird der User Agent übermittelt.

User Agent eines “normalen” Browsers

MobileSafari/8615.3.12.10.2 CFNetwork/1410.0.3 Darwin/22.6.0

User Agent eines Bots

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html

Bot-Arten

Suchmaschinen-Bots

Auch bekannt als Web-Crawler oder Spiders. Sie durchsuchen Inhalte fast jeder Website im Internet und indexieren diese, damit sie in den Suchergebnissen erscheinen können. Sie werden von Suchmaschinen wie Google, Bing oder Yandex betrieben.

Copyright-Bots

Diese Bots durchsuchen Plattformen oder Websites nach Inhalten, die das Urheberrecht verletzen könnten. Sie können von Personen oder Unternehmen betrieben werden, die urheberrechtlich geschütztes Material besitzen.

Seitenüberwachungs-Bots

Diese Bots überwachen Website-Metriken, z.B. Backlinks oder Systemausfälle, und können Benutzer über große Änderungen oder Ausfälle informieren. Zum Beispiel betreibt Cloudflare einen Crawler-Bot namens Always Online, der eine zwischengespeicherte Version einer Webseite anzeigt, wenn der Ursprungsserver ausgefallen ist.

Kommerzielle Bots

Diese Bots werden von kommerziellen Unternehmen betrieben und durchsuchen das Internet nach Informationen. Sie können von Marktforschungsunternehmen, Werbenetzwerken oder SEO-Agenturen betrieben werden.

Feed-Bots

Diese Bots durchsuchen das Internet nach berichtenswerten Inhalten, um sie einem News-Feed hinzuzufügen. Content-Aggregator-Websites oder soziale Netzwerke können diese Bots betreiben.

Chatbots

Chatbots imitieren menschliche Gespräche, indem sie Benutzer mit vorprogrammierten Antworten beantworten. Einige Chatbots können komplexe Gespräche führen.

Persönliche Assistenten-Bots

Wie Siri oder Alexa. Obwohl diese Programme viel fortschrittlicher sind als typische Bots, sind sie dennoch Bots: Computerprogramme, die das Web nach Daten durchsuchen.

Good Bots vs. Bad Bots

Was sind Good Bots

Gute Bots befolgen die Server-Anweisungen und belasten den Web-Server nicht unverhältnismäßig. Gute Bots können die allgemeinen Google & Bing Bots sein, die der Indexierung dienen. Teilweise auch Bots, die durch kommerzielle Dienste agieren, welche Ihre Webseiten “Gesundheit” überprüfen.

Sendet Ihr Server einen 429 Status Code, weiß der Bot, dass er zu warten hat, bis er weiter crawlen darf. Gleichzeitig respektiert er die Anweisungen aus der robots.txt.

Was sind Bad Bots

Schlechte Bots sind alle, die Schaden verursachen sollen. Diese Bots fluten Kommentare mit schlechten Backlinks, stehlen Daten und Bilder oder starten Login-Versuche. In der Regel belasten sie den Web-Server stark und stören die Gesamt-Performance oder verursachen Traffic-Kosten.

Bedeutung für Webanwendungen

Verbrauch von Ressourcen

Wir beobachten, dass auf einem Webshop ungefähr 120 verschiedene Bots pro Tag ankommen und gute 150.000 Anfragen stellen. Dabei werden Ressourcen angefordert, die jeder Webseiten-Besucher auch anfordern würde: Bilder, Javascript-Dateien, Style-Sheets und die Webseite selbst.

Auf kleinen Server und Hosting-Paketen wächst damit der Server-Log stark und verbraucht Server-Ressourcen, die echte, legitime Besucher eigentlich eher brauchen.

Spionage durch Wettbewerber

Viele der Bots sind Wettbewerber oder übereifrige Agenturen, die SEO-Statistiken abrufen oder Inhalte verarbeiten. Wir haben festgestellt, dass viele KI-Dienste (aus den USA aber auch vermehrt aus China) Seiten scannen, um damit (vermeidlich) das eigene KI Modell füttern und anlernen.

Gefährlicher sind die Bots, die Shop- oder Webseiten-Systeme nach bekannten Sicherheitslücken scannen, um den Webseiten-Betreiber zu erpressen, Daten zu stehlen und andere kriminelle Absichten verfolgen.

Geistiges Eigentum

Mit den KI Diensten stellen sich neue Fragen. Nach Fair Use von öffentlichen Informationen, nach geistigen Eigentum, nach den Inhalten für die Modelle selbst.

Wie auch immer man dazu steht: Wenn Ihre Webseite öffentlich erreichbar ist, dann wird (wahrscheinlich) ein KI-Dienst Ihre Inhalte zum lernen nutzen. Und möglicherweise Ihre Forschungs- und Arbeitsergebnisse wiederverwenden … und als eigenes Ergebnis verkaufen.

Bedeutung für SEO

Sie können Sitemaps bei Google, Bing und allen anderen “relevanten” Suchmaschinen einreichen. Das sollten Sie sogar tun.

Wenn Sie aber jeden Bot von Ihrer Webseite aussperren, wird die niemals in irgendeinem Index landen. Was im Grunde fast gleichbedeutend ist mit: Es gibt Ihre Webseite nicht.

Robots.txt

Die Robots.txt ist eine Anweisung für Good Bots, wie die sich auf Ihrer Seite bewegen dürfen oder sollen. Aufgebaut ist sie ganz einfach und in den allermeisten Fällen im Stammverzeichnis Ihres Servers zu finden.

User-agent: * Disallow:

Erklärung

User-agent: * bedeutet, dass für jeden ( * = alle ) User Agent die folgende Regel gilt: Disallow: 'nichts'

Die robots.txt könnte also um alle möglichen Agents erweitert werden. Was dann so aussehen könnte.

User-agent: Googlebot Disallow: /Meine-Seite/Geheime-Seite.html User-agent: * Disallow:

Hier würde dem Googlebot der Zugriff auf meine “Geheime-Seite.html” verboten werden. Gute Bots halten sich daran*.

*Ausnahmen bestätigen die Regel

Crawl-Bugdet

Jede Seite bekommt von Suchmaschinen ein Budget an Seitenaufrufen zugewiesen. In der Search-Console können Sie manuelle Indexierung von bestimmten Seiten beauftragen. Google hat für Ihre Seite eine bestimmte Anzahl von Aufrufen vorgesehen und würde je nach Umfang Ihrer Webseite nicht alle Seiten erfassen. Das nimmt ein bisschen Zeit in Anspruch.

Indexierung

Wenn Suchmaschinen nicht auf die Inhalte Ihrer Webseite zugreifen können, werden die auch nicht in den Index aufgenommen und somit auch nicht in den Suchergebnissen ausgespielt.

Bots auszusperren kann also eine Gradwanderung sein.

Maßnahmen

Um den eigenen Web-Server vor übermäßiger Belastung durch unerwünschte Bots zu schützen, gibt es ein paar Möglichkeiten.

Zum einen kann die Robots.txt erweitert werden. Die Pflege wird aufwändig, kann sich aber lohnen. Schlechte Bots bekommt man damit aber nicht in den Griff.

Abhilfe würde also eine vorgeschaltete Web Application Firewall (WAF) schaffen, in der Sie genau einstellen können, wer auf Ihre Webseite kommt.

Allow List

In WAF oder Proxy-Diensten können Allow Lists hinterlegt werden, die nur die Besucher durchlassen, die auf dieser Liste stehen. Das ist ein sehr restriktiver Ansatz.

Jeder Benutzer, der nicht explizit erlaubt ist, wird abgelehnt.

Block List

In einer Block List werden dann IP-Adressen oder User Agents angegeben, die blockiert werden. Anders als bei einer Allow List, ist dieser Ansatz weniger restriktiv, weil alles zugelassen wird, das nicht auf der Liste steht.

Die Block List ist also eine Anti-Gästeliste.

Das Interactive Advertising Bureau (IAB) stellt eine internationale Liste mit Crawlers und Bots zur Verfügung. Diese Liste wird unter anderem mit Forschungsdaten von Google laufend erstellt.

Spoiler: Für Nicht-Mitglieder kostet diese Liste 15.000 $ pro Jahr.

Hier gibt es Informationen dazu: IAB/ABC International Spiders and Bots List

Kostenfreie Übersichten oder Datenbanken mit Bots bzw. deren User Agents oder IP-Adressen kann man durchaus im Internet finden. Diese Open Source Listen sind immer so gut, wie die Aktive Community, die diese Listen pflegt.

Bot Management Dienste

Viele Dienste und Anbieter haben sich auf die Erkennung und Blockierung von Bots spezialisiert oder bieten spezialisierte Lösungen dazu an.

Lösungen gibt es von Plugins für Shop- und CMS-Systeme über WAF mit dynamischen Regeln.

→ Konkrete Maßnahmen im nächsten Teil der Reihe

Digitalisieren Sie Ihre Prozesse und IT-Systeme

IT-Infrastruktur

Cloudinfrastrukturen, Arbeitsplatz-Sicherheit, Cybersecurity, Server-Systeme.

Digitales Arbeiten

Office-Anwendungen, Kommunikations-Pläne, Zeiterfassung.

Online-Handel & eCommerce

Onlineshops, Warenwirtschaft, Kassensysteme, Zahlungen erhalten am Point of Sale oder Online.