Problemvermeidung

Problemvermeidung

Folgende Maßnahmen wurden durchgeführt, um Probleme auf Seiten der Serveranbieter zu
umgehen:

Nur HTML
Es werden nur HTML-Seiten geladen. Die Bilder und Dateianhänge, die einen großen Teil der Netzbelastung ausmachen, werden ignoriert. Damit ist die Netzbelastung auf Seiten der Seitenanbieter reduziert.

Breitensuche
Es wird nie ausschließlich ein Server abgefragt. Vielmehr wird jeder einzelne fremde Server nur alle paar Minuten angefragt. Eine Überlastung des Servers ist damit ausgeschlossen.

Einmaliger Versuch
Jede Seite, die angefragt wird, wird maximal einmal angefragt. Wenn defekte URLs vorliegen, werden diese nur einmalig angefragt. Wiederholte Zugriffe auf fehlerhafte URLs sind ausgeschlossen.

Verwendung der robots.txt
Die robots.txt wird entsprechend der Vorgaben auf www.robotstxt.org umgesetzt. Damit kann jeder Server-Administrator Inhalts- und Funktionsbereiche schützen. Weltweit übliche Regeln für Suchmaschinen werden eingehalten.

Expliziter Ausschluss ganzer Sites
Sites können insgesamt deaktiviert werden. Auf Wunsch von Seitenanbietern können so Sites komplett ? auch unabhängig von der robots.txt ? ausgeschlossen werden.

Angabe des eigenen Namens
Um zu vermeiden, dass bei Problemen Anfragen anhand der IP gesucht werden müssen, wird der Projektname enoola inkl. Verweis auf http://www.enoola.com übermittelt. So können Administratoren schnell auf neue Probleme hinweisen.

Registrierung bei robotstxt.org
enoola ist bei robotstxt.org registriert. Damit wird es für jeden Administrator noch einfacher, die notwendigen Kontaktdaten zu erhalten.

Testumgebung
Der Crawler wird auf einer
Testumgebung getestet. Bei der Testumgebung werden die Crawler-Zugriff protokolliert, so dass genau nachgestellt werden kann, was tatsächlich passiert ist.

Unterscheidung von Link-Typen
Es wird zwischen a-href-Links, area-href-Links, form-Links, input-Links und img-Links unterschieden. Nur a-href und area-href-Links werden dann tatsächlich ausgewertet. Damit ist ausgeschlossen, dass Formulare ausgelöst werden.

Unverzüglicher Stop

Sowie ein Problem bekannt wird, werden sämtliche Crawler-Aktivitäten gestoppt bis das Problem reproduziert und behoben werden konnte. Erst danach werden weitere Seiten durchsucht.

Kontakt

Achim Oberg
oberg@mail.ifm.uni-mannheim.de

Lehrstuhl für Kleine und Mittlere Unternehmen
woywode.bwl.uni-mannheim.de
Prof. Dr. Michael Woywode
Institut für Mittelstands-
forschung
Universität Mannheim
68161 Mannheim

Realisierung
www.plattform-gmbh.de
Login

Passwort

Sie sind nicht eingeloggt.