oberg@mail.ifm.uni-mannheim.de
Lehrstuhl für Kleine und Mittlere Unternehmen
woywode.bwl.uni-mannheim.de
Prof. Dr. Michael Woywode
Institut für Mittelstands-
forschung
Universität Mannheim
68161 Mannheim
Realisierung
www.plattform-gmbh.de
Folgende Maßnahmen wurden durchgeführt, um Probleme auf Seiten der Serveranbieter zu
umgehen:
Nur HTML
Es werden nur HTML-Seiten geladen. Die Bilder und Dateianhänge, die einen großen Teil der Netzbelastung ausmachen, werden ignoriert. Damit ist die Netzbelastung auf Seiten der Seitenanbieter reduziert.
Breitensuche
Es wird nie ausschließlich ein Server abgefragt. Vielmehr wird jeder einzelne fremde Server nur alle paar Minuten angefragt. Eine Überlastung des Servers ist damit ausgeschlossen.
Einmaliger Versuch
Jede Seite, die angefragt wird, wird maximal einmal angefragt. Wenn defekte URLs vorliegen, werden diese nur einmalig angefragt. Wiederholte Zugriffe auf fehlerhafte URLs sind ausgeschlossen.
Verwendung der robots.txt
Die robots.txt wird entsprechend der Vorgaben auf www.robotstxt.org umgesetzt. Damit kann jeder Server-Administrator Inhalts- und Funktionsbereiche schützen. Weltweit übliche Regeln für Suchmaschinen werden eingehalten.
Expliziter Ausschluss ganzer Sites
Sites können insgesamt deaktiviert werden. Auf Wunsch von Seitenanbietern können so Sites komplett ? auch unabhängig von der robots.txt ? ausgeschlossen werden.
Angabe des eigenen Namens
Um zu vermeiden, dass bei Problemen Anfragen anhand der IP gesucht werden müssen, wird der Projektname enoola inkl. Verweis auf http://www.enoola.com übermittelt. So können Administratoren schnell auf neue Probleme hinweisen.
Registrierung bei robotstxt.org
enoola ist bei robotstxt.org registriert. Damit wird es für jeden Administrator noch einfacher, die notwendigen Kontaktdaten zu erhalten.
Der Crawler wird auf einer
Unterscheidung von Link-Typen
Es wird zwischen a-href-Links, area-href-Links, form-Links, input-Links und img-Links unterschieden. Nur a-href und area-href-Links werden dann tatsächlich ausgewertet. Damit ist ausgeschlossen, dass Formulare ausgelöst werden.
Unverzüglicher Stop
Sowie ein Problem bekannt wird, werden sämtliche Crawler-Aktivitäten gestoppt bis das Problem reproduziert und behoben werden konnte. Erst danach werden weitere Seiten durchsucht.