zurück zum Allgemeines | Seiten

User

31.01.2006, 20:27
 

Liste aller guten Bots? (Allgemeines)

Hallo,

bin gerade dabei, mir das Ding auf den Server zu liften, ist ja echt ne feine Sache, wenns funktioniert.
Sicher werden auch gern Verbesserungsanregungen (Hach - was für ein geiles Wort: "Verbesserungsanregungen"!) angenommen. Mir schwebt ein Listing aller erwünschten Bots vor und deren generelles Erlauben in der .htaccess. Und zwar denke ich an eine genaue Definition durch ihre IP-Adressen, die ja fast immer gleich sind (In der whitelist.txt stehen ja nur User-Agents). Jeder unerwünschte Bot aber kann ja seinen User-Agent fälschen, seine IP-Adresse aber nicht. Gibt es solche IP-Listen irgendwo? Und könnte man die Erlaubnis für eine IP generell erzwingen, indem dann in der .htaccess steht "Allow From xxx.xxx.xxx.xxx"?

JR-EWING

31.01.2006, 23:39

Liste aller guten Bots?

Hallo,
das mit den IPs kann ich in die Whitelist gerne mit aufnehmen. Das Problem ist eher, dass es oft ganze Bereiche also IP Ranges sind.

Allow From xxx.xxx.xxx.xxx geht :-)

du kannst aber auch
Allow from google.com

schreiben oder nur einen Teil der IP
Allow from 10.1




» Hallo,
»
» bin gerade dabei, mir das Ding auf den Server zu liften, ist ja echt ne
» feine Sache, wenns funktioniert.
» Sicher werden auch gern Verbesserungsanregungen (Hach - was für ein geiles
» Wort: "Verbesserungsanregungen"!) angenommen. Mir schwebt ein Listing aller
» erwünschten Bots vor und deren generelles Erlauben in der .htaccess. Und
» zwar denke ich an eine genaue Definition durch ihre IP-Adressen, die ja
» fast immer gleich sind (In der whitelist.txt stehen ja nur User-Agents).
» Jeder unerwünschte Bot aber kann ja seinen User-Agent fälschen, seine
» IP-Adresse aber nicht. Gibt es solche IP-Listen irgendwo? Und könnte man
» die Erlaubnis für eine IP generell erzwingen, indem dann in der .htaccess
» steht "Allow From xxx.xxx.xxx.xxx"?


Suche noch Programmierer für das Spider Trap Team, die mir helfen die Software weiterzuentwickeln.

User

01.02.2006, 08:48

Liste aller guten Bots?

Hallo,

in die whitelist muß es ja nicht unbedingt, man kann es ja direkt in die .htaccess eintragen. Wichtig ist am Ende eben nur, daß ein Client nie allein auf Grund seines User-Agents erlaubt werden kann, weil der ja eben fälschbar ist. Ich habe schonmal eine Liste mit offenbar allen Googlebot-IPs gefunden:
http://www.webmaster-eye.de/GoogleBot-IP-Nummern.240.artikel.html
Entsprechend habe ich nun in der .htaccess stehen:
Order deny,allow
Allow from 216.239.46.
Allow from 64.68.82.
Allow from 64.68.86.
Um die IP-Ranges noch weiter einzugrenzen, kann man ja auch reguläre Ausdrücke verwenden, wie 64.68.8[0-9]. usw...
Was ich jetzt noch suche, ist eine Liste aller normalerweise erwünschten Bots, also Google, MNS, Metacrwaler usw., und deren Ips.

» Hallo,
» das mit den IPs kann ich in die Whitelist gerne mit aufnehmen. Das Problem
» ist eher, dass es oft ganze Bereiche also IP Ranges sind.
»
» Allow From xxx.xxx.xxx.xxx geht :-)
»
» du kannst aber auch
» Allow from google.com
»
» schreiben oder nur einen Teil der IP
» Allow from 10.1
»
»
»
»
» » Hallo,
» »
» » bin gerade dabei, mir das Ding auf den Server zu liften, ist ja echt ne
» » feine Sache, wenns funktioniert.
» » Sicher werden auch gern Verbesserungsanregungen (Hach - was für ein
» geiles
» » Wort: "Verbesserungsanregungen"!) angenommen. Mir schwebt ein Listing
» aller
» » erwünschten Bots vor und deren generelles Erlauben in der .htaccess.
» Und
» » zwar denke ich an eine genaue Definition durch ihre IP-Adressen, die ja
» » fast immer gleich sind (In der whitelist.txt stehen ja nur
» User-Agents).
» » Jeder unerwünschte Bot aber kann ja seinen User-Agent fälschen, seine
» » IP-Adresse aber nicht. Gibt es solche IP-Listen irgendwo? Und könnte
» man
» » die Erlaubnis für eine IP generell erzwingen, indem dann in der
» .htaccess
» » steht "Allow From xxx.xxx.xxx.xxx"?

JR-EWING

01.02.2006, 09:39

Liste aller guten Bots?

Ich denke nicht das es irgendwo eine komplette Liste gibt. Ändert sich ja auch ab und zu bzw. benutzt Google auch Proxies um Cloaking zu entdecken.

Hier mal was ich gefunden habe:
http://www.searchengineworld.com/spiders/spider_ips.htm

Ich weiß aber nicht wie aktuell das ist.

Gruß Tom


Suche noch Programmierer für das Spider Trap Team, die mir helfen die Software weiterzuentwickeln.

User

01.02.2006, 22:49

Liste aller guten Bots?

Danke für die Liste.
Übrigens habe ich heute festgestellt, daß eine IP-Nummer auch dann gesperrt wird, wenn ich sie in der .htaccess mit 'Allow from' erlaubt habe. So läßt sich also im Apache offenbar eine generelle Erlaubnis für einen Clienten nicht erzwingen. :-(
Was ich aber auch festgestellt habe, ist daß googlebot, der eben bei mir war, sich auf jeden Fall frei bewegen konnte. Ich habe in der robots.txt den googlebot direkt angesprochen, also alle Pfad-Verbote für 'User-Agent *' nochmal für googlebot wiederholt.
Wenn sich aber noch eine Lösung fände, eine IP-Nummer generell zu erlauben, evt. im Apache (httpd.conf vielleicht?), wäre das ein großer Segen.
Alternativ: wäre es doch sicherlich möglich, per PHP zu verhindern, daß eine Liste bestimmter IP-Nummern überhaupt in die Blacklist und die .htaccess eingetragen werden kann! :lookaround: Also mit einer if-else-Abrage und den Ip-Nummern-Stämmen in einem Array!
Und nochwas fällt mir ein! Wäre es nicht ultragenial, wenn man einstellen könnte, daß die robots.txt nur von bestimmten IP-Stämmen überhaupt gesehen werden könnte? Dann wäre schonmal total ausgeschlossen, daß ein Badbot mit gefälschtem Header ("googlebot" z.B.) sich absichtlich an die robots.txt hält, um nicht in Fallen zu tappen? :-P Genau an diese Möglichkeit schonmal gedacht? Also auf Deutsch, ich weise meinen Badbot an, die robots.txt zu lesen und also die dort verbotenen Ordner auch nicht zu besuchen. Dann wäre Spider-Trap wirkungslos. :-| Daran schon mal gedacht? Also kann man irgendwie machen, daß nur die IPs der guten Bots die robots.txt überhaupt sehen dürfen?

» Ich denke nicht das es irgendwo eine komplette Liste gibt. Ändert sich ja
» auch ab und zu bzw. benutzt Google auch Proxies um Cloaking zu entdecken.
»
»
» Hier mal was ich gefunden habe:
» http://www.searchengineworld.com/spiders/spider_ips.htm
»
» Ich weiß aber nicht wie aktuell das ist.
»
» Gruß Tom

JR-EWING

02.02.2006, 09:25

Liste aller guten Bots?

Danke für die Tipps.
1. Die Software wird ja noch weiterentwickelt.

» Danke für die Liste.
» Übrigens habe ich heute festgestellt, daß eine IP-Nummer auch dann
» gesperrt wird, wenn ich sie in der .htaccess mit 'Allow from' erlaubt
» habe. So läßt sich also im Apache offenbar eine generelle Erlaubnis für
» einen Clienten nicht erzwingen. :-(

ich glaube dann hast du was falsch gemacht ;-)
Vielleicht musst du nich "Order deny,allow" reinschreiben.

# ausschließen
Order deny,allow
Deny from .google.com
Deny from 123.456
Allow from 123.456.789.012

» Was ich aber auch festgestellt habe, ist daß googlebot, der eben bei mir
» war, sich auf jeden Fall frei bewegen konnte. Ich habe in der robots.txt
» den googlebot direkt angesprochen, also alle Pfad-Verbote für 'User-Agent
» *' nochmal für googlebot wiederholt.

Hast du den "googlebot" in der Whitelist ?

» Wenn sich aber noch eine Lösung fände, eine IP-Nummer generell zu
» erlauben, evt. im Apache (httpd.conf vielleicht?), wäre das ein großer
» Segen.
» Alternativ: wäre es doch sicherlich möglich, per PHP zu verhindern, daß
» eine Liste bestimmter IP-Nummern überhaupt in die Blacklist und die
» .htaccess eingetragen werden kann! :lookaround: Also mit einer
» if-else-Abrage und den Ip-Nummern-Stämmen in einem Array!

Dafür ist eigentlich genau die Whitelist da. Momentan werden da aber nur UserAgents berücksichtigt. Ab 0.93 kann man dort auch IPs Ranges angeben.

» Und nochwas fällt mir ein! Wäre es nicht ultragenial, wenn man einstellen
» könnte, daß die robots.txt nur von bestimmten IP-Stämmen überhaupt gesehen
» werden könnte? Dann wäre schonmal total ausgeschlossen, daß ein Badbot mit
» gefälschtem Header ("googlebot" z.B.) sich absichtlich an die robots.txt
» hält, um nicht in Fallen zu tappen? :-P Genau an diese Möglichkeit
» schonmal gedacht? Also auf Deutsch, ich weise meinen Badbot an, die
» robots.txt zu lesen und also die dort verbotenen Ordner auch nicht zu
» besuchen. Dann wäre Spider-Trap wirkungslos. :-| Daran schon mal gedacht?
» Also kann man irgendwie machen, daß nur die IPs der guten Bots die
» robots.txt überhaupt sehen dürfen?

Ja an sowas habe ich schon gedacht, aber dann hab ich genau das Problem wieder, dass ich die IPs von Google & Co bräuche und das nicht 100% sicher ist mit welchen IPs die kommen.

Gruß Thomas


Suche noch Programmierer für das Spider Trap Team, die mir helfen die Software weiterzuentwickeln.


Ähnliche Beiträge
Thema Author Antworten Letzter Beitrag
liste von nicht bösen, aber nervigen botspeterle116.01.2006, 23:01
IP ListeJR-EWING424.05.2008, 23:53



zurück zum Allgemeines | Seiten