zurück zum Allgemeines | Seiten

chris

15.03.2006, 19:16
 

immer wieder google (Allgemeines)

Hallo,

habe das script im Einsatz, gute Sache, nur wird
immer wieder google gesperrt.
Bsp:
Neuer Spambot: /spider-trap/index.php 2006-03-15 (Wed) 13:44:27
IP: 64.233.178.136
User-Agent: UP.Browser/6.1.0.1.140 (Google CHTML Proxy/1.0)

in der whitelist steht googlebot

lg
chris

JR-EWING

16.03.2006, 23:16

immer wieder google

» Hallo,
»
» habe das script im Einsatz, gute Sache, nur wird
» immer wieder google gesperrt.
» Bsp:
» Neuer Spambot: /spider-trap/index.php 2006-03-15 (Wed) 13:44:27
» IP: 64.233.178.136
» User-Agent: UP.Browser/6.1.0.1.140 (Google CHTML Proxy/1.0)
»
» in der whitelist steht googlebot
»
» lg
» chris

schreib noch einfach Google in die Whitelist wenn du ihn reinlassen willst.

Aber Google hält sich an die Robots - sonst wäre diese Seite schon lange weg !

http://www.dnsstuff.com/tools/ip4r.ch?ip=64.233.178.136
Rows with a RED background indicate a problem (listed in a spam database).
Ich glaube nicht das es wirklich Google ist....


Suche noch Programmierer für das Spider Trap Team, die mir helfen die Software weiterzuentwickeln.

chris

16.03.2006, 23:43

immer wieder google

danke für die antwort, klingt einleuchtend.

nur hab ich noch einen kuriosen eintrag gefunden:
Neuer Spambot: /spider-trap/index.php 2006-03-16 (Thu) 03:28:02
IP: 62.75.214.250
User-Agent: Googlebot/2.1 (+http://www.google.com/bot.html)

es scheint sich hierbei nicht um google zu handeln, aber das
script vergleicht doch den user agent mit der whitelist und
in diesem fall hätten wir doch eine übereinstimmung!?

Quix0r

Homepage

Uetersen,
23.03.2006, 14:32

immer wieder google

Google hat bei mir sogar - woher der das weiss, keine Ahnung! - die /blacklist.txt und /whitelist.txt aufgerufen und hat somit sich selber ausgesperrt. :(

Ich habe das dann per .htaccess gemacht:

<IfModule mod_rewrite.c>
RewriteEngine on

# Wir moegen keine Spione! ;-)
RewriteCond %{HTTP_USER_AGENT} !^Googlebot$
RewriteRule ^(black|white)list.txt$ spider-trap/index.php [L]
# Google von der Falle fernhalten
RewriteCond %{HTTP_USER_AGENT} ^Googlebot$
RewriteRule ^(black|white)list.txt$ - [F]
</IfModule>


Das bedeuetet soviel: (Beispiel)

- Google-Bot hat /backlist.txt aufgerufen? -> "Normales" Access Forbidden
- Anderfalls in die Falle umleiten.

Das [L] verhindert das weitere Suchen nach Regeln, sobald die obere gegriffen hat.

Zudem habe ich folgendes in die robots.txt getan:

User-agent: *
Disallow: /spider-trap

User-agent: Googlebot
Disallow: /spider-trap

User-agent: *
Disallow: /blacklist.txt

User-agent: Googlebot
Disallow: /blacklist.txt

User-agent: *
Disallow: /whitelist.txt

User-agent: Googlebot
Disallow: /whitelist.txt


Hoffe, dass dir das weiterhilft?

MfG,
Roland

charokee

30.08.2006, 19:47

immer wieder google

Vorsicht, den Googlebot einfach in die whitelist.txt einzutragen ist auch nicht unbedingt sinnvoll.

Es gibt Spider, die geben sich als Googlebot aus, aber halten sich nicht an die robots.txt. Da steckt dann nicht Google, sondern jemand anderes hinter.

Ich ahbe kürlich eine merkwürdige Beobachtung gemacht.

Da kam ein Bot auf mein Board, ich schaue mir an wer hinter der IP steckt und es war vermeintlich Google. Dieser Bot hat sich ausschliesslich die Datei profile.php von meinem phpBB Board gegriffen, und nichts anderes. Folglich ist er auch nicht in der Falle gelandet. Den Zugriff auf profile.php habe ich aber in der robots.txt untersagt.

Daraus schlussfolgere ich, das dieser Bot nach Email-Adressen sucht und Homepageadressen ind Benutzerprofilen von phpBB und anderen Boards.

JR-EWING

31.08.2006, 15:46

immer wieder google

das mit "Google" in der whitelist ist eigentlich nur für den Zweck gewesen - die Angst zu lindern - dass eine Seite bei Google raus fliegt.

Das Problem mit der Profile.php ist wahrscheinlich ein anderes - manche Bots gehen ja gezielt auf einige Scripte - comments.php in Wordpress ist auch ein beliebtes Angriffsziel

In der neuen Version die voraussichtlich aber erst Ende September rauskommt - werde ich aber "google" aus der Whitelist rausnehmen.

Sollte nun der Googlebot in die Falle gehen wird ja eine EMail geschickt in der dann auf der Owner der IP erscheint. Und das müsste auf jeden Fall dann immer Google sein wenn es der Googlebot ist.


» Vorsicht, den Googlebot einfach in die whitelist.txt einzutragen ist auch
» nicht unbedingt sinnvoll.
»
» Es gibt Spider, die geben sich als Googlebot aus, aber halten sich nicht
» an die robots.txt. Da steckt dann nicht Google, sondern jemand anderes
» hinter.
»
» Ich ahbe kürlich eine merkwürdige Beobachtung gemacht.
»
» Da kam ein Bot auf mein Board, ich schaue mir an wer hinter der IP steckt
» und es war vermeintlich Google. Dieser Bot hat sich ausschliesslich die
» Datei profile.php von meinem phpBB Board gegriffen, und nichts anderes.
» Folglich ist er auch nicht in der Falle gelandet. Den Zugriff auf
» profile.php habe ich aber in der robots.txt untersagt.
»
» Daraus schlussfolgere ich, das dieser Bot nach Email-Adressen sucht und
» Homepageadressen ind Benutzerprofilen von phpBB und anderen Boards.


Suche noch Programmierer für das Spider Trap Team, die mir helfen die Software weiterzuentwickeln.

charokee

02.09.2006, 17:07

immer wieder google

Also, es handelt sich bei diesem Crawler tatsächlich um einen Googlebot. Allerdings hält er sich nicht an die robots.txt, ist Google wirklich soetwas besonderes das dieser Bot gesondert angesprochen werden will und dieses * stellvertretend für alle Robots nicht akzeptiert?

Ganz schön krass. :-|

TorstenMo

01.09.2007, 12:16

immer wieder google

Hi,

habe den Beitrag "Google sperrt sich aus" gelesen.
Das Skript läuft bei mir auf mehreren seiten. Nun hat es ein projekt getroffen, da sind mehr als 1000 Seiten aus dem Index gefolgen, bei anderen seiten ist die google ip kein problem.

Die Lösung mit der Whitelist ist m.E. nicht ok, dann hat das Skript einen Fehler der behoben werden muss. Wer sagt mir, ob das mit andern IPs nicht auch passiert, nur weil google die bedeutenste und größte suma ist.

Was kann man machen um das prob zu lösen?

Grüße
Torsten

JR-EWING

01.09.2007, 12:55

immer wieder google

Das war schon ein alter Thread, auf Stand der Spider Trap V0.92

In der 1.1 ist ein RDNS Check drin um Google nie auszusperren.

Melde einfach mal die Seite bei den WebmasterTools an, daran sieht man ob Google auf die Seite zugreifen kann oder nicht.

Mir ist das neulich auf einer Seite auch passiert ohne Spider Trap. Bei mir hatte Google Probleme mit dem DNS Lookup meiner Seite.


Suche noch Programmierer für das Spider Trap Team, die mir helfen die Software weiterzuentwickeln.

TorstenMo

01.09.2007, 13:23

immer wieder google

» Das war schon ein alter Thread, auf Stand der Spider Trap V0.92
»

Habe nun die neuste Version verscuht zu installieren. leider immer Error 500, sobald ich auf die install.php oder eine andere datei aus dem ordner zugreifen will. Was kann man da machen?

» In der 1.1 ist ein RDNS Check drin um Google nie auszusperren.
»
» Melde einfach mal die Seite bei den WebmasterTools an, daran sieht man ob
» Google auf die Seite zugreifen kann oder nicht.
Hab ich, sämtlcihe seiten mit 403 Error. Daher ja meine Aufregung, die sind alle aus dem index, die besucher um mehr als 50% eingebrochen.

»
» Mir ist das neulich auf einer Seite auch passiert ohne Spider Trap. Bei
» mir hatte Google Probleme mit dem DNS Lookup meiner Seite.

JR-EWING

01.09.2007, 14:04

immer wieder google

» Habe nun die neuste Version verscuht zu installieren. leider immer Error
» 500, sobald ich auf die install.php oder eine andere datei aus dem ordner
» zugreifen will. Was kann man da machen?

äh 500 heißt dass da was in deinen htaccess Files nicht passt. Tippfehler usw.


Um deine Seite wieder für Google freizuschalten lösche einfach aus der htaccess im root Verzeichnis die IPs raus die unter den Deny Block sind.

Warum Google in die Spider Trap gewandert ist kann aber zig Gründe haben ;-)
Seite offline, oder falsche zusätzliche Anweisungen in der robots.txt usw....


Suche noch Programmierer für das Spider Trap Team, die mir helfen die Software weiterzuentwickeln.


Ähnliche Beiträge
Thema Author Antworten Letzter Beitrag
blacklist ist immer noch leerTorstenMo204.12.2006, 09:47
Spamboot schaltet sich anscheinend wieder freiEschy5406.01.2007, 21:17
Google ausgesperrtholgi031.05.2007, 19:03
google tappt in die falle?JR-EWING021.11.2007, 13:08
Weshalb ich die Spider-Trap wieder ausgebaut habeHobby-SEO222.12.2008, 09:23



zurück zum Allgemeines | Seiten