Bots bestimmte Adress-Bestandteile nicht crawlen lassen.

phob · 4. März 2021

Ich sehe gerade im Accesslog, dass der BingBot immer noch irgendwelche URL-Pfad-Angaben aufsucht, die auf den Terminkalender der Komponente JEM zugreifen. Lustigerweise habe ich den JEM schon seit einem Jahr nicht mehr installiert. Gebe ich jetzt die vom Bot gecrawlte URL ein (z.B https:/www.gartenfreunde-braunschweig.de/?el_mcal_month=6&el_mcal_year=2016&modjemcal_id=166&modjemcal_month=9&modjemcal_year=2012), gelange ich zur Startseite (mit einem HTTP Statuscode 200, manchmal auch 303)

Wie kann ich in diesem Fall dem Bot sagen, dass er diese Adresse, sowie weitere mit ähnlichem Aufbau, nur andere Monats und Zeitangaben, nicht mehr crawlen soll?

Und vielleicht könnt ihr mir auch einen Tipp geben, wie ich einen bestimmten Teil der Bots aussperren kann. Denn sowas in der robots.txt wie

User-agent: MJ12bot

Disallow: /

klappt wohl nicht.

JoomlaWunder · 4. März 2021

Sperren über einen Eintrag in die .htaccess (Zugriff auf robots.txt am besten immer zulassen), z.B.

RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [NC]

RewriteCond %{REQUEST_FILENAME} !^.*robots\.txt$

RewriteRule ^.* - [F]

In der robots.txt, z.B.

User-agent: MJ12bot

User-agent: MJ12bot/v1.4.3

Disallow: /

Zu Frage 1:

Alle URLs, die aufrubar sind, können indexiert werden. Du kannst alte URLs, die auf die Startseite führen beispielsweise per .htaccess auf 404 setzen. Dann fliegen die irgendwann aus dem Index.

Ev. bietet Bing zusätzliche Möglichkeiten.

Grundsätzlich könnte man das auch abhängig von den verwendeten Query_Strings machen. Die Webmastertools in Google hatten das sogar mal ermöglicht. Musste man nicht umständlich in der .htaccess rumbasteln. Weiß nicht, ob die Search Console von Google oder auch Bing das noch anbieten. Da sollte man aber höllisch aufpassen und genau wissen, was man macht. Sonst hat man im schlimmsten die gesamte Webseite aus dem Index gekickt. Fängt bereits damit an, dass man das administrator-Verzeichnis auslassen muss.

Nebenbei: Wenn du nur mit 1 Bot Probleme hast, lohnt der Aufwand nicht wirklich. Das müssten schon massive Probleme sein.

Re:Later · 4. März 2021

Zitat von phob

Und vielleicht könnt ihr mir auch einen Tipp geben, wie ich einen bestimmten Teil der Bots aussperren kann. Denn sowas in der robots.txt wie
User-agent: MJ12bot
Disallow: /

klappt wohl nicht.

Kan ich nicht bestätigen. Seit Jahren kommt der Bot auf einer "meiner" Seiten vorbei, wo diese Zeilen in der robots.txt stehen, liest die robots.txt ein und tut sonst nichts weiter. Natürlich sind dann diese Zeilen in der Access-Log-Datei... Gibt auch Tage, wo er das öfter probiert. Dann halt mehr zZeilen drinnen.

Re:Later · 4. März 2021

htaccess

Apache Configuration

RewriteCond %{QUERY_STRING} (el_mcal_|modjemcal_)
RewriteRule .* - [R=404,L]

phob · 4. März 2021

Okay, wie Re:Later geschrieben hat, so ist es doch auch bei mir. Der MJ12bot liest tatsächlich nur noch die robot.txt. Ich habe nur den Namen gelesen, aber nicht weiter den Eintrag betrachtet.

Aber zum eigentlich Thema: In der .htaccess die veralteten Seiten sperren (damt sie später irgendwann nicht mehr gecrawlt werden), ist klar. Wäre ja auch kein Problem wenn es nicht massenhaft wäre. Denn ein Jahr hat 12 Monate, und die Bots (habe nachgeschaut, der Ahrefs-Bot macht ebenfalls mit) variieren anscheinend auch mit der entfernten Zukunft. Denn es werden auch 2030 o.ä. angegeben. Das alles zu berücksichtigen, zumal der Kalender auch über andere Kategorien anzusteuern versucht wird, sprengt jede .htaccess-Datei. Von meiner Arbeitszeit ganz zu schweigen.

Deshalb habe ich gehofft, dass man irgendwie, vielleicht auch in der htaccess, eine oder ein paar wenige Regeln einträgt die sinngemäß aussagen: alles was in der URL "modjemcal" trägt, bitte nicht crawlen.

EDIT: Gerade wo ich meinen Beitrag geschrieben habe hat ReLater mir wohl die Lösung gepostet.

Ich werde den Tipp von Relater nun testen. Danke dir, danke an alle.

Re:Later · 4. März 2021

Es gibt allerdings auch Blödeimer-Bots, denen ist es egal, ob ein Link jetzt auf eine 404 oder 403 führt. Deswegen nehmen sie in trotzdem nicht raus. Oder andere, denen das nofollow egal ist. Z.B. die, die bei Joomla auf Email-an-Freund führ(t)en.

Schon länger her, aber aus Ärger über solche habe ich die seinerzeit auf besagter Seite gleich komplett blockiert. Aber mühsam das Untefrangen.

https://github.com/GHSVS-de/GH…ch/htaccess-bots-kack.txt

(veraltet)

Anlass war zusätzlich, dass wir für die Seite mal eine halbwegs saubere Statistik fahren wollten.