Google möchte CSS und JS Dateien crawlen dürfen -> erlauben?

  • Ja natürlich kannst Du mit diesen Tools in Echtzeit deine "robots.txt" Testen. Doch Google braucht manchmal Wochen bis Monate um angeblich gesperrte Inhalte nicht mehr als Fehler anzuzeigen.
    Ich bekomme selbst noch heute Google-Fehler angezeigt, obwohl diese im Google-Robots-Tester als Grün gekennzeichnet sind.

  • Also die robots.txt ist aktuell gecrawled.


    Trotz der zusätzlichen User-agents werden noch immer 5 Dateien geblockt.


    Sind sie denn wirklich geblockt oder werden sie nur als gebockt angezeigt? was sagt der robots Tester? Wie ich schon gesagt habe, das Freigeben der geblockten Dateien kann von Google aus erfahrungsgemäß 4 bis 6 Monate dauern.

  • @oakmountain, reden wir hier über den richtigen Robots Tester?


    Wenn Du in deinen Blockierten Ressourcen bist, Klickst Du auf die bemängelte URL. Danach öffnet sich ein Fenster. Ganz unter steht robots.txt-Tester. Bei Rot musst Du nachbessern. Bei Grün ist alles OK. Das musst Du mit jeder bemängelten URL machen.


    Gruß Faro

  • Ist denn das sooo Schwer? Und, wenn Du es besser weißt, warum fragst Du denn hier?


    In den Google Webmastertools gibt es zwei Tester einen unter Crawling für die robots.txt und einen unter Google Index / Blockierte Ressourcen mit welchem man die Fehler Analysieren kann. Und vergiss diesen anderen Mist, das braucht kein Mensch. Google alleine ist volkommen ausreichend.

  • Danke für Deine Mühe.
    Um es mal klar zu stellen, ich habe nie behauptet irgend etwas besser zu wissen.
    Mich interessieren nur die Ergebnisse des Tools, welches ich eingesetzt habe im Vergleich zu den Webmaster Tools von Google. Wenn Du irgend etwas von dem was ich tue für unsinnig erachtest, dann danke ich Dir für die Einschätzung.


    Deine herablassende Art hättest Du dir aber schenken können. Ich antworte ja auch nicht mit: "Warum antwortest Du mir überhaupt wenn Du es für überflüssig hältst"


    Ein schönes, sonniges Wochenende wünsche ich Dir noch

  • Sorry, wenn ich mich hier einmische. Aus meiner Sicht ist es so, dass Google seit einiger Zeit wissen möchte, was denn so alles an CSS geladen bzw. zur Verfügung steht. Hintergrund ist u.A. die Beurteilung, wie gut sich eine Seite auf Mobilgeräten macht.


    Deshalb ist es in neueren Inkarnation von Joomla so, dass für Bots Zugriff auf das /templates und auf das /media Directory zugelassen wird. Explizit ausgenommen sind aber Verzeichnisse wie /plugins oder /modules. Darum bleiben Inhalte samt CSS Dateien, die zu Plugins gehören aussen vor. Das ist meines Ansicht nach gut so, auch wenn das Tool von oakmountain etwas anderes behauptet.


    Ich finde die ganze Diskussion hier etwas spitzfindig und ich sage mal: Lasst gut sein, es ist, wie es ist.

  • Glaube mir, ich habe mich lang und breit mit diesem Thema geschäftigt, und wollte Dir nur helfen, weil Du ja in deinen Fragen auch nicht viel Preis gegeben hattest. Letztendlich wollte ich Dir nur die beiden Unterschiede der robots Tester erklären, falls Du sie noch nicht gefunden hattest, da es aus deinen Fragen nicht genau hervorging. Aber nun ja, so ist es nun halt.


    Beste Grüße Faro

  • @oakmountain, ich habe mir mal die robots.txt deiner Seite, welche in deiner Signatur steht, angesehen. Dass der Robots Tester keine Fehler anzeigt, ist völlig normal. Es ist ja nicht zwingend notwendig, den "templates" und "Images" Ordner freizugeben. Jedoch deine Blockierten Ressourcen bekommst Du in dieser Konstellation nicht weg.


    Ich fange mal oben an. Du hast die von "deGobbis" geposteten Zeilen 1 bis 5 eingefügt. Damit lässt Du das Crawlen von css und js Dateien zu. Gleichzeitig hast Du den Google-Bot in Zeile 19 durch Disallow: /templates/ wieder ausgesperrt. Ich glaube nicht, dass Suchmaschinen hier eigenständig eine Auswahl treffen. Zudem hast Du auch den Ordner "images" durch ein "Disallow" gesperrt. Es sei denn, du möchtest nicht, dass deine Bilder inkl. Beschreibungen von Google gefunden werden.


    Ich würde diese beiden Zeilen wie auch schon in anderen Antworten erklärt, einfach entfernen. Auch das "# Disallow: /media/" würde ich nicht machen. Eventuell wird dieser Befehl bei einem den nächsten Google-Updates wieder anders gedeutet. Keine Ahnung, das verrät Google halt nicht :). Ich lass mich aber auch eines anderen Belehren. Wenn Du auch den "media" Ordner freigeben möchtest, lass ihn einfach weg. Wie in diesen Beispiel hier.


    User-agent: *
    Allow: /**/gzip.php?*$
    Allow: /**/*.css?*$
    Allow: /**/*.js?*$
    Allow: /**/*.css$
    Allow: /**/*.js$
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /cli/
    Disallow: /components/
    Disallow: /includes/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /tmp/


    Auch der Eintrag: "Disallow: /installation/" sollte entfernt werden, da ja dieser Ordner gleich nach der Installation von Joomla gelöscht werden sollte. Weniger ist oft mehr, und Google freut sich auch über eine Schlanke aber Klare robots.txt. Bei dieser Gelegenheit kannst Du auch gleich den Info-Text über "User-agent: *" Entfernen. Dieser ist nur als eine einleitende Erklärung zur Configuration gedacht und hat auf die Funktion der robots.txt keinen Einfluss.


    Bei mir war es so, erst nach Berücksichtigung dieser Maßnahmen und erneutem Crawlen meiner robots.txt brauchte Google für die Bereinigung meiner Blockierten Ressourcen von anfangs 490 url's bis jetzt auf nur noch 3 url's gute 15 Monate.


    Gruß Faro

  • @oakmountain, ich würde den /modules/ Ordner nicht Freigeben, oder hat es bei Dir einen besonderen Grund?


    Auch den Befehl "Allow" würde ich nicht vor Ordnern setzen, welche generell freigegeben werden sollten. Google durchsucht eh alles im Root was kein "Disallow" hat. Es gibt auch andere Bots, welche Schnüffeln wollen. :) Und ob diese "Allow" verstehen? keine Ahnung.


    Wie ich oben schon beschrieben habe, ich würde diese Zeilen einfach Löschen. Nach dem Motto: Weniger ist oft mehr. :)


    Gruß Faro