Google kann Webseite nicht, oder nur manchmal erreichen

  • Hallo zusammen,


    bei einer meiner Seiten kann Google - zeitweise - nicht auf die komplette Webseite zugreifen.

    Dabei handelt es sich nicht um die Blockierung von robots.txt oder um einen Timeout.


    Das tritt auch nicht immer auf - so alle 14 Tage, manchmal auch 21 Tage. Die Webseite ist in der Search Console von Google zu erreichen, doch wird zumeist das .css, .js oder einzelne Bilder nicht geladen. Ich hatte zunächst den Hoster in Verdacht, doch den habe ich zwischenzeitlich gewechselt und das Phänomen tritt weiterhin auf.



    Das Phänomen tritt auf, seitdem ich Yootheme nutze. Parallel dazu läuft JCH und das Cache-Plugin von Joomla.

    Die Webseite selbst läuft flüssig und weist keinerlei Probleme auf - ich denke aber, dass es ein Cache Problem ist.


    Manchmal hilft es, wenn man alle Caches leert (auch den von Yootheme) und die Seite eine weile ohne Cache laufen lässt, doch ist das keineswegs immer der Fall


    Vielleicht kennt einer von euch dieses Phänomen, oder hat eine Idee!?


    Robots.txt


    Die Webseite teile ich gerne per PM mit


    Schöne Grüße

  • Man kann sich auch zu tode cachen.


    Deaktiviere alle Deine Caches und nutze den Cache im Pro/Yootheme oder den OPcache beim Hoster

  • Hallo Birger,

    Danke für den Tipp - alles schon ausprobiert - doch auch das hat Nachteile:


    JCH fungiert in diesem Sinn nicht als Cache, sondern als Optimizer. Der Page-Cache ist aktiv, weil dieser die response Zeit des Servers auf ein Minimum setzt. Den Yootheme Cache kann man nicht deaktivieren. OPcache ist vorhanden, doch sorgt dieser nicht für statische Seiten (response Zeit).


    Was fehlt, ist vermutlich ein anständiges "Löschkonzept" - die Fehlersuche ist deshalb problematisch, da es kein Fehler im klassischen Sinn ist und nur sporadisch bei Google zu finden ist. Häufig führte die folgende Reihenfolge zum Erfolg:

    1.) Yootheme Cache löschen

    2.) JCH-Chache (im Plugin) den Cache löschen

    3.) Joomla und jch Cache löschen


    Aber eben nicht immer und ich würde gerne dem auf den Grund gehen, warum das so ist.


    P.s. was mir gerade aufgefallen ist: Yootheme hatte bis Version 2.0 noch die eigene minify Variante von .js und .css an Board (war bei mir aber abgeschaltet) - diese fehlt nun in der 2.0.x Version. Das werde ich mal testen.


    Was für mich halt so absolut nicht nachzuvollziehen ist:

    Google Search Console sagt, dass das css File nicht zu erreichen ist. Ist es aber und funktioniert - ein Timeout kann ich nicht feststellen (auch nicht in den Logs). Nun könnte man noch sagen, dass es sich um einen Schluckauf von Google handelt - so ist es aber nicht, da dieses Phänomen nun seit einigen Monaten alternierend immer wieder kehrt.


    Hmm, denkbar wäre auch folgend banales:

    https://translate.google.com/t…hread%2F2348563%3Fhl%3Den

  • Keine Ahnung, ob das folgende zur Lösung beiträgt. Ich denke auch, dass deine Seite "überoptimiert" sein könnte. Aber:

    Vor ein paar Jahren habe ich bzgl. Google auch mal ein paar Tests gemacht. Da wurden einige Dateien bemängelt, auf die anscheinend nicht zugegriffen werden konnte. Letzlich wurden sie nur durch Einträge in der robots.txt blockiert.

    Bei dir wird wie bei mir damals das cache-Verzeichnis blockiert. Dementsprechend hatte ich noch einige allows eingefügt, z.B.

    Allow: /cache/template/

    Allow: /cache/widgetkit/


    Von da an war Google zufrieden. Bei dir wird wohl /cache/css/ betroffen sein.

    Oder nimm das disallow für das cache-Verzeichnis mal raus zum Testen!

    Ich habe die Thematik aber nicht weiter verfolgt.


    EDIT: Ich habe mich gerade verschaut. Es ist bei dir ja wohl gar nicht das Cache-Verzeichnis betroffen, sondern das Media-Verzeichnis (sofern nur die Domain geschwärzt wurde). Dennoch vermute ich eine Blockierung seitens der robots.txt.


    In Verbindung mit Yootheme habe ich nie JCH einsetzen müssen. Allerdings bezieht sich das noch auf die alten Warp7-Templates und nicht auf die PRO-Version.

  • Danke für eure Hinweise und Erfahrungen.


    Das interessante ist, dass wenn Google etwas bemängelt, ich aber einen Test laufen lasse, so kommt es zu keinen Fehlern. Das - kann - auf das Crawlbudget zurückzuführen sein.


    JoomlaWunder

    Die Robots.txt sieht mittlerweile wie folgt aus - doch verändert hat das an der Problematik nichts:


    @Birger

    Wie meinst du das, dass das nicht miteinander funktioniert?

  • Bin mir da nicht sicher, dachte aber immer, dass die Allows nach den Disallows stehen müssen?!?


    Und da dein media-Verzeichnis kein disallow hat, musst du für Unterverzeichnisse von media auch kein allow setzen. Selbiges für templates, plugins und images.


    Auch die allows für die Dateiendungen (falls überhaupt richtig eingetragen) sollten weggelassen werden.

    Allows nur dann setzen, wenn es Google gerne für Unterverzeichnisse/Dateien so hätte, und das übergeordnete Verzeichnis ein disallow hat. Da muss man exakt nach dem gehen, was Google meldet.


    Wenn ich nur nach deinem ersten Beitrag gehe, müsste eigentlich die standard-robots.txt passen. Vermutlich bemängelt Google aber noch was anderes, was es herauszufinden gilt, für das man dann eine Ausnahme in die robots.txt setzt. Ist aber jetzt reine Vermutung, da selber schon erlebt.

  • Zitat

    Und da dein media-Verzeichnis kein disallow hat, musst du für Unterverzeichnisse von media auch kein allow setzen. Selbiges für templates, plugins und images.


    Ich habe bei der Recherche für dieses Problem häufiger lesen müssen, dass man - wenn Google bemängelt - es explizit mal damit versuchen soll, die bemängelten Pfade in der robots.txt freizugeben. Nach diversen Tests soll das geholfen haben - schaden kannst nicht, aber du hast recht - erst verbieten, dann erlauben.




    Zitat

    Auch die allows für die Dateiendungen (falls überhaupt richtig eingetragen) sollten weggelassen werden.


    Gemäß Google wäre das Korrekt (respektive für Allow):



    Grundsätzlich aber funktioniert das bei Google ja - aber nur sporadisch eben nicht. Wenn du 10 mal die Seite in der GSC prüfst, war das 6 mal erfolgreich und 4 mal nicht. Google sollte niemals die Weltherrschaft erlangen :)

  • .... aber du hast recht - erst verbieten, dann erlauben.

    Zumindest hat Google da wohl eine andere Reihenfolge.

    Das mit dem expliziten Erlauben konnte ich noch nirgends nachvollziehen.

    Die robots.txt diente ja ursprünglich nur zum Verbieten. Alles was nicht verboten wurde, war erlaubt.

    Allow ist eigentich nur für Ausnahmen in verbotenen Verzeichnissen nötig.


    Dann würde ich vorschlagen, mal alle Optimierungen zu deaktivieren und nacheinander "einzuschalten" und immer schauen, wie Google reagiert.

    Eigentlich braucht man maximal nur Yootheme-Optimierungen, OPCache und maximal noch den normale Joomla-Cache. Letzteren eventuell auch deaktivieren. Damit habe ich gute Erfahrungen gemacht.

  • Zitat

    Die robots.txt diente ja ursprünglich nur zum Verbieten. Alles was nicht verboten wurde, war erlaubt.

    So ist es auch immer noch - nur scheint sich Google manches mal zu verschlucken - aber wie gesagt denke ich, dass es in meinem Fall das Crawlingbudget ist. Das bedeutet dass die Anzahl der Files im Abfrageturnus zu hoch ist - deshalb brauche ich JCH.


    In Yootheme 2.0 ist im Übrigen die Optimierung nicht mehr zu finden.