Beiträge mit seltsamer URL - im Backend nicht auffindbar

  • Hallo liebes Joomla-Forum.


    Ich arbeite seit einigen Jahren mit Joomla und habe mir über Foren und Hilfeseiten oft selbst weiterhelfen können und immer mehr Wissen angeeignet. Von einem Könner, geschweige denn Experten bin ich allerdings noch sehr weit entfernt :)


    Für ein Problem konnte ich trotz intensiver Suche bis heute keine Lösung finden und benötige bitte dringend mal Schwarmwissen.


    Ich benutze für meine Webseite die Googel Search Konsole. Dort sind einige der ersten Beiträge unter seltsamen URLs gelistet. Laut URL liegen diese im Menü Impressum oder im "Über"-Beitrag. Erstere sind tatsächlich erreichbar, zweitgenannte generieren einen 404.


    Tatsächlich sind die Seiten aber auch alle unter der korrekten URL erreichbar. Google weigert sich allerdings, diese zu indexieren.


    Hier einmal zwei Beispiele:

    Korrekte URL: https://www.spieledorf.net/rez…nter-pyramiden-bluff.html

    "Falsche" URL: https://www.spieledorf.net/imp…eo-bunter-pyramiden-bluff


    Korrekte URL: https://www.spieledorf.net/rez…w-die-enten-sind-los.html

    "Falsche" URL: https://www.spieledorf.net/%C3…-a-row-die-enten-sind-los


    Die Seiten, die in der "Über"-Seite landen und eine 404 generieren werden auch mit altem Favicon ausgespielt. Ich habe der Seite vor einem Jahr einen Relaunch verpasst und ein neues Template spendiert. Davor hatte ich ein selbstgebasteltes von Artisteer, jetzt ein gekauftes von Joomlaplates, das ich selbst abgewandelt habe.


    Eventuell ist dabei etwas schiefgelaufen, ich weiß aber nicht was. Zumal nicht alle Beiträge betroffen sind, sondern nur etwa 10 bis 12 ganz alte - beim Relaunch waren es schon mehr und ein Großteil ist nicht betroffen. Ich würde die Beiträge unter den falschen URL ja gern löschen, habe aber im Backend keinen Zugriff darauf. Habe die betroffenen URL in der robots.txt mit noindex eingetragen, nützt allerdings nichts.


    Hat jemand eine Idee, wie ich verhindern kann, dass die Beiträge unter den "falschen" URL aufrufbar sind? Oder wie ich diese URL loswerde? Das ist zwar jetzt kein Drama, mir wäre es aber schon lieber, wenn die Beiträge nur unter der korrekten URL abrufbar wären.


    Ich hoffe, ich habe alle wichtigen Infos genannt. Falls jemand mehr Infos benötigt, bitte Bescheid geben. Ach ja: Joomla ist selbstverständlich auf dem aktuellsten Stand.


    Vielen Dank für Eure Hilfe und beste Grüße,

    Julia

  • Nachtrag: Joomla-Version 3.9.0

    PHP: 7.2.4-fpm

    Mysql: MySQL 5.7


    Das Problem besteht schon recht lange, ist aber nicht akut. Die IDs in den "falschen" URl sind die tatsächlichen Beitrags-ID.

  • Hallo Julia,


    zuerst wäre wichtig, dass die falschen URLs einen 404 - not found zurückgeben.

    Das erreichst du z.B. über die .htaccess Datei.


    RewriteEngine On (darunter einfügen)


    RewriteCond %{REQUEST_URI} ^(.*)html$

    RewriteCond %{QUERY_STRING} ^id=(.*):

    RewriteRule ^ - [L,R=404]



    Damit werden alle URLs abgedeckt, die html und eine id mit Doppelpunkt darin enthalten.


    Anschließend kannst du die Links in der Search Console entfernen.

    https://www.google.com/webmasters/tools/url-removal


    Gruß


    Pascal

  • Hallo Pascal,


    vielen Dank, das war sehr hilfreich. Jetzt werde ich sie noch bei Google entfernen, auch wenn das nur vorübergehend ist. Ich hoffe einfach, dass er sie dann nicht neu aufnimmt, wenn sie eine Fehlermeldung zurückgeben.


    Aber irgendwie sind diese URL ja existent. Sie zeigen den gleichen Inhalt an, nur ohne Einleitungsbild. Hat jemand eine Idee, wie so etwas entsteht? Möchte das natürlich künftig vermeiden.


    Kann es sein, dass sich die Beiträge im Topmenü "einnisten", weil es im Topmenü keine Kategorien gibt, sondern nur unkategorisierte Einzeelbeiträge (Impressum, Über-Text und Datenschutzerklärung)? Sollte ich das ggf. ändern?


    Lieben Dank und viele Grüße,

    Julia

  • Ich hoffe einfach, dass er sie dann nicht neu aufnimmt, wenn sie eine Fehlermeldung zurückgeben.

    Du darfst nur nicht darauf reagieren, wenn sie dir in der Console immer und immer wieder als 404 angezeigt werden, weil es ist ja richtig so wie es ist.


    Oder richtest halt doch immer mal wieder die eine oder andere Umleitung per htaccess ein. Dann kannst sie auf erledigt setzen in der Console. (Muss man aber auch nicht unbedingt, wenn man nicht bei jedem Console-Eintrag gleich hektisch wird. Ist ja vieles Beschäftigungstherapie.)

  • Vermutlich ist da etwas auf deiner Seite nicht sauber eingerichtet oder du nutzt irgendetwas (vielleicht irgendein Plugin), was zu deinem Problem führt. Schau noch mal alles ganz genau durch!


    Wie bereits geschrieben, solltest du dafür sorgen, dass die jeweiligen Seiten ein 404 zurückgeben. Keine Suchmaschine wird diese im Index haben wollen und sie früher oder später rausschmeißen.

    Aus diesem Grund würde ich diese Seiten aber auch aus der robots.txt entfernen, welche du mit einem "disallow" angegeben hast. Man muss die Bots ja nicht noch zusätzlich auf solche URLs aufmerksam machen.


    Bei der Angabe der Sitemaps in der robots.txt könntest du noch auf "https" umstellen.

  • Können auch einfach Altlasten sein, die sich jetzt eben bei Google als zu bevorzugen mal eingebrannt haben.


    Blödes Modul,

    Breadcrumb, obwohl Menüstruktur noch nicht sauber,

    neuen (=modernen) Router mittendrin eingestellt,

    irgendwo einen Link mit Editor eingefügt, der falsch auflöste,

    irgendwer, der auf seiner Seite sonstwo im Netz den "falschen" Link verwendet,

    die Sitemap nicht geprüft, nicht erneuert (falls eingereicht),

    und vieles vieles mehr.


    Aber halt Google schon zu früh auf die Seite gelassen.

  • Hallo zusammen und vielen Dank für die zahlreichen hilfreichen Tipps.


    Die betroffenen Beiträge sind mit die ersten, die ich überhaupt auf der Seite hatte. Damals habe ich noch viel gefrickelt und blöderweise auch schon Google drauf gelassen, also die Seite dort angemeldet. Dann habe ich einige Jahre fast nichts gemacht und im vergangenen Herbst dann den "Relaunch" mit neuer Optik. Da konnte ich dann auch Geld in vernünftige Plugins und Komponenten investieren, was ich auch getan habe. Die Seite hatte ich übrigens im Herbst 2017 komplett gelöscht und ganz neu aufgesetzt und mir vorher die IDs aufgeschrieben, damit ich alle Artikel wieder in der richtigen Reihenfolge reinstelle (ja, ich habe tatsächlich alle manuell neu eingestellt - vermutlich bescheuert, aber ich wollte einen kompletten Neustart). Durch die gleichen IDs führen vermutlich auch alte URL in Google auf die neuen Seiten (dank identischer Menüstruktur blieben ja die URL gleich).


    Es sind also vermutlich wirklich Altlasten. Eine Sitemap habe ich nämlich zum ersten Mal diesen Sommer eingereicht (*hüstel*) und dann direkt mit JSitemap Pro - die ist auch völlig in Ordnung und hat diese URLs nicht. Ich werde es jetzt also bei 404 belassen, darauf warten, dass Google die Altlasten von selbst rauswirft und die disallow-Regeln in der robots.txt noch löschen, von wegen aufmerksam machen und so :)


    Da keiner der neueren Beiträge den Fehler verursacht, hoffe ich, dass das auch so bleibt. Euch allen Danke für die super Hilfe.


    Julia