404 Fehler mit seltsamen Ziel-Adressen, die nicht existieren dürften

  • Hallo zusammen,

    ich beschäftige mich derzeit recht viel mit der Umleitungskomponente, pflege 301 Umleitungen ein nachdem mir eine SEO kürzlich erst Probleme bereitet hat s. "page-break" Menülinks kaputt nach Deinstallation von SEO Plugin


    Nun sammelt die Joomla-eigene Umleitungskomponente aber ettliche 404 Fehler mit URLS, die ich nicht erklären kann.



    Die 404 fangen alle an mit einem URL-Teil eines Artikels, den es zwar gibt (Selbstbauprojekt Lautsprecher) aber der nachfolgende URL-Teil verweist immer in irgendwelche anderen Kategorien, die mit diesem Artikel nichts zu tun haben und daher dürfte es die kompletten Links so nirgends geben oder gegeben haben.

    Am Tag kommen etwa 300 solcher 404 Meldungen dazu. Ich repariere aktuell täglich etwa 2 echte 404, danach lösche ich die restlichen per "Deaktivierte Links löschen" und am darauffolgenden Tag sind wieder 200 - 300 solcher 404 Meldungen mit "Selbstbauprojekt" am Anfang der URL in der Umleitungskomponente zu finden.



    Kann sich da jemand einen Reim drauf machen und hat eine Idee, wie ich das beheben kann?

  • Dass Bots irgendwelche URLs generieren und testen, ist jetzt nicht ungewöhnlich. Da du sehr viele Seiten hast, werden entsprechend viele URLs erzeugt und aufgerufen. Könnte also auch einfach nur Hintergrundrauschen sein, wenn es keine andere erkennbare Ursache geben sollte.

  • sind diese Links immer anders? Hast du , oder irgendwer, evtl. mal n falschen Link irgendwo in einem Forum gepostet womit das zu erklären wäre?

    ich hatte mal Links zu dem eigentlichen Artikel (Selbstbau-Lautsprecher) in ein, zwei Lautsprecherforen gepostet. Aber keine Links, wo diese falschen URL-Endungen mit dran hängen.

    Die Links sind auch immer anders. Das ist immer eine Kombination aus existierenden Kategorien und Artikeln, die aber als Anfang fast immer den Lautsprecherartikel haben. Beispiel:


    https://mona-stefan.de/sonstig…ohnzimmer-pa-lautsprecher/299-22-07-obst-inventur/detail/12390-22-07-obst-inventur-10?phocadownload=2&tmpl=component


    PS: ich tippe mal, der letzte Part "phocadownload" weist auf die Komponente "Phoca Download" hin - die ich aber nicht installiert habe. Ist aber nicht immer so, hier ein anderer:


    https://mona-stefan.de/sonstig…teiler3-soleverteiler1-21?tmpl=component


    und hier noch ein anderer

    https://mona-stefan.de/sonstig…349-22-12-schicht-2017-08?phocaslideshow=1&tmpl=component


    hier noch ein paar als Screenhot frisch aus der Umleitungskomponente heraus

     


    Hast Du noch irgendwo eine Sitemap laufen die diese falschen Links in Umlauf bringt? Komponente oder manuell bei Google hinterlegt, könnte beides in Frage kommen.

    Ich nutze OSmap free. Hatte ich vor zwei Wochen mal runter geworfen da als inkompatibel mit J4 gekennzeichnet, danach habe ich gesehen, dass die auch eine J4 Komponente anbieten und hab sie wieder installiert. So auf den ersten und zweiten Blick sieht das OK aus, was die generiert

    Sitemap


    Moin zusammen,

    du benutzt Joomla SEF URLs by Artio schau mal dort rein. Ob die URLs nicht dort erscheinen.

    offenbar hast Du den richtigen Riecher gehabt.

    Die ersten 150 Links oder so in JoomSEF zu "Selbstbauprojekt Lautsprecher" passend und führen auch nur von non-SEF Links zu besagtem Artikel zu SEF-Links. Soweit OK.

    Aber ab dann routet die Komponenten scheinbar willkürlich funktionierende Links um auf auf diese, nicht mehr funktionierenden URLs, die dann mit 404 quittiert werden

     


    Waaaah, was ein Kack.

    Und händisch editieren wird schwierig werden, weil wenn ich das richtig sehe hat diese besch... Komponente bereits "schlanke" 47.867 URLs alleine mit "Selbstbauprojekt Lautsprecher" darin erzeugt


    Dass Bots irgendwelche URLs generieren und testen, ist jetzt nicht ungewöhnlich. Da du sehr viele Seiten hast, werden entsprechend viele URLs erzeugt und aufgerufen. Könnte also auch einfach nur Hintergrundrauschen sein, wenn es keine andere erkennbare Ursache geben sollte.

    ich hab mir mal ein paar Referrer angesehen in der JoomSEF Komponente, die meisten scheinen tatsächlich von Bots zu kommen

  • BTW:

    Ich nutze OSmap free. Hatte ich vor zwei Wochen mal runter geworfen da als inkompatibel mit J4 gekennzeichnet

    Vielleicht interessant dazu:


    GitHub - astridx/pkg_agosms: Joomla Module not only for showing Markers on a OpenStreetMap Map.
    Joomla Module not only for showing Markers on a OpenStreetMap Map. - GitHub - astridx/pkg_agosms: Joomla Module not only for showing Markers on a OpenStreetMap…
    github.com


    von astrid

  • Sorry Elwood wenn ich mich hier einmische,

    Kein Problem, dafür sind wir ja da ....


    aber OSMap hat nichts mit dem zu tun, was du denkst

    Dann habe ich es falsch gelesen/gedacht und bin davon ausgegeangen,

    dass es sich um osm handelt.


    Danke für deinen Input. :)


    OSMap ist dann aber auch für J4 verfügbar:


    OSMap, by Joomlashack - Joomla Extension Directory

  • so, nun hat mir diese besch... Artio JoomSEF den kompletten Webserver lahm gelegt :cursing:


    Manchmal kommt auch nur "Error"


    nach mehrmaliger Rücksprache mit Host Europe habe ich nun den entsprechenden Hinweis auf die Komponente bekommen:

    (* = orig. DB-Bezeichnungen unkenntlich gemacht)

    das sind Datenbankeinträge zu Artio JoomSEF und ich schätze mal, in "sefurls" sind die URLs, die ich oben schon mit 78.000 per Screenshot drin hatte.


    Die Datenbank wird gerade komplett zugemüllt und wächst ständig an, hat schon 700MB (vor ein paar Tagen noch 500MB).

    Seltsam auch, da ich in der Komponente (im Backend) vor Tagen schon den Haken gesetzt habe bei "Neue SEF-URLs generieren - Nein"



    Die Folge: der MySQL-Dienst auf dem Webserver hängt sich auf. Wird er von Hosteurope manuel resettet dann dauert es keine halbe Stunde, bis er wieder voll läuft und sich erneut aufhängt.

    Weitere Folge: ich habe auch keinen Zugriff mehr per PHPmyAdmin, um manuel etwas an der DB zu ändern.

    Das einzige, was dauerhaft funktioniert ist der Zugriff per FTP.


    Hat jemand eine Idee, wie ich am besten weiter vorgehe?

  • Wenn ich jetzt nicht den Durchblick verloren habe, wird die Tabelle der Umleitungskomponente zugemüllt, oder? Dann fällt mir nur das Deaktivieren des dazugehörigen Plugins ein.


    Da du die Komponente aber auch für etliche gezielte Umleitungen nutzt, könnte ich mir ev. vorstellen, die ein oder andere URL über die .htaccess zu blockieren (Weiterleitung zu 404), solange bis du die Sache bereinigt hast.

    Vielleicht haben diese vielen zumüllenden URLs im Aufbau etwas gemeinsam, so dass du hier mit ein paar Zeilen in der .htaccess zumindest einen Großteil der URLs zu 404 weiterleiten kannst, ohne dass du dir das Ranking deiner Seiten kaputt machst. Da muss man höllisch aufpassen, dass man nicht versehentlich die indexierten URLs auf 404 weiterleitet. Von daher ist das mit Vorsicht zu genießen.

    Auf Dauer musst du die Webseite aber umbauen hinsichtlich dieser SEO-Tools.

  • Wenn du das System - Umleitung Plugin so laufen lässt, dass es andauernd URLs sammelt, ist es nur eine Fage der zeit, bis deine Datenbank den Geist aufgibt.

    Das macht man nur dan, wenn man es gerade dringend braucht, und auch dann nur unter Aufsicht bzw. dauerne Beobachtung.

  • Wenn ich jetzt nicht den Durchblick verloren habe, wird die Tabelle der Umleitungskomponente zugemüllt, oder? Dann fällt mir nur das Deaktivieren des dazugehörigen Plugins ein.

    ich weiß nicht genau, wie die Joomlaeigene Umleitungskomponente + Plugin mit der JoomSEF-Komponente zusammenhängt, aber für mich sieht es aktuell nach folgender Reihenfolge aus:


    1. das SEO-Tool generiert irgendwelche URLs, mittlerweile über 124.000 Einige sind normale URLs und funktionieren, aber die allermeisten funktionieren nicht (die mit den "Lautsprecher Selbstbauprojekt" im Anfangsteil der URL),


    2. das lässt dann die Datenbank zulaufen (s. Datenbanktabellen aus der Mail von Host Europe)

    3. und da diese URLs nicht funktionieren landen sie zum Schluss in der Umleitungskomponente.



    Ich hab nun zumindest mal die Option "URLs sammeln" im Umleitungs-Plugin deaktiviert, danke für den Hinweis.

    Außerdem hab ich in der SEO-Komponente zwei, drei Häkchen anders gesetzt als ich mal kurz Zugriff auf das Backend hatte


    Hier meine Änderungen unter JoomSEF Konfiguration -> Advanced

    • Redirect nonSEF URLs to SEF? -> no
    • Parse Joomla SEO links? -> no
    • Debugging URL errors -> no

    PS: wenn ich die erste Option "enable JoomSEF" auf "Nein" stelle funktioniert nicht ein Link mehr auf meiner Seite inkl. der Menüs. Und die zweite Option "Disable creation of new SEF URLs" scheint keine Funktion zu haben weil das steht ja schon seit einigen Tagen auf "Ja"




    zusätzlich hab ich per FTP im Verzeichnis components -> com_sef -> controller die cron.php umbenannt weil ich vermute, dass dadurch ein crawlen der URLs angestoßen wird.



    Bei einem dieser vier Änderungen war wohl der Übeltäter dabei, weil seit etwa zwei Stunden scheint die Seite durchgängig erreichbar zu sein

  • Fehlanzeige, Problem besteht leider weiterhin.


    Ich habe nun ein altes Backup von Anfang des Jahres auf einen Testserver eingespielt, die EInstellungen von JoomSEF gescreenshottet und alles 1:1 so in meine aktuelle Installation übernommen. So sollten nun zumindest nicht noch mehr fehlerhafte URLs in der DB landen.


    Was ich nun probieren möchte, aber nicht hin bekomme:

    die aktuelle Datenbank mit den mittlerweile 140k URL-Einträgen säubern und die fehlerhaften URLs rauslöschen.


    mein Problem hierbei:

    1.) über das Joomlabackend und JoomSEF kann ich die URLs sehr gut sortieren nach Status (z.B. sind rund 76.000 URLs mit Error 404 gelistet, die könnten alle raus) oder nach Stichwörtern ("Lautsprecher-Selbstbauprojekt" ergibt nochmal so viele falsche URLs, die zu löschen wären)

    Aber hier kann ich immer nur 100 Einträge auf einmal anzeigen lassen und löschen - das dauert dann Jahre bis ich alles bereinigt habe

    2.) über phpmyAdmin sieht das dann so aus

     


    hier weiß ich nicht, wie ich die Einträge so sortieren soll, wie ich das benötige.

    Nach "Hits" würde ich auch gerne sortieren können aber dazu sehe ich auch keinen Schlüssel im phpmyAdmin.



    Hat jemand einen Tipp für mich, wie ich am besten die unnötigen Einträge rauslösche?

  • Hat jemand einen Tipp für mich, wie ich am besten die unnötigen Einträge rauslösche?

    Vielleicht könntest du die Tabellen exportieren, dann mit einem anderen Tool/Programm bearbeiten und anschließend wieder importieren. Das ist aber nicht mein Fachgebiet. Gleiches gilt für SQL-Befehle. Ich weiß nur, dass man da sehr genau wissen muss, was man macht. Backups sind dabei natürlich ein absolutes Muss.

    Es ist wirklich sehr unglücklich, dass es so viele URLs sind.

    Vielleicht hat jemand einen besseren Tipp?!?

  • Hallo zusammen,

    sorry das ich mich nochmal zur Wort melde.

    DIe Frage die ich mich stelle. Brauchst du die Komponete überhaupt. Wenn ja . Würde ich als erstes mal die Automatische Erstellung von URLS deaktivieren. Siehe Screenshot.

    Somit werden erstmal keine neuen erstellt.

    Dann würde ich erstmal alle löschen und bei null Anfang.

    Aber ich würde die Urls selber erstellen. Das dauert zwar etwas Zeit aber damit bis du sicher das du auch die Urls angezeigt bekommst du selber auch nutzt.

  • DIe Frage die ich mich stelle. Brauchst du die Komponete überhaupt. Wenn ja . Würde ich als erstes mal die Automatische Erstellung von URLS deaktivieren. Siehe Screenshot.

    Somit werden erstmal keine neuen erstellt.

    Dann würde ich erstmal alle löschen und bei null Anfang.

    ich würde aktuell nichts lieber tun als diese Erweiterung rauswerfen.

    Problem hierbei ist, dass die ja alle! Urls verwaltet und verändert ausgegeben hat, d.h. wenn ich die Komponente nun deaktiviere oder deinstalliere dann funktioniert kein einziger Link mehr den ich

    1.) innerhalb meiner Webseite händisch kopiert und irgendwo eingebaut habe. Dazu gehören auch pagebreak-Menülinks, die ich recht häufig benutze um lange Artikel zu strukturieren

    2.) in irgendeinem Forum / Youtube / sonstwo extern verlinkt habe

    3.) den Google gesammelt / indexiert hat



    3. wäre das gerinsgte Problem, ich hab keine Werbung geschaltet und bin nicht auf ein gutes Ranking angewiesen

    2. wäre halbwegs überschaubar, mit Hilfe der Umleitungskomponente und "Links sammeln" würde ich die nach und nach bearbeiten können, ich schätze das sind etwa 300 Links

    1. wäre allerdings definitiv unmöglich um das händisch / ohne Automatisierung um zu bauen, das dürften Minimum 2.000 Links sein, vielleicht auch 3.000



    Mittlerweile ist die Komponente zumindest so eingestellt, dass sie keine neuen Datenbankeinträge mehr erzeugt, das ist schonmal gut.


    Außerdem habe ich mir nun DBeaver installiert, mich ein wenig mit SQL-Syntax beschäftigt und mit Hilfe von diversen Suchoperationen rund 80.000 unnötige und ungültige Datenbankeinträge innerhalb der Tabelle sefurl rausgelöscht.


    Beispiele:

    - recht viele Einträge wurden generiert jedes Mal, wenn Bots irgendwelche Suchbegriffe oder Sicherheitslücken ausgetestet haben wie "login", wordpress urls, tasks, codes, guestbook (Ich habe nichtmal ein Gästebuch)

    - jedes Mal, wenn die Joomla-Suche benutzt wurde erzeugte das ein Datenbankeintrag in sefurl

    - jedes Mal, wenn ich einen Artikel editiert habe

    - und alleine 44k ungültige EInträge mit dem o.g. "selbstbauprojekt-lautsprecher" im ersten Teil der URL



    nun ist die DB um einiges schlanker (260MB anstatt 700MB)


    und die Tabelle sefurls hat nur noch 66k Einträge anstatt vorher 145k




    Trotzdem gibt es noch irgendeinen Fehler, der den MySQL Dienst nach etwa 10 Minuten, in der die Webseite online ist, überlastet.


    Vielleicht suche ich auch an der falschen Stelle und die zugemüllte DB bzw. die dazugehörige SEF-Komponente ist nicht der Grund.



    Vom Hosteurope-Support weiß ich, dass der MySQL-Dienst lahmgelegt wird durch eine Vielzahl leerer SQL Abfragen.



    Wie kann ich herausfinden, woher genau diese Abfragen stammen? Die werden vermutlich von irgend einer .php Datei innerhalb des Webseiten-Verzeichnises ausgehen, oder?

  • In dem letzten Screenshot lese ich etwas von Admintools. Das könnte da eventuell auch "dawischenfunken". Überprüfe mal dessen Einstellungen! Und wenn du es nicht wirklich benötigt, einfach mal deinstallieren! Den ein oder anderen Eintrag könnte man sicherlich auch händisch in die .htaccess einfügen.