Joomla3-Seite mit httrack auslesen

  • Joomla Version
    3.10.12
    PHP Version
    PHP 7.4.x
    Hoster
    FC-Hosting

    Nabend!

    Ich müsste eigentlich eine J3-Seite zu J4 migrieren, es lohnt sich aber schlicht nicht, weil sich auf dieser Seite seit Jahren inhaltlich nichts geändert hat und auch nichts ändern wird. Es gibt keine Redakteure, Admins etc wird also auch nicht benötigt.

    Daher möchte ich sie in statisches HTML umwandeln und die alte Installation einfach nur auf meinem Locahost "aufheben", falls doch mal eine Kleinigkeit geändert werden soll. Das entbindet gleichzeitig auch vom Einspielen von Updates im Echtsystem. Das wollte ich mit httrack umsetzen, allerdings kommt mir (vermutlich) die robots.txt immer in die Quere. Das Merkwürdige: Selbst wenn ich diese aus dem htdocs lösche, kann ich sie noch immer downloaden. Auch eine Änderung produziert noch immer die alte robots.txt, in der alles verboten ist.

    Kennt jemand diesen Effekt? Ist die robots.txt hier überhaupt das Problem oder muss ich im Backend noch irgendwas erlauben?

    Danke! :)

  • Vielleicht hilfreich:

    Die_Nase
    27. November 2021 um 18:28
  • Versuche es in HTTRACK mit einem anderen Useragent.

    Dabei gebe ich ja eine andere Browserumgebung vor, richtig? Trickse ich damit robots.txt aus?


    Vielleicht hilfreich:

    Das mit WGET klang interessant, scheitert aber am gleichen Problem. :(

    Einmal editiert, zuletzt von Indigo66 (6. September 2024 um 12:45) aus folgendem Grund: Ein Beitrag von Atarifreak mit diesem Beitrag zusammengefügt.