Durchsuchen Word, Excel und PDF-Dokumente

  • Hallo allerseits,


    ich habe eine Frage zu Joomla:


    Ich möchte für einen Heimat und Geschichtsverein ~ 10.000 Word, Excel und PDF-Dokumente online zur Verfügung stellen.

    Dies ist ja mit Feldgruppen insofern gut möglich um Schlagworte, Dateinamen und Speicherorte (aus dem Fileverzeichnis) abzuspeichern.

    Zusätzlich sollen die Dokumente auch online zur Verfügung gestellt werden.


    Der Knackpunkt:


    Kann ich die Inhalte der Dokumente durchsuchen lassen?

    Also z.B. die

    Wörter die in den Word-Dokumenten

    Jahreszahlen in den Excel-Tabellen

    Wörter aus den PDF'S


    Es ist klar, das das aufwendige Suchen ergibt.


    Ich möchte wissen, ob es überhaupt geht!


    Vielen Dank für eine Antwort, Tipp oder auch ein "geht nicht".


    MfG

    Thomas


    System: Joomla 3.9.23 neu zu Testzwecken installiert auf QNAP

  • Mit der joomlaeigenen Sucher bestimmt nicht. Selbst Google kann nur PDF-Inhalte in der Suche ausgeben, keine aus Word bzw. Office.

    Ich kenne keine Joomlaerweiterung die PDFs indexieren und Inhalte durchsuchen kann.

    Word ist kein gutes Format fürs Web, weil in Worddateien Macroviren übertragen werden können.


    Vielleicht bietet die Googlesuche eine Möglichkeit, zumindest die PDF-Inhalte zu suchen. Geht natürlich nur, wenn diese maschinenlesbar sind und nicht aus einem Bild bzw Textbild bestehen.

  • Wie auch schon Tom angemerkt hat mußt du dann auch noch beachten ob z.B. die Texte in den PDF-Dokumenten als Text oder "innerhalb eines Bildes" vorliegen.

    Insbesondere wenn z.B. ein Papierdokument gescannt wurde und in ein PDF gewandelt oder eingefügt wurde liegt der Text in der Regel nicht als Text vor, sondern die einzelnen Seiten des Dokumentes sind z.B. einzelne Bilder im PDF.


    Dann müßte ja auch noch zuerst ein OCR "drüberlaufen" um die Texte zu erhalten um diese dann wieder durchsuchen zu können.

    Wird sicherlich eine komplexe und langwierige Sache.

    Für einen guten "Programmierer" ist prinzipiell alles möglich und vor allem eine Frage des Aufwandes!!!


    Zufällig noch im Web gefunden:

    http://www.viomatrix.de/progra…okumente-durchsuchen.html

  • Hallo an Indigo66, bembelimen, Sieger66!


    Vielen Dank für eure schnellen und ja klärenden Antworten.


    PDF alleine zu interpretieren langt auf keinem Fall, ungefähr 1/3 der Dokumente.

    Auch wenn Word kein gutes Format fürs Web ist, der Verfasser hat damit gearbeitet und der Heimat und Geschichtsverein

    will und kann dieses Erbe nicht verwerfen.


    Der Hinweis mit Texten aus Bildern ist natürlich bekannt. Aus Bitmap-Files lässt sich logischerweise kein Text extrahieren.

    Hier kann nur der Dateiname, evtl. der Speicherort aus dem Filesystem Aufschluss geben.

    Trotzdem Danke für den Hinweis.


    Der Link von Sieger66 (VIOMATRIX) gibt evtl. ein Möglichkeit, ich habe mich da schon angemeldet.


    Möchte allen Danken,

    Lob ans Forum......falls es mit Joomla weitergeht, komme ich gerne wieder.


    Bleibt negativ getestet und positiv gestimmt!


    Thomas

  • Für Programmierer ....

    Für Programmierer ist eventuell auch folgendes Zitat nützlich:


    Zitat

    die folgenden Programme ... auf dem Server installiert und lauffähig sein: antiword (für die Indizierung von Worddokumenten), xlhtml (für die Indizierung von Excel-Dateien), ps2ascii (für die Indizierung von PDF-Dokumenten)

    aus http://www.viomatrix.de/progra…okumente-durchsuchen.html


    und auch der Abschnitt "Vorbereitungen" dort.


  • Außerdem benötigt man wohl auch bei der Verwendung von VIO.Matrix unbedingt Programmierkenntnisse wenn man das gewünschte Ergebnis(Word-, Excel- und PDF-Dokumente durchsuchen)

    erreichen möchte!


    Siehe dazu z.B. auch:


    http://www.viomatrix.de/tipps-und-tricks-programmierung.html

  • Hallo Tommy - habe für eine ähnliche Geschichte (berghistorisches Archiv) am ende NICHT zu joomla! gegriffen, sondern zu Omeka - in Kombination mit Google Drive (Die Suchfunktion für Dokumente im DRIVE (klar - vorher copy paste der ganzen Sachen) und für aktuelle Befunde das Omeka.
    Dachte aber anfangs auch dass joomla da einen Weg bieten würde (was es vielleicht auch tut - nur ich habe ihn nicht gefunden)