XML Datei in MySQL einbauen

Poxay12 · 1. Januar 2020

Hi!

Bin ein absoluter Anfänger und brauche dringend eure Hilfe.

Folgendes Problem:

Ich möchte die XML-Datei der Wikipedia Datenbank in meine SQL DB einbauen. Ich habe schon länger recherchiert, bin aber noch zu keiner Lösung gekommen.

Wenn jemand eine Idee hat, bitte antworten!

Und bitte nicht vergessen: Bin noch Anfänger.

Hier der Link zur XML-Datei : https://dumps.wikimedia.org/dewiki/latest/

Re:Later · 1. Januar 2020

Das musst du bitte etwas präziser beschreiben, unter anderem, was in den XML-Dateien zu finden ist, welche du meinst (sind ja Unmengen unter deinem Link), in welcher Form und zu welchem Zweck sie in deine Datenbank eingebaut werden soll. Soll sie dann ausgelesen werden und irgendwelche Daten auf einer Webseite anzeigen .... oder... oder? Oder einfach nur das XML-Gerüst in ein einzelnes Feld der Datenbank gespeichert werden?

Und was dir noch einfällt und hier weiterhelfen könnte.

deejey · 1. Januar 2020

Das gesamte wikipedia in eine eigene DB aufzunehmen ist für absolute Anfänger natürlich ein sehr guter Einstieg.

Poxay12 · 1. Januar 2020

Ich weiß, dass ist ein größeres Vorhaben.

Die Datei, die ich meine, ist die Oberste. Ich bin mir nicht 100% sicher, was sich in der XML Datei befindet. Was mein Ziel ist: Ich möchte zu nahezu jedem Wikipediaeintrag eine Kurzbeschreibung speichern, die sich auf Abruf anzeigen lässt. Der gesamte Wikipediaeintrag eines Artikels ist daher semioptimal. Wie gesagt, eine Kurzbeschreibung jedes Themas wäre das Ziel. Möglicherweise könnten die Daten in in einer Tabelle festgehalten werden. Zeile 1 der Themenname und Zeile 2 die Kurzerklärung.

Danke für eure Hilfe.

Re:Later · 1. Januar 2020

Dir ist klar, dass diese Datei (https://dumps.wikimedia.org/de…ki-latest-abstract.xml.gz) im entpackten Zustand eine Größe von ca. 2,5 Gigabyte hat?

Poxay12 · 1. Januar 2020

Deswegen sollte nicht der ganze Artikel, sondern nur der erste Satz verwendet werden. (Kurzbeschreibung)

Macht die Größe der Datei denn einen großen Unterschied?

Re:Later · 1. Januar 2020

Na ja, wenn du entsprechende Server-Kapazitäten hast und Zugriff auf entsprechende Tools, dann wohl nicht unbedingt. Ich hab keine Ahnung, ob ein XML-Reader (bspw. in PHP) da mitspielt.

Musst halt erst herunterladen, dann entpacken, dann mit XML-Reader die ca. 24 Millionen Zeilen durchlaufen, die entsprechenden Tags isolieren, dann in DB schreiben.

Jedenfalls enthält die Datei folgende Struktur. 1 einzelner <doc>-Eintrag vollständig:

Code

<feed>

<doc>
<title>Wikipedia: Alan Smithee</title>
<url>https://de.wikipedia.org/wiki/Alan_Smithee</url>
<abstract>Alan Smithee steht als Pseudonym für einen fiktiven Regisseur, der Filme verantwortet, bei denen der eigentliche Regisseur seinen Namen nicht mit dem Werk in Verbindung gebracht haben möchte. Von 1968 bis 2000 wurde es von der Directors Guild of America (DGA) für solche Situationen empfohlen, seither ist es Thomas Lee.</abstract>
<links>
<sublink linktype="nav"><anchor>Geschichte</anchor><link>https://de.wikipedia.org/wiki/Alan_Smithee#Geschichte</link></sublink>
<sublink linktype="nav"><anchor>Entstehung</anchor><link>https://de.wikipedia.org/wiki/Alan_Smithee#Entstehung</link></sublink>
<sublink linktype="nav"><anchor>Aufdeckung und Abkehr</anchor><link>https://de.wikipedia.org/wiki/Alan_Smithee#Aufdeckung_und_Abkehr</link></sublink>
<sublink linktype="nav"><anchor>Verwendung</anchor><link>https://de.wikipedia.org/wiki/Alan_Smithee#Verwendung</link></sublink>
<sublink linktype="nav"><anchor>Literatur</anchor><link>https://de.wikipedia.org/wiki/Alan_Smithee#Literatur</link></sublink>
<sublink linktype="nav"><anchor>Weblinks</anchor><link>https://de.wikipedia.org/wiki/Alan_Smithee#Weblinks</link></sublink>
<sublink linktype="nav"><anchor>Einzelnachweise</anchor><link>https://de.wikipedia.org/wiki/Alan_Smithee#Einzelnachweise</link></sublink>
</links>
</doc>

<doc>...</doc>
<doc>...</doc>

</feed>

Alles anzeigen

Poxay12 · 1. Januar 2020

Also gibt es keine Möglichkeit, die XML Datei automatisiert zu reduzieren? Manuell ist das ja kaum möglich.

Ich hätte dann noch eine Frage. Muss die Datenbank auf einem Server sein oder kann ich sie auch lokal speichern, also ohne Serverressourcen? Beispielsweise auf einer Festplatte.

Re:Later · 1. Januar 2020

Unterm Strich kommt es immer auf das selbe heraus. Wenn das System mitspielt, geht alles... Man könnte vielleicht ein XAMPP oder ähnlich so aufbohren, dass er auch Stunden vor sich hinrödelt und brav die Datenbank befüllt.

Anderes Problem könnte dann aber vielleicht sein, dass die Datenbank zu groß wird, um sie irgendwo anders zu verwenden oder problemlos zu importieren. Vielleicht lästiger Rattenschwanz. Hängt einfach vom Provider ab, was der erlaubt.

Zitat von Poxay12

Also gibt es keine Möglichkeit, die XML Datei automatisiert zu reduzieren? Manuell ist das ja kaum möglich.

Auf meinem Linux-Rechner, der allerdings recht üppig ausgestattet ist, gelingt mir durch ein

Code

sed -i.bak '/<links>/,/<\/links>/d' dewiki-latest-abstract.xml

das Entfernen der <links>...</links>-Blöcke. Sogar unerwartet schnell.

Hinterher habe ich 620MB und sieht dann so aus

Code

<feed>

<doc>
<title>Wikipedia: Alan Smithee</title>
<url>https://de.wikipedia.org/wiki/Alan_Smithee</url>
<abstract>Alan Smithee steht als Pseudonym für einen fiktiven Regisseur, der Filme verantwortet, bei denen der eigentliche Regisseur seinen Namen nicht mit dem Werk in Verbindung gebracht haben möchte. Von 1968 bis 2000 wurde es von der Directors Guild of America (DGA) für solche Situationen empfohlen, seither ist es Thomas Lee.</abstract>
</doc>

<doc>...</doc>

</feed>

Alles anzeigen

Theoretisch geht ähnliches natürlich auch mit PHP, vielleicht preg_replace oder so. Aber noch mal, dein System muss das packen.

Wenn du auf dem Server auch exec() in PHP verwenden darfst, wäre eine Möglichkeit

Code

$command = 'sed -i.bak \'/<links>/,/<\/links>/d\' dewiki-latest-abstract.xml';
exec($command);

-------

Nur als Hinweis. Das

Code

-i.bak

oben, wenn man Originaldatei bewahren will. Wenn man sie direkt ändern will, halt nur

Code

-i

breaker · 1. Januar 2020

Eine Datenbank ist eigentlich für Daten, nicht für Dateien gedacht

Poxay12 · 1. Januar 2020

Mit welchem Programm hast du die <links> rausgeschnitten? Vielleicht ist die Frage blöd, keine Ahnung. Kann ich die Daten auch auf der Festplatte anstatt auf einem Server in MySQL speichern?

Und weißt du zufällig, ob die hier behandelte Datei alle Wikipedia Artikel einschließt?

Danke

Jedesmal, wenn ich anhand eines Programmes versuche, die Datei zu bearbeiten, wird die Datei als zu groß gemeldet.

Re:Later · 1. Januar 2020

Zitat von breaker

Eine Datenbank ist eigentlich für Daten, nicht für Dateien gedacht

Es geht um Extraktion spezifischer Daten aus einer XML-Datei.

----------------------------------

Vorneweg: Mediawikis verfügen über eine so genannte API-Schnittstelle, die auch für Exporte verwendet werden kann. Deshalb wäre mein Vorschlag, du schaust auch mal in einem MediaWiki-Forum, ob dir jemand besser weiterhelfen kann. Ich pflege zwar auch 2 Mediawikis, aber die schaffen zum Glück nicht öffentlich und ich blieb bis jetzt verschont von Nutzung dieser API

Zitat von Poxay12

Jedesmal, wenn ich anhand eines Programmes versuche, die Datei zu bearbeiten, wird die Datei als zu groß gemeldet.

Eben. Deshalb habe ich unter Linux und in der Linux-Konsole das Programm "sed" verwendet (wie oben gepostet), um die <links> erst zu entfernen und damit eine kleinere Datei zu erstellen, die sich aber auch nicht ohne extreme Wartezeit öffnen lässt.

Zitat von Poxay12

Kann ich die Daten auch auf der Festplatte anstatt auf einem Server in MySQL speichern?

Ab dem Moment, wo es dir gelingt, alle 2.377.925 Millionen Einträge der XML-Datei auszulesen besser: zu durchlaufen, ohne, dass sich was aufhängt, bist du vollkommen frei, als was oder wo du die abspeicherst.

Es geht also weniger darum, ob du die aus dem XML extrahierten Daten nun gleich in eine MySQL-Datenbank ablegst oder in einer oder mehreren Dateien speicherst, sondern ob es dir gelingt, die Tausende Schleifen zu durchlaufen, ohne, dass sich das ausführende Programm aufhängt oder das Programm, dass die Daten später anzeigen soll.

Zitat von Poxay12

Und weißt du zufällig, ob die hier behandelte Datei alle Wikipedia Artikel einschließt?

Keine Ahnung. Sind 2.377.925 Millionen realistisch?

-----------

Alles, was ich mit folgendem Sermon zum Ausdruck bringen will: Trial&Error und ein gewisses KnowHow muss man sich schon rangeschafft haben oder ranschaffen, um Lösungen für solche Probleme zu finden Das können wir dir leider nicht abnehmen. Folgendes hat mich jetzt auch mehrere Stunden beschäftigt

- Ich arbeite mit Windows 10.

- Ich habe die Datei heruntergeladen und entpackt.

- Hatte dann eine XML-Datei, 2,5 Gigabyte, mit der ich nichts anfangen konnte, weil kein Editor sie öffnen wollte.

- Ich habe WIN runtergefahren und mein LINUX (Debian) gestartet, was reecht lange dauert

- An der LINUX-Konsole obige "sed"-Zeile laufen lassen, um sie etwas zu verkleinern.

- Dann unter WINDOWS den Notepad++ in der 64-bit-Variante installiert, weil der etwas größere Dateien auch kann.

- Dort die verkleinerte Datei geöffnet, was nach 2 Kafee und etwas Abspülen dann auch ging. Um dir zu bestätigen, dass das klappte. Eine Garantie gibt es für das Öffnen-Können aber nicht.

- Dann unten folgendes Test-Script auf meiner stinknormalen Webseite bei stinknormalem Hoster laufen lassen, um zu probieren, ob man die XML-Datei in seine Einträge zerlegen kann, egal, was man nun damit danach vorhat. Dieses Testscript versucht nur Titel und Abstract simpel in eine Textdatei zu schreiben.

- Kann man nicht, weil sich der stinknormale Server wegen Speicherüberlauf aufhängt.

- Dann das Script auf meinem WSL (Windows Subsystem for Linux, DEBIAN) probiert. WSL ist eine Möglichkeit unter WIndows 10 LINUX zu nutzen, ohne, dass man Windows erst runterfahren muss (https://docs.microsoft.com/en-us/windows/wsl/install-win10).

- Das Script lief > 30 Minuten und fehlerfrei durch.

- Zwar ist die Ergebnisdatei wieder zu groß für verlässliches Öffnen-Können am Windows, aber man könnte das Script ja auch so ändern, dass mehrere Dateien erstellt werden. Das könnten dann ja ach Dateien sein, die man problemlos in kleinen Häppchen in MySQL importieren könnte. Oder sonst was.

- Da dieses WSL Vieles aber nicht von alleine kann, muss man sich auch etwas damit beschäftigen.

- Resümee ist aber, es geht, wohl auch mit XAMPP, wenn der Server, egal ob WSL oder XAMPP lang genug Zeit und ausreichend Speicher hat, seine Arbeit zu beenden

Mein Test-Script, dass ich mit der schon reduzierten Datei ausprobiert habe:

PHP

<?php
$url = 'dewiki-latest-abstract.xml';

// Disable libxml errors and allow to fetch error information as needed
libxml_use_internal_errors(true);

@$xml = simplexml_load_file($url, null, LIBXML_NOCDATA);

if ($xml === false)
{
    echo 'Errors with file ' . $url . "\n<br>";

    foreach (libxml_get_errors() as $error)
    {
        echo $error->message . "\n<br>";
    }
    return;
}
elseif (empty($xml))
{
    echo 'Empty result with file ' . $url . "\n<br>";
    return;
}
elseif (!($xml instanceof SimpleXMLElement))
{
    echo 'Errors with file ' . $url . ". Not instencaof SimpleXMLElement.\n<br>";
    return;
}
elseif ($xml->getName() !== 'feed')
{
    echo 'Errors with file ' . $url . ". No parent feed tag.\n<br>";
    return;
}
elseif (empty($xml->doc) || !($xml->doc instanceof SimpleXMLElement))
{
    echo 'Errors with file ' . $url . ". No doc child tag or doc tag not instencaof SimpleXMLElement.\n<br>";
    return;
}

$textdatei = 'import.sql';

// Leere Datei erstellen
file_put_contents($textdatei, '');

$counter = 0;

foreach ($xml->doc as $doc)
{
    $title = $doc->title;
    // $link = $doc->url;
    $abstract = $doc->abstract;
    
    // An Datei zeilenweise anhängen
    file_put_contents($textdatei, $title . ',' . $abstract . "\n", FILE_APPEND);
    $counter++;
}

echo $counter . ' Zeilen in ' . $textdatei . ' geschrieben.';

Alles anzeigen

Und man könnte es ergänzen, dass es den Download und Entpacken und Verkleinern gleich mitmacht, aber eben nur... Kennen wir schon... "Wenn das ausführende System mitspielt,"

Poxay12 · 1. Januar 2020

Danke, dass sie mir bei diesen ganzen Dingen geholfen haben! Abschließend hätte ich noch eine Frage: Wissen Sie, ob man in Java Daten per Google Suche beziehen kann? Jegliche Recherche diesbezüglich war nicht so erfolgreich.

Ansonsten schönen Abend noch und ein frohes neues Jahr!

firstlady · 1. Januar 2020

Re:Later so was von Support und Know How ist ja unfassbar

Re:Later · 2. Januar 2020

Zitat von Poxay12

Wissen Sie, ob man in Java Daten per Google Suche beziehen kann?

https://serpapi.com/

Ist (happig) kostenpflichtig, weil sich G sonst selbst ins Knie schießen würde bzgl. Werbeeinnahmen. Es gibt aber eine kostenlose Testmöglichkeit.

Glaub zwar nicht, aber wenn es um Einbindung von einer domain-spezifischen Google-Suche auf einer Webseite gehen sollte, also bspw. Suche nur auf de.wikipedia.org gibt es kostenloses Google CSE (Custom Search Engine). Allerdings mit Werbung, wie man es auch von normaler Google-Suche kennt.

Indigo66 · 2. Januar 2020

Vielleicht kann Poxay12 mal erklären was genau sein Vorhaben ist und ob er ähnliches schon irgendwo gesehen hat. Vielleicht gibt es ja einen viel einfacheren Lösungsweg.

Poxay12 · 2. Januar 2020

Indigo66

Das Gesamtvorhaben war eigentlich, eine offline Datenbank von Wikipedia (nur Kurzbeschreibung eines Themas) zu haben, auf die man jederzeit zugreifen kann.

deejey · 3. Januar 2020

Und was ist daran so dringend? Ich mein noch steht wikipedia