Text aus PDFs extrahieren: Unterschied zwischen den Versionen

Aus ELVIS-Wiki
Zur Navigation springenZur Suche springen
(Artikel eingefügt)
 
(→‎PDF in HTML wandeln: Kommandos mit <pre> umgesetzt)
Zeile 59: Zeile 59:
Mit dem Befehl
Mit dem Befehl


<nowiki>
<pre>
pdftohtml meine.pdf
pdftohtml meine.pdf
</nowiki>
</pre>


kann man prinzipiell PDF's in HTML wandeln. Dies erzeugt aber für jede Seite
kann man prinzipiell PDF's in HTML wandeln. Dies erzeugt aber für jede Seite
Zeile 69: Zeile 69:
PDF hineinzuverschieben und folgendes auszuführen:
PDF hineinzuverschieben und folgendes auszuführen:


<nowiki>
<pre>
pdftohtml -single meine.pdf meine.html
pdftohtml -single meine.pdf meine.html
</nowiki>
</pre>


Bei manchen PDF's ist der Text nicht kopierbar, obwohl er es sein sollte.
Bei manchen PDF's ist der Text nicht kopierbar, obwohl er es sein sollte.
Abhilfe schafft die Funktion nodrm:
Abhilfe schafft die Funktion nodrm:


<nowiki>
<pre>
pdftohtml -single -nodrm meine.pdf meine.html
pdftohtml -single -nodrm meine.pdf meine.html
</nowiki>
</pre>


Falls die Bilder ignoriert werden sollen und lediglich der Text extrahiert
Falls die Bilder ignoriert werden sollen und lediglich der Text extrahiert

Version vom 14. September 2016, 15:00 Uhr

Manche PDF's lassen sich nur schwer in einem PDF-Betrachter lesen oder sind sogar vollkommen unleserlich. Sofern keine Bilder verwendet werden, kann es helfen, wenn man den Text mit den Poppler-Utils extrahiert, um ihn dann anschließend in einem Texteditor zu lesen.

Aber auch wenn man die PDF in eine HTML-Datei wandelt und die Bilder beibehält, kann man unter Umständen den Text besser lesen, als in der PDF. Zusätzlich kann man für Bildbeschreibungen das exakte Bild kopieren und an einen Helfenden versenden.

Einführung / Installation

Unter Debian / Ubuntu bekommt man die poppler-utils durch:

sudo apt-get install poppler-utils

Unter Windows findet man ein Installationsprogramm hier (oder bei der Suchmaschine der Wahl "poppler-utils on Windows).

Die Poppler-Utils müssen von der Kommandozeile aufgerufen werden. Leider gibt es keine grafische Oberfläche. Auf der anderen Seite ist die Bedienung denkbar einfach, wie in den folgenden Abschnitten erläutert wird.

Wer mit der Kommandozeile nicht so vertraut ist, sollte im Artikel "kurze Einführung in die Kommandozeile unter Windows" ein paar einführende Worte lesen.

PDF in Text wandeln

Man kann die PDF direkt in Text wandeln und man kann wählen, ob das Layout erhalten bleiben soll:

pdftotext -layout meine.pdf meine.txt

Überschriften bleiben dann zentriert, eingerückte Absätze eingerückt. In den meisten Fällen ist das sehr praktisch. Nachteilig ist allerdings, dass auch zweispaltiger Text zweispaltig bleibt. Tritt dies einmal auf, sollte man

pdftotext meine.pdf meine.txt

ausführen.

Hinweis: Für PDF's, die mit LaTeX erstellt wurden, und bei denen das Paket Fontenc mit der Option T1 nicht geladen wurde, sind die Umlaute (leider unwiederbringlich) zerstört. Das äußert sich darin, dass man eine Zeile mit seltsamen Zeichen oder mit vielen Anfürhungszeichen erhält und im Anschluss eine Textzeile folgt, bei der alle Umlaute durch ihre passenden Selbstlaute ersetzt wurden.

PDF in HTML wandeln

Mit dem Befehl

pdftohtml meine.pdf

kann man prinzipiell PDF's in HTML wandeln. Dies erzeugt aber für jede Seite eine eigene HTML-Datei und links eine Navigationsleiste mit Frames. Ferner werden alle Formeln in Bilder exportiert, sodass das Verzeichnis im Anschluss voller Dateien ist. Es bietet sich also an, ein Verzeichnis zu erstellen, die PDF hineinzuverschieben und folgendes auszuführen:

pdftohtml -single meine.pdf meine.html

Bei manchen PDF's ist der Text nicht kopierbar, obwohl er es sein sollte. Abhilfe schafft die Funktion nodrm:

pdftohtml -single -nodrm meine.pdf meine.html

Falls die Bilder ignoriert werden sollen und lediglich der Text extrahiert werden soll, kann die Option -i hinzugefügt werden:

pdftohtml -single -i meine.pdf meine.html