PDF an Word (DOCX)
Extrahieren Sie Text aus PDF und konvertieren Sie ihn vollständig in Ihrem Browser in das bearbeitbare Word-Format. Schnell, sicher und privat.
Legen Sie die PDF-Datei hier ab
Unterstützt bis zu 50 MB
Extrahieren Sie Text aus PDF und konvertieren Sie ihn vollständig in Ihrem Browser in das bearbeitbare Word-Format. Schnell, sicher und privat.
Unterstützt bis zu 50 MB
PDF und DOCX (Microsoft Word) beschreiben Dokumente nach grundlegend unterschiedlichen Modellen. PDF ist ein Format mit festem Layout: Jedes Glyph hat eine eindeutige Position auf einer Seite mit fester Größe, sodass das Dokument überall dort, wo es gerendert wird, identisch aussieht. DOCX ist ein Flow-Layout-Format: Absätze, Tabellen und Überschriften werden semantisch beschrieben, und die Rendering-Engine entscheidet basierend auf der aktuellen Seitengröße und der Verfügbarkeit von Schriftarten, wo sie auf der Seite platziert werden. Die Konvertierung von PDF in DOCX bedeutet, das feste Layout in eine semantische Struktur umzuwandeln, die Word umfließen kann.
Diese Konvertierung ist grundsätzlich verlustbehaftet. PDF behält im Allgemeinen keine Überschriftenebenen, Absatzgrenzen, Listenstruktur oder Tabellensemantik bei; Der Konverter muss diese aus Schriftgrößen, Positionen und Aufzählungszeichen ableiten. Einfache textbasierte PDFs werden sauber konvertiert. Komplexe PDFs mit mehrspaltigen Layouts, eingebetteten Bildern, Fußnoten oder ungewöhnlicher Typografie müssen nach der Konvertierung normalerweise manuell bereinigt werden.
Dieses Tool führt die Konvertierung in Ihrem Browser unter Verwendung von PDF.js zum Parsen und einem benutzerdefinierten Layout-zu-DOCX-Writer aus, der eine standardmäßige Office Open XML-Ausgabe erzeugt. Das Ergebnis wird in Microsoft Word, LibreOffice Writer, Google Docs und jedem anderen DOCX-kompatiblen Editor geöffnet. Es findet kein Upload statt; Die Datei verbleibt auf Ihrem Gerät.
Bearbeitbarkeit ist der ganze Grund. PDF ist bearbeitungsfeindlich – Sie können Formularfelder ausfüllen und Anmerkungen hinzufügen, aber ohne spezielle PDF-Editoren, die Geld kosten und inkonsistente Ergebnisse liefern, ist es nicht möglich, Text umzufließen, Absatzstile zu ändern oder Inhalte neu zu strukturieren. DOCX ist für die Bearbeitung konzipiert. Durch die Konvertierung einer PDF-Datei in DOCX ist der Inhalt für die Überarbeitung, Übersetzung, Wiederverwendung oder Neugestaltung nutzbar.
Der andere Grund ist die Zusammenarbeit. Word und Google Docs sind die Verkehrssprache der Dokumentenzusammenarbeit in Büros, Schulen und den meisten Organisationen. Das Kommentieren von Threads, das Verfolgen von Änderungen und das gemeinsame Bearbeiten setzen allesamt DOCX oder dessen Cloud-Äquivalente voraus. Zur Überprüfung gesendete PDFs werden zu Engpässen. DOCX durchläuft Standard-Tools für die Zusammenarbeit.
PDF ablegen, generieren, herunterladen. Erwarten Sie, dass anschließend einige Aufräumarbeiten in Word durchgeführt werden.
PDF.js analysiert jede PDF-Seite in einen Strom von Text- und Grafikoperationen. Die Textextraktions-API gibt Textelemente mit ihren Begrenzungsrahmen, Schriftartinformationen und Unicode-dekodierten Zeichenfolgen zurück. Aus diesen Elementen rekonstruiert der Konverter die Lesereihenfolge, indem er von oben nach unten und von links nach rechts sortiert und Elemente mit ähnlichen Grundlinien in Zeilen und Zeilen in Absätze gruppiert.
DOCX ist ein ZIP-Archiv mit XML-Dateien (document.xml, style.xml sowie Inhaltstyp- und Beziehungsmanifesten). Der Konverter erstellt den Inhalt von document.xml mithilfe einer Reihe von Elementen „Paragraph“ (w:p) und „Run“ (w:r), wendet Stilreferenzen für Überschriften (Überschrift 1, Überschrift 2) an, bei denen die Schriftgröße eine Überschrift vorschlägt, und stellt die ZIP-Datei mithilfe von JSZip im Speicher zusammen.
Einschränkungen: Spaltenlayouts werden nicht immer korrekt rekonstruiert. Tabellen im PDF werden als Absätze wiederhergestellt, es sei denn, das Layout deutet stark auf eine tabellarische Struktur hin. Kopfzeilen, Fußzeilen und Fußnoten landen normalerweise inline im Hauptteil und nicht in den entsprechenden DOCX-Zonen. In die PDF-Datei eingebettete Bilder werden derzeit nicht in der DOCX-Ausgabe beibehalten.