PDF an Excel (XLSX)-Konverter
Extrahieren Sie Tabellen und Text aus PDF und konvertieren Sie sie sicher in Ihrem Browser in Excel XLSX-Tabellen.
Legen Sie die PDF-Datei hier ab
oder klicken Sie, um die Datei auszuwählen
Extrahieren Sie Tabellen und Text aus PDF und konvertieren Sie sie sicher in Ihrem Browser in Excel XLSX-Tabellen.
oder klicken Sie, um die Datei auszuwählen
Das Extrahieren tabellarischer Daten aus einer PDF-Datei in eine Tabellenkalkulation ist einer der häufigsten Dokumenten-Workflows in Büros, die Rechnungen, Finanzberichte, wissenschaftliche Arbeiten und Regierungsdaten verarbeiten. Das PDF-Format versteht Tabellen nicht von Haus aus – es beschreibt lediglich Glyphenpositionen auf einer Seite – daher erfordert die Konvertierung in Excel, dass die Tabellenstruktur aus der Geometrie des Textes abgeleitet wird. Wo eine Zelle endet und die nächste beginnt, muss anhand des horizontalen Leerzeichens erraten werden. wo eine Zeile endet und die nächste beginnt, ausgehend von vertikalen Leerzeichen.
Dieses Tool analysiert die PDF-Datei mit PDF.js, extrahiert Textelemente mit ihren Begrenzungsrahmen und gruppiert die Elemente basierend auf ihrer Position in Zeilen und Spalten. Die erkannte Tabelle wird mithilfe der SheetJS-XLSX-Bibliothek in eine Excel-Arbeitsmappe geschrieben. Die Ausgabe ist eine Standard-XLSX-Datei, die in Excel, Google Sheets, Numbers oder einer anderen Tabellenkalkulationsanwendung geöffnet wird.
Das Extrahieren von PDF-Tabellen ist wirklich schwierig und kein Extraktor liefert bei jedem PDF perfekte Ergebnisse. Tabellen mit konsistenten Spaltengrenzen, keinen verbundenen Zellen und klarer vertikaler Ausrichtung werden sauber konvertiert. Tabellen mit verbundenen Zellen, mehrzeiligen Einträgen, Fußnoten oder ungewöhnlichen Layouts müssen nach der Extraktion normalerweise manuell bereinigt werden. Plan zur Überprüfung.
Der Grund ist fast immer die Analyse. In einer PDF-Datei eingeschlossene Daten können nicht sortiert, gefiltert, summiert, grafisch dargestellt oder geschwenkt werden. Sobald es in Excel ist, stehen alle Standard-Tabellenkalkulationsoperationen zur Verfügung – und das macht den Unterschied zwischen dem Betrachten eines statischen Berichts und der tatsächlichen Arbeit mit den darin enthaltenen Zahlen deutlich.
Die Arbeit mit Massendaten ist in PDF nicht möglich. Das Aggregieren vierteljährlicher Zahlen über mehrere PDF-Berichte hinweg, der Vergleich von Einzelposten verschiedener Anbieter oder das Abrufen bestimmter Spalten für nachgelagerte Analysen erfordern alles, die Daten in ein Format zu bringen, das diese Vorgänge unterstützt. Excel und CSV sind diese Formate. Bekehrung ist die Brücke.
Legen Sie eine PDF-Datei mit tabellarischen Daten ab und erstellen Sie eine Arbeitsmappe mit jeder Tabelle auf einem eigenen Blatt.
PDF.js stellt eine getTextContent-API bereit, die Textelemente mit ihren Begrenzungsrahmen zurückgibt. Jedes Element verfügt über eine Zeichenfolge, eine Transformationsmatrix (für Position und Drehung) und Breite/Höhe. Der Konverter sortiert Elemente nach Y-Koordinate, um Zeilen zu identifizieren, und dann innerhalb jeder Zeile nach X-Koordinate. Elemente an sehr ähnlichen Y-Positionen bilden eine Reihe.
Die Spaltenerkennung verwendet eine Lückenanalyse: Der X-Abstand zwischen aufeinanderfolgenden Elementen in einer Zeile gibt an, ob sie zur gleichen Zelle oder zu benachbarten Zellen gehören. Eine Lücke, die größer als ein Schwellenwert ist (normalerweise 1–2 Zeichenbreiten), weist auf eine Spaltengrenze hin. Bei der Schwellenwertoptimierung wird zwischen der Zusammenführung benachbarter Spalten und der Aufteilung einzelner Spalten abgewogen.
Die Excel-Ausgabe verwendet SheetJS, um eine Arbeitsmappe im Speicher zu erstellen, wobei jede erkannte Tabelle in einem eigenen Blatt mit den Namen Sheet1, Sheet2 usw. liegt. Die Arbeitsmappe wird in das .xlsx-Format (Office Open XML) serialisiert und als Download angeboten. Das Ergebnis wird in Excel 2007+, Google Sheets, LibreOffice Calc und Apple Numbers geöffnet.