Kostenloser Konverter

PDF an Excel (XLSX)-Konverter

Extrahieren Sie Tabellen und Text aus PDF und konvertieren Sie sie sicher in Ihrem Browser in Excel XLSX-Tabellen.

Legen Sie die PDF-Datei hier ab

oder klicken Sie, um die Datei auszuwählen

Oder

Über dieses Tool

Das Extrahieren tabellarischer Daten aus einer PDF-Datei in eine Tabellenkalkulation ist einer der häufigsten Dokumenten-Workflows in Büros, die Rechnungen, Finanzberichte, wissenschaftliche Arbeiten und Regierungsdaten verarbeiten. Das PDF-Format versteht Tabellen nicht von Haus aus – es beschreibt lediglich Glyphenpositionen auf einer Seite – daher erfordert die Konvertierung in Excel, dass die Tabellenstruktur aus der Geometrie des Textes abgeleitet wird. Wo eine Zelle endet und die nächste beginnt, muss anhand des horizontalen Leerzeichens erraten werden. wo eine Zeile endet und die nächste beginnt, ausgehend von vertikalen Leerzeichen.

Dieses Tool analysiert die PDF-Datei mit PDF.js, extrahiert Textelemente mit ihren Begrenzungsrahmen und gruppiert die Elemente basierend auf ihrer Position in Zeilen und Spalten. Die erkannte Tabelle wird mithilfe der SheetJS-XLSX-Bibliothek in eine Excel-Arbeitsmappe geschrieben. Die Ausgabe ist eine Standard-XLSX-Datei, die in Excel, Google Sheets, Numbers oder einer anderen Tabellenkalkulationsanwendung geöffnet wird.

Das Extrahieren von PDF-Tabellen ist wirklich schwierig und kein Extraktor liefert bei jedem PDF perfekte Ergebnisse. Tabellen mit konsistenten Spaltengrenzen, keinen verbundenen Zellen und klarer vertikaler Ausrichtung werden sauber konvertiert. Tabellen mit verbundenen Zellen, mehrzeiligen Einträgen, Fußnoten oder ungewöhnlichen Layouts müssen nach der Extraktion normalerweise manuell bereinigt werden. Plan zur Überprüfung.

Warum PDF in Excel konvertieren?

Der Grund ist fast immer die Analyse. In einer PDF-Datei eingeschlossene Daten können nicht sortiert, gefiltert, summiert, grafisch dargestellt oder geschwenkt werden. Sobald es in Excel ist, stehen alle Standard-Tabellenkalkulationsoperationen zur Verfügung – und das macht den Unterschied zwischen dem Betrachten eines statischen Berichts und der tatsächlichen Arbeit mit den darin enthaltenen Zahlen deutlich.

Die Arbeit mit Massendaten ist in PDF nicht möglich. Das Aggregieren vierteljährlicher Zahlen über mehrere PDF-Berichte hinweg, der Vergleich von Einzelposten verschiedener Anbieter oder das Abrufen bestimmter Spalten für nachgelagerte Analysen erfordern alles, die Daten in ein Format zu bringen, das diese Vorgänge unterstützt. Excel und CSV sind diese Formate. Bekehrung ist die Brücke.

So verwenden Sie es

Legen Sie eine PDF-Datei mit tabellarischen Daten ab und erstellen Sie eine Arbeitsmappe mit jeder Tabelle auf einem eigenen Blatt.

  1. Laden Sie Ihr PDF hoch: Ziehen Sie die Datei in den Upload-Bereich oder klicken Sie zum Durchsuchen. Dateien bis zu 50 MB werden unterstützt. Das PDF muss echten Text enthalten; Gescannte PDFs benötigen zunächst OCR.
  2. Warten Sie auf die Tabellenerkennung: PDF.js extrahiert Textelemente und ihre Positionen. Der Konverter gruppiert Elemente in Zeilen und Spalten, indem er die horizontale und vertikale Ausrichtung analysiert. Die Erkennung dauert bei kurzen Dokumenten Sekunden und bei mehrseitigen Tabellen länger.
  3. Überprüfen Sie die erkannten Tabellen: Erkannte Tabellen werden vor dem Herunterladen in der Vorschau angezeigt. Bestätigen Sie, dass die Spalten und Zeilen Ihren Erwartungen entsprechen. Fehlausrichtungen hier werden später in Excel bereinigt.
  4. Als XLSX herunterladen: Der Konverter schreibt jede erkannte Tabelle mithilfe von SheetJS in ein separates Blatt in einer XLSX-Arbeitsmappe. Öffnen Sie das Ergebnis in Excel oder Google Sheets und bereinigen Sie alle verbleibenden Probleme.

Häufige Anwendungsfälle

Technische Details

PDF.js stellt eine getTextContent-API bereit, die Textelemente mit ihren Begrenzungsrahmen zurückgibt. Jedes Element verfügt über eine Zeichenfolge, eine Transformationsmatrix (für Position und Drehung) und Breite/Höhe. Der Konverter sortiert Elemente nach Y-Koordinate, um Zeilen zu identifizieren, und dann innerhalb jeder Zeile nach X-Koordinate. Elemente an sehr ähnlichen Y-Positionen bilden eine Reihe.

Die Spaltenerkennung verwendet eine Lückenanalyse: Der X-Abstand zwischen aufeinanderfolgenden Elementen in einer Zeile gibt an, ob sie zur gleichen Zelle oder zu benachbarten Zellen gehören. Eine Lücke, die größer als ein Schwellenwert ist (normalerweise 1–2 Zeichenbreiten), weist auf eine Spaltengrenze hin. Bei der Schwellenwertoptimierung wird zwischen der Zusammenführung benachbarter Spalten und der Aufteilung einzelner Spalten abgewogen.

Die Excel-Ausgabe verwendet SheetJS, um eine Arbeitsmappe im Speicher zu erstellen, wobei jede erkannte Tabelle in einem eigenen Blatt mit den Namen Sheet1, Sheet2 usw. liegt. Die Arbeitsmappe wird in das .xlsx-Format (Office Open XML) serialisiert und als Download angeboten. Das Ergebnis wird in Excel 2007+, Google Sheets, LibreOffice Calc und Apple Numbers geöffnet.

Best Practices

Häufig gestellte Fragen

Ändert die Konvertierung von PDF in Excel den Inhalt?
Der Inhalt bleibt so genau wie möglich erhalten. Für einige formatspezifische Funktionen gibt es jedoch möglicherweise keine direkten Entsprechungen, sodass geringfügige Formatierungsunterschiede auftreten können.
Wofür wird das Excel-Format verwendet?
XLSX (Microsoft Excel Spreadsheet) wird hauptsächlich für Tabellenkalkulationen mit Formeln, Diagrammen und Datenanalysen verwendet.
Gibt es irgendwelche Einschränkungen, die Sie beachten sollten?
Dateien bis zu 50 MB werden unterstützt. Die Verarbeitung sehr großer oder komplexer Dateien kann länger dauern. Die gesamte Konvertierung erfolgt in Ihrem Browser, daher hängt die Verarbeitungsgeschwindigkeit von Ihrem Gerät ab.
Sind meine Dokumentendaten sicher?
Ja. Die Dokumentenverarbeitung läuft vollständig in Ihrem Browser. Ihre Dateien und deren Inhalte werden niemals auf einen Server hochgeladen. Dies ermöglicht eine sichere Konvertierung sensibler oder vertraulicher Dokumente.
Welches Ausgabeformat wird erzeugt?
.xlsx (Office Open XML), das moderne Excel-Format. Die Datei wird in Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers und jeder anderen modernen Tabellenkalkulation geöffnet.
Wird mein PDF auf einen Server hochgeladen?
Nein. Das Parsen und die Excel-Generierung erfolgen in Ihrem Browser mithilfe von PDF.js und SheetJS.
Was ist die maximale Dateigröße?
50 MB. Die Konvertierungszeit hängt von der Komplexität des Dokuments und nicht nur von der Dateigröße ab – das Extrahieren einer grafikintensiven 50-MB-PDF-Datei kann länger dauern als die einer textintensiven.
Warum stehen meine Zahlen in den falschen Spalten?
Fast immer, weil der Spaltenerkennungsschwellenwert des Konverters nicht mit dem tatsächlichen Layout der PDF übereinstimmte. Öffnen Sie die Quell-PDF-Datei, sehen Sie sich die sichtbaren Spaltenunterbrechungen an und verschieben Sie die Zellen in Excel nach Bedarf manuell.