PDF naar Excel (XLSX)-converter
Extraheer tabellen en tekst uit PDF en converteer ze veilig naar Excel XLSX-spreadsheets in uw browser.
Zet het PDF-bestand hier neer
of klik om het bestand te selecteren
Extraheer tabellen en tekst uit PDF en converteer ze veilig naar Excel XLSX-spreadsheets in uw browser.
of klik om het bestand te selecteren
Tabelgegevens uit een PDF halen en in een spreadsheet plaatsen is een van de meest voorkomende documentworkflows in kantoren waar facturen, financiële rapporten, wetenschappelijke artikelen en overheidsgegevens worden verwerkt. Het PDF-formaat begrijpt tabellen niet van nature – het beschrijft alleen glyph-posities op een pagina – dus voor het converteren naar Excel moet de tabelstructuur worden afgeleid uit de geometrie van de tekst. Waar de ene cel eindigt en de volgende begint, moet worden geraden vanuit horizontale witruimte; waar de ene rij eindigt en de volgende begint, vanuit verticale witruimte.
Deze tool ontleedt de PDF met behulp van PDF.js, extraheert tekstitems met hun selectiekaders en clustert de items in rijen en kolommen op basis van hun positie. De gedetecteerde tabel wordt naar een Excel-werkmap geschreven met behulp van de SheetJS xlsx-bibliotheek. De uitvoer is een standaard .xlsx-bestand dat wordt geopend in Excel, Google Spreadsheets, Numbers of een andere spreadsheettoepassing.
Het extraheren van PDF-tabellen is echt moeilijk en geen enkele extractor levert perfecte resultaten op voor elke PDF. Tabellen met consistente kolomgrenzen, geen samengevoegde cellen en een duidelijke verticale uitlijning worden netjes geconverteerd. Tabellen met samengevoegde cellen, vermeldingen met meerdere regels, voetnoten of ongebruikelijke lay-outs moeten na extractie doorgaans handmatig worden opgeschoond. Plan voor beoordeling.
De reden is bijna altijd analyse. Gegevens die in een PDF zijn vastgelegd, kunnen niet worden gesorteerd, gefilterd, opgeteld, in kaart gebracht of gedraaid. Als het eenmaal in Excel staat, wordt elke standaard spreadsheetbewerking beschikbaar – en dat maakt het verschil zichtbaar tussen het staren naar een statisch rapport en het daadwerkelijk werken met de cijfers erin.
Bulkgegevenswerk is onmogelijk in PDF. Het aggregeren van kwartaalcijfers over meerdere PDF-rapporten, het vergelijken van regelitems van leveranciers of het ophalen van specifieke kolommen voor downstream-analyse vereisen allemaal dat de gegevens in een formaat worden gebracht dat deze bewerkingen ondersteunt. Excel en CSV zijn die formaten. Conversie is de brug.
Plaats een PDF met tabelgegevens en ontvang een werkmap met elke tabel op een eigen blad.
PDF.js stelt een getTextContent-API beschikbaar die tekstitems retourneert met hun selectiekaders. Elk item heeft een string, een transformatiematrix (voor positie en rotatie) en breedte/hoogte. De converter sorteert items op Y-coördinaat om lijnen te identificeren, en vervolgens binnen elke lijn op X-coördinaat. Items op zeer vergelijkbare Y-posities vormen een rij.
Kolomdetectie maakt gebruik van gap-analyse: de X-afstand tussen opeenvolgende items in een rij geeft aan of ze tot dezelfde cel of aangrenzende cellen behoren. Een opening groter dan een drempel (doorgaans 1 à 2 tekenbreedten) duidt op een kolomgrens. Bij het afstemmen van de drempelwaarde wordt een afweging gemaakt tussen het samenvoegen van aangrenzende kolommen en het splitsen van afzonderlijke kolommen.
Excel-uitvoer gebruikt SheetJS om een werkmap in het geheugen samen te stellen, waarbij elke gedetecteerde tabel op een eigen blad staat met de namen Sheet1, Sheet2, etc. De werkmap is geserialiseerd naar .xlsx (Office Open XML)-indeling en wordt aangeboden als download. Het resultaat wordt geopend in Excel 2007+, Google Spreadsheets, LibreOffice Calc en Apple Numbers.