PDF til Excel (XLSX) Konverter
Udpak tabeller og tekst fra PDF og konverter dem til Excel XLSX-regneark sikkert i din browser.
Slip PDF-fil her
eller klik for at vælge fil
Udpak tabeller og tekst fra PDF og konverter dem til Excel XLSX-regneark sikkert i din browser.
eller klik for at vælge fil
At trække tabeldata ud af en PDF og ind i et regneark er en af de mest almindelige dokumentarbejdsgange på kontorer, der håndterer fakturaer, økonomiske rapporter, videnskabelige artikler og offentlige data. PDF-formatet forstår ikke indbygget tabeller - det beskriver kun glyfpositioner på en side - så konvertering til Excel kræver, at man udleder tabelstruktur fra tekstens geometri. Hvor en celle slutter og den næste begynder skal gættes ud fra vandret mellemrum; hvor den ene række slutter og den næste begynder, fra lodret mellemrum.
Dette værktøj analyserer PDF'en ved hjælp af PDF.js, udtrækker tekstelementer med deres afgrænsningsfelter og grupperer elementerne i rækker og kolonner baseret på position. Den fundne tabel skrives til en Excel-projektmappe ved hjælp af SheetJS xlsx-biblioteket. Outputtet er en standard .xlsx-fil, der åbnes i Excel, Google Sheets, Numbers eller et hvilket som helst andet regnearksprogram.
PDF-tabeludtrækning er virkelig svært, og ingen udtrækker producerer perfekte resultater på hver PDF. Tabeller med ensartede kolonnegrænser, ingen flettede celler og tydelig lodret justering konverterer rent. Tabeller med flettede celler, indgange med flere linjer, fodnoter eller usædvanlige layout har typisk brug for manuel oprydning efter ekstraktion. Planlæg for gennemgang.
Årsagen er næsten altid analyse. Data fanget i en PDF kan ikke sorteres, filtreres, summeres, kortlægges eller pivoteres. Når den først er i Excel, bliver hver standard regnearkshandling tilgængelig - og det åbner op for forskellen mellem at stirre på en statisk rapport og faktisk arbejde med tallene i den.
Massedataarbejde er umuligt i PDF. Aggregering af kvartalstal på tværs af flere PDF-rapporter, sammenligning af linjeposter på tværs af leverandører eller udtrækning af specifikke kolonner til downstream-analyse kræver alt sammen at få dataene ind i et format, der understøtter disse operationer. Excel og CSV er disse formater. Konvertering er broen.
Slip en PDF, der indeholder tabeldata, få en projektmappe med hver tabel på sit eget ark.
PDF.js afslører en getTextContent API, der returnerer tekstelementer med deres afgrænsningsfelter. Hvert element har en streng, en transformationsmatrix (til position og rotation) og bredde/højde. Konverteren sorterer elementer efter Y-koordinat for at identificere linjer, derefter inden for hver linje efter X-koordinat. Elementer på meget lignende Y-positioner danner en række.
Kolonnedetektion bruger hulanalyse: X-afstanden mellem på hinanden følgende elementer i en række angiver, om de tilhører den samme celle eller tilstødende celler. Et mellemrum, der er større end en tærskel (typisk 1-2 tegnbredder) signalerer en søjlegrænse. Tærskeljustering afvejer mellem at flette tilstødende kolonner og opdele enkelte kolonner.
Excel-output bruger SheetJS til at konstruere en projektmappe i hukommelsen, hvor hver registreret tabel på sit eget ark hedder Ark1, Ark2 osv. Projektmappen er serialiseret til .xlsx-format (Office Open XML) og tilbydes som en download. Resultatet åbner i Excel 2007+, Google Sheets, LibreOffice Calc og Apple Numbers.