PDF til Excel (XLSX) Converter
Trekk ut tabeller og tekst fra PDF og konverter dem til Excel XLSX-regneark sikkert i nettleseren din.
Slipp PDF-filen her
eller klikk for å velge fil
Trekk ut tabeller og tekst fra PDF og konverter dem til Excel XLSX-regneark sikkert i nettleseren din.
eller klikk for å velge fil
Å trekke tabelldata ut av en PDF og inn i et regneark er en av de vanligste dokumentarbeidsflytene på kontorer som håndterer fakturaer, økonomiske rapporter, vitenskapelige artikler og offentlige data. PDF-formatet forstår ikke tabeller – det beskriver bare tegnposisjoner på en side – så konvertering til Excel krever å utlede tabellstruktur fra tekstens geometri. Hvor en celle slutter og den neste begynner må gjettes fra horisontalt mellomrom; der en rad slutter og den neste begynner, fra vertikale mellomrom.
Dette verktøyet analyserer PDF-en ved hjelp av PDF.js, trekker ut tekstelementer med deres avgrensningsbokser, og grupperer elementene i rader og kolonner basert på posisjon. Den oppdagede tabellen skrives til en Excel-arbeidsbok ved hjelp av SheetJS xlsx-biblioteket. Utdataene er en standard .xlsx-fil som åpnes i Excel, Google Sheets, Numbers eller et annet regnearkprogram.
PDF-tabellutvinning er virkelig vanskelig, og ingen uttrekker gir perfekte resultater på hver PDF. Tabeller med konsekvente kolonnegrenser, ingen sammenslåtte celler og tydelig vertikal justering konverterer rent. Tabeller med sammenslåtte celler, oppføringer med flere linjer, fotnoter eller uvanlige oppsett trenger vanligvis manuell opprydding etter ekstraksjon. Plan for gjennomgang.
Årsaken er nesten alltid analyse. Data som er fanget i en PDF kan ikke sorteres, filtreres, summeres, kartlegges eller pivoteres. Når den først er i Excel, blir hver standard regnearkoperasjon tilgjengelig – og det åpner for forskjellen mellom å se på en statisk rapport og faktisk jobbe med tallene i den.
Massedataarbeid er umulig i PDF. Å samle kvartalstall på tvers av flere PDF-rapporter, sammenligne linjeelementer på tvers av leverandører eller trekke spesifikke kolonner for nedstrømsanalyse krever alt å få dataene til et format som støtter disse operasjonene. Excel og CSV er disse formatene. Konvertering er broen.
Slipp en PDF som inneholder tabelldata, få en arbeidsbok med hver tabell på sitt eget ark.
PDF.js avslører et getTextContent API som returnerer tekstelementer med deres avgrensningsbokser. Hvert element har en streng, en transformasjonsmatrise (for posisjon og rotasjon) og bredde/høyde. Konverteren sorterer elementer etter Y-koordinat for å identifisere linjer, deretter innenfor hver linje etter X-koordinat. Elementer i svært like Y-posisjoner danner en rad.
Kolonnedeteksjon bruker gapanalyse: X-avstanden mellom påfølgende elementer i en rad indikerer om de tilhører samme celle eller tilstøtende celler. Et gap større enn en terskel (vanligvis 1–2 tegnbredder) signaliserer en kolonnegrense. Terskeljustering avveier mellom å slå sammen tilstøtende kolonner og splitte enkeltkolonner.
Excel-utdata bruker SheetJS til å konstruere en arbeidsbok i minnet, med hver oppdaget tabell på sitt eget ark kalt Sheet1, Sheet2, etc. Arbeidsboken er serialisert til .xlsx-format (Office Open XML) og tilbys som en nedlasting. Resultatet åpnes i Excel 2007+, Google Sheets, LibreOffice Calc og Apple Numbers.