PDF till Excel (XLSX) konverterare
Extrahera tabeller och text från PDF och konvertera dem till Excel XLSX-kalkylblad säkert i din webbläsare.
Släpp PDF-filen här
eller klicka för att välja fil
Extrahera tabeller och text från PDF och konvertera dem till Excel XLSX-kalkylblad säkert i din webbläsare.
eller klicka för att välja fil
Att dra tabelldata från en PDF och till ett kalkylblad är ett av de vanligaste dokumentarbetsflödena på kontor som hanterar fakturor, finansiella rapporter, vetenskapliga artiklar och statliga data. PDF-formatet förstår inte tabeller – det beskriver bara glyfpositioner på en sida – så att konvertera till Excel kräver att man härleder tabellstrukturen från textens geometri. Var en cell slutar och nästa börjar måste gissas från horisontellt blanksteg; där en rad slutar och nästa börjar, från vertikala blanksteg.
Det här verktyget analyserar PDF-filen med PDF.js, extraherar textobjekt med sina begränsningsrutor och grupperar objekten i rader och kolumner baserat på position. Den upptäckta tabellen skrivs till en Excel-arbetsbok med SheetJS xlsx-biblioteket. Utdata är en standard .xlsx-fil som öppnas i Excel, Google Sheets, Numbers eller något annat kalkylarksprogram.
PDF-tabellextraktion är verkligen svårt, och ingen extraherare ger perfekta resultat på varje PDF. Tabeller med konsekventa kolumngränser, inga sammanslagna celler och tydlig vertikal justering konverterar rent. Tabeller med sammanslagna celler, poster med flera rader, fotnoter eller ovanliga layouter behöver vanligtvis rengöras manuellt efter extraktion. Planera för granskning.
Anledningen är nästan alltid analys. Data som fångas i en PDF kan inte sorteras, filtreras, summeras, kartläggas eller pivoteras. När den väl är i Excel blir alla vanliga kalkylbladsoperationer tillgänglig - och det öppnar upp för skillnaden mellan att stirra på en statisk rapport och att faktiskt arbeta med siffrorna i den.
Massdataarbete är omöjligt i PDF. Att samla kvartalssiffror över flera PDF-rapporter, jämföra rader mellan leverantörer eller dra specifika kolumner för nedströmsanalys kräver allt att få data till ett format som stöder dessa operationer. Excel och CSV är dessa format. Omvandlingen är bron.
Släpp en PDF som innehåller tabelldata, få en arbetsbok med varje tabell på sitt eget ark.
PDF.js exponerar ett getTextContent API som returnerar textobjekt med sina begränsningsrutor. Varje objekt har en sträng, en transformationsmatris (för position och rotation) och bredd/höjd. Omvandlaren sorterar objekt efter Y-koordinat för att identifiera linjer, sedan inom varje rad efter X-koordinat. Objekt på mycket liknande Y-positioner bildar en rad.
Kolumndetektering använder gapanalys: X-avståndet mellan på varandra följande objekt i en rad indikerar om de tillhör samma cell eller intilliggande celler. Ett gap som är större än ett tröskelvärde (vanligtvis 1–2 teckenbredder) signalerar en kolumngräns. Tröskeljustering avviker mellan att slå samman angränsande kolumner och dela enstaka kolumner.
Excel-utdata använder SheetJS för att konstruera en arbetsbok i minnet, med varje upptäckt tabell på sitt eget ark som heter Sheet1, Sheet2, etc. Arbetsboken är serialiserad till .xlsx-format (Office Open XML) och erbjuds som en nedladdning. Resultatet öppnas i Excel 2007+, Google Sheets, LibreOffice Calc och Apple Numbers.