PDF do Excel (XLSX) převodník
Extrahujte tabulky a text z PDF a převeďte je do Excel XLSX bezpečně ve svém prohlížeči.
Sem přetáhněte soubor PDF
nebo kliknutím vyberte soubor
Extrahujte tabulky a text z PDF a převeďte je do Excel XLSX bezpečně ve svém prohlížeči.
nebo kliknutím vyberte soubor
Vytahování tabulkových dat z PDF do tabulkového procesoru je jedním z nejběžnějších pracovních postupů s dokumenty v kancelářích, které zpracovávají faktury, finanční zprávy, vědecké práce a vládní data. Formát PDF nativně nerozumí tabulkám – pouze popisuje pozice glyfů na stránce – takže převod do Excelu vyžaduje odvodit strukturu tabulky z geometrie textu. Kde jedna buňka končí a další začíná, je třeba uhodnout z vodorovných mezer; kde jeden řádek končí a další začíná, od svislé mezery.
Tento nástroj analyzuje PDF pomocí PDF.js, extrahuje textové položky s jejich ohraničujícími rámečky a seskupuje položky do řádků a sloupců na základě pozice. Zjištěná tabulka je zapsána do sešitu aplikace Excel pomocí knihovny SheetJS xlsx. Výstupem je standardní soubor .xlsx, který se otevře v Excelu, Tabulkách Google, Numbers nebo jakékoli jiné tabulkové aplikaci.
Extrakce tabulky PDF je skutečně náročná a žádný extraktor neposkytuje dokonalé výsledky na každém PDF. Tabulky s konzistentními hranicemi sloupců, bez sloučených buněk a jasným vertikálním zarovnáním se převádějí čistě. Tabulky se sloučenými buňkami, víceřádkovými položkami, poznámkami pod čarou nebo neobvyklými rozvrženími obvykle vyžadují ruční vyčištění po extrakci. Plán pro kontrolu.
Důvodem je téměř vždy analýza. Data zachycená v PDF nelze třídit, filtrovat, sčítat, znázorňovat ani střídat. Jakmile je v Excelu, zpřístupní se všechny standardní tabulkové operace – a to otevírá rozdíl mezi zíráním na statickou sestavu a skutečnou prací s čísly v ní.
Hromadná práce s daty v PDF není možná. Agregace čtvrtletních údajů ve více sestavách PDF, porovnávání řádkových položek mezi dodavateli nebo stahování konkrétních sloupců pro následnou analýzu vyžaduje převedení dat do formátu, který tyto operace podporuje. Excel a CSV jsou tyto formáty. Konverze je most.
Přetáhněte PDF obsahující tabulková data, získejte sešit s každou tabulkou na samostatném listu.
PDF.js zpřístupňuje getTextContent API, které vrací textové položky s jejich ohraničujícími rámečky. Každá položka má řetězec, transformační matici (pro polohu a rotaci) a šířku/výšku. Převaděč třídí položky podle souřadnic Y, aby identifikoval řádky, pak v rámci každého řádku podle souřadnic X. Položky na velmi podobných pozicích Y tvoří řadu.
Detekce sloupců využívá analýzu mezer: vzdálenost X mezi po sobě jdoucími položkami v řadě ukazuje, zda patří do stejné buňky nebo sousedních buněk. Mezera větší než práh (obvykle šířka 1–2 znaky) signalizuje hranici sloupce. Ladění prahu vyrovnává sloučení sousedních sloupců a rozdělení jednotlivých sloupců.
Výstup aplikace Excel používá SheetJS k vytvoření sešitu v paměti, přičemž každá zjištěná tabulka má svůj vlastní list s názvem List1, List2 atd. Sešit je serializován do formátu .xlsx (Office Open XML) a nabízen ke stažení. Výsledek se otevře v Excelu 2007+, Tabulkách Google, LibreOffice Calc a Apple Numbers.