PDF do Excel (XLSX) konvertor
Extrahujte tabuľky a text z PDF a konvertujte ich na tabuľky Excel XLSX bezpečne vo svojom prehliadači.
Sem presuňte súbor PDF
alebo kliknutím vyberte súbor
Extrahujte tabuľky a text z PDF a konvertujte ich na tabuľky Excel XLSX bezpečne vo svojom prehliadači.
alebo kliknutím vyberte súbor
Vyťahovanie tabuľkových údajov z PDF do tabuľky je jedným z najbežnejších pracovných postupov s dokumentmi v kanceláriách, ktoré spracúvajú faktúry, finančné správy, vedecké práce a vládne údaje. Formát PDF natívne nerozumie tabuľkám – iba popisuje pozície glyfov na stránke – takže prevod do Excelu vyžaduje odvodenie štruktúry tabuľky z geometrie textu. Kde jedna bunka končí a nasledujúca začína, je potrebné uhádnuť z vodorovnej medzery; kde jeden riadok končí a ďalší začína, od zvislej medzery.
Tento nástroj analyzuje súbor PDF pomocou súboru PDF.js, extrahuje textové položky s ich ohraničovacími rámčekmi a zoskupuje položky do riadkov a stĺpcov na základe polohy. Zistená tabuľka sa zapíše do excelového zošita pomocou knižnice SheetJS xlsx. Výstupom je štandardný súbor .xlsx, ktorý sa otvorí v Exceli, Tabuľkách Google, Numbers alebo akejkoľvek inej tabuľkovej aplikácii.
Extrakcia tabuľky PDF je skutočne náročná a žiadny extraktor neposkytuje dokonalé výsledky pri každom PDF. Tabuľky s konzistentnými hranicami stĺpcov, bez zlúčených buniek a jasným zvislým zarovnaním sa konvertujú čisto. Tabuľky so zlúčenými bunkami, viacriadkovými položkami, poznámkami pod čiarou alebo nezvyčajným rozložením zvyčajne vyžadujú po extrakcii manuálne čistenie. Plán na kontrolu.
Dôvodom je takmer vždy analýza. Dáta zachytené v PDF nie je možné triediť, filtrovať, sčítať, zmapovať ani zoradiť. Akonáhle je v Exceli, sprístupní sa každá štandardná tabuľková operácia – a to otvára rozdiel medzi pozeraním sa na statickú zostavu a skutočnou prácou s číslami v nej.
Práca s hromadnými údajmi je v PDF nemožná. Agregovanie štvrťročných údajov vo viacerých prehľadoch PDF, porovnávanie riadkových položiek medzi dodávateľmi alebo získavanie špecifických stĺpcov pre následnú analýzu si vyžaduje získanie údajov do formátu, ktorý podporuje tieto operácie. Excel a CSV sú tieto formáty. Konverzia je most.
Pustite súbor PDF obsahujúci tabuľkové údaje, získajte zošit s každou tabuľkou na samostatnom hárku.
PDF.js odhaľuje getTextContent API, ktoré vracia textové položky s ich ohraničovacími rámčekmi. Každá položka má reťazec, transformačnú maticu (pre polohu a rotáciu) a šírku/výšku. Prevodník triedi položky podľa súradnice Y, aby identifikoval riadky, potom v rámci každého riadku podľa súradnice X. Položky na veľmi podobných pozíciách Y tvoria riadok.
Detekcia stĺpcov využíva analýzu medzier: vzdialenosť X medzi po sebe idúcimi položkami v riadku udáva, či patria do rovnakej bunky alebo susedných buniek. Medzera väčšia ako prahová hodnota (zvyčajne šírka 1 až 2 znaky) signalizuje hranicu stĺpca. Prahové ladenie je kompromisom medzi zlúčením susedných stĺpcov a rozdelením jednotlivých stĺpcov.
Výstup programu Excel používa SheetJS na vytvorenie zošita v pamäti, pričom každá zistená tabuľka má svoj vlastný hárok s názvom Hárok1, Hárok2 atď. Zošit je serializovaný do formátu .xlsx (Office Open XML) a ponúka sa na stiahnutie. Výsledok sa otvorí v Exceli 2007+, Tabuľkách Google, LibreOffice Calc a Apple Numbers.