Bezplatný prevodník

PDF do Excel (XLSX) konvertor

Extrahujte tabuľky a text z PDF a konvertujte ich na tabuľky Excel XLSX bezpečne vo svojom prehliadači.

Sem presuňte súbor PDF

alebo kliknutím vyberte súbor

Alebo

O tomto nástroji

Vyťahovanie tabuľkových údajov z PDF do tabuľky je jedným z najbežnejších pracovných postupov s dokumentmi v kanceláriách, ktoré spracúvajú faktúry, finančné správy, vedecké práce a vládne údaje. Formát PDF natívne nerozumie tabuľkám – iba popisuje pozície glyfov na stránke – takže prevod do Excelu vyžaduje odvodenie štruktúry tabuľky z geometrie textu. Kde jedna bunka končí a nasledujúca začína, je potrebné uhádnuť z vodorovnej medzery; kde jeden riadok končí a ďalší začína, od zvislej medzery.

Tento nástroj analyzuje súbor PDF pomocou súboru PDF.js, extrahuje textové položky s ich ohraničovacími rámčekmi a zoskupuje položky do riadkov a stĺpcov na základe polohy. Zistená tabuľka sa zapíše do excelového zošita pomocou knižnice SheetJS xlsx. Výstupom je štandardný súbor .xlsx, ktorý sa otvorí v Exceli, Tabuľkách Google, Numbers alebo akejkoľvek inej tabuľkovej aplikácii.

Extrakcia tabuľky PDF je skutočne náročná a žiadny extraktor neposkytuje dokonalé výsledky pri každom PDF. Tabuľky s konzistentnými hranicami stĺpcov, bez zlúčených buniek a jasným zvislým zarovnaním sa konvertujú čisto. Tabuľky so zlúčenými bunkami, viacriadkovými položkami, poznámkami pod čiarou alebo nezvyčajným rozložením zvyčajne vyžadujú po extrakcii manuálne čistenie. Plán na kontrolu.

Prečo konvertovať PDF do Excelu

Dôvodom je takmer vždy analýza. Dáta zachytené v PDF nie je možné triediť, filtrovať, sčítať, zmapovať ani zoradiť. Akonáhle je v Exceli, sprístupní sa každá štandardná tabuľková operácia – a to otvára rozdiel medzi pozeraním sa na statickú zostavu a skutočnou prácou s číslami v nej.

Práca s hromadnými údajmi je v PDF nemožná. Agregovanie štvrťročných údajov vo viacerých prehľadoch PDF, porovnávanie riadkových položiek medzi dodávateľmi alebo získavanie špecifických stĺpcov pre následnú analýzu si vyžaduje získanie údajov do formátu, ktorý podporuje tieto operácie. Excel a CSV sú tieto formáty. Konverzia je most.

Ako používať

Pustite súbor PDF obsahujúci tabuľkové údaje, získajte zošit s každou tabuľkou na samostatnom hárku.

  1. Nahrajte súbor PDF: Presuňte súbor do oblasti nahrávania alebo ho kliknutím prehľadávajte. Podporované sú súbory do 50 MB. PDF musí obsahovať skutočný text; naskenované súbory PDF potrebujú najskôr OCR.
  2. Počkajte na detekciu stola: PDF.js extrahuje textové položky a ich pozície. Konvertor zoskupuje položky do riadkov a stĺpcov analýzou horizontálneho a vertikálneho zarovnania. Detekcia trvá niekoľko sekúnd pre krátke dokumenty a dlhšie pre viacstranové tabuľky.
  3. Skontrolujte zistené tabuľky: Zistené tabuľky sa pred stiahnutím ukážu. Potvrďte, že stĺpce a riadky zodpovedajú tomu, čo očakávate; nesprávne zarovnania sa neskôr stanú vyčistením Excelu.
  4. Stiahnite si ako XLSX: Konvertor zapíše každú zistenú tabuľku na samostatný list v zošite .xlsx pomocou SheetJS. Otvorte výsledok v Exceli alebo Tabuľkách Google a odstráňte všetky zostávajúce problémy.

Bežné prípady použitia

Technické detaily

PDF.js odhaľuje getTextContent API, ktoré vracia textové položky s ich ohraničovacími rámčekmi. Každá položka má reťazec, transformačnú maticu (pre polohu a rotáciu) a šírku/výšku. Prevodník triedi položky podľa súradnice Y, aby identifikoval riadky, potom v rámci každého riadku podľa súradnice X. Položky na veľmi podobných pozíciách Y tvoria riadok.

Detekcia stĺpcov využíva analýzu medzier: vzdialenosť X medzi po sebe idúcimi položkami v riadku udáva, či patria do rovnakej bunky alebo susedných buniek. Medzera väčšia ako prahová hodnota (zvyčajne šírka 1 až 2 znaky) signalizuje hranicu stĺpca. Prahové ladenie je kompromisom medzi zlúčením susedných stĺpcov a rozdelením jednotlivých stĺpcov.

Výstup programu Excel používa SheetJS na vytvorenie zošita v pamäti, pričom každá zistená tabuľka má svoj vlastný hárok s názvom Hárok1, Hárok2 atď. Zošit je serializovaný do formátu .xlsx (Office Open XML) a ponúka sa na stiahnutie. Výsledok sa otvorí v Exceli 2007+, Tabuľkách Google, LibreOffice Calc a Apple Numbers.

osvedčené postupy

Často kladené otázky

Zmení prevod PDF do EXCELu obsah?
Obsah je zachovaný čo najpresnejšie. Niektoré funkcie špecifické pre formát však nemusia mať priame ekvivalenty, takže sa môžu vyskytnúť menšie rozdiely vo formátovaní.
Na čo sa používa formát EXCEL?
XLSX (Microsoft Excel Spreadsheet) sa primárne používa pre tabuľky so vzorcami, grafmi a analýzou údajov.
Existujú nejaké obmedzenia, ktoré si treba uvedomiť?
Podporované sú súbory do 50 MB. Spracovanie veľmi veľkých alebo zložitých súborov môže trvať dlhšie. Všetky konverzie prebiehajú vo vašom prehliadači, takže rýchlosť spracovania závisí od vášho zariadenia.
Sú údaje môjho dokumentu v bezpečí?
áno. Spracovanie dokumentov prebieha výlučne vo vašom prehliadači. Vaše súbory a ich obsah sa nikdy neodovzdávajú na žiadny server. Vďaka tomu je bezpečná konverzia citlivých alebo dôverných dokumentov.
Aký výstupný formát sa vyrába?
.xlsx (Office Open XML), moderný formát Excelu. Súbor sa otvorí v Exceli 2007+, Tabuľkách Google, LibreOffice Calc, Apple Numbers a akejkoľvek inej modernej tabuľke.
Je moje PDF nahrané na server?
Nie. Analýza a generovanie programu Excel prebieha vo vašom prehliadači pomocou súborov PDF.js a SheetJS.
Aká je maximálna veľkosť súboru?
50 MB. Čas prevodu závisí skôr od zložitosti dokumentu než od samotnej veľkosti súboru – extrahovanie 50 MB PDF s veľkým množstvom grafiky môže trvať dlhšie ako extrahovanie s veľkým množstvom textu.
Prečo sú moje čísla v nesprávnych stĺpcoch?
Takmer vždy, pretože prah detekcie stĺpcov konvertora nezodpovedal skutočnému rozloženiu PDF. Otvorte zdrojový súbor PDF, pozrite sa, kde sa stĺpce vizuálne zlomia, a podľa potreby manuálne posuňte bunky v Exceli.