Zdarma převodník

PDF do Excel (XLSX) převodník

Extrahujte tabulky a text z PDF a převeďte je do Excel XLSX bezpečně ve svém prohlížeči.

Sem přetáhněte soubor PDF

nebo kliknutím vyberte soubor

Nebo

O tomto nástroji

Vytahování tabulkových dat z PDF do tabulkového procesoru je jedním z nejběžnějších pracovních postupů s dokumenty v kancelářích, které zpracovávají faktury, finanční zprávy, vědecké práce a vládní data. Formát PDF nativně nerozumí tabulkám – pouze popisuje pozice glyfů na stránce – takže převod do Excelu vyžaduje odvodit strukturu tabulky z geometrie textu. Kde jedna buňka končí a další začíná, je třeba uhodnout z vodorovných mezer; kde jeden řádek končí a další začíná, od svislé mezery.

Tento nástroj analyzuje PDF pomocí PDF.js, extrahuje textové položky s jejich ohraničujícími rámečky a seskupuje položky do řádků a sloupců na základě pozice. Zjištěná tabulka je zapsána do sešitu aplikace Excel pomocí knihovny SheetJS xlsx. Výstupem je standardní soubor .xlsx, který se otevře v Excelu, Tabulkách Google, Numbers nebo jakékoli jiné tabulkové aplikaci.

Extrakce tabulky PDF je skutečně náročná a žádný extraktor neposkytuje dokonalé výsledky na každém PDF. Tabulky s konzistentními hranicemi sloupců, bez sloučených buněk a jasným vertikálním zarovnáním se převádějí čistě. Tabulky se sloučenými buňkami, víceřádkovými položkami, poznámkami pod čarou nebo neobvyklými rozvrženími obvykle vyžadují ruční vyčištění po extrakci. Plán pro kontrolu.

Proč převádět PDF do Excelu

Důvodem je téměř vždy analýza. Data zachycená v PDF nelze třídit, filtrovat, sčítat, znázorňovat ani střídat. Jakmile je v Excelu, zpřístupní se všechny standardní tabulkové operace – a to otevírá rozdíl mezi zíráním na statickou sestavu a skutečnou prací s čísly v ní.

Hromadná práce s daty v PDF není možná. Agregace čtvrtletních údajů ve více sestavách PDF, porovnávání řádkových položek mezi dodavateli nebo stahování konkrétních sloupců pro následnou analýzu vyžaduje převedení dat do formátu, který tyto operace podporuje. Excel a CSV jsou tyto formáty. Konverze je most.

Jak používat

Přetáhněte PDF obsahující tabulková data, získejte sešit s každou tabulkou na samostatném listu.

  1. Nahrajte soubor PDF: Přetáhněte soubor do oblasti pro nahrávání nebo kliknutím procházejte. Podporovány jsou soubory do 50 MB. PDF musí obsahovat skutečný text; naskenované PDF potřebují nejprve OCR.
  2. Počkejte na detekci stolu: PDF.js extrahuje textové položky a jejich pozice. Převaděč shlukuje položky do řádků a sloupců analýzou horizontálního a vertikálního zarovnání. Detekce trvá několik sekund u krátkých dokumentů a déle u vícestránkových tabulek.
  3. Zkontrolujte zjištěné tabulky: Zjištěné tabulky jsou před stažením zobrazeny v náhledu. Potvrďte, že sloupce a řádky odpovídají tomu, co očekáváte; nesouososti se později stanou vyčištěním Excelu.
  4. Stáhnout jako XLSX: Převaděč zapíše každou zjištěnou tabulku na samostatný list v sešitu .xlsx pomocí SheetJS. Otevřete výsledek v Excelu nebo Tabulkách Google a odstraňte všechny zbývající problémy.

Běžné případy použití

Technické detaily

PDF.js zpřístupňuje getTextContent API, které vrací textové položky s jejich ohraničujícími rámečky. Každá položka má řetězec, transformační matici (pro polohu a rotaci) a šířku/výšku. Převaděč třídí položky podle souřadnic Y, aby identifikoval řádky, pak v rámci každého řádku podle souřadnic X. Položky na velmi podobných pozicích Y tvoří řadu.

Detekce sloupců využívá analýzu mezer: vzdálenost X mezi po sobě jdoucími položkami v řadě ukazuje, zda patří do stejné buňky nebo sousedních buněk. Mezera větší než práh (obvykle šířka 1–2 znaky) signalizuje hranici sloupce. Ladění prahu vyrovnává sloučení sousedních sloupců a rozdělení jednotlivých sloupců.

Výstup aplikace Excel používá SheetJS k vytvoření sešitu v paměti, přičemž každá zjištěná tabulka má svůj vlastní list s názvem List1, List2 atd. Sešit je serializován do formátu .xlsx (Office Open XML) a nabízen ke stažení. Výsledek se otevře v Excelu 2007+, Tabulkách Google, LibreOffice Calc a Apple Numbers.

Nejlepší postupy

Často kladené dotazy

Změní převod PDF do EXCELu obsah?
Obsah je zachován co nejpřesněji. Některé funkce specifické pro formát však nemusí mít přímé ekvivalenty, takže mohou nastat drobné rozdíly ve formátování.
K čemu se používá formát EXCEL?
XLSX (Microsoft Excel Spreadsheet) se primárně používá pro tabulky se vzorci, grafy a analýzou dat.
Existují nějaká omezení, která je třeba si uvědomit?
Podporovány jsou soubory do 50 MB. Zpracování velmi velkých nebo složitých souborů může trvat déle. Veškerá konverze probíhá ve vašem prohlížeči, takže rychlost zpracování závisí na vašem zařízení.
Jsou data mých dokumentů v bezpečí?
Ano. Zpracování dokumentů probíhá výhradně ve vašem prohlížeči. Vaše soubory a jejich obsah nejsou nikdy nahrány na žádný server. Díky tomu lze bezpečně převádět citlivé nebo důvěrné dokumenty.
Jaký výstupní formát se vyrábí?
.xlsx (Office Open XML), moderní formát Excelu. Soubor se otevře v Excelu 2007+, Tabulkách Google, LibreOffice Calc, Apple Numbers a jakékoli jiné moderní tabulce.
Je moje PDF nahráno na server?
Ne. Analýza a generování Excelu probíhá ve vašem prohlížeči pomocí PDF.js a SheetJS.
Jaká je maximální velikost souboru?
50 MB. Doba převodu závisí spíše na složitosti dokumentu než na samotné velikosti souboru – extrahování 50 MB PDF s velkým množstvím grafiky může trvat déle než u souboru s velkým množstvím textu.
Proč jsou moje čísla ve špatných sloupcích?
Téměř vždy proto, že práh detekce sloupců převodníku neodpovídal skutečnému rozvržení PDF. Otevřete zdrojové PDF, podívejte se, kde se sloupce vizuálně lámou, a podle potřeby ručně posouvejte buňky v Excelu.