PDF u Excel (XLSX) pretvarač
Ekstrahirajte tablice i tekst iz PDF-a i pretvorite ih u Excel XLSX proračunske tablice na siguran način u svom pregledniku.
Ispustite PDF datoteku ovdje
ili kliknite za odabir datoteke
Ekstrahirajte tablice i tekst iz PDF-a i pretvorite ih u Excel XLSX proračunske tablice na siguran način u svom pregledniku.
ili kliknite za odabir datoteke
Izvlačenje tabličnih podataka iz PDF-a u proračunsku tablicu jedan je od najčešćih tijekova rada dokumenata u uredima koji obrađuju fakture, financijska izvješća, znanstvene radove i državne podatke. PDF format izvorno ne razumije tablice — on samo opisuje položaje glifa na stranici — tako da pretvaranje u Excel zahtijeva zaključivanje strukture tablice iz geometrije teksta. Gdje jedna ćelija završava, a sljedeća počinje mora se pogoditi iz vodoravne bjeline; gdje jedan red završava, a sljedeći počinje, od okomitog razmaka.
Ovaj alat analizira PDF pomoću PDF.js, izdvaja tekstualne stavke s njihovim graničnim okvirima i grupira stavke u retke i stupce na temelju položaja. Otkrivena tablica zapisuje se u Excel radnu knjigu pomoću biblioteke SheetJS xlsx. Izlaz je standardna .xlsx datoteka koja se otvara u Excelu, Google tablicama, Numbers ili bilo kojoj drugoj aplikaciji za proračunske tablice.
Ekstrakcija PDF tablice je uistinu teška i nijedan ekstraktor ne daje savršene rezultate na svakom PDF-u. Tablice s dosljednim granicama stupaca, bez spojenih ćelija i jasnim okomitim poravnanjem čisto pretvaraju. Tablice sa spojenim ćelijama, unosima s više redaka, fusnotama ili neobičnim izgledima obično trebaju ručno čišćenje nakon izdvajanja. Plan za pregled.
Razlog je gotovo uvijek analiza. Podaci zarobljeni u PDF-u ne mogu se sortirati, filtrirati, zbrajati, crtati u dijagramu ili zakretati. Nakon što je u Excelu, svaka standardna operacija proračunske tablice postaje dostupna — i to otvara razliku između buljenja u statično izvješće i stvarnog rada s brojevima u njemu.
Skupni rad s podacima nemoguć je u PDF-u. Agregiranje tromjesečnih brojki u višestrukim PDF izvješćima, usporedba stavki među dobavljačima ili izvlačenje određenih stupaca za daljnju analizu zahtijevaju prebacivanje podataka u format koji podržava te operacije. Excel i CSV su ti formati. Pretvorba je most.
Ispustite PDF koji sadrži tablične podatke, dobijte radnu knjigu sa svakom tablicom na vlastitom listu.
PDF.js izlaže getTextContent API koji vraća tekstualne stavke s njihovim graničnim okvirima. Svaka stavka ima niz, matricu transformacije (za položaj i rotaciju) i širinu/visinu. Pretvarač razvrstava stavke prema Y-koordinati kako bi identificirao linije, zatim unutar svake linije prema X-koordinati. Predmeti na vrlo sličnim Y položajima čine red.
Detekcija stupaca koristi analizu praznina: X-udaljenost između uzastopnih stavki u nizu pokazuje pripadaju li istoj ćeliji ili susjednim ćelijama. Razmak veći od praga (obično 1-2 širine znaka) signalizira granicu stupca. Podešavanje praga je kompromis između spajanja susjednih stupaca i razdvajanja pojedinačnih stupaca.
Excel izlaz koristi SheetJS za izradu radne knjige u memoriji, sa svakom otkrivenom tablicom na vlastitom listu pod nazivom Sheet1, Sheet2, itd. Radna knjiga se serijalizira u .xlsx (Office Open XML) format i nudi se kao preuzimanje. Rezultat se otvara u Excelu 2007+, Google tablicama, LibreOffice Calc i Apple Numbers.