Brezplačni pretvornik

PDF v Pretvornik Excel (XLSX).

Ekstrahirajte tabele in besedilo iz PDF-ja in jih varno pretvorite v preglednice Excel XLSX v brskalniku.

Spustite datoteko PDF sem

ali kliknite, da izberete datoteko

oz

O tem orodju

Vlečenje tabelaričnih podatkov iz PDF-ja v preglednico je eden najpogostejših delovnih tokov dokumentov v pisarnah, ki obravnavajo račune, finančna poročila, znanstvene članke in vladne podatke. Format PDF izvorno ne razume tabel – opisuje le položaje glifov na strani – zato pretvorba v Excel zahteva sklepanje strukture tabele iz geometrije besedila. Kje se ena celica konča in kje se začne naslednja, je treba uganiti iz vodoravnega presledka; kjer se ena vrstica konča in naslednja začne, od navpičnega presledka.

To orodje razčleni PDF z uporabo PDF.js, izvleče besedilne elemente z njihovimi omejevalnimi okvirji in razvrsti elemente v vrstice in stolpce glede na položaj. Zaznana tabela je zapisana v Excelov delovni zvezek s pomočjo knjižnice SheetJS xlsx. Rezultat je standardna datoteka .xlsx, ki se odpre v Excelu, Google Preglednicah, Numbers ali kateri koli drugi aplikaciji za preglednice.

Ekstrahiranje tabel PDF je resnično težko in noben ekstraktor ne daje popolnih rezultatov za vsak PDF. Tabele z doslednimi mejami stolpcev, brez spojenih celic in jasno navpično poravnavo pretvarjajo čisto. Tabele s spojenimi celicami, večvrstičnimi vnosi, sprotnimi opombami ali nenavadnimi postavitvami običajno potrebujejo ročno čiščenje po ekstrakciji. Načrt za pregled.

Zakaj pretvoriti PDF v Excel

Razlog je skoraj vedno analiza. Podatkov, ujetih v dokumentu PDF, ni mogoče razvrstiti, filtrirati, sešteti, prikazati na grafikonu ali vrteti. Ko je v Excelu, postanejo na voljo vse standardne operacije preglednice – in to odpre razliko med strmenjem v statično poročilo in dejanskim delom s številkami v njem.

V PDF-ju delo z množičnimi podatki ni mogoče. Združevanje četrtletnih številk v več poročilih PDF, primerjava vrstičnih postavk med ponudniki ali vlečenje določenih stolpcev za nadaljnjo analizo zahteva, da se podatki prenesejo v obliko, ki podpira te operacije. Ti formati sta Excel in CSV. Spreobrnjenje je most.

Kako uporabljati

Spustite PDF, ki vsebuje tabelarne podatke, pridobite delovni zvezek z vsako tabelo na svojem listu.

  1. Naložite svoj PDF: Povlecite datoteko v območje za nalaganje ali kliknite za brskanje. Podprte so datoteke do 50 MB. PDF mora vsebovati dejansko besedilo; skenirani PDF-ji najprej potrebujejo OCR.
  2. Počakajte na zaznavo tabele: PDF.js izvleče besedilne elemente in njihove položaje. Pretvornik z analizo vodoravne in navpične poravnave združuje elemente v vrstice in stolpce. Zaznavanje traja nekaj sekund za kratke dokumente in dlje za večstranske tabele.
  3. Pregled zaznanih tabel: Zaznane tabele si pred prenosom ogledajo predogled. Potrdite, da se stolpci in vrstice ujemajo s pričakovanji; neporavnanosti tukaj pozneje postanejo čiščenje Excela.
  4. Prenesite kot XLSX: Pretvornik zapiše vsako zaznano tabelo na ločen list v delovnem zvezku .xlsx s pomočjo SheetJS. Odprite rezultat v Excelu ali Google Preglednicah in počistite morebitne preostale težave.

Pogosti primeri uporabe

Tehnične podrobnosti

PDF.js razkriva API getTextContent, ki vrne besedilne elemente z njihovimi omejevalnimi okvirji. Vsak element ima niz, transformacijsko matriko (za položaj in vrtenje) ter širino/višino. Pretvornik razvrsti elemente po Y-koordinati, da identificira črte, nato pa znotraj vsake vrstice po X-koordinati. Predmeti na zelo podobnih položajih Y tvorijo vrsto.

Zaznavanje stolpcev uporablja analizo vrzeli: razdalja X med zaporednimi elementi v vrsti kaže, ali pripadajo isti celici ali sosednjim celicam. Vrzel, večja od praga (običajno širine 1–2 znakov), označuje mejo stolpca. Uravnavanje praga je kompromis med združevanjem sosednjih stolpcev in delitvijo posameznih stolpcev.

Excelov izhod uporablja SheetJS za izdelavo delovnega zvezka v pomnilniku, pri čemer je vsaka zaznana tabela na svojem listu z imenom Sheet1, Sheet2 itd. Delovni zvezek je serializiran v format .xlsx (Office Open XML) in na voljo kot prenos. Rezultat se odpre v Excelu 2007+, Google Preglednicah, LibreOffice Calc in Apple Numbers.

Najboljše prakse

Pogosta vprašanja

Ali pretvorba PDF v EXCEL spremeni vsebino?
Vsebina je ohranjena čim bolj natančno. Vendar pa nekatere funkcije, specifične za obliko, morda nimajo neposrednih ustreznikov, zato lahko pride do manjših razlik v oblikovanju.
Za kaj se uporablja format EXCEL?
XLSX (Microsoft Excel Spreadsheet) se uporablja predvsem za preglednice s formulami, grafikoni in analizo podatkov.
Ali obstajajo kakšne omejitve, na katere se morate zavedati?
Podprte so datoteke do 50 MB. Obdelava zelo velikih ali zapletenih datotek lahko traja dlje. Vse pretvorbe se zgodijo v vašem brskalniku, zato je hitrost obdelave odvisna od vaše naprave.
Ali so podatki mojih dokumentov varni?
ja Obdelava dokumentov poteka v celoti v vašem brskalniku. Vaše datoteke in njihova vsebina se nikoli ne naložijo na noben strežnik. Tako je pretvorba občutljivih ali zaupnih dokumentov varna.
Kateri izhodni format je proizveden?
.xlsx (Office Open XML), sodoben format Excel. Datoteka se odpre v Excelu 2007+, Google Preglednicah, LibreOffice Calc, Apple Numbers in kateri koli drugi sodobni preglednici.
Ali je moj PDF naložen na strežnik?
Ne. Razčlenjevanje in ustvarjanje Excela potekata v vašem brskalniku z uporabo PDF.js in SheetJS.
Kakšna je največja velikost datoteke?
50 MB. Čas pretvorbe je odvisen od kompleksnosti dokumenta in ne same od velikosti datoteke – 50 MB grafično zahtevnega PDF-ja bo morda trajalo dlje, da se ekstrahira kot besedilnega.
Zakaj so moje številke v napačnih stolpcih?
Skoraj vedno, ker se prag zaznavanja stolpcev pretvornika ni ujemal z dejansko postavitvijo PDF-ja. Odprite izvorni PDF, poglejte, kje se stolpci vizualno lomijo, in po potrebi ročno premaknite celice v Excelu.