O tem orodju
Vlečenje tabelaričnih podatkov iz PDF-ja v preglednico je eden najpogostejših delovnih tokov dokumentov v pisarnah, ki obravnavajo račune, finančna poročila, znanstvene članke in vladne podatke. Format PDF izvorno ne razume tabel – opisuje le položaje glifov na strani – zato pretvorba v Excel zahteva sklepanje strukture tabele iz geometrije besedila. Kje se ena celica konča in kje se začne naslednja, je treba uganiti iz vodoravnega presledka; kjer se ena vrstica konča in naslednja začne, od navpičnega presledka.
To orodje razčleni PDF z uporabo PDF.js, izvleče besedilne elemente z njihovimi omejevalnimi okvirji in razvrsti elemente v vrstice in stolpce glede na položaj. Zaznana tabela je zapisana v Excelov delovni zvezek s pomočjo knjižnice SheetJS xlsx. Rezultat je standardna datoteka .xlsx, ki se odpre v Excelu, Google Preglednicah, Numbers ali kateri koli drugi aplikaciji za preglednice.
Ekstrahiranje tabel PDF je resnično težko in noben ekstraktor ne daje popolnih rezultatov za vsak PDF. Tabele z doslednimi mejami stolpcev, brez spojenih celic in jasno navpično poravnavo pretvarjajo čisto. Tabele s spojenimi celicami, večvrstičnimi vnosi, sprotnimi opombami ali nenavadnimi postavitvami običajno potrebujejo ročno čiščenje po ekstrakciji. Načrt za pregled.
Zakaj pretvoriti PDF v Excel
Razlog je skoraj vedno analiza. Podatkov, ujetih v dokumentu PDF, ni mogoče razvrstiti, filtrirati, sešteti, prikazati na grafikonu ali vrteti. Ko je v Excelu, postanejo na voljo vse standardne operacije preglednice – in to odpre razliko med strmenjem v statično poročilo in dejanskim delom s številkami v njem.
V PDF-ju delo z množičnimi podatki ni mogoče. Združevanje četrtletnih številk v več poročilih PDF, primerjava vrstičnih postavk med ponudniki ali vlečenje določenih stolpcev za nadaljnjo analizo zahteva, da se podatki prenesejo v obliko, ki podpira te operacije. Ti formati sta Excel in CSV. Spreobrnjenje je most.
Kako uporabljati
Spustite PDF, ki vsebuje tabelarne podatke, pridobite delovni zvezek z vsako tabelo na svojem listu.
- Naložite svoj PDF: Povlecite datoteko v območje za nalaganje ali kliknite za brskanje. Podprte so datoteke do 50 MB. PDF mora vsebovati dejansko besedilo; skenirani PDF-ji najprej potrebujejo OCR.
- Počakajte na zaznavo tabele: PDF.js izvleče besedilne elemente in njihove položaje. Pretvornik z analizo vodoravne in navpične poravnave združuje elemente v vrstice in stolpce. Zaznavanje traja nekaj sekund za kratke dokumente in dlje za večstranske tabele.
- Pregled zaznanih tabel: Zaznane tabele si pred prenosom ogledajo predogled. Potrdite, da se stolpci in vrstice ujemajo s pričakovanji; neporavnanosti tukaj pozneje postanejo čiščenje Excela.
- Prenesite kot XLSX: Pretvornik zapiše vsako zaznano tabelo na ločen list v delovnem zvezku .xlsx s pomočjo SheetJS. Odprite rezultat v Excelu ali Google Preglednicah in počistite morebitne preostale težave.
Tehnične podrobnosti
PDF.js razkriva API getTextContent, ki vrne besedilne elemente z njihovimi omejevalnimi okvirji. Vsak element ima niz, transformacijsko matriko (za položaj in vrtenje) ter širino/višino. Pretvornik razvrsti elemente po Y-koordinati, da identificira črte, nato pa znotraj vsake vrstice po X-koordinati. Predmeti na zelo podobnih položajih Y tvorijo vrsto.
Zaznavanje stolpcev uporablja analizo vrzeli: razdalja X med zaporednimi elementi v vrsti kaže, ali pripadajo isti celici ali sosednjim celicam. Vrzel, večja od praga (običajno širine 1–2 znakov), označuje mejo stolpca. Uravnavanje praga je kompromis med združevanjem sosednjih stolpcev in delitvijo posameznih stolpcev.
Excelov izhod uporablja SheetJS za izdelavo delovnega zvezka v pomnilniku, pri čemer je vsaka zaznana tabela na svojem listu z imenom Sheet1, Sheet2 itd. Delovni zvezek je serializiran v format .xlsx (Office Open XML) in na voljo kot prenos. Rezultat se odpre v Excelu 2007+, Google Preglednicah, LibreOffice Calc in Apple Numbers.
Pogosta vprašanja
- Ali pretvorba PDF v EXCEL spremeni vsebino?
- Vsebina je ohranjena čim bolj natančno. Vendar pa nekatere funkcije, specifične za obliko, morda nimajo neposrednih ustreznikov, zato lahko pride do manjših razlik v oblikovanju.
- Za kaj se uporablja format EXCEL?
- XLSX (Microsoft Excel Spreadsheet) se uporablja predvsem za preglednice s formulami, grafikoni in analizo podatkov.
- Ali obstajajo kakšne omejitve, na katere se morate zavedati?
- Podprte so datoteke do 50 MB. Obdelava zelo velikih ali zapletenih datotek lahko traja dlje. Vse pretvorbe se zgodijo v vašem brskalniku, zato je hitrost obdelave odvisna od vaše naprave.
- Ali so podatki mojih dokumentov varni?
- ja Obdelava dokumentov poteka v celoti v vašem brskalniku. Vaše datoteke in njihova vsebina se nikoli ne naložijo na noben strežnik. Tako je pretvorba občutljivih ali zaupnih dokumentov varna.
- Kateri izhodni format je proizveden?
- .xlsx (Office Open XML), sodoben format Excel. Datoteka se odpre v Excelu 2007+, Google Preglednicah, LibreOffice Calc, Apple Numbers in kateri koli drugi sodobni preglednici.
- Ali je moj PDF naložen na strežnik?
- Ne. Razčlenjevanje in ustvarjanje Excela potekata v vašem brskalniku z uporabo PDF.js in SheetJS.
- Kakšna je največja velikost datoteke?
- 50 MB. Čas pretvorbe je odvisen od kompleksnosti dokumenta in ne same od velikosti datoteke – 50 MB grafično zahtevnega PDF-ja bo morda trajalo dlje, da se ekstrahira kot besedilnega.
- Zakaj so moje številke v napačnih stolpcih?
- Skoraj vedno, ker se prag zaznavanja stolpcev pretvornika ni ujemal z dejansko postavitvijo PDF-ja. Odprite izvorni PDF, poglejte, kje se stolpci vizualno lomijo, in po potrebi ročno premaknite celice v Excelu.
Related Articles
File FormatsImage Format Guide: JPG vs PNG vs WebP vs SVG Explained
Learn the differences between popular image formats, when to use each one, and how to convert between them for optimal quality and file size.
8 min readFile FormatsThe Complete Guide to PDF Conversion: Methods, Tools, and Best Practices
Everything you need to know about converting PDFs to other formats and vice versa. Covers PDF to Word, Excel, PNG, and more.
10 min readFile FormatsDocument Formats Explained: Word, PDF, TXT, and When to Use Each
Understand the differences between document formats like DOCX, PDF, TXT, RTF, and ODT. Learn which format to use for different purposes and how to convert between them.
8 min readFile FormatsAudio and Video Formats Explained: MP3, MP4, WAV, WebM, and Beyond
Understand the differences between audio and video formats, codecs, containers, and how to choose the right format for your needs.
9 min readPrivacy & SecurityHow to Convert Files Online Safely: Privacy and Security Guide
Understand the risks of online file conversion and learn how browser-based tools keep your data private. A guide to safe file handling.
7 min readPrivacy & TechnologyWhy Browser-Based Tools Are the Future: No Installs, No Uploads, No Risk
Discover why browser-based tools are replacing desktop software and cloud uploads. Learn how client-side processing keeps your files private while delivering powerful functionality.
7 min read