Besplatni pretvarač

PDF u Excel (XLSX) pretvarač

Ekstrahirajte tablice i tekst iz PDF-a i pretvorite ih u Excel XLSX proračunske tablice na siguran način u svom pregledniku.

Ispustite PDF datoteku ovdje

ili kliknite za odabir datoteke

Ili

O ovom alatu

Izvlačenje tabličnih podataka iz PDF-a u proračunsku tablicu jedan je od najčešćih tijekova rada dokumenata u uredima koji obrađuju fakture, financijska izvješća, znanstvene radove i državne podatke. PDF format izvorno ne razumije tablice — on samo opisuje položaje glifa na stranici — tako da pretvaranje u Excel zahtijeva zaključivanje strukture tablice iz geometrije teksta. Gdje jedna ćelija završava, a sljedeća počinje mora se pogoditi iz vodoravne bjeline; gdje jedan red završava, a sljedeći počinje, od okomitog razmaka.

Ovaj alat analizira PDF pomoću PDF.js, izdvaja tekstualne stavke s njihovim graničnim okvirima i grupira stavke u retke i stupce na temelju položaja. Otkrivena tablica zapisuje se u Excel radnu knjigu pomoću biblioteke SheetJS xlsx. Izlaz je standardna .xlsx datoteka koja se otvara u Excelu, Google tablicama, Numbers ili bilo kojoj drugoj aplikaciji za proračunske tablice.

Ekstrakcija PDF tablice je uistinu teška i nijedan ekstraktor ne daje savršene rezultate na svakom PDF-u. Tablice s dosljednim granicama stupaca, bez spojenih ćelija i jasnim okomitim poravnanjem čisto pretvaraju. Tablice sa spojenim ćelijama, unosima s više redaka, fusnotama ili neobičnim izgledima obično trebaju ručno čišćenje nakon izdvajanja. Plan za pregled.

Zašto pretvoriti PDF u Excel

Razlog je gotovo uvijek analiza. Podaci zarobljeni u PDF-u ne mogu se sortirati, filtrirati, zbrajati, crtati u dijagramu ili zakretati. Nakon što je u Excelu, svaka standardna operacija proračunske tablice postaje dostupna — i to otvara razliku između buljenja u statično izvješće i stvarnog rada s brojevima u njemu.

Skupni rad s podacima nemoguć je u PDF-u. Agregiranje tromjesečnih brojki u višestrukim PDF izvješćima, usporedba stavki među dobavljačima ili izvlačenje određenih stupaca za daljnju analizu zahtijevaju prebacivanje podataka u format koji podržava te operacije. Excel i CSV su ti formati. Pretvorba je most.

Kako koristiti

Ispustite PDF koji sadrži tablične podatke, dobijte radnu knjigu sa svakom tablicom na vlastitom listu.

  1. Učitajte svoj PDF: Povucite datoteku u područje za učitavanje ili kliknite za pregledavanje. Podržane su datoteke do 50 MB. PDF mora sadržavati stvarni tekst; skenirani PDF-ovi prvo trebaju OCR.
  2. Pričekajte otkrivanje tablice: PDF.js izdvaja tekstualne stavke i njihove položaje. Pretvarač grupira stavke u retke i stupce analizirajući vodoravno i okomito poravnanje. Detekcija traje nekoliko sekundi za kratke dokumente i duže za tablice s više stranica.
  3. Pregledajte otkrivene tablice: Otkrivene tablice pregledavaju se prije preuzimanja. Potvrdite da stupci i retci odgovaraju onome što očekujete; neusklađenosti ovdje kasnije postaju čišćenje programa Excel.
  4. Preuzmite kao XLSX: Konvertor zapisuje svaku otkrivenu tablicu na zaseban list u .xlsx radnoj knjizi pomoću SheetJS. Otvorite rezultat u Excelu ili Google tablicama i očistite sve preostale probleme.

Uobičajeni slučajevi upotrebe

Tehnički detalji

PDF.js izlaže getTextContent API koji vraća tekstualne stavke s njihovim graničnim okvirima. Svaka stavka ima niz, matricu transformacije (za položaj i rotaciju) i širinu/visinu. Pretvarač razvrstava stavke prema Y-koordinati kako bi identificirao linije, zatim unutar svake linije prema X-koordinati. Predmeti na vrlo sličnim Y položajima čine red.

Detekcija stupaca koristi analizu praznina: X-udaljenost između uzastopnih stavki u nizu pokazuje pripadaju li istoj ćeliji ili susjednim ćelijama. Razmak veći od praga (obično 1-2 širine znaka) signalizira granicu stupca. Podešavanje praga je kompromis između spajanja susjednih stupaca i razdvajanja pojedinačnih stupaca.

Excel izlaz koristi SheetJS za izradu radne knjige u memoriji, sa svakom otkrivenom tablicom na vlastitom listu pod nazivom Sheet1, Sheet2, itd. Radna knjiga se serijalizira u .xlsx (Office Open XML) format i nudi se kao preuzimanje. Rezultat se otvara u Excelu 2007+, Google tablicama, LibreOffice Calc i Apple Numbers.

Najbolji primjeri iz prakse

Često postavljana pitanja

Mijenja li se sadržaj pretvaranjem PDF-a u EXCEL?
Sadržaj je sačuvan što je točnije moguće. Međutim, neke značajke specifične za format možda nemaju izravne ekvivalente, pa se mogu pojaviti manje razlike u formatiranju.
Za što se koristi EXCEL format?
XLSX (Microsoft Excel Spreadsheet) prvenstveno se koristi za proračunske tablice s formulama, grafikonima i analizom podataka.
Postoje li neka ograničenja kojih treba biti svjestan?
Podržane su datoteke do 50 MB. Obrada vrlo velikih ili složenih datoteka može potrajati dulje. Sve pretvorbe odvijaju se u vašem pregledniku, tako da brzina obrade ovisi o vašem uređaju.
Jesu li podaci mojih dokumenata sigurni?
da Obrada dokumenata u potpunosti se odvija u vašem pregledniku. Vaše datoteke i njihov sadržaj nikada se ne učitavaju ni na jedan poslužitelj. To čini sigurnim pretvaranje osjetljivih ili povjerljivih dokumenata.
Koji se izlazni format proizvodi?
.xlsx (Office Open XML), moderni Excel format. Datoteka se otvara u programu Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers i bilo kojoj drugoj modernoj proračunskoj tablici.
Je li moj PDF prenesen na poslužitelj?
Ne. Raščlanjivanje i generiranje programa Excel odvija se u vašem pregledniku pomoću PDF.js i SheetJS.
Koja je najveća veličina datoteke?
50 MB. Vrijeme pretvorbe ovisi o složenosti dokumenta, a ne o samoj veličini datoteke — 50 MB teškog PDF-a može potrajati dulje za izdvajanje od PDF-a koji je težak za tekst.
Zašto su moji brojevi u krivim stupcima?
Gotovo uvijek jer prag detekcije stupca pretvarača nije odgovarao stvarnom izgledu PDF-a. Otvorite izvorni PDF, pogledajte gdje se stupci vizualno lome i ručno pomaknite ćelije u Excelu prema potrebi.