Bezmaksas pārveidotājs

PDF uz Excel (XLSX) pārveidotājs

Izņemiet tabulas un tekstu no PDF un droši pārveidojiet tos par Excel XLSX izklājlapām savā pārlūkprogrammā.

Nometiet PDF failu šeit

vai noklikšķiniet, lai atlasītu failu

Or

Par šo rīku

Tabulu datu izvilkšana no PDF faila izklājlapā ir viena no visizplatītākajām dokumentu darbplūsmām birojos, kas apstrādā rēķinus, finanšu pārskatus, zinātniskos darbus un valdības datus. PDF formāts sākotnēji nesaprot tabulas — tas tikai apraksta glifu pozīcijas lapā, tāpēc, lai konvertētu uz Excel, tabulas struktūra ir jāizsecina no teksta ģeometrijas. Kur beidzas viena šūna un sākas nākamā, ir jāuzmin no horizontālās atstarpes; kur beidzas viena rinda un sākas nākamā, no vertikālās atstarpes.

Šis rīks parsē PDF failu, izmantojot PDF.js, izvelk teksta vienumus ar to ierobežojošajiem lodziņiem un sagrupē vienumus rindās un kolonnās, pamatojoties uz atrašanās vietu. Noteiktā tabula tiek ierakstīta Excel darbgrāmatā, izmantojot SheetJS xlsx bibliotēku. Izvade ir standarta .xlsx fails, kas tiek atvērts programmā Excel, Google izklājlapas, Numbers vai jebkurā citā izklājlapu lietojumprogrammā.

PDF tabulas izvilkšana ir patiešām grūta, un neviens ekstraktors nesniedz perfektus rezultātus katrā PDF failā. Tabulas ar konsekventām kolonnu robežām, bez sapludinātām šūnām un skaidru vertikālo līdzinājumu pārvērš tīri. Tabulas ar sapludinātām šūnām, vairāku rindiņu ierakstiem, zemsvītras piezīmēm vai neparastu izkārtojumu parasti ir manuāli jātīra pēc ekstrakcijas. Plāns pārskatīšanai.

Kāpēc konvertēt PDF uz Excel

Iemesls gandrīz vienmēr ir analīze. Datus, kas ir iesprostoti PDF failā, nevar kārtot, filtrēt, summēt, izveidot diagrammu vai pagriezt. Kad tas ir pieejams programmā Excel, kļūst pieejamas visas standarta izklājlapas darbības — un tas atklāj atšķirību starp skatīšanos statiskā atskaitē un faktisko darbu ar tajā esošajiem skaitļiem.

Lielapjoma datu apstrāde PDF formātā nav iespējama. Lai apkopotu ceturkšņa skaitļus vairākos PDF pārskatos, salīdzinātu rindu elementus starp piegādātājiem vai izvilktu noteiktas kolonnas pakārtotajai analīzei, ir nepieciešams iegūt datus formātā, kas atbalsta šīs darbības. Excel un CSV ir tie formāti. Pārvēršana ir tilts.

Kā lietot

Nometiet PDF failu, kurā ir tabulas dati, iegūstiet darbgrāmatu ar katru tabulu savā lapā.

  1. Augšupielādējiet savu PDF failu: Velciet failu uz augšupielādes apgabalu vai noklikšķiniet, lai pārlūkotu. Tiek atbalstīti faili līdz 50 MB. PDF failā jābūt faktiskajam tekstam; skenētajiem PDF failiem vispirms ir nepieciešama OCR.
  2. Pagaidiet tabulas noteikšanu: PDF.js izvelk teksta vienumus un to pozīcijas. Pārveidotājs sagrupē vienumus rindās un kolonnās, analizējot horizontālo un vertikālo izlīdzināšanu. Īsiem dokumentiem noteikšana aizņem sekundes, bet vairāku lappušu tabulām – ilgāk.
  3. Pārskatiet atrastās tabulas: Atklātās tabulas tiek priekšskatītas pirms lejupielādes. Apstipriniet, ka kolonnas un rindas atbilst gaidītajam; neatbilstības šeit kļūst par Excel tīrīšanu vēlāk.
  4. Lejupielādēt kā XLSX: Pārveidotājs ieraksta katru noteikto tabulu atsevišķā lapā .xlsx darbgrāmatā, izmantojot SheetJS. Atveriet rezultātu programmā Excel vai Google izklājlapas un notīriet visas atlikušās problēmas.

Bieži lietojami gadījumi

Tehniskās detaļas

PDF.js atklāj getTextContent API, kas atgriež teksta vienumus ar to ierobežojošajiem lodziņiem. Katram vienumam ir virkne, transformācijas matrica (pozīcijai un pagriešanai) un platums/augstums. Pārveidotājs kārto vienumus pēc Y koordinātas, lai identificētu rindas, pēc tam katrā rindā — pēc X koordinātas. Vienumi, kas atrodas ļoti līdzīgās Y pozīcijās, veido rindu.

Kolonnu noteikšana izmanto atstarpes analīzi: X attālums starp secīgiem vienumiem rindā norāda, vai tie pieder tai pašai šūnai vai blakus esošajām šūnām. Atstarpe, kas ir lielāka par slieksni (parasti 1–2 rakstzīmju platums), norāda uz kolonnas robežu. Sliekšņa regulēšana kompensē blakus esošo kolonnu sapludināšanu un atsevišķu kolonnu sadalīšanu.

Excel izvadē tiek izmantots SheetJS, lai izveidotu darbgrāmatu atmiņā, katrai atklātajai tabulai izmantojot savu lapu ar nosaukumu Sheet1, Sheet2 utt. Darbgrāmata ir serializēta .xlsx (Office Open XML) formātā un tiek piedāvāta kā lejupielāde. Rezultāts tiek atvērts programmā Excel 2007+, Google izklājlapās, LibreOffice Calc un Apple Numbers.

Labākā prakse

Bieži uzdotie jautājumi

Vai PDF konvertēšana uz EXCEL maina saturu?
Saturs tiek saglabāts pēc iespējas precīzāk. Tomēr dažiem formātam raksturīgajiem līdzekļiem var nebūt tiešu ekvivalentu, tāpēc var rasties nelielas formatēšanas atšķirības.
Kam tiek izmantots EXCEL formāts?
XLSX (Microsoft Excel izklājlapa) galvenokārt tiek izmantots izklājlapām ar formulām, diagrammām un datu analīzi.
Vai ir kādi ierobežojumi, kas jāzina?
Tiek atbalstīti faili līdz 50 MB. Ļoti lielu vai sarežģītu failu apstrāde var aizņemt ilgāku laiku. Visas konversijas notiek jūsu pārlūkprogrammā, tāpēc apstrādes ātrums ir atkarīgs no jūsu ierīces.
Vai mani dokumenta dati ir droši?
Jā. Dokumentu apstrāde pilnībā darbojas jūsu pārlūkprogrammā. Jūsu faili un to saturs nekad netiek augšupielādēti nevienā serverī. Tādējādi ir droši konvertēt sensitīvus vai konfidenciālus dokumentus.
Kāds izvades formāts tiek ražots?
.xlsx (Office Open XML), mūsdienīgs Excel formāts. Fails tiek atvērts programmā Excel 2007+, Google izklājlapās, LibreOffice Calc, Apple Numbers un jebkurā citā modernā izklājlapā.
Vai mans PDF ir augšupielādēts serverī?
Nē. Parsēšana un Excel ģenerēšana notiek jūsu pārlūkprogrammā, izmantojot PDF.js un SheetJS.
Kāds ir maksimālais faila lielums?
50 MB. Konversijas laiks ir atkarīgs no dokumenta sarežģītības, nevis tikai no faila lieluma — grafiski smaga 50 MB PDF izvilkšana var aizņemt ilgāku laiku nekā teksta, kurā ir daudz teksta.
Kāpēc mani skaitļi ir nepareizās kolonnās?
Gandrīz vienmēr, jo pārveidotāja kolonnas noteikšanas slieksnis neatbilda PDF faktiskajam izkārtojumam. Atveriet avota PDF failu, apskatiet, kur kolonnas vizuāli pārtrauc, un pēc vajadzības manuāli pārvietojiet šūnas programmā Excel.