PDF uz Excel (XLSX) pārveidotājs
Izņemiet tabulas un tekstu no PDF un droši pārveidojiet tos par Excel XLSX izklājlapām savā pārlūkprogrammā.
Nometiet PDF failu šeit
vai noklikšķiniet, lai atlasītu failu
Izņemiet tabulas un tekstu no PDF un droši pārveidojiet tos par Excel XLSX izklājlapām savā pārlūkprogrammā.
vai noklikšķiniet, lai atlasītu failu
Tabulu datu izvilkšana no PDF faila izklājlapā ir viena no visizplatītākajām dokumentu darbplūsmām birojos, kas apstrādā rēķinus, finanšu pārskatus, zinātniskos darbus un valdības datus. PDF formāts sākotnēji nesaprot tabulas — tas tikai apraksta glifu pozīcijas lapā, tāpēc, lai konvertētu uz Excel, tabulas struktūra ir jāizsecina no teksta ģeometrijas. Kur beidzas viena šūna un sākas nākamā, ir jāuzmin no horizontālās atstarpes; kur beidzas viena rinda un sākas nākamā, no vertikālās atstarpes.
Šis rīks parsē PDF failu, izmantojot PDF.js, izvelk teksta vienumus ar to ierobežojošajiem lodziņiem un sagrupē vienumus rindās un kolonnās, pamatojoties uz atrašanās vietu. Noteiktā tabula tiek ierakstīta Excel darbgrāmatā, izmantojot SheetJS xlsx bibliotēku. Izvade ir standarta .xlsx fails, kas tiek atvērts programmā Excel, Google izklājlapas, Numbers vai jebkurā citā izklājlapu lietojumprogrammā.
PDF tabulas izvilkšana ir patiešām grūta, un neviens ekstraktors nesniedz perfektus rezultātus katrā PDF failā. Tabulas ar konsekventām kolonnu robežām, bez sapludinātām šūnām un skaidru vertikālo līdzinājumu pārvērš tīri. Tabulas ar sapludinātām šūnām, vairāku rindiņu ierakstiem, zemsvītras piezīmēm vai neparastu izkārtojumu parasti ir manuāli jātīra pēc ekstrakcijas. Plāns pārskatīšanai.
Iemesls gandrīz vienmēr ir analīze. Datus, kas ir iesprostoti PDF failā, nevar kārtot, filtrēt, summēt, izveidot diagrammu vai pagriezt. Kad tas ir pieejams programmā Excel, kļūst pieejamas visas standarta izklājlapas darbības — un tas atklāj atšķirību starp skatīšanos statiskā atskaitē un faktisko darbu ar tajā esošajiem skaitļiem.
Lielapjoma datu apstrāde PDF formātā nav iespējama. Lai apkopotu ceturkšņa skaitļus vairākos PDF pārskatos, salīdzinātu rindu elementus starp piegādātājiem vai izvilktu noteiktas kolonnas pakārtotajai analīzei, ir nepieciešams iegūt datus formātā, kas atbalsta šīs darbības. Excel un CSV ir tie formāti. Pārvēršana ir tilts.
Nometiet PDF failu, kurā ir tabulas dati, iegūstiet darbgrāmatu ar katru tabulu savā lapā.
PDF.js atklāj getTextContent API, kas atgriež teksta vienumus ar to ierobežojošajiem lodziņiem. Katram vienumam ir virkne, transformācijas matrica (pozīcijai un pagriešanai) un platums/augstums. Pārveidotājs kārto vienumus pēc Y koordinātas, lai identificētu rindas, pēc tam katrā rindā — pēc X koordinātas. Vienumi, kas atrodas ļoti līdzīgās Y pozīcijās, veido rindu.
Kolonnu noteikšana izmanto atstarpes analīzi: X attālums starp secīgiem vienumiem rindā norāda, vai tie pieder tai pašai šūnai vai blakus esošajām šūnām. Atstarpe, kas ir lielāka par slieksni (parasti 1–2 rakstzīmju platums), norāda uz kolonnas robežu. Sliekšņa regulēšana kompensē blakus esošo kolonnu sapludināšanu un atsevišķu kolonnu sadalīšanu.
Excel izvadē tiek izmantots SheetJS, lai izveidotu darbgrāmatu atmiņā, katrai atklātajai tabulai izmantojot savu lapu ar nosaukumu Sheet1, Sheet2 utt. Darbgrāmata ir serializēta .xlsx (Office Open XML) formātā un tiek piedāvāta kā lejupielāde. Rezultāts tiek atvērts programmā Excel 2007+, Google izklājlapās, LibreOffice Calc un Apple Numbers.