PDF sa Converter ng Excel (XLSX).
I-extract ang mga talahanayan at text mula sa PDF at i-convert ang mga ito sa Excel XLSX spreadsheet nang secure sa iyong browser.
I-drop ang PDF file dito
o i-click upang pumili ng file
I-extract ang mga talahanayan at text mula sa PDF at i-convert ang mga ito sa Excel XLSX spreadsheet nang secure sa iyong browser.
o i-click upang pumili ng file
Ang pagkuha ng tabular na data mula sa isang PDF at sa isang spreadsheet ay isa sa mga pinakakaraniwang daloy ng trabaho ng dokumento sa mga opisina na humahawak ng mga invoice, ulat sa pananalapi, papel na pang-agham, at data ng pamahalaan. Ang format na PDF ay hindi katutubong nauunawaan ang mga talahanayan - naglalarawan lamang ito ng mga posisyon ng glyph sa isang pahina - kaya ang pag-convert sa Excel ay nangangailangan ng paghihinuha ng istraktura ng talahanayan mula sa geometry ng teksto. Kung saan ang isang cell ay nagtatapos at ang susunod na nagsisimula ay dapat hulaan mula sa pahalang na whitespace; kung saan nagtatapos ang isang row at nagsisimula ang susunod, mula sa patayong whitespace.
Ibina-parse ng tool na ito ang PDF gamit ang PDF.js, kinukuha ang mga text item kasama ng mga bounding box ng mga ito, at pinag-cluster ang mga item sa mga row at column batay sa posisyon. Ang nakitang talahanayan ay isinulat sa isang Excel workbook gamit ang SheetJS xlsx library. Ang output ay isang karaniwang .xlsx file na bubukas sa Excel, Google Sheets, Numbers, o anumang iba pang spreadsheet na application.
Talagang mahirap ang pagkuha ng PDF table, at walang extractor ang gumagawa ng perpektong resulta sa bawat PDF. Malinis na nagko-convert ang mga talahanayan na may pare-parehong mga hangganan ng column, walang pinagsamang mga cell, at malinaw na vertical alignment. Ang mga talahanayan na may pinagsamang mga cell, multi-line na entry, footnote, o hindi pangkaraniwang mga layout ay karaniwang nangangailangan ng manual na paglilinis pagkatapos ng pagkuha. Magplano para sa pagsusuri.
Ang dahilan ay halos palaging pagsusuri. Ang data na nakulong sa isang PDF ay hindi maaaring pagbukud-bukurin, i-filter, i-summed, i-chart, o i-pivot. Kapag nasa Excel na ito, magiging available ang bawat karaniwang pagpapatakbo ng spreadsheet — at magbubukas iyon ng pagkakaiba sa pagitan ng pagtitig sa isang static na ulat at aktwal na pagtatrabaho sa mga numerong nasa loob nito.
Imposible ang maramihang data work sa PDF. Ang pagsasama-sama ng mga quarterly na numero sa maraming ulat sa PDF, paghahambing ng mga line item sa mga vendor, o paghila ng mga partikular na column para sa downstream na pagsusuri, lahat ay nangangailangan ng pagkuha ng data sa isang format na sumusuporta sa mga operasyong iyon. Excel at CSV ang mga format na iyon. Ang conversion ay ang tulay.
Mag-drop ng PDF na naglalaman ng tabular data, kumuha ng workbook na may bawat talahanayan sa sarili nitong sheet.
Inilalantad ng PDF.js ang isang getTextContent API na nagbabalik ng mga text item kasama ng kanilang mga bounding box. Ang bawat item ay may string, isang transform matrix (para sa posisyon at pag-ikot), at lapad/taas. Ang converter ay nag-uuri ng mga item ayon sa Y-coordinate upang matukoy ang mga linya, pagkatapos ay sa loob ng bawat linya ng X-coordinate. Ang mga item sa halos magkatulad na posisyon ng Y ay bumubuo ng isang row.
Ang pag-detect ng column ay gumagamit ng gap analysis: ang X-distansya sa pagitan ng magkakasunod na item sa isang row ay nagpapahiwatig kung sila ay kabilang sa parehong cell o katabing mga cell. Ang isang gap na mas malaki kaysa sa isang threshold (karaniwang 1-2 character na lapad) ay nagpapahiwatig ng hangganan ng column. Ang pag-tune ng threshold ay nakikipagpalitan sa pagitan ng pagsasama-sama ng mga katabing column at paghahati ng mga solong column.
Gumagamit ang Excel output ng SheetJS para bumuo ng workbook sa memorya, kung saan ang bawat nakitang talahanayan sa sarili nitong sheet na pinangalanang Sheet1, Sheet2, atbp. Ang workbook ay naka-serialize sa .xlsx (Office Open XML) na format at inaalok bilang download. Ang resulta ay bubukas sa Excel 2007+, Google Sheets, LibreOffice Calc, at Apple Numbers.