Libreng Converter

PDF sa Converter ng Excel (XLSX).

I-extract ang mga talahanayan at text mula sa PDF at i-convert ang mga ito sa Excel XLSX spreadsheet nang secure sa iyong browser.

I-drop ang PDF file dito

o i-click upang pumili ng file

O kaya

Tungkol sa tool na ito

Ang pagkuha ng tabular na data mula sa isang PDF at sa isang spreadsheet ay isa sa mga pinakakaraniwang daloy ng trabaho ng dokumento sa mga opisina na humahawak ng mga invoice, ulat sa pananalapi, papel na pang-agham, at data ng pamahalaan. Ang format na PDF ay hindi katutubong nauunawaan ang mga talahanayan - naglalarawan lamang ito ng mga posisyon ng glyph sa isang pahina - kaya ang pag-convert sa Excel ay nangangailangan ng paghihinuha ng istraktura ng talahanayan mula sa geometry ng teksto. Kung saan ang isang cell ay nagtatapos at ang susunod na nagsisimula ay dapat hulaan mula sa pahalang na whitespace; kung saan nagtatapos ang isang row at nagsisimula ang susunod, mula sa patayong whitespace.

Ibina-parse ng tool na ito ang PDF gamit ang PDF.js, kinukuha ang mga text item kasama ng mga bounding box ng mga ito, at pinag-cluster ang mga item sa mga row at column batay sa posisyon. Ang nakitang talahanayan ay isinulat sa isang Excel workbook gamit ang SheetJS xlsx library. Ang output ay isang karaniwang .xlsx file na bubukas sa Excel, Google Sheets, Numbers, o anumang iba pang spreadsheet na application.

Talagang mahirap ang pagkuha ng PDF table, at walang extractor ang gumagawa ng perpektong resulta sa bawat PDF. Malinis na nagko-convert ang mga talahanayan na may pare-parehong mga hangganan ng column, walang pinagsamang mga cell, at malinaw na vertical alignment. Ang mga talahanayan na may pinagsamang mga cell, multi-line na entry, footnote, o hindi pangkaraniwang mga layout ay karaniwang nangangailangan ng manual na paglilinis pagkatapos ng pagkuha. Magplano para sa pagsusuri.

Bakit I-convert ang PDF sa Excel

Ang dahilan ay halos palaging pagsusuri. Ang data na nakulong sa isang PDF ay hindi maaaring pagbukud-bukurin, i-filter, i-summed, i-chart, o i-pivot. Kapag nasa Excel na ito, magiging available ang bawat karaniwang pagpapatakbo ng spreadsheet — at magbubukas iyon ng pagkakaiba sa pagitan ng pagtitig sa isang static na ulat at aktwal na pagtatrabaho sa mga numerong nasa loob nito.

Imposible ang maramihang data work sa PDF. Ang pagsasama-sama ng mga quarterly na numero sa maraming ulat sa PDF, paghahambing ng mga line item sa mga vendor, o paghila ng mga partikular na column para sa downstream na pagsusuri, lahat ay nangangailangan ng pagkuha ng data sa isang format na sumusuporta sa mga operasyong iyon. Excel at CSV ang mga format na iyon. Ang conversion ay ang tulay.

Paano gamitin

Mag-drop ng PDF na naglalaman ng tabular data, kumuha ng workbook na may bawat talahanayan sa sarili nitong sheet.

  1. I-upload ang iyong PDF: I-drag ang file sa lugar ng pag-upload o i-click upang mag-browse. Sinusuportahan ang mga file na hanggang 50 MB. Ang PDF ay dapat maglaman ng aktwal na teksto; kailangan muna ng OCR ang mga na-scan na PDF.
  2. Maghintay para sa pagtuklas ng talahanayan: Kinukuha ng PDF.js ang mga text item at ang kanilang mga posisyon. Kino-cluster ng converter ang mga item sa mga row at column sa pamamagitan ng pagsusuri ng pahalang at patayong pagkakahanay. Ang pagtuklas ay tumatagal ng ilang segundo para sa mga maiikling dokumento at mas matagal para sa mga multi-page na talahanayan.
  3. Suriin ang mga nakitang talahanayan: Ang mga nakitang talahanayan ay na-preview bago i-download. Kumpirmahin na tumutugma ang mga column at row sa inaasahan mo; ang mga misalignment dito ay nagiging Excel cleanup mamaya.
  4. I-download bilang XLSX: Isinulat ng converter ang bawat nakitang talahanayan sa isang hiwalay na sheet sa isang .xlsx workbook gamit ang SheetJS. Buksan ang resulta sa Excel o Google Sheets at linisin ang anumang natitirang isyu.

Mga Karaniwang Paggamit

Mga Detalye ng Teknikal

Inilalantad ng PDF.js ang isang getTextContent API na nagbabalik ng mga text item kasama ng kanilang mga bounding box. Ang bawat item ay may string, isang transform matrix (para sa posisyon at pag-ikot), at lapad/taas. Ang converter ay nag-uuri ng mga item ayon sa Y-coordinate upang matukoy ang mga linya, pagkatapos ay sa loob ng bawat linya ng X-coordinate. Ang mga item sa halos magkatulad na posisyon ng Y ay bumubuo ng isang row.

Ang pag-detect ng column ay gumagamit ng gap analysis: ang X-distansya sa pagitan ng magkakasunod na item sa isang row ay nagpapahiwatig kung sila ay kabilang sa parehong cell o katabing mga cell. Ang isang gap na mas malaki kaysa sa isang threshold (karaniwang 1-2 character na lapad) ay nagpapahiwatig ng hangganan ng column. Ang pag-tune ng threshold ay nakikipagpalitan sa pagitan ng pagsasama-sama ng mga katabing column at paghahati ng mga solong column.

Gumagamit ang Excel output ng SheetJS para bumuo ng workbook sa memorya, kung saan ang bawat nakitang talahanayan sa sarili nitong sheet na pinangalanang Sheet1, Sheet2, atbp. Ang workbook ay naka-serialize sa .xlsx (Office Open XML) na format at inaalok bilang download. Ang resulta ay bubukas sa Excel 2007+, Google Sheets, LibreOffice Calc, at Apple Numbers.

Pinakamahusay na Kasanayan

Mga madalas itanong

Binabago ba ng pag-convert ng PDF sa EXCEL ang nilalaman?
Ang nilalaman ay pinapanatili nang tumpak hangga't maaari. Gayunpaman, maaaring walang direktang katumbas ang ilang feature na partikular sa format, kaya maaaring magkaroon ng maliliit na pagkakaiba sa pag-format.
Ano ang ginagamit na format ng EXCEL?
Ang XLSX (Microsoft Excel Spreadsheet) ay pangunahing ginagamit para sa mga spreadsheet na may mga formula, chart, at pagsusuri ng data.
Mayroon bang anumang mga limitasyon na dapat malaman?
Sinusuportahan ang mga file na hanggang 50MB. Maaaring mas matagal bago maproseso ang napakalaki o kumplikadong mga file. Ang lahat ng conversion ay nangyayari sa iyong browser, kaya ang bilis ng pagproseso ay nakasalalay sa iyong device.
Secure ba ang data ng aking dokumento?
Oo. Ang pagpoproseso ng dokumento ay ganap na tumatakbo sa iyong browser. Ang iyong mga file at ang kanilang mga nilalaman ay hindi kailanman ina-upload sa anumang server. Ginagawa nitong ligtas ang pag-convert ng mga sensitibo o kumpidensyal na dokumento.
Anong format ng output ang ginawa?
.xlsx (Office Open XML), ang modernong Excel format. Ang file ay bubukas sa Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers, at anumang iba pang modernong spreadsheet.
Na-upload ba ang aking PDF sa isang server?
Hindi. Ang pag-parse at pagbuo ng Excel ay nangyayari sa iyong browser gamit ang PDF.js at SheetJS.
Ano ang maximum na laki ng file?
50 MB. Ang tagal ng conversion ay depende sa pagiging kumplikado ng dokumento sa halip na sa laki ng file lamang — ang isang graphic-heavy na 50 MB na PDF ay maaaring mas matagal ma-extract kaysa sa isang mabigat sa text.
Bakit nasa maling column ang aking mga numero?
Halos palaging dahil hindi tumugma ang threshold ng pagtukoy ng column ng converter sa aktwal na layout ng PDF. Buksan ang pinagmulang PDF, tingnan kung saan nakikita ang mga column, at manu-manong inilipat ang mga cell sa Excel kung kinakailangan.