Penukar Percuma

PDF ke Penukar Excel (XLSX).

Ekstrak jadual dan teks daripada PDF dan tukarkannya kepada hamparan Excel XLSX dengan selamat dalam penyemak imbas anda.

Lepaskan fail PDF di sini

atau klik untuk memilih fail

Ataupun

Tentang alat ini

Menarik data jadual daripada PDF dan ke dalam hamparan ialah salah satu aliran kerja dokumen yang paling biasa di pejabat yang mengendalikan invois, laporan kewangan, kertas saintifik dan data kerajaan. Format PDF tidak memahami jadual secara asli — ia hanya menerangkan kedudukan glif pada halaman — jadi menukar kepada Excel memerlukan inferens struktur jadual daripada geometri teks. Di mana satu sel berakhir dan seterusnya bermula mesti diteka dari ruang putih mendatar; di mana satu baris berakhir dan seterusnya bermula, dari ruang putih menegak.

Alat ini menghuraikan PDF menggunakan PDF.js, mengekstrak item teks dengan kotak sempadannya dan mengelompokkan item ke dalam baris dan lajur berdasarkan kedudukan. Jadual yang dikesan ditulis pada buku kerja Excel menggunakan perpustakaan SheetJS xlsx. Output ialah fail .xlsx standard yang dibuka dalam Excel, Helaian Google, Nombor atau mana-mana aplikasi hamparan lain.

Pengekstrakan jadual PDF adalah benar-benar sukar, dan tiada pengekstrak menghasilkan hasil yang sempurna pada setiap PDF. Jadual dengan sempadan lajur yang konsisten, tiada sel bercantum dan penjajaran menegak yang jelas bertukar dengan bersih. Jadual dengan sel bercantum, entri berbilang baris, nota kaki atau reka letak yang luar biasa biasanya memerlukan pembersihan manual selepas pengekstrakan. Rancang untuk semakan.

Mengapa Menukar PDF kepada Excel

Sebabnya hampir selalu analisis. Data yang terperangkap dalam PDF tidak boleh diisih, ditapis, dijumlahkan, dicarta atau dipivot. Sebaik sahaja ia berada dalam Excel, setiap operasi hamparan standard menjadi tersedia — dan itu membuka perbezaan antara menatap laporan statik dan benar-benar bekerja dengan nombor di dalamnya.

Kerja data pukal adalah mustahil dalam PDF. Mengagregatkan angka suku tahunan merentas berbilang laporan PDF, membandingkan item baris merentas vendor atau menarik lajur khusus untuk analisis hiliran semuanya memerlukan data dimasukkan ke dalam format yang menyokong operasi tersebut. Excel dan CSV ialah format tersebut. Penukaran adalah jambatan.

Cara menggunakan

Lepaskan PDF yang mengandungi data jadual, dapatkan buku kerja dengan setiap jadual pada helaian sendiri.

  1. Muat naik PDF anda: Seret fail ke dalam kawasan muat naik atau klik untuk menyemak imbas. Fail sehingga 50 MB disokong. PDF mesti mengandungi teks sebenar; PDF yang diimbas memerlukan OCR terlebih dahulu.
  2. Tunggu pengesanan jadual: PDF.js mengekstrak item teks dan kedudukannya. Penukar mengelompokkan item ke dalam baris dan lajur dengan menganalisis penjajaran mendatar dan menegak. Pengesanan mengambil masa beberapa saat untuk dokumen pendek dan lebih lama untuk jadual berbilang halaman.
  3. Semak jadual yang dikesan: Jadual yang dikesan dipratonton sebelum dimuat turun. Sahkan lajur dan baris sepadan dengan apa yang anda jangkakan; salah jajaran di sini menjadi pembersihan Excel kemudian.
  4. Muat turun sebagai XLSX: Penukar menulis setiap jadual yang dikesan pada helaian berasingan dalam buku kerja .xlsx menggunakan SheetJS. Buka hasil dalam Excel atau Helaian Google dan bersihkan sebarang isu yang tinggal.

Kes Penggunaan Biasa

Butiran Teknikal

PDF.js mendedahkan getTextContent API yang mengembalikan item teks dengan kotak sempadannya. Setiap item mempunyai rentetan, matriks transformasi (untuk kedudukan dan putaran), dan lebar/tinggi. Penukar mengisih item mengikut Y-koordinat untuk mengenal pasti garisan, kemudian dalam setiap baris dengan X-koordinat. Item pada kedudukan Y yang hampir sama membentuk satu baris.

Pengesanan lajur menggunakan analisis jurang: jarak X antara item berturut-turut dalam satu baris menunjukkan sama ada ia tergolong dalam sel yang sama atau sel bersebelahan. Jurang yang lebih besar daripada ambang (biasanya 1–2 aksara lebar) menandakan sempadan lajur. Penalaan ambang bertukar antara menggabungkan lajur bersebelahan dan membelah lajur tunggal.

Output Excel menggunakan SheetJS untuk membina buku kerja dalam ingatan, dengan setiap jadual yang dikesan pada helaian sendiri bernama Sheet1, Sheet2, dsb. Buku kerja bersiri kepada format .xlsx (Office Open XML) dan ditawarkan sebagai muat turun. Hasilnya dibuka dalam Excel 2007+, Helaian Google, LibreOffice Calc dan Nombor Apple.

Amalan Terbaik

Soalan lazim

Adakah penukaran PDF kepada EXCEL mengubah kandungan?
Kandungannya dipelihara setepat mungkin. Walau bagaimanapun, sesetengah ciri khusus format mungkin tidak mempunyai persamaan langsung, jadi perbezaan pemformatan kecil boleh berlaku.
Apakah format EXCEL digunakan?
XLSX (Microsoft Excel Spreadsheet) digunakan terutamanya untuk hamparan dengan formula, carta dan analisis data.
Adakah terdapat sebarang batasan yang perlu diketahui?
Fail sehingga 50MB disokong. Fail yang sangat besar atau kompleks mungkin mengambil masa yang lebih lama untuk diproses. Semua penukaran berlaku dalam penyemak imbas anda, jadi kelajuan pemprosesan bergantung pada peranti anda.
Adakah data dokumen saya selamat?
ya. Pemprosesan dokumen berjalan sepenuhnya dalam penyemak imbas anda. Fail anda dan kandungannya tidak pernah dimuat naik ke mana-mana pelayan. Ini menjadikannya selamat untuk menukar dokumen sensitif atau sulit.
Apakah format output yang dihasilkan?
.xlsx (Office Open XML), format Excel moden. Fail dibuka dalam Excel 2007+, Helaian Google, LibreOffice Calc, Nombor Apple dan mana-mana hamparan moden yang lain.
Adakah PDF saya dimuat naik ke pelayan?
Tidak. Penghuraian dan penjanaan Excel berlaku dalam penyemak imbas anda menggunakan PDF.js dan SheetJS.
Apakah saiz fail maksimum?
50 MB. Masa penukaran bergantung pada kerumitan dokumen dan bukannya saiz fail sahaja — PDF 50 MB yang berat grafik mungkin mengambil masa yang lebih lama untuk diekstrak daripada yang berat teks.
Mengapa nombor saya dalam lajur yang salah?
Hampir selalu kerana ambang pengesanan lajur penukar tidak sepadan dengan reka letak sebenar PDF. Buka PDF sumber, lihat di mana lajur pecah secara visual dan alihkan sel secara manual dalam Excel mengikut keperluan.