PDF ke Penukar Excel (XLSX).
Ekstrak jadual dan teks daripada PDF dan tukarkannya kepada hamparan Excel XLSX dengan selamat dalam penyemak imbas anda.
Lepaskan fail PDF di sini
atau klik untuk memilih fail
Ekstrak jadual dan teks daripada PDF dan tukarkannya kepada hamparan Excel XLSX dengan selamat dalam penyemak imbas anda.
atau klik untuk memilih fail
Menarik data jadual daripada PDF dan ke dalam hamparan ialah salah satu aliran kerja dokumen yang paling biasa di pejabat yang mengendalikan invois, laporan kewangan, kertas saintifik dan data kerajaan. Format PDF tidak memahami jadual secara asli — ia hanya menerangkan kedudukan glif pada halaman — jadi menukar kepada Excel memerlukan inferens struktur jadual daripada geometri teks. Di mana satu sel berakhir dan seterusnya bermula mesti diteka dari ruang putih mendatar; di mana satu baris berakhir dan seterusnya bermula, dari ruang putih menegak.
Alat ini menghuraikan PDF menggunakan PDF.js, mengekstrak item teks dengan kotak sempadannya dan mengelompokkan item ke dalam baris dan lajur berdasarkan kedudukan. Jadual yang dikesan ditulis pada buku kerja Excel menggunakan perpustakaan SheetJS xlsx. Output ialah fail .xlsx standard yang dibuka dalam Excel, Helaian Google, Nombor atau mana-mana aplikasi hamparan lain.
Pengekstrakan jadual PDF adalah benar-benar sukar, dan tiada pengekstrak menghasilkan hasil yang sempurna pada setiap PDF. Jadual dengan sempadan lajur yang konsisten, tiada sel bercantum dan penjajaran menegak yang jelas bertukar dengan bersih. Jadual dengan sel bercantum, entri berbilang baris, nota kaki atau reka letak yang luar biasa biasanya memerlukan pembersihan manual selepas pengekstrakan. Rancang untuk semakan.
Sebabnya hampir selalu analisis. Data yang terperangkap dalam PDF tidak boleh diisih, ditapis, dijumlahkan, dicarta atau dipivot. Sebaik sahaja ia berada dalam Excel, setiap operasi hamparan standard menjadi tersedia — dan itu membuka perbezaan antara menatap laporan statik dan benar-benar bekerja dengan nombor di dalamnya.
Kerja data pukal adalah mustahil dalam PDF. Mengagregatkan angka suku tahunan merentas berbilang laporan PDF, membandingkan item baris merentas vendor atau menarik lajur khusus untuk analisis hiliran semuanya memerlukan data dimasukkan ke dalam format yang menyokong operasi tersebut. Excel dan CSV ialah format tersebut. Penukaran adalah jambatan.
Lepaskan PDF yang mengandungi data jadual, dapatkan buku kerja dengan setiap jadual pada helaian sendiri.
PDF.js mendedahkan getTextContent API yang mengembalikan item teks dengan kotak sempadannya. Setiap item mempunyai rentetan, matriks transformasi (untuk kedudukan dan putaran), dan lebar/tinggi. Penukar mengisih item mengikut Y-koordinat untuk mengenal pasti garisan, kemudian dalam setiap baris dengan X-koordinat. Item pada kedudukan Y yang hampir sama membentuk satu baris.
Pengesanan lajur menggunakan analisis jurang: jarak X antara item berturut-turut dalam satu baris menunjukkan sama ada ia tergolong dalam sel yang sama atau sel bersebelahan. Jurang yang lebih besar daripada ambang (biasanya 1–2 aksara lebar) menandakan sempadan lajur. Penalaan ambang bertukar antara menggabungkan lajur bersebelahan dan membelah lajur tunggal.
Output Excel menggunakan SheetJS untuk membina buku kerja dalam ingatan, dengan setiap jadual yang dikesan pada helaian sendiri bernama Sheet1, Sheet2, dsb. Buku kerja bersiri kepada format .xlsx (Office Open XML) dan ditawarkan sebagai muat turun. Hasilnya dibuka dalam Excel 2007+, Helaian Google, LibreOffice Calc dan Nombor Apple.