PDF ke Excel (XLSX)
Ekstrak tabel dan teks dari PDF dan konversikan ke spreadsheet Excel XLSX dengan aman di browser Anda secara gratis.
Lepaskan file PDF di sini
atau klik untuk memilih file
Ekstrak tabel dan teks dari PDF dan konversikan ke spreadsheet Excel XLSX dengan aman di browser Anda secara gratis.
atau klik untuk memilih file
Menarik data tabular dari PDF dan ke dalam spreadsheet adalah salah satu alur kerja dokumen paling umum di kantor yang menangani faktur, laporan keuangan, makalah ilmiah, dan data pemerintah. Format PDF tidak memahami tabel secara asli — format ini hanya mendeskripsikan posisi mesin terbang pada halaman — jadi mengonversi ke Excel memerlukan kesimpulan struktur tabel dari geometri teks. Di mana satu sel berakhir dan sel berikutnya dimulai harus ditebak dari spasi horizontal; di mana satu baris berakhir dan baris berikutnya dimulai, dari spasi vertikal.
Alat ini mem-parsing PDF menggunakan PDF.js, mengekstrak item teks dengan kotak pembatasnya, dan mengelompokkan item ke dalam baris dan kolom berdasarkan posisinya. Tabel yang terdeteksi ditulis ke buku kerja Excel menggunakan pustaka SheetJS xlsx. Outputnya adalah file .xlsx standar yang dibuka di Excel, Google Sheets, Numbers, atau aplikasi spreadsheet lainnya.
Ekstraksi tabel PDF benar-benar sulit, dan tidak ada ekstraktor yang memberikan hasil sempurna pada setiap PDF. Tabel dengan batas kolom yang konsisten, tidak ada sel yang digabungkan, dan perataan vertikal yang jelas dapat dikonversi dengan rapi. Tabel dengan sel gabungan, entri multi-baris, catatan kaki, atau tata letak yang tidak biasa biasanya memerlukan pembersihan manual setelah ekstraksi. Rencanakan untuk ditinjau.
Alasannya hampir selalu analisis. Data yang terperangkap dalam PDF tidak dapat diurutkan, difilter, dijumlahkan, dipetakan, atau diputar. Setelah berada di Excel, setiap operasi spreadsheet standar akan tersedia — dan hal ini membuka perbedaan antara melihat laporan statis dan benar-benar bekerja dengan angka-angka di dalamnya.
Pekerjaan data massal tidak mungkin dilakukan dalam PDF. Menggabungkan angka triwulanan di beberapa laporan PDF, membandingkan item baris antar vendor, atau menarik kolom tertentu untuk analisis hilir, semuanya memerlukan memasukkan data ke dalam format yang mendukung operasi tersebut. Excel dan CSV adalah format tersebut. Konversi adalah jembatannya.
Letakkan PDF yang berisi data tabel, dapatkan buku kerja dengan setiap tabel di lembarnya sendiri.
PDF.js memperlihatkan getTextContent API yang mengembalikan item teks dengan kotak pembatasnya. Setiap item memiliki string, matriks transformasi (untuk posisi dan rotasi), dan lebar/tinggi. Konverter mengurutkan item berdasarkan koordinat Y untuk mengidentifikasi garis, kemudian dalam setiap baris berdasarkan koordinat X. Item pada posisi Y yang sangat mirip membentuk satu baris.
Deteksi kolom menggunakan analisis kesenjangan: jarak X antara item yang berurutan dalam satu baris menunjukkan apakah item tersebut termasuk dalam sel yang sama atau sel yang berdekatan. Celah yang lebih besar dari ambang batas (biasanya lebar 1–2 karakter) menandakan batas kolom. Penyetelan ambang batas dilakukan antara menggabungkan kolom yang berdekatan dan memisahkan kolom tunggal.
Output Excel menggunakan SheetJS untuk membuat buku kerja di memori, dengan setiap tabel terdeteksi pada lembarnya sendiri bernama Sheet1, Sheet2, dll. Buku kerja tersebut diserialkan ke format .xlsx (Office Open XML) dan ditawarkan sebagai unduhan. Hasilnya terbuka di Excel 2007+, Google Sheets, LibreOffice Calc, dan Apple Numbers.