PDF ke Kata (DOCX)
Ekstrak teks dari PDF dan ubah menjadi format Word yang dapat diedit langsung di browser Anda. Cepat, aman, dan privat.
Lepaskan file PDF di sini
Mendukung hingga 50MB
Ekstrak teks dari PDF dan ubah menjadi format Word yang dapat diedit langsung di browser Anda. Cepat, aman, dan privat.
Mendukung hingga 50MB
PDF dan DOCX (Microsoft Word) mendeskripsikan dokumen menggunakan model yang berbeda secara mendasar. PDF adalah format tata letak tetap: setiap mesin terbang memiliki posisi eksplisit pada halaman berukuran tetap, membuat dokumen terlihat identik di mana pun dokumen tersebut dirender. DOCX adalah format tata letak alur: paragraf, tabel, dan judul dijelaskan secara semantik, dan mesin rendering memutuskan posisinya pada halaman berdasarkan ukuran halaman saat ini dan ketersediaan font. Mengonversi dari PDF ke DOCX berarti merekayasa balik tata letak tetap menjadi struktur semantik yang dapat dialirkan ulang oleh Word.
Konversi ini pada dasarnya merugikan. PDF umumnya tidak mempertahankan tingkat judul, batas paragraf, struktur daftar, atau semantik tabel; konverter harus menyimpulkannya dari ukuran font, posisi, dan karakter poin. PDF berbasis teks sederhana dapat dikonversi dengan rapi. PDF kompleks dengan tata letak multi-kolom, gambar tersemat, catatan kaki, atau tipografi yang tidak biasa biasanya memerlukan pembersihan manual setelah konversi.
Alat ini menjalankan konversi di browser Anda menggunakan PDF.js untuk penguraian dan penulis tata letak khusus ke DOCX yang menghasilkan keluaran Office Open XML standar. Hasilnya terbuka di Microsoft Word, LibreOffice Writer, Google Docs, dan editor lain yang kompatibel dengan DOCX. Tidak ada unggahan yang terjadi; file tetap ada di perangkat Anda.
Editabilitas adalah alasan utama. PDF tidak cocok untuk diedit — Anda dapat mengisi kolom formulir dan membuat anotasi, namun Anda tidak dapat mengubah alur teks, mengubah gaya paragraf, atau menyusun ulang konten tanpa editor PDF khusus yang memerlukan biaya dan memberikan hasil yang tidak konsisten. DOCX dibuat untuk mengedit. Mengonversi PDF ke DOCX membuat konten mudah direvisi, diterjemahkan, digunakan kembali, atau didesain ulang.
Alasan lainnya adalah kolaborasi. Word dan Google Docs adalah lingua franca kolaborasi dokumen di kantor, sekolah, dan sebagian besar organisasi. Rangkaian komentar, lacak perubahan, dan pengeditan bersama semuanya menggunakan DOCX atau cloud yang setara. PDF yang dikirim untuk ditinjau menjadi hambatan; DOCX mengalir melalui alat kolaborasi standar.
Jatuhkan PDF, hasilkan, unduh. Harapkan untuk melakukan pembersihan di Word sesudahnya.
PDF.js mem-parsing setiap halaman PDF menjadi aliran operasi teks dan grafik. API ekstraksi teks mengembalikan item teks dengan kotak pembatasnya, informasi font, dan string yang didekodekan secara Unicode. Dari item-item ini konverter menyusun ulang urutan bacaan dengan mengurutkan dari atas ke bawah dan kiri-ke-kanan, mengelompokkan item-item dengan garis dasar serupa ke dalam baris-baris dan baris-baris ke dalam paragraf.
DOCX adalah arsip zip yang berisi file XML (document.xml, style.xml, ditambah tipe konten dan manifes hubungan). Konverter membuat konten document.xml menggunakan serangkaian elemen paragraf (w:p) dan run (w:r), menerapkan referensi gaya untuk judul (Heading 1, Heading 2) di mana ukuran font menyarankan judul, dan menyusun zip di memori menggunakan JSZip.
Keterbatasan: tata letak kolom tidak selalu direkonstruksi dengan benar. Tabel dalam PDF dipulihkan sebagai paragraf kecuali tata letaknya sangat menyarankan struktur tabel. Header, footer, dan catatan kaki biasanya ditempatkan sejajar di badan, bukan di zona DOCX yang sesuai. Gambar yang disematkan dalam PDF saat ini tidak disimpan dalam keluaran DOCX.