PDF ke Word (DOCX)
Ekstrak teks daripada PDF dan tukarkannya kepada format Word boleh diedit sepenuhnya dalam penyemak imbas anda. Cepat, selamat dan peribadi.
Lepaskan fail PDF di sini
Menyokong sehingga 50MB
Ekstrak teks daripada PDF dan tukarkannya kepada format Word boleh diedit sepenuhnya dalam penyemak imbas anda. Cepat, selamat dan peribadi.
Menyokong sehingga 50MB
PDF dan DOCX (Microsoft Word) menerangkan dokumen menggunakan model asas yang berbeza. PDF ialah format susun atur tetap: setiap glyph mempunyai kedudukan yang jelas pada halaman bersaiz tetap, menjadikan dokumen kelihatan sama di mana-mana sahaja ia dipaparkan. DOCX ialah format susun atur aliran: perenggan, jadual dan tajuk diterangkan secara semantik, dan enjin pemaparan menentukan tempat ia jatuh pada halaman berdasarkan saiz halaman semasa dan ketersediaan fon. Menukar daripada PDF kepada DOCX bermakna kejuruteraan terbalik reka letak tetap menjadi struktur semantik yang Word boleh mengalir semula.
Penukaran ini sememangnya lossy. PDF secara amnya tidak mengekalkan tahap tajuk, sempadan perenggan, struktur senarai atau semantik jadual; penukar perlu membuat kesimpulan ini daripada saiz fon, kedudukan dan aksara peluru. PDF berasaskan teks ringkas ditukar dengan bersih. PDF yang kompleks dengan reka letak berbilang lajur, imej terbenam, nota kaki atau tipografi yang luar biasa biasanya memerlukan pembersihan manual selepas penukaran.
Alat ini menjalankan penukaran dalam penyemak imbas anda menggunakan PDF.js untuk menghurai dan penulis reka letak-ke-DOCX tersuai yang menghasilkan output XML Office Open standard. Hasilnya dibuka dalam Microsoft Word, LibreOffice Writer, Google Docs dan mana-mana editor serasi DOCX yang lain. Tiada muat naik berlaku; fail kekal pada peranti anda.
Keboleheditan adalah sebab keseluruhannya. PDF memusuhi pengeditan — anda boleh mengisi medan borang dan memberi anotasi, tetapi anda tidak boleh mengalirkan semula teks, menukar gaya perenggan atau menstruktur semula kandungan tanpa editor PDF khusus yang memerlukan wang dan menghasilkan hasil yang tidak konsisten. DOCX dibina untuk penyuntingan. Menukar PDF kepada DOCX menjadikan kandungan itu boleh diurus untuk semakan, terjemahan, tujuan semula atau reka bentuk semula.
Sebab lain ialah kerjasama. Word dan Google Docs ialah lingua franca kerjasama dokumen di pejabat, sekolah dan kebanyakan organisasi. Urutan ulasan, perubahan jejak dan pengeditan dikongsi semuanya menganggap DOCX atau setara awannya. PDF yang dihantar untuk semakan menjadi kesesakan; DOCX mengalir melalui alat kerjasama standard.
Lepaskan PDF, jana, muat turun. Jangkakan untuk melakukan pembersihan dalam Word selepas itu.
PDF.js menghuraikan setiap halaman PDF ke dalam aliran teks dan operasi grafik. API pengekstrakan teks mengembalikan item teks dengan kotak sempadannya, maklumat fon dan rentetan dinyahkod Unikod. Daripada item ini penukar membina semula susunan bacaan dengan mengisih dari atas ke bawah dan kiri ke kanan, mengumpulkan item dengan garis dasar yang serupa ke dalam baris dan baris ke dalam perenggan.
DOCX ialah arkib zip yang mengandungi fail XML (document.xml, styles.xml, serta jenis kandungan dan manifes perhubungan). Penukar membina kandungan document.xml menggunakan satu siri elemen perenggan (w:p) dan jalankan (w:r), menggunakan rujukan gaya untuk tajuk (Tajuk 1, Tajuk 2) di mana saiz fon mencadangkan tajuk dan memasang zip dalam memori menggunakan JSZip.
Had: reka letak lajur tidak selalu dibina semula dengan betul. Jadual dalam PDF dipulihkan sebagai perenggan melainkan reka letak sangat mencadangkan struktur jadual. Pengepala, pengaki dan nota kaki biasanya berakhir sebaris dalam badan dan bukannya dalam zon DOCX yang sepadan. Imej yang dibenamkan dalam PDF tidak disimpan dalam output DOCX pada masa ini.