PDF sa Word (DOCX)
I-extract ang text mula sa PDF at i-convert ito sa nae-edit na Word format nang buo sa iyong browser. Mabilis, secure, at pribado.
I-drop ang PDF file dito
Sinusuportahan ang hanggang 50MB
I-extract ang text mula sa PDF at i-convert ito sa nae-edit na Word format nang buo sa iyong browser. Mabilis, secure, at pribado.
Sinusuportahan ang hanggang 50MB
Ang PDF at DOCX (Microsoft Word) ay naglalarawan ng mga dokumento na gumagamit ng magkakaibang mga modelo. Ang PDF ay isang fixed-layout na format: bawat glyph ay may tahasang posisyon sa isang fixed-size na page, na ginagawang magkapareho ang hitsura ng dokumento saanman ito i-render. Ang DOCX ay isang format ng flow-layout: ang mga talata, talahanayan, at heading ay inilarawan sa semantiko, at ang rendering engine ay nagpapasya kung saan sila mahuhulog sa pahina batay sa kasalukuyang laki ng pahina at pagkakaroon ng font. Ang pag-convert mula sa PDF sa DOCX ay nangangahulugang reverse-engineering ang nakapirming layout sa isang semantic na istraktura na maaaring muling dumaloy ng Word.
Ang conversion na ito ay likas na lossy. Karaniwang hindi pinapanatili ng PDF ang mga antas ng heading, mga hangganan ng talata, istraktura ng listahan, o semantika ng talahanayan; kailangang ipahiwatig ng converter ang mga ito mula sa mga laki ng font, posisyon, at bullet character. Ang mga simpleng PDF na nakabatay sa teksto ay malinis na nagko-convert. Ang mga kumplikadong PDF na may mga multi-column na layout, naka-embed na larawan, footnote, o hindi pangkaraniwang typography ay karaniwang nangangailangan ng manual na paglilinis pagkatapos ng conversion.
Ang tool na ito ay nagpapatakbo ng conversion sa iyong browser gamit ang PDF.js para sa pag-parse at isang custom na layout-to-DOCX na manunulat na gumagawa ng karaniwang Office Open XML na output. Ang resulta ay bubukas sa Microsoft Word, LibreOffice Writer, Google Docs, at anumang iba pang editor na katugma sa DOCX. Walang upload na mangyayari; mananatili ang file sa iyong device.
Editability ay ang buong dahilan. Ang PDF ay salungat sa pag-edit — maaari mong punan ang mga patlang ng form at mag-annotate, ngunit hindi ka maaaring mag-reflow ng teksto, magbago ng mga istilo ng talata, o mag-restructure ng nilalaman nang walang mga espesyal na editor ng PDF na nagkakahalaga ng pera at makagawa ng hindi pare-parehong mga resulta. Ang DOCX ay binuo para sa pag-edit. Ang pag-convert ng PDF sa DOCX ay ginagawang tractable ang content para sa rebisyon, pagsasalin, repurposing, o muling pagdidisenyo.
Ang iba pang dahilan ay pakikipagtulungan. Ang Word at Google Docs ay ang lingua franca ng pakikipagtulungan ng dokumento sa mga opisina, paaralan, at karamihan sa mga organisasyon. Ang mga thread ng komento, subaybayan ang mga pagbabago, at ibinahaging pag-edit ay ipinapalagay na DOCX o mga katumbas nito sa cloud. Ang mga PDF na ipinadala para sa pagsusuri ay nagiging mga bottleneck; Ang DOCX ay dumadaloy sa mga karaniwang tool sa pakikipagtulungan.
I-drop ang PDF, bumuo, mag-download. Asahan na gumawa ng ilang paglilinis sa Word pagkatapos.
Pino-parse ng PDF.js ang bawat pahina ng PDF sa isang stream ng mga pagpapatakbo ng text at graphics. Ang text-extraction API ay nagbabalik ng mga text item kasama ang kanilang mga bounding box, impormasyon ng font, at Unicode-decoded string. Mula sa mga item na ito ang converter ay muling bumubuo ng pagkakasunud-sunod ng pagbasa sa pamamagitan ng pag-uuri mula sa itaas hanggang sa ibaba at kaliwa-pakanan, pagpapangkat-pangkat ng mga item na may katulad na mga baseline sa mga linya at linya sa mga talata.
Ang DOCX ay isang zip archive na naglalaman ng mga XML file (document.xml, styles.xml, kasama ang uri ng nilalaman at mga manifest ng relasyon). Binubuo ng converter ang document.xml na nilalaman gamit ang isang serye ng mga elemento ng talata (w:p) at patakbuhin ang (w:r), naglalapat ng mga style reference para sa mga heading (Heading 1, Heading 2) kung saan ang laki ng font ay nagmumungkahi ng heading, at binubuo ang zip sa memorya gamit ang JSZip.
Mga Limitasyon: ang mga layout ng column ay hindi palaging naaayos nang tama. Ang mga talahanayan sa PDF ay binabawi bilang mga talata maliban kung ang layout ay malakas na nagmumungkahi ng tabular na istraktura. Ang mga header, footer, at footnote ay karaniwang nauuwi sa inline sa katawan kaysa sa kaukulang mga DOCX zone. Ang mga larawang naka-embed sa PDF ay kasalukuyang hindi napreserba sa DOCX output.