PDF sa HTML Converter
I-convert ang mga PDF na dokumento sa malinis, semantic na HTML na mga file nang direkta sa iyong browser. Mabilis, secure, at pinapanatili ang istraktura ng dokumento.
Piliin ang PDF file
o i-drag at i-drop dito
I-convert ang mga PDF na dokumento sa malinis, semantic na HTML na mga file nang direkta sa iyong browser. Mabilis, secure, at pinapanatili ang istraktura ng dokumento.
o i-drag at i-drop dito
Binabago ng pag-convert ng PDF sa HTML ang isang nakapirming layout na dokumento sa isang dumadaloy na web page. Ang conversion ay nagpapanatili ng nilalaman ng teksto, mga heading, mga talata, at pangunahing estilo habang iniiwan ang eksaktong layout ng pixel ng PDF sa pabor sa tumutugon na daloy ng HTML. Ito ang tamang kalakalan para sa mga dokumentong muling na-publish bilang nilalaman sa web — mga artikulo, ulat, teknikal na dokumentasyon — at ang maling kalakalan para sa mga dokumento na ang layout ay mahalaga — mga form, mga invoice na may mahigpit na pagpoposisyon, mga dinisenyong piraso ng marketing.
Gumagamit ang tool na ito ng PDF.js para mag-extract ng text, font, at basic structure mula sa PDF, pagkatapos ay magsusulat ng kaukulang HTML markup na may naka-embed na CSS para sa typography. Ang output ay isang standalone na .html file na maaari mong buksan sa anumang browser, i-paste sa isang CMS, o higit pang istilo gamit ang custom na CSS. Walang upload na mangyayari; tumatakbo ang conversion sa iyong browser.
Dalawang istilo ng output ang sinusuportahan. Ang Semantic HTML ay gumagawa ng malinis na markup na may mga elemento ng talata at heading, na angkop para sa muling pag-publish ng nilalaman sa isang blog o site ng dokumentasyon. Pinapanatili ng Visual HTML ang higit pa sa layout ng PDF sa pamamagitan ng ganap na pagpoposisyon, na angkop kapag ang hitsura ng dokumento ay mas mahalaga kaysa sa muling pagdaloy.
Ang mga PDF ay hindi gumagana nang maayos sa web. Ang mga mobile browser ay nagre-render ng mga PDF nang awkward, ang mga screen reader ay humahawak sa mga ito nang hindi pare-pareho, ang mga search engine ay nag-crawl sa mga ito ngunit niraranggo ang mga ito nang mas mababa kaysa sa katumbas na HTML, at ang pag-embed ng isang PDF sa isang webpage ay gumagawa ng clunky in-iframe viewer sa halip na isang katutubong karanasan. Ang pag-convert sa HTML ay gumagawa ng nilalamang gumagana sa paraang gumagana ang web.
Nae-edit din ang HTML. Kapag ang nilalaman ng PDF ay nasa HTML na form, maaari mong baguhin ang typography, muling isaayos ang mga seksyon, magdagdag ng mga interactive na elemento, at isama ang nilalaman sa iba pang mga web page. Pinipigilan ng PDF ang lahat ng mga operasyong iyon.
I-drop ang PDF, piliin ang istilo ng output, bumuo.
Inilalantad ng PDF.js ang text content bilang mga item na may mga bounding box, font, at Unicode string. Ang converter ay nagbubukod-bukod ng mga item ayon sa Y pagkatapos X upang mabawi ang pagkakasunud-sunod ng pagbabasa, pinapangkat ang mga item sa magkatulad na baseline sa mga linya, at pinagsasama-sama ang mga linya sa mga talata batay sa vertical spacing.
Gumagamit ang pag-detect ng heading ng pagsusuri sa laki ng font: nagiging mga heading ang mga laki na mas malaki kaysa sa body font, na ang pinakamalaking nakamapa sa h1, ang susunod na pinakamalaking sa h2, at iba pa. Ang pag-detect ng listahan ay naghahanap ng mga linya na nagsisimula sa mga bullet na character o mga numeric sequence.
Ang output na HTML ay self-contained: doctype, head na may naka-embed na CSS para sa typography, body na may na-convert na content. Ang mga inline na larawan mula sa PDF ay kasalukuyang hindi naka-embed; nananatili silang isang kilalang limitasyon. Ang output ay nagpapatunay bilang HTML5.