PDF į HTML keitiklis
Konvertuokite PDF dokumentus į švarius, semantinius HTML failus tiesiai naršyklėje. Greitas, saugus ir išsaugantis dokumentų struktūrą.
Pasirinkite PDF failą
arba vilkite ir numeskite čia
Konvertuokite PDF dokumentus į švarius, semantinius HTML failus tiesiai naršyklėje. Greitas, saugus ir išsaugantis dokumentų struktūrą.
arba vilkite ir numeskite čia
Konvertuojant PDF į HTML, fiksuoto išdėstymo dokumentas paverčiamas sklandžiu tinklalapiu. Konvertuojant išsaugomas teksto turinys, antraštės, pastraipos ir pagrindinis stilius, kartu atsisakoma tikslaus PDF pikselių išdėstymo ir pasirenkamas HTML reaguojantis srautas. Tai tinkama prekyba dokumentais, perpublikuojamais kaip žiniatinklio turinys – straipsniais, ataskaitomis, technine dokumentacija – ir neteisinga prekyba dokumentais, kurių išdėstymas yra labai svarbus – formomis, sąskaitomis faktūromis su griežta padėtimi, suplanuotais rinkodaros elementais.
Šis įrankis naudoja PDF.js tekstui, šriftams ir pagrindinei struktūrai iš PDF išgauti, tada rašo atitinkamą HTML žymėjimą su įterptu CSS tipografijai. Išvestis yra atskiras .html failas, kurį galite atidaryti bet kurioje naršyklėje, įklijuoti į TVS arba pakeisti stilių naudodami tinkintą CSS. Įkėlimas nevyksta; konversija vykdoma jūsų naršyklėje.
Palaikomi du išvesties stiliai. Semantinis HTML sukuria švarų žymėjimą su pastraipos ir antraštės elementais, tinkamus turiniui pakartotinai paskelbti tinklaraštyje arba dokumentacijos svetainėje. Vizualinis HTML išsaugo daugiau PDF maketo naudodamas absoliučią padėtį, tinkamas, kai dokumento išvaizda yra svarbesnė už pakartotinį srautą.
PDF failai neveikia gerai žiniatinklyje. Mobiliosios naršyklės nepatogiai atvaizduoja PDF failus, ekrano skaitytuvai juos tvarko nenuosekliai, paieškos varikliai juos tikrina, bet reitinguoja žemesnę nei lygiavertę HTML, o PDF įterpimas į tinklalapį sukuria gremėzdišką peržiūros priemonę „iframe“, o ne savąją. Konvertuojant į HTML, gaunamas turinys, veikiantis taip, kaip veikia žiniatinklis.
HTML taip pat galima redaguoti. Kai PDF turinys yra HTML formatu, galite pakeisti tipografiją, pertvarkyti skyrius, pridėti interaktyvių elementų ir integruoti turinį su kitais tinklalapiais. PDF atlaiko visas šias operacijas.
Nuleiskite PDF, pasirinkite išvesties stilių, generuokite.
PDF.js atskleidžia teksto turinį kaip elementus su ribojančiais langeliais, šriftais ir unikodo eilutėmis. Keitiklis rūšiuoja elementus pagal Y, tada X, kad atkurtų skaitymo tvarką, sugrupuoja elementus, esančius panašiose pradinėse linijose, į eilutes ir sugrupuoja eilutes į pastraipas pagal vertikalius tarpus.
Antraštės aptikimas naudoja šrifto dydžio analizę: dydžiai, žymiai didesni už pagrindinį šriftą, tampa antraštėmis, o didžiausias susietas su h1, kitas pagal dydį - su h2 ir pan. Sąrašo aptikimas ieško eilučių, prasidedančių ženkleliais arba skaitinėmis sekomis.
Išvesties HTML yra savarankiškas: doctype, galvutė su įterptu CSS tipografijai, turinys su konvertuotu turiniu. Įterptieji vaizdai iš PDF šiuo metu nėra įterpti; jie išlieka žinomu apribojimu. Išvestis patvirtinama kaip HTML5.