PDF към HTML конвертор
Конвертирайте PDF документи в чисти, семантични HTML файлове директно във вашия браузър. Бързо, сигурно и запазва структурата на документа.
Изберете PDF файл
или плъзнете и пуснете тук
Конвертирайте PDF документи в чисти, семантични HTML файлове директно във вашия браузър. Бързо, сигурно и запазва структурата на документа.
или плъзнете и пуснете тук
Преобразуването на PDF в HTML трансформира документ с фиксирано оформление в течаща уеб страница. Преобразуването запазва текстовото съдържание, заглавията, параграфите и основния стил, като същевременно изоставя точното пикселно оформление на PDF в полза на отзивчивия поток на HTML. Това е правилната сделка за документи, които се публикуват отново като уеб съдържание — статии, доклади, техническа документация — и грешната търговия за документи, чието оформление е от съществено значение — формуляри, фактури със строго позициониране, проектирани маркетингови елементи.
Този инструмент използва PDF.js за извличане на текст, шрифтове и основна структура от PDF файла, след което записва съответния HTML маркиране с вграден CSS за типография. Резултатът е самостоятелен .html файл, който можете да отворите във всеки браузър, да поставите в CMS или допълнително да стилизирате с персонализиран CSS. Не се случва качване; преобразуването се изпълнява във вашия браузър.
Поддържат се два изходни стила. Семантичният HTML създава чисто маркиране с елементи на параграфи и заглавия, подходящи за повторно публикуване на съдържание в блог или сайт за документация. Visual HTML запазва повече от оформлението на PDF чрез абсолютно позициониране, подходящо, когато външният вид на документа е по-важен от възможността за преливане.
PDF файловете не работят добре в мрежата. Мобилните браузъри изобразяват PDF файлове неудобно, екранните четци ги обработват непоследователно, търсачките ги обхождат, но ги класират по-ниско от еквивалентния HTML, а вграждането на PDF в уеб страница създава тромав визуализатор в iframe, а не естествено изживяване. Преобразуването в HTML създава съдържание, което работи по начина, по който работи мрежата.
HTML също може да се редактира. След като съдържанието на PDF е в HTML форма, можете да промените типографията, да преструктурирате секции, да добавите интерактивни елементи и да интегрирате съдържанието с други уеб страници. PDF издържа на всички тези операции.
Пуснете PDF, изберете стил на изход, генерирайте.
PDF.js излага текстовото съдържание като елементи с ограничаващи полета, шрифтове и Unicode низове. Конверторът сортира елементите по Y, след това по X, за да възстанови реда на четене, групира елементи на сходни базови линии в редове и групира редовете в абзаци въз основа на вертикално разстояние.
Откриването на заглавие използва анализ на размера на шрифта: размери, значително по-големи от главния шрифт, стават заглавия, като най-големият се съпоставя към h1, следващият по-голям към h2 и т.н. Откриването на списък търси редове, започващи с водещи символи или цифрови поредици.
Изходният HTML е самостоятелен: doctype, глава с вграден CSS за типография, тяло с преобразуваното съдържание. В момента не са вградени вградени изображения от PDF; те остават известно ограничение. Резултатът се валидира като HTML5.