PDF в HTML конвертер
Перетворюйте PDF-документи на чисті, семантичні HTML-файли безпосередньо у вашому браузері. Швидко, безпечно та зберігає структуру документа.
Виберіть файл PDF
або перетягніть сюди
Перетворюйте PDF-документи на чисті, семантичні HTML-файли безпосередньо у вашому браузері. Швидко, безпечно та зберігає структуру документа.
або перетягніть сюди
Перетворення PDF на HTML перетворює документ із фіксованим макетом на плавну веб-сторінку. Перетворення зберігає текстовий вміст, заголовки, абзаци та базовий стиль, але при цьому відмовляється від точного піксельного макета PDF на користь адаптивного потоку HTML. Це правильна торгівля для документів, які перепублікуються як веб-контент — статті, звіти, технічна документація — і неправильна торгівля для документів, макет яких важливий — форми, рахунки-фактури з чітким позиціонуванням, розроблені маркетингові матеріали.
Цей інструмент використовує PDF.js для вилучення тексту, шрифтів і базової структури з PDF-файлу, а потім записує відповідну розмітку HTML із вбудованим CSS для типографіки. Вихід – це окремий файл .html, який можна відкрити в будь-якому браузері, вставити в CMS або додатково стилізувати за допомогою спеціального CSS. Завантаження не відбувається; перетворення виконується у вашому браузері.
Підтримуються два стилі виведення. Семантичний HTML створює чисту розмітку з елементами абзаців і заголовків, придатну для повторної публікації вмісту в блозі або на сайті документації. Visual HTML зберігає більшу частину макета PDF-файлу завдяки абсолютному позиціонуванню, що підходить, коли зовнішній вигляд документа важливий більше, ніж можливість переливання.
PDF-файли погано працюють в Інтернеті. Мобільні браузери незручно відтворюють PDF-файли, програми зчитування з екрану обробляють їх непослідовно, пошукові системи сканують їх, але оцінюють їх нижче, ніж еквівалентний HTML, а вбудовування PDF-файлів у веб-сторінку створює незграбну програму перегляду в iframe, а не нативний досвід. Перетворення на HTML створює вміст, який працює так, як працює Інтернет.
HTML також можна редагувати. Коли вміст PDF-файлу перебуває у формі HTML, ви можете змінювати типографіку, структурувати розділи, додавати інтерактивні елементи та інтегрувати вміст з іншими веб-сторінками. PDF протистоїть усім цим операціям.
Відпустіть PDF, виберіть стиль виводу, згенеруйте.
PDF.js представляє текстовий вміст як елементи з обмежувальними рамками, шрифтами та рядками Unicode. Конвертер сортує елементи за Y, а потім за X, щоб відновити порядок читання, групує елементи на схожих базових лініях у рядки та групує рядки в абзаци на основі вертикального інтервалу.
Виявлення заголовків використовує аналіз розміру шрифту: розміри, значно більші за основний шрифт, стають заголовками, причому найбільший відображається на h1, наступний за розміром — на h2 тощо. Виявлення списку шукає рядки, що починаються з символів-маркерів або числових послідовностей.
Вихідний HTML є автономним: doctype, заголовок із вбудованим CSS для типографіки, тіло з перетвореним вмістом. Вбудовані зображення з PDF наразі не вбудовані; вони залишаються відомим обмеженням. Результат перевіряється як HTML5.