PDF 转 HTML 转换器
直接在浏览器中将 PDF 文档转换为简洁、语义化的 HTML 文件。快速、安全且保留文档结构。
选择 PDF 文件
或将文件拖放到此处
直接在浏览器中将 PDF 文档转换为简洁、语义化的 HTML 文件。快速、安全且保留文档结构。
或将文件拖放到此处
将 PDF 转换为 HTML 可将固定布局的文档转换为流动的网页。转换保留了文本内容、标题、段落和基本样式,同时放弃了 PDF 的精确像素布局,转而采用 HTML 的响应式流程。对于以网络内容形式重新发布的文档(文章、报告、技术文档)来说,这是正确的做法,而对于布局至关重要的文档(表格、具有严格定位的发票、设计的营销作品)来说,这是错误的做法。
该工具使用 PDF.js 从 PDF 中提取文本、字体和基本结构,然后使用嵌入的 CSS 编写相应的 HTML 标记进行排版。输出是一个独立的 .html 文件,您可以在任何浏览器中打开、粘贴到 CMS 中或使用自定义 CSS 进一步设置样式。没有发生上传;转换在您的浏览器中运行。
支持两种输出样式。语义 HTML 生成带有段落和标题元素的干净标记,适合在博客或文档网站上重新发布内容。可视化 HTML 通过绝对定位保留更多 PDF 布局,适用于文档外观比可重排性更重要的情况。
PDF 不能很好地在网络上使用。移动浏览器渲染 PDF 的方式很笨拙,屏幕阅读器处理它们的方式不一致,搜索引擎抓取它们但将它们排名低于同等的 HTML,并且在网页中嵌入 PDF 会产生笨重的 iframe 查看器,而不是本机体验。转换为 HTML 会生成以 Web 方式运行的内容。
HTML 也是可编辑的。一旦 PDF 的内容采用 HTML 形式,您就可以更改版式、重组部分、添加交互元素以及将内容与其他网页集成。 PDF 抵抗所有这些操作。
拖放 PDF,选择输出样式,生成。
PDF.js 将文本内容公开为带有边框、字体和 Unicode 字符串的项目。转换器按 Y 然后 X 对项目进行排序以恢复阅读顺序,将相似基线的项目分组为行,并根据垂直间距将行聚类为段落。
标题检测使用字体大小分析:明显大于正文字体的大小成为标题,最大的映射到 h1,次大的映射到 h2,依此类推。列表检测查找以项目符号字符或数字序列开头的行。
输出的 HTML 是独立的:doctype、带有用于排版的嵌入式 CSS 的 head、带有转换内容的 body。当前未嵌入 PDF 中的内嵌图像;它们仍然是一个已知的限制。输出验证为 HTML5。