PDF 转 字 (DOCX)
在您的浏览器中直接从PDF中提取文本并将其转换为可编辑的Word格式。快速、安全且保护隐私。
将 PDF 文件拖放到此处
支持最大 50MB
在您的浏览器中直接从PDF中提取文本并将其转换为可编辑的Word格式。快速、安全且保护隐私。
支持最大 50MB
PDF 和 DOCX (Microsoft Word) 使用完全不同的模型描述文档。 PDF 是一种固定布局格式:每个字形在固定大小的页面上都有一个明确的位置,使文档在呈现的任何地方看起来都相同。 DOCX 是一种流式布局格式:段落、表格和标题以语义进行描述,渲染引擎根据当前页面大小和字体可用性来决定它们在页面上的位置。从 PDF 转换为 DOCX 意味着将固定布局逆向工程为 Word 可以重新流动的语义结构。
这种转换本质上是有损的。 PDF 通常不保留标题级别、段落边界、列表结构或表格语义;转换器必须从字体大小、位置和项目符号字符推断这些。简单的基于文本的 PDF 可以干净地转换。 Complex PDFs with multi-column layouts, embedded images, footnotes, or unusual typography typically need manual cleanup after conversion.
该工具在浏览器中使用 PDF.js 进行解析,并使用自定义布局到 DOCX 编写器来生成标准 Office Open XML 输出。结果会在 Microsoft Word、LibreOffice Writer、Google Docs 和任何其他 DOCX 兼容编辑器中打开。 No upload happens;该文件保留在您的设备上。
可编辑性就是全部原因。 PDF 不利于编辑——您可以填写表单字段并进行注释,但如果没有专门的 PDF 编辑器,您就无法重排文本、更改段落样式或重组内容,因为这些编辑器既要花钱又会产生不一致的结果。 DOCX 是为编辑而构建的。 Converting a PDF to DOCX makes the content tractable for revision, translation, repurposing, or redesign.
另一个原因是合作。 Word 和 Google 文档是办公室、学校和大多数组织中文档协作的通用语言。评论线程、跟踪更改和共享编辑均采用 DOCX 或其云等效项。发送供审阅的 PDF 成为瓶颈; DOCX 通过标准协作工具流动。
拖放 PDF、生成、下载。预计之后会在 Word 中进行一些清理。
PDF.js parses each PDF page into a stream of text and graphics operations.文本提取 API 返回文本项及其边界框、字体信息和 Unicode 解码字符串。根据这些项目,转换器通过从上到下和从左到右排序、将具有相似基线的项目分组为行并将行分组为段落来重建阅读顺序。
DOCX 是一个包含 XML 文件(document.xml、styles.xml,以及内容类型和关系清单)的 zip 存档。该转换器使用一系列段落 (w:p) 和运行 (w:r) 元素构建 document.xml 内容,应用标题(标题 1、标题 2)的样式引用(其中字体大小建议标题),并使用 JSZip 在内存中组装 zip。
限制:列布局并不总是正确重建。 PDF 中的表格将恢复为段落,除非布局强烈建议表格结构。页眉、页脚和脚注通常最终内嵌在正文中,而不是相应的 DOCX 区域中。 Images embedded in the PDF are not currently preserved in the DOCX output.