免费转换器

PDF 转 字 (DOCX)

在您的浏览器中直接从PDF中提取文本并将其转换为可编辑的Word格式。快速、安全且保护隐私。

将 PDF 文件拖放到此处

支持最大 50MB

关于此工具

PDF 和 DOCX (Microsoft Word) 使用完全不同的模型描述文档。 PDF 是一种固定布局格式:每个字形在固定大小的页面上都有一个明确的位置,使文档在呈现的任何地方看起来都相同。 DOCX 是一种流式布局格式:段落、表格和标题以语义进行描述,渲染引擎根据当前页面大小和字体可用性来决定它们在页面上的位置。从 PDF 转换为 DOCX 意味着将固定布局逆向工程为 Word 可以重新流动的语义结构。

这种转换本质上是有损的。 PDF 通常不保留标题级别、段落边界、列表结构或表格语义;转换器必须从字体大小、位置和项目符号字符推断这些。简单的基于文本的 PDF 可以干净地转换。 Complex PDFs with multi-column layouts, embedded images, footnotes, or unusual typography typically need manual cleanup after conversion.

该工具在浏览器中使用 PDF.js 进行解析,并使用自定义布局到 DOCX 编写器来生成标准 Office Open XML 输出。结果会在 Microsoft Word、LibreOffice Writer、Google Docs 和任何其他 DOCX 兼容编辑器中打开。 No upload happens;该文件保留在您的设备上。

为什么将 PDF 转换为 DOCX

可编辑性就是全部原因。 PDF 不利于编辑——您可以填写表单字段并进行注释,但如果没有专门的 PDF 编辑器,您就无法重排文本、更改段落样式或重组内容,因为这些编辑器既要花钱又会产生不一致的结果。 DOCX 是为编辑而构建的。 Converting a PDF to DOCX makes the content tractable for revision, translation, repurposing, or redesign.

另一个原因是合作。 Word 和 Google 文档是办公室、学校和大多数组织中文档协作的通用语言。评论线程、跟踪更改和共享编辑均采用 DOCX 或其云等效项。发送供审阅的 PDF 成为瓶颈; DOCX 通过标准协作工具流动。

使用方法

拖放 PDF、生成、下载。预计之后会在 Word 中进行一些清理。

  1. 上传您的 PDF: 将文件拖入上传区域或点击浏览。支持最大 50 MB 的文件。不支持受密码保护的 PDF;首先使用桌面工具删除密码。
  2. 等待解析: PDF.js 从每个页面中提取文本、字体信息和布局位置。对于短文档,解析需要几秒钟的时间;对于具有嵌入图像或复杂图形的文档,解析需要更长的时间。
  3. 转换: 该转换器会遍历解析的内容,根据字体大小和位置推断段落和标题边界,并将 Office Open XML 写入内存中的 zip 文件。 Headings, paragraphs, and bullet lists are mapped to the equivalent DOCX styles.
  4. 下载并清理: Save the .docx file and open it in Word or your preferred editor.计划花几分钟修复残留问题——标题层次结构、列表格式、表格边界——转换器无法从 PDF 中完美推断出这些问题。

常见用例

技术细节

PDF.js parses each PDF page into a stream of text and graphics operations.文本提取 API 返回文本项及其边界框、字体信息和 Unicode 解码字符串。根据这些项目,转换器通过从上到下和从左到右排序、将具有相似基线的项目分组为行并将行分组为段落来重建阅读顺序。

DOCX 是一个包含 XML 文件(document.xml、styles.xml,以及内容类型和关系清单)的 zip 存档。该转换器使用一系列段落 (w:p) 和运行 (w:r) 元素构建 document.xml 内容,应用标题(标题 1、标题 2)的样式引用(其中字体大小建议标题),并使用 JSZip 在内存中组装 zip。

限制:列布局并不总是正确重建。 PDF 中的表格将恢复为段落,除非布局强烈建议表格结构。页眉、页脚和脚注通常最终内嵌在正文中,而不是相应的 DOCX 区域中。 Images embedded in the PDF are not currently preserved in the DOCX output.

最佳实践

常见问题

将 PDF 转换为 DOCX 会改变内容吗?
尽可能准确地保留内容。但是,某些特定于格式的功能可能没有直接等效项,因此可能会出现细微的格式差异。
DOCX 格式有什么用?
DOCX(Microsoft Word 文档)主要用于具有格式的可编辑文本文档。
有什么限制需要注意吗?
支持最大 50MB 的文件。非常大或复杂的文件可能需要更长的时间来处理。所有转换都发生在您的浏览器中,因此处理速度取决于您的设备。
我的文档数据安全吗?
是的。文档处理完全在您的浏览器中运行。您的文件及其内容永远不会上传到任何服务器。这使得转换敏感或机密文档变得安全。
表会被保留吗?
简单的表格有时会转换为Word表格;复杂的表格通常会转换为需要手动重组的格式化段落。如果精度很重要,计划手动重新创建关键表。
我的 PDF 是否上传到服务器?
不会。PDF 解析使用 PDF.js,DOCX 编写使用 JSZip — 两者都完全在浏览器中运行。
最大文件大小是多少?
50 MB。实际限制取决于文档的复杂性;该大小的文本较多的 PDF 可以在几秒钟内完成转换,而相同大小的图形较多的文档可能会很困难。
我可以转换受密码保护的 PDF 吗?
不可以。PDF.js 不实现解密。首先使用桌面工具(例如 qpdf 或 Acrobat 的安全设置)删除密码。