免费转换器

PDF 转 Excel (XLSX)

从PDF中提取表格和文本,并在您的浏览器中安全地将它们免费转换为Excel XLSX电子表格。

将 PDF 文件拖放到此处

或单击以选择文件

关于此工具

将表格数据从 PDF 中提取到电子表格中是处理发票、财务报告、科学论文和政府数据的办公室中最常见的文档工作流程之一。 PDF 格式本身并不理解表格,它只是描述页面上的字形位置,因此转换为 Excel 需要从文本的几何形状推断表格结构。必须根据水平空白来猜测一个单元格的结束位置和下一个单元格的开始位置;其中一行结束,下一行从垂直空白开始。

该工具使用 PDF.js 解析 PDF,提取文本项目及其边界框,并根据位置将项目聚类为行和列。使用 SheetJS xlsx 库将检测到的表写入 Excel 工作簿。输出是标准 .xlsx 文件,可在 Excel、Google Sheets、Numbers 或任何其他电子表格应用程序中打开。

PDF 表格提取确实很困难,并且没有提取器能够在每个 PDF 上产生完美的结果。具有一致列边界、无合并单元格和清晰垂直对齐的表格可以干净地转换。具有合并单元格、多行条目、脚注或不寻常布局的表格通常需要在提取后进行手动清理。计划审查。

为什么将 PDF 转换为 Excel

原因几乎总是分析。 PDF 中捕获的数据无法排序、过滤、求和、绘制图表或旋转。一旦进入 Excel,所有标准电子表格操作都变得可用,这开启了盯着静态报告和实际处理其中的数字之间的区别。

PDF 中无法进行批量数据处理。汇总多个 PDF 报告中的季度数据、比较不同供应商的行项目或提取特定列进行下游分析都需要将数据转换为支持这些操作的格式。 Excel 和 CSV 就是这些格式。转换是桥梁。

使用方法

删除包含表格数据的 PDF,获取每个表格都位于其自己的工作表上的工作簿。

  1. 上传您的 PDF: 将文件拖入上传区域或点击浏览。支持最大 50 MB 的文件。 PDF 必须包含实际文本;扫描的 PDF 首先需要 OCR。
  2. 等待表检测: PDF.js 提取文本项及其位置。转换器通过分析水平和垂直对齐方式将项目聚类为行和列。对于短文档,检测需要几秒钟的时间;对于多页表,检测需要更长的时间。
  3. 查看检测到的表: 下载前预览检测到的表。确认列和行符合您的预期;这里的错位稍后将成为 Excel 清理。
  4. 下载为 XLSX: 转换器使用 SheetJS 将每个检测到的表写入 .xlsx 工作簿中的单独工作表。在 Excel 或 Google Sheets 中打开结果并清除所有残留问题。

常见用例

技术细节

PDF.js 公开了一个 getTextContent API,该 API 返回文本项及其边界框。每个项目都有一个字符串、一个变换矩阵(用于位置和旋转)和宽度/高度。转换器按 Y 坐标对项目进行排序以识别行,然后按 X 坐标在每行内排序。 Y 位置非常相似的项目形成一行。

列检测使用间隙分析:行中连续项目之间的 X 距离指示它们是否属于同一单元格或相邻单元格。大于阈值(通常为 1-2 个字符宽度)的间隙表示列边界。阈值调整在合并相邻列和拆分单列之间进行权衡。

Excel 输出使用 SheetJS 在内存中构造一个工作簿,每个检测到的表都位于其自己的工作表上,名为 Sheet1、Sheet2 等。该工作簿被序列化为 .xlsx (Office Open XML) 格式并提供下载。结果在 Excel 2007+、Google Sheets、LibreOffice Calc 和 Apple Numbers 中打开。

最佳实践

常见问题

将PDF转换为EXCEL会改变内容吗?
尽可能准确地保留内容。但是,某些特定于格式的功能可能没有直接等效项,因此可能会出现细微的格式差异。
EXCEL格式有什么用?
XLSX(Microsoft Excel 电子表格)主要用于包含公式、图表和数据分析的电子表格。
有什么限制需要注意吗?
支持最大 50MB 的文件。非常大或复杂的文件可能需要更长的时间来处理。所有转换都发生在您的浏览器中,因此处理速度取决于您的设备。
我的文档数据安全吗?
是的。文档处理完全在您的浏览器中运行。您的文件及其内容永远不会上传到任何服务器。这使得转换敏感或机密文档变得安全。
产生什么输出格式?
.xlsx(Office Open XML),现代 Excel 格式。该文件可以在 Excel 2007+、Google Sheets、LibreOffice Calc、Apple Numbers 和任何其他现代电子表格中打开。
我的 PDF 是否上传到服务器?
不会。解析和 Excel 生成是在浏览器中使用 PDF.js 和 SheetJS 进行的。
最大文件大小是多少?
50 MB。转换时间取决于文档的复杂性,而不仅仅取决于文件大小 - 包含大量图形的 50 MB PDF 可能比提取包含文本的 PDF 需要更长的时间。
为什么我的数字出现在错误的列中?
几乎总是因为转换器的列检测阈值与 PDF 的实际布局不匹配。打开源 PDF,查看列在视觉上中断的位置,并根据需要手动移动 Excel 中的单元格。