PDF 转 Excel (XLSX)
从PDF中提取表格和文本,并在您的浏览器中安全地将它们免费转换为Excel XLSX电子表格。
将 PDF 文件拖放到此处
或单击以选择文件
从PDF中提取表格和文本,并在您的浏览器中安全地将它们免费转换为Excel XLSX电子表格。
或单击以选择文件
将表格数据从 PDF 中提取到电子表格中是处理发票、财务报告、科学论文和政府数据的办公室中最常见的文档工作流程之一。 PDF 格式本身并不理解表格,它只是描述页面上的字形位置,因此转换为 Excel 需要从文本的几何形状推断表格结构。必须根据水平空白来猜测一个单元格的结束位置和下一个单元格的开始位置;其中一行结束,下一行从垂直空白开始。
该工具使用 PDF.js 解析 PDF,提取文本项目及其边界框,并根据位置将项目聚类为行和列。使用 SheetJS xlsx 库将检测到的表写入 Excel 工作簿。输出是标准 .xlsx 文件,可在 Excel、Google Sheets、Numbers 或任何其他电子表格应用程序中打开。
PDF 表格提取确实很困难,并且没有提取器能够在每个 PDF 上产生完美的结果。具有一致列边界、无合并单元格和清晰垂直对齐的表格可以干净地转换。具有合并单元格、多行条目、脚注或不寻常布局的表格通常需要在提取后进行手动清理。计划审查。
原因几乎总是分析。 PDF 中捕获的数据无法排序、过滤、求和、绘制图表或旋转。一旦进入 Excel,所有标准电子表格操作都变得可用,这开启了盯着静态报告和实际处理其中的数字之间的区别。
PDF 中无法进行批量数据处理。汇总多个 PDF 报告中的季度数据、比较不同供应商的行项目或提取特定列进行下游分析都需要将数据转换为支持这些操作的格式。 Excel 和 CSV 就是这些格式。转换是桥梁。
删除包含表格数据的 PDF,获取每个表格都位于其自己的工作表上的工作簿。
PDF.js 公开了一个 getTextContent API,该 API 返回文本项及其边界框。每个项目都有一个字符串、一个变换矩阵(用于位置和旋转)和宽度/高度。转换器按 Y 坐标对项目进行排序以识别行,然后按 X 坐标在每行内排序。 Y 位置非常相似的项目形成一行。
列检测使用间隙分析:行中连续项目之间的 X 距离指示它们是否属于同一单元格或相邻单元格。大于阈值(通常为 1-2 个字符宽度)的间隙表示列边界。阈值调整在合并相邻列和拆分单列之间进行权衡。
Excel 输出使用 SheetJS 在内存中构造一个工作簿,每个检测到的表都位于其自己的工作表上,名为 Sheet1、Sheet2 等。该工作簿被序列化为 .xlsx (Office Open XML) 格式并提供下载。结果在 Excel 2007+、Google Sheets、LibreOffice Calc 和 Apple Numbers 中打开。