PDF 轉 Excel (XLSX)
從PDF中提取表格和文本,並在您的瀏覽器中安全地將它們免費轉換為Excel XLSX電子表格。
將 PDF 檔案拖放到此處
或點擊以選擇檔案
從PDF中提取表格和文本,並在您的瀏覽器中安全地將它們免費轉換為Excel XLSX電子表格。
或點擊以選擇檔案
將表格資料從 PDF 中提取到電子表格中是處理發票、財務報告、科學論文和政府資料的辦公室中最常見的文件工作流程之一。 PDF 格式本身並不理解表格,它只是描述頁面上的字形位置,因此轉換為 Excel 需要從文字的幾何形狀推斷表格結構。必須根據水平空白來猜測一個單元格的結束位置和下一個單元格的開始位置;其中一行結束,下一行從垂直空白開始。
該工具使用 PDF.js 解析 PDF,提取文字項目及其邊界框,並根據位置將項目聚類為行和列。使用 SheetJS xlsx 庫將偵測到的表寫入 Excel 工作簿。輸出是標準 .xlsx 文件,可在 Excel、Google Sheets、Numbers 或任何其他電子表格應用程式中開啟。
PDF 表格提取確實很困難,並且沒有提取器能夠在每個 PDF 上產生完美的結果。具有一致列邊界、無合併儲存格和清晰垂直對齊的表格可以乾淨地轉換。具有合併儲存格、多行條目、腳註或不尋常佈局的表格通常需要在提取後進行手動清理。計劃審查。
原因幾乎總是分析。 PDF 中擷取的資料無法排序、過濾、求和、繪製圖表或旋轉。一旦進入 Excel,所有標準電子表格操作都變得可用,這開啟了盯著靜態報告和實際處理其中的數字之間的差異。
PDF 中無法進行大量資料處理。匯總多個 PDF 報告中的季度資料、比較不同供應商的行項目或提取特定列進行下游分析都需要將資料轉換為支援這些操作的格式。 Excel 和 CSV 就是這些格式。轉換是橋樑。
刪除包含表格資料的 PDF,取得每個表格都位於自己的工作表上的工作簿。
PDF.js 公开了一个 getTextContent API,该 API 返回文本项及其边界框。每个项目都有一个字符串、一个变换矩阵(用于位置和旋转)和宽度/高度。转换器按 Y 坐标对项目进行排序以识别行,然后按 X 坐标在每行内排序。 Y 位置非常相似的項目形成一行。
列检测使用间隙分析:行中连续项目之间的 X 距离指示它们是否属于同一单元格或相邻单元格。大于阈值(通常为 1-2 个字符宽度)的间隙表示列边界。阈值调整在合并相邻列和拆分单列之间进行权衡。
Excel 輸出使用 SheetJS 在記憶體中建構一個工作簿,每個偵測到的表都位於自己的工作表上,名為 Sheet1、Sheet2 等。该工作簿被序列化为 .xlsx (Office Open XML) 格式并提供下载。结果在 Excel 2007+、Google Sheets、LibreOffice Calc 和 Apple Numbers 中打开。