免費轉換器

PDF 轉 Excel (XLSX)

從PDF中提取表格和文本,並在您的瀏覽器中安全地將它們免費轉換為Excel XLSX電子表格。

將 PDF 檔案拖放到此處

或點擊以選擇檔案

關於此工具

將表格資料從 PDF 中提取到電子表格中是處理發票、財務報告、科學論文和政府資料的辦公室中最常見的文件工作流程之一。 PDF 格式本身並不理解表格,它只是描述頁面上的字形位置,因此轉換為 Excel 需要從文字的幾何形狀推斷表格結構。必須根據水平空白來猜測一個單元格的結束位置和下一個單元格的開始位置;其中一行結束,下一行從垂直空白開始。

該工具使用 PDF.js 解析 PDF,提取文字項目及其邊界框,並根據位置將項目聚類為行和列。使用 SheetJS xlsx 庫將偵測到的表寫入 Excel 工作簿。輸出是標準 .xlsx 文件,可在 Excel、Google Sheets、Numbers 或任何其他電子表格應用程式中開啟。

PDF 表格提取確實很困難,並且沒有提取器能夠在每個 PDF 上產生完美的結果。具有一致列邊界、無合併儲存格和清晰垂直對齊的表格可以乾淨地轉換。具有合併儲存格、多行條目、腳註或不尋常佈局的表格通常需要在提取後進行手動清理。計劃審查。

為什麼要將 PDF 轉換為 Excel

原因幾乎總是分析。 PDF 中擷取的資料無法排序、過濾、求和、繪製圖表或旋轉。一旦進入 Excel,所有標準電子表格操作都變得可用,這開啟了盯著靜態報告和實際處理其中的數字之間的差異。

PDF 中無法進行大量資料處理。匯總多個 PDF 報告中的季度資料、比較不同供應商的行項目或提取特定列進行下游分析都需要將資料轉換為支援這些操作的格式。 Excel 和 CSV 就是這些格式。轉換是橋樑。

使用方法

刪除包含表格資料的 PDF,取得每個表格都位於自己的工作表上的工作簿。

  1. 上傳您的 PDF: 將檔案拖曳到上傳區域或點選瀏覽。支援最大 50 MB 的檔案。 PDF 必須包含實際文字;掃描的 PDF 首先需要 OCR。
  2. 等待表檢測: PDF.js 提取文字項目及其位置。轉換器透過分析水平和垂直對齊方式將項目聚類為行和列。對於短文檔,檢測需要幾秒鐘的時間;對於多頁表,檢測需要更長的時間。
  3. 查看偵測到的表: 下載前預覽偵測到的表。確認列和行符合您的預期;這裡的錯位稍後將成為 Excel 清理。
  4. 下載為 XLSX: 轉換器使用 SheetJS 將每個偵測到的表寫入 .xlsx 工作簿中的單獨工作表。在 Excel 或 Google Sheets 中開啟結果並清除所有殘留問題。

常見用例

技術細節

PDF.js 公开了一个 getTextContent API,该 API 返回文本项及其边界框。每个项目都有一个字符串、一个变换矩阵(用于位置和旋转)和宽度/高度。转换器按 Y 坐标对项目进行排序以识别行,然后按 X 坐标在每行内排序。 Y 位置非常相似的項目形成一行。

列检测使用间隙分析:行中连续项目之间的 X 距离指示它们是否属于同一单元格或相邻单元格。大于阈值(通常为 1-2 个字符宽度)的间隙表示列边界。阈值调整在合并相邻列和拆分单列之间进行权衡。

Excel 輸出使用 SheetJS 在記憶體中建構一個工作簿,每個偵測到的表都位於自己的工作表上,名為 Sheet1、Sheet2 等。该工作簿被序列化为 .xlsx (Office Open XML) 格式并提供下载。结果在 Excel 2007+、Google Sheets、LibreOffice Calc 和 Apple Numbers 中打开。

最佳實踐

常見問題

將PDF轉換為EXCEL會改變內容嗎?
盡可能準確地保留內容。但是,某些特定於格式的功能可能沒有直接等效項,因此可能會出現細微的格式差異。
EXCEL格式有什麼用?
XLSX(Microsoft Excel 電子表格)主要用於包含公式、圖表和資料分析的電子表格。
有什麼限制需要注意嗎?
支援最大 50MB 的檔案。非常大或複雜的文件可能需要更長的時間來處理。所有轉換都發生在您的瀏覽器中,因此處理速度取決於您的裝置。
我的文件資料安全嗎?
是的。文檔處理完全在您的瀏覽器中運行。您的文件及其內容永遠不會上傳到任何伺服器。這使得轉換敏感或機密文件變得安全。
產生什麼輸出格式?
.xlsx(Office Open XML),現代 Excel 格式。該文件可以在 Excel 2007+、Google Sheets、LibreOffice Calc、Apple Numbers 和任何其他現代電子表格中開啟。
我的 PDF 是否上傳到伺服器?
不會。解析和 Excel 產生是在瀏覽器中使用 PDF.js 和 SheetJS 進行的。
最大檔案大小是多少?
50 MB。轉換時間取決於文件​​的複雜性,而不僅僅取決於文件​​大小 - 包含大量圖形的 50 MB PDF 可能比提取包含文字的 PDF 需要更長的時間。
為什麼我的數字會出現在錯誤的欄位中?
幾乎總是因為轉換器的列檢測閾值與 PDF 的實際佈局不匹配。開啟來源 PDF,查看列在視覺上中斷的位置,並根據需要手動移動 Excel 中的儲存格。