PDF 轉 字 (DOCX)
在您的瀏覽器中直接從PDF中提取文本並將其轉換為可編輯的Word格式。快速、安全且保護隱私。
將 PDF 檔案拖放到此處
支援最大 50MB
在您的瀏覽器中直接從PDF中提取文本並將其轉換為可編輯的Word格式。快速、安全且保護隱私。
支援最大 50MB
PDF 和 DOCX (Microsoft Word) 使用完全不同的模型描述文件。 PDF 是一種固定佈局格式:每個字形在固定大小的頁面上都有一個明確的位置,使文件在呈現的任何地方看起來都相同。 DOCX 是一種串流佈局格式:段落、表格和標題以語義進行描述,渲染引擎根據當前頁面大小和字體可用性來決定它們在頁面上的位置。從 PDF 轉換為 DOCX 意味著將固定佈局逆向工程為 Word 可以重新流動的語意結構。
這種轉換本質上是有損的。 PDF 通常不保留標題層級、段落邊界、清單結構或表格語意;轉換器必須從字體大小、位置和項目符號字元推斷這些。簡單的基於文字的 PDF 可以乾淨地轉換。具有多列佈局、嵌入影像、腳註或不常見排版的複雜 PDF 通常需要在轉換後進行手動清理。
該工具在瀏覽器中使用 PDF.js 進行解析,並使用自訂佈局到 DOCX 編寫器來產生標準 Office Open XML 輸出。結果會在 Microsoft Word、LibreOffice Writer、Google Docs 和任何其他 DOCX 相容編輯器中開啟。沒有發生上傳;該檔案保留在您的裝置上。
可編輯性就是全部原因。 PDF 不利於編輯——您可以填寫表單欄位並進行註釋,但如果沒有專門的 PDF 編輯器,您就無法重排文字、更改段落樣式或重組內容,因為這些編輯器既要花錢又會產生不一致的結果。 DOCX 是為編輯而建構的。將 PDF 轉換為 DOCX 使內容易於修改、翻譯、重複利用或重新設計。
另一個原因是合作。 Word 和 Google 文件是辦公室、學校和大多數組織中文件協作的通用語言。評論線程、追蹤變更和共享編輯均採用 DOCX 或其雲端等效項。發送供審閱的 PDF 成為瓶頸; DOCX 透過標準協作工具流動。
拖放 PDF、產生、下載。預計之後會在 Word 中進行一些清理。
PDF.js 將每個 PDF 頁面解析為文字和圖形操作流程。文字擷取 API 傳回文字項目及其邊界框、字型資訊和 Unicode 解碼字串。根據這些項目,轉換器透過從上到下和從左到右排序、將具有相似基線的項目分組為行並將行分組為段落來重建閱讀順序。
DOCX 是一個包含 XML 檔案(document.xml、styles.xml,以及內容類型和關係清單)的 zip 檔案。此轉換器使用一系列段落 (w:p) 和運行 (w:r) 元素來建立 document.xml 內容,應用標題(標題 1、標題 2)的樣式引用(其中字體大小建議標題),並使用 JSZip 在記憶體中組裝 zip。
限制:列佈局並不總是正確重建。 PDF 中的表格將恢復為段落,除非佈局強烈建議表格結構。頁首、頁尾和腳註通常最終內嵌在正文中,而不是相應的 DOCX 區域中。 PDF 中嵌入的影像目前不會保留在 DOCX 輸出中。