PDF 轉 HTML 轉換器
直接在瀏覽器中將 PDF 文檔轉換為簡潔、語義化的 HTML 文件。快速、安全且保留文檔結構。
選擇 PDF 檔案
或將檔案拖放到此處
直接在瀏覽器中將 PDF 文檔轉換為簡潔、語義化的 HTML 文件。快速、安全且保留文檔結構。
或將檔案拖放到此處
將 PDF 轉換為 HTML 可將固定版面的文件轉換為流動的網頁。轉換保留了文字內容、標題、段落和基本樣式,同時放棄了 PDF 的精確像素佈局,轉而採用 HTML 的響應式流程。對於以網頁內容形式重新發布的文件(文章、報告、技術文件)來說,這是正確的做法,而對於佈局至關重要的文件(表格、具有嚴格定位的發票、設計的行銷作品)來說,這是錯誤的做法。
該工具使用 PDF.js 從 PDF 中提取文字、字體和基本結構,然後使用嵌入的 CSS 編寫相應的 HTML 標記進行排版。輸出是一個獨立的 .html 文件,您可以在任何瀏覽器中開啟、貼上到 CMS 中或使用自訂 CSS 進一步設定樣式。沒有發生上傳;轉換在您的瀏覽器中運行。
支援兩種輸出樣式。語意 HTML 產生帶有段落和標題元素的乾淨標記,適合在部落格或文件網站上重新發佈內容。視覺化 HTML 透過絕對定位保留更多 PDF 佈局,適用於文件外觀比可重排性更重要的情況。
PDF 無法在網路上很好地使用。行動瀏覽器渲染 PDF 的方式很笨拙,螢幕閱讀器處理它們的方式不一致,搜尋引擎抓取它們但將它們排名低於同等的 HTML,並且在網頁中嵌入 PDF 會產生笨重的 iframe 檢視器,而不是本機體驗。轉換為 HTML 會產生以 Web 方式運作的內容。
HTML 也是可編輯的。一旦 PDF 的內容採用 HTML 形式,您就可以更改版面配置、重組部分、新增互動元素以及將內容與其他網頁整合。 PDF 抵抗所有這些操作。
拖放 PDF,選擇輸出樣式,產生。
PDF.js 將文字內容公開為具有邊框、字型和 Unicode 字串的項目。轉換器按 Y 然後 X 對項目進行排序以恢復閱讀順序,將相似基線的項目分組為行,並根據垂直間距將行聚類為段落。
標題偵測使用字體大小分析:明顯大於正文字體的大小成為標題,最大的映射到 h1,次大的映射到 h2,依此類推。清單偵測尋找以項目符號字元或數字序列開頭的行。
輸出的 HTML 是獨立的:doctype、帶有用於排版的嵌入式 CSS 的 head、帶有轉換內容的 body。目前未嵌入 PDF 中的內嵌影像;它們仍然是一個已知的限制。輸出驗證為 HTML5。