PDF sang Trình chuyển đổi HTML
Chuyển đổi tài liệu PDF thành các tệp HTML có ngữ nghĩa, rõ ràng trực tiếp trong trình duyệt của bạn. Nhanh chóng, an toàn và bảo tồn cấu trúc tài liệu.
Chọn tệp PDF
hoặc kéo thả vào đây
Chuyển đổi tài liệu PDF thành các tệp HTML có ngữ nghĩa, rõ ràng trực tiếp trong trình duyệt của bạn. Nhanh chóng, an toàn và bảo tồn cấu trúc tài liệu.
hoặc kéo thả vào đây
Chuyển đổi PDF sang HTML sẽ biến một tài liệu có bố cục cố định thành một trang web trôi chảy. Việc chuyển đổi giữ nguyên nội dung văn bản, tiêu đề, đoạn văn và kiểu dáng cơ bản trong khi loại bỏ bố cục pixel chính xác của PDF để chuyển sang luồng phản hồi của HTML. Đây là giao dịch đúng đắn đối với các tài liệu được xuất bản lại dưới dạng nội dung web - bài báo, báo cáo, tài liệu kỹ thuật - và giao dịch sai đối với các tài liệu có bố cục thiết yếu - biểu mẫu, hóa đơn có định vị nghiêm ngặt, các phần tiếp thị được thiết kế.
Công cụ này sử dụng PDF.js để trích xuất văn bản, phông chữ và cấu trúc cơ bản từ PDF, sau đó viết đánh dấu HTML tương ứng bằng CSS nhúng cho kiểu chữ. Đầu ra là một tệp .html độc lập mà bạn có thể mở trong bất kỳ trình duyệt nào, dán vào CMS hoặc tạo kiểu khác bằng CSS tùy chỉnh. Không có tải lên nào xảy ra; quá trình chuyển đổi chạy trong trình duyệt của bạn.
Hai kiểu đầu ra được hỗ trợ. HTML ngữ nghĩa tạo ra đánh dấu rõ ràng với các phần tử đoạn văn và tiêu đề, phù hợp để xuất bản lại nội dung trên blog hoặc trang tài liệu. Visual HTML bảo tồn nhiều bố cục của tệp PDF hơn thông qua định vị tuyệt đối, phù hợp khi hình thức của tài liệu quan trọng hơn khả năng tái lưu chuyển.
Các tệp PDF không hoạt động tốt trên web. Trình duyệt trên thiết bị di động hiển thị các tệp PDF một cách lúng túng, trình đọc màn hình xử lý chúng không nhất quán, công cụ tìm kiếm thu thập dữ liệu nhưng xếp hạng chúng thấp hơn HTML tương đương và việc nhúng tệp PDF vào trang web tạo ra trình xem trong iframe phức tạp thay vì trải nghiệm gốc. Việc chuyển đổi sang HTML sẽ tạo ra nội dung hoạt động theo cách hoạt động của web.
HTML cũng có thể chỉnh sửa được. Khi nội dung của tệp PDF ở dạng HTML, bạn có thể thay đổi kiểu chữ, cơ cấu lại các phần, thêm các yếu tố tương tác và tích hợp nội dung với các trang web khác. PDF chống lại tất cả các hoạt động đó.
Thả tệp PDF, chọn kiểu đầu ra, tạo.
PDF.js hiển thị nội dung văn bản dưới dạng các mục có hộp giới hạn, phông chữ và chuỗi Unicode. Trình chuyển đổi sắp xếp các mục theo Y rồi X để khôi phục thứ tự đọc, nhóm các mục có đường cơ sở tương tự thành các dòng và nhóm các dòng thành các đoạn văn dựa trên khoảng cách dọc.
Tính năng phát hiện tiêu đề sử dụng phân tích kích thước phông chữ: kích thước lớn hơn đáng kể so với phông chữ nội dung sẽ trở thành tiêu đề, với phông chữ lớn nhất được ánh xạ tới h1, lớn nhất tiếp theo là h2, v.v. Tính năng phát hiện danh sách tìm kiếm các dòng bắt đầu bằng ký tự dấu đầu dòng hoặc chuỗi số.
HTML đầu ra là độc lập: doctype, phần đầu có CSS nhúng cho kiểu chữ, phần nội dung có nội dung được chuyển đổi. Hình ảnh nội tuyến từ tệp PDF hiện không được nhúng; chúng vẫn là một hạn chế đã biết. Đầu ra xác nhận là HTML5.