PDF sang Trình chuyển đổi Excel (XLSX)
Trích xuất bảng và văn bản từ PDF rồi chuyển đổi chúng sang bảng tính Excel XLSX một cách an toàn trong trình duyệt của bạn.
Thả tệp PDF vào đây
hoặc bấm để chọn tập tin
Trích xuất bảng và văn bản từ PDF rồi chuyển đổi chúng sang bảng tính Excel XLSX một cách an toàn trong trình duyệt của bạn.
hoặc bấm để chọn tập tin
Kéo dữ liệu dạng bảng ra khỏi tệp PDF và vào bảng tính là một trong những quy trình xử lý tài liệu phổ biến nhất trong các văn phòng xử lý hóa đơn, báo cáo tài chính, bài báo khoa học và dữ liệu chính phủ. Định dạng PDF vốn không hiểu các bảng — nó chỉ mô tả các vị trí hình tượng trên một trang — vì vậy, việc chuyển đổi sang Excel yêu cầu suy ra cấu trúc bảng từ hình học của văn bản. Nơi một ô kết thúc và ô tiếp theo bắt đầu phải được đoán từ khoảng trắng ngang; nơi một hàng kết thúc và hàng tiếp theo bắt đầu, từ khoảng trắng dọc.
Công cụ này phân tích cú pháp tệp PDF bằng PDF.js, trích xuất các mục văn bản bằng các hộp giới hạn của chúng và phân cụm các mục thành hàng và cột dựa trên vị trí. Bảng được phát hiện được ghi vào sổ làm việc Excel bằng thư viện SheetJS xlsx. Đầu ra là tệp .xlsx tiêu chuẩn mở trong Excel, Google Trang tính, Numbers hoặc bất kỳ ứng dụng bảng tính nào khác.
Việc trích xuất bảng PDF thực sự khó và không có trình trích xuất nào tạo ra kết quả hoàn hảo trên mọi tệp PDF. Các bảng có ranh giới cột nhất quán, không có ô được hợp nhất và căn chỉnh dọc rõ ràng sẽ chuyển đổi rõ ràng. Các bảng có ô được hợp nhất, mục nhập nhiều dòng, chú thích cuối trang hoặc bố cục bất thường thường cần dọn dẹp thủ công sau khi trích xuất. Lập kế hoạch để xem xét.
Lý do hầu như luôn luôn là phân tích. Dữ liệu bị mắc kẹt trong tệp PDF không thể được sắp xếp, lọc, tổng hợp, lập biểu đồ hoặc xoay vòng. Khi đã có trong Excel, mọi thao tác bảng tính tiêu chuẩn sẽ khả dụng — và điều đó mở ra sự khác biệt giữa việc nhìn chằm chằm vào một báo cáo tĩnh và thực sự làm việc với các con số trong đó.
Không thể làm việc với dữ liệu hàng loạt trong PDF. Việc tổng hợp số liệu hàng quý trên nhiều báo cáo PDF, so sánh chi tiết đơn hàng giữa các nhà cung cấp hoặc kéo các cột cụ thể để phân tích tiếp theo, tất cả đều yêu cầu chuyển dữ liệu sang định dạng hỗ trợ các hoạt động đó. Excel và CSV là những định dạng đó. Sự hoán cải là chiếc cầu.
Thả một tệp PDF chứa dữ liệu dạng bảng, lấy một sổ làm việc với mỗi bảng trên một trang tính riêng.
PDF.js hiển thị API getTextContent trả về các mục văn bản cùng với hộp giới hạn của chúng. Mỗi mục có một chuỗi, ma trận biến đổi (cho vị trí và góc quay) và chiều rộng/chiều cao. Bộ chuyển đổi sắp xếp các mục theo tọa độ Y để xác định các dòng, sau đó sắp xếp các mục trong mỗi dòng theo tọa độ X. Các mục ở vị trí Y rất giống nhau tạo thành một hàng.
Tính năng phát hiện cột sử dụng phân tích khoảng cách: khoảng cách X giữa các mục liên tiếp trong một hàng cho biết chúng thuộc về cùng một ô hay các ô liền kề. Khoảng cách lớn hơn ngưỡng (thường có độ rộng từ 1–2 ký tự) báo hiệu ranh giới cột. Điều chỉnh ngưỡng cân bằng giữa việc hợp nhất các cột liền kề và tách các cột đơn lẻ.
Đầu ra Excel sử dụng SheetJS để xây dựng một sổ làm việc trong bộ nhớ, với mỗi bảng được phát hiện trên trang tính riêng của nó có tên là Sheet1, Sheet2, v.v. Sổ làm việc được tuần tự hóa sang định dạng .xlsx (Office Open XML) và được cung cấp dưới dạng bản tải xuống. Kết quả mở ra trong Excel 2007+, Google Sheets, LibreOffice Calc và Apple Numbers.