Chuyển đổi miễn phí

PDF sang Trình chuyển đổi Excel (XLSX)

Trích xuất bảng và văn bản từ PDF rồi chuyển đổi chúng sang bảng tính Excel XLSX một cách an toàn trong trình duyệt của bạn.

Thả tệp PDF vào đây

hoặc bấm để chọn tập tin

Hoặc

Về công cụ này

Kéo dữ liệu dạng bảng ra khỏi tệp PDF và vào bảng tính là một trong những quy trình xử lý tài liệu phổ biến nhất trong các văn phòng xử lý hóa đơn, báo cáo tài chính, bài báo khoa học và dữ liệu chính phủ. Định dạng PDF vốn không hiểu các bảng — nó chỉ mô tả các vị trí hình tượng trên một trang — vì vậy, việc chuyển đổi sang Excel yêu cầu suy ra cấu trúc bảng từ hình học của văn bản. Nơi một ô kết thúc và ô tiếp theo bắt đầu phải được đoán từ khoảng trắng ngang; nơi một hàng kết thúc và hàng tiếp theo bắt đầu, từ khoảng trắng dọc.

Công cụ này phân tích cú pháp tệp PDF bằng PDF.js, trích xuất các mục văn bản bằng các hộp giới hạn của chúng và phân cụm các mục thành hàng và cột dựa trên vị trí. Bảng được phát hiện được ghi vào sổ làm việc Excel bằng thư viện SheetJS xlsx. Đầu ra là tệp .xlsx tiêu chuẩn mở trong Excel, Google Trang tính, Numbers hoặc bất kỳ ứng dụng bảng tính nào khác.

Việc trích xuất bảng PDF thực sự khó và không có trình trích xuất nào tạo ra kết quả hoàn hảo trên mọi tệp PDF. Các bảng có ranh giới cột nhất quán, không có ô được hợp nhất và căn chỉnh dọc rõ ràng sẽ chuyển đổi rõ ràng. Các bảng có ô được hợp nhất, mục nhập nhiều dòng, chú thích cuối trang hoặc bố cục bất thường thường cần dọn dẹp thủ công sau khi trích xuất. Lập kế hoạch để xem xét.

Tại sao chuyển đổi PDF sang Excel

Lý do hầu như luôn luôn là phân tích. Dữ liệu bị mắc kẹt trong tệp PDF không thể được sắp xếp, lọc, tổng hợp, lập biểu đồ hoặc xoay vòng. Khi đã có trong Excel, mọi thao tác bảng tính tiêu chuẩn sẽ khả dụng — và điều đó mở ra sự khác biệt giữa việc nhìn chằm chằm vào một báo cáo tĩnh và thực sự làm việc với các con số trong đó.

Không thể làm việc với dữ liệu hàng loạt trong PDF. Việc tổng hợp số liệu hàng quý trên nhiều báo cáo PDF, so sánh chi tiết đơn hàng giữa các nhà cung cấp hoặc kéo các cột cụ thể để phân tích tiếp theo, tất cả đều yêu cầu chuyển dữ liệu sang định dạng hỗ trợ các hoạt động đó. Excel và CSV là những định dạng đó. Sự hoán cải là chiếc cầu.

Cách sử dụng

Thả một tệp PDF chứa dữ liệu dạng bảng, lấy một sổ làm việc với mỗi bảng trên một trang tính riêng.

  1. Tải lên bản PDF của bạn: Kéo tệp vào khu vực tải lên hoặc nhấp để duyệt. Các tập tin lên tới 50 MB được hỗ trợ. PDF phải chứa văn bản thực tế; các tệp PDF được quét cần OCR trước tiên.
  2. Chờ phát hiện bảng: PDF.js trích xuất các mục văn bản và vị trí của chúng. Bộ chuyển đổi nhóm các mục thành hàng và cột bằng cách phân tích căn chỉnh ngang và dọc. Quá trình phát hiện mất vài giây đối với các tài liệu ngắn và lâu hơn đối với các bảng nhiều trang.
  3. Xem lại các bảng được phát hiện: Các bảng được phát hiện sẽ được xem trước trước khi tải xuống. Xác nhận các cột và hàng khớp với những gì bạn mong đợi; những sai lệch ở đây sẽ trở thành việc dọn dẹp Excel sau này.
  4. Tải xuống dưới dạng XLSX: Trình chuyển đổi ghi từng bảng được phát hiện vào một trang tính riêng biệt trong sổ làm việc .xlsx bằng SheetJS. Mở kết quả trong Excel hoặc Google Trang tính và xóa mọi vấn đề còn sót lại.

Các trường hợp sử dụng phổ biến

Chi tiết kỹ thuật

PDF.js hiển thị API getTextContent trả về các mục văn bản cùng với hộp giới hạn của chúng. Mỗi mục có một chuỗi, ma trận biến đổi (cho vị trí và góc quay) và chiều rộng/chiều cao. Bộ chuyển đổi sắp xếp các mục theo tọa độ Y để xác định các dòng, sau đó sắp xếp các mục trong mỗi dòng theo tọa độ X. Các mục ở vị trí Y rất giống nhau tạo thành một hàng.

Tính năng phát hiện cột sử dụng phân tích khoảng cách: khoảng cách X giữa các mục liên tiếp trong một hàng cho biết chúng thuộc về cùng một ô hay các ô liền kề. Khoảng cách lớn hơn ngưỡng (thường có độ rộng từ 1–2 ký tự) báo hiệu ranh giới cột. Điều chỉnh ngưỡng cân bằng giữa việc hợp nhất các cột liền kề và tách các cột đơn lẻ.

Đầu ra Excel sử dụng SheetJS để xây dựng một sổ làm việc trong bộ nhớ, với mỗi bảng được phát hiện trên trang tính riêng của nó có tên là Sheet1, Sheet2, v.v. Sổ làm việc được tuần tự hóa sang định dạng .xlsx (Office Open XML) và được cung cấp dưới dạng bản tải xuống. Kết quả mở ra trong Excel 2007+, Google Sheets, LibreOffice Calc và Apple Numbers.

Thực tiễn tốt nhất

Câu hỏi thường gặp

Việc chuyển đổi PDF sang EXCEL có làm thay đổi nội dung không?
Nội dung được bảo quản chính xác nhất có thể. Tuy nhiên, một số tính năng dành riêng cho định dạng có thể không có tính năng tương đương trực tiếp, do đó có thể xảy ra những khác biệt nhỏ về định dạng.
Định dạng EXCEL dùng để làm gì?
XLSX (Bảng tính Microsoft Excel) chủ yếu được sử dụng cho các bảng tính có công thức, biểu đồ và phân tích dữ liệu.
Có bất kỳ hạn chế nào cần lưu ý không?
Các tập tin lên tới 50 MB được hỗ trợ. Các tệp rất lớn hoặc phức tạp có thể mất nhiều thời gian hơn để xử lý. Tất cả chuyển đổi diễn ra trong trình duyệt của bạn, vì vậy tốc độ xử lý phụ thuộc vào thiết bị của bạn.
Dữ liệu tài liệu của tôi có được bảo mật không?
Đúng. Quá trình xử lý tài liệu chạy hoàn toàn trong trình duyệt của bạn. Các tập tin của bạn và nội dung của chúng không bao giờ được tải lên bất kỳ máy chủ nào. Điều này giúp việc chuyển đổi các tài liệu nhạy cảm hoặc bí mật trở nên an toàn.
Định dạng đầu ra nào được tạo ra?
.xlsx (Office Open XML), định dạng Excel hiện đại. Tệp mở trong Excel 2007+, Google Trang tính, LibreOffice Calc, Apple Numbers và bất kỳ bảng tính hiện đại nào khác.
Bản PDF của tôi có được tải lên máy chủ không?
Không. Quá trình phân tích cú pháp và tạo Excel diễn ra trong trình duyệt của bạn bằng PDF.js và SheetJS.
Kích thước tập tin tối đa là bao nhiêu?
50 MB. Thời gian chuyển đổi phụ thuộc vào độ phức tạp của tài liệu chứ không chỉ riêng kích thước tệp — một tệp PDF nặng 50 MB có đồ họa có thể mất nhiều thời gian để trích xuất hơn một tệp có nhiều văn bản.
Tại sao số của tôi lại ở sai cột?
Hầu như luôn luôn là do ngưỡng phát hiện cột của trình chuyển đổi không khớp với bố cục thực tế của tệp PDF. Mở tệp PDF nguồn, xem vị trí các cột bị ngắt một cách trực quan và dịch chuyển các ô trong Excel theo cách thủ công nếu cần.