Безкоштовний конвертер

PDF в Конвертер Excel (XLSX).

Витягуйте таблиці та текст із PDF-файлу та безпечно перетворюйте їх на електронні таблиці Excel XLSX у своєму браузері.

Перетягніть файл PDF сюди

або натисніть, щоб вибрати файл

Або

Про цей інструмент

Вилучення табличних даних із PDF-файлу в електронну таблицю є одним із найпоширеніших процесів роботи з документами в офісах, які обробляють рахунки-фактури, фінансові звіти, наукові статті та державні дані. Формат PDF не підтримує таблиці — він просто описує позиції гліфів на сторінці — тому для перетворення в Excel потрібно визначити структуру таблиці з геометрії тексту. Де закінчується одна клітинка і починається наступна, потрібно вгадати за горизонтальним пробілом; де закінчується один рядок і починається наступний, з вертикального пробілу.

Цей інструмент аналізує PDF-файл за допомогою PDF.js, витягує текстові елементи з їх обмежувальними рамками та групує елементи в рядки та стовпці на основі позиції. Виявлена ​​таблиця записується в книгу Excel за допомогою бібліотеки SheetJS xlsx. Результатом є стандартний файл .xlsx, який відкривається в Excel, Google Sheets, Numbers або будь-якій іншій програмі для роботи з електронними таблицями.

Вилучення таблиці PDF справді складне, і жоден екстрактор не дає ідеальних результатів для кожного PDF-файлу. Таблиці з узгодженими межами стовпців, без об’єднаних клітинок і чітким вертикальним вирівнюванням чітко конвертуються. Таблиці з об’єднаними клітинками, багаторядковими записами, виносками або незвичними макетами зазвичай потребують ручного очищення після вилучення. План для перегляду.

Навіщо конвертувати PDF в Excel

Майже завжди причиною є аналіз. Дані, збережені в PDF-файлі, не можна сортувати, фільтрувати, підсумовувати, складати діаграми чи зводити. У Excel стають доступними всі стандартні операції з електронною таблицею — і це відкриває різницю між переглядом статичного звіту та фактичною роботою з числами в ньому.

Масова робота з даними неможлива в PDF. Агрегування квартальних показників у кількох звітах у форматі PDF, порівняння позицій між постачальниками або отримання певних стовпців для подальшого аналізу – усе це вимагає переведення даних у формат, який підтримує ці операції. Це формати Excel і CSV. Конверсія – це міст.

Як використовувати

Перетягніть PDF-файл із табличними даними та отримайте робочу книгу з кожною таблицею на окремому аркуші.

  1. Завантажте свій PDF: Перетягніть файл у область завантаження або натисніть, щоб переглянути. Підтримуються файли розміром до 50 Мб. PDF має містити справжній текст; відскановані PDF-файли спочатку потребують OCR.
  2. Зачекайте на виявлення таблиці: PDF.js витягує текстові елементи та їх позиції. Конвертер кластеризує елементи в рядки та стовпці, аналізуючи горизонтальне та вертикальне вирівнювання. Виявлення займає секунди для коротких документів і довше для багатосторінкових таблиць.
  3. Перегляньте виявлені таблиці: Виявлені таблиці попередньо переглядаються перед завантаженням. Переконайтеся, що стовпці та рядки відповідають вашим очікуванням; невідповідності тут пізніше стануть очищенням Excel.
  4. Завантажити як XLSX: Конвертер записує кожну виявлену таблицю на окремий аркуш у робочій книзі .xlsx за допомогою SheetJS. Відкрийте результат у Excel або Google Таблицях і виправте будь-які залишкові проблеми.

Загальні випадки використання

Технічні деталі

PDF.js надає API getTextContent, який повертає текстові елементи з їх рамками. Кожен елемент має рядок, матрицю перетворення (для положення та обертання) і ширину/висоту. Конвертер сортує елементи за Y-координатою, щоб визначити лінії, а потім у кожному рядку за X-координатою. Елементи в дуже схожих Y-позиціях утворюють ряд.

Виявлення стовпців використовує аналіз пропусків: відстань X між послідовними елементами в рядку вказує, чи належать вони до однієї клітинки чи суміжних клітинок. Проміжок, більший за порогове значення (зазвичай 1–2 символи), вказує на межу стовпця. Настроювання порогового значення компроміс між об’єднанням суміжних стовпців і розділенням окремих стовпців.

Вихід Excel використовує SheetJS для створення робочої книги в пам’яті з кожною виявленою таблицею на окремому аркуші під назвою Sheet1, Sheet2 тощо. Робоча книга серіалізується у форматі .xlsx (Office Open XML) і пропонується для завантаження. Результат відкривається в Excel 2007+, Google Sheets, LibreOffice Calc і Apple Numbers.

Найкращі практики

Поширені запитання

Чи змінює вміст конвертування PDF у EXCEL?
Вміст збережено максимально точно. Проте деякі особливості формату можуть не мати прямих еквівалентів, тому можуть виникнути незначні відмінності у форматуванні.
Для чого використовується формат EXCEL?
XLSX (електронна таблиця Microsoft Excel) в основному використовується для електронних таблиць із формулами, діаграмами та аналізом даних.
Чи є якісь обмеження, про які варто знати?
Підтримуються файли розміром до 50 МБ. Обробка дуже великих або складних файлів може тривати довше. Усі перетворення відбуваються у вашому браузері, тому швидкість обробки залежить від вашого пристрою.
Чи дані мого документа захищені?
так Обробка документів повністю виконується у вашому браузері. Ваші файли та їхній вміст ніколи не завантажуються на сервери. Це робить безпечним конвертування чутливих або конфіденційних документів.
Який вихідний формат створюється?
.xlsx (Office Open XML), сучасний формат Excel. Файл відкривається в Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers та будь-якій іншій сучасній електронній таблиці.
Чи мій PDF-файл завантажено на сервер?
Ні. Розбір і генерація Excel відбуваються у вашому браузері за допомогою PDF.js і SheetJS.
Який максимальний розмір файлу?
50 Мб. Час перетворення залежить від складності документа, а не лише від розміру файлу — PDF-файл розміром 50 МБ із вмістом графіки може видобуватись довше, ніж файл із вмістом тексту.
Чому мої цифри в неправильних стовпцях?
Майже завжди, тому що поріг виявлення стовпців конвертера не збігався з фактичним макетом PDF-файлу. Відкрийте вихідний PDF-файл, подивіться, де стовпці візуально розриваються, і за потреби вручну перемістіть клітинки в Excel.