PDF в Конвертер Excel (XLSX).
Витягуйте таблиці та текст із PDF-файлу та безпечно перетворюйте їх на електронні таблиці Excel XLSX у своєму браузері.
Перетягніть файл PDF сюди
або натисніть, щоб вибрати файл
Витягуйте таблиці та текст із PDF-файлу та безпечно перетворюйте їх на електронні таблиці Excel XLSX у своєму браузері.
або натисніть, щоб вибрати файл
Вилучення табличних даних із PDF-файлу в електронну таблицю є одним із найпоширеніших процесів роботи з документами в офісах, які обробляють рахунки-фактури, фінансові звіти, наукові статті та державні дані. Формат PDF не підтримує таблиці — він просто описує позиції гліфів на сторінці — тому для перетворення в Excel потрібно визначити структуру таблиці з геометрії тексту. Де закінчується одна клітинка і починається наступна, потрібно вгадати за горизонтальним пробілом; де закінчується один рядок і починається наступний, з вертикального пробілу.
Цей інструмент аналізує PDF-файл за допомогою PDF.js, витягує текстові елементи з їх обмежувальними рамками та групує елементи в рядки та стовпці на основі позиції. Виявлена таблиця записується в книгу Excel за допомогою бібліотеки SheetJS xlsx. Результатом є стандартний файл .xlsx, який відкривається в Excel, Google Sheets, Numbers або будь-якій іншій програмі для роботи з електронними таблицями.
Вилучення таблиці PDF справді складне, і жоден екстрактор не дає ідеальних результатів для кожного PDF-файлу. Таблиці з узгодженими межами стовпців, без об’єднаних клітинок і чітким вертикальним вирівнюванням чітко конвертуються. Таблиці з об’єднаними клітинками, багаторядковими записами, виносками або незвичними макетами зазвичай потребують ручного очищення після вилучення. План для перегляду.
Майже завжди причиною є аналіз. Дані, збережені в PDF-файлі, не можна сортувати, фільтрувати, підсумовувати, складати діаграми чи зводити. У Excel стають доступними всі стандартні операції з електронною таблицею — і це відкриває різницю між переглядом статичного звіту та фактичною роботою з числами в ньому.
Масова робота з даними неможлива в PDF. Агрегування квартальних показників у кількох звітах у форматі PDF, порівняння позицій між постачальниками або отримання певних стовпців для подальшого аналізу – усе це вимагає переведення даних у формат, який підтримує ці операції. Це формати Excel і CSV. Конверсія – це міст.
Перетягніть PDF-файл із табличними даними та отримайте робочу книгу з кожною таблицею на окремому аркуші.
PDF.js надає API getTextContent, який повертає текстові елементи з їх рамками. Кожен елемент має рядок, матрицю перетворення (для положення та обертання) і ширину/висоту. Конвертер сортує елементи за Y-координатою, щоб визначити лінії, а потім у кожному рядку за X-координатою. Елементи в дуже схожих Y-позиціях утворюють ряд.
Виявлення стовпців використовує аналіз пропусків: відстань X між послідовними елементами в рядку вказує, чи належать вони до однієї клітинки чи суміжних клітинок. Проміжок, більший за порогове значення (зазвичай 1–2 символи), вказує на межу стовпця. Настроювання порогового значення компроміс між об’єднанням суміжних стовпців і розділенням окремих стовпців.
Вихід Excel використовує SheetJS для створення робочої книги в пам’яті з кожною виявленою таблицею на окремому аркуші під назвою Sheet1, Sheet2 тощо. Робоча книга серіалізується у форматі .xlsx (Office Open XML) і пропонується для завантаження. Результат відкривається в Excel 2007+, Google Sheets, LibreOffice Calc і Apple Numbers.