PDF в Excel (XLSX)
Бесплатно и безопасно извлекайте таблицы и текст из PDF и конвертируйте их в электронные таблицы Excel XLSX в вашем браузере.
Перетащите файл PDF сюда
или нажмите, чтобы выбрать файл
Бесплатно и безопасно извлекайте таблицы и текст из PDF и конвертируйте их в электронные таблицы Excel XLSX в вашем браузере.
или нажмите, чтобы выбрать файл
Извлечение табличных данных из PDF-файла в электронную таблицу — один из наиболее распространенных процессов документооборота в офисах, которые обрабатывают счета, финансовые отчеты, научные статьи и правительственные данные. Формат PDF изначально не поддерживает таблицы — он просто описывает положение глифов на странице, поэтому преобразование в Excel требует определения структуры таблицы на основе геометрии текста. Где заканчивается одна ячейка и начинается следующая, можно угадать по горизонтальным пробелам; где заканчивается одна строка и начинается следующая, от вертикального пробела.
Этот инструмент анализирует PDF-файл с помощью PDF.js, извлекает текстовые элементы с их ограничивающими рамками и группирует элементы в строки и столбцы в зависимости от положения. Обнаруженная таблица записывается в книгу Excel с использованием библиотеки SheetJS xlsx. Результатом является стандартный файл .xlsx, который открывается в Excel, Google Sheets, Numbers или любом другом приложении для работы с электронными таблицами.
Извлечение таблиц PDF действительно сложно, и ни один экстрактор не дает идеальных результатов для каждого PDF-файла. Таблицы с одинаковыми границами столбцов, без объединенных ячеек и четким вертикальным выравниванием преобразуются без проблем. Таблицы с объединенными ячейками, многострочными записями, сносками или необычным макетом обычно требуют ручной очистки после извлечения. Планируйте обзор.
Причина почти всегда в анализе. Данные, содержащиеся в PDF-файле, невозможно сортировать, фильтровать, суммировать, отображать в виде диаграмм или поворачивать. Как только он появится в Excel, станут доступны все стандартные операции с электронными таблицами — и это открывает разницу между просмотром статического отчета и фактической работой с числами в нем.
Работа с большими объемами данных в формате PDF невозможна. Агрегирование квартальных данных в нескольких отчетах в формате PDF, сравнение отдельных позиций разных поставщиков или извлечение определенных столбцов для последующего анализа — все это требует перевода данных в формат, поддерживающий эти операции. Excel и CSV — это такие форматы. Конверсия – это мост.
Отбросьте PDF-файл, содержащий табличные данные, и получите книгу с каждой таблицей на отдельном листе.
PDF.js предоставляет API getTextContent, который возвращает текстовые элементы с их ограничивающими рамками. Каждый элемент имеет строку, матрицу преобразования (для положения и вращения) и ширину/высоту. Конвертер сортирует элементы по координате Y для идентификации строк, а затем внутри каждой строки по координате X. Элементы, находящиеся в очень похожих позициях Y, образуют ряд.
Для обнаружения столбцов используется анализ пробелов: расстояние по X между последовательными элементами в строке указывает, принадлежат ли они к одной и той же ячейке или к соседним ячейкам. Пробел, превышающий пороговое значение (обычно ширина 1–2 символа), сигнализирует о границе столбца. Настройка порога позволяет найти компромисс между объединением соседних столбцов и разделением отдельных столбцов.
При выводе Excel используется SheetJS для создания книги в памяти, где каждая обнаруженная таблица находится на отдельном листе с именем Лист1, Лист2 и т. д. Книга сериализуется в формат .xlsx (Office Open XML) и предлагается для загрузки. Результат открывается в Excel 2007+, Google Sheets, LibreOffice Calc и Apple Numbers.