Бесплатный конвертер

PDF в Excel (XLSX)

Бесплатно и безопасно извлекайте таблицы и текст из PDF и конвертируйте их в электронные таблицы Excel XLSX в вашем браузере.

Перетащите файл PDF сюда

или нажмите, чтобы выбрать файл

Или

Об этом инструменте

Извлечение табличных данных из PDF-файла в электронную таблицу — один из наиболее распространенных процессов документооборота в офисах, которые обрабатывают счета, финансовые отчеты, научные статьи и правительственные данные. Формат PDF изначально не поддерживает таблицы — он просто описывает положение глифов на странице, поэтому преобразование в Excel требует определения структуры таблицы на основе геометрии текста. Где заканчивается одна ячейка и начинается следующая, можно угадать по горизонтальным пробелам; где заканчивается одна строка и начинается следующая, от вертикального пробела.

Этот инструмент анализирует PDF-файл с помощью PDF.js, извлекает текстовые элементы с их ограничивающими рамками и группирует элементы в строки и столбцы в зависимости от положения. Обнаруженная таблица записывается в книгу Excel с использованием библиотеки SheetJS xlsx. Результатом является стандартный файл .xlsx, который открывается в Excel, Google Sheets, Numbers или любом другом приложении для работы с электронными таблицами.

Извлечение таблиц PDF действительно сложно, и ни один экстрактор не дает идеальных результатов для каждого PDF-файла. Таблицы с одинаковыми границами столбцов, без объединенных ячеек и четким вертикальным выравниванием преобразуются без проблем. Таблицы с объединенными ячейками, многострочными записями, сносками или необычным макетом обычно требуют ручной очистки после извлечения. Планируйте обзор.

Зачем конвертировать PDF в Excel

Причина почти всегда в анализе. Данные, содержащиеся в PDF-файле, невозможно сортировать, фильтровать, суммировать, отображать в виде диаграмм или поворачивать. Как только он появится в Excel, станут доступны все стандартные операции с электронными таблицами — и это открывает разницу между просмотром статического отчета и фактической работой с числами в нем.

Работа с большими объемами данных в формате PDF невозможна. Агрегирование квартальных данных в нескольких отчетах в формате PDF, сравнение отдельных позиций разных поставщиков или извлечение определенных столбцов для последующего анализа — все это требует перевода данных в формат, поддерживающий эти операции. Excel и CSV — это такие форматы. Конверсия – это мост.

Как использовать

Отбросьте PDF-файл, содержащий табличные данные, и получите книгу с каждой таблицей на отдельном листе.

  1. Загрузите свой PDF-файл: Перетащите файл в область загрузки или нажмите, чтобы просмотреть. Поддерживаются файлы размером до 50 МБ. PDF-файл должен содержать реальный текст; отсканированные PDF-файлы сначала требуют распознавания.
  2. Дождитесь обнаружения таблицы: PDF.js извлекает текстовые элементы и их позиции. Конвертер группирует элементы в строки и столбцы, анализируя горизонтальное и вертикальное выравнивание. Обнаружение занимает несколько секунд для коротких документов и дольше для многостраничных таблиц.
  3. Просмотр обнаруженных таблиц: Обнаруженные таблицы просматриваются перед загрузкой. Убедитесь, что столбцы и строки соответствуют вашим ожиданиям; несовпадения здесь станут очисткой Excel позже.
  4. Скачать в формате XLSX: Конвертер записывает каждую обнаруженную таблицу на отдельный лист книги .xlsx с помощью SheetJS. Откройте результат в Excel или Google Sheets и устраните все оставшиеся проблемы.

Общие случаи использования

Технические детали

PDF.js предоставляет API getTextContent, который возвращает текстовые элементы с их ограничивающими рамками. Каждый элемент имеет строку, матрицу преобразования (для положения и вращения) и ширину/высоту. Конвертер сортирует элементы по координате Y для идентификации строк, а затем внутри каждой строки по координате X. Элементы, находящиеся в очень похожих позициях Y, образуют ряд.

Для обнаружения столбцов используется анализ пробелов: расстояние по X между последовательными элементами в строке указывает, принадлежат ли они к одной и той же ячейке или к соседним ячейкам. Пробел, превышающий пороговое значение (обычно ширина 1–2 символа), сигнализирует о границе столбца. Настройка порога позволяет найти компромисс между объединением соседних столбцов и разделением отдельных столбцов.

При выводе Excel используется SheetJS для создания книги в памяти, где каждая обнаруженная таблица находится на отдельном листе с именем Лист1, Лист2 и т. д. Книга сериализуется в формат .xlsx (Office Open XML) и предлагается для загрузки. Результат открывается в Excel 2007+, Google Sheets, LibreOffice Calc и Apple Numbers.

Лучшие практики

Часто задаваемые вопросы

Изменяет ли преобразование PDF в EXCEL содержимое?
Содержимое сохраняется максимально точно. Однако некоторые функции, специфичные для формата, могут не иметь прямых эквивалентов, поэтому могут возникнуть незначительные различия в форматировании.
Для чего используется формат EXCEL?
XLSX (таблица Microsoft Excel) в основном используется для электронных таблиц с формулами, диаграммами и анализом данных.
Есть ли какие-либо ограничения, о которых следует знать?
Поддерживаются файлы размером до 50 МБ. Обработка очень больших или сложных файлов может занять больше времени. Все преобразования происходят в вашем браузере, поэтому скорость обработки зависит от вашего устройства.
Защищены ли данные моего документа?
Да. Обработка документов полностью выполняется в вашем браузере. Ваши файлы и их содержимое никогда не загружаются ни на какой сервер. Это делает безопасным преобразование важных или конфиденциальных документов.
Какой выходной формат создается?
.xlsx (Office Open XML), современный формат Excel. Файл открывается в Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers и любой другой современной электронной таблице.
Загружен ли мой PDF-файл на сервер?
Нет. Анализ и генерация Excel выполняются в вашем браузере с использованием PDF.js и SheetJS.
Каков максимальный размер файла?
50 МБ. Время преобразования зависит от сложности документа, а не только от размера файла: извлечение PDF-файла с большим количеством графики размером 50 МБ может занять больше времени, чем PDF-файл с большим количеством текста.
Почему мои цифры указаны не в тех столбцах?
Почти всегда потому, что порог обнаружения столбцов конвертера не соответствовал фактическому макету PDF-файла. Откройте исходный PDF-файл, посмотрите, где столбцы визуально разбиваются, и при необходимости вручную переместите ячейки в Excel.