Безплатен конвертор

PDF към Excel (XLSX) конвертор

Извличайте таблици и текст от PDF и ги конвертирайте в Excel XLSX електронни таблици сигурно във вашия браузър.

Пуснете PDF файл тук

или щракнете, за да изберете файл

или

За този инструмент

Извличането на таблични данни от PDF и в електронна таблица е един от най-често срещаните работни потоци на документи в офиси, които обработват фактури, финансови отчети, научни статии и правителствени данни. PDF форматът изначално не разбира таблиците — той просто описва позициите на глифове на страница — така че конвертирането в Excel изисква извеждане на структурата на таблицата от геометрията на текста. Където свършва една клетка и започва следващата, трябва да се познае от хоризонталното празно пространство; където един ред завършва и следващият започва, от вертикално празно пространство.

Този инструмент анализира PDF файла с помощта на PDF.js, извлича текстови елементи с техните ограничаващи полета и групира елементите в редове и колони въз основа на позицията. Откритата таблица се записва в работна книга на Excel с помощта на библиотеката SheetJS xlsx. Резултатът е стандартен .xlsx файл, който се отваря в Excel, Google Sheets, Numbers или всяко друго приложение за електронни таблици.

Извличането на PDF таблици е наистина трудно и никой екстрактор не дава перфектни резултати за всеки PDF. Таблици с последователни граници на колони, без обединени клетки и ясно вертикално подравняване конвертират чисто. Таблици с обединени клетки, многоредови записи, бележки под линия или необичайни оформления обикновено се нуждаят от ръчно почистване след извличане. План за преглед.

Защо да конвертирате PDF в Excel

Причината почти винаги е анализ. Данните, уловени в PDF, не могат да бъдат сортирани, филтрирани, сумирани, диаграми или завъртани. След като е в Excel, всяка стандартна операция с електронна таблица става достъпна – и това отваря разликата между гледането на статичен отчет и действителната работа с числата в него.

Работата с масивни данни е невъзможна в PDF. Агрегирането на тримесечни цифри в множество PDF отчети, сравняването на редови позиции между доставчици или извличането на конкретни колони за анализ надолу по веригата, всичко това изисква привеждане на данните във формат, който поддържа тези операции. Excel и CSV са тези формати. Преобразуването е мостът.

Как да използвате

Пуснете PDF, съдържащ таблични данни, получете работна книга с всяка таблица на отделен лист.

  1. Качете вашия PDF файл: Плъзнете файла в областта за качване или щракнете, за да прегледате. Поддържат се файлове до 50 MB. PDF файлът трябва да съдържа действителен текст; сканираните PDF файлове първо се нуждаят от OCR.
  2. Изчакайте за откриване на таблицата: PDF.js извлича текстови елементи и техните позиции. Конверторът групира елементи в редове и колони, като анализира хоризонталното и вертикалното подравняване. Откриването отнема секунди за кратки документи и повече за таблици с много страници.
  3. Преглед на откритите таблици: Откритите таблици се визуализират преди изтегляне. Потвърдете, че колоните и редовете отговарят на това, което очаквате; несъответствията тук стават почистване на Excel по-късно.
  4. Изтеглете като XLSX: Конверторът записва всяка открита таблица на отделен лист в .xlsx работна книга с помощта на SheetJS. Отворете резултата в Excel или Google Таблици и изчистете всички остатъчни проблеми.

Обичайни случаи на употреба

Технически подробности

PDF.js разкрива getTextContent API, който връща текстови елементи с техните ограничаващи полета. Всеки елемент има низ, трансформираща матрица (за позиция и завъртане) и ширина/височина. Конверторът сортира елементи по Y-координата, за да идентифицира линиите, след това във всеки ред по X-координата. Елементите на много подобни Y позиции образуват ред.

Откриването на колони използва анализ на пропуски: X-разстоянието между последователни елементи в ред показва дали те принадлежат към една и съща клетка или съседни клетки. Празнина, по-голяма от прага (обикновено 1–2 ширини на знака), сигнализира за граница на колона. Настройката на прага е компромис между сливане на съседни колони и разделяне на единични колони.

Изходът на Excel използва SheetJS, за да създаде работна книга в паметта, като всяка открита таблица е на свой собствен лист с име Sheet1, Sheet2 и т.н. Работната книга се сериализира във формат .xlsx (Office Open XML) и се предлага като изтегляне. Резултатът се отваря в Excel 2007+, Google Sheets, LibreOffice Calc и Apple Numbers.

Най-добри практики

Често задавани въпроси

Преобразуването на PDF в EXCEL променя ли съдържанието?
Съдържанието е запазено възможно най-точно. Някои специфични за формата функции обаче може да нямат директни еквиваленти, така че могат да възникнат малки разлики във форматирането.
За какво се използва форматът EXCEL?
XLSX (Microsoft Excel Spreadsheet) се използва предимно за електронни таблици с формули, диаграми и анализ на данни.
Има ли някакви ограничения, за които трябва да знаете?
Поддържат се файлове до 50 MB. Обработката на много големи или сложни файлове може да отнеме повече време. Цялото преобразуване се извършва във вашия браузър, така че скоростта на обработка зависи от вашето устройство.
Защитени ли са данните от моя документ?
да Обработката на документи се извършва изцяло във вашия браузър. Вашите файлове и тяхното съдържание никога не се качват на сървър. Това прави безопасно конвертирането на чувствителни или поверителни документи.
Какъв изходен формат се произвежда?
.xlsx (Office Open XML), модерният формат на Excel. Файлът се отваря в Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers и всяка друга съвременна електронна таблица.
Моят PDF файл качен ли е на сървър?
Не. Разборът и генерирането на Excel се извършват във вашия браузър с помощта на PDF.js и SheetJS.
Какъв е максималният размер на файла?
50 MB. Времето за преобразуване зависи от сложността на документа, а не само от размера на файла — извличането на тежък с графика 50 MB PDF може да отнеме повече време от този с тежък текст.
Защо числата ми са в грешни колони?
Почти винаги, защото прагът за откриване на колона на конвертора не съответства на действителното оформление на PDF файла. Отворете изходния PDF, вижте къде колоните визуално се прекъсват и ръчно преместете клетките в Excel, ако е необходимо.