За този инструмент
Извличането на таблични данни от PDF и в електронна таблица е един от най-често срещаните работни потоци на документи в офиси, които обработват фактури, финансови отчети, научни статии и правителствени данни. PDF форматът изначално не разбира таблиците — той просто описва позициите на глифове на страница — така че конвертирането в Excel изисква извеждане на структурата на таблицата от геометрията на текста. Където свършва една клетка и започва следващата, трябва да се познае от хоризонталното празно пространство; където един ред завършва и следващият започва, от вертикално празно пространство.
Този инструмент анализира PDF файла с помощта на PDF.js, извлича текстови елементи с техните ограничаващи полета и групира елементите в редове и колони въз основа на позицията. Откритата таблица се записва в работна книга на Excel с помощта на библиотеката SheetJS xlsx. Резултатът е стандартен .xlsx файл, който се отваря в Excel, Google Sheets, Numbers или всяко друго приложение за електронни таблици.
Извличането на PDF таблици е наистина трудно и никой екстрактор не дава перфектни резултати за всеки PDF. Таблици с последователни граници на колони, без обединени клетки и ясно вертикално подравняване конвертират чисто. Таблици с обединени клетки, многоредови записи, бележки под линия или необичайни оформления обикновено се нуждаят от ръчно почистване след извличане. План за преглед.
Защо да конвертирате PDF в Excel
Причината почти винаги е анализ. Данните, уловени в PDF, не могат да бъдат сортирани, филтрирани, сумирани, диаграми или завъртани. След като е в Excel, всяка стандартна операция с електронна таблица става достъпна – и това отваря разликата между гледането на статичен отчет и действителната работа с числата в него.
Работата с масивни данни е невъзможна в PDF. Агрегирането на тримесечни цифри в множество PDF отчети, сравняването на редови позиции между доставчици или извличането на конкретни колони за анализ надолу по веригата, всичко това изисква привеждане на данните във формат, който поддържа тези операции. Excel и CSV са тези формати. Преобразуването е мостът.
Как да използвате
Пуснете PDF, съдържащ таблични данни, получете работна книга с всяка таблица на отделен лист.
- Качете вашия PDF файл: Плъзнете файла в областта за качване или щракнете, за да прегледате. Поддържат се файлове до 50 MB. PDF файлът трябва да съдържа действителен текст; сканираните PDF файлове първо се нуждаят от OCR.
- Изчакайте за откриване на таблицата: PDF.js извлича текстови елементи и техните позиции. Конверторът групира елементи в редове и колони, като анализира хоризонталното и вертикалното подравняване. Откриването отнема секунди за кратки документи и повече за таблици с много страници.
- Преглед на откритите таблици: Откритите таблици се визуализират преди изтегляне. Потвърдете, че колоните и редовете отговарят на това, което очаквате; несъответствията тук стават почистване на Excel по-късно.
- Изтеглете като XLSX: Конверторът записва всяка открита таблица на отделен лист в .xlsx работна книга с помощта на SheetJS. Отворете резултата в Excel или Google Таблици и изчистете всички остатъчни проблеми.
Обичайни случаи на употреба
Технически подробности
PDF.js разкрива getTextContent API, който връща текстови елементи с техните ограничаващи полета. Всеки елемент има низ, трансформираща матрица (за позиция и завъртане) и ширина/височина. Конверторът сортира елементи по Y-координата, за да идентифицира линиите, след това във всеки ред по X-координата. Елементите на много подобни Y позиции образуват ред.
Откриването на колони използва анализ на пропуски: X-разстоянието между последователни елементи в ред показва дали те принадлежат към една и съща клетка или съседни клетки. Празнина, по-голяма от прага (обикновено 1–2 ширини на знака), сигнализира за граница на колона. Настройката на прага е компромис между сливане на съседни колони и разделяне на единични колони.
Изходът на Excel използва SheetJS, за да създаде работна книга в паметта, като всяка открита таблица е на свой собствен лист с име Sheet1, Sheet2 и т.н. Работната книга се сериализира във формат .xlsx (Office Open XML) и се предлага като изтегляне. Резултатът се отваря в Excel 2007+, Google Sheets, LibreOffice Calc и Apple Numbers.
Често задавани въпроси
- Преобразуването на PDF в EXCEL променя ли съдържанието?
- Съдържанието е запазено възможно най-точно. Някои специфични за формата функции обаче може да нямат директни еквиваленти, така че могат да възникнат малки разлики във форматирането.
- За какво се използва форматът EXCEL?
- XLSX (Microsoft Excel Spreadsheet) се използва предимно за електронни таблици с формули, диаграми и анализ на данни.
- Има ли някакви ограничения, за които трябва да знаете?
- Поддържат се файлове до 50 MB. Обработката на много големи или сложни файлове може да отнеме повече време. Цялото преобразуване се извършва във вашия браузър, така че скоростта на обработка зависи от вашето устройство.
- Защитени ли са данните от моя документ?
- да Обработката на документи се извършва изцяло във вашия браузър. Вашите файлове и тяхното съдържание никога не се качват на сървър. Това прави безопасно конвертирането на чувствителни или поверителни документи.
- Какъв изходен формат се произвежда?
- .xlsx (Office Open XML), модерният формат на Excel. Файлът се отваря в Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers и всяка друга съвременна електронна таблица.
- Моят PDF файл качен ли е на сървър?
- Не. Разборът и генерирането на Excel се извършват във вашия браузър с помощта на PDF.js и SheetJS.
- Какъв е максималният размер на файла?
- 50 MB. Времето за преобразуване зависи от сложността на документа, а не само от размера на файла — извличането на тежък с графика 50 MB PDF може да отнеме повече време от този с тежък текст.
- Защо числата ми са в грешни колони?
- Почти винаги, защото прагът за откриване на колона на конвертора не съответства на действителното оформление на PDF файла. Отворете изходния PDF, вижте къде колоните визуално се прекъсват и ръчно преместете клетките в Excel, ако е необходимо.
Related Articles
File FormatsImage Format Guide: JPG vs PNG vs WebP vs SVG Explained
Learn the differences between popular image formats, when to use each one, and how to convert between them for optimal quality and file size.
8 min readFile FormatsThe Complete Guide to PDF Conversion: Methods, Tools, and Best Practices
Everything you need to know about converting PDFs to other formats and vice versa. Covers PDF to Word, Excel, PNG, and more.
10 min readFile FormatsDocument Formats Explained: Word, PDF, TXT, and When to Use Each
Understand the differences between document formats like DOCX, PDF, TXT, RTF, and ODT. Learn which format to use for different purposes and how to convert between them.
8 min readFile FormatsAudio and Video Formats Explained: MP3, MP4, WAV, WebM, and Beyond
Understand the differences between audio and video formats, codecs, containers, and how to choose the right format for your needs.
9 min readPrivacy & SecurityHow to Convert Files Online Safely: Privacy and Security Guide
Understand the risks of online file conversion and learn how browser-based tools keep your data private. A guide to safe file handling.
7 min readPrivacy & TechnologyWhy Browser-Based Tools Are the Future: No Installs, No Uploads, No Risk
Discover why browser-based tools are replacing desktop software and cloud uploads. Learn how client-side processing keeps your files private while delivering powerful functionality.
7 min read