PDF-i Exceli (XLSX) konverter
Ekstraktige PDF-failist tabelid ja tekst ning teisendage need oma brauseris turvaliselt Exceli XLSX-arvutustabeliteks.
Pukseerige PDF-fail siia
või klõpsake faili valimiseks
Ekstraktige PDF-failist tabelid ja tekst ning teisendage need oma brauseris turvaliselt Exceli XLSX-arvutustabeliteks.
või klõpsake faili valimiseks
Tabeliandmete PDF-failist väljatõmbamine arvutustabelisse on üks levinumaid dokumentide töövooge kontorites, mis käsitlevad arveid, finantsaruandeid, teadustöid ja valitsuse andmeid. PDF-vorming ei mõista algselt tabeleid – see lihtsalt kirjeldab glüüfide asukohti lehel –, nii et Exceli teisendamiseks on vaja teksti geomeetria põhjal järeldada tabeli struktuuri. Kus üks lahter lõpeb ja järgmine algab, tuleb ära arvata horisontaalsest tühikust; kus üks rida lõpeb ja järgmine algab, vertikaalsest tühikust.
See tööriist analüüsib PDF-faili PDF.js-i abil, ekstraheerib tekstiüksused koos nende piirdekastidega ning koondab need positsioonide alusel ridadesse ja veergudesse. Tuvastatud tabel kirjutatakse SheetJS xlsx teeki kasutades Exceli töövihikusse. Väljund on standardne .xlsx-fail, mis avaneb Excelis, Google'i arvutustabelites, Numbersis või mõnes muus arvutustabelirakenduses.
PDF-tabeli ekstraheerimine on tõeliselt raske ja ükski ekstraktor ei anna iga PDF-faili puhul täiuslikke tulemusi. Ühtsete veerupiiridega, ühendatud lahtriteta ja selge vertikaalse joondusega tabelid teisendavad puhtalt. Ühendatud lahtrite, mitmerealiste kirjete, joonealuste märkuste või ebatavalise paigutusega tabelid vajavad tavaliselt pärast ekstraktimist käsitsi puhastamist. Plaan ülevaatamiseks.
Põhjuseks on peaaegu alati analüüs. PDF-i lõksus olevaid andmeid ei saa sortida, filtreerida, summeerida, diagrammi koostada ega pöörata. Kui see on Excelis olemas, muutuvad kättesaadavaks kõik standardsed tabelitoimingud – ja see avab erinevuse staatilise aruande vaatamise ja selles sisalduvate numbritega töötamise vahel.
Hulgiandmetega töötamine on PDF-is võimatu. Kvartaliandmete koondamine mitme PDF-aruande vahel, reaüksuste võrdlemine tarnijate lõikes või konkreetsete veergude tõmbamine allavoolu analüüsiks nõuavad andmete viimist vormingusse, mis toetab neid toiminguid. Excel ja CSV on need vormingud. Ümberkujundamine on sild.
Loobuge tabeliandmetega PDF-failist, hankige töövihik, kus iga tabel on eraldi lehel.
PDF.js paljastab getTextContent API, mis tagastab tekstiüksused koos nende piirdekastidega. Igal elemendil on string, teisendusmaatriks (asendi ja pööramise jaoks) ja laius/kõrgus. Muundur sorteerib üksused Y-koordinaadi järgi, et tuvastada read, seejärel iga rea sees X-koordinaadi järgi. Väga sarnastel Y-positsioonidel olevad üksused moodustavad rea.
Veergude tuvastamisel kasutatakse tühikuanalüüsi: järjestikuste üksuste X-kaugus reas näitab, kas need kuuluvad samasse lahtrisse või külgnevatesse lahtritesse. Lävendist suurem vahe (tavaliselt 1–2 tähemärgi laiust) annab märku veeru piirist. Läve häälestamine tasakaalustab külgnevate veergude liitmise ja üksikute veergude jagamise.
Exceli väljund kasutab mällu töövihiku koostamiseks SheetJS-i, kusjuures iga tuvastatud tabel on oma lehel nimega Sheet1, Sheet2 jne. Töövihik on jadavormingus .xlsx (Office Open XML) ja seda pakutakse allalaadimiseks. Tulemus avaneb programmides Excel 2007+, Google Sheets, LibreOffice Calc ja Apple Numbers.