Nemokamas konverteris

PDF į „Excel“ (XLSX) keitiklis

Ištraukite lenteles ir tekstą iš PDF ir saugiai konvertuokite juos į Excel XLSX skaičiuokles savo naršyklėje.

Nuvilkite PDF failą čia

arba spustelėkite, kad pasirinktumėte failą

Arba

Apie šį įrankį

Lentelių duomenų ištraukimas iš PDF ir į skaičiuoklę yra viena iš labiausiai paplitusių dokumentų darbo eigų biuruose, kuriuose tvarkomos sąskaitos faktūros, finansinės ataskaitos, moksliniai darbai ir vyriausybės duomenys. PDF formatas iš esmės nesupranta lentelių – jis tiesiog aprašo glifų pozicijas puslapyje, todėl norint konvertuoti į „Excel“ reikia iš teksto geometrijos nustatyti lentelės struktūrą. Kur baigiasi vienas langelis ir prasideda kitas, reikia atspėti iš horizontalaus tarpo; kur baigiasi viena eilutė ir prasideda kita, iš vertikalaus tarpo.

Šis įrankis analizuoja PDF failą naudodamas PDF.js, ištraukia tekstinius elementus su jų ribojančiais langeliais ir sugrupuoja elementus į eilutes ir stulpelius pagal padėtį. Aptikta lentelė įrašoma į Excel darbaknygę naudojant SheetJS xlsx biblioteką. Išvestis yra standartinis .xlsx failas, atidaromas „Excel“, „Google“ skaičiuoklėse, „Numbers“ ar bet kurioje kitoje skaičiuoklės programoje.

PDF lentelių ištraukimas yra tikrai sunkus, ir nė vienas ištraukiklis nesuteikia puikių rezultatų kiekviename PDF faile. Lentelės su nuosekliomis stulpelių ribomis, be sujungtų langelių ir aiškiu vertikaliu lygiavimu konvertuojamos švariai. Lentelės su sujungtais langeliais, kelių eilučių įrašais, išnašomis ar neįprastais išdėstymais po ištraukimo paprastai turi būti išvalytos rankiniu būdu. Suplanuokite peržiūrą.

Kodėl konvertuoti PDF į Excel

Priežastis beveik visada yra analizė. Duomenys, įstrigę PDF faile, negali būti rūšiuojami, filtruojami, sumuojami, pateikiami diagramose ar pasukami. Kai ji yra programoje „Excel“, tampa prieinama kiekviena standartinė skaičiuoklės operacija – tai atveria skirtumą tarp žiūrėjimo į statinę ataskaitą ir faktinio darbo su joje esančiais skaičiais.

Masinis duomenų apdorojimas PDF formatu neįmanomas. Apibendrinant ketvirčio duomenis keliose PDF ataskaitose, lyginant tiekėjų eilutes arba ištraukiant konkrečius stulpelius tolesniam tyrimui, reikia pateikti duomenis formatu, kuris palaiko šias operacijas. „Excel“ ir CSV yra tie formatai. Atsivertimas yra tiltas.

Kaip naudoti

Išmeskite PDF failą su lentelės duomenimis, gaukite darbaknygę su kiekviena lentele atskirame lape.

  1. Įkelkite savo PDF: Vilkite failą į įkėlimo sritį arba spustelėkite, kad naršytumėte. Palaikomi failai iki 50 MB. PDF faile turi būti tikras tekstas; nuskaitytiems PDF failams pirmiausia reikia OCR.
  2. Palaukite stalo aptikimo: PDF.js ištraukia tekstinius elementus ir jų pozicijas. Konverteris sugrupuoja elementus į eilutes ir stulpelius, analizuodamas horizontalų ir vertikalų lygiavimą. Trumpų dokumentų aptikimas užtrunka kelias sekundes, o kelių puslapių lenteles – ilgiau.
  3. Peržiūrėkite aptiktas lenteles: Aptiktos lentelės peržiūrimos prieš atsisiunčiant. Patvirtinkite, kad stulpeliai ir eilutės atitinka tai, ko tikitės; čia esantys nesutapimai vėliau tampa „Excel“ išvalymu.
  4. Atsisiųsti kaip XLSX: Konverteris įrašo kiekvieną aptiktą lentelę į atskirą lapą .xlsx darbaknygėje naudodamas SheetJS. Atidarykite rezultatą „Excel“ arba „Google“ skaičiuoklėse ir išvalykite visas likusias problemas.

Bendro naudojimo atvejai

Techninės detalės

PDF.js atskleidžia getTextContent API, kuri grąžina tekstinius elementus su jų apribojimo laukeliais. Kiekvienas elementas turi eilutę, transformacijos matricą (padėčiai ir pasukimui) ir plotį / aukštį. Konverteris rūšiuoja elementus pagal Y koordinates, kad nustatytų eilutes, tada kiekvienoje eilutėje pagal X koordinates. Elementai, esantys labai panašiose Y pozicijose, sudaro eilutę.

Stulpelių aptikimui naudojama spragų analizė: X atstumas tarp iš eilės einančių elementų rodo, ar jie priklauso tai pačiai ląstelei, ar gretimoms ląstelėms. Tarpas, didesnis nei slenkstis (paprastai 1–2 simbolių pločiai), rodo stulpelio ribą. Slenksčio derinimas yra suderinamas tarp gretimų stulpelių sujungimo ir atskirų stulpelių padalijimo.

„Excel“ išvestis naudoja „SheetJS“, kad sukurtų darbaknygę atmintyje, kiekviena aptikta lentelė atskirame lape pavadinimu „Sheet1“, „Sheet2“ ir kt. Rezultatas atidaromas naudojant „Excel 2007+“, „Google“ skaičiuokles, „LibreOffice Calc“ ir „Apple Numbers“.

Geriausia praktika

Dažnai užduodami klausimai

Ar PDF konvertavimas į EXCEL keičia turinį?
Turinys išsaugomas kuo tiksliau. Tačiau kai kurios su formatu susijusios funkcijos gali neturėti tiesioginių atitikmenų, todėl gali atsirasti nedidelių formatavimo skirtumų.
Kam naudojamas EXCEL formatas?
XLSX (Microsoft Excel skaičiuoklė) pirmiausia naudojama skaičiuoklėms su formulėmis, diagramomis ir duomenų analize.
Ar yra kokių nors apribojimų, kuriuos reikia žinoti?
Palaikomi failai iki 50 MB. Labai didelių ar sudėtingų failų apdorojimas gali užtrukti ilgiau. Visa konversija vyksta jūsų naršyklėje, todėl apdorojimo greitis priklauso nuo jūsų įrenginio.
Ar mano dokumento duomenys saugūs?
Taip. Dokumentų apdorojimas vykdomas tik jūsų naršyklėje. Jūsų failai ir jų turinys niekada neįkeliami į jokį serverį. Tai leidžia saugiai konvertuoti neskelbtinus ar konfidencialius dokumentus.
Koks išvesties formatas gaminamas?
.xlsx (Office Open XML), modernus Excel formatas. Failas atidaromas „Excel 2007+“, „Google“ skaičiuoklėse, „LibreOffice Calc“, „Apple Numbers“ ir bet kurioje kitoje modernioje skaičiuoklėje.
Ar mano PDF įkeltas į serverį?
Ne. Analizavimas ir Excel generavimas vyksta jūsų naršyklėje naudojant PDF.js ir SheetJS.
Koks yra maksimalus failo dydis?
50 MB. Konvertavimo laikas priklauso nuo dokumento sudėtingumo, o ne vien nuo failo dydžio – 50 MB PDF išgauti gali užtrukti ilgiau nei daug teksto.
Kodėl mano numeriai yra neteisinguose stulpeliuose?
Beveik visada, nes keitiklio stulpelio aptikimo slenkstis neatitiko tikrojo PDF išdėstymo. Atidarykite PDF šaltinį, pažiūrėkite, kur stulpeliai vizualiai nutrūksta, ir, jei reikia, rankiniu būdu perkelkite langelius programoje „Excel“.