PDF į „Excel“ (XLSX) keitiklis
Ištraukite lenteles ir tekstą iš PDF ir saugiai konvertuokite juos į Excel XLSX skaičiuokles savo naršyklėje.
Nuvilkite PDF failą čia
arba spustelėkite, kad pasirinktumėte failą
Ištraukite lenteles ir tekstą iš PDF ir saugiai konvertuokite juos į Excel XLSX skaičiuokles savo naršyklėje.
arba spustelėkite, kad pasirinktumėte failą
Lentelių duomenų ištraukimas iš PDF ir į skaičiuoklę yra viena iš labiausiai paplitusių dokumentų darbo eigų biuruose, kuriuose tvarkomos sąskaitos faktūros, finansinės ataskaitos, moksliniai darbai ir vyriausybės duomenys. PDF formatas iš esmės nesupranta lentelių – jis tiesiog aprašo glifų pozicijas puslapyje, todėl norint konvertuoti į „Excel“ reikia iš teksto geometrijos nustatyti lentelės struktūrą. Kur baigiasi vienas langelis ir prasideda kitas, reikia atspėti iš horizontalaus tarpo; kur baigiasi viena eilutė ir prasideda kita, iš vertikalaus tarpo.
Šis įrankis analizuoja PDF failą naudodamas PDF.js, ištraukia tekstinius elementus su jų ribojančiais langeliais ir sugrupuoja elementus į eilutes ir stulpelius pagal padėtį. Aptikta lentelė įrašoma į Excel darbaknygę naudojant SheetJS xlsx biblioteką. Išvestis yra standartinis .xlsx failas, atidaromas „Excel“, „Google“ skaičiuoklėse, „Numbers“ ar bet kurioje kitoje skaičiuoklės programoje.
PDF lentelių ištraukimas yra tikrai sunkus, ir nė vienas ištraukiklis nesuteikia puikių rezultatų kiekviename PDF faile. Lentelės su nuosekliomis stulpelių ribomis, be sujungtų langelių ir aiškiu vertikaliu lygiavimu konvertuojamos švariai. Lentelės su sujungtais langeliais, kelių eilučių įrašais, išnašomis ar neįprastais išdėstymais po ištraukimo paprastai turi būti išvalytos rankiniu būdu. Suplanuokite peržiūrą.
Priežastis beveik visada yra analizė. Duomenys, įstrigę PDF faile, negali būti rūšiuojami, filtruojami, sumuojami, pateikiami diagramose ar pasukami. Kai ji yra programoje „Excel“, tampa prieinama kiekviena standartinė skaičiuoklės operacija – tai atveria skirtumą tarp žiūrėjimo į statinę ataskaitą ir faktinio darbo su joje esančiais skaičiais.
Masinis duomenų apdorojimas PDF formatu neįmanomas. Apibendrinant ketvirčio duomenis keliose PDF ataskaitose, lyginant tiekėjų eilutes arba ištraukiant konkrečius stulpelius tolesniam tyrimui, reikia pateikti duomenis formatu, kuris palaiko šias operacijas. „Excel“ ir CSV yra tie formatai. Atsivertimas yra tiltas.
Išmeskite PDF failą su lentelės duomenimis, gaukite darbaknygę su kiekviena lentele atskirame lape.
PDF.js atskleidžia getTextContent API, kuri grąžina tekstinius elementus su jų apribojimo laukeliais. Kiekvienas elementas turi eilutę, transformacijos matricą (padėčiai ir pasukimui) ir plotį / aukštį. Konverteris rūšiuoja elementus pagal Y koordinates, kad nustatytų eilutes, tada kiekvienoje eilutėje pagal X koordinates. Elementai, esantys labai panašiose Y pozicijose, sudaro eilutę.
Stulpelių aptikimui naudojama spragų analizė: X atstumas tarp iš eilės einančių elementų rodo, ar jie priklauso tai pačiai ląstelei, ar gretimoms ląstelėms. Tarpas, didesnis nei slenkstis (paprastai 1–2 simbolių pločiai), rodo stulpelio ribą. Slenksčio derinimas yra suderinamas tarp gretimų stulpelių sujungimo ir atskirų stulpelių padalijimo.
„Excel“ išvestis naudoja „SheetJS“, kad sukurtų darbaknygę atmintyje, kiekviena aptikta lentelė atskirame lape pavadinimu „Sheet1“, „Sheet2“ ir kt. Rezultatas atidaromas naudojant „Excel 2007+“, „Google“ skaičiuokles, „LibreOffice Calc“ ir „Apple Numbers“.