Tasuta konverter

PDF-i Exceli (XLSX) konverter

Ekstraktige PDF-failist tabelid ja tekst ning teisendage need oma brauseris turvaliselt Exceli XLSX-arvutustabeliteks.

Pukseerige PDF-fail siia

või klõpsake faili valimiseks

Või

Sellest tööriistast

Tabeliandmete PDF-failist väljatõmbamine arvutustabelisse on üks levinumaid dokumentide töövooge kontorites, mis käsitlevad arveid, finantsaruandeid, teadustöid ja valitsuse andmeid. PDF-vorming ei mõista algselt tabeleid – see lihtsalt kirjeldab glüüfide asukohti lehel –, nii et Exceli teisendamiseks on vaja teksti geomeetria põhjal järeldada tabeli struktuuri. Kus üks lahter lõpeb ja järgmine algab, tuleb ära arvata horisontaalsest tühikust; kus üks rida lõpeb ja järgmine algab, vertikaalsest tühikust.

See tööriist analüüsib PDF-faili PDF.js-i abil, ekstraheerib tekstiüksused koos nende piirdekastidega ning koondab need positsioonide alusel ridadesse ja veergudesse. Tuvastatud tabel kirjutatakse SheetJS xlsx teeki kasutades Exceli töövihikusse. Väljund on standardne .xlsx-fail, mis avaneb Excelis, Google'i arvutustabelites, Numbersis või mõnes muus arvutustabelirakenduses.

PDF-tabeli ekstraheerimine on tõeliselt raske ja ükski ekstraktor ei anna iga PDF-faili puhul täiuslikke tulemusi. Ühtsete veerupiiridega, ühendatud lahtriteta ja selge vertikaalse joondusega tabelid teisendavad puhtalt. Ühendatud lahtrite, mitmerealiste kirjete, joonealuste märkuste või ebatavalise paigutusega tabelid vajavad tavaliselt pärast ekstraktimist käsitsi puhastamist. Plaan ülevaatamiseks.

Miks teisendada PDF-i Excelisse

Põhjuseks on peaaegu alati analüüs. PDF-i lõksus olevaid andmeid ei saa sortida, filtreerida, summeerida, diagrammi koostada ega pöörata. Kui see on Excelis olemas, muutuvad kättesaadavaks kõik standardsed tabelitoimingud – ja see avab erinevuse staatilise aruande vaatamise ja selles sisalduvate numbritega töötamise vahel.

Hulgiandmetega töötamine on PDF-is võimatu. Kvartaliandmete koondamine mitme PDF-aruande vahel, reaüksuste võrdlemine tarnijate lõikes või konkreetsete veergude tõmbamine allavoolu analüüsiks nõuavad andmete viimist vormingusse, mis toetab neid toiminguid. Excel ja CSV on need vormingud. Ümberkujundamine on sild.

Kuidas kasutada

Loobuge tabeliandmetega PDF-failist, hankige töövihik, kus iga tabel on eraldi lehel.

  1. Laadige oma PDF üles: Lohistage fail üleslaadimisalale või klõpsake sirvimiseks. Toetatakse kuni 50 MB faile. PDF peab sisaldama tegelikku teksti; skannitud PDF-id vajavad esmalt OCR-i.
  2. Oodake tabeli tuvastamist: PDF.js ekstraktib tekstiüksused ja nende asukohad. Konverter koondab üksused ridadesse ja veergudesse, analüüsides horisontaalset ja vertikaalset joondust. Tuvastamine võtab lühikeste dokumentide puhul aega sekundeid ja mitmeleheküljeliste tabelite puhul kauem.
  3. Tuvastatud tabelite vaatamine: Tuvastatud tabeleid vaadatakse enne allalaadimist eelvaadet. Veenduge, et veerud ja read vastavad sellele, mida ootate; joondamisvigadest saab hiljem Exceli puhastus.
  4. Laadige alla XLSX-ina: Konverter kirjutab iga tuvastatud tabeli eraldi lehele .xlsx-töövihikus, kasutades SheetJS-i. Avage tulemus Excelis või Google'i arvutustabelites ja kõrvaldage kõik allesjäänud probleemid.

Levinud kasutusjuhtumid

Tehnilised üksikasjad

PDF.js paljastab getTextContent API, mis tagastab tekstiüksused koos nende piirdekastidega. Igal elemendil on string, teisendusmaatriks (asendi ja pööramise jaoks) ja laius/kõrgus. Muundur sorteerib üksused Y-koordinaadi järgi, et tuvastada read, seejärel iga rea ​​sees X-koordinaadi järgi. Väga sarnastel Y-positsioonidel olevad üksused moodustavad rea.

Veergude tuvastamisel kasutatakse tühikuanalüüsi: järjestikuste üksuste X-kaugus reas näitab, kas need kuuluvad samasse lahtrisse või külgnevatesse lahtritesse. Lävendist suurem vahe (tavaliselt 1–2 tähemärgi laiust) annab märku veeru piirist. Läve häälestamine tasakaalustab külgnevate veergude liitmise ja üksikute veergude jagamise.

Exceli väljund kasutab mällu töövihiku koostamiseks SheetJS-i, kusjuures iga tuvastatud tabel on oma lehel nimega Sheet1, Sheet2 jne. Töövihik on jadavormingus .xlsx (Office Open XML) ja seda pakutakse allalaadimiseks. Tulemus avaneb programmides Excel 2007+, Google Sheets, LibreOffice Calc ja Apple Numbers.

Parimad tavad

Korduma kippuvad küsimused

Kas PDF-i teisendamine EXCEL-iks muudab sisu?
Sisu säilitatakse võimalikult täpselt. Mõnel vorminguspetsiifilisel funktsioonil ei pruugi aga olla otseseid vasteid, mistõttu võivad esineda väikesed vorminguerinevused.
Milleks EXCEL-vormingut kasutatakse?
XLSX-i (Microsoft Exceli arvutustabel) kasutatakse peamiselt valemite, diagrammide ja andmete analüüsiga tabelite jaoks.
Kas on mingeid piiranguid, millest tuleb teadlik olla?
Toetatakse kuni 50 MB faile. Väga suurte või keerukate failide töötlemine võib võtta kauem aega. Kõik teisendused toimuvad teie brauseris, seega sõltub töötlemise kiirus teie seadmest.
Kas minu dokumendi andmed on turvalised?
Jah. Dokumentide töötlemine töötab täielikult teie brauseris. Teie faile ja nende sisu ei laadita kunagi üles ühtegi serverisse. See muudab tundlike või konfidentsiaalsete dokumentide teisendamise ohutuks.
Millist väljundvormingut toodetakse?
.xlsx (Office Open XML), kaasaegne Exceli vorming. Fail avaneb programmides Excel 2007+, Google'i arvutustabelites, LibreOffice Calcis, Apple Numbersis ja muudes kaasaegsetes arvutustabelites.
Kas minu PDF on serverisse üles laaditud?
Ei. Parsimine ja Exceli genereerimine toimuvad teie brauseris, kasutades PDF.js-i ja SheetJS-i.
Mis on faili maksimaalne suurus?
50 MB. Konversiooniaeg sõltub pigem dokumendi keerukusest kui ainult faili suurusest – graafikarohke 50 MB PDF-i väljavõtmiseks võib kuluda rohkem aega kui tekstirohke PDF-faili väljavõtmiseks.
Miks on minu numbrid valedes veergudes?
Peaaegu alati, kuna muunduri veeru tuvastamise lävi ei vastanud PDF-i tegelikule paigutusele. Avage lähte-PDF, vaadake, kus veerud visuaalselt katkevad, ja nihutage Excelis vajaduse korral käsitsi lahtreid.