Ilmainen muunnin

PDF kohteeseen Excel (XLSX) -muunnin

Pura taulukot ja teksti PDF-tiedostosta ja muunna ne Excel XLSX -laskentataulukoiksi turvallisesti selaimessasi.

Pudota PDF-tiedosto tähän

tai valitse tiedosto napsauttamalla

Tai

Tietoa tästä työkalusta

Taulukkotietojen vetäminen PDF-tiedostosta laskentataulukkoon on yksi yleisimmistä asiakirjatyönkuluista toimistoissa, jotka käsittelevät laskuja, talousraportteja, tieteellisiä julkaisuja ja valtion tietoja. PDF-muoto ei luonnollisesti ymmärrä taulukoita – se vain kuvaa kuvioiden sijaintia sivulla – joten muuntaminen Exceliksi edellyttää taulukon rakenteen päättämistä tekstin geometrian perusteella. Missä yksi solu päättyy ja seuraava alkaa, on arvattava vaakasuuntaisesta välilyönnistä; jossa yksi rivi päättyy ja seuraava alkaa, pystysuorasta välilyönnistä.

Tämä työkalu jäsentää PDF-tiedoston PDF.js:n avulla, poimii tekstikohteet niiden rajauslaatikoineen ja ryhmittelee kohteet riveiksi ja sarakkeiksi sijainnin perusteella. Havaittu taulukko kirjoitetaan Excel-työkirjaan SheetJS xlsx -kirjaston avulla. Tulos on tavallinen .xlsx-tiedosto, joka avautuu Excelissä, Google Sheetsissä, Numbersissa tai missä tahansa muussa laskentataulukkosovelluksessa.

PDF-taulukon purkaminen on todella vaikeaa, eikä mikään purkuohjelma tuota täydellisiä tuloksia jokaisessa PDF-tiedostossa. Taulukot, joissa on johdonmukaiset sarakerajat, ei yhdistettyjä soluja ja selkeä pystytasaus, muuntavat siististi. Taulukot, joissa on yhdistettyjä soluja, monirivisiä merkintöjä, alaviitteitä tai epätavallisia asetteluja, vaativat yleensä manuaalisen puhdistamisen purkamisen jälkeen. Suunnittele tarkistus.

Miksi muuntaa PDF Exceliksi

Syynä on lähes aina analyysi. PDF-tiedostoon jääneitä tietoja ei voida lajitella, suodattaa, summata, piirtää kaavioita tai kääntää. Kun se on Excelissä, kaikki tavalliset laskentataulukkotoiminnot tulevat saataville – ja tämä avaa eron staattisen raportin tuijottamisen ja siinä olevien numeroiden käyttämisen välillä.

Joukkodatatyö on mahdotonta PDF-muodossa. Neljännesvuosittaisten lukujen yhdistäminen useisiin PDF-raportteihin, toimittajien rivikohtien vertaaminen tai tiettyjen sarakkeiden hakeminen loppupään analyysiä varten edellyttävät tietojen saamista muotoon, joka tukee näitä toimintoja. Excel ja CSV ovat niitä muotoja. Kääntyminen on silta.

Käyttöohjeet

Pudota taulukkotietoja sisältävä PDF, hanki työkirja, jossa jokainen taulukko on omalla arkilla.

  1. Lataa PDF: Vedä tiedosto latausalueelle tai selaa napsauttamalla. Jopa 50 Mt:n tiedostot ovat tuettuja. PDF-tiedoston tulee sisältää oikeaa tekstiä; Skannatut PDF-tiedostot tarvitsevat ensin OCR:n.
  2. Odota pöydän tunnistusta: PDF.js poimii tekstikohteet ja niiden sijainnit. Muunnin ryhmittelee kohteet riveiksi ja sarakkeiksi analysoimalla vaaka- ja pystysuuntausta. Tunnistus kestää sekunteja lyhyillä asiakirjoilla ja kauemmin monisivuisilla taulukoilla.
  3. Tarkista havaitut taulukot: Havaitut taulukot esikatsellaan ennen latausta. Varmista, että sarakkeet ja rivit vastaavat odotuksiasi. kohdistamisvirheistä tulee myöhemmin Excel-siivous.
  4. Lataa XLSX-muodossa: Muunnin kirjoittaa jokaisen havaitun taulukon erilliseen taulukkoon .xlsx-työkirjassa SheetJS:n avulla. Avaa tulos Excelissä tai Google Sheetsissä ja poista mahdolliset jäljellä olevat ongelmat.

Yleiset käyttötapaukset

Tekniset tiedot

PDF.js paljastaa getTextContent API:n, joka palauttaa tekstikohteet niiden rajauslaatikoineen. Jokaisella kohteella on merkkijono, muunnosmatriisi (sijaintia ja kiertoa varten) ja leveys/korkeus. Muunnin lajittelee kohteet Y-koordinaatin mukaan rivien tunnistamiseksi ja kunkin rivin sisällä X-koordinaatin mukaan. Hyvin samanlaisissa Y-paikoissa olevat kohteet muodostavat rivin.

Saraketunnistus käyttää aukkoanalyysiä: peräkkäisten kohteiden välinen X-etäisyys rivissä osoittaa, kuuluvatko ne samaan soluun vai vierekkäisiin soluihin. Kynnystä suurempi rako (tyypillisesti 1–2 merkin leveyttä) merkitsee sarakkeen rajaa. Kynnyksen viritys korvaa vierekkäisten sarakkeiden yhdistämisen ja yksittäisten sarakkeiden jakamisen.

Excel-tulostus käyttää SheetJS:ää työkirjan muodostamiseen muistiin siten, että jokainen havaittu taulukko on omalla taulukollaan nimeltä Sheet1, Sheet2 jne. Työkirja sarjoidaan .xlsx (Office Open XML) -muotoon ja tarjotaan ladattavaksi. Tulos avautuu Excel 2007+:ssa, Google Sheetsissä, LibreOffice Calcissa ja Apple Numbersissa.

Parhaat käytännöt

Usein kysytyt kysymykset

Muuttaako PDF:n muuntaminen EXCEL-muotoon sisältöä?
Sisältö säilytetään mahdollisimman tarkasti. Joillakin muotokohtaisilla ominaisuuksilla ei kuitenkaan välttämättä ole suoria vastineita, joten pieniä muotoilueroja voi esiintyä.
Mihin EXCEL-muotoa käytetään?
XLSX:ää (Microsoft Excel Spreadsheet) käytetään ensisijaisesti kaavoja, kaavioita ja data-analyysiä sisältäviin laskentataulukoihin.
Onko olemassa mitään rajoituksia, jotka on tiedostettava?
50 Mt:n tiedostot ovat tuettuja. Erittäin suurten tai monimutkaisten tiedostojen käsittely voi kestää kauemmin. Kaikki muunnos tapahtuu selaimessasi, joten käsittelynopeus riippuu laitteestasi.
Ovatko asiakirjani tiedot turvassa?
Kyllä. Asiakirjojen käsittely toimii kokonaan selaimessasi. Tiedostojasi ja niiden sisältöä ei koskaan ladata millekään palvelimelle. Näin arkaluontoisten tai luottamuksellisten asiakirjojen muuntaminen on turvallista.
Mikä tulostusmuoto tuotetaan?
.xlsx (Office Open XML), moderni Excel-muoto. Tiedosto avautuu Excel 2007+:ssa, Google Sheetsissä, LibreOffice Calcissa, Apple Numbersissa ja kaikissa muissa nykyaikaisissa laskentataulukoissa.
Onko PDF-tiedostoni ladattu palvelimelle?
Ei. Jäsentäminen ja Excelin luominen tapahtuvat selaimessasi PDF.js:n ja SheetJS:n avulla.
Mikä on suurin tiedostokoko?
50 Mt. Muunnosaika riippuu asiakirjan monimutkaisuudesta eikä pelkästään tiedoston koosta – paljon grafiikkaa sisältävän 50 Mt:n PDF-tiedoston purkaminen voi kestää kauemmin kuin raskaan tekstin.
Miksi numeroni ovat väärissä sarakkeissa?
Melkein aina, koska muuntimen sarakkeen tunnistuskynnys ei vastannut PDF-tiedoston todellista asettelua. Avaa lähde-PDF, katso, missä sarakkeet katkeavat visuaalisesti, ja siirrä soluja manuaalisesti Excelissä tarpeen mukaan.