PDF kohteeseen Excel (XLSX) -muunnin
Pura taulukot ja teksti PDF-tiedostosta ja muunna ne Excel XLSX -laskentataulukoiksi turvallisesti selaimessasi.
Pudota PDF-tiedosto tähän
tai valitse tiedosto napsauttamalla
Pura taulukot ja teksti PDF-tiedostosta ja muunna ne Excel XLSX -laskentataulukoiksi turvallisesti selaimessasi.
tai valitse tiedosto napsauttamalla
Taulukkotietojen vetäminen PDF-tiedostosta laskentataulukkoon on yksi yleisimmistä asiakirjatyönkuluista toimistoissa, jotka käsittelevät laskuja, talousraportteja, tieteellisiä julkaisuja ja valtion tietoja. PDF-muoto ei luonnollisesti ymmärrä taulukoita – se vain kuvaa kuvioiden sijaintia sivulla – joten muuntaminen Exceliksi edellyttää taulukon rakenteen päättämistä tekstin geometrian perusteella. Missä yksi solu päättyy ja seuraava alkaa, on arvattava vaakasuuntaisesta välilyönnistä; jossa yksi rivi päättyy ja seuraava alkaa, pystysuorasta välilyönnistä.
Tämä työkalu jäsentää PDF-tiedoston PDF.js:n avulla, poimii tekstikohteet niiden rajauslaatikoineen ja ryhmittelee kohteet riveiksi ja sarakkeiksi sijainnin perusteella. Havaittu taulukko kirjoitetaan Excel-työkirjaan SheetJS xlsx -kirjaston avulla. Tulos on tavallinen .xlsx-tiedosto, joka avautuu Excelissä, Google Sheetsissä, Numbersissa tai missä tahansa muussa laskentataulukkosovelluksessa.
PDF-taulukon purkaminen on todella vaikeaa, eikä mikään purkuohjelma tuota täydellisiä tuloksia jokaisessa PDF-tiedostossa. Taulukot, joissa on johdonmukaiset sarakerajat, ei yhdistettyjä soluja ja selkeä pystytasaus, muuntavat siististi. Taulukot, joissa on yhdistettyjä soluja, monirivisiä merkintöjä, alaviitteitä tai epätavallisia asetteluja, vaativat yleensä manuaalisen puhdistamisen purkamisen jälkeen. Suunnittele tarkistus.
Syynä on lähes aina analyysi. PDF-tiedostoon jääneitä tietoja ei voida lajitella, suodattaa, summata, piirtää kaavioita tai kääntää. Kun se on Excelissä, kaikki tavalliset laskentataulukkotoiminnot tulevat saataville – ja tämä avaa eron staattisen raportin tuijottamisen ja siinä olevien numeroiden käyttämisen välillä.
Joukkodatatyö on mahdotonta PDF-muodossa. Neljännesvuosittaisten lukujen yhdistäminen useisiin PDF-raportteihin, toimittajien rivikohtien vertaaminen tai tiettyjen sarakkeiden hakeminen loppupään analyysiä varten edellyttävät tietojen saamista muotoon, joka tukee näitä toimintoja. Excel ja CSV ovat niitä muotoja. Kääntyminen on silta.
Pudota taulukkotietoja sisältävä PDF, hanki työkirja, jossa jokainen taulukko on omalla arkilla.
PDF.js paljastaa getTextContent API:n, joka palauttaa tekstikohteet niiden rajauslaatikoineen. Jokaisella kohteella on merkkijono, muunnosmatriisi (sijaintia ja kiertoa varten) ja leveys/korkeus. Muunnin lajittelee kohteet Y-koordinaatin mukaan rivien tunnistamiseksi ja kunkin rivin sisällä X-koordinaatin mukaan. Hyvin samanlaisissa Y-paikoissa olevat kohteet muodostavat rivin.
Saraketunnistus käyttää aukkoanalyysiä: peräkkäisten kohteiden välinen X-etäisyys rivissä osoittaa, kuuluvatko ne samaan soluun vai vierekkäisiin soluihin. Kynnystä suurempi rako (tyypillisesti 1–2 merkin leveyttä) merkitsee sarakkeen rajaa. Kynnyksen viritys korvaa vierekkäisten sarakkeiden yhdistämisen ja yksittäisten sarakkeiden jakamisen.
Excel-tulostus käyttää SheetJS:ää työkirjan muodostamiseen muistiin siten, että jokainen havaittu taulukko on omalla taulukollaan nimeltä Sheet1, Sheet2 jne. Työkirja sarjoidaan .xlsx (Office Open XML) -muotoon ja tarjotaan ladattavaksi. Tulos avautuu Excel 2007+:ssa, Google Sheetsissä, LibreOffice Calcissa ja Apple Numbersissa.