PDF ide Excel (XLSX) konverter
Kivonja a táblázatokat és szövegeket PDF-ből, és biztonságosan konvertálja őket Excel XLSX táblázatokká a böngészőben.
Húzza ide a PDF fájlt
vagy kattintson a fájl kiválasztásához
Kivonja a táblázatokat és szövegeket PDF-ből, és biztonságosan konvertálja őket Excel XLSX táblázatokká a böngészőben.
vagy kattintson a fájl kiválasztásához
A táblázatos adatok PDF-ből táblázatba húzása az egyik leggyakoribb dokumentum-munkafolyamat a számlákat, pénzügyi jelentéseket, tudományos közleményeket és kormányzati adatokat kezelő irodákban. A PDF formátum natívan nem érti a táblázatokat – csak a karakterjelek pozícióit írja le az oldalon –, így az Excel-be való konvertáláshoz a táblázat szerkezetére a szöveg geometriájából kell következtetni. Hol végződik és kezdődik a következő cella, azt vízszintes szóközből kell kitalálni; ahol az egyik sor véget ér és a következő kezdődik, függőleges szóközből.
Ez az eszköz a PDF.js használatával elemzi a PDF-fájlt, kibontja a szövegelemeket a határolókeretekkel, és az elemeket sorokba és oszlopokba csoportosítja a pozíció alapján. Az észlelt tábla egy Excel-munkafüzetbe kerül a SheetJS xlsx könyvtár használatával. A kimenet egy szabványos .xlsx fájl, amely megnyílik az Excelben, a Google Táblázatokban, a Numbersben vagy bármely más táblázatkezelő alkalmazásban.
A PDF-táblázat kivonatolása valóban nehéz, és egyetlen kivonat sem hoz tökéletes eredményt minden PDF-fájlban. A következetes oszlophatárokkal, nem egyesített cellákkal és egyértelmű függőleges igazítással rendelkező táblázatok tisztán konvertálhatók. Az egyesített cellákat, többsoros bejegyzéseket, lábjegyzeteket vagy szokatlan elrendezéseket tartalmazó táblázatokat általában manuálisan kell megtisztítani a kibontás után. Tervezze meg a felülvizsgálatot.
Az ok szinte mindig az elemzés. A PDF-ben rekedt adatok nem rendezhetők, szűrhetők, összegezhetők, diagramozhatók vagy elforgathatók. Az Excelben minden szabványos táblázatkezelési művelet elérhetővé válik – és ez megnyitja a különbséget a statikus jelentés bámulása és a benne lévő számokkal való tényleges munka között.
A tömeges adatkezelés PDF-ben lehetetlen. A negyedéves adatok több PDF-jelentésben történő összesítése, a gyártók sorainak összehasonlítása vagy meghatározott oszlopok lehívása a későbbi elemzéshez szükségessé teszi, hogy az adatokat olyan formátumba helyezze, amely támogatja ezeket a műveleteket. Az Excel és a CSV ezek a formátumok. A megtérés a híd.
Dobj el egy táblázatos adatokat tartalmazó PDF-et, szerezz be egy munkafüzetet, amelyben minden táblázat a saját lapján található.
A PDF.js egy getTextContent API-t tesz közzé, amely a szöveges elemeket a határolókeretekkel adja vissza. Minden elemhez tartozik egy karakterlánc, egy transzformációs mátrix (a pozícióhoz és az elforgatáshoz), valamint egy szélesség/magasság. A konverter az elemeket Y-koordináta szerint rendezi a sorok azonosítása érdekében, majd az egyes sorokon belül X-koordináta szerint. A nagyon hasonló Y pozíciójú elemek egy sort alkotnak.
Az oszlopészlelés hézagelemzést használ: az egymást követő elemek közötti X-távolság jelzi, hogy ugyanahhoz a cellához vagy szomszédos cellához tartoznak-e. A küszöbértéknél nagyobb hézag (általában 1–2 karakterszélesség) oszlophatárt jelez. A küszöbhangolás kiegyenlíti a szomszédos oszlopok összevonását és az egyes oszlopok felosztását.
Az Excel-kimenet a SheetJS-t használja egy munkafüzet létrehozásához a memóriában, minden egyes észlelt táblával a saját lapján, amelyek neve Sheet1, Sheet2 stb. A munkafüzet .xlsx (Office Open XML) formátumba van sorosítva, és letölthető. Az eredmény az Excel 2007+, a Google Sheets, a LibreOffice Calc és az Apple Numbers programban nyílik meg.