PDF către Convertor Excel (XLSX).
Extrageți tabelele și textul din PDF și convertiți-le în foi de calcul Excel XLSX în siguranță în browser.
Aruncă fișierul PDF aici
sau faceți clic pentru a selecta fișierul
Extrageți tabelele și textul din PDF și convertiți-le în foi de calcul Excel XLSX în siguranță în browser.
sau faceți clic pentru a selecta fișierul
Extragerea datelor tabelare dintr-un PDF și într-o foaie de calcul este unul dintre cele mai comune fluxuri de lucru pentru documente în birourile care gestionează facturi, rapoarte financiare, lucrări științifice și date guvernamentale. Formatul PDF nu înțelege în mod nativ tabelele - doar descrie pozițiile glifurilor pe o pagină - așa că convertirea în Excel necesită deducerea structurii tabelului din geometria textului. Unde se termină o celulă și începe următoarea trebuie ghicit din spațiul alb orizontal; unde se termină un rând și începe următorul, din spațiul alb vertical.
Acest instrument analizează PDF-ul folosind PDF.js, extrage elemente de text cu casetele lor de delimitare și grupează elementele în rânduri și coloane în funcție de poziție. Tabelul detectat este scris într-un registru de lucru Excel folosind biblioteca SheetJS xlsx. Rezultatul este un fișier .xlsx standard care se deschide în Excel, Foi de calcul Google, Numbers sau orice altă aplicație pentru foi de calcul.
Extragerea tabelelor PDF este cu adevărat dificilă și niciun extractor nu produce rezultate perfecte pentru fiecare PDF. Tabelele cu limite de coloane consistente, fără celule îmbinate și aliniere verticală clară se convertesc în mod curat. Tabelele cu celule îmbinate, intrări pe mai multe rânduri, note de subsol sau aspecte neobișnuite necesită de obicei curățare manuală după extragere. Planifică pentru revizuire.
Motivul este aproape întotdeauna analiza. Datele blocate într-un PDF nu pot fi sortate, filtrate, însumate, reprezentate grafic sau pivotate. Odată ce este în Excel, fiecare operație standard de foaie de calcul devine disponibilă - și asta deschide diferența între a privi un raport static și a lucra efectiv cu numerele din acesta.
Lucrarea cu date în bloc este imposibilă în PDF. Agregarea cifrelor trimestriale în mai multe rapoarte PDF, compararea elementelor rând între furnizori sau tragerea de coloane specifice pentru analiza în aval, toate necesită obținerea datelor într-un format care să accepte aceste operațiuni. Excel și CSV sunt acele formate. Conversia este puntea.
Aruncă un PDF care conține date tabulare, obține un registru de lucru cu fiecare tabel pe propria foaie.
PDF.js expune un API getTextContent care returnează elemente de text cu casetele lor de delimitare. Fiecare articol are un șir, o matrice de transformare (pentru poziție și rotație) și lățime/înălțime. Convertorul sortează articolele după coordonatele Y pentru a identifica linii, apoi în cadrul fiecărei linii după coordonatele X. Elementele aflate în poziții Y foarte asemănătoare formează un rând.
Detectarea coloanelor folosește analiza decalajului: distanța X dintre elementele consecutive dintr-un rând indică dacă aparțin aceleiași celule sau celule adiacente. Un decalaj mai mare decât un prag (de obicei, 1–2 lățimi de caractere) semnalează limita unei coloane. Reglarea pragului se schimbă între îmbinarea coloanelor adiacente și împărțirea coloanelor individuale.
Ieșirea Excel utilizează SheetJS pentru a construi un registru de lucru în memorie, cu fiecare tabel detectat pe propria foaie numită Sheet1, Sheet2 etc. Registrul de lucru este serializat în format .xlsx (Office Open XML) și oferit ca descărcare. Rezultatul se deschide în Excel 2007+, Google Sheets, LibreOffice Calc și Apple Numbers.