Convertor gratuit

PDF către Convertor Excel (XLSX).

Extrageți tabelele și textul din PDF și convertiți-le în foi de calcul Excel XLSX în siguranță în browser.

Aruncă fișierul PDF aici

sau faceți clic pentru a selecta fișierul

Sau

Despre acest instrument

Extragerea datelor tabelare dintr-un PDF și într-o foaie de calcul este unul dintre cele mai comune fluxuri de lucru pentru documente în birourile care gestionează facturi, rapoarte financiare, lucrări științifice și date guvernamentale. Formatul PDF nu înțelege în mod nativ tabelele - doar descrie pozițiile glifurilor pe o pagină - așa că convertirea în Excel necesită deducerea structurii tabelului din geometria textului. Unde se termină o celulă și începe următoarea trebuie ghicit din spațiul alb orizontal; unde se termină un rând și începe următorul, din spațiul alb vertical.

Acest instrument analizează PDF-ul folosind PDF.js, extrage elemente de text cu casetele lor de delimitare și grupează elementele în rânduri și coloane în funcție de poziție. Tabelul detectat este scris într-un registru de lucru Excel folosind biblioteca SheetJS xlsx. Rezultatul este un fișier .xlsx standard care se deschide în Excel, Foi de calcul Google, Numbers sau orice altă aplicație pentru foi de calcul.

Extragerea tabelelor PDF este cu adevărat dificilă și niciun extractor nu produce rezultate perfecte pentru fiecare PDF. Tabelele cu limite de coloane consistente, fără celule îmbinate și aliniere verticală clară se convertesc în mod curat. Tabelele cu celule îmbinate, intrări pe mai multe rânduri, note de subsol sau aspecte neobișnuite necesită de obicei curățare manuală după extragere. Planifică pentru revizuire.

De ce să convertiți PDF în Excel

Motivul este aproape întotdeauna analiza. Datele blocate într-un PDF nu pot fi sortate, filtrate, însumate, reprezentate grafic sau pivotate. Odată ce este în Excel, fiecare operație standard de foaie de calcul devine disponibilă - și asta deschide diferența între a privi un raport static și a lucra efectiv cu numerele din acesta.

Lucrarea cu date în bloc este imposibilă în PDF. Agregarea cifrelor trimestriale în mai multe rapoarte PDF, compararea elementelor rând între furnizori sau tragerea de coloane specifice pentru analiza în aval, toate necesită obținerea datelor într-un format care să accepte aceste operațiuni. Excel și CSV sunt acele formate. Conversia este puntea.

Cum se utilizează

Aruncă un PDF care conține date tabulare, obține un registru de lucru cu fiecare tabel pe propria foaie.

  1. Încărcați PDF-ul: Trageți fișierul în zona de încărcare sau faceți clic pentru a răsfoi. Sunt acceptate fișiere de până la 50 MB. PDF-ul trebuie să conțină text real; PDF-urile scanate au nevoie mai întâi de OCR.
  2. Așteptați detectarea mesei: PDF.js extrage elemente de text și pozițiile acestora. Convertorul grupează articolele în rânduri și coloane analizând alinierea orizontală și verticală. Detectarea durează câteva secunde pentru documentele scurte și mai mult pentru tabelele cu mai multe pagini.
  3. Examinați tabelele detectate: Tabelele detectate sunt previzualizate înainte de descărcare. Confirmați că coloanele și rândurile se potrivesc cu ceea ce vă așteptați; alinierea greșită devin aici curățarea Excel mai târziu.
  4. Descărcați ca XLSX: Convertorul scrie fiecare tabel detectat pe o foaie separată într-un registru de lucru .xlsx folosind SheetJS. Deschideți rezultatul în Excel sau Foi de calcul Google și curățați orice probleme reziduale.

Cazuri comune de utilizare

Detalii tehnice

PDF.js expune un API getTextContent care returnează elemente de text cu casetele lor de delimitare. Fiecare articol are un șir, o matrice de transformare (pentru poziție și rotație) și lățime/înălțime. Convertorul sortează articolele după coordonatele Y pentru a identifica linii, apoi în cadrul fiecărei linii după coordonatele X. Elementele aflate în poziții Y foarte asemănătoare formează un rând.

Detectarea coloanelor folosește analiza decalajului: distanța X dintre elementele consecutive dintr-un rând indică dacă aparțin aceleiași celule sau celule adiacente. Un decalaj mai mare decât un prag (de obicei, 1–2 lățimi de caractere) semnalează limita unei coloane. Reglarea pragului se schimbă între îmbinarea coloanelor adiacente și împărțirea coloanelor individuale.

Ieșirea Excel utilizează SheetJS pentru a construi un registru de lucru în memorie, cu fiecare tabel detectat pe propria foaie numită Sheet1, Sheet2 etc. Registrul de lucru este serializat în format .xlsx (Office Open XML) și oferit ca descărcare. Rezultatul se deschide în Excel 2007+, Google Sheets, LibreOffice Calc și Apple Numbers.

Cele mai bune practici

Întrebări frecvente

Conversia PDF în EXCEL modifică conținutul?
Conținutul este păstrat cât mai exact posibil. Cu toate acestea, este posibil ca unele caracteristici specifice formatului să nu aibă echivalente directe, astfel încât pot apărea diferențe minore de formatare.
Pentru ce este folosit formatul EXCEL?
XLSX (Microsoft Excel Spreadsheet) este utilizat în principal pentru foi de calcul cu formule, diagrame și analiză de date.
Există limitări de care trebuie să fii conștient?
Sunt acceptate fișiere de până la 50 MB. Procesarea fișierelor foarte mari sau complexe poate dura mai mult. Toate conversiile au loc în browserul dvs., astfel încât viteza de procesare depinde de dispozitivul dvs.
Datele documentului meu sunt securizate?
Da. Procesarea documentelor rulează în întregime în browserul dvs. Fișierele dvs. și conținutul lor nu sunt încărcate niciodată pe niciun server. Acest lucru face să fie sigură convertirea documentelor sensibile sau confidențiale.
Ce format de ieșire este produs?
.xlsx (Office Open XML), formatul Excel modern. Fișierul se deschide în Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers și orice altă foaie de calcul modernă.
PDF-ul meu este încărcat pe un server?
Nu. Analiza și generarea Excel au loc în browser folosind PDF.js și SheetJS.
Care este dimensiunea maximă a fișierului?
50 MB. Timpul de conversie depinde de complexitatea documentului, mai degrabă decât de dimensiunea fișierului - un PDF de 50 MB cu grafică poate dura mai mult pentru a extrage decât unul cu text.
De ce sunt numerele mele în coloanele greșite?
Aproape întotdeauna pentru că pragul de detectare a coloanei convertorului nu se potrivea cu aspectul real al PDF-ului. Deschideți PDF-ul sursă, priviți unde se rup vizual coloanele și mutați manual celulele în Excel, după cum este necesar.