PDF a Convertidor d'Excel (XLSX).
Extraieu taules i text del PDF i convertiu-los a fulls de càlcul Excel XLSX de manera segura al vostre navegador.
Deixeu el fitxer PDF aquí
o feu clic per seleccionar el fitxer
Extraieu taules i text del PDF i convertiu-los a fulls de càlcul Excel XLSX de manera segura al vostre navegador.
o feu clic per seleccionar el fitxer
L'extracció de dades tabulars d'un PDF i en un full de càlcul és un dels fluxos de treball de documents més habituals a les oficines que gestionen factures, informes financers, articles científics i dades governamentals. El format PDF no entén de manera nativa les taules, només descriu les posicions dels glifs en una pàgina, de manera que la conversió a Excel requereix inferir l'estructura de la taula a partir de la geometria del text. On acaba una cel·la i comença la següent s'ha d'endevinar a partir d'un espai en blanc horitzontal; on acaba una fila i comença la següent, des de l'espai en blanc vertical.
Aquesta eina analitza el PDF mitjançant PDF.js, extreu elements de text amb els seus quadres delimitadors i agrupa els elements en files i columnes en funció de la posició. La taula detectada s'escriu en un llibre d'Excel mitjançant la biblioteca SheetJS xlsx. La sortida és un fitxer .xlsx estàndard que s'obre a Excel, Google Sheets, Numbers o qualsevol altra aplicació de full de càlcul.
L'extracció de taules PDF és realment difícil i cap extractor produeix resultats perfectes en tots els PDF. Les taules amb límits de columnes coherents, sense cel·les combinades i una alineació vertical clara es converteixen netament. Les taules amb cel·les combinades, entrades de diverses línies, notes al peu o dissenys inusuals normalment necessiten una neteja manual després de l'extracció. Pla de revisió.
El motiu gairebé sempre és l'anàlisi. Les dades atrapades en un PDF no es poden ordenar, filtrar, sumar, representar gràficament o pivotar. Un cop està a Excel, cada operació estàndard de full de càlcul està disponible, i això obre la diferència entre mirar un informe estàtic i treballar realment amb els números que hi ha.
El treball de dades massives és impossible en PDF. L'agregació de xifres trimestrals en diversos informes PDF, la comparació d'elements de línia entre proveïdors o l'extracció de columnes específiques per a l'anàlisi posterior requereixen que les dades tinguin un format que admeti aquestes operacions. Excel i CSV són aquests formats. La conversió és el pont.
Deixeu un PDF que contingui dades tabulars, obteniu un quadern de treball amb cada taula al seu propi full.
PDF.js exposa una API getTextContent que retorna elements de text amb els seus quadres delimitadors. Cada element té una cadena, una matriu de transformació (per a la posició i la rotació) i amplada/alçada. El convertidor ordena els elements per coordenada Y per identificar les línies, després dins de cada línia per coordenada X. Els elements en posicions Y molt semblants formen una fila.
La detecció de columnes utilitza l'anàlisi de buits: la distància X entre elements consecutius en una fila indica si pertanyen a la mateixa cel·la o a cel·les adjacents. Un buit més gran que un llindar (normalment 1-2 amplades de caràcters) indica el límit d'una columna. L'ajust del llindar es compensa entre la fusió de columnes adjacents i la divisió de columnes individuals.
La sortida d'Excel utilitza SheetJS per construir un llibre de treball a la memòria, amb cada taula detectada al seu propi full anomenat Sheet1, Sheet2, etc. El llibre de treball es serialitza al format .xlsx (Office Open XML) i s'ofereix com a descàrrega. El resultat s'obre a Excel 2007+, Google Sheets, LibreOffice Calc i Apple Numbers.