Convertidor gratuït

PDF a Convertidor d'Excel (XLSX).

Extraieu taules i text del PDF i convertiu-los a fulls de càlcul Excel XLSX de manera segura al vostre navegador.

Deixeu el fitxer PDF aquí

o feu clic per seleccionar el fitxer

O

Sobre aquesta eina

L'extracció de dades tabulars d'un PDF i en un full de càlcul és un dels fluxos de treball de documents més habituals a les oficines que gestionen factures, informes financers, articles científics i dades governamentals. El format PDF no entén de manera nativa les taules, només descriu les posicions dels glifs en una pàgina, de manera que la conversió a Excel requereix inferir l'estructura de la taula a partir de la geometria del text. On acaba una cel·la i comença la següent s'ha d'endevinar a partir d'un espai en blanc horitzontal; on acaba una fila i comença la següent, des de l'espai en blanc vertical.

Aquesta eina analitza el PDF mitjançant PDF.js, extreu elements de text amb els seus quadres delimitadors i agrupa els elements en files i columnes en funció de la posició. La taula detectada s'escriu en un llibre d'Excel mitjançant la biblioteca SheetJS xlsx. La sortida és un fitxer .xlsx estàndard que s'obre a Excel, Google Sheets, Numbers o qualsevol altra aplicació de full de càlcul.

L'extracció de taules PDF és realment difícil i cap extractor produeix resultats perfectes en tots els PDF. Les taules amb límits de columnes coherents, sense cel·les combinades i una alineació vertical clara es converteixen netament. Les taules amb cel·les combinades, entrades de diverses línies, notes al peu o dissenys inusuals normalment necessiten una neteja manual després de l'extracció. Pla de revisió.

Per què convertir PDF a Excel

El motiu gairebé sempre és l'anàlisi. Les dades atrapades en un PDF no es poden ordenar, filtrar, sumar, representar gràficament o pivotar. Un cop està a Excel, cada operació estàndard de full de càlcul està disponible, i això obre la diferència entre mirar un informe estàtic i treballar realment amb els números que hi ha.

El treball de dades massives és impossible en PDF. L'agregació de xifres trimestrals en diversos informes PDF, la comparació d'elements de línia entre proveïdors o l'extracció de columnes específiques per a l'anàlisi posterior requereixen que les dades tinguin un format que admeti aquestes operacions. Excel i CSV són aquests formats. La conversió és el pont.

Com utilitzar-la

Deixeu un PDF que contingui dades tabulars, obteniu un quadern de treball amb cada taula al seu propi full.

  1. Carrega el teu PDF: Arrossegueu el fitxer a l'àrea de càrrega o feu clic per navegar. S'admeten fitxers de fins a 50 MB. El PDF ha de contenir text real; Els PDF escanejats necessiten primer OCR.
  2. Espereu la detecció de la taula: PDF.js extreu elements de text i les seves posicions. El convertidor agrupa els elements en files i columnes mitjançant l'anàlisi de l'alineació horitzontal i vertical. La detecció triga segons per a documents curts i més llarg per a taules de diverses pàgines.
  3. Revisa les taules detectades: Les taules detectades es visualitzen prèviament abans de baixar-les. Confirmeu que les columnes i les files coincideixen amb el que espereu; els desajustaments aquí es converteixen en neteja d'Excel més tard.
  4. Descarrega com a XLSX: El convertidor escriu cada taula detectada en un full separat en un llibre de treball .xlsx mitjançant SheetJS. Obriu el resultat a Excel o a Google Sheets i netegeu qualsevol problema residual.

Casos d'ús comuns

Detalls tècnics

PDF.js exposa una API getTextContent que retorna elements de text amb els seus quadres delimitadors. Cada element té una cadena, una matriu de transformació (per a la posició i la rotació) i amplada/alçada. El convertidor ordena els elements per coordenada Y per identificar les línies, després dins de cada línia per coordenada X. Els elements en posicions Y molt semblants formen una fila.

La detecció de columnes utilitza l'anàlisi de buits: la distància X entre elements consecutius en una fila indica si pertanyen a la mateixa cel·la o a cel·les adjacents. Un buit més gran que un llindar (normalment 1-2 amplades de caràcters) indica el límit d'una columna. L'ajust del llindar es compensa entre la fusió de columnes adjacents i la divisió de columnes individuals.

La sortida d'Excel utilitza SheetJS per construir un llibre de treball a la memòria, amb cada taula detectada al seu propi full anomenat Sheet1, Sheet2, etc. El llibre de treball es serialitza al format .xlsx (Office Open XML) i s'ofereix com a descàrrega. El resultat s'obre a Excel 2007+, Google Sheets, LibreOffice Calc i Apple Numbers.

Bones pràctiques

Preguntes freqüents

Convertir PDF a EXCEL canvia el contingut?
El contingut es conserva amb la màxima precisió possible. Tanmateix, és possible que algunes característiques específiques de format no tinguin equivalents directes, de manera que es poden produir diferències de format menors.
Per a què serveix el format EXCEL?
XLSX (full de càlcul de Microsoft Excel) s'utilitza principalment per a fulls de càlcul amb fórmules, gràfics i anàlisi de dades.
Hi ha alguna limitació a tenir en compte?
S'admeten fitxers de fins a 50 MB. Els fitxers molt grans o complexos poden trigar més a processar-se. Totes les conversions es produeixen al vostre navegador, de manera que la velocitat de processament depèn del vostre dispositiu.
Les dades del meu document són segures?
Sí. El processament de documents s'executa completament al vostre navegador. Els vostres fitxers i el seu contingut mai es pengen a cap servidor. Això fa que sigui segur convertir documents sensibles o confidencials.
Quin format de sortida es produeix?
.xlsx (Office Open XML), el format d'Excel modern. El fitxer s'obre a Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers i qualsevol altre full de càlcul modern.
El meu PDF està penjat a un servidor?
No. L'anàlisi i la generació d'Excel es produeixen al vostre navegador mitjançant PDF.js i SheetJS.
Quina és la mida màxima del fitxer?
50 MB. El temps de conversió depèn de la complexitat del document i no només de la mida del fitxer: un PDF de 50 MB amb una gran quantitat de gràfics pot trigar més a extreure's que un de text.
Per què els meus números estan a les columnes equivocades?
Gairebé sempre perquè el llindar de detecció de la columna del convertidor no coincidia amb el disseny real del PDF. Obriu el PDF d'origen, mireu on es trenquen visualment les columnes i canvieu manualment les cel·les a Excel segons sigui necessari.