Convertidor Gratuito

PDF a Excel (XLSX)

Extraiga tablas y texto de archivos PDF y conviértalos en hojas de cálculo Excel XLSX de forma segura en su navegador.

Suelte el archivo PDF aquí

o haga clic para seleccionar archivo

O

Acerca de esta herramienta

Extraer datos tabulares de un PDF y colocarlos en una hoja de cálculo es uno de los flujos de trabajo de documentos más comunes en las oficinas que manejan facturas, informes financieros, artículos científicos y datos gubernamentales. El formato PDF no comprende tablas de forma nativa (solo describe las posiciones de los glifos en una página), por lo que la conversión a Excel requiere inferir la estructura de la tabla a partir de la geometría del texto. Donde termina una celda y comienza la siguiente se debe adivinar a partir de espacios en blanco horizontales; donde termina una fila y comienza la siguiente, a partir de espacios en blanco verticales.

Esta herramienta analiza el PDF usando PDF.js, extrae elementos de texto con sus cuadros delimitadores y agrupa los elementos en filas y columnas según su posición. La tabla detectada se escribe en un libro de Excel utilizando la biblioteca SheetJS xlsx. El resultado es un archivo .xlsx estándar que se abre en Excel, Google Sheets, Numbers o cualquier otra aplicación de hoja de cálculo.

La extracción de tablas PDF es realmente difícil y ningún extractor produce resultados perfectos en cada PDF. Las tablas con límites de columnas consistentes, sin celdas fusionadas y con una alineación vertical clara se convierten limpiamente. Las tablas con celdas fusionadas, entradas de varias líneas, notas al pie o diseños inusuales normalmente necesitan una limpieza manual después de la extracción. Plan para revisión.

¿Por qué convertir PDF a Excel?

La razón casi siempre es el análisis. Los datos atrapados en un PDF no se pueden ordenar, filtrar, sumar, representar en gráficos ni girar. Una vez que está en Excel, todas las operaciones estándar de una hoja de cálculo están disponibles, y eso abre la diferencia entre mirar un informe estático y trabajar realmente con los números que contiene.

El trabajo con datos masivos es imposible en PDF. Agregar cifras trimestrales en múltiples informes PDF, comparar líneas de pedido entre proveedores o extraer columnas específicas para análisis posteriores requiere obtener los datos en un formato que admita esas operaciones. Excel y CSV son esos formatos. La conversión es el puente.

Cómo usarla

Suelte un PDF que contenga datos tabulares y obtenga un libro de trabajo con cada tabla en su propia hoja.

  1. Sube tu PDF: Arrastre el archivo al área de carga o haga clic para explorar. Se admiten archivos de hasta 50 MB. El PDF debe contener texto real; Los PDF escaneados necesitan OCR primero.
  2. Esperar a que se detecte la mesa: PDF.js extrae elementos de texto y sus posiciones. El convertidor agrupa elementos en filas y columnas analizando la alineación horizontal y vertical. La detección tarda unos segundos para documentos cortos y más para tablas de varias páginas.
  3. Revisar tablas detectadas: Las tablas detectadas se obtienen una vista previa antes de la descarga. Confirme que las columnas y filas coincidan con lo esperado; Las desalineaciones aquí se convierten en limpieza de Excel más adelante.
  4. Descargar como XLSX: El convertidor escribe cada tabla detectada en una hoja separada en un libro de trabajo .xlsx usando SheetJS. Abra el resultado en Excel o Google Sheets y elimine cualquier problema residual.

Casos de uso comunes

Detalles técnicos

PDF.js expone una API getTextContent que devuelve elementos de texto con sus cuadros delimitadores. Cada elemento tiene una cadena, una matriz de transformación (para posición y rotación) y ancho/alto. El convertidor clasifica los elementos por coordenada Y para identificar líneas y luego, dentro de cada línea, por coordenada X. Los elementos en posiciones Y muy similares forman una fila.

La detección de columnas utiliza análisis de espacios: la distancia X entre elementos consecutivos en una fila indica si pertenecen a la misma celda o a celdas adyacentes. Un espacio mayor que un umbral (normalmente de 1 a 2 caracteres de ancho) indica un límite de columna. El ajuste de umbral compensa la combinación de columnas adyacentes y la división de columnas individuales.

La salida de Excel utiliza SheetJS para construir un libro en la memoria, con cada tabla detectada en su propia hoja denominada Hoja1, Hoja2, etc. El libro se serializa en formato .xlsx (Office Open XML) y se ofrece como descarga. El resultado se abre en Excel 2007+, Google Sheets, LibreOffice Calc y Apple Numbers.

Mejores prácticas

Preguntas frecuentes

¿La conversión de PDF a EXCEL cambia el contenido?
El contenido se conserva con la mayor precisión posible. Sin embargo, es posible que algunas características específicas del formato no tengan equivalentes directos, por lo que pueden ocurrir diferencias menores de formato.
¿Para qué se utiliza el formato EXCEL?
XLSX (hoja de cálculo de Microsoft Excel) se utiliza principalmente para hojas de cálculo con fórmulas, gráficos y análisis de datos.
¿Hay alguna limitación que deba tener en cuenta?
Se admiten archivos de hasta 50 MB. Los archivos muy grandes o complejos pueden tardar más en procesarse. Toda la conversión ocurre en su navegador, por lo que la velocidad de procesamiento depende de su dispositivo.
¿Están seguros los datos de mi documento?
Sí. El procesamiento de documentos se ejecuta completamente en su navegador. Sus archivos y su contenido nunca se cargan en ningún servidor. Esto hace que sea seguro convertir documentos sensibles o confidenciales.
¿Qué formato de salida se produce?
.xlsx (Office Open XML), el formato moderno de Excel. El archivo se abre en Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers y cualquier otra hoja de cálculo moderna.
¿Mi PDF está subido a un servidor?
No. El análisis y la generación de Excel se realizan en su navegador utilizando PDF.js y SheetJS.
¿Cuál es el tamaño máximo de archivo?
50 MB. El tiempo de conversión depende de la complejidad del documento y no solo del tamaño del archivo: un PDF de 50 MB con muchos gráficos puede tardar más en extraerse que uno con mucho texto.
¿Por qué mis números están en las columnas incorrectas?
Casi siempre porque el umbral de detección de columnas del convertidor no coincidía con el diseño real del PDF. Abra el PDF de origen, observe dónde se dividen visualmente las columnas y cambie manualmente las celdas en Excel según sea necesario.