PDF a Excel (XLSX)
Extraiga tablas y texto de archivos PDF y conviértalos en hojas de cálculo Excel XLSX de forma segura en su navegador.
Suelte el archivo PDF aquí
o haga clic para seleccionar archivo
Extraiga tablas y texto de archivos PDF y conviértalos en hojas de cálculo Excel XLSX de forma segura en su navegador.
o haga clic para seleccionar archivo
Extraer datos tabulares de un PDF y colocarlos en una hoja de cálculo es uno de los flujos de trabajo de documentos más comunes en las oficinas que manejan facturas, informes financieros, artículos científicos y datos gubernamentales. El formato PDF no comprende tablas de forma nativa (solo describe las posiciones de los glifos en una página), por lo que la conversión a Excel requiere inferir la estructura de la tabla a partir de la geometría del texto. Donde termina una celda y comienza la siguiente se debe adivinar a partir de espacios en blanco horizontales; donde termina una fila y comienza la siguiente, a partir de espacios en blanco verticales.
Esta herramienta analiza el PDF usando PDF.js, extrae elementos de texto con sus cuadros delimitadores y agrupa los elementos en filas y columnas según su posición. La tabla detectada se escribe en un libro de Excel utilizando la biblioteca SheetJS xlsx. El resultado es un archivo .xlsx estándar que se abre en Excel, Google Sheets, Numbers o cualquier otra aplicación de hoja de cálculo.
La extracción de tablas PDF es realmente difícil y ningún extractor produce resultados perfectos en cada PDF. Las tablas con límites de columnas consistentes, sin celdas fusionadas y con una alineación vertical clara se convierten limpiamente. Las tablas con celdas fusionadas, entradas de varias líneas, notas al pie o diseños inusuales normalmente necesitan una limpieza manual después de la extracción. Plan para revisión.
La razón casi siempre es el análisis. Los datos atrapados en un PDF no se pueden ordenar, filtrar, sumar, representar en gráficos ni girar. Una vez que está en Excel, todas las operaciones estándar de una hoja de cálculo están disponibles, y eso abre la diferencia entre mirar un informe estático y trabajar realmente con los números que contiene.
El trabajo con datos masivos es imposible en PDF. Agregar cifras trimestrales en múltiples informes PDF, comparar líneas de pedido entre proveedores o extraer columnas específicas para análisis posteriores requiere obtener los datos en un formato que admita esas operaciones. Excel y CSV son esos formatos. La conversión es el puente.
Suelte un PDF que contenga datos tabulares y obtenga un libro de trabajo con cada tabla en su propia hoja.
PDF.js expone una API getTextContent que devuelve elementos de texto con sus cuadros delimitadores. Cada elemento tiene una cadena, una matriz de transformación (para posición y rotación) y ancho/alto. El convertidor clasifica los elementos por coordenada Y para identificar líneas y luego, dentro de cada línea, por coordenada X. Los elementos en posiciones Y muy similares forman una fila.
La detección de columnas utiliza análisis de espacios: la distancia X entre elementos consecutivos en una fila indica si pertenecen a la misma celda o a celdas adyacentes. Un espacio mayor que un umbral (normalmente de 1 a 2 caracteres de ancho) indica un límite de columna. El ajuste de umbral compensa la combinación de columnas adyacentes y la división de columnas individuales.
La salida de Excel utiliza SheetJS para construir un libro en la memoria, con cada tabla detectada en su propia hoja denominada Hoja1, Hoja2, etc. El libro se serializa en formato .xlsx (Office Open XML) y se ofrece como descarga. El resultado se abre en Excel 2007+, Google Sheets, LibreOffice Calc y Apple Numbers.