PDF a Palabra (DOCX)
Extraiga texto de un PDF y conviértalo a un formato de Word editable directamente en su navegador. Rápido, seguro y privado.
Suelte el archivo PDF aquí
Soporta hasta 50MB
Extraiga texto de un PDF y conviértalo a un formato de Word editable directamente en su navegador. Rápido, seguro y privado.
Soporta hasta 50MB
PDF y DOCX (Microsoft Word) describen documentos utilizando modelos fundamentalmente diferentes. PDF es un formato de diseño fijo: cada glifo tiene una posición explícita en una página de tamaño fijo, lo que hace que el documento parezca idéntico en cualquier lugar donde se represente. DOCX es un formato de diseño de flujo: los párrafos, tablas y encabezados se describen semánticamente y el motor de renderizado decide dónde se ubican en la página según el tamaño actual de la página y la disponibilidad de fuentes. Convertir de PDF a DOCX significa aplicar ingeniería inversa al diseño fijo para convertirlo en una estructura semántica que Word pueda reestructurar.
Esta conversión es inherentemente con pérdidas. Por lo general, el PDF no conserva los niveles de encabezado, los límites de los párrafos, la estructura de la lista o la semántica de las tablas; el convertidor tiene que inferirlos a partir del tamaño de fuente, las posiciones y los caracteres de viñeta. Los archivos PDF simples basados en texto se convierten limpiamente. Los archivos PDF complejos con diseños de varias columnas, imágenes incrustadas, notas a pie de página o tipografía inusual generalmente necesitan una limpieza manual después de la conversión.
Esta herramienta ejecuta la conversión en su navegador utilizando PDF.js para el análisis y un escritor de diseño personalizado a DOCX que produce una salida estándar de Office Open XML. El resultado se abre en Microsoft Word, LibreOffice Writer, Google Docs y cualquier otro editor compatible con DOCX. No se realiza ninguna carga; el archivo permanece en su dispositivo.
La editabilidad es la única razón. El PDF es hostil a la edición: puede completar campos de formulario y realizar anotaciones, pero no puede redistribuir el texto, cambiar estilos de párrafo o reestructurar el contenido sin editores de PDF especializados que cuestan dinero y producen resultados inconsistentes. DOCX está diseñado para editar. Convertir un PDF a DOCX hace que el contenido sea manejable para revisión, traducción, reutilización o rediseño.
La otra razón es la colaboración. Word y Google Docs son la lengua franca de colaboración de documentos en oficinas, escuelas y la mayoría de las organizaciones. Los hilos de comentarios, el seguimiento de cambios y la edición compartida asumen DOCX o sus equivalentes en la nube. Los archivos PDF enviados para su revisión se convierten en cuellos de botella; DOCX fluye a través de herramientas de colaboración estándar.
Suelte el PDF, genere, descargue. Espere hacer una limpieza en Word después.
PDF.js analiza cada página PDF en un flujo de operaciones de texto y gráficos. La API de extracción de texto devuelve elementos de texto con sus cuadros delimitadores, información de fuente y cadenas decodificadas en Unicode. A partir de estos elementos, el convertidor reconstruye el orden de lectura clasificándolos de arriba a abajo y de izquierda a derecha, agrupando elementos con líneas de base similares en líneas y líneas en párrafos.
DOCX es un archivo zip que contiene archivos XML (document.xml, estilos.xml, además de manifiestos de relaciones y tipos de contenido). El conversor crea el contenido document.xml utilizando una serie de elementos de párrafo (w:p) y ejecución (w:r), aplica referencias de estilo para los títulos (Título 1, Título 2) donde el tamaño de fuente sugiere un título y ensambla el zip en la memoria usando JSZip.
Limitaciones: los diseños de columnas no siempre se reconstruyen correctamente. Las tablas en el PDF se recuperan como párrafos a menos que el diseño sugiera fuertemente una estructura tabular. Los encabezados, pies de página y notas al pie normalmente terminan en línea en el cuerpo en lugar de en las zonas DOCX correspondientes. Las imágenes incrustadas en el PDF actualmente no se conservan en la salida DOCX.