Converter de PDF a HTML
Convierta documentos PDF en archivos HTML limpios y semánticos directamente en su navegador. Rápido, seguro y preserva la estructura del documento.
Seleccionar archivo PDF
o arrastrar y soltar aquí
Convierta documentos PDF en archivos HTML limpios y semánticos directamente en su navegador. Rápido, seguro y preserva la estructura del documento.
o arrastrar y soltar aquí
La conversión de PDF a HTML transforma un documento de diseño fijo en una página web fluida. La conversión conserva el contenido del texto, los encabezados, los párrafos y el estilo básico, al tiempo que abandona el diseño de píxeles exacto del PDF en favor del flujo responsivo de HTML. Este es el negocio correcto para documentos que se vuelven a publicar como contenido web (artículos, informes, documentación técnica) y el negocio equivocado para documentos cuyo diseño es esencial (formularios, facturas con posicionamiento estricto, piezas de marketing diseñadas).
Esta herramienta utiliza PDF.js para extraer texto, fuentes y estructura básica del PDF, luego escribe el marcado HTML correspondiente con CSS integrado para tipografía. El resultado es un archivo .html independiente que puede abrir en cualquier navegador, pegarlo en un CMS o aplicarle un estilo adicional con CSS personalizado. No se realiza ninguna carga; la conversión se ejecuta en su navegador.
Se admiten dos estilos de salida. El HTML semántico produce un marcado limpio con elementos de párrafo y encabezado, adecuado para volver a publicar contenido en un blog o sitio de documentación. El HTML visual conserva una mayor parte del diseño del PDF mediante el posicionamiento absoluto, lo que es adecuado cuando la apariencia del documento importa más que la fluidez.
Los archivos PDF no funcionan bien en la web. Los navegadores móviles procesan los archivos PDF de manera incómoda, los lectores de pantalla los manejan de manera inconsistente, los motores de búsqueda los rastrean pero los clasifican por debajo del HTML equivalente, e incrustar un PDF en una página web produce un visor en iframe torpe en lugar de una experiencia nativa. La conversión a HTML produce contenido que funciona de la misma manera que funciona la web.
HTML también es editable. Una vez que el contenido de un PDF está en formato HTML, puede cambiar la tipografía, reestructurar secciones, agregar elementos interactivos e integrar el contenido con otras páginas web. PDF resiste todas esas operaciones.
Suelte el PDF, elija el estilo de salida y genere.
PDF.js expone el contenido del texto como elementos con cuadros delimitadores, fuentes y cadenas Unicode. El convertidor clasifica los elementos por Y y luego por X para recuperar el orden de lectura, agrupa los elementos con líneas de base similares en líneas y agrupa las líneas en párrafos según el espaciado vertical.
La detección de encabezados utiliza análisis del tamaño de fuente: los tamaños significativamente más grandes que la fuente del cuerpo se convierten en encabezados, con el más grande asignado a h1, el siguiente más grande a h2, y así sucesivamente. La detección de listas busca líneas que comiencen con viñetas o secuencias numéricas.
El HTML de salida es autónomo: tipo de documento, encabezado con CSS incrustado para tipografía, cuerpo con el contenido convertido. Las imágenes en línea del PDF no están actualmente incrustadas; siguen siendo una limitación conocida. La salida se valida como HTML5.