Convertisseur PDF en HTML
Convertissez des documents PDF en fichiers HTML propres et sémantiques directement dans votre navigateur. Rapide, sécurisé et préserve la structure du document.
Sélectionner un fichier PDF
ou glisser-déposer ici
Convertissez des documents PDF en fichiers HTML propres et sémantiques directement dans votre navigateur. Rapide, sécurisé et préserve la structure du document.
ou glisser-déposer ici
La conversion de PDF en HTML transforme un document à mise en page fixe en une page Web fluide. La conversion préserve le contenu du texte, les titres, les paragraphes et le style de base tout en abandonnant la disposition exacte en pixels du PDF au profit du flux réactif du HTML. C’est le bon métier pour les documents republiés sous forme de contenu Web – articles, rapports, documentation technique – et le mauvais métier pour les documents dont la mise en page est essentielle – formulaires, factures au positionnement strict, éléments marketing conçus.
Cet outil utilise PDF.js pour extraire le texte, les polices et la structure de base du PDF, puis écrit le balisage HTML correspondant avec CSS intégré pour la typographie. Le résultat est un fichier .html autonome que vous pouvez ouvrir dans n'importe quel navigateur, coller dans un CMS ou personnaliser davantage avec du CSS personnalisé. Aucun téléchargement n'a lieu ; la conversion s'exécute dans votre navigateur.
Deux styles de sortie sont pris en charge. Le HTML sémantique produit un balisage clair avec des éléments de paragraphe et de titre, adapté à la republication de contenu sur un blog ou un site de documentation. Visual HTML préserve davantage la mise en page du PDF via un positionnement absolu, idéal lorsque l'apparence du document compte plus que la redistribution.
Les PDF ne fonctionnent pas bien sur le Web. Les navigateurs mobiles affichent les PDF de manière maladroite, les lecteurs d'écran les traitent de manière incohérente, les moteurs de recherche les explorent mais les classent moins bien que le HTML équivalent, et l'intégration d'un PDF dans une page Web produit une visionneuse iframe maladroite plutôt qu'une expérience native. La conversion au format HTML produit un contenu qui fonctionne de la même manière que le Web.
Le HTML est également modifiable. Une fois le contenu d'un PDF au format HTML, vous pouvez modifier la typographie, restructurer les sections, ajouter des éléments interactifs et intégrer le contenu à d'autres pages Web. PDF résiste à toutes ces opérations.
Déposez le PDF, choisissez le style de sortie, générez.
PDF.js expose le contenu textuel sous forme d'éléments avec des cadres de délimitation, des polices et des chaînes Unicode. Le convertisseur trie les éléments par Y puis X pour récupérer l'ordre de lecture, regroupe les éléments ayant des lignes de base similaires en lignes et regroupe les lignes en paragraphes en fonction de l'espacement vertical.
La détection des titres utilise l'analyse de la taille de la police : les tailles nettement plus grandes que la police du corps deviennent des titres, le plus grand étant mappé à h1, le suivant à h2, et ainsi de suite. La détection de liste recherche les lignes commençant par des puces ou des séquences numériques.
Le HTML de sortie est autonome : doctype, head avec CSS intégré pour la typographie, body avec le contenu converti. Les images en ligne du PDF ne sont actuellement pas intégrées ; ils restent une limitation connue. La sortie est validée au format HTML5.