PDF vers Mot (DOCX)
Extrayez le texte d'un PDF et convertissez-le au format Word modifiable directement dans votre navigateur. Rapide, sûr et privé.
Déposez le fichier PDF ici
Prend en charge jusqu'à 50 Mo
Extrayez le texte d'un PDF et convertissez-le au format Word modifiable directement dans votre navigateur. Rapide, sûr et privé.
Prend en charge jusqu'à 50 Mo
PDF et DOCX (Microsoft Word) décrivent des documents en utilisant des modèles fondamentalement différents. Le PDF est un format à mise en page fixe : chaque glyphe a une position explicite sur une page de taille fixe, ce qui rend le document identique partout où il est rendu. DOCX est un format de présentation fluide : les paragraphes, les tableaux et les titres sont décrits sémantiquement, et le moteur de rendu décide où ils se trouvent sur la page en fonction de la taille actuelle de la page et de la disponibilité des polices. La conversion de PDF en DOCX signifie procéder à une rétro-ingénierie de la mise en page fixe en une structure sémantique que Word peut redistribuer.
Cette conversion est intrinsèquement avec perte. Le PDF ne conserve généralement pas les niveaux de titre, les limites des paragraphes, la structure des listes ou la sémantique des tableaux ; le convertisseur doit les déduire à partir de la taille des polices, des positions et des puces. Les PDF simples basés sur du texte se convertissent proprement. Les PDF complexes comportant des mises en page à plusieurs colonnes, des images intégrées, des notes de bas de page ou une typographie inhabituelle nécessitent généralement un nettoyage manuel après la conversion.
Cet outil exécute la conversion dans votre navigateur à l'aide de PDF.js pour l'analyse et d'un rédacteur de mise en page personnalisé vers DOCX qui produit une sortie Office Open XML standard. Le résultat s'ouvre dans Microsoft Word, LibreOffice Writer, Google Docs et tout autre éditeur compatible DOCX. Aucun téléchargement n'a lieu ; le fichier reste sur votre appareil.
La possibilité de modification est la seule raison. Le PDF est hostile à l'édition : vous pouvez remplir des champs de formulaire et annoter, mais vous ne pouvez pas redistribuer le texte, modifier les styles de paragraphe ou restructurer le contenu sans des éditeurs PDF spécialisés qui coûtent de l'argent et produisent des résultats incohérents. DOCX est conçu pour l'édition. La conversion d'un PDF en DOCX rend le contenu traitable pour la révision, la traduction, la réutilisation ou la refonte.
L'autre raison est la collaboration. Word et Google Docs sont la lingua franca de la collaboration documentaire dans les bureaux, les écoles et la plupart des organisations. Les fils de commentaires, le suivi des modifications et l'édition partagée supposent tous DOCX ou ses équivalents cloud. Les PDF envoyés pour révision deviennent des goulots d'étranglement ; DOCX circule via des outils de collaboration standard.
Déposez le PDF, générez, téléchargez. Attendez-vous à faire un peu de nettoyage dans Word par la suite.
PDF.js analyse chaque page PDF en un flux d'opérations de texte et de graphiques. L'API d'extraction de texte renvoie les éléments de texte avec leurs cadres de délimitation, les informations de police et les chaînes décodées Unicode. À partir de ces éléments, le convertisseur reconstruit l'ordre de lecture en triant de haut en bas et de gauche à droite, en regroupant les éléments ayant des lignes de base similaires en lignes et les lignes en paragraphes.
DOCX est une archive zip contenant des fichiers XML (document.xml, styles.xml, ainsi que des manifestes de type de contenu et de relations). Le convertisseur crée le contenu du document.xml à l'aide d'une série d'éléments paragraphe (w:p) et run (w:r), applique des références de style pour les titres (titre 1, titre 2) où la taille de la police suggère un titre et assemble le zip en mémoire à l'aide de JSZip.
Limites : les dispositions des colonnes ne sont pas toujours reconstruites correctement. Les tableaux du PDF sont récupérés sous forme de paragraphes, sauf si la mise en page suggère fortement une structure tabulaire. Les en-têtes, pieds de page et notes de bas de page se retrouvent généralement en ligne dans le corps plutôt que dans les zones DOCX correspondantes. Les images intégrées dans le PDF ne sont actuellement pas conservées dans la sortie DOCX.