PDF vers Excel (XLSX)
Extrayez les tableaux et le texte des fichiers PDF et convertissez-les en feuilles de calcul Excel XLSX en toute sécurité dans votre navigateur.
Déposez le fichier PDF ici
ou cliquez pour sélectionner un fichier
Extrayez les tableaux et le texte des fichiers PDF et convertissez-les en feuilles de calcul Excel XLSX en toute sécurité dans votre navigateur.
ou cliquez pour sélectionner un fichier
Extraire des données tabulaires d'un PDF vers une feuille de calcul est l'un des flux de travail documentaires les plus courants dans les bureaux qui gèrent des factures, des rapports financiers, des articles scientifiques et des données gouvernementales. Le format PDF ne comprend pas nativement les tableaux (il décrit simplement la position des glyphes sur une page). La conversion vers Excel nécessite donc de déduire la structure du tableau à partir de la géométrie du texte. L'endroit où une cellule se termine et où la suivante commence doit être deviné à partir des espaces horizontaux ; où une ligne se termine et la suivante commence, à partir d'un espace vertical.
Cet outil analyse le PDF à l'aide de PDF.js, extrait les éléments de texte avec leurs cadres de délimitation et regroupe les éléments en lignes et colonnes en fonction de leur position. Le tableau détecté est écrit dans un classeur Excel à l'aide de la bibliothèque SheetJS xlsx. Le résultat est un fichier .xlsx standard qui s'ouvre dans Excel, Google Sheets, Numbers ou toute autre application de feuille de calcul.
L'extraction de tableaux PDF est vraiment difficile et aucun extracteur ne produit des résultats parfaits sur chaque PDF. Les tableaux avec des limites de colonnes cohérentes, aucune cellule fusionnée et un alignement vertical clair sont convertis proprement. Les tableaux comportant des cellules fusionnées, des entrées multilignes, des notes de bas de page ou des mises en page inhabituelles nécessitent généralement un nettoyage manuel après l'extraction. Prévoyez un examen.
La raison est presque toujours l’analyse. Les données piégées dans un PDF ne peuvent pas être triées, filtrées, additionnées, représentées sous forme de graphique ou pivotées. Une fois dans Excel, toutes les opérations standard d'une feuille de calcul deviennent disponibles, ce qui ouvre la différence entre regarder un rapport statique et travailler réellement avec les chiffres qu'il contient.
Le travail de données en masse est impossible en PDF. L'agrégation de chiffres trimestriels dans plusieurs rapports PDF, la comparaison d'éléments de campagne entre fournisseurs ou l'extraction de colonnes spécifiques pour une analyse en aval nécessitent toutes de mettre les données dans un format qui prend en charge ces opérations. Excel et CSV sont ces formats. La conversion est le pont.
Déposez un PDF contenant des données tabulaires, obtenez un classeur avec chaque tableau sur sa propre feuille.
PDF.js expose une API getTextContent qui renvoie des éléments de texte avec leurs cadres de délimitation. Chaque élément a une chaîne, une matrice de transformation (pour la position et la rotation) et une largeur/hauteur. Le convertisseur trie les éléments par coordonnée Y pour identifier les lignes, puis au sein de chaque ligne par coordonnée X. Les éléments situés à des positions Y très similaires forment une rangée.
La détection de colonnes utilise l'analyse des écarts : la distance X entre les éléments consécutifs d'une ligne indique s'ils appartiennent à la même cellule ou à des cellules adjacentes. Un espace supérieur à un seuil (généralement 1 à 2 largeurs de caractères) signale une limite de colonne. Le réglage du seuil fait un compromis entre la fusion de colonnes adjacentes et la division de colonnes uniques.
La sortie Excel utilise SheetJS pour construire un classeur en mémoire, avec chaque tableau détecté sur sa propre feuille nommée Sheet1, Sheet2, etc. Le classeur est sérialisé au format .xlsx (Office Open XML) et proposé en téléchargement. Le résultat s'ouvre dans Excel 2007+, Google Sheets, LibreOffice Calc et Apple Numbers.