Convertisseur Gratuit

PDF vers Excel (XLSX)

Extrayez les tableaux et le texte des fichiers PDF et convertissez-les en feuilles de calcul Excel XLSX en toute sécurité dans votre navigateur.

Déposez le fichier PDF ici

ou cliquez pour sélectionner un fichier

Ou

À propos de cet outil

Extraire des données tabulaires d'un PDF vers une feuille de calcul est l'un des flux de travail documentaires les plus courants dans les bureaux qui gèrent des factures, des rapports financiers, des articles scientifiques et des données gouvernementales. Le format PDF ne comprend pas nativement les tableaux (il décrit simplement la position des glyphes sur une page). La conversion vers Excel nécessite donc de déduire la structure du tableau à partir de la géométrie du texte. L'endroit où une cellule se termine et où la suivante commence doit être deviné à partir des espaces horizontaux ; où une ligne se termine et la suivante commence, à partir d'un espace vertical.

Cet outil analyse le PDF à l'aide de PDF.js, extrait les éléments de texte avec leurs cadres de délimitation et regroupe les éléments en lignes et colonnes en fonction de leur position. Le tableau détecté est écrit dans un classeur Excel à l'aide de la bibliothèque SheetJS xlsx. Le résultat est un fichier .xlsx standard qui s'ouvre dans Excel, Google Sheets, Numbers ou toute autre application de feuille de calcul.

L'extraction de tableaux PDF est vraiment difficile et aucun extracteur ne produit des résultats parfaits sur chaque PDF. Les tableaux avec des limites de colonnes cohérentes, aucune cellule fusionnée et un alignement vertical clair sont convertis proprement. Les tableaux comportant des cellules fusionnées, des entrées multilignes, des notes de bas de page ou des mises en page inhabituelles nécessitent généralement un nettoyage manuel après l'extraction. Prévoyez un examen.

Pourquoi convertir un PDF en Excel

La raison est presque toujours l’analyse. Les données piégées dans un PDF ne peuvent pas être triées, filtrées, additionnées, représentées sous forme de graphique ou pivotées. Une fois dans Excel, toutes les opérations standard d'une feuille de calcul deviennent disponibles, ce qui ouvre la différence entre regarder un rapport statique et travailler réellement avec les chiffres qu'il contient.

Le travail de données en masse est impossible en PDF. L'agrégation de chiffres trimestriels dans plusieurs rapports PDF, la comparaison d'éléments de campagne entre fournisseurs ou l'extraction de colonnes spécifiques pour une analyse en aval nécessitent toutes de mettre les données dans un format qui prend en charge ces opérations. Excel et CSV sont ces formats. La conversion est le pont.

Comment l'utiliser

Déposez un PDF contenant des données tabulaires, obtenez un classeur avec chaque tableau sur sa propre feuille.

  1. Téléchargez votre PDF: Faites glisser le fichier dans la zone de téléchargement ou cliquez pour parcourir. Les fichiers jusqu'à 50 Mo sont pris en charge. Le PDF doit contenir du texte réel ; les PDF numérisés nécessitent d'abord l'OCR.
  2. Attendre la détection de la table: PDF.js extrait les éléments de texte et leurs positions. Le convertisseur regroupe les éléments en lignes et colonnes en analysant l'alignement horizontal et vertical. La détection prend quelques secondes pour les documents courts et plus longtemps pour les tableaux de plusieurs pages.
  3. Examiner les tables détectées: Les tableaux détectés sont prévisualisés avant le téléchargement. Confirmez que les colonnes et les lignes correspondent à ce que vous attendez ; les désalignements ici deviennent un nettoyage Excel plus tard.
  4. Télécharger au format XLSX: Le convertisseur écrit chaque table détectée sur une feuille distincte dans un classeur .xlsx à l'aide de SheetJS. Ouvrez le résultat dans Excel ou Google Sheets et nettoyez tous les problèmes résiduels.

Cas d'utilisation courants

Détails techniques

PDF.js expose une API getTextContent qui renvoie des éléments de texte avec leurs cadres de délimitation. Chaque élément a une chaîne, une matrice de transformation (pour la position et la rotation) et une largeur/hauteur. Le convertisseur trie les éléments par coordonnée Y pour identifier les lignes, puis au sein de chaque ligne par coordonnée X. Les éléments situés à des positions Y très similaires forment une rangée.

La détection de colonnes utilise l'analyse des écarts : la distance X entre les éléments consécutifs d'une ligne indique s'ils appartiennent à la même cellule ou à des cellules adjacentes. Un espace supérieur à un seuil (généralement 1 à 2 largeurs de caractères) signale une limite de colonne. Le réglage du seuil fait un compromis entre la fusion de colonnes adjacentes et la division de colonnes uniques.

La sortie Excel utilise SheetJS pour construire un classeur en mémoire, avec chaque tableau détecté sur sa propre feuille nommée Sheet1, Sheet2, etc. Le classeur est sérialisé au format .xlsx (Office Open XML) et proposé en téléchargement. Le résultat s'ouvre dans Excel 2007+, Google Sheets, LibreOffice Calc et Apple Numbers.

Meilleures pratiques

Questions fréquentes

La conversion d'un PDF en EXCEL modifie-t-elle le contenu ?
Le contenu est conservé aussi précisément que possible. Cependant, certaines fonctionnalités spécifiques au format peuvent ne pas avoir d'équivalents directs, de sorte que des différences mineures de formatage peuvent survenir.
A quoi sert le format EXCEL ?
XLSX (Microsoft Excel Spreadsheet) est principalement utilisé pour les feuilles de calcul contenant des formules, des graphiques et des analyses de données.
Y a-t-il des limites à connaître ?
Les fichiers jusqu'à 50 Mo sont pris en charge. Les fichiers très volumineux ou complexes peuvent prendre plus de temps à traiter. Toutes les conversions s'effectuent dans votre navigateur, la vitesse de traitement dépend donc de votre appareil.
Les données de mes documents sont-elles sécurisées ?
Oui. Le traitement des documents s'effectue entièrement dans votre navigateur. Vos fichiers et leur contenu ne sont jamais téléchargés sur aucun serveur. Cela permet de convertir en toute sécurité des documents sensibles ou confidentiels.
Quel format de sortie est produit ?
.xlsx (Office Open XML), le format Excel moderne. Le fichier s'ouvre dans Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers et toute autre feuille de calcul moderne.
Mon PDF est-il téléchargé sur un serveur ?
L'analyse et la génération Excel s'effectuent dans votre navigateur à l'aide de PDF.js et SheetJS.
Quelle est la taille maximale du fichier ?
50 Mo. Le temps de conversion dépend de la complexité du document plutôt que de la seule taille du fichier : un PDF de 50 Mo contenant beaucoup de graphiques peut prendre plus de temps à extraire qu'un PDF contenant beaucoup de texte.
Pourquoi mes numéros sont-ils dans les mauvaises colonnes ?
Presque toujours parce que le seuil de détection des colonnes du convertisseur ne correspondait pas à la mise en page réelle du PDF. Ouvrez le PDF source, regardez où les colonnes se séparent visuellement et déplacez manuellement les cellules dans Excel si nécessaire.