PDF a Convertitore Excel (XLSX).
Estrai tabelle e testo da PDF e convertili in fogli di calcolo Excel XLSX in modo sicuro nel tuo browser.
Rilascia il file PDF qui
oppure fare clic per selezionare il file
Estrai tabelle e testo da PDF e convertili in fogli di calcolo Excel XLSX in modo sicuro nel tuo browser.
oppure fare clic per selezionare il file
L'estrazione di dati tabellari da un PDF e in un foglio di calcolo è uno dei flussi di lavoro documentali più comuni negli uffici che gestiscono fatture, rapporti finanziari, articoli scientifici e dati governativi. Il formato PDF non comprende nativamente le tabelle, ma descrive semplicemente le posizioni dei glifi su una pagina, quindi la conversione in Excel richiede di dedurre la struttura della tabella dalla geometria del testo. Dove finisce una cella e inizia la successiva deve essere indovinato dagli spazi bianchi orizzontali; dove finisce una riga e inizia la successiva, dagli spazi bianchi verticali.
Questo strumento analizza il PDF utilizzando PDF.js, estrae gli elementi di testo con i relativi riquadri di delimitazione e raggruppa gli elementi in righe e colonne in base alla posizione. La tabella rilevata viene scritta in una cartella di lavoro Excel utilizzando la libreria SheetJS xlsx. L'output è un file .xlsx standard che si apre in Excel, Fogli Google, Numbers o qualsiasi altra applicazione per fogli di calcolo.
L'estrazione delle tabelle PDF è davvero difficile e nessun estrattore produce risultati perfetti su ogni PDF. Le tabelle con limiti di colonna coerenti, nessuna cella unita e un chiaro allineamento verticale vengono convertite in modo pulito. Le tabelle con celle unite, voci su più righe, note a piè di pagina o layout insoliti in genere necessitano di una pulizia manuale dopo l'estrazione. Pianificare la revisione.
Il motivo è quasi sempre l’analisi. I dati bloccati in un PDF non possono essere ordinati, filtrati, sommati, tracciati in un grafico o ruotati. Una volta in Excel, tutte le operazioni standard del foglio di calcolo diventano disponibili e questo apre la differenza tra fissare un report statico e lavorare effettivamente con i numeri in esso contenuti.
Il lavoro di massa dei dati è impossibile in PDF. L'aggregazione di dati trimestrali su più report PDF, il confronto di voci tra fornitori o l'estrazione di colonne specifiche per l'analisi a valle richiedono tutti i dati in un formato che supporti tali operazioni. Excel e CSV sono quei formati. La conversione è il ponte.
Rilascia un PDF contenente dati tabulari, ottieni una cartella di lavoro con ciascuna tabella sul proprio foglio.
PDF.js espone un'API getTextContent che restituisce elementi di testo con i relativi riquadri di delimitazione. Ogni elemento ha una stringa, una matrice di trasformazione (per posizione e rotazione) e larghezza/altezza. Il convertitore ordina gli elementi in base alla coordinata Y per identificare le linee, quindi all'interno di ciascuna riga in base alla coordinata X. Gli elementi in posizioni Y molto simili formano una riga.
Il rilevamento delle colonne utilizza l'analisi degli spazi: la distanza X tra elementi consecutivi in una riga indica se appartengono alla stessa cella o a celle adiacenti. Uno spazio maggiore di una soglia (in genere 1–2 larghezze di carattere) segnala un confine di colonna. L'ottimizzazione della soglia costituisce un compromesso tra l'unione di colonne adiacenti e la divisione di singole colonne.
L'output di Excel utilizza SheetJS per costruire una cartella di lavoro in memoria, con ciascuna tabella rilevata sul proprio foglio denominato Foglio1, Foglio2 e così via. La cartella di lavoro viene serializzata nel formato .xlsx (Office Open XML) e offerta come download. Il risultato si apre in Excel 2007+, Fogli Google, LibreOffice Calc e Apple Numbers.