Convertitore gratuito

PDF a Convertitore Excel (XLSX).

Estrai tabelle e testo da PDF e convertili in fogli di calcolo Excel XLSX in modo sicuro nel tuo browser.

Rilascia il file PDF qui

oppure fare clic per selezionare il file

O

Informazioni su questo strumento

L'estrazione di dati tabellari da un PDF e in un foglio di calcolo è uno dei flussi di lavoro documentali più comuni negli uffici che gestiscono fatture, rapporti finanziari, articoli scientifici e dati governativi. Il formato PDF non comprende nativamente le tabelle, ma descrive semplicemente le posizioni dei glifi su una pagina, quindi la conversione in Excel richiede di dedurre la struttura della tabella dalla geometria del testo. Dove finisce una cella e inizia la successiva deve essere indovinato dagli spazi bianchi orizzontali; dove finisce una riga e inizia la successiva, dagli spazi bianchi verticali.

Questo strumento analizza il PDF utilizzando PDF.js, estrae gli elementi di testo con i relativi riquadri di delimitazione e raggruppa gli elementi in righe e colonne in base alla posizione. La tabella rilevata viene scritta in una cartella di lavoro Excel utilizzando la libreria SheetJS xlsx. L'output è un file .xlsx standard che si apre in Excel, Fogli Google, Numbers o qualsiasi altra applicazione per fogli di calcolo.

L'estrazione delle tabelle PDF è davvero difficile e nessun estrattore produce risultati perfetti su ogni PDF. Le tabelle con limiti di colonna coerenti, nessuna cella unita e un chiaro allineamento verticale vengono convertite in modo pulito. Le tabelle con celle unite, voci su più righe, note a piè di pagina o layout insoliti in genere necessitano di una pulizia manuale dopo l'estrazione. Pianificare la revisione.

Perché convertire PDF in Excel

Il motivo è quasi sempre l’analisi. I dati bloccati in un PDF non possono essere ordinati, filtrati, sommati, tracciati in un grafico o ruotati. Una volta in Excel, tutte le operazioni standard del foglio di calcolo diventano disponibili e questo apre la differenza tra fissare un report statico e lavorare effettivamente con i numeri in esso contenuti.

Il lavoro di massa dei dati è impossibile in PDF. L'aggregazione di dati trimestrali su più report PDF, il confronto di voci tra fornitori o l'estrazione di colonne specifiche per l'analisi a valle richiedono tutti i dati in un formato che supporti tali operazioni. Excel e CSV sono quei formati. La conversione è il ponte.

Come usarlo

Rilascia un PDF contenente dati tabulari, ottieni una cartella di lavoro con ciascuna tabella sul proprio foglio.

  1. Carica il tuo PDF: Trascina il file nell'area di caricamento o fai clic per sfogliarlo. Sono supportati file fino a 50 MB. Il PDF deve contenere testo effettivo; i PDF scansionati necessitano prima dell'OCR.
  2. Attendi il rilevamento della tabella: PDF.js estrae elementi di testo e le loro posizioni. Il convertitore raggruppa gli elementi in righe e colonne analizzando l'allineamento orizzontale e verticale. Il rilevamento richiede pochi secondi per documenti brevi e più tempo per tabelle di più pagine.
  3. Esaminare le tabelle rilevate: Le tabelle rilevate vengono visualizzate in anteprima prima del download. Conferma che le colonne e le righe corrispondano a ciò che ti aspetti; i disallineamenti qui diventano la pulizia di Excel in seguito.
  4. Scarica come XLSX: Il convertitore scrive ciascuna tabella rilevata su un foglio separato in una cartella di lavoro .xlsx utilizzando SheetJS. Apri il risultato in Excel o Fogli Google ed elimina eventuali problemi residui.

Casi d'uso comuni

Dettagli tecnici

PDF.js espone un'API getTextContent che restituisce elementi di testo con i relativi riquadri di delimitazione. Ogni elemento ha una stringa, una matrice di trasformazione (per posizione e rotazione) e larghezza/altezza. Il convertitore ordina gli elementi in base alla coordinata Y per identificare le linee, quindi all'interno di ciascuna riga in base alla coordinata X. Gli elementi in posizioni Y molto simili formano una riga.

Il rilevamento delle colonne utilizza l'analisi degli spazi: la distanza X tra elementi consecutivi in una riga indica se appartengono alla stessa cella o a celle adiacenti. Uno spazio maggiore di una soglia (in genere 1–2 larghezze di carattere) segnala un confine di colonna. L'ottimizzazione della soglia costituisce un compromesso tra l'unione di colonne adiacenti e la divisione di singole colonne.

L'output di Excel utilizza SheetJS per costruire una cartella di lavoro in memoria, con ciascuna tabella rilevata sul proprio foglio denominato Foglio1, Foglio2 e così via. La cartella di lavoro viene serializzata nel formato .xlsx (Office Open XML) e offerta come download. Il risultato si apre in Excel 2007+, Fogli Google, LibreOffice Calc e Apple Numbers.

Migliori pratiche

Domande frequenti

La conversione di PDF in EXCEL modifica il contenuto?
Il contenuto viene conservato nel modo più accurato possibile. Tuttavia, alcune funzionalità specifiche del formato potrebbero non avere equivalenti diretti, pertanto potrebbero verificarsi piccole differenze di formattazione.
A cosa serve il formato EXCEL?
XLSX (foglio di calcolo Microsoft Excel) viene utilizzato principalmente per fogli di calcolo con formule, grafici e analisi dei dati.
Ci sono limitazioni di cui essere a conoscenza?
Sono supportati file fino a 50 MB. L'elaborazione di file molto grandi o complessi potrebbe richiedere più tempo. Tutta la conversione avviene nel tuo browser, quindi la velocità di elaborazione dipende dal tuo dispositivo.
I dati del mio documento sono al sicuro?
SÌ. L'elaborazione dei documenti viene eseguita interamente nel tuo browser. I tuoi file e i loro contenuti non verranno mai caricati su nessun server. Ciò rende sicura la conversione di documenti sensibili o riservati.
Quale formato di output viene prodotto?
.xlsx (Office Open XML), il moderno formato Excel. Il file si apre in Excel 2007+, Fogli Google, LibreOffice Calc, Apple Numbers e qualsiasi altro foglio di calcolo moderno.
Il mio PDF è caricato su un server?
No. L'analisi e la generazione di Excel avvengono nel tuo browser utilizzando PDF.js e SheetJS.
Qual è la dimensione massima del file?
50MB. Il tempo di conversione dipende dalla complessità del documento e non solo dalle dimensioni del file: un PDF da 50 MB con un elevato contenuto di grafica potrebbe richiedere più tempo per l'estrazione rispetto a uno con un elevato contenuto di testo.
Perché i miei numeri sono nelle colonne sbagliate?
Quasi sempre perché la soglia di rilevamento delle colonne del convertitore non corrispondeva al layout effettivo del PDF. Apri il PDF di origine, osserva dove le colonne si interrompono visivamente e sposta manualmente le celle in Excel secondo necessità.