PDF a Parola (DOCX)
Estrai il testo da PDF e convertilo in formato Word modificabile interamente nel tuo browser. Veloce, sicuro e privato.
Rilascia il file PDF qui
Supporta fino a 50 MB
Estrai il testo da PDF e convertilo in formato Word modificabile interamente nel tuo browser. Veloce, sicuro e privato.
Supporta fino a 50 MB
PDF e DOCX (Microsoft Word) descrivono i documenti utilizzando modelli fondamentalmente diversi. Il PDF è un formato a layout fisso: ogni glifo ha una posizione esplicita su una pagina di dimensione fissa, rendendo il documento identico ovunque venga visualizzato. DOCX è un formato con layout di flusso: paragrafi, tabelle e intestazioni sono descritti semanticamente e il motore di rendering decide dove si trovano nella pagina in base alla dimensione della pagina corrente e alla disponibilità dei caratteri. Convertire da PDF a DOCX significa decodificare il layout fisso in una struttura semantica che Word può ridisporre.
Questa conversione è intrinsecamente con perdite. Il PDF generalmente non preserva i livelli di intestazione, i limiti di paragrafo, la struttura dell'elenco o la semantica delle tabelle; il convertitore deve dedurli dalle dimensioni dei caratteri, dalle posizioni e dai caratteri dei punti elenco. I PDF semplici basati su testo vengono convertiti in modo pulito. I PDF complessi con layout a più colonne, immagini incorporate, note a piè di pagina o caratteri tipografici insoliti necessitano in genere di una pulizia manuale dopo la conversione.
Questo strumento esegue la conversione nel tuo browser utilizzando PDF.js per l'analisi e un writer personalizzato da layout a DOCX che produce output Office Open XML standard. Il risultato si apre in Microsoft Word, LibreOffice Writer, Google Docs e qualsiasi altro editor compatibile con DOCX. Non avviene alcun caricamento; il file rimane sul tuo dispositivo.
La modificabilità è l'intera ragione. Il PDF è ostile alla modifica: puoi compilare campi modulo e annotare, ma non puoi ridisporre il testo, modificare gli stili di paragrafo o ristrutturare il contenuto senza editor PDF specializzati che costano denaro e producono risultati incoerenti. DOCX è progettato per la modifica. La conversione di un PDF in DOCX rende il contenuto trattabile per la revisione, la traduzione, il riutilizzo o la riprogettazione.
L’altro motivo è la collaborazione. Word e Google Docs sono la lingua franca della collaborazione documentale negli uffici, nelle scuole e nella maggior parte delle organizzazioni. I thread di commenti, le modifiche al tracciamento e le modifiche condivise presuppongono tutti DOCX o i suoi equivalenti cloud. I PDF inviati per la revisione diventano colli di bottiglia; DOCX scorre attraverso strumenti di collaborazione standard.
Rilascia il PDF, genera, scarica. Aspettatevi di fare qualche pulizia in Word in seguito.
PDF.js analizza ogni pagina PDF in un flusso di operazioni di testo e grafica. L'API di estrazione del testo restituisce elementi di testo con i relativi riquadri di delimitazione, informazioni sui caratteri e stringhe decodificate Unicode. Da questi elementi il convertitore ricostruisce l'ordine di lettura ordinandoli dall'alto verso il basso e da sinistra a destra, raggruppando elementi con linee di base simili in righe e righe in paragrafi.
DOCX è un archivio zip contenente file XML (document.xml, stili.xml, oltre a manifesti di tipi di contenuto e relazioni). Il convertitore crea il contenuto document.xml utilizzando una serie di elementi paragrafo (w:p) ed esecuzione (w:r), applica riferimenti di stile per le intestazioni (Intestazione 1, Intestazione 2) dove la dimensione del carattere suggerisce un'intestazione e assembla lo zip in memoria utilizzando JSZip.
Limitazioni: non sempre i layout delle colonne vengono ricostruiti correttamente. Le tabelle nel PDF vengono recuperate come paragrafi a meno che il layout non suggerisca fortemente la struttura tabellare. Intestazioni, piè di pagina e note a piè di pagina in genere finiscono in linea nel corpo anziché nelle zone DOCX corrispondenti. Le immagini incorporate nel PDF non vengono attualmente conservate nell'output DOCX.