PDF către Word (DOCX)
Extrageți text din PDF și convertiți-l în format Word editabil în întregime în browser. Rapid, sigur și privat.
Aruncă fișierul PDF aici
Suportă până la 50 MB
Extrageți text din PDF și convertiți-l în format Word editabil în întregime în browser. Rapid, sigur și privat.
Suportă până la 50 MB
PDF și DOCX (Microsoft Word) descriu documente folosind modele fundamental diferite. PDF este un format cu aspect fix: fiecare glif are o poziție explicită pe o pagină de dimensiune fixă, făcând documentul să arate identic oriunde este redat. DOCX este un format de layout flux: paragrafele, tabelele și titlurile sunt descrise semantic, iar motorul de randare decide unde se află în pagină în funcție de dimensiunea actuală a paginii și disponibilitatea fontului. Convertirea de la PDF la DOCX înseamnă realizarea de inginerie inversă a aspectului fix într-o structură semantică pe care Word o poate reflua.
Această conversie este în mod inerent cu pierderi. PDF, în general, nu păstrează nivelurile de titlu, limitele paragrafelor, structura listei sau semantica tabelului; convertizorul trebuie să deducă acestea din dimensiunile fontului, pozițiile și caracterele marcatoare. PDF-urile simple bazate pe text se convertesc în mod curat. PDF-urile complexe cu aspect pe mai multe coloane, imagini încorporate, note de subsol sau tipografie neobișnuită necesită de obicei curățare manuală după conversie.
Acest instrument rulează conversia în browser utilizând PDF.js pentru analiza și un writer personalizat de layout-to-DOCX care produce ieșire standard Office Open XML. Rezultatul se deschide în Microsoft Word, LibreOffice Writer, Google Docs și orice alt editor compatibil DOCX. Nu are loc încărcare; fișierul rămâne pe dispozitivul dvs.
Editabilitatea este întregul motiv. PDF-ul este ostil editării — puteți completa câmpurile de formular și puteți face adnotări, dar nu puteți redistribui textul, nu puteți modifica stilurile de paragraf sau nu puteți restructura conținut fără editori PDF specializați care costă bani și produc rezultate inconsecvente. DOCX este creat pentru editare. Convertirea unui PDF în DOCX face ca conținutul să fie tratabil pentru revizuire, traducere, reutilizare sau reproiectare.
Celălalt motiv este colaborarea. Word și Google Docs sunt limba franca a colaborării documentelor în birouri, școli și majoritatea organizațiilor. Firele de comentarii, urmărirea modificărilor și editarea partajată presupun DOCX sau echivalentele sale în cloud. PDF-urile trimise spre revizuire devin blocaje; DOCX curge prin instrumente standard de colaborare.
Aruncă PDF-ul, generează, descarcă. Așteptați-vă să faceți ceva curățare în Word după aceea.
PDF.js analizează fiecare pagină PDF într-un flux de operații de text și grafică. API-ul de extracție a textului returnează elementele de text cu casetele lor de delimitare, informațiile despre font și șirurile decodate Unicode. Din aceste elemente, convertorul reconstruiește ordinea de citire prin sortarea de sus în jos și de la stânga la dreapta, grupând elementele cu linii de bază similare în linii și linii în paragrafe.
DOCX este o arhivă zip care conține fișiere XML (document.xml, styles.xml, plus tipul de conținut și manifeste de relații). Convertorul construiește conținutul document.xml folosind o serie de elemente de paragraf (w:p) și rulează (w:r), aplică referințe de stil pentru titluri (Titlu 1, Titlu 2) unde dimensiunea fontului sugerează un titlu și asambla zip-ul în memorie folosind JSZip.
Limitări: layout-urile coloanelor nu sunt întotdeauna reconstruite corect. Tabelele din PDF sunt recuperate ca paragrafe, cu excepția cazului în care aspectul sugerează cu tărie o structură tabelară. Anteturile, subsolurile și notele de subsol ajung de obicei în linie în corp, mai degrabă decât în zonele DOCX corespunzătoare. Imaginile încorporate în PDF nu sunt păstrate în prezent în ieșirea DOCX.