PDF do Word (DOCX)
Extrahujte text z PDF a preveďte ho do upraviteľného formátu Word úplne vo svojom prehliadači. Rýchle, bezpečné a súkromné.
Sem presuňte súbor PDF
Podporuje až 50 MB
Extrahujte text z PDF a preveďte ho do upraviteľného formátu Word úplne vo svojom prehliadači. Rýchle, bezpečné a súkromné.
Podporuje až 50 MB
PDF a DOCX (Microsoft Word) popisujú dokumenty pomocou zásadne odlišných modelov. PDF je formát s pevným rozložením: každý glyf má explicitnú polohu na stránke s pevnou veľkosťou, vďaka čomu bude dokument vyzerať rovnako všade, kde je vykreslený. DOCX je formát flow-layout: odseky, tabuľky a nadpisy sú popísané sémanticky a vykresľovacie jadro rozhoduje o tom, kde na stránke spadnú na základe aktuálnej veľkosti stránky a dostupnosti písma. Konverzia z PDF do DOCX znamená spätné inžinierstvo pevného rozloženia do sémantickej štruktúry, ktorú môže Word pretaviť.
Táto konverzia je vo svojej podstate stratová. PDF vo všeobecnosti nezachováva úrovne nadpisov, hranice odsekov, štruktúru zoznamu ani sémantiku tabuľky; konvertor ich musí odvodiť z veľkostí písma, pozícií a znakov odrážok. Jednoduché textové súbory PDF sa prevádzajú čisto. Komplexné súbory PDF s rozložením vo viacerých stĺpcoch, vloženými obrázkami, poznámkami pod čiarou alebo nezvyčajnou typografiou zvyčajne vyžadujú po konverzii manuálne čistenie.
Tento nástroj spúšťa konverziu vo vašom prehliadači pomocou súboru PDF.js na analýzu a vlastného zapisovača formátu DOCX, ktorý vytvára štandardný výstup Office Open XML. Výsledok sa otvorí v programe Microsoft Word, LibreOffice Writer, Dokumenty Google a akomkoľvek inom editore kompatibilnom s DOCX. Nedochádza k žiadnemu nahrávaniu; súbor zostane vo vašom zariadení.
Úpravnosť je hlavným dôvodom. PDF je nepriateľské voči úpravám – môžete vyplniť polia formulárov a pridávať poznámky, ale nemôžete preformátovať text, zmeniť štýly odsekov ani reštrukturalizovať obsah bez špecializovaných editorov PDF, ktoré stoja peniaze a prinášajú nekonzistentné výsledky. DOCX je vytvorený na úpravu. Konverzia PDF do DOCX robí obsah spracovateľným na revíziu, preklad, prepracovanie alebo prepracovanie.
Ďalším dôvodom je spolupráca. Word a Dokumenty Google sú lingua franca spolupráce na dokumentoch v kanceláriách, školách a väčšine organizácií. Vlákna komentárov, sledovanie zmien a zdieľané úpravy predpokladajú DOCX alebo jeho cloudové ekvivalenty. Súbory PDF odoslané na kontrolu sa stávajú prekážkami; DOCX prechádza štandardnými nástrojmi spolupráce.
Pustite PDF, vygenerujte, stiahnite. Očakávajte, že potom vo Worde urobíte nejaké vyčistenie.
PDF.js analyzuje každú stránku PDF do prúdu textových a grafických operácií. Rozhranie API na extrakciu textu vracia textové položky s ich ohraničovacími rámčekmi, informáciami o písme a reťazcami dekódovanými v kódovaní Unicode. Z týchto položiek konvertor rekonštruuje poradie čítania triedením zhora nadol a zľava doprava, zoskupením položiek s podobnými základnými čiarami do riadkov a riadkov do odsekov.
DOCX je zip archív obsahujúci súbory XML (document.xml, styles.xml plus typ obsahu a manifesty vzťahov). Konvertor vytvorí obsah document.xml pomocou série prvkov odsek (w:p) a run (w:r), použije odkazy na štýl pre nadpisy (nadpis 1, nadpis 2), kde veľkosť písma naznačuje nadpis, a zostaví zip v pamäti pomocou JSZip.
Obmedzenia: rozloženia stĺpcov nie sú vždy správne zrekonštruované. Tabuľky v PDF sa obnovia ako odseky, pokiaľ rozloženie silne nenaznačuje tabuľkovú štruktúru. Hlavičky, päty a poznámky pod čiarou zvyčajne skončia v riadku v tele a nie v zodpovedajúcich zónach DOCX. Obrázky vložené do PDF nie sú momentálne zachované vo výstupe DOCX.