PDF do Word (DOCX)
Extrahujte text z PDF a převeďte jej do upravitelného formátu Word zcela ve vašem prohlížeči. Rychlé, bezpečné a soukromé.
Sem přetáhněte soubor PDF
Podporuje až 50 MB
Extrahujte text z PDF a převeďte jej do upravitelného formátu Word zcela ve vašem prohlížeči. Rychlé, bezpečné a soukromé.
Podporuje až 50 MB
PDF a DOCX (Microsoft Word) popisují dokumenty pomocí zásadně odlišných modelů. PDF je formát s pevným rozvržením: každý glyf má explicitní polohu na stránce s pevnou velikostí, takže dokument vypadá identicky všude, kde je vykreslen. DOCX je formát flow-layout: odstavce, tabulky a nadpisy jsou popsány sémanticky a vykreslovací modul rozhoduje o tom, kde na stránce spadají, na základě aktuální velikosti stránky a dostupnosti písem. Převod z PDF do DOCX znamená zpětné inženýrství pevného rozvržení do sémantické struktury, kterou může Word přetavit.
Tato konverze je ze své podstaty ztrátová. PDF obecně nezachovává úrovně nadpisů, hranice odstavců, strukturu seznamu ani sémantiku tabulek; převodník je musí odvodit z velikostí písma, pozic a znaků odrážek. Jednoduché textové soubory PDF se převádějí čistě. Složité soubory PDF s rozvržením ve více sloupcích, vloženými obrázky, poznámkami pod čarou nebo neobvyklou typografií obvykle vyžadují po převodu ruční vyčištění.
Tento nástroj spouští převod ve vašem prohlížeči pomocí souboru PDF.js pro analýzu a vlastního zápisu rozložení do DOCX, který vytváří standardní výstup Office Open XML. Výsledek se otevře v aplikacích Microsoft Word, LibreOffice Writer, Dokumenty Google a jakémkoli jiném editoru kompatibilním s DOCX. Nedojde k nahrání; soubor zůstane ve vašem zařízení.
Editovatelnost je celý důvod. PDF je nepřátelské k úpravám – můžete vyplňovat pole formulářů a přidávat poznámky, ale nemůžete přeformátovat text, měnit styly odstavců nebo restrukturalizovat obsah bez specializovaných editorů PDF, které stojí peníze a produkují nekonzistentní výsledky. DOCX je vytvořen pro editaci. Převedením PDF do DOCX je obsah upravitelný pro revizi, překlad, přepracování nebo přepracování.
Dalším důvodem je spolupráce. Word a Dokumenty Google jsou lingua franca spolupráce na dokumentech v kancelářích, školách a většině organizací. Vlákna komentářů, sledování změn a sdílené úpravy předpokládají DOCX nebo jeho cloudové ekvivalenty. Soubory PDF odeslané ke kontrole se stávají úzkými hrdly; DOCX prochází standardními nástroji pro spolupráci.
Pusťte PDF, vygenerujte, stáhněte. Počítejte s tím, že poté ve Wordu provedete nějaké vyčištění.
PDF.js analyzuje každou stránku PDF do proudu textových a grafických operací. Rozhraní API pro extrakci textu vrací textové položky s jejich ohraničujícími rámečky, informacemi o písmech a řetězci dekódovanými v Unicode. Z těchto položek převaděč rekonstruuje pořadí čtení řazením shora dolů a zleva doprava, seskupováním položek s podobnými účařími do řádků a řádků do odstavců.
DOCX je zip archiv obsahující soubory XML (document.xml, styles.xml, plus typ obsahu a manifesty vztahů). Převaděč vytvoří obsah document.xml pomocí řady prvků odstavce (w:p) a run (w:r), použije odkazy na styl pro nadpisy (Nadpis 1, Nadpis 2), kde velikost písma naznačuje nadpis, a sestaví zip v paměti pomocí JSZip.
Omezení: rozvržení sloupců není vždy správně rekonstruováno. Tabulky v PDF jsou obnoveny jako odstavce, pokud rozložení silně nenaznačuje tabulkovou strukturu. Záhlaví, zápatí a poznámky pod čarou obvykle končí inline v těle, nikoli v odpovídajících zónách DOCX. Obrázky vložené do PDF nejsou aktuálně zachovány ve výstupu DOCX.