PDF į Word (DOCX)
Ištraukite tekstą iš PDF ir konvertuokite jį į redaguojamą Word formatą visiškai savo naršyklėje. Greitas, saugus ir privatus.
Nuvilkite PDF failą čia
Palaiko iki 50 MB
Ištraukite tekstą iš PDF ir konvertuokite jį į redaguojamą Word formatą visiškai savo naršyklėje. Greitas, saugus ir privatus.
Palaiko iki 50 MB
PDF ir DOCX (Microsoft Word) dokumentai aprašomi naudojant iš esmės skirtingus modelius. PDF yra fiksuoto išdėstymo formatas: kiekvienas glifas turi aiškią vietą fiksuoto dydžio puslapyje, todėl dokumentas atrodo identiškas visur, kur jis pateikiamas. DOCX yra srauto išdėstymo formatas: pastraipos, lentelės ir antraštės aprašomos semantiškai, o atvaizdavimo variklis nusprendžia, kur jie patenka puslapyje, atsižvelgdami į esamą puslapio dydį ir šrifto prieinamumą. Konvertavimas iš PDF į DOCX reiškia fiksuoto išdėstymo apgręžimą į semantinę struktūrą, kurią Word gali iš naujo tekėti.
Ši konversija iš esmės yra nuostolinga. PDF paprastai neišsaugo antraštės lygių, pastraipų ribų, sąrašo struktūros ar lentelės semantikos; keitiklis turi tai padaryti iš šrifto dydžių, padėties ir ženklinimo ženklų. Paprasti teksto PDF failai konvertuojami švariai. Sudėtingus PDF failus su kelių stulpelių išdėstymu, įterptais vaizdais, išnašomis ar neįprasta tipografija paprastai po konvertavimo reikia išvalyti rankiniu būdu.
Šis įrankis vykdo konversiją jūsų naršyklėje, naudodamas PDF.js analizei ir pasirinktinį išdėstymą į DOCX rašytuvą, kuris sukuria standartinę Office Open XML išvestį. Rezultatas atidaromas „Microsoft Word“, „LibreOffice Writer“, „Google“ dokumentuose ir bet kuriame kitame su DOCX suderinamu redaktoriumi. Įkėlimas nevyksta; failas lieka jūsų įrenginyje.
Redaguojamumas yra visa priežastis. PDF yra priešiškas redagavimui – galite užpildyti formos laukus ir komentuoti, bet negalite pertvarkyti teksto, keisti pastraipų stilių ar pertvarkyti turinio be specializuotų PDF redaktorių, kurie kainuoja pinigus ir duoda nenuoseklius rezultatus. DOCX sukurtas redaguoti. Konvertavus PDF į DOCX, turinį galima peržiūrėti, išversti, pakeisti paskirtį arba perkurti.
Kita priežastis – bendradarbiavimas. „Word“ ir „Google“ dokumentai yra bendradarbiavimo dokumentų biuruose, mokyklose ir daugumoje organizacijų lingua franca. Komentarų gijos, stebėjimo pakeitimai ir bendras redagavimas daro prielaidą, kad DOCX arba jo debesies atitikmenys. Peržiūrai išsiųsti PDF failai tampa kliūtimis; DOCX teka naudojant standartinius bendradarbiavimo įrankius.
Išmeskite PDF, generuokite, atsisiųskite. Tikimasi, kad vėliau atliksite „Word“ valymą.
PDF.js analizuoja kiekvieną PDF puslapį į teksto ir grafikos operacijų srautą. Teksto ištraukimo API grąžina tekstinius elementus su jų apribojimo laukeliais, šrifto informacija ir Unicode dekoduotomis eilutėmis. Iš šių elementų keitiklis atkuria skaitymo tvarką, rūšiuodamas iš viršaus į apačią ir iš kairės į dešinę, sugrupuodamas elementus su panašiomis bazinėmis linijomis į eilutes ir eilutes į pastraipas.
DOCX yra zip archyvas, kuriame yra XML failai (document.xml, styles.xml, taip pat turinio tipas ir ryšių aprašai). Konverteris sukuria document.xml turinį naudodamas pastraipų (w:p) ir run (w:r) elementų seriją, taiko stiliaus nuorodas antraštėms (1 antraštė, 2 antraštė), kur šrifto dydis rodo antraštę, ir surenka ZIP failą atmintyje naudodamas JSZip.
Apribojimai: stulpelių išdėstymai ne visada atkuriami teisingai. Lentelės PDF atkuriamos kaip pastraipos, nebent išdėstymas aiškiai rodo lentelės struktūrą. Antraštės, poraštės ir išnašos paprastai patenka į tekstą, o ne į atitinkamas DOCX zonas. Į PDF įterpti vaizdai šiuo metu nėra saugomi DOCX išvestyje.