Nemokamas konverteris

PDF į Word (DOCX)

Ištraukite tekstą iš PDF ir konvertuokite jį į redaguojamą Word formatą visiškai savo naršyklėje. Greitas, saugus ir privatus.

Nuvilkite PDF failą čia

Palaiko iki 50 MB

Arba

Apie šį įrankį

PDF ir DOCX (Microsoft Word) dokumentai aprašomi naudojant iš esmės skirtingus modelius. PDF yra fiksuoto išdėstymo formatas: kiekvienas glifas turi aiškią vietą fiksuoto dydžio puslapyje, todėl dokumentas atrodo identiškas visur, kur jis pateikiamas. DOCX yra srauto išdėstymo formatas: pastraipos, lentelės ir antraštės aprašomos semantiškai, o atvaizdavimo variklis nusprendžia, kur jie patenka puslapyje, atsižvelgdami į esamą puslapio dydį ir šrifto prieinamumą. Konvertavimas iš PDF į DOCX reiškia fiksuoto išdėstymo apgręžimą į semantinę struktūrą, kurią Word gali iš naujo tekėti.

Ši konversija iš esmės yra nuostolinga. PDF paprastai neišsaugo antraštės lygių, pastraipų ribų, sąrašo struktūros ar lentelės semantikos; keitiklis turi tai padaryti iš šrifto dydžių, padėties ir ženklinimo ženklų. Paprasti teksto PDF failai konvertuojami švariai. Sudėtingus PDF failus su kelių stulpelių išdėstymu, įterptais vaizdais, išnašomis ar neįprasta tipografija paprastai po konvertavimo reikia išvalyti rankiniu būdu.

Šis įrankis vykdo konversiją jūsų naršyklėje, naudodamas PDF.js analizei ir pasirinktinį išdėstymą į DOCX rašytuvą, kuris sukuria standartinę Office Open XML išvestį. Rezultatas atidaromas „Microsoft Word“, „LibreOffice Writer“, „Google“ dokumentuose ir bet kuriame kitame su DOCX suderinamu redaktoriumi. Įkėlimas nevyksta; failas lieka jūsų įrenginyje.

Kodėl konvertuoti PDF į DOCX

Redaguojamumas yra visa priežastis. PDF yra priešiškas redagavimui – galite užpildyti formos laukus ir komentuoti, bet negalite pertvarkyti teksto, keisti pastraipų stilių ar pertvarkyti turinio be specializuotų PDF redaktorių, kurie kainuoja pinigus ir duoda nenuoseklius rezultatus. DOCX sukurtas redaguoti. Konvertavus PDF į DOCX, turinį galima peržiūrėti, išversti, pakeisti paskirtį arba perkurti.

Kita priežastis – bendradarbiavimas. „Word“ ir „Google“ dokumentai yra bendradarbiavimo dokumentų biuruose, mokyklose ir daugumoje organizacijų lingua franca. Komentarų gijos, stebėjimo pakeitimai ir bendras redagavimas daro prielaidą, kad DOCX arba jo debesies atitikmenys. Peržiūrai išsiųsti PDF failai tampa kliūtimis; DOCX teka naudojant standartinius bendradarbiavimo įrankius.

Kaip naudoti

Išmeskite PDF, generuokite, atsisiųskite. Tikimasi, kad vėliau atliksite „Word“ valymą.

  1. Įkelkite savo PDF: Vilkite failą į įkėlimo sritį arba spustelėkite, kad naršytumėte. Palaikomi failai iki 50 MB. Slaptažodžiu apsaugoti PDF failai nepalaikomi; pirmiausia pašalinkite slaptažodį naudodami darbalaukio įrankį.
  2. Palaukite analizavimo: PDF.js ištraukia tekstą, šrifto informaciją ir išdėstymo vietas iš kiekvieno puslapio. Trumpų dokumentų analizė užtrunka kelias sekundes, o dokumentų su įterptais vaizdais arba sudėtinga grafika – ilgiau.
  3. Konvertuoti: Konverteris eina analizuojamu turiniu, nustato pastraipų ir antraščių ribas pagal šrifto dydžius ir pozicijas ir įrašo Office Open XML į atmintyje esantį ZIP failą. Antraštės, pastraipos ir ženklelių sąrašai yra susieti su lygiaverčiais DOCX stiliais.
  4. Atsisiųskite ir išvalykite: Išsaugokite .docx failą ir atidarykite jį „Word“ arba pageidaujamoje rengyklėje. Suplanuokite kelias minutes taisyti likusias problemas – antraštės hierarchiją, sąrašo formatavimą, lentelių ribas – kurių keitiklis negalėjo tiksliai nustatyti iš PDF.

Įprasto naudojimo atvejai

Techninės detalės

PDF.js analizuoja kiekvieną PDF puslapį į teksto ir grafikos operacijų srautą. Teksto ištraukimo API grąžina tekstinius elementus su jų apribojimo laukeliais, šrifto informacija ir Unicode dekoduotomis eilutėmis. Iš šių elementų keitiklis atkuria skaitymo tvarką, rūšiuodamas iš viršaus į apačią ir iš kairės į dešinę, sugrupuodamas elementus su panašiomis bazinėmis linijomis į eilutes ir eilutes į pastraipas.

DOCX yra zip archyvas, kuriame yra XML failai (document.xml, styles.xml, taip pat turinio tipas ir ryšių aprašai). Konverteris sukuria document.xml turinį naudodamas pastraipų (w:p) ir run (w:r) elementų seriją, taiko stiliaus nuorodas antraštėms (1 antraštė, 2 antraštė), kur šrifto dydis rodo antraštę, ir surenka ZIP failą atmintyje naudodamas JSZip.

Apribojimai: stulpelių išdėstymai ne visada atkuriami teisingai. Lentelės PDF atkuriamos kaip pastraipos, nebent išdėstymas aiškiai rodo lentelės struktūrą. Antraštės, poraštės ir išnašos paprastai patenka į tekstą, o ne į atitinkamas DOCX zonas. Į PDF įterpti vaizdai šiuo metu nėra saugomi DOCX išvestyje.

Geriausia praktika

Dažnai užduodami klausimai

Ar PDF konvertavimas į DOCX keičia turinį?
Turinys išsaugomas kuo tiksliau. Tačiau kai kurios su formatu susijusios funkcijos gali neturėti tiesioginių atitikmenų, todėl gali atsirasti nedidelių formatavimo skirtumų.
Kam naudojamas DOCX formatas?
DOCX („Microsoft Word Document“) pirmiausia naudojamas redaguotiems tekstiniams dokumentams su formatavimu.
Ar yra kokių nors apribojimų, kuriuos reikia žinoti?
Palaikomi failai iki 50 MB. Labai didelių ar sudėtingų failų apdorojimas gali užtrukti ilgiau. Visa konversija vyksta jūsų naršyklėje, todėl apdorojimo greitis priklauso nuo jūsų įrenginio.
Ar mano dokumento duomenys saugūs?
Taip. Dokumentų apdorojimas vykdomas tik jūsų naršyklėje. Jūsų failai ir jų turinys niekada neįkeliami į jokį serverį. Tai leidžia saugiai konvertuoti neskelbtinus ar konfidencialius dokumentus.
Ar stalai bus išsaugoti?
Paprastos lentelės kartais konvertuojamos į Word lenteles; sudėtingos lentelės paprastai konvertuojamos į suformatuotas pastraipas, kurias reikia pertvarkyti rankiniu būdu. Jei svarbu tikslumas, suplanuokite kritines lenteles atkurti rankiniu būdu.
Ar mano PDF įkeltas į serverį?
Ne. PDF analizei naudojamas PDF.js, o DOCX rašymui naudojamas JSZip – abu veikia tik jūsų naršyklėje.
Koks yra maksimalus failo dydis?
50 MB. Praktinės ribos priklauso nuo dokumento sudėtingumo; tokio dydžio PDF, kuriame yra daug teksto, konvertuojamas per kelias sekundes, o tokio pat dydžio grafikos turintis dokumentas gali susidurti su problemomis.
Ar galiu konvertuoti slaptažodžiu apsaugotus PDF failus?
Ne. PDF.js neįgyvendina iššifravimo. Pirmiausia pašalinkite slaptažodį naudodami darbalaukio įrankį, pvz., qpdf arba „Acrobat“ saugos nustatymus.