PDF uz Word (DOCX)
Izņemiet tekstu no PDF un pilnībā pārveidojiet to rediģējamā Word formātā savā pārlūkprogrammā. Ātri, droši un privāti.
Nometiet PDF failu šeit
Atbalsta līdz 50 MB
Izņemiet tekstu no PDF un pilnībā pārveidojiet to rediģējamā Word formātā savā pārlūkprogrammā. Ātri, droši un privāti.
Atbalsta līdz 50 MB
PDF un DOCX (Microsoft Word) apraksta dokumentus, izmantojot principiāli atšķirīgus modeļus. PDF ir fiksēta izkārtojuma formāts: katram glifam ir skaidra pozīcija fiksēta izmēra lapā, tādējādi dokuments izskatās identisks visur, kur tas tiek renderēts. DOCX ir plūsmas izkārtojuma formāts: rindkopas, tabulas un virsraksti tiek aprakstīti semantiski, un renderēšanas programma izlemj, kur tie atrodas lapā, pamatojoties uz pašreizējo lapas izmēru un fontu pieejamību. Konvertēšana no PDF uz DOCX nozīmē fiksētā izkārtojuma reverso inženieriju semantiskā struktūrā, ko Word var atkārtoti plūst.
Šī konversija pēc būtības ir ar zaudējumiem. PDF parasti nesaglabā virsrakstu līmeņus, rindkopu robežas, saraksta struktūru vai tabulas semantiku; pārveidotājam tie ir jāsecina no fontu izmēriem, pozīcijām un aizzīmju rakstzīmēm. Vienkārši teksta PDF faili tiek tīri pārveidoti. Sarežģītiem PDF failiem ar vairāku kolonnu izkārtojumu, iegultiem attēliem, zemsvītras piezīmēm vai neparastu tipogrāfiju pēc konvertēšanas parasti ir nepieciešama manuāla tīrīšana.
Šis rīks palaiž konvertēšanu jūsu pārlūkprogrammā, izmantojot PDF.js parsēšanai un pielāgotu izkārtojumu-DOCX rakstītāju, kas rada standarta Office Open XML izvadi. Rezultāts tiek atvērts programmā Microsoft Word, LibreOffice Writer, Google dokumenti un jebkurā citā ar DOCX saderīgā redaktorā. Augšupielāde nenotiek; fails paliek jūsu ierīcē.
Rediģējamība ir viss iemesls. PDF ir naidīgs rediģēšanai — jūs varat aizpildīt veidlapas laukus un komentēt, taču nevarat pārkārtot tekstu, mainīt rindkopu stilus vai pārstrukturēt saturu bez specializētiem PDF redaktoriem, kas maksā naudu un rada nekonsekventus rezultātus. DOCX ir paredzēts rediģēšanai. PDF konvertēšana uz DOCX padara saturu izsekojamu pārskatīšanai, tulkošanai, pārveidošanai vai pārveidošanai.
Otrs iemesls ir sadarbība. Word un Google dokumenti ir lingua franca dokumentu sadarbībai birojos, skolās un lielākajā daļā organizāciju. Komentāru pavedieni, izsekošanas izmaiņas un koplietojamā rediģēšana pieņem DOCX vai tā mākoņa ekvivalentu. Pārskatīšanai nosūtītie PDF faili kļūst par vājajām vietām; DOCX plūst, izmantojot standarta sadarbības rīkus.
Nometiet PDF, ģenerējiet, lejupielādējiet. Gaidiet, ka pēc tam veiksiet tīrīšanu programmā Word.
PDF.js parsē katru PDF lapu teksta un grafikas darbību plūsmā. Teksta ekstrakcijas API atgriež teksta vienumus ar to ierobežojošajiem lodziņiem, fonta informāciju un unikoda dekodētām virknēm. No šiem vienumiem pārveidotājs rekonstruē lasīšanas secību, kārtojot no augšas uz leju un no kreisās uz labo pusi, grupējot vienumus ar līdzīgām bāzes līnijām rindās un rindas rindkopās.
DOCX ir zip arhīvs, kas satur XML failus (document.xml, styles.xml, kā arī satura veidu un attiecību manifestus). Pārveidotājs veido document.xml saturu, izmantojot virkni rindkopu (w:p) un palaist (w:r) elementu, piemēro stila atsauces virsrakstiem (1. virsraksts, 2. virsraksts), kur fonta lielums norāda uz virsrakstu, un apkopo zip atmiņu, izmantojot JSZip.
Ierobežojumi: kolonnu izkārtojumi ne vienmēr tiek rekonstruēti pareizi. Tabulas PDF failā tiek atkoptas kā rindkopas, ja vien izkārtojumā nav skaidri norādīta tabulas struktūra. Galvenes, kājenes un zemsvītras piezīmes parasti tiek iekļautas pamattekstā, nevis attiecīgajās DOCX zonās. PDF failā iegultie attēli pašlaik netiek saglabāti DOCX izvadē.