PDF-i Word (DOCX)
Ekstraktige PDF-ist tekst ja teisendage see täielikult oma brauseris redigeeritavasse Wordi vormingusse. Kiire, turvaline ja privaatne.
Pukseerige PDF-fail siia
Toetab kuni 50 MB
Ekstraktige PDF-ist tekst ja teisendage see täielikult oma brauseris redigeeritavasse Wordi vormingusse. Kiire, turvaline ja privaatne.
Toetab kuni 50 MB
PDF ja DOCX (Microsoft Word) kirjeldavad dokumente põhimõtteliselt erinevate mudelite abil. PDF on fikseeritud paigutusega vorming: igal glüüfil on fikseeritud suurusega lehel selge asukoht, mistõttu dokument näeb kõikjal, kus see renderdatakse, identne. DOCX on voopaigutusvorming: lõigud, tabelid ja pealkirjad kirjeldatakse semantiliselt ning renderdusmootor otsustab, kuhu need lehel langevad, lähtudes praegusest lehe suurusest ja fondi saadavusest. PDF-ist DOCX-i teisendamine tähendab fikseeritud paigutuse pöördprojekteerimist semantiliseks struktuuriks, mida Word saab uuesti voolata.
See konversioon on oma olemuselt kadudega. PDF ei säilita üldiselt pealkirjatasemeid, lõigupiire, loendi struktuuri ega tabeli semantikat; konverter peab need järeldama fondi suuruste, asukohtade ja täppide järgi. Lihtsad tekstipõhised PDF-failid teisendavad puhtalt. Mitmeveerulise paigutuse, manustatud piltide, joonealuste märkuste või ebatavalise tüpograafiaga keerulised PDF-failid vajavad tavaliselt pärast teisendamist käsitsi puhastamist.
See tööriist käivitab teisenduse teie brauseris, kasutades parsimiseks PDF.js-i ja kohandatud paigutust DOCX-kirjutajaks, mis toodab standardset Office Open XML-väljundit. Tulemus avaneb Microsoft Wordis, LibreOffice Writeris, Google Docsis ja mis tahes muus DOCX-iga ühilduvas redaktoris. Üleslaadimist ei toimu; fail jääb teie seadmesse.
Redigeeritavus on kogu põhjus. PDF on redigeerimisvaenulik – saate täita vormivälju ja teha märkusi, kuid te ei saa teksti ümber vooderdada, lõigu stiile ega sisu ümber struktureerida ilma spetsiaalsete PDF-i redigeerijateta, mis maksavad raha ja annavad ebajärjekindlaid tulemusi. DOCX on loodud redigeerimiseks. PDF-i teisendamine DOCX-vormingusse muudab sisu ülevaatamiseks, tõlkimiseks, ümberotstarbeliseks muutmiseks või ümberkujundamiseks jälgitavaks.
Teine põhjus on koostöö. Word ja Google Docs on kontorite, koolide ja enamiku organisatsioonide dokumendikoostöö lingua franca. Kommentaarilõimed, muudatuste jälgimine ja jagatud redigeerimine eeldavad DOCX-i või selle pilvekvivalente. Läbivaatamiseks saadetud PDF-failid muutuvad kitsaskohtadeks; DOCX voolab standardsete koostöötööriistade kaudu.
Pukseerige PDF, looge, laadige alla. Pärast seda peate Wordis natuke puhastama.
PDF.js parsib iga PDF-i lehe teksti- ja graafikatoimingute vooks. Teksti ekstraheerimise API tagastab tekstiüksused koos nende piirdekastide, fonditeabe ja Unicode'i dekodeeritud stringidega. Nendest üksustest rekonstrueerib konverter lugemisjärjestuse, sorteerides ülalt alla ja vasakult paremale, rühmitades sarnaste lähtejoontega üksused ridadeks ja read lõikudeks.
DOCX on zip-arhiiv, mis sisaldab XML-faile (document.xml, styles.xml ning sisutüübi ja seoste manifestid). Konverter loob document.xml sisu, kasutades lõigu (w:p) ja run (w:r) elemente, rakendab pealkirjade stiiliviiteid (Pealkiri 1, Pealkiri 2), kus fondi suurus viitab pealkirjale, ja koondab JSZip-i abil mällu ZIP-faili.
Piirangud: veergude paigutust ei rekonstrueerita alati õigesti. PDF-failis olevad tabelid taastatakse lõikudena, välja arvatud juhul, kui paigutus viitab tugevalt tabelistruktuurile. Päised, jalused ja joonealused märkused jõuavad tavaliselt teksti sisse, mitte vastavatesse DOCX-tsoonidesse. PDF-i manustatud pilte ei säilitata praegu DOCX-i väljundis.