PDF til Word (DOCX)
Trekk ut tekst fra PDF og konverter den til redigerbart Word-format helt i nettleseren din. Rask, sikker og privat.
Slipp PDF-filen her
Støtter opptil 50 MB
Trekk ut tekst fra PDF og konverter den til redigerbart Word-format helt i nettleseren din. Rask, sikker og privat.
Støtter opptil 50 MB
PDF og DOCX (Microsoft Word) beskriver dokumenter som bruker fundamentalt forskjellige modeller. PDF er et format med fast oppsett: hver glyph har en eksplisitt plassering på en side med fast størrelse, noe som gjør at dokumentet ser identisk ut overalt hvor det gjengis. DOCX er et flyt-layout-format: avsnitt, tabeller og overskrifter beskrives semantisk, og gjengivelsesmotoren bestemmer hvor de faller på siden basert på gjeldende sidestørrelse og skrifttilgjengelighet. Konvertering fra PDF til DOCX betyr omvendt utvikling av det faste oppsettet til en semantisk struktur som Word kan re-flyte.
Denne konverteringen er iboende tapsmessig. PDF bevarer generelt ikke overskriftsnivåer, avsnittsgrenser, listestruktur eller tabellsemantikk; konverteren må utlede disse fra skriftstørrelser, posisjoner og punkttegn. Enkle tekstbaserte PDF-filer konverterer rent. Komplekse PDF-filer med flerkolonneoppsett, innebygde bilder, fotnoter eller uvanlig typografi trenger vanligvis manuell opprydding etter konvertering.
Dette verktøyet kjører konverteringen i nettleseren din ved å bruke PDF.js for parsing og en tilpasset layout-til-DOCX-skriver som produserer standard Office Open XML-utdata. Resultatet åpnes i Microsoft Word, LibreOffice Writer, Google Docs og alle andre DOCX-kompatible editorer. Ingen opplasting skjer; filen forblir på enheten din.
Redigerbarhet er hele årsaken. PDF er fiendtlig mot redigering - du kan fylle ut skjemafelt og kommentere, men du kan ikke flyte tekst, endre avsnittsstiler eller omstrukturere innhold uten spesialiserte PDF-redigerere som koster penger og gir inkonsekvente resultater. DOCX er bygget for redigering. Konvertering av en PDF til DOCX gjør innholdet oversiktlig for revisjon, oversettelse, omformål eller redesign.
Den andre grunnen er samarbeid. Word og Google Docs er lingua franca for dokumentsamarbeid på kontorer, skoler og de fleste organisasjoner. Kommentartråder, spor endringer og delt redigering forutsetter alle DOCX eller skyekvivalenter. PDF-filer sendt til gjennomgang blir flaskehalser; DOCX flyter gjennom standard samarbeidsverktøy.
Slipp PDF-en, generer, last ned. Forvent å gjøre litt opprydding i Word etterpå.
PDF.js analyserer hver PDF-side til en strøm av tekst- og grafikkoperasjoner. Tekstutvinnings-APIet returnerer tekstelementer med deres avgrensningsbokser, skriftinformasjon og Unicode-dekodede strenger. Fra disse elementene rekonstruerer omformeren leserekkefølgen ved å sortere topp-til-bunn og venstre til høyre, gruppere elementer med lignende grunnlinjer i linjer og linjer i avsnitt.
DOCX er et zip-arkiv som inneholder XML-filer (document.xml, styles.xml, pluss innholdstype og relasjonsmanifester). Konverteren bygger dokument.xml-innholdet ved hjelp av en serie avsnitt (w:p) og run (w:r)-elementer, bruker stilreferanser for overskrifter (Overskrift 1, Overskrift 2) der skriftstørrelsen foreslår en overskrift, og setter sammen zip-filen i minnet ved hjelp av JSZip.
Begrensninger: kolonneoppsett er ikke alltid rekonstruert riktig. Tabeller i PDF-en gjenopprettes som avsnitt med mindre oppsettet sterkt antyder tabellstruktur. Topptekster, bunntekster og fotnoter ender vanligvis inne i kroppen i stedet for i de tilsvarende DOCX-sonene. Bilder som er innebygd i PDF-en er for øyeblikket ikke bevart i DOCX-utdataene.