PDF til Word (DOCX)
Uddrag tekst fra PDF og konverter den til redigerbart Word-format helt i din browser. Hurtigt, sikkert og privat.
Slip PDF-fil her
Understøtter op til 50 MB
Uddrag tekst fra PDF og konverter den til redigerbart Word-format helt i din browser. Hurtigt, sikkert og privat.
Understøtter op til 50 MB
PDF og DOCX (Microsoft Word) beskriver dokumenter, der bruger fundamentalt forskellige modeller. PDF er et format med fast layout: hver glyf har en eksplicit placering på en side med fast størrelse, hvilket får dokumentet til at se identisk ud overalt, hvor det gengives. DOCX er et flow-layout-format: afsnit, tabeller og overskrifter beskrives semantisk, og gengivelsesmotoren bestemmer, hvor de falder på siden, baseret på den aktuelle sidestørrelse og skrifttypetilgængelighed. Konvertering fra PDF til DOCX betyder reverse-engineering af det faste layout til en semantisk struktur, som Word kan re-flow.
Denne konvertering er i sagens natur tabsgivende. PDF bevarer generelt ikke overskriftsniveauer, afsnitsgrænser, listestruktur eller tabelsemantik; konverteren skal udlede disse ud fra skriftstørrelser, positioner og punkttegn. Simple tekstbaserede PDF'er konverteres rent. Komplekse PDF'er med layout med flere kolonner, indlejrede billeder, fodnoter eller usædvanlig typografi har typisk brug for manuel oprydning efter konvertering.
Dette værktøj kører konverteringen i din browser ved hjælp af PDF.js til parsing og en brugerdefineret layout-til-DOCX-skriver, der producerer standard Office Open XML-output. Resultatet åbnes i Microsoft Word, LibreOffice Writer, Google Docs og enhver anden DOCX-kompatibel editor. Ingen upload sker; filen forbliver på din enhed.
Redigerbarhed er hele årsagen. PDF er fjendtligt indstillet over for redigering - du kan udfylde formularfelter og kommentere, men du kan ikke omforme tekst, ændre afsnitstypografier eller omstrukturere indhold uden specialiserede PDF-editorer, der koster penge og producerer inkonsekvente resultater. DOCX er bygget til redigering. Konvertering af en PDF til DOCX gør indholdet overskueligt til revision, oversættelse, genbrug eller redesign.
Den anden grund er samarbejde. Word og Google Docs er lingua franca for dokumentsamarbejde på kontorer, skoler og de fleste organisationer. Kommentartråde, spor ændringer og delt redigering forudsætter alle DOCX eller dets cloud-ækvivalenter. PDF-filer sendt til gennemgang bliver flaskehalse; DOCX flyder gennem standard samarbejdsværktøjer.
Drop PDF'en, generer, download. Forvent at lave noget oprydning i Word bagefter.
PDF.js analyserer hver PDF-side til en strøm af tekst- og grafikhandlinger. Tekst-ekstraktions-API'en returnerer tekstelementer med deres afgrænsningsfelter, skrifttypeoplysninger og Unicode-dekodede strenge. Ud fra disse elementer rekonstruerer konverteren læserækkefølgen ved at sortere fra top til bund og venstre mod højre, gruppere elementer med lignende basislinjer i linjer og linjer i afsnit.
DOCX er et zip-arkiv, der indeholder XML-filer (document.xml, styles.xml, plus indholdstype og relationsmanifester). Konverteren bygger document.xml-indholdet ved hjælp af en række afsnit (w:p) og run (w:r)-elementer, anvender stilreferencer til overskrifter (Overskrift 1, Overskrift 2), hvor skriftstørrelsen foreslår en overskrift, og samler zip i hukommelsen ved hjælp af JSZip.
Begrænsninger: kolonnelayout er ikke altid rekonstrueret korrekt. Tabeller i PDF'en gendannes som afsnit, medmindre layoutet stærkt antyder tabelstruktur. Sidehoveder, sidefødder og fodnoter ender typisk inline i kroppen i stedet for i de tilsvarende DOCX-zoner. Billeder, der er indlejret i PDF'en, er i øjeblikket ikke bevaret i DOCX-outputtet.