PDF till Word (DOCX)
Extrahera text från PDF och konvertera den till redigerbart Word-format helt i din webbläsare. Snabbt, säkert och privat.
Släpp PDF-filen här
Stöder upp till 50MB
Extrahera text från PDF och konvertera den till redigerbart Word-format helt i din webbläsare. Snabbt, säkert och privat.
Stöder upp till 50MB
PDF och DOCX (Microsoft Word) beskriver dokument som använder fundamentalt olika modeller. PDF är ett format med fast layout: varje glyf har en explicit position på en sida med fast storlek, vilket gör att dokumentet ser identiskt ut överallt där det renderas. DOCX är ett flödeslayoutformat: stycken, tabeller och rubriker beskrivs semantiskt, och renderingsmotorn bestämmer var de hamnar på sidan baserat på aktuell sidstorlek och teckensnittstillgänglighet. Att konvertera från PDF till DOCX innebär att omvända den fasta layouten till en semantisk struktur som Word kan omforma.
Denna omvandling är i sig förlustbringande. PDF bevarar i allmänhet inte rubriknivåer, styckegränser, liststruktur eller tabellsemantik; omvandlaren måste härleda dessa från teckenstorlekar, positioner och punkttecken. Enkla textbaserade PDF-filer konverterar rent. Komplexa PDF-filer med layouter med flera kolumner, inbäddade bilder, fotnoter eller ovanlig typografi behöver vanligtvis rengöras manuellt efter konvertering.
Det här verktyget kör konverteringen i din webbläsare med PDF.js för analys och en anpassad layout-till-DOCX-skrivare som producerar standard Office Open XML-utdata. Resultatet öppnas i Microsoft Word, LibreOffice Writer, Google Docs och alla andra DOCX-kompatibla redigerare. Ingen uppladdning sker; filen finns kvar på din enhet.
Redigerbarhet är hela anledningen. PDF är fientligt inställd till redigering – du kan fylla i formulärfält och kommentera, men du kan inte ändra text, ändra styckeformat eller omstrukturera innehåll utan specialiserade PDF-redigerare som kostar pengar och ger inkonsekventa resultat. DOCX är byggt för redigering. Att konvertera en PDF till DOCX gör innehållet lätt att hantera för revidering, översättning, återanvändning eller omdesign.
Den andra anledningen är samarbete. Word och Google Docs är lingua franca för dokumentsamarbete på kontor, skolor och de flesta organisationer. Kommentarstrådar, spåra ändringar och delad redigering förutsätter alla DOCX eller dess molnmotsvarigheter. PDF-filer som skickas för granskning blir flaskhalsar; DOCX flödar genom vanliga samarbetsverktyg.
Släpp PDF, generera, ladda ner. Räkna med att göra lite rengöring i Word efteråt.
PDF.js analyserar varje PDF-sida till en ström av text- och grafikoperationer. Textextraktions-API:et returnerar textobjekt med sina begränsningsrutor, teckensnittsinformation och Unicode-avkodade strängar. Från dessa objekt rekonstruerar omvandlaren läsordningen genom att sortera uppifrån och ner och från vänster till höger, gruppera objekt med liknande baslinjer i rader och rader i stycken.
DOCX är ett zip-arkiv som innehåller XML-filer (document.xml, styles.xml, plus innehållstyp och relationsmanifest). Konverteraren bygger document.xml-innehållet med hjälp av en serie stycke- (w:p) och run (w:r)-element, tillämpar stilreferenser för rubriker (Rubrik 1, Rubrik 2) där teckenstorleken föreslår en rubrik, och sätter ihop zip-filen i minnet med JSZip.
Begränsningar: kolumnlayouter rekonstrueras inte alltid korrekt. Tabeller i PDF-filen återställs som stycken om inte layouten starkt antyder tabellstruktur. Rubriker, sidfötter och fotnoter hamnar vanligtvis inline i brödtexten snarare än i motsvarande DOCX-zoner. Bilder som är inbäddade i PDF-filen är för närvarande inte bevarade i DOCX-utdata.