PDF do Słowo (DOCX)
Wyodrębnij tekst z pliku PDF i przekonwertuj go całkowicie do edytowalnego formatu Word w przeglądarce. Szybko, bezpiecznie i prywatnie.
Upuść tutaj plik PDF
Obsługuje do 50 MB
Wyodrębnij tekst z pliku PDF i przekonwertuj go całkowicie do edytowalnego formatu Word w przeglądarce. Szybko, bezpiecznie i prywatnie.
Obsługuje do 50 MB
PDF i DOCX (Microsoft Word) opisują dokumenty przy użyciu zasadniczo różnych modeli. PDF to format o stałym układzie: każdy glif ma wyraźną pozycję na stronie o stałym rozmiarze, dzięki czemu dokument wygląda identycznie w każdym miejscu, w którym jest renderowany. DOCX to format układu przepływu: akapity, tabele i nagłówki są opisywane semantycznie, a silnik renderujący decyduje, gdzie się one znajdują na stronie w oparciu o bieżący rozmiar strony i dostępność czcionki. Konwersja z formatu PDF na DOCX oznacza inżynierię wsteczną ustalonego układu w strukturę semantyczną, którą program Word może ponownie wykorzystać.
Ta konwersja jest z natury stratna. Plik PDF zasadniczo nie zachowuje poziomów nagłówków, granic akapitów, struktury list ani semantyki tabel; konwerter musi je wywnioskować na podstawie rozmiarów czcionek, pozycji i znaków punktorów. Proste tekstowe pliki PDF można konwertować w prosty sposób. Złożone pliki PDF z układami wielokolumnowymi, osadzonymi obrazami, przypisami lub nietypową typografią zwykle wymagają ręcznego czyszczenia po konwersji.
To narzędzie przeprowadza konwersję w przeglądarce przy użyciu pliku PDF.js do analizowania i niestandardowego modułu zapisującego układ do formatu DOCX, który generuje standardowe dane wyjściowe pakietu Office Open XML. Wynik zostanie otwarty w programie Microsoft Word, LibreOffice Writer, Dokumentach Google i dowolnym innym edytorze zgodnym z DOCX. Nie następuje przesyłanie; plik pozostanie na Twoim urządzeniu.
Możliwość edycji jest jedynym powodem. PDF jest wrogo nastawiony do edycji — możesz wypełniać pola formularzy i dodawać adnotacje, ale nie możesz zmieniać układu tekstu, zmieniać stylów akapitów ani restrukturyzować treści bez wyspecjalizowanych edytorów PDF, które są kosztowne i dają niespójne wyniki. DOCX jest stworzony do edycji. Konwersja pliku PDF do formatu DOCX sprawia, że treść można poddać rewizji, tłumaczeniu, zmianie przeznaczenia lub przeprojektowaniu.
Drugim powodem jest współpraca. Word i Dokumenty Google to język współpracy nad dokumentami w biurach, szkołach i większości organizacji. Wątki komentarzy, śledzenie zmian i wspólne edytowanie zakładają DOCX lub jego odpowiedniki w chmurze. Pliki PDF wysyłane do recenzji stają się wąskimi gardłami; DOCX przepływa przez standardowe narzędzia do współpracy.
Upuść plik PDF, wygeneruj i pobierz. Spodziewaj się później zrobienia porządków w programie Word.
PDF.js analizuje każdą stronę PDF w strumień operacji tekstowych i graficznych. Interfejs API wyodrębniania tekstu zwraca elementy tekstowe z ich ramkami ograniczającymi, informacjami o czcionce i ciągami zdekodowanymi w formacie Unicode. Na podstawie tych elementów konwerter rekonstruuje kolejność czytania, sortując od góry do dołu i od lewej do prawej, grupując elementy o podobnych liniach bazowych w linie i linie w akapity.
DOCX to archiwum zip zawierające pliki XML (document.xml, Style.xml oraz manifesty typów zawartości i relacji). Konwerter tworzy zawartość document.xml przy użyciu serii elementów akapitowych (w:p) i run (w:r), stosuje odniesienia do stylu dla nagłówków (Nagłówek 1, Nagłówek 2), gdzie rozmiar czcionki sugeruje nagłówek, i składa plik zip w pamięci za pomocą JSZip.
Ograniczenia: układy kolumn nie zawsze są rekonstruowane poprawnie. Tabele w pliku PDF są odtwarzane jako akapity, chyba że układ wyraźnie sugeruje strukturę tabelaryczną. Nagłówki, stopki i przypisy zwykle trafiają do treści, a nie do odpowiednich stref DOCX. Obrazy osadzone w pliku PDF nie są obecnie zachowywane w pliku wyjściowym DOCX.