Бесплатный конвертер

PDF в Слово (DOCX)

Извлеките текст из PDF и преобразуйте его в редактируемый формат Word прямо в вашем браузере. Быстро, безопасно и конфиденциально.

Перетащите PDF файл сюда

Поддерживается до 50MB

Или

Об этом инструменте

PDF и DOCX (Microsoft Word) описывают документы, используя принципиально разные модели. PDF — это формат с фиксированным макетом: каждый глиф имеет явное положение на странице фиксированного размера, благодаря чему документ выглядит одинаково везде, где он отображается. DOCX — это формат потоковой компоновки: абзацы, таблицы и заголовки описываются семантически, а механизм рендеринга решает, где они располагаются на странице, исходя из текущего размера страницы и наличия шрифта. Преобразование из PDF в DOCX означает преобразование фиксированного макета в семантическую структуру, которую Word может переформатировать.

Это преобразование по своей сути является потерей. PDF обычно не сохраняет уровни заголовков, границы абзацев, структуру списка или семантику таблиц; конвертер должен определить их на основе размеров шрифта, положения и символов маркеров. Простые текстовые PDF-файлы конвертируются без проблем. Сложные PDF-файлы с многоколоночным макетом, встроенными изображениями, сносками или необычной типографикой обычно требуют ручной очистки после преобразования.

Этот инструмент выполняет преобразование в вашем браузере, используя PDF.js для анализа и специальный модуль записи макета в DOCX, который создает стандартный вывод Office Open XML. Результат откроется в Microsoft Word, LibreOffice Writer, Google Docs и любом другом DOCX-совместимом редакторе. Загрузка не происходит; файл останется на вашем устройстве.

Зачем конвертировать PDF в DOCX

Редактируемость — вот и вся причина. PDF враждебен редактированию — вы можете заполнять поля формы и комментировать, но не можете перекомпоновать текст, изменить стили абзацев или реструктурировать содержимое без специализированных PDF-редакторов, которые стоят денег и дают противоречивые результаты. DOCX создан для редактирования. Преобразование PDF в DOCX делает содержимое доступным для редактирования, перевода, перепрофилирования или редизайна.

Другая причина – сотрудничество. Word и Google Docs — это лингва франка совместной работы над документами в офисах, школах и большинстве организаций. Потоки комментариев, отслеживание изменений и совместное редактирование предполагают использование DOCX или его облачных эквивалентов. PDF-файлы, отправленные на проверку, становятся узкими местами; DOCX проходит через стандартные инструменты совместной работы.

Как использовать

Скиньте PDF, сгенерируйте, скачайте. Ожидайте, что после этого вам придется немного почистить Word.

  1. Загрузите свой PDF-файл: Перетащите файл в область загрузки или нажмите, чтобы просмотреть. Поддерживаются файлы размером до 50 МБ. PDF-файлы, защищенные паролем, не поддерживаются; сначала удалите пароль с помощью настольного инструмента.
  2. Подождите разбора: PDF.js извлекает текст, информацию о шрифте и расположение макета с каждой страницы. Анализ занимает несколько секунд для коротких документов и дольше для документов со встроенными изображениями или сложной графикой.
  3. Конвертировать: Преобразователь обрабатывает проанализированное содержимое, определяет границы абзацев и заголовков на основе размеров и положений шрифта и записывает Office Open XML в ZIP-файл в памяти. Заголовки, абзацы и списки маркеров сопоставляются с эквивалентными стилями DOCX.
  4. Загрузите и очистите: Сохраните файл .docx и откройте его в Word или предпочитаемом вами редакторе. Запланируйте потратить несколько минут на исправление остаточных проблем — иерархии заголовков, форматирования списка, границ таблиц — которые конвертер не смог точно определить из PDF-файла.

Общие случаи использования

Технические детали

PDF.js анализирует каждую страницу PDF в поток текстовых и графических операций. API извлечения текста возвращает текстовые элементы с их ограничивающими рамками, информацией о шрифте и строками, декодированными в Юникоде. На основе этих элементов конвертер восстанавливает порядок чтения, сортируя сверху вниз и слева направо, группируя элементы с похожими базовыми линиями в строки, а строки — в абзацы.

DOCX — это zip-архив, содержащий файлы XML (document.xml, style.xml, а также манифесты типов контента и связей). Конвертер создает содержимое document.xml, используя ряд элементов абзаца (w:p) и запуска (w:r), применяет ссылки на стили для заголовков (Заголовок 1, Заголовок 2), где размер шрифта предполагает заголовок, и собирает zip-архив в памяти с помощью JSZip.

Ограничения: расположение столбцов не всегда восстанавливается правильно. Таблицы в PDF-файле восстанавливаются как абзацы, если макет явно не предполагает табличную структуру. Заголовки, нижние колонтитулы и сноски обычно располагаются внутри текста, а не в соответствующих зонах DOCX. Изображения, встроенные в PDF, в настоящее время не сохраняются в выходном файле DOCX.

Лучшие практики

Часто задаваемые вопросы

Изменяет ли преобразование PDF в DOCX содержимое?
Содержимое сохраняется максимально точно. Однако некоторые функции, специфичные для формата, могут не иметь прямых эквивалентов, поэтому могут возникнуть незначительные различия в форматировании.
Для чего используется формат DOCX?
DOCX (Документ Microsoft Word) в основном используется для редактируемых текстовых документов с форматированием.
Есть ли какие-либо ограничения, о которых следует знать?
Поддерживаются файлы размером до 50 МБ. Обработка очень больших или сложных файлов может занять больше времени. Все преобразования происходят в вашем браузере, поэтому скорость обработки зависит от вашего устройства.
Защищены ли данные моего документа?
Да. Обработка документов полностью выполняется в вашем браузере. Ваши файлы и их содержимое никогда не загружаются ни на какой сервер. Это делает безопасным преобразование важных или конфиденциальных документов.
Сохранятся ли таблицы?
Простые таблицы иногда преобразуются в таблицы Word; сложные таблицы обычно преобразуются в форматированные абзацы, требующие ручной реструктуризации. Если точность имеет значение, запланируйте воссоздание важных таблиц вручную.
Загружен ли мой PDF-файл на сервер?
Нет. Для анализа PDF используется PDF.js, а для написания DOCX — JSZip — оба выполняются полностью в вашем браузере.
Каков максимальный размер файла?
50 МБ. Практические ограничения зависят от сложности документа; PDF-файл такого размера с большим количеством текста преобразуется за секунды, в то время как документ такого же размера с большим количеством графики может испытывать трудности.
Могу ли я конвертировать PDF-файлы, защищенные паролем?
Нет. PDF.js не реализует расшифровку. Сначала удалите пароль с помощью инструмента рабочего стола, например qpdf, или настроек безопасности Acrobat.