PDF を Word (DOCX) に 変換
ブラウザでPDFからテキストを抽出し、編集可能なWord形式に変換します。高速で安全・プライベートなツールです。
ここに PDF ファイルをドロップ
最大 50MB までサポート
ブラウザでPDFからテキストを抽出し、編集可能なWord形式に変換します。高速で安全・プライベートなツールです。
最大 50MB までサポート
PDF と DOCX (Microsoft Word) は、根本的に異なるモデルを使用してドキュメントを記述します。 PDF は固定レイアウト形式です。すべてのグリフは固定サイズのページ上に明示的に配置されているため、ドキュメントはどこでレンダリングされても同じように見えます。 DOCX はフロー レイアウト形式です。段落、表、見出しは意味論的に記述され、レンダリング エンジンは現在のページ サイズと利用可能なフォントに基づいて、それらがページ上のどこに配置されるかを決定します。 PDF から DOCX への変換は、固定レイアウトをリバース エンジニアリングして、Word が再フローできるセマンティック構造にすることを意味します。
この変換には本質的に損失が伴います。 PDF は通常、見出しレベル、段落境界、リスト構造、またはテーブルのセマンティクスを保持しません。コンバータは、フォント サイズ、位置、箇条書き文字からこれらを推測する必要があります。単純なテキストベースの PDF はきれいに変換されます。複数列のレイアウト、埋め込み画像、脚注、または珍しいタイポグラフィーを含む複雑な PDF は通常、変換後に手動でクリーンアップする必要があります。
このツールは、解析用の PDF.js と、標準の Office Open XML 出力を生成するカスタムのレイアウトから DOCX へのライターを使用して、ブラウザーで変換を実行します。結果は、Microsoft Word、LibreOffice Writer、Google Docs、およびその他の DOCX 互換エディターで開きます。アップロードは行われません。ファイルはデバイス上に残ります。
編集しやすさがすべての理由です。 PDF は編集に敵対的です。フォーム フィールドに入力したり、注釈を付けたりすることはできますが、テキストのリフロー、段落スタイルの変更、コンテンツの再構築は、費用がかかり一貫性のない結果を生み出す専用の PDF エディターなしでは行えません。 DOCX は編集用に構築されています。 PDF を DOCX に変換すると、コンテンツが改訂、翻訳、再利用、または再設計しやすくなります。
もう一つの理由はコラボレーションです。 Word と Google ドキュメントは、オフィス、学校、およびほとんどの組織におけるドキュメント コラボレーションの共通言語です。コメント スレッド、変更の追跡、および共有編集はすべて、DOCX またはそのクラウド同等のものを前提としています。レビューのために送信された PDF がボトルネックになります。 DOCX は標準のコラボレーション ツールを通じて動作します。
PDF をドロップし、生成し、ダウンロードします。その後、Word でクリーンアップを行う予定です。
PDF.js は、各 PDF ページをテキストおよびグラフィックス操作のストリームに解析します。テキスト抽出 API は、テキスト項目とその境界ボックス、フォント情報、および Unicode でデコードされた文字列を返します。これらの項目から、コンバータは上から下、左から右に並べ替えることによって読み取り順序を再構築し、同様のベースラインを持つ項目を行に、行を段落にグループ化します。
DOCX は、XML ファイル (document.xml、styles.xml、およびコンテンツ タイプと関係マニフェスト) を含む zip アーカイブです。コンバーターは、一連の段落 (w:p) 要素と run (w:r) 要素を使用して document.xml コンテンツを構築し、フォント サイズが見出しを示唆する見出し (見出し 1、見出し 2) のスタイル参照を適用し、JSZip を使用してメモリ内で zip をアセンブルします。
制限事項: 列のレイアウトが常に正しく再構築されるとは限りません。 PDF 内の表は、レイアウトが表構造を強く示唆しない限り、段落として復元されます。ヘッダー、フッター、脚注は通常、対応する DOCX ゾーンではなく本文のインラインになります。 PDF に埋め込まれた画像は、現在 DOCX 出力には保存されません。