完全無料

PDF を Excel (XLSX) に 変換

ブラウザ上でPDFから表やテキストを抽出し、安全にExcel(XLSX)スプレッドシートに無料で変換します。

ここに PDF ファイルをドロップ

またはクリックしてファイルを選択

または

このツールについて

PDF から表形式のデータを抽出してスプレッドシートに取り込むことは、請求書、財務報告書、科学論文、政府データを扱うオフィスで最も一般的なドキュメント ワークフローの 1 つです。 PDF 形式は表をネイティブに理解せず、ページ上のグリフの位置を記述するだけなので、Excel に変換するには、テキストの形状から表の構造を推測する必要があります。 1 つのセルがどこで終わり、次のセルが始まるかは、水平方向の空白から推測する必要があります。ここで、垂直方向の空白から 1 つの行が終了し、次の行が始まります。

このツールは、PDF.js を使用して PDF を解析し、境界ボックスを含むテキスト項目を抽出し、位置に基づいて項目を行と列にクラスター化します。検出されたテーブルは、SheetJS xlsx ライブラリを使用して Excel ワークブックに書き込まれます。出力は、Excel、Google Sheets、Numbers、またはその他のスプレッドシート アプリケーションで開く標準の .xlsx ファイルです。

PDF テーブルの抽出は非常に難しく、すべての PDF に対して完璧な結果を生み出す抽出ツールはありません。列の境界が一貫しており、セルが結合されておらず、垂直方向の配置が明確であるテーブルは、きれいに変換されます。結合されたセル、複数行のエントリ、脚注、または特殊なレイアウトを含む表は、通常、抽出後に手動でクリーンアップする必要があります。見直しの計画を立てる。

PDF を Excel に変換する理由

その理由はほとんどの場合、分析にあります。 PDF に閉じ込められたデータは、並べ替え、フィルタリング、合計、グラフ化、またはピボットすることができません。 Excel に移行すると、標準的なスプレッドシート操作がすべて利用できるようになります。これにより、静的なレポートを見つめることと、そのレポート内の数値を実際に操作することの間に違いが生まれます。

PDFでは大量のデータ作業は不可能です。複数の PDF レポートにわたる四半期の数値を集計したり、ベンダー間で項目を比較したり、下流分析のために特定の列を取得したりするには、すべて、データをそれらの操作をサポートする形式に変換する必要があります。 Excel と CSV がその形式です。変換は架け橋です。

使い方

表形式のデータを含む PDF をドロップし、各表を独自のシートに含むワークブックを取得します。

  1. PDF をアップロードする: ファイルをアップロード領域にドラッグするか、クリックして参照します。最大 50 MB のファイルがサポートされます。 PDF には実際のテキストが含まれている必要があります。スキャンされた PDF には最初に OCR が必要です。
  2. テーブルの検出を待つ: PDF.js はテキスト項目とその位置を抽出します。コンバーターは、水平方向と垂直方向の配置を分析することにより、項目を行と列にクラスター化します。短い文書の場合は検出に数秒かかりますが、複数ページの表の場合はさらに時間がかかります。
  3. 検出されたテーブルを確認する: 検出されたテーブルはダウンロード前にプレビューされます。列と行が期待したものと一致していることを確認します。ここでのずれは、後で Excel のクリーンアップになります。
  4. XLSXとしてダウンロード: コンバーターは、SheetJS を使用して、検出された各テーブルを .xlsx ワークブック内の個別のシートに書き込みます。 Excel または Google スプレッドシートで結果を開き、残っている問題をクリーンアップします。

一般的な使用例

技術的な詳細

PDF.js は、テキスト項目とその境界ボックスを返す getTextContent API を公開します。各項目には、文字列、変換行列 (位置と回転用)、および幅/高さが含まれます。コンバーターは項目を Y 座標で並べ替えて行を識別し、各行内で X 座標で並べ替えます。非常によく似た Y 位置にある項目が行を形成します。

列の検出ではギャップ分析が使用されます。行内の連続する項目間の X 距離は、それらの項目が同じセルに属するか隣接するセルに属するかを示します。しきい値 (通常は 1 ~ 2 文字幅) より大きいギャップは、列境界を示します。しきい値の調整は、隣接する列のマージと単一列の分割の間でトレードオフになります。

Excel 出力は SheetJS を使用してメモリ内にワークブックを構築し、検出された各テーブルは Sheet1、Sheet2 などの名前の独自のシート上にあります。ワークブックは .xlsx (Office Open XML) 形式にシリアル化され、ダウンロードとして提供されます。結果は Excel 2007 以降、Google Sheets、LibreOffice Calc、および Apple Numbers で開きます。

ベストプラクティス

よくある質問

PDFをEXCELに変換すると内容は変わりますか?
内容は可能な限り正確に保存されます。ただし、一部の形式固有の機能には直接同等の機能がない場合があるため、形式に若干の違いが発生する可能性があります。
EXCEL形式は何に使われるのですか?
XLSX (Microsoft Excel スプレッドシート) は、主に数式、グラフ、データ分析を含むスプレッドシートに使用されます。
注意すべき制限はありますか?
最大 50MB のファイルがサポートされます。非常に大きいファイルや複雑なファイルの処理には時間がかかる場合があります。すべての変換はブラウザーで行われるため、処理速度はデバイスによって異なります。
私の文書データは安全ですか?
はい。ドキュメント処理は完全にブラウザ内で実行されます。ファイルとそのコンテンツがサーバーにアップロードされることはありません。これにより、機密文書や機密文書を安全に変換できます。
どのような出力形式が生成されますか?
.xlsx (Office Open XML)、最新の Excel 形式。このファイルは、Excel 2007 以降、Google Sheets、LibreOffice Calc、Apple Numbers、その他の最新のスプレッドシートで開きます。
私の PDF はサーバーにアップロードされていますか?
いいえ。解析と Excel の生成は、PDF.js と SheetJS を使用してブラウザーで行われます。
最大ファイルサイズはどれくらいですか?
50MB。変換時間は、ファイル サイズだけではなく、ドキュメントの複雑さに依存します。グラフィックが多い 50 MB PDF は、テキストが多い PDF よりも抽出に時間がかかる場合があります。
私の数字が間違った列にあるのはなぜですか?
ほとんどの場合、コンバータの列検出しきい値が PDF の実際のレイアウトと一致しないことが原因です。ソース PDF を開き、列が切れている箇所を視覚的に確認し、必要に応じて Excel でセルを手動で移動します。