PDF を Excel (XLSX) に 変換
ブラウザ上でPDFから表やテキストを抽出し、安全にExcel(XLSX)スプレッドシートに無料で変換します。
ここに PDF ファイルをドロップ
またはクリックしてファイルを選択
ブラウザ上でPDFから表やテキストを抽出し、安全にExcel(XLSX)スプレッドシートに無料で変換します。
またはクリックしてファイルを選択
PDF から表形式のデータを抽出してスプレッドシートに取り込むことは、請求書、財務報告書、科学論文、政府データを扱うオフィスで最も一般的なドキュメント ワークフローの 1 つです。 PDF 形式は表をネイティブに理解せず、ページ上のグリフの位置を記述するだけなので、Excel に変換するには、テキストの形状から表の構造を推測する必要があります。 1 つのセルがどこで終わり、次のセルが始まるかは、水平方向の空白から推測する必要があります。ここで、垂直方向の空白から 1 つの行が終了し、次の行が始まります。
このツールは、PDF.js を使用して PDF を解析し、境界ボックスを含むテキスト項目を抽出し、位置に基づいて項目を行と列にクラスター化します。検出されたテーブルは、SheetJS xlsx ライブラリを使用して Excel ワークブックに書き込まれます。出力は、Excel、Google Sheets、Numbers、またはその他のスプレッドシート アプリケーションで開く標準の .xlsx ファイルです。
PDF テーブルの抽出は非常に難しく、すべての PDF に対して完璧な結果を生み出す抽出ツールはありません。列の境界が一貫しており、セルが結合されておらず、垂直方向の配置が明確であるテーブルは、きれいに変換されます。結合されたセル、複数行のエントリ、脚注、または特殊なレイアウトを含む表は、通常、抽出後に手動でクリーンアップする必要があります。見直しの計画を立てる。
その理由はほとんどの場合、分析にあります。 PDF に閉じ込められたデータは、並べ替え、フィルタリング、合計、グラフ化、またはピボットすることができません。 Excel に移行すると、標準的なスプレッドシート操作がすべて利用できるようになります。これにより、静的なレポートを見つめることと、そのレポート内の数値を実際に操作することの間に違いが生まれます。
PDFでは大量のデータ作業は不可能です。複数の PDF レポートにわたる四半期の数値を集計したり、ベンダー間で項目を比較したり、下流分析のために特定の列を取得したりするには、すべて、データをそれらの操作をサポートする形式に変換する必要があります。 Excel と CSV がその形式です。変換は架け橋です。
表形式のデータを含む PDF をドロップし、各表を独自のシートに含むワークブックを取得します。
PDF.js は、テキスト項目とその境界ボックスを返す getTextContent API を公開します。各項目には、文字列、変換行列 (位置と回転用)、および幅/高さが含まれます。コンバーターは項目を Y 座標で並べ替えて行を識別し、各行内で X 座標で並べ替えます。非常によく似た Y 位置にある項目が行を形成します。
列の検出ではギャップ分析が使用されます。行内の連続する項目間の X 距離は、それらの項目が同じセルに属するか隣接するセルに属するかを示します。しきい値 (通常は 1 ~ 2 文字幅) より大きいギャップは、列境界を示します。しきい値の調整は、隣接する列のマージと単一列の分割の間でトレードオフになります。
Excel 出力は SheetJS を使用してメモリ内にワークブックを構築し、検出された各テーブルは Sheet1、Sheet2 などの名前の独自のシート上にあります。ワークブックは .xlsx (Office Open XML) 形式にシリアル化され、ダウンロードとして提供されます。結果は Excel 2007 以降、Google Sheets、LibreOffice Calc、および Apple Numbers で開きます。