PDF para Excel (XLSX)
Extraia tabelas e textos do PDF e converta-os em planilhas Excel XLSX com segurança no seu navegador grátis.
Solte o arquivo PDF aqui
ou clique para selecionar o arquivo
Extraia tabelas e textos do PDF e converta-os em planilhas Excel XLSX com segurança no seu navegador grátis.
ou clique para selecionar o arquivo
Extrair dados tabulares de um PDF para uma planilha é um dos fluxos de trabalho de documentos mais comuns em escritórios que lidam com faturas, relatórios financeiros, artigos científicos e dados governamentais. O formato PDF não entende tabelas nativamente – ele apenas descreve as posições dos glifos em uma página – portanto, a conversão para Excel requer inferir a estrutura da tabela a partir da geometria do texto. Onde uma célula termina e a próxima começa deve ser adivinhada a partir do espaço em branco horizontal; onde uma linha termina e a próxima começa, a partir do espaço em branco vertical.
Esta ferramenta analisa o PDF usando PDF.js, extrai itens de texto com suas caixas delimitadoras e agrupa os itens em linhas e colunas com base na posição. A tabela detectada é gravada em uma pasta de trabalho do Excel usando a biblioteca SheetJS xlsx. A saída é um arquivo .xlsx padrão que abre no Excel, no Planilhas Google, no Numbers ou em qualquer outro aplicativo de planilha.
A extração de tabelas PDF é realmente difícil e nenhum extrator produz resultados perfeitos em todos os PDFs. Tabelas com limites de coluna consistentes, sem células mescladas e alinhamento vertical claro são convertidas de forma limpa. Tabelas com células mescladas, entradas multilinhas, notas de rodapé ou layouts incomuns geralmente precisam de limpeza manual após a extração. Planeje a revisão.
O motivo quase sempre é a análise. Os dados presos em um PDF não podem ser classificados, filtrados, somados, gráficos ou dinamizados. Uma vez no Excel, todas as operações de planilha padrão ficam disponíveis – e isso abre a diferença entre olhar para um relatório estático e realmente trabalhar com os números nele contidos.
O trabalho com dados em massa é impossível em PDF. Agregar números trimestrais em vários relatórios PDF, comparar itens de linha entre fornecedores ou extrair colunas específicas para análise posterior exige a colocação dos dados em um formato que suporte essas operações. Excel e CSV são esses formatos. A conversão é a ponte.
Solte um PDF contendo dados tabulares e obtenha uma pasta de trabalho com cada tabela em sua própria planilha.
PDF.js expõe uma API getTextContent que retorna itens de texto com suas caixas delimitadoras. Cada item possui uma string, uma matriz de transformação (para posição e rotação) e largura/altura. O conversor classifica os itens pela coordenada Y para identificar as linhas e, em seguida, dentro de cada linha pela coordenada X. Itens em posições Y muito semelhantes formam uma linha.
A detecção de colunas usa análise de lacunas: a distância X entre itens consecutivos em uma linha indica se eles pertencem à mesma célula ou a células adjacentes. Uma lacuna maior que um limite (normalmente de 1 a 2 caracteres de largura) sinaliza um limite de coluna. O ajuste de limite alterna entre mesclar colunas adjacentes e dividir colunas únicas.
A saída do Excel usa SheetJS para construir uma pasta de trabalho na memória, com cada tabela detectada em sua própria planilha chamada Sheet1, Sheet2, etc. A pasta de trabalho é serializada no formato .xlsx (Office Open XML) e oferecida para download. O resultado abre no Excel 2007+, Planilhas Google, LibreOffice Calc e Apple Numbers.