PDF para Palavra (DOCX)
Extraia texto de um PDF e converta-o para o formato Word editável diretamente no seu navegador. Rápido, seguro e privado.
Solte o arquivo PDF aqui
Suporta até 50MB
Extraia texto de um PDF e converta-o para o formato Word editável diretamente no seu navegador. Rápido, seguro e privado.
Suporta até 50MB
PDF e DOCX (Microsoft Word) descrevem documentos usando modelos fundamentalmente diferentes. PDF é um formato de layout fixo: cada glifo tem uma posição explícita em uma página de tamanho fixo, fazendo com que o documento pareça idêntico em todos os lugares em que é renderizado. DOCX é um formato de layout de fluxo: parágrafos, tabelas e títulos são descritos semanticamente e o mecanismo de renderização decide onde eles se enquadram na página com base no tamanho atual da página e na disponibilidade de fonte. Converter de PDF para DOCX significa fazer engenharia reversa do layout fixo em uma estrutura semântica que o Word pode refluir.
Essa conversão é inerentemente com perdas. O PDF geralmente não preserva níveis de título, limites de parágrafo, estrutura de lista ou semântica de tabela; o conversor deve inferir isso a partir de tamanhos de fonte, posições e marcadores. PDFs simples baseados em texto são convertidos de forma limpa. PDFs complexos com layouts de múltiplas colunas, imagens incorporadas, notas de rodapé ou tipografia incomum normalmente precisam de limpeza manual após a conversão.
Esta ferramenta executa a conversão em seu navegador usando PDF.js para análise e um gravador de layout personalizado para DOCX que produz saída padrão do Office Open XML. O resultado abre no Microsoft Word, LibreOffice Writer, Google Docs e qualquer outro editor compatível com DOCX. Nenhum upload acontece; o arquivo permanece no seu dispositivo.
A editabilidade é todo o motivo. PDF é hostil à edição – você pode preencher campos de formulário e fazer anotações, mas não pode refluir texto, alterar estilos de parágrafo ou reestruturar conteúdo sem editores de PDF especializados que custam dinheiro e produzem resultados inconsistentes. DOCX foi desenvolvido para edição. A conversão de um PDF em DOCX torna o conteúdo tratável para revisão, tradução, reaproveitamento ou redesenho.
A outra razão é a colaboração. Word e Google Docs são a língua franca da colaboração de documentos em escritórios, escolas e na maioria das organizações. Tópicos de comentários, rastreamento de alterações e edição compartilhada assumem DOCX ou seus equivalentes em nuvem. PDFs enviados para revisão tornam-se gargalos; DOCX flui por meio de ferramentas de colaboração padrão.
Solte o PDF, gere, baixe. Espere fazer alguma limpeza no Word depois.
PDF.js analisa cada página PDF em um fluxo de operações de texto e gráficos. A API de extração de texto retorna itens de texto com suas caixas delimitadoras, informações de fonte e cadeias de caracteres decodificadas em Unicode. A partir desses itens, o conversor reconstrói a ordem de leitura classificando de cima para baixo e da esquerda para a direita, agrupando itens com linhas de base semelhantes em linhas e linhas em parágrafos.
DOCX é um arquivo zip que contém arquivos XML (document.xml, estilos.xml, além de tipo de conteúdo e manifestos de relacionamento). O conversor cria o conteúdo document.xml usando uma série de elementos de parágrafo (w:p) e de execução (w:r), aplica referências de estilo para títulos (Título 1, Título 2) onde o tamanho da fonte sugere um título e monta o zip na memória usando JSZip.
Limitações: os layouts das colunas nem sempre são reconstruídos corretamente. As tabelas no PDF são recuperadas como parágrafos, a menos que o layout sugira fortemente uma estrutura tabular. Cabeçalhos, rodapés e notas de rodapé normalmente ficam embutidos no corpo, e não nas zonas DOCX correspondentes. As imagens incorporadas no PDF não são preservadas atualmente na saída DOCX.