Conversor de PDF para HTML
Converta documentos PDF em arquivos HTML limpos e semânticos diretamente no seu navegador. Rápido, seguro e preserva a estrutura do documento.
Selecionar arquivo PDF
ou arraste e solte aqui
Converta documentos PDF em arquivos HTML limpos e semânticos diretamente no seu navegador. Rápido, seguro e preserva a estrutura do documento.
ou arraste e solte aqui
A conversão de PDF em HTML transforma um documento de layout fixo em uma página da web fluida. A conversão preserva o conteúdo do texto, títulos, parágrafos e estilo básico, abandonando o layout exato de pixels do PDF em favor do fluxo responsivo do HTML. Este é o comércio certo para documentos republicados como conteúdo web — artigos, relatórios, documentação técnica — e o comércio errado para documentos cuja diagramação é essencial — formulários, faturas com posicionamento rígido, peças de marketing desenhadas.
Esta ferramenta usa PDF.js para extrair texto, fontes e estrutura básica do PDF e, em seguida, escreve a marcação HTML correspondente com CSS incorporado para tipografia. A saída é um arquivo .html independente que você pode abrir em qualquer navegador, colar em um CMS ou estilizar com CSS personalizado. Nenhum upload acontece; a conversão é executada em seu navegador.
Dois estilos de saída são suportados. O HTML semântico produz uma marcação limpa com elementos de parágrafo e título, adequada para republicar conteúdo em um blog ou site de documentação. O HTML visual preserva mais o layout do PDF por meio do posicionamento absoluto, adequado quando a aparência do documento é mais importante do que a fluidez.
PDFs não funcionam bem na web. Os navegadores móveis processam PDFs de maneira estranha, os leitores de tela os processam de maneira inconsistente, os mecanismos de pesquisa os rastreiam, mas os classificam abaixo do HTML equivalente, e a incorporação de um PDF em uma página da Web produz um visualizador in-iframe desajeitado, em vez de uma experiência nativa. A conversão para HTML produz conteúdo que funciona da mesma forma que a web.
HTML também é editável. Depois que o conteúdo de um PDF estiver no formato HTML, você poderá alterar a tipografia, reestruturar seções, adicionar elementos interativos e integrar o conteúdo a outras páginas da web. PDF resiste a todas essas operações.
Solte o PDF, escolha o estilo de saída e gere.
PDF.js expõe o conteúdo do texto como itens com caixas delimitadoras, fontes e strings Unicode. O conversor classifica os itens por Y e depois X para recuperar a ordem de leitura, agrupa itens em linhas de base semelhantes em linhas e agrupa linhas em parágrafos com base no espaçamento vertical.
A detecção de título usa análise de tamanho de fonte: tamanhos significativamente maiores que a fonte do corpo tornam-se títulos, com o maior mapeado para h1, o próximo maior para h2 e assim por diante. A detecção de lista procura linhas que começam com marcadores ou sequências numéricas.
O HTML de saída é independente: doctype, head com CSS incorporado para tipografia, body com o conteúdo convertido. As imagens embutidas do PDF não estão incorporadas no momento; eles permanecem uma limitação conhecida. A saída é validada como HTML5.