PDF naar HTML-converter
Converteer PDF-documenten rechtstreeks in uw browser naar schone, semantische HTML-bestanden. Snel, veilig en met behoud van de documentstructuur.
Selecteer PDF-bestand
of sleep hier naartoe
Converteer PDF-documenten rechtstreeks in uw browser naar schone, semantische HTML-bestanden. Snel, veilig en met behoud van de documentstructuur.
of sleep hier naartoe
Door PDF naar HTML te converteren, wordt een document met een vaste lay-out omgezet in een vloeiende webpagina. Bij de conversie blijven de tekstinhoud, koppen, alinea's en basisstijlen behouden, terwijl de exacte pixelindeling van de PDF wordt verlaten ten gunste van de responsieve stroom van HTML. Dit is de juiste handel voor documenten die opnieuw worden gepubliceerd als webinhoud – artikelen, rapporten, technische documentatie – en de verkeerde handel voor documenten waarvan de lay-out essentieel is – formulieren, facturen met strikte positionering, ontworpen marketingstukken.
Deze tool gebruikt PDF.js om tekst, lettertypen en basisstructuur uit de PDF te extraheren en schrijft vervolgens de bijbehorende HTML-opmaak met ingesloten CSS voor typografie. De uitvoer is een zelfstandig .html-bestand dat u in elke browser kunt openen, in een CMS kunt plakken of verder kunt opmaken met aangepaste CSS. Er vindt geen upload plaats; de conversie wordt uitgevoerd in uw browser.
Er worden twee uitvoerstijlen ondersteund. Semantische HTML produceert duidelijke opmaak met alinea- en kopelementen, geschikt voor het opnieuw publiceren van inhoud op een blog of documentatiesite. Visuele HTML behoudt een groter deel van de lay-out van de PDF via absolute positionering, wat geschikt is wanneer het uiterlijk van het document belangrijker is dan de hervloeibaarheid.
PDF's werken niet goed op internet. Mobiele browsers geven PDF's onhandig weer, schermlezers gaan er inconsistent mee om, zoekmachines crawlen ze maar rangschikken ze lager dan gelijkwaardige HTML, en het insluiten van een PDF in een webpagina levert een onhandige in-iframe-viewer op in plaats van een native ervaring. Door te converteren naar HTML ontstaat inhoud die werkt zoals het internet werkt.
HTML is ook bewerkbaar. Zodra de inhoud van een PDF in HTML-vorm is, kunt u de typografie wijzigen, secties herstructureren, interactieve elementen toevoegen en de inhoud met andere webpagina's integreren. PDF is bestand tegen al deze bewerkingen.
Zet de PDF neer, kies de uitvoerstijl, genereer.
PDF.js geeft tekstinhoud weer als items met selectiekaders, lettertypen en Unicode-tekenreeksen. De converter sorteert items op Y en vervolgens op X om de leesvolgorde te herstellen, groepeert items op vergelijkbare basislijnen in regels en clustert regels in alinea's op basis van de verticale afstand.
Kopdetectie maakt gebruik van analyse van de lettergrootte: formaten die aanzienlijk groter zijn dan het hoofdlettertype worden kopteksten, waarbij de grootste wordt toegewezen aan h1, de op een na grootste aan h2, enzovoort. Lijstdetectie zoekt naar regels die beginnen met opsommingstekens of numerieke reeksen.
De output-HTML is op zichzelf staand: doctype, head met ingebedde CSS voor typografie, body met de geconverteerde inhoud. Inline-afbeeldingen uit de PDF zijn momenteel niet ingesloten; ze blijven een bekende beperking. De uitvoer valideert als HTML5.