PDF से HTML कनवर्टर
ब्राउज़र में सीधे PDF दस्तावेज़ों को स्वच्छ, सिमेंटिक HTML फ़ाइलों में बदलें। तेज़, सुरक्षित और दस्तावेज़ संरचना को सुरक्षित रखता है।
PDF फ़ाइल चुनें
या यहाँ खींचें और छोड़ें
ब्राउज़र में सीधे PDF दस्तावेज़ों को स्वच्छ, सिमेंटिक HTML फ़ाइलों में बदलें। तेज़, सुरक्षित और दस्तावेज़ संरचना को सुरक्षित रखता है।
या यहाँ खींचें और छोड़ें
पीडीएफ को HTML में परिवर्तित करने से एक निश्चित-लेआउट दस्तावेज़ एक प्रवाहित वेब पेज में बदल जाता है। रूपांतरण HTML के प्रतिक्रियाशील प्रवाह के पक्ष में पीडीएफ के सटीक पिक्सेल लेआउट को त्यागते हुए पाठ सामग्री, शीर्षकों, पैराग्राफ और बुनियादी स्टाइल को संरक्षित करता है। यह वेब सामग्री के रूप में पुनः प्रकाशित किए जा रहे दस्तावेज़ों के लिए सही व्यापार है - लेख, रिपोर्ट, तकनीकी दस्तावेज़ीकरण - और उन दस्तावेज़ों के लिए ग़लत व्यापार है जिनका लेआउट आवश्यक है - फॉर्म, सख्त स्थिति वाले चालान, डिज़ाइन किए गए विपणन टुकड़े।
यह टूल पीडीएफ से टेक्स्ट, फ़ॉन्ट और बुनियादी संरचना निकालने के लिए पीडीएफ.जेएस का उपयोग करता है, फिर टाइपोग्राफी के लिए एम्बेडेड सीएसएस के साथ संबंधित HTML मार्कअप लिखता है। आउटपुट एक स्टैंडअलोन .html फ़ाइल है जिसे आप किसी भी ब्राउज़र में खोल सकते हैं, सीएमएस में पेस्ट कर सकते हैं, या कस्टम सीएसएस के साथ आगे स्टाइल कर सकते हैं। कोई अपलोड नहीं होता; रूपांतरण आपके ब्राउज़र में चलता है.
दो आउटपुट शैलियाँ समर्थित हैं। सिमेंटिक HTML पैराग्राफ और शीर्षक तत्वों के साथ स्वच्छ मार्कअप तैयार करता है, जो ब्लॉग या दस्तावेज़ीकरण साइट पर सामग्री को पुनः प्रकाशित करने के लिए उपयुक्त है। विज़ुअल HTML पूर्ण स्थिति के माध्यम से पीडीएफ के अधिक लेआउट को संरक्षित करता है, यह तब उपयुक्त होता है जब दस्तावेज़ की उपस्थिति पुन: प्रवाह क्षमता से अधिक मायने रखती है।
पीडीएफ़ वेब पर ठीक से काम नहीं करते। मोबाइल ब्राउज़र पीडीएफ को अजीब तरीके से प्रस्तुत करते हैं, स्क्रीन रीडर उन्हें असंगत तरीके से संभालते हैं, खोज इंजन उन्हें क्रॉल करते हैं लेकिन समकक्ष HTML से कम रैंक करते हैं, और एक वेबपेज में पीडीएफ को एम्बेड करने से मूल अनुभव के बजाय एक भद्दा इन-आईफ्रेम व्यूअर उत्पन्न होता है। HTML में कनवर्ट करने से ऐसी सामग्री उत्पन्न होती है जो वेब के काम करने के तरीके से काम करती है।
HTML भी संपादन योग्य है. एक बार पीडीएफ की सामग्री HTML फॉर्म में हो जाने पर, आप टाइपोग्राफी बदल सकते हैं, अनुभागों का पुनर्गठन कर सकते हैं, इंटरैक्टिव तत्व जोड़ सकते हैं और सामग्री को अन्य वेब पेजों के साथ एकीकृत कर सकते हैं। पीडीएफ उन सभी परिचालनों का विरोध करता है।
पीडीएफ छोड़ें, आउटपुट शैली चुनें, जेनरेट करें।
PDF.js टेक्स्ट सामग्री को बाउंडिंग बॉक्स, फ़ॉन्ट और यूनिकोड स्ट्रिंग वाले आइटम के रूप में प्रदर्शित करता है। कनवर्टर पढ़ने के क्रम को पुनर्प्राप्त करने के लिए वस्तुओं को Y और फिर X के आधार पर क्रमबद्ध करता है, समान आधार रेखाओं पर वस्तुओं को पंक्तियों में समूहित करता है, और ऊर्ध्वाधर रिक्ति के आधार पर पंक्तियों को पैराग्राफ में समूहित करता है।
शीर्षक पहचान फ़ॉन्ट-आकार विश्लेषण का उपयोग करती है: मुख्य फ़ॉन्ट की तुलना में काफी बड़े आकार शीर्षक बन जाते हैं, सबसे बड़े को h1 में मैप किया जाता है, अगले सबसे बड़े को h2 में मैप किया जाता है, और इसी तरह। सूची पहचान बुलेट वर्णों या संख्यात्मक अनुक्रमों से शुरू होने वाली पंक्तियों की तलाश करती है।
आउटपुट HTML स्व-निहित है: डॉकटाइप, टाइपोग्राफी के लिए एम्बेडेड सीएसएस के साथ हेड, परिवर्तित सामग्री के साथ बॉडी। पीडीएफ से इनलाइन छवियां वर्तमान में एम्बेडेड नहीं हैं; वे एक ज्ञात सीमा बने हुए हैं। आउटपुट HTML5 के रूप में मान्य होता है।