PDF से शब्द (DOCX)
पीडीएफ से टेक्स्ट निकालें और इसे सीधे अपने ब्राउज़र में संपादन योग्य वर्ड प्रारूप में बदलें। तेज़, सुरक्षित और निजी।
यहाँ PDF फ़ाइल छोड़ें
50MB तक समर्थित
पीडीएफ से टेक्स्ट निकालें और इसे सीधे अपने ब्राउज़र में संपादन योग्य वर्ड प्रारूप में बदलें। तेज़, सुरक्षित और निजी।
50MB तक समर्थित
PDF और DOCX (Microsoft Word) मौलिक रूप से भिन्न मॉडलों का उपयोग करके दस्तावेज़ों का वर्णन करते हैं। पीडीएफ एक निश्चित-लेआउट प्रारूप है: प्रत्येक ग्लिफ़ की एक निश्चित आकार के पृष्ठ पर एक स्पष्ट स्थिति होती है, जिससे दस्तावेज़ को प्रस्तुत किए जाने पर हर जगह समान दिखता है। DOCX एक फ्लो-लेआउट प्रारूप है: पैराग्राफ, तालिकाओं और शीर्षकों को शब्दार्थ रूप से वर्णित किया जाता है, और रेंडरिंग इंजन यह तय करता है कि वे वर्तमान पृष्ठ आकार और फ़ॉन्ट उपलब्धता के आधार पर पृष्ठ पर कहां आते हैं। पीडीएफ से डीओसीएक्स में कनवर्ट करने का मतलब है कि निश्चित लेआउट को एक सिमेंटिक संरचना में रिवर्स-इंजीनियरिंग करना जिसे वर्ड फिर से प्रवाहित कर सके।
यह रूपांतरण स्वाभाविक रूप से हानिपूर्ण है. पीडीएफ आम तौर पर शीर्षक स्तर, पैराग्राफ सीमाएँ, सूची संरचना, या तालिका शब्दार्थ को संरक्षित नहीं करता है; कनवर्टर को फ़ॉन्ट आकार, स्थिति और बुलेट वर्णों से इनका अनुमान लगाना होता है। सरल पाठ-आधारित पीडीएफ़ साफ़-साफ़ परिवर्तित होते हैं। मल्टी-कॉलम लेआउट, एम्बेडेड इमेज, फ़ुटनोट या असामान्य टाइपोग्राफी वाले जटिल पीडीएफ को आमतौर पर रूपांतरण के बाद मैन्युअल सफाई की आवश्यकता होती है।
यह टूल पार्सिंग के लिए PDF.js और एक कस्टम लेआउट-टू-DOCX राइटर का उपयोग करके आपके ब्राउज़र में रूपांतरण चलाता है जो मानक Office Open XML आउटपुट उत्पन्न करता है। परिणाम Microsoft Word, LibreOffice Writer, Google Docs और किसी अन्य DOCX-संगत संपादक में खुलता है। कोई अपलोड नहीं होता; फ़ाइल आपके डिवाइस पर रहती है.
संपादनशीलता ही इसका संपूर्ण कारण है। पीडीएफ संपादन के प्रति प्रतिकूल है - आप फॉर्म फ़ील्ड भर सकते हैं और एनोटेट कर सकते हैं, लेकिन आप टेक्स्ट को दोबारा प्रवाहित नहीं कर सकते, पैराग्राफ शैलियों को नहीं बदल सकते, या विशेष पीडीएफ संपादकों के बिना सामग्री का पुनर्गठन नहीं कर सकते, जिसमें पैसे खर्च होते हैं और असंगत परिणाम मिलते हैं। DOCX संपादन के लिए बनाया गया है। PDF को DOCX में परिवर्तित करने से सामग्री पुनरीक्षण, अनुवाद, पुनर्प्रयोजन या पुनः डिज़ाइन के लिए सुव्यवस्थित हो जाती है।
दूसरा कारण सहयोग है. वर्ड और गूगल डॉक्स कार्यालयों, स्कूलों और अधिकांश संगठनों में दस्तावेज़ सहयोग की भाषा हैं। टिप्पणी थ्रेड, ट्रैक परिवर्तन और साझा संपादन सभी DOCX या इसके क्लाउड समकक्षों को मानते हैं। समीक्षा के लिए भेजी गई पीडीएफ़ बाधाएँ बन जाती हैं; DOCX मानक सहयोग टूल के माध्यम से प्रवाहित होता है।
पीडीएफ छोड़ें, जेनरेट करें, डाउनलोड करें। बाद में वर्ड में कुछ सफ़ाई करने की अपेक्षा करें।
PDF.js प्रत्येक पीडीएफ पेज को टेक्स्ट और ग्राफिक्स संचालन की एक स्ट्रीम में पार्स करता है। टेक्स्ट-एक्सट्रैक्शन एपीआई टेक्स्ट आइटम को उनके बाउंडिंग बॉक्स, फ़ॉन्ट जानकारी और यूनिकोड-डिकोडेड स्ट्रिंग्स के साथ लौटाता है। इन आइटमों से कनवर्टर ऊपर से नीचे और बाएं से दाएं क्रमबद्ध करके, समान आधार रेखाओं वाले आइटमों को पंक्तियों में और पंक्तियों को पैराग्राफों में समूहित करके पढ़ने के क्रम का पुनर्निर्माण करता है।
DOCX एक ज़िप संग्रह है जिसमें XML फ़ाइलें (document.xml, style.xml, प्लस सामग्री प्रकार और संबंध मैनिफ़ेस्ट) शामिल हैं। कनवर्टर पैराग्राफ (w:p) की एक श्रृंखला का उपयोग करके document.xml सामग्री बनाता है और (w:r) तत्वों को चलाता है, शीर्षकों (शीर्षक 1, शीर्षक 2) के लिए शैली संदर्भ लागू करता है जहां फ़ॉन्ट आकार एक शीर्षक का सुझाव देता है, और JSZip का उपयोग करके मेमोरी में ज़िप को इकट्ठा करता है।
सीमाएँ: कॉलम लेआउट का पुनर्निर्माण हमेशा सही ढंग से नहीं किया जाता है। पीडीएफ में तालिकाएँ पैराग्राफ के रूप में पुनर्प्राप्त की जाती हैं जब तक कि लेआउट दृढ़ता से सारणीबद्ध संरचना का सुझाव नहीं देता। हेडर, फ़ुटर और फ़ुटनोट आम तौर पर संबंधित DOCX ज़ोन के बजाय मुख्य भाग में इनलाइन होते हैं। पीडीएफ में एम्बेड की गई छवियां वर्तमान में DOCX आउटपुट में संरक्षित नहीं हैं।