PDF to शब्द (DOCX)
PDF मधून मजकूर काढा आणि ते संपूर्णपणे तुमच्या ब्राउझरमध्ये संपादन करण्यायोग्य वर्ड फॉरमॅटमध्ये रूपांतरित करा. जलद, सुरक्षित आणि खाजगी.
PDF फाईल इथे टाका
50MB पर्यंत सपोर्ट करते
PDF मधून मजकूर काढा आणि ते संपूर्णपणे तुमच्या ब्राउझरमध्ये संपादन करण्यायोग्य वर्ड फॉरमॅटमध्ये रूपांतरित करा. जलद, सुरक्षित आणि खाजगी.
50MB पर्यंत सपोर्ट करते
PDF आणि DOCX (Microsoft Word) मूलभूतपणे भिन्न मॉडेल वापरून दस्तऐवजांचे वर्णन करतात. PDF हे निश्चित-लेआउट स्वरूप आहे: प्रत्येक ग्लिफची एका निश्चित आकाराच्या पृष्ठावर एक स्पष्ट स्थान असते, ज्यामुळे दस्तऐवज जिथे रेंडर केला जातो तिथे एकसारखा दिसतो. DOCX हे फ्लो-लेआउट स्वरूप आहे: परिच्छेद, सारण्या आणि शीर्षके शब्दार्थाने वर्णन केली जातात आणि वर्तमान पृष्ठ आकार आणि फॉन्ट उपलब्धतेच्या आधारावर ते पृष्ठावर कोठे येतात हे प्रस्तुत इंजिन ठरवते. PDF मधून DOCX मध्ये रूपांतरित करणे म्हणजे निश्चित लेआउटला शब्द पुन्हा प्रवाहित करू शकणाऱ्या सिमेंटिक स्ट्रक्चरमध्ये उलट-अभियांत्रिकी करणे.
हे रूपांतरण स्वाभाविकच तोट्याचे आहे. PDF सामान्यत: शीर्षक पातळी, परिच्छेद सीमा, सूची रचना किंवा सारणी शब्दार्थ जतन करत नाही; कनव्हर्टरला फॉन्ट आकार, पोझिशन्स आणि बुलेट वर्णांवरून हे अनुमान काढावे लागते. साध्या मजकूर-आधारित PDF स्वच्छपणे रूपांतरित करतात. मल्टी-कॉलम लेआउट्स, एम्बेड केलेल्या प्रतिमा, तळटीप किंवा असामान्य टायपोग्राफीसह जटिल पीडीएफला सामान्यत: रूपांतरणानंतर मॅन्युअल क्लीनअपची आवश्यकता असते.
हे टूल पार्सिंगसाठी PDF.js वापरून तुमच्या ब्राउझरमध्ये रूपांतरण चालवते आणि एक कस्टम लेआउट-टू-DOCX लेखक जे मानक Office Open XML आउटपुट तयार करते. परिणाम Microsoft Word, LibreOffice Writer, Google Docs आणि इतर कोणत्याही DOCX- सुसंगत संपादकामध्ये उघडतो. अपलोड होत नाही; फाइल तुमच्या डिव्हाइसवर राहते.
संपादनक्षमता हे संपूर्ण कारण आहे. PDF संपादनासाठी प्रतिकूल आहे — तुम्ही फॉर्म फील्ड भरू शकता आणि भाष्य करू शकता, परंतु तुम्ही मजकूर रीफ्लो करू शकत नाही, परिच्छेद शैली बदलू शकत नाही किंवा विशेष PDF संपादकांशिवाय सामग्रीची पुनर्रचना करू शकत नाही ज्यासाठी पैसे खर्च होतात आणि विसंगत परिणाम देतात. DOCX संपादनासाठी तयार केले आहे. पीडीएफला DOCX मध्ये रूपांतरित केल्याने सामग्री पुनरावृत्ती, भाषांतर, पुनर्प्रयोजन किंवा रीडिझाइनसाठी सुलभ होते.
दुसरे कारण म्हणजे सहयोग. वर्ड आणि Google डॉक्स ही कार्यालये, शाळा आणि बहुतेक संस्थांमध्ये दस्तऐवज सहयोगाची भाषा आहे. टिप्पणी थ्रेड, ट्रॅक बदल आणि सामायिक संपादन सर्व DOCX किंवा त्याच्या क्लाउड समतुल्य गृहीत धरतात. पुनरावलोकनासाठी पाठवलेल्या पीडीएफमध्ये अडथळे येतात; DOCX मानक सहयोग साधनांमधून वाहते.
पीडीएफ ड्रॉप करा, जनरेट करा, डाउनलोड करा. नंतर Word मध्ये काही क्लीनअप करण्याची अपेक्षा करा.
PDF.js प्रत्येक PDF पृष्ठाला मजकूर आणि ग्राफिक्स ऑपरेशन्सच्या प्रवाहात पार्स करते. मजकूर-एक्सट्रॅक्शन API मजकूर आयटम त्यांच्या बाउंडिंग बॉक्स, फॉन्ट माहिती आणि युनिकोड-डीकोड केलेल्या स्ट्रिंगसह परत करते. या आयटम्समधून कनवर्टर वरपासून खालपर्यंत आणि डावीकडून उजवीकडे वर्गीकरण करून वाचन क्रमाची पुनर्रचना करतो, समान आधाररेषा असलेल्या आयटमला रेषांमध्ये आणि रेषा परिच्छेदांमध्ये गटबद्ध करतो.
DOCX XML फायली (document.xml, styles.xml, तसेच सामग्री प्रकार आणि संबंध मॅनिफेस्ट) असलेले झिप संग्रहण आहे. कनवर्टर परिच्छेद (w:p) आणि रन (w:r) घटकांची मालिका वापरून document.xml सामग्री तयार करतो, हेडिंगसाठी शैली संदर्भ लागू करतो (हेडिंग 1, हेडिंग 2) जेथे फॉन्ट आकार हेडिंग सुचवतो आणि JSZip वापरून मेमरीमध्ये झिप एकत्र करतो.
मर्यादा: स्तंभ मांडणी नेहमी योग्यरित्या पुनर्रचना केली जात नाही. जोपर्यंत मांडणी टॅब्युलर रचना जोरदारपणे सुचवत नाही तोपर्यंत PDF मधील सारण्या परिच्छेद म्हणून पुनर्प्राप्त केल्या जातात. शीर्षलेख, तळटीप आणि तळटीप सामान्यत: संबंधित DOCX झोनमध्ये नसून शरीरात इनलाइन असतात. PDF मध्ये एम्बेड केलेल्या प्रतिमा सध्या DOCX आउटपुटमध्ये जतन केलेल्या नाहीत.