मुफ्त कनवर्टर

PDF से Excel (XLSX)

पीडीएफ से टेबल और टेक्स्ट निकालें और अपने ब्राउज़र में सुरक्षित रूप से उन्हें एक्सेल एक्सएलएसएक्स स्प्रेडशीट में बदलें।

यहाँ PDF फ़ाइल छोड़ें

या फ़ाइल चुनने के लिए क्लिक करें

या

इस टूल के बारे में

पीडीएफ से सारणीबद्ध डेटा को स्प्रेडशीट में खींचना उन कार्यालयों में सबसे आम दस्तावेज़ वर्कफ़्लो में से एक है जो चालान, वित्तीय रिपोर्ट, वैज्ञानिक कागजात और सरकारी डेटा को संभालते हैं। पीडीएफ प्रारूप मूल रूप से तालिकाओं को नहीं समझता है - यह सिर्फ एक पृष्ठ पर ग्लिफ़ स्थिति का वर्णन करता है - इसलिए एक्सेल में कनवर्ट करने के लिए पाठ की ज्यामिति से तालिका संरचना का अनुमान लगाना आवश्यक है। एक सेल कहां समाप्त होती है और दूसरी कहां शुरू होती है, इसका अनुमान क्षैतिज रिक्त स्थान से लगाया जाना चाहिए; जहां एक पंक्ति समाप्त होती है और दूसरी शुरू होती है, ऊर्ध्वाधर रिक्त स्थान से।

यह टूल PDF.js का उपयोग करके पीडीएफ को पार्स करता है, टेक्स्ट आइटम को उनके बाउंडिंग बॉक्स के साथ निकालता है, और आइटम को स्थिति के आधार पर पंक्तियों और स्तंभों में क्लस्टर करता है। पता लगाई गई तालिका शीटजेएस एक्सएलएसएक्स लाइब्रेरी का उपयोग करके एक्सेल वर्कबुक में लिखी गई है। आउटपुट एक मानक .xlsx फ़ाइल है जो एक्सेल, गूगल शीट्स, नंबर्स या किसी अन्य स्प्रेडशीट एप्लिकेशन में खुलती है।

पीडीएफ टेबल निष्कर्षण वास्तव में कठिन है, और कोई भी एक्सट्रैक्टर प्रत्येक पीडीएफ पर सही परिणाम नहीं देता है। सुसंगत स्तंभ सीमाएँ, कोई मर्ज किए गए सेल नहीं और स्पष्ट ऊर्ध्वाधर संरेखण वाली तालिकाएँ साफ-सुथरी रूप से परिवर्तित होती हैं। मर्ज की गई कोशिकाओं, बहु-पंक्ति प्रविष्टियों, फ़ुटनोट्स या असामान्य लेआउट वाली तालिकाओं को आमतौर पर निष्कर्षण के बाद मैन्युअल सफाई की आवश्यकता होती है। समीक्षा हेतु योजना.

पीडीएफ को एक्सेल में क्यों बदलें?

इसका कारण लगभग हमेशा विश्लेषण होता है। पीडीएफ में फंसे डेटा को सॉर्ट, फ़िल्टर, सारांशित, चार्टेड या पिवोट नहीं किया जा सकता है। एक बार जब यह एक्सेल में होता है, तो हर मानक स्प्रेडशीट ऑपरेशन उपलब्ध हो जाता है - और इससे एक स्थिर रिपोर्ट को देखने और वास्तव में इसमें संख्याओं के साथ काम करने के बीच अंतर खुल जाता है।

पीडीएफ में बल्क डेटा का काम असंभव है। कई पीडीएफ रिपोर्टों में त्रैमासिक आंकड़े एकत्र करना, विक्रेताओं में लाइन आइटम की तुलना करना, या डाउनस्ट्रीम विश्लेषण के लिए विशिष्ट कॉलम खींचने के लिए डेटा को एक प्रारूप में प्राप्त करने की आवश्यकता होती है जो उन परिचालनों का समर्थन करता है। एक्सेल और सीएसवी वे प्रारूप हैं। रूपांतरण ही सेतु है.

कैसे उपयोग करें

सारणीबद्ध डेटा युक्त एक पीडीएफ छोड़ें, प्रत्येक तालिका के साथ उसकी अपनी शीट पर एक कार्यपुस्तिका प्राप्त करें।

  1. अपना पीडीएफ अपलोड करें: फ़ाइल को अपलोड क्षेत्र में खींचें या ब्राउज़ करने के लिए क्लिक करें। 50 एमबी तक की फ़ाइलें समर्थित हैं। पीडीएफ में वास्तविक पाठ होना चाहिए; स्कैन की गई पीडीएफ़ को पहले OCR की आवश्यकता होती है।
  2. तालिका पहचान की प्रतीक्षा करें: PDF.js टेक्स्ट आइटम और उनकी स्थिति निकालता है। कनवर्टर क्षैतिज और ऊर्ध्वाधर संरेखण का विश्लेषण करके आइटम को पंक्तियों और स्तंभों में क्लस्टर करता है। छोटे दस्तावेज़ों के लिए पता लगाने में कुछ सेकंड लगते हैं और बहु-पृष्ठ तालिकाओं के लिए अधिक समय लगता है।
  3. खोजी गई तालिकाओं की समीक्षा करें: डाउनलोड से पहले पता लगाई गई तालिकाओं का पूर्वावलोकन किया जाता है। पुष्टि करें कि स्तंभ और पंक्तियाँ आपकी अपेक्षा से मेल खाती हैं; यहां गलत संरेखण बाद में एक्सेल क्लीनअप बन जाता है।
  4. XLSX के रूप में डाउनलोड करें: कनवर्टर प्रत्येक ज्ञात तालिका को शीटजेएस का उपयोग करके .xlsx कार्यपुस्तिका में एक अलग शीट में लिखता है। परिणाम को Excel या Google शीट में खोलें और किसी भी शेष समस्या को साफ़ करें।

सामान्य उपयोग के मामले

तकनीकी विवरण

PDF.js एक getTextContent API को उजागर करता है जो टेक्स्ट आइटम को उनके बाउंडिंग बॉक्स के साथ लौटाता है। प्रत्येक आइटम में एक स्ट्रिंग, एक ट्रांसफॉर्म मैट्रिक्स (स्थिति और रोटेशन के लिए), और चौड़ाई/ऊंचाई होती है। कनवर्टर लाइनों की पहचान करने के लिए Y-समन्वय के आधार पर वस्तुओं को क्रमबद्ध करता है, फिर प्रत्येक पंक्ति के भीतर X-निर्देशांक के अनुसार क्रमबद्ध करता है। बहुत समान Y स्थिति वाले आइटम एक पंक्ति बनाते हैं।

कॉलम डिटेक्शन गैप विश्लेषण का उपयोग करता है: एक पंक्ति में लगातार आइटमों के बीच एक्स-दूरी इंगित करती है कि वे एक ही सेल या आसन्न सेल से संबंधित हैं या नहीं। एक सीमा से बड़ा अंतर (आमतौर पर 1-2 वर्ण चौड़ाई) एक स्तंभ सीमा का संकेत देता है। थ्रेसहोल्ड ट्यूनिंग आसन्न स्तंभों को मर्ज करने और एकल स्तंभों को विभाजित करने के बीच व्यापार करती है।

एक्सेल आउटपुट मेमोरी में एक कार्यपुस्तिका बनाने के लिए शीटजेएस का उपयोग करता है, जिसमें प्रत्येक ज्ञात तालिका की अपनी शीट पर शीट1, शीट2 आदि नाम होते हैं। कार्यपुस्तिका को .xlsx (ऑफिस ओपन एक्सएमएल) प्रारूप में क्रमबद्ध किया जाता है और डाउनलोड के रूप में पेश किया जाता है। परिणाम एक्सेल 2007+, गूगल शीट्स, लिबरऑफिस कैल्क और एप्पल नंबर्स में खुलता है।

सर्वोत्तम प्रथाएँ

अक्सर पूछे जाने वाले प्रश्न

क्या PDF को EXCEL में बदलने से सामग्री बदल जाती है?
सामग्री को यथासंभव सटीकता से संरक्षित किया गया है। हालाँकि, कुछ प्रारूप-विशिष्ट सुविधाओं में प्रत्यक्ष समकक्ष नहीं हो सकते हैं, इसलिए मामूली स्वरूपण अंतर हो सकते हैं।
एक्सेल प्रारूप का उपयोग किसके लिए किया जाता है?
एक्सएलएसएक्स (माइक्रोसॉफ्ट एक्सेल स्प्रेडशीट) का उपयोग मुख्य रूप से सूत्रों, चार्ट और डेटा विश्लेषण वाले स्प्रेडशीट के लिए किया जाता है।
क्या जागरूक होने के लिए कोई सीमाएँ हैं?
50एमबी तक की फ़ाइलें समर्थित हैं। बहुत बड़ी या जटिल फ़ाइलों को संसाधित होने में अधिक समय लग सकता है। सभी रूपांतरण आपके ब्राउज़र में होते हैं, इसलिए प्रसंस्करण गति आपके डिवाइस पर निर्भर करती है।
क्या मेरा दस्तावेज़ डेटा सुरक्षित है?
हाँ। दस्तावेज़ प्रसंस्करण पूरी तरह से आपके ब्राउज़र में चलता है। आपकी फ़ाइलें और उनकी सामग्री कभी भी किसी सर्वर पर अपलोड नहीं की जाती हैं। इससे संवेदनशील या गोपनीय दस्तावेज़ों को परिवर्तित करना सुरक्षित हो जाता है।
कौन सा आउटपुट स्वरूप तैयार किया जाता है?
.xlsx (ऑफिस ओपन XML), आधुनिक एक्सेल प्रारूप। फ़ाइल Excel 2007+, Google शीट्स, लिबरऑफिस कैल्क, Apple नंबर्स और किसी भी अन्य आधुनिक स्प्रेडशीट में खुलती है।
क्या मेरा पीडीएफ सर्वर पर अपलोड किया गया है?
नहीं, पार्सिंग और एक्सेल जनरेशन आपके ब्राउज़र में PDF.js और शीटJS का उपयोग करके होता है।
अधिकतम फ़ाइल आकार क्या है?
50 एमबी. रूपांतरण का समय केवल फ़ाइल आकार के बजाय दस्तावेज़ की जटिलता पर निर्भर करता है - एक ग्राफिक्स-भारी 50 एमबी पीडीएफ को टेक्स्ट-भारी की तुलना में निकालने में अधिक समय लग सकता है।
मेरे नंबर ग़लत कॉलम में क्यों हैं?
लगभग हमेशा क्योंकि कनवर्टर का कॉलम डिटेक्शन थ्रेशोल्ड पीडीएफ के वास्तविक लेआउट से मेल नहीं खाता है। स्रोत पीडीएफ खोलें, देखें कि कॉलम कहां टूटते हैं, और आवश्यकतानुसार एक्सेल में सेल को मैन्युअल रूप से स्थानांतरित करें।