PDF से Excel (XLSX)
पीडीएफ से टेबल और टेक्स्ट निकालें और अपने ब्राउज़र में सुरक्षित रूप से उन्हें एक्सेल एक्सएलएसएक्स स्प्रेडशीट में बदलें।
यहाँ PDF फ़ाइल छोड़ें
या फ़ाइल चुनने के लिए क्लिक करें
पीडीएफ से टेबल और टेक्स्ट निकालें और अपने ब्राउज़र में सुरक्षित रूप से उन्हें एक्सेल एक्सएलएसएक्स स्प्रेडशीट में बदलें।
या फ़ाइल चुनने के लिए क्लिक करें
पीडीएफ से सारणीबद्ध डेटा को स्प्रेडशीट में खींचना उन कार्यालयों में सबसे आम दस्तावेज़ वर्कफ़्लो में से एक है जो चालान, वित्तीय रिपोर्ट, वैज्ञानिक कागजात और सरकारी डेटा को संभालते हैं। पीडीएफ प्रारूप मूल रूप से तालिकाओं को नहीं समझता है - यह सिर्फ एक पृष्ठ पर ग्लिफ़ स्थिति का वर्णन करता है - इसलिए एक्सेल में कनवर्ट करने के लिए पाठ की ज्यामिति से तालिका संरचना का अनुमान लगाना आवश्यक है। एक सेल कहां समाप्त होती है और दूसरी कहां शुरू होती है, इसका अनुमान क्षैतिज रिक्त स्थान से लगाया जाना चाहिए; जहां एक पंक्ति समाप्त होती है और दूसरी शुरू होती है, ऊर्ध्वाधर रिक्त स्थान से।
यह टूल PDF.js का उपयोग करके पीडीएफ को पार्स करता है, टेक्स्ट आइटम को उनके बाउंडिंग बॉक्स के साथ निकालता है, और आइटम को स्थिति के आधार पर पंक्तियों और स्तंभों में क्लस्टर करता है। पता लगाई गई तालिका शीटजेएस एक्सएलएसएक्स लाइब्रेरी का उपयोग करके एक्सेल वर्कबुक में लिखी गई है। आउटपुट एक मानक .xlsx फ़ाइल है जो एक्सेल, गूगल शीट्स, नंबर्स या किसी अन्य स्प्रेडशीट एप्लिकेशन में खुलती है।
पीडीएफ टेबल निष्कर्षण वास्तव में कठिन है, और कोई भी एक्सट्रैक्टर प्रत्येक पीडीएफ पर सही परिणाम नहीं देता है। सुसंगत स्तंभ सीमाएँ, कोई मर्ज किए गए सेल नहीं और स्पष्ट ऊर्ध्वाधर संरेखण वाली तालिकाएँ साफ-सुथरी रूप से परिवर्तित होती हैं। मर्ज की गई कोशिकाओं, बहु-पंक्ति प्रविष्टियों, फ़ुटनोट्स या असामान्य लेआउट वाली तालिकाओं को आमतौर पर निष्कर्षण के बाद मैन्युअल सफाई की आवश्यकता होती है। समीक्षा हेतु योजना.
इसका कारण लगभग हमेशा विश्लेषण होता है। पीडीएफ में फंसे डेटा को सॉर्ट, फ़िल्टर, सारांशित, चार्टेड या पिवोट नहीं किया जा सकता है। एक बार जब यह एक्सेल में होता है, तो हर मानक स्प्रेडशीट ऑपरेशन उपलब्ध हो जाता है - और इससे एक स्थिर रिपोर्ट को देखने और वास्तव में इसमें संख्याओं के साथ काम करने के बीच अंतर खुल जाता है।
पीडीएफ में बल्क डेटा का काम असंभव है। कई पीडीएफ रिपोर्टों में त्रैमासिक आंकड़े एकत्र करना, विक्रेताओं में लाइन आइटम की तुलना करना, या डाउनस्ट्रीम विश्लेषण के लिए विशिष्ट कॉलम खींचने के लिए डेटा को एक प्रारूप में प्राप्त करने की आवश्यकता होती है जो उन परिचालनों का समर्थन करता है। एक्सेल और सीएसवी वे प्रारूप हैं। रूपांतरण ही सेतु है.
सारणीबद्ध डेटा युक्त एक पीडीएफ छोड़ें, प्रत्येक तालिका के साथ उसकी अपनी शीट पर एक कार्यपुस्तिका प्राप्त करें।
PDF.js एक getTextContent API को उजागर करता है जो टेक्स्ट आइटम को उनके बाउंडिंग बॉक्स के साथ लौटाता है। प्रत्येक आइटम में एक स्ट्रिंग, एक ट्रांसफॉर्म मैट्रिक्स (स्थिति और रोटेशन के लिए), और चौड़ाई/ऊंचाई होती है। कनवर्टर लाइनों की पहचान करने के लिए Y-समन्वय के आधार पर वस्तुओं को क्रमबद्ध करता है, फिर प्रत्येक पंक्ति के भीतर X-निर्देशांक के अनुसार क्रमबद्ध करता है। बहुत समान Y स्थिति वाले आइटम एक पंक्ति बनाते हैं।
कॉलम डिटेक्शन गैप विश्लेषण का उपयोग करता है: एक पंक्ति में लगातार आइटमों के बीच एक्स-दूरी इंगित करती है कि वे एक ही सेल या आसन्न सेल से संबंधित हैं या नहीं। एक सीमा से बड़ा अंतर (आमतौर पर 1-2 वर्ण चौड़ाई) एक स्तंभ सीमा का संकेत देता है। थ्रेसहोल्ड ट्यूनिंग आसन्न स्तंभों को मर्ज करने और एकल स्तंभों को विभाजित करने के बीच व्यापार करती है।
एक्सेल आउटपुट मेमोरी में एक कार्यपुस्तिका बनाने के लिए शीटजेएस का उपयोग करता है, जिसमें प्रत्येक ज्ञात तालिका की अपनी शीट पर शीट1, शीट2 आदि नाम होते हैं। कार्यपुस्तिका को .xlsx (ऑफिस ओपन एक्सएमएल) प्रारूप में क्रमबद्ध किया जाता है और डाउनलोड के रूप में पेश किया जाता है। परिणाम एक्सेल 2007+, गूगल शीट्स, लिबरऑफिस कैल्क और एप्पल नंबर्स में खुलता है।