PDF to एक्सेल (XLSX) कनवर्टर
PDF मधून सारण्या आणि मजकूर काढा आणि त्यांना तुमच्या ब्राउझरमध्ये सुरक्षितपणे Excel XLSX स्प्रेडशीटमध्ये रूपांतरित करा.
PDF फाईल इथे टाका
किंवा फाइल निवडण्यासाठी क्लिक करा
PDF मधून सारण्या आणि मजकूर काढा आणि त्यांना तुमच्या ब्राउझरमध्ये सुरक्षितपणे Excel XLSX स्प्रेडशीटमध्ये रूपांतरित करा.
किंवा फाइल निवडण्यासाठी क्लिक करा
टॅब्युलर डेटा PDF मधून बाहेर काढणे आणि स्प्रेडशीटमध्ये काढणे हे इनव्हॉइस, आर्थिक अहवाल, वैज्ञानिक कागदपत्रे आणि सरकारी डेटा हाताळणाऱ्या कार्यालयांमध्ये सर्वात सामान्य दस्तऐवज कार्यप्रवाहांपैकी एक आहे. पीडीएफ फॉरमॅट नेटिव्हली टेबल्स समजत नाही — ते फक्त पेजवरील ग्लिफ पोझिशन्सचे वर्णन करते — म्हणून एक्सेलमध्ये रुपांतरित करण्यासाठी मजकुराच्या भूमितीवरून टेबल स्ट्रक्चर काढणे आवश्यक आहे. एक सेल कोठे संपतो आणि दुसरा सुरू होतो याचा अंदाज क्षैतिज व्हाईटस्पेसवरून केला पाहिजे; जिथे एक पंक्ती संपते आणि दुसरी सुरू होते, उभ्या व्हाइटस्पेसमधून.
हे टूल PDF.js वापरून पीडीएफचे विश्लेषण करते, मजकूर आयटम त्यांच्या बाउंडिंग बॉक्ससह काढते आणि स्थानाच्या आधारावर आयटमला पंक्ती आणि स्तंभांमध्ये क्लस्टर करते. शोधलेले टेबल शीटजेएस xlsx लायब्ररी वापरून एक्सेल वर्कबुकमध्ये लिहिलेले आहे. आउटपुट ही एक मानक .xlsx फाईल आहे जी Excel, Google Sheets, Numbers किंवा इतर कोणत्याही स्प्रेडशीट ऍप्लिकेशनमध्ये उघडते.
पीडीएफ सारणी काढणे खरोखर कठीण आहे आणि कोणताही एक्स्ट्रॅक्टर प्रत्येक पीडीएफवर परिपूर्ण परिणाम देत नाही. सुसंगत स्तंभ सीमा, कोणतेही विलीन केलेले सेल आणि स्पष्ट अनुलंब संरेखन असलेली सारण्या स्वच्छपणे रूपांतरित होतात. विलीन केलेले सेल, मल्टी-लाइन एंट्री, तळटीप किंवा असामान्य मांडणी असलेल्या टेबल्सना विशेषत: एक्सट्रॅक्शन नंतर मॅन्युअल क्लीनअपची आवश्यकता असते. पुनरावलोकनासाठी योजना.
कारण जवळजवळ नेहमीच विश्लेषण असते. PDF मध्ये अडकलेला डेटा क्रमवारी, फिल्टर, बेरीज, चार्ट किंवा पिव्होटेड केला जाऊ शकत नाही. एकदा ते एक्सेलमध्ये आले की, प्रत्येक मानक स्प्रेडशीट ऑपरेशन उपलब्ध होते — आणि ते स्थिर अहवालाकडे टक लावून पाहणे आणि त्यातील संख्यांसह प्रत्यक्षात काम करणे यामधील फरक उघडते.
पीडीएफमध्ये मोठ्या प्रमाणात डेटा काम करणे अशक्य आहे. एकाधिक पीडीएफ अहवालांमध्ये त्रैमासिक आकडे एकत्रित करणे, विक्रेत्यांमधील लाइन आयटमची तुलना करणे किंवा डाउनस्ट्रीम विश्लेषणासाठी विशिष्ट स्तंभ खेचणे या सर्वांसाठी त्या ऑपरेशन्सना समर्थन देणाऱ्या फॉरमॅटमध्ये डेटा मिळणे आवश्यक आहे. Excel आणि CSV हे ते स्वरूप आहेत. धर्मांतर हा पूल आहे.
टॅब्युलर डेटा असलेली पीडीएफ ड्रॉप करा, प्रत्येक टेबलसह त्याच्या स्वतःच्या शीटवर एक वर्कबुक मिळवा.
PDF.js एक getTextContent API उघड करते जे मजकूर आयटम त्यांच्या बाउंडिंग बॉक्ससह परत करते. प्रत्येक आयटममध्ये एक स्ट्रिंग, ट्रान्सफॉर्म मॅट्रिक्स (स्थिती आणि रोटेशनसाठी) आणि रुंदी/उंची असते. कनव्हर्टर रेषा ओळखण्यासाठी Y- समन्वयानुसार आयटमची क्रमवारी लावतो, नंतर प्रत्येक ओळीत X- समन्वयाने. अगदी समान Y स्थानावरील आयटम एक पंक्ती तयार करतात.
कॉलम डिटेक्शन गॅप ॲनालिसिसचा वापर करते: एका ओळीतील एकापाठोपाठ आयटममधील X-अंतर ते एकाच सेलचे किंवा समीप सेलचे आहेत की नाही हे सूचित करते. थ्रेशोल्डपेक्षा मोठे अंतर (सामान्यत: 1-2 वर्ण रुंदी) स्तंभ सीमा दर्शवते. थ्रेशोल्ड ट्यूनिंग समीप स्तंभ विलीन करणे आणि एकल स्तंभ विभाजित करणे दरम्यान व्यवहार करते.
एक्सेल आउटपुट मेमरीमध्ये वर्कबुक तयार करण्यासाठी SheetJS चा वापर करते, प्रत्येक डिटेक्ट केलेले टेबल शीट1, शीट2, इ. नावाच्या स्वतःच्या शीटवर असते. वर्कबुक .xlsx (ऑफिस ओपन XML) फॉरमॅटमध्ये अनुक्रमित केले जाते आणि डाउनलोड म्हणून ऑफर केले जाते. निकाल Excel 2007+, Google Sheets, LibreOffice Calc आणि Apple Numbers मध्ये उघडतो.