PDF থেকে Excel (XLSX)
আপনার ব্রাউজারে বিনামূল্যে নিরাপদে PDF থেকে টেবিল এবং টেক্সট এক্সট্র্যাক্ট করুন এবং এক্সেল XLSX স্প্রেডশীটে রূপান্তর করুন।
এখানে PDF ফাইল ড্রপ করুন
বা ফাইল নির্বাচন করতে ক্লিক করুন
আপনার ব্রাউজারে বিনামূল্যে নিরাপদে PDF থেকে টেবিল এবং টেক্সট এক্সট্র্যাক্ট করুন এবং এক্সেল XLSX স্প্রেডশীটে রূপান্তর করুন।
বা ফাইল নির্বাচন করতে ক্লিক করুন
একটি পিডিএফ থেকে টেবুলার ডেটা বের করে একটি স্প্রেডশীটে তোলা হল অফিসে সবচেয়ে সাধারণ ডকুমেন্ট ওয়ার্কফ্লোগুলির মধ্যে একটি যা চালান, আর্থিক প্রতিবেদন, বৈজ্ঞানিক কাগজপত্র এবং সরকারী ডেটা পরিচালনা করে। পিডিএফ ফরম্যাটটি নেটিভভাবে টেবিল বুঝতে পারে না - এটি শুধুমাত্র একটি পৃষ্ঠায় গ্লিফ পজিশন বর্ণনা করে - তাই এক্সেলে রূপান্তর করার জন্য পাঠ্যের জ্যামিতি থেকে টেবিলের গঠন অনুমান করা প্রয়োজন। যেখানে একটি ঘর শেষ হয় এবং পরেরটি শুরু হয় অনুভূমিক হোয়াইটস্পেস থেকে অনুমান করতে হবে; যেখানে একটি সারি শেষ হয় এবং পরবর্তীটি শুরু হয়, উল্লম্ব হোয়াইটস্পেস থেকে।
এই টুলটি PDF.js ব্যবহার করে PDF পার্স করে, টেক্সট আইটেমগুলিকে তাদের বাউন্ডিং বক্সের সাহায্যে বের করে এবং অবস্থানের উপর ভিত্তি করে আইটেমগুলিকে সারি এবং কলামে ক্লাস্টার করে। সনাক্ত করা টেবিলটি SheetJS xlsx লাইব্রেরি ব্যবহার করে একটি এক্সেল ওয়ার্কবুকে লেখা হয়েছে। আউটপুট হল একটি প্রমিত .xlsx ফাইল যা Excel, Google Sheets, Numbers, বা অন্য কোনো স্প্রেডশীট অ্যাপ্লিকেশনে খোলে।
পিডিএফ টেবিল নিষ্কাশন প্রকৃতপক্ষে কঠিন, এবং কোন নিষ্কাশনকারী প্রতিটি PDF এ নিখুঁত ফলাফল উত্পাদন করে না। সামঞ্জস্যপূর্ণ কলামের সীমানা, কোন একত্রিত কক্ষ এবং স্পষ্ট উল্লম্ব প্রান্তিককরণ সহ সারণিগুলি পরিষ্কারভাবে রূপান্তরিত হয়। মার্জড সেল, মাল্টি-লাইন এন্ট্রি, পাদটীকা বা অস্বাভাবিক লেআউট সহ টেবিলগুলি সাধারণত নিষ্কাশনের পরে ম্যানুয়াল ক্লিনআপের প্রয়োজন হয়। পর্যালোচনার জন্য পরিকল্পনা করুন।
কারণ প্রায় সবসময় বিশ্লেষণ. পিডিএফ-এ আটকে থাকা ডেটা সাজানো, ফিল্টার করা, যোগ করা, চার্ট করা বা পিভট করা যায় না। একবার এটি এক্সেলে, প্রতিটি স্ট্যান্ডার্ড স্প্রেডশীট অপারেশন উপলব্ধ হয়ে যায় - এবং এটি একটি স্ট্যাটিক রিপোর্টের দিকে তাকানো এবং প্রকৃতপক্ষে এটিতে থাকা সংখ্যাগুলির সাথে কাজ করার মধ্যে পার্থক্যটি খুলে দেয়।
পিডিএফে বাল্ক ডেটা কাজ অসম্ভব। একাধিক পিডিএফ রিপোর্ট জুড়ে ত্রৈমাসিক পরিসংখ্যান একত্রিত করা, বিক্রেতাদের জুড়ে লাইন আইটেমগুলির তুলনা করা, বা ডাউনস্ট্রিম বিশ্লেষণের জন্য নির্দিষ্ট কলামগুলি টেনে আনার জন্য এই ক্রিয়াকলাপগুলিকে সমর্থন করে এমন একটি ফর্ম্যাটে ডেটা পাওয়ার প্রয়োজন৷ এক্সেল এবং CSV সেই ফরম্যাট। রূপান্তর সেতু।
ট্যাবুলার ডেটা সহ একটি পিডিএফ ড্রপ করুন, প্রতিটি টেবিলের নিজস্ব শীটে একটি ওয়ার্কবুক পান।
PDF.js একটি getTextContent API প্রকাশ করে যা পাঠ্য আইটেমগুলিকে তাদের বাউন্ডিং বাক্সের সাথে ফেরত দেয়। প্রতিটি আইটেমের একটি স্ট্রিং, একটি রূপান্তর ম্যাট্রিক্স (অবস্থান এবং ঘূর্ণনের জন্য), এবং প্রস্থ/উচ্চতা রয়েছে। কনভার্টার আইটেমগুলিকে Y-কোঅর্ডিনেট অনুসারে সাজায় লাইন শনাক্ত করতে, তারপর প্রতিটি লাইনের মধ্যে X-কোঅর্ডিনেট দ্বারা। খুব অনুরূপ Y অবস্থানে আইটেম একটি সারি গঠন.
কলাম সনাক্তকরণ ফাঁক বিশ্লেষণ ব্যবহার করে: একটি সারিতে থাকা আইটেমগুলির মধ্যে X-দূরত্ব নির্দেশ করে যে তারা একই কক্ষ বা সংলগ্ন কোষের অন্তর্গত কিনা। একটি থ্রেশহোল্ডের চেয়ে বড় একটি ফাঁক (সাধারণত 1-2 অক্ষর প্রস্থ) একটি কলামের সীমানা নির্দেশ করে। থ্রেশহোল্ড টিউনিং সংলগ্ন কলাম একত্রিত করা এবং একক কলাম বিভক্ত করার মধ্যে ট্রেড বন্ধ করে।
এক্সেল আউটপুট মেমরিতে একটি ওয়ার্কবুক তৈরি করতে SheetJS ব্যবহার করে, প্রতিটি শনাক্ত করা টেবিলের সাথে তার নিজস্ব শীটে Sheet1, Sheet2, ইত্যাদি। ওয়ার্কবুকটি .xlsx (অফিস ওপেন XML) ফরম্যাটে সিরিয়াল করা হয় এবং ডাউনলোড হিসাবে দেওয়া হয়। ফলাফলটি Excel 2007+, Google Sheets, LibreOffice Calc, এবং Apple Numbers-এ খোলে।