PDF to ایکسل (XLSX) کنورٹر
پی ڈی ایف سے ٹیبلز اور ٹیکسٹ نکالیں اور انہیں اپنے براؤزر میں محفوظ طریقے سے Excel XLSX سپریڈ شیٹس میں تبدیل کریں۔
پی ڈی ایف فائل یہاں ڈراپ کریں۔
یا فائل کو منتخب کرنے کے لیے کلک کریں۔
پی ڈی ایف سے ٹیبلز اور ٹیکسٹ نکالیں اور انہیں اپنے براؤزر میں محفوظ طریقے سے Excel XLSX سپریڈ شیٹس میں تبدیل کریں۔
یا فائل کو منتخب کرنے کے لیے کلک کریں۔
ٹیبلولر ڈیٹا کو پی ڈی ایف سے نکال کر اسپریڈشیٹ میں ڈالنا دفتروں میں سب سے عام دستاویز کے ورک فلو میں سے ایک ہے جو انوائسز، مالیاتی رپورٹس، سائنسی کاغذات اور سرکاری ڈیٹا کو ہینڈل کرتے ہیں۔ پی ڈی ایف فارمیٹ مقامی طور پر جدولوں کو نہیں سمجھتا ہے - یہ صرف ایک صفحہ پر گلیف پوزیشنز کو بیان کرتا ہے - لہذا ایکسل میں تبدیل کرنے کے لیے متن کی جیومیٹری سے ٹیبل کی ساخت کا اندازہ لگانے کی ضرورت ہوتی ہے۔ جہاں ایک سیل ختم ہوتا ہے اور اگلا شروع ہوتا ہے اس کا اندازہ افقی وائٹ اسپیس سے لگانا ضروری ہے۔ جہاں ایک قطار ختم ہوتی ہے اور اگلی شروع ہوتی ہے، عمودی وائٹ اسپیس سے۔
یہ ٹول PDF.js کا استعمال کرتے ہوئے پی ڈی ایف کو پارس کرتا ہے، ٹیکسٹ آئٹمز کو ان کے باؤنڈنگ بکس کے ساتھ نکالتا ہے، اور پوزیشن کی بنیاد پر آئٹمز کو قطاروں اور کالموں میں کلسٹر کرتا ہے۔ پتہ لگایا گیا ٹیبل SheetJS xlsx لائبریری کا استعمال کرتے ہوئے ایکسل ورک بک میں لکھا گیا ہے۔ آؤٹ پٹ ایک معیاری .xlsx فائل ہے جو Excel، Google Sheets، Numbers، یا کسی دوسری اسپریڈشیٹ ایپلیکیشن میں کھلتی ہے۔
پی ڈی ایف ٹیبل نکالنا واقعی مشکل ہے، اور کوئی بھی ایکسٹریکٹر ہر پی ڈی ایف پر بہترین نتائج نہیں دیتا ہے۔ مستقل کالم کی حدود کے ساتھ میزیں، کوئی ضم شدہ سیل نہیں، اور واضح عمودی سیدھ صاف طور پر تبدیل ہوتی ہے۔ ضم شدہ سیلز، ملٹی لائن اندراجات، فوٹ نوٹ، یا غیر معمولی لے آؤٹ والی میزوں کو عام طور پر نکالنے کے بعد دستی صفائی کی ضرورت ہوتی ہے۔ جائزہ لینے کا منصوبہ بنائیں۔
وجہ تقریبا ہمیشہ تجزیہ ہے. پی ڈی ایف میں پھنسے ہوئے ڈیٹا کو ترتیب، فلٹر، خلاصہ، چارٹ یا محور نہیں کیا جا سکتا۔ ایک بار جب یہ ایکسل میں آجائے تو، ہر معیاری اسپریڈشیٹ آپریشن دستیاب ہو جاتا ہے — اور اس سے جامد رپورٹ کو دیکھنے اور اس میں موجود نمبروں کے ساتھ کام کرنے کے درمیان فرق کھل جاتا ہے۔
پی ڈی ایف میں بلک ڈیٹا کا کام ناممکن ہے۔ متعدد پی ڈی ایف رپورٹس میں سہ ماہی اعداد و شمار کو جمع کرنا، دکانداروں کے درمیان لائن آئٹمز کا موازنہ کرنا، یا بہاو تجزیہ کے لیے مخصوص کالموں کو کھینچنا ان سب کے لیے ڈیٹا کو ایک ایسے فارمیٹ میں حاصل کرنے کی ضرورت ہوتی ہے جو ان کارروائیوں کو سپورٹ کرتا ہو۔ Excel اور CSV وہ فارمیٹس ہیں۔ تبدیلی پل ہے۔
ٹیبلر ڈیٹا پر مشتمل پی ڈی ایف ڈراپ کریں، ہر ٹیبل کے ساتھ اس کی اپنی شیٹ پر ایک ورک بک حاصل کریں۔
PDF.js ایک getTextContent API کو ظاہر کرتا ہے جو ٹیکسٹ آئٹمز کو ان کے باؤنڈنگ بکس کے ساتھ واپس کرتا ہے۔ ہر آئٹم میں ایک تار، ایک ٹرانسفارم میٹرکس (پوزیشن اور گردش کے لیے)، اور چوڑائی/اونچائی ہوتی ہے۔ کنورٹر لائنوں کی شناخت کے لیے Y-coordinate کے ذریعے آئٹمز کو ترتیب دیتا ہے، پھر X-coordinate کے ذریعے ہر لائن کے اندر۔ بہت ملتی جلتی Y پوزیشنوں پر آئٹمز ایک قطار بناتے ہیں۔
کالم کا پتہ لگانے میں فرق کے تجزیے کا استعمال کیا جاتا ہے: لگاتار آئٹمز کے درمیان X فاصلہ یہ بتاتا ہے کہ آیا ان کا تعلق ایک ہی سیل سے ہے یا ملحقہ خلیوں سے۔ ایک حد سے بڑا خلا (عام طور پر 1–2 حروف کی چوڑائی) کالم کی باؤنڈری کا اشارہ کرتا ہے۔ تھریشولڈ ٹیوننگ ملحقہ کالموں کو ضم کرنے اور سنگل کالموں کو تقسیم کرنے کے درمیان تجارت کرتی ہے۔
ایکسل آؤٹ پٹ شیٹ جے ایس کو میموری میں ورک بک بنانے کے لیے استعمال کرتا ہے، جس میں ہر ایک دریافت شدہ ٹیبل کا نام شیٹ1، شیٹ2، وغیرہ ہوتا ہے۔ نتیجہ Excel 2007+، Google Sheets، LibreOffice Calc، اور Apple Numbers میں کھلتا ہے۔