PDF إلى Excel (XLSX)
استخرج الجداول والنصوص من ملفات PDF وقم بتحويلها إلى جداول بيانات Excel XLSX بأمان في متصفحك مجانًا.
أفلت ملف PDF هنا
أو انقر لاختيار ملف
استخرج الجداول والنصوص من ملفات PDF وقم بتحويلها إلى جداول بيانات Excel XLSX بأمان في متصفحك مجانًا.
أو انقر لاختيار ملف
يعد سحب البيانات الجدولية من ملف PDF إلى جدول بيانات أحد أكثر عمليات سير عمل المستندات شيوعًا في المكاتب التي تتعامل مع الفواتير والتقارير المالية والأوراق العلمية والبيانات الحكومية. لا يفهم تنسيق PDF الجداول أصلاً - فهو يصف فقط مواضع الحروف الرسومية على الصفحة - لذا فإن التحويل إلى Excel يتطلب استنتاج بنية الجدول من هندسة النص. يجب تخمين المكان الذي تنتهي فيه خلية واحدة وتبدأ الخلية التالية من مسافة بيضاء أفقية؛ حيث ينتهي صف واحد ويبدأ الصف التالي، من مسافة بيضاء عمودية.
تقوم هذه الأداة بتوزيع ملف PDF باستخدام PDF.js، واستخراج العناصر النصية مع مربعاتها المحيطة، وتجميع العناصر في صفوف وأعمدة بناءً على موضعها. تتم كتابة الجدول المكتشف في مصنف Excel باستخدام مكتبة SheetJS xlsx. الإخراج هو ملف .xlsx قياسي يتم فتحه في Excel أو Google Sheets أو Numbers أو أي تطبيق آخر لجداول البيانات.
يعد استخراج جدول PDF أمرًا صعبًا حقًا، ولا ينتج أي مستخرج نتائج مثالية لكل ملف PDF. يتم تحويل الجداول التي تحتوي على حدود أعمدة متسقة، ولا تحتوي على خلايا مدمجة، ومحاذاة رأسية واضحة بشكل واضح. تحتاج الجداول التي تحتوي على خلايا مدمجة أو إدخالات متعددة الأسطر أو حواشي سفلية أو تخطيطات غير عادية إلى التنظيف اليدوي بعد الاستخراج. خطة للمراجعة.
والسبب هو دائمًا التحليل. لا يمكن فرز البيانات المحتبسة في ملف PDF، أو تصفيتها، أو جمعها، أو تخطيطها، أو محوريتها. بمجرد إدخالها في برنامج Excel، تصبح كل عملية قياسية في جدول البيانات متاحة - وهذا يفتح الفرق بين التحديق في تقرير ثابت والعمل فعليًا مع الأرقام الموجودة فيه.
العمل على البيانات المجمعة مستحيل في PDF. يتطلب تجميع الأرقام ربع السنوية عبر تقارير PDF متعددة، أو مقارنة العناصر عبر البائعين، أو سحب أعمدة محددة للتحليل النهائي، الحصول على البيانات في تنسيق يدعم تلك العمليات. Excel وCSV هما تلك التنسيقات. التحويل هو الجسر.
قم بإسقاط ملف PDF يحتوي على بيانات جدولية، واحصل على مصنف يحتوي على كل جدول في الورقة الخاصة به.
يعرض PDF.js واجهة برمجة تطبيقات getTextContent التي تقوم بإرجاع العناصر النصية مع المربعات المحيطة بها. يحتوي كل عنصر على سلسلة، ومصفوفة تحويل (للموضع والتدوير)، والعرض/الارتفاع. يقوم المحول بفرز العناصر حسب الإحداثي Y لتحديد الخطوط، ثم داخل كل سطر حسب الإحداثي X. تشكل العناصر الموجودة في مواضع Y المتشابهة جدًا صفًا.
يستخدم اكتشاف العمود تحليل الفجوة: تشير المسافة X بين العناصر المتتالية في الصف إلى ما إذا كانت تنتمي إلى نفس الخلية أو الخلايا المجاورة. تشير الفجوة الأكبر من العتبة (عادةً ما يتراوح عرضها من 1 إلى 2 حرف) إلى حد العمود. يتم ضبط العتبة بين دمج الأعمدة المجاورة وتقسيم الأعمدة الفردية.
يستخدم إخراج Excel SheetJS لإنشاء مصنف في الذاكرة، مع كل جدول تم اكتشافه على الورقة الخاصة به يسمى Sheet1، Sheet2، وما إلى ذلك. يتم إجراء تسلسل للمصنف إلى تنسيق .xlsx (Office Open XML) ويتم تقديمه كتنزيل. يتم فتح النتيجة في Excel 2007+ وGoogle Sheets وLibreOffice Calc وApple Numbers.