PDF إلى كلمة (دوكإكس)
استخرج النص من ملف PDF وقم بتحويله إلى تنسيق Word قابل للتحرير بالكامل في متصفحك. سريع وآمن وخاص.
أفلت ملف PDF هنا
يدعم حتى 50 ميغابايت
استخرج النص من ملف PDF وقم بتحويله إلى تنسيق Word قابل للتحرير بالكامل في متصفحك. سريع وآمن وخاص.
يدعم حتى 50 ميغابايت
يصف PDF وDOCX (Microsoft Word) المستندات باستخدام نماذج مختلفة بشكل أساسي. PDF هو تنسيق ذو تخطيط ثابت: كل حرف رسومي له موضع واضح على صفحة ذات حجم ثابت، مما يجعل المستند يبدو متطابقًا في كل مكان يتم عرضه فيه. DOCX هو تنسيق تخطيط انسيابي: يتم وصف الفقرات والجداول والعناوين بشكل دلالي، ويقرر محرك العرض مكان ظهورها في الصفحة بناءً على حجم الصفحة الحالية ومدى توفر الخط. يعني التحويل من PDF إلى DOCX إجراء هندسة عكسية للتخطيط الثابت إلى بنية دلالية يمكن لـ Word إعادة تدفقها.
وهذا التحويل خاسر بطبيعته. لا يحتفظ PDF عمومًا بمستويات العناوين أو حدود الفقرات أو بنية القائمة أو دلالات الجدول؛ يجب على المحول استنتاج ذلك من أحجام الخطوط والمواضع والأحرف النقطية. يتم تحويل ملفات PDF البسيطة المستندة إلى النصوص بشكل نظيف. عادةً ما تحتاج ملفات PDF المعقدة ذات التخطيطات متعددة الأعمدة أو الصور المضمنة أو الحواشي السفلية أو الطباعة غير المعتادة إلى التنظيف اليدوي بعد التحويل.
تقوم هذه الأداة بتشغيل التحويل في متصفحك باستخدام PDF.js للتحليل وكاتب مخصص للتخطيط إلى DOCX ينتج مخرجات Office Open XML القياسية. يتم فتح النتيجة في Microsoft Word وLibreOffice Writer وGoogle Docs وأي محرر آخر متوافق مع DOCX. لا يحدث أي تحميل. يبقى الملف على جهازك.
قابلية التحرير هي السبب بأكمله. يعد PDF عدوًا للتحرير - يمكنك ملء حقول النموذج وإضافة التعليقات التوضيحية، لكن لا يمكنك إعادة تدفق النص أو تغيير أنماط الفقرة أو إعادة هيكلة المحتوى بدون برامج تحرير PDF متخصصة تكلف أموالاً وتؤدي إلى نتائج غير متسقة. تم تصميم DOCX للتحرير. يؤدي تحويل ملف PDF إلى DOCX إلى جعل المحتوى قابلاً للمراجعة أو الترجمة أو إعادة الاستخدام أو إعادة التصميم.
والسبب الآخر هو التعاون. يُعد Word وGoogle Docs اللغة المشتركة للتعاون في المستندات في المكاتب والمدارس ومعظم المؤسسات. سلاسل التعليق، وتتبع التغييرات، والتحرير المشترك كلها تفترض DOCX أو ما يعادلها على السحابة. تصبح ملفات PDF المرسلة للمراجعة بمثابة اختناقات؛ يتدفق DOCX من خلال أدوات التعاون القياسية.
قم بإسقاط ملف PDF وإنشاءه وتنزيله. توقع إجراء بعض عمليات التنظيف في Word بعد ذلك.
يقوم PDF.js بتحليل كل صفحة PDF إلى سلسلة من العمليات النصية والرسومية. تقوم واجهة برمجة تطبيقات استخراج النص بإرجاع العناصر النصية مع المربعات المحيطة بها ومعلومات الخط والسلاسل التي تم فك تشفيرها باستخدام Unicode. من هذه العناصر، يقوم المحول بإعادة بناء ترتيب القراءة عن طريق الفرز من أعلى إلى أسفل ومن اليسار إلى اليمين، وتجميع العناصر ذات الخطوط الأساسية المتشابهة في أسطر وأسطر في فقرات.
DOCX عبارة عن أرشيف مضغوط يحتوي على ملفات XML (document.xml، وstyles.xml، بالإضافة إلى نوع المحتوى وبيانات العلاقات). ينشئ المحول محتوى document.xml باستخدام سلسلة من عناصر الفقرة (w:p) والتشغيل (w:r)، ويطبق مراجع الأنماط للعناوين (العنوان 1، العنوان 2) حيث يشير حجم الخط إلى عنوان، ويجمع الملف المضغوط في الذاكرة باستخدام JSZip.
القيود: لا يتم دائمًا إعادة بناء تخطيطات الأعمدة بشكل صحيح. يتم استرداد الجداول الموجودة في ملف PDF كفقرات ما لم يقترح التخطيط بنية جدولية بقوة. عادةً ما تنتهي الرؤوس والتذييلات والحواشي السفلية بشكل سطري في النص بدلاً من مناطق DOCX المقابلة. لا يتم حاليًا حفظ الصور المضمنة في ملف PDF في مخرجات DOCX.