PDF ל Word (DOCX)
חלץ טקסט מ-PDF והמר אותו לפורמט Word הניתן לעריכה כולו בדפדפן שלך. מהיר, מאובטח ופרטי.
שחרר כאן קובץ PDF
תומך עד 50MB
חלץ טקסט מ-PDF והמר אותו לפורמט Word הניתן לעריכה כולו בדפדפן שלך. מהיר, מאובטח ופרטי.
תומך עד 50MB
PDF ו-DOCX (Microsoft Word) מתארים מסמכים המשתמשים במודלים שונים מהותית. PDF הוא פורמט של פריסה קבועה: לכל גליף יש מיקום מפורש על עמוד בגודל קבוע, מה שגורם למסמך להיראות זהה בכל מקום שבו הוא מוצג. DOCX הוא פורמט של פריסת זרימה: פסקאות, טבלאות וכותרות מתוארות באופן סמנטי, ומנוע העיבוד מחליט היכן הם נופלים בדף על סמך גודל העמוד הנוכחי וזמינות הגופן. המרה מ-PDF ל-DOCX פירושה הנדסה לאחור של הפריסה הקבועה למבנה סמנטי ש-Word יכול לזרום מחדש.
המרה זו היא מטבעה הפסדית. PDF בדרך כלל אינו שומר על רמות כותרות, גבולות פסקה, מבנה רשימה או סמנטיקה של טבלה; הממיר צריך להסיק את אלה מגדלי גופנים, מיקומים ותווי תבליטים. קובצי PDF מבוססי טקסט פשוטים ממירים בצורה נקייה. קובצי PDF מורכבים עם פריסות מרובות עמודות, תמונות מוטבעות, הערות שוליים או טיפוגרפיה יוצאת דופן זקוקים בדרך כלל לניקוי ידני לאחר ההמרה.
כלי זה מפעיל את ההמרה בדפדפן שלך באמצעות PDF.js לניתוח וכותב פריסה מותאם אישית ל-DOCX המייצר פלט סטנדרטי של Office Open XML. התוצאה נפתחת ב-Microsoft Word, LibreOffice Writer, Google Docs וכל עורך אחר תואם DOCX. לא מתרחשת העלאה; הקובץ נשאר במכשיר שלך.
יכולת עריכה היא כל הסיבה. PDF עוין לעריכה - אתה יכול למלא שדות טופס ולהעיר הערות, אבל אתה לא יכול להזרים טקסט, לשנות סגנונות פסקה או לבנות מחדש תוכן ללא עורכי PDF מיוחדים שעולים כסף ומייצרים תוצאות לא עקביות. DOCX בנוי לעריכה. המרת PDF ל-DOCX הופכת את התוכן לאפשרי לעדכון, תרגום, הגדרה מחדש או עיצוב מחדש.
הסיבה הנוספת היא שיתוף פעולה. Word ו-Google Docs הם השפה הצרפתית של שיתוף פעולה במסמכים במשרדים, בתי ספר ורוב הארגונים. שרשורי תגובות, עקוב אחר שינויים ועריכה משותפת כולם מניחים DOCX או מקבילותיו לענן. קובצי PDF שנשלחים לבדיקה הופכים לצווארי בקבוק; DOCX זורם דרך כלי שיתוף פעולה סטנדרטיים.
שחרר את ה-PDF, הפק, הורד. צפו לבצע ניקוי מסוים ב-Word לאחר מכן.
PDF.js מנתח כל עמוד PDF לזרם של פעולות טקסט וגרפיקה. ממשק ה-API לחילוץ טקסט מחזיר פריטי טקסט עם התיבות התוחמות, פרטי הגופנים והמחרוזות המפוענחות ב-Unicode. מפריטים אלה הממיר משחזר סדר קריאה על ידי מיון מלמעלה למטה ומשמאל לימין, קיבוץ פריטים בעלי קווי בסיס דומים לשורות ושורות לפסקאות.
DOCX הוא ארכיון zip המכיל קובצי XML (document.xml, styles.xml, בתוספת סוג תוכן ומניפסטים של קשרי גומלין). הממיר בונה את תוכן document.xml באמצעות סדרה של אלמנטים של פסקה (w:p) ו-run (w:r), מחיל הפניות בסגנון עבור כותרות (כותרת 1, כותרת 2) שבהן גודל הגופן מציע כותרת, ומרכיב את ה-zip בזיכרון באמצעות JSZip.
מגבלות: פריסות עמודות לא תמיד משוחזרות כהלכה. טבלאות ב-PDF משוחזרות כפסקאות אלא אם הפריסה מרמזת מאוד על מבנה טבלאי. כותרות עליונות, תחתונות והערות שוליים בדרך כלל מסתיימות בשורה בגוף ולא באזורי DOCX המקבילים. תמונות המוטמעות ב-PDF אינן נשמרות כעת בפלט DOCX.