PDF ל ממיר אקסל (XLSX).
חלץ טבלאות וטקסט מ-PDF והמר אותם לגיליונות אלקטרוניים של Excel XLSX בצורה מאובטחת בדפדפן שלך.
שחרר כאן קובץ PDF
או לחץ כדי לבחור קובץ
חלץ טבלאות וטקסט מ-PDF והמר אותם לגיליונות אלקטרוניים של Excel XLSX בצורה מאובטחת בדפדפן שלך.
או לחץ כדי לבחור קובץ
שליפת נתונים טבלאיים מתוך קובץ PDF ואל גיליון אלקטרוני היא אחת מתזרימי העבודה הנפוצים ביותר של מסמכים במשרדים המטפלים בחשבוניות, דוחות כספיים, מאמרים מדעיים ונתונים ממשלתיים. פורמט ה-PDF אינו מבין טבלאות באופן מקורי - הוא רק מתאר מיקומי גליפים בדף - כך שהמרה ל-Excel דורשת הסקת מבנה טבלה מהגיאומטריה של הטקסט. היכן מסתיים תא אחד והאחר מתחיל יש לנחש מתוך רווח לבן אופקי; היכן שורה אחת מסתיימת והשנייה מתחילה, מרווח לבן אנכי.
כלי זה מנתח את ה-PDF באמצעות PDF.js, מחלץ פריטי טקסט עם התיבות התוחמות שלהם, ומקבץ את הפריטים לשורות ועמודות על סמך מיקום. הטבלה שזוהתה נכתבת לחוברת עבודה של Excel באמצעות ספריית SheetJS xlsx. הפלט הוא קובץ .xlsx סטנדרטי שנפתח ב-Excel, Google Sheets, Numbers או כל יישום גיליון אלקטרוני אחר.
חילוץ טבלת PDF הוא באמת קשה, ואין חולץ שמפיק תוצאות מושלמות בכל PDF. טבלאות עם גבולות עמודות עקביים, ללא תאים ממוזגים ויישור אנכי ברור ממירות בצורה נקייה. טבלאות עם תאים ממוזגים, כניסות מרובות שורות, הערות שוליים או פריסות חריגות זקוקות בדרך כלל לניקוי ידני לאחר חילוץ. תכנן לסקירה.
הסיבה היא כמעט תמיד ניתוח. נתונים הכלואים ב-PDF לא ניתנים למיין, סינון, סיכום, תרשים או ציר. ברגע שהוא נמצא ב-Excel, כל פעולה רגילה של גיליון אלקטרוני הופכת לזמינה - וזה פותח את ההבדל בין בהייה בדוח סטטי לבין עבודה בפועל עם המספרים שבו.
עבודה בכמות גדולה של נתונים היא בלתי אפשרית ב-PDF. צבירת נתונים רבעוניים על פני דוחות PDF מרובים, השוואת פריטי שורה בין ספקים, או משיכת עמודות ספציפיות לניתוח במורד הזרם, כל אלה דורשים להעביר את הנתונים לפורמט התומך בפעולות אלו. Excel ו-CSV הם הפורמטים האלה. המרה היא הגשר.
שחרר PDF המכיל נתונים טבלאיים, קבל חוברת עבודה עם כל טבלה בגיליון משלה.
PDF.js חושף ממשק API של getTextContent שמחזיר פריטי טקסט עם התיבות התוחמות שלהם. לכל פריט יש מחרוזת, מטריצת טרנספורמציה (למיקום וסיבוב) ורוחב/גובה. הממיר ממיין פריטים לפי קואורדינטת Y כדי לזהות קווים, ולאחר מכן בתוך כל שורה לפי קואורדינטת X. פריטים במיקומי Y דומים מאוד יוצרים שורה.
זיהוי עמודות משתמש בניתוח פערים: מרחק ה-X בין פריטים עוקבים בשורה מציין אם הם שייכים לאותו תא או לתאים סמוכים. פער גדול מסף (בדרך כלל 1-2 רוחב תווים) מסמן גבול עמודה. כוונון סף מחליף בין מיזוג עמודות סמוכות לפיצול עמודות בודדות.
פלט Excel משתמש ב-SheetJS כדי לבנות חוברת עבודה בזיכרון, כאשר כל טבלה שזוהתה בגיליון משלה נקראת Sheet1, Sheet2 וכו'. חוברת העבודה מסודרת לפורמט .xlsx (Office Open XML) ומוצעת כהורדה. התוצאה נפתחת ב-Excel 2007+, Google Sheets, LibreOffice Calc ו-Apple Numbers.