ממיר חינם

PDF ל ממיר אקסל (XLSX).

חלץ טבלאות וטקסט מ-PDF והמר אותם לגיליונות אלקטרוניים של Excel XLSX בצורה מאובטחת בדפדפן שלך.

שחרר כאן קובץ PDF

או לחץ כדי לבחור קובץ

אוֹ

אודות כלי זה

שליפת נתונים טבלאיים מתוך קובץ PDF ואל גיליון אלקטרוני היא אחת מתזרימי העבודה הנפוצים ביותר של מסמכים במשרדים המטפלים בחשבוניות, דוחות כספיים, מאמרים מדעיים ונתונים ממשלתיים. פורמט ה-PDF אינו מבין טבלאות באופן מקורי - הוא רק מתאר מיקומי גליפים בדף - כך שהמרה ל-Excel דורשת הסקת מבנה טבלה מהגיאומטריה של הטקסט. היכן מסתיים תא אחד והאחר מתחיל יש לנחש מתוך רווח לבן אופקי; היכן שורה אחת מסתיימת והשנייה מתחילה, מרווח לבן אנכי.

כלי זה מנתח את ה-PDF באמצעות PDF.js, מחלץ פריטי טקסט עם התיבות התוחמות שלהם, ומקבץ את הפריטים לשורות ועמודות על סמך מיקום. הטבלה שזוהתה נכתבת לחוברת עבודה של Excel באמצעות ספריית SheetJS xlsx. הפלט הוא קובץ ‎.xlsx סטנדרטי שנפתח ב-Excel, Google Sheets, Numbers או כל יישום גיליון אלקטרוני אחר.

חילוץ טבלת PDF הוא באמת קשה, ואין חולץ שמפיק תוצאות מושלמות בכל PDF. טבלאות עם גבולות עמודות עקביים, ללא תאים ממוזגים ויישור אנכי ברור ממירות בצורה נקייה. טבלאות עם תאים ממוזגים, כניסות מרובות שורות, הערות שוליים או פריסות חריגות זקוקות בדרך כלל לניקוי ידני לאחר חילוץ. תכנן לסקירה.

למה להמיר PDF לאקסל?

הסיבה היא כמעט תמיד ניתוח. נתונים הכלואים ב-PDF לא ניתנים למיין, סינון, סיכום, תרשים או ציר. ברגע שהוא נמצא ב-Excel, כל פעולה רגילה של גיליון אלקטרוני הופכת לזמינה - וזה פותח את ההבדל בין בהייה בדוח סטטי לבין עבודה בפועל עם המספרים שבו.

עבודה בכמות גדולה של נתונים היא בלתי אפשרית ב-PDF. צבירת נתונים רבעוניים על פני דוחות PDF מרובים, השוואת פריטי שורה בין ספקים, או משיכת עמודות ספציפיות לניתוח במורד הזרם, כל אלה דורשים להעביר את הנתונים לפורמט התומך בפעולות אלו. Excel ו-CSV הם הפורמטים האלה. המרה היא הגשר.

כיצד להשתמש

שחרר PDF המכיל נתונים טבלאיים, קבל חוברת עבודה עם כל טבלה בגיליון משלה.

  1. העלה את ה-PDF שלך: גרור את הקובץ לאזור ההעלאה או לחץ כדי לדפדף. קבצים של עד 50 מגה-בייט נתמכים. ה-PDF חייב להכיל טקסט ממשי; קובצי PDF סרוקים צריכים תחילה OCR.
  2. המתן לזיהוי הטבלה: PDF.js מחלץ פריטי טקסט ומיקומם. הממיר מקבץ פריטים לשורות ועמודות על ידי ניתוח יישור אופקי ואנכי. זיהוי לוקח שניות עבור מסמכים קצרים וארוך יותר עבור טבלאות מרובות עמודים.
  3. סקור טבלאות שזוהו: טבלאות שזוהו מוצגות בתצוגה מקדימה לפני ההורדה. אשר שהעמודות והשורות תואמות למה שאתה מצפה; אי יישור כאן הופכים לניקוי Excel מאוחר יותר.
  4. הורד בתור XLSX: הממיר כותב כל טבלה שזוהתה לגיליון נפרד בחוברת עבודה .xlsx באמצעות SheetJS. פתח את התוצאה ב-Excel או ב-Google Sheets ונקה את כל הבעיות שנותרו.

מקרי שימוש נפוצים

פרטים טכניים

PDF.js חושף ממשק API של getTextContent שמחזיר פריטי טקסט עם התיבות התוחמות שלהם. לכל פריט יש מחרוזת, מטריצת טרנספורמציה (למיקום וסיבוב) ורוחב/גובה. הממיר ממיין פריטים לפי קואורדינטת Y כדי לזהות קווים, ולאחר מכן בתוך כל שורה לפי קואורדינטת X. פריטים במיקומי Y דומים מאוד יוצרים שורה.

זיהוי עמודות משתמש בניתוח פערים: מרחק ה-X בין פריטים עוקבים בשורה מציין אם הם שייכים לאותו תא או לתאים סמוכים. פער גדול מסף (בדרך כלל 1-2 רוחב תווים) מסמן גבול עמודה. כוונון סף מחליף בין מיזוג עמודות סמוכות לפיצול עמודות בודדות.

פלט Excel משתמש ב-SheetJS כדי לבנות חוברת עבודה בזיכרון, כאשר כל טבלה שזוהתה בגיליון משלה נקראת Sheet1, Sheet2 וכו'. חוברת העבודה מסודרת לפורמט .xlsx (Office Open XML) ומוצעת כהורדה. התוצאה נפתחת ב-Excel 2007+, Google Sheets, LibreOffice Calc ו-Apple Numbers.

שיטות עבודה מומלצות

שאלות נפוצות

האם המרת PDF ל-EXCEL משנה את התוכן?
התוכן נשמר בצורה מדויקת ככל האפשר. עם זאת, ייתכן שלחלק מהתכונות הספציפיות לפורמט אין מקבילות ישירות, כך שעשויים להתרחש הבדלי עיצוב קלים.
למה משמש פורמט EXCEL?
XLSX (גיליון אלקטרוני של Microsoft Excel) משמש בעיקר עבור גיליונות אלקטרוניים עם נוסחאות, תרשימים וניתוח נתונים.
האם יש מגבלות שכדאי להיות מודע להן?
קבצים עד 50MB נתמכים. עיבוד קבצים גדולים מאוד או מורכבים עשוי להימשך זמן רב יותר. כל ההמרה מתרחשת בדפדפן שלך, כך שמהירות העיבוד תלויה במכשיר שלך.
האם נתוני המסמך שלי מאובטחים?
כן. עיבוד המסמכים פועל כולו בדפדפן שלך. הקבצים שלך והתוכן שלהם לעולם לא מועלים לשום שרת. זה עושה את זה בטוח להמיר מסמכים רגישים או חסויים.
איזה פורמט פלט מופק?
.xlsx (Office Open XML), פורמט Excel המודרני. הקובץ נפתח ב-Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers וכל גיליון אלקטרוני מודרני אחר.
האם ה-PDF שלי מועלה לשרת?
לא. ניתוח ויצירת Excel מתרחשים בדפדפן שלך באמצעות PDF.js ו-SheetJS.
מה גודל הקובץ המקסימלי?
50 מגה-בייט. זמן ההמרה תלוי במורכבות המסמך ולא בגודל הקובץ בלבד - קובץ PDF עתיר גרפיקה של 50 מגה-בייט עשוי להימשך זמן רב יותר לחלץ מאשר קובץ PDF עתיר טקסט.
מדוע המספרים שלי נמצאים בעמודות הלא נכונות?
כמעט תמיד מכיוון שסף זיהוי העמודות של הממיר לא תאם את הפריסה בפועל של ה-PDF. פתח את ה-PDF המקור, ראה היכן עמודות נשברות ויזואלית, והעבר ידנית תאים ב-Excel לפי הצורך.