مبدل رایگان

PDF به مبدل اکسل (XLSX).

جداول و متن را از PDF استخراج کرده و به صورت ایمن در مرورگر خود به صفحات گسترده اکسل XLSX تبدیل کنید.

فایل PDF را اینجا رها کنید

یا برای انتخاب فایل کلیک کنید

یا

درباره این ابزار

بیرون کشیدن داده های جدولی از PDF و به صفحه گسترده یکی از رایج ترین گردش کار اسناد در دفاتری است که صورتحساب ها، گزارش های مالی، مقالات علمی و داده های دولتی را مدیریت می کنند. فرمت PDF به طور بومی جداول را درک نمی کند - فقط موقعیت حروف در یک صفحه را توصیف می کند - بنابراین تبدیل به اکسل مستلزم استنباط ساختار جدول از هندسه متن است. جایی که یک سلول به پایان می رسد و سلول بعدی شروع می شود باید از فضای سفید افقی حدس زد. جایی که یک ردیف به پایان می رسد و ردیف بعدی از فضای سفید عمودی شروع می شود.

این ابزار PDF را با استفاده از PDF.js تجزیه می‌کند، آیتم‌های متنی را با جعبه‌های محدود آن‌ها استخراج می‌کند و موارد را بر اساس موقعیت به ردیف‌ها و ستون‌ها خوشه‌بندی می‌کند. جدول شناسایی شده با استفاده از کتابخانه SheetJS xlsx در یک کتاب کار اکسل نوشته می شود. خروجی یک فایل xlsx استاندارد است که در Excel، Google Sheets، Numbers یا هر برنامه صفحه گسترده دیگری باز می شود.

استخراج جدول PDF واقعاً سخت است و هیچ استخراج کننده ای نتایج عالی را در هر PDF ایجاد نمی کند. جداول با مرزهای ستون ثابت، بدون سلول های ادغام شده، و تراز عمودی واضح به طور تمیز تبدیل می شوند. جداول با سلول‌های ادغام شده، ورودی‌های چند خطی، پاورقی‌ها یا طرح‌بندی‌های غیرمعمول معمولاً پس از استخراج نیاز به پاکسازی دستی دارند. برای بررسی برنامه ریزی کنید

چرا PDF را به اکسل تبدیل کنیم؟

دلیل آن تقریباً همیشه تحلیل است. داده های به دام افتاده در یک پی دی اف را نمی توان مرتب کرد، فیلتر کرد، خلاصه کرد، نمودار یا محور کرد. هنگامی که در اکسل قرار می گیرد، هر عملیات صفحه گسترده استاندارد در دسترس می شود - و این تفاوت بین خیره شدن به یک گزارش ثابت و کار با اعداد موجود در آن را باز می کند.

کار با داده های انبوه در PDF غیرممکن است. جمع آوری ارقام سه ماهه در چندین گزارش PDF، مقایسه اقلام خط در بین فروشندگان، یا کشیدن ستون های خاص برای تجزیه و تحلیل پایین دست، همگی مستلزم وارد کردن داده ها به قالبی است که از این عملیات پشتیبانی می کند. اکسل و CSV آن فرمت ها هستند. تبدیل پل است.

نحوه استفاده

یک PDF حاوی داده های جدولی را رها کنید، یک کتاب کار با هر جدول در برگه خود دریافت کنید.

  1. PDF خود را آپلود کنید: فایل را به قسمت آپلود بکشید یا برای مرور کلیک کنید. فایل های تا 50 مگابایت پشتیبانی می شوند. PDF باید حاوی متن واقعی باشد. PDF های اسکن شده ابتدا به OCR نیاز دارند.
  2. منتظر تشخیص جدول باشید: PDF.js موارد متنی و موقعیت آنها را استخراج می کند. مبدل با تجزیه و تحلیل تراز افقی و عمودی آیتم ها را به ردیف ها و ستون ها خوشه بندی می کند. تشخیص برای اسناد کوتاه چند ثانیه و برای جداول چند صفحه ای بیشتر طول می کشد.
  3. بررسی جداول شناسایی شده: جداول شناسایی شده قبل از دانلود پیش نمایش داده می شوند. تأیید کنید که ستون‌ها و ردیف‌ها با آنچه انتظار دارید مطابقت داشته باشند. ناهماهنگی‌ها در اینجا بعداً به پاکسازی اکسل تبدیل می‌شوند.
  4. دانلود به عنوان XLSX: مبدل هر جدول شناسایی شده را با استفاده از SheetJS در یک برگه جداگانه در یک کتاب کار xlsx. می نویسد. نتیجه را در Excel یا Google Sheets باز کنید و مشکلات باقیمانده را پاک کنید.

موارد استفاده رایج

جزئیات فنی

PDF.js یک getTextContent API را نشان می‌دهد که آیتم‌های متنی را با کادرهای محدودشان برمی‌گرداند. هر آیتم دارای یک رشته، یک ماتریس تبدیل (برای موقعیت و چرخش) و عرض/ارتفاع است. مبدل اقلام را بر اساس مختصات Y برای شناسایی خطوط و سپس در هر خط با مختصات X مرتب می کند. موارد در موقعیت های Y بسیار مشابه یک ردیف را تشکیل می دهند.

تشخیص ستون از تجزیه و تحلیل شکاف استفاده می کند: فاصله X بین آیتم های متوالی در یک ردیف نشان می دهد که آیا آنها به یک سلول یا سلول های مجاور تعلق دارند. یک شکاف بزرگتر از یک آستانه (معمولا عرض 1 تا 2 کاراکتر) یک مرز ستون را علامت می‌دهد. تنظیم آستانه بین ادغام ستون های مجاور و تقسیم ستون های منفرد معامله می شود.

خروجی اکسل از SheetJS برای ساختن یک کتاب کار در حافظه استفاده می‌کند، که هر جدول شناسایی شده در برگه خود به نام‌های Sheet1، Sheet2 و غیره روی برگه‌های خود قرار دارد. کتاب کار به فرمت xlsx. (Office Open XML) سریال‌سازی شده و به عنوان دانلود ارائه می‌شود. نتیجه در Excel 2007+، Google Sheets، LibreOffice Calc و Apple Numbers باز می شود.

بهترین شیوه ها

سوالات متداول

آیا تبدیل PDF به EXCEL محتوا را تغییر می دهد؟
محتوا تا حد امکان دقیق حفظ می شود. با این حال، برخی از ویژگی های خاص قالب ممکن است معادل مستقیم نداشته باشند، بنابراین تفاوت های قالب بندی جزئی ممکن است رخ دهد.
فرمت EXCEL برای چه مواردی استفاده می شود؟
XLSX (صفحه گسترده مایکروسافت اکسل) در درجه اول برای صفحات گسترده با فرمول ها، نمودارها و تجزیه و تحلیل داده ها استفاده می شود.
آیا محدودیتی وجود دارد که باید از آن آگاه بود؟
فایل های تا 50 مگابایت پشتیبانی می شوند. پردازش فایل های بسیار بزرگ یا پیچیده ممکن است بیشتر طول بکشد. تمام تبدیل ها در مرورگر شما انجام می شود، بنابراین سرعت پردازش به دستگاه شما بستگی دارد.
آیا داده های سند من امن است؟
بله. پردازش اسناد به طور کامل در مرورگر شما اجرا می شود. فایل های شما و محتویات آنها هرگز در هیچ سروری آپلود نمی شوند. این امر تبدیل اسناد حساس یا محرمانه را ایمن می کند.
چه فرمت خروجی تولید می شود؟
xlsx. (Office Open XML)، فرمت اکسل مدرن. فایل در Excel 2007+، Google Sheets، LibreOffice Calc، Apple Numbers و هر صفحه گسترده مدرن دیگری باز می شود.
آیا پی دی اف من روی سرور آپلود می شود؟
نه. تجزیه و تولید اکسل در مرورگر شما با استفاده از PDF.js و SheetJS انجام می شود.
حداکثر اندازه فایل چقدر است؟
50 مگابایت زمان تبدیل به پیچیدگی سند بستگی دارد تا اندازه فایل به تنهایی - استخراج یک PDF با گرافیک سنگین 50 مگابایتی ممکن است بیشتر از یک متن سنگین طول بکشد.
چرا اعداد من در ستون های اشتباه هستند؟
تقریباً همیشه به این دلیل که آستانه تشخیص ستون مبدل با طرح بندی واقعی PDF مطابقت نداشت. PDF منبع را باز کنید، به جایی که ستون ها به صورت بصری شکسته می شوند نگاه کنید و سلول ها را در اکسل به صورت دستی جابجا کنید.