PDF به مبدل اکسل (XLSX).
جداول و متن را از PDF استخراج کرده و به صورت ایمن در مرورگر خود به صفحات گسترده اکسل XLSX تبدیل کنید.
فایل PDF را اینجا رها کنید
یا برای انتخاب فایل کلیک کنید
جداول و متن را از PDF استخراج کرده و به صورت ایمن در مرورگر خود به صفحات گسترده اکسل XLSX تبدیل کنید.
یا برای انتخاب فایل کلیک کنید
بیرون کشیدن داده های جدولی از PDF و به صفحه گسترده یکی از رایج ترین گردش کار اسناد در دفاتری است که صورتحساب ها، گزارش های مالی، مقالات علمی و داده های دولتی را مدیریت می کنند. فرمت PDF به طور بومی جداول را درک نمی کند - فقط موقعیت حروف در یک صفحه را توصیف می کند - بنابراین تبدیل به اکسل مستلزم استنباط ساختار جدول از هندسه متن است. جایی که یک سلول به پایان می رسد و سلول بعدی شروع می شود باید از فضای سفید افقی حدس زد. جایی که یک ردیف به پایان می رسد و ردیف بعدی از فضای سفید عمودی شروع می شود.
این ابزار PDF را با استفاده از PDF.js تجزیه میکند، آیتمهای متنی را با جعبههای محدود آنها استخراج میکند و موارد را بر اساس موقعیت به ردیفها و ستونها خوشهبندی میکند. جدول شناسایی شده با استفاده از کتابخانه SheetJS xlsx در یک کتاب کار اکسل نوشته می شود. خروجی یک فایل xlsx استاندارد است که در Excel، Google Sheets، Numbers یا هر برنامه صفحه گسترده دیگری باز می شود.
استخراج جدول PDF واقعاً سخت است و هیچ استخراج کننده ای نتایج عالی را در هر PDF ایجاد نمی کند. جداول با مرزهای ستون ثابت، بدون سلول های ادغام شده، و تراز عمودی واضح به طور تمیز تبدیل می شوند. جداول با سلولهای ادغام شده، ورودیهای چند خطی، پاورقیها یا طرحبندیهای غیرمعمول معمولاً پس از استخراج نیاز به پاکسازی دستی دارند. برای بررسی برنامه ریزی کنید
دلیل آن تقریباً همیشه تحلیل است. داده های به دام افتاده در یک پی دی اف را نمی توان مرتب کرد، فیلتر کرد، خلاصه کرد، نمودار یا محور کرد. هنگامی که در اکسل قرار می گیرد، هر عملیات صفحه گسترده استاندارد در دسترس می شود - و این تفاوت بین خیره شدن به یک گزارش ثابت و کار با اعداد موجود در آن را باز می کند.
کار با داده های انبوه در PDF غیرممکن است. جمع آوری ارقام سه ماهه در چندین گزارش PDF، مقایسه اقلام خط در بین فروشندگان، یا کشیدن ستون های خاص برای تجزیه و تحلیل پایین دست، همگی مستلزم وارد کردن داده ها به قالبی است که از این عملیات پشتیبانی می کند. اکسل و CSV آن فرمت ها هستند. تبدیل پل است.
یک PDF حاوی داده های جدولی را رها کنید، یک کتاب کار با هر جدول در برگه خود دریافت کنید.
PDF.js یک getTextContent API را نشان میدهد که آیتمهای متنی را با کادرهای محدودشان برمیگرداند. هر آیتم دارای یک رشته، یک ماتریس تبدیل (برای موقعیت و چرخش) و عرض/ارتفاع است. مبدل اقلام را بر اساس مختصات Y برای شناسایی خطوط و سپس در هر خط با مختصات X مرتب می کند. موارد در موقعیت های Y بسیار مشابه یک ردیف را تشکیل می دهند.
تشخیص ستون از تجزیه و تحلیل شکاف استفاده می کند: فاصله X بین آیتم های متوالی در یک ردیف نشان می دهد که آیا آنها به یک سلول یا سلول های مجاور تعلق دارند. یک شکاف بزرگتر از یک آستانه (معمولا عرض 1 تا 2 کاراکتر) یک مرز ستون را علامت میدهد. تنظیم آستانه بین ادغام ستون های مجاور و تقسیم ستون های منفرد معامله می شود.
خروجی اکسل از SheetJS برای ساختن یک کتاب کار در حافظه استفاده میکند، که هر جدول شناسایی شده در برگه خود به نامهای Sheet1، Sheet2 و غیره روی برگههای خود قرار دارد. کتاب کار به فرمت xlsx. (Office Open XML) سریالسازی شده و به عنوان دانلود ارائه میشود. نتیجه در Excel 2007+، Google Sheets، LibreOffice Calc و Apple Numbers باز می شود.