PDF ไปที่ ตัวแปลง Excel (XLSX)
แยกตารางและข้อความจาก PDF แล้วแปลงเป็นสเปรดชีต Excel XLSX อย่างปลอดภัยในเบราว์เซอร์ของคุณ
วางไฟล์ PDF ที่นี่
หรือคลิกเพื่อเลือกไฟล์
แยกตารางและข้อความจาก PDF แล้วแปลงเป็นสเปรดชีต Excel XLSX อย่างปลอดภัยในเบราว์เซอร์ของคุณ
หรือคลิกเพื่อเลือกไฟล์
การดึงข้อมูลแบบตารางออกจาก PDF และลงในสเปรดชีตเป็นหนึ่งในเวิร์กโฟลว์เอกสารที่พบบ่อยที่สุดในสำนักงานที่จัดการใบแจ้งหนี้ รายงานทางการเงิน เอกสารทางวิทยาศาสตร์ และข้อมูลของรัฐบาล รูปแบบ PDF ไม่เข้าใจตารางโดยกำเนิด — เพียงอธิบายตำแหน่งสัญลักษณ์บนหน้า — ดังนั้นการแปลงเป็น Excel ต้องใช้โครงสร้างตารางที่อนุมานจากเรขาคณิตของข้อความ เมื่อเซลล์หนึ่งสิ้นสุดและเซลล์ถัดไปเริ่มต้นจะต้องเดาจากช่องว่างแนวนอน โดยที่แถวหนึ่งสิ้นสุดและแถวถัดไปเริ่มต้นจากช่องว่างแนวตั้ง
เครื่องมือนี้แยกวิเคราะห์ PDF โดยใช้ PDF.js แยกรายการข้อความด้วยกล่องขอบ และจัดกลุ่มรายการเป็นแถวและคอลัมน์ตามตำแหน่ง ตารางที่ตรวจพบถูกเขียนลงในสมุดงาน Excel โดยใช้ไลบรารี SheetJS xlsx ผลลัพธ์จะเป็นไฟล์ .xlsx มาตรฐานที่เปิดใน Excel, Google Sheets, Numbers หรือแอปพลิเคชันสเปรดชีตอื่นๆ
การแยกตาราง PDF นั้นยากอย่างแท้จริง และไม่มีโปรแกรมแยกไฟล์ใดที่ให้ผลลัพธ์ที่สมบูรณ์แบบในทุก PDF ตารางที่มีขอบเขตคอลัมน์สม่ำเสมอ ไม่มีเซลล์ที่ผสาน และการจัดตำแหน่งแนวตั้งที่ชัดเจนจะแปลงอย่างหมดจด ตารางที่มีเซลล์ที่ผสาน รายการหลายบรรทัด เชิงอรรถ หรือเค้าโครงที่ผิดปกติ โดยทั่วไปจำเป็นต้องล้างข้อมูลด้วยตนเองหลังจากการแยกข้อมูล วางแผนการทบทวน
เหตุผลก็คือการวิเคราะห์เกือบทุกครั้ง ข้อมูลที่ติดอยู่ใน PDF ไม่สามารถจัดเรียง กรอง สรุป สร้างแผนภูมิ หรือเปลี่ยนจุดได้ เมื่ออยู่ใน Excel แล้ว การดำเนินการสเปรดชีตมาตรฐานทุกรายการจะพร้อมใช้งาน และนั่นทำให้เกิดความแตกต่างระหว่างการดูรายงานแบบคงที่กับการทำงานกับตัวเลขในรายงานจริง
การทำงานข้อมูลจำนวนมากเป็นไปไม่ได้ในรูปแบบ PDF การรวมตัวเลขรายไตรมาสในรายงาน PDF หลายฉบับ การเปรียบเทียบรายการสินค้าระหว่างผู้จำหน่าย หรือการดึงคอลัมน์เฉพาะสำหรับการวิเคราะห์ขั้นปลาย ล้วนจำเป็นต้องได้รับข้อมูลในรูปแบบที่รองรับการดำเนินการเหล่านั้น Excel และ CSV คือรูปแบบเหล่านั้น การแปลงเป็นสะพาน
วาง PDF ที่มีข้อมูลแบบตาราง รับสมุดงานโดยแต่ละตารางอยู่ในแผ่นงานของตัวเอง
PDF.js เปิดเผย getTextContent API ที่ส่งคืนรายการข้อความพร้อมกับกล่องขอบ แต่ละรายการจะมีสตริง เมทริกซ์การแปลง (สำหรับตำแหน่งและการหมุน) และความกว้าง/ความสูง ตัวแปลงจะจัดเรียงรายการตามพิกัด Y เพื่อระบุบรรทัด จากนั้นภายในแต่ละบรรทัดตามพิกัด X รายการที่ตำแหน่ง Y คล้ายกันมากจะเรียงกันเป็นแถว
การตรวจจับคอลัมน์ใช้การวิเคราะห์ช่องว่าง: ระยะ X ระหว่างรายการที่ติดกันในแถวจะระบุว่ารายการเหล่านั้นอยู่ในเซลล์เดียวกันหรือเซลล์ที่อยู่ติดกัน ช่องว่างที่ใหญ่กว่าเกณฑ์ (โดยทั่วไปคือความกว้าง 1–2 อักขระ) จะส่งสัญญาณถึงขอบเขตของคอลัมน์ การปรับเกณฑ์จะสลับระหว่างการรวมคอลัมน์ที่อยู่ติดกันและการแยกคอลัมน์เดี่ยว
เอาต์พุตของ Excel ใช้ SheetJS เพื่อสร้างเวิร์กบุ๊กในหน่วยความจำ โดยแต่ละตารางที่ตรวจพบบนชีตของตัวเองชื่อ Sheet1, Sheet2 ฯลฯ เวิร์กบุ๊กได้รับการซีเรียลไลซ์เป็นรูปแบบ .xlsx (Office Open XML) และนำเสนอเป็นการดาวน์โหลด ผลลัพธ์จะเปิดใน Excel 2007+, Google ชีต, LibreOffice Calc และ Apple Numbers