PDF'ye Excel (XLSX) Dönüştürücü
PDF'den tabloları ve metinleri çıkarın ve bunları tarayıcınızda güvenli bir şekilde Excel XLSX elektronik tablolarına dönüştürün.
PDF dosyasını buraya bırakın
veya dosyayı seçmek için tıklayın
PDF'den tabloları ve metinleri çıkarın ve bunları tarayıcınızda güvenli bir şekilde Excel XLSX elektronik tablolarına dönüştürün.
veya dosyayı seçmek için tıklayın
Tablosal verileri PDF'den elektronik tabloya çekmek, faturaların, mali raporların, bilimsel makalelerin ve hükümet verilerinin işlendiği ofislerdeki en yaygın belge iş akışlarından biridir. PDF formatı tabloları doğal olarak anlamaz; yalnızca bir sayfadaki glif konumlarını tanımlar; bu nedenle Excel'e dönüştürmek, tablo yapısının metnin geometrisinden çıkarılmasını gerektirir. Bir hücrenin nerede bitip bir sonrakinin nerede başladığı yatay boşluktan tahmin edilmelidir; dikey boşluktan bir satırın bittiği ve sonrakinin başladığı yer.
Bu araç, PDF.js'yi kullanarak PDF'yi ayrıştırır, metin öğelerini sınırlayıcı kutularıyla birlikte çıkarır ve öğeleri konuma göre satırlar ve sütunlar halinde kümeler. Algılanan tablo, SheetJS xlsx kitaplığı kullanılarak bir Excel çalışma kitabına yazılır. Çıktı, Excel, Google E-Tablolar, Numbers veya başka herhangi bir e-tablo uygulamasında açılan standart bir .xlsx dosyasıdır.
PDF tablosunu çıkarmak gerçekten zordur ve hiçbir çıkarıcı her PDF'de mükemmel sonuçlar vermez. Tutarlı sütun sınırlarına sahip, birleştirilmiş hücre içermeyen ve net dikey hizalamaya sahip tablolar temiz bir şekilde dönüştürülür. Birleştirilmiş hücrelere, çok satırlı girişlere, dipnotlara veya olağandışı düzenlere sahip tabloların genellikle çıkarma sonrasında manuel olarak temizlenmesi gerekir. İncelemeyi planlayın.
Bunun nedeni neredeyse her zaman analizdir. PDF'ye sıkıştırılan veriler sıralanamaz, filtrelenemez, özetlenemez, grafik haline getirilemez veya özetlenemez. Excel'e girdikten sonra her standart elektronik tablo işlemi kullanılabilir hale gelir ve bu, statik bir rapora bakmak ile içindeki sayılarla gerçekten çalışmak arasındaki farkı ortaya çıkarır.
PDF'de toplu veri çalışması mümkün değildir. Üç aylık rakamların birden fazla PDF raporunda toplanması, satıcılar arasında satır öğelerinin karşılaştırılması veya aşağı yönlü analiz için belirli sütunların alınması, verilerin bu işlemleri destekleyen bir formata dönüştürülmesini gerektirir. Excel ve CSV bu formatlardır. Dönüşüm köprüdür.
Tablo verileri içeren bir PDF bırakın, her tablonun kendi sayfasında olduğu bir çalışma kitabı alın.
PDF.js, metin öğelerini sınırlayıcı kutularıyla birlikte döndüren bir getTextContent API'sini kullanıma sunar. Her öğenin bir dizesi, bir dönüşüm matrisi (konum ve döndürme için) ve genişliği/yüksekliği vardır. Dönüştürücü, satırları tanımlamak için öğeleri Y koordinatına göre, ardından her satırda X koordinatına göre sıralar. Çok benzer Y konumlarındaki öğeler bir sıra oluşturur.
Sütun tespiti boşluk analizini kullanır: bir satırdaki ardışık öğeler arasındaki X mesafesi, bunların aynı hücreye mi yoksa bitişik hücrelere mi ait olduğunu gösterir. Bir eşikten daha büyük bir boşluk (genellikle 1-2 karakter genişliğinde), bir sütun sınırını işaret eder. Eşik ayarı, bitişik sütunların birleştirilmesi ve tek sütunların bölünmesi arasında geçiş yapar.
Excel çıktısı, algılanan her tablonun Sayfa1, Sayfa2 vb. adlı kendi sayfasında yer aldığı, bellekte bir çalışma kitabı oluşturmak için SheetJS'yi kullanır. Çalışma kitabı .xlsx (Office Açık XML) biçiminde serileştirilir ve indirme olarak sunulur. Sonuç Excel 2007+, Google E-Tablolar, LibreOffice Calc ve Apple Numbers'da açılır.