PDF σε Μετατροπέας Excel (XLSX).
Εξαγωγή πινάκων και κειμένου από PDF και μετατροπή τους σε υπολογιστικά φύλλα Excel XLSX με ασφάλεια στο πρόγραμμα περιήγησής σας.
Αποθέστε το αρχείο PDF εδώ
ή κάντε κλικ για να επιλέξετε αρχείο
Εξαγωγή πινάκων και κειμένου από PDF και μετατροπή τους σε υπολογιστικά φύλλα Excel XLSX με ασφάλεια στο πρόγραμμα περιήγησής σας.
ή κάντε κλικ για να επιλέξετε αρχείο
Η εξαγωγή δεδομένων σε πίνακα από ένα PDF και σε ένα υπολογιστικό φύλλο είναι μία από τις πιο κοινές ροές εργασίας εγγράφων σε γραφεία που χειρίζονται τιμολόγια, οικονομικές εκθέσεις, επιστημονικές εργασίες και κρατικά δεδομένα. Η μορφή PDF δεν κατανοεί εγγενώς τους πίνακες — περιγράφει απλώς θέσεις γλυφών σε μια σελίδα — επομένως η μετατροπή σε Excel απαιτεί συμπέρασμα της δομής του πίνακα από τη γεωμετρία του κειμένου. Το πού τελειώνει το ένα κελί και αρχίζει το επόμενο πρέπει να μαντέψετε από οριζόντιο κενό διάστημα. όπου τελειώνει η μία σειρά και αρχίζει η επόμενη, από κάθετο κενό διάστημα.
Αυτό το εργαλείο αναλύει το PDF χρησιμοποιώντας το PDF.js, εξάγει στοιχεία κειμένου με τα πλαίσια οριοθέτησής τους και ομαδοποιεί τα στοιχεία σε σειρές και στήλες με βάση τη θέση. Ο πίνακας που εντοπίστηκε εγγράφεται σε ένα βιβλίο εργασίας του Excel χρησιμοποιώντας τη βιβλιοθήκη SheetJS xlsx. Η έξοδος είναι ένα τυπικό αρχείο .xlsx που ανοίγει σε Excel, Φύλλα Google, Numbers ή οποιαδήποτε άλλη εφαρμογή υπολογιστικού φύλλου.
Η εξαγωγή πίνακα PDF είναι πραγματικά δύσκολη και κανένας εξαγωγέας δεν παράγει τέλεια αποτελέσματα σε κάθε PDF. Οι πίνακες με σταθερά όρια στηλών, χωρίς συγχωνευμένα κελιά και σαφή κατακόρυφη στοίχιση μετατρέπονται καθαρά. Οι πίνακες με συγχωνευμένα κελιά, καταχωρίσεις πολλών γραμμών, υποσημειώσεις ή ασυνήθιστες διατάξεις συνήθως χρειάζονται μη αυτόματο καθαρισμό μετά την εξαγωγή. Σχέδιο για αναθεώρηση.
Ο λόγος είναι σχεδόν πάντα η ανάλυση. Τα δεδομένα που παγιδεύονται σε ένα PDF δεν μπορούν να ταξινομηθούν, να φιλτραριστούν, να αθροιστούν, να γραφτούν ή να συγκεντρωθούν. Μόλις είναι στο Excel, κάθε τυπική λειτουργία υπολογιστικού φύλλου γίνεται διαθέσιμη — και αυτό ανοίγει τη διαφορά μεταξύ του κοιτάζοντας επίμονα μια στατική αναφορά και της πραγματικής εργασίας με τους αριθμούς σε αυτήν.
Η μαζική εργασία δεδομένων είναι αδύνατη σε PDF. Η συγκέντρωση τριμηνιαίων αριθμών σε πολλές αναφορές PDF, η σύγκριση στοιχείων γραμμής μεταξύ προμηθευτών ή η άντληση συγκεκριμένων στηλών για ανάλυση κατάντη απαιτούν τη μεταφορά των δεδομένων σε μια μορφή που να υποστηρίζει αυτές τις λειτουργίες. Το Excel και το CSV είναι αυτές οι μορφές. Η μετατροπή είναι η γέφυρα.
Ρίξτε ένα PDF που περιέχει δεδομένα πίνακα, λάβετε ένα βιβλίο εργασίας με κάθε πίνακα στο δικό του φύλλο.
Το PDF.js εκθέτει ένα getTextContent API που επιστρέφει στοιχεία κειμένου με τα πλαίσια οριοθέτησής τους. Κάθε στοιχείο έχει μια συμβολοσειρά, έναν πίνακα μετασχηματισμού (για θέση και περιστροφή) και πλάτος/ύψος. Ο μετατροπέας ταξινομεί τα στοιχεία κατά συντεταγμένη Υ για να προσδιορίσει τις γραμμές και, στη συνέχεια, εντός κάθε γραμμής κατά συντεταγμένη Χ. Τα στοιχεία σε πολύ παρόμοιες θέσεις Υ σχηματίζουν μια σειρά.
Η ανίχνευση στηλών χρησιμοποιεί ανάλυση κενού: η απόσταση Χ μεταξύ διαδοχικών στοιχείων σε μια σειρά υποδεικνύει εάν ανήκουν στο ίδιο κελί ή σε γειτονικά κελιά. Ένα κενό μεγαλύτερο από ένα όριο (συνήθως πλάτη 1–2 χαρακτήρων) σηματοδοτεί ένα όριο στήλης. Ο συντονισμός κατωφλίου ανταλλάσσεται μεταξύ της συγχώνευσης γειτονικών στηλών και του διαχωρισμού μεμονωμένων στηλών.
Η έξοδος του Excel χρησιμοποιεί το SheetJS για τη δημιουργία ενός βιβλίου εργασίας στη μνήμη, με κάθε πίνακα που ανιχνεύεται στο δικό του φύλλο που ονομάζεται Sheet1, Sheet2, κ.λπ. Το βιβλίο εργασίας είναι σειριοποιημένο σε μορφή .xlsx (Office Open XML) και προσφέρεται ως λήψη. Το αποτέλεσμα ανοίγει σε Excel 2007+, Φύλλα Google, LibreOffice Calc και Apple Numbers.