PDF do Konwerter Excela (XLSX).
Wyodrębnij tabele i tekst z pliku PDF i bezpiecznie przekonwertuj je na arkusze kalkulacyjne Excel XLSX w przeglądarce.
Upuść tutaj plik PDF
lub kliknij, aby wybrać plik
Wyodrębnij tabele i tekst z pliku PDF i bezpiecznie przekonwertuj je na arkusze kalkulacyjne Excel XLSX w przeglądarce.
lub kliknij, aby wybrać plik
Wyciąganie danych tabelarycznych z pliku PDF do arkusza kalkulacyjnego to jeden z najpopularniejszych procesów obiegu dokumentów w biurach obsługujących faktury, raporty finansowe, artykuły naukowe i dane rządowe. Format PDF natywnie nie obsługuje tabel — opisuje jedynie położenie glifów na stronie — zatem konwersja do formatu Excel wymaga wywnioskowania struktury tabeli z geometrii tekstu. Gdzie kończy się jedna komórka, a zaczyna następna, należy odgadnąć na podstawie poziomych białych znaków; gdzie kończy się jeden wiersz i zaczyna następny, od pionowych białych znaków.
To narzędzie analizuje plik PDF przy użyciu pliku PDF.js, wyodrębnia elementy tekstowe wraz z ich ramkami ograniczającymi i grupuje elementy w wiersze i kolumny w oparciu o położenie. Wykryta tabela jest zapisywana w skoroszycie programu Excel przy użyciu biblioteki SheetJS xlsx. Dane wyjściowe to standardowy plik .xlsx, który można otworzyć w programie Excel, Arkuszach Google, Numbers lub dowolnym innym arkuszu kalkulacyjnym.
Wyodrębnianie tabeli PDF jest naprawdę trudne i żaden ekstraktor nie zapewnia doskonałych wyników w każdym pliku PDF. Tabele ze spójnymi granicami kolumn, bez scalonych komórek i wyraźnym wyrównaniem w pionie są konwertowane bezproblemowo. Tabele ze scalonymi komórkami, wpisami wielowierszowymi, przypisami lub nietypowym układem zwykle wymagają ręcznego oczyszczenia po wyodrębnieniu. Plan do przeglądu.
Powodem jest prawie zawsze analiza. Danych uwięzionych w pliku PDF nie można sortować, filtrować, sumować, przedstawiać na wykresach ani obracać. Po umieszczeniu go w programie Excel dostępne stają się wszystkie standardowe operacje w arkuszu kalkulacyjnym — a to otwiera różnicę między wpatrywaniem się w statyczny raport a faktyczną pracą z zawartymi w nim liczbami.
W formacie PDF nie jest możliwa masowa praca z danymi. Agregowanie danych kwartalnych w wielu raportach PDF, porównywanie pozycji różnych dostawców lub wyciąganie określonych kolumn do dalszej analizy wymaga zapisania danych w formacie obsługującym te operacje. Excel i CSV to te formaty. Nawrócenie jest mostem.
Upuść plik PDF zawierający dane tabelaryczne i uzyskaj skoroszyt z każdą tabelą na osobnym arkuszu.
PDF.js udostępnia interfejs API getTextContent, który zwraca elementy tekstowe wraz z ich ramkami ograniczającymi. Każdy element ma ciąg znaków, macierz transformacji (dla pozycji i obrotu) oraz szerokość/wysokość. Konwerter sortuje elementy według współrzędnej Y w celu zidentyfikowania linii, a następnie w obrębie każdej linii według współrzędnej X. Elementy na bardzo podobnych pozycjach Y tworzą rząd.
Wykrywanie kolumn wykorzystuje analizę luk: odległość X między kolejnymi elementami w rzędzie wskazuje, czy należą one do tej samej komórki, czy do komórek sąsiadujących. Odstęp większy niż próg (zwykle o szerokości 1–2 znaków) sygnalizuje granicę kolumny. Dostrajanie progów stanowi kompromis pomiędzy łączeniem sąsiednich kolumn i dzieleniem pojedynczych kolumn.
Dane wyjściowe programu Excel korzystają z arkusza SheetJS w celu skonstruowania skoroszytu w pamięci, z każdą wykrytą tabelą na osobnym arkuszu o nazwach Arkusz1, Arkusz2 itd. Skoroszyt jest serializowany do formatu .xlsx (Office Open XML) i oferowany do pobrania. Wynik otwiera się w programach Excel 2007+, Arkuszach Google, LibreOffice Calc i Apple Numbers.