Darmowy konwerter

PDF do Konwerter Excela (XLSX).

Wyodrębnij tabele i tekst z pliku PDF i bezpiecznie przekonwertuj je na arkusze kalkulacyjne Excel XLSX w przeglądarce.

Upuść tutaj plik PDF

lub kliknij, aby wybrać plik

Lub

O tym narzędziu

Wyciąganie danych tabelarycznych z pliku PDF do arkusza kalkulacyjnego to jeden z najpopularniejszych procesów obiegu dokumentów w biurach obsługujących faktury, raporty finansowe, artykuły naukowe i dane rządowe. Format PDF natywnie nie obsługuje tabel — opisuje jedynie położenie glifów na stronie — zatem konwersja do formatu Excel wymaga wywnioskowania struktury tabeli z geometrii tekstu. Gdzie kończy się jedna komórka, a zaczyna następna, należy odgadnąć na podstawie poziomych białych znaków; gdzie kończy się jeden wiersz i zaczyna następny, od pionowych białych znaków.

To narzędzie analizuje plik PDF przy użyciu pliku PDF.js, wyodrębnia elementy tekstowe wraz z ich ramkami ograniczającymi i grupuje elementy w wiersze i kolumny w oparciu o położenie. Wykryta tabela jest zapisywana w skoroszycie programu Excel przy użyciu biblioteki SheetJS xlsx. Dane wyjściowe to standardowy plik .xlsx, który można otworzyć w programie Excel, Arkuszach Google, Numbers lub dowolnym innym arkuszu kalkulacyjnym.

Wyodrębnianie tabeli PDF jest naprawdę trudne i żaden ekstraktor nie zapewnia doskonałych wyników w każdym pliku PDF. Tabele ze spójnymi granicami kolumn, bez scalonych komórek i wyraźnym wyrównaniem w pionie są konwertowane bezproblemowo. Tabele ze scalonymi komórkami, wpisami wielowierszowymi, przypisami lub nietypowym układem zwykle wymagają ręcznego oczyszczenia po wyodrębnieniu. Plan do przeglądu.

Dlaczego warto konwertować pliki PDF do programu Excel

Powodem jest prawie zawsze analiza. Danych uwięzionych w pliku PDF nie można sortować, filtrować, sumować, przedstawiać na wykresach ani obracać. Po umieszczeniu go w programie Excel dostępne stają się wszystkie standardowe operacje w arkuszu kalkulacyjnym — a to otwiera różnicę między wpatrywaniem się w statyczny raport a faktyczną pracą z zawartymi w nim liczbami.

W formacie PDF nie jest możliwa masowa praca z danymi. Agregowanie danych kwartalnych w wielu raportach PDF, porównywanie pozycji różnych dostawców lub wyciąganie określonych kolumn do dalszej analizy wymaga zapisania danych w formacie obsługującym te operacje. Excel i CSV to te formaty. Nawrócenie jest mostem.

Jak używać

Upuść plik PDF zawierający dane tabelaryczne i uzyskaj skoroszyt z każdą tabelą na osobnym arkuszu.

  1. Prześlij swój plik PDF: Przeciągnij plik do obszaru przesyłania lub kliknij, aby przeglądać. Obsługiwane są pliki do 50 MB. Plik PDF musi zawierać rzeczywisty tekst; zeskanowane pliki PDF wymagają najpierw OCR.
  2. Poczekaj na wykrycie stołu: PDF.js wyodrębnia elementy tekstowe i ich pozycje. Konwerter grupuje elementy w wiersze i kolumny, analizując wyrównanie w poziomie i w pionie. Wykrywanie zajmuje kilka sekund w przypadku krótkich dokumentów i dłużej w przypadku tabel wielostronicowych.
  3. Przejrzyj wykryte tabele: Wykryte tabele są przeglądane przed pobraniem. Upewnij się, że kolumny i wiersze odpowiadają oczekiwaniom; niedopasowania w tym miejscu zostaną później oczyszczone w programie Excel.
  4. Pobierz jako XLSX: Konwerter zapisuje każdą wykrytą tabelę na osobnym arkuszu w skoroszycie .xlsx przy użyciu SheetJS. Otwórz wynik w programie Excel lub Arkuszach Google i usuń wszelkie pozostałe problemy.

Typowe przypadki użycia

Szczegóły techniczne

PDF.js udostępnia interfejs API getTextContent, który zwraca elementy tekstowe wraz z ich ramkami ograniczającymi. Każdy element ma ciąg znaków, macierz transformacji (dla pozycji i obrotu) oraz szerokość/wysokość. Konwerter sortuje elementy według współrzędnej Y w celu zidentyfikowania linii, a następnie w obrębie każdej linii według współrzędnej X. Elementy na bardzo podobnych pozycjach Y tworzą rząd.

Wykrywanie kolumn wykorzystuje analizę luk: odległość X między kolejnymi elementami w rzędzie wskazuje, czy należą one do tej samej komórki, czy do komórek sąsiadujących. Odstęp większy niż próg (zwykle o szerokości 1–2 znaków) sygnalizuje granicę kolumny. Dostrajanie progów stanowi kompromis pomiędzy łączeniem sąsiednich kolumn i dzieleniem pojedynczych kolumn.

Dane wyjściowe programu Excel korzystają z arkusza SheetJS w celu skonstruowania skoroszytu w pamięci, z każdą wykrytą tabelą na osobnym arkuszu o nazwach Arkusz1, Arkusz2 itd. Skoroszyt jest serializowany do formatu .xlsx (Office Open XML) i oferowany do pobrania. Wynik otwiera się w programach Excel 2007+, Arkuszach Google, LibreOffice Calc i Apple Numbers.

Najlepsze praktyki

Często zadawane pytania

Czy konwersja pliku PDF do formatu EXCEL zmienia zawartość?
Treść jest zachowywana tak dokładnie, jak to możliwe. Jednak niektóre funkcje specyficzne dla formatu mogą nie mieć bezpośrednich odpowiedników, dlatego mogą wystąpić drobne różnice w formatowaniu.
Do czego służy format EXCEL?
XLSX (arkusz kalkulacyjny Microsoft Excel) jest używany głównie w arkuszach kalkulacyjnych zawierających formuły, wykresy i analizę danych.
Czy są jakieś ograniczenia, o których warto wiedzieć?
Obsługiwane są pliki do 50 MB. Przetwarzanie bardzo dużych lub złożonych plików może zająć więcej czasu. Cała konwersja odbywa się w Twojej przeglądarce, więc szybkość przetwarzania zależy od Twojego urządzenia.
Czy dane w moim dokumencie są bezpieczne?
Tak. Przetwarzanie dokumentów odbywa się całkowicie w Twojej przeglądarce. Twoje pliki i ich zawartość nigdy nie są przesyłane na żaden serwer. Dzięki temu konwersja wrażliwych lub poufnych dokumentów jest bezpieczna.
Jaki format wyjściowy jest generowany?
.xlsx (Office Open XML), nowoczesny format Excela. Plik otwiera się w programie Excel 2007+, Arkuszach Google, LibreOffice Calc, Apple Numbers i dowolnym innym nowoczesnym arkuszu kalkulacyjnym.
Czy mój plik PDF zostanie przesłany na serwer?
Nie. Analizowanie i generowanie programu Excel odbywa się w przeglądarce przy użyciu plików PDF.js i SheetJS.
Jaki jest maksymalny rozmiar pliku?
50 MB. Czas konwersji zależy od złożoności dokumentu, a nie od samego rozmiaru pliku — wyodrębnienie pliku PDF zawierającego dużą ilość grafiki o wielkości 50 MB może zająć więcej czasu niż pliku zawierającego dużo tekstu.
Dlaczego moje liczby znajdują się w niewłaściwych kolumnach?
Prawie zawsze, ponieważ próg wykrywania kolumny konwertera nie odpowiadał rzeczywistemu układowi pliku PDF. Otwórz źródłowy plik PDF, sprawdź, gdzie kolumny wizualnie się dzielą, i w razie potrzeby ręcznie przesuń komórki w programie Excel.