무료 변환기

PDF로 엑셀(XLSX) 변환기

PDF에서 표와 텍스트를 추출하여 브라우저에서 안전하게 Excel XLSX 스프레드시트로 변환하세요.

PDF 파일을 여기에 드롭하세요.

또는 클릭하여 파일을 선택하세요.

또는

이 도구에 대하여

PDF에서 표 형식의 데이터를 스프레드시트로 가져오는 것은 송장, 재무 보고서, 과학 논문, 정부 데이터를 처리하는 사무실에서 가장 일반적인 문서 작업 흐름 중 하나입니다. PDF 형식은 기본적으로 테이블을 이해하지 못합니다. 단지 페이지의 문자 위치를 설명할 뿐입니다. 따라서 Excel로 변환하려면 텍스트의 기하학적 구조에서 테이블 구조를 유추해야 합니다. 한 셀이 끝나고 다음 셀이 시작되는 위치는 가로 공백으로 추측해야 합니다. 한 행이 끝나고 다음 행이 시작되는 곳은 수직 공백입니다.

이 도구는 PDF.js를 사용하여 PDF를 구문 분석하고, 경계 상자가 있는 텍스트 항목을 추출하고, 항목을 위치에 따라 행과 열로 묶습니다. 감지된 테이블은 SheetJS xlsx 라이브러리를 사용하여 Excel 통합 문서에 기록됩니다. 출력은 Excel, Google Sheets, Numbers 또는 기타 스프레드시트 애플리케이션에서 열리는 표준 .xlsx 파일입니다.

PDF 테이블 추출은 실제로 어렵고 모든 PDF에서 완벽한 결과를 생성하는 추출기는 없습니다. 일관된 열 경계, 병합된 셀이 없고 명확한 수직 정렬이 있는 테이블은 깔끔하게 변환됩니다. 병합된 셀, 여러 줄 항목, 각주 또는 특이한 레이아웃이 있는 테이블은 일반적으로 추출 후 수동 정리가 필요합니다. 검토를 계획합니다.

PDF를 Excel로 변환하는 이유

그 이유는 거의 항상 분석입니다. PDF에 포함된 데이터는 정렬, 필터링, 합산, 차트 작성 또는 피벗할 수 없습니다. Excel에 있으면 모든 표준 스프레드시트 작업을 사용할 수 있으며, 이는 정적 보고서를 응시하는 것과 실제로 그 안에 있는 숫자로 작업하는 것의 차이를 열어줍니다.

PDF에서는 대량의 데이터 작업이 불가능합니다. 여러 PDF 보고서에서 분기별 수치를 집계하고, 공급업체 간 품목을 비교하고, 다운스트림 분석을 위해 특정 열을 가져오는 등의 작업을 모두 지원하는 형식으로 데이터를 가져와야 합니다. Excel과 CSV가 해당 형식입니다. 전환은 다리입니다.

사용 방법

표 형식의 데이터가 포함된 PDF를 끌어서 각 시트에 각 표가 포함된 통합 문서를 만드세요.

  1. PDF 업로드: 파일을 업로드 영역으로 드래그하거나 클릭하여 찾아보세요. 최대 50MB의 파일이 지원됩니다. PDF에는 실제 텍스트가 포함되어야 합니다. 스캔한 PDF에는 먼저 OCR이 필요합니다.
  2. 테이블 감지 대기: PDF.js는 텍스트 항목과 해당 위치를 추출합니다. 변환기는 수평 및 수직 정렬을 분석하여 항목을 행과 열로 클러스터링합니다. 짧은 문서의 경우 감지에 몇 초가 걸리고 여러 페이지로 구성된 테이블의 경우 더 오랜 시간이 걸립니다.
  3. 감지된 테이블 검토: 감지된 테이블은 다운로드하기 전에 미리 볼 수 있습니다. 열과 행이 예상한 것과 일치하는지 확인하세요. 여기서 잘못된 정렬은 나중에 Excel 정리가 됩니다.
  4. XLSX로 다운로드: 변환기는 SheetJS를 사용하여 .xlsx 통합 문서의 별도 시트에 감지된 각 테이블을 씁니다. Excel 또는 Google Sheets에서 결과를 열고 남아 있는 문제를 정리하세요.

일반적인 사용 사례

기술적인 세부사항

PDF.js는 경계 상자와 함께 텍스트 항목을 반환하는 getTextContent API를 노출합니다. 각 항목에는 문자열, 변환 행렬(위치 및 회전용) 및 너비/높이가 있습니다. 변환기는 항목을 Y 좌표로 정렬하여 줄을 식별한 다음 각 줄 내에서 X 좌표로 정렬합니다. 매우 유사한 Y 위치에 있는 항목이 행을 형성합니다.

열 검색에서는 간격 분석을 사용합니다. 행의 연속 항목 사이의 X 거리는 해당 항목이 동일한 셀에 속하는지 아니면 인접한 셀에 속하는지 여부를 나타냅니다. 임계값(일반적으로 1~2자 너비)보다 큰 간격은 열 경계를 나타냅니다. 임계값 조정은 인접한 열 병합과 단일 열 분할 사이에서 절충됩니다.

Excel 출력은 SheetJS를 사용하여 메모리에 통합 문서를 구성하며, 검색된 각 테이블은 Sheet1, Sheet2 등이라는 자체 시트에 있습니다. 통합 문서는 .xlsx(Office Open XML) 형식으로 직렬화되고 다운로드로 제공됩니다. 결과는 Excel 2007+, Google Sheets, LibreOffice Calc 및 Apple Numbers에서 열립니다.

모범 사례

자주 묻는 질문

PDF를 EXCEL로 변환하면 내용이 변경됩니까?
내용은 최대한 정확하게 보존됩니다. 그러나 일부 형식별 기능에는 직접적인 상응 기능이 없을 수 있으므로 사소한 형식 차이가 발생할 수 있습니다.
EXCEL 형식은 무엇에 사용됩니까?
XLSX(Microsoft Excel 스프레드시트)는 주로 수식, 차트 및 데이터 분석이 포함된 스프레드시트에 사용됩니다.
알아야 할 제한 사항이 있나요?
최대 50MB의 파일이 지원됩니다. 매우 크거나 복잡한 파일은 처리하는 데 시간이 더 오래 걸릴 수 있습니다. 모든 변환은 브라우저에서 이루어지므로 처리 속도는 장치에 따라 다릅니다.
내 문서 데이터는 안전한가요?
예. 문서 처리는 전적으로 브라우저에서 실행됩니다. 귀하의 파일과 그 내용은 어떤 서버에도 업로드되지 않습니다. 이렇게 하면 민감하거나 기밀인 문서를 안전하게 변환할 수 있습니다.
어떤 출력 형식이 생성됩니까?
.xlsx(Office Open XML), 최신 Excel 형식입니다. 파일은 Excel 2007+, Google Sheets, LibreOffice Calc, Apple Numbers 및 기타 최신 스프레드시트에서 열립니다.
내 PDF가 서버에 업로드됩니까?
아니요. PDF.js 및 SheetJS를 사용하여 브라우저에서 구문 분석 및 Excel 생성이 수행됩니다.
최대 파일 크기는 얼마입니까?
50MB. 변환 시간은 파일 크기보다는 문서의 복잡성에 따라 달라집니다. 그래픽이 많은 50MB PDF는 텍스트가 많은 PDF보다 추출하는 데 시간이 더 오래 걸릴 수 있습니다.
내 번호가 잘못된 열에 있는 이유는 무엇입니까?
거의 항상 변환기의 열 감지 임계값이 PDF의 실제 레이아웃과 일치하지 않았기 때문입니다. 원본 PDF를 열고 열이 시각적으로 구분되는 위치를 살펴보고 필요에 따라 Excel에서 수동으로 셀을 이동합니다.