PDF로 엑셀(XLSX) 변환기
PDF에서 표와 텍스트를 추출하여 브라우저에서 안전하게 Excel XLSX 스프레드시트로 변환하세요.
PDF 파일을 여기에 드롭하세요.
또는 클릭하여 파일을 선택하세요.
PDF에서 표와 텍스트를 추출하여 브라우저에서 안전하게 Excel XLSX 스프레드시트로 변환하세요.
또는 클릭하여 파일을 선택하세요.
PDF에서 표 형식의 데이터를 스프레드시트로 가져오는 것은 송장, 재무 보고서, 과학 논문, 정부 데이터를 처리하는 사무실에서 가장 일반적인 문서 작업 흐름 중 하나입니다. PDF 형식은 기본적으로 테이블을 이해하지 못합니다. 단지 페이지의 문자 위치를 설명할 뿐입니다. 따라서 Excel로 변환하려면 텍스트의 기하학적 구조에서 테이블 구조를 유추해야 합니다. 한 셀이 끝나고 다음 셀이 시작되는 위치는 가로 공백으로 추측해야 합니다. 한 행이 끝나고 다음 행이 시작되는 곳은 수직 공백입니다.
이 도구는 PDF.js를 사용하여 PDF를 구문 분석하고, 경계 상자가 있는 텍스트 항목을 추출하고, 항목을 위치에 따라 행과 열로 묶습니다. 감지된 테이블은 SheetJS xlsx 라이브러리를 사용하여 Excel 통합 문서에 기록됩니다. 출력은 Excel, Google Sheets, Numbers 또는 기타 스프레드시트 애플리케이션에서 열리는 표준 .xlsx 파일입니다.
PDF 테이블 추출은 실제로 어렵고 모든 PDF에서 완벽한 결과를 생성하는 추출기는 없습니다. 일관된 열 경계, 병합된 셀이 없고 명확한 수직 정렬이 있는 테이블은 깔끔하게 변환됩니다. 병합된 셀, 여러 줄 항목, 각주 또는 특이한 레이아웃이 있는 테이블은 일반적으로 추출 후 수동 정리가 필요합니다. 검토를 계획합니다.
그 이유는 거의 항상 분석입니다. PDF에 포함된 데이터는 정렬, 필터링, 합산, 차트 작성 또는 피벗할 수 없습니다. Excel에 있으면 모든 표준 스프레드시트 작업을 사용할 수 있으며, 이는 정적 보고서를 응시하는 것과 실제로 그 안에 있는 숫자로 작업하는 것의 차이를 열어줍니다.
PDF에서는 대량의 데이터 작업이 불가능합니다. 여러 PDF 보고서에서 분기별 수치를 집계하고, 공급업체 간 품목을 비교하고, 다운스트림 분석을 위해 특정 열을 가져오는 등의 작업을 모두 지원하는 형식으로 데이터를 가져와야 합니다. Excel과 CSV가 해당 형식입니다. 전환은 다리입니다.
표 형식의 데이터가 포함된 PDF를 끌어서 각 시트에 각 표가 포함된 통합 문서를 만드세요.
PDF.js는 경계 상자와 함께 텍스트 항목을 반환하는 getTextContent API를 노출합니다. 각 항목에는 문자열, 변환 행렬(위치 및 회전용) 및 너비/높이가 있습니다. 변환기는 항목을 Y 좌표로 정렬하여 줄을 식별한 다음 각 줄 내에서 X 좌표로 정렬합니다. 매우 유사한 Y 위치에 있는 항목이 행을 형성합니다.
열 검색에서는 간격 분석을 사용합니다. 행의 연속 항목 사이의 X 거리는 해당 항목이 동일한 셀에 속하는지 아니면 인접한 셀에 속하는지 여부를 나타냅니다. 임계값(일반적으로 1~2자 너비)보다 큰 간격은 열 경계를 나타냅니다. 임계값 조정은 인접한 열 병합과 단일 열 분할 사이에서 절충됩니다.
Excel 출력은 SheetJS를 사용하여 메모리에 통합 문서를 구성하며, 검색된 각 테이블은 Sheet1, Sheet2 등이라는 자체 시트에 있습니다. 통합 문서는 .xlsx(Office Open XML) 형식으로 직렬화되고 다운로드로 제공됩니다. 결과는 Excel 2007+, Google Sheets, LibreOffice Calc 및 Apple Numbers에서 열립니다.