PDF로 워드(DOCX)
PDF에서 텍스트를 추출하고 브라우저에서 편집 가능한 Word 형식으로 완전히 변환하세요. 빠르고 안전하며 비공개입니다.
PDF 파일을 여기에 드롭하세요.
최대 50MB까지 지원
PDF에서 텍스트를 추출하고 브라우저에서 편집 가능한 Word 형식으로 완전히 변환하세요. 빠르고 안전하며 비공개입니다.
최대 50MB까지 지원
PDF와 DOCX(Microsoft Word)는 근본적으로 다른 모델을 사용하여 문서를 설명합니다. PDF는 고정 레이아웃 형식입니다. 모든 글리프는 고정 크기 페이지에서 명시적인 위치를 가지므로 문서가 렌더링되는 모든 곳에서 동일하게 보입니다. DOCX는 흐름 레이아웃 형식입니다. 단락, 표 및 제목은 의미론적으로 설명되며 렌더링 엔진은 현재 페이지 크기 및 글꼴 가용성을 기반으로 페이지 내 위치를 결정합니다. PDF에서 DOCX로 변환한다는 것은 고정 레이아웃을 Word가 다시 흐름할 수 있는 의미 구조로 리버스 엔지니어링하는 것을 의미합니다.
이 변환은 본질적으로 손실이 있습니다. PDF는 일반적으로 제목 수준, 단락 경계, 목록 구조 또는 테이블 의미를 유지하지 않습니다. 변환기는 글꼴 크기, 위치 및 글머리 기호 문자를 통해 이를 추론해야 합니다. 간단한 텍스트 기반 PDF는 깔끔하게 변환됩니다. 다중 열 레이아웃, 포함된 이미지, 각주 또는 특이한 인쇄술이 포함된 복잡한 PDF는 일반적으로 변환 후 수동으로 정리해야 합니다.
이 도구는 구문 분석을 위해 PDF.js를 사용하고 표준 Office Open XML 출력을 생성하는 사용자 정의 레이아웃-DOCX 작성기를 사용하여 브라우저에서 변환을 실행합니다. 결과는 Microsoft Word, LibreOffice Writer, Google Docs 및 기타 DOCX 호환 편집기에서 열립니다. 업로드가 발생하지 않습니다. 파일은 장치에 남아 있습니다.
편집 가능성이 전체 이유입니다. PDF는 편집에 적합하지 않습니다. 양식 필드를 채우고 주석을 달 수는 있지만 비용이 많이 들고 일관되지 않은 결과를 생성하는 전문 PDF 편집기 없이는 텍스트 재배치, 단락 스타일 변경 또는 콘텐츠 재구성이 불가능합니다. DOCX는 편집을 위해 만들어졌습니다. PDF를 DOCX로 변환하면 콘텐츠의 수정, 번역, 용도 변경 또는 재설계가 용이해집니다.
또 다른 이유는 협업이다. Word와 Google Docs는 사무실, 학교 및 대부분의 조직에서 문서 공동 작업을 위한 공용어입니다. 댓글 스레드, 변경 사항 추적 및 공유 편집은 모두 DOCX 또는 이에 상응하는 클라우드 기능을 가정합니다. 검토를 위해 보낸 PDF에 병목 현상이 발생합니다. DOCX는 표준 협업 도구를 통해 흐릅니다.
PDF를 드롭하고, 생성하고, 다운로드하세요. 나중에 Word에서 일부 정리 작업을 수행할 것으로 예상됩니다.
PDF.js는 각 PDF 페이지를 텍스트 및 그래픽 작업 스트림으로 구문 분석합니다. 텍스트 추출 API는 경계 상자, 글꼴 정보 및 유니코드로 디코딩된 문자열이 포함된 텍스트 항목을 반환합니다. 이러한 항목에서 변환기는 위에서 아래로, 왼쪽에서 오른쪽으로 정렬하고 비슷한 기준선을 가진 항목을 줄로, 줄을 단락으로 그룹화하여 읽기 순서를 재구성합니다.
DOCX는 XML 파일(document.xml, styles.xml, 콘텐츠 유형 및 관계 매니페스트 포함)이 포함된 zip 아카이브입니다. 변환기는 일련의 단락(w:p) 및 실행(w:r) 요소를 사용하여 document.xml 컨텐츠를 작성하고 글꼴 크기가 제목을 제안하는 제목(제목 1, 제목 2)에 대한 스타일 참조를 적용하고 JSZip을 사용하여 메모리에 zip을 어셈블합니다.
제한 사항: 열 레이아웃이 항상 올바르게 재구성되는 것은 아닙니다. 레이아웃이 표 형식 구조를 강력히 제안하지 않는 한 PDF의 표는 단락으로 복구됩니다. 머리글, 바닥글 및 각주는 일반적으로 해당 DOCX 영역이 아닌 본문에서 인라인으로 끝납니다. PDF에 포함된 이미지는 현재 DOCX 출력에 보존되지 않습니다.