8000 GitHub - choijhyeok/python-hwpxlib: hwpxlib 패키지 python에서 쉽게 사용 할수 있게 만든 github repo 입니다.
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

choijhyeok/python-hwpxlib

Repository files navigation

Python-hwpxlib

hwpxlib 바로가기

hwpxlib 패키지 python에서 쉽게 사용 712E 수 있게 만든 github repo 입니다.

  • .hwpx 파일의 text를 추출할때 가장 좋은 성능을 보였던 java 패키지인 hwpxlib를 컴파일 해서 사용하는 방식으로 구성했습니다.

 

필수 설치

  • 해당 방법은 Java가 사용하시는 OS에 설치되야 합니다.

    • Maven Compile을 통해서 hwplib github를 .jar로 컴파일을 수행합니다.
      • mac OS 환경에서 Java 8버전으로 컴파일을 수행했으며, 사용한 pom.xml은 'compile_src' 안에 있습니다. (기존 hwpxlib는 Java 7사용)
      • Maven 컴파일이 어려울 경우에는 mvnrepository 에 올려져 있는 것을 다운받으셔도 됩니다.
  • 기본적으로 python JPype package를 이용한 방법이며, hwpxlib의 다양한 기능중에 한글 추출기능만을 사용합니다.

 

사용 방법

  • JPype 패키지를 설치해 주세요. pypi
!pip install JPype1
  • Subprocess로 hwpx_loader.py에 hwpx_jar_path : hwpxlib jar 위치, file_path : 한글추출을 원하는 .hwpx 파일 위치를 넣어주세요
## local
hwpx_text = subprocess.run(["python", "hwpx_loader.py", "--hwpx_jar_path",  'hwpxlib jar 위치', "--file_path", '한글추출을 원하는 .hwpx 파일 위치'], capture_output=True, text=True)

print(hwpx_text.stdout)

## fask
python hwpx_flask.py

import requests

url = "http://localhost:7860/extract-text"
file_path = "한글추출을 원하는 .hwpx 파일 위치"  

with open(file_path, 'rb') as f:
    files = {'file': (file_path, f)}
    response = requests.post(url, files=files)

response.json()

Docker

docker build -t test:test .
docker run -p 7860:7860 test:test

About

hwpxlib 패키지 python에서 쉽게 사용 할수 있게 만든 github repo 입니다.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published
0