블로그를 운영하는 블로거로서 만약 블로그를 자동으로 요약해서 글 제일 위에 나타낼 수 있다면
읽으러 오는 사람에게 얼마나 좋을까? 생각에 문서를 요약하는 프로그램을 생각하게 되었습니다.
먼저 영어 문서의 한에서 tensorflow 를 이용하여 문장을 요약한 것을 학습 시켜주는 프로그램을 만들었습니다. 하지만 영어 문서의 한에서는 한글 블로그에 문서 요약을 넣을 수 없으므로 TextRank 를 이용하여 한글 문서에서도 문서 요약을 가능하게 해주는 문서요약시스템을 간단히 구현해보았습니다.
프로젝트 바로가기 ✔️
pip install newspaper3k
# url 크롤링 패키지pip install jpype1
pip install konlpy
# 한글 형태소 분석기pip install scikit-learn
# TF-IDF를 위한 머신러닝 패키지
-
url을 이용해 문장을 추출하거나, text를 직접 입력해 문장을 추출합니다.
-
TF-IDF 모델을 만들기 위한 전처리 과정을 합니다.
불용어를 추가하여 twitter를 이용해 문장으로 분리 한 뒤 문장을 형태소 단위로 나눈 후 품사 태 깅을 통해 명사들만 추출합니다.
- TF-IDF 모델 생성
문서에서 단어의 중요성을 계산하여 단어를 추출하는 TF-IDF를 이용합니다.
TF-IDF를 계산하기 위해 머신러닝 패키지인 scikit-learn을 이용합니다
- 그래프 생성
TextRank를 적용시키기 위해 생성된 문장의 가중치 그래프를 만듭니다.
- 위의 공식을 이용한 알고리즘 적용
- 문서를 요약해주는 함수 생성 (default = 3줄)
- 문서의 키워드를 리턴 해주는 함수 생성 (default = 10단어)
- 파이선 GUI tkinter를 이용하여 문서요약시스템을 보다 쉽게 사용할 수 있도록 구현하였 습니다.
- 문서요약은 8줄로 되도록 만들었으며 단어는 default인 10개의 단어가 나오도록 하였습니 다.
- mqtt 프로토콜을 분석하여 정리한 제 블로그 주소입니다.
url : https://wnsgml972.github.io/wnsgml972.github.io/mqtt/mqtt.html