KR102580512B1 - 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법 - Google Patents
자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법 Download PDFInfo
- Publication number
- KR102580512B1 KR102580512B1 KR1020230048429A KR20230048429A KR102580512B1 KR 102580512 B1 KR102580512 B1 KR 102580512B1 KR 1020230048429 A KR1020230048429 A KR 1020230048429A KR 20230048429 A KR20230048429 A KR 20230048429A KR 102580512 B1 KR102580512 B1 KR 102580512B1
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- important
- data
- learning
- deep learning
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000013136 deep learning model Methods 0.000 title claims abstract description 84
- 230000008569 process Effects 0.000 claims abstract description 59
- 239000011159 matrix material Substances 0.000 claims abstract description 42
- 238000007781 pre-processing Methods 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000007670 refining Methods 0.000 claims abstract 2
- 238000004458 analytical method Methods 0.000 claims description 38
- 238000013480 data collection Methods 0.000 claims description 32
- 239000000284 extract Substances 0.000 claims description 8
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 4
- 238000004801 process automation Methods 0.000 abstract description 7
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000007405 data analysis Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000009193 crawling Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000007790 scraping Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003412 degenerative effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 인터넷 상의 비정형 오픈 데이터를 수집하여, 자연어 처리를 통해텍스트를 분석하여, 중요 문장을 추출하고, 기존 중요 문장 리스트와 유사도를 비교하여 중요한 신규 문장 발생시 로봇 프로세스 자동화(RPA)를 이용하여 자동 문장 클러스터링 딥러닝 모델 학습에 필요한 학습 데이터를 생성하고 학습을 수행하는 장치 및 방법에 관한 것으로, 수집된 비정형 데이터에서 텍스트를 추출하고, 추출한 텍스트를 정제 및 구조화하는 전처리 단계; 상기 전처리 단계에서 분리된 문장을 사전 학습된 문장 분류 딥러닝 모델을 적용하여 적어도 하나 이상의 카테고리로 분류하는 문장 분류 단계; 상기 전처리 단계를 수행한 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 반영하여 문서 단어 매트릭스로 저장하는 TF-IDF 산출 단계; 상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값을 확인하여 중요 문장을 추출하는 중요 문장 추출 단계; 추출된 중요 문장을 유사도 행렬 비교를 통해 중요 문장 리스트와 비교하여 신규 중요 문장 여부를 판단하는 신규 중요 문장 판단 단계; 및 신규 중요 문장으로 판단되면, 자동화된 프로세스를 적용하여 신규 중요 문장에 대한 학습 데이터 수집, 생성 및 자동 문장 클러스터링 딥러닝 모델 학습을 수행하는 학습 자동화 단계;를 포함한다.
Description
본 발명은 인터넷 상의 비정형 오픈 데이터를 수집하여, 텍스트 추출, 형태소 분석 및 문장 분류를 수행하고, 텍스트에 대한 단어의 빈도 통계 및 역문서 빈도 계산을 통해 중요한 문장으로 판단되면, 기존 중요 문장 리스트와 유사도를 비교하여 신규 중요 문장 여부를 판단하고, 중요한 신규 문장 발생시 로봇 프로세스 자동화(RPA)를 이용하여 자동 문장 클러스터링 딥러닝 모델 학습에 필요한 학습 데이터를 생성하고 학습을 수행하는 장치 및 방법에 관한 것이다.
인터넷은 수많은 정보와 데이터를 제공하는 매우 중요한 정보원이다. 그러나 인터넷이 제공하는 방대한 데이터 중에서 비정형 데이터가 대부분을 차지하므로, 비정형 데이터 분석은 매우 중요한 분야로 인식되고 있다.
인터넷 상의 비정형 데이터 분석은 다양한 분야에서 활용된다.
예를 들어, 마케팅 분야에서는 소셜 미디어에서 얻은 고객의 의견이나 블로그, 포럼 등에서의 고객 평가와 댓글 등의 비정형 데이터를 분석하여 제품에 대한 시장 인식, 고객 선호도, 경쟁 업체와의 차별화 등을 분석할 수 있다.
또한, 금융 분야에서는 비정형 데이터 분석을 통해 주식 시장 예측, 신용 위험 평가, 보험 가격 결정 등에 활용될 수 있고, 의료 분야에서는 환자 데이터나 진료 기록 등을 분석하여 질병 예측, 치료 방법 개발, 약물 개발 등에 활용될 수 있다. 이와 같이 인터넷 상의 비정형 데이터 분석은 다양한 분야에서 중요한 역할을 수행하고 있으며, 이를 통해 기업이나 조직은 더욱 빠르고 정확한 의사 결정을 내릴 수 있다.
비정형 데이터는 일반적으로 자연어 형태로 작성되어 있으며, 이러한 데이터를 분석하고 활용하기 위해서는 텍스트 마이닝이나 자연어 처리와 같은 기술이 필요하다.
최근 대용량의 비정형 데이터를 정확하게 분석하기 위해 인공 지능을 활용한 자연어 처리 기술이 사용되고 있다. 특히, 데이터 분석을 통해 기존 데이터와 유사한 패턴을 찾아내고, 그 패턴을 기반으로 새로운 데이터를 추천하는 기술을 여러 분야에 적용될 수 있는 기술로 인식되고 있다.
또한, 유사 데이터 추천을 위해서는 지속적으로 새로운 정보를 식별하고, 이에 대해 대용량의 데이터를 학습하는 것이 매우 중요하다. 그러나 모델 학습을 위해 지속적으로 새로운 데이터를 수집하고, 수집한 데이터를 학습 데이터로 구축하는 것은 반복적인 프로세스일 뿐만 아니라 많은 시간과 비용이 수반되므로, 지속적으로 모델을 학습시키기 위한 자동화 방법이 요구된다.
본 발명은 상기 문제점을 해결하기 위해 인터넷 상의 비정형 데이터를 인공지능 기반 자연어 처리 기술을 적용하여 텍스트 데이터를 분석하고, 텍스트 데이터에서 중요 문장으로 판단된 문장에 대해 기존에 분류된 중요 문장과 비교하여 신규 중요 문장으로 판단되면 로봇 프로세스 자동화(RPA)를 이용하여 해당 문장과 연관된 데이터를 수집하여 학습 데이터를 생성하고, 모델을 학습시키는 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법은, 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치에서, 수집된 비정형 데이터에서 텍스트를 추출하고, 추출한 텍스트를 정제 및 구조화하는 전처리 단계; 상기 전처리 단계에서 분리된 문장을 사전 학습된 문장 분류 딥러닝 모델을 적용하여 적어도 하나 이상의 카테고리로 분류하는 문장 분류 단계; 상기 전처리 단계를 수행한 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 반영하여 문서 단어 매트릭스로 저장하는 TF-IDF 산출 단계; 상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값을 확인하여 중요 문장을 추출하는 중요 문장 추출 단계; 추출된 중요 문장을 유사도 행렬 비교를 통해 중요 문장 리스트와 비교하여 신규 중요 문장 여부를 판단하는 신규 중요 문장 판단 단계; 및 신규 중요 문장으로 판단되면, 자동화된 프로세스를 적용하여 신규 중요 문장에 대한 학습 데이터 수집, 생성 및 자동 문장 클러스터링 딥러닝 모델 학습을 수행하는 학습 자동화 단계;를 포함할 수 있다.
또한, 상기 전처리 단계는, 상기 수집된 비정형 데이터에서 텍스트를 추출하는 단계; 상기 텍스트에서 형태소 분석 및 문장을 분리하여 구조화하는 단계; 및 구조화한 상기 텍스트에서 불용어를 제거하는 단계;를 포함할 수 있다.
또한, 상기 문장 분류 단계는, 상기 문장에서 인물, 공간 및 시간을 포함한 특정한 개체명을 인식하는 개체명 인식; 상기 문장의 긍정적 또는 부정적인 감성을 분석하는 감성 분석; 및 상기 문장의 의도를 분석하는 의도 분석;을 개별적으로 수행하는 복수개의 딥러닝 모델 또는 상기 개체명 인식, 상기 감성 분석, 상기 의도 분석을 서로 결합하여 수행하는 복수개의 딥러닝 모델을 적용하여 문장을 분류하는 것을 특징으로 한다.
또한, 상기 TF-IDF 산출 단계는, 단어 단위로 토큰화된 텍스트에 대해 단어 빈도 통계를 생성하여 문서 단어 매트릭스를 생성하는 단계; 및 상기 문서 단어 매트릭스에 각 단어의 역문서 빈도를 계산하여 가중치로 적용하는 단계;를 포함할 수 있다.
또한, 상기 중요 문장 추출 단계는, 상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값이 설정된 중요도 기준값 이상인 경우, 해당 문서를 중요 문장으로 판단하는 것을 특징으로 한다.
또한, 상기 신규 중요 문장 판단 단계는, 상기 중요 문장 추출 단계에서 중요 문장으로 판단된 문장과 기존에 등록된 중요 문장 리스트 간의 코사인 유사도를 비교하여, 상기 유사도가 사전에 설정된 임계치 이하인 경우, 신규 중요 문장으로 판단하는 것을 특징으로 한다.
또한, 상기 학습 자동화 단계는, 신규 중요 문장으로 판단된 문장에 포함된 대한 키워드, 상기 문장 분류 단계에서 분류된 카테고리 및 수집된 비정형 데이터에 대한 메타 데이터를 사용하여 학습 데이터 수집을 위한 수집 조건을 생성하는 단계; 상기 수집 조건을 수집 자동화 프로세스에 적용하고, 데이터 수집을 지시하는 단계; 상기 수집 자동화 프로세스를 통해 데이터를 수집하여 저장하는 단계;
전처리 자동화 프로세스를 통해 수집된 데이터를 가공하고, 전처리하여 학습 데이터를 생성하는 단계; 및 상기 학습 데이터를 적용하여 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 수행하는 단계;를 포함할 수 있다.
한편, 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치는, 외부 서버로부터 비정형 데이터를 수집하는 데이터 수집부; 수집된 상기 비정형 데이터에 대해 텍스트 추출, 형태소 분석, 문장 분리 및 불용어 제거를 수행하는 전처리부; 문장 단위로 분리된 각각의 문장을 사전 학습된 문장 분류 딥러닝 모델을 통하여 적어도 하나 이상의 카테고리로 분류하는 문장 분류부; 전처리한 상기 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 적용하여 생성된 문서 단어 매트릭스를 통해 중요 문장을 추출하고, 상기 중요 문장이 신규 중요 문장인지를 판단하는 중요 문장 추출부; 및 신규 중요 문장으로 판단된 문장을 학습시키기 위한 데이터 수집, 학습 데이터 생성 및 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 자동화된 프로세스를 적용하여 수행하는 학습 자동화부;를 구비할 수 있다.
또한, 상기 문장 분류 딥러닝 모델은, 상기 문장에서 인물, 공간 및 시간을 포함한 특정한 개체명을 인식하는 개체명 인식; 상기 문장의 긍정적 또는 부정적인 감성을 분석하는 감성 분석; 및 상기 문장의 의도를 분석하는 의도 분석;을 개별적으로 수행하는 복수개의 모델이거나, 상기 개체명 인식, 상기 감성 분석, 상기 의도 분석을 서로 결합하여 수행하는 복수개의 모델인 것을 특징으로 한다.
또한, 상기 중요 문장 추출부는, 단어 단위로 토큰화 된 텍스트에 대해 단어 빈도 통계를 생성하여 문서 단어 매트릭스로 생성하고, 역문서 빈도를 계산하여 가중치로 적용하는 매트릭스 생성부; 상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값을 비교하여 중요 문장 여부를 판단하는 중요 문장 판단부; 및 상기 중요 문장 판단부에 의해 중요 문장으로 판단된 문장과 기존에 등록된 중요 문장 리스트 간의 코사인 유사도를 비교하여, 상기 유사도가 사전에 설정된 임계치 이하인 경우, 신규 중요 문장으로 판단하여 상기 중요 문장 리스트에 추가하는 신규 문장 판단부;를 포함할 수 있다.
또한, 상기 학습 자동화부는, 상기 신규 중요 문장에 포함된 대한 키워드, 상기 문장에 대해 사전 학습된 문장 분류 딥러닝 모델을 적용하여 분류된 카테고리 및 상기 신규 중요 문장이 포함된 비정형 데이터에 대한 메타 정보를 사용하여 학습 데이터 수집을 위한 수집 조건을 생성하여 자동화 프로세스에 적용하고, 적어도 하나 이상의 수집 프로세스를 구동하여 상기 수집 조건에 따라 데이터를 수집하는 데이터 수집 자동화부;를 포함할 수 있다.
또한, 상기 학습 자동화부는, 자동화된 프로세스를 통해 수집된 데이터를 가공하고, 전처리하여 학습 데이터를 생성하는 학습 데이터 생성 자동화부; 및 자동화된 프로세스를 통해 상기 학습 데이터를 적용하여 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 수행하는 모델 학습 자동화부;를 더 포함할 수 있다.
자연어 처리 기술을 적용하여 유사 데이터 추천을 위해 지속적으로 새로운 정보를 자동으로 식별할 수 있고, 식별된 정보에 대한 자동 문장 클러스터링 딥러닝 모델의 학습을 위해 자동으로 학습 데이터를 수집하고, 전처리를 수행하여 학습 데이터로 구축하여 모델 학습을 수행하는 반복적인 프로세스를 로봇 자동화 프로세스(RPA)를 통해 자동화하여 학습 시스템의 효율성을 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치의 전체 관계도이다.
도 2는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치의 기능에 대한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치의 하드웨어 구조를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법에 대한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치 방법에서 신규 중요 문장에 대한 학습 자동화 단계에 대한 상세 순서도이다.
도 2는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치의 기능에 대한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치의 하드웨어 구조를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법에 대한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치 방법에서 신규 중요 문장에 대한 학습 자동화 단계에 대한 상세 순서도이다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.
그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 설정된 용어들로써 이는 발명자의 의도 또는 관례에 따라 달라질 수 있으므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이고, 본 명세서에서 본 발명에 관련된 공지의 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에 이에 관한 자세한 설명은 생략하기로 한다.
이하, 도면을 참조로 하여 본 발명에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치 및 방법을 설명한다.
도 1은 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치(이하, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치라 함.)의 전체 관계도이다.
도 1을 참조하면, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 적어도 하나 이상의 외부 서버(200)와 네트워크로 연결되어 서로 통신할 수 있다.
본 발명에서 언급하는 네트워크라 함은 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어 망일 수도 있고, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), HTTPS(Hyper Text Transfer Protocol Secure), Telnet, FTP(File Transfer Protocol) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 이러한 예에 한정하지 않고 다양한 형태로 데이터를 송수신할 수 있는 데이터 통신망을 포괄적으로 의미하는 것이다.
본 발명에서 외부 서버(200)는, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)가 비정형 오픈 데이터를 수집하는 대상 서버로, 특정 API나 웹 크롤링 기술을 활용하여 데이터 수집이 가능한 공개된 데이터를 제공하는 서버들을 의미할 수 있다.
외부 서버(200)는 빅데이터 서버, SNS(Social Network Service), 뉴스 사이트, 문서 관리 시스템, 커뮤니티 사이트, 기업 시스템 등 분야에 제한되지 않고 인터넷 상에서 데이터 수집이 가능한 서버들을 포함할 수 있다.
자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는, 인터넷 상의 비정형 오픈 데이터를 수집하여, 텍스트를 분석하여, 중요 문장을 추출하고, 추출된 중요 문장이 새로운 문장, 즉, 새로운 정보인지를 판단하여 새로운 정보인 경우 이에 대한 데이터를 수집하여 자동 문장 클러스터링 딥러닝 모델을 학습시킨다.
여기서, 수집된 비정형 오픈 데이터를 분석하기 위해, 자연어 처리 기술을 적용하여, 단어 빈도 통계 및 역문서 빈도(TF-IDF)를 산출하여 중요 문장에 대한 판단 및 추출을 수행할 수 있다.
또한, 추출된 중요 문장이 신규 중요 문장인지를 판단하기 위해 기존에 등록 관리되는 중요 문장 리스트와 유사도 행렬 비교를 수행할 수 있다.
또한, 신규 중요 문장으로 판단된 문장에 대한 새로운 정보를 학습하기 위해 로봇 프로세스 자동화(RPA, Robot Process Automation)를 이용하여 해당 문장의 키워드, 카테고리 및 비정형 데이터에 대한 메타 정보들을 조합하여 수집 조건을 생성하고, 수집 조건에 해당하는 데이터를 수집하고, 학습 데이터를 생성하여, 자동 문장 클러스터링 딥러닝 모델을 학습을 수행할 수 있다.
도 2는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치(100)의 기능에 대한 블록도이다.
도 2를 참조하면, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 데이터 수집부(110), 전처리부(120), 문장 분류부(130), 중요 문장 추출부(140) 및 학습 자동화부(150)를 구비할 수 있다.
데이터 수집부(110)는 외부 서버(200)로부터 비정형 데이터를 수집하는 기능을 수행한다.
예를 들어, 데이터 수집부(110)는 웹 스크래핑(Web Scraping), 웹 크롤링(Web Crawling), Open API 등을 사용하여 데이터를 수집할 수 있다.
또한, 데이터 수집 시에 로봇 프로세스 자동화(RPA)를 적용하여 크롤링(crawling)을 통해서 비정형 데이터를 실시간 또는 주기적으로 수집할 수 있다.
데이터 수집부(110)는 적어도 하나 이상의 데이터 수집을 위한 프로세스 또는 스레드(thread)를 생성하여 관리할 수 있고, 각각의 데이터 수집 프로세스/스레드(thread)는 사전에 설정되거나 입력값으로 전달 받은 수집 조건에 따라 비정형 데이터를 수집한다.
수집 조건은 분야(도메인), 세부 카테고리, 수집 대상 사이트, 수집 파일 형식, 수집 제한 대상, 수집 주기, 수집 시점, 수집 데이터의 저장 방식 등을 포함할 수 있다.
전처리부(120)는 수집된 비정형 데이터에 대해 텍스트 추출, 문장 분리, 형태소 분석, 토큰화 및 불용어 제거를 수행할 수 있다.
수집된 비정형 데이터는 텍스트, 이미지, 표, 소스 코드(html, javascript, xml) 등이 포함될 수 있으므로, 먼저, 비정형 데이터로부터 분석 대상인 텍스트를 추출하고, 추출한 텍스트를 정제하고 구조화하는 과정을 수행한다.
텍스트 정제 및 구조화를 위해 형태소 분석, 문장 분리 및 불용어 제거를 수행할 수 있다.
먼저, 추출된 텍스트에 대해 형태소 분석을 수행할 수 있다.
여기서, 형태소 분석을 위해 Mecab, Kkma, Komoran, Okt 등의 형태소 분석기를 사용할 수 있다.
또한, 하나 이상의 형태소를 사용하여 분리하고, 각 형태소의 태그명을 통합하는 과정을 수행할 수 있다.
이때, 형태소 분석을 통해 토큰화를 수행할 수 있다. 본 발명에서 토큰화 단위는 의미를 포함하는 단어 단위가 바람직할 것이다.
형태소 분석 후에는 각 문장에 대한 형태소 태그를 부착할 수 있다. 이는 형태소 태그를 확인하여, 특정 형태소에 대한 제거, 토큰화를 하기 위함이다.
한편, 입력된 텍스트는 하나 이상의 문장으로 구성되거나, 하나의 문장으로 구성되어 있으나, 접속사로 연결된 문장을 포함할 수 있다. 따라서, 입력된 텍스트에 대해 문장으로 분리하고, 입력된 텍스트에 대해 분리된 하나 이상의 문장을 묶어 구조화하여 관리할 수 있다.
또한, 형태소 태그를 확인하여 불용 형태소를 제거할 수 있다.
불용 형태소는 문맥의 의도 분석에 불필요한 띄어쓰기, 문장 부호, 조사, 접속사, 어미 등을 포함할 수 있고, 명사와 형용사 중 불필요한 단어들을 정의하여 제거 대상으로 포함할 수 있다.
한편, 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어 주는 정규화를 수행할 수 있다.
텍스트의 정규화는 대, 소문자 통합, 한자를 한글로 변환 등을 포함할 수 있다.
문장 분류부(130)는 문장 단위로 분리된 텍스트를 사전 학습된 문장 분류 딥러닝 모델을 적용하여 적어도 하나 이상의 카테고리로 분류하여 그 결과를 저장한다.
여기서 문장 분류 딥러닝 모델은 상기 문장에서 인물, 공간 및 시간을 포함한 특정한 개체명을 인식하는 개체명 인식 모델, 문장의 긍정적 또는 부정적인 감성을 분석하는 감성 분석 모델, 문장의 의도를 분석하는 의도 분석 모델을 포함할 수 있고, 상기 언급된 모델들을 적어도 하나 이상 결합한 복수개의 앙상블 모델일 수 있다.
사전 학습된 분류 딥러닝 모델은 BERT(Bidirectional Encoder Representations from Transformers), ELMo(Embeddings from Language Models), ULMFiT(Universal Language Model Fine-tuning) 일 수 있다.
각각의 문장 분류 모델 또는 앙상블 모델로부터 분류된 카테고리는 해당 문장의 키워드, 유사도 비교, 중요 문장 판단 및 관련 데이터 수집 조건 등에 기초 데이터로 적용될 수 있다.
중요 문장 추출부(140)는 전처리한 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 적용하여 생성된 문서 단어 매트릭스를 통해 중요 문장을 추출하고, 중요 문장이 신규 중요 문장인지를 판단한다.
중요 문장 추출부(140)는 매트릭스 생성부(141), 중요 문장 판단부(142) 및 신규 문장 판단부(143)를 포함할 수 있다.
매트릭스 생성부(141)는 단어 단위로 토큰화 된 텍스트에 대해 단어 빈도 통계를 생성하여 문서 단어 매트릭스로 생성하고, 역문서 빈도를 계산하여 가중치로 적용한다.
보다 구체적으로 비정형 데이터로부터 추출된 텍스트는 적어도 하나 이상의 문장으로 구성될 수 있고, 각 문장은 단어 단위로 토큰화 되어 구조화되어 있다.
매트릭스 생성부(141)는 문장과 단어로 구조화된 데이터에 대해 단어의 등장 빈도를 수치화하여 매트릭스 형태로 생성하고, 단어들 마다 중요한 정도를 가중치로 반영하기 위해 역문서 빈도를 적용할 수 있다.
이렇게 생성된 문서 단어 매트릭스는 통해 문장의 중요도를 판단하는 기준으로 사용된다.
또한, 여러 개의 문장 중에 특정 단어가 특정 문장 내에서 얼마나 중요한 것인지를 나타내거나, 문장 내에서의 키워드 추출, 문장 간의 유사도를 구하는 등의 용도로 사용할 수 있다.
중요 문장 판단부(142)는 상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값을 비교하여 중요 문장 여부를 판단한다.
보다 구체적으로, 문서 단어 매트릭스의 수치값, 즉, 단어 빈도 및 역문서 빈도값이 설정된 중요도 기준값 이상인 경우, 해당 문장을 중요 문장으로 판단할 수 있다.
이때, 중요도 기준값은 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)의 설정 인터페이스를 통해 설정되거나, 기존에 중요 문장으로 판단되어 관리되는 중요 문장 리스트에 포함된 문장들의 중요도 평균값으로 자동 설정될 수 있다.
신규 문장 판단부(143)는 중요 문장 판단부(142)에 의해 중요 문장으로 판단된 문장과 기존에 등록된 중요 문장 리스트 간의 코사인 유사도를 비교하여, 상기 유사도가 사전에 설정된 임계치 이하인 경우, 상기 중요 문장으로 판단된 문장을 신규 중요 문장으로 판단하여 상기 중요 문장 리스트에 추가한다.
여기서, 신규 중요 문장은 새로운 정보를 의미할 수 있으며, 새로운 대상 또는 기존에 관리되는 대상에 대해 새로운 이슈, 주제, 긍정/부정 관심도 등을 의미하는 정보로 판단될 수 있다.
학습 자동화부(150)는 신규 중요 문장으로 판단된 문장을 학습시키기 위한 데이터 수집, 학습 데이터 생성 및 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 자동화된 프로세스를 적용하여 수행한다.
이때, 파이프라인 자동화(Pipeline Automation)를 통해 데이터 수집부터 학습 데이터 생성 및 모델 학습까지 데이터 처리 프로세스를 적용하여 수행할 수 있다.
학습 자동화부(150)는 데이터 수집 자동화부(151), 학습 데이터 생성 자동화부(152) 및 모델 학습부(153)를 포함할 수 있다.
데이터 수집 자동화부(151)는 신규 중요 문장에 포함된 대한 키워드, 상기 문장에 대해 사전 학습된 문장 분류 딥러닝 모델을 적용하여 분류된 카테고리 및 신규 중요 문장이 포함된 비정형 데이터에 대한 메타 정보를 사용하여 학습 데이터 수집을 위한 수집 조건을 생성하여 자동화 프로세스에 적용하고, 적어도 하나 이상의 수집 프로세스를 구동하여 상기 수집 조건에 따라 데이터를 수집한다.
보다 구체적으로, 데이터 수집 자동화부(151)는 신규 중요 문장에 관련된 데이터를 자동으로 수집하기 위해 로봇 프로세스 자동화(RPA)를 적용하여 데이터를 수집할 수 있다.
여기서, 데이터 수집의 자동화를 위해 수집할 데이터의 대상 사이트, 카테고리, 키워드를 조합하여 수집 조건을 생성한다.
수집 조건은 사전에 정해진 패턴, 정규식 등으로 표현될 수 있다.
카테고리는 신규 중요 문장에 대해 사전 학습된 문장 분류 딥러닝 모델을 적용하여 분류된 개체명, 의도, 긍정/부정의 감성, 의도의 분류 결과일 수 있다.
키워드는 중요도가 가장 높은 하나의 단어 또는 중요도가 기준값 이상인 복수개의 단어일 수 있고, 여기서, 중요도가 높은 단어는 문서 단어 매트릭스에서 단어 빈도 및 역문서 빈도값이 클수록 중요도가 높은 단어를 의미할 수 있다.
또한, 데이터 수집 자동화부(151)는 적어도 하나 이상의 수집 자동화 프로세스를 생성하고, 각 수집 자동화 프로세스로 수집 조건을 전달하여 데이터 수집을 지시할 수 있다.
이때, 수집 자동화 프로세스는 데이터 수집부(110)를 통해 데이터 수집 기능을 수행할 수 있고, 수집 자동화 프로세스는 병렬적으로 수행될 수 있다.
데이터 수집부(110)의 기능은 앞에서 설명하였으므로, 여기에서는 생략한다.
수집 자동화 프로세스는 설정된 수집 대상 사이트, 수집 파일 형식, 수집 제한 대상, 수집 주기, 수집 시간, 수집 데이터의 저장 방식 등을 확인하여 데이터 수집을 수행한다.
수집 자동화 프로세스는 수집 대상 사이트, 카테고리 별로 데이터를 분리하여 저장할 수 있다. 이때, 저장 형식은 파일 형태로 스토리지에 저장하거나 데이터베이스에 저장될 수 있다.
또한, 상기 수집 조건은 상기 데이터에 대한 메타 데이터로 관리되어 데이터 분석 시 함께 사용될 수 있다.
학습 데이터 생성 자동화부(152)는 로봇 프로세스 자동화(RPA)를 적용한 자동화 프로세스를 통해 수집된 데이터를 가공하고, 전처리하여 자동으로 학습 데이터를 생성한다.
보다 구체적으로, 학습 데이터 생성 자동화부(152)는 적어도 하나 이상의 전처리 자동화 프로세스를 생성하고, 데이터 전처리 및 가공을 지시할 수 있다.
이때, 전처리 자동화 프로세스는 전처리부(120)를 통해 전처리 작업을 수행하고, 전처리 자동화 프로세스는 병렬적으로 수행될 수 있다.
전처리부(120)의 기능은 앞에서 설명하였으므로, 여기에서는 생략한다.
또한, 학습 데이터 생성 자동화부(152)는 수집된 데이터 양을 확인하여, 데이터 전처리에 소요되는 시간을 계산한 후, 필요한 전처리 자동화 프로세스의 개수를 산정하고, 해당 프로세스를 생성하여 병렬적으로 전처리를 수행할 수 있다.
또한, 수집 대상 도메인 및 사이트에 따라 전처리 방식은 다르게 설정되어 적용될 수 있다.
예를 들어, 수집 대상이 뉴스 사이트인 경우, 카테고리(정치, 경제, 사회, 연예, 스포츠, 국외 등), 제목, 본문으로 나누어 저장될 수 있고, SNS(Social Network Service) 인 경우, 제목, 본문, 댓글, 태그, 사용자 프로필 등으로 나누어 저장될 수 있다.
모델 학습부(153)는 자동화된 프로세스를 통해 상기 학습 데이터를 적용하여 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 수행한다.
이때, 학습된 자동 문장 클러스터링 딥러닝 모델은 성능 평가를 위해 별도로 저장되어 관리될 수 있다.
학습 데이터는 여러 개의 훈련 데이터 셋으로 나뉘어 구성될 수 있고, 모델 학습 시 일정 개수의 데이터 셋을 학습시킨 후, 성능을 평가할 수 있다.
이때, 군집화 성능 평가 및 차원 축소 성능 평가를 통해 모델을 평가할 수 있다.
도 3은 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치의 하드웨어 구조를 나타낸 도면이다.
도 3을 참조하면, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)의 하드웨어 구조는, 중앙처리장치(1000), 메모리(2000), 사용자 인터페이스(3000), 데이터베이스 인터페이스(4000), 네트워크 인터페이스(5000), 웹서버(6000) 등을 포함하여 구성된다.
사용자 인터페이스(3000)는 그래픽 사용자 인터페이스(GUI, graphical user interface)를 사용함으로써, 사용자에게 입력과 출력 인터페이스를 제공한다.
데이터베이스 인터페이스(4000)는 데이터베이스와 하드웨어 구조 사이의 인터페이스를 제공한다.
네트워크 인터페이스(5000)는 사용자가 보유한 장치 간의 네트워크 연결을 제공한다.
웹 서버(6000)는 사용자가 네트워크를 통해 하드웨어 구조로 액세스하기 위한 수단을 제공한다. 대부분의 사용자들은 원격에서 웹 서버로 접속하여 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)를 사용할 수 있다.
상술한 구성 또는 방법의 각 단계는, 컴퓨터 판독 가능한 기록 매체 상의 컴퓨터 판독 가능 코드로 구현되거나 전송 매체를 통해 전송될 수 있다. 컴퓨터 판독 가능한 기록 매체는, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터를 저장할 수 있는 데이터 저장 디바이스이다.
컴퓨터 판독 가능한 기록 매체의 예로는 데이터베이스, ROM, RAM, CD-ROM, DVD, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 디바이스가 있으나 이에 한정되는 것은 아니다. 전송 매체는 인터넷 또는 다양한 유형의 통신 채널을 통해 전송되는 반송파를 포함할 수 있다. 또한 컴퓨터 판독 가능한 기록 매체는, 컴퓨터 판독 가능 코드가 분산 방식으로 저장되고, 실행되도록 네트워크 결합 컴퓨터 시스템을 통해 분배될 수 있다.
또한 본 발명에 적용된 적어도 하나 이상의 구성요소는, 각각의 기능을 수행하는 중앙처리장치(CPU), 마이크로프로세서 등과 같은 프로세서를 포함하거나 이에 의해 구현될 수 있으며, 상기 구성요소 중 둘 이상은 하나의 단일 구성요소로 결합되어 결합된 둘 이상의 구성요소에 대한 모든 동작 또는 기능을 수행할 수 있다. 또한 본 발명에 적용된 적어도 하나 이상의 구성요소의 일부는, 이들 구성요소 중 다른 구성요소에 의해 수행될 수 있다. 또한 상기 구성요소들 간의 통신은 버스(미도시)를 통해 수행될 수 있다.
도 4는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법에 대한 순서도이다.
이하, 도 4를 참조하여 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법에 대해 설명한다.
본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법은, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)에서 수행된다.
먼저, 도 4에서는 도시하지 않았으나, 전처리 단계(S410) 이전에 외부 서버(200)로부터 비정형 데이터를 수집하여 저장하는 단계를 수행할 수 있고, 데이터 수집부(110)에 의해 웹 스크래핑(Web Scraping), 웹 크롤링(Web Crawling), Open API 등을 사용하여 실시간 또는 주기적으로 수행될 수 있다.
데이터 수집 시, 대상 사이트, 카테고리, 주제, 수집 일시, 문서/글 작성자, 문서/글 작성일, 문서/글 형식 등의 메타 정보를 함께 수집하여, 데이터에 대한 메타 데이터로 저장할 수 있다.
이후, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 수집된 비정형 데이터에서 텍스트를 추출하고, 추출한 텍스트를 정제하는 전처리 단계를 수행한다. (S410)
여기서, 전처리 단계(S410)에서는 수집된 비정형 데이터에서 텍스트를 추출하고, 정제 및 구조화할 수 있다.
수집된 비정형 데이터는 텍스트, 이미지, 표, 소스 코드(html, javascript, xml) 등이 포함될 수 있으므로, 먼저, 비정형 데이터로부터 분석 대상인 텍스트를 추출하고, 형태소 분석 및 문장을 분리하여 구조화한 후, 불용어(불용 형태소)를 제거할 수 있다.
이후, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 전처리 단계에서 분리된 문장을 사전 학습된 문장 분류 딥러닝 모델을 적용하여 적어도 하나 이상의 카테고리로 분류하는 문장 분류 단계를 수행한다. (S420)
여기서 문장에서 인물, 공간 및 시간을 포함한 특정한 개체명을 인식하는 개체명 인식, 문장의 긍정적 또는 부정적인 감성을 분석하는 감성 분석 및 상기 문장의 의도를 분석하는 의도 분석을 개별적으로 수행하는 복수개의 딥러닝 모델 또는 개체명 인식, 감성 분석, 의도 분석을 서로 결합하여 수행하는 복수개의 딥러닝 모델을 적용하여 문장을 분류할 수 있다.
즉, 문장 분류 딥러닝 모델은 개체명 인식 모델, 감성 분석 모델, 의도 분석 모델을 포함하는 복수개의 딥러닝 모델이거나, 상기 언급된 모델들을 적어도 하나 이상 결합한 복수개의 앙상블 모델일 수 있다.
이렇게 문장 분류 단계를 통해 분류된 카테고리는 이후, 해당 문장의 키워드, 유사도 비교, 중요 문장 판단 및 관련 데이터 수집 조건 등에 기초 데이터로 사용될 수 있다.
다음으로, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 전처리 단계(S410)를 수행한 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 반영하여 문서 단어 매트릭스로 저장하는 TF-IDF 산출 단계를 수행한다. (S430)
TF-IDF 산출 단계(S430)에서는 텍스트 또는 문장 내의 중요한 단어 및 중요 문장을 추출하기 위해 각 단어의 중요도를 출현 빈도로 산출하고, 역문서 빈도를 반영한 가중치를 적용하여 수치화 한다.
TF-IDF 산출 단계(S430)는 먼저, 단어 단위로 토큰화된 텍스트에 대해 단어 빈도 통계를 생성하여 문서 단어 매트릭스를 생성하고, 상기 문서 단어 매트릭스에 각 단어의 역문서 빈도를 계산하여 가중치로 적용하여 수치화할 수 있다.
이후, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값(TF_IDF)을 확인하여 중요 문장을 추출하는 중요 문장 추출 단계를 수행한다. (S440)
중요 문장 추출은 문서 단어 매트릭스의 수치값, 즉, 단어 빈도 및 역문서 빈도값이 설정된 중요도 기준값 이상인 경우, 해당 문장을 중요 문장으로 판단할 수 있다.
다음으로, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 추출된 중요 문장을 유사도 행렬 비교를 통해 중요 문장 리스트와 비교하여 신규 중요 문장 여부를 판단하는 신규 중요 문장 판단 단계를 수행한다. (S450)
유사도 행렬 비교는 중요 문장으로 추출된 문장과 중요 문장 리스트 두 문장 간의 코사인 유사도를 비교하여, 상기 유사도가 사전에 설정된 임계치 이하인 경우, 중요 문장으로 추출된 문장을 신규 중요 문장으로 판단하여 상기 중요 문장 리스트에 추가한다.
S450단계에서 추출된 중요 문장이 신규 중요 문장으로 판단되면, 자동화된 프로세스를 적용하여 신규 중요 문장에 대한 학습 데이터 수집, 생성 및 자동 문장 클러스터링 딥러닝 모델 학습을 수행하는 학습 자동화 단계를 수행한다. (S460)
즉, 신규 중요 문장으로 판단되면, 해당 신규 중요 문장에 대한 모델 학습이 필요한 것으로 판단하고, 상기 신규 중요 문장에 대한 데이터를 수집하여 자동 문장 클러스터링 딥러닝 모델을 학습시키기 위한 프로세스를 수행하게 된다.
이때, 데이터 수집 및 모델 학습은 로봇 자동화 프로세스(RPA)를 통해 수행된다.
도 5는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법에서 신규 중요 문장에 대한 학습 자동화 단계에 대한 상세 순서도이다.
도 5를 참조하여 학습 자동화 단계(S460)에 대해 자세히 설명한다.
신규 중요 문장으로 판단되면, 해당 문장에 포함된 대한 키워드, 상기 문장 분류 단계에서 분류된 카테고리 및 수집된 비정형 데이터에 대한 메타 데이터를 사용하여 학습 데이터 수집을 위한 수집 조건을 생성한다. (S461)
이때, 수집 조건은 사전에 정해진 패턴, 정규식 등으로 표현될 수 있다.
이렇게 생성된 수집 조건을 수집 자동화 프로세스에 적용하고, 데이터 수집을 지시한다. (S462)
수집 자동화 프로세스는 수집 대상 사이트, 카테고리 별로 적어도 하나 이상이 실행되어 병렬적으로 수행될 수 있고, 수집 조건도 상이하게 적용될 수 있다.
수집 자동화 프로세스는 설정된 수집 조건에 따라 데이터를 수집하여 저장한다. (S463)
이후, 전처리 자동화 프로세스를 통해 수집된 데이터를 가공하고, 전처리하여 학습 데이터를 생성한다. (S464)
이때, 적어도 하나 이상의 전처리 자동화 프로세스가 실행되어 전처리 작업을 수행할 수 있고, 실행되는 프로세스의 개수는 수집된 데이터 양과 데이터 전처리에 소요되는 시간에 따라 결정될 수 있다.
또한, 데이터 전처리는 수집 대상 사이트에 따라 전처리 방식이 다르게 설정되어 적용될 수 있다.
데이터 전처리가 완료되어 학습 데이터가 생성되면, 상기 학습 데이터를 적용하여 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 수행한다. (S465)
이때, 학습 데이터의 양에 따라 여러 개의 훈련 데이터 셋으로 나누어 모델을 학습하고, 성능을 평가하게 된다.
상기 S461 내지 S465를 포함하는 학습 자동화 단계(S460)는 스크립트화 된 자동화 프로세스를 통해 파이프라인 자동화(Pipeline Automation)를 적용하여 수행될 수 있다.
상기에서는 본 발명에 따른 실시예를 기준으로 본 발명의 구성과 특징을 설명하였으나 본 발명은 이에 한정되지 않으며, 본 발명의 사상과 범위 내에서 다양하게 변경 또는 변형할 수 있음은 본 발명이 속하는 기술분야의 당업자에게 명한 것이며, 따라서 이와 같은 변경 또는 변형은 첨부된 특허청구범위에 속함을 밝혀둔다.
100: 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치
110: 데이터 수집부 120: 전처리부
130: 문장 분류부
140: 중요 문장 추출부
141: 매트릭스 생성부 142: 중요 문장 판단부
143: 신규 문장 판단부
150: 학습 자동화부
151: 데이터 수집 자동화부
152: 학습 데이터 생성 자동화부
153: 모델 학습부
200: 외부 서버
110: 데이터 수집부 120: 전처리부
130: 문장 분류부
140: 중요 문장 추출부
141: 매트릭스 생성부 142: 중요 문장 판단부
143: 신규 문장 판단부
150: 학습 자동화부
151: 데이터 수집 자동화부
152: 학습 데이터 생성 자동화부
153: 모델 학습부
200: 외부 서버
Claims (12)
- 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치에서, 외부 서버로부터 비정형 데이터를 수집하는 단계;
수집된 비정형 데이터에서 텍스트를 추출하고, 추출한 텍스트를 정제 및 구조화하는 전처리 단계;
상기 전처리 단계에서 분리된 문장을 사전 학습된 문장 분류 딥러닝 모델을 적용하여 적어도 하나 이상의 카테고리로 분류하는 문장 분류 단계;
상기 전처리 단계를 수행한 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 반영하여 문서 단어 매트릭스로 저장하는 TF-IDF 산출 단계;
상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값을 확인하여 중요 문장을 추출하는 중요 문장 추출 단계;
추출된 중요 문장을 유사도 행렬 비교를 통해 중요 문장 리스트와 비교하여 신규 중요 문장 여부를 판단하는 신규 중요 문장 판단 단계; 및
신규 중요 문장으로 판단되면, 자동화된 프로세스를 적용하여 신규 중요 문장에 대한 학습 데이터 수집, 생성 및 자동 문장 클러스터링 딥러닝 모델 학습을 수행하는 학습 자동화 단계;를 포함하고,
상기 신규 중요 문장 판단 단계는,
상기 중요 문장 추출 단계에서 중요 문장으로 판단된 문장과 기존에 등록된 중요 문장 리스트 간의 코사인 유사도를 비교하여, 상기 유사도가 사전에 설정된 임계치 이하인 경우, 신규 중요 문장으로 판단하는 것을 특징으로 하며,
상기 학습 자동화 단계는,
신규 중요 문장으로 판단된 문장에 포함된 대한 키워드, 상기 문장 분류 단계에서 분류된 카테고리 및 수집된 비정형 데이터에 대한 메타 데이터를 사용하여 학습 데이터 수집을 위한 수집 조건을 생성하는 단계;
적어도 하나 이상의 수집 자동화 프로세스를 생성하고, 각 수집 자동화 프로세스로 수집 조건을 전달하여 데이터 수집을 지시하는 단계;
상기 수집 자동화 프로세스를 통해 데이터를 수집하여 저장하는 단계;
적어도 하나 이상의 전처리 자동화 프로세스를 통해 수집된 데이터를 가공하고, 전처리하여 학습 데이터를 생성하는 단계; 및
학습 자동화 프로세스를 통해 상기 학습 데이터를 적용하여 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 수행하는 단계;를 포함하는,
자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법.
- 제 1항에 있어서,
상기 전처리 단계는,
상기 수집된 비정형 데이터에서 텍스트를 추출하는 단계;
상기 텍스트에서 형태소 분석 및 문장을 분리하여 구조화하는 단계; 및
구조화한 상기 텍스트에서 불용어를 제거하는 단계;를 포함하는,
자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법.
- 제 1항에 있어서,
상기 문장 분류 단계는,
상기 문장에서 인물, 공간 및 시간을 포함한 특정한 개체명을 인식하는 개체명 인식;
상기 문장의 긍정적 또는 부정적인 감성을 분석하는 감성 분석; 및
상기 문장의 의도를 분석하는 의도 분석;을 개별적으로 수행하는 복수개의 딥러닝 모델 또는 상기 개체명 인식, 상기 감성 분석, 상기 의도 분석을 서로 결합하여 수행하는 복수개의 딥러닝 모델을 적용하여 문장을 분류하는 것을 특징으로 하는,
자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법.
- 제 1항에 있어서,
상기 TF-IDF 산출 단계는,
단어 단위로 토큰화된 텍스트에 대해 단어 빈도 통계를 생성하여 문서 단어 매트릭스를 생성하는 단계; 및
상기 문서 단어 매트릭스에 각 단어의 역문서 빈도를 계산하여 가중치로 적용하는 단계;를 포함하는,
자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법.
- 제 1항에 있어서,
상기 중요 문장 추출 단계는,
상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값이 설정된 중요도 기준값 이상인 경우, 해당 문서를 중요 문장으로 판단하는 것을 특징으로 하는,
자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법.
- 삭제
- 삭제
- 외부 서버로부터 비정형 데이터를 수집하는 데이터 수집부;
수집된 상기 비정형 데이터에 대해 텍스트 추출, 형태소 분석, 문장 분리 및 불용어 제거를 수행하는 전처리부;
문장 단위로 분리된 각각의 문장을 사전 학습된 문장 분류 딥러닝 모델을 통하여 적어도 하나 이상의 카테고리로 분류하는 문장 분류부;
전처리한 상기 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 적용하여 생성된 문서 단어 매트릭스를 통해 중요 문장을 추출하고, 상기 중요 문장이 신규 중요 문장인지를 판단하는 중요 문장 추출부; 및
신규 중요 문장으로 판단된 문장을 학습시키기 위한 데이터 수집, 학습 데이터 생성 및 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 자동화된 프로세스를 적용하여 수행하는 학습 자동화부;를 구비하고,
상기 중요 문장 추출부는,
상기 중요 문장 판단부에 의해 중요 문장으로 판단된 문장과 기존에 등록된 중요 문장 리스트 간의 코사인 유사도를 비교하여, 상기 유사도가 사전에 설정된 임계치 이하인 경우, 신규 중요 문장으로 판단하여 상기 중요 문장 리스트에 추가하는 신규 문장 판단부;를 포함하고,
상기 학습 자동화부는,
상기 신규 중요 문장에 포함된 대한 키워드, 상기 문장에 대해 사전 학습된 문장 분류 딥러닝 모델을 적용하여 분류된 카테고리 및 상기 신규 중요 문장이 포함된 비정형 데이터에 대한 메타 정보를 사용하여 학습 데이터 수집을 위한 수집 조건을 생성하고, 적어도 하나 이상의 수집 자동화 프로세스에 적용하여 상기 수집 조건에 따라 데이터를 수집하는 데이터 수집 자동화부;
적어도 하나 이상의 전처리 자동화 프로세스를 통해 수집된 데이터를 가공하고, 전처리하여 학습 데이터를 생성하는 학습 데이터 생성 자동화부; 및
학습 자동화 프로세스를 통해 상기 학습 데이터를 적용하여 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 수행하는 모델 학습 자동화부;를 포함하는,
자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치.
- 제 8항에 있어서,
상기 문장 분류 딥러닝 모델은,
상기 문장에서 인물, 공간 및 시간을 포함한 특정한 개체명을 인식하는 개체명 인식;
상기 문장의 긍정적 또는 부정적인 감성을 분석하는 감성 분석; 및
상기 문장의 의도를 분석하는 의도 분석;을 개별적으로 수행하는 복수개의 모델이거나, 상기 개체명 인식, 상기 감성 분석, 상기 의도 분석을 서로 결합하여 수행하는 복수개의 모델인 것을 특징으로 하는,
자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치.
- 제 8항에 있어서,
상기 중요 문장 추출부는,
단어 단위로 토큰화 된 텍스트에 대해 단어 빈도 통계를 생성하여 문서 단어 매트릭스로 생성하고, 역문서 빈도를 계산하여 가중치로 적용하는 매트릭스 생성부; 및
상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값을 비교하여 중요 문장 여부를 판단하는 중요 문장 판단부;를 더 포함하는,
자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치.
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230048429A KR102580512B1 (ko) | 2023-04-12 | 2023-04-12 | 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230048429A KR102580512B1 (ko) | 2023-04-12 | 2023-04-12 | 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102580512B1 true KR102580512B1 (ko) | 2023-09-20 |
Family
ID=88191451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230048429A KR102580512B1 (ko) | 2023-04-12 | 2023-04-12 | 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102580512B1 (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020072140A (ko) * | 2001-03-09 | 2002-09-14 | 서정연 | 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 |
KR20180117458A (ko) * | 2017-04-19 | 2018-10-29 | 아시아나아이디티 주식회사 | 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치 |
KR20220141000A (ko) * | 2021-04-12 | 2022-10-19 | 경기대학교 산학협력단 | 비정형 데이터 기반 교통 위험 탐지 시스템 및 방법 |
KR20230046494A (ko) * | 2021-09-30 | 2023-04-06 | (주)모니터랩 | 머신러닝 기반 url 카테고리 자동 분류 방법 및 시스템 |
-
2023
- 2023-04-12 KR KR1020230048429A patent/KR102580512B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020072140A (ko) * | 2001-03-09 | 2002-09-14 | 서정연 | 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 |
KR20180117458A (ko) * | 2017-04-19 | 2018-10-29 | 아시아나아이디티 주식회사 | 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치 |
KR20220141000A (ko) * | 2021-04-12 | 2022-10-19 | 경기대학교 산학협력단 | 비정형 데이터 기반 교통 위험 탐지 시스템 및 방법 |
KR20230046494A (ko) * | 2021-09-30 | 2023-04-06 | (주)모니터랩 | 머신러닝 기반 url 카테고리 자동 분류 방법 및 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Salloum et al. | Mining social media text: extracting knowledge from Facebook | |
US10706113B2 (en) | Domain review system for identifying entity relationships and corresponding insights | |
US9990356B2 (en) | Device and method for analyzing reputation for objects by data mining | |
CN112581006B (zh) | 筛选舆情信息及监测企业主体风险等级的舆情系统及方法 | |
CN108563620A (zh) | 文本自动写作方法和系统 | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
Avasthi et al. | Techniques, applications, and issues in mining large-scale text databases | |
Hannan et al. | Data Mining and Natural Language Processing Methods for Extracting Opinions from Customer Reviews | |
Sarawgi et al. | Opinion mining: aspect level sentiment analysis using SentiWordNet and Amazon web services | |
CN117009524B (zh) | 一种基于舆情情感分析的互联网大数据分析方法及系统 | |
Bhatia et al. | Opinion target extraction with sentiment analysis | |
Sandhu et al. | Enhanced Text Mining Approach for Better Ranking System of Customer Reviews | |
Rawat et al. | Topic modelling of legal documents using NLP and bidirectional encoder representations from transformers | |
KR20190048781A (ko) | 온라인 의견 정보 수집 및 분석 시스템 | |
Omondiagbe et al. | Features that predict the acceptability of java and javascript answers on stack overflow | |
Atoum et al. | A framework to predict software “quality in use” from software reviews | |
Tan et al. | Constructing and interpreting causal knowledge graphs from news | |
WO2022178153A1 (en) | Framework for early warning of domain-specific events | |
KR102580512B1 (ko) | 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법 | |
Voronov et al. | Forecasting popularity of news article by title analyzing with BN-LSTM network | |
US11068376B2 (en) | Analytics engine selection management | |
Gupta et al. | Tools of opinion mining | |
Alagarsamy et al. | A fuzzy content recommendation system using similarity analysis, content ranking and clustering | |
Ma et al. | Api prober–a tool for analyzing web api features and clustering web apis | |
Tao et al. | Mining Pain Points from Hotel Online Comments Based on Sentiment Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |