[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR101904643B1 - Article generation method using the decision tree - Google Patents

Article generation method using the decision tree Download PDF

Info

Publication number
KR101904643B1
KR101904643B1 KR1020170018161A KR20170018161A KR101904643B1 KR 101904643 B1 KR101904643 B1 KR 101904643B1 KR 1020170018161 A KR1020170018161 A KR 1020170018161A KR 20170018161 A KR20170018161 A KR 20170018161A KR 101904643 B1 KR101904643 B1 KR 101904643B1
Authority
KR
South Korea
Prior art keywords
decision tree
data
article
learning
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR1020170018161A
Other languages
Korean (ko)
Other versions
KR20180092463A (en
Inventor
한연희
용상혁
고현영
김주봉
Original Assignee
한국기술교육대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국기술교육대학교 산학협력단 filed Critical 한국기술교육대학교 산학협력단
Priority to KR1020170018161A priority Critical patent/KR101904643B1/en
Publication of KR20180092463A publication Critical patent/KR20180092463A/en
Application granted granted Critical
Publication of KR101904643B1 publication Critical patent/KR101904643B1/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06F17/2705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • G06F17/30702

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 의사결정트리를 이용한 기사 생성방법에 관한 것으로, 의사결정트리를 학습시키기 위한 학습데이터를 수집하는 단계; 상기 수집된 학습데이터는 데이터베이스에 저장이 가능하고 수집된 데이터를 의사결정트리가 학습하기 용이하게 수치 데이터로 바꾸어 주는 학습데이터 가공하는 단계; 상기 가공한 학습데이터를 거친 데이터를 학습하여 의사결정트리를 생성하고, 완성된 의사결정트리에 대한 타당성을 판단하는 단계; 및 상기 의사결정트리를 활용하여 검출된 텍스트와 기존 데이터를 조합하여 기사를 생성하는 단계;를 포함하는 것을 특징으로 한다. The present invention relates to a method of generating an article using a decision tree, comprising: collecting learning data for learning a decision tree; Processing the collected learning data so that the collected learning data can be stored in a database and converting the collected data into numerical data for easy learning by a decision tree; Generating a decision tree by learning data processed through the processed learning data, and determining the validity of the completed decision tree; And generating an article by combining the detected text and existing data using the decision tree.

Description

의사결정트리를 이용한 기사 생성 방법{ARTICLE GENERATION METHOD USING THE DECISION TREE}[0001] ARTICLE GENERATION METHOD USING THE DECISION TREE [0002]

본 발명은 의사결정트리를 이용한 기사 생성방법에 관한 것으로, 더욱 상세하게는 의사결정트리를 이용하여 텍스트를 검출해 내는 의사결정트리를 이용한 기사 생성 방법에 관한 것이다.The present invention relates to an article generating method using a decision tree, and more particularly, to an article generating method using a decision tree for detecting text using a decision tree.

최근 들어 기사를 작성하기 위하여 사용되는 배경 데이터의 양이 엄청나게 많아짐에 따라 사람이 일일이 읽어보고 기사를 분류하는 것은 분류에 걸리는 시간 및 데이터 가공 속도가 느릴 뿐만 아니라 판단의 오류가 발생 할 수도 있다. In recent years, as the amount of background data used to create an article has increased enormously, it is not only slow in the time taken for classification and data processing, but also may cause a judgment error when a person reads individual articles and classifies articles.

이러한 작업에서 발생하는 실수를 줄이고 시간과 인력 비용을 절감 할 수 있도록 하기 위해서 제공되는 종래의 자동 기사 생성 방법으로는, 문장을 구성하는데 있어 틀에 단순히 데이터베이스에 저장되어 있는 데이터의 값을 포함시키는 방법으로 기사가 생성되기는 하나, 이는 단순히 데이터베이스에 저장되어 있는 데이터 값을 포함시킨 것으로 그 데이터 값을 분석하여 기사에 필요한 텍스트를 이용하는 기사다운 기사를 생성하기에는 역부족이었다. Conventional automatic article generation methods, which are provided to reduce the mistakes that occur in such jobs and reduce time and manpower costs, include a method of simply including a value of data stored in a database in a frame in constructing a sentence , But it simply contains data values stored in the database, and it was not enough to analyze the data values to generate article articles using the text required for the articles.

따라서 모든 기사가 같은 형식을 유지하였으며 기사가 모두 같은 느낌을 주는 문제점이 있었다.Therefore, all the articles maintained the same format, and the articles all had the same feeling.

대한민국 공개특허공보 제 10-2006-0004909 호(공개일자: 2006년 01월 16일, 발명의 명칭: 시맨틱 지식의 검색, 관리, 포착, 공유, 발견, 전달 및프리젠테이션 시스템 및 방법, 출원인: 너바나, 인코퍼레이티드)Korean Patent Application No. 10-2006-0004909 (Publication Date: Jan. 16, 2006 Title of invention: search, management, capture, sharing, discovery, delivery and presentation system and method of semantic knowledge Applicant: Nirvana , Incorporated)

따라서 본 발명이 이루고자 하는 기술적 과제는 별도로 사람의 작업이 없이 손쉽게 완성도 높은 기사가 생성될 수 있도록 기존 데이터와 의사결정트리를 활용 하여 검출한 데이터를 조합하여 완전한 문장으로 생성하는 의사결정트리를 이용한 기사 생성 방법을 제공하는 데 있다.SUMMARY OF THE INVENTION Accordingly, the present invention has been made keeping in mind the above problems occurring in the prior art, and it is an object of the present invention to provide an apparatus and method for generating a complete sentence by combining detected data using existing data and a decision tree, And to provide a method of generating the same.

본 발명의 한 특징에 따른 의사결정트리를 이용한 기사 생성방법은, 의사결정트리를 학습시키기 위한 학습데이터를 수집하는 단계; 상기 수집된 학습데이터는 데이터베이스에 저장이 가능하고 수집된 데이터를 의사결정트리가 학습하기 용이하게 수치 데이터로 바꾸어 주는 학습데이터 가공하는 단계; 상기 가공한 학습데이터를 거친 데이터를 학습하여 의사결정트리를 생성하고, 완성된 의사결정트리에 대한 타당성을 판단하는 단계; 및 상기 의사결정트리를 활용하여 검출된 텍스트와 기존 데이터를 조합하여 기사를 생성하는 단계;를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a method of generating an article using a decision tree, the method comprising: collecting learning data for learning a decision tree; Processing the collected learning data so that the collected learning data can be stored in a database and converting the collected data into numerical data for easy learning by a decision tree; Generating a decision tree by learning data processed through the processed learning data, and determining the validity of the completed decision tree; And generating an article by combining the detected text and existing data using the decision tree.

상기 의사결정트리를 학습시키기 위한 학습데이터는 오픈API 및 파싱을 통하여 수집하는 것을 특징으로 한다.And learning data for learning the decision tree is collected through an open API and parsing.

이러한 특징에 따르면, 의사결정트리를 이용한 기사를 자동적으로 생산하는 과정 중에서 수집할 수 없는 텍스트를 의사결정트리를 이용하여 검출하여 기사를 작성함으로써, 단시간에 기사를 생성할 뿐만 아니라 별도의 작업 없이도 완성도 높은 기사를 생성할 수 있는 효과가 있다.According to this feature, in the process of automatically producing an article using a decision tree, text that can not be collected is detected by using a decision tree to create an article, thereby generating an article in a short time, It has the effect of generating high articles.

도 1은 본 발명의 일 실시예에 따른 의사결정트리를 이용한 기사 생성 방법의 흐름도이다.1 is a flowchart of an article generating method using a decision tree according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

그러면 본 발명의 한 실시예에 따른 의사결정트리를 이용한 기사 생성방법에 대하여 설명한다.A method of generating an article using a decision tree according to an embodiment of the present invention will now be described.

도 1은 본 발명의 한 실시예에 따른 의사결정트리를 이용한 기사 생성방법의흐름도이다.1 is a flowchart of an article generating method using a decision tree according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 의사결정트리를 이용한 기사 생성방법은, 자동 기사 생성의 과정에서 필요로 하는 텍스트에 대해 기존 데이터를 분석하여 자동으로 텍스트를 검출하여 별도의 처리 시간과 인력 비용을 들이지 않고 손쉽게 기사를 완성할 수 있도록 하기 위한 의사결정트리를 이용한 기사 생성 방법에 관한 것으로, 의사결정트리를 학습시키기 위한 학습데이터는 오픈API 및 파싱을 통한 학습데이터를 수집하는 단계(S100), 상기 단계(S100)에서 수집된 데이터는 데이터베이스에 저장이 가능하고 수집된 데이터를 의사결정트리가 학습하기 용이하게 수치 데이터로 바꾸어주는 학습 데이터 가공하는 단계(S200), 상기의 학습데이터 가공단계(S200)를 거친 데이터를 학습하여 의사결정트리를 생성하고(S300), 완성된 의사결정트리에 대한 타당성을 판단하는 단계(S400)를 통하여 의사결정트리의 완성도를 확인하고, 상기의 의사결정트리 타당성 판단하는 단계(S400)에서 통과한 의사결정트리를 활용하여(S500) 검출된 텍스트와 기존 데이터를 조합하여 기사를 생성 하는 단계(S600)를 포함한다.Referring to FIG. 1, an article generating method using a decision tree of the present invention analyzes existing data of a text required in the process of generating an automatic article, automatically detects a text, The learning data for learning a decision tree includes a step of collecting learning data through an open API and parsing (S100), a step of collecting learning data through an open API and parsing, The data collected in the step S100 may be stored in a database, and a learning data processing step S200 may be performed to convert the collected data into numerical data so that the decision tree can be easily learned. In the learning data processing step S200, (S300), and judges the validity of the completed decision tree The completion of the decision tree is confirmed through step S400 and the decision tree validity is determined using the decision tree passed in step S400, (S600).

상기한 방법의 학습 데이터 수집과정(S100)은 웹상에 존재하는 데이터를 오픈API이용 및 데이터를 파싱하여 데이터베이스에 저장하는 것으로, 데이터를 가져오는데 있어 프로그램 도구는 상관없으며 학습 데이터 가공과정(S200)을 거치더라도 기존의 수집된 데이터는 기사에 사용될 수 있으므로 그대로의 상태로 데이터베이스에 저장한다.In the learning data collection process S100 of the above method, the data existing on the web is parsed using the open API and the data is stored in the database. The program tool for fetching data does not matter, Even if you do, existing collected data can be used in an article, so it is stored in the database as it is.

또한, 상기 학습 데이터 수집과정(S100)은 의사결정트리 생성과정(S300)에 사용하기 위해 필요한 데이터를 수집하는 과정으로 수치데이터의 변화 및 같은 텍스트의 반복과 같은 특징이 존재하는 데이터를 중심으로 수집하여 학습 데이터 가공(S200) 작업에 오류를 감소시킬 수 있다.The learning data collection step S100 is a step of collecting data necessary for use in the decision tree generation step S300. The learning data collection step S100 is a step of collecting data necessary for use in the decision tree generation step S300, Thereby reducing errors in the learning data processing (S200) operation.

상기 학습 데이터 가공단계(S200)에서의 작업은 의사결정트리 생성과정(S300)에 맞추어 수집한 데이터를 수치 데이터로 변환시키는 알고리즘을 필요로 하는 작업이다. 이 때 알고리즘에 의해 변환된 수치 데이터의 종류는 10개 이하로 설정하여 데이터 반복의 정도를 판단할 수 있다.The work in the learning data processing step (S200) is a task that requires an algorithm for converting data collected in accordance with the decision tree generation step (S300) into numerical data. In this case, the number of types of numerical data converted by the algorithm can be set to 10 or less so that the degree of data repetition can be determined.

상기 수치 데이터로 변환시키는 학습 데이터 가공단계(S200)를 거친 데이터를 기반으로 의사결정트리 생성(S300)작업을 진행한다. And a decision tree generation step (S300) is performed on the basis of the data having been subjected to the learning data processing step (S200) for converting the data into the numerical data.

이 때 완성된 의사결정트리는 의사결정트리 타당성 판단(S400)작업에 의해 미리 설정된 기준을 만족해야 채택이 된다. 본 실시예에서는 100개의 표본으로 테스트를 시행하여 신뢰도 95%이상이 되는 경우에는 채택을 하고, 95%보다 적을 경우에는 다시 학습 데이터 가공(S200)작업을 거쳐 의사결정트리 생성(S300)작업을 반복해서 95%이상이 될 경우에는 채택을 하게 된다.At this time, the completed decision tree satisfies the predetermined criteria by the decision tree validity determination operation (S400). In the present embodiment, 100 test samples are used. If the reliability is 95% or more, adoption is made. If the reliability is less than 95%, a decision tree is generated (S200) If it is more than 95%, adoption will be done.

상기 의사결정트리 생성단계(S300)을 거쳐 생성된 의사결정트리를 활용하는 방법은 조건에 맞추어 분류가 진행되는 것을 특징으로 하는 기계학습의 대표적인 방법으로 학습데이터의 흐름을 파악하여 클래스 값을 검출해 내는 것을 특징으로 한다.The method of utilizing the decision tree generated through the decision tree generation step (S300) is a typical method of machine learning characterized in that classification is performed according to the condition, and the class value is detected by grasping the flow of the learning data .

기사 생성 단계(S600)은 검출한 클래스 값에 해당하는 텍스트와 기존 기사에 필요한 데이터 값을 만들어 둔 문장 틀에 조합하여 기사를 완성시키는 것을 특징으로 한다. The article generating step S600 is characterized by combining the text corresponding to the detected class value and the data values necessary for the existing article into a sentence frame created to complete the article.

이 때 문장의 틀은 가능한 다양하게 만들어 주어야 기사의 다양한 형식의 생성이 가능하다.At this time, the sentence frame should be made as diverse as possible so that various types of articles can be created.

이러한 본 발명의 방법이 적용된 의사결정트리를 이용한 기사 생성방법은 자동 기사 생성의 과정에서 필요로 하는 텍스트에 대해 기존 데이터를 분석하여 자동으로 텍스트를 검출하여 별도의 처리 시간과 인력 비용을 들이지 않고 손쉽게 기사를 완성할 수 있도록 한 것이다.The method of generating an article using a decision tree to which the method of the present invention is applied can automatically detect text by analyzing existing data on a text required in the process of generating an automatic article, So that the article can be completed.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, It belongs to the scope of right.

Claims (2)

의사결정트리를 학습시키기 위한 학습데이터를 오픈API 및 파싱을 통하여 수집하는 단계;
상기 수집된 학습데이터는 데이터베이스에 저장이 가능하고 수집된 데이터를 의사결정트리가 학습하기 용이하게 수치 데이터로 바꾸어 주는 학습데이터 가공하는 단계;
상기 가공한 학습데이터를 거친 데이터를 학습하여 의사결정트리를 생성하고, 완성된 의사결정트리에 대한 타당성을 판단하여 의사결정트리의 완성도를 확인하는 단계; 및
상기 의사결정트리를 활용하여 검출된 텍스트와 기존 데이터를 조합하여 기사를 생성하는 단계;를 포함하고,
상기 기사를 생성하는 단계는 검출한 클래스 값에 해당하는 텍스트와 기존 기사에 필요한 데이터 값을 만들어 둔 문장 틀에 조합하여 기사를 완성시키는 것을 특징으로 하는 의사결정트리를 이용한 기사 생성방법.
Collecting learning data for learning a decision tree through an open API and parsing;
Processing the collected learning data so that the collected learning data can be stored in a database and converting the collected data into numerical data for easy learning by a decision tree;
Generating a decision tree by learning data processed through the processed learning data, determining the validity of the completed decision tree, and confirming the completeness of the decision tree; And
And generating an article by combining the detected text and existing data using the decision tree,
Wherein the step of generating the article comprises combining the text corresponding to the detected class value and the sentence frame in which the data values necessary for the existing article are created, to complete an article using the decision tree.
삭제delete
KR1020170018161A 2017-02-09 2017-02-09 Article generation method using the decision tree Expired - Fee Related KR101904643B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170018161A KR101904643B1 (en) 2017-02-09 2017-02-09 Article generation method using the decision tree

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170018161A KR101904643B1 (en) 2017-02-09 2017-02-09 Article generation method using the decision tree

Publications (2)

Publication Number Publication Date
KR20180092463A KR20180092463A (en) 2018-08-20
KR101904643B1 true KR101904643B1 (en) 2018-10-05

Family

ID=63443237

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170018161A Expired - Fee Related KR101904643B1 (en) 2017-02-09 2017-02-09 Article generation method using the decision tree

Country Status (1)

Country Link
KR (1) KR101904643B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145518B (en) * 2018-10-11 2022-10-04 莫毓昌 Method for constructing reliability decision graph model of large-scale complex equipment

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101377114B1 (en) 2012-10-11 2014-03-24 한양대학교 에리카산학협력단 News snippet generation system and method for generating news snippet

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1599811A4 (en) 2003-02-14 2008-02-06 Nervana Inc System and method for semantic knowledge retrieval, management, capture, sharing, discovery, delivery and presentation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101377114B1 (en) 2012-10-11 2014-03-24 한양대학교 에리카산학협력단 News snippet generation system and method for generating news snippet

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
강정수, 로봇저널리즘, 정보통신정책연구원 ICT 인문사회융합 동향 (2014) Vol.2 pp.14-25 (2014.06.30)

Also Published As

Publication number Publication date
KR20180092463A (en) 2018-08-20

Similar Documents

Publication Publication Date Title
TWI746914B (en) Detective method and system for activity-or-behavior model construction and automatic detection of the abnormal activities or behaviors of a subject system without requiring prior domain knowledge
US12106095B2 (en) Deep learning-based java program internal annotation generation method and system
CN105975604B (en) The iterative data processor abnormality detection of one kind distribution and diagnostic method
CN112733156B (en) Intelligent detection method, system and medium for software vulnerability based on code attribute graph
TW200731105A (en) Model manufacturing device, model manufacturing system and abnormal detector
WO2010075661A1 (en) File type recognition analysis method and system
CN102156740A (en) SQL (structured query language) statement processing method and system
CN109948340A (en) A PHP-Webshell Detection Method Combining Convolutional Neural Network and XGBoost
CN103365780A (en) Method and device for calculating coverage rate of abnormal test
CN113590421B (en) Log template extraction method, program product and storage medium
JP2008102758A (en) Method for preparing fmea (failure mode effect analysis) sheet and automatic preparation apparatus of fmea sheet
CN113849413A (en) Code rule checking method and system based on knowledge base feature matching
CN109389972B (en) Quality testing method and device for semantic cloud function, storage medium and equipment
KR101904643B1 (en) Article generation method using the decision tree
WO2003014966A2 (en) An apparatus and method for extracting information from a formatted document
CN118674169A (en) Intelligent analysis method, system, device and medium for deep mining of enterprise data
WO2015141723A1 (en) Source code generation and provision device, and source code generation and provision method
CN103778210A (en) Method and device for judging specific file type of file to be analyzed
CN109344155B (en) Automatic recording method and device for wood measurement information, electronic equipment and storage medium
CN114065759A (en) Model failure detection method and device, electronic equipment and medium
Mahjourian et al. Sanitizing Manufacturing Dataset Labels Using Vision-Language Models
WO2015184750A1 (en) Data maintenance method and device of network element device
CN112685303A (en) Code circle complexity detection method and device, computer equipment and storage medium
KR20220061569A (en) Outlier Detecting and Removing Method
CN110704068B (en) Processing method and system for cross-file collaborative program analysis based on database

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20170209

PA0201 Request for examination
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20171220

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20180628

PG1501 Laying open of application
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20180927

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20180927

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PC1903 Unpaid annual fee