[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20120038575A - Method of automatic patent document categorization adjusting association rules and frequent itemset - Google Patents

Method of automatic patent document categorization adjusting association rules and frequent itemset Download PDF

Info

Publication number
KR20120038575A
KR20120038575A KR1020100100089A KR20100100089A KR20120038575A KR 20120038575 A KR20120038575 A KR 20120038575A KR 1020100100089 A KR1020100100089 A KR 1020100100089A KR 20100100089 A KR20100100089 A KR 20100100089A KR 20120038575 A KR20120038575 A KR 20120038575A
Authority
KR
South Korea
Prior art keywords
keyword
classification
association rules
patent document
keywords
Prior art date
Application number
KR1020100100089A
Other languages
Korean (ko)
Other versions
KR101179613B1 (en
Inventor
박래정
Original Assignee
재단법인 한국특허정보원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인 한국특허정보원 filed Critical 재단법인 한국특허정보원
Priority to KR1020100100089A priority Critical patent/KR101179613B1/en
Publication of KR20120038575A publication Critical patent/KR20120038575A/en
Application granted granted Critical
Publication of KR101179613B1 publication Critical patent/KR101179613B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

PURPOSE: A method for automatically categorizing patent documents using a frequency item list and association rules is provided to automatize processes of manually categorizing IPCs of applied patent documents, thereby reducing manpower. CONSTITUTION: Transactions of patent documents are configured by extracting content included in an identification item from mother group patent documents whose class is determined according to an IPC(International Patent Classification). A keyword is extracted from content included in the transactions through a morpheme analyzer(S202). A frequency item list and association rules about the class are generated from the keyword(S206). The frequency item list and the association rules are applied to categorized patent documents to classify the class(S208).

Description

빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법{Method of automatic patent document categorization adjusting association rules and frequent itemset}Method of automatic patent document categorization adjusting association rules and frequent itemset}

본 발명은 특허 문서 분류 방법에 관한 것으로, 보다 상세하게는 빈발항목과 연관규칙을 이용하여 특허 문서를 국제 특허 분류 기준에 따라 자동으로 분류할 수 있는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법에 관한 것이다.The present invention relates to a method for classifying patent documents, and more particularly, to a method for automatically classifying patent documents using frequent items and related rules, which can automatically classify patent documents based on international patent classification criteria using frequent items and related rules. It is about.

한미 FTA(Free Trade Agreement) 체결로 특허, 상표, 저작권 등으로 구성되는 지적재산권에 대한 권리의 기한 연장에 따라 특허 보호가 강화됨으로써 국가산업 경쟁력과 직결되는 특허정보에 대한 관심이 어느 때보다 요구되고 있다.As the Korea-US Free Trade Agreement (FTA) concludes, the protection of patents is strengthened in accordance with the extension of the right to intellectual property rights consisting of patents, trademarks, and copyrights. have.

특허정보란 산업재산권과 관련된 정보로서 특허 출원된 기술 내용 및 권리로 주장된 사항, 출원인 및 발명자 등의 인적사항, 기타 서지사항 등에 대한 정보를 의미한다. 산업이 고도화, 복잡화, 다양화됨에 따라 엄청난 특허기술 정보량이 쏟아지고 있는데 기업이 변화하고 있는 산업 사회에서 생존하기 위해서 이러한 정보를 적절하게 기업경영전략에 반영하지 않으면 안 된다.Patent information refers to information related to industrial property rights and information about the technical content and rights claimed, personal information of applicants and inventors, and other bibliographic matters. As the industry is advanced, complicated, and diversified, a tremendous amount of information on patent technology is pouring in. In order for a company to survive in a changing industrial society, this information must be appropriately reflected in corporate management strategies.

현재 우리나라를 포함한 미국, 일본, 유럽과 같은 주요국의 특허청은 이러한 특허정보를 인터넷상에서 검색할 수 있는 검색 사이트를 운영하고 있으며, 이외에도 상업적 목적으로 개발된 다수의 유료 검색 사이트들이 운영되고 있다. 그 중에서도 IPC(International Patent Classification)분류체계에 의한 특허분류시스템은 미국, 유럽, 국제(WIPO-PCT), 일본 등 국제 협약에 의해 운영하고 있는 분류체계 방식이다.Currently, the Patent Office of major countries such as the United States, Japan, and Europe, including Korea, operates a search site for searching such patent information on the Internet, and there are also a large number of paid search sites developed for commercial purposes. Among them, the patent classification system based on the International Patent Classification (IPC) classification system is a classification system operated by international agreements such as the United States, Europe, International (WIPO-PCT), and Japan.

하지만, 현재까지 대한민국에서는 IPC 분류시 기계에 의한 시스템보다는 사람에 의한 1:1 분류를 하고 있어 적지 않은 시간이 걸리고 있는 실정이다. 또한, 분류 건수가 상당하고, 정확한 분류를 위해서는 청구항을 비롯한 전체적인 상세설명에 대한 이해가 필요하기 때문에 분류자에게도 적지않은 스트레스를 주고 있다.However, until now, it is taking a lot of time because IPC classification is performed by person rather than by machine. In addition, the number of classifications is considerable, and the classification is required to understand the entire detailed description including the claims in order to give a significant stress to the classifier.

이에 따라, 특허 문서를 자동으로 정확히 분류할 수 있는 방법이 요구되고 있는 실정이다.
Accordingly, there is a demand for a method for automatically and accurately classifying patent documents.

본 발명의 목적은 출원된 특허를 국제 특허 분류에 따라 자동으로 분류할 수 있는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법을 제공함에 있다.An object of the present invention is to provide a method for automatically classifying patent documents using frequent items and related rules that can automatically classify applied patents according to international patent classification.

또한, 본 발명의 목적은 출원된 특허를 분류함에 있어 'Apriori' 알고리즘을 이용하여 효과적으로 분류할 수 있는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법을 제공함에 있다.
In addition, an object of the present invention is to provide a method for automatically classifying patent documents using frequent items and association rules that can be effectively classified using the 'Apriori' algorithm in classifying the applied patent.

상기한 목적을 달성하기 위하여, 본 발명에 따른 방법은 국제 특허 분류에 따라 각 클래스가 이미 결정된 N개의 모집단 특허 문서로부터 적어도 하나의 식별항목에 포함된 내용을 추출하여 각 특허 문서별 트랜잭션을 구성하는 단계; 상기 각 트랜잭션에 포함된 내용으로부터 형태소 분석기를 통해 키워드를 추출하는 단계; 상기 추출된 키워드로부터 상기 각 해당 클래스에 대한 빈발항목 및 연관규칙을 생성하는 단계; 및 분류 대상 특허 문서를 상기 생성된 각 클래스별 빈발항목 및 연관규칙에 적용하여 클래스를 분류하는 단계;를 포함하는 것을 특징으로 한다.In order to achieve the above object, the method according to the present invention extracts the contents contained in at least one identification item from the N population patent documents, each class is determined according to the international patent classification to form a transaction for each patent document step; Extracting a keyword from a content included in each transaction through a stemmer; Generating frequent items and association rules for the corresponding classes from the extracted keywords; And classifying the class by applying the classification target patent document to the generated frequent items and association rules for each class.

또한, 상기 키워드를 추출하는 단계는 상기 각 트랜잭션에 포함된 내용에서 불용어를 제거하는 단계;를 더 포함하는 것을 특징으로 한다.The extracting of the keyword may further include removing stopwords from the contents included in each transaction.

이때, 상기 추출할 식별항목은 출원번호, IPC 분류, 발명의 명칭, 대표 청구항, 핵심키워드 및 기술분야의 식별항목 중에서 선택된 어느 하나 이상인 것을 특징으로 한다.At this time, the identification item to be extracted is characterized in that any one or more selected from the application number, IPC classification, the name of the invention, the representative claims, key keywords, and identification in the technical field.

한편, 상기 키워드를 추출하는 단계는 각 특허 문서별로 상기 추출된 키워드 중에서, 중복된 키워드를 제거하는 단계;를 더 포함하는 것을 특징으로 한다.The extracting of the keyword may further include removing duplicate keywords from the extracted keywords for each patent document.

또한, 상기 키워드를 추출하는 단계는 각 특허 문서별로 상기 추출된 키워드 중에서, 유사한 키워드는 대표어로 치환하는 단계;를 더 포함하는 것을 특징으로 한다.The extracting of the keyword may further include replacing a similar keyword with a representative word among the extracted keywords for each patent document.

이때, 상기 빈발항목은 'Apriori' 알고리즘에 의해 최소의 지지도 이상의 발생지지도를 가지는 조합으로 구성하는 것을 특징으로 한다.In this case, the frequent items may be configured by a combination having an occurrence map of at least the minimum support by the 'Apriori' algorithm.

또한, 상기 빈발항목 및 연관규칙을 생성하는 단계 이후에 상기 각 클래스간 중복 키워드에 대해 상기 키워드의 출현 개수를 고려하여 가중치를 부여하는 것을 특징으로 한다.
In addition, after generating the frequent item and the association rule, weights may be assigned to duplicate keywords among the classes in consideration of the number of occurrences of the keyword.

본 발명에 따르면, 출원된 특허 문서의 IPC 분류시 종래에 수작업으로 하던 것을 자동으로 분류함으로써 인력의 소모를 줄일 수 있으며, 빠른 시간 내에 분류가 가능하다는 장점이 있다.According to the present invention, it is possible to reduce the consumption of manpower by automatically classifying what was conventionally done manually by IPC classification of the applied patent document, there is an advantage that can be classified within a short time.

또한, 본 발명에 따르면 특허 문서 분류시 'Apriori' 알고리즘을 적용하고, 지지도와 신뢰도를 기반으로 가중치를 부여함으로써 특허 분류의 정확도를 높일 수 있게 되는 장점이 있다.
In addition, according to the present invention, an 'Apriori' algorithm is applied when classifying a patent document, and weighting is based on support and reliability, thereby increasing the accuracy of patent classification.

도 1은 본 발명의 실시예에 따른 특허 문서 분류의 개념을 나타내는 블록도.
도 2는 본 발명의 실시예에 따른 빈발항목과 연관규칙을 이용한 특허문서 자동분류 절차를 나타내는 흐름도.
1 is a block diagram illustrating the concept of patent document classification according to an embodiment of the present invention.
2 is a flow chart showing a patent document automatic classification procedure using frequent items and association rules according to an embodiment of the present invention.

본 발명에서는 이미 분류체계가 완성된 특허 문서의 A에서 H까지의 8개 클래스별 청구항 1항과 발명의 명칭을 문서별로 추출하여 불용어를 제거하고, 형태소 분석기를 이용하여 추출한 키워드 데이터 조합에서 발생한 빈발항목과 연관규칙의 집합을 이용하여 특허문서를 자동으로 분류, 추천해 주는 방법을 제안한다.In the present invention, the claim 1 and the name of the invention for each of the eight classes of patent documents A to H of the already completed classification system are extracted for each document to remove stopwords, and frequent occurrences generated from keyword data combinations extracted using a morphological analyzer. We propose a method of automatically classifying and recommending patent documents using a set of items and association rules.

문서 분류란 여러 개의 분류 카테고리를 정해놓고 문서의 내용에 관련된 하나 또는 그 이상의 카테고리에 문서를 배정함으로써 유사한 문서들끼리 집단화하는 작업이다.Document classification is the task of grouping similar documents together by assigning them to one or more categories related to the contents of the documents by defining several classification categories.

특허문서 분류는 상술한 바와 같이 대부분 사람에 의해 수작업으로 이루어져 왔으나, 출원되는 특허의 양이 점차 많아지고 그 분류범위 및 형태가 다양해지면서 문서 분류의 자동화에 대한 필요성이 널리 인식되면서 현재까지 여러 분야에서 다양한 연구가 이루어져 왔다.As described above, the classification of patent documents has been performed by humans in most cases, but as the number of patents applied increases and the scope and form of the patents are diversified, the need for automation of document classification is widely recognized. Various studies have been made.

단순히 문서에 나타나는 키워드의 빈출 정도를 이용하여 분류 카테고리를 지정하는 통계적인 분류방법과는 달리 본 발명에서는 연관규칙분석기법인 'Apriori' 알고리즘을 이용하여 특허문서 내용을 바탕으로 동일 국제특허분류 내의 문서들 간에 연관성 있는 키워드들의 집합을 추출하여 각 카테고리 별로 의미적으로 대표성을 가진 키워드들로 분류규칙을 생성한 후 이를 새로운 문서의 국제특허분류 예측에 사용한다. 또한, 본 발명에서는 효율적인 키워드 생성을 위한 데이터 전처리 방안을 제시하고, 지지도와 신뢰도를 기반으로 데이터마이닝 실험을 통하여 성능을 검증한다.Unlike a statistical classification method that specifies a classification category by simply using the frequency of occurrence of keywords appearing in a document, the present invention uses the Apriori algorithm, which is an association rule analysis technique, based on the contents of a patent document and documents in the same international patent classification. We extract a set of keywords that are related to each other, generate a classification rule with keywords that are semantically representative of each category, and use this to predict international patent classification of new documents. In addition, the present invention proposes a data preprocessing method for efficient keyword generation, and verifies performance through data mining experiments based on support and reliability.

본 발명에서는 A-H까지의 8개 클래스의 발명의 명칭과 대표 청구항으로 접근된 문서들의 텍스트들을 데이터마이닝 기법을 이용하여 각 클래스와 연관된 빈발 항목과 연관규칙생성을 통하여 IPC 자동분류를 추천한다.In the present invention, IPC automatic classification is recommended through the generation of frequent items and association rules associated with each class using data mining techniques for texts of documents of eight classes of inventions up to A-H and the texts of the representative claims.

본 발명은 이미 IPC분류가 끝난 기등록된 특허정보를 대상으로 발명의 명칭, 대표청구항 데이터를 추출한다. 다음으로, 특허문서만이 가지고 있는 불용어에 대한 제거를 실시하고 그 이후 형태소분석기를 적용하여 추출한 중복성이 제거된 단어 조합에 연관규칙 탐사 기법인 데이터마이닝의 대표적인 알고리즘 'Apriori'을 이용하여 분석하고 IPC 자동분류 추천방법을 제안한다. 이와 관련된 본 발명의 상세한 구현 방법은 다음과 같은 순서로 설명한다.The present invention extracts the name of the invention, representative claim data from the patent information already registered IPC classification. Next, we use the representative algorithm of data mining, 'Apriori', which is an association rule exploration technique, to remove the redundant words that only patent documents have, and then apply the morphological analyzer to remove the redundant words. We propose an automatic classification recommendation method. Detailed implementation method of the present invention in this regard will be described in the following order.

먼저, 본 발명의 주제에 필요한 연관규칙 탐사기법, Apriori 알고리즘, 형태소분석, 최대빈발항목집합, 키워드 검색 기술 등에 대한 기본 개념과 기술을 설명한다. 다음으로, 연관규칙 탐사를 위한 데이터의 생성을 위하여 발명의 명칭과 대표청구항의 데이터 변환, 정제, 보완처리 과정과 형태소분석 적용 방법, 한 트랜잭션(문서)에서 단어 간의 중복성을 제거한 단어 추출방법, 각 트랜잭션별로 중복성이 제거된 단어 리스트에 연관성 분석 알고리즘인 'Apriori' 알고리즘을 적용하여 최소지지도별 빈발항목을 구하는 방법과 각 지지도별 빈발항목 집합에서 항목집합 간의 중복성을 제거한 최대빈발항목집합을 구하는 방법을 설명한다.First, the basic concepts and techniques of association rule exploration techniques, Apriori algorithm, morphological analysis, maximum frequent itemsets, keyword search techniques, etc. required for the subject of the present invention will be described. Next, in order to generate data for exploration of association rules, data conversion, refinement, complementary processing and morphological analysis of the name of the invention and the representative claims, word extraction methods that eliminate the redundancy between words in a transaction (document), each Applying 'Apriori' algorithm, the correlation analysis algorithm, to the list of words with redundancy removed for each transaction, to find the frequent items for each minimum map, and the method for obtaining the maximum frequent item sets by removing the redundancy between the item sets from each set of frequent items. Explain.

마지막으로 IPC 자동분류의 효율성을 검증하기 위하여 이미 분류가 완성된 문서와 비교를 통하여 빈발항목, 연관규칙에 의한 결과, 또한 CPU, Memory 등의 하드웨어 처리 효율성을 함께 파악하는 다양한 실험을 통하여 본 발명의 효율성을 검증한다.Finally, in order to verify the efficiency of IPC automatic classification, the results of the present invention are examined through various experiments to grasp the frequent items, the results of the association rules, and the hardware processing efficiency such as CPU and memory through comparison with the documents already classified. Verify efficiency

특허정보(Patent information)란 특허 출원된 기술 내용 및 권리로 주장된 사항, 출원인 및 발명자 등의 인적사항, 기타 서지사항 등에 대한 정보를 의미한다. 본 발명에서는 편의상 특허정보라는 표현을 사용하지만, 특허와 동일하게 기술 내용을 권리의 대상으로 하는 실용신안에 관한 정보도 특허정보의 범주에 포함되며, 본 발명이 동일하게 적용될 수 있음은 자명하다. 보다 넓은 의미로는 특허, 실용신안, 디자인, 상표와 같이 산업재산권 4권에 관한 정보를 모두 포함하는 개념으로써 특허정보라는 용어를 사용할 수 있다. 한편, 이러한 특허정보는 연구 또는 기술 개발 시에 선행기술을 이해하고 분석하기 위한 권리 분석 기술 자료로써 이용된다.Patent information refers to information about the technical content and rights claimed, personal information of applicants and inventors, and other bibliographic details. In the present invention, the expression "patent information" is used for convenience, but information about a utility model whose technical content is the subject of rights, like the patent, is also included in the scope of the patent information, and it is obvious that the present invention can be applied equally. In a broader sense, the term patent information may be used as a concept including all information on four industrial property rights such as patents, utility models, designs, and trademarks. On the other hand, such patent information is used as the right analysis technology data for understanding and analyzing the prior art in research or technology development.

본 발명이 적용되는 국제특허분류(IPC)는 미국(USPC), 일본(JPC), 유럽(ECLA)등 각국마다 다른 분류체계를 사용하여 왔으나, 국제적으로 통일된 특허분류체계가 필요함에 따라 1968년에 도입되었다.The International Patent Classification (IPC) to which the present invention is applied has been using different classification systems in each country such as the US (USPC), Japan (JPC), and Europe (ECLA), but in 1968, as the internationally unified patent classification system is needed. Was introduced.

상기 국제특허분류는 특허문헌을 체계적으로 정리해서 특허문헌에 포함되어 있는 기술 및 권리정보에 용이하게 접근할 수 있게 하기 위하여 도입되었으며, 특허정보의 모든 이용자에게 정보를 선택적으로 보급하기 위하여 도입되었다. 또한, 주어진 기술분야에서 공지기술을 조사하기 위한 용도로 사용할 수 있으며, 여러 영역에서의 기술발전을 평가하는 공업소유권 통계를 내기 위한 목적으로도 사용될 수 있다.The international patent classification has been introduced to systematically organize patent documents so as to provide easy access to technology and rights information contained in patent documents, and to selectively distribute information to all users of patent information. It can also be used to investigate publicly known technologies in a given technical field, and can also be used to generate industrial property statistics to evaluate technological developments in various areas.

이러한, 국제특허분류(IPC)는 섹션, 클래스, 서브클래스 및 메인그룹 또는 서브그룹의 계층구조로 구성된다. 하기 <표 1>은 국제특허분류(IPC) F16K 1/00(or 1/02)의 구조를 예시로 나타낸 표이다.Such an International Patent Classification (IPC) consists of a hierarchy of sections, classes, subclasses and main groups or subgroups. <Table 1> is a table showing the structure of the international patent classification (IPC) F16K 1/00 (or 1/02) as an example.

분류기호Classification code FF -- 1616 KK 1/1001/100 1/201/20 구분division 섹션section 서브섹션Subsection 클래스class 서브클래스Subclass 메인그룹Main group 서브그룹Subgroup 분류Classification 기계공학Mechanical engineering 공업일반General industry 기계요소Mechanical element 밸브valve 리프트밸브Lift valve 나사스핀들Screw spindle

한편, 상기 섹션 항목은 다음과 같이 구분된다.Meanwhile, the section items are divided as follows.

- 섹션별 구분(섹션 타이틀)-Section breaks (section titles)

A섹션 : 생활필수품Section A: Necessities of Life

B섹션 : 처리조작, 운수Section B: Processing Operations, Transportation

C섹션 : 화학, 야금Section C: Chemistry, Metallurgy

D섹션 : 섬유, 종이Section D: Fiber, Paper

E섹션 : 고정구조물Section E: Fixed Structure

F섹션 : 기계공학, 조명, 가열, 무기, 폭파Section F: Mechanical Engineering, Lighting, Heating, Weapons, Blasting

G섹션 : 물리학Section G: Physics

H섹션 : 전기
Section H: Electric

후술하는 본 발명에서는 상기 IPC 분류에서 섹션별 분류하는 것을 예시로 설명하며, 하위 분류인 서브섹션, 클래스, 서브클래스, 메인그룹, 서브그룹 등의 분류에도 동일하게 적용될 수 있다.In the present invention described below, the classification by section in the IPC classification is described as an example, and the same may be applied to the classification of subsections, classes, subclasses, main groups, and subgroups, which are subclasses.

한편, 문서의 분류란 정해진 분류체계 하에서 분류하고자 하는 각 문헌들을 가장 적합한 카테고리에 배정함으로써 문헌을 집단화하는 작업이다. 과거에는 다루어야할 정보의 양이 적었기 때문에 문서의 분류가 수작업으로 가능하였지만, 웹(WWW)에서와 같이 매일 대량의 정보들이 만들어지고 있는 현대의 상황에서 모든 문서의 수작업에 의한 분류는 불가능하다고 할 수 있으며, 따라서 문서의 자동 분류에 대한 연구가 활발하게 진행되고 있다.On the other hand, document classification is the task of grouping documents by assigning each document to be classified into the most suitable category under the defined classification system. In the past, document sorting was possible by hand because the amount of information to be handled was small. However, in the modern situation where a large amount of information is generated every day, such as on the web (WWW), manual sorting of all documents is impossible. Therefore, research on automatic classification of documents is actively conducted.

하지만, 특허문서는 일반 문서와 웹페이지와는 다르게 몇 가지 특징을 가지고 있기 때문에 기존의 방법으로는 분류가 어려우며 여러 가지 특징들이 고려되어야 한다. 특허문서의 특징을 요약하면 다음과 같다.However, since patent documents have some characteristics different from general documents and web pages, it is difficult to classify them with existing methods and various characteristics should be considered. The features of the patent document are summarized as follows.

1. 발명의 명칭과 청구항 1항을 기존으로 IPC가 분류된다.1. IPC is classified according to the name of the invention and claim 1.

2. 초록, 청구항, 기술분야, 발명의 명칭이 의미적으로 연관성을 가진다.2. Abstracts, claims, technical fields, and names of inventions are semantically related.

3. 발명의 범위를 넓히기 위하여 청구항에는 다소 넓고 일반적인 용어를 많이 사용한다.3. In order to broaden the scope of the invention, some broad and general terms are used in the claims.

4. 많은 기술용어를 포함한다. 다른 특허에서는 사용하지 않는 용어를 사용하거나 정의하기도 한다.4. Includes many technical terms. Other patents use or define terms that are not used.

5. 특허문서의 길이가 다양하다.
5. Patent documents vary in length.

상기 특징 중에서 본 발명에서는 첫 번째와 두 번째 특징에 초점을 맞추어 특허문서를 대상으로 특허분류를 수행한다.Among the above features, the present invention performs patent classification on patent documents focusing on the first and second features.

본 발명에서 대상으로 하고 있는 특허문서는 하기 <표 2>와 같이 서지정보, 요약, 대표도, 특허청구의 범위, 명세서, 도면 등의 6개의 큰 영역으로 이루어져 있다. 명세서는 다시 기술분야, 발명의 상세한 설명, 실시예, 도면의 간단한 설명 등으로 세부항목으로 이루어져 있다. 이중 기술분야는 기술적 배경과 기술에 대한 이해를 높여주는 정보를 포함하고 있어 다른 부분보다 분류에 도움을 줄 수 있다. 그러므로 이러한 세분화된 요소를 분류의 자질로 고려한다면, 특허분류에서 좋은 성능을 얻을 수 있다. The patent document targeted by the present invention consists of six large areas such as bibliographic information, summary, representation, claim, specification, and drawings as shown in Table 2 below. The specification is again made up of details such as the technical field, the detailed description of the invention, examples, and a brief description of the drawings. The technical field contains information that enhances the technical background and understanding of the technology, which may help categorize more than other parts. Therefore, if we consider these subdivided factors as the qualities of classification, we can get good performance from patent classification.

1. 서지사항1. Bibliography 출원정보, 공개정보, 출원인, 발명인Application Information, Disclosure Information, Applicant, Inventor 2. 요약2. Summary 특허 문서의 전체 요약 정보Full summary of patent documents 3. 대표도3. Representative 대표도면 정보Representative Drawing Information 4. 특허청구의 범위4. Scope of Claims 청구항 1항 내지 n항Claims 1 to n 5. 명세서5. Specification 기술분야, 발명의 상세한 설명, 실시예, 도면의 간단한 설명Brief Description of the Technical Field, Invention, Embodiment, and Drawings 6. 도면6. Drawings 도면1, 도면 2, 도면 3, ...Drawing 1, Drawing 2, Drawing 3, ...

특허 데이터 명세서의 속성은 이와 같이 출원번호, 공개번호, 공개일자, 등록번호, 등록일자 등의 서지정보와 발명의 명칭, 초록, 청구항, 상세 설명 등으로 이루어져 있으며 실제로 발명의 명칭과 청구항 1항은 IPC 분류의 기본정보가 된다.As such, the attributes of the patent data specification consist of bibliographic information such as application number, publication number, publication date, registration number, and registration date, and the name of the invention, abstract, claims, and detailed description. Basic information of IPC classification.

특허 데이터는 상술한 바와 같이 일반적인 웹상의 데이터나 일상생활에서 사용하는 데이터와는 상이한 특징을 가지고 있다. 따라서, 본 발명의 실시 예에 따라 사용자가 직관적으로 알아보기 쉽고 분석을 용이하게 하기 위해 적절한 처리과정을 거친 정제된 데이터가 필요하다. 이를 위하여 본 발명에서는 등록특허 데이터의 발명의 명칭과 청구항 1항에 대하여 데이터 변환과 데이터 정제 및 보정단계를 수행한다.As described above, the patent data has characteristics different from those of general web data and data used in daily life. Therefore, according to an exemplary embodiment of the present invention, purified data that has undergone appropriate processing is required for the user to intuitively recognize and to facilitate the analysis. To this end, the present invention performs the data conversion, data purification and correction step for the name of the invention of the patent data and claim 1.

즉, 등록특허파일을 추출하여 하나의 문서를 하나의 트랜잭션으로 만든다. 각 트랜잭션별로 참조한 실제문서에서 출원번호, IPC, 발명의 명칭, 청구항 1항을 추출하여 하나의 트랜잭션으로 구성한다. 그 후 각 문서의 불용어를 제거하고 형태소 분석기를 통하여 하나의 문서를 하나의 트랜잭션으로 구성한다. 이때 각 트랜잭션별로 문서에서 단어를 추출한 키워드가 중복되지 않게 구성한다.In other words, a patent file is extracted to make one document into one transaction. The application number, IPC, the name of the invention, and claim 1 are extracted from the actual document referred to by each transaction, and constitute one transaction. After that, the stopwords of each document are removed and the document is composed of one transaction through the stemmer. In this case, the keywords extracted from the document for each transaction are not duplicated.

이하 본 발명의 바람직한 실시 예에 따른 상세한 설명을 첨부된 도면들을 참조하여 설명한다. 하기에는 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.DETAILED DESCRIPTION Hereinafter, a detailed description of a preferred embodiment of the present invention will be described with reference to the accompanying drawings. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear.

도 1은 본 발명의 실시예에 따른 특허 문서 분류의 개념을 나타내는 블록도이다. 먼저, 기분류된 다수의 특허 문서(100)를 출원번호(111), IPC(112), 발명 명칭(113), 도면(114), 초록(115), 청구항(116) 등 각 식별항목 단위로 추출하여 트랜잭션(110)을 구성한다. 그런 다음, 상기 각 식별항목의 내용으로부터 추출한 키워드에 분류 알고리즘(120)을 적용하여 빈발항목(121) 및 연관규칙(122)을 생성한다. 다음으로, 본 발명의 실시예에 따라 연관 규칙 룰셋(130)을 이용하여 상기 빈발항목(121) 및 연관규칙(122)에 지지도와 신뢰도를 기반으로 하여 스코어(131) 및 가중치(132)를 설정한다. 이와 같이 각 분류 카테고리별로 생성된 빈발 항목 및 연관규칙(122)을 분류 대상 특허에 적용함으로써 최종적으로 대상 특허 문서를 분류(140)한다.1 is a block diagram illustrating the concept of patent document classification according to an embodiment of the present invention. First, the plurality of patent documents 100 that have been felt are applied to each identification item such as the application number 111, the IPC 112, the invention name 113, the drawing 114, the abstract 115, and the claim 116. Extract to construct transaction 110. Thereafter, the classification algorithm 120 is applied to the keywords extracted from the contents of the respective identification items to generate the frequent items 121 and the association rules 122. Next, the score 131 and the weight 132 are set on the frequent items 121 and the association rule 122 based on the support and the reliability using the association rule set 130 according to the embodiment of the present invention. do. As described above, the target patent document is finally classified by applying the frequent items and the association rules 122 generated for each classification category to the classification target patent.

이하, 본 발명의 실시예에 따라 특허 문서를 분류하는 방법을 보다 상세히 셜명하기로 한다.Hereinafter, a method of classifying a patent document according to an embodiment of the present invention will be described in more detail.

한편, 테스트용으로 사용된 특허데이터는 한국특허정보원에서 운영중인 KIPRIS 검색시스템을 이용한 것으로 2010년 1월, 2월에 등록된 대상으로 한다.
Meanwhile, the patent data used for the test is based on the KIPRIS search system operated by the Korea Institute of Patent Information, and is registered in January and February 2010.

<데이터 가공><Data processing>

특허데이터는 1년에 20만여건이 출원되고 있으며 등록여부에 상관없이 특허문서의 체계인 IPC분류는 이루어진다. 또한, IPC분류기준은 발명의 명칭과 청구항 1항에 의존하고 있지만 실제로 분류자의 주관적인 판단에 의해 분류가 되고 있는 실정이다. 하지만, 본 발명에서는 학문적 이론에 근거하여 분류체계를 설정한다.More than 200,000 patent data are filed per year, and IPC classification, which is a system of patent documents, is made regardless of registration. In addition, the IPC classification criteria depend on the name of the invention and claim 1, but are actually classified according to the subjective judgment of the classifier. However, in the present invention, the classification system is set based on academic theory.

이에 따라, 특허데이터의 전체 항목 중에서 불필요한 단어(조사나 특정단어)들을 제거하는 과정을 거치고, 본 발명에 필요한 연관규칙 탐사를 위해 데이터 모델을 구축한다. 한편, 본 발명에서 적용되는 항목들은 출원번호, IPC분류, 발명의 명칭, 청구항 1항, 초록, 핵심키워드 등이다.Accordingly, a process of removing unnecessary words (investigation or specific words) from all items of patent data is established, and a data model is constructed for exploration of association rules required for the present invention. Meanwhile, the items applied in the present invention are application number, IPC classification, name of the invention, claim 1, abstract, key keywords and the like.

본 발명에서는 IPC분류기준이 되는 발명의 명칭과 청구항 1항을 기준으로 모델링을 완성하고 이를 하나의 트랜잭션으로 정의(S201)하였다. 즉 하나의 트랜잭션에는 출원번호, IPC분류, 발명의 명칭, 청구항 1항, 초록, 핵심키워드 등으로 구성되며 이들 항목은 XML형태의 하나의 공보형태로 되어있기 때문에 'Java XML Sax Parser'를 통하여 파싱 과정을 거치며 알아보기 쉽고 분석에 용이하게 하기 위해 적절한 변환과정이 필요하다.In the present invention, the modeling is completed based on the name of the invention as the IPC classification criteria and claim 1, and this is defined as one transaction (S201). That is, one transaction consists of application number, IPC classification, name of invention, claim 1, abstract, key keywords, etc., and these items are parsed through 'Java XML Sax Parser' because they are in the form of one publication in XML format. Proper conversion is necessary to make the process easy to understand and analyze.

하기 <표 3>은 한국등록특허의 추출XML 속성 정보이고, <표 4>는 추출 XML 결과이다.<Table 3> is extracted XML attribute information of the Korean registered patent, and <Table 4> is extracted XML results.

1. 서지사항 1. Bibliography <KR_Application_Number></KR_Application_Number> <KR_Application_Number> </ KR_Application_Number> 2. 요약 2. Summary <KR_abstract></KR_abstract> <KR_abstract> </ KR_abstract> 3. 대표도 3. Representative <KR_draw></KR_draw> <KR_draw> </ KR_draw> 4. 특허청구의 범위 4. Scope of Claims <KR_cliaims></KR_cliaims> <KR_cliaims> </ KR_cliaims> 5. 명세서 5. Specification <KR_description></KR_description> <KR_description> </ KR_description> 6. 도면 6. Drawings <KR_figure></KR_figure> <KR_figure> </ KR_figure>

출원번호Application number IPCIPC 발명의명칭Name of invention 청구항 1항Claim 1 핵심키워드Key keywords 기술분야Technical Field ------ ------ ------ ------ ------ ------

<특허문서 데이터 정제 및 보정><Purification and correction of patent document data>

특허데이터는 서지사항뿐만 아니라 초록, 청구항, 상세설명, 기술정보 등 다양한 정보가 있기 때문에 필요한 데이터만 선별하는 정제작업을 한다(S202). 본 발명에서는 발명의 명칭과 청구항 1항, 핵심 키워드, 기술정보를 기준으로 트랜잭션을 정의한다. 또한, 특허데이터의 속성상 “제조방법”, “것”, “1”, “2” , “방법”, “제조”, “것”, “본”, “내”, “이”, “수”, “상기”, “발명”, “용”, “등”, “사”, “포함”, “이” 등의 불용어를 사전에 제거(S203)하는 전처리 과정을 거친다. 또한, 본 발명에서는 추출한 단어그룹의 개수가 20개를 초과한 데이터에 대해서만 의미 있는 중요한 문서라고 정의하며 또한 핵심키워드로 명시된 단어를 추출하여 단어그룹에 추가한다. 데이터의 특성상 같은 의미의 단어가 다르게 표기되어있는 경우가 있어 유사의미의 단어에 대해 대표어로 표기하는 보정작업을 실시한다(S205). 하기 <표 5>는 단어의 개수가 20개 이상이고 대표어로 보정작업이 완료된 문서의 하나의 트랜잭션으로 처리한 테이블을 나타낸다.Patent data has a variety of information such as abstract, claims, detailed description, technical information, as well as bibliographic information, so the purification process to select only the necessary data (S202). In the present invention, a transaction is defined based on the name of the invention, claim 1, key keywords, and technical information. In addition, due to the nature of patent data, "manufacturing method", "thing", "1", "2", "method", "manufacturing", "thing", "bone", "my", "this", "number" ”,“ Above ”,“ invention ”,“ dragon ”,“ etc ”,“ four ”,“ include ”,“ yi ”, etc., are preliminarily removed (S203). In addition, the present invention defines an important document that is meaningful only for data in which the number of extracted word groups is more than 20, and extracts words specified as key keywords and adds them to the word groups. Due to the nature of the data, words having the same meaning may be marked differently, and a correction operation for representing the words with similar meanings as representative words is performed (S205). Table 5 below shows a table processed by one transaction of a document whose number of words is 20 or more and the corrected work is completed as a representative word.

TIDTID 출원번호Application number IPCIPC 발명의명칭Name of invention 청구항 1항Claim 1 핵심키워드Key keywords 트랜잭션번호Transaction number

<형태소 분석 및 키워드 추출>Stemming and Keyword Extraction

추출한 키워드그룹의 개수가 20개를 초과한 데이터에 대해서만 의미 있는 중요한 문서라고 정의하고 하나의 트랜잭션으로 나타내고 이 문서목록에 있는 문서 전문을 한글 형태소분석기를 적용하여 키워드를 도출한다. 한글 형태소분석기를 적용한 결과데이터에서 'Score'가 100 이상인 형태소는 체언으로 명사, 대명사, 수사, 의존명사를 포함하므로 Score가 100 이상으로 구분된 형태소를 키워드로 추출한다. 이때, 각 형태소는 하나의 문서 안에서도 중복되고 다른 문서에서도 중복이 되므로 하나의 트랜잭션 내에서는 키워드가 중복이 되지 않게 추출(S204)한다.We define this as an important document that is meaningful only for data with more than 20 keyword groups, and represent it as a single transaction. In the result data of applying the Hangul morpheme analyzer, the morphemes with 'Score' of 100 or more include the noun, the pronoun, the rhetoric, and the dependent nouns, so the morphemes with scores of 100 or more are extracted as keywords. At this time, since each morpheme is duplicated in one document and duplicated in another document, keywords are extracted so as not to be duplicated in one transaction (S204).

본 발명의 실험에 이용한 Apriori알고리즘의 구현은 오라클(10g) 데이터베이스의 한 행에 하나의 트랜잭션 항목집합으로 구성하여 varchar2데이터 타입으로 생성하여 적용하였으며 255자 이하로 구성하였다. 하나의 키워드가 분류의 기준이 될 수 있다고 판단하고 키워드의 개수에는 제한을 두지 않았다. 본 발명에서는 한 트랜잭션내 키워드가 중복되지 않는 키워드 리스트를 '중복배제키워드'라 정의한다. 하기 <표 6>은 각 트랜잭션에 포함된 문서를 한글형태소분석기를 적용하여 추출한 중복배제키워드리스트 결과 테이블이다.The implementation of the Apriori algorithm used in the experiments of the present invention consists of one transaction item set in one row of an Oracle (10g) database, created with varchar2 data type, and applied to 255 characters or less. It was determined that one keyword could be a criterion for classification, and the number of keywords was not limited. In the present invention, a keyword list in which a keyword in a transaction is not duplicated is defined as a 'duplicate exclusion keyword'. <Table 6> is a result table of duplicate exclusion keyword lists extracted by applying Hangul morpheme analyzer to documents included in each transaction.

T1T1 키워드1Keyword 1 키워드2Keyword 2 키워드3Keyword 3 키워드4Keyword 4 키워드5Keyword 5 키워드6Keyword 6 키워드7Keyword 7 키워드8Keyword 8 T2T2 키워드keyword 키워드2Keyword 2 키워드3Keyword 3 키워드4Keyword 4 키워드5Keyword 5 키워드6Keyword 6 키워드7Keyword 7 키워드8Keyword 8 ?? ?? ?? ?? ?? ?? ?? ?? ?? -- -- -- -- -- -- -- -- --

<빈발항목집합 추출 및 연관규칙생성><Frequent item set extraction and association rule generation>

상기 <표 6>에서 나온 각 트랜잭션별 키워드들을 대상으로 초록, 청구항 1항, 기술분야에 대해서 연관성 분석 알고리즘인 Apriori 알고리즘을 적용하여 분석한다. 이때, 최소지지도를 변경해가며 각 지지도별(Support Degree) 빈발항목집합들을 구한다. 본 발명의 실시예에서는 0.5%의 지지도로 정의하였다. 빈발항목집합에서 최소지지도보다 높은 모든 항목집합이 들어있으므로 항목간의 중복성이 존재한다. 본 발명에서는 키워드 간의 연관성 연구를 목적으로 하므로 각 트랜잭션의 유일한 키워드가 존재하여야 한다. 중복성이 존재하는 빈발항목집합(Frequent Item)으로부터 자신 이외에 다른 빈발항목집합에 포함되지 않는 최대빈발항목 집합인 MFI(Maximum Frequent Item)를 구한다(S206).
For each keyword of each transaction shown in Table 6, the abstract, claim 1, and the technical field are analyzed by applying the Apriori algorithm, which is an association analysis algorithm. At this time, the minimum support map is changed to obtain frequent item sets for each support degree. In the embodiment of the present invention it was defined as a support of 0.5%. There is redundancy between items because all item sets in the frequent item set are higher than the minimum map. In the present invention, for the purpose of researching the correlation between keywords, a unique keyword of each transaction should exist. A maximum frequency item set (MFI), which is not included in other frequent item sets other than itself, is obtained from a frequent item set having redundancy (S206).

<Apriori 알고리즘을 이용한 연관성 분석>Association Analysis Using Apriori Algorithm

연관규칙 마이닝 알고리즘인 Apriori는 두 단계를 통하여 연관성 분석을 수행하며, 첫 번째 단계는 최소의 지지도(minimum support)이상의 발생지지도(transaction)를 가지는 조합을 찾아 빈발단어 항목을 구성한다. 두 번째 단계는 데이터베이스로부터 연관규칙을 생성하기 위하여 빈발항목집합(L)에 대해서 빈발항목집합의 모든 공집합이 아닌 부분집합들을 찾는다. 각각의 그러한 부분집합(A)에 대하여, 만약 Support(A)에 대한 Support(L)의 비율이 적어도 최소 신뢰도(minimum confidence)이상이면 A->(L-A)의 형태의 규칙을 출력한다. 이 규칙의 지지도는 support(L)이고, 신뢰도는 support(L)/support(A)이다. Apriori 알고리즘에서 후보집합의 생성은 Apriori-gen을 상용하여 새로운 후보항목집합을 만들게 함으로써 후보항목의 수를 줄일 수 있다. 이에 따라 연관규칙을 찾는 시간이 감소 된다. 이때, 본 발명에 적용된 데이터마이닝 Apriori 알고리즘은 다음과 같다.
The association rule mining algorithm, Apriori, performs an association analysis in two stages. The first stage constructs a frequent word item by finding a combination that has more than minimum support of transactions. The second step is to find all non-empty subsets of the frequent item set for the frequent item set (L) to generate association rules from the database. For each such subset A, output a rule of the form A-> (LA) if the ratio of Support (L) to Support (A) is at least above minimum confidence. The support of this rule is support (L) and the reliability is support (L) / support (A). The generation of candidate sets in the Apriori algorithm can reduce the number of candidate items by using Apriori-gen to make new candidate item sets. This reduces the time to find the association rule. At this time, the data mining Apriori algorithm applied to the present invention is as follows.

단계 0. 최소지지도 smin을 정한다.Step 0. Determine the minimum support map s min .

k=1   k = 1

C₁=[{i₁},{i₂},...,{im}]C₁ = [{i₁}, {i₂}, ..., {i m }]

L₁={c∈C₁| supp (c) ≥ smin
L₁ = {c∈C₁ | supp (c) ≥ s min

단계 1. k=k+1Step 1. k = k + 1

Lk -1로부터 Ck 형성 (apriori-gen 함수)C k formation from L k -1 (apriori-gen function)

단계 1-1. (join) Lk -1의 집합들을 접합하여 k- 항목 집합군을 형성한다.Step 1-1. (join) Join sets of L k -1 to form a set of k- items.

C= Lk -1 * Lk -1 C = L k -1 * L k -1

단계 1-2. (prune) C의 (k-1)- 항목 부분집합이 Lk -1에 속하지 않을 때 이를 모두 제거한 후 Ck를 형성한다. Ck=Φ이면 Stop.
Step 1-2. (prune) When the (k-1) -item subset of C does not belong to L k -1 , remove all of it and form C k . Stop if C k = Φ.

단계 2. Ck의 집합 중 지지도가 최소지지도 이상인 것을 모아 Lk를 생성한다.Step 2. Generate L k by collecting the support of the set of C k equal to or greater than the minimum map.

Lk={c∈Ck | supp (c) ≥ smin}
L k = {c∈C k | supp (c) ≥ s min }

이때, Lk 는 후보 k-항목집합을 의미하며, Ck 는 빈발 K-항목집합을 의미한다.In this case, L k means a candidate k-item set, and C k Denotes a frequent K-item set.

상기 <표 6>의 트랜잭션별 키워드 결과를 Apriori 알고리즘을 최소지지도별로 조정하며 적용하여 하기 <표 7>과 같이 각 최소지지도별(Support degree) 빈발항목집합 (Frequent Itemset)들을 구하고, 하기 <표 8>과 같이 연관규칙을 생성한다.Apply the result of each transaction of <Table 6> by applying the Apriori algorithm to each of the minimum maps to obtain Frequent Itemsets by each support degree as shown in <Table 7>, and <Table 8 Create an association rule as shown in>.

키워드1(지지도)
키워드1, 키워드2(지지도)
키워드2, 키워드3(지지도)
키워드1, 키워드2, 키워드3, 키워드4(지지도)
XXX,XXX,XXX,XXX,XXX(support)
XXX,XXX,XXX,XXX,XXX(support)
Keyword 1 (support map)
Keyword 1, Keyword 2 (support map)
Keyword 2, Keyword 3 (support map)
Keyword 1, Keyword 2, Keyword 3, Keyword 4 (support map)
XXX, XXX, XXX, XXX, XXX (support)
XXX, XXX, XXX, XXX, XXX (support)

키워드1 <- 키워드1,키워드3(0.5, 100.0)
키워드3 <- 키워드5,키워드6(0.5, 100.0)
키워드4 <- 키워드5,키워드7(0.5, 100.0)
키워드6 <- 키워드5,키워드8(0.5, 100.0)
키워드7 <- 키워드6,키워드8(0.6, 84.6)
키워드8 <- 키워드6,키워드9(0.6, 84.6)
Keyword1 <-Keyword1, Keyword3 (0.5, 100.0)
Keyword 3 <-Keyword 5, Keyword 6 (0.5, 100.0)
Keyword 4 <-Keyword 5, Keyword 7 (0.5, 100.0)
Keyword 6 <-Keyword 5, Keyword 8 (0.5, 100.0)
Keyword 7 <-Keyword 6, Keyword 8 (0.6, 84.6)
Keyword8 <-Keyword6, Keyword9 (0.6, 84.6)

<특허문서 자동분류 방법 -빈발항목과 연관규칙생성에 의한 정확도 계산><Automatic Classification of Patent Documents-Calculation of Accuracy by Creating Frequent Items and Association Rules>

특허데이터의 키워드는 문서의 내용을 대표하는 단어로서 정확한 키워드를 추출하는 것은 특허문서 자동분류체계의 효율성을 극대화시킨다. 따라서 단순히 하나의 문서마다 문서 전문에 존재하는 키워드에 대해 Apriori 알고리즘을 적용하여 빈발항목을 추출하는 방법의 단점을 극복하기 위하여 본 발명에서는 연관규칙 룰 셋을 이용하여 지지도와 신뢰도를 기반으로 하여 가중치를 주는 방법을 제안한다. 본 발명에서는 이러한 방법을 빈발항목과 연관규칙에 의한 정확도 계산방법이라고 정의한다.
Keywords in the patent data are words representing the contents of the document. Extracting the exact keywords maximizes the efficiency of the automatic patent document classification system. Therefore, in order to overcome the shortcomings of the method of extracting frequent items by simply applying the Apriori algorithm to the keywords existing in the full text of each document, the present invention uses weights based on the support and the reliability based on the association rule rule set. Suggest ways to give. In the present invention, such a method is defined as an accuracy calculation method based on the frequent items and the association rules.

<클래스간 키워드 중복제거 및 가중치 부여에 의한 정확도 계산><Calculation of accuracy by deduplication and weighting of keywords between classes>

특허문서에서는 중복키워드는 반드시 고려해야할 대상이다. 즉 키워드의 출현 횟수가 늘어났다는 것은 그만큼 특허문서의 중요키워드일 확률이 높아진다. 한 문서 내에서의 중복키워드도 중요하지만 다른 클래스들과의 키워드 중복도 반드시 고려되어야 한다. 왜냐하면, 고유의 키워드가 될 수도 있고 이중키워드가 될 수도 있기 때문이다.In patent documents, duplicate keywords must be considered. That is, the increase in the number of occurrences of a keyword increases the probability of being an important keyword of a patent document. Duplicate keywords within one document are important, but keyword overlap with other classes must also be considered. Because it can be a unique keyword or a double keyword.

이때, 각 클래스 간에 발생한 중복키워드와 중복키워드항목집합의 단어들의 연관규칙셋의 중복제거를 통하여 정확도를 높여 기존의 단어와 차별화를 할 수 있는 분석방법을 본 발명에서는 가중치기반 키워드추출방법이라 정의한다.At this time, the analysis method that can differentiate from the existing words by increasing the accuracy through the elimination of the association rule set of the duplicate keywords and the duplicate keyword item set of duplicate keywords generated between each class is defined as a weight-based keyword extraction method in the present invention. .

빈발항목 중복키워드 추출 및 제거 개념은 하기 <표 9>와 같다.The concept of extracting and removing frequent duplicate keywords is shown in Table 9 below.

A클래스A class B클래스B class C클래스C class D클래스D class
A
A,B(X)
A1,C1,D1
A,C,D,F

A
A, B (X)
A1, C1, D1
A, C, D, F

A2
A,B(X)
A1,C1,D1
A1,C2,D2,F2

A2
A, B (X)
A1, C1, D1
A1, C2, D2, F2

A3
A,B(X)
A3,C3,D3
A3,C3,D3,F3

A3
A, B (X)
A3, C3, D3
A3, C3, D3, F3

A4
A,B(X)
A4,C4,D4
A4,C4,D4,F4

A4
A, B (X)
A4, C4, D4
A4, C4, D4, F4

이때, 상기 <표 9>에서 A1, C1, D1처럼 A클래스와 B클래스의 교집합인 항목집합인 경우 A클래스인지 B클래스인지 확실히 구분해 줄 수 있는 가중치가 필요하다. 따라서, 본 발명에서는 가중치를 원래 가지고 있던 값의 2배의 수치를 기준으로 부여한다.In this case, in Table 9, if the item set is an intersection of class A and class B such as A1, C1, and D1, a weight that can clearly distinguish between A class and B class is necessary. Therefore, in the present invention, the weight is given based on a numerical value twice that of the original value.

하기 <표 10>은 가중치 부여의 개념을 나타낸 표이다.Table 10 below shows a concept of weighting.

A클래스A class B클래스B class A,B(X)
A1,C1,D1
A1,C1,D1,F1
A, B (X)
A1, C1, D1
A1, C1, D1, F1
A,B(X)
A1,C1,D1
A1,C2,D2,F2
A, B (X)
A1, C1, D1
A1, C2, D2, F2

상기 <표 10>을 참조하면, A1, C1, D1에서 A1의 출현개수, C1의 출현개수 및 D1의 출현개수를 합하여 정확도를 계산하여 A클래스인지 B클래스인지에 대한 구분을 명확히 할 수 있다.
Referring to <Table 10>, it is possible to clarify the distinction between Class A or Class B by calculating the accuracy by adding the number of A1, the number of C1, and the number of D1 in A1, C1, and D1.

<정확도 계산에 의한 특허문서분류 기준항목><Patent Document Classification Standards by Accuracy Calculation>

본 발명이 적용된 실험예에서는 사용하는 데이터를 두 개 부류로 나누었는데, 본 발명에서 제안하는 빈발항목집합과 연관규칙생성에 의한 정확도 계산 방법과 클래스간 키워드 중복제거 및 가중치 부여에 의한 정확도 계산방법으로 적용할 문서전문을 실험데이터라 정의하며, 정확도 계산방법의 효율성을 검증 및 비교하기 위한 특허문서전문을 검증데이터라 정의한다. 즉 실험데이터는 빈발항목집합을 구하는데 사용된 이미 IPC부여가 끝난 2010년 등록된 10,000건중 8,000건이고 검증데이터는 최대빈발항목집합을 평가 및 검증하기 위해 이미 IPC부여가 되었지만 아직 부여되지 않았다고 가정하는 즉 이미 답을 알고 있는 나머지 2,000건이다.In the experimental example to which the present invention is applied, the data used are divided into two categories, which are applied to the accuracy calculation method by the frequent item set and association rule generation and the accuracy calculation method by keyword deduplication and weighting between classes. The full text of the document is defined as the experimental data, and the full text of the patent document for verifying and comparing the efficiency of the accuracy calculation method is defined as the verification data. In other words, the experimental data are assumed to be 8,000 out of the 10,000 registered IPCs in 2010, which were used to obtain the frequent itemsets, and the validation data are already granted IPCs to evaluate and verify the maximum frequent itemsets. In other words, the remaining 2,000 cases already know the answer.

실험데이터의 한 빈발항목집합 항목집합의 항목들이 검증데이터의 한 트랜잭션 키워드 항목들에 속할 때 이 빈발항목집합 항목은 완전매치(Complete match)한다고 정의한다. 또한 빈발항목집합과 검증용데이터 간에 매치되는 포인트를 구하기 위하여 특허문서의 초록, 청구항 1항, 기술배경에 대하여 다음과 같이 빈발항목매치도, 연관규칙룰 매치도를 구한다.
When an item of a frequent item set of experimental data belongs to a transaction keyword item of validation data, this frequent item set item is defined as a complete match. In addition, in order to find the matching points between the frequent item set and the verification data, the frequent item match degree and the association rule rule match degree are obtained as follows for the abstract, claim 1, and technical background of the patent document.

<빈발항목 집합 및 아이템셋의 가중치 설정><Set weights of frequent item sets and item sets>

검증데이터의 트랜잭션에 완전매치되는 빈발항목집합을 아이템셋별로 추출한다. 아이템셋의 가중치는 2~3가지 종류로 하여 결정한다. 본 발명의 실시예에서는 가중치를 1, 3, 9, 27, 81과 1, 5, 10, 300, 500의 방법으로 2가지로 정의하였다. 이때, FIC를 빈발항목집합수라 정의하고 Sup를 지지도, Conf는 신뢰도, FIA는 빈발항목집합 가중치라 정의한다.
A set of frequent items that perfectly match the transaction of verification data is extracted for each item set. The weight of the item set is determined by two or three kinds. In the embodiment of the present invention, two weights were defined by the method of 1, 3, 9, 27, 81 and 1, 5, 10, 300, and 500. In this case, FIC is defined as a frequent item set number, Sup is defined as support, Conf is reliability, and FIA is defined as a frequent item set weight.

<검증데이터 매치수><Validation Data Matches>

빈발항목집합 키워드들을 모두 포함하는 검증데이터의 트랜잭션 수를 검증데이터 매치수라 정의하면, 검증데이터 매치수 Score1은 하기 <수학식 1>과 같이 산출될 수 있다.When the number of transactions of the verification data including all the frequent item set keywords is defined as the verification data match number, the verification data match number Score1 may be calculated as in Equation 1 below.

Figure pat00001
Figure pat00001

이때, 실험데이터로 구한 각 지지도별 빈발항목집합의 항목집합은 키워드들과 키워드의 지지도로 구성되며, 이들 키워드들 간의 연관성의 척도는 빈발항목집합의 단일 항목집합의 키워드들과 검증데이터의 단일 트랜잭션에 나오는 키워드와 비교하여 판정한다. 본 발명의 실시예에서는 최소지지도별 연관성 분석으로 나온 빈발항목집합과 검증데이터와의 매치도 판정의 정확성을 높이기 위하여 빈발항목집합수와 검증데이터매치수를 곱한 정확도를 본 발명의 비교 기준항목으로 제안한다.
At this time, the item set of the frequent itemsets for each support obtained from the experimental data is composed of keywords and the support of the keywords, and the measure of correlation between these keywords is a single transaction of the keywords and the validation data of the single itemsets of the frequent itemsets. The judgment is made by comparing with the keyword shown in the following. In the embodiment of the present invention, in order to increase the accuracy of the determination of the matching degree between the frequent item set and the verification data, which is obtained from the correlation analysis for each of the minimum support maps, the accuracy obtained by multiplying the frequent item set number and the verification data match size is proposed as a comparison criterion of the present invention. .

<연관규칙룰셋에 의한 신뢰도, 지지도기반의 매치도><Reliability based on association rule rule, support based on match degree>

검증데이터를 기준으로 연관규칙롤셋의 지지도, 신뢰도를 기반으로 하여 연관성 척도를 수치화한 값을 나타내는데, 검증데이터의 각 트랜잭션에 매치되는 것으로 표현하는 매치도 Score2는 하기 <수학식 2>와 같이 산출될 수 있다.It represents the numerical value of the association measure based on the support and reliability of the association rule rollset based on the validation data, and the match degree score2 expressed as a match for each transaction of the validation data is calculated as shown in Equation 2 below. Can be.

Figure pat00002
Figure pat00002

<클래스간 키워드 중복제거 및 가중치 부여><Keyword deduplication and weighting between classes>

클래스간 발생한 중복키워드에 대하여 전체에 발생한 키워드는 일괄삭제하고 부분적으로 발생한 키워드에 대해서는 그 구분을 확실히 하기 위하여 중복이 발생한 클래스에 2배의 가산점(Weight)을 부여하여 정확도를 높인다(S207). 이때, 가산점은 하기와 같이 산출될 수 있다.In order to ensure the distinction between duplicate keywords generated in all classes, and to ensure distinction of partially generated keywords, a double weight is added to the duplicated classes to increase accuracy (S207). In this case, the addition point may be calculated as follows.

Weight = IF(Each class Score[A1,C1,D1] > Each class Score[A1,C1,D1])Weight = IF (Each class Score [A1, C1, D1]> Each class Score [A1, C1, D1])

TRUE A Score * 2 , FALSE B Score * 2
TRUE A Score * 2, FALSE B Score * 2

<초록, 청구항 1항, 기술배경의 각 항목에 합에 의한 매치도 계산><Abstract, claim 1, Match degree calculation by sum of each item of technical background>

특허문서의 분류는 어느 한 항목에 의존하는 것이 아니라서 각 항목의 합을 계산하여 정확도를 높이는 방법이 중요하다. 이는 특허문서의 중요한 특징 중의 하나로서 정확도를 높이는 방법으로 사용될 수 있다. 각 초록, 청구항 1항 및 기술배경에 대해 하기 <수학식 3>과 같이 매치도를 산출(S208)할 수 있다.The classification of patent documents does not depend on any one item, so it is important to increase the accuracy by calculating the sum of each item. This is an important feature of patent documents and can be used as a way to increase accuracy. For each abstract, claim 1, and technical background, a match degree may be calculated as shown in Equation 3 below (S208).

Figure pat00003
Figure pat00003

이와 같이, 각 분류 대상 특허 문서에 대해 각 클래스간 빈발항목 및 연관 규칙을 적용하여 매치도를 산출함으로써 특허 문서의 IPC 분류를 자동으로 수행할 수 있다(S208).In this way, the IPC classification of the patent document can be automatically performed by calculating the match degree by applying the frequent items and the association rules between classes for each classification target patent document (S208).

한편, 본 발명의 실시 예에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허 청구의 범위뿐만 아니라 이 특허 청구의 범위와 균등한 것들에 의해 정해져야 한다.
On the other hand, in the embodiment of the present invention has been described with respect to specific embodiments, various modifications are possible without departing from the scope of the invention. Therefore, the scope of the present invention should not be limited by the illustrated embodiments, but should be determined by the scope of the appended claims and equivalents thereof.

100 : 특허 문서 110 : 트랜잭션
120 : 분류 알고리즘 130 : 연관 규칙 룰셋
140 : 분류
100: Patent Document 110: Transaction
120: classification algorithm 130: association rule ruleset
140: classification

Claims (7)

국제 특허 분류에 따라 각 클래스가 이미 결정된 N개의 모집단 특허 문서로부터 적어도 하나의 식별항목에 포함된 내용을 추출하여 각 특허 문서별 트랜잭션을 구성하는 단계;
상기 각 트랜잭션에 포함된 내용으로부터 형태소 분석기를 통해 키워드를 추출하는 단계;
상기 추출된 키워드로부터 상기 각 해당 클래스에 대한 빈발항목 및 연관규칙을 생성하는 단계; 및
분류 대상 특허 문서를 상기 생성된 각 클래스별 빈발항목 및 연관규칙에 적용하여 클래스를 분류하는 단계;를 포함하는 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.
Composing a transaction for each patent document by extracting content included in at least one identification item from N population patent documents for which each class has already been determined according to the international patent classification;
Extracting a keyword from a content included in each transaction through a stemmer;
Generating frequent items and association rules for the corresponding classes from the extracted keywords; And
Classifying a class by applying a classification target patent document to each of the generated frequent items and association rules for each class; and automatically classifying patent documents using the frequent items and association rules.
제1항에 있어서, 상기 키워드를 추출하는 단계는,
상기 각 트랜잭션에 포함된 내용에서 불용어를 제거하는 단계;를 더 포함하는 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.
The method of claim 1, wherein the extracting of the keyword comprises:
Removing the stopwords from the contents included in each of the transactions; Patent document automatic classification method using frequent items and association rules further comprising.
제1항에 있어서, 상기 추출할 식별항목은,
출원번호, IPC 분류, 발명의 명칭, 대표 청구항, 핵심키워드 및 기술분야의 식별항목 중에서 선택된 어느 하나 이상인 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.
The method of claim 1, wherein the identification item to be extracted,
Method for automatically classifying patent documents using frequent items and association rules, characterized in that at least one selected from the application number, IPC classification, name of the invention, representative claims, key keywords, and identification in the technical field.
제1항에 있어서, 상기 키워드를 추출하는 단계는,
각 특허 문서별로 상기 추출된 키워드 중에서, 중복된 키워드를 제거하는 단계;를 더 포함하는 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.
The method of claim 1, wherein the extracting of the keyword comprises:
Method for automatically classifying patent documents using frequent items and association rules, further comprising the step of: removing duplicate keywords from the extracted keywords for each patent document.
제1항에 있어서, 상기 키워드를 추출하는 단계는,
각 특허 문서별로 상기 추출된 키워드 중에서, 유사한 키워드는 대표어로 치환하는 단계;를 더 포함하는 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.
The method of claim 1, wherein the extracting of the keyword comprises:
Among the extracted keywords for each patent document, a similar keyword is replaced with a representative word; Patent document automatic classification method using frequent items and association rules further comprising.
제1항에 있어서, 상기 빈발항목은,
'Apriori' 알고리즘에 의해 최소의 지지도 이상의 발생지지도를 가지는 조합으로 구성하는 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.
According to claim 1, The frequent items,
A method for automatically classifying patent documents using frequent items and association rules, comprising a combination having an origin map of at least a minimum of support by an 'Apriori' algorithm.
제1항에 있어서, 상기 빈발항목 및 연관규칙을 생성하는 단계 이후에,
상기 각 클래스간 중복 키워드에 대해 상기 키워드의 출현 개수를 고려하여 가중치를 부여하는 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.
The method of claim 1, wherein after generating the frequent item and the association rule,
The patent document automatic classification method using frequent items and an association rule, wherein weights are assigned to the duplicate keywords of each class in consideration of the number of occurrences of the keywords.
KR1020100100089A 2010-10-14 2010-10-14 Method of automatic patent document categorization adjusting association rules and frequent itemset KR101179613B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100100089A KR101179613B1 (en) 2010-10-14 2010-10-14 Method of automatic patent document categorization adjusting association rules and frequent itemset

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100100089A KR101179613B1 (en) 2010-10-14 2010-10-14 Method of automatic patent document categorization adjusting association rules and frequent itemset

Publications (2)

Publication Number Publication Date
KR20120038575A true KR20120038575A (en) 2012-04-24
KR101179613B1 KR101179613B1 (en) 2012-09-04

Family

ID=46139216

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100100089A KR101179613B1 (en) 2010-10-14 2010-10-14 Method of automatic patent document categorization adjusting association rules and frequent itemset

Country Status (1)

Country Link
KR (1) KR101179613B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115305A (en) * 2019-06-21 2020-12-22 杭州海康威视数字技术股份有限公司 Group identification method and device and computer readable storage medium
KR20210039136A (en) * 2019-10-01 2021-04-09 재단법인 한국특허정보원 Device and method for providing cpc based technology classification of patent document using machine learning
KR20210089962A (en) * 2020-01-09 2021-07-19 (주)미소정보기술 Apparatus and method for text analysis using rules generated based on concept dictionary
KR20220062992A (en) * 2020-11-09 2022-05-17 (주)미소정보기술 Method and apparatus for analyzing text data

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101521862B1 (en) * 2014-12-15 2015-05-21 한국과학기술정보연구원 System and method for classifying patent document
KR20240105172A (en) 2022-12-28 2024-07-05 서울대학교산학협력단 Object classification method and document classification apparatus using the same

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
JP2003316795A (en) * 2002-04-22 2003-11-07 Kyoji Umemura Similarity calculation device and method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115305A (en) * 2019-06-21 2020-12-22 杭州海康威视数字技术股份有限公司 Group identification method and device and computer readable storage medium
CN112115305B (en) * 2019-06-21 2024-04-09 杭州海康威视数字技术股份有限公司 Group identification method apparatus and computer-readable storage medium
KR20210039136A (en) * 2019-10-01 2021-04-09 재단법인 한국특허정보원 Device and method for providing cpc based technology classification of patent document using machine learning
KR20210089962A (en) * 2020-01-09 2021-07-19 (주)미소정보기술 Apparatus and method for text analysis using rules generated based on concept dictionary
KR20220062992A (en) * 2020-11-09 2022-05-17 (주)미소정보기술 Method and apparatus for analyzing text data

Also Published As

Publication number Publication date
KR101179613B1 (en) 2012-09-04

Similar Documents

Publication Publication Date Title
CN101593200B (en) Method for classifying Chinese webpages based on keyword frequency analysis
Zhang et al. An empirical study of TextRank for keyword extraction
CN103176983B (en) A kind of event method for early warning based on internet information
Stamatatos et al. Clustering by authorship within and across documents
CN103309862B (en) Webpage type recognition method and system
KR101179613B1 (en) Method of automatic patent document categorization adjusting association rules and frequent itemset
CN104951548A (en) Method and system for calculating negative public opinion index
CN101667194A (en) Automatic abstracting method and system based on user comment text feature
CN105975453A (en) Method and device for comment label extraction
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN101702167A (en) Method for extracting attribution and comment word with template based on internet
CN107273474A (en) Autoabstract abstracting method and system based on latent semantic analysis
CN114706972B (en) Automatic generation method of unsupervised scientific and technological information abstract based on multi-sentence compression
CN106055539A (en) Name disambiguation method and apparatus
CN116050397B (en) Method, system, equipment and storage medium for generating long text abstract
CN108335210A (en) A kind of stock unusual fluctuation analysis method based on public opinion data
Filho et al. Gender classification of twitter data based on textual meta-attributes extraction
CN113312476A (en) Automatic text labeling method and device and terminal
Akther et al. Compilation, analysis and application of a comprehensive Bangla Corpus KUMono
CN106960003A (en) Plagiarize the query generation method of the retrieval of the source based on machine learning in detection
Yanti et al. Application of named entity recognition via Twitter on SpaCy in Indonesian (case study: Power failure in the Special Region of Yogyakarta)
CN116561295A (en) Internet data extraction system
Campbell et al. Content+ context networks for user classification in twitter
Mekala et al. A Novel Document Representation Approach for Authorship Attribution.
CN113934910A (en) Automatic optimization and updating theme library construction method and hot event real-time updating method

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150819

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161004

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170717

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180829

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190925

Year of fee payment: 8