JP4936455B2 - Document classification apparatus, document classification method, program, and recording medium - Google Patents
Document classification apparatus, document classification method, program, and recording medium Download PDFInfo
- Publication number
- JP4936455B2 JP4936455B2 JP2007075517A JP2007075517A JP4936455B2 JP 4936455 B2 JP4936455 B2 JP 4936455B2 JP 2007075517 A JP2007075517 A JP 2007075517A JP 2007075517 A JP2007075517 A JP 2007075517A JP 4936455 B2 JP4936455 B2 JP 4936455B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- cluster
- documents
- period
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、ネットワーク上に公開されている文書情報から、人々が記載している話題をテーマ毎にまとめ、クラスタ単位で閲覧可能にする文書分類装置に係り、特に、利用者が所望する期間に合致する文書を対象に、所望の粒度でテーマ毎にまとめたクラスタを提示する文書分類装置に関する。
The present invention relates to a document classification apparatus that collects topics described by people from the document information published on the network for each theme and enables browsing in cluster units, and in particular, during a period desired by the user. The present invention relates to a document classification apparatus that presents clusters that are grouped by theme with a desired granularity for matching documents.
近年、インターネット等のコンピュータネットワークの発達に伴い、大量の電子化された情報が発信され続けている。そのために、ある話題に関する情報を取得したいと思った場合、複数の情報源から、公開されているWebページを1つ1つ閲覧する大変な労力を必要とする。 In recent years, with the development of computer networks such as the Internet, a large amount of computerized information has been transmitted. For this reason, when it is desired to acquire information on a certain topic, a great effort is required to browse each published Web page from a plurality of information sources.
従来、自然言語処理や情報検索技術分野において、電子化されている文書を、文書内で出現する単語のベクトルで表し、単語のベクトルが類似している文書を、ひとまとめのクラスタにする技術が知られている。 Conventionally, in the field of natural language processing and information retrieval technology, a technology is known in which an electronic document is represented by a vector of words appearing in the document, and documents having similar word vectors are made into a cluster. It has been.
このような従来技術では、単語出現頻度を用いて、文書をベクトル表現し(以下、「文書ベクトル」と呼ぶ)、文書間の類似度は、この文書ベクトル間のコサイン類似度を適用している。すなわち、文書dnを文書ベクトル In such a conventional technique, a document is expressed as a vector using the word appearance frequency (hereinafter referred to as “document vector”), and the similarity between documents applies the cosine similarity between the document vectors. . In other words, the document vector of the document d n
そして、類似度に基づいて、クラスタリング処理を行う。クラスタリング手法は、様々存在するが、類似している文書を1つのクラスタとして順次まとめ、閾値を利用して類似していないと判断したときに処理をやめる手法が知られている(たとえば、特許文献1参照)。この手法では、1つの文書を1クラスタとして処理を予め開始し、最も類似しているクラスタ同士を蓄積したテーブルを作成することによって、クラスタリングの処理時間を短縮する。 Then, clustering processing is performed based on the similarity. There are various clustering methods, but a method is known in which similar documents are sequentially gathered as one cluster, and processing is stopped when it is determined that they are not similar using a threshold (for example, Patent Documents). 1). In this method, processing is started in advance with one document as one cluster, and the processing time of clustering is shortened by creating a table in which the most similar clusters are accumulated.
そこで、たとえば1ヶ月分の文書情報を1週間ずつに区切り、それぞれの期間における話題を見たいと思った場合、文書集合を1週間ずつに分割し、それぞれを入力文書としてクラスタリング処理を実行する。この結果、生成されたクラスタは、期間毎に独立であり、異なる期間におけるクラスタの対応付けが困難である。すなわち、あるクラスタが、時系列で変化した経緯を提示することができないという問題がある。 Therefore, for example, when document information for one month is divided into one week, and when it is desired to see a topic in each period, a document set is divided into one week, and clustering processing is executed using each as an input document. As a result, the generated clusters are independent for each period, and it is difficult to associate clusters in different periods. In other words, there is a problem that a certain cluster cannot present the history of changes in time series.
一方、1ヶ月分の文書情報を全て利用して、クラスタを生成し、この生成されたクラスタのうちで、指定された期間の文書のみを提示する方法も考えられる。この方法では、異なる期間においてクラスタ同士を対応付けることは可能であるが、クラスタ間の類似度を求める際に、本来、利用すべきではない期間外の文書についても、類似度を求めているので、正確さに欠けるという問題がある。
つまり、上記従来例では、開始時刻から終了時刻までの期間と、文書間の距離に関する閾値とが与えられた場合、蓄積されている文書の中から、クラスタを短時間で生成することができないという問題がある。 In other words, in the above conventional example, when a period from the start time to the end time and a threshold value regarding the distance between documents are given, a cluster cannot be generated in a short time from the stored documents. There's a problem.
本発明は、蓄積されている文書の全てについて予め木構造を生成し、与えられた文書間の距離に関する閾値によって全期間のクラスタを生成し、開始時刻から終了時刻までの期間が指定された場合、期間に含まれている時刻情報を持つ文書のみを検出し、この検出された文書によって構成される期間指定クラスタを生成する。 In the present invention, a tree structure is generated in advance for all stored documents, a cluster for all periods is generated based on a threshold related to the distance between given documents, and a period from the start time to the end time is specified. Only documents having time information included in the period are detected, and a period designation cluster constituted by the detected documents is generated.
また、本発明は、閾値を変更した場合、または期間を変更した場合、適切なクラスタを短期間で提供することができる文書分類装置、文書分類方法、プログラムおよび記録媒体を提供することを目的とする。
Another object of the present invention is to provide a document classification device, a document classification method, a program, and a recording medium that can provide an appropriate cluster in a short period when the threshold value is changed or the period is changed. To do.
本発明は、文書を一意に示す文書IDに対応付けて、時刻情報と、タイトルと、文書の本文とを蓄積する文書蓄積部と、クラスタを生成するための距離の閾値と、開始時刻と、終了時刻とを入力する入力部と、文書蓄積部に蓄積されている上記文書の本文を用い、自文書の時刻情報よりも古い時刻情報を持つ文書と上記自文書との距離を、文書間類似度に基づいて算出する文書間距離算出部と、上記自文書の時刻情報よりも古い時刻情報を持つ文書の中で上記自文書との距離が最短距離である文書を親ノードとし、親ノードの文書IDと上記最短距離とを自文書の文書IDと対応づけて蓄積する最短距離文書蓄積部と、上記最短距離文書蓄積部に蓄積されている最短距離と上記入力部から受け取った閾値と比較し、上記最短距離が上記閾値以下であれば最短文書と自文書とを同一のクラスタとし、上記最短距離が上記閾値よりも大きければ最短文書と自文書とを別のクラスタとすることでクラスタを生成する統合処理部と、上記統合処理部が統合したクラスタを、クラスタを一意に示すクラスタIDと、各クラスタに属する文書集合とを対応付けて蓄積する全クラスタ蓄積部と、全クラスタ蓄積部に蓄積されているクラスタを構成する文書のうちで、上記入力部から受け取った上記開始時刻から上記終了時刻までの期間である指定期間に含まれている時刻情報をもつ文書のみを検出し、この検出された文書によって期間指定クラスタを生成する期間指定クラスタ生成部と、上記期間指定クラスタ生成部が生成した上記期間指定クラスタを蓄積する期間指定クラスタ蓄積部とを有し、上記期間指定クラスタ生成部は、上記全クラスタ蓄積部から、未処理のクラスタIDに対応する文書の集合を取得し、上記指定期間に含まれている文書であり親ノードの時刻情報が上記開始時刻よりも前である文書が複数存在しない場合、あるいは、複数存在しても存在する複数の文書同士の距離が上記閾値以下である場合、当該クラスタIDに対応する文書の集合の中で上記指定期間に含まれる文書で1つの期間指定クラスタとし、上記指定期間に含まれている文書であり親ノードの時刻情報が上記開始時刻よりも前である文書が複数存在する場合で、存在する複数の文書同士の距離が上記閾値よりも大きい場合、当該クラスタIDに対応する文書の集合の中で上記指定期間に含まれる文書を複数の期間指定クラスタにすることを特徴とする文書分類装置である。The present invention relates to a document storage unit that stores time information, a title, and the text of a document in association with a document ID that uniquely identifies the document, a distance threshold for generating a cluster, a start time, Using the input unit for inputting the end time and the body text of the document stored in the document storage unit, the distance between the document having time information older than the time information of the document and the document is similar to each other. The inter-document distance calculation unit that calculates based on the degree and the document having the shortest distance from the self-document among the documents having time information older than the time information of the self-document is set as a parent node, Compare the shortest distance document storage unit that stores the document ID and the shortest distance in association with the document ID of the document, the shortest distance stored in the shortest distance document storage unit, and the threshold received from the input unit. The shortest distance is not less than the threshold value. If this is the case, the shortest document and the self-document are made the same cluster, and if the shortest distance is larger than the threshold, the shortest document and the self-document are made different clusters, and the integration processing unit generates the cluster. Clusters integrated by the processing unit are stored in association with a cluster ID that uniquely identifies the cluster and a set of documents belonging to each cluster, and the documents that constitute the clusters stored in all the cluster storage units Among these, only documents having time information included in the designated period that is the period from the start time to the end time received from the input unit are detected, and a period designation cluster is generated from the detected documents. A period-designated cluster generation unit that stores the period-designated cluster generated by the period-designated cluster generation unit, The recording period specified cluster generation unit acquires a set of documents corresponding to the unprocessed cluster ID from the all cluster storage unit, and the time information of the parent node that is a document included in the specified period is the start time. If there are no documents before the present, or if the distance between a plurality of existing documents is less than or equal to the threshold, the specified period in the set of documents corresponding to the cluster ID A plurality of existing documents in the case where there are a plurality of documents that are included in the specified period and whose time information of the parent node is earlier than the start time. When the distance between each other is larger than the threshold value, a document included in the specified period in the set of documents corresponding to the cluster ID is set as a plurality of period specified clusters. Document classification device.
本発明によれば、蓄積されている文書の全てについて予め木構造を生成し、与えられた文書間の距離に関する閾値によって全期間のクラスタを生成し、開始時刻から終了時刻までの期間が指定された場合、期間に含まれている時刻情報を持つ文書のみを検出し、この検出された文書によって構成される期間指定クラスタを生成するので、上記閾値を変更した場合、または期間を変更した場合に、適切なクラスタを短期間で提供することができるという効果を奏する。
According to the present invention, a tree structure is generated in advance for all of the accumulated documents, a cluster for all periods is generated with a threshold regarding the distance between given documents, and a period from the start time to the end time is specified. In this case, only documents with time information included in the period are detected, and a period-designated cluster composed of the detected documents is generated, so when the threshold is changed or the period is changed As a result, it is possible to provide an appropriate cluster in a short period of time.
発明を実施するための最良の形態は、以下の実施例である。 The best mode for carrying out the invention is the following examples.
本発明の実施例1は、文書間の類似度に基づいて文書間の距離を求め、文書間の距離が近い文書ほど類似しているとする。すなわち、文書djとdkとの距離を、各文書類似度を用い、1−Cosθj,kで示す。 In the first embodiment of the present invention, the distance between documents is obtained based on the similarity between documents, and it is assumed that documents having a shorter distance between documents are more similar. That is, the distance between the documents d j and d k is represented by 1-Cos θ j, k using each document similarity.
インターネット上では次々と新しい文書が発信され、更新された時刻情報等を、文書に付与し、蓄積する。実施例1では、このような場合について考える。 New documents are transmitted one after another on the Internet, and updated time information and the like are added to the document and stored. Example 1 considers such a case.
図1は、本発明の実施例1の原理を示すフローチャートである。 FIG. 1 is a flowchart showing the principle of the first embodiment of the present invention.
実施例1では、処理対象である文書間の距離を全て算出するのではなく、自文書の時刻よりも古い時刻が付与されている文書のみを対象として距離を算出する。次いで、全ての文書を時刻順に並べ、自文書と最も距離の近い文書との間を結ぶことによって木構造を形成し、この場合、最も古い文書をルートとして木構造を生成する(S1)。 In the first embodiment, not all distances between documents to be processed are calculated, but the distance is calculated only for documents to which a time older than the time of the document is given. Next, all documents are arranged in order of time, and a tree structure is formed by connecting between the own document and the closest document. In this case, a tree structure is generated with the oldest document as a root (S1).
図2は、実施例1の原理を説明する図である。 FIG. 2 is a diagram illustrating the principle of the first embodiment.
図2において、●印が1つの文書を示し、左から右に向かうほど、時刻の新しい文書が順に並んでいる。自文書よりも古い時刻を持ち、自文書に最も距離の短い文書と自文書とを線で結ぶと、図2(1)に示すように、木構造が生成される。 In FIG. 2, the ● mark indicates one document, and the documents with newer times are arranged in order from the left to the right. When a document having a time older than that of the own document and having the shortest distance to the own document and the own document are connected by a line, a tree structure is generated as shown in FIG.
次に、上記木構造において、文書間の距離が、与えられた閾値以下である文書同士を、同じクラスタにまとめる統合処理を行う(S2)。 Next, in the above tree structure, integration processing is performed in which documents whose distance between documents is equal to or less than a given threshold are grouped into the same cluster (S2).
図2(2)に示す例では、距離の閾値に基づいて、クラスタ1とクラスタ2とが生成される。また、全ての文書に、上記統合処理を実施したクラスタについて、指定されている期間(以下、「指定期間」という)に含まれている文書だけを提示する(S3)。
In the example shown in FIG. 2 (2),
図2(3)に示す例において、時刻T1〜T2の期間が指定されていると、●の文書だけを提示し、○の文書は、期間外になるので提示しない。 In the example shown in FIG. 2 (3), if the period from time T1 to T2 is designated, only the document of ● is presented, and the document of ○ is not presented because it is out of the period.
このときに、あるクラスタにおける文書が、上記指定期間よりも古ければ、親ノードが期間外である文書が複数存在する場合がある。なお、上記「親ノード」は、自文書よりも古い時間情報を持つ文書のうちで、自文書との距離が最短である文書である。上記の場合、親ノードが期間外である複数の文書間の距離が、閾値以下であれば、同じクラスタとし、閾値よりも大きければ、別のクラスタとして提示する(クラスタを分割する)。 At this time, if a document in a cluster is older than the specified period, there may be a plurality of documents whose parent node is outside the period. The “parent node” is a document having the shortest distance from the self document among documents having time information older than the self document. In the above case, if the distance between a plurality of documents whose parent node is out of the period is equal to or smaller than the threshold, the same cluster is presented, and if the distance is larger than the threshold, it is presented as another cluster (dividing the cluster).
図2(3)に示すように、クラスタ1は、親ノードが期間外になる文書(点線でつながれた文書)が2つ存在し、これらの文書間の距離を算出し、この算出された距離に応じて、クラスタを分離するかどうかを決定する。
As shown in FIG. 2 (3), in
図3は、本発明の実施例1における文書分類装置DC1を示す図である。 FIG. 3 is a diagram illustrating the document classification device DC1 according to the first embodiment of the present invention.
文書分類装置DC1は、文書蓄積部10と、入力部20と、クラスタ表示部30とに接続されている。
The document classification device DC1 is connected to the
文書蓄積部10は、文書を一意に示す文書IDに対応付けて、時刻情報と、タイトルと、本文とが記憶装置に蓄積されている。
The
入力部20は、クラスタを生成するための閾値と、開始時刻と、終了時刻とを出力する。
The
クラスタ表示部30は、文書分類装置DC1が出力したクラスタ情報(文書の時刻情報、タイトル、本文)を表示する。つまり、クラスタ表示部30は、図10(2)に示すように、クラスタの概要を表示する際に、時刻情報、本文から抜粋したテキストを表示する。この場合、タイトルを表示することもある。
The
文書分類装置DC1は、文書間距離算出部11と、最短距離文書蓄積部12と、統合処理部13と、全クラスタ蓄積部14と、期間指定クラスタ生成部15と、期間指定クラスタ蓄積部16とを有する。
The document classification device DC1 includes an inter-document distance calculation unit 11, a shortest distance document storage unit 12, an
文書間距離算出部11は、文書蓄積部10に蓄積されている上記文書の本文を用い、自文書の時刻情報よりも古い時刻情報を持つ文書との距離を、文書間類似度に基づいて算出する。
The inter-document distance calculation unit 11 uses the body text of the document stored in the
上記自文書の時刻情報よりも古い時刻情報を持つ文書と、上記着目文書との距離のうちで、最短距離である文書の文書IDと、上記最短距離とを記憶装置に蓄積する。文書間距離算出にかかる計算時間は、文書数の二乗オーダである。 Among the distances between the document having time information older than the time information of the document itself and the document of interest, the document ID of the document having the shortest distance and the shortest distance are stored in the storage device. The calculation time required for calculating the distance between documents is the square order of the number of documents.
図4は、最短距離文書蓄積部12に蓄積されているデータの例を示す図である。 FIG. 4 is a diagram illustrating an example of data stored in the shortest distance document storage unit 12.
最短距離文書蓄積部12は、図4(1)に示すように、各文書の文書ID41と、時刻情報42と、文書間距離算出部11が算出した最短距離を持つ文書の文書ID43と、その最短最短距離44とが対応付けられ、記憶装置に蓄積する。 As shown in FIG. 4A, the shortest distance document storage unit 12 includes a document ID 41 of each document, time information 42, a document ID 43 of a document having the shortest distance calculated by the inter-document distance calculation unit 11, and its The shortest shortest distance 44 is associated and stored in the storage device.
図4(2)は、最短距離文書蓄積部12が蓄積している情報を表す木構造40を示す図である。 FIG. 4B is a diagram illustrating a tree structure 40 representing information stored in the shortest distance document storage unit 12.
統合処理部13は、入力部20から受け取った閾値と最短距離文書蓄積部12に蓄積されている最短距離44とを比較する。まず、最新文書からなるクラスタを1つ生成し、最短距離44と上記閾値と比較し、上記最短距離が上記閾値以下であれば、最短文書を自文書と同一のクラスタに追加する。上記最短距離が上記閾値よりも大きければ、最短文書からなる新しいクラスタを生成する。次に、最短文書43に記載されている文書を文書41から探索し、該当する文書の最短距離44と上記閾値とを比較する。一旦ルート(最も古い文書:図4に示す例では文書d1)に到達した場合、閾値との比較が実施されていない文書集合において、該文書集合の中で最新の文書を選択し、最短距離44と上記閾値との比較を開始する。
The
全ての文書について、上記閾値と比較し、生成したクラスタを、全クラスタ蓄積部14に蓄積する。
All the documents are compared with the threshold value, and the generated clusters are accumulated in the all-
全クラスタ蓄積部14は、統合処理部13が全ての文書のそれぞれについて生成したクラスタを蓄積する。
The all
実施例1では、最短距離と閾値とを比較する上記処理を、全ての文書について、1度だけ実行すれば足りるので、処理が高速である。 In the first embodiment, the above-described processing for comparing the shortest distance with the threshold need only be executed once for all the documents, so that the processing is fast.
次に、図4に示すデータが、最短距離文書蓄積部12に蓄積され、上記閾値として0.5が入力された場合の動作について説明する。 Next, the operation when the data shown in FIG. 4 is stored in the shortest distance document storage unit 12 and 0.5 is input as the threshold value will be described.
まず、クラスタC1の要素とし最新の文書d10を考え、最新の文書d10に最短距離0.6が対応付けられ、この対応付けられている最短距離0.6と閾値0.5とを比較する。文書d10の最短距離0.6は、閾値0.5よりも大きいので、新しいクラスタC2を作成し、このクラスタC2の要素として、図4(1)に示す最短文書IDのd9を蓄積する。 First, the latest document d10 is considered as an element of the cluster C1, and the latest document d10 is associated with the shortest distance 0.6, and this shortest distance 0.6 is compared with the threshold value 0.5. Since the shortest distance 0.6 of the document d10 is larger than the threshold value 0.5, a new cluster C2 is created, and d9 of the shortest document ID shown in FIG. 4A is stored as an element of this cluster C2.
続いて、上記最短文書IDのd9について、上記と同様に、最短文書IDであるd2との最短距離0.5と閾値0.5とを比較し、文書IDd9と文書IDd2との最短距離0.5が閾値0.5以下であるので、文書IDd9が属するクラスタC2に、文書IDd2を追加する。 Subsequently, for d9 of the shortest document ID, the shortest distance 0.5 between the shortest document ID d2 and the threshold value 0.5 is compared in the same manner as described above, and the shortest distance 0.0 between the document IDd9 and the document IDd2 is compared. Since 5 is 0.5 or less, the document ID d2 is added to the cluster C2 to which the document ID d9 belongs.
図5は、実施例1における全クラスタ蓄積部14に蓄積されているデータの例を示す図である。
FIG. 5 is a diagram illustrating an example of data stored in the all-
上記のようにして、全ての文書について処理した結果が、図5に示す例である。全クラスタ蓄積部14は、図5(1)に示すように、クラスタを一意に示すクラスタID51と、各クラスタに属する文書集合52とを対応付けて蓄積している。図5(2)は、図5(1)に示す例を木構造で表示した例であり、各文書は、自文書と最も距離の短い最短文書と実線でつながれている。
The result of processing all the documents as described above is an example shown in FIG. As shown in FIG. 5A, the all
期間指定クラスタ生成部15は、全クラスタ蓄積部14に蓄積されているクラスタを構成する文書のうちで、上記入力部20から受け取った上記開始時刻から上記終了時刻までの期間(指定期間)に含まれている時刻情報をもつ文書を、検出し、この検出された文書のみによって構成されているクラスタである期間指定クラスタを生成する。
The period designation
期間指定クラスタ蓄積部16は、期間指定クラスタ生成部15が生成した上記期間指定クラスタを蓄積する。
The period designation
図6は、実施例1における期間指定クラスタ生成部15の動作を示すフローチャートである。
FIG. 6 is a flowchart illustrating the operation of the period designation
まず、全クラスタ蓄積部14から、全てのクラスタIDを取得し、クラスタ毎の処理を順次、行う。未処理のクラスタがあれば(S11)、全クラスタ蓄積部14から、未処理のクラスタIDに対応する文書IDの集合を取得する(S12)。
First, all cluster IDs are acquired from the all-
次に、上記指定期間内に含まれている文書があるかどうか、最短距離文書蓄積部12に蓄積されている各文書の時刻情報42を参照して調べる(S13)。上記指定期間内に文書が存在しないクラスタは、以後の処理を実行せずに、S11に戻り、次のクラスタの処理を実施する。 Next, it is checked whether or not there is a document included in the specified period by referring to the time information 42 of each document stored in the shortest distance document storage unit 12 (S13). A cluster in which no document exists within the specified period returns to S11 without performing the subsequent processing, and performs processing for the next cluster.
未処理のクラスタIDに対応する文書IDの集合のうちで、上記指定期間内に含まれている文書があれば(S13)、上記指定期間に基づいて、クラスタが分割されるかどうかを調べる(S14)。クラスタが分割されなければ(S14)、クラスタ内の文書が全て期間内に含まれ、処理しているクラスタIDと対応付けられている文書IDとを、そのまま、期間指定クラスタ蓄積部16に蓄積する(S15)。
If there is a document included in the specified period among the set of document IDs corresponding to the unprocessed cluster ID (S13), it is checked whether the cluster is divided based on the specified period (S13). S14). If the cluster is not divided (S14), all documents in the cluster are included in the period, and the document ID associated with the cluster ID being processed is stored in the period designation
上記指定期間に基づいて、クラスタが分割される場合(S14)、続いて、クラスタ内の各文書において、親ノードが、入力部20が出力した開始時刻よりも前の時刻情報を持つ文書を選択し、上記選択された文書が複数存在するかどうかを調べる。つまり、図8に示すクラスタC2における文書d6、d8、d9のように、複数の文書が存在するかどうかを調べる(S16)。
If the cluster is divided based on the specified period (S14), then in each document in the cluster, the parent node selects a document having time information before the start time output by the
なお、上記「親ノード」は、自文書よりも古い時間情報を持つ文書のうちで、自文書との距離が最短である文書である。つまり、自文書よりも古い時間情報を持つ文書のうちで、自文書との距離が最短である文書を、自文書に対して「親ノード」という。 The “parent node” is a document having the shortest distance from the self document among documents having time information older than the self document. In other words, a document having the shortest distance from the self document among documents having time information older than the self document is referred to as a “parent node” with respect to the self document.
親ノードの時刻情報が上記開始時刻よりも前の時刻情報を持つ文書が1つしかなければ(S16)、クラスタIDと対応付けられている文書ID集合の中で、上記指定期間内に含まれている文書だけを選び、この選ばれた文書を、クラスタIDと対応付け、期間指定クラスタ蓄積部16に蓄積する(S17)。 If there is only one document whose parent node time information is earlier than the start time (S16), it is included in the specified period in the document ID set associated with the cluster ID. Only the selected document is selected, and the selected document is associated with the cluster ID and stored in the period-designated cluster storage unit 16 (S17).
上記親ノードが指定期間外になる文書が複数あれば、分割判定処理(S18)を実行し、閾値と比較し、クラスタを分割するかどうかを決定する。 If there are a plurality of documents whose parent node is outside the specified period, a division determination process (S18) is executed and compared with a threshold value to determine whether to divide the cluster.
図7は、実施例1における期間指定クラスタ生成部15の分割判定処理(S18)の動作を示すフローチャートである。
FIG. 7 is a flowchart illustrating the operation of the division determination process (S18) of the period designation
分割判定処理(S18)には、上記指定されている閾値と、上記指定期間と、開始時刻よりも前の時刻情報を持つ親ノードの子ノードである文書を複数含むクラスタのIDと対応付けられている文書と、文書の時刻情報とが入力される。まず、入力されたクラスタIDをそのまま引き継ぐ文書IDを決定する。 The division determination process (S18) is associated with the ID of a cluster including a plurality of documents that are child nodes of a parent node having time information before the specified time, the specified period, and the start time. And the time information of the document are input. First, a document ID that directly inherits the input cluster ID is determined.
ここでは、クラスタの中で、上記開始時刻よりも前の時刻情報を持つ文書に最も類似している文書を選択する。そこで、最短距離文書蓄積部12に蓄積されている文書ID毎の最短距離44に基づいて、文書ID(仮ルート)を選択する(S20)。 Here, a document that is most similar to a document having time information before the start time is selected from the cluster. Therefore, a document ID (provisional route) is selected based on the shortest distance 44 for each document ID stored in the shortest distance document storage unit 12 (S20).
次に、仮ルートをルートとするサブツリーの文書の集合において、上記指定期間に含まれている文書を、クラスタIDと対応付け、期間指定クラスタ蓄積部16に蓄積する(S21)。そして、仮ルート以外の文書であって、親ノードの時刻情報が開始時刻よりも前である文書の集合を選択し(S22)、この文書集合について、以下の処理を実行する。なお、上記「仮ルート」は、自文書が所定の期間内にあり、自文書の親ノードが上記期間外にある文書である。 Next, in the set of sub-tree documents with the temporary route as the root, the document included in the specified period is associated with the cluster ID and stored in the period specified cluster storage unit 16 (S21). Then, a set of documents that are documents other than the temporary root and whose parent node time information is earlier than the start time is selected (S22), and the following processing is executed for this document set. The “provisional route” is a document whose own document is within a predetermined period and whose parent node is outside the period.
まず、文書集合中に、未処理の文書があれば(S23のYES)、未処理の文書を1つ選択し、上記仮ルートとの距離を新たに算出する(S24)。距離を算出する場合、文書間距離算出部11が、文書間の距離を既に算出し、この算出された距離が蓄積され、これを参照するので、文書間距離をその都度算出する場合よりも、処理が高速である。 First, if there is an unprocessed document in the document set (YES in S23), one unprocessed document is selected, and a distance from the temporary route is newly calculated (S24). When calculating the distance, the inter-document distance calculation unit 11 has already calculated the inter-document distance, and the calculated distance is stored and referred to, so that the inter-document distance is calculated each time, rather than Processing is fast.
算出した距離が、指定された閾値以下であれば(S25のYES)、処理中の文書IDをルートとするサブツリーの文書の集合の中で、上記指定期間に含まれている文書を、クラスタIDと対応付けて、期間指定クラスタ蓄積部16に蓄積する(S26)。 If the calculated distance is equal to or less than the specified threshold value (YES in S25), a document included in the specified period in the set of documents in the subtree whose root is the document ID being processed is a cluster ID. Are stored in the period-designated cluster storage unit 16 (S26).
算出した距離が閾値よりも大きければ(S25のNO)、新しいクラスタIDを作成し(S27)、処理中の文書IDをルートとするサブツリーの文書の集合の中で、上記指定期間に含まれている文書に、新しく作成したクラスタIDを対応付け、期間指定クラスタ蓄積部16に蓄積する(S28)。 If the calculated distance is larger than the threshold (NO in S25), a new cluster ID is created (S27), and included in the specified period in the set of subtree documents rooted at the document ID being processed. The newly created cluster ID is associated with the existing document and accumulated in the period designation cluster accumulation unit 16 (S28).
ここで、上記「新し作成したクラスタID」は、全クラスタ蓄積部14に蓄積されているクラスタID以外のクラスタである。また、新しく作成したクラスタIDが、元々、属していたクラスタと対応させるために、処理中のクラスタIDを、新しく生成したクラスタIDと対応付けて蓄積する(S29)。
Here, the “newly created cluster ID” is a cluster other than the cluster IDs stored in all the
1つの文書に対する処理が終了すると、S23に戻り、未処理の文書が無くなるまで、処理を実行する(S23のNO)。 When the process for one document is completed, the process returns to S23, and the process is executed until there is no unprocessed document (NO in S23).
次に、実際のデータを例にして、期間指定クラスタ生成部15の処理について説明する。
Next, the process of the period designation
図8は、期間指定クラスタ生成部15における処理を説明する図である。
FIG. 8 is a diagram for explaining the processing in the period designation
図8において、文書間を接続している実線が、木構造であり、この木構造を全クラスタ蓄積部14が蓄積している。また、図8において、点線は、S24で距離を算出する対象である2文書を結ぶ点線である。
In FIG. 8, the solid line connecting the documents has a tree structure, and this cluster structure is stored in the all-
図8に示す例では、統合処理部13の説明で記載したように、閾値を0.5とし、この閾値0.5に基づいて、クラスタC1、クラスタC2、クラスタC3が生成され、存在している。
In the example shown in FIG. 8, as described in the explanation of the
上記指定期間として、開始時刻=T1、終了時刻=T2が与えられている場合、まず、全クラスタ蓄積部14から、3つのクラスタID:クラスタC1、クラスタC2、クラスタC3を取得する(S10)。続いて,各クラスタIDに対して、以下の処理を実行する。 When start time = T1 and end time = T2 are given as the specified period, first, three cluster IDs: cluster C1, cluster C2, and cluster C3 are acquired from all cluster storage units 14 (S10). Subsequently, the following processing is executed for each cluster ID.
未処理のクラスタIDとして(S11のYES)、まず、クラスタC1を選択し、クラスタC1に対応する文書の集合として、文書d10を取得する(S12)。クラスタC1は、文書ID:d10のみで構成され、文書d10は、指定期間に含まれている文書である(S13のYES)。また、上記指定期間内に、全ての文書IDが含まれているので(S14のNO)、文書d10を、クラスタC1と対応付けて、期間指定クラスタ蓄積部16に蓄積する。
As an unprocessed cluster ID (YES in S11), the cluster C1 is first selected, and a document d10 is acquired as a set of documents corresponding to the cluster C1 (S12). The cluster C1 is composed of only the document ID: d10, and the document d10 is a document included in the designated period (YES in S13). Since all document IDs are included within the specified period (NO in S14), the document d10 is stored in the period specified
次に、クラスタC2を選択し(S11のYES)、クラスタC2に対応する文書の集合{d1,d2,d5,d6,d7,d8,d9}を取得する(S12)。クラスタC2には、上記指定期間に含まれている文書の集合{d6,d7,d8,d9}が存在し(S13のYES)、期間によって、集合{d1,d2,d5}と集合{d6,d7,d8,d9}とに分割される(S14のYES)。 Next, the cluster C2 is selected (YES in S11), and a set of documents {d1, d2, d5, d6, d7, d8, d9} corresponding to the cluster C2 is acquired (S12). In cluster C2, there is a set of documents {d6, d7, d8, d9} included in the specified period (YES in S13). Depending on the period, sets {d1, d2, d5} and sets {d6, d7, d8, d9} (YES in S14).
そこで、上記指定期間に含まれている文書集合{d6、d7、d8、d9}のうちで、親ノードの時刻情報が上記開始時刻T1よりも前である文書が、複数存在するかどうかを調べると(S16)、文書d6の親ノードd5、文書d8の親ノードd5、文書d9の親ノードd2が、図8に示すように、開始時刻T1よりも前である。3文書d6、d8、d9の親ノードが、指定期間外であるので(S16のYES)、分割判定処理(S18)を実行する。 Therefore, it is checked whether there are a plurality of documents whose parent node time information is earlier than the start time T1 in the document set {d6, d7, d8, d9} included in the specified period. (S16), the parent node d5 of the document d6, the parent node d5 of the document d8, and the parent node d2 of the document d9 are before the start time T1, as shown in FIG. Since the parent nodes of the three documents d6, d8, and d9 are outside the designated period (YES in S16), the division determination process (S18) is executed.
分割判定処理では、まず、親ノードの時刻情報が、指定されている開始時刻よりも前である文書(子ノード)の集合{d6,d8,d9}から、親ノードとの距離が最短である文書(仮ルート)として、文書d6を選択する(S20)。これを仮ルートという。つまり、「仮ルート」は、親ノードの時刻情報が、指定されている開始時刻よりも前である文書(子ノード)の集合から、親ノードとの距離が最短である文書である。 In the division determination process, first, the distance from the parent node is the shortest from the set {d6, d8, d9} of documents (child nodes) whose parent node time information is earlier than the designated start time. The document d6 is selected as the document (provisional route) (S20). This is called a temporary route. That is, the “provisional route” is a document having the shortest distance from the parent node from a set of documents (child nodes) whose parent node time information is earlier than the designated start time.
次に、仮ルートd6をルートとするサブツリーに含まれている文書の集合{d6、d7}のうちで、指定期間内に含まれている文書d6とd7とを、クラスタC2と対応付けて、期間指定クラスタ蓄積部16に蓄積する(S21)。 Next, among the set of documents {d6, d7} included in the subtree having the temporary root d6 as a root, the documents d6 and d7 included in the designated period are associated with the cluster C2, It accumulates in the period designation cluster accumulation unit 16 (S21).
次に、仮ルートd6以外で、親ノードの時刻情報が上記開始時刻T1よりも前である文書の集合d8,d9を選択し(S22)、この集合に属する文書ID毎に、次の処理を実行する。 Next, a set of documents d8 and d9 other than the temporary route d6 whose parent node time information is earlier than the start time T1 is selected (S22), and the following processing is performed for each document ID belonging to this set. Execute.
まず、文書集合{d8,d9}の中に未処理の文書がある場合(S23のYES)、未処理の文書を選択し、仮ルートd6との距離を算出する(S24)。まず、文書d8を選択し、仮ルート(d6)との距離を算出する。算出した距離が、たとえば0.25であれば、指定された閾値0.5以下であるので(S25のYES)、文書d8をルートとするサブツリーに含まれている文書の集合{d8}のうちで、期間内に含まれている文書を選択するが、この例では、文書d8に子ノードが無いので、文書d8のみをクラスタC2と対応付け、期間指定クラスタ蓄積部16に蓄積する(S26)。上記「子ノード」は、自文書の時刻情報よりも新しい時刻情報を持ち、しかも自文書から最短距離にある文書である。 First, when there is an unprocessed document in the document set {d8, d9} (YES in S23), an unprocessed document is selected and a distance from the temporary route d6 is calculated (S24). First, the document d8 is selected, and the distance from the temporary route (d6) is calculated. If the calculated distance is, for example, 0.25, the specified threshold value is 0.5 or less (YES in S25), and therefore, out of the set {d8} of documents included in the subtree having the document d8 as a root. In this example, since there is no child node in the document d8, only the document d8 is associated with the cluster C2 and stored in the period designation cluster storage unit 16 (S26). . The “child node” is a document that has time information that is newer than the time information of the own document and that is at the shortest distance from the own document.
次に、未処理の文書:d9の処理を実行する(S23のYES)。仮ルートd6との距離を算出し(S24)、算出した距離が、たとえば0.6であれば、指定された閾値0.5よりも大きいので(S25のNO)、新しいクラスタID:クラスタC4を作成する(S27)。 Next, the unprocessed document: d9 is processed (YES in S23). The distance to the temporary route d6 is calculated (S24). If the calculated distance is 0.6, for example, it is larger than the specified threshold value 0.5 (NO in S25), so a new cluster ID: cluster C4 is set. Create (S27).
そして、文書d9をルートとするサブツリーに含まれている文書の集合{d9,d10}のうちで、指定期間に含まれている文書は{d9}のみであり、文書d9を、クラスタC4と対応付けて、期間指定クラスタ蓄積部16に蓄積する(S28)。蓄積に際して、クラスタC4が分割される前には、クラスタC2であったことを蓄積するようにしてもよい(S29)。文書の集合{d8,d9}の処理が終了したので(S23のNO)、分割判定処理を終了し、図6のS11に戻る。 Of the set of documents {d9, d10} included in the subtree having the document d9 as a root, the document included in the designated period is only {d9}, and the document d9 corresponds to the cluster C4. In addition, it is stored in the period designation cluster storage unit 16 (S28). At the time of accumulation, the fact that it was the cluster C2 may be accumulated before the cluster C4 is divided (S29). Since the processing of the document set {d8, d9} is completed (NO in S23), the division determination processing is ended, and the process returns to S11 in FIG.
S11では、クラスタID:クラスタC1、クラスタC2について処理が終了した状態であり、未処理のクラスタC3を選択する。このクラスタC3に対応する文書の集合{d3,d4}を取得し、上記指定されている期間に含まれている文書があるかどうかを調べるが、全て開始時刻よりも前の文書であるので(S13のNO)、S11の処理に戻る。 In S11, the process is completed for the cluster IDs: cluster C1 and cluster C2, and an unprocessed cluster C3 is selected. A set {d3, d4} of documents corresponding to the cluster C3 is acquired to check whether there is a document included in the specified period. Since all the documents are before the start time ( (NO in S13), the process returns to S11.
全てのクラスタID:クラスタC1、クラスタC2、クラスタC3について、処理が終了したので、期間指定クラスタ生成部15の処理を終了する。
Since the processing has been completed for all the cluster IDs: cluster C1, cluster C2, and cluster C3, the processing of the period designation
図9は、処理が終了した時点における期間指定クラスタ蓄積部16に蓄積されているデータの例を示す図である。
FIG. 9 is a diagram illustrating an example of data accumulated in the period designation
クラスタID61に対応して、指定期間に含まれている文書のみの集合である文書の集合62が、期間指定クラスタ蓄積部16に蓄積されている。また、分割判定処理において、新しいクラスタID:クラスタC4を作成した際に、分割前クラスタIDであるクラスタC2を対応付けて蓄積している。
Corresponding to the cluster ID 61, a document set 62, which is a set of only documents included in the specified period, is stored in the period specified
図10は、期間指定クラスタ蓄積部16と、文書蓄積部10とに蓄積されている情報を用いて、クラスタ表示部30が表示する画面例を示す図である。
FIG. 10 is a diagram illustrating an example of a screen displayed by the
図10(1)に、2つの期間におけるクラスタリング結果が表示されている。期間T0〜T1におけるクラスタリング結果は、領域71に表示され、クラスタC2、クラスタC3が存在している。期間T1〜T2におけるクラスタリング結果は、領域72に表示され、クラスタC1、クラスタC2、クラスタC4が存在している。各クラスタは、円で表示され、その円の中に、そのクラスタに属する文書のIDが表示されている。 FIG. 10 (1) displays the clustering results for two periods. The clustering results in the periods T0 to T1 are displayed in the area 71, and there are clusters C2 and C3. The clustering result in the period T1 to T2 is displayed in the area 72, and the cluster C1, the cluster C2, and the cluster C4 exist. Each cluster is displayed as a circle, and the IDs of documents belonging to the cluster are displayed in the circle.
この画面において、利用者がクラスタを選択した場合におけるクラスタに属する文書の概要80を、図10(2)に示す。 FIG. 10B shows an overview 80 of documents belonging to a cluster when the user selects a cluster on this screen.
図10(2)には、期間T0〜T1におけるクラスタC2が選択された場合の概要が表示されている。各クラスタは、期間内の文書のみを利用したクラスタリング結果である。 FIG. 10B shows an overview when the cluster C2 in the period T0 to T1 is selected. Each cluster is a clustering result using only documents within a period.
互いに異なる期間において、統一されたクラスタID(同一のクラスタID)が付与されているので、クラスタC2は、2つの期間で同じ数の文書が存在し、話題が継続していることが分かる。また、クラスタC2からは、話題が少し変化したクラスタC4が派生したことが見て取れる。さらに、クラスタC3は、期間T0〜T1の間に瞬間的に生じた話題であり、クラスタC1は、期間T1〜T2の間に新たに発生した話題であることが分かる。 Since a uniform cluster ID (same cluster ID) is assigned in different periods, it can be seen that the same number of documents exist in two periods and the topic continues in two periods. Further, it can be seen that the cluster C4 whose topic has changed slightly is derived from the cluster C2. Furthermore, it can be seen that the cluster C3 is a topic that occurs instantaneously during the period T0 to T1, and the cluster C1 is a topic that newly occurs during the period T1 to T2.
利用者が、閾値や期間を指定する前の段階で、文書間距離算出部11の処理を実行し、最短距離文書蓄積部12を作成し、その後に、利用者が、閾値と期間とを指定すると、統合処理部13による処理と、期間指定クラスタ生成部15による処理とを実行することによって、指定された期間内の文書のみを用いたクラスタを短時間で、しかも精度よく提供することができる。
Before the user specifies the threshold value or the period, the inter-document distance calculation unit 11 executes the process to create the shortest distance document storage unit 12, and then the user specifies the threshold value and the period. Then, by executing the processing by the
また、利用者が期間を変更した場合、期間指定クラスタ生成部15の処理を実行するだけで、該当期間のクラスタを生成することができる。
Further, when the user changes the period, the cluster for the corresponding period can be generated only by executing the process of the period designation
上記実施例は、各文書が、作成時刻や更新時刻等の時刻情報とともに保存され、ユーザが指定した任意の期間(指定期間)に属する文書のみについて分類する実施例である。 In the above embodiment, each document is stored together with time information such as creation time and update time, and is classified only for documents belonging to an arbitrary period (specified period) designated by the user.
すなわち、上記実施例は、次の処理によって、クラスタ作成と、期間指定によるクラスタ変更処理を行う。 That is, in the above embodiment, cluster creation and cluster change processing by specifying a period are performed by the following processing.
(1)自文書よりも古い時間情報を持つ文書のうちで、自文書との距離が最短の文書を、自文書に対する「親ノード」と定義し、その距離が、指定された閾値以下である自文書の集合を、1つのクラスタとする。 (1) Among documents having time information older than the own document, a document having the shortest distance from the own document is defined as a “parent node” for the own document, and the distance is equal to or less than a specified threshold. A set of own documents is defined as one cluster.
(2)全文書を用いて、上記(1)のクラスタ作成処理を1度だけ実行し、各文書とクラスタとの対応関係を、保存手段に保存する。 (2) Using all the documents, the cluster creation process (1) is executed only once, and the correspondence between each document and the cluster is stored in the storage unit.
(3)期間が指定されると、指定期間内の文書のみを、上記(2)で保存した対応関係に基づいて、クラスタ毎に分類する。指定期間外の文書については、処理しない。 (3) When a period is specified, only documents within the specified period are classified for each cluster based on the correspondence relationship stored in (2) above. Documents outside the specified period are not processed.
(4)同一クラスタに属する指定期間内の文書のうちで、その親ノードの時刻情報が期間外である文書が複数ある場合、これら複数の文書について、最も古い時刻情報を持つ文書と他の文書との2文書間の距離を新たに計算し、閾値以下であれば、その2文書と各子孫ノードとは、全て同一クラスタに属すると判定し、それ以外の場合は、2文書と各子孫ノードとは、異なるクラスタに属すると判定する。 (4) Among the documents within the specified period belonging to the same cluster, when there are a plurality of documents whose parent node time information is out of the period, the documents having the oldest time information and other documents among these documents If the distance between the two documents is newly calculated and if it is less than or equal to the threshold value, it is determined that the two documents and each descendant node all belong to the same cluster. Otherwise, the two documents and each descendant node Is determined to belong to a different cluster.
上記実施例によれば、蓄積されている文書の全てについて、木構造を生成し、文書間の距離に関する閾値が与えられた場合、全文書を1回探索するだけで、クラスタを生成することができる。 According to the above-described embodiment, when a tree structure is generated for all the stored documents and a threshold regarding the distance between documents is given, a cluster can be generated by searching all the documents once. it can.
また、上記実施例によれば、任意の期間が与えられた場合でも、全文書について生成したクラスタ情報を用いて、同一クラスタ内で親ノードの時刻情報が期間外である文書間の距離を計算するだけで、期間内の文書だけを用いた精度のよいクラスタを生成することができる。 Further, according to the above embodiment, even when an arbitrary period is given, the distance between documents whose parent node time information is outside the period within the same cluster is calculated using the cluster information generated for all documents. By simply doing, it is possible to generate a cluster with high accuracy using only documents within the period.
さらに、全文書でクラスタを生成するので、連続する異なる期間において、クラスタの対応付けが可能であり、異なる期間でクラスタが大きくなったのか、小さくなったのか、または分割したのかを提示することができる。 Furthermore, since clusters are generated for all documents, it is possible to associate clusters in different consecutive periods, and it is possible to present whether the clusters have become larger, smaller, or divided in different periods. it can.
なお、上記実施例において、処理対象は文書の本文であるが、タイトルを含めた「タイトル+本文」を処理対象としてもよい。 In the above embodiment, the processing target is the text of the document, but “title + text” including the title may be the processing target.
つまり、上記実施例は、文書を一意に示す文書IDに対応付けて、時刻情報と、タイトルと、文書の本文とを蓄積する文書蓄積部と、クラスタを生成するための距離の閾値と開始時刻と終了時刻とを出力する入力部と、文書蓄積部に蓄積されている上記文書の本文を用い、自文書の時刻情報よりも古い時刻情報を持つ文書と上記自文書との距離を、文書間類似度に基づいて算出する文書間距離算出部と、上記自文書の時刻情報よりも古い時刻情報を持つ文書と上記自文書との距離のうちで、最短距離である文書の文書IDと、上記最短距離とを蓄積する最短距離文書蓄積部と、上記最短距離文書蓄積部に蓄積されている最短距離が、上記入力部から受け取った閾値よりも短い文書を、1つのクラスタに統合する統合処理部と、上記統合処理部が統合したクラスタを蓄積する全クラスタ蓄積部と、全クラスタ蓄積部に蓄積されているクラスタを構成する文書のうちで、上記入力部から受け取った上記開始時刻から上記終了時刻までの期間である指定期間に含まれている時刻情報をもつ文書のみを検出し、この検出された文書によって期間指定クラスタを生成する期間指定クラスタ生成部と、上記期間指定クラスタ生成部が生成した上記期間指定クラスタを蓄積する期間指定クラスタ蓄積部とを有する文書分類装置の例である。 That is, in the above-described embodiment, the document storage unit that stores time information, the title, and the text of the document in association with the document ID that uniquely identifies the document, the threshold of the distance for generating the cluster, and the start time And an input unit for outputting the end time, and the body text of the document stored in the document storage unit, and the distance between the document having time information older than the time information of the document and the document is determined between the documents. The inter-document distance calculation unit that calculates based on the similarity, the document ID of the document that has the shortest distance among the distances between the document having time information older than the time information of the own document and the own document, and A shortest distance document storage unit that stores the shortest distance, and an integrated processing unit that integrates documents in which the shortest distance stored in the shortest distance document storage unit is shorter than the threshold received from the input unit into one cluster And the integrated processing unit A specified period that is a period from the start time received from the input unit to the end time, among all the cluster storage units that store the integrated cluster and the documents that constitute the clusters stored in all the cluster storage units Only a document having time information included in the period is detected, a period designation cluster generation unit that generates a period designation cluster based on the detected document, and the period designation cluster generated by the period designation cluster generation unit is accumulated. It is an example of the document classification apparatus which has a period designation | designated cluster storage part.
この場合、上記全クラスタ蓄積部から、未処理のクラスタIDに対応する文書の集合を取得し、上記指定期間に含まれている文書について、自文書よりも古い時間情報を持つ文書のうちで、自文書との距離が最短である文書である親ノードの時刻情報が上記開始時刻よりも前である文書が複数存在すれば、上記閾値に基づいて、クラスタを分割するかどうかを決定する分割判定処理を実行する。 In this case, a set of documents corresponding to an unprocessed cluster ID is acquired from all the cluster storage units, and the documents included in the specified period are among documents having time information older than the own document. Division determination that determines whether or not to divide a cluster based on the threshold if there are multiple documents whose parent node time information is the document with the shortest distance from the own document before the start time. Execute the process.
また、上記の場合、上記閾値と、上記指定期間と、親ノードが開始時刻よりも前である文書が複数あるクラスタのクラスタIDと対応付けられている文書と、文書の時刻情報とを入力し、親ノードの時刻情報が上記開始時刻よりも前である文書の集合において、親ノードとの距離が最も短い文書である仮ルートを選択し、上記仮ルートをルートとするサブツリーの文書の集合において、上記指定期間に含まれている文書を、クラスタIDと対応付け、上記期間指定クラスタ蓄積部に蓄積し、上記仮ルート以外で、親ノードが開始時刻よりも前である文書の集合を選択し、文書集合中に、未処理の文書があれば、未処理の文書を1つ選択し、上記仮ルートとの距離を新たに算出し、この算出した距離が、上記閾値以下であれば、処理中の文書をルートとするサブツリーの文書の集合の中で、上記指定期間に含まれている文書を、クラスタIDと対応付け、上記期間指定クラスタ蓄積部に蓄積し、上記算出した距離が上記閾値よりも大きければ、新しいクラスタIDを作成し、処理中の文書IDをルートとするサブツリーの文書の集合の中で、上記指定期間に含まれている文書に、上記全クラスタ蓄積部に蓄積されていないクラスタIDである新しいクラスタIDを対応付け、上記期間指定クラスタ蓄積部に蓄積する。 In the above case, the threshold value, the specified period, a document associated with the cluster ID of a cluster having a plurality of documents whose parent node is earlier than the start time, and the time information of the document are input. In the set of documents whose parent node time information is earlier than the start time, select a temporary route that is the document with the shortest distance from the parent node, and in the set of sub-tree documents whose root is the temporary route, The documents included in the specified period are associated with the cluster ID, stored in the period specified cluster storage unit, and a set of documents whose parent node is earlier than the start time is selected other than the temporary route. If there is an unprocessed document in the document set, one unprocessed document is selected, a distance from the temporary route is newly calculated, and if the calculated distance is equal to or less than the threshold, processing is performed. Documents inside A document included in the specified period in the set of sub-tree documents to be used as a start date is associated with a cluster ID and stored in the period specified cluster storage unit, and the calculated distance is greater than the threshold value. For example, a new cluster ID is created, and a cluster ID that is not stored in all the cluster storage units in a document included in the specified period in a set of documents in a subtree whose root is the document ID being processed. Are associated with each other and stored in the period-designated cluster storage unit.
また、上記実施例を方法の発明として把握することができる。つまり、上記実施例は、文書を一意に示す文書IDに対応付けて、時刻情報と、タイトルと、文書の本文とを、記憶装置に蓄積する文書蓄積段階と、クラスタを生成するための距離の閾値と開始時刻と終了時刻とを入力する入力段階と、上記文書蓄積段階で蓄積されている上記文書の本文を用い、自文書の時刻情報よりも古い時刻情報を持つ文書と上記自文書との距離を、文書間類似度に基づいて算出し、記憶装置に記憶する文書間距離算出段階と、上記自文書の時刻情報よりも古い時刻情報を持つ文書と上記自文書との距離のうちで、最短距離である文書の文書IDと、上記最短距離とを、記憶装置に蓄積する最短距離文書蓄積段階と、上記最短距離文書蓄積段階に蓄積されている最短距離が、上記入力段階で受け取った閾値よりも短い文書を、1つのクラスタに統合し、記憶装置に記憶する統合処理段階と、上記統合処理段階で統合したクラスタを、記憶装置に蓄積する全クラスタ蓄積段階と、全クラスタ蓄積段階で蓄積されているクラスタを構成する文書のうちで、上記入力段階で受け取った上記開始時刻から上記終了時刻までの期間である指定期間に含まれている時刻情報をもつ文書のみを検出し、この検出された文書によって期間指定クラスタを生成し、記憶装置に記憶する期間指定クラスタ生成段階と、上記期間指定クラスタ生成段階で生成された上記期間指定クラスタを、記憶装置に蓄積する期間指定クラスタ蓄積段階とを有する文書分類方法の例である。 Moreover, the said Example can be grasped | ascertained as invention of a method. In other words, in the above-described embodiment, the time information, the title, and the text of the document are stored in the storage device in association with the document ID that uniquely identifies the document, and the distance for generating the cluster is determined. Using the input stage for inputting the threshold value, the start time and the end time, and the text of the document stored in the document storage stage, the document having time information older than the time information of the own document and the own document The distance is calculated based on the similarity between documents and stored in the storage device, and the distance between the document having time information older than the time information of the document and the document is The shortest distance document storage stage that stores the document ID of the document that is the shortest distance and the shortest distance in the storage device, and the shortest distance that is stored in the shortest distance document storage stage is the threshold received in the input stage. Shorter than Are integrated into one cluster and stored in a storage device, the cluster integrated in the integration processing step is accumulated in the storage device, and the clusters are accumulated in the cluster accumulation step. , Only documents having time information included in a specified period that is a period from the start time to the end time received in the input stage are detected, and the period is determined by the detected document. A document classification method comprising: a period designation cluster generation stage for generating a designation cluster and storing it in a storage apparatus; and a period designation cluster accumulation stage for accumulating the period designation cluster generated in the period designation cluster generation stage in a storage apparatus It is an example.
また、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、請求項1〜請求項3のいずれか1項記載の方法をコンピュータに実行させるプログラムの例である。 Moreover, the said Example can be grasped | ascertained as invention of a program. That is, the said Example is an example of the program which makes a computer perform the method of any one of Claims 1-3.
さらに、上記プログラムを記録媒体に記録するようにしてもよい。つまり、上記実施例は、請求項7記載のプログラムを記録したコンピュータ読取可能な記録媒体の例である。この場合、上記記録媒体として、CD、DVD、HD、半導体メモリ等が考えられる。
Furthermore, the program may be recorded on a recording medium. That is, the said Example is an example of the computer-readable recording medium which recorded the program of
DC1…文書分類装置、
10…文書蓄積部、
11…文書蓄積部、
12…最短距離文書蓄積部、
13…統合処理部、
14…全クラスタ蓄積部、
15…期間指定クラスタ生成部、
16…期間指定クラスタ蓄積部、
20…入力部、
30…クラスタ表示部、
40…木構造。
DC1 ... Document classification device,
10: Document storage unit,
11 ... Document storage unit,
12 ... shortest distance document storage unit,
13 ... integrated processing unit,
14: All cluster storage units,
15 ... Period designation cluster generation unit,
16: Period-designated cluster storage unit,
20 ... input part,
30 ... Cluster display section,
40 ... Wooden structure.
Claims (6)
クラスタを生成するための距離の閾値と、開始時刻と、終了時刻とを入力する入力部と;
文書蓄積部に蓄積されている上記文書の本文を用い、自文書の時刻情報よりも古い時刻情報を持つ文書と上記自文書との距離を、文書間類似度に基づいて算出する文書間距離算出部と;
上記自文書の時刻情報よりも古い時刻情報を持つ文書の中で上記自文書との距離が最短距離である文書を親ノードとし、親ノードの文書IDと上記最短距離とを自文書の文書IDと対応づけて蓄積する最短距離文書蓄積部と;
上記最短距離文書蓄積部に蓄積されている最短距離と上記入力部から受け取った閾値と比較し、上記最短距離が上記閾値以下であれば最短文書と自文書とを同一のクラスタとし、上記最短距離が上記閾値よりも大きければ最短文書と自文書とを別のクラスタとすることでクラスタを生成する統合処理部と;
上記統合処理部が統合したクラスタを、クラスタを一意に示すクラスタIDと、各クラスタに属する文書集合とを対応付けて蓄積する全クラスタ蓄積部と;
全クラスタ蓄積部に蓄積されているクラスタを構成する文書のうちで、上記入力部から受け取った上記開始時刻から上記終了時刻までの期間である指定期間に含まれている時刻情報をもつ文書のみを検出し、この検出された文書によって期間指定クラスタを生成する期間指定クラスタ生成部と;
上記期間指定クラスタ生成部が生成した上記期間指定クラスタを蓄積する期間指定クラスタ蓄積部と;
を有し、
上記期間指定クラスタ生成部は、
上記全クラスタ蓄積部から、未処理のクラスタIDに対応する文書の集合を取得し、
上記指定期間に含まれている文書であり親ノードの時刻情報が上記開始時刻よりも前である文書が複数存在しない場合、あるいは、複数存在しても存在する複数の文書同士の距離が上記閾値以下である場合、当該クラスタIDに対応する文書の集合の中で上記指定期間に含まれる文書で1つの期間指定クラスタとし、
上記指定期間に含まれている文書であり親ノードの時刻情報が上記開始時刻よりも前である文書が複数存在する場合で、存在する複数の文書同士の距離が上記閾値よりも大きい場合、当該クラスタIDに対応する文書の集合の中で上記指定期間に含まれる文書を複数の期間指定クラスタにする
ことを特徴とする文書分類装置。 A document storage unit that stores time information, a title, and the text of the document in association with a document ID that uniquely identifies the document;
An input unit for inputting a distance threshold for generating a cluster, a start time, and an end time;
Inter-document distance calculation that uses the body text of the document stored in the document storage unit to calculate the distance between the document having time information older than the time information of the self-document and the self-document based on the similarity between documents. Part;
Among documents having time information older than the time information of the self-document, a document whose distance from the self-document is the shortest distance is a parent node, and the document ID of the parent node and the shortest distance are the document ID of the self-document. A shortest distance document accumulating unit that accumulates in association with;
The shortest distance stored in the shortest distance document storage unit is compared with the threshold value received from the input unit. If the shortest distance is less than or equal to the threshold value, the shortest document and the own document are regarded as the same cluster, and the shortest distance is stored. An integrated processing unit for generating a cluster by setting the shortest document and the self-document as separate clusters if is greater than the threshold;
An all-cluster storage unit that stores the cluster integrated by the integration processing unit in association with a cluster ID that uniquely identifies the cluster and a document set belonging to each cluster ;
Of the documents constituting the cluster stored in all cluster storage units, only documents having time information included in a specified period that is a period from the start time to the end time received from the input unit. A period designation cluster generation unit that detects and generates a period designation cluster based on the detected document;
A period-designated cluster storage unit that accumulates the period-designated cluster generated by the period-designated cluster generation unit;
Have
The period specified cluster generation unit
A set of documents corresponding to an unprocessed cluster ID is acquired from all the cluster storage units,
When there are no documents that are included in the specified period and the time information of the parent node is earlier than the start time, or the distance between a plurality of documents that exist even if there are a plurality is the threshold value If it is the following, one period designated cluster among the documents included in the designated period in the set of documents corresponding to the cluster ID,
When there are multiple documents that are included in the specified period and whose parent node time information is earlier than the start time, and the distance between the existing documents is greater than the threshold, A document classification apparatus characterized in that a document included in the specified period in a set of documents corresponding to a cluster ID is made into a plurality of period specified clusters .
上記期間指定クラスタ生成部は、
親ノードの時刻情報が上記開始時刻よりも前である文書が複数存在する場合、当該複数の文書の集合において、親ノードとの距離が最も短い文書である仮ルートを選択し、
上記仮ルートをルートとするサブツリーの文書の集合において、上記指定期間に含まれている文書で1つの期間指定クラスタとし、
上記仮ルート以外で、親ノードが開始時刻よりも前である文書の集合を選択し、文書集合中に、未処理の文書があれば、未処理の文書を1つ選択し、上記仮ルートとの距離を新たに算出し、この算出した距離が、上記閾値以下であれば、処理中の文書をルートとするサブツリーの文書の集合の中で、上記指定期間に含まれている文書を、仮ルートの期間指定クラスタと同じ期間指定クラスタとし、
上記算出した距離が上記閾値よりも大きければ、処理中の文書IDをルートとするサブツリーの文書の集合の中で、上記指定期間に含まれている文書を、仮ルートの期間指定クラスタとは別の期間指定クラスタとすることを特徴とする文書分類装置。 In claim 1,
The period specified cluster generation unit
When there are a plurality of documents whose parent node time information is earlier than the start time, select a temporary route that is a document with the shortest distance from the parent node in the set of the plurality of documents.
In a set of subtree documents rooted at the temporary route, the documents included in the specified period are set as one period specified cluster ,
Other than the temporary route, a set of documents whose parent node is earlier than the start time is selected. If there is an unprocessed document in the document set, one unprocessed document is selected. If the calculated distance is equal to or less than the threshold value, a document included in the specified period in the set of sub-tree documents rooted at the document being processed is temporarily stored. The same period specified cluster as the period specified cluster of the route,
If the calculated distance is larger than the threshold value, the documents included in the specified period in the set of subtrees whose root is the document ID being processed are separated from the period specified cluster of the temporary root. Document classifying apparatus characterized in that it is a period specified cluster .
クラスタを生成するための距離の閾値と、開始時刻と、終了時刻とを入力する入力段階と;
文書蓄積段階で蓄積されている上記文書の本文を用い、自文書の時刻情報よりも古い時刻情報を持つ文書と上記自文書との距離を、文書間類似度に基づいて算出する文書間距離算出段階と;
上記自文書の時刻情報よりも古い時刻情報を持つ文書の中で上記自文書との距離が最短距離である文書を親ノードとし、親ノードの文書IDと上記最短距離とを自文書の文書IDと対応づけて蓄積する最短距離文書蓄積段階と;
上記最短距離文書蓄積段階で蓄積されている最短距離と上記入力段階で入力された閾値と比較し、上記最短距離が上記閾値以下であれば最短文書と自文書とを同一のクラスタとし、上記最短距離が上記閾値よりも大きければ最短文書と自文書とを別のクラスタとすることでクラスタを生成する統合処理段階と;
上記統合処理段階で統合したクラスタを、クラスタを一意に示すクラスタIDと、各クラスタに属する文書集合とを対応付けて蓄積する全クラスタ蓄積段階と;
全クラスタ蓄積段階で蓄積されているクラスタを構成する文書のうちで、上記入力段階で入力された上記開始時刻から上記終了時刻までの期間である指定期間に含まれている時刻情報をもつ文書のみを検出し、この検出された文書によって期間指定クラスタを生成する期間指定クラスタ生成段階と;
上記期間指定クラスタ生成段階で生成された上記期間指定クラスタを蓄積する期間指定クラスタ蓄積段階と;
を有し、
上記期間指定クラスタ生成段階は、
上記全クラスタ蓄積段階で蓄積されているクラスタから、未処理のクラスタIDに対応する文書の集合を取得し、
上記指定期間に含まれている文書であり親ノードの時刻情報が上記開始時刻よりも前である文書が複数存在しない場合、あるいは、複数存在しても存在する複数の文書同士の距離が上記閾値以下である場合、当該クラスタIDに対応する文書の集合の中で上記指定期間に含まれる文書で1つの期間指定クラスタとし、
上記指定期間に含まれている文書であり親ノードの時刻情報が上記開始時刻よりも前である文書が複数存在する場合で、存在する複数の文書同士の距離が上記閾値よりも大きい場合、当該クラスタIDに対応する文書の集合の中で上記指定期間に含まれる文書を複数の期間指定クラスタにする
ことを特徴とする文書分類方法。 A document storage stage that stores time information, a title, and the text of the document in association with a document ID that uniquely identifies the document;
An input stage for inputting a distance threshold for generating a cluster, a start time, and an end time;
Inter-document distance calculation that uses the body text of the document stored in the document storage stage to calculate the distance between the document having time information older than the time information of the own document and the own document based on the similarity between documents. Stages;
Among documents having time information older than the time information of the self-document, a document whose distance from the self-document is the shortest distance is a parent node, and the document ID of the parent node and the shortest distance are the document ID of the self-document. The shortest distance document storage stage to be stored in association with
The shortest distance stored in the shortest distance document storage stage is compared with the threshold value input in the input stage, and if the shortest distance is equal to or less than the threshold value, the shortest document and the own document are regarded as the same cluster, and the shortest distance is stored. An integrated processing stage for generating a cluster by making the shortest document and the self-document separate from each other if the distance is larger than the threshold;
An all-cluster storage stage for storing the clusters integrated in the integration processing stage in association with a cluster ID that uniquely identifies the cluster and a document set belonging to each cluster ;
Of the documents that make up the cluster stored in all cluster storage stages, only documents that have time information included in the specified period that is the period from the start time to the end time input in the input stage And a period-specific cluster generation step of generating a period-specific cluster according to the detected document;
A period-designated cluster accumulation stage for accumulating the period-designated cluster generated in the period-designated cluster creation stage;
Have
The period specified cluster generation stage
A set of documents corresponding to an unprocessed cluster ID is acquired from the clusters accumulated in the all cluster accumulation stage ,
When there are no documents that are included in the specified period and the time information of the parent node is earlier than the start time, or the distance between a plurality of documents that exist even if there are a plurality is the threshold value If it is the following, one period designated cluster among the documents included in the designated period in the set of documents corresponding to the cluster ID,
When there are multiple documents that are included in the specified period and whose parent node time information is earlier than the start time, and the distance between the existing documents is greater than the threshold, A document classification method, wherein a document included in the specified period in a set of documents corresponding to a cluster ID is made into a plurality of period specified clusters .
上記期間指定クラスタ生成段階は、
親ノードの時刻情報が上記開始時刻よりも前である文書が複数存在する場合、当該複数の文書の集合において、親ノードとの距離が最も短い文書である仮ルートを選択し、
上記仮ルートをルートとするサブツリーの文書の集合において、上記指定期間に含まれている文書で1つの期間指定クラスタとし、
上記仮ルート以外で、親ノードが開始時刻よりも前である文書の集合を選択し、文書集合中に、未処理の文書があれば、未処理の文書を1つ選択し、上記仮ルートとの距離を新たに算出し、この算出した距離が、上記閾値以下であれば、処理中の文書をルートとするサブツリーの文書の集合の中で、上記指定期間に含まれている文書を、仮ルートの期間指定クラスタと同じ期間指定クラスタとし、
上記算出した距離が上記閾値よりも大きければ、処理中の文書IDをルートとするサブツリーの文書の集合の中で、上記指定期間に含まれている文書を、仮ルートの期間指定クラスタとは別の期間指定クラスタとする段階であることを特徴とする文書分類方法。 In claim 3,
The period specified cluster generation stage
When there are a plurality of documents whose parent node time information is earlier than the start time, select a temporary route that is a document with the shortest distance from the parent node in the set of the plurality of documents.
In a set of subtree documents rooted at the temporary route, the documents included in the specified period are set as one period specified cluster ,
Other than the temporary route, a set of documents whose parent node is earlier than the start time is selected. If there is an unprocessed document in the document set, one unprocessed document is selected. If the calculated distance is equal to or less than the threshold value, a document included in the specified period in the set of sub-tree documents rooted at the document being processed is temporarily stored. The same period specified cluster as the period specified cluster of the route,
If the calculated distance is larger than the threshold value, the documents included in the specified period in the set of subtrees whose root is the document ID being processed are separated from the period specified cluster of the temporary root. A method for classifying documents, characterized in that it is in the stage of making a specified cluster of periods .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007075517A JP4936455B2 (en) | 2007-03-22 | 2007-03-22 | Document classification apparatus, document classification method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007075517A JP4936455B2 (en) | 2007-03-22 | 2007-03-22 | Document classification apparatus, document classification method, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008234482A JP2008234482A (en) | 2008-10-02 |
JP4936455B2 true JP4936455B2 (en) | 2012-05-23 |
Family
ID=39907156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007075517A Active JP4936455B2 (en) | 2007-03-22 | 2007-03-22 | Document classification apparatus, document classification method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4936455B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010117031A1 (en) | 2009-04-10 | 2010-10-14 | 日本電気株式会社 | Clustering device, clustering method, and clustering program |
JP5170787B2 (en) * | 2010-01-28 | 2013-03-27 | 楽天株式会社 | Posted Document Analysis Device, Posted Document Analysis Method, and Posted Document Analysis Device Program |
JP7068404B2 (en) * | 2019-08-21 | 2022-05-16 | ネイバー コーポレーション | A method and system for providing a document timeline using clusters of issue units that are relevant over a long period of time. |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153387A (en) * | 1997-08-06 | 1999-02-26 | Ibm Japan Ltd | Document association method and system |
JP3675682B2 (en) * | 1999-09-24 | 2005-07-27 | 日本電信電話株式会社 | Cluster analysis processing method, apparatus, and recording medium recording cluster analysis program |
JP2004326476A (en) * | 2003-04-25 | 2004-11-18 | Hitachi Ltd | Document analysis system for integrating data into text |
JP2005063249A (en) * | 2003-08-18 | 2005-03-10 | Fuji Xerox Co Ltd | Classification result display device and method |
CA2589531A1 (en) * | 2004-09-14 | 2006-03-23 | Intellectual Property Bank Corp. | Drawing device for relationship diagram of documents arranging the documents in chronological order |
-
2007
- 2007-03-22 JP JP2007075517A patent/JP4936455B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008234482A (en) | 2008-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210349862A1 (en) | Data analysis system and data analysis method | |
Zhang et al. | On-the-fly table generation | |
CN107391577B (en) | A method and system for work label recommendation based on representation vector | |
JP5194818B2 (en) | Data classification method and data processing apparatus | |
JP2021092925A (en) | Data generating device and data generating method | |
JP4936455B2 (en) | Document classification apparatus, document classification method, program, and recording medium | |
JP5844824B2 (en) | SPARQL query optimization method | |
JP2016177359A (en) | Search device and program | |
JP5224532B2 (en) | Reputation information classification device and program | |
JP7235269B2 (en) | Data item name estimation device, data item name estimation program, and data item name estimation method | |
JP2011100208A (en) | Action estimation device, action estimation method, and action estimation program | |
JP5439235B2 (en) | Document classification method, document classification device, and program | |
WO2011070979A1 (en) | Dictionary creation device | |
JP5408658B2 (en) | Information consistency determination device, method and program thereof | |
JP2010277332A (en) | Method, device and program for generating common query graph pattern | |
JP2001318947A (en) | Information integration system, its method and recording medium having information integration program recorded thereon | |
CN106682129B (en) | Hierarchical concept vectorized incremental processing method in personal big data management | |
JP2004152175A (en) | Time series data retrieval device, time series data retrieval method, program and record medium | |
CN101916251B (en) | Multimedia integrated retrieval device and method | |
JP2001290826A (en) | Device and method for document classification and recording medium with recorded document classifying program | |
JP6753190B2 (en) | Document retrieval device and program | |
JP2006285419A (en) | Information processor, processing method and program | |
JP5701830B2 (en) | Document structure analysis apparatus and program | |
US20240320259A1 (en) | Methods and device for information presenting and information processing | |
JP2005346223A (en) | Document clustering method, document clustering device, document clustering program and storage medium recording the program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110304 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110812 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120217 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120217 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150302 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4936455 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |