[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP3209163B2 - 分類装置 - Google Patents

分類装置

Info

Publication number
JP3209163B2
JP3209163B2 JP27379797A JP27379797A JP3209163B2 JP 3209163 B2 JP3209163 B2 JP 3209163B2 JP 27379797 A JP27379797 A JP 27379797A JP 27379797 A JP27379797 A JP 27379797A JP 3209163 B2 JP3209163 B2 JP 3209163B2
Authority
JP
Japan
Prior art keywords
classification
case data
condition
case
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP27379797A
Other languages
English (en)
Other versions
JPH1196010A (ja
Inventor
和彦 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP27379797A priority Critical patent/JP3209163B2/ja
Priority to US09/157,315 priority patent/US6266656B1/en
Publication of JPH1196010A publication Critical patent/JPH1196010A/ja
Application granted granted Critical
Publication of JP3209163B2 publication Critical patent/JP3209163B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/24765Rule-based classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、分類済の事例デー
タを用いて分類ルールを自動生成し、未分類の事例を自
動分類する分類装置に関する。
【0002】
【従来の技術】分類事例から分類ルールを自動生成し、
これを用いて分類を行う方法としては、統計的な手法、
知識処理的な手法、計算論的学習理論に基づく手法、ニ
ューラルネット的な手法など、多くの方法が提案されて
いる。これらの手法は、各々長所、短所があり、適する
問題領域も変わって来る。
【0003】統計的な手法は、確率モデルを基礎に事例
データの解析を行う事を主目的にするため、一般的には
事例データに潜在する主要な傾向を見つけ出すために利
用されることが多い。また、ルール生成に必要な計算量
も少い。半面、例外的な分類処理は得意でないことが多
い。代表的手法は、数量化II類やベイズ判別などが知ら
れている。
【0004】知識処理的な手法、および計算論的学習理
論は、機械学習の実現を目指した研究の過程で提案され
ている手法および理論である。機械学習とは、簡単に言
えば、計算機が自律的に適応的な知識(情報、ルール、
プログラム等)を自動生成することである。自動分類も
この機械学習機能の一部として位置付けることができ
る。統計的手法の主目的は事例データの主要な傾向の発
見であるが、機械学習の場合は、最終目的が計算機の知
能化にあるため、目的が多様化している。研究者(グル
ープ)毎に目的は少しずつ異っており、例えば、事例と
矛盾しない仮説の範囲を求めること、例外的に振舞う事
例データを認識しこれを処理すること、あるいは事例を
生成するプログラムを自動生成することなどが目的にな
る。
【0005】ニューラルネット的手法は、疑似的な神経
細胞を用いた模擬システムであり、学習やパタン識別に
応用することができる。簡単に使える半面、分類ルール
がブラックボックスとなり人間によるチェックや修正が
難しいという問題点がある。
【0006】以下では、従来技術として、帰納理論装置
(特公平07−43722号公報参照)を注目する。上
記特公平07−43722号公報に記載の帰納推論装置
は、諸条件の組合せによって成立する事象に対する一般
的な知識を、この対象分野の事例から帰納的に求めるこ
とにより、知識処理に必要な知識情報を効果的に得るこ
とを目的としたものである。
【0007】この帰納推論装置は、事例データの集合を
入力されたのち、各分類結果を成立させる十分条件と必
要条件を自動生成する。これを用いて、未知の条件が与
えられた際、十分条件が満たされていれば当該分類結果
は成立と判定し、必要条件が満たされていなければ当該
分類結果は不成立と判定する。
【0008】
【発明が解決しようとする課題】この技術の問題点は、
事例データの組が論理的に分類不能な場合に、有効な分
類ルールを生成できないことである。例えば、以下の事
例データが与えられたとしよう。
【0009】
【表1】
【0010】上記の事例データから分類ルールが生成さ
れた後、分類結果が未知の事例データ
【0011】
【表2】
【0012】を分類する場合を考える。
【0013】条件“水中生活”は、分類結果“魚”を導
く十分条件でないため、鯉は魚とは分類できない。ま
た、“水中生活”は“魚”の必要条件であるため、鯉が
魚であることは否定できない。つまり、上記の事例デー
タの集合からは、“水中生活”と“魚”に関する積極的
な分類ルールは生成されない。この事情は、“獣”に関
しても同様である。
【0014】以上は、論理的には当然のことであるが、
現実的な応用の面からは問題点がある。
【0015】第1の問題点は、現実的な応用問題では論
理的に分類不能な事例データが与えられることが多いこ
とである。
【0016】第2の問題点は、前記の帰納推論装置は事
例データの情報を十分に活用しているとは言えない点で
ある。例えば、水中生活をするほとんどの事例が“魚”
であり、それらが学習用の事例データとしてシステムに
与えられた場合、“確実ではないが、水中生活をするの
は魚であろう”という分類ルールができることが望まし
い。この際、確実さの程度が定量的にかわることも重要
である。
【0017】前記の帰納推論装置と対比させた場合、本
発明が解決しようとする課題は、 ・論理的に分類不能な事例データの入力に対して、確実
さの程度を定量的に含む分類ルールを生成し、 ・そのような分類ルールを用いて、未知の事例を確実さ
の定量値付で分類することである。
【0018】本発明の目的について、より一般的な立場
から述べると、現実的な分類問題に対して、有効な学習
型の自動分類を行う装置を提供することにある。
【0019】ここで、現実的な分類問題とは、前記のよ
うな論理的には分類不能な事例を含み、かつ、条件や分
類結果の種類が大きな問題のことを意味する。そして、
これを有効に分類するとは、 1.現実的な時間と計算資源内で分類に有効な分類ルー
ルを生成でき、 2.分類結果を確実さの定量値つきで出力できる、こと
をいう。
【0020】
【課題を解決するための手段】前記目的を達成するた
め、本発明は、その概略を述べれば、確実さの定量値と
して確率値を分類ルールに導入し、事例を用いて確率値
つきの分類ルールを生成し、この分類ルールを用いて確
率的な分類を行うようにしたものである。。
【0021】より詳細には、本発明は、分類手がかりと
なる条件部と分類結果の組を事例データとして、該事例
データのなかで分類結果が既知である既知事例データを
用いて分類ルールを自動生成し、分類結果が未知である
未知事例データを、前記分類ルールを用いて自動分類す
る分類装置において、既知事例データおよび未知事例デ
ータを入力する入力手段と、確率的な情報を含む分類ル
ールを蓄える分類ルールデータベースと、前記既知事例
データを条件部の論理関係に基づいてネットワーク化し
て蓄積する事例データベースと、入力された前記既知事
例データおよび前記未知事例データの条件部と前記分類
ルールを用いて分類結果の確率値を推定する確率値推定
手段と、分類ルールの有効性を統計的検定により評価す
ることにより無駄な分類ルールの生成を抑制する分類ル
ール生成手段と、を備えたことを特徴とする。
【0022】また、本発明は、前記入力手段から入力さ
れた前記既知事例データの分類結果の確率値と、前記確
率値推定手段から出力される分類結果の確率値と、を比
較して、その差が予め定めた値よりも大きな場合に、分
類ルールを生成する、ことを特徴とする。
【0023】また、本発明は、入力された前記既知事例
データの条件部全部あるいは条件の一部を入力として受
取り、前記事例データベースを探索して否定条件を含む
事例ノードを推定する否定条件探索手段を備え、前記否
定条件探索手段を用いて、否定条件を含む分類ルールを
生成する機能を追加した分類ルール生成手段を備える、
ことを特徴とする。
【0024】本発明は、第1の手段として、分類ルール
の生成時に、その分類ルールの有効性を判定し、無駄な
分類ルールの生成を防ぐ(請求項1参照)。
【0025】本発明は、第2の手段として、条件の論理
的関係に基づいてネットワーク化された事例データベー
スを探索することにより否定条件を発見し、否定条件つ
きの分類ルールを生成する(請求項3参照)。
【0026】本発明によれば、上記第1の手段により、
分類ルールの記憶のために必要な記憶装置の総量を減少
させることができ、分類ルールの利用・操作の処理時間
を短縮させることができる。これは、現実問題を解く際
に有効である。
【0027】また上記第2の手段により、全事例を探索
するよりも短い処理時間で否定条件の探索を行うことが
でき、否定条件つきの分類ルールを効率的に生成するこ
とができる。否定条件つきの分類ルールは自動分類の精
度向上につながる。
【0028】[発明の概要]本発明の実施の形態を説明
する前に、本発明の原理について説明する。
【0029】本発明の特徴は、事例データから分類ルー
ルを自動生成する点にある。この処理の背景にある確率
統計的な考え方を下敷に事例データ、母集団、分類ルー
ル等に付いて説明する。
【0030】事例データ:まず、事例データを定義す
る。
【0031】事例データとは、条件部と分類結果の対で
ある。条件部は、一般に、複数個の条件の論理積から構
成される。これらの条件は、該事例データに関して成立
している条件である。また、成立している条件は条件部
に含まれないものとする。以下は条件部の例である。
【0032】
【数1】
【0033】但し、記号
【0034】
【数2】
【0035】は論理積を表す記号である。上記の例で
は、「水中生活」、「えら呼吸」、「鱗あり」の全ての
条件が満たされている事を示す。
【0036】分類結果は、離散的な記号である。以下は
分類結果の例である。 魚
【0037】条件部と分類結果の対により事例データが
構成される。また、本質的ではないが、説明のため事例
名称を追加する場合もある。以下に1件の事例データの
例を示す。
【0038】
【表3】
【0039】この事例データは、水中生活を営み、えら
呼吸を行い、鱗があり、魚に分類され、鰯1と呼ばれ
る。
【0040】<事例データ集合>:ある時点までに投入
された事例データの集まりを事例データ集合と呼ぶ。以
下は、事例データ集合の例である。
【0041】
【表4】
【0042】<事例データの観測確率>:事例データに
はそれが観測される確率が付属していると考える(これ
は仮定である)。この観測確率は、一般に0以上1以下
の実数値を取り、全事例データの観測確率の和は1とな
る。観測確率は「測度」と呼ばれることもある。
【0043】観測確率も含めた事例データ集合を母集団
と呼ぶ。母集団の例を示す。
【0044】
【表5】
【0045】事例データは母集団の観測確率に基づいて
発生すると仮定する。つまり、表1の母集団から事例デ
ータを1件観測した場合、それが
【0046】
【表6】
【0047】である確率は0.1である。
【0048】<分類結果の条件つき確率>:事例データ
において、条件Cが成立するとは、 1.事例データの条件部に、条件Cの肯定条件が全て含
まれ、 2.事例データの条件部に、条件Cの否定条件が全く含
まれないことである。
【0049】事例データにおいて、条件Cのもとで分類
結果Rが成立するとは、該事例データにおいて条件Cが
成立し、分類結果がRとなっていることである。
【0050】母集団が決まれば、その上で条件Cのもと
での分類結果Rの条件付確率p(R|C)が次式(2)
ように定義される。
【0051】
【数3】
【0052】これは、分類結果の条件つき確率とも呼ば
れる。
【0053】例えば、表5の母集団のもとでは、 p(魚|水中生活)=1.0 …(3) である。
【0054】母集団に存在する全ての条件の組合せのも
とでの分類結果の条件つき確率を全て正しく求める事が
できれば、分類ルールの生成処理は成功裡に完了する
が、これは実際上簡単なことではない。まず、条件付確
率の値を正確に求めるためには多量の事例データが必要
である。つぎに、条件要素がn個ある場合、条件の組合
せの総数は2n−1個となり極めて多量の条件付確率を
処理しなければならなくなるからである。
【0055】そこで、本発明では、統計的に信頼性の高
い条件付確率を優先的に用いて、分類ルールを生成して
いる。
【0056】本発明では、事例データは1件づつ投入さ
れ、そのたびに事例データベースの更新と分類ルールの
生成・修正が行われる。この分類ルールの生成と修正を
行う処理を「分類ルール生成処理」と呼ぶ事にする。分
類ルール生成処理においては、投入された1件の該事例
データが中心的役割をはたす事になる。そこで、この該
事例データを特に「帰納事例」と呼ぶ。
【0057】分類ルール生成処理の目的は、与えられた
事例データ集合の条件と分類結果の確率的関係を分類ル
ールとして形式化することである。このため、該帰納事
例に関して、条件部を分類手がかりとして用いて、分類
結果の確率値を高く導き、帰納事例の分類結果に排反す
る分類結果の確率値を低く導くような分類ルールを生成
することが分類ルール生成処理の目標となる。
【0058】<事例データの頻度>:入力された帰納事
例は事例データベースに蓄積されてゆく。既に入力され
た事例データに対応して事例データの頻度が決まる。こ
の頻度は、一般に0以上の実数値を取る。事例データベ
ース上には概念的には以下のような表が作成されてい
る。ただし、実体は表ではなく後述するネットワークで
ある。
【0059】
【表7】
【0060】<分類ルール>:分類ルールは条件部C、
分類結果R、条件部Cのもとで分類結果Rが成立する条
件つき確率p(R|C)の推定値、および条件部頻度か
らなる。
【0061】分類ルールの例: 分類ルール:
【0062】
【表8】
【0063】分類ルールの2つの数値、条件つき確率の
推定値(例中の確率値)と条件部頻度を説明するために
頻度に関する2つの用語(条件部頻度、ルール成立頻
度)を定義する。
【0064】<条件部頻度>:ある分類ルールrの条件
部をC、事例データの条件部をDとするとき、Dのもと
でCが成り立つような全ての事例データの頻度の総和を
rの条件部頻度と呼ぶ。
【0065】例: 事例データベース:
【0066】
【表9】
【0067】分類ルール:
【0068】
【表10】
【0069】の条件部頻度は5である。なぜならば、水
中生活をする事例が5例あるからである。条件部頻度は
分類結果(上記例では「獣」)には無関係である。
【0070】<ルール成立頻度>:ある分類ルールrの
条件部をC分類結果をR、事例データの条件部をD、分
類結果をSとするとき、DのもとでCが成り立ち、 R=S … (4) であるような全ての事例データの頻度の総和をrのルー
ル成立頻度と呼ぶ。
【0071】本発明では、条件つき確率の推定値として
次式(5)のラプラスの推定式を用いている。
【0072】
【数4】
【0073】t=1,n=2やt=0.5,n=1など
のバリエーションがあるが、特に断らないかぎり、t=
1,n=2を用いる。分類ルールの条件つき確率は、式
(2)により定義した母集団により決まる理想的条件付
確率を事例データ集合より推定するものである。
【0074】事例データを用いて、確率的な分類ルール
を生成し、自動分類の過程で確率値の推定を行うことに
より、分類結果に確実さの定量値として確率値を付与す
ることができる。
【0075】分類ルールの生成時に否定条件を含む分類
ルールを生成する事が分類精度の向上に有効なことがあ
る。例えば、次のような事例集合が与えられたとしよう
(これまで例として登場した事例集合は無視して、この
事例集合のみが与えられたとする)。
【0076】
【表11】
【0077】但し、
【0078】
【数5】
【0079】は論理積を表す記号である。
【0080】以上の事例から生成されうる分類ルールの
うち、否定条件を含まない分類ルールのみを記述する
と、
【0081】
【表12】
【0082】となる(確率値はラプラスの推定式により
計算)。この分類ルールを用いて、分類問題として条件
=“水中生活”を解くと、分類結果は、1位“獣”確率
値0.57、2位“魚”確率値0.43となる。これ
は、誤っており、1位が“魚”、2位が“獣”となるの
が正しい。
【0083】ここで、否定条件付の分類ルールも記述す
る。
【0084】
【表13】
【0085】
【数6】
【0086】は否定を表す記号であり、
【0087】
【数7】
【0088】は、“肺呼吸”という条件が無いことを示
している。
【0089】この分類ルールを用いて、分類問題として
条件=“水中生活”を解くと、1位“魚”確率値0.6
7、2位“獣”確率値0.33と正しい順序の分類結果
が得られる。
【0090】以上のように否定条件つきの分類ルールは
分類精度の向上に有効であるが、その生成は否定条件な
しの分類ルールほど容易ではない。それは、否定条件な
しの分類ルールは帰納事例の条件を組み合わせる事によ
り生成可能であるのに対して、否定条件つきの分類ルー
ルでは、否定条件が帰納事例の条件に含まれておらず過
去の事例集合から探索する必要があるためである。以降
では、まず本発明の全体像を示し、次に否定条件なしの
分類ルールの生成方法を説明し、その後に、否定条件つ
きの分類ルールの生成方法を示す。
【0091】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。
【0092】図1及び図2は、本発明の実施の形態に係
る分類装置の構成を示すブロック図である。図1は、請
求項1の発明の実施の形態に対応し、図2は、請求項3
に記載の実施の形態に対応している。以下では、図2を
参照して、分類ルール生成時と分類時の処理手順を説明
する。図1との処理手順の違いは後述する。
【0093】図1を参照すると、本発明の実施の形態
は、既知事例データおよび未知事例データを入力する入
力装置103と、確率的な情報を含む分類ルールを蓄え
る分類ルールデータベース106と、前記既知事例デー
タを条件部の論理関係に基づいてネットワーク化して蓄
積する事例データベース105と、入力された前記既知
事例データおよび前記未知事例データの条件部と前記分
類ルールを用いて分類結果の確率値を推定する確率値推
定装置102と、分類ルールの有効性を統計的検定によ
り評価することにより無駄な分類ルールの生成を抑制す
る分類ルール生成装置101と、出力装置104と、を
含んで構成されている。
【0094】また、図2を参照すると、図1の構成に、
更に、否定条件探索装置107を備えた構成とされ、否
定条件探索装置107は、入力された前記既知事例デー
タの条件部全部あるいは条件の一部を入力として受取
り、前記事例データベースを探索して否定条件を含む事
例ノードを推定し、分類ルール生成装置101は否定条
件探索装置107を用いて、否定条件を含む分類ルール
を生成する機能を具備している。
【0095】<分類ルール生成時の処理手順>: ステップ1:入力装置から分類結果が既知の事例データ
1個の入力を受け、分類ルール生成装置101と確率値
推定装置102へ転送する。この事例データは、以降の
処理で他の事例とは異る役割を果たすため、これを特に
「帰納事例」と呼ぶ。
【0096】ステップ2:分類ルール生成装置101
は、事例データベース105へ帰納事例の追加を行う。
【0097】ステップ3:確率値推定装置102は、帰
納事例の条件と分類ルールデータベース106を用いて
分類結果とその確率値を求める。
【0098】ステップ4:分類結果が外れていた場合に
は、分類ルールの生成を行うためステップ5へ、分類結
果が正しい場合にはステップ9へ分岐する。
【0099】ステップ5:分類ルール生成装置101
は、まず、否定条件を含まない分類ルールの生成の試み
を行い、生成できればステップ9へ分岐する。
【0100】ステップ6:分類ルール生成装置101
は、否定条件探索装置107へ探索条件を送る。
【0101】ステップ7:否定条件探索装置107は、
事例データベース105を探索して、検索条件に適合す
る否定条件を求め、分類ルール生成装置101へ転送す
る。
【0102】ステップ8:分類ルール生成装置101
は、否定条件付の分類ルールを生成して分類ルールデー
タベース106へ追加する。
【0103】ステップ9:次の事例データがあればステ
ップ1へ戻り、無ければ終了する。
【0104】図1に示す分類装置では、否定条件探索装
置107が設けられていないため、上記ステップ6,ス
テップ7,ステップ8の処理が省略される。
【0105】<自動分類時の処理手順>: ステップ1:入力装置103から分類結果が未知の事例
データの入力を受け取り、確率値推定装置102へ転送
する。
【0106】ステップ2:確率値推定装置102は該事
例データの条件と分類ルールデータベースを用いて分類
結果とその確率値を求める。
【0107】ステップ3:次の事例データがあればステ
ップ1へ、無ければ終了する。
【0108】図1の分類装置でも同様である。
【0109】<否定条件なしの分類ルール生成方法>:
否定条件なしの分類ルールは、原則として事例の条件を
組み合わせる事により生成する事ができる。
【0110】例:
【0111】
【表14】
【0112】に対しては、以下の分類ルールが生成可能
である。
【0113】
【表15】
【0114】ただし、すべての分類ルールを生成すると
総ルール数が爆発的に増大する為、現実的な応用に際し
ては、有益な分類ルールのみを生成するようにコントロ
ールする事が重要である。生成可能な分類ルール数は、
事例の条件数をnとすると、その組合せの総数2n−1
だけ存在する。例えば、n=10のとき、生成可能な分
類ルール数は1023となる。nが大きくなるにつれて
この数は爆発的に増大するため、有益な分類ルールのみ
を生成するような手段が必要になる。
【0115】本発明においては、有益な分類ルールのみ
を生成するため以下の2つの手段を用いている。
【0116】1.第1の手段として、統計的検定によっ
て分類ルールの有効性を判定する。これは請求項1に対
応している。
【0117】2.第2の手段として、帰納事例がうまく
分類できた場合は、新しい分類ルールは生成しない。こ
れは請求項2に対応している。
【0118】以下では、統計的検定による分類ルールの
有効性判定手順を説明する。
【0119】<分類ルールの有効性>:分類ルールの有
効性は観念的には以下のように定義される。
【0120】1.分類ルールrの分類結果をR条件部を
Cとするとき、条件つき確率のp〜(R|C)が、母集
団から決まる条件つき確率p(R|C)と近い値を取
り、 2.分類ルールrを分類ルールベースに追加する前の分
類システムの分類能力と追加した後の分類能力が大きく
異るとき、分類ルールrを有効とする。
【0121】第1の条件は、条件つき確率p(R|C)
の推定にラプラスの推定式(5)を用いる事によりある
程度満足されている。第2の条件の判定方法を以下に述
べる。この判定では、既存の分類ルールベースから追加
しようとする分類ルールが導けるかどうかが焦点とな
る。
【0122】<ルール有効性判定手順>: ステップ1:帰納事例を事例データベースに追加する。
【0123】ステップ2:該事例データベースを用い
て、有効性判定対象の分類ルールの条件部頻度とルール
成立頻度を得る。以下では、有効性判定対象の分類ルー
ルを「当該分類ルール」と呼ぶ。
【0124】ステップ3:既存の分類ルールベースを用
いて、当該分類ルールの条件部Cを分類手がかりとして
自動分類する(自動分類の1例として、特開平7-200545
号公報に記載の確率的演繹推論装置による分類が用いら
れる)。その結果、当該分類ルールの分類結果Rの条件
つき確率の推定値p〜(R|C)が得られる。
【0125】ステップ4:該条件つき確率推定値p〜
(R|C)のもとで該条件部頻度と該ルール成立頻度以
上の異常な状態が起こる確率qを計算する。
【0126】ステップ5:該確率qがあらかじめ設定さ
れた危険率以上である場合、当該分類ルールは既存の分
類ルールベースから自然に導けることがわかる。そこ
で、当該分類ルールは有効でないと判定する。
【0127】逆に、qがあらかじめ設定された危険率
である場合、当該分類ルールは既存の分類ルールベー
スから自然に導けるものではなく特殊なものであること
がわかる。そこで、当該分類ルールを有効と判定する。
【0128】例:有効性判定対象の分類ルールを、
【0129】
【表16】
【0130】とする。
【0131】まず、既存の分類ルールベースを用いて、
条件付確率
【0132】
【数8】
【0133】を推定する。そのため、
【0134】
【数9】
【0135】のもとで成立する分類ルールの集合を求め
る。
【0136】例:
【0137】
【表17】
【0138】これらの分類ルールの確率値を用いて、条
件付確率
【0139】
【数10】
【0140】を推定する。これには幾つかの推定方法が
あるが、1例として、特開平7−200545号公報に
記載の確率的演繹推論装置をあげる。
【0141】詳細は省略するが、既存の分類ルールベー
スと推定手段を用いて分類手がかり
【0142】
【数11】
【0143】のもとで分類結果「獣」が出現する確率の
推定値
【0144】
【数12】
【0145】が0.2と推定されたとする。
【0146】また、事例データベースから得られた当該
分類ルールの頻度は、 条件部頻度 =10, ルール成立頻度= 9 であるとする。
【0147】このとき、生成しようとする分類ルールの
成立確率をpと仮定した基で、事例データベースから求
めた頻度以上に異常な状態が起こる確率qは、
【0148】
【数13】
【0149】と極めて低い。
【0150】この確率値があらかじめ設定される危険率
(0.05,0.1等)を下回った場合、生成しようと
する分類ルールは既存の分類ルールとは異ると判定され
る。これは生成しようとする分類ルールが有効であるこ
とを示しているので、ラプラスの推定式(5)を用いて
確率値を求め、分類ルールベースに追加する。追加され
る分類ルールを以下に示す。
【0151】
【表18】
【0152】一方、確率値qが危険率を上回る値であっ
た場合は、有効とは判断できないため、分類ルールには
追加されない。なお、危険率は統計的検定に用いられる
閾値であり、帰無仮説を誤って棄却する確率である。分
類ルールの有効性判定においては、無効な分類ルールを
生成してしまう確率である。
【0153】以上では概念的な説明のために確率値qを
計算して危険率と比較する統計的検定方法を示した。し
かし統計的検定には様々な方法があり、本発明では発明
の請求範囲を上記の確率計算法に限らず、適用可能な全
ての統計的検定方式を用いる。
【0154】<否定条件つき分類ルールの生成手順>:
前述したように適切な否定条件つき分類ルールは分類精
度を向上させる。以下ではその生成手順を説明するが事
例データベースの探索を無駄無く行うことにより計算時
間の短縮と記憶装置の負担を軽減している。これは請求
項3に対応している。
【0155】否定条件つき分類ルールの生成手順では、 ステップ1:追加すべき否定条件を事例データベースか
ら探索し、分類ルールを生成し ステップ2:統計的検定を行い分類ルールの有効性の判
定を行い、 ステップ3:有効と判定されたものを分類ルールベース
に追加する。
【0156】否定条件の検索では、事例データベースを
条件の簡単なものから複雑なものへとたどりながら、否
定条件となり得る条件を探索するが、事例データベース
は条件の論理的関係に基いたネットワークを構成してお
り、これが検索時間の短縮を実現している。統計的検定
による分類ルールの有効性判定は否定条件なしの場合と
同様である。
【0157】否定条件の検索を説明する前に、事例デー
タベースの構成を説明する。事例データベースの構成要
素を、事例ノードと呼び、図3に示すように、一意番
号、条件、検査マーク、下位事例リスト、事例情報から
構成する。以下にその意味を示す。
【0158】一意番号:事例ノードを一意に示す番号。
【0159】条件: 事例ノードの条件部を記録する。
【0160】検査マーク:否定条件の検索などの処理に
おいて、この事例ノードが既に処理されたかどうかを記
録する。
【0161】下位事例リスト: 下位事例ノードを記録
したリスト。“下位事例ノード”の意味は後述する。
【0162】事例情報: 事例ノードの条件のもとで、
どのような分類結果が何回現れたかを記録する。
【0163】<下位の事例ノード>:事例ノードEの条
件部をCとするとき、条件部Cの条件を全て含む事例ノ
ードの集合をSとする。Sの中で、他の事例の条件を完
全に含むことはない(もっとも簡単な条件部を持つ)事
例ノードをEの“下位事例ノード”あるいは“下位ノー
ド”と呼ぶ。下位事例ノードは複数あり得る。
【0164】例:事例ノードとその条件部が以下の表の
時、E0の下位事例ノードはE1,E2である。E4は
E0の下位事例ノードにはならない。
【0165】
【表19】
【0166】事例情報の例:事例の集合、
【0167】
【表20】
【0168】は、事例ノード
【0169】
【表21】
【0170】に対応する。この事例情報は、条件“水中
生活”に対して分類結果“獣”の事例が3件、“魚”の
事例が2件存在した事を記録している。
【0171】同位事例ノード:ある事例ノードは複数の
下位事例ノードを持つことがあるが、これらの下位事例
ノードを互いに“同位事例ノード”あるいは“同位ノー
ド”と呼ぶ。
【0172】上位事例ノード:ある事例ノードEを下位
事例ノードとする事例ノードFはEから見て“上位事例
ノード”あるいは“上位ノード”と呼ばれる。
【0173】事例データベース105は、事例の探索の
速度を効率化するため、個別条件毎に、探索エントリポ
イントという事例ノードのリストを生成する。
【0174】探索エントリポイント:探索エントリポイ
ントは1つの条件に対して1個存在しており、その条件
を含む最も簡単な事例ノードのリストで構成される。
【0175】事例が多数与えられると、事例ノードは連
結され、ネットワークを形成する。以下の事例が与えら
れた後の事例ノードの連結例を図4に示す。
【0176】
【表22】
【0177】事例データの入力とともに上位、下位の連
結を更新しながら事例データベースが形成される。この
事例データベースを用いれば、ある条件と分類結果が与
えられた際に、既知の事例中での条件の成立頻度と分類
結果の成立頻度を効率的に求めることができる。
【0178】事例ノードEを含んでそれ以下の下位の事
例ノードの条件成立頻度の総和をEの条件総頻度、分類
結果Rの総成立頻度を条件EにおけるRの成立総頻度と
呼ぶ。条件総頻度はEの条件以外は無視した際の事例の
個数であり、Rの成立総頻度は同じくRの成立する事例
の個数である。これらの値は、事例ノードに記憶してお
いてもよい。
【0179】<否定条件の検索手順>:否定条件は、前
述したように帰納事例(分類ルール生成の手がかりとな
る1件の事例)に含まれていないので、事例データベー
スを検索して発見しなければならない。その具体的な手
順は、図5に示されているが、ここでは概念的に説明す
る。
【0180】否定条件の検索では、分類結果Rと検索条
件Cが当られる。これが、図2に示した分類装置のブロ
ック図において、分類ルール生成装置101から否定条
件検索装置107へ送られる情報である。
【0181】検索条件としては、 1.帰納事例の条件 2.帰納事例を自動分類する際に利用される既存の分類
ルールの条件 などが与えられる。
【0182】2の肯定条件は1の部分集合であり、検索
時間の短縮効果がある。この検索条件を用いて否定条件
の検索を行う。以下の手順は、分類結果Rを高い確率で
積極的に導く分類ルールを生成する場合を想定する。分
類結果Rを低い確率で否定的に導く分類ルールを生成す
る場合は、確率値や検定の考え方が逆になる。
【0183】探索は、検索条件の一部を含み検索条件と
矛盾しないような事例ノードのうち、条件の少い事例ノ
ードから始めて、下位の事例ノードへと進められる。あ
る事例ノードにおいて、以下の条件が満たされた場合、
この事例ノードには否定条件が含まれると推定する。
【0184】[否定条件を含む事例ノードの条件]:あ
る事例ノードEの条件総頻度をn,分類結果Rの成立総
頻度をsとし、Eの上位事例ノードFにおける条件総頻
度をm分類結果Rの成立総頻度をtとする。あるFにつ
いて、t/mが十分高く、s/nが十分低く、t/mと
s/nの間に有為な差がある場合、事例ノードEは否定
条件を含むと推定する。
【0185】否定条件を含むと推定された事例ノードの
条件Dと帰納事例の条件の差分を否定条件とする。
【0186】<ソフトウェア関連発明に関する説明>:
図8は、請求項4の処理手順記録媒体を含む分類装置の
ブロック図である。図8を参照すると、本発明の分類装
置は、図1に示した構成に加えて、分類ルール生成装置
駆動プログラムを記録した処理手順記憶媒体108を備
える。この処理手順記録媒体108は磁気ディスク、半
導体メモリその他の記録媒体であってよい。また、分類
ルール生成装置駆動プログラムに係わる分類ルール生成
装置101は、請求項4でいうコンピュータにより実現
される。
【0187】分類ルール生成装置駆動プログラムには、
既に述べた、分類ルール生成時の処理手順、自動分類時
の処理手順、ルール有効性判定手順が含まれている。こ
れらは、分類装置の初期設定時に、処理手順記録媒体1
08から分類ルール生成装置101をなすコンピュータ
に読み込まれ、実行される。
【0188】図9は、請求項5の処理手順記録媒体を含
む分類装置のブロック図である。図9によると、本発明
の分類装置は、図2に示した構成に加えて、装置駆動プ
ログラムを記録した処理手順記憶媒体108を備える。
この処理手順記録媒体108は、磁気ディスク、半導体
メモリその他の記録媒体であってよい。また、この装置
駆動プログラムに係わる分類ルール生成装置101と否
定条件探索装置107は、請求項5でいうコンピュータ
により実現される。
【0189】この装置駆動プログラムには、既に述べ
た、分類ルール生成時の処理手順、自動分類時の処理手
順、ルール有効性判定手順、否定条件つき分類ルールの
生成手段、否定条件の検索手順が含まれている。これら
のうち、分類ルール生成時の処理手順、自動分類時の処
理手順、ルール有効性判定手順、否定条件つき分類ルー
ルの生成手順は、分類装置の、初期設定時に、処理手順
記録媒体108から分類ルール生成装置101をなすコ
ンピュータに読み込まれ、既に述べた手順により実行さ
れる。
【0190】また、否定条件の検索手順は、分類装置の
初期設定時に、処理手順記録媒体から否定条件探索装置
108をなすコンピュータに読み込まれ、既に述べた手
順により実行される。
【0191】
【実施例】上記した本発明の実施の形態について更に詳
細に説明すべく、本発明の実施例について以下に説明す
る。
【0192】図1は、請求項1の発明の一実施例に係る
分類装置の構成を示すブロック図である。図2は、請求
項3の発明の一実施例に係る分類装置のブロック図であ
る。図1を参照すると、本実施例に係る分類装置は、既
知事例データおよび未知事例データを入力する入力装置
103と、確率的な情報を含む分類ルールを蓄える分類
ルールデータベース106と、前記既知事例データを条
件部の論理関係に基づいてネットワーク化して蓄積する
事例データベース105と、入力された前記既知事例デ
ータおよび前記未知事例データの条件部と前記分類ルー
ルを用いて分類結果の確率値を推定する確率値推定装置
102と、分類ルールの有効性を統計的検定により評価
することにより無駄な分類ルールの生成を抑制する分類
ルール生成装置101と、出力装置104と、を含んで
構成されている。
【0193】また図2を参照すると、この分類装置は、
図1の構成に、更に、否定条件探索装置107を備えた
構成とされ、否定条件探索装置107は、入力された前
記既知事例データの条件部全部あるいは条件の一部を入
力として受取り、前記事例データベースを探索して否定
条件を含む事例ノードを推定し、分類ルール生成装置1
01は否定条件探索装置107を用いて、否定条件を含
む分類ルールを生成する機能を具備している。
【0194】これらの分類装置における分類ルールの生
成手順を以下に示す。
【0195】<分類ルールの生成手順>:図5は、分類
ルールの生成手順の一実施例を示す流れ図である。装置
名称については、図2に示した分類装置のブロック図に
対応している。本実施例は、請求項1,2,3全てに対
応しているが、各請求項に限定する場合は後述する。
【0196】ステップ(Step)1:入力装置103
から事例データ(帰納事例)1個の入力を受け、分類ル
ール生成装置101と確率値推定装置102へ転送す
る。
【0197】ステップ2:分類ルール生成装置101は
事例データベース105へ帰納事例の追加を行う。
【0198】ステップ3:確率値推定装置102を用い
て帰納事例の条件部と分類ルールから分類結果とその確
率値を求める。
【0199】ステップ4:各々の分類結果について、推
定した確率値と正解確率値が設定された閾値以上に隔た
っている場合には、分類結果が外れているものと判定す
る。推定が外れた分類結果は全て“推定結果誤りリス
ト”に記録する。
【0200】ステップ5:推定結果誤りリストが空であ
れば、ステップ1へ移り、そうでなければ、ステップ6
の処理へ進む。
【0201】ステップ6:推定結果誤りリストの先頭の
分類結果が、ステップ6からステップ12までの処理の
対象となる分類ルールの分類結果となる。確率値推定装
置102から、ステップ3の分類時に用いた分類ルール
を、分類ルール生成装置101に転送する。
【0202】ステップ7:帰納事例の条件を各個の条件
単位に分解し追加条件集合Sを生成する。
【0203】
【数14】
【0204】追加条件集合S=水中生活、肺呼吸
【0205】ステップ8:該分類ルール各々に該追加条
件集合Sの要素である各個の条件を追加して、新しい分
類ルールの条件を生成する。追加すべき条件の個数の上
限値は、装置起動時に外部から与えられる。
【0206】ステップ9:ステップ8で生成した新分類
ルールの条件部頻度、ルール成立頻度を事例データベー
スより求め、ステップ3で求めた確率値pを用いて、前
記本発明の発明の実施の形態で説明し、た統計的検定に
より該新分類ルールの有効性を判定する。該新分類ルー
ルが有効であればステップ11へ、無効ならばステップ
10へ進む。
【0207】ステップ10:生成の対象となる新しい分
類ルールが残っていればステップ8へ、さもなければ、
ステップ12へ進む。
【0208】ステップ11:該新分類ルールを分類ルー
ルデータベース106に追加する。
【0209】ステップ12:否定条件を含む分類ルール
の生成を試みる。
【0210】ステップ13:分類結果誤りリストの先頭
分類結果を除去する。除去された分類結果はステップ6
からステップ13までの処理で分類ルールの分類結果と
なって来たものである。分類結果誤りリストの要素が残
っていればステップ6へ。
【0211】ステップ14:事例データが残っていれ
ば、ステップ1へ、さもなければ終了する。
【0212】なお、請求項1の実施例に限定する場合
は、上記の分類ルールの生成手順に、以下に記載の修正
を行う。また、対応するブロック図は、図に示す構成と
される。
【0213】修正: ステップ4:自動分類の結果が誤りであった場合はすべ
ての分類結果を“推定結果誤りリスト”に記録する。
【0214】ステップ12:行わない。
【0215】自動分類の結果が誤りであるかどうかの判
定には以下のような方法がある。
【0216】・確率値の高い順に自動分類の分類結果を
並べて、その1位が帰納事例の分類結果と一致していな
ければ誤りと判断する。
【0217】・確率値の高い順に自動分類の分類結果を
並べて、その1位の確率値があらかじめ設定した閾値を
超え、2位の確率値が別にあらかじめ設定した閾値を下
回る場合、1位が帰納事例の分類結果と一致していなけ
れば誤りと判断する。
【0218】・自動分類の結果出力された上位の分類結
果の確率値を総和が1になるように正規化し、1位の確
率値があらかじめ設定した閾値を超えた場合、1位が帰
納事例の分類結果と一致していなければ誤りと判断す
る。
【0219】請求項1、2に限定する場合は、上記の分
類ルールの生成手順に以下に記載の修正を行う。また、
対応するブロック図は、図1となる。
【0220】修正: ステップ12:行わない。
【0221】<否定条件を含む分類ルールの生成手順
>:これは、請求項3の分類ルール生成装置における分
類ルール生成手順である。
【0222】図6は、固定条件を含む分類ルールの生成
手順の一実施例である。これは5のステップ12で利用
される手順の一実施例の流れ図である。
【0223】ステップ1:自動分類に用いられた分類ル
ールのうちから望ましくない確率値を持つ分類ルールの
条件をすべて集め条件集合Sを生成する。
【0224】望ましくない確率値を持つ分類ルールと
は、 1.正しい分類結果を導くべき分類ルールの場合は、確
率値が設定された閾値よりも有意に低いものであり、 2.誤った分類結果を導くべき分類ルールの場合は、確
率値が設定された閾値よりも有意に高いものである。
【0225】ステップ2:該条件集合Sを論理的に成立
させるような事例ノードを全て集め、これを事例集合E
とする。
【0226】ステップ3:Eの要素である事例ノード各
々について、否定条件を含んでいるかどうかの推定をお
こない、得られた否定条件を否定条件集合Nに累積す
る。
【0227】この推定方法は、上記発明の実施の形態で
説明されている。
【0228】ステップ4:該条件集合Sに該否定条件集
合Nを追加して新しい分類ルール候補hの条件部とす
る。
【0229】ステップ5:該分類ルール候補hの有効性
を統計的検定により判定する。その際、事例データベー
スからhの条件成立頻度とルール成立頻度を求める。
【0230】ステップ6:有効であれば該分類ルール候
補hを分類ルールとして生成する。
【0231】図7は、否定条件の探索手順の一実施例の
流れ図である。これは、“否定条件を含む分類ルールの
生成手順”および図6のステップ2で用いられた事例ノ
ード探索手順でもある。
【0232】図7において、開始時点では、検索条件と
分類結果が与えられる。また、図7中の用語の意味は以
下の通りである。
【0233】ノードスタック:検索対象の事例ノードを
一時格納するスタック。単に“スタック”と呼ぶ場合も
ある。一般にスタックとは、先入れ、後出し式の記憶装
置である。
【0234】復帰状態スタック:スタックと連動するス
タックで、ノードスタックの先頭ノードを処理し終えて
次の事例ノードを処理する際にどのステップから始める
かを示す。
【0235】回答ノードリスト:探索手順が回答として
返す事例ノードのリスト。
【0236】ステップ1:初期設定を行う。検索条件を
個別の条件単位に分解し、各条件のエントリーポイント
の事例ノードを順にノードスタックに積む。最初の事例
ノードを積んだ際に復帰状態スタックに“終了”を積
む。つぎの事例ノードからは1個積むと同時に復帰状態
スタックに“ステップ2”を1個積む。
【0237】ステップ2:探索開始。ノードスタックの
先頭事例ノードを探索対象ノードとする。
【0238】ステップ3:探索対象ノードは「未検査」
状態か判定し、未検査ならばステップ4へ、検査済なら
ばステップ12へ進む。
【0239】ステップ4:探索対象ノードを「検査済」
とする。
【0240】ステップ5:探索対象ノードの基で検索条
件は成立するか判定し、成立するならばステップ6へ、
さもなければステップ8へ進む。
【0241】ステップ6:探索対象ノードは否定条件と
なりうるような条件を含んでいるか判定し、含んでいれ
ばステップ7へ、含んでいなければステップ8へ進む。
【0242】ステップ7:探索対象ノードを回答ノード
ノストに追加する。
【0243】ステップ8:探索対象ノードに同位ノード
は存在するか判定し、存在するならばステップ9へ、存
在しない場合ステップ10へ進む。
【0244】ステップ9:同位ノードをスタック先頭に
積む。さらに復帰状態スタックに“ステップ10”を積
む。ステップ3へ跳ぶ。
【0245】ステップ10:探索対象ノードの条件総頻
度が設定された閾値を下回っていた場合、下位ノードの
探索は行わない。下位ノードの探索を行う場合ステップ
11へ、行わない場合ステップ12へ進む。
【0246】ステップ11:下位ノードをノードスタッ
ク先頭に積む。復帰状態スタックに“ステップ12”を
積み、ステップ3に跳ぶ。
【0247】ステップ12:スタック先頭ノードを除去
する。その結果2番目の事例ノードがあれば、これがス
タック先頭ノードとなり、同時に探索対象ノードとす
る。
【0248】ステップ13:復帰状態スタックの先頭要
素を復帰変数に退避し、先頭要素を除去する。
【0249】ステップ14:復帰変数=“ステップ1
0”ならばステップ10に跳ぶ。
【0250】ステップ15:復帰変数=“ステップ1
2”ならばステップ12に跳ぶ。
【0251】ステップ16:復帰変数=“終了”ならば
終了に跳ぶ。
【0252】
【発明の効果】以上に示したように、本発明によれば、
現実的な分類問題に対して有効な自動分類を行うため
に、分類ルールの生成時にそのルールの有効性を判定
し、無駄な分類ルールの生成を防ぐ手段を備え、条件の
論理的関係に基づいてネットワーク化された事例データ
ベースを探索することにより、否定条件を発見し、否定
条件つきの分類ルールを生成する手段を備え、第1の手
段により、分類ルールの記憶のために必要な記憶装置の
総量を減少させることができ、分類ルールの理由・操作
の処理時間を短縮させることができる、という効果を奏
する。これは、現実問題を解く際に有効である。
【0253】また、本発明によれば、第2の手段によ
り、全事例を探索するよりも短い処理時間で否定条件の
探索を行うことができ、否定条件つきの分類ルールを効
率的に生成することができるという効果を奏する。否定
条件つきの分類ルールは自動分類の精度向上につなが
る。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】本発明の別の実施例の構成を示すブロック図で
ある。
【図3】本発明の実施例を説明するための図であり、事
例ノードの概念図である。
【図4】本発明の実施例を説明するための図であり、連
結した事例ノードを示す例を表す図である。
【図5】本発明における分類ルールの生成の手順の一実
施例を示す図である。
【図6】本発明において否定条件を含む分類ルールの生
成の手順の一実施例を示す図である。
【図7】本発明において否定条件を含む事例ノードの探
索手順の一実施例を示す図である。
【図8】本発明の処理手順記録媒体を含む分類装置のブ
ロック図を示す図である。
【図9】本発明の処理手順記録媒体を含む分類装置ブロ
ック図を示す図である。
【符号の説明】
101 分類ルール生成装置 102 確率値推定装置 103 入力装置 104 出力装置 105 事例データベース 106 分類ルールデータベース 107 否定条件探索装置 108 処理手順記録媒体
フロントページの続き (56)参考文献 特開 平6−44206(JP,A) 特開 平5−35484(JP,A) 特開 平7−200545(JP,A) 斉藤、中野、「ノイズを含む事例から のルール抽出:RF3アルゴリズム」、 情報処理学会論文誌、Vol.33、N o.5、社団法人情報処理学会・発行 (1992年)、pp.636〜644(特許庁C SDB文献番号:CSNT 199800280007) 吉田、山村、小林、「属性の識別能力 の局所性を考慮した確率的決定木の構 築」、人工知能学会誌、Vol.11、N o.2、社団法人人工知能学会・発行 (1996年3月)、pp.264〜272(特許 庁CSDB文献番号:CSNT 199800390010) 谷澤、上原、前川、「典型性に基づく 概念学習アルゴリズム」、情報処理学会 研究報告、Vol.93、No.5(93− AI−86)、社団法人情報処理学会・発 行(1993年)、pp.33〜40(特許庁C SDB文献番号:CSNT 199800022005) (58)調査した分野(Int.Cl.7,DB名) G06F 9/44 G06F 17/30 JICSTファイル(JOIS) CSDB(日本国特許庁)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】分類手がかりとなる条件部と分類結果の組
    を事例データとして、該事例データのなかで分類結果が
    既知である既知事例データを用いて分類ルールを自動生
    成し、分類結果が未知である未知事例データを、前記分
    類ルールを用いて自動分類する分類装置において、 既知事例データおよび未知事例データを入力する入力手
    段と、 確率的な情報を含む分類ルールを蓄える分類ルールデー
    タベースと、 前記既知事例データを条件部の論理関係に基づいてネッ
    トワーク化して蓄積する事例データベースと、 入力された前記既知事例データおよび前記未知事例デー
    タの条件部と前記分類ルールを用いて分類結果の確率値
    を推定する確率値推定手段と、 分類ルールの有効性を統計的検定により評価することに
    より無駄な分類ルールの生成を抑制する分類ルール生成
    手段と、 を備え 前記分類ルール生成手段が、前記入力手段から入力され
    た前記既知事例データの分類結果の確率値と、前記確率
    値推定手段から出力される分類結果の確率値と、を比較
    して、分類ルールを生成するか抑制するかを判定する、
    ことを特徴とする分類装置。
  2. 【請求項2】分類手がかりとなる条件部と分類結果の組
    を事例データとして、該事例データのなかで分類結果が
    既知である既知事例データを用いて分類ルールを自動生
    成し、分類結果が未知である未知事例データを、前記分
    類ルールを用いて自動分類する分類装置において、 既知事例データおよび未知事例データを入力する入力手
    段と、 確率的な情報を含む分類ルールを蓄える分類ルールデー
    タベースと、 前記既知事例データを条件部の論理関係に基づいてネッ
    トワーク化して蓄積する事例データベースと、 入力された前記既知事例データおよび前記未知事例デー
    タの条件部と前記分類 ルールを用いて分類結果の確率値
    を推定する確率値推定手段と、 分類ルールの有効性を統計的検定により評価することに
    より無駄な分類ルールの生成を抑制する分類ルール生成
    手段と、 入力された前記既知事例データの条件部全部あるいは条
    件の一部を入力として受取り、前記事例データベースを
    探索して否定条件を含む事例ノードを推定する否定条件
    探索手段を備え、 前記否定条件探索手段を用いて、否定条件を含む分類ル
    ールを生成する機能を追加した分類ルール生成手段を備
    える、ことを特徴とする分類装置。
  3. 【請求項3】分類手がかりとなる条件部と分類結果の組
    を事例データとして、該事例データのなかで分類結果が
    既知である既知事例データを用いて分類ルールを自動生
    成し、分類結果が未知である未知事例データを、前記分
    類ルールを用いて自動分類する処理を、コンピュータで
    実行させるプログラムを記録した記録媒体において、 前記コンピュータは、既知事例データおよび未知事例デ
    ータを入力する入力手段と、 確率的な情報を含む分類ルールを蓄える分類ルールデー
    タベースと、 前記既知事例データを条件部の論理関係に基づいてネッ
    トワーク化して蓄積する事例データベースと、を備え、 入力された前記既知事例データについて前記分類ルール
    データベースから新しい分類ルールを生成する処理と、 分類ルールの有効性を統計的検定により評価して無駄な
    ルールの生成を抑制するルール有効性判定処理入力された前記既知事例データの条件部あるいは条件の
    一部を用いて前記事例データベースを探索して否定条件
    を含む事例ノードを推定する否定条件の検索処理と、 該否定条件の検索手順で推定された否定条件を含む分類
    ルールを生成する否定条件つき分類ルールの生成処理
    と、 を前記コンピュータに実行させるためのプログラムを記
    録した記録媒体。
  4. 【請求項4】分類手がかりとなる条件部と分類結果の組
    を事例データとして、該事例データのなかで分類結果が
    既知である既知事例データを用いて分類ルールを自動生
    成し、分類結果が未知である未知事例データを前記分類
    ルールを用いて自動分類する処理を、コンピュータで実
    行させるプログラムを記録した記録媒体において、 前記コンピュータは、 既知事例データおよび未知事例データを入力する入力装
    置と、 確率的な情報を含む分類ルールを蓄える分類ルールデー
    タベースと、 前記既知事例データを条件部の論理関係に基づいてネッ
    トワーク化して蓄積する事例データベースと、を含み、 (a)前記入力装置から入力された前記既知事例データ
    および前記未知事例データの条件部と前記分類ルールを
    用いて分類結果の確率値を推定する確率値推定手段、及
    び、 (b)分類ルールの有効性を統計的検定により評価する
    ことにより無駄な分類ルールの生成を抑制する分類ルー
    ル生成手段であって、前記入力装置から入力された前記
    既知事例データの分類結果の確率値と、前記確率値推定
    手段から出力される分類結果の確率値と、を比較して、
    分類ルールを生成するか抑制するかを判定する分類ルー
    ル生成手段、 の上記(a)、(b)の各手段を前記コンピュータ上で
    機能させるためのプログラムを記録した記録媒体。
  5. 【請求項5】分類手がかりとなる条件部と分類結果の組
    を事例データとして、該事例データのなかで分類結果が
    既知である既知事例データを用いて分類ルールを自動生
    成し、分類結果が未知である未知事例データを前記分類
    ルールを用いて自動分類する処理を、コンピュータで実
    行させるプログラムを記録した記録媒体において、 前記コンピュータは、 既知事例データおよび未知事例データを入力する入力装
    置と、 確率的な情報を含む分類ルールを蓄える分類ルールデー
    タベースと、 前記既知事例データを条件部の論理関係に基づいてネッ
    トワーク化して蓄積する事例データベースと、を含み、 (a)前記入力装置から入力された前記既知事例データ
    および前記未知事例データの条件部と前記分類ルールを
    用いて分類結果の確率値を推定する手段、 (b)入力された前記既知事例データの条件部全部ある
    いは条件の一部を入力として受取り、前記事例データベ
    ースを探索して否定条件を含む事例ノードを推定する否
    定条件探索手段、及び、 (c)分類ルールの有効性を統計的検定により評価する
    ことにより無駄な分類ルールの生成を抑制する手段であ
    って、前記否定条件探索手段を用いて、否定条件を含む
    分類ルールを生成する機能を備えた分類ルール生成手
    段、 の上記(a)〜(c)の各手段を前記コンピュータ上で
    機能させるためのプログラムを記録した記録媒体。
JP27379797A 1997-09-19 1997-09-19 分類装置 Expired - Lifetime JP3209163B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP27379797A JP3209163B2 (ja) 1997-09-19 1997-09-19 分類装置
US09/157,315 US6266656B1 (en) 1997-09-19 1998-09-21 Classification apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27379797A JP3209163B2 (ja) 1997-09-19 1997-09-19 分類装置

Publications (2)

Publication Number Publication Date
JPH1196010A JPH1196010A (ja) 1999-04-09
JP3209163B2 true JP3209163B2 (ja) 2001-09-17

Family

ID=17532726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27379797A Expired - Lifetime JP3209163B2 (ja) 1997-09-19 1997-09-19 分類装置

Country Status (2)

Country Link
US (1) US6266656B1 (ja)
JP (1) JP3209163B2 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020128858A1 (en) * 2001-01-06 2002-09-12 Fuller Douglas Neal Method and system for population classification
US20030018486A1 (en) * 2001-06-25 2003-01-23 Jacob Feldman Consistency validation for complex classification rules
US7035877B2 (en) 2001-12-28 2006-04-25 Kimberly-Clark Worldwide, Inc. Quality management and intelligent manufacturing with labels and smart tags in event-based product manufacturing
US7380213B2 (en) 2001-12-28 2008-05-27 Kimberly-Clark Worldwide, Inc. User interface for reporting event-based production information in product manufacturing
US8799113B2 (en) 2001-12-28 2014-08-05 Binforma Group Limited Liability Company Quality management by validating a bill of materials in event-based product manufacturing
US7357298B2 (en) * 2001-12-28 2008-04-15 Kimberly-Clark Worldwide, Inc. Integrating event-based production information with financial and purchasing systems in product manufacturing
US7032816B2 (en) * 2001-12-28 2006-04-25 Kimberly-Clark Worldwide, Inc. Communication between machines and feed-forward control in event-based product manufacturing
US6968250B2 (en) * 2001-12-28 2005-11-22 Kimberly-Clark Worldwide, Inc. Intelligent agent system and method for evaluating data integrity in process information databases
US7447641B2 (en) 2002-06-27 2008-11-04 International Business Machines Corporation User interface and algorithm to handle “unknown” data in card-sorting exercise and cluster analysis
US7350187B1 (en) 2003-04-30 2008-03-25 Google Inc. System and methods for automatically creating lists
JP2006277185A (ja) * 2005-03-29 2006-10-12 Osaka Gas Co Ltd 故障予測診断支援システム
JP4429236B2 (ja) * 2005-08-19 2010-03-10 富士通株式会社 分類ルール作成支援方法
WO2007050646A2 (en) * 2005-10-24 2007-05-03 Capsilon Fsg, Inc. A business method using the automated processing of paper and unstructured electronic documents
US8176004B2 (en) * 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
US20100274750A1 (en) * 2009-04-22 2010-10-28 Microsoft Corporation Data Classification Pipeline Including Automatic Classification Rules
US9578060B1 (en) 2012-06-11 2017-02-21 Dell Software Inc. System and method for data loss prevention across heterogeneous communications platforms
US9779260B1 (en) 2012-06-11 2017-10-03 Dell Software Inc. Aggregation and classification of secure data
US9501744B1 (en) 2012-06-11 2016-11-22 Dell Software Inc. System and method for classifying data
US9390240B1 (en) * 2012-06-11 2016-07-12 Dell Software Inc. System and method for querying data
US9349016B1 (en) 2014-06-06 2016-05-24 Dell Software Inc. System and method for user-context-based data loss prevention
US10326748B1 (en) 2015-02-25 2019-06-18 Quest Software Inc. Systems and methods for event-based authentication
US10417613B1 (en) 2015-03-17 2019-09-17 Quest Software Inc. Systems and methods of patternizing logged user-initiated events for scheduling functions
US9990506B1 (en) 2015-03-30 2018-06-05 Quest Software Inc. Systems and methods of securing network-accessible peripheral devices
US9842220B1 (en) 2015-04-10 2017-12-12 Dell Software Inc. Systems and methods of secure self-service access to content
US9563782B1 (en) 2015-04-10 2017-02-07 Dell Software Inc. Systems and methods of secure self-service access to content
US9641555B1 (en) 2015-04-10 2017-05-02 Dell Software Inc. Systems and methods of tracking content-exposure events
US9569626B1 (en) 2015-04-10 2017-02-14 Dell Software Inc. Systems and methods of reporting content-exposure events
US9842218B1 (en) 2015-04-10 2017-12-12 Dell Software Inc. Systems and methods of secure self-service access to content
US10536352B1 (en) 2015-08-05 2020-01-14 Quest Software Inc. Systems and methods for tuning cross-platform data collection
US10218588B1 (en) 2015-10-05 2019-02-26 Quest Software Inc. Systems and methods for multi-stream performance patternization and optimization of virtual meetings
US10157358B1 (en) 2015-10-05 2018-12-18 Quest Software Inc. Systems and methods for multi-stream performance patternization and interval-based prediction
US10142391B1 (en) 2016-03-25 2018-11-27 Quest Software Inc. Systems and methods of diagnosing down-layer performance problems via multi-stream performance patternization
US20210350260A1 (en) * 2018-09-21 2021-11-11 Nec Corporation Decision list learning device, decision list learning method, and decision list learning program
US11455321B2 (en) 2020-03-19 2022-09-27 International Business Machines Corporation Deep data classification using governance and machine learning

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0743722B2 (ja) 1985-08-02 1995-05-15 株式会社東芝 帰納推論装置
US5140670A (en) * 1989-10-05 1992-08-18 Regents Of The University Of California Cellular neural network
JP3182169B2 (ja) 1991-07-26 2001-07-03 株式会社リコー 故障診断方法
US5361379A (en) * 1991-10-03 1994-11-01 Rockwell International Corporation Soft-decision classifier
US5325445A (en) 1992-05-29 1994-06-28 Eastman Kodak Company Feature classification using supervised statistical pattern recognition
JPH0644206A (ja) 1992-07-24 1994-02-18 Meidensha Corp 帰納的学習システムにおける分岐属性の決定方法
JPH0743722A (ja) 1993-07-28 1995-02-14 Canon Inc 液晶素子
US5720009A (en) * 1993-08-06 1998-02-17 Digital Equipment Corporation Method of rule execution in an expert system using equivalence classes to group database objects
JPH0877010A (ja) 1994-09-07 1996-03-22 Hitachi Ltd データ分析方法および装置
DE4436408C1 (de) 1994-10-12 1995-12-07 Daimler Benz Ag Mustererkennungsverfahren
US5649070A (en) * 1995-02-17 1997-07-15 International Business Machines Corporation Learning system with prototype replacement
US5729452A (en) 1995-03-31 1998-03-17 Envirotest Acquisition Co. Method and system for diagnosing and reporting failure of a vehicle emission test
US5719692A (en) * 1995-07-07 1998-02-17 Lucent Technologies Inc. Rule induction on large noisy data sets
US5809499A (en) 1995-10-20 1998-09-15 Pattern Discovery Software Systems, Ltd. Computational method for discovering patterns in data sets
US5727199A (en) 1995-11-13 1998-03-10 International Business Machines Corporation Database mining using multi-predicate classifiers
US5819007A (en) * 1996-03-15 1998-10-06 Siemens Medical Systems, Inc. Feature-based expert system classifier
US6092059A (en) * 1996-12-27 2000-07-18 Cognex Corporation Automatic classifier for real time inspection and classification

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吉田、山村、小林、「属性の識別能力の局所性を考慮した確率的決定木の構築」、人工知能学会誌、Vol.11、No.2、社団法人人工知能学会・発行(1996年3月)、pp.264〜272(特許庁CSDB文献番号:CSNT199800390010)
斉藤、中野、「ノイズを含む事例からのルール抽出:RF3アルゴリズム」、情報処理学会論文誌、Vol.33、No.5、社団法人情報処理学会・発行(1992年)、pp.636〜644(特許庁CSDB文献番号:CSNT199800280007)
谷澤、上原、前川、「典型性に基づく概念学習アルゴリズム」、情報処理学会研究報告、Vol.93、No.5(93−AI−86)、社団法人情報処理学会・発行(1993年)、pp.33〜40(特許庁CSDB文献番号:CSNT199800022005)

Also Published As

Publication number Publication date
US6266656B1 (en) 2001-07-24
JPH1196010A (ja) 1999-04-09

Similar Documents

Publication Publication Date Title
JP3209163B2 (ja) 分類装置
US6542881B1 (en) System and method for revealing necessary and sufficient conditions for database analysis
US20200089650A1 (en) Techniques for automated data cleansing for machine learning algorithms
CN109033200B (zh) 事件抽取的方法、装置、设备及计算机可读介质
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
Zheng et al. Feature grouping and selection: A graph-based approach
US20230195851A1 (en) Data classification system, data classification method, and recording medium
CN112685324B (zh) 一种生成测试方案的方法及系统
CN107168995A (zh) 一种数据处理方法及服务器
CN112784054A (zh) 概念图处理装置、概念图处理方法和计算机可读介质
CN112732690B (zh) 一种用于慢病检测及风险评估的稳定系统及方法
KR101965276B1 (ko) 그래프 기반의 데이터 분석 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
Mahanipour et al. Using fuzzy-rough set feature selection for feature construction based on genetic programming
CN116756327A (zh) 基于知识推断的威胁情报关系抽取方法、装置和电子设备
CN118468061B (zh) 一种算法自动匹配及参数优化方法及系统
CN110716761A (zh) 信息处理平台上软件应用的执行参数的自动和自优化确定
CN113362920B (zh) 基于临床数据的特征选择方法及装置
Montañés et al. A wrapper approach with support vector machines for text categorization
CN114610576A (zh) 一种日志生成监控方法和装置
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质
CN115393659B (zh) 基于多级决策树的个性化分类流程优化方法和装置
US20230281275A1 (en) Identification method and information processing device
CN110457455A (zh) 一种三值逻辑问答咨询优化方法、系统、介质和设备
Pan The Construction and Application of Library Intelligent Acquisition Decision Model Based on Decision Tree Algorithm.
CN114625880B (zh) 人物关系抽取方法、装置、终端及存储介质

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010612

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070713

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080713

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090713

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 9