JP2001525582A - 独立特徴学習機能を有するパターン認識装置 - Google Patents
独立特徴学習機能を有するパターン認識装置Info
- Publication number
- JP2001525582A JP2001525582A JP2000523634A JP2000523634A JP2001525582A JP 2001525582 A JP2001525582 A JP 2001525582A JP 2000523634 A JP2000523634 A JP 2000523634A JP 2000523634 A JP2000523634 A JP 2000523634A JP 2001525582 A JP2001525582 A JP 2001525582A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- signal
- unit
- pattern
- input signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003909 pattern recognition Methods 0.000 title claims description 33
- 230000006870 function Effects 0.000 title claims description 8
- 238000000034 method Methods 0.000 claims abstract description 139
- 230000015654 memory Effects 0.000 claims abstract description 54
- 230000000694 effects Effects 0.000 claims abstract description 46
- 238000001514 detection method Methods 0.000 claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 230000004044 response Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 116
- 230000004913 activation Effects 0.000 claims description 46
- 230000008859 change Effects 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 25
- 238000013507 mapping Methods 0.000 claims description 22
- 230000000875 corresponding effect Effects 0.000 claims description 20
- 230000009471 action Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 230000002596 correlated effect Effects 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 28
- 238000012986 modification Methods 0.000 abstract description 2
- 230000004048 modification Effects 0.000 abstract description 2
- 238000000638 solvent extraction Methods 0.000 abstract 1
- 238000001994 activation Methods 0.000 description 44
- 238000012937 correction Methods 0.000 description 39
- 238000005070 sampling Methods 0.000 description 33
- 230000003044 adaptive effect Effects 0.000 description 20
- 238000012360 testing method Methods 0.000 description 16
- 238000002474 experimental method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 10
- 238000007781 pre-processing Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 210000004556 brain Anatomy 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000013144 data compression Methods 0.000 description 6
- 230000001537 neural effect Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 6
- 230000033228 biological regulation Effects 0.000 description 5
- 238000002790 cross-validation Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 240000005020 Acaciella glauca Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000036039 immunity Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012567 pattern recognition method Methods 0.000 description 2
- 235000003499 redwood Nutrition 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000212384 Bifora Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- IOYNQIMAUDJVEI-BMVIKAAMSA-N Tepraloxydim Chemical compound C1C(=O)C(C(=N/OC\C=C\Cl)/CC)=C(O)CC1C1CCOCC1 IOYNQIMAUDJVEI-BMVIKAAMSA-N 0.000 description 1
- 230000003853 activation of bipolar cell growth Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000009290 primary effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
- Image Generation (AREA)
Abstract
(57)【要約】
変換された入力信号(26)に応答し、特徴アクティビティ信号(30)を伝達して分類および適切な出力動作(70)を可能とする、変更可能な特徴検出部(28)を有するパターン認識装置。メモリ(40)は、1組の比較パターンを格納し、割当部(66)により用いられて、現入力信号(26)における有望特徴即ちパーツを発見するために用いる。各パーツは、それに対しての責任を有すると判断された特徴検出部(28[m])に割り当てられる。更新部(42)は、各応答特徴検出部(28[m])を変更し、その優先特徴を、それに割り当てられたパーツに一層類似させる。変更は、特徴学習プロセスに対して強い制約を具体化し、特に、パターン・ドメインを記述する複数の理想的な特徴が独立して発生するという想定を具体化する。この制約により、学習速度の向上、および潜在的にスケーリング特性の改善が可能となる。第1の好適な実施形態は、1群のノイジーOR型ニューラル・ネットワーク(50)を用いて特徴検出部(28)およびメモリ(40)を実現し、現入力信号(26)のソフト区分によってパーツを得る。第2の好適な実施形態は、特徴検出部(28)とは別個の無損失メモリ(40)を維持し、パーツは、現入力信号(26)と、メモリ(40)に格納されている比較パターンとの差から成る。
Description
【0001】 背景−発明の分野 本発明は、パターン認識方法および装置に関し、特に特徴利用パターン認識装
置を訓練するための改良された方法および装置に関するものである。
置を訓練するための改良された方法および装置に関するものである。
【0002】 背景−従来技術の論述 パターン認識装置は様々に用いることができ、その全てにおいて、世の中の何
れかの物理パターンに自動的に応答することを伴う。例えば、物理パターンは、
音声の音響波とすることもでき、その場合、パターン認識装置は、同じ発声であ
るが異なる言語で出力するために用いることができる。また、物理パターンは、
特定の高速道路上における車両の位置とすることもでき、その場合、パターン認
識装置は、その高速道路における信号を制御し、混雑を極力抑えるために用いる
ことができる。
れかの物理パターンに自動的に応答することを伴う。例えば、物理パターンは、
音声の音響波とすることもでき、その場合、パターン認識装置は、同じ発声であ
るが異なる言語で出力するために用いることができる。また、物理パターンは、
特定の高速道路上における車両の位置とすることもでき、その場合、パターン認
識装置は、その高速道路における信号を制御し、混雑を極力抑えるために用いる
ことができる。
【0003】 理解しにくいタスク、または経時的に変化するタスクにパターン認識装置を適
用することが望ましい場合が多い。かかる状況では、一連の例に基づいてタスク
を学習する適応型パターン認識装置の方が、「ハード・ワイヤード」(非適応型
)パターン認識装置よりも、遥かに優れた性能を発揮することができる。また、
適応性と同様に、「特徴利用(feature−based、特徴を基にする)
」認識も、一般に、他の手法(固定のテンプレートを照合するなど)よりもノイ
ズ耐性が高い傾向にあるので、非常に有効な利用が可能である。特徴利用認識で
は、パターン内に存在することが判断される特徴または特性の集合に応答するこ
とを含む。例えば、パターンが音声波形の場合、検出される特徴は、「kの発音
」や「第28回の時間間隔内における高振幅周波数」を含む場合もあり得る。適
応型および特徴利用型の認識装置では、特徴も非常に複雑であり、人の言語で記
述するには難しい場合がある。
用することが望ましい場合が多い。かかる状況では、一連の例に基づいてタスク
を学習する適応型パターン認識装置の方が、「ハード・ワイヤード」(非適応型
)パターン認識装置よりも、遥かに優れた性能を発揮することができる。また、
適応性と同様に、「特徴利用(feature−based、特徴を基にする)
」認識も、一般に、他の手法(固定のテンプレートを照合するなど)よりもノイ
ズ耐性が高い傾向にあるので、非常に有効な利用が可能である。特徴利用認識で
は、パターン内に存在することが判断される特徴または特性の集合に応答するこ
とを含む。例えば、パターンが音声波形の場合、検出される特徴は、「kの発音
」や「第28回の時間間隔内における高振幅周波数」を含む場合もあり得る。適
応型および特徴利用型の認識装置では、特徴も非常に複雑であり、人の言語で記
述するには難しい場合がある。
【0004】 本発明の装置は、適応型でありしかも特徴利用型である。かかるパターン認識
装置を設計する上で最も困難な問題の1つは、最良の特徴集合を決定することで
ある。より正確に言うと、認識装置が最良の特徴集合を学習するようにするには
、認識装置をどのように訓練すべきかを決定することである。一旦適当な特徴集
合が見つかれば、多くの場合認識の問題は些細なことである。
装置を設計する上で最も困難な問題の1つは、最良の特徴集合を決定することで
ある。より正確に言うと、認識装置が最良の特徴集合を学習するようにするには
、認識装置をどのように訓練すべきかを決定することである。一旦適当な特徴集
合が見つかれば、多くの場合認識の問題は些細なことである。
【0005】 特徴を学習する適当な手法の1つは、逆伝播法(backpropagati
on method)(1986年の並列分散処理:認知の微細構造における診
査(Parallel Distributed Processing:Ex
plorations in the Microstructure of
Cognition)におけるラメルハート(Rumelhart)、ヒルトン
(Hinton)、およびウイリアムス(Williams)による「エラー逆
伝播による内部表現の学習(Learning Internal repre
sentations by error backpropagation)
」、MITプレス、ケンブリッジ、マサチューセッツ(MIT Press,C
ambridge,MA)を用いて訓練したニューラル・ネットワークを使用す
ることである。しかしながら、この手法(および多くの関連するグラディエント
利用(グラディエントを基にする、gradient−based)ニューラル
・ネット方法)は、学習が非常に遅く、特に多くのニューロン層を有するネット
ワークの場合に遅くなりがちである。また、最適な特徴、あるいはほぼ最適な特
徴でさえも、学習しない可能性が非常に高い。その理由は、これがヒル・クライ
ミング型の学習を基本としており、総合的に最適な解から遠く離れた「谷」で行
き詰まる可能性があるからである。その結果、訓練用の例ではうまく動作するも
のの、新たな例ではうまく動作しないというような特徴となる(即ち、学習の汎
化に劣る)可能性がある。
on method)(1986年の並列分散処理:認知の微細構造における診
査(Parallel Distributed Processing:Ex
plorations in the Microstructure of
Cognition)におけるラメルハート(Rumelhart)、ヒルトン
(Hinton)、およびウイリアムス(Williams)による「エラー逆
伝播による内部表現の学習(Learning Internal repre
sentations by error backpropagation)
」、MITプレス、ケンブリッジ、マサチューセッツ(MIT Press,C
ambridge,MA)を用いて訓練したニューラル・ネットワークを使用す
ることである。しかしながら、この手法(および多くの関連するグラディエント
利用(グラディエントを基にする、gradient−based)ニューラル
・ネット方法)は、学習が非常に遅く、特に多くのニューロン層を有するネット
ワークの場合に遅くなりがちである。また、最適な特徴、あるいはほぼ最適な特
徴でさえも、学習しない可能性が非常に高い。その理由は、これがヒル・クライ
ミング型の学習を基本としており、総合的に最適な解から遠く離れた「谷」で行
き詰まる可能性があるからである。その結果、訓練用の例ではうまく動作するも
のの、新たな例ではうまく動作しないというような特徴となる(即ち、学習の汎
化に劣る)可能性がある。
【0006】 これらニューラル・ネットワーク・パターン認識装置の学習速度または汎化(
generalization)能力を改良しようという試みは、これまでにも
多数あるが、通常、かかる改良はこれらの問題を一度に双方とも解決することが
できないか、あるいは有用な広範囲のタスクに対して大幅な改良が得られないか
の何れかである。最も良い解決策は、学習プロセスに制約が加わりがちであると
いうことについては、議論の余地がある。即ち、手近のタスクに関する何らかの
仮定に基づいて、特定の特徴集合だけを学習できる(または学習する可能性が高
い)ように、学習を制約しているのである。かかる制約は、事実上、学習プロセ
スによって探索しなければならない「特徴空間」(feature space
)の量を減少させることによってプロセスを高速化し、しかも不良な特徴で行き
詰まる可能性も低下する。
generalization)能力を改良しようという試みは、これまでにも
多数あるが、通常、かかる改良はこれらの問題を一度に双方とも解決することが
できないか、あるいは有用な広範囲のタスクに対して大幅な改良が得られないか
の何れかである。最も良い解決策は、学習プロセスに制約が加わりがちであると
いうことについては、議論の余地がある。即ち、手近のタスクに関する何らかの
仮定に基づいて、特定の特徴集合だけを学習できる(または学習する可能性が高
い)ように、学習を制約しているのである。かかる制約は、事実上、学習プロセ
スによって探索しなければならない「特徴空間」(feature space
)の量を減少させることによってプロセスを高速化し、しかも不良な特徴で行き
詰まる可能性も低下する。
【0007】 制約を設けた特徴学習の一例は、シマード(Simard)その他によるそれ
である(例えば、1995年のニューラル情報処理システム7における発展7(
Advances in Neural Information Proce
ssing Systems 7)におけるハスティ(Hastie)、シマー
ド(Simard)、及びサッキンジャ(Sackinger)による「正接距
離に対する学習プロトタイプ・モデル(Learning prototype
models for tangent distance)」、MITプレ
ス、ケンブリッジ、マサチューセッツ)。彼らのニューラル・ネットワーク型方
法は、文字(例えば、手書き)認識に応用されている。実際には、彼らの手法は
、ネットワークが特定の例の文字に関して学習するあらゆるものを自動的に、そ
の文字の可能な全ての「変形」(transformed)バージョンに汎化さ
せるというものである。ここで、変形とは、伸長、収縮、傾斜等を含む。これは
汎化を格段に向上させるが(更に、必要な例の集合が小さくて済むので、学習速
度も向上する)、この解決策は、むしろ筆記というようなものに特定的である。
これは、例えば、音声波形には直接適用することはできないであろう。この解決
策の更に別の欠点として、これが入力レベルでのみ適用されるものであり、特徴
を最初にニューラル・ネットワークに入力することがあげられる。これでは、マ
ルチレイヤ・ネットワークの内部レイヤでは役に立たない。何故なら、学習する
のはこれら内部の特徴であるからである。従って、どのように空間制約(例えば
、傾斜独立性)をこれらに適用するのかが明らかでない。同様に、この方法は、
かかるニューラル・ネットワークが、多数の特徴にスケール・アップする際に生
ずる問題にも対応していない。このスケーリングの問題(法外に長い訓練時間が
生ずる)は、可能な特徴の組み合わせ数が指数的に増大することに起因し、大幅
に減少するには、特徴検出の全てのレベルにおいてそれを解決しなければならな
い。
である(例えば、1995年のニューラル情報処理システム7における発展7(
Advances in Neural Information Proce
ssing Systems 7)におけるハスティ(Hastie)、シマー
ド(Simard)、及びサッキンジャ(Sackinger)による「正接距
離に対する学習プロトタイプ・モデル(Learning prototype
models for tangent distance)」、MITプレ
ス、ケンブリッジ、マサチューセッツ)。彼らのニューラル・ネットワーク型方
法は、文字(例えば、手書き)認識に応用されている。実際には、彼らの手法は
、ネットワークが特定の例の文字に関して学習するあらゆるものを自動的に、そ
の文字の可能な全ての「変形」(transformed)バージョンに汎化さ
せるというものである。ここで、変形とは、伸長、収縮、傾斜等を含む。これは
汎化を格段に向上させるが(更に、必要な例の集合が小さくて済むので、学習速
度も向上する)、この解決策は、むしろ筆記というようなものに特定的である。
これは、例えば、音声波形には直接適用することはできないであろう。この解決
策の更に別の欠点として、これが入力レベルでのみ適用されるものであり、特徴
を最初にニューラル・ネットワークに入力することがあげられる。これでは、マ
ルチレイヤ・ネットワークの内部レイヤでは役に立たない。何故なら、学習する
のはこれら内部の特徴であるからである。従って、どのように空間制約(例えば
、傾斜独立性)をこれらに適用するのかが明らかでない。同様に、この方法は、
かかるニューラル・ネットワークが、多数の特徴にスケール・アップする際に生
ずる問題にも対応していない。このスケーリングの問題(法外に長い訓練時間が
生ずる)は、可能な特徴の組み合わせ数が指数的に増大することに起因し、大幅
に減少するには、特徴検出の全てのレベルにおいてそれを解決しなければならな
い。
【0008】 目的および利点 従って、本発明は、従来技術のパターン認識方法に対して、幾つかの目的およ
び利点を有する。逆伝播およびその他の幾つかのニューラル・ネットワーク訓練
方法と同様に、本発明は、特徴利用パターン認識装置において適応型学習に用い
ることができる。しかしながら、これは、学習に強い制約を設けることによって
学習時間を短縮し、貧弱な特徴を学習する尤度(likelihood)を低下
させるという点において、これら以前の方法を改良するものである。この制約は
、理想的な(即ち、「真の」)特徴は、物理パターン集合において独立して(「
相関付けられずに」)得られるという仮定に基づいている。皮肉なことに、この
仮定は、従来技術においてしばしば援用されていたが、本発明以前に最大限使用
されたことはない。
び利点を有する。逆伝播およびその他の幾つかのニューラル・ネットワーク訓練
方法と同様に、本発明は、特徴利用パターン認識装置において適応型学習に用い
ることができる。しかしながら、これは、学習に強い制約を設けることによって
学習時間を短縮し、貧弱な特徴を学習する尤度(likelihood)を低下
させるという点において、これら以前の方法を改良するものである。この制約は
、理想的な(即ち、「真の」)特徴は、物理パターン集合において独立して(「
相関付けられずに」)得られるという仮定に基づいている。皮肉なことに、この
仮定は、従来技術においてしばしば援用されていたが、本発明以前に最大限使用
されたことはない。
【0009】 本方法は、独立特徴の仮定の使用を大幅に拡大して用い、非常に強力化する。
この仮定は特定のパターン認識タスクのクラス(例えば、光学的文字認識)に限
定されないので、本発明の利点は、多種多様なタスクにおいて得られる可能性が
高い。更に、用いる特徴検出装置が多いほど、仮定は実際に一層強力になる。こ
のため、本方法を、更に大きな認識装置に、拡大し改良することが可能となる。
これは長い間ニューラル・ネットワーク研究共同体の目標であった。その上、独
立特徴の仮定は、階層状マルチレイヤ認識装置のあらゆるレイヤ(層)に適用す
ることができる。このため、入力レイヤにのみ適用される、制約に基づく手順と
比較すると、本装置には、学習を高速化し汎化を改善する能力が一層多く与えら
れる。
この仮定は特定のパターン認識タスクのクラス(例えば、光学的文字認識)に限
定されないので、本発明の利点は、多種多様なタスクにおいて得られる可能性が
高い。更に、用いる特徴検出装置が多いほど、仮定は実際に一層強力になる。こ
のため、本方法を、更に大きな認識装置に、拡大し改良することが可能となる。
これは長い間ニューラル・ネットワーク研究共同体の目標であった。その上、独
立特徴の仮定は、階層状マルチレイヤ認識装置のあらゆるレイヤ(層)に適用す
ることができる。このため、入力レイヤにのみ適用される、制約に基づく手順と
比較すると、本装置には、学習を高速化し汎化を改善する能力が一層多く与えら
れる。
【0010】 本発明の別の目的は、1つの認識システムを訓練し、得られた訓練重み(tr
ained weight)を他のシステムに移転することによって、多数の同
様な認識システムを作成することである。
ained weight)を他のシステムに移転することによって、多数の同
様な認識システムを作成することである。
【0011】 本発明の更に別の目的および利点は、図面および以下の説明の検討から明らか
となろう。
となろう。
【0012】 概要 本発明によれば、パターン認識装置は、知覚変換部、特徴検出部の群、分類部
、および物理パターンに自動的に応答する作用部を備えている。更に、本装置で
は、割当部が、メモリに格納されている以前の入力パターンを用いて現入力パタ
ーンを、特徴検出部に対応するパーツに区分し、少なくとも1つの特徴検出部を
変更してそれに割り当てられたパーツに対するその優先性を高めるようにしたと
いう点で、改良がなされている。
、および物理パターンに自動的に応答する作用部を備えている。更に、本装置で
は、割当部が、メモリに格納されている以前の入力パターンを用いて現入力パタ
ーンを、特徴検出部に対応するパーツに区分し、少なくとも1つの特徴検出部を
変更してそれに割り当てられたパーツに対するその優先性を高めるようにしたと
いう点で、改良がなされている。
【0013】 本発明の理論 本発明の利点には、興味深い理論的理由があると確信する。この章では、現在
理解している範囲でこの理論について説明する。
理解している範囲でこの理論について説明する。
【0014】 特徴利用型パターン認識の装置および/または方法は、非常に強力にすること
ができる。例えば、「最上部の横線」、「右側の縦線」等というような特徴に対
する検出部を有する、印刷文字の認識装置を考慮する。これが強力な手法である
1つの理由は、比較的少数のかかる特徴検出部が共に働いて、多数の考慮され得
る文字を認識することができるからである。実際、異なる認識可能な文字の数は
、特徴数と共に指数的に増大する(しかしながら、この指数的な増大は、ありが
たくもあり厄介でもあり、これについては以下で説明する)。例えば、二進(オ
ン/オフ)特徴を20個だけ用いても、百万個を越える可能なパターンを認識す
ることができる。1000個の特徴では、可能な数は殆ど理解できない程である
が、それでもなお、人の脳におけるニューロン数と比較すると、僅かな数に過ぎ
ない。
ができる。例えば、「最上部の横線」、「右側の縦線」等というような特徴に対
する検出部を有する、印刷文字の認識装置を考慮する。これが強力な手法である
1つの理由は、比較的少数のかかる特徴検出部が共に働いて、多数の考慮され得
る文字を認識することができるからである。実際、異なる認識可能な文字の数は
、特徴数と共に指数的に増大する(しかしながら、この指数的な増大は、ありが
たくもあり厄介でもあり、これについては以下で説明する)。例えば、二進(オ
ン/オフ)特徴を20個だけ用いても、百万個を越える可能なパターンを認識す
ることができる。1000個の特徴では、可能な数は殆ど理解できない程である
が、それでもなお、人の脳におけるニューロン数と比較すると、僅かな数に過ぎ
ない。
【0015】 特徴利用型の認識の別の利点として、ノイズ耐性が挙げられる。本質的に、パ
ターンの中の「十分な」特徴が検出されれば、特徴検出が良好でなくても、認識
は良好となる可能性がある。例えば、大文字の「A」は、「中央の横棒」がなく
ても(恐らく、プリンタの不良のため)、認識することはできる。その理由は、
「A」は、「左側にある右傾斜対角線」および「右側にある左傾斜対角線」、そ
して「最上部にある交差線セグメント」という(検出された)特徴を有する唯一
の文字であるからに過ぎない。キャラクタ認識に使用可能な特徴集合は多数ある
が、これらはフォールト・トレランスの基本点を示すように機能する。
ターンの中の「十分な」特徴が検出されれば、特徴検出が良好でなくても、認識
は良好となる可能性がある。例えば、大文字の「A」は、「中央の横棒」がなく
ても(恐らく、プリンタの不良のため)、認識することはできる。その理由は、
「A」は、「左側にある右傾斜対角線」および「右側にある左傾斜対角線」、そ
して「最上部にある交差線セグメント」という(検出された)特徴を有する唯一
の文字であるからに過ぎない。キャラクタ認識に使用可能な特徴集合は多数ある
が、これらはフォールト・トレランスの基本点を示すように機能する。
【0016】 特徴利用型認識は非常に強力であるが、特徴を人の設計者によってハードワイ
ヤで行われるのではなく、例から学習することができると、更に一層強力となる
。かかる適応性は、最近のニューラル・ネットワークに対する研究の関心の基礎
であり、例えば、最も典型的な形態では、まさに(適応型)特徴検出部の連続す
るレイヤである。実際、人の知性が非常に印象的なのは、部分的に、数十億個の
ニューロンによる自然発生的な適応型ニューラル・ネットワークに基づき、各ニ
ューロンを特徴検出部として見なすことができるからであると、多くの人は論ず
るであろう。
ヤで行われるのではなく、例から学習することができると、更に一層強力となる
。かかる適応性は、最近のニューラル・ネットワークに対する研究の関心の基礎
であり、例えば、最も典型的な形態では、まさに(適応型)特徴検出部の連続す
るレイヤである。実際、人の知性が非常に印象的なのは、部分的に、数十億個の
ニューロンによる自然発生的な適応型ニューラル・ネットワークに基づき、各ニ
ューロンを特徴検出部として見なすことができるからであると、多くの人は論ず
るであろう。
【0017】 しかしながら、適応型の特徴利用型の認識のパワーには、常に相当の代償を払
っている。特に、特徴の学習は非常に時間がかかる可能性があり、最適ではない
特徴を学習してしまう可能性がある。更に、この問題は、訓練する特徴検出部の
数が増大する程、悪化すると思われる。これが、先に暗示したように、特徴の組
み合わせ数の指数的増大の「厄介な」面である。
っている。特に、特徴の学習は非常に時間がかかる可能性があり、最適ではない
特徴を学習してしまう可能性がある。更に、この問題は、訓練する特徴検出部の
数が増大する程、悪化すると思われる。これが、先に暗示したように、特徴の組
み合わせ数の指数的増大の「厄介な」面である。
【0018】 しかしながら、この厄介事は、従来技術の文献が示唆する程悪くないと考える
。実際、そのようなことはあり得ず、人の頭脳でさえも、その数十億個の特徴検
出ニューロンをもってしても、これらが行なうのとほぼ同じ位高速に学習するこ
とはできないと考える。更に、本発明は、人の頭脳も用いている原理を利用する
と考える。この原理は、ここでは「独立特徴学習」と呼ぶものである。
。実際、そのようなことはあり得ず、人の頭脳でさえも、その数十億個の特徴検
出ニューロンをもってしても、これらが行なうのとほぼ同じ位高速に学習するこ
とはできないと考える。更に、本発明は、人の頭脳も用いている原理を利用する
と考える。この原理は、ここでは「独立特徴学習」と呼ぶものである。
【0019】 従来技術の認識装置(適応型特徴利用型認識装置)は、その殆どが特徴検出部
に本質的に同様な訓練を行なう。これらは、最初に、現入力パターンに含まれて
いる(重要な)特徴が何であるのかを特定しようとする。次いで、これらは全て
の特徴検出部を変更し、認識装置全体をその特定の特徴の組み合わせの検出に特
化する。従って、「T」が観察された場合、特徴である「上部の横棒」および「
中央の縦棒」の組み合わせを強化するであろう。重要なのは、これが意味するの
は、「上部の横棒」が観察されたときはいつでも、「中央の縦棒」も同様に確度
が高くなるり、あるいはその逆も考慮されることである。認識装置は、これら2
つの特徴が考慮され得る入力パターン集合において(ある程度)相関付けられる
ことを教えられている。
に本質的に同様な訓練を行なう。これらは、最初に、現入力パターンに含まれて
いる(重要な)特徴が何であるのかを特定しようとする。次いで、これらは全て
の特徴検出部を変更し、認識装置全体をその特定の特徴の組み合わせの検出に特
化する。従って、「T」が観察された場合、特徴である「上部の横棒」および「
中央の縦棒」の組み合わせを強化するであろう。重要なのは、これが意味するの
は、「上部の横棒」が観察されたときはいつでも、「中央の縦棒」も同様に確度
が高くなるり、あるいはその逆も考慮されることである。認識装置は、これら2
つの特徴が考慮され得る入力パターン集合において(ある程度)相関付けられる
ことを教えられている。
【0020】 一方、本発明の本質は、特徴には相関がないと仮定し、むしろこれらは入力パ
ターン集合全体を通じて互いに統計的に独立していると仮定することにある。本
発明の一実施形態では、「T」を観察した場合、1つの特徴検出部を訓練して「
上部の横棒」により良く応答するようにし、更に別の特徴検出部を訓練しその「
中央の縦棒」に対する優先度を高めるようにすることができるが、これら2つの
特徴の組み合わせに対して何れの検出部の優先度も高められない。
ターン集合全体を通じて互いに統計的に独立していると仮定することにある。本
発明の一実施形態では、「T」を観察した場合、1つの特徴検出部を訓練して「
上部の横棒」により良く応答するようにし、更に別の特徴検出部を訓練しその「
中央の縦棒」に対する優先度を高めるようにすることができるが、これら2つの
特徴の組み合わせに対して何れの検出部の優先度も高められない。
【0021】 なぜこれが良い訓練方法なのであろうか。反証がないので、何れかの所与の特
徴が他の何れかの特徴の組み合わせにおいて発生し得ると最初に推測するのは、
賢明である。「上部の横棒」という特徴を「発見」した認識装置は、例えば、後
に「E」、「F」、「I」、「Z」、「5」、「7」、およびおそらく他のシン
ボルに遭遇した場合に、この特徴を有用と見なす可能性がある。しかし、従来技
術の認識装置が「T」を観察したときに典型的に学習するように、「上部の横棒
」が「中央の縦棒」も同様に暗示すると訓練されていた場合、他のシンボルに遭
遇した際に、この情報を後に忘れる(unlearn、喪失する)ことを必要と
する。要するに、本装置が有効なのは、そのような忘れることを必要としないか
らである。実際、典型的な従来技術の訓練体系では、訓練パターンの量が余りに
少ないので、多くの場合、擬似の相関が適切に喪失されるということは全くない
と考える。従って、本装置は、少ないパターン観察によって学習することができ
るだけでなく、これらの観察に基づいてより良い特徴を学習することができると
考える。
徴が他の何れかの特徴の組み合わせにおいて発生し得ると最初に推測するのは、
賢明である。「上部の横棒」という特徴を「発見」した認識装置は、例えば、後
に「E」、「F」、「I」、「Z」、「5」、「7」、およびおそらく他のシン
ボルに遭遇した場合に、この特徴を有用と見なす可能性がある。しかし、従来技
術の認識装置が「T」を観察したときに典型的に学習するように、「上部の横棒
」が「中央の縦棒」も同様に暗示すると訓練されていた場合、他のシンボルに遭
遇した際に、この情報を後に忘れる(unlearn、喪失する)ことを必要と
する。要するに、本装置が有効なのは、そのような忘れることを必要としないか
らである。実際、典型的な従来技術の訓練体系では、訓練パターンの量が余りに
少ないので、多くの場合、擬似の相関が適切に喪失されるということは全くない
と考える。従って、本装置は、少ないパターン観察によって学習することができ
るだけでなく、これらの観察に基づいてより良い特徴を学習することができると
考える。
【0022】 更に、この利点は、特徴検出部の数が多くなる程、増々重要となると考える。
何故なら、特徴の組み合わせ数は指数的に増大するので、ある意味では、従来技
術の認識装置によって行われる不適切な相関学習の量は指数的に増大し、従って
、行なわなければならない喪失の量も増大することになる。これは、本装置が、
多数の特徴検出部へのスケーリングを改善できる可能性を有することを意味する
。
何故なら、特徴の組み合わせ数は指数的に増大するので、ある意味では、従来技
術の認識装置によって行われる不適切な相関学習の量は指数的に増大し、従って
、行なわなければならない喪失の量も増大することになる。これは、本装置が、
多数の特徴検出部へのスケーリングを改善できる可能性を有することを意味する
。
【0023】 特徴検出部を独立して訓練するという本手法に至らせる、独立して発生する特
徴という仮定は、全ての状況において必ずしも適切ではないと反論する者もいる
であろう。例えば、(ある奇妙なアルファベットにおいて)文字「T」が、「上
部の横棒」または「中央の縦棒」を有する唯一の文字であるとするとどうするの
か。勿論、これらの特徴が常に共に発生すると認識装置を訓練することが適切で
あるのではなかろうか。これに対する回答の1つは、かかる状況では、「T」全
体を、学習すべき特徴とする方がより適切である。より一般的には、他の特徴と
の相関性が高い特徴は、いずれにしてもあまり有用ではないという傾向がある。
これらは、認識装置の特徴記憶容量を浪費する傾向がある。しかしながら、何れ
の場合でも、本発明は、特徴間の相関の学習を妨げるものではない。これは、単
に、特徴の独立性をデフォルトの仮定とするに過ぎず、この仮定は、更なる学習
によって「無効にする」ことができる。
徴という仮定は、全ての状況において必ずしも適切ではないと反論する者もいる
であろう。例えば、(ある奇妙なアルファベットにおいて)文字「T」が、「上
部の横棒」または「中央の縦棒」を有する唯一の文字であるとするとどうするの
か。勿論、これらの特徴が常に共に発生すると認識装置を訓練することが適切で
あるのではなかろうか。これに対する回答の1つは、かかる状況では、「T」全
体を、学習すべき特徴とする方がより適切である。より一般的には、他の特徴と
の相関性が高い特徴は、いずれにしてもあまり有用ではないという傾向がある。
これらは、認識装置の特徴記憶容量を浪費する傾向がある。しかしながら、何れ
の場合でも、本発明は、特徴間の相関の学習を妨げるものではない。これは、単
に、特徴の独立性をデフォルトの仮定とするに過ぎず、この仮定は、更なる学習
によって「無効にする」ことができる。
【0024】 従来技術の方法の中には、「因子」または「情報保存」内部表現の学習を促進
する狙いで、独立性の原理を援用するものがある。その一例は、フォルディアッ
ク(Foldiak)(1990年の、バイオロジカル・サイバネティックス(
Biological Cybernetics)の64:165〜170にお
ける「ローカル・アンチ−ヘビアン学習による疎表現の形成(Forming
sparse representations by local anti
−Hebbian learning」)のそれである。これは、特徴検出部間
に「競合」接続を組み込み、これらに異なる特徴を学習させようとするものであ
る。しかしながら、これらの従来技術方法は、可能な度合いまでは殆ど独立性の
仮定を利用していない。例えば、競合接続を組み込んだフォルディアックのシス
テムのようなシステムは、本装置のように高次の依存性(相関)ではなく、二次
の依存性(相関)を防止(discourage)できるに過ぎない。また、こ
れらのシステムは多くの場合「バッチ」での訓練を行うため、重みの変更をセー
ブされ、実際、パターン集合の提示後に実行される。本装置とは異なり、かかる
手順では、現パターンについて行なった学習を直ちに今後の学習に役立てるため
に用いることはできない。
する狙いで、独立性の原理を援用するものがある。その一例は、フォルディアッ
ク(Foldiak)(1990年の、バイオロジカル・サイバネティックス(
Biological Cybernetics)の64:165〜170にお
ける「ローカル・アンチ−ヘビアン学習による疎表現の形成(Forming
sparse representations by local anti
−Hebbian learning」)のそれである。これは、特徴検出部間
に「競合」接続を組み込み、これらに異なる特徴を学習させようとするものであ
る。しかしながら、これらの従来技術方法は、可能な度合いまでは殆ど独立性の
仮定を利用していない。例えば、競合接続を組み込んだフォルディアックのシス
テムのようなシステムは、本装置のように高次の依存性(相関)ではなく、二次
の依存性(相関)を防止(discourage)できるに過ぎない。また、こ
れらのシステムは多くの場合「バッチ」での訓練を行うため、重みの変更をセー
ブされ、実際、パターン集合の提示後に実行される。本装置とは異なり、かかる
手順では、現パターンについて行なった学習を直ちに今後の学習に役立てるため
に用いることはできない。
【0025】 更に、本質的に別個のサブシステム(例えば、別個の接続、または訓練コスト
機能における追加のペナルティ項)を用いて、従来の訓練手順のものではない効
果を打ち消すのが、これら従来技術の方法の典型であると考える。かかる方法で
は、対策は、常に、主要な、エラー削減のための重み更新よりも遅れると考えら
れる。本発明は、逆に、主要な(そして唯一の)重み更新手順に独立性仮定を埋
め込むので、(後に)除去されるために、別個のサブシステムによって依存性を
学習する必要はない。
機能における追加のペナルティ項)を用いて、従来の訓練手順のものではない効
果を打ち消すのが、これら従来技術の方法の典型であると考える。かかる方法で
は、対策は、常に、主要な、エラー削減のための重み更新よりも遅れると考えら
れる。本発明は、逆に、主要な(そして唯一の)重み更新手順に独立性仮定を埋
め込むので、(後に)除去されるために、別個のサブシステムによって依存性を
学習する必要はない。
【0026】 好適な実施形態の共通性 この章は、図1および図2を参照しながら、双方の好適な実施形態に共通な、
本発明の態様について説明する。好適な実施形態の詳細については後に示す。
本発明の態様について説明する。好適な実施形態の詳細については後に示す。
【0027】 総論 図1は、本発明によるパターン認識装置の概要を示す。信号伝搬の方向を矢印
で示す。多要素の信号の伝搬は、殆どの部分では論理的に並列でなければならな
い。これは、信号要素の殆ど(そして好ましくは全て)は、(各々がスカラー値
を表し)、対応する処理段によって受け取られ、その後に当該段がその動作を実
行し、その結果を出力しなければならないことを意味する。明確化のために、各
信号通信ラインには、当該ラインを用いる信号と同じ参照符号を付すことにする
。
で示す。多要素の信号の伝搬は、殆どの部分では論理的に並列でなければならな
い。これは、信号要素の殆ど(そして好ましくは全て)は、(各々がスカラー値
を表し)、対応する処理段によって受け取られ、その後に当該段がその動作を実
行し、その結果を出力しなければならないことを意味する。明確化のために、各
信号通信ラインには、当該ラインを用いる信号と同じ参照符号を付すことにする
。
【0028】 本システムの動作(以下で更に説明する)は、ユーザによって規制される。ユ
ーザは、単に人間のユーザでもよく、あるいは他の装置であっても、またはそれ
を含むものでもよい。この規制は、システムが環境および/または他のデバイス
20(以降、単に環境20と呼ぶ)と双方向処理するシステムの方向付けを含む
。この方向付けにより、物理パターン22が環境20からシステムに、即ち、変
換部24に伝達される。変換部24は、この物理パターン22を当該物理パター
ン22の表現に変換する。この変換には、あらゆる「前処理」動作を含むことと
する。この表現は、入力信号26の形態を取る。ここでは、多くの場合、所与の
入力信号26によって表現される情報のことを「入力パターン」と呼ぶ。
ーザは、単に人間のユーザでもよく、あるいは他の装置であっても、またはそれ
を含むものでもよい。この規制は、システムが環境および/または他のデバイス
20(以降、単に環境20と呼ぶ)と双方向処理するシステムの方向付けを含む
。この方向付けにより、物理パターン22が環境20からシステムに、即ち、変
換部24に伝達される。変換部24は、この物理パターン22を当該物理パター
ン22の表現に変換する。この変換には、あらゆる「前処理」動作を含むことと
する。この表現は、入力信号26の形態を取る。ここでは、多くの場合、所与の
入力信号26によって表現される情報のことを「入力パターン」と呼ぶ。
【0029】 一群の特徴検出部28が、変換部24からの入力信号26を受け取るように接
続されている。各特徴検出部28は、ある特徴ベクトルが入力信号26内に発生
した場合に、それを検出または「優先する」ように構成されている。各特徴検出
部28[m]は、現入力信号26内においてそれが検出したその特徴に対する(
スカラー)度合い(即ち、検出部が「発火」する、即ち、入力信号26において
高い「一致」を発見する度合い)を表す、対応する特徴アクティビティ信号要素
30[m]を出力する。実施形態によっては、この特徴アクティビティ信号要素
30[m]が、特徴検出部28間の競合(competition)または他の
通信の結果を反映することも可能である。また、各特徴検出部28[m]は、多
要素特徴記述信号要素32[m]も出力するように構成されている。これは、検
出部28[m]が優先する特徴を表す。
続されている。各特徴検出部28は、ある特徴ベクトルが入力信号26内に発生
した場合に、それを検出または「優先する」ように構成されている。各特徴検出
部28[m]は、現入力信号26内においてそれが検出したその特徴に対する(
スカラー)度合い(即ち、検出部が「発火」する、即ち、入力信号26において
高い「一致」を発見する度合い)を表す、対応する特徴アクティビティ信号要素
30[m]を出力する。実施形態によっては、この特徴アクティビティ信号要素
30[m]が、特徴検出部28間の競合(competition)または他の
通信の結果を反映することも可能である。また、各特徴検出部28[m]は、多
要素特徴記述信号要素32[m]も出力するように構成されている。これは、検
出部28[m]が優先する特徴を表す。
【0030】 分類部34が、特徴検出部28から特徴アクティビティ信号30を受け取るよ
うに接続されている。また、分類部34は、環境20からターゲット信号46を
受け取るように接続されている。分類部34は、訓練(ターゲット信号46を用
いる)および/またはハードワイヤリングを介して、与えられた特徴アクティビ
ティ信号30に対する適切なシステム応答を表す出力信号36を生成するように
構成されている。例えば、出力信号36は、手書き文字入力が「A」、「B」、
「C」等である確率のように、種々のクラスにおけるメンバシップ度を表すこと
ができる。尚、分類部34は、その典型的な使用を反映するように命名されてい
るが、実際には分類自体を行なう必要はないことを注記するのは重要である。重
要なのは、それが生成する出力信号36が、適切なシステム応答を表すことであ
り、それがクラスのラベルも表すか否かは無関係である。
うに接続されている。また、分類部34は、環境20からターゲット信号46を
受け取るように接続されている。分類部34は、訓練(ターゲット信号46を用
いる)および/またはハードワイヤリングを介して、与えられた特徴アクティビ
ティ信号30に対する適切なシステム応答を表す出力信号36を生成するように
構成されている。例えば、出力信号36は、手書き文字入力が「A」、「B」、
「C」等である確率のように、種々のクラスにおけるメンバシップ度を表すこと
ができる。尚、分類部34は、その典型的な使用を反映するように命名されてい
るが、実際には分類自体を行なう必要はないことを注記するのは重要である。重
要なのは、それが生成する出力信号36が、適切なシステム応答を表すことであ
り、それがクラスのラベルも表すか否かは無関係である。
【0031】 作用部38が、出力信号36を受け取るように接続され、当該信号36に基づ
いて、この世界において何らかのアクション(活動)を行なうように構成されて
いる。例えば、手書き文字を認識するためにシステムを用いている場合、作用部
38は最も確率の高い文字のASCII表現をコンピュータ・メモリに格納し、
恐らくは、キーボードには小さすぎる装置を用いてユーザに電子メールを送らせ
ることを可能にしている。
いて、この世界において何らかのアクション(活動)を行なうように構成されて
いる。例えば、手書き文字を認識するためにシステムを用いている場合、作用部
38は最も確率の高い文字のASCII表現をコンピュータ・メモリに格納し、
恐らくは、キーボードには小さすぎる装置を用いてユーザに電子メールを送らせ
ることを可能にしている。
【0032】 特徴検出部28は、メモリ40、割当部66、および更新部42を用いて訓練
される。メモリ40は、入力信号26を受け取るように接続されている。メモリ
40は、恐らく近似(「損失性」)の手法で、以前の入力パターンの集合の表現
を格納することができる。これらのパターンは、現入力信号および今後の入力信
号26に対して「比較パターン」と呼ばれる。
される。メモリ40は、入力信号26を受け取るように接続されている。メモリ
40は、恐らく近似(「損失性」)の手法で、以前の入力パターンの集合の表現
を格納することができる。これらのパターンは、現入力信号および今後の入力信
号26に対して「比較パターン」と呼ばれる。
【0033】 割当部66は、検索信号68を介して、メモリ40に格納されている内容(比
較パターン)にアクセスするように接続されている。この格納部を用いて、現入
力パターン(現入力信号26によって表される)をパーツに区分することができ
る。各パーツは、割当部66によって、入力信号26に含まれているだけでなく
、メモリ40に格納されている比較パターンの集合を記述するためにも有用であ
る有望特徴(likely feature)であると判断されたベクトルを表
す。言い換えると、パーツとは、過去のパターン、現パターンおよび(希望とし
ては)今後のパターンも同様に含む、入力ドメイン全体の真の特徴であるであろ
うと判定されたベクトルである。
較パターン)にアクセスするように接続されている。この格納部を用いて、現入
力パターン(現入力信号26によって表される)をパーツに区分することができ
る。各パーツは、割当部66によって、入力信号26に含まれているだけでなく
、メモリ40に格納されている比較パターンの集合を記述するためにも有用であ
る有望特徴(likely feature)であると判断されたベクトルを表
す。言い換えると、パーツとは、過去のパターン、現パターンおよび(希望とし
ては)今後のパターンも同様に含む、入力ドメイン全体の真の特徴であるであろ
うと判定されたベクトルである。
【0034】 割当部66は、特徴記述信号32を受け取り、この信号32を利用して、特徴
検出部28とパーツの間の対応を表すパーツ・マッピング信号44を形成するよ
うに接続されている。以下で述べるが、メモリ40は、入力パターンを格納する
際に、特徴検出部28も利用する。更に、割当部66は、パーツ・マッピング信
号44を形成する際にターゲット信号46を利用する。パーツ自体は、(内部的
に)割当部66によって明示的に表現することができ、あるいはパーツ・マッピ
ング信号44で暗示的に表現するのみとすることも可能である。
検出部28とパーツの間の対応を表すパーツ・マッピング信号44を形成するよ
うに接続されている。以下で述べるが、メモリ40は、入力パターンを格納する
際に、特徴検出部28も利用する。更に、割当部66は、パーツ・マッピング信
号44を形成する際にターゲット信号46を利用する。パーツ自体は、(内部的
に)割当部66によって明示的に表現することができ、あるいはパーツ・マッピ
ング信号44で暗示的に表現するのみとすることも可能である。
【0035】 更新部42は、割当部66からパーツ・マッピング信号44を受け取るように
接続されている。これは、この信号44に基づいて、特徴検出部28を変更する
ように構成されている。即ち、更新部42は、特徴検出部28[m]を変更して
、当該特徴検出部28[m]がそれに対応するパーツに対する優先度を高めるよ
うにすることができる。言い換えると、特徴検出部28[m]が優先する特徴は
、それに割り当てられたパーツに向かって動かされる。即ち、一層類似度が高め
られる。更新部42の影響を、アップデート信号64によって、図1、図3、お
よび図10に示す。しかしながら、好適でない実施形態の中には、仲介するアッ
プデート信号64を必要とせずに、特徴の更新を直接行う(例えば、ハードウエ
アを介して)。
接続されている。これは、この信号44に基づいて、特徴検出部28を変更する
ように構成されている。即ち、更新部42は、特徴検出部28[m]を変更して
、当該特徴検出部28[m]がそれに対応するパーツに対する優先度を高めるよ
うにすることができる。言い換えると、特徴検出部28[m]が優先する特徴は
、それに割り当てられたパーツに向かって動かされる。即ち、一層類似度が高め
られる。更新部42の影響を、アップデート信号64によって、図1、図3、お
よび図10に示す。しかしながら、好適でない実施形態の中には、仲介するアッ
プデート信号64を必要とせずに、特徴の更新を直接行う(例えば、ハードウエ
アを介して)。
【0036】 図2は、本発明によるパターン認識装置の動作の概要を示す。本装置の使用は
、一連の「トライアル」、または物理的なパターン提示を含む。各トライアル毎
に、認識が行われるか、または訓練が行われるか、あるいは双方が行われる。本
好適な実施形態では、訓練が行われる(イネーブルされた場合)前に認識が行わ
れる(イネーブルされた場合)。しかしながら、認識の前または認識と同時に訓
練を行なう実施形態にも有用なものが数多く存在すると考えられる。
、一連の「トライアル」、または物理的なパターン提示を含む。各トライアル毎
に、認識が行われるか、または訓練が行われるか、あるいは双方が行われる。本
好適な実施形態では、訓練が行われる(イネーブルされた場合)前に認識が行わ
れる(イネーブルされた場合)。しかしながら、認識の前または認識と同時に訓
練を行なう実施形態にも有用なものが数多く存在すると考えられる。
【0037】 認識および訓練の双方では、物理パターン22を観察し、変換部24によって
表現入力信号26を生成することが必要である。その他のステップは、認識およ
び/または訓練のどちらがイネーブルされるかによって異なる。
表現入力信号26を生成することが必要である。その他のステップは、認識およ
び/または訓練のどちらがイネーブルされるかによって異なる。
【0038】 トライアルにおける訓練および認識のイネーブルのスケジュールについては、
以下で各実施形態毎に別個に論ずる。しかしながら、ここで強調すべきことが1
つある。第2の好適な実施形態では、メモリ40は特徴検出部28とは別個であ
り、入力パターンは、訓練または認識を行なう前に、メモリ40に格納される。
しかしながら、第1の好適な実施形態では、特徴検出部28は、実際にはメモリ
40を実装するために用いられる。この場合、メモリ40へのパターンの格納は
、特徴検出部28の訓練と同じ手順で行なう。従って、第1の好適な実施形態に
関しては、図2の「メモリにパターン集合を格納する」として示すステップは、
初期のランダムの優先特徴(preferred feature)の設定、お
よび恐らくは、ある数のパターンに対する特徴訓練を行なうことを含む。
以下で各実施形態毎に別個に論ずる。しかしながら、ここで強調すべきことが1
つある。第2の好適な実施形態では、メモリ40は特徴検出部28とは別個であ
り、入力パターンは、訓練または認識を行なう前に、メモリ40に格納される。
しかしながら、第1の好適な実施形態では、特徴検出部28は、実際にはメモリ
40を実装するために用いられる。この場合、メモリ40へのパターンの格納は
、特徴検出部28の訓練と同じ手順で行なう。従って、第1の好適な実施形態に
関しては、図2の「メモリにパターン集合を格納する」として示すステップは、
初期のランダムの優先特徴(preferred feature)の設定、お
よび恐らくは、ある数のパターンに対する特徴訓練を行なうことを含む。
【0039】 認識をイネーブルする場合、入力信号26を特徴検出部28に伝達し、この入
力をそれらの優先特徴に対して評価し、適切な特徴アクティビティ信号要素30
[1]ないし30[M]を生成する。(実施形態によっては、同等のステップを
訓練プロセスの一部としても行なう。)特徴アクティビティ信号30(要素30
[1]ないし30[M]から成る)は、分類部34により用いられて出力信号3
6が生成される。出力信号36は、作用部38により用いられて、システムの環
境20内において適切なアクション70が行われる。
力をそれらの優先特徴に対して評価し、適切な特徴アクティビティ信号要素30
[1]ないし30[M]を生成する。(実施形態によっては、同等のステップを
訓練プロセスの一部としても行なう。)特徴アクティビティ信号30(要素30
[1]ないし30[M]から成る)は、分類部34により用いられて出力信号3
6が生成される。出力信号36は、作用部38により用いられて、システムの環
境20内において適切なアクション70が行われる。
【0040】 訓練をイネーブルする場合、入力信号26を、現入力パターン情報を格納する
メモリ40、および割当部66に伝達する。割当部66は、メモリ40から検索
信号68を介して得た、格納されていた比較パターン情報を用いて、入力信号2
6をパーツに区分または分解する。(実施形態によっては、メモリ40は、特徴
検出部28またはその同等物を用いて実現する場合もある)。次に、割当部66
は、特徴記述信号32を用いて、パーツを対応する特徴検出部28に割り当てる
。この割り当ての結果を、パーツ・マッピング信号44を介して、更新部42に
伝達する。割当部66は、実施形態によっては、ターゲット信号46を利用して
、割り当てを行う場合もある。更新部42は、特徴検出部28の優先特徴を変更
する。変更により、特徴検出部28[m]は、それに割り当てられたパーツに対
する優先度を高める。
メモリ40、および割当部66に伝達する。割当部66は、メモリ40から検索
信号68を介して得た、格納されていた比較パターン情報を用いて、入力信号2
6をパーツに区分または分解する。(実施形態によっては、メモリ40は、特徴
検出部28またはその同等物を用いて実現する場合もある)。次に、割当部66
は、特徴記述信号32を用いて、パーツを対応する特徴検出部28に割り当てる
。この割り当ての結果を、パーツ・マッピング信号44を介して、更新部42に
伝達する。割当部66は、実施形態によっては、ターゲット信号46を利用して
、割り当てを行う場合もある。更新部42は、特徴検出部28の優先特徴を変更
する。変更により、特徴検出部28[m]は、それに割り当てられたパーツに対
する優先度を高める。
【0041】 多数の訓練トライアルを行なった後、特徴検出部28は、入力パターン・ドメ
インに関する貴重な情報を格納する。これは、同等のパターン認識装置における
訓練フェーズを迂回するために用いることができる。即ち、図2に示すように、
特徴検出部28の1つ以上の優先される特徴は、ある量の訓練の後、1つ以上の
同等の装置に転送(コピーすることを含む)することができる。同等の装置とは
、変換部24と同様の変換部、および特徴検出部28と同様の1つ以上の特徴検
出部を有し、訓練した優先される特徴を適切に利用可能としたもののことである
。
インに関する貴重な情報を格納する。これは、同等のパターン認識装置における
訓練フェーズを迂回するために用いることができる。即ち、図2に示すように、
特徴検出部28の1つ以上の優先される特徴は、ある量の訓練の後、1つ以上の
同等の装置に転送(コピーすることを含む)することができる。同等の装置とは
、変換部24と同様の変換部、および特徴検出部28と同様の1つ以上の特徴検
出部を有し、訓練した優先される特徴を適切に利用可能としたもののことである
。
【0042】 実施態様の詳細 好適な実施形態の各々は、適切にプログラムされた汎用デジタル・コンピュー
タを用いて実現する。概して言えば、信号およびその他の表現は、従って、コン
ピュータのランダム・アクセス・メモリ内の記憶空間を用いて実現することにな
る。かかる実現が好ましいのは、部分的に、かかる機械の(例えば、アナログお
よび/または非電子的装置に対して)高い可用性および比較的低いコストのため
である。何らかの実験的操作も望ましい場合があり、これは、典型的に、ソフト
ウエアによって汎用の機械上で行うのが最も簡単である。更に、適応型パターン
認識の当業者は、パターン認識装置のソフトウエア利用型の実施態様に最も精通
していることが多い。更にまた、かかるシステムは、一旦訓練すると、訓練した
重みおよび/またはプログラム・コードを他の認識システムにコピーすることに
よって、他のシステムを作成して同様のタスクを実行する場合に容易に使用する
ことができる。
タを用いて実現する。概して言えば、信号およびその他の表現は、従って、コン
ピュータのランダム・アクセス・メモリ内の記憶空間を用いて実現することにな
る。かかる実現が好ましいのは、部分的に、かかる機械の(例えば、アナログお
よび/または非電子的装置に対して)高い可用性および比較的低いコストのため
である。何らかの実験的操作も望ましい場合があり、これは、典型的に、ソフト
ウエアによって汎用の機械上で行うのが最も簡単である。更に、適応型パターン
認識の当業者は、パターン認識装置のソフトウエア利用型の実施態様に最も精通
していることが多い。更にまた、かかるシステムは、一旦訓練すると、訓練した
重みおよび/またはプログラム・コードを他の認識システムにコピーすることに
よって、他のシステムを作成して同様のタスクを実行する場合に容易に使用する
ことができる。
【0043】 好適な実施形態のコンピュータ・プログラム部分について説明するために、変
数名を用いて対応するデジタル格納位置を示すことにする。これらの変数は、そ
れらが実現されるシステム部分と共に、以下の好適な実施形態で与える。
数名を用いて対応するデジタル格納位置を示すことにする。これらの変数は、そ
れらが実現されるシステム部分と共に、以下の好適な実施形態で与える。
【0044】 擬似コードの規則 図面の一部では、概ねCプログラム言語に類似する「疑似コード」を利用する
。その理由の1つは、手順を表すために用いなければならない図面の枚数を減ら
すためである。これによって、通常のパターン認識のプログラマには、方法を更
に多くの図面に分解するよりも、図示した方法全体が分かりやすくなると考える
。実際、疑似コードは、Cまたは同様の言語を習熟した者であれば誰にでも容易
に理解可能であるはずである。しかしながら、次に最低限の自明な規則について
説明する。
。その理由の1つは、手順を表すために用いなければならない図面の枚数を減ら
すためである。これによって、通常のパターン認識のプログラマには、方法を更
に多くの図面に分解するよりも、図示した方法全体が分かりやすくなると考える
。実際、疑似コードは、Cまたは同様の言語を習熟した者であれば誰にでも容易
に理解可能であるはずである。しかしながら、次に最低限の自明な規則について
説明する。
【0045】 変数への割り当ては、「Set var=value」ステートメントによっ
て示す。これは、Cの割り当て動作「var=value」と同等である。
て示す。これは、Cの割り当て動作「var=value」と同等である。
【0046】 処理ループは、「For x=begin to end{loop−bod
y}」ステートメントによって示す。ここで、loop−body(ループ本体
)とは、ループすべきコードであり、そしてxは整数のインデックス変数であり
、その値は通常ループ本体において参照される。ループは、最初にxをbegi
nに等しくして実行し、次いで、xがendよりも大きくなるまで、次の連続的
繰り返しの前にxを1増分する。xがendよりも大きくなった時点で、それ以
上の繰り返しは行なわない。
y}」ステートメントによって示す。ここで、loop−body(ループ本体
)とは、ループすべきコードであり、そしてxは整数のインデックス変数であり
、その値は通常ループ本体において参照される。ループは、最初にxをbegi
nに等しくして実行し、次いで、xがendよりも大きくなるまで、次の連続的
繰り返しの前にxを1増分する。xがendよりも大きくなった時点で、それ以
上の繰り返しは行なわない。
【0047】 条件コードの実行は、「If boolvar{conditional−c
ode}」ステートメントによって実施する。ここでは、coditional
−code(条件コード)ステートメントは、boolvarが表す表現がTR
UE(非ゼロ)と評価される場合にのみ実行される。評価方法が明らかな場合に
は、boolvarに英語の表現を用いる場合もある。また、Cにおけると同様
に、対応する「Else{}」クローズを、「If」ステートメントと共に用い
ることも可能である。
ode}」ステートメントによって実施する。ここでは、coditional
−code(条件コード)ステートメントは、boolvarが表す表現がTR
UE(非ゼロ)と評価される場合にのみ実行される。評価方法が明らかな場合に
は、boolvarに英語の表現を用いる場合もある。また、Cにおけると同様
に、対応する「Else{}」クローズを、「If」ステートメントと共に用い
ることも可能である。
【0048】 多くの場合、アレイは、arrayvar[]、またはarrayvar[]
[0]のような標記で示すことにする。かかるアレイはベクトルを表し、指定さ
れたインデックスのないものは真に一次元を有する。同様に、arrayvar
[][]は、二次元アレイ全体を示し、arrayvay[2][3]は、二次
元アレイの単一要素を示す。また、アレイ・インデックスの角括弧は、文脈でそ
の意味が明確になる場合には、明確化のために除外する。
[0]のような標記で示すことにする。かかるアレイはベクトルを表し、指定さ
れたインデックスのないものは真に一次元を有する。同様に、arrayvar
[][]は、二次元アレイ全体を示し、arrayvay[2][3]は、二次
元アレイの単一要素を示す。また、アレイ・インデックスの角括弧は、文脈でそ
の意味が明確になる場合には、明確化のために除外する。
【0049】 演算子「log」は、自然対数演算(基底e)を示す。演算子「exp」はe
を基底とする指数演算を示す。MIN(x,y)はxおよびyの最小値を戻す。
を基底とする指数演算を示す。MIN(x,y)はxおよびyの最小値を戻す。
【0050】 変換部 システムのフロント・エンドには、変換部24がある。これは、物理パターン
22を検知し、それを表す入力信号26を生成する。物理パターン22は、事実
上、観察可能なあらゆるオブジェクトまたはイベント、あるいはオブジェクトお
よび/またはイベントの集塊(conglomeration)とすることがで
きる。同様に、変換部24は、かかる観察可能なものを検出可能な何れかとすれ
ばよい。例えば、光検出器セル、マイクロフォン、カメラ、ソナー検出器、熱セ
ンサ、リアルタイム株式価格装置(real−time stock quot
e device)、目の不自由な人の杖に埋め込まれるグローバル・ポジショ
ニング装置等を含むことができる。これは、電子的に格納されているパターン、
例えば、遠隔のネットワーク・サーバに格納されているハイパーテキスト文書を
検出することができる。また、変換部24は、例えば、調査結果を観察する場合
には、1人以上の人を含むことも可能である。世界には非常に多種多様なパター
ンを検知する公知の方法および装置が多数あるので、適応型パターン認識の当業
者は、本発明を適用可能な多くの多岐にわたる物理パターン・ドメインを容易に
見出すであろう。
22を検知し、それを表す入力信号26を生成する。物理パターン22は、事実
上、観察可能なあらゆるオブジェクトまたはイベント、あるいはオブジェクトお
よび/またはイベントの集塊(conglomeration)とすることがで
きる。同様に、変換部24は、かかる観察可能なものを検出可能な何れかとすれ
ばよい。例えば、光検出器セル、マイクロフォン、カメラ、ソナー検出器、熱セ
ンサ、リアルタイム株式価格装置(real−time stock quot
e device)、目の不自由な人の杖に埋め込まれるグローバル・ポジショ
ニング装置等を含むことができる。これは、電子的に格納されているパターン、
例えば、遠隔のネットワーク・サーバに格納されているハイパーテキスト文書を
検出することができる。また、変換部24は、例えば、調査結果を観察する場合
には、1人以上の人を含むことも可能である。世界には非常に多種多様なパター
ンを検知する公知の方法および装置が多数あるので、適応型パターン認識の当業
者は、本発明を適用可能な多くの多岐にわたる物理パターン・ドメインを容易に
見出すであろう。
【0051】 また、変換部24は、物理パターン22の必要なあらゆる「前処理」も扱うこ
とを仮定する。前処理には、入力における不要な冗長性を除去したり、失われた
値を埋めたりするために用いられる公知のあらゆるハードワイヤードの変換が含
まれる。これらの動作は、問題毎に特定的となりがちであり、非常に多くの動作
が可能である。幾つかの例をあげると、キャラクタ(文字)認識における線抽出
、オーディオ(例えば、音声)信号のバンド・パス・フィルタリング、ならびに
画像の変換、回転およびサイズの正規化がある。しかしながら、注記すべき重要
なこととして、本発明のような適応型特徴利用型装置を用いる場合、前処理の重
要性は低下することがあげられる。特によく理解されているドメインでは、なお
も有用ではあるが、適切な前処理は、ある程度、装置の適応型部分によって「学
習する」ことができる。このために、最悪事態の場面において、システム設計者
が事実上物理パターン・ドメインに含まれる特徴について(従って、どんな前処
理動作が適切なのか)何も知らない場合でも、前処理を全く行なわずに(即ち、
「生の」入力データを用いて)本装置を用いることができる。
とを仮定する。前処理には、入力における不要な冗長性を除去したり、失われた
値を埋めたりするために用いられる公知のあらゆるハードワイヤードの変換が含
まれる。これらの動作は、問題毎に特定的となりがちであり、非常に多くの動作
が可能である。幾つかの例をあげると、キャラクタ(文字)認識における線抽出
、オーディオ(例えば、音声)信号のバンド・パス・フィルタリング、ならびに
画像の変換、回転およびサイズの正規化がある。しかしながら、注記すべき重要
なこととして、本発明のような適応型特徴利用型装置を用いる場合、前処理の重
要性は低下することがあげられる。特によく理解されているドメインでは、なお
も有用ではあるが、適切な前処理は、ある程度、装置の適応型部分によって「学
習する」ことができる。このために、最悪事態の場面において、システム設計者
が事実上物理パターン・ドメインに含まれる特徴について(従って、どんな前処
理動作が適切なのか)何も知らない場合でも、前処理を全く行なわずに(即ち、
「生の」入力データを用いて)本装置を用いることができる。
【0052】 適応型特徴利用型パターン認識の当業者は、一連の入力信号26を生成し、こ
れらをデジタル・コンピュータを用いた認識装置に一連のベクトル値として提示
する方法については、精通しているであろう。従って、ここでは、入力信号26
が変数INPUT[]として得られるとだけ仮定する。尚、変換(前処理を含む
)はオフラインで行なってもよいことを注記しておく。即ち、変換が或る時点で
行われて格納データを生成する限り、認識および/または学習は、格納データか
ら得られた入力信号26について実行することができる。
れらをデジタル・コンピュータを用いた認識装置に一連のベクトル値として提示
する方法については、精通しているであろう。従って、ここでは、入力信号26
が変数INPUT[]として得られるとだけ仮定する。尚、変換(前処理を含む
)はオフラインで行なってもよいことを注記しておく。即ち、変換が或る時点で
行われて格納データを生成する限り、認識および/または学習は、格納データか
ら得られた入力信号26について実行することができる。
【0053】 変数INPUT[]は、0/1値を有する二進数であると仮定する。必要であ
れば、アルバスの方法(Albus Method)(バイト・マガジン(BY
TE magazine)、1979年7月、61ページ、ジェームス・アルバ
ス(James Albus))またはその他のかかる公知の方法を用いて、ア
ナログ情報を二進数に変換することも可能である。本好適な実施形態には、アナ
ログ入力に対して作用する単純な拡張版があると考えるが、これらを試験してい
ないので、二進表現の方が好ましい。
れば、アルバスの方法(Albus Method)(バイト・マガジン(BY
TE magazine)、1979年7月、61ページ、ジェームス・アルバ
ス(James Albus))またはその他のかかる公知の方法を用いて、ア
ナログ情報を二進数に変換することも可能である。本好適な実施形態には、アナ
ログ入力に対して作用する単純な拡張版があると考えるが、これらを試験してい
ないので、二進表現の方が好ましい。
【0054】 作用部 認識プロセスの最終段は、作用部(effector)38によって処理され
る。作用部38は、ベクトル・コンピュータ変数OUTPUT[]の形態で出力
信号36を取り込み、システムの環境20において(学習後)現入力信号26に
対してできるだけ適切なアクション70を生成する。変換と同様に、この段は従
来技術において周知であるので、ここでは詳しく説明しない。作用部の例には、
ロボットのギア、交通信号灯、スピーカ、またはデジタル記憶デバイスがある。
異なる種類の作用部の組み合わせも使用可能な場合がある。デジタル記憶型の作
用部の1つの使用は、今後の使用のために出力信号36を格納することである。
かかる記憶によって、例えば、(恐らくハイパーテキスト文書の)データベース
を実現する際に本発明が使用できるようになり、今後のクエリ(問い合わせ)が
、デジタル的に格納されている出力に、アクセスすることになろう。かかる実施
形態では、作用部38は、例えば、入力信号26のコピーを、出力信号36を通
じて分類部34から得た推定クラス・ラベルと共に格納することができる。
る。作用部38は、ベクトル・コンピュータ変数OUTPUT[]の形態で出力
信号36を取り込み、システムの環境20において(学習後)現入力信号26に
対してできるだけ適切なアクション70を生成する。変換と同様に、この段は従
来技術において周知であるので、ここでは詳しく説明しない。作用部の例には、
ロボットのギア、交通信号灯、スピーカ、またはデジタル記憶デバイスがある。
異なる種類の作用部の組み合わせも使用可能な場合がある。デジタル記憶型の作
用部の1つの使用は、今後の使用のために出力信号36を格納することである。
かかる記憶によって、例えば、(恐らくハイパーテキスト文書の)データベース
を実現する際に本発明が使用できるようになり、今後のクエリ(問い合わせ)が
、デジタル的に格納されている出力に、アクセスすることになろう。かかる実施
形態では、作用部38は、例えば、入力信号26のコピーを、出力信号36を通
じて分類部34から得た推定クラス・ラベルと共に格納することができる。
【0055】 実験に関する注意 適応型パターン認識を最適に使用するには、或る量の実験が本来あるべきであ
る。何故なら、パターン・ドメインが完全に理解されることは決してないからで
ある(さもなければ、第1に適応型システムが必要とされることはない)。従っ
て、適応型パターン認識装置は、解決策自体というよりはむしろ、問題を解決す
るツールとして見なすのが最良である。しかしながら、適度な実験的技法によっ
て、完全に最適化した認識装置と実用上最適化した装置との性能ギャップは、遥
かに小さくすることができる。更に、最適化が極僅かな認識装置のアーキテクチ
ャであっても、一旦訓練すれば、多くの場合あらゆる既存の解決策を凌駕するこ
とができ、「非最適」ではあるものの、非常に価値のあるものとすることができ
る。
る。何故なら、パターン・ドメインが完全に理解されることは決してないからで
ある(さもなければ、第1に適応型システムが必要とされることはない)。従っ
て、適応型パターン認識装置は、解決策自体というよりはむしろ、問題を解決す
るツールとして見なすのが最良である。しかしながら、適度な実験的技法によっ
て、完全に最適化した認識装置と実用上最適化した装置との性能ギャップは、遥
かに小さくすることができる。更に、最適化が極僅かな認識装置のアーキテクチ
ャであっても、一旦訓練すれば、多くの場合あらゆる既存の解決策を凌駕するこ
とができ、「非最適」ではあるものの、非常に価値のあるものとすることができ
る。
【0056】 一般に、本好適な実施形態に適した実験的技法は、適応型パターン認識の当業
者が熟知しているものと同一である。ここで、本好適な実施形態に関して、どこ
で特別な考慮をすべきかについて指摘する。脳の理論およびニューラル・ネット
ワークのハンドブック(Handbook of Brain Theory
and Neural Networks)(Arbib,ed.,MIT P
ress,Cambridge,MA)は、適応型パターン認識に関係する技法
についての非常に総合的な参考書であり、関係する従来技術の参考文献に対する
数多くの引用も含む。伝播および無監視学習(unsupervised le
arning)に言及する章は特に関連があり、他の関連資料も指摘している。
このような参考文献は、未だ知られていないのであれば、適切な実験的技法につ
いて学習するために用いるべきであろう。
者が熟知しているものと同一である。ここで、本好適な実施形態に関して、どこ
で特別な考慮をすべきかについて指摘する。脳の理論およびニューラル・ネット
ワークのハンドブック(Handbook of Brain Theory
and Neural Networks)(Arbib,ed.,MIT P
ress,Cambridge,MA)は、適応型パターン認識に関係する技法
についての非常に総合的な参考書であり、関係する従来技術の参考文献に対する
数多くの引用も含む。伝播および無監視学習(unsupervised le
arning)に言及する章は特に関連があり、他の関連資料も指摘している。
このような参考文献は、未だ知られていないのであれば、適切な実験的技法につ
いて学習するために用いるべきであろう。
【0057】 好適な実施形態1 アーキテクチャ図およびフロー図 第1の好適な実施形態について、図3ないし図9を参照しながら説明する。図
3は、図1よりも更に詳細に第1の好適な実施形態の構造を示す。環境20、変
換部24、および作用部38は、明確化のために図3では除外してある。図4は
、図2よりも更に詳細にソフトウエアの実施のアウトラインを示すフロー・チャ
ートであり、図5ないし図9は、含まれるステップの更に詳細なフロー・チャー
トである。
3は、図1よりも更に詳細に第1の好適な実施形態の構造を示す。環境20、変
換部24、および作用部38は、明確化のために図3では除外してある。図4は
、図2よりも更に詳細にソフトウエアの実施のアウトラインを示すフロー・チャ
ートであり、図5ないし図9は、含まれるステップの更に詳細なフロー・チャー
トである。
【0058】 理論 第1の好適な実施形態は、いわゆる「ノイジーOR(noisy−OR)」ニ
ューラル・ネットワーク・アーキテクチャを利用する。ラドフォードM.ニール
(Radford M.Neal)がかかるネットワークの理論に関する優れた
記述を行なっており、更に参考文献(「ビリーフ・ネットワークのコネクショニ
スト学習(Connectionist learning of belie
f networks)」、アーティフィシャル・インテリジェンス(Arti
ficial Intelligence)56、1992年、71〜113ペ
ージ)も提示している。これらの参考文献は、学習手順に関することを除いて、
ここで説明すること以外の必要なあらゆる背景を得るために用いるとよい。本学
習手順は、ニールが記載するものとは異なる。ノイジーORネットワークに関す
る別の説明が、ジャーッコラ(Jaakkola)およびジョーダン(Jord
an)によって行われている(AIにおける不確実性についての第20回学会会
報(Proceedings of the Twelfth Confere
ce on Uncertainty in AI)における「イントラクタブ
ルなネットワークにおける尤度に関する上限および下限の計算(Computi
ng upper and lower bounds on likelih
ood in intractable networks))。
ューラル・ネットワーク・アーキテクチャを利用する。ラドフォードM.ニール
(Radford M.Neal)がかかるネットワークの理論に関する優れた
記述を行なっており、更に参考文献(「ビリーフ・ネットワークのコネクショニ
スト学習(Connectionist learning of belie
f networks)」、アーティフィシャル・インテリジェンス(Arti
ficial Intelligence)56、1992年、71〜113ペ
ージ)も提示している。これらの参考文献は、学習手順に関することを除いて、
ここで説明すること以外の必要なあらゆる背景を得るために用いるとよい。本学
習手順は、ニールが記載するものとは異なる。ノイジーORネットワークに関す
る別の説明が、ジャーッコラ(Jaakkola)およびジョーダン(Jord
an)によって行われている(AIにおける不確実性についての第20回学会会
報(Proceedings of the Twelfth Confere
ce on Uncertainty in AI)における「イントラクタブ
ルなネットワークにおける尤度に関する上限および下限の計算(Computi
ng upper and lower bounds on likelih
ood in intractable networks))。
【0059】 ノイジーORネットワークは、二進(好ましくは0/1)ユニット、即ち、ニ
ューロンを用い、いわゆるノイジーOR機能に従って活性化される。この方法に
よれば、ユニットjの「発火」(値1を有する)がユニットiも発火させる確率
を表す、ユニットiおよびjの各対毎の量p[i][j]がある。(ニールは、
代わりに、値q[i][j]を用いて作業を行い、そこでは、q[i][j]=
1−p[i][j]である。)また、潜在的に、各ユニット毎に「バイアス」値
がある。これは、本質的に、常にオン(発火)である仮説的ユニットからのコネ
クション(接続)である。しかしながら、好適な実施形態は、最上位ユニットに
ついてのみ、バイアス重みを用いる。
ューロンを用い、いわゆるノイジーOR機能に従って活性化される。この方法に
よれば、ユニットjの「発火」(値1を有する)がユニットiも発火させる確率
を表す、ユニットiおよびjの各対毎の量p[i][j]がある。(ニールは、
代わりに、値q[i][j]を用いて作業を行い、そこでは、q[i][j]=
1−p[i][j]である。)また、潜在的に、各ユニット毎に「バイアス」値
がある。これは、本質的に、常にオン(発火)である仮説的ユニットからのコネ
クション(接続)である。しかしながら、好適な実施形態は、最上位ユニットに
ついてのみ、バイアス重みを用いる。
【0060】 好適な実施形態では、ユニットは階層状に配列されており、最下位レイヤ(層
)は入力パターン(即ち、入力信号26に対応する)を表す。かかるネットワー
クの目標は、パターン・ドメインの内部モデルを学習することである。これを、
「無監視(教師なしの)」学習(“unsupervised” learni
ng)とも呼ぶ。内部モデルは、「パターン発生器」とも見なすことができ、入
力パターン空間に対する確率分布を表す。理想的には、訓練したノイジーORネ
ットワークは、訓練パターンの分布に非常に密接に一致する分布を有するパター
ンをランダムに発生するために用いることができる。この種のネットワークをパ
ターン発生器と見なすことは至極当然であるので、コネクションは、ネットワー
クにおける最上部から最下部に向かうと言われる。しかしながら、実際には、デ
ータはコネクションに沿って双方向に流れる。
)は入力パターン(即ち、入力信号26に対応する)を表す。かかるネットワー
クの目標は、パターン・ドメインの内部モデルを学習することである。これを、
「無監視(教師なしの)」学習(“unsupervised” learni
ng)とも呼ぶ。内部モデルは、「パターン発生器」とも見なすことができ、入
力パターン空間に対する確率分布を表す。理想的には、訓練したノイジーORネ
ットワークは、訓練パターンの分布に非常に密接に一致する分布を有するパター
ンをランダムに発生するために用いることができる。この種のネットワークをパ
ターン発生器と見なすことは至極当然であるので、コネクションは、ネットワー
クにおける最上部から最下部に向かうと言われる。しかしながら、実際には、デ
ータはコネクションに沿って双方向に流れる。
【0061】 かかるネットワークでは、認識は少なくとも2つの基本的な方法で行なうこと
ができる。第1に、ネットワークに、部分的な入力パターン、および欠落した入
力値を埋めるために用いられるその内部モデルを与えることができる(訓練中に
は、入力パターンにこれら値の欠落はなかったと仮定する)。欠落値は、クラス
・ラベルを表す可能性もあり、その場合、ネットワークを分類に用いることがで
きる。尚、分類学習は多くの場合「監視」学習(“supervised” l
earning)と見なされるが、しかしながら、いわゆる無監視の手順でも、
同様のタスクを実行するように形成することができることを注記しておく。
ができる。第1に、ネットワークに、部分的な入力パターン、および欠落した入
力値を埋めるために用いられるその内部モデルを与えることができる(訓練中に
は、入力パターンにこれら値の欠落はなかったと仮定する)。欠落値は、クラス
・ラベルを表す可能性もあり、その場合、ネットワークを分類に用いることがで
きる。尚、分類学習は多くの場合「監視」学習(“supervised” l
earning)と見なされるが、しかしながら、いわゆる無監視の手順でも、
同様のタスクを実行するように形成することができることを注記しておく。
【0062】 本好適な方法である、かかるネットワークを用いて認識を行なう第2の方法は
、図3に示すように、別個のクラスのネットワーク50[c]を用いて各クラス
をモデル化することである。認識時に、入力パターンを各クラス・ネットワーク
50[c]に提示し、各々を、ネットワークが入力パターンを発生する確率を表
す尤度値を生成するために用いる。これらの尤度値は、分類部34によって計算
される。分類部34は、クラス・ネットワーク50から、特徴アクティビティ信
号30、ならびにネットワーク重み値および非隠れユニット(non−hidd
en unit)のアクティビティというような、尤度を計算するために必要な
他の情報を受け取る。分類部34は、これらの尤度値を(公知のベイズ規則を用
いて)以前のクラス確率と組み合わせ、(相対的な)後クラス確率情報を得る。
この情報から、最も確率の高いクラスのインデックスを計算し、出力信号26を
通じてこれを伝達する。なお、この実施形態では、あらゆるネットワークにおけ
るあらゆる隠れユニットを、特徴検出部28の1つと見なせることを注記してお
く。
、図3に示すように、別個のクラスのネットワーク50[c]を用いて各クラス
をモデル化することである。認識時に、入力パターンを各クラス・ネットワーク
50[c]に提示し、各々を、ネットワークが入力パターンを発生する確率を表
す尤度値を生成するために用いる。これらの尤度値は、分類部34によって計算
される。分類部34は、クラス・ネットワーク50から、特徴アクティビティ信
号30、ならびにネットワーク重み値および非隠れユニット(non−hidd
en unit)のアクティビティというような、尤度を計算するために必要な
他の情報を受け取る。分類部34は、これらの尤度値を(公知のベイズ規則を用
いて)以前のクラス確率と組み合わせ、(相対的な)後クラス確率情報を得る。
この情報から、最も確率の高いクラスのインデックスを計算し、出力信号26を
通じてこれを伝達する。なお、この実施形態では、あらゆるネットワークにおけ
るあらゆる隠れユニットを、特徴検出部28の1つと見なせることを注記してお
く。
【0063】 個別ネットワーク手法は、特徴検出部を異なるクラスで共有できないという欠
点がある。しかしながら、これは、分類タスクに関連のある特徴をネットワーク
にいかに学習させるかという、欠落値の手法に伴う問題を回避する。
点がある。しかしながら、これは、分類タスクに関連のある特徴をネットワーク
にいかに学習させるかという、欠落値の手法に伴う問題を回避する。
【0064】 認識の間、入力信号26は、各クラス・ネットワーク50[c]に提示され、
前述のように分類部34によってクラス尤度値が計算される。しかしながら、学
習の間、入力信号26は、入力パターンの(既知の)ターゲット・クラスに対応
するクラス・ネットワーク50[cTarget]にのみ提示される。同様に、
現パターンに対して、ターゲット・ネットワークのみを訓練する。全てのクラス
・ネットワーク50は同様に動作するので、ネットワーク・インデックスは、重
要でない場合、ここでは明確化のために図示を控える。
前述のように分類部34によってクラス尤度値が計算される。しかしながら、学
習の間、入力信号26は、入力パターンの(既知の)ターゲット・クラスに対応
するクラス・ネットワーク50[cTarget]にのみ提示される。同様に、
現パターンに対して、ターゲット・ネットワークのみを訓練する。全てのクラス
・ネットワーク50は同様に動作するので、ネットワーク・インデックスは、重
要でない場合、ここでは明確化のために図示を控える。
【0065】 認識および学習は、双方共、推論プロセスを必要とし、それにより、ネットワ
ーク50[c]はその内部モデルを現入力データ(現入力信号26で表す)に当
て嵌める。ノイジーORネットワークの典型的な従来技術の実施では、ある種の
反復推論プロセスを用い、それにおいては、多数の「活性化サイクル」、または
ユニット活性化の更新を実行する。ここでの好適な推論プロセスも、この種のも
のである。この推論プロセスの2つの結果は特に重要である。第1に、(理想的
には)ネットワークが現入力を生成する確率を表す尤度値を生成する。この尤度
値は、分類を容易にするために、分類部34によって計算する。第2に、推論プ
ロセスは、特徴検出部28から入力パーツへのマッピングを生成する。この場合
、各非入力ユニットは特徴検出部28[m]であり、ユニットに対応する「入力
パーツ」は、当該ユニットが生成に「関与する」(responsible)と
判断されたレイヤにおける活性化パターンのパーツである(ネットワークをパタ
ーン発生器と見なしていることを念頭に入れておくこと)。
ーク50[c]はその内部モデルを現入力データ(現入力信号26で表す)に当
て嵌める。ノイジーORネットワークの典型的な従来技術の実施では、ある種の
反復推論プロセスを用い、それにおいては、多数の「活性化サイクル」、または
ユニット活性化の更新を実行する。ここでの好適な推論プロセスも、この種のも
のである。この推論プロセスの2つの結果は特に重要である。第1に、(理想的
には)ネットワークが現入力を生成する確率を表す尤度値を生成する。この尤度
値は、分類を容易にするために、分類部34によって計算する。第2に、推論プ
ロセスは、特徴検出部28から入力パーツへのマッピングを生成する。この場合
、各非入力ユニットは特徴検出部28[m]であり、ユニットに対応する「入力
パーツ」は、当該ユニットが生成に「関与する」(responsible)と
判断されたレイヤにおける活性化パターンのパーツである(ネットワークをパタ
ーン発生器と見なしていることを念頭に入れておくこと)。
【0066】 好適な推論プロセスは、ギッブスのサンプリングであり、従来技術では公知の
技法である。これは統計に基づくプロセスであり、ユニットのアクティビティ状
態(オンまたはオフ)の連続するランダム・サンプリングを伴う。各ユニットを
順番に巡り、そのアクティビティを、ネットワークにおける他の全ユニットの現
状態に依存する分散から選択する。このプロセスが「十分長く」実行される場合
、ネットワーク状態の分散は、ネットワークの入力データが与えられると、それ
らの尤度、即ち、それらの個々の確率を反映することになる。幾つかのかかる状
態の平均は、従って、ネットワーク・モデルの全体的な尤度の推定値を与えるこ
とができる。
技法である。これは統計に基づくプロセスであり、ユニットのアクティビティ状
態(オンまたはオフ)の連続するランダム・サンプリングを伴う。各ユニットを
順番に巡り、そのアクティビティを、ネットワークにおける他の全ユニットの現
状態に依存する分散から選択する。このプロセスが「十分長く」実行される場合
、ネットワーク状態の分散は、ネットワークの入力データが与えられると、それ
らの尤度、即ち、それらの個々の確率を反映することになる。幾つかのかかる状
態の平均は、従って、ネットワーク・モデルの全体的な尤度の推定値を与えるこ
とができる。
【0067】 本実施形態の利点の1つは、推論プロセスが反復であり、フィードバックを組
み込んでいることである。このために、多数の隠れレイヤを用いる場合、上位レ
イヤは、下位レイヤ・ユニットをいかに活性化するかについて影響を及ぼすこと
ができるという効果がある。かかるトップ−ダウンの影響により、認識全体の柔
軟性向上および高精度化を得ることが可能となる。しかしながら、この特別なパ
ワーは相当の代償を払うことになる。即ち、厳格なフィードフォワードの方法と
比較すると、必要な処理時間が長くなる。この特別な処理は、しかしながら、繰
り返しによって生ずる変化がある評価基準未満となったときに、繰り返しを停止
することによって、極力削減することができる。
み込んでいることである。このために、多数の隠れレイヤを用いる場合、上位レ
イヤは、下位レイヤ・ユニットをいかに活性化するかについて影響を及ぼすこと
ができるという効果がある。かかるトップ−ダウンの影響により、認識全体の柔
軟性向上および高精度化を得ることが可能となる。しかしながら、この特別なパ
ワーは相当の代償を払うことになる。即ち、厳格なフィードフォワードの方法と
比較すると、必要な処理時間が長くなる。この特別な処理は、しかしながら、繰
り返しによって生ずる変化がある評価基準未満となったときに、繰り返しを停止
することによって、極力削減することができる。
【0068】 また、ギッブスのサンプリングは、学習の目的にも用いられる。ネットワーク
の各状態毎に、確実度(responsibility)値r[i][j]を、
ユニットiおよびjの各対毎に計算することができる。これは、ユニットjがユ
ニットiを発火させる確実度を表す。尚、r[i][j]は、前述の値p[i]
[j]とは同一でないことを注記しておく。p[i][j]は、仮説的な確率で
あり、ユニットjが発火する場合にユニットiが発火する確率である。一方、値
r[i][j]は、特定のインスタンス化されたネットワーク状態が与えられた
場合に、ユニットjが実際にユニットiに対して有する効果を表す。
の各状態毎に、確実度(responsibility)値r[i][j]を、
ユニットiおよびjの各対毎に計算することができる。これは、ユニットjがユ
ニットiを発火させる確実度を表す。尚、r[i][j]は、前述の値p[i]
[j]とは同一でないことを注記しておく。p[i][j]は、仮説的な確率で
あり、ユニットjが発火する場合にユニットiが発火する確率である。一方、値
r[i][j]は、特定のインスタンス化されたネットワーク状態が与えられた
場合に、ユニットjが実際にユニットiに対して有する効果を表す。
【0069】 2つの接続されたユニットのレイヤに対する確実度値のアレイはセグメンテー
ション(segmentation、切り出し)を構成する。これは、下位レイ
ヤ・アクティビティのどの「部分」が、上位レイヤにおけるどのユニットと「関
係(go with)」するかについて示すものである。上位レイヤにおける各
ユニットは、(インアクティブでない限り)下位レイヤにおけるアクティビティ
の或る部分に対する責任を負うと判断される(インアクティブの場合、何れにも
責任がない)。上位レイヤのユニットを特徴発生器と見なすと、確実度は、どの
特徴が発生して下位レイヤのアクティビティが生じたのかを示し、かつどのユニ
ットがどの特徴を発生したのかについて示す。また、ユニットも、勿論、特徴検
出部として見なすことができ、所与の特徴に対するユニットの優先度は、その特
徴を発生するその確率に直接関係する。また、下位のレイヤにおける所与の「オ
ン」ユニットに対する確実度を、複数のユニットが共有できることも注記してお
く。1つのユニットのみに「オン」ユニットに対する責任をもつことが許される
「ハード・セグメンテーション」に対して、これを「ソフト・セグメンテーショ
ン」と呼ぶ。
ション(segmentation、切り出し)を構成する。これは、下位レイ
ヤ・アクティビティのどの「部分」が、上位レイヤにおけるどのユニットと「関
係(go with)」するかについて示すものである。上位レイヤにおける各
ユニットは、(インアクティブでない限り)下位レイヤにおけるアクティビティ
の或る部分に対する責任を負うと判断される(インアクティブの場合、何れにも
責任がない)。上位レイヤのユニットを特徴発生器と見なすと、確実度は、どの
特徴が発生して下位レイヤのアクティビティが生じたのかを示し、かつどのユニ
ットがどの特徴を発生したのかについて示す。また、ユニットも、勿論、特徴検
出部として見なすことができ、所与の特徴に対するユニットの優先度は、その特
徴を発生するその確率に直接関係する。また、下位のレイヤにおける所与の「オ
ン」ユニットに対する確実度を、複数のユニットが共有できることも注記してお
く。1つのユニットのみに「オン」ユニットに対する責任をもつことが許される
「ハード・セグメンテーション」に対して、これを「ソフト・セグメンテーショ
ン」と呼ぶ。
【0070】 学習は、ユニットjのp[][j]値を、ユニットjの対応するr[][j]
値の方へ移動させることによって行われる。言い換えると、ユニットjの確実度
のベクトルを、それが責任を負う入力の「部分」として見なすことができ、更に
その出力する重みのベクトル(p[][j]値)をその優先特徴と見なすことが
できる。すると、これらの項において、学習手順は、ユニットjの優先特徴を、
それが割り当てられた入力部分に直接的に更に類似させる。この方法の詳細につ
いては以下で示す。
値の方へ移動させることによって行われる。言い換えると、ユニットjの確実度
のベクトルを、それが責任を負う入力の「部分」として見なすことができ、更に
その出力する重みのベクトル(p[][j]値)をその優先特徴と見なすことが
できる。すると、これらの項において、学習手順は、ユニットjの優先特徴を、
それが割り当てられた入力部分に直接的に更に類似させる。この方法の詳細につ
いては以下で示す。
【0071】 尚、この実施形態では、ネットワーク50は特徴検出部28(即ち、「隠れユ
ニット」−おそらく、それらの多数のレイヤ)を含むだけでなく、ネットワーク
50はメモリ40を実施するためにも用いられることを注記しておく。これは、
この種の非監視ネットワークを用いることによる有益な成果である。何故なら、
用いているノイジーORネットワークは、その入力環境をモデル化するように設
計されているので、本質的に、それを訓練した環境からの過去の入力の(損失性
)メモリである。更に、ユニットのレイヤが多数ある場合、これらも適切な種類
の多数のメモリとして動作可能である。各ユニットのレイヤ、およびその下位に
あるレイヤへの接続が、その下位レイヤにおけるアクティビティのパターンのた
めのメモリを実現する。図3は、2つのサブシステム間における双方向のデータ
・フロー矢印によって、メモリ40を実現する際におけるネットワーク50の使
用を示す。
ニット」−おそらく、それらの多数のレイヤ)を含むだけでなく、ネットワーク
50はメモリ40を実施するためにも用いられることを注記しておく。これは、
この種の非監視ネットワークを用いることによる有益な成果である。何故なら、
用いているノイジーORネットワークは、その入力環境をモデル化するように設
計されているので、本質的に、それを訓練した環境からの過去の入力の(損失性
)メモリである。更に、ユニットのレイヤが多数ある場合、これらも適切な種類
の多数のメモリとして動作可能である。各ユニットのレイヤ、およびその下位に
あるレイヤへの接続が、その下位レイヤにおけるアクティビティのパターンのた
めのメモリを実現する。図3は、2つのサブシステム間における双方向のデータ
・フロー矢印によって、メモリ40を実現する際におけるネットワーク50の使
用を示す。
【0072】 実施態様 前述のように、第1実施形態の中核は、汎用デジタル・コンピュータ上にソフ
トウエアで実現する。従って、図3の構造に関するサブシステムの説明と、具体
的な実現に関する説明との間には、概念的マッピングが存在する。このマッピン
グは次の通りである。
トウエアで実現する。従って、図3の構造に関するサブシステムの説明と、具体
的な実現に関する説明との間には、概念的マッピングが存在する。このマッピン
グは次の通りである。
【0073】 入力信号26は、変数INPUT[]の格納およびコンピュータ・メモリから
の後の検索によって実現される(「コンピュータ・メモリ」という用語を「メモ
リ40」と混同しないよう注記しておくが、勿論、前者は後者を実現するために
用いられる)。特徴検出部28は、ネットワーク50の隠れユニット全てを含む
。所与のネットワークに対する特徴検出部28の優先特徴は、コンピュータ・メ
モリにアレイ変数WEIGHT[][][]として格納される。特徴記述信号3
2は、WEIGHTアレイの適切な要素の格納およびコンピュータ・メモリから
の検索によって実現する。特徴アクティビティ信号30は、アレイACT[][
]の格納および検索によって実現する。特徴検出部28の実現は、ギッブスのサ
ンプリングを用いてACT[][]の要素を計算するプログラム・コードを含む
。分類部34は、変数OUTPUTの値を計算するプログラム・コードによって
実現する。これは、個々のネットワークの尤度を計算するコードを含み、これら
を組み合わせてOUTPUTを生成する。OUTPUTの格納および検索によっ
て、出力信号36を実現する。
の後の検索によって実現される(「コンピュータ・メモリ」という用語を「メモ
リ40」と混同しないよう注記しておくが、勿論、前者は後者を実現するために
用いられる)。特徴検出部28は、ネットワーク50の隠れユニット全てを含む
。所与のネットワークに対する特徴検出部28の優先特徴は、コンピュータ・メ
モリにアレイ変数WEIGHT[][][]として格納される。特徴記述信号3
2は、WEIGHTアレイの適切な要素の格納およびコンピュータ・メモリから
の検索によって実現する。特徴アクティビティ信号30は、アレイACT[][
]の格納および検索によって実現する。特徴検出部28の実現は、ギッブスのサ
ンプリングを用いてACT[][]の要素を計算するプログラム・コードを含む
。分類部34は、変数OUTPUTの値を計算するプログラム・コードによって
実現する。これは、個々のネットワークの尤度を計算するコードを含み、これら
を組み合わせてOUTPUTを生成する。OUTPUTの格納および検索によっ
て、出力信号36を実現する。
【0074】 メモリ40は、ギッブスのサンプリングを実行して有望ネットワーク(ACT
[][])状態を導き出すコードを含む。検索信号68の実現は、ネットワーク
・ユニットに対するPROBOFF変数の格納および検索を含む。メモリ40は
、検索信号68(PROBOFF値)を計算する際に特徴アクティビティ信号3
0を利用する。以下で詳しく述べるが、所与のレイヤに対するPROBOFF値
は、上位レイヤにおける特徴検出部28からのWEIGHT値の(特定の種類の
)組み合わせである。従って、メモリ40は損失性メモリである。何故なら、W
EIGHT値は、一般に、情報の一部を損失せずに任意の数のパターンを格納す
ることができないからである。
[][])状態を導き出すコードを含む。検索信号68の実現は、ネットワーク
・ユニットに対するPROBOFF変数の格納および検索を含む。メモリ40は
、検索信号68(PROBOFF値)を計算する際に特徴アクティビティ信号3
0を利用する。以下で詳しく述べるが、所与のレイヤに対するPROBOFF値
は、上位レイヤにおける特徴検出部28からのWEIGHT値の(特定の種類の
)組み合わせである。従って、メモリ40は損失性メモリである。何故なら、W
EIGHT値は、一般に、情報の一部を損失せずに任意の数のパターンを格納す
ることができないからである。
【0075】 割当部66は、ネットワーク・コネクションに対する確実度を計算するコード
によって実現される。このコードは、以下で説明するように、暗示的に確実度を
計算する、図9の重み更新コードの一部である。パーツ・マッピング信号44は
、図9の重み更新コード内の一時的格納によって実現される。このコード・ブロ
ックは、更新部42も実現する。ターゲット信号46は、現物理パターン22の
ターゲット・クラスを示す、TARGETと呼ぶ変数によって実現される。
によって実現される。このコードは、以下で説明するように、暗示的に確実度を
計算する、図9の重み更新コードの一部である。パーツ・マッピング信号44は
、図9の重み更新コード内の一時的格納によって実現される。このコード・ブロ
ックは、更新部42も実現する。ターゲット信号46は、現物理パターン22の
ターゲット・クラスを示す、TARGETと呼ぶ変数によって実現される。
【0076】 アーキテクチャおよびパラメータの選択 システム・アーキテクチャの或る面は、解決すべき問題によって決定される。
ネットワークの数Cは、認識すべきクラスの数に等しい(例えば、英字の小文字
を認識する場合、Cは26である)。入力ユニットの数(最下位レイヤにおける
入力ユニット)は、通常では各ネットワーク毎に同一であり、選択した入力表現
によって決定される。この表現は0/1の二進数には好ましいが、それ以外は、
その組成は設計者に委ねられることを思い出されたい。適切な入力表現の作成は
、従来技術のパターン認識に関する文献における共通のタスクである。
ネットワークの数Cは、認識すべきクラスの数に等しい(例えば、英字の小文字
を認識する場合、Cは26である)。入力ユニットの数(最下位レイヤにおける
入力ユニット)は、通常では各ネットワーク毎に同一であり、選択した入力表現
によって決定される。この表現は0/1の二進数には好ましいが、それ以外は、
その組成は設計者に委ねられることを思い出されたい。適切な入力表現の作成は
、従来技術のパターン認識に関する文献における共通のタスクである。
【0077】 アーキテクチャの他の面は、高度な推定、および恐らく最適な性能を達成する
ための実験を必要とする。この場合も、これは従来技術の装置の特徴でもある。
例えば、各ネットワーク内のユニットのレイヤの数を変更することができる。こ
こでは、2レイヤおよび3レイヤのネットワークでのみ、実験を行なった(即ち
、1レイヤおよび2レイヤのコネクション)。しかし、これよりも多いレイヤで
は良い結果が得られないと考える理由がない。実際に、生の画像のように、入力
ドメインが大量の冗長性を含む多くの問題では、レイヤが多い程有効であると考
える。これを、限定した受入フィールドの使用と組み合わせることにより(今日
ではニューラル・ネットワークの文献では周知の技法である)、恐らく特に有用
となろう。一般的な規則として、入力された特徴に関してクラスを記述するのが
困難な程(人にとっては)、追加のレイヤを有するほど一層役に立つ。しかしな
がら、2レイヤ・ネットワークがなおも好ましく、実験的リソース(exper
imental resource)が許す場合にのみ、より多くのレイヤを追
加する。これによって、この中での命名法の理解が簡単にされる。一つの隠れレ
イヤの活性化は、特徴アクティビティ信号30によって表わされる。即ち、隠れ
ユニットは特徴検出部28に対応し、入力ユニットは入力信号26の要素を受け
取る。この説明では、レイヤ数を変数と見なしているが(NUMLAYERS)
、追加のレイヤを用いた実験を簡単にするためである。
ための実験を必要とする。この場合も、これは従来技術の装置の特徴でもある。
例えば、各ネットワーク内のユニットのレイヤの数を変更することができる。こ
こでは、2レイヤおよび3レイヤのネットワークでのみ、実験を行なった(即ち
、1レイヤおよび2レイヤのコネクション)。しかし、これよりも多いレイヤで
は良い結果が得られないと考える理由がない。実際に、生の画像のように、入力
ドメインが大量の冗長性を含む多くの問題では、レイヤが多い程有効であると考
える。これを、限定した受入フィールドの使用と組み合わせることにより(今日
ではニューラル・ネットワークの文献では周知の技法である)、恐らく特に有用
となろう。一般的な規則として、入力された特徴に関してクラスを記述するのが
困難な程(人にとっては)、追加のレイヤを有するほど一層役に立つ。しかしな
がら、2レイヤ・ネットワークがなおも好ましく、実験的リソース(exper
imental resource)が許す場合にのみ、より多くのレイヤを追
加する。これによって、この中での命名法の理解が簡単にされる。一つの隠れレ
イヤの活性化は、特徴アクティビティ信号30によって表わされる。即ち、隠れ
ユニットは特徴検出部28に対応し、入力ユニットは入力信号26の要素を受け
取る。この説明では、レイヤ数を変数と見なしているが(NUMLAYERS)
、追加のレイヤを用いた実験を簡単にするためである。
【0078】 各(非入力)レイヤにおけるユニット数も、実施形態のパラメータである。こ
れは従来技術のニューラル・ネットワークの場合と同様である。試される最初の
値は、入力ドメインにおける独立した特徴の数における最良の推定でなければな
らない(ここでは「入力ドメイン」は、次に低いレイヤのユニットのアクティビ
ティを意味する)。典型的な実験方法では、各隠れレイヤ毎に非常に小さな数の
ユニットから開始し、そして、(相互正当性実証データ集合に対して)訓練され
たシステムの性能が改善し、実験時間が許す限り、各訓練を実行した後に数を増
加させる。また、ユニット数が所与の下位レイヤから上位レイヤへと減少する場
合に、より良い全体的な性能が見出されることも典型的である。これは、非監視
ネットワークの1つのジョブは冗長性を除去することであり、冗長性が除去され
ると、同じ情報を表すのに必要なユニットが少なくて済むからである。
れは従来技術のニューラル・ネットワークの場合と同様である。試される最初の
値は、入力ドメインにおける独立した特徴の数における最良の推定でなければな
らない(ここでは「入力ドメイン」は、次に低いレイヤのユニットのアクティビ
ティを意味する)。典型的な実験方法では、各隠れレイヤ毎に非常に小さな数の
ユニットから開始し、そして、(相互正当性実証データ集合に対して)訓練され
たシステムの性能が改善し、実験時間が許す限り、各訓練を実行した後に数を増
加させる。また、ユニット数が所与の下位レイヤから上位レイヤへと減少する場
合に、より良い全体的な性能が見出されることも典型的である。これは、非監視
ネットワークの1つのジョブは冗長性を除去することであり、冗長性が除去され
ると、同じ情報を表すのに必要なユニットが少なくて済むからである。
【0079】 好適な実施形態は厳格に階層化されており、レイヤを「飛ばす」接続はないの
で、所与のネットワークに対する重み値を三次元マトリクスとして見なすと都合
が良い。その場合、最初のインデックスはレイヤ番号に対応し、2番目は受ける
側(下位レイヤ)のユニットに対応し、3番目は送る側(上位レイヤ)のユニッ
トに対応する。このため、変数WEIGHT[LAY][i][j]を用いて、
レイヤLAY+1のユニットjからレイヤLAYのユニットiまでの重み値を表
すことにする(レイヤには、入力レイヤに対して0から始まるインデックスを付
ける)。
で、所与のネットワークに対する重み値を三次元マトリクスとして見なすと都合
が良い。その場合、最初のインデックスはレイヤ番号に対応し、2番目は受ける
側(下位レイヤ)のユニットに対応し、3番目は送る側(上位レイヤ)のユニッ
トに対応する。このため、変数WEIGHT[LAY][i][j]を用いて、
レイヤLAY+1のユニットjからレイヤLAYのユニットiまでの重み値を表
すことにする(レイヤには、入力レイヤに対して0から始まるインデックスを付
ける)。
【0080】 トライアルの規制(パターン提示) 図4に示すように、学習および認識の過程全体を複数のトライアルに分割し、
各トライアルは、単一の入力パターンの提示を伴う。概して言えば、ユーザおよ
び対処すべき問題は、どのトライアルで学習および/または認識をイネーブルに
するかについて判定を行なう。認識は、学習が行われていない限り、非常に良い
訳はないことは明白である。しかしながら、好ましくは、分類エラーは、別個の
相互確認(相互正当性実証)データ集合での学習全体を通じて評価すべきであり
、相互確認エラーが底を打ち上昇し始めたときに学習(訓練データ集合に対して
行われるのであり、相互確認集合に対してではない)を終了することが好ましい
。この技法は、当技術分野では周知である。しかしながら、他の技法にも有用な
ものがある。例えば、装置の寿命全体にわたって学習をイネーブルし、恐らく非
静止的環境に対する連続的適応を可能とする場合もある(このような場合、しか
しながら、時間にわたって学習レートを低下させるのは不適切であり、これにつ
いては以下を参照のこと)。
各トライアルは、単一の入力パターンの提示を伴う。概して言えば、ユーザおよ
び対処すべき問題は、どのトライアルで学習および/または認識をイネーブルに
するかについて判定を行なう。認識は、学習が行われていない限り、非常に良い
訳はないことは明白である。しかしながら、好ましくは、分類エラーは、別個の
相互確認(相互正当性実証)データ集合での学習全体を通じて評価すべきであり
、相互確認エラーが底を打ち上昇し始めたときに学習(訓練データ集合に対して
行われるのであり、相互確認集合に対してではない)を終了することが好ましい
。この技法は、当技術分野では周知である。しかしながら、他の技法にも有用な
ものがある。例えば、装置の寿命全体にわたって学習をイネーブルし、恐らく非
静止的環境に対する連続的適応を可能とする場合もある(このような場合、しか
しながら、時間にわたって学習レートを低下させるのは不適切であり、これにつ
いては以下を参照のこと)。
【0081】 訓練パターンは独立して、学習すべき入力分布に応じて独立的かつランダムに
選択しなければならない。尚、メモリ40は、この実施形態では特徴検出部28
を用いて実現しており、最初はパターンを全く収容していないことを注記してお
く(しかしながら、初期ランダム重みは、仮説的格納パターンを表すものとして
見られることも可能である)。しかしながら、1回以上の訓練トライアルの後、
訓練されたパターンが概略的に格納されたと見なす。従って、これら格納された
パターンは、今後の訓練トライアルのための比較パターンとなり、今後の各入力
信号26内で有望特徴即ちパーツを発見する際に用いられる。
選択しなければならない。尚、メモリ40は、この実施形態では特徴検出部28
を用いて実現しており、最初はパターンを全く収容していないことを注記してお
く(しかしながら、初期ランダム重みは、仮説的格納パターンを表すものとして
見られることも可能である)。しかしながら、1回以上の訓練トライアルの後、
訓練されたパターンが概略的に格納されたと見なす。従って、これら格納された
パターンは、今後の訓練トライアルのための比較パターンとなり、今後の各入力
信号26内で有望特徴即ちパーツを発見する際に用いられる。
【0082】 学習の前に、Cの全てのネットワークの重み全て(p[i][j]値)を小さ
なランダム値に初期設定しなければならない。これらは、アレイ要素WEIGH
T[LAY][i][j]に格納される。好ましくは、これらは、0.02ない
し0.04の範囲内で均一にランダムとなるべきであるが、リソースが実験を許
すのであれば、これを実験的パラメータとすることも可能である。学習の間、重
みを0.01ないし0.99の範囲に維持することが好ましい(正常な重み更新
の後に、限度を超えるあらゆる重みを当該限度にリセットすることによる)。こ
れの目的は、過度に低い尤度のために学習が「行き詰まって」しまうのを防止す
るため、そして計算した確率が機械が表現可能な値を超過するのを防止するため
である。しかしながら、実験が可能であり、入力ドメインにおける重要な特徴が
この範囲を超える確率で発生することがわかっているか確信している場合には、
これらの限度を調節して補償しなければならない。
なランダム値に初期設定しなければならない。これらは、アレイ要素WEIGH
T[LAY][i][j]に格納される。好ましくは、これらは、0.02ない
し0.04の範囲内で均一にランダムとなるべきであるが、リソースが実験を許
すのであれば、これを実験的パラメータとすることも可能である。学習の間、重
みを0.01ないし0.99の範囲に維持することが好ましい(正常な重み更新
の後に、限度を超えるあらゆる重みを当該限度にリセットすることによる)。こ
れの目的は、過度に低い尤度のために学習が「行き詰まって」しまうのを防止す
るため、そして計算した確率が機械が表現可能な値を超過するのを防止するため
である。しかしながら、実験が可能であり、入力ドメインにおける重要な特徴が
この範囲を超える確率で発生することがわかっているか確信している場合には、
これらの限度を調節して補償しなければならない。
【0083】 各ユニットiに対して2つの変数COUNT[i]およびCOUNTBIAS
[i]があり、これらは訓練のトライアル回数をカウントするために用いられる
。これについては以下で更に説明する。これらは、いずれの訓練トライアルを行
なう前にも、ゼロに初期設定しなければならない。
[i]があり、これらは訓練のトライアル回数をカウントするために用いられる
。これについては以下で更に説明する。これらは、いずれの訓練トライアルを行
なう前にも、ゼロに初期設定しなければならない。
【0084】 訓練をイネーブルする各トライアル毎に、変数TARGETを現物理パターン
22に対するターゲット・クラスのインデックスにセットする。ネットワーク上
のループ(図4に示すようなもの)の間に試験を行い、現クラスcがTARGE
Tに等しいか否かについて判定を行なう。等しい場合、訓練を含む処理をネット
ワークc上で継続する。
22に対するターゲット・クラスのインデックスにセットする。ネットワーク上
のループ(図4に示すようなもの)の間に試験を行い、現クラスcがTARGE
Tに等しいか否かについて判定を行なう。等しい場合、訓練を含む処理をネット
ワークc上で継続する。
【0085】 サイクルの規制(ギッブスのサンプリングの繰り返し) 図4に示すように、各トライアルの重要な部分は、複数の「サイクル」に及ぶ
ループである。これは、イネーブルされたネットワーク毎に別個に行われる(訓
練のみがイネーブルされた場合はターゲット・クラス・ネットワークのみ、認識
がイネーブルされた場合には全てのクラス・ネットワークに対して行なう)。し
かしながら、プロセスは各ネットワーク毎に同一であるので、ここでは単一のネ
ットワークについて論ずることにする。
ループである。これは、イネーブルされたネットワーク毎に別個に行われる(訓
練のみがイネーブルされた場合はターゲット・クラス・ネットワークのみ、認識
がイネーブルされた場合には全てのクラス・ネットワークに対して行なう)。し
かしながら、プロセスは各ネットワーク毎に同一であるので、ここでは単一のネ
ットワークについて論ずることにする。
【0086】 各サイクルは、ネットワークの各ユニットの単一ギッブス・サンプリング、お
よび生成された活性化状態の尤度の計算を含む。また、各ユニット毎に2つの変
数、以下で述べるPROBOFFおよびNETOFFBELOWを、各サイクル
毎に更新する。訓練モードがイネーブルにされた場合、各サイクル毎に重みも更
新する。
よび生成された活性化状態の尤度の計算を含む。また、各ユニット毎に2つの変
数、以下で述べるPROBOFFおよびNETOFFBELOWを、各サイクル
毎に更新する。訓練モードがイネーブルにされた場合、各サイクル毎に重みも更
新する。
【0087】 読者は、従来技術の文献を参照してギッブスのサンプリングの背後にある理論
を検討すること。しかしながら、基本的な考えは、各ユニットの活性化が、他の
ユニット全ての現在の活性化に依存するその確率に従って周期的にサンプリング
されるということである。究極的に、この手順を用いると、ネットワーク状態全
体が、各々、ほぼ、その全体的な確率(インスタンス化されたネットワーク入力
に対する)に応じた頻度で発生する。これは有用な特性である。何故なら、所与
の入力に依存するネットワーク状態の確率を直接計算するのは、非常に難しい場
合が多いからである。
を検討すること。しかしながら、基本的な考えは、各ユニットの活性化が、他の
ユニット全ての現在の活性化に依存するその確率に従って周期的にサンプリング
されるということである。究極的に、この手順を用いると、ネットワーク状態全
体が、各々、ほぼ、その全体的な確率(インスタンス化されたネットワーク入力
に対する)に応じた頻度で発生する。これは有用な特性である。何故なら、所与
の入力に依存するネットワーク状態の確率を直接計算するのは、非常に難しい場
合が多いからである。
【0088】 ユニットの活性化をサンプリングする毎に、2つの値を計算しなければならな
い。即ち、ユニットが活性化0を有する場合には、ネットワーク全体の確率(他
のユニットの現在値全てが与えられる)、そしてユニットが活性化1を有する場
合には、ネットワークの確率を、計算しなければならない。ギッブスのサンプリ
ングがユニットに0の活性化を割り当てる確率は、これら2つの値の最初の値を
それらの和で除算したものとなる。0の活性化が割り当てられない場合、ユニッ
トは1の値を取る。
い。即ち、ユニットが活性化0を有する場合には、ネットワーク全体の確率(他
のユニットの現在値全てが与えられる)、そしてユニットが活性化1を有する場
合には、ネットワークの確率を、計算しなければならない。ギッブスのサンプリ
ングがユニットに0の活性化を割り当てる確率は、これら2つの値の最初の値を
それらの和で除算したものとなる。0の活性化が割り当てられない場合、ユニッ
トは1の値を取る。
【0089】 同じことを行なう理論的に同等な方法は、ユニットの活性化が変化すべき確率
を計算することである。これは、本好適な実施形態の方法である。ノイジーOR
アーキテクチャによって、所与のユニットは、他のユニットのある群の影響のみ
を受けることになる。即ち、ユニットの親、および子、ならびに「親族」(その
子の他の親)のみを、ユニットの活性化をサンプリングする場合に考慮する。
を計算することである。これは、本好適な実施形態の方法である。ノイジーOR
アーキテクチャによって、所与のユニットは、他のユニットのある群の影響のみ
を受けることになる。即ち、ユニットの親、および子、ならびに「親族」(その
子の他の親)のみを、ユニットの活性化をサンプリングする場合に考慮する。
【0090】 好適な実施形態では、ギッブスのサンプリングの単純な実施を更に改良する構
想を採用する。この構想は、多くの計算値はサイクル毎に変化せず、特に後のサ
イクルでは変化しないという事実を利用する。従って、「更新」構想を採用する
ことによって、ある有用な量をサイクル毎に維持し、ネットワーク状態において
他の変化が必要となったときにはいつでも更新する。このように更新することに
より、典型的に、各サイクル毎に値を再計算するよりも、全体的な処理時間が短
縮される。
想を採用する。この構想は、多くの計算値はサイクル毎に変化せず、特に後のサ
イクルでは変化しないという事実を利用する。従って、「更新」構想を採用する
ことによって、ある有用な量をサイクル毎に維持し、ネットワーク状態において
他の変化が必要となったときにはいつでも更新する。このように更新することに
より、典型的に、各サイクル毎に値を再計算するよりも、全体的な処理時間が短
縮される。
【0091】 各ユニットに、2つの主要な変数を維持する。ここでは、PROBOFFおよ
びNETOFFBELOWと称する。ユニットのPROBOFF値は、その親に
対して、ユニットがオフとなる確率を表し、それは、ネットワークの残り部分に
依存するユニットの確率を計算する際に非常に有用な量を表す。PROBOFF
の計算には、ユニットの「オン」となっている親にわたっての積(produc
t)を必要とするので、親ユニットの活性化が変化した場合、または親からのコ
ネクション重みが変化した場合にのみ、更新すればよい。更に、更新は、変化し
た親の活性化だけを扱えばよく、親全体にわたって再度繰り返すことはない。
びNETOFFBELOWと称する。ユニットのPROBOFF値は、その親に
対して、ユニットがオフとなる確率を表し、それは、ネットワークの残り部分に
依存するユニットの確率を計算する際に非常に有用な量を表す。PROBOFF
の計算には、ユニットの「オン」となっている親にわたっての積(produc
t)を必要とするので、親ユニットの活性化が変化した場合、または親からのコ
ネクション重みが変化した場合にのみ、更新すればよい。更に、更新は、変化し
た親の活性化だけを扱えばよく、親全体にわたって再度繰り返すことはない。
【0092】 PROBOFFは、ユニットの親からその活性化確率に対する寄与と見なすこ
とができるが、ユニットのNETOFFBELOW値は、「オフ」の子ユニット
からの寄与を格納する。これは、子の活性化が変化したとき、または子に対する
コネクション重みが変化したときにのみ変化させればよい。この値は非常に有用
である。何故なら、ユニットの確率を計算する際、全ての「オフ」の子ユニット
からの寄与が、単にNETOFFBELOWを他のユニットからの寄与と加算す
るだけで、計算されるからである。更に、NETOFFBELOWは、それ自体
、適切な1−p[i][j]値の(負の)対数の和である。即ち、計算には乗算
や除算を必要としない(テーブル参照を用いて、対数演算を高速化することがで
き、および/または各コネクションの−log(1−p[i][j])値を単に
格納することも可能である)。このことが全体的に意味するのは、「オフ」の子
からの寄与は、計算が非常に速いということである。更に、多くの応用分野にお
いて、「オフ」ユニットの「オン」ユニットに対する比率は、1.0よりもかな
り高いと考えられる。これが真である限り、ギッブスのサンプリングを実行する
ための時間全体は、本方法による方が遥かに少なくて済む。
とができるが、ユニットのNETOFFBELOW値は、「オフ」の子ユニット
からの寄与を格納する。これは、子の活性化が変化したとき、または子に対する
コネクション重みが変化したときにのみ変化させればよい。この値は非常に有用
である。何故なら、ユニットの確率を計算する際、全ての「オフ」の子ユニット
からの寄与が、単にNETOFFBELOWを他のユニットからの寄与と加算す
るだけで、計算されるからである。更に、NETOFFBELOWは、それ自体
、適切な1−p[i][j]値の(負の)対数の和である。即ち、計算には乗算
や除算を必要としない(テーブル参照を用いて、対数演算を高速化することがで
き、および/または各コネクションの−log(1−p[i][j])値を単に
格納することも可能である)。このことが全体的に意味するのは、「オフ」の子
からの寄与は、計算が非常に速いということである。更に、多くの応用分野にお
いて、「オフ」ユニットの「オン」ユニットに対する比率は、1.0よりもかな
り高いと考えられる。これが真である限り、ギッブスのサンプリングを実行する
ための時間全体は、本方法による方が遥かに少なくて済む。
【0093】 ギッブスのサイクル前の初期設定 何れのサイクルが発生する前にも、図5に示すように或る変数を初期設定する
。変数ACT[0][0]..ACT[0][N−1]によって表される入力レ
イヤの活性化は、アレイINPUT[0]..INPUT[N−1]に格納され
ている入力パターンに等しくセットされる。これらの値は、ギッブスのサンプリ
ングの間「固定(クランプ)」される。即ち、これらは不変である(サンプリン
グされない)ことを意味する。しかしながら、何れかの入力値が欠落している他
の実施形態では、対応する入力ユニットを、ネットワークの隠れ(非入力)ユニ
ットとして扱うことによって、ギッブスのサンプリングによって欠落値を「埋め
る」ことを可能にするのが適当であろう。各非入力レイヤ毎に、ユニット活性化
の全てをゼロに初期設定する。
。変数ACT[0][0]..ACT[0][N−1]によって表される入力レ
イヤの活性化は、アレイINPUT[0]..INPUT[N−1]に格納され
ている入力パターンに等しくセットされる。これらの値は、ギッブスのサンプリ
ングの間「固定(クランプ)」される。即ち、これらは不変である(サンプリン
グされない)ことを意味する。しかしながら、何れかの入力値が欠落している他
の実施形態では、対応する入力ユニットを、ネットワークの隠れ(非入力)ユニ
ットとして扱うことによって、ギッブスのサンプリングによって欠落値を「埋め
る」ことを可能にするのが適当であろう。各非入力レイヤ毎に、ユニット活性化
の全てをゼロに初期設定する。
【0094】 また、サイクル(循環)の前に、ネットワークの各レイヤ毎に、ランダムなサ
ンプリング順序を選択する。これは、単に、レイヤのユニット・インデックスの
(均一な)ランダムな順列に過ぎず、これを、当該レイヤ内においてギブス・サ
ンプリングを実行する順序として用いる。これらのインデックスは、変数ORD
ER[LAY][]として格納される。ここで、LAYはレイヤ・インデックス
であり、他のインデックスは、当該レイヤにおけるユニット全体に及ぶ。尚、各
サイクル毎に異なるランダム順序を用いてもうまく動作する場合もあるが、その
試験は行っておらず、更にいくらか余計に時間がかかるので、好適な方法ではな
いことを注記しておく。
ンプリング順序を選択する。これは、単に、レイヤのユニット・インデックスの
(均一な)ランダムな順列に過ぎず、これを、当該レイヤ内においてギブス・サ
ンプリングを実行する順序として用いる。これらのインデックスは、変数ORD
ER[LAY][]として格納される。ここで、LAYはレイヤ・インデックス
であり、他のインデックスは、当該レイヤにおけるユニット全体に及ぶ。尚、各
サイクル毎に異なるランダム順序を用いてもうまく動作する場合もあるが、その
試験は行っておらず、更にいくらか余計に時間がかかるので、好適な方法ではな
いことを注記しておく。
【0095】 ユニットのPROBOFF値は、次のように初期設定される。ネットワーク内
の最上位レイヤでは(レイヤ番号はNUMLAYERS−1であり、最下位レイ
ヤはレイヤ0である)、各ユニットのPROBOFF値は、ちょうど1.0から
当該ユニットのバイアス重みを減算した値である。即ち、PROBOFF[NU
MLAYERS−1][i]=1.0−WEIGHT[NUMLAYERS−1
][i][0]となる。(尚、バイアス・ユニットは、レイヤNUMLAYER
Sの仮想ユニット0と見なされることを注記しておく。)最上位以外の各レイヤ
毎に、そのユニットのPROBOFF値の全てを1.0に初期設定し、全ての非
入力ユニットが初期状態ではオフであるという事実を反映する。
の最上位レイヤでは(レイヤ番号はNUMLAYERS−1であり、最下位レイ
ヤはレイヤ0である)、各ユニットのPROBOFF値は、ちょうど1.0から
当該ユニットのバイアス重みを減算した値である。即ち、PROBOFF[NU
MLAYERS−1][i]=1.0−WEIGHT[NUMLAYERS−1
][i][0]となる。(尚、バイアス・ユニットは、レイヤNUMLAYER
Sの仮想ユニット0と見なされることを注記しておく。)最上位以外の各レイヤ
毎に、そのユニットのPROBOFF値の全てを1.0に初期設定し、全ての非
入力ユニットが初期状態ではオフであるという事実を反映する。
【0096】 各ユニットのNETOFFBELOW変数は、次のように初期設定される。子
がないユニット(入力ユニット)については、NETOFFBELOWをゼロに
セットする(そして、常にゼロである)。非入力レイヤLAYのそのほかの各ユ
ニットjについては、NETOFFBELOWは、−log(1.0−WEIG
HT[LAY−1][i][j])の非アクティブな子ユニットi全体の和であ
る。(尚、これは自然対数、即ち、基底がeであることを注記しておく。)尚、
入力ユニット以外は全てゼロの活性化から開始するので、レイヤ1(入力ユニッ
トの親)のユニット以外は全て、それらの子全てについてこの和を計算すること
を注記しておく。
がないユニット(入力ユニット)については、NETOFFBELOWをゼロに
セットする(そして、常にゼロである)。非入力レイヤLAYのそのほかの各ユ
ニットjについては、NETOFFBELOWは、−log(1.0−WEIG
HT[LAY−1][i][j])の非アクティブな子ユニットi全体の和であ
る。(尚、これは自然対数、即ち、基底がeであることを注記しておく。)尚、
入力ユニット以外は全てゼロの活性化から開始するので、レイヤ1(入力ユニッ
トの親)のユニット以外は全て、それらの子全てについてこの和を計算すること
を注記しておく。
【0097】 各ユニットのUNITPROB変数は、全てのユニットについて、1に初期設
定される。この変数は、ネットワーク全体の尤度に対するユニットの個々の寄与
(の積)を蓄積するために用いられ、実行される全てのサイクルにわたって計算
される。
定される。この変数は、ネットワーク全体の尤度に対するユニットの個々の寄与
(の積)を蓄積するために用いられ、実行される全てのサイクルにわたって計算
される。
【0098】 各ユニット毎に2つの他の変数COUNTおよびCOUNTBIASが同様に
用いられる。これらは、ユニットがアクティブになった訓練サイクルの回数(C
OUNT)、またはアクティブまたはインアクティブの何れかになった回数(C
OUNTBIAS)を追跡するために用いられる。これらの変数は、訓練中に用
いられ、経時的に行われる特徴の変更の量を減少させることにより、訓練プロセ
スが収束するのを促進する。
用いられる。これらは、ユニットがアクティブになった訓練サイクルの回数(C
OUNT)、またはアクティブまたはインアクティブの何れかになった回数(C
OUNTBIAS)を追跡するために用いられる。これらの変数は、訓練中に用
いられ、経時的に行われる特徴の変更の量を減少させることにより、訓練プロセ
スが収束するのを促進する。
【0099】 ギッブスのサンプリングおよびユニット変数の更新 図6は(図7と共に)単一のサイクルにおけるギッブスのサンプリング・プロ
セスを更に詳細に示す。全体的な構造は、2つのネスト状ループであり、外側の
ループがネットワーク内のレイヤ全体に対して(最下位から最上位へ)繰り返し
、内側のループは各レイヤ内部のユニット全体に対して繰り返す。この処理の大
部分は、次に説明するように、特定のユニットに行われ、そのインデックスは、
並び替えたインデックス・リストORDER[LAY][u]から選択する。
セスを更に詳細に示す。全体的な構造は、2つのネスト状ループであり、外側の
ループがネットワーク内のレイヤ全体に対して(最下位から最上位へ)繰り返し
、内側のループは各レイヤ内部のユニット全体に対して繰り返す。この処理の大
部分は、次に説明するように、特定のユニットに行われ、そのインデックスは、
並び替えたインデックス・リストORDER[LAY][u]から選択する。
【0100】 ACT[LAY][i]に格納されている、現ユニットの活性化に対する値を
サンプリングするプロセスを図7に示す。尚、図6に示すように、活性化が固定
されているユニットには、サンプリングを行なわないことを注記しておく。好適
な実施形態では、全ての入力ユニットの活性化が固定され、その他のユニットは
固定されていない。しかしながら、ここで「固定された」ユニットと「入力」ユ
ニットとの間で区別し、これが真でない代替実施形態で実験を行ないたい当業者
を補佐する。
サンプリングするプロセスを図7に示す。尚、図6に示すように、活性化が固定
されているユニットには、サンプリングを行なわないことを注記しておく。好適
な実施形態では、全ての入力ユニットの活性化が固定され、その他のユニットは
固定されていない。しかしながら、ここで「固定された」ユニットと「入力」ユ
ニットとの間で区別し、これが真でない代替実施形態で実験を行ないたい当業者
を補佐する。
【0101】 図7の背後にある構想は、現ユニットがその活性化を変化させる確率を、その
他のユニット全ての現活性化に基づいて、計算することである。変数NETを用
いて、活性化の変化の必要性に対する「証拠」を蓄積する。NETは、変化の確
率を出力するS状関数に対する入力として用いられる。この確率値を、0ないし
1の間のランダムな実数値と比較し、変化が実際に行われたか否かについて判定
を行なう。
他のユニット全ての現活性化に基づいて、計算することである。変数NETを用
いて、活性化の変化の必要性に対する「証拠」を蓄積する。NETは、変化の確
率を出力するS状関数に対する入力として用いられる。この確率値を、0ないし
1の間のランダムな実数値と比較し、変化が実際に行われたか否かについて判定
を行なう。
【0102】 現ユニットの親ユニットからの寄与を用いてNETを初期設定する。これに関
わる計算の殆どは、既に現ユニットのPROBOFF値で実行中の更新において
行われている。理論的には、寄与は、(1−PROBOFF)の(自然)対数か
らPROBOFFの対数を減算した値となる。これは、現活性化がゼロであると
仮定する。そうでない場合、寄与に−1を乗算しなければならない。
わる計算の殆どは、既に現ユニットのPROBOFF値で実行中の更新において
行われている。理論的には、寄与は、(1−PROBOFF)の(自然)対数か
らPROBOFFの対数を減算した値となる。これは、現活性化がゼロであると
仮定する。そうでない場合、寄与に−1を乗算しなければならない。
【0103】 しかしながら、理論値に調節を行なうことを指摘しておく。即ち、PROBO
FFを直接用いる代わりに、PROBOFFおよび定数0.99の内の小さい方
を用いる。これは、重みがクリップされるのと同じ理由で行われる。小さい数値
の機械表現の問題を防止し、極限の確率のためにギッブスのサンプリングが「行
き詰まる」のを防止するためにである。しかしながら、この場合も、手近にある
問題に対してこの値0.99が余りに限定的であると考える理由がある場合、限
定が少ない(より大きな)値を用いて実験を行なわなければならない。
FFを直接用いる代わりに、PROBOFFおよび定数0.99の内の小さい方
を用いる。これは、重みがクリップされるのと同じ理由で行われる。小さい数値
の機械表現の問題を防止し、極限の確率のためにギッブスのサンプリングが「行
き詰まる」のを防止するためにである。しかしながら、この場合も、手近にある
問題に対してこの値0.99が余りに限定的であると考える理由がある場合、限
定が少ない(より大きな)値を用いて実験を行なわなければならない。
【0104】 NETに対する第2の寄与は、「オフ」である子ユニットからもたらされる。
この場合も、これは本質的にこの更新の方式によって、このときは変数NETO
FFBELOWにおいて、既に計算されている。即ち、NETOFFBELOW
をNETから減算する。これは、やはり現ユニットが「オフ」であると仮定する
。そうでない場合、NETOFFBELOWをNETに加算しなければならない
。これは、図7に示すように、以下の条件によって行われる。
この場合も、これは本質的にこの更新の方式によって、このときは変数NETO
FFBELOWにおいて、既に計算されている。即ち、NETOFFBELOW
をNETから減算する。これは、やはり現ユニットが「オフ」であると仮定する
。そうでない場合、NETOFFBELOWをNETに加算しなければならない
。これは、図7に示すように、以下の条件によって行われる。
【0105】 「オン」の子ユニットからの寄与は、他の寄与が可能なように、実行中の変数
(running variable)からは容易に計算することができない。
これは、全ての(オンの)子ユニットにわたって繰り返すことによって、毎回再
計算しなければならない。これは、図7において次に行われる。「オン」の子ユ
ニット毎に、当該子がその現在値を有する確率を、次の2つの場面において計算
しなければならす、それらは、(1)現ユニットの活性化が変化する、および(
2)それが変化しない、という場面である。実際、各「オン」の子について、N
ETに加算されるのは、これら2つの確率の比率の対数である。この基本的な手
順は、幾つかの封入される条件(enclosing conditional
)により、いくらか複雑化している。これらの条件の目的は、単に、確率の一方
または他方、あるいは双方がゼロであるという異常な場合を扱うことである。
(running variable)からは容易に計算することができない。
これは、全ての(オンの)子ユニットにわたって繰り返すことによって、毎回再
計算しなければならない。これは、図7において次に行われる。「オン」の子ユ
ニット毎に、当該子がその現在値を有する確率を、次の2つの場面において計算
しなければならす、それらは、(1)現ユニットの活性化が変化する、および(
2)それが変化しない、という場面である。実際、各「オン」の子について、N
ETに加算されるのは、これら2つの確率の比率の対数である。この基本的な手
順は、幾つかの封入される条件(enclosing conditional
)により、いくらか複雑化している。これらの条件の目的は、単に、確率の一方
または他方、あるいは双方がゼロであるという異常な場合を扱うことである。
【0106】 図6に示すように、一旦、現ユニットに活性化を選択したなら(ACT[LA
Y][i])、チェックを行い、活性化が変化したか否か確認する(勿論、前の
値を格納しておかなければならない)。変化している場合、影響を受ける可能性
がある他の全ユニットについて、実行中の変数PROBOFFおよびNETOF
FBELOWを更新しなければならない。
Y][i])、チェックを行い、活性化が変化したか否か確認する(勿論、前の
値を格納しておかなければならない)。変化している場合、影響を受ける可能性
がある他の全ユニットについて、実行中の変数PROBOFFおよびNETOF
FBELOWを更新しなければならない。
【0107】 ユニットのPROBOFF値は、その親に対して、オフになるその確率を追跡
する。従って、レイヤLAY−1のあらゆるユニットが、そのPROBOFF値
を更新していなければならない(勿論、LAYが入力レイヤの場合、かかるユニ
ットはない)。それぞれの子ユニットkに対して、PROBOFF[LAY−1
][k]を、ユニットiがユニットkをオンにしない確率、即ち、量1−WEI
GHT[LAY−1][k][i]で乗算または除算の何れかを行うことによっ
て、これを行なう。乗算または除算のどちらを行うかは、ユニットiが現在オフ
かまたは現在オンかによって異なる。尚、最上位のレイヤのユニットは、サイク
ルの間に決してそのPROBOFF値を変化させないことを指摘しておく。何故
なら、それらの唯一の親が、1の一定活性化を有する(仮説的な)バイアス・ユ
ニットであるからである。
する。従って、レイヤLAY−1のあらゆるユニットが、そのPROBOFF値
を更新していなければならない(勿論、LAYが入力レイヤの場合、かかるユニ
ットはない)。それぞれの子ユニットkに対して、PROBOFF[LAY−1
][k]を、ユニットiがユニットkをオンにしない確率、即ち、量1−WEI
GHT[LAY−1][k][i]で乗算または除算の何れかを行うことによっ
て、これを行なう。乗算または除算のどちらを行うかは、ユニットiが現在オフ
かまたは現在オンかによって異なる。尚、最上位のレイヤのユニットは、サイク
ルの間に決してそのPROBOFF値を変化させないことを指摘しておく。何故
なら、それらの唯一の親が、1の一定活性化を有する(仮説的な)バイアス・ユ
ニットであるからである。
【0108】 ユニットiのNETOFFBELOW値は、その「オフ」の子からのその確率
に対する寄与を追跡する。従って、レイヤLAY+1におけるあらゆるユニット
も、そのNETOFFBELOW値を更新していなければならない。何故なら、
レイヤLAYのユニットiは既にその活性化を変化させているからである(勿論
、LAYが最上位レイヤである場合、かかるユニットはない)。各親ユニットj
について、変数NETOFFBELOW[LAY+1][j]から、量−log
(1−WEIGHT[LAY][k][i])を減算するか、あるいはこれらを
加算することによって、これを行なう。加算または減算のどちらの演算をするか
は、ユニットiが現在オフかまたはオンかによって異なる。
に対する寄与を追跡する。従って、レイヤLAY+1におけるあらゆるユニット
も、そのNETOFFBELOW値を更新していなければならない。何故なら、
レイヤLAYのユニットiは既にその活性化を変化させているからである(勿論
、LAYが最上位レイヤである場合、かかるユニットはない)。各親ユニットj
について、変数NETOFFBELOW[LAY+1][j]から、量−log
(1−WEIGHT[LAY][k][i])を減算するか、あるいはこれらを
加算することによって、これを行なう。加算または減算のどちらの演算をするか
は、ユニットiが現在オフかまたはオンかによって異なる。
【0109】 全てのユニットにギッブスのサンプリングを実行した後、図8に示すように、
別の二重ループを実行する。再度、ネットワークの各ユニットを順番に巡り(こ
こでは、ランダムなインデックス選択は不要である)、各ユニットのUNITP
ROB値を更新する。最終的に、現入力パターンに基づいて、ネットワーク・モ
デル全体の尤度を推定するために、UNITPROBを用いる。この尤度は、個
々のユニットの確率(確立の各々が、与えられた入力に対して、現在の活性化を
有する)の積である。更に、この量は、ギッブスのサイクルの適度に大きなサン
プルに対して計算しなければならない。好適な方法では、これを全てのサイクル
(好ましくは20回である)について計算する。従って、図8に示すように、各
サイクル毎に、オフであれば、各ユニットのUNITPROBを単にそのPRO
BOFF値と乗算し、オンであれば(UNITPROBが値1で初期設定された
場合)、1からそのPROBOFF値を減算した値と乗算する。
別の二重ループを実行する。再度、ネットワークの各ユニットを順番に巡り(こ
こでは、ランダムなインデックス選択は不要である)、各ユニットのUNITP
ROB値を更新する。最終的に、現入力パターンに基づいて、ネットワーク・モ
デル全体の尤度を推定するために、UNITPROBを用いる。この尤度は、個
々のユニットの確率(確立の各々が、与えられた入力に対して、現在の活性化を
有する)の積である。更に、この量は、ギッブスのサイクルの適度に大きなサン
プルに対して計算しなければならない。好適な方法では、これを全てのサイクル
(好ましくは20回である)について計算する。従って、図8に示すように、各
サイクル毎に、オフであれば、各ユニットのUNITPROBを単にそのPRO
BOFF値と乗算し、オンであれば(UNITPROBが値1で初期設定された
場合)、1からそのPROBOFF値を減算した値と乗算する。
【0110】 しかしながら、実際には、多くの確率値をまとめて乗算すると、コンピュータ
によっては小さすぎて表現できない値が算出される可能性があるので、対数確率
ドメインにおいてUNITPROBの計算を行なうことが好ましいと考えられる
。この場合、UNITPROBは、対数(ゼロに初期設定されている)の和であ
り、更新は、ユニットがオフの場合にはlog(PROBOFF)加算し、ユニ
ットがオンの場合にはlog(1−PROBOFF)を加算する。この手順は表
現の問題を回避することができるが、対数参照テーブルを用いないと、必要な計
算も多くなる。
によっては小さすぎて表現できない値が算出される可能性があるので、対数確率
ドメインにおいてUNITPROBの計算を行なうことが好ましいと考えられる
。この場合、UNITPROBは、対数(ゼロに初期設定されている)の和であ
り、更新は、ユニットがオフの場合にはlog(PROBOFF)加算し、ユニ
ットがオンの場合にはlog(1−PROBOFF)を加算する。この手順は表
現の問題を回避することができるが、対数参照テーブルを用いないと、必要な計
算も多くなる。
【0111】 実験が可能である限り、例えば、サイクルの後半というように、後のサイクル
にわたってUNITPROB値の計算を試みることが有益な場合もある。これは
、真のネットワーク尤度の推定の精度を更に高めることができる潜在的可能性が
ある。何故なら、ギッブスのサンプリングは真の分布に静定するまでにより多く
の時間がかかるからである。しかしながら、サイクル総数を限定する場合(実際
にはそのはずである)、トレードオフがある。何故なら、推定を行なうために用
いるサイクル数を減らすと、推定の質も低下するからである。実験は、最適なト
レードオフを見出す唯一の方法であるが、本方法は、総じて正しい推定値を生成
すると考えられる。
にわたってUNITPROB値の計算を試みることが有益な場合もある。これは
、真のネットワーク尤度の推定の精度を更に高めることができる潜在的可能性が
ある。何故なら、ギッブスのサンプリングは真の分布に静定するまでにより多く
の時間がかかるからである。しかしながら、サイクル総数を限定する場合(実際
にはそのはずである)、トレードオフがある。何故なら、推定を行なうために用
いるサイクル数を減らすと、推定の質も低下するからである。実験は、最適なト
レードオフを見出す唯一の方法であるが、本方法は、総じて正しい推定値を生成
すると考えられる。
【0112】 特徴変更 各ユニットのギッブスのサンプリング、および適切な実行変数の更新の後に、
図9に示すように、サイクルに対して特徴変更(学習)を行なう。勿論、これは
、訓練モードがイネーブルされていることを仮定する。システムが認識のみのモ
ードにある場合、特徴変更は行われない。
図9に示すように、サイクルに対して特徴変更(学習)を行なう。勿論、これは
、訓練モードがイネーブルされていることを仮定する。システムが認識のみのモ
ードにある場合、特徴変更は行われない。
【0113】 図9に示す最初のステップは、学習率変数LRATEを1.0にセットするこ
とである。LRATEは、それぞれの潜在的な重み変化と乗算されるので、1.
0の値を用いることは、学習率を全く用いないことと同等である。しかしながら
、ここでは1を用いる。何故なら、好適な実施形態の或る変更では、1を必要と
する場合があるので、より汎化した場合においてLRATEをどのように用いる
のかについて例示することは有益であるからである。
とである。LRATEは、それぞれの潜在的な重み変化と乗算されるので、1.
0の値を用いることは、学習率を全く用いないことと同等である。しかしながら
、ここでは1を用いる。何故なら、好適な実施形態の或る変更では、1を必要と
する場合があるので、より汎化した場合においてLRATEをどのように用いる
のかについて例示することは有益であるからである。
【0114】 ギッブスのサンプリングおよびUNITPROB値の更新を用いる場合と同様
、学習は、ネスト状の二重ループにおいて、レイヤ全体および各レイヤ内のユニ
ットについて行われる。好適な実施形態では、ユニットを、ランダムなインデッ
クス順序に従わずに順番に巡る。しかしながら、実験が可能な場合、各サイクル
毎に異なるランダム順序でレイヤ内のユニットを巡る変更実施形態を試すことを
助言する。これは、下位のレイヤのPROBOFF値は、ユニットの訓練の間に
変更され、これが当該レイヤ内の他のユニットの今後の訓練に影響を及ぼすから
である。従って、本実施形態では、ユニットのインデックスに応じたバイアスが
ある。ランダム・インデックスによってこのバイアスを除去することが大幅な改
良となるとは考えられないが、認識タスクによってはそれが可能なこともあり得
る。
、学習は、ネスト状の二重ループにおいて、レイヤ全体および各レイヤ内のユニ
ットについて行われる。好適な実施形態では、ユニットを、ランダムなインデッ
クス順序に従わずに順番に巡る。しかしながら、実験が可能な場合、各サイクル
毎に異なるランダム順序でレイヤ内のユニットを巡る変更実施形態を試すことを
助言する。これは、下位のレイヤのPROBOFF値は、ユニットの訓練の間に
変更され、これが当該レイヤ内の他のユニットの今後の訓練に影響を及ぼすから
である。従って、本実施形態では、ユニットのインデックスに応じたバイアスが
ある。ランダム・インデックスによってこのバイアスを除去することが大幅な改
良となるとは考えられないが、認識タスクによってはそれが可能なこともあり得
る。
【0115】 各ユニットを巡る毎に、最初にそのCOUNTBIAS値に0.05を加算す
る。この変数は、それまでにユニットが「経験した」学習のトライアル回数を追
跡する。値が0.05なのは、この好適な実施形態では20サイクルを用い、0
.05=1/20であるからである。同様の変数COUNTは、ユニットがアク
ティブであった訓練トライアルの回数を追跡する。COUNTは、次に述べる条
件内で更新される。
る。この変数は、それまでにユニットが「経験した」学習のトライアル回数を追
跡する。値が0.05なのは、この好適な実施形態では20サイクルを用い、0
.05=1/20であるからである。同様の変数COUNTは、ユニットがアク
ティブであった訓練トライアルの回数を追跡する。COUNTは、次に述べる条
件内で更新される。
【0116】 所与の重みiを残す重み(下位のレイヤに対するもの)が変更されるのは、ユ
ニットiがアクティブの場合だけである。その場合、そのCOUNT変数が、丁
度述べたように更新され、次いでループに入り、iの子ユニットについて繰り返
す。
ニットiがアクティブの場合だけである。その場合、そのCOUNT変数が、丁
度述べたように更新され、次いでループに入り、iの子ユニットについて繰り返
す。
【0117】 ユニットiの各子kについて、ユニットiがkをアクティブにする確実度を表
す、関連の「確実度」値を計算することがでできる。kがアクティブでない場合
、この確実度はゼロである。それ以外の場合、確実度は、WEIGHT[LAY
−1][k][i]を量1−PROBOFF[LAY−1][k]で除算するこ
とによって決定される。これは、本質的に、ユニットiがkをオンにする、前の
確率(WEIGHT[LAY−1][k][i])を、その全ての親の現活性化
が与えられたkがオンになる、前の確率で除算ことである。尚、ここで「前の」
と言うのは、これらの確率は、kが実際にギッブスのサンプリングの結果として
オンになったのか否かを考慮に入れていないからである。
す、関連の「確実度」値を計算することがでできる。kがアクティブでない場合
、この確実度はゼロである。それ以外の場合、確実度は、WEIGHT[LAY
−1][k][i]を量1−PROBOFF[LAY−1][k]で除算するこ
とによって決定される。これは、本質的に、ユニットiがkをオンにする、前の
確率(WEIGHT[LAY−1][k][i])を、その全ての親の現活性化
が与えられたkがオンになる、前の確率で除算ことである。尚、ここで「前の」
と言うのは、これらの確率は、kが実際にギッブスのサンプリングの結果として
オンになったのか否かを考慮に入れていないからである。
【0118】 ユニットiの子全ての確実度のアレイは、ユニットiに割り当てられた子レイ
ヤにおけるアクティビティのパターンの「部分(パーツ)」を構成する。学習の
目標は、ユニットiの優先特徴、即ち、その子に向かう重みのそのベクトルを、
その割り当てられた部分に移動させることである。従って、iの確実度のベクト
ルを、その重みを変更したい方向にある「ターゲット」として見なすことができ
る。
ヤにおけるアクティビティのパターンの「部分(パーツ)」を構成する。学習の
目標は、ユニットiの優先特徴、即ち、その子に向かう重みのそのベクトルを、
その割り当てられた部分に移動させることである。従って、iの確実度のベクト
ルを、その重みを変更したい方向にある「ターゲット」として見なすことができ
る。
【0119】 これの結末は、各重み毎の実際の手順に関しては、ユニットkがこのギッブス
のサイクルではアクティブでない場合、WEIGHT[LAY−1][k][i
]をゼロに向けて移動させ、それ以外の場合WEIGHT[LAY−1][k]
[i]/(1−PROBOFF[LAY−1][k])に向けて移動させるとい
うものである。(ユニットiがアクティブでなければ、何の変化も行なわないこ
とを思い出されたい。)これは、図9の手順が行なうことであるが、これは明示
的に確実度(ターゲット)値を計算しない。更に、変化の実際量は、ユニットi
のLRATEおよびCOUNT値によって決定される。
のサイクルではアクティブでない場合、WEIGHT[LAY−1][k][i
]をゼロに向けて移動させ、それ以外の場合WEIGHT[LAY−1][k]
[i]/(1−PROBOFF[LAY−1][k])に向けて移動させるとい
うものである。(ユニットiがアクティブでなければ、何の変化も行なわないこ
とを思い出されたい。)これは、図9の手順が行なうことであるが、これは明示
的に確実度(ターゲット)値を計算しない。更に、変化の実際量は、ユニットi
のLRATEおよびCOUNT値によって決定される。
【0120】 COUNTを用いて有効学習率(即ち、LRATE/COUNT)を低下させ
る手順が、高速学習および安定な解に向かう収束のバランスを取る最良の方法で
あると考えられる。しかしながら、これがさほど適切ではない2つの関連する状
況があり、従って、これらの状況はこの好適な実施形態の好適な用途ではない。
第1の状況は、認識システムの入力パターンが独立してしかもランダムに選択さ
れない場合である。第2の状況は、パターンがランダムに選択されるが、分布が
経時的に変化する(「非静止」)場合である。これらの場合の何れにおいても、
後のパターンよりも前のパターンに、より多くの訓練が行われるという事実のた
めに、望ましくない「第一効果(primacy effect)」が起こり得
る。この好適実施形態をかかる場合に適用することは勧めないが、試すのであれ
ば、最も適切な手法は、1.0よりもかなり小さい一定のLRATEを用い、C
OUNTで除算しないことであると考えられる。
る手順が、高速学習および安定な解に向かう収束のバランスを取る最良の方法で
あると考えられる。しかしながら、これがさほど適切ではない2つの関連する状
況があり、従って、これらの状況はこの好適な実施形態の好適な用途ではない。
第1の状況は、認識システムの入力パターンが独立してしかもランダムに選択さ
れない場合である。第2の状況は、パターンがランダムに選択されるが、分布が
経時的に変化する(「非静止」)場合である。これらの場合の何れにおいても、
後のパターンよりも前のパターンに、より多くの訓練が行われるという事実のた
めに、望ましくない「第一効果(primacy effect)」が起こり得
る。この好適実施形態をかかる場合に適用することは勧めないが、試すのであれ
ば、最も適切な手法は、1.0よりもかなり小さい一定のLRATEを用い、C
OUNTで除算しないことであると考えられる。
【0121】 重みを更新した後、次に、先に論じたように、0.01ないし0.99の範囲
に位置するようにクリップする。また、今変更した重みに依存するPROBOF
F値およびNETOFFBELOW値も、適宜更新する。尚、これは多くの計算
を伴うように思えるが、非常に多くの重みがあり、乗算および除算は毎回必要と
なるので、状況は最初に思われる程悪くはない。これは、学習がアクティブなユ
ニットからの重みについてのみ行われるからであり、更に、多くの用途では、ア
クティブなユニットの方が非アクティブなユニットよりも少ないからである。
に位置するようにクリップする。また、今変更した重みに依存するPROBOF
F値およびNETOFFBELOW値も、適宜更新する。尚、これは多くの計算
を伴うように思えるが、非常に多くの重みがあり、乗算および除算は毎回必要と
なるので、状況は最初に思われる程悪くはない。これは、学習がアクティブなユ
ニットからの重みについてのみ行われるからであり、更に、多くの用途では、ア
クティブなユニットの方が非アクティブなユニットよりも少ないからである。
【0122】 一旦ユニットの出力重み(outgoing weight)を変更したなら
(またはアクティブでない場合には、変更しない)、試験を行い、そのバイアス
重みを変更すべきかいなか判断する。この好適な実施形態では、最上位のユニッ
トのみがバイアスも用いるので、それは試験の1つの条件となる。また、バイア
ス重みは、(20)サイクルの最後にのみ更新される。殆どの部分では、バイア
スの更新は、他のいずれの重みの更新とも同一である。しかしながら、親ユニッ
トがアクティブか否か試験する必要はない。何故なら、仮説的な意味ではあるが
、バイアス・ユニットは常にアクティブであるからである。
(またはアクティブでない場合には、変更しない)、試験を行い、そのバイアス
重みを変更すべきかいなか判断する。この好適な実施形態では、最上位のユニッ
トのみがバイアスも用いるので、それは試験の1つの条件となる。また、バイア
ス重みは、(20)サイクルの最後にのみ更新される。殆どの部分では、バイア
スの更新は、他のいずれの重みの更新とも同一である。しかしながら、親ユニッ
トがアクティブか否か試験する必要はない。何故なら、仮説的な意味ではあるが
、バイアス・ユニットは常にアクティブであるからである。
【0123】 別の例外は、この好適な実施形態がバイアス重みを0.01ないし0.25の
範囲に維持することである。これは、バイアスを余りに大きく成長させると、他
のものを「支配」させることになる可能性があることが実験からわ分かったから
である。バイアスが大きく成長すると、ほぼ全ての入力に対して応答することに
なり、これによって他のユニットがいずれの入力も全く「勝ち取る」ことができ
ないという悪循環に陥ることになる。しかしながら、他の重みの範囲制限を用い
るのと同様に、パターン・ドメインにおける上位の「真」の特徴が0.25より
も高い確率で発生することができると確信する理由がある場合、可能である限り
、最大値を適切に増大させて実験すべきであろう。
範囲に維持することである。これは、バイアスを余りに大きく成長させると、他
のものを「支配」させることになる可能性があることが実験からわ分かったから
である。バイアスが大きく成長すると、ほぼ全ての入力に対して応答することに
なり、これによって他のユニットがいずれの入力も全く「勝ち取る」ことができ
ないという悪循環に陥ることになる。しかしながら、他の重みの範囲制限を用い
るのと同様に、パターン・ドメインにおける上位の「真」の特徴が0.25より
も高い確率で発生することができると確信する理由がある場合、可能である限り
、最大値を適切に増大させて実験すべきであろう。
【0124】 バイアスを変化させる場合、ユニットのPROBOFF値も更新しなければな
らない。しかしながら、最上位のユニットのみがバイアスを有し、これらはバイ
アス以外に入来するコネクションを有さないので、これは図9に示すように単純
な更新手順である。
らない。しかしながら、最上位のユニットのみがバイアスを有し、これらはバイ
アス以外に入来するコネクションを有さないので、これは図9に示すように単純
な更新手順である。
【0125】 サイクル・ループからの抜け出し 図4に示すように、一旦、重みおよびその他の変数(PROBOFF等)の対
応する更新と共に、ギッブスのサンプリングのサイクルを終了したなら、サイク
ル・ループを抜け出すか否かを判断するチェックを行う。好適な実施形態では、
前述のように、20サイクル実行した後にループを抜け出す。しかしながら、他
の可能な実施形態では、ユニット活性化に対する変化量が小さくなったならば直
ちに、ある尺度に従ってサイクル・ループを抜け出すこともある。例えば、2回
の完全なサイクルが何らかの活性化の変化を生じることを失敗した後、または5
サイクル後にユニットの活性化の変化が2パーセント未満である場合、ループを
終了することができる。明らかに、同様の構想は無限にある。
応する更新と共に、ギッブスのサンプリングのサイクルを終了したなら、サイク
ル・ループを抜け出すか否かを判断するチェックを行う。好適な実施形態では、
前述のように、20サイクル実行した後にループを抜け出す。しかしながら、他
の可能な実施形態では、ユニット活性化に対する変化量が小さくなったならば直
ちに、ある尺度に従ってサイクル・ループを抜け出すこともある。例えば、2回
の完全なサイクルが何らかの活性化の変化を生じることを失敗した後、または5
サイクル後にユニットの活性化の変化が2パーセント未満である場合、ループを
終了することができる。明らかに、同様の構想は無限にある。
【0126】 かかる代替実施形態は、入力(即ち、ネットワーク活性化の1集合)の1つの
解釈が残りのものよりも大幅に尤度が高い場合、非常に少ないサイクルだけで済
むという利点がある。これは、一旦広範な訓練を既に行なっているような場合に
、しばしばあり得ることである。しかしながら、異なる回数のサイクルを異なる
パターンに対して行なう場合(これは、特にバイアス重みに対しては扱いにくい
場合がある)、各サイクル毎にどの位の訓練を行なうかという問題に対処しなけ
ればならない。また、サイクルの何らかの最大数をセットする必要もある。これ
らの複雑化は、かかる実施形態を好まない主な理由である。
解釈が残りのものよりも大幅に尤度が高い場合、非常に少ないサイクルだけで済
むという利点がある。これは、一旦広範な訓練を既に行なっているような場合に
、しばしばあり得ることである。しかしながら、異なる回数のサイクルを異なる
パターンに対して行なう場合(これは、特にバイアス重みに対しては扱いにくい
場合がある)、各サイクル毎にどの位の訓練を行なうかという問題に対処しなけ
ればならない。また、サイクルの何らかの最大数をセットする必要もある。これ
らの複雑化は、かかる実施形態を好まない主な理由である。
【0127】 システム出力の決定 ネットワークの相対確率の計算 前述のように、ギッブスのサイクル・プロセス(重みおよび変数の更新を含む
)は、認識システムにおける各ネットワークについて同一である。また、訓練モ
ードのみがアクティブであるのではない限り、サイクルの後に行われる、ネット
ワーク確率値の計算にも当てはまる。尚、訓練モードのみがアクティブな場合に
は、確率値は不要である。ネットワークcの確率を、一旦計算した変数NETW
ORKPROB[c]に格納する。これは、認識システム全体の出力を計算する
際に用いられる。
)は、認識システムにおける各ネットワークについて同一である。また、訓練モ
ードのみがアクティブであるのではない限り、サイクルの後に行われる、ネット
ワーク確率値の計算にも当てはまる。尚、訓練モードのみがアクティブな場合に
は、確率値は不要である。ネットワークcの確率を、一旦計算した変数NETW
ORKPROB[c]に格納する。これは、認識システム全体の出力を計算する
際に用いられる。
【0128】 ネットワークの全ユニットについてUNITPROB値を既に計算してあるの
であれば、NETWORKPROB値の計算は容易である。NETWORKPR
OB[c]は、単に、UNITPROB[LAY][i]のネットワークcにお
ける全てのレイヤLAYおよびユニットiの積となる。(勿論、UNITPRO
Bに対する対数確率を用いる前述の変更した方法を用いる場合、NETWORK
PROB[c]は、代わりに、UNITPROB値の和となる。)NETWOR
KPROB[c]変数は、ネットワークcのモデル(そのアーキテクチャおよび
変更可能な重みによって具体化され、ここでは推定活性化状態のサンプリングに
よって推定される)および入力信号26(この場合も、ネットワークを入力信号
の発生器と見なす)の確率を表す。NETWORKPROB値は、従って、この
特定の入力信号26に対してどれの確率が高いかを見るために比較することがで
きる。
であれば、NETWORKPROB値の計算は容易である。NETWORKPR
OB[c]は、単に、UNITPROB[LAY][i]のネットワークcにお
ける全てのレイヤLAYおよびユニットiの積となる。(勿論、UNITPRO
Bに対する対数確率を用いる前述の変更した方法を用いる場合、NETWORK
PROB[c]は、代わりに、UNITPROB値の和となる。)NETWOR
KPROB[c]変数は、ネットワークcのモデル(そのアーキテクチャおよび
変更可能な重みによって具体化され、ここでは推定活性化状態のサンプリングに
よって推定される)および入力信号26(この場合も、ネットワークを入力信号
の発生器と見なす)の確率を表す。NETWORKPROB値は、従って、この
特定の入力信号26に対してどれの確率が高いかを見るために比較することがで
きる。
【0129】 OUTPUTの設定 図4に示すように、システムモードに応じて認識、訓練、または双方のために
、システムの全ネットワークを一旦処理し終えたならば、ネットワーク・ループ
を抜け出す。訓練モードのみがイネーブルされている場合、この入力信号26に
ついては処理はこれで完了である。しかしながら、認識モードがイネーブルされ
ている場合、システム出力を決定しなければならない。
、システムの全ネットワークを一旦処理し終えたならば、ネットワーク・ループ
を抜け出す。訓練モードのみがイネーブルされている場合、この入力信号26に
ついては処理はこれで完了である。しかしながら、認識モードがイネーブルされ
ている場合、システム出力を決定しなければならない。
【0130】 システム出力は変数OUTPUT[]として格納され、単に、現入力信号26
に対する、最も確率が高いネットワークのインデックスである。(尚、ここでは
、OUTPUT[]は単一要素アレイであることを注記しておく。)次に、先に
述べたように、作用部38によってこのインデックスは適宜用いられる。好まし
いことであるが、パターン・ドメインにおけるクラスが先験的に等しい確率であ
る場合、OUTPUTは、単に、最大のNETWORKPROB値を有するネッ
トワークのインデックスとなる。
に対する、最も確率が高いネットワークのインデックスである。(尚、ここでは
、OUTPUT[]は単一要素アレイであることを注記しておく。)次に、先に
述べたように、作用部38によってこのインデックスは適宜用いられる。好まし
いことであるが、パターン・ドメインにおけるクラスが先験的に等しい確率であ
る場合、OUTPUTは、単に、最大のNETWORKPROB値を有するネッ
トワークのインデックスとなる。
【0131】 しかしながら、パターン・ドメインにおけるクラスが異なる前の確率を有する
場合がしばしばある。この場合、これらの確率(「前」)から推定値を得て、ア
レイCLASSPROB[]に格納する。次いで、各クラスc毎に、NETWO
RKPROB[c]にCLASSPROB[c]を乗算し、その結果をNETW
ORKPROB[c]に格納する(UNITPROBおよびNETWORKPR
OBに対数を用いない場合に限り、用いる場合、CLASSPROBの対数を対
応するNETWORKPROB値に加算しなければならない)。次いで、前の確
率が等しいかのように、NETOWRKPROB値を同様に比較することができ
る。
場合がしばしばある。この場合、これらの確率(「前」)から推定値を得て、ア
レイCLASSPROB[]に格納する。次いで、各クラスc毎に、NETWO
RKPROB[c]にCLASSPROB[c]を乗算し、その結果をNETW
ORKPROB[c]に格納する(UNITPROBおよびNETWORKPR
OBに対数を用いない場合に限り、用いる場合、CLASSPROBの対数を対
応するNETWORKPROB値に加算しなければならない)。次いで、前の確
率が等しいかのように、NETOWRKPROB値を同様に比較することができ
る。
【0132】 一旦OUTPUT[]に基づいて適切なアクション70を行なったならば、現
入力信号26の処理は完了する。次のステップは、(おそらく)新たな入力信号
26を選択し、そしてトライアルの処理を繰り返すことである(前述の「トライ
アルの規制」の章を参照のこと)。
入力信号26の処理は完了する。次のステップは、(おそらく)新たな入力信号
26を選択し、そしてトライアルの処理を繰り返すことである(前述の「トライ
アルの規制」の章を参照のこと)。
【0133】 好適な実施形態2 アーキテクチャ図およびフロー図 図10ないし図12を参照しながら、第2の好適な実施形態について説明する
。図10は、図1よりも詳しく、第2の好適な実施形態の構造を示す。図11は
、図2よりも更に詳細にソフトウエアの実施態様のアウトラインを示すフローチ
ャートであり、図12は、特徴検出部28の訓練に含まれるステップの更に詳細
なフロー・チャートである。
。図10は、図1よりも詳しく、第2の好適な実施形態の構造を示す。図11は
、図2よりも更に詳細にソフトウエアの実施態様のアウトラインを示すフローチ
ャートであり、図12は、特徴検出部28の訓練に含まれるステップの更に詳細
なフロー・チャートである。
【0134】 理論 第2の実施形態は、多くの面で第1の実施形態とは異なっており、従って、本
発明によって可能となる有用な実施形態の範囲をある程度まで示す。これは、独
立特徴学習を用いてデータ圧縮装置を形成し、次いでこれを(周知の)逆伝播ネ
ットワークへのフロント・エンドとして用いる。
発明によって可能となる有用な実施形態の範囲をある程度まで示す。これは、独
立特徴学習を用いてデータ圧縮装置を形成し、次いでこれを(周知の)逆伝播ネ
ットワークへのフロント・エンドとして用いる。
【0135】 或るパターンにどんな特徴が含まれているかについて知的な推定を行なう方法
の1つは、既存の特徴検出部を用いてそれを区分することである。これは、第1
の実施形態によって用いた技法である。しかしながら、他の方法は、メモリに格
納されている実際の以前のパターンを用いることである。これは、第2の実施形
態によって用いる手法である。この構想の基礎となる発見的法は次の通りである
。特徴は、2つの同様であるが同一でないパターン、即ち、それらの間の「相違
」を区別するものとして定義することができる。従って、パターンにおける有望
特徴を発見する適当な方法は、それを、同様であるが同一でない格納済みのパタ
ーンと比較し、かかる比較毎にある種の差を計算することである。これを行なう
と、本発明の明細書の用語では「パーツ」である、有望特徴を用いて、既存の特
徴検出部を訓練することができる。
の1つは、既存の特徴検出部を用いてそれを区分することである。これは、第1
の実施形態によって用いた技法である。しかしながら、他の方法は、メモリに格
納されている実際の以前のパターンを用いることである。これは、第2の実施形
態によって用いる手法である。この構想の基礎となる発見的法は次の通りである
。特徴は、2つの同様であるが同一でないパターン、即ち、それらの間の「相違
」を区別するものとして定義することができる。従って、パターンにおける有望
特徴を発見する適当な方法は、それを、同様であるが同一でない格納済みのパタ
ーンと比較し、かかる比較毎にある種の差を計算することである。これを行なう
と、本発明の明細書の用語では「パーツ」である、有望特徴を用いて、既存の特
徴検出部を訓練することができる。
【0136】 第2の好適な実施形態の手法全体は、従って、次の通りである。メモリ40を
用いて、損失なく、学習すべき入力ドメインからの多数の「比較」パターンを格
納する。入力した新たな各パターンを1つ以上の比較パターンと比較し、比較毎
に差ベクトルDIFF[]を発生する。割当部66は、それぞれの差ベクトル(
パーツ)を、特徴記述信号32[m]によって伝達されるそれぞれの特徴検出部
28[m]の優先特徴と比較する。差ベクトルと最も良く一致した検出部28[
m]が、その差ベクトルを「勝ち得て」、この情報をパーツ・マッピング信号4
4を通じて更新部42に伝達する。更新部42は、勝者の検出部の優先特徴を、
それが勝ち得た差ベクトルに向けて、ある量だけ移動させる。
用いて、損失なく、学習すべき入力ドメインからの多数の「比較」パターンを格
納する。入力した新たな各パターンを1つ以上の比較パターンと比較し、比較毎
に差ベクトルDIFF[]を発生する。割当部66は、それぞれの差ベクトル(
パーツ)を、特徴記述信号32[m]によって伝達されるそれぞれの特徴検出部
28[m]の優先特徴と比較する。差ベクトルと最も良く一致した検出部28[
m]が、その差ベクトルを「勝ち得て」、この情報をパーツ・マッピング信号4
4を通じて更新部42に伝達する。更新部42は、勝者の検出部の優先特徴を、
それが勝ち得た差ベクトルに向けて、ある量だけ移動させる。
【0137】 十分な量のかかる訓練の後、特徴検出部28を、逆伝播を基にするニューラル
・ネットワークへの入力レイヤとして用い、これは、分類部34の役割を果たす
。これを行なうには、特徴アクティビティ信号30を逆伝播ネットワークへの入
力とし、特徴検出部28の各々を、後続の新たな入力信号26においてその優先
特徴が発見される範囲で、アクティブにする。次に、これら予備訓練した特徴検
出部28を用いて逆伝播ネットワーク上において従来の監視訓練を行う。その結
果、学習データ圧縮入力レイヤのために、リソースが少なくて済むパターン認識
装置が得られる。更に、訓練した特徴検出部28は、パターン・ドメインに関す
る貴重な情報を表すので、それらの優先特徴をコピーするか、あるいはその他の
方法で同等の認識システムに転送し、当該同等のシステムに対する訓練を回避す
ることも可能である。
・ネットワークへの入力レイヤとして用い、これは、分類部34の役割を果たす
。これを行なうには、特徴アクティビティ信号30を逆伝播ネットワークへの入
力とし、特徴検出部28の各々を、後続の新たな入力信号26においてその優先
特徴が発見される範囲で、アクティブにする。次に、これら予備訓練した特徴検
出部28を用いて逆伝播ネットワーク上において従来の監視訓練を行う。その結
果、学習データ圧縮入力レイヤのために、リソースが少なくて済むパターン認識
装置が得られる。更に、訓練した特徴検出部28は、パターン・ドメインに関す
る貴重な情報を表すので、それらの優先特徴をコピーするか、あるいはその他の
方法で同等の認識システムに転送し、当該同等のシステムに対する訓練を回避す
ることも可能である。
【0138】 メモリ40および特徴検出部28はこの実施形態では別個であるので、パーツ
(有望特徴)への区分は、これら2つのサブシステムを緊密に一体化する実施形
態(第1の好適な実施形態のように)ほど、全体的には優れていない可能性が高
い。また、データ圧縮は損失的手順であり、他の未監視手順に関しては、手近な
分類タスクに関連する特徴の学習を強制する固有の方法がない。これらの理由の
ために、この実施形態は、特に、ツールとして、しかも実験が可能な場合にのみ
用いるとよく、任務に厳格なタスクのための「迅速に解決する」解法として用い
るべきではない。勿論、これは、パターン・ドメインがよく理解されていない限
り、第1の好適な実施形態を含む全ての適応型パターン認識装置に、ある程度当
てはまることである。
(有望特徴)への区分は、これら2つのサブシステムを緊密に一体化する実施形
態(第1の好適な実施形態のように)ほど、全体的には優れていない可能性が高
い。また、データ圧縮は損失的手順であり、他の未監視手順に関しては、手近な
分類タスクに関連する特徴の学習を強制する固有の方法がない。これらの理由の
ために、この実施形態は、特に、ツールとして、しかも実験が可能な場合にのみ
用いるとよく、任務に厳格なタスクのための「迅速に解決する」解法として用い
るべきではない。勿論、これは、パターン・ドメインがよく理解されていない限
り、第1の好適な実施形態を含む全ての適応型パターン認識装置に、ある程度当
てはまることである。
【0139】 この実施形態は、特徴検出部28およびメモリ40の緊密な一体化を欠くが、
第1の好適な実施形態のような実施形態よりも実現がいくらか簡単でもある。更
に、これは、分類部34として多種多様の逆伝播ネットワークを使用することを
可能とし、非常に柔軟性が高く強力なパターン認識ツールとなる。
第1の好適な実施形態のような実施形態よりも実現がいくらか簡単でもある。更
に、これは、分類部34として多種多様の逆伝播ネットワークを使用することを
可能とし、非常に柔軟性が高く強力なパターン認識ツールとなる。
【0140】 実施態様 前述のように、第2の好適な実施形態の中核は、汎用デジタル・コンピュータ
においてソフトウエアで実現する。従って、図10の構造に関するサブシステム
の説明と、具体的な実現に関する説明との間には、概念的マッピングが存在する
。このマッピングは次の通りである。
においてソフトウエアで実現する。従って、図10の構造に関するサブシステム
の説明と、具体的な実現に関する説明との間には、概念的マッピングが存在する
。このマッピングは次の通りである。
【0141】 入力信号26は、変数INPUT[]の格納およびコンピュータ・メモリから
の後の検索によって実現される(「コンピュータ・メモリ」という用語を「メモ
リ40」と混同しないよう注記しておくが、しかしながら、勿論前者は後者を実
現するために用いられる)。特徴検出部28の優先特徴は、コンピュータ・メモ
リにアレイ変数WEIGHT[][][]として格納される。特徴記述信号32
は、WEIGHTアレイの適切な要素の格納およびコンピュータ・メモリからの
検索によって実現する。特徴アクティビティ信号30は、アレイACT[]の格
納および検索によって実現する。特徴検出部28の実現は、ACT[]の値を計
算するプログラム・コードを含む。分類部34は、(従来の)逆伝播ネットワー
クの機能性を提供するプログラム・コードによって実現する。この逆伝播プログ
ラム・コードは、変数OUTPUTの値を計算する。OUTPUTの格納および
検索によって、出力信号36を実現する。
の後の検索によって実現される(「コンピュータ・メモリ」という用語を「メモ
リ40」と混同しないよう注記しておくが、しかしながら、勿論前者は後者を実
現するために用いられる)。特徴検出部28の優先特徴は、コンピュータ・メモ
リにアレイ変数WEIGHT[][][]として格納される。特徴記述信号32
は、WEIGHTアレイの適切な要素の格納およびコンピュータ・メモリからの
検索によって実現する。特徴アクティビティ信号30は、アレイACT[]の格
納および検索によって実現する。特徴検出部28の実現は、ACT[]の値を計
算するプログラム・コードを含む。分類部34は、(従来の)逆伝播ネットワー
クの機能性を提供するプログラム・コードによって実現する。この逆伝播プログ
ラム・コードは、変数OUTPUTの値を計算する。OUTPUTの格納および
検索によって、出力信号36を実現する。
【0142】 メモリ40は、各々別個の入力信号26によって表される一連の訓練パターン
を全体において格納するためのコンピュータ・ストレージおよびプログラム・コ
ードを含む。検索信号68の実現は、COMPAREPAT値の格納および検索
を含む。この値の各々は「比較」パターンを表し、訓練パターンの1つである。
割当部66の実現は、現訓練パターンTRAINPATと現比較パターンCOM
PAREPATとの間の差を計算するコードを含む。また、この差を表す変数D
IFF[]のための格納部も含む。更に、優先特徴がDIFF[]に最良に一致
する特徴検出部28[IMIN]を発見するコードも含む。パーツ・マッピング
信号44は、変数DIFF[]およびWEIGHT[IMIN][]の格納およ
び検索によって実現する。更新部42の実現は、WEIGHT[IMIN][]
をDIFF[]の方向に変更するコードを含む。
を全体において格納するためのコンピュータ・ストレージおよびプログラム・コ
ードを含む。検索信号68の実現は、COMPAREPAT値の格納および検索
を含む。この値の各々は「比較」パターンを表し、訓練パターンの1つである。
割当部66の実現は、現訓練パターンTRAINPATと現比較パターンCOM
PAREPATとの間の差を計算するコードを含む。また、この差を表す変数D
IFF[]のための格納部も含む。更に、優先特徴がDIFF[]に最良に一致
する特徴検出部28[IMIN]を発見するコードも含む。パーツ・マッピング
信号44は、変数DIFF[]およびWEIGHT[IMIN][]の格納およ
び検索によって実現する。更新部42の実現は、WEIGHT[IMIN][]
をDIFF[]の方向に変更するコードを含む。
【0143】 アーキテクチャおよびパラメータの選択 システム・アーキテクチャの或る面は、解決すべき問題によって決定される。
入力ユニットの数(最下位レイヤにおける入力ユニット)は、選択した入力表現
によって決定される。この表現は0/1の二進数には好ましいが、それ以外は、
その構成は設計者に委ねられることを思い出されたい。適切な入力表現の作成は
、従来技術のパターン認識に関する文献における共通のタスクである。
入力ユニットの数(最下位レイヤにおける入力ユニット)は、選択した入力表現
によって決定される。この表現は0/1の二進数には好ましいが、それ以外は、
その構成は設計者に委ねられることを思い出されたい。適切な入力表現の作成は
、従来技術のパターン認識に関する文献における共通のタスクである。
【0144】 この実施形態は、1レイヤの独立特徴学習のみを有する。これは、(アクティ
ビティが入力信号26によって伝達される)入力ユニットからの特徴検出部28
への重みを含む。これらの重みは優先特徴を具体化し、変数WEIGHT[][
]として格納される。しかしながら、逆伝播ネットワーク・アーキテクチャは、
多数のレイヤのコネクションを有することも可能である。考慮すべきことは、従
来技術の逆伝播ネットにおけるものと同じであるが、逆伝播ネットへの入力がデ
ータ圧縮レイヤから来るということを余分に考慮する。どちらかと言えば、これ
は、データ圧縮を行わずに用いられてきた逆伝播ネットの1レイヤに対する必要
性をなくすことも可能である。しかし、逆伝播アーキテクチャは、データ圧縮が
ない場合のものから変更しない方が好ましい。
ビティが入力信号26によって伝達される)入力ユニットからの特徴検出部28
への重みを含む。これらの重みは優先特徴を具体化し、変数WEIGHT[][
]として格納される。しかしながら、逆伝播ネットワーク・アーキテクチャは、
多数のレイヤのコネクションを有することも可能である。考慮すべきことは、従
来技術の逆伝播ネットにおけるものと同じであるが、逆伝播ネットへの入力がデ
ータ圧縮レイヤから来るということを余分に考慮する。どちらかと言えば、これ
は、データ圧縮を行わずに用いられてきた逆伝播ネットの1レイヤに対する必要
性をなくすことも可能である。しかし、逆伝播アーキテクチャは、データ圧縮が
ない場合のものから変更しない方が好ましい。
【0145】 非監視レイヤにおいて用いる特徴検出部28の数は、システムの逆伝播部分に
おける入力ユニットの数に対応し、最適な値を得るには実験が必要なパラメータ
である。これは、同様に、従来技術の装置が隠れユニットを有する場合の特徴で
ある。通常、この数は、非監視ネットワークにおける入力ユニット数Nよりも少
なくて当然である。それ以外の場合、データ圧縮を行なわない。最初に試す数は
、入力ドメインにおける独立した特徴の数における最良の推定でなければならな
い。典型的な実験方法は、当該レイヤにおいて非常に少数のユニットから開始し
、(相互正当性実証データ集合に対する)訓練されたシステムの性能が改善し、
実験時間が許す限り、各訓練実行後に数を増大させていくことである。
おける入力ユニットの数に対応し、最適な値を得るには実験が必要なパラメータ
である。これは、同様に、従来技術の装置が隠れユニットを有する場合の特徴で
ある。通常、この数は、非監視ネットワークにおける入力ユニット数Nよりも少
なくて当然である。それ以外の場合、データ圧縮を行なわない。最初に試す数は
、入力ドメインにおける独立した特徴の数における最良の推定でなければならな
い。典型的な実験方法は、当該レイヤにおいて非常に少数のユニットから開始し
、(相互正当性実証データ集合に対する)訓練されたシステムの性能が改善し、
実験時間が許す限り、各訓練実行後に数を増大させていくことである。
【0146】 逆伝播レイヤは、従来技術において見られる、何れの適合性のあるフィードフ
ォワード逆伝播ネットワークに従って構築することも可能である(適合性を有す
るためには、逆伝播アーキテクチャは、恐らく1よりも大きなのMの実数値の入
力を許さなければならない)。逆伝播ネットワークへの入力は、変換された入力
信号26であり、この場合、変換は特徴検出部28を用いる。即ち、逆伝播ネッ
トヘの入力は、特徴アクティビティ信号要素30[m]の集合となる。尚、典型
的な逆伝播ネットワークでは、入力信号26に対しての所望の出力信号36を表
すターゲット信号46が各入力信号26に必要となることを注記しておく。
ォワード逆伝播ネットワークに従って構築することも可能である(適合性を有す
るためには、逆伝播アーキテクチャは、恐らく1よりも大きなのMの実数値の入
力を許さなければならない)。逆伝播ネットワークへの入力は、変換された入力
信号26であり、この場合、変換は特徴検出部28を用いる。即ち、逆伝播ネッ
トヘの入力は、特徴アクティビティ信号要素30[m]の集合となる。尚、典型
的な逆伝播ネットワークでは、入力信号26に対しての所望の出力信号36を表
すターゲット信号46が各入力信号26に必要となることを注記しておく。
【0147】 或る優れた逆伝播に関する参考文献、および更に別の関連する背景に対する参
照を次の出典において見出すことができる。脳の理論およびニューラル・ネット
ワークのハンドブック(The Handbook of Brain The
ory and Neural Network)(先に引用した)、ヘルツ、
クロフ、パーマー(Hertz,Krogh,&Palmer)によるニューラ
ル計算の理論の入門(Introduction to the Theory
of Nerural Computation)(1991年、アディソン
ウエズリー、レッドウッド・シティ、カリフォルニア(Addison−Wes
ley,Redwood City,CA))、およびC.M.ビショップ(C
.M.Bishop)によるパターン認識のためのニューラル・ネットワーク(
Neural Networks for Pattern Recognit
ion)(1995年、オックスフォード・ユニバーシティ・プレス、オックス
フォード、グレートブリテン(Oxford University Pres
s,Oxford,G.B.))。
照を次の出典において見出すことができる。脳の理論およびニューラル・ネット
ワークのハンドブック(The Handbook of Brain The
ory and Neural Network)(先に引用した)、ヘルツ、
クロフ、パーマー(Hertz,Krogh,&Palmer)によるニューラ
ル計算の理論の入門(Introduction to the Theory
of Nerural Computation)(1991年、アディソン
ウエズリー、レッドウッド・シティ、カリフォルニア(Addison−Wes
ley,Redwood City,CA))、およびC.M.ビショップ(C
.M.Bishop)によるパターン認識のためのニューラル・ネットワーク(
Neural Networks for Pattern Recognit
ion)(1995年、オックスフォード・ユニバーシティ・プレス、オックス
フォード、グレートブリテン(Oxford University Pres
s,Oxford,G.B.))。
【0148】 コンピュータ・ソフトウエアで逆伝播(および、場合によっては、この好適な
実施形態の残りの部分も)を実現するのに役立つ数多くの商用ソフトウエア・パ
ッケージも入手可能である。現在無料で(著作権に対する何らかの制約はある)
入手可能な特に強力で柔軟性のあるものは、オレイリ、ドーソンおよびマックリ
ーランド(O’Reilly,Dawson,McClelland)のPDP
++パッケージである。このパッケージは、認識のニューラル・ベースのための
センタ(Center for Neural Basis of Cogni
tion)(カーネギー・メロン大学(Carnegie Mellon Un
iversity)とピッツバーグ大学(The University of
Pittsburgh)の間のジョイント・プログラム)から、http:/
/www.cnbc.cmu.edu/PDP++/PDP++.html(ま
たはhttp://einstein.lerc.nasa.gov/pdp+
+/pdp−user_toc.html)においてインターネット上で(これ
を書いている時点では)入手可能である。このパッケージの文書も、逆伝播、お
よびオブジェクト指向プログラミングおよびC++言語を用いたその実現に関す
る学習にも非常に有用である。
実施形態の残りの部分も)を実現するのに役立つ数多くの商用ソフトウエア・パ
ッケージも入手可能である。現在無料で(著作権に対する何らかの制約はある)
入手可能な特に強力で柔軟性のあるものは、オレイリ、ドーソンおよびマックリ
ーランド(O’Reilly,Dawson,McClelland)のPDP
++パッケージである。このパッケージは、認識のニューラル・ベースのための
センタ(Center for Neural Basis of Cogni
tion)(カーネギー・メロン大学(Carnegie Mellon Un
iversity)とピッツバーグ大学(The University of
Pittsburgh)の間のジョイント・プログラム)から、http:/
/www.cnbc.cmu.edu/PDP++/PDP++.html(ま
たはhttp://einstein.lerc.nasa.gov/pdp+
+/pdp−user_toc.html)においてインターネット上で(これ
を書いている時点では)入手可能である。このパッケージの文書も、逆伝播、お
よびオブジェクト指向プログラミングおよびC++言語を用いたその実現に関す
る学習にも非常に有用である。
【0149】 トライアルの規制(パターン提示) 第2の実施形態の動作全体を図11に示す。第1の実施形態の場合と同様、こ
の実施形態の動作は、一連のトライアルと見なすことができ、その各々が、単一
の入力信号26の提示を含む。好ましくは、トライアルを1組の訓練トライアル
に分割し(即ち、訓練モードのみをイネーブルする)、それに1組の認識トライ
アルが続くようにする(認識のみをイネーブルする)。ここで生じ得る混乱の1
つは、逆伝播ネットの訓練も含めて、逆伝播ネットワークを用いて行う全ての動
作を「認識」が含むと解釈することである。この装置は、他の場合とは異なる入
力を供給すること以外、逆伝播ネットワークに関しては何ら特別なことは行わな
いので、逆伝播訓練については詳細に説明せず、ここでは、「認識」動作と見な
す。必要であれば、特に、これを「逆伝播訓練」と呼んで、「訓練」とは区別す
る。後者は、本装置の非監視の特徴検出部28の訓練のみを言及することを意味
する。
の実施形態の動作は、一連のトライアルと見なすことができ、その各々が、単一
の入力信号26の提示を含む。好ましくは、トライアルを1組の訓練トライアル
に分割し(即ち、訓練モードのみをイネーブルする)、それに1組の認識トライ
アルが続くようにする(認識のみをイネーブルする)。ここで生じ得る混乱の1
つは、逆伝播ネットの訓練も含めて、逆伝播ネットワークを用いて行う全ての動
作を「認識」が含むと解釈することである。この装置は、他の場合とは異なる入
力を供給すること以外、逆伝播ネットワークに関しては何ら特別なことは行わな
いので、逆伝播訓練については詳細に説明せず、ここでは、「認識」動作と見な
す。必要であれば、特に、これを「逆伝播訓練」と呼んで、「訓練」とは区別す
る。後者は、本装置の非監視の特徴検出部28の訓練のみを言及することを意味
する。
【0150】 トライアル前の初期設定 何れのトライアルを行なう前にも、メモリ40に訓練集合をロードする。メモ
リ40は、二次元アレイ変数MEMORY[][]として実施し、第1次元はパ
ターン全域を範囲とし、第2次元は、パターン内のエレメント全域を範囲とする
。尚、MEMORY[][n]は、INPUT[n]に対応することを注記して
おく。
リ40は、二次元アレイ変数MEMORY[][]として実施し、第1次元はパ
ターン全域を範囲とし、第2次元は、パターン内のエレメント全域を範囲とする
。尚、MEMORY[][n]は、INPUT[n]に対応することを注記して
おく。
【0151】 好ましくは、訓練集合内のパターン全てをメモリ40に格納する。しかしなが
ら、訓練集合が特別に大きい場合、ランダムなサンプルを比較パターンとして選
択してメモリ40に格納するという好適でない実施形態を試すことも可能である
。そうする場合、サンプル内のパターンは、独立して、そしてパターン・ドメイ
ン内におけるその分布に従ってランダムに選択しなければならない。
ら、訓練集合が特別に大きい場合、ランダムなサンプルを比較パターンとして選
択してメモリ40に格納するという好適でない実施形態を試すことも可能である
。そうする場合、サンプル内のパターンは、独立して、そしてパターン・ドメイ
ン内におけるその分布に従ってランダムに選択しなければならない。
【0152】 特徴検出部28の優先特徴は、アレイWEIGHT[][]を用いて実現する
。WEIGHTの第1次元は、Mの特徴検出部28全域を範囲とし、第2次元は
Nの入力ユニット全域を範囲とする。尚、これは第1の実施形態のWEIGHT
インデックス付け方式の逆であることを注記しておく。何故なら、(双方の実施
形態を何れからも見ることができるが)この実施形態は、パターン発生器よりも
パターン解釈器として見なす方が自然であるからである。
。WEIGHTの第1次元は、Mの特徴検出部28全域を範囲とし、第2次元は
Nの入力ユニット全域を範囲とする。尚、これは第1の実施形態のWEIGHT
インデックス付け方式の逆であることを注記しておく。何故なら、(双方の実施
形態を何れからも見ることができるが)この実施形態は、パターン発生器よりも
パターン解釈器として見なす方が自然であるからである。
【0153】 重みは、いずれのトライアルの前にも、小さなランダム値に初期設定しなけれ
ばならない。好ましくは、これらは0.02ないし0.04の範囲内で均一にラ
ンダムとなるべきであるが、リソースが実験を許すのであれば、これを実験的パ
ラメータとすることも可能である。試験していないが可能な改良の1つは、各特
徴検出部28[m]の重みベクトルWEIGHT[m][]をランダムに選択し
た訓練パターンの小さな倍数(例えば、0.01倍)にセットし、次いで、小さ
な乱数(例えば、0.02ないし0.03の間)を各重みに加算することである
(正の重みが常に得られるようにする)。尚、第1の実施形態におけると同様に
、学習の間に重みには範囲の制限を設けないが、学習手順自体は0ないし1の範
囲以内の重みを維持することを注記しておく。
ばならない。好ましくは、これらは0.02ないし0.04の範囲内で均一にラ
ンダムとなるべきであるが、リソースが実験を許すのであれば、これを実験的パ
ラメータとすることも可能である。試験していないが可能な改良の1つは、各特
徴検出部28[m]の重みベクトルWEIGHT[m][]をランダムに選択し
た訓練パターンの小さな倍数(例えば、0.01倍)にセットし、次いで、小さ
な乱数(例えば、0.02ないし0.03の間)を各重みに加算することである
(正の重みが常に得られるようにする)。尚、第1の実施形態におけると同様に
、学習の間に重みには範囲の制限を設けないが、学習手順自体は0ないし1の範
囲以内の重みを維持することを注記しておく。
【0154】 訓練トライアル 訓練トライアルにおける動作を、図12に更に詳細に示す。各訓練トライアル
毎に、独立して、そしてパターン・ドメインの分布に従ってランダムに、訓練集
合からパターンを選択する。この訓練パターンは、MEMORYに格納したパタ
ーンから来ることが好ましい。訓練パターンは、アレイTRINPAT[]に格
納される。
毎に、独立して、そしてパターン・ドメインの分布に従ってランダムに、訓練集
合からパターンを選択する。この訓練パターンは、MEMORYに格納したパタ
ーンから来ることが好ましい。訓練パターンは、アレイTRINPAT[]に格
納される。
【0155】 TRAINPATが選択されると、次に比較のためにループを実行する。各比
較は、MEMORYからのランダム・パターンの選択、およびそれのアレイCO
MPAREPAT[]への格納から開始する。
較は、MEMORYからのランダム・パターンの選択、およびそれのアレイCO
MPAREPAT[]への格納から開始する。
【0156】 TRAINPATおよびCOMPAREPATを試験し、これらが全ての二進
要素において同一か否かについて判定を行なう。同一である場合、COMPAR
EPATには、このトライアルに「使用された」と印を付け、処理は次の比較に
移る。
要素において同一か否かについて判定を行なう。同一である場合、COMPAR
EPATには、このトライアルに「使用された」と印を付け、処理は次の比較に
移る。
【0157】 第2の試験は、TRAINPATおよびCOMPAREPATが「ノイズ」だ
け異なるのか否かについて、即ち、これらは「本質的には同一である」か否かに
ついて判定を行なう。「ノイズ」の定義は、一般には、個々の問題によって異な
るが、最適な性能を得るためには、この試験を実施することができる。しかしな
がら、実験が不可能な場合、この好適な試験を用いるとよいが、これは、1のハ
ミング距離(異なるビットの数)を有する差を除外することである。この試験の
目的は、(この目的はあらゆる実験的変化を導べであり)、パターン・ドメイン
の真の特徴を表さない差を除外することである。TRAINPATおよびCOM
PAREPATがノイズだけ異なると判断された場合、COMPAREPATに
は、このトライアルに「使用された」と印を付け、処理は次の比較に移る。
け異なるのか否かについて、即ち、これらは「本質的には同一である」か否かに
ついて判定を行なう。「ノイズ」の定義は、一般には、個々の問題によって異な
るが、最適な性能を得るためには、この試験を実施することができる。しかしな
がら、実験が不可能な場合、この好適な試験を用いるとよいが、これは、1のハ
ミング距離(異なるビットの数)を有する差を除外することである。この試験の
目的は、(この目的はあらゆる実験的変化を導べであり)、パターン・ドメイン
の真の特徴を表さない差を除外することである。TRAINPATおよびCOM
PAREPATがノイズだけ異なると判断された場合、COMPAREPATに
は、このトライアルに「使用された」と印を付け、処理は次の比較に移る。
【0158】 次に、1つまたはせいぜい少数の特徴の相違に比較を制限しようとする別の試
験を行なう。これを「非類似性試験」と呼ぶ。何故なら、目的は、訓練パターン
からは非常に相違する比較パターンを破棄することであるからである。理想的な
のは、1つだけ特徴が異なるパターン対のみを用いることである。何故なら、こ
れらはパターン・ドメインの特徴が何であるのかを示すのに最良であるからであ
る。しかしながら、予め特徴を特定することができないので、所与のパターン対
について異なる特徴の数を推定するための発見的方法を用いることができるのみ
である。
験を行なう。これを「非類似性試験」と呼ぶ。何故なら、目的は、訓練パターン
からは非常に相違する比較パターンを破棄することであるからである。理想的な
のは、1つだけ特徴が異なるパターン対のみを用いることである。何故なら、こ
れらはパターン・ドメインの特徴が何であるのかを示すのに最良であるからであ
る。しかしながら、予め特徴を特定することができないので、所与のパターン対
について異なる特徴の数を推定するための発見的方法を用いることができるのみ
である。
【0159】 好適な非類似性試験は、入力ユニット数Nの或る固定の割合よりも大きなハミ
ング距離を有する比較を排除する。図12に示すように、20%の値を用いるこ
とを推奨する。しかしながら、実験リソースが許すのであれば、この値の粗い最
適化を行なうとよい。(尚、用いるハミング距離は、決して、「本質的同一性」
試験のそれ以下にしてはならないことを注記しておく。さもないと、全ての比較
が除外される。かかる過剰な制限は、他の好適でない試験を用いる場合も、回避
しなければならない)。この20%という好適な値は、入力パターンは疎でない
こと、即ち、平均して、おおまかに等しい数のパターン要素がオンであり、オフ
であることを仮定している。これがあてはまらない場合、訓練集合全体に対して
、パターンの「オン」ビットの平均数を決定し、その平均値の40%を用いるこ
とによって、好適な値を計算しなければならない。
ング距離を有する比較を排除する。図12に示すように、20%の値を用いるこ
とを推奨する。しかしながら、実験リソースが許すのであれば、この値の粗い最
適化を行なうとよい。(尚、用いるハミング距離は、決して、「本質的同一性」
試験のそれ以下にしてはならないことを注記しておく。さもないと、全ての比較
が除外される。かかる過剰な制限は、他の好適でない試験を用いる場合も、回避
しなければならない)。この20%という好適な値は、入力パターンは疎でない
こと、即ち、平均して、おおまかに等しい数のパターン要素がオンであり、オフ
であることを仮定している。これがあてはまらない場合、訓練集合全体に対して
、パターンの「オン」ビットの平均数を決定し、その平均値の40%を用いるこ
とによって、好適な値を計算しなければならない。
【0160】 ここで強調すべきは、この試験は、最適化した割合を用いても、完ぺきではな
いということである。問題は、真の特徴は非常に多数の入力ユニットで構成され
る可能性があるということである。しかしながら、代替案、即ち、単一の特徴の
差のためにあらゆる非同一パターン対を考慮する方法は、理論的には遥かに正当
性に乏しい。また、いつもと同様、システム設計者が、ここで示唆する値よりも
、所与のパターン・ドメインでは或る特定の値の方が適切であると確信する何ら
かの理由を有する場合、設計者が知っている推定を実験に対する開始点として優
先する。
いということである。問題は、真の特徴は非常に多数の入力ユニットで構成され
る可能性があるということである。しかしながら、代替案、即ち、単一の特徴の
差のためにあらゆる非同一パターン対を考慮する方法は、理論的には遥かに正当
性に乏しい。また、いつもと同様、システム設計者が、ここで示唆する値よりも
、所与のパターン・ドメインでは或る特定の値の方が適切であると確信する何ら
かの理由を有する場合、設計者が知っている推定を実験に対する開始点として優
先する。
【0161】 COMPAREPATが、同一性、近同一性、および非類似性の試験に合格し
たと仮定すると、差ベクトルを計算し、変数DIFF[]に格納する。DIFF
は、ビット毎の演算AND−NOTによって得られる。2つのブール変数xおよ
びyについて、xAND−NOTyの値は、xが真でyが偽である場合にのみ、
真(1に等しい)となる。従って、各要素DIFF[n]は、TRAINPAT
[n] AND−NOT COMPAREPAT[n]の値にセットされる。
たと仮定すると、差ベクトルを計算し、変数DIFF[]に格納する。DIFF
は、ビット毎の演算AND−NOTによって得られる。2つのブール変数xおよ
びyについて、xAND−NOTyの値は、xが真でyが偽である場合にのみ、
真(1に等しい)となる。従って、各要素DIFF[n]は、TRAINPAT
[n] AND−NOT COMPAREPAT[n]の値にセットされる。
【0162】 次に、Mの特徴検出部28に対してループに入る。かかる検出部mのそれぞれ
に、変数DISTを計算する。これはWEIGHT[m][]とDIFF[]の
間のユークリッド距離である。全ての特徴検出部全体のDISTの最小値、およ
びこの最小値に対応するインデックスmを、それぞれ、MINおよびIMINに
維持する。
に、変数DISTを計算する。これはWEIGHT[m][]とDIFF[]の
間のユークリッド距離である。全ての特徴検出部全体のDISTの最小値、およ
びこの最小値に対応するインデックスmを、それぞれ、MINおよびIMINに
維持する。
【0163】 一旦、最少距離特徴検出部28[IMIN]を発見したなら、その優先特徴W
EIGHT[IMIN][]を、現在の差ベクトルDIFF[]に向けて移動さ
せる。尚、DIFFは、特徴検出部28[IMIN]が責任を負うTRAINP
ATの「部分(パーツ)」を表すことを注記しておく。
EIGHT[IMIN][]を、現在の差ベクトルDIFF[]に向けて移動さ
せる。尚、DIFFは、特徴検出部28[IMIN]が責任を負うTRAINP
ATの「部分(パーツ)」を表すことを注記しておく。
【0164】 各比較毎に行われる学習量は、LRATE、学習率によって決定される。LR
ATEは、1.0に、トライアルにおいて行なった比較の数(除外も含む)(こ
れは、好適な実施形態では、NUMPATS、訓練パターンの数に等しい)の逆
数を乗算し、ITRIAL、現トライアルのインデックス(1から始まる)で除
算した値に等しい。WEIGHT[IMIN][]およびDIFF[]の各要素
nについて、差DIFF[n]−WEIGHT[IMIN][n]を計算し、L
RATEを乗算し、結果をWEIGHT[IMIN][n]に加算する。
ATEは、1.0に、トライアルにおいて行なった比較の数(除外も含む)(こ
れは、好適な実施形態では、NUMPATS、訓練パターンの数に等しい)の逆
数を乗算し、ITRIAL、現トライアルのインデックス(1から始まる)で除
算した値に等しい。WEIGHT[IMIN][]およびDIFF[]の各要素
nについて、差DIFF[n]−WEIGHT[IMIN][n]を計算し、L
RATEを乗算し、結果をWEIGHT[IMIN][n]に加算する。
【0165】 比較ループは、このように、全ての比較パターンがなくなるまで継続する。置
換することなく新たな比較パターンを選択するので、MEMORYの比較集合か
らのそれぞれのものを、各TRAINPATに1回だけ用いる。
換することなく新たな比較パターンを選択するので、MEMORYの比較集合か
らのそれぞれのものを、各TRAINPATに1回だけ用いる。
【0166】 この訓練パターンに対して全ての比較をし終え、特徴を更新した後、新たな訓
練パターンを選択する。COMPAREPATと同様、TRAINPATは、一
旦選択されるとプールにおいて再度配されないので、全てのNUMPATSパタ
ーンを用い終わるまで、各々を1回だけ用いる(用い終わった時点で、訓練は、
訓練パターンに対して新たなサイクルを開始することができる)。
練パターンを選択する。COMPAREPATと同様、TRAINPATは、一
旦選択されるとプールにおいて再度配されないので、全てのNUMPATSパタ
ーンを用い終わるまで、各々を1回だけ用いる(用い終わった時点で、訓練は、
訓練パターンに対して新たなサイクルを開始することができる)。
【0167】 学習プロセスの停止 何れかの時点で、学習を停止する決定を行なう。このための好適な方法では、
各訓練パターン毎に、各特徴検出部が勝ち得た比較の数を追跡する。即ち、2−
DアレイNUMWINS[][]を維持し、ここで、NUMWINS[m][t
]は、特徴検出部mがトライアルtで比較を勝ち得た回数である。訓練集合全体
が繰り返し提示され(図12において、「必要に応じてセットをリサイクルする
」命令で示す)、既に説明したように各繰り返しを、(1)訓練集合の繰り返し
の間にNUMWINS[][]アレイで変化する要素がなくなるまで、または(
2)最大数の訓練集合の繰り返しが実行されるまで、行なう。最大値は、実験で
求めることができ、この例での好適な値は20である。
各訓練パターン毎に、各特徴検出部が勝ち得た比較の数を追跡する。即ち、2−
DアレイNUMWINS[][]を維持し、ここで、NUMWINS[m][t
]は、特徴検出部mがトライアルtで比較を勝ち得た回数である。訓練集合全体
が繰り返し提示され(図12において、「必要に応じてセットをリサイクルする
」命令で示す)、既に説明したように各繰り返しを、(1)訓練集合の繰り返し
の間にNUMWINS[][]アレイで変化する要素がなくなるまで、または(
2)最大数の訓練集合の繰り返しが実行されるまで、行なう。最大値は、実験で
求めることができ、この例での好適な値は20である。
【0168】 尚、この手順は訓練集合全体を通じての多数の繰り返しを必要とするが、トラ
イアル・インデックスITRIALをリセットしてはならない。何故なら、これ
は、行われた訓練トライアルの総数を表すからである。所与の訓練集合の繰り返
し内におけるパターンの提示を追跡するためには、別のインデックス変数を用い
ればよい。
イアル・インデックスITRIALをリセットしてはならない。何故なら、これ
は、行われた訓練トライアルの総数を表すからである。所与の訓練集合の繰り返
し内におけるパターンの提示を追跡するためには、別のインデックス変数を用い
ればよい。
【0169】 実験リソースが許すのであれば、学習を停止するために異なる評価基準を試す
ことも有用であろう。これは、特に、大きな訓練集合の場合に当てはまり、この
場合、1回の訓練集合の繰り返し以内で、学習が容認可能な状態に収束するよう
になり得る。かかる技法の1つとして、MIN値の実行中平均(running
average)(勝者の特徴検出部IMINとそれが勝ち得たDIFFベク
トルとの間のユークリッド距離)を維持し、この実行中平均のグラフがある評価
基準の(小さな)傾斜に達したときに、学習を停止することが考えられる。
ことも有用であろう。これは、特に、大きな訓練集合の場合に当てはまり、この
場合、1回の訓練集合の繰り返し以内で、学習が容認可能な状態に収束するよう
になり得る。かかる技法の1つとして、MIN値の実行中平均(running
average)(勝者の特徴検出部IMINとそれが勝ち得たDIFFベク
トルとの間のユークリッド距離)を維持し、この実行中平均のグラフがある評価
基準の(小さな)傾斜に達したときに、学習を停止することが考えられる。
【0170】 逆伝播ネットワークの使用 一旦訓練が終了したなら、訓練モードをディスエーブルし、認識モードをイネ
ーブルする。この時点において、採用した特定の逆伝播アーキテクチャおよび手
順は、パターンを選択する順序および方法を決定する。前述のように、逆伝播ネ
ットワークの訓練がここで行われるが、逆伝播ネットワークは本装置に対して周
知のモジュールであるので、訓練を含むそれに対する全ての動作は、ここでは「
認識モード」と見なすことを思い出されたい。
ーブルする。この時点において、採用した特定の逆伝播アーキテクチャおよび手
順は、パターンを選択する順序および方法を決定する。前述のように、逆伝播ネ
ットワークの訓練がここで行われるが、逆伝播ネットワークは本装置に対して周
知のモジュールであるので、訓練を含むそれに対する全ての動作は、ここでは「
認識モード」と見なすことを思い出されたい。
【0171】 訓練集合内のパターンは全て、逆伝播ネットの訓練前に一度に全て(これが好
ましく、また、図11に示す)、またはその訓練の間1回に1つずつ、逆伝播モ
ジュールが用いるために変換しなければならない。一旦訓練されたなら、認識す
べき新たなパターンも変換し、適正な認識を可能とするようにしなければならな
い。
ましく、また、図11に示す)、またはその訓練の間1回に1つずつ、逆伝播モ
ジュールが用いるために変換しなければならない。一旦訓練されたなら、認識す
べき新たなパターンも変換し、適正な認識を可能とするようにしなければならな
い。
【0172】 入力レイヤは(ここでは)固定の重み、および逆伝播ネットとは異なる活性化
関数を有するが、パターンの変換は、逆伝播ネットへ供給する入力レイヤとして
見なすことができる。この明細書の用語で言うと、特徴アクティビティ信号30
は、逆伝播モジュールへの入力を形成する。従って、ここでは、この信号30を
この実施形態ではどのように生成するかについて説明し、逆伝播の実施態様をユ
ーザに委ねる。使用する逆伝播の特定の実施形態に入り込む検討は、ここに記す
ことを除いて、従来技術の逆伝播ネットにおけるものと同一である。
関数を有するが、パターンの変換は、逆伝播ネットへ供給する入力レイヤとして
見なすことができる。この明細書の用語で言うと、特徴アクティビティ信号30
は、逆伝播モジュールへの入力を形成する。従って、ここでは、この信号30を
この実施形態ではどのように生成するかについて説明し、逆伝播の実施態様をユ
ーザに委ねる。使用する逆伝播の特定の実施形態に入り込む検討は、ここに記す
ことを除いて、従来技術の逆伝播ネットにおけるものと同一である。
【0173】 図11に示すように、特徴アクティビティ信号30は、アレイACT[]とし
て格納され、以下のように決定される。入力パターン(信号26)をアレイIN
PUT[]に格納する。所与のACT[j]の値を、INPUT[]とWEIG
HT[j][]のベクトルの間の内積として計算する。(内積は、ドット積とし
ても知られており、2つのベクトルの類似性の尺度となる)。
て格納され、以下のように決定される。入力パターン(信号26)をアレイIN
PUT[]に格納する。所与のACT[j]の値を、INPUT[]とWEIG
HT[j][]のベクトルの間の内積として計算する。(内積は、ドット積とし
ても知られており、2つのベクトルの類似性の尺度となる)。
【0174】 尚、ACT値は実数であり、範囲0〜1を超えてもよく、特にこれらは入力N
の要素数と同じ位に高い範囲にわたってもよいことを注記しておく。かかる実値
の入力は、一般に、逆伝播ネットワークでは問題ではない。しかしながら、二進
入力または1以下の入力を仮定するまたは好む、特殊化した逆伝播の実施態様も
幾つかある。かかる逆伝播の実施態様は、この好適な実施形態には適していない
。
の要素数と同じ位に高い範囲にわたってもよいことを注記しておく。かかる実値
の入力は、一般に、逆伝播ネットワークでは問題ではない。しかしながら、二進
入力または1以下の入力を仮定するまたは好む、特殊化した逆伝播の実施態様も
幾つかある。かかる逆伝播の実施態様は、この好適な実施形態には適していない
。
【0175】 アレイOUTPUT[]として格納された逆伝播ネットワークの出力は、出力
信号36となる。逆伝播ネットワークの出力ユニットの活性化値は、直接、例え
ば、後見の確率推定値として用いることもでき、あるいはこれらから分類インデ
ックスを計算して出力信号36として用いることも可能である(後者の場合、O
UTPUT[]は単に1要素アレイとなる)。用いる正確な方法は、用いる作用
部38の種類、および対処しようとする認識問題によって異なる。適切な方法は
、個々の認識タスクが与えられれば、当業者には容易に明白となろう。
信号36となる。逆伝播ネットワークの出力ユニットの活性化値は、直接、例え
ば、後見の確率推定値として用いることもでき、あるいはこれらから分類インデ
ックスを計算して出力信号36として用いることも可能である(後者の場合、O
UTPUT[]は単に1要素アレイとなる)。用いる正確な方法は、用いる作用
部38の種類、および対処しようとする認識問題によって異なる。適切な方法は
、個々の認識タスクが与えられれば、当業者には容易に明白となろう。
【0176】 結論、派生、発明の範囲 このように、本発明によるパターン認識装置は、同じタスクに適用する従来技
術の装置よりも少ない数の物理パターン例で訓練できることが、読者にはわかる
であろう。更に、本発明は、比較的小さな訓練集合によって、学習の汎化を改善
することができる。更に、潜在的に、比較的大きなアーキテクチャへのスケーリ
ングの改善も可能である。
術の装置よりも少ない数の物理パターン例で訓練できることが、読者にはわかる
であろう。更に、本発明は、比較的小さな訓練集合によって、学習の汎化を改善
することができる。更に、潜在的に、比較的大きなアーキテクチャへのスケーリ
ングの改善も可能である。
【0177】 これまでの記載には多数の特定が含まれているが、これらは、本発明の範囲の
限定としてではなく、その好適な実施形態の例示として解釈して当然であろう。
他にも多くの変形が可能である。例えば、厳格に階層化されていない(即ち、「
レイヤを飛ばす」コネクションを有する)ニューラル・ネットワークを用いる、
または、制限した受け入れフィールドのような、レイヤ間に完全な接続性以外の
或るパターンの接続性を用いるニューラル・ネットワーク利用型の実施形態も使
用可能である。
限定としてではなく、その好適な実施形態の例示として解釈して当然であろう。
他にも多くの変形が可能である。例えば、厳格に階層化されていない(即ち、「
レイヤを飛ばす」コネクションを有する)ニューラル・ネットワークを用いる、
または、制限した受け入れフィールドのような、レイヤ間に完全な接続性以外の
或るパターンの接続性を用いるニューラル・ネットワーク利用型の実施形態も使
用可能である。
【0178】 第1の好適な実施形態と同様の実施形態で、ギッブスのサンプリングと同時に
重みを更新するものも可能である。即ち、各ユニットをサンプリングし、他のユ
ニットに移動する前にその重みを変更させることも可能である。より一般的には
、所与の特徴検出部28[a]は、他の部分を他の特徴検出部28[b]へ割り
当てる前に、更新部42によって変更することも可能である(これは、第2の好
適な実施形態も含めて事実上あらゆる他の実施形態にも当てはまる)。
重みを更新するものも可能である。即ち、各ユニットをサンプリングし、他のユ
ニットに移動する前にその重みを変更させることも可能である。より一般的には
、所与の特徴検出部28[a]は、他の部分を他の特徴検出部28[b]へ割り
当てる前に、更新部42によって変更することも可能である(これは、第2の好
適な実施形態も含めて事実上あらゆる他の実施形態にも当てはまる)。
【0179】 本発明の他の多くの変形も、特に2つの好適な実施形態間の比較的大きな差異
を認めることによって、当業者には明白となろう。
を認めることによって、当業者には明白となろう。
【0180】 従って、本発明の範囲は、図示し説明した実施形態により決定されるのではな
く、特許請求の範囲およびその法的な均等物によって決定されることとする。
く、特許請求の範囲およびその法的な均等物によって決定されることとする。
【図1】 本発明によるパターン認識システムのブロック図であり、双方の好適な実施形
態に共通のサブシステムを示す。
態に共通のサブシステムを示す。
【図2】 好適な実施形態を動作させるための手順全体のフロー図である。
【図3】 第1の好適な実施形態の構造を示すブロック図である。
【図4】 第1の好適な実施形態を動作させるための手順全体のフロー図である。
【図5】 第1の好適な実施形態のパラメータの初期設定を示すフロー図である。
【図6】 第1の好適な実施形態において実行するギッブスのサンプリングの1サイクル
のフロー図である。
のフロー図である。
【図7】 第1の好適な実施形態のギッブスのサンプリング・プロセスのサイクルにおい
て、新たなユニット活性化を選択する手順のフロー図である。
て、新たなユニット活性化を選択する手順のフロー図である。
【図8】 第1の好適な実施形態のギッブスのサンプリング・プロセスのサイクルにおい
て、尤度に対するユニットの寄与を更新する手順のブロー図である。
て、尤度に対するユニットの寄与を更新する手順のブロー図である。
【図9】 第1の好適な実施形態のギッブスのサンプリング・プロセスのサイクルにおい
て接続重みを更新する手順のフロー図である。
て接続重みを更新する手順のフロー図である。
【図10】 第2の好適な実施形態の構造を示すブロック図である。
【図11】 第2の好適な実施形態を動作させる手順全体のフロー図である。
【図12】 第2の好適な実施形態の特徴検出部を訓練する手順のフロー図である。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成11年6月24日(1999.6.24)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正内容】
【特許請求の範囲】
【手続補正2】
【補正対象書類名】図面
【補正対象項目名】図3
【補正方法】変更
【補正内容】
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成11年12月6日(1999.12.6)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正内容】
【特許請求の範囲】
【請求項10】 請求項9記載の方法であって、ステップ(a)ないしステ
ップ(c)を繰り返して別のパターン認識装置を作成し、少なくとも1つの前記
の訓練した特徴検出部の優先特徴を、前記別のパターン認識装置の少なくとも1
つの特徴検出部に転送するステップを更に含む方法。
ップ(c)を繰り返して別のパターン認識装置を作成し、少なくとも1つの前記
の訓練した特徴検出部の優先特徴を、前記別のパターン認識装置の少なくとも1
つの特徴検出部に転送するステップを更に含む方法。
【手続補正書】
【提出日】平成13年2月22日(2001.2.22)
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】図1
【補正方法】変更
【補正内容】
【手続補正2】
【補正対象書類名】図面
【補正対象項目名】図2
【補正方法】変更
【補正内容】
【手続補正3】
【補正対象書類名】図面
【補正対象項目名】図3
【補正方法】変更
【補正内容】
【手続補正4】
【補正対象書類名】図面
【補正対象項目名】図4
【補正方法】変更
【補正内容】
【手続補正5】
【補正対象書類名】図面
【補正対象項目名】図5
【補正方法】変更
【補正内容】
【手続補正6】
【補正対象書類名】図面
【補正対象項目名】図6
【補正方法】変更
【補正内容】
【手続補正7】
【補正対象書類名】図面
【補正対象項目名】図7
【補正方法】変更
【補正内容】
【手続補正8】
【補正対象書類名】図面
【補正対象項目名】図10
【補正方法】変更
【補正内容】
【手続補正9】
【補正対象書類名】図面
【補正対象項目名】図11
【補正方法】変更
【補正内容】
【手続補正10】
【補正対象書類名】図面
【補正対象項目名】図12
【補正方法】変更
【補正内容】
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SZ,UG,ZW),EA(AM ,AZ,BY,KG,KZ,MD,RU,TJ,TM) ,AL,AM,AT,AU,AZ,BA,BB,BG, BR,BY,CA,CH,CN,CU,CZ,DE,D K,EE,ES,FI,GB,GE,GH,GM,HR ,HU,ID,IL,IS,JP,KE,KG,KP, KR,KZ,LC,LK,LR,LS,LT,LU,L V,MD,MG,MK,MN,MW,MX,NO,NZ ,PL,PT,RO,RU,SD,SE,SG,SI, SK,SL,TJ,TM,TR,TT,UA,UG,U S,UZ,VN,YU,ZW 【要約の続き】 の好適な実施形態は、特徴検出部(28)とは別個の無 損失メモリ(40)を維持し、パーツは、現入力信号 (26)と、メモリ(40)に格納されている比較パタ ーンとの差から成る。
Claims (20)
- 【請求項1】 物理パターンを認識してそれに応答する装置であって、 (a)或る環境における物理パターンを表す入力信号を生成する変換手段と、 (b)前記入力信号に応答する複数の特徴検出部であって、各々、優先特徴の
表現を格納する重み手段を有し、前記優先特徴の各々が前記入力信号内に存在す
る度合いを表す特徴アクティビティ信号を生成し、前記優先特徴を表す特徴記述
信号を生成する、特徴検出部と、 (c)前記特徴アクティビティ信号に応答し、前記入力信号に対応するシステ
ム活動を表す出力信号を生成する分類手段と、 (d)前記出力信号に応答し、前記環境における活動を遂行する作用手段と、 (e)前記入力信号に応答し、前記入力信号の表現を近似的に格納し、以前に
格納した入力信号を表す検索信号を生成するメモリ手段と、 (f)前記入力信号、前記検索信号、および前記特徴記述信号に応答し、複数
のパーツと責任を負う少なくとも1つの特徴検出部との間のマッピングを表すパ
ーツ・マッピング信号を生成し、各パーツが前記入力信号および前記以前に格納
した入力信号の有望特徴に対応するようにする、割当手段と、 (g)前記パーツ・マッピング信号に応答し、前記責任を負う特徴検出部の各
々を変更し、その優先特徴を、それに割り当てられたパーツに一層類似させる、
更新手段と、 を備えることにより、前記責任を負う特徴検出部の各々の変更が、他の特徴検出
部の変更とは十分に独立しており、 相関特徴訓練を有する装置よりも少ない物理パターン例で効果的に訓練するこ
とができる、 装置。 - 【請求項2】 請求項1記載の装置であって、前記パーツ・マッピング信号
は、前記複数のパーツと責任を負う複数の特徴検出部との間のマッピングを表し
、責任を負う特徴検出部の各々が、他の特徴検出部に比較して、それに割り当て
られたパーツには高い対応度を有するようにした、装置。 - 【請求項3】 請求項2記載の装置であって、前記メモリ手段は、前記特徴
アクティビティ信号に、および前記特徴記述信号に応答し、前記検索信号は、前
記特徴アクティビティ信号に、および前記特徴記述信号に依存する、装置。 - 【請求項4】 請求項3記載の装置であって、前記特徴検出部、および前記
分類手段、および前記メモリ手段、および前記割当手段、および前記更新手段は
、デジタル計算機上において実行可能な命令コードを構成する、装置。 - 【請求項5】 請求項3記載の装置において、前記特徴検出部をニューラル
・ネットワークによって実現し、各特徴検出部毎の重み手段が、前記入力信号を
受け取るように構成された変更可能なコネクションのアレイを備える、装置。 - 【請求項6】 請求項5記載の装置であって、前記ニューラル・ネットワー
クは、デジタル計算機上において実行可能な命令コードを備える、装置。 - 【請求項7】 請求項5記載の装置において、前記ニューラル・ネットワー
クの少なくとも1つのユニットが、ノイジーOR機能に従って作用する、装置。 - 【請求項8】 請求項7記載の装置であって、前記少なくとも1つのユニッ
トの活性化確率に対する寄与を格納し、該寄与を複数の活性化サイクルでアクセ
ス可能となるようにする手段を更に含む、装置。 - 【請求項9】 請求項8記載の装置であって、前記寄与は、前記少なくとも
1つのユニットから各非アクティブな子ユニットへの重みを1から減じたものを
表す量の負の対数の前記各非アクティブな子ユニット全体の和である、装置。 - 【請求項10】 請求項5記載の装置であって、前記割当手段は、前記入力
信号のソフト区分を実行して前記パーツを得るように構成した、装置。 - 【請求項11】 請求項2記載の装置であって、前記メモリ手段は無損失記
憶装置である、装置。 - 【請求項12】 請求項11記載の装置であって、前記パーツの各々は、前
記入力信号と、前記検索信号が表す既に格納済みの比較パターンとの差を表す差
ベクトルである、装置。 - 【請求項13】 請求項12記載の装置であって、前記割当手段は、前記パ
ーツの各々を勝者の特徴検出部に割り当てるように構成され、前記勝者の特徴検
出部は、前記差ベクトルからの最少距離を有する優先特徴を有する、装置。 - 【請求項14】 請求項2記載の装置であって、前記更新手段は、前記責任
を負う特徴検出部の各々を変更してその優先特徴を、その現在の入力空間位置か
らその割り当てられたパーツの入力空間位置へのベクトルに実質的に沿った新た
な入力空間位置に移動させるように構成した、装置。 - 【請求項15】 パターン認識装置を作成する方法であって、 (a)或る環境における物理パターンを表す入力信号を生成する変換手段を提
供するステップと、 (b)前記入力信号に応答する複数の特徴検出部であって、各々、優先特徴の
表現を格納する重み手段を有し、前記優先特徴の各々が前記入力信号に存在する
度合いを表す特徴アクティビティ信号を生成し、前記優先特徴を表す特徴記述信
号を生成する、特徴検出部を提供するステップと、 (c)前記特徴アクティビティ信号に応答し、前記入力信号に対応するシステ
ム活動を表す出力信号を生成する分類手段を提供するステップと、 (d)前記出力信号に応答し、前記環境における活動を遂行する作用手段を提
供するステップと、 (e)入力パターンを近似的に格納し、既に格納済みの入力パターンを表す検
索信号を生成するメモリ手段を提供するステップと、 (f)前記メモリ手段を用いて一連の比較パターンを近似的に格納するステッ
プと、 (g)訓練パターンを提供するステップと、 (h)前記訓練パターンにおいて複数のパーツを特定し、各パーツが前記訓練
パターンおよび前記比較パターンの有望特徴に対応させるステップと、 (i)前記パーツの各々を対応する責任を負う特徴検出部に割り当てるステッ
プと、 (j)前記責任を負う特徴検出部の各々を変更し、その優先特徴を、その割り
当てられたパーツに、実質的に直接に一層類似させるようにするステップと、 (k)訓練判断基準に到達するまで、訓練集合の大部分に対してステップ(g
)ないしステップ(j)を繰り返すことにより、前記特徴検出部を訓練するステ
ップと、 を備えることにより、前記責任を負う特徴検出部の各々の変更が、他の特徴検出
部の変更とは十分に独立しており、 相関特徴訓練を有する装置よりも少ないパターン提示でパターン認識装置の効
果的な作成を可能とする、 方法。 - 【請求項16】 請求項15記載の方法であって、 (l)ステップ(a)ないしステップ(d)を繰り返し、同等のパターン認識
装置を作成するステップと、 (m)少なくとも1つの前記の訓練した特徴検出部の優先特徴を、前記同等の
パターン認識装置の少なくとも1つの対応する特徴検出部に転送するステップと
、 を更に含む、方法。 - 【請求項17】 請求項15記載の方法であって、前記メモリ手段は、前記
特徴アクティビティ信号におよび前記特徴記述信号に応答し、前記検索信号は、
前記特徴アクティビティ信号におよび前記特徴記述信号に依存する、方法。 - 【請求項18】 請求項17記載の方法であって、前記特徴検出部をニュー
ラル・ネットワークによって実現し、各特徴検出部の重み手段が、前記入力信号
を受け取るように構成された変更可能なコネクションのアレイを備える、方法。 - 【請求項19】 請求項18記載の方法であって、前記ニューラル・ネット
ワークの少なくとも1つのユニットが、ノイジーOR機能に従って作用する、方
法。 - 【請求項20】 物理パターンを認識してそれに応答する装置であって、 (a)或る環境における物理パターンを表す入力信号を生成する変換手段と、 (b)前記入力信号に応答する複数の特徴検出部であって、各特徴検出部が、
優先特徴を表すことが可能な重み格納部を有し、前記特徴検出部の各々が、その
優先特徴が前記入力信号に存在する度合いを表す特徴アクティビティ信号要素を
生成可能であり、かつその優先特徴を表す特徴記述信号要素を生成可能な、特徴
検出部と、 (c)前記特徴アクティビティ信号要素の各々に応答し、前記入力信号に対応
するシステム活動を表す出力信号を生成可能な分類部と、 (d)前記出力信号に応答し、前記環境における活動を遂行することが可能な
作用部と、 (e)前記入力信号に応答し、前記入力信号の表現を近似的に格納可能であり
、かつ既に格納済みの入力信号を表す検索信号を生成可能なメモリと、 (f)前記入力信号に、前記検索信号に、および前記特徴記述信号要素の各々
に応答し、複数のパーツと責任を負う複数の特徴検出部との間のマッピングを表
すパーツ・マッピング信号を生成可能であり、各パーツが前記既に格納済みの入
力信号および前記入力信号の有望特徴に対応し、責任を負う特徴検出部の各々が
、他の特徴検出部と比較して、それに割り当てられたパーツに対して高い対応度
を有するようにした、割当部と、 (g)前記パーツ・マッピング信号に応答し、前記責任を負う特徴検出部の各
々を変更してその優先特徴をそれが割り当てられたパーツのベクトルの方へ実質
的に直接に移動させることが可能な更新部と を備えることにより、前記責任を負う特徴検出部の各々の変更が、他の特徴検出
部の変更とは十分に独立しており、 相関特徴訓練を有する装置よりも少ない物理パターン例で効果的に訓練するこ
とができる、 装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/980,838 US6058206A (en) | 1997-12-01 | 1997-12-01 | Pattern recognizer with independent feature learning |
US08/980,838 | 1997-12-01 | ||
PCT/US1998/023522 WO1999028859A1 (en) | 1997-12-01 | 1998-11-03 | Pattern recognizer with independent feature learning |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001525582A true JP2001525582A (ja) | 2001-12-11 |
Family
ID=25527885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000523634A Pending JP2001525582A (ja) | 1997-12-01 | 1998-11-03 | 独立特徴学習機能を有するパターン認識装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6058206A (ja) |
EP (1) | EP1034508B1 (ja) |
JP (1) | JP2001525582A (ja) |
AT (1) | ATE233416T1 (ja) |
AU (1) | AU1209399A (ja) |
CA (1) | CA2311752A1 (ja) |
DE (1) | DE69811720D1 (ja) |
WO (1) | WO1999028859A1 (ja) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE47908E1 (en) | 1991-12-23 | 2020-03-17 | Blanding Hovenweep, Llc | Ergonomic man-machine interface incorporating adaptive pattern recognition based control system |
USRE48056E1 (en) | 1991-12-23 | 2020-06-16 | Blanding Hovenweep, Llc | Ergonomic man-machine interface incorporating adaptive pattern recognition based control system |
USRE46310E1 (en) | 1991-12-23 | 2017-02-14 | Blanding Hovenweep, Llc | Ergonomic man-machine interface incorporating adaptive pattern recognition based control system |
US6850252B1 (en) | 1999-10-05 | 2005-02-01 | Steven M. Hoffberg | Intelligent electronic appliance system and method |
US5903454A (en) | 1991-12-23 | 1999-05-11 | Hoffberg; Linda Irene | Human-factored interface corporating adaptive pattern recognition based controller apparatus |
US10361802B1 (en) | 1999-02-01 | 2019-07-23 | Blanding Hovenweep, Llc | Adaptive pattern recognition based control system and method |
AU744009B2 (en) * | 1997-12-24 | 2002-02-14 | Randell L. Mills | A method and system for pattern recognition and processing |
US6792412B1 (en) * | 1999-02-02 | 2004-09-14 | Alan Sullivan | Neural network system and method for controlling information output based on user feedback |
US6320976B1 (en) * | 1999-04-01 | 2001-11-20 | Siemens Corporate Research, Inc. | Computer-assisted diagnosis method and system for automatically determining diagnostic saliency of digital images |
FI991490A0 (fi) * | 1999-06-30 | 1999-06-30 | Bayes Information Technology O | Visualisointimenetelmä |
US6766058B1 (en) * | 1999-08-04 | 2004-07-20 | Electro Scientific Industries | Pattern recognition using multiple templates |
US6556960B1 (en) * | 1999-09-01 | 2003-04-29 | Microsoft Corporation | Variational inference engine for probabilistic graphical models |
US20050149462A1 (en) * | 1999-10-14 | 2005-07-07 | The Salk Institute For Biological Studies | System and method of separating signals |
US6424960B1 (en) * | 1999-10-14 | 2002-07-23 | The Salk Institute For Biological Studies | Unsupervised adaptation and classification of multiple classes and sources in blind signal separation |
US20040230546A1 (en) * | 2000-02-01 | 2004-11-18 | Rogers Russell A. | Personalization engine for rules and knowledge |
US20040205035A1 (en) * | 2000-05-01 | 2004-10-14 | Norbert Rimoux | Method and system for adaptive learning and pattern recognition |
WO2001097164A2 (en) * | 2000-06-16 | 2001-12-20 | Lockheed Martin Mission Systems | Scaleable object recognition with a belief model |
CA2433999A1 (en) * | 2000-11-30 | 2002-06-06 | Yang Ming Pok | Neural cortex |
US6996551B2 (en) * | 2000-12-18 | 2006-02-07 | International Business Machines Corporation | Apparata, articles and methods for discovering partially periodic event patterns |
US20020164070A1 (en) * | 2001-03-14 | 2002-11-07 | Kuhner Mark B. | Automatic algorithm generation |
US20040030672A1 (en) * | 2001-08-01 | 2004-02-12 | Garwin Jeffrey L | Dynamic health metric reporting method and system |
US7577631B2 (en) * | 2001-09-10 | 2009-08-18 | Feldhake Michael J | Cognitive image filtering |
US7031530B2 (en) * | 2001-11-27 | 2006-04-18 | Lockheed Martin Corporation | Compound classifier for pattern recognition applications |
US7092924B1 (en) * | 2002-02-28 | 2006-08-15 | Raytheon Company | Method and system for assigning observations |
US8594410B2 (en) * | 2006-08-28 | 2013-11-26 | Definiens Ag | Context driven image mining to generate image-based biomarkers |
US7873223B2 (en) * | 2002-10-15 | 2011-01-18 | Definiens Ag | Cognition integrator and language |
US7801361B2 (en) * | 2002-10-15 | 2010-09-21 | Definiens Ag | Analyzing pixel data using image, thematic and object layers of a computer-implemented network structure |
US7020593B2 (en) * | 2002-12-04 | 2006-03-28 | International Business Machines Corporation | Method for ensemble predictive modeling by multiplicative adjustment of class probability: APM (adjusted probability model) |
US20050079508A1 (en) * | 2003-10-10 | 2005-04-14 | Judy Dering | Constraints-based analysis of gene expression data |
US7627537B2 (en) * | 2004-10-28 | 2009-12-01 | Intel Corporation | Score result reuse for Bayesian network structure learning |
CN101091177B (zh) * | 2004-12-31 | 2010-05-26 | 英特尔公司 | 贝叶斯网络结构学习并行化的方法、设备及系统 |
US8989468B2 (en) | 2007-05-25 | 2015-03-24 | Definiens Ag | Generating an anatomical model using a rule-based segmentation and classification process |
US7961955B1 (en) | 2008-01-28 | 2011-06-14 | Thomas Cecil Minter | Adaptive bayes feature extraction |
US8020125B1 (en) * | 2008-09-10 | 2011-09-13 | Cadence Design Systems, Inc. | System, methods and apparatus for generation of simulation stimulus |
WO2012129371A2 (en) | 2011-03-22 | 2012-09-27 | Nant Holdings Ip, Llc | Reasoning engines |
US9047566B2 (en) * | 2013-03-12 | 2015-06-02 | Oracle International Corporation | Quadratic regularization for neural network with skip-layer connections |
US9417845B2 (en) * | 2013-10-02 | 2016-08-16 | Qualcomm Incorporated | Method and apparatus for producing programmable probability distribution function of pseudo-random numbers |
WO2017185248A1 (zh) * | 2016-04-27 | 2017-11-02 | 北京中科寒武纪科技有限公司 | 用于执行人工神经网络自学习运算的装置和方法 |
CN112529102B (zh) * | 2020-12-24 | 2024-03-12 | 深圳前海微众银行股份有限公司 | 特征拓展方法、设备、介质及计算机程序产品 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5822742A (en) * | 1989-05-17 | 1998-10-13 | The United States Of America As Represented By The Secretary Of Health & Human Services | Dynamically stable associative learning neural network system |
JP2940933B2 (ja) * | 1989-05-20 | 1999-08-25 | 株式会社リコー | パターン認識方式 |
KR910020571A (ko) * | 1990-05-21 | 1991-12-20 | 다카도리 수나오 | 데이터 처리장치 |
JP2763398B2 (ja) * | 1990-11-20 | 1998-06-11 | キヤノン株式会社 | パターン認識装置 |
AU1978592A (en) * | 1991-04-29 | 1992-12-21 | Intel Corporation | Neural network incorporating difference neurons |
FR2678407A1 (fr) * | 1991-06-28 | 1992-12-31 | Philips Electronique Lab | Procede et dispositif avec un reseau neuronal pour classer des donnees, et appareil d'authentification de signature. |
US5251268A (en) * | 1991-08-09 | 1993-10-05 | Electric Power Research Institute, Inc. | Integrated method and apparatus for character and symbol recognition |
JPH06203005A (ja) * | 1992-10-27 | 1994-07-22 | Eastman Kodak Co | 高速区分化ニューラルネットワーク及びその構築方法 |
WO1995024017A2 (en) * | 1994-03-02 | 1995-09-08 | THE UNITED STATES OF AMERICA, represented by THE SECRETARY, DEPARTMENT OF HEALTH AND HUMAN SERVICES NATIONAL INSTITUTES OF HEALTH | A top down preprocessor for a machine vision system |
JP2690027B2 (ja) * | 1994-10-05 | 1997-12-10 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | パターン認識方法及び装置 |
EP0727748A1 (de) * | 1995-02-17 | 1996-08-21 | BODAMER, Edgar | Verfahren und Anordnung zum mehrstufigen unüberwachten Lernen unter Verwendung einer Hierarchie von neuronalen Netzen |
US5812992A (en) * | 1995-05-24 | 1998-09-22 | David Sarnoff Research Center Inc. | Method and system for training a neural network with adaptive weight updating and adaptive pruning in principal component space |
US5835633A (en) * | 1995-11-20 | 1998-11-10 | International Business Machines Corporation | Concurrent two-stage multi-network optical character recognition system |
US5870828A (en) * | 1997-06-04 | 1999-02-16 | Violex-Bic, S.A. | Utility knife system |
-
1997
- 1997-12-01 US US08/980,838 patent/US6058206A/en not_active Expired - Fee Related
-
1998
- 1998-11-03 DE DE69811720T patent/DE69811720D1/de not_active Expired - Lifetime
- 1998-11-03 AT AT98955244T patent/ATE233416T1/de not_active IP Right Cessation
- 1998-11-03 EP EP98955244A patent/EP1034508B1/en not_active Expired - Lifetime
- 1998-11-03 WO PCT/US1998/023522 patent/WO1999028859A1/en active IP Right Grant
- 1998-11-03 AU AU12093/99A patent/AU1209399A/en not_active Abandoned
- 1998-11-03 CA CA002311752A patent/CA2311752A1/en not_active Abandoned
- 1998-11-03 JP JP2000523634A patent/JP2001525582A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
AU1209399A (en) | 1999-06-16 |
ATE233416T1 (de) | 2003-03-15 |
US6058206A (en) | 2000-05-02 |
CA2311752A1 (en) | 1999-06-10 |
DE69811720D1 (de) | 2003-04-03 |
EP1034508A1 (en) | 2000-09-13 |
EP1034508B1 (en) | 2003-02-26 |
WO1999028859A1 (en) | 1999-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2001525582A (ja) | 独立特徴学習機能を有するパターン認識装置 | |
CA3085653C (en) | Evolution of architectures for multitask neural networks | |
US11531900B2 (en) | Imitation learning for machine learning systems with synthetic data generators | |
Dietterich | Ensemble learning | |
WO2019067960A1 (en) | AGGRESSIVE DEVELOPMENT USING COOPERATIVE GENERATORS | |
Parekh et al. | Constructive neural-network learning algorithms for pattern classification | |
Denoeux et al. | Initializing back propagation networks with prototypes | |
WO2008106623A2 (en) | Episodic memory with a hierarchical temporal memory based system | |
WO2014060001A1 (en) | Multitransmitter model of the neural network with an internal feedback | |
Cao et al. | A PSO-based cost-sensitive neural network for imbalanced data classification | |
Kothari et al. | Neural networks for pattern recognition | |
Castillo et al. | Comparing evolutionary hybrid systems for design and optimization of multilayer perceptron structure along training parameters | |
dos Santos et al. | Efficient second-order learning algorithms for discrete-time recurrent neural networks | |
KR950012359B1 (ko) | 신경회로망 구조와 학습방법 | |
Nabil et al. | An efficient binary clonal selection algorithm with optimum path forest for feature selection | |
Teredesai et al. | Active handwritten character recognition using genetic programming | |
Garibaldi | Applications and science in soft computing | |
Duan et al. | Hebbian and gradient-based plasticity enables robust memory and rapid learning in RNNs | |
MXPA00005089A (en) | Pattern recognizer with independent feature learning | |
Carpenter et al. | Self-organizing neural networks for supervised and unsupervised learning and prediction | |
Kehagias | Stochastic Recurrent Networks Training My the Local Backward-Forward Algorithm | |
EP1987477A2 (en) | Architecture of a hierarchical temporal memory based system | |
Said et al. | Multi agent-learner based online feature selection system | |
Prado et al. | Accuracy tuning on combinatorial neural model | |
Esho | Learning Learning Algorithms |