JP2001525582A

JP2001525582A - 独立特徴学習機能を有するパターン認識装置

Info

Publication number: JP2001525582A
Application number: JP2000523634A
Authority: JP
Inventors: クリス・アラン・コートジ
Original assignee: クリス・アラン・コートジ
Priority date: 1997-12-01
Filing date: 1998-11-03
Publication date: 2001-12-11
Also published as: AU1209399A; ATE233416T1; US6058206A; CA2311752A1; DE69811720D1; EP1034508A1; EP1034508B1; WO1999028859A1

Abstract

(57)【要約】変換された入力信号（２６）に応答し、特徴アクティビティ信号（３０）を伝達して分類および適切な出力動作（７０）を可能とする、変更可能な特徴検出部（２８）を有するパターン認識装置。メモリ（４０）は、１組の比較パターンを格納し、割当部（６６）により用いられて、現入力信号（２６）における有望特徴即ちパーツを発見するために用いる。各パーツは、それに対しての責任を有すると判断された特徴検出部（２８［ｍ］）に割り当てられる。更新部（４２）は、各応答特徴検出部（２８［ｍ］）を変更し、その優先特徴を、それに割り当てられたパーツに一層類似させる。変更は、特徴学習プロセスに対して強い制約を具体化し、特に、パターン・ドメインを記述する複数の理想的な特徴が独立して発生するという想定を具体化する。この制約により、学習速度の向上、および潜在的にスケーリング特性の改善が可能となる。第１の好適な実施形態は、１群のノイジーＯＲ型ニューラル・ネットワーク（５０）を用いて特徴検出部（２８）およびメモリ（４０）を実現し、現入力信号（２６）のソフト区分によってパーツを得る。第２の好適な実施形態は、特徴検出部（２８）とは別個の無損失メモリ（４０）を維持し、パーツは、現入力信号（２６）と、メモリ（４０）に格納されている比較パターンとの差から成る。

Description

【発明の詳細な説明】

【０００１】背景−発明の分野本発明は、パターン認識方法および装置に関し、特に特徴利用パターン認識装
置を訓練するための改良された方法および装置に関するものである。

【０００２】背景−従来技術の論述パターン認識装置は様々に用いることができ、その全てにおいて、世の中の何
れかの物理パターンに自動的に応答することを伴う。例えば、物理パターンは、
音声の音響波とすることもでき、その場合、パターン認識装置は、同じ発声であ
るが異なる言語で出力するために用いることができる。また、物理パターンは、
特定の高速道路上における車両の位置とすることもでき、その場合、パターン認
識装置は、その高速道路における信号を制御し、混雑を極力抑えるために用いる
ことができる。

【０００３】理解しにくいタスク、または経時的に変化するタスクにパターン認識装置を適
用することが望ましい場合が多い。かかる状況では、一連の例に基づいてタスク
を学習する適応型パターン認識装置の方が、「ハード・ワイヤード」（非適応型
）パターン認識装置よりも、遥かに優れた性能を発揮することができる。また、
適応性と同様に、「特徴利用（ｆｅａｔｕｒｅ−ｂａｓｅｄ、特徴を基にする）
」認識も、一般に、他の手法（固定のテンプレートを照合するなど）よりもノイ
ズ耐性が高い傾向にあるので、非常に有効な利用が可能である。特徴利用認識で
は、パターン内に存在することが判断される特徴または特性の集合に応答するこ
とを含む。例えば、パターンが音声波形の場合、検出される特徴は、「ｋの発音
」や「第２８回の時間間隔内における高振幅周波数」を含む場合もあり得る。適
応型および特徴利用型の認識装置では、特徴も非常に複雑であり、人の言語で記
述するには難しい場合がある。

【０００４】本発明の装置は、適応型でありしかも特徴利用型である。かかるパターン認識
装置を設計する上で最も困難な問題の１つは、最良の特徴集合を決定することで
ある。より正確に言うと、認識装置が最良の特徴集合を学習するようにするには
、認識装置をどのように訓練すべきかを決定することである。一旦適当な特徴集
合が見つかれば、多くの場合認識の問題は些細なことである。

【０００５】特徴を学習する適当な手法の１つは、逆伝播法（ｂａｃｋｐｒｏｐａｇａｔｉ
ｏｎｍｅｔｈｏｄ）（１９８６年の並列分散処理：認知の微細構造における診
査（ＰａｒａｌｌｅｌＤｉｓｔｒｉｂｕｔｅｄＰｒｏｃｅｓｓｉｎｇ：Ｅｘ
ｐｌｏｒａｔｉｏｎｓｉｎｔｈｅＭｉｃｒｏｓｔｒｕｃｔｕｒｅｏｆ
Ｃｏｇｎｉｔｉｏｎ）におけるラメルハート（Ｒｕｍｅｌｈａｒｔ）、ヒルトン
（Ｈｉｎｔｏｎ）、およびウイリアムス（Ｗｉｌｌｉａｍｓ）による「エラー逆
伝播による内部表現の学習（ＬｅａｒｎｉｎｇＩｎｔｅｒｎａｌｒｅｐｒｅ
ｓｅｎｔａｔｉｏｎｓｂｙｅｒｒｏｒｂａｃｋｐｒｏｐａｇａｔｉｏｎ）
」、ＭＩＴプレス、ケンブリッジ、マサチューセッツ（ＭＩＴＰｒｅｓｓ，Ｃ
ａｍｂｒｉｄｇｅ，ＭＡ）を用いて訓練したニューラル・ネットワークを使用す
ることである。しかしながら、この手法（および多くの関連するグラディエント
利用（グラディエントを基にする、ｇｒａｄｉｅｎｔ−ｂａｓｅｄ）ニューラル
・ネット方法）は、学習が非常に遅く、特に多くのニューロン層を有するネット
ワークの場合に遅くなりがちである。また、最適な特徴、あるいはほぼ最適な特
徴でさえも、学習しない可能性が非常に高い。その理由は、これがヒル・クライ
ミング型の学習を基本としており、総合的に最適な解から遠く離れた「谷」で行
き詰まる可能性があるからである。その結果、訓練用の例ではうまく動作するも
のの、新たな例ではうまく動作しないというような特徴となる（即ち、学習の汎
化に劣る）可能性がある。

【０００６】これらニューラル・ネットワーク・パターン認識装置の学習速度または汎化（
ｇｅｎｅｒａｌｉｚａｔｉｏｎ）能力を改良しようという試みは、これまでにも
多数あるが、通常、かかる改良はこれらの問題を一度に双方とも解決することが
できないか、あるいは有用な広範囲のタスクに対して大幅な改良が得られないか
の何れかである。最も良い解決策は、学習プロセスに制約が加わりがちであると
いうことについては、議論の余地がある。即ち、手近のタスクに関する何らかの
仮定に基づいて、特定の特徴集合だけを学習できる（または学習する可能性が高
い）ように、学習を制約しているのである。かかる制約は、事実上、学習プロセ
スによって探索しなければならない「特徴空間」（ｆｅａｔｕｒｅｓｐａｃｅ
）の量を減少させることによってプロセスを高速化し、しかも不良な特徴で行き
詰まる可能性も低下する。

【０００７】制約を設けた特徴学習の一例は、シマード（Ｓｉｍａｒｄ）その他によるそれ
である（例えば、１９９５年のニューラル情報処理システム７における発展７（
ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅ
ｓｓｉｎｇＳｙｓｔｅｍｓ７）におけるハスティ（Ｈａｓｔｉｅ）、シマー
ド（Ｓｉｍａｒｄ）、及びサッキンジャ（Ｓａｃｋｉｎｇｅｒ）による「正接距
離に対する学習プロトタイプ・モデル（Ｌｅａｒｎｉｎｇｐｒｏｔｏｔｙｐｅ
ｍｏｄｅｌｓｆｏｒｔａｎｇｅｎｔｄｉｓｔａｎｃｅ）」、ＭＩＴプレ
ス、ケンブリッジ、マサチューセッツ）。彼らのニューラル・ネットワーク型方
法は、文字（例えば、手書き）認識に応用されている。実際には、彼らの手法は
、ネットワークが特定の例の文字に関して学習するあらゆるものを自動的に、そ
の文字の可能な全ての「変形」（ｔｒａｎｓｆｏｒｍｅｄ）バージョンに汎化さ
せるというものである。ここで、変形とは、伸長、収縮、傾斜等を含む。これは
汎化を格段に向上させるが（更に、必要な例の集合が小さくて済むので、学習速
度も向上する）、この解決策は、むしろ筆記というようなものに特定的である。
これは、例えば、音声波形には直接適用することはできないであろう。この解決
策の更に別の欠点として、これが入力レベルでのみ適用されるものであり、特徴
を最初にニューラル・ネットワークに入力することがあげられる。これでは、マ
ルチレイヤ・ネットワークの内部レイヤでは役に立たない。何故なら、学習する
のはこれら内部の特徴であるからである。従って、どのように空間制約（例えば
、傾斜独立性）をこれらに適用するのかが明らかでない。同様に、この方法は、
かかるニューラル・ネットワークが、多数の特徴にスケール・アップする際に生
ずる問題にも対応していない。このスケーリングの問題（法外に長い訓練時間が
生ずる）は、可能な特徴の組み合わせ数が指数的に増大することに起因し、大幅
に減少するには、特徴検出の全てのレベルにおいてそれを解決しなければならな
い。

【０００８】目的および利点従って、本発明は、従来技術のパターン認識方法に対して、幾つかの目的およ
び利点を有する。逆伝播およびその他の幾つかのニューラル・ネットワーク訓練
方法と同様に、本発明は、特徴利用パターン認識装置において適応型学習に用い
ることができる。しかしながら、これは、学習に強い制約を設けることによって
学習時間を短縮し、貧弱な特徴を学習する尤度（ｌｉｋｅｌｉｈｏｏｄ）を低下
させるという点において、これら以前の方法を改良するものである。この制約は
、理想的な（即ち、「真の」）特徴は、物理パターン集合において独立して（「
相関付けられずに」）得られるという仮定に基づいている。皮肉なことに、この
仮定は、従来技術においてしばしば援用されていたが、本発明以前に最大限使用
されたことはない。

【０００９】本方法は、独立特徴の仮定の使用を大幅に拡大して用い、非常に強力化する。
この仮定は特定のパターン認識タスクのクラス（例えば、光学的文字認識）に限
定されないので、本発明の利点は、多種多様なタスクにおいて得られる可能性が
高い。更に、用いる特徴検出装置が多いほど、仮定は実際に一層強力になる。こ
のため、本方法を、更に大きな認識装置に、拡大し改良することが可能となる。
これは長い間ニューラル・ネットワーク研究共同体の目標であった。その上、独
立特徴の仮定は、階層状マルチレイヤ認識装置のあらゆるレイヤ（層）に適用す
ることができる。このため、入力レイヤにのみ適用される、制約に基づく手順と
比較すると、本装置には、学習を高速化し汎化を改善する能力が一層多く与えら
れる。

【００１０】本発明の別の目的は、１つの認識システムを訓練し、得られた訓練重み（ｔｒ
ａｉｎｅｄｗｅｉｇｈｔ）を他のシステムに移転することによって、多数の同
様な認識システムを作成することである。

【００１１】本発明の更に別の目的および利点は、図面および以下の説明の検討から明らか
となろう。

【００１２】概要本発明によれば、パターン認識装置は、知覚変換部、特徴検出部の群、分類部
、および物理パターンに自動的に応答する作用部を備えている。更に、本装置で
は、割当部が、メモリに格納されている以前の入力パターンを用いて現入力パタ
ーンを、特徴検出部に対応するパーツに区分し、少なくとも１つの特徴検出部を
変更してそれに割り当てられたパーツに対するその優先性を高めるようにしたと
いう点で、改良がなされている。

【００１３】本発明の理論本発明の利点には、興味深い理論的理由があると確信する。この章では、現在
理解している範囲でこの理論について説明する。

【００１４】特徴利用型パターン認識の装置および／または方法は、非常に強力にすること
ができる。例えば、「最上部の横線」、「右側の縦線」等というような特徴に対
する検出部を有する、印刷文字の認識装置を考慮する。これが強力な手法である
１つの理由は、比較的少数のかかる特徴検出部が共に働いて、多数の考慮され得
る文字を認識することができるからである。実際、異なる認識可能な文字の数は
、特徴数と共に指数的に増大する（しかしながら、この指数的な増大は、ありが
たくもあり厄介でもあり、これについては以下で説明する）。例えば、二進（オ
ン／オフ）特徴を２０個だけ用いても、百万個を越える可能なパターンを認識す
ることができる。１０００個の特徴では、可能な数は殆ど理解できない程である
が、それでもなお、人の脳におけるニューロン数と比較すると、僅かな数に過ぎ
ない。

【００１５】特徴利用型の認識の別の利点として、ノイズ耐性が挙げられる。本質的に、パ
ターンの中の「十分な」特徴が検出されれば、特徴検出が良好でなくても、認識
は良好となる可能性がある。例えば、大文字の「Ａ」は、「中央の横棒」がなく
ても（恐らく、プリンタの不良のため）、認識することはできる。その理由は、
「Ａ」は、「左側にある右傾斜対角線」および「右側にある左傾斜対角線」、そ
して「最上部にある交差線セグメント」という（検出された）特徴を有する唯一
の文字であるからに過ぎない。キャラクタ認識に使用可能な特徴集合は多数ある
が、これらはフォールト・トレランスの基本点を示すように機能する。

【００１６】特徴利用型認識は非常に強力であるが、特徴を人の設計者によってハードワイ
ヤで行われるのではなく、例から学習することができると、更に一層強力となる
。かかる適応性は、最近のニューラル・ネットワークに対する研究の関心の基礎
であり、例えば、最も典型的な形態では、まさに（適応型）特徴検出部の連続す
るレイヤである。実際、人の知性が非常に印象的なのは、部分的に、数十億個の
ニューロンによる自然発生的な適応型ニューラル・ネットワークに基づき、各ニ
ューロンを特徴検出部として見なすことができるからであると、多くの人は論ず
るであろう。

【００１７】しかしながら、適応型の特徴利用型の認識のパワーには、常に相当の代償を払
っている。特に、特徴の学習は非常に時間がかかる可能性があり、最適ではない
特徴を学習してしまう可能性がある。更に、この問題は、訓練する特徴検出部の
数が増大する程、悪化すると思われる。これが、先に暗示したように、特徴の組
み合わせ数の指数的増大の「厄介な」面である。

【００１８】しかしながら、この厄介事は、従来技術の文献が示唆する程悪くないと考える
。実際、そのようなことはあり得ず、人の頭脳でさえも、その数十億個の特徴検
出ニューロンをもってしても、これらが行なうのとほぼ同じ位高速に学習するこ
とはできないと考える。更に、本発明は、人の頭脳も用いている原理を利用する
と考える。この原理は、ここでは「独立特徴学習」と呼ぶものである。

【００１９】従来技術の認識装置（適応型特徴利用型認識装置）は、その殆どが特徴検出部
に本質的に同様な訓練を行なう。これらは、最初に、現入力パターンに含まれて
いる（重要な）特徴が何であるのかを特定しようとする。次いで、これらは全て
の特徴検出部を変更し、認識装置全体をその特定の特徴の組み合わせの検出に特
化する。従って、「Ｔ」が観察された場合、特徴である「上部の横棒」および「
中央の縦棒」の組み合わせを強化するであろう。重要なのは、これが意味するの
は、「上部の横棒」が観察されたときはいつでも、「中央の縦棒」も同様に確度
が高くなるり、あるいはその逆も考慮されることである。認識装置は、これら２
つの特徴が考慮され得る入力パターン集合において（ある程度）相関付けられる
ことを教えられている。

【００２０】一方、本発明の本質は、特徴には相関がないと仮定し、むしろこれらは入力パ
ターン集合全体を通じて互いに統計的に独立していると仮定することにある。本
発明の一実施形態では、「Ｔ」を観察した場合、１つの特徴検出部を訓練して「
上部の横棒」により良く応答するようにし、更に別の特徴検出部を訓練しその「
中央の縦棒」に対する優先度を高めるようにすることができるが、これら２つの
特徴の組み合わせに対して何れの検出部の優先度も高められない。

【００２１】なぜこれが良い訓練方法なのであろうか。反証がないので、何れかの所与の特
徴が他の何れかの特徴の組み合わせにおいて発生し得ると最初に推測するのは、
賢明である。「上部の横棒」という特徴を「発見」した認識装置は、例えば、後
に「Ｅ」、「Ｆ」、「Ｉ」、「Ｚ」、「５」、「７」、およびおそらく他のシン
ボルに遭遇した場合に、この特徴を有用と見なす可能性がある。しかし、従来技
術の認識装置が「Ｔ」を観察したときに典型的に学習するように、「上部の横棒
」が「中央の縦棒」も同様に暗示すると訓練されていた場合、他のシンボルに遭
遇した際に、この情報を後に忘れる（ｕｎｌｅａｒｎ、喪失する）ことを必要と
する。要するに、本装置が有効なのは、そのような忘れることを必要としないか
らである。実際、典型的な従来技術の訓練体系では、訓練パターンの量が余りに
少ないので、多くの場合、擬似の相関が適切に喪失されるということは全くない
と考える。従って、本装置は、少ないパターン観察によって学習することができ
るだけでなく、これらの観察に基づいてより良い特徴を学習することができると
考える。

【００２２】更に、この利点は、特徴検出部の数が多くなる程、増々重要となると考える。
何故なら、特徴の組み合わせ数は指数的に増大するので、ある意味では、従来技
術の認識装置によって行われる不適切な相関学習の量は指数的に増大し、従って
、行なわなければならない喪失の量も増大することになる。これは、本装置が、
多数の特徴検出部へのスケーリングを改善できる可能性を有することを意味する
。

【００２３】特徴検出部を独立して訓練するという本手法に至らせる、独立して発生する特
徴という仮定は、全ての状況において必ずしも適切ではないと反論する者もいる
であろう。例えば、（ある奇妙なアルファベットにおいて）文字「Ｔ」が、「上
部の横棒」または「中央の縦棒」を有する唯一の文字であるとするとどうするの
か。勿論、これらの特徴が常に共に発生すると認識装置を訓練することが適切で
あるのではなかろうか。これに対する回答の１つは、かかる状況では、「Ｔ」全
体を、学習すべき特徴とする方がより適切である。より一般的には、他の特徴と
の相関性が高い特徴は、いずれにしてもあまり有用ではないという傾向がある。
これらは、認識装置の特徴記憶容量を浪費する傾向がある。しかしながら、何れ
の場合でも、本発明は、特徴間の相関の学習を妨げるものではない。これは、単
に、特徴の独立性をデフォルトの仮定とするに過ぎず、この仮定は、更なる学習
によって「無効にする」ことができる。

【００２４】従来技術の方法の中には、「因子」または「情報保存」内部表現の学習を促進
する狙いで、独立性の原理を援用するものがある。その一例は、フォルディアッ
ク（Ｆｏｌｄｉａｋ）（１９９０年の、バイオロジカル・サイバネティックス（
ＢｉｏｌｏｇｉｃａｌＣｙｂｅｒｎｅｔｉｃｓ）の６４：１６５〜１７０にお
ける「ローカル・アンチ−ヘビアン学習による疎表現の形成（Ｆｏｒｍｉｎｇ
ｓｐａｒｓｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｂｙｌｏｃａｌａｎｔｉ
−Ｈｅｂｂｉａｎｌｅａｒｎｉｎｇ」）のそれである。これは、特徴検出部間
に「競合」接続を組み込み、これらに異なる特徴を学習させようとするものであ
る。しかしながら、これらの従来技術方法は、可能な度合いまでは殆ど独立性の
仮定を利用していない。例えば、競合接続を組み込んだフォルディアックのシス
テムのようなシステムは、本装置のように高次の依存性（相関）ではなく、二次
の依存性（相関）を防止（ｄｉｓｃｏｕｒａｇｅ）できるに過ぎない。また、こ
れらのシステムは多くの場合「バッチ」での訓練を行うため、重みの変更をセー
ブされ、実際、パターン集合の提示後に実行される。本装置とは異なり、かかる
手順では、現パターンについて行なった学習を直ちに今後の学習に役立てるため
に用いることはできない。

【００２５】更に、本質的に別個のサブシステム（例えば、別個の接続、または訓練コスト
機能における追加のペナルティ項）を用いて、従来の訓練手順のものではない効
果を打ち消すのが、これら従来技術の方法の典型であると考える。かかる方法で
は、対策は、常に、主要な、エラー削減のための重み更新よりも遅れると考えら
れる。本発明は、逆に、主要な（そして唯一の）重み更新手順に独立性仮定を埋
め込むので、（後に）除去されるために、別個のサブシステムによって依存性を
学習する必要はない。

【００２６】好適な実施形態の共通性この章は、図１および図２を参照しながら、双方の好適な実施形態に共通な、
本発明の態様について説明する。好適な実施形態の詳細については後に示す。

【００２７】総論図１は、本発明によるパターン認識装置の概要を示す。信号伝搬の方向を矢印
で示す。多要素の信号の伝搬は、殆どの部分では論理的に並列でなければならな
い。これは、信号要素の殆ど（そして好ましくは全て）は、（各々がスカラー値
を表し）、対応する処理段によって受け取られ、その後に当該段がその動作を実
行し、その結果を出力しなければならないことを意味する。明確化のために、各
信号通信ラインには、当該ラインを用いる信号と同じ参照符号を付すことにする
。

【００２８】本システムの動作（以下で更に説明する）は、ユーザによって規制される。ユ
ーザは、単に人間のユーザでもよく、あるいは他の装置であっても、またはそれ
を含むものでもよい。この規制は、システムが環境および／または他のデバイス
２０（以降、単に環境２０と呼ぶ）と双方向処理するシステムの方向付けを含む
。この方向付けにより、物理パターン２２が環境２０からシステムに、即ち、変
換部２４に伝達される。変換部２４は、この物理パターン２２を当該物理パター
ン２２の表現に変換する。この変換には、あらゆる「前処理」動作を含むことと
する。この表現は、入力信号２６の形態を取る。ここでは、多くの場合、所与の
入力信号２６によって表現される情報のことを「入力パターン」と呼ぶ。

【００２９】一群の特徴検出部２８が、変換部２４からの入力信号２６を受け取るように接
続されている。各特徴検出部２８は、ある特徴ベクトルが入力信号２６内に発生
した場合に、それを検出または「優先する」ように構成されている。各特徴検出
部２８［ｍ］は、現入力信号２６内においてそれが検出したその特徴に対する（
スカラー）度合い（即ち、検出部が「発火」する、即ち、入力信号２６において
高い「一致」を発見する度合い）を表す、対応する特徴アクティビティ信号要素
３０［ｍ］を出力する。実施形態によっては、この特徴アクティビティ信号要素
３０［ｍ］が、特徴検出部２８間の競合（ｃｏｍｐｅｔｉｔｉｏｎ）または他の
通信の結果を反映することも可能である。また、各特徴検出部２８［ｍ］は、多
要素特徴記述信号要素３２［ｍ］も出力するように構成されている。これは、検
出部２８［ｍ］が優先する特徴を表す。

【００３０】分類部３４が、特徴検出部２８から特徴アクティビティ信号３０を受け取るよ
うに接続されている。また、分類部３４は、環境２０からターゲット信号４６を
受け取るように接続されている。分類部３４は、訓練（ターゲット信号４６を用
いる）および／またはハードワイヤリングを介して、与えられた特徴アクティビ
ティ信号３０に対する適切なシステム応答を表す出力信号３６を生成するように
構成されている。例えば、出力信号３６は、手書き文字入力が「Ａ」、「Ｂ」、
「Ｃ」等である確率のように、種々のクラスにおけるメンバシップ度を表すこと
ができる。尚、分類部３４は、その典型的な使用を反映するように命名されてい
るが、実際には分類自体を行なう必要はないことを注記するのは重要である。重
要なのは、それが生成する出力信号３６が、適切なシステム応答を表すことであ
り、それがクラスのラベルも表すか否かは無関係である。

【００３１】作用部３８が、出力信号３６を受け取るように接続され、当該信号３６に基づ
いて、この世界において何らかのアクション（活動）を行なうように構成されて
いる。例えば、手書き文字を認識するためにシステムを用いている場合、作用部
３８は最も確率の高い文字のＡＳＣＩＩ表現をコンピュータ・メモリに格納し、
恐らくは、キーボードには小さすぎる装置を用いてユーザに電子メールを送らせ
ることを可能にしている。

【００３２】特徴検出部２８は、メモリ４０、割当部６６、および更新部４２を用いて訓練
される。メモリ４０は、入力信号２６を受け取るように接続されている。メモリ
４０は、恐らく近似（「損失性」）の手法で、以前の入力パターンの集合の表現
を格納することができる。これらのパターンは、現入力信号および今後の入力信
号２６に対して「比較パターン」と呼ばれる。

【００３３】割当部６６は、検索信号６８を介して、メモリ４０に格納されている内容（比
較パターン）にアクセスするように接続されている。この格納部を用いて、現入
力パターン（現入力信号２６によって表される）をパーツに区分することができ
る。各パーツは、割当部６６によって、入力信号２６に含まれているだけでなく
、メモリ４０に格納されている比較パターンの集合を記述するためにも有用であ
る有望特徴（ｌｉｋｅｌｙｆｅａｔｕｒｅ）であると判断されたベクトルを表
す。言い換えると、パーツとは、過去のパターン、現パターンおよび（希望とし
ては）今後のパターンも同様に含む、入力ドメイン全体の真の特徴であるであろ
うと判定されたベクトルである。

【００３４】割当部６６は、特徴記述信号３２を受け取り、この信号３２を利用して、特徴
検出部２８とパーツの間の対応を表すパーツ・マッピング信号４４を形成するよ
うに接続されている。以下で述べるが、メモリ４０は、入力パターンを格納する
際に、特徴検出部２８も利用する。更に、割当部６６は、パーツ・マッピング信
号４４を形成する際にターゲット信号４６を利用する。パーツ自体は、（内部的
に）割当部６６によって明示的に表現することができ、あるいはパーツ・マッピ
ング信号４４で暗示的に表現するのみとすることも可能である。

【００３５】更新部４２は、割当部６６からパーツ・マッピング信号４４を受け取るように
接続されている。これは、この信号４４に基づいて、特徴検出部２８を変更する
ように構成されている。即ち、更新部４２は、特徴検出部２８［ｍ］を変更して
、当該特徴検出部２８［ｍ］がそれに対応するパーツに対する優先度を高めるよ
うにすることができる。言い換えると、特徴検出部２８［ｍ］が優先する特徴は
、それに割り当てられたパーツに向かって動かされる。即ち、一層類似度が高め
られる。更新部４２の影響を、アップデート信号６４によって、図１、図３、お
よび図１０に示す。しかしながら、好適でない実施形態の中には、仲介するアッ
プデート信号６４を必要とせずに、特徴の更新を直接行う（例えば、ハードウエ
アを介して）。

【００３６】図２は、本発明によるパターン認識装置の動作の概要を示す。本装置の使用は
、一連の「トライアル」、または物理的なパターン提示を含む。各トライアル毎
に、認識が行われるか、または訓練が行われるか、あるいは双方が行われる。本
好適な実施形態では、訓練が行われる（イネーブルされた場合）前に認識が行わ
れる（イネーブルされた場合）。しかしながら、認識の前または認識と同時に訓
練を行なう実施形態にも有用なものが数多く存在すると考えられる。

【００３７】認識および訓練の双方では、物理パターン２２を観察し、変換部２４によって
表現入力信号２６を生成することが必要である。その他のステップは、認識およ
び／または訓練のどちらがイネーブルされるかによって異なる。

【００３８】トライアルにおける訓練および認識のイネーブルのスケジュールについては、
以下で各実施形態毎に別個に論ずる。しかしながら、ここで強調すべきことが１
つある。第２の好適な実施形態では、メモリ４０は特徴検出部２８とは別個であ
り、入力パターンは、訓練または認識を行なう前に、メモリ４０に格納される。
しかしながら、第１の好適な実施形態では、特徴検出部２８は、実際にはメモリ
４０を実装するために用いられる。この場合、メモリ４０へのパターンの格納は
、特徴検出部２８の訓練と同じ手順で行なう。従って、第１の好適な実施形態に
関しては、図２の「メモリにパターン集合を格納する」として示すステップは、
初期のランダムの優先特徴（ｐｒｅｆｅｒｒｅｄｆｅａｔｕｒｅ）の設定、お
よび恐らくは、ある数のパターンに対する特徴訓練を行なうことを含む。

【００３９】認識をイネーブルする場合、入力信号２６を特徴検出部２８に伝達し、この入
力をそれらの優先特徴に対して評価し、適切な特徴アクティビティ信号要素３０
［１］ないし３０［Ｍ］を生成する。（実施形態によっては、同等のステップを
訓練プロセスの一部としても行なう。）特徴アクティビティ信号３０（要素３０
［１］ないし３０［Ｍ］から成る）は、分類部３４により用いられて出力信号３
６が生成される。出力信号３６は、作用部３８により用いられて、システムの環
境２０内において適切なアクション７０が行われる。

【００４０】訓練をイネーブルする場合、入力信号２６を、現入力パターン情報を格納する
メモリ４０、および割当部６６に伝達する。割当部６６は、メモリ４０から検索
信号６８を介して得た、格納されていた比較パターン情報を用いて、入力信号２
６をパーツに区分または分解する。（実施形態によっては、メモリ４０は、特徴
検出部２８またはその同等物を用いて実現する場合もある）。次に、割当部６６
は、特徴記述信号３２を用いて、パーツを対応する特徴検出部２８に割り当てる
。この割り当ての結果を、パーツ・マッピング信号４４を介して、更新部４２に
伝達する。割当部６６は、実施形態によっては、ターゲット信号４６を利用して
、割り当てを行う場合もある。更新部４２は、特徴検出部２８の優先特徴を変更
する。変更により、特徴検出部２８［ｍ］は、それに割り当てられたパーツに対
する優先度を高める。

【００４１】多数の訓練トライアルを行なった後、特徴検出部２８は、入力パターン・ドメ
インに関する貴重な情報を格納する。これは、同等のパターン認識装置における
訓練フェーズを迂回するために用いることができる。即ち、図２に示すように、
特徴検出部２８の１つ以上の優先される特徴は、ある量の訓練の後、１つ以上の
同等の装置に転送（コピーすることを含む）することができる。同等の装置とは
、変換部２４と同様の変換部、および特徴検出部２８と同様の１つ以上の特徴検
出部を有し、訓練した優先される特徴を適切に利用可能としたもののことである
。

【００４２】実施態様の詳細好適な実施形態の各々は、適切にプログラムされた汎用デジタル・コンピュー
タを用いて実現する。概して言えば、信号およびその他の表現は、従って、コン
ピュータのランダム・アクセス・メモリ内の記憶空間を用いて実現することにな
る。かかる実現が好ましいのは、部分的に、かかる機械の（例えば、アナログお
よび／または非電子的装置に対して）高い可用性および比較的低いコストのため
である。何らかの実験的操作も望ましい場合があり、これは、典型的に、ソフト
ウエアによって汎用の機械上で行うのが最も簡単である。更に、適応型パターン
認識の当業者は、パターン認識装置のソフトウエア利用型の実施態様に最も精通
していることが多い。更にまた、かかるシステムは、一旦訓練すると、訓練した
重みおよび／またはプログラム・コードを他の認識システムにコピーすることに
よって、他のシステムを作成して同様のタスクを実行する場合に容易に使用する
ことができる。

【００４３】好適な実施形態のコンピュータ・プログラム部分について説明するために、変
数名を用いて対応するデジタル格納位置を示すことにする。これらの変数は、そ
れらが実現されるシステム部分と共に、以下の好適な実施形態で与える。

【００４４】擬似コードの規則図面の一部では、概ねＣプログラム言語に類似する「疑似コード」を利用する
。その理由の１つは、手順を表すために用いなければならない図面の枚数を減ら
すためである。これによって、通常のパターン認識のプログラマには、方法を更
に多くの図面に分解するよりも、図示した方法全体が分かりやすくなると考える
。実際、疑似コードは、Ｃまたは同様の言語を習熟した者であれば誰にでも容易
に理解可能であるはずである。しかしながら、次に最低限の自明な規則について
説明する。

【００４５】変数への割り当ては、「Ｓｅｔｖａｒ＝ｖａｌｕｅ」ステートメントによっ
て示す。これは、Ｃの割り当て動作「ｖａｒ＝ｖａｌｕｅ」と同等である。

【００４６】処理ループは、「Ｆｏｒｘ＝ｂｅｇｉｎｔｏｅｎｄ｛ｌｏｏｐ−ｂｏｄ
ｙ｝」ステートメントによって示す。ここで、ｌｏｏｐ−ｂｏｄｙ（ループ本体
）とは、ループすべきコードであり、そしてｘは整数のインデックス変数であり
、その値は通常ループ本体において参照される。ループは、最初にｘをｂｅｇｉ
ｎに等しくして実行し、次いで、ｘがｅｎｄよりも大きくなるまで、次の連続的
繰り返しの前にｘを１増分する。ｘがｅｎｄよりも大きくなった時点で、それ以
上の繰り返しは行なわない。

【００４７】条件コードの実行は、「Ｉｆｂｏｏｌｖａｒ｛ｃｏｎｄｉｔｉｏｎａｌ−ｃ
ｏｄｅ｝」ステートメントによって実施する。ここでは、ｃｏｄｉｔｉｏｎａｌ
−ｃｏｄｅ（条件コード）ステートメントは、ｂｏｏｌｖａｒが表す表現がＴＲ
ＵＥ（非ゼロ）と評価される場合にのみ実行される。評価方法が明らかな場合に
は、ｂｏｏｌｖａｒに英語の表現を用いる場合もある。また、Ｃにおけると同様
に、対応する「Ｅｌｓｅ｛｝」クローズを、「Ｉｆ」ステートメントと共に用い
ることも可能である。

【００４８】多くの場合、アレイは、ａｒｒａｙｖａｒ［］、またはａｒｒａｙｖａｒ［］
［０］のような標記で示すことにする。かかるアレイはベクトルを表し、指定さ
れたインデックスのないものは真に一次元を有する。同様に、ａｒｒａｙｖａｒ
［］［］は、二次元アレイ全体を示し、ａｒｒａｙｖａｙ［２］［３］は、二次
元アレイの単一要素を示す。また、アレイ・インデックスの角括弧は、文脈でそ
の意味が明確になる場合には、明確化のために除外する。

【００４９】演算子「ｌｏｇ」は、自然対数演算（基底ｅ）を示す。演算子「ｅｘｐ」はｅ
を基底とする指数演算を示す。ＭＩＮ（ｘ，ｙ）はｘおよびｙの最小値を戻す。

【００５０】変換部システムのフロント・エンドには、変換部２４がある。これは、物理パターン
２２を検知し、それを表す入力信号２６を生成する。物理パターン２２は、事実
上、観察可能なあらゆるオブジェクトまたはイベント、あるいはオブジェクトお
よび／またはイベントの集塊（ｃｏｎｇｌｏｍｅｒａｔｉｏｎ）とすることがで
きる。同様に、変換部２４は、かかる観察可能なものを検出可能な何れかとすれ
ばよい。例えば、光検出器セル、マイクロフォン、カメラ、ソナー検出器、熱セ
ンサ、リアルタイム株式価格装置（ｒｅａｌ−ｔｉｍｅｓｔｏｃｋｑｕｏｔ
ｅｄｅｖｉｃｅ）、目の不自由な人の杖に埋め込まれるグローバル・ポジショ
ニング装置等を含むことができる。これは、電子的に格納されているパターン、
例えば、遠隔のネットワーク・サーバに格納されているハイパーテキスト文書を
検出することができる。また、変換部２４は、例えば、調査結果を観察する場合
には、１人以上の人を含むことも可能である。世界には非常に多種多様なパター
ンを検知する公知の方法および装置が多数あるので、適応型パターン認識の当業
者は、本発明を適用可能な多くの多岐にわたる物理パターン・ドメインを容易に
見出すであろう。

【００５１】また、変換部２４は、物理パターン２２の必要なあらゆる「前処理」も扱うこ
とを仮定する。前処理には、入力における不要な冗長性を除去したり、失われた
値を埋めたりするために用いられる公知のあらゆるハードワイヤードの変換が含
まれる。これらの動作は、問題毎に特定的となりがちであり、非常に多くの動作
が可能である。幾つかの例をあげると、キャラクタ（文字）認識における線抽出
、オーディオ（例えば、音声）信号のバンド・パス・フィルタリング、ならびに
画像の変換、回転およびサイズの正規化がある。しかしながら、注記すべき重要
なこととして、本発明のような適応型特徴利用型装置を用いる場合、前処理の重
要性は低下することがあげられる。特によく理解されているドメインでは、なお
も有用ではあるが、適切な前処理は、ある程度、装置の適応型部分によって「学
習する」ことができる。このために、最悪事態の場面において、システム設計者
が事実上物理パターン・ドメインに含まれる特徴について（従って、どんな前処
理動作が適切なのか）何も知らない場合でも、前処理を全く行なわずに（即ち、
「生の」入力データを用いて）本装置を用いることができる。

【００５２】適応型特徴利用型パターン認識の当業者は、一連の入力信号２６を生成し、こ
れらをデジタル・コンピュータを用いた認識装置に一連のベクトル値として提示
する方法については、精通しているであろう。従って、ここでは、入力信号２６
が変数ＩＮＰＵＴ［］として得られるとだけ仮定する。尚、変換（前処理を含む
）はオフラインで行なってもよいことを注記しておく。即ち、変換が或る時点で
行われて格納データを生成する限り、認識および／または学習は、格納データか
ら得られた入力信号２６について実行することができる。

【００５３】変数ＩＮＰＵＴ［］は、０／１値を有する二進数であると仮定する。必要であ
れば、アルバスの方法（ＡｌｂｕｓＭｅｔｈｏｄ）（バイト・マガジン（ＢＹ
ＴＥｍａｇａｚｉｎｅ）、１９７９年７月、６１ページ、ジェームス・アルバ
ス（ＪａｍｅｓＡｌｂｕｓ））またはその他のかかる公知の方法を用いて、ア
ナログ情報を二進数に変換することも可能である。本好適な実施形態には、アナ
ログ入力に対して作用する単純な拡張版があると考えるが、これらを試験してい
ないので、二進表現の方が好ましい。

【００５４】作用部認識プロセスの最終段は、作用部（ｅｆｆｅｃｔｏｒ）３８によって処理され
る。作用部３８は、ベクトル・コンピュータ変数ＯＵＴＰＵＴ［］の形態で出力
信号３６を取り込み、システムの環境２０において（学習後）現入力信号２６に
対してできるだけ適切なアクション７０を生成する。変換と同様に、この段は従
来技術において周知であるので、ここでは詳しく説明しない。作用部の例には、
ロボットのギア、交通信号灯、スピーカ、またはデジタル記憶デバイスがある。
異なる種類の作用部の組み合わせも使用可能な場合がある。デジタル記憶型の作
用部の１つの使用は、今後の使用のために出力信号３６を格納することである。
かかる記憶によって、例えば、（恐らくハイパーテキスト文書の）データベース
を実現する際に本発明が使用できるようになり、今後のクエリ（問い合わせ）が
、デジタル的に格納されている出力に、アクセスすることになろう。かかる実施
形態では、作用部３８は、例えば、入力信号２６のコピーを、出力信号３６を通
じて分類部３４から得た推定クラス・ラベルと共に格納することができる。

【００５５】実験に関する注意適応型パターン認識を最適に使用するには、或る量の実験が本来あるべきであ
る。何故なら、パターン・ドメインが完全に理解されることは決してないからで
ある（さもなければ、第１に適応型システムが必要とされることはない）。従っ
て、適応型パターン認識装置は、解決策自体というよりはむしろ、問題を解決す
るツールとして見なすのが最良である。しかしながら、適度な実験的技法によっ
て、完全に最適化した認識装置と実用上最適化した装置との性能ギャップは、遥
かに小さくすることができる。更に、最適化が極僅かな認識装置のアーキテクチ
ャであっても、一旦訓練すれば、多くの場合あらゆる既存の解決策を凌駕するこ
とができ、「非最適」ではあるものの、非常に価値のあるものとすることができ
る。

【００５６】一般に、本好適な実施形態に適した実験的技法は、適応型パターン認識の当業
者が熟知しているものと同一である。ここで、本好適な実施形態に関して、どこ
で特別な考慮をすべきかについて指摘する。脳の理論およびニューラル・ネット
ワークのハンドブック（ＨａｎｄｂｏｏｋｏｆＢｒａｉｎＴｈｅｏｒｙ
ａｎｄＮｅｕｒａｌＮｅｔｗｏｒｋｓ）（Ａｒｂｉｂ，ｅｄ．，ＭＩＴＰ
ｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ，ＭＡ）は、適応型パターン認識に関係する技法
についての非常に総合的な参考書であり、関係する従来技術の参考文献に対する
数多くの引用も含む。伝播および無監視学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅ
ａｒｎｉｎｇ）に言及する章は特に関連があり、他の関連資料も指摘している。
このような参考文献は、未だ知られていないのであれば、適切な実験的技法につ
いて学習するために用いるべきであろう。

【００５７】好適な実施形態１アーキテクチャ図およびフロー図第１の好適な実施形態について、図３ないし図９を参照しながら説明する。図
３は、図１よりも更に詳細に第１の好適な実施形態の構造を示す。環境２０、変
換部２４、および作用部３８は、明確化のために図３では除外してある。図４は
、図２よりも更に詳細にソフトウエアの実施のアウトラインを示すフロー・チャ
ートであり、図５ないし図９は、含まれるステップの更に詳細なフロー・チャー
トである。

【００５８】理論第１の好適な実施形態は、いわゆる「ノイジーＯＲ（ｎｏｉｓｙ−ＯＲ）」ニ
ューラル・ネットワーク・アーキテクチャを利用する。ラドフォードＭ．ニール
（ＲａｄｆｏｒｄＭ．Ｎｅａｌ）がかかるネットワークの理論に関する優れた
記述を行なっており、更に参考文献（「ビリーフ・ネットワークのコネクショニ
スト学習（Ｃｏｎｎｅｃｔｉｏｎｉｓｔｌｅａｒｎｉｎｇｏｆｂｅｌｉｅ
ｆｎｅｔｗｏｒｋｓ）」、アーティフィシャル・インテリジェンス（Ａｒｔｉ
ｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）５６、１９９２年、７１〜１１３ペ
ージ）も提示している。これらの参考文献は、学習手順に関することを除いて、
ここで説明すること以外の必要なあらゆる背景を得るために用いるとよい。本学
習手順は、ニールが記載するものとは異なる。ノイジーＯＲネットワークに関す
る別の説明が、ジャーッコラ（Ｊａａｋｋｏｌａ）およびジョーダン（Ｊｏｒｄ
ａｎ）によって行われている（ＡＩにおける不確実性についての第２０回学会会
報（ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｗｅｌｆｔｈＣｏｎｆｅｒｅ
ｃｅｏｎＵｎｃｅｒｔａｉｎｔｙｉｎＡＩ）における「イントラクタブ
ルなネットワークにおける尤度に関する上限および下限の計算（Ｃｏｍｐｕｔｉ
ｎｇｕｐｐｅｒａｎｄｌｏｗｅｒｂｏｕｎｄｓｏｎｌｉｋｅｌｉｈ
ｏｏｄｉｎｉｎｔｒａｃｔａｂｌｅｎｅｔｗｏｒｋｓ））。

【００５９】ノイジーＯＲネットワークは、二進（好ましくは０／１）ユニット、即ち、ニ
ューロンを用い、いわゆるノイジーＯＲ機能に従って活性化される。この方法に
よれば、ユニットｊの「発火」（値１を有する）がユニットｉも発火させる確率
を表す、ユニットｉおよびｊの各対毎の量ｐ［ｉ］［ｊ］がある。（ニールは、
代わりに、値ｑ［ｉ］［ｊ］を用いて作業を行い、そこでは、ｑ［ｉ］［ｊ］＝
１−ｐ［ｉ］［ｊ］である。）また、潜在的に、各ユニット毎に「バイアス」値
がある。これは、本質的に、常にオン（発火）である仮説的ユニットからのコネ
クション（接続）である。しかしながら、好適な実施形態は、最上位ユニットに
ついてのみ、バイアス重みを用いる。

【００６０】好適な実施形態では、ユニットは階層状に配列されており、最下位レイヤ（層
）は入力パターン（即ち、入力信号２６に対応する）を表す。かかるネットワー
クの目標は、パターン・ドメインの内部モデルを学習することである。これを、
「無監視（教師なしの）」学習（“ｕｎｓｕｐｅｒｖｉｓｅｄ” ｌｅａｒｎｉ
ｎｇ）とも呼ぶ。内部モデルは、「パターン発生器」とも見なすことができ、入
力パターン空間に対する確率分布を表す。理想的には、訓練したノイジーＯＲネ
ットワークは、訓練パターンの分布に非常に密接に一致する分布を有するパター
ンをランダムに発生するために用いることができる。この種のネットワークをパ
ターン発生器と見なすことは至極当然であるので、コネクションは、ネットワー
クにおける最上部から最下部に向かうと言われる。しかしながら、実際には、デ
ータはコネクションに沿って双方向に流れる。

【００６１】かかるネットワークでは、認識は少なくとも２つの基本的な方法で行なうこと
ができる。第１に、ネットワークに、部分的な入力パターン、および欠落した入
力値を埋めるために用いられるその内部モデルを与えることができる（訓練中に
は、入力パターンにこれら値の欠落はなかったと仮定する）。欠落値は、クラス
・ラベルを表す可能性もあり、その場合、ネットワークを分類に用いることがで
きる。尚、分類学習は多くの場合「監視」学習（“ｓｕｐｅｒｖｉｓｅｄ” ｌ
ｅａｒｎｉｎｇ）と見なされるが、しかしながら、いわゆる無監視の手順でも、
同様のタスクを実行するように形成することができることを注記しておく。

【００６２】本好適な方法である、かかるネットワークを用いて認識を行なう第２の方法は
、図３に示すように、別個のクラスのネットワーク５０［ｃ］を用いて各クラス
をモデル化することである。認識時に、入力パターンを各クラス・ネットワーク
５０［ｃ］に提示し、各々を、ネットワークが入力パターンを発生する確率を表
す尤度値を生成するために用いる。これらの尤度値は、分類部３４によって計算
される。分類部３４は、クラス・ネットワーク５０から、特徴アクティビティ信
号３０、ならびにネットワーク重み値および非隠れユニット（ｎｏｎ−ｈｉｄｄ
ｅｎｕｎｉｔ）のアクティビティというような、尤度を計算するために必要な
他の情報を受け取る。分類部３４は、これらの尤度値を（公知のベイズ規則を用
いて）以前のクラス確率と組み合わせ、（相対的な）後クラス確率情報を得る。
この情報から、最も確率の高いクラスのインデックスを計算し、出力信号２６を
通じてこれを伝達する。なお、この実施形態では、あらゆるネットワークにおけ
るあらゆる隠れユニットを、特徴検出部２８の１つと見なせることを注記してお
く。

【００６３】個別ネットワーク手法は、特徴検出部を異なるクラスで共有できないという欠
点がある。しかしながら、これは、分類タスクに関連のある特徴をネットワーク
にいかに学習させるかという、欠落値の手法に伴う問題を回避する。

【００６４】認識の間、入力信号２６は、各クラス・ネットワーク５０［ｃ］に提示され、
前述のように分類部３４によってクラス尤度値が計算される。しかしながら、学
習の間、入力信号２６は、入力パターンの（既知の）ターゲット・クラスに対応
するクラス・ネットワーク５０［ｃＴａｒｇｅｔ］にのみ提示される。同様に、
現パターンに対して、ターゲット・ネットワークのみを訓練する。全てのクラス
・ネットワーク５０は同様に動作するので、ネットワーク・インデックスは、重
要でない場合、ここでは明確化のために図示を控える。

【００６５】認識および学習は、双方共、推論プロセスを必要とし、それにより、ネットワ
ーク５０［ｃ］はその内部モデルを現入力データ（現入力信号２６で表す）に当
て嵌める。ノイジーＯＲネットワークの典型的な従来技術の実施では、ある種の
反復推論プロセスを用い、それにおいては、多数の「活性化サイクル」、または
ユニット活性化の更新を実行する。ここでの好適な推論プロセスも、この種のも
のである。この推論プロセスの２つの結果は特に重要である。第１に、（理想的
には）ネットワークが現入力を生成する確率を表す尤度値を生成する。この尤度
値は、分類を容易にするために、分類部３４によって計算する。第２に、推論プ
ロセスは、特徴検出部２８から入力パーツへのマッピングを生成する。この場合
、各非入力ユニットは特徴検出部２８［ｍ］であり、ユニットに対応する「入力
パーツ」は、当該ユニットが生成に「関与する」（ｒｅｓｐｏｎｓｉｂｌｅ）と
判断されたレイヤにおける活性化パターンのパーツである（ネットワークをパタ
ーン発生器と見なしていることを念頭に入れておくこと）。

【００６６】好適な推論プロセスは、ギッブスのサンプリングであり、従来技術では公知の
技法である。これは統計に基づくプロセスであり、ユニットのアクティビティ状
態（オンまたはオフ）の連続するランダム・サンプリングを伴う。各ユニットを
順番に巡り、そのアクティビティを、ネットワークにおける他の全ユニットの現
状態に依存する分散から選択する。このプロセスが「十分長く」実行される場合
、ネットワーク状態の分散は、ネットワークの入力データが与えられると、それ
らの尤度、即ち、それらの個々の確率を反映することになる。幾つかのかかる状
態の平均は、従って、ネットワーク・モデルの全体的な尤度の推定値を与えるこ
とができる。

【００６７】本実施形態の利点の１つは、推論プロセスが反復であり、フィードバックを組
み込んでいることである。このために、多数の隠れレイヤを用いる場合、上位レ
イヤは、下位レイヤ・ユニットをいかに活性化するかについて影響を及ぼすこと
ができるという効果がある。かかるトップ−ダウンの影響により、認識全体の柔
軟性向上および高精度化を得ることが可能となる。しかしながら、この特別なパ
ワーは相当の代償を払うことになる。即ち、厳格なフィードフォワードの方法と
比較すると、必要な処理時間が長くなる。この特別な処理は、しかしながら、繰
り返しによって生ずる変化がある評価基準未満となったときに、繰り返しを停止
することによって、極力削減することができる。

【００６８】また、ギッブスのサンプリングは、学習の目的にも用いられる。ネットワーク
の各状態毎に、確実度（ｒｅｓｐｏｎｓｉｂｉｌｉｔｙ）値ｒ［ｉ］［ｊ］を、
ユニットｉおよびｊの各対毎に計算することができる。これは、ユニットｊがユ
ニットｉを発火させる確実度を表す。尚、ｒ［ｉ］［ｊ］は、前述の値ｐ［ｉ］
［ｊ］とは同一でないことを注記しておく。ｐ［ｉ］［ｊ］は、仮説的な確率で
あり、ユニットｊが発火する場合にユニットｉが発火する確率である。一方、値
ｒ［ｉ］［ｊ］は、特定のインスタンス化されたネットワーク状態が与えられた
場合に、ユニットｊが実際にユニットｉに対して有する効果を表す。

【００６９】２つの接続されたユニットのレイヤに対する確実度値のアレイはセグメンテー
ション（ｓｅｇｍｅｎｔａｔｉｏｎ、切り出し）を構成する。これは、下位レイ
ヤ・アクティビティのどの「部分」が、上位レイヤにおけるどのユニットと「関
係（ｇｏｗｉｔｈ）」するかについて示すものである。上位レイヤにおける各
ユニットは、（インアクティブでない限り）下位レイヤにおけるアクティビティ
の或る部分に対する責任を負うと判断される（インアクティブの場合、何れにも
責任がない）。上位レイヤのユニットを特徴発生器と見なすと、確実度は、どの
特徴が発生して下位レイヤのアクティビティが生じたのかを示し、かつどのユニ
ットがどの特徴を発生したのかについて示す。また、ユニットも、勿論、特徴検
出部として見なすことができ、所与の特徴に対するユニットの優先度は、その特
徴を発生するその確率に直接関係する。また、下位のレイヤにおける所与の「オ
ン」ユニットに対する確実度を、複数のユニットが共有できることも注記してお
く。１つのユニットのみに「オン」ユニットに対する責任をもつことが許される
「ハード・セグメンテーション」に対して、これを「ソフト・セグメンテーショ
ン」と呼ぶ。

【００７０】学習は、ユニットｊのｐ［］［ｊ］値を、ユニットｊの対応するｒ［］［ｊ］
値の方へ移動させることによって行われる。言い換えると、ユニットｊの確実度
のベクトルを、それが責任を負う入力の「部分」として見なすことができ、更に
その出力する重みのベクトル（ｐ［］［ｊ］値）をその優先特徴と見なすことが
できる。すると、これらの項において、学習手順は、ユニットｊの優先特徴を、
それが割り当てられた入力部分に直接的に更に類似させる。この方法の詳細につ
いては以下で示す。

【００７１】尚、この実施形態では、ネットワーク５０は特徴検出部２８（即ち、「隠れユ
ニット」−おそらく、それらの多数のレイヤ）を含むだけでなく、ネットワーク
５０はメモリ４０を実施するためにも用いられることを注記しておく。これは、
この種の非監視ネットワークを用いることによる有益な成果である。何故なら、
用いているノイジーＯＲネットワークは、その入力環境をモデル化するように設
計されているので、本質的に、それを訓練した環境からの過去の入力の（損失性
）メモリである。更に、ユニットのレイヤが多数ある場合、これらも適切な種類
の多数のメモリとして動作可能である。各ユニットのレイヤ、およびその下位に
あるレイヤへの接続が、その下位レイヤにおけるアクティビティのパターンのた
めのメモリを実現する。図３は、２つのサブシステム間における双方向のデータ
・フロー矢印によって、メモリ４０を実現する際におけるネットワーク５０の使
用を示す。

【００７２】実施態様前述のように、第１実施形態の中核は、汎用デジタル・コンピュータ上にソフ
トウエアで実現する。従って、図３の構造に関するサブシステムの説明と、具体
的な実現に関する説明との間には、概念的マッピングが存在する。このマッピン
グは次の通りである。

【００７３】入力信号２６は、変数ＩＮＰＵＴ［］の格納およびコンピュータ・メモリから
の後の検索によって実現される（「コンピュータ・メモリ」という用語を「メモ
リ４０」と混同しないよう注記しておくが、勿論、前者は後者を実現するために
用いられる）。特徴検出部２８は、ネットワーク５０の隠れユニット全てを含む
。所与のネットワークに対する特徴検出部２８の優先特徴は、コンピュータ・メ
モリにアレイ変数ＷＥＩＧＨＴ［］［］［］として格納される。特徴記述信号３
２は、ＷＥＩＧＨＴアレイの適切な要素の格納およびコンピュータ・メモリから
の検索によって実現する。特徴アクティビティ信号３０は、アレイＡＣＴ［］［
］の格納および検索によって実現する。特徴検出部２８の実現は、ギッブスのサ
ンプリングを用いてＡＣＴ［］［］の要素を計算するプログラム・コードを含む
。分類部３４は、変数ＯＵＴＰＵＴの値を計算するプログラム・コードによって
実現する。これは、個々のネットワークの尤度を計算するコードを含み、これら
を組み合わせてＯＵＴＰＵＴを生成する。ＯＵＴＰＵＴの格納および検索によっ
て、出力信号３６を実現する。

【００７４】メモリ４０は、ギッブスのサンプリングを実行して有望ネットワーク（ＡＣＴ
［］［］）状態を導き出すコードを含む。検索信号６８の実現は、ネットワーク
・ユニットに対するＰＲＯＢＯＦＦ変数の格納および検索を含む。メモリ４０は
、検索信号６８（ＰＲＯＢＯＦＦ値）を計算する際に特徴アクティビティ信号３
０を利用する。以下で詳しく述べるが、所与のレイヤに対するＰＲＯＢＯＦＦ値
は、上位レイヤにおける特徴検出部２８からのＷＥＩＧＨＴ値の（特定の種類の
）組み合わせである。従って、メモリ４０は損失性メモリである。何故なら、Ｗ
ＥＩＧＨＴ値は、一般に、情報の一部を損失せずに任意の数のパターンを格納す
ることができないからである。

【００７５】割当部６６は、ネットワーク・コネクションに対する確実度を計算するコード
によって実現される。このコードは、以下で説明するように、暗示的に確実度を
計算する、図９の重み更新コードの一部である。パーツ・マッピング信号４４は
、図９の重み更新コード内の一時的格納によって実現される。このコード・ブロ
ックは、更新部４２も実現する。ターゲット信号４６は、現物理パターン２２の
ターゲット・クラスを示す、ＴＡＲＧＥＴと呼ぶ変数によって実現される。

【００７６】アーキテクチャおよびパラメータの選択システム・アーキテクチャの或る面は、解決すべき問題によって決定される。
ネットワークの数Ｃは、認識すべきクラスの数に等しい（例えば、英字の小文字
を認識する場合、Ｃは２６である）。入力ユニットの数（最下位レイヤにおける
入力ユニット）は、通常では各ネットワーク毎に同一であり、選択した入力表現
によって決定される。この表現は０／１の二進数には好ましいが、それ以外は、
その組成は設計者に委ねられることを思い出されたい。適切な入力表現の作成は
、従来技術のパターン認識に関する文献における共通のタスクである。

【００７７】アーキテクチャの他の面は、高度な推定、および恐らく最適な性能を達成する
ための実験を必要とする。この場合も、これは従来技術の装置の特徴でもある。
例えば、各ネットワーク内のユニットのレイヤの数を変更することができる。こ
こでは、２レイヤおよび３レイヤのネットワークでのみ、実験を行なった（即ち
、１レイヤおよび２レイヤのコネクション）。しかし、これよりも多いレイヤで
は良い結果が得られないと考える理由がない。実際に、生の画像のように、入力
ドメインが大量の冗長性を含む多くの問題では、レイヤが多い程有効であると考
える。これを、限定した受入フィールドの使用と組み合わせることにより（今日
ではニューラル・ネットワークの文献では周知の技法である）、恐らく特に有用
となろう。一般的な規則として、入力された特徴に関してクラスを記述するのが
困難な程（人にとっては）、追加のレイヤを有するほど一層役に立つ。しかしな
がら、２レイヤ・ネットワークがなおも好ましく、実験的リソース（ｅｘｐｅｒ
ｉｍｅｎｔａｌｒｅｓｏｕｒｃｅ）が許す場合にのみ、より多くのレイヤを追
加する。これによって、この中での命名法の理解が簡単にされる。一つの隠れレ
イヤの活性化は、特徴アクティビティ信号３０によって表わされる。即ち、隠れ
ユニットは特徴検出部２８に対応し、入力ユニットは入力信号２６の要素を受け
取る。この説明では、レイヤ数を変数と見なしているが（ＮＵＭＬＡＹＥＲＳ）
、追加のレイヤを用いた実験を簡単にするためである。

【００７８】各（非入力）レイヤにおけるユニット数も、実施形態のパラメータである。こ
れは従来技術のニューラル・ネットワークの場合と同様である。試される最初の
値は、入力ドメインにおける独立した特徴の数における最良の推定でなければな
らない（ここでは「入力ドメイン」は、次に低いレイヤのユニットのアクティビ
ティを意味する）。典型的な実験方法では、各隠れレイヤ毎に非常に小さな数の
ユニットから開始し、そして、（相互正当性実証データ集合に対して）訓練され
たシステムの性能が改善し、実験時間が許す限り、各訓練を実行した後に数を増
加させる。また、ユニット数が所与の下位レイヤから上位レイヤへと減少する場
合に、より良い全体的な性能が見出されることも典型的である。これは、非監視
ネットワークの１つのジョブは冗長性を除去することであり、冗長性が除去され
ると、同じ情報を表すのに必要なユニットが少なくて済むからである。

【００７９】好適な実施形態は厳格に階層化されており、レイヤを「飛ばす」接続はないの
で、所与のネットワークに対する重み値を三次元マトリクスとして見なすと都合
が良い。その場合、最初のインデックスはレイヤ番号に対応し、２番目は受ける
側（下位レイヤ）のユニットに対応し、３番目は送る側（上位レイヤ）のユニッ
トに対応する。このため、変数ＷＥＩＧＨＴ［ＬＡＹ］［ｉ］［ｊ］を用いて、
レイヤＬＡＹ＋１のユニットｊからレイヤＬＡＹのユニットｉまでの重み値を表
すことにする（レイヤには、入力レイヤに対して０から始まるインデックスを付
ける）。

【００８０】トライアルの規制（パターン提示）図４に示すように、学習および認識の過程全体を複数のトライアルに分割し、
各トライアルは、単一の入力パターンの提示を伴う。概して言えば、ユーザおよ
び対処すべき問題は、どのトライアルで学習および／または認識をイネーブルに
するかについて判定を行なう。認識は、学習が行われていない限り、非常に良い
訳はないことは明白である。しかしながら、好ましくは、分類エラーは、別個の
相互確認（相互正当性実証）データ集合での学習全体を通じて評価すべきであり
、相互確認エラーが底を打ち上昇し始めたときに学習（訓練データ集合に対して
行われるのであり、相互確認集合に対してではない）を終了することが好ましい
。この技法は、当技術分野では周知である。しかしながら、他の技法にも有用な
ものがある。例えば、装置の寿命全体にわたって学習をイネーブルし、恐らく非
静止的環境に対する連続的適応を可能とする場合もある（このような場合、しか
しながら、時間にわたって学習レートを低下させるのは不適切であり、これにつ
いては以下を参照のこと）。

【００８１】訓練パターンは独立して、学習すべき入力分布に応じて独立的かつランダムに
選択しなければならない。尚、メモリ４０は、この実施形態では特徴検出部２８
を用いて実現しており、最初はパターンを全く収容していないことを注記してお
く（しかしながら、初期ランダム重みは、仮説的格納パターンを表すものとして
見られることも可能である）。しかしながら、１回以上の訓練トライアルの後、
訓練されたパターンが概略的に格納されたと見なす。従って、これら格納された
パターンは、今後の訓練トライアルのための比較パターンとなり、今後の各入力
信号２６内で有望特徴即ちパーツを発見する際に用いられる。

【００８２】学習の前に、Ｃの全てのネットワークの重み全て（ｐ［ｉ］［ｊ］値）を小さ
なランダム値に初期設定しなければならない。これらは、アレイ要素ＷＥＩＧＨ
Ｔ［ＬＡＹ］［ｉ］［ｊ］に格納される。好ましくは、これらは、０．０２ない
し０．０４の範囲内で均一にランダムとなるべきであるが、リソースが実験を許
すのであれば、これを実験的パラメータとすることも可能である。学習の間、重
みを０．０１ないし０．９９の範囲に維持することが好ましい（正常な重み更新
の後に、限度を超えるあらゆる重みを当該限度にリセットすることによる）。こ
れの目的は、過度に低い尤度のために学習が「行き詰まって」しまうのを防止す
るため、そして計算した確率が機械が表現可能な値を超過するのを防止するため
である。しかしながら、実験が可能であり、入力ドメインにおける重要な特徴が
この範囲を超える確率で発生することがわかっているか確信している場合には、
これらの限度を調節して補償しなければならない。

【００８３】各ユニットｉに対して２つの変数ＣＯＵＮＴ［ｉ］およびＣＯＵＮＴＢＩＡＳ
［ｉ］があり、これらは訓練のトライアル回数をカウントするために用いられる
。これについては以下で更に説明する。これらは、いずれの訓練トライアルを行
なう前にも、ゼロに初期設定しなければならない。

【００８４】訓練をイネーブルする各トライアル毎に、変数ＴＡＲＧＥＴを現物理パターン
２２に対するターゲット・クラスのインデックスにセットする。ネットワーク上
のループ（図４に示すようなもの）の間に試験を行い、現クラスｃがＴＡＲＧＥ
Ｔに等しいか否かについて判定を行なう。等しい場合、訓練を含む処理をネット
ワークｃ上で継続する。

【００８５】サイクルの規制（ギッブスのサンプリングの繰り返し）図４に示すように、各トライアルの重要な部分は、複数の「サイクル」に及ぶ
ループである。これは、イネーブルされたネットワーク毎に別個に行われる（訓
練のみがイネーブルされた場合はターゲット・クラス・ネットワークのみ、認識
がイネーブルされた場合には全てのクラス・ネットワークに対して行なう）。し
かしながら、プロセスは各ネットワーク毎に同一であるので、ここでは単一のネ
ットワークについて論ずることにする。

【００８６】各サイクルは、ネットワークの各ユニットの単一ギッブス・サンプリング、お
よび生成された活性化状態の尤度の計算を含む。また、各ユニット毎に２つの変
数、以下で述べるＰＲＯＢＯＦＦおよびＮＥＴＯＦＦＢＥＬＯＷを、各サイクル
毎に更新する。訓練モードがイネーブルにされた場合、各サイクル毎に重みも更
新する。

【００８７】読者は、従来技術の文献を参照してギッブスのサンプリングの背後にある理論
を検討すること。しかしながら、基本的な考えは、各ユニットの活性化が、他の
ユニット全ての現在の活性化に依存するその確率に従って周期的にサンプリング
されるということである。究極的に、この手順を用いると、ネットワーク状態全
体が、各々、ほぼ、その全体的な確率（インスタンス化されたネットワーク入力
に対する）に応じた頻度で発生する。これは有用な特性である。何故なら、所与
の入力に依存するネットワーク状態の確率を直接計算するのは、非常に難しい場
合が多いからである。

【００８８】ユニットの活性化をサンプリングする毎に、２つの値を計算しなければならな
い。即ち、ユニットが活性化０を有する場合には、ネットワーク全体の確率（他
のユニットの現在値全てが与えられる）、そしてユニットが活性化１を有する場
合には、ネットワークの確率を、計算しなければならない。ギッブスのサンプリ
ングがユニットに０の活性化を割り当てる確率は、これら２つの値の最初の値を
それらの和で除算したものとなる。０の活性化が割り当てられない場合、ユニッ
トは１の値を取る。

【００８９】同じことを行なう理論的に同等な方法は、ユニットの活性化が変化すべき確率
を計算することである。これは、本好適な実施形態の方法である。ノイジーＯＲ
アーキテクチャによって、所与のユニットは、他のユニットのある群の影響のみ
を受けることになる。即ち、ユニットの親、および子、ならびに「親族」（その
子の他の親）のみを、ユニットの活性化をサンプリングする場合に考慮する。

【００９０】好適な実施形態では、ギッブスのサンプリングの単純な実施を更に改良する構
想を採用する。この構想は、多くの計算値はサイクル毎に変化せず、特に後のサ
イクルでは変化しないという事実を利用する。従って、「更新」構想を採用する
ことによって、ある有用な量をサイクル毎に維持し、ネットワーク状態において
他の変化が必要となったときにはいつでも更新する。このように更新することに
より、典型的に、各サイクル毎に値を再計算するよりも、全体的な処理時間が短
縮される。

【００９１】各ユニットに、２つの主要な変数を維持する。ここでは、ＰＲＯＢＯＦＦおよ
びＮＥＴＯＦＦＢＥＬＯＷと称する。ユニットのＰＲＯＢＯＦＦ値は、その親に
対して、ユニットがオフとなる確率を表し、それは、ネットワークの残り部分に
依存するユニットの確率を計算する際に非常に有用な量を表す。ＰＲＯＢＯＦＦ
の計算には、ユニットの「オン」となっている親にわたっての積（ｐｒｏｄｕｃ
ｔ）を必要とするので、親ユニットの活性化が変化した場合、または親からのコ
ネクション重みが変化した場合にのみ、更新すればよい。更に、更新は、変化し
た親の活性化だけを扱えばよく、親全体にわたって再度繰り返すことはない。

【００９２】ＰＲＯＢＯＦＦは、ユニットの親からその活性化確率に対する寄与と見なすこ
とができるが、ユニットのＮＥＴＯＦＦＢＥＬＯＷ値は、「オフ」の子ユニット
からの寄与を格納する。これは、子の活性化が変化したとき、または子に対する
コネクション重みが変化したときにのみ変化させればよい。この値は非常に有用
である。何故なら、ユニットの確率を計算する際、全ての「オフ」の子ユニット
からの寄与が、単にＮＥＴＯＦＦＢＥＬＯＷを他のユニットからの寄与と加算す
るだけで、計算されるからである。更に、ＮＥＴＯＦＦＢＥＬＯＷは、それ自体
、適切な１−ｐ［ｉ］［ｊ］値の（負の）対数の和である。即ち、計算には乗算
や除算を必要としない（テーブル参照を用いて、対数演算を高速化することがで
き、および／または各コネクションの−ｌｏｇ（１−ｐ［ｉ］［ｊ］）値を単に
格納することも可能である）。このことが全体的に意味するのは、「オフ」の子
からの寄与は、計算が非常に速いということである。更に、多くの応用分野にお
いて、「オフ」ユニットの「オン」ユニットに対する比率は、１．０よりもかな
り高いと考えられる。これが真である限り、ギッブスのサンプリングを実行する
ための時間全体は、本方法による方が遥かに少なくて済む。

【００９３】ギッブスのサイクル前の初期設定何れのサイクルが発生する前にも、図５に示すように或る変数を初期設定する
。変数ＡＣＴ［０］［０］．．ＡＣＴ［０］［Ｎ−１］によって表される入力レ
イヤの活性化は、アレイＩＮＰＵＴ［０］．．ＩＮＰＵＴ［Ｎ−１］に格納され
ている入力パターンに等しくセットされる。これらの値は、ギッブスのサンプリ
ングの間「固定（クランプ）」される。即ち、これらは不変である（サンプリン
グされない）ことを意味する。しかしながら、何れかの入力値が欠落している他
の実施形態では、対応する入力ユニットを、ネットワークの隠れ（非入力）ユニ
ットとして扱うことによって、ギッブスのサンプリングによって欠落値を「埋め
る」ことを可能にするのが適当であろう。各非入力レイヤ毎に、ユニット活性化
の全てをゼロに初期設定する。

【００９４】また、サイクル（循環）の前に、ネットワークの各レイヤ毎に、ランダムなサ
ンプリング順序を選択する。これは、単に、レイヤのユニット・インデックスの
（均一な）ランダムな順列に過ぎず、これを、当該レイヤ内においてギブス・サ
ンプリングを実行する順序として用いる。これらのインデックスは、変数ＯＲＤ
ＥＲ［ＬＡＹ］［］として格納される。ここで、ＬＡＹはレイヤ・インデックス
であり、他のインデックスは、当該レイヤにおけるユニット全体に及ぶ。尚、各
サイクル毎に異なるランダム順序を用いてもうまく動作する場合もあるが、その
試験は行っておらず、更にいくらか余計に時間がかかるので、好適な方法ではな
いことを注記しておく。

【００９５】ユニットのＰＲＯＢＯＦＦ値は、次のように初期設定される。ネットワーク内
の最上位レイヤでは（レイヤ番号はＮＵＭＬＡＹＥＲＳ−１であり、最下位レイ
ヤはレイヤ０である）、各ユニットのＰＲＯＢＯＦＦ値は、ちょうど１．０から
当該ユニットのバイアス重みを減算した値である。即ち、ＰＲＯＢＯＦＦ［ＮＵ
ＭＬＡＹＥＲＳ−１］［ｉ］＝１．０−ＷＥＩＧＨＴ［ＮＵＭＬＡＹＥＲＳ−１
］［ｉ］［０］となる。（尚、バイアス・ユニットは、レイヤＮＵＭＬＡＹＥＲ
Ｓの仮想ユニット０と見なされることを注記しておく。）最上位以外の各レイヤ
毎に、そのユニットのＰＲＯＢＯＦＦ値の全てを１．０に初期設定し、全ての非
入力ユニットが初期状態ではオフであるという事実を反映する。

【００９６】各ユニットのＮＥＴＯＦＦＢＥＬＯＷ変数は、次のように初期設定される。子
がないユニット（入力ユニット）については、ＮＥＴＯＦＦＢＥＬＯＷをゼロに
セットする（そして、常にゼロである）。非入力レイヤＬＡＹのそのほかの各ユ
ニットｊについては、ＮＥＴＯＦＦＢＥＬＯＷは、−ｌｏｇ（１．０−ＷＥＩＧ
ＨＴ［ＬＡＹ−１］［ｉ］［ｊ］）の非アクティブな子ユニットｉ全体の和であ
る。（尚、これは自然対数、即ち、基底がｅであることを注記しておく。）尚、
入力ユニット以外は全てゼロの活性化から開始するので、レイヤ１（入力ユニッ
トの親）のユニット以外は全て、それらの子全てについてこの和を計算すること
を注記しておく。

【００９７】各ユニットのＵＮＩＴＰＲＯＢ変数は、全てのユニットについて、１に初期設
定される。この変数は、ネットワーク全体の尤度に対するユニットの個々の寄与
（の積）を蓄積するために用いられ、実行される全てのサイクルにわたって計算
される。

【００９８】各ユニット毎に２つの他の変数ＣＯＵＮＴおよびＣＯＵＮＴＢＩＡＳが同様に
用いられる。これらは、ユニットがアクティブになった訓練サイクルの回数（Ｃ
ＯＵＮＴ）、またはアクティブまたはインアクティブの何れかになった回数（Ｃ
ＯＵＮＴＢＩＡＳ）を追跡するために用いられる。これらの変数は、訓練中に用
いられ、経時的に行われる特徴の変更の量を減少させることにより、訓練プロセ
スが収束するのを促進する。

【００９９】ギッブスのサンプリングおよびユニット変数の更新図６は（図７と共に）単一のサイクルにおけるギッブスのサンプリング・プロ
セスを更に詳細に示す。全体的な構造は、２つのネスト状ループであり、外側の
ループがネットワーク内のレイヤ全体に対して（最下位から最上位へ）繰り返し
、内側のループは各レイヤ内部のユニット全体に対して繰り返す。この処理の大
部分は、次に説明するように、特定のユニットに行われ、そのインデックスは、
並び替えたインデックス・リストＯＲＤＥＲ［ＬＡＹ］［ｕ］から選択する。

【０１００】ＡＣＴ［ＬＡＹ］［ｉ］に格納されている、現ユニットの活性化に対する値を
サンプリングするプロセスを図７に示す。尚、図６に示すように、活性化が固定
されているユニットには、サンプリングを行なわないことを注記しておく。好適
な実施形態では、全ての入力ユニットの活性化が固定され、その他のユニットは
固定されていない。しかしながら、ここで「固定された」ユニットと「入力」ユ
ニットとの間で区別し、これが真でない代替実施形態で実験を行ないたい当業者
を補佐する。

【０１０１】図７の背後にある構想は、現ユニットがその活性化を変化させる確率を、その
他のユニット全ての現活性化に基づいて、計算することである。変数ＮＥＴを用
いて、活性化の変化の必要性に対する「証拠」を蓄積する。ＮＥＴは、変化の確
率を出力するＳ状関数に対する入力として用いられる。この確率値を、０ないし
１の間のランダムな実数値と比較し、変化が実際に行われたか否かについて判定
を行なう。

【０１０２】現ユニットの親ユニットからの寄与を用いてＮＥＴを初期設定する。これに関
わる計算の殆どは、既に現ユニットのＰＲＯＢＯＦＦ値で実行中の更新において
行われている。理論的には、寄与は、（１−ＰＲＯＢＯＦＦ）の（自然）対数か
らＰＲＯＢＯＦＦの対数を減算した値となる。これは、現活性化がゼロであると
仮定する。そうでない場合、寄与に−１を乗算しなければならない。

【０１０３】しかしながら、理論値に調節を行なうことを指摘しておく。即ち、ＰＲＯＢＯ
ＦＦを直接用いる代わりに、ＰＲＯＢＯＦＦおよび定数０．９９の内の小さい方
を用いる。これは、重みがクリップされるのと同じ理由で行われる。小さい数値
の機械表現の問題を防止し、極限の確率のためにギッブスのサンプリングが「行
き詰まる」のを防止するためにである。しかしながら、この場合も、手近にある
問題に対してこの値０．９９が余りに限定的であると考える理由がある場合、限
定が少ない（より大きな）値を用いて実験を行なわなければならない。

【０１０４】ＮＥＴに対する第２の寄与は、「オフ」である子ユニットからもたらされる。
この場合も、これは本質的にこの更新の方式によって、このときは変数ＮＥＴＯ
ＦＦＢＥＬＯＷにおいて、既に計算されている。即ち、ＮＥＴＯＦＦＢＥＬＯＷ
をＮＥＴから減算する。これは、やはり現ユニットが「オフ」であると仮定する
。そうでない場合、ＮＥＴＯＦＦＢＥＬＯＷをＮＥＴに加算しなければならない
。これは、図７に示すように、以下の条件によって行われる。

【０１０５】「オン」の子ユニットからの寄与は、他の寄与が可能なように、実行中の変数
（ｒｕｎｎｉｎｇｖａｒｉａｂｌｅ）からは容易に計算することができない。
これは、全ての（オンの）子ユニットにわたって繰り返すことによって、毎回再
計算しなければならない。これは、図７において次に行われる。「オン」の子ユ
ニット毎に、当該子がその現在値を有する確率を、次の２つの場面において計算
しなければならす、それらは、（１）現ユニットの活性化が変化する、および（
２）それが変化しない、という場面である。実際、各「オン」の子について、Ｎ
ＥＴに加算されるのは、これら２つの確率の比率の対数である。この基本的な手
順は、幾つかの封入される条件（ｅｎｃｌｏｓｉｎｇｃｏｎｄｉｔｉｏｎａｌ
）により、いくらか複雑化している。これらの条件の目的は、単に、確率の一方
または他方、あるいは双方がゼロであるという異常な場合を扱うことである。

【０１０６】図６に示すように、一旦、現ユニットに活性化を選択したなら（ＡＣＴ［ＬＡ
Ｙ］［ｉ］）、チェックを行い、活性化が変化したか否か確認する（勿論、前の
値を格納しておかなければならない）。変化している場合、影響を受ける可能性
がある他の全ユニットについて、実行中の変数ＰＲＯＢＯＦＦおよびＮＥＴＯＦ
ＦＢＥＬＯＷを更新しなければならない。

【０１０７】ユニットのＰＲＯＢＯＦＦ値は、その親に対して、オフになるその確率を追跡
する。従って、レイヤＬＡＹ−１のあらゆるユニットが、そのＰＲＯＢＯＦＦ値
を更新していなければならない（勿論、ＬＡＹが入力レイヤの場合、かかるユニ
ットはない）。それぞれの子ユニットｋに対して、ＰＲＯＢＯＦＦ［ＬＡＹ−１
］［ｋ］を、ユニットｉがユニットｋをオンにしない確率、即ち、量１−ＷＥＩ
ＧＨＴ［ＬＡＹ−１］［ｋ］［ｉ］で乗算または除算の何れかを行うことによっ
て、これを行なう。乗算または除算のどちらを行うかは、ユニットｉが現在オフ
かまたは現在オンかによって異なる。尚、最上位のレイヤのユニットは、サイク
ルの間に決してそのＰＲＯＢＯＦＦ値を変化させないことを指摘しておく。何故
なら、それらの唯一の親が、１の一定活性化を有する（仮説的な）バイアス・ユ
ニットであるからである。

【０１０８】ユニットｉのＮＥＴＯＦＦＢＥＬＯＷ値は、その「オフ」の子からのその確率
に対する寄与を追跡する。従って、レイヤＬＡＹ＋１におけるあらゆるユニット
も、そのＮＥＴＯＦＦＢＥＬＯＷ値を更新していなければならない。何故なら、
レイヤＬＡＹのユニットｉは既にその活性化を変化させているからである（勿論
、ＬＡＹが最上位レイヤである場合、かかるユニットはない）。各親ユニットｊ
について、変数ＮＥＴＯＦＦＢＥＬＯＷ［ＬＡＹ＋１］［ｊ］から、量−ｌｏｇ
（１−ＷＥＩＧＨＴ［ＬＡＹ］［ｋ］［ｉ］）を減算するか、あるいはこれらを
加算することによって、これを行なう。加算または減算のどちらの演算をするか
は、ユニットｉが現在オフかまたはオンかによって異なる。

【０１０９】全てのユニットにギッブスのサンプリングを実行した後、図８に示すように、
別の二重ループを実行する。再度、ネットワークの各ユニットを順番に巡り（こ
こでは、ランダムなインデックス選択は不要である）、各ユニットのＵＮＩＴＰ
ＲＯＢ値を更新する。最終的に、現入力パターンに基づいて、ネットワーク・モ
デル全体の尤度を推定するために、ＵＮＩＴＰＲＯＢを用いる。この尤度は、個
々のユニットの確率（確立の各々が、与えられた入力に対して、現在の活性化を
有する）の積である。更に、この量は、ギッブスのサイクルの適度に大きなサン
プルに対して計算しなければならない。好適な方法では、これを全てのサイクル
（好ましくは２０回である）について計算する。従って、図８に示すように、各
サイクル毎に、オフであれば、各ユニットのＵＮＩＴＰＲＯＢを単にそのＰＲＯ
ＢＯＦＦ値と乗算し、オンであれば（ＵＮＩＴＰＲＯＢが値１で初期設定された
場合）、１からそのＰＲＯＢＯＦＦ値を減算した値と乗算する。

【０１１０】しかしながら、実際には、多くの確率値をまとめて乗算すると、コンピュータ
によっては小さすぎて表現できない値が算出される可能性があるので、対数確率
ドメインにおいてＵＮＩＴＰＲＯＢの計算を行なうことが好ましいと考えられる
。この場合、ＵＮＩＴＰＲＯＢは、対数（ゼロに初期設定されている）の和であ
り、更新は、ユニットがオフの場合にはｌｏｇ（ＰＲＯＢＯＦＦ）加算し、ユニ
ットがオンの場合にはｌｏｇ（１−ＰＲＯＢＯＦＦ）を加算する。この手順は表
現の問題を回避することができるが、対数参照テーブルを用いないと、必要な計
算も多くなる。

【０１１１】実験が可能である限り、例えば、サイクルの後半というように、後のサイクル
にわたってＵＮＩＴＰＲＯＢ値の計算を試みることが有益な場合もある。これは
、真のネットワーク尤度の推定の精度を更に高めることができる潜在的可能性が
ある。何故なら、ギッブスのサンプリングは真の分布に静定するまでにより多く
の時間がかかるからである。しかしながら、サイクル総数を限定する場合（実際
にはそのはずである）、トレードオフがある。何故なら、推定を行なうために用
いるサイクル数を減らすと、推定の質も低下するからである。実験は、最適なト
レードオフを見出す唯一の方法であるが、本方法は、総じて正しい推定値を生成
すると考えられる。

【０１１２】特徴変更各ユニットのギッブスのサンプリング、および適切な実行変数の更新の後に、
図９に示すように、サイクルに対して特徴変更（学習）を行なう。勿論、これは
、訓練モードがイネーブルされていることを仮定する。システムが認識のみのモ
ードにある場合、特徴変更は行われない。

【０１１３】図９に示す最初のステップは、学習率変数ＬＲＡＴＥを１．０にセットするこ
とである。ＬＲＡＴＥは、それぞれの潜在的な重み変化と乗算されるので、１．
０の値を用いることは、学習率を全く用いないことと同等である。しかしながら
、ここでは１を用いる。何故なら、好適な実施形態の或る変更では、１を必要と
する場合があるので、より汎化した場合においてＬＲＡＴＥをどのように用いる
のかについて例示することは有益であるからである。

【０１１４】ギッブスのサンプリングおよびＵＮＩＴＰＲＯＢ値の更新を用いる場合と同様
、学習は、ネスト状の二重ループにおいて、レイヤ全体および各レイヤ内のユニ
ットについて行われる。好適な実施形態では、ユニットを、ランダムなインデッ
クス順序に従わずに順番に巡る。しかしながら、実験が可能な場合、各サイクル
毎に異なるランダム順序でレイヤ内のユニットを巡る変更実施形態を試すことを
助言する。これは、下位のレイヤのＰＲＯＢＯＦＦ値は、ユニットの訓練の間に
変更され、これが当該レイヤ内の他のユニットの今後の訓練に影響を及ぼすから
である。従って、本実施形態では、ユニットのインデックスに応じたバイアスが
ある。ランダム・インデックスによってこのバイアスを除去することが大幅な改
良となるとは考えられないが、認識タスクによってはそれが可能なこともあり得
る。

【０１１５】各ユニットを巡る毎に、最初にそのＣＯＵＮＴＢＩＡＳ値に０．０５を加算す
る。この変数は、それまでにユニットが「経験した」学習のトライアル回数を追
跡する。値が０．０５なのは、この好適な実施形態では２０サイクルを用い、０
．０５＝１／２０であるからである。同様の変数ＣＯＵＮＴは、ユニットがアク
ティブであった訓練トライアルの回数を追跡する。ＣＯＵＮＴは、次に述べる条
件内で更新される。

【０１１６】所与の重みｉを残す重み（下位のレイヤに対するもの）が変更されるのは、ユ
ニットｉがアクティブの場合だけである。その場合、そのＣＯＵＮＴ変数が、丁
度述べたように更新され、次いでループに入り、ｉの子ユニットについて繰り返
す。

【０１１７】ユニットｉの各子ｋについて、ユニットｉがｋをアクティブにする確実度を表
す、関連の「確実度」値を計算することがでできる。ｋがアクティブでない場合
、この確実度はゼロである。それ以外の場合、確実度は、ＷＥＩＧＨＴ［ＬＡＹ
−１］［ｋ］［ｉ］を量１−ＰＲＯＢＯＦＦ［ＬＡＹ−１］［ｋ］で除算するこ
とによって決定される。これは、本質的に、ユニットｉがｋをオンにする、前の
確率（ＷＥＩＧＨＴ［ＬＡＹ−１］［ｋ］［ｉ］）を、その全ての親の現活性化
が与えられたｋがオンになる、前の確率で除算ことである。尚、ここで「前の」
と言うのは、これらの確率は、ｋが実際にギッブスのサンプリングの結果として
オンになったのか否かを考慮に入れていないからである。

【０１１８】ユニットｉの子全ての確実度のアレイは、ユニットｉに割り当てられた子レイ
ヤにおけるアクティビティのパターンの「部分（パーツ）」を構成する。学習の
目標は、ユニットｉの優先特徴、即ち、その子に向かう重みのそのベクトルを、
その割り当てられた部分に移動させることである。従って、ｉの確実度のベクト
ルを、その重みを変更したい方向にある「ターゲット」として見なすことができ
る。

【０１１９】これの結末は、各重み毎の実際の手順に関しては、ユニットｋがこのギッブス
のサイクルではアクティブでない場合、ＷＥＩＧＨＴ［ＬＡＹ−１］［ｋ］［ｉ
］をゼロに向けて移動させ、それ以外の場合ＷＥＩＧＨＴ［ＬＡＹ−１］［ｋ］
［ｉ］／（１−ＰＲＯＢＯＦＦ［ＬＡＹ−１］［ｋ］）に向けて移動させるとい
うものである。（ユニットｉがアクティブでなければ、何の変化も行なわないこ
とを思い出されたい。）これは、図９の手順が行なうことであるが、これは明示
的に確実度（ターゲット）値を計算しない。更に、変化の実際量は、ユニットｉ
のＬＲＡＴＥおよびＣＯＵＮＴ値によって決定される。

【０１２０】ＣＯＵＮＴを用いて有効学習率（即ち、ＬＲＡＴＥ／ＣＯＵＮＴ）を低下させ
る手順が、高速学習および安定な解に向かう収束のバランスを取る最良の方法で
あると考えられる。しかしながら、これがさほど適切ではない２つの関連する状
況があり、従って、これらの状況はこの好適な実施形態の好適な用途ではない。
第１の状況は、認識システムの入力パターンが独立してしかもランダムに選択さ
れない場合である。第２の状況は、パターンがランダムに選択されるが、分布が
経時的に変化する（「非静止」）場合である。これらの場合の何れにおいても、
後のパターンよりも前のパターンに、より多くの訓練が行われるという事実のた
めに、望ましくない「第一効果（ｐｒｉｍａｃｙｅｆｆｅｃｔ）」が起こり得
る。この好適実施形態をかかる場合に適用することは勧めないが、試すのであれ
ば、最も適切な手法は、１．０よりもかなり小さい一定のＬＲＡＴＥを用い、Ｃ
ＯＵＮＴで除算しないことであると考えられる。

【０１２１】重みを更新した後、次に、先に論じたように、０．０１ないし０．９９の範囲
に位置するようにクリップする。また、今変更した重みに依存するＰＲＯＢＯＦ
Ｆ値およびＮＥＴＯＦＦＢＥＬＯＷ値も、適宜更新する。尚、これは多くの計算
を伴うように思えるが、非常に多くの重みがあり、乗算および除算は毎回必要と
なるので、状況は最初に思われる程悪くはない。これは、学習がアクティブなユ
ニットからの重みについてのみ行われるからであり、更に、多くの用途では、ア
クティブなユニットの方が非アクティブなユニットよりも少ないからである。

【０１２２】一旦ユニットの出力重み（ｏｕｔｇｏｉｎｇｗｅｉｇｈｔ）を変更したなら
（またはアクティブでない場合には、変更しない）、試験を行い、そのバイアス
重みを変更すべきかいなか判断する。この好適な実施形態では、最上位のユニッ
トのみがバイアスも用いるので、それは試験の１つの条件となる。また、バイア
ス重みは、（２０）サイクルの最後にのみ更新される。殆どの部分では、バイア
スの更新は、他のいずれの重みの更新とも同一である。しかしながら、親ユニッ
トがアクティブか否か試験する必要はない。何故なら、仮説的な意味ではあるが
、バイアス・ユニットは常にアクティブであるからである。

【０１２３】別の例外は、この好適な実施形態がバイアス重みを０．０１ないし０．２５の
範囲に維持することである。これは、バイアスを余りに大きく成長させると、他
のものを「支配」させることになる可能性があることが実験からわ分かったから
である。バイアスが大きく成長すると、ほぼ全ての入力に対して応答することに
なり、これによって他のユニットがいずれの入力も全く「勝ち取る」ことができ
ないという悪循環に陥ることになる。しかしながら、他の重みの範囲制限を用い
るのと同様に、パターン・ドメインにおける上位の「真」の特徴が０．２５より
も高い確率で発生することができると確信する理由がある場合、可能である限り
、最大値を適切に増大させて実験すべきであろう。

【０１２４】バイアスを変化させる場合、ユニットのＰＲＯＢＯＦＦ値も更新しなければな
らない。しかしながら、最上位のユニットのみがバイアスを有し、これらはバイ
アス以外に入来するコネクションを有さないので、これは図９に示すように単純
な更新手順である。

【０１２５】サイクル・ループからの抜け出し図４に示すように、一旦、重みおよびその他の変数（ＰＲＯＢＯＦＦ等）の対
応する更新と共に、ギッブスのサンプリングのサイクルを終了したなら、サイク
ル・ループを抜け出すか否かを判断するチェックを行う。好適な実施形態では、
前述のように、２０サイクル実行した後にループを抜け出す。しかしながら、他
の可能な実施形態では、ユニット活性化に対する変化量が小さくなったならば直
ちに、ある尺度に従ってサイクル・ループを抜け出すこともある。例えば、２回
の完全なサイクルが何らかの活性化の変化を生じることを失敗した後、または５
サイクル後にユニットの活性化の変化が２パーセント未満である場合、ループを
終了することができる。明らかに、同様の構想は無限にある。

【０１２６】かかる代替実施形態は、入力（即ち、ネットワーク活性化の１集合）の１つの
解釈が残りのものよりも大幅に尤度が高い場合、非常に少ないサイクルだけで済
むという利点がある。これは、一旦広範な訓練を既に行なっているような場合に
、しばしばあり得ることである。しかしながら、異なる回数のサイクルを異なる
パターンに対して行なう場合（これは、特にバイアス重みに対しては扱いにくい
場合がある）、各サイクル毎にどの位の訓練を行なうかという問題に対処しなけ
ればならない。また、サイクルの何らかの最大数をセットする必要もある。これ
らの複雑化は、かかる実施形態を好まない主な理由である。

【０１２７】システム出力の決定ネットワークの相対確率の計算前述のように、ギッブスのサイクル・プロセス（重みおよび変数の更新を含む
）は、認識システムにおける各ネットワークについて同一である。また、訓練モ
ードのみがアクティブであるのではない限り、サイクルの後に行われる、ネット
ワーク確率値の計算にも当てはまる。尚、訓練モードのみがアクティブな場合に
は、確率値は不要である。ネットワークｃの確率を、一旦計算した変数ＮＥＴＷ
ＯＲＫＰＲＯＢ［ｃ］に格納する。これは、認識システム全体の出力を計算する
際に用いられる。

【０１２８】ネットワークの全ユニットについてＵＮＩＴＰＲＯＢ値を既に計算してあるの
であれば、ＮＥＴＷＯＲＫＰＲＯＢ値の計算は容易である。ＮＥＴＷＯＲＫＰＲ
ＯＢ［ｃ］は、単に、ＵＮＩＴＰＲＯＢ［ＬＡＹ］［ｉ］のネットワークｃにお
ける全てのレイヤＬＡＹおよびユニットｉの積となる。（勿論、ＵＮＩＴＰＲＯ
Ｂに対する対数確率を用いる前述の変更した方法を用いる場合、ＮＥＴＷＯＲＫ
ＰＲＯＢ［ｃ］は、代わりに、ＵＮＩＴＰＲＯＢ値の和となる。）ＮＥＴＷＯＲ
ＫＰＲＯＢ［ｃ］変数は、ネットワークｃのモデル（そのアーキテクチャおよび
変更可能な重みによって具体化され、ここでは推定活性化状態のサンプリングに
よって推定される）および入力信号２６（この場合も、ネットワークを入力信号
の発生器と見なす）の確率を表す。ＮＥＴＷＯＲＫＰＲＯＢ値は、従って、この
特定の入力信号２６に対してどれの確率が高いかを見るために比較することがで
きる。

【０１２９】ＯＵＴＰＵＴの設定図４に示すように、システムモードに応じて認識、訓練、または双方のために
、システムの全ネットワークを一旦処理し終えたならば、ネットワーク・ループ
を抜け出す。訓練モードのみがイネーブルされている場合、この入力信号２６に
ついては処理はこれで完了である。しかしながら、認識モードがイネーブルされ
ている場合、システム出力を決定しなければならない。

【０１３０】システム出力は変数ＯＵＴＰＵＴ［］として格納され、単に、現入力信号２６
に対する、最も確率が高いネットワークのインデックスである。（尚、ここでは
、ＯＵＴＰＵＴ［］は単一要素アレイであることを注記しておく。）次に、先に
述べたように、作用部３８によってこのインデックスは適宜用いられる。好まし
いことであるが、パターン・ドメインにおけるクラスが先験的に等しい確率であ
る場合、ＯＵＴＰＵＴは、単に、最大のＮＥＴＷＯＲＫＰＲＯＢ値を有するネッ
トワークのインデックスとなる。

【０１３１】しかしながら、パターン・ドメインにおけるクラスが異なる前の確率を有する
場合がしばしばある。この場合、これらの確率（「前」）から推定値を得て、ア
レイＣＬＡＳＳＰＲＯＢ［］に格納する。次いで、各クラスｃ毎に、ＮＥＴＷＯ
ＲＫＰＲＯＢ［ｃ］にＣＬＡＳＳＰＲＯＢ［ｃ］を乗算し、その結果をＮＥＴＷ
ＯＲＫＰＲＯＢ［ｃ］に格納する（ＵＮＩＴＰＲＯＢおよびＮＥＴＷＯＲＫＰＲ
ＯＢに対数を用いない場合に限り、用いる場合、ＣＬＡＳＳＰＲＯＢの対数を対
応するＮＥＴＷＯＲＫＰＲＯＢ値に加算しなければならない）。次いで、前の確
率が等しいかのように、ＮＥＴＯＷＲＫＰＲＯＢ値を同様に比較することができ
る。

【０１３２】一旦ＯＵＴＰＵＴ［］に基づいて適切なアクション７０を行なったならば、現
入力信号２６の処理は完了する。次のステップは、（おそらく）新たな入力信号
２６を選択し、そしてトライアルの処理を繰り返すことである（前述の「トライ
アルの規制」の章を参照のこと）。

【０１３３】好適な実施形態２アーキテクチャ図およびフロー図図１０ないし図１２を参照しながら、第２の好適な実施形態について説明する
。図１０は、図１よりも詳しく、第２の好適な実施形態の構造を示す。図１１は
、図２よりも更に詳細にソフトウエアの実施態様のアウトラインを示すフローチ
ャートであり、図１２は、特徴検出部２８の訓練に含まれるステップの更に詳細
なフロー・チャートである。

【０１３４】理論第２の実施形態は、多くの面で第１の実施形態とは異なっており、従って、本
発明によって可能となる有用な実施形態の範囲をある程度まで示す。これは、独
立特徴学習を用いてデータ圧縮装置を形成し、次いでこれを（周知の）逆伝播ネ
ットワークへのフロント・エンドとして用いる。

【０１３５】或るパターンにどんな特徴が含まれているかについて知的な推定を行なう方法
の１つは、既存の特徴検出部を用いてそれを区分することである。これは、第１
の実施形態によって用いた技法である。しかしながら、他の方法は、メモリに格
納されている実際の以前のパターンを用いることである。これは、第２の実施形
態によって用いる手法である。この構想の基礎となる発見的法は次の通りである
。特徴は、２つの同様であるが同一でないパターン、即ち、それらの間の「相違
」を区別するものとして定義することができる。従って、パターンにおける有望
特徴を発見する適当な方法は、それを、同様であるが同一でない格納済みのパタ
ーンと比較し、かかる比較毎にある種の差を計算することである。これを行なう
と、本発明の明細書の用語では「パーツ」である、有望特徴を用いて、既存の特
徴検出部を訓練することができる。

【０１３６】第２の好適な実施形態の手法全体は、従って、次の通りである。メモリ４０を
用いて、損失なく、学習すべき入力ドメインからの多数の「比較」パターンを格
納する。入力した新たな各パターンを１つ以上の比較パターンと比較し、比較毎
に差ベクトルＤＩＦＦ［］を発生する。割当部６６は、それぞれの差ベクトル（
パーツ）を、特徴記述信号３２［ｍ］によって伝達されるそれぞれの特徴検出部
２８［ｍ］の優先特徴と比較する。差ベクトルと最も良く一致した検出部２８［
ｍ］が、その差ベクトルを「勝ち得て」、この情報をパーツ・マッピング信号４
４を通じて更新部４２に伝達する。更新部４２は、勝者の検出部の優先特徴を、
それが勝ち得た差ベクトルに向けて、ある量だけ移動させる。

【０１３７】十分な量のかかる訓練の後、特徴検出部２８を、逆伝播を基にするニューラル
・ネットワークへの入力レイヤとして用い、これは、分類部３４の役割を果たす
。これを行なうには、特徴アクティビティ信号３０を逆伝播ネットワークへの入
力とし、特徴検出部２８の各々を、後続の新たな入力信号２６においてその優先
特徴が発見される範囲で、アクティブにする。次に、これら予備訓練した特徴検
出部２８を用いて逆伝播ネットワーク上において従来の監視訓練を行う。その結
果、学習データ圧縮入力レイヤのために、リソースが少なくて済むパターン認識
装置が得られる。更に、訓練した特徴検出部２８は、パターン・ドメインに関す
る貴重な情報を表すので、それらの優先特徴をコピーするか、あるいはその他の
方法で同等の認識システムに転送し、当該同等のシステムに対する訓練を回避す
ることも可能である。

【０１３８】メモリ４０および特徴検出部２８はこの実施形態では別個であるので、パーツ
（有望特徴）への区分は、これら２つのサブシステムを緊密に一体化する実施形
態（第１の好適な実施形態のように）ほど、全体的には優れていない可能性が高
い。また、データ圧縮は損失的手順であり、他の未監視手順に関しては、手近な
分類タスクに関連する特徴の学習を強制する固有の方法がない。これらの理由の
ために、この実施形態は、特に、ツールとして、しかも実験が可能な場合にのみ
用いるとよく、任務に厳格なタスクのための「迅速に解決する」解法として用い
るべきではない。勿論、これは、パターン・ドメインがよく理解されていない限
り、第１の好適な実施形態を含む全ての適応型パターン認識装置に、ある程度当
てはまることである。

【０１３９】この実施形態は、特徴検出部２８およびメモリ４０の緊密な一体化を欠くが、
第１の好適な実施形態のような実施形態よりも実現がいくらか簡単でもある。更
に、これは、分類部３４として多種多様の逆伝播ネットワークを使用することを
可能とし、非常に柔軟性が高く強力なパターン認識ツールとなる。

【０１４０】実施態様前述のように、第２の好適な実施形態の中核は、汎用デジタル・コンピュータ
においてソフトウエアで実現する。従って、図１０の構造に関するサブシステム
の説明と、具体的な実現に関する説明との間には、概念的マッピングが存在する
。このマッピングは次の通りである。

【０１４１】入力信号２６は、変数ＩＮＰＵＴ［］の格納およびコンピュータ・メモリから
の後の検索によって実現される（「コンピュータ・メモリ」という用語を「メモ
リ４０」と混同しないよう注記しておくが、しかしながら、勿論前者は後者を実
現するために用いられる）。特徴検出部２８の優先特徴は、コンピュータ・メモ
リにアレイ変数ＷＥＩＧＨＴ［］［］［］として格納される。特徴記述信号３２
は、ＷＥＩＧＨＴアレイの適切な要素の格納およびコンピュータ・メモリからの
検索によって実現する。特徴アクティビティ信号３０は、アレイＡＣＴ［］の格
納および検索によって実現する。特徴検出部２８の実現は、ＡＣＴ［］の値を計
算するプログラム・コードを含む。分類部３４は、（従来の）逆伝播ネットワー
クの機能性を提供するプログラム・コードによって実現する。この逆伝播プログ
ラム・コードは、変数ＯＵＴＰＵＴの値を計算する。ＯＵＴＰＵＴの格納および
検索によって、出力信号３６を実現する。

【０１４２】メモリ４０は、各々別個の入力信号２６によって表される一連の訓練パターン
を全体において格納するためのコンピュータ・ストレージおよびプログラム・コ
ードを含む。検索信号６８の実現は、ＣＯＭＰＡＲＥＰＡＴ値の格納および検索
を含む。この値の各々は「比較」パターンを表し、訓練パターンの１つである。
割当部６６の実現は、現訓練パターンＴＲＡＩＮＰＡＴと現比較パターンＣＯＭ
ＰＡＲＥＰＡＴとの間の差を計算するコードを含む。また、この差を表す変数Ｄ
ＩＦＦ［］のための格納部も含む。更に、優先特徴がＤＩＦＦ［］に最良に一致
する特徴検出部２８［ＩＭＩＮ］を発見するコードも含む。パーツ・マッピング
信号４４は、変数ＤＩＦＦ［］およびＷＥＩＧＨＴ［ＩＭＩＮ］［］の格納およ
び検索によって実現する。更新部４２の実現は、ＷＥＩＧＨＴ［ＩＭＩＮ］［］
をＤＩＦＦ［］の方向に変更するコードを含む。

【０１４３】アーキテクチャおよびパラメータの選択システム・アーキテクチャの或る面は、解決すべき問題によって決定される。
入力ユニットの数（最下位レイヤにおける入力ユニット）は、選択した入力表現
によって決定される。この表現は０／１の二進数には好ましいが、それ以外は、
その構成は設計者に委ねられることを思い出されたい。適切な入力表現の作成は
、従来技術のパターン認識に関する文献における共通のタスクである。

【０１４４】この実施形態は、１レイヤの独立特徴学習のみを有する。これは、（アクティ
ビティが入力信号２６によって伝達される）入力ユニットからの特徴検出部２８
への重みを含む。これらの重みは優先特徴を具体化し、変数ＷＥＩＧＨＴ［］［
］として格納される。しかしながら、逆伝播ネットワーク・アーキテクチャは、
多数のレイヤのコネクションを有することも可能である。考慮すべきことは、従
来技術の逆伝播ネットにおけるものと同じであるが、逆伝播ネットへの入力がデ
ータ圧縮レイヤから来るということを余分に考慮する。どちらかと言えば、これ
は、データ圧縮を行わずに用いられてきた逆伝播ネットの１レイヤに対する必要
性をなくすことも可能である。しかし、逆伝播アーキテクチャは、データ圧縮が
ない場合のものから変更しない方が好ましい。

【０１４５】非監視レイヤにおいて用いる特徴検出部２８の数は、システムの逆伝播部分に
おける入力ユニットの数に対応し、最適な値を得るには実験が必要なパラメータ
である。これは、同様に、従来技術の装置が隠れユニットを有する場合の特徴で
ある。通常、この数は、非監視ネットワークにおける入力ユニット数Ｎよりも少
なくて当然である。それ以外の場合、データ圧縮を行なわない。最初に試す数は
、入力ドメインにおける独立した特徴の数における最良の推定でなければならな
い。典型的な実験方法は、当該レイヤにおいて非常に少数のユニットから開始し
、（相互正当性実証データ集合に対する）訓練されたシステムの性能が改善し、
実験時間が許す限り、各訓練実行後に数を増大させていくことである。

【０１４６】逆伝播レイヤは、従来技術において見られる、何れの適合性のあるフィードフ
ォワード逆伝播ネットワークに従って構築することも可能である（適合性を有す
るためには、逆伝播アーキテクチャは、恐らく１よりも大きなのＭの実数値の入
力を許さなければならない）。逆伝播ネットワークへの入力は、変換された入力
信号２６であり、この場合、変換は特徴検出部２８を用いる。即ち、逆伝播ネッ
トヘの入力は、特徴アクティビティ信号要素３０［ｍ］の集合となる。尚、典型
的な逆伝播ネットワークでは、入力信号２６に対しての所望の出力信号３６を表
すターゲット信号４６が各入力信号２６に必要となることを注記しておく。

【０１４７】或る優れた逆伝播に関する参考文献、および更に別の関連する背景に対する参
照を次の出典において見出すことができる。脳の理論およびニューラル・ネット
ワークのハンドブック（ＴｈｅＨａｎｄｂｏｏｋｏｆＢｒａｉｎＴｈｅ
ｏｒｙａｎｄＮｅｕｒａｌＮｅｔｗｏｒｋ）（先に引用した）、ヘルツ、
クロフ、パーマー（Ｈｅｒｔｚ，Ｋｒｏｇｈ，＆Ｐａｌｍｅｒ）によるニューラ
ル計算の理論の入門（ＩｎｔｒｏｄｕｃｔｉｏｎｔｏｔｈｅＴｈｅｏｒｙ
ｏｆＮｅｒｕｒａｌＣｏｍｐｕｔａｔｉｏｎ）（１９９１年、アディソン
ウエズリー、レッドウッド・シティ、カリフォルニア（Ａｄｄｉｓｏｎ−Ｗｅｓ
ｌｅｙ，ＲｅｄｗｏｏｄＣｉｔｙ，ＣＡ））、およびＣ．Ｍ．ビショップ（Ｃ
．Ｍ．Ｂｉｓｈｏｐ）によるパターン認識のためのニューラル・ネットワーク（
ＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＰａｔｔｅｒｎＲｅｃｏｇｎｉｔ
ｉｏｎ）（１９９５年、オックスフォード・ユニバーシティ・プレス、オックス
フォード、グレートブリテン（ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙＰｒｅｓ
ｓ，Ｏｘｆｏｒｄ，Ｇ．Ｂ．））。

【０１４８】コンピュータ・ソフトウエアで逆伝播（および、場合によっては、この好適な
実施形態の残りの部分も）を実現するのに役立つ数多くの商用ソフトウエア・パ
ッケージも入手可能である。現在無料で（著作権に対する何らかの制約はある）
入手可能な特に強力で柔軟性のあるものは、オレイリ、ドーソンおよびマックリ
ーランド（Ｏ’Ｒｅｉｌｌｙ，Ｄａｗｓｏｎ，ＭｃＣｌｅｌｌａｎｄ）のＰＤＰ
＋＋パッケージである。このパッケージは、認識のニューラル・ベースのための
センタ（ＣｅｎｔｅｒｆｏｒＮｅｕｒａｌＢａｓｉｓｏｆＣｏｇｎｉ
ｔｉｏｎ）（カーネギー・メロン大学（ＣａｒｎｅｇｉｅＭｅｌｌｏｎＵｎ
ｉｖｅｒｓｉｔｙ）とピッツバーグ大学（ＴｈｅＵｎｉｖｅｒｓｉｔｙｏｆ
Ｐｉｔｔｓｂｕｒｇｈ）の間のジョイント・プログラム）から、ｈｔｔｐ：／
／ｗｗｗ．ｃｎｂｃ．ｃｍｕ．ｅｄｕ／ＰＤＰ＋＋／ＰＤＰ＋＋．ｈｔｍｌ（ま
たはｈｔｔｐ：／／ｅｉｎｓｔｅｉｎ．ｌｅｒｃ．ｎａｓａ．ｇｏｖ／ｐｄｐ＋
＋／ｐｄｐ−ｕｓｅｒ＿ｔｏｃ．ｈｔｍｌ）においてインターネット上で（これ
を書いている時点では）入手可能である。このパッケージの文書も、逆伝播、お
よびオブジェクト指向プログラミングおよびＣ＋＋言語を用いたその実現に関す
る学習にも非常に有用である。

【０１４９】トライアルの規制（パターン提示）第２の実施形態の動作全体を図１１に示す。第１の実施形態の場合と同様、こ
の実施形態の動作は、一連のトライアルと見なすことができ、その各々が、単一
の入力信号２６の提示を含む。好ましくは、トライアルを１組の訓練トライアル
に分割し（即ち、訓練モードのみをイネーブルする）、それに１組の認識トライ
アルが続くようにする（認識のみをイネーブルする）。ここで生じ得る混乱の１
つは、逆伝播ネットの訓練も含めて、逆伝播ネットワークを用いて行う全ての動
作を「認識」が含むと解釈することである。この装置は、他の場合とは異なる入
力を供給すること以外、逆伝播ネットワークに関しては何ら特別なことは行わな
いので、逆伝播訓練については詳細に説明せず、ここでは、「認識」動作と見な
す。必要であれば、特に、これを「逆伝播訓練」と呼んで、「訓練」とは区別す
る。後者は、本装置の非監視の特徴検出部２８の訓練のみを言及することを意味
する。

【０１５０】トライアル前の初期設定何れのトライアルを行なう前にも、メモリ４０に訓練集合をロードする。メモ
リ４０は、二次元アレイ変数ＭＥＭＯＲＹ［］［］として実施し、第１次元はパ
ターン全域を範囲とし、第２次元は、パターン内のエレメント全域を範囲とする
。尚、ＭＥＭＯＲＹ［］［ｎ］は、ＩＮＰＵＴ［ｎ］に対応することを注記して
おく。

【０１５１】好ましくは、訓練集合内のパターン全てをメモリ４０に格納する。しかしなが
ら、訓練集合が特別に大きい場合、ランダムなサンプルを比較パターンとして選
択してメモリ４０に格納するという好適でない実施形態を試すことも可能である
。そうする場合、サンプル内のパターンは、独立して、そしてパターン・ドメイ
ン内におけるその分布に従ってランダムに選択しなければならない。

【０１５２】特徴検出部２８の優先特徴は、アレイＷＥＩＧＨＴ［］［］を用いて実現する
。ＷＥＩＧＨＴの第１次元は、Ｍの特徴検出部２８全域を範囲とし、第２次元は
Ｎの入力ユニット全域を範囲とする。尚、これは第１の実施形態のＷＥＩＧＨＴ
インデックス付け方式の逆であることを注記しておく。何故なら、（双方の実施
形態を何れからも見ることができるが）この実施形態は、パターン発生器よりも
パターン解釈器として見なす方が自然であるからである。

【０１５３】重みは、いずれのトライアルの前にも、小さなランダム値に初期設定しなけれ
ばならない。好ましくは、これらは０．０２ないし０．０４の範囲内で均一にラ
ンダムとなるべきであるが、リソースが実験を許すのであれば、これを実験的パ
ラメータとすることも可能である。試験していないが可能な改良の１つは、各特
徴検出部２８［ｍ］の重みベクトルＷＥＩＧＨＴ［ｍ］［］をランダムに選択し
た訓練パターンの小さな倍数（例えば、０．０１倍）にセットし、次いで、小さ
な乱数（例えば、０．０２ないし０．０３の間）を各重みに加算することである
（正の重みが常に得られるようにする）。尚、第１の実施形態におけると同様に
、学習の間に重みには範囲の制限を設けないが、学習手順自体は０ないし１の範
囲以内の重みを維持することを注記しておく。

【０１５４】訓練トライアル訓練トライアルにおける動作を、図１２に更に詳細に示す。各訓練トライアル
毎に、独立して、そしてパターン・ドメインの分布に従ってランダムに、訓練集
合からパターンを選択する。この訓練パターンは、ＭＥＭＯＲＹに格納したパタ
ーンから来ることが好ましい。訓練パターンは、アレイＴＲＩＮＰＡＴ［］に格
納される。

【０１５５】ＴＲＡＩＮＰＡＴが選択されると、次に比較のためにループを実行する。各比
較は、ＭＥＭＯＲＹからのランダム・パターンの選択、およびそれのアレイＣＯ
ＭＰＡＲＥＰＡＴ［］への格納から開始する。

【０１５６】ＴＲＡＩＮＰＡＴおよびＣＯＭＰＡＲＥＰＡＴを試験し、これらが全ての二進
要素において同一か否かについて判定を行なう。同一である場合、ＣＯＭＰＡＲ
ＥＰＡＴには、このトライアルに「使用された」と印を付け、処理は次の比較に
移る。

【０１５７】第２の試験は、ＴＲＡＩＮＰＡＴおよびＣＯＭＰＡＲＥＰＡＴが「ノイズ」だ
け異なるのか否かについて、即ち、これらは「本質的には同一である」か否かに
ついて判定を行なう。「ノイズ」の定義は、一般には、個々の問題によって異な
るが、最適な性能を得るためには、この試験を実施することができる。しかしな
がら、実験が不可能な場合、この好適な試験を用いるとよいが、これは、１のハ
ミング距離（異なるビットの数）を有する差を除外することである。この試験の
目的は、（この目的はあらゆる実験的変化を導べであり）、パターン・ドメイン
の真の特徴を表さない差を除外することである。ＴＲＡＩＮＰＡＴおよびＣＯＭ
ＰＡＲＥＰＡＴがノイズだけ異なると判断された場合、ＣＯＭＰＡＲＥＰＡＴに
は、このトライアルに「使用された」と印を付け、処理は次の比較に移る。

【０１５８】次に、１つまたはせいぜい少数の特徴の相違に比較を制限しようとする別の試
験を行なう。これを「非類似性試験」と呼ぶ。何故なら、目的は、訓練パターン
からは非常に相違する比較パターンを破棄することであるからである。理想的な
のは、１つだけ特徴が異なるパターン対のみを用いることである。何故なら、こ
れらはパターン・ドメインの特徴が何であるのかを示すのに最良であるからであ
る。しかしながら、予め特徴を特定することができないので、所与のパターン対
について異なる特徴の数を推定するための発見的方法を用いることができるのみ
である。

【０１５９】好適な非類似性試験は、入力ユニット数Ｎの或る固定の割合よりも大きなハミ
ング距離を有する比較を排除する。図１２に示すように、２０％の値を用いるこ
とを推奨する。しかしながら、実験リソースが許すのであれば、この値の粗い最
適化を行なうとよい。（尚、用いるハミング距離は、決して、「本質的同一性」
試験のそれ以下にしてはならないことを注記しておく。さもないと、全ての比較
が除外される。かかる過剰な制限は、他の好適でない試験を用いる場合も、回避
しなければならない）。この２０％という好適な値は、入力パターンは疎でない
こと、即ち、平均して、おおまかに等しい数のパターン要素がオンであり、オフ
であることを仮定している。これがあてはまらない場合、訓練集合全体に対して
、パターンの「オン」ビットの平均数を決定し、その平均値の４０％を用いるこ
とによって、好適な値を計算しなければならない。

【０１６０】ここで強調すべきは、この試験は、最適化した割合を用いても、完ぺきではな
いということである。問題は、真の特徴は非常に多数の入力ユニットで構成され
る可能性があるということである。しかしながら、代替案、即ち、単一の特徴の
差のためにあらゆる非同一パターン対を考慮する方法は、理論的には遥かに正当
性に乏しい。また、いつもと同様、システム設計者が、ここで示唆する値よりも
、所与のパターン・ドメインでは或る特定の値の方が適切であると確信する何ら
かの理由を有する場合、設計者が知っている推定を実験に対する開始点として優
先する。

【０１６１】ＣＯＭＰＡＲＥＰＡＴが、同一性、近同一性、および非類似性の試験に合格し
たと仮定すると、差ベクトルを計算し、変数ＤＩＦＦ［］に格納する。ＤＩＦＦ
は、ビット毎の演算ＡＮＤ−ＮＯＴによって得られる。２つのブール変数ｘおよ
びｙについて、ｘＡＮＤ−ＮＯＴｙの値は、ｘが真でｙが偽である場合にのみ、
真（１に等しい）となる。従って、各要素ＤＩＦＦ［ｎ］は、ＴＲＡＩＮＰＡＴ
［ｎ］ＡＮＤ−ＮＯＴＣＯＭＰＡＲＥＰＡＴ［ｎ］の値にセットされる。

【０１６２】次に、Ｍの特徴検出部２８に対してループに入る。かかる検出部ｍのそれぞれ
に、変数ＤＩＳＴを計算する。これはＷＥＩＧＨＴ［ｍ］［］とＤＩＦＦ［］の
間のユークリッド距離である。全ての特徴検出部全体のＤＩＳＴの最小値、およ
びこの最小値に対応するインデックスｍを、それぞれ、ＭＩＮおよびＩＭＩＮに
維持する。

【０１６３】一旦、最少距離特徴検出部２８［ＩＭＩＮ］を発見したなら、その優先特徴Ｗ
ＥＩＧＨＴ［ＩＭＩＮ］［］を、現在の差ベクトルＤＩＦＦ［］に向けて移動さ
せる。尚、ＤＩＦＦは、特徴検出部２８［ＩＭＩＮ］が責任を負うＴＲＡＩＮＰ
ＡＴの「部分（パーツ）」を表すことを注記しておく。

【０１６４】各比較毎に行われる学習量は、ＬＲＡＴＥ、学習率によって決定される。ＬＲ
ＡＴＥは、１．０に、トライアルにおいて行なった比較の数（除外も含む）（こ
れは、好適な実施形態では、ＮＵＭＰＡＴＳ、訓練パターンの数に等しい）の逆
数を乗算し、ＩＴＲＩＡＬ、現トライアルのインデックス（１から始まる）で除
算した値に等しい。ＷＥＩＧＨＴ［ＩＭＩＮ］［］およびＤＩＦＦ［］の各要素
ｎについて、差ＤＩＦＦ［ｎ］−ＷＥＩＧＨＴ［ＩＭＩＮ］［ｎ］を計算し、Ｌ
ＲＡＴＥを乗算し、結果をＷＥＩＧＨＴ［ＩＭＩＮ］［ｎ］に加算する。

【０１６５】比較ループは、このように、全ての比較パターンがなくなるまで継続する。置
換することなく新たな比較パターンを選択するので、ＭＥＭＯＲＹの比較集合か
らのそれぞれのものを、各ＴＲＡＩＮＰＡＴに１回だけ用いる。

【０１６６】この訓練パターンに対して全ての比較をし終え、特徴を更新した後、新たな訓
練パターンを選択する。ＣＯＭＰＡＲＥＰＡＴと同様、ＴＲＡＩＮＰＡＴは、一
旦選択されるとプールにおいて再度配されないので、全てのＮＵＭＰＡＴＳパタ
ーンを用い終わるまで、各々を１回だけ用いる（用い終わった時点で、訓練は、
訓練パターンに対して新たなサイクルを開始することができる）。

【０１６７】学習プロセスの停止何れかの時点で、学習を停止する決定を行なう。このための好適な方法では、
各訓練パターン毎に、各特徴検出部が勝ち得た比較の数を追跡する。即ち、２−
ＤアレイＮＵＭＷＩＮＳ［］［］を維持し、ここで、ＮＵＭＷＩＮＳ［ｍ］［ｔ
］は、特徴検出部ｍがトライアルｔで比較を勝ち得た回数である。訓練集合全体
が繰り返し提示され（図１２において、「必要に応じてセットをリサイクルする
」命令で示す）、既に説明したように各繰り返しを、（１）訓練集合の繰り返し
の間にＮＵＭＷＩＮＳ［］［］アレイで変化する要素がなくなるまで、または（
２）最大数の訓練集合の繰り返しが実行されるまで、行なう。最大値は、実験で
求めることができ、この例での好適な値は２０である。

【０１６８】尚、この手順は訓練集合全体を通じての多数の繰り返しを必要とするが、トラ
イアル・インデックスＩＴＲＩＡＬをリセットしてはならない。何故なら、これ
は、行われた訓練トライアルの総数を表すからである。所与の訓練集合の繰り返
し内におけるパターンの提示を追跡するためには、別のインデックス変数を用い
ればよい。

【０１６９】実験リソースが許すのであれば、学習を停止するために異なる評価基準を試す
ことも有用であろう。これは、特に、大きな訓練集合の場合に当てはまり、この
場合、１回の訓練集合の繰り返し以内で、学習が容認可能な状態に収束するよう
になり得る。かかる技法の１つとして、ＭＩＮ値の実行中平均（ｒｕｎｎｉｎｇ
ａｖｅｒａｇｅ）（勝者の特徴検出部ＩＭＩＮとそれが勝ち得たＤＩＦＦベク
トルとの間のユークリッド距離）を維持し、この実行中平均のグラフがある評価
基準の（小さな）傾斜に達したときに、学習を停止することが考えられる。

【０１７０】逆伝播ネットワークの使用一旦訓練が終了したなら、訓練モードをディスエーブルし、認識モードをイネ
ーブルする。この時点において、採用した特定の逆伝播アーキテクチャおよび手
順は、パターンを選択する順序および方法を決定する。前述のように、逆伝播ネ
ットワークの訓練がここで行われるが、逆伝播ネットワークは本装置に対して周
知のモジュールであるので、訓練を含むそれに対する全ての動作は、ここでは「
認識モード」と見なすことを思い出されたい。

【０１７１】訓練集合内のパターンは全て、逆伝播ネットの訓練前に一度に全て（これが好
ましく、また、図１１に示す）、またはその訓練の間１回に１つずつ、逆伝播モ
ジュールが用いるために変換しなければならない。一旦訓練されたなら、認識す
べき新たなパターンも変換し、適正な認識を可能とするようにしなければならな
い。

【０１７２】入力レイヤは（ここでは）固定の重み、および逆伝播ネットとは異なる活性化
関数を有するが、パターンの変換は、逆伝播ネットへ供給する入力レイヤとして
見なすことができる。この明細書の用語で言うと、特徴アクティビティ信号３０
は、逆伝播モジュールへの入力を形成する。従って、ここでは、この信号３０を
この実施形態ではどのように生成するかについて説明し、逆伝播の実施態様をユ
ーザに委ねる。使用する逆伝播の特定の実施形態に入り込む検討は、ここに記す
ことを除いて、従来技術の逆伝播ネットにおけるものと同一である。

【０１７３】図１１に示すように、特徴アクティビティ信号３０は、アレイＡＣＴ［］とし
て格納され、以下のように決定される。入力パターン（信号２６）をアレイＩＮ
ＰＵＴ［］に格納する。所与のＡＣＴ［ｊ］の値を、ＩＮＰＵＴ［］とＷＥＩＧ
ＨＴ［ｊ］［］のベクトルの間の内積として計算する。（内積は、ドット積とし
ても知られており、２つのベクトルの類似性の尺度となる）。

【０１７４】尚、ＡＣＴ値は実数であり、範囲０〜１を超えてもよく、特にこれらは入力Ｎ
の要素数と同じ位に高い範囲にわたってもよいことを注記しておく。かかる実値
の入力は、一般に、逆伝播ネットワークでは問題ではない。しかしながら、二進
入力または１以下の入力を仮定するまたは好む、特殊化した逆伝播の実施態様も
幾つかある。かかる逆伝播の実施態様は、この好適な実施形態には適していない
。

【０１７５】アレイＯＵＴＰＵＴ［］として格納された逆伝播ネットワークの出力は、出力
信号３６となる。逆伝播ネットワークの出力ユニットの活性化値は、直接、例え
ば、後見の確率推定値として用いることもでき、あるいはこれらから分類インデ
ックスを計算して出力信号３６として用いることも可能である（後者の場合、Ｏ
ＵＴＰＵＴ［］は単に１要素アレイとなる）。用いる正確な方法は、用いる作用
部３８の種類、および対処しようとする認識問題によって異なる。適切な方法は
、個々の認識タスクが与えられれば、当業者には容易に明白となろう。

【０１７６】結論、派生、発明の範囲このように、本発明によるパターン認識装置は、同じタスクに適用する従来技
術の装置よりも少ない数の物理パターン例で訓練できることが、読者にはわかる
であろう。更に、本発明は、比較的小さな訓練集合によって、学習の汎化を改善
することができる。更に、潜在的に、比較的大きなアーキテクチャへのスケーリ
ングの改善も可能である。

【０１７７】これまでの記載には多数の特定が含まれているが、これらは、本発明の範囲の
限定としてではなく、その好適な実施形態の例示として解釈して当然であろう。
他にも多くの変形が可能である。例えば、厳格に階層化されていない（即ち、「
レイヤを飛ばす」コネクションを有する）ニューラル・ネットワークを用いる、
または、制限した受け入れフィールドのような、レイヤ間に完全な接続性以外の
或るパターンの接続性を用いるニューラル・ネットワーク利用型の実施形態も使
用可能である。

【０１７８】第１の好適な実施形態と同様の実施形態で、ギッブスのサンプリングと同時に
重みを更新するものも可能である。即ち、各ユニットをサンプリングし、他のユ
ニットに移動する前にその重みを変更させることも可能である。より一般的には
、所与の特徴検出部２８［ａ］は、他の部分を他の特徴検出部２８［ｂ］へ割り
当てる前に、更新部４２によって変更することも可能である（これは、第２の好
適な実施形態も含めて事実上あらゆる他の実施形態にも当てはまる）。

【０１７９】本発明の他の多くの変形も、特に２つの好適な実施形態間の比較的大きな差異
を認めることによって、当業者には明白となろう。

【０１８０】従って、本発明の範囲は、図示し説明した実施形態により決定されるのではな
く、特許請求の範囲およびその法的な均等物によって決定されることとする。

【図面の簡単な説明】

【図１】本発明によるパターン認識システムのブロック図であり、双方の好適な実施形
態に共通のサブシステムを示す。

【図２】好適な実施形態を動作させるための手順全体のフロー図である。

【図３】第１の好適な実施形態の構造を示すブロック図である。

【図４】第１の好適な実施形態を動作させるための手順全体のフロー図である。

【図５】第１の好適な実施形態のパラメータの初期設定を示すフロー図である。

【図６】第１の好適な実施形態において実行するギッブスのサンプリングの１サイクル
のフロー図である。

【図７】第１の好適な実施形態のギッブスのサンプリング・プロセスのサイクルにおい
て、新たなユニット活性化を選択する手順のフロー図である。

【図８】第１の好適な実施形態のギッブスのサンプリング・プロセスのサイクルにおい
て、尤度に対するユニットの寄与を更新する手順のブロー図である。

【図９】第１の好適な実施形態のギッブスのサンプリング・プロセスのサイクルにおい
て接続重みを更新する手順のフロー図である。

【図１０】第２の好適な実施形態の構造を示すブロック図である。

【図１１】第２の好適な実施形態を動作させる手順全体のフロー図である。

【図１２】第２の好適な実施形態の特徴検出部を訓練する手順のフロー図である。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１１年６月２４日（１９９９．６．２４）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】図面

【補正対象項目名】図３

【補正方法】変更

【補正内容】

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１１年１２月６日（１９９９．１２．６）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【請求項１０】請求項９記載の方法であって、ステップ（ａ）ないしステ
ップ（ｃ）を繰り返して別のパターン認識装置を作成し、少なくとも１つの前記
の訓練した特徴検出部の優先特徴を、前記別のパターン認識装置の少なくとも１
つの特徴検出部に転送するステップを更に含む方法。

【手続補正書】

【提出日】平成１３年２月２２日（２００１．２．２２）

【手続補正１】

【補正対象書類名】図面

【補正対象項目名】図１

【補正方法】変更

【補正内容】

【手続補正２】

【補正対象書類名】図面

【補正対象項目名】図２

【補正方法】変更

【補正内容】

【手続補正３】

【補正対象書類名】図面

【補正対象項目名】図３

【補正方法】変更

【補正内容】

【手続補正４】

【補正対象書類名】図面

【補正対象項目名】図４

【補正方法】変更

【補正内容】

【手続補正５】

【補正対象書類名】図面

【補正対象項目名】図５

【補正方法】変更

【補正内容】

【手続補正６】

【補正対象書類名】図面

【補正対象項目名】図６

【補正方法】変更

【補正内容】

【手続補正７】

【補正対象書類名】図面

【補正対象項目名】図７

【補正方法】変更

【補正内容】

【手続補正８】

【補正対象書類名】図面

【補正対象項目名】図１０

【補正方法】変更

【補正内容】

【手続補正９】

【補正対象書類名】図面

【補正対象項目名】図１１

【補正方法】変更

【補正内容】

【手続補正１０】

【補正対象書類名】図面

【補正対象項目名】図１２

【補正方法】変更

【補正内容】

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ) ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＷ【要約の続き】の好適な実施形態は、特徴検出部（２８）とは別個の無損失メモリ（４０）を維持し、パーツは、現入力信号（２６）と、メモリ（４０）に格納されている比較パターンとの差から成る。

Claims

【特許請求の範囲】

【請求項１】物理パターンを認識してそれに応答する装置であって、（ａ）或る環境における物理パターンを表す入力信号を生成する変換手段と、（ｂ）前記入力信号に応答する複数の特徴検出部であって、各々、優先特徴の
表現を格納する重み手段を有し、前記優先特徴の各々が前記入力信号内に存在す
る度合いを表す特徴アクティビティ信号を生成し、前記優先特徴を表す特徴記述
信号を生成する、特徴検出部と、（ｃ）前記特徴アクティビティ信号に応答し、前記入力信号に対応するシステ
ム活動を表す出力信号を生成する分類手段と、（ｄ）前記出力信号に応答し、前記環境における活動を遂行する作用手段と、（ｅ）前記入力信号に応答し、前記入力信号の表現を近似的に格納し、以前に
格納した入力信号を表す検索信号を生成するメモリ手段と、（ｆ）前記入力信号、前記検索信号、および前記特徴記述信号に応答し、複数
のパーツと責任を負う少なくとも１つの特徴検出部との間のマッピングを表すパ
ーツ・マッピング信号を生成し、各パーツが前記入力信号および前記以前に格納
した入力信号の有望特徴に対応するようにする、割当手段と、（ｇ）前記パーツ・マッピング信号に応答し、前記責任を負う特徴検出部の各
々を変更し、その優先特徴を、それに割り当てられたパーツに一層類似させる、
更新手段と、を備えることにより、前記責任を負う特徴検出部の各々の変更が、他の特徴検出
部の変更とは十分に独立しており、相関特徴訓練を有する装置よりも少ない物理パターン例で効果的に訓練するこ
とができる、装置。
【請求項２】請求項１記載の装置であって、前記パーツ・マッピング信号
は、前記複数のパーツと責任を負う複数の特徴検出部との間のマッピングを表し
、責任を負う特徴検出部の各々が、他の特徴検出部に比較して、それに割り当て
られたパーツには高い対応度を有するようにした、装置。
【請求項３】請求項２記載の装置であって、前記メモリ手段は、前記特徴
アクティビティ信号に、および前記特徴記述信号に応答し、前記検索信号は、前
記特徴アクティビティ信号に、および前記特徴記述信号に依存する、装置。
【請求項４】請求項３記載の装置であって、前記特徴検出部、および前記
分類手段、および前記メモリ手段、および前記割当手段、および前記更新手段は
、デジタル計算機上において実行可能な命令コードを構成する、装置。
【請求項５】請求項３記載の装置において、前記特徴検出部をニューラル
・ネットワークによって実現し、各特徴検出部毎の重み手段が、前記入力信号を
受け取るように構成された変更可能なコネクションのアレイを備える、装置。
【請求項６】請求項５記載の装置であって、前記ニューラル・ネットワー
クは、デジタル計算機上において実行可能な命令コードを備える、装置。
【請求項７】請求項５記載の装置において、前記ニューラル・ネットワー
クの少なくとも１つのユニットが、ノイジーＯＲ機能に従って作用する、装置。
【請求項８】請求項７記載の装置であって、前記少なくとも１つのユニッ
トの活性化確率に対する寄与を格納し、該寄与を複数の活性化サイクルでアクセ
ス可能となるようにする手段を更に含む、装置。
【請求項９】請求項８記載の装置であって、前記寄与は、前記少なくとも
１つのユニットから各非アクティブな子ユニットへの重みを１から減じたものを
表す量の負の対数の前記各非アクティブな子ユニット全体の和である、装置。
【請求項１０】請求項５記載の装置であって、前記割当手段は、前記入力
信号のソフト区分を実行して前記パーツを得るように構成した、装置。
【請求項１１】請求項２記載の装置であって、前記メモリ手段は無損失記
憶装置である、装置。
【請求項１２】請求項１１記載の装置であって、前記パーツの各々は、前
記入力信号と、前記検索信号が表す既に格納済みの比較パターンとの差を表す差
ベクトルである、装置。
【請求項１３】請求項１２記載の装置であって、前記割当手段は、前記パ
ーツの各々を勝者の特徴検出部に割り当てるように構成され、前記勝者の特徴検
出部は、前記差ベクトルからの最少距離を有する優先特徴を有する、装置。
【請求項１４】請求項２記載の装置であって、前記更新手段は、前記責任
を負う特徴検出部の各々を変更してその優先特徴を、その現在の入力空間位置か
らその割り当てられたパーツの入力空間位置へのベクトルに実質的に沿った新た
な入力空間位置に移動させるように構成した、装置。
【請求項１５】パターン認識装置を作成する方法であって、（ａ）或る環境における物理パターンを表す入力信号を生成する変換手段を提
供するステップと、（ｂ）前記入力信号に応答する複数の特徴検出部であって、各々、優先特徴の
表現を格納する重み手段を有し、前記優先特徴の各々が前記入力信号に存在する
度合いを表す特徴アクティビティ信号を生成し、前記優先特徴を表す特徴記述信
号を生成する、特徴検出部を提供するステップと、（ｃ）前記特徴アクティビティ信号に応答し、前記入力信号に対応するシステ
ム活動を表す出力信号を生成する分類手段を提供するステップと、（ｄ）前記出力信号に応答し、前記環境における活動を遂行する作用手段を提
供するステップと、（ｅ）入力パターンを近似的に格納し、既に格納済みの入力パターンを表す検
索信号を生成するメモリ手段を提供するステップと、（ｆ）前記メモリ手段を用いて一連の比較パターンを近似的に格納するステッ
プと、（ｇ）訓練パターンを提供するステップと、（ｈ）前記訓練パターンにおいて複数のパーツを特定し、各パーツが前記訓練
パターンおよび前記比較パターンの有望特徴に対応させるステップと、（ｉ）前記パーツの各々を対応する責任を負う特徴検出部に割り当てるステッ
プと、（ｊ）前記責任を負う特徴検出部の各々を変更し、その優先特徴を、その割り
当てられたパーツに、実質的に直接に一層類似させるようにするステップと、（ｋ）訓練判断基準に到達するまで、訓練集合の大部分に対してステップ（ｇ
）ないしステップ（ｊ）を繰り返すことにより、前記特徴検出部を訓練するステ
ップと、を備えることにより、前記責任を負う特徴検出部の各々の変更が、他の特徴検出
部の変更とは十分に独立しており、相関特徴訓練を有する装置よりも少ないパターン提示でパターン認識装置の効
果的な作成を可能とする、方法。
【請求項１６】請求項１５記載の方法であって、（ｌ）ステップ（ａ）ないしステップ（ｄ）を繰り返し、同等のパターン認識
装置を作成するステップと、（ｍ）少なくとも１つの前記の訓練した特徴検出部の優先特徴を、前記同等の
パターン認識装置の少なくとも１つの対応する特徴検出部に転送するステップと
、を更に含む、方法。
【請求項１７】請求項１５記載の方法であって、前記メモリ手段は、前記
特徴アクティビティ信号におよび前記特徴記述信号に応答し、前記検索信号は、
前記特徴アクティビティ信号におよび前記特徴記述信号に依存する、方法。
【請求項１８】請求項１７記載の方法であって、前記特徴検出部をニュー
ラル・ネットワークによって実現し、各特徴検出部の重み手段が、前記入力信号
を受け取るように構成された変更可能なコネクションのアレイを備える、方法。
【請求項１９】請求項１８記載の方法であって、前記ニューラル・ネット
ワークの少なくとも１つのユニットが、ノイジーＯＲ機能に従って作用する、方
法。
【請求項２０】物理パターンを認識してそれに応答する装置であって、（ａ）或る環境における物理パターンを表す入力信号を生成する変換手段と、（ｂ）前記入力信号に応答する複数の特徴検出部であって、各特徴検出部が、
優先特徴を表すことが可能な重み格納部を有し、前記特徴検出部の各々が、その
優先特徴が前記入力信号に存在する度合いを表す特徴アクティビティ信号要素を
生成可能であり、かつその優先特徴を表す特徴記述信号要素を生成可能な、特徴
検出部と、（ｃ）前記特徴アクティビティ信号要素の各々に応答し、前記入力信号に対応
するシステム活動を表す出力信号を生成可能な分類部と、（ｄ）前記出力信号に応答し、前記環境における活動を遂行することが可能な
作用部と、（ｅ）前記入力信号に応答し、前記入力信号の表現を近似的に格納可能であり
、かつ既に格納済みの入力信号を表す検索信号を生成可能なメモリと、（ｆ）前記入力信号に、前記検索信号に、および前記特徴記述信号要素の各々
に応答し、複数のパーツと責任を負う複数の特徴検出部との間のマッピングを表
すパーツ・マッピング信号を生成可能であり、各パーツが前記既に格納済みの入
力信号および前記入力信号の有望特徴に対応し、責任を負う特徴検出部の各々が
、他の特徴検出部と比較して、それに割り当てられたパーツに対して高い対応度
を有するようにした、割当部と、（ｇ）前記パーツ・マッピング信号に応答し、前記責任を負う特徴検出部の各
々を変更してその優先特徴をそれが割り当てられたパーツのベクトルの方へ実質
的に直接に移動させることが可能な更新部とを備えることにより、前記責任を負う特徴検出部の各々の変更が、他の特徴検出
部の変更とは十分に独立しており、相関特徴訓練を有する装置よりも少ない物理パターン例で効果的に訓練するこ
とができる、装置。