JP2005044330A - 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置 - Google Patents
弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置 Download PDFInfo
- Publication number
- JP2005044330A JP2005044330A JP2003417191A JP2003417191A JP2005044330A JP 2005044330 A JP2005044330 A JP 2005044330A JP 2003417191 A JP2003417191 A JP 2003417191A JP 2003417191 A JP2003417191 A JP 2003417191A JP 2005044330 A JP2005044330 A JP 2005044330A
- Authority
- JP
- Japan
- Prior art keywords
- weak hypothesis
- weak
- learning
- facial expression
- facial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Geometry (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】 集団学習により検出対象を示す領域を検出する際に、学習を高効率化し、検出処理を高速化した顔検出装置を使用し、画像に含まれる顔位置のずれなどに強く、高精度に表情認識が可能な表情情認識システム及びそれらの学習方法を提供する。
【解決手段】 アダブーストにより顔検出装置を学習する際、全ての弱仮説から高性能弱仮説を選別し、これから統計的性質に基づいて新弱仮説を生成し、これらの中から最も判別性能が高い1つを選択する処理を繰り返して弱仮説を逐次生成し、最終仮説を得る。検出の際には、予め学習した打ち切り閾値により、一の弱仮説の判定結果が出力される毎に、明らかに顔でないと判定できるか否かを判断し、判断できる場合には処理を打ち切る。検出された顔画像から、アダブーストの手法により所定のガボア・フィルタ選別し、選別されたフィルタにより抽出された特徴量のみのサポート・ベクタを学習し、表情認識を行う。
【選択図】 図8
【解決手段】 アダブーストにより顔検出装置を学習する際、全ての弱仮説から高性能弱仮説を選別し、これから統計的性質に基づいて新弱仮説を生成し、これらの中から最も判別性能が高い1つを選択する処理を繰り返して弱仮説を逐次生成し、最終仮説を得る。検出の際には、予め学習した打ち切り閾値により、一の弱仮説の判定結果が出力される毎に、明らかに顔でないと判定できるか否かを判断し、判断できる場合には処理を打ち切る。検出された顔画像から、アダブーストの手法により所定のガボア・フィルタ選別し、選別されたフィルタにより抽出された特徴量のみのサポート・ベクタを学習し、表情認識を行う。
【選択図】 図8
Description
本発明は、リアルタイムで画像から検出対象の画像として例えば顔画像などを検出する検出装置及び方法、検出装置を学習するための学習装置及び方法、学習の際の弱仮説を生成する弱仮説生成装置及び方法、並びに検出装置を搭載したロボット装置に関する。また、顔画像から特定の表情を示す検出することで顔画像の表情を認識する表情認識装置及び方法、表情認識装置を学習するための表情学習装置及び方法、並びに表情認識装置を搭載したロボット装置に関する。
フェース・ツー・フェースのコミュニケーションは、40ms程度の時間スケールで動作するリアルタイムプロセスである。この時間スケースでは、認識レベルの不確実性が極めて高く、人間も機械も、速度の遅い記号推論プロセスではなく感覚の豊富な知覚プリミティブ(perceptual primitive)に頼る必要がある。従って、人間とフェース・ツー・フェースで対話を行う機械を実現するには、ロバストでかつリアルタイム性を有する知覚プリミティブの開発が必要となる。
チャールズ・ダーウィンは、顔表情が、人間が感情、意図、意見を互いに伝えるための最も強力で直接的な手段であると認識した最初の科学者のひとりであった。顔表情は、感情的状態に関する情報を与えるだけでなく、興味、退屈、混乱、ストレス等の認知的状態に関する情報や、言葉の強調やシンタックスに関する情報を有する会話信号も与える。近時、顔表情認識については、コンピュータビジョンに関する文献において多数の革新的なシステムが現れている(M.Pantic and J.M.Rothcrantz. Automatic analysis of facial expression :State of the art.IEEE Transactions on pattern Analysis and Machine Intelligence,22(12):1424-1445,2000)。
リアルタイムに顔表情を認識するためには、先ず入力画像からリアルタイムに顔の領域を検出する必要がある。従来、複雑な画像シーンの中から動きを使わないで画像信号の濃淡パターンのみを使った顔検出手法が数多く提案されている。例えば下記非特許文献1に記載の顔検出器は、ハール(Haar)基底のようなフィルタを1つの判別器とし、これを多数組み合わせた分類器をカスケード接続したものである。ここで、上記判別器を学習により生成する際に、後述する積分画像(インテグラルイメージ:Integral image)とよばれる画像と矩形特徴(rectangle feature)とを使用して学習の高速化を図ったものである。
図29(a)乃至(d)は、下記非特許文献1に記載の矩形特徴を示す模式図である。図29に示すように、非特許文献1に記載の技術においては、入力画像200A〜200Dにおいて、同一サイズの隣り合う矩形領域の輝度値の総和を求め、一又は複数の矩形領域の輝度値の総和と、その他の矩形領域の輝度値の総和との差を出力するようなフィルタ(以下、矩形特徴ともいう。)を複数用意する。例えば、図29(a)に示すように、入力画像200Aにおいては、矩形領域201A−1の輝度値の総和から、影を付けて示す矩形領域(rectangular box)201A−2の輝度値の総和を減算するフィルタ201Aを示す。このような2つの矩形領域からなるフィルタを2矩形特徴(2 rectangle feature)という。また、図29(c)に示すように、入力画像200Cにおいては、1つの矩形領域が3分割された3つの矩形領域201C−1〜201C−3からなり、矩形領域201C−1、201C−3の輝度値の総和から影を付けて示す中央の矩形領域201C−2の輝度値の総和を減算するフィルタ201Cを示す。このような3つの矩形領域からなるフィルタを3矩形特徴(3 rectangle feature)という。更に、図29(d)に示すように、入力画像201Dにおいては、1つの矩形領域が上下左右に分割された4つの矩形領域201D−1〜201D−4からなり、矩形領域201D−1、201D−3の輝度値の総和から影を付けて示す矩形領域201D−2、201D−4の輝度値の総和を減算するフィルタ201Dを示す。このような4つの矩形領域からなるフィルタを4矩形特徴(4 rectangle feature)という。
例えば、図30に示す顔画像を、上述したような矩形特徴を使用して顔であることを判定する場合について説明する。2矩形特徴(フィルタ)211Bは、1つの矩形領域が上下(垂直方向)に2分割された2つの矩形領域211B−1、211B−2からなり、下側の矩形領域211B−2の輝度値の総和から影を付けて示す矩形領域211B−1の輝度値の総和を減算する。人間の顔画像(検出対象)210は、頬の領域より眼の領域の方が輝度値が低いことを利用すると、矩形特徴211Bの出力値から入力画像が顔であるか否か(正解または不正解)をある程度の確率で推定することができる。
また、3矩形特徴(フィルタ)211Cは、中央の矩形領域211C−2の輝度値の総和から左右の矩形領域211C−1、211C−3の輝度値の総和を減算するフィルタであるが、上述と同様、人間の顔画像210は、両目の領域より鼻の領域の方が輝度値が高いことを利用すると、矩形特徴211Cの出力値から入力画像が顔であるか否かをある程度判定することができる。
また、検出時において、入力画像には含まれる様々な大きさの顔領域を検出するため、様々なサイズの領域(以下、探索ウィンドウという。)を切り出して顔であるか否かを判定する必要がある。しかしながら例えば320×240画素からなる入力画像には、およそ50000種類のサイズの探索ウィンドウが含まれており、これら全てのウィンドウサイズについての演算を行うと極めて時間がかかる。
そこで、非特許文献1においては、積分画像とよばれる画像を使用する。積分画像とは、例えば画像中の自身より一つ上と自身より一つ左の画素値の和に自身の画素値を足しこむ作業を左上から順に行うことで生成することができ、任意の位置の画素値が、自身より左上の矩形領域の輝度値の総和になっている画像である。積分画像を求めておけば、画像内における矩形領域の四隅の画素値を加減算するのみで矩形領域の輝度値の総和を算出することができ、従って矩形領域の輝度値の総和の演算を高速に行うことができる。
また、非特許文献1においては、多数の訓練データ(学習サンプル)を使用し、積分画像を利用した演算結果から、判別器を逐次生成し、多数の判別器の出力の重み付け多数決により顔画像が否かを判別する強判別機を顔検出装置とするものである。図31は、非特許文献1に記載の顔検出装置の要部を示す図である。図31に示すように、顔検出装置に入力画像から切り出した全てのウィンドウ画像(subwindow)241が入力される。そして、一の判別器にて逐次正解(=1)か不正解(=−1)かを出力し、これらの結果を判別器の信頼度(エラー率の低さ)に応じた重み付き加算した結果が正の値である場合、そのウィンドウ画像に顔が存在するものとして顔検出を行う。ここで、顔検出器は多数の判別器から構成されるため、入力画像から大きさが異なるウィンドウ画像を切り出し、これら全てについて、全ての判別器の判別結果の重み付き多数決を求めると処理に時間がかかる。そこで、非特許文献1においては、複数の判別器らなる分類器(classifier)240A、240B、240C・・・を複数用意し、これらをカスケード接続し、各分類器240A、240B、240C・・・においてその出力からウィンドウ画像が顔であるか否かを一度判定し、顔でないと判定されたデータ242A、242B、242C・・は、その時点で判定処理を中断し、一の分類器にて顔であると判定されたデータ2のみを、次段の分類器に供給し、次段の分類器を構成する複数の判別器にて新たに重み付き加算して多数決を得るというような処理を繰り返し行うことで、顔検出の際の処理を高速化するようになされている。
ポール ビオラ(Paul Viola)、ミハエル ジョーンズ(Michael Jones),「ロバストなリアルタイム物体検出(Robust real-time object detection)」,テクニカルレポート CRL 2001/01,ケンブリッジリサーチ研究所,2001年
しかしながら、上記非特許文献1に記載の矩形特徴は、例えば対象とする領域(ウィンドウ画像)を24×24画素の範囲に限定したとしても、フィルタを構成する画素数(フィルタの大きさ)及び2、3、4矩形特徴のフィルタの種類の違いによって、フィルタの選択の組み合わせは160000通り以上存在する。したがって、学習においては、ラベリング(正解付け)された例えば数百の訓練データに対し、この160000以上のフィルタの中から例えば最も小さい誤り率を与えるフィルタを1つ選択して判別器を生成するという作業を、重み付き多数決する個数分の例えば数百回繰り返して行う必要があり、したがって演算量が膨大なものとなってしまい、学習処理に極めて時間がかかる。
また、学習により得られた多数の弱仮説からなる最終仮説を使用して入力画像から顔判別する場合、上述のように、複数の弱仮説からなる分類器で判別することで、全ての弱仮説の加算値の重み付き多数決を求めるのに比して演算量を低減し、判別処理速度を向上することができるものの、各分類器においては、同じく重み付き多数決を求める必要があるため処理に時間がかかるという問題点がある。
本発明は、このような従来の実情に鑑みて提案されたものであり、集団学習により検出対象であるか否かの判別器を学習する際に、判別器を構成する弱仮説を、判別性能を低下させることなく高速に生成することができる弱仮説生成装置及び方法を提供することを目的とする。
また、本発明は、ブースティングにより判別器を学習する際に、学習サンプルに対する弱仮説の出力値を逐次学習しておくことで、無駄な演算を省き、高速に検出対象を判別可能な検出装置及び方法、並びにそのような高速判別が可能な検出装置を学習するための学習装置及び方法を提供することを目的とする。
更に、本発明は、画像に含まれる顔位置のずれなどに強く、精度よくかつ迅速に顔の表情を認識することができる表情認識装置及び方法、並びにそのような表情認識装置を学習するための表情学習装置及び方法を提供することを目的とする。
更にまた、本発明は、入力画像からリアルタイムで高精度に検出対象を検出可能な検出装置を搭載したロボット装置、及び入力画像から顔画像を検出し、高精度かつ高速に顔画像の表情を認識することができる顔表情認識装置を搭載したロボット装置を提供することを目的とする。
本発明に係る弱仮説生成装置は、検出対象であるか非検出対象であるかの正解付けがされた複数の学習サンプルからなるデータセットを使用し、与えられたデータが検出対象であるか否かを推定する弱仮説を生成する弱仮説生成装置において、複数の弱仮説から一部の弱仮説を選択し、選択された一部の弱仮説の上記データセットに対する推定性能が他より高い1又は複数の弱仮説を高性能弱仮説として選択する選択手段と、上記高性能弱仮説に対して所定の変形を加えた1以上の新たな弱仮説を新弱仮説として生成する新弱仮説生成手段と、上記高性能弱仮説及び上記新弱仮説から上記データセットに対する推定性能が最も高い1つの弱仮説を選択する弱仮説選択手段とを有することを特徴とする。
本発明においては、選択可能な全弱仮説ではなく、先ず、その一部を使用してその判別性能(推定性能)が優れているもの、すなわち誤り率が低い1又は複数の弱仮説を高性能弱仮説として選別する。そして、この選別された高性能弱仮説から所定の変形を加えた新弱仮説を生成し、これらの中から最も判別性能が高い弱仮説を選択することで弱仮説を生成する。このことにより、選択可能な全弱仮説の中から判別性能が最も高いものを選択するのに比して精度を落とすことなくかつ演算量を減らすことができる。
また、上記新弱仮説生成手段は、上記高性能弱仮説から、上記検出対象の統計的性質に基づき新弱仮説を生成することができ、例えば人間の顔を検出する場合は、その左右の対象性を利用するなどして新弱仮説を生成する。このことにより、高性能弱仮説と同等に推定の誤り率が低く高性能である予想される新弱仮説を生成することができ、これらの弱仮説から、弱仮説選択手段により弱仮説を選択することにより、選択可能な全ての弱仮説の中から選択するに比して演算量を低減しつつ、判別性能が高い弱仮説を生成することができる。
更に、上記データセットの各学習サンプルには、データ重みが設定され、上記データセットに対する推定性能は、上記データセットの各学習サンプルに設定された上記データ重みに基づき算出されるものとすることができ、ブースティングに使用される弱仮説を生成する装置とすることができる。
更にまた、上記弱仮説選択手段が選択した弱仮説の上記データセットに対する推定性能に基づき上記各学習サンプルの上記データ重みを更新するデータ重み更新手段を有し、上記データ重み更新手段により上記データ重みが更新される毎に、上記複数の弱仮説から一の弱仮説を選択することで弱仮説を生成する処理を繰り返すことができ、これにより、弱仮説を逐次生成する毎にデータ重みの分布を更新し、更新されたデータ重みの分布に応じて弱仮説が生成するブースティングにより最終仮説を学習する学習装置を構成することができる。
また、上記データ重み更新手段は、上記弱仮説が出力する上記推定値が不正解であった学習サンプルのデータ重みが正解であった学習サンプルのデータ重みより相対的に増すよう上記データ重みを更新することで、判別が難しく、学習サンプルのデータ重みが大い学習サンプルを正解させるような弱仮説を逐次生成することができる。
更に、上記弱仮説は、与えられたデータに対する上記推定値を確定的に出力することができ、アダブースト(AdaBoost)などのアルゴリズムに従った学習を行うことができ、また、与えられたデータに対する上記推定値を確率的に出力すれば、更に推定性能を向上させることができる。
更にまた、上記データセットは、上記検出対象を示す濃淡画像と上記非検出対象を示す濃淡画像とからなり、上記弱仮説は、濃淡画像内に含まれる2以上の矩形領域群における、一又は複数の矩形領域の各輝度値の総和とその他の矩形領域の各輝度値の総和との差に基づき、入力として与えられる濃淡画像が検出対象であるか否かを推定するものとしてもよく、後述する積分画像を使用するとこの矩形特徴の特徴量の演算を高速化することができる。
本発明に係る他の弱仮説生成装置は、検出対象であるか非検出対象であるかの正解付けがされた複数の学習サンプルからなるデータセットを使用し、与えられたデータが検出対象であるか否かを推定する弱仮説を生成する弱仮説生成装置において、複数の弱仮説から、一部の弱仮説を選択する選択手段と、上記選択手段により選択された上記一部の弱仮説に対して所定の変形を加えた1以上の新たな弱仮説を新弱仮説として生成する新弱仮説生成手段と、上記選択手段により選択された上記一部の弱仮説及び上記新弱仮説から上記データセットに対する推定性能が最も高い1つの弱仮説を選択する弱仮説選択手段とを有し、ことを特徴とする。
本発明においては、選択可能な多数の弱仮説から一部の弱仮説をランダムに選択し、選択した一部の弱仮説とこれらから生成した新弱仮説との中から判別性能が高い1つの弱仮説1を選択して弱仮説を生成するため、一部の弱仮説をランダムに選択し、これから判別性能が高い1の弱仮説を選択することで弱仮説を生成するのに比して判別性能が高い弱仮説を生成することができる。
本発明に係る学習装置は、検出対象であるか非検出対象であるかの正解付けがされた複数の学習サンプルからなるデータセットを使用し、与えられたデータが検出対象であるか否かを判定する検出装置を学習する学習装置において、与えられたデータが検出対象であるか否かを推定する複数の弱仮説から一の弱仮説を選択する処理を繰り返す弱仮説選択手段と、上記弱仮説選択手段により弱仮説が選択される毎に、選択された弱仮説の上記データセットに対する推定結果に基づき当該弱仮説の信頼度を算出する信頼度算出手段と、弱仮説の上記データセットに対する推定結果と当該弱仮説の上記信頼度との積を、上記弱仮説選択手段により弱仮説が選択される毎に算出して加算し、該加算結果に基づき上記検出装置が上記与えられたデータが検出対象であるか否かを判定する処理を打ち切るための打ち切り閾値を学習する閾値学習手段とを有することを特徴とする。
本発明においては、例えば与えられるデータ含まれる検出対象に比して非検出対象が格段に多い場合など、予め学習された打ち切り閾値により、与えられたデータが明らかに非検出対象であると判断できる場合に検出処理を途中で打ち切ったり、反対に与えられえたデータが明らかに検出対象であると判断できる場合に検出処理を途中で打ち切ったりすることで検出処理を極めて効率よく行う検出装置を学習することができる。
また、上記閾値学習手段は、弱仮説の上記データセットのうち上記検出対象であると正解付けされたポジティブデータに対する推定結果と当該弱仮説の上記信頼度との積を、上記弱仮説選択手段により弱仮説が選択される毎に算出して加算した加算結果に基づき上記打ち切り閾値を学習することができ、例えば、上記弱仮説が選択される毎に、上記ポジティブデータに対する上記加算結果の最小値又は判別境界値のうち小さい方を上記打ち切り閾値として記憶することができ、加算結果が、ポジティブデータが取りうる最小値より小さい場合には、明らかに検出対象ではないデータが入力されたものとして処理を途中で打ち切る検出装置を提供することができる。
更に、上記閾値学習手段は、弱仮説の上記データセットのうち上記非検出対象であると正解付けされたネガティブデータに対する推定結果と当該弱仮説の上記信頼度との積を、上記弱仮説選択手段により弱仮説が選択される毎に算出して加算した加算結果に基づき上記打ち切り閾値を学習することができ、例えば上記弱仮説が選択される毎に、上記ネガティブデータに対する上記算出結果の最大値又は判別境界値のうち大きい方を上記打ち切り閾値として記憶することができ、加算結果が、ネガティブデータが取りうる最大値より大きい場合には、明に検出対象であるデータが入力されたものとして処理を打ち切る検出装置を提供することができる。
本発明に係る検出装置は、与えられたデータが検出対象であるか否かを判別することで検出対象を検出する検出装置において、複数の弱仮説からなる推定結果出力手段と、上記推定結果出力手段の出力結果に基づき上記与えられたデータが検出対象であるか否かを判別する判別手段とを有し、上記推定結果出力手段は、予め学習された特徴量に基づき、上記与えられたデータが検出対象であるか否かを各弱仮説毎に推定して出力し、上記判別手段は、弱仮説の推定結果と当該弱仮説の推定性能に基づき予め学習された信頼度との積を、一の弱仮説が推定結果を出力する毎に加算し、該加算結果に基づき上記推定結果出力手段の処理を打ち切るか否かを決定する打ち切り手段を有することを特徴とする。
本発明においては、予め学習された打ち切り閾値と、弱仮説の推定結果と信頼度との積と、を一の弱仮説が推定結果を出力する毎に比較し、弱仮説の演算を打ち切るか否かを決定することができ、無駄な演算を省いて検出処理を高速化することができる。
上記検出対象は、顔画像とすることができる。この場合、上記判別手段により上記検出対象として検出された顔画像を、ガボア・フィルタによりフィルタリングして顔特徴を抽出する顔特徴抽出手段と、上記顔特徴に基づき、上記与えられた顔画像の表情を認識する表情認識手段とを有することができ、高速に顔画像を検出し、その表情を認識することで、例えば映像などの動画からリアルタイムで人間の表情を認識するシステムを提供することができる。
本発明に係る表情学習装置は、認識対象となる特定表情を示す複数の顔画像と該特定表情とは異なる表情を示す複数の顔画像とからなる表情学習用データセットを使用して、与えられた顔画像の表情を認識する表情認識装置を学習する表情学習装置であって、ガボア・フィルタにより上記表情学習用データセットから抽出した顔特徴に基づき、与えられた顔画像から上記特定表情を示す顔画像を識別する表情認識装置を学習する表情学習手段を有することを特徴とする。
本発明においては、方位選択性を持ち周波数成分の異なる複数のフィルタを用いて入力画像をフィルタリングするガボア・フィルタ出力を特徴量とすることで、画像のシフトや環境変化にあまり影響されない特徴量を抽出することができ、各表情にラベリングされた表情学習サンプルを使用して、特定表情を識別する表情識別器を、識別したい所望の種類分学習することで、与えられる顔画像から任意の表情を認識可能な表情認識装置を学習することができる。
また、上記表情学習手段は、上記ガボア・フィルタにより上記表情学習用データセットから抽出された顔特徴に基づき上記特定表情を示す顔画像を識別するためのサポート・ベクタを学習することができ、抽出した顔特徴を非線型な特徴空間に一度写像してこの特徴空間内で分離する超平面を求めることにより顔と非顔とを識別するサポート・ベクタ・マシーンにより、高精度に所望の表情を認識する表情認識装置を学習することができる。
更に、上記表情学習手段は、複数のガボア・フィルタから選択した一のガボア・フィルタのフィルタリング結果に基づき、与えられた顔画像が上記特定表情であるか否かを推定する弱仮説を生成する処理を繰り返す弱仮説生成手段と、上記弱仮説生成手段により生成された弱仮説の上記表情学習用データセットに対する推定性能に基づき当該弱仮説の信頼度を算出する信頼度算出手段と、上記信頼度に基づき上記表情学習用データセットに設定されるデータ重みを更新するデータ重み更新手段とを有し、上記弱仮説生成手段は、上記データ重みが更新される毎に、上記表情学習用データセットに対する推定性能が最も大きい一のガボア・フィルタを選択して上記弱仮説を生成する処理を繰り返すことができ、ガボア・フィルタの周波数、方向及び学習サンプルにおけるピクセル位置から決定される複数のガボア・フィルタの出力から一つを選択して弱仮説を生成し、これを繰り返して最終仮説となる識別器を学習することができる。
更にまた、上記表情学習手段は、複数のガボア・フィルタから選択した一のガボア・フィルタのフィルタリング結果に基づき、与えられた顔画像が上記特定表情であるか否かを推定する弱仮説を生成する処理を繰り返す弱仮説生成手段と、上記弱仮説生成手段により生成された弱仮説の上記表情学習用データセットに対する推定性能に基づき当該弱仮説の信頼度を算出する信頼度算出手段と、上記信頼度に基づき上記表情学習用データセットに設定されるデータ重みを更新するデータ重み更新手段と、所定のガボア・フィルタにより上記表情学習用データセットから抽出された顔特徴に基づき上記特定表情を示す顔画像を識別するためのサポート・ベクタを学習するサポート・ベクタ学習手段とを有し、上記弱仮説生成手段は、上記データ重みが更新される毎に、上記表情学習用データセットに対する推定性能が最も大きい一のガボア・フィルタを選択して上記弱仮説を生成する処理を繰り返し、上記サポート・ベクタ学習手段は、上記弱仮説生成手段により生成された弱仮説に選択されたガボア・フィルタにより上記顔特徴を抽出し、上記サポート・ベクタを学習することができ、ガボア・フィルタの周波数、方向及び学習サンプルにおけるピクセル位置から決定される全ガボア・フィルタ出力を弱仮説としてこれらの中から判別性能が高い幾つかを選択し、これを特徴量としてサポート・ベクタを学習することで、ベクトルの次元を落とすことで学習時の演算量を激減させ、かつ集団学習とサポート・ベクタ・マシーンとを組み合わせることでさらに高い汎化能力を有する表情認識装置を学習することができる。
本発明に係る表情認識装置は、与えられた顔画像をガボア・フィルタによりフィルタリングして顔特徴を抽出する顔特徴抽出手段と、上記顔特徴に基づき、上記与えられた顔画像の表情を認識する表情認識手段とを有することを特徴とする。
本発明においては、与えられる顔画像から画像のシフトに強いガボア・フィルタにより特徴量を抽出するため、環境変化にロバストな認識結果を得ることができる。また、表情認識手段としては、SVM若しくはブースティングによる学習、またはこれらを組み合わせて学習された表情識別器から構成することができ、極めて高精度に顔画像から表情を認識することができる。
本発明に係るロボット装置は、自律的に行動するロボット装置において、周囲の画像を撮像する撮像手段と、上記撮像手段により撮像された画像から任意の大きさのウィンドウ画像を切り出す切り出し手段と、上記ウィンドウ画像が検出対象を示す画像であるか否かを検出する検出装置とを有し、上記検出装置は、複数の弱仮説からなる推定結果出力出手段と、上記推定結果出力手段から出力される推定結果に基づき上記ウィンドウ画像が検出対象を示す画像であるか否かを判別する判別手段とを有し、上記推定結果出力手段は、予め学習された特徴量に基づき、上記与えられたデータが検出対象であるか否かを各弱仮説毎に推定して出力し、上記判別手段は、弱仮説の推定結果と当該弱仮説の推定性能に基づき学習された信頼度との積を、一の弱仮説が推定結果を出力する毎に加算し、該加算結果に基づき上記推定結果出力手段の処理を打ち切るか否かを決定する打ち切り手段を有することを特徴とする。
本発明においては、入力画像から検出対象を検出する際に打ち切り閾値を使用し、与えられた画像が検出対象であるか否かの検出処理を省略することができ、リアルタイムで入力される静止画又は動画から対象物を検出することができる。
本発明に係るロボット装置は、自律的に行動するロボット装置において、周囲の画像を撮像する撮像手段と、上記撮像手段により撮像された画像から所定の領域を顔画像として検出する顔画像検出装置と、上記顔画像の表情を認識する表情認識装置とを備え、上記表情認識装置は、上記顔画像検出装置により検出された顔画像をガボア・フィルタによりフィルタリングして顔特徴を抽出する顔特徴抽出手段と、上記顔特徴に基づき、上記与えられた顔画像の表情を認識する表情認識手段とを有することを特徴とする。
本発明においては、自律的に行動するようなロボット装置であっても、環境の変化にロバストな特徴量を使用して表情認識することで、精度よく顔画像から表情を認識することができる。
本発明に係る弱仮説生成装置及び方法によれば、 検出対象であるか非検出対象であるかの正解付けがされた複数の学習サンプルからなるデータセットを使用し、与えられたデータが検出対象であるか否かを推定する際、先ず、複数の弱仮説から一部の弱仮説を選択し、選択された一部の弱仮説の上記データセットに対する推定性能が他より高い1又は複数の弱仮説を高性能弱仮説として選択する。次に、この高性能弱仮説に対して所定の変形を加えた1以上の新たな弱仮説を新弱仮説として生成する。そして、高性能弱仮説及び新弱仮説から上記データセットに対する推定性能が最も高い1つの弱仮説を選択することにより、弱仮説を生成する。これにより、選択可能な全弱仮説の一部から判別性能がよいものを選別し、この選別され高性能弱仮説から所定の変形を加えた新弱仮説を生成し、これらから最も判別性能が高い弱仮説を採用することで、選択可能な全弱仮説の中から判別性能が高いものを選択するのに比して精度を落とすことなくかつ飛躍的に演算量を減らすことができ、このように高速に弱仮説を生成することで、最終仮説となる判別器を高速に学習し、高精度な学習機械を得ることができる。
また、本発明に係る他の弱仮説生成装置及び方法によれば、複数の弱仮説から、一部の弱仮説を選択し、選択された一部の弱仮説に対して所定の変形を加えた1以上の新たな弱仮説を生成し、これらに含まれる弱仮説のうち、学習データセットに対する誤り率が最小のものを選択することで弱仮説を生成するので、選択可能な全弱仮説の中から判別性能が高いものを選択するのに比して高速に弱仮説を生成することができると共に、一部の弱仮説のみから選択するより高性能な弱仮説を生成することができる。
本発明に係る学習装置及び方法によれば、 検出対象であるか非検出対象であるかの正解付けがされた複数の学習サンプルからなるデータセットを使用し、与えられたデータが検出対象であるか否かを判定する検出装置を学習する。学習では、与えられたデータが検出対象であるか否かを推定する複数の弱仮説から一の弱仮説を選択する処理を繰り返すが、この際、弱仮説が選択される毎に、選択された弱仮説の上記データセットに対する推定結果に基づき当該弱仮説の信頼度を算出し、弱仮説の上記データセットに対する推定結果と当該弱仮説の上記信頼度との積を、弱仮説が選択される毎に算出して加算する。そして、加算結果に基づき上記検出装置が上記与えられたデータが検出対象であるか否かを判定する処理を打ち切るための打ち切り閾値を学習する。このことにより、対象物を検出する際、打ち切り閾値により、与えられた画像が明らかに検出対象ではないと判断して検出処理を途中で打ち切ったり、与えられた画像が明らかに検出対象であると判断して検出処理を打ち切ったりすることができ、無駄な処理を省き、高速に検出処理が可能な検出装置を学習することができる。
本発明に係る検出装置及び方法によれば、与えられたデータが検出対象であるか否かを判別することで検出対象を検出する際、複数の弱仮説が予め学習された特徴量に基づき、与えられたデータが検出対象であるか否かを各弱仮説毎に推定して出力し、この出力結果に基づき与えられたデータが検出対象であるか否かを判別する。この場合、弱仮説の推定結果と当該弱仮説の推定性能に基づき予め学習された信頼度との積を、一の弱仮説が推定結果を出力する毎に加算し、該加算結果に基づき弱仮説の推定処理を打ち切るか否かを決定する。このことにより、例えば検出対象に比して非検出対象の方が格段に多い場合などには、予め学習された打ち切り閾値により、与えられたデータが明らかに検出対象でないか否かを判断し、明らかに検出対象ではないと判断できる場合には、検出処理を途中で打ち切ることで、検出処理を極めて効率よく行って処理を高速化することができる。また、検出対象として顔画像を検出すれば、動画などからリアルタイムで顔検出することができ、この顔画像の表情を認識する表情認識装置と組み合わせればリアルタイムで入力画像から人間の表情を認識することができる。
本発明に係る表情学習装置及び方法によれば、認識対象となる特定表情を示す複数の顔画像と該特定表情とは異なる表情を示す複数の顔画像とからなる表情学習用データセットを使用して、与えられた顔画像の表情を認識する表情認識装置を学習する。この場合、ガボア・フィルタにより上記表情学習用データセットから抽出した顔特徴に基づき、与えられた顔画像から上記特定表情を示す顔画像を識別する表情認識装置を学習するので、ガボア・フィルタ出力を特徴量とするため、画像のシフトに強く、各表情にラベリングされた表情学習サンプルを使用して、識別対象の特定表情を識別する表情識別器を所望の上表種類分学習することで、与えられる顔画像から所望の表情を認識する表情認識装置を得ることができる。また、特定表情を識別するためのサポート・ベクタを学習すれば、表情識別器をサポート・ベクタ・マシーンとすることができ、極めて高精度な表情認識装置を得ることができる。更に、特定表情を識別する表情識別器を最終仮説としてブースティングなどの手法にて集団学習すれば、高精度かつ高速演算が可能な表情認識装置を得ることができる。更にまた、ブースティングにより、サポート・ベクタを学習するための特徴選択をして学習するベクトルの次元を下げることで、学習時の演算を高速化すると共に、高速かつ極めて汎化性能が高い表情識別装置を得ることができる。
本発明に係る顔表情認識装置及び方法によれば、与えられた顔画像をガボア・フィルタによりフィルタリングして顔特徴を抽出し、この顔特徴に基づき、上記与えられた顔画像の表情を認識するので、環境にロバストな特徴量を抽出することができ、精度よく顔表情を認識することができる。
本発明に係るロボット装置によれば、上述したような高速に検出処理が可能な検出装置を搭載したり、顔画像から表情を認識する表情認識装置を搭載することで、リアルタイムで人間の表情を認識し、ユーザの感情に応じた動作を発現させることができ、エンターテイメント性に優れたロボット装置を提供することができる。
以下、本発明の実施の形態について図面を参照しながら詳細に説明する。本実施の形態は、本発明を、入力される画像又は映像から検出対象として顔画像を検出する検出装置、及びこの検出装置により検出された顔画像の表情を認識する表情認識装置からなる顔表情認識システムに適用したものである。
この顔表情認識システムは、映像からの顔画像を検出し、基本的な感情表現のリアルタイム認識を、ユーザ独立型で完全に自動的に行うことができる。また、本顔表情認識システムは、ビデオストリームにおける正面顔を自動的に検出し、符号化して、例えば、ニュートラル、怒り、嫌悪、恐怖、喜び、悲しみ、驚きなどの複数の感情に識別するものである。
ここで、検出装置は、検出対象を示す学習サンプルとして複数の顔画像と、非検出対象を示す学習サンプルとして複数の非顔画像とからなるデータセットを使用し、集団学習されたものある。また、表情認識装置は、検出装置により検出された顔画像のガボア・フィルタの出力を特徴量とし、サポート・ベクタ・マシーン(Support Vector Machine:SVM)若しくは、集団学習により得られた学習機械又はこれらの組み合わせにより複数の顔表情に識別する装置である。すなわち、いずれの装置も教師データまたは訓練データともいわれる学習サンプルを使用して機械学習されるものである。
先ず、本実施の形態の説明に先立ち、本実施の形態において使用する学習アルゴリズムの1つである集団学習について説明しておく。集団学習については、例えば、麻生英樹ら著、「パターン認識と学習の統計学−新しい概念と手法」(岩波書店)などに記載されている。
入力xに対して1つの反応yを確定的又は確率的に予測するものを仮説(hypothesis)とし、仮説がパラメータθで表されるとき、y=h(x,θ)と記載する。学習アルゴリズムは、仮説の集合{h(x,θ)}を学習モデルと呼ぶとき、この学習モデルから例題(学習サンプル)を用いて適当なパラメータθの推定値を選び出すものである。
集団学習(ensemble learning:アンサンブル学習)と呼ばれるアルゴリズムは、比較的単純な学習モデルと計算量が妥当な学習則とを用い、与えられる例題の重みや初期値の違いなどによって多様な仮説を選び出しこれを組み合わせることによって最終的な仮説を構成し、複雑な学習モデルを学習するのと同等なことを行おうとするものである。
集団学習では、このように仮説を多数組み合わせることで性能を向上させるものであため、集団学習に用いられる学習アルゴリズムは、弱い学習アルゴリズム(weak learning algorithm)または弱学習機(weak learner)と呼ばれ、仮説は弱仮説(weak hypothesis)、弱判別器、弱判定器などと呼ばれる。
なお、簡単な学習機械を組み合わせて、複雑なものを作るという試みはニューラル・ネットワークの分野では古くから行われており、このようにして作られた学習機械、又はそのアルゴリズムを指して、combining predictor、combining learner、committee machine、modular network、voting network、ensemble learningなどの言葉が使用されるが、本明細書においては、集団学習という言葉を使用するものとする。
このような学習により異なる複数個のパラメータが与えられたとき、最終的な出力は多数決(majority vote)により決定される。ここで、仮説hiに重みwiが与えられていた場合(通常、重みの総和は1となるよう正規化されているものとする。)、この重みは、どの仮説の出力を優先するかを示しており、これに基づいて多数決を構成するとき重み付き多数決(weighted vote)と呼ぶ。なお、重みが一様な場合は均等な多数決(equally vote)と呼ぶ。出力が計量的である場合には、仮説の出力を重み付けて足し合わせたものが最終的な出力となる。
集団学習によって得られる学習機械は最終仮説又は強判別器とも言われ、多数の弱仮説とこれを組み合わせる結合機とからなる。ここで、結合機の動作が入力に対して動的であるか、静的であるかということと、弱仮説の生成の仕方が並列的であるか逐次的であるかということにより、幾つかの学習アルゴリズムに分類される。本実施の形態においては、入力によらず固定した重みで弱仮説の出力を統合する静的な結合機であって、仮説の生成を逐次的に行うブースティングによって得られる学習機械としての、顔検出装置及び表情識別装置について説明する。なお、同様に静的な結合機として、仮説の生成を並列的に行うバギンングなどがある。
ブースティングでは、例えば数千の学習サンプルといわれる予め正解付け(ラベリング)された検出対象と非検出対象、例えば顔画像と、非顔画像とからならなるサンプル(例題)を使用し、逐次的に例題の重みを変化させながら異なる学習機械(弱仮説)を生成し、これを組み合わせて精度が高い学習機械(最終仮説)を構成する手法であり、学習アルゴリズムの精度を増強(boost)する意味で、ブースティングという言葉が使用される。
こうして、極めて簡単な構成であって、1つでは検出対象であるか又は非検出対象であるかの判別能力も低い弱仮説の組み合わせからなる学習モデルから、ブースティングなどの所定の学習アルゴリズムに従って1つの仮説を選択することで弱仮説を生成し、多数の弱仮説を組み合わせることで、それ自体では判別性能が低い弱仮説から、結果的に判別能力が高い最終仮説(判別器)を得ることができる。例えばアダブースト(AdaBoost)においては、例題となる学習サンプルに重みを設定し、より判別が難しい例題の重みが大きくなるようデータ重みを逐次更新し、例えば多数の弱仮説から重み付き学習サンプルの判別誤差が最も小さい弱仮説を選択することで弱仮説を逐次生成して組み合わせていくと共に、生成した弱仮説に対しその判別能力を示す信頼度を学習していく。以下の説明においては、学習モデルを構成する複数の仮説(弱仮説)を、学習により逐次生成される弱仮説と区別するため、必要に応じてフィルタともう。また、最終仮説となる判別器の判別結果と区別するため、必要に応じて弱仮説の判別結果(出力結果)を推定値又は推定結果ともいう。
ここで、本実施の形態においては、この集団学習の際の弱仮説の生成を極めて効率よく行うことで処理を高速化する手法を提案するものである。判別対象(検出対象)やその条件などにより異なるが、通常、学習モデルとなる弱仮説(フィルタ)の組み合わせは、極めて多数存在し、学習においては、これら多数のフィルタからできるだけ判別性能が高い一つを選択して弱仮説を生成するという処理を繰り返すため、通常その処理が膨大なものとなる。これに対し、本実施の形態の弱仮説の生成方法によれば、生成の際の演算量を削減しても判別性能が高い弱仮説を生成することができる。
また、学習によって得られる最終仮説は、多数の弱仮説からなり、判別の際には、これらの弱仮説の出力を全ての重み付き加算して得られる重み付き多数決が最終仮説の出力となる。したがって、通常は全ての弱仮説の出力を得る必要がある。これに対し、本実施の形態においては、学習の際に後述する打ち切り閾値を学習しておくことで、全ての弱仮説の出力の重み付き多数決をとらず、入力として与えられたデータが検出対象であるか、非検出対象であるかを逐次判定することで、全ての弱仮説の出力結果をまたずとも演算を途中で打ち切ることができ、検出処理を高速化するものである。なお、本発明における弱仮説の生成方法などを、ブースティング以外の集団学習に適用して学習機械の学習・検出を同様に高速化してもよい。
(1)顔表情認識システム
図1は、本実施の形態における顔表情認識システムの処理機能を示す機能ブロック図である。図1に示すように、顔表情認識システム1は、与えられた入力画像から顔の位置及び大きさを出力する顔検出装置10と、顔検出装置により検出された顔表情が示す顔画像の表情を認識する表情認識装置20とを有する。
図1は、本実施の形態における顔表情認識システムの処理機能を示す機能ブロック図である。図1に示すように、顔表情認識システム1は、与えられた入力画像から顔の位置及び大きさを出力する顔検出装置10と、顔検出装置により検出された顔表情が示す顔画像の表情を認識する表情認識装置20とを有する。
顔検出装置10は、ビデオ映像などの動画、又は静止画などが入力され濃淡画像(輝度画像)を出力する画像出力部11と、画像出力部11から出力された濃淡画像から後述する積分画像を生成する積分画像生成部12と、積分画像に対して検出対象の大きさで例えば左上から順次スキャンする走査部13と、走査部13にて順次スキャンされた全ウィンドウ画像について、顔であるか否かを判別する判別器14とを有する。走査部13は、各積分画像について、検出したい対象物の大きさのウィンドウを順次スキャンしてウィンドウ画像を切り出し、判別器14は、各ウィンドウ画像が顔であるか否かを判別することで、与えられる画像(入力画像)の中から検出対象を示す領域の位置及び大きさを出力する。
判別器14は、集団学習により判別器14を構成する複数の弱仮説を集団学習により学習する集団学習機15の学習結果を参照して、現在のウィンドウ画像が顔画像であるか、又は非顔画像であるかを判別する。
また、この顔検出装置10は、入力画像から複数の顔画像が検出された場合は、複数の領域情報を出力する。更に、複数の領域情報のうち重なりあっている領域が存在する場合は、それらを平均した領域を出力したり、又は最も検出対象である確率が高いと評価される一の領域として、後述する高い重み付き多数決をとるための値を有する領域を選択したりする処理も行うことができる。
表情認識装置20は、顔検出装置10により検出された顔画像から表情認識のための特徴量を抽出する顔特徴抽出部21と、顔特徴抽出部21により抽出された特徴量を用いて、入力された顔画像を、予め学習された複数の顔表情のいずれかに識別することで表情認識する表情識別部22とを有する。
顔特徴抽出部21は、方位選択性を有し周波数成分が異なる複数のフィルタを使用して上記顔画像をフィルタリングするガボア・フィルタにより構成される。また、表情認識部22は、顔特徴抽出部21による顔特徴の抽出結果を入力として、特定の表情を識別する表情識別器を、識別する表情の種類分有する。本実施の形態においては、顔画像を7つの表情に識別するため、7つの表情を識別する表情識別器から構成される。
ここで、顔検出装置10の判別器14は、予め検出対象であるか、非検出対象であるかの正解付けがされた複数の学習サンプルからなる学習用データセットを利用して、集団学習により機械学習されたものである。また、表情認識部20も、予め所定の表情にラベリングされた画像サンプルを使用して学習されたものである。従って、以下では顔検出装置の学習方法、顔検出装置の検出方法、表情認識装置の学習方法、表情認識装置の認識方法の順序で上記顔表情認識システムについて詳細に説明する。
なお、顔検出装置10は、判別器14の前段に、積分画像を生成して所定の領域を切り出すなどの前処理を行う機能を有しているが、判別器14は、入力として与えられる画像が顔か否かを判別するものであり、前処理が不要な場合は、判別器14を顔検出装置として使用することができる。また、本実施の形態の判別器14は、与えられたウィンドウ画像から顔画像を判別する顔検出装置に適用した場合について説明するが、顔以外の所望の検出対象を検出する装置に適用することができることはいうまでもない。
(2)判別器
本実施の形態における顔検出装置10に使用される判別器14は、複数の弱仮説の出力結果を重み付き多数決して検出対象であるか否か、すなわち顔画像であるか否かを判別するものであり、この弱仮説及び弱仮説に対する重みをブースティングなどの集団学習によって予め学習しておく。
本実施の形態における顔検出装置10に使用される判別器14は、複数の弱仮説の出力結果を重み付き多数決して検出対象であるか否か、すなわち顔画像であるか否かを判別するものであり、この弱仮説及び弱仮説に対する重みをブースティングなどの集団学習によって予め学習しておく。
集団学習によって得られる学習機械としての判別器14は、図2に示すように、入力部14aから与えられた入力画像の特徴量を抽出し、この特徴量に基づき検出対象であるか否かの推定値を出力する多数の弱仮説(弱仮説器)14bと、これら弱仮説14bの出力である推定値を結合する結合機(combiner)14cとを有する。判別器14は、結合機14cの出力結果に基づき出力部14dが入力画像が検出対象であるか否かの判別をする。ここで、上述したように、ブースティングは、入力によらず固定した重みで弱仮説の出力を統合する結合機14cを有する。ブースティングは、前に生成した弱仮説の学習結果を使用して間違いを苦手とする学習サンプル(例題)の重みを増すように、学習サンプルが従う分布を加工し、この分布に基づき新たな弱仮説の学習を行う。これにより不正解が多く検出対象として判別が難しい学習サンプルの重みが相対的に上昇し、結果的に重みが大きい、すなわち判別が難しい学習サンプルを正解させるような弱仮説が逐次選択される。すなわち、学習における弱仮説の生成は逐次的に行われるものであり、後から生成された弱仮説はその前に生成された弱仮説に依存することになる。
検出の際には、上述のようにして逐次生成された多数の弱仮説の検出結果と弱仮説の判別能力を示す信頼度(重み)とを乗算し、足し合わせた結果を判別結果として使用する。例えばアダブーストの場合は、この学習により生成された弱仮説(弱仮説)から出力される確定的な値、すなわち検出対象であれば1、非検出対象であれば−1の値全てが結合機14cに供給される。結合機14cは、全判別結果に対して、対応する弱仮説毎に学習時に算出された信頼度を重み付き加算し、出力部14dにて、その加算値に基づき重み付き多数決の結果が出力される。この出力が正であるか負かで、検出対象であるか否かを判別することができる。ここで、アダブーストのように、弱仮説の出力は検出対象であるか否かを確定的に出力してもよいが、後述するジェントルアダブースト、リアルアダブーストなどのアルゴリズムを使用し、検出対象である確からしさを確率密度などで確率的に出力するような弱仮説を使用すると、更に判別性能を向上させることができる。
(3)顔検出装置の学習方法
次に、適切な弱仮説を学習アルゴリズムに従って多数組み合わせた最終仮説としての判別器14を得るための学習機15の学習方法について説明する。顔検出するための判別器14の学習においては、検出対象を示す顔画像であるか非検出対象である例えば風景画などの非顔画像かの正解付けがされた複数の学習サンプルからなる学習用データセットを使用し、与えられたデータが顔画像であるか否かを示す推定値を出力する弱仮説を生成する。各学習サンプルにはデータ重みが設定されており、弱仮説が生成されると、生成された弱仮説の上記データセットの推定値の誤り率がデータ重みに基づき算出され、この誤り率に基づき当該弱仮説の信頼度が算出される。そして、生成された弱仮説が推定を誤った学習サンプルのデータ重みが、正しく推定された学習サンプルのデータ重みより相対的に増すよう更新される。こうしてデータ重みを更新すると再び弱仮説を生成する処理を繰り返す。
次に、適切な弱仮説を学習アルゴリズムに従って多数組み合わせた最終仮説としての判別器14を得るための学習機15の学習方法について説明する。顔検出するための判別器14の学習においては、検出対象を示す顔画像であるか非検出対象である例えば風景画などの非顔画像かの正解付けがされた複数の学習サンプルからなる学習用データセットを使用し、与えられたデータが顔画像であるか否かを示す推定値を出力する弱仮説を生成する。各学習サンプルにはデータ重みが設定されており、弱仮説が生成されると、生成された弱仮説の上記データセットの推定値の誤り率がデータ重みに基づき算出され、この誤り率に基づき当該弱仮説の信頼度が算出される。そして、生成された弱仮説が推定を誤った学習サンプルのデータ重みが、正しく推定された学習サンプルのデータ重みより相対的に増すよう更新される。こうしてデータ重みを更新すると再び弱仮説を生成する処理を繰り返す。
(3-1)弱仮説
上述したように、集団学習においては、多数のフィルタの集合からなる学習モデルから一のフィルタを選択することで弱仮説を生成する。ここでは、先ず、顔検出に使用する弱仮説として使用するフィルタについて説明する。本実施の形態においては、学習モデル(弱仮説の集合)として、2以上の矩形領域からなる矩形領域群における、一又は複数の矩形領域の各輝度値の総和と、その他の矩形領域群における各輝度値の総和との差を出力するフィルタ(以下、矩形特徴ともいう。)を使用する。なお、本実施の形態においては、このフィルタの出力に応じて与えられる画像が検出対象であるか否かを出力する弱仮説を構成するものとして説明するが、フィルタとしては、このような矩形特徴に限らず、例えば2つの画素の輝度値の差を出力するようなフィルタとするなど、データセットを入力した際に、顔画像であるか非顔画像であるかをある程度の確率で判別することができる弱仮説を構成できるものであれば、どのようなフィルタを使用して弱仮説を構成しても構わない。
上述したように、集団学習においては、多数のフィルタの集合からなる学習モデルから一のフィルタを選択することで弱仮説を生成する。ここでは、先ず、顔検出に使用する弱仮説として使用するフィルタについて説明する。本実施の形態においては、学習モデル(弱仮説の集合)として、2以上の矩形領域からなる矩形領域群における、一又は複数の矩形領域の各輝度値の総和と、その他の矩形領域群における各輝度値の総和との差を出力するフィルタ(以下、矩形特徴ともいう。)を使用する。なお、本実施の形態においては、このフィルタの出力に応じて与えられる画像が検出対象であるか否かを出力する弱仮説を構成するものとして説明するが、フィルタとしては、このような矩形特徴に限らず、例えば2つの画素の輝度値の差を出力するようなフィルタとするなど、データセットを入力した際に、顔画像であるか非顔画像であるかをある程度の確率で判別することができる弱仮説を構成できるものであれば、どのようなフィルタを使用して弱仮説を構成しても構わない。
図3は、顔検出のための弱仮説として使用するフィルタ(矩形特徴)を示す模式図である。顔の検出のための特徴量として、ハール(Haar)基底のようなフィルタを用いる。すなわち、図3に示すように、入力画像10A〜10Dにおいて、同一サイズの2以上の矩形領域群において、一又は複数の矩形領域の輝度値の総和と、その他の矩形領域の輝度値の総和との差を出力するようなフィルタを複数用意する。例えば、入力画像10Aにおいては、1つの矩形領域が左右2つに分割された矩形領域(rectangular box)11A−1、11A−2において、一方の矩形領域11A−1の輝度値の総和から、影を付けて示す他方の矩形領域11A−2の輝度値の総和を減算するフィルタ11Aを示す。また、入力画像10Bにおいて、1つの矩形領域が上下2つに分割された矩形領域11B−1、11B−2において、一方の矩形領域11B−1の輝度値の総和から、影を付けて示す他方の矩形領域11B−2の輝度値の総和を減算するフィルタ11Bを示す。このような2つの矩形領域からなるフィルタを2矩形特徴(2 rectangle feature)という。また、入力画像10Cにおいては、1つの矩形領域が3分割された3つの矩形領域11C−1〜11C−3において、矩形領域11C−1、11C−3の輝度値の総和から影を付けて示す中央の矩形領域11C−2の輝度値の総和を減算するフィルタ10Cを示す。このような3つの矩形領域からなるフィルタを3矩形特徴(3 rectangle feature)という。更に、入力画像10Dにおいては、1つの矩形領域が上下左右に分割された4つの矩形領域11D−1〜11D−4において、隣接しない2つの矩形領域11D−1、11D−3の輝度値の総和から影を付けて示す矩形領域11D−2、11D−4の輝度値の総和を減算するフィルタ11Dを示す。このような4つの矩形領域からなるフィルタを4矩形特徴(4 rectangle feature)という。
例えば、図4に示す顔画像30を、上述したような矩形特徴を使用して顔であることを判定する場合について説明する。2矩形特徴31Aは、1つの矩形領域が上下(垂直方向)に2分割された2つの矩形領域31A−1、31A−2のうち、下側の矩形領域31A−2の輝度値の総和から影を付けて示す上側の矩形領域31A−1の輝度値の総和を減算するフィルタを示す。人間の顔画像(検出対象)30は、頬の領域より眼の領域の方の輝度値が低いことを利用し、矩形特徴31Aが目から鼻にかけて位置するよう配置すれば、矩形特徴31Aの出力値から入力画像が顔であるか否か(正解または不正解)をある程度の確率で推定することができる。
また、3矩形特徴31Bは、中央の矩形領域31B−2の輝度値の総和から左右の矩形領域31B−1、31B−3の輝度値の総和を減算するフィルタであるが、上述と同様、人間の顔画像30は、両目の領域より鼻の領域の方が輝度値が高いことを利用し、矩形特徴31Bを目の位置に配置するようにすることで、矩形特徴31Bの出力値から入力画像が顔であるか否かをある程度判定することができる。
このように、フィルタは2つの矩形領域の差を取るものから、例えば矩形特徴31Cなどの4つの矩形領域の差を取るものまであり、また任意の位置の任意の大きさ(1画素以上)の矩形領域からなるフィルタを選択することができる。フィルタの選択の組み合わせは対象とする領域を24×24画素の範囲に限定したとしても160000通り以上存在する。
まず、このようなフィルタの出力を高速に演算するために、積分画像とよばれる画像を使用する。積分画像とは、図5(a)に示すように、画像40において、(x、y)番目の画素Pが、下記式(1)に示すように、その画素Pより左上の画素の輝度値の総和になっている画像である。すなわち、画素Pの値は、画素Pの左上の矩形領域41に含まれる画素の輝度値の総和となっている。以下、各画素値が下記式(1)に示す値の画像を積分画像という。
この積分画像40を使用すると、任意の大きさの矩形領域の演算を高速に行うことができる。すなわち、図5(b)に示すように、左上の矩形領域41A、矩形領域41Aの右横、下、右下のそれぞれ矩形領域41C、41D、41Dとし、矩形領域41Dの4頂点を左上から時計周りにP1、P2、P3、P4とする。ここで、P1は矩形領域41Aの輝度値の総和A(P1=A)、P2はA+矩形領域41Bの輝度値の総和B(P2=A+B)、P3はA+矩形領41Cの輝度値の総和C(P3=A+C)、P4はA+B+C+矩形領41Dの輝度値の総和D(P4=A+B+C+D)となっている。ここで、矩形領域Dの輝度値の総和Dは、P4−(P2+P3)−P1として算出することができ、矩形領域の四隅の画素値を加減算することで矩形領域の輝度値の総和を高速に算出することができる。
このようなフィルタのうち、1つのフィルタを選択し、学習用データセットをフィルタリングした出力値から、与えられる画像が顔画像である場合の値を特徴量として学習しておくことで、弱仮説を生成することができる。アダブーストにおける弱仮説は、判別の際には、学習した特徴量と、与えられる入力画像をフィルタリングした値とを比較し、与えられた入力画像が顔である(=1)か非顔である(=−1)の2値を出力する。
また、弱仮説の出力として、アダブーストのように顔であるか否かを示す2つの値を確定的に出力する弱仮説ではなく、フィルタの出力値(実数値)とサンプルのラベル値(1,−1)の重み付き2乗誤差が最小となるようなフィルタとその特徴量の選択を行いその実数値を足し合わせていくブースティングアルゴリズムを採用することで、更に効率が良い学習を行うことができる。このようなブースティングアルゴリズムはジェントルアダブースト(Gental AdaBoost)といわれ、例えばJ.Freidman,T Hastie,and R Tibshirani等の「Additive logistic Regression : A statistical view of boosting”」, ANNALS OF STATISTICS, 28(2); 337-374, 2000に記載されている。また、このジェントルアダブーストのように、弱仮説の出力として確率的な出力をするブースティングアルゴリズムとしてリアルアダブースト(Real AdaBoost)などがある。
次に、顔検出装置の学習方法について、アダブースト、リアルアダブースト、ジェントルアダブーストの各アルゴリズムについて説明するが、これらの学習方法の説明に先立ち、本実施の形態における学習機15にて学習するデータのうち特徴となるデータである打ち切り閾値について説明しておく。打ち切り閾値とは、判別工程(検出工程)において検出を途中で打ち切るための閾値であり、通常のブースティング学習では学習されない学習データである。
(3-2)打ち切り閾値
ブースティングを用いた集団学習では、通常は、上述したように判別器14を構成する全弱仮説の出力の重み付き多数決により与えられたデータが検出対象であるか否かを判別する判別器を学習する。重み付き多数決は、弱仮説の判別結果(推定値)と信頼度との積を足し合わせた値(以下、加算値という。)と判別境界値との比較結果として出力される。例えば、弱仮説の個数をt(=1,・・・,K)、各弱仮説に対応する多数決の重み(信頼度)をαt、各弱仮説の出力をhtとしたとき、アダブーストにおける重み付き多数決をとるための値(加算値)は、下記式(2)により求めることができる。xは学習サンプルであり、ここでは、各画素値のベクトルからなる場合を示す。
ブースティングを用いた集団学習では、通常は、上述したように判別器14を構成する全弱仮説の出力の重み付き多数決により与えられたデータが検出対象であるか否かを判別する判別器を学習する。重み付き多数決は、弱仮説の判別結果(推定値)と信頼度との積を足し合わせた値(以下、加算値という。)と判別境界値との比較結果として出力される。例えば、弱仮説の個数をt(=1,・・・,K)、各弱仮説に対応する多数決の重み(信頼度)をαt、各弱仮説の出力をhtとしたとき、アダブーストにおける重み付き多数決をとるための値(加算値)は、下記式(2)により求めることができる。xは学習サンプルであり、ここでは、各画素値のベクトルからなる場合を示す。
図6は、横軸に弱仮説の数をとり、縦軸に上記式(2)に示す重み付き多数決を取るための値(加算値)をとって、入力される画像が検出対象であるか否かに応じた変化を示すグラフ図である。図6において、実線で示すデータD1〜D4は、顔としてラベリングされている画像(学習サンプル)を入力として弱仮説により算出した推定値ht(x)を逐次算出し、その加算値を逐次求めたものである。このデータD1〜D4に示すように、顔画像を入力画像とするとある程度の個数の弱仮説により算出された推定値ht(x)が信頼度と乗算されて加算された値はプラスになる。アダブーストにおいては、判別境界値0により、この加算値が判定され、正であれば検出対象であるとして結果が出力される。
ここで、本実施の形態においては、通常のブースティングアルゴリズムとは異なる手法を導入する。すなわち、弱仮説の判別結果を逐次足し合わせていく過程において、全ての弱仮説の出力結果を得る前であっても、明らかに検出対象ではない、すなわち顔ではないと判別できる場合などには、そのウィンドウ画像についての判別を中止するものである。この際、判別を中止するか否かを決定するための値を学習工程にて学習しておく。以下、判別を中止するか否かの判定に用いる値を打ち切り閾値という。
この打ち切り閾値により、全てのウィンドウ画像について、全弱仮説の出力結果を用いなくとも、非顔であることが確実に推定できる場合、弱仮説の推定値ht(x)の演算を途中で中止することができ、これにより、全ての弱仮説を使用した重み付き多数決を行うのに比して格段に演算量を低減することができる。
この打ち切り閾値としては、学習サンプルのうち、顔としてラベリングされている学習サンプル(ポジティブデータ)の判別結果の重み付き多数決の値が取りえる最小値又は判別境界値のうちの小さい値とすることができる。判別工程において、ウィンドウ画像の弱仮説からの出力(推定値ht(x))が逐次重み付けされ加算されて出力される。すなわち、この加算値が逐次更新されていくが、この更新されていく値と、上記打ち切り閾値とを更新の度、すなわち1つの弱仮説が推定値を出力する毎に比較し、更新された加算値が打ち切り閾値を下回る場合には当該ウィンドウ画像は顔ではないとし、弱仮説の計算を打ち切ることができ、これにより無駄な演算を省いて更に判別処理を高速化することができる。
すなわち、K番目の弱仮説の出力hK(xi)の打ち切り閾値RKは、学習サンプルxi(=x1〜xN)のうち、顔画像である学習サンプル(ポジティブサンプル又はポジティブデータともいう。)xj(=x1〜xJ)を使用したときの重み付き多数決の値の最小値又は判別境界値のうちの小さい値とされ、下記式(3)のように示すことができる。
この式(3)に示すように、検出対象である学習サンプルx1〜xJの重み付き多数決を得るための値の最小値が0を上回る場合には打ち切り閾値RKには0が設定される。なお、0を上回らないようにするのは、0を判別境界値にして判別を行うアダブーストの場合であり、ここは集団学習の手法により異なる場合がありうる。アダブーストの場合においては、打ち切り閾値は図6の太線で示すように、入力画像として検出対象である顔画像を入力した場合の全データD1〜D4のうち取りうる最小値に設定され、全てのデータD1〜D4の最小値が0を超えた場合は、打ち切り閾値が0に設定される。
本実施の形態においては、弱仮説が生成される毎に、打ち切り閾値Rt(生成される弱仮説の数をT個としたとき、R1〜RT)を学習しておくことで、後述する判別工程において、複数の弱仮説により推定値が逐次出力されその加算値が逐次更新されていくが、例えばデータD5のように、逐次加算された値が上記打ち切り閾値を下回った時点で、後段の弱仮説による判別を行う処理を終了することができる。すなわち、この打ち切り閾値Rtを学習しておくことにより、弱仮説の推定値を計算する毎に次の弱仮説の計算を行うか否かを決定でき、明らかに検出対象ではないとされる場合には全ての弱仮説の判別結果を待たずに非検出対象であることが判定でき、演算を途中で打ち切りことにより検出処理を高速化することができる。
また、以下の説明においては、検出時において、与えられた画像が明らかに検出対象ではないとして処理を途中で打ち切るための打ち切り閾値について説明するが、同様に、与えられた画像が明らかに検出対象であるとして処理を途中で打ち切るための打ち切り閾値を学習しておいてもよい。この場合、学習サンプルのうち、例えば、非顔画像としてラベリングされている学習サンプル(ネガティブデータ又はネガティブデータという。)の判別結果の重み付き多数決の値が取り得る最大値又は判別境界値のうちの大きい値を打ち切り閾値とすることができ、検出工程にて、弱仮説の出力とその信頼度との積を逐次加算した加算値と当該打ち切り閾値とを比較し、加算値が打ち切り閾値より大きい場合には、判別中の画像は明らかに顔画像であると判断して判別処理を途中で終了することも可能である。
(3−3)学習機の構成
先ず、学習機15の構成について説明する。図7は、学習機15を示す機能ブロック図である。図7に示すように、学習機15は、学習用データセットが格納されたデータベース31と、多数のフィルタの集合からなる学習モデル32から所望の数の弱仮説を選択する選択部33と、選択部33から出力される弱仮説を使用して新弱仮説を生成する新弱仮説生成部34と、選択部33にて選択された弱仮説及び新弱仮説生成部34にて生成された新弱仮説の中から最も判別性能が高い1つの弱仮説を選択する弱仮説選択部35を有する。これらにより、弱仮説生成装置が構成される。また、弱仮説選択部35にて選択されることで生成された弱仮説の判別性能を示す信頼度を算出する信頼度算出部36と、判別器14が判別の際に推定値の算出処理を打ち切るか否かを決定するための打ち切り閾値を算出する、打ち切り閾値学習手段としての打ち切り閾値算出部37と、信頼度算出結果に基づき学習用データのデータセットにおける各学習サンプルのデータ重みを更新するデータ重み更新部38とを有し、データ重み更新部38により学習用データセット31に含まれる各学習サンプルのデータ重みが更新されると、弱仮説生成装置が再び次の弱仮説を生成する処理を実行する。このように、学習用データセットのデータ重みを更新して弱仮説生成装置において弱仮説を生成する繰り返し処理は、システムが必要とする判別能力の最終仮説が得られるまで繰り返される。
先ず、学習機15の構成について説明する。図7は、学習機15を示す機能ブロック図である。図7に示すように、学習機15は、学習用データセットが格納されたデータベース31と、多数のフィルタの集合からなる学習モデル32から所望の数の弱仮説を選択する選択部33と、選択部33から出力される弱仮説を使用して新弱仮説を生成する新弱仮説生成部34と、選択部33にて選択された弱仮説及び新弱仮説生成部34にて生成された新弱仮説の中から最も判別性能が高い1つの弱仮説を選択する弱仮説選択部35を有する。これらにより、弱仮説生成装置が構成される。また、弱仮説選択部35にて選択されることで生成された弱仮説の判別性能を示す信頼度を算出する信頼度算出部36と、判別器14が判別の際に推定値の算出処理を打ち切るか否かを決定するための打ち切り閾値を算出する、打ち切り閾値学習手段としての打ち切り閾値算出部37と、信頼度算出結果に基づき学習用データのデータセットにおける各学習サンプルのデータ重みを更新するデータ重み更新部38とを有し、データ重み更新部38により学習用データセット31に含まれる各学習サンプルのデータ重みが更新されると、弱仮説生成装置が再び次の弱仮説を生成する処理を実行する。このように、学習用データセットのデータ重みを更新して弱仮説生成装置において弱仮説を生成する繰り返し処理は、システムが必要とする判別能力の最終仮説が得られるまで繰り返される。
データベース31に格納される学習用データセットは、検出対象を示す領域を切り出した画像群(本実施の形態においては顔画像群)と、全く関係のない例えば風景画などを切り出したランダムな画像群とからなる。
選択部33は、学習モデルから例えば5%程度など、所定の割合で弱仮説を選択し、これを新弱仮説生成部34及び弱仮説選択部35に出力することも可能であるが、これらの中から判別性能が高い1又は複数の弱仮説を高性能弱仮説として新弱仮説生成部34及び弱仮説選択部35に出力することで、更に判別性能が高い弱仮説を生成することが可能となる。ここで、弱仮説選択部35は、学習モデルから先ず1つのフィルタを選択し、学習用データセットを使用して、フィルタの特徴量を学習する。すなわち、学習用データセットを判別した際にもっとも判別誤差が小さくなるような特徴量を学習することで、弱仮説を生成する。弱仮説が推定結果として2値を出力するような場合は、学習する特徴量とは判別閾値となる。これを選択したフィルタの数だけ繰り返して弱仮説を生成し、生成した中から誤差率が他より小さい1以上を選択し、高性能弱仮説とするものである。
新弱仮説生成部34は、選択部33から出力される弱仮説の例えば高性能弱仮説に採用されたフィルタ(高性能フィルタ)に対し、所定の変形を加えることで高性能フィルタの亜種を1以上生成し、これらの特徴量を、学習用データセットを使用して学習することで、新弱仮説を生成し、これを弱仮説選択部35に出力する。
打ち切り閾値算出部37は、繰り返し回数t回目とすると、信頼度算出部36にて算出された信頼度と弱仮説選択部35にて選択された弱仮説の学習用データセットに含まれるポジティブデータを推定した結果とを乗算し、前回(繰り返し回数(t−1)回目)の繰り返し処理において学習した打ち切り閾値に加算した値を繰り返し回数t回目における打ち切り閾値として算出する。
データ重み更新部38は、上述したように、前に生成した弱仮説の学習結果を使用して間違いを苦手とする学習サンプル(例題)の重みを増すように、学習サンプルが従う分布を加工する。これにより、不正解が多く検出対象として判別が難しい学習サンプルの重みが相対的に上昇していく。
このように、ブースティングにより最終仮説を得るまで、更新されるデータ重みの分布に基づき新たな弱仮説の学習を行っていくことで、結果的に重みが大きい、すなわち判別が難しい学習サンプルを正解させるような弱仮説が逐次選択されることで生成(学習)されていく。
この学習機15により、繰り返し回数t回目の学習結果として、弱仮説選択部35から生成した弱仮説が出力され、信頼度算出部36からその信頼度が算出され、打ち切り閾値算出部37から打ち切り閾値が出力され、これらの各データが保存されて判別器14が判別の際に使用する。弱仮説選択部35から出力されるデータは、具体的には上述の矩形特徴をフィルタに使用する場合は、矩形特徴を構成する矩形領域群の位置及び大きさと、1又は複数の矩形領域の各輝度値の総和から残りの矩形領域の各輝度値の総和を減算したときの特徴量である。
(3−4)AdaBoostのアルゴリズム
次に、上述の学習機15による判別器14の学習方法について説明する。まず、アダブーストのアルゴリズムに従った学習方法について説明する。与えられたデータが、例えば顔であるか否かを判別する問題など、一般的な2クラス判別のパターン認識問題の前提として、予め人手によりラベリング(正解付け)された複数の訓練データからなる上述の学習用データセットを用意する。
次に、上述の学習機15による判別器14の学習方法について説明する。まず、アダブーストのアルゴリズムに従った学習方法について説明する。与えられたデータが、例えば顔であるか否かを判別する問題など、一般的な2クラス判別のパターン認識問題の前提として、予め人手によりラベリング(正解付け)された複数の訓練データからなる上述の学習用データセットを用意する。
これらの学習用データセットを基に学習アルゴリズムを適用し、判別時に用いる学習データを生成する。判別時に用いる学習データとは、本実施の形態においては、上述した打ち切り閾値を含む以下の4つの学習データである。
(A)弱仮説(T個)
(B)弱仮説の閾値(T個)
(C)重み付き多数決の重み(弱仮説の信頼度)(T個)
(D)打ち切り閾値(T個)
(B)弱仮説の閾値(T個)
(C)重み付き多数決の重み(弱仮説の信頼度)(T個)
(D)打ち切り閾値(T個)
(3−4−1)判別器14の学習
以下に、上述したような多数の学習サンプルから、上記(A)乃至(D)に示す4種類の学習データを学習するアルゴリズムについて説明する。図8は、判別器を学習する方法を示すフローチャートである。
以下に、上述したような多数の学習サンプルから、上記(A)乃至(D)に示す4種類の学習データを学習するアルゴリズムについて説明する。図8は、判別器を学習する方法を示すフローチャートである。
手順0) 学習サンプルのラベリング
上述のように、予め検出対象又は非検出対象であることがラベリングされた学習サンプル(xi,yi)をi=N個用意する。
ここで、
学習サンプル(xi,yi):(x1,y1),・・・,(xN,yN)
xi∈X,yi∈{−1,1}
X:学習サンプルのデータ
Y:学習サンプルのラベル(正解)
N:学習サンプル数
を示す。すなわち、xiは、学習サンプル画像の全輝度値からなる特徴ベクトルを示す。また、yi=−1は、学習サンプルが非検出対象としてラベリングされている場合を示し、yi=1は、学習サンプルが検出対象としてラベリングされていることを示す。
上述のように、予め検出対象又は非検出対象であることがラベリングされた学習サンプル(xi,yi)をi=N個用意する。
ここで、
学習サンプル(xi,yi):(x1,y1),・・・,(xN,yN)
xi∈X,yi∈{−1,1}
X:学習サンプルのデータ
Y:学習サンプルのラベル(正解)
N:学習サンプル数
を示す。すなわち、xiは、学習サンプル画像の全輝度値からなる特徴ベクトルを示す。また、yi=−1は、学習サンプルが非検出対象としてラベリングされている場合を示し、yi=1は、学習サンプルが検出対象としてラベリングされていることを示す。
手順1) データ重みの初期化
ブースティングにおいては、各学習サンプルの重み(データ重み)を異ならせ、判別が難しい学習サンプルに対するデータ重みを相対的に大きくしていく。判別結果は、弱仮説を評価する誤り率(エラー)の算出に使用されるが、判別結果にデータ重みを乗算することで、より難しい学習サンプルの判別を誤った弱仮説の評価が実際の判別率より下まわることになる。こうしてデータ重みは逐次更新されるが、先ず最初にこの学習サンプルのデータ重みの初期化を行う。学習サンプルのデータ重みの初期化は、データ重み更新部38において、全学習サンプルの重みを一定(一様分布)にすることにより行われ、下記式(4)のように定義される(ステップS1)。
ブースティングにおいては、各学習サンプルの重み(データ重み)を異ならせ、判別が難しい学習サンプルに対するデータ重みを相対的に大きくしていく。判別結果は、弱仮説を評価する誤り率(エラー)の算出に使用されるが、判別結果にデータ重みを乗算することで、より難しい学習サンプルの判別を誤った弱仮説の評価が実際の判別率より下まわることになる。こうしてデータ重みは逐次更新されるが、先ず最初にこの学習サンプルのデータ重みの初期化を行う。学習サンプルのデータ重みの初期化は、データ重み更新部38において、全学習サンプルの重みを一定(一様分布)にすることにより行われ、下記式(4)のように定義される(ステップS1)。
ここで、学習サンプルのデータ重みD1(i)は、繰り返し回数t=1回目の学習サンプルxi(=x1〜xN)のデータ重みを示す。Nは学習サンプル数である。
手順2) 繰り返し処理
次に、以下に示すステップS2〜ステップS6の処理を繰り返すことで弱仮説を逐次生成し判別器の学習を行う。ここで、繰り返し処理回数をt=1,2,・・・,Tとする。1回の繰り返し処理を行う毎に1つの弱仮説、すなわち、1つのフィルタとそのフィルタ出力により、入力として与えられるデータを判別するための特徴量とが学習され、従って繰り返し処理回数(T回)分、弱仮説が生成されて、T個の弱仮説からなる判別器が生成されることになる。なお、通常、数百〜数千個の繰り返し処理により、数百〜数千個の弱仮説が生成されるが、繰り返し処理回数(弱仮説の個数)tは、要求される判別性能、判別する問題(検出対象)に応じて適宜設定すればよい。
次に、以下に示すステップS2〜ステップS6の処理を繰り返すことで弱仮説を逐次生成し判別器の学習を行う。ここで、繰り返し処理回数をt=1,2,・・・,Tとする。1回の繰り返し処理を行う毎に1つの弱仮説、すなわち、1つのフィルタとそのフィルタ出力により、入力として与えられるデータを判別するための特徴量とが学習され、従って繰り返し処理回数(T回)分、弱仮説が生成されて、T個の弱仮説からなる判別器が生成されることになる。なお、通常、数百〜数千個の繰り返し処理により、数百〜数千個の弱仮説が生成されるが、繰り返し処理回数(弱仮説の個数)tは、要求される判別性能、判別する問題(検出対象)に応じて適宜設定すればよい。
先ず、弱仮説生成装置により弱仮説を生成する(ステップS2)。ここでは、後述する方法にて選別及び生成されたフィルタから下記(5)に示す重みつき誤り率εtを最小にするものが学習される。
上記式(5)に示すように、重み付き誤り率εtは、学習サンプルのうち、弱仮説の判別結果が誤っているもの(ht(xi)≠yi)の学習サンプルのデータ重みDtのみを加算したものとなり、これによりデータ重みが大きい(判別が難しい)学習サンプルの判別を間違えると重み付き誤り率εtが大きくなるよう算出される。
そして、信頼度算出部36にて、学習により生成された弱仮説の上述の式(5)に示す重み付き誤り率εtに基づき、重み付き多数決を得る際の重みαtを下記式(6)により算出する(ステップS3)。重み付き多数決の重みαtは、繰り返し回数t回目に学習された弱仮説に対する判別性能を示す。以下、重み付き多数決を算出するために各弱仮説に設定される重みを信頼度という。
上記式(6)に示すように、重み付き誤り率εtが小さいものほどその弱仮説の信頼度αtが大きくなる。
次に、通常のアダブーストによる学習とは異なり、打ち切り閾値算出部37が、判別工程にて判別を打ち切るための打ち切り閾値Rtを算出する(ステップS4)。打ち切り閾値Rtは、上述の式(3)に従って、検出対象である学習サンプル(ポジディブな学習サンプル)x1〜xJの加算値又は判別境界値である0のうち最も小さい値が選択される。なお、上述したように、最小値又は0を打ち切り閾値に設定するのは、0を判別境界値にして判別を行うアダブーストの場合であり、打ち切り閾値Rtは、少なくとも全てのポジティブな学習サンプルが通過できる最大の値となるよう設定する。
そして、上記式(6)にて得られた信頼度αtを使用して、データ重み更新部38が下記式(7)により学習サンプルのデータ重みDt(i)を更新する。Ztはデータ重みを正規化するためのものである。
そして、ステップS7において、所定回数(=T回)のブースティングが行われたか否かを判定し、行われていない場合は、ステップS2〜ステップS7の処理を繰り返す。所定回数の学習が終了した場合は学習処理を終了する。例えば、生成された弱仮説全てからなるその時点での最終仮説により、学習データセットを所望の性能で判別できるまで処理を繰り返せばよい。なお、弱仮説の生成時に使用した学習データセットとは別の評価用データセットを用意し、評価用データセットを使用して、最終仮説の判別能力の評価を行ってもよい。また、学習データセットから1サンプルを除外して他のサンプルで学習を行い、除いた1サンプルで評価を行う処理をサンプル数繰り返したり、学習データセットを所定数のグループに分割し、1グループを除いた学習サンプルで学習を行い、除いた1グループで評価を行う処理をグループ数回繰り返したりする交差検定(cross Validation)などにより最終仮説の評価を行ってもよい。
手順3) 最終仮説(判別器)の生成
判別器14となる最終仮説は、全ての仮説を信頼度で重み付き多数決を行ったものとする。すなわち、ステップS2にて生成した弱仮説の出力に、ステップS4にて求めた信頼度を乗算し、上記式(2)に示す重み付き多数決を取るための値(加算値)の符号を下記式(8)により判定する判別器14を生成する。得られた判別器14は、下記式(8)に示す判別関数Hにより顔か非顔かを出力するものとなる。判別関数Hが正であれば顔、負であれば非顔であることを示す。
判別器14となる最終仮説は、全ての仮説を信頼度で重み付き多数決を行ったものとする。すなわち、ステップS2にて生成した弱仮説の出力に、ステップS4にて求めた信頼度を乗算し、上記式(2)に示す重み付き多数決を取るための値(加算値)の符号を下記式(8)により判定する判別器14を生成する。得られた判別器14は、下記式(8)に示す判別関数Hにより顔か非顔かを出力するものとなる。判別関数Hが正であれば顔、負であれば非顔であることを示す。
(3−4−2)弱仮説の生成
次に、上述したステップS2における弱仮説の生成方法(学習方法)について説明する。図9は、弱仮説の生成方法を示すフローチャートである。本実施の形態における弱仮説の生成においては、複数の弱仮説から、先ず、一部の弱仮説を選択し、その中で上記データセットを推定(判別)した際の誤り率が最も低いもの、又は誤り率がより低い複数個(以下、高性能弱仮説という。)を選択し、これに所定の変形を加えた1以上の新たな弱仮説を生成する。そして、高性能弱仮説及び新弱仮説とされた弱仮説の中から、上記データセットの推定値の誤り率が最小のものを弱仮説として生成する。これにより、弱仮説の生成の高速化を図るものである。以下、この弱仮説の生成方法について詳細に説明する。
次に、上述したステップS2における弱仮説の生成方法(学習方法)について説明する。図9は、弱仮説の生成方法を示すフローチャートである。本実施の形態における弱仮説の生成においては、複数の弱仮説から、先ず、一部の弱仮説を選択し、その中で上記データセットを推定(判別)した際の誤り率が最も低いもの、又は誤り率がより低い複数個(以下、高性能弱仮説という。)を選択し、これに所定の変形を加えた1以上の新たな弱仮説を生成する。そして、高性能弱仮説及び新弱仮説とされた弱仮説の中から、上記データセットの推定値の誤り率が最小のものを弱仮説として生成する。これにより、弱仮説の生成の高速化を図るものである。以下、この弱仮説の生成方法について詳細に説明する。
上述したように、例えば対象とする領域(ウィンドウ画像)を24×24画素の範囲に限定したとしても、フィルタを構成する画素数(フィルタの大きさ)及び2、3、4矩形特徴のフィルタの種類の違いによって、フィルタの選択の組み合わせは160000通り以上存在する。この160000通りのフィルタから一のフィルタを選択する方法として、例えば全てのフィルタについての特徴量を学習し、最も判別能力が高いものを選択するという手法もありえるが、上述の積分画像を使用しても、その演算量は膨大な量となり極めて時間がかかる。そこで、本実施の形態においては、先ず、図7に示す選択部33により、すべての組み合わせのうち例えば5%程度など、計算可能な所定数のフィルタをランダムに選択し、生成可能な全弱仮説のうち5%程度の弱仮説を生成する。これには、以下のステップS11〜ステップS14の処理を所定回数(以下、M回とする。)繰り返し、上記所定数の弱仮説を生成する。
先ず、上述したような全種類のフィルタの組み合わせから、任意の1つのフィルタを選択する(ステップS11)。
次に、全ての学習サンプルに対して、ステップS11にて選択したフィルタの出力値を求め、そのヒストグラム(頻度分布)を求める(ステップS12)。
アダブーストによる弱仮説は、閾値により特徴量を2分して弱判別するものであるため、上記式(5)に示す重み付き誤り率εtを最小にする閾値を検索する。すなわち、ステップS12にて求めた頻度分布から、上記式(5)に示す重み付き誤り率εtを最小(εmin)にする閾値Thminを求める(ステップS13)。
閾値Thminは、横軸にフィルタ出力をとり、縦軸にその頻度をとったヒストグラムにおいて、検索値をフィルタ出力を示す横軸方向にシフトさせて上記式(5)に示す重み付き誤り率εtがもっとも小さいものを検索すればよい。なお、重み付き誤り率εtは、全解答における正解率又は不正解率のうち小さい方とするが、検索値を変化させていった際には、正解したポジティブサンプルの重み付きカウント値の合計と正解したネガティブサンプルの重みつきカウント値の合計とは移動した検索値を跨いだ分だけ増減するので、各検索値についてすべてのポジティブサンプルの重み付きカウント値の合計、及びネガティブサンプルの重み付きカウント値の合計を計算し直す必要はなく、高速化することができる。
そして、所定回数(=M回)繰り返したか否かを判定し(ステップS14)、所定回数繰り返すまでステップS11からの処理を繰り返す。
ここで、従来、例えば全てのフィルタの種類分このステップS11〜S14までの処理を繰り返すことで、そのときの学習サンプルのデータ重みDt(i)から得られる、最も重み付き誤り率εtが小さいフィルタを選択する必要があったが、本実施の形態においては、このステップS11〜S14の繰り返し処理は、上述したように、選択可能な全フィルタ数の例えば5%程度とする。このように全フィルタを試さなくても判別性能が高い弱仮説を生成するために、新弱仮説生成部34により、続くステップS15〜S17の処理を実行する。
先ず、ステップS15に進み、ステップS11〜ステップS14のM回の繰り返し処理により生成されたM個の弱仮説のうち、重み付き誤り率εtが他より小さいもの、すなわちデータセットに対する判別性能が高いものを1つ又は複数個選択する。以下、ここで選択された弱仮説を高性能弱仮説という。
次に、高性能弱仮説に使用されている誤り率が他より低いフィルタ(以下、高性能フィルタという。)に対して所定の変形を加えた新たなフィルタを生成する(ステップS16)。この新たなフィルタは、検出対象の統計的性質又は遺伝的アルゴリズムに従って生成することができる。具体的には、例えば、高性能フィルタの位置を縦方向、及び/又は横方向に例えば2画素程度ずらして生成したものを新たなフィルタとする。または、高性能フィルタのスケールを例えば縦方向、及び/又は横方向に2画素程度拡大若しくは縮小して生成したものを新たなフィルタとする。または、高性能フィルタを画像の水平方向における中心点を通る垂直方向の線分に対して反転して生成したり、高性能フィルタと反転したフィルタとからなる複合フィルタとして生成したものを新たなフィルタとする。これらの方法を適宜組み合わせて、高性能フィルタ毎に1以上の新たなフィルタを生成する。
図10は、新たなフィルタとして、対象性を利用して反転して生成した反転フィルタを示す模式図である。図10に示す矩形特徴21A〜21Dは、図3に示す矩形特徴11A〜11Dを画像の水平方向(x方向)の中心を通る垂直二等分線22に対して反転させたものである。すなわち、矩形特徴11A〜11Dと矩形特徴21A〜21Dとはそれぞれ垂直2等分線22に対して線対称となっている。これは、人間の顔がほぼ左右対称であり、顔の検出性能がよいとして選択されたフィルタを反転して生成した新たなフィルタも、同様に性能が高いフィルタであるという可能性が高いということを利用したものである。このように、全フィルタの一部の性能を試して性能が高いとして選別された高性能フィルタから検出対象である顔の統計的性質に基づいて、又は遺伝的アルゴリズムに従って新フィルタを生成することで、生成したフィルタは選別した高性能フィルタと同様に判別性能が高いと推定することができる。ここで、図10において、例えば高性能フィルタが矩形特徴11Aであって、反転したフィルタが矩形特徴21Aである場合、新フィルタとしては、反転した矩形特徴21Aと、矩形特徴11A及びこれを反転した矩形特徴21Aからなるフィルタの2種類を生成することができる。
そして、図7に示す弱仮説選択部35が、これら高性能フィルタ及び生成された新フィルタからなる混合フィルタの中で、重み付き誤り率εtを最小にするフィルタを1つ選択し、弱仮説に採用する(ステップS17)。このように新フィルタとオリジナルの上記高性能フィルタとを混合したものの中で最も判別性能が高いフィルタを選択して弱仮説に採用することで、全てのフィルタの組み合わせから最も判別性能が高いフィルタを探索しなくても、結果的に全フィルタから検索する場合と同様に判別性能が高いフィルタを選択することができ、フィルタ選択における処理速度を飛躍的に向上させることができる。
(3−5)Real AdaBoostのアルゴリズム
次に、リアルアダブーストのアルゴリズムについて説明する。リアルアダブーストにおいても、アダブーストの場合と手順0、1は同様であり、学習用データセットを用意し、先ず、各学習サンプルのデータ重みを上記式(4)にて初期化する(一様分布)。
次に、リアルアダブーストのアルゴリズムについて説明する。リアルアダブーストにおいても、アダブーストの場合と手順0、1は同様であり、学習用データセットを用意し、先ず、各学習サンプルのデータ重みを上記式(4)にて初期化する(一様分布)。
手順2) 繰り返し処理
次に、以下に示す処理を繰り返すことで弱仮説を逐次生成し判別器14の学習を行う。ここで、アダブーストと同様、繰り返し処理回数をt=1,2,・・・,Tとする。
次に、以下に示す処理を繰り返すことで弱仮説を逐次生成し判別器14の学習を行う。ここで、アダブーストと同様、繰り返し処理回数をt=1,2,・・・,Tとする。
先ず、弱仮説生成装置により弱仮説を生成する。この生成方法は、基本的に上述のアダブーストと同様である。ただし、弱仮説は、データ重みDt(データ重み分布)に基づいて確率密度を出力するものとして生成するため、下記式(9)に示す特徴量の確率密度Pm(x)を求める。確率密度Pm(x)は、データ重みDtにおいて、全学習サンプルにおいて、顔であるとラベリングされたサンプル(y=1)に対する正答率を示すものである。
そして、信頼度算出部36は、上述の信頼度αの変わりに下記式(10)に示す弱仮説の寄与量fmを算出する。
なお、Rは実数値の集合を示す。
ここで、弱仮説が2値の確定的な出力ではなく、確率密度を示す寄与量fを出力する点はアダブーストと異なるが、弱仮説の生成においては、データ分布Dtに基づいて一部のフィルタのみから、選択部33が上記式(10)に示す弱仮説の寄与量fmが高い1又はいくつかのフィルタを選別し、新弱仮説生成部34が検出対象(本実施の形態においては、人間の顔)の統計的性質に基づいて、又は遺伝的アルゴリズムに従って新たなフィルタを生成し、弱仮説選択部35がこれらの中から最も判別性能が高いフィルタを選択する手法は上述と同様であり、これにより、判別性能を低下することなく弱仮説の生成処理を高速化することができる。
次に、上述したように、打ち切り閾値算出部37により、判別工程にて判別を打ち切るための打ち切り閾値Rtを算出する。打ち切り閾値Rtは、例えば、アダブーストにおけるフィルタ出力hの代わりに寄与量fmを使用し、検出対象である学習サンプル(ポジディブな学習サンプル)x1〜xJの寄与量の総和fm又は判別境界値である0のうち最も小さい値を選択するなどすればよい。すなわち、打ち切り閾値Rtは、少なくとも全てのポジティブな学習サンプルが通過できる最大の値となるよう設定する。
次いで、データ重み更新部38が、この寄与量fmを使用して、繰り返し処理t回目の各学習サンプルiのデータ重みDt(i)を下記式(11)により更新する。
そして、所定回数(=T回)の処理を繰り返し、T個の弱仮説及びその寄与量fm、並びに打ち切り閾値を学習する。ここで、上述したように、生成された弱仮説全てを組み合わせた最終仮説が学習データセットを所望の性能で判別できるようになるまで、弱仮説の生成を繰り返せばよい。最終仮説となる判別器は、全ての仮説の寄与量fmの総和の符号、すなわち下記式(12)に示す判別関数Hが正か負かを判断することで、顔か非顔かを判別することができる。
(3−6)Gentle AdaBoostのアルゴリズム
次に、ジェントルアダブーストのアルゴリズムについて説明する。ジェントルアダブーストにおいても、アダブースト及びリアルアダブーストの場合と手順0、1は同様であり、ラベリングされた複数の学習サンプルからなるデータセットを用意し、各学習サンプルのデータ重みを上記式(4)にて初期化する(一様分布)。
次に、ジェントルアダブーストのアルゴリズムについて説明する。ジェントルアダブーストにおいても、アダブースト及びリアルアダブーストの場合と手順0、1は同様であり、ラベリングされた複数の学習サンプルからなるデータセットを用意し、各学習サンプルのデータ重みを上記式(4)にて初期化する(一様分布)。
次に、基本的にはリアルアダブースと同様の処理を繰り返すことで弱仮説を逐次生成し判別器の学習を行うが、弱仮説の出力がリアルアダブーストとは異なる。ここでは、アダブースト及びリアルアダブーストと同様、繰り返し処理回数をt=1,2,・・・,Tとした場合について説明する。
先ず、弱仮説生成装置により、弱仮説を生成する。弱仮説は、データ重みDt(データ重みの分布)に基づいて、フィルタを選択し、その特徴量を使用して、下記式(13)に示す重み付き二乗誤差etを最小にする実関数fmを求める。
ジェントルブーストにおいても、リアルアダブーストと同様、弱仮説の生成においては、データ分布Dtに基づいて一部のフィルタのみから、選択部33により、弱仮説の実関数fm(xi)の総和が高い1又はいくつかのフィルタを選別し、新弱仮説生成部34が人間の顔の統計的性質に基づいて、又は遺伝的アルゴリズムに従ってフィルタを生成し、弱仮説選択部35が、これらから最も実関数の総和が大きいフィルタを選択することにより、同様に処理を高速化することができる。
次に、上述したように、打ち切り閾値算出部37が判別工程にて判別を打ち切るための打ち切り閾値Rtを算出する。打ち切り閾値Rtは、例えば、アダブーストにおけるフィルタ出力f(x)の代わりに実関数fmを使用し、検出対象である学習サンプル(ポジディブな学習サンプル)x1〜xJの実関数の総和fm又は判別境界値である0のうち最も小さい値を選択するなどすればよい。すなわち、打ち切り閾値Rtは、少なくとも全てのポジティブな学習サンプルが通過できる最大の値となるよう設定する。
次いで、データ重み更新部38がこの実関数fmを使用して、繰り返し処理t回目の各学習サンプルiのデータ重みDt(i)を下記式(14)(リアルアダブーストと同じ)により更新する。
そして、所定回数(=T回)の処理を繰り返し、T個の弱仮説及びその実関数fm、並びに打ち切り閾値を学習する。最終仮説となる判別器は、全ての仮説の実関数fmの総和の符号、すなわち下記式(15)に示す判別関数Hが正か負かを判断することで、顔か非顔かを判別することができる。
(4)顔検出方法
次に、図1に示す顔検出装置10の顔物検出方法について説明する。図11は、本発明の実施の形態に係る顔表情認識システムの顔検出装置における顔検出方法を示すフローチャートである。先ず、図1に示す画像出力部11が濃淡画像を出力し、積分画像生成部12が、上述の式(1)で表現される積分画像を生成する(ステップS21)。この積分画像は、画像中の自身の一つ上と一つ左の画素の和に自身と同じ位置の入力画像の画素(画素値)を足しこむ作業を左上から順に行っていくことで生成することができる。この積分画像を使用することで、上述したように、任意の位置の矩形領域の総和をその四隅の画素値の加減算で高速に求めることが可能であり、後段の判別器14において特徴量算出が高速化する。
次に、図1に示す顔検出装置10の顔物検出方法について説明する。図11は、本発明の実施の形態に係る顔表情認識システムの顔検出装置における顔検出方法を示すフローチャートである。先ず、図1に示す画像出力部11が濃淡画像を出力し、積分画像生成部12が、上述の式(1)で表現される積分画像を生成する(ステップS21)。この積分画像は、画像中の自身の一つ上と一つ左の画素の和に自身と同じ位置の入力画像の画素(画素値)を足しこむ作業を左上から順に行っていくことで生成することができる。この積分画像を使用することで、上述したように、任意の位置の矩形領域の総和をその四隅の画素値の加減算で高速に求めることが可能であり、後段の判別器14において特徴量算出が高速化する。
そして、走査部13は、積分画像に対し、探索ウィンドウの位置を縦横に走査し、ウィンドウ画像を出力する(ステップS22)。
判別器14は、各顔の大きさ、画像中での各位置について矩形領域(ウィンドウ画像)が顔画像であるかないかを上述の学習により得られた判別器14を使用して判断していく。基本的な手順としては、上述した学習と同様、各弱仮説が与えられた画像の特徴量を算出し、学習された特徴量とを比較することで推定値を算出し、この推定値が算出される毎にその弱仮説の信頼度と乗算して加算していくことで逐次重み付き加算した加算値(重み付き多数決をとるための値の更新値)を評価値sとして算出する。すなわち、先ず、最初に生成された弱仮説に採用された特徴量フィルタのフィルタ出力(特徴量)を積分画像を用いて計算する。
アダブーストの場合では、上述したように、各弱仮説は、学習用データセットを使用してデータセットの推定値の誤り率を最小にするフィルタ出力(閾値)が学習されたものであり、この閾値と、与えられたウィンドウ画像のフィルタ出力とを比較し、ウィンドウ画像が顔か非顔かを2値判別した判別結果を推定値として出力する。そしてこの推定値に弱仮説の信頼度αを掛けて足しこむ。これを次々と各弱仮説の出力に対して行い、最終的に足しこまれた値(重み付き多数決を求めるための値)が正か負かで顔か非顔かを判断する。
ここで、本実施の形態における判別器14は、上述した打ち切り閾値を使用し、全部の弱仮説の出力結果を待たず、非顔画像を検出して処理を打ち切る制御を行う打ち切り手段を有する(図示せず)。この判別器14の処理方法について詳細に説明する。先ず、現在のウィンドウ画像に対して、1つ目の弱仮説に採用されているフィルタの出力(矩形特徴量)を積分画像から高速演算する(ステップS23)。そして、矩形特徴量と上記1つ目の弱仮説において予め学習されている閾値とを比較し、現在のウィンドウ画像が顔であるか否かを示す判別結果を推定値として出力する。そして、この推定値と弱仮説の信頼度との積から求まる評価値sに反映させる(ステップS24)。次に、この評価値sに基づきウィンドウ画像が検出対象であるか否か、及び判別を打ち切るか否かを判定する。
評価値sは、先ず、ウィンドウ画像が入力されると評価値s=0に初期化される。そして、判別器の各弱仮説が出力する推定値を信頼度と乗算して上記評価値sに反映させていく。2値の値を推定値として出力する弱仮説の場合、弱仮説tの特徴量判別のための閾値をTht、与えられたウィンドウ画像に対するt番目の弱仮説に対応するフィルタ出力(矩形特徴量)をdtとしたとき、その弱仮説の信頼度αtを使用し、評価値sは下記(16)のようになる。すなわち、評価値sは、推定値が算出される毎に、その推定値と信頼度との積が加算されたものとなる。
また、リアルアダブーストやジェントルブーストのように、確率密度、又は実関数を推定値として出力する場合、評価値sは下記式(17)のようになる。すなわち、推定値が算出される毎に、その推定値が加算されたものとなる。
そして、判別器14の打ち切り手段は、得られた(更新された)評価値sが、打ち切り閾値Rtより大きいか否かを判定する(ステップS25)。このステップS25において、評価値sが打ち切り閾値Rtより小さい場合は、現在判定中のウィンドウ画像は明らかに顔画像でないとし、処理を途中で打ち切る。そして、ステップS28に進み、次の探索ウィンドウ画像がある場合は、ステップS21からの処理を繰り返す。
一方、評価値sが打ち切り閾値Rtより大きい場合は、所定回数(=T回)繰り返したか否かを判定し(ステップS26)、繰り返していない場合はステップS23からの処理を繰り返す。また、所定回数(=T回)繰り返している場合はステップS27に進み、得られている評価値sが0より大きいか否かにより、検出対象であるか否かの判定をする(ステップS27)。評価値sが0より大きい場合は、現在のウィンドウ位置は検出対象の顔画像であるとし、その位置及び大きさを記憶し、次の探索ウィンドウがあるか否かを判別し(ステップS28)、次の探索ウィンドウがある場合はステップS21からの処理を繰り返す。また、次の全ての領域について探索ウィンドウを走査した場合はステップS29に進んで重なり領域の削除処理を実行する。
こうして、1枚の入力画像に対して、全てのウィンドウ画像の判別処理が終了すると、ステップS29の処理に移る。なお、異なるサイズの顔画像を検出する場合は、ウィンドウの大きさを適宜変更してスキャンする走査を繰り返せばよい。
ステップS29以降の処理においては、1枚の入力画像において、検出対象を示す領域であるとして検出された領域が重複している場合に、互いに重なっている領域を取り除く。先ず、互いに重なっている領域が在るか否かを判定し、顔と判断して記憶した領域が複数あり、かつ重複している場合は、ステップS30に進む。そして、互いに重なっている2つの領域を取り出し、この2つの領域のうち、評価値sが小さい方の領域は検出対象である確率が低いとみなして削除し、評価値sの大きい領域を選択する(ステップS31)。そして、再びステップS29からの処理を繰り返す。これにより、複数回重複して抽出されている領域のうち、最も評価値sが高い領域1つが選択される。なお、2以上の検出対象領域が重複しない場合及び検出対象領域が存在しない場合は1枚の入力画像についての処理を終了し、次のフレーム処理に移る。また、重複した領域の平均値を求めて出力するようにしてもよい。
本実施の形態における判別器14の学習方法によれば、弱仮説を生成する際、全てのフィルタを検索し最も判別性能が高いものを選択しなくても、性能が高いフィルタを選択して弱仮説を生成することができ、弱仮説の判別性能を低下させることなく、学習処理を高速化することができる。
また、本実施の形態においては、打ち切り閾値を学習しておくことにより、ウィンドウ画像が明らかに非対象物であると判別できる場合には検出処理を途中で打ち切ることで、検出工程における処理を極めて高速化することができる。すなわち、検出工程において、フィルタの出力値(特徴量)から判別した判別結果(推定値)と判別に使用した弱仮説に対する信頼度とを乗算した値を、前の評価値sに加算していくことで、評価値sを逐次更新し、評価値sの更新毎に、これを打ち切り閾値Rtと比較して次段の弱仮説の推定値の演算を続けるか否かを判定し、この評価値sが打ち切り閾値Rtを下回った場合には弱仮説の演算を途中で打ち切り、次のウィンドウ画像の処理に移ることにより、無駄な演算を行うことなく、従ってリアルタイムでの高速な顔検出を可能とする。ウィンドウ画像のうち顔画像である確率は小さく、ほとんどが非検出対象であるため、この非検出対象であるウィンドウ画像の判別を途中で打ち切ることで、判別工程を極めて高効率化することができる。
上述の非特許文献1においては、高速化のために、複数の弱仮説からなる分類器を複数個カスケードにつないで、1つの分類器の判定が終わった時点で判定スコアの悪いものは顔でないと判定してそこで処理を打ち切ることで高速に演算できるような工夫が施されている。この場合、次の分類器は前段の分類器で持ち越されたサンプル、すなわち判定スコアがよかったもののみを使って学習することで識別する問題を次第に簡単にしている。
これに対して、本実施の形態においては、1つ1つのフィルタ出力から得た推定値に信頼度を乗算したもの又はフィルタ出力から得た推定値の寄与量若しくは実関数を足しこんでいく毎に、非顔と判定するか、又は次の特徴量についての評価をすべきかを判断するための打ち切り閾値を学習しておき、これを利用して処理を打ち切る制御を実行する。これにより、上記非特許文献1に比して、少ない弱仮説の推定値の評価により非顔であることを判定することができ、したがって検出工程の処理を高速化することができる。
また、本実施の形態においては、明らかに非検出対象であると判定できる場合に検出処理を打ち切る打ち切り閾値を導入するものとして説明したが、上述したように、明らかに検出対象であると判定できる場合に検出処理を打ち切る打ち切り閾値を導入するようにしてもよい。また、これら2つの打ち切り閾値を同時に導入するようにしてもよい。
(5)表情認識装置
次に、表情認識装置について説明する。図1に示す特徴量抽出処理部21及び表情認識部22からなる表情認識装置20は、後述する方法にて算出されるガボア出力を特徴量とし、後述する方法により学習された特定表情識別器にて特定表情であるか否かを識別することで、入力される顔画像を7つの情動(感情又は表情)に識別(分類)するものである。
次に、表情認識装置について説明する。図1に示す特徴量抽出処理部21及び表情認識部22からなる表情認識装置20は、後述する方法にて算出されるガボア出力を特徴量とし、後述する方法により学習された特定表情識別器にて特定表情であるか否かを識別することで、入力される顔画像を7つの情動(感情又は表情)に識別(分類)するものである。
この表情識別装置20を、上述の顔検出装置と組み合わせることで、顔表情認識システムは、顔表情認識の完全自動化が可能であり、極めて高精度でリアルタイムに動作するという点で従来のものとは異なる。例えば、本願発明者らが行った実験においては、新たな学習サンプルに対する7通りの強制選択を行う場合、93%の汎化性能を示した。
図12は、表情認識装置20を示す機能ブロック図である。図12に示すように、表情認識装置は、顔特徴抽出処理部21と、顔特徴抽出処理部21にて抽出された顔特徴から表情を認識する表情認識部22とを有し、表情認識部22は、与えられたデータが特定の表情であるか否かを識別する表情識別器411〜417(=表情識別器41X)と、各表情識別器41Xからの識別結果に基づき、一の表情を決定して出力する表情決定部42とを有する。
特徴量抽出処理部21は、画像のシフトに強いガボア・フィルタ(Gabor Filter)を使用して、顔画像から顔特徴を抽出する。このことにより、前処理に明確な関数検出や内部顔特徴合わせの処理を必要としない。このように、前処理を必要としないことは、リアルタイム用途において重要である処理時間を大きく節約させることができる。
各表情識別器411〜417は、それぞれ幸せ「Happy」、悲しみ「sadness」、驚き「surprise」、嫌悪「disgust」、恐怖「fear」、怒り「anger」、ニュートラル(平静・中立)「neutral」を識別対象の表情(特定表情)とし、この特定表情であるか否かの結果を出力するものである。ここで、表情識別器41Xは、サポート・ベクタ・マシーンSVM又は上述のアダブーストなどのブースティングにより集団学習されたものを使用することができる。または、アダブーストによる特徴選択とSVMによる特徴積分とを組み合わせて学習することにより、更に高精度でかつ高速な表情識別器41Xを学習することが可能である。
また、表情決定部42は、各表情識別器が特定表情であるか否かを判別した結果が入力され、これらの中から最も判別結果が優れていたものを採用することで、一の表情を決定するものである。表情識別器41XがSVMからなるときは、学習時に学習されたサポート・ベクタから判別関数を算出し、その値が最も大きいものを、顔検出装置10から入力される顔画像の表情として出力する。また、表情識別器41Xがブースティングなどにより集団学習されたものである場合には、弱仮説の出力と信頼度との積の総和(重み付き多数決をとるための値)、寄与量の総和、又は実関数の総和などの出力(以下、判別評価値という。)が最も大きいものを認識した表情として出力する。例えば、ブースティングにより学習された表情識別器41Xの重み付き多数決を取らないのは、一度に2以上の表情を検出する場合があるためで、その場合にも、最も判別評価値が高いものを最も確からしい結果として出力することができる。
この表情認識装置20は、顔検出装置10の出力する矩形顔領域、すなわち顔画像と判断されたウィンドウ画像の位置及び大きさを使用して各表情識別器41Xの学習及び認識を行う。ここでは、先ず表情認識装置20の学習方法について説明し、次に表情認識装置の識別方法について説明する。
(6)顔表情の学習方法
学習においては、先ず、与えられた画像データベースから、上述した顔検出装置を使用して顔画像を切り出す。なお、予め用意された顔画像を使用して学習を行ってもよい。次に例えば手作業などにて表情認識する対象となる情動カテゴリに分類する。本実施の形態においては、顔画像群を上述の7つの情動カテゴリに分類し、これらのカテゴリに対応するラベルを切り出された顔画像に対して割り当てる。これにより、各表情毎にラベリング(正解付け)されたサンプルが生成される。本実施の形態においては、これを表情データベースとして利用し表情学習を行う。表情認識部22は、これら7つの情動カテゴリに対して、各1つの表情識別器41Xを生成(学習)する。次に、ひとつの表情に関する表情識別器41Xを学習する手順を示すが、実際にはデータを入れ替え、各情動カテゴリ毎に7つの表情識別器41Xの学習を行うため、表情識別器41Xの学習をX=7回繰り返す。なお、本実施の形態においては、人間の顔を7種類の情動に分類するものとして説明するが、認識する表情の種類は7つに限らず、必要な表情の数の表情識別器を学習すればよい。
学習においては、先ず、与えられた画像データベースから、上述した顔検出装置を使用して顔画像を切り出す。なお、予め用意された顔画像を使用して学習を行ってもよい。次に例えば手作業などにて表情認識する対象となる情動カテゴリに分類する。本実施の形態においては、顔画像群を上述の7つの情動カテゴリに分類し、これらのカテゴリに対応するラベルを切り出された顔画像に対して割り当てる。これにより、各表情毎にラベリング(正解付け)されたサンプルが生成される。本実施の形態においては、これを表情データベースとして利用し表情学習を行う。表情認識部22は、これら7つの情動カテゴリに対して、各1つの表情識別器41Xを生成(学習)する。次に、ひとつの表情に関する表情識別器41Xを学習する手順を示すが、実際にはデータを入れ替え、各情動カテゴリ毎に7つの表情識別器41Xの学習を行うため、表情識別器41Xの学習をX=7回繰り返す。なお、本実施の形態においては、人間の顔を7種類の情動に分類するものとして説明するが、認識する表情の種類は7つに限らず、必要な表情の数の表情識別器を学習すればよい。
先ず、本実施の形態においては、表情識別器41Xが各表情を識別するための特徴量として、例えば8種類の方向と5通りの周波数から決定される40種類のガボア・フィルタにより、顔画像から顔特徴を抽出するガボア・フィルタリング(Gabor Filtering)を使用する。ガボア・フィルタ出力は、方向及び周波数のみならず、適用する画素位置に応じて異なる出力となる。本実施の形態においては、例えば48×48画素の画像に対してガボア・フィルタを適用することにより、合計92160通りのガボア出力を得る。
表情識別器41Xとしては、SVM又はアダブーストのいずれかの学習機械を使用する。また、後述するように、92160個のフィルタ(特徴)からアダブーストにより選択されたフィルタの特徴量のみをSVM学習することで更に効率のよい表情識別器41X(分類器)を得ることができる。
認識対象となる所定の表情に識別するために用意された7つの各表情識別器41Xは、識別対象である一の表情(以下、特定表情という。)であるか否かの結果を出力するための学習作業を行い、次に、各表情を他の表情と区別させるため、7つの表情識別器41Xの学習(訓練)を行う。このとき、学習中のデータに最大マージンを与える表情識別器41Xを選択することにより、情動カテゴリの決定を行う。
この表情認識部22の学習は、次の3つ方法により行う。第1の学習方法は、ガボア・フィルタの出力から各情動カテゴリに分類するSVMを学習する方法である。第2の学習方法は、上述のアダブーストのアルゴリズムに従い、ガボア・フィルタを弱仮説として各情動カテゴリ毎に最終仮説(強判別器)を学習するものである。また、第3の学習方法は、同じく全ガボア・フィルタから、先ずブースティングの手法により、判別性能が高いフィルタを選択して弱仮説を生成する処理を繰り返し、弱仮説として選択されたガボア・フィルタのみを使用してSVMを学習することで、第1の学習方法及び第2の学習方法に比して学習効率を向上するものである。以下に、これら3つの学習方法における表情識別のための学習方法について説明する。
(6−1)第1の学習方法
図13は、第1の学習方法を示すフローチャートである。ここで、いずれの方法においても、以下に示すステップS31〜ステップS33に示す操作(前処理)を顔の検出画像に対して行う。
図13は、第1の学習方法を示すフローチャートである。ここで、いずれの方法においても、以下に示すステップS31〜ステップS33に示す操作(前処理)を顔の検出画像に対して行う。
まず、分類する対象となる表情にラベリングされた学習サンプルを集める(ステップS31)。上述したように、例えば上述の図1に示す顔検出装置10により検出された顔画像を使用し、例えば手作業などで、例えば幸せ「Happy」を示していると判断した顔画像と、それ以外の表情を示している顔画像とに分類する。こうして、各表情に対して、該当する表情の対象表情画像群と、それ以外の表情の非対象表情画像群とからなる顔画像群を用意する。
次に、検出された顔画像の大きさはまちまちであるので、上述のようにして用意した各顔画像を例えば48×48画素程度の大きさにリサイズする(ステップS32)。ガボア・フィルタの出力は、画像のシフトに強いため、これらの画像は特に細かい位置決めを行わないで顔の検出の出力をそのまま利用することができる。
そして、8方向5スケールのガボアフィルタバンクを用いて、ガボア・フィルタの強度信号表現に変換する。本実施の形態においては、40種類全てのガボア・フィルタを、全ての画素に適用し、フィルタ出力を得ることができる。このガボア・フィルタについての詳細は後述する。こうして、1枚の学習サンプルあたり、各画素毎に計40種類、すなわち、48×48画素×8方向×5スケール=92160次元のベクトルが得られる。
本実施の形態においては、上述したように、3つの機械学習の手法を採用することができる。本第1の学習方法においては、サポート・ベクタ・マシーンSVMにより学習を行うものである。まず、ステップS31〜ステップS33において前処理されたベクトルに対して、学習対象として選択された情動カテゴリに属するベクトルをポジティブデータ、残りの情動に属するベクトルをネガティブデータとする(ステップS34)。
次に、ポジティブデータ及びネガティブデータからなる学習用データセットを使用し、ポジティブデータとネガティブデータとを識別するためのサポート・ベクタを学習する(ステップS35)。
SVMは、学習時には、外部から供給される学習用のデータすなわち、正解付け(ラベリング)された検出対象及び非検出対象を示すデータ(教師データ又は訓練データともいわれる)からなる表情学習用データセットを用いて、暫定的な識別関数を得る。識別段階においては、入力された顔画像をガボア・フィルタリングで顔抽出した結果がSVMに投入される。ここで、表情識別器41Xとなる線形識別器をカーネル・トリックにて非線形に拡張する際のカーネル関数として、線形、多項式、RBF+ラプラシアン、ガウシンアン(Gaussian)などを使用することができる。本願発明者は、後述するように、ガウス基底関数を用いた線形及びRBFカーネルを使用したものが最も高い識別性能を示すことを確認している。
また、認識性能を上げるために、ブートストラップ手法を採用することができる。学習に用いる画像とは別に画像を撮影して、ブートストラップに用いる。これは、学習した表情識別器41Xが誤った認識結果を出したときに、その入力データを学習用データセットに投入して学習し直すことを意味する。
このSVM学習の成果物として、各情動カテゴリの表情識別器41X毎に、96120次元のサポート・ベクタがN本とその係数αがN個とサポート・ベクタとなったサンプルのラベルyが得られる。これが保存されて、後述するように表情認識時に用いられる。
上述したように、本実施の形態においては、7つの情動カテゴリについての表情識別器41Xを学習するため、全ての情動についての学習を各表情毎に行い、全情動についての学習が終了した時点(ステップS36)で、処理を終了する。
(6−2)第2の学習方法
図14は、顔表情認識のための第2の学習方法を示すフローチャートである。図14において、ステップS41〜ステップS43までの前処理は、図13に示すステップS31〜ステップS33に示す処理と同様である。すなわち、顔検出装置10などにより多数の顔画像(サンプル画像)を集め、それらを識別対象となる7つの表情に分類する、そして、全てのサンプル画像を同一サイズにリサイズし、ガボア・フィルタを全ての画素に適用してフィルタ出力を得る。すなわち、方向、周波数、適用する画素位置の組み合わせにより決定されるガボア・フィルタ出力の集合を本表情識別器を得るための学習モデルとする。
図14は、顔表情認識のための第2の学習方法を示すフローチャートである。図14において、ステップS41〜ステップS43までの前処理は、図13に示すステップS31〜ステップS33に示す処理と同様である。すなわち、顔検出装置10などにより多数の顔画像(サンプル画像)を集め、それらを識別対象となる7つの表情に分類する、そして、全てのサンプル画像を同一サイズにリサイズし、ガボア・フィルタを全ての画素に適用してフィルタ出力を得る。すなわち、方向、周波数、適用する画素位置の組み合わせにより決定されるガボア・フィルタ出力の集合を本表情識別器を得るための学習モデルとする。
そして、学習対象として選択された情動カテゴリに属するデータをポジティブデータ、残りの情動に属するデータをネガティブデータとし(ステップS44)、これらの表情学習用データセットを使用して機械学習を行う。
本第2の学習方法においては、機械学習としてブースティングを用いる。ここでは、アダブーストを使用して機械学習について説明するが、上述のリアルアダブースト、ジェントルブーストなどにより学習を行ってもよい。
アダブーストにおいては、学習時に逐次生成していく弱仮説として、前処理により得られた48×48画素×8方向×5スケール=92160通りのガボア・フィルタ出力を使用する。すなわち、92160通りのガボア・フィルタのいずれか1つのフィルタを選択し、表情学習用データセットを判別対象の表情か、又は非対象表情かを示す推定値を出力するための特徴量(ガボア・フィルタ出力)を学習することで弱仮説を生成し、弱仮説の信頼度を学習する。この学習方法については、基本的には、図8に示す学習方法と同様にして行うことができる。
まず、図8のステップS1と同様、上述のようにステップS44にて得られた表情学習用データセットの各学習用データにおけるデータ重みが一様分布となるよう、上記式(4)によりデータ重みの初期化を行う(ステップS45)。
本実施の形態においては、ガボア・フィルタ出力が92160通り、すなわち弱仮説として選択可能なフィルタが92160個ある。そこで、この92160通りのガボア・フィルタの中から1つを選択して弱仮説を生成する(ステップS46)。
そして、ステップS3、及びステップS5と同様、上記式(5)及び式(6)により、重み付き誤り率εを求め、これに基づき信頼度αを算出し、上記式(7)に従って信頼度αに基づき表情学習用データセットの各学習用データにおけるデータ重みを更新する(ステップS47)。そして、このステップS46、S47の処理を必要な回数繰り返すことで、必要な個数の弱仮説を生成する。そして、例えば、学習された複数の弱仮説から構成される最終仮説が表情学習用データセットをポジティブデータとネガティブデータとに完全に分離して、両者の間のギャップがそれぞれの分布の大きさに対して相対的に一定量より大きくなるまで学習を続ける(ステップS48)。上述したように、ガボア・フィルタの出力は92160通りあるが、例えば数百個程度の弱仮説を学習することで、学習サンプルをポジティブデータとネガティブデータとに分離することができる。
また、上述した図8に示す学習工程においては、判別時における処理を高速化すべく打ち切り閾値を求めるものとしたが、ここでも明らかに識別対象の特定表情ではないとして識別処理を途中で打ち切るための打ち切り閾値、又は明らかに識別対象の特定表情であるとして識別処理を途中で打ち切るための打ち切り閾値を予め学習しておき、識別時の処理を高速化するために使用してもよい。
次に、ステップS46における弱仮説の生成方法について説明しておく。弱仮説の生成においては、そのときの表情学習用データセットの各学習用データのデータ重みから得られる重み付き誤り率を最小にするフィルタを選択し、データセットを特定表情であるか否かを判別するための特徴量(アダブーストの場合は判別閾値となる値)を学習する。
上述の如く、各学習サンプルについて、92160個のガボア・フィルタ出力が得られる。ここで、i個の学習用データのうちポジティブデータpにおいて、全ガボア・フィルタの出力J(本実施の形態においては、J=92160個)のうち、j番目のガボア・フィルタ出力をpijとする。また、i個の学習サンプルのうちネガティブデータnにおいて、92160のガボア・フィルタ出力のうちj個目のガボア・フィルタ出力をnijとする。
先ず、j番目のガボア・フィルタ出力のポジティブデータp及びネガティブデータnの各学習用データにアダブーストにおけるデータ重みDiを乗じて取ったヒストグラムを求める。図15は、そのヒストグラムを示すグラフ図である。すなわち、図15において、横軸は、j番目のガボア・フィルタの出力を示し、縦軸は、j番目のガボア・フィルタの出力におけるポジティブデータp又はネガティブデータnの個数を示す。また、図中、実線で示すのがポジティブデータpにおけるヒスグラムPであり、破線で示すのがネガティブデータnにおけるヒストグラムNである。
次に、閾値Thを検索するための検索値thを使用して、ポジティブデータpとネガティブデータnに識別する。ポジティブデータpのうち検索値th以上のものの、重み付きカウント値の合計をpl、検索値thより小さいものの重み付きカウント値の合計をpsとする。また、ネガティブデータのうち検索値th以上のものの、重み付きカウント値の合計をnl、検索値thより小さいものの重み付きカウント値の合計をnsとする。これらの値pl、ps、nl、ns、及びこの検索値thを使用すると、識別誤差(エラー)eを下記式(18)により算出することができる。
すなわち、検索値thをj番目のガボア・フィルタ出力を示す横軸方向にシフトさせてエラーeがもっとも小さいものを検索し、エラーeを最小とする検索値thをこのガボア出力の閾値Th(j)とする。なお、上記式(18)の上段に示すように、エラーej(th)は、全解答における正解率((ps+nl)/(ps+pl+ns+nl))又は負正解率((pl+ns)/(ps+pl+ns+nl))のうち、小さい方とするが、上記式(18)の下段に示すように、検索値thを変化させていった際には、正解したポジティブデータの重み付きカウント値の合計plと正解したネガティブデータの重みつきカウント値の合計nsは移動した検索値thを跨いだ分だけ増減するので、各検索値thについてすべてのpl、nsを計数し直す必要はなく、高速化することができる。
このようにして、J個全てのガボア・フィルタ出力に対して、各々エラーej(Th)を計算し、もっとも小さいエラーej(Th)を返すものを1つ弱仮説(弱仮説)として採用する。このエラーej(Th)が弱仮説の誤り率となる。
ここで、例えば、学習に使用する顔画像の画素数が非常に多く、フィルタの種類が多くなる場合などに、図9に示した弱仮説の生成方法を適用してもよい。すなわち、選択可能な全てのフィルタから所定の割合のフィルタを選択し、その中から判別性能が高い1又は複数個の高性能フィルタを選択し、この高性能フィルタに所定の変形を加えた新フィルタを生成し、高性能フィルタ及び新フィルタから、最も判別性能が高いフィルタ、すなわち、上述のエラーej(Th)を最小にするフィルタを1つ選択することで、弱仮説を生成してもよい。この場合、生成する新フィルタとしては、例えば高性能フィルタとして選択されたフィルタの周波数や方向を変更したり、画素位置を1つ程度ずらしたりすればよい。
または、選択可能な全てのフィルタから所定の割合のフィルタを選択し、この選択したフィルタから新フィルタを生成し、選択したフィルタ及び新フィルタから最も判別性能が高いフィルタを1つ選択することで弱仮説を生成するようしてもよい。
こうしてアダブーストの学習方法に基づいて選択した弱仮説のエラーej(Th)を用いて、ステップS47にて説明した如く、当該弱仮説の信頼度を算出し、この弱仮説の正解、不正解に応じて学習用データiのデータ重Diを更新して処理を繰り返す。
次に、以上のようにして求めたT個の弱仮説の総和に基く表情識別器41Xを学習サンプルに適用した際に、ポジティブデータとネガティブデータとが分離されており、マージンが十分に取れていれば、学習をここで打ち切る(ステップS48)。表情識別器41Xは、T個の弱仮説の出力に信頼度を乗算して加算した結果をもって識別対象の表情か非対象表情かを判別するものとする。ここで、後述する識別時において、上述の顔検出とは異なり、弱仮説の出力と信頼度との積の加算値から重み付き多数決をとらず、各表情識別器41Xが、弱仮説の出力と信頼度との積を逐次加算した加算値を出力するようにすることで、例えば2つの表情識別器41Xの出力が正の値を示した場合に、表情決定部42が、加算値が大きい方の表情識別器41Xの結果を採用して認識結果として出力することができる。ポジティブデータとネガティブデータとが十分に分離できない場合はステップS46に戻り、新たな弱仮説を生成する。本実施の形態においては、全てのガボア・フィルタ(96120通り)の約200分の1程度の数のガボア・フィルタを選択して弱仮説を生成することで最終仮説を得ることができる。
以上の学習の成果物として、選択された弱仮説、すなわちガボア・フィルタの方向、スケール、及び画像位置に関する情報(ピクセル位置)と、このフィルタ出力の値(特徴量)と、その弱仮説に対する信頼度αとが得られる。これらは保存されて、後述する認識時に利用される。
(6−3)第3の学習方法
SVMを用いた上記第1の学習方法にて学習される識別器はカーネルによる非線形性を取り込んでおり性能は優れているが、例えば92160次元のベクトルを演算する必要があり、上記第2の学習方法のブーストを使って学習される表情識別器41Xに比べて判別時の演算時間が長くかかる場合がある。そこで判別時の演算時間を短縮化するために、本第3の学習方法においては、アダブーストの学習時に採用された特徴量(ガボア・フィルタ)のみを使用してSVM学習を行うものである(以下、AdaSVMといもいう。)。
SVMを用いた上記第1の学習方法にて学習される識別器はカーネルによる非線形性を取り込んでおり性能は優れているが、例えば92160次元のベクトルを演算する必要があり、上記第2の学習方法のブーストを使って学習される表情識別器41Xに比べて判別時の演算時間が長くかかる場合がある。そこで判別時の演算時間を短縮化するために、本第3の学習方法においては、アダブーストの学習時に採用された特徴量(ガボア・フィルタ)のみを使用してSVM学習を行うものである(以下、AdaSVMといもいう。)。
本第3の学習方法においては、先ず、特定の表情を示す重み付き特定表情顔画像データと、上記特定表情顔画像の示す表情とは異なる表情を示す重み付き非特定表情顔画像データとからなるデータセットを用意し、複数のガボア・フィルタの中から、特定表情画像データと非特定表情画像データとを判別する際の誤差率が最も小さいガボア・フィルタを第1の弱仮説として選択する。そして、この第1の弱仮説の、上記データセットに対する信頼度を算出し、この信頼度に基づいて特定表情画像データ及び非特定表情顔画像データの重みを更新する。
次に、複数のガボア・フィルタの中から、重みが更新された特定表情画像データ及び非特定表情画像データを判別する際の誤差率が最も小さいガボア・フィルタを第2の弱仮説として選択する。
こうして、少なくとも第1の弱仮説及び第2の弱仮説として選択されたガボア・フィルタにより抽出された特定表情画像データ及び非特定画像データの特徴量を入力とするSVMにより、サポート・ベクタを学習させ、特定表情顔画像データと非特定表情顔画像データとを判別する仮説(表情識別器)を生成する。以下、この第3の学習方法について詳細に説明する。
図16は、顔表情認識のための第3の学習方法を示すフローチャートである。図16において、ステップS51〜ステップS53までの前処理は、図13に示すステップS31〜ステップS33に示す処理と同様である。
そして、学習対象として選択された情動カテゴリに属するデータをポジティブデータ、残りの情動に属するデータをネガティブデータとし(ステップS54)、これらの表情学習用データセットを使用して機械学習を行う。
先ず、アダブースト学習を実行する(ステップS55)。このステップS55における処理は、上述の第2の方法に示したステップS45〜ステップS48の処理と同様である。すなわち、先ず、弱仮説を逐次生成していくことで、ガボア・フィルタの周波数及び方向と、サンプル画像内のピクセル位置との組み合わせを逐次学習していく。このステップS55においては、最終仮説を得るまでに全てのガボア・フィルタの出力(96120通り)から、例えば538個程度のフィルタ、すなわち約200分の1程度が選択される。このように、アダブーストにおいては、96120通りのフィルタから例えば200分の1程度のガボア・フィルタを選択して弱仮説を生成すれば、対象とする表情か非対象とする表情かを識別する識別器を生成することができる。このステップS55では、学習用データセットがネガティブデータとポジティブデータとに完全に分離して、両者の間のギャップがそれぞれの分布の大きさに対して相対的に一定量より大きくなったら学習を中止するようにしている。
次に、ステップS55におけるブースティング学習により生成された弱仮説に採用されたガボア・フィルタの出力のみを使用し、SVM学習を実行する。先ず、アダブーストにおいて弱仮説に採用されたガボア・フィルタのみを使用し、所定の表情にラベリングされた学習用の各顔画像をフィルタリングして顔特徴を抽出する。これにより、第1の学習方法では、96120次元のベクトルからサポート・ベクタを学習する必要があったが、本学習方法においては、約200分の1次元に減らした例えば538次元のベクトルからサポート・ベクタを学習することになる。すなわち、538次元のベクトルからを新たな学習用データとして、SVM学習を行う。これにより学習時の演算も識別時の演算も高速化することができると共に、ブースティングとSVMとを組み合わせて学習させることで汎化性能を向上させることがする。
学習の成果物として、生成された弱仮説に採用されたガボア・フィルタの方向及びスケールと画像位置に関する情報とが得られる。また弱仮説の数をTとすると、T次元のガボア・フィルタ出力のサポート・ベクタとその係数α及び対応する学習サンプルのラベルyが同様に成果として保存されて、後述する認識時に利用される。
次に、ガボア・フィルタリングとSVMについて、それぞれ詳細に説明する。
(6−4)ガボア・フィルタリング
人間の視覚細胞には、ある特定の方位に対して選択性を持つ細胞が存在することが既に判っている。これは、垂直の線に対して発火する細胞と、水平の線に反応する細胞で構成される。ガボア・フィルタリングは、これと同様に、方位選択性を持つ複数のフィルタで構成される空間フィルタである。
人間の視覚細胞には、ある特定の方位に対して選択性を持つ細胞が存在することが既に判っている。これは、垂直の線に対して発火する細胞と、水平の線に反応する細胞で構成される。ガボア・フィルタリングは、これと同様に、方位選択性を持つ複数のフィルタで構成される空間フィルタである。
ガボア・フィルタは、ガボア関数によって空間表現される。ガボア関数g(x,y)は、下記式(19)に示すように、コサイン成分からなるキャリアs(x,y)と、2次元ガウス分布状のエンベロープwr(x,y)とで構成される。
キャリアs(x,y)は、複素関数を用いて、下記式(20)のように表現される。ここで、座標値(u0,v0)は空間周波数を表し、また、Pはコサイン成分の位相を表す。
下記式(20)に示すキャリアs(x,y)は、下記式(21)に示すように、実数成分Re(s(x,y))と虚数成分Im(s(x,y))に分離することができる。
一方、2次元ガウス分布からなるエンベロープは、下記式(22)のように表現される。
ここで、座標値(x0,y0)はこの関数のピークであり、定数a及びbはガウス分布のスケール・パラメータである。また、添え字rは、下記式(23)に示すような回転操作を意味する。
したがって、上記式(20)及び上記(22)より、ガボア・フィルタは、下記式(24)に示すような空間関数として表現される。
本実施形態に係る顔特徴抽出処理部21は、8種類の方向と5スケールの周波数を採用して、合計40個のガボア・フィルタを用いて顔抽出処理を行う。本実施の形態において使用されるガボア・フィルタの空間領域での様相を図17(a)、図17(b)に示す。図17(a)は、異なる周波数成分のガボア・フィルタの例を示し、図17(b)は、ガボア・フィルタの8方向を示す。各図における濃淡は、紙面に直行する座標軸方向の成分に相当する。
ガボア・フィルタのレスポンスは、Giをi番目のガボア・フィルタとし、i番目のガボアの結果(Gabor Jet)をJiとし、入力イメージをIとし、すると、下記式(25)で表される。この下記式(25)の演算は、実際には高速フーリエ変換を用いて高速化することができる。
すなわち上記式25に示すように、例えば48×48画素からなる学習サンプルを使用すると、i番目のガボア・フィルタにより、ガボアジェットJiとして48×48=2304通りの出力が得られる。
作成したガボア・フィルタの性能を調べるためには、フィルタリングして得られた画像を再構築することによって行う。再構築されたイメージHは、下記式(26)のように表される。
そして、入力画像Iと再構築された画像HとのエラーEは、下記式(27)のように表される。
このエラーEを最小にするような最適なパラメータaを求めることで、画像Hを再構築してガボア・フィルタの性能を調べることができる。
(6−5)サポート・ベクタ・マシーン
次に、SVMについて説明する。SVMは、パターン認識の分野で最も学習汎化能力が高いとされる。このSVMを用いて顔の表情が一の表情であるか否かの識別を行う。
次に、SVMについて説明する。SVMは、パターン認識の分野で最も学習汎化能力が高いとされる。このSVMを用いて顔の表情が一の表情であるか否かの識別を行う。
SVM自体に関しては、例えばB.sholkopf外著の報告(B. Sholkopf, C. Burges, A. Smola, "Advance in Kernel Methods Support Vector Learning", The MIT Press, 1999.)を挙げることができる。本発明者らが行った予備実験の結果からは、SVMによる認識方法は、主成分分析(PCA)やニューラル・ネットワークを用いる手法に比べ、良好な結果を示すことが判っている。
SVMは、下記(28)に示すように、与えられたデータセットを2つのクラスに分類する手法の1つである。ここで、クラスAに属している場合はy=1、クラスBに属している場合はy=−1とすし、サンプルxは、N次元の実数ベクトルの集合R(N)に属するものとする。
SVMは、識別関数fに線形識別器(パーセプトロン)を用いた学習機械であり、カーネル関数を使うことで非線形空間に拡張することができる。また、識別関数の学習では、クラス間分離のマージンを最大にとるように行われ、その解は2次数理計画法を解くことで得られるため、グローバル解に到達できることを理論的に保証することができる。
通常、パターン認識の問題は、テスト・サンプルx=(x1,x2,…,xn)に対して、下記式(29)の識別関数fを求めることである。
この識別器のf(x)=0を満たす点の集合(識別面)は、d−1次元の超平面Lとなる。図18に示すように、SVMにおける、〇で示すクラスAと□で示すクラスBとを識別するための識別面は、クラスAとクラスBとをのまん中を通る超平面Lである。
ここで、SVMの学習サンプル(ベクトルx)のクラスラベル(教師ラベル)を下記(30)のようにおく。
パラメータw、bは冗長性を有するので、超平面に最も近接するサンプルに対して、上記式29に示す|w・x+b|(w、xはベクトル)=1となる制約を加えると、SVMにおける顔パターンの認識を下記(31)に示す制約条件の下での重み因子wの二乗を最小化する問題としてとらえることができる。
このような制約のついた問題は、ラグランジュの未定定数法を用いて解くことができる。すなわち、下記式(32)に示すラグランジュをまず導入して、
次いで、下記式(33)に示すように、b、wの各々について偏微分する。
この結果、SVMにおける顔パターンの識別を下記(34)に示す2次計画問題としてとらえることができる。
特徴空間の次元数が、学習サンプルの数よりも少ない場合は、制約条件を緩めるためにスラック変数ξ≧0を導入して、制約条件を下記(35)のように変更する。
最適化については、下記式(36)の目的関数を最小化する。
上式(36)において、Cは、制約条件をどこまで緩めるかを指定する係数であり、実験的に値を決定する必要がある。ラグランジュ定数αに関する問題は下記(37)のように変更される。
しかし、上式(37)のままでは、非線型の問題を解くことはできない。そこで、本実施形態では、カーネル関数Kを導入して、一旦、高次元の空間に写像して(カーネル・トリック)、その空間で線形分離することにしている。したがって、元の空間では非線型分離していることと同等となる。
カーネル関数は、ある写像Φを用いて下記式(38)のように表される。
また、上記式(29)に示した識別関数fも、以下式(39)のように表すことができる。
また、学習に関しても、下記式(40)に示す2次計画問題としてとらえることができる。
上記式(40)に示す制約条件において、目的関数を最小化することで、上記式(29)に示す識別関数fは下記式(41)のように求めることができる。
カーネル関数の例としては、下記式(42)〜(44)に示す例えば多項式・カーネル、シグモイド・カーネル、ガウシアン・カーネル(RBF(Radius BasicFunction))などを用いることができる。
(7)表情識別方法
次に、顔表情認識方法について説明する。上述したように、表情認識部22の学習方法は、それを構成する各表情識別器41Xをガボア・フィルタの出力からSVM学習する第1の方法と、ガボア・フィルタ出力をブースティングにより学習する第2の方法と、ブースティングにより全ガボア・フィルタから一部のガボア・フィルタを選択し、その出力をSVM学習する第3の方法があり、これら3種類の学習により得られた表情認識部22における認識方法を第1〜第3の認識方法として説明する。
次に、顔表情認識方法について説明する。上述したように、表情認識部22の学習方法は、それを構成する各表情識別器41Xをガボア・フィルタの出力からSVM学習する第1の方法と、ガボア・フィルタ出力をブースティングにより学習する第2の方法と、ブースティングにより全ガボア・フィルタから一部のガボア・フィルタを選択し、その出力をSVM学習する第3の方法があり、これら3種類の学習により得られた表情認識部22における認識方法を第1〜第3の認識方法として説明する。
(7−1)第1の認識方法(ガボアフィルタ+SVM)
まず、第1の識別方法について説明する。カメラなどの撮像手段からの入力画像を図1に示す顔検出装置10に入力し、上述の方法にて顔画像が検出される。入力画像に顔が発見されれば、その顔位置の画像が切り出されて表情認識装置20に入力される。
まず、第1の識別方法について説明する。カメラなどの撮像手段からの入力画像を図1に示す顔検出装置10に入力し、上述の方法にて顔画像が検出される。入力画像に顔が発見されれば、その顔位置の画像が切り出されて表情認識装置20に入力される。
次に、学習時と同様、顔画像を例えば48×48のサイズにリサイズする。リサイズされた顔画像は、顔特徴抽出処理部21に供給され、ガボア・フィルタを用いて、96120次元のガボア・フィルタ出力が生成される。このガボア・フィルタ出力が表情認識部22に供給される。表情認識部22は、顔画像を7つの表情に識別するもので、識別する7つの表情毎の表情識別器41Xを有している。ガボア・フィルタ出力は、7つの表情識別器41Xにそれぞれ入力され、各表情識別器41Xが識別対象としている特定の表情か、又は該特定の表情とは異なる表情かを識別する。
まず、SVM学習によって得られた7つの表情識別器41Xに対して判別関数の出力を得る。この表情識別器41Xは、N本のサポート・ベクタとN個の係数αと各サポート・ベクタのラベルyを学習時に獲得しおり、上記式(44)のガウシアン・カーネス関数を使用して上記式(39)の識別関数から認識結果求める。この際に96120次元のカーネル関数計算をN回行う。そして、図12に示す表情決定部42が、7つの表情識別器41Xにおける識別結果(判別関数出力)のうち最も大きい値を示す表情識別器41Xが識別対象としている表情を表情認識装置20の判定結果として出力する。
(7−2)第2の認識方法(ガボアフィルタ+アダブースト)
次に、第2の識別方法について説明する。第1の認識方法と同様に、顔検出装置10により検出され切り出された顔画像を入力とし、この顔画像を48×48のサイズにリサイズする。次に、上述の第2の学習方法にて説明したアダブースト学習によって得られた7つの表情識別器41Xに対して判別関数の出力を得る。判別関数Hは、下記式(45)である。
次に、第2の識別方法について説明する。第1の認識方法と同様に、顔検出装置10により検出され切り出された顔画像を入力とし、この顔画像を48×48のサイズにリサイズする。次に、上述の第2の学習方法にて説明したアダブースト学習によって得られた7つの表情識別器41Xに対して判別関数の出力を得る。判別関数Hは、下記式(45)である。
アダブーストによる学習により選択されたガボア・フィルタにより、上記式(45)におけるhtを出力する弱仮説が決定されている。すなわち、選択されたガボア・フィルタの方向に応じて上記式(23)が確定し、選択されたガボア・フィルタのスケールから上記式(22)のスケール・パラメータが決定され、ガボアカーネルが得られる。
これを選択された画素を中心とした周囲の画像に対して適用したもの(ガボア・フィルタの出力)を、学習時に求めた閾値Thを使って判別する。判別結果の符号(sgn)を取ったものが弱仮説の出力htとなる。これに学習時に決定された弱仮説の信頼度αを掛けて足しこみ、これをすべての弱仮説について行って、判別関数Hの出力(重み付き多数決をとるための加算値)を得る。そして、図12に示す表情決定部42が、7つの表情識別器41Xの判別関数Hの出力のうち最も大きいものをこの入力顔画像の表情として出力する。判別関数Hは、各表情識別器41Xにおいて得られる重み付き多数決(上記式(45)の符号が正か負か)により表情識別器41Xが識別対象としている表情であるか否かを判別してもよいが、例えば複数の表情識別器41Xにより複数の表情を識別する場合、2以上の表情識別器41Xが同時に表情を識別することもありえる。すなわち、2以上の表情識別器41Xにおける判別関数Hの出力が正である場合がありえるが、そのような場合には、この重みが乗算され加算された加算値である識別関数Hの出力値が大きい方の表情を認識結果とするようにする。
(7−3)第3の認識方法(ガボアフィルタ+アダブースト+SVM)
次に、第3の識別方法について説明する。第1の認識方法と同様に、顔検出装置10により検出され切り出された顔画像を入力とし、この顔画像を48×48のサイズにリサイズする。次に、上述の第3の学習方法にて説明した学習(以下、AdaSVMという。)によって得られた7つの表情識別器41Xに対して判別関数の出力を得る。
次に、第3の識別方法について説明する。第1の認識方法と同様に、顔検出装置10により検出され切り出された顔画像を入力とし、この顔画像を48×48のサイズにリサイズする。次に、上述の第3の学習方法にて説明した学習(以下、AdaSVMという。)によって得られた7つの表情識別器41Xに対して判別関数の出力を得る。
まずAdaSVM学習によって選択されたガボア・フィルタを用いて、入力画像からアダブーストの学習によって生成された弱仮説に採用されたフィルタ数次元のベクタを生成する。すなわち、上述のアダブーストの学習により選択されているスケール及び方向の1つについて上記式(22)及び式(23)から得られるガボア・フィルタを、同じく学習により選択されている選択画素を中心とした周囲の画像に対して適用することで1つのフィルタ出力を得る。これをフィルタの数繰り返して、フィルタ数の入力ベクタを生成する。
次にAdaSVM学習のSVM学習で得たフィルタ出力のサポート・ベクタとその係数とラベルとを使って、上記入力ベクタを上記式(44)及び上記式(39)に代入し、判別関数出力fを得る。そして、図12に示す表情決定部42が、7つの表情識別器41Xにおいて、判別関数Hの出力が最も大きいものを、この入力顔の表情として結果を出力する。
このような表情認識装置20によれは、画像のシフトに強いガボア・フィルタを使用することで、顔検出の結果の位置決めなどの処理をせず、そのまま表情認識を行うことができ、高速に表情の認識をすることができる。
また、ガボア・フィルタ出力を特徴量としてSVMにより識別することで、7つの表情に正確に識別することができる。同じく、ガボア・フィルタ出力を特徴量としてブースティングにより生成された複数の弱仮説により表情識別することで更に高速に認識を実行することができる。
更に、ガボア・フィルタ出力を特徴量としてアダブースト学習により学習時に選択されたフィルタのみを使用し、ベクトルの次元を下げてSVMにより表情識別を行うと、学習・認識時における演算処理を減らして高速化することができると共に、アダブーストとSVMを組み合わせ学習させることで汎化誤差を更に小さくし、汎化性能を向上することができる。
更にまた、本実施の形態においては、48×48画素の顔画像にリスケールして学習・識別する例について説明したが、解像度を更に高くすることで、更に性能を向上させることができる。
また、上述の顔検出装置10と組み合わせることで、入力される動画像などからもリアルタイムで顔検出し、かつ検出した顔画像の表情を認識することが可能となる。
(8)他の実施の形態
本実施の形態における顔表情認識システムは、リアルタイムで入力画像から顔領域を切り出し、顔表情を分類することができるため、例えばエンターテイメント用、介護用などさまざまな用途のロボット装置に搭載することで、人間とロボット装置とのリアルタイムのインタラクションを可能とする。ロボット装置は、本顔表情認識システムを搭載することで、ユーザの表情を認識することができ、これにより、ユーザに対する新たな感情表現を可能とする。また、このような表情認識システムをアニメーション生成・表示機能を有する装置と連動させると、人間の表情を認識し、これに反応するアニメーションを表示させることができる。
本実施の形態における顔表情認識システムは、リアルタイムで入力画像から顔領域を切り出し、顔表情を分類することができるため、例えばエンターテイメント用、介護用などさまざまな用途のロボット装置に搭載することで、人間とロボット装置とのリアルタイムのインタラクションを可能とする。ロボット装置は、本顔表情認識システムを搭載することで、ユーザの表情を認識することができ、これにより、ユーザに対する新たな感情表現を可能とする。また、このような表情認識システムをアニメーション生成・表示機能を有する装置と連動させると、人間の表情を認識し、これに反応するアニメーションを表示させることができる。
このようなロボット装置、又はアニメーション作成装置では、ユーザの表情を理解し、ユーザの表情に応じてなんらかの反応を表出させることができ、例えばユーザの「嬉しい」表情を認識した場合に、同じく「嬉しい」表情を表出するロボット装置としたり、「嬉しい」表情を表現するアニメーションを表示したり、又はユーザの「悲しい」表情を認識した場合に、ユーザを励ますようなリアクションをとるようにすることができる。
このように、本実施の形態における顔表情認識システムは、顔表情を自動認識することができ、顔表情を行動測定基準としてより利用しやすいものとし、顔の動きの変化についての従来は不可能であった詳細な解析を可能にすることで、基礎研究に多大な影響を与えることができる。そして、このような能力を有するコンピュータシステムは、マン・マシン・コミュニケーション、保安、法律施行、精神医学、教育、テレコミュニケーション等、基礎及び応用研究の分野で幅広い用途がある。
(9)ロボット装置
次に、上述した顔表情認識システムを搭載したロボット装置の一具体例について説明する。本実施の形態においては、2足歩行型のロボット装置を例にとって説明するが、2足歩行のロボット装置に限らず、4足又は車輪等により移動可能なロボット装置に適用できることはいうまでもない。
次に、上述した顔表情認識システムを搭載したロボット装置の一具体例について説明する。本実施の形態においては、2足歩行型のロボット装置を例にとって説明するが、2足歩行のロボット装置に限らず、4足又は車輪等により移動可能なロボット装置に適用できることはいうまでもない。
この人間型のロボット装置は、住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロボットであり、内部状態(怒り、悲しみ、喜び、楽しみ等)に応じて行動できるほか、人間が行う基本的な動作を表出できるエンターテインメントロボットである。上述の顔表情認識システムにおいて認識したユーザの表情に応じて行動を発現するようなされているものとする。図19は、本実施の形態におけるロボット装置の概観を示す斜視図である。
図19に示すように、ロボット装置101は、体幹部ユニット102の所定の位置に頭部ユニット103が連結されると共に、左右2つの腕部ユニット104R/Lと、左右2つの脚部ユニット105R/Lが連結されて構成されている(但し、R及びLの各々は、右及び左の各々を示す接尾辞である。以下において同じ。)。
このロボット装置101が具備する関節自由度構成を図20に模式的に示す。頭部ユニット103を支持する首関節は、首関節ヨー軸111と、首関節ピッチ軸112と、首関節ロール軸113という3自由度を有している。
また、上肢を構成する各々の腕部ユニット104R/Lは、肩関節ピッチ軸117と、肩関節ロール軸118と、上腕ヨー軸119と、肘関節ピッチ軸120と、前腕ヨー軸121と、手首関節ピッチ軸122と、手首関節ロール輪123と、手部124とで構成される。手部124は、実際には、複数本の指を含む多関節・多自由度構造体である。ただし、手部124の動作は、ロボット装置101の姿勢制御や歩行制御に対する寄与や影響が少ないので、本明細書では簡単のため、ゼロ自由度と仮定する。したがって、各腕部は7自由度を有するとする。
また、体幹部ユニット102は、体幹ピッチ軸114と、体幹ロール軸115と、体幹ヨー軸116という3自由度を有する。
また、下肢を構成する各々の脚部ユニット105R/Lは、股関節ヨー軸125と、股関節ピッチ軸126と、股関節ロール軸127と、膝関節ピッチ軸128と、足首関節ピッチ軸129と、足首関節ロール軸130と、足部131とで構成される。本明細書中では、股関節ピッチ軸126と股関節ロール軸127の交点は、ロボット装置101の股関節位置を定義する。人体の足部131は、実際には多関節・多自由度の足底を含んだ構造体であるが、本明細書においては、簡単のためロボット装置101の足底は、ゼロ自由度とする。したがって、各脚部は、6自由度で構成される。
以上を総括すれば、ロボット装置101全体としては、合計で3+7×2+3+6×2=32自由度を有することになる。ただし、エンターテインメント向けのロボット装置1が必ずしも32自由度に限定されるわけではない。設計・制作上の制約条件や要求仕様等に応じて、自由度すなわち関節数を適宜増減することができることはいうまでもない。
上述したようなロボット装置101がもつ各自由度は、実際にはアクチュエータを用いて実装される。外観上で余分な膨らみを排してヒトの自然体形状に近似させること、2足歩行という不安定構造体に対して姿勢制御を行うこと等の要請から、アクチュエータは小型且つ軽量であることが好ましい。
このようなロボット装置は、ロボット装置全体の動作を制御する制御システムを例えば体幹部ユニット102等に備える。図21は、ロボット装置101の制御システム構成を示す模式図である。図21に示すように、制御システムは、ユーザ入力等に動的に反応して情緒判断や感情表現を司る思考制御モジュール300と、アクチュエータ450の駆動等ロボット装置1の全身協調運動を制御する運動制御モジュール400とで構成される。
思考制御モジュール300は、情緒判断や感情表現に関する演算処理を実行するCPU(Central Processing Unit)311や、RAM(Random Access Memory)312、ROM(Read Only Memory)313及び外部記憶装置(ハード・ディスク・ドライブ等)314等で構成され、モジュール内で自己完結した処理を行うことができる、独立駆動型の情報処理装置である。
この思考制御モジュール300は、画像入力装置351から入力される画像データや音声入力装置352から入力される音声データ等、外界からの刺激等に従って、ロボット装置101の現在の感情や意思を決定する。すなわち、上述したように、入力される画像データからユーザの表情を認識し、その情報をロボット装置101の感情や意思に反映させることで、ユーザの表情に応じた行動を発現することができる。ここで、画像入力装置351は、例えばCCD(Charge Coupled Device)カメラを複数備えており、また、音声入力装置352は、例えばマイクロホンを複数備えている。
また、思考制御モジュール300は、意思決定に基づいた動作又は行動シーケンス、すなわち四肢の運動を実行するように、運動制御モジュール300に対して指令を発行する。
一方の運動制御モジュール400は、ロボット装置101の全身協調運動を制御するCPU411や、RAM412、ROM413及び外部記憶装置(ハード・ディスク・ドライブ等)414等で構成され、モジュール内で自己完結した処理を行うことができる独立駆動型の情報処理装置である。また、外部記憶装置414には、例えば、オフラインで算出された歩行パターンや目標とするZMP軌道、その他の行動計画を蓄積することができる。
この運動制御モジュール400には、図20に示したロボット装置101の全身に分散するそれぞれの関節自由度を実現するアクチュエータ450、対象物との距離を測定する距離計測センサ(図示せず)、体幹部ユニット102の姿勢や傾斜を計測する姿勢センサ451、左右の足底の離床又は着床を検出する接地確認センサ452,453、足底131の足底131に設けられる荷重センサ、バッテリ等の電源を管理する電源制御装置454等の各種の装置が、バス・インターフェース(I/F)401経由で接続されている。ここで、姿勢センサ451は、例えば加速度センサとジャイロ・センサの組み合わせによって構成され、接地確認センサ452,453は、近接センサ又はマイクロ・スイッチ等で構成される。
思考制御モジュール300と運動制御モジュール400は、共通のプラットフォーム上で構築され、両者間はバス・インターフェース301,401を介して相互接続されている。
運動制御モジュール400では、思考制御モジュール300から指示された行動を体現すべく、各アクチュエータ450による全身協調運動を制御する。すなわち、CPU411は、思考制御モジュール300から指示された行動に応じた動作パターンを外部記憶装置414から取り出し、又は、内部的に動作パターンを生成する。そして、CPU411は、指定された動作パターンに従って、足部運動、ZMP軌道、体幹運動、上肢運動、腰部水平位置及び高さ等を設定するとともに、これらの設定内容に従った動作を指示する指令値を各アクチュエータ450に転送する。
また、CPU411は、姿勢センサ451の出力信号によりロボット装置101の体幹部ユニット102の姿勢や傾きを検出するとともに、各接地確認センサ452,453の出力信号により各脚部ユニット105R/Lが遊脚又は立脚のいずれの状態であるかを検出することによって、ロボット装置101の全身協調運動を適応的に制御することができる。更に、CPU411は、ZMP位置が常にZMP安定領域の中心に向かうように、ロボット装置101の姿勢や動作を制御する。
また、運動制御モジュール400は、思考制御モジュール300において決定された意思通りの行動がどの程度発現されたか、すなわち処理の状況を、思考制御モジュール300に返すようになっている。このようにしてロボット装置101は、制御プログラムに基づいて自己及び周囲の状況を判断し、自律的に行動することができる。
このようなロボット装置には、動的に変化する作業環境下で一定時間内に応答できるようなヒューマン・インターフェース技術が要求されている。本実施の形態に係るロボット装置101は、上述した顔検出及び表情認識技術を適用することにより、周囲のユーザ(飼い主又はともだち、若しくは正当なユーザ)の表情を識別すると共に、認識結果に基づいて(すなわちユーザに応じて)リアクションを制御することによって、より高いエンターテイメント性を実現することができる。
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。また、上述した顔検出装置の学習処理、顔検出処理、表情学習処理、及び表情認識処理のうち1以上の任意の処理は、ハードウェアで構成しても、演算器(CPU)にコンピュータプログラムを実行させることで実現してもよい。コンピュータプログラムとする場合には、記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。
(10)実施例
次に、上述の実施の形態において説明した顔表情認識システムにおける実際の実験結果を参照し、上述の実施の形態において説明した顔表情認識システムにおける実施例について詳細に説明する。
次に、上述の実施の形態において説明した顔表情認識システムにおける実際の実験結果を参照し、上述の実施の形態において説明した顔表情認識システムにおける実施例について詳細に説明する。
(10−1)顔検出
(10−1−1)訓練データ
先ず、本願発明者らは、顔表情認識システムの学習サンプルとして、コーン及びカナデのDFAT−504データセット(T . Kanade , J . F . Cohn , and Y Tain. Comprehensive database for facial expression analysis. In Proceedings of the fourth IEEE International conference on automatic face and gesture recognition (FG'00), Page 46-53 , Grenble , France , 2000)を使用した。このデータセットを使用して、顔検出装置の訓練及びテスト(評価)を行った。上記データセットは、18歳〜30歳の大学生100人からなり、そのうち、65%が女性、15%がアフリカ系アメリカ人、3%がアジア系又はラテン系であった。
(10−1−1)訓練データ
先ず、本願発明者らは、顔表情認識システムの学習サンプルとして、コーン及びカナデのDFAT−504データセット(T . Kanade , J . F . Cohn , and Y Tain. Comprehensive database for facial expression analysis. In Proceedings of the fourth IEEE International conference on automatic face and gesture recognition (FG'00), Page 46-53 , Grenble , France , 2000)を使用した。このデータセットを使用して、顔検出装置の訓練及びテスト(評価)を行った。上記データセットは、18歳〜30歳の大学生100人からなり、そのうち、65%が女性、15%がアフリカ系アメリカ人、3%がアジア系又はラテン系であった。
被験者の正面に置いたカメラを使用して、映像をアナログSビデオで記録した。被験者は、実験者から23の顔表情を見せるように指示され、被験者は各表情の始めと終わりにはニュートラルの顔をするよう指示された。被験者が各表情を見せる前に、実験者が所望の表情を説明してモデル化した。
こうして得られた顔画像において、ニュートラル状態から目的の表情への画像シーケンスを、グレースケール値について8ビット精度で640×480画素列にデジタル化した。
本実施例では、このようなデータセットから313のシーケンスを選択した。シーケンスは、6つの基本感情(基本表情)、すなわち、怒り、嫌悪、恐怖、喜び、悲しみ、驚きのいずれかに分類されることを唯一の選択基準とした。これらのシーケンスは90人の被験者から得られたものであり、被験者一人当たり上述の1乃至6の感情とした。最初と最後のフレーム(ニュートラルとピーク)を訓練画像として使用し、また、合計625のデータを新たな被験者の汎化のテストに使用した。訓練した分類器(分類機)を後で全シーケンスに使用した。
(10−1−2)顔の位置確認
顔検出装置は、画像内の可能な24×24画素のパッチ(ウィンドウ)すべてをスキャンし、各パッチを顔であるか否かをリアルタイムで分類することができる。また、任意の大きさの顔画像を検出するために、上記パッチを、入力画像において1.2倍毎にスケール変換した。また、検出されたパッチに大幅な重複がある場合、これらの平均をとったものを検出ウィンドウとした。以下、本実施例の顔検出装置の学習方法について説明する。
顔検出装置は、画像内の可能な24×24画素のパッチ(ウィンドウ)すべてをスキャンし、各パッチを顔であるか否かをリアルタイムで分類することができる。また、任意の大きさの顔画像を検出するために、上記パッチを、入力画像において1.2倍毎にスケール変換した。また、検出されたパッチに大幅な重複がある場合、これらの平均をとったものを検出ウィンドウとした。以下、本実施例の顔検出装置の学習方法について説明する。
まず、ウェブから収集した約8000の画像から5000の顔画像サンプル(顔パッチ)と10000個の顔ではない非顔画像サンプル(非顔パッチ)を用いて、顔検出装置の訓練(学習)をした。
24×24画素のパッチには、上述した如く、160000種以上のフィルタが存在するが、本実施例においては、これらの160000種のフィルタのうちの2〜200からなるサブセット(フィルタ群)を選択する。フィルタの演算には、上述した図5に示す積分画像を使用するため矩形領域の高速演算を行うことができる。
そして、更に演算効率を上げるため、上述の実施の形態において説明した方法にてフィルタの選択を行った。すなわち、全フィルタのうちの5%をランダムに選択し、上記サンプルにおける重み付き分類エラーを最小化する、顔判別能力が最良の単一フィルタを選択した。そして、選択したフィルタを各方向に2画素分移動したフィルタ、選択したフィルタのスケーリングを行ったフィルタ、並びに、選択したフィルタ・移動及びスケーリングを行ったフィルタを、画像の中心(垂直二等分線)に対して水平に反転させ、元のものに重畳したフィルタを生成した。選択したフィルタ及び新たに生成したフィルタについて、上記サンプルにおける重み付き分類エラーを最小化する、最良の性能の、1つのフィルタを選択することで、単一フィルタ分類器を顔判別をする弱分類器(あるいは「弱学習機」、弱仮説)として学習した。
これは上述したように、1世代遺伝アルゴリズムとして考えられるものであり、160000個の可能なフィルタすべてやそれらの反映による等価物の中から網羅的に最良の分類器を探すよりもはるかに速く、同等の性能のフィルタを選択することができる。
選択した分類器をブーストの弱学習機として使用し、アダブースト規則を用いた各データに対する性能に応じてデータへの重みを調整した。
この特徴選択プロセスを、新たな重みを用いて繰り返し、「強分類器」(すなわち、その段階についてのすべての弱分類器を用いた複合分類器)がデータセットにおける所望の最小性能レートを達成できるまで、全ブースト処理を繰り返した。
最後に、各強分類器を訓練した後、ブートストラップ・ラウンドを行った(Kah Kay Sung and Tomaso Poggio. Example base learning for view-based human face detection . IEEE Trans. Pattern Anal. Mach. Intelligence , 20:3951 , 1998)。
これは、その時点までの装置全体について、顔ではない画像のデータベースをスキャンし、偽アラーム(判別を誤った画像)を収集し、シーケンスにおける次の強分類器を訓練するための顔ではない画像として使用するものである。
また、上記従来例1における特徴選択アルゴリズムにおいては、アダブーストを使用し、2値分類器を必要とするのに対し、本実施例においては、上述の実施の形態において説明した如く、弱判別器の出力として実関数を出力する「ジェントルブースト」(J Friedman, T Hastie,and R Tibshirani. Additive logistic regression: A statistical view of Boosting.AVVALS OF STATISTICS,28(2):337-374,2000)を用いて実験を行った。図22(a)及び図23(a)は、ジェントルブーストにしたがって学習する装置が選択した最初の2つのフィルタを示し、図22(b)及び図23(b)は、それらのフィルタにより得られる全サンプル、すなわち平均顔における弱学習器の実値出力(あるいはチューニング曲線)を示す。
チューニング曲線は、縦軸の値が大きいと顔であり、小さいと顔ではないことを示す。図22(b)に示す第1のチューニング曲線は、左図に示すウィンドウの中心にある黒で示す水平領域(矩形領域)上の白で示す矩形領域が顔である証拠を示し、そうでなければ顔でない証拠であることを示す。すなわち、白で示す上側矩形領域の輝度値の総和から黒で示す下側矩形領域の輝度値の総和を減算した値がフィルタ出力であり、フィルタ出力がマイナスである画像が顔画像であることを示す。
また、図23(b)に示す第2のチューニング曲線は双峰分布を示し、左側の矩形特徴、右側の矩形特徴共に、内側の矩形領域から外側の矩形領域の輝度値の総和を減算したものである。
矩形特徴34A、34Bのいずれにおいも、例えば黒髪である場合などはフィルタ出力がプラスになり、白髪である場合などはフィルタ出力がマイナスの値になることを示し、矩形特徴34A、34Bにおける各矩形領域に輝度値の変化がない場合(フィルタ出力がゼロ近傍)の画像は、顔でないことを示す。
更に、本願発明者らは、従来例1のような分類器のカスケードをなくす方法を見出した。すなわち、各弱判別器の出力結果を逐次判定し、以降の処理を続けるいか否かを決定する。これは、上述の実施の形態において説明したように、各単一の弱判別器の出力の後、打ち切り閾値を下回っているか否かを判定し、下回っている場合には、次の弱判別器における判別(特徴テスト)を中止するものである。本願発明者の予備試験の結果では、精度を失わずに現在の装置よりも速度を大幅に改善することができた。
シーケンスの早い部分における強分類器(その段階についてのすべての弱分類器を用いた複合分類器)は、良好な性能を達成するのにほとんど特徴を必要としない。例えば、第1段階では、2つの特徴のみを使用し、20の単一動作のみ又は約60のマイクロプロセッサ命令を使用して、顔ではない画像の60%を拒絶することができる。このため、各ウィンドウで判定が必要な特徴の平均数は非常に少なく、装置全体では非常に高速となる。本実施例の顔検出装置は、非常に高速な速度と、非常に高い精度の双方を達成することができる。
本実施例における顔検出装置は、CMU−MITデータセットなどの正面顔検出装置のベンチマークテストを行うための標準的な公共データセットに対する判別性能は上述の従来例1に匹敵した。使用したデータセットは照明、吸蔵、画質の差による画像の変動性が大きいが、本実施例の学習に使用したデータセットは顔が正面でフォーカスされ、明るさも十分で、背景が単純なので、性能はより高精度であった。このデータセットの場合、すべての顔を検出した。
(10−2)表情認識
(10−2−1)前処理
次に、自動的に位置確認された顔を、48×48画素に再スケーリングした。また、2倍の解像度(96×96画素に再スケーリングしたもの)で比較を行った。両眼の中心間の一般的な距離は約24画素であった。これら再スケーリングした画像について、8方向、5空間周波数(1/2オクターブステップで1サイクル当たり4:16画素)のガボア・フィルタを使用し、画像をガボア・マグニチュード表現に変換した。
(10−2−1)前処理
次に、自動的に位置確認された顔を、48×48画素に再スケーリングした。また、2倍の解像度(96×96画素に再スケーリングしたもの)で比較を行った。両眼の中心間の一般的な距離は約24画素であった。これら再スケーリングした画像について、8方向、5空間周波数(1/2オクターブステップで1サイクル当たり4:16画素)のガボア・フィルタを使用し、画像をガボア・マグニチュード表現に変換した。
(10−2−2)顔表情分類
顔表情分類はサポート・ベクタ・マシーン(SVM)に基づいた。ガボア表現の高次元性はカーネル分類器(顔表情識別器)の訓練時間に影響を与えないので、SVMはこの作業に適している。本顔表情分類器は、喜び、悲しみ、驚き、嫌悪、恐怖、怒り、ニュートラルという7つの感情カテゴリとし、7通りの強制選択を行うことで分類を行った。
顔表情分類はサポート・ベクタ・マシーン(SVM)に基づいた。ガボア表現の高次元性はカーネル分類器(顔表情識別器)の訓練時間に影響を与えないので、SVMはこの作業に適している。本顔表情分類器は、喜び、悲しみ、驚き、嫌悪、恐怖、怒り、ニュートラルという7つの感情カテゴリとし、7通りの強制選択を行うことで分類を行った。
分類は2段階で行った。まず、SVMにより2値決定作業を行った。各感情を他の感情と区別するように、感情毎に7つのSVMを訓練した。そして、検出対象とする表情のデータに最大マージンを与える分類器を選択することにより、感情カテゴリの決定を行った。ラプラシアン及びガウス基底関数を用いた線形、多項式、RBFカーネルについて実験した結果、単位幅ガウス基底関数を用いた線形及びRBFカーネルが最も性能がよかった。以下、線形及びRBFカーネルを使用した実施例について説明する。
本願発明者等は、上述した自動顔検出装置の出力を用いた表情認識性能を、手動分類により、明確に特徴合わせした顔画像に対する表情認識性能と比較した。手動で合わせた顔画像の場合、目が水平になるように顔を回転させ、その後、各顔において目と口とが合うようにゆがめることで特徴合わせを行った。
1サンプルを除外する交差検定(cross Validation)を用いて、新たなサンプルに対する汎化をテストをした。結果を下記表1に示す。これは、96×96画素のサンプルについて行った結果である。
上記表1に示すように、自動検出した顔に対する表情認識性能と手動で合わせた顔に対する表情認識性能とでは大きな違いはなかった(z=0.25、p=0.4)。
(10−3)SVMとアダブーストの比較
次に、SVMにより表情認識する感情分類器(表情識別器)の性能を、アダブーストを用いた感情分類器と比較した。
次に、SVMにより表情認識する感情分類器(表情識別器)の性能を、アダブーストを用いた感情分類器と比較した。
アダブースト感情分類器には、ガボア・フィルタ出力を使用した。48×48×40=92160の可能な特徴があり、アダブーストを使用して、これらのフィルタのサブセットを選択した。各繰り返し処理毎の訓練(学習)では、各フィルタの閾値及びスケール・パラメータを最適化し、ブーストされたデータ重み分布に対して最良の性能が得られる特徴(ガボア・フィルタ)を選択した。
また、学習の際の評価においては、アダブーストはSVMよりも訓練速度が遅いので、「1学習サンプルを除外する」交差検定(以下、1サンプル除外式という。)は行わなかった。その代わりに、学習サンプルをほぼ同サイズの10グループにランダムに分け、「1グループを除外する」(以下、1グループ除外式という。)交差検定を行った。
1サンプル除外式では、全サンプルのうち、1つを除いたサンプルを学習に使用し、残りの1つにより学習評価を行うことを、サンプルの数分行うものであり、1グループ除外式では、1グループを除いた学習サンプルにより学習を行い、残りの1グループにより学習結果を評価することを、グループの数分行うものである。
アダブーストでは、ポジティブ及びネガティブサンプルの分布が2つの分布の幅に比例するギャップにより完全に分離されるまで、各感情分類器の訓練を続けた。この手続きを用いて選択したフィルタの総数は538であった。
図24(a)は、アダブースト訓練中の1つの感情分類器における出力を示すグラフ図であり、図24(b)は、アダブーストにより選択された特徴数の関数としての汎化誤差を示すグラフ図である。訓練データのそれぞれについての反応を、分類器が熟練するにしたがって特徴数の関数として示す。これにより、アダブースト訓練の停止基準を求めることができる。また、図24(b)に示すように、汎化誤差は「過度の訓練」により増加することはなかった。
ここで、本装置では、畳込みをフーリエ空間ではなく画素空間で行うので、ガボア・フィルタの出力計算があまり効率的ではなかったが、200分の1程度のガボア・フィルタ出力を使用しても十分に表情識別が可能であり、これにより、相当な高速化を実現することができた。下記表2は、アダブースト、SVM、及びAdaSVMの性能を比較したものである(48×48画象)。この表2に示すように、アダブーストにおける汎化性能は85.0%であった。これは、グループ除外式テストパラダイムにおける線形SVM性能と同等であったが、下記表3に示すように、アダブーストはかなり高速であった。下記表3は、処理時間とメモリの検討結果を示すものである。
アダブーストにより、弱判別器の繰り返し学習の各繰り返し毎に、どの特徴(フィルタ出力)が最も有益なテストすべき特徴であるかを示す付加価値が信頼度として得られる。図25は、各感情について選択された最初の5つのガボアフィルタ(ガボア特徴)を示す。すなわち、図25は、怒り、嫌悪、恐怖、喜び、悲しみ、驚きの各表情識別器において、周波数及び方向がアダブーストのアルゴリズムに従って逐次選択された最初の5つのフィルタの出力結果を示すものである。
図25において、各表情の顔画像中における白点は、学習により選択されたガボア特徴すべての画素位置を示す。また、各表情の顔画像の下に、その表情について選択された最初の5つのアダブースト特徴の実部の線形結合を示す。
図26は、ガボア・フィルタに使用した5つ周波数について、アダブーストにより選択された特徴の波長分布を示すグラフ図である。この図26においては、決定されたガボア特徴における方向について優先を示していないが、選択特徴数が最も高い頻度の波長がより頻繁に選択されたことを示す。
(10−4)AdaSVM
更に、本願発明者らは、アダブーストにより選択されたガボア特徴をSVM訓練のための縮小表現として用いる組合せ的アプローチ(AdaSVM)を行った。このAdaSVMアは、ダブーストに比して3.8%、性能が向上した。これは統計的に重要な違いであった(z=1.99、p=0.02)。また、AdaSVMは、SVMよりも平均で2.7%性能が向上した(z=1.55、p=0.06)。
更に、本願発明者らは、アダブーストにより選択されたガボア特徴をSVM訓練のための縮小表現として用いる組合せ的アプローチ(AdaSVM)を行った。このAdaSVMアは、ダブーストに比して3.8%、性能が向上した。これは統計的に重要な違いであった(z=1.99、p=0.02)。また、AdaSVMは、SVMよりも平均で2.7%性能が向上した(z=1.55、p=0.06)。
図26に示したように、本願発明者らがアダブーストにより選択されたガボア・フィルタの頻度分布を調べた結果、高い空間周波数のガボア・フィルタと高解像度画像が感情分類器の性能を向上させる可能性があることが明らかになった。画像の解像度を2倍の96×96にし、ガボア波長数を5から9に増加させて、1/2オクターブステップで2:32画素に亘るようにすることにより、非線形AdaSVMの性能が93.3%に向上した。解像度が上がると、AdaSVMの高速性能がさらに顕著になった。最も解像度が高い場合、フル・ガボア表現は係数7で増加したが、アダブーストにより選択されるガボア・フィルタ数は係数1.75でしか増加しなかった。
表3において、時間t’には、SVMで用いるフルFFTではなく、アダブースト及びAdaSVMの画素空間における538個のガボア・フィルタの出力を計算する余分な時間も含まれる。
(10−5)リアルタイム感情ミラーリング
感情分類器に入力される各画像は別々に処理及び分類が行われるが、装置のビデオフレームシーケンスの出力は時間の関数としてスムーズに変化する。図27(a)、図27(b)は、1つの学習サンプル(サンプル32)について2つのテストシーケンスを示す。図27(a)は、「怒り」の感情を識別す感情分類器の出力結果、図27(b)は、「嫌悪」の感情を識別する感情分類器の出力結果を示す。図27(a)、図27(b)に示すように、時間の関数として、ニュートラル出力は減少し、対応する感情の出力が増加する。これにより、リアルタイムで顔表情を符号化する潜在的に重要な表現が得られる。
感情分類器に入力される各画像は別々に処理及び分類が行われるが、装置のビデオフレームシーケンスの出力は時間の関数としてスムーズに変化する。図27(a)、図27(b)は、1つの学習サンプル(サンプル32)について2つのテストシーケンスを示す。図27(a)は、「怒り」の感情を識別す感情分類器の出力結果、図27(b)は、「嫌悪」の感情を識別する感情分類器の出力結果を示す。図27(a)、図27(b)に示すように、時間の関数として、ニュートラル出力は減少し、対応する感情の出力が増加する。これにより、リアルタイムで顔表情を符号化する潜在的に重要な表現が得られる。
本願発明者らは、リアルタイムで顔表情を符号化する潜在能力の効果を示すため、リアルタイム「感情ミラー」装置を開発した。感情ミラー装置は、ある人物が表現する感情を模倣した3Dキャラクタをリアルタイムで表示する装置である。
図28は、本発明の実施例における顔表情認識システムを利用した感情ミラー装置の出力例を示す図である。右図に示す動画キャラクタが、左図に示すユーザの顔表情を反映して登場する。
「感情ミラー」装置は、顔検出装置、感情分類器、アニメーション発生装置からなる。「感情ミラー」装置では、顔検出装置がユーザの顔画像を検出し、これを感情分類器に送る。本実施例の感情分類器には線形AdaSVMを使用した。7つの感情に分類する感情分類器の出力は、7D感情コードとなる。この感情コードをアニメーション発生装置に送った。アニメーション発生装置は、コンピュータにより動作する3D画像をリアルタイムで表示するソフトウェアツールである。7D感情コードにより、各感情についてモルフターゲットの重み付きコンビネーションが得られた。
また、本願発明者らは、NIPS2002にて、ユーザの感情を認識して、ユーザをひきつけるように反応する「感情ミラー」装置の試作品のデモンストレーションを行った。
この装置により、感情レベルでユーザをひきつけ、また、コンピュータがユーザの感情を認識して適応することが重要となるロボット工学やコンピュータアニメーションの用途に本システムを組み込むことができる。
本システムは、家庭、学校、研究所等の環境において使用することが検討されている。例えば学校などにおいては、生徒の感情や認識状態に適応させた自動チュータシステムとして使用することができる。また、自動顔追跡及び表情分析を自動動画チュータシステムに統合しつつあり、このような自動チュータシステムにおいて、実際の教師と同じように生徒の感情や認識状態に適応できれば、より効果的となる可能性がある。また、顔検出及び表情分析により、ロボット装置などにおいては、更にユーザにとって魅力的なものとなる。更にまた、本システムにより、人間とロボット装置との対話の良好さを測定することができる。本願発明者らは、本実施例の自動表情認識システムを使用し、ロボット装置と対話中のユーザの反応を測定した。これにより、表情認識機能がロボット装置に対するユーザの楽しみを大きくするかどうかを評価することができる。
(10−6)効果
本実施例の表情認識システムによれば、ユーザ独立型かつ完全自動式でリアルタイムに符号化でき、少なくとも正面の顔を前提とするアプリケーションの場合、現存のコンピュータパワーで、顔表情のリアルタイム認識を可能とした。7つの基本表情への識別問題は、顔画像から前処理によってフィルタリングした1列のガボア・フィルタ出力使用し、単純な線形システムによって解決することができる。この識別にSVMを使用すると高精度に分類することができる。本実施例における結果は、より小さいデータセットについてパジェット(Padgett)とコットレル(Cottrell)が報告した結果(「Representing face images for emotion classification.」(In M. Mozer , M.Johon , and T.Petsche , editors , Advances in Neural Information Processing Systems , volume 9 , Cambridge , MA , 1997. TIT Press))と一致する。例えばM. Lyons, J. Budynek , A. Planet , and S Akamatsuらの「Classifying facial attributes using a 2-d gabor wavelet representation and discriminant analysis.」( In Proceeding of the 4th international conference on automatic face and gesture recognition , page 202-207 , 2000)などに記載の従来システムでは、ガボア表現から顔表情を分類するのに判別分析(LDA)を用いていた。
本実施例の表情認識システムによれば、ユーザ独立型かつ完全自動式でリアルタイムに符号化でき、少なくとも正面の顔を前提とするアプリケーションの場合、現存のコンピュータパワーで、顔表情のリアルタイム認識を可能とした。7つの基本表情への識別問題は、顔画像から前処理によってフィルタリングした1列のガボア・フィルタ出力使用し、単純な線形システムによって解決することができる。この識別にSVMを使用すると高精度に分類することができる。本実施例における結果は、より小さいデータセットについてパジェット(Padgett)とコットレル(Cottrell)が報告した結果(「Representing face images for emotion classification.」(In M. Mozer , M.Johon , and T.Petsche , editors , Advances in Neural Information Processing Systems , volume 9 , Cambridge , MA , 1997. TIT Press))と一致する。例えばM. Lyons, J. Budynek , A. Planet , and S Akamatsuらの「Classifying facial attributes using a 2-d gabor wavelet representation and discriminant analysis.」( In Proceeding of the 4th international conference on automatic face and gesture recognition , page 202-207 , 2000)などに記載の従来システムでは、ガボア表現から顔表情を分類するのに判別分析(LDA)を用いていた。
これに対し、本願発明者らは顔表情分類にSVMを試した。LDAはクラス分布がガウス分布の場合に最適であるが、SVMは、クラス分布がガウス分布ではない場合により効果的となりうる。
また、顔特徴の明確な検出及び登録を必要とせずに、自動顔検出装置の出力を直接処理して、良好な感情分類性能が得られた。自動顔検出器の出力に対する非線形SVMの感情識別性能は、手動分類した特徴による明確な特徴合わせを用いた同セットの顔に対する感情識別性能とほぼ同じであった。
そして、特徴選択を行うのにアダブーストを使用すると、アプリケーションの大幅な高速化が図れる。また、アダブーストにより選択した特徴を使用して学習したSVMは、アダブーストよりも高い分類性能を示した。
1 顔表情認識システム、10 顔検出装置、11 画像出力部、12 積分画像生成部、13 走査部、14 判別器、14a 入力部、14b 弱仮説、14c 結合機、14d 出力部、15 学習機、20 表情認識装置、21 顔特徴抽出部、22 表情認識部、31 データベース、32 学習モデル、33 選択部、34 新弱仮説生成部、35 弱仮説選択部、36 信頼度算出部、37 打ち切り閾値算出部、38 データ重み更新部、41X 表情識別器、42 表情決定部
Claims (50)
- 検出対象であるか非検出対象であるかの正解付けがされた複数の学習サンプルからなるデータセットを使用し、与えられたデータが検出対象であるか否かを推定する弱仮説を生成する弱仮説生成装置において、
複数の弱仮説から一部の弱仮説を選択し、選択された一部の弱仮説の上記データセットに対する推定性能が他より高い1又は複数の弱仮説を高性能弱仮説として選択する選択手段と、
上記高性能弱仮説に対して所定の変形を加えた1以上の新たな弱仮説を新弱仮説として生成する新弱仮説生成手段と、
上記高性能弱仮説及び上記新弱仮説から上記データセットに対する推定性能が最も高い1つの弱仮説を選択する弱仮説選択手段とを有する
ことを特徴とする弱仮説生成装置。 - 上記新弱仮説生成手段は、上記高性能弱仮説から、上記検出対象の統計的性質に基づき新弱仮説を生成する
ことを特徴とする請求項1記載の弱仮説生成装置。 - 上記学習サンプルは、画像であり、
上記弱仮説は、与えられた画像内の所定領域から特徴を抽出し、該抽出した特徴に基づき該与えられた画像が検出対象であるか否かを推定するものであって、
上記新弱仮説生成手段は、上記高性能弱仮説における上記所定領域の位置を所定量ずらした新たな領域から上記特徴を抽出する上記新弱仮説を生成する
ことを特徴とする請求項1記載の弱仮説生成装置。 - 上記学習サンプルは、画像であり、
上記弱仮説は、与えられた画像内の所定領域から特徴を抽出し、該抽出した特徴に基づき該与えられた画像が検出対象であるか否かを推定するものであって、
上記新弱仮説生成手段は、上記高性能弱仮説における上記所定領域のスケールを所定の大きさを変換した新たな領域から上記特徴を抽出する上記新弱仮説を生成する
ことを特徴とする請求項1記載の弱仮説生成装置。 - 上記学習サンプルは、画像であり、
上記弱仮説は、与えられた画像内の所定領域から特徴を抽出し、該抽出した特徴に基づき該与えられた画像が検出対象であるか否かを推定するものであって、
上記新弱仮説生成手段は、上記高性能弱仮説における上記所定領域を上記検出対象の対象性を利用して変換した新たな領域及び/又は当該新たな領域及び変換前の上記所定領域から上記特徴を抽出する上記新弱仮説を生成する
ことを特徴とする請求項1記載の弱仮説生成装置。 - 上記データセットの各学習サンプルには、データ重みが設定され、
上記データセットに対する推定性能は、上記データセットの各学習サンプルに設定された上記データ重みに基づき算出される
ことを特徴とする請求項1記載の弱仮説生成装置。 - 上記弱仮説選択手段が選択した弱仮説の上記データセットに対する推定性能に基づき上記各学習サンプルの上記データ重みを更新するデータ重み更新手段を有する
ことを特徴とする請求項6記載の弱仮説生成装置。 - 上記データ重み更新手段により上記データ重みが更新される毎に、上記複数の弱仮説から一の弱仮説を選択することで弱仮説を生成する処理を繰り返す
ことを特徴とする請求項7記載の弱仮説生成装置。 - 上記データ重み更新手段は、上記弱仮説が出力する上記推定値が不正解であった学習サンプルのデータ重みが正解であった学習サンプルのデータ重みより相対的に増すよう上記データ重みを更新する
ことを特徴とする請求項7記載の弱仮説生成装置。 - 上記弱仮説は、与えられたデータに対する推定結果を確定的に出力する
ことを特徴とする請求項7記載の弱仮説生成装置。 - 上記弱仮説は、与えられたデータに対する推定結果を確率的に出力する
ことを特徴とする請求項7記載の弱仮説生成装置。 - 上記データセットは、上記検出対象を示す濃淡画像と上記非検出対象を示す濃淡画像とからなり、
上記弱仮説は、濃淡画像内に含まれる2以上の矩形領域群における、一又は複数の矩形領域の各輝度値の総和とその他の矩形領域の各輝度値の総和との差に基づき、入力として与えられる濃淡画像が検出対象であるか否かを推定するものである
ことを特徴とする請求項6記載の弱仮説生成装置。 - 検出対象であるか非検出対象であるかの正解付けがされた複数の学習サンプルからなるデータセットを使用し、与えられたデータが検出対象であるか否かを推定する弱仮説を生成する弱仮説生成方法において、
複数の弱仮説から一部の弱仮説を選択し、選択された一部の弱仮説の上記データセットに対する推定性能が他より高い1又は複数の弱仮説を高性能弱仮説として選択する選択工程と、
上記高性能弱仮説に対して所定の変形を加えた1以上の新たな弱仮説を新弱仮説として生成する新弱仮説生成工程と、
上記高性能弱仮説及び上記新弱仮説から上記データセットに対する推定性能が最も高い1つの弱仮説を選択する弱仮説選択工程とを有する
ことを特徴とする弱仮説生成方法。 - 検出対象であるか非検出対象であるかの正解付けがされた複数の学習サンプルからなるデータセットを使用し、与えられたデータが検出対象であるか否かを推定する弱仮説を生成する弱仮説生成装置において、
複数の弱仮説から、一部の弱仮説を選択する選択手段と、
上記選択手段により選択された上記一部の弱仮説に対して所定の変形を加えた1以上の新たな弱仮説を新弱仮説として生成する新弱仮説生成手段と、
上記選択手段により選択された上記一部の弱仮説及び上記新弱仮説から上記データセットに対する推定性能が最も高い1つの弱仮説を選択する弱仮説選択手段とを有し、
ことを特徴とする弱仮説生成装置。 - 検出対象であるか非検出対象であるかの正解付けがされた複数の学習サンプルからなるデータセットを使用し、与えられたデータが検出対象であるか否かを推定する弱仮説を生成する弱仮説生成方法において、
複数の弱仮説から、一部の弱仮説を選択する選択工程と、
上記選択工程にて選択された上記一部の弱仮説に対して所定の変形を加えた1以上の新たな弱仮説を新弱仮説として生成する新弱仮説生成工程と、
上記選択工程にて選択された上記一部の弱仮説及び上記新弱仮説から上記データセットに対する推定性能が最も高い1つの弱仮説を選択する弱仮説選択工程とを有し、
ことを特徴とする弱仮説生成方法。 - データ重みが設定され検出対象であるか非検出対象であるかの正解付けがされた複数の学習サンプルからなるデータセットを使用して、与えられたデータから検出対象を検出する学習装置において、
与えられたデータが検出対象であるか否かを推定する弱仮説を生成する弱仮説生成手段と、
上記弱仮説生成手段にて生成された弱仮説の上記データセットに対する推定結果に基づき当該弱仮説の信頼度を算出する信頼度算出手段と、
上記弱仮説生成手段にて生成された弱仮説が推定を誤った学習サンプルのデータ重みが、正しく推定された学習サンプルのデータ重みより相対的に増すよう上記データ重みを更新するデータ重み更新手段とを有し、
上記弱仮説生成手段は、複数の弱仮説から一部の弱仮説を選択し、選択された一部の弱仮説の上記データセットに対する推定性能が他より高い1又は複数の弱仮説を高性能弱仮説として選択する選択手段と、上記高性能弱仮説に対して所定の変形を加えた1以上の新たな弱仮説を新弱仮説として生成する新弱仮説生成手段と、上記高性能弱仮説及び上記新弱仮説から上記データセットに対する推定性能が最も高い1つの弱仮説を選択する弱仮説選択手段とを有し、上記データ重み更新手段により上記データ重みが更新される毎に弱仮説を生成する処理を繰り返す
ことを特徴とする学習装置。 - 検出対象であるか非検出対象であるかの正解付けがされた複数の学習サンプルからなるデータセットを使用し、与えられたデータが検出対象であるか否かを判定する検出装置を学習する学習装置において、
与えられたデータが検出対象であるか否かを推定する複数の弱仮説から一の弱仮説を選択する処理を繰り返す弱仮説選択手段と、
上記弱仮説選択手段により弱仮説が選択される毎に、選択された弱仮説の上記データセットに対する推定結果に基づき当該弱仮説の信頼度を算出する信頼度算出手段と、
弱仮説の上記データセットに対する推定結果と当該弱仮説の上記信頼度との積を、上記弱仮説選択手段により弱仮説が選択される毎に算出して加算し、該加算結果に基づき上記検出装置が上記与えられたデータが検出対象であるか否かを判定する処理を打ち切るための打ち切り閾値を学習する閾値学習手段と
を有することを特徴とする学習装置。 - 上記弱仮説が選択される毎に選択された弱仮説が推定を誤った学習サンプルのデータ重みが正しく推定された学習サンプルのデータ重みより相対的に増すよう上記データ重みを更新するデータ重み更新手段を有し、
上記弱仮説選択手段は、上記データ重みが更新される毎に上記弱仮説を選択する処理を繰り返す
ことを特徴とする請求項17記載の学習装置。 - 上記閾値学習手段は、弱仮説の上記データセットのうち上記検出対象であると正解付けされたポジティブデータに対する推定結果と当該弱仮説の上記信頼度との積を、上記弱仮説選択手段により弱仮説が選択される毎に算出して加算した加算結果に基づき上記打ち切り閾値を学習する
ことを特徴とする請求項17記載の学習装置。 - 上記閾値学習手段は、上記弱仮説が選択される毎に、上記ポジティブデータに対する上記加算結果の最小値又は判別境界値のうち小さい方を上記打ち切り閾値として記憶する
ことを特徴とする請求項19記載の学習装置。 - 上記閾値学習手段は、弱仮説の上記データセットのうち上記非検出対象であると正解付けされたネガティブデータに対する推定結果と当該弱仮説の上記信頼度との積を、上記弱仮説選択手段により弱仮説が選択される毎に算出して加算した加算結果に基づき上記打ち切り閾値を学習する
ことを特徴とする請求項17記載の学習装置。 - 上記閾値学習手段は、上記弱仮説が選択される毎に、上記ネガティブデータに対する上記算出結果の最大値又は判別境界値のうち大きい方を上記打ち切り閾値として記憶する
ことを特徴とする請求項21記載の学習装置。 - 検出対象であるか非検出対象であるかの正解付けがされた複数の学習サンプルからなるデータセットを使用し、与えられたデータが検出対象であるか否かを判定する検出装置を学習する学習方法において、
与えられたデータが検出対象であるか否かを推定する複数の弱仮説から一の弱仮説を選択する処理を繰り返す弱仮説選択工程と、
上記弱仮説選択工程にて弱仮説が選択される毎に、選択された弱仮説の上記データセットに対する推定結果に基づき当該弱仮説の信頼度を算出する信頼度算出工程と、
弱仮説の上記データセットに対する推定結果と当該弱仮説の上記信頼度との積を、上記弱仮説選択工程にて弱仮説が選択される毎に算出して加算し、該加算結果に基づき上記検出装置が上記与えられたデータが検出対象であるか否かを判定する処理を打ち切るための打ち切り閾値を学習する閾値学習工程と
を有することを特徴とする学習方法。 - 与えられたデータが検出対象であるか否かを判別することで検出対象を検出する検出装置において、
複数の弱仮説からなる推定結果出力手段と、
上記推定結果出力手段の出力結果に基づき上記与えられたデータが検出対象であるか否かを判別する判別手段とを有し、
上記推定結果出力手段は、予め学習された特徴量に基づき、上記与えられたデータが検出対象であるか否かを各弱仮説毎に推定して出力し、
上記判別手段は、弱仮説の推定結果と当該弱仮説の推定性能に基づき予め学習された信頼度との積を、一の弱仮説が推定結果を出力する毎に加算し、該加算結果に基づき上記推定結果出力手段の処理を打ち切るか否かを決定する打ち切り手段を有する
ことを特徴とする検出装置。 - 上記弱仮説は、検出対象であるか非検出対象であるかの正解付けがされた複数の学習サンプルからなるデータセットを使用して集団学習により逐次生成されたものであり、
上記推定結果出力手段は、上記複数の弱仮説の生成順に推定結果を出力し、
上記打ち切り手段は、一の弱仮説が推定結果を出力する毎に、上記加算結果と打ち切り閾値との比較結果に基づき、次の弱仮説の推定処理を打ち切るか否かを決定するものであって、
上記打ち切り閾値は、上記集団学習により逐次生成された弱仮説の上記データセットに対する推定結果と当該弱仮説の信頼度との積を弱仮説が生成される毎に算出して加算した加算結果に基づき予め学習されたものである
ことを特徴とする請求項24記載の検出装置。 - 上記打ち切り閾値は、上記データセットのうち上記検出対象であると正解付けされたポジティブデータに対する上記推定結果から得られる上記加算結果の最小値又は判別境界値のうち小さい方とされ、
上記打ち切り手段は、上記加算結果が上記打ち切り閾値より小さい場合に上記推定結果出力手段の処理を打ち切る
ことを特徴とする請求項25記載の検出装置。 - 上記打ち切り閾値は、上記データセットのうち上記非検出対象であると正解付けされたネガティブデータに対する上記推定結果から得られる上記加算結果の最大値又は判別境界値のうち大きい方とされ、
上記打ち切り手段は、上記加算結果が上記打ち切り閾値より大きい場合に上記推定結果出力手段の処理を打ち切る
ことを特徴とする請求項25記載の検出装置。 - 上記データセットの各学習サンプルは、データ重みを有し、
上記データ重みは上記逐次生成された弱仮説が出力する上記推定結果が不正解であった学習サンプルのデータ重みが正解であった学習サンプルのデータ重みより相対的に増すよう逐次更新されたものであり、
上記信頼度は、上記弱仮説が生成される毎に上記データ重みが設定された各学習サンプルの推定結果に基づき学習される
ことを特徴とする請求項25記載の検出装置。 - 上記検出対象は、顔画像である
ことを特徴とする請求項24記載の検出装置。 - 上記判別手段により上記検出対象として検出された顔画像を、ガボア・フィルタによりフィルタリングして顔特徴を抽出する顔特徴抽出手段と、
上記顔特徴に基づき、与えられた顔画像の表情を認識する表情認識手段と
を有することを特徴とする請求項29記載の検出装置。 - 与えられたデータが検出対象であるか否かを判別することで検出対象を検出する検出方法において、
予め学習された特徴量に基づき、上記与えられたデータが検出対象であるか否かを複数の弱仮説が個別に推定して出力する推定結果出力工程と、
上記推定結果出力工程にて出力される出力結果に基づき上記与えられたデータが検出対象であるか否かを判別する判別工程とを有し、
上記判別工程では、弱仮説の推定結果と当該弱仮説の推定性能に基づき学習された信頼度との積を、一の弱仮説が推定結果を出力する毎に加算し、該加算結果に基づき上記複数の弱仮説の推定処理を打ち切るか否かを決定する打ち切り工程を有する
ことを特徴とする検出方法。 - 認識対象となる特定表情を示す複数の顔画像と該特定表情とは異なる表情を示す複数の顔画像とからなる表情学習用データセットを使用して、与えられた顔画像の表情を認識する表情認識装置を学習する表情学習装置であって、
ガボア・フィルタにより上記表情学習用データセットから抽出した顔特徴に基づき、与えられた顔画像から上記特定表情を示す顔画像を識別する表情認識装置を学習する表情学習手段を有する
ことを特徴とする表情学習装置。 - 上記表情学習手段は、上記ガボア・フィルタにより上記表情学習用データセットから抽出された顔特徴に基づき上記特定表情を示す顔画像を識別するためのサポート・ベクタを学習する
ことを特徴とする請求項32記載の表情学習装置。 - 上記表情学習手段は、
複数のガボア・フィルタから選択した一のガボア・フィルタのフィルタリング結果に基づき、与えられた顔画像が上記特定表情であるか否かを推定する弱仮説を生成する処理を繰り返す弱仮説生成手段と、
上記弱仮説生成手段により生成された弱仮説の上記表情学習用データセットに対する推定性能に基づき当該弱仮説の信頼度を算出する信頼度算出手段と、
上記信頼度に基づき上記表情学習用データセットに設定されるデータ重みを更新するデータ重み更新手段とを有し、
上記弱仮説生成手段は、上記データ重みが更新される毎に、上記表情学習用データセットに対する推定性能が最も大きい一のガボア・フィルタを選択して上記弱仮説を生成する処理を繰り返す
ことを特徴とする請求項32記載の表情学習装置。 - 上記表情学習手段は、
複数のガボア・フィルタから選択した一のガボア・フィルタのフィルタリング結果に基づき、与えられた顔画像が上記特定表情であるか否かを推定する弱仮説を生成する処理を繰り返す弱仮説生成手段と、
上記弱仮説生成手段により生成された弱仮説の上記表情学習用データセットに対する推定性能に基づき当該弱仮説の信頼度を算出する信頼度算出手段と、
上記信頼度に基づき上記表情学習用データセットに設定されるデータ重みを更新するデータ重み更新手段と、
所定のガボア・フィルタにより上記表情学習用データセットから抽出された顔特徴に基づき上記特定表情を示す顔画像を識別するためのサポート・ベクタを学習するサポート・ベクタ学習手段とを有し、
上記弱仮説生成手段は、上記データ重みが更新される毎に、上記表情学習用データセットに対する推定性能が最も大きい一のガボア・フィルタを選択して上記弱仮説を生成する処理を繰り返し、
上記サポート・ベクタ学習手段は、上記弱仮説生成手段により生成された弱仮説に選択されたガボア・フィルタにより上記顔特徴を抽出し、上記サポート・ベクタを学習する
ことを特徴とする請求項32記載の表情学習装置。 - 認識対象となる特定表情を示す複数の顔画像と該特定表情とは異なる表情を示す複数の顔画像とからなる表情学習用データセットを使用して、与えられた顔画像の表情を認識する表情認識装置を学習する表情学習方法であって、
ガボア・フィルタにより上記表情学習用データセットから抽出した顔特徴に基づき、与えられた顔画像から上記特定表情を示す顔画像を識別する表情認識装置を学習する表情学習工程を有する
ことを特徴とする表情学習方法。 - 上記表情学習工程では、ガボア・フィルタにより上記表情学習用データセットから抽出された顔特徴に基づき上記特定表情を示す顔画像を識別するためのサポート・ベクタを学習する
ことを特徴とする請求項36記載の表情学習方法。 - 上記表情学習工程は、
複数のガボア・フィルタから選択した一のガボア・フィルタのフィルタリング結果に基づき、与えられた顔画像が上記特定表情であるか否かを推定する弱仮説を生成する処理を繰り返す弱仮説生成工程と、
上記弱仮説生成工程にて生成された弱仮説の上記表情学習用データセットに対する推定性能に基づき当該弱仮説の信頼度を算出する信頼度算出工程と、
上記信頼度に基づき上記表情学習用データセットに設定されるデータ重みを更新するデータ重み更新工程とを有し、
上記弱仮説生成工程では、上記データ重みが更新される毎に、上記表情学習用データセットに対する推定性能が最も大きい一のガボア・フィルタを選択して上記弱仮説を生成する
ことを特徴とする請求項36記載の表情学習方法。 - 上記表情学習工程は、
複数のガボア・フィルタから選択した一のガボア・フィルタのフィルタリング結果に基づき、与えられた顔画像が上記特定表情であるか否かを推定する弱仮説を生成する処理を繰り返す弱仮説生成工程と、
上記弱仮説生成工程にて生成された弱仮説の上記表情学習用データセットに対する推定性能に基づき当該弱仮説の信頼度を算出する信頼度算出工程と、
上記信頼度に基づき上記表情学習用データセットに設定されるデータ重みを更新するデータ重み更新工程と、
所定のガボア・フィルタにより上記表情学習用データセットから抽出された顔特徴に基づき上記特定表情を示す顔画像を識別するためのサポート・ベクタを学習するサポート・ベクタ学習工程とを有し、
上記弱仮説生成工程では、上記データ重みが更新される毎に、上記表情学習用データセットに対する推定性能が最も大きい一のガボア・フィルタを選択して上記弱仮説を生成し、
上記サポート・ベクタ学習工程では、上記弱仮説生成工程にて生成された弱仮説に選択されたガボア・フィルタにより上記顔特徴を抽出し、上記サポート・ベクタを学習する
ことを特徴とする請求項36記載の表情学習方法。 - 与えられた顔画像をガボア・フィルタによりフィルタリングして顔特徴を抽出する顔特徴抽出手段と、
上記顔特徴に基づき、上記与えられた顔画像の表情を認識する表情認識手段と
を有することを特徴とする表情認識装置。 - 上記表情認識手段は、上記与えられた顔画像から認識対象となる特定表情を示す顔画像を識別する表情識別器を有し、
上記表情識別器は、予め学習されたサポート・ベクタを使用して上記顔特徴抽出手段により抽出された顔特徴が上記特定表情であるか否かを識別するサポート・ベクタ・マシーン(SVM)である
ことを特徴とする請求項40記載の表情認識装置。 - 上記表情認識手段は、上記与えられた顔画像から認識対象となる特定表情を示す顔画像を識別する表情識別器を有し、
上記表情識別器は、
複数の弱仮説からなる推定結果出力手段と、
上記推定結果出力手段から出力される推定結果に基づき与えられた顔画像が上記特定表情であるか否かを判別する判別手段とを有し、
上記推定結果出力手段は、予め学習された特徴量に基づき、上記与えられた顔画像が上記特定表情であるか否かを推定して上記複数の弱仮説毎に出力し、
上記判別手段は、弱仮説の推定結果と当該弱仮説の推定性能に基づき学習された信頼度との積を、一の弱仮説が推定結果を出力する毎に加算し、該加算結果に基づき上記顔画像が上記特定表情であるか否かを判別する
ことを特徴とする請求項40記載の表情認識装置。 - 上記表情認識手段は、複数の、特定表情を示す顔画像を識別する表情識別器と、該複数の表情識別器の識別結果に基づき、上記与えられた顔画像の表情を決定する表情決定手段とを有し、
上記表情決定手段は、各表情識別器の上記加算結果に基づき、上記与えられた顔画像の表情を決定する
ことを特徴とする請求項42記載の表情認識装置。 - 上記表情認識手段は、上記与えられた顔画像から認識対象となる特定表情を示す顔画像を識別する表情識別器を有し、
上記表情識別器は、予め学習されたサポート・ベクタを使用して上記顔特徴抽出手段により抽出された顔特徴が上記特定表情であるか否かを識別するサポート・ベクタ・マシーン(SVM)であって、
上記サポート・ベクタは、認識対象となる特定表情を示す複数の顔画像と該特定表情とは異なる表情を示す複数の顔画像とからなる表情学習用データセットを使用して、複数のガボア・フィルタから選択した一のガボア・フィルタのフィルタリング結果に基づき、与えられた顔画像が上記特定表情であるか否かを推定する弱仮説を繰り返し生成した際に弱仮説として選択された全ガボア・フィルタにより、該表情学習用データセットから顔特徴を抽出し、該抽出された顔特徴に基づき予め学習されたものである
ことを特徴とする請求項40記載の表情認識装置。 - 与えられた顔画像をガボア・フィルタによりフィルタリングして顔特徴を抽出する顔特徴抽出工程と、
上記顔特徴に基づき、上記与えられた顔画像の表情を認識する表情認識工程と
を有することを特徴とする表情認識方法。 - 上記表情認識工程は、上記与えられた顔画像から上記特定表情を示す顔画像を識別する特定表情識別工程を有し、
上記特定表情識別工程では、予め学習されたサポート・ベクタを使用してサポート・ベクタ・マシーン(SVM)により、上記顔特徴抽出工程にて抽出された顔特徴が上記特定表情を示す顔画像であるか否かを識別する
ことを特徴とする請求項45記載の表情認識方法。 - 上記表情認識工程は、上記与えられた顔画像から上記特定表情を示す顔画像を識別する特定表情識別工程を有し、
上記特定表情識別工程は、
予め学習された特徴量に基づき、上記与えられた顔画像が上記特定表情であるか否かを複数の弱仮説毎に推定して出力する推定結果出力工程と、
上記推定結果出力工程にて出力された推定結果に基づき与えられた顔画像が上記特定表情であるか否かを判別する判別工程とを有し、
上記判別工程では、弱仮説の推定結果と当該弱仮説の推定性能に基づき学習された信頼度との積を、一の弱仮説が推定結果を出力する毎に加算し、該加算結果に基づき上記顔画像が上記特定表情であるか否かを判別する
ことを特徴とする請求項45記載の表情認識方法。 - 上記表情認識工程は、上記与えられた顔画像から上記特定表情を示す顔画像を識別する特定表情識別工程を有し、
上記特定表情識別工程は、予め学習されたサポート・ベクタを使用してサポート・ベクタ・マシーン(SVM)により、上記顔特徴抽出工程にて抽出された顔特徴が上記特定表情を示す顔画像であるか否かを識別する工程であって、
上記サポート・ベクタは、認識対象となる特定表情を示す複数の顔画像と該特定表情とは異なる表情を示す複数の顔画像とからなる表情学習用データセットを使用して、複数のガボア・フィルタから選択した一のガボア・フィルタのフィルタリング結果に基づき、与えられた顔画像が上記特定表情であるか否かを推定する弱仮説を繰り返し生成した際に弱仮説として選択された全ガボア・フィルタにより、該表情学習用データセットから顔特徴を抽出し、該抽出された顔特徴に基づき予め学習されたものである
ことを特徴とする請求項45記載の表情認識方法。 - 自律的に行動するロボット装置において、
周囲の画像を撮像する撮像手段と、
上記撮像手段により撮像された画像から任意の大きさのウィンドウ画像を切り出す切り出し手段と、
上記ウィンドウ画像が検出対象を示す画像であるか否かを検出する検出装置とを有し、
上記検出装置は、
複数の弱仮説からなる推定結果出力出手段と、
上記推定結果出力手段から出力される推定結果に基づき上記ウィンドウ画像が検出対象を示す画像であるか否かを判別する判別手段とを有し、
上記推定結果出力手段は、予め学習された特徴量に基づき、上記与えられたデータが検出対象であるか否かを各弱仮説毎に推定して出力し、
上記判別手段は、弱仮説の推定結果と当該弱仮説の推定性能に基づき学習された信頼度との積を、一の弱仮説が推定結果を出力する毎に加算し、該加算結果に基づき上記推定結果出力手段の処理を打ち切るか否かを決定する打ち切り手段を有する
ことを特徴とするロボット装置。 - 自律的に行動するロボット装置において、
周囲の画像を撮像する撮像手段と、
上記撮像手段により撮像された画像から所定の領域を顔画像として検出する顔画像検出装置と、
上記顔画像の表情を認識する表情認識装置とを備え、
上記表情認識装置は、
上記顔画像検出装置により検出された顔画像をガボア・フィルタによりフィルタリングして顔特徴を抽出する顔特徴抽出手段と、
上記顔特徴に基づき、上記与えられた顔画像の表情を認識する表情認識手段とを有する
ことを特徴とするロボット装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003417191A JP2005044330A (ja) | 2003-07-24 | 2003-12-15 | 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置 |
US10/871,494 US7379568B2 (en) | 2003-07-24 | 2004-06-17 | Weak hypothesis generation apparatus and method, learning apparatus and method, detection apparatus and method, facial expression learning apparatus and method, facial expression recognition apparatus and method, and robot apparatus |
US12/074,931 US7624076B2 (en) | 2003-07-24 | 2008-03-07 | Weak hypothesis generation apparatus and method, learning apparatus and method, detection apparatus and method, facial expression learning apparatus and method, facial expression recognition apparatus and method, and robot apparatus |
US12/075,080 US7587069B2 (en) | 2003-07-24 | 2008-03-07 | Weak hypothesis generation apparatus and method, learning apparatus and method, detection apparatus and method, facial expression learning apparatus and method, facial expression recognition apparatus and method, and robot apparatus |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US49031603P | 2003-07-24 | 2003-07-24 | |
JP2003417191A JP2005044330A (ja) | 2003-07-24 | 2003-12-15 | 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置 |
US10/871,494 US7379568B2 (en) | 2003-07-24 | 2004-06-17 | Weak hypothesis generation apparatus and method, learning apparatus and method, detection apparatus and method, facial expression learning apparatus and method, facial expression recognition apparatus and method, and robot apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005044330A true JP2005044330A (ja) | 2005-02-17 |
Family
ID=34557028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003417191A Withdrawn JP2005044330A (ja) | 2003-07-24 | 2003-12-15 | 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置 |
Country Status (2)
Country | Link |
---|---|
US (3) | US7379568B2 (ja) |
JP (1) | JP2005044330A (ja) |
Cited By (81)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284348A (ja) * | 2004-03-26 | 2005-10-13 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP2006251955A (ja) * | 2005-03-09 | 2006-09-21 | Fuji Photo Film Co Ltd | 判別器生成装置、判別器生成方法およびそのプログラム |
JP2006268825A (ja) * | 2005-02-28 | 2006-10-05 | Toshiba Corp | オブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラム |
JP2006285989A (ja) * | 2005-04-02 | 2006-10-19 | Adobe Systems Inc | 画像内のオブジェクトの抽出及び倍率変更表示 |
JP2006285543A (ja) * | 2005-03-31 | 2006-10-19 | Denso It Laboratory Inc | 対象物認識装置及び対象物認識方法 |
JP2006318341A (ja) * | 2005-05-16 | 2006-11-24 | Sony Corp | 検知対象画像判定装置、検知対象画像判定方法および検知対象画像判定プログラム |
JP2006323507A (ja) * | 2005-05-17 | 2006-11-30 | Yamaha Motor Co Ltd | 属性識別システムおよび属性識別方法 |
WO2006134981A1 (ja) * | 2005-06-15 | 2006-12-21 | Matsushita Electric Industrial Co., Ltd. | 対象物検出装置及びその学習装置 |
JP2007047965A (ja) * | 2005-08-09 | 2007-02-22 | Fujifilm Corp | デジタル画像の対象物検出方法および装置並びにプログラム |
JP2007058751A (ja) * | 2005-08-26 | 2007-03-08 | Fujitsu Ten Ltd | 物体判別装置、物体判別方法および物体判別プログラム |
WO2007043712A1 (ja) * | 2005-10-14 | 2007-04-19 | Nagasaki University | 感情評価方法および感情表示方法、並びに、それらのための、プログラム、記録媒体およびシステム |
JP2007249852A (ja) * | 2006-03-17 | 2007-09-27 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP2007265150A (ja) * | 2006-03-29 | 2007-10-11 | Sony Corp | 画像処理装置、画像処理方法および撮像装置 |
JP2007272298A (ja) * | 2006-03-30 | 2007-10-18 | Fujifilm Corp | 顔検出方法およびこれを用いた撮影装置 |
JP2007323177A (ja) * | 2006-05-30 | 2007-12-13 | Fuji Heavy Ind Ltd | 画像処理装置 |
JP2008033424A (ja) * | 2006-07-26 | 2008-02-14 | Canon Inc | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
KR100813167B1 (ko) | 2006-06-09 | 2008-03-17 | 삼성전자주식회사 | 고속 정확한 얼굴 검출 방법과 얼굴 검출 학습 방법 및이를 구현하는 시스템 |
JP2008165731A (ja) * | 2006-12-08 | 2008-07-17 | Sony Corp | 情報処理装置および情報処理方法、認識装置および情報認識方法、並びに、プログラム |
JP2008530701A (ja) * | 2005-02-21 | 2008-08-07 | ミツビシ・エレクトリック・インフォメイション・テクノロジー・センター・ヨーロッパ・ビーヴィ | 顔特徴の検出方法 |
JP2008217589A (ja) * | 2007-03-06 | 2008-09-18 | Toshiba Corp | 学習装置及びパターン認識装置 |
JP2008234653A (ja) * | 2007-03-21 | 2008-10-02 | Ricoh Co Ltd | 目標画像検出方法及び画像検出装置 |
JP2009110212A (ja) * | 2007-10-29 | 2009-05-21 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2009140369A (ja) * | 2007-12-07 | 2009-06-25 | Sony Corp | 集団学習装置及び集団学習方法、対象物検出装置及び対象物検出方法、並びにコンピュータ・プログラム |
JP2009251962A (ja) * | 2008-04-07 | 2009-10-29 | Toshiba Corp | 強識別器の学習装置及びその方法並びに強識別器の学習プログラム |
JP2009265701A (ja) * | 2008-04-21 | 2009-11-12 | Canon Inc | 情報処理装置及び情報処理方法 |
US7634106B2 (en) | 2004-09-22 | 2009-12-15 | Fujifilm Corporation | Synthesized image generation method, synthesized image generation apparatus, and synthesized image generation program |
JP2010009518A (ja) * | 2008-06-30 | 2010-01-14 | Canon Inc | パターン検出器の学習装置、学習方法及びプログラム |
JP2010009517A (ja) * | 2008-06-30 | 2010-01-14 | Canon Inc | パターン検出器の学習装置、学習方法及びプログラム |
WO2010021373A1 (ja) | 2008-08-22 | 2010-02-25 | ソニー株式会社 | 画像表示装置、制御方法およびコンピュータプログラム |
WO2010050334A1 (ja) * | 2008-10-30 | 2010-05-06 | コニカミノルタエムジー株式会社 | 情報処理装置 |
WO2010050333A1 (ja) * | 2008-10-30 | 2010-05-06 | コニカミノルタエムジー株式会社 | 情報処理装置 |
CN101968853A (zh) * | 2010-10-15 | 2011-02-09 | 吉林大学 | 基于改进的免疫算法优化支持向量机参数的表情识别方法 |
JP2011034581A (ja) * | 2010-10-12 | 2011-02-17 | Panasonic Corp | 対象物検出装置及びその学習装置 |
WO2011027696A1 (ja) | 2009-09-07 | 2011-03-10 | ソニー株式会社 | 表示装置および制御方法 |
WO2011030624A1 (ja) | 2009-09-11 | 2011-03-17 | ソニー株式会社 | 表示装置および制御方法 |
WO2011030674A1 (ja) | 2009-09-11 | 2011-03-17 | ソニー株式会社 | 表示方法及び表示装置 |
WO2011033855A1 (ja) | 2009-09-15 | 2011-03-24 | ソニー株式会社 | 表示装置および制御方法 |
US7916903B2 (en) | 2006-11-21 | 2011-03-29 | Sony Corporation | Personal identification device, personal identification method, updating method for identification dictionary data, and updating program for identification dictionary data |
JP2011096291A (ja) * | 2011-02-18 | 2011-05-12 | Panasonic Corp | 特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法 |
JP2011138558A (ja) * | 2011-04-12 | 2011-07-14 | Kao Corp | 目の位置の検出方法および検出システム |
JPWO2009125710A1 (ja) * | 2008-04-08 | 2011-08-04 | 株式会社エヌ・ティ・ティ・ドコモ | メディア処理サーバ装置およびメディア処理方法 |
EP2437490A2 (en) | 2010-09-30 | 2012-04-04 | Sony Corporation | Information processing apparatus and information processing method |
US8306331B2 (en) | 2006-09-11 | 2012-11-06 | Sony Corporation | Image processing apparatus and method, and program |
EP2530675A2 (en) | 2011-05-30 | 2012-12-05 | Sony Corporation | Information processing apparatus, information processing method, and program |
US8331655B2 (en) | 2008-06-30 | 2012-12-11 | Canon Kabushiki Kaisha | Learning apparatus for pattern detector, learning method and computer-readable storage medium |
JP2013033331A (ja) * | 2011-08-01 | 2013-02-14 | Universal Entertainment Corp | 識別装置及び識別プログラム |
US8463049B2 (en) | 2007-07-05 | 2013-06-11 | Sony Corporation | Image processing apparatus and image processing method |
US8467580B2 (en) | 2006-09-11 | 2013-06-18 | Sony Corporation | Image data processing apparatus, method, program and recording medium |
US8472721B2 (en) | 2007-12-18 | 2013-06-25 | Canon Kabushiki Kaisha | Pattern identification unit generation method, information processing apparatus, computer program, and storage medium |
JP2013164863A (ja) * | 2013-04-24 | 2013-08-22 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
US8538961B2 (en) | 2005-11-02 | 2013-09-17 | Sony Corporation | Information processing apparatus and method, and program |
US8675136B2 (en) | 2008-09-12 | 2014-03-18 | Sony Corporation | Image display apparatus and detection method |
US8831356B2 (en) | 2011-05-30 | 2014-09-09 | Sony Corporation | Information processing apparatus, metadata setting method, and program |
KR101476799B1 (ko) * | 2013-07-10 | 2014-12-26 | 숭실대학교산학협력단 | 깊이 정보를 이용한 객체 검출 시스템 및 방법 |
JP2015507271A (ja) * | 2012-01-13 | 2015-03-05 | 富士通株式会社 | オブジェクト認識方法及びオブジェクト認識装置 |
US8977040B2 (en) | 2010-09-09 | 2015-03-10 | Samsung Electronics Co., Ltd. | Method and apparatus to generate object descriptor using extended curvature gabor filter |
US9014483B2 (en) | 2009-09-07 | 2015-04-21 | Canon Kabushiki Kaisha | Information processing method and apparatus |
US9021347B2 (en) | 2007-05-31 | 2015-04-28 | Canon Kabushiki Kaisha | Information processing method and apparatus, program, and storage medium |
US9214027B2 (en) | 2012-07-09 | 2015-12-15 | Canon Kabushiki Kaisha | Apparatus, method, and non-transitory computer-readable medium |
JP2016012342A (ja) * | 2014-06-05 | 2016-01-21 | ソフトバンク株式会社 | 行動制御システム及びプログラム |
US9256835B2 (en) | 2009-01-13 | 2016-02-09 | Canon Kabushiki Kaisha | Information processing apparatus enabling discriminator to learn and method thereof |
US9292760B2 (en) | 2012-07-09 | 2016-03-22 | Canon Kabushiki Kaisha | Apparatus, method, and non-transitory computer-readable medium |
JP2016143353A (ja) * | 2015-02-04 | 2016-08-08 | エヌ・ティ・ティ・コムウェア株式会社 | 学習装置、学習方法、およびプログラム |
WO2016125476A1 (ja) * | 2015-02-06 | 2016-08-11 | パナソニックIpマネジメント株式会社 | 決定方法およびプログラム |
JP2016146174A (ja) * | 2015-02-06 | 2016-08-12 | パナソニックIpマネジメント株式会社 | 決定方法およびプログラム |
JP2017500637A (ja) * | 2013-11-22 | 2017-01-05 | カリフォルニア インスティテュート オブ テクノロジー | 訓練データに関する重み利益エバリュエータ |
US9582758B2 (en) | 2014-07-08 | 2017-02-28 | Fujitsu Limited | Data classification method, storage medium, and classification device |
JP2017211930A (ja) * | 2016-05-27 | 2017-11-30 | ファナック株式会社 | 寿命故障条件を学習する機械学習装置,故障予知装置,機械システムおよび機械学習方法 |
US9953271B2 (en) | 2013-11-22 | 2018-04-24 | California Institute Of Technology | Generation of weights in machine learning |
JP2018106618A (ja) * | 2016-12-28 | 2018-07-05 | 日本放送協会 | 画像データ分類装置、オブジェクト検出装置及びこれらのプログラム |
WO2019009420A1 (ja) | 2017-07-07 | 2019-01-10 | 国立大学法人大阪大学 | トレンド分析を利用した痛みの判別、機械学習、経済的判別モデルおよびIoTを応用した医療装置、テイラーメイド機械学習、および新規疼痛判別用脳波特徴量 |
CN110472512A (zh) * | 2019-07-19 | 2019-11-19 | 河海大学 | 一种基于深度学习的人脸状态识别方法及其装置 |
US10535014B2 (en) | 2014-03-10 | 2020-01-14 | California Institute Of Technology | Alternative training distribution data in machine learning |
EP3637320A1 (en) | 2018-10-12 | 2020-04-15 | Fujitsu Limited | Computer program, learning apparatus, detecting apparatus, learning method, and detecting method |
JP2020111892A (ja) * | 2019-01-09 | 2020-07-27 | 株式会社明電舎 | 流量予測装置及び流量予測方法 |
WO2020246010A1 (ja) * | 2019-06-06 | 2020-12-10 | 日本電信電話株式会社 | 画像認識システム、画像認識サーバ、及び画像認識方法 |
CN112668467A (zh) * | 2020-12-25 | 2021-04-16 | 华中师范大学 | 行为分析方法、装置、电子设备及存储介质 |
KR20210076528A (ko) * | 2019-12-16 | 2021-06-24 | 조선대학교산학협력단 | 감정 인식 방법 및 장치 |
JPWO2020129959A1 (ja) * | 2018-12-18 | 2021-11-04 | グリー株式会社 | コンピュータプログラム、サーバ装置、端末装置及び表示方法 |
US20220101652A1 (en) * | 2019-01-31 | 2022-03-31 | Beijing Bytedance Network Technology Co., Ltd. | Method and device for generating image effect of facial expression, and electronic device |
CN116894973A (zh) * | 2023-07-06 | 2023-10-17 | 北京长木谷医疗科技股份有限公司 | 一种基于集成学习的髋关节病变智能自标注方法及装置 |
Families Citing this family (145)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8001067B2 (en) * | 2004-01-06 | 2011-08-16 | Neuric Technologies, Llc | Method for substituting an electronic emulation of the human brain into an application to replace a human |
US7089218B1 (en) * | 2004-01-06 | 2006-08-08 | Neuric Technologies, Llc | Method for inclusion of psychological temperament in an electronic emulation of the human brain |
US7925492B2 (en) | 2004-01-06 | 2011-04-12 | Neuric Technologies, L.L.C. | Method for determining relationships through use of an ordered list between processing nodes in an emulated human brain |
US20070156625A1 (en) * | 2004-01-06 | 2007-07-05 | Neuric Technologies, Llc | Method for movie animation |
US7266545B2 (en) * | 2001-08-07 | 2007-09-04 | International Business Machines Corporation | Methods and apparatus for indexing in a database and for retrieving data from a database in accordance with queries using example sets |
JP2005099920A (ja) * | 2003-09-22 | 2005-04-14 | Fuji Photo Film Co Ltd | 画像処理装置および画像処理方法ならびにプログラム |
JP2005199373A (ja) * | 2004-01-14 | 2005-07-28 | Toshiba Corp | コミュニケーション装置及びコミュニケーション方法 |
US7440930B1 (en) | 2004-07-22 | 2008-10-21 | Adobe Systems Incorporated | Training an attentional cascade |
US9779750B2 (en) | 2004-07-30 | 2017-10-03 | Invention Science Fund I, Llc | Cue-aware privacy filter for participants in persistent communications |
US9704502B2 (en) * | 2004-07-30 | 2017-07-11 | Invention Science Fund I, Llc | Cue-aware privacy filter for participants in persistent communications |
US20080080744A1 (en) * | 2004-09-17 | 2008-04-03 | Mitsubishi Electric Corporation | Face Identification Apparatus and Face Identification Method |
US7421114B1 (en) * | 2004-11-22 | 2008-09-02 | Adobe Systems Incorporated | Accelerating the boosting approach to training classifiers |
US20110102553A1 (en) * | 2007-02-28 | 2011-05-05 | Tessera Technologies Ireland Limited | Enhanced real-time face models from stereo imaging |
US8473449B2 (en) * | 2005-01-06 | 2013-06-25 | Neuric Technologies, Llc | Process of dialogue and discussion |
US7634142B1 (en) | 2005-01-24 | 2009-12-15 | Adobe Systems Incorporated | Detecting objects in images using a soft cascade |
US7796785B2 (en) * | 2005-03-03 | 2010-09-14 | Fujifilm Corporation | Image extracting apparatus, image extracting method, and image extracting program |
US20060260624A1 (en) * | 2005-05-17 | 2006-11-23 | Battelle Memorial Institute | Method, program, and system for automatic profiling of entities |
US20060282317A1 (en) * | 2005-06-10 | 2006-12-14 | Outland Research | Methods and apparatus for conversational advertising |
GB2434496B (en) * | 2005-07-14 | 2007-10-31 | Snell & Wilcox Ltd | Method and apparatus for analysing image data |
US8014590B2 (en) * | 2005-12-07 | 2011-09-06 | Drvision Technologies Llc | Method of directed pattern enhancement for flexible recognition |
US7953253B2 (en) * | 2005-12-31 | 2011-05-31 | Arcsoft, Inc. | Face detection on mobile devices |
US7643659B2 (en) * | 2005-12-31 | 2010-01-05 | Arcsoft, Inc. | Facial feature detection on mobile devices |
US7822223B2 (en) * | 2006-01-13 | 2010-10-26 | New Jersey Institute Of Technology | Method for identifying marked images using statistical moments based at least in part on a JPEG array |
WO2007086834A2 (en) * | 2006-01-13 | 2007-08-02 | New Jersey Institute Of Technology | Method for identifying marked images using statistical moments based at least in part on a jpeg array |
US8484146B2 (en) * | 2006-01-18 | 2013-07-09 | Sony Corporation | Interaction device implementing a bayesian's estimation |
JP2007213378A (ja) * | 2006-02-10 | 2007-08-23 | Fujifilm Corp | 特定表情顔検出方法、撮像制御方法および装置並びにプログラム |
US8417568B2 (en) * | 2006-02-15 | 2013-04-09 | Microsoft Corporation | Generation of contextual image-containing advertisements |
US7965886B2 (en) * | 2006-06-13 | 2011-06-21 | Sri International | System and method for detection of multi-view/multi-pose objects |
US8014591B2 (en) | 2006-09-13 | 2011-09-06 | Aurilab, Llc | Robust pattern recognition system and method using socratic agents |
US20080126275A1 (en) * | 2006-09-27 | 2008-05-29 | Crnojevic Vladimir S | Method of developing a classifier using adaboost-over-genetic programming |
US9833184B2 (en) * | 2006-10-27 | 2017-12-05 | Adidas Ag | Identification of emotional states using physiological responses |
JP2008117333A (ja) * | 2006-11-08 | 2008-05-22 | Sony Corp | 情報処理装置、情報処理方法、個人識別装置、個人識別装置における辞書データ生成・更新方法および辞書データ生成・更新プログラム |
US8315463B2 (en) * | 2006-11-14 | 2012-11-20 | Eastman Kodak Company | User interface for face recognition |
US8184915B2 (en) | 2006-12-04 | 2012-05-22 | Lockheed Martin Corporation | Device and method for fast computation of region based image features |
US20120264095A1 (en) * | 2006-12-29 | 2012-10-18 | Industrial Technology Research Institute | Emotion abreaction device and using method of emotion abreaction device |
JP4902562B2 (ja) * | 2007-02-07 | 2012-03-21 | パナソニック株式会社 | 撮像装置、画像処理装置、制御方法およびプログラム |
US8965762B2 (en) * | 2007-02-16 | 2015-02-24 | Industrial Technology Research Institute | Bimodal emotion recognition method and system utilizing a support vector machine |
TWI365416B (en) * | 2007-02-16 | 2012-06-01 | Ind Tech Res Inst | Method of emotion recognition and learning new identification information |
ATE472140T1 (de) | 2007-02-28 | 2010-07-15 | Fotonation Vision Ltd | Trennung der direktionalen beleuchtungsvariabilität in der statistischen gesichtsmodellierung auf basis von texturraumzerlegungen |
US8615112B2 (en) | 2007-03-30 | 2013-12-24 | Casio Computer Co., Ltd. | Image pickup apparatus equipped with face-recognition function |
US7844085B2 (en) * | 2007-06-07 | 2010-11-30 | Seiko Epson Corporation | Pairwise feature learning with boosting for use in face detection |
JP4506795B2 (ja) * | 2007-08-06 | 2010-07-21 | ソニー株式会社 | 生体運動情報表示処理装置、生体運動情報処理システム |
US20090226032A1 (en) * | 2007-09-28 | 2009-09-10 | Matthew Allen Merzbacher | Systems and methods for reducing false alarms in detection systems |
CN101809574A (zh) * | 2007-09-28 | 2010-08-18 | 日本电气株式会社 | 数据分类方法及数据分类装置 |
JP4891197B2 (ja) * | 2007-11-01 | 2012-03-07 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
US8509538B2 (en) * | 2007-12-20 | 2013-08-13 | Intel Corporation | Method and apparatus for obtaining and processing Gabor image features |
US8131065B2 (en) * | 2007-12-20 | 2012-03-06 | Intel Corporation | Method and apparatus for obtaining and processing image features |
WO2009079769A1 (en) * | 2007-12-21 | 2009-07-02 | University Of Northern British Columbia | Methods and systems for electoral-college-based image recognition |
US8750578B2 (en) | 2008-01-29 | 2014-06-10 | DigitalOptics Corporation Europe Limited | Detecting facial expressions in digital images |
US7551341B1 (en) * | 2008-01-28 | 2009-06-23 | Dolby Laboratories Licensing Corporation | Serial modulation display having binary light modulation stage |
US8099373B2 (en) * | 2008-02-14 | 2012-01-17 | Microsoft Corporation | Object detector trained using a working set of training data |
JP4919297B2 (ja) * | 2008-03-13 | 2012-04-18 | 富士フイルム株式会社 | 画像評価装置および方法並びにプログラム |
US8244044B2 (en) * | 2008-04-25 | 2012-08-14 | Microsoft Corporation | Feature selection and extraction |
US8364528B2 (en) * | 2008-05-06 | 2013-01-29 | Richrelevance, Inc. | System and process for improving product recommendations for use in providing personalized advertisements to retail customers |
US8433106B2 (en) | 2008-07-08 | 2013-04-30 | Hewlett-Packard Development Company, L.P. | Increasing face detection speed |
US8200017B2 (en) * | 2008-10-04 | 2012-06-12 | Microsoft Corporation | Face alignment via component-based discriminative search |
US8442327B2 (en) * | 2008-11-21 | 2013-05-14 | Nvidia Corporation | Application of classifiers to sub-sampled integral images for detecting faces in images |
KR101192365B1 (ko) * | 2008-12-18 | 2012-10-17 | 한국전자통신연구원 | 얼굴 검출 시스템 및 그 방법 |
JP2010165052A (ja) * | 2009-01-13 | 2010-07-29 | Canon Inc | 画像処理装置及び画像処理方法 |
JP5127067B2 (ja) * | 2009-03-06 | 2013-01-23 | パナソニック株式会社 | 画像検索装置及び画像検索方法 |
EP2406401A4 (en) | 2009-03-12 | 2013-01-09 | Cancer Prevention & Cure Ltd | METHODS OF IDENTIFYING, ASSESSING, PREVENTING AND THERAPYING LUNG DISEASES AND THEIR KITS COMPRISING IDENTIFICATION, EVALUATION, PREVENTION AND THERAPY OF SEX BASED DISEASES |
JP5335536B2 (ja) * | 2009-04-23 | 2013-11-06 | キヤノン株式会社 | 情報処理装置及び情報処理方法 |
TW201039251A (en) * | 2009-04-30 | 2010-11-01 | Novatek Microelectronics Corp | Facial expression recognition apparatus and facial expression recognition method thereof |
JP5371541B2 (ja) * | 2009-05-19 | 2013-12-18 | キヤノン株式会社 | データ処理装置及びその処理方法 |
CN101894262B (zh) * | 2009-05-20 | 2014-07-09 | 索尼株式会社 | 对图像进行分类的方法和设备 |
US8649594B1 (en) | 2009-06-04 | 2014-02-11 | Agilence, Inc. | Active and adaptive intelligent video surveillance system |
JP4743312B2 (ja) * | 2009-07-29 | 2011-08-10 | 株式会社デンソー | 画像識別装置 |
US8326002B2 (en) * | 2009-08-13 | 2012-12-04 | Sensory Logic, Inc. | Methods of facial coding scoring for optimally identifying consumers' responses to arrive at effective, incisive, actionable conclusions |
US8498453B1 (en) * | 2009-09-30 | 2013-07-30 | Lifetouch, Inc. | Evaluating digital images using head points |
US8170332B2 (en) * | 2009-10-07 | 2012-05-01 | Seiko Epson Corporation | Automatic red-eye object classification in digital images using a boosting-based framework |
US8577135B2 (en) * | 2009-11-17 | 2013-11-05 | Tandent Vision Science, Inc. | System and method for detection of specularity in an image |
JP2011181016A (ja) * | 2010-03-04 | 2011-09-15 | Fujifilm Corp | 判別器生成装置および方法並びにプログラム |
CN102194122A (zh) * | 2010-03-05 | 2011-09-21 | 索尼公司 | 对图像进行分类的方法和设备 |
JP5394959B2 (ja) * | 2010-03-23 | 2014-01-22 | 富士フイルム株式会社 | 判別器生成装置および方法並びにプログラム |
US9634855B2 (en) | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
US9122955B2 (en) * | 2010-06-28 | 2015-09-01 | Ramot At Tel-Aviv University Ltd. | Method and system of classifying medical images |
US8345934B2 (en) * | 2010-07-19 | 2013-01-01 | Telefonica, S.A. | Method for automatic storytelling for photo albums using social network context |
JP5565190B2 (ja) * | 2010-08-11 | 2014-08-06 | 富士ゼロックス株式会社 | 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置 |
JPWO2012070430A1 (ja) * | 2010-11-24 | 2014-05-19 | 日本電気株式会社 | 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム |
JPWO2012070428A1 (ja) * | 2010-11-24 | 2014-05-19 | 日本電気株式会社 | 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム |
WO2012070429A1 (ja) * | 2010-11-24 | 2012-05-31 | 日本電気株式会社 | 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム |
JP2012113621A (ja) * | 2010-11-26 | 2012-06-14 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
US8836777B2 (en) | 2011-02-25 | 2014-09-16 | DigitalOptics Corporation Europe Limited | Automatic detection of vertical gaze using an embedded imaging device |
US9013264B2 (en) | 2011-03-12 | 2015-04-21 | Perceptive Devices, Llc | Multipurpose controller for electronic devices, facial expressions management and drowsiness detection |
FR2973540B1 (fr) * | 2011-04-01 | 2013-03-29 | CVDM Solutions | Procede d'extraction automatisee d'un planogramme a partir d'images de lineaire |
CA2834383A1 (en) | 2011-04-29 | 2012-11-01 | Cancer Prevention And Cure, Ltd. | Methods of identification and diagnosis of lung diseases using classification systems and kits thereof |
JP2012243179A (ja) * | 2011-05-23 | 2012-12-10 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
WO2012166072A1 (en) * | 2011-05-31 | 2012-12-06 | Echostar Ukraine, L.L.C. | Apparatus, systems and methods for enhanced viewing experience using an avatar |
JP2013022705A (ja) * | 2011-07-25 | 2013-02-04 | Sony Corp | ロボット装置及びロボット装置の制御方法、コンピューター・プログラム、並びにロボット・システム |
US8706299B2 (en) * | 2011-08-02 | 2014-04-22 | GM Global Technology Operations LLC | Method and system for controlling a dexterous robot execution sequence using state classification |
JP5848551B2 (ja) * | 2011-08-26 | 2016-01-27 | キヤノン株式会社 | 学習装置、学習装置の制御方法、検出装置、検出装置の制御方法、およびプログラム |
JP2013046374A (ja) * | 2011-08-26 | 2013-03-04 | Sanyo Electric Co Ltd | 画像処理装置 |
US20130066452A1 (en) * | 2011-09-08 | 2013-03-14 | Yoshiyuki Kobayashi | Information processing device, estimator generating method and program |
US8855369B2 (en) | 2012-06-22 | 2014-10-07 | Microsoft Corporation | Self learning face recognition using depth based tracking for database generation and update |
US9607246B2 (en) | 2012-07-30 | 2017-03-28 | The Trustees Of Columbia University In The City Of New York | High accuracy learning by boosting weak learners |
US8369595B1 (en) * | 2012-08-10 | 2013-02-05 | EyeVerify LLC | Texture features for biometric authentication |
US9796095B1 (en) | 2012-08-15 | 2017-10-24 | Hanson Robokind And Intelligent Bots, Llc | System and method for controlling intelligent animated characters |
JP5787845B2 (ja) * | 2012-08-24 | 2015-09-30 | 株式会社東芝 | 画像認識装置、方法、及びプログラム |
EP2915101A4 (en) * | 2012-11-02 | 2017-01-11 | Itzhak Wilf | Method and system for predicting personality traits, capabilities and suggested interactions from images of a person |
US9158970B2 (en) | 2012-11-16 | 2015-10-13 | Canon Kabushiki Kaisha | Devices, systems, and methods for visual-attribute refinement |
WO2014124407A2 (en) * | 2013-02-08 | 2014-08-14 | Emotient | Collection of machine learning training data for expression recognition |
US20140315168A1 (en) * | 2013-02-12 | 2014-10-23 | Emotient | Facial expression measurement for assessment, monitoring, and treatment evaluation of affective and neurological disorders |
CN103116749A (zh) * | 2013-03-12 | 2013-05-22 | 上海洪剑智能科技有限公司 | 一种基于自建图像库的近红外人脸识别方法 |
AU2014302603A1 (en) | 2013-06-24 | 2016-01-07 | Cylance Inc. | Automated system for generative multimodel multiclass classification and similarity analysis using machine learning |
CN103310200B (zh) * | 2013-06-25 | 2016-08-10 | 郑州吉瑞特电子科技有限公司 | 人脸识别方法 |
US10405786B2 (en) * | 2013-10-09 | 2019-09-10 | Nedim T. SAHIN | Systems, environment and methods for evaluation and management of autism spectrum disorder using a wearable data collection device |
US8930916B1 (en) | 2014-01-31 | 2015-01-06 | Cylance Inc. | Generation of API call graphs from static disassembly |
US9262296B1 (en) | 2014-01-31 | 2016-02-16 | Cylance Inc. | Static feature extraction from structured files |
EP3103070B1 (en) * | 2014-02-07 | 2023-09-13 | Cylance Inc. | Application execution control utilizing ensemble machine learning for discernment |
US9058517B1 (en) * | 2014-04-16 | 2015-06-16 | I.R.I.S. | Pattern recognition system and method using Gabor functions |
US9436892B2 (en) * | 2014-05-02 | 2016-09-06 | Hong Kong Applied Science And Technology Research Institute Co., Ltd. | Method and apparatus for facial detection using regional similarity distribution analysis |
CN104036238B (zh) * | 2014-05-28 | 2017-07-07 | 南京大学 | 基于主动光的人眼定位的方法 |
CN104050451A (zh) * | 2014-06-18 | 2014-09-17 | 西北农林科技大学 | 一种基于多通道Haar-like特征的鲁棒目标跟踪方法 |
US9895804B1 (en) * | 2014-08-26 | 2018-02-20 | Boston Dynamics, Inc. | Failure mode |
US20160098592A1 (en) * | 2014-10-01 | 2016-04-07 | The Governing Council Of The University Of Toronto | System and method for detecting invisible human emotion |
US10043064B2 (en) * | 2015-01-14 | 2018-08-07 | Samsung Electronics Co., Ltd. | Method and apparatus of detecting object using event-based sensor |
JP6632193B2 (ja) * | 2015-01-16 | 2020-01-22 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9465940B1 (en) | 2015-03-30 | 2016-10-11 | Cylance Inc. | Wavelet decomposition of software entropy to identify malware |
CN104866833B (zh) * | 2015-05-29 | 2018-11-09 | 中国科学院上海高等研究院 | 视频流人脸检测方法及其装置 |
US10542961B2 (en) | 2015-06-15 | 2020-01-28 | The Research Foundation For The State University Of New York | System and method for infrasonic cardiac monitoring |
EP3131202A1 (de) * | 2015-08-11 | 2017-02-15 | Siemens Aktiengesellschaft | Filterumschaltverfahren für eine maschinensteuerung |
JP6915542B2 (ja) * | 2015-09-30 | 2021-08-04 | 日本電気株式会社 | 情報処理装置、通知システム、情報送信方法及びプログラム |
US10040551B2 (en) * | 2015-12-22 | 2018-08-07 | International Business Machines Corporation | Drone delivery of coffee based on a cognitive state of an individual |
JP6726388B2 (ja) * | 2016-03-16 | 2020-07-22 | 富士ゼロックス株式会社 | ロボット制御システム |
WO2017213780A1 (en) * | 2016-05-06 | 2017-12-14 | The Board Of Trustees Of The Leland Stanford Junior University | Mobile and wearable video capture and feedback plat-forms for therapy of mental disorders |
US9767349B1 (en) * | 2016-05-09 | 2017-09-19 | Xerox Corporation | Learning emotional states using personalized calibration tasks |
CN109313935B (zh) * | 2016-06-27 | 2023-10-20 | 索尼公司 | 信息处理系统、存储介质和信息处理方法 |
CA3043016A1 (en) * | 2016-11-10 | 2018-05-17 | Warner Bros. Entertainment Inc. | Social robot with environmental control feature |
JP7250693B2 (ja) | 2017-04-04 | 2023-04-03 | ラング キャンサー プロテオミクス, エルエルシー | 初期ステージの肺がん診断のための血漿ベースのタンパク質プロファイリング |
GB201713829D0 (en) * | 2017-08-29 | 2017-10-11 | We Are Human Ltd | Image data processing system and method |
US10867161B2 (en) * | 2017-09-06 | 2020-12-15 | Pixart Imaging Inc. | Auxiliary filtering device for face recognition and starting method for electronic device |
CN111386068B (zh) | 2017-10-24 | 2023-05-30 | 纽洛斯公司 | 基于摄像机的压力测量系统与方法 |
JP6720951B2 (ja) * | 2017-11-15 | 2020-07-08 | オムロン株式会社 | 運転者状態判定装置とその方法およびプログラム |
US10726248B2 (en) | 2018-02-01 | 2020-07-28 | Ford Global Technologies, Llc | Validating gesture recognition capabilities of automated systems |
TWI711980B (zh) | 2018-02-09 | 2020-12-01 | 國立交通大學 | 表情辨識訓練系統及表情辨識訓練方法 |
CN108932484A (zh) * | 2018-06-20 | 2018-12-04 | 华南理工大学 | 一种基于Capsule Net的人脸表情识别方法 |
CN109159129A (zh) * | 2018-08-03 | 2019-01-08 | 深圳市益鑫智能科技有限公司 | 一种基于人脸表情识别的智能陪伴机器人 |
US10747989B2 (en) * | 2018-08-21 | 2020-08-18 | Software Ag | Systems and/or methods for accelerating facial feature vector matching with supervised machine learning |
WO2020070943A1 (ja) * | 2018-10-03 | 2020-04-09 | 株式会社Nttドコモ | パターン認識装置及び学習済みモデル |
CN111259689B (zh) * | 2018-11-30 | 2023-04-25 | 百度在线网络技术(北京)有限公司 | 用于发送信息的方法和装置 |
KR20200135059A (ko) * | 2019-05-24 | 2020-12-02 | 삼성전자주식회사 | 데이터를 처리하는 방법 및 장치 |
CN110610754A (zh) * | 2019-08-16 | 2019-12-24 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种沉浸式可穿戴诊断与治疗装置 |
CN112668551B (zh) * | 2021-01-18 | 2023-09-22 | 上海对外经贸大学 | 基于遗传算法的表情分类方法 |
WO2023159073A1 (en) * | 2022-02-15 | 2023-08-24 | Currus Ai Inc. | Methods and systems of sensor fusion in cooperative perception systems |
CN115809006B (zh) * | 2022-12-05 | 2023-08-08 | 北京拙河科技有限公司 | 一种画面控制人工指令的方法及装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3088171B2 (ja) * | 1991-02-12 | 2000-09-18 | 三菱電機株式会社 | 自己組織型パタ−ン分類システム及び分類方法 |
CA2167748A1 (en) * | 1995-02-09 | 1996-08-10 | Yoav Freund | Apparatus and methods for machine learning hypotheses |
US6272231B1 (en) * | 1998-11-06 | 2001-08-07 | Eyematic Interfaces, Inc. | Wavelet-based facial motion capture for avatar animation |
US6287765B1 (en) * | 1998-05-20 | 2001-09-11 | Molecular Machines, Inc. | Methods for detecting and identifying single molecules |
US6374197B1 (en) * | 1999-05-10 | 2002-04-16 | The United States Of America As Represented By The Secretary Of The Navy | Fuzzy logic based model assessment system and method for contact tracking |
US6317700B1 (en) * | 1999-12-22 | 2001-11-13 | Curtis A. Bagne | Computational method and system to perform empirical induction |
US7106887B2 (en) * | 2000-04-13 | 2006-09-12 | Fuji Photo Film Co., Ltd. | Image processing method using conditions corresponding to an identified person |
US6876364B2 (en) * | 2001-08-13 | 2005-04-05 | Vidiator Enterprises Inc. | Method for mapping facial animation values to head mesh positions |
US7130446B2 (en) * | 2001-12-03 | 2006-10-31 | Microsoft Corporation | Automatic detection and tracking of multiple individuals using multiple cues |
JP3726263B2 (ja) * | 2002-03-01 | 2005-12-14 | ヒューレット・パッカード・カンパニー | 文書分類方法及び装置 |
EP1343107A3 (en) * | 2002-03-04 | 2005-03-23 | Samsung Electronics Co., Ltd. | Method and apparatus for recognising faces using principal component analysis and second order independent component analysis on parts of the image faces |
KR100438841B1 (ko) * | 2002-04-23 | 2004-07-05 | 삼성전자주식회사 | 이용자 검증 및 데이터 베이스 자동 갱신 방법, 및 이를이용한 얼굴 인식 시스템 |
US7031499B2 (en) * | 2002-07-22 | 2006-04-18 | Mitsubishi Electric Research Laboratories, Inc. | Object recognition system |
US7203669B2 (en) * | 2003-03-17 | 2007-04-10 | Intel Corporation | Detector tree of boosted classifiers for real-time object detection and tracking |
-
2003
- 2003-12-15 JP JP2003417191A patent/JP2005044330A/ja not_active Withdrawn
-
2004
- 2004-06-17 US US10/871,494 patent/US7379568B2/en active Active
-
2008
- 2008-03-07 US US12/074,931 patent/US7624076B2/en not_active Expired - Lifetime
- 2008-03-07 US US12/075,080 patent/US7587069B2/en not_active Expired - Lifetime
Cited By (120)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284348A (ja) * | 2004-03-26 | 2005-10-13 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
US7634106B2 (en) | 2004-09-22 | 2009-12-15 | Fujifilm Corporation | Synthesized image generation method, synthesized image generation apparatus, and synthesized image generation program |
JP4755202B2 (ja) * | 2005-02-21 | 2011-08-24 | ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ | 顔特徴の検出方法 |
JP2008530701A (ja) * | 2005-02-21 | 2008-08-07 | ミツビシ・エレクトリック・インフォメイション・テクノロジー・センター・ヨーロッパ・ビーヴィ | 顔特徴の検出方法 |
JP2006268825A (ja) * | 2005-02-28 | 2006-10-05 | Toshiba Corp | オブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラム |
JP2006251955A (ja) * | 2005-03-09 | 2006-09-21 | Fuji Photo Film Co Ltd | 判別器生成装置、判別器生成方法およびそのプログラム |
JP4667912B2 (ja) * | 2005-03-09 | 2011-04-13 | 富士フイルム株式会社 | 判別器生成装置、判別器生成方法およびそのプログラム |
JP2006285543A (ja) * | 2005-03-31 | 2006-10-19 | Denso It Laboratory Inc | 対象物認識装置及び対象物認識方法 |
JP4652101B2 (ja) * | 2005-03-31 | 2011-03-16 | 株式会社デンソーアイティーラボラトリ | 対象物認識装置及び対象物認識方法 |
JP2006285989A (ja) * | 2005-04-02 | 2006-10-19 | Adobe Systems Inc | 画像内のオブジェクトの抽出及び倍率変更表示 |
JP4524264B2 (ja) * | 2005-04-02 | 2010-08-11 | アドビ システムズ, インコーポレイテッド | 画像内のオブジェクトの抽出及び倍率変更表示 |
JP2006318341A (ja) * | 2005-05-16 | 2006-11-24 | Sony Corp | 検知対象画像判定装置、検知対象画像判定方法および検知対象画像判定プログラム |
JP2006323507A (ja) * | 2005-05-17 | 2006-11-30 | Yamaha Motor Co Ltd | 属性識別システムおよび属性識別方法 |
JP4668680B2 (ja) * | 2005-05-17 | 2011-04-13 | ヤマハ発動機株式会社 | 属性識別システムおよび属性識別辞書生成装置 |
JP2006350645A (ja) * | 2005-06-15 | 2006-12-28 | Matsushita Electric Ind Co Ltd | 対象物検出装置及びその学習装置 |
WO2006134981A1 (ja) * | 2005-06-15 | 2006-12-21 | Matsushita Electric Industrial Co., Ltd. | 対象物検出装置及びその学習装置 |
US8233720B2 (en) | 2005-06-15 | 2012-07-31 | Panasonic Corporation | Object detecting apparatus and learning apparatus for the same |
JP4708909B2 (ja) * | 2005-08-09 | 2011-06-22 | 富士フイルム株式会社 | デジタル画像の対象物検出方法および装置並びにプログラム |
JP2007047965A (ja) * | 2005-08-09 | 2007-02-22 | Fujifilm Corp | デジタル画像の対象物検出方法および装置並びにプログラム |
JP2007058751A (ja) * | 2005-08-26 | 2007-03-08 | Fujitsu Ten Ltd | 物体判別装置、物体判別方法および物体判別プログラム |
JPWO2007043712A1 (ja) * | 2005-10-14 | 2009-04-23 | 国立大学法人 長崎大学 | 感情評価方法および感情表示方法、並びに、それらのための、プログラム、記録媒体およびシステム |
WO2007043712A1 (ja) * | 2005-10-14 | 2007-04-19 | Nagasaki University | 感情評価方法および感情表示方法、並びに、それらのための、プログラム、記録媒体およびシステム |
US8538961B2 (en) | 2005-11-02 | 2013-09-17 | Sony Corporation | Information processing apparatus and method, and program |
US9507802B2 (en) | 2005-11-02 | 2016-11-29 | Sony Corporation | Information processing apparatus and method, and program |
JP4556891B2 (ja) * | 2006-03-17 | 2010-10-06 | ソニー株式会社 | 情報処理装置および方法、記録媒体、並びにプログラム |
JP2007249852A (ja) * | 2006-03-17 | 2007-09-27 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
US7844108B2 (en) | 2006-03-17 | 2010-11-30 | Sony Corporation | Information processing apparatus and method, recording medium and program |
US8126219B2 (en) | 2006-03-29 | 2012-02-28 | Sony Corporation | Image processing apparatus, image processing method, and imaging apparatus |
JP4539597B2 (ja) * | 2006-03-29 | 2010-09-08 | ソニー株式会社 | 画像処理装置、画像処理方法および撮像装置 |
JP2007265150A (ja) * | 2006-03-29 | 2007-10-11 | Sony Corp | 画像処理装置、画像処理方法および撮像装置 |
JP2007272298A (ja) * | 2006-03-30 | 2007-10-18 | Fujifilm Corp | 顔検出方法およびこれを用いた撮影装置 |
JP4740038B2 (ja) * | 2006-05-30 | 2011-08-03 | 富士重工業株式会社 | 画像処理装置 |
JP2007323177A (ja) * | 2006-05-30 | 2007-12-13 | Fuji Heavy Ind Ltd | 画像処理装置 |
KR100813167B1 (ko) | 2006-06-09 | 2008-03-17 | 삼성전자주식회사 | 고속 정확한 얼굴 검출 방법과 얼굴 검출 학습 방법 및이를 구현하는 시스템 |
US8144943B2 (en) | 2006-07-26 | 2012-03-27 | Canon Kabushiki Kaisha | Apparatus and method for detecting specific subject in image |
JP2008033424A (ja) * | 2006-07-26 | 2008-02-14 | Canon Inc | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
US8306331B2 (en) | 2006-09-11 | 2012-11-06 | Sony Corporation | Image processing apparatus and method, and program |
US8467580B2 (en) | 2006-09-11 | 2013-06-18 | Sony Corporation | Image data processing apparatus, method, program and recording medium |
US7916903B2 (en) | 2006-11-21 | 2011-03-29 | Sony Corporation | Personal identification device, personal identification method, updating method for identification dictionary data, and updating program for identification dictionary data |
JP4645749B2 (ja) * | 2006-12-08 | 2011-03-09 | ソニー株式会社 | 情報処理装置および情報処理方法、認識装置および情報認識方法、並びに、プログラム |
JP2008165731A (ja) * | 2006-12-08 | 2008-07-17 | Sony Corp | 情報処理装置および情報処理方法、認識装置および情報認識方法、並びに、プログラム |
US8411906B2 (en) | 2006-12-08 | 2013-04-02 | Sony Corporation | Image processing apparatus, image processing method, image recognition apparatus, and image recognition method |
JP2009157950A (ja) * | 2006-12-08 | 2009-07-16 | Sony Corp | 情報処理装置および情報処理方法、認識装置および情報認識方法、並びに、プログラム |
JP2008217589A (ja) * | 2007-03-06 | 2008-09-18 | Toshiba Corp | 学習装置及びパターン認識装置 |
US8660317B2 (en) | 2007-03-21 | 2014-02-25 | Ricoh Company, Ltd. | Object image detection method and object image detection device for detecting an object image from an input image |
JP2008234653A (ja) * | 2007-03-21 | 2008-10-02 | Ricoh Co Ltd | 目標画像検出方法及び画像検出装置 |
US9021347B2 (en) | 2007-05-31 | 2015-04-28 | Canon Kabushiki Kaisha | Information processing method and apparatus, program, and storage medium |
US8463049B2 (en) | 2007-07-05 | 2013-06-11 | Sony Corporation | Image processing apparatus and image processing method |
JP2009110212A (ja) * | 2007-10-29 | 2009-05-21 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2009140369A (ja) * | 2007-12-07 | 2009-06-25 | Sony Corp | 集団学習装置及び集団学習方法、対象物検出装置及び対象物検出方法、並びにコンピュータ・プログラム |
US8472721B2 (en) | 2007-12-18 | 2013-06-25 | Canon Kabushiki Kaisha | Pattern identification unit generation method, information processing apparatus, computer program, and storage medium |
JP2009251962A (ja) * | 2008-04-07 | 2009-10-29 | Toshiba Corp | 強識別器の学習装置及びその方法並びに強識別器の学習プログラム |
JPWO2009125710A1 (ja) * | 2008-04-08 | 2011-08-04 | 株式会社エヌ・ティ・ティ・ドコモ | メディア処理サーバ装置およびメディア処理方法 |
JP2009265701A (ja) * | 2008-04-21 | 2009-11-12 | Canon Inc | 情報処理装置及び情報処理方法 |
JP2010009517A (ja) * | 2008-06-30 | 2010-01-14 | Canon Inc | パターン検出器の学習装置、学習方法及びプログラム |
JP2010009518A (ja) * | 2008-06-30 | 2010-01-14 | Canon Inc | パターン検出器の学習装置、学習方法及びプログラム |
US8331655B2 (en) | 2008-06-30 | 2012-12-11 | Canon Kabushiki Kaisha | Learning apparatus for pattern detector, learning method and computer-readable storage medium |
US9104408B2 (en) | 2008-08-22 | 2015-08-11 | Sony Corporation | Image display device, control method and computer program |
WO2010021373A1 (ja) | 2008-08-22 | 2010-02-25 | ソニー株式会社 | 画像表示装置、制御方法およびコンピュータプログラム |
US8675136B2 (en) | 2008-09-12 | 2014-03-18 | Sony Corporation | Image display apparatus and detection method |
WO2010050333A1 (ja) * | 2008-10-30 | 2010-05-06 | コニカミノルタエムジー株式会社 | 情報処理装置 |
JPWO2010050334A1 (ja) * | 2008-10-30 | 2012-03-29 | コニカミノルタエムジー株式会社 | 情報処理装置 |
JP5533662B2 (ja) * | 2008-10-30 | 2014-06-25 | コニカミノルタ株式会社 | 情報処理装置 |
WO2010050334A1 (ja) * | 2008-10-30 | 2010-05-06 | コニカミノルタエムジー株式会社 | 情報処理装置 |
US9256835B2 (en) | 2009-01-13 | 2016-02-09 | Canon Kabushiki Kaisha | Information processing apparatus enabling discriminator to learn and method thereof |
US9014483B2 (en) | 2009-09-07 | 2015-04-21 | Canon Kabushiki Kaisha | Information processing method and apparatus |
WO2011027696A1 (ja) | 2009-09-07 | 2011-03-10 | ソニー株式会社 | 表示装置および制御方法 |
US9286850B2 (en) | 2009-09-11 | 2016-03-15 | Sony Corporation | Display method and display apparatus |
US9298258B2 (en) | 2009-09-11 | 2016-03-29 | Sony Corporation | Display apparatus and control method |
WO2011030624A1 (ja) | 2009-09-11 | 2011-03-17 | ソニー株式会社 | 表示装置および制御方法 |
WO2011030674A1 (ja) | 2009-09-11 | 2011-03-17 | ソニー株式会社 | 表示方法及び表示装置 |
US8913007B2 (en) | 2009-09-11 | 2014-12-16 | Sony Corporation | Display apparatus and control method |
US9489043B2 (en) | 2009-09-15 | 2016-11-08 | Sony Corporation | Display device and controlling method |
WO2011033855A1 (ja) | 2009-09-15 | 2011-03-24 | ソニー株式会社 | 表示装置および制御方法 |
US8952890B2 (en) | 2009-09-15 | 2015-02-10 | Sony Corporation | Display device and controlling method |
US8977040B2 (en) | 2010-09-09 | 2015-03-10 | Samsung Electronics Co., Ltd. | Method and apparatus to generate object descriptor using extended curvature gabor filter |
US8953860B2 (en) | 2010-09-30 | 2015-02-10 | Sony Corporation | Information processing apparatus and information processing method |
EP2437490A2 (en) | 2010-09-30 | 2012-04-04 | Sony Corporation | Information processing apparatus and information processing method |
JP4712907B2 (ja) * | 2010-10-12 | 2011-06-29 | パナソニック株式会社 | 対象物検出装置及びその学習装置 |
JP2011034581A (ja) * | 2010-10-12 | 2011-02-17 | Panasonic Corp | 対象物検出装置及びその学習装置 |
CN101968853A (zh) * | 2010-10-15 | 2011-02-09 | 吉林大学 | 基于改进的免疫算法优化支持向量机参数的表情识别方法 |
JP2011096291A (ja) * | 2011-02-18 | 2011-05-12 | Panasonic Corp | 特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法 |
JP2011138558A (ja) * | 2011-04-12 | 2011-07-14 | Kao Corp | 目の位置の検出方法および検出システム |
EP2530675A2 (en) | 2011-05-30 | 2012-12-05 | Sony Corporation | Information processing apparatus, information processing method, and program |
US8831356B2 (en) | 2011-05-30 | 2014-09-09 | Sony Corporation | Information processing apparatus, metadata setting method, and program |
JP2013033331A (ja) * | 2011-08-01 | 2013-02-14 | Universal Entertainment Corp | 識別装置及び識別プログラム |
JP2015507271A (ja) * | 2012-01-13 | 2015-03-05 | 富士通株式会社 | オブジェクト認識方法及びオブジェクト認識装置 |
US9214027B2 (en) | 2012-07-09 | 2015-12-15 | Canon Kabushiki Kaisha | Apparatus, method, and non-transitory computer-readable medium |
US9292760B2 (en) | 2012-07-09 | 2016-03-22 | Canon Kabushiki Kaisha | Apparatus, method, and non-transitory computer-readable medium |
JP2013164863A (ja) * | 2013-04-24 | 2013-08-22 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
KR101476799B1 (ko) * | 2013-07-10 | 2014-12-26 | 숭실대학교산학협력단 | 깊이 정보를 이용한 객체 검출 시스템 및 방법 |
US10558935B2 (en) | 2013-11-22 | 2020-02-11 | California Institute Of Technology | Weight benefit evaluator for training data |
US9953271B2 (en) | 2013-11-22 | 2018-04-24 | California Institute Of Technology | Generation of weights in machine learning |
JP2017500637A (ja) * | 2013-11-22 | 2017-01-05 | カリフォルニア インスティテュート オブ テクノロジー | 訓練データに関する重み利益エバリュエータ |
US10535014B2 (en) | 2014-03-10 | 2020-01-14 | California Institute Of Technology | Alternative training distribution data in machine learning |
JP2016012342A (ja) * | 2014-06-05 | 2016-01-21 | ソフトバンク株式会社 | 行動制御システム及びプログラム |
US9582758B2 (en) | 2014-07-08 | 2017-02-28 | Fujitsu Limited | Data classification method, storage medium, and classification device |
JP2016143353A (ja) * | 2015-02-04 | 2016-08-08 | エヌ・ティ・ティ・コムウェア株式会社 | 学習装置、学習方法、およびプログラム |
US10558885B2 (en) | 2015-02-06 | 2020-02-11 | Panasonic Intellectual Property Management Co., Ltd. | Determination method and recording medium |
JP2016146174A (ja) * | 2015-02-06 | 2016-08-12 | パナソニックIpマネジメント株式会社 | 決定方法およびプログラム |
WO2016125476A1 (ja) * | 2015-02-06 | 2016-08-11 | パナソニックIpマネジメント株式会社 | 決定方法およびプログラム |
JP2017211930A (ja) * | 2016-05-27 | 2017-11-30 | ファナック株式会社 | 寿命故障条件を学習する機械学習装置,故障予知装置,機械システムおよび機械学習方法 |
JP2018106618A (ja) * | 2016-12-28 | 2018-07-05 | 日本放送協会 | 画像データ分類装置、オブジェクト検出装置及びこれらのプログラム |
WO2019009420A1 (ja) | 2017-07-07 | 2019-01-10 | 国立大学法人大阪大学 | トレンド分析を利用した痛みの判別、機械学習、経済的判別モデルおよびIoTを応用した医療装置、テイラーメイド機械学習、および新規疼痛判別用脳波特徴量 |
US11049014B2 (en) | 2018-10-12 | 2021-06-29 | Fujitsu Limited | Learning apparatus, detecting apparatus, learning method, and detecting method |
EP3637320A1 (en) | 2018-10-12 | 2020-04-15 | Fujitsu Limited | Computer program, learning apparatus, detecting apparatus, learning method, and detecting method |
JP7278307B2 (ja) | 2018-12-18 | 2023-05-19 | グリー株式会社 | コンピュータプログラム、サーバ装置、端末装置及び表示方法 |
JPWO2020129959A1 (ja) * | 2018-12-18 | 2021-11-04 | グリー株式会社 | コンピュータプログラム、サーバ装置、端末装置及び表示方法 |
JP2020111892A (ja) * | 2019-01-09 | 2020-07-27 | 株式会社明電舎 | 流量予測装置及び流量予測方法 |
US20220101652A1 (en) * | 2019-01-31 | 2022-03-31 | Beijing Bytedance Network Technology Co., Ltd. | Method and device for generating image effect of facial expression, and electronic device |
US12020469B2 (en) * | 2019-01-31 | 2024-06-25 | Beijing Bytedance Network Technology Co., Ltd. | Method and device for generating image effect of facial expression, and electronic device |
JPWO2020246010A1 (ja) * | 2019-06-06 | 2020-12-10 | ||
WO2020246010A1 (ja) * | 2019-06-06 | 2020-12-10 | 日本電信電話株式会社 | 画像認識システム、画像認識サーバ、及び画像認識方法 |
CN110472512A (zh) * | 2019-07-19 | 2019-11-19 | 河海大学 | 一种基于深度学习的人脸状态识别方法及其装置 |
KR20210076528A (ko) * | 2019-12-16 | 2021-06-24 | 조선대학교산학협력단 | 감정 인식 방법 및 장치 |
KR102305613B1 (ko) * | 2019-12-16 | 2021-09-27 | 조선대학교산학협력단 | 감정 인식 방법 및 장치 |
CN112668467B (zh) * | 2020-12-25 | 2023-11-07 | 华中师范大学 | 行为分析方法、装置、电子设备及存储介质 |
CN112668467A (zh) * | 2020-12-25 | 2021-04-16 | 华中师范大学 | 行为分析方法、装置、电子设备及存储介质 |
CN116894973A (zh) * | 2023-07-06 | 2023-10-17 | 北京长木谷医疗科技股份有限公司 | 一种基于集成学习的髋关节病变智能自标注方法及装置 |
CN116894973B (zh) * | 2023-07-06 | 2024-05-03 | 北京长木谷医疗科技股份有限公司 | 一种基于集成学习的髋关节病变智能自标注方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US7379568B2 (en) | 2008-05-27 |
US7587069B2 (en) | 2009-09-08 |
US7624076B2 (en) | 2009-11-24 |
US20050102246A1 (en) | 2005-05-12 |
US20080247598A1 (en) | 2008-10-09 |
US20080235165A1 (en) | 2008-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005044330A (ja) | 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置 | |
Bartlett et al. | Real Time Face Detection and Facial Expression Recognition: Development and Applications to Human Computer Interaction. | |
Littlewort et al. | Dynamics of facial expression extracted automatically from video | |
Valstar et al. | Fully automatic facial action unit detection and temporal analysis | |
Sincan et al. | Using motion history images with 3d convolutional networks in isolated sign language recognition | |
Barros et al. | Real-time gesture recognition using a humanoid robot with a deep neural architecture | |
KR20200121206A (ko) | 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법 | |
Gharaee et al. | First and second order dynamics in a hierarchical SOM system for action recognition | |
Nigam et al. | A review of computational approaches for human behavior detection | |
Zia Uddin et al. | Independent shape component-based human activity recognition via Hidden Markov Model | |
Podder et al. | Time efficient real time facial expression recognition with CNN and transfer learning | |
Abdullahi et al. | IDF-Sign: addressing inconsistent depth features for dynamic sign word recognition | |
Avanija et al. | Facial expression recognition using convolutional neural network | |
Kumar et al. | Survey on artificial intelligence-based human action recognition in video sequences | |
Sarma et al. | Hand gesture recognition using deep network through trajectory-to-contour based images | |
Al Farid et al. | Single Shot Detector CNN and Deep Dilated Masks for Vision-Based Hand Gesture Recognition From Video Sequences | |
Wersing et al. | Online learning of objects in a biologically motivated visual architecture | |
Gharaee et al. | Action recognition online with hierarchical self-organizing maps | |
Kächele et al. | Cascaded fusion of dynamic, spatial, and textural feature sets for person-independent facial emotion recognition | |
Rodríguez-Moreno et al. | A new approach for video action recognition: Csp-based filtering for video to image transformation | |
Memmesheimer et al. | Gesture recognition on human pose features of single images | |
Gaikwad et al. | Fusion of vision based features for human activity recognition | |
Martin et al. | Estimation of pointing poses for visually instructing mobile robots under real world conditions | |
Nunes | Deep emotion recognition through upper body movements and facial expression | |
Devasena et al. | A study of various algorithms for facial expression recognition: A review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070306 |