[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4493448B2 - 対象物識別装置および方法並びにプログラム - Google Patents

対象物識別装置および方法並びにプログラム Download PDF

Info

Publication number
JP4493448B2
JP4493448B2 JP2004254432A JP2004254432A JP4493448B2 JP 4493448 B2 JP4493448 B2 JP 4493448B2 JP 2004254432 A JP2004254432 A JP 2004254432A JP 2004254432 A JP2004254432 A JP 2004254432A JP 4493448 B2 JP4493448 B2 JP 4493448B2
Authority
JP
Japan
Prior art keywords
image
feature amount
identification
predetermined
predetermined object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004254432A
Other languages
English (en)
Other versions
JP2005108197A (ja
Inventor
元中 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2004254432A priority Critical patent/JP4493448B2/ja
Priority to US10/935,336 priority patent/US7920725B2/en
Publication of JP2005108197A publication Critical patent/JP2005108197A/ja
Application granted granted Critical
Publication of JP4493448B2 publication Critical patent/JP4493448B2/ja
Priority to US13/029,868 priority patent/US8184870B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像に顔等の所定対象物が含まれるか否かを識別する対象物識別装置および方法並びに対象物識別方法をコンピュータに実行させるためのプログラムに関するものである。
デジタルカメラにおいて取得した画像データや、フイルムに記録された画像を読み取ることにより得た画像データを、プリント等のハードコピーとしてあるいはディスプレイ上にソフトコピーとして再現することが行われている。このような画像データにより表される画像は人物の顔が含まれることが多く、顔が適切な明るさや色を有するものとなるように画像データに対して明るさ、階調、色、シャープネス等を修正する画像処理を施すことが行われている。このように画像データに対して画像処理を施す場合には、画像データにより表される画像から人物の顔に対応する顔領域を検出する必要がある。このため、画像に顔等の所定対象物が含まれるか否かを識別する各種方法が提案されている。また、識別された顔を精度よく切り出すために、顔を構成する例えば目の位置を検出するための方法も各種提案されている。
例えば非特許文献1は、赤外線照明と赤外線カメラとを用いて顔の撮影を行って目が検出されやすい画像を得、この画像から目を検出する手法を提案している。また非特許文献2は、顔を構成する目や眉毛等の色情報を用いて目や眉毛を検出する手法を提案している。また、非特許文献3は目のテンプレートを用いて目の位置を検出し、瞳が検出されるか否かにより目が閉じているか開いているかを判定する手法を提案している。また、非特許文献4は、顔を検出する際に用いられる特徴量である濃度値を正規化し、顔について学習を行ったニューラルネットワークの学習結果を参照して、画像に顔が含まれるか否かを識別する手法を提案している。ここで、ニューラルネットワークの学習の際は学習のサンプルに許容度を持たせて、画像から顔を検出しやすくしている。具体的には、顔を多少大小させたり、顔を多少回転させたりすることにより多数のサンプルを用意して学習を行っている。
さらに、特許文献1は、ニューラルネットワークの一手法であるコホーネンの自己組織化を用いて顔等の対象物の特徴パターンを学習し、この学習結果を参照して、対象物の候補と対象物の特徴部分とが学習された特徴パターンに含まれるか否かを判定し、さらに対象物の候補の特徴部分の位置関係が対象物の特徴部分の位置関係と一致するか否かを判定することにより、対象物の候補が対象物であるか否かを判定する手法である。
Ahish, Kappoor and Rosalind W. Picard, "Real-Time, Fully Automatic Upper Facial Feature Tracking", The 5th IEEE Internatinal Conference on Automatic Face and Gesture Recognition, 2002. Alper Yilmaz and Mubarak A. Shah, "Automatic Feature Detection and Pose Recovery for Faces", The 5th Asian Conference on Computer Vision 2002. Yingli Tian, T. Kanade and J. F. Cohn, "Dual-state Parametric Eye Tracking", The 4th IEEE International Conference on Automatic Face and Gesture Recognition, 2000. Henry A. Rowley, Shumeet Baluja, and Takeo Kanada, "Neural Network-Based Face Detection", volume 20, number 1, pages 23-38, January 1998. 特開平5−282457号公報
しかしながら、上記非特許文献1の手法は、赤外線照明と赤外線カメラとを用いて撮影を行うことにより得られた画像のみからしか目を検出することができないため、汎用性に欠ける。また、非特許文献2の手法は色情報を用いているため、人種に応じて肌の色が異なるような場合には対応することができない。また、非特許文献1から3の手法においては、画像中に目がはっきりと現れていないと目を検出することができないため、例えば前髪が目にかかっているような画像では目を精度よく検出することができない。また、特許文献1の手法は顔を構成する目のような構成部品の位置を精度よく検出できない。
本発明は、上記事情に鑑みなされたものであり、例えば顔に含まれる目のように、所定対象物に含まれる構成部品の位置を精度よく検出することを目的とする。
本発明による対象物識別装置は、識別対象の画像の入力を受け付ける画像入力手段と、
少なくとも1つの構成部品を含む所定対象物の識別に用いる少なくとも1つの特徴量を前記識別対象の画像から算出する特徴量算出手段と、
前記所定対象物であることが分かっている、前記少なくとも1つの構成部品の位置および/または位置関係が所定の許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する第1の参照データを、前記識別対象の画像を前記所定の許容度に応じた変化量にて段階的に変形させつつ前記識別対象の画像から算出された少なくとも1つの特徴量に基づいて参照して、前記識別対象の画像に所定対象物が含まれるか否かを識別する第1の識別手段と、
該第1の識別手段により前記所定対象物が含まれると識別された場合に、前記所定対象物であることが分かっている、前記所定の構成部品の位置および/または位置関係が前記所定の許容度よりも小さい小許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数の小許容度サンプル画像群に含まれる前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する第2の参照データを、前記所定対象物内の画像を前記小許容度に応じた変化量にて段階的に変形させつつ前記所定対象物内の画像から算出された少なくとも1つの特徴量に基づいて参照して、前記所定対象物に含まれる前記少なくとも1つの構成部品の位置を識別する第2の識別手段とを備えたことを特徴とするものである。
「所定対象物」とは、ほぼ一定形状をなしており、ほぼ一定の大きさとなるようにサイズを揃えることが可能な対象物が挙げられる。具体的には、人物の顔、車両および道路標識等を所定対象物とすることができる。
「構成部品」とは、所定対象物を構成するためには不可欠な部品であり、顔であれば、目、鼻、口等を、車両であればヘッドライト等を、道路標識であれば標識に含まれる特定のマーク等を構成部品とすることができる。
「特徴量」とは、画像の特徴を表すパラメータを指し、その画像における各画素の濃度勾配を表す勾配ベクトル、各画素の色情報(色相、彩度)、濃度、テクスチャーの特徴、奥行情報、その画像に含まれるエッジの特徴等、いかなる特徴を表すものであってもよい。
「識別条件」とは、特徴量を指標とした、所定対象物とそうでない対象物とを識別する条件を指す。
「構成部品の位置および/または位置関係を正規化する」とは、所定対象物であることが分かっているすべてのサンプル画像について、サンプル画像のサイズを同一とするとともに、構成部品の位置および/または位置関係を同一とすることをいう。具体的には、所定対象物を顔、構成部品を両目とした場合、サンプル画像のサイズを一定サイズ(例えば30×30画素)とし、両目の中心位置を一定にするとともに両目の中心間の距離をすべてのサンプル画像について10画素というように同一とすればよい。
「所定の許容度を持って正規化する」とは、上述したように構成部品の位置および/または位置関係が同一とされたサンプル画像に加えて、構成部品の位置および/または位置関係を許容度を持って多少変化させることをいう。具体的には、上述したように両目の中心間の距離を10画素のみとするのではなく。9〜11画素の範囲で変化させたり顔をあらかじめ定められた範囲で平面上において回転させたりすることにより、所定の許容度を持って正規化されたサンプル画像を得ることが可能である。
「マシンラーニング(machine learning)の手法」としては、例えば、ニューラルネットワーク、ブースティング等の既知の手法を用いることができる。
なお、本発明による対象物識別装置においては、前記所定対象物が顔である場合、前記第1の参照データを、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第1の領域および右目と右頬とを含む所定範囲の第2の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第1および前記第2の領域に対応する各領域に含まれる前記特徴量を学習することにより得るものとし、
前記特徴量算出手段を、前記識別対象の画像における前記第1および前記第2の領域に対応する各領域から前記特徴量を算出する手段としてもよい。
また、前記第1の参照データを、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第3の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第3の領域に対応する領域に含まれる前記特徴量をさらに学習することにより得るものとし、
前記特徴量算出手段を、前記識別対象の画像における前記第1から第3の領域に対応する各領域から前記特徴量を算出する手段としてもよい。
また、本発明による対象物識別装置においては、前記所定対象物が顔である場合、前記第2の参照データを、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第1の領域および右目と右頬とを含む所定範囲の第2の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第1および前記第2の領域に対応する各領域に含まれる前記特徴量を学習することにより得るものとし、
前記特徴量算出手段を、前記識別対象の画像における前記第1および前記第2の領域に対応する各領域から前記特徴量を算出する手段としてもよい。
また、前記第2の参照データを、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第3の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第3の領域に対応する領域に含まれる前記特徴量をさらに学習することにより得るものとし、
前記特徴量算出手段を、前記識別対象の画像における前記第1から第3の領域に対応する各領域から前記特徴量を算出する手段としてもよい。
なお、本発明による対象物識別装置においては、前記少なくとも1つの特徴量は、画像上の各画素における勾配ベクトルの方向、該勾配ベクトルの大きさおよび色情報の少なくとも1つであってもよい。
「勾配ベクトル」とは、画像の各画素における濃度が変化する方向および変化の大きさを表すものである。
また、本発明による対象物識別装置においては、前記識別された構成部品の位置を基準として前記識別対象の画像から前記所定対象物を抽出する抽出手段をさらに備えるようにしてもよい。
また、本発明による対象物識別装置においては、前記識別された構成部品の位置を表す情報を前記識別対象の画像に付与して出力する出力手段をさらに備えるようにしてもよい。
本発明によるデジタルカメラ、カメラ付き携帯電話等の撮像装置は、本発明による対象物識別装置を備えたことを特徴とするものである。
本発明による対象物識別方法は、識別対象の画像の入力を受け付け、
少なくとも1つの構成部品を含む所定対象物の識別に用いる少なくとも1つの特徴量を前記識別対象の画像から算出し、
前記所定対象物であることが分かっている、前記少なくとも1つの構成部品の位置および/または位置関係が所定の許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する第1の参照データを、前記識別対象の画像を前記所定の許容度に応じた変化量にて段階的に変形させつつ前記識別対象の画像から算出された少なくとも1つの特徴量に基づいて参照して、前記識別対象の画像に所定対象物が含まれるか否かを識別し、
該第1の識別手段により前記所定対象物が含まれると識別された場合に、前記所定対象物であることが分かっている、前記所定の構成部品の位置および/または位置関係が前記所定の許容度よりも小さい小許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数の小許容度サンプル画像群に含まれる前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する第2の参照データを、前記所定対象物内の画像を前記小許容度に応じた変化量にて段階的に変形させつつ前記所定対象物内の画像から算出された少なくとも1つの特徴量に基づいて参照して、前記所定対象物に含まれる前記少なくとも1つの構成部品の位置を識別することを特徴とするものである。
なお、本発明による対象物識別方法をコンピュータに実行させるためのプログラムとして提供してもよい。
本発明によれば、識別対象の画像から少なくとも1つの特徴量が算出される。そして、第1の参照データが少なくとも1つの特徴量に基づいて参照されて、識別対象の画像に所定対象物が含まれるか否かが識別される(第1の識別)。そして、所定対象物が含まれると識別されると、所定対象物内の画像から算出された少なくとも1つの特徴量に基づいて、第2の参照データが参照されて、所定対象物に含まれる構成部品の位置が識別される。
ここで、第1の識別を行うことなく、第2の識別を行って構成部品の位置を識別することも可能である。しかしながら、第2の参照データを得る際の学習は、所定の許容度よりも小さい小許容度にて少なくとも1つの構成部品の位置および/または位置関係が正規化されたサンプル画像を用いているため、構成部品の位置を精度よく識別できるものの、第2の参照データを参照して第2の識別を行うためには、識別対象の画像の全体を、上記小許容度に応じた変化量にて段階的に変形させる必要があり、その結果、処理に長時間を要する。
一方、第1の参照データの学習は、小許容度よりも大きい所定の許容度にて構成部品の位置および/または位置関係が正規化されたサンプル画像を用いているため、第2の参照データを参照する場合と比較して識別対象の画像を段階的に変形させる際に、段階的な変化量を比較的大きくすることができ、その結果、識別のための演算量を低減して処理を高速に行うことができるが、構成部品の位置の識別精度は低い。
本発明においては、第1の識別により一旦所定対象物を識別した後に、所定対象物の画像のみに対して第2の識別を行っているため、識別対象の画像全体に対して第2の識別を行う場合と比較して演算量が少なくなり、その結果、識別の処理に要する時間は短いものとなる。したがって、本発明によれば、識別対象の画像に含まれる所定対象物の構成部品の位置の識別を高速かつ高精度に行うことができる。
また、第1および第2の参照データをマシンラーニングの手法によりあらかじめ学習することにより得られたものとしているため、所定対象物および構成部品の位置の識別性能をより向上させることができる。
また、所定対象物が顔である場合において、学習の際に、サンプル画像における左目と左頬とを含む第1の領域および右目と右頬とを含む第2の領域、さらには両目を含む第3の領域に含まれる特徴量を使用することにより、学習時間を大幅に短縮することができる。また、識別対象の画像に所定対象物が含まれるか否かの識別を行う場合において、第1および第2の領域、さらには第3の領域に含まれる特徴量が識別性能の向上に大きく寄与することが本出願人の実験により確認されている。このため、学習の際に第1および第2の領域、さらには第3の領域に含まれる特徴量を使用して第1および第2の参照データの学習を行うことことにより、識別対象の画像に所定対象物が含まれるか否かの識別性能をより向上させることができる。
また、識別対象の画像からは第1および第2の領域、さらには第3の領域に対応する各領域から特徴量を算出することにより、識別対象の画像の全体から特徴量を算出する場合よりも特徴量を算出する範囲が小さくなるため、演算時間を短縮することができる。
また、少なくとも1つの特徴量を画像上の各画素における勾配ベクトルの方向、大きさおよび色情報の少なくとも1つとすることにより、識別対象の画像に含まれる比較的算出しやすい特徴量を用いて精度よく構成部品の位置を識別できる。
また、識別された構成部品の位置を基準として識別対象の画像から所定対象物を抽出することにより、識別対象の画像から精度よく所定対象物を抽出することができる。
また、識別された構成部品の位置を表す情報を識別対象の画像に付与して出力することにより、後に識別対象に付与された情報を参照すれば、識別対象の画像から精度よく所定対象物を抽出することができる。
以下、図面を参照して本発明の実施形態について説明する。図1は本発明の実施形態による対象物識別装置の構成を示す概略ブロック図である。図1に示すように、本実施形態による対象物識別装置1は、識別対象の画像を表す識別対象画像データS0の入力を受け付ける画像入力部2、識別対象画像データS0により表される識別対象画像(以下画像についても参照符号S0を用いる)S0から特徴量C0を算出する特徴量算出部4、後述する第1および第2の参照データR1,R2が格納されているメモリ6、特徴量算出部4が算出した特徴量C0とメモリ6内の第1の参照データR1とに基づいて、識別対象画像S0に所定対象物である人物の顔が含まれているか否かを識別する第1の識別部8、第1の識別部8により識別対象画像S0に顔が含まれていると識別された場合に、特徴量算出部4が算出した顔の画像内の特徴量C0とメモリ6内の第2の参照データR2とに基づいて、その顔に含まれる目の位置を識別する第2の識別部10、並びに第1および第2の識別部8,10による識別結果を出力する出力部12とを備える。
なお、本実施形態において目の位置とは、顔における目尻から目頭の間の中心位置であり、図2(a)に示すように正面を向いた目の場合においては瞳の位置(図中×で示す)となる。一方、図2(b)に示すように右を向いた目の場合は瞳の位置ではなく、白目部分が目の中心位置となる。
特徴量算出部4は、顔の識別に用いる特徴量C0を識別対象画像S0から算出する。また、識別対象画像S0に顔が含まれると識別された場合には、後述するように抽出された顔の画像から同様の特徴量C0を算出する。具体的には、勾配ベクトル(すなわち識別対象画像S0上および顔画像上の各画素における濃度が変化する方向および変化の大きさ)を特徴量C0として算出する。以下、勾配ベクトルの算出について説明する。まず、特徴量算出部4は、識別対象画像S0に対して図3(a)に示す水平方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像S0における水平方向のエッジを検出する。また、特徴量算出部4は、識別対象画像S0に対して図3(b)に示す垂直方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像S0における垂直方向のエッジを検出する。そして、識別対象画像S0上の各画素における水平方向のエッジの大きさHおよび垂直方向のエッジの大きさVとから、図4に示すように、各画素における勾配ベクトルKを算出する。また、顔画像についても同様に勾配ベクトルKを算出する。なお、特徴量算出部4は、後述するように識別対象画像S0および顔画像の変形の各段階において特徴量C0を算出する。
なお、このようにして算出された勾配ベクトルKは、図5(a)に示すような人物の顔の場合、図5(b)に示すように、目および口のように暗い部分においては目および口の中央を向き、鼻のように明るい部分においては鼻の位置から外側を向くものとなる。また、口よりも目の方が濃度の変化が大きいため、勾配ベクトルKの大きさは口よりも目の方が大きくなる。
そして、この勾配ベクトルKの方向および大きさを特徴量C0とする。なお、勾配ベクトルKの方向は、勾配ベクトルKの所定方向(例えば図4におけるx方向)を基準とした0から359度の値となる。
ここで、勾配ベクトルKの大きさは正規化される。この正規化は、識別対象画像S0の全画素における勾配ベクトルKの大きさのヒストグラムを求め、その大きさの分布が識別対象画像S0の各画素が取り得る値(8ビットであれば0〜255)に均一に分布されるようにヒストグラムを平滑化して勾配ベクトルKの大きさを修正することにより行う。例えば、勾配ベクトルKの大きさが小さく、図6(a)に示すように勾配ベクトルKの大きさが小さい側に偏ってヒストグラムが分布している場合には、大きさが0〜255の全領域に亘るものとなるように勾配ベクトルKの大きさを正規化して図6(b)に示すようにヒストグラムが分布するようにする。なお、演算量を低減するために、図6(c)に示すように、勾配ベクトルKのヒストグラムにおける分布範囲を例えば5分割し、5分割された頻度分布が図6(d)に示すように0〜255の値を5分割した範囲に亘るものとなるように正規化することが好ましい。
メモリ6内に格納されている第1および第2の参照データR1,R2は、後述するサンプル画像から選択された複数画素の組み合わせからなる複数種類の画素群のそれぞれについて、各画素群を構成する各画素における特徴量C0の組み合わせに対する識別条件を規定したものである。
第1および第2の参照データR1,R2中の、各画素群を構成する各画素における特徴量C0の組み合わせおよび識別条件は、顔であることが分かっている複数のサンプル画像と顔でないことが分かっている複数のサンプル画像とからなるサンプル画像群の学習により、あらかじめ決められたものである。
なお、本実施形態においては、第1の参照データR1を生成する際には、顔であることが分かっているサンプル画像として、30×30画素サイズを有し、図7に示すように、1つの顔の画像について両目の中心間の距離が10画素、9画素および11画素であり、垂直に立った顔を基準として平面上±15度の範囲において3度単位で段階的に回転させた(すなわち、回転角度が−15度,−12度,−9度,−6度,−3度,0度,3度,6度,9度,12度,15度)サンプル画像を用いるものとする。したがって、1つの顔の画像につきサンプル画像は3×11=33通り用意される。なお、図7においては−15度、0度および+15度に回転させたサンプル画像のみを示す。また、回転の中心はサンプル画像の対角線の交点である。ここで、両目の中心間の距離が10画素のサンプル画像であれば、目の中心位置はすべて同一となっている。この目の中心位置をサンプル画像の左上隅を原点とする座標上において(x1,y1)、(x2,y2)とする。また、顔が垂直に立った状態において上下方向における目の位置(すなわちy1,y2)はすべてのサンプル画像において同一である。
また、第2の参照データR2を生成する際には、顔であることが分かっているサンプル画像として、30×30画素サイズを有し、図8に示すように、1つの顔の画像について両目の中心間の距離が10画素、9.7画素および10.3画素であり、各両目の中心間距離において垂直に立った顔を平面上±3度の範囲において1度単位で段階的に回転させた(すなわち、回転角度が−3度,−2度,−1度,0度,1度,2度,3度)サンプル画像を用いるものとする。したがって、1つの顔の画像につきサンプル画像は3×7=21通り用意される。なお、図8においては−3度、0度および+3度に回転させたサンプル画像のみを示す。また、回転の中心はサンプル画像の対角線の交点である。ここで、図面上上下方向における目の位置はすべてのサンプル画像において同一である。なお、両目の中心間の距離を9.7画素および10.3画素とするためには、両目の中心間の距離が10画素のサンプル画像を9.7倍あるいは10.3倍に拡大縮小して、拡大縮小後のサンプル画像のサイズを30×30画素とすればよい。
そして、第2の参照データR2の学習に用いられるサンプル画像における目の中心位置を、本実施形態において識別する目の位置とする。
また、顔でないことが分かっているサンプル画像としては、30×30画素サイズを有する任意の画像を用いるものとする。
ここで、顔であることが分かっているサンプル画像として、両目の中心間距離が10画素であり、平面上の回転角度が0度(すなわち顔が垂直な状態)のもののみを用いて学習を行った場合、第1および第2の参照データR1,R2を参照して顔または目の位置であると識別されるのは、両目の中心間距離が10画素で全く回転していない顔のみである。識別対象画像S0に含まれる可能性がある顔のサイズは一定ではないため、顔が含まれるか否かあるいは目の位置を識別する際には、後述するように識別対象画像S0を拡大縮小して、サンプル画像のサイズに適合するサイズの顔および目の位置を識別できるようにしている。しかしながら、両目の中心間距離を正確に10画素とするためには、識別対象画像S0のサイズを拡大率として例えば1.1単位で段階的に拡大縮小しつつ識別を行う必要があるため、演算量が膨大なものとなる。
また、識別対象画像S0に含まれる可能性がある顔は、図9(a)に示すように平面上の回転角度が0度のみではなく、図9(b)、(c)に示すように回転している場合もある。しかしながら、両目の中心間距離が10画素であり、顔の回転角度が0度のサンプル画像のみを使用して学習を行った場合、顔であるにも拘わらず、図9(b)、(c)に示すように回転した顔については識別を行うことができなくなってしまう。
このため、本実施形態においては、顔であることが分かっているサンプル画像として、図7に示すように両目の中心間距離が9,10,11画素であり、各距離において平面上±15度の範囲にて3度単位で段階的に顔を回転させたサンプル画像を用いて、第1の参照データR1の学習に許容度を持たせるようにしたものである。これにより、後述する第1の識別部8において識別を行う際には、識別対象画像S0を拡大率として11/9単位で段階的に拡大縮小すればよいため、識別対象画像S0のサイズを例えば拡大率として例えば1.1単位で段階的に拡大縮小する場合と比較して、演算時間を低減できる。また、図9(b)、(c)に示すように回転している顔も識別することができる。
一方、第2の参照データR2の学習には、図8に示すように両目の中心間距離が9.7,10,10.3画素であり、各距離において平面上±3度の範囲にて1度単位で段階的に顔を回転させたサンプル画像を用いているため、第1の参照データR1と比較して学習の許容度は小さい。また、後述する第2の識別部10において識別を行う際には、識別対象画像S0を拡大率として10.3/9.7単位で拡大縮小する必要があるため、第1の識別部8において行われる識別よりも演算に長時間を要する。しかしながら、第2の識別部10において識別を行うのは第1の識別部8が識別した顔内の画像のみであるため、識別対象画像S0の全体を用いる場合と比較して目の位置の識別を行うための演算量を低減することができる。
以下、図10のフローチャートを参照しながらサンプル画像群の学習手法の一例を説明する。なお、ここでは第1の参照データR1の学習について説明する。
学習の対象となるサンプル画像群は、顔であることが分かっている複数のサンプル画像と、顔でないことが分かっている複数のサンプル画像とからなる。なお、顔であることが分かっているサンプル画像は、上述したように1つのサンプル画像につき両目の中心位置が9,10,11画素であり、各距離において平面上±15度の範囲にて3度単位で段階的に顔を回転させたものを用いる。各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく1に設定される(ステップS1)。
次に、サンプル画像における複数種類の画素群のそれぞれについて識別器が作成される(ステップS2)。ここで、それぞれの識別器とは、1つの画素群を構成する各画素における特徴量C0の組み合わせを用いて、顔の画像と顔でない画像とを識別する基準を提供するものである。本実施形態においては、1つの画素群を構成する各画素における特徴量C0の組み合わせについてのヒストグラムを識別器として使用する。
図11を参照しながらある識別器の作成について説明する。図11の左側のサンプル画像に示すように、この識別器を作成するための画素群を構成する各画素は、顔であることが分かっている複数のサンプル画像上における、右目の中心にある画素P1、右側の頬の部分にある画素P2、額の部分にある画素P3および左側の頬の部分にある画素P4である。そして顔であることが分かっているすべてのサンプル画像について全画素P1〜P4における特徴量C0の組み合わせが求められ、そのヒストグラムが作成される。ここで、第2の特徴量C2は勾配ベクトルKの方向および大きさを表すが、勾配ベクトルKの方向は0〜359の360通り、勾配ベクトルKの大きさは0〜255の256通りあるため、これをそのまま用いたのでは、組み合わせの数は1画素につき360×256通りの4画素分、すなわち(360×256)4通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、勾配ベクトルの方向を0〜359を0〜44と315〜359(右方向、値:0),45〜134(上方向値:1),135〜224(左方向、値:2),225〜314(下方向、値3)に4値化し、勾配ベクトルの大きさを3値化(値:0〜2)する。そして、以下の式を用いて組み合わせの値を算出する。
組み合わせの値=0(勾配ベクトルの大きさ=0の場合)
組み合わせの値=((勾配ベクトルの方向+1)×勾配ベクトルの大きさ(勾配ベクトルの大きさ>0の場合)
これにより、組み合わせ数が94通りとなるため、第2の特徴量C2のデータ数を低減できる。
同様に、顔でないことが分かっている複数のサンプル画像についても、ヒストグラムが作成される。なお、顔でないことが分かっているサンプル画像については、顔であることが分かっているサンプル画像上における上記画素P1〜P4の位置に対応する画素が用いられる。これらの2つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図11の一番右側に示す、識別器として用いられるヒストグラムである。この識別器のヒストグラムが示す各縦軸の値を、以下、識別ポイントと称する。この識別器によれば、正の識別ポイントに対応する特徴量C0の分布を示す画像は顔である可能性が高く、識別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の識別ポイントに対応する特徴量C0の分布を示す画像は顔でない可能性が高く、やはり識別ポイントの絶対値が大きいほどその可能性は高まる。ステップS2では、識別に使用され得る複数種類の画素群を構成する各画素における特徴量C0の組み合わせについて、上記のヒストグラム形式の複数の識別器が作成される。
続いて、ステップS2で作成した複数の識別器のうち、画像が顔であるか否かを識別するのに最も有効な識別器が選択される。最も有効な識別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各識別器の重み付き正答率が比較され、最も高い重み付き正答率を示す識別器が選択される(ステップS3)。すなわち、最初のステップS3では、各サンプル画像の重みは等しく1であるので、単純にその識別器によって画像が顔であるか否かが正しく識別されるサンプル画像の数が最も多いものが、最も有効な識別器として選択される。一方、後述するステップS5において各サンプル画像の重みが更新された後の2回目のステップS3では、重みが1のサンプル画像、重みが1よりも大きいサンプル画像、および重みが1よりも小さいサンプル画像が混在しており、重みが1よりも大きいサンプル画像は、正答率の評価において、重みが1のサンプル画像よりも重みが大きい分多くカウントされる。これにより、2回目以降のステップS3では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく識別されることに、より重点が置かれる。
次に、それまでに選択した識別器の組み合わせの正答率、すなわち、それまでに選択した識別器を組み合わせて使用して各サンプル画像が顔の画像であるか否かを識別した結果が、実際に顔の画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる(ステップS4)。ここで、組み合わせの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した識別器を用いれば画像が顔であるか否かを十分に高い確率で識別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した識別器と組み合わせて用いるための追加の識別器を選択するために、ステップS6へと進む。
ステップS6では、直近のステップS3で選択された識別器が再び選択されないようにするため、その識別器が除外される。
次に、直近のステップS3で選択された識別器では顔であるか否かを正しく識別できなかったサンプル画像の重みが大きくされ、画像が顔であるか否かを正しく識別できたサンプル画像の重みが小さくされる(ステップS5)。このように重みを大小させる理由は、次の識別器の選択において、既に選択された識別器では正しく識別できなかった画像を重要視し、それらの画像が顔であるか否かを正しく識別できる識別器が選択されるようにして、識別器の組み合わせの効果を高めるためである。
続いて、ステップS3へと戻り、上記したように重み付き正答率を基準にして次に有効な識別器が選択される。
以上のステップS3からS6を繰り返して、顔が含まれるか否かを識別するのに適した識別器として、特定の画素群を構成する各画素における特徴量C0の組み合わせに対応する識別器が選択されたところで、ステップS4で確認される正答率が閾値を超えたとすると、顔が含まれるか否かの識別に用いる識別器の種類と識別条件とが確定され(ステップS7)、これにより第1の参照データR1の学習を終了する。
そして、上記と同様に識別器の種類と識別条件とを求めることにより第2の参照データR2の学習がなされる。
なお、上記の学習手法を採用する場合において、識別器は、特定の画素群を構成する各画素における特徴量C0の組み合わせを用いて顔の画像と顔でない画像とを識別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば2値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図11の中央に示した2つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。
また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。
また、上記の学習方法において、識別器を作成するための画素群を合成する画素として、図12に示すように顔であることが分かっているサンプル画像における左目と左頬とを含む第1の領域A1および右目と右頬とを含む第2の領域A2内の画素のみを用いるようにしてもよい。また、第1および第2の領域A1,A2に加えて、図12に破線で示すように両目を含む第3の領域A3内の画素を用いるようにしてもよい。
この場合、領域A1,A2,A3の位置は学習に用いるすべてのサンプル画像において同一とする。すなわち、本実施形態においては、図7に示すように両目の中心間距離が9,10,11画素であり、各距離において平面上±15度の範囲にて3度単位で段階的に顔を回転させることにより変形したサンプル画像、および図8に示すように両目の中心間の距離が10画素、9.7画素および10.3画素であり、各距離において垂直に立った顔を平面上±3度の範囲において1度単位で段階的に回転させることにより変形したサンプル画像を用いて、第1および第2の参照データR1,R2の学習を行うが、変形したサンプル画像上における領域A1,A2,A3の位置を、両目の中心間距離が10画素で回転角度が0度のサンプル画像に設定した領域A1,A2,A3の位置と同一とする。また、顔でないことが分かっているサンプル画像についても、設定する領域A1,A2,A3の位置は、両目の中心間距離が10画素で回転角度が0度の顔であることが分かっているサンプル画像に設定した領域A1,A2,A3の位置と同一とする。したがって、両目の中心間距離が9,10,11画素であり、各距離において平面上±15度の範囲にて3度単位で段階的に顔を回転させることにより変形したサンプル画像については、図13に示すように学習に用いるすべてのサンプル画像上に設定された領域A1,A2さらには領域A3内の画素のみを用いて識別器を作成することとなる。
このように、学習の際にサンプル画像における第1から第3の領域A1〜A3内の画素のみを用いて識別器を作成することにより、第1および第2の参照データR1,R2の学習時間を大幅に短縮することができる。
また、識別対象画像S0に顔が含まれるか否かの識別を行う場合において、第1および第2の領域A1,A2、さらには第3の領域A3に含まれる画素を用いて作成した識別器が識別性能の向上に大きく寄与することが本出願人の実験により確認されている。このため、学習の際に第1および第2の領域A1,A2、さらには第3の領域A3に含まれる画素のみを用いて識別器を作成して第1および第2の参照データR1,R2の学習を行うことにより、識別対象画像S0に顔が含まれるか否かの識別性能をより向上させることができる。
第1の識別部8は、複数種類の画素群を構成する各画素における特徴量C0の組み合わせのすべてについて第1の参照データR1が学習した識別条件を参照して、各々の画素群を構成する各画素における特徴量C0の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して識別対象画像S0に顔が含まれるか否かを識別する。この際、特徴量C0である勾配ベクトルKの方向は4値化され大きさは3値化される。本実施形態では、すべての識別ポイントを加算して、その加算値の正負によって識別を行うものとする。例えば、識別ポイントの総和が正の値である場合には識別対象画像S0には顔が含まれると判断し、負の値である場合には顔は含まれないと判断する。なお、第1の識別部8が行う識別対象画像S0に顔が含まれるか否かの識別を第1の識別と称する。
ここで、識別対象画像S0のサイズは30×30画素のサンプル画像とは異なり、各種サイズを有するものとなっている。また、顔が含まれる場合、平面上における顔の回転角度が0度であるとは限らない。このため、第1の識別部8は、図14に示すように、識別対象画像S0を縦または横のサイズが30画素となるまで段階的に拡大縮小するとともに平面上で段階的に360度回転させつつ(図14においては縮小する状態を示す)、各段階において拡大縮小された識別対象画像S0上に30×30画素サイズのマスクMを設定し、マスクMを拡大縮小された識別対象画像S0上において1画素ずつ移動させながら、マスク内の画像が顔の画像であるか否かの識別を行うことにより、識別対象画像S0に顔が含まれるか否かを識別する。
なお、第1参照データR1の生成時に学習したサンプル画像として両目の中心位置の画素数が9,10,11画素のものを使用しているため、識別対象画像S0の拡大縮小時の拡大率は11/9とすればよい。また、第1および第2の参照データR1,R2の生成時に学習したサンプル画像として、顔が平面上で±15度の範囲において回転させたものを使用しているため、識別対象画像S0は30度単位で360度回転させればよい。
ここで、特徴量算出部4は、識別対象画像S0の拡大縮小および回転という変形の各段階において特徴量C0を算出する。
なお、第1の参照データR1の学習の際に、上述したようにサンプル画像に設定された第1および第2の領域A1,A2、さらには第3の領域A3内の画素のみを用いて識別器を作成した場合には、特徴量算出部4はマスクMにおける第1および第2の領域A1,A2、さらには第3の領域A3に対応する各領域の画素のみを用いて特徴量C0を算出する。
そして、識別対象画像S0に顔が含まれるか否かの識別を拡大縮小および回転の全段階の識別対象画像S0について行い、一度でも顔が含まれると識別された場合には、識別対象画像S0には顔が含まれると識別し、顔が含まれると識別された段階におけるサイズおよび回転角度の識別対象画像S0から、識別されたマスクMの位置に対応する30×30画素の領域を顔の画像として抽出する。
第2の識別部10は、第1の識別部8が抽出した顔の画像上において、複数種類の画素群を構成する各画素における特徴量C0の組み合わせのすべてについて第2の参照データR2が学習した識別条件を参照して、各々の画素群を構成する各画素における特徴量C0の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して顔に含まれる目の位置を識別する。この際、特徴量C0である勾配ベクトルKの方向は4値化され大きさは3値化される。
ここで、第2の識別部10は、第1の識別部8が抽出した顔画像のサイズを段階的に拡大縮小するとともに平面上で段階的に360度回転させつつ、各段階において拡大縮小された顔画像上に30×30画素サイズのマスクMを設定し、マスクMを拡大縮小された顔上において1画素ずつ移動させながら、マスク内の画像における目の位置の識別を行う。
なお、第2参照データR2の生成時に学習したサンプル画像として両目の中心位置の画素数が9.07,10,10.3画素のものを使用しているため、顔画像の拡大縮小時の拡大率は10.3/9.7とすればよい。また、第2の参照データR2の生成時に学習したサンプル画像として、顔が平面上で±3度の範囲において回転させたものを使用しているため、顔画像は6度単位で360度回転させればよい。
ここで、特徴量算出部4は、顔画像の拡大縮小および回転という変形の各段階において特徴量C0を算出する。
なお、第2の参照データR2の学習の際に、上述したようにサンプル画像に設定された第1および第2の領域A1,A2、さらには第3の領域A3内の画像のみを用いて識別器を作成した場合には、特徴量算出部4はマスクMにおける第1および第2の領域A1,A2、さらには第3の領域A3に対応する各領域の画素のみを用いて特徴量C0を算出する。
そして、本実施形態では、抽出された顔画像の変形の全段階においてすべての識別ポイントを加算し、加算値が最も大きい変形の段階における30×30画素のマスクM内の顔画像において、左上隅を原点とする座標を設定し、サンプル画像における目の位置の座標(x1,y1)、(x2,y2)に対応する位置を求め、変形前の識別対象画像S0におけるこの位置に対応する位置を目の位置と識別する。
出力部12は、第1の識別部8が識別対象画像S0に顔が含まれないと識別した場合に、識別対象画像S0には顔が含まれない旨の識別結果を出力する。一方、第2の識別部10が識別した目の位置を基準として、識別対象画像S0から所定範囲の領域をトリミングすることにより識別対象画像S0から顔を抽出し、抽出された顔の画像を表す顔画像データS1を出力する。
次いで、本実施形態において行われる処理について説明する。図15は本実施形態において行われる処理を示すフローチャートである。まず、画像入力部2が識別対象画像データS0の入力を受け付ける(ステップS11)。この際、多数の画像に関する一連の画像データS0の入力を連続的に受け付けてもよい。次いで、特徴量算出部4が識別対象画像S0の拡大縮小および回転の各段階において、識別対象画像S0の勾配ベクトルKの方向および大きさを特徴量C0として算出する(ステップS12)。そして、第1の識別部8がメモリ6から第1の参照データR1を読み出し(ステップS13)、識別対象画像S0に顔が含まれるか否かの第1の識別を行う(ステップS14)。
ステップS14が肯定されると、第1の識別部8は識別対象画像S0から顔を抽出する(ステップS15)。なお、複数の顔を抽出してもよい。次いで、特徴量算出部4が顔画像の拡大縮小および回転の各段階において、顔画像の勾配ベクトルKの方向および大きさを特徴量C0として算出する(ステップS16)。そして、第2の識別部10がメモリ6から第2の参照データR2を読み出し(ステップS17)、顔に含まれる目の位置を識別する第2の識別を行う(ステップS18)。
続いて、出力部12が識別対象画像S0から識別された目の位置を基準として所定範囲の領域を顔画像として抽出し、抽出された顔画像を表す顔画像データS1を出力し(ステップS19)、処理を終了する。
ステップS14が否定されると、識別対象画像S0には顔が含まれないとして出力部12がその旨を表す識別結果を出力し(ステップS20)、処理を終了する。
ここで、本実施形態においては、第1の識別を行うことなく第2の識別を行って、目の位置を識別することも可能である。しかしながら、第2の参照データR2を得る際の学習は、小さい許容度にて両目の中心間の距離が正規化されたサンプル画像を用いているため、目の位置を精度よく検出できるものの、第2の参照データR2を参照して第2の識別を行うためには、識別対象画像S0の全体を上記小さい許容度に応じた変化量にて段階的に変形させる必要がある。一方、第1の参照データR1の学習は、第2の参照データR2の学習よりも大きい許容度にて両目の中心間の距離が正規化されたサンプル画像を用いているため、第2の参照データR2を参照する場合と比較して識別対象画像S0を段階的に変形させる際に、変形の変化量を比較的大きくすることができ、その結果、識別のための演算量を低減して処理を高速に行うことができるが、目の位置の識別精度は低い。
本実施形態においては、第1の識別により一旦顔を識別した後に、顔内の画像のみに対して第2の識別を行っているため、識別対象画像S0の全体に対して第2の識別を行う場合と比較して演算量が少なくなり、その結果、識別の処理に要する時間は短いものとなる。したがって、本実施形態によれば、識別対象の画像に含まれる顔に含まれる目の位置の識別を高速かつ高精度に行うことができる。
また、第1および第2の参照データR1,R2を得る際の学習に用いられる顔であることが分かっているサンプル画像は、目の位置および/または位置関係が正規化されているため、識別対象画像S0に顔が含まれると識別されると、その顔における目の位置は、サンプル画像における目の位置と同一のものとなる。また、図16に示すように、前髪が目にかかっていたり、目を閉じている等、識別対象画像S0に含まれる顔における目が不鮮明であっていても、識別対象画像S0に顔の特徴を表す特徴量が含まれていれば、顔が含まれているか否か、さらには目の位置を識別できる。したがって、識別対象画像S0に含まれる顔の目が不鮮明であっても、目の位置を精度よく識別することができる。
また、識別対象画像S0において、サンプル画像における第1および第2の領域A1,A2さらには第3の領域A3に対応する各領域から特徴量C0を算出することにより、識別対象画像S0の全体から特徴量C0を算出する場合よりも特徴量C0を算出する範囲が小さくなるため、演算時間を短縮することができる。
なお、上記実施形態においては、第1および第2の参照データR1,R2は装置1内のメモリ6に格納されているものとしたが、特徴量算出部4、第1の識別部8および第2の識別部10が第1および第2の参照データR1,R2にアクセスできる限り、第1および第2の参照データR1,R2は、装置1とは別個の装置やCD−ROM等の差替可能な媒体に記憶されたものであってもよい。
また、上記特徴量C0として勾配ベクトルKの傾きおよび大きさを用いているが、識別対象画像S0の色相や彩度等の色情報を特徴量C0として用いてもよい。
また、上記実施形態においては、顔を識別対象物として識別対象画像S0に顔が含まれるか否かを識別して目の位置を識別しているが、ほぼ一定形状をなしており、参照データの学習を行う際にサイズを揃えることが可能な自動車や道路標識等を識別の対象物としてもよい。この場合、識別対象の構成部品としては、自動車のヘッドライトや、道路標識中に含まれる特定のマーク等を用いることができる。
また、上記実施形態においては、第1の識別により抽出された顔の画像の全体に対して第2の識別を行っているが、抽出された顔の画像の目の近傍の領域に対してのみ第2の識別を行うようにしてもよい。
また、上記実施形態においては、出力部12が識別対象画像S0から顔を抽出しているが、識別された目の位置を表す情報(すなわち(x1,y1)、(x2,y2)の座標値)を識別対象画像データS0に付与し、目の位置の情報が付与された識別対象画像データS0を出力してもよい。ここで、目の位置の情報を識別対象画像データS0に付与するには、識別対象画像データS0のヘッダやタグに目の位置の情報を記述したり、識別対象画像データS0とファイル名が同一で拡張子が異なる例えばテキストファイルに目の位置の情報を記述して、識別対象画像データS0とテキストファイルとを一体不可分とする手法を用いることができる。なお、識別対象画像S0には顔が含まれないと識別された場合には、その識別結果を表す識別情報を識別対象画像データS0に付与して出力してもよい。
また、上記実施形態においては、識別された顔から目の位置を識別しているが、目尻、目頭、口の中心、口元、鼻の先端および顔輪郭上の特徴的な点(例えばあごの先)等の顔の構成部品の位置を識別するようにしてもよい。この場合、第1および第2の参照データR1,R2の学習に用いられる顔であることが分かっているサンプル画像は、顔の構成部品の位置および/または位置関係が正規化されたものを用いる。なお、第2の参照データR2は、顔の構成部品の位置および/または位置関係が、第1の参照データR1を学習した場合よりも小さい許容度を持って正規化されたサンプル画像を用いて学習させることにより得られる。
また、上記実施形態においては、本発明による対象物識別装置を単体として用いているが、本発明による対象物識別装置をデジタルカメラ、カメラ付き携帯電話等の撮影により画像データを取得する撮像装置に設けるようにしてもよい。これにより、撮像装置において、画像データにより表される画像に対して顔検出、赤目補正または目を閉じているか否かを検出する処理を行う際に、顔さらには目の位置の認識を行うことができる。
以上、本発明の実施形態に係る装置について説明したが、コンピュータを、上記の画像入力部2、特徴量算出部4、メモリ6、第1の識別部8、第2の識別部10、および出力部12として機能させ、識別対象画像S0に顔が含まれるか否かを識別するとともに目の位置を識別する処理を行わせるプログラムも、本発明の実施形態の1つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の1つである。これらの場合においても、参照データは、プログラム内あるいは同一の記録媒体内に含まれているものであってもよいし、外部の装置や別個の媒体から提供されるものであってもよい。
本発明の実施形態による対象物識別装置の構成を示す概略ブロック図 目の中心位置を説明するための図であり、(a)は目が正面を向いた図、(b)は目が右を向いた図 (a)は水平方向のエッジ検出フィルタを示す図、(b)は垂直方向のエッジ検出フィルタを示す図 勾配ベクトルの算出を説明するための図 (a)は人物の顔を示す図、(b)は(a)に示す人物の顔の目および口付近の勾配ベクトルを示す図 (a)は正規化前の勾配ベクトルの大きさのヒストグラムを示す図、(b)は正規化後の勾配ベクトルの大きさのヒストグラムを示す図、(c)は5値化した勾配ベクトルの大きさのヒストグラムを示す図、(d)は正規化後の5値化した勾配ベクトルの大きさのヒストグラムを示す図 第1の参照データの学習に用いられる顔であることが分かっているサンプル画像の例を示す図 第2の参照データの学習に用いられる顔であることが分かっているサンプル画像の例を示す図 顔の回転を説明するための図 参照データの学習手法を示すフローチャート 識別器の導出方法を示す図 サンプル画像に左目および左頬を含む第1の領域および右目および右頬を含む第2の領域、さらには両目を含む第3の領域を設定した状態を示す図 変形したサンプル画像に第1から第3の領域を設定した状態を示す図 識別対象画像の段階的な変形を説明するための図 本実施形態において行われる処理を示すフローチャート 前髪が目にかかっている顔画像を示す図
符号の説明
1 対象物識別装置
2 画像入力部
4 特徴量算出部
6 メモリ
8 第1の識別部
10 第2の識別部
12 出力部

Claims (11)

  1. 識別対象の画像の入力を受け付ける画像入力手段と、
    少なくとも1つの構成部品を含む所定対象物の識別に用いる少なくとも1つの特徴量を前記識別対象の画像から算出する特徴量算出手段と、
    前記所定対象物であることが分かっている、前記少なくとも1つの構成部品の位置および/または位置関係が所定の許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する第1の参照データを、前記識別対象の画像を前記所定の許容度に応じた変化量にて段階的に変形させつつ前記識別対象の画像から算出された少なくとも1つの特徴量に基づいて参照して、前記識別対象の画像に所定対象物が含まれるか否かを識別する第1の識別手段と、
    該第1の識別手段により前記所定対象物が含まれると識別された場合に、前記所定対象物であることが分かっている、前記所定の構成部品の位置および/または位置関係が前記所定の許容度よりも小さい小許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数の小許容度サンプル画像群に含まれる前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する第2の参照データを、前記所定対象物内の画像を前記小許容度に応じた変化量にて段階的に変形させつつ前記所定対象物内の画像から算出された少なくとも1つの特徴量に基づいて参照して、前記所定対象物に含まれる前記少なくとも1つの構成部品の位置を識別する第2の識別手段とを備えたことを特徴とする対象物識別装置。
  2. 前記所定対象物が顔である場合、前記第1の参照データが、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第1の領域および右目と右頬とを含む所定範囲の第2の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第1および前記第2の領域に対応する各領域に含まれる前記特徴量を学習することにより得られたものであり、
    前記特徴量算出手段は、前記識別対象の画像における前記第1および前記第2の領域に対応する各領域から前記特徴量を算出する手段であることを特徴とする請求項1記載の対象物識別装置。
  3. 前記第1の参照データが、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第3の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第3の領域に対応する領域に含まれる前記特徴量をさらに学習することにより得られたものであり、
    前記特徴量算出手段は、前記識別対象の画像における前記第1から前記第3の領域に対応する各領域から前記特徴量を算出する手段であることを特徴とする請求項2記載の対象物識別装置。
  4. 前記所定対象物が顔である場合、前記第2の参照データが、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第1の領域および右目と右頬とを含む所定範囲の第2の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第1および前記第2の領域に対応する各領域に含まれる前記特徴量を学習することにより得られたものであり、
    前記特徴量算出手段は、前記識別対象の画像における前記第1および前記第2の領域に対応する各領域から前記特徴量を算出する手段であることを特徴とする請求項1から3のいずれか1項記載の対象物識別装置。
  5. 前記第2の参照データが、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第3の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第3の領域に対応する領域に含まれる前記特徴量をさらに学習することにより得られたものであり、
    前記特徴量算出手段は、前記識別対象の画像における前記第1から前記第3の領域に対応する各領域から前記特徴量を算出する手段であることを特徴とする請求項4記載の対象物識別装置。
  6. 前記少なくとも1つの特徴量は、画像上の各画素における勾配ベクトルの方向、該勾配ベクトルの大きさおよび色情報の少なくとも1つであることを特徴とする請求項1から5のいずれか1項記載の対象物識別装置。
  7. 前記識別された構成部品の位置を基準として前記識別対象の画像から前記所定対象物を抽出する抽出手段をさらに備えたことを特徴とする請求項1から6のいずれか1項記載の対象物識別装置。
  8. 前記識別された構成部品の位置を表す情報を前記識別対象の画像に付与して出力する出力手段をさらに備えたことを特徴とする請求項1から7のいずれか1項記載の対象物識別装置。
  9. 請求項1から8のいずれか1項記載の対象物識別装置を備えたことを特徴とする撮像装置。
  10. 画像入力手段が、識別対象の画像の入力を受け付け、
    特徴量算出手段が、少なくとも1つの構成部品を含む所定対象物の識別に用いる少なくとも1つの特徴量を前記識別対象の画像から算出し、
    第1の識別手段が、前記所定対象物であることが分かっている、前記少なくとも1つの構成部品の位置および/または位置関係が所定の許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する第1の参照データを、前記識別対象の画像を前記所定の許容度に応じた変化量にて段階的に変形させつつ前記識別対象の画像から算出された少なくとも1つの特徴量に基づいて参照して、前記識別対象の画像に所定対象物が含まれるか否かを識別し、
    第2の識別手段が、前記所定対象物が含まれると識別された場合に、前記所定対象物であることが分かっている、前記所定の構成部品の位置および/または位置関係が前記所定の許容度よりも小さい小許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数の小許容度サンプル画像群に含まれる前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する第2の参照データを、前記所定対象物内の画像を前記小許容度に応じた変化量にて段階的に変形させつつ前記所定対象物内の画像から算出された少なくとも1つの特徴量に基づいて参照して、前記所定対象物に含まれる前記少なくとも1つの構成部品の位置を識別することを特徴とする対象物識別方法。
  11. 識別対象の画像の入力を受け付ける手順と、
    少なくとも1つの構成部品を含む所定対象物の識別に用いる少なくとも1つの特徴量を前記識別対象の画像から算出する手順と、
    前記所定対象物であることが分かっている、前記少なくとも1つの構成部品の位置および/または位置関係が所定の許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する第1の参照データを、前記識別対象の画像を前記所定の許容度に応じた変化量にて段階的に変形させつつ前記識別対象の画像から算出された少なくとも1つの特徴量に基づいて参照して、前記識別対象の画像に所定対象物が含まれるか否かを識別する手順と、
    記所定対象物が含まれると識別された場合に、前記所定対象物であることが分かっている、前記所定の構成部品の位置および/または位置関係が前記所定の許容度よりも小さい小許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数の小許容度サンプル画像群に含まれる前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する第2の参照データを、前記所定対象物内の画像を前記小許容度に応じた変化量にて段階的に変形させつつ前記所定対象物内の画像から算出された少なくとも1つの特徴量に基づいて参照して、前記所定対象物に含まれる前記少なくとも1つの構成部品の位置を識別する手順とを有することを特徴とする対象物識別方法をコンピュータに実行させるためのプログラム。
JP2004254432A 2003-09-09 2004-09-01 対象物識別装置および方法並びにプログラム Expired - Lifetime JP4493448B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004254432A JP4493448B2 (ja) 2003-09-09 2004-09-01 対象物識別装置および方法並びにプログラム
US10/935,336 US7920725B2 (en) 2003-09-09 2004-09-08 Apparatus, method, and program for discriminating subjects
US13/029,868 US8184870B2 (en) 2003-09-09 2011-02-17 Apparatus, method, and program for discriminating subjects

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003316925 2003-09-09
JP2004254432A JP4493448B2 (ja) 2003-09-09 2004-09-01 対象物識別装置および方法並びにプログラム

Publications (2)

Publication Number Publication Date
JP2005108197A JP2005108197A (ja) 2005-04-21
JP4493448B2 true JP4493448B2 (ja) 2010-06-30

Family

ID=34554220

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004254432A Expired - Lifetime JP4493448B2 (ja) 2003-09-09 2004-09-01 対象物識別装置および方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP4493448B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4626418B2 (ja) * 2005-06-27 2011-02-09 トヨタ自動車株式会社 対象物検出装置、及び対象物検出方法
JP4414401B2 (ja) * 2006-02-10 2010-02-10 富士フイルム株式会社 顔特徴点検出方法および装置並びにプログラム
JP4479756B2 (ja) 2007-07-05 2010-06-09 ソニー株式会社 画像処理装置及び画像処理方法、並びにコンピュータ・プログラム
JP2009140234A (ja) * 2007-12-06 2009-06-25 Yamaha Motor Co Ltd 自動販売機
JP6760318B2 (ja) * 2018-03-14 2020-09-23 オムロン株式会社 顔画像識別システム、識別器生成装置、識別装置、画像識別システム、及び識別システム

Also Published As

Publication number Publication date
JP2005108197A (ja) 2005-04-21

Similar Documents

Publication Publication Date Title
US8184870B2 (en) Apparatus, method, and program for discriminating subjects
JP4414401B2 (ja) 顔特徴点検出方法および装置並びにプログラム
CN109952594B (zh) 图像处理方法、装置、终端及存储介质
JP2007213378A (ja) 特定表情顔検出方法、撮像制御方法および装置並びにプログラム
EP2315158B1 (en) Information processing apparatus, information processing method, and program
JP4406547B2 (ja) Idカード作成装置、idカード、顔認証端末装置、顔認証装置およびシステム
JP2005242640A (ja) 対象物検出方法および装置並びにプログラム
JP2006119817A (ja) 画像処理装置
JP2005122721A (ja) 画像処理方法および装置並びにプログラム
JP2005084980A (ja) 顔画像付きカード用データ生成装置および方法並びにプログラム
JP4619762B2 (ja) 画像処理方法および装置並びにプログラム
JP4510556B2 (ja) 対象物識別装置および方法並びにプログラム
JP4493448B2 (ja) 対象物識別装置および方法並びにプログラム
JP4541806B2 (ja) 対象物識別装置および方法並びにプログラム
JP4749884B2 (ja) 顔判別装置の学習方法、顔判別方法および装置並びにプログラム
JP4510562B2 (ja) 円中心位置検出方法および装置並びにプログラム
JP2003044853A (ja) 顔検出装置、顔向き検出装置、部分画像抽出装置及びそれらの方法
JP2005250771A (ja) 対象物識別装置および方法並びにプログラム
JP2005084979A (ja) 顔認証システムおよび方法並びにプログラム
JP2005250772A (ja) 対象物識別装置および方法、学習方法並びにプログラム
JP2005250773A (ja) 対象物識別装置および方法並びにプログラム
JP4361394B2 (ja) 対象物識別装置および方法並びにプログラム
JP4690190B2 (ja) 画像処理方法および装置並びにプログラム
CN116665295B (zh) 一种基于数字孪生的生产培训系统
JP2005332382A (ja) 画像処理方法および装置並びにプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20061208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100406

R150 Certificate of patent or registration of utility model

Ref document number: 4493448

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140416

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250