[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2005108195A - 対象物識別装置および方法並びにプログラム - Google Patents

対象物識別装置および方法並びにプログラム Download PDF

Info

Publication number
JP2005108195A
JP2005108195A JP2004254430A JP2004254430A JP2005108195A JP 2005108195 A JP2005108195 A JP 2005108195A JP 2004254430 A JP2004254430 A JP 2004254430A JP 2004254430 A JP2004254430 A JP 2004254430A JP 2005108195 A JP2005108195 A JP 2005108195A
Authority
JP
Japan
Prior art keywords
identification
image
feature amount
predetermined object
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004254430A
Other languages
English (en)
Other versions
JP4510556B2 (ja
Inventor
Yuanzhong Li
元中 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Holdings Corp
Original Assignee
Fuji Photo Film Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Photo Film Co Ltd filed Critical Fuji Photo Film Co Ltd
Priority to JP2004254430A priority Critical patent/JP4510556B2/ja
Priority to US10/935,336 priority patent/US7920725B2/en
Publication of JP2005108195A publication Critical patent/JP2005108195A/ja
Application granted granted Critical
Publication of JP4510556B2 publication Critical patent/JP4510556B2/ja
Priority to US13/029,868 priority patent/US8184870B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】 比較的短い処理時間により顔等の所定対象物が画像に含まれているか否かを識別する。
【解決手段】 特徴量算出部4が識別対象画像S0の正規化が不要な第1の特徴量C1および正規化された第2の特徴量C2を算出する。多数の顔画像および顔でない画像の第1の特徴量C1について学習を行った第1の参照データR1を参照して、識別対象画像S0から算出した第1の特徴量C1に基づいて、識別対象画像S0に顔候補が含まれるか否かを第1の識別部8が識別する。顔候補が含まれる場合、多数の顔画像および顔でない画像の第2の特徴量C2について学習を行った第2の参照データR2を参照して、顔候補が顔であるか否かを第2の識別部10が識別する。
【選択図】 図1

Description

本発明は、画像に顔等の所定対象物が含まれるか否かを識別する対象物識別装置および方法並びに対象物識別方法をコンピュータに実行させるためのプログラムに関するものである。
デジタルカメラにおいて取得した画像データや、フイルムに記録された画像を読み取ることにより得た画像データを、プリント等のハードコピーとしてあるいはディスプレイ上にソフトコピーとして再現することが行われている。このような画像データにより表される画像は人物の顔が含まれることが多く、顔が適切な明るさや色を有するものとなるように画像データに対して明るさ、階調、色、シャープネス等を修正する画像処理を施すことが行われている。このように画像データに対して画像処理を施す場合には、画像データにより表される画像から人物の顔に対応する顔領域を検出する必要がある。このため、画像に顔等の所定対象物が含まれるか否かを識別する各種方法が提案されている。
例えば非特許文献1は、顔を検出する際に用いられる特徴量である輝度値を正規化し、顔について学習を行ったニューラルネットワークの学習結果を参照して、画像に顔が含まれるか否かを識別する手法である。また非特許文献2は、画像中に含まれるエッジのような高周波成分を対象物の検出に使用する特徴量として求めてこの特徴量を正規化し、ブースティングと称されるマシンラーニング(machine learning)の手法を用いての特徴量についての学習結果を参照して、画像に対象物が含まれるか否かを識別する手法である。これら非特許文献1,2の手法は、顔等の対象物の検出に使用する特徴量を正規化しているため、画像に対象物が含まれるか否かを精度よく識別することができる。
また、非特許文献3は、特に乳癌における特徴的形態の1つである腫瘤陰影を検出するために、例えばX線ネガフイルム上においては、腫瘤陰影は周囲にくらべて濃度値がわずかに低く、腫瘤陰影内の任意の画素における勾配ベクトルは腫瘤陰影の中心付近を向いているという事実を利用して、画像中の勾配ベクトルの向きの分布を評価し、特定の点に集中している領域を腫瘤陰影の候補として抽出する手法である。さらに、特許文献1は、ニューラルネットワークの一手法であるコホーネンの自己組織化を用いて顔等の対象物の特徴パターンを学習し、この学習結果を参照して、対象物の候補と対象物の特徴部分とが学習された特徴パターンに含まれるか否かを判定し、さらに対象物の候補の特徴部分の位置関係が対象物の特徴部分の位置関係と一致するか否かを判定することにより、対象物の候補が対象物であるか否かを判定する手法である。
Henry A. Rowley, Shumeet Baluja, and Takeo Kanada, "Neural Network-Based Face Detection", volume 20, number 1, pages 23-38, January 1998. Rainer Lienhart, Jochen Maydt, "An Extended Set of Haar-like Features for Rapid Object Detection", International Conference on Image Processing. 小畑他、「DR画像における腫瘤影検出(アイリスフィルタ)」、電子情報通信学会論文誌、D-II Vol.J75-D-II No.3 、P663〜670、1992年3月 特開平5−282457号公報
しかしながら、上記非特許文献1,2の手法は、対象物の検出に使用する特徴量を正規化しているために演算量が多くなり、識別のために必要な処理時間が長くなってしまうという問題がある。また、非特許文献3の手法は勾配ベクトルの向きの分布を評価しているのみであるため、腫瘤陰影のような単純な形状の対象物は検出できても、人物の顔のような複雑な対象物は検出することができない。また、特許文献1の手法は判定する対象が多いため処理に長時間を要する。
本発明は、上記事情に鑑みなされたものであり、比較的短い処理時間により顔等の所定対象物が画像に含まれているか否かを識別することを目的とする。
本発明による対象物識別装置は、識別対象の画像の入力を受け付ける画像入力手段と、
所定対象物の識別に用いる正規化が不要な第1の特徴量を前記識別対象の画像から算出する第1の特徴量算出手段と、
前記第1の特徴量と該第1の特徴量に対応する識別条件とをあらかじめ規定した第1の参照データを、前記識別対象の画像から算出された第1の特徴量に基づいて参照して、前記識別対象の画像に所定対象物候補が含まれるか否かを識別する第1の識別手段と、
該第1の識別手段により前記所定対象物候補が含まれると識別された場合、前記所定対象物の識別に用いる正規化された第2の特徴量を前記所定対象物候補から算出する第2の特徴量算出手段と、
前記第2の特徴量と該第2の特徴量に対応する識別条件とをあらかじめ規定した第2の参照データを、前記所定対象物候補から算出された正規化された第2の特徴量に基づいて参照して、前記所定対象物候補が前記所定対象物であるか否かを識別する第2の識別手段とを備えたことを特徴とするものである。
「所定対象物」とは、ほぼ一定形状をなしており、ほぼ一定の大きさとなるようにサイズを揃えることが可能な対象物が挙げられる。具体的には、人物の顔、車両および道路標識等を所定対象物とすることができる。
「特徴量」とは、画像の特徴を表すパラメータを指し、その画像における各画素の濃度勾配を表す勾配ベクトル、各画素の色情報(色相、彩度)、濃度、テクスチャーの特徴、奥行情報、その画像に含まれるエッジの特徴等、いかなる特徴を表すものであってもよい。
「正規化が不要な第1の特徴量」とは、画像の明度やコントラストの変化に依存しない特徴量である。例えば、画像の各画素における濃度が変化する方向および変化の大きさ、すなわち濃度の勾配を表す勾配ベクトルは、その画素の濃度およびその画素から見た特定の方向におけるコントラストの変化量に応じて大きさが変わるが、大きさが変わっても勾配ベクトルの方向は変わらない。また、色相等の色情報は、画像の濃度が変わっても色情報自体は変わらない。したがって、勾配ベクトルの方向および色情報等を第1の特徴量として用いることができる。
「第2の特徴量」とは、特徴量をそのまま用いたのでは、ある画像の特徴量が、その画像に含まれる同一種類の特徴量や他の画像における同一種類の特徴量と比較して大きいのか小さいのか区別ができない、画像の明度やコントラストの変化に依存する特徴量である。第2の特徴量を正規化する手法としては、例えば、画素毎に第2の特徴量が算出される場合、所定対象物候補を構成する全画素の第2の特徴量を用いて所定対象物候補に含まれる各画素の第2の特徴量を正規化する手法や、所定対象物候補を構成する全画素のうち、正規化の対象となる画素を含む所定範囲内の複数画素の第2の特徴量を用いて対象となる画素の第2の特徴量を正規化する手法等を用いることができる。
「識別条件」とは、特徴量を指標とした、所定対象物とそうでない対象物とを識別する条件を指す。
なお、本発明による対象物識別装置においては、前記第1の参照データを、前記所定対象物であることが分かっている複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記第1の特徴量を、ニューラルネットワーク、ブースティング等のマシンラーニング(machine learning)の手法によりあらかじめ学習することにより得てもよい。
ここで、前記所定対象物が顔である場合、前記第1の参照データを、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第1の領域および右目と右頬とを含む所定範囲の第2の領域に含まれる前記第1の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第1および前記第2の領域に対応する各領域に含まれる前記第1の特徴量を学習することにより得るものとし、
前記第1の特徴量算出手段を、前記識別対象の画像における前記第1および前記第2の領域に対応する各領域から前記第1の特徴量を算出する手段としてもよい。
また、前記第1の参照データを、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第3の領域に含まれる前記第1の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第3の領域に対応する領域に含まれる前記第1の特徴量をさらに学習することにより得るものとし、
前記第1の特徴量算出手段を、前記識別対象の画像における前記第1から第3の領域に対応する各領域から前記第1の特徴量を算出する手段としてもよい。
また、本発明による対象物識別装置においては、前記第2の参照データを、前記所定対象物であることが分かっている複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記第2の特徴量を、マシンラーニングの手法によりあらかじめ学習することにより得てもよい。
ここで、前記所定対象物が顔である場合、前記第2の参照データを、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第1の領域および右目と右頬とを含む所定範囲の第2の領域に含まれる前記第2の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第1および前記第2の領域に対応する各領域に含まれる前記第2の特徴量を学習することにより得るものとし、
前記第2の特徴量算出手段を、前記識別対象の画像における前記第1および前記第2の領域に対応する各領域から前記第2の特徴量を算出する手段としてもよい。
また、前記第2の参照データを、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第3の領域に含まれる前記第2の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第3の領域に対応する領域に含まれる前記第2の特徴量をさらに学習することにより得るものとし、
前記第2の特徴量算出手段を、前記識別対象の画像における前記第1から第3の領域に対応する各領域から前記第2の特徴量を算出する手段としてもよい。
また、本発明による対象物識別装置においては、前記第1の特徴量を、画像上の各画素における勾配ベクトルの方向または色情報としてもよい。
「勾配ベクトル」とは、画像の各画素における濃度が変化する方向および変化の大きさを表すものである。
また、本発明による対象物識別装置においては、前記第2の特徴量を、画像上の各画素における勾配ベクトルの方向および大きさとしてもよい。
また、本発明による対象物識別装置においては、前記第1の識別手段による識別結果が所定の要求を満たすか否かを判定し、該判定が肯定された場合は、前記識別対象の画像から前記第1の特徴量のみを算出して、前記第1の識別手段が識別した前記所定対象物候補を前記所定対象物と識別するよう前記第1および前記第2の特徴量算出手段、並びに前記第1および前記第2の識別手段を制御する制御手段をさらに備えるようにしてもよい。
また、本発明による対象物識別装置においては、前記所定対象物候補から算出されたさらに他の特徴量に基づいて、前記第2の識別手段により識別された前記画像に含まれる所定対象物が、真に所定対象物であるかを識別する少なくとも1つの他の識別手段をさらに備えるようにしてもよい。
また、本発明による対象物識別装置においては、前記識別対象の画像から前記所定対象物を抽出する抽出手段をさらに備えるようにしてもよい。
また、本発明による対象物識別装置においては、前記識別対象の画像における前記所定対象物の位置を表す情報を前記識別対象の画像に付与して出力する出力手段をさらに備えるようにしてもよい。
本発明によるデジタルカメラ、カメラ付き携帯電話等の撮像装置は、本発明による対象物識別装置を備えたことを特徴とするものである。
本発明による対象物識別方法は、識別対象の画像の入力を受け付け、
所定対象物の識別に用いる正規化が不要な第1の特徴量を前記識別対象の画像から算出し、
前記第1の特徴量と該第1の特徴量に対応する識別条件とをあらかじめ規定した第1の参照データを、前記識別対象の画像から算出された第1の特徴量に基づいて参照して、前記識別対象の画像に所定対象物候補が含まれるか否かを識別し、
該第1の識別手段により前記所定対象物候補が含まれると識別された場合、前記所定対象物の識別に用いる正規化された第2の特徴量を前記所定対象物候補から算出し、
前記第2の特徴量と該第2の特徴量に対応する識別条件とをあらかじめ規定した第2の参照データを、前記所定対象物候補から算出された正規化された第2の特徴量に基づいて参照して、前記所定対象物候補が前記所定対象物であるか否かを識別することを特徴とするものである。
なお、本発明による対象物識別方法をコンピュータに実行させるためのプログラムとして提供してもよい。
本発明によれば、識別対象の画像から正規化が不要な第1の特徴量が算出される。そして、第1の参照データが第1の特徴量に基づいて参照されて、識別対象の画像に所定対象物候補が含まれるか否かが識別される(第1の識別)。そして、所定対象物候補が含まれると識別されると、所定対象物候補から正規化された第2の特徴量が算出され、続いて、第2の参照データが第2の特徴量に基づいて参照されて、所定対象物候補が所定対象物であるか否かが識別(第2の識別)される。ここで、第1の識別においては、正規化が不要な第1の特徴量を用いているため、識別対象の画像の全体について所定対象物候補が含まれるか否かを識別しても、それほど演算量は多くなく、その結果、比較的高速に識別対象の画像に所定対象物候補が含まれるか否かを識別できる。一方、第2の識別においては、正規化された第2の特徴量を用いているため、精度よく所定対象物が含まれるか否かを識別できるものの、演算量が多くなる。しかしながら、本発明においては、正規化された第2の特徴量を算出して第2の識別を行うのは、識別対象の画像における所定対象物候補の部分のみであるため、正規化のための演算量が少なくなり、その結果、識別の処理に要する時間は短いものとなる。したがって、本発明によれば、識別対象の画像に所定対象物が含まれるか否かの識別を高速かつ高精度に行うことができる。
また、第1および第2の参照データをマシンラーニングの手法によりあらかじめ学習することにより得られたものとすることにより、所定対象物の識別性能をより向上させることができる。
また、所定対象物が顔である場合において、学習の際に、サンプル画像における左目と左頬とを含む第1の領域および右目と右頬とを含む第2の領域、さらには両目を含む第3の領域に含まれる第1および第2の特徴量を使用することにより、学習時間を大幅に短縮することができる。また、識別対象の画像に所定対象物が含まれるか否かの識別を行う場合において、第1および第2の領域、さらには第3の領域に含まれる第1および第2の特徴量が識別性能の向上に大きく寄与することが本出願人の実験により確認されている。このため、学習の際に第1および第2の領域、さらには第3の領域に含まれる第1および第2の特徴量を使用して第1および第2の参照データの学習を行うことことにより、識別対象の画像に所定対象物が含まれるか否かの識別性能をより向上させることができる。
また、識別対象の画像からは第1および第2の領域、さらには第3の領域に対応する各領域から第1および第2の特徴量を算出することにより、識別対象の画像の全体から第1および第2の特徴量を算出する場合よりも第1および第2の特徴量を算出する範囲が小さくなるため、演算時間を短縮することができる。
また、第1の特徴量を画像上の各画素における勾配ベクトルの方向または色情報とするまたは第2の特徴量を画像上の各画素における勾配ベクトルの方向および大きさとすることにより、画像に含まれる比較的算出しやすい特徴量を用いて精度よく所定対象物が識別対象の画像に含まれるか否かを識別できる。
また、第1の識別手段により識別結果が所定の要求を満たすか否かを判定し、この判定が肯定された場合には、第1の特徴量のみを算出して第1の識別を行い、識別された所定対象物候補を所定対象物と識別することにより、第1の識別が精度よく行われている場合には、正規化された第2の特徴量の算出および第2の識別を省略することができるため、これにより、より高速に識別対象の画像に所定対象物が含まれるか否かの識別を行うことができる。
また、識別された所定対象物を抽出することにより、識別対象の画像から精度よく所定対象物を抽出することができる。
また、識別対象の画像における所定対象物の位置を表す情報を識別対象の画像に付与して出力することにより、後に識別対象に付与された情報を参照すれば、識別対象の画像から精度よく所定対象物を抽出することができる。
以下、図面を参照して本発明の実施形態について説明する。図1は本発明の第1の実施形態による対象物識別装置の構成を示す概略ブロック図である。図1に示すように、第1の実施形態による対象物識別装置1は、識別対象の画像を表す識別対象画像データS0の入力を受け付ける画像入力部2、識別対象画像データS0により表される識別対象画像(以下画像についても参照符号S0を用いる)S0から第1および第2の特徴量C1,C2を算出する特徴量算出部4、後述する第1および第2の参照データR1,R2が格納されているメモリ6、特徴量算出部4が算出した第1の特徴量C1とメモリ6内の第1の参照データR1とに基づいて、識別対象画像S0に所定対象物である人物の顔の候補が含まれているか否かを識別する第1の識別部8、第1の識別部8により識別対象画像S0に顔候補が含まれていると識別された場合に、特徴量算出部4が算出した第2の特徴量C2とメモリ6内の第2の参照データR2とに基づいて、その顔候補が所定対象物である人物の顔であるか否かを識別する第2の識別部10、並びに第1および第2の識別部8,10による識別結果を出力する出力部12とを備える。
特徴量算出部4は、顔の識別に用いる正規化が不要な第1の特徴量C1を識別対象画像S0から算出するとともに、第2の特徴量C2を後述するように抽出された顔候補内の画像から算出する。具体的には、第1の特徴量C1として、識別対象画像S0の勾配ベクトルの方向を、第2の特徴量C2として顔候補内の画像の勾配ベクトル(すなわち方向および大きさ)を算出する。以下、勾配ベクトルの算出について説明する。まず、特徴量算出部4は、識別対象画像S0に対して図2(a)に示す水平方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像S0における水平方向のエッジを検出する。また、特徴量算出部4は、識別対象画像S0に対して図2(b)に示す垂直方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像S0における垂直方向のエッジを検出する。そして、識別対象画像S0上の各画素における水平方向のエッジの大きさHおよび垂直方向のエッジの大きさVとから、図3に示すように、各画素における勾配ベクトルKを算出する。
そして、この勾配ベクトルKの方向を第1の特徴量C1とする。具体的には勾配ベクトルKの所定方向(例えば図3におけるx方向)を基準とした0から359度の値を第1の特徴量C1とする。
なお、このようにして算出された勾配ベクトルKは、図4(a)に示すような人物の顔の場合、図4(b)に示すように、目および口のように暗い部分においては目および口の中央を向き、鼻のように明るい部分においては鼻の位置から外側を向くものとなる。また、口よりも目の方が濃度の変化が大きいため、勾配ベクトルKの大きさは口よりも目の方が大きくなる。
ここで、第2の特徴量C2は顔候補内においてのみ算出される。また、第2の特徴量C2の勾配ベクトルKの大きさは正規化される。この正規化は、顔候補内の全画素における勾配ベクトルKの大きさのヒストグラムを求め、その大きさの分布が顔候補内の各画素が取り得る値(8ビットであれば0〜255)に均一に分布されるようにヒストグラムを平滑化して勾配ベクトルKの大きさを修正することにより行う。例えば、勾配ベクトルKの大きさが小さく、図5(a)に示すように勾配ベクトルKの大きさが小さい側に偏ってヒストグラムが分布している場合には、大きさが0〜255の全領域に亘るものとなるように勾配ベクトルKの大きさを正規化して図5(b)に示すようにヒストグラムが分布するようにする。なお、演算量を低減するために、図5(c)に示すように、勾配ベクトルKのヒストグラムにおける分布範囲を例えば5分割し、5分割された頻度分布が図5(d)に示すように0〜255の値を5分割した範囲に亘るものとなるように正規化することが好ましい。
ここで、撮影を行う際には、照明の明るさや照明の方向が撮影時の条件に応じて様々であるため、明るさや照明の方向は識別対象画像S0毎に異なる。このように明るさや照明の方向が異なる識別対象画像S0のそれぞれについてそのまま勾配ベクトルKを求めていたのでは、同じ顔であるのに目の位置における勾配ベクトルの大きさが異なってしまい、精度よく顔候補が顔であるか否かを識別することができない。この場合、勾配ベクトルKの大きさを識別対象画像S0の全体について正規化すればよいが、正規化は演算量が多いため処理に時間がかかる。このため、本実施形態においては、識別対象画像S0の全体ではなく、第1の識別部8が識別した顔候補についてのみ第2の特徴量の正規化を行うことにより、演算量を低減して処理時間を短縮している。
なお、特徴量算出部4は、後述するように識別対象画像S0および顔候補の変形の各段階において第1および第2の特徴量C1,C2を算出する。
メモリ6内に格納されている第1の参照データR1は、後述するサンプル画像から選択された複数画素の組み合わせからなる複数種類の画素群のそれぞれについて、各画素群を構成する各画素における第1の特徴量C1の組み合わせに対する識別条件を規定したものである。また、第2の参照データR2は、サンプル画像から選択された複数画素の組み合わせからなる複数種類の画素群のそれぞれについて、各画素群を構成する各画素における第2の特徴量C2の組み合わせに対する識別条件を規定したものである。
第1および第2の参照データR1,R2中の、各画素群を構成する各画素における第1および第2の特徴量C1,C2の組み合わせおよび識別条件は、顔であることが分かっている複数のサンプル画像と顔でないことが分かっている複数のサンプル画像とからなるサンプル画像群の学習により、あらかじめ決められたものである。
なお、本実施形態においては、顔であることが分かっているサンプル画像として、30×30画素サイズを有し、図6に示すように、1つの顔の画像について両目の中心間の距離が10画素、9画素および11画素であり、垂直に立った顔を基準として平面上±15度の範囲において3度単位で段階的に回転させた(すなわち、回転角度が−15度,−12度,−9度,−6度,−3度,0度,3度,6度,9度,12度,15度)サンプル画像を用いるものとする。したがって、1つの顔の画像につきサンプル画像は3×11=33通り用意される。ここで、顔が垂直に立った状態において上下方向における目の位置はすべてのサンプル画像において同一である。なお、図6においては−15度、0度および+15度に回転させたサンプル画像のみを示す。また、回転の中心はサンプル画像の対角線の交点である。また、顔でないことが分かっているサンプル画像としては、30×30画素サイズを有する任意の画像を用いるものとする。
ここで、顔であることが分かっているサンプル画像として、両目の中心間距離が10画素であり、平面上の回転角度が0度(すなわち顔が垂直な状態)のもののみを用いて学習を行った場合、第1および第2の参照データR1,R2を参照して顔候補または顔であると識別されるのは、両目の中心間距離が10画素で全く回転していない顔候補または顔のみである。識別対象画像S0に含まれる可能性がある顔のサイズは一定ではないため、顔候補が含まれるか否かあるいは顔候補が顔であるか否かを識別する際には、後述するように識別対象画像S0を拡大縮小して、サンプル画像のサイズに適合するサイズの顔を識別できるようにしている。しかしながら、両目の中心間距離を正確に10画素とするためには、識別対象画像S0のサイズを拡大率として例えば1.1単位で段階的に拡大縮小しつつ識別を行う必要があるため、演算量が膨大なものとなる。
また、識別対象画像S0に含まれる可能性がある顔は、図7(a)に示すように平面上の回転角度が0度のみではなく、図7(b)、(c)に示すように回転している場合もある。しかしながら、両目の中心間距離が10画素であり、顔の回転角度が0度のサンプル画像のみを使用して学習を行った場合、顔であるにも拘わらず、図7(b)、(c)に示すように回転した顔については識別を行うことができなくなってしまう。
このため、本実施形態においては、顔であることが分かっているサンプル画像として、図6に示すように両目の中心間距離が9,10,11画素であり、各距離において平面上±15度の範囲にて3度単位で段階的に顔を回転させたサンプル画像を用いて、第1および第2の参照データR1,R2の学習に許容度を持たせるようにしたものである。これにより、識別対象画像S0を、拡大率として11/9単位で段階的に拡大縮小すればよいため、識別対象画像S0のサイズを例えば拡大率として1.1単位で段階的に拡大縮小する場合と比較して、演算時間を低減できる。また、図7(b)、(c)に示すように回転している顔も識別することができる。
以下、図8のフローチャートを参照しながらサンプル画像群の学習手法の一例を説明する。なお、ここでは第2の参照データR2の学習について説明する。
学習の対象となるサンプル画像群は、顔であることが分かっている複数のサンプル画像と、顔でないことが分かっている複数のサンプル画像とからなる。なお、顔であることが分かっているサンプル画像は、1つのサンプル画像につき両目の中心位置が9,10,11画素であり、各距離において平面上±15度の範囲にて3度単位で段階的に顔を回転させたものを用いる。各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく1に設定される(ステップS1)。
次に、サンプル画像における複数種類の画素群のそれぞれについて識別器が作成される(ステップS2)。ここで、それぞれの識別器とは、1つの画素群を構成する各画素における第2の特徴量C2の組み合わせを用いて、顔の画像と顔でない画像とを識別する基準を提供するものである。本実施形態においては、1つの画素群を構成する各画素における第2の特徴量C2の組み合わせについてのヒストグラムを識別器として使用する。
図9を参照しながらある識別器の作成について説明する。図9の左側のサンプル画像に示すように、この識別器を作成するための画素群を構成する各画素は、顔であることが分かっている複数のサンプル画像上における、右目の中心にある画素P1、右側の頬の部分にある画素P2、額の部分にある画素P3および左側の頬の部分にある画素P4である。そして顔であることが分かっている全てのサンプル画像について全画素P1〜P4における第2の特徴量C2の組み合わせが求められ、そのヒストグラムが作成される。ここで、第2の特徴量C2は勾配ベクトルKの方向および大きさを表すが、勾配ベクトルKの方向は0〜359の360通り、勾配ベクトルKの大きさは0〜255の256通りあるため、これをそのまま用いたのでは、組み合わせの数は1画素につき360×256通りの4画素分、すなわち(360×256)4通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、勾配ベクトルの方向を0〜359を0〜44と315〜359(右方向、値:0),45〜134(上方向値:1),135〜224(左方向、値:2),225〜314(下方向、値3)に4値化し、勾配ベクトルの大きさを3値化(値:0〜2)する。そして、以下の式を用いて組み合わせの値を算出する。
組み合わせの値=0(勾配ベクトルの大きさ=0の場合)
組み合わせの値=((勾配ベクトルの方向+1)×勾配ベクトルの大きさ(勾配ベクトルの大きさ>0の場合)
これにより、組み合わせ数が94通りとなるため、第2の特徴量C2のデータ数を低減できる。
同様に、顔でないことが分かっている複数のサンプル画像についても、ヒストグラムが作成される。なお、顔でないことが分かっているサンプル画像については、顔であることが分かっているサンプル画像上における上記画素P1〜P4の位置に対応する画素(同様に参照符号P1〜P4を用いる)が用いられる。これらの2つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図9の一番右側に示す、識別器として用いられるヒストグラムである。この識別器のヒストグラムが示す各縦軸の値を、以下、識別ポイントと称する。この識別器によれば、正の識別ポイントに対応する第2の特徴量C2の分布を示す画像は顔である可能性が高く、識別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の識別ポイントに対応する第2の特徴量C2の分布を示す画像は顔でない可能性が高く、やはり識別ポイントの絶対値が大きいほどその可能性は高まる。ステップS2では、識別に使用され得る複数種類の画素群を構成する各画素における第2の特徴量C2の組み合わせについて、上記のヒストグラム形式の複数の識別器が作成される。
続いて、ステップS2で作成した複数の識別器のうち、画像が顔であるか否かを識別するのに最も有効な識別器が選択される。最も有効な識別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各識別器の重み付き正答率が比較され、最も高い重み付き正答率を示す識別器が選択される(ステップS3)。すなわち、最初のステップS3では、各サンプル画像の重みは等しく1であるので、単純にその識別器によって画像が顔であるか否かが正しく識別されるサンプル画像の数が最も多いものが、最も有効な識別器として選択される。一方、後述するステップS5において各サンプル画像の重みが更新された後の2回目のステップS3では、重みが1のサンプル画像、重みが1よりも大きいサンプル画像、および重みが1よりも小さいサンプル画像が混在しており、重みが1よりも大きいサンプル画像は、正答率の評価において、重みが1のサンプル画像よりも重みが大きい分多くカウントされる。これにより、2回目以降のステップS3では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく識別されることに、より重点が置かれる。
次に、それまでに選択した識別器の組み合わせの正答率、すなわち、それまでに選択した識別器を組み合わせて使用して各サンプル画像が顔の画像であるか否かを識別した結果が、実際に顔の画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる(ステップS4)。ここで、組み合わせの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した識別器を用いれば画像が顔であるか否かを十分に高い確率で識別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した識別器と組み合わせて用いるための追加の識別器を選択するために、ステップS6へと進む。
ステップS6では、直近のステップS3で選択された識別器が再び選択されないようにするため、その識別器が除外される。
次に、直近のステップS3で選択された識別器では顔であるか否かを正しく識別できなかったサンプル画像の重みが大きくされ、画像が顔であるか否かを正しく識別できたサンプル画像の重みが小さくされる(ステップS5)。このように重みを大小させる理由は、次の識別器の選択において、既に選択された識別器では正しく識別できなかった画像を重要視し、それらの画像が顔であるか否かを正しく識別できる識別器が選択されるようにして、識別器の組み合わせの効果を高めるためである。
続いて、ステップS3へと戻り、上記したように重み付き正答率を基準にして次に有効な識別器が選択される。
以上のステップS3からS6を繰り返して、顔が含まれるか否かを識別するのに適した識別器として、特定の画素群を構成する各画素における第2の特徴量C2の組み合わせに対応する識別器が選択されたところで、ステップS4で確認される正答率が閾値を超えたとすると、顔が含まれるか否かの識別に用いる識別器の種類と識別条件とが確定され(ステップS7)、これにより第2の参照データR2の学習を終了する。
そして、上記と同様に識別器の種類と識別条件とを求めることにより第1の参照データR1の学習がなされる。
なお、上記の学習手法を採用する場合において、識別器は、特定の画素群を構成する各画素における第1および第2の特徴量C1,C2の組み合わせを用いて顔の画像と顔でない画像とを識別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば2値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図9の中央に示した2つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。
また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。なお、第1および第2の参照データR1,R2は、熟練した技術者により経験的に定められたものであってもよい。
また、上記の学習方法において、識別器を作成するための画素群を合成する画素として、図10に示すように顔であることが分かっているサンプル画像における左目と左頬とを含む第1の領域A1および右目と右頬とを含む第2の領域A2内の画素のみを用いるようにしてもよい。また、第1および第2の領域A1,A2に加えて、図10に破線で示すように両目を含む第3の領域A3内の画素を用いるようにしてもよい。
この場合、領域A1,A2,A3の位置は学習に用いるすべてのサンプル画像において同一とする。すなわち、本実施形態においては、図6に示すように両目の中心間距離が9,10,11画素であり、各距離において平面上±15度の範囲にて3度単位で段階的に顔を回転させることにより変形したサンプル画像を用いて、第1および第2の参照データR1,R2の学習を行うが、変形したサンプル画像上における領域A1,A2,A3の位置を、両目の中心間距離が10画素で回転角度が0度のサンプル画像に設定した領域A1,A2,A3の位置と同一とする。また、顔でないことが分かっているサンプル画像についても、設定する領域A1,A2,A3の位置は、両目の中心間距離が10画素で回転角度が0度の顔であることが分かっているサンプル画像に設定した領域A1,A2,A3の位置と同一とする。したがって、図11に示すように学習に用いるすべてのサンプル画像上に設定された領域A1,A2さらには領域A3内の画素のみを用いて識別器を作成することとなる。
このように、学習の際にサンプル画像における第1から第3の領域A1〜A3内の画素のみを用いて識別器を作成することにより、第1および第2の参照データR1,R2の学習時間を大幅に短縮することができる。
また、識別対象画像S0に顔が含まれるか否かの識別を行う場合において、第1および第2の領域A1,A2、さらには第3の領域A3に含まれる画素を用いて作成した識別器が識別性能の向上に大きく寄与することが本出願人の実験により確認されている。このため、学習の際に第1および第2の領域A1,A2、さらには第3の領域A3に含まれる画素のみを用いて識別器を作成して第1および第2の参照データR1,R2の学習を行うことにより、識別対象画像S0に顔が含まれるか否かの識別性能をより向上させることができる。
第1の識別部8は、複数種類の画素群を構成する各画素における第1の特徴量C1の組み合わせのすべてについて第1の参照データR1が学習した識別条件を参照して、各々の画素群を構成する各画素における第1の特徴量C1の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して識別対象画像S0に顔候補が含まれるか否かを識別する。この際、第1の特徴量C1である勾配ベクトルKの方向は第1の参照データR1を学習した場合と同様に例えば4値化される。本実施形態では、すべての識別ポイントを加算して、その加算値の正負によって識別を行うものとする。例えば、識別ポイントの総和が正の値である場合には識別対象画像S0には顔候補が含まれると判断し、負の値である場合には顔候補は含まれないと判断する。なお、第1の識別部8が行う識別対象画像S0に顔候補が含まれるか否かの識別を第1の識別と称する。
ここで、識別対象画像S0のサイズは30×30画素のサンプル画像とは異なり、各種サイズを有するものとなっている。また、顔が含まれる場合、平面上における顔の回転角度が0度であるとは限らない。このため、第1の識別部8は、図12に示すように、識別対象画像S0を縦または横のサイズが30画素となるまで段階的に拡大縮小するとともに平面上で段階的に360度回転させつつ(図12においては縮小する状態を示す)、各段階において拡大縮小された識別対象画像S0上に30×30画素サイズのマスクMを設定し、マスクMを拡大縮小された識別対象画像S0上において1画素ずつ移動させながら、マスク内の画像が顔の画像であるか否かの識別を行うことにより、識別対象画像S0に顔候補が含まれるか否かを識別する。
なお、第1および第2の参照データR1,R2の生成時に学習したサンプル画像として両目の中心位置の画素数が9,10,11画素のものを使用しているため、識別対象画像S0および顔候補の拡大縮小時の拡大率は11/9とすればよい。また、第1および第2の参照データR1,R2の生成時に学習したサンプル画像として、顔が平面上で±15度の範囲において回転させたものを使用しているため、識別対象画像S0および顔候補は30度単位で360度回転させればよい。
ここで、特徴量算出部4は、識別対象画像S0および顔候補の拡大縮小および回転という変形の各段階において第1および第2の特徴量C1,C2を算出する。
なお、第1および第2の参照データR1,R2の学習の際に、上述したようにサンプル画像に設定された第1および第2の領域A1,A2、さらには第3の領域A3内の画素のみを用いて識別器を作成した場合には、特徴量算出部4はマスクMにおける第1および第2の領域A1,A2、さらには第3の領域A3に対応する各領域の画素のみを用いて第1および第2の特徴量C1,C2を算出する。
そして、識別対象画像S0に顔候補が含まれるか否かの識別を拡大縮小および回転の全段階の識別対象画像S0について行い、一度でも顔候補が含まれると識別された場合には、識別対象画像S0には顔候補が含まれると識別し、顔候補が含まれると識別された段階におけるサイズおよび回転角度の識別対象画像S0から、識別されたマスクMの位置に対応する30×30画素の領域を顔候補として抽出する。
第2の識別部10は、第1の識別部8が抽出した顔候補上において、第1の識別部8と同様に顔候補を段階的に拡大縮小しつつ回転させることにより変形し、顔候補の変形の各段階において、複数種類の画素群を構成する各画素における第2の特徴量C2の組み合わせのすべてについて第2の参照データR2が学習した識別条件を参照して、各々の画素群を構成する各画素における第2の特徴量C2の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して顔候補が顔であるか否かを識別する。この際、第2の特徴量C2である勾配ベクトルKの方向は4値化され大きさは3値化される。本実施形態では、すべての識別ポイントを加算して、その加算値の正負によって識別を行うものとする。例えば、識別ポイントの総和が正の値である場合には顔候補が顔であると判断され、負の値である場合には顔候補は顔でないと判断される。なお、第2の識別部10が行う顔候補が顔であるか否かの識別を第2の識別と称する。
出力部12は、第1の識別部8が識別対象画像S0に顔候補が含まれないと識別した場合、および第1の識別部8が識別対象画像S0に顔候補が含まれると識別しても第2の識別部10がその顔候補が顔でないと識別した場合に、識別対象画像S0には顔が含まれない旨の識別結果を出力する。一方、第2の識別部10が第1の識別部8が識別した顔候補が顔であると識別した場合、識別対象画像S0から識別された顔をトリミングすることにより抽出して抽出された顔の画像を表す顔画像データS1を出力する。
次いで、第1の実施形態において行われる処理について説明する。図13は第1の実施形態において行われる処理を示すフローチャートである。まず、画像入力部2が識別対象画像データS0の入力を受け付ける(ステップS11)。この際、多数の画像に関する一連の画像データS0の入力を連続的に受け付けてもよい。次いで、特徴量算出部4が識別対象画像S0の拡大縮小および回転の各段階において、識別対象画像S0の勾配ベクトルKの方向を第1の特徴量C1として算出する(ステップS12)。そして、第1の識別部8がメモリ6から第1の参照データR1を読み出し(ステップS13)、識別対象画像S0に顔候補が含まれるか否かの第1の識別を行う(ステップS14)。
ステップS14が肯定されると、第1の識別部8は識別対象画像S0から顔候補を抽出する(ステップS15)。なお、複数の顔候補を抽出してもよい。次いで、特徴量算出部4が顔候補の拡大縮小および回転の各段階において顔候補から第2の特徴量C2を算出し(ステップS16)、第2の特徴量C2を正規化する(ステップS17)。そして、第2の識別部10がメモリ6から第2の参照データR2を読み出し(ステップS18)、顔候補が顔であるか否かの第2の識別を行う(ステップS19)。
ステップS19が肯定されると、出力部12が識別対象画像S0から識別された顔を抽出し、抽出された顔の画像を表す顔画像データS1を出力し(ステップS20)、処理を終了する。
ステップS14およびステップS19が否定されると、識別対象画像S0には顔が含まれないとして出力部12がその旨を表す識別結果を出力し(ステップS21)、処理を終了する。
このように、第1の実施形態による対象物識別装置1の第1の識別部8においては、正規化が不要な勾配ベクトルKの傾きという第1の特徴量C1を用いているため、識別対象画像S0の全体について顔候補が含まれるか否かを識別しても、それほど演算量は多くなく、その結果、比較的高速に識別対象画像S0に顔候補が含まれるか否かを識別できる。一方、第2の識別部10においては、勾配ベクトルKの傾きおよび大きさという第2の特徴量C2を正規化して顔候補が顔であるか否かの識別を行っているため、識別の精度は高いものの演算量が多くなる。しかしながら、本実施形態においては、第2の特徴量を正規化して第2の識別を行うのは、識別対象画像S0から抽出された顔候補の部分のみであるため、正規化のための演算量が少なくなり、その結果、識別の処理に要する時間は短いものとなる。したがって、本実施形態によれば、識別対象画像S0に顔が含まれるか否かの識別を高速かつ高精度に行うことができる。
なお、識別対象画像S0において、サンプル画像における第1および第2の領域A1,A2さらには第3の領域A3に対応する各領域から第1および第2の特徴量C1,C2を算出することにより、識別対象画像S0の全体から第1および第2の特徴量C1,C2を算出する場合よりも第1および第2の特徴量C1,C2を算出する範囲が小さくなるため、演算時間を短縮することができる。
次いで、本発明の第2の実施形態について説明する。図14は本発明の第2の実施形態による対象物識別装置1′の構成を示す概略ブロック図である。なお、第2の実施形態において第1の実施形態と同一の構成については同一の参照番号を付し、ここでは詳細な説明は省略する。第2の実施形態においては、第1の実施形態による対象物識別装置を構成する画像入力部2、特徴量算出部4、メモリ6、第1の識別部8、第2の識別部10および出力部12に加えて、第1の識別部8による識別結果が所定の要求を満たすか否かを判定し、この判定が肯定された場合は、第1の特徴量C1のみを算出し、第1の識別部8が識別した顔候補を顔と識別して第2の識別部10における第2の識別を行わないよう、特徴量算出部4、第1の識別部8および第2の識別部10を制御する制御部14を備えた点が第1の実施形態と異なる。
制御部14は、識別対象画像データS0に対する第1の識別および第2の識別を開始してから、識別を行った識別対象画像データS0の数が所定数に達した時点において、第1の識別部8が識別対象画像S0に顔候補が含まれると識別した回数(N1とする)と、第2の識別部10が顔候補が顔であると識別した回数(N2とする)とを比較し、回数N1に対する回数N2の比N2/N1が例えば所定の割合(例えば0.95)以上であるか否かを判定することにより、第1の識別部8の識別結果が所定の要求を満たすか否かを判定する。そしてこの判定が肯定されると第1の識別部8による顔候補の識別精度が非常に高いものであるとして、それ以降識別を行う識別対象画像データS0については、特徴量算出部4において第1の特徴量C1のみを算出し、第1の識別部8においてのみ識別対象画像S0に顔候補が含まれるか否かを識別し、顔候補が含まれると識別された場合にはその顔候補が顔であるものとして、識別対象画像S0には顔が含まれると識別し、識別結果を出力部12に出力するよう特徴量算出部4、第1の識別部8および第2の識別部10を制御する。
次いで、第2の実施形態において行われる処理について説明する。なお、第2の実施形態においては、画像入力部2、特徴量算出部4、メモリ6、第1の識別部8、第2の識別部10および出力部12において行われる処理は第1の実施形態において行われる処理と同一であるため、ここでは制御部14が行う処理についてのみ説明する。
図15は第2の実施形態において行われる処理を示すフローチャートである。識別対象画像S0に顔が含まれるか否かを識別する処理が開始されると制御部14は処理を開始し、第1の識別部8が識別対象画像S0に顔候補が含まれると識別した回数N1をカウントする(ステップS31)。一方、第2の識別部10が顔候補が顔であると識別した回数N2をカウントする(ステップS32)。
次いで、制御部14は、識別を行った識別対象画像S0の数(すなわち識別数)が所定数に達したか否かを判定する(ステップS33)。ステップS33が否定されるとステップS31に戻り、ステップS33が肯定されるまでステップS31からステップS33の処理を繰り返す。ステップS33が肯定されると、回数N1に対する回数N2の比N2/N1が所定の割合以上であるか否かを判定する(ステップS34)。
ステップS34が肯定されると、第1の特徴量C1のみを算出して第1の識別部8のみを用いて識別対象画像S0に顔が含まれるか否かを識別するよう特徴量算出部4、第1の識別部8および第2の識別部10を制御し(ステップS35)、処理を終了する。一方、ステップS34が否定されると、引き続き第1および第2の特徴量C1,C2を算出し、第1および第2の識別部8,10を用いて識別対象画像S0に顔が含まれるか否かを識別するよう特徴量算出部4、第1の識別部8および第2の識別部10を制御し(ステップS36)、処理を終了する。
このように、第2の実施形態においては、第1の識別部8による識別結果が所定の要求を満たすか否かを判定し、この判定が肯定された場合には、以降の処理においては第1の特徴量C1のみを算出し、第1の識別部8のみを用いて第1の識別部8が識別した顔候補を顔と識別するようにしたものである。このため、第1の識別部8が精度よく識別を行っている場合には、正規化された第2の特徴量C2の算出および第2の識別部10が行う第2の識別を省略することができ、これにより、より高速に識別対象画像S0に顔が含まれるか否かの識別を行うことができる。
なお、上記第1および第2の実施形態においては、第1および第2の参照データR1,R2は装置1内のメモリ6に格納されているものとしたが、特徴量算出部4、第1の識別部8および第2の識別部10が第1および第2の参照データR1,R2にアクセスできる限り、第1および第2の参照データR1,R2は、装置1とは別個の装置やCD−ROM等の差替可能な媒体に記憶されたものであってもよい。
また、上記第1および第2の実施形態においては、正規化が不要な第1の特徴量C1として勾配ベクトルKの傾きを用いているが、識別対象画像S0の色相や彩度等の色情報も勾配ベクトルKと同様に識別対象画像S0の明度やコントラストが変化しても不変なものであることから、識別対象画像S0の色情報を第1の特徴量として用いてもよい。
また、上記第1および第2の実施形態においては、顔を識別対象物として識別対象画像S0に顔が含まれるか否かを識別しているが、ほぼ一定形状をなしており、参照データの学習を行う際にサイズを揃えることが可能な自動車や道路標識等を識別の対象物としてもよい。
また、上記第1および第2の実施形態においては、出力部12が識別対象画像S0から顔を抽出しているが、識別対象画像S0における顔の位置を表す顔位置情報(例えば識別された顔を囲む矩形領域の四隅の座標)を識別対象画像データS0に付与し、顔位置情報が付与された識別対象画像データS0を出力してもよい。ここで、顔位置情報を識別対象画像データS0に付与するには、識別対象画像データS0のヘッダやタグに顔位置情報を記述したり、識別対象画像データS0とファイル名が同一で拡張子が異なる例えばテキストファイルに顔位置情報を記述して、識別対象画像データS0とテキストファイルとを一体不可分とする手法を用いることができる。なお、識別対象画像S0には顔が含まれないと識別された場合には、その識別結果を表す識別情報を識別対象画像データS0に付与して出力してもよい。
また、上記第1および第2の実施形態においては、特徴量算出部4において第1および第2の特徴量C1,C2を算出しているが、第1の特徴量C1および第2の特徴量C2をそれぞれ算出するための専用の特徴量算出部を設けてもよい。
また、上記第1および第2の実施形態においては、第1および第2の識別部8,10という2つの識別部を用いているが、図16に示す本発明の第3の実施形態による対象物識別装置1″のように、さらに第3の識別部16を設けるようにしてもよい。
第3の実施形態による対象物識別装置1″の第3の識別部16は、第1および第2の特徴量C1,C2とは別の特徴量(第3の特徴量C3とする)について学習を行った別の参照データ(第3の参照データR3とする)を参照して、識別対象画像S0から算出された第3の特徴量C3に基づいて、第2の識別部10が識別した顔がさらに真の顔であるか否かを識別する。このように、さらに第3の識別部16を設けることにより、識別対象画像S0に顔が含まれるか否かの識別精度をさらに向上させることができる。なお、第3の実施形態においては、第3の識別部16という1つの識別部を第1および第2の識別部8,10に追加しているが、さらに複数の識別部を追加してもよい。
また、上記第1から第3の実施形態においては、本発明による対象物識別装置を単体として用いているが、本発明による対象物識別装置をデジタルカメラ、カメラ付き携帯電話等の撮影により画像データを取得する撮像装置に設けるようにしてもよい。これにより、撮像装置において、画像データにより表される画像に対して顔検出、赤目補正または目を閉じているか否かを検出する処理を行う際に、顔さらには目の位置の認識を行うことができる。
以上、本発明の第1から第3の実施形態に係る装置について説明したが、コンピュータを、上記の画像入力部2、特徴量算出部4、メモリ6、第1の識別部8、第2の識別部10、出力部12、制御部14および第3の識別部16に対応する手段として機能させ、識別対象画像S0に顔が含まれるか否かを識別する処理を行わせるプログラムも、本発明の実施形態の1つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の1つである。これらの場合においても、参照データは、プログラム内あるいは同一の記録媒体内に含まれているものであってもよいし、外部の装置や別個の媒体から提供されるものであってもよい。
本発明の第1の実施形態による対象物識別装置の構成を示す概略ブロック図 (a)は水平方向のエッジ検出フィルタを示す図、(b)は垂直方向のエッジ検出フィルタを示す図 勾配ベクトルの算出を説明するための図 (a)は人物の顔を示す図、(b)は(a)に示す人物の顔の目および口付近の勾配ベクトルを示す図 (a)は正規化前の勾配ベクトルの大きさのヒストグラムを示す図、(b)は正規化後の勾配ベクトルの大きさのヒストグラムを示す図、(c)は5値化した勾配ベクトルの大きさのヒストグラムを示す図、(d)は正規化後の5値化した勾配ベクトルの大きさのヒストグラムを示す図 顔であることが分かっているサンプル画像の例を示す図 顔の回転を説明するための図 参照データの学習手法を示すフローチャート 識別器の導出方法を示す図 サンプル画像に左目および左頬を含む第1の領域および右目および右頬を含む第2の領域、さらには両目を含む第3の領域を設定した状態を示す図 変形したサンプル画像に第1から第3の領域を設定した状態を示す図 識別対象画像の段階的な変形を説明するための図 第1の実施形態において行われる処理を示すフローチャート 本発明の第2の実施形態による対象物識別装置の構成を示す概略ブロック図 第2の実施形態の制御部が行う処理を示すフローチャート 本発明の第3の実施形態による対象物識別装置の構成を示す概略ブロック図
符号の説明
1,1′,1″ 対象物識別装置
2 画像入力部
4 特徴量算出部
6 メモリ
8 第1の識別部
10 第2の識別部
12 出力部
14 制御部
16 第3の識別部

Claims (16)

  1. 識別対象の画像の入力を受け付ける画像入力手段と、
    所定対象物の識別に用いる正規化が不要な第1の特徴量を前記識別対象の画像から算出する第1の特徴量算出手段と、
    前記第1の特徴量と該第1の特徴量に対応する識別条件とをあらかじめ規定した第1の参照データを、前記識別対象の画像から算出された第1の特徴量に基づいて参照して、前記識別対象の画像に所定対象物候補が含まれるか否かを識別する第1の識別手段と、
    該第1の識別手段により前記所定対象物候補が含まれると識別された場合、前記所定対象物の識別に用いる正規化された第2の特徴量を前記所定対象物候補から算出する第2の特徴量算出手段と、
    前記第2の特徴量と該第2の特徴量に対応する識別条件とをあらかじめ規定した第2の参照データを、前記所定対象物候補から算出された正規化された第2の特徴量に基づいて参照して、前記所定対象物候補が前記所定対象物であるか否かを識別する第2の識別手段とを備えたことを特徴とする対象物識別装置。
  2. 前記第1の参照データが、前記所定対象物であることが分かっている複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記第1の特徴量を、マシンラーニングの手法によりあらかじめ学習することにより得られたものであることを特徴とする請求項1記載の対象物識別装置。
  3. 前記所定対象物が顔である場合、前記第1の参照データが、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第1の領域および右目と右頬とを含む所定範囲の第2の領域に含まれる前記第1の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第1および前記第2の領域に対応する各領域に含まれる前記第1の特徴量を学習することにより得られたものであり、
    前記第1の特徴量算出手段は、前記識別対象の画像における前記第1および前記第2の領域に対応する各領域から前記第1の特徴量を算出する手段であることを特徴とする請求項2記載の対象物識別装置。
  4. 前記第1の参照データが、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第3の領域に含まれる前記第1の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第3の領域に対応する領域に含まれる前記第1の特徴量をさらに学習することにより得られたものであり、
    前記第1の特徴量算出手段は、前記識別対象の画像における前記第1から前記第3の領域に対応する各領域から前記第1の特徴量を算出する手段であることを特徴とする請求項3記載の対象物識別装置。
  5. 前記第2の参照データが、前記所定対象物であることが分かっている複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記第2の特徴量を、マシンラーニングの手法によりあらかじめ学習することにより得られたものであることを特徴とする請求項1から4のいずれか1項記載の対象物識別装置。
  6. 前記所定対象物が顔である場合、前記第2の参照データが、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第1の領域および右目と右頬とを含む所定範囲の第2の領域に含まれる前記第2の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第1および前記第2の領域に対応する各領域に含まれる前記第2の特徴量を学習することにより得られたものであり、
    前記第2の特徴量算出手段は、前記識別対象の画像における前記第1および前記第2の領域に対応する各領域から前記第2の特徴量を算出する手段であることを特徴とする請求項5記載の対象物識別装置。
  7. 前記第2の参照データが、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第3の領域に含まれる前記第2の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第3の領域に対応する領域に含まれる前記第2の特徴量をさらに学習することにより得られたものであり、
    前記第2の特徴量算出手段は、前記識別対象の画像における前記第1から第3の領域に対応する各領域から前記第2の特徴量を算出する手段であることを特徴とする請求項6記載の対象物識別装置。
  8. 前記第1の特徴量は、画像上の各画素における勾配ベクトルの方向または色情報であることを特徴とする請求項1から7のいずれか1項記載の対象物識別装置。
  9. 前記第2の特徴量は、画像上の各画素における勾配ベクトルの方向および大きさであることを特徴とする請求項1から8のいずれか1項記載の対象物識別装置。
  10. 前記第1の識別手段による識別結果が所定の要求を満たすか否かを判定し、該判定が肯定された場合は、前記識別対象の画像から前記第1の特徴量のみを算出して、前記第1の識別手段が識別した前記所定対象物候補を前記所定対象物と識別するよう前記第1および前記第2の特徴量算出手段、並びに前記第1および前記第2の識別手段を制御する制御手段をさらに備えたことを特徴とする請求項1から9のいずれか1項記載の対象物識別装置。
  11. 前記所定対象物候補から算出されたさらに他の特徴量に基づいて、前記第2の識別手段により識別された前記画像に含まれる所定対象物が、真に所定対象物であるか否かを識別する少なくとも1つの他の識別手段をさらに備えたことを特徴とする請求項1から9のいずれか1項記載の対象物識別装置。
  12. 前記識別対象の画像から前記所定対象物を抽出する抽出手段をさらに備えたことを特徴とする請求項1から11のいずれか1項記載の対象物識別装置。
  13. 前記識別対象の画像における前記所定対象物の位置を表す情報を前記識別対象の画像に付与して出力する出力手段をさらに備えたことを特徴とする請求項1から11のいずれか1項記載の対象物識別装置。
  14. 請求項1から13のいずれか1項記載の対象物識別装置を備えたことを特徴とする撮像装置。
  15. 識別対象の画像の入力を受け付け、
    所定対象物の識別に用いる正規化が不要な第1の特徴量を前記識別対象の画像から算出し、
    前記第1の特徴量と該第1の特徴量に対応する識別条件とをあらかじめ規定した第1の参照データを、前記識別対象の画像から算出された第1の特徴量に基づいて参照して、前記識別対象の画像に所定対象物候補が含まれるか否かを識別し、
    該第1の識別手段により前記所定対象物候補が含まれると識別された場合、前記所定対象物の識別に用いる正規化された第2の特徴量を前記所定対象物候補から算出し、
    前記第2の特徴量と該第2の特徴量に対応する識別条件とをあらかじめ規定した第2の参照データを、前記所定対象物候補から算出された正規化された第2の特徴量に基づいて参照して、前記所定対象物候補が前記所定対象物であるか否かを識別することを特徴とする対象物識別方法。
  16. 識別対象の画像の入力を受け付ける手順と、
    所定対象物の識別に用いる正規化が不要な第1の特徴量を前記識別対象の画像から算出する手順と、
    前記第1の特徴量と該第1の特徴量に対応する識別条件とをあらかじめ規定した第1の参照データを、前記識別対象の画像から算出された第1の特徴量に基づいて参照して、前記識別対象の画像に所定対象物候補が含まれるか否かを識別する手順と、
    該第1の識別手段により前記所定対象物候補が含まれると識別された場合、前記所定対象物の識別に用いる正規化された第2の特徴量を前記所定対象物候補から算出する手順と、
    前記第2の特徴量と該第2の特徴量に対応する識別条件とをあらかじめ規定した第2の参照データを、前記所定対象物候補から算出された正規化された第2の特徴量に基づいて参照して、前記所定対象物候補が前記所定対象物であるか否かを識別する手順とを有することを特徴とする対象物識別方法をコンピュータに実行させるためのプログラム。
JP2004254430A 2003-09-09 2004-09-01 対象物識別装置および方法並びにプログラム Expired - Lifetime JP4510556B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004254430A JP4510556B2 (ja) 2003-09-09 2004-09-01 対象物識別装置および方法並びにプログラム
US10/935,336 US7920725B2 (en) 2003-09-09 2004-09-08 Apparatus, method, and program for discriminating subjects
US13/029,868 US8184870B2 (en) 2003-09-09 2011-02-17 Apparatus, method, and program for discriminating subjects

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003316924 2003-09-09
JP2004254430A JP4510556B2 (ja) 2003-09-09 2004-09-01 対象物識別装置および方法並びにプログラム

Publications (2)

Publication Number Publication Date
JP2005108195A true JP2005108195A (ja) 2005-04-21
JP4510556B2 JP4510556B2 (ja) 2010-07-28

Family

ID=34554219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004254430A Expired - Lifetime JP4510556B2 (ja) 2003-09-09 2004-09-01 対象物識別装置および方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP4510556B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007047965A (ja) * 2005-08-09 2007-02-22 Fujifilm Corp デジタル画像の対象物検出方法および装置並びにプログラム
JP2007047975A (ja) * 2005-08-09 2007-02-22 Fujifilm Corp デジタル画像の複数対象物検出方法および装置並びにプログラム
WO2008139781A1 (ja) * 2007-05-09 2008-11-20 Mitsubishi Electric Corporation 顔検出装置および顔検出プログラム
JP2009163492A (ja) * 2008-01-07 2009-07-23 Seiko Epson Corp 画像処理装置、画像処理方法、およびプログラム
US7885477B2 (en) 2006-02-24 2011-02-08 Fujifilm Corporation Image processing method, apparatus, and computer readable recording medium including program therefor
US7995821B2 (en) 2008-03-05 2011-08-09 Fujifilm Corporation Image processing system and image processing method
US8081811B2 (en) 2007-04-12 2011-12-20 Fujifilm Corporation Method, apparatus, and program for judging image recognition results, and computer readable medium having the program stored therein
US8150132B2 (en) 2008-03-17 2012-04-03 Fujifilm Corporation Image analysis apparatus, image analysis method, and computer-readable recording medium storing image analysis program
US8194960B2 (en) 2007-04-12 2012-06-05 Fujifilm Corporation Method and apparatus for correcting results of region recognition, and recording medium having a program for correcting results of region recognition recorded therein

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863597A (ja) * 1994-08-22 1996-03-08 Konica Corp 顔抽出方法
JP2001216515A (ja) * 2000-02-01 2001-08-10 Matsushita Electric Ind Co Ltd 人物の顔の検出方法およびその装置
JP2001330882A (ja) * 2000-05-24 2001-11-30 Canon Inc 被写体認識機能付きカメラ
JP2002051316A (ja) * 2000-05-22 2002-02-15 Matsushita Electric Ind Co Ltd 画像通信端末
JP2002056394A (ja) * 2000-08-09 2002-02-20 Matsushita Electric Ind Co Ltd 眼位置検出方法および眼位置検出装置
JP2005084979A (ja) * 2003-09-09 2005-03-31 Fuji Photo Film Co Ltd 顔認証システムおよび方法並びにプログラム
JP2005108196A (ja) * 2003-09-09 2005-04-21 Fuji Photo Film Co Ltd 対象物識別装置および方法並びにプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863597A (ja) * 1994-08-22 1996-03-08 Konica Corp 顔抽出方法
JP2001216515A (ja) * 2000-02-01 2001-08-10 Matsushita Electric Ind Co Ltd 人物の顔の検出方法およびその装置
JP2002051316A (ja) * 2000-05-22 2002-02-15 Matsushita Electric Ind Co Ltd 画像通信端末
JP2001330882A (ja) * 2000-05-24 2001-11-30 Canon Inc 被写体認識機能付きカメラ
JP2002056394A (ja) * 2000-08-09 2002-02-20 Matsushita Electric Ind Co Ltd 眼位置検出方法および眼位置検出装置
JP2005084979A (ja) * 2003-09-09 2005-03-31 Fuji Photo Film Co Ltd 顔認証システムおよび方法並びにプログラム
JP2005108196A (ja) * 2003-09-09 2005-04-21 Fuji Photo Film Co Ltd 対象物識別装置および方法並びにプログラム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007047975A (ja) * 2005-08-09 2007-02-22 Fujifilm Corp デジタル画像の複数対象物検出方法および装置並びにプログラム
JP2007047965A (ja) * 2005-08-09 2007-02-22 Fujifilm Corp デジタル画像の対象物検出方法および装置並びにプログラム
JP4588575B2 (ja) * 2005-08-09 2010-12-01 富士フイルム株式会社 デジタル画像の複数対象物検出方法および装置並びにプログラム
JP4708909B2 (ja) * 2005-08-09 2011-06-22 富士フイルム株式会社 デジタル画像の対象物検出方法および装置並びにプログラム
US7885477B2 (en) 2006-02-24 2011-02-08 Fujifilm Corporation Image processing method, apparatus, and computer readable recording medium including program therefor
US8081811B2 (en) 2007-04-12 2011-12-20 Fujifilm Corporation Method, apparatus, and program for judging image recognition results, and computer readable medium having the program stored therein
US8194960B2 (en) 2007-04-12 2012-06-05 Fujifilm Corporation Method and apparatus for correcting results of region recognition, and recording medium having a program for correcting results of region recognition recorded therein
WO2008139781A1 (ja) * 2007-05-09 2008-11-20 Mitsubishi Electric Corporation 顔検出装置および顔検出プログラム
JPWO2008139781A1 (ja) * 2007-05-09 2010-07-29 三菱電機株式会社 顔検出装置および顔検出プログラム
JP4555396B2 (ja) * 2007-05-09 2010-09-29 三菱電機株式会社 顔検出装置および顔検出プログラム
JP2009163492A (ja) * 2008-01-07 2009-07-23 Seiko Epson Corp 画像処理装置、画像処理方法、およびプログラム
US7995821B2 (en) 2008-03-05 2011-08-09 Fujifilm Corporation Image processing system and image processing method
US8150132B2 (en) 2008-03-17 2012-04-03 Fujifilm Corporation Image analysis apparatus, image analysis method, and computer-readable recording medium storing image analysis program

Also Published As

Publication number Publication date
JP4510556B2 (ja) 2010-07-28

Similar Documents

Publication Publication Date Title
US8184870B2 (en) Apparatus, method, and program for discriminating subjects
JP4414401B2 (ja) 顔特徴点検出方法および装置並びにプログラム
JP4121026B2 (ja) 撮像装置および方法並びにプログラム
US20050249429A1 (en) Method, apparatus, and program for image processing
JP2007213378A (ja) 特定表情顔検出方法、撮像制御方法および装置並びにプログラム
JP4708909B2 (ja) デジタル画像の対象物検出方法および装置並びにプログラム
JP4515208B2 (ja) 画像処理方法および装置並びにプログラム
JP2006119817A (ja) 画像処理装置
JP2005242640A (ja) 対象物検出方法および装置並びにプログラム
JP4510556B2 (ja) 対象物識別装置および方法並びにプログラム
JP2008003749A (ja) 特徴点検出装置および方法並びにプログラム
JP4619762B2 (ja) 画像処理方法および装置並びにプログラム
JP2007065844A (ja) 顔検出方法および装置並びにプログラム
JP2005122688A (ja) 画像処理方法および装置並びにプログラム
JP4493448B2 (ja) 対象物識別装置および方法並びにプログラム
JP4541806B2 (ja) 対象物識別装置および方法並びにプログラム
JP2005250771A (ja) 対象物識別装置および方法並びにプログラム
JP2005250772A (ja) 対象物識別装置および方法、学習方法並びにプログラム
JP2005250773A (ja) 対象物識別装置および方法並びにプログラム
JP4361394B2 (ja) 対象物識別装置および方法並びにプログラム
JP2005084979A (ja) 顔認証システムおよび方法並びにプログラム
JP4685966B2 (ja) 画像処理方法および装置並びにプログラム
JP4629740B2 (ja) 撮像装置および方法並びにプログラム
JP2004199200A (ja) パターン認識装置、撮像装置、情報処理システム、パターン認識方法、記録媒体、及びプログラム
JP2005332382A (ja) 画像処理方法および装置並びにプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20061208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100420

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100430

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4510556

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250