JP2011128916A - Object detection apparatus and method, and program - Google Patents
Object detection apparatus and method, and program Download PDFInfo
- Publication number
- JP2011128916A JP2011128916A JP2009287063A JP2009287063A JP2011128916A JP 2011128916 A JP2011128916 A JP 2011128916A JP 2009287063 A JP2009287063 A JP 2009287063A JP 2009287063 A JP2009287063 A JP 2009287063A JP 2011128916 A JP2011128916 A JP 2011128916A
- Authority
- JP
- Japan
- Prior art keywords
- weak
- image
- face
- weak classifier
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、検出対象画像から人物の顔等のオブジェクトを検出するオブジェクト検出装置および方法並びにオブジェクト検出方法をコンピュータに実行させるためのプログラムに関するものである。 The present invention relates to an object detection apparatus and method for detecting an object such as a human face from a detection target image, and a program for causing a computer to execute the object detection method.
従来、デジタルカメラによって撮影されたスナップ写真における人物の顔領域の色分布を調べてその肌色を補正したり、監視システムのデジタルビデオカメラで撮影されたデジタル映像中の人物を認識したりすることが行われている。このような場合、デジタル画像中の人物の顔に対応する顔領域を検出する必要があるため、これまでに、デジタル画像中の顔を検出する手法が種々提案されている。その中でもとくに検出精度、ロバスト性が優れているとされる顔検出の手法として、サンプル画像を用いたマシンラーニングの学習により生成された、複数の弱い判別器(弱判別器)を結合した判別器を用いる手法が知られている。 Conventionally, the color distribution of a person's face area in a snapshot photographed by a digital camera is examined to correct the skin color, or a person in a digital image photographed by a digital video camera of a surveillance system is recognized. Has been done. In such a case, since it is necessary to detect a face region corresponding to a person's face in the digital image, various techniques for detecting a face in the digital image have been proposed so far. Among them, a classifier that combines multiple weak classifiers (weak classifiers) generated by machine learning learning using sample images as a face detection method that is considered to have excellent detection accuracy and robustness. A method using this is known.
この手法は、複数の異なる顔のサンプル画像からなる顔サンプル画像群と、顔でないことが分かっている複数の異なる非顔サンプル画像とからなる非顔サンプル画像群とを用いて、顔であることの特徴を学習させ、ある画像が顔の画像であるか否かを判別できる判別器を生成して用意しておき、顔の検出対象となる画像(以下、検出対象画像という)において部分画像を順次切り出し、その部分画像が顔であるか否かを上記の判別器を用いて判別し、顔であると判別した部分画像の領域を抽出することにより、検出対象画像上の顔を検出する手法である。 This method uses a face sample image group composed of a plurality of different face sample images and a non-face sample image group composed of a plurality of different non-face sample images that are known not to be faces. A classifier that can learn whether or not an image is a face image is generated and prepared, and a partial image is detected in an image that is a face detection target (hereinafter referred to as a detection target image). A method of detecting a face on a detection target image by sequentially cutting out, determining whether or not the partial image is a face using the above discriminator, and extracting a region of the partial image determined to be a face It is.
ところで、上述した判別器に入力される画像には、顔が正面を向いた画像のみならず、顔が画像平面上において回転している(以下「面内回転」という)画像や、顔が画像平面内において回転している(以下、「面外回転」という)画像が入力される。ここで、1つの判別器が判別可能な顔の回転範囲は限られており、面内回転している画像では30度程度、面外回転している画像では30度〜60度程度の回転であれば顔か非顔かを判別することができる。このため、より広い範囲の顔の向きに対応するために、それぞれの向きの画像を判別可能な複数の判別器を用意し、すべての判別器に、特定の向きの顔であるか否かの判別を行わせ、最終的な各判別器の出力から顔であるか否かを判定する、マルチクラス判別手法が提案されている。 By the way, the image input to the discriminator described above includes not only an image with the face facing forward, but also an image in which the face is rotated on the image plane (hereinafter referred to as “in-plane rotation”) or a face. An image rotating in the plane (hereinafter referred to as “out-of-plane rotation”) is input. Here, the rotation range of the face that can be discriminated by one discriminator is limited, and the rotation is about 30 degrees for an in-plane rotated image and about 30 to 60 degrees for an out-of-plane rotated image. If there is, it can be determined whether it is a face or a non-face. For this reason, in order to support a wider range of face orientations, a plurality of discriminators capable of discriminating images in the respective orientations are prepared, and whether or not each discriminator has a face in a specific direction is determined. A multi-class discrimination method has been proposed in which discrimination is performed and whether a face is determined from the final output of each discriminator is determined.
また、マルチクラス判別手法において、各判別器を構成する複数の弱判別器(弱判別器群)の前段にて顔が含まれるか否かを判別し、最も大きいスコアが得られた判別器においてのみ、後段の弱判別器群にて顔のであるか否かの判別を行うことにより、判別のための処理を低減させる手法が提案されている(特許文献1、非特許文献1参照)。さらに、すべての判別器について判別を行い、すべての判別器の出力を加算して、検出対象画像に顔が含まれるか否かを判別する手法も提案されている。
In the multi-class discrimination method, it is determined whether or not a face is included in the previous stage of a plurality of weak classifiers (weak classifier groups) constituting each classifier, and the classifier having the largest score is obtained. However, a technique for reducing processing for discrimination by determining whether or not the face is a face using a group of weak classifiers in the subsequent stage has been proposed (see
上述したマルチクラス判別手法においては、判別可能な顔の向きが異なる複数の判別器は、それぞれが判別する向きの顔の画像を学習しているため、判別可能な向きの顔については、判別を精度良く行うことができる。しかしながら、あらゆる向きの顔を検出できるように判別器を用意するとなると、1つの判別器において広い角度に亘る向きの顔を判別できるように判別器を構成する必要がある。具体的には、正面を向いた顔の角度を0度とした場合、左右にそれぞれ0度±15度、30度±15度、60度±15度、および90度±15度を向いた顔の画像を学習のためのサンプル画像として用意し、0度±15度のサンプル画像により正面顔を判別可能な判別器を、30度±15度のサンプル画像により左右30度を向いた顔を判別可能な判別器を、60度±15度のサンプル画像により左右60度を向いた顔を判別可能な判別器を、90度±15度のサンプル画像により左右90度を向いた顔を判別可能な判別器をそれぞれ学習する必要がある。 In the multi-class discrimination method described above, a plurality of discriminators having different discriminating face orientations learn the face images in the discriminating directions, so that the discriminating face is discriminated. It can be performed with high accuracy. However, if a discriminator is prepared so that a face in any orientation can be detected, it is necessary to configure the discriminator so that a single discriminator can discriminate a face in a wide angle. Specifically, when the angle of the face facing the front is 0 degree, the faces facing 0 degree ± 15 degrees, 30 degrees ± 15 degrees, 60 degrees ± 15 degrees, and 90 degrees ± 15 degrees to the left and right respectively Is prepared as a sample image for learning, a discriminator capable of discriminating a front face from a sample image of 0 ° ± 15 °, and a face facing 30 ° from left / right by a sample image of 30 ° ± 15 ° A discriminator capable of discriminating a face facing 60 degrees left and right from a sample image of 60 degrees ± 15 degrees, and a face discriminating from 90 degrees left and right from a sample image of 90 degrees ± 15 degrees It is necessary to learn each classifier.
しかしながら、このように広い角度範囲の顔を判別できるようにすると、1つの判別器における弱判別器の数が非常に多くなり、その結果、顔の検出を高速に行うことができなくなってしまう。また、このように判別器を構成した場合は、30度単位で向きが異なる顔を精度良く検出できるが、対応する角度の間の角度(例えば15度、45度)を向いた顔の検出精度はやはり低下してしまう。 However, if a face having a wide angle range can be discriminated in this way, the number of weak discriminators in one discriminator becomes very large, and as a result, the face cannot be detected at high speed. Further, when the discriminator is configured in this way, faces whose directions are different in units of 30 degrees can be detected with high accuracy, but the detection accuracy of faces facing angles between corresponding angles (for example, 15 degrees and 45 degrees). Will still decline.
本発明は上記事情に鑑みなされたものであり、判別器の数を多くすることなく、精度よく顔等の特定種類のオブジェクトを検出することを目的とする。 The present invention has been made in view of the above circumstances, and an object thereof is to detect a specific type of object such as a face with high accuracy without increasing the number of discriminators.
本発明によるオブジェクト検出装置は、判別対象のオブジェクトから抽出した特徴量をあらかじめ学習させた複数の弱判別器からなる、判別可能な前記オブジェクトの向きがそれぞれ異なる複数の判別器を有し、検出対象画像から抽出した特徴量を用いて、該検出対象画像から前記オブジェクトを検出する判別手段を備えたオブジェクト検出装置において、
前記各判別器の複数の弱判別器が前段の弱判別器群および後段の弱判別器群に分割されてなり、前記前段の弱判別器群が、前記オブジェクトの向きを判別する学習がなされ、前記後段の弱判別器群が、該各後段の弱判別器が属する判別器が判別可能な前記オブジェクトの向きに対応したオブジェクトを検出する学習がなされてなり、
前記判別手段は、前記前段の弱判別器群の出力である第1のスコア、および前記後段の弱判別器の出力である第2のスコアを取得し、前記複数の判別器のそれぞれにおける前記第1のスコアおよび前記第2のスコアの乗算値の、すべての前記判別器についての和に基づいて、前記オブジェクトを検出する手段であることを特徴とするものである。
An object detection apparatus according to the present invention includes a plurality of discriminators each having different discriminating directions of the object, each of which includes a plurality of weak discriminators in which feature amounts extracted from an object to be discriminated are learned in advance. In an object detection apparatus including a determination unit that detects the object from the detection target image using a feature amount extracted from the image,
A plurality of weak classifiers of each classifier is divided into a weak classifier group in the previous stage and a weak classifier group in the subsequent stage, and the weak classifier group in the previous stage is learned to determine the orientation of the object, The latter weak classifier group is learned to detect an object corresponding to the direction of the object that can be discriminated by the classifier to which each subsequent weak classifier belongs,
The discriminating unit obtains a first score that is an output of the preceding weak discriminator group and a second score that is an output of the subsequent weak discriminator, and the first score in each of the plurality of discriminators. It is a means for detecting the object on the basis of the sum of the product of the score of 1 and the second score for all the discriminators.
なお、本発明によるオブジェクト検出装置においては、前記前段の弱判別器群が、前記複数の判別器における少なくとも一部において前記特徴量を共有してなることが好ましい。 In the object detection device according to the present invention, it is preferable that the weak classifier group in the previous stage shares the feature amount in at least a part of the plurality of classifiers.
弱判別器群は、複数の弱判別器が線形に結合した構造を有しており、弱判別器は、検出対象画像における少なくとも1つの特徴量を算出し、この特徴量を用いてオブジェクトを判別するものである。このため、各弱判別器は、複数のサンプル画像における特徴量を用いてオブジェクトを判別するための学習がなされる。「前段の弱判別器群が、前記複数の判別器群の少なくとも一部において特徴量を共有してなる」とは、複数の判別器間における対応する弱判別器が、同一の特徴量を用いて学習がなされていることを意味する。このように同一の特徴量を用いて学習がなされた弱判別器は、検出対象画像における同一の特徴量を用いてオブジェクトを判別するものとなる。なお、複数の判別器群間における対応する弱判別器のすべてについて、共通する特徴量により学習がなされている必要はなく、少なくとも一部の弱判別器が共通する特徴量により学習がなされていればよい。 The weak classifier group has a structure in which a plurality of weak classifiers are linearly combined, and the weak classifier calculates at least one feature amount in the detection target image and uses this feature amount to determine an object. To do. For this reason, each weak discriminator learns to discriminate an object using feature amounts in a plurality of sample images. “A weak classifier group in the previous stage shares a feature quantity in at least a part of the plurality of classifier groups” means that corresponding weak classifiers among a plurality of classifiers use the same feature quantity. Means learning. Thus, the weak discriminator trained using the same feature amount discriminates an object using the same feature amount in the detection target image. Note that all of the corresponding weak classifiers among a plurality of classifier groups need not be learned with a common feature amount, and at least some weak classifiers have been learned with a common feature amount. That's fine.
また、複数の弱判別器は前段の弱判別器群および後段の弱判別器群に分割されているが、とくに前段の弱判別器群を、各判別器群間において特徴量を共有させる場合には、前段の弱判別器群を後段の弱判別器群よりも多くすることが好ましい。 The weak classifiers are divided into a weak classifier group at the front stage and a weak classifier group at the rear stage. Especially when the weak classifier group at the front stage is shared with each classifier group. It is preferable that the number of weak classifier groups at the front stage is larger than the number of weak classifier groups at the rear stage.
また、本発明によるオブジェクト検出装置においては、前記前段の弱判別器群と前記後段の弱判別器群とが連続して接続されてなるものとしてもよい。 In the object detection apparatus according to the present invention, the preceding weak classifier group and the subsequent weak classifier group may be connected in series.
また、本発明によるオブジェクト検出装置においては、前記判別器を、前記オブジェクトが所定の方向を向いた基準サンプル画像、並びに該基準サンプル画像の前記判別対象を該基準サンプル画像の平面において回転させた、回転角度が異なる複数の面内回転サンプル画像、および前記基準サンプル画像内の前記判別対象の向きを回転させた、回転角度が異なる複数の面外回転サンプル画像の少なくとも一方を用いて学習されてもよい。 Further, in the object detection device according to the present invention, the discriminator rotates the reference sample image in which the object faces a predetermined direction, and the discrimination target of the reference sample image on the plane of the reference sample image, Learning is performed using at least one of a plurality of in-plane rotation sample images with different rotation angles and a plurality of out-of-plane rotation sample images with different rotation angles obtained by rotating the direction of the discrimination target in the reference sample image. Good.
本発明によるオブジェクト検出方法は、判別対象のオブジェクトから抽出した特徴量をあらかじめ学習させた複数の弱判別器からなる、判別可能な前記オブジェクトの向きがそれぞれ異なる複数の判別器を有し、検出対象画像から抽出した特徴量を用いて、該検出対象画像から前記オブジェクトを検出するオブジェクト検出方法において、
前記各判別器の複数の弱判別器が前段の弱判別器群および後段の弱判別器群に分割されてなり、前記前段の弱判別器群が、前記オブジェクトの向きを判別する学習がなされ、前記後段の弱判別器群が、該各後段の弱判別器が属する判別器が判別可能な前記オブジェクトの向きに対応したオブジェクトを検出する学習がなされてなり、
前記前段の弱判別器群の出力である第1のスコア、および前記後段の弱判別器の出力である第2のスコアを取得し、
前記複数の判別器のそれぞれにおける前記第1のスコアおよび前記第2のスコアの乗算値の、すべての前記判別器についての和に基づいて、前記オブジェクトを検出することを特徴とするものである。
An object detection method according to the present invention includes a plurality of discriminators each having different discriminating directions of the object, each including a plurality of weak discriminators in which feature amounts extracted from an object to be discriminated are previously learned. In the object detection method for detecting the object from the detection target image using the feature amount extracted from the image,
A plurality of weak classifiers of each classifier is divided into a weak classifier group in the previous stage and a weak classifier group in the subsequent stage, and the weak classifier group in the previous stage is learned to determine the orientation of the object, The latter weak classifier group is learned to detect an object corresponding to the direction of the object that can be discriminated by the classifier to which each subsequent weak classifier belongs,
Obtaining a first score that is the output of the preceding weak classifier group, and a second score that is the output of the subsequent weak classifier;
The object is detected on the basis of the sum of the product of the first score and the second score in each of the plurality of classifiers for all the classifiers.
なお、本発明によるオブジェクト検出方法をコンピュータに実行させるためのプログラムとして提供してもよい。 In addition, you may provide as a program for making a computer perform the object detection method by this invention.
本発明によれば、前段の弱判別器群によりオブジェクトの向きを表す第1のスコアが取得され、後段の弱判別器群により各判別器が判別可能なオブジェクトの向きに対応したオブジェクトであることを表す第2のスコアが取得される。そして、複数の判別器のそれぞれにおける第1のスコアおよび第2のスコアの乗算値の、すべての判別器についての和に基づいて、オブジェクトが検出される。このため、判別可能なオブジェクトの向きがそれぞれ異なる複数の判別器による判別結果を統合して、オブジェクトの検出を行うことができ、その結果、特許文献1および非特許文献1の手法のように特定の向きのみのオブジェクトを検出するものと比較して、向きが異なるオブジェクトを柔軟に検出できることとなる。したがって、弱判別器の数を増加させることなく、オブジェクトの検出精度を向上させることができる。
According to the present invention, the first score indicating the direction of the object is acquired by the weak classifier group in the previous stage, and the object corresponds to the object direction that can be determined by each classifier by the weak classifier group in the subsequent stage. A second score representing is obtained. Then, an object is detected based on the sum of the multiplied values of the first score and the second score in each of the plurality of classifiers for all the classifiers. For this reason, it is possible to integrate the discrimination results obtained by a plurality of discriminators having different discriminating object orientations, and to detect the object. As a result, as in the methods of
また、前段の弱判別器群を、複数の判別器の少なくとも一部において特徴量を共有させることにより、複数の判別器の少なくとも一部における1つの判別処理を1つの弱判別器において行うことができることとなる。したがって、複数の判別器において、前段の弱判別器群の数を少なくすることができ、その結果、前段の弱判別器群における弱判別器の数を少なくすることができる。 In addition, by making the weak classifier group in the previous stage share the feature amount in at least a part of the plurality of classifiers, one classification process in at least a part of the plurality of classifiers can be performed in one weak classifier. It will be possible. Therefore, in the plurality of classifiers, the number of weak classifier groups in the previous stage can be reduced, and as a result, the number of weak classifiers in the group of weak classifiers in the previous stage can be reduced.
また、前段の弱判別器群と前記後段の弱判別器群とを連続して接続されてなるものとすることにより、前段の弱判別器群と前記後段の弱判別器群とを連続して行うことができるため、処理速度を向上させることができる。 Further, the preceding weak classifier group and the subsequent weak classifier group are continuously connected to each other so that the former weak classifier group and the subsequent weak classifier group are continuously connected. Since this can be done, the processing speed can be improved.
以下、図面を参照して本発明の実施形態について説明する。図1は本発明のオブジェクト検出装置を適用した顔検出システムの構成を示す概略ブロック図である。この顔検出システムは、デジタル画像中に含まれる顔を検出するものである。図1に示すように、顔検出システム1は、顔を検出する対象となる検出対象画像S0を多重解像度化して解像度が異なる複数の画像(以下、解像度画像という)を生成する多重解像度化部10と、検出対象画像S0に含まれる顔を表す画像(以下顔画像とする)F0を検出する顔検出部20とを備える。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a schematic block diagram showing the configuration of a face detection system to which the object detection device of the present invention is applied. This face detection system detects a face included in a digital image. As shown in FIG. 1, the
多重解像度化部10は、検出対象画像S0の解像度(画像サイズ)を変換することにより、その解像度を所定の解像度、例えば、VGAサイズ(640×480画素)の矩形サイズの画像に規格化する。そして、多重解像度化部10は、規格化された検出対象画像S0を基本として、解像度変換を行うことにより、図2に示すように、解像度の異なる複数の解像度画像S1〜S3…を生成する。なお、規格化された検出対象画像S0も解像度画像に含めるものとする。
The
なお、本実施形態においては、図2に示すように、設定された画素数(例えば32画素×32画素)を有するウィンドウWを、解像度画像Sk(k=0〜m))において走査させ、ウィンドウWにより囲まれた領域を切り出すことにより設定画素数からなる部分画像Bを生成するようになっている。これにより、高解像度の解像度画像においてウィンドウW内に顔(判別対象)が収まらなかった場合であっても、低解像度画像上においてはウィンドウW内に収めることが可能となり、各種サイズの顔の検出を確実に行うことができる。 In the present embodiment, as shown in FIG. 2, a window W having a set number of pixels (for example, 32 pixels × 32 pixels) is scanned in a resolution image Sk (k = 0 to m), and the window A partial image B having a set number of pixels is generated by cutting out an area surrounded by W. As a result, even if the face (discrimination target) does not fit in the window W in the high-resolution resolution image, it can be placed in the window W on the low-resolution image, and detection of faces of various sizes is possible. Can be performed reliably.
顔検出部20は、多重解像度化部10が生成した複数の解像度画像Sk(以下、解像度画像群Sgとする)のそれぞれに対して顔検出処理を施し、各解像度画像Skにおける顔画像F0を検出するものである。図3は顔検出部20の構成を示す概略ブロック図である。図3に示すように、顔検出部20は、後述の各部を制御して顔検出処理におけるシーケンス制御を主に行う検出制御部21と、解像度画像群Sgの中から顔検出処理に供する解像度画像Skをサイズの大きいものから順に順次選択する解像度画像選択部22と、解像度画像選択部22により選択された解像度画像Skにおいて、顔画像であるか否かの判別対象となる部分画像Bを切り出すウィンドウWを、その位置をずらしながら順次設定するウィンドウ設定部23と、その切り出された部分画像Bが顔画像であるか否かを判別する候補判別部24と、顔画像であると判別された部分画像(以下候補画像CPとする)が顔画像であるか否かをさらに判別する判別部25とから構成されている。
The
検出制御部21は、解像度画像群Sgの各解像度画像Skに対して、顔画像F0を検出するという顔検出処理を行うべく、解像度画像選択部22およびウィンドウ設定部23を制御するものである。例えば、適宜、解像度画像選択部22に対して解像度画像Skの選択を指示したり、ウィンドウ設定部23に対してウィンドウWの設定条件を指示したり、得られた検出結果を出力したりする。なお、ウィンドウ設定条件には、ウィンドウWを設定する画像上の範囲、ウィンドウWの移動間隔(検出の粗さ)等が含まれる。
The
解像度画像選択部22は、検出制御部21の制御により、解像度画像群Sgの中から顔検出処理に供する解像度画像Skをサイズの大きい順に(解像度の細かい順に)順次選択するものである。なお、本実施形態における顔検出の手法が、各解像度画像上で順次切り出された部分画像Bについてその部分画像Bが顔画像であるか否かを判別し、顔画像であると判別した部分画像Bの領域を抽出することにより、検出対象画像S0における顔画像を検出する手法であるから、この解像度画像選択部22は、検出対象画像S0における検出すべき顔の大きさを毎回変えながら設定するものであって、検出すべき顔の大きさを小から大へ変えながら設定するものと同等なものということができる。
Under the control of the
ウィンドウ設定部23は、検出制御部21により設定されたウィンドウ設定条件に基づいて、解像度画像選択部22により選択された解像度画像Sk上でウィンドウWを移動させながら順次設定する。
The
候補判別部24は、部分画像Bが顔画像である否かの2値判別を行う機能を有し、図4に示すように複数の弱判別器WCを有する候補判別器30を有する。ここで、候補判別器30は、画像平面上において判別対象が回転している面内回転画像と、画像内の判別対象の向きが回転している面外回転画像との双方を顔であると判別するようになっている。
The
候補判別器30は、複数の弱判別器WCが線形に結合したカスケード構造を有しており、弱判別器WCは、部分画像Bの画素値(輝度)の分布に係る少なくとも1つの特徴量を算出することにより部分画像Bから特徴量を抽出し、この特徴量を用いて部分画像Bが顔画像であるか否かを判別するものである。なお、候補判別器24は弱判別器WCおける判別結果を用いて顔画像であるか否かの判別を行うようになっている。本実施形態においては、各弱判別器WCがそれぞれ算出する判定のためのスコアの総和により、部分画像Bが顔画像であるか否かの判別結果CRを出力するものとなっている。
The candidate discriminator 30 has a cascade structure in which a plurality of weak discriminators WC are linearly coupled, and the weak discriminator WC obtains at least one feature amount related to the distribution of pixel values (luminance) of the partial image B. By calculating, a feature amount is extracted from the partial image B, and using this feature amount, it is determined whether or not the partial image B is a face image. The
判別部25は、候補判別部24により部分画像Bが顔画像であると判別された場合に、顔画像であると判別された部分画像B、すなわち候補画像CPが、顔画像であるか否かをさらに判別する判別器である。図5は判別部25の構成を示す図である。図5に示すように判別部34は、判別可能な顔の向きが異なるnクラスの判別器25−1〜25−n、および判別結果出力部25−Lを有する。ここで、nクラスの判別器25−i(i=1〜n)は、画像平面上における顔の向きを判別可能な面内回転判別器と、画像内の顔の向きを判別可能な面外回転判別器とを有する。面内回転判別器は、画像の縦方向と顔の中心線との角度が0度の顔を判別可能な0度面内回転判別器、および30度の顔を判別可能な30度面内回転判別器等、例えば30度〜330度の範囲で面内回転角度が30度ずつ異なる向きの顔を判別可能な複数の判別器からなる。なお、例えば0度面内回転判別器は回転角度が0度を中心に−15度(=345度)〜+15度の範囲内にある顔を判別できるようになっている。
The
同様に、面外回転判別器は、画像内の顔の向き(角度)が0度の顔、すなわち正面顔を判別可能な0度面外回転判別器、および30度の顔を判別可能な30度面外回転判別器等、例えば−90度〜+90度の範囲で面外回転角度が30度ずつ異なる向きの顔を判別可能な判別器からなる。なお、例えば0度面外回転判別器は回転角度が0度を中心に−15度〜+15度の範囲内にある顔を判別できるようになっている。 Similarly, the out-of-plane rotation discriminator can discriminate a face whose orientation (angle) of the face in the image is 0 degrees, that is, a 0-degree out-of-plane rotation discriminator capable of discriminating a front face and a 30-degree face. It consists of a discriminator capable of discriminating faces with different out-of-plane rotation angles by 30 degrees in the range of −90 degrees to +90 degrees, for example. For example, the 0-degree out-of-plane rotation discriminator can discriminate a face whose rotation angle is in the range of -15 degrees to +15 degrees with 0 degrees as the center.
また、各判別器25−iは、図5に示すように、複数の弱判別器WCが線形に結合したカスケード構造を有しており、弱判別器WCは、候補画像CPの画素値(輝度)の分布に係る少なくとも1つの特徴量を算出し、この特徴量を用いて候補画像CPが顔画像であるか否かを判別するものである。 Each discriminator 25-i has a cascade structure in which a plurality of weak discriminators WC are linearly coupled as shown in FIG. 5, and the weak discriminator WC has a pixel value (luminance) of the candidate image CP. ) Is calculated, and it is determined whether or not the candidate image CP is a face image using the feature amount.
また、各判別器25−iに含まれる複数の弱判別器WCは、前段の弱判別器群WC−Fおよび後段の弱判別器群WC−Bに分割されている。前段の弱判別器群WC−Fは、候補画像CPについての面内および面外の向きを判別するためのものであり、後段の弱判別器群WC−Bは、弱判別器群WCが属する判別器25−iが判別可能な顔の向きに対応した顔であるか否かを判別するためのものである。このため、本実施形態においては、前段の弱判別器群WC−Fと後段の弱判別器群WC−Bとにおいて、学習に使用するサンプル画像が若干異なるものとなっている。なお、弱判別器の学習については後述する。そして、本実施形態においては、すべての判別器25−iの前段の弱判別器群WC−Fにおいて最終的に得られるスコアを出力し、さらにすべての判別器25−iの後段の弱判別器群WC−Bにおいて最終的に得られるスコアを出力する。なお、前段の弱判別器群WC−Fが出力するスコアを第1のスコア、後段の弱判別器群WC−Bが出力するスコアを第2のスコアと称する。 The plurality of weak classifiers WC included in each classifier 25-i are divided into a preceding weak classifier group WC-F and a subsequent weak classifier group WC-B. The former weak classifier group WC-F is for discriminating the in-plane and out-of-plane directions of the candidate image CP, and the latter weak classifier group WC-B belongs to the weak classifier group WC. The discriminator 25-i is for discriminating whether the face corresponds to the face orientation that can be discriminated. For this reason, in the present embodiment, the sample images used for learning are slightly different between the weak classifier group WC-F at the front stage and the weak classifier group WC-B at the rear stage. Note that the weak classifier learning will be described later. In this embodiment, the score finally obtained in the weak classifier group WC-F at the preceding stage of all the classifiers 25-i is output, and the weak classifiers at the subsequent stage of all the classifiers 25-i. The score finally obtained in the group WC-B is output. Note that the score output from the weak classifier group WC-F in the previous stage is referred to as a first score, and the score output from the weak classifier group WC-B in the subsequent stage is referred to as a second score.
なお、各判別器25−iを構成する前段の弱判別器群WC−Fに含まれる少なくとも一部の弱判別器WCは、判別器25−i間において特徴量を共有している。すなわち、少なくとも一部の弱判別器WCが同一の特徴量を用いて学習がなされており、候補画像CPにおける同一の特徴量を用いて顔の向きの判別を行うものとなっている。なお、図5においては、特徴量を共有していることを、弱判別器WCに斜線を付与して示すものとする。 Note that at least some of the weak classifiers WC included in the preceding weak classifier group WC-F configuring each classifier 25-i share the feature quantity among the classifiers 25-i. That is, at least some weak classifiers WC have learned using the same feature amount, and determine the face orientation using the same feature amount in the candidate image CP. In FIG. 5, it is assumed that the sharing of the feature quantity is indicated by hatching the weak classifier WC.
ここで、図5においては、説明のために各判別器25−iの特徴量を共有している弱判別器WCに斜線を付与して示しているが、各判別器25−iにおいて、特徴量を共有している弱判別器は1つ作成すれよいこととなる。図6は特徴量の共有を説明するための図である。なお、図6においては、説明のために、4つの判別器25−1〜25−4のみを示し、さらに各判別器25−1〜25−4の前段の4つの弱判別器WCのみを示している。なお、各判別器25−1〜25−4における1〜4段目の弱判別器をそれぞれ弱判別器25−1−1,25−1−2のように示す。 Here, in FIG. 5, for the sake of explanation, the weak discriminator WC sharing the feature quantity of each discriminator 25-i is shown by hatching, but in each discriminator 25-i, One weak classifier that shares the quantity may be created. FIG. 6 is a diagram for explaining feature amount sharing. In FIG. 6, for the sake of explanation, only four discriminators 25-1 to 25-4 are shown, and further, only four weak discriminators WC preceding each discriminator 25-1 to 25-4 are shown. ing. The first to fourth weak classifiers in the classifiers 25-1 to 25-4 are shown as weak classifiers 25-1-1 and 25-1-2, respectively.
図6の上側に示すよう、1段目の弱判別器が判別器25−1〜25−4のすべてにおいて特徴量を共有し、2段目の弱判別器が、弱判別器25−1−2,25−2−2,25−3−2において特徴量を共有し、3段目の弱判別器が、弱判別器25−1−3,25−4−3において特徴量を共有し、4段目の弱判別器が、弱判別器25−2−4,25−3−4,25−3−4において特徴量を共有しているものとする。この場合、特徴量を共有している弱判別器は1つの判別器のみ作成すればよいことから、判別器25−1〜25−4における1〜4段目までの弱判別器は図6の下側に示すように結合されることとなる。したがって、弱判別器の数を16から8に減少させることができる。 As shown in the upper side of FIG. 6, the first-stage weak discriminator shares the feature quantity among all the discriminators 25-1 to 25-4, and the second-stage weak discriminator is the weak discriminator 25-1-. 2, 25-2-2, 25-3-2 share the feature value, and the third-stage weak classifier shares the feature value between the weak classifiers 25-1-3 and 25-4-3, It is assumed that the weak discriminator at the fourth stage shares the feature quantity among the weak discriminators 25-2-4, 25-3-4, and 25-3-4. In this case, since only one classifier needs to be created as the weak classifier sharing the feature amount, the weak classifiers in the first to fourth stages in the classifiers 25-1 to 25-4 are shown in FIG. It will be combined as shown below. Therefore, the number of weak classifiers can be reduced from 16 to 8.
次いで、判別部25における具体的な処理について説明する。図7は判別部25に含まれる各判別器25−iが行う処理を示すフローチャートである。なお、以下の説明においては、各判別器25−iにおける処理を並列に行っているが、各判別器25−iにおける処理を順次行うようにしてもよいことはもちろんである。
Next, specific processing in the
まず、各判別器25−iにおける前段の弱判別器群WC−Fにおいて、1番目の弱判別器WCが、候補画像CPに対してこの候補画像CPにおける顔の方向を判別するために、候補画像CPから特徴量を算出し(ステップST1)、特徴量に応じて後述するスコアテーブルを参照してスコアを算出し(ステップST2)、直前の弱判別器が算出したスコアに自己の算出したスコアを加算して累積スコアを算出する(ステップST3)。なお、最初の弱判別器では、直前の弱判別器がないので、自己の算出したスコアをそのまま累積スコアとする。次いで、前段の弱判別器群WC−Fのすべてについての累積スコアを算出したか否かを判定し(ステップST4)、ステップST4が否定されると、次の弱判別器による判別に移行し(ステップST5)、ステップST1に戻る。これにより、前段の弱判別器群WC−Fを構成するすべての弱判別器についての累積スコアが算出される。ステップST5が肯定されると、累積スコアを第1のスコアP1−i(i=1〜n)として出力する(ステップST6)。 First, in the previous weak classifier group WC-F in each classifier 25-i, the first weak classifier WC determines the face direction in the candidate image CP with respect to the candidate image CP. A feature amount is calculated from the image CP (step ST1), a score is calculated with reference to a score table to be described later according to the feature amount (step ST2), and the score calculated by the weak classifier immediately before is calculated by itself. Is added to calculate a cumulative score (step ST3). In the first weak classifier, since there is no previous weak classifier, the self-calculated score is used as the cumulative score as it is. Next, it is determined whether or not the cumulative score for all of the weak classifier groups WC-F in the previous stage has been calculated (step ST4). If step ST4 is negative, the process proceeds to determination by the next weak classifier ( Step ST5) and return to step ST1. Thereby, the cumulative score for all weak classifiers constituting the weak classifier group WC-F in the previous stage is calculated. If step ST5 is affirmed, the accumulated score is output as the first score P1-i (i = 1 to n) (step ST6).
続いて、後段の弱判別器群WC−Bによる処理に進む。ステップST6に引き続き、後段の弱判別器群WC−Bにおける1番目の弱判別器WCが、候補画像CPから特徴量を算出し(ステップST7)、特徴量に応じてスコアテーブルを参照してスコアを算出し(ステップST8)、直前の弱判別器が算出したスコアに自己の算出したスコアを加算して累積スコアを算出する(ステップST9)。なお、後段の弱判別器群WC−Bにおける最初の弱判別器では、直前の弱判別器がないので、自己の算出したスコアを第1のスコアP1−iに加算して累積スコアとする。次いで、後段の弱判別器群WC−Bのすべてについての累積スコアを算出したか否かを判定し(ステップST10)、ステップST10が否定されると、次の弱判別器による判別に移行し(ステップST11)、ステップST7に戻る。これにより、前段の弱判別器群WC−Fを構成するすべての弱判別器についての累積スコアが算出される。ステップST10が肯定されると、後段の弱判別器群WC−Bについての累積スコアを第2のスコアP2−i(i=1〜n)として出力する(ステップST12)。 Subsequently, the process proceeds to the processing by the weak classifier group WC-B in the subsequent stage. Subsequent to step ST6, the first weak classifier WC in the subsequent weak classifier group WC-B calculates a feature quantity from the candidate image CP (step ST7), and refers to the score table according to the feature quantity to obtain a score. Is calculated (step ST8), and the score calculated by itself is added to the score calculated by the previous weak discriminator to calculate the cumulative score (step ST9). In the first weak classifier in the subsequent weak classifier group WC-B, since there is no previous weak classifier, the self-calculated score is added to the first score P1-i to obtain a cumulative score. Next, it is determined whether or not the cumulative score for all of the subsequent weak classifier groups WC-B has been calculated (step ST10). If step ST10 is negative, the process proceeds to determination by the next weak classifier ( Step ST11) and return to step ST7. Thereby, the cumulative score for all weak classifiers constituting the weak classifier group WC-F in the previous stage is calculated. If step ST10 is affirmed, the cumulative score for the subsequent weak classifier group WC-B is output as the second score P2-i (i = 1 to n) (step ST12).
次いで、判別結果出力部25−Lが、第1のスコアP1−iおよび第2のスコアP2−iを乗算し、乗算した結果をすべての判別器25−iについて加算して、候補画像CPについての最終スコアPLを算出する(ステップST13)。最終スコアPLは下記の式(1)により算出される。なお、Σはi=1〜nまでの(P1−i)×(P2−i)の値を加算することを表す
PL=Σ(P1−i)×(P2−i) (1)
そして、判別結果出力部25−Lが、最終スコアPLが所定の閾値以上であるか否かによって候補画像CPが顔画像であるか否かを判別し、判別結果Rを出力する(ステップST14)。
Next, the discrimination result output unit 25-L multiplies the first score P1-i and the second score P2-i, adds the multiplication results for all the discriminators 25-i, and performs the candidate image CP. The final score PL is calculated (step ST13). The final score PL is calculated by the following formula (1). Note that Σ represents adding the values of (P1-i) × (P2-i) from i = 1 to n. PL = Σ (P1-i) × (P2-i) (1)
Then, the determination result output unit 25-L determines whether or not the candidate image CP is a face image depending on whether or not the final score PL is greater than or equal to a predetermined threshold value, and outputs the determination result R (step ST14). .
なお、本実施形態において、検出制御部21、解像度画像選択部22、ウィンドウ設定部23、候補判別部24および判別部25が、本発明の判定手段として機能する。
In the present embodiment, the
次に、顔検出システム1における処理の流れについて説明する。図8は本実施形態による顔検出システムにおける処理の流れを示すフローチャートである。図8に示すように、多重解像度化部10に検出対象画像S0が入力されると(ステップST21)、多重解像度化部10が検出対象画像S0を多重解像度化して複数の解像度画像Skからなる解像度画像群Sgを生成する(ステップST22)。顔検出部20は、検出制御部21からの指示を受けた解像度画像選択部22により、解像度画像群Sgの中から画像サイズの大きい順に解像度画像Skを選択する(ステップST23)。次に検出制御部21が、ウィンドウ設定部23に対して、ウィンドウWを初期位置に、すなわち選択された解像度画像上の最初の注目画素にウィンドウWを設定する指示を行う(ステップST24)。ウィンドウ設定部23は、選択された解像度画像上にウィンドウWを設定し、設定したウィンドウWにより部分画像Bを切り出し(ステップST25)、部分画像Bを候補判別部24に入力する(ステップST26)。
Next, the flow of processing in the
候補判別部24は、入力される部分画像Bに対して、部分画像Bが顔画像であるか否かの判別を行い、検出制御部21がその判別結果CRを取得し(ステップST27)、判別結果CRが部分画像Bが顔画像であるというものであるか否かを判定する(ステップST28)。判別結果CRが部分画像Bが顔画像でないというものであった場合(ステップST28否定)、検出制御部21は、現在切り出された部分画像Bが最後の注目画素に位置する部分画像、すなわち最後の部分画像であるか否かを判定し(ステップST29)、部分画像Bが最後の部分画像でないと判定された場合には、ウィンドウWを設定する位置を次の注目画素の位置(すなわち次の位置)に設定し(ステップST30)、ステップST25に戻って、ウィンドウ設定部23が新たな部分画像Bを切り出す。
The
なお、部分画像Bが最後の部分画像であると判定された場合には、検出制御部21は、現在選択されている解像度画像Skが最後に判別される画像、すなわち最後の解像度画像Smであるか否かを判定し(ステップST31)、最後の解像度画像Smであると判定された場合には検出処理を終了し、検出結果を出力する(ステップST32)。一方、最後の解像度画像ではないと判定された場合には、ステップST23に戻り、解像度画像選択部22により、現在選択されている解像度画像より1段階サイズが小さい解像度画像が選択され、さらに顔画像の検出が実行される。
When it is determined that the partial image B is the last partial image, the
一方、判別結果CRが部分画像Bが顔画像であるというものであった場合、候補判別部24は部分画像Bを候補画像CPと判別し、さらに詳細な検出処理を行う(ステップST33)。図9は詳細な検出処理のフローチャートである。詳細な検出処理においては、候補判別部24において部分画像Bが候補画像CPであると判別されていることから、検出制御部21が候補画像CPを判別部25に入力する(ステップST41)。判別部25は、入力される候補画像CPが顔画像であるか否かの判別を行い、検出制御部21がその判別結果Rを取得し(ステップST42)、図8に示すフローチャートのステップST29に進む。以上の処理を行うことにより、検出対象画像S0から種々の方向を向いた顔を含む画像を検出することができる。
On the other hand, if the determination result CR is that the partial image B is a face image, the
なお、検出結果の出力は、検出対象画像S0から顔が検出できなかった場合にはその旨を出力し、検出対象画像S0に顔が検出できた場合には、検出対象画像S0上における顔が検出された部分画像の位置の座標を出力する。 The detection result is output when a face cannot be detected from the detection target image S0. When a face is detected in the detection target image S0, the face on the detection target image S0 is output. The coordinates of the position of the detected partial image are output.
次に、判別器の学習方法(生成方法)について説明する。なお、学習は、判別器の種類、すなわち、判別すべき顔の向き毎に行われる。 Next, a learning method (generation method) of the discriminator will be described. Note that learning is performed for each type of discriminator, that is, for each orientation of the face to be discriminated.
学習の対象となるサンプル画像群は、ウィンドウWのサイズで規格化された、顔であることが分かっている複数のサンプル画像(顔サンプル画像群)と、顔でないことが分かっている複数のサンプル画像(非顔サンプル画像群)とからなる。 The sample image group to be learned is standardized by the size of the window W, a plurality of sample images (face sample image group) known to be faces and a plurality of samples known to be non-faces It consists of an image (non-face sample image group).
顔サンプル画像は、判別器25−iのクラス数に応じた顔の向きを有するものとなっている。具体的には、図10(a)に示すように設定位置(例えば中央)に配置された顔が30°ずつ回転した12種類の画像からなる面内回転サンプル画像、および図10(b)に示すように設定位置(例えば中央)に配置された顔の向きが±30°ずつ回転した7種類の画像からなる面外回転サンプル画像からなる。なお、各顔サンプル画像は、顔の位置およびサイズが規格化されている。 The face sample image has a face orientation corresponding to the number of classes of the discriminator 25-i. Specifically, as shown in FIG. 10A, an in-plane sample image consisting of 12 types of images in which the face arranged at the set position (for example, the center) is rotated by 30 °, and FIG. As shown in the figure, it consists of out-of-plane rotated sample images consisting of seven types of images in which the orientation of the face arranged at the set position (for example, the center) is rotated by ± 30 °. Each face sample image has a standardized face position and size.
そして、このような顔サンプル画像群と非顔サンプル画像群とを用いて顔の向き毎に判別器25−iの学習を行い、19種類の判別器を生成する。以下、具体的な学習手法について説明する。 Then, using such face sample image group and non-face sample image group, learning of the discriminator 25-i is performed for each face direction, and 19 types of discriminators are generated. Hereinafter, a specific learning method will be described.
図11は判別器の学習方法を示すフローチャートである。なお、本実施形態においては、前段の弱判別器群WC−Fは、判別器25−i間において特徴量を共有するものであり、いずれの特徴量を共有させるかは、ユーザが学習時に適宜選択すればよいものである。まず、各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく1に設定される(ステップST51)。次に、サンプル画像から特徴量を取得し、その特徴量について弱半別器が作成される(ステップST52)。なお、特徴量としては、サンプル画像におけるあらかじめ定められた2点間における画素値(輝度値)の差分値等を用いることができる。本実施形態においては、特徴量についてのヒストグラムを弱判別器のスコアテーブルの基礎として使用する。 FIG. 11 is a flowchart showing a learning method of the classifier. In the present embodiment, the weak classifier group WC-F in the previous stage shares the feature quantity among the classifiers 25-i, and which feature quantity is shared is determined appropriately by the user at the time of learning. You just have to choose. First, a weight or importance is assigned to each sample image. First, the initial value of the weight of all sample images is set equal to 1 (step ST51). Next, a feature amount is acquired from the sample image, and a weak semi-separator is created for the feature amount (step ST52). As the feature amount, a difference value between pixel values (luminance values) between two predetermined points in the sample image can be used. In the present embodiment, the histogram for the feature quantity is used as the basis of the score table of the weak classifier.
図12を参照しながらある弱判別器の作成について説明する。図12の左側のサンプル画像に示すように、この弱判別器を作成するための特徴量は、顔サンプル画像において、サンプル画像上の右目の中心にある点O1、および右側の頬の部分にある点O2の画素値の差分値とする。なお、ある弱判別器を作成するための特徴量を得るための座標位置はすべてのサンプル画像において同一である。そして顔サンプル画像について特徴量が求められ、そのヒストグラムが作成される。ここで、特徴量がとり得る値は、画像の輝度階調数に依存するが、仮に16ビット階調である場合には、1つの画素値の差分値につき65536通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、特徴量を適当な数値幅で区切って量子化し、n値化する(例えばn=100)。これにより、特徴量の組合せの数はn通りとなるため、特徴量を表すデータ数を低減できる。 The creation of a weak classifier will be described with reference to FIG. As shown in the sample image on the left side of FIG. 12, the feature quantities for creating this weak classifier are in the point O1 at the center of the right eye on the sample image and the cheek portion on the right side in the face sample image. The difference value of the pixel value at the point O2 is used. Note that the coordinate position for obtaining a feature value for creating a weak classifier is the same in all sample images. Then, a feature amount is obtained for the face sample image, and a histogram thereof is created. Here, the value that can be taken by the feature amount depends on the number of luminance gradations of the image, but if it is a 16-bit gradation, there are 65536 different values for the difference value of one pixel value. A large number of samples, time and memory are required for detection. For this reason, in the present embodiment, the feature quantity is divided and quantized by an appropriate numerical value width and converted into an n-value (for example, n = 100). As a result, the number of combinations of feature amounts is n, so the number of data representing feature amounts can be reduced.
同様に、非顔サンプル画像についてもヒストグラムが作成される。なお、非顔サンプル画像については、顔サンプル画像上における特徴量を取得する画素に対応する位置の画素値が用いられる。これらの2つのヒストグラムが示す頻度値の比の対数値をとってヒストグラムで表したものを、図12の一番右側に示す、弱判別器のスコアテーブルの基礎として用いられるヒストグラムである。この弱判別器のヒストグラムが示す各縦軸の値を、以下スコアと称する。この弱判別器によれば、正のスコアに対応する、特徴量の組合せの分布を示す画像は顔である可能性が高く、スコアの絶対値が大きいほどその可能性は高まると言える。逆に、負のスコアに対応する特徴量の組合せの分布を示す画像は顔でない可能性が高く、やはりスコアの絶対値が大きいほどその可能性は高まる。ステップST52では、判別に使用され得る特徴量の組合せについて、上記のヒストグラム形式の複数の弱判別器が作成される。 Similarly, a histogram is also created for the non-face sample image. For the non-face sample image, a pixel value at a position corresponding to a pixel for acquiring a feature amount on the face sample image is used. A histogram obtained by taking logarithm values of the ratios of the frequency values indicated by these two histograms and representing the histogram is shown on the rightmost side of FIG. 12 and used as the basis of the score table of the weak classifier. The value of each vertical axis indicated by the histogram of the weak classifier is hereinafter referred to as a score. According to this weak classifier, an image showing the distribution of the combination of feature amounts corresponding to a positive score is highly likely to be a face, and it can be said that the possibility increases as the absolute value of the score increases. Conversely, an image showing the distribution of the combination of feature amounts corresponding to a negative score is highly likely not to be a face, and the possibility increases as the absolute value of the score increases. In step ST52, a plurality of weak classifiers in the above-described histogram format are created for combinations of feature quantities that can be used for discrimination.
続いて、ステップST52で作成した複数の弱半別器のうち、画像が特定方向を向いた顔であるか否かを判別するのに最も有効な弱判別器が選択される。最も有効な弱判別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各弱判別器の重み付き正答率が比較され、最も高い重み付き正答率を示す弱判別器が選択される(ステップST53)。すなわち、最初のステップST53では、各サンプル画像の重みは等しく1であるので、単純にその弱判別器によって画像が特定方向を向いた顔であるか否かが正しく判別されるサンプル画像の数が最も多いものが、最も有効な弱判別器として選択される。一方、後述するステップST55において各サンプル画像の重みが更新された後の2回目のステップST53では、重みが1のサンプル画像、重みが1よりも大きいサンプル画像、および重みが1よりも小さいサンプル画像が混在しており、重みが1よりも大きいサンプル画像は、正答率の評価において、重みが1のサンプル画像よりも重みが大きい分多くカウントされる。これにより、2回目以降のステップST53では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく判別されることに、より重点が置かれる。 Subsequently, the weak classifier that is most effective for determining whether or not the image is a face facing a specific direction is selected from the plurality of weak half-classifiers created in step ST52. The most effective weak classifier is selected in consideration of the weight of each sample image. In this example, the weighted correct answer rates of the weak discriminators are compared, and the weak discriminator showing the highest weighted correct answer rate is selected (step ST53). That is, in the first step ST53, since the weight of each sample image is equal to 1, the number of sample images for which the weak discriminator can simply determine whether the image is a face facing a specific direction is simply determined. The most numerous are selected as the most effective weak classifiers. On the other hand, in the second step ST53 after the weight of each sample image is updated in step ST55, which will be described later, a sample image with a weight of 1, a sample image with a weight greater than 1, and a sample image with a weight less than 1 The sample images having a weight greater than 1 are counted more in the evaluation of the correct answer rate because the weight is larger than the sample images having a weight of 1. Thereby, in step ST53 after the second time, more emphasis is placed on correctly identifying a sample image having a large weight than a sample image having a small weight.
次に、それまでに選択した弱判別器の組合せの正答率、すなわち、それまでに選択した弱判別器を組み合せて使用して(学習段階では、弱判別器は必ずしも線形に結合させる必要はない)各サンプル画像が特定方向を向いた顔の画像であるか否かを判別した結果が、実際に顔の画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる(ステップST54)。ここで、弱判別器の組合せの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した弱判別器を用いれば画像が顔であるか否かを十分に高いスコアで判別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した弱判別器と組み合せて用いるための追加の弱判別器を選択するために、ステップST56へと進む。ステップST56では、直近のステップST53で選択された弱判別器が再び選択されないようにするため、その弱判別器が除外される。 Next, the correct answer rate of the combination of the weak classifiers selected so far, that is, using the weak classifiers selected so far (in the learning stage, the weak classifiers do not necessarily have to be linearly combined) ) Whether the result of determining whether or not each sample image is a face image facing in a specific direction has exceeded a predetermined threshold, the rate at which it matches the answer of whether or not it is actually a face image Is confirmed (step ST54). Here, the current weighted sample image group or the sample image group with equal weight may be used for evaluating the correct answer rate of the combination of weak classifiers. When the predetermined threshold value is exceeded, learning is completed because it is possible to determine whether the image is a face with a sufficiently high score using the weak classifier selected so far. If it is equal to or less than the predetermined threshold value, the process proceeds to step ST56 in order to select an additional weak classifier to be used in combination with the weak classifier selected so far. In step ST56, the weak discriminator selected in the latest step ST53 is excluded so as not to be selected again.
次に、直近のステップST53で選択された弱判別器では特定方向を向いた顔であるか否かを正しく判別できなかったサンプル画像の重みが大きくされ、画像が顔であるか否かを正しく判別できたサンプル画像の重みが小さくされる(ステップST55)。このように重みを大小させる理由は、次の弱判別器の選択において、既に選択された弱判別器では正しく判別できなかった画像を重要視し、それらの画像が顔であるか否かを正しく判別できる弱判別器が選択されるようにして、弱判別器の組合せの効果を高めるためである。続いて、ステップST53へと戻り、上記したように重み付き正答率を基準にして次に有効な弱判別器が選択される。 Next, the weak discriminator selected in the most recent step ST53 cannot correctly determine whether the face is in a specific direction or not, the weight of the sample image is increased, and whether or not the image is a face is correct. The weight of the sample image that can be discriminated is reduced (step ST55). The reason for increasing or decreasing the weight in this way is that in the selection of the next weak classifier, importance is placed on images that could not be correctly determined by the already selected weak classifier, and whether or not those images are faces is correct. This is because a weak discriminator that can be discriminated is selected to enhance the effect of the combination of the weak discriminators. Subsequently, the process returns to step ST53, and the next effective weak classifier is selected based on the weighted correct answer rate as described above.
以上のステップST53からS56を繰り返して、特定方向を向いた顔であるか否かを判別するのに適した弱判別器として、特徴量の組合せに対応する弱判別器が選択されたところで、ステップST54で確認される正答率が閾値を超えたとすると、特定方向を向いた顔であるか否かの判別に用いる弱判別器の種類と判別条件とが確定され(ステップST57)、これにより学習を終了する。なお、選択された弱判別器は、その重み付き正答率が高い順に線形結合され、1つの判別器が構成される。また、各弱判別器については、それぞれ得られたヒストグラムを基に、特徴量の組合せに応じてスコアを算出するためのスコアテーブルが生成される。なお、ヒストグラム自身をスコアテーブルとして用いることもでき、この場合、ヒストグラムの判別ポイントがそのままスコアとなる。このようにして、各顔サンプル画像群毎に学習を行うことにより、上述の19種類の判別器が生成される。 Steps ST53 to S56 are repeated, and when a weak discriminator corresponding to a combination of feature amounts is selected as a weak discriminator suitable for discriminating whether or not the face is in a specific direction, the step If the correct answer rate confirmed in ST54 exceeds the threshold, the type of weak discriminator used for discriminating whether or not the face is in a specific direction and the discriminating condition are determined (step ST57), thereby learning. finish. The selected weak classifiers are linearly combined in descending order of the weighted correct answer rate to constitute one classifier. For each weak classifier, a score table for calculating a score according to the combination of feature amounts is generated based on the obtained histogram. Note that the histogram itself can also be used as a score table. In this case, the discrimination point of the histogram is directly used as a score. In this manner, the 19 kinds of discriminators described above are generated by performing learning for each face sample image group.
ここで、本実施形態においては、前段の弱判別器群WC−Fは、候補画像CPについての顔の向きを判別するためのものであり、後段の弱判別器群WC−Bは、弱判別器群WCが属する判別器25−iが判別可能な顔の向きに対応した顔であるか否かを判別するためのものである。このため、本実施形態においては、あらかじめ定められた数の弱判別器が選択された時点で、それまでに選択された弱判別器から前段の弱判別器群WC−Fを構成する。そして、前段の弱判別器群WC−Fを用いて、顔サンプル画像群および非顔サンプル画像群についての顔の判別を行う。ここで、前段の弱判別器群WC−Fのみでは、判別器25−iの学習の途中の段階であることから、精度良く特定方向の顔を判別できないため、特定方向の顔と見間違えるような非顔サンプル画像を特定方向の顔と判別してしまう場合がある。 Here, in the present embodiment, the weak classifier group WC-F in the previous stage is for determining the face orientation of the candidate image CP, and the weak classifier group WC-B in the subsequent stage is the weak classifier. This is for discriminating whether or not the discriminator 25-i to which the vessel group WC belongs is a face corresponding to the face orientation that can be discriminated. For this reason, in this embodiment, when a predetermined number of weak classifiers are selected, the weak classifier group WC-F in the previous stage is configured from the weak classifiers selected so far. Then, using the weak classifier group WC-F in the previous stage, face discrimination is performed for the face sample image group and the non-face sample image group. Here, since only the weak classifier group WC-F in the previous stage is in the middle of learning by the classifier 25-i, a face in a specific direction cannot be accurately identified, so that it may be mistaken for a face in a specific direction. In some cases, a non-face sample image is identified as a face in a specific direction.
図13は正面を向いた顔を判別可能な判別器における前段の弱判別器群WC−Fにより顔であると判別されたサンプル画像の例を示す図である。図13に示す4つのサンプル画像のうち、サンプル画像SP1〜SP3は正面を向いた顔であることが明らかであるが、サンプル画像SP4は明らかに顔ではないことが分かる。このため、本実施形態においては、前段の弱判別器群WC−Fによって特定方向の顔であると判別されたサンプル画像のうち、明らかに顔でないサンプル画像を、非顔サンプル画像として後段の弱判別器群WC−Bの学習には使用しないようにする。このようにして、学習に使用するサンプル画像を選択した後、前段の弱判別器群WC−Fから続けて、後段の弱判別器群WC−Bを構成する弱判別器の学習を行う。なお、後段の弱判別器群WC−Bの学習時においては、ステップST54において使用する閾値を、前段の弱判別器群WC−Fの学習に使用した閾値よりも高くすることにより、後段の弱判別器群WC−Bにより精度の高い判別を行うことが可能となる。 FIG. 13 is a diagram illustrating an example of a sample image that is determined to be a face by the weak classifier group WC-F in the previous stage in the classifier capable of discriminating a face facing the front. Among the four sample images shown in FIG. 13, it is clear that the sample images SP1 to SP3 are faces facing the front, but the sample image SP4 is clearly not a face. For this reason, in the present embodiment, among the sample images determined to be faces in a specific direction by the weak classifier group WC-F in the previous stage, a sample image that is clearly not a face is used as a non-face sample image. It is not used for learning of the classifier group WC-B. In this way, after selecting a sample image to be used for learning, the weak classifiers constituting the subsequent weak classifier group WC-B are learned following the weak classifier group WC-F in the previous stage. Note that, at the time of learning the subsequent weak classifier group WC-B, the threshold value used in step ST54 is set higher than the threshold value used for learning the previous weak classifier group WC-F, so that The discriminator group WC-B can perform discrimination with high accuracy.
なお、上記の学習手法を採用する場合において、弱判別器は、特徴量の組合せを用いて顔の画像と顔でない画像とを判別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば2値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図12の中央に示した2つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。 In the case of adopting the above learning method, if the weak discriminator provides a reference for discriminating between a face image and a non-face image using a combination of feature amounts, The data is not limited to any data, and may be any data, for example, binary data, a threshold value, a function, or the like. Further, even in the same histogram format, a histogram or the like indicating the distribution of difference values between the two histograms shown in the center of FIG. 12 may be used. Further, the learning method is not limited to the above method, and other machine learning methods such as a neural network can be used.
このように、本実施形態によれば、前段の弱判別器群WC−Fにより顔の向きを表す第1のスコアP1−iを取得し、後段の弱判別器群WC−Bにより各判別器25−iが判別可能な顔の向きに対応した顔であることを表す第2のスコアP2−iを取得する。そして、各判別器25−iのそれぞれにおける第1のスコアP1−iおよび第2のスコアP2−iの乗算値の、すべての判別器25−iの和に基づいて、顔を検出するようにしたものである。このため、判別可能な顔の向きがそれぞれ異なる複数の判別器25−iによる判別結果を統合して、顔の検出を行うことができるため、特許文献1および非特許文献1の手法のように、特定の向きのみの顔を検出するものと比較して、向きが異なる顔を柔軟に検出できることとなる。したがって、弱判別器の数を増加させることなく、顔の検出精度を向上させることができる。
Thus, according to the present embodiment, the first score P1-i representing the face direction is acquired by the weak classifier group WC-F in the previous stage, and each classifier is acquired by the weak classifier group WC-B in the subsequent stage. A second score P2-i indicating that the face corresponds to the face orientation that can be identified by 25-i is acquired. Then, the face is detected based on the sum of all the discriminators 25-i of the multiplication values of the first score P1-i and the second score P2-i in each of the discriminators 25-i. It is a thing. For this reason, it is possible to detect the face by integrating the discrimination results by the plurality of discriminators 25-i having different face directions that can be discriminated. Therefore, as in the methods of
また、前段の弱判別器群WC−Fを、複数の判別器25−iの少なくとも一部において特徴量を共有させることにより、複数の判別器25−iの少なくとも一部における複数の判別処理を1つの弱判別器WCにおいて行うことができることとなる。したがって、前段の弱判別器群WC−Fの数を少なくすることができ、その結果、前段の弱判別器群WC−Fにおける弱判別器WCの数を少なくすることができる。 In addition, the weak classifier group WC-F in the previous stage shares a feature amount in at least a part of the plurality of classifiers 25-i, thereby performing a plurality of discrimination processes in at least a part of the plurality of classifiers 25-i. This can be performed in one weak classifier WC. Therefore, the number of weak classifier groups WC-F in the previous stage can be reduced, and as a result, the number of weak classifiers WC in the weak classifier group WC-F in the previous stage can be reduced.
なお、上記実施形態においては、検出対象を人物の顔としているが、人物の手等の他のオブジェクトを検出するようにしてもよい。この場合、判別器はオブジェクトを含むサンプル画像群とオブジェクトを含まないサンプル画像群とを用いて学習を行えばよい
以上、本発明の実施形態に係る顔検出システムについて説明したが、この顔検出システムのうちの本発明のオブジェクト検出装置に対応する部分における各処理をコンピュータに実行させるためのプログラムも、本発明の実施形態の1つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の1つである。
In the above embodiment, the detection target is a human face, but other objects such as a human hand may be detected. In this case, the discriminator may perform learning using a sample image group including an object and a sample image group including no object. As described above, the face detection system according to the embodiment of the present invention has been described. A program for causing a computer to execute each process in a portion corresponding to the object detection device of the present invention is also an embodiment of the present invention. A computer-readable recording medium that records such a program is also one embodiment of the present invention.
1 顔検出システム
10 多重解像度化部
20 顔検出部
21 検出制御部
22 解像度画像選択部
23 ウィンドウ設定部
24 候補判別部
25 判別部
DESCRIPTION OF
Claims (6)
前記各判別器の複数の弱判別器が前段の弱判別器群および後段の弱判別器群に分割されてなり、前記前段の弱判別器群が、前記オブジェクトの向きを判別する学習がなされ、前記後段の弱判別器群が、該各後段の弱判別器が属する判別器が判別可能な前記オブジェクトの向きに対応したオブジェクトを検出する学習がなされてなり、
前記判別手段は、前記前段の弱判別器群の出力である第1のスコア、および前記後段の弱判別器の出力である第2のスコアを取得し、前記複数の判別器のそれぞれにおける前記第1のスコアおよび前記第2のスコアの乗算値の、すべての前記判別器についての和に基づいて、前記オブジェクトを検出する手段であることを特徴とするオブジェクト検出装置。 A plurality of weak classifiers that have previously learned feature quantities extracted from objects to be discriminated, each having a plurality of discriminators having different orientations of the distinguishable objects, and using feature quantities extracted from detection target images In the object detection apparatus provided with a determination unit for detecting the object from the detection target image,
A plurality of weak classifiers of each classifier is divided into a weak classifier group in the previous stage and a weak classifier group in the subsequent stage, and the weak classifier group in the previous stage is learned to determine the orientation of the object, The latter weak classifier group is learned to detect an object corresponding to the orientation of the object that can be discriminated by the classifier to which each subsequent weak classifier belongs,
The discriminating unit obtains a first score that is an output of the preceding weak discriminator group and a second score that is an output of the subsequent weak discriminator, and the first score in each of the plurality of discriminators. An object detection apparatus, comprising: means for detecting the object based on a sum of multiplication values of the score of 1 and the second score for all the discriminators.
前記各判別器の複数の弱判別器が前段の弱判別器群および後段の弱判別器群に分割されてなり、前記前段の弱判別器群が、前記オブジェクトの向きを判別する学習がなされ、前記後段の弱判別器群が、該各後段の弱判別器が属する判別器が判別可能な前記オブジェクトの向きに対応したオブジェクトを検出する学習がなされてなり、
前記前段の弱判別器群の出力である第1のスコア、および前記後段の弱判別器の出力である第2のスコアを取得し、
前記複数の判別器のそれぞれにおける前記第1のスコアおよび前記第2のスコアの乗算値の、すべての前記判別器についての和に基づいて、前記オブジェクトを検出することを特徴とするオブジェクト検出方法。 A plurality of weak classifiers that have previously learned feature quantities extracted from objects to be discriminated, each having a plurality of discriminators having different orientations of the distinguishable objects, and using feature quantities extracted from detection target images In the object detection method for detecting the object from the detection target image,
A plurality of weak classifiers of each classifier is divided into a weak classifier group in the previous stage and a weak classifier group in the subsequent stage, and the weak classifier group in the previous stage is learned to determine the orientation of the object, The latter weak classifier group is learned to detect an object corresponding to the direction of the object that can be discriminated by the classifier to which each subsequent weak classifier belongs,
Obtaining a first score that is the output of the preceding weak classifier group and a second score that is the output of the subsequent weak classifier;
An object detection method, comprising: detecting the object based on a sum of multiplication values of the first score and the second score in each of the plurality of classifiers for all the classifiers.
前記各判別器の複数の弱判別器が前段の弱判別器群および後段の弱判別器群に分割されてなり、前記前段の弱判別器群が、前記オブジェクトの向きを判別する学習がなされ、前記後段の弱判別器群が、該各後段の弱判別器が属する判別器が判別可能な前記オブジェクトの向きに対応したオブジェクトを検出する学習がなされてなり、
前記プログラムは、前記前段の弱判別器群の出力である第1のスコア、および前記後段の弱判別器の出力である第2のスコアを取得する手順と、
前記複数の判別器のそれぞれにおける前記第1のスコアおよび前記第2のスコアの乗算値の、すべての前記判別器についての和に基づいて、前記オブジェクトを検出する手順とをコンピュータに実行させることを特徴とするプログラム。 A plurality of weak classifiers that have previously learned feature quantities extracted from objects to be discriminated, each having a plurality of discriminators having different orientations of the distinguishable objects, and using feature quantities extracted from detection target images In a program for causing a computer to execute an object detection method for detecting the object from the detection target image,
A plurality of weak classifiers of each classifier is divided into a weak classifier group in the previous stage and a weak classifier group in the subsequent stage, and the weak classifier group in the previous stage is learned to determine the orientation of the object, The latter weak classifier group is learned to detect an object corresponding to the direction of the object that can be discriminated by the classifier to which each subsequent weak classifier belongs,
The program acquires a first score that is an output of the preceding weak classifier group, and a second score that is an output of the subsequent weak classifier;
Causing the computer to execute a procedure for detecting the object based on a sum of the product of the first score and the second score of each of the plurality of classifiers for all the classifiers. A featured program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009287063A JP2011128916A (en) | 2009-12-18 | 2009-12-18 | Object detection apparatus and method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009287063A JP2011128916A (en) | 2009-12-18 | 2009-12-18 | Object detection apparatus and method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011128916A true JP2011128916A (en) | 2011-06-30 |
Family
ID=44291447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009287063A Ceased JP2011128916A (en) | 2009-12-18 | 2009-12-18 | Object detection apparatus and method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011128916A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013132695A1 (en) * | 2012-03-09 | 2013-09-12 | 日本電気株式会社 | Information processing device, information processing method and recording medium |
JP2013196683A (en) * | 2012-03-21 | 2013-09-30 | Nec (China) Co Ltd | Attitude sorter training method, object sorter training method, object detection method, attitude sorter training device, object sorter training device, and object detector |
JP2014191471A (en) * | 2013-03-26 | 2014-10-06 | Mega Chips Corp | Object detection device |
JP2016001492A (en) * | 2011-09-27 | 2016-01-07 | インテル・コーポレーション | Method and device for detecting position of face feature point by using adaboost learning algorithm and computer-readable recording medium |
US10223583B2 (en) | 2013-03-26 | 2019-03-05 | Megachips Corporation | Object detection apparatus |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006244385A (en) * | 2005-03-07 | 2006-09-14 | Fuji Photo Film Co Ltd | Face-discriminating apparatus, program and learning method for the apparatus |
JP2007226512A (en) * | 2006-02-23 | 2007-09-06 | Fujifilm Corp | Method, device, and program for deciding face in specific direction |
-
2009
- 2009-12-18 JP JP2009287063A patent/JP2011128916A/en not_active Ceased
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006244385A (en) * | 2005-03-07 | 2006-09-14 | Fuji Photo Film Co Ltd | Face-discriminating apparatus, program and learning method for the apparatus |
JP2007226512A (en) * | 2006-02-23 | 2007-09-06 | Fujifilm Corp | Method, device, and program for deciding face in specific direction |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016001492A (en) * | 2011-09-27 | 2016-01-07 | インテル・コーポレーション | Method and device for detecting position of face feature point by using adaboost learning algorithm and computer-readable recording medium |
WO2013132695A1 (en) * | 2012-03-09 | 2013-09-12 | 日本電気株式会社 | Information processing device, information processing method and recording medium |
JPWO2013132695A1 (en) * | 2012-03-09 | 2015-07-30 | 日本電気株式会社 | Information processing apparatus, information processing method, and recording medium |
JP2013196683A (en) * | 2012-03-21 | 2013-09-30 | Nec (China) Co Ltd | Attitude sorter training method, object sorter training method, object detection method, attitude sorter training device, object sorter training device, and object detector |
JP2014191471A (en) * | 2013-03-26 | 2014-10-06 | Mega Chips Corp | Object detection device |
US10223583B2 (en) | 2013-03-26 | 2019-03-05 | Megachips Corporation | Object detection apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4744918B2 (en) | Face detection method, apparatus, and program | |
JP4628882B2 (en) | Classifier learning method, face discrimination method and apparatus, and program | |
JP4767595B2 (en) | Object detection device and learning device thereof | |
Marée et al. | Random subwindows for robust image classification | |
JP6330385B2 (en) | Image processing apparatus, image processing method, and program | |
CN101271515B (en) | Image detection device capable of recognizing multi-angle objective | |
JP4712563B2 (en) | Face detection method, apparatus and program | |
JP4657934B2 (en) | Face detection method, apparatus and program | |
JP2012243180A (en) | Learning device, method and program | |
JP2007213182A (en) | Object status recognition method, device, and program | |
CN112232199A (en) | Wearing mask detection method based on deep learning | |
WO2011092865A1 (en) | Object detection device and object detection method | |
JP2007047965A (en) | Method and device for detecting object of digital image, and program | |
JP2011128916A (en) | Object detection apparatus and method, and program | |
WO2012046426A1 (en) | Object detection device, object detection method, and object detection program | |
JP5317934B2 (en) | Object detection apparatus and method, and program | |
CN110008899B (en) | Method for extracting and classifying candidate targets of visible light remote sensing image | |
JP4624889B2 (en) | Face detection method, apparatus and program | |
JP4749884B2 (en) | Learning method of face discriminating apparatus, face discriminating method and apparatus, and program | |
JP2011170890A (en) | Face detecting method, face detection device, and program | |
WO2022049704A1 (en) | Information processing system, information processing method, and computer program | |
JP4757598B2 (en) | Face detection method, apparatus, and program | |
Mccullagh | Face detection by using haar cascade classifier | |
Oyewole et al. | Bridging communication gap among people with hearing impairment: An application of image processing and artificial neural network | |
CN108985216B (en) | Pedestrian head detection method based on multivariate logistic regression feature fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD15 | Notification of revocation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7435 Effective date: 20110520 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130215 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
A045 | Written measure of dismissal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20130625 |