JP2007293438A - Device for acquiring characteristic quantity - Google Patents
Device for acquiring characteristic quantity Download PDFInfo
- Publication number
- JP2007293438A JP2007293438A JP2006118161A JP2006118161A JP2007293438A JP 2007293438 A JP2007293438 A JP 2007293438A JP 2006118161 A JP2006118161 A JP 2006118161A JP 2006118161 A JP2006118161 A JP 2006118161A JP 2007293438 A JP2007293438 A JP 2007293438A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- feature amount
- point
- sampling
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
本発明は、画像から特徴量を取得するための技術に関する。 The present invention relates to a technique for acquiring a feature amount from an image.
コンピュータを用いた画像処理においては、画像についての情報をコンピュータで利用可能なように特徴量として数値化して利用している。従来、このような特徴量として、Gabor−Wavelet特徴量と呼ばれる特徴量が広く使用されている。Gabor−Wavelet特徴量は、画像に対して、数1で示されるGaborフィルタの解像度(k)と方向(θ)を変化させたものを畳み込んだものである。
In image processing using a computer, information about an image is digitized and used as a feature value so that it can be used by the computer. Conventionally, as such a feature quantity, a feature quantity called a Gabor-Wavelet feature quantity has been widely used. The Gabor-Wavelet feature amount is a convolution of the image with the resolution (k) and direction (θ) of the Gabor filter expressed by
Gabor−Wavelet特徴量によれば、画像上のある点(注視点)の周辺における濃淡変化の周期性と方向性を特徴量として取得することができる。このGabor−Wavelet特徴量は、人間の視覚特性に類似した特徴を持つため、特に顔認証等の分野で、有効な特徴量であることが知られている(非特許文献1)。 According to the Gabor-Wavelet feature quantity, it is possible to acquire the periodicity and directionality of shading change around a certain point (gaze point) on the image as the feature quantity. This Gabor-Wavelet feature amount is known to be an effective feature amount particularly in the field of face authentication and the like because it has features similar to human visual characteristics (Non-patent Document 1).
また、Gabor−Wavelet特徴量とレティナ(Retina)サンプリングと呼ばれる手法を組み合わせることで、より顔認証等に適した特徴量が得られることが知られている(非特許文献2,3)。なお、レティナサンプリングとは、注視点の周囲から離散的に特徴量を取得し、これら複数のサンプリング点における特徴量(の組み合わせ)を注視点における特徴量とする手法である。レティナサンプリングにおいては、サンプリング点の配置を、注視点に近いほど密に、注視点から離れるほど疎に配置することが一般的である。このようにGabor−Wavelet特徴量とレティナサンプリングを組み合わせることにより、注視点付近の局所的な特徴と、その周辺の大域的な周波数と方向性とをバランス良く取得することができる。これにより、画像の形状やテクスチャ情報などを効率的に得ることができる。
しかしながら、上記のような従来技術の場合には、下記のような問題が生じていた。すなわち、Gabor−Wavelet特徴量を計算するためには非常に時間がかかるという問題点がある。フーリエ変換を用いることで畳み込み演算を直接行う場合より計算時間を低減することができるものの、特徴量抽出前にあらかじめ特徴量を取得する対象領域全体に対してフーリエ変換と逆フーリエ変換を行う必要がある。したがって、フーリエ変換を用いる計算手法でも、多大な計算時間が必要となる。 However, in the case of the prior art as described above, the following problems have occurred. That is, there is a problem that it takes a very long time to calculate the Gabor-Wavelet feature amount. Although the calculation time can be reduced by using the Fourier transform compared to the case of performing the convolution operation directly, it is necessary to perform the Fourier transform and the inverse Fourier transform on the entire target area from which the feature amount is acquired in advance before the feature amount extraction. is there. Therefore, a large calculation time is required even in a calculation method using Fourier transform.
本発明は上記実情に鑑みてなされたものであって、その目的とするところは、画像から多様な特徴量を高速に取得できる技術を提供することにある。 The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a technique capable of acquiring various feature amounts from an image at high speed.
上記目的を達成するために本発明では、以下の手段または処理によって画像から特徴量の取得を行う。 In order to achieve the above object, in the present invention, a feature amount is acquired from an image by the following means or processing.
本発明は、入力された画像から注視点における特徴量を取得する特徴量取得装置である。本発明に係る特徴量取得装置は、注視点を基準に離散的に配置された複数のサンプリング点から各サンプリング点における特徴量を取得し、これら複数のサンプリング点における特徴量の組み合わせを注視点における特徴量として取得する。 The present invention is a feature amount acquisition apparatus that acquires a feature amount at a gazing point from an input image. The feature amount acquisition apparatus according to the present invention acquires a feature amount at each sampling point from a plurality of sampling points that are discretely arranged with reference to the gazing point, and combines a combination of feature amounts at the plurality of sampling points at the gazing point. Acquired as a feature value.
次に、個々のサンプリング点における特徴量の抽出処理について説明する。まず、個々のサンプリング点ごとに、第1の領域と第2の領域とが定義されており、第1の領域と第2の領域の画素値の差が、そのサンプリング点における特徴量として取得される。領域内の画素値は、その領域内の画素の画素値の合計として算出することができる。 Next, a feature amount extraction process at each sampling point will be described. First, the first region and the second region are defined for each sampling point, and the difference between the pixel values of the first region and the second region is acquired as a feature amount at the sampling point. The The pixel value in the area can be calculated as the sum of the pixel values of the pixels in the area.
これらの第1および第2の領域は、任意の形状を有することができる。また、これらの領域は、連続する領域である必要もない。すなわち、第1および第2の領域は、それぞれ、複数のサブ領域の集合として構成されることもできる。また、第1の領域と第2の領域は、互いに重なり合わない領域であることが好ましい。また、第1の領域と第2の領域は、隣接する領域であることが好ましいが、必ずしも隣接する必要はない。 These first and second regions can have any shape. Further, these areas do not need to be continuous areas. That is, each of the first and second regions can be configured as a set of a plurality of subregions. The first region and the second region are preferably regions that do not overlap each other. In addition, the first region and the second region are preferably adjacent regions, but are not necessarily adjacent.
サンプリング点における第1の領域と第2の領域のパターン(以下、領域のパターン、または単にパターンという)は全て同一のものとすることができる。 The patterns of the first region and the second region at the sampling point (hereinafter referred to as region patterns or simply patterns) can all be the same.
また、サンプリング点ごとに、定義される領域のパターンは異なるものであって良い。すなわち、全てのサンプリング点で同一の領域パターンを用いる必要はなく、少なくとも1つのサンプリング点における領域のパターンが、他のサンプリング点における領域のパターンと異なるものであっても良い。サンプリング点ごとに異なる領域パターンを用いることで、多様な特徴量抽出を行うことができる。 In addition, the pattern of the defined area may be different for each sampling point. That is, it is not necessary to use the same region pattern at all sampling points, and the region pattern at at least one sampling point may be different from the region patterns at other sampling points. By using different region patterns for each sampling point, various feature amounts can be extracted.
さらに、第1の領域および第2の領域は矩形領域(または複数の矩形領域の集合)であることが好ましい。これらの領域を矩形とすることによって、積分画像を用いてこれらの領域における画素値を高速に求めることが可能となる。 Further, the first area and the second area are preferably rectangular areas (or a set of a plurality of rectangular areas). By making these areas rectangular, it is possible to obtain pixel values in these areas at high speed using an integral image.
このように構成された本発明によれば、まず第一に、サンプリング点における特徴量が画素値の差として算出されるため、高速な処理が可能となる。また、注視点周辺に離散的に配置されたサンプリング点から特徴量を取得しているため、注視点付近の局所的な特徴と、その周辺の大域的な特徴をバランス良く取得することができる。また、サンプリング点ごとに特徴領域のパターンを変化させることで、多様な特徴抽出が可能となる。Gabor−Wavelet特徴量によれば同時には単一の周波数成分を有する特徴量しか取得できなかったが、本発明によれば異なる周波数成分を有する特徴量を同時に取得すること
が可能となる。
According to the present invention configured as described above, first, the feature amount at the sampling point is calculated as the difference between the pixel values, so that high-speed processing is possible. In addition, since feature quantities are acquired from sampling points discretely arranged around the gazing point, local features near the gazing point and global features around the gazing point can be acquired in a well-balanced manner. Also, various feature extractions are possible by changing the pattern of the feature region for each sampling point. According to the Gabor-Wavelet feature quantity, only a feature quantity having a single frequency component can be acquired at the same time. However, according to the present invention, it is possible to simultaneously acquire feature quantities having different frequency components.
なお、本発明は、上記手段の少なくとも一部を含む特徴量取得方法、または、かかる方法を実現するためのプログラムとして捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。 Note that the present invention can also be understood as a feature amount acquisition method including at least a part of the above-described means, or a program for realizing the method. Each of the above means and processes can be combined with each other as much as possible to constitute the present invention.
たとえば、本発明の一態様としての特徴量取得方法は、入力された画像から注視点における特徴量を取得する特徴量取得方法であって、情報処理装置が、注視点を基準に離散的に配置された複数のサンプリング点のそれぞれから、各サンプリング点に対して定められた第1の領域と第2の領域の画素値の差を取得し、これら複数のサンプリング点における画素値の差を、前記注視点における特徴量として取得する、ことを特徴とする。 For example, a feature amount acquisition method according to an aspect of the present invention is a feature amount acquisition method for acquiring a feature amount at a gazing point from an input image, and the information processing device is arranged discretely based on the gazing point The difference between the pixel values of the first region and the second region determined for each sampling point is obtained from each of the plurality of sampling points, and the difference between the pixel values at the plurality of sampling points is calculated as described above. Acquired as a feature value at a gazing point.
また、たとえば、本発明の一態様としての特徴量取得プログラムは、入力された画像から注視点における特徴量を取得するための特徴量取得プログラムであって、情報処理装置に、注視点を基準に離散的に配置された複数のサンプリング点のそれぞれから、各サンプリング点に対して定められた第1の領域と第2の領域の画素値の差を取得させ、これら複数のサンプリング点における画素値の差を、前記注視点における特徴量として取得させる、ことを特徴とする。 Further, for example, a feature amount acquisition program as one aspect of the present invention is a feature amount acquisition program for acquiring a feature amount at a gazing point from an input image. The difference between the pixel values of the first region and the second region determined for each sampling point is obtained from each of the plurality of discretely arranged sampling points, and the pixel values at these sampling points are obtained. The difference is acquired as a feature amount at the gazing point.
本発明によれば、画像から多様な特徴量を高速に取得することが可能となる。 According to the present invention, it is possible to acquire various feature amounts from an image at high speed.
以下では、顔画像から特徴量を取得し目の位置を検出する特徴点検出装置について説明する。この特徴点検出装置は、特徴量取得装置を特徴量取得部として含み、特徴量取得部によって取得された特徴量に基づいて、顔画像から目の位置を検出する。 Hereinafter, a feature point detection device that acquires feature amounts from a face image and detects the position of an eye will be described. This feature point detection device includes a feature amount acquisition device as a feature amount acquisition unit, and detects the position of an eye from a face image based on the feature amount acquired by the feature amount acquisition unit.
<装置構成>
特徴点検出装置1は、ハードウェア的には、バスを介して接続されたCPU(中央演算処理装置)、主記憶装置(RAM)、補助記憶装置などを備えるように構成される。この場合、プログラムがCPUにより実行されることによって、特徴点検出装置1が実現される。ここでいう補助記憶装置は、不揮発性記憶装置を用いて構成される。不揮発性記憶装置とは電源供給を停止しても記憶内容を保持可能なメモリであって、いわゆるROM(Read-Only Memory:EPROM(Erasable Programmable Read-Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、マスクROM等を含む
)、FeRAM(Ferro-electric RAM)、ハードディスク等を指す。
<Device configuration>
The feature
図1は、特徴点検出装置1の機能ブロック例を示す図である。特徴点検出装置1は、補助記憶装置に記憶された各種のプログラム(OS,アプリケーション等)が主記憶装置にロードされCPUにより実行されることによって、画像入力部2、顔検出部3、特徴量取得部4、識別部5として機能する。また、特徴点検出装置1の全部または一部は、専用のチップとして構成されても良い。次に、特徴点検出装置1が含む各機能部について説明する。
FIG. 1 is a diagram illustrating an example of functional blocks of the feature
画像入力部2は、顔画像のデータを特徴点検出装置1へ入力するためのインタフェースとして機能する。画像入力部2によって、顔画像のデータが特徴点検出装置1へ入力される。画像入力部2は、特徴点検出装置1へ顔画像のデータを入力するためのどのような既存の技術を用いて構成されても良い。
The
たとえば、ネットワーク(LANやインターネットなど)を介して顔画像のデータが特
徴点検出装置1へ入力されても良い。また、デジタルカメラやスキャナや記録装置(たとえばハードディスクドライブ)等から顔画像が特徴点検出装置1へ入力されても良い。また、特徴点検出装置1がデジタルカメラ等の撮像装置またはデジタルカメラ等の撮像装置を備える各種装置(携帯電話機やPDA(Personal Digital Assistant)等)の内部に含まれ、撮像された画像が特徴点検出装置1へと入力されても良い。
For example, face image data may be input to the feature
顔検出部3は、画像入力部2を介して入力された顔画像から、人の顔を検出する。顔検出部3は、たとえば、顔全体の輪郭に対応した基準テンプレートを用いたテンプレートマッチングによって顔を検出するように構成されても良い。また、顔検出部3は、顔の構成要素(目、鼻、耳など)に基づくテンプレートマッチングによって顔を検出するように構成されても良い。また、顔検出部3は、肌の色に近い領域を検出し、その領域を顔として検出するように構成されても良い。また、顔検出部3は、ニューラルネットワークを使って教師信号による学習を行い、顔らしい領域を顔として検出するように構成されても良い。また、顔検出部3は、その他既存のどのような技術が適用されることによって実現されても良い。
The face detection unit 3 detects a human face from the face image input via the
顔検出部3は、検出された顔の位置を特定し、その位置を特徴量取得部4へ渡す。このとき、顔検出部3は、顔の傾きや顔の大きさを取得し、その値を特徴量取得部4にさらに渡すように構成されても良い。
The face detection unit 3 identifies the position of the detected face and passes the position to the feature
特徴量取得部4は、画像中の任意の点(注視点)から特徴量を取得する。注視点における特徴量は、注視点およびその周囲に離散的に配置されたサンプリング点における輝度値の差(明暗差)を一列に並べたベクトルとして算出される。特徴量取得部4が行う特徴量取得処理の詳細は後述する。
The feature
識別部5は、あらかじめ学習処理によって取得された識別関数と、特徴量取得部4が取得した特徴量を用いて注視点が目(特徴点)であるかを判定する。なお、識別部5は、複数の注視点についてその点が目である確率(スコア)を算出して、その確率が最も高い点の位置を目の位置として求めても良い。
The
<特徴量取得処理>
特徴量取得部4が行う特徴量取得処理について詳しく説明する。特徴量取得部4は、注視点の周囲に離散的に配置された複数のサンプリング点からHaar特徴量と呼ばれる特徴量を取得し、これら複数のサンプリング点におけるHaar特徴量の組み合わせを注視点における特徴量とする。すなわち、注視点における特徴量は、複数のサンプリング点におけるHaar特徴量を要素とするベクトル量として取得される。なお、以下では個々のサンプリング点において取得される特徴量をHaar特徴量と呼び、注視点における特徴量(複数のHaar特徴量からなるベクトル量)をサンプリング特徴量と呼ぶ。
<Feature amount acquisition processing>
The feature amount acquisition process performed by the feature
[領域パターン]
まず、各サンプリング点において取得されるHaar特徴量について説明する。Haar特徴量は、そのサンプリング点周囲の2つの領域の輝度値の差として求められる。すなわち、サンプリング点の周囲に位置する第1の領域内の画素の輝度値の合計から、第2の領域内の画素の輝度値の合計を引いたものが、そのサンプリング点におけるHaar特徴量として算出される。
[Area pattern]
First, the Haar feature amount acquired at each sampling point will be described. The Haar feature amount is obtained as a difference between luminance values of two areas around the sampling point. That is, a value obtained by subtracting the sum of the luminance values of the pixels in the second region from the sum of the luminance values of the pixels in the first region located around the sampling point is calculated as the Haar feature amount at the sampling point. Is done.
サンプリング点におけるHaar特徴量抽出処理において使用される領域のパターンを図2に示す。図に示すように、第1の領域11と第2の領域12(以下、「第一特徴領域」「第二特徴領域」という)の組み合わせは種々のパターンを用いることができる。Haar特徴量は第一特徴領域内の輝度値の合計から第二特徴領域内の輝度値の合計を引いた
ものとして算出されるので、図2(a)(b)は、それぞれ横方向、縦方向の輝度変化に強く反応するパターンである。強く反応するとは、輝度値の差として算出されるHaar特徴量の値が大きいことを意味する。図2(c)(d)のパターンは横方向、縦方向の輝度変化であって特定の周波数を有するものに強く反応する。また、図2(e)は、斜め方向の線に対して強く反応する。また、図2(f)のは、中心が暗い特徴に強く反応するパターンである。
The pattern of the area | region used in the Haar feature-value extraction process in a sampling point is shown in FIG. As shown in the drawing, various patterns can be used for the combination of the
また、第一特徴領域および第二特徴領域は、図2(a)(b)のように単一の領域として定義される必要はなく、図2(c)(d)(e)に示すように複数の領域の集合として定義されてもよい。 Further, the first feature region and the second feature region do not need to be defined as a single region as shown in FIGS. 2A and 2B, but as shown in FIGS. 2C, 2D, and 2E. May be defined as a set of a plurality of regions.
このように、Haar特徴量は、第一特徴領域と第二特徴領域の組み合わせにより、多様な特徴を捉えることが可能である。領域の組み合わせ方により反応する輝度変化の方向性を変えることができ、各領域の大きさにより反応する輝度変化の周波数を変えることができる。特に、図2(c)(d)のパターンは、Gabor−Wavelet特徴量を横方向および縦方向のパターンについて簡略化したものとみなすことができ、Gabor−Wavelet特徴量に似た反応特性を有する。図2(c)(d)において、各領域の大きさを大きくすると低い周波数に反応する特徴量となり、各領域の大きさを小さくすると高い周波数に反応する特徴量となる。 Thus, the Haar feature amount can capture various features by combining the first feature region and the second feature region. The direction of the luminance change that reacts can be changed depending on the combination of regions, and the frequency of the luminance change that reacts can be changed depending on the size of each region. In particular, the patterns of FIGS. 2C and 2D can be regarded as a simplified version of the Gabor-Wavelet feature with respect to the horizontal and vertical patterns, and have reaction characteristics similar to those of the Gabor-Wavelet feature. . 2C and 2D, when the size of each region is increased, the feature amount responds to a low frequency, and when the size of each region is decreased, the feature amount responds to a high frequency.
また、第一特徴領域および第二特徴領域は矩形領域に限られず任意の形状を取ることができる。ただし、これらの領域を矩形とすることによって、高速に領域内の輝度値の合計を算出することができる。すなわち、図3(a)に示すように、画像内の全ての点に対して、原点(画像の左上とする)とその点を対角線とする矩形領域内の輝度値の合計をあらかじめ求めておく。点Aにおけるこの輝度値の合計をLAとすると、図3(b)に示す矩形領域ABCD内の輝度値の合計Lは数2のように表すことができ、高速に求めることが可能である。
Further, the first feature region and the second feature region are not limited to rectangular regions, and can take any shape. However, by making these areas rectangular, it is possible to calculate the sum of the luminance values in the areas at high speed. That is, as shown in FIG. 3A, for all points in the image, the total of the luminance values in the rectangular area having the origin (the upper left corner of the image) and the diagonal as the point is obtained in advance. . When the sum of the luminance value at the point A and L A, the sum L of the luminance values in the rectangular area ABCD shown in FIG. 3 (b) can be expressed as in
[レティナサンプリング]
次に、サンプリング点の配置について説明する。特徴量のサンプリングは、注視点周辺のレティナ構造に従ったサンプリング点から行われる。レティナ構造は、注視点の周囲に放射状に離散的に配置されたサンプリング点の構造のことである。具体例は図4に示すような配置である。図4において、黒丸が注視点であり、白丸はその周囲に配置されるサンプリング点である。なお、注視点からもHaar特徴量を取得し、注視点におけるサンプリング特徴量の算出に用いる。
[Retina sampling]
Next, the arrangement of sampling points will be described. The sampling of the feature amount is performed from sampling points according to the retina structure around the gazing point. The retina structure is a structure of sampling points arranged discretely and radially around the gazing point. A specific example is an arrangement as shown in FIG. In FIG. 4, a black circle is a gazing point, and a white circle is a sampling point arranged around the point. It should be noted that the Haar feature amount is acquired also from the gazing point, and is used to calculate the sampling feature amount at the gazing point.
サンプリング点の配置は、図4(a)のように注視点から離れるにしたがって疎になるような配置であっても良く、図4(b)のように注視点の周囲に等距離に配置されるものであっても良い。図4では、注視点を中心として点対称となるようにサンプリング点を配置しているが、このような対称な配置に限られるものではなく任意の配置を取ることができる。 The arrangement of the sampling points may be such that the sampling points become sparse as they move away from the gazing point as shown in FIG. 4 (a), and are arranged at equal distances around the gazing point as shown in FIG. 4 (b). It may be a thing. In FIG. 4, the sampling points are arranged so as to be point-symmetric with respect to the gazing point. However, the sampling points are not limited to such a symmetrical arrangement, and any arrangement can be taken.
このようなレティナ構造によるサンプリングを行うことにより、注視点周りの情報を、低次元で効率的にサンプリングすることが可能となる。 By performing sampling with such a retina structure, it is possible to efficiently sample information around the gazing point in a low dimension.
[特徴量取得]
各サンプリング点においては、異なるHaar特徴量を取得することができる。すなわち、あるサンプリング点に対して他のサンプリング点とは異なるHaar特徴量を用いることができる。Haar特徴量の組み合わせのパターンの具体例を図5に示す。図5(a)は、注視点とその周囲の6点をサンプリング点とし、全てのサンプリング点に同一のHaar特徴量を適用した例である。各サンプリング点(点a〜gとする)における、特徴領域間の輝度値の差をfi(i=a〜g)とすると、注視点におけるサンプリング特徴量pは、数3のように7次元のベクトルとして表されることになる。
[Feature acquisition]
At each sampling point, different Haar feature values can be acquired. That is, a Haar feature amount different from that of other sampling points can be used for a certain sampling point. A specific example of the pattern of combinations of Haar feature values is shown in FIG. FIG. 5A shows an example in which the gazing point and six surrounding points are set as sampling points, and the same Haar feature is applied to all sampling points. Assuming that the difference in luminance value between feature areas at each sampling point (points a to g) is f i (i = a to g), the sampling feature amount p at the point of gaze is 7 dimensions as shown in Equation 3. It will be expressed as a vector of
なお、図5(a)に示すような特徴領域のパターン(Haar特徴量の組み合わせ)では、横方向の輝度変化に強く反応するサンプリング特徴量を得ることができる。このサンプリング特徴量は、注視点付近の局所的な情報と、その周辺の大域的な情報をバランス良く取ることができる。 Note that with the feature region pattern (a combination of Haar feature values) as shown in FIG. 5A, it is possible to obtain sampling feature values that react strongly to luminance changes in the horizontal direction. This sampling feature amount can take a good balance between local information in the vicinity of the gazing point and global information in the vicinity.
また、図5(b)に示すような特徴領域のパターンでは、注視点が周囲より暗く、かつ、注視点付近では左側の方が明るいパターンに強く反応するサンプリング特徴量を取得することができる。このように、異なる特徴領域のパターンをサンプリング点に適用することで、対象物に適応した複雑なパターンの特徴量抽出が可能となる。 Further, in the feature region pattern as shown in FIG. 5B, it is possible to acquire a sampling feature amount in which the gazing point is darker than the surroundings and the left side is more responsive to the brighter pattern near the gazing point. In this way, by applying patterns of different feature areas to sampling points, it is possible to extract feature amounts of complex patterns adapted to the object.
また、図5(c)に示すように、注視点以外のサンプリング点における特徴領域を、注視点における特徴領域よりも小さくすることで、注視点付近において低周波成分に反応し、注視点周辺において高周波成分に反応するサンプリング特徴量を抽出することができる。このように、特徴領域の大きさを変えることにより、異なる周波数に同時に反応するサンプリング特徴量を取得することが可能となる。 Further, as shown in FIG. 5C, the feature region at the sampling point other than the gazing point is made smaller than the feature region at the gazing point, thereby reacting to a low frequency component in the vicinity of the gazing point, A sampling feature amount that reacts to a high-frequency component can be extracted. In this way, by changing the size of the feature region, it is possible to acquire sampling feature amounts that respond simultaneously to different frequencies.
このように、Haar特徴量とレティナサンプリングとを組み合わせ、それぞれのサンプリング点における特徴量域を適宜設計することにより、多様な特徴に反応するサンプリング特徴量を取得することが可能となる。なお、図5におけるサンプリング点は、いずれも注視点から等距離に存在している(すなわち図4(b)の構造)であるが、図4(a)に示すように注視点から異なる距離にサンプリング点が配置されても良い。 As described above, by combining the Haar feature amount and the retina sampling and appropriately designing the feature amount region at each sampling point, it is possible to acquire the sampling feature amount that reacts to various features. The sampling points in FIG. 5 are all equidistant from the gazing point (that is, the structure of FIG. 4B), but as shown in FIG. 4A, they are at different distances from the gazing point. Sampling points may be arranged.
[特徴量取得処理の流れ]
上記で説明した特徴量取得処理の動作例を、図6のフローチャートを参照して説明する。まず、画像入力部2を介して画像を取得する(S10)。次に、特徴量取得部4は、入力画像から積分画像を作成する(S11)。積分画像とは、入力画像内の各点について、原点とその点とを結ぶ直線を対角線とする矩形領域内の画素値の合計を求めたものである。次に、注視点の周りに、レティナ構造に従ったサンプリング点を配置し(S12)、これらのサンプリング点からHaar特徴量を取得する(S13)。なお、Haar特徴量の取得は、S12で作成した積分画像を利用することにより求める。このようにして求めたサンプリング点ごとのHaar特徴量をベクトル化して、注視点のおける特徴量が取得できる(S14)。
[Flow of feature acquisition processing]
An operation example of the feature amount acquisition process described above will be described with reference to the flowchart of FIG. First, an image is acquired via the image input unit 2 (S10). Next, the feature
<学習処理>
次に、画像から目を検出するために必要となる学習処理について、図7のフローチャートを参照して説明する。この学習処理は、識別部5によって顔画像から目を検出するためにあらかじめ実施しておく必要のある処理である。
<Learning process>
Next, a learning process necessary for detecting an eye from an image will be described with reference to a flowchart of FIG. This learning process is a process that needs to be performed in advance in order for the
学習処理では、まず、複数の学習用顔画像を用意し、顔画像における目の位置(座標)を定める。そして、この顔画像を読み込む(S20)。顔画像における目の位置は、学習精度を高めるためにも、人間によって決定されることが好ましい。なお、顔画像と目の位置の組み合わせを正解データと呼び、正解データにおける目の位置を正解点と呼ぶ。 In the learning process, first, a plurality of learning face images are prepared, and eye positions (coordinates) in the face image are determined. Then, this face image is read (S20). It is preferable that the position of the eye in the face image is determined by a human in order to improve learning accuracy. The combination of the face image and the eye position is called correct answer data, and the eye position in the correct data is called a correct answer point.
次に、顔画像の正規化を行う(S21)。すなわち、顔の大きさと角度に応じて、顔画像の大きさと傾きを正規化する。たとえば、顔の幅(ピクセル幅)が所定の大きさになり、両目を結ぶ直線が水平になるように画像を変換する。さらに、画像の輝度値の正規化を行うことも望ましい。輝度値の正規化は、たとえば、輝度の平均が0、分散が1になるように輝度値の補正が行われることが望ましい。 Next, normalization of the face image is performed (S21). That is, the size and inclination of the face image are normalized according to the size and angle of the face. For example, the image is converted so that the face width (pixel width) becomes a predetermined size and a straight line connecting both eyes becomes horizontal. It is also desirable to normalize the luminance value of the image. For normalization of the luminance value, for example, it is desirable to correct the luminance value so that the average luminance is 0 and the variance is 1.
次に、顔画像における正解点を注視点として、上記で説明したサンプリング特徴量を取得し(S22)。取得したこれらのサンプリング特徴量を正解学習データセットに追加する(S23)。正解学習データセットをPとすると、Pは数4のように表される。
Next, the sampling feature amount described above is acquired with the correct point in the face image as the gazing point (S22). These acquired sampling feature values are added to the correct learning data set (S23). Assuming that the correct answer learning data set is P, P is expressed as in
なお、piは、正解データごとのサンプリング特徴量を表し、Npは正解データの数を表す。また、fpiは、個々のサンプリング点におけるHaar特徴量であり、Rはサンプリング点の数を表す。 P i represents the sampling feature amount for each correct data, and N p represents the number of correct data. Further, fp i is a Haar feature amount at each sampling point, and R represents the number of sampling points.
顔画像から、正解点以外の座標を注視点とした際の特徴量についても、同様にサンプリング(S24)して保存し(S25)、これを失敗学習データセットとする。失敗学習データセットをNとすると、Nは数5のように表される。 Similarly, the feature amount when the coordinates other than the correct answer point are set as the gazing point from the face image is sampled (S24) and stored (S25), and this is set as a failure learning data set. Assuming that the failure learning data set is N, N is expressed as follows.
なお、niは、失敗データごとのサンプリング特徴量を表し、Nnは失敗データの数を表す。また、fniは、個々のサンプリング点におけるHaar特徴量であり、Rはサンプリング点の数を表す。 Note that n i represents the sampling feature amount for each failed data, and N n represents the number of failed data. Also, fn i is the Haar feature quantity at each sampling point, R represents the number of sampling points.
用意したすべての学習用顔画像についてサンプリング特徴量の取得が終了したか判定し(S26)、まだ学習用画像が残っている場合(S26−NO)には、上記の処理を繰り返す。すべての学習用画像についてサンプリング特徴量の取得が完了した場合(S26−YES)には、S27に進む。 It is determined whether or not the acquisition of the sampling feature amount has been completed for all the prepared learning face images (S26), and when the learning images still remain (S26-NO), the above processing is repeated. If the acquisition of the sampling feature amount is completed for all the learning images (S26-YES), the process proceeds to S27.
このようにして得られた、正解学習用データセットPおよび失敗学習用データセットNを用いて識別器の学習を行う(S27)。たとえば、線形識別関数を用いる場合には、以下のようにしてその学習を行う。 The discriminator is trained using the correct learning data set P and failure learning data set N obtained in this way (S27). For example, when a linear discriminant function is used, the learning is performed as follows.
まず、学習データセットの平均、分散を求める。正解学習データセットの平均・分散をそれぞれ、mp,Spとし、失敗学習データセットの平均・分散をmn,Snとすると、これらは数6のように表される。 First, the average and variance of the learning data set are obtained. Each mean and dispersion of the correct training dataset, m p, and S p, the average and dispersion failure training dataset m n, when the S n, which are expressed as number 6.
これらの統計値を用いて、識別関数g(x)は以下の数7のように定まる。 Using these statistical values, the discriminant function g (x) is determined as shown in Equation 7 below.
なお、kp,knは任意の定数であり、たとえば、kp=kn=1と設定しても良い。また、wについて定数倍した識別関数も元の識別関数と同一のものとみなすことができるので、たとえば、|w|=1であり、g(mp)>0、g(mn)<0となるものを選ぶと良い。 Incidentally, k p, k n is an arbitrary constant, for example, may be set as k p = k n = 1. Further, since the discriminant function obtained by multiplying w by a constant can be regarded as the same as the original discriminant function, for example, | w | = 1, g (m p )> 0, g (m n ) <0. It is good to choose what becomes.
学習処理はこの他にも、SVM等の任意の線形・非線型識別関数によっても可能である。 In addition to this, the learning process can be performed by an arbitrary linear / nonlinear discriminant function such as SVM.
<検出処理>
次に、識別部5が行う、入力された画像(以下、入力画像と呼ぶ)から目の位置を検出する処理について、図8のフローチャートを参照して説明する。識別部5は、上記の学習処理によって得られた識別関数を用いて、以下の検出処理を行う。
<Detection process>
Next, processing for detecting the position of the eye from the input image (hereinafter referred to as input image) performed by the
まず、画像入力部2から入力画像を取得する(S30)。そして、目の位置を検出するための前処理として、顔検出部3が入力画像から顔の位置を検出する(S31)。顔の検出には、パターンマッチングなどの既存のいかなる技術が適用されても良い。 First, an input image is acquired from the image input unit 2 (S30). Then, as preprocessing for detecting the eye position, the face detection unit 3 detects the face position from the input image (S31). Any existing technique such as pattern matching may be applied to face detection.
そして、学習処理と同様の画像の正規化を行う(S32)。たとえば、顔の幅(ピクセル幅)が所定の大きさになり、両目を結ぶ直線が水平になるように入力画像を変換し、輝度値が平均0、分散1となるように正規化する。 Then, image normalization similar to the learning process is performed (S32). For example, the input image is converted so that the face width (pixel width) becomes a predetermined size, and the straight line connecting both eyes becomes horizontal, and normalization is performed so that the average luminance value is 0 and the variance is 1.
正規化された入力画像から特徴量を取得する注視点を決定する(S33)。次に、特徴量取得部4は、決定された注視点について、上記で説明した特徴量取得処理を実施する(S34)。識別部5は、取得した特徴量を識別関数g(x)に代入し(S35)、その出力が正となるか判定する(S36)。g(x)>0であれば(S36−YES)、その注視点を目の位置として出力する(S37)。g(x)<0であれば(S36−NO)、画像全体を走査したか判定し(S38)、すべて走査していない場合(S38−NO)には次の点について走査を行い、走査が完了している場合(S38−YES)には画像から目が検出されなかったことになる。
A gaze point for acquiring a feature value from the normalized input image is determined (S33). Next, the feature
上記の説明では、走査点のうち初めて識別器出力が正となる点を目の位置として検出しているが、全ての点について識別器出力を求め、最大値が得られた位置を目の位置として検出しても良い。 In the above description, the point where the discriminator output is positive for the first time among the scanning points is detected as the eye position, but the discriminator output is obtained for all points, and the position where the maximum value is obtained is the eye position. May be detected as
<実施形態の効果>
上記のように、本実施形態ではHaar特徴量とレティナサンプリングとを組み合わせて特徴量を取得して、目の位置を検出している。Haar特徴量を用いているため高速な処理で特徴量を取得できるとともに、レティナサンプリングによって注視点のみならずその周囲の情報も効率的に取得できる。また、Haar特徴量の組み合わせを適宜設計することで、多様な特徴量を取得することができるため、目の検出に適した特徴領域のパターンを用いることで精度の良い目検出を行うことができる。
<Effect of embodiment>
As described above, in the present embodiment, the eye position is detected by acquiring the feature amount by combining the Haar feature amount and the retina sampling. Since the Haar feature value is used, the feature value can be acquired by high-speed processing, and not only the gaze point but also the surrounding information can be efficiently acquired by the retina sampling. In addition, since various feature quantities can be acquired by appropriately designing combinations of Haar feature quantities, accurate eye detection can be performed by using feature area patterns suitable for eye detection. .
<変形例>
本発明による特徴量取得装置は、顔画像から目以外の特徴点(口や耳や、顔全体)を検出するために用いられても良い。また、特徴点検出のためではなく、顔照合や顔認識のために用いられても良い。また、顔以外にも人の全体(全身)やレントゲン画像やCT画像における臓器などを対象として行う検出・照合処理に用いられても良い。さらに、検出・照合処理以外にも、特定の画像に類似する画像を検索する処理、画像を所定の基準に従って分類する処理など、どのような画像処理に用いられても良い。すなわち、本発明に係る特徴量取得装置は、画像の特徴量が必要となるどのような処理のためにも用いることができる。
<Modification>
The feature amount acquisition apparatus according to the present invention may be used to detect feature points (mouth, ears, or entire face) other than eyes from a face image. Further, it may be used not for feature point detection but for face matching and face recognition. In addition to the face, it may be used for detection / collation processing performed on the whole person (whole body), an X-ray image, or an organ in a CT image. Further, in addition to the detection / collation processing, the image processing may be used for any image processing such as processing for searching for an image similar to a specific image and processing for classifying an image according to a predetermined standard. That is, the feature quantity acquisition device according to the present invention can be used for any processing that requires a feature quantity of an image.
1 特徴点検出装置
2 画像入力部
3 顔検出部
4 特徴量取得部
5 識別部
DESCRIPTION OF
Claims (6)
注視点を基準に離散的に配置された複数のサンプリング点のそれぞれから、各サンプリング点に対して定められた第1の領域と第2の領域の画素値の差を取得し、これら複数のサンプリング点における画素値の差を前記注視点における特徴量として取得する、
ことを特徴とする特徴量取得装置。 A feature amount acquisition device that acquires a feature amount at a gazing point from an input image,
The difference between the pixel values of the first region and the second region determined for each sampling point is obtained from each of the plurality of sampling points discretely arranged with reference to the gazing point, and the plurality of sampling points are obtained. A pixel value difference at a point is acquired as a feature amount at the gazing point;
The feature-value acquisition apparatus characterized by the above-mentioned.
情報処理装置が、
注視点を基準に離散的に配置された複数のサンプリング点のそれぞれから、各サンプリング点に対して定められた第1の領域と第2の領域の画素値の差を取得し、
これら複数のサンプリング点における画素値の差を、前記注視点における特徴量として取得する、
ことを特徴とする特徴量取得方法。 A feature amount acquisition method for acquiring a feature amount at a gazing point from an input image,
Information processing device
From each of a plurality of sampling points discretely arranged with reference to the gazing point, a difference between the pixel values of the first region and the second region determined for each sampling point is acquired,
A difference between pixel values at the plurality of sampling points is acquired as a feature amount at the gazing point.
A feature amount acquisition method characterized by that.
情報処理装置に、
注視点を基準に離散的に配置された複数のサンプリング点のそれぞれから、各サンプリング点に対して定められた第1の領域と第2の領域の画素値の差を取得させ、
これら複数のサンプリング点における画素値の差を、前記注視点における特徴量として取得させる、
ことを特徴とする特徴量取得プログラム。 A feature amount acquisition program for acquiring a feature amount at a gazing point from an input image,
In the information processing device,
From each of a plurality of sampling points discretely arranged with reference to the gazing point, a difference between pixel values of the first region and the second region determined for each sampling point is acquired,
The difference between the pixel values at the plurality of sampling points is acquired as the feature amount at the gazing point.
A feature amount acquisition program characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006118161A JP2007293438A (en) | 2006-04-21 | 2006-04-21 | Device for acquiring characteristic quantity |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006118161A JP2007293438A (en) | 2006-04-21 | 2006-04-21 | Device for acquiring characteristic quantity |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007293438A true JP2007293438A (en) | 2007-11-08 |
Family
ID=38764032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006118161A Pending JP2007293438A (en) | 2006-04-21 | 2006-04-21 | Device for acquiring characteristic quantity |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007293438A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090220155A1 (en) * | 2008-02-29 | 2009-09-03 | Canon Kabushiki Kaisha | Image processing method, pattern detection method, pattern recognition method, and image processing device |
WO2010084714A1 (en) * | 2009-01-23 | 2010-07-29 | 日本電気株式会社 | Image identifier extracting apparatus |
WO2010103849A1 (en) * | 2009-03-13 | 2010-09-16 | 日本電気株式会社 | Image identifier extraction device |
WO2010103850A1 (en) * | 2009-03-13 | 2010-09-16 | 日本電気株式会社 | Image identifier extraction device |
WO2010119657A1 (en) * | 2009-04-14 | 2010-10-21 | 日本電気株式会社 | Image identifier extraction device |
WO2010146786A1 (en) * | 2009-06-16 | 2010-12-23 | 日本電気株式会社 | Image identifier matching device |
CN102349091A (en) * | 2009-03-13 | 2012-02-08 | 日本电气株式会社 | Image identifier matching device |
JP2018535492A (en) * | 2016-06-24 | 2018-11-29 | 平安科技(深▲せん▼)有限公司 | License plate classification method, system, electronic apparatus and storage medium based on deep learning |
JP2020197795A (en) * | 2019-05-31 | 2020-12-10 | キヤノンマーケティングジャパン株式会社 | Information processing device, information processing method, and program |
CN113283430A (en) * | 2021-07-23 | 2021-08-20 | 深圳市赛菲姆科技有限公司 | Target detection method and device, electronic equipment and computer readable storage medium |
-
2006
- 2006-04-21 JP JP2006118161A patent/JP2007293438A/en active Pending
Non-Patent Citations (2)
Title |
---|
JPN6010061785, F.Smeraldi, "Facial feature detection by Saccadic Exploration of the Gabor Decomposition", Proceedings of the 1998 International Conference on Image Processing, 19981004, vol.3,, pages 163−167, US * |
JPN6010061786, Paul Viola, "Rapid Object Detection using a Boosted Cascade of Simple Features", Computer Vision and Pattern Recognition, 200112, vol.1, pp.511−518 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8447076B2 (en) | 2008-02-29 | 2013-05-21 | Canon Kabushiki Kaisha | Image processing method, pattern detection method, pattern recognition method, and image processing device |
JP2009211179A (en) * | 2008-02-29 | 2009-09-17 | Canon Inc | Image processing method, pattern detection method, pattern recognition method, and image processing device |
US20090220155A1 (en) * | 2008-02-29 | 2009-09-03 | Canon Kabushiki Kaisha | Image processing method, pattern detection method, pattern recognition method, and image processing device |
CN102292745A (en) * | 2009-01-23 | 2011-12-21 | 日本电气株式会社 | image signature extraction device |
US9042656B2 (en) | 2009-01-23 | 2015-05-26 | Nec Corporation | Image signature extraction device |
JP5045817B2 (en) * | 2009-01-23 | 2012-10-10 | 日本電気株式会社 | Image identifier extraction device |
WO2010084714A1 (en) * | 2009-01-23 | 2010-07-29 | 日本電気株式会社 | Image identifier extracting apparatus |
WO2010103850A1 (en) * | 2009-03-13 | 2010-09-16 | 日本電気株式会社 | Image identifier extraction device |
US10133956B2 (en) | 2009-03-13 | 2018-11-20 | Nec Corporation | Image signature extraction device |
KR101411127B1 (en) | 2009-03-13 | 2014-06-25 | 닛본 덴끼 가부시끼가이샤 | Image identifier extraction device |
CN102349091A (en) * | 2009-03-13 | 2012-02-08 | 日本电气株式会社 | Image identifier matching device |
CN102349093A (en) * | 2009-03-13 | 2012-02-08 | 日本电气株式会社 | Image identifier extraction device |
US8744193B2 (en) | 2009-03-13 | 2014-06-03 | Nec Corporation | Image signature extraction device |
WO2010103849A1 (en) * | 2009-03-13 | 2010-09-16 | 日本電気株式会社 | Image identifier extraction device |
JP4935960B2 (en) * | 2009-03-13 | 2012-05-23 | 日本電気株式会社 | Image identifier extraction device |
JP5045845B2 (en) * | 2009-03-13 | 2012-10-10 | 日本電気株式会社 | Image identifier extraction device |
JP2012099159A (en) * | 2009-04-14 | 2012-05-24 | Nec Corp | Image identifier extraction device |
WO2010119657A1 (en) * | 2009-04-14 | 2010-10-21 | 日本電気株式会社 | Image identifier extraction device |
JP2012123832A (en) * | 2009-04-14 | 2012-06-28 | Nec Corp | Image identifier extraction device |
JP2012099158A (en) * | 2009-04-14 | 2012-05-24 | Nec Corp | Image identifier extraction device |
JP2012099160A (en) * | 2009-04-14 | 2012-05-24 | Nec Corp | Image identifier extraction device |
JP4935961B2 (en) * | 2009-04-14 | 2012-05-23 | 日本電気株式会社 | Image identifier extraction device |
CN102395998A (en) * | 2009-04-14 | 2012-03-28 | 日本电气株式会社 | Image identifier extraction device |
US8861871B2 (en) | 2009-04-14 | 2014-10-14 | Nec Corporation | Image signature extraction device |
JP4735786B2 (en) * | 2009-06-16 | 2011-07-27 | 日本電気株式会社 | Image identifier verification device |
WO2010146786A1 (en) * | 2009-06-16 | 2010-12-23 | 日本電気株式会社 | Image identifier matching device |
US8200021B2 (en) | 2009-06-16 | 2012-06-12 | Nec Corporation | Image signature matching device |
JP2018535492A (en) * | 2016-06-24 | 2018-11-29 | 平安科技(深▲せん▼)有限公司 | License plate classification method, system, electronic apparatus and storage medium based on deep learning |
US10528841B2 (en) | 2016-06-24 | 2020-01-07 | Ping An Technology (Shenzhen) Co., Ltd. | Method, system, electronic device, and medium for classifying license plates based on deep learning |
JP2020197795A (en) * | 2019-05-31 | 2020-12-10 | キヤノンマーケティングジャパン株式会社 | Information processing device, information processing method, and program |
CN113283430A (en) * | 2021-07-23 | 2021-08-20 | 深圳市赛菲姆科技有限公司 | Target detection method and device, electronic equipment and computer readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11188734B2 (en) | Systems and methods for performing fingerprint based user authentication using imagery captured using mobile devices | |
JP2007293438A (en) | Device for acquiring characteristic quantity | |
US20220215686A1 (en) | Systems and methods for performing fingerprint based user authentication using imagery captured using mobile devices | |
US10339362B2 (en) | Systems and methods for performing fingerprint based user authentication using imagery captured using mobile devices | |
KR102299847B1 (en) | Face verifying method and apparatus | |
JP7242528B2 (en) | Systems and methods for performing fingerprint user authentication using images captured using mobile devices | |
US7912253B2 (en) | Object recognition method and apparatus therefor | |
US9536293B2 (en) | Image assessment using deep convolutional neural networks | |
US9953425B2 (en) | Learning image categorization using related attributes | |
US8401250B2 (en) | Detecting objects of interest in still images | |
WO2017190646A1 (en) | Facial image processing method and apparatus and storage medium | |
CN104077579B (en) | Facial expression recognition method based on expert system | |
US20060284837A1 (en) | Hand shape recognition apparatus and method | |
CN107798279B (en) | Face living body detection method and device | |
JP2010108494A (en) | Method and system for determining characteristic of face within image | |
US7831068B2 (en) | Image processing apparatus and method for detecting an object in an image with a determining step using combination of neighborhoods of a first and second region | |
RU2768797C1 (en) | Method and system for determining synthetically modified face images on video | |
Zhao et al. | Applying contrast-limited adaptive histogram equalization and integral projection for facial feature enhancement and detection | |
JP7190987B2 (en) | Information processing system and information processing method | |
JP2005266981A (en) | Race estimation device | |
JP2006323779A (en) | Image processing method and device | |
KR20210050649A (en) | Face verifying method of mobile device | |
Sumathi et al. | An Approach Of Dismissal Of Noise In Face Recognition Using Convolution Neural Network (CNN) | |
CN116168428A (en) | Face image living body detection method, device, computer equipment and storage medium | |
JP2007025899A (en) | Image processor and image processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101102 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110315 |