JP5323243B2

JP5323243B2 - 画像処理装置及びその制御方法

Info

Publication number: JP5323243B2
Application number: JP2012222509A
Authority: JP
Inventors: 康嘉宮▲崎▼
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-10-04
Filing date: 2012-10-04
Publication date: 2013-10-23
Anticipated expiration: 2028-08-21
Also published as: JP2013042524A

Description

本発明は、画像処理装置及びその制御方法に関し、特には被写体検出機能を有する画像処理装置及びその制御方法に関する。

デジタルカメラやビデオカメラのような、光電変換素子を用いた撮像装置においては、画像処理技術を用いて撮像画像から被写体を検出することが可能である。そのため、検出された被写体に焦点を合わせる自動焦点制御（ＡＦ）や、検出された被写体が適正露出となるような自動露出制御（ＡＥ）を行う撮像装置も実現されている。

例えば、撮像素子が有する表示装置を電子ビューファインダ（ＥＶＦ）として機能させるために連続的に撮像されるＥＶＦ画像（ライブ画像、スルー画像、ライブビュー画像などとも呼ばれる）において、継続的に被写体検出を行う場合を考える。この場合、例えば、顔検出のような画像認識技術を用いて個々の画像から被写体として検出する方法（特許文献１参照）や、被写体領域として指定された領域の動きを検出（追尾）する方法（特許文献２参照）を用いることが可能である。

顔検出は目や口など顔の特徴を画像から抽出し、顔であるか判別することによって、個々の画像から被写体を検出する。一方、被写体領域を追尾する方法は、あるフレーム画像で選択された被写体領域と相関の高い領域を別のフレーム画像から探索することによって、個々の画像から被写体を検出する。以下、本明細書においては、便宜上、顔検出のような画像認識を用いた被写体の検出を「顔検出」、被写体領域の動き検出に基づく被写体の検出を「動体検出」と呼ぶ。しかしながら、この呼び名には、被写体を人間の顔に限定する意図を含まない点に留意されたい。

特開２００７−２７４５８７号公報特開２００１−２４３４７８号公報

顔検出は顔を構成する複数の部位をそれぞれ認識する必要があるため、被写体の検出精度は高いが、演算が複雑で処理に時間を要するため、被写体の検出速度（追従性）において動体検出に劣る。これに対し、動体検出は、複数のフレーム画像間の差分演算によって被写体を検出するため、顔検出よりも高速に実行できるが、被写体の輝度が変化した場合に検出が困難になるなど、検出精度において顔検出に劣る。
このように、従来の被写体領域の追尾方法では、被写体の検出精度を優先すれば検出速度が低下し、検出速度を優先すれば検出精度が低下してしまう。

本発明はこのような従来技術の課題に鑑みてなされたものであり、被写体領域を適切に追尾可能な画像処理装置及びその制御方法の実現を目的とする。

上記課題を解決するため、本願発明に係る画像処理装置は、動画像のフレームの画像から予め定めた特徴となる部位を検出することで、フレームの画像に存在する予め定めた被写体を検出する第１の検出手段と、フレームの画像間で類似する領域を探索することで、動画像において、第１の検出手段によって検出された予め定めた被写体が存在する領域を追尾する第２の検出手段と、第１の検出手段による検出結果と第２の検出手段による検出結果の少なくともいずれかに基づいて、動画像における予め定めた被写体が存在する領域を決定する決定手段とを有し、決定手段は、予め定めた条件を満たす場合には、第２の検出手段による検出結果によらずに第１の検出手段による検出結果に基づいて、予め定めた被写体が存在する領域を決定し、予め定めた条件を満たさない場合には、第１の検出手段による検出結果および第２の検出手段による検出結果に基づいて、予め定めた被写体が存在する領域を決定するものであって、予め定めた条件は、動画像に適用されるゲイン調整量が予め定めた閾値を超えている、および、１フレームの画像に対する露光時間が予め定めた閾値より長い、ことの少なくともいずれかを含むことを特徴とするものである。

同様に、上記課題を解決するため、本願発明に係る画像処理装置の制御方法は、第１の検出手段が、動画像のフレームの画像から予め定めた特徴となる部位を検出することで、フレームの画像に存在する予め定めた被写体を検出する第１の検出工程と、第２の検出手段が、フレームの画像間で類似する領域を探索することで、動画像において、第１の検出工程において検出された予め定めた被写体が存在する領域を追尾する第２の検出工程と、決定手段が、第１の検出工程における検出結果と第２の検出工程における検出結果の少なくともいずれかに基づいて、動画像における予め定めた被写体が存在する領域を決定する決定工程とを有し、決定工程において決定手段は、予め定めた条件を満たす場合には、第２の検出工程における検出結果によらずに第１の検出工程における検出結果に基づいて、予め定めた被写体が存在する領域を決定し、予め定めた条件を満たさない場合には、第１の検出工程における検出結果および第２の検出工程における検出結果に基づいて、予め定めた被写体が存在する領域を決定するものであって、予め定めた条件は、動画像に適用されるゲイン調整量が予め定めた閾値を超えている、および、１フレームの画像に対する露光時間が予め定めた閾値より長い、ことの少なくともいずれかを含むことを特徴とするものである。

このような構成により、本発明によれば、被写体領域を適切に追尾可能な画像処理装置及びその制御方法を実現できる

本発明の第１の実施形態に係る画像処理装置の一例としてのデジタルカメラの機能構成例を示すブロック図である。本発明の第１の実施形態に係るデジタルカメラにおける被写体検出動作を示すフローチャートである。感度による画質の変化と、画質の変化が動体検出の精度に与える影響を模式的に示す図である。本発明の第１の実施形態に係るデジタルカメラにおける枠表示の例を模式的に示す図である。本発明の第２の実施形態に係るデジタルカメラにおける被写体検出動作を示すフローチャートである。シャッタースピードが遅い場合の動体検出の問題点を模式的に説明するための図である。本発明の第２の実施形態の効果を模式的に示す図である。

以下、添付図面を参照して、本発明の好適かつ例示的な実施形態を詳細に説明する。
＜第１の実施形態＞
本発明の第１の実施形態に係る画像処理装置は、まず顔検出により精度良く被写体領域を検出し、検出された被写体領域を用いた動体検出を行うことで、被写体の検出精度と検出速度（追従性）を両立させることを可能とするものである。

図１は、本発明の第１の実施形態に係る画像処理装置の一例としてのデジタルカメラの機能構成例を示すブロック図である。
（デジタルカメラの構成）
操作部１０１は、デジタルカメラ１００のユーザがデジタルカメラ１００に対して各種の指示を入力するためのユーザインタフェースであり、スイッチやボタンなどの入力デバイスにより構成されている。

操作部１０１にはシャッタースイッチが含まれる。そして、シャッタースイッチの半押し状態で信号ＳＷ１が、全押し状態で信号ＳＷ２がそれぞれ制御部１０２に対して通知される。

制御部１０２は、操作部１０１からの指示に応じてデジタルカメラ１００の各部の動作を制御し、デジタルカメラ１００の機能を実現する。制御部１０２は例えばＣＰＵと、ＣＰＵが実行するプログラムを記憶する不揮発性メモリと、プログラムを読み込んだりワークエリアとして用いたりするためのＲＡＭから構成される。

制御部１０２は、後述する画像処理部１０５が出力するデジタル画像データから被写体輝度を算出し、撮影モードに応じてシャッタースピード及び絞りの少なくとも一方を自動的に決定する自動露出制御（ＡＥ）機能を実現する。また、制御部１０２は、設定感度に応じたゲイン調整量をＡ／Ｄ変換部１０４へ通知する。設定感度は、ユーザが設定した固定感度であってもよいし、制御部１０２がＡＥ処理の結果に基づいて動的に設定した感度であってもよい。また、制御部１０２は、フラッシュ設定や自動決定したシャッタースピードなどに応じ、本撮影時のフラッシュ部１１１の発光要否を決定する。フラッシュの発光を決定した場合、制御部１０２は、ＥＦ処理部１１０に、フラッシュオンを指示する。ＥＦ処理部１１０は、制御部１０２からフラッシュオンの指示を受けると、フラッシュ部１１１を制御し、露出機構１０９が有するシャッターが開くタイミングに応じてフラッシュ部１１１を発光させる。

さらに制御部１０２は、レンズ駆動部１０８を用いてレンズ１０８ａのフォーカスレンズを駆動させ、画像処理部１０５が出力するデジタル画像データのコントラストの変化を検出することで、自動合焦制御機能を実現する。

撮像素子１０３は、ＣＣＤイメージセンサ、ＣＭＯＳイメージセンサなどの光電変換デバイスであり、レンズ１０８ａ、露出機構１０９ａを介して結像される被写体光学像を画素単位のアナログ電気信号（アナログ画像データ）に変換する。

レンズ１０８ａはＡＦ機能を有し、後述するレンズ駆動部１０８からの制御に従ってフォーカスレンズを駆動する。露出機構１０９ａは絞り及びメカニカルシャッターを有し、後述するメカ駆動部１０９の制御に従った絞りとシャッタースピードでレンズ１０８ａと撮像素子１０３の間の光路を開くことにより、被写体光学像で撮像素子１０３を露光させる。

Ａ／Ｄ変換部１０４は、撮像素子１０３から出力されたアナログ画像データに対して、相関二重サンプリング、ゲイン調整、Ａ／Ｄ変換等を行い、デジタル画像データとして出力する。適用するゲイン調整量（増幅率）は、制御部１０２から与えられる。ゲインが大きければ、結果として、画像中に含まれるノイズ成分も大きくなる。

画像処理部１０５は、Ａ／Ｄ変換部１０４から出力されたデジタル画像データに対してホワイトバランス補正、画素補間処理、ガンマ補正処理、色差信号生成などの画像処理を行い、例えばＹＵＶ画像データを処理済みのデジタル画像データとして出力する。

顔検出部１０６は、画像認識により被写体検出を行う第１の被写体検出手段として機能する。顔検出部１０６は、Ａ／Ｄ変換部１０４が出力するデジタル画像データの画像から、被写体の一例としての人間の顔を検出する。そして、顔検出部１０６は、検出した顔の位置や範囲（大きさ）、信頼度（顔としての確からしさ）など、顔領域に係る情報（顔情報）を制御部１０２及び動体検出部１１５に通知する。顔の位置としては、顔領域の中心座標であってよい。

なお、本実施形態における顔検出には、公知の顔検出技術を利用できる。公知の顔検出技術としては、ニューラルネットワークなどを利用した学習に基づく手法、テンプレートマッチングを用いて目、鼻、口等の形状に特徴のある部位を画像から探し出し、類似度が高ければ顔とみなす手法などがある。また、他にも、肌の色や目の形といった画像特徴量を検出し、統計的解析を用いた手法等、多数提案されている。一般的にはこれらの手法を複数組み合わせ、顔検出の精度を向上させている。具体的な例としては特開２００２−２５１３８０号公報に記載のウェーブレット変換と画像特徴量を利用して顔検出する方法などが挙げられる。

動体検出部１１５は、動体検出により被写体検出を行う第２の被写体検出手段として機能する。動体検出部１１５は、画像処理部１０５が出力する、時系列上で連続する２枚分のデジタル画像データの画像から動体を判別し、その位置、範囲、移動量を算出する。本実施形態の動体検出部１１５は角速度センサ（図示せず）を備え、デジタルカメラ１００の動きも検出する。なお、顔検出部１０６で検出された顔情報を用いることで、動体検出部１１５は背景の動きと被写体の動きを区別することが可能であり、背景と被写体のそれぞれについて動体情報（位置、範囲、移動量）を算出する。

ＥＶＦ表示部１０７は、ＬＣＤなどの表示装置を含み、画像処理部１０５による処理済みのデジタル画像データに基づく画像を表示する。

フォーマット変換部１１２は、画像処理部１０５から出力されたデジタル画像データから、例えばＤＣＦ(Design fule for Camera File System)に準拠した記録用のデータファイルを生成する。フォーマット変換部１１２は、データファイル生成の過程で、ＪＰＥＧ形式への符号化や、ファイルヘッダの生成などを行う。

画像記録部１１３は、フォーマット変換部１１２が生成したデータファイルを、デジタルカメラ１００の内蔵メモリや、デジタルカメラ１００に装着されているリムーバブルメディアなどに記録する。

外部接続部１１４は、デジタルカメラ１００をＰＣ（パーソナルコンピュータ）やプリンタといった外部装置に接続するためのインターフェースである。外部接続部１１４は、例えばＵＳＢ、ＩＥＥＥ１３９４、ＩＥＥＥ８０２．１１などの一般的な規格に準拠して、外部装置との通信を行う。

（動作の説明）
次に、本実施形態のデジタルカメラ１００の動作について説明する。
先ず、デジタルカメラ１００のユーザが、操作部１０１に含まれている電源スイッチをオンにすると、制御部１０２はこれを検知し、デジタルカメラ１００を構成する各部に図示しない電池やＡＣ入力から電源を供給する。

本実施形態のデジタルカメラ１００は、電源が供給されるとＥＶＦ表示動作を開始するように構成されている。具体的には、露出機構１０９ａが有するメカニカルシャッターが開き、撮像素子１０３が露光される。撮像素子１０３の各画素で蓄積した電荷を、予め定められたフレームレートを実現する周期で順次読み出し、Ａ／Ｄ変換部１０４にアナログ画像データとして出力する。このように、本実施形態では、ＥＶＦ表示用の画像を、所謂電子シャッターを用いて連続して撮像することにより取得する。

Ａ／Ｄ変換部１０４は、撮像素子１０３から出力されたアナログ画像データに対して、相関二重サンプリング、ゲイン調整、Ａ／Ｄ変換等を行い、デジタル画像データとして出力する。

顔検出部１０６は、Ａ／Ｄ変換部１０４が出力するデジタル画像データの画像から、画像認識によって人間の顔を検出し、検出した顔の位置や範囲、信頼度（顔としての確からしさ）など、顔領域に係る情報（顔情報）を制御部１０２に通知する。

動体検出部１１５は、画像処理部１０５が出力する、時系列上で連続する複数のデジタル画像データの画像から動体を検出し、その位置、範囲、移動量を算出する。なお、３枚以上の連続する画像に対して動体検出を行う場合、動体検出部１１５は、最初の２枚に対して行った検出結果を用いて、次の２枚以降についても順次検出を継続する。さらに、動体検出部１１５は角速度センサにより、デジタルカメラ１００の動きも検出する。

制御部１０２は、Ａ／Ｄ変換部１０４に通知するゲイン調整量を決定する。また制御部１０２は、ゲイン調整量に応じて、顔検出部１０６による被写体検出結果のみを用いて被写体領域を決定するか、動体検出部１１５による被写体検出結果も用いて被写体領域を決定するかを切り替える。切り替え制御の詳細については後述する。

画像処理部１０５は、Ａ／Ｄ変換部１０４から出力されたデジタル画像データに対して各種画像処理を行い、処理済みのデジタル画像データを出力する。
また、ＥＶＦ表示部１０７は、画像処理部１０５が出力する画像データに従った画像を逐次表示する。

制御部１０２は、操作部１０１から信号ＳＷ１の通知（即ち、シャッタースイッチの半押しの通知）を受けていない限り、上記のＥＶＦ表示処理を繰り返して実行するように各部を制御する。

一方、制御部１０２が信号ＳＷ１の通知を受けると、通知を受けた時点で最新の撮像画像を用いてＡＦ、ＡＥ処理を行い、合焦位置および露出条件を決定する。さらに制御部１０２は、フラッシュ部１１１の発光要否を決定する。フラッシュを発光するか否かは、操作部１０１を用いて予め設定しておき、その設定データを読み取ることで判断するようにしても良いし、また周囲の暗さを検知し自動的に判断するようにしても良い。

制御部１０２は、操作部１０１から信号ＳＷ１の通知が継続している限り、かつ信号ＳＷ２の通知（即ち、シャッタースイッチの全押しの通知）を受けるまで待機する。制御部１０２は、信号ＳＷ２の通知を受ける前に信号ＳＷ１の通知が途絶えた場合には、ＥＶＦ表示処理を再開させる。

信号ＳＷ２の通知を受けると制御部１０２は、フラッシュ部１１１を発光させる場合にはＥＦ処理部１１０を制御し、フラッシュ部１１１にプリ発光を行わせ、発光量の算出、ＥＦ枠の重み付けなどの処理を行う。そして、制御部１０２は、プリ発光により計算された本発光量でフラッシュ部１１１を発光させるようにＥＦ処理部１１０に指示する。フラッシュ部１１１を発光させない場合、制御部１０２は上述の調光制御を行わずに本撮影処理に移行する。

本撮影処理は、ＥＶＦ表示処理時の撮像処理と、ＡＥ処理で決定された絞り及びシャッタースピードによって露出機構１０９ａを制御して撮像素子１０３を露光すること、一般には撮像素子１０３から読み出す画素数が多い点で主に異なる。

また、本撮影は記録用の画像を撮像する処理であるため、画像処理部１０５が出力する処理済みのデジタル画像データは、フォーマット変換部１１２によって記録用のデータファイルに変換され、画像記録部１１３によって記録媒体に記録される。

（被写体検出動作）
次に、本実施形態のデジタルカメラ１００における被写体検出動作について、図２に示すフローチャートを用いて説明する。
先ず、制御部１０２は、ＥＶＦ表示用の画像を撮像するための初期露出値を設定する（Ｓ２０１）。この初期露出値は、予め定めたＥＶＦ画像のフレームレートを実現できる範囲で適宜設定することができる。

そして、制御部１０２は、設定した露出値を実現するため、露出機構１０９ａの絞りをメカ駆動部１０９を通じて制御して撮像素子を露光（Ｓ２０２）し、シャッタースピードに対応した周期でＥＶＦ画像を撮像素子１０３から読み出す（Ｓ２０３）。

次に制御部１０２は、撮像したＥＶＦ画像が、予め定めた顔検出周期に対応するか否かを判定する（Ｓ２０４）。この顔検出周期は、例えば顔検出部１０６の処理能力に応じてＥＶＦ画像の何フレーム毎に継続的に顔検出を行うかとして定めることができる。

撮像したＥＶＦ画像が顔検出周期に対応する場合、制御部１０２は動体検出部１１５を無効、顔検出部１０６を有効にし、ＥＶＦ画像に対する顔検出処理を実行させ、被写体情報（顔情報）を取得する（Ｓ２０５）。また、ＥＶＦ画像が顔検出周期に対応しない場合は、顔検出部１０６による顔検出は行わず、前回検出した被写体情報を保持する。

次に制御部１０２は、撮像したＥＶＦ画像が、予め定めた動体検出周期に対応するか否かを判定する（Ｓ２０６）。この動体検出周期は、例えば動体検出部１１５の処理能力に応じて、ＥＶＦ画像の何フレーム毎に動体検出を行うかとして定めることができる。なお、顔検出周期よりも動体検出周期の方が短くなるようにする。

撮像したＥＶＦ画像が動体検出周期に対応する場合、制御部１０２は顔検出部１０６を無効、動体検出部１１５を有効にし、動体検出（被写体追尾）を実行させ、被写体の移動距離及び方向を取得する。

動体検出部１１５は、動体検出の対象となるＥＶＦ画像（画像ｂとする）と時系列上で隣接する過去のＥＶＦ画像（画像ａ）との間の被写体の動きを検出する。具体的には、動体検出部１１５は、画像ａが顔検出周期に対応していれば、顔検出部１０６で検出された顔領域について、画像ａが動体検出周期に対応していれば、動体検出により追尾された顔領域を対象として動体検出を行う。

動体検出部１１５は、画像ｂにおいて、画像ａにおける顔領域と最も類似した領域を探索し、それら２つの領域の中心座標の差から、被写体移動距離及び移動方向を被写体ベクトル(Tx,Ty)として算出する（Ｓ２０７）。なお、３枚以上の連続する画像に対して動体検出を行う場合、動体検出部１１５は、最初の２枚に対して行った検出結果を用いて、次の２枚以降についても順次検出を継続する。動体検出の周期は顔検出の周期よりも短いため、顔検出結果が更新されるまでの間に、複数回の動体検出が行われる。顔検出部１０６によって顔領域が検出されていれば、その顔領域を基準とした動体検出によって、被写体領域を追尾することで、その間に顔検出を行わなくても顔の動きを追尾することが可能となる。

ここで、上述したように、顔検出は画像認識に基づく被写体検出であるため、その演算の複雑さから時間を要するが、目や頬といった顔の特徴量を抽出するため、検出精度が高い。これに対して、動体検出は、前のＥＶＦ画像で被写体として検出された領域と類似度の高い領域を、現在のＥＶＦ画像における被写体領域として検出する方法である。そのため、動体検出では、被写体領域が顔領域なのか否かを判断することができず、精度の面では顔検出に劣るが、演算の複雑さが顔検出よりも低いため、顔検出を行わない間の被写体追尾を行う処理として有用である。

しかしながら、被写体輝度が低い場合など、感度を上昇させるためにＡ／Ｄ変換部１０４において撮像画像に適用するゲイン調整量を上昇させると、ＥＶＦ画像中のノイズ成分が増加し、動体検出の精度を低下させてしまう。

その理由について説明する。ライブ画像は動画像として表示する必要性からフレームレートに下限があり、シャッタースピードの最長時間が制限される。例えばフレームレートが３０フレーム／秒の場合、シャッタースピードは１／３０秒より遅くすることはできない。そのため、被写体輝度が低い場合には、感度を上げる、具体的には画素信号のゲインを増加させて、ライブ画像の撮像を行う。感度（ゲイン）が高くなると、撮影画像中のランダムノイズ成分も増加する。

図３は、感度による画質の変化と、画質の変化が動体検出の精度に与える影響を模式的に示す図である。
図３（ａ）は、通常の感度で撮影された画像を、図３（ｂ）は、図３（ａ）よりも高い感度で撮像された画像を、図３（ｃ）は、図３（ｂ）よりも高い感度で撮像された画像をそれぞれ模式的に示している。図３（ｂ）でランダムノイズ成分が現れ、図３（ｃ）ではさらに増加している。

例えば、図３（ａ）の状態が継続すれば、まず被写体領域を顔検出によって検出し、その後は動体検出に切り替えて被写体領域を追尾する方法を採用しても、動体検出による誤検出の可能性は低い。なお、顔枠３１は、検出されている被写体領域（顔領域）をユーザに知らせるためにライブ画像上に重畳表示されるマークの一例である。

しかし、例えば図３（ａ）の状態で顔検出し、動体検出に切り替えた後で図３（ｂ）の状態に変化すると、本来の被写体領域の周辺領域（点線の枠３２で示される領域）を誤検出する可能性が出てくる。その結果、画像間で被写体が動いていなくても、検出される被写体領域は矢印で示す範囲でばらつき始める。

さらにゲインが上昇して図３（ｃ）の状態になると、ランダムノイズ成分が増加することにより、誤検出によるばらつきの範囲がさらに広範囲となる。

その結果、被写体領域でない領域を移動後の被写体領域として誤検出してしまう。しかも、動体検出では、誤検出しても、検出した領域が正しい被写体領域（この場合は顔領域）かどうかを確認できないので、次の顔検出周期までの間に実施する動体検出において誤検出した被写体領域を追尾しつづけてしまう可能性もある。

そのため、本実施形態では、制御部１０２が、撮像画像に適用されるゲイン調整量が予め定めた閾値を超えているかどうかを判別する（Ｓ２０８）。ゲイン調整量はＥＶＦ画像を撮影する際の感度の設定に応じた値であってよく、この場合、閾値は例えばISO 1600に相当するゲイン調整量であってよい。そして、ゲイン調整量が閾値を超えている場合には、顔検出と動体検出の併用を中止し、顔検出のみに基づいた被写体領域の決定に変更する（Ｓ２０９）。ゲイン調整量の増加によって画像に重畳するノイズ成分は、顔検出にとっても好ましくないが、顔検出では目や頬といった顔特有の特徴量を抽出するため、ノイズ成分の存在により顔以外の領域を誤検出する確率は、動体検出に比較してはるかに小さい。

具体的には、Ｓ２０９で制御部１０２は、直近の顔検出で検出された顔領域を、次の顔検出周期までの間のＥＶＦ画像における被写体領域として用いる。この場合、ゲイン調整量が閾値以下に低下するまでの間、動体検出部１１５による動体検出は行うが、その検出結果を使用しないようにしてもよいし、動体検出部１１５による動体検出動作そのものを行わないようにしてもよい。後者の場合、制御部１０２は、停止手段として機能する。

一方、Ｓ２０８において、ゲイン調整量が予め定めた閾値以下であれば、制御部１０２は、顔検出の検出結果に基づく動体検出により追尾された領域を被写体領域として用いる。

制御部１０２は、検出された被写体領域をユーザに知らせるため、ＥＶＦ画像に被写体領域を示す枠（顔枠３１）を重畳表示することができる。ゲイン調整量が閾値を超える場合には顔検出の結果のみを用いて枠表示を行うことで、図３（ｂ）や図３（ｃ）に点線で示したような顔枠３１の不規則な移動を回避し、安定した枠表示が実現できる。

図４は、本実施形態における枠表示の例を模式的に示す図であり、図４（ａ）〜図４（ｃ）はそれぞれ図３（ａ）〜図３（ｃ）と同じＥＶＦ画像に対応している。
図４（ａ）の状態で顔検出が行われ、その後ゲイン調整量が上昇し、図４（ｂ）の状態ではゲイン調整量が閾値を超えたものとする。この場合、図４（ｂ）、図４（ｃ）に示すように、図４（ａ）で顔検出により得られた被写体領域の情報をそのまま用いて顔枠３３を表示する。そのため、図３（ｂ）や図３（ｃ）に示したような、動体検出精度の低下によって顔枠の表示位置が不安定になるという現象を回避することができる。

なお、ゲイン調整量の閾値は一例であり、他の値であってもよい。また、ゲイン調整量の閾値は固定値である必要はなく、撮像素子１０３のベースノイズレベルや他のノイズ要因に応じて可変であってよい。例えば、ＣＣＤイメージセンサの温度が高いほど、撮影画像中のノイズレベルが高くなるため、ゲイン調整量の閾値を下げる。

Ｓ２１１で制御部１０２は、信号ＳＷ１が通知されているかどうかを判別する。そして、信号ＳＷ１が通知されていなければ処理をＳ２０２へ戻してＥＶＦ表示処理を継続する。

一方、Ｓ２１１で制御部１０２は、信号ＳＷ１が通知されていれば、Ｓ２１２において、ＡＥ制御を、Ｓ２１３においてＡＦ制御を行う。この際、被写体領域が検出されていれば、制御部１０２は被写体領域が適正露出になるようにＡＥ制御を行ったり、被写体領域に合焦するようにＡＦ制御を行ったりすることができる。被写体領域が検出されていない場合、制御部１０２は予め定められた露出制御モードや焦点検出領域に基づいて、ＡＥ制御やＡＥ制御を行うことができる。

次に制御部１０２は信号ＳＷ２が通知されたか否かを判別し（Ｓ２１４）、通知されていればＡＥ制御及びＡＦ制御で設定した露出条件で本撮影処理を行う（Ｓ２１６）。一方、信号ＳＷ２が通知されていなければ、制御部１０２は信号ＳＷ１の状態を確認し（Ｓ２１５）、通知が解除されたならば処理をＳ２０２へ、通知が継続していれば処理をＳ２１４へ戻す。

以上説明したように、本実施形態は、画像認識による被写体検出と、画像認識により検出された被写体領域を動体検出により追尾する被写体検出とが可能な画像処理装置において、撮像データに適用されるゲイン調整量を監視する。そして、ゲイン調整量が予め定めた閾値を超える場合には画像認識による被写体検出結果のみに基づく被写体領域を用いる。また、ゲイン調整量が閾値以下の場合は、動体検出による被写体検出の結果に基づく被写体領域をさらに用いる。

ゲイン調整量が閾値を超え、動体検出の精度が低下する可能性が高い状態では画像認識による被写体検出の結果のみを用いるので、追従性は多少犠牲になるが、被写体領域の誤検出を防止することが可能である。その結果、本撮影時に、被写体からずれた背景へ合焦制御したり、露出設定を誤ったりするという問題を回避し、ＡＥ制御やＡＦ制御の精度を向上させることができる。

また、被写体領域を示す表示（枠表示など）を行う場合、動体検出による被写体領域の誤検出を原因とする表示位置の変動を防止し、安定した表示を行うことができる。

一方で、ゲイン調整量が閾値以下の場合は、画像認識による被写体検出に加え、動体検出による被写体検出結果に基づく被写体領域を用いるので、精度と追従性とを兼ね備えた被写体検出を実現することができる。

＜第２の実施形態＞
次に、本発明の第２の実施形態について説明する。第１の実施形態においては、動体検出の精度が低下する要因の１つであるノイズ成分に着目し、ゲイン調整量が予め定めた閾値を超えるか否かに応じて、被写体領域の検出に画像認識と動体検出を併用するか、画像認識のみを用いるかを切り替えていた。

本実施形態では、動体検出の精度を低下させる別の要因である被写体ぶれに着目し、露光時間（シャッタースピード）が予め定めた閾値より長いか否かに応じて、被写体領域の検出に画像認識と動体検出を併用するか、画像認識のみを用いるかを切り替える。

遅いシャッタースピードで動体を撮像した場合、被写体ぶれが起こりやすい。そのため、画像間の相関に基づく動体検出を行うことが困難となり、顔検出によって検出された顔領域の移動先が検出できないことが起こりうる。一方、顔検出は演算に時間がかかるが、被写体ぶれに対しても動体検出より強く、動体検出よりも高い被写体検出精度を維持できる。

図６は、シャッタースピードが遅い場合の動体検出の問題点を模式的に説明するための図である。図６において、被写体（人物）が、ＥＶＦ画像のシャッタースピードではぶれてしまう速度で移動しており、例えば図６（ａ）において顔検出に成功したとする。この場合、図６（ｂ）から動体検出に切り替えても、図６（ａ）で検出された顔領域が図６（ｂ）の画像中のどこに移動したのか画像間の相関に基づいて正しく検出することはできない。その結果、被写体領域を正しく追尾できない。また、動体検出では検出した領域が顔かどうか判別できないため、その後の動体検出において、顔でない領域を追尾し続けてしまう。（図６（ｃ）〜図６（ｅ））。その結果、顔枠３１の表示位置が被写体とずれたままになってしまう。

図５は、本実施形態のデジタルカメラの動作を説明するフローチャートであり、図２と同じ動作ステップについては同じ参照数字を付し、重複する説明を省略する。また、本実施形態のデジタルカメラは、第１の実施形態において図１を用いて説明したデジタルカメラ１００と同一構成であってよいため、以下においても、図１に示した構成要素を用いて説明する。

図５と図２との比較から明らかなように、Ｓ５０８における判定処理以外は第１の実施形態と同一の処理であってよいため、Ｓ５０８における判定処理についてのみ説明する。上述の通り、本実施形態では、露光時間（シャッタースピード）が予め定めた閾値（例えば１／３０秒）よりも長い（遅い）場合に、顔検出と動体検出の併用による被写体領域の検出から、顔検出のみによる被写体領域の検出へ切り替える。

図７は、本実施形態の効果を模式的に示す図である。図７（ａ）において、露光時間が閾値よりも長いと判定された場合、顔検出のみに基づいて被写体領域を設定することで、追従性は多少犠牲になる（図７（ｄ））が、顔検出時に正しく被写体検出できる（図７（ｅ））ため、顔枠３１が被写体からずれない。一方、動体検出を併用した場合、図７（ｂ）、図７（ｃ）に示すように、顔枠３１が被写体からずれてしまう。

以上説明したように、本実施形態によっても、第１の実施形態と同様の効果を実現できる。なお、本実施形態における露光時間の閾値は固定値である必要はない。例えば、顔検出周期に得られる被写体領域間から被写体の動きベクトルを算出し、被写体の移動速度が速い（動きベクトルが大きい）ほど閾値を短く設定してもよい。

＜他の実施形態＞
なお、第１の実施形態と本実施形態とは組み合わせて実施することも可能である。すなわち、ゲイン調整量が閾値を超えているか、露光時間が閾値よりも長い場合には、顔検出と動体検出の併用による被写体領域の検出から、顔検出のみによる被写体領域の検出へ切り替えることができる。

上述の実施形態は、システム或は装置のコンピュータ（或いはＣＰＵ、ＭＰＵ等）によりソフトウェア的に実現することも可能である。
従って、上述の実施形態をコンピュータで実現するために、該コンピュータに供給されるコンピュータプログラム自体も本発明を実現するものである。つまり、上述の実施形態の機能を実現するためのコンピュータプログラム自体も本発明の一つである。

なお、上述の実施形態を実現するためのコンピュータプログラムは、コンピュータで読み取り可能であれば、どのような形態であってもよい。例えば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等で構成することができるが、これらに限るものではない。

上述の実施形態を実現するためのコンピュータプログラムは、記憶媒体又は有線／無線通信によりコンピュータに供給される。プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、磁気テープ等の磁気記憶媒体、ＭＯ、ＣＤ、ＤＶＤ等の光／光磁気記憶媒体、不揮発性の半導体メモリなどがある。

有線／無線通信を用いたコンピュータプログラムの供給方法としては、コンピュータネットワーク上のサーバを利用する方法がある。この場合、本発明を形成するコンピュータプログラムとなりうるデータファイル（プログラムファイル）をサーバに記憶しておく。プログラムファイルとしては、実行形式のものであっても、ソースコードであっても良い。

そして、このサーバにアクセスしたクライアントコンピュータに、プログラムファイルをダウンロードすることによって供給する。この場合、プログラムファイルを複数のセグメントファイルに分割し、セグメントファイルを異なるサーバに分散して配置することも可能である。
つまり、上述の実施形態を実現するためのプログラムファイルをクライアントコンピュータに提供するサーバ装置も本発明の一つである。

また、上述の実施形態を実現するためのコンピュータプログラムを暗号化して格納した記憶媒体を配布し、所定の条件を満たしたユーザに、暗号化を解く鍵情報を供給し、ユーザの有するコンピュータへのインストールを許可してもよい。鍵情報は、例えばインターネットを介してホームページからダウンロードさせることによって供給することができる。

また、上述の実施形態を実現するためのコンピュータプログラムは、すでにコンピュータ上で稼働するＯＳの機能を利用するものであってもよい。
さらに、上述の実施形態を実現するためのコンピュータプログラムは、その一部をコンピュータに装着される拡張ボード等のファームウェアで構成してもよいし、拡張ボード等が備えるＣＰＵで実行するようにしてもよい。

Claims

動画像のフレームの画像から予め定めた特徴となる部位を検出することで、該フレームの画像に存在する予め定めた被写体を検出する第１の検出手段と、
フレームの画像間で類似する領域を探索することで、前記動画像において、前記第１の検出手段によって検出された前記予め定めた被写体が存在する領域を追尾する第２の検出手段と、
前記第１の検出手段による検出結果と前記第２の検出手段による検出結果の少なくともいずれかに基づいて、前記動画像における前記予め定めた被写体が存在する領域を決定する決定手段とを有し、
前記決定手段は、予め定めた条件を満たす場合には、前記第２の検出手段による検出結果によらずに前記第１の検出手段による検出結果に基づいて、前記予め定めた被写体が存在する領域を決定し、前記予め定めた条件を満たさない場合には、前記第１の検出手段による検出結果および前記第２の検出手段による検出結果に基づいて、前記予め定めた被写体が存在する領域を決定するものであって、
前記予め定めた条件は、前記動画像に適用されるゲイン調整量が予め定めた閾値を超えている、および、１フレームの画像に対する露光時間が予め定めた閾値より長い、ことの少なくともいずれかを含むことを特徴とする画像処理装置。
前記ゲイン調整量が、前記画像が撮像された際の撮像感度の設定が高いほど大きくなる値であることを特徴とする請求項１記載の画像処理装置。
前記第１の検出手段が、前記予め定めた被写体として、人間の顔を検出することを特徴とする請求項１または２に記載の画像処理装置。
第１の検出手段が、動画像のフレームの画像から予め定めた特徴となる部位を検出することで、該フレームの画像に存在する予め定めた被写体を検出する第１の検出工程と、
第２の検出手段が、フレームの画像間で類似する領域を探索することで、前記動画像において、前記第１の検出工程において検出された前記予め定めた被写体が存在する領域を追尾する第２の検出工程と、
決定手段が、前記第１の検出工程における検出結果と前記第２の検出工程における検出結果の少なくともいずれかに基づいて、前記動画像における前記予め定めた被写体が存在する領域を決定する決定工程とを有し、
前記決定工程において前記決定手段は、予め定めた条件を満たす場合には、前記第２の検出工程における検出結果によらずに前記第１の検出工程における検出結果に基づいて、前記予め定めた被写体が存在する領域を決定し、前記予め定めた条件を満たさない場合には、前記第１の検出工程における検出結果および前記第２の検出工程における検出結果に基づいて、前記予め定めた被写体が存在する領域を決定するものであって、
前記予め定めた条件は、前記動画像に適用されるゲイン調整量が予め定めた閾値を超えている、および、１フレームの画像に対する露光時間が予め定めた閾値より長い、ことの少なくともいずれかを含むことを特徴とする画像処理装置の制御方法。
コンピュータを、請求項１乃至請求項３のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。