JP2017084006A

JP2017084006A - 画像処理装置およびその方法

Info

Publication number: JP2017084006A
Application number: JP2015210007A
Authority: JP
Inventors: 小川　修平; Shuhei Ogawa; 修平小川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-10-26
Filing date: 2015-10-26
Publication date: 2017-05-18

Abstract

【課題】部分領域を統合した統合領域の特徴量を抽出する際の計算コストを削減する。【解決手段】分割部102は、画像を部分領域に分割する。抽出部103は、部分領域から第一の特徴量を抽出する。統合部104aは、第一の特徴量に基づき、部分領域を統合して統合領域を生成する。算出部104bは、統合領域特徴量として、少なくとも、統合領域に含まれる部分領域の第一の特徴量の統計値を算出する。【選択図】図1

Description

本発明は、画像認識などの画像処理に関する。

画像中の被写体を学習し認識する際、画像中の局所的な領域の情報だけでなく、ある程度まとまった領域の情報に基づいて、学習と認識を行う手法が用いられる。例えば、画像を意味がある纏まりに領域分割（以下「意味的領域分割」）する際に、局所的な領域のみに着目する認識手法を用いると、白い壁の一部分が「空」と判別されてしまうなど、正確な判別が困難な場合がある。そこで、局所的な領域よりも広い領域の情報を利用して認識を行う手法が用いられる。

より広い領域を利用して認識を行う場合、特許文献1、2に示されるように、部分領域を統合した統合領域を利用する手法が考えられる。しかし、統合領域に含まれる画素をすべてスキャンして特徴量を算出するような、統合領域から直接特徴量を抽出する手法は計算コストが高い。

また、統合領域の理想的なサイズや形状は、認識したい被写体によって変わるため、予め適切な統合領域を用意することが困難である。特許文献3は、スケールなどを変えて統合領域を多数生成し、これらを同時に用いて認識を行う方法を開示する。このような方法は、特徴量抽出の計算コストをさらに増大させる。

特開2013-027637号公報特開2009-212750号公報米国特許出願公開第2014/0037198号明細書

R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua, and S. Susstrunk「SLIC Superpixels Compared to State-of-the-art Superpixel Methods」IEEE Transactions on Pattern Analysis and Machine Intelligence、vol. 34、Issue 11、2274-2282頁、2012年 T. Ojala, M. Pietikainen, and D. Haywood「A comparative study of texture measures with classification based on featured distributions」Pattern Recognition、Vol. 29、No. 1、51-59頁、1996年

本発明は、部分領域を統合した統合領域の特徴量を抽出する際の計算コストを削減することを目的とする。

本発明は、前記の目的を達成する一手段として、以下の構成を備える。

本発明にかかる画像処理は、画像を部分領域に分割し、前記部分領域から第一の特徴量を抽出し、前記第一の特徴量に基づき、前記部分領域を統合して統合領域を生成し、統合領域特徴量として、少なくとも、前記統合領域に含まれる部分領域の第一の特徴量の統計値を算出する。

本発明によれば、部分領域を統合した統合領域の特徴量を抽出する際の計算コストを削減することができる。

実施例1の画像処理装置の構成例を説明するブロック図。画像処理装置による画像認識処理を説明するフローチャート。注目部分領域のカテゴリの判別処理について説明する図。実施例の画像認識処理による認識結果例を示す図。実施例の画像処理装置として機能するコンピュータ装置の構成例を示すブロック図。統合領域特徴量として利用可能な特徴量を示す図。統合領域特徴量の算出方法の態様を説明する図。実施例2の画像処理装置の構成例を説明するブロック図。実施例2の画像認識処理を説明するフローチャート。実施例3の画像処理装置の構成例を説明するブロック図。実施例3の物体検出処理を説明するフローチャート。物体検出処理について説明する図。実施例4の画像処理装置の構成例を説明するブロック図。実施例4の主被写体検出処理を説明するフローチャート。

以下、本発明にかかる実施例の画像処理装置および画像処理方法を図面を参照して詳細に説明する。なお、実施例は特許請求の範囲にかかる本発明を限定するものではなく、また、実施例において説明する構成の組み合わせのすべてが本発明の解決手段に必須とは限らない。

本発明は、入力画像中の被写体の検出、被写体ごとに領域を分割する領域分割、類似した画像を検索する画像検索、および、画像のシーンを判別するシーン判別、などの画像認識処理に関する。入力画像は静止画、動画を問わない。また、被写体には、人物や犬などの生物、建物や道具などの人工物、山や空といった自然や風景など、あらゆる対象が含まれる。

以下では、入力画像に含まれる被写体のカテゴリを判別し、画像を意味的領域分割する画像認識処理を説明する。被写体のカテゴリとして、空、人体、草木、建物、車、道路といった一般的なC種類のカテゴリを適用する。

［装置の構成］
図1のブロック図により実施例1の画像処理装置の構成例を説明する。画像処理装置において、取得部101は、認識対象の画像を取得する。分割部102は、取得された画像を領域分割する。抽出部103は、分割された部分領域ごとに特徴量（以下「第一の特徴量」）を抽出する。

統合領域生成部104は、部分領域を統合した統合領域と、その特徴量（以下「統合領域特徴量」）を生成する。統合領域生成部104は、第一の特徴量に基づいて部分領域を統合する統合部104a、および、各統合領域の特徴を示す統計値を算出し、統計値を統合領域特徴量として出力する算出部104bを有する。

統合領域認識部105は、統合領域特徴量に基づいて、対応する統合領域のカテゴリを認識し、詳細は後述するが、C種類のカテゴリの判別スコアを出力する。部分領域認識部106は、第一の特徴量に基づいて、対応する部分領域のカテゴリを認識し、詳細は後述するが、C種類のカテゴリの判別スコアを出力する。

特徴量生成部107は、部分領域認識部106から入力される部分領域の判別スコア、統合領域認識部105から入力される当該部分領域を含む統合領域の判別スコアに基づき、当該部分領域の特徴量（以下「第二の特徴量」）を生成する。カテゴリ判定部108は、第二の特徴量に基づいて認識した、対応する部分領域のカテゴリを出力する。

［画像認識処理］
図2のフローチャートにより画像処理装置による画像認識処理を説明する。取得部101は、カメラなどの撮像装置やサーバ装置から認識対象の画像を取得する(S11)。なお、取得する画像は、静止画像、もしくは、動画像中の1フレームの画像である。

次に、分割部102は、取得された画像を領域分割する(S12)。例えば、非特許文献1などに記載された方法を用いて、画像は、色が類似した画素のクラスタである「Superpixel (SPx)」に分割される。つまり、SPxが部分領域に相当する。

次に、抽出部103は、各部分領域から第一の特徴量を抽出する(S13)。例えば、色の分布ヒストグラム、非特許文献2が記載するLocal Binary Pattern (LBP)、領域のモーメント、高次統計量といった特徴量が抽出される。第一の特徴量は、それら複数種類の特徴量を連結し、特徴次元のスケールの違いを吸収するために、次元ごとに特徴量を正規化したものである。

次に、K回の繰返処理が実行される。つまり、部分領域から様々な大きさや形状の統合領域を生成し、各統合領域から生成した統合領域特徴量に基づき当該統合領域のカテゴリを認識する。

繰返処理において、統合部104aは、第一の特徴量に基づき複数の部分領域を統合した統合領域を生成する(S14)。例えば、k-meansアルゴリズムなどのクラスタリング手法によって第一の特徴量をクラスタリングし、クラスタに属す部分領域同士を統合して統合領域とする。ここでは、部分領域に相当するSPxを統合して得られる統合領域を「Super-Superpixel (SSPx)」と呼ぶことにする。

算出部104bは、統合領域特徴量として、統合領域が含む部分領域（以下、被包含領域）の第一の特徴量の統計値を算出する(S15)。つまり、算出部104bは、被包含領域の第一の特徴量に最も近いコードブックの特徴量(Visual Word)に投票し、投票結果を示す頻度ヒストグラム(Bag-of-Fearures)を統合領域特徴量として算出する。

コードブックは事前に作成されている。つまり、C種類のカテゴリに対応する様々な学習画像を用意する。そして、それら学習画像を分割部102によって領域分割し、抽出部103によって部分領域ごとに特徴量を抽出し、特徴量をクラスタリングして、クラスタの中心の特徴量(Visual Word)の集合であるコードブックを作成する。

統合領域認識部105は、統合領域特徴量に基づき、対応する統合領域のカテゴリを認識し、認識結果を示すC個のカテゴリ判別スコアを出力する(S16)。ステップS14からS16の処理は、k-meansアルゴリズムのk値を変えて、K回（所定回数）、繰り返される。この繰返処理により、様々な大きさや形状で生成された統合領域のカテゴリ判別スコアが得られる。

繰返処理が終了すると、部分領域認識部106は、第一の特徴量に基づき、対応する部分領域のカテゴリを認識し、認識結果を示すC個のカテゴリ判別スコアを出力する(S17)。特徴量生成部107は、部分領域認識部106が出力する部分領域のカテゴリ判別スコア、および、当該部分領域を含む統合領域の、統合領域認識部105が出力するカテゴリ判別スコアを連結して第二の特徴量を生成する(S18)。

次に、カテゴリ判定部108は、第二の特徴量に基づき、対応する部分領域のカテゴリを認識し、認識したカテゴリを当該部分領域のカテゴリとして出力する(S19)。統合領域認識部105、部分領域認識部106、および、カテゴリ判定部108はそれぞれ、サポートベクトルマシン(SVM)の識別器からなる。識別器は、統合領域特徴量、第一の特徴量、または、第二の特徴量を入力変数、正解カテゴリを目標変数として、入力変数に対して正しいカテゴリを出力するように予め学習が行われている。

SVMは、基本的に2クラス判別器であり、対象カテゴリを正事例とし、その他の全カテゴリを負事例としてカテゴリごとに学習を行い、C種類のカテゴリに対応するC個のSVMを用意する。従って、ステップS16、S17、S19における判別処理の結果として、一つの統合領域または一つの部分領域に対してC個のカテゴリ判別スコアが得られる。そして、ステップS19において、C個のカテゴリ判別スコアのうち、判別スコアが最高のカテゴリが部分領域のカテゴリとして出力される。

図3により注目部分領域のカテゴリの判別処理について説明する。分割部102は、入力画像を領域分割し、部分領域SP₁からSP_Nを生成する。以下では、部分領域SPxのうち、n番目の部分領域SPxであるSP_nを注目部分領域としてカテゴリの判別処理を説明する。

抽出部103は、部分領域SP₁からSP_Nそれぞれの第一の特徴量を抽出する。部分領域認識部106は、部分領域SP_nの第一の特徴量に基づき部分領域SP_nのカテゴリ尤度を算出する。カテゴリ尤度は、C種類のカテゴリごとに得られる。

統合部104aは、第一の特徴量に基づき、部分領域SPxを統合した統合領域SSPxを生成する。注目部分領域SP_nを含む、例えばM個の統合領域SSP₁からSSP_Mが生成されたと仮定する。算出部104bは、生成された統合領域SSPxが含む部分領域SPxの第一の特徴量の統計値を統合領域特徴量として算出する。統合領域認識部105は、統合領域特徴量に基づき統合領域SSP₁からSSP_Mそれぞれのカテゴリ尤度を算出する。上述したように、カテゴリ尤度は、C種類のカテゴリごとに得られる。

特徴量生成部107は、部分領域SP_nのカテゴリ尤度と、統合領域SSP₁からSSP_Mのカテゴリ尤度を連結した第二の特徴量を生成する。カテゴリ判定部108は、部分領域SP_nの第二の特徴量のカテゴリ尤度を算出し、尤度が最高のカテゴリを部分領域SP_nのカテゴリとして出力する。

統合領域SSPxの特徴量は、通常、当該統合領域の画素やエッジ情報などに基づき抽出される。このような特徴量の抽出方法は計算コストが高い。一方、実施例によれば、統合領域特徴量の抽出は、予め算出されている部分領域の特徴量に基づき行われ、統合領域特徴量の計算コストが削減される。例えば、図3に示す統合領域SSP₁の特徴量は、統合領域SSP₁の被包含領域SP_n、SP_o、SP_p、SP_qそれぞれの第一の特徴量の統計値として算出され、統合領域特徴量を生成するための計算コストが低く抑えられる。

また、被写体の部分領域に基づき被写体カテゴリを判別する場合、ある部分領域が被写体のカテゴリと異なるカテゴリに類似していると、被写体カテゴリの正しい判別が難しくなる。また、部分領域は、被写体の形状に従って生成されるのが理想的であるが、そのような部分領域を生成することは、意味的領域分割の問題を解くことに等しく困難である。

実施例において、様々な形状や大きさの統合領域を生成する際、適切な統合領域が得られる場合もあれば、不適切な統合領域が得られる場合もある。しかし、形状や大きさが異なる複数の統合領域を生成することで、画像中の被写体に適切な統合領域が生成される可能性が高くなる。従って、多様な統合領域の判別結果を統合することで認識結果が安定し、より正しい認識結果が得られ易くなる。

図4により実施例の画像認識処理による認識結果例を示す。人物と車両などが写った入力画像を領域分割した部分領域のカテゴリを判別すると、車両の窓ガラスやボンネットは空と類似しているため、部分領域401や402のように「sky」と誤判別される。

一方、部分領域を統合して様々な形状や大きさの統合領域を生成し、各統合領域のカテゴリを判別すると、統合領域404や406のような誤判別も含まれるが、正しい判別結果が得られる統合領域403、405が存在する。これら多様な統合領域の判別結果を統合することで認識結果が安定し、部分領域のみに着目するよりも正しい認識結果が得られ易くなる。

［情報処理装置の構成］
図5のブロック図により実施例の画像処理装置として機能するコンピュータ装置の構成例を示す。CPU201は、RAM202をワークメモリとして、ROM203や記憶部204に格納されたプログラムを実行し、システムバス208を介して、後述する構成を制御する。記憶部204は、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フラッシュメモリなどであり、OSや前述した画像認識処理を実現するプログラムを格納する。

汎用インタフェイス205は、例えばUSBなどのシリアルバスインタフェイスであり、マウスやキーボードなどの操作部211や認識対象の画像の一つの供給源であるディジタルカメラ212が接続される。認識対象の画像は、記憶部204、汎用インタフェイス205に接続されたドライブの記録媒体、ネットワーク213に接続されたサーバ装置などから入力することができる。

ビデオインタフェイス206は、HDMI（登録商標）やDisplayPort（商標）などのビデオインタフェイスであり、モニタ106が接続される。ネットワークインタフェイス207は、有線または無線ネットワーク213と接続するためのインタフェイスである。ユーザ操作やディジタルカメラ212との接続は、ネットワークインタフェイス207を介して行われてもよい。

このように、部分領域のカテゴリの認識結果と、当該部分領域を含む統合領域のカテゴリの認識結果を連結することにより、当該部分領域のカテゴリの認識精度を向上することができる。また、統合領域のカテゴリを認識する際の特徴量は、当該統合領域に含まれる各部分領域の特徴量の統計量として算出するので、特徴量抽出における計算コストを削減することができる。言い替えれば、低い計算コストかつ高精度の意味的領域分割が実現される。

［変形例］
上記では、統合部104aがk-meansアルゴリズムを利用する例を説明したが、Mean-Shiftやスペクトラルクラスタリングなどのクラスタリングアルゴリズムを用いても構わない。また、クラスタリングアルゴリズムのほかにも、領域を統合するアルゴリズムであればどのようなものでも構わない。

また、上記では、統合部104aが第一の特徴量を特徴空間でクラスタリングし、部分領域を統合する例を説明した。しかし、隣接する部分領域同士の第一の特徴量を比較し、第一の特徴量の類似度が所定の閾値以上の場合にそれら部分領域を連結することで、統合領域を生成しても構わない。あるいは、二つの部分領域の境界付近の画素値の差分が所定の閾値よりも小さい場合、それら部分領域を連結することで、統合領域を生成しても構わない。

また、階層的に複数の統合領域を生成しても構わない。上記では、統合部104aが部分領域全体の色やLBP特徴に基づいて部分領域を統合する例を説明したが、色特徴のみに基づく部分領域の統合、LBP特徴のみに基づく部分領域の統合など、統合に利用する特徴量を様々に変えて統合領域を生成しても構わない。

図6により統合領域特徴量として利用可能な特徴量を示す。上記では、算出部104bが統合領域に含まれる部分領域のコードブック化された特徴量の頻度ヒストグラム（図6(A)）を統合領域特徴量として生成する例を説明した。しかし、被包含領域の特徴量の平均、分散、歪度、尤度などの高次統計量（図6(B)）を統合領域特徴量に用いても構わない。また、被包含領域の重み付線形和（図6(C)）を統合領域特徴量に用いても構わない。

図7により統合領域特徴量の算出方法の態様を説明する。上記では、算出部104bが統合領域特徴量を生成する際、すべての被包含領域から統計値を算出する例を説明した。しかし、図7に示すように、注目統合領域の境界付近に位置する部分領域601と、境界付近以外に位置する部分領域602とを区別してそれぞれ統計値を算出しても構わない。

また、被包含領域603の第一の特徴量、および、注目統合領域に隣接する統合領域の被包含領域604の第一の特徴量から統計値を算出し、それら統計値を注目統合領域の統合領域特徴量としても構わない。

また、注目統合領域605の統計値と注目統合領域の上側に隣接する統合領域606の統計値、および、注目統合領域605の統計値と注目統合領域の下側に隣接する統合領域607の統計値を、注目統合領域の統合領域特徴量としもよい。また、注目統合領域において、境界に接する部分領域609の統計値、境界に接しない部分領域608の統計値、注目統合領域に接する（または、注目統合領域の近傍の）部分領域610の統計値を、注目統合領域の統合領域特徴量としもよい。

このように、算出部104bにおける統合領域特徴量の算出方法は様々な様態が考えられ、一つに限定されるものではない。

上記では、部分領域認識部106、統合領域認識部107およびカテゴリ認識部109としてSVMを用いる例を説明したが、別の識別器を用いることができる。例えば、ロジスティック回帰、ニューラルネット、ランダムフォレストなどの利用が可能である。また、部分領域と統合領域のカテゴリの判別スコアを条件付き確率分布(conditional random field)の枠組みに組み込んで、カテゴリを判別してもよい。

上記では、第一の特徴量に基づく部分領域のカテゴリの判別結果と、当該部分領域を含む統合領域のカテゴリの判別結果を連結して第二の特徴量を生成する例を説明した。しかし、第一の特徴量と統合領域特徴量を連結して第二の特徴量を生成しても構わない。あるいは、統合領域のカテゴリの判別結果、または、統合領域特徴量の平均、分散、歪度、尖度などの基本統計値を、対応する部分領域の第一の特徴量に連結して第二の特徴量を生成しても構わない。

以下、本発明にかかる実施例2の画像処理装置および画像処理方法を説明する。なお、実施例2において、実施例1と略同様の構成については、同一の符号を付して、その詳細な説明を省略する場合がある。

実施例2においては、実施例1とは異なる画像認識タスクに本発明を適用する例を説明する。実施例2の画像認識処理は、静止画像を入力し、入力画像のシーンのカテゴリを判別する。カテゴリは、山岳風景、街中の景色、人物ポートレート、など予めユーザが分類したC種類のシーンのカテゴリである。

図8のブロック図により実施例2の画像処理装置の構成例を説明する。実施例2の画像処理装置は、実施例1と同様の取得部101、分割部102、抽出部103、統合領域生成部104を有し、さらに、統合領域のシーンを判別する第一判別部111、および、入力画像のシーンを判別する第二判別部112を有する。

図9のフローチャートにより実施例2の画像認識処理を説明する。ステップS11からS15までの処理は実施例1と同様である。繰返処理において、第一判別部111は、統合領域特徴量である頻度ヒストグラムを入力変数とし、SVMなどの識別器を用いて、対応する統合領域のシーンのカテゴリを判別する(S21)。なお、SVMはC種類のシーンのカテゴリ判別スコアを出力し、一つの統合領域に対してC個のカテゴリ判別スコアが得られる。

ステップS14、S15、S21の処理は、統合領域の形状や大きさを様々に変更して、K回、繰り返される。この繰返処理により、一つの入力画像に対してK通りのカテゴリ判別スコアが得られる。

繰返処理が終了すると、第二識別部112は、K通りのカテゴリ判別スコアを連結した特徴量を入力変数とし、SVMなどの識別器を用いて入力画像のシーンを判別する(S22)。SVMは、入力画像がC種類のシーンのカテゴリの何れであるかを示す判別スコアを算出し、入力画像に対してC個のカテゴリ判別スコアが得られる。第二識別部112は、C個のカテゴリ判別スコアのうち、判別スコアが最高のカテゴリに対応するシーンのカテゴリを入力画像のシーンのカテゴリとして出力する。

以下、本発明にかかる実施例3の画像処理装置および画像処理方法を説明する。なお、実施例3において、実施例1、2と略同様の構成については、同一の符号を付して、その詳細な説明を省略する場合がある。

実施例3においては、画像を入力し、入力画像に写った物体を検出する物体検出処理を説明する。検出対象の物体は、人物や車両など、予めユーザが指定したC種類の物体のカテゴリである。

図10のブロック図により実施例3の画像処理装置の構成例を説明する。実施例3の画像処理装置は、実施例1と同様の取得部101、分割部102、抽出部103、統合領域生成部104を有す。さらに、統合領域の物体らしさ（以下「物体尤度」）を推定する推定部121、物体に対応する統合領域を判定する判定部122、統合領域を囲む矩形領域の特徴量を抽出する抽出部123、矩形領域の特徴量に基づき物体を検出する検出部124を有する。

図11のフローチャートにより実施例3の物体検出処理を説明する。ステップS11からS14までの処理は実施例1と同様である。ステップS15の処理も実施例1とほぼ同様であるが、実施例3においては、図7に示す、統合領域の境界付近に位置する部分領域601と、境界付近以外に位置する部分領域602とを区別してそれぞれ統計値を算出する。これにより、統合領域の境界部に生じ易い物体形状に対する欠損やバリを考慮した認識が可能になり、検出結果が安定する。

繰返処理において、推定部121は、統合領域特徴量を入力変数として、SVMなどの識別器を用いて、対応する統合領域の物体尤度を推定する(S31)。識別器は、統合領域特徴量を入力変数とし、物体である統合領域を正事例、物体ではない統合領域を負事例として、予め学習が行われている。ステップS13、S14、S31の処理は、統合領域の形状や大きさを様々に変更して、K回、繰り返され、様々な形状や大きさの統合領域について物体尤度が推定される。

繰返処理が終了すると、判定部122は、物体尤度が所定の閾値未満の統合領域を物体に対応しないとして棄却する(S32)。言い替えれば、物体に対応する統合領域が判定される。この処理により、物体ではないと推定された統合領域に関する後段の処理が削減される。

次に、抽出部123は、物体に対応すると判定された統合領域を囲む矩形領域（以下、包含領域）の第二の特徴量を抽出する(S33)。第二の特徴量は、例えば、物体検出で一般的な特徴量である勾配方向ヒストグラム(histograms of oriented gradients: HOG)などである。

次に、検出部124は、第二の特徴量を入力変数とし、SVMなどの識別器を用いて、対応する統合領域の物体のカテゴリを検出し(S34)、物体のカテゴリを出力する(S34)。なお、ステップS34で得られる判定スコアが、すべてのカテゴリについて小さい場合、検出部124は、当該統合領域が物体に対応しないと判定する。

図12により物体検出処理について説明する。分割部102は、入力画像を領域分割する。抽出部103は、部分領域ごとに第一の特徴量を抽出する。統合部104aは、第一の特徴量に基づき、部分領域SPxを統合した統合領域SSPxを生成する。様々な形状や大きさを有する統合領域が生成され、例えば、統合領域SSP₁からSSP_Mが得られたと仮定する。

算出部104bは、統合領域特徴量として、被包含部分領域の特徴量の統計値を算出する。推定部121は、統合領域特徴量に基づき、対応する統合領域の物体尤度を推定する。つまり、統合領域SSP₁からSSP_Mの物体尤度が得られる。推定部121は、物体尤度が閾値未満の統合領域を物体ではないとして棄却する。

抽出部122は、閾値以上の物体尤度をもつ統合領域を囲む矩形領域（包含領域）からHOGなどの特徴量を抽出する。検出部123は、包含領域の特徴量に基づき物体カテゴリごとの尤度を推定し、尤度が最大の物体カテゴリを入力画像から検出した物体のカテゴリとして出力する。

このように、計算コストが低い特徴量の抽出方法により物体の候補領域を限定し、次に計算コストが高い特徴量を用いて物体の判別を行うことで、精度と計算量のバランスを図った物体検出処理を行うことができる。

以下、本発明にかかる実施例4の画像処理装置および画像処理方法を説明する。なお、実施例4において、実施例1-3と略同様の構成については、同一の符号を付して、その詳細な説明を省略する場合がある。

実施例4においては、画像を入力し、入力画像から主被写体を認識する処理を説明する。図13のブロック図により実施例4の画像処理装置の構成例を説明する。実施例4の画像処理装置は、実施例1と同様の取得部101、分割部102、抽出部103、統合領域生成部104を有す。さらに、統合領域の主被写体らしさ（以下、顕著度）を推定する推定部131、主被写体を検出する検出部132を有する。

図14のフローチャートにより実施例4の主被写体検出処理を説明する。ステップS11からS14までの処理は実施例1と同様である。ステップS15の処理も実施例1とほぼ同様であるが、実施例4においては、図7に示す部分領域608、部分領域609、部分領域610から統計値を算出する。

部分領域608は、注目統合領域の内部に位置する部分領域であり、注目統合領域に含まれ、かつ、注目統合領域の境界に全く接しない部分領域、または、注目統合領域の境界と接する部分の長さが所定値未満の部分領域である。部分領域609は、注目統合領域に含まれ、かつ、注目統合領域の境界に接する隣接部分領域である。部分領域610は、注目統合領域に含まれず、かつ、注目統合領域の境界に接する部分領域である。

つまり、算出部104bは、内部に位置する部分領域から算出した統計値、内部と境界部に位置する部分領域から算出した統計値、内部と境界部に位置する部分領域および隣接部分領域から算出した統計値を算出する。これにより、注目統合領域だけでなく、注目統合領域に隣接する部分領域も含めて特徴量の統計値を算出することで、背景との関係性を考慮した統計値が得られ、主被写体の検出精度の向上が見込める。

繰返処理において、推定部131は、注目統合領域とその周囲の統合領域の間の類似性を示す顕著度を推定する(S41)。顕著度として、注目統合領域の特徴量とその周囲の統合領域の特徴量の間のカルバック・ライブラ情報量(Kullback-Leibler divergence)やヒストグラム交差などの値が用いられ、顕著度が高いほど主被写体らしいことが示される。ステップS13、S14、S41の処理は、統合領域の形状や大きさを様々に変更して、K回、繰り返され、様々な形状や大きさの統合領域について顕著度が推定される。

繰返処理が終了すると、検出部132は、様々な形状や大きさの統合領域の顕著度を被包含領域ごとに加算して、部分領域の顕著度を算出する(S42)。ある部分領域を含む統合領域の顕著度が高く、当該部分領域を含む顕著度が高い統合領域が多数生成された場合、顕著度の加算により当該部分領域の顕著度も高くなる。検出部132は、顕著度が高い部分領域の集合を主被写体として示す主被写体情報を出力する(S43)。

［その他の実施例］
本発明は、上述の実施形態の一以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける一以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、一以上の機能を実現する回路（例えば、ASIC）によっても実現可能である。

102 … 分割部、103 … 抽出部、104a … 統合部、104b … 算出部

Claims

画像を部分領域に分割する分割手段と、
前記部分領域から第一の特徴量を抽出する抽出手段と、
前記第一の特徴量に基づき、前記部分領域を統合して統合領域を生成する統合手段と、
統合領域特徴量として、少なくとも、前記統合領域に含まれる部分領域の第一の特徴量の統計値を算出する算出手段とを有する画像処理装置。
前記統合領域特徴量に基づき、対応する統合領域のカテゴリを認識する統合領域認識手段と、
前記第一の特徴量に基づき、対応する部分領域のカテゴリを認識する部分領域認識手段と、
前記統合領域認識手段および前記部分領域認識手段の認識結果を連結して第二の特徴量を生成する生成手段と、
前記第二の特徴量に基づき、対応する部分領域のカテゴリを判定する判定手段とを有する請求項1に記載された画像処理装置。
前記統合手段、前記算出手段および前記統合領域認識手段の処理は、前記統合領域の形状または大きさを変更して、所定回数、繰り返される請求項2に記載された画像処理装置。
前記統合領域特徴量に基づき、対応する統合領域のシーンのカテゴリを判別する第一の判別手段と、
前記第一の判別手段の判別結果を連結した特徴量に基づき、前記画像のシーンのカテゴリを判別する第二の判別手段を有する請求項1に記載された画像処理装置。
前記統合手段、前記算出手段および前記第一の判別手段の処理は、前記統合領域の形状または大きさを変更して、所定回数、繰り返される請求項4に記載された画像処理装置。
前記統合領域特徴量に基づき、対応する統合領域の物体尤度を推定する推定手段と、
前記物体尤度に基づき、物体に対応する統合領域を判定する判定手段と、
前記物体に対応すると判定された統合領域を包含する領域の第二の特徴量を抽出する手段と、
前記第二の特徴量に基づき、前記統合領域の物体のカテゴリを検出する検出手段とを有する請求項1に記載された画像処理装置。
前記算出手段は、前記統合領域の境界付近に位置する部分領域と、前記境界付近以外に位置する部分領域とを区別して前記統計値を算出する請求項6に記載された画像処理装置。
前記統合手段、前記算出手段および前記推定手段の処理は、前記統合領域の形状または大きさを変更して、所定回数、繰り返される請求項6または請求項7に記載された画像処理装置。
前記統合領域特徴量に基づき、対応する統合領域の顕著度を推定する推定手段と、
前記統合領域の顕著度を、当該統合領域に含まれる部分領域ごとに加算して、前記画像の主被写体に対応する部分領域の集合を検出する検出手段を有する請求項1に記載された画像処理装置。
前記算出手段は、前記統合領域の内部に位置する部分領域と、前記統合領域に含まれ、かつ、前記統合領域の境界に位置する部分領域と、前記統合領域に隣接する部分領域とを区別して前記統計値を算出する請求項9に記載された画像処理装置。
前記統合手段、前記算出手段および前記推定手段の処理は、前記統合領域の形状または大きさを変更して、所定回数、繰り返される請求項9または請求項10に記載された画像処理装置。
前記統計値は、前記第一の特徴量に基づき、予め用意されたコードブックの各特徴量に投票した結果を示す頻度ヒストグラムである請求項1から請求項11の何れか一項に記載された画像処理装置。
画像を部分領域に分割し、
前記部分領域から第一の特徴量を抽出し、
前記第一の特徴量に基づき、前記部分領域を統合して統合領域を生成し、
統合領域特徴量として、少なくとも、前記統合領域に含まれる部分領域の第一の特徴量の統計値を算出する画像処理方法。
コンピュータを請求項1から請求項12の何れか一項に記載された画像処理装置の各手段として機能させるためのプログラム。