JP5229575B2 - 画像処理装置および方法、並びにプログラム - Google Patents
画像処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- JP5229575B2 JP5229575B2 JP2009113413A JP2009113413A JP5229575B2 JP 5229575 B2 JP5229575 B2 JP 5229575B2 JP 2009113413 A JP2009113413 A JP 2009113413A JP 2009113413 A JP2009113413 A JP 2009113413A JP 5229575 B2 JP5229575 B2 JP 5229575B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- information
- map
- difference
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/162—Detection; Localisation; Normalisation using pixel segmentation or colour matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/167—Detection; Localisation; Normalisation using comparisons between temporally consecutive images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
本発明は画像処理装置および方法、並びにプログラムに関し、特に、より簡単に画像上の被写体の領域を特定できるようにした画像処理装置および方法、並びにプログラムに関する。
従来、画像上の被写体の領域を特定するための技術として、ビジュアルアテンションと呼ばれる技術が知られている(例えば、非特許文献1および2参照)。
ビジュアルアテンションでは、入力された入力画像から、輝度情報、色情報、エッジ情報が抽出され、それらの抽出された情報に基づいて、入力画像上の各領域における被写体の領域らしさを示す情報マップが、抽出された情報ごとに生成される。
そして、各情報マップがDOGフィルタを用いたフィルタ処理、または線形正規化により正規化されて足し合わされた後、さらに正規化されて、その結果得られた情報が被写体マップとされる。この被写体マップは、入力画像の各領域における被写体の領域らしさを示す情報であり、被写体マップを用いれば、入力画像上のどの領域に被写体が含まれているかを特定することができる。
ここで、入力画像からは、輝度情報として、入力画像の画素のR(赤)、G(緑)、およびB(青)の成分の平均値が抽出され、色情報として、入力画像の画素のRとGの成分の差分、およびBとY(黄色)の成分の差分が抽出される。また、入力画像からは、ガボアフィルタを用いて0度、45度、90度、135度の各方向のエッジ強度が抽出される。
Laurent Itti, Christof Koch, and Ernst Niebur, "A Model of Saliency-Based Visual Attention for Rapid Scene Analysis"
Laurent Itti, Christof Koch, "Feature combination strategies for saliency-based visual attention systems"
しかしながら、上述した技術では処理量が多く、被写体マップの生成に時間がかかってしまう。例えば、ガボアフィルタを用いたフィルタ処理は指数演算が必要であるため、処理量が多く、また、DOGフィルタはタップ数が多いため、DOGフィルタを用いたフィルタ処理の処理量も多くなってしまう。
なお、線形正規化により情報マップの正規化を行う場合には、正規化のための処理量を抑えることはできるが、正規化時に情報マップからノイズを除去することは困難であり、被写体マップによる被写体の検出精度が低下してしまう。すなわち、ノイズの領域が被写体の領域であると誤検出されてしまう場合があった。
さらに、被写体マップを得る処理をハードウェアで行おうとすると、ガボアフィルタの指数演算や、DOGフィルタのタップ数の影響により、回路規模が大きくなってしまう。
本発明は、このような状況に鑑みてなされたものであり、画像上の被写体の領域を特定するための情報を、より簡単かつ迅速に得ることができるようにするものである。
本発明の一側面の画像処理装置は、入力画像の各領域から抽出された所定の情報からなる抽出情報画像に基づいて、互いに異なる解像度の複数の前記抽出情報画像を生成する抽出情報画像生成手段と、前記複数の前記抽出情報画像のうちの所定の2つの前記抽出情報画像の差分を求めることにより、差分画像を生成する差分画像生成手段と、複数の前記差分画像を重み付き加算することにより、前記入力画像上の被写体の領域が有する特徴の特徴量を示す情報マップを生成する情報マップ生成手段と、前記情報マップの各領域の値から、前記情報マップの各領域の値の平均値を減算して、前記情報マップを正規化する正規化手段と、正規化された複数の前記情報マップを重み付き加算することにより、前記入力画像の各領域における前記被写体の領域らしさを示す被写体マップを生成する被写体マップ生成手段とを備える。
画像処理装置には、前記入力画像のいくつかの画素の画素値を、予め定められた係数を用いて重み付き加算することで、前記入力画像の各領域のエッジ強度を示す画像を、前記抽出情報画像として生成するエッジ画像生成手段をさらに設けることができる。
前記抽出情報画像生成手段には、前記抽出情報画像の互いに隣接する画素の画素値の平均値を、前記抽出情報画像とは異なる他の抽出情報画像の画素の画素値とすることにより、互いに異なる解像度の前記複数の前記抽出情報画像を生成させることができる。
本発明の一側面の画像処理方法またはプログラムは、入力画像の各領域から抽出された所定の情報からなる抽出情報画像に基づいて、互いに異なる解像度の複数の前記抽出情報画像を生成し、前記複数の前記抽出情報画像のうちの所定の2つの前記抽出情報画像の差分を求めることにより、差分画像を生成し、複数の前記差分画像を重み付き加算することにより、前記入力画像上の被写体の領域が有する特徴の特徴量を示す情報マップを生成し、前記情報マップの各領域の値から、前記情報マップの各領域の値の平均値を減算して、前記情報マップを正規化し、正規化された複数の前記情報マップを重み付き加算することにより、前記入力画像の各領域における前記被写体の領域らしさを示す被写体マップを生成するステップを含む。
本発明の一側面においては、入力画像の各領域から抽出された所定の情報からなる抽出情報画像に基づいて、互いに異なる解像度の複数の前記抽出情報画像が生成され、前記複数の前記抽出情報画像のうちの所定の2つの前記抽出情報画像の差分を求めることにより、差分画像が生成され、複数の前記差分画像を重み付き加算することにより、前記入力画像上の被写体の領域が有する特徴の特徴量を示す情報マップが生成され、前記情報マップの各領域の値から、前記情報マップの各領域の値の平均値が減算されて、前記情報マップが正規化され、正規化された複数の前記情報マップが重み付き加算されることにより、前記入力画像の各領域における前記被写体の領域らしさを示す被写体マップが生成される。
本発明の一側面によれば、画像上の被写体の領域を特定するための情報を、より簡単かつ迅速に得ることができる。
以下、図面を参照して、本発明を適用した実施の形態について説明する。
[画像処理装置の構成]
図1は、本発明を適用した画像処理装置の一実施の形態の構成例を示す図である。
図1は、本発明を適用した画像処理装置の一実施の形態の構成例を示す図である。
画像処理装置11は、輝度情報抽出部21、色情報抽出部22、エッジ情報抽出部23、顔情報抽出部24、動き情報抽出部25、被写体マップ生成部26、および被写体領域特定部27から構成される。
例えば、画像処理装置11は、被写体を含む入力画像を撮像する撮像装置などからなり、撮像により得られた入力画像が、輝度情報抽出部21乃至動き情報抽出部25および被写体領域特定部27に供給される。この入力画像は、Y(輝度)成分、Cr(色差)成分、およびCb(色差)成分からなる映像信号とされる。
輝度情報抽出部21乃至動き情報抽出部25は、供給された入力画像から所定の情報を抽出し、抽出した情報からなる抽出情報画像に基づいて、入力画像の各領域における被写体の領域らしさを示す情報マップを生成する。これらの情報マップに含まれる情報は、被写体の含まれる領域により多く含まれる特徴の特徴量を示す情報とされ、その情報が入力画像の各領域に対応させて並べられたものが情報マップとされる。つまり、情報マップは、入力画像の各領域における特徴量を示す情報であるといえる。
ここで、被写体とは、ユーザが入力画像を一瞥した場合に、ユーザが注目すると推定される入力画像上の物体、つまりユーザが目を向けると推定される物体をいう。したがって、被写体は必ずしも人に限られる訳ではない。また、輝度情報抽出部21乃至動き情報抽出部25では、情報マップとして、輝度情報マップ、色情報マップ、エッジ情報マップ、顔情報マップ、および動き情報マップが生成される。
具体的には、輝度情報抽出部21は、供給された入力画像のY(輝度)成分からなる輝度画像を抽出情報画像として輝度情報マップを生成し、被写体マップ生成部26に供給する。色情報抽出部22は、供給された入力画像のCr成分からなるCr画像およびCb成分からなるCb画像を抽出情報画像として色情報マップを生成し、被写体マップ生成部26に供給する。
エッジ情報抽出部23は、供給された入力画像の各領域のエッジ強度からなるエッジ画像を抽出情報画像としてエッジ情報マップを生成し、被写体マップ生成部26に供給する。顔情報抽出部24は、供給された入力画像の各領域における、被写体としての人の顔に関する情報からなる画像を抽出情報画像として顔情報マップを生成し、被写体マップ生成部26に供給する。動き情報抽出部25は、供給された入力画像の各領域における、動きに関する情報からなる画像を抽出情報画像として動き情報マップを生成し、被写体マップ生成部26に供給する。
被写体マップ生成部26は、輝度情報抽出部21乃至動き情報抽出部25から供給された情報マップを足し合わせて被写体マップを生成し、被写体領域特定部27に供給する。この被写体マップは、入力画像における被写体の含まれる領域を特定するための情報である。
被写体領域特定部27は、被写体マップ生成部26からの被写体マップを用いて、供給された入力画像上の被写体の領域を特定し、その特定結果を出力する。
[輝度情報抽出部の構成]
次に、図1の輝度情報抽出部21乃至動き情報抽出部25のより詳細な構成について説明する。
次に、図1の輝度情報抽出部21乃至動き情報抽出部25のより詳細な構成について説明する。
図2は、輝度情報抽出部21の構成例を示すブロック図である。
輝度情報抽出部21は、ピラミッド画像生成部51、差分算出部52、重み付き加算部53、および正規化部54から構成される。
ピラミッド画像生成部51は、供給された入力画像のY成分からなる画像を輝度画像とし、輝度画像を用いて、互いに解像度の異なる複数の輝度画像を生成し、それらの輝度画像を輝度のピラミッド画像として差分算出部52に供給する。ここで、入力画像から生成される輝度画像の画素の画素値は、その画素と同じ位置にある入力画像の画素のY成分の値とされる。
また、例えば、図3に示すように、レベルL1乃至レベルL7までの7つの解像度の階層のピラミッド画像L1乃至ピラミッド画像L7が生成される。なお、レベルL1のピラミッド画像L1が最も解像度が高く、レベルL1からレベルL7まで順番にピラミッド画像の解像度が低くなるようにされる。この場合、入力画像のY成分からなる、入力画像と同じ解像度(画素数)の輝度画像が、レベルL1のピラミッド画像L1とされる。
さらに、図4に示すように、レベルLi(但し、1≦i≦6)のピラミッド画像Liの互いに隣接する画素の画素値の平均値を求めることで、レベルL(i+1)のピラミッド画像L(i+1)が生成される。
すなわち、ピラミッド画像Liが図中、横方向に半分の画素数となるようにダウンコンバートされ、その結果得られた画像が画像Li’とされる。例えば、ピラミッド画像Liの横方向に互いに隣接する画素g1および画素g2の画素値の平均値が、画像Li’の画素g3の画素値とされる。
そして、さらに画像Li’が図中、縦方向に半分の画素数となるようにダウンコンバートされ、その結果得られた画像がレベルL(i+1)のピラミッド画像L(i+1)とされる。例えば、画像Li’の縦方向に互いに隣接する画素g3および画素g4の画素値の平均値が、ピラミッド画像L(i+1)の画素g5の画素値とされる。
図2の輝度情報抽出部21の説明に戻り、差分算出部52は、ピラミッド画像生成部51から供給された各階層のピラミッド画像のうち、互いに階層の異なる2つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めて輝度の差分画像を生成する。
なお、各階層のピラミッド画像は、それぞれ大きさ(画素数)が異なるので、差分画像の生成時には、より小さい方のピラミッド画像が、より大きいピラミッド画像に合わせてアップコンバートされる。
差分算出部52は、予め定められた数だけ輝度の差分画像を生成すると、生成したそれらの差分画像を重み付き加算部53に供給する。
重み付き加算部53は、差分算出部52から供給された差分画像を重み付き加算して輝度情報マップを生成し、正規化部54に供給する。正規化部54は、重み付き加算部53からの輝度情報マップを正規化して被写体マップ生成部26に供給する。
[色情報抽出部の構成]
図5は、色情報抽出部22の構成例を示すブロック図である。
図5は、色情報抽出部22の構成例を示すブロック図である。
色情報抽出部22は、ピラミッド画像生成部81、ピラミッド画像生成部82、差分算出部83、差分算出部84、重み付き加算部85、重み付き加算部86、正規化部87、および正規化部88から構成される。
ピラミッド画像生成部81は、供給された入力画像のCr成分からなる画像をCr画像とし、ピラミッド画像生成部82は、供給された入力画像のCb成分からなる画像をCb画像とする。ここで、Cr画像およびCb画像の画素の画素値は、その画素と同じ位置にある入力画像の画素のCr成分およびCb成分の値とされる。
ピラミッド画像生成部81およびピラミッド画像生成部82は、Cr画像およびCb画像を用いて、互いに解像度の異なる複数のCr画像およびCb画像を生成する。そして、ピラミッド画像生成部81およびピラミッド画像生成部82は、生成したそれらのCr画像およびCb画像を、Crのピラミッド画像、およびCbのピラミッド画像として差分算出部83および差分算出部84に供給する。
例えば、Crのピラミッド画像、およびCbのピラミッド画像として、輝度のピラミッド画像の場合と同様に、それぞれレベルL1乃至レベルL7までの7つの解像度の階層のピラミッド画像が生成される。
差分算出部83および差分算出部84は、ピラミッド画像生成部81およびピラミッド画像生成部82からの複数のピラミッド画像のうち、互いに階層の異なる2つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めてCrの差分画像、およびCbの差分画像を生成する。
なお、各階層のピラミッド画像は、それぞれ大きさが異なるので、差分画像の生成時には、より小さい方のピラミッド画像がアップコンバートされて、より大きい方のピラミッド画像と同じ大きさとされる。
差分算出部83および差分算出部84は、予め定められた数だけCrの差分画像およびCbの差分画像を生成すると、生成したそれらの差分画像を重み付き加算部85および重み付き加算部86に供給する。
重み付き加算部85および重み付き加算部86は、差分算出部83および差分算出部84から供給された差分画像を重み付き加算して、Crの色情報マップおよびCbの色情報マップを生成し、正規化部87および正規化部88に供給する。正規化部87および正規化部88は、重み付き加算部85および重み付き加算部86からの色情報マップを正規化して被写体マップ生成部26に供給する。
[エッジ情報抽出部の構成]
図6は、エッジ情報抽出部23の構成例を示すブロック図である。
図6は、エッジ情報抽出部23の構成例を示すブロック図である。
エッジ情報抽出部23は、エッジ画像生成部111乃至エッジ画像生成部114、ピラミッド画像生成部115乃至ピラミッド画像生成部118、差分算出部119乃至差分算出部122、重み付き加算部123乃至重み付き加算部126、および正規化部127乃至正規化部130から構成される。
エッジ画像生成部111乃至エッジ画像生成部114は、供給された入力画像に対して、フィルタ処理を施し、例えば0度、45度、90度、および135度の方向のエッジ強度を画素の画素値とするエッジ画像を、抽出情報画像として生成する。
例えば、エッジ画像生成部111により生成されるエッジ画像の画素の画素値は、その画素と同じ位置にある入力画像の画素における0度の方向のエッジ強度を示している。なお、各エッジの方向とは、入力画像上の所定の方向を基準として定められた方向をいう。
エッジ画像生成部111乃至エッジ画像生成部114は、生成したエッジ画像を、ピラミッド画像生成部115乃至ピラミッド画像生成部118に供給する。
ピラミッド画像生成部115乃至ピラミッド画像生成部118は、エッジ画像生成部111乃至エッジ画像生成部114から供給されたエッジ画像を用いて、互いに解像度の異なる複数のエッジ画像を生成する。そして、ピラミッド画像生成部115乃至ピラミッド画像生成部118は、生成したそれらの各方向のエッジ画像を、エッジの各方向のピラミッド画像として差分算出部119乃至差分算出部122に供給する。
例えば、エッジの各方向のピラミッド画像として、輝度のピラミッド画像の場合と同様に、それぞれレベルL1乃至レベルL7までの7つの階層のピラミッド画像が生成される。
差分算出部119乃至差分算出部122は、ピラミッド画像生成部115乃至ピラミッド画像生成部118からの複数のピラミッド画像のうち、互いに階層の異なる2つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めてエッジの各方向の差分画像を生成する。
なお、各階層のピラミッド画像は、それぞれ大きさが異なるので、差分画像の生成時には、より小さい方のピラミッド画像がアップコンバートされて、より大きい方のピラミッド画像と同じ大きさとされる。
差分算出部119乃至差分算出部122は、予め定められた数だけエッジの各方向の差分画像を生成すると、生成したそれらの差分画像を重み付き加算部123乃至重み付き加算部126に供給する。
重み付き加算部123乃至重み付き加算部126は、差分算出部119乃至差分算出部122から供給された差分画像を重み付き加算して、各方向のエッジ情報マップを生成し、正規化部127乃至正規化部130に供給する。正規化部127乃至正規化部130は、重み付き加算部123乃至重み付き加算部126からのエッジ情報マップを正規化して被写体マップ生成部26に供給する。
[顔情報抽出部の構成]
図7は、顔情報抽出部24の構成例を示すブロック図である。
図7は、顔情報抽出部24の構成例を示すブロック図である。
顔情報抽出部24は、顔検出部161、顔情報マップ生成部162、および正規化部163から構成される。
顔検出部161は、供給された入力画像から被写体としての人の顔の領域を検出し、その検出結果を抽出情報画像として顔情報マップ生成部162に供給する。顔情報マップ生成部162は、顔検出部161からの検出結果に基づいて顔情報マップを生成し、正規化部163に供給する。正規化部163は、顔情報マップ生成部162から供給された顔情報マップを正規化して被写体マップ生成部26に供給する。
[動き情報抽出部の構成]
図8は、動き情報抽出部25の構成例を示すブロック図である。
図8は、動き情報抽出部25の構成例を示すブロック図である。
動き情報抽出部25は、ローカルモーションベクタ抽出部191、グローバルモーションベクタ抽出部192、差分算出部193、および正規化部194から構成される。
ローカルモーションベクタ抽出部191は、供給された入力画像と、その入力画像とは撮像時刻の異なる他の入力画像とを用いて、入力画像の各画素の動きベクトルをローカルモーションベクタとして検出し、差分算出部193に供給する。
グローバルモーションベクタ抽出部192は、供給された入力画像と、その入力画像とは撮像時刻の異なる他の入力画像とを用いて、グローバルモーションベクタを検出し、差分算出部193に供給する。このグローバルモーションベクタは、入力画像全体の動きの方向を示しており、例えば、入力画像の各画素の動きベクトルの平均値とされる。
差分算出部193は、ローカルモーションベクタ抽出部191からのローカルモーションベクタと、グローバルモーションベクタ抽出部192からのグローバルモーションベクタとの差分の絶対値を求めて動きの差分画像を生成し、正規化部194に供給する。
ここで、動きの差分画像における画素の画素値は、その画素と同じ位置にある入力画像の画素のローカルモーションベクタと、入力画像全体のグローバルモーションベクタとの差分の絶対値とされる。したがって、動きの差分画像の画素の画素値は、入力画像の画素に表示される物体(または背景)の入力画像全体に対する、つまり背景に対する相対的な動き量を示している。
正規化部194は、差分算出部193からの動きの差分画像を正規化することにより、動き情報マップを生成し、被写体マップ生成部26に供給する。なお、より詳細には、動き情報マップの生成は、入力画像として、時間的に連続して撮像されたものが供給された場合、例えば、入力画像が連写されたものや、動画像である場合に行われる。
[被写体領域特定処理の説明]
ところで、画像処理装置11に入力画像が供給されると、画像処理装置11は、被写体領域特定処理を開始して、入力画像における被写体の領域を特定し、その特定結果を出力する。以下、図9のフローチャートを参照して、被写体領域特定処理について説明する。
ところで、画像処理装置11に入力画像が供給されると、画像処理装置11は、被写体領域特定処理を開始して、入力画像における被写体の領域を特定し、その特定結果を出力する。以下、図9のフローチャートを参照して、被写体領域特定処理について説明する。
ステップS11において、輝度情報抽出部21は、輝度情報抽出処理を行って、供給された入力画像に基づいて輝度情報マップを生成し、被写体マップ生成部26に供給する。そして、ステップS12において、色情報抽出部22は、色情報抽出処理を行って、供給された入力画像に基づいて色情報マップを生成し、被写体マップ生成部26に供給する。
ステップS13において、エッジ情報抽出部23は、エッジ情報抽出処理を行って、供給された入力画像に基づいてエッジ情報マップを生成し、被写体マップ生成部26に供給する。また、ステップS14において、顔情報抽出部24は、顔情報抽出処理を行って、供給された入力画像に基づいて顔情報マップを生成し、被写体マップ生成部26に供給する。さらに、ステップS15において、動き情報抽出部25は、動き情報抽出処理を行って、供給された入力画像に基づいて動き情報マップを生成し、被写体マップ生成部26に供給する。
なお、これらの輝度情報抽出処理、色情報抽出処理、エッジ情報抽出処理、顔情報抽出処理、および動き情報抽出処理の詳細は後述する。また、より詳細には、動き情報抽出処理は、時間的に連続して撮像された入力画像が、動き情報抽出部25に供給されなかった場合には行われない。
ステップS16において、被写体マップ生成部26は、輝度情報抽出部21乃至動き情報抽出部25から供給された輝度情報マップ乃至動き情報マップを重み付き加算して被写体マップを生成し、被写体領域特定部27に供給する。
例えば、被写体マップ生成部26は、情報マップごとに予め求められている重みである、情報重みWbを用いて各情報マップを線形結合する。つまり、線形結合により得られる情報マップの所定の画素を注目画素とすると、注目画素の画素値は、注目画素と同じ位置にある各情報マップの画素の画素値に、情報マップごとの情報重みWbを乗算して得られた値の総和とされる。
次に、被写体マップ生成部26は、線形結合により得られた情報マップ(以下、線形結合情報マップとも称する)の各画素の画素値に、シグモイド関数による演算処理を施す。
より詳細には、被写体マップ生成部26は、シグモイド関数をテーブル化して得られた変換テーブルを予め保持している。この変換テーブルは、入力としての所定の値と、その値をシグモイド関数に代入して得られる出力値とからなり、変換テーブルにより線形結合情報マップを変換すれば、シグモイド関数により線形結合情報マップを変換した場合と同様の情報マップが得られる。
例えば、シグモイド関数は、次式(1)に示す双曲線余弦関数(ハイパボリックタンジェント関数)とされる。
f(x)=a×tanh(x×b) ・・・(1)
なお、式(1)において、aおよびbは、予め定められた定数を示しており、xは、これから変換しようとする線形結合情報マップの画素の画素値とされる。
このような双曲線余弦関数がシグモイド関数とされる場合、変換テーブルは、入力値xの範囲を−2から2までの範囲に制限し、入力値xを1/128単位で離散化して得られたテーブルとされる。このような変換テーブルでは、入力値xが−2より小さい場合には、その入力値xが−2であるとして扱われ、入力値xが2より大きい場合には、その入力値xが2であるとして扱われる。さらに、変換テーブルでは、入力値xが大きくなるほど、出力値f(x)が大きくなる。
被写体マップ生成部26は、線形結合情報マップの画素の画素値を、その画素値x(入力値x)から、画素値xに対応する出力値f(x)に変更することにより、線形結合情報マップを変換する。すなわち、被写体マップ生成部26は、変換テーブルを用いて変換された線形結合情報マップを、シグモイド関数による演算処理が施された線形結合情報マップとする。
このように、変換テーブルを用いて線形結合情報マップを変換することにより、シグモイド関数自体を用いて変換する場合と比べて、より簡単かつ迅速に線形結合情報マップの変換を行うことができる。
さらに、被写体マップ生成部26は、変換テーブルで変換された線形結合情報マップの各画素の画素値に、画素ごとに予め求められた重みである、被写体重みWcを乗算し、被写体マップとする。
すなわち、これから求めようとする被写体マップ上の注目する画素を注目画素とすると、変換された線形結合情報マップの注目画素と同じ位置の画素の画素値に、被写体重みWcが乗算された値が、注目画素の画素値とされる。
なお、より詳細には、被写体マップの生成に用いられる色情報マップとして、Crの色情報マップと、Cbの色情報マップとが用いられ、エッジ情報マップとして、0度、45度、90度、135度のそれぞれの方向のエッジ情報マップが用いられる。また、情報重みWbおよび被写体重みWcは、予め学習により求められている。
このようにして被写体マップが生成されると、被写体マップは、被写体マップ生成部26から被写体領域特定部27に供給され、処理はステップS17に進む。
ステップS17において、被写体領域特定部27は、被写体マップ生成部26から供給された被写体マップを用いて、供給された入力画像上の被写体の領域を特定する。
例えば、被写体マップの画素の画素値が大きいほど、その画素と同じ位置の入力画像の画素の領域が、被写体の領域らしいとされるものとする。この場合、被写体領域特定部27は、被写体マップ上において、予め定められた閾値以上の画素値を有する、互いに隣接する画素からなり、所定の面積(画素数)以上の領域を検出し、検出された領域に対応する入力画像上の領域が被写体の含まれる領域であるとする。
被写体領域特定部27は、入力画像上の被写体の含まれる領域を検出すると、その検出結果を後段に出力して、被写体領域特定処理は終了する。
このようにして得られた被写体の領域の検出結果は、入力画像の被写体の領域に所定の画像処理を施すなど、各種の処理に用いられる。また、被写体の領域の特定結果は、例えば、入力画像をスライドショー表示するときに、入力画像の被写体の領域を画面の中央に表示させる画像処理などに利用されてもよい。
なお、被写体領域特定部27が、被写体の領域の検出結果を用いて、入力画像に所定の処理を施して出力するようにしてもよい。
以上のようにして、画像処理装置11は、入力画像から被写体マップを生成し、被写体マップを用いて、入力画像における被写体の領域を特定する。
[輝度情報抽出処理の説明]
次に、図9のステップS11乃至ステップS15の処理のそれぞれに対応する処理について説明する。
次に、図9のステップS11乃至ステップS15の処理のそれぞれに対応する処理について説明する。
まず、図10のフローチャートを参照して、図9のステップS11の処理に対応する輝度情報抽出処理について説明する。
ステップS41において、ピラミッド画像生成部51は、供給された入力画像のY(輝度)成分からなる輝度画像に基づいて、レベルL1乃至レベルL7の各階層のピラミッド画像を生成し、差分算出部52に供給する。
従来のビジュアルアテンションでは、8つの階層のピラミッド画像が生成されていたが、画像処理装置11では、7つの階層のピラミッド画像が生成されるため、ピラミッド画像の生成枚数が1枚削減されたことになる。したがって、従来よりも、より簡単かつ迅速に輝度情報マップを得ることができるようになる。
なお、ピラミッド画像の階層数を7としても、被写体マップによる被写体の領域の特定精度に影響がないことが出願人により確認されており、画像処理装置11によれば、被写体の領域の特定精度を低下させることなく、より迅速に被写体マップを得ることができる。
また、従来のビジュアルアテンションでは、入力画像のR、G、およびBの各成分の平均値を求めることで、輝度画像の生成が行われていた。これに対して、画像処理装置11では、入力画像のY(輝度)成分をそのまま輝度画像とすることで、より簡単かつ迅速に輝度画像を得ることができる。また、これにより、輝度画像を生成するための回路を設ける必要がなくなり、画像処理装置11の小型化を図ることができる。
ステップS42において、差分算出部52は、ピラミッド画像生成部51から供給されたピラミッド画像を用いて差分画像を生成し、重み付き加算部53に供給する。
具体的には、差分算出部52は、各階層の輝度のピラミッド画像のうち、レベルL2およびレベルL5、レベルL2およびレベルL6、レベルL3およびレベルL6、レベルL3およびレベルL7、並びにレベルL4およびレベルL7の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計5つの輝度の差分画像が得られる。
例えば、レベルL2およびレベルL5の組み合わせの差分画像が生成される場合、レベルL5のピラミッド画像が、レベルL2のピラミッド画像の大きさに合わせてアップコンバートされる。
つまり、アップコンバート前のレベルL5のピラミッド画像の1つの画素の画素値が、その画素に対応する、アップコンバート後のレベルL5のピラミッド画像の互いに隣接するいくつかの画素の画素値とされる。そして、レベルL5のピラミッド画像の画素の画素値と、その画素と同じ位置にあるレベルL2のピラミッド画像の画素の画素値との差分が求められ、その差分が差分画像の画素の画素値とされる。
これらの差分画像を生成する処理は、輝度画像にバンドパスフィルタを用いたフィルタ処理を施して、輝度画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像の画素値の差、つまり入力画像における所定の画素における輝度と、その画素の周囲の平均的な輝度との差分を示している。
一般的に、画像において周囲との輝度の差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。
ステップS43において、重み付き加算部53は、差分算出部52から供給された差分画像に基づいて輝度情報マップを生成し、正規化部54に供給する。
例えば、重み付き加算部53は、供給された5つの差分画像を、予め求められた差分画像ごとの重みである差分重みWaにより重み付き加算し、輝度情報マップを生成する。すなわち、各差分画像の同じ位置にある画素の画素値のそれぞれに差分重みWaが乗算されて、差分重みWaが乗算された画素値の総和が求められる。
なお、輝度情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。また、差分重みWaは、予め学習により求められたものとされる。
次に、重み付き加算部53は、得られた輝度情報マップの画素の画素値を、被写体マップ生成部26が保持している変換テーブルと同じ変換テーブルを用いて変換し、その結果得られた輝度情報マップを、正規化部54に供給する。
重み付き加算部53においても、変換テーブルを用いて輝度情報マップを変換することで、より簡単かつ迅速に変換を行うことができる。
ステップS44において、正規化部54は、重み付き加算部53からの輝度情報マップを正規化し、その結果得られた輝度情報マップを、最終的な輝度情報マップとして被写体マップ生成部26に供給する。そして、輝度情報マップが出力されると、輝度情報抽出処理は終了し、その後処理は図9のステップS12に進む。
例えば、まず正規化部54は、輝度情報マップを線形正規化する。例えば、輝度情報マップの画素値の範囲が、0から200までの範囲である場合、線形正規化により、画素値の範囲が0から255までの範囲となるようにされる。
次に、正規化部54は、線形正規化された輝度情報マップの各画素の画素値の平均値を求める。すなわち、輝度情報マップの全ての画素の画素値の合計値が、輝度情報マップの画素数で除算されて平均値が求められる。
さらに、正規化部54は、線形正規化された輝度情報マップの各画素の画素値から、求めた平均値を減算した値を、最終的な輝度情報マップの画素の画素値とする。
なお、より詳細には、画素値から平均値を減算した値が負の値(0未満の値)となる輝度情報マップの画素については、その画素の画素値は0とされる。すなわち、線形正規化された輝度情報マップの画素のうち、画素値が平均値以下である画素は、最終的な画素値が0とされる。
ここで、輝度情報マップに含まれるノイズの値は、輝度情報マップの各画素の平均値以下であることが殆どであるため、各画素の画素値から平均値を減算することにより、輝度情報マップから確実にノイズが除去される。これは、ノイズ部分の画素の画素値が0とされるためである。また、線形正規化された輝度情報マップにおいて、入力画像上の被写体の領域と同じ位置の画素の画素値は、平均値よりも大きい場合が殆どであるため、輝度情報マップの画素値から平均値を減算して正規化しても、被写体の検出精度が低下してしまうこともない。
このように、輝度情報マップを線形正規化し、線形正規化後の輝度情報マップの画素値から平均値を減算することで、輝度情報マップを、より簡単かつ迅速に正規化することができる。特に、輝度情報抽出処理部21によれば、線形正規化と平均値の計算、および減算という簡単な処理で、DOGフィルタを用いた場合と同程度のノイズ除去効果を得ることがきる。
すなわち、従来、情報マップの正規化は、DOGフィルタを用いたフィルタ処理により行われていたが、このフィルタ処理は処理量が多く、迅速に正規化を行うことができなかった。これに対して、正規化部54では、DOGフィルタを用いた場合と比べて、より簡単な処理で、より迅速に輝度情報マップを正規化することができる。しかも、正規化によって、輝度情報マップからより確実にノイズを除去することができ、被写体の領域の検出精度も低下することはない。
以上のようにして、輝度情報抽出部21は、入力画像から輝度情報マップを生成する。このようにして得られた輝度情報マップによれば、入力画像において、輝度の差の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。
[色情報抽出処理の説明]
次に、図11のフローチャートを参照して、図9のステップS12の処理に対応する色情報抽出処理について説明する。
次に、図11のフローチャートを参照して、図9のステップS12の処理に対応する色情報抽出処理について説明する。
ステップS71において、ピラミッド画像生成部81およびピラミッド画像生成部82は、供給された入力画像の色差成分からなるCr画像およびCb画像に基づいて、レベルL1乃至レベルL7の各階層のピラミッド画像を生成する。すなわち、図3および図4を参照して説明した処理と同様の処理が行われ、Crのピラミッド画像およびCbのピラミッド画像が生成される。
ピラミッド画像生成部81およびピラミッド画像生成部82は、生成したピラミッド画像を差分算出部83および差分算出部84に供給する。
このように、色情報抽出部22においても、輝度情報抽出部21における場合と同様に、7つの階層のピラミッド画像を生成すればよいため、従来よりも、より簡単かつ迅速に色情報マップを得ることができるようになる。
また、従来のビジュアルアテンションでは、色情報として、入力画像の画素のRとGの成分の差分、およびBとY(黄色)の成分の差分が抽出されていたため、それらの差分を求める処理が必要であった。
これに対して、画像処理装置11では、入力画像の色差成分をそのままCr画像およびCb画像とすることで、より簡単かつ迅速に、色に関する抽出情報画像を得ることができる。また、これにより、差分を求めるための回路を設ける必要がなくなり、画像処理装置11の小型化を図ることができる。
ステップS72において、差分算出部83および差分算出部84は、ピラミッド画像生成部81およびピラミッド画像生成部82から供給されたピラミッド画像に基づいて差分画像を生成し、重み付き加算部85および重み付き加算部86に供給する。
例えば、差分算出部83は、各階層のCrのピラミッド画像のうち、レベルL2およびレベルL5、レベルL2およびレベルL6、レベルL3およびレベルL6、レベルL3およびレベルL7、並びにレベルL4およびレベルL7の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計5つのCrの差分画像が得られる。なお、差分画像の生成時には、画素数の大きい方のピラミッド画像に合わせて、小さい方のピラミッド画像がアップコンバートされる。
また、差分算出部84も、差分算出部83と同様の処理を行って、合計5つのCbの差分画像を生成する。
これらの差分画像を生成する処理は、Cr画像またはCb画像にバンドパスフィルタを用いたフィルタ処理を施して、Cr画像またはCb画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像の差、つまり入力画像の画素における特定の色の成分と、その画素の周囲の平均的な特定の色の成分との差分を示している。
一般的に、画像において周囲と比べて目立つ色の領域、つまり特定の色成分の周囲との差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。
ステップS73において、重み付き加算部85および重み付き加算部86は、差分算出部83および差分算出部84から供給された差分画像に基づいてCrの色情報マップおよびCbの色情報マップを生成し、正規化部87および正規化部88に供給する。
例えば、重み付き加算部85は、差分算出部83から供給されたCrの差分画像を、予め求められた差分画像ごとの差分重みWaにより重み付き加算して、1つのCrの色情報マップとする。次に、重み付き加算部85は、得られたCrの色情報マップの画素の画素値を、被写体マップ生成部26が保持している変換テーブルと同じ変換テーブルを用いて変換し、その結果得られた色情報マップを、正規化部87に供給する。
同様に、重み付き加算部86は、差分算出部84から供給されたCbの差分画像を、予め求められた差分重みWaにより重み付き加算して、1つのCbの色情報マップとし、そのCbの色情報マップを、変換テーブルを用いて変換して正規化部88に供給する。
重み付き加算部85および重み付き加算部86においても、変換テーブルを用いて色情報マップを変換することで、より簡単かつ迅速に変換を行うことができる。なお、色情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。
ステップS74において、正規化部87および正規化部88は、重み付き加算部85および重み付き加算部86からの色情報マップを正規化し、その結果得られた色情報マップを、最終的な色情報マップとして被写体マップ生成部26に供給する。例えば、正規化部87および正規化部88は、図10のステップS44の処理と同様の処理を行って、Crの色情報マップおよびCbの色情報マップを正規化する。
そして、色情報マップが出力されると、色情報抽出処理は終了し、その後処理は図9のステップS13に進む。
このように、色情報マップを線形正規化し、線形正規化後の色情報マップの画素値から平均値を減算することで、色情報マップを、より簡単かつ迅速に正規化することができる。
このようにして、色情報抽出部22は、入力画像から特定の色の成分の画像を抽出し、その画像から色情報マップを生成する。このようにして得られた色情報マップによれば、入力画像において、周囲と比較して特定の色成分の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。
なお、色情報抽出部22では、入力画像から抽出される色の情報として、CrおよびCbの成分が抽出されると説明したが、R(赤)の成分と、G(緑)の成分の差分、およびB(青)の成分と、Y(黄)の成分との差分が抽出されるようにしてもよい。
[エッジ情報抽出処理の説明]
次に、図12のフローチャートを参照して、図9のステップS13の処理に対応するエッジ情報抽出処理について説明する。
次に、図12のフローチャートを参照して、図9のステップS13の処理に対応するエッジ情報抽出処理について説明する。
ステップS111において、エッジ画像生成部111乃至エッジ画像生成部114は、供給された入力画像に基づいて、0度、45度、90度、および135度の方向のエッジ強度を画素の画素値とするエッジ画像を生成する。
例えば、エッジ画像生成部111乃至エッジ画像生成部114は、図13に示すフィルタを予め保持しており、これらのフィルタを用いて抽出情報画像としてのエッジ画像を生成する。図13の例では、filter1、filter2、filter45、およびfilter135のそれぞれが、1つのフィルタとされる。
filter1における数値「−1,−2,−1,2,4,2,−1,−2,−1」は、入力画像の画素に乗算される係数を示している。
ここで、入力画像における所定の方向、例えば図4における図中、横方向をx方向とし、x方向に垂直な方向、つまり図4中、縦方向をy方向と呼ぶこととする。
この場合、filter1を用いたフィルタ処理では、x方向に連続して並ぶ9個の画素の画素値のそれぞれに、係数「−1」,「−2」,「−1」,「2」,「4」,「2」,「−1」,「−2」,「−1」のそれぞれが乗算され、係数が乗算された画素値の和が「16」で除算される。そして、その結果得られた値が、連続して並ぶ9個の画素の中心にある画素に対して、filter1を用いたフィルタ処理を施して得られた画素値とされる。
図13において、filter1の係数は、それらの係数が乗算される画素と同じ配置で並べられている。したがって、例えば、x方向に並ぶ画素の両端に位置する画素に係数「−1」が乗算され、x方向に並ぶ画素のうち、中心に位置する画素に係数「4」が乗算される。
なお、図13において、他のフィルタの係数も、それらの係数が乗算される画素と同じ配置で並べられている。
また、filter2を用いたフィルタ処理では、x方向に連続して並ぶ8個の画素の画素値のそれぞれに、係数「1」,「3」,「3」,「1」,「1」,「3」,「3」,「1」のそれぞれが乗算され、係数が乗算された画素値の和が「16」で除算される。そして、その結果得られた値が、連続して並ぶ8個の画素の中心にある画素(より詳細には、図中、左から4番目または5番目の係数「1」が乗算される画素)に対して、filter2を用いたフィルタ処理を施して得られた画素値とされる。
filter45を用いたフィルタ処理では、x方向に3画素、y方向に3画素の合計9画素からなる領域内の画素が用いられ、それらの画素の画素値に、係数「0」,「1」,「2」,「−1」,「0」,「1」,「−2」,「−1」,「0」が乗算される。そして、係数が乗算された画素の画素値の和が「8」で除算され、その結果得られた値が、処理対象となる領域の中心に位置する画素に対して、filter45を用いたフィルタ処理を施して得られた画素値とされる。したがって、例えば、処理対象の領域の中心に位置する画素には、係数「0」が乗算され、その画素の図中、左側に隣接する画素には、係数「−1」が乗算される。
また、filter135を用いたフィルタ処理では、x方向に3画素、y方向に3画素の合計9画素からなる領域内の画素が用いられ、それらの画素の画素値に、係数「2」,「1」,「0」,「1」,「0」,「−1」,「0」,「−1」,「−2」が乗算される。そして、係数が乗算された画素の画素値の和が「8」で除算され、その結果得られた値が、処理対象となる領域の中心に位置する画素に対して、filter135を用いたフィルタ処理を施して得られた画素値とされる。
例えば、エッジ画像生成部111は、入力画像にfilter1を用いたフィルタ処理を施し、その結果得られた画像に、さらにfilter2を用いたフィルタ処理を施して得られた画像を、0度方向のエッジ画像とする。また、エッジ画像生成部112は、入力画像にfilter45を用いたフィルタ処理を施して得られた画像を、45度方向のエッジ画像とする。
エッジ画像生成部113は、入力画像にfilter2を用いたフィルタ処理を施し、その結果得られた画像に、さらにfilter1を用いたフィルタ処理を施して得られた画像を、90度方向のエッジ画像とする。さらに、エッジ画像生成部114は、入力画像にfilter135を用いたフィルタ処理を施して得られた画像を、135度方向のエッジ画像とする。
このように、エッジ画像生成部111乃至エッジ画像生成部114は、予め保持しているfilter1、filter2、filter45、およびfilter135の少なくとも1つを用いて各方向のエッジ画像を生成する。これらのフィルタは、ガボアフィルタを近似して得られたフィルタであり、ガボアフィルタに近い特性を有している。
したがって、これらのフィルタを用いることで、ガボアフィルタを用いた場合と同様の各方向のエッジ画像が得られる。しかも、これらのフィルタを用いたフィルタ処理は、予め定められた所定の係数を用いた重み付き加算の計算であり、フィルタ処理に指数演算等の複雑な演算が不要である。
従来のビジュアルアテンションでは、エッジ画像を得るためにガボアフィルタを用いていたが、画像処理装置11では、filter1、filter2、filter45、およびfilter135を組み合わせてフィルタ処理を行うことで、より簡単かつ迅速にエッジ画像を得ることができる。
なお、エッジ画像の生成に用いるフィルタは、図13に示した例に限らず、Sobel FilterとRoberts Filterを組み合わせたものなどとされてもよい。そのような場合、例えば、図14に示すフィルタが用いられる。
図14の例では、filter0、filter90、filter45、およびfilter135のそれぞれが、1つのフィルタとされる。なお、図14において、各フィルタの係数は、それらの係数が乗算される入力画像の画素と同じ配置で並べられている。
filter0における数値「1,2,1,0,0,0,−1,−2,−1」は、入力画像の画素に乗算される係数を示している。filter0を用いたフィルタ処理では、x方向に3画素、y方向に3画素の合計9画素からなる領域内の画素が用いられ、それらの画素の画素値に、係数「1」,「2」,「1」,「0」,「0」,「0」,「−1」,「−2」,「−1」が乗算される。そして、係数が乗算された画素の画素値の和が「8」で除算され、その結果得られた値が、処理対象となる領域の中心に位置する画素に対して、filter0を用いたフィルタ処理を施して得られた画素値とされる。したがって、例えば、処理対象の領域の中心に位置する画素には、係数「0」が乗算され、その画素の図中、上側に隣接する画素には、係数「2」が乗算される。
同様に、filter90を用いたフィルタ処理では、x方向に3画素、y方向に3画素の合計9画素からなる領域内の画素が用いられ、それらの画素の画素値に、係数「1」,「0」,「−1」,「2」,「0」,「−2」,「1」,「0」,「−1」が乗算される。そして、係数が乗算された画素の画素値の和が「8」で除算され、その結果得られた値が、処理対象となる領域の中心に位置する画素に対して、filter90を用いたフィルタ処理を施して得られた画素値とされる。
また、filter45を用いたフィルタ処理では、x方向に2画素、y方向に2画素の合計4画素からなる領域内の画素が用いられ、それらの画素の画素値に、係数「0」,「1」,「−1」,「0」が乗算される。そして、係数が乗算された画素の画素値の和が「2」で除算され、その結果得られた値が、処理対象となる領域の中心に位置する画素(より詳細には、図中、左上の係数「0」が乗算される画素)に対して、filter45を用いたフィルタ処理を施して得られた画素値とされる。
さらに、filter135を用いたフィルタ処理では、x方向に2画素、y方向に2画素の合計4画素からなる領域内の画素が用いられ、それらの画素の画素値に、係数「1」,「0」,「0」,「−1」が乗算される。そして、係数が乗算された画素の画素値の和が「2」で除算され、その結果得られた値が、処理対象となる領域の中心に位置する画素(より詳細には、図中、左上の係数「1」が乗算される画素)に対して、filter135を用いたフィルタ処理を施して得られた画素値とされる。
例えば、エッジ画像生成部111乃至エッジ画像生成部114は、filter0、filter45、filter90、およびfilter135のそれぞれを用いたフィルタ処理を入力画像に施し、その結果得られた画像を、0度、45度、90度、および135度の方向のエッジ画像とする。
このように、図14の例における場合も、フィルタ処理に指数演算等の複雑な演算処理が不要であるため、より簡単かつ迅速にエッジ画像を得ることができる。
図12のフローチャートの説明に戻り、エッジ画像生成部111乃至エッジ画像生成部114は、各方向のエッジ画像を生成すると、生成したエッジ画像をピラミッド画像生成部115乃至ピラミッド画像生成部118に供給する。
ステップS112において、ピラミッド画像生成部115乃至ピラミッド画像生成部118は、エッジ画像生成部111乃至エッジ画像生成部114からのエッジ画像に基づいて、ピラミッド画像を生成し、差分算出部119乃至差分算出部122に供給する。
すなわち、図3および図4を参照して説明した処理と同様の処理が行われ、各方向のエッジ画像について、レベルL1乃至レベルL7の各階層のピラミッド画像が生成される。エッジ情報抽出部23においても、輝度情報抽出部21における場合と同様に、7つの階層のピラミッド画像を生成すればよいため、従来よりも、より簡単かつ迅速にエッジ情報マップを得ることができるようになる。
ステップS113において、差分算出部119乃至差分算出部122は、ピラミッド画像生成部115乃至ピラミッド画像生成部118から供給されたピラミッド画像に基づいて差分画像を生成し、重み付き加算部123乃至重み付き加算部126に供給する。
例えば、差分算出部119は、各階層の0度方向のピラミッド画像のうち、レベルL2およびレベルL5、レベルL2およびレベルL6、レベルL3およびレベルL6、レベルL3およびレベルL7、並びにレベルL4およびレベルL7の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計5つの差分画像が得られる。なお、差分画像の生成時には、画素数の大きい方のピラミッド画像に合わせて、小さい方のピラミッド画像がアップコンバートされる。
また、差分算出部120乃至差分算出部122も、差分算出部119と同様の処理を行って、合計5つの差分画像を生成する。
これらの差分画像を生成する処理は、エッジ画像にバンドパスフィルタを用いたフィルタ処理を施して、エッジ画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像のエッジ強度の差、つまり入力画像の所定の位置のエッジ強度と、その位置の周囲の平均的なエッジ強度との差を示している。
一般的に、画像において周囲と比べてエッジ強度の強い領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。
ステップS114において、重み付き加算部123乃至重み付き加算部126は、差分算出部119乃至差分算出部122から供給された差分画像に基づいて、0度、45度、90度、および135度の方向のエッジ情報マップを生成する。
例えば、重み付き加算部123は、差分算出部119から供給された0度方向の差分画像を、予め求められた差分画像ごとの差分重みWaにより重み付き加算して、1つの0度方向のエッジ情報マップとする。次に、重み付き加算部123は、得られた0度方向のエッジ情報マップの画素の画素値を、被写体マップ生成部26が保持している変換テーブルと同じ変換テーブルを用いて変換し、その結果得られたエッジ情報マップを、正規化部127に供給する。
同様に、重み付き加算部124乃至重み付き加算部126は、差分算出部120乃至差分算出部122から供給された各方向の差分画像を、予め求められた差分重みWaにより重み付き加算して、1つのエッジ情報マップとする。そして、重み付き加算部124乃至重み付き加算部126は、得られたエッジマップを、変換テーブルを用いて変換し、正規化部128乃至正規化部130に供給する。
重み付き加算部123乃至重み付き加算部126においても、変換テーブルを用いてエッジ情報マップを変換することで、より簡単かつ迅速に変換を行うことができる。なお、エッジ情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。
ステップS115において、正規化部127乃至正規化部130は、重み付き加算部123乃至重み付き加算部126からのエッジ情報マップを正規化し、その結果得られたエッジ情報マップを、最終的なエッジ情報マップとして被写体マップ生成部26に供給する。例えば、正規化部127乃至正規化部130は、図10のステップS44の処理と同様の処理を行って、各方向のエッジ情報マップを正規化する。
そして、エッジ情報マップが出力されると、エッジ情報抽出処理は終了し、その後処理は図9のステップS14に進む。
このように、エッジ情報マップを線形正規化し、線形正規化後のエッジ情報マップから画素値の平均値を減算することで、エッジ情報マップを、より簡単かつ迅速に正規化することができる。
このようにして、エッジ情報抽出部23は、入力画像から特定の方向のエッジの差分画像を求め、その差分画像からエッジ情報マップを生成する。このようにして得られた方向ごとのエッジ情報マップによれば、入力画像において、周囲の領域と比べて、特定の方向へのエッジ強度の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。
[顔情報抽出処理の説明]
次に、図15のフローチャートを参照して、図9のステップS14の処理に対応する顔情報抽出処理について説明する。
次に、図15のフローチャートを参照して、図9のステップS14の処理に対応する顔情報抽出処理について説明する。
ステップS141において、顔検出部161は、供給された入力画像から、人の顔の領域を検出し、その検出結果を顔情報マップ生成部162に供給する。例えば、顔検出部161は、入力画像に対してガボアフィルタを用いたフィルタ処理を施し、入力画像から人の目、口、鼻などの特徴的な領域を抽出することにより、入力画像における顔の領域を検出する。
ステップS142において、顔情報マップ生成部162は、顔検出部161からの検出結果を用いて顔情報マップを生成し、正規化部163に供給する。
例えば、入力画像からの顔の検出結果として、顔が含まれると推定される入力画像上の矩形の領域(以下、候補領域と称する)が複数検出されたとする。ここで、入力画像上の所定の位置近傍に複数の候補領域が検出され、それらの候補領域の一部が互いに重なることもあることとする。すなわち、例えば、入力画像上の1つの顔の領域に対して、その顔を含む複数の領域が候補領域として得られた場合には、それらの候補領域の一部が互いに重なることになる。
顔情報マップ生成部162は、顔の検出により得られた候補領域に対して、候補領域ごとに、入力画像と同じ大きさの検出画像を生成する。この検出画像は、検出画像上における処理対象の候補領域と同じ領域内の画素の画素値が、候補領域とは異なる領域内の画素の画素値よりも大きい値とされる。
また、検出画像上の画素の画素値は、より人の顔が含まれる可能性が高いと推定された候補領域の画素と同じ位置の画素ほど、画素値が大きくなる。顔情報マップ生成部162は、このようにして得られた検出画像を足し合わせて1つの画像を生成し、顔情報マップとする。したがって、顔情報マップ上において、入力画像上の複数の候補領域の一部が重なる領域と同じの領域の画素の画素値は大きくなり、より顔が含まれる可能性が高いことになる。
ステップS143において、正規化部163は、顔情報マップ生成部162から供給された顔情報マップを正規化し、その結果得られた顔情報マップを、最終的な顔情報マップとして被写体マップ生成部26に供給する。例えば、正規化部163は、図10のステップS44の処理と同様の処理を行って、顔情報マップを正規化する。
そして、顔情報マップが出力されると、顔情報抽出処理は終了し、その後処理は図9のステップS15に進む。
このようにして、顔情報抽出部24は、入力画像から顔を検出し、その検出結果から顔情報マップを生成する。このようにして得られた顔情報マップによれば、入力画像において、被写体としての人の顔の領域を簡単に検出することができる。
[動き情報抽出処理の説明]
さらに、図16のフローチャートを参照して、図9のステップS15の処理に対応する動き情報抽出処理について説明する。
さらに、図16のフローチャートを参照して、図9のステップS15の処理に対応する動き情報抽出処理について説明する。
ステップS171において、ローカルモーションベクタ抽出部191は、供給された入力画像を用いて、勾配法などにより入力画像の各画素のローカルモーションベクタを検出し、差分算出部193に供給する。
ステップS172において、グローバルモーションベクタ抽出部192は、供給された入力画像を用いてグローバルモーションベクタを検出し、差分算出部193に供給する。
ステップS173において、差分算出部193は、ローカルモーションベクタ抽出部191からのローカルモーションベクタと、グローバルモーションベクタ抽出部192からのグローバルモーションベクタとの差分の絶対値を求めて動きの差分画像を生成する。そして、差分算出部193は、生成した動きの差分画像を正規化部194に供給する。
ステップS174において、正規化部194は、差分算出部193から供給された差分画像を正規化することで動き情報マップを生成し、その結果得られた動き情報マップを、最終的な動き情報マップとして被写体マップ生成部26に供給する。例えば、正規化部194は、図10のステップS44の処理と同様の処理を行って、動き情報マップを正規化する。
そして、動き情報マップが出力されると、動き情報抽出処理は終了し、その後処理は図9のステップS16に進む。
このようにして、動き情報抽出部25は、入力画像から動きを検出し、その検出結果から動き情報マップを生成する。このようにして得られた動き情報マップによれば、入力画像において、動きのある物体の領域を簡単に検出することができる。入力画像において、動きのある物体の領域は、入力画像を一瞥した観察者の目に付きやすい領域であり、被写体である可能性が高い。
以上において説明した輝度情報抽出処理乃至動き情報抽出処理により、各情報マップが得られ、これらの情報マップから被写体マップが生成される。
以上のように、各情報マップの正規化において、情報マップを線形正規化し、線形正規化後の情報マップの画素値から平均値を減算することで、より簡単かつ迅速に情報マップを正規化することができる。これにより、画像上の被写体の領域を特定するための情報マップを、より簡単かつ迅速に得ることができる。しかも、情報マップの正規化時に、情報マップの画素値から平均値を減算することにより、より簡単な処理で、より確実にノイズを除去することができる。
[重みの学習]
ところで、画像処理装置11では、入力画像から被写体の領域がより多く有すると推定される複数の情報を抽出し、それらの情報を用いて被写体マップを生成することにより、入力画像からより確実に被写体の領域を検出している。被写体マップの画素値は、入力画像上において、入力画像を一瞥した観察者がより目を向けると推定される領域ほど大きくなるので、被写体が人である場合に限らず、動物や植物、建物などの一般的なものであっても、検出することができる。
ところで、画像処理装置11では、入力画像から被写体の領域がより多く有すると推定される複数の情報を抽出し、それらの情報を用いて被写体マップを生成することにより、入力画像からより確実に被写体の領域を検出している。被写体マップの画素値は、入力画像上において、入力画像を一瞥した観察者がより目を向けると推定される領域ほど大きくなるので、被写体が人である場合に限らず、動物や植物、建物などの一般的なものであっても、検出することができる。
このような被写体マップは、入力画像から、輝度、色、エッジ、顔、動きなどの情報が抽出されて生成される。すなわち、それらの抽出された情報のピラミッド画像から得られた差分画像が、差分重みWaにより重み付き加算されて情報マップとされ、それらの情報マップが、情報重みWbにより重み付き加算される。そして、さらに、その結果得られた画像(マップ)に被写体重みWcが乗算されて被写体マップとされる。
被写体マップの生成時に用いられるこれらの差分重みWa、情報重みWb、および被写体重みWcは、例えばニューラルネットワークによる学習により求められる。これらの重みの学習時に用いられる学習画像として、人に限らず、一般的な被写体が含まれる画像を用いれば、学習により得られた重みを用いて生成される被写体マップにより、入力画像から、一般的な被写体をより確実に検出することができるようになる。
以下、被写体マップを生成するのに用いられる差分重みWa、情報重みWb、および被写体重みWcの学習について説明する。
学習時には、図17に示すように、初期値が与えられた差分重みWa、情報重みWb、および被写体重みWcと、被写体が含まれた学習画像とが用いられて、被写体マップが生成される。
具体的には、予め用意された学習画像から、被写体マップ生成時に抽出される情報ごとの差分画像An(m)(但し、1≦n≦N,1≦m≦6)が生成される。ここで、差分画像An(1)乃至差分画像An(6)は、学習画像から抽出された、1つの情報についての差分画像である。
例えば、差分画像A1(1)乃至差分画像A1(6)は、学習画像から得られた輝度のピラミッド画像が用いられて生成された、輝度の差分画像とされる。また、例えば、差分画像AN(1)乃至差分画像AN(6)は、学習画像から得られた0度方向のエッジのピラミッド画像が用いられて生成された、0度方向の差分画像とされる。
なお、図17では、学習画像から抽出される情報ごとに、6つの差分画像が得られる例について示されているが、差分画像の数はいくつであってもよい。例えば、画像処理装置11の例では、差分画像の数は5つとされている。
学習画像から情報ごとの差分画像An(m)が得られると、それらの差分画像と、差分画像ごとの差分重みWaとから情報マップが生成される。なお、以下、差分画像An(m)に乗算される差分重みWaを、差分重みWan(m)とも称する。
例えば、差分画像A1(1)乃至差分画像A1(6)のそれぞれが、差分画像ごとの差分重みWa1(1)乃至差分重みWa1(6)により重み付き加算されて、情報マップB1inとされる。さらに、この情報マップB1inに対して、上述した式(1)、つまりシグモイド関数f(x)による演算が行われ、その結果として情報マップB1outが得られる。
すなわち、情報マップB1inの画素の画素値xが、式(1)に代入されて得られた値f(x)が、その画素と同じ位置にある情報マップB1outの画素の画素値とされる。このようにして得られた情報マップB1outは、画像処理装置11において生成される情報マップ、例えば輝度情報マップに相当する。
なお、シグモイド関数f(x)は、双曲線余弦関数に限らず、どのような関数であってもよい。例えば、f(x)は、理想的なモデルでは、x≧0である場合に値「1」を出力し、x<0である場合に値「−1」を出力する関数とされる。
以上のようにして、N個の情報マップB1out乃至情報マップBNoutが得られると、それらの情報マップBnout(但し、1≦n≦N)が、情報マップごとの情報重みWbにより重み付き加算されて、被写体マップCinとされる。そして、この被写体マップCinに対して、シグモイド関数f(x)による演算が行われ、その結果として被写体マップCoutが得られる。さらに、この被写体マップCoutに被写体重みWcが乗算されて正規化され、最終的な被写体マップとされる。
なお、より詳細には、被写体マップCinの生成時には、差分画像を生成することなく得られる情報マップ、例えば、顔情報マップなどの情報マップも用いられて重み付き加算が行われる。また、以下では、情報マップBnoutに乗算される情報重みWbを、情報重みWbnとも称する。
このようにして、学習時に被写体マップを生成する処理は、Forward Propagationと呼ばれる。被写体マップが生成されると、続いて図18に示すように、Back Propagationと呼ばれる処理が行われて、差分重みWa、情報重みWb、および被写体重みWcが更新される。Back Propagationと呼ばれる処理では、生成された被写体マップと、学習画像に対して予め用意された、学習画像上における被写体の領域を示す情報である画像ラベルとが用いられて、各重みを増減させるべき値である重みの差分が求められる。
ここで、画像ラベルは、学習画像と同じ大きさの画像であり、学習画像上の被写体の領域の画素と同じ位置にある画素の画素値が1とされ、学習画像上の被写体のない領域の画素と同じ位置にある画素の画素値が0とされる画像である。
Back Propagationでは、まず、被写体マップと画像ラベルとの差分が求められ、その結果得られた画像が評価マップとされる。そして、評価マップと、被写体マップCinとから、次式(2)により、被写体重みWcを変化させるべき量である被写体重み差分△Wcが求められる。
△Wc=η×Cin×△C ・・・(2)
式(2)において、ηは、予め定められた定数である学習速度を示しており、Cinは、被写体マップCinを示している。なお、より詳細には、式(2)におけるCinは、被写体マップCinの1つの画素の画素値とされ、被写体重み差分△Wcは画素ごとに求められる。また、△Cは、被写体マップの差分であり、次式(3)により求められる。
△C=EV×f’(Cin) ・・・(3)
式(3)において、EVは評価マップを示しており、f’(Cin)は、シグモイド関数f(x)を微分して得られる関数に、被写体マップCinを代入して得られる値である。関数f(x)を微分して得られる関数f’(x)は、具体的には次式(4)に示される関数である。
f’(x)=a×b×sech(x×b)2 ・・・(4)
このようにして被写体重み差分△Wcが得られると、被写体重み差分△Wcが、これまでの被写体重みWcに加算されて更新され、新たな被写体重みWcが求められる。
続いて、更新された被写体重みWcと、被写体マップ生成時に生成された情報マップBninとが用いられて次式(5)により、情報重みWbnを変化させるべき量である情報重み差分△Wbnが求められる。
△Wbn=η×Bnin×△Bn ・・・(5)
式(5)において、ηは、予め定められた定数である学習速度を示しており、Bninは、情報マップBninを示している。なお、より詳細には、式(5)におけるBninは、情報マップBninの1つの画素の画素値とされ、情報重み差分△Wbnは画素ごとに求められる。また、△Bnは情報マップの差分であり、次式(6)により求められる。
△Bn=△C×f’(Bnin)×Wc ・・・(6)
式(6)において、△Cは上述した式(3)を計算して得られる値を示しており、f’(Bnin)は、シグモイド関数f(x)を微分して得られる関数に、情報マップBninを代入して得られる値である。また、Wcは更新された被写体重みWcである。
このようにして、情報マップBninに対する情報重み差分△Wbnが得られると、情報重み差分△Wbnが、情報マップBninの情報重みWbnに加算されて更新され、新たな情報重みWbnが求められる。
さらに、更新された情報重みWbnと、被写体マップ生成時に生成された差分画像An(m)とが用いられて次式(7)により、差分重みWaを変化させるべき量である差分重みの差分△Wan(m)が求められる。
△Wan(m)=η×An(m)×△An(m) ・・・(7)
式(7)において、ηは、予め定められた定数である学習速度を示しており、An(m)は差分画像An(m)を示している。なお、より詳細には、式(7)におけるAn(m)は、差分画像An(m)の1つの画素の画素値とされ、差分△Wan(m)は画素ごとに求められる。また、△An(m)は差分画像の差分であり、次式(8)により求められる。
△An(m)=△Bn×f’(An(m))×Wbn ・・・(8)
式(8)において、△Bnは上述した式(6)を計算して得られる値を示しており、f’(An(m))は、シグモイド関数f(x)を微分して得られる関数に、差分画像An(m)を代入して得られる値である。また、Wbnは更新された情報重みWbnである。
このようにして、差分画像An(m)に対する差分重みの差分△Wan(m)が得られると、差分重みの差分△Wan(m)が、差分画像An(m)の差分重みWan(m)に加算されて更新され、新たな差分重みWan(m)が求められる。
そして、以上のようにして更新された差分重みWa、情報重みWb、および被写体重みWcと、学習画像とが用いられて上述した処理が繰り返され、最終的な差分重みWa、情報重みWb、および被写体重みWcが得られる。
差分重みWan(m)、情報重みWbn、および被写体重みWcを繰り返し更新する処理は、例えば、評価マップの画素の画素値の最大値の絶対値が、予め定められた閾値以下であり、かつ予め定められた回数以上、各重みの更新が行われるまで行われる。すなわち、重みを更新する処理は、画像から充分な精度で被写体を抽出できる被写体マップが得られるまで行われる。
このようにして、ニューラルネットワークによる学習では、予め与えられた重みが用いられて生成された被写体マップと、画像ラベルとから評価マップが生成され、さらに評価マップから逆算により、各重みを変化させるべき変化量である重みの差分が求められる。
ここで、画像ラベルは、学習画像上の被写体の領域を示す情報であるので、いわば被写体マップの正解を示す情報ということができる。したがって、被写体マップと、画像ラベルとの差分である評価マップは、理想的な被写体マップと、与えられた重みを用いて生成された被写体マップとの誤差を示しており、評価マップを用いて逆算すれば、与えられた重みと、理想的な重みとの誤差が求まる。
そして、求められた誤差は、与えられた重みを変化させるべき変化量であり、この変化量を重みに加算すれば、現時点における理想的な重みが求まることになる。このようにして新たに求められた重みを用いて被写体マップを生成すれば、その被写体マップにより、画像からより確実に被写体を検出することができるようになる。ニューラルネットワークによる学習では、重みの変化量として、差分△Wan(m)、情報重み差分△Wbn、および被写体重み差分△Wcが求められ、各重みが更新される。
なお、ニューラルネットワークによる学習は、例えば「Richar O. Duda, Peter E. Hart, David G. Stork著 ”Patten Classification” WILEY-INTERSCIENCE ISBN 0-471-05669-3」に詳細に記載されている。
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図19は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)601,ROM(Read Only Memory)602,RAM(Random Access Memory)603は、バス604により相互に接続されている。
バス604には、さらに、入出力インターフェース605が接続されている。入出力インターフェース605には、キーボード、マウス、マイクロホンなどよりなる入力部606、ディスプレイ、スピーカなどよりなる出力部607、ハードディスクや不揮発性のメモリなどよりなる記録部608、ネットワークインターフェースなどよりなる通信部609、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア611を駆動するドライブ610が接続されている。
以上のように構成されるコンピュータでは、CPU601が、例えば、記録部608に記録されているプログラムを、入出力インターフェース605及びバス604を介して、RAM603にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU601)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア611に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア611をドライブ610に装着することにより、入出力インターフェース605を介して、記録部608にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部609で受信し、記録部608にインストールすることができる。その他、プログラムは、ROM602や記録部608に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
11 画像処理装置, 21 輝度情報抽出部, 22 色情報抽出部, 23 エッジ情報抽出部, 24 顔情報抽出部, 25 動き情報抽出部, 26 被写体マップ生成部, 53 重み付き加算部, 54 正規化部, 85 重み付き加算部, 86 重み付き加算部, 87 正規化部, 88 正規化部, 123 重み付き加算部, 124 重み付き加算部, 125 重み付き加算部, 126 重み付き加算部, 127 正規化部, 128 正規化部, 129 正規化部, 130 正規化部
Claims (6)
- 入力画像の各領域から抽出された所定の情報からなる抽出情報画像に基づいて、互いに異なる解像度の複数の前記抽出情報画像を生成する抽出情報画像生成手段と、
前記複数の前記抽出情報画像のうちの所定の2つの前記抽出情報画像の差分を求めることにより、差分画像を生成する差分画像生成手段と、
複数の前記差分画像を重み付き加算することにより、前記入力画像上の被写体の領域が有する特徴の特徴量を示す情報マップを生成する情報マップ生成手段と、
前記情報マップの各領域の値から、前記情報マップの各領域の値の平均値を減算して、前記情報マップを正規化する正規化手段と、
正規化された複数の前記情報マップを重み付き加算することにより、前記入力画像の各領域における前記被写体の領域らしさを示す被写体マップを生成する被写体マップ生成手段と
を備える画像処理装置。 - 前記入力画像のいくつかの画素の画素値を、予め定められた係数を用いて重み付き加算することで、前記入力画像の各領域のエッジ強度を示す画像を、前記抽出情報画像として生成するエッジ画像生成手段をさらに備える
請求項1に記載の画像処理装置。 - 前記抽出情報画像生成手段は、前記抽出情報画像の互いに隣接する画素の画素値の平均値を、前記抽出情報画像とは異なる他の抽出情報画像の画素の画素値とすることにより、互いに異なる解像度の前記複数の前記抽出情報画像を生成する
請求項1に記載の画像処理装置。 - 前記入力画像は、輝度成分および色差成分からなる画像とされ、
前記抽出情報画像は、前記所定の情報としての前記入力画像の輝度成分または色差成分からなる画像とされる
請求項1に記載の画像処理装置。 - 入力画像の各領域から抽出された所定の情報からなる抽出情報画像に基づいて、互いに異なる解像度の複数の前記抽出情報画像を生成する抽出情報画像生成手段と、
前記複数の前記抽出情報画像のうちの所定の2つの前記抽出情報画像の差分を求めることにより、差分画像を生成する差分画像生成手段と、
複数の前記差分画像を重み付き加算することにより、前記入力画像上の被写体の領域が有する特徴の特徴量を示す情報マップを生成する情報マップ生成手段と、
前記情報マップの各領域の値から、前記情報マップの各領域の値の平均値を減算して、前記情報マップを正規化する正規化手段と、
正規化された複数の前記情報マップを重み付き加算することにより、前記入力画像の各領域における前記被写体の領域らしさを示す被写体マップを生成する被写体マップ生成手段と
を備える画像処理装置の画像処理方法であって、
前記抽出情報画像生成手段が、前記入力画像から前記抽出情報画像を生成し、
前記差分画像生成手段が、前記複数の前記抽出情報画像から前記差分画像を生成し、
前記情報マップ生成手段が、前記複数の前記差分画像を重み付き加算して前記情報マップを生成し、
前記正規化手段が、前記情報マップを正規化し、
前記被写体マップ生成手段が、前記情報マップを重み付き加算して前記被写体マップを生成する
ステップを含む画像処理方法。 - 入力画像の各領域から抽出された所定の情報からなる抽出情報画像に基づいて、互いに異なる解像度の複数の前記抽出情報画像を生成し、
前記複数の前記抽出情報画像のうちの所定の2つの前記抽出情報画像の差分を求めることにより、差分画像を生成し、
複数の前記差分画像を重み付き加算することにより、前記入力画像上の被写体の領域が有する特徴の特徴量を示す情報マップを生成し、
前記情報マップの各領域の値から、前記情報マップの各領域の値の平均値を減算して、前記情報マップを正規化し、
正規化された複数の前記情報マップを重み付き加算することにより、前記入力画像の各領域における前記被写体の領域らしさを示す被写体マップを生成する
ステップを含む処理をコンピュータに実行させるプログラム。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009113413A JP5229575B2 (ja) | 2009-05-08 | 2009-05-08 | 画像処理装置および方法、並びにプログラム |
TW099112223A TWI423168B (zh) | 2009-05-08 | 2010-04-19 | Image processing apparatus and method, and a computer readable medium |
KR1020107029726A KR20120018267A (ko) | 2009-05-08 | 2010-04-30 | 화상 처리 장치 및 방법, 및 프로그램 |
CN201080002008.1A CN102084396B (zh) | 2009-05-08 | 2010-04-30 | 图像处理设备和方法 |
EP10772165A EP2299403A1 (en) | 2009-05-08 | 2010-04-30 | Image processing device, method, and program |
US12/999,771 US8577137B2 (en) | 2009-05-08 | 2010-04-30 | Image processing apparatus and method, and program |
PCT/JP2010/057648 WO2010128646A1 (ja) | 2009-05-08 | 2010-04-30 | 画像処理装置および方法、並びにプログラム |
MYPI2010006206A MY154278A (en) | 2009-05-08 | 2010-04-30 | Image processing apparatus and method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009113413A JP5229575B2 (ja) | 2009-05-08 | 2009-05-08 | 画像処理装置および方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010262506A JP2010262506A (ja) | 2010-11-18 |
JP5229575B2 true JP5229575B2 (ja) | 2013-07-03 |
Family
ID=43050147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009113413A Expired - Fee Related JP5229575B2 (ja) | 2009-05-08 | 2009-05-08 | 画像処理装置および方法、並びにプログラム |
Country Status (8)
Country | Link |
---|---|
US (1) | US8577137B2 (ja) |
EP (1) | EP2299403A1 (ja) |
JP (1) | JP5229575B2 (ja) |
KR (1) | KR20120018267A (ja) |
CN (1) | CN102084396B (ja) |
MY (1) | MY154278A (ja) |
TW (1) | TWI423168B (ja) |
WO (1) | WO2010128646A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011247957A (ja) * | 2010-05-24 | 2011-12-08 | Toshiba Corp | パターン検査方法および半導体装置の製造方法 |
US9143749B2 (en) * | 2011-10-11 | 2015-09-22 | Sony Corporation | Light sensitive, low height, and high dynamic range camera |
JP5826001B2 (ja) * | 2011-11-30 | 2015-12-02 | キヤノン株式会社 | 画像処理装置、及びその制御方法 |
CN103313049A (zh) * | 2012-03-14 | 2013-09-18 | 富士通株式会社 | 图像压缩方法和装置 |
JP5895720B2 (ja) * | 2012-06-06 | 2016-03-30 | 富士通株式会社 | 被写体追跡装置、被写体追跡方法及び被写体追跡用コンピュータプログラム |
US9518935B2 (en) * | 2013-07-29 | 2016-12-13 | Kla-Tencor Corporation | Monitoring changes in photomask defectivity |
US10805649B2 (en) | 2017-01-04 | 2020-10-13 | Samsung Electronics Co., Ltd. | System and method for blending multiple frames into a single frame |
US10451563B2 (en) | 2017-02-21 | 2019-10-22 | Kla-Tencor Corporation | Inspection of photomasks by comparing two photomasks |
JP7091031B2 (ja) * | 2017-07-27 | 2022-06-27 | サムスン エレクトロニクス カンパニー リミテッド | 撮像装置 |
JP6919539B2 (ja) | 2017-12-06 | 2021-08-18 | 富士通株式会社 | 演算処理装置および演算処理装置の制御方法 |
JP2021005301A (ja) * | 2019-06-27 | 2021-01-14 | 株式会社パスコ | 建物抽出処理装置及びプログラム |
CN110728662B (zh) * | 2019-09-26 | 2022-06-28 | 中国国家铁路集团有限公司 | 轨道类型识别方法及装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3362364B2 (ja) * | 1992-07-17 | 2003-01-07 | オムロン株式会社 | ファジイ推論システムおよび方法ならびに前件部処理装置 |
US6005978A (en) * | 1996-02-07 | 1999-12-21 | Cognex Corporation | Robust search for image features across image sequences exhibiting non-uniform changes in brightness |
JP3706755B2 (ja) * | 1998-11-09 | 2005-10-19 | キヤノン株式会社 | 画像処理装置及び方法並びに記憶媒体 |
US6674915B1 (en) * | 1999-10-07 | 2004-01-06 | Sony Corporation | Descriptors adjustment when using steerable pyramid to extract features for content based search |
US6785427B1 (en) * | 2000-09-20 | 2004-08-31 | Arcsoft, Inc. | Image matching using resolution pyramids with geometric constraints |
JP3658761B2 (ja) * | 2000-12-12 | 2005-06-08 | 日本電気株式会社 | 画像検索システムとその画像検索方法、及び画像検索プログラムを記録した記憶媒体 |
US6670963B2 (en) * | 2001-01-17 | 2003-12-30 | Tektronix, Inc. | Visual attention model |
US20020154833A1 (en) * | 2001-03-08 | 2002-10-24 | Christof Koch | Computation of intrinsic perceptual saliency in visual environments, and applications |
DE60218928D1 (de) * | 2001-04-30 | 2007-05-03 | St Microelectronics Pvt Ltd | Effiziente Niedrigleistungsbewegungsschätzung für eine Video-Vollbildsequenz |
US7343028B2 (en) * | 2003-05-19 | 2008-03-11 | Fujifilm Corporation | Method and apparatus for red-eye detection |
US20050047647A1 (en) * | 2003-06-10 | 2005-03-03 | Ueli Rutishauser | System and method for attentional selection |
JP4277739B2 (ja) * | 2004-06-08 | 2009-06-10 | ソニー株式会社 | 映像デコーダ |
WO2006002320A2 (en) * | 2004-06-23 | 2006-01-05 | Strider Labs, Inc. | System and method for 3d object recognition using range and intensity |
CN1296861C (zh) * | 2004-09-10 | 2007-01-24 | 倪蔚民 | 基于图像纹理特征随机度信息的模式识别方法 |
JP4985394B2 (ja) * | 2005-03-15 | 2012-07-25 | オムロン株式会社 | 画像処理装置および方法、プログラム、並びに記録媒体 |
US7334901B2 (en) * | 2005-04-22 | 2008-02-26 | Ostendo Technologies, Inc. | Low profile, large screen display using a rear projection array system |
US7426312B2 (en) * | 2005-07-05 | 2008-09-16 | Xerox Corporation | Contrast enhancement of images |
US7623683B2 (en) * | 2006-04-13 | 2009-11-24 | Hewlett-Packard Development Company, L.P. | Combining multiple exposure images to increase dynamic range |
JP2008210009A (ja) * | 2007-02-23 | 2008-09-11 | Fujifilm Corp | 画像識別装置,画像識別方法,撮像装置及び撮像方法 |
CN101408942B (zh) * | 2008-04-17 | 2011-01-12 | 浙江师范大学 | 一种复杂背景下的车牌定位方法 |
JP2010055194A (ja) * | 2008-08-26 | 2010-03-11 | Sony Corp | 画像処理装置および方法、学習装置および方法、並びにプログラム |
-
2009
- 2009-05-08 JP JP2009113413A patent/JP5229575B2/ja not_active Expired - Fee Related
-
2010
- 2010-04-19 TW TW099112223A patent/TWI423168B/zh not_active IP Right Cessation
- 2010-04-30 EP EP10772165A patent/EP2299403A1/en not_active Withdrawn
- 2010-04-30 CN CN201080002008.1A patent/CN102084396B/zh not_active Expired - Fee Related
- 2010-04-30 US US12/999,771 patent/US8577137B2/en not_active Expired - Fee Related
- 2010-04-30 MY MYPI2010006206A patent/MY154278A/en unknown
- 2010-04-30 WO PCT/JP2010/057648 patent/WO2010128646A1/ja active Application Filing
- 2010-04-30 KR KR1020107029726A patent/KR20120018267A/ko not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
TW201044324A (en) | 2010-12-16 |
JP2010262506A (ja) | 2010-11-18 |
US20120121173A1 (en) | 2012-05-17 |
EP2299403A1 (en) | 2011-03-23 |
MY154278A (en) | 2015-05-29 |
CN102084396B (zh) | 2014-02-05 |
KR20120018267A (ko) | 2012-03-02 |
US8577137B2 (en) | 2013-11-05 |
CN102084396A (zh) | 2011-06-01 |
TWI423168B (zh) | 2014-01-11 |
WO2010128646A1 (ja) | 2010-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5229575B2 (ja) | 画像処理装置および方法、並びにプログラム | |
Chen et al. | Robust image and video dehazing with visual artifact suppression via gradient residual minimization | |
CN110008817B (zh) | 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN111402146B (zh) | 图像处理方法以及图像处理装置 | |
WO2010024265A1 (ja) | 画像処理装置および方法、学習装置および方法、並びにプログラム | |
US9344690B2 (en) | Image demosaicing | |
KR20210139450A (ko) | 이미지 디스플레이 방법 및 디바이스 | |
CN109472757B (zh) | 一种基于生成对抗神经网络的图像去台标方法 | |
CN113284061B (zh) | 一种基于梯度网络的水下图像增强方法 | |
CN112365429B (zh) | 一种知识驱动的图像模糊区域清晰度增强方法 | |
US12205249B2 (en) | Intelligent portrait photography enhancement system | |
Singh et al. | Weighted least squares based detail enhanced exposure fusion | |
JP2014063359A (ja) | 信号処理装置および信号処理方法、出力装置および出力方法、並びにプログラム | |
RU2583725C1 (ru) | Способ и система для обработки изображения | |
Prakash et al. | Color image demosaicing using sparse based radial basis function network | |
JP7512150B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
Wu et al. | Underwater image restoration with multi-scale shallow feature extraction and detail enhancement network | |
JP2023003764A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2011018199A (ja) | 画像処理装置および方法、並びにプログラム | |
Li et al. | Underwater Image Enhancement Based on the Fusion of PUIENet and NAFNet | |
Jung et al. | Deep low-contrast image enhancement using structure tensor representation | |
Irshad | Quality assessment of enhanced underwater images with convolutional neural networks | |
Liu et al. | FFENet: Learning Frequency Features for Low Light Enhancement | |
Chaczko et al. | Teaching Computer Vision for telemedicine systems using OpenCV | |
Hossain | Image restoration using distance transformation and neighboring pixel method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130306 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160329 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |