[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP3726973B2 - Subject recognition apparatus and method - Google Patents

Subject recognition apparatus and method Download PDF

Info

Publication number
JP3726973B2
JP3726973B2 JP13451296A JP13451296A JP3726973B2 JP 3726973 B2 JP3726973 B2 JP 3726973B2 JP 13451296 A JP13451296 A JP 13451296A JP 13451296 A JP13451296 A JP 13451296A JP 3726973 B2 JP3726973 B2 JP 3726973B2
Authority
JP
Japan
Prior art keywords
subject
image
model
recognition
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP13451296A
Other languages
Japanese (ja)
Other versions
JPH09322050A (en
Inventor
太郎 水藤
忠房 富高
正和 小柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP13451296A priority Critical patent/JP3726973B2/en
Publication of JPH09322050A publication Critical patent/JPH09322050A/en
Application granted granted Critical
Publication of JP3726973B2 publication Critical patent/JP3726973B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Studio Circuits (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、被写体認識装置および方法に関し、特に、適応的に被写体のモデルを変形することにより、より確実に被写体を認識することができるようにした被写体認識装置および方法に関する。
【0002】
【従来の技術】
所定の被写体をビデオカメラにより自動的に追尾させようとする場合、追尾すべき被写体を予め登録する処理が必要となる。従来、このような登録をするのに、被写体の画像を背景画像とともに撮像し、撮像した結果得られる画像中において、被写体を枠で囲むなどして指定し、その枠の中の画像データの特徴量を求め、その特徴量を有する画像を被写体の画像として認識するようにしている。
【0003】
【発明が解決しようとする課題】
このように、従来の装置においては、背景(枠の外部のデータ)を考慮せずに、被写体(枠の内部のデータ)の特徴量を抽出するようにしている。このため、背景に被写体に似た画像が存在するような場合、被写体を正確に認識することができなくなる課題があった。
【0004】
本発明はこのような状況に鑑みてなされたものであり、被写体を確実に認識することができるようにするものである。
【0005】
【課題を解決するための手段】
請求項1に記載の被写体認識装置は、被写体と背景を含む画像の画像データを記憶する記憶手段と、記憶手段に記憶された画像データの画像中の、所定の枠の内の領域の画像の特徴量に基づいて、被写体の画像の特徴量のモデルである被写体モデルを生成するモデル生成手段と、記憶手段に記憶された画像データの画像中の、枠の外の領域において、モデル生成手段により生成された被写体モデルに含まれる画素の数を計数する計数手段と、計数手段により計数された値が、基準値より大きいとき、被写体モデルの範囲を狭くするよう、被写体モデルを変形する変形手段と、変形手段により変形された被写体モデルに基づいて、被写体を認識する認識手段とを備えることを特徴とする。
【0006】
請求項8に記載の被写体認識方法は、被写体と背景を含む画像の画像データを記憶し、記憶された画像データの画像中の、所定の枠の内の領域の画像の特徴量に基づいて、被写体の画像の特徴量のモデルである被写体モデルを生成し、記憶された画像データの画像中の、枠の外の領域において、生成された被写体モデルに含まれる画素の数を計数し、計数された値が、基準値より大きいとき、被写体モデルの範囲を狭くするよう、被写体モデルを変形し、変形された被写体モデルに基づいて、被写体を認識することを特徴とする。
請求項9に記載の被写体認識装置は、被写体と背景を含む画像の画像データを記憶する記憶手段と、記憶手段に記憶された画像データの画像中の、所定の枠の内の領域の画像の特徴量に基づいて、被写体の画像の特徴量のモデルである被写体モデルを生成するモデル生成手段と、記憶手段に記憶された画像データの画像中の、枠の外の領域において、モデル生成手段により生成された被写体モデルに含まれる画素の数を計数する計数手段と、計数手段により計数された値が、基準値より小さいとき、被写体モデルの範囲を広くするよう、被写体モデルを変形する変形手段と、変形手段により変形された被写体モデルに基づいて、被写体を認識する認識手段とを備えることを特徴とする。
請求項16に記載の被写体認識方法は、被写体と背景を含む画像の画像データを記憶し、記憶された画像データの画像中の、所定の枠の内の領域の画像の特徴量に基づいて、被写体の画像の特徴量のモデルである被写体モデルを生成し、記憶された画像データの画像中の、枠の外の領域において、生成された被写体モデルに含まれる画素の数を計数し、計数された値が、基準値より小さいとき、被写体モデルの範囲を広くするよう、被写体モデルを変形し、変形された被写体モデルに基づいて、被写体を認識することを特徴とする。
【0007】
請求項1に記載の被写体認識装置および請求項8に記載の被写体認識方法においては、被写体と背景を含む画像の画像データが記憶され、その記憶された画像データの画像中の、所定の枠の内の領域の画像の特徴量に基づいて、被写体の画像の特徴量のモデルである被写体モデルが生成され、記憶された画像データの画像中の、枠の外の領域において、生成された被写体モデルに含まれる画素の数が計数され、計数された値が、基準値より小さいとき、被写体モデルの範囲を広くするよう、被写体モデルが変形され、変形された被写体モデルに基づいて、被写体が認識される。
請求項9に記載の被写体認識装置および請求項16に記載の被写体認識方法においては、被写体と背景を含む画像の画像データが記憶され、その記憶された画像データの画像中の、所定の枠の内の領域の画像の特徴量に基づいて、被写体の画像の特徴量のモデルである被写体モデルが生成され、記憶された画像データの画像中の、枠の外の領域において、生成された被写体モデルに含まれる画素の数が計数され、計数された値が、基準値より小さいとき、被写体モデルの範囲を広くするよう、被写体モデルが変形され、変形された被写体モデルに基づいて、被写体が認識される。
【0008】
【発明の実施の形態】
図1は、本発明の被写体認識装置を適用したビデオカメラの一実施例の構成を示している。レンズブロック1(撮像手段)は、レンズ2、アイリス3、およびCCD(Charge Coupled Device)4から構成され、被写体からの光Lを撮像し、電気信号としての画像信号を出力する。すなわち、被写体からの光Lは、レンズ2により、アイリス3を介してCCD4上に結像される。これによりCCD4からは、その受光量に対応した画像信号が出力される。なお、アイリス3は、いわゆるオートアイリス(AE)機構を構成しており、CCD4で受光される光量を適正な値に調整するようになされている。
【0009】
レンズブロック1から出力された画像信号は、サンプルホールド(S/H)および自動利得調整(Automatic Gain Control(AGC))回路5においてサンプルホールドされ、さらにオートアイリス機構からの制御信号によって、所定のゲインを持つように利得制御された後、A/D変換器6に出力される。
【0010】
なお、本実施例では、オートアイリス機構で露光量を制御するようにしたが、これを機能させず、固定の露出で撮像を行うようにすることも可能である。
【0011】
A/D変換器6は、サンプルホールドおよび自動利得調整回路5からの画像信号(アナログ信号)を所定のクロックに従ってA/D変換する。A/D変換器6によってディジタル信号とされた画像信号は、ディジタルカメラ処理回路7に供給される。ディジタルカメラ処理回路7は、A/D変換器6からの画像信号に基づいて、その画像信号に対応する画像を構成する各画素の輝度信号Y、ならびに色差信号R−Y,B−Y、およびクロマ信号Cを生成する。例えばNTSC方式の輝度信号Yおよびクロマ信号Cは、D/A変換器8に出力され、そこでD/A変換された後、モニタ12に供給される。これにより、モニタ12には、レンズブロック1で撮像された画像が表示される。このモニタ12にはまた、枠表示IC13より出力された枠も重畳表示されるようになされている。
【0012】
また、ディジタルカメラ処理回路7で生成された輝度信号Yと、色差信号R−Y,B−Yは、被写体認識回路9に供給される。被写体認識回路9は、ディジタルカメラ処理回路7からの輝度信号Yと色差信号R−Y,B−Yで構成される画像の中から、追尾すべき被写体を検出する。
【0013】
このため、被写体認識回路9は、フレームメモリで構成される画像メモリ10(記憶手段)と、マイクロプロセッサで構成される追尾信号処理回路11とを有する。画像メモリ10は追尾信号処理回路11から書き込み許可信号S1を受信すると、ディジタルカメラ処理回路7が出力する輝度信号Yと、色差信号R−Y,B−Yを、それぞれ独立に画素単位で記憶する。
【0014】
ここで、以下適宜、色差信号R−Y,B−YをそれぞれR,Bと略記する。また、レンズブロック1が出力する画像の最も左上の画素の位置を原点(0,0)とし、その位置の左からi番目で、かつ、上からj番目の画素の輝度信号Y、色差信号R,Bを、以下適宜、それぞれYij、Rij、Bijと表す。さらに以下適宜、輝度信号Y、色差信号R,Bをまとめて、画像データともいう。
【0015】
画像メモリ10は、1フレーム(または1フィールド)分の画像データを記憶すると、読みだし許可信号S2を、追尾信号処理回路11に出力する。その後、画像メモリ10は、追尾信号処理回路11が出力するメモリアドレス(上述のi,jに対応する)S3を受信すると、そのアドレスに記憶された画像データS4を追尾信号処理回路11に出力する。
【0016】
追尾信号処理回路11は、画像メモリ10から読みだし許可信号S2を受信すると、被写体の追尾に必要な画像データS4を、上述したように、画像メモリ10にアドレス(メモリアドレス)S3を与えることで読みだし、これにより、レンズブロック1より出力された画像から、追尾すべき被写体を検出する。その後、追尾信号処理回路11は書き込み許可信号S1を画像メモリ10に供給し、これにより、画像メモリ10ではレンズブロック1で撮像された画像が新たに記憶される(すでに記憶されている画像に上書きされる)。このとき、画像メモリ10は上述したように読みだし許可信号S2を再び出力する。以下同様にして、画像メモリ10ではレンズブロック1で撮像された画像が順次記憶されていく。
【0017】
また、追尾信号処理回路11は被写体を検出すると、その被写体がレンズブロック1から出力される画像の中央に表示されるように、パンモータ14およびチルトモータ15(駆動手段)を駆動する。各種のキー、スイッチ、ボタンなどよりなる入力部17は、被写体設定ボタン16を有する。このボタン16は、被写体設定処理が完了したとき操作される。
【0018】
次に図2のフローチャートを参照して、追尾信号処理回路11内で行われる一連の処理について説明する。まず最初に、ステップ1において、追尾すべき被写体の設定処理が完了したか否か(被写体設定ボタン16が操作されたか否か)が判定される。被写体設定処理がまだ完了していないとき、使用者は、入力部17を操作して、追尾信号処理回路11に被写体設定処理を指令する。このとき、追尾信号処理回路11は、枠表示IC13を制御し、被写体設定枠(指定手段)を発生させ、モニタ12に出力し、表示させる。これにより、モニタ12には、例えば図3に示すように、被写体設定枠Dが表示される。
【0019】
一方、レンズ2とアイリス3を介してCCD4に入射された被写体からの光が、CCD4において光電変換され、サンプルホールドおよび自動利得制御回路5によりサンプリングされ、かつ、適当なゲインを持つように入力制御された後、A/D変換器6に入力される。A/D変換器6において、A/D変換された信号は、ディジタルカメラ処理回路7に入力され、輝度信号Yとクロマ信号Cが生成される。この輝度信号Yとクロマ信号Cは、D/A変換器8によりD/A変換された後、モニタ12に出力され、表示される。従って、図3に示すように、モニタ12には、被写体の画像が背景画像とともに、表示される。そして、そこには、上述したように、被写体設定枠Dも重畳表示される。
【0020】
図3に示される被写体設定枠Dは、レンズブロック1が撮像する画像の所定の位置(この実施例の場合、画面の中央)に配置されており、ユーザは追尾すべき被写体を設定するために、その被写体設定枠D内にその被写体が表示されるように、レンズブロック1をパンニングまたはチルティングする。すなわち、ユーザは入力部17を操作して、追尾信号処理回路11にレンズブロック1を所定の方向にパンニングまたはチルティングさせるように指令する。追尾信号処理回路11は、この指令に対応して、パンモータ14とチルトモータ15に制御信号を出力する。その結果、パンモータ14とチルトモータ15は、レンズブロック1を所望のパン位置とチルト位置に駆動する。
【0021】
このようにして、追尾すべき被写体を被写体設定枠D内に配置するようにした後、ユーザは、被写体設定処理が完了したことを入力するために、被写体設定ボタン16を操作する。
【0022】
ステップ1において被写体設定ボタン16が操作されたと判定された場合、ステップ2において被写体設定枠Dの内部の画像データが、画像メモリ10から読み出される。例えば、図3の実施例の場合、所定の人物の顔の画像データが、被写体のデータとして画像メモリ10から読みだされる。
【0023】
この被写体設定枠Dの内部の画像データは、その特徴量を表すために、輝度信号Yij、および色差信号Rij,Bijの組(Yij,Rij,Bij)で規定される点の集合とされる。そして、この点は、図4に示すように、(R−Y,Y)(R,Y)平面(図4(A))と、(B−Y,Y)(B,Y)平面(図4(B))上にプロットされる。換言すれば、これらの平面上の位置(座標)が、被写体の特徴量を表すものとされる。
【0024】
ただし、点(Yij,Rij,Bij)の集合にはノイズが含まれ、この集合は、被写体を表す代表的な点の集合に過ぎない。そこで、ステップ3では、点(Yij,Rij,Bij)の集合に幅を持たせるために、(Yij,HRij,HBij)、(Yij,LRij,LBij)を被写体情報として生成する。ここで、HRij,LRij,HBij,LBijは、それぞれ次式に従って計算される。
HRij=Rij×(1+α)
LRij=Rij×(1−α)
HBij=Bij×(1+α)
LBij=Bij×(1−α)
【0025】
なお、上式においては、αは正の定数であり、所定の画素を被写体の画素として認識するための許容誤差を表している。
【0026】
以上のように、図4に示すデータ(ステップ2で取得したデータ)に対して、上記演算を施すことにより、図5に示すように、許容誤差αを考慮したデータが得られる。図5(A)は、点(Yij,HRij)、(Yij,LRij)をプロットしたものを、また、図5(B)は、点(Yij,HBij)、(Yij,LBij)をプロットしたものを、それぞれ示す。なお、本実施例では、RおよびBを表す値として、−128〜127の範囲を割り当てている。
【0027】
次にステップ4(モデル生成手段)で、図5(A)、図5(B)に示す許容誤差αを考慮した点集合に対し、Yを引き数として、RまたはBに関する例えば2次関数で近似した被写体モデルを作る。本実施例では、異なる被写体について近似した場合でも、ある程度、似通った形の被写体モデル(本実施例では2次関数)が得られるように、2次関数のY切片(被写体モデルである2次関数がY軸と交わる点)が決められている。
【0028】
具体的に述べると、それぞれのY切片は、Y−R座標系については、図5(A)に示すように、RlowおよびRhigh(ただし、Rlow<Rhighとする)が予め設定され、Y−B座標系については、図5(B)に示すように、BlowおよびBhigh(ただし、Blow<Bhighとする)が予め設定される。
【0029】
このように、Y切片を固定した状態で、図5(A)の(Yij,HRij)および(Yij,LRij)と、図5(B)の(Yij,HBij)および(Yij,LBij)、それぞれについて、2次関数で近似(例えば最小自乗近似)を行い、次式で示される被写体モデルとしての2次関数HFr(Y)(Yに関するRの上限特徴モデル)、LFr(Y)(Yに関するRの下限特徴モデル)、HFb(Y)(Yに関するBの上限特徴モデル)、LFb(Y)(Yに関するBの下限特徴モデル)が生成される。
HFr(Y)=A0×(Y−Rlow)×(Y−Rhigh)
HFb(Y)=A1×(Y−Blow)×(Y−Bhigh)
LFr(Y)=A2×(Y−Rlow)×(Y−Rhigh)
LFb(Y)=A3×(Y−Blow)×(Y−Bhigh)
【0030】
ここで、A0は(Yij,HRij)の、A1は(Yij,LRij)の、A2は(Yij,HBij)の、A3は(Yij,LBij)の、それぞれデータに対する近似により求められた定数である。
【0031】
このようにして定められた、(R,Y)平面上において、HFr(Y)とLFr(Y)の間に存在し、かつ、(B,Y)平面上において、HFb(Y)とLFb(Y)の間に存在する点の画素が、被写体に対応する画素とされる。
【0032】
なお、以上のようにして、モデルを作成する方法の詳細は、本出願人が特願平8−11655号として先に開示している。
【0033】
ステップ5(変形手段)では、ステップ4で作られた被写体モデル(図6(A),(B))を、背景に応じて修正する。つまり、被写体初期設定時の画面において、被写体設定枠の外側の領域(背景)に、被写体モデルを満たす領域が存在する場合、被写体モデルを細く絞り(図7(A),(B))、存在しない場合、被写体モデルを広げるように(図8(A),(B))修正する。
【0034】
すなわち、ステップ5の背景によるモデル変更の処理の詳細を示すと、図9のフローチャートに示すようになる。ステップ21においては、図3における被写体設定枠Dの外側の領域の全ての画素のデータを画像メモリ10から読みだす。そして、ステップ22(計数手段)において、ステップ4で生成された被写体のモデル(図6)に含まれる画素の数Nを計数する。すなわち、各画素(Yij,Rij,Bij)のうち、次の式を満足する画素の数を計数する。
LFr(Yij)<Rij<HFr(Yij)
LFb(Yij)<Bij<HFb(Yij)
【0035】
次に、ステップ23において、ステップ22で計数した画素の数Nが、予め設定してある所定の基準値β(β>0)より大きいか否かを判定する。計数された数Nが基準値βより大きいと判定された場合、ステップ24に進み、ステップ4で生成された被写体のモデルの許容誤差αを、α1(α1<α)に設定する。これにより、図7に示すように、被写体モデルが狭くなることになる。
【0036】
これに対して、ステップ23において、計数した数Nが基準値β以下であると判定された場合、ステップ25に進み、計数した数Nが基準値γ(γ>0)より小さいか否かを判定する。数Nが基準値γより小さい場合においては、ステップ26に進み、許容誤差αを、α2(α2>α)に設定する。これにより、図8に示すように、ステップ4で生成された被写体モデル(図6)の幅が広げられる。
【0037】
このようにして、背景に被写体に近似した画像が存在する場合においては、被写体のモデルの幅が狭くなるように修正するようにし、被写体でない部分が被写体として誤って認識されることを抑制する。
【0038】
逆に、背景に被写体に似た画像が存在しない場合においては、被写体モデルの幅を広げることにより、より確実に被写体を認識することができるようにする。
【0039】
次に、図2に戻って、ステップ6(認識手段)では、ステップ5で生成された被写体モデル(修正された被写体モデル)を用いて、画像メモリ10の中から被写体の一部と予想される画素を抽出する。すなわち、レンズブロック1で撮像され、画像メモリ10に記憶された画像を構成する各画素のうち、その輝度Yijと、色差信号RijおよびBijが、それぞれ次の2つの式の両方を満足するものを被写体の構成画素として抽出する。
LFr(Yij)<Rij<HFr(Yij)
LFb(Yij)<Bij<HFb(Yij)
【0040】
すなわち、図5(A)に示した2つの2次関数(但し、修正された関数)LFr(Yij)とHFr(Yij)との間にプロットされ、かつ、図5(B)に示した2つの2次関数(但し、修正された関数)LFb(Yij)とHFb(Yij)との間にプロットされる画素が、被写体を構成する画素として検出される。
【0041】
ステップ6において、画像メモリ10に記憶された画像から被写体構成画素の検出が行われた後、ステップ7において、その被写体構成画素の数により、被写体が存在するかどうかを判定する。すなわち、ステップ6で検出された被写体構成画素の数が所定の閾値δより大きい場合、画像メモリ10に記憶された画像の中に、被写体が存在すると判定し、被写体構成画素の数が所定の閾値δ以下である場合、画像メモリ10に記憶された画像の中に、被写体は存在しないと判定する。
【0042】
ステップ7で画像メモリ10の中に被写体が存在すると判定された場合、ステップ8において、ステップ7で検出された被写体構成画素のうち、その被写体構成画素で構成される領域の周辺にある、いわばノイズ的な領域を除去するために、被写体構成画素で構成される領域に対してフィルタリング処理を行う。例えば、図10(A)に影を付して示すように、被写体構成画素が検出されている場合には、このフィルタリング処理により、図10(A)に影を付して示す被写体構成領域は、図10(B)に示すように変形される。
【0043】
その後、ステップ9において、図10(B)に示すように、ステップ7で検出された被写体構成画素集団を囲むように表示枠(認識された被写体であることを示す枠)を表示させる。このため、追尾信号処理回路11は、枠表示IC13を制御し、表示枠を表示させる位置に枠パルスを発生させる。モニタ12は、枠パルスを映像信号に重畳する。例えば図11に示すように表示枠を表示する場合、図11の矢印で示す位置のラインの枠パルスは、図12に示すようになり、この枠パルスをそのラインの映像信号に重畳すると、図13に示すような映像信号が得られる。この映像信号をモニタ12で表示することにより、図11に示すような画像が表示される。
【0044】
その後、ステップ10において、ステップ8でフィルタリングされた被写体構成画素の集合の重心(例えば、水平方向をx軸、垂直方向をy軸とするxy平面上の重心)が求められ(図10(B)において×印で示す位置(座標)が求められ)、これが被写体の位置とされる。
【0045】
さらに、ステップ11において、ステップ10で算出された被写体の位置が、レンズブロック1から出力される画像の中央の位置に一致するように、パンモータ14、およびチルトモータ15を回転駆動し、これによりレンズブロック1がパンニングおよびチルティングされ、モニタ12上の被写体が表示画面中央に引き込まれる。
【0046】
次に、ステップ12に進み、処理の終了が指令されたか否かが判定され、指令されていなければ、ステップ6に戻り、それ以降の処理が繰り返し実行される。処理の終了が指令されていれば、処理が終了される。
【0047】
また、ステップ7において、被写体が存在しないと判定された場合、ステップ13に進み、枠を消去する処理が実行される。すなわち、追尾信号処理回路11は、枠表示IC13を制御し、枠パルスの発生を中止させる。枠を消去する場合は、枠パルスを0Vにすればよい。なお、この他、枠を消去する代わりに、枠の大きさを変化させたり、枠の大きさを最大にしたりして、被写体が認識されている場合と異なるように表示させてもよい。
【0048】
上記実施例においては、被写体認識回路9を、ビデオカメラ内に内蔵させるようにしたが、ビデオカメラの外部の装置として設けるようにすることも可能である。
【0049】
このように、このビデオカメラを用いて、例えば所定の室内を監視し、室内への進入者を自動追尾したり、テレビ会議システムにおいて、発言者を自動追尾するシステムを実現することができる。
【0050】
なお、本発明は、ビデオカメラ以外にも適用することができる。
【0051】
【発明の効果】
以上の如く、請求項1に記載の被写体認識装置および請求項に記載の被写体認識方法によれば背景に対して適応的に被写体モデルが生成され、背景に拘らず、被写体を確実に認識することが可能となる。また、被写体でない部分が被写体として誤って認識されることを抑制することができる。
さらに、請求項9に記載の被写体認識装置および請求項16に記載の被写体認識方法によれば、背景に対して適応的に被写体モデルが生成され、背景に拘らず、被写体を確実に認識することが可能となる。また、より確実に被写体を認識することができる。
【図面の簡単な説明】
【図1】本発明の被写体認識装置を適用したビデオカメラの構成例を示すブロック図である。
【図2】図1の実施例の追尾信号処理回路11の動作を説明するフローチャートである。
【図3】被写体の設定を説明する図である。
【図4】被写体設定時における被写体画像を説明する図である。
【図5】被写体モデルを説明する図である。
【図6】被写体モデルを説明する図である。
【図7】狭くした被写体モデルを説明する図である。
【図8】広くした被写体モデルを説明する図である。
【図9】図2のステップ5の背景によるモデル変更処理の詳細を示すフローチャートである。
【図10】図2のステップ8のフィルタリング処理を説明する図である。
【図11】枠の表示を説明する図である。
【図12】枠パルスの例を示す図である。
【図13】映像信号に枠パルスを重畳した信号を示す図である。
【符号の説明】
1 レンズブロック, 2 レンズ, 3 アイリス, 4 CCD, 5 サンプルホールドおよび自動利得調整回路, 6 A/D変換器, 7 ディジタルカメラ処理回路, 8 D/A変換器, 9 被写体認識回路, 10 画像メモリ, 11 追尾信号処理回路, 12 モニタ, 13 枠表示IC,14 パンモータ, 15 チルトモータ, 16 被写体設定ボタン, 17 入力部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a subject recognition apparatus and method, and more particularly, to a subject recognition apparatus and method that can recognize a subject more reliably by adaptively deforming a subject model.
[0002]
[Prior art]
When a predetermined subject is to be automatically tracked by a video camera, a process for registering a subject to be tracked in advance is required. Conventionally, in order to perform such registration, an image of a subject is imaged together with a background image, and the image obtained as a result of imaging is specified by surrounding the subject with a frame, etc., and features of image data in the frame An amount is obtained, and an image having the feature amount is recognized as an image of the subject.
[0003]
[Problems to be solved by the invention]
As described above, in the conventional apparatus, the feature amount of the subject (data inside the frame) is extracted without considering the background (data outside the frame). For this reason, when an image similar to the subject exists in the background, there is a problem that the subject cannot be accurately recognized.
[0004]
The present invention has been made in view of such a situation, and makes it possible to reliably recognize a subject.
[0005]
[Means for Solving the Problems]
The subject recognition apparatus according to claim 1 is a storage unit that stores image data of an image including a subject and a background, and an image of an area within a predetermined frame in the image data image stored in the storage unit . Based on the feature amount, a model generation unit that generates a subject model that is a model of the feature amount of the image of the subject, and a model generation unit in a region outside the frame in the image data image stored in the storage unit Counting means for counting the number of pixels included in the generated subject model, and deformation means for deforming the subject model so that the range of the subject model is narrowed when the value counted by the counting means is larger than a reference value. And recognizing means for recognizing the subject based on the subject model deformed by the deforming means.
[0006]
The subject recognition method according to claim 8 stores image data of an image including a subject and a background, and based on a feature amount of an image in an area within a predetermined frame in an image of the stored image data. A subject model that is a model of the feature amount of the subject image is generated, and the number of pixels included in the generated subject model is counted in an area outside the frame in the image of the stored image data. value is, is larger than the reference value, so as to narrow the range of the object model, to deform the object model, based on the modified object model, and recognizes the object.
According to a ninth aspect of the present invention, there is provided a subject recognition apparatus comprising: a storage unit that stores image data of an image including a subject and a background; and an image in an area within a predetermined frame in the image data stored in the storage unit . Based on the feature amount, a model generation unit that generates a subject model that is a model of the feature amount of the image of the subject, and a model generation unit in a region outside the frame in the image data image stored in the storage unit A counting unit that counts the number of pixels included in the generated subject model; and a deformation unit that deforms the subject model so that the range of the subject model is widened when the value counted by the counting unit is smaller than a reference value. And recognizing means for recognizing the subject based on the subject model deformed by the deforming means.
The subject recognition method according to claim 16 stores image data of an image including a subject and a background, and based on a feature amount of an image in an area within a predetermined frame in an image of the stored image data. A subject model that is a model of the feature amount of the subject image is generated, and the number of pixels included in the generated subject model is counted in an area outside the frame in the image of the stored image data. value is, is smaller than the reference value, so as to widen the range of the object model, to deform the object model, based on the modified object model, and recognizes the object.
[0007]
In the subject recognition device according to claim 1 and the subject recognition method according to claim 8, image data of an image including a subject and a background is stored, and a predetermined frame in the image of the stored image data is stored. A subject model that is a model of the feature amount of the image of the subject is generated based on the feature amount of the image in the region inside, and the subject model generated in the region outside the frame in the image of the stored image data When the number of pixels included in the image is counted and the counted value is smaller than the reference value, the subject model is deformed to widen the subject model range, and the subject is recognized based on the deformed subject model. The
In the subject recognition device according to claim 9 and the subject recognition method according to claim 16, image data of an image including the subject and the background is stored, and a predetermined frame in the image of the stored image data is stored. A subject model that is a model of the feature amount of the image of the subject is generated based on the feature amount of the image in the region inside, and the subject model generated in the region outside the frame in the image of the stored image data When the number of pixels included in the image is counted and the counted value is smaller than the reference value, the subject model is deformed to widen the subject model range, and the subject is recognized based on the deformed subject model. The
[0008]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 shows the configuration of an embodiment of a video camera to which the subject recognition apparatus of the present invention is applied. The lens block 1 (imaging means) includes a lens 2, an iris 3, and a CCD (Charge Coupled Device) 4, images the light L from the subject, and outputs an image signal as an electrical signal. That is, the light L from the subject is imaged on the CCD 4 by the lens 2 through the iris 3. Thereby, the CCD 4 outputs an image signal corresponding to the amount of received light. The iris 3 constitutes a so-called auto iris (AE) mechanism, and adjusts the amount of light received by the CCD 4 to an appropriate value.
[0009]
The image signal output from the lens block 1 is sampled and held in a sample hold (S / H) and automatic gain control (Automatic Gain Control (AGC)) circuit 5 and further given a predetermined gain by a control signal from the auto iris mechanism. The gain is controlled so as to be held, and then output to the A / D converter 6.
[0010]
In the present embodiment, the exposure amount is controlled by the auto iris mechanism, but it is also possible to perform imaging with a fixed exposure without functioning this.
[0011]
The A / D converter 6 A / D converts the image signal (analog signal) from the sample hold and automatic gain adjustment circuit 5 according to a predetermined clock. The image signal converted into a digital signal by the A / D converter 6 is supplied to the digital camera processing circuit 7. Based on the image signal from the A / D converter 6, the digital camera processing circuit 7, the luminance signal Y of each pixel constituting the image corresponding to the image signal, and the color difference signals RY, BY, and A chroma signal C is generated. For example, the NTSC luminance signal Y and chroma signal C are output to the D / A converter 8 where they are D / A converted and then supplied to the monitor 12. Thereby, the image captured by the lens block 1 is displayed on the monitor 12. The monitor 12 also displays a frame output from the frame display IC 13 in a superimposed manner.
[0012]
Further, the luminance signal Y and the color difference signals RY and BY generated by the digital camera processing circuit 7 are supplied to the subject recognition circuit 9. The subject recognition circuit 9 detects a subject to be tracked from the image composed of the luminance signal Y and the color difference signals RY and BY from the digital camera processing circuit 7.
[0013]
For this reason, the subject recognition circuit 9 has an image memory 10 (storage means) constituted by a frame memory and a tracking signal processing circuit 11 constituted by a microprocessor. When the image memory 10 receives the write permission signal S1 from the tracking signal processing circuit 11, the image memory 10 stores the luminance signal Y and the color difference signals RY, BY output from the digital camera processing circuit 7 independently for each pixel. .
[0014]
Here, the color difference signals RY and BY are abbreviated as R and B, respectively, as appropriate. Also, the position of the upper left pixel of the image output by the lens block 1 is the origin (0, 0), and the luminance signal Y and color difference signal R of the i th pixel from the left of the position and the j th pixel from the top. , B are respectively represented as Yij, Rij, and Bij as appropriate below. Further, hereinafter, the luminance signal Y and the color difference signals R and B are collectively referred to as image data as appropriate.
[0015]
When image data for one frame (or one field) is stored, the image memory 10 outputs a read permission signal S2 to the tracking signal processing circuit 11. Thereafter, when the image memory 10 receives a memory address (corresponding to i and j described above) S3 output from the tracking signal processing circuit 11, the image memory 10 outputs the image data S4 stored at the address to the tracking signal processing circuit 11. .
[0016]
When the tracking signal processing circuit 11 receives the reading permission signal S2 from the image memory 10, the tracking signal processing circuit 11 gives the image data S4 necessary for tracking the subject to the image memory 10 by giving an address (memory address) S3 as described above. Thus, the subject to be tracked is detected from the image output from the lens block 1. Thereafter, the tracking signal processing circuit 11 supplies the write permission signal S1 to the image memory 10, whereby the image captured by the lens block 1 is newly stored in the image memory 10 (overwriting the already stored image). ) At this time, the image memory 10 outputs the read permission signal S2 again as described above. Similarly, in the image memory 10, the images picked up by the lens block 1 are sequentially stored.
[0017]
Further, when the tracking signal processing circuit 11 detects a subject, the tracking signal processing circuit 11 drives the pan motor 14 and the tilt motor 15 (driving means) so that the subject is displayed at the center of the image output from the lens block 1. The input unit 17 including various keys, switches, buttons, and the like has a subject setting button 16. This button 16 is operated when the subject setting process is completed.
[0018]
Next, a series of processes performed in the tracking signal processing circuit 11 will be described with reference to the flowchart of FIG. First, in step 1, it is determined whether or not the setting process of the subject to be tracked is completed (whether or not the subject setting button 16 has been operated). When the subject setting process is not yet completed, the user operates the input unit 17 to instruct the tracking signal processing circuit 11 to perform the subject setting process. At this time, the tracking signal processing circuit 11 controls the frame display IC 13 to generate a subject setting frame (designating means), which is output to the monitor 12 for display. Thereby, the subject setting frame D is displayed on the monitor 12, for example, as shown in FIG.
[0019]
On the other hand, light from the subject incident on the CCD 4 via the lens 2 and the iris 3 is photoelectrically converted in the CCD 4, sampled by the sample hold and automatic gain control circuit 5, and input controlled so as to have an appropriate gain. Is input to the A / D converter 6. In the A / D converter 6, the A / D converted signal is input to the digital camera processing circuit 7, and a luminance signal Y and a chroma signal C are generated. The luminance signal Y and chroma signal C are D / A converted by the D / A converter 8 and then output to the monitor 12 for display. Therefore, as shown in FIG. 3, the image of the subject is displayed on the monitor 12 together with the background image. Then, as described above, the subject setting frame D is also superimposed and displayed there.
[0020]
The subject setting frame D shown in FIG. 3 is arranged at a predetermined position of the image captured by the lens block 1 (in this embodiment, the center of the screen), and the user sets the subject to be tracked. The lens block 1 is panned or tilted so that the subject is displayed in the subject setting frame D. That is, the user operates the input unit 17 to instruct the tracking signal processing circuit 11 to pan or tilt the lens block 1 in a predetermined direction. The tracking signal processing circuit 11 outputs control signals to the pan motor 14 and the tilt motor 15 in response to this command. As a result, the pan motor 14 and the tilt motor 15 drive the lens block 1 to a desired pan position and tilt position.
[0021]
After the subject to be tracked is arranged in the subject setting frame D in this way, the user operates the subject setting button 16 in order to input that the subject setting process has been completed.
[0022]
If it is determined in step 1 that the subject setting button 16 has been operated, the image data inside the subject setting frame D is read from the image memory 10 in step 2. For example, in the case of the embodiment of FIG. 3, image data of a predetermined person's face is read from the image memory 10 as subject data.
[0023]
The image data inside the subject setting frame D is a set of points defined by a set of luminance signal Yij and color difference signals Rij, Bij (Yij, Rij, Bij) in order to represent the feature amount. Then, as shown in FIG. 4, this point is the (RY, Y) (R, Y) plane (FIG. 4A) and the (BY, Y) (B, Y) plane (FIG. 4 (B)). In other words, the position (coordinates) on these planes represents the feature amount of the subject.
[0024]
However, noise is included in the set of points (Yij, Rij, Bij), and this set is merely a set of representative points representing the subject. Therefore, in step 3, (Yij, HRij, HBij) and (Yij, LRij, LBij) are generated as subject information in order to give a width to the set of points (Yij, Rij, Bij). Here, HRij, LRij, HBij, and LBij are calculated according to the following equations, respectively.
HRij = Rij × (1 + α)
LRij = Rij × (1-α)
HBij = Bij × (1 + α)
LBij = Bij × (1-α)
[0025]
In the above equation, α is a positive constant and represents an allowable error for recognizing a predetermined pixel as a subject pixel.
[0026]
As described above, by performing the above calculation on the data shown in FIG. 4 (data acquired in step 2), data in consideration of the allowable error α is obtained as shown in FIG. 5A is a plot of points (Yij, HRij) and (Yij, LRij), and FIG. 5B is a plot of points (Yij, HBij) and (Yij, LBij). Are shown respectively. In the present embodiment, a range of −128 to 127 is assigned as values representing R and B.
[0027]
Next, in step 4 (model generation means), for example, a quadratic function related to R or B with Y as an argument for the point set taking into account the allowable error α shown in FIGS. 5 (A) and 5 (B). Create an approximate subject model. In the present embodiment, even when different subjects are approximated, a Y-intercept of a quadratic function (a quadratic function that is a subject model) is obtained so that a subject model having a somewhat similar shape (a quadratic function in this embodiment) can be obtained. Is the point at which the Y axis intersects.
[0028]
Specifically, for each Y-intercept, as shown in FIG. 5A, Rlow and Rhigh (where Rlow <Rhigh) are set in advance for the Y-R coordinate system, and YB For the coordinate system, as shown in FIG. 5B, Blow and Bhigh (however, Blow <Bhigh) are set in advance.
[0029]
In this way, with the Y-intercept fixed, (Yij, HRij) and (Yij, LRij) in FIG. 5A and (Yij, HBij) and (Yij, LBij) in FIG. Is approximated by a quadratic function (for example, least square approximation), and a quadratic function HFr (Y) (upper limit feature model of R with respect to Y) and LFr (Y) (R with respect to Y) as subject models represented by the following equation: LFb (Y) (B's upper limit feature model for Y) and LFb (Y) (B's lower limit feature model for Y).
HFr (Y) = A0 * (Y-Rlow) * (Y-Rhigh)
HFb (Y) = A1 × (Y−Blow) × (Y−Bhigh)
LFr (Y) = A2 * (Y-Rlow) * (Y-Rhigh)
LFb (Y) = A3 × (Y−Blow) × (Y−Bhigh)
[0030]
Here, A0 is a constant obtained by approximating (Yij, HRij), A1 is (Yij, LRij), A2 is (Yij, HBij), and A3 is (Yij, LBij). .
[0031]
On the (R, Y) plane thus determined, it exists between HFr (Y) and LFr (Y), and on the (B, Y) plane, HFb (Y) and LFb ( The pixel at the point existing during Y) is the pixel corresponding to the subject.
[0032]
The details of the method for creating a model as described above have been previously disclosed by the present applicant as Japanese Patent Application No. 8-11655.
[0033]
In step 5 (deformation means), the subject model (FIGS. 6A and 6B) created in step 4 is corrected according to the background. In other words, if there is a region that satisfies the subject model in the region (background) outside the subject setting frame on the screen when the subject is initially set, the subject model is narrowed down (FIGS. 7A and 7B) and present. If not, the subject model is corrected to widen (FIGS. 8A and 8B).
[0034]
That is, the details of the model change process based on the background of step 5 are as shown in the flowchart of FIG. In step 21, the data of all the pixels in the area outside the subject setting frame D in FIG. In step 22 (counting means), the number N of pixels included in the subject model (FIG. 6) generated in step 4 is counted. That is, the number of pixels satisfying the following expression among the pixels (Yij, Rij, Bij) is counted.
LFr (Yij) <Rij <HFr (Yij)
LFb (Yij) <Bij <HFb (Yij)
[0035]
Next, in step 23, it is determined whether or not the number N of pixels counted in step 22 is greater than a predetermined reference value β (β> 0) set in advance. When it is determined that the counted number N is larger than the reference value β, the process proceeds to step 24, where the allowable error α of the subject model generated in step 4 is set to α1 (α1 <α). This narrows the subject model as shown in FIG.
[0036]
On the other hand, if it is determined in step 23 that the counted number N is less than or equal to the reference value β, the process proceeds to step 25 to determine whether or not the counted number N is smaller than the reference value γ (γ> 0). judge. When the number N is smaller than the reference value γ, the process proceeds to step 26, and the allowable error α is set to α2 ( α2> α ). Thereby, as shown in FIG. 8, the width of the subject model (FIG. 6) generated in step 4 is widened.
[0037]
In this way, when there is an image that approximates the subject in the background, correction is made so that the width of the model of the subject is narrowed, and it is possible to suppress erroneous recognition of a non-subject portion as the subject.
[0038]
On the contrary, when there is no image similar to the subject in the background, the subject can be recognized more reliably by increasing the width of the subject model.
[0039]
Next, referring back to FIG. 2, in step 6 (recognition means), the subject model generated in step 5 (corrected subject model) is used to predict a part of the subject from the image memory 10. Extract pixels. That is, among the pixels constituting the image captured by the lens block 1 and stored in the image memory 10, the luminance Yij and the color difference signals Rij and Bij satisfy both of the following two expressions, respectively. Extracted as constituent pixels of the subject.
LFr (Yij) <Rij <HFr (Yij)
LFb (Yij) <Bij <HFb (Yij)
[0040]
That is, it is plotted between the two quadratic functions (however, modified functions) LFr (Yij) and HFr (Yij) shown in FIG. 5 (A), and 2 shown in FIG. 5 (B). Pixels plotted between two quadratic functions (but modified functions) LFb (Yij) and HFb (Yij) are detected as pixels constituting the subject.
[0041]
In step 6, after subject detection pixels are detected from the image stored in the image memory 10, in step 7, it is determined whether or not a subject exists based on the number of the subject configuration pixels. That is, when the number of subject constituent pixels detected in step 6 is larger than the predetermined threshold δ, it is determined that there is a subject in the image stored in the image memory 10, and the number of subject constituent pixels is the predetermined threshold. If it is equal to or less than δ, it is determined that no subject exists in the image stored in the image memory 10.
[0042]
If it is determined in step 7 that a subject is present in the image memory 10, in step 8, among the subject constituent pixels detected in step 7, there is a so-called noise around the area composed of the subject constituent pixels. In order to remove a specific area, a filtering process is performed on an area composed of subject constituent pixels. For example, as shown in FIG. 10A with a shadow, when a subject composing pixel is detected, the subject composing region shown with a shadow in FIG. , As shown in FIG. 10 (B).
[0043]
Thereafter, in step 9, as shown in FIG. 10B, a display frame (a frame indicating a recognized subject) is displayed so as to surround the subject constituent pixel group detected in step 7. For this reason, the tracking signal processing circuit 11 controls the frame display IC 13 to generate a frame pulse at a position where the display frame is displayed. The monitor 12 superimposes the frame pulse on the video signal. For example, when a display frame is displayed as shown in FIG. 11, the frame pulse of the line indicated by the arrow in FIG. 11 is as shown in FIG. 12, and when this frame pulse is superimposed on the video signal of that line, A video signal as shown in FIG. 13 is obtained. By displaying this video signal on the monitor 12, an image as shown in FIG. 11 is displayed.
[0044]
Thereafter, in step 10, the center of gravity of the set of subject constituent pixels filtered in step 8 (for example, the center of gravity on the xy plane with the horizontal direction as the x-axis and the vertical direction as the y-axis) is obtained (FIG. 10B). The position (coordinates) indicated by the X mark is obtained), and this is the position of the subject.
[0045]
Further, in step 11, the pan motor 14 and the tilt motor 15 are rotationally driven so that the position of the subject calculated in step 10 coincides with the center position of the image output from the lens block 1. Block 1 is panned and tilted, and the subject on the monitor 12 is drawn to the center of the display screen.
[0046]
Next, the process proceeds to step 12, where it is determined whether or not the end of the process has been commanded. If the end of the process is instructed, the process ends.
[0047]
If it is determined in step 7 that the subject does not exist, the process proceeds to step 13 to execute a process of deleting the frame. That is, the tracking signal processing circuit 11 controls the frame display IC 13 to stop the generation of the frame pulse. When erasing the frame, the frame pulse may be set to 0V. In addition to this, instead of deleting the frame, the size of the frame may be changed or the size of the frame may be maximized so that the subject is displayed differently.
[0048]
In the above embodiment, the subject recognition circuit 9 is built in the video camera, but it may be provided as a device external to the video camera.
[0049]
Thus, using this video camera, for example, it is possible to realize a system that monitors a predetermined room and automatically tracks a person entering the room or automatically tracks a speaker in a video conference system.
[0050]
Note that the present invention can be applied to other than video cameras.
[0051]
【The invention's effect】
As described above, according to the subject recognition apparatus according to claim 1 and the subject recognition method according to claim 8 , a subject model is adaptively generated with respect to the background, and the subject is surely recognized regardless of the background. It becomes possible to do. In addition, it is possible to prevent a portion that is not a subject from being erroneously recognized as a subject.
Furthermore, according to the subject recognition apparatus according to claim 9 and the subject recognition method according to claim 16, a subject model is generated adaptively with respect to the background, and the subject can be reliably recognized regardless of the background. Is possible. In addition, the subject can be recognized more reliably.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration example of a video camera to which a subject recognition apparatus of the present invention is applied.
FIG. 2 is a flowchart for explaining the operation of the tracking signal processing circuit 11 in the embodiment of FIG. 1;
FIG. 3 is a diagram for explaining setting of a subject.
FIG. 4 is a diagram illustrating a subject image at the time of subject setting.
FIG. 5 is a diagram illustrating a subject model.
FIG. 6 is a diagram illustrating a subject model.
FIG. 7 is a diagram illustrating a narrowed subject model.
FIG. 8 is a diagram illustrating a widened subject model.
FIG. 9 is a flowchart showing details of model change processing based on the background in step 5 of FIG. 2;
FIG. 10 is a diagram for explaining the filtering process in step 8 of FIG. 2;
FIG. 11 is a diagram illustrating display of a frame.
FIG. 12 is a diagram illustrating an example of a frame pulse.
FIG. 13 is a diagram illustrating a signal in which a frame pulse is superimposed on a video signal.
[Explanation of symbols]
1 lens block, 2 lens, 3 iris, 4 CCD, 5 sample hold and automatic gain adjustment circuit, 6 A / D converter, 7 digital camera processing circuit, 8 D / A converter, 9 subject recognition circuit, 10 image memory , 11 Tracking signal processing circuit, 12 monitor, 13 frame display IC, 14 pan motor, 15 tilt motor, 16 subject setting button, 17 input unit

Claims (16)

被写体と背景を含む画像の画像データを記憶する記憶手段と、
前記記憶手段に記憶された前記画像データの画像中の、所定の枠の内の領域の画像の特徴量に基づいて、前記被写体の画像の特徴量のモデルである被写体モデルを生成するモデル生成手段と、
前記記憶手段に記憶された前記画像データの画像中の、前記枠の外の領域において、前記モデル生成手段により生成された前記被写体モデルに含まれる画素の数を計数する計数手段と、
前記計数手段により計数された値が、基準値より大きいとき、前記被写体モデルの範囲を狭くするよう、前記被写体モデルを変形する変形手段と、
前記変形手段により変形された前記被写体モデルに基づいて、前記被写体を認識する認識手段と
を備えることを特徴とする被写体認識装置。
Storage means for storing image data of an image including a subject and a background;
Model generation means for generating a subject model which is a model of the feature amount of the image of the subject based on the feature amount of the image in the area within a predetermined frame in the image of the image data stored in the storage means When,
Counting means for counting the number of pixels included in the subject model generated by the model generating means in an area outside the frame in the image of the image data stored in the storage means ;
Deformation means for deforming the subject model so as to narrow the range of the subject model when the value counted by the counting means is larger than a reference value;
And a recognition means for recognizing the subject based on the subject model deformed by the deformation means.
前記被写体と前記背景を含む画像中の、前記枠の内の領域の画像を前記被写体の画像として設定する被写体設定手段をさらに備え、
前記モデル生成手段は、前記被写体設定手段により前記被写体として設定された前記画像より、前記被写体モデルを生成する
ことを特徴とする請求項1に記載の被写体認識装置。
Subject setting means for setting an image of an area within the frame in an image including the subject and the background as an image of the subject;
The subject recognition apparatus according to claim 1, wherein the model generation unit generates the subject model from the image set as the subject by the subject setting unit .
前記被写体を撮像する撮像手段を、前記認識手段の認識結果に対応してパンニングまたはチルティング駆動する駆動手段をさらに備える
ことを特徴とする請求項1に記載の被写体認識装置。
The subject recognition apparatus according to claim 1, further comprising a driving unit that pans or tilts the imaging unit that captures the subject in accordance with a recognition result of the recognition unit.
前記被写体を撮像する撮像手段と、
前記撮像手段を、前記認識手段の認識結果に対応してパンニングまたはチルティング駆動する駆動手段と
をさらに備えることを特徴とする請求項1に記載の被写体認識装置。
Imaging means for imaging the subject;
The subject recognition apparatus according to claim 1, further comprising: a driving unit configured to perform panning or tilting driving of the imaging unit in accordance with a recognition result of the recognition unit.
前記被写体を撮像する撮像手段を、パンニングまたはチルティング駆動する駆動手段と、
前記認識手段の認識結果に対応して、前記被写体の位置が、前記撮像手段により撮像された画像の中央の位置に一致するように、前記駆動手段を制御する駆動制御手段と
をさらに備えることを特徴とする請求項1に記載の被写体認識装置。
Driving means for driving the panning or tilting the imaging means for imaging the subject;
Drive control means for controlling the drive means so that the position of the subject coincides with the center position of the image picked up by the image pickup means corresponding to the recognition result of the recognition means. The subject recognition apparatus according to claim 1, wherein:
前記被写体を撮像する撮像手段と、
前記撮像手段を、パンニングまたはチルティング駆動する駆動手段と、
前記認識手段の認識結果に対応して、前記被写体の位置が、前記撮像手段により撮像された画像の中央の位置に一致するように、前記駆動手段を制御する駆動制御手段と
をさらに備えることを特徴とする請求項1に記載の被写体認識装置。
Imaging means for imaging the subject;
Driving means for driving the panning or tilting the imaging means;
Drive control means for controlling the drive means so that the position of the subject coincides with the center position of the image picked up by the image pickup means corresponding to the recognition result of the recognition means. The subject recognition apparatus according to claim 1, wherein:
前記枠に対応し、前記被写体と背景を含む画像中の前記被写体と前記背景とを互いに分離する枠画像を表示させるよう、表示部への表示を制御する表示制御手段をさらに備える
ことを特徴とする請求項1に記載の被写体認識装置。
A display control unit that controls display on a display unit so as to display a frame image that corresponds to the frame and that separates the subject and the background in an image including the subject and the background. The subject recognition apparatus according to claim 1.
被写体と背景を含む画像の画像データを記憶し、
記憶された前記画像データの画像中の、所定の枠の内の領域の画像の特徴量に基づいて、前記被写体の画像の特徴量のモデルである被写体モデルを生成し、
記憶された前記画像データの画像中の、前記枠の外の領域において、生成された前記被写体モデルに含まれる画素の数を計数し、
計数された値が、基準値より大きいとき、前記被写体モデルの範囲を狭くするよう、前記被写体モデルを変形し、
変形された前記被写体モデルに基づいて、前記被写体を認識する
ことを特徴とする被写体認識方法。
Store the image data of the image including the subject and background,
Generating a subject model that is a model of the feature amount of the image of the subject based on the feature amount of the image in an area within a predetermined frame in the image of the stored image data ;
Counting the number of pixels included in the generated subject model in the area outside the frame in the image of the stored image data ,
Counted value, is greater than the reference value, so as to narrow the range of the object model, to deform the object model,
A subject recognition method, wherein the subject is recognized based on the deformed subject model .
被写体と背景を含む画像の画像データを記憶する記憶手段と、
前記記憶手段に記憶された前記画像データの画像中の、所定の枠の内の領域の画像の特 徴量に基づいて、前記被写体の画像の特徴量のモデルである被写体モデルを生成するモデル生成手段と、
前記記憶手段に記憶された前記画像データの画像中の、前記枠の外の領域において、前記モデル生成手段により生成された前記被写体モデルに含まれる画素の数を計数する計数手段と、
前記計数手段により計数された値が、基準値より小さいとき、前記被写体モデルの範囲を広くするよう、前記被写体モデルを変形する変形手段と、
前記変形手段により変形された前記被写体モデルに基づいて、前記被写体を認識する認識手段と
を備えることを特徴とする被写体認識装置。
Storage means for storing image data of an image including a subject and a background;
Said storage means in the image memory is the image data, based on the feature amount of the image of the region of the predetermined frame, the model generation for generating an object model which is a feature quantity of the model image of the object Means,
Counting means for counting the number of pixels included in the subject model generated by the model generating means in an area outside the frame in the image of the image data stored in the storage means ;
Deformation means for deforming the subject model so as to widen the range of the subject model when the value counted by the counting means is smaller than a reference value;
And a recognition means for recognizing the subject based on the subject model deformed by the deformation means.
前記被写体と前記背景を含む画像中の、前記枠の内の領域の画像を前記被写体の画像として設定する被写体設定手段をさらに備え、
前記モデル生成手段は、前記被写体設定手段により前記被写体として設定された前記画像より、前記被写体モデルを生成する
ことを特徴とする請求項9に記載の被写体認識装置。
Subject setting means for setting an image of an area within the frame in an image including the subject and the background as an image of the subject;
The subject recognition apparatus according to claim 9, wherein the model generation unit generates the subject model from the image set as the subject by the subject setting unit .
前記被写体を撮像する撮像手段を、前記認識手段の認識結果に対応してパンニングまたはチルティング駆動する駆動手段をさらに備える
ことを特徴とする請求項9に記載の被写体認識装置。
The subject recognition apparatus according to claim 9, further comprising a driving unit that pans or tilts the imaging unit that captures the subject in accordance with a recognition result of the recognition unit.
前記被写体を撮像する撮像手段と、
前記撮像手段を、前記認識手段の認識結果に対応してパンニングまたはチルティング駆動する駆動手段と
をさらに備えることを特徴とする請求項9に記載の被写体認識装置。
Imaging means for imaging the subject;
The subject recognition apparatus according to claim 9, further comprising: a driving unit that pans or tilts the imaging unit according to a recognition result of the recognition unit.
前記被写体を撮像する撮像手段を、パンニングまたはチルティング駆動する駆動手段と、
前記認識手段の認識結果に対応して、前記被写体の位置が、前記撮像手段により撮像された画像の中央の位置に一致するように、前記駆動手段を制御する駆動制御手段と
をさらに備えることを特徴とする請求項9に記載の被写体認識装置。
Driving means for driving the panning or tilting the imaging means for imaging the subject;
Drive control means for controlling the drive means so that the position of the subject coincides with the center position of the image picked up by the image pickup means corresponding to the recognition result of the recognition means. The subject recognition apparatus according to claim 9, characterized in that:
前記被写体を撮像する撮像手段と、
前記撮像手段を、パンニングまたはチルティング駆動する駆動手段と、
前記認識手段の認識結果に対応して、前記被写体の位置が、前記撮像手段により撮像された画像の中央の位置に一致するように、前記駆動手段を制御する駆動制御手段と
をさらに備えることを特徴とする請求項9に記載の被写体認識装置。
Imaging means for imaging the subject;
Driving means for driving the panning or tilting the imaging means;
Drive control means for controlling the drive means so that the position of the subject coincides with the center position of the image picked up by the image pickup means corresponding to the recognition result of the recognition means. The subject recognition apparatus according to claim 9, characterized in that:
前記枠に対応し、前記被写体と背景を含む画像中の前記被写体と前記背景とを互いに分離する枠画像を表示させるよう、表示部への表示を制御する表示制御手段をさらに備える
ことを特徴とする請求項9に記載の被写体認識装置。
A display control unit that controls display on a display unit so as to display a frame image that corresponds to the frame and that separates the subject and the background in an image including the subject and the background. The subject recognition apparatus according to claim 9.
被写体と背景を含む画像の画像データを記憶し、
記憶された前記画像データの画像中の、所定の枠の内の領域の画像の特徴量に基づいて、前記被写体の画像の特徴量のモデルである被写体モデルを生成し、
記憶された前記画像データの画像中の、前記枠の外の領域において、生成された前記被写体モデルに含まれる画素の数を計数し、
計数された値が、基準値より小さいとき、前記被写体モデルの範囲を広くするよう、前記被写体モデルを変形し、
変形された前記被写体モデルに基づいて、前記被写体を認識する
ことを特徴とする被写体認識方法。
Store the image data of the image including the subject and background,
Generating a subject model that is a model of the feature amount of the image of the subject based on the feature amount of the image in an area within a predetermined frame in the image of the stored image data ;
Counting the number of pixels included in the generated subject model in the area outside the frame in the image of the stored image data ,
Counted value, is smaller than the reference value, so as to widen the range of the object model, to deform the object model,
A subject recognition method, wherein the subject is recognized based on the deformed subject model .
JP13451296A 1996-05-29 1996-05-29 Subject recognition apparatus and method Expired - Fee Related JP3726973B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13451296A JP3726973B2 (en) 1996-05-29 1996-05-29 Subject recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13451296A JP3726973B2 (en) 1996-05-29 1996-05-29 Subject recognition apparatus and method

Publications (2)

Publication Number Publication Date
JPH09322050A JPH09322050A (en) 1997-12-12
JP3726973B2 true JP3726973B2 (en) 2005-12-14

Family

ID=15130066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13451296A Expired - Fee Related JP3726973B2 (en) 1996-05-29 1996-05-29 Subject recognition apparatus and method

Country Status (1)

Country Link
JP (1) JP3726973B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019168394A (en) * 2018-03-26 2019-10-03 株式会社エクォス・リサーチ Body orientation estimation device and program

Also Published As

Publication number Publication date
JPH09322050A (en) 1997-12-12

Similar Documents

Publication Publication Date Title
JP4079463B2 (en) Subject detection apparatus and subject detection method
US7995852B2 (en) Imaging device and imaging method
JP4457358B2 (en) Display method of face detection frame, display method of character information, and imaging apparatus
US8319851B2 (en) Image capturing apparatus, face area detecting method and program recording medium
JP4510713B2 (en) Digital camera
TWI425826B (en) Image selection device, image selection method
US7606476B2 (en) Imaging device and imaging method
KR100906522B1 (en) Imaging apparatus, data extraction method, and data extraction program recording medium
KR20070009429A (en) Imaging Device and Imaging Method
WO2008010559A1 (en) Imaging apparatus
CN100512380C (en) Image pick-up apparatus and image restoration method
JP2010171797A (en) Imaging apparatus and program
JPH09149311A (en) Imaging device
JP2009175821A (en) Method for detecting specific image and photographing apparatus
JP2009089220A (en) Imaging apparatus
JPH06268894A (en) Automatic imaging device
JP3726973B2 (en) Subject recognition apparatus and method
JP2021131441A (en) Electronic apparatus
JP4278429B2 (en) Imaging device
JP3726972B2 (en) Subject recognition apparatus and method
JP3192872B2 (en) Motion vector detection circuit and subject tracking camera device using the same
JP4877186B2 (en) Image processing apparatus, image processing method, and program
JP2000188705A (en) Electronic still camera
JP4336186B2 (en) Image correction apparatus and imaging apparatus
JP3757403B2 (en) Subject detection apparatus and subject detection method

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050909

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050922

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091007

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees