JP2008217593A

JP2008217593A - 被写体領域抽出装置及び被写体領域抽出プログラム

Info

Publication number: JP2008217593A
Application number: JP2007056112A
Authority: JP
Inventors: Hitohiro Tomiyama; 仁博冨山; Yuichi Iwadate; 祐一岩舘
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2007-03-06
Filing date: 2007-03-06
Publication date: 2008-09-18

Abstract

【課題】撮影された映像から動く被写体領域の抽出時間を短縮させる。
【解決手段】複数の撮像手段により撮影された動く被写体を含む映像から被写体領域を抽出する被写体領域抽出装置において、前記複数の撮像手段により撮影した映像から動領域を抽出する動領域抽出手段と、前記動領域抽出手段により抽出された動領域と、予め蓄積された前記複数の撮像手段毎に設定される撮影パラメータとに基づいて動く被写体領域の３次元概形を求める３次元概形生成手段と、前記動く被写体の３次元概形を前記複数の撮像手段で撮影された画像に投影し、前記撮像手段により前記被写体の動領域マスク映像を取得する３次元概形投影手段とを有することにより、上記課題を解決する。
【選択図】図１

Description

本発明は、被写体領域抽出装置及び被写体領域抽出プログラムに係り、特に撮影された映像から動く被写体領域の抽出時間を短縮させるための被写体領域抽出装置及び被写体領域抽出プログラムに関する。

従来、カメラで撮影した映像から特定の動く領域のみを抽出する技術として、例えば、背景差分法やフレーム間差分法が知られている（例えば、非特許文献１参照。）。

しかしながら、これらの手法では、実際に抽出したい被写体だけでなく、例えば抽出対象としている被写体以外に動いている映像中の観客や通行人等の人物や、野外で撮影している場合には、風等の影響により動いている木等が動く領域までもが誤って抽出されてしまう。そこで、複数台のカメラ映像を使用して、映像中から特定の動く領域のみを抽出する手法が幾つか開示されている（例えば、特許文献１、特許文献２等参照。）。
「ディジタル画像処理」、ＣＧ−ＡＲＴＳ協会、"１４−１差分画像を用いた移動物体検出"、ｐ．２３８−ｐ．２４２特開平１０−２５５０５７号公報特開２００１−３５７４８９号公報

しかしながら、従来の手法では、複数台のカメラ映像毎に特定の動く領域を抽出するには、多くの処理時間を必要とする。したがって、例えばスポーツ中継等において、選手の動きを分かり易く表現することができるマルチモーション映像等においては、スポーツ中継中にある程度リアルタイムに撮影映像から動いている被写体領域を抜き出さなければならないため処理に対応することができない。

なお、マルチモーション映像は、複数の映像フレームの選手の領域を抽出し、これらを時間軸に沿って合成することで、選手の運動軌跡を１枚の映像で分かり易く表現することができるものである。

本発明は、上述した問題点に鑑みなされたものであり、撮影された映像から動く被写体領域の抽出時間を短縮させるための被写体領域抽出装置及び被写体領域抽出プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、複数の撮像手段により撮影された動く被写体を含む映像から被写体領域を抽出する被写体領域抽出装置において、前記複数の撮像手段により撮影した映像から動領域を抽出する動領域抽出手段と、前記動領域抽出手段により抽出された動領域と、予め蓄積された前記複数の撮像手段毎に設定される撮影パラメータとに基づいて動く被写体領域の３次元概形を求める３次元概形生成手段と、前記動く被写体の３次元概形を前記複数の撮像手段で撮影された画像に投影し、前記撮像手段により前記被写体の動領域マスク映像を取得する３次元概形投影手段とを有することを特徴とする。

請求項１記載の発明によれば、撮影された映像から動く被写体領域の抽出時間を短縮させることができる。

請求項２に記載された発明は、前記動領域抽出手段は、視体積交差法により表現されるＶｉｓｕａｌＨｕｌｌを前記撮像手段により得られる映像に投影して被写体領域を抽出し、更に前記被写体領域の輪郭を抽出することを特徴とする。

請求項２記載の発明によれば、背景ノイズを除去した高精度な被写体領域のシルエット画像を取得することができる。

請求項３に記載された発明は、前記３次元概形生成手段は、前記複数の撮像手段のうち、最も離れた２つの撮像手段を用いて被写体の位置を取得し、取得した位置を基準にして前記被写体の３次元概形の生成を行うことを特徴とする。

請求項３記載の発明によれば、３次元概形の生成を行う空間の初期範囲を狭くすることができる。したがって、被写体領域の抽出時間を短縮することができる。

請求項４に記載された発明は、前記３次元概形生成手段は、前記２つの撮像手段におけるそれぞれの撮像範囲の４隅の３次元座標からＸ軸、Ｙ軸、Ｚ軸それぞれの最小の座標値及び最大の座標値を求め、求めた座標値を基準として前記被写体の３次元概形の生成を行うことを特徴とする。

請求項４記載の発明によれば、座標値を基準とすることで容易に３次元概形の生成を行う空間の初期範囲を狭くすることができる。したがって、被写体領域の抽出時間を短縮することができる。

請求項５に記載された発明は、複数の撮像手段により撮影された動く被写体を含む映像から被写体領域を抽出する被写体領域抽出処理をコンピュータに実行させるための被写体領域抽出プログラムにおいて、前記複数の撮像手段により撮影した映像から動領域を抽出する動領域抽出処理と、前記動領域抽出処理により抽出された動領域と、予め蓄積された前記複数の撮像手段毎に設定される撮影パラメータとに基づいて動く被写体領域の３次元概形を求める３次元概形生成処理と、前記動く被写体の３次元概形を前記複数の撮像手段で撮影された画像に投影し、前記撮像手段により前記被写体の動領域マスク映像を取得する３次元概形投影処理とをコンピュータに実行させる。

請求項５記載の発明によれば、撮影された映像から動く被写体領域の抽出時間を短縮させることができる。また、実行プログラムをコンピュータにインストールすることにより、容易に被写体領域の抽出を実現することができる。

本発明によれば、撮影された映像から動く被写体領域の抽出時間を短縮させることができる。

＜本発明の概要＞
本発明では、複数台のカメラで撮影した多視点映像と、複数台のカメラのカメラパラメータとを使用して、多視点映像からカメラ毎に、特定の動く領域を抽出することを目的とする。更に、従来の手法では、複数台のカメラ映像毎に特定の動く領域を抽出するには、多くの処理時間を必要とする。そこで、本発明では、短時間に複数台のカメラ映像から、カメラ毎に特定の動く領域を抽出する。

具体的には、本発明では、基本的な動領域抽出手法によって得られる動領域のシルエット画像と、複数台のカメラのカメラパラメータ（撮影パラメータ）を使用して生成される被写体のＶｉｓｕａｌＨｕｌｌを用いて、被写体領域を抽出する。

ここで、ＶｉｓｕａｌＨｕｌｌとは、動的領域に対する自由視点画像生成に用いられるもので、多視点から撮影された物体のシルエットと、カメラの光学中心によって形成される錐体の積集合空間を示す。なお、このＶｉｓｕａｌＨｕｌｌを表現する手法としては、視体積交差法がある。つまり、複数のカメラのそれぞれから視体積（ＶｉｓｕａｌＣｏｎｅ）が生成され、その交差領域がＶｉｓｕａｌＨｕｌｌとなる。

＜実施の形態＞
次に、上述した特徴を有する本発明における被写体領域抽出装置及び被写体領域抽出プログラムを好適に実施した形態について、図面を用いて説明する。

＜被写体領域抽出装置：機能構成例＞
まず、本発明における被写体領域抽出装置の機能構成例について図を用いて説明する。図１は、本発明における被写体領域抽出装置の一構成例を示す図である。

図１に示す被写体領域抽出装置１０は、撮像手段１１と、入力手段１２と、出力手段１３と、蓄積手段１４と、動領域抽出手段１５と、３次元概形生成手段１６と、３次元概形投影手段１７と、被写体領域映像生成手段１８と、送受信手段１９と、制御手段２０とを有するよう構成されている。

撮像手段１１は、何らかの動作を行う被写体を撮影し、その映像を取得する。また、撮像手段１１は、取得した映像を蓄積手段１４に蓄積する。ここで、撮像手段１１は、例えば複数の高精細カメラや市販のデジタルビデオカメラ等を用いることができ、所定の位置に固定されているものとする。また、複数のカメラで撮影する場合は、それぞれが異なる位置から被写体の動きを撮影する。

更に、撮像手段１１は、撮影したときの時間情報や、撮影したときのカメラの撮影位置、撮影方向、フォーカス調整等のカメラパラメータ等を取得する。

ここで、撮像手段１１により取得できる複数のカメラのカメラパラメータ（撮影パラメータ）は、一般的に内部パラメータと外部パラメータより構成される。内部パラメータは、カメラの焦点距離、アスペクト比、画像中心、レンズ歪等の情報により構成される。また、外部パラメータは、カメラの姿勢情報と、位置情報等の情報により構成される。なお、上述したカメラパラメータ情報は、被写体の撮影前等に予め求めておき蓄積手段１４等に蓄積しておくことができる。

入力手段１２は、撮像手段１１から得られる何らかの動作を行う被写体の映像の取得指示や、蓄積手段１４から所定のデータを読み出したり、書き込むための指示、映像からの被写体領域を抽出するための指示、３次元概形生成や投影、被写体領域映像の生成等における各指示等の入力を受け付ける。なお、入力手段１２は、例えばキーボードやマウス等のポインティングデバイス、マイク等の音声入力インターフェース等からなる。

また、出力手段１３は、入力手段１２により入力された指示内容や、指示内容に基づいて各構成より得られる実行された動領域抽出結果、３次元概形生成結果、３次元概形投影結果、被写体領域映像生成結果、撮像手段１１により撮影された被写体映像等の各種データを表示及び／又は音声にて出力する。なお、出力手段１３は、ディスプレイやスピーカ等からなる。

蓄積手段１４は、撮像手段１１により得られる映像やカメラパラメータ、動領域抽出手段１５により抽出される動領域抽出結果、３次元概形生成手段１６における３次元概形生成結果、３次元概形投影手段１７における３次元概形投影結果、被写体領域映像生成手段１８における被写体領域映像生成結果等の各種データを蓄積する。

動領域抽出手段１５は、撮像手段１１から得られる複数台のカメラのカメラ毎にカメラ映像と参照フレーム映像から、従来の背景差分法、及びフレーム間差分法等によって、カメラ映像の中から動領域を抽出する。なお、ここで、抽出される動領域には、目的とする動く被写体領域だけでなく、背景中の動く領域が背景ノイズとして混入する場合がある。

具体的には、動領域抽出手段１５は、複数台のカメラについて、各々同様にして映像中の動領域を抽出し、動領域の画素に「１」を、それ以外の画素に「０」を格納した動領域マスク映像を生成する。なお、動領域抽出手法の具体的な説明は、後述する。

３次元概形生成手段１６は、動領域抽出手段１５により得られる複数台のカメラの動領域マスク映像と、複数台のカメラのカメラパラメータとから、動く被写体領域の３次元概形を生成する。

なお、３次元概形生成手段１６は、予め蓄積手段１４に蓄積されたカメラパラメータ情報を利用して、被写体が存在する実空間の３次元座標系［Ｘ，Ｙ，Ｚ］と、カメラで撮影した画像面上での画像座標系［ｘ，ｙ］は以下に示す変換式（式（１）等）によって変換することができる。

ここで、ωは画像距離、Ａは内部パラメータ行列、Ｒは回転行列、Ｔは並進ベクトル、ａはアスペクト比、Ｆは焦点距離、（Ｃｘ、Ｃｙ）は画像中心を示す。

３次元概形生成手段１６では、複数台のカメラのカメラパラメータ毎に得られる上述した各カメラの画像座標系と実空間の３次元座標系の変換式（式（１））と、複数台のカメラの動領域マスク映像とにより、例えば従来の視体積交差法（例えば、“冨山仁博、他４名「視体積交差法とステレオマッチング法を用いた多視点映像からの３次元動オブジェクト生成手法」、映像情報メディア学会誌Ｖｏｌ．５８，Ｎｏ．６，ｐｐ７９７−８０６２００４年６月．”等）を用いて、動く被写体領域の３次元概形を生成する。この３次元概形は、それぞれ実空間の３次元座標を持つ頂点の集合によって構成することができる。

３次元概形投影手段１７は、３次元概形生成手段１６により生成した３次元概形を構成する各頂点を、各カメラの変換式（式（１））を用いて、各カメラの動領域マスク映像に投影する。また、３次元概形投影手段１７は、３次元概形の頂点が投影された画素に「１」を、それ以外の画素に「０」を格納した被写体の動領域マスク映像をカメラ毎に生成し、生成した被写体の動領域マスク映像を出力する。

被写体領域映像生成手段１８は、撮影手段１１により得られる複数台のカメラ映像と、３次元概形投影手段１７により得られる複数台のカメラの被写体の動領域マスク映像から、被写体領域映像をカメラ毎に生成し、生成した被写体領域映像を出力する。

具体的には被写体領域映像生成手段１８は、被写体の動領域マスク映像の画素値が「１」の値を持つ画素にはカメラ映像の該当画素の色情報を格納し、被写体の動領域マスク映像の画素値が「０」の値を持つ画素には色情報「０」を格納した被写体領域映像をカメラ毎に生成し、生成した被写体領域映像を出力する。

＜カメラ配置＞
ここで、本実施形態におけるカメラ配置について、図を用いて説明する。図２は、カメラの配置と対象領域との関係を説明するための図である。図２に示すように、複数の撮像手段としての複数のカメラ１１−１〜１１−５により対象領域に対して同期撮影した映像を収録する。つまり、カメラ台数分の収録映像から同時刻における撮影したフレームを取得することで、多視点映像を生成することができる。

＜動領域抽出手段１５における被写体領域の抽出例＞
ここで、上述した動領域抽出手段１５における被写体領域の抽出例について説明する。図３は、本実施形態における動領域抽出処理手順の一例を示すフローチャートである。

図３に示すように、まず、一般的な背景差分、又はフレーム間差分を用いて、映像中から動領域を抽出する（Ｓ０１）。次に、細かいノイズ除去と、穴埋めのために例えばモルフォロジーフィルタ処理（所定の画素サイズに画像領域を膨張された後、元のサイズに収縮する）を行う（Ｓ０２）。ここで、映像中に被写体以外の動領域が存在しない場合には、この時点で精度よく被写体の領域のみが抽出される場合もあるが、そうでない場合には、背景に存在する動領域もノイズとして抽出されてしまう。

図４は、背景ノイズの一例を示す図である。なお、図４（ａ）は、図２に示すカメラ１１−１により撮影された動領域のマスク映像を示し、図４（ｂ）は、カメラ１１−５により撮影された動領域のマスク映像を示している。

図４に示すような背景領域の背景ノイズ３０をＶｉｓｕａｌＨｕｌｌを求めることによって除去する。具体的には、例えば視体積交差法によるＶｉｓｕａｌＨｕｌｌの生成を行う（Ｓ０３）。なお、この処理は、カメラ台数分行う。なお、Ｓ０３における視体積交差法によるＶｉｓｕａｌＨｕｌｌの生成方法については後述する。

また、ＶｉｓｕａｌＨｕｌｌをカメラに投影し、被写体領域を抽出し（Ｓ０４）、被写体領域の輪郭を抽出する（Ｓ０５）。これにより、背景ノイズを除去した高精度な被写体領域のシルエット画像を取得することができる。

＜Ｓ０３：視体積交差法によるＶｉｓｕａｌＨｕｌｌの生成＞
次に、上述したＳ０３の処理における視体積交差法によるＶｉｓｕａｌＨｕｌｌの生成について、図を用いて説明する。

図５は、視体積交差法によるＶｉｓｕａｌＨｕｌｌの生成方法について説明するための一例の図である。視体積交差法は、カメラの撮影映像から抽出した被写体のシルエットをＶｏｘｅｌ（３次元世界を構成する最小単位の立方体）頂点空間に逆投影し、カメラの光学中心を頂点とし、被写体のシルエットを断面形状とする視体積（ＶｉｓｕａｌＣｏｎｅ）の共通領域から、被写体の近似形状であるＶｉｓｕａｌＨｕｌｌを求める手法である。

３次元概形生成手段１６では、図５に示すように生成されたＶｉｓｕａｌＨｕｌｌは、全てのカメラ映像で共通に抽出されている被写体シルエット部分の３次元概形のみとなる。したがって、全てのカメラで共有に映っていない背景ノイズが除去された被写体領域を抽出することができる。

ここで、本実施例では、このＶｉｓｕａｌＨｕｌｌをできるだけ短時間に求めるために以下の手順でＶｉｓｕａｌＨｕｌｌ生成処理を行う。

図６は、本実施形態におけるＶｉｓｕａｌＨｕｌｌ生成手順の一例を示すフローチャートである。図６において、まずＶｏｘｅｌ頂点空間を定義する初期領域の決定し（Ｓ１１）、次に、初期領域内で粗いＶｏｘｅｌ解像度の初期Ｖｏｘｅｌ頂点空間を定義する（Ｓ１２）。また、初期Ｖｏｘｅｌ頂点空間内で視体積交差法を行い、解像度の粗い初期ＶｉｓｕａｌＨｕｌｌを求める（Ｓ１３）。

また、初期ＶｉｓｕａｌＨｕｌｌに外接する領域を２次領域とし、２次領域内で細かいＶｏｘｅｌ解像度の２次Ｖｏｘｅｌ頂点空間を定義する（Ｓ１４）。また、２次Ｖｏｘｅｌ頂点空間内で視体積交差法を行い、解像度の細かい２次ＶｉｓｕａｌＨｕｌｌを求める（Ｓ１５）。

ここで、Ｓ１１の処理における初期領域は、撮影方向に９０度ほどの差がある２台のカメラの共通撮影空間を、上述した図５に示すそれぞれのカメラ１１−１及びカメラ１１−５の映像の４隅を通る光学直線の近接点を求めることによって決定する。

このようにして、上述の手順で求めたＶｉｓｕａｌＨｕｌｌを各カメラに投影し、被写体領域を抽出したシルエット画像を生成する。

ここで、ＶｉｓｕａｌＨｕｌｌを投影するカメラまでの距離に対してＶｏｘｅｌの解像度が粗い場合に投影した映像に穴が観測される問題がある。そこで、投影するカメラまでの距離に応じて、１つのボクセル（Ｖｏｘｅｌ）が投影される画素数を変更することで、穴の無い投影映像を生成している。最終的に得られる被写体領域のシルエット画像を図７に示す。

図７は、本実施形態における最終的な被写体領域のシルエット画像の一例を示す図である。なお、図７（ａ）は、図５に示すカメラ１１−１により撮影された動領域のマスク映像を示し、図７（ｂ）は、図５に示すカメラ１１−５により撮影された動領域のマスク映像を示している。図７に示すように、背景ノイズ３０を除去した高精度な画像を生成することができる。

つまり、対象となる被写体が存在すると思われる空間をＶｏｘｅｌに分割し、各Ｖｏｘｅｌについて、“そのＶｏｘｅｌを撮像面に投影したとき、対象領域（シルエット）内に投影されるか否か”を各撮影視点で調べ、全ての視点でシルエット内であるものを残すことで、視体積（ＶｉｓｕａｌＣｏｎｅ）の交差領域（ＶｉｓｕａｌＨｕｌｌ）が得られる。

＜３次元概形の生成方法＞
次に、本実施形態における３次元概形生成方法について説明する。具体的には、複数のカメラから撮影された被写体の３次元概形を取得する際、カメラの画角等により設定される被写体よりも大きな領域で設定する必要がある。その場合は、処理時間がかなり大きくなるため、本発明では、被写体を撮影している複数のカメラのうち、最も離れた２台のカメラを用いて被写体のおおよその位置を取得し、その位置を初期範囲として基準にし、３次元概形の生成処理を行うようにする。

ここで、図８は、３次元概形生成における初期範囲を設定するための一例を示す図である。図８の例では、２台のカメラが存在しＣａｍ１は上述したカメラ１１−１に相当し、Ｃａｍ２は上述したカメラ１１−５に相当しているものとする。また、図８において、Ｌ１＿ｃａｍＮはｃａｍＮの画像面左上端を通る直線を示し、Ｌ２＿ｃａｍＮはｃａｍＮの画像面右上端を通る直線を示し、Ｌ３＿ｃａｍＮはｃａｍＮの画像面右下端を通る直線を示し、Ｌ４＿ｃａｍＮはｃａｍＮの画像面左下端を通る直線を示すものとする。また、Ｐｉｊは、Ｌｉ＿ｃａｍ１とＬｊ＿ｃａｍ２が最も近接する３次元空間点を示すものとする。

このとき、初期範囲の設定方法としては、図４に示すＰ１１〜Ｐ４４の３次元座標からＸ軸、Ｙ軸、Ｚ軸それぞれの、最小の座標値と最大の座標値を求める。

例えば、（Ｘ＿ｍｉｎ，Ｙ＿ｍｉｎ，Ｚ＿ｍｉｎ）＝（Ｐ４３のＸ座標、Ｐ３３のＹ座標，Ｐ３３のＺ座標）、（Ｘ＿ｍａｘ，Ｙ＿ｍａｘ，Ｚ＿ｍａｘ）＝（Ｐ３４のＸ座標、Ｐ２１のＹ座標，Ｐ３４のＺ座標）となる。

このとき、３次元概形を求める範囲は、Ｘ＿ｍｉｎ〜Ｘ＿ｍａｘ，Ｙ＿ｍｉｎ〜Ｙ＿ｍａｘ，Ｚ＿ｍｉｎ〜Ｚ＿ｍａｘの範囲の３次元座標空間中で行う。

＜Ｐｉｊの算出方法＞
ここで、上述した各点Ｐｉｊの算出方法について、Ｐ１１（ｉ＝１，ｊ＝１）を例に説明する。図９は、Ｐ１１の算出方法を説明するための一例の図である。ここで、図９に示す「×」は直線上の３次元点の座標（Ｘ，Ｙ，Ｚ）を示し、「○」は直線上の３次元点をＣａｍ１に投影した座標（ｕ，ｖ）を示している。

算出方法は、以下に示すＰ１１に対するＣａｍ２のカメラ画像座標と３次元座標の変換式（式（２））を利用して、距離ω２に初期値０を与え、Ｃａｍ２の画像面左上端の点（ｘ１，ｙ１）を通る直線Ｌ１＿ｃａｍ２上の点の３次元座標（Ｘ，Ｙ，Ｚ）を求める。

次に、求めた３次元座標（Ｘ，Ｙ，Ｚ）を以下に示すＣａｍ１のカメラ画像座標と３次元座標の変換式（式（３））に代入し、求めた３次元座標（Ｘ，Ｙ，Ｚ）をＣａｍ１に投影した座標（ｕ，ｖ）を求める。

次に、投影座標（ｕ，ｖ）と、Ｃａｍ１の画像面左上端の点（ｘ１，ｙ１）との距離誤差ｅｒｒｏｒを以下に示す式（４）から求める。

更に、ω２を増加させながら、直線上の上述した処理を繰り返して、それぞれの３次元座標を求めていき、上述した式（４）のｅｒｒｏｒが最も小さくなるとき、つまり、投影点（ｕ，ｖ）がＣａｍ１の左上端の点（ｘ１，ｙ１）に最も近くなるときのＬ１＿ｃａｍ２上の３次元空間点の座標（Ｘ，Ｙ，Ｚ）を、Ｐ１１の３次元座標とする。

これを同様にして上述したＰ１２〜Ｐ４４の３次元空間点の座標を求めることができ、この座標に基づいて、３次元概形の初期範囲を設定する。これにより、３次元概形の生成を行う空間の初期範囲を狭くすることができる。したがって、被写体領域の抽出時間を短縮することができる。

＜３次元概形生成手法１７における投影範囲の画素数の計算方法＞
ここで、３次元概形生成手法１７における投影範囲の画素数の計算方法について説明する。３次元概形の重心からカメラまでの距離をｄｅｐｔｈ（ｍ）とし、カメラの焦点距離をｆ（ｍ）とし、カメラ撮像面の画素ピッチのサイズをｐ（ｍ／ｐｉｘｅｌ）とし、３次元概形の頂点解像度（頂点の間隔）をｖ（ｍ）とした場合、３次元概形を構成する各頂点を、カメラに投影する際の投影範囲ｉｐ（ｐｉｘｅｌ）は以下の式（５）によって求めることができる。
ｉｐ＝ｖ×ｆ／ｄｅｐｔｈ×ｐ・・・（５）
したがって、水平、垂直方向にそれぞれｉｐ（ｐｉｘｅｌ）の範囲で投影する。

上述したように、被写体領域抽出装置１０により、撮影された映像から動く被写体領域の抽出時間を短縮させることができる。また、複数台のカメラ映像の中から、動く被写体領域を効率的に抽出することができ、様々な映像コンテンツ制作に応用することが期待できる。

＜本実施形態により抽出した被写体領域の利用例＞
ここで、上述した本実施形態により抽出した被写体領域の利用例としてマルチモーション映像の生成について説明する。

マルチモーション映像は、複数の映像フレームから抽出した被写体領域の映像を１枚の映像に合成することで得られる。なお、多視点マルチモーションの場合、被写体の動きを様々な方向から撮影しているため、カメラ位置に応じて、複数の映像フレームを合成する順序を変更する必要がある。そこで、各カメラから各フレームの被写体領域までのおおよその距離を計算し、カメラから距離が近い被写体領域の映像が前面になるような順序で合成する。

具体的には、２台のカメラの被写体領域のシルエット画像から、シルエットの重心の座標を計算し、三角測量の原理でシルエット重心の３次元座標を計算する。

フレーム毎に求めたシルエット重心の３次元座標から、各カメラの光学中心までの距離を求めることで、カメラから各フレームの被写体領域までのおおよその距離を計算する。また、求めた距離に基づき、距離が遠い被写体領域の映像から順に、距離が近い被写体領域の映像が前面になるように合成することで、カメラ毎に自然なレイヤー構成のマルチモーション映像を生成することができる。

ここで、図１０は、マルチモーション映像の一例を示す図である。なお、図１０では、マルチモーション映像の１フレームを示している。図１０に示す例では、５台のカメラで撮影されたそれぞれの画像から抽出された被写体４１−１〜４１−５が、その５台のうちのあるカメラにより撮影された映像のうちのあるフレーム画像４０に含まれる背景画像４２上に合成されて出力されている。また、合成時に被写体領域映像の輪郭部分を背景映像と合成することで、輪郭部分のちらつきが目立たないようにしている。

＜実行プログラム＞
ここで、上述した被写体領域抽出装置１０は、上述した専用の装置構成等を用いて本発明における映像生成を行うこともできるが、各構成における処理をコンピュータに実行させるための実行プログラムを生成し、例えば汎用のパーソナルコンピュータ、サーバ等にそのプログラムをインストールすることにより、本発明に係る被写体領域の抽出を実現することができる。

＜ハードウェア構成＞
ここで、本発明における被写体領域抽出処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図１１は、本発明における被写体領域抽出処理が実現可能なハードウェア構成の一例を示す図である。

図１１におけるコンピュータ本体には、入力装置５１と、出力装置５２と、ドライブ装置５３と、補助記憶装置５４と、メモリ装置５５と、各種制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５６と、ネットワーク接続装置５７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

入力装置５１は、ユーザ等が操作するキーボード及びマウス等のポインティングデバイスや音声入力デバイス等を有しており、ユーザ等からのプログラムの実行指示等、各種操作信号、音声信号を入力する。出力装置５２は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイやスピーカ等を有し、ＣＰＵ５６が有する制御プログラムにより実行経過や結果等を表示又は音声出力することができる。

ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えばＣＤ−ＲＯＭやＤＶＤ等の記録媒体５８等により提供される。プログラムを記録した記録媒体５８は、ドライブ装置５３にセット可能であり、記録媒体５８に含まれる実行プログラムが、記録媒体５８からドライブ装置５３を介して補助記憶装置５４にインストールされる。

また、ドライブ装置５３は、本発明に係る実行プログラムを記録媒体５８に記録することができる。これにより、その記録媒体５８を用いて、他の複数のコンピュータに容易にインストールすることができ、容易に被写体領域抽出処理を実現することができる。

補助記憶装置５４は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。

また、補助記憶装置５４は、上述した動領域の抽出結果や、３次元概形生成結果、３次元概形投影結果、被写体領域抽出映像、カメラパラメータ、ディスプレー等の出力手段等に出力される各種表示画面等を蓄積する蓄積手段として用いることもできる。

メモリ装置５５は、ＣＰＵ５６により補助記憶装置５４から読み出された実行プログラム等を格納する。なお、メモリ装置５５は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等からなる。

ＣＰＵ５６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、及び補助記憶装置５４から読み出されメモリ装置５５に格納されている実行プログラム等に基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、被写体領域抽出等における各処理を実現することができる。また、プログラムの実行中に必要な各種情報等は、補助記憶装置５４から取得することができ、また格納することもできる。

ネットワーク接続装置５７は、電話回線やＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）ケーブル等の通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラムを他の端末等に提供することができる。

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで被写体領域抽出処理を実現することができる。また、プログラムをインストールすることにより、容易に被写体領域抽出処理を実現することができる。次に、本発明における実行プログラムを用いた処理手順についてフローチャートを用いて説明する。

＜被写体領域抽出処理＞
図１２は、本発明における被写体領域抽出処理手順の一例を示すフローチャートである。図１２において、まず撮像手段としてのカメラ等を用いて動く被写体を撮影した映像を取得する（Ｓ２１）。なお、Ｓ２１の処理では、設置位置の異なる複数のカメラから撮影された映像を用いるものとする。また、Ｓ２１の処理では、映像（画像）そのもののデータ（フレーム）だけでなく、撮影時間、各カメラのカメラパラメータ等を取得する。

次に、各カメラから撮影により得られた映像から動領域を抽出する（Ｓ２２）。このとき、上述した動領域抽出手法を用いることにより、短時間で正確な所望する被写体のマスク（シルエット）画像を生成することができる。

更に、抽出した複数のカメラの動領域マスク映像から複数のカメラのカメラパラメータに基づいて被写体の３次元概形を生成し（Ｓ２３）、その３次元概形情報、複数のカメラのカメラパラメータから３次元概形を投影し、被写体の動領域マスク映像を生成する（Ｓ２４）。

更に、複数のカメラの被写体領域映像を生成し（Ｓ２５）、生成した映像を出力する（Ｓ２６）。上述した処理により、迅速に動領域を抽出することができる。

上述したように本発明によれば、撮影された映像から動く被写体領域の抽出時間を短縮させることができる。具体的には、映像中の背景にいる観客や通行人等の人物や動いている木等の背景ノイズを排除し、対象となる被写体領域のみを精度よく抽出することができる。また、本発明によれば、カメラ台数分の複数フレームの領域抽出処理を短時間に行うことができる。更に、各カメラと被写体との位置関係に応じて、複数の映像フレームの被写体領域映像を合成する順序を決めることができる。

また、本発明によれば、例えばスポーツ選手等の時間経過に沿った動きを、様々な視点から見ることができるため、スポーツ中継や運動解析等において視覚的にわかりやすい運動情報の提示を行うことができる。

以上本発明の好ましい実施の形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本発明における被写体領域抽出装置の一構成例を示す図である。カメラの配置と対象領域との関係を説明するための図である。本実施形態における動領域抽出処理手順の一例を示すフローチャートである。背景ノイズの一例を示す図である。視体積交差法によるＶｉｓｕａｌＨｕｌｌの生成方法について説明するための一例の図である。本実施形態におけるＶｉｓｕａｌＨｕｌｌ生成手順の一例を示すフローチャートである。本実施形態における最終的な被写体領域のシルエット画像の一例を示す図である。３次元概形生成における初期範囲を設定するための一例を示す図である。Ｐ１１の算出方法を説明するための一例の図である。マルチモーション映像の一例を示す図である。本発明における被写体領域抽出処理が実現可能なハードウェア構成の一例を示す図である。本発明における被写体領域抽出処理手順の一例を示すフローチャートである。

符号の説明

１０被写体領域抽出装置
１１撮像手段
１２入力手段
１３出力手段
１４蓄積手段
１５動領域抽出手段
１６３次元概形生成手段
１７３次元概形投影手段
１８被写体領域映像生成手段
１９送受信手段
２０制御手段
３０ノイズ
４０フレーム画像
４１被写体
４２背景画像
５１入力装置
５２出力装置
５３ドライブ装置
５４補助記憶装置
５５メモリ装置
５６ＣＰＵ
５７ネットワーク接続装置
５８記録媒体

Claims

複数の撮像手段により撮影された動く被写体を含む映像から被写体領域を抽出する被写体領域抽出装置において、
前記複数の撮像手段により撮影した映像から動領域を抽出する動領域抽出手段と、
前記動領域抽出手段により抽出された動領域と、予め蓄積された前記複数の撮像手段毎に設定される撮影パラメータとに基づいて動く被写体領域の３次元概形を求める３次元概形生成手段と、
前記動く被写体の３次元概形を前記複数の撮像手段で撮影された画像に投影し、前記撮像手段により前記被写体の動領域マスク映像を取得する３次元概形投影手段とを有することを特徴とする被写体領域抽出装置。
前記動領域抽出手段は、
視体積交差法により表現されるＶｉｓｕａｌＨｕｌｌを前記撮像手段により得られる映像に投影して被写体領域を抽出し、更に前記被写体領域の輪郭を抽出することを特徴とする請求項１に記載の被写体領域抽出装置。
前記３次元概形生成手段は、
前記複数の撮像手段のうち、最も離れた２つの撮像手段を用いて被写体の位置を取得し、取得した位置を基準にして前記被写体の３次元概形の生成を行うことを特徴とする請求項１又は２に記載の被写体領域抽出装置。
前記３次元概形生成手段は、
前記２つの撮像手段におけるそれぞれの撮像範囲の４隅の３次元座標からＸ軸、Ｙ軸、Ｚ軸それぞれの最小の座標値及び最大の座標値を求め、求めた座標値を基準として前記被写体の３次元概形の生成を行うことを特徴とする請求項３に記載の被写体領域抽出装置。
複数の撮像手段により撮影された動く被写体を含む映像から被写体領域を抽出する被写体領域抽出処理をコンピュータに実行させるための被写体領域抽出プログラムにおいて、
前記複数の撮像手段により撮影した映像から動領域を抽出する動領域抽出処理と、
前記動領域抽出処理により抽出された動領域と、予め蓄積された前記複数の撮像手段毎に設定される撮影パラメータとに基づいて動く被写体領域の３次元概形を求める３次元概形生成処理と、
前記動く被写体の３次元概形を前記複数の撮像手段で撮影された画像に投影し、前記撮像手段により前記被写体の動領域マスク映像を取得する３次元概形投影処理とをコンピュータに実行させるための被写体領域抽出プログラム。