WO2012001755A1

WO2012001755A1 - 情報処理システム、情報処理装置および情報処理方法

Info

Publication number: WO2012001755A1
Application number: PCT/JP2010/007121
Authority: WO
Inventors: 大場　章男; 博之勢川; 稲田　徹悟
Original assignee: 株式会社ソニー・コンピュータエンタテインメント
Priority date: 2010-07-02
Filing date: 2010-12-07
Publication date: 2012-01-05
Also published as: EP2590396B1; US20130100255A1; EP2590396A4; US9357203B2; CN102959941A; JP5395956B2; JPWO2012001755A1; CN102959941B; EP2590396A1

Abstract

　情報処理装置１４の入力情報取得部２２は、ユーザからの指示入力を受け付ける。撮影条件制御部２４は、ユーザの指示または撮影された画像の解析結果に基づき決定した撮影条件で撮影を開始させる。撮影条件記憶部２６は、目的とする機能と撮影条件とを対応づけた撮影条件テーブルを記憶する。第１画像解析部３２および第２画像解析部３４は、撮像装置１２に搭載された第１カメラ２８、第２カメラ３０が撮影した画像をそれぞれ取得して必要な画像解析を行う。情報統合部３６は、一対のカメラで撮影された画像や解析結果を統合する。画像データ生成部３８は、処理の結果として出力する画像のデータを生成する。

Description

情報処理システム、情報処理装置および情報処理方法

　本発明は、撮影した画像に基づき逐次出力画像を表示する情報処理システム、当該システムに含まれる情報処理装置、および当該システムで用いる情報処理方法に関する。

　近年、パーソナルコンピュータやゲーム機などにカメラを搭載し、ユーザの姿を撮像して様々な形で利用することが一般的に行われるようになってきた。例えばテレビ電話、ビデオチャットなど、ユーザの画像を、ネットワークを介してそのまま相手に伝送するものや、画像解析によってユーザの動きを認識してゲームや情報処理の入力情報とするものなどが実用化されている（例えば特許文献１参照）。

ＷＯ　２００７／０５０８８５　Ａ２公報

　撮影画像を利用して様々な処理を応答性よく高精度に実現するためには、その処理内容に応じた撮影条件が求められる。しかしながら製造コスト、画像の伝送帯域、撮影から出力までの応答性などの点から、単にカメラの性能や画質を上げることのみによって情報処理装置の機能を充実化させるのは困難な状況にある。

　本発明はこのような課題に鑑みてなされたものであり、その目的は、安価かつ効率的に、撮影画像を利用した情報処理装置の機能を充実化させることのできる技術を提供することにある。

　本発明のある態様は情報処理システムに関する。この情報処理システムは、被写体を撮影し、その画像データを逐次取得して出力画像データを生成する情報処理システムであって、同じ被写体に関する個別の情報を得るためにそれぞれ設定された異なる撮影条件で対象物を撮影する、同一の構造を有する第１のカメラおよび第２のカメラからなる一対のカメラと、一対のカメラのそれぞれが撮影して得られた２系統の画像データに含まれる個別の情報を統合して１系統の出力画像データを生成する情報統合部と、を備えたことを特徴とする。

　ここで「被写体」は、撮影対象として明確に位置づけられた人などに限らず、カメラの視野に入る部屋、人、物、動物などを含む。したがって「被写体に関する個別の情報」とは、同一の個体に関する個別の情報に限らず、被写体に含まれる複数の個体のいずれかに関する情報でよく、別の個体に関する個別の情報でもよい。

　本発明の別の態様は情報処理装置に関する。この情報処理装置は、被写体を撮影した画像データを逐次取得して出力画像データを生成する情報処理装置であって、接続された同一の構造を有する一対のカメラを、同じ被写体に関する個別の情報を得るためにそれぞれ設定した異なる撮影条件にて撮影を行うように制御する撮影条件制御部と、一対のカメラのそれぞれが撮影して得られた２系統の画像データを取得し、各画像データに含まれる個別の情報を統合して１系統の出力画像データを生成する情報統合部と、を備えたことを特徴とする。

　本発明のさらに別の態様は情報処理方法に関する。この情報処理方法は、被写体を撮影した画像データを逐次取得して、それに応じた出力画像データを出力する情報処理方法であって、同一の構造を有する一対のカメラによって、同じ被写体に関する個別の情報を得るためにそれぞれ設定した異なる撮影条件にて撮影を行うステップと、一対のカメラのそれぞれが撮影して得られた２系統の画像データを取得し、各画像データに含まれる個別の情報を統合して１系統の出力画像データを生成するステップと、出力画像データを表示装置に出力するステップと、を含むことを特徴とする。

　なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

　本発明によると、撮影画像を利用した様々な機能を安価に実現できる。

本実施の形態を適用できる情報処理システムの構成例を示す図である。本実施の形態の撮像装置および情報処理装置の構成を詳細に示す図である。本実施の形態で想定する撮影状況例を説明するための図である。本実施の形態の、画角の大きさと解像度を異ならせる態様において、撮像装置が撮影した画像と、それを利用して得られる出力画像の例を示す図である。本実施の形態の、画角の大きさと解像度を異ならせる態様における情報処理の処理手順を示すフローチャートである。本実施の形態の、画角の大きさと解像度を異ならせる態様の変形例を示す図である。本実施の形態の、画角の大きさと解像度を異ならせる態様の変形例を示す図である。本実施の形態の、画角の大きさとフレームレートを異ならせる態様において、撮像装置が撮影した画像と、それを利用して得られる出力画像の例を示す図である。本実施の形態の、画角の大きさとフレームレートを異ならせる態様における情報処理の処理手順を示すフローチャートである。本実施の形態の、画角の大きさとフレームレートを異ならせる態様における、画像のスキャン時間を説明するための図である。本実施の形態の、画角の大きさとフレームレートを異ならせる態様において、撮像装置が撮影した画像と、それを利用して得られる出力画像の例を示す図である。本実施の形態の、露光時間／絞り値を異ならせる態様において、撮像装置が撮影した画像と、それを利用して得られる出力画像の例を示す図である。本実施の形態の、露光時間／絞り値を異ならせる態様における情報処理の処理手順を示すフローチャートである。

実施形態１
　図１は本実施の形態を適用できる情報処理システムの構成例を示す。情報処理システム１０は、ユーザ１ａ、１ｂなどの対象物を撮影する２つのカメラを搭載した撮像装置１２、撮影した画像に基づき、ユーザの要求に応じた情報処理を行う情報処理装置１４、情報処理装置１４が処理した結果得られた画像データを出力する表示装置１６を含む。また情報処理装置１４はインターネットなどのネットワーク１８と接続可能とする。

　情報処理装置１４と、撮像装置１２、表示装置１６、ネットワーク１８とは、有線ケーブルで接続されてよく、また無線ＬＡＮ（Local Area Network）などにより無線接続されてもよい。撮像装置１２、情報処理装置１４、表示装置１６のうちいずれか２つ、または全てが組み合わされて一体的に装備されていてもよい。また、撮像装置１２は必ずしも表示装置１６の上に設置されていなくてもよい。さらにユーザ１ａ、１ｂは人でなくてもよく、その数も限定されない。

　撮像装置１２は、同じ構造を有する一対のカメラで同一空間に存在する対象物を撮影する。撮像装置１２として、対象物の奥行き情報を取得するために実用化されているステレオカメラなどを利用してもよい。すなわち並べて設置することによりほぼ同一の視野を得ることのできる、それぞれにレンズを有するカメラの対であってよい。一方、カメラの間隔が既知であり視差を補正することにより、少なくとも視野の一部の対応関係が導出できれば、２つのカメラの間隔や相対位置は限定されない。またレンズを１つとし、当該レンズが捉えた画像を撮像装置１２内部で分光することにより実質上、２つのカメラを実現してもよい。

　２つのカメラの少なくとも一方は電子ズーム、電子パンチルタ、もしくは相当の画像切り出し機能を備え、情報処理装置１４の制御によって視野を独立に変化させることができるようにする。また撮影条件、例えばホワイトバランス、フレームレート、露光時間、絞り値は、情報処理装置１４によって２つのカメラでそれぞれ独立に制御可能とする。

　撮像装置１２は情報処理装置１４が指定した撮影条件で、ユーザ１ａ、１ｂなどを含む画像のデータを動画または静止画として取得する。取得した画像データは情報処理装置１４に入力される。情報処理装置１４は、撮像装置１２から取得した画像データに基づきその後の撮影条件を決定し、撮像装置１２へ当該撮影条件をフィードバックする。情報処理装置１４はさらに、撮像装置１２から取得した画像データに基づき、ユーザが指定した機能に応じた情報処理を行い、出力する画像データを生成する。

　生成した画像データは表示装置１６に出力するか、ネットワーク１８を介して接続した別の情報処理装置へ送信する。表示装置１６は画像を出力するディスプレイおよび音声を出力するスピーカを有するテレビであってよい。

　図２は撮像装置１２および情報処理装置１４の構成を詳細に示している。情報処理装置１４は、ユーザからの指示入力を受け付ける入力情報取得部２２、ユーザの指示または撮影された画像の解析結果に基づき決定した撮影条件で撮影を開始させる撮影条件制御部２４、目的とする機能と撮影条件とを対応づけた撮影条件テーブルを記憶する撮影条件記憶部２６、撮像装置１２に搭載された第１カメラ２８、第２カメラ３０が撮影した画像をそれぞれ取得して必要な画像解析を行う第１画像解析部３２および第２画像解析部３４、一対のカメラで撮影された画像や解析結果を統合する情報統合部３６、および、処理の結果として出力する画像のデータを生成する画像データ生成部３８を含む。

　図２において、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、ＣＰＵ、メモリ、その他のＬＳＩで構成することができ、ソフトウェア的には、画像処理を行うプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

　入力情報取得部２２は、ユーザが情報処理装置１４に対し行う指示入力を受け付けるインターフェースであり、ポインティングデバイス、マウス、キーボード、タッチパネル、ゲームコントローラ、ボタンなど一般的な入力装置で実現できる。入力情報取得部２２は情報処理装置１４本体と別の筐体を有する、無線又は有線で接続した装置としてもよい。ユーザによる指示入力は、情報処理装置１４が実行可能な機能のいずれかを選択する入力、表示装置１６に表示されたカーソルや枠を移動させたり選択したりする入力を含む。入力情報取得部２２が取得した情報は、撮影条件制御部２４、第１画像解析部３２、第２画像解析部３４、情報統合部３６に適宜通知される。情報処理装置１４が実行可能な機能の例については後述する。

　撮影条件制御部２４は、ユーザが入力情報取得部２２に入力した指示入力に従い第１カメラ２８および第２カメラ３０における撮影条件を決定し、当該２台のカメラの少なくともいずれかに撮影要求信号を送信することにより、決定した条件での撮影を開始させる。撮影条件の初期値は、ユーザが指示する機能に基づき、撮影条件記憶部２６に格納された撮影条件テーブルを参照することによって得られる。また撮影条件制御部２４は、第１カメラ２８、第２カメラ３０の少なくともいずれかが撮影した画像を解析した結果に基づき、さらに撮影条件を決定し、少なくともいずれかのカメラに当該条件にて撮影を開始させる。

　第１画像解析部３２は第１カメラ２８が撮影した画像を取得し、第２画像解析部３４は第２カメラ３０が撮影した画像を取得し、いずれもユーザが選択した機能に応じた画像解析を行う。ただしユーザが選択した機能によっては画像解析を必要としない場合もあり、その場合は画像データをそのまま情報統合部３６などへ送出してよい。そのため第１画像解析部３２および第２画像解析部３４は、入力情報取得部２２から、ユーザが選択した機能についての情報を取得したうえ処理を実行する。第１画像解析部３２や第２画像解析部３４による解析結果は撮影条件制御部２４へ送信され、さらなる撮影条件の決定に利用されるか、情報統合部３６へ送信される。

　情報統合部３６は、第１画像解析部３２および第２画像解析部３４が解析した結果、またはそれぞれから送信された画像データを統合する。どのような統合を行うかはユーザが選択した機能によって異なる。そのため情報統合部３６は、入力情報取得部２２から、ユーザが選択した機能についての情報を取得したうえ処理を実行する。画像データ生成部３８は、情報統合部３６が統合した結果を画像として出力するための画像データを生成し、表示装置１６またはネットワーク１８へ出力する。

　次に情報処理システム１０が実現する機能の具体例について説明する。図３は本実施の形態で想定する撮影状況例を説明するための図である。同図の例では二人のユーザ１ａ、１ｂがテーブルについて会話などしている状況を第１カメラ２８、第２カメラ３０で撮影している。撮影対象はユーザ１ａ、１ｂなど人に限らず、ユーザが保持するフリップ２などの物でもよい。撮影した画像は例えば、逐次、ネットワーク１８を介して別の情報処理システムに送信することにより、当該別の情報処理システムの表示装置に表示されるようにする。

　これにより、遠隔地でユーザ１ａ、１ｂの会話の様子を見ることができる。また２つの情報処理システム１０相互に同様の処理を実行することにより、ビデオチャットやテレビ電話の機能を実現することができる。なおこのような機能を発揮させるためのネットワークの確立やデータ伝送のための手続きなどについては一般的な技術を採用してよく、ここでは説明を省略する。またネットワークを介して画像データを送信するばかりでなく、撮影対象であるユーザ１ａ、１ｂが見ている表示装置１６に、処理結果である画像を表示することにより、ユーザ１ａ、１ｂがゲームを楽しむ、といった態様でもよい。

　このような状況において本実施の形態における情報処理システム１０は、２台のカメラで同一の対象物を、異なる条件で撮影することにより、撮影画像に付加価値をつけて出力情報とする。図３の例では第１カメラ２８は対象物全体の領域４０を広角で撮影し、第２カメラ３０はユーザ１ｂの顔の領域４２のみを狭角で撮影している。このとき第２カメラ３０が撮影する画像は第１カメラ２８が撮影する画像と同じ画素サイズとする。

　結果として第２カメラ３０で撮影した画像は第１カメラ２８で撮影した画像より高解像度となる。これにより第１カメラ２８で撮影した画像は通常の解像度で広角、第２カメラ３０で撮影した画像は高解像度で狭角、と互いに異なる性質の画像を取得できる。本実施の形態ではこのように、同一の被写体、空間を、条件を異ならせて同時に撮影し、それぞれが有する情報を統合することによって様々な処理を可能にする。

　以下、情報処理システム１０が実現する機能の例について具体的に説明する。なおこれらの機能は例示であり、情報処理システム１０はこれらの機能のうちのいずれか１つまたはいずれか２つ以上の組み合わせを実現可能とすればよく、全ての機能を備える趣旨ではない。

（１）画角の大きさと解像度を異ならせる態様
　本態様は図３で説明したように、２つのカメラが撮影する画角を異ならせる。このとき上述のように、２つのカメラが同じ画素サイズで撮影すると、画角が小さいほど解像度が上がる。そしてこれらの画像を合成して出力することにより、人の顔など注目領域のみを詳細に表した画像を表示できる。

　図４は本態様において、第１カメラ２８および第２カメラ３０が撮影した画像と、それを利用して得られる出力画像の例を示している。同図において第１カメラ２８が撮影する画像は図３における領域４０の広角画像４４である。第２カメラ３０が撮影する画像は図３における領域４２の狭角画像４６である。

　狭角画像４６の領域面積が広角画像４４の領域面積の縦横１／３である場合、画素サイズを等しくすると、解像度は狭角画像４６が広角画像４４の縦横３倍となる。なおこのように画素サイズや画像の縦横比率を厳密に同一とする必要はなく、まず処理能力などを考慮して画像データのサイズに許容範囲を定めておき、その範囲内で画角と解像度との関係を適宜決定すればよい。

　狭角画像４６の画角を決定するためには、まず広角画像４４を撮影し、顔認識処理を行うことにより狭角で撮影するターゲットとなり得る領域を検出する。そして当該広角画像４４上にターゲット候補の領域を表した画像を表示装置１６に表示し、ユーザによる選択を受け付ける。このとき広角画像４４中、選択されたターゲットの領域の位置を記憶しておく。そして広角画像４４上の対応する領域に狭角画像４６を合成して出力する。その結果、広角画像４４のうちユーザが選択したターゲットの領域５０のみ解像度が高い合成画像４８を表示できる。

　図５はこの態様における情報処理の処理手順を示すフローチャートである。図５および後述する図９、図１３のフローチャートにおいては、各部の処理手順を、ステップを意味するＳ（Ｓｔｅｐの頭文字）と数字との組み合わせによって表示する。図５のフローチャートは、ユーザが、撮影および画像データの出力を開始する指示入力を入力情報取得部２２に行ったときに開始される。

　まずユーザは入力情報取得部２２に対し、機能を選択する指示入力を行う（Ｓ１０）。例えばユーザは、表示装置１６に表示されたメニュー画面のうち、ビデオチャットなど上述の処理を利用した機能を選択する。すると当該情報は撮影条件制御部２４、第１画像解析部３２、第２画像解析部３４、情報統合部３６に通知される。第１画像解析部３２、第２画像解析部３４、情報統合部３６が当該通知を受けることにより、選択された機能に応じた処理のシーケンスが設定される。この処理は実際にはスクリプトファイルやプログラムの選択であってよい。以後の例でも同様である。

　そして撮影条件制御部２４は、標準的な画角および解像度で、第１カメラ２８に撮影を開始させる（Ｓ１２）。このときの撮影条件は、撮影条件記憶部２６が記憶する撮影条件テーブルを参照し、選択された機能に対して設定されている撮影条件を取得することによって決定できる。ここで撮影する画像は、図４に示す広角画像４４のような画像である。撮影開始にあたり、第１カメラ２８は、実際の撮影環境に対し最適となるホワイトバランスや絞り値を、既存の技術を用いて自動調整してもよい。

　第１カメラ２８が撮影した画像のデータは、第１画像解析部３２に送られる。第１画像解析部３２は、当該画像のデータ解析して、人の顔など狭角画像のターゲットとなり得る候補の領域を検出する。そして画像データ生成部３８が、当該領域を矩形で囲った画像データを生成して表示装置１６に出力する（Ｓ１４）。

　第１画像解析部３２が行う画像解析は、特徴点抽出による顔検出やパターンマッチングによる所定の対象物の検出など既存の検出技術を利用する。ターゲットとすべき対象は顔、手、特定のマーカーなど、検出が可能な物のリストからユーザが選択するなどし、選択された対象物に応じて検出手法を適宜決定してよい。顔検出を行った場合、Ｓ１４で表示される画像は、例えば図３の領域４０の画像を表示させたうえ、領域４２の境界を示すような枠をユーザ１ａ、１ｂの双方の顔領域にオーバーレイさせた画像である。

　このとき同時に、枠のいずれかを指すカーソルを表示させ、入力情報取得部２２を介してユーザがカーソル移動、決定の入力をできるようにする。枠の色によって選択対象を表してもよい。そしてユーザは、表示装置１６を見ながらターゲットを選択する（Ｓ１６）。これに応じて撮影条件制御部２４が、選択されたターゲットを囲んでいる枠の領域を第２カメラ３０に撮影させることにより、第１カメラ２８および第２カメラ３０による広角画像、狭角画像の同時撮影が開始される（Ｓ１８）。このとき撮影条件制御部２４は、第２カメラ３０の電子ズームおよび電子パンチルタを制御することにより、選択された領域が撮影されるようにする。なお上述のように、狭角画像が広角画像のどの領域の画像であるかを示す相対位置情報が、入力情報取得部２２から情報統合部３６に通知される。

　そして２台のカメラで撮影された広角画像、狭角画像のデータは、第１画像解析部３２および第２画像解析部３４をそれぞれ介して、逐次、情報統合部３６に供給される。情報統合部３６は双方の相対位置情報とともに２つの画像データを送信して画像データ生成部３８に合成を指示することにより、画像データ生成部３８が合成画像を生成して出力する（Ｓ２０）。これにより、例えばビデオチャットなどにおいて、ユーザ１ｂの表情を詳細に捉えた画像を、相手の表示装置に表示させることができる。

　このとき高解像度となるのは全体画像の一部であるため、画像データのサイズ増大により伝送帯域を圧迫することなく、見たい領域を詳細に見る、という要求を満たすことができる。また、カメラ自体は一般的な性能を有すればよいため、製造コストが増大することがない。

　図６、図７はこの態様の変形例を示している。図６は、ユーザが持つフリップ２をターゲットとした場合の撮影画像と出力画像の例を示している。このときあらかじめ、フリップ２にはその四隅のうち対角上にある二隅などに、所定の色、形状を有するマーカー５３をつけておく。これにより第１画像解析部３２は、図５のＳ１４において、パターンマッチングなどによりマーカーを検出し、それによってフリップの領域をターゲット候補として検出することができる。

　そしてＳ１６においてユーザが当該フリップをターゲットとして選択した場合、第１カメラ２８が撮影する画像は広角画像５２、第２カメラ３０が撮影する画像はフリップの領域の狭角画像５４である。上述同様、狭角画像５４は高解像度画像となるため、フリップ上に記載された文字などが、広角画像５２と比較してはっきり表示される。

　それらの画像を合成し、合成画像５６を表示する。この例では、広角画像５２内のフリップの面積と比較し、対応する領域を表す狭角画像５４を拡大した画像５８を表示することにより、文字などが一層見やすくなるようにしている。このように、一つの視野内にある対象物であっても、対象物に応じた加工を行ったうえで合成画像を表示することができる。

　図７は、第１カメラ２８および第２カメラ３０の双方で狭角画像を撮影した場合の撮影画像と出力画像の例を示している。この場合、図４のＳ１６においてユーザから２つのターゲット選択を受け付ける。そしてＳ１８において、第１カメラ２８で一方のターゲットの狭角画像６０、第２カメラ３０で他方のターゲットの狭角画像６２を撮影する。同図の例では、ユーザ１ａの顔、ユーザ１ｂの顔の領域がターゲットとして選択されたとしている。

　この場合、広角画像を撮影するカメラが存在しないため、合成画像６４における広角画像は、図４のＳ１６においてターゲットが選択されたときに第１カメラ２８が撮影していた画像のいずれかのフレームを静止画として表示する。その結果、合成画像６４のうち、ターゲットの領域６６および６８のみ解像度が高く動きを有し、その他の領域は静止画の画像を表示できる。このようにすると、詳細に見たい領域が限定的であり、その他の領域の動きがあまり重要でない状況において、ターゲットの数をカメラの数だけ増やすことができる。

　なお合成画像として、２つの狭角画像６０、６２のみを、表示装置１６の画面の大きさに応じて拡大し、並べて表示するようにしてもよい。またこのような画像と、図７の合成画像６４とを切り替え可能にしてもよい。また、ターゲットが大きく動くような場合は、第１カメラ２８に広角画像を撮影させ、第１画像解析部３２が既存の技術によりターゲットをトラッキングし、それに応じて撮影条件制御部２４が電子パンチルタを用いて各カメラの視野を調整することにより、狭角画像内に常にターゲットが含まれるようにしてもよい。このことは、上述のいずれの場合でも同様である。

（２）画角の大きさとフレームレートを異ならせる態様
　本態様は、撮影時のフレームレートを２つのカメラで異ならせる。具体的には一方のカメラは全体画像を標準的なフレームレートで撮影し、他方のカメラはターゲットの狭角画像を高フレームレートで撮影する。高フレームレートで撮影した画像は、ターゲットまたはターゲットに含まれる部位のトラッキングに用いる。これにより、データサイズを増大させることなく、注目すべき領域について効率的かつ精度の高いトラッキングを実施できる。

　図８は本態様において、第１カメラ２８および第２カメラ３０が撮影する画像とそれを利用して得られる出力画像の例を示している。同図において第１カメラ２８が撮影する画像は図３における領域４０の広角画像７０である。第２カメラ３０が撮影する画像はターゲットの領域の狭角高フレームレート画像７２である。ｎ_１＜ｎ_２としたとき、第１カメラ２８が広角画像７０をｎ_１フレーム撮影する間に、第２カメラ３０は狭角高フレームレート画像７２をｎ_２フレーム撮影する。

　そして第２画像解析部３４は、狭角高フレームレート画像７２に対し、既存の手法で対象物のトラッキングを行う。顔をターゲットとした場合、例えば目や口などの顔の部位をトラッキングすることにより表情の変化を認識する。あるいは頭や手などをターゲットとした場合、その輪郭をトラッキングすることによりジェスチャを認識する。このような場合、出力する画像７４は、トラッキングした結果に応じた加工を、広角画像７０に施した画像などとなる。図８の例では、ターゲットとなった顔が笑ったことを認識し、それに対応するアニメーション７６を加えている。

　近年、対象物の動きを撮影してトラッキングすることにより表情やジェスチャを認識し、それを入力情報としてゲームを進捗させたり情報処理を行ったりする技術が実用化されている。トラッキングを高精度に行うためには、動きに対する時間の解像度が高くなるように高フレームレートで撮影することが望ましい。しかし高フレームレート撮影によって取得する画像データのサイズが増大すると、情報処理装置１４内部でバス帯域やメモリ領域を圧迫する可能性がある。

　本態様ではまず広角画像によってターゲットの絞り込みを行ったうえ、その領域のみを高フレームレートで撮影してトラッキングを行うため、画像データサイズの増大を抑えることができる。また、ターゲットが大きく変位した場合などでも全体的な動きの情報は広角画像において取得できるため、効率よくターゲットの位置の絞り込みを行える。また最終的に出力する画像として、標準的なフレームレートで撮影したものを用いることにより、表示に適したノイズの少ない画像表示を実現できる。

　図９はこの態様における情報処理の処理手順を示すフローチャートである。図９のフローチャートは、ユーザが、撮影および画像データの出力を開始する指示入力を入力情報取得部２２に行ったときに開始される。まず図５と同様、ユーザは入力情報取得部２２に対し、機能を選択する指示入力を行い（Ｓ２２）、撮影条件制御部２４は、選択された機能に対して設定されている撮影条件に従い、標準的な画角およびフレームレートで、第１カメラ２８に撮影を開始させる（Ｓ２４）。

　第１カメラ２８が撮影した画像のデータは、第１画像解析部３２が取得し画像解析を行うことにより、あらかじめ定めた対象物、例えば人の顔や手、頭などが、ターゲットとして検出される（Ｓ２６）。このとき図５で説明したのと同様、検出したターゲット候補を枠で囲んで表示することによりユーザに選択させるようにしてもよい。またターゲットの検出手法も図５で説明したのと同様、パターンマッチングなど既存の検出技術を利用してよい。例えば、最初に顔認識処理によって顔を検出し、それとの相対位置から手や頭の輪郭の位置を推定した後、パターンマッチングを行ってターゲットを確定させる、といった手法でもよい。

　検出したターゲットの情報は撮影条件制御部２４へ通知される。そして撮影条件制御部２４が、選択されたターゲットの領域を高フレームレートで第２カメラ３０に撮影させることにより、第１カメラ２８および第２カメラ３０による広角画像、狭角高フレームレート画像の同時撮影が開始される（Ｓ２８）。このとき、トラッキング対象となるターゲットの位置情報を情報統合部３６に通知しておく。

　そして第２画像解析部３４は、第２カメラが撮影した狭角高フレームレート画像についてターゲットのトラッキング処理を行う（Ｓ３０）。トラッキングに際しては、Ｓ２６でターゲットを検出した際に得られたターゲットの実際の形状をテンプレート画像として保持しておき、それと高フレームレート画像とのマッチングによってターゲットの位置を追尾するようにしてもよい。そしてトラッキングした結果得られるターゲットの位置変化から所定のジェスチャが行われたことを検出する（Ｓ３２）。例えば、ターゲットの位置変化のパターンとジェスチャとを対応づけたテーブルを図示しないメモリなどに格納しておき、それを参照することによりジェスチャ判定を行う。

　このようなジェスチャ認識手法も、ゲームなどによって実用化されているものを採用してよい。ここで「ジェスチャ」は、一般的に人がジェスチャとして行う動作のほか、顔の表情の変化など、意味づけを行うことのできる形態変化であればそのいずれでもよい。

　ジェスチャ認識結果と、第１カメラ２８が撮影した広角画像のデータは逐次、情報統合部３６に供給される。情報統合部３６はジェスチャに応じて用意されたアニメーションや画像加工処理の内容と、加工を施す位置の情報とともに画像データを画像データ生成部３８に送信して画像加工を指示することにより、画像データ生成部３８が加工画像を生成して出力する（Ｓ３４）。

　なお本態様において、ジェスチャ認識によって行う処理は特に限定されない。例えば、図８で示したような単純なアニメーション付加以外に、仮想世界を表現した画像中に広角画像中のユーザの姿を合成し、ユーザのジェスチャによって仮想世界に何らかの変化を生じさせるなど、より複雑な表現としてもよい。すなわちトラッキングやジェスチャ認識によって出力する画像は、ゲームの内容や情報処理の目的に応じて、既存の画像処理技術と様々に組み合わせて生成してよい。

　また広角画像と狭角高フレームレート画像は、処理の内容によっては常時同時に撮影する必要はなく、画像取得が必要な期間に応じて２台のカメラのいずれかをオン／オフさせてもよい。例えば野球ゲームを画像で表現する場合、広角画像を常時撮影してユーザの姿と野球場の風景を合成させた画像を表示させ、バッターであるユーザがスイングする期間のみ、ユーザの腕の動きを狭角高フレームレートで撮影し、スイングの角度や速さに応じて打球をアニメーション表示する、といった態様が考えられる。

　逆に、広角画像を出力画像として用いず、ジェスチャ認識の結果のみを出力情報に用いる場合などは、狭角高フレームレート画像においてターゲットを見失ったときのみ広角画像を撮影して広い範囲でターゲットを探索できるようにしてもよい。このように広角画像の撮影期間と狭角ハイフレーム画像の撮影期間とを臨機応変に設定することにより、処理内容に応じてリソースの消費量を調整することができる。

　一方で、限定的な空間において時間軸での解像度を上げた情報取得と、広い空間の全体的な情報取得とを並列に実行するようにすれば、例えばトラッキングの結果を広角画像にフィードバックして全体的な動きを追ったり、全体的な動きから限定的な範囲の高精度なトラッキングを行ったり、といったように相互に情報を補うことができ、幅広い応用が可能である。

　また図７で説明したのと同様に、最初に第１カメラ２８で撮影した広角画像によってターゲットを検出したら、２つのターゲットの狭角高フレーム画像を２台のカメラで撮影するようにしてもよい。これにより２つのターゲットのジェスチャを独立して認識できるため、仮想空間における対戦ゲームなどを表現することができる。

　なお狭角高フレームレート画像は態様（１）と同様、広角画像と同じ画素サイズで撮影して高解像度としてもよいし、広角画像と同じ解像度としてもよい。どのような解像度とするかは、要求されるトラッキングの精度や情報処理装置の処理能力、データ転送時のバスの帯域などに応じてあらかじめ決定しておけばよい。

　上述の例は第２カメラが狭角画像を高フレームレートで撮影したが、逆に低フレームレートで撮影してもよい。低フレームレートで、画像を取得するスキャン速度が遅くなると、１つのフレームに含まれる動きの情報量が多くなる。図１０はこの態様における画像のスキャン時間を説明するための図である。同図は横軸を時間軸としたときに矩形８６で示したカメラセンサ領域中、スキャンされるスキャンラインの時間変位（実線）を模式的に示している。

　下段に示す低速スキャンの場合、上段に示す標準的なスキャンスピードと比較し、センサ領域の上から下までスキャンする時間が長い。そのため同一期間において取得できるフレームの数は少ないが、一つのフレーム画像の取得を完了してから次のフレーム画像の取得を開始するまでのブラインド期間が発生する頻度が低くなる。そのため動く対象物に対して時間解像度の高い情報を取得できる。また１つのフレームに長期間の情報が含まれるため、処理の負荷が軽くレイテンシの少ないジェスチャ認識が可能となる。

　図１１は第１カメラ２８で広角画像を、第２カメラ３０で狭角の低フレームレート画像を撮影した場合の各撮影画像とそれを利用して得られる出力画像の例を示している。同図において第１カメラ２８が撮影する画像は上述と同様、標準的なフレームレートで撮影した広角画像８０である。第２カメラ３０が撮影する画像はターゲットの領域の狭角低フレームレート画像８２である。ｎ_１＞ｎ_２としたとき、第１カメラ２８が広角画像８０をｎ_１フレーム撮影する間に、第２カメラ３０は狭角低フレームレート画像８２をｎ_２フレーム撮影する。

　この例では、撮影対象の人物の手をターゲットとして検出し、その領域の狭角低フレームレート画像を撮影しているとする。ここで撮影対象の人物が手を振ったとすると、狭角低フレームレート画像８２では、その手の左右の動きが、図示するように表れる。すなわち、手が左右に振られている状況でスキャンラインの上から下へスキャンが進捗していくため、左右の往復運動を縦方向に引き延ばしたような手の色の形状が取得できる。

　第２画像解析部３４はこの狭角低フレームレート画像８２を取得し、手の左右方向の変位と上下方向のスキャンスピードから、手の速度の変化を得る。この情報に基づき、あらかじめ準備した運動パターンとジェスチャとを対応づけたテーブルを参照することにより、ジェスチャが行われたか否かを判定する。そして上述の例と同様、ジェスチャに応じた所定の加工を広角画像８０に施すことにより、出力画像８４を生成する。同図の例では、撮影対象が「さようなら」と言っている吹き出しを付加している。

（３）露光時間／絞り値を異ならせる態様
　本態様は、撮影時の露光時間、絞り値のどちらか一方、または両方を、２つのカメラで異ならせる。近年、発光体などのマーカーをユーザに持たせたり体に装着させたりして、それを撮影することによってユーザの動きを検出し、ゲームなどへの入力情報とする技術が提案されている。この技術は、特定の大きさ、色、形状、輝度などを有するマーカーを、画像として捉えた部屋や人、物などの中から常に検出できる、という前提のもとに成り立つ。しかしながら人間による目視と異なり、画像内でのマーカーの写り具合は、周囲の明るさや物の有無、周囲の色などの撮影環境や、露光時間や焦点深度などの撮影条件によって大きく変化する。

　ユーザや部屋を含む広角画像を撮影する場合、一般的にはその撮影環境に合わせてホワイトバランスや露光時間などの撮影条件が自動で調整され、それによって、全体としてバランスのとれた画像を取得する。しかしながらその画像中でマーカーを検出する場合、このように環境に応じて撮影条件を変化させると、マーカーの写り具合、すなわち像の色、大きさ、形状、輝度などが変化し、検出処理に支障をきたすことがあり得る。

　例えば発光するマーカーを用いる場合、部屋の明るさに応じて決定した露光時間が長すぎると、マーカーの発光部分のＲＧＢ値が飽和してしまい、発光体の色に関わらず真っ白かつ輪郭のぼやけた画像となってしまうことが考えられる。またマーカーが比較的高速で動いていると、その像がぶれてしまうことが考えられる。

　そのため、奥行き方向を含むマーカーの位置が正確に取得できなかったり、発光体の色によってユーザを識別するような場合に識別ができなくなったりすることがあり得る。そこで本態様では、一方のカメラは全体画像を標準的な露光時間、絞り値で撮影し、他方のカメラは露光時間、絞り値のいずれかまたは双方を、マーカーに対して最適な値で撮影する。これにより、最終的に表示するための画像として鑑賞に堪えるバランスのとれた画像を確保しつつ、どのような撮影環境であってもマーカー検出を精度よく行うことができる。

　図１２は本態様において、第１カメラ２８および第２カメラ３０が撮影する画像とそれを利用して得られる出力画像の例を示している。同図において第１カメラ２８が撮影する画像は、先端の球体が発光するマーカー９２を把持するユーザを、画像全体に対し最適な露光時間、絞り値で撮影した一般画像９０である。この画像では上述のように、マーカー９２の発光体は実際の色に関わらず白く写っている可能性もある。なおマーカーの形状は同図に示す物に限らず、色、形状、大きさ、輝度などが既知であり、検出対象となり得るものであればよい。また発光体でなくてもよい。

　一方、第２カメラ３０が撮影する画像は、マーカー９２の発光体に対して最適な露光時間、絞り値で撮影した撮影条件調整画像９４である。この画像は例えば、一般画像９０と比較し、露光時間が短く、焦点がマーカー９２に合っている焦点深度の浅い（絞り値が小さい）画像である。露光時間は電子シャッターのシャッタースピードによって調整する。シャッタースピードを高速とすることにより露光時間が短くなる。

　このような調整によって撮影条件調整画像９４は、全体的に暗かったり、他の物がぼやけていたりする代わりに、マーカー９２の発光体部分については、色、形状、大きさ、輝度が実際に近い画像となる。なお撮影条件調整画像９４は、マーカーの部分のみを撮影した狭角画像でもよい。このとき、マーカー検出に求められる精度や情報処理装置の処理能力などに応じて態様（１）や（２）と組み合わせ、マーカー９２の位置検出やトラッキングを行ってもよい。

　第２画像解析部３４は、撮影条件調整画像９４を用いてマーカの位置を取得し、ユーザの動きを認識する。そして、動きに応じた加工を一般画像９０に施すことによって出力画像９８を生成する。図１２の例では、ユーザがマーカー９２を振り下ろしたことを認識し、それに応じて出力画像中の仮想世界でユーザが持つ刀１００の長さが伸びたような表示を行っている。

　図１３はこの態様における情報処理の処理手順を示すフローチャートである。図１３のフローチャートは、ユーザが、撮影および画像データの出力を開始する指示入力を入力情報取得部２２に行ったときに開始される。まず図５、図９と同様、ユーザは入力情報取得部２２に対し、機能を選択する指示入力を行う（Ｓ４０）。すると撮影条件制御部２４は、第１カメラ２８には視野全体に対し最適な露光時間、絞り値で、第２カメラ３０にはマーカーの発光体に対し最適な露光時間、絞り値で、撮影を開始させる（Ｓ４２）。

　第１カメラ２８の撮影条件は、通常のキャリブレーション手法によってその場の環境に応じて設定してよい。第２カメラ３０の撮影条件は、マーカーの色や輝度などマーカーの特性ごとに取得した最適値を撮影条件テーブルに記述しておき、実際のマーカーの特性に基づき選択するようにしてもよい。または処理開始時にキャリブレーションを行って最適条件を求めてもよい。また第２カメラ３０の画像を狭角画像とする場合は、図９のＳ２４、Ｓ２６と同様、マーカーのおよその位置を広角画像によって検出することにより、狭角画像の視野を決定するようにしてもよい。

　そして第２画像解析部３４は、第２カメラが撮影した撮影条件調整画像に対してマーカー検出処理を行い（Ｓ４４）、その動きによってユーザの動きを認識する（Ｓ４６）。動き認識結果と、第１カメラ２８が撮影した広角画像のデータは逐次、情報統合部３６に供給される。情報統合部３６は、動きに応じて用意されたアニメーションや画像加工処理の内容と、加工を施す位置の情報とともに画像データを画像データ生成部３８へ送信して画像加工を指示することにより、画像データ生成部３８が加工画像を生成して出力する（Ｓ４８）。

　なお態様（２）と同様、動き認識によって行う処理は特に限定されず、ゲームの内容や情報処理の目的に応じて、既存の画像処理技術と様々に組み合わせてよい。また図７で説明したのと同様に、２つのマーカーのそれぞれに対し撮影条件を調整した２つの狭角画像を２台のカメラで撮影するようにしてもよい。これにより２つのマーカーの動きを独立して認識できるため、仮想空間における対戦ゲームなどを表現することができる。

　以上述べた本実施の形態によれば、同じ空間を２つのカメラを用いて異なる条件で撮影する。これによりそれぞれに特化した情報を相補完的に取得することができ、組み合わせによって様々な機能を発揮することができる。このとき、解像度やフレームレートが大きい画像は狭角画像とすることにより、データサイズの肥大化を防止し、情報処理装置内部でのデータ転送やネットワークを介した画像データの伝送などに支障がないようにできる。さらに本実施の態様は、ステレオカメラとして一般的に流通している対のカメラをそのまま利用することができるため、コストを増大させることなく機能を充実させることが容易にできる。

実施形態２
　実施形態１では同じ構造を有する一対のカメラを用い、撮影条件を異ならせることにより互いが持つ情報を補間して所望の機能を実現させた。本実施の形態では構造の少なくとも一部が異なる１対のカメラを用いる。本実施の形態を適用できる情報処理システムの構成や撮像装置１２および情報処理装置１４の構成は、実施形態１で説明したのと同様であるが、第１カメラ２８と第２カメラ３０のハードウェアとしての構成の少なくとも一部が異なっている。ここで異ならせる構成は、センササイズなどそれぞれのカメラにおける定常的な構成でもよいし、焦点距離など調整可能な撮影条件値の可変領域が異なるのでもよい。後者の場合、可変領域の一部が重複していてもよい。以後、このようなカメラの構成の違いを項目別に説明するが、２つ以上の項目を同時に異ならせてもよい。

（１）解像度（センササイズ）の異なる２つのカメラ
　例えば第１カメラ２８を、標準的またはそれより低い解像度を有するカメラとし、第２カメラ３０を、第１カメラ２８より高い解像度を有するカメラとする。このようなカメラによって、実施形態１の「（１）画角の大きさと解像度を異ならせる態様」と同様の態様を実現する。ただしカメラの解像度が元から異なるため、必ずしも同時に画角を調整する必要はない。この場合も、例えば図４で示したのと同様に、第１カメラ２８で全体的な画像を撮影し、第２カメラ３０でターゲットの領域のみを撮影することにより、低解像度画像と高解像度画像を合成した画像を出力することができる。処理手順は図５で示したのと同様である。

　上述のとおりこの場合、実施形態１と比較し画角の相対関係についての自由度が増すため、必ずしも低解像度の第１カメラ２８を広角、高解像度の第２カメラ３０を狭角と限定する必要がなくなる。また元から有する解像度の相対値によっては、合成する画像の解像度に、よりメリハリをつけることができる。図６や図７を参照して説明した態様も同様に実現できる。ただし図７のように、ほぼ同じ領域サイズで同じ解像度の２つの狭角画像６０、６２を必要とする場合は、例えば低解像度の第１カメラ２８で狭角画像６０を撮影する一方、第２カメラ２８が撮影する広範囲の画像から対応する領域を切り出す、といった処理が必要となる。

（２）フレームレートの異なる２つのカメラ
　例えば第１カメラ２８を、標準的またはそれより低いフレームレートを有するカメラとし、第２カメラ３０を、第１カメラ２８より高いフレームレートを有するカメラとする。このようなカメラによって実施形態１の「（２）画角の大きさとフレームレートを異ならせる態様」と同様の態様を実現する。この場合も、必ずしも画角を調整する必要はない。そして例えば図８で示したのと同様に、第１カメラ２８で全体的な画像を撮影し、第２カメラ３０でターゲットの領域のみを高フレームレートで撮影する。そして第２カメラ３０による画像を用いて対象物のトラッキングを精度よく行い、その結果に応じて、第１カメラ２８による全体的な画像に加工を加える。処理手順は図９で示したのと同様である。

　この場合も、第１カメラ２８による全体的な画像においてターゲットを検出し、ターゲットの領域のみを第２カメラ３０で高フレームレート撮影することにより、トラッキング処理を効率的に行うことができる。このとき、第２カメラ３０によって撮影した画像のうち、ターゲットの領域のみを切り出したうえでトラッキング処理を行ってもよい。また、トラッキングの精度をさらに向上させるため、高フレームレートを有するカメラは、低フレームレートを有するカメラより解像度を低くしてその感度を上げてもよい。このようにフレームレートが異なる２つのカメラを利用することにより、出力画像の取得と同時に、より精度の高いトラッキングを実現できる。

　変形例として、低フレームレートカメラによって撮影された画像に顔認識処理を施して顔を検出し、検出された顔からの相対位置によって手や把持されるマーカなどの位置を推定し、それをターゲットとして高フレームレートカメラで撮影するようにしてもよい。顔など大きな動きの少ない対象物は、フレームレートを標準値より低くすることによって鮮明な画像を得やすく、顔認識の精度を上げることができる。そのため全体的な画像を低フレームレートで撮影することにより、精度よく顔、ひいてはターゲットの位置を検出することができる。

（３）シャッタースピードの異なる２つのカメラ
　例えば第１カメラ２８を、標準的なシャッタースピードを有するカメラとし、第２カメラ３０を、第１カメラ２８より高速なシャッタースピードを有するカメラとする。このようなカメラによって実施形態１の「（３）露光時間／絞り値を異ならせる態様」と同様の態様を実現する。そして例えば図１２で示したのと同様に、第１カメラ２８で一般的な画像を撮影し、第２カメラ３０で同じ領域を高速シャッターにより露光時間を短くして撮影する。そして第２カメラ３０による画像を用いてマーカのトラッキングを精度よく行い、その結果に応じて、第１カメラ２８による一般的な画像に加工を加え、出力する。処理手順は図１３で示したのと同様である。このようにシャッタースピードが異なる２つのカメラを利用することにより、出力画像の取得と同時に、より精度の高いマーカ検出を実現できる。

（４）焦点距離の異なる２つのカメラ
　例えば第１カメラ２８を、標準的な焦点距離を有するカメラとし、第２カメラ３０を、第１カメラ２８より短い焦点距離を有するカメラとする。このようなカメラによって実施形態１の「（３）露光時間／絞り値を異ならせる態様」と同様の態様を実現する。そして例えば図１２で示したのと同様に、第１カメラ２８で一般的な画像を撮影し、第２カメラ３０で同じ領域を短い焦点距離で撮影する。そして第２カメラ３０による画像を用いてマーカのトラッキングを精度よく行い、その結果に応じて、第１カメラ２８による一般的な画像に加工を加え、出力する。処理手順は図１３で示したのと同様である。このように焦点距離が異なる２つのカメラを利用することにより、出力画像の取得と同時に、より精度の高いマーカ検出を実現できる。

（５）カラー（ＲＧＢ）画像とモノクロ画像をそれぞれ撮影する２つのカメラ
　例えば第１カメラ２８を、一般的なカラー画像を撮影するカメラとし、第２カメラ３０を、モノクロ画像を撮影するカメラとする。モノクロ画像はカラー画像と比較し感度良く撮影ができる。そのため暗い室内など一般的なカラー画像では被写体がぼやけて写りやすい環境においても比較的、輪郭を捉えやすく、トラッキング処理に有利である。そこで例えば図１２で示したのと同様に、第１カメラ２８でカラー画像を撮影し、第２カメラ３０で同じ領域をモノクロ画像撮影する。そしてモノクロ画像を用いてマーカのトラッキングを精度よく行い、その結果に応じて、第１カメラ２８によるカラー画像に加工を加え、出力する。この場合の処理手順も図１３で示したのと同様である。マーカに限らずモノクロ画像を対象物のトラッキングに用いることにより、図８で示した態様を実現することもできる。また、カラー画像とモノクロ画像を撮影するカメラに代えて、カラー画像を撮影するカメラと赤外線カメラを利用しても同じ態様で同様の効果を奏することができる。

　以上述べた本実施の形態では、構造の少なくとも一部が異なる２つのカメラで同じ空間を撮影する。これによりそれぞれに特化した情報を相補完的に取得することができ、組み合わせによって様々な機能を発揮することができる。また構造を元から異ならせておくことにより、各カメラが撮影する画像に大きく差をつけることが可能であり、トラッキングの対象物の性質に応じた合わせ込みが容易である。

　以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

　例えば実施形態２で説明したような、構造の少なくとも一部が異なる２つのカメラを用いて、さらに従来のステレオカメラと同様の処理を行ってもよい。例えばフレームレートが異なる２つのカメラを用いた場合、低フレームレート画像と同じタイミングのフレームを高フレームレート画像から抽出し、各時刻における２枚の画像に基づき三角測量の原理を用いて対象物の深さ方向の位置、例えばカメラ前にいる人物のうちカメラに最も近い部位の位置を導出する。同時に、高フレームレート画像を用いた腕やマーカなどのトラッキングを実施形態２のとおり実施すれば、人物の２つの部位の絶対位置および相対位置に基づく加工を施した出力画像を生成できる。

　同様に、解像度の異なる２つのカメラで撮影した画像のうち高解像度画像の解像度を低解像度画像の解像度に合わせて解像度変換すれば、ステレオカメラと同様の処理を行うことができる。このようにステレオカメラの機能と、構造が異なる２つのカメラによって実現できる上記機能とを同時に実現させることにより、結果として出力できる情報が相乗的に増加する。

　また、２つのカメラのうち片方にのみズーム機構、電子パンチルタなど画角を電子的に調整することのできる機構のいずれかまたは組み合わせを設けてもよい。このようにすることで、画角が固定されたカメラで撮影した全体画像を用いてターゲットを検出し、当該ターゲットの領域のみを画角を調整可能なカメラで撮影することができる。結果として図３で示したように、ズームアップして撮影した人物画像と全体画像を合成するなどの態様を実現できる。この機構の差を、実施形態２で述べた他の構成の差と組み合わせてもよい。

１０　情報処理システム、　１２　撮像装置、　１４　情報処理装置、　１６　表示装置、　１８　ネットワーク、　２２　入力情報取得部、　２４　撮影条件制御部、　２６　撮影条件記憶部、　２８　第１カメラ、　３０　第２カメラ、　３２　第１画像解析部、　３４　第２画像解析部、　３６　情報統合部、　３８　画像データ生成部。

　以上のように本発明はコンピュータ、画像処理装置、ゲーム機、撮影装置などの情報処理装置に利用可能である。

Claims

　被写体を撮影し、その画像データを逐次取得して出力画像データを生成する情報処理システムであって、
　同じ被写体に関する個別の情報を得るためにそれぞれ設定された異なる撮影条件で対象物を撮影する、同一の構造を有する第１のカメラおよび第２のカメラからなる一対のカメラと、
　前記一対のカメラのそれぞれが撮影して得られた２系統の画像データに含まれる前記個別の情報を統合して１系統の出力画像データを生成する情報統合部と、
　を備えたことを特徴とする情報処理システム。
　前記第２のカメラは、被写体に含まれる所定のターゲットの位置情報を取得するために設定された撮影条件で撮影し、
　前記情報統合部は、前記第１のカメラが撮影して得られた画像に、前記ターゲットの位置情報に応じた変化を与えた画像のデータを、前記出力画像データとして生成することを特徴とする請求項１に記載の情報処理システム。
　前記第２のカメラは、被写体に含まれるターゲットが装備するマーカーの形態に応じて設定された撮影条件で撮影し、
　前記第２のカメラが撮影した画像に対しマーカー検出処理を行うことにより、前記ターゲットの動きを認識する画像解析部をさらに備え、
　前記情報統合部は、前記第１のカメラが撮影して得られた、前記ターゲットを含む画像に、前記ターゲットの動きのパターンに対応して設定された加工を施した画像のデータを、前記出力画像データとして生成することを特徴とする請求項１に記載の情報処理システム。
　前記第２のカメラは、前記第１のカメラの撮影時の露光時間より短い露光時間で撮影することを特徴とする請求項１から３のいずれかに記載の情報処理システム。
　前記第２のカメラは、前記第１のカメラの撮影時の絞り値より小さい絞り値で撮影することを特徴とする請求項１から４のいずれかに記載の情報処理システム。
　前記第２のカメラは、被写体に含まれるターゲットをトラッキングするために設定された撮影条件で撮影し、
　前記第２のカメラが撮影した画像に対し前記ターゲットのトラッキングを行うことにより、前記ターゲットの動きを認識する画像解析部をさらに備え、
　前記情報統合部は、前記第１のカメラが撮影して得られた、前記ターゲットを含む画像に、前記ターゲットの動きのパターンに対応して設定された加工を施した画像のデータを、前記出力画像データとして生成することを特徴とする請求項１に記載の情報処理システム。
　前記第２のカメラは、前記第１のカメラの撮影時のフレームレートより大きいフレームレートで撮影することを特徴とする請求項１から６のいずれかに記載の情報処理システム。
　前記第２のカメラは、前記第１のカメラの撮影時のフレームレートより小さいフレームレートで撮影し、
　前記第２のカメラが撮影した画像フレーム中の所定のターゲットの変位と画像取得時のスキャンスピードとから、前記ターゲットの速度の変化を取得することにより、前記ターゲットの動きを認識する画像解析部をさらに備え、
　前記情報統合部は、前記第１のカメラが撮影して得られた、前記ターゲットを含む画像に、前記ターゲットの動きのパターンに対応して設定された加工を施した画像のデータを、前記出力画像データとして生成することを特徴とする請求項１に記載の情報処理システム。
　前記第１のカメラが撮影して得られた画像データに含まれる情報に基づき、前記第２のカメラの撮影条件を決定し、
　前記第１のカメラが撮影して得られた画像と前記第２のカメラが撮影して得られた画像を合成した画像のデータを、前記出力画像データとして生成することを特徴とする請求項１に記載の情報処理システム。
　前記第１のカメラが撮影して得られた画像データを解析することにより、被写体に含まれる所定のターゲットの位置を検出する画像解析部をさらに備え、
　前記第２のカメラは、前記ターゲットの位置情報に基づき、前記第１のカメラが撮影した画像より小さい画角で、かつ、高い解像度で、前記ターゲットを含む領域を撮影し、
　前記情報統合部は、前記第１のカメラが撮影した画像のうち前記ターゲットの領域に、前記第２のカメラが撮影した画像を合成してなる画像のデータを、前記出力画像データとして生成することを特徴とする請求項１に記載の情報処理システム。
　被写体を撮影した画像データを逐次取得して出力画像データを生成する情報処理装置であって、
　接続された同一の構造を有する一対のカメラを、同じ被写体に関する個別の情報を得るためにそれぞれ設定した異なる撮影条件にて撮影を行うように制御する撮影条件制御部と、
　前記一対のカメラのそれぞれが撮影して得られた２系統の画像データを取得し、各画像データに含まれる前記個別の情報を統合して１系統の出力画像データを生成する情報統合部と、
　を備えたことを特徴とする情報処理装置。
　被写体を撮影した画像データを逐次取得して、それに応じた出力画像データを出力する情報処理方法であって、
　同一の構造を有する一対のカメラによって、同じ被写体に関する個別の情報を得るためにそれぞれ設定した異なる撮影条件にて撮影を行うステップと、
　前記一対のカメラのそれぞれが撮影して得られた２系統の画像データを取得し、各画像データに含まれる前記個別の情報を統合して１系統の出力画像データを生成するステップと、
　前記出力画像データを表示装置に出力するステップと、
　を含むことを特徴とする情報処理方法。
　被写体を撮影した画像データを逐次取得して、それに応じた出力画像データを出力する機能をコンピュータに実現させるコンピュータプログラムであって、
　接続された同一の構造を有する一対のカメラを、同じ被写体に関する個別の情報を得るためにそれぞれ設定した異なる撮影条件にて撮影を行うように制御する機能と、
　前記一対のカメラのそれぞれが撮影して得られた２系統の画像データを取得し、各画像データに含まれる前記個別の情報を統合して１系統の出力画像データを生成する機能と、
　前記出力画像データを表示装置に出力する機能と、
　をコンピュータに実現させることを特徴とするコンピュータプログラム。
　被写体を撮影した画像データを逐次取得して、それに応じた出力画像データを出力する機能をコンピュータに実現させるコンピュータプログラムを記録した記録媒体であって、
　接続された同一の構造を有する一対のカメラを、同じ被写体に関する個別の情報を得るためにそれぞれ設定した異なる撮影条件にて撮影を行うように制御する機能と、
　前記一対のカメラのそれぞれが撮影して得られた２系統の画像データを取得し、各画像データに含まれる前記個別の情報を統合して１系統の出力画像データを生成する機能と、
　前記出力画像データを表示装置に出力する機能と、
　をコンピュータに実現させることを特徴とするコンピュータプログラムを記録した記録媒体。
　同じ被写体を撮影し、その画像データを逐次取得して出力画像データを生成する情報処理システムであって、
　第１のカメラと、当該第１のカメラより高い解像度を有する第２のカメラとからなる一対のカメラと、
　前記第１のカメラが撮影した画像に含まれる部分領域に、前記第２のカメラが撮影した画像の少なくとも一部の領域を合成してなる画像のデータを、前記出力画像データとして生成する情報統合部と、
　を備えたことを特徴とする情報処理システム。
　同じ被写体を撮影し、その画像データを逐次取得して出力画像データを生成する情報処理システムであって、
　第１のカメラと、当該第１のカメラより高いフレームレートを有する第２のカメラとからなる一対のカメラと、
　前記第２のカメラが撮影して得られた画像を用いてトラッキング処理を行うことにより、被写体に含まれる所定のターゲットの動きを認識する画像解析部と、
　前記第１のカメラが撮影して得られた画像に、前記ターゲットの動きに応じた変化を与えた画像のデータを、前記出力画像データとして生成する情報統合部と、
　を備えたことを特徴とする情報処理システム。
　同じ被写体を撮影し、その画像データを逐次取得して出力画像データを生成する情報処理システムであって、
　第１のカメラと、当該第１のカメラより高いシャッタースピードを有する第２のカメラとからなる一対のカメラと、
　前記第２のカメラが撮影して得られた画像を用いて、被写体に含まれる所定のターゲットの検出処理を行うことにより、前記ターゲットの動きを認識する画像解析部と、
　前記第１のカメラが撮影して得られた画像に、前記ターゲットの動きに応じた変化を与えた画像のデータを、前記出力画像データとして生成する情報統合部と、
　を備えたことを特徴とする情報処理システム。
　同じ被写体を撮影し、その画像データを逐次取得して出力画像データを生成する情報処理システムであって、
　第１のカメラと、当該第１のカメラより短い焦点距離を有する第２のカメラとからなる一対のカメラと、
　前記第２のカメラが撮影して得られた画像を用いて、被写体に含まれる所定のターゲットの検出処理を行うことにより、前記ターゲットの動きを認識する画像解析部と、
　前記第１のカメラが撮影して得られた画像に、前記ターゲットの動きに応じた変化を与えた画像のデータを、前記出力画像データとして生成する情報統合部と、
　を備えたことを特徴とする情報処理システム。
　同じ被写体を撮影し、その画像データを逐次取得して出力画像データを生成する情報処理システムであって、
　カラー画像を撮影する第１のカメラと、モノクロ画像を撮影する第２のカメラとからなる一対のカメラと、
　前記第２のカメラが撮影して得られた画像を用いて、被写体に含まれる所定のターゲットの検出処理を行うことにより、前記ターゲットの動きを認識する画像解析部と、
　前記第１のカメラが撮影して得られた画像に、前記ターゲットの動きに応じた変化を与えた画像のデータを、前記出力画像データとして生成する情報統合部と、
　を備えたことを特徴とする情報処理システム。
　同じ被写体を撮影し、その画像データを逐次取得して出力画像データを生成する情報処理システムであって、
　カラー画像を撮影する第１のカメラと、赤外線画像を撮影する第２のカメラとからなる一対のカメラと、
　前記第２のカメラが撮影して得られた画像を用いて、被写体に含まれる所定のターゲットの検出処理を行うことにより、前記ターゲットの動きを認識する画像解析部と、
　前記第１のカメラが撮影して得られた画像に、前記ターゲットの動きに応じた変化を与えた画像のデータを、前記出力画像データとして生成する情報統合部と、
　を備えたことを特徴とする情報処理システム。
　同じ被写体を撮影し、その画像データを逐次取得して出力画像データを生成する情報処理システムであって、
　画角が固定された第１のカメラと、画角を電子的に調整可能な第２のカメラとからなる一対のカメラと、
　前記第１のカメラが撮影した画像に含まれる部分領域に、前記第２のカメラが撮影した画像の少なくとも一部の領域を合成してなる画像のデータを、前記出力画像データとして生成する情報統合部と、
　を備えたことを特徴とする情報処理システム。