JP5727969B2

JP5727969B2 - 位置推定装置、方法、及びプログラム

Info

Publication number: JP5727969B2
Application number: JP2012136408A
Authority: JP
Inventors: 隆介平井; 賢一下山; 三田　雄志; 雄志三田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-06-15
Filing date: 2012-06-15
Publication date: 2015-06-03
Anticipated expiration: 2032-06-15
Also published as: US20130336539A1; US9064310B2; JP2014002489A

Description

本発明の実施形態は、位置推定装置、方法、及びプログラムに関する。

人物を可視光カメラで撮影した画像と、距離センサで測定した当該人物までの距離とに基づいて、実空間上での当該人物の３次元位置を推定する位置推定装置がある。

このような位置推定装置には、撮影した画像における人物の顔領域を検出し、当該顔領域に対応する方向を距離センサでセンシングして当該人物までの距離を測定することにより、当該人物の３次元位置を推定しようとするものがある。

しかしながら、距離センサで測定可能な範囲は限られているため、人物の位置によっては、当該人物の３次元位置を精度良く推定することができない。

一方、人物を２つの可視光カメラ（ステレオカメラ）で撮影した画像から、実空間上での当該人物の３次元位置を推定する位置推定装置がある。

このような位置推定装置には、撮影した各画像における人物の顔領域の位置に基づき、三角測量によって当該人物の３次元位置を推定しようとするものがある。

しかしながら、人物の位置によっては、一方のカメラにしか当該人物が写らない場合があり、当該人物の３次元位置を精度良く推定することができない。

特開２０１１−２１７２２９号公報

ＰａｕｌＶｉｏｌａａｎｄＭｉｃｈａｅｌＪｏｎｅｓ，"ＲａｐｉｄＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｕｓｉｎｇａＢｏｏｓｔｅｄＣａｓｃａｄｅｏｆＳｉｍｐｌｅＦｅａｔｕｒｅｓ"ＩＥＥＥｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ２００１）

発明が解決しようとする課題は、対象物の３次元位置を精度良く推定することができる位置推定装置、方法、及びプログラムを提供することである。

上記課題を解決するために、本発明の一の実施形態に係る位置推定装置は、第１取得部と、第２取得部と、第１算出部と、第２算出部と、推定部とを備える。

第１取得部は、対象物が撮影された第１画像上での前記対象物のサイズと、前記第１画像上での前記対象物の位置とに関する第１データを取得する。第２取得部は、（１）前記対象物までの距離、又は（２）前記対象物が撮影された第２画像上での前記対象物の位置、に関する第２データを取得する。第１算出部は、前記第１データから推定される前記対象物の第１実サイズと、前記第２データから推定される前記対象物の第２実サイズとに対する重みを、前記第１データと前記第２データとに基づいて算出する。第２算出部は、前記第１実サイズと前記第２実サイズと前記重みとを用いて、前記対象物の第３実サイズを算出する。推定部は、前記第３実サイズから、前記対象物の３次元位置を推定する。

第１の実施形態に係る位置推定装置１の利用形態を表す一例図。位置推定装置１を表すブロック図。位置推定装置１の処理を表すフローチャート。第１取得部１１の処理を表すフローチャート。人物領域の一例図。第２取得部１２の処理を表すフローチャート。可視光カメラ１０１と人物との位置関係、及び人物のサイズについての説明図。第２算出部１４の処理を表すフローチャート。第２の実施形態に係る位置推定装置２の利用形態を表す一例図。第２の実施形態における第２取得部１２の処理を表すフローチャート。位置推定装置３を表すブロック図。位置推定装置４を表すブロック図。

以下、本発明の実施形態について図面を参照して詳細に説明する。

本願明細書と各図において、既出の図に関して前述したものと同様の要素には同一の符号を付して詳細な説明は適宜省略する。

（第１の実施形態）
第１の実施形態に係る位置推定装置１は、専用メガネ無しで立体画像を観察可能なＴＶ（テレビ）、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、医用モニタ、スマートフォン、デジタルフォトフレーム等の立体画像表示装置や、デジタルカメラ等に用いられ得る。

図１に示すように、位置推定装置１は、可視光カメラ１０１と距離センサ１０２とを用いて、人物の３次元位置を推定するものである。例えば、位置推定装置１が立体画像表示装置１０に用いられる場合、立体画像表示装置１０は、推定された人物（観察者）の３次元位置に基づいて、観察者が立体画像を観察可能な視域を制御することができる。

また、例えば、位置推定装置１がデジタルカメラ（不図示）に用いられる場合、デジタルカメラは、推定された人物（被写体）の位置に基づいて、レンズのフォーカスを制御することができる。

位置推定装置１は、可視光カメラ１０１によって人物を撮影した画像上での、当該人物の顔領域のサイズに関する第１データを求める。位置推定装置１は、距離センサ１０２を用いて、可視光カメラ１０１から当該人物までの距離に関する第２データを求める。位置推定装置１は、第１データと第２データとに基づいて、当該人物の実際のサイズ（実サイズ）を算出し、当該実サイズから当該人物の３次元位置を推定する。

図２は、位置推定装置１を表すブロック図である。位置推定装置１は、第１取得部１１と、第２取得部１２と、第１算出部１３と、第２算出部１４と、推定部１５とを備える。

第１取得部１１は、可視光カメラ１０１で撮影した第１画像から、人物が写っている領域（人物領域）を検出し、当該人物領域のサイズ及び位置に関する第１データを取得する。人物領域は、人物全体の領域に限られず、人物の一部の領域（例えば、顔領域）であっても構わない。本実施形態では、人物領域は、顔領域であるとして説明する。第１画像は、可視光カメラ１０１が撮影した動画のフレームであってよい。第１取得部１１は、第１データを、第１算出部１３と、第２算出部１４と、推定部１５とに供給する。

第２取得部１２は、距離センサ１０２のセンシング情報から、当該人物までの距離に関する第２データを取得する。すなわち、本実施形態における第２データは、可視光カメラ１０１から当該人物までの距離に関するものである。第２取得部１２は、第２データを、第１算出部１３と、第２算出部１４とに供給する。

第１算出部１３は、第１データから推定される人物の第１実サイズと、第２データから推定される第２実サイズとに対する重みを、第１データと第２データとに基づいて算出する。第１算出部１３は、算出した重みを第２算出部１４に供給する。第１実サイズ、第２実サイズ、第３実サイズについては後に詳述する。

第２算出部１４は、第１実サイズと第２実サイズと重みとに基づいて、より精度の高い人物の第３実サイズを算出する。第２算出部１４は、第３実サイズを推定部１５に供給する。第２算出部１４は、第３実サイズを記憶部５１に書き込む。記憶部５１に書き込まれた第３実サイズは、第１取得部１１が、次の時刻以降の第１データを取得する際に用いられる（後述する）。

推定部１５は、当該人物の実サイズと第１データとから、当該人物の３次元位置を推定する。推定部１５は、推定した３次元位置を出力部１６に供給する。

出力部１６は、推定した３次元位置を、例えば立体画像表示装置やデジタルカメラ等に出力する。

第１取得部１１と、第２取得部１２と、第１算出部１３と、第２算出部１４と、推定部１５と、出力部１６とは、中央演算処理装置（ＣＰＵ）、及びＣＰＵが用いるメモリにより実現されてよい。

以上、位置推定装置１の構成について説明した。

図３は、位置推定装置１の処理を表すフローチャートである。第１取得部１１は、第１データを取得する（Ｓ１０１）。第２取得部１２は、第２データを取得する（Ｓ１０２）。第１算出部１３は、第１データから推定される人物の第１実サイズと、第２データから推定される第２実サイズとに対する重みを、第１データと第２データとに基づいて算出する（Ｓ１０３）。第２算出部１４は、第１実サイズと第２実サイズと重みとに基づいて、より精度の高い人物の第３実サイズを算出する（Ｓ１０４）。推定部１５は、当該人物の実サイズと第１データとから、当該人物の３次元位置を推定する（Ｓ１０５）。出力部１６は、推定した３次元位置を出力する（Ｓ１０６）。

以上、位置推定装置１の処理について説明した。

以下、本実施形態の各構成ブロックについて説明する。

図４は、第１取得部１１の処理を表すフローチャートである。ステップＳ２０１において、第１取得部１１は、取得した第１画像中で人物領域（人物の顔領域）を検出する（Ｓ２０１）。例えば、第１取得部１１は、第１画像上で、人物領域を検出するための探索窓を走査し、当該探索窓内に含まれる画像に対して複数の矩形特徴を求める。第１取得部１１は、各々の矩形特徴に対する弱識別器を直列につないだ強識別器（不図示）によって、当該探索窓内に人物領域が含まれているか否かを判定してよい。この方法は、例えば非特許文献１に開示されている。

なお、本実施形態で上記の人物領域の検出方法を用いる場合、当該検出を行なう各機能部（詳細後述）に、パターン識別器（不図示）を備えた構成とすればよい。パターン識別器は、複数の弱識別器を直列に接続したカスケード構造の識別器であって、非特許文献１に開示されたカスケード型ＡｄａＢｏｏｓｔベース識別器である。

具体的には、パターン識別器は、第１画像に対して、カスケードの各段の弱識別器で顔であるか否かを判定し、顔であると判定された画像のみを次段の弱識別器へ供給する。そして、最後の弱識別器で顔であると判定された画像を、最終的に人物領域を含む画像であると判定する。

カスケードの各段を構成する強識別器は、複数の弱識別器を直列につないだ構成である。各弱識別器では、探索窓内の画像に対して求めた矩形特徴を用いて、当該探索窓内に人物領域が存在するか否かを判定する。

ここで、探索窓の画像内における２次元座標の位置ベクトルをｘとすると、位置ベクトルｘにおいての、弱識別器ｎの出力は、式１により表される。

式１中、ｈ_ｎ（ｘ）は弱識別器ｎの出力を示し、ｆ_ｎ（ｘ）は弱識別器ｎの判定関数を示す。また、ｐ_ｎは不等号の等号の向きを定めるために、１あるいは−１となる数を示し、θ_ｎは各弱識別器ｎに対して予め定められている閾値を示す。例えばθ_ｎは、識別器作成の際の学習において設定される。

また、Ｎ個の弱識別器を直列につないだ構成の強識別器の出力は、式２によって表される。

式２中、Ｈ（ｘ）は、Ｎ個の弱識別器を直列につないだ構成の強識別器の出力を示す。また、式２中、α_ｎは予め定められている弱識別器ｎの重みを示し、ｈ_ｎは式１で表した弱識別器ｎの出力を示す。例えばα_ｎは、識別器作成の際の学習において設定される。

なお、パターン識別器を通過した画像について、式３により、顔らしさを表す尤度ｌ（ｘ）を算出する。

式３中、ａは、識別器作成の際の学習において生成される重みを表す定数である。また、式３中、Ｈ（ｘ）は、強識別器の出力を示す。

なお、人物は必ずしも一定の方向から撮影されるわけではない。例えば、横方向や斜め方向から撮影される場合もあり得る。このような場合には、人物の横顔を検出するためのパターン識別器を用いればよい。あるいは、人物の１つないし複数の姿勢の各々に対応するパターン識別器を用いてもよい。

すなわち、ステップＳ２０１において、第１取得部１１は、所定のサイズの探索窓を用いて、取得した第１画像全体を走査し、各走査位置において、探索窓内に含まれる画像に人物領域が含まれるか否かを、上述のようなパターン識別器により判定する。このとき、第１取得部１１は、異なるサイズの複数の探索窓を用いて、第１画像を走査する。各々の探索窓サイズの情報は予め設定され、第１取得部１１が保持していてよい。

第１取得部１１は、第１画像内の、各探索窓サイズで走査した各走査位置ベクトルｘにおける強識別器の出力値Ｈ（ｘ）から、各探索窓サイズ及び各走査位置ベクトルｘにおける尤度ｌ（ｘ）を求める。当該強識別器の出力値Ｈ（ｘ）は式２を用いて算出する。各探索窓サイズ及び各走査位置ベクトルｘにおける尤度ｌ（ｘ）は、式３を用いて算出する。

さらに、第１取得部１１は、最も尤度ｌ（ｘ）の高い走査位置ベクトルｘの探索窓サイズの探索窓内の中心位置を、第１画像における人物領域の位置（２次元位置）として検出する。

ステップＳ２０２において、第１取得部１１は、検出した人物領域に対して第１データを求める（Ｓ２０２）。第１データは、第１画像上で検出された人物領域の２次元位置及びサイズと、人物領域らしさを表す尤度と、人物の第１実サイズ（後述）とを含む。第１取得部１１は、時刻ごとの第１画像について、第１データを求める。ここで、時刻ｔにおける、人物ｋが撮影された第１画像の第１データを表すベクトルＳ_ｋ ^（ｔ）を式４で表すこととする。

図５は、人物領域の一例図である。可視光カメラ１０１によって撮影した第１画像の左上を原点とし、水平方向にｘ軸、垂直方向にy軸を設定する。この場合、図５における人物領域１の２次元位置は、人物領域１の中心点（ｘ_１ ^（ｔ），ｙ_１ ^（ｔ））と表され、人物領域１のサイズは、ｗ_１ ^（ｔ）と表される。また、人物領域２の２次元位置は、人物領域２の中心点（ｘ_２ ^（ｔ），ｙ_２ ^（ｔ））と表され、人物領域２のサイズは、ｗ_２ ^（ｔ）と表される。

Ｗ_ｋ ^（ｔ）は、人物の第１実サイズを表す。第１実サイズＷ_ｋ ^（ｔ）は、人物領域のサイズｗ_ｋ ^（ｔ）に対応する平均的な実サイズとして、予め設定されていてよい。この場合、第１取得部１１は、第１実サイズＷ_ｋ ^（ｔ）を予め保持しておく。第１取得部１１は、このようにして求めた時刻ごとの第１データを保持しておく。

ステップＳ２０３において、第１取得部１１は、現在の第１画像に対して求めた第１データと、過去の第１画像（例えば直前の時刻の第１画像）に対して求めた第１データとを比較し、各々が対応する人物が同一の人物であるか否かを判定する（Ｓ２０３）。このとき、第１取得部１１は、記憶部５１から、過去の時刻の第１データを読み出す。

例えば、第１取得部１１は、過去の第１データに対応する人物領域と、現在の第１データに対応する人物領域との重なり度合いによって、それらが同一の人物であるか否かを判定する。この場合、人物領域どうしの重なり合う面積の比率が一定以上（例えば７５％以上）であれば同一の人物であると判定してよい。

同一の人物である場合（Ｓ２０３：ＹＥＳ）、ステップＳ２０４において、第１取得部１１は、現在求めた第１実サイズを、当該過去に求めた第３実サイズ（後述）に置換する（Ｓ２０４）。例えば、第１取得部１１は、式５にように、現在求めた第１実サイズＷ_ｋ ^（ｔ）に直前の時刻の第３実サイズＷ_ｋ ^{（ｔ−１）}を代入してよい。

同一の人物でない場合（Ｓ２０３：ＮＯ）、ステップＳ２０５において、第１取得部１１は、現在求めた第１実サイズＷ_ｋ ^（ｔ）を、そのまま第１データに用いる（Ｓ２０５）。

以上、第１取得部の処理について説明した。

図６は、第２取得部１２の処理を表すフローチャートである。ステップＳ３０１において、第２取得部１２は、距離センサ１０２のセンシング情報に基づき、可視光カメラ１０１で撮影された第１画像に含まれる少なくとも１つの画素毎に、当該画素に対応する被写体と、可視光カメラ１０１との距離を測定する（Ｓ３０１）。第１画像の画素に対応する被写体の方向については、既知であるものとする。

図５に示す座標において、時刻ｔでの位置（ｘ，ｙ）の画素に対応する物体までの距離をｄ^（ｔ）（ｘ，ｙ）と表す。したがって、本実施形態における第２データは、距離ｄ^（ｔ）（ｘ，ｙ）を含む。

第２取得部１２は、第１画像の全画素について、距離ｄ^（ｔ）（ｘ，ｙ）を測定したか否かを判定する（Ｓ３０２）。全画素について測定が終了していない場合は（Ｓ３０２：ＮＯ）、ステップＳ３０１に遷移し、まだ測定を終了していない画素について、距離ｄ^（ｔ）（ｘ，ｙ）を測定する。全画素について測定が終了した場合は（Ｓ３０２：ＹＥＳ）、処理を終了する。

なお、距離センサ１０２は、全ての画素に対応する物体までの距離を測定できないものであってもよく、距離を測定できなかった位置（ｘ、ｙ）における画素に対応する物体までの距離は、測定不能であることを示す値（例えば、ＮＵＬＬ）とすればよい（すなわち、ｄ^（ｔ）（ｘ，ｙ）＝ＮＵＬＬ）。

以上、第２取得部１２について説明した。

第１算出部１３は、第１データと第２データとを取得し、第１画像での人物領域に対応する距離ｄ^（ｔ）（ｘ，ｙ）に基づいて、第１データから推定される人物の第１実サイズと、第２データから推定される人物の第２の実サイズに対する重みであって、当該人物についてより精度の高い第３実サイズを算出するための当該重みを算出する。本実施形態における第１算出部１３は、第２データの信頼度に応じて、当該重みを算出する。すなわち、第２データの信頼度が小さいほど、第１実サイズに対する重みを相対的に大きくする。ここでは、第２実サイズに対する重みλ_ｋ ^（ｔ）の算出方法について説明する。

本実施形態の重みλ_ｋ ^（ｔ）は、０〜１の実数で表現され、第２データでの人物ｋの人物領域に関する距離ｄ^（ｔ）（ｘ，ｙ）がＮＵＬＬでない画素（ｘ，ｙ）が多い場合ほど（第２データの測定が可能である画素（ｘ，ｙ）が多いほど）、１に近くなるものとする。例えば、重みλ_ｋ ^（ｔ）は、式６により表されてよい。

ここで、Ω_ｋは、第１画像において人物ｋの人物領域に含まれる画素の座標を表している。Ｎは、集合Ω_ｋに含まれる画素の数を表す。関数Ｉｆ（ａ≠ｂ）は、ａとｂとが異なる値であれば１を、そうでなければ０とする関数である。ｔｈ１は、０≦ｔｈ１≦１の範囲の実数であり、取得可能な第２データが多いほど、大きくなる値とする。

すなわち、本例での信頼度とは、第２データの測定が可能である画素の個数が、人物ｋの人物領域において一定数に達すれば１となる。

以上、第１算出部１３の処理について説明した。

第２算出部１４は、第１データと第２データと重みλ_ｋ ^（ｔ）とを取得し、第１データから推定される第１実サイズＷ_ｋ ^（ｔ）と、第２データから推定される第２実サイズＷ＾_ｋ ^（ｔ）と、重みλ_ｋ ^（ｔ）とを用いて、第３実サイズを算出する。

図７は、可視光カメラ１０１と人物との位置関係、及び人物のサイズについての説明図である。図７では、ｘｚ平面上において、可視光カメラ１０１人物ｋの幾何的関係を示している。本例では、点Ｏに可視光カメラ１０１を配置する。可視光カメラ１０１のＸ軸方向の画角をθｘ、第１画像のｚ軸方向の焦点位置をＦとし、人物ｋのｚ軸方向の位置をＺとする。第１データに含まれる人物ｋの人物領域のサイズｗ_ｋ ^（ｔ）をＡＡ’とし、人物ｋの実サイズをＢＢ’とし、可視光カメラ１０１から人物ｋまでの距離をＯＺとする。

ここで、可視光カメラ１０１で撮影された第１画像の水平解像度をＩｗとすると、距離ＯＦは式７により表すことができる。

すなわち、このＯＦは、カメラの仕様によって定まる定数である。

ＡＡ’と、ＢＢ’と、ＯＦと、ＯＺとは、ＡＡ’：ＢＢ’＝ＯＦ：ＯＺの関係がある。この関係を、第１データに基づいて表すと、式８のようになる。

ここでＺ_ｋ ^（ｔ）＝ＯＺである。

図８は、第２算出部１４の処理を表すフローチャートである。ステップＳ４０１において、第２算出部１４は、第１データと第２データとに基づいて、可視光カメラ１０１から人物ｋまでの実距離Ｚ＾_ｋ ^（ｔ）を算出する（Ｓ４０１）。

例えば、第２算出部１４は、式９により実距離Ｚ＾_ｋ ^（ｔ）を算出してもよい（「＾」はハットを表す）。

ここで、Ω_ｋは、第1画像においてｄ^（ｔ）（ｘ，ｙ）≠ＮＵＬＬである人物ｋの人物領域の画素の集合を表し、Ｎは、集合Ω_ｋに含まれる画素数を表す。

あるいは、第２算出部１４は、Ω_ｋに含まれるｄ^（ｔ）（ｘ，ｙ）の中間値や平均値を実距離Ｚ＾_ｋ ^（ｔ）として算出してもよい。あるいは、第２算出部１４は、式１０のように、第２データの距離に関する情報が、第１データの人物領域の中心に近いほど、大きい重みを付ける加重平均により実距離Ｚ＾_ｋ ^（ｔ）を算出してもよい。

ここで、σ_ｋは、人物ｋの人物領域のサイズによって変化する変数であり、第１データに含まれるｗ^（ｔ）を２で除したものとする。

ステップＳ４０２において、第２算出部１４は、第１データと実距離Ｚ＾_ｋ ^（ｔ）とから、人物ｋの第２実サイズＷ＾_ｋ ^（ｔ）を算出する（Ｓ４０２）。例えば、第２算出部１４は、式（１１）により、第２実サイズＷ＾_ｋ ^（ｔ）を算出してもよい。

ステップＳ４０３において、第２算出部１４は、第１実サイズＷ_ｋ ^（ｔ）と、第２実サイズＷ＾_ｋ ^（ｔ）と、重みλ_ｋ ^（ｔ）とから、より精度の高い人物の第３実サイズを算出する（Ｓ４０３）。例えば、第２算出部１４は、式１２により、第３実サイズを算出してもよい。第２算出部１４は、第３実サイズを記憶部５１に書き込む。

ここで、式１２の左辺が、第３実サイズである。

推定部１５は、第１データと第３実サイズとから、可視光カメラ１０１に対する人物ｋの３次元位置を推定する。人物ｋのＺ軸方向の位置Ｚ_ｋ ^（ｔ）については、式（８）によって求められる。また、Ｘ軸方向についての位置をＸ_ｋ ^（ｔ）、Ｙ軸方向についての位置をＹ_ｋ ^（ｔ）とすると、推定部１５は、式１３により、Ｘ_ｋ ^（ｔ）とＹ_ｋ ^（ｔ）とを求めてよい。

本実施形態では、人物を対象物の例として説明したが、これに限られない。例えば、動物や車等、第１画像から検出可能なものであれば、いかなるものであっても構わない。

上述したように、本実施形態によれば、対象物の３次元位置を精度良く推定することができる。

一般的に距離センサ１０２には、当該人物までの距離を測定することが可能な範囲がある。例えば、距離センサ１０２と当該人物とが一定距離より近い場合、距離センサ１０２は、当該人物までの距離を求めることができない。本実施形態の位置推定装置１は、過去に求めた当該人物の実サイズと、現在求めた第１データとを用いて、当該人物の３次元位置を推定することができる。このため、距離センサ１０２による正確な距離測定が行なえない場合であっても、人物の３次元位置を精度良く推定することができる。

（変形例１）
本実施形態における重みλ_ｋ ^（ｔ）は、式１４により算出してもよい。

Ω_ｋは、第１画像においてｄ^（ｔ）（ｘ，ｙ）≠ＮＵＬＬである人物ｋの人物領域の画素の集合を表している。ここで、σ_ｋは、人物ｋの人物領域サイズによって変化する変数であり、第１データに含まれるｗ_ｋ ^（ｔ）を２で除したものとする。ｔｈ２は、予め定められた０≦ｔｈ２≦１の範囲の実数である。

あるいは、本実施形態における重みλ_ｋ ^（ｔ）は、式１５により算出してもよい。

変数等については、式（１４）と同様である。

（第２の実施形態）
図９に示すように、第２の実施形態における位置推定装置２は、距離センサ１０２の代わりに、可視光カメラ２０１を用いて、人物までの距離に関する第２データを取得する点が、第１の実施形態の場合と異なる。すなわち、本実施形態の位置推定装置２は、可視光カメラ１０１及び可視光カメラ２０１を用いたステレオカメラにより、人物の３次元位置を推定する。可視光カメラ２０１は、可視光カメラ１０１とのエピポーラ幾何が既知であるものとする。エピポーラ幾何は、一般的なステレオカメラの校正方法によって求めることができる。

位置推定装置２を表すブロック図は、位置推定装置１と同様のため省略する。位置推定装置２では、第２取得部１２の処理と、第１算出部１３の処理と、第２算出部１４の処理とが、位置推定装置１の場合と主に異なる。

図１０は、本実施形態における第２取得部１２の処理を表すフローチャートである。ステップＳ５０１において、第２取得部１２は、可視光カメラ２０１が撮影した第２画像中で人物領域を検出する（Ｓ５０１）。検出の方法は、第１取得部１１と同様であってよい。

ステップＳ５０２において、第２取得部１２は、第２データを求める（Ｓ５０２）。本実施形態の第２データは、第２画像に対して、第１取得部１１と同様の探索法を用いて検出した人物領域の位置に関するものである。時刻ｔにおける、人物ｋの人物領域の第２データを表すベクトルｓ＾_ｋ ^（ｔ）を式１６によりで表すとする。

ここでの人物ｋは、式４に人物ｋと同じである。例えば、第２取得部１２は、可視光カメラ１０１に写っている人物と、可視光カメラ２０１に写っている人物とが同じであるか否かを、例えば、第１画像における人物領域の画素値と、第２画像における人物領域の画素値との類似度により判定してよい。

第１算出部１３は、式１７を用いて、第２データに対する重みλ_ｋ ^（ｔ）を算出してよい。

すなわち、第２画像の人物ｋの第２データに含まれる尤度が高ければ高いほど、第２データに対する重みλ_ｋ ^（ｔ）が高くなる。あるいは、第1算出部１３は、式１８を用いて、第２データに対する重みλ_ｋ ^（ｔ）を算出してよい。

ここで、ｔｈ３は、０〜１の間の実数である。

なお、人物ｋが可視光カメラ２０１の死角に存在していた場合等、上述した探索方法で人物ｋが検出されなかった場合には、第１算出部１３は、第２データに対する重みλ_ｋ ^（ｔ）を０にしてよい。

第２算出部１４は、第１データに含まれる人物ｋの人物領域の２次元位置と、第２データに含まれる人物ｋの人物領域の２次元位置とから、三角測量により人物ｋまでの実距離Ｚ＾_ｋ ^（ｔ）を算出する。第２算出部１４は、第１データと実距離Ｚ＾_ｋ ^（ｔ）とから、人物ｋの第２実サイズＷ＾_ｋ ^（ｔ）を算出する。第２算出部１４は、第１実サイズＷ_ｋ ^（ｔ）と、第２実サイズＷ＾_ｋ ^（ｔ）と、重みλ_ｋ ^（ｔ）とから、より精度の高い人物ｋの第３実サイズを算出する。

例えば、第２算出部１４は、以下に示す方法に従って、人物ｋの第３実サイズを算出して良い。

例えば、人物ｋの仮の３次元位置を式１９で表すとする。

第１画像上における人物ｋの位置ベクトルｕ_ｋ,１を式２０で表す。

第２画像上における人物ｋの位置ベクトルｕ_ｋ,２を式２１で表す。

人物ｋの実空間上における仮の３次元位置を、式２２のように同次座標系で表現する。

上記式中の「Ｔ」は転置を表す。これにより、式２３及び式２４の関係式が得られる。

式（２３）中のαは、可視光カメラ１０１の撮像時のカメラスケールを示す。式（２４）中のβは、可視光カメラ２０１の撮像時のカメラスケールを示す。また、式（２３）中のＰは、実空間（３次元座標系）上の点から第１画像への射影行列を示す。また、式（２３）中のＱは、実空間（３次元座標系）上の点から第２画像への射影行列を示す。なお、これらの射影行列は、事前に可視光カメラ１０１と可視光カメラ２０１とのキャリブレーションを行なう事で得られ、第２算出部１４が予め保持しておいてよい。

そして、上記式（２３）及び式（２４）から式（２５）の連立方程式が得られる。

第２算出部１４は、式（２５）の左辺の行列の擬似逆行列を、最小二乗法によって求めることで、人物ｋの仮の３次元位置を算出する。

この人物ｋの仮の３次元位置のｚ座標が、本実施形態における実距離Ｚ＾ｋ（ｔ）である。

そして、第２算出部１４は、第１の実施形態の場合と同様にして、第１データと実距離Ｚ＾ｋ（ｔ）とから、人物ｋの第２実サイズＷ＾ｋ（ｔ）を算出する。第２算出部１４は、第１実サイズＷｋ（ｔ）と、第２実サイズＷ＾ｋ（ｔ）と、重みλｋ（ｔ）とから、第３実サイズを算出する。

本実施形態によれば、ステレオカメラを用いた場合であっても、対象物の３次元位置を精度良く推定することができる。
（第３の実施形態）
一般的に、可視光カメラを用いて人物領域（例えば、顔領域）を検出する際には、画像に混入するノイズの影響や、画像のダイナミックレンジの低下（暗所で撮影されている場合）の影響を受け、検出される人物領域の位置に誤差が生じることがある。一方、赤外線は暗所においても影響がなく、安定した測定が可能である。

第３の実施形態に係る位置推定装置３は、人物を検出した際の人物領域の大きさに誤差があった場合、実距離Ｚ＾ｋ（ｔ）を用いて人物の３次元位置を修正する点が、上記実施形態の推定装置と異なる。

図１１は、位置推定装置３を表すブロック図である。位置推定装置３は、位置推定装置１に対して、修正部３１をさらに備える。また、推定部１５は、推定した３次元位置を修正部３１に供給する。

修正部３１は、推定部１５から人物ｋの３次元位置を取得し、第１算出部１３から重みλ_ｋ ^（ｔ）を取得し、第１取得部１１から第１データを取得し、第２算出部１４から実距離Ｚ＾_ｋ ^（ｔ）を取得し、人物ｋの３次元位置を修正する。例えば、修正部３１は、式２６により、人物ｋの３次元位置のｚ座標である実距離Ｚ＾_ｋ ^（ｔ）を修正してよい。

修正部３１は、修正した実距離Ｚ＾_ｋ ^（ｔ）を用いて、式２７により、人物ｋの３次元位置のｘ座標とｙ座標とを修正してよい。

ＯＦは、式（７）に示した、可視光カメラの仕様によって定まる定数である。

本実施形態によれば、対象物の３次元位置をさらに精度良く推定することができる。

（第４の実施形態）
第４の実施形態に係る位置推定装置４は、第２取得部１２が、第１データに含まれる人物の検出位置をさらに用いて、第２データを求める点が、上述の実施形態の場合と異なる。

図１２は、位置推定装置４を表すブロック図である。位置推定装置１に対して、位置推定装置４の第１取得部１１は、第１データを第２取得部１２に供給する。

第２取得部１２が距離センサを用いる場合には、人物領域の示す人物の方向に赤外線等のセンサプローブを照射して、人物領域内の距離の情報を得ることができる。

また、第２取得部１２が可視光カメラ２０１を用いる場合には、第２取得部１２が探索窓を用いて走査する範囲を、第１画像において第１取得部１１が検出した人物領域を通るエピポーラ線上に限定することが可能である。

これにより、対象物の３次元位置を効率的に精度良く推定することができる。

（第５の実施形態）
第５の実施形態では、位置推定装置１が立体画像表示装置１０に用いられる場合についてさらに説明する。立体画像表示装置１０は、推定された人物の３次元位置に基づいて、観察者が立体画像を観察可能な視域を制御する。

立体画像表示装置１０は、視域制御部（不図示）を備える。視域制御部（不図示）は、
位置推定装置１が推定した３次元位置を用いて、視域を制御する。

特殊なメガネを要さない立体画像表示装置１０には、パララックスバリアやレンチキュラーレンズを表示パネルに対向して配置することで、視点の異なる複数の視点画像を立体画像として観察者に提示することができる。

立体画像表示装置１０では、観察者の観察位置によっては、右目が観察する視点画像に対して、相対的に右側の視点画像を左目が観察してしまう逆視領域が存在するため、視域は限られてしまう。この視域は、立体画像装置１０の設計値等によって定まる。

上記の場合、例えば、左目が観察する視点画像と、右目が観察する視点画像を入れ替えることで、視域を変更することが可能になる。

視域決定部（不図示）は、位置推定装置１が推定した３次元位置が視域内に含まれるように、視域を変更する。

これにより、位置推定装置１が立体画像表示装置１０に用いられる場合、観察者は良好な立体画像を観察することができる。

なお、上述の位置推定装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、第１取得部１１、第２取得部１２、第１算出部１３、第２算出部１４、推定部１５、出力部１６、修正部３１は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、位置推定装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、第１取得部１１、第２取得部１２、第１算出部１３、第２算出部１４、推定部１５、出力部１６、修正部３１、記憶部５１は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体などを適宜利用して実現することができる。

これまで、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１，３，４位置推定装置
１１第１取得部
１２第２取得部
１３第１算出部
１４第２算出部
１５推定部
１６出力部
３１修正部
５１記憶部

Claims

対象物が撮影された第１画像上での前記対象物のサイズと、前記第１画像上での前記対象物の位置とに関する第１データを取得する第１取得部と、
（１）前記対象物までの距離、又は（２）前記対象物が撮影された第２画像上での前記対象物の位置、に関する第２データを取得する第２取得部と、
前記第１データから推定される前記対象物の第１実サイズと、前記第２データから推定される前記対象物の第２実サイズとに対する重みを、前記第１データと前記第２データとに基づいて算出する第１算出部と、
前記第１実サイズと前記第２実サイズと前記重みとを用いて、前記対象物の第３実サイズを算出する第２算出部と、
前記第３実サイズから、前記対象物の３次元位置を推定する推定部と
を備える、位置推定装置。
前記第１算出部は、前記第２データの信頼度に応じて前記重みを算出する、
請求項１記載の位置推定装置。
前記第２取得部は、前記第１画像の画素毎、又は前記第２画像の画素毎に、前記第２データを取得し、
前記第１算出部は、前記第２データを取得することが可能な画素が少ない程、前記第１データに対する重みを相対的に大きくする、
請求項２記載の位置推定装置。
第１時刻および第２時刻それぞれにおける前記第１データを記憶する記憶部をさらに備え、
第１の時刻において前記第１データを示す対象物と第２の時刻において前記第１データを示す対象物が同一である場合に、前記２算出部は、過去時刻の前記第３実サイズをさらに用いて、現在時刻の前記第１実サイズを算出する、
請求項１〜３記載の位置推定装置。
前記第２取得部は、前記第１データを用いて、前記第２データを算出する、
請求項１記載の位置推定装置。
前記重みに応じて、推定された前記対象物の３次元位置を修正する修正部をさらに備える、
請求項１記載の位置推定装置。
対象物が撮影された第１画像上での前記対象物のサイズと、前記第１画像上での前記対象物の位置とに関する第１データを取得し、
（１）前記対象物までの距離、又は（２）前記対象物が撮影された第２画像上での前記対象物の位置、に関する第２データを取得し、
前記第１データから推定される前記対象物の第１実サイズと、前記第２データから推定される前記対象物の第２実サイズとに対する重みを、前記第１データと前記第２データとに基づいて算出し、
前記第１実サイズと前記第２実サイズと前記重みとを用いて、前記対象物の第３実サイズを算出し、
前記第３実サイズから、前記対象物の３次元位置を推定する、
位置推定方法。
コンピュータを、
対象物が撮影された第１画像上での前記対象物のサイズと、前記第１画像上での前記対象物の位置とに関する第１データを取得する手段と、
（１）前記対象物までの距離、又は（２）前記対象物が撮影された第２画像上での前記対象物の位置、に関する第２データを取得する手段と、
前記第１データから推定される前記対象物の第１実サイズと、前記第２データから推定される前記対象物の第２実サイズとに対する重みを、前記第１データと前記第２データとに基づいて算出する手段と、
前記第１実サイズと前記第２実サイズと前記重みとを用いて、前記対象物の第３実サイズを算出する手段と、
前記第３実サイズから、前記対象物の３次元位置を推定する手段として機能させる、位置推定プログラム。