JP2010057105A - オブジェクトの3次元追跡方法およびシステム - Google Patents
オブジェクトの3次元追跡方法およびシステム Download PDFInfo
- Publication number
- JP2010057105A JP2010057105A JP2008222253A JP2008222253A JP2010057105A JP 2010057105 A JP2010057105 A JP 2010057105A JP 2008222253 A JP2008222253 A JP 2008222253A JP 2008222253 A JP2008222253 A JP 2008222253A JP 2010057105 A JP2010057105 A JP 2010057105A
- Authority
- JP
- Japan
- Prior art keywords
- foreground
- map
- depth map
- world
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
- Length Measuring Devices By Optical Means (AREA)
- Image Processing (AREA)
- Studio Devices (AREA)
Abstract
【課題】複雑なオクルージョンを扱うことが可能な、オブジェクトの追跡方法を提供する。
【解決手段】オブジェクトを3次元で追跡するために、所定の環境を斜め上方から観察する3Dカメラの映像を解析して、環境の背景の深度マップと環境の現在シーンの深度マップとを形成する。作成した深度マップを比較して前景の深度マップを形成し、前景の深度マップに基づいて各点の3次元座標を計算する。この3次元座標をワールド座標に変換し、前景の各点について前記ワールド座標のzw値のみを抽出し、イメージ平面の各ピクセルにマッピングすることにより、ワールド−Zマップを形成する。前記ワールド−Zマップ上の隣接するピクセル間でzw値の変化量の大きい点を検出して、前景に含まれる1個またはそれ以上のオブジェクトの境界を検出し、検出した境界に基づいてオブジェクトをセグメント化し、3次元軌跡を作成する。
【選択図】図1
【解決手段】オブジェクトを3次元で追跡するために、所定の環境を斜め上方から観察する3Dカメラの映像を解析して、環境の背景の深度マップと環境の現在シーンの深度マップとを形成する。作成した深度マップを比較して前景の深度マップを形成し、前景の深度マップに基づいて各点の3次元座標を計算する。この3次元座標をワールド座標に変換し、前景の各点について前記ワールド座標のzw値のみを抽出し、イメージ平面の各ピクセルにマッピングすることにより、ワールド−Zマップを形成する。前記ワールド−Zマップ上の隣接するピクセル間でzw値の変化量の大きい点を検出して、前景に含まれる1個またはそれ以上のオブジェクトの境界を検出し、検出した境界に基づいてオブジェクトをセグメント化し、3次元軌跡を作成する。
【選択図】図1
Description
本発明は、一連の動画像(ビデオシーケンス)からリアルタイムで、一個または複数の移動体(以下、オブジェクト)を検出し、3次元で追跡することが可能な方法およびシステムに関する。
ビデオシーケンスにおいて、オブジェクト、例えば人物を追跡(トラッキング)して検出するためには、ビデオ画像の監視領域内に出現した人物(単数あるいは複数)を検出すること、この領域内にその人物がいる限り各人物に固有のIDをアサインすること、さらに、追跡した各人物の軌跡を3次元で再現すること、が必要である。理想的なシステムを構築するためには、次のような要求を満足する必要がある。
第一に、オクルージョン(オブジェクトの重なり)が頻繁な複雑なシーン、例えば混雑シーンであってもトラッキングが可能なことが必要である。オクルージョンには、(1)被写体の一部分のみがセンサに対して可視であるような部分的なオクルージョン、(2)被写体が短時間完全にオクルージョン状態である、短期間オクルージョン、および(3)被写体が長期間にわたって視野を離れる、拡張オクルージョンの三つのタイプが有り、これらのオクルージョンを識別し、トラッキングを行う必要がある。
第二に、シーンにおける照明の変化および背景の複雑性に対してロバスト性が求められる。追跡システムは、室内あるいは室外環境で、しかも複雑でかつダイナミックな背景で動作しなければならない。第三に、3次元空間あるいはフロア平面において、各人物の軌跡を正確に再現できること、および外見が似た人物を区別して正確にトラッキングできることが必要であり、第四に、処理時間が速いこと、即ち、リアルタイムで作動して人物の行動を分析し、異常を検出することが可能なこと、第五に、システムの設置コストが低くセットアップと維持が容易であること、などが要求される。なお、第五の要求を満足するためには、システムの調整のためのパラメータが最小であることが望まれる。
既に幾つかの追跡システムが提案されている。非特許文献3は、一個の単眼カメラベースのシステムを提案している。このシステムでは、オブジェクトトラッキングのために、ベイジアン−マルチ・ブロブの考えを導入している。トラックすべきオブジェクトが一旦、一個の単眼カメラで検出(ブロッブ)されると、このトラッキングは各ブロッブの外見に基づいて行われる。彼らは、シーンにおけるオブジェクトの数が未知で経時的に変化する場合に、マルチ・ブロブ尤度関数および複数オブジェクトトラッキングのためのベイジアンフィルタリングを適用することを提案した。
しかしながら、このシステムではオクルージョンを効果的に識別できず、似たような外見を有する人物の区別に失敗し、照明状況の変化に敏感で、さらに追跡オブジェクトの3D軌跡を再現することができない。
非特許文献1は、複数の単眼カメラベースのシステムを提案している。このシステムは、モニタシーンの周囲にセットされた複数の単眼カメラを使用する。前景イメージを抽出するために、カラーベースの背景減算を実行する。オーバーヘッド平面上の前景に相当するコーンの交点は、追跡する候補者のセットを生成する。現在の候補者と以前のフレームにおいて検出された人物との対応付けを、モーション、カラーおよび外見に基づいて実行することにより、追跡する候補者の新しい軌跡を生成する。
このシステムは、人物が全ての視野においてオクルージョンされていない限りにおいて、オクルージョンを処理することができ、3D軌跡を再現させることができる。各時間において100フレームのパッチを処理するので、2秒の遅延を有するが比較的早い処理であると言える。
また、カラーと外見に基づいて各人物を認識するので、それぞれの人物のIDを保存することができると考えられる。しかしながら、このシステムでは、コーンの交点に基づいて動作しているので、複数の人物が合流した場合などをうまく処理することができない。また、似たような色を着た、似たような外見を有する人物を識別することもできない。さらに、背景減算およびトラッキングをカラーベースデータで行うため、照明の変化にロバストではない。
非特許文献2および特許文献1のシステムは、高い位置に固定され、斜め方向からシーンを観測する3Dカメラを使用している。この3Dカメラはシーンの深度マップを提供する。このシステムの操作は次のとおりである。
1)前景(フォアグラウンド)から、シーンにオブジェクトが無い状態で記録された背景(バックグラウンド)を減算することによって、スタートする。
2)前景の深さから3Dポイントを計算し、仮想オーバーヘッド平面をレンダリングする。オーバーヘッド平面上には、最も高いポイントのみが表示される。
3)幾つかの形態的操作によってブロブを後処理することにより、各合成ブロブはシーン中の各個人を表すようになる。
4)検出された人物の対応付けは、各人物の高さ(身長)パターンの経時的な軌跡を提供するトラッキングに基づいてなされる。
このシステムはオクルージョンを扱うことができるが、人物が相互に接近しかつ同じような外見、特に、同じような身長を有している場合はうまく処理することができない。一方、カラーに代わって3Dデータを使用するので、照明の変化に対してロバストである。また、3D軌跡を再現し、処理速度が速く、コストが低いが、人物がシーンから一旦退場し再入場する場合に、その人物のIDをキープすることはない。さらに、トラッキングのために高さパターンを使用するので、人物が座ったり、ジャンプしたりあるいは手を上げたりした場合には混乱が生じる。
本発明は、上記した従来技術の問題点を解決する目的でなされたもので、室内および室外環境において、さらに複雑でしかもダイナミックな背景においてロバストで、しかも外見が類似した移動体または人物のオクルージョンを効果的に処理することが可能な、オブジェクトの3次元追跡方法およびシステムを提供することを課題とする。
上記課題を解決するために、本発明の方法は、所定の環境を斜め上方から観察する3Dカメラの映像を解析して、前記環境の背景の深度マップと前記環境の現在シーンの深度マップとを形成し、前記背景および現在シーンの深度マップを比較して、前景の深度マップを形成し、前記前景の深度マップに基づいて前記前景の各点の3次元座標を計算し、
前記3次元座標をワールド座標に変換し、前記前景の各点について前記ワールド座標のzw値のみを抽出し、イメージ平面の各ピクセルにマッピングしてワールド−Zマップを形成し、前記ワールド−Zマップ上の隣接するピクセル間でzw値の変化量の大きい点を検出して、前記前景に含まれる1個またはそれ以上のオブジェクトの境界を検出し、
前記検出した境界に基づいて前記オブジェクトをセグメント化し、前記セグメント化されたオブジェクトに対して3次元軌跡を作成する、各ステップを備える。
前記3次元座標をワールド座標に変換し、前記前景の各点について前記ワールド座標のzw値のみを抽出し、イメージ平面の各ピクセルにマッピングしてワールド−Zマップを形成し、前記ワールド−Zマップ上の隣接するピクセル間でzw値の変化量の大きい点を検出して、前記前景に含まれる1個またはそれ以上のオブジェクトの境界を検出し、
前記検出した境界に基づいて前記オブジェクトをセグメント化し、前記セグメント化されたオブジェクトに対して3次元軌跡を作成する、各ステップを備える。
上記課題を解決するために、本発明のシステムは、所定の環境を斜め上方から観察する3Dカメラと、前記3Dカメラの映像を解析するプロセッサと、を備え、前記プロセッサは、前記映像から前記環境の背景と現在シーンそれぞれの深度マップを形成し、前記それぞれの深度マップを比較して前景の深度マップを計算し、前記前景の深度マップに基づいて前記前景の各点における3次元座標を算出し、前記算出した3次元座標をワールド座標に変換し、前記前景の各点について前記ワールド座標のzw値のみを抽出し、イメージ平面の各ピクセルにマッピングして、ワールド−Zマップを形成し、前記ワールド−Zマップ上の隣接するピクセル間でzw値の変化量の大きい点を検出して、前記前景に含まれる1個またはそれ以上のオブジェクトの境界を検出し、前記検出した境界に基づいて前記オブジェクトをセグメント化し、前記セグメント化されたオブジェクトに対して3次元軌跡を作成する、各手順を実行する。
また、上記方法あるいはシステムにおいて、前記背景の深度マップを、前記環境にオブジェクトが存在しない場合に撮影された映像に基づいて形成し、前記前景の深度マップを前記現在シーンの深度マップから前記背景の深度マップを減算することによって形成するようにしても良い。
さらに、上記方法あるいはシステムにおいて、さらに、前記前景の3次元座標のデータを前記3Dカメラに対する入射角でフィルタしてノイズを除去するようにしても良い。
3Dカメラから得た映像を解析して、観察しようとする領域(ROI、region of interest)の前景の深度マップを形成し、この深度マップに基づいて前景の各点の3次元座標を計算する。次に、計算された3次元座標をワールド座標に変換する。このとき、ワールド座標系のXY平面をROIのフロア面に平行とし、かつ、3Dカメラの中心のワールド座標を(00h)(hは任意の値)としてワールド座標系を作成する。ワールド座標に変換された前景の各点から、Z軸上の座標zw値のみを取り出し、これをイメージ平面上にマップして前景のワールド−Zマップを形成する。このようにして形成したワールド−Zマップでは、同一のオブジェクトに属する点のzw値はイメージ平面のY軸方向で連続的でかつ一様に変化する特性を有している。
この特性を利用することにより、前景に含まれる複数オブジェクトの境界を検出することが出来る。即ち、ワールド−Zマップを走査していくとき、隣接するピクセル間でzw値が一様に減少(あるいは増加)せず急激に変化する点が存在すれば、その点はオブジェクト間の境界であると考えられる。従って、オブジェクト間の境界を示唆するzw値の大きな変化に基づいて前景に含まれる複数オブジェクトを検出し、これらを別個にセグメント化すれば、複数のオブジェクトが混在する、いわゆるオクルージョンが頻発する状況であっても、高い精度で複数オブジェクトを区別してセグメント化することが可能となる。
個々のオブジェクトがセグメント化されると、例えば線形確率モデルを使用することにより、時間t−1と時間t間でオブジェクトがどのように移動したかの対応付けを行うことができる。これにより、個々のオブジェクトの3次元軌跡を検出することが出来る。オブジェクトの対応付けは、オブジェクトの3D座標、平均のカラー、顔の特徴などの特徴量を基に、確率計算を行うことにより実現される。
本発明の方法およびシステムでは、基本的に深度マップに基づいてオブジェクトの検出を行うので、検出しようとする環境の照明変化、背景の複雑性に対してロバストである。さらに、オクルージョンの発生頻度の高い環境であっても、複数オブジェクトを効果的にセグメント化することができる。また、本発明の方法およびシステムを実施する場合、システムセットアップのための重要なパラメータは3Dカメラの設置角度だけであり、従って、システムのセットアップコスト、維持コストを低くすることが可能である。
以下に、本発明の種々の実施形態を、図面を参照して説明する。なお、以下の図面において同一の参照符号は同一または類似の構成要素を示すので、重複した説明は行わない。
図1は、本発明の一実施形態に係る移動体(以下、オブジェクト)の3次元追跡方法を示すフローチャートであり、図2は、図1の方法を実施するためのシステム構成を示す図、さらに、図3(a)〜(f)は、図1のフローチャートの幾つかのステップにおける操作を説明するためのイメージ図である。
図2に示す様に、本実施形態に係るオブジェクトの3次元追跡システムは基本的に、オブジェクトの移動を追跡すべき空間1の斜め上方に固定された一台の3Dカメラ(例えば立体カメラ)2と、このカメラ2から得られた情報を処理する処理装置(プロセッサを含む)3とで構成されている。処理装置3は通常の情報処理装置、例えばコンピュータであっても良く、あるいはカメラ2と一体に構成されたカメラシステムであっても良い。3Dカメラ2は空間1を傾斜した角度から観測し、処理装置3は観測イメージから空間1の深度マップ(デプスマップ)を作成する。
オブジェクト追跡の前処理として、まず、背景(バックグラウンド)のモデルが作成される。図1のステップS1とステップS2は背景モデル作成のためのステップである。まず、ステップS1において、カメラ2によって空間1の背景(バックグラウンド)イメージを取得する。背景イメージとは、追跡すべきオブジェクトが存在しない場合の空間のイメージである。ステップS2において、取得した背景イメージから深度マップ、即ち背景モデルを作成する。図3の(c)に、このようにして作成された背景モデルを示す。なお、背景モデルは一旦作成されれば、これを毎回のシーンイメージの処理に使用すればよく、したがって、ステップS1とステップS2を時間t毎のシーンの撮影に対して、繰り返す必要はない。
図1に示すステップS3では、3Dカメラ2によって空間1の実際のシーンを撮像する。実際のシーンには追跡すべきオブジェクトが含まれている。図3の(a)にシーンイメージの一例を示す。なお、シーンの撮影は一定の時間t毎に行われ、従ってステップS3以下は時間t毎に繰り返して実行される。ステップS4では撮像したシーンの深度マップを作成する。図3の(b)は、図(a)のシーンイメージから作成された深度マップを示している。オブジェクトを識別しその移動を追跡するためには、イメージの深度マップ(図3(b)参照)からオブジェクトのみを切り出す必要がある。したがって、ステップS5で、シーンイメージの深度マップから背景イメージの深度マップを減算することにより、オブジェクト全体のの深度マップ、即ち前景(フォアグラウンド)イメージの深度マップを作成する。
次のステップS6では、ステップS5で作成された前景イメージの深度マップに基づいて、前景イメージの各点について3Dデータを作成する。ステップS7では、3Dデータに含まれるノイズを除去するための処理を行う。ノイズ除去処理については、[3Dデータ中のノイズ除去処理]の項で図4を参照して詳細に説明する。
ステップS8では、ノイズ除去後の3Dデータを、ワールド座標に変換する。なお、3Dデータはカメラ座標に基づくものであり、これをワールド座標に変換する場合、シーンのフロア面をワールド座標のXY平面に平行とする。また、カメラの中心座標がワールド座標系の(00h)(h:任意の値)となるように、ワールド座標系を設定する。カメラ座標系のワールド座標系への変換に関しては、[ワールド−Zマップの作成]の項で図5を参照して詳述する。
ステップS9では、前景の各点について、ワールド座標のZw軸上の値、即ち、zw値を取り出しこれをイメージ平面の各ピクセル上にマップすることにより、ワールド−Zマップを作成する。図3の(d)はこのようにして作成されたワールド−Zマップを示す。
なお、図3の(b)、(c)、(d)に示すマップは、実際は数値データの集合であるが、マップの機能を説明のためにイメージ化して示されている。したがって、図(d)のワールド−Zマップでは、zw値の大きなピクセルを明るく、小さなピクセルを暗くなるように示してある。前景以外の部分はzw値を0として処理されている。
以上の処理により、前景の各点について、ワールド座標におけるzw値のみを保持したワールド−Zマップが作成されると、次のステップS10ではこのマップを走査して前景イメージ中の各オブジェクトを検出する。マップの走査は、通常、マップの最上部左端から最上部右端に、同様にマップの上から下に向かって行われるが、システムの構成に基づいてどのような走査アルゴリズムをとっても良い。
ワールド−Zマップでは、各ピクセルにおいて、ワールド座標のzw値、即ちオブジェクトのフロア面からの高さがマップされているので、同一のオブジェクト内では、ワールド座標のYw軸方向にそのzw値は一様に変化する。ステップS11では、この特性を利用して、ワールド−Zマップ中でオブジェクト間の境界を検出する。オブジェクト間の境界を検出するための具体的な手順に関しては、[ワールド−Zマップの特性]の項で、図6および7を参照して詳述する。
オブジェクトの境界が検出されると、ステップS12で、検出された各オブジェクトをセグメント化する。図3の(e)に図(d)のワールド−Zマップから2個のオブジェクトを識別し、セグメント化した状態を示す。ステップS12のセグメント化、即ちセグメンテーションについては、[セグメンテーション]の項で、図7を参照して詳述する。
ステップS13では、例えば、線形確率モデルを使用して、時間t−1においてセグメント化されたオブジェクトと、現在の時間tにおいてセグメント化されたオブジェクトとの間の対応付けを実行する。ステップS14では、ステップS13の対応付けに基づいて、各オブジェクトの3D軌跡を作成する。以上の手順、即ち、ステップS3からステップS14を一定の時間毎に繰り返して実行することにより、オブジェクトの3D追跡を実行することができる。
次に、図1の主要なステップの詳細を説明する。
[3Dデータ中のノイズ除去処理]
3Dカメラによる深度情報に固有のノイズを除去するために、ノイズ除去処理を行う。このようなノイズは、主に、オブジェクトの境界に発生しやすく、その存在によってオブジェクトのセグメンテーションにおける精度が劣化する。発明者等は、このようなノイズが、ポイントクラウド(点群)よりも大きな入射角(カメラに対する)を有していることに注目した。この特性を利用することによって、ノイズを除去するためのフィルタの閾値を決定することができる。
3Dカメラによる深度情報に固有のノイズを除去するために、ノイズ除去処理を行う。このようなノイズは、主に、オブジェクトの境界に発生しやすく、その存在によってオブジェクトのセグメンテーションにおける精度が劣化する。発明者等は、このようなノイズが、ポイントクラウド(点群)よりも大きな入射角(カメラに対する)を有していることに注目した。この特性を利用することによって、ノイズを除去するためのフィルタの閾値を決定することができる。
即ち、イメージ平面上に、各ピクセルがポイントクラウドの一個の点の入射角を記録した入射角マップを形成する。次に、予め決定した閾値よりも小さな入射角を有する点のみを保存するために、このマップをフィルタする。このようにして形成されたマップは、ワールド−Zマップのためのマスクとして使用される。
図4にステレオ処理において発生するノイズを示す。この図に示す様に、ノイズ40のカメラ20に対する入射角βは、ポイント30のカメラ20に対する入射角γよりも大きい傾向がある。なお、図4において、32はノイズ40とポイント30それぞれの入射ベクトルを示し、34はノイズ40のノーマルベクトルを示す。ある所定の点pの入射角のコサインは、点pの単位ノーマルベクトル
と、カメラの中心と点pとを結ぶ単位ベクトル
との積として示される。このノーマルベクトルは、点pに隣接するが点pとは整列していない有効点p1、p2を用いて計算することができる。即ち、ノーマルベクトル
は、
と
の外積で与えられる。
その結果、点pに関する入射マップエントリI(p)は、
で与えられる。
[ワールド−Zマップの作成]
ワールド−Zマップはイメージ平面の各ピクセル上に、シーンの各3次元ポイントのワールド−Z座標を記録したものである。図5は、カメラ座標とワールド座標の関係を示す。図5において、Xc、Yc、Zcはカメラ座標の座標軸を、Xw、Yw、Zwはワールド座標の座標軸を示す。カメラ2は、フロア面から高さhの位置に、フロア面を角度αで観測するように配置される。さらに、フロア面がXY平面に平行であると仮定し、カメラ2の中心のワールド座標を(00h)とする。この場合、カメラ座標が(xc、yc、zc)である点Pのワールド座標(xw、yw、zw)は、
xw=zcsin(α)
yw=xc
zw=h−zccos(α) (1)
として計算される。ワールド−Zマップは、式(1)に基づいて計算されたワールドZ座標値のみを取り出し、これをイメージ平面上の各ピクセルにマップすることによって作成される。
ワールド−Zマップはイメージ平面の各ピクセル上に、シーンの各3次元ポイントのワールド−Z座標を記録したものである。図5は、カメラ座標とワールド座標の関係を示す。図5において、Xc、Yc、Zcはカメラ座標の座標軸を、Xw、Yw、Zwはワールド座標の座標軸を示す。カメラ2は、フロア面から高さhの位置に、フロア面を角度αで観測するように配置される。さらに、フロア面がXY平面に平行であると仮定し、カメラ2の中心のワールド座標を(00h)とする。この場合、カメラ座標が(xc、yc、zc)である点Pのワールド座標(xw、yw、zw)は、
xw=zcsin(α)
yw=xc
zw=h−zccos(α) (1)
として計算される。ワールド−Zマップは、式(1)に基づいて計算されたワールドZ座標値のみを取り出し、これをイメージ平面上の各ピクセルにマップすることによって作成される。
[ワールド−Zマップの特性]
図6および図7は、ワールド−Zマップの特性を示す図である。図6は、フロア面10上に近接して位置するオブジェクトAおよびBを含むシーンをカメラ2によって観測する場合を示し、図7は図6のシーンのワールド−Zマップを示す。図7において、12はイメージ平面である。図6のシーンをカメラ2によって観察した場合、カメラ2とオブジェクトA間の距離d1はカメラ2とオブジェクトB間の距離d2よりも小さいので、ワールド−Zマップのイメージ平面12上では、オブジェクトAはオブジェクトBより低い位置に現れる。
図6および図7は、ワールド−Zマップの特性を示す図である。図6は、フロア面10上に近接して位置するオブジェクトAおよびBを含むシーンをカメラ2によって観測する場合を示し、図7は図6のシーンのワールド−Zマップを示す。図7において、12はイメージ平面である。図6のシーンをカメラ2によって観察した場合、カメラ2とオブジェクトA間の距離d1はカメラ2とオブジェクトB間の距離d2よりも小さいので、ワールド−Zマップのイメージ平面12上では、オブジェクトAはオブジェクトBより低い位置に現れる。
したがって、人物の場合の様に、オブジェクトAとオブジェクトBが同じような高さ(身長)を有する場合、ワールド−Zマップ上で最も高い位置(Y座標)にある点は、カメラ2から最も遠い位置のオブジェクトに属すると考えて良い。具体的には、図7の点P3はオブジェクトAより遠いオブジェクトBに属する点であると考えられる。また、図6から明らかなように、オブジェクトAの点P1とオブジェクトBの点P2はイメージ平面12上で同じ位置に現れる。しかしながら、オブジェクトAはオブジェクトBよりもカメラに近く、したがって点P1のワールド−Z座標値Z1は点P2のワールド−Z座標値Z2よりも大きい。即ち、Z1>Z2である。
また、同じオブジェクト内では、ワールド−Z座標の値は、イメージ平面のY軸座標が大きくなるにしたがって一様に減少する。即ち、図7のオブジェクトBでは、点P3からY座標が大きくなるに従ってその点のzw値は一様に減少していく。同様に、オブジェクトA内では、点P1のzw値が最も大きく、Y座標が大きくなるに従ってzw値は一様に減少する。
以上を要約すると、ワールド−Zマップは、次のような特性を有している。
1)ワールド−Zマップは深度マップから計算された全ての3D点を含んでいるため、情報の損失がない。
2)一個のオブジェクト内のzw値は、Y軸の値が大きくなるにしたがって一様に減少する。
3)カメラに近い位置のオブジェクトはカメラから遠い位置のオブジェクトよりも、ワールド−Zマップ上で大きなzw値を有する。このことは、オブジェクトが人物の場合の様にほぼ同じような高さ(身長)を有する場合、ワールド−Zマップ上で最も高い位置(Y座標)にある点は、カメラから最も遠い位置のオブジェクトに属することを意味する。
2)一個のオブジェクト内のzw値は、Y軸の値が大きくなるにしたがって一様に減少する。
3)カメラに近い位置のオブジェクトはカメラから遠い位置のオブジェクトよりも、ワールド−Zマップ上で大きなzw値を有する。このことは、オブジェクトが人物の場合の様にほぼ同じような高さ(身長)を有する場合、ワールド−Zマップ上で最も高い位置(Y座標)にある点は、カメラから最も遠い位置のオブジェクトに属することを意味する。
[オブジェクトセグメンテーション]
ワールド−Zマップの上記特性2)および3)を利用することによって、イメージ平面上で一部が重なった複数のオブジェクトを識別し、セグメント化することができる。即ち、図7に示すワールド−Zマップを、例えば右から左に、かつ上から下に走査していくとき、隣接するピクセル間でzw値が一様に減少せず大きく変化する場合がある。このような場合に、そこが複数オブジェクトの境界であると考えることができる。例えば、ワールド−Zマップにおいて、オブジェクトB内でのzw値は、点P3から点P2に向かって一様に減少していくが、点P2に達するとそこはオブジェクトAの点P1に相当するため、そのzw値は急激に大きくなる。図6に示す様に、Z1>Z2であるためである。オブジェクトA内では、点P1のzw値Z1を最大に、以降、一様に減少する。
ワールド−Zマップの上記特性2)および3)を利用することによって、イメージ平面上で一部が重なった複数のオブジェクトを識別し、セグメント化することができる。即ち、図7に示すワールド−Zマップを、例えば右から左に、かつ上から下に走査していくとき、隣接するピクセル間でzw値が一様に減少せず大きく変化する場合がある。このような場合に、そこが複数オブジェクトの境界であると考えることができる。例えば、ワールド−Zマップにおいて、オブジェクトB内でのzw値は、点P3から点P2に向かって一様に減少していくが、点P2に達するとそこはオブジェクトAの点P1に相当するため、そのzw値は急激に大きくなる。図6に示す様に、Z1>Z2であるためである。オブジェクトA内では、点P1のzw値Z1を最大に、以降、一様に減少する。
以上のように、ワールド−Zマップを走査して隣接するピクセル間でzw値の変化が急激な点を検出することにより、オブジェクト間の境界を検出することが出来る。本方法では、この特性を利用して、ワールド−Zマップから複数オブジェクトを識別する。
[セグメンテーション]
図8は、モニタエリア内に2個のオブジェクトA、Bを含むワールド−Zマップから、オブジェクトA、Bをセグメント化する手順を説明するための図である。図8(a)は3Dカメラから得られたイメージを基にして作成されたワールド−Zマップを示す。このマップを最上部左端から走査を開始し、画面の右から左、さらに上から下に走査することによって、オブジェクトBと他のオブジェクトとの境界13を検出する。境界を検出するために、隣接するピクセル間のzw値の変化にユーザ指定の閾値εを設けても良い。次に、検出された境界13に基づいて、図(b)に示す様にオブジェクトBをセグメント化する(セグメントB’)。
図8は、モニタエリア内に2個のオブジェクトA、Bを含むワールド−Zマップから、オブジェクトA、Bをセグメント化する手順を説明するための図である。図8(a)は3Dカメラから得られたイメージを基にして作成されたワールド−Zマップを示す。このマップを最上部左端から走査を開始し、画面の右から左、さらに上から下に走査することによって、オブジェクトBと他のオブジェクトとの境界13を検出する。境界を検出するために、隣接するピクセル間のzw値の変化にユーザ指定の閾値εを設けても良い。次に、検出された境界13に基づいて、図(b)に示す様にオブジェクトBをセグメント化する(セグメントB’)。
次に、ワールド−ZマップからセグメントB’を除去し、残りのマップを走査することにより、オブジェクトAを確定し(図(c))、図(d)に示す様にこれをセグメント化する(セグメントA’)。この結果、ワールド−Zマップ内でオブジェクトAとオブジェクトBが、セグメントA’、セグメントB’としてセグメント化される。
[セグメントトラッキング]
図9は、線形確率モデルに基づいた3Dオブジェクトトラッキングの全体像を示す。図9の(a)は、時間t−1において検出されたオブジェクトX1、X2およびX3の位置を示し、図(b)は、時間tにおいて検出された2個のセグメントY1、Y2の位置を示す。トラッキングは、時間tにおいて検出されたセグメントY1、Y2と時間t−1において検出されたオブジェクトX1、X2およびX3間の対応関係を見出すことである。各変数Xi(i=1、2、3)は、オブジェクトXiの、トラッキングに関係するある特徴を符号化する。これらの特徴には、3D位置、配置、外見および動き等が含まれる。
図9は、線形確率モデルに基づいた3Dオブジェクトトラッキングの全体像を示す。図9の(a)は、時間t−1において検出されたオブジェクトX1、X2およびX3の位置を示し、図(b)は、時間tにおいて検出された2個のセグメントY1、Y2の位置を示す。トラッキングは、時間tにおいて検出されたセグメントY1、Y2と時間t−1において検出されたオブジェクトX1、X2およびX3間の対応関係を見出すことである。各変数Xi(i=1、2、3)は、オブジェクトXiの、トラッキングに関係するある特徴を符号化する。これらの特徴には、3D位置、配置、外見および動き等が含まれる。
例えば、(x1、y1、z1)をオブジェクトの3D位置とし、(h1、w1)をオブジェクトの身長および横幅であるとし、(r1、g1、b1)をオブジェクトの平均の色であるとした場合、X1=(x1、y1、z1、w1、r1、g1、b1)と仮定することができる。Yj(j=1、2)に対しても同様の仮定を行う。この対応関係を構築するために、シーン中のオブジェクトの数が時間の経過とともに変化することも有りうると仮定する。例えば、ある人物がシーンから出てしまい、他の人物がシーン内に入り込むことも可能である。システムはこのような状況を自動的に取り扱う。
一般に、時間t−1において検出されたオブジェクトセットを、
X=(X1、X2、・・・、Xn)、nはオブジェクトの数、
時間tにおいて検出されたセグメントセットを、
Y=(Y1、Y2、・・・、Yn)、mはセグメントの数、
として示すことができる。なお、m≠nである。
X=(X1、X2、・・・、Xn)、nはオブジェクトの数、
時間tにおいて検出されたセグメントセットを、
Y=(Y1、Y2、・・・、Yn)、mはセグメントの数、
として示すことができる。なお、m≠nである。
トラッキングのために、m+1個の行とn個の列を有する行列Pを考える。各列は、以前のフレームにおいて検出されたオブジェクトに相当し、各行はフレームtにおいて検出されたセグメントに相当する。この行列に、追加の行を加える。この行は、時間t−1において検出された人物Xiが時間tにおいて姿を消す確率に相当する。iを行番号、jを列番号とする時、行列の各エントリP(i、j)は、YiがXjに相当する確率となる。
図9の(d)は、このような行列Pの一例を示す。行列Pが決定されると、次のステップは最適な割当を見出すことである。図9の(c)はこのような割当の一例を示す。即ち、図(c)ではY1はX3に割当てられ、Y2はX2に割当てられ、さらにX1は時間tにおいて姿を消したものと見なされる(φに割当てられる)。この割当ての確率は、P(1、3)×P(2、2)×P(3、1)=0.343であり、この値は他の可能な割当ての中で最も高い値である。
m>nの場合、新しいオブジェクトがシーン内に入り込んできたことを示す。このアルゴリズムでは、シーンに入り込んできたオブジェクトに対して何らの割当ても見出さない。この場合、それらは新しく来たオブジェクトであると解釈され、時間tにおいて検出された人物のリストの中に加えられる。行列Pの値は、オブジェクトX1、X2、X3とセグメントY1、Y2間の類似の程度に基づいて計算される。この類似としては、オブジェクト間の幾つかの特性を使用することも可能である。例えば、オブジェクト間の3D距離、色の類似性、顔の類似性あるいはこれらの組合せを使用することができる。
1 空間
2 3Dカメラ
3 処理装置(コンピュータ)
2 3Dカメラ
3 処理装置(コンピュータ)
Claims (6)
- 所定の環境を斜め上方から観察する3Dカメラの映像を解析して、前記環境の背景の深度マップと前記環境の現在シーンの深度マップとを形成し、
前記背景および現在シーンの深度マップを比較して、前景の深度マップを形成し、
前記前景の深度マップに基づいて前記前景の各点の3次元座標を計算し、
前記3次元座標をワールド座標に変換し、
前記前景の各点について前記ワールド座標のzw値のみを抽出し、イメージ平面の各ピクセルにマッピングしてワールド−Zマップを形成し、
前記ワールド−Zマップ上の隣接するピクセル間でzw値の変化量の大きい点を検出して、前記前景に含まれる1個またはそれ以上のオブジェクトの境界を検出し、
前記検出した境界に基づいて前記オブジェクトをセグメント化し、
前記セグメント化されたオブジェクトに対して3次元軌跡を作成する、
各ステップを備える、オブジェクトの3次元追跡方法。 - 請求項1に記載の方法において、前記背景の深度マップは、前記環境にオブジェクトが存在しない場合に撮影された映像に基づいて形成され、前記前景の深度マップは前記現在シーンの深度マップから前記背景の深度マップを減算することによって形成される、オブジェクトの3次元追跡方法。
- 請求項1または2に記載の方法において、さらに、前記前景の3次元座標のデータを前記3Dカメラに対する入射角でフィルタしてノイズを除去するステップを備える、オブジェクトの3次元追跡方法。
- 所定の環境を斜め上方から観察する3Dカメラと、
前記3Dカメラの映像を解析するプロセッサと、を備え、
前記プロセッサは、
前記映像から前記環境の背景と現在シーンそれぞれの深度マップを形成し、
前記それぞれの深度マップを比較して前景の深度マップを計算し、
前記前景の深度マップに基づいて前記前景の各点における3次元座標を算出し、
前記算出した3次元座標をワールド座標に変換し、
前記前景の各点について前記ワールド座標のzw値のみを抽出し、イメージ平面の各ピクセルにマッピングして、ワールド−Zマップを形成し、
前記ワールド−Zマップ上の隣接するピクセル間でzw値の変化量の大きい点を検出して、前記前景に含まれる1個またはそれ以上のオブジェクトの境界を検出し、
前記検出した境界に基づいて前記オブジェクトをセグメント化し、
前記セグメント化されたオブジェクトに対して3次元軌跡を作成する、各手順を実行する、オブジェクトの3次元追跡システム。 - 請求項1に記載のシステムにおいて、前記背景の深度マップは、前記環境にオブジェクトが存在しない場合に撮影された映像に基づいて形成され、前記前景の深度マップは前記現在シーンの深度マップから前記背景の深度マップを減算することによって形成される、オブジェクトの3次元追跡システム。
- 請求項4または5に記載のシステムにおいて、さらに、前記前景の3次元座標のデータを前記3Dカメラに対する入射角でフィルタしてノイズを除去するステップを備える、オブジェクトの3次元追跡システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008222253A JP2010057105A (ja) | 2008-08-29 | 2008-08-29 | オブジェクトの3次元追跡方法およびシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008222253A JP2010057105A (ja) | 2008-08-29 | 2008-08-29 | オブジェクトの3次元追跡方法およびシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010057105A true JP2010057105A (ja) | 2010-03-11 |
Family
ID=42072505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008222253A Pending JP2010057105A (ja) | 2008-08-29 | 2008-08-29 | オブジェクトの3次元追跡方法およびシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010057105A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9378583B2 (en) | 2010-07-02 | 2016-06-28 | Samsung Electronics Co., Ltd. | Apparatus and method for bidirectionally inpainting occlusion area based on predicted volume |
KR20160093765A (ko) * | 2015-01-29 | 2016-08-09 | 전자부품연구원 | 실시간 영상 객체 분리 방법 및 시스템 |
JP2016162075A (ja) * | 2015-02-27 | 2016-09-05 | Kddi株式会社 | オブジェクト追跡方法、装置およびプログラム |
CN107483821A (zh) * | 2017-08-25 | 2017-12-15 | 维沃移动通信有限公司 | 一种图像处理方法及移动终端 |
KR101850027B1 (ko) * | 2011-12-08 | 2018-04-24 | 한국전자통신연구원 | 실시간 3차원 실 환경 복원장치 및 그 방법 |
JP2018073044A (ja) * | 2016-10-27 | 2018-05-10 | Kddi株式会社 | オブジェクト追跡装置、方法およびプログラム |
US10134134B2 (en) | 2012-05-24 | 2018-11-20 | Qatar Foundation | Method and system for creating depth signatures |
CN111192308A (zh) * | 2019-12-31 | 2020-05-22 | 浙江商汤科技开发有限公司 | 图像处理方法及装置、电子设备和计算机存储介质 |
CN111932576A (zh) * | 2020-07-15 | 2020-11-13 | 中国科学院上海微系统与信息技术研究所 | 一种基于深度相机的物体边界测量方法和装置 |
CN112580426A (zh) * | 2020-10-30 | 2021-03-30 | 江苏集萃未来城市应用技术研究所有限公司 | 一种基于单目视觉的室外人员动态跟踪定位方法 |
-
2008
- 2008-08-29 JP JP2008222253A patent/JP2010057105A/ja active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9378583B2 (en) | 2010-07-02 | 2016-06-28 | Samsung Electronics Co., Ltd. | Apparatus and method for bidirectionally inpainting occlusion area based on predicted volume |
KR101850027B1 (ko) * | 2011-12-08 | 2018-04-24 | 한국전자통신연구원 | 실시간 3차원 실 환경 복원장치 및 그 방법 |
US10134134B2 (en) | 2012-05-24 | 2018-11-20 | Qatar Foundation | Method and system for creating depth signatures |
KR20160093765A (ko) * | 2015-01-29 | 2016-08-09 | 전자부품연구원 | 실시간 영상 객체 분리 방법 및 시스템 |
JP2016162075A (ja) * | 2015-02-27 | 2016-09-05 | Kddi株式会社 | オブジェクト追跡方法、装置およびプログラム |
JP2018073044A (ja) * | 2016-10-27 | 2018-05-10 | Kddi株式会社 | オブジェクト追跡装置、方法およびプログラム |
CN107483821A (zh) * | 2017-08-25 | 2017-12-15 | 维沃移动通信有限公司 | 一种图像处理方法及移动终端 |
CN107483821B (zh) * | 2017-08-25 | 2020-08-14 | 维沃移动通信有限公司 | 一种图像处理方法及移动终端 |
CN111192308A (zh) * | 2019-12-31 | 2020-05-22 | 浙江商汤科技开发有限公司 | 图像处理方法及装置、电子设备和计算机存储介质 |
CN111192308B (zh) * | 2019-12-31 | 2023-11-03 | 浙江商汤科技开发有限公司 | 图像处理方法及装置、电子设备和计算机存储介质 |
CN111932576A (zh) * | 2020-07-15 | 2020-11-13 | 中国科学院上海微系统与信息技术研究所 | 一种基于深度相机的物体边界测量方法和装置 |
CN111932576B (zh) * | 2020-07-15 | 2023-10-31 | 中国科学院上海微系统与信息技术研究所 | 一种基于深度相机的物体边界测量方法和装置 |
CN112580426A (zh) * | 2020-10-30 | 2021-03-30 | 江苏集萃未来城市应用技术研究所有限公司 | 一种基于单目视觉的室外人员动态跟踪定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11360571B2 (en) | Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data | |
JP2010057105A (ja) | オブジェクトの3次元追跡方法およびシステム | |
JP4899729B2 (ja) | 3次元マルチカメラビデオ監視支援システム、3次元マルチカメラビデオ監視支援方法、3次元マルチカメラビデオ監視支援プログラム | |
US20070052807A1 (en) | System and method for user monitoring interface of 3-D video streams from multiple cameras | |
JP4373840B2 (ja) | 動物体追跡方法、動物体追跡プログラムおよびその記録媒体、ならびに、動物体追跡装置 | |
JP6474126B2 (ja) | オブジェクト追跡方法、装置およびプログラム | |
WO2016033279A1 (en) | Method and system of temporal segmentation for gesture analysis | |
Sun et al. | Moving foreground object detection via robust SIFT trajectories | |
JP6932402B2 (ja) | スマートホームシーン向けのマルチジェスチャー精分割方法 | |
US20100079453A1 (en) | 3D Depth Generation by Vanishing Line Detection | |
JP2011130203A (ja) | 映像情報処理方法及びその装置 | |
KR101737430B1 (ko) | 동적 배경을 가진 영상의 대상 객체 검출 방법 | |
Xiao et al. | Vehicle and person tracking in aerial videos | |
CN110020618A (zh) | 一种可用于多拍摄角度的人群异常行为监测方法 | |
JP4821355B2 (ja) | 人物追跡装置、人物追跡方法および人物追跡プログラム | |
US9947106B2 (en) | Method and electronic device for object tracking in a light-field capture | |
Kumar et al. | Multiple cameras using real time object tracking for surveillance and security system | |
Ling et al. | Colour-based object tracking in surveillance application | |
Almomani et al. | Segtrack: A novel tracking system with improved object segmentation | |
Sugandi et al. | Real time tracking and identification of moving persons by using a camera in outdoor environment | |
phadke | Robust multiple target tracking under occlusion using Fragmented Mean Shift and Kalman Filter | |
Hammer et al. | Motion segmentation and appearance change detection based 2D hand tracking | |
AlGhamdi et al. | Automatic motion tracking of a human in a surveillance video | |
JP5047115B2 (ja) | 移動物体追跡装置 | |
Ma et al. | Depth assisted occlusion handling in video object tracking |