JP7250281B2 - 三次元構造復元装置、三次元構造復元方法、およびプログラム - Google Patents
三次元構造復元装置、三次元構造復元方法、およびプログラム Download PDFInfo
- Publication number
- JP7250281B2 JP7250281B2 JP2019224768A JP2019224768A JP7250281B2 JP 7250281 B2 JP7250281 B2 JP 7250281B2 JP 2019224768 A JP2019224768 A JP 2019224768A JP 2019224768 A JP2019224768 A JP 2019224768A JP 7250281 B2 JP7250281 B2 JP 7250281B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- dynamic object
- sound source
- information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 90
- 230000004807 localization Effects 0.000 claims description 157
- 238000012545 processing Methods 0.000 claims description 113
- 230000003068 static effect Effects 0.000 claims description 91
- 238000003384 imaging method Methods 0.000 claims description 47
- 230000010354 integration Effects 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 36
- 230000033001 locomotion Effects 0.000 claims description 32
- 238000001514 detection method Methods 0.000 claims description 29
- 238000001228 spectrum Methods 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims description 18
- 238000000926 separation method Methods 0.000 claims description 17
- 230000005236 sound signal Effects 0.000 claims description 11
- 238000009966 trimming Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 62
- 238000010586 diagram Methods 0.000 description 44
- 230000036544 posture Effects 0.000 description 35
- 230000008569 process Effects 0.000 description 21
- 238000005259 measurement Methods 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000009466 transformation Effects 0.000 description 8
- 239000000463 material Substances 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 239000002245 particle Substances 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 241000283086 Equidae Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Length Measuring Devices By Optical Means (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Image Analysis (AREA)
Description
上述した(6)によれば、SfMではうまく再構成ができない動的環境下において、音響信号を手がかりに三次元再構成を行うことができるので、単一カメラで物体の動的シーンの三次元再構成を行うことができる。
また、上述した(2)、(3)、(8)および(11)によれば、単一カメラで物体の静的領域の三次元構成の復元と、動的物体の位置や大きさの推定によって物体の動的シーンの三次元再構成を行うことができる。
また、上述した(4)、(5)、(9)および(12)によれば、単一カメラで物体の静的領域と動的物体の三次元再構成を行うことができる。
まず、本実施形態の概要を説明する。
本実施形態では、マイクロホンアレイによって収音した音響信号に対して音源定位を実行して、動いているオブジェクトの位置を推定し、カメラで撮影した画像に対してSfM処理とMVS処理を行って三次元構造復元を行い、この三次元構造復元結果と動的物体の推定位置を統合して提供する。
参考文献3;布施孝志、“解説:Structure from Motion(SfM) 第二回 SfMと多視点ステレオ”、東京大学、写真測量とリモートセンシング 55巻4号、p259-262、2016
次に、カメラ座標とワールド座標について説明する。
図2は、カメラ座標とワールド座標を説明するための図である。図2において、XYZ座標系がワールド座標系であり、xyz座標系がカメラ座標系とマイクロホンアレイ座標である。XCi(=(xCi,yCi,zCi)T(Tは倒置を表す))は撮影部11の中心座標であり、XMi(=(xMi,yMi,zMi)T)はマイクロホンアレイの中心座標である。なお、カメラ座標におうて、撮影部11の光軸方向をz軸方向とする。また、収音部14の0度方向をz軸方向とする。
次に、SfM部12が行う処理について説明する。
図3は、本実施形態に係るSfM部12が行う処理を説明するための図である。
図3において、符号Tは、ワールド座標系からカメラ座標系への並進ベクトルである。また、符号vは、カメラの方向ベクトルである。符号θを軸とした回転角度である。
本実施形態では、クォータニオンQ(∈R4(Rは正の実数全体の集合))と並進ベクトルT(∈R3(Rは正の実数全体の集合))を用いて、ワールド座標系に対するカメラ座標系への投影として、カメラ姿勢を定義する。
なお、SfM部12は、特徴点マッチングや三角測量の際に、RANSAC(例えば参考文献4参照)を用いてOutlierの除去を行う。このため、SfM部12においては、動いている物体は復元されず、制止している物体のみが復元される。なお、Outlierは、外れ値である。
次に、MVS部13が行う処理について説明する。
図5は、本実施形態に係るMVS部13が行う処理を説明するための図である。
図5において、符号g11は、画像内の全てのピクセルの深度の深度マップの例を示す図である。また、符号g12は、マイクロホンアレイに対する法線マップである。
そして、MVS部13は、三次元上で、複数の画像の深度マップと法線マップを統合することで、密な三次元構造の復元を行う。
なお、MVS部13においても、SfM部12と同様に、動いている物体は復元されず、制止している物体のみが復元される。
符号g13は、SfM部12が復元した疎な三次元構造復元の画像例である。符号g14は、MVS部13が復元した密な三次元構造復元の画像例である。
次に、音源定位部15が行う処理について説明する。
音源定位部15は、MUSIC手法によって、マイクロホンがM個であり観測される音源がN個の場合、入力信号の相関を固有値分解することにより、固有λm(m=1,…,M)と固有ベクトルemを計算して、各音源を(em,λm)で表す。
そして、音源定位部15は、固有値の大小によって固有ベクトルを音源部分空間Es=[e1,…,eN]と、雑音部分空間En=[eN+1,…,eM]に分類する。
次に、音源三次元位置推定部16が行う三角測量を用いた音源位置推定について、図7を用いて、さらに図2を参照しつつ説明する。
図7は、音源三次元位置推定部16が行う三角測量を用いた音源位置推定を説明するための図である。
図7において、収音部14の平面がxz平面であり、xz平面に垂直な方向がy軸方向である。なお、xyz平面の原点が収音部14の中心座標XMiである。また、z軸方向は、収音部14の0度方向であり、かつカメラの光軸方向と平行な方向である。また、符号niは、収音部14の平面に対する法線ベクトルである。また、定位方向θiは、収音部14の0度方向に対する角度である。また、定位方向ベクトルθiは、原点から音源方向へのベクトルである。また、符号Niは、法線ベクトルniと定位方向ベクトルθiとの外積である。音源が存在する平面は、外積Niを法線とする平面である。
ワールド座標系に対するマイクロホンアレイの中心座標XMi=(xMi,yMi,zMi)は、撮影部11の中心座標XCiを用いて、次式(4)のように計算することができる。
音源三次元位置推定部16は、音響信号を収録した各位置XMiにおける音源定位結果θiに対して三角測量を行うことにより、音源の三次元位置を推定する。
音源三次元位置推定部16は、各位置においてこの平面を計算し、任意の二つの平面を抽出し、二つの平面の交線を求める。
音源三次元位置推定部16は、得られた交線から任意の二本の交線を抽出し、二本の交線の交点を求める。この際、三次元空間において二本の直線が交わるとは限らないため、音源三次元位置推定部16は、二本の直線に対する距離の和が最小となる点を交点とする。
次に、音源三次元位置推定部16は、が行う外れ値の除去および音源存在範囲の推定について説明する。
音源三次元位置推定部16が求めた交点の集合XPには、ノイズ等の影響により多くの外れ値が存在する可能性がある。本実施形態では、この外れ値を除去するため、三次元空間を適切な大きさの立方体Vk(k=1,…,NV)によって離散化し、各立方体の中に存在する交点数NPVk(k=1,…,NV)を求める。
よって、XPVk(⊂R3)を立方体Vkの中に存在する交点の集合とすると、上記よりXPVkは、次式(6)のように再定義される。
次に、三次元構造復元装置1が行う処理手順の流れ全体を説明する。
図8は、本実施形態に係る三次元構造復元装置1が行う処理手順のフローチャートである。
次に、本実施形態の三次元構造復元装置1を用いて実験を行った結果例を説明する。
図9は、実験条件を説明するための図である。
実験は、i.扇風機200を静止させた状態、ii.扇風機200の首を振って動作をさせた状態の二つで実験を行った。画像による三次元構造復元は、実験iとiiに対して行った。音源の三次元位置推定は、実験iiのみ行った。なお、実施形態において、扇風機200の首は、ファン等を含む動作部分(図9の符号201)であり、その他の部分を静止部分(符号202)という。
図9の符号210ように、扇風機を1周するように計17箇所(例えば22.5度間隔)で、扇風機200の全体像が映るように画像の撮影を行った。同時に実験iiでは、8チャネルのマイクロホンアレイ(収音部14)により音響信号を収録した。音響信号は、1回の収録につき、扇風機の首の動作部分201が往復する時間である約10秒間収録をした。このマイクロホンアレイでは、すべてのマイクロホンが同一平面上に円状に分布している。このため、このマイクロホンアレイでは、方位角のみが計測可能であり、すべての計測位置において同一姿勢で計測を行った場合、三次元の計測をすることができない。従って実験では、奇数番目の計測位置で、マイクロホンアレイの法線方向を床に垂直な方向に合わせて計測を行い、偶数番目の計測位置では、マイクロホンアレイの法線方向を床に水平な方向に合わせて計測行うことにより、三次元の計測を行った。
符号g21のように、実験iによる三次元構造復元では、扇風機200が静止しているため、扇風機200全体が復元されている。
符号g22のように、実験iiによる三次元構造復元では、扇風機200のファン等の動作部分201が首を振って動作しているため、静止部分202に対応する三次元構造が復元されているが、動作部分201に対応する三次元構造が復元されていない。
図11は、実験iiにおいて各位置で推定した音源が存在する平面を示す図である。符号g31は、扇風機200を横から見た際の実験iiにおいて各位置で推定した音源が存在する平面を示す図である。符号g32は、扇風機200を上から見た際の実験iiにおいて各位置で推定した音源が存在する平面を示す図である。
実験条件で説明したように17箇所で収音しているため、計17の平面が表示されている。
図12は、2つの平面の交線の集合から任意の2本を取り出し、その交点を可視化した図である。符号g41は、扇風機200を横から見た際の交点を可視化した図である。符号g42は、扇風機200を上から見た際の交点を可視化した図である。
この点の密度が高い位置ほど、音源が存在する確率が高い。実際に、図12のように、扇風機200のファン周りの符号g43、g44の点の密度が高い。
なお、実験では、マイクロホンアレイの法線ベクトルが床に垂直であるように計測した位置が、全ての計測位置の半分を占めているため、床に垂直な方向の交点の密度が高くなっている。
まず、本実施形態の概要を説明する。
本実施形態では、カメラで撮影した画像に対してSfM処理とMVS処理を行って静的物体の三次元構造復元を行い、さらに物体検出を行う。本実施形態では、マイクロホンアレイによって収音した音響信号に対して音源定位を実行して動いているオブジェクトの位置と大きさを推定する。本実施形態では、音響信号の情報に基づいて、撮影された各画像内の動的物体を検出し、検出した動的物体をSfM処理で抽出された画像から再構築する。そして、本実施形態では、静的物体の三次元構造復元画像と動的物体の三次元構造復元とを統合することで、動いている物体の三次元構造復元も行う。
SfM部12、MVS部13の処理内容と処理手順は、第1実施形態と同様である。
なお、動的物体大きさ推定部27は、音の大きさを、図12の点が、音源が存在する部分として表したり、音源の大きさをこの分布に内接する楕円体(図16)として表したり、ボクセル(図15)として表す。例えば、対象物体が扇風機の例では、羽が音源であるので、その部分を抽出すれば、首振り部の大きさとほぼ一致する。このため、図12のように物体の大きさを検出できる。動的物体大きさ推定部27は、推定した動的物体の大きさを示す情報である動的物体大きさ情報を動的物体復元部28に出力する。なお、再構成された動的物体の大きさは、再構成された静的物体の大きさとは異なるため、再構成された動的物体の大きさを調整する必要がある。このため、本実施形態では、音源定位の際に求めるMUSICスペクトルに対して、所定の閾値以上のところに音があることを仮定する。そして、本実施形態では、スペクトルの値がその閾値以上の範囲に物体=音源があるとすることで、物体のスケールをきめ、それに合わせて物体のスケールを拡大縮小して調整を行う。
次に、三次元構造復元装置1Aが行う処理手順の流れ全体を説明する。
図18は、本実施形態に係る三次元構造復元装置1Aが行う処理手順のフローチャートである。
次に、本実施形態の三次元構造復元装置1Aを用いて実験を行った結果例を説明する。
まず、実験条件を説明する。実験iiiは、車両が円形のレール上を時計回りに走る電池式のおもちゃの列車で行った。実験iiiで用いた撮影部11と収音部14は、第1実施形態の実験iiと同じである。また、静的物体として、キーボードも画面内に配置した。撮影部11は、円形レールの周りで動画として撮影し、撮影した画像の内、キーフレーム画像のみを使用した。収音部14(マイクアレイ)は、円形レールの中央に固定して配置した。実験iiiでは、音響信号の記録を約17秒間とした。この17秒間は、列車が円形レールを約5回周回する時間である。
また、音源が円形レール上にあると仮定すると、音源の三次元位置は、円形レール平面と音源定位によって推定された音源の平面との交点によって推定することができる。このため、実験iiiでは、動的物体の検出に、JianweiらによるPyTorchで実装された、微調整されたFaster R-CNNを使用した(参考文献7参照)。
なお、実験iiiでは、再構成された動的物体が、おもちゃの列車の前部が床に対して水平であり、音の方向が進行し、おもちゃの列車の垂直方向が床の垂直方向と平行になるように姿勢を指定した。
まず、本実施形態の概要を説明する。
本実施形態では、画像情報を用いて静的物体の三次元復元を行い、音響情報を用いて時間的に変動する動的物体の復元を行う。そして本実施形態では、これらの結果を統合することにより三次元構造復元の性能改善を図る。
パーティクルフィルタは、モデルに次式(8)、次式(9)で表される1次階差モデルを、プロセスノイズvkと観測ノイズwkにはガウスノイズを用いた。
次に、三次元構造復元装置1が行う処理手順の流れ全体を説明する。
図23は、本実施形態に係る三次元構造復元装置1Bが行う処理手順のフローチャートである。
次に、本実施形態の三次元構造復元装置1Bを用いて実験を行った結果例を説明する。
実験ivは、実験iiiと同様に、円形レール上を時計回りに動くおもちゃの列車を用いて行った。
SfM部12は、円形レールを一周するように動画を撮影し、キーフレームのみを抽出した画像を用いた。画像の画素数は、5472×3648である。音響信号の収録には、8個のマイクロホンが同一平面上に円状に配置されているマイクロホンアレイを床に1個固定し行った。計測時間は、おもちゃの列車がレールをおよそ5周する約17秒とした。
動的物体トラッキング部32は、動的物体の運動過程を、この交点をパーティクルフィルタにより追跡し推定をした。
また、符号g151はマイクロホンアレイの0度方向であり、符号g152はマイクロホンアレイの法線方向であり、符号g153は音源方向である。符号g154~g156は、推定された音源位置を表している。符号g155は、MUSICスペクトルのパワーが最も大きな位置である。なお、図25において、g154~g155~g156の間の線の長さが物体の大きさにあたる。
これにより、本実施形態によれば、動的物体の三次元位置および大きさ、運動軌跡を推定することができる。そして、本実施形態によれば、単一カメラで物体の動的シーンの三次元再構成を行うことができる。
まず、本実施形態の概要を説明する。
本実施形態では、音と画像の空間的な関係を利用し、画像ごとに各動的物体のバイナリマスクを作成する。本実施形態では、音源追跡により、画像間の各動的物体をトラッキングし、全画像の動的物体それぞれに対応するバイナリマスクを得る。次に、本実施形態では、このバイナリマスクを用いて、静的物体と動的物体ごとにSfMとMVSを適用し、それぞれの物体ごとに三次元構造を復元する。そして、本実施形態では、静的物体と動的物体を統合し、全体シーンを復元する。さらに本実施形態では、音源定位により得られた音源の空間情報を用いて音源分離を行うことにより、各動的物体に対応する音およびその視覚的な三次元構造を得る。
マスク生成部40は、画像認識部401、音源定位部402、音源トラッキング部403、空間対応部404、動的物体抽出部405、および動的物体マスク生成部406を備える。
三次元構造復元部60は、静的物体SfM・MVS部601、動的物体SfM・MVS部602、変換部603、および音源三次元位置推定部604を備える。
なお、第1実施形態の三次元構造復元装置1と同様の機能を備える機能部に対しては、同じ符号を用いて説明を省略する。
次に、三次元構造復元装置1が行う処理手順の流れ全体を説明する。
図29は、本実施形態に係る三次元構造復元装置1Cが行う処理手順のフローチャートである。
次に、本実施形態の三次元構造復元装置1Cを用いて実験を行った結果例を説明する。なお、以下は、Mar-tinらによって作成されたCo-Fusionデータセットを用いて評価を行った。
図31に、Mask-RCNN(符号g601~g604)と、Sound BBox(バウンディングボックス)(符号g611~g614)により動的物体のバイナリマスク(符号g621~g624)を生成した結果を示す。図31は、動的オブジェクトのバイナリマスクを作成するための定性的結果を示す図である。
図32は、静的物体の復元結果を示す図である。符号g651は比較例の動的物体のバイナリマスクなしであり、符号g652は本実施形態により推定したバイナリマスクあり、符号g653は比較例のGround Truthのバイナリマスクありで、それぞれSfMとMVSにより復元した結果である。符号g651は、動的物体が存在している領域に歪みが生じて復元されている。動的物体のマスクを使用しないため、画像間のマッチングで動的物体の特徴点除去に失敗し、カメラ姿勢推定誤差が大きくなっている。本実施形態の手法では、符号g652の結果から符号g651で見られる歪みをある程度抑えられていることが確認できる。さらに、動的物体を完全に手動でマスクした符号g653の復元結果に近い結果が得られている。このように、本実施形態に依れば、動的物体の特徴点をある程度除去することができているため、画像間マッチングの除去処理が行えている。
図33は、各動的物体の復元結果を示す図である。符号g661~g663は本実施形態の手法、符号g671~g673は比較例のGround Truthのバイナリマスクを用いて復元した結果である。また、符号g661とg671がShipであり、符号g662とg672がHorseであり、符号g663とg673がCarである。
11…撮影部、
12…SfM部、
13…MVS部、
14…収音部、
15,15A,15B…音源定位部、
16…音源三次元位置推定部、
17,17A,17B,17C…統合部、
18…出力部、
19…記憶部、
20…物体検出部、
21…音識別部、
22…画像音源定位部、
24…存在領域推定部、
25,31…動的物体三次元位置推定部、
26…SfM・MVS部、
27…動的物体大きさ推定部、
28…動的物体復元部、
32…動的物体トラッキング部、
40…マスク生成部、
50…音源分離部、
60…三次元構造復元部、
401…画像認識部、
402…音源定位部、
403…音源トラッキング部、
404…空間対応部、
405…動的物体抽出部、
406…動的物体マスク生成部、
601…静的物体SfM・MVS部、
602…動的物体SfM・MVS部、
603…変換部、
604…音源三次元位置推定部
Claims (9)
- 動的物体を含む対象シーンを撮影する撮影部と、
前記動的物体が発する音響信号をマイクロホンアレイで収音する収音部と、
前記収音部が収音した前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定する音源定位部と、
前記撮影された画像に対してSfM(Structure from Motion)処理とMVS(Multi View Stereo)処理を行うことで静的領域の三次元構造を復元する静的領域復元部と、
前記音源定位部が音源定位した結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定する三次元位置推定部と、
前記静的領域復元部が復元した前記動的物体の三次元位置の情報と、前記三次元位置推定部が推定した前記動的物体の三次元位置に基づく情報とを統合する統合部と、
を備え、
前記三次元位置推定部は、
前記動的物体を収音した各位置で、前記マイクロホンアレイに対する法線ベクトルn i と、前記マイクロホンアレイの中心X Mi を通る定位方向のベクトルθ i との外積N i を法線とする平面を計算し、任意の2つの前記平面を抽出し、前記2つの平面の交線を求め、求めた前記交線から任意の2本の前記交線を抽出し、抽出した前記2本の交線の交点を求め、求めた前記交点の密度が高い位置を前記動的物体の三次元位置として推定する、
三次元構造復元装置。 - 前記三次元位置推定部は、
求めた前記交点の集合XPに対して、三次元空間を適切な大きさの立方体Vk(k=1,…,NV)によって離散化し、前記立方体それぞれの中に存在する交点数NPVkを求め、NPVを前記NPVkの集合とし、その平均をλPVとし、分散をσ2 PVとし、前記交点数NPVkがしきい値Nthよりも小さければ、前記立方体Vkの中に存在する交点を外れ値として除去し、
前記外れ値の除去を行った交点の集合XP filterdに対して主成分分析を行って第1-3主成分を軸とする確率楕円体を作成し、前記確率楕円体を前記動的物体の存在分布とみなす、
請求項1に記載の三次元構造復元装置。 - 動的物体を含む対象シーンを撮影する撮影部と、
前記動的物体が発する音響信号をマイクロホンアレイで収音する収音部と、
前記収音部が収音した前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定する音源定位部と、
前記撮影された画像に対してSfM(Structure from Motion)処理とMVS(Multi View Stereo)処理を行うことで静的領域の三次元構造を復元する静的領域復元部と、
前記音源定位部が音源定位した結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定する三次元位置推定部と、
前記静的領域復元部が復元した前記動的物体の三次元位置の情報と、前記三次元位置推定部が推定した前記動的物体の三次元位置に基づく情報とを統合する統合部と、
前記撮影部が撮影した前記画像に含まれる物体の画像を検出する物体検出部と、
前記収音部が収音した前記音響信号に含まれる音源を識別する音識別部と、
前記物体検出部が検出したバウンディングボックス(bounding boxes)のうち、前記音識別部によって識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出する画像音源定位部と、
前記音源定位部が音源定位の際に算出したMUSIC(Multiple Signal Classification)スペクトルと動的物体大きさ推定用しきい値とを比較し、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定する動的物体大きさ推定部と、
前記静的領域復元部が復元した前記動的物体の三次元位置の情報を用いて、前記収音部の姿勢と前記動的物体が存在する領域を推定する存在領域推定部と、
前記画像音源定位部が抽出した前記動的物体と推定される画像の領域の情報に対して、
SfM処理とMVS処理を行うことで、前記動的物体に対する三次元復元処理を行って前
記動的物体に対する三次元復元情報を生成するSfM・MVS部と、
動的物体復元部と、
を備え、
前記三次元位置推定部は、前記音源定位部が推定した前記音源方向と前記動的物体が存
在領域を示す情報に基づいて、前記動的物体の三次元位置を推定し、
前記動的物体復元部は、前記動的物体に対する三次元復元と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、
前記統合部は、前記動的物体に対する三次元復元情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成する、
三次元構造復元装置。 - 前記静的領域復元部は、
前記撮影部が撮影した1つの画像のペアから開始し、新たな画像を1つずつ追加しながら前記画像の特徴点の抽出とマッチングを行い、投影幾何によりシーングラフ(画像間の対応関係)を求め、
前記シーングラフを用いて、初期の前記画像のペアに対して2つの前記画像を用いて三次元モデルを初期化し、3つ目以上の画像に対して復元済み三次元点と新しく登録する画像の対応する特徴点を用いて、Perspective-n-Point(PnP)問題を解くことにより、カメラ姿勢を推定し、
三角測量によって、新しい特徴点の三次元復元を行い、
バンドル調整によって誤差の最小化を行うことで三次元構造の復元を行う、
請求項1から請求項3のいずれか1項に記載の三次元構造復元装置。 - 動的物体を含む対象シーンを撮影する撮影部と、
前記動的物体が発する音響信号をマイクロホンアレイで収音する収音部と、
前記収音部によって収音された音響信号を音源追跡する音源追跡部と、
前記収音部が集音した音響信号と、前記撮影部が撮影した画像の空間的な関係に基づいて、画像毎に前記動的物体のバイナリマスクを生成し、前記画像間の各動的物体を追跡し、全画像の前記動的物体それぞれに対応するバイナリマスクを得るマスク生成部と、
前記バイナリマスクを用いて、静的物体と前記動的物体ごとにSfM(Structure from Motion)とMVS(Multi View Stereo)を適用し、それぞれの物体ごとに三次元構造を復元する三次元構造復元部と、
前記収音部によって収音された音響信号に対して、音源定位された情報に基づいて音源分離処理を行う音源分離部と、
前記静的物体と前記動的物体を統合し、全体シーンを復元し、各動的物体に対応する音源分離された音と当該各動的物体の視覚的な三次元構造を生成する統合部と、
を備える三次元構造復元装置。 - 撮影部が、動的物体を含む対象シーンを撮影し、
収音部が、前記動的物体が発する音響信号をマイクロホンアレイで収音し、
音源定位部が、前記収音部によって収音された前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定し、
静的領域復元部が、前記撮影部によって前記撮影された画像に対してSfM(Structure from Motion)処理とMVS(Multi View Stereo)処理を行うことで静的領域の三次元構造を復元し、
三次元位置推定部が、前記音源定位部によって音源定位された結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定し、
統合部が、前記静的領域復元部によって復元された前記動的物体の三次元位置の情報と、前記三次元位置推定部によって推定された前記動的物体の三次元位置に基づく情報とを統合し、
前記三次元位置推定部が、前記動的物体が収音された各位置で、前記マイクロホンアレイに対する法線ベクトルn i と、前記マイクロホンアレイの中心X Mi を通る定位方向のベクトルθ i との外積Niを法線とする平面を計算し、任意の2つの前記平面を抽出し、
前記三次元位置推定部が、前記2つの平面の交線を求め、求めた前記交線から任意の2本の前記交線を抽出し、
前記三次元位置推定部が、抽出された前記2本の交線の交点を求め、求めた前記交点の密度が高い位置を前記動的物体の三次元位置として推定する、
三次元構造復元方法。 - 撮影部が、動的物体を含む対象シーンを撮影し、
収音部が、前記動的物体が発する音響信号をマイクロホンアレイで収音し、
音源定位部が、前記収音部によって収音された前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定し、
静的領域復元部が、前記撮影部によって前記撮影された画像に対してSfM(Structure from Motion)処理とMVS(Multi View Stereo)処理を行うことで静的領域の三次元構造を復元し、
三次元位置推定部が、前記音源定位部によって音源定位された結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定し、
統合部が、前記静的領域復元部によって復元された前記動的物体の三次元位置の情報と、前記三次元位置推定部によって推定された前記動的物体の三次元位置に基づく情報とを統合し、
物体検出部が、前記撮影部によって撮影された前記画像に含まれる物体の画像を検出し、
音識別部が、前記収音部によって収音された前記音響信号に含まれる音源を識別し、
画像音源定位部が、前記物体検出部によって検出されたバウンディングボックス(bounding boxes)のうち、前記音識別部によって識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出し、
動的物体大きさ推定部が、前記音源定位部によって音源定位の際に算出されたMUSIC(Multiple Signal Classification)スペクトルと動的物体大きさ推定用しきい値とを比較し、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定し、
存在領域推定部が、前記静的領域復元部によって復元した前記動的物体の三次元位置の情報を用いて、前記マイクロホンアレイの姿勢と前記動的物体が存在する領域を推定し、
SfM・MVS部が、前記画像音源定位部によって抽出された前記動的物体と推定される画像の領域の情報に対して、SfM処理とMVS処理を行うことで、前記動的物体に対する三次元復元処理を行って前記動的物体に対する三次元復元情報を生成し、
前記三次元位置推定部が、前記音源定位部によって推定された前記音源方向と前記動的物体が存在領域を示す情報に基づいて、前記動的物体の三次元位置を推定し、
動的物体復元部が、前記動的物体に対する三次元復元情報と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、
前記統合部が、復元された前記静的領域の三次元構造の情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成する、
三次元構造復元方法。 - コンピュータに、
動的物体を含む対象シーンを撮影させ、
前記動的物体が発する音響信号をマイクロホンアレイで収音させ、
前記収音された前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定させ、
前記撮影された画像に対してSfM(Structure from Motion)処理とMVS(Multi View Stereo)処理を行うことで静的領域の三次元構造を復元させ、
前記音源定位された結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定させ、
前記復元された前記動的物体の三次元位置の情報と、推定された前記動的物体の三次元位置に基づく情報とを統合させ、
前記動的物体が収音された各位置で、前記マイクロホンアレイに対する法線ベクトルn i と、前記マイクロホンアレイの中心X Mi を通る定位方向のベクトルθ i との外積N i を法線とする平面を計算させ、任意の2つの前記平面を抽出させ、
前記2つの平面の交線を求めさせ、求めた前記交線から任意の2本の前記交線を抽出させ、
抽出された前記2本の交線の交点を求めさせ、求めた前記交点の密度が高い位置を前記動的物体の三次元位置として推定させる、
プログラム。 - コンピュータに、
前記撮影された前記画像に含まれる物体の画像を検出させ、
前記収音された前記音響信号に含まれる音源を識別させ、
前記検出されたバウンディングボックス(bounding boxes)のうち、前記識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出させ、
前記音源定位の際に算出されたMUSIC(Multiple Signal Classification)スペクトルと動的物体大きさ推定用しきい値とを比較させ、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定させ、
前記復元された前記動的物体の三次元位置の情報を用いて、前記マイクロホンアレイの姿勢と前記動的物体が存在する領域を推定させ、
前記抽出された前記動的物体と推定される画像の領域の情報に対して、SfM処理とMVS処理を行わせることで、前記動的物体に対する三次元復元処理を行わせて前記動的物体に対する三次元復元情報を生成させ、
前記推定された前記音源方向と前記動的物体が存在領域を示す情報に基づいて、前記動的物体の三次元位置を推定させ、
前記動的物体に対する三次元復元情報と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成させ、
復元された前記静的領域の三次元構造の情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成させる、
請求項8に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019224768A JP7250281B2 (ja) | 2019-12-12 | 2019-12-12 | 三次元構造復元装置、三次元構造復元方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019224768A JP7250281B2 (ja) | 2019-12-12 | 2019-12-12 | 三次元構造復元装置、三次元構造復元方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021093085A JP2021093085A (ja) | 2021-06-17 |
JP7250281B2 true JP7250281B2 (ja) | 2023-04-03 |
Family
ID=76312490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019224768A Active JP7250281B2 (ja) | 2019-12-12 | 2019-12-12 | 三次元構造復元装置、三次元構造復元方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7250281B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2023002978A1 (ja) * | 2021-07-20 | 2023-01-26 | ||
CN113781650B (zh) * | 2021-09-10 | 2023-06-20 | 南京邮电大学 | 一种基于数据融合的动态物体可视化三维重建方法及系统 |
CN114325584B (zh) * | 2022-03-14 | 2022-06-24 | 杭州兆华电子股份有限公司 | 基于合成孔径的多阵元超声波声源三维成像方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011193176A (ja) | 2010-03-12 | 2011-09-29 | Semiconductor Technology Academic Research Center | マイクアレイ・ネットワークシステムおよび該システムを用いた音源定位方法 |
JP2013210347A (ja) | 2012-03-30 | 2013-10-10 | Nec Corp | 漏洩検知方法、漏水検知方法、漏洩検知装置および漏水検知装置 |
JP2015514239A (ja) | 2012-04-13 | 2015-05-18 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | マルチモーダル整合方式を使用するオブジェクト認識 |
US9053562B1 (en) | 2010-06-24 | 2015-06-09 | Gregory S. Rabin | Two dimensional to three dimensional moving image converter |
JP2016191661A (ja) | 2015-03-31 | 2016-11-10 | 株式会社熊谷組 | 構造物の点検装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6221158B2 (ja) * | 2014-08-27 | 2017-11-01 | 本田技研工業株式会社 | 自律行動ロボット、及び自律行動ロボットの制御方法 |
-
2019
- 2019-12-12 JP JP2019224768A patent/JP7250281B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011193176A (ja) | 2010-03-12 | 2011-09-29 | Semiconductor Technology Academic Research Center | マイクアレイ・ネットワークシステムおよび該システムを用いた音源定位方法 |
US9053562B1 (en) | 2010-06-24 | 2015-06-09 | Gregory S. Rabin | Two dimensional to three dimensional moving image converter |
JP2013210347A (ja) | 2012-03-30 | 2013-10-10 | Nec Corp | 漏洩検知方法、漏水検知方法、漏洩検知装置および漏水検知装置 |
JP2015514239A (ja) | 2012-04-13 | 2015-05-18 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | マルチモーダル整合方式を使用するオブジェクト認識 |
JP2016191661A (ja) | 2015-03-31 | 2016-11-10 | 株式会社熊谷組 | 構造物の点検装置 |
Non-Patent Citations (1)
Title |
---|
関晃仁,"移動カメラ画像からの3次元形状復元・自己位置推定(SLAM)と高密度な3次元形状復元",電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2014年01月16日,第113巻, 第403号,p.237-244 |
Also Published As
Publication number | Publication date |
---|---|
JP2021093085A (ja) | 2021-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6768156B2 (ja) | 仮想的に拡張された視覚的同時位置特定及びマッピングのシステム及び方法 | |
Bodor et al. | View-independent human motion classification using image-based reconstruction | |
US11210804B2 (en) | Methods, devices and computer program products for global bundle adjustment of 3D images | |
JP7250281B2 (ja) | 三次元構造復元装置、三次元構造復元方法、およびプログラム | |
JP5555207B2 (ja) | 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム | |
US10094911B2 (en) | Method for tracking a target acoustic source | |
GB2567245A (en) | Methods and apparatuses for depth rectification processing | |
CN111598995A (zh) | 一种基于原型分析的自监督多目三维人体姿态估计方法 | |
CN113610969A (zh) | 一种三维人体模型生成方法、装置、电子设备及存储介质 | |
CN117974786A (zh) | 一种基于多视觉动态环境重建和测量方法及系统 | |
Zakharov et al. | An algorithm for 3D-object reconstruction from video using stereo correspondences | |
CN112378409B (zh) | 动态环境下基于几何与运动约束的机器人rgb-d slam方法 | |
Konno et al. | Audio-visual 3D reconstruction framework for dynamic scenes | |
Amamra et al. | Crime scene reconstruction with RGB-D sensors | |
Kushal et al. | Audio-visual speaker localization using graphical models | |
CN113689541B (zh) | 一种交互场景下两人三维人体形状优化重建方法 | |
CN110730378A (zh) | 一种信息处理方法及系统 | |
Liu et al. | Cascaded particle filter for real-time tracking using RGB-D sensor | |
KR102494479B1 (ko) | 드론을 이용한 측위 공간정보 데이터를 활용한 증강현실 오클루젼 생성시스템 | |
Mentasti et al. | Symmetric Object Pose Estimation via Flexible Modular CNN | |
Singh et al. | Visual Object Tracking by Fusion of Audio Imaging in Template Matching Framework | |
US20240037846A1 (en) | Method for reconstructing a 3d model of a scene | |
Li et al. | View Loss Evaluation and Keyframe Reselection for Active Aerial Visual Reconstruction | |
Qian et al. | Moving targets detection using sequential importance sampling | |
Hiruta et al. | One Shot 3D Reconstruction by Observing Multiple Spherical Mirrors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200114 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20200220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200427 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221223 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230313 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7250281 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |