[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6491517B2 - 画像認識ar装置並びにその姿勢推定装置及び姿勢追跡装置 - Google Patents

画像認識ar装置並びにその姿勢推定装置及び姿勢追跡装置 Download PDF

Info

Publication number
JP6491517B2
JP6491517B2 JP2015072514A JP2015072514A JP6491517B2 JP 6491517 B2 JP6491517 B2 JP 6491517B2 JP 2015072514 A JP2015072514 A JP 2015072514A JP 2015072514 A JP2015072514 A JP 2015072514A JP 6491517 B2 JP6491517 B2 JP 6491517B2
Authority
JP
Japan
Prior art keywords
posture
feature point
matching
template image
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015072514A
Other languages
English (en)
Other versions
JP2016192132A (ja
Inventor
小林 達也
達也 小林
加藤 晴久
晴久 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2015072514A priority Critical patent/JP6491517B2/ja
Publication of JP2016192132A publication Critical patent/JP2016192132A/ja
Application granted granted Critical
Publication of JP6491517B2 publication Critical patent/JP6491517B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像認識AR装置並びにその姿勢推定装置および姿勢追跡装置に係り、特に、追跡対象ごとに設定した複数の追跡用の特徴点のマッチングによる追跡中にオクルージョンが発生して一部の特徴点が追跡不能に陥っても、高速かつ高精度な追跡を継続できる画像認識AR装置並びにその姿勢推定装置及び姿勢追跡装置に関する。
近年、現実空間の画像(映像)をコンピュータで処理して仮想情報を重畳する拡張現実感(AR:Augmented Reality)技術が注目を集めている。AR技術を用いることで、ユーザの行動を支援することや、ユーザに直観的な情報掲示を行うことが可能となる。
例えば、身の回りの看板や広告にAR技術を適用することで、限られたスペースでは伝えることのできない詳細な情報や動画、3Dコンテンツ等を付加することや、場所や時間、閲覧者の属性等によって掲示する情報を適切に変更することが可能となる。また、複雑な操作手順を必要とする装置のガイドにAR技術を適用することで、作業の効率化や、安全性の向上を実現することが可能となる。
AR技術の主なプラットフォームは、以前はWebカメラを接続したラップトップPCであったが、近年は撮像装置(カメラ)や各種センサ、表示ディスプレイを搭載し、十分な処理性能を備えたタブレットデバイスやスマートフォン、HMD(Head Mounted Display)に代表されるウェアラブルデバイス等、様々な高性能モバイル端末が普及しつつあり、AR技術の主要なプラットフォームを担いつつある。
これらAR技術を構成する要素技術の中では、仮想情報を正しい位置に重畳するための「位置合わせ技術」が特に重要な役割を担っている。仮想情報があたかも現実空間の重畳位置に存在するかのように見せるためには、カメラ及びディスプレイの移動に合わせて、高速かつ高精度に位置合わせ処理を実行する必要がある。
特許文献1では、GPSや電子コンパス(方位センサ)、加速度センサといった各種センサデバイスを利用し、現実空間とカメラの相対的な位置関係(位置及び方向の6自由度のパラメータで決定される。以降「姿勢」と表現と表現する。)を求め、位置合わせ(以降「姿勢推定」と表現する。)を実現する技術が開示されている。
この技術を利用したARサービスは既に広く提供されており、代表的なサービス例として、ナビゲーションサービスや、観光案内サービス等が挙げられる。センサに基づく姿勢推定は処理負荷が少ない利点がある一方、姿勢推定精度が十分でなく、異なる対象物(建物など)に仮想情報を重畳してしまうことが起こりうる。また、現実空間内に固定配置されたオブジェクトに対してのみ有効(仮想情報を重畳可能)という制約が存在する。
特許文献2,3および非特許文献1には、カメラのプレビュー画像に対する画像解析処理によって姿勢を推定する技術が開示されている。これら画像解析による姿勢推定は、正確な姿勢推定と移動物体に対するARを実現できるという点が大きな利点である。推定精度については、既存技術の時点で、仮想情報の表示位置の誤差を数ピクセル程度(ユーザには知覚できないレベル)に抑えることが可能であるため、作業ガイドの重畳表示等、正確な重畳が求められる場合に相性が良い。
特に特許文献2では、エッジや特徴点等の画像特徴を利用し、事前登録された三次元オブジェクトの姿勢をリアルタイム推定するための技術が開示されている。この手法は任意形状のオブジェクトを対象物として扱うことができるものの、処理負荷が高く、現在のARの主要なプラットフォームであるモバイル端末上でのリアルタイム処理を実現することが出来ない。
一方、特許文献3や非特許文献1では、事前登録された平面/三次元オブジェクトの姿勢をモバイル端末でリアルタイム推定するための技術が開示されている。追跡中のオブジェクトの登録画像を、過去の姿勢から予測(例えば線形予測)した姿勢に基づき変換することで、追跡用のテンプレート画像を生成し、これを入力画像とマッチングする(追跡する)手法が採られている。
対象物の移動が極端に大きい場合で無ければ、テンプレート画像と入力画像はかなり類似した画像となるため、視点変化に頑健かつ高速な追跡が可能になる。さらに、テンプレート画像と入力画像の両方をダウンサンプリングすることで画像ピラミッドを構成し、ピラミッド上位の低解像度画像から順に追跡処理を行うことで、処理負荷を削減する手法が採られている。
特開2010-238096号公報 特許5291605号公報 特表2013-508844号公報
D. Wagner, G. Reitmayr, A. Mulloni, T. Drummond, and D. Schmalstieg, "Real-time detection and tracking for augmented reality on mobile phones," IEEE Trans. on Visualization and Computer Graphics, 2010.
上記の従来技術は、追跡の対象物が1体であれば処理負荷および精度の両面で優れるものの、追跡対象が複数になった際に、処理負荷が線形に増加するという課題がある。また、対象物が互いに重なり合うオクルージョンへの対策が無く、頑健性が低下する技術課題がある。
すなわち、追跡対象間のオクルージョンにより一方(下側)の追跡対象の特徴点が他方(上側)の追跡対象により遮蔽されてしまい、追跡用に使用できなくなっても、後段のマッチング機能はそれを認識できない。したがって、一方の追跡対象については、追跡できない特徴点のマッチングに要する無駄時間が発生し、また特徴点が減少することで追跡精度が低下するという技術課題があった。
本発明の目的は、上記の技術課題を解決し、追跡対象ごとに設定した多数の特徴点のマッチングによる追跡中にオクルージョンが発生し、一方の追跡対象の特徴点が他方の追跡対象により遮蔽されても、高速かつ高精度な追跡を継続できる画像認識AR装置並びにその姿勢推定装置及び姿勢追跡装置を提供することにある。
上記の目的を達成するために、本発明は、以下のような構成を具備した点に特徴がある。
(1) 本発明の姿勢追跡装置は、複数の追跡対象の3Dモデルを、初期姿勢および特徴点に基づいてフレームバッファ上にレンダリングする手段と、レンダリング結果をバス経由で読み取ってメインメモリ上にテンプレート画像を生成する手段と、テンプレート画像を対象に、オクルージョンにより遮蔽される特徴点を判定する手段と、遮蔽された特徴点をマッチング用の特徴点から除外する手段と、フレーム画像と各テンプレート画像との間で前記修正後の特徴点を用いたマッチングを実行する手段と、マッチング結果に基づいて追跡対象の姿勢を更新する手段とを具備し、レンダリング手段は、更新後の姿勢を次フレームの初期姿勢に反映するようにした。
(2) 本発明の姿勢推定装置は、追跡対象の姿勢ごとに特徴点を含む画像特徴を蓄積する画像特徴DBと、フレーム画像から特徴点を検出する手段と、蓄積された特徴点と検出された特徴点との間で特徴点マッチングを行う手段と、マッチング結果に基づいて追跡対象の初期姿勢を推定する手段と、追跡対象ごとに、その初期姿勢、3Dモデルおよび特徴点に基づいて姿勢追跡を実行する姿勢追跡装置として、上記(1)の姿勢追跡装置を用いた。
(3) 本発明の画像認識AR装置は、フレーム画像を取得する手段と、フレーム画像内で追跡対象の姿勢を推定する手段と、AR情報が蓄積されたAR情報DBと、AR情報を取得画像に重畳表示する手段とを具備し、姿勢を推定する手段として、上記(2)の姿勢推定装置を用いた。
(4) 複数の追跡対象の論理和領域を一のテンプレート画像取得ROIに設定し、テンプレート画像生成手段は、一のテンプレート画像取得ROIをバス経由で読み取ってテンプレート画像とするようにした。
本発明によれば、3Dレンダリングにより得られた追跡対象のテンプレート画像をバス経由で読み取り、フレーム画像とテンプレート画像とのマッチング結果に基づいて追跡対象の姿勢を更新、推定する装置において、以下のような効果が達成される。
(1) 対象物間のオクルージョンおよび遮蔽の状況を判定し、マッチング用の特徴点を修正するようにしたので、特徴点マッチングの頑健性を向上させることができる。
(2) 複数の対象物を同時に追跡する際の3Dレンダリング画像の転送時間を短縮することで処理時間のボトルネックを解消し、処理負荷の増大を抑制したので、低スペックのモバイル端末による大規模なAR表示を実現することができる。
本発明の一実施形態に係る画像認識AR装置1の主要部の構成を示した機能ブロック図である。 本発明の一実施形態に係る姿勢追跡装置の主要部の構成を示した機能ブロック図である。 テンプレート画像取得ROIの計算方法を示した図である。 オクルージョンの判定方法を模式的に表現した図である。 姿勢追跡の方法を示したフローチャートである。
以下、図面を参照して本発明の実施の形態について説明する。図1は、本発明の一実施形態に係る画像認識AR装置1の主要部の構成を示した機能ブロック図であり、デスクトップPC等の据え置き型のコンピュータをはじめ、ラップトップPC、タブレットデバイス、携帯電話機、スマートフォン、携帯ゲーム機、HMD、腕時計型デバイス等、あらゆる携帯型の情報端末に搭載することができる。
プレビュー取得部21は、携帯端末等に標準装備されているカメラモジュールあるいは外付けされたWEBカメラ等の撮像部から、姿勢追跡の対象物(以下、追跡対象と表現する場合もある)が写ったプレビュー画像をフレーム単位で取得する。
姿勢推定装置22は、姿勢検出部31、画像特徴データベース(DB)32および姿勢追跡装置33を含み、今回フレームのプレビュー画像を対象に、後に詳述する特徴点の追跡を実施し、追跡対象とAR装置1との相対的な位置および姿勢の関係を推定する。
AR情報データベース(DB)23は、ハードディスクドライブや半導体メモリモジュール等により構成された記憶装置であり、AR装置1が追跡対象の位置を認識した際に液晶ディスプレイ等の表示部上に重畳表示するCGや二次元画像等のAR情報を保持している。
重畳表示部24は、前記姿勢推定装置22が推定したカメラの姿勢パラメータに対応するAR情報を前記AR情報DB23から取得し、フレーム単位で連続的に提供されるプレビュー画像に重畳して表示部へ出力する。
前記姿勢推定装置22において、画像特徴DB32には、オフラインで追跡対象の3Dモデルを様々な代表的な姿勢(視点)で投影した多数の画像から視点に関わらず顕著性、識別性の高い二次元特徴点を抽出し、更に各二次元特徴点を三次元逆投影によって三次元座標に変換する処理を通じて作成/記録された多数の画像特徴A(特徴点の画像特徴量及びその三次元座標)が蓄積される。
なお、特徴点には追跡対象の姿勢によって視認可能(visible)な特徴点と、裏側に回るなどして視認不可能(invisible)な特徴点とが存在し、視認不可能な特徴点は追跡に利用できない。したがって、追跡に利用する特徴点は追跡対象の姿勢に応じて使い分けることが望ましい。
そこで、本実施形態では各代表的な姿勢で視認可能な画像特徴の集合を当該各姿勢に固有の特徴点セットとして予め多数用意し、追跡対象の姿勢に応じて特徴点セットを使い分けるようにしている。
姿勢検出部31において、画像特徴検出部31aは、プレビュー画像から追跡対象の画像特徴Bを検出する。画像特徴の検出には、Harris、Hessian、SIFT、SURF、FAST、BRIEF、ORB、BRISK、FREAK等の周知のアルゴリズムを用いることができる。
マッチング部31bは、検出された画像特徴Bと前記画像特徴DB32に蓄積されている画像特徴Aとのマッチングを行う。姿勢推定部31cは、マッチング結果に基づいて追跡対象の初期姿勢を推定する。
マッチング結果である2D-3D対応点(画像特徴Bの二次元座標と画像特徴Aの三次元座標との間の対応点)から姿勢を推定するアルゴリズムとしては、DLT(Direct Linear Transform)法やPNP(Perspective-N-Points)法等が一般に知られており、本実施形態ではPnP法によって推定された姿勢を追跡対象の初期姿勢とする例を想定する。
姿勢追跡装置33は、図2に示したように、GPU41およびフレームバッファ43を含むグラフィックボード40と、CPU51およびメインメモリ59を含む主装置50とを主要な構成とし、グラフィックボード40と主装置50とは、バス60により命令及びその応答を送受する。
CPU51のテンプレート画像生成部52は、GPU41に対して、OpenGLのインタフェース経由で、カメラに対する追跡対象の姿勢を表す姿勢行列、カメラの画角や焦点距離を表す投影行列、および描画の解像度を決めるビューポートの設定と、描画命令、描画結果の転送命令とを行う。
GPU41のレンダリング処理部42は、前記描画命令に応答して、追跡対象の3Dモデルに3Dレンダリングを実行し、フレームバッファ43にレンダリング結果(一般には、RGBAの4チャネルデータ)を展開する。
追跡対象が複数の場合、それぞれの3Dモデルおよびその姿勢行列を用いて3Dレンダリングが行われる。この際、GPU41のデプステスト機能を有効にして各画像の上下関係を識別することで、複数の追跡対象の重なりによる遮蔽(オクルージョン)を考慮したレンダリング結果をフレームバッファ43上へ展開できる。
CPU51のテンプレート画像生成部52は、フレームバッファ43のレンダリング結果を、バス60経由でメインメモリ59へ読み出すことでテンプレート画像を取得する。読み出した画像に対しては、入力画像に合わせて適宜リサイズやグレースケール化が行われる。
ここで、3Dレンダリングで利用する姿勢行列には初期姿勢を設定する。初期姿勢としては、追跡中の対象物であれば、過去の複数フレーム分の追跡結果を線形予測やカルマンフィルタに適用して反映させたものを採用できる。また、過去の追跡結果が存在しない、すなわち追跡を開始して1フレーム目であれば、姿勢検出部31の推定した姿勢を初期値としても良いし、あるいは初期値となる姿勢行列を外部から取得しても良い。
投影行列には、実際に入力画像を撮像するカメラモジュールのパラメータ(内部パラメータ)を設定することが望ましい。一般に内部パラメータを取得する方法として、チェスボードを利用したキャリブレーション手法が知られているので、これを利用すれば良い。
内部パラメータが未知の場合は、別のカメラの内部パラメータで代用しても良い。その場合、焦点距離の誤差(真値とのズレ)は、推定する姿勢のスケール(距離)の誤差に直結する。そのため、対象物とカメラの間の距離計測等に利用する場合はキャリブレーションが必須である。
ただし、ARの用途に限れば、AR情報を重畳する際の投影行列と揃えることで相殺され、AR情報と現実空間の位置合わせの誤差には影響しない(レンダリング結果には影響しない)ため、キャリブレーションの必要は無い。また、zNear、zFarの値は追跡対象が撮影され得る範囲の距離(例えば1cm〜500cm等)に設定する。
ビューポートは、入力画像と同じサイズを設定する。入力画像は、カメラから撮像された画像に対して、扱いやすいサイズ(例えばVGAやQVGA)へのリサイズと、グレースケール変換を施した画像を想定する。
図2へ戻り、CPU51のROI計算部54は、レンダリング結果の高速転送を実現するための処理として、追跡対象が実際にレンダリングされた追跡対象ROI(Region Of Interest)を計算し、更には複数の追跡対象ROIをフレームバッファ43から一のレンダリング結果として取得するためのテンプレート画像取得ROIを計算する。
前記追跡対象ROIは、テンプレート画像生成部52がフレームバッファ43からレンダリング結果を取得する際に、取得する画像サイズを限定することで高速転送を実現するためのものである。
前記テンプレート画像取得ROIは、テンプレート画像生成部52がフレームバッファ43からレンダリング結果を取得する際に、複数の追跡対象ROIのレンダリング結果を一つにまとめて一括転送することで高速転送を実現するためのものである。
テンプレート画像生成部52によるフレームバッファ43からの画像転送に関して、一般に、グラフィックボード40上のレンダリング画像を主装置部50がバス60経由で読み出す処理時間は長く、全体のボトルネックになる場合が多い。また、画像データの総量が同じ場合、複数の追跡対象のレンダリング画像を別々に生成して順次に読み出すよりも、全ての追跡対象のレンダリング画像を含むように1枚にまとめて読み出す方が、主装置部50への転送処理を短時間で行うことができる。
そこで、前記ROI計算部54は、追跡対象が複数であれば、図3に示したように、各追跡対象のレンダリング画像を包含する各追跡対象ROI(Z1,Z2)の∪(論理和)領域Zorを計算してテンプレート画像取得ROIとし、テンプレート画像生成部52は、当該テンプレート画像取得ROI内の画像をフレームバッファ43から一度の転送により取得する。追跡対象が一つの場合は、テンプレート画像取得ROIは追跡対象ROIと等しくなる。
また、グラフィックボード40上のレンダリング画像を主装置部50が読み出す際、ビューポート全体を読み出すより、追跡対象が実際にレンダリングされた領域のみを読み出せば高速転送が可能になる。これはカメラと追跡対象との距離が離れ、追跡対象が占める領域のサイズが小さくなる程効果が大きい。
そこで、前記ROI計算部54は、ビューポートからテンプレート画像取得ROIのみを読み出すこととし、更にテンプレート画像取得ROIを構成する個々の追跡対象ROIを計算する方法として、3Dモデルの頂点を利用する第1の計算方法、および特徴点セットを利用する第2の計算方法、の2種類を使い分ける。
第1の計算方法では、3Dモデルの各頂点[X,Y,Z]^Tを次式(1)で二次元に投影して、投影後の各頂点のピクセル座標P=[u,v]^Tを計算する。全ピクセル座標を包含する矩形領域が追跡対象ROIとなる。この方法は3Dモデルの頂点数が少ない場合に有効である。
ここで、Aは内部パラメータである。R(r11〜r33)は、三次元空間内の回転を表すパラメータであり、各パラメータはオイラー角等の表現によって三パラメータで表現することが可能である。t(t1〜t3)は、三次元空間内の平行移動を表すパラメータである。X、Y、Zは、3Dモデルのモデル座標系におけるX座標、Y座標及びZ座標である。u、vは、画面中のピクセル座標系におけるu座標及びv座標である。
第2の計算方法では、前記3Dモデルの頂点の代わりに特徴点セットを投影し、同様にこれらを包含する矩形領域を追跡対象ROIとする。複雑な3Dモデルの場合、特徴点の数の方が頂点より大幅に数が少ないため、第1の計算方法よりも高速な処理が期待できる。ただし特徴点に配置的な偏りがある場合、追跡対象ROIが対象物領域を正確に包含していない場合が起こり得る。そのため、投影点の包含領域より一定幅広い領域を追跡対象ROIに設定することが望ましい。
本実施形態では、3Dモデルの頂点数に応じて、第1および第2の計算方法を使い分ける。より具体的には、3Dモデルの頂点数が閾値τより大きい場合は第2の計算方式を利用し、それ以外の場合は第1の計算方式を利用する。このような使い分けにより、精度と速度の両立を実現可能である。
図2へ戻り、主装置部50のCPU51は、テンプレート画像生成部52,遮蔽発生判定部53,ROI計算部54,遮蔽特徴点判定部55,特徴点セット修正部56,マッチング部57および姿勢更新部58の各機能により姿勢追跡を実行する。メインメモリ59は、CPU51へワークエリアを提供し、前記グラフィックボード40のフレームバッファ43からバス60経由で読み取ったレンダリング結果をテンプレート画像として展開する。
前記遮蔽発生判定部53および遮蔽特徴点判定部55は、前記レンダリング処理部42と同様に、各追跡対象の初期姿勢、3Dモデルおよび初期姿勢に対応した特徴点セットの入力を受けて、テンプレート画像内で複数の追跡対象が重なり合う遮蔽(オクルージョン)領域を特定し、更にはオクルージョン領域における各対象物の前後関係を判定する。
オクルージョン領域では、他の追跡対象により遮蔽された特徴点セットは、実際には見えなくなるために追跡することができず、マッチング精度劣化の要因となる。そのため、遮蔽特徴点判定部55の役割は、各追跡対象の特徴点セットについて、遮蔽された特徴点を除外することで頑健性を向上することである。
前記遮蔽発生判定部53は、図4に示したように、各追跡対象ROIの∩(論理積)領域Zandの有無を確認することで、オクルージョンが発生している領域の有無を判定する。∩領域Zandが存在しない場合は、オクルージョンが発生していないと判定し、以降の処理を終了する。また、第1の計算方法で追跡対象ROIを計算する場合は、各頂点の投影点Pの凸包となる輪郭Cを計算し、この輪郭の重なる領域Candの有無でオクルージョンを判定しても良い。
遮蔽特徴点判定部55は、前記∩領域Zandが存在すると判定されると、∩領域Zandを有する各追跡対象のそれぞれの特徴点セットについて、当該∩領域Zandの内部の特徴点のみを対象に上式(1)で二次元投影し、∩領域Zandの内外判定を行う。
本実施形態では、遮蔽判定精度および処理負荷の異なる3種類の判定方法として、デプスバッファを使用して各特徴点の遮蔽判定を行う第1判定方法と、特徴点セットの幾何変換を利用して特徴点セット全体の前後関係を一括判定する第2判定方法と、3Dモデルの頂点の幾何変換を利用して特徴点セット全体の前後関係を一括判定する第3判定方法とを使い分けることができる。
オクルージョンの判定精度と処理負荷とはトレードオフの関係があり、第1判定方法では厳密な判定が可能だが処理負荷が大きく、第2判定方法では高速な判定可能だが厳密さに欠ける。また、第3判定方法は3Dモデルの頂点数が少ない場合に有効である。
第1判定方法では、テンプレート画像生成部52の処理と同様に、フレームバッファ上の追跡対象ROIの∩領域Zandから、デプスバッファに記憶されている値(一般には、32bit浮動小数点データ)をメインメモリ59に読み出す。デプスバッファ値は、次式(2)で三次元座標のZ座標に変換することができる。
ここで、zNear,zFarは、テンプレート画像生成部52の投影行列で指定した奥行の手前と奥、dはデプスバッファ値、Zはdから変換される、カメラ基準のZ座標値である。本実施形態では、基本的に座標系の取り方には依存しないが、Z軸は、奥行Zが大きくなるほど、正の大きい値を取る方向に向いていると仮定する。
∩領域Zandの内部の特徴点について、(2)式でZ座標を計算する。さらに、初期姿勢と(3)式により、当該特徴点をカメラ基準の座標系に幾何変換し、幾何変換によるZ'座標とデプスバッファよるZ座標との比較を行う。
遮蔽されていない場合、これらは一致するか、近い数字になるが、遮蔽されている場合、デプスバッファは遮蔽物体の値になるので一致しない。そこで、Z'とZの比較により、当該特徴点が遮蔽されているか否かを判定し、遮蔽されている特徴点は特徴点セットから除外する。より具体的には、差分Z'-Zが所定の閾値以上になる場合に、当該特徴点が遮蔽されていると判定する。
第2判定方法では、∩領域内部のそれぞれの追跡対象の特徴点セットについて、(3)式によりそれぞれの初期姿勢で幾何変換を行ってZ'座標を取得する。それぞれの追跡対象のZ'座標を平均し、平均の小さい方の対象物(3体以上の場合は最も小さい対象物)の特徴点セットを残し、それ以外の特徴点セットは遮蔽されていると判定して除外する。複雑に前後が入れ替わるような形状の対象物で無い限りは、この方法でも概ね正しい判定が見込める。
第3判定方法は、ROI計算部54が第1判定方法で追跡対象ROIを計算した場合にのみ利用できる。3Dモデルの各頂点の投影位置の凸包となる輪郭の∩領域の輪郭Candを計算し、Cand内の特徴点セットについて、第2判定方法と同様の方法で前後関係を判定する。∩領域を矩形で計算するより、輪郭で計算する第3判定方法の方が、より高精度な判定が可能である。
本実施形態では、端末の処理能力及び3Dモデルの頂点数に応じて第1、第2および第3判定方法を使い分けることとし、処理能力が高い場合は第1判定方法を利用し、低い場合は第2判定方法を利用する。または、3Dモデルの頂点数が少ない場合に第3判定方法を利用し、多い場合に第1、第2判定方法を利用する。これにより、端末の処理能力に応じて、処理負荷と精度のバランスを取ることが可能となる。
なお、追跡対象が三体以上であると、個々の追跡対象ROIの∩領域が複数領域存在する場合が起こりうる。このような場合、第1判定方法では、デプスバッファの読み出しが複数回となるので効率が悪い。したがって、複数の∩領域を包含する矩形領域を計算し、複数領域のデプスバッファを一括で読み出すことが望ましい。
特徴点セット修正部56は、前記遮蔽判定の結果に基づいて、遮蔽された特徴点を特徴点セットから除外する。また、除外された特徴点セットと同数の未選択の特徴点セットを新たに選択して追跡用の特徴点セットに追加する。
マッチング部57は、前記遮蔽発生判定によって修正された特徴点セットを利用して、追跡対象ごとに、そのテンプレート画像と入力画像との間で特徴点マッチングを行い、2D-3D対応点を取得する。
2D-3D対応点とは、入力画像中の二次元ピクセル座標と、3Dモデルの三次元座標との間の点対応のことであり、三次元座標を初期姿勢でテンプレート画像内の二次元ピクセル座標に投影し、入力画像内で、投影された特徴点の対応箇所を探索することで取得する。
本実施形態では、特許文献3や非特許文献1に開示されているマッチング処理を適用できる。この場合、各特徴点の周囲(本実施形態では、8×8の矩形領域)の画素情報(輝度値)をテンプレート画像から取得し、これを切り出し画像とする。次いで、プレビュー画像中で切り出し画像と一致する領域を探索する。本実施形態ではNCC(Normalized Cross Correlation)やZNCC(Zero-mean Normalized Cross Correlation)を用いたテンプレートマッチングによる探索を想定する。
マッチングによって高い相関を持つ領域が求まれば、当該領域の中心のピクセル座標が追跡位置となる。マッチングは各切り出し画像の追跡の初期位置を中心とした固定範囲(例えば、5×5)に限定して行われる。
なお、画像ピラミッドを利用する場合、ピラミッドの高段で比較的広い探索範囲(例えば5×5)で荒く推定した姿勢をさらに初期値として、低段でより狭い探索範囲(例えば2×3)で高精度なマッチング処理を行うことで、追跡精度の低下を抑えることが可能になる。
なお、高い相関を持つ領域が探索範囲内で見つからなかった場合、マッチング部57は当該特徴点のマッチングに失敗したと判定する。例えば、追跡対象、又はカメラが急速に移動するなどして、特徴点の移動量が探索幅を超えた場合はマッチングに失敗する。そして、マッチングに成功した(相関が閾値以上の箇所が求められた)特徴点数が所定の閾値以下となれば、マッチングを中断して追跡失敗のメッセージを出力する。
姿勢更新部58は、前記マッチング部57が取得した2D-3D対応点に基づき、以下に詳述するように、入力画像中の各追跡対象の姿勢を更新する。
2D-3D対応点間では上式(1)が成り立つ。姿勢の推定値は、初期姿勢からスタートし、非線形の最適化手法を用いて次式(4)で求める。
ここで、m'iはmiの画像上の追跡位置を表す。miは特徴点セットの姿勢Wによる投影位置を表す。ρ(・)はロバスト推定の重み係数を表す。上式(4)は、特徴点セットの投影位置が追跡位置に最も近付く(再投影誤差が最も小さくなる)姿勢Wを求めることに相当する。ここで、姿勢の推定値は、最終的な推定値として出力しても良いし、既存手法と同様、画像ピラミッドの下段の画像のマッチングにおける、初期値として扱っても良い。その場合、ピラミッドの下段方向に向かって、姿勢追跡の処理が反復的に実行される。
このようにして更新された初期姿勢は、次フレームで検出された追跡対象のテンプレート画像を生成する際の初期姿勢に反映される。
図5は、本発明の一実施形態の動作を示したフローチャートであり、主に姿勢追跡装置33による姿勢追跡の動作を示している。
ステップS1では、GPU41のレンダリング処理部42が、追跡対象の3Dモデルおよび初期姿勢を取得し、さらに当該初期姿勢に対応した特徴点セットを前記画像特徴DB22から取得し、その一部を今回の追跡用に決定する。
ステップS2では、ROI計算部54により、レンダリング結果のバス経由での高速転送を実現するために、前記追跡対象ROIおよびテンプレート画像取得ROI(x, y, width, height)が計算される。
ステップS3では、レンダリング処理部42が、追跡対象の3Dモデルに対して前記初期姿勢および追跡用の特徴点に基づいて3Dレンダリングを実行し、そのレンダリング結果をフレームバッファ43上に展開する。
ステップS4では、テンプレート画像生成部52が前記テンプレート画像取得ROIの範囲内のレンダリング結果をフレームバッファ43からバス経由で取得し、これをメインメモリ59上にテンプレート画像として展開する。ステップS5では、追跡対象の数に応じて処理が分岐する。
追跡対象が複数であればステップS6へ進み、前記遮蔽発生判定部53によりオクルージョン領域が計算される。ステップS7では、前記計算結果であるオクルージョン領域の有無により処理が分岐し、オクルージョンが発生していればステップS8へ進む。
ステップS8では、前記遮蔽特徴点判定部55により、前記オクルージョン領域における各追跡対象ROIの前後(上下)関係が判定される。ステップS9では、前(上)側の追跡対象ROIにより遮蔽されて視認不可能となった後(下)側の追跡対象ROIの特徴点セットが、前記特徴点セット修正部56により識別されて追跡用の特徴点セットから除外される。
このとき、必要に応じて、除外された特徴点セットと同数の特徴点セットを、今回の初期姿勢の対応付けられた未選択の特徴点セット集合から選択し、新たに追跡用の特徴点セットとして追加するようにしても良い。
ステップS10では、前記マッチング部57が、前記除外されなかった特徴点セットおよび追加された特徴点セットを用いて、各テンプレート画像と入力画像との間でマッチングを行う。ステップS11では、マッチングが取れた特徴点セットが最も多く帰属する姿勢が現在の姿勢として更新登録される。このようにして更新された追跡姿勢は、次フレームで検出された対象物のテンプレート画像を生成する際の初期姿勢として用いられる。
21…プレビュー取得部,22…姿勢推定装置,23…AR情報DB,24…重畳表示部,31…姿勢検出部,31a…画像特徴検出部,31b…マッチング部,31c…姿勢推定部,32…画像特徴DB,33…姿勢追跡装置,40…グラフィックボード,41…GPU,42…レンダリング処理部,43…一括転送準備部,43…フレームバッファ,50…主装置部,51…CPU,52…テンプレート画像生成部,53…遮蔽発生判定部,54…ROI計算部,55…遮蔽特徴点判定部,56…特徴点セット修正部,57…マッチング部,58…姿勢更新部,59…メインメモリ,60…バス

Claims (11)

  1. 3Dレンダリングにより得られた追跡対象のテンプレート画像をバス経由で読み取り、フレーム画像とテンプレート画像とのマッチング結果に基づいて追跡対象の姿勢を更新する姿勢追跡装置において、
    複数の追跡対象の3Dモデルを、初期姿勢および特徴点に基づいてフレームバッファ上にレンダリングするレンダリング手段と、
    前記複数の追跡対象のレンダリング結果の論理和領域を一のテンプレート画像取得ROIに設定するROI計算手段と、
    前記一のテンプレート画像取得ROIをバス経由で読み取ってメインメモリ上にテンプレート画像を生成するテンプレート画像生成手段と、
    前記テンプレート画像を対象に、オクルージョンにより遮蔽される特徴点を判定する遮蔽特徴点判定手段と、
    前記遮蔽された特徴点をマッチング用の特徴点から除外する特徴点修正手段と、
    フレーム画像と各テンプレート画像との間で前記修正後の特徴点を用いたマッチングを実行するマッチング手段と、
    前記マッチング結果に基づいて追跡対象の姿勢を更新する姿勢更新手段とを具備し、
    前記レンダリング手段は、更新後の姿勢を次フレームの初期姿勢に反映することを特徴とする姿勢追跡装置。
  2. 前記特徴点を遮蔽された追跡対象の特徴点群から、当該遮蔽された特徴点の代替えとなる特徴点を選択して前記マッチング用の特徴点を補完する手段をさらに具備し、
    前記マッチング手段は、補完後の特徴点を用いてマッチングを実行することを特徴とする請求項に記載の姿勢追跡装置。
  3. 前記遮蔽特徴点判定手段は、デプスバッファを使用して各特徴点の遮蔽判定を行う第1判定方法、特徴点の幾何変換を利用して特徴点全体の前後関係を一括判定する第2判定方法、および3Dモデルの頂点の幾何変換を利用して特徴点全体の前後関係を一括判定する第3判定方法のいずれかにより、前記オクルージョンにより遮蔽される特徴点を判定することを特徴とする1または2に記載の姿勢追跡装置。
  4. 前記遮蔽特徴点判定手段は、3Dモデルの頂点数が所定数よりも少なければ第3判定方法を採用することを特徴とする請求項に記載の姿勢追跡装置。
  5. 3Dレンダリングにより得られた追跡対象のテンプレート画像をバス経由で読み取り、フレーム画像とテンプレート画像とのマッチング結果に基づいて追跡対象の姿勢を更新する姿勢追跡装置において、
    複数の追跡対象の3Dモデルを、初期姿勢および特徴点に基づいてフレームバッファ上にレンダリングするレンダリング手段と、
    前記レンダリング結果をバス経由で読み取ってメインメモリ上にテンプレート画像を生成するテンプレート画像生成手段と、
    前記テンプレート画像を対象に、オクルージョンにより遮蔽される特徴点を判定する遮蔽特徴点判定手段と、
    前記遮蔽された特徴点をマッチング用の特徴点から除外する特徴点修正手段と、
    フレーム画像と各テンプレート画像との間で前記修正後の特徴点を用いたマッチングを実行するマッチング手段と、
    前記マッチング結果に基づいて追跡対象の姿勢を更新する姿勢更新手段とを具備し、
    前記レンダリング手段は、更新後の姿勢を次フレームの初期姿勢に反映し、
    前記遮蔽特徴点判定手段は、デプスバッファを使用して各特徴点の遮蔽判定を行う第1判定方法、特徴点の幾何変換を利用して特徴点全体の前後関係を一括判定する第2判定方法、および3Dモデルの頂点の幾何変換を利用して特徴点全体の前後関係を一括判定する第3判定方法のいずれかにより、前記オクルージョンにより遮蔽される特徴点を判定し、3Dモデルの頂点数が所定数よりも少なければ第3判定方法を採用することを特徴とする姿勢追跡装置。
  6. 複数の追跡対象の論理和領域を一のテンプレート画像取得ROIに設定するROI計算手段をさらに具備し、
    前記テンプレート画像生成手段は、前記一のテンプレート画像取得ROIをバス経由で読み取ってテンプレート画像とすることを特徴とする請求項5に記載の姿勢追跡装置。
  7. 前記特徴点を遮蔽された追跡対象の特徴点群から、当該遮蔽された特徴点の代替えとなる特徴点を選択して前記マッチング用の特徴点を補完する手段をさらに具備し、
    前記マッチング手段は、補完後の特徴点を用いてマッチングを実行することを特徴とする請求項5または6に記載の姿勢追跡装置。
  8. 3Dレンダリングにより得られた追跡対象のテンプレート画像をバス経由で読み取り、フレーム画像とテンプレート画像とのマッチング結果に基づいて姿勢推定を行う姿勢推定装置において、
    追跡対象の姿勢ごとに特徴点を含む画像特徴を蓄積する画像特徴DBと、
    フレーム画像から特徴点を検出する手段と、
    前記蓄積された特徴点と前記検出された特徴点との間で特徴点マッチングを行うマッチング手段と、
    前記マッチング結果に基づいて追跡対象の初期姿勢を推定する手段と、
    追跡対象ごとに、その初期姿勢、3Dモデルおよび特徴点に基づいて姿勢追跡を実行する姿勢追跡装置とを具備し、
    前記姿勢追跡装置は、
    複数の追跡対象の3Dモデルを、初期姿勢および特徴点に基づいてフレームバッファ上にレンダリングするレンダリング手段と、
    前記複数の追跡対象のレンダリング結果の論理和領域を一のテンプレート画像取得ROIに設定するROI計算手段と、
    前記一のテンプレート画像取得ROIをバス経由で読み取ってメインメモリ上にテンプレート画像を生成するテンプレート画像生成手段と、
    前記テンプレート画像を対象に、オクルージョンにより遮蔽される特徴点を判定する遮蔽特徴点判定手段と、
    前記遮蔽された特徴点をマッチング用の特徴点から除外する特徴点修正手段と、
    フレーム画像と各テンプレート画像との間で前記修正後の特徴点を用いたマッチングを実行するマッチング手段と、
    前記マッチング結果に基づいて追跡対象の姿勢を更新する姿勢更新手段とを具備し、
    前記レンダリング手段は、更新後の姿勢を次フレームの初期姿勢に反映することを特徴とする姿勢推定装置。
  9. 前記特徴点を遮蔽された追跡対象の特徴点群から、当該遮蔽された特徴点の代替えとなる特徴点を選択して前記マッチング用の特徴点を補完する手段をさらに具備し、
    前記マッチング手段は、補完後の特徴点を用いてマッチングを実行することを特徴とする請求項記載の姿勢推定装置。
  10. フレーム画像を取得する手段と、
    フレーム画像内で追跡対象の姿勢を推定する手段と、
    AR情報が蓄積されたAR情報DBと、
    前記AR情報を前記取得画像に重畳表示する重畳表示手段とを具備し、
    前記姿勢を推定する手段は、
    追跡対象の姿勢ごとに特徴点を含む画像特徴を蓄積する画像特徴DBと、
    フレーム画像から特徴点を検出する手段と、
    前記蓄積された特徴点と前記検出された特徴点との間で特徴点マッチングを行うマッチング手段と、
    前記マッチング結果に基づいて追跡対象の初期姿勢を推定する手段と、
    追跡対象ごとに、その初期姿勢、3Dモデルおよび特徴点に基づいて姿勢追跡を実行する姿勢追跡装置とを具備し、
    前記姿勢追跡装置(33)は、
    複数の追跡対象の3Dモデルを、初期姿勢および特徴点に基づいてフレームバッファ上にレンダリングするレンダリング手段と、
    前記複数の追跡対象のレンダリング結果の論理和領域を一のテンプレート画像取得ROIに設定するROI計算手段と、
    前記一のテンプレート画像取得ROIをバス経由で読み取ってメインメモリ上にテンプレート画像を生成するテンプレート画像生成手段と、
    前記テンプレート画像を対象に、オクルージョンにより遮蔽される特徴点を判定する遮蔽特徴点判定手段と、
    前記遮蔽された特徴点をマッチング用の特徴点から除外する特徴点修正手段と、
    フレーム画像と各テンプレート画像との間で前記修正後の特徴点を用いたマッチングを実行するマッチング手段と、
    前記マッチング結果に基づいて追跡対象の姿勢を更新する姿勢更新手段とを具備し、
    前記レンダリング手段は、更新後の姿勢を次フレームの初期姿勢に反映することを特徴とする画像認識AR装置。
  11. 前記特徴点を遮蔽された追跡対象の特徴点群から、当該遮蔽された特徴点の代替えとなる特徴点を選択して前記マッチング用の特徴点を補完する手段をさらに具備し、
    前記マッチング手段は、補完後の特徴点を用いてマッチングを実行することを特徴とする請求項10に記載の画像認識AR装置。
JP2015072514A 2015-03-31 2015-03-31 画像認識ar装置並びにその姿勢推定装置及び姿勢追跡装置 Active JP6491517B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015072514A JP6491517B2 (ja) 2015-03-31 2015-03-31 画像認識ar装置並びにその姿勢推定装置及び姿勢追跡装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015072514A JP6491517B2 (ja) 2015-03-31 2015-03-31 画像認識ar装置並びにその姿勢推定装置及び姿勢追跡装置

Publications (2)

Publication Number Publication Date
JP2016192132A JP2016192132A (ja) 2016-11-10
JP6491517B2 true JP6491517B2 (ja) 2019-03-27

Family

ID=57245618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015072514A Active JP6491517B2 (ja) 2015-03-31 2015-03-31 画像認識ar装置並びにその姿勢推定装置及び姿勢追跡装置

Country Status (1)

Country Link
JP (1) JP6491517B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683161B (zh) * 2016-12-13 2020-06-05 中国传媒大学 基于图像分割与自定义图层法的增强现实遮挡方法
CN108564014B (zh) * 2017-04-17 2022-08-09 佳能株式会社 对象形状跟踪装置和方法以及图像处理系统
CN107341827B (zh) * 2017-07-27 2023-01-24 腾讯科技(深圳)有限公司 一种视频处理方法、装置和存储介质
JP6802129B2 (ja) * 2017-08-31 2020-12-16 Kddi株式会社 情報処理装置、方法及びプログラム
EP3665550A1 (en) 2017-09-29 2020-06-17 Apple Inc. Gaze-based user interactions
WO2019217081A1 (en) 2018-05-09 2019-11-14 Apple Inc. Selecting a text input field using eye gaze
US11869251B2 (en) * 2018-07-02 2024-01-09 Nissan Motor Co., Ltd. Driving support method and driving support device
CN112655018A (zh) * 2018-10-18 2021-04-13 国立研究开发法人科学技术振兴机构 对象追踪方法、对象追踪系统以及对象追踪程序
CN111311632B (zh) * 2018-12-11 2023-12-01 深圳市优必选科技有限公司 一种物体位姿跟踪方法、装置及设备
CN113196337B (zh) * 2019-01-09 2023-08-29 株式会社富士 图像处理装置、作业机器人、基板检查装置及检体检查装置
US11210932B2 (en) * 2019-05-21 2021-12-28 Apple Inc. Discovery of and connection to remote devices
CN111046960B (zh) * 2019-12-17 2023-04-07 湖北航天技术研究院总体设计所 一种异源图像分区匹配的方法
JP2022139158A (ja) * 2021-03-11 2022-09-26 オムロン株式会社 テンプレート生成装置、照合システム、照合装置、テンプレート生成方法、照合方法およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07151844A (ja) * 1993-11-26 1995-06-16 Mitsubishi Heavy Ind Ltd 3次元追尾装置
JP4789745B2 (ja) * 2006-08-11 2011-10-12 キヤノン株式会社 画像処理装置および方法
FR2933218B1 (fr) * 2008-06-30 2011-02-11 Total Immersion Procede et dispositif permettant de detecter en temps reel des interactions entre un utilisateur et une scene de realite augmentee
JP6086491B2 (ja) * 2013-08-06 2017-03-01 Kddi株式会社 画像処理装置およびそのデータベース構築装置

Also Published As

Publication number Publication date
JP2016192132A (ja) 2016-11-10

Similar Documents

Publication Publication Date Title
JP6491517B2 (ja) 画像認識ar装置並びにその姿勢推定装置及び姿勢追跡装置
US11393173B2 (en) Mobile augmented reality system
US9420265B2 (en) Tracking poses of 3D camera using points and planes
CN105283905B (zh) 使用点和线特征的稳健跟踪
US10410089B2 (en) Training assistance using synthetic images
EP2992508B1 (en) Diminished and mediated reality effects from reconstruction
US10068344B2 (en) Method and system for 3D capture based on structure from motion with simplified pose detection
EP2915140B1 (en) Fast initialization for monocular visual slam
US8144238B2 (en) Image processing apparatus and method
JP5248806B2 (ja) 情報処理装置、情報処理方法
US20140369557A1 (en) Systems and Methods for Feature-Based Tracking
US20220122326A1 (en) Detecting object surfaces in extended reality environments
JP6464938B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN111833403B (zh) 用于空间定位的方法和装置
JP2018524657A (ja) 電子デバイス上における環境マッピング用のフィーチャ・データの管理
JP6420605B2 (ja) 画像処理装置
JP7195238B2 (ja) 拡張現実アプリケーションに関するシステム及び方法
US12010288B2 (en) Information processing device, information processing method, and program
CN113610702B (zh) 一种建图方法、装置、电子设备及存储介质
CN118648019A (zh) 具有全局和局部运动补偿的高级时域低光滤波
CN112258435A (zh) 图像处理方法和相关产品
US20220230342A1 (en) Information processing apparatus that estimates object depth, method therefor, and storage medium holding program therefor
JPWO2020039470A1 (ja) 画像処理システム
JP2022112168A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2020113159A (ja) 情報端末装置及びプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160824

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170906

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190301

R150 Certificate of patent or registration of utility model

Ref document number: 6491517

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150