WO2020235539A1

WO2020235539A1 - オブジェクトの位置及び姿勢を特定する方法及び装置

Info

Publication number: WO2020235539A1
Application number: PCT/JP2020/019689
Authority: WO
Inventors: ロクランウィルソン; パーベルサフキン
Original assignee: 株式会社エスイーフォー
Priority date: 2019-05-17
Filing date: 2020-05-18
Publication date: 2020-11-26

Abstract

本発明の一実施形態によれば、オブジェクトの位置及び姿勢を特定する方法が開示される。本方法は、現実世界のオブジェクトの表示を含む仮想世界を生成することと（Ｓ３１０）、仮想世界において、オブジェクトに対応するモデルを表示することと（Ｓ３１５）、仮想世界において、モデルをオブジェクトに重ね合わせることと（Ｓ３２０）、オブジェクトとモデルとを比較して、オブジェクトの位置及び姿勢を特定することと（Ｓ３２５）を含む。

Description

オブジェクトの位置及び姿勢を特定する方法及び装置

　本発明は、オブジェクトの位置及び姿勢を特定する方法及び装置に関する。

　ロボットがオブジェクトを操作するためには、そのオブジェクトの位置及び姿勢を認識する必要がある。オブジェクトの位置・姿勢を認識する技術として、オブジェクトの特徴点を抽出し、それらの特徴点をモデルと照合する技術が知られている。

　特許文献１には、撮像した画像内においてオブジェクトが存在する範囲を画像特徴から確率的に求めた後に、モデルとの詳細な照合を行うことでオブジェクトの位置・姿勢を推定する画像特徴抽出装置が開示されている。

　さらに、特許文献２には、作業環境内に存在する物体との距離を計測してレンジデータを生成する距離センサと、生成したレンジデータを形状データと照合することによって、物体の形状と位置姿勢を推定する初期照合部と、物体を撮像した画像データを生成するカメラ部と、画像データの特徴を抽出する特徴抽出部と、初期照合部により推定した物体の形状と位置姿勢を初期値として、特徴抽出部で抽出した画像データの特徴と、物体の形状と位置姿勢との誤差を評価関数とした最小化問題を解くことで、物体の位置姿勢を推定する姿勢推定部とを備えるロボット装置が開示されている。

　また、非特許文献１には、ＰｎＰ問題（ワールド座標系におけるｎ点の３次元座標とそれらの点が観測された画像座標から、校正済カメラの位置姿勢を推定する問題）をより少ない演算量で解く手法を提案している。

特許第3300092号公報特開2010-60451号公報

V. Lepetit、他2名、「EPnP: Accurate Non-Iterative O(n) Solution to the PnP Problem」、International Journal of Computer Vision February 2009、2009年2月

　オブジェクトの特徴点をモデルと照合することでオブジェクトの位置・姿勢を認識する技術では、前提として、撮像した画像内に存在する対象オブジェクトを特定する必要がある。

　特許文献１では、撮像した画像内においてオブジェクトが存在する範囲を画像特徴から確率的に求めている。特許文献１の手法では、画像全体に対して存在確率を計算する必要があるため、高い計算コストを要する。

　特許文献２では、作業環境内に存在する物体との距離を計測して生成したレンジデータを形状データと照合することによって推定した物体の形状と位置姿勢を初期値として用いて、オブジェクトの位置姿勢を推定している。特許文献２の手法は、物体との距離を計測してレンジデータを生成することを前提としているため、測距手段が無い、あるいは距離情報を得られない条件の下では用いることができない。

　また、非特許文献１に提案された手法によっても、オブジェクトの位置姿勢を正確に推定することは困難である。

　そもそも、撮像した画像内でオブジェクトを画像認識する手法では、撮像した画像の品質の程度が低い場合にはオブジェクトの特徴点を正しく抽出できない可能性がある。その場合には、オブジェクトとモデルとの照合の精度が低下し、オブジェクトの位置・姿勢を正しく認識することができない。

　上記技術に加え、対象オブジェクトの位置・姿勢の認識に機械学習や人工知能（ＡＩ）を用いることも可能である。しかし、学習には多くの計算コストがかかる上に、必ずしも正しい結果が得られるとは限らない。

　また、オブジェクトにＡＲマーカを付してオブジェクトの位置・姿勢を認識する手法が知られている。しかし、現実世界の周囲環境中に存在するすべてのオブジェクトにＡＲマーカを付すことは現実的ではない。さらに、オブジェクトを撮像するカメラの死角にＡＲマーカが位置する場合には、オブジェクトの位置・姿勢を認識することができない。

　本発明の一態様によれば、オブジェクトの位置及び姿勢を特定する方法であって、現実世界のオブジェクトの表示を含む仮想世界を生成することと、仮想世界において、オブジェクトに対応するモデルを表示することと、仮想世界において、モデルをオブジェクトに重ね合わせることと、オブジェクトとモデルとを比較して、オブジェクトの位置及び姿勢を特定することと、を含む方法が提供される。

　本発明の他の態様によれば、オブジェクトの位置及び姿勢を特定する装置であって、現実世界のオブジェクトの表示を含む仮想世界を生成することと、仮想世界において、オブジェクトに対応するモデルを表示することと、仮想世界において、モデルをオブジェクトに重ね合わせることと、オブジェクトとモデルとを比較して、オブジェクトの位置及び姿勢を特定することと、を実行するように構成されたプロセッサを備えた装置が提供される。

　本発明の他の特徴事項および利点は、例示的且つ非網羅的に与えられている以下の説明及び添付図面から理解することができる。

ロボット制御システムの一実施形態を示すブロック図である。ロボットの一実施形態の概略構成を示す図である。本実施形態におけるオブジェクトの位置・姿勢を特定する方法を説明するフローチャートである。オブジェクトと、それに対応するモデルとを示す図である。オブジェクトと、それに対応するモデルとを示す図である。オブジェクトの位置・姿勢を特定する他の例として、組立てブロックの位置・姿勢を特定する例を示す図である。オブジェクトの位置・姿勢を特定する他の例として、組立てブロックの位置・姿勢を特定する例を示す図である。ロボット（無人潜水機）と、水中作業対象のパイプとを示す図である。パイプの位置・姿勢を特定する様子を示す図である。パイプに対してアノテーション（属性情報）を付与する様子を示す図である。テーブル上のマグカップの取っ手及び本体の位置・姿勢を特定する様子を示す図である。同図（ａ）は仮想世界内で仮想オブジェクトである仮想マグカップに対して動作指示を行う様子を示し、同図（ｂ）はその指示に従って現実世界のマグカップを現実世界のロボットのロボットハンドで把持して移動させる様子を示す。

　以下、本発明の実施の形態を図面を参照して説明する。
　図１は、ロボット制御システムの一実施形態を示すブロック図である。図２は、ロボットの一実施形態の概略構成を示す図である。

　図１に示すように、本実施形態に係るロボット制御システム１は、ロボット１００と、ロボット１００を制御する制御ユニット２００と、制御ユニット２００の制御を司る制御装置３００とを備えている。

　最初に、本実施形態のロボット制御システム１におけるロボット１００について説明する。

　図１及び図２に示すように、本実施形態に開示するロボット１００は、一例として、少なくとも２つのロボットアーム１２０と、それらのロボットアーム１２０を支持するロボット筐体１４０と、ロボット１００の周囲環境をセンシングする環境センサ１６０と、送受信ユニット１８０とを備えている。

　本実施形態における各々のロボットアーム１２０は、例えば６軸の多関節アーム（以下、「アーム」とも称する。）であり、先端にはエンドエフェクタであるロボットハンド（以下、「ハンド」とも称する。）１２２を有している。ロボットアーム１２０は各回転軸にサーボモータを有するアクチュエータ（不図示）を備えている。各サーボモータは制御ユニット２００に接続されており、制御ユニット２００から送られる制御信号に基づいて動作制御されるように構成されている。本実施形態では、アーム１２０として６軸の多関節アームを用いているが、アームの軸数（関節数）はロボット１００の用途やそれに求められる機能等に応じて適宜定めることができる。また、本実施形態ではエンドエフェクタとして２本指のハンド１２２を用いているが、これに限らず、例えば、３本あるいはそれ以上の指を備えたロボットハンド、磁力あるいは負圧による吸着手段を備えたロボットハンド、ゴム膜内に充填された粉粒体のジャミング（詰まり）現象を応用した把持手段を備えたロボットハンド、その他任意の手段により把持対象物のグリップとリリースを繰り返し行うことができるものを用いることができる。各ハンド１２２ａ，１２２ｂは、その手首部分を中心として回転可能に構成されていることが好ましい。

　ハンド１２２には、ハンド１２２の変位量、ハンド１２２に作用する力・加速度・振動等を検出する動力学センサが備えられている。さらに、ハンド１２２は、ハンド１２２による把持力や触覚を検出する触覚センサを備えていることが好ましい。

　ロボット筐体１４０は、例えば、載置台（不図示）の上に固定した状態で設置してもよく、あるいは、載置台の上に回転駆動装置（不図示）を介して旋回可能に設置してもよい。ロボット筐体１４０を載置台の上に旋回可能に設置した場合には、ロボット１００の作業範囲をロボット１００の正面の領域だけでなく、ロボット１００の周囲の範囲に広げることができる。さらには、ロボット筐体１４０は、ロボット１００の用途や使用環境に応じて、複数の車輪や無限軌道等を備えた車両、船舶、潜水機、ヘリコプターやドローン等の飛行体、その他の移動体に載置されていてもよく、あるいは、ロボット筐体１４０がそのような移動体の一部として構成されていてもよい。さらには、ロボット筐体１４０は歩行手段として２足またはそれ以上の足を有していてもよい。ロボット筐体１４０がそのような移動手段を有することにより、ロボット１００の作業範囲をより広範囲とすることができる。ロボット１００の用途によっては、ロボットアーム１２０はロボット筐体１４０を介さずに載置台等に直接固定されていてもよい。

　環境センサ１６０は、ロボット１００の周囲環境をセンシングする。周囲環境には例えば、電磁波（可視光線、非可視光線、Ｘ線、ガンマ線等を含む）、音、温度、湿度、風速、大気組成等が含まれ、したがって環境センサ１６０は、視覚センサ、Ｘ線・ガンマ線センサ、聴覚センサ、温度センサ、湿度センサ、風速センサ、大気分析装置等を含み得るが、これらに限定されない。なお、図では環境センサ１６０がロボット１００と一体であるように示されているが、環境センサ１６０はロボット１００とは一体でなくてもよい。例えば、環境センサ１６０はロボット１００から離れた位置に設置されていたり、車両やドローン等の移動体に設置されていてもよい。また、環境センサ１６０は、ＧＰＳ（ＧｒｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）センサ、高度センサ、ジャイロセンサ等を備えていることが好ましい。さらに、環境センサ１６０は、ロボット１００の屋外または屋内における位置検出のため、位置検出手段として、上記ＧＰＳセンサの他、ＷｉＦｉ測位、ビーコン測位、自立航法測位、地磁気測位、音波測位、ＵＷＢ（ＵｌｔｒａＷｉｄｅＢａｎｄ：超広帯域無線）測位、可視光・非可視光測位等を行うための構成を備えていることが好ましい。

　特に視覚センサとしては、例えば、２Ｄカメラ及び深度センサ、３Ｄカメラ、ＲＧＢ－Ｄセンサ、３Ｄ－ＬｉＤＡＲセンサ、Ｋｉｎｅｃｔ（商標）センサなどを用いることができる。環境センサ１６０で得られた視覚情報は制御ユニット２００へ送られ、制御ユニット２００において処理される。環境センサ１６０で得られるその他の環境情報も制御ユニット２００へ送信し、ロボット１００の周囲環境の解析に用いることができる。

　送受信ユニット１８０は、制御ユニット２００との間での信号・情報の送受信を行う。送受信ユニット１８０は、制御ユニット２００と有線接続または無線接続によって接続することが可能であり、したがってそれらの信号・情報の送受信は有線または無線によって行うことができる。それらの信号・情報の送受信に用いられる通信プロトコル及び周波数等は、ロボット１００が用いられる用途や環境等に応じて適宜選択しうる。さらに、送受信ユニット１８０はインターネット等のネットワークに接続されていてもよい。

　次に、本実施形態のロボット制御システム１における制御ユニット２００について説明する。

　再び図１を参照すると、本実施形態に係るシステム１の制御ユニット２００は、プロセッサ２２０、記憶ユニット２４０および送受信ユニット２６０を備えている。

　プロセッサ２２０は主として、ロボット１００のロボットアーム１２０及びボディ１４０の駆動部及びセンサ（共に不図示）の制御、環境センサ１６０の制御、環境センサ１６０から送信された情報の処理、制御装置３００との相互作用、送受信ユニット２６０の制御を司る。プロセッサ２２０は、例えば、中央演算処理装置（ＣＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、組込みプロセッサ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、あるいはそれらの組み合わせで構成される。プロセッサ２２０は、１又は２以上のプロセッサで構成されていてもよい。

　さらに、プロセッサ２２０は、例えば、制御装置３００から送られたロボット１００の制御信号と、それに応じて生成した動作命令と、実際に実行されたロボット１００の動作と、動作実行後に環境センサ１６０で取集した周囲環境データとを記憶ユニット２４０にデータとして記憶させ、そのデータを用いて機械学習を実行して学習データを生成して記憶ユニット２４０に記憶させる。プロセッサ２２０は、次回以降に制御装置３００から送信されたロボット１００の制御信号に基づいてロボット１００に実行させるべき動作をその学習データを参照して決定して動作命令を生成することが可能である。このように、本実施形態では現実世界にあるロボット１００の制御ユニット２００がローカルに機械学習機能を備えている。

　記憶ユニット２４０は、本実施形態で説明するようにロボット１００を制御するためのコンピュータ・プログラム、環境センサ１６０から送信された情報の処理を行うコンピュータ・プログラム、制御装置３００との相互作用を行うコンピュータ・プログラム、送受信ユニット２６０を制御するコンピュータ・プログラム、機械学習を実行するプログラム等を記憶している。好ましくは、記憶ユニット２４０には、コンピュータに本実施形態で説明するような処理を行わせて制御ユニット２００としての機能を生じさせるソフトウェアまたはプログラムが記憶されている。特に、記憶ユニット２４０には、図３等を参照して後述する方法を実施する命令を含む、プロセッサ２２０によって実行可能なコンピュータ・プログラムが記憶されている。

　さらに、記憶ユニット２４０は、上述したような既知のオブジェクトのモデルのデータを記憶していることが好ましい。さらに、記憶ユニット２４０は、ロボット１００のロボットアーム１２０の各部（サーボ（不図示）、ハンド１２２等）の状態、環境センサ１６０から送信された情報、制御装置３００から送られた情報、制御信号等を少なくとも一時的に記憶する役割も有する。さらには、記憶ユニット２４０は、上述したように、ロボット１００の動作指示とそれに応じて実行されたロボット１００の動作、学習データを記憶する役割も有する。記憶ユニット２４０は、制御ユニット２００の電源がオフされても記憶状態が保持される不揮発性の記憶媒体を備えていることが好ましく、例えば、ハードディスクドライブ（ＨＤＤ）、固体記憶装置（ＳＳＤ）、コンパクトディスク（ＣＤ）・ディジタル・バーサタイル・ディスク（ＤＶＤ）・ブルーレイディスク（ＢＤ）等の光学ディスクストレージ、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、ＥＰＲＯＭ（ＲｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ等の不揮発性ストレージを備えている。なお、記憶ユニット２４０はスタティックランダムアクセスメモリ（ＳＲＡＭ）等の揮発性ストレージをさらに備えていてもよいが、上述した各コンピュータ・プログラムは記憶ユニット３４０のうち不揮発性の（非一時的な）記憶媒体に記憶される。

　送受信ユニット２６０は、ロボット１００との間での信号・情報の送受信と、制御装置３００との間での信号・情報の送受信とを行う。制御ユニット２００は、ロボット１００と有線接続または無線接続によって接続することが可能であり、したがってそれらの信号・情報の送受信は有線または無線によって行うことができる。それらの信号・情報の送受信に用いられる通信プロトコル及び周波数等は、ロボット１００が用いられる用途や環境等に応じて適宜選択しうる。送受信ユニット２６０はインターネット等のネットワークに接続されていてもよい。

　さらに、送受信ユニット２６０は、制御装置３００との間での信号・情報の送受信とを行う。制御ユニット２００は、制御装置３００と有線接続または無線接続によって接続することが可能であり、したがってそれらの信号・情報の送受信は有線または無線によって行うことができる。それらの信号・情報の送受信に用いられる通信プロトコル及び周波数等は、ロボット１００が用いられる用途や環境等に応じて適宜選択しうる。

　なお、図１では制御ユニット２００がロボット１００から独立したものとして示されているが、その形態に限られない。例えば、制御ユニット２００はロボット１００の筐体１４０内に設けられていてもよい。また、本システム１で用いるロボット１００は１つに限られず、複数のロボット１００を独立して、あるいは互いに協働させて動作させてもよい。この場合、単体の制御ユニット２００で複数のロボット１００を制御してもよく、あるいは、複数の制御ユニット２００を協働させて複数のロボット１００を制御してもよい。

　続いて、本実施形態のロボット制御システム１における制御装置３００について説明する。

　図１に示すように、本実施形態に係るシステム１の制御装置３００は、プロセッサ３２０、記憶ユニット３４０、入力デバイス３５０、送受信ユニット３６０、ディスプレイ３７０を備えている。

　プロセッサ３２０は主として、制御ユニット２００との相互作用、入力デバイス３５０を介してユーザによって行われる入力に基づく処理、送受信ユニット３６０の制御、ディスプレイ３７０の表示を司る。とりわけ、プロセッサ３２０は、入力デバイス３５０によって入力されたユーザ入力に基づいて制御信号を生成し、制御ユニット２００に送信する。制御ユニット２００のプロセッサ２２０は、その制御信号に基づき、ロボット１００のロボットアーム１２０及びボディ１４０の各駆動部（不図示）や環境センサ１６０を動作させるための１つのあるいは複数の動作指令を生成する。プロセッサ３２０は、例えば、中央演算処理装置（ＣＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、組込みプロセッサ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、あるいはそれらの組み合わせで構成される。プロセッサ３２０は、１又は２以上のプロセッサで構成されていてもよい。プロセッサ３２０は、１又は２以上のプロセッサで構成されていてもよい。

　さらに、制御装置３００のプロセッサ３２０は、ユーザに提示するＵＩ（ユーザ・インターフェース）画面を生成し、ディスプレイ３７０に表示するように構成されている。ＵＩ画面（不図示）は、例えば、複数の選択肢を階層的にユーザに提供する選択ボタンを含む。さらにプロセッサ３２０は、ロボット１００の環境センサ１６０によって撮影されたロボット１００の周囲環境の現実世界の画像または動画に基づいて仮想世界（シミュレーション空間）の画像または動画を生成し、ディスプレイ３７０に表示する。プロセッサ３２０は、現実世界の画像または動画に基づいて仮想世界の画像または動画を生成する際に、例えば現実世界の座標系と仮想世界の座標系とを対応付けることにより、現実世界と仮想世界との相関関係を構築する。さらに、現実世界の画像または動画と仮想世界（シミュレーション空間）の画像または動画とを同時にディスプレイ３７０に表示してもよい。さらには、ＵＩ画面をロボット１００の周囲環境の画像または動画あるいは仮想世界の画像または動画に重ね合わせて表示してもよい。ロボット１００の周囲環境の現実世界の画像または動画に基づいて生成される仮想世界（シミュレーション空間）の画像または動画には、ロボット１００の周囲環境に存在するオブジェクトも含まれる。プロセッサ３２０が現実世界の画像または動画に基づいて仮想世界の画像または動画を生成する際に現実世界と仮想世界との相関関係を構築することで、以下に詳しく説明するように、仮想世界におけるユーザの操作に基づいて現実世界において変化を生じさせ、かつ、現実世界における変化を仮想世界において反映させることが可能となる。

　さらに、制御装置３００のプロセッサ３２０は、仮想世界（シミュレーション空間）の画像または動画に含まれるオブジェクトに対応するモデルを入手あるいは生成する。モデルの入手あるいは生成の方法としては、１）既成モデルの情報を入手する、２）オブジェクトをスキャンしてモデルを生成する、３）オブジェクトのモデルを独立して作成する、の３つの態様が考えられる。

　１）の「モデルの既成情報を入手する」態様は、スキャンしたオブジェクトに対応するモデルが入手可能である場合に対処するものである。この態様では、制御装置３００のプロセッサ３２０は、記憶ユニット３４０に記憶されているオブジェクトのモデル、あるいは、制御装置３００が接続されているネットワーク上に存在するオブジェクトのモデルを参照することにより、視覚情報中に含まれるオブジェクトに対応するモデルを入手する。

　また、２）の「オブジェクトをスキャンしてモデルを生成する」態様は、スキャンしたオブジェクトに対応するモデルが入手できない場合に対処可能である。この態様では、例えば、ユーザが入力デバイス３５０を用いてＵＩ画面内で種々のプリミティブな形状要素を組み合わせて、スキャンしたオブジェクトに対応するモデルを生成する。プリミティブな形状要素としては、例えば、任意角の角柱、任意角の角錐、円柱、円錐、球体等の要素が含まれる。さらには、プロセッサ３２０は、ユーザがＵＩ画面内で任意の形状を描画して、それをプリミティブな形状要素として追加できるようにされていてもよい。ユーザは、ＵＩ画面内でこれらの種々の形状要素を選択し、選択した形状要素の各部寸法を適宜変更し、スキャンしたオブジェクトの画像に合わせてそれらの要素を組み合わせることで、スキャンしたオブジェクトに対応するモデルを生成することができる。これらの要素を用いてモデルを生成する際には、オブジェクトの窪みや穴等を表現することも可能である。

　また、３）の「オブジェクトのモデルを独立して作成する」態様は、オブジェクトをスキャンすることなく、ユーザがＵＩ画面内で種々のプリミティブな形状要素を組み合わせて、任意のオブジェクトのモデルを生成する場合に対処可能である。この態様におけるモデルの生成のためのユーザの操作は、上記の２）の態様に説明した操作と同様である。予めモデルを作成してシステム１内に蓄積しておくことで、そのモデルに対応する現実のオブジェクトを現実世界で操作する必要が生じたときに、仮想世界の中でそのモデルを対応するオブジェクトと関連付けることが可能になる。

　プロセッサ３２０は、オブジェクトに対応するモデルを例えばコンピュータ・グラフィックスで再現し、ディスプレイ３７０上の仮想世界内に表示する。外部から入手されたモデルあるいは上記のように生成されたモデルのデータは、制御装置３００の記憶ユニット３４０に格納される。

　記憶ユニット３４０は、プロセッサ３２０に本実施形態で説明する動作を実行させるためのプログラム、制御ユニット２００との相互作用を行うコンピュータ・プログラム、入力デバイス３５０を介してＵＩ画面においてユーザによってインタラクティブに行われる入力に基づく処理を行うコンピュータ・プログラム、送受信ユニット２６０の制御を行うコンピュータ・プログラム、ディスプレイ３７０の表示を行うコンピュータ・プログラム等を記憶している。好ましくは、記憶ユニット３４０には、コンピュータに後述する動作を行わせて制御装置３００としての機能を生じさせるソフトウェアまたはプログラムが記憶されている。特に、記憶ユニット３４０には、図４等を参照して後述する方法を実施する命令を含む、プロセッサ３２０によって実行可能なコンピュータ・プログラムが記憶されている。

　さらに、記憶ユニット３４０は、ロボット１００の環境センサ１６０によって撮影され、制御ユニット２００を介して制御装置３００に送られたロボット１００の周囲環境の画像または動画と、そのロボット１００の周囲環境の画像または動画に基づいてプロセッサ３２０によって生成された仮想世界（シミュレーション空間）の画像または動画とを少なくとも一時的に記憶することが可能である。制御装置３００の記憶ユニット３４０も、制御装置３００の電源がオフされても記憶状態が保持される不揮発性の記憶媒体で構成されていることが好ましく、例えば、ハードディスクドライブ（ＨＤＤ）、固体記憶装置（ＳＳＤ）、コンパクトディスク（ＣＤ）・ディジタル・バーサタイル・ディスク（ＤＶＤ）・ブルーレイディスク（ＢＤ）等の光学ディスクストレージ、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、ＥＰＲＯＭ（ＲｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ等の不揮発性ストレージを備えている。なお、記憶ユニット３４０はスタティックランダムアクセスメモリ（ＳＲＡＭ）等の揮発性ストレージをさらに備えていてもよいが、上述した各コンピュータ・プログラムは記憶ユニット３４０のうち不揮発性の（非一時的な）記憶媒体に記憶される。

　さらに記憶ユニット３４０はシステム１のデータベースとしても機能し、本発明のコンセプトに関連して説明したように、制御信号に基づいて動作した現実世界におけるロボット１００の動作データ（制御ユニット２００が生成した動作指令を含む）と、環境センサ１６０で検出された動作結果を示す周囲環境データを記憶する。

　入力デバイス３５０として、例えば、キーボード、マウス、ジョイスティックなどを用いることができ、さらには、赤外線等を用いて位置と姿勢をトラッキングすることが可能でトリガーボタンなどを備えたトラッカーと呼ばれるデバイスを用いることもできる。また、ディスプレイ３７０がタッチパネル式のディスプレイ・デバイスを備えている場合には、そのタッチパネルを入力デバイスとして用いることができる。さらには、ディスプレイ３７０がＶＲ（仮想現実）・ＡＲ（拡張現実）あるいはＭＲ（複合現実）等の表示デバイスとして用いられるヘッドマウントディスプレイであり、かつユーザの視線追跡機能を備えている場合には、その視線追跡機能を入力デバイスとして用いることができる。あるいは、視線追跡機能を備えているがディスプレイを備えていないデバイスであっても、その視線追跡機能を入力デバイスとして用いることができる。さらには、音声入力装置を入力デバイスとして用いることもできる。これらは入力デバイス３５０の例として例示したものであり、入力デバイス３５０に用いることができる手段はこれらに限られない。また、上述したような手段を任意に組み合わせて入力デバイス３５０として使用してもよい。上記のような入力デバイス３５０を用いることにより、ユーザはディスプレイ３７０に表示されたＵＩ画面において、例えば、選択ボタンを選択したり、文字を入力したり、ロボット１００の環境センサ１６０によって撮影されたロボット１００の周囲環境の画像または動画中に含まれるオブジェクト、あるいは、ロボット１００の環境センサ１６０によって撮影されたロボット１００の周囲環境の画像または動画に基づいて生成された仮想世界（シミュレーション空間）の画像または動画中に含まれる仮想オブジェクトを選択したりすることができる。

　送受信ユニット３６０は、制御ユニット２００との間での信号・情報の送受信を行う。上述したように、制御装置３００は制御ユニット２００と有線接続または無線接続によって接続することが可能であり、したがってそれらの信号・情報の送受信は有線または無線によって行うことができる。その信号・情報の送受信に用いられる通信プロトコル及び周波数等は、システム１が用いられる用途や環境等に応じて適宜選択しうる。さらに、送受信ユニット３６０はインターネット等のネットワークに接続されていてもよい。

　ディスプレイ３７０には、ディスプレイ・モニター、コンピュータ・タブレット装置（タッチパネル式のディスプレイを備えたものを含む）、ＶＲ（仮想現実）・ＡＲ（拡張現実）あるいはＭＲ（複合現実）等の表示デバイスとして用いられるヘッドマウントディスプレイ、プロジェクター等の任意の形態の表示装置を用いることができる。

　特に、ディスプレイ３７０としてヘッドマウントディスプレイが用いられる場合、ヘッドマウントディスプレイがユーザの左右の眼にそれぞれ視差を持たせた画像または動画を提供することで、ユーザに三次元の画像または動画を知覚させることができる。さらに、ヘッドマウントディスプレイがモーション・トラッキング機能を備えている場合は、ヘッドマウントディスプレイを装着しているユーザの頭の位置、方向に応じた画像または動画を表示させることができる。さらには、上述したようにヘッドマウントディスプレイがユーザの視線追跡機能を備えている場合には、その視線追跡機能を入力デバイスとして用いることができる。

　本実施形態における以下の説明では、制御装置３００のプロセッサ３２０が、ロボット１００の環境センサ１６０によって撮影されたロボット１００の周囲環境の実空間の画像または動画に基づいて仮想世界（シミュレーション空間）の画像または動画を生成し、ディスプレイ３７０として、ＶＲ（仮想現実）・ＡＲ（拡張現実）あるいはＭＲ（複合現実）等の表示デバイスとして用いられるヘッドマウントディスプレイが用いられ、入力デバイス３５０として、赤外線等を用いて位置と姿勢をトラッキングすることが可能でトリガーボタンなどを備えたトラッカーが用いられる場合を例示的に説明する。

　次に、図３～図５を参照し、オブジェクトの位置・姿勢を特定する一動作例として、ボルトとナットの位置・姿勢を特定するシナリオを例に挙げて説明する。

　図３は、本実施形態におけるオブジェクトの位置・姿勢を特定する方法を説明するフローチャートである。図４及び図５は、仮想世界内のオブジェクトと、それに対応するモデルとを示す図である。

　本例においては、最初に、図３のステップＳ３０５に示すように、ロボット１００の環境センサ１６０で得られた、現実世界のロボット１００の周囲環境情報を、制御ユニット２００を介して制御装置３００へ送信する。視覚情報は、単一の静止画、複数の画像、あるいは動画であってもよく、さらには深度情報を含むことが好ましい。制御装置３００は、送信された視覚情報を記憶ユニット３４０に保存し得る。

　次に、図３のステップＳ３１０に示すように、制御装置３００のプロセッサ３２０が、その視覚情報に基づいて、ロボット１００の周囲環境を再現した仮想世界（シミュレーション空間）を生成し、制御装置３００のディスプレイ３７０に表示する。仮想世界では、現実世界におけるロボット１００の周囲の風景に加え、少なくともロボット１００がアクセス可能なエリアに存在する現実空間のオブジェクトが表示される。オブジェクトは、視覚センサによって得られた現実世界のオブジェクトの二次元あるいは三次元画像、深度マップあるいはポイントクラウド等による表現であってもよい。あるいは、オブジェクトを表すコンピュータ・グラフィックスによって表現されてもよい。本例では、ボルト（図４（ａ））及びナット（図５（ａ））がオブジェクトとして表示される。

　続いて、ユーザは、制御装置３００の入力デバイス３５０を用いて、ディスプレイ３７０に表示される画面内のメニューから、位置・姿勢の特定を行う対象のオブジェクトに対応するモデルを選択する。すると、制御装置３００のプロセッサ３２０がそのモデルのデータを記憶ユニット３４０から読み出し、そのモデルをディスプレイ３７０に表示される仮想世界内に表示する（図３のステップＳ３１５）。本例では、ボルトのモデル４０（図４（ｂ））及びナットのモデル５０（図５（ｂ））が仮想世界内に表示される。

　なおモデルは、上述したように、１）既成モデルの情報を入手する、２）オブジェクトをスキャンしてモデルを生成する、３）オブジェクトのモデルを独立して作成する、の３つの態様によって入手あるいは生成される。

　続いて、図３のステップＳ３２０に示すように、ユーザは、仮想世界内において、上記のように生成したモデルを対応するオブジェクトに重ね合わせる。図４に示したボルトの例では、ユーザは、入力デバイス３５０を用いて、ディスプレイ３７０に表示される画面において、図４（ｂ）に示すモデル４０を選択し、画面内でそのモデル４０を移動させて、同じ画面内に示されているオブジェクト（図４（ａ））と位置及び姿勢がおおよそ合致するように重ね合わせる。

　すると、プロセッサ３２０は、オブジェクト（図４（ａ））の三次元形状データ（例えば三次元形状のエッジ及び／又は特徴点）と、モデル４０の三次元形状データとを比較し、オブジェクト（図４（ａ））の三次元形状の輪郭とモデル４０の三次元形状の輪郭とが一致するようにモデル４０の位置・姿勢を補正する。これにより、仮想世界内に表示されているオブジェクト（図４（ａ））が、ある容積空間を占める単なる物体ではなく、ユーザによって選択されたモデル４０に対応するオブジェクト（ボルト）であること、さらに、そのオブジェクトが仮想世界内にモデル４０の上記補正後の位置及び姿勢で存在することが制御装置３００において特定される（図３のステップＳ３２５）。なお、オブジェクトとモデルとの比較を行う手法は上記のものに限られず、他の任意の手法を用いることもできる。

　このようにして、制御装置３００のプロセッサ３２０は、オブジェクト（図４（ａ））がモデル４０に対応するオブジェクトであることを認識し、上記のように特定されたオブジェクトに対応する仮想オブジェクトを例えばコンピュータ・グラフィックスで再現し、ディスプレイ３７０上の当該オブジェクトに重ね合わせるように表示する。仮想オブジェクトは、例えばモデルの画像（コンピュータ・グラフィックス）を用いて再現してもよい。ユーザは、入力デバイス３５０を用いて、ディスプレイ３７０に表示される仮想世界内において、その仮想オブジェクトの移動等の操作を行うことが可能である。

　仮想オブジェクトは、ディスプレイ３７０上に表示された仮想世界においてユーザが入力デバイス３５０を用いて動かすことができる。例えば、入力デバイス３５０としてトラッカーを用いる場合、トラッカーで或る仮想オブジェクトをポインティングしてからトリガーボタンを押すことで、そのトリガーボタンを押している間は仮想世界内でその仮想オブジェクトをトラッカーの動きに合わせて自由に動かすことができる。そして、仮想オブジェクトを仮想世界内で所望の位置・姿勢に移動させた後にトリガーボタンをリリースすることで、仮想オブジェクトの移動操作を終了させることができる。ユーザは、２つのトラッカーを両手で同時に操作することで、仮想世界内で２つの仮想オブジェクトを同時に操作することもできる。

　また、ディスプレイ３７０上の仮想世界において、ロボット１００のハンド１２２をオブジェクト化して仮想ハンドとして表示し、トラッカーで仮想ハンドを操作して、仮想オブジェクトを動かすことが可能である。例えば、仮想ハンドをトラッカーでポインティングしてトリガーボタンを押すことで、その仮想ハンドを動かす。そして、仮想ハンドの爪又は指の部分を移動対象の仮想オブジェクトに位置合わせし、押しているトリガーボタンをリリースする、あるいは、他のトリガーボタンを押すことで、その移動対象の仮想オブジェクトを仮想ハンドで掴んだ状態で動かすことを可能にする。その後、例えばトリガーボタンを押しながら仮想ハンドをトラッカーで移動させることで、仮想ハンドで仮想オブジェクトを掴んだ状態でその仮想オブジェクトを移動させることができる。そして、仮想オブジェクトを仮想世界内で所望の位置・姿勢に移動させた後にトリガーボタンをリリースすることで、仮想ハンド及び仮想オブジェクトの移動操作を終了させることができる。

　上記のような入力デバイス３５０を用いた仮想世界内での仮想オブジェクト及び仮想ハンドの操作、およびそのディスプレイ３７０上での表示は、プロセッサ３２０によって制御される。

　さらに、制御装置３００のプロセッサ３２０は、上記のような仮想ハンドの操作に応じて、現実世界においてロボット１００のハンド１２２に仮想オブジェクトに対応する現実のオブジェクトを移動させる制御信号を生成する。制御信号は、制御装置３００から制御ユニット２００に送信される。制御信号を受信した制御ユニット２００は、受信した制御信号と、ロボット１００の環境センサ１６０で検出した周囲環境情報とに基づいてロボット１００のモーション・プランニングを行い、ロボット１００に実行させる動作命令を生成し、その動作命令に基づいてロボット１００を動作させる。

　上記に説明したように、本実施形態によれば、現実世界にあるオブジェクトに対応する仮想世界内のオブジェクトに対し、そのオブジェクトに対応するモデルを重ね合わせることで、仮想世界内におけるそのオブジェクトの位置及び姿勢が特定される。従来技術欄で説明したように、オブジェクトの特徴点をモデルと照合することでオブジェクトの位置・姿勢を認識する技術では、前提として、撮像した画像内に存在する対象オブジェクトを特定する必要がある。これに対し、本実施形態によれば、ユーザが仮想世界内で対象オブジェクトを特定する。したがって、画像処理により対象オブジェクトおよびその位置・姿勢を特定する場合に比べて計算コストを抑えることができる。

　さらに、撮像した画像又は映像中の対象オブジェクトの画質が低くて不鮮明である、あるいは、対象オブジェクトの一部が欠けているような場合であっても、人であればその対象オブジェクトが何であるか、さらには、その対象オブジェクトがどのような姿勢にあるかを認識できる場合が多い。そのため、本実施形態によれば、仮想世界内に表示されているオブジェクトがいくらか不鮮明である場合でも、ユーザが自身の知覚に基づいてそのオブジェクトを認識して、それに対応するモデルを選択し、そのモデルをオブジェクトに重ね合わせてオブジェクトの位置及び姿勢を特定することができる。オブジェクトに対応するモデルが選択されていれば、制御装置３００のプロセッサ３２０は、オブジェクトとモデルの輪郭、特徴点、エッジ等の情報を比較することで、オブジェクトの位置及び姿勢を一義的に特定することが可能である。この点、機械学習やＡＩを取り入れた画像認識技術であっても、認識対象のオブジェクトが不鮮明である場合にはその認識には限界があるため、本実施形態によれば人間の認知能力を取り入れてオブジェクト及びその位置・姿勢を認識することが可能であるという利点がある。例えば、機械学習やＡＩを取り入れた画像認識技術を用いて認識対象のオブジェクトの位置・姿勢の認識を行った結果、位置・姿勢の認識が失敗したような場合に、本実施形態によれば人が介入してオブジェクトの位置・姿勢の認識結果を迅速に訂正することができる。

　仮想世界は現実世界に基づいて制御装置３００で生成されるので、制御装置３００において仮想世界の座標系と現実世界の座標系との相関関係は既知である。そのため、制御装置３００は、仮想世界内のオブジェクトの位置及び姿勢が特定されれば、現実世界内におけるオブジェクトの位置及び姿勢を特定することができる。
　次に、図６及び図７を参照し、オブジェクトの位置・姿勢を特定する他の例として、組立てブロックの位置・姿勢を特定する例を示す。

　図６（ａ）は、現実世界においてテーブルの上に複数の組立てブロックが置かれた状態を示している。この例では、これらの複数の組立てブロックを含む周囲環境は、図６（ａ）の下側に背面が見えているデプスカメラＤＣ（例えば、インテル社のＲｅａｌＳｅｎｓｅ（商標）デプスカメラ）を用いで撮像される。デプスカメラＤＣは、図１及び図２を参照して説明した本実施形態のロボット１００の環境センサ１６０に相当する。

　図６（ｂ）は、デプスカメラによって撮像された画像データに基づいて生成された仮想世界を示している。図６（ａ）の現実世界内の各々の組立てブロックに対応する複数のブロックが、図６（ｂ）中の仮想世界内に表示されている。この仮想世界は、上述したように制御装置３００において生成される。なおこの段階では、それらのブロックは制御装置３００においてはある容積空間を占める単なる物体としか認識されておらず、ブロックの位置及び姿勢はまだ特定されていない。

　また、いくつかのブロックではブロックの一部が欠けたように表示されていることがわかる。これは、固定された位置に配置されたデプスカメラＤＣでブロックを撮像した場合に、その奥行き側の画像情報を十分に得られないことに起因する。このようにオブジェクトの一部が欠けていると、機械学習やＡＩを用いた画像処理技術であってもオブジェクトの位置・姿勢を正しく認識することは困難である。これに対し、本実施形態では人間の認知能力を取り入れてオブジェクト及びその位置・姿勢を認識できる。

　なお図６（ｂ）には、仮想世界内に表示されているブロックの種類及び数と、それらをどのように組み合わせるかを示す画面が併せて表示されている。

　図７は、仮想世界内でブロックにモデルを重ね合わせてブロックの位置及び姿勢を特定する動作を示している。

　図７（ａ）は、ブロックｂｌｃに対応するモデル７０を、ブロックｂｌｃへ向けて移動させている様子を示している。これに先立ち、ユーザは入力デバイス３５０を用いて、ディスプレイ３７０に表示される仮想世界内においてモデル７０を選択している。入力デバイス３５０としてトラッカーを用いる場合、トラッカーでモデル７０をポインティングしてからトリガーボタンを押すことで、そのトリガーボタンを押している間は仮想世界内でそのモデル７０をトラッカーの動きに合わせて自由に動かすことができる。そして、モデル７０を仮想世界内で所望の位置・姿勢に移動させた後にトリガーボタンをリリースすることで、モデル７０の移動操作を終了させることができる。

　図７（ｂ）は、モデル７０を、ブロックｂｌｃへ位置及び姿勢がおおよそ合致するように重ね合わせた状態を示している。この状態で、ユーザはトラッカーのトリガーボタンをリリースすることで、モデル７０の移動操作を終了する。

　すると、制御装置のプロセッサ３２０は、一例として、ブロックｂｌｃの三次元形状データ（例えばエッジ及び／又は特徴点）と、モデル７０の三次元形状データとを比較し、ブロックｂｌｃの三次元形状の輪郭とモデル７０の三次元形状の輪郭とが一致するようにモデル７０の位置・姿勢を補正する。モデル７０の位置・姿勢が補正された後は、ブロックｂｌｃの三次元形状の輪郭とモデル７０の三次元形状の輪郭とが一致する。制御装置のプロセッサ３２０は、この一致した三次元形状輪郭をハイライト表示する（図７（ｃ））。

　このようにして、仮想世界内におけるブロックｂｌｃの位置及び姿勢が特定される。さらに、制御装置のプロセッサ３２０は、仮想世界の座標系と現実世界の座標系との相関関係に基づいて、仮想世界内のブロックｂｌｃに対応する現実のブロックの現実世界における位置及び姿勢を特定することができる。これにより、システム１は現実世界のブロックの位置及び姿勢を認識し、そのブロックに対してロボット１００により所望の動作を行うことが可能になる。

　（他のオブジェクト）
　ここで、本実施形態の方法により位置・姿勢の特定を行う他のオブジェクトの例を示す。
［第１の例］

　図８は、本例において用いられるロボット（無人潜水機）と、水中作業対象のパイプとを示す図である。図８に示すように、本例において用いられるロボット１００は無人潜水機の形態を有しており、先端にロボットハンド１２２を備えたロボットアーム１２０と、ロボットアーム１２０が設置された筐体１４０とを有している。筐体１４０には、ロボット１００が水中で左右方向（Ｘ軸方向）、前後方向（Ｙ軸方向）および上下方向（Ｚ軸方向）へ移動し、また、ＸＹＺ各軸を中心として回転することを可能にする複数のスラスタ（不図示）が設けられている。それらのスラスタは、例えば、電気モータで回転するプロペラで構成されている。筐体１４０には、図には明示されていないが、図２等を参照して説明した環境センサ及び送受信ユニットが設けられている。特に、筐体１４０には環境センサとして少なくとも視覚センサが備えられており、これにより、ロボット１００の周囲環境（特に、ロボット１００の前方のロボットアーム１２０及びハンド１２２を含む環境）の視覚情報が取得可能である。本例において用いられるロボット（無人潜水機）１００のその他の構成は図２を参照して上記に説明したものと同様であるので、ここでは詳しい説明は省略する。また、本例において用いられるシステム構成及び制御方法は上記において説明したものと同様である。本例では、無人潜水機の形態のロボットのロボットアームの先端のロボットハンドで水中のパイプを把持するタスクに関して特徴的な点についてフォーカスして説明する。

　なお、図８はロボット（無人潜水機）１００の環境センサによって取得された環境情報に基づいて生成された仮想世界を表示したものである。ロボット（無人潜水機）１００の各部形状及び機能は少なくとも制御装置３００の記憶ユニット３４０にモデル化されて予め記憶されており、したがってシステム１において既知である。そのため、仮想世界内ではそのモデル化されたロボット（無人潜水機）１００が表示されている。一方、仮想世界内のパイプ６０はロボット（無人潜水機）１００の環境センサによって取得された環境情報に基づいて再現された状態で表示されている。パイプ６０は無人潜水機１００の環境センサによってある特定の方向からのみ撮影されているため、撮影した方向から認識できた形状で再現されており、その反対側の部分は再現されていない。図８において、パイプ６０の図面左側部分は形状が再現されているが、パイプ６０の図面右側部分は欠損した状態で表示されている。

　図９は、仮想世界内において図８に示したパイプの位置・姿勢を特定する様子を示す図である。

　図９は、図３に示すステップＳ３０５及びＳ３１０に従って制御装置３００によって生成された仮想世界を示している。本例においては、ディスプレイ３７０上の仮想世界内に表示されているパイプ６０に対して、上述した「２）オブジェクトをスキャンしてモデルを生成する」態様に従ってユーザがオブジェクトに対応するモデルを作成し、そのモデルを用いてオブジェクトの位置・姿勢を特性する。

　より具体的に説明すると、まず、スキャンしたオブジェクトであるパイプ６０を図９（ａ）に示すようにディスプレイ３７０上に表示する。次に、ユーザが、ディスプレイ３７０上に表示されるＵＩ画面内で、トラッカー３５０（図９にはこれに対応する仮想トラッカー３５０＿ｖｒが表示されている）を用いて、円筒形状のモデルを生成し（図９（ｂ））、これをディスプレイ３７０上に表示される仮想世界内でパイプ６０に重ね合わされるように移動し（図９（ｃ））、かつ直径及び長さを調節する（図９（ｄ））。このようにして、オブジェクトであるパイプ６０に対応するモデルの表示（図３のステップＳ３１５）と、オブジェクトへのモデルの重ね合わせ（図３のステップＳ３２０）が行われる。

　続いて、プロセッサ３２０は、オブジェクトであるパイプ６０の三次元形状データ（例えば三次元形状のエッジ及び／又は特徴点）と、モデルの三次元形状データとを比較し、パイプ６０の三次元形状の輪郭とモデルの三次元形状の輪郭とが一致するようにモデルの位置・姿勢を補正する。これにより、仮想世界内に表示されているパイプ６０が、ある容積空間を占める単なる物体ではなく、ユーザによって選択されたモデルに対応するオブジェクト（パイプ６０）であること、さらに、そのパイプ６０が仮想世界内にモデルの上記補正後の位置及び姿勢で存在することが制御装置３００において特定される（図３のステップＳ３２５）。

　このように位置・姿勢が特定されたパイプ６０は、例えば、モデルを表すコンピュータ・グラフィックス表現によって仮想パイプ６０＿ｖｒとして仮想世界内において表示される。これにより、例えば、パイプ６０の仮想オブジェクト（仮想パイプ６０＿ｖｒ）をロボット（無人潜水機）１００のロボットハンド１２２で把持する動作を指示すること等が可能となる。

［第２の例］
　図１０は、テーブルの上に置かれたマグカップ８０を示す図である。

　マグカップ８０は、取っ手８２と、本体８４とを有している。マグカップ８０の取っ手８２は、図１及び図２を参照して説明したロボット１００のアーム１２０に備えられたハンド１２２で把持することができ、ハンド１２２が取っ手８２を把持することで、ロボットアーム１２０によって例えばマグカップ８０をテーブル上で移動させることができる。

　図１１は、仮想世界内において図１０に示したテーブル上のマグカップ８０の位置・姿勢を特定する様子を示す図である。図１１は、図３に示すステップＳ３０５及びＳ３１０に従って制御装置３００によって生成された仮想世界を示している。

　本例においては、ディスプレイ３７０上の仮想世界内に表示されているマグカップ８０に対して、上述した「２）オブジェクトをスキャンしてモデルを生成する」態様に従ってユーザがオブジェクトに対応するモデルを作成し、そのモデルを用いてオブジェクトの位置・姿勢を特性する。

　より具体的に説明すると、まず、スキャンしたオブジェクトであるマグカップ８０を図１１（ａ）に示すようにディスプレイ３７０上に表示する。次に、ユーザが、ディスプレイ３７０上に表示されるＵＩ画面内で、トラッカー３５０（図１１にはこれに対応する仮想トラッカー３５０＿ｖｒが表示されている）を用いて、円筒形状のモデルを生成し、これをディスプレイ３７０上に表示される仮想世界内でマグカップ８０の本体８４に重ね合わされるように移動し（図１１（ａ））、かつ直径及び長さを調節する（図１１（ｂ））。このようにして、オブジェクトであるマグカップ８０の本体８４に対応するモデルの表示（図３のステップＳ３１５）と、オブジェクトへのモデルの重ね合わせ（図３のステップＳ３２０）が行われる。

　続いて、プロセッサ３２０は、オブジェクトである本体８４の三次元形状データ（例えば三次元形状のエッジ及び／又は特徴点）と、モデルの三次元形状データとを比較し、本体８４の三次元形状の輪郭とモデルの三次元形状の輪郭とが一致するようにモデルの位置・姿勢を補正する。これにより、仮想世界内に表示されている本体８４が、ある容積空間を占める単なる物体ではなく、ユーザによって選択されたモデルに対応するオブジェクト（本体８４）であること、さらに、その本体８４が仮想世界内にモデルの上記補正後の位置及び姿勢で存在することが制御装置３００において特定される（図３のステップＳ３２５）。

　マグカップ８０の取っ手８２についても同様に、トラッカー３５０（図１１に示す仮想トラッカー３５０＿ｖｒ）を用いて、マグカップ８０の取っ手８２に相当する直方体状のモデルを生成し、これをディスプレイ３７０上に表示される仮想世界内でマグカップ８０の取っ手８２に重ね合わされるように移動し、かつ高さ・幅・奥行きの寸法を調節する（図１１（ｄ））。このようにして、オブジェクトであるマグカップ８０の取っ手８２に対応するモデルの表示（図３のステップＳ３１５）と、オブジェクトへのモデルの重ね合わせ（図３のステップＳ３２０）が行われる。

　続いて、プロセッサ３２０は、オブジェクトである取っ手８２の三次元形状データ（例えば三次元形状のエッジ及び／又は特徴点）と、モデルの三次元形状データとを比較し、取っ手８２の三次元形状の輪郭とモデルの三次元形状の輪郭とが一致するようにモデルの位置・姿勢を補正する。これにより、仮想世界内に表示されている取っ手８２が、ある容積空間を占める単なる物体ではなく、ユーザによって選択されたモデルに対応するオブジェクト（取っ手８２）であること、さらに、その取っ手８２が仮想世界内にモデルの上記補正後の位置及び姿勢で存在することが制御装置３００において特定される（図３のステップＳ３２５）。

　次に、ユーザは、ディスプレイ３７０上に表示されるＵＩ画面内で、トラッカー３５０を用いて、マグカップ８０の取っ手８２と本体８４とが一体である旨の入力操作を行う。これにより、制御装置３００のプロセッサ３２０は、取っ手８２と本体８４とがそれぞれ特定された位置・姿勢において一体化したものであると認識する。

　このように位置・姿勢が特定されたマグカップ８０は、例えば、取っ手８２及び本体８４のモデルを表すコンピュータ・グラフィックス表現によって仮想マグカップとして仮想世界内において表示される。これにより、例えば、マグカップ８０の仮想オブジェクトを仮想世界内のロボット１００のロボットハンド１２２で把持して移動させる動作を仮想世界内で指示して（図１２（ａ））、現実世界のマグカップ８０を現実世界のロボット１００のロボットハンド１２２で把持して移動させることが可能となる（図１２（ｂ））。

　なお、本例ではマグカップ８０の取っ手８２と本体８４の位置・姿勢をそれぞれ特定する例を説明したが、例えばロボット１００のロボットハンド１２２で取っ手８２を把持してマグカップ８０を移動させる目的であれば、マグカップ８０の一部である取っ手８２についてのみ位置・姿勢を特定するようにしてもよい。

　本実施形態の方法により位置・姿勢を特定するオブジェクトについて種々の例を挙げて説明したが、本実施形態の方法により位置・姿勢を特定可能なオブジェクトは上記のオブジェクトに限られず、任意のオブジェクトに対して位置・姿勢を特定することが可能である。

　なお、本実施形態の説明ではロボットの形態としてハンドを有するアームを備えたロボット１００を例示したが、本発明によって制御されるロボットの形態はそれに限られず、例えば、ロボットの形態は車両、船舶、潜水機、ドローン、建設機械（ショベルカー、ブルドーザー、掘削機、クレーン等）等であってもよい。また、本実施形態のシステムを用いて動作させることができるロボットが使用される環境や用途としては、本実施形態で説明したものの他、宇宙開発、採鉱、採掘、資源採取、農業、林業、水産業、畜産業、捜索救助、災害支援、災害復旧、人道支援、爆発物処理、経路上における障害の除去、災害監視用、防犯監視等の多種多様な環境や用途がある。本実施形態のロボットによって操作されるオブジェクトは、ロボットが使用される環境や用途によって様々である。一例として、ロボットとしてショベルカーを用いる場合は、掘り出す土、砂等もオブジェクトである。

　以上、発明の実施形態を通じて本発明を説明したが、上述の実施形態は、特許請求の範囲に係る発明を限定するものではない。また、本発明の実施形態の中で説明されている特徴を組み合わせた形態も本発明の技術的範囲に含まれ得る。さらに、上述の実施形態に、多様な変更または改良を加えることが可能であることも当業者に明らかである。

１　ロボット制御システム
１００　ロボット
２００　制御ユニット
３００　制御装置

Claims

　オブジェクトの位置及び姿勢を特定する方法であって、
　現実世界の前記オブジェクトの表示を含む仮想世界を生成することと、
　前記仮想世界において、前記オブジェクトに対応するモデルを表示することと、
　前記仮想世界において、前記モデルを前記オブジェクトに重ね合わせることと、
　前記オブジェクトと前記モデルとを比較して、前記オブジェクトの位置及び姿勢を特定することと、
を含む方法。
　前記オブジェクトと前記モデルとの比較は、前記オブジェクトの三次元形状データと前記モデルの三次元形状データとを比較することを含む、請求項１に記載の方法。
　前記オブジェクトの三次元形状の輪郭と前記モデルの三次元形状の輪郭とが一致するように前記モデルの位置及び姿勢を補正することをさらに含む、請求項１に記載の方法。
　オブジェクトの位置及び姿勢を特定する装置であって、
　現実世界の前記オブジェクトの表示を含む仮想世界を生成することと、
　前記仮想世界において、前記オブジェクトに対応するモデルを表示することと、
　前記仮想世界において、前記モデルを前記オブジェクトに重ね合わせることと、
　前記オブジェクトと前記モデルとを比較して、前記オブジェクトの位置及び姿勢を特定することと、
を実行するように構成されたプロセッサを備えた装置。
　前記オブジェクトと前記モデルとの比較は、前記オブジェクトの三次元形状データと前記モデルの三次元形状データとを比較することを含む、請求項４に記載の装置。
　前記プロセッサはさらに、前記オブジェクトの三次元形状の輪郭と前記モデルの三次元形状の輪郭とが一致するように前記モデルの位置及び姿勢を補正することを実行するように構成されている、請求項４に記載の装置。
　プロセッサによって実行可能なコンピュータ・プログラムであって、請求項１～３のいずれか１項に記載の方法を実施する命令を含む、コンピュータ・プログラム。
　非一時的なコンピュータ可読媒体であって、請求項１～３のいずれか１項に記載の方法を実施する命令を含む、前記媒体に記憶され、プロセッサによって実行することができるコンピュータ・プログラムを含む、非一時的なコンピュータ可読媒体。