以下、この技術的思想の実施の形態について図面を参照しながら詳細に説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。本開示において示される1以上の実施形態において、各実施形態が含む要素を互いに組み合わせることができ、かつ、当該組み合わせられた結果物も本開示が示す実施形態の一部をなすものとする。
[HMDシステムの構成]
図1を参照して、HMD(Head-Mounted Device)システム100の構成について説明する。図1は、本実施の形態に従うHMDシステム100の構成の概略を表す図である。HMDシステム100は、家庭用のシステムとしてあるいは業務用のシステムとして提供される。
HMDシステム100は、サーバ600と、HMDセット110A,110B,110C,110Dと、外部機器700と、ネットワーク2とを含む。HMDセット110A,110B,110C,110Dの各々は、ネットワーク2を介してサーバ600や外部機器700と通信可能に構成される。以下、HMDセット110A,110B,110C,110Dを総称して、HMDセット110とも言う。HMDシステム100を構成するHMDセット110の数は、4つに限られず、3つ以下でも、5つ以上でもよい。HMDセット110は、HMD120と、コンピュータ200と、HMDセンサ410と、ディスプレイ430と、コントローラ300とを備える。HMD120は、モニタ130と、注視センサ140と、第1カメラ150と、第2カメラ160と、マイク170と、スピーカ180とを含む。コントローラ300は、モーションセンサ420を含み得る。
ある局面において、コンピュータ200は、インターネットその他のネットワーク2に接続可能であり、ネットワーク2に接続されているサーバ600その他のコンピュータと通信可能である。その他のコンピュータとしては、例えば、他のHMDセット110のコンピュータや外部機器700が挙げられる。別の局面において、HMD120は、HMDセンサ410の代わりに、センサ190を含み得る。
HMD120は、ユーザ5の頭部に装着され、動作中に仮想空間をユーザ5に提供し得る。より具体的には、HMD120は、右目用の画像および左目用の画像をモニタ130にそれぞれ表示する。ユーザ5の各目がそれぞれの画像を視認すると、ユーザ5は、両目の視差に基づき当該画像を3次元画像として認識し得る。HMD120は、モニタを備える所謂ヘッドマウントディスプレイと、スマートフォンその他のモニタを有する端末を装着可能なヘッドマウント機器のいずれをも含み得る。
モニタ130は、例えば、非透過型の表示装置として実現される。ある局面において、モニタ130は、ユーザ5の両目の前方に位置するようにHMD120の本体に配置されている。したがって、ユーザ5は、モニタ130に表示される3次元画像を視認すると、仮想空間に没入することができる。ある局面において、仮想空間は、例えば、背景、ユーザ5が操作可能なオブジェクト、ユーザ5が選択可能なメニューの画像を含む。ある局面において、モニタ130は、所謂スマートフォンその他の情報表示端末が備える液晶モニタまたは有機EL(Electro Luminescence)モニタとして実現され得る。
別の局面において、モニタ130は、透過型の表示装置として実現され得る。この場合、HMD120は、図1に示されるようにユーザ5の目を覆う密閉型ではなく、メガネ型のような開放型であり得る。透過型のモニタ130は、その透過率を調整することにより、一時的に非透過型の表示装置として構成可能であってもよい。モニタ130は、仮想空間を構成する画像の一部と、現実空間とを同時に表示する構成を含んでいてもよい。例えば、モニタ130は、HMD120に搭載されたカメラで撮影した現実空間の画像を表示してもよいし、一部の透過率を高く設定することにより現実空間を視認可能にしてもよい。
ある局面において、モニタ130は、右目用の画像を表示するためのサブモニタと、左目用の画像を表示するためのサブモニタとを含み得る。別の局面において、モニタ130は、右目用の画像と左目用の画像とを一体として表示する構成であってもよい。この場合、モニタ130は、高速シャッタを含む。高速シャッタは、画像がいずれか一方の目にのみ認識されるように、右目用の画像と左目用の画像とを交互に表示可能に作動する。
ある局面において、HMD120は、図示せぬ複数の光源を含む。各光源は例えば、赤外線を発するLED(Light Emitting Diode)により実現される。HMDセンサ410は、HMD120の動きを検出するためのポジショントラッキング機能を有する。より具体的には、HMDセンサ410は、HMD120が発する複数の赤外線を読み取り、現実空間内におけるHMD120の位置および傾きを検出する。
別の局面において、HMDセンサ410は、カメラにより実現されてもよい。この場合、HMDセンサ410は、カメラから出力されるHMD120の画像情報を用いて、画像解析処理を実行することにより、HMD120の位置および傾きを検出することができる。
別の局面において、HMD120は、位置検出器として、HMDセンサ410の代わりに、あるいはHMDセンサ410に加えてセンサ190を備えてもよい。HMD120は、センサ190を用いて、HMD120自身の位置および傾きを検出し得る。例えば、センサ190が角速度センサ、地磁気センサ、あるいは加速度センサである場合、HMD120は、HMDセンサ410の代わりに、これらの各センサのいずれかを用いて、自身の位置および傾きを検出し得る。一例として、センサ190が角速度センサである場合、角速度センサは、現実空間におけるHMD120の3軸周りの角速度を経時的に検出する。HMD120は、各角速度に基づいて、HMD120の3軸周りの角度の時間的変化を算出し、さらに、角度の時間的変化に基づいて、HMD120の傾きを算出する。
注視センサ140は、ユーザ5の右目および左目の視線が向けられる方向を検出する。つまり、注視センサ140は、ユーザ5の視線を検出する。視線の方向の検出は、例えば、公知のアイトラッキング機能によって実現される。注視センサ140は、当該アイトラッキング機能を有するセンサにより実現される。ある局面において、注視センサ140は、右目用のセンサおよび左目用のセンサを含むことが好ましい。注視センサ140は、例えば、ユーザ5の右目および左目に赤外線を照射するとともに、照射光に対する角膜および虹彩からの反射光を受けることにより各眼球の回転角を検出するセンサであってもよい。注視センサ140は、検出した各回転角に基づいて、ユーザ5の視線を検知することができる。
第1カメラ150は、ユーザ5の顔の下部を撮影する。より具体的には、第1カメラ150は、ユーザ5の鼻および口などを撮影する。第2カメラ160は、ユーザ5の目および眉などを撮影する。HMD120のユーザ5側の筐体をHMD120の内側、HMD120のユーザ5とは逆側の筐体をHMD120の外側と定義する。ある局面において、第1カメラ150は、HMD120の外側に配置され、第2カメラ160は、HMD120の内側に配置され得る。第1カメラ150および第2カメラ160が生成した画像は、コンピュータ200に入力される。別の局面において、第1カメラ150と第2カメラ160とを1台のカメラとして実現し、この1台のカメラでユーザ5の顔を撮影するようにしてもよい。
マイク170は、ユーザ5の発話を音声信号(電気信号)に変換してコンピュータ200に出力する。スピーカ180は、音声信号を音声に変換してユーザ5に出力する。別の局面において、HMD120は、スピーカ180に替えてイヤホンを含み得る。
コントローラ300は、有線または無線によりコンピュータ200に接続されている。コントローラ300は、ユーザ5からコンピュータ200への命令の入力を受け付ける。ある局面において、コントローラ300は、ユーザ5によって把持可能に構成される。別の局面において、コントローラ300は、ユーザ5の身体あるいは衣類の一部に装着可能に構成される。さらに別の局面において、コントローラ300は、コンピュータ200から送信される信号に基づいて、振動、音、光のうちの少なくともいずれかを出力するように構成されてもよい。さらに別の局面において、コントローラ300は、ユーザ5から、仮想空間に配置されるオブジェクトの位置や動きを制御するための操作を受け付ける。
ある局面において、コントローラ300は、複数の光源を含む。各光源は例えば、赤外線を発するLEDにより実現される。HMDセンサ410は、ポジショントラッキング機能を有する。この場合、HMDセンサ410は、コントローラ300が発する複数の赤外線を読み取り、現実空間内におけるコントローラ300の位置および傾きを検出する。別の局面において、HMDセンサ410は、カメラにより実現されてもよい。この場合、HMDセンサ410は、カメラから出力されるコントローラ300の画像情報を用いて、画像解析処理を実行することにより、コントローラ300の位置および傾きを検出することができる。
モーションセンサ420は、ある局面において、ユーザ5の手に取り付けられて、ユーザ5の手の動きを検出する。例えば、モーションセンサ420は、手の回転速度、回転数等を検出する。検出された信号は、コンピュータ200に送られる。モーションセンサ420は、例えば、コントローラ300に設けられている。ある局面において、モーションセンサ420は、例えば、ユーザ5に把持可能に構成されたコントローラ300に設けられている。別の局面において、現実空間における安全のため、コントローラ300は、手袋型のようにユーザ5の手に装着されることにより容易に飛んで行かないものに装着される。さらに別の局面において、ユーザ5に装着されないセンサがユーザ5の手の動きを検出してもよい。例えば、ユーザ5を撮影するカメラの信号が、ユーザ5の動作を表わす信号として、コンピュータ200に入力されてもよい。モーションセンサ420とコンピュータ200とは、一例として、無線により互いに接続される。無線の場合、通信形態は特に限られず、例えば、Bluetooth(登録商標)その他の公知の通信手法が用いられる。
ディスプレイ430は、モニタ130に表示されている画像と同様の画像を表示する。これにより、HMD120を装着しているユーザ5以外のユーザにも当該ユーザ5と同様の画像を視聴させることができる。ディスプレイ430に表示される画像は、3次元画像である必要はなく、右目用の画像や左目用の画像であってもよい。ディスプレイ430としては、例えば、液晶ディスプレイや有機ELモニタなどが挙げられる。
サーバ600は、コンピュータ200にプログラムを送信し得る。別の局面において、サーバ600は、他のユーザによって使用されるHMD120に仮想現実を提供するための他のコンピュータ200と通信し得る。例えば、アミューズメント施設において、複数のユーザが参加型のゲームを行なう場合、各コンピュータ200は、各ユーザの動作に基づく信号をサーバ600を介して他のコンピュータ200と通信して、同じ仮想空間において複数のユーザが共通のゲームを楽しむことを可能にする。各コンピュータ200は、各ユーザの動作に基づく信号をサーバ600を介さずに他のコンピュータ200と通信するようにしてもよい。
外部機器700は、コンピュータ200と通信可能な機器であればどのような機器であってもよい。外部機器700は、例えば、ネットワーク2を介してコンピュータ200と通信可能な機器であってもよいし、近距離無線通信や有線接続によりコンピュータ200と直接通信可能な機器であってもよい。外部機器700としては、例えば、スマートデバイス、PC(Personal Computer)、及びコンピュータ200の周辺機器などが挙げられるが、これらに限定されるものではない。
[コンピュータのハードウェア構成]
図2を参照して、本実施の形態に係るコンピュータ200について説明する。図2は、本実施の形態に従うコンピュータ200のハードウェア構成の一例を表すブロック図である。コンピュータ200は、主たる構成要素として、プロセッサ210と、メモリ220と、ストレージ230と、入出力インターフェイス240と、通信インターフェイス250とを備える。各構成要素は、それぞれ、バス260に接続されている。
プロセッサ210は、コンピュータ200に与えられる信号に基づいて、あるいは、予め定められた条件が成立したことに基づいて、メモリ220またはストレージ230に格納されているプログラムに含まれる一連の命令を実行する。ある局面において、プロセッサ210は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、MPU(Micro Processor Unit)、FPGA(Field-Programmable Gate Array)その他のデバイスとして実現される。
メモリ220は、プログラムおよびデータを一時的に保存する。プログラムは、例えば、ストレージ230からロードされる。データは、コンピュータ200に入力されたデータと、プロセッサ210によって生成されたデータとを含む。ある局面において、メモリ220は、RAM(Random Access Memory)その他の揮発メモリとして実現される。
ストレージ230は、プログラムおよびデータを永続的に保持する。ストレージ230は、例えば、ROM(Read-Only Memory)、ハードディスク装置、フラッシュメモリ、その他の不揮発記憶装置として実現される。ストレージ230に格納されるプログラムは、HMDシステム100において仮想空間を提供するためのプログラム、シミュレーションプログラム、ゲームプログラム、ユーザ認証プログラム、他のコンピュータ200との通信を実現するためのプログラムを含む。ストレージ230に格納されるデータは、仮想空間を規定するためのデータおよびオブジェクト等を含む。
別の局面において、ストレージ230は、メモリカードのように着脱可能な記憶装置として実現されてもよい。さらに別の局面において、コンピュータ200に内蔵されたストレージ230の代わりに、外部の記憶装置に保存されているプログラムおよびデータを使用する構成が使用されてもよい。このような構成によれば、例えば、アミューズメント施設のように複数のHMDシステム100が使用される場面において、プログラムやデータの更新を一括して行なうことが可能になる。
入出力インターフェイス240は、HMD120、HMDセンサ410、モーションセンサ420およびディスプレイ430との間で信号を通信する。HMD120に含まれるモニタ130,注視センサ140,第1カメラ150,第2カメラ160,マイク170およびスピーカ180は、HMD120の入出力インターフェイス240を介してコンピュータ200との通信を行ない得る。ある局面において、入出力インターフェイス240は、USB(Universal Serial Bus)、DVI(Digital Visual Interface)、HDMI(登録商標)(High-Definition Multimedia Interface)その他の端子を用いて実現される。入出力インターフェイス240は上述のものに限られない。
ある局面において、入出力インターフェイス240は、さらに、コントローラ300と通信し得る。例えば、入出力インターフェイス240は、コントローラ300およびモーションセンサ420から出力された信号の入力を受ける。別の局面において、入出力インターフェイス240は、プロセッサ210から出力された命令を、コントローラ300に送る。当該命令は、振動、音声出力、発光等をコントローラ300に指示する。コントローラ300は、当該命令を受信すると、その命令に応じて、振動、音声出力または発光のいずれかを実行する。
通信インターフェイス250は、ネットワーク2に接続されて、ネットワーク2に接続されている他のコンピュータ(例えば、サーバ600)と通信する。ある局面において、通信インターフェイス250は、例えば、LAN(Local Area Network)その他の有線通信インターフェイス、あるいは、WiFi(Wireless Fidelity)、Bluetooth(登録商標)、NFC(Near Field Communication)その他の無線通信インターフェイスとして実現される。通信インターフェイス250は上述のものに限られない。
ある局面において、プロセッサ210は、ストレージ230にアクセスし、ストレージ230に格納されている1つ以上のプログラムをメモリ220にロードし、当該プログラムに含まれる一連の命令を実行する。当該1つ以上のプログラムは、コンピュータ200のオペレーティングシステム、仮想空間を提供するためのアプリケーションプログラム、仮想空間で実行可能なゲームソフトウェア等を含み得る。プロセッサ210は、入出力インターフェイス240を介して、仮想空間を提供するための信号をHMD120に送る。HMD120は、その信号に基づいてモニタ130に映像を表示する。
図2に示される例では、コンピュータ200は、HMD120の外部に設けられる構成が示されているが、別の局面において、コンピュータ200は、HMD120に内蔵されてもよい。一例として、モニタ130を含む携帯型の情報通信端末(例えば、スマートフォン)がコンピュータ200として機能してもよい。
コンピュータ200は、複数のHMD120に共通して用いられる構成であってもよい。このような構成によれば、例えば、複数のユーザに同一の仮想空間を提供することもできるので、各ユーザは同一の仮想空間で他のユーザと同一のアプリケーションを楽しむことができる。
ある実施の形態において、HMDシステム100では、現実空間における座標系である実座標系が予め設定されている。実座標系は、現実空間における鉛直方向、鉛直方向に直交する水平方向、並びに、鉛直方向および水平方向の双方に直交する前後方向にそれぞれ平行な、3つの基準方向(軸)を有する。実座標系における水平方向、鉛直方向(上下方向)、および前後方向は、それぞれ、x軸、y軸、z軸と規定される。より具体的には、実座標系において、x軸は現実空間の水平方向に平行である。y軸は、現実空間の鉛直方向に平行である。z軸は現実空間の前後方向に平行である。
ある局面において、HMDセンサ410は、赤外線センサを含む。赤外線センサが、HMD120の各光源から発せられた赤外線をそれぞれ検出すると、HMD120の存在を検出する。HMDセンサ410は、さらに、各点の値(実座標系における各座標値)に基づいて、HMD120を装着したユーザ5の動きに応じた、現実空間内におけるHMD120の位置および傾き(向き)を検出する。より詳しくは、HMDセンサ410は、経時的に検出された各値を用いて、HMD120の位置および傾きの時間的変化を検出できる。
HMDセンサ410によって検出されたHMD120の各傾きは、実座標系におけるHMD120の3軸周りの各傾きに相当する。HMDセンサ410は、実座標系におけるHMD120の傾きに基づき、uvw視野座標系をHMD120に設定する。HMD120に設定されるuvw視野座標系は、HMD120を装着したユーザ5が仮想空間において物体を見る際の視点座標系に対応する。
[uvw視野座標系]
図3を参照して、uvw視野座標系について説明する。図3は、ある実施の形態に従うHMD120に設定されるuvw視野座標系を概念的に表す図である。HMDセンサ410は、HMD120の起動時に、実座標系におけるHMD120の位置および傾きを検出する。プロセッサ210は、検出された値に基づいて、uvw視野座標系をHMD120に設定する。
図3に示されるように、HMD120は、HMD120を装着したユーザ5の頭部を中心(原点)とした3次元のuvw視野座標系を設定する。より具体的には、HMD120は、実座標系を規定する水平方向、鉛直方向、および前後方向(x軸、y軸、z軸)を、実座標系内においてHMD120の各軸周りの傾きだけ各軸周りにそれぞれ傾けることによって新たに得られる3つの方向を、HMD120におけるuvw視野座標系のピッチ軸(u軸)、ヨー軸(v軸)、およびロール軸(w軸)として設定する。
ある局面において、HMD120を装着したユーザ5が直立し、かつ、正面を視認している場合、プロセッサ210は、実座標系に平行なuvw視野座標系をHMD120に設定する。この場合、実座標系における水平方向(x軸)、鉛直方向(y軸)、および前後方向(z軸)は、HMD120におけるuvw視野座標系のピッチ軸(u軸)、ヨー軸(v軸)、およびロール軸(w軸)に一致する。
uvw視野座標系がHMD120に設定された後、HMDセンサ410は、HMD120の動きに基づいて、設定されたuvw視野座標系におけるHMD120の傾きを検出できる。この場合、HMDセンサ410は、HMD120の傾きとして、uvw視野座標系におけるHMD120のピッチ角(θu)、ヨー角(θv)、およびロール角(θw)をそれぞれ検出する。ピッチ角(θu)は、uvw視野座標系におけるピッチ軸周りのHMD120の傾き角度を表す。ヨー角(θv)は、uvw視野座標系におけるヨー軸周りのHMD120の傾き角度を表す。ロール角(θw)は、uvw視野座標系におけるロール軸周りのHMD120の傾き角度を表す。
HMDセンサ410は、検出されたHMD120の傾きに基づいて、HMD120が動いた後のHMD120におけるuvw視野座標系を、HMD120に設定する。HMD120と、HMD120のuvw視野座標系との関係は、HMD120の位置および傾きに関わらず、常に一定である。HMD120の位置および傾きが変わると、当該位置および傾きの変化に連動して、実座標系におけるHMD120のuvw視野座標系の位置および傾きが変化する。
ある局面において、HMDセンサ410は、赤外線センサからの出力に基づいて取得される赤外線の光強度および複数の点間の相対的な位置関係(例えば、各点間の距離など)に基づいて、HMD120の現実空間内における位置を、HMDセンサ410に対する相対位置として特定してもよい。プロセッサ210は、特定された相対位置に基づいて、現実空間内(実座標系)におけるHMD120のuvw視野座標系の原点を決定してもよい。
[仮想空間]
図4を参照して、仮想空間についてさらに説明する。図4は、ある実施の形態に従う仮想空間11を表現する一態様を概念的に表す図である。仮想空間11は、中心12の360度方向の全体を覆う全天球状の構造を有する。図4では、説明を複雑にしないために、仮想空間11のうちの上半分の天球が例示されている。仮想空間11では各メッシュが規定される。各メッシュの位置は、仮想空間11に規定されるグローバル座標系であるXYZ座標系における座標値として予め規定されている。コンピュータ200は、仮想空間11に展開可能なパノラマ画像13(静止画、動画等)を構成する各部分画像を、仮想空間11において対応する各メッシュにそれぞれ対応付ける。
ある局面において、仮想空間11では、中心12を原点とするXYZ座標系が規定される。XYZ座標系は、例えば、実座標系に平行である。XYZ座標系における水平方向、鉛直方向(上下方向)、および前後方向は、それぞれX軸、Y軸、Z軸として規定される。したがって、XYZ座標系のX軸(水平方向)が実座標系のx軸と平行であり、XYZ座標系のY軸(鉛直方向)が実座標系のy軸と平行であり、XYZ座標系のZ軸(前後方向)が実座標系のz軸と平行である。
HMD120の起動時、すなわちHMD120の初期状態において、仮想カメラ14が、仮想空間11の中心12に配置される。ある局面において、プロセッサ210は、仮想カメラ14が撮影する画像をHMD120のモニタ130に表示する。仮想カメラ14は、現実空間におけるHMD120の動きに連動して、仮想空間11を同様に移動する。これにより、現実空間におけるHMD120の位置および傾きの変化が、仮想空間11において同様に再現され得る。
仮想カメラ14には、HMD120の場合と同様に、uvw視野座標系が規定される。仮想空間11における仮想カメラ14のuvw視野座標系は、現実空間(実座標系)におけるHMD120のuvw視野座標系に連動するように規定されている。したがって、HMD120の傾きが変化すると、それに応じて、仮想カメラ14の傾きも変化する。仮想カメラ14は、HMD120を装着したユーザ5の現実空間における移動に連動して、仮想空間11において移動することもできる。
コンピュータ200のプロセッサ210は、仮想カメラ14の位置と傾き(基準視線16)とに基づいて、仮想空間11における視界領域15を規定する。視界領域15は、仮想空間11のうち、HMD120を装着したユーザ5が視認する領域に対応する。つまり、仮想カメラ14の位置は、仮想空間11におけるユーザ5の視点と言える。
注視センサ140によって検出されるユーザ5の視線は、ユーザ5が物体を視認する際の視点座標系における方向である。HMD120のuvw視野座標系は、ユーザ5がモニタ130を視認する際の視点座標系に等しい。仮想カメラ14のuvw視野座標系は、HMD120のuvw視野座標系に連動している。したがって、ある局面に従うHMDシステム100は、注視センサ140によって検出されたユーザ5の視線を、仮想カメラ14のuvw視野座標系におけるユーザ5の視線とみなすことができる。
[ユーザの視線]
図5を参照して、ユーザ5の視線の決定について説明する。図5は、ある実施の形態に従うHMD120を装着するユーザ5の頭部を上から表した図である。
ある局面において、注視センサ140は、ユーザ5の右目および左目の各視線を検出する。ある局面において、ユーザ5が近くを見ている場合、注視センサ140は、視線R1およびL1を検出する。別の局面において、ユーザ5が遠くを見ている場合、注視センサ140は、視線R2およびL2を検出する。この場合、ロール軸wに対して視線R2およびL2が成す角度は、ロール軸wに対して視線R1およびL1が成す角度よりも小さい。注視センサ140は、検出結果をコンピュータ200に送信する。
コンピュータ200が、視線の検出結果として、視線R1およびL1の検出値を注視センサ140から受信した場合には、その検出値に基づいて、視線R1およびL1の交点である注視点N1を特定する。一方、コンピュータ200は、視線R2およびL2の検出値を注視センサ140から受信した場合には、視線R2およびL2の交点を注視点として特定する。コンピュータ200は、特定した注視点N1の位置に基づき、ユーザ5の視線N0を特定する。コンピュータ200は、例えば、ユーザ5の右目Rと左目Lとを結ぶ直線の中点と、注視点N1とを通る直線の延びる方向を、視線N0として検出する。視線N0は、ユーザ5が両目により実際に視線を向けている方向である。視線N0は、視界領域15に対してユーザ5が実際に視線を向けている方向に相当する。
別の局面において、HMDシステム100は、テレビジョン放送受信チューナを備えてもよい。このような構成によれば、HMDシステム100は、仮想空間11においてテレビ番組を表示することができる。
さらに別の局面において、HMDシステム100は、インターネットに接続するための通信回路、あるいは、電話回線に接続するための通話機能を備えていてもよい。
[視界領域]
図6および図7を参照して、視界領域15について説明する。図6は、仮想空間11において視界領域15をX方向から見たYZ断面を表す図である。図7は、仮想空間11において視界領域15をY方向から見たXZ断面を表す図である。
図6に示されるように、YZ断面における視界領域15は、領域18を含む。領域18は、仮想カメラ14の位置と基準視線16と仮想空間11のYZ断面とによって定義される。プロセッサ210は、仮想空間における基準視線16を中心として極角αを含む範囲を、領域18として規定する。
図7に示されるように、XZ断面における視界領域15は、領域19を含む。領域19は、仮想カメラ14の位置と基準視線16と仮想空間11のXZ断面とによって定義される。プロセッサ210は、仮想空間11における基準視線16を中心とした方位角βを含む範囲を、領域19として規定する。極角αおよびβは、仮想カメラ14の位置と仮想カメラ14の傾き(向き)とに応じて定まる。
ある局面において、HMDシステム100は、コンピュータ200からの信号に基づいて、視界画像17をモニタ130に表示させることにより、ユーザ5に仮想空間11における視界を提供する。視界画像17は、パノラマ画像13のうち視界領域15に対応する部分に相当する画像である。ユーザ5が、頭部に装着したHMD120を動かすと、その動きに連動して仮想カメラ14も動く。その結果、仮想空間11における視界領域15の位置が変化する。これにより、モニタ130に表示される視界画像17は、パノラマ画像13のうち、仮想空間11においてユーザ5が向いた方向の視界領域15に重畳する画像に更新される。ユーザ5は、仮想空間11における所望の方向を視認することができる。
このように、仮想カメラ14の傾きは仮想空間11におけるユーザ5の視線(基準視線16)に相当し、仮想カメラ14が配置される位置は、仮想空間11におけるユーザ5の視点に相当する。したがって、仮想カメラ14の位置または傾きを変更することにより、モニタ130に表示される画像が更新され、ユーザ5の視界が移動される。
ユーザ5は、HMD120を装着している間、現実世界を視認することなく、仮想空間11に展開されるパノラマ画像13のみを視認できる。そのため、HMDシステム100は、仮想空間11への高い没入感覚をユーザ5に与えることができる。
ある局面において、プロセッサ210は、HMD120を装着したユーザ5の現実空間における移動に連動して、仮想空間11において仮想カメラ14を移動し得る。この場合、プロセッサ210は、仮想空間11における仮想カメラ14の位置および傾きに基づいて、HMD120のモニタ130に投影される画像領域(視界領域15)を特定する。
ある局面において、仮想カメラ14は、2つの仮想カメラ、すなわち、右目用の画像を提供するための仮想カメラと、左目用の画像を提供するための仮想カメラとを含み得る。ユーザ5が3次元の仮想空間11を認識できるように、適切な視差が、2つの仮想カメラに設定される。別の局面において、仮想カメラ14を1つの仮想カメラにより実現してもよい。この場合、1つの仮想カメラにより得られた画像から、右目用の画像と左目用の画像とを生成するようにしてもよい。本実施の形態においては、仮想カメラ14が2つの仮想カメラを含み、2つの仮想カメラのロール軸が合成されることによって生成されるロール軸(w)がHMD120のロール軸(w)に適合されるように構成されているものとして、本開示に係る技術思想を例示する。
[コントローラ]
図8を参照して、コントローラ300の一例について説明する。図8は、ある実施の形態に従うコントローラ300の概略構成を表す図である。
図8に示されるように、ある局面において、コントローラ300は、右コントローラ300Rと図示せぬ左コントローラとを含み得る。右コントローラ300Rは、ユーザ5の右手で操作される。左コントローラは、ユーザ5の左手で操作される。ある局面において、右コントローラ300Rと左コントローラとは、別個の装置として対称に構成される。したがって、ユーザ5は、右コントローラ300Rを把持した右手と、左コントローラを把持した左手とをそれぞれ自由に動かすことができる。別の局面において、コントローラ300は両手の操作を受け付ける一体型のコントローラであってもよい。以下、右コントローラ300Rについて説明する。
右コントローラ300Rは、グリップ310と、フレーム320と、天面330とを備える。グリップ310は、ユーザ5の右手によって把持されるように構成されている。たとえば、グリップ310は、ユーザ5の右手の掌と3本の指(中指、薬指、小指)とによって保持され得る。
グリップ310は、ボタン340,350と、モーションセンサ420とを含む。ボタン340は、グリップ310の側面に配置され、右手の中指による操作を受け付ける。ボタン350は、グリップ310の前面に配置され、右手の人差し指による操作を受け付ける。ある局面において、ボタン340,350は、トリガー式のボタンとして構成される。モーションセンサ420は、グリップ310の筐体に内蔵されている。ユーザ5の動作がカメラその他の装置によってユーザ5の周りから検出可能である場合には、グリップ310は、モーションセンサ420を備えなくてもよい。
フレーム320は、その円周方向に沿って配置された複数の赤外線LED360を含む。赤外線LED360は、コントローラ300を使用するプログラムの実行中に、当該プログラムの進行に合わせて赤外線を発光する。赤外線LED360から発せられた赤外線は、右コントローラ300Rと左コントローラとの各位置や姿勢(傾き、向き)を検出するために使用され得る。図8に示される例では、二列に配置された赤外線LED360が示されているが、配列の数は図8に示されるものに限られない。一列あるいは3列以上の配列が使用されてもよい。
天面330は、ボタン370,380と、アナログスティック390とを備える。ボタン370,380は、プッシュ式ボタンとして構成される。ボタン370,380は、ユーザ5の右手の親指による操作を受け付ける。アナログスティック390は、ある局面において、初期位置(ニュートラルの位置)から360度任意の方向への操作を受け付ける。当該操作は、たとえば、仮想空間11に配置されるオブジェクトを移動するための操作を含む。
ある局面において、右コントローラ300Rおよび左コントローラは、赤外線LED360その他の部材を駆動するための電池を含む。電池は、充電式、ボタン型、乾電池型などを含むが、これらに限定されない。別の局面において、右コントローラ300Rと左コントローラは、たとえば、コンピュータ200のUSBインターフェースに接続され得る。この場合、右コントローラ300Rおよび左コントローラは、電池を必要としない。
図8の状態(A)および状態(B)に示されるように、例えば、ユーザ5の右手に対して、ヨー、ロール、ピッチの各方向が規定される。ユーザ5が親指と人差し指とを伸ばした場合に、親指の伸びる方向がヨー方向、人差し指の伸びる方向がロール方向、ヨー方向の軸およびロール方向の軸によって規定される平面に垂直な方向がピッチ方向として規定される。
[サーバのハードウェア構成]
図9を参照して、本実施の形態に係るサーバ600について説明する。図9は、ある実施の形態に従うサーバ600のハードウェア構成の一例を表すブロック図である。サーバ600は、主たる構成要素として、プロセッサ610と、メモリ620と、ストレージ630と、入出力インターフェイス640と、通信インターフェイス650とを備える。各構成要素は、それぞれ、バス660に接続されている。
プロセッサ610は、サーバ600に与えられる信号に基づいて、あるいは、予め定められた条件が成立したことに基づいて、メモリ620またはストレージ630に格納されているプログラムに含まれる一連の命令を実行する。ある局面において、プロセッサ610は、CPU、GPU、MPU、FPGAその他のデバイスとして実現される。
メモリ620は、プログラムおよびデータを一時的に保存する。プログラムは、例えば、ストレージ630からロードされる。データは、サーバ600に入力されたデータと、プロセッサ610によって生成されたデータとを含む。ある局面において、メモリ620は、RAMその他の揮発メモリとして実現される。
ストレージ630は、プログラムおよびデータを永続的に保持する。ストレージ630は、例えば、ROM、ハードディスク装置、フラッシュメモリ、その他の不揮発記憶装置として実現される。ストレージ630に格納されるプログラムは、HMDシステム100において仮想空間を提供するためのプログラム、シミュレーションプログラム、ゲームプログラム、ユーザ認証プログラム、コンピュータ200との通信を実現するためのプログラムを含んでもよい。ストレージ630に格納されるデータは、仮想空間を規定するためのデータおよびオブジェクト等を含んでもよい。
別の局面において、ストレージ630は、メモリカードのように着脱可能な記憶装置として実現されてもよい。さらに別の局面において、サーバ600に内蔵されたストレージ630の代わりに、外部の記憶装置に保存されているプログラムおよびデータを使用する構成が使用されてもよい。このような構成によれば、例えば、アミューズメント施設のように複数のHMDシステム100が使用される場面において、プログラムやデータの更新を一括して行なうことが可能になる。
入出力インターフェイス640は、入出力機器との間で信号を通信する。ある局面において、入出力インターフェイス640は、USB、DVI、HDMIその他の端子を用いて実現される。入出力インターフェイス640は上述のものに限られない。
通信インターフェイス650は、ネットワーク2に接続されて、ネットワーク2に接続されているコンピュータ200と通信する。ある局面において、通信インターフェイス650は、例えば、LANその他の有線通信インターフェイス、あるいは、WiFi、Bluetooth、NFCその他の無線通信インターフェイスとして実現される。通信インターフェイス650は上述のものに限られない。
ある局面において、プロセッサ610は、ストレージ630にアクセスし、ストレージ630に格納されている1つ以上のプログラムをメモリ620にロードし、当該プログラムに含まれる一連の命令を実行する。当該1つ以上のプログラムは、サーバ600のオペレーティングシステム、仮想空間を提供するためのアプリケーションプログラム、仮想空間で実行可能なゲームソフトウェア等を含み得る。プロセッサ610は、入出力インターフェイス640を介して、仮想空間を提供するための信号をコンピュータ200に送ってもよい。
[HMDの制御装置]
図10を参照して、HMD120の制御装置について説明する。ある実施の形態において、制御装置は周知の構成を有するコンピュータ200によって実現される。図10は、ある実施の形態に従うコンピュータ200をモジュール構成として表わすブロック図である。
図10に示されるように、コンピュータ200は、コントロールモジュール510と、レンダリングモジュール520と、メモリモジュール530と、通信制御モジュール540とを備える。ある局面において、コントロールモジュール510とレンダリングモジュール520とは、プロセッサ210によって実現される。別の局面において、複数のプロセッサ210がコントロールモジュール510とレンダリングモジュール520として作動してもよい。メモリモジュール530は、メモリ220またはストレージ230によって実現される。通信制御モジュール540は、通信インターフェイス250によって実現される。
コントロールモジュール510は、ユーザ5に提供される仮想空間11を制御する。コントロールモジュール510は、仮想空間11を表す仮想空間データを用いて、HMDシステム100における仮想空間11を規定する。仮想空間データは、例えば、メモリモジュール530に記憶されている。コントロールモジュール510が、仮想空間データを生成したり、サーバ600などから仮想空間データを取得するようにしたりしてもよい。
コントロールモジュール510は、オブジェクトを表すオブジェクトデータを用いて、仮想空間11にオブジェクトを配置する。オブジェクトデータは、例えば、メモリモジュール530に記憶されている。コントロールモジュール510が、オブジェクトデータを生成したり、サーバ600などからオブジェクトデータを取得するようにしたりしてもよい。オブジェクトは、例えば、ユーザ5の分身であるアバターオブジェクト、キャラクタオブジェクト、コントローラ300によって操作される仮想手などの操作オブジェクト、ゲームのストーリーの進行に従って配置される森、山その他を含む風景、街並み、動物等を含み得る。
コントロールモジュール510は、ネットワーク2を介して接続される他のコンピュータ200のユーザ5のアバターオブジェクトを仮想空間11に配置する。ある局面において、コントロールモジュール510は、ユーザ5のアバターオブジェクトを仮想空間11に配置する。ある局面において、コントロールモジュール510は、ユーザ5を含む画像に基づいて、ユーザ5を模したアバターオブジェクトを仮想空間11に配置する。別の局面において、コントロールモジュール510は、複数種類のアバターオブジェクト(例えば、動物を模したオブジェクトや、デフォルメされた人のオブジェクト)の中からユーザ5による選択を受け付けたアバターオブジェクトを仮想空間11に配置する。
コントロールモジュール510は、HMDセンサ410の出力に基づいてHMD120の傾きを特定する。別の局面において、コントロールモジュール510は、モーションセンサとして機能するセンサ190の出力に基づいてHMD120の傾きを特定する。コントロールモジュール510は、第1カメラ150および第2カメラ160が生成するユーザ5の顔の画像から、ユーザ5の顔を構成する器官(例えば、口,目,眉)を検出する。コントロールモジュール510は、検出した各器官の動き(形状)を検出する。
コントロールモジュール510は、注視センサ140からの信号に基づいて、ユーザ5の仮想空間11における視線を検出する。コントロールモジュール510は、検出したユーザ5の視線と仮想空間11の天球とが交わる視点位置(XYZ座標系における座標値)を検出する。より具体的には、コントロールモジュール510は、uvw座標系で規定されるユーザ5の視線と、仮想カメラ14の位置および傾きとに基づいて、視点位置を検出する。コントロールモジュール510は、検出した視点位置をサーバ600に送信する。別の局面において、コントロールモジュール510は、ユーザ5の視線を表す視線情報をサーバ600に送信するように構成されてもよい。係る場合、サーバ600が受信した視線情報に基づいて視点位置を算出し得る。
コントロールモジュール510は、HMDセンサ410が検出するHMD120の動きをアバターオブジェクトに反映する。例えば、コントロールモジュール510は、HMD120が傾いたことを検知して、アバターオブジェクトを傾けて配置する。コントロールモジュール510は、検出した顔器官の動作を、仮想空間11に配置されるアバターオブジェクトの顔に反映させる。コントロールモジュール510は、サーバ600から他のユーザ5の視線情報を受信し、当該他のユーザ5のアバターオブジェクトの視線に反映させる。ある局面において、コントロールモジュール510は、コントローラ300の動きをアバターオブジェクトや操作オブジェクトに反映する。この場合、コントローラ300は、コントローラ300の動きを検知するためのモーションセンサ、加速度センサ、または複数の発光素子(例えば、赤外線LED)などを備える。
コントロールモジュール510は、仮想空間11においてユーザ5の操作を受け付けるための操作オブジェクトを仮想空間11に配置する。ユーザ5は、操作オブジェクトを操作することにより、例えば、仮想空間11に配置されるオブジェクトを操作する。ある局面において、操作オブジェクトは、例えば、ユーザ5の手に相当する仮想手である手オブジェクト等を含み得る。ある局面において、コントロールモジュール510は、モーションセンサ420の出力に基づいて現実空間におけるユーザ5の手の動きに連動するように仮想空間11において手オブジェクトを動かす。ある局面において、操作オブジェクトは、アバターオブジェクトの手の部分に相当し得る。
コントロールモジュール510は、仮想空間11に配置されるオブジェクトのそれぞれが、他のオブジェクトと衝突した場合に、当該衝突を検出する。コントロールモジュール510は、例えば、あるオブジェクトのコリジョンエリアと、別のオブジェクトのコリジョンエリアとが触れたタイミングを検出することができ、当該検出がされたときに、予め定められた処理を行なう。コントロールモジュール510は、オブジェクトとオブジェクトとが触れている状態から離れたタイミングを検出することができ、当該検出がされたときに、予め定められた処理を行なう。コントロールモジュール510は、オブジェクトとオブジェクトとが触れている状態であることを検出することができる。例えば、コントロールモジュール510は、操作オブジェクトと、他のオブジェクトとが触れたときに、これら操作オブジェクトと他のオブジェクトとが触れたことを検出して、予め定められた処理を行なう。
ある局面において、コントロールモジュール510は、HMD120のモニタ130における画像表示を制御する。例えば、コントロールモジュール510は、仮想空間11に仮想カメラ14を配置する。コントロールモジュール510は、仮想空間11における仮想カメラ14の位置と、仮想カメラ14の傾き(向き)を制御する。コントロールモジュール510は、HMD120を装着したユーザ5の頭部の傾きと、仮想カメラ14の位置に応じて、視界領域15を規定する。レンダリングモジュール520は、決定された視界領域15に基づいて、モニタ130に表示される視界画像17を生成する。レンダリングモジュール520により生成された視界画像17は、通信制御モジュール540によってHMD120に出力される。
コントロールモジュール510は、HMD120から、ユーザ5のマイク170を用いた発話を検出すると、当該発話に対応する音声データの送信対象のコンピュータ200を特定する。音声データは、コントロールモジュール510によって特定されたコンピュータ200に送信される。コントロールモジュール510は、ネットワーク2を介して他のユーザのコンピュータ200から音声データを受信すると、当該音声データに対応する音声(発話)をスピーカ180から出力する。
メモリモジュール530は、コンピュータ200が仮想空間11をユーザ5に提供するために使用されるデータを保持している。ある局面において、メモリモジュール530は、空間情報と、オブジェクト情報と、ユーザ情報とを保持している。
空間情報は、仮想空間11を提供するために規定された1つ以上のテンプレートを保持している。
オブジェクト情報は、仮想空間11を構成する複数のパノラマ画像13、仮想空間11にオブジェクトを配置するためのオブジェクトデータを含む。パノラマ画像13は、静止画像および動画像を含み得る。パノラマ画像13は、非現実空間の画像と現実空間の画像とを含み得る。非現実空間の画像としては、例えば、コンピュータグラフィックスで生成された画像が挙げられる。
ユーザ情報は、ユーザ5を識別するユーザIDを保持する。ユーザIDは、例えば、ユーザが使用するコンピュータ200に設定されるIP(Internet Protocol)アドレスまたはMAC(Media Access Control)アドレスであり得る。別の局面において、ユーザIDはユーザによって設定され得る。ユーザ情報は、HMDシステム100の制御装置としてコンピュータ200を機能させるためのプログラム等を含む。
メモリモジュール530に格納されているデータおよびプログラムは、HMD120のユーザ5によって入力される。あるいは、プロセッサ210が、当該コンテンツを提供する事業者が運営するコンピュータ(例えば、サーバ600)からプログラムあるいはデータをダウンロードして、ダウンロードされたプログラムあるいはデータをメモリモジュール530に格納する。
通信制御モジュール540は、ネットワーク2を介して、サーバ600その他の情報通信装置と通信し得る。
ある局面において、コントロールモジュール510及びレンダリングモジュール520は、例えば、ユニティテクノロジーズ社によって提供されるUnity(登録商標)を用いて実現され得る。別の局面において、コントロールモジュール510及びレンダリングモジュール520は、各処理を実現する回路素子の組み合わせとしても実現され得る。
コンピュータ200における処理は、ハードウェアと、プロセッサ210により実行されるソフトウェアとによって実現される。このようなソフトウェアは、ハードディスクその他のメモリモジュール530に予め格納されている場合がある。ソフトウェアは、CD−ROMその他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、光ディスク駆動装置その他のデータ読取装置によってデータ記録媒体から読み取られて、あるいは、通信制御モジュール540を介してサーバ600その他のコンピュータからダウンロードされた後、記憶モジュールに一旦格納される。そのソフトウェアは、プロセッサ210によって記憶モジュールから読み出され、実行可能なプログラムの形式でRAMに格納される。プロセッサ210は、そのプログラムを実行する。
[HMDシステムの制御構造]
図11を参照して、HMDセット110の制御構造について説明する。図11は、ある実施の形態に従うHMDセット110において実行される処理の一部を表すシーケンスチャートである。
図11に示されるように、ステップS1110において、コンピュータ200のプロセッサ210は、コントロールモジュール510として、仮想空間データを特定し、仮想空間11を定義する。
ステップS1120において、プロセッサ210は、仮想カメラ14を初期化する。たとえば、プロセッサ210は、メモリのワーク領域において、仮想カメラ14を仮想空間11において予め規定された中心12に配置し、仮想カメラ14の視線をユーザ5が向いている方向に向ける。
ステップS1130において、プロセッサ210は、レンダリングモジュール520として、初期の視界画像を表示するための視界画像データを生成する。生成された視界画像データは、通信制御モジュール540によってHMD120に出力される。
ステップS1132において、HMD120のモニタ130は、コンピュータ200から受信した視界画像データに基づいて、視界画像を表示する。HMD120を装着したユーザ5は、視界画像を視認すると仮想空間11を認識し得る。
ステップS1134において、HMDセンサ410は、HMD120から発信される複数の赤外線光に基づいて、HMD120の位置と傾きを検知する。検知結果は、動き検知データとして、コンピュータ200に出力される。
ステップS1140において、プロセッサ210は、HMD120の動き検知データに含まれる位置と傾きとに基づいて、HMD120を装着したユーザ5の視界方向を特定する。
ステップS1150において、プロセッサ210は、アプリケーションプログラムを実行し、アプリケーションプログラムに含まれる命令に基づいて、仮想空間11にオブジェクトを配置する。
ステップS1160において、コントローラ300は、モーションセンサ420から出力される信号に基づいて、ユーザ5の操作を検出し、その検出された操作を表す検出データをコンピュータ200に出力する。別の局面において、ユーザ5によるコントローラ300の操作は、ユーザ5の周囲に配置されたカメラからの画像に基づいて検出されてもよい。
ステップS1170において、プロセッサ210は、コントローラ300から取得した検出データに基づいて、ユーザ5によるコントローラ300の操作を検出する。
ステップS1180において、プロセッサ210は、ユーザ5によるコントローラ300の操作に基づく視界画像データを生成する。生成された視界画像データは、通信制御モジュール540によってHMD120に出力される。
ステップS1190において、HMD120は、受信した視界画像データに基づいて視界画像を更新し、更新後の視界画像をモニタ130に表示する。
[アバターオブジェクト]
図12(A)、(B)を参照して、本実施の形態に従うアバターオブジェクトについて説明する。以下、HMDセット110A,110Bの各ユーザ5のアバターオブジェクトを説明する図である。以下、HMDセット110Aのユーザをユーザ5A、HMDセット110Bのユーザをユーザ5B、HMDセット110Cのユーザをユーザ5C、HMDセット110Dのユーザをユーザ5Dと表す。HMDセット110Aに関する各構成要素の参照符号にAが付され、HMDセット110Bに関する各構成要素の参照符号にBが付され、HMDセット110Cに関する各構成要素の参照符号にCが付され、HMDセット110Dに関する各構成要素の参照符号にDが付される。例えば、HMD120Aは、HMDセット110Aに含まれる。
図12(A)は、ネットワーク2において、各HMD120がユーザ5に仮想空間11を提供する状況を表す模式図である。コンピュータ200A〜200Dは、HMD120A〜120Dを介して、ユーザ5A〜5Dに、仮想空間11A〜11Dをそれぞれ提供する。図12(A)に示される例において、仮想空間11Aおよび仮想空間11Bは同じデータによって構成されている。換言すれば、コンピュータ200Aとコンピュータ200Bとは同じ仮想空間を共有していることになる。仮想空間11Aおよび仮想空間11Bには、ユーザ5Aのアバターオブジェクト6Aと、ユーザ5Bのアバターオブジェクト6Bとが存在する。仮想空間11Aにおけるアバターオブジェクト6Aおよび仮想空間11Bにおけるアバターオブジェクト6BがそれぞれHMD120を装着しているが、これは説明を分かりやすくするためのものであって、実際にはこれらのオブジェクトはHMD120を装着していない。
ある局面において、プロセッサ210Aは、ユーザ5Aの視界画像17Aを撮影する仮想カメラ14Aを、アバターオブジェクト6Aの目の位置に配置し得る。
図12(B)は、図12(A)におけるユーザ5Aの視界画像17Aを示す図である。視界画像17Aは、HMD120Aのモニタ130Aに表示される画像である。この視界画像17Aは、仮想カメラ14Aにより生成された画像である。視界画像17Aには、ユーザ5Bのアバターオブジェクト6Bが表示されている。特に図示はしていないが、ユーザ5Bの視界画像にも同様に、ユーザ5Aのアバターオブジェクト6Aが表示されている。
図12(B)の状態において、ユーザ5Aは仮想空間11Aを介してユーザ5Bと対話による通信(コミュニケーション)を図ることができる。より具体的には、マイク170Aにより取得されたユーザ5Aの音声は、サーバ600を介してユーザ5BのHMD120Bに送信され、HMD120Bに設けられたスピーカ180Bから出力される。ユーザ5Bの音声は、サーバ600を介してユーザ5AのHMD120Aに送信され、HMD120Aに設けられたスピーカ180Aから出力される。
ユーザ5Bの動作(HMD120Bの動作およびコントローラ300Bの動作)は、プロセッサ210Aにより仮想空間11Aに配置されるアバターオブジェクト6Bに反映される。これにより、ユーザ5Aは、ユーザ5Bの動作を、アバターオブジェクト6Bを通じて認識できる。
図13は、本実施の形態に従うHMDシステム100において実行される処理の一部を表すシーケンスチャートである。図13においては、HMDセット110Dを図示していないが、HMDセット110Dについても、HMDセット110A、110B、110Cと同様に動作する。以下の説明でも、HMDセット110Aに関する各構成要素の参照符号にAが付され、HMDセット110Bに関する各構成要素の参照符号にBが付され、HMDセット110Cに関する各構成要素の参照符号にCが付され、HMDセット110Dに関する各構成要素の参照符号にDが付されるものとする。
ステップS1310Aにおいて、HMDセット110Aにおけるプロセッサ210Aは、仮想空間11Aにおけるアバターオブジェクト6Aの動作を決定するためのアバター情報を取得する。このアバター情報は、例えば、動き情報、フェイストラッキングデータ、および音声データ等のアバターに関する情報を含む。動き情報は、HMD120Aの位置および傾きの時間的変化を示す情報や、モーションセンサ420A等により検出されたユーザ5Aの手の動きを示す情報などを含む。フェイストラッキングデータは、ユーザ5Aの顔の各パーツの位置および大きさを特定するデータが挙げられる。フェイストラッキングデータは、ユーザ5Aの顔を構成する各器官の動きを示すデータや視線データが挙げられる。音声データは、HMD120Aのマイク170Aによって取得されたユーザ5Aの音声を示すデータが挙げられる。アバター情報には、アバターオブジェクト6A、あるいはアバターオブジェクト6Aに関連付けられるユーザ5Aを特定する情報や、アバターオブジェクト6Aが存在する仮想空間11Aを特定する情報等が含まれてもよい。アバターオブジェクト6Aやユーザ5Aを特定する情報としては、ユーザIDが挙げられる。アバターオブジェクト6Aが存在する仮想空間11Aを特定する情報としては、ルームIDが挙げられる。プロセッサ210Aは、上述のように取得されたアバター情報を、ネットワーク2を介してサーバ600に送信する。
ステップS1310Bにおいて、HMDセット110Bにおけるプロセッサ210Bは、ステップS1310Aにおける処理と同様に、仮想空間11Bにおけるアバターオブジェクト6Bの動作を決定するためのアバター情報を取得し、サーバ600に送信する。同様に、ステップS1310Cにおいて、HMDセット110Cにおけるプロセッサ210Cは、仮想空間11Cにおけるアバターオブジェクト6Cの動作を決定するためのアバター情報を取得し、サーバ600に送信する。
ステップS1320において、サーバ600は、HMDセット110A、HMDセット110B、およびHMDセット110Cのそれぞれから受信したプレイヤ情報を一旦記憶する。サーバ600は、各アバター情報に含まれるユーザIDおよびルームID等に基づいて、共通の仮想空間11に関連付けられた全ユーザ(この例では、ユーザ5A〜5C)のアバター情報を統合する。そして、サーバ600は、予め定められたタイミングで、統合したアバター情報を当該仮想空間11に関連付けられた全ユーザに送信する。これにより、同期処理が実行される。このような同期処理により、HMDセット110A、HMDセット110B、およびHMDセット110Cは、互いのアバター情報をほぼ同じタイミングで共有することができる。
続いて、サーバ600から各HMDセット110A〜110Cに送信されたアバター情報に基づいて、各HMDセット110A〜110Cは、ステップS1330A〜S1330Cの処理を実行する。ステップS1330Aの処理は、図11におけるステップS1180の処理に相当する。
ステップS1330Aにおいて、HMDセット110Aにおけるプロセッサ210Aは、仮想空間11Aにおける他のユーザ5B,5Cのアバターオブジェクト6B、アバターオブジェクト6Cの情報を更新する。具体的には、プロセッサ210Aは、HMDセット110Bから送信されたアバター情報に含まれる動き情報に基づいて、仮想空間11におけるアバターオブジェクト6Bの位置および向き等を更新する。例えば、プロセッサ210Aは、メモリモジュール530に格納されたオブジェクト情報に含まれるアバターオブジェクト6Bの情報(位置および向き等)を更新する。同様に、プロセッサ210Aは、HMDセット110Cから送信されたアバター情報に含まれる動き情報に基づいて、仮想空間11におけるアバターオブジェクト6Cの情報(位置および向き等)を更新する。
ステップS1330Bにおいて、HMDセット110Bにおけるプロセッサ210Bは、ステップS1330Aにおける処理と同様に、仮想空間11Bにおけるユーザ5A,5Cのアバターオブジェクト6A,6Cの情報を更新する。同様に、ステップS1330Cにおいて、HMDセット110Cにおけるプロセッサ210Cは、仮想空間11Cにおけるユーザ5A,5Bのアバターオブジェクト6A,6Bの情報を更新する。
[コンピュータ200のモジュールの詳細構成]
図14を参照して、コンピュータ200のモジュール構成の詳細について説明する。図14は、ある実施の形態に従うコンピュータ200のモジュールの詳細構成を表すブロック図である。図14に示されるように、コントロールモジュール510は、視界制御モジュール1421および動き検出モジュール1422を備えている。
視界制御モジュール1421は、仮想空間11におけるユーザ5の視界領域15を制御する。動き検出モジュール1422は、ユーザ5の動きを検出する。動き検出モジュール1422は、例えば、コントローラ300の出力に応じて、ユーザ5の手の動きを検出する。動き検出モジュール1422は、例えば、ユーザ5の身体に装着されるモーションセンサの出力に応じて、ユーザ5の身体の動きを検出する。動き検出モジュール1422は、ユーザ5の顔器官の動作を検出することもできる。
[映像配信システムの構成]
図15は、ある実施の形態に従う映像配信システム1500の構成の概略を示す図である。映像配信システム1500は、被写体を撮影した映像をユーザ5(視聴者)のコンピュータ200に配信する。これにより、視聴者は該映像を視聴することができる。なお、ここでの「配信」とは、例えば、映像配信システム1500が、コンピュータ200に対するユーザ5の入力に基づく第1指示を受信して、映像をコンピュータ200へ送信することを指す。映像配信システム1500は、撮影された被写体の映像をリアルタイムにコンピュータ200に配信する。ある局面において、映像配信システム1500は、全天球映像を配信する。全天球映像とは、各フレームが全天球画像である映像である。
映像配信システム1500は、一例として、図15に示すように、コンピュータ200と、サーバ600と、全天球カメラ1531と、全天球映像生成装置1534とを含む。なお、映像配信システム1500は、複数の全天球カメラ1531を含む構成であってもよい。
サーバ600は、被写体を撮影した全天球映像(ライブストリーミング映像)のうち、現時点の再生対象映像から所定時間前の再生対象映像までの部分映像をメモリ620に記憶する。そして、サーバ600は、ユーザ5による第1入力に基づいて、部分映像を校正する複数の静止画像の中から、第1静止画像をユーザに提供する。この構成の詳細については後述する。
[全天球カメラ1531]
全天球カメラ1531は、複数の撮像部を備え、被写体1551を撮影する。一例として、全天球カメラ1531は、2つの撮像部を備える。具体的には、全天球カメラ1531は、第1撮像部1532および第2撮像部1533を備える。
第1撮像部1532および第2撮像部1533は、動画像を撮像するように構成されており、CCD(Charge-Coupled Device)やCMOS(complementary metal-oxide semiconductor)などの撮像素子、および、レンズによって構成されている。以降、第1撮像部1532および第2撮像部1533が撮像する動画像を「撮影映像」と称する場合がある。
図16は、ある実施の形態に従う全天球カメラ1531の視野を説明するための図である。第1撮像部1532および第2撮像部1533は、一例として、互いに反対方向を撮像するように全天球カメラ1531に配置されている。第1撮像部1532は、一例として、図16に示す視野1661Aを有する。また、第2撮像部1533は、一例として、図16に示す視野1661Bを有する。視野1661Aおよび視野1661Bは、それぞれ、第1撮像部1532および第2撮像部1533の撮像領域と表現することもできる。
図16は、全天球カメラ1531の上面図であるため、視野1661Aおよび視野1661Bを、一部が欠けた円形(扇形)で示している。しかしながら、第1撮像部1532および第2撮像部1533は、垂直方向(紙面に垂直な方向)にも視野を有している。つまり、視野1661Aおよび視野1661Bは、実際は、一部が欠けた球形である。よって、全天球カメラ1531の視野は、互いに反対方向であり、かつ、一部が欠けた球形の2つの視野である。これにより、全天球カメラ1531は、全天球カメラ1531の全周囲(360度)の領域を撮影することができる。
図17は、ある実施の形態に従う全天球カメラ1531のハードウェア構成の一例を表すブロック図である。図17に示すように、全天球カメラ1531は、主たる構成要素として、プロセッサ1771と、メモリ1772と、ストレージ1773と、第1撮像部1532と、第2撮像部1533と、入出力インターフェイス1774と、通信インターフェイス1775とを備える。各構成要素は、それぞれ、バス1776に接続される。
プロセッサ1771は、全天球カメラ1531に与えられる信号に基づいて、あるいは、予め定められた条件が成立したことに基づいて、メモリ1772またはストレージ1773に格納されているプログラムに含まれる一連の命令を実行する。ある局面において、プロセッサ1771は、CPU、GPU、MPU、FPGAその他のデバイスとして実現される。
メモリ1772は、プログラムおよびデータを一時的に保存する。プログラムは、例えば、ストレージ1773からロードされる。データは、全天球カメラ1531に入力されたデータと、プロセッサ1771によって生成されたデータとを含む。ある局面において、メモリ1772は、RAMその他の揮発メモリとして実現される。
ストレージ1773は、プログラムおよびデータを永続的に保持する。ストレージ1773は、例えば、ROM、ハードディスク装置、フラッシュメモリ、その他の不揮発記憶装置として実現される。ストレージ1773に格納されるプログラムは、撮影映像の撮像を実現するためのプログラム、その他の装置との通信を実現するためのプログラムなどを含んでもよい。ストレージ1773に格納されるデータは、撮影映像(撮影映像データ)を含んでもよい。
別の局面において、ストレージ1773は、メモリカードのように着脱可能な記憶装置として実現されてもよい。さらに別の局面において、全天球カメラ1531に内蔵されたストレージ1773の代わりに、外部の記憶装置に保存されているプログラムおよびデータを使用する構成が使用されてもよい。
第1撮像部1532および第2撮像部1533は、上述したように、撮影映像を撮像する。
入出力インターフェイス1774は、入出力機器との間で信号を通信する。ある局面において、入出力インターフェイス1774は、USB、DVI、HDMIその他の端子を用いて実現される。入出力インターフェイス1774は上述のものに限られない。
通信インターフェイス1775は、ネットワーク2に接続されて、ネットワーク2に接続されている装置と通信する。ある局面において、通信インターフェイス1775は、例えば、LANその他の有線通信インターフェイス、あるいは、WiFi,Bluetooth、NFCその他の無線通信インターフェイスとして実現される。通信インターフェイス1775は上述のものに限られない。
なお、プロセッサ1771は、通信インターフェイス1775を用いて、撮影映像をリアルタイムに全天球映像生成装置1534へ送信する。
[全天球映像生成装置1534]
全天球映像生成装置1534は、全天球カメラ1531から取得した撮影映像を用いて、全天球映像を生成する。ある局面において、全天球映像生成装置1534は、ネットワーク2を介して全天球カメラ1531から撮影映像を取得する。
全天球映像生成装置1534は、全天球カメラ1531の第1撮像部1532が撮像した撮影映像と、第2撮像部1533が撮像した撮影映像とを取得する。図16に示すように、第1撮像部1532の視野1661Aと、第2撮像部1533の視野1661Bとは、一部が互いに重複している。このため、全天球カメラ1531の第1撮像部1532が撮像した撮影映像と、第2撮像部1533が撮像した撮影映像とは、一部が互いに重複している。全天球映像生成装置1534は、これら2つの撮影映像に含まれる、対応する2つのフレームを歪ませて、当該歪んだ2つのフレームをスティッチング処理する。「対応する2つのフレーム」とは、撮影時刻が一致する2つのフレームである。全天球映像生成装置1534は、対応する2つのフレーム全てに対し、スティッチング処理を行うことにより、全天球映像を生成する。全天球映像生成装置1534は、生成した全天球映像を、ネットワーク2を介して、サーバ600へ送信する。
全天球カメラ1531が、全天球映像を生成し、サーバ600へ送信する機能を備えていてもよい。この例の場合、映像配信システム1500は、全天球映像生成装置1534を含まなくてもよい。
サーバ600は、受信した全天球映像をコンピュータ200へ配信する。ある局面において、サーバ600は、コンピュータ200に対するユーザ5の入力に基づく第1指示を受信した場合、全天球映像をコンピュータ200へ送信する。つまり、第1指示は全天球映像の送信指示である。
[被写体の撮影]
図18は、映像配信システム1500を用いた被写体1551の撮影の一例を示す図である。ここでは、撮影空間1800において、全天球カメラ1531を用いて、被写体1551の一例である女性1852を撮影する例を説明する。この例のように、被写体が人間である場合、被写体は映像の配信者と表現することもできる。
一例として、女性1852は、撮影中において、視聴者に向けて喋ったり、演技、演奏などを行なったり、ゲームをプレイしたり、日常の行動をしたりする。つまり、視聴者は、全天球映像を視聴することで、一例として、女性1852のこれらの動作、行動を視聴する。なお、女性1852の撮影中の動作、行動はこの例に限定されない。
なお、本実施例に係る映像配信システム1500は、図18に示すように、表示装置1835を含む。表示装置1835は、一例として、女性1852へ宛てた第1メッセージを表示する。第1メッセージは、例えば、ユーザ5が全天球映像を視聴しながら入力した、女性1852へ宛てたコメントであってもよい。また、第1メッセージは、例えば、全天球映像の撮影に関わるスタッフが、コンピュータ(不図示)を用いて入力した、女性1852へ宛てた指示であってもよい。また、表示装置1835は、一例として、撮影映像に基づいて生成された、女性1852を含む映像を表示する。これにより、女性1852は、自身がどのように撮影されているかを確認しながら撮影を進めることができる。表示装置1835は、例えば、女性1852が所有するスマートフォンやタブレット端末であってもよい。
全天球カメラ1531は、女性1852を第1位置から撮影する。図18の例では、女性1852は、第1撮像部1532の視野の正面に位置し、全天球カメラ1531の方向を向いている。換言すれば、図18の例では、女性1852は第1撮像部1532によって撮影される。なお、図18では、第1撮像部1532は、表示装置1835によって隠れているため、図示していない。
[サーバ600のモジュールの詳細構成]
図19を参照して、サーバ600のモジュール構成の詳細について説明する。図19は、ある実施の形態に従うサーバ600のモジュールの詳細構成を表すブロック図である。図19に示されるように、サーバ600は、コントロールモジュール1910と、メモリモジュール1930と、通信制御モジュール1940とを備える。ある局面において、コントロールモジュール1910は、プロセッサ610によって実現される。メモリモジュール1930は、メモリ620またはストレージ630によって実現される。通信制御モジュール1940は、通信インターフェイス650によって実現される。
コントロールモジュール1910は、全天球映像制御モジュール1923と静止画像抽出モジュール1924とを備えている。
全天球映像制御モジュール1923は、コンピュータ200から第1指示を受信すると、コンピュータ200に全天球映像を送信する。全天球映像制御モジュール1923は、一例として、ライブ方式で全天球映像のストリーミング(ライブストリーミング)を行う。ライブストリーミングとは、データをダウンロードしつつ同時に再生する方式であるストリーミングの一種で、映像や音声をリアルタイムで配信し、リアルタイムでデータの変換(エンコード)を行い、そのままストリーミング再生することである。つまり、全天球映像制御モジュール1923は、全天球映像生成装置1534から受信した全天球映像のストリーミングをリアルタイムに行う。換言すれば、該全天球映像は、ライブストリーミング映像であると表現することもできる。
以上より、映像配信システム1500では、(1)全天球カメラ1531から全天球映像生成装置1534への撮影映像の送信、(2)全天球映像生成装置1534による全天球映像の生成、および、該全天球映像のサーバ600への送信、(3)サーバ600から、第1指示を送信したコンピュータ200への全天球映像の送信がリアルタイムに行われる。これにより、ユーザ5は、現在撮影されている女性1852の映像を視聴することができる。
静止画像抽出モジュール1924は、全天球映像を構成する複数の静止画像から、1以上の静止画像を抽出する。具体的には、静止画像抽出モジュール1924は、受信した全天球映像をキャッシュデータ1941としてメモリモジュール1930に記憶する。キャッシュデータ1941は、全天球映像のうち、現時点の再生対象映像から所定時間前の再生対象映像までの部分映像である。一例として、キャッシュデータ1941は、全天球映像のうち、現時点の再生対象映像から15秒前の再生対象映像までの部分映像であってもよい。なお、一例として、サーバ600は、所定時間より前の全天球映像を保持しない構成であってもよい。
静止画像抽出モジュール1924は、ユーザ5による、コンピュータ200への第1入力に基づいて、部分映像を構成する複数の静止画像から、1以上の静止画像を抽出する。「部分映像を構成する複数の静止画像」とは、すなわち、部分映像のフレームである。より具体的には、静止画像抽出モジュール1924は、第1入力に基づく第2指示をコンピュータ200から受信すると、部分映像のフレームから、1以上のフレームを抽出する。そして、静止画像抽出モジュール1924は、抽出した静止画像(第1静止画像)をユーザ5に提供する。より具体的には、静止画像抽出モジュール1924は、抽出した静止画像を、コンピュータ200へ送信する。送信する静止画像は、1つであってもよいし複数であってもよい。また、静止画像抽出モジュール1924は、抽出した複数の静止画像の少なくともいずれかを、コンピュータ200へ送信してもよい。換言すれば、静止画像抽出モジュール1924は、抽出した複数の静止画像のすべてをコンピュータ200へ送信しなくてもよい。
静止画像抽出モジュール1924は、部分映像から、女性1852がぶれずに撮影されている静止画像を抽出してもよい。ぶれずに撮影されている静止画像とは、撮影中に女性1852(または全天球カメラ1531)が動くことにより、全天球映像中の女性1852がぼけて写っている静止画像である。
静止画像抽出モジュール1924は、部分映像における女性1852の表情に基づいて、静止画像を抽出してもよい。この場合、全天球映像は女性1852の顔を少なくとも含む。例えば、静止画像抽出モジュール1924は、部分映像を構成する複数の静止画像それぞれにおける、女性1852の表情が、予め設定された第1表情であるか否かを特定し、第1表情であると特定された静止画像を抽出してもよい。第1表情は特に限定されないが、例えば、笑顔、泣き顔、怒り顔、変顔などであってもよい。第1表情は、コンピュータ200に対するユーザ5の操作に基づいて予め設定されたものであってもよい。
また、静止画像抽出モジュール1924は、部分映像を構成する複数の静止画像それぞれにおける女性1852の表情が示す第1感情を特定し、該第1感情が、ユーザ5により予め設定された第2感情と一致するか否かを判定してもよい。そして、静止画像抽出モジュール1924は、第1感情が第2感情と一致すると判定された静止画像を抽出してもよい。
静止画像抽出モジュール1924が、女性1852の表情が笑顔である静止画像を抽出したり、第1感情が第2感情と一致する静止画像を抽出したりする構成を実現する方法として、例えば、以下の方法が挙げられる。
静止画像抽出モジュール1924は、人間の表情について、訓練用データセットを用いて予め機械学習を行っておく。訓練用データセットには、人間の顔が映る訓練用画像が含まれている。訓練用画像それぞれには、該訓練用画像に基づく正しい判定結果を示すデータが対応付けられている。具体的には、笑顔の人間が映る訓練用画像には、該人間の表情が笑顔であることを示すデータ、または、該表情が示す感情が「喜び」あるいは「楽しい」であることを示すデータが対応付けられている。また、泣いている人間が映る訓練用画像には、該人間の表情が笑顔でないことを示すデータ、または、該表情が示す感情が「哀しみ」であることを示すデータが対応付けられている。該訓練用画像と該データとにより訓練用データが構成される。
訓練用データセットは、このような訓練用データを複数含むセットである。被写体の表情が笑顔であるか否かを特定する構成を実現する場合、笑顔の人間が映る訓練用画像と、笑顔でない人間が映る訓練用画像とを、それぞれ、所望の判定精度が得られる程度の数(例えば、それぞれ100枚)だけ用意する。また、被写体の表情が示す第1感情が第2感情と一致するか否かを判定する構成を実現する場合、例えば、「喜怒哀楽」それぞれの感情を示す表情の人間が映る訓練用画像を、それぞれ、所望の判定精度が得られる程度の数だけ用意する。
サーバ600に対し、このような訓練用データセットにより機械学習を行わせることにより、女性1852の表情が笑顔である静止画像を抽出したり、第1感情が第2感情と一致する静止画像を抽出したりする構成を実現することができる。
また、静止画像抽出モジュール1924は、部分映像を構成する複数の静止画像それぞれにおける女性1852の目線が、全天球カメラ1531の方向であるか否か、すなわち、女性1852がいわゆるカメラ目線であるか否かを特定し、カメラ目線である静止画像を抽出してもよい。この構成も、上述した機械学習により実現することができる。具体的には、カメラ目線の人間が映る訓練用画像と、カメラ目線でない人間が映る訓練用画像とを、それぞれ、所望の判定精度が得られる程度の数だけ用意し、機械学習を行なえばよい。なお、この例の場合、被写体は人間以外の動物であってもよい。
メモリモジュール1930は、上述したように、キャッシュデータ1941を保持している。通信制御モジュール1940は、ネットワーク2を介して、コンピュータ200や、その他の情報通信装置と通信し得る。
[処理フロー]
図20は、ある実施の形態に従うサーバ600において実行される処理、および、HMDセット110において実行される処理の一部を示すシーケンス図である。本実施形態では、視聴者側の一連の処理が、HMDセット110Aにより実行されるものとして説明する。ただし、当該処理は、他のHMDセット110B、110Cにより実行されてもよいし、当該処理の一部または全部がサーバ600によって実行されてもよい。
ステップS2001において、コンピュータ200Aのプロセッサ210Aは、仮想空間11Aを定義する。当該処理は、図11のステップS1110の処理に相当する。具体的には、プロセッサ210Aは、仮想空間データを特定することによって、仮想空間データによって表される仮想空間11Aを定義する。
ステップS2021において、サーバ600のプロセッサ610は、全天球映像生成装置1534から全天球映像を受信する。ステップS2022において、プロセッサ610は、静止画像抽出モジュール1924として、キャッシュデータ1941をメモリモジュール1930に記憶する。ステップS2021およびS2022の処理は、全天球カメラ1531による被写体の撮影が終了するまで継続して実行される。
ステップS2002において、HMDセット110Aは、コンテンツの再生操作を受け付ける。該操作は、コントローラ300が受け付けてもよいし、コントローラ300以外の入力装置がHMDセット110Aに含まれる場合、該入力装置が受け付けてもよい。ステップS2003において、プロセッサ210Aは、再生操作が入力されたことに基づき、再生指示をサーバ600へ送信する。
ステップS2023において、プロセッサ610は、全天球映像制御モジュール1923として、受信した全天球映像をコンピュータ200Aへ送信する。具体的には、プロセッサ610は、再生指示の受信以降に全天球映像生成装置1534から受信した全天球映像をコンピュータ200Aへ送信する。つまり、撮影開始時点より後に再生指示を受信した場合、プロセッサ610は、全天球映像の途中からコンピュータ200Aへ送信することとなる。プロセッサ610は、撮影開始時点より前、換言すれば、全天球映像生成装置1534から全天球映像を受信する前に、再生指示を受信してもよい。この場合、プロセッサ610は、全天球映像生成装置1534から全天球映像を受信するまで待機する。この場合、プロセッサ610は、全天球映像の冒頭からコンピュータ200Aへ送信することができる。
図21は、ある実施の形態に従う仮想空間2111Aおよび視界画像2117Aを示す図である。ステップS2004において、プロセッサ210Aは、図21(A)に示すように、仮想空間2111Aに受信した全天球映像2113Aを展開する。具体的には、プロセッサ210Aは、全天球映像2113Aを構成する各部分画像を、仮想空間2111Aにおいて対応する各メッシュにそれぞれ対応付ける。ステップS2005において、プロセッサ210Aは、全天球映像2113Aの再生を開始する。全天球映像2113Aは、図21(A)に示すように、全天球カメラ1531により撮影された女性1852を含む。
ステップS2006において、プロセッサ210Aは、視界制御モジュール1421および動き検出モジュール1422として、HMD120Aの動きに応じて、仮想空間11Aにおけるユーザの視界を決定する。プロセッサ210Aは、図21(A)に示す仮想視点2199Aを設定する。該仮想視点2199Aは、仮想空間2111Aの中心2112Aに設定されてもよい。プロセッサ210Aは、現実空間におけるHMD120Aの動きに連動して、仮想視点2199Aを仮想空間2111A内で移動させてもよい。
プロセッサ210Aは、HMD120Aの位置と傾きとに基づいて、仮想空間2111Aにおける視界領域15Aを規定する。視界領域15Aは、仮想空間2111Aのうち、HMD120Aを装着したユーザ5Aが視認する領域に対応する。つまり、仮想視点2199Aの位置は、仮想空間2111Aにおけるユーザ5Aの視点と言える。プロセッサ210Aは、例えば、図21(A)に示す視界領域2115Aを規定する。
ステップ2007において、プロセッサ210Aは、視界画像2117Aをモニタ130Aに表示する。具体的には、プロセッサ210Aは、HMD120Aの動きと、仮想空間2111Aを定義する仮想空間データと、全天球映像2113Aとに基づいて、視界領域2115Aに対応する視界画像2117Aを定義する。視界画像2117Aを定義することは、視界画像2117Aを生成することと同義である。プロセッサ210Aは、さらに、HMD120Aのモニタ130Aに視界画像2117Aを出力することによって、視界画像2117AをHMD120Aに表示させる。
プロセッサ210Aは、例えば、図21(A)に示す視界画像2117Aを、図21(B)に示すようにモニタ130Aに表示する。ユーザ5Aは、視界画像2117Aを視認することにより、女性1852を視認することができる。
ステップS2008において、HMDセット110Aは、静止画像生成操作を受け付ける。該操作は、全天球映像から、いわゆるスクリーンショットを生成するための操作である。該操作は、コントローラ300が受け付けてもよいし、コントローラ300以外の入力装置がHMDセット110Aに含まれる場合、該入力装置が受け付けてもよい。ステップS2009において、プロセッサ210Aは、静止画像生成操作が入力されたことに基づき、静止画像生成指示をサーバ600へ送信する。該指示は、一例として、静止画像生成操作を受け付けた時点での視界画像17Aを特定可能な情報を含む。
ステップS2024において、プロセッサ610は、静止画像抽出モジュール1924として、静止画像生成指示を受け付けたことに基づいて、キャッシュデータ1941から静止画像を抽出する。具体的には、プロセッサ610は、視界画像17Aを特定可能な情報に基づいて、キャッシュデータ1941における、該視界画像17Aに対応する対応部分を特定する。そして、プロセッサ610は、キャッシュデータ1941を構成する各フレームそれぞれの該対応部分のうち、1以上を静止画像として抽出する。このように、プロセッサ610は、静止画像生成指示を受信した時点より前に配信された映像から、スクリーンショットを生成することができる。
ステップS2025において、プロセッサ610は、静止画像抽出モジュール1924として、抽出した静止画像の少なくともいずれかをコンピュータ200Aへ送信する。
図22は、ある実施の形態に従う視界画像2217Aを示す図である。ステップS2010において、プロセッサ210Aは、受信した静止画像をモニタ130Aに表示する。一例として、プロセッサ210Aは、受信した静止画像を、全天球映像に重畳させてモニタ130Aに表示してもよいし、受信した静止画像を、全天球映像に代えてモニタ130Aに表示してもよい。図22の例では、プロセッサ210Aは、静止画像2271A〜2271Dをモニタ130Aに表示している。
例えば、ユーザ5Aが、図21に示す視界画像2117Aがモニタ130Aに表示されている時点で静止画像生成操作を行ったとする。その結果、プロセッサ210Aは、視界画像2117Aより前に表示された視界画像17Aに相当する静止画像2271A〜2271Dをサーバ600から受信し、ユーザ5Aに対して提示する。
このように、コンピュータ200Aは、全天球映像をコンピュータ200Aへ送信するとともに、キャッシュデータ1941をメモリモジュール1930に記憶するサーバ600へ、静止画像生成指示を送信する。そして、コンピュータ200Aは、静止画像生成指示を受け付けた時点の再生対象映像から所定時間前の再生対象映像までのキャッシュデータ1941を構成する複数の静止画像から、サーバ600が抽出した1以上の静止画像を、サーバ600から受信する。
ライブストリーミング映像の配信において、中継者となるサーバは、該全天球映像の元となる動画や音声の素材(クリップ)を持たない。このため、サーバ600は、静止画像生成指示を受け付けた時点より前の再生対象映像も考慮するために、キャッシュデータ1941をメモリ620に記憶しておく必要がある。
従来技術では、静止画像生成操作を行った時点で表示されている映像から静止画像を生成する。つまり、ユーザ5Aは、自身が望む表情やしぐさを女性1852が行ってから、静止画像生成操作を行う。このため、静止画像生成操作を行った時点では、該表情やしぐさが終わっており、結果として、女性1852がぶれた静止画像や、女性1852が、ユーザ5Aが所望する表情やしぐさと異なる表情やしぐさをした静止画像が生成されてしまう可能性があった。よって、従来技術では、ユーザ5Aが望むように女性1852が映る静止画像を取得することは難しかった。また、ユーザ5Aが所望する静止画像を確実に取得するためには、女性1852にコメントを送るなどして、ユーザ5Aが所望する表情で静止してもらう必要があり、手間がかかる。また、多くの視聴者が視聴している場合には、ユーザ5Aの要望が聞き入れられない可能性もあった。
これに対して、本実施形態に係るサーバ600は、静止画像生成指示の受信をトリガーとして、キャッシュデータ1941から静止画像を抽出し、コンピュータ200Aへ送信する。すなわちユーザ5Aは、現時点の再生対象映像から所定時間前の再生対象映像までの期間の映像から抽出された静止画像を取得することができる。これにより、ユーザ5Aは、自身にとってより望ましい静止画像を取得することができる。また、ユーザ5Aは、自身が望む静止画像を、女性1852に静止してもらうなどの手間を必要とせずに取得することができる。また、サーバ600が、笑顔の静止画像を抽出したり、ユーザが予め設定した感情を示す表情の静止画像を抽出したりする構成であれば、ユーザ5Aは、自身が望む静止画像をより確実に取得することができる。
また、ユーザ5Aは、自身にとって望ましい静止画像を取り逃さないために常に静止画像生成操作を行なえる状態で全天球映像を視聴する必要がなくなる。ユーザ5Aは、全天球映像を視聴しながら、自身にとって望ましいシーンを視聴した後で、静止画像生成操作を行なえばよい。よって、ユーザ5Aは、全天球映像の視聴に集中しながらも、自身にとって望ましい静止画像を観点に取得することができる。
例えば、プロセッサ610は、笑顔の静止画像を抽出する構成である場合において、視界画像2117Aが表示される前に、女性1852が、視界画像2117Aの表情に比べて、より破顔した表情をし、ユーザ5Aはその表情の視界画像を所望したとする。そして、ユーザ5Aは、視界画像2117Aが表示されたタイミングで静止画像生成操作を行った、すなわち、静止画像生成操作を行うタイミングが遅れたとする。この場合に、プロセッサ210Aは、ユーザ5Aが望む、より破顔した表情の静止画像、例えば、静止画像2271Dをサーバ600から受信し、ユーザ5Aに提示することができる。
[変形例]
プロセッサ610は、抽出した静止画像に、ユーザ5Aに対する課金額を設定し、コンピュータ200Aへ送信してもよい。具体的には、プロセッサ610は、抽出した静止画像それぞれに、設定した課金額を示す情報を対応付けてコンピュータ200Aへ送信してもよい。これにより、プロセッサ210Aは、静止画像とともに、各静止画像に対応付けられた課金額をモニタ130Aに表示することができる。
この変形例において、ユーザ5Aは、静止画像の取得を所望する場合、該静止画像に設定された課金額の課金に関する処理を、コンピュータ200Aに実行させるために、所定の操作(課金操作)を実行する。換言すれば、HMDセット110Aは、課金操作を受け付ける。該操作は、コントローラ300が受け付けてもよいし、コントローラ300以外の入力装置がHMDセット110Aに含まれる場合、該入力装置が受け付けてもよい。
プロセッサ210Aは、課金操作が入力されたことに基づく指示をサーバ600へ送信する。プロセッサ610は、該指示を受信した場合、ユーザ5Aが取得を所望する静止画像を、取得可能(例えば、ダウンロード可能)な状態とする。
課金操作は、例えば、静止画像を選択する操作、および、設定された課金額の支払いを実行する操作を含んでもよい。この例において、支払いを実行する操作を受け付けると、プロセッサ210Aは、例えば、支払いを実行するサーバに必要な情報を送信し、予め設定されたクレジットカードによる支払いを実行させてもよい。該サーバは、例えば、サーバ600であってもよいし、サーバ600とは異なるサーバであってもよい。
プロセッサ610は、例えば、静止画像が撮影映像として撮影された時刻と、静止画像生成操作が行われた時刻との差が大きいほど、高い課金額を設定してもよい。これにより、女性1852が、ユーザ5Aが所望する表情をした時点からなるべく遅れないように静止画像生成操作を行うよう、ユーザ5Aを促すことができる。換言すれば、全天球映像を集中して視聴するよう、ユーザ5Aを促すことができる。
サーバ600が、第1感情が第2感情と一致すると判定した静止画像を抽出する例において、第2感情は、ユーザ5Aに対する課金に関する処理が実行された場合に、ユーザ5Aによる第2感情を設定するための操作に基づいて設定されてもよい。
第2感情を設定するための処理の流れは、例えば、以下のとおりであってもよい。課金に関する処理が実行された場合、サーバ600は、該処理が実行されたことを示す情報をコンピュータ200Aから受信する。サーバ600のプロセッサ610は、コンピュータ200Aに、第2感情を選択させるためのオブジェクトを仮想空間11Aに配置させる。該オブジェクトは、例えば、「喜び」、「怒り」、「哀しみ」、「楽しい」といった選択肢を含む。ユーザ5Aは、例えば、コントローラ300に対して、選択肢から1つを選択する操作を入力する。プロセッサ210Aは、該操作により選択された選択肢を示す情報をサーバ600へ送信する。プロセッサ610は、受信した情報を、第2感情を示す情報としてメモリモジュール1930へ記憶する。
被写体1551を撮影するカメラは、映像を撮影する機能と、撮影した映像を、ネットワーク2を介して、リアルタイムに送信する機能を備えていればよく、全天球カメラ1531に限定されない。換言すれば、コンピュータ200へ配信されるライブストリーミング映像は、全天球映像でなくてもよい。また、被写体1551を撮影するカメラは、表示装置1835と一体となっていてもよい。例えば、該カメラは、スマートフォンやタブレット端末などに備え付けられたカメラであってもよい。この場合、スマートフォンやタブレット端末は、全天球映像生成装置1534の機能を備えていてもよい。これにより、撮影者(例えば、被写体1551自身)は、スマートフォンやタブレット端末のみを用いて被写体1551を撮影し、撮影した映像をサーバ600へ送信することができる。
図20に示す、キャッシュデータ1941を記憶する処理(S2022)、キャッシュデータから静止画像を抽出する処理(S2024)は、サーバ600に代えてコンピュータ200Aが行ってもよい。換言すれば、静止画像抽出モジュール1924は、サーバ600ではなく、コンピュータ200Aが備えるものであってもよい。
ユーザ5がライブストリーミング映像を視聴する端末は、HMDシステム100に限定されない。例えば、ユーザ5は、スマートフォンやタブレット端末を用いてライブストリーミング映像を視聴してもよい。この例において、ライブストリーミング映像が全天球映像である場合、ユーザ5は、一例として、スマートフォンのタッチスクリーンに対するフリック操作、スワイプ操作などにより、全天球映像のうちの表示する領域を変更してもよい。また、別の例として、把持したスマートフォンを移動させることで、スマートフォンのジャイロ機能により、全天球映像のうちの表示する領域を変更してもよい。
ユーザ5が視聴するライブストリーミング映像は、被写体1551(例えば、女性1852)そのものを含む映像に限定されない。例えば、該ライブストリーミング映像は、女性1852に関連付けられた、女性1852の動きを反映するアバターオブジェクトを含む映像であってもよい。つまり、ライブストリーミング映像は、実写映像ではなく、CG(Computer Graphics)映像やアニメーション映像であってもよいし、実写映像にCG映像やアニメーション映像を合成した映像であってもよい。
表示装置1835として、女性1852が所有するスマートフォンを用いる場合、女性1852は、該スマートフォンを把持して使用してもよい。この場合、全天球カメラ1531と表示装置1835とが離れているので、女性1852がカメラ目線とならない頻度が高くなる。このため、キャッシュデータ1941からユーザ5に提供する静止画像(すなわちスクリーンショット)を取得する構成とすることで、このような状況でも、ユーザ5Aは、自身が望む静止画像(例えば、カメラ目線の静止画像)を取得することができる。
以上、本開示の実施形態について説明したが、本発明の技術的範囲は、本実施形態の説明によって限定的に解釈されるべきではない。本実施形態は一例であって、特許請求の範囲に記載された発明の範囲内において、様々な実施形態の変更が可能であることが当業者によって理解されるところである。本発明の技術的範囲は、特許請求の範囲に記載された発明の範囲およびその均等の範囲に基づいて定められるべきである。
〔付記事項〕
本発明の一側面に係る内容を列記すると以下の通りである。
(項目1) プログラムを説明した。本開示のある局面によると、プログラムは、プロセッサ(610)およびメモリ(620)を備えたコンピュータ(サーバ600)によって実行される。プログラムは、プロセッサに、被写体(女性1852)を撮影したライブストリーミング映像のうち、現時点の再生対象映像から所定時間前の再生対象映像までの部分映像をメモリに記憶するステップ(S2022)と、ユーザ(5A)による第1入力に基づいて、部分映像を構成する複数の静止画像から、第1静止画像をユーザに提供するステップ(S2025)と、を実行させる。
(項目2) (項目1)において、提供するステップでは、複数の静止画像の中から、被写体がぶれていない静止画像をユーザに提供する。
(項目3) (項目1)または(項目2)において、ライブストリーミング映像は被写体の顔を少なくとも含む。第1静止画像は、被写体の目線が被写体を撮影するカメラに向いている静止画像である。
(項目4) (項目1)から(項目3)のいずれかにおいて、プログラムは、プロセッサに、第1入力に基づいて、複数の静止画像の中から第1静止画像を抽出するステップ(S2024)をさらに実行させる。提供するステップでは、抽出された第1静止画像をユーザに提供する。
(項目5) (項目1)から(項目4)のいずれかにおいて、第1静止画像には、ユーザに対する課金額が設定されている。提供するステップでは、ユーザに対する、課金額の課金に関する処理が実行された場合、該課金額が設定された第1静止画像をユーザに提供する。
(項目6) (項目5)において、第1静止画像には、該第1静止画像がライブストリーミング映像として撮影された時刻と、第1入力が行われた時刻との差が大きいほど、高い課金額が設定される。
(項目7) (項目1)から(項目6)のいずれかにおいて、ライブストリーミング映像は被写体の顔を少なくとも含む。プログラムは、プロセッサに、部分映像を構成する複数の静止画像それぞれにおける被写体の表情が、予め設定された第1表情であるか否かを特定するステップをさらに実行させる。第1静止画像は、表情が第1表情であると特定された静止画像である。
(項目8) (項目1)から(項目6)のいずれかにおいて、ライブストリーミング映像は被写体の顔を少なくとも含む。プログラムは、プロセッサに、部分映像を構成する複数の静止画像それぞれにおける被写体の表情が示す第1感情を特定するステップと、第1感情が、ユーザにより予め設定された第2感情と一致するか否かを判定するステップと、をさらに実行させる。第1静止画像は、第1感情が第2感情と一致すると判定された静止画像である。
(項目9) (項目8)において、第2感情は、ユーザに対する課金に関する処理が実行された場合に、ユーザによる第2入力に基づいて設定される。
(項目10) 情報処理装置を説明した。本開示のある局面によると、情報処理装置(サーバ600)は、情報処理装置によって実行されるプログラムを記憶する記憶部(メモリ620)と、プログラムを実行することにより情報処理装置の動作を制御する制御部(プロセッサ610)と、を備える。制御部は、被写体(女性1852)を撮影したライブストリーミング映像のうち、現時点の再生対象映像から所定時間前の再生対象映像までの部分映像を記憶部に記憶し、ユーザ(5A)による第1入力に基づいて、部分映像を構成する複数の静止画像から、第1静止画像をユーザに提供する。
(項目11) プログラムを実行する方法を説明した。本開示のある局面によると、プログラムは、プロセッサ(610)およびメモリ(620)を備えたコンピュータ(サーバ600)によって実行される。方法は、プロセッサが、被写体(女性1852)を撮影したライブストリーミング映像のうち、現時点の再生対象映像から所定時間前の再生対象映像までの部分映像をメモリに記憶するステップ(S2022)と、ユーザ(5A)による第1入力に基づいて、部分映像を構成する複数の静止画像から、第1静止画像をユーザに提供するステップ(S2025)と、を含む。
上記実施形態においては、HMDによってユーザが没入する仮想空間(VR空間)を例示して説明したが、HMDとして、透過型のHMDを採用してもよい。この場合、透過型のHMDを介してユーザが視認する現実空間に仮想空間を構成する画像の一部を合成した視界画像を出力することにより、拡張現実(AR:Augmented Reality)空間または複合現実(MR:Mixed Reality)空間における仮想体験をユーザに提供してもよい。この場合、操作オブジェクトに代えて、ユーザの手の動きに基づいて、仮想空間内における対象オブジェクトへの作用を生じさせてもよい。具体的には、プロセッサは、現実空間におけるユーザの手の位置の座標情報を特定するとともに、仮想空間内における対象オブジェクトの位置を現実空間における座標情報との関係で定義してもよい。これにより、プロセッサは、現実空間におけるユーザの手と仮想空間における対象オブジェクトとの位置関係を把握し、ユーザの手と対象オブジェクトとの間で上述したコリジョン制御等に対応する処理を実行可能となる。その結果、ユーザの手の動きに基づいて対象オブジェクトに作用を与えることが可能となる。