WO2022220306A1

WO2022220306A1 - 映像表示システム、情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: WO2022220306A1
Application number: PCT/JP2022/018087
Authority: WO
Inventors: 雅之小塚; 美裕森; 淳也鈴木; 吉一郎柏木; 靖利山本; 歳朗西尾
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2021-04-16
Filing date: 2022-04-18
Publication date: 2022-10-20
Also published as: CN117223050A; CN117121474A; WO2022220307A1; WO2022220305A1; US20240196062A1; JPWO2022220305A1; EP4325843A4; EP4325843A1; EP4325476A1; EP4325476A4; JPWO2022220307A1; EP4325867A1; WO2022220308A1; CN117121473A; JPWO2022220308A1; US20240196045A1; JP7486110B2; CN117280696A; EP4325842A4; EP4325842A1

Abstract

映像表示システムは、広視野角映像を生成する撮影部と、広視野角映像内で表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方に関するデータ、ならびに、観測システムの状態の変化を知らせるためのキュー情報を取得するデータ取得部と、を有する観測装置と、広視野角映像、データ及びキュー情報を受信する受信部と、表示装置の広視野角映像内における位置及び方向の少なくとも一方と、メタデータ上の注視対象の位置及び方向の少なくとも一方との差分に基づいて、表示装置の広視野角映像内における位置及び方向の少なくとも一方に対する相対的な注視対象の位置である相対位置、及び、相対的な注視対象の方向である相対方向の少なくとも一方を算出する差分算出部と、を有するＶＲ装置と、を備える。

Description

映像表示システム、情報処理装置、情報処理方法、及び、プログラム

　本開示は、映像表示システム、観測装置、情報処理装置、情報処理方法、及び、プログラムに関する。

　近年、頭部装着型の表示装置である、いわゆるヘッドマウントディスプレイの開発が盛んに行われている。例えば、特許文献１には、コンテンツの映像と外界の映像とを提示（つまり表示）可能なヘッドマウントディスプレイが開示されている。特許文献１に開示されたヘッドマウントディスプレイでは、コンテンツの映像と外界の映像との少なくとも一方の映像の輝度を調整することで、コンテンツの映像と外界の映像とを切り替えた際にユーザに与える違和感が軽減される。

特開２０１６－０９０７７３号公報

　ところで、ヘッドマウントディスプレイのような表示装置では、その没入感の高さを活かした用途として、ある地点での体験を、遠隔地から映像視聴によって疑似体験するといった用途がある。このとき、表示装置には、適切な映像が供されることが求められる。

　本開示は、上記に鑑みてなされ、適切な映像を表示することが可能な映像表示システム等を提供することを目的とする。

　上記目的を達成するために、本開示に係る映像表示システムの一態様は、表示装置により表示映像を表示するための映像表示システムであって、広視野角映像を生成する撮影部と、前記広視野角映像内で前記表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方に関するデータ、ならびに、前記観測システムの状態の変化を知らせるためのキュー情報を取得するデータ取得部と、前記データ取得部からの前記データを他の情報とともにメタデータとするメタデータ構成部と、前記広視野角映像を前記メタデータとともに送信する送信部と、を有する観測装置と、前記広視野角映像、前記データ及び前記キュー情報を受信する受信部と、前記表示装置の前記広視野角映像内における位置及び方向の少なくとも一方を推定する表示状態推定部と、推定された前記表示装置の前記広視野角映像内における位置及び方向の少なくとも一方と、前記メタデータ上の前記注視対象の位置及び方向の少なくとも一方との差分に基づいて、前記表示装置の前記広視野角映像内における位置及び方向の少なくとも一方に対する相対的な前記注視対象の位置である相対位置、及び、相対的な前記注視対象の方向である相対方向の少なくとも一方を算出する差分算出部と、算出された前記相対位置及び前記相対方向の少なくとも一方の情報、ならびに、前記キュー情報による指示及び前記観測システムの状態を前記表示装置のユーザに提示する提示部と、受信された前記広視野角映像から前記表示状態推定部が推定した前記表示装置の前記広視野角映像内における位置及び方向の少なくとも一方の情報、ならびに、前記キュー情報による指示及び前記観測システムの状態に応じた視野部分に対応する一部の画像を含む前記表示映像を生成する映像生成部と、前記表示映像を表示する前記表示装置と、を有するＶＲ装置と、を備える。

　また、本開示に係る情報処理装置の一態様は、表示装置に広視野角映像内の少なくとも一部の表示映像を表示させるための映像表示システムに用いられる情報処理装置であって、前記広視野角映像で前記表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方に関するデータであって、入力を受け付けることによって得られたデータに基づくメタデータを受信する受信部と、前記メタデータ上の前記注視対象の位置及び方向の少なくとも一方との差分に基づいて、前記表示装置の前記広視野角映像内における位置及び方向の少なくとも一方に対する相対的な前記注視対象の位置である相対位置、及び、相対的な前記注視対象の方向である相対方向の少なくとも一方を算出して出力する差分算出部と、を備える。

　また、本開示に係る情報処理方法の一態様は、表示装置に広視野角映像内の少なくとも一部の表示映像を表示させる情報処理方法であって、前記広視野角映像で前記表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方に関するデータであって、入力を受け付けることによって得られたデータに基づくメタデータを受信し、前記表示装置の前記広視野角映像内における推定された位置及び方向の少なくとも一方と、前記メタデータ上の前記注視対象の位置及び方向の少なくとも一方との差分に基づいて、前記表示装置の向きに対する相対的な前記注視対象の位置である相対位置、及び、相対的な前記注視対象の方向である相対方向の少なくとも一方を算出して出力する。

　なお、これらの包括的又は具体的な態様は、システム、装置、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　本開示によれば、適切な映像を表示することが可能な映像表示システム等が提供される。

図１は、従来例について説明するための図である。図２は、従来例について説明するための図である。図３は、従来例について説明するための図である。図４は、従来例について説明するための図である。図５は、従来例について説明するための図である。図６は、従来例について説明するための図である。図７は、従来例について説明するための図である。図８は、従来例について説明するための図である。図９は、従来例について説明するための図である。図１０は、従来例について説明するための図である。図１１は、従来例について説明するための図である。図１２は、従来例について説明するための図である。図１３は、従来例について説明するための図である。図１４は、実施の形態に係る映像表示システムの概略構成を示す図である。図１５は、実施の形態に係る映像表示システムにおいて表示される映像の一例を示す図である。図１６は、実施の形態に係る映像表示システムの機能構成を示すブロック図である。図１７は、実施の形態に係る観測装置の機能構成を示すより詳細なブロック図である。図１８は、実施の形態に係る表示装置の機能構成を示すより詳細なブロック図である。図１９は、実施の形態に係る映像表示システムの動作を示すフローチャートである。図２０は、実施の形態に係る表示映像の生成について説明する概念図である。図２１は、実施の形態に係る表示映像の生成について説明する概念図である。図２２は、実施の形態に係る表示映像の生成について説明する概念図である。図２３は、実施の形態に係る表示映像の生成について説明する概念図である。図２４は、実施の形態に係る表示映像の生成について説明する概念図である。図２５は、実施の形態に係る表示映像の生成について説明する概念図である。図２６は、実施の形態に係る表示映像の生成について説明する概念図である。図２７は、実施の形態に係る表示映像の生成について説明する概念図である。図２８は、実施の形態に係る表示映像の生成について説明する概念図である。図２９は、実施の形態に係る表示映像の生成について説明する概念図である。図３０は、実施の形態に係る表示映像の生成について説明する概念図である。図３１は、実施の形態に係る表示映像の生成について説明する概念図である。図３２は、実施の形態に係る表示映像の生成について説明する概念図である。図３３は、実施例に係る映像表示システムの機能構成の一例を示す図である。図３４は、実施例に係る観測システムの機能構成の一例を示す図である。図３５は、実施例に係るＶＲシステムの機能構成の一例を示す図である。図３６は、実施例に係るメタデータの構成例を示す図である。図３７は、実施例に係るメタデータの構成例を示す図である。図３８は、実施例に係るメタデータの別の構成例を示す図である。図３９は、実施例に係る映像表示システムの動作フローの一例を示す図である。図４０は、実施例における映像表示システムの動作の結果を説明する図である。図４１は、実施例における映像表示システムの動作の結果を説明する図である。図４２は、実施例における映像表示システムの動作の結果を説明する図である。図４３は、実施例における映像表示システムの動作の結果を説明する図である。図４４は、実施例における映像表示システムの用途の一例を説明する図である。図４５は、実施例における映像表示システムの用途の一例を説明する図である。図４６は、実施例における映像表示システムの移動方法の別の例を説明するための図である。図４７は、実施例に係る映像表示システムをクラウドを利用して実現する構成例を説明するための図である。図４８は、実施例に係る映像表示システムをクラウドを利用して実現する構成例を説明するための図である。図４９は、実施例に係る映像表示システムをクラウドを利用して実現する構成例を説明するための図である。

　（開示の基礎となった知見）
　近年、ユーザが頭部に装着することで眼前に表示部を配置して、見かけ上、表示される画像を大画面で視認することが可能な表示装置が開発されている。このような表示装置は、ヘッドマウントディスプレイ（ＨＭＤ）と呼ばれ、光学的に大画面として画像を視認できるという特性がある。また、ＨＭＤでは、ユーザの右目及び左目のそれぞれに対応する視差分のずれを発生させた映像を表示させることで、ユーザが、視聴する映像を立体的に感じることができるものもある。そして、近年の通信品質の向上によって、遠隔地に配置された観測装置によって撮影された映像を数ミリ秒～数十ミリ秒程度の遅延で、略リアルタイムに視聴することができ、現地を訪れなくても、その場に居るかのような体験をすることが可能となっている。この技術を利用して、観光旅行、展示会見学、視察、工場見学、美術館・博物館・動物園・水族館見学等のバーチャルな観光体験（以下、疑似観光、又は、ＶＲ（Ｖｉｒｔｕａｌ　ｒｅａｌｉｔｙ）観光ともいう）も実現されるようになってきた。

　このようなＶＲ観光においては、３６０度（全経度）の映像を撮影可能なカメラ（いわゆる全天球カメラ）などが観測装置として用いられる。観測装置によって撮影された映像は、広視野角映像となっており、３次元画像空間を形成する。表示装置のユーザ側が、その映像（つまり３次元画像空間を構成する画像のうちの任意の方向における視野範囲の画像を切り出すようにして表示させることができる。例えば、表示装置にユーザの向いている方向を検知できるような機能が搭載されていれば、３次元画像空間のうち、ユーザの向きに応じた一部の映像を切り出して表示できるので、１つのカメラ映像から、多くのユーザのニーズに合う視聴体験を提供することが可能となる。

　ここで、ユーザが任意の方向の一部の映像を見ているときに、この映像内を案内する案内者から、所定の注視対象を注視するように指示された場合、この指示が３次元画像空間内のどこを注視すべき指示であるのかがユーザに理解されない場合がある。例えば、ユーザが３時の方向を見ているときに、１２時の方向に存在する案内者がユーザに対して９時の方向を注視させるべく、「左手をご覧ください」といった音声指示を与えると、ユーザは９時の方向ではなく１２時の方向を見てしまう。このように、ユーザが正面を見ているものとする前提で注視対象を注視させる指示を案内者が発した場合に、案内者の意図する注視対象をユーザが理解できないといったことが生じうる。

　そこで、本開示では、このような注視対象を理解できない状況を抑制するために、ユーザに対して、この注視対象に対応する方向を提示することが可能な映像表示システムを提供することを目的とする。なお、本開示では、観測装置によって３６０度の広視野角映像が撮影されるものとして説明するが、広視野角映像とは、例えば、２７０度以上、１８０度以上、又は、１５０度以上等の任意の角度範囲を撮影した映像であればよい。このような広視野角映像は、少なくともユーザが表示装置側で表示する映像の視野角よりも広い視野角であればよい。また、本開示では、水平面内での映像の移動の発生を想定した映像表示システムについて説明するが、鉛直成分を含む、水平面に交差する交差面で発生する映像の移動に対しても適用可能である。

　以下、図面を用いて従来の映像表示システム等についてさらに詳しく説明する。図１は、従来例について説明するための図である。図１に示すように、従来、ＶＲ観光（１人称体験）と呼ばれるサービスが提供されている。ＶＲ観光では、現地のＶＲ空間が適切に再現されている場合、その場所に居るような観光体験が可能である。３６０°カメラ撮影でのサービスの例としては、FirstAirlines（https://firstairlines.jp/index.html）や、旅助（https://www.tokyotravelpartners.jp/kaigotabisuke-2/）などが挙げられる。また、３Ｄ　ＣＧ（コンピュータグラフィックス）でのサービスの例としては、Google Earth VR、Boulevard（https://www.blvrd.com/）などが挙げられる。

　図２は、従来例について説明するための図である。図２に示すように、ＶＲ観光以外にも、現地で撮影された映像をテレビなどの表示装置に表示させて、３人称視点で、このような映像を視聴するサービス（３人称体験ともいう）も提供されている。３人称体験では、専門家がガイドする、ユーザに特化したサービスの提供があり、個人の趣味に合えば収益化が可能などの特徴がある。

　図３は、従来例について説明するための図である。図３に示すように、ＶＲ観光を展開する場合、基本的な構成として、ＶＲシステムの本体、コントローラ３１１、コンピュータまたはスマートフォン３１３、ネットワーク、クラウド３１４、観測システム３１５等が必要である。ＶＲシステムの本体は、従来は重量があり顔をかなり覆うＨＭＤタイプのみであったが、小型の眼鏡型のＶＲグラスタイプにより長時間の使用が容易となり、より広く使用されるようになりつつある。ＶＲシステムの本体には、ＶＲシステム本体に必要な機能が含まれるＡｌｌ　ｉｎ　Ｏｎｅタイプとコンピュータやスマートフォンなどに一部の機能を任せるテザードタイプがある。コントローラは、メニューを選択したり、ＶＲ空間を移動するなどに使用される。コンピュータまたはスマートフォンは、通信機能のみの場合とＶＲシステムの一部を構成する場合とがある。

　ネットワーク、クラウド３１４は、観測システムとＶＲシステムとを接続し、クラウド上のコンピュータシステムで観測システムまたはＶＲシステムの一部機能を実施する場合がある。観測システムには、無線機能付きの３６０°カメラあるいはスマートフォンやコンピュータに無線あるいは有線で接続された３６０°カメラ、１８０°カメラや広角カメラが利用される。これらの装置等を介して、ユーザ３１２は、ガイドと観光対象の建物や景色とをＶＲ空間内で視認することが可能となる。

　なお、説明では、３６０°カメラを用いたＶＲ観光を例にしているが、１８０°カメラを用いたものなど、ＶＲグラスを用いた参加者が視点を変えられるものであればよい。また、実際の景色を撮影しガイドする例を説明する場合があるが、実際の景色の代わりにコンピュータグラフィックスで構成された仮想空間で仮想的なカメラを用いて、ガイドもＶＲグラスなどを利用して仮想空間に入り、仮想空間内に映像を再生するなどで観光を実現することもできる。したがって、本発明は、このような用途に対しても適用することが可能である。上記の典型的な例としては、月旅行などのように一般の旅行者が容易に行くことができない地域、空間へのＶＲ旅行などに代表される。

　図４は、従来例について説明するための図である。図４では、３６０°カメラ撮影の場合のＶＲ観光サービス（ガイドなし：上段（以下従来例１と称す）、ガイド付き：中段（以下従来例２と称す））と３人称体験の一例であるＺｏｏｍ（登録商標）観光サービスの従来例（下段（以下従来例３と称す））との概略構成を示している。以下、本発明では音声あるいは音声データ、音声情報とは会話だけでなく音楽や場合によっては可聴帯域外の超音波を含むオーディオ信号まで含むものとする。ＶＲ観光サービスでは、観測システム（観光目的地）側は、事前に記録された映像を送出するか、ＶＲシステム側が、３６０°カメラやロボットまたはドローンを操作し、ＶＲシステム側でＶＲ映像を見ることができる。中段に示すように、観測システム側にガイドやカメラ操作者が存在し、３６０°カメラなどのＶＲ映像をＶＲシステムでＶＲとして楽しむということも可能である。また、下段に示すように、３人称体験では、観測システム側から２Ｄ映像がＺｏｏｍのような音声・映像による複数人での遠隔会話サービスで２Ｄで送られ、遠隔地で観光地の映像を見て楽しむことができる。

　図５は、従来例について説明するための図である。従来例２について全体システム構成を説明する。従来例１は、従来例２とは異なりあらかじめ記録されたＶＲ映像を使うか、操作をＶＲシステム側から行う場合であり、その差についても説明していく。従来例２の観測システムは、ＶＲ撮影用のカメラ、例えば３６０°カメラと撮影された情報を遠隔地に送出するための通信装置とから構成される。

　ＶＲ撮影用の３６０°カメラは、異なる方向を撮影する複数のカメラの映像を合成（ステッチング）し、一つの動画とし、これを例えば正距円筒図法（ＥＲＰ）により、平面にマッピングし、ＥＲＰ画像として適切に圧縮し、マイクでとらえたオーディオデータなどとともに通信装置から遠隔地のＶＲシステムへ送出される。３６０°カメラは、ロボットやドローンなどに搭載される場合もある。３６０°カメラまたそれを搭載するロボットやドローンなどは、撮影者やガイドによって操作されるが、従来例１では、ＶＲシステム側で操作する場合も、あるいは、あらかじめ記録された映像などをＶＲシステム側で受け取る場合がある。このように、３次元画像空間とは、その空間を構成する画像は、ユーザが奥行きを体感するものだけではなく、結果として表示される画像が、平面状の画像であって、仮想的な３次元面に配置された複数の平面状の画像を含む概念である。

　ＶＲシステム側では、観測システムとは逆に、受信した平面映像（ＥＲＰ画像）を球体映像に変換し、観測者の方位や位置などに従って、一部を切り出し、ＶＲ表示装置で表示する。従来例３では、受信した映像は２Ｄであるので２Ｄとして表示され、ほとんどは２Ｄ表示装置、例えばタブレットやスマートフォンまたはＴＶを使うことになる。上記は、従来例１における、あらかじめ記録された映像を受信する場合も同様である。

　ＶＲシステム側で操作する場合は、ＶＲシステム側の方位や位置に連動して観測システム側が動作する場合、マウス、タブレット、ジョイスティック、キーボードなどのキー操作や、画面上のメニューやアイコンを選択することで観測システムが動作する場合などがあり、ＶＲシステム側から適切な制御データが観測システムへ送出されるとともに、観測システム側からその状態、つまり、方位や位置などが、ＶＲシステムへ送られることが必要である。

　図６は、従来例について説明するための図である。図６に示す３６０°映像と通常の映像との対比を使って、３６０°映像をＶＲシステムで見る場合の解像度について説明する。３６０°の４Ｋ映像を視野角（ＦＯＶ）１００度のＶＲ機器で見る場合は、ＶＲ表示のため切りだされる映像の解像度は１０６７×６００しかない（ＳＤ映像の２倍程度）。片目の解像度２Ｋ×２Ｋのパネルを使ったＶＲシステムは正方形パネルに表示するため、縦方向は更に２倍に引き伸ばされるため、非常に解像度が低い映像になる。

　８Ｋ映像の場合のＶＲ表示の解像度は２１３３×１２００となりデータ量的には、Ｆｕｌｌ　ＨＤ（１９２０×１０８０）の面積の１．２３倍となるが、縦方向は２倍に引き伸ばされるので、Ｆｕｌｌ　ＨＤ程度の映像となる。１１Ｋ撮影（１０５６０×５９４０）では、ＶＲ解像度は２９３３×１６５０となりＶＲシステム相当になる。

　高解像度で臨場感の高いＶＲ観光体験を提供するためには、最低限８Ｋ、できれば１１Ｋでの撮影が必要になる。８Ｋ、１１Ｋの撮影は、機材も大きく、映像の転送レートも高く、容量も大きい。このため撮影も配信も高価になる。

　このため、ＶＲ酔いも避け、分かりやすく、使いやすくすることで、多くのユーザに利用させてユーザあたりの利用単価を下げていくことが必須となる。またＶＲ録画コンテンツの有効利用もビジネスを成立させるために重要になる。

　図７は、従来例について説明するための図である。従来例１及び２の主な機能の構成例を機能別に説明する。従来例１及び２の観測システム７５１は、ＶＲ撮影をおこなうためのＶＲ撮影手段７６２（ＶＲ撮影カメラ）、ＶＲ撮影手段７６２で撮影した映像を処理し伝送に適した画像とするＶＲ映像処理手段７５８、ＶＲ映像処理手段７５８で処理したＶＲ映像を圧縮し、伝送に適したデータレートおよび映像信号形式とするＶＲ映像圧縮手段７５６、ガイドや周辺の音声を入力するためのマイクロフォンからなる音声入力手段７６３、音声入力手段７６３で入力した音声信号を伝送に適したデータレートおよび音声信号形式とする音声圧縮手段７６０、補助情報をグラフィックスとして生成するグラフィックス生成手段７５９、ＶＲ映像圧縮手段７５６、グラフィックス生成手段７５９および音声圧縮手段７６０で圧縮された映像信号および音声信号およびグラフィックス情報を伝送に適した信号とする多重化手段７５７、多重化手段７５７で多重化された通信用観測信号を複数のＶＲシステム７０１へ送り、複数のＶＲシステム７０１からの通信用音声信号を受信するための通信手段７５４、通信手段７５４が受信した通信用音声信号から圧縮音声信号を取り出す分離手段７５５、分離手段７５５からの圧縮音声信号から音声信号を取り出す音声復号手段７６１、音声復号手段７６１で復号された音声信号を音として出力するための音声出力手段７６４から構成される。

　本例では、ＶＲ映像処理手段７５８、ＶＲ映像圧縮手段７５６およびグラフィックス生成手段７５９はＧＰＵ内で実現され、音声圧縮手段７６０、多重化手段７５７、分離手段７５５、音声復号手段７６１はＣＰＵ内で実現されるとするが、必ずしもこれに限らず、より簡易な構成では、ＣＰＵとＧＰＵとが一つのプロセッサとして実現される場合もあるが、その機能構成及び動作は同じである。

　ＶＲ撮影手段７６２は、例えば３６０°カメラであるが、異なる方向を撮影する複数のカメラから構成され、ＶＲ映像処理手段において、複数のカメラの出力を合成（ステッチング）し、一つの動画とし、これを例えば生距円筒図法（ＥＲＰ）により、平面にマッピング、ＥＲＰ画像とし出力する。

　従来例１及び２のＶＲシステム７０１は、観測システム７５１とは逆に、観測システム７５１から送られた通信用観測信号を受信またはＶＲシステム７０１で入力された音声を通信用音声情報として観測システム７５１へ送出する通信手段７１６、通信手段７１６からの通信用観測信号から圧縮ＶＲ映像（ＥＲＰ画像）、グラフィックス情報及び圧縮音声情報を分離出力する分離手段７１５、分離手段７１５からの圧縮ＶＲ映像（ＥＲＰ画像）を復号するＶＲ映像復号手段７１０、ＶＲ映像復号手段７１０からのＥＲＰ画像を球体映像に変換し、ＶＲ制御手段７０７からの制御情報により、一部を切り出し、ＶＲ表示手段７０４で表示できる映像とするとともに、分離手段７１５から出力されたグラフィックス情報から表示すべきグラフィックスへ変換するグラフィックス生成手段７１２のグラフィックス情報とともにＶＲ表示手段７０４で表示するＶＲ映像を出力するＶＲ表示制御手段７０８、ＶＲ表示制御手段７０８からのＶＲ映像を両目でみるために出力するＶＲ表示手段７０４、ＶＲ表示手段７０４の前後左右の傾きあるいは白目の向きを検出する回転検出手段７０３とＶＲ表示手段７０４の左右前後および高さ方向の位置を検出する位置検出手段７０２のそれぞれの出力がＶＲ制御手段７０７に送られ、ＶＲ制御手段７０７の出力によりＶＲ表示手段７０４で表示される映像および音声再生制御手段により音声再生手段７０９により出力される音声が適切に制御される。分離手段７１５で分離された圧縮音声情報は、音声復号手段７１３で、復号され、音声情報として音声再生制御手段７０９へ送られ、音声再生制御手段７０９において、ＶＲ制御手段７０７からの制御情報に応じて、左右前後高さ方向のバランス、場合によっては、周波数特性や遅延処理、またはＶＲシステム７０１としてのアラームなどの合成などがなされる。グラフィックス生成手段７１２においても、ＶＲシステム７０１のシステムメニューや警告などの表示用のグラフィックスの生成も行われ、ＶＲ画像に重ねて、ＶＲ表示手段７０４で表示される。ＶＲシステム７０１にはＶＲシステム７０１の使用者の音声を入力するための音声入力手段７０６を備え、音声入力手段７０６からの音声情報は音声圧縮手段７１４で圧縮され圧縮音声情報として多重化手段７１７へ送られここで通信用音声情報として、通信手段７１６から観測システム７５１へ送出される。

　図８は、従来例について説明するための図である。従来例２の観測システムの典型的な実現例として３６０°カメラ８０１の実現例を説明する。

　３６０°カメラ８０１の典型的な例は、２つの撮像系つまり超広角のレンズ８５４、シャッター８５３、撮像素子８５２を組み合わせ、前後上下３６０°の映像を撮影する。より高品質のものを撮影するために２つ以上の撮影系を組み合わせる場合もあることから、本例では、ＶＲ撮影カメラ８０４に２つ以上の撮影系があるとして図示している。撮影系は、独立したカメラを組み合わせて構成する場合もあり、その場合、一般的には、映像のＡＤＣ８５１の後に高速なデジタル映像Ｉ／Ｆがあり、これにより、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）８０３あるいはＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）８０２に接続される映像系バスに接続された高速なデジタル映像入力に接続されることになるがここでは一体化したものとして説明する。

　３６０°カメラ８０１の主要な構成は、前述した複数の撮像系からならＶＲ撮影カメラ８０４、映像データやグラフィックスの処理を主に行うＧＰＵ８０３、一般的なデータ処理、入出力にかかわる処理及び３６０°カメラ８０１全体の制御を行うＣＰＵ８０２、ＣＰＵ８０２やＧＰＵ８０３を動作させるためのプログラムを記憶するためのＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）８１３、ＣＰＵ８０２やＧＰＵ８０３が動作するためのデータの格納に用いるＲＡＭ８１４、映像、音声またプログラムの保存を行う取り外し可能なメモリであるＳＤカード（登録商標）８２１、外部とデータのやり取りや外部からの操作を受けるためのＷｉＦｉ（登録商標）やＢｌｕｅｔｏｏｔｈ（登録商標）での無線通信を行う無線通信素子８２０、操作や表示のためのボタンや表示素子８０８、バッテリー８０７と電源制御素子８１２、音声を入力するための複数のマイク（マイク群８１９）又はマイク端子８２５、マイクアンプ８１８、ＡＤＣ８１７からなる音声入力部、スピーカー８２６又はヘッドフォン端子８２４、アンプ８２３、ＤＡＣ８２２からなる音声出力部、主にＶＲ撮影カメラ８０４とＣＰＵ８０２とを接続しデジタル映像データの読み取りに用いる映像系バス、前述のＥＥＰＲＯＭ８１３、ＲＡＭ８１４、ＳＤカード８２１とＧＰＵ８０３、ＣＰＵ８０２とを接続しメモリとのデータのやり取りを行うメモリバス、前述のＣＰＵ８０２、ＧＰＵ８０３、無線通信素子８２０、音声入力部および音声出力部が接続され、制御やデータのやり取りを行うシステムバス、前述のボタンや表示素子８０８、電源制御素子８１２、また図示されていないが音声入力部、音声出力部およびＶＲ撮影カメラ８０４などを含めて制御や低速のデータのやり取りを行うＩ／Ｏバス、およびそれぞれのバスを接続するいくつかのバス変換部８１５及び８１６から構成される。Ｉ／Ｏバスには、さらに動き・位置検出部８６０が接続される。いくつかの処理についてはＧＰＵ８０３で行うかＣＰＵ８０２で行うかは本例と異なる場合があり、バス構成も本例と異なる場合があるが、後述する機能構成、動作に違いはない。

　ＶＲ撮影カメラ８０４は、それぞれ、広角な映像を撮影するためのレンズ８５４、レンズ８５４で集められた光を電気信号に変換する撮像素子８５２、レンズ８５４と撮像素子８５２の間にあり、光を遮断するシャッター８５３、ここでは図示していないが、シャッター８５３と同様な位置にありレンズ８５４からの光の強さを制御する絞り、撮像素子８５２からのアナログ電気信号をデジタル映像信号に変換するＡＤＣ８５１から構成され、図示していないがそれぞれがＩ／Ｏバスを通じてＣＰＵ８０２から制御され、状態がＣＰＵ８０２に知らされる。

　ボタンとしては、電源のＯＮ／ＯＦＦを行う電源スイッチ８０６、撮影の開始/終了の操作のための撮影開始/終了ボタン８１１、備わっていない場合もあるが撮影のモードを変えるための撮影モード選択ボタン８０９とレンズ８５４を動かすことやデジタル的に画角を制御し拡大縮小を行うズームボタン８１０がある。

　電源制御素子８１２は、バッテリー８０７と一体であることもあるが、電圧の安定化、バッテリー容量の管理などを行い、図示していないがすべての構成要素に電源を供給する。さらにＵＳＢあるいはＡＶ出力を通じ、ＨＭＤ／ＶＲグラスに電源を供給する。

　ＧＰＵ８０３で実現されているそれぞれの機能は、画像処理などの専用のハードウエアおよびプログラムで実現されるが、一般的にＣＰＵ８０２で実現される機能は、汎用のハードウエアとプログラムにより実現される。一例として、ＧＰＵ８０３は、ＶＲ映像処理部８４２、ＶＲ映像圧縮部８４１、及び、グラフィックス生成部８４３などを実現するために用いられる。また、一例として、ＣＰＵ８０２は、メモリ制御部８３５、多重化部８３２、音声圧縮部８３３、音声復号部８３４、及び、分離部８３１を実現するために用いられる。

　図９は、従来例について説明するための図である。図９に基づき、従来例２の観測システムの典型的な実現例としてＶＲシステム９０１の実現例を説明する。本実現例では、ＶＲシステム９０１はコンピュータまたはスマートフォン９５１とそれに接続されたＨＭＤまたはＶＲグラス９０２から構成されるとする。ＨＭＤまたはＶＲグラス９０２単体で実現する例もあるが、その場合は、双方のＣＰＵとＧＰＵの機能を一つにし、周辺の機能もまとめたものになると考えることができる。

　ＶＲシステム９０１の中でコンピュータ／スマートフォン９５１の主な構成は、観測システムと接続するためのＷｉＦｉやイーサネット（登録商標）などの高速な通信素子９７０、映像データやグラフィックスの処理を主に行うＧＰＵ９５４、一般的なデータ処理及びコンピュータ/スマートフォン９５１全体の制御を行うＣＰＵ９６５、ＣＰＵ９６５やＧＰＵ９５４を動作させるためのプログラムを記憶するためのハードディスクやフラッシュメモリなどの不揮発性メモリ９６２、ＣＰＵ９６５やＧＰＵ９５４が動作するためのデータの格納に用いるＲＡＭ９６１、電源スイッチ９６３や各部に電源を供給するための電源制御素子９６４、ＨＭＤ／ＶＲグラス９０２に映像と音声信号を出力するためのＡＶ出力９５２、ＨＭＤ／ＶＲグラス９０２を制御したり、そこからのデータを取得するためのＵＳＢ９５３などのＩ／Ｆ、ＲＡＭ９６１や不揮発性メモリ９６２を接続しＣＰＵ９６５やＧＰＵ９５４がアクセスするためのメモリバス、ＣＰＵ９６５やＧＰＵ９５４がＡＶ出力９５２、ＵＳＢ９５３、通信素子９７０にアクセスするためのシステムバス、システムバスとメモリバスを接続するバス接続（バス変換部９６０）、ここでは図示していないが表示装置、操作のための入力装置、その他の汎用のＩ／Ｆなどから構成される。

　いくつかの処理についてはＧＰＵ９５４で行うかＣＰＵ９６５で行うかは本例と異なる場合があり、バス構成も本例と異なる場合があるが、後述する機能構成、動作に違いはない。一例として、ＧＰＵ９５４は、動き・位置検出処理部９５５、ＶＲ制御部９５６、ＶＲ表示制御部９５７、ＶＲ映像復号部９５８、及び、グラフィックス生成部９５９などを実現するために用いられる。また、一例として、ＣＰＵ９６５は、音声復号部９６６、音声再生制御部９６７、多重化部９６８、及び、分離部９６９を実現するために用いられる。

　またＡＶ出力９５２とＵＳＢ９５３については高速な双方向Ｉ／Ｆとして、例えばＵＳＢ　Ｔｙｐｅ－Ｃ（登録商標）などのＩ／Ｆで替えることもできる。その場合、ＨＭＤ／ＶＲグラス９０２側も同じＩ／Ｆで接続するか、Ｉ／Ｆを変換する変換器で接続することになる。一般的にＵＳＢ９５３で映像を送る場合、適切な圧縮を行いデータ量を圧縮するため、ＣＰＵ９６５またはＧＰＵ９５４で適切な映像圧縮を行いＵＳＢ９５３を経由して映像をＨＭＤ／ＶＲグラス９０２に映像を送出する。

　ＶＲシステム９０１の中でＨＭＤ／ＶＲグラス９０２の主な構成は、音声を入力するためのマイク９０６、マイクアンプ９１７、ＡＤＣ９１８からなる音声入力部、スピーカー９０７又はヘットフォン端子９０８、アンプ９１９、ＤＡＣ９２０からなる音声出力部、使用者がＶＲ映像を見るための２組のレンズ９０４と表示素子９０５からなるＶＲ表示部、ジャイロセンサ、カメラあるいは超音波マイクなどからなる動き・位置検出部および方位検出部からなる動き・位置センサ９０３、図示していないコントローラと通信するためのＢｌｕｅｔｏｏｔｈなどの無線通信素子９２７、音声出力部からの出力音量を制御するための音量ボタン９０９、ＨＭＤ／ＶＲグラスの電源をＯＮ／ＯＦＦするための電源スイッチ９２１、電源制御のための電源制御素子９２４、前述のＥＥＰＲＯＭ９１３、ＲＡＭ９１４、ＳＤカードとＧＰＵ９１０、ＣＰＵ９１５を接続しメモリとのデータのやり取りを行うメモリバス、前述のＣＰＵ９１５、ＧＰＵ９１０、無線通信素子９２７、コンピュータ/スマートフォン９５１からの映像信号と音声信号を受けるためのＡＶ入力９２５、コンピュータ／スマートフォン９５１からの制御信号を受けたり、映像や音声信号や動き・位置のデータを送るためのＵＳＢ９２６などのＩ／Ｆ、主に音声圧縮（音声圧縮部９１６により実現）やスイッチや電源などの制御、ＨＭＤ／ＶＲグラス９０２全体の制御を行うＣＰＵ９１５、主にＶＲ表示部への映像の調整を行う映像表示処理（映像表示処理部９１２により実現）と動き・位置センサ９０３からの情報からコンピュータ/スマートフォン９５１に送る動き・位置情報を補正・成形する動き・位置検出（動き・位置検出部９１１により実現）を行うＧＰＵ９１０、ＣＰＵ９１５とＧＰＵ９１０を動作させるためのプログラムやデータを記憶するためのＥＥＰＲＯＭ９１３、ＣＰＵ９１５とＧＰＵ９１０の動作時のデータを記憶するためのＲＡＭ９１４、ＣＰＵ９１５、ＧＰＵ９１０、ＲＡＭ９１４とＥＥＰＲＯＭ９１３を接続するためのメモリバス、ＣＰＵ９１５、ＧＰＵ９１０、ＵＳＢ９２６、音声入力部、音声出力部および無線通信素子９２７が接続され、制御やデータのやり取りを行うシステムバス、前述のボタンや電源制御素子９２４、動き・位置センサ９０３また図示されていないが音声入力部、音声出力部およびＶＲ撮影カメラなどを含めて制御や低速のデータのやり取りを行うＩ／Ｏバス、およびそれぞれのバスを接続するいくつかのバス変換部９２２から構成される。いくつかの処理についてはＧＰＵ９１０で行うかＣＰＵ９１０で行うかは本例と異なる場合があり、バス構成も本例と異なる場合があるが、後述する機能構成、動作に違いはない。

　ＡＶ入力９２５からの映像データはデータ量が多く高速であるため、システムバスが十分な速度を持っていない場合、直接ＧＰＵ９１０にとりこまれるとして図示している。

　なお、動き・位置センサ９０３のカメラで撮影された映像情報は、ＨＭＤ／ＶＲグラス９０２の周辺を使用者が確認する情報として表示素子に送られたり、ＵＳＢ９２６を通じてコンピュータ/スマートフォン９５１へ送付し使用者が危険な状況にないかの監視を行ったりすることがある。

　電源制御素子９２４は、ＵＳＢ９２６またはＡＶ入力９２５からの電源供給を受け、電圧の安定化、バッテリー容量の管理などを行い、図示していないがすべての構成要素に電源を供給する。場合によってはバッテリー９２３を内部あるいは外部に設け、電源制御素子９２４に接続する場合がある。

　図示していないコントローラのボタンやカーソルの状態は、無線通信素子９２７を通じてＣＰＵ９１５が取得し、ＶＲ空間でのボタン操作、移動やアプリケーションの操作に用いられる。コントローラの位置及び向きは、動き・位置検出部にあるカメラあるいは超音波センサなどで検出し、適切な処理を動き・位置センサで行ったのち、ＣＰＵ９１５での制御に用いられるとともに、ＵＳＢ９２６を経由してコンピュータ／スマートフォン９５１へ送られ、ＣＰＵ９１５で実行されるプログラムあるいはＧＰＵ９１０で実行されるグラフィックスの描画や画像処理に用いられる。基本的な動作は本発明と直接関連しないので割愛する。

　図１０は、従来例について説明するための図である。ＨＭＤ／ＶＲグラスにコンピュータ／スマートフォンのなかでＶＲのための機能を備えた一体型ＶＲシステム１００１の実現例について説明する。

　図１０でわかるように、コンピュータ／スマートフォンおよびＨＭＤ／ＶＲグラスの機能が一体化され、ＣＰＵ、ＧＰＵのそれぞれの機能が一つのＣＰＵ、ＧＰＵで実現されている。

　通信素子１０３３は、典型的にはワイヤレス通信を行うＷｉＦｉであり、電源ケーブルを持たないことからバッテリー１０２６を持つ。バッテリー１０２６の充電や初期設定のためにＵＳＢ１０３４などの汎用のコンピュータとのＩ／Ｆを持つ。

　一体型ＶＲシステム１００１は、コンピュータ/スマートフォンおよびＨＭＤ／ＶＲグラスをつなぐＡＶ出力、ＡＶ入力、ＵＳＢが必要ないため、高品位かつ遅れがないＡＶ情報の伝送や効率的な制御が可能となるが、一体とすることで、大きさに制限があることで、電力や熱、スペースの制限で高性能なＣＰＵ１０２７やＧＰＵ１００６を使うことができない場合があり、ＶＲ機能としては制限されたものになる可能性がある。

　しかしながらケーブルで接続されないことは自由度が増し、アプリケーションの幅を広げることができる。

　また、機能の一部をクラウド上のコンピュータで実現するなどにより、性能の不足を補い高機能なアプリケーションを実現することができる。

　一体型ＶＲシステム１００１は、図８及び図９に説明した構成と同様に、他に、レンズ１００２、表示素子１０１１、マイク１００３、マイクアンプ１００７、ＡＤＣ１００９、スピーカー１００４、ヘッドフォン端子１００５、アンプ１００８、ＤＡＣ１０１０、ＲＡＭ１０１９、ＥＥＰＲＯＭ１０２０、バス変換１０２１、動き位置センサ１０２２、電源スイッチ１０２３、音量ボタン１０２４、電源制御素子１０２５を備える。また、映像表示処理１０１２、動き・位置検出処理１０１３、ＶＲ制御１０１４、ＶＲ表示制御１０１５、動き・位置検出１０１６、ＶＲ映像復号１０１７、及び、グラフィックス生成１０１８がＧＰＵ１００６を用いて実現される。また、音声圧縮１０２８、音声復号１０２９、音声再生制御１０３０、多重化１０３１、及び、分離１０３２がＣＰＵ１０２７を用いて実現される。

　図１１は、従来例について説明するための図である。図１１に基づき、従来例１および２の観測システムのＶＲ撮影カメラ１１５１で撮影された映像を処理するＶＲ映像処理部１１０３のより詳細な構成を説明する。

　前述したようにＶＲ撮影カメラは、３６０°上下四方の映像を撮影するための複数のカメラｃｍ、典型的には超広角レンズのカメラｃｍを持ち、それぞれのカメラｃｍで撮影した同じ画素を持つ矩形の個別映像がＧＰＵ１１０１内のプログラムあるいは専用回路で実現されるＶＲ映像処理部１１０３へ入力される。

　ＶＲ映像処理部１１０３では、まず入力された複数の映像をそれぞれのカメラｃｍの撮影方向および撮影して得られた映像を評価し、連続した球形の映像となるように合成しつなぎ合わせる処理を行うステッチング処理部１１０５へそれぞれのカメラｃｍで撮影された映像を入力する。ステッチング処理部１１０５から出力された球形の映像データは、ＶＲ映像マッピング部１１０４により、例えば、正距円筒図法（ＥＲＰ）により、平面にマッピングし、ＥＲＰ画像としてＶＲ映像処理部１１０３から出力され、次のＶＲ映像圧縮部１１０２へ渡される。

　なお、映像系バスとカメラとの接続は、それぞれのカメラがバスに接続されるように図示しているが、ＶＲ撮影カメラ１１５１内で、一つの信号としてまとめ、時分割でそれぞれのカメラで撮影した映像を映像系バスに送り、ＶＲ映像処理部１１０３へ入力するとしてもよい。簡易な構成では、カメラｃｍが２つであるため、バスではなく、２つのカメラの出力をそれぞれＧＰＵ１１０１が受け取る構成とし、並列に撮影した映像をＶＲ映像処理部１１０３が受け取り処理するということも可能である。

　図１２は、従来例について説明するための図である。図１２に基づき従来例１および２のＶＲシステムのＶＲ表示制御部１２０４のより詳細な構成を説明する。

　前述したようにＶＲ表示制御部１２０４は、コンピュータ／スマートフォンのＧＰＵ１２０１でプログラムあるいは専用回路で実現され、マッピング部１２０６と表示ＶＲ映像変換部１２０５から構成される。

　その動作は次のようになる。通信素子１２６１が観測システムから送られる通信データを受け、ＣＰＵ１２３１の分離部１２３２で圧縮映像が分離され、メモリバスを経由して、ＧＰＵ１２０１が映像を受け取り、ＶＲ映像復号部１２０７で、復号され、平面映像（ＥＲＰ画像）となる。平面映像が、ＶＲ表示制御部１２０４のマッピング部１２０６で３６０°球体映像に変換され、次の表示ＶＲ映像変換１２０５で、ＶＲ制御部１２０３が出力する制御情報をもとにＶＲ表示手段１２０２で表示する部分が切り出される。

　具体的には、ＥＲＰ画像の中心を全面とし、３６０°球体映像の原点とする。ＶＲ表示手段１２０２に表示されるＶＲ映像の初期映像は、原点を中心としＶＲ表示手段１２０２の能力に応じ、右目用のものは少し右によった映像、左目用のものは少し左に寄った映像とし、高さ方向は初期設定の値を用い映像がそれぞれ切り出され、右目用、左目用の表示素子で表示される。ここからＶＲシステム左右に回転、上下を見るなどに応じ切り出しの位置が変わる。

　一般的には３６０°カメラからの映像はＶＲシステムの移動では変化しないが、ＣＧで生成されたものの場合、ＶＲシステムの移動やコントローラでの操作により位置が変わる。

　３６０°球体映像からの切り出しの初期値は、前回の切り出し位置からである場合もあるが、一般的には、初期位置に戻す機能が備えられている。

　図１３は、従来例について説明するための図である。図１３に基づき従来例２の動作例を説明する。

　観測システムでは、音声入力部（マイク群、マイク端子、マイクアンプ、ＡＤＣ）により、音声を入力し（Ｓ１３２５）、音声圧縮部により音声圧縮を行う（Ｓ１３２６）。

　同時に、ＶＲ撮影カメラの複数のカメラ（レンズ、シャッター、撮像素子、ＡＤＣ）において動画を撮影し（Ｓ１３２１）、ＶＲ映像処理部のステッチング処理部で中央であるカメラ１を中央として球体映像にステッチングし（Ｓ１３２２）、これをＶＲ映像マッピング部により正距円筒図法などによりＥＲＰ画像を生成し（Ｓ１３２３）、ＶＲ映像圧縮部により適切に圧縮する（Ｓ１３２４）。

　圧縮されたＥＲＰ画像と音声情報は、多重化部により、多重化され（Ｓ１３２７）伝送可能な形式とされ、無線通信素子により、ＶＲシステムに送出（送信）される（Ｓ１３２８）。

　時間経過とともに場合によっては新しい方向、位置に移動し（Ｓ１３２９）、音声入力と複数のＶＲ撮影カメラでの撮影から送出が繰り返される。

　ここでは、グラフィックス情報については映像圧縮前に映像に重畳される場合や、グラフィックス情報として、映像・音声とともに多重化される場合があるが、省略した。

　ＶＲシステムでは、コンピュータ／スマートフォンにおいて、観測システムから送られてきた情報を通信素子で受信し（Ｓ１３０１）、分離部へ送る。分離部では送られ圧縮映像情報と圧縮音声情報を分離する（Ｓ１３０２）。分離部で分離された圧縮音声情報は音声復号部に送られ復号され（Ｓ１３０３）非圧縮の音声情報となる。音声復号部から音声情報は音声再生制御部へ送られ、ＧＰＵのＶＲ制御部からシステムバス経由で送られたＶＲ観測システムの位置・方位情報に基づき音声再生制御部で音声処理が行われる（Ｓ１３０４）。音声処理が行われた音声情報は、システムバス経由で、ＡＶ出力またはＵＳＢを経由して、ＨＭＤ／ＶＲグラスの音声出力部（ＤＡＣ、アンプ、スピーカーおよびヘッドフォン端子）へ送られ、音声として出力される（Ｓ１３０５）。音声処理としては、左右や空間内での音量のバランス制御、周波数特性の変更、ディレイ、空間内での移動、特定の音源のみについての同様の処理、効果音の追加などが行われる。

　圧縮映像信号は、コンピュータ／スマートフォンのＣＰＵの分離部からの映像データがメモリバスを経由してＧＰＵのＶＲ映像復号部に送られ、ＶＲ映像復号部において復号され（Ｓ１３０７）ＥＲＰ画像としてＶＲ表示制御部に入力される。ＶＲ表示制御部では、マッピング部によりＥＲＰ映像が３６０°球体映像にマッピングされ（Ｓ１３０８）、表示ＶＲ映像変換部においてＶＲ制御部からのＶＲシステムの位置・方位情報に基づき適切な部分が３６０°球体映像から映像が切り出され（Ｓ１３０９）、ＶＲ表示部（表示素子、レンズ）によりＶＲ映像として表示される（Ｓ１３１０）。

　観測システムからの受信から映像表示、音声出力が繰り返し行われる。

　なお、ここでグラフィックスについては、映像・音声分離と同時にグラフィックスが分離され、ＶＲ表示制御部によりＶＲ映像に重畳される場合や、ＶＲシステム内で生成され、ＶＲ映像に重畳される場合などがあり、ここでは説明を省略した。

　（開示の概要）
　本開示の概要は、以下のとおりである。

　本開示の一態様に係る映像表示システムは、表示装置により表示映像を表示するための映像表示システムであって、広視野角映像を生成する撮影部と、広視野角映像内で表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方に関するデータ、ならびに、観測システムの状態の変化を知らせるためのキュー情報を取得するデータ取得部と、データ取得部からのデータを他の情報とともにメタデータとするメタデータ構成部と、広視野角映像をメタデータとともに送信する送信部と、を有する観測装置と、広視野角映像、データ及びキュー情報を受信する受信部と、表示装置の広視野角映像内における位置及び方向の少なくとも一方を推定する表示状態推定部と、推定された表示装置の広視野角映像内における位置及び方向の少なくとも一方と、メタデータ上の注視対象の位置及び方向の少なくとも一方との差分に基づいて、表示装置の広視野角映像内における位置及び方向の少なくとも一方に対する相対的な注視対象の位置である相対位置、及び、相対的な注視対象の方向である相対方向の少なくとも一方を算出する差分算出部と、算出された相対位置及び相対方向の少なくとも一方の情報、ならびに、キュー情報による指示及び観測システムの状態を表示装置のユーザに提示する提示部と、受信された広視野角映像から表示状態推定部が推定した表示装置の広視野角映像内における位置及び方向の少なくとも一方の情報、ならびに、キュー情報による指示及び観測システムの状態に応じた視野部分に対応する一部の画像を含む表示映像を生成する映像生成部と、表示映像を表示する表示装置と、を有するＶＲ装置と、を備える。

　このような映像表示ステムは、メタデータを用いることによって表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方に関する相対的な注視対象の位置である相対位置、及び、相対的な注視対象の方向である相対方向の少なくとも一方を算出される。そして、相対位置及び相対方向の少なくとも一方がユーザに提示されるので、ユーザが移動可能な場合に注視対象の位置を見失ってしまうという不具合を抑制できる。したがって、映像表示システムによれば、ユーザが移動可能な場合に注視対象の位置を見失ってしまうという不具合の抑制という観点で、適切な映像を表示することが可能となる。

　また、例えば、映像を撮影するカメラ、又は、演算により画像を生成する画像生成部をさらに備え、広視野角映像は、カメラによって撮影された映像、又は、画像生成部によって演算された画像であってもよい。

　これによれば、カメラによって撮影された映像、又は、画像生成部によって演算された画像からなる広視野角映像について、適切な映像を表示することが可能となる。

　また、例えば、提示部は、算出された相対位置及び相対方向の少なくとも一方およびキュー情報に基づく情報を示すグラフィックスを生成して出力し、一部の画像に、出力したグラフィックスを重畳させることで、映像生成部に相対位置及び相対方向の少なくとも一方を提示させてもよい。

　これによれば、グラフィックスにより、相対位置及び相対方向の少なくとも一方をユーザに提示できる。

　また、例えば、データ受付部は、注視対象の方向に関するデータの入力を受け付け、表示状態推定部は、表示装置の広視野角映像内における方向を推定し、グラフィックスは、表示映像上に相対方向を指し示す矢印を表示させてもよい。

　これによれば、表示映像上に相対移動方向を指し示す矢印を表示させるグラフィックスにより、相対位置及び相対方向の少なくとも一方をユーザに提示できる。

　また、例えば、データ受付部は、注視対象の方向に関するデータの入力を受け付け、表示状態推定部は、表示装置の広視野角映像内における方向を推定し、グラフィックスは、表示映像上における相対方向側以外の少なくとも一部を覆い隠すための画像であるマスクを表示させてもよい。

　これによれば、表示映像上における相対方向側以外の少なくとも一部を覆い隠すための画像であるマスクを表示させるグラフィックスにより、相対方向をユーザに提示できる。

　また、例えば、データ受付部は、注視対象の位置に関するデータの入力を受け付け、表示状態推定部は、表示装置の広視野角映像内における位置を推定し、グラフィックスは、表示映像上に相対位置を示すマップを表示させてもよい。

　これによれば、表示映像上に相対位置を示すマップを表示させるグラフィックスにより、相対移動方向をユーザに提示できる。

　また、例えば、さらに、データの入力に用いるための入力インターフェイスを備え、データ取得部は、入力インターフェイスを介して入力されたデータを取得してもよい。

　これによれば、入力インターフェイスを介して入力されたデータからメタデータを構成できる。

　また、例えば、さらに、ユーザの広視野角映像内での移動の開始と終了のタイミングの少なくとも一方を指定するための入力インターフェイスを備え、データ取得部は、入力インターフェイスを介して入力された移動の開始と終了のタイミングの少なくとも一方を取得してもよい。

　これによれば、入力インターフェイスを介して入力された移動の開始と終了のタイミングの少なくとも一方を取得できる。

　また、例えば、広視野角映像を構成する画像は、実空間を撮影する撮影部によって出力された画像であり、入力インターフェイスは、実空間において入力インターフェイスの操作者が保持する指示マーカであって、指示マーカの動きによって注視対象の位置及び方向の少なくとも一方を指示する指示マーカと、撮影部によって出力された指示マーカを含む画像を解析することにより指示マーカによって指示された注視対象の位置及び方向の少なくとも一方を受け付ける画像解析部と、を有してもよい。

　これによれば、指示マーカの動きによって注視対象の位置及び方向の少なくとも一方を指示することで、相対位置、及び、相対方向の少なくとも一方を算出できる。

　また、例えば、観測装置とＶＲ装置が備える機能の少なくとも一部を備え、観測装置及びＶＲ装置とをネットワークで接続され、観測装置またＶＲ装置の処理の一部を担う情報処理装置を備えてもよい。

　これによれば、観測装置とＶＲ装置と情報処理装置とによって、映像表示システムを実現できる。

　また、例えば、記情報処理装置は、広視野角映像、データ及びキュー情報を観測装置からメタデータとして受信する受信部と、メタデータ上の注視対象の位置及び方向の少なくとも一方、ならびに、キュー情報に従った情報を表示装置のユーザに提示させるための情報を生成する提示部と、受信された広視野角映像から、表示状態推定部が推定した表示装置の広視野角映像内における位置及び方向の少なくとも一方の情報に応じた視野部分に対応する一部の画像に提示部で生成された情報を加えて、表示映像を生成する映像生成部と、広視野角映像、相対位置及び相対方向の少なくとも一方の情報に応じた視野部分に対応する一部の画像、ならびに、メタデータを送信する送信部と、を備えてもよい。

　これによれば、上記構成の観測装置とＶＲ装置と情報処理装置とによって、映像表示システムを実現できる。

　また、例えば、情報処理装置は、広視野角映像、データ及びキュー情報を観測装置からメタデータとして受信する受信部と、メタデータ上の注視対象の位置及び方向の少なくとも一方、ならびに、キュー情報に従った情報を表示装置のユーザに提示させるための情報を生成する提示部と、提示部で生成された情報からメタデータを生成するメタデータ構成部と、メタデータ構成部で生成されたメタデータと受信部で受信された広視野角映像とその他の情報とを、ＶＲ装置に送信する送信部と、を備えてもよい。

　また、例えば、情報処理装置は、広視野角映像、データ及びキュー情報を観測装置からメタデータとして受信し、表示装置の向きに関するデータを表示装置から受信する受信部と、表示装置の向きと撮影部の移動に関する移動情報との差分およびキュー情報に基づいて、表示装置の向きに対する相対的な撮影部の移動方向である相対移動方向を算出する差分算出部と、算出した相対移動方向を示すグラフィックスであって、広視野角映像のうち、表示装置の推定された向きに応じた視野部分に対応する一部の映像に対して重畳されることで相対移動方向およびキュー情報に従った情報を表示装置のユーザに提示させるグラフィックスを生成して出力する提示部と、グラフフィックスを表示装置の向きに関するデータに基づいて修正し、広視野角映像に重畳することで表示映像を生成する映像生成部と、表示映像とその他の情報とを送信する送信部と、を備えてもよい。

　また、例えば、情報処理装置は広域ネットワークに接続されたクラウド上に設けられ、広域ネットワークを介して観測装置及びＶＲ装置と接続されてもよい。

　これによれば、観測装置と、ＶＲ装置と、観測装置およびＶＲ装置に広域ネットワークを介して接続されクラウド上に設けられた情報処理装置とによって、映像表示システムを実現できる。

　また、例えば、キュー情報は観測装置の移動方向又は表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方が変化することを示す情報であってもよい。

　これによれば、キュー情報として観測装置の移動方向又は表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方が変化することを示す情報を用いることができる。

　また、本開示の一態様に係る情報処理装置は、表示装置に広視野角映像内の少なくとも一部の表示映像を表示させるための映像表示システムに用いられる情報処理装置であって、広視野角映像で表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方に関するデータであって、入力を受け付けることによって得られたデータに基づくメタデータを受信する受信部と、メタデータ上の注視対象の位置及び方向の少なくとも一方との差分に基づいて、表示装置の広視野角映像内における位置及び方向の少なくとも一方に対する相対的な注視対象の位置である相対位置、及び、相対的な注視対象の方向である相対方向の少なくとも一方を算出して出力する差分算出部と、を備える。

　また、例えば、算出した相対位置及び相対方向の少なくとも一方を示すグラフィックスであって、広視野角映像を構成する画像のうち、表示装置の広視野角映像内における推定された位置及び方向の少なくとも一方に応じた視野部分に対応する一部の画像に対して重畳されることで、相対位置及び相対方向の少なくとも一方を表示装置のユーザに提示させるグラフィックスを生成して出力する提示部をさらに備えてもよい。

　これらによれば、上記に記載の映像表示システムに用いることで、上記に記載の映像表示システムと同様の効果を奏することができる。

　また、本開示の一態様に係る情報処理方法は、表示装置に広視野角映像内の少なくとも一部の表示映像を表示させる情報処理方法であって、広視野角映像で表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方に関するデータであって、入力を受け付けることによって得られたデータに基づくメタデータを受信し、表示装置の広視野角映像内における推定された位置及び方向の少なくとも一方と、メタデータ上の注視対象の位置及び方向の少なくとも一方との差分に基づいて、表示装置の向きに対する相対的な注視対象の位置である相対位置、及び、相対的な注視対象の方向である相対方向の少なくとも一方を算出して出力する。

　このような情報処理方法は、上記に記載の映像表示システムと同様の効果を奏することができる。

　また、本開示の一態様に係るプログラムは、上記に記載の情報処理方法をコンピュータに実行させるためのプログラムである。

　このようなプログラムは、コンピュータを用いて、上記に記載の映像表示システムと同様の効果を奏することができる。

　以下では、本開示の実施の形態について図面とともに説明する。

　なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置、及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　なお、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略又は簡略化する。

　また、本明細書において、平行などの要素間の関係性を示す用語、及び、矩形などの要素の形状を示す用語、ならびに、数値、及び、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度の誤差等の差異も含むことを意味する表現である。

　（実施の形態）
　［構成］
　はじめに、実施の形態における映像表示システムの概要について、図１４及び図１５を用いて説明する。図１４は、実施の形態に係る映像表示システムの概略構成を示す図である。また、図１５は、実施の形態に係る映像表示システムにおいて表示される映像の一例を示す図である。

　図１４に示すように、本実施の形態の映像表示システム５００は、観測装置３００と、ネットワーク１５０を介して接続されたサーバ装置２００と、ネットワーク１５０を介して接続された表示装置１００とによって実現される。

　観測装置３００は、画像保持装置内部に有する装置である。より詳しくは、観測装置３００は、撮影によって得られた画像を広視野角映像の情報として保持し、表示装置１００へと供給することで表示装置１００においてその一部の映像を視認可能なように構成されている。観測装置３００は、周囲３６０度の映像を撮影可能な、いわゆる、全天球カメラである。観測装置３００は、例えば、手に持って撮影する撮影装置３００ａであってもよいし、三脚などで固定する観測装置３００ｂであってもよい。手に持って撮影する撮影装置３００ａの場合は動き回りながら撮影することが容易である。以下、これらの種別を特に区別することなく観測装置３００と呼ぶ。観測装置３００は、魚眼レンズなど光学素子を有し、広視野角領域、例えば１８０度などを１つのセンサアレイで撮影することができる。そして、異なる広視野角領域を補完しあうように配置された複数の組み合わせの光学素子及びセンサアレイを用いて、３６０度の広視野角映像を撮影することができる。なお、複数のセンサアレイそれぞれにおいて撮影された画像同士は、互いに対応する素子同士を特定して重ね合わせする処理（ステッチング）が行われる。この結果、例えば、正距離円筒図などの平面と球面とを相互に変換可能な１つの画像が生成される。このような画像が時間領域において連続的に生成されることで、時間領域で変化する映像（動画像）が生成される。なお、球面の映像の内部を３Ｄ映像空間又は３次元画像空間ともいう。

　また、本実施の形態では、人の視差に対応するずれを発生させた２つの３次元画像空間が生成される。このような２つの３次元画像空間は１つの３次元画像空間からシミュレーション等によって生成してもよいし、視差分のずれが生じた２つのカメラによって生成してもよい。本実施の形態では、この３次元画像空間の内部から、３次元画像空間の任意の方向をユーザが視聴することができるＶＲ映像を表示することができる。

　ネットワーク１５０は、観測装置３００とサーバ装置２００と表示装置１００との間を互いに通信可能に接続するための通信網である。ここではネットワーク１５０として、インターネット等の通信網が用いられるがこれに限られない。また、観測装置３００とネットワーク１５０との接続、サーバ装置２００とネットワーク１５０との接続、及び、表示装置１００とネットワーク１５０との接続は、それぞれ無線通信によって行われてもよいし、有線通信によって行われてもよい。

　サーバ装置２００は、情報処理等を行うための装置であり、例えば、プロセッサとメモリとを用いて実現される。サーバ装置２００は、エッジコンピュータによって実現されてもよいし、クラウドコンピュータによって実現されてもよい。また、サーバ装置２００は、１つの映像表示システム５００に対して１つ設けられてもよいし、複数の映像表示システム５００に対して１つ設けられてもよい。つまり、サーバ装置２００は、複数の映像表示システム５００における各種の処理を並列的に行ってもよい。なお、サーバ装置２００は、映像表示システム５００において必須の構成ではない。

　例えば、後述するサーバ装置２００の各機能部を観測装置３００及び表示装置１００のそれぞれに振り分けて配置することで、観測装置３００及び表示装置１００のみを備える映像表示システムを実現することもできる。特に、表示装置１００を、表示パネルを兼ね備えるスマートフォンなどの情報処理端末によって実現すれば、サーバ装置２００の機能部を情報処理端末のプロセッサ等を用いて容易に実現することができる。あるいは、観測装置３００および表示装置１００の機能を、サーバ装置２００に持たせることで、観測装置３００または表示装置１００の機能の一部を削減し、既存の観測装置または表示装置を転用することが可能となる。つまり、サーバ装置２００に各種機能を集約することで、容易に映像表示システムを実現することができるようになる。サーバ装置２００の各機能部については、図１６等を用いて後述する。

　表示装置１００は、左右のそれぞれから延びるテンプル部を耳殻に係止した状態にすることによって互いに分離された２つの鏡筒を支持することで、２つの鏡筒をユーザの右目及び左目のそれぞれに対応する位置に保持するグラス型のＨＭＤである。表示装置１００のそれぞれの鏡筒には、表示パネルが内蔵されており、例えば、図１５に示すように、視差分のすれが生じた映像をユーザの左右の目のそれぞれに向けて投影する。図１５では、（Ｌ）に左目用の映像における１フレーム分の画像を示し、（Ｒ）に右目用の映像における同じ１フレーム分の画像を示している。なお、表示装置１００は、このような映像表示専用の端末でなくてもよい。スマートフォン、タブレット端末、又はＰＣなどに備えられた表示パネルによって本開示の表示装置を実現することも可能である。

　以下、図１６～図１８を参照して、本実施の形態の映像表示システム５００の詳細な構成について説明する。図１６は、実施の形態に係る映像表示システムの機能構成を示すブロック図である。図１６に示すように、また、図１４において説明した通り、映像表示システム５００は、表示装置１００と、サーバ装置２００と、観測装置３００とを備える。

　表示装置１００は、表示部１０１と表示状態推定部１０２とを有する。表示部１０１は、バックライト及び液晶パネル、有機ＥＬ、ならびに、マイクロＬＥＤ等を用いて、画像情報に応じた光信号を出力する機能部である。表示部１０１は、出力した光信号をレンズ及び光学パネルなどの光学素子を介してユーザの目の網膜上に画像が結像されるように制御する。この結果、ユーザは網膜上に結像された画像によって、当該画像を視認することができる。表示部１０１は、上記のような画像を、時間領域において連続的に出力することで、連続する画像、すなわち映像を視認させることができる。このようにして、表示部１０１は、表示装置１００のユーザに対して映像を表示する。

　表示状態推定部１０２は、表示装置１００を用いてユーザが３次元画像空間内のどの位置でどの方向の映像を視認しているかを推定するための機能部である。表示状態推定部１０２は、表示装置１００の３次元画像空間内における位置及び方向の少なくとも一方に関するを推定するともいえる。表示状態推定部１０２は、表示装置１００の適切な位置に内蔵された加速度センサ、ジャイロセンサ等の各種センサによって実現される。表示状態推定部１０２は、表示装置１００にあらかじめ設定された基準位置に対して、どの方向にどの程度だけ位置が変更されたかを推定することによって、表示装置１００の３次元画像空間内における位置を推定する。また、表示状態推定部１０２は、表示装置１００にあらかじめ設定された基準方向に対して、どの方向にどの程度の角度だけ姿勢が変更されたかを推定することによって、表示装置１００の３次元画像空間内における方向を推定する。先に説明したように、表示装置１００は、ユーザの頭部（耳殻及び鼻根部）に支持されているため、ユーザの頭部と共に移動する。

　そして、表示装置１００の位置及び方向を推定することで、当該位置及び方向に応じた視野部分を広視野角映像から切り出して表示することができる。つまり、表示状態推定部１０２によって推定される表示装置１００の位置及び方向によって、ユーザの頭部が向いている方向を３次元画像空間内で見たい視野領域であるとして当該視野領域を表示することができる。なお、ここで推定される表示装置１００の方向とは、表示装置１００の表示パネルの法線方向に沿う方向である。表示パネルは、ユーザの目に対向するように配置されているので、表示パネルの法線方向には通常ユーザの目が位置している。このため、表示装置１００の方向は、ユーザの目と表示パネルとを結ぶ方向に一致している。

　ただし、ユーザの眼球運動によって表示装置１００の方向とユーザの視線方向とがずれる場合がある。この場合、表示装置１００にユーザの視線を検知するセンサ（アイトラッカ）などが搭載されていれば、検知したユーザの視線を表示装置１００の方向としてもよい。つまり、アイトラッカは、表示状態推定部の別の一例である。

　表示装置１００には、上記の他に、電源、各種の入力用スイッチ、表示パネルの駆動用回路、入出力用の有線及び無線通信モジュール、信号変換器及び増幅器等の音声信号処理回路、ならびに、音声入出力用のマイクロフォン及びスピーカー等が搭載されている。これらの詳細な構成については、後述する。

　サーバ装置２００は、受信部２０１と、差分算出部２０２と、提示部２０３と、映像生成部２０４とを有する。受信部２０１は、後述する観測装置３００から、各種の信号を受信する（取得する）処理部である。受信部２０１は、観測装置３００において撮影された広視野角映像を受信する。また、受信部２０１は、観測装置３００において取得されたメタデータを受信する。さらに、受信部２０１は、表示装置１００において推定された表示装置１００の位置及び方向に関する情報を受信する。

　差分算出部２０２は、表示装置１００の位置及び方向とメタデータに含まれる注視対象３０１の位置及び方向との差分に基づいて、表示装置１００の位置に対する相対的な注視対象３０１の位置である相対位置及び表示装置１００の方向に対する相対的な注視対象３０１の方向である相対方向を算出する処理部である。差分算出部２０２の詳細な動作については後述する。

　提示部２０３は、差分算出部２０２において算出された相対位置及び相対方向を表示装置１００のユーザに提示する処理部である。ここでは、提示部２０３は、映像生成部２０４において生成される表示映像に相対移動方向を示す内容を含めることで、映像生成部２０４に上記の提示をさせる例を説明するが、相対移動方向の提示は上記表示映像に含める例に限られない。例えば、３次元音場内で相対位置及び相対方向の少なくとも一方に対応する所定の到来方向からの音声として提示されてもよいし、ユーザが両手に持つ振動デバイス等の装置を相対位置及び相対方向の少なくとも一方に対応する側のデバイスを振動させることで提示されてもよい。提示部２０３の詳細な動作については差分算出部２０２の詳細な動作と共に後述する。

　映像生成部２０４は、受信された広視野角映像から表示状態推定部１０２が推定した表示装置１００の位置及び方向に応じた視野部分に対応する一部の映像を切り出し、さらに、必要がある場合には、算出された相対位置及び相対方向の少なくとも一方を示す内容を含む表示映像を生成する。映像生成部２０４の詳細な動作については差分算出部２０２及び提示部２０３の詳細な動作と共に後述する。サーバ装置２００は、この他に、生成した表示映像を表示装置１００に送信するための通信モジュールを有する。

　観測装置３００は、記憶部３０１と、入力インターフェイス３０２と、位置入力部３０３と、データ取得部３０４と、メタデータ取得部３０５と、送信部３０６とを有する。また、観測装置３００は、画像の撮影に関する機能部分であり、観測装置３００の他の機能構成と一体的に構成されている撮影部（不図示）を有する。なお、撮影部は、撮影装置３００の他の機能構成と有線又は無線通信によって分離されていてもよい。撮影部は、光学素子とセンサアレイと画像処理回路等を含む。撮影部は、例えば、光学素子を介してセンサアレイ上に受光した各画素の光の輝度値を２Ｄ状の輝度値データとして出力する。画像処理回路は、輝度値データのノイズ除去等の後処理を行う他、ステッチングなどの２Ｄ画像データから３次元画像空間を生成するための処理等を行う。本実施の形態では、撮影部によって撮影された実際の画像から形成された３次元画像空間内における映像を、表示装置を用いて表示する例を説明するが、３次元画像空間は、コンピュータグラフィックスなどの技術で形成された架空の画像であってもよい。このため、撮影部は必須の構成ではない。

　記憶部３０１は、撮影部によって生成された３次元画像空間の画像情報（３次元画像空間を構成する画像）を記憶する記憶装置である。記憶部３０１は、半導体メモリ等を用いて実現される。

　入力インターフェイス３０２は、３次元画像空間内で、ＶＲ観光の案内等をする案内者によって入力が行われる際に使用される機能部である。例えば、入力インターフェイス３０２は、撮影部３０１の移動方向に対応する３６０度の各方向への傾倒が可能なスティックと、その傾倒方向を検出する物理的なセンサとを含む。案内者は、注視対象の方向を入力する際、その方向に向けてスティックを傾倒させることで、注視対象の方向をシステムに入力することができる。入力インターフェイスの別の例として、案内者が保持する指示棒等の先端に蛍光マーカなどが付された指示マーカであって、指示マーカの動きによって注視対象の方向を指示する指示マーカと、撮影部によって出力された指示マーカを含む画像を解析することにより指示マーカによって指示された注視対象の方向を受け付ける画像解析部と含む入力インターフェイスが用いられてもよい。なお、入力インターフェイス３０２は、必須の構成ではなく、後述の位置入力部３０３と、いずれか一方のみが供えられていれば本実施の形態を実現可能である。

　位置入力部３０３は、注視対象の位置を入力するための機能部である。位置入力部３０３例えば案内者が有するスマートフォン等の情報端末で専用のアプリケーションを実行することで実現される。情報端末の画面上には、３次元画像空間に対応する空間全域のマップ情報が表示され、このマップ情報上で所定の位置を選択することにより、選択した位置が注視対象の位置としてシステムに入力される。このように、位置入力部３０３は、注視対象の位置を入力するための入力インターフェイスの一例である。

　データ取得部３０４は、入力インターフェイス３０２及び位置検出部３０３等から、注視対象の位置及び方向に関するデータを取得する機能部である。データ取得部３０４は、入力インターフェイス３０２及び位置検出部３０３の少なくとも一方に接続され、これらの機能部から、注視対象の位置及び方向に関するデータに相当する物理量を取得する。このように、データ取得部３０４は、本実施の形態における表示装置１００のユーザに注視させる注視対象の方向に関するデータの入力を受け付けるデータ受付部の一例である。

　メタデータ取得部３０５は、データ取得部３０４において取得された注視対象の位置及び方向に関するデータを撮影された映像データに付加するためのメタデータに変換することで、このメタデータを取得する機能部である。取得されたメタデータには、注視対象の位置及び方向に関するデータの他に、映像表示システム５００内で利用される各種のデータが含まれてもよい。つまり、メタデータ取得部３０５は、複数のデータを１つにまとめることで、１つの情報から複数のデータを読み出すことが可能なメタデータを構成するメタデータ構成部の一例である。

　送信部３０６は、撮影され、記憶部３０１に記憶された映像（広視野角映像）と、取得したメタデータとを送信する通信モジュールである。送信部３０６は、サーバ装置２００の受信部２０１と通信することで、記憶された映像及び取得したメタデータを送信して、受信部に受信させる。

　図１７は、実施の形態に係る観測装置の機能構成を示すより詳細なブロック図である。また、図１８は、実施の形態に係る表示装置の機能構成を示すより詳細なブロック図である。図１７及び図１８では、観測装置３００及び表示装置１００の周辺の機能構成について、より詳しく示している。これらの図に示される一部の機能は、サーバ装置２００の構成によって実現される場合がある。

　キュー情報入力手段５１は、入力インターフェイス３０２及び位置入力部３０３に相当し、観測装置３００の操作者や案内者が物理的に操作するスイッチやタブレット、スマートフォンなどにより、注視対象の位置及び方向を入力する。また、キュー情報入力手段５１は、キューデータにより複数の目標から移動する目標を指定する。

　キュー情報入力手段５１は、ＶＲ映像処理手段６７から得られる映像又は音声入力手段７１から得られる音声情報からキュー情報を得ることもある。音声入力手段７１は、入力インターフェイスの別の一例である。なお、ＶＲ映像処理手段６７は、撮影部に相当するＶＲ撮影手段６９に接続されている。

　キュー情報入力手段５１から得られたキュー情報は、位置・方位検出・記憶手段５３に送られ、観測装置３００の位置、方位とともに処理され、場合によっては、その状態が記憶されるとともに適したデータに成形されて、メタデータとして多重化手段６１に送られ、映像、音声及びグラフィックスとともに多重化後、通信手段５５により、サーバ装置２００を介して表示装置１００に送信される。観測装置３００には、上記の他、分離手段５７、ＶＲ映像圧縮手段５９、音声圧縮手段６３、音声復号手段６５、及び、音声出力手段７３が含まれる。

　表示装置１００では、通信手段３９が観測装置３００からの通信情報を受け取り、分離手段３７により、メタデータを分離し、位置・方位・キュー判断手段３１に送る。位置・方位・キュー判断手段３１では、キューデータがメタデータより取り出され、あらかじめ定められた処理を行い、図形としてキュー情報を表示するためにグラフィックス生成手段３３へ送り、ＶＲ表示手段１５でＶＲ映像に重畳し表示すること、ＶＲ制御手段２１へ送り、表示装置１００の位置・方位の状態とともにＶＲ表示制御手段２３でＶＲ映像を適切に加工し、ＶＲ表示手段１５で表示すること、又は、音声再生制御手段２５により案内用のガイド音声を生成することや再生音声を適切に加工することなどが行われる。

　具体例として、キューデータで、「目標Ａへ移動」というデータが示された場合、表示装置１００の位置によっては、目標Ａとの相対位置が異なり、グラフィックスでキュー情報を示す場合、適切な方向に矢印が表示される。さらに具体的には、目標Ａが左側にある場合、左向きの矢印が表示され、映像を制御する場合、例えば左側にのみがクリアになる（右側の画質が劣化する）などの制御が行われ、音声で制御する場合、「左側を向いてください」というようなアナウンスが再生される。このようにキューデータの内容と表示装置１００の位置・方位を比較して適切な処理が行われる。表示装置１００には、上記の他、位置検出手段１１、回転検出手段１３、音声再生手段１７、音声入力手段１９、ＶＲ制御手段２１、音声圧縮手段２７、音声復号手段３５、及び、多重化手段４１が含まれる。以上の図１７及び図１８に示す各構成要素をそれぞれが１つ以上の組み合わせで含むことによって、図３に示す各構成要素が実現されている。

　［動作］
　次に、上記のように構成された映像表示システム５００の動作について、図１９～図３２を用いて説明する。図１９は、実施の形態に係る映像表示システムの動作を示すフローチャートである。

　映像表示システム５００の動作が開始されると、撮影部による映像の撮影が行われ、画像が記憶部３０１に記憶されるとともに、入力インターフェイス３０２、位置入力部３０３、データ取得部３０４、及び、メタデータ取得部３０５が動作することで、注視対象の位置及び方向に関するデータを含むメタデータが取得される。メタデータは、送信部３０６及び受信部２０１を介して撮影及び記憶された映像とともにサーバ装置２００によって受信される（Ｓ１０１）。

　また、表示装置１００の表示状態推定部１０２は、連続的に表示装置１００の位置及び方向を推定している。表示装置１００は、表示状態推定部１０２によって推定された表示装置１００の向きをサーバ装置２００へと送信する。この結果、サーバ装置２００は、表示装置１００の推定された位置及び方向を受信する（Ｓ１０２）。なお、ステップＳ１０１及びステップＳ１０２の順序は入れ替えられてもよい。サーバ装置２００は、注視対象の位置及び方向に関するデータが含まれているか否かに基づいて、注視対象の位置及び方向を指示する入力があったかを判定する（Ｓ１０３）。注視対象の位置及び方向を指示する入力があると判定した場合（Ｓ１０３でＹｅｓ）、サーバ装置２００は、相対位置及び相対方向を表示装置１００のユーザに提示するための動作に入る。具体的には、差分算出部２０２は、表示装置１００の位置及び方向と、メタデータ上の注視対象の位置及び方向に関するデータとに基づいて、ユーザの見ている位置（つまり表示装置１００の位置に相当）に対する相対的な注視対象の位置を相対位置として算出する。また、差分算出部２０２は、表示装置１００の位置及び方向と、メタデータ上の注視対象の位置及び方向に関するデータとに基づいて、ユーザの見ている方向（つまり表示装置１００の方向に相当）に対する相対的な注視対象の方向を相対方向として算出する（Ｓ１０４）。

　相対位置及び相対方向を算出した後、提示部２０３は、この相対位置及び相対方向に対応するグラフィックスを生成する（Ｓ１０５）。そして、映像生成部２０４は、表示装置１００の向きに応じた視野部分に対応する少なくとも一部の画像を３次元画像空間から切り出して（Ｓ１０６）、提示部２０３が生成したグラフィックスを、切り出した一部の映像に重畳することで、表示映像を生成する（Ｓ１０７）。図２０は、実施の形態に係る表示映像の生成について説明する概念図である。図２０では、（ａ）に３次元画像空間から切り出された一部の画像を示し、（ｂ）に提示部２０３によって生成されたグラフィックス９９を示し、（ｃ）に重畳によって生成された表示映像を示している。一部の画像にグラフィックス９９が重畳されることで、表示映像では、相対位置及び相対方向のうち少なくとも一方を指し示す矢印９９ａが表示されている。

　また、図２１は、実施の形態に係る表示映像の生成について説明する概念図である。図２１では、（ａ）に撮影部によって撮影された画像を示し、（ｂ）にユーザがみている表示映像を示している。図２１では、（ａ）に案内者が示されているが、この案内者は、映像上には登場していない。そのため、（ｂ）では、案内者のいない映像が示されている。ここで、図２１の（ａ）に示すように案内者は、案内者と対向するユーザに対して、「正面に見えますのは」とあるように正面方向の注視対象を注視するように指示している。図２１の（ｂ）では、ユーザが視認している映像の図の下方にユーザがみている方向について表す模式図が示されている。

　ここでは、紙面上側が３次元画像空間における正面方向であり、案内者によってユーザがみている方向として認識されている方向である。つまり、図２１に示すユーザは、正面を見ている状態である。ここで、入力インターフェイスとして、音声入力手段７１などにより案内者が発した「正面」というキーワードを取得し、これを注視対象の方向に関するデータとして取得する。すると、図２１の（ｂ）に示すように、矢印９９ａが重畳されて表示映像が生成される。この矢印の方向は、注視対象の方向としての「正面」と、表示装置１００の方向としての「正面」とが一致しているため、単純に「正面」方向を指し示す矢印９９ａとなっている。また、図２１の（ｂ）に示すように音声が再生される。ここでは、注視対象の方向としての「正面」と、表示装置１００の方向としての「正面」とが一致しているため、「正面に見えますのは」という音声がそのまま表示映像と供に再生される。

　図２２は、実施の形態に係る表示映像の生成について説明する概念図である。図２２では、（ａ）に撮影部によって撮影された画像を示し、（ｂ）にユーザがみている表示映像を示している。図２２では、（ａ）に案内者が示されているが、この案内者は、映像上には登場していない。そのため、（ｂ）では、案内者のいない映像が示されている。ここで、図２２の（ａ）に示すように案内者は、案内者と対向するユーザに対して、「右手に見えますのは」とあるように右手方向の注視対象を注視するように指示している。図２２の（ｂ）では、ユーザが視認している映像の図の下方にユーザがみている方向について表す模式図が示されている。

　ここでは、紙面上側が３次元画像空間における正面方向であり、案内者によってユーザがみている方向として認識されている方向である。つまり、図２２に示すユーザは、正面を見ている状態である。ここで、入力インターフェイスとして、音声入力手段７１などにより案内者が発した「右手」というキーワードを取得し、これを注視対象の方向に関するデータとして取得する。すると、図２２の（ｂ）に示すように、矢印９９ａが重畳されて表示映像が生成される。この矢印の方向は、注視対象の方向としての「右手」と、表示装置１００の方向としての「正面」とが一致していないため、「右手」と「正面」との差分が算出されて、「右手」方向を指し示す矢印９９ａとなっている。また、図２２の（ｂ）に示すように音声が再生される。ここでは、注視対象の方向としての「右手」と、表示装置１００の方向としての「正面」とが一致していないので、「正面」と「右手」との差分が算出されて、「右手に見えますのは」という音声が表示映像と供に再生される。

　図２３は、実施の形態に係る表示映像の生成について説明する概念図である。図２３では、（ａ）に撮影部によって撮影された画像を示し、（ｂ）にユーザがみている表示映像を示している。図２３では、（ａ）に案内者が示されているが、この案内者は、映像上には登場してもよいし登場しなくてもよい。ただし、（ｂ）では、案内者のいない視野部分の映像が示されている。ここで、図２３の（ａ）に示すように案内者は、案内者と対向するユーザに対して、「右手に見えますのは」とあるように右手方向の注視対象を注視するように指示している。図２３の（ｂ）では、ユーザが視認している映像の図の下方にユーザがみている方向について表す模式図が示されている。

　ここでは、紙面上側が３次元画像空間における正面方向であり、案内者によってユーザがみている方向として認識されている方向である。つまり、図２３に示すユーザは、右手方向を見ている状態である。ここで、入力インターフェイスとして、音声入力手段７１などにより案内者が発した「右手」というキーワードを取得し、これを注視対象の方向に関するデータとして取得する。ただし、ここでの「右手」は、ユーザがみている右手方向よりは、正面側に近い方向である。このような細かな注視対象の方向は、入力インターフェイス３０２などを用いて入力される。そして、図２３の（ｂ）に示すように、矢印９９ａが重畳されて表示映像が生成される。この矢印の方向は、注視対象の方向としての「正面寄りの右手」と、表示装置１００の方向としての「右手」とが一致していないため、「正面寄りの右手」と「右手」との差分が算出されて、「左手」方向を指し示す矢印９９ａとなっている。

　図２４は、実施の形態に係る表示映像の生成について説明する概念図である。図２４では、（ａ）に撮影部によって撮影された画像を示し、（ｂ）にユーザがみている表示映像を示している。図２４では、（ａ）に案内者が示されているが、この案内者は、映像上には登場していない。そのため、（ｂ）では、案内者のいない映像が示されている。ここで、図２４の（ａ）に示すように案内者は、案内者と対向するユーザに対して、「右手に見えますのは」とあるように右手方向の位置にある注視対象を注視するように指示している。図２４の（ｂ）では、ユーザが視認している映像の図の下方にユーザがみている方向について表す模式図が示されている。

　ここでは、紙面上側が３次元画像空間における正面方向であり、案内者によってユーザがみている方向として認識されている方向である。つまり、図２４に示すユーザは、正面方向を見ている状態である。ここで、入力インターフェイスとして、位置入力部３０３などにより案内者が入力した注視対象の位置を取得し、これを注視対象の位置に関するデータとして取得する。そして、図２４の（ｂ）に示すように、マップ９９ｂが重畳されて表示映像が生成される。このマップではマップ内に注視対象の位置に対応する位置を指し示す矢印が付されている。注視対象の位置と、表示装置１００の位置とが一致していないため、４時の方向付近を指し示す矢印が付されたマップ９９ｂとなっている。なお、マップ９９ｂでは、ユーザの位置（つまり、表示装置１００の位置）は、中心部分である。

　図２５は、実施の形態に係る表示映像の生成について説明する概念図である。図２５では、（ａ）に撮影部によって撮影された画像を示し、（ｂ）にユーザがみている表示映像を示している。図２５では、（ａ）に案内者が示されているが、この案内者は、映像上には登場してもよいし登場しなくてもよい。ただし、（ｂ）では、案内者のいない視野部分の映像が示されている。ここで、図２５の（ａ）に示すように案内者は、案内者と対向するユーザに対して、「右手に見えますのは」とあるように右手方向の位置にある注視対象を注視するように指示している。図２５の（ｂ）では、ユーザが視認している映像の図の下方にユーザがみている方向について表す模式図が示されている。

　ここでは、紙面上側が３次元画像空間における正面方向であり、案内者によってユーザがみている方向として認識されている方向である。つまり、図２５に示すユーザは、右手方向を見ている状態である。ここで、入力インターフェイスとして、位置入力部３０３などにより案内者が入力した注視対象の位置を取得し、これを注視対象の位置に関するデータとして取得する。そして、図２５の（ｂ）に示すように、マップ９９ｂが重畳されて表示映像が生成される。このマップではマップ内に注視対象の位置に対応する位置を指し示す矢印が付されている。注視対象の位置と、表示装置１００の位置とが一致していないため、２時の方向付近を指し示す矢印が付されたマップ９９ｂとなっている。

　図２６は、実施の形態に係る表示映像の生成について説明する概念図である。図２６は、図２１と同様の状況における動作の別例を示しているため、状況に関する説明は省略する。図２６の（ｂ）に示すように、矢印９９ａが重畳されていない表示映像が生成される。注視対象の方向としての「正面」と、表示装置１００の方向としての「正面」とが一致しているため、単純に「正面」方向を指し示す矢印９９ａを表示することになるが、正面を見ているユーザに、正面の方向を指し示す矢印を提示することは冗長であるため、ここでは矢印９９ａが表示されていない。一方で、図２６の（ｂ）に示すように音声が再生される。ここでは、注視対象の方向としての「正面」と、表示装置１００の方向としての「正面」とが一致しているため、「正面に見えますのは」という音声がそのまま表示映像と供に再生される。

　図２７は、実施の形態に係る表示映像の生成について説明する概念図である。図２７は、図２２と同様の状況における動作の別例を示しているため、状況に関する説明は省略する。図２７の（ｂ）に示すように、矢印９９ａの代わりに、マスク９９ｃが重畳されて表示映像が生成される。注視対象の方向としての「右手」と、表示装置１００の方向としての「正面」とが一致していないため、「右手」と「正面」との差分が算出されて、「右手」方向をユーザが視認するように誘導するためのマスク９９ｃとなっている。このように、相対方向側とは反対側の一部を覆い隠すマスク９９ｃをグラフィックス９９として生成して重畳させることで、表示映像上で、大きな変化を与える構成としている。矢印９９ａは、視覚的にその方向がわかりやすい反面、映像上での変化がわかりにくい場合がある。この例では、上記の欠点を補うことができる。すなわち、マスク９９ｃによって覆い隠された領域から、残っている映像を視認すべくユーザが視線移動を行い、その視線移動の方向が相対方向に相当するため、映像上での変化がわかりやすく、かつ、相対方向を自然と認識しやすいという利点がある。なお、ここでの「覆い隠す」とは、覆い隠される対象の領域が一部透過して見えるような半透過状態の画像によって覆われることも含む。

　また、図２２の（ｂ）に示すように音声が再生される。ここでは、注視対象の方向としての「右手」と、表示装置１００の方向としての「正面」とが一致していないので、「正面」と「右手」との差分が算出されて、「右手に見えますのは」という音声が表示映像と供に再生される。

　図２８は、実施の形態に係る表示映像の生成について説明する概念図である。図２８は、図２２及び図２７と同様の状況における動作の別例を示しているため、状況に関する説明は省略する。図２８の（ｂ）に示すように、矢印９９ａ及びマスク９９ｃの代わりに、低解像度化フィルタ９９ｄが重畳されて表示映像が生成される。低解像度化フィルタ９９ｄは、いわゆるモザイク処理のように、フィルタが重畳された部分の画像を荒くする。そして、マスク９９ｃと同様に、低解像度化によって視認が困難となった領域から、より鮮明な映像部分を視認すべくユーザが視線移動を行い、その視線移動の方向が相対方向に相当するため、相対方向を自然と認識しやすいという利点がある。

　図２８の（ｃ）は、ユーザが右手方向を視認している状況を示している。この右手方向は注視対象の方向に相当するため、この領域には、低解像度化フィルタ９９ｄが重畳されておらず画像が鮮明なままとなっている。また、図２８の（ｃ）は、ユーザがさらに右手方向（つまり、元の正面に対する背面方向）を視認している状況を示している。背面方向にも同様の低解像度化フィルタ９９ｄが重畳されて表示映像が生成されているので、ユーザにとって、視認すべき右手方向がより分かりやすいという利点がある。図２８の（ｃ）及び図２８の（ｄ）についての説明は、マスク９９ｃを用いる例（図２７の例）に対しても有効である。

　図２９は、実施の形態に係る表示映像の生成について説明する概念図である。図２９は、図２１及び図２９と同様の状況における動作の別例を示しているため、状況に関する説明は省略する。図２９の（ｂ）に示すように、矢印９９ａが重畳されていない表示映像が生成される。注視対象の方向としての「正面」と、表示装置１００の方向としての「正面」とが一致しているため、単純に「正面」方向を指し示す矢印９９ａを表示することになるが、正面を見ているユーザに、正面の方向を指し示す矢印を提示することは冗長であるため、ここでは矢印９９ａが表示されていない。一方で、図２９の（ｂ）に示すように音声が再生される。ここでは、注視対象の方向としての「正面」と、表示装置１００の方向としての「正面」とが一致しているため、「正面に見えますのは」という音声がそのまま表示映像と供に再生される。ただし、ここで再生される音声は、ユーザの「正面」から到来する音として、ユーザに知覚される立体音声である。

　図３０は、実施の形態に係る表示映像の生成について説明する概念図である。図３０は、図２２、図２７及び図２８と同様の状況における動作の別例を示しているため、状況に関する説明は省略する。図３０の（ｂ）に示すように、矢印９９ａが重畳されていない表示映像が生成される。一方で、図３０の（ｂ）に示すように音声が再生される。ここでは、注視対象の方向としての「右手」と、表示装置１００の方向としての「正面」とが一致していないので、「正面」と「右手」との差分が算出されて、「右手に見えますのは」という音声が表示映像と供に再生される。そして、ここで再生される音声は、図２９の例と同様に、ユーザの「右手」から到来する音として、ユーザに知覚される立体音声である。

　図３１は、実施の形態に係る表示映像の生成について説明する概念図である。図３１では、（ａ）に撮影部によって撮影された画像を示し、（ｂ）にユーザがみている表示映像を示している。図３１では、（ａ）に案内者が示されているが、この案内者は、映像上には登場してもよいし登場しなくてもよい。ただし、（ｂ）では、案内者のいない視野部分の映像が示されている。ここで、図３１の（ａ）に示すように案内者は、案内者と対向するユーザに対して、「右手に見えますのは」とあるように右手方向の注視対象を注視するように指示している。図３１の（ｂ）では、ユーザが視認している映像の図の下方にユーザがみている方向について表す模式図が示されている。

　ここでは、紙面上側が３次元画像空間における正面方向であり、案内者によってユーザがみている方向として認識されている方向である。つまり、図３１に示すユーザは、背面方向を見ている状態である。ここで、入力インターフェイスとして、音声入力手段７１などにより案内者が発した「右手」というキーワードを取得し、これを注視対象の方向に関するデータとして取得する。すると、図３１の（ｂ）に示すように音声が再生される。ここでは、注視対象の方向としての「右手」と、表示装置１００の方向としての「背面」とが一致していないので、「右手」と「背面」との差分が算出されて、「左手に見えますのは」という音声が表示映像と供に再生される。

　図３２は、実施の形態に係る表示映像の生成について説明する概念図である。図３２では、（ａ）に３次元画像空間内に含まれる各地点の地図と、当該地図上の地点Ａ、地点Ｂ、地点Ｃ、及び、地点Ｇとを示し、（ｂ）～（ｄ）にユーザがみている表示映像を示している。図３２では、（ａ）に示す地点Ａが（ｂ）のユーザの位置（表示装置１００の位置）に対応し、（ａ）に示す地点Ｂが（ｃ）のユーザの位置（表示装置１００の位置）に対応し、（ａ）に示す地点Ｄが（ｄ）のユーザの位置（表示装置１００の位置）に対応し、（ａ）に示す地点Ｇが注視対象の位置に対応している。図３２の（ｂ）～（ｄ）では、それぞれのユーザが視認している映像の図の下方にユーザがみている方向について表す模式図が示されている。

　ここでは、紙面上側が３次元画像空間における正面方向であり、案内者によってユーザがみている方向として認識されている方向である。つまり、図３２の（ｂ）に示すユーザは、正面方向を見ている状態であり、図３２の（ｃ）に示すユーザは、正面方向を見ている状態であり、図３２の（ｄ）に示すユーザは、右手方向を見ている状態である。ここで、入力インターフェイスとして、音声入力手段７１などにより案内者が発した「○○（地点Ｇの地名等）に集合してください」というキーワードを取得し、これを注視対象の位置に関するデータとして取得する。すると、図３２の（ｂ）～（ｄ）に示すように音声が再生される。ここでは、注視対象の位置と、表示装置１００の位置とがいずれも一致していないので、それぞれの相対位置が算出されて、「○○に集合してください」という音声が表示映像と供に再生される。そして、ここで再生される音声は、図２９及び図３０の例と同様に、相対位置の方向から到来する音として、ユーザに知覚される立体音声である。

　このようにして、ユーザに相対位置及び相対方向の少なくとも一方を把握させることができるので、容易に注視対象の位置及び方向の少なくとも一方を認識することができる。このように、映像表示システム５００では、適切な映像を表示装置１００に表示させることが可能となる。

　［実施例］
　以下、実施の形態の実施例に基づいて、さらに詳細に説明する。この実施例では、主にＶＲ観光の２つのユースケースについて説明する。２つのユースケースは、３６０°カメラ撮影の場合、および、３ＤＣＧ空間の場合の２つのケースである。前者では、遠隔地に３６０°カメラをもつ撮影者が居て、３６０°映像＋メタデータを送り、視聴者はＶＲ機器でメタデータの情報等を元にＣＧを生成し、送られてきた３６０°映像と合成することで視聴するという使い方が想定される。この場合、ＶＲ観光（リアルタイム観光）、ＶＲ観光（リアルタイム＋録画）、ＶＲ工場見学、現場視察：引率者がガイドする（カメラマンへの指示が必要）、および、ＶＲリアル展示会視察：引率者（グループ毎に、特権リーダを指定）が引率して、ガイドツアーを行う、などの用途にさらに細分される。

　一方、後者では、３Ｄ空間内を複数人が参加し、一人がガイド（特権ユーザー）として、他の参加者を誘導したり、説明したりする機能を実装したＶＲ機器で視聴するという使い方が想定される。この場合、ガイド付きＶＲ観光（ＣＧ空間内）：博物館等の３Ｄ空間を各自が自由に移動できる場合を除く、ガイド付きＶＲ展示会（ＶＲマーケット）視察、ＶＲ集合教育（例えば３０人の生徒。学生がＶＲ‐ＣＧ空間（３６０°空間）で勉強している場合、先生が指示することができるので、実際の教室よりも優れた点が期待できる）、ＶＲプレゼン：例えば建築ＣＧ空間を複数の人が確認している場合にプレゼンターが受講者の行動を制御できる、などの用途にさらに細分される。

　３６０°映像では、３６０°映像のリアルタイム撮影、伝送している時は、場所は同じ場所で、各ユーザの見ている向きのみ異なる場合、ガイドが自撮りしていて、自分の映っている方向を見てほしい時にキューを入れると、そのキューを何らかの方法で伝送して、ビュワー側では、そのキューが来たら、そちらに強制的に視点の中心を移動させることができる（映像の切り出し位置を変える）。この際、ＶＲ酔いを避けるために、動くことの表示と切り替えるなどの処理が行われる（例えば、ズルズルと強制的に移動させられると酔う場合がある）。あるいは、キューが来たら、ビュワー上に矢印やターゲットを表示して、その向きに体を変えることを促すとしてもよい。

　一方、別の人が撮影している場合、ガイドが指示したら、もしくはカメラマンが決めたらカメラの特定の方向を、その方向に向け、キューを入れ、伝送する。ビュワー側については上記と同じでよい。キューの実装方法としては、３６０°カメラにキューを入れるボタンをつける、画像認識技術の応用、例えば、特定マーカ、特定動作（ジェスチャー等）、をガイドが提示したら、カメラ、サーバ、ビュワーの何れかが認識して、キューを確認する（画像マーカキュー）、非可聴域音利用、例えば、犬笛のような非可聴音声を使って伝送してキューにする（特定音源キュー）、または、音声認識技術利用、例えば、特定のキーワード（ＡＩスピーカーの起動ワード）を登録して、ビュワーが認識してキューにする（音声キュー）などが挙げられる。

　３ＤＣＧでは、ＣＧで平城京などを再現してその中をガイドツアーしているような場合を想定すると（ＶＲ会議システムで、大きな建物内を複数人で見ている場合と同じ）、各自の位置もバラバラなことが想定される。この場合は、場所と視線の向きを指定して、強制的に現在位置を指定場所に移動させる必要がある。

　ガイドに対応するＣＧ内アバターなどが説明等のため特定の場所の特定の方向を見ることを指示した場合、強制的に特定の方向を向ける、空間ガイドを表示することで誘導する、現在位置が指定場所と大幅に異なり、指定された物体が見えない位置の場合は、位置を移動（ワープ）させる、ただし、急にワープすると驚きを与える（酔いに繋がりうる）のでビュワー上に何らかのワーニングを表示し、通常と異なるワープボタン（脱出ボタン）を表示する等で、ユーザにアクションをさせた上で移動させる（移動時に方向も合わせる）などの処理が行われる。ＣＧ内アバターが集合を指示した場合の処理としては、上記の３つ目に相当し、ガイドが居る場所にワープさせ、ガイドの方向を向かせることが行われる。

　本発明における重要な要素としては、（ｉ）方向、方位を検出、記録、送出する方法、および、（ｉｉ）参加者を特定の方向に向ける、集合させるなどのキューの生成、送出、制御（強制、注意喚起など）の方法の２つが挙げられる。（ｉ）には、さらに、方向、方位の検出、方向、方位の送出の２つの副要素がある。また、（ｉｉ）には、さらに、キューの生成、キューの送出、キューに従ったＶＲ空間の制御方法の３つの副要素がある。

　キューの生成には、スイッチ、メニューを用いる、特定の物体の表示、例えば、ガイドの案内旗のようなものを用いる、特定の光パルスを用いる、特定のキーワード、例えば、観光ガイドが使う正面、右などの方向、建物の名称、集合などの行動、または、特定のキーワードを頭に付けて「皆さん、右を向きましょう」などの指示をする際のキーワードを用いる、人には認識できない音声パルス、例えば、オーディオ透かしのようなものを用いることが想定される。

　キューの送出には、方向の送出に準じた内容が想定される。

　キューに従ったＶＲ空間の制御方法には、キューの種類により以下のような制御を行うことが想定される。すなわち、ＶＲ空間をマーカ位置に合わせる、ＶＲ空間の場所を移動する、ＶＲ映像の見え方を制御する（解像度、コントラスト、フレームレート、視野角など）、ライブとレコーディング映像との切り替えを行う、などである。

　図３３は、実施例に係る映像表示システムの機能構成の一例を示す図である。図３４は、実施例に係る観測システムの機能構成の一例を示す図である。図３５は、実施例に係るＶＲシステムの機能構成の一例を示す図である。

　本発明の実施例の観測システム（観測装置）の実現例のうち３６０°カメラの実現例を図３３及び図３４を参照して説明する。

　本発明の実施例の観測システム３３５１（３６０°カメラ３４０１）は、従来例２の３６０°カメラの実現例とほぼ同様であり、差異について説明する。本発明の実施例の３６０°カメラでは、キュー情報入力部（キュー情報入力手段３３５２）として入力ボタンおよび位置・方位検出・記憶部３４０２がＣＰＵ８０２のプログラムとして追加され、入力ボタン（データ入力部）から入力されたキュー情報と位置・方位検出・記憶部（メタデータ変換部）３４０２で検出された位置・方位によるメタデータが位置・方位検出・記憶部で生成され、多重化部８３２へ送られ、多重化され、無線通信素子（送信部）８２０を経由して、ＶＲシステム３３０１に送出される。

　キュー情報は、入力ボタンで、あらかじめ指定してあった方向、例えば右側や左側を選択すること、あらかじめ指定してあった複数の場所を番号やメニューで選択することにより、目的地を選択し、動き出しのタイミングを与えることに用いられる。

　より具体的には、ボタンによる右左正面背面の指定と方位の変更開始/終了ボタン８１１による開始／終了の指定や、番号キーによる目標の指定、タッチパネルによる指定などがある。

　場合によっては、キュー情報は、入力ボタンだけでなく、破線で示した位置・方位分析部３４０３及び３４０４で、撮影された映像を分析することで、あらかじめ指定された画像と比較することで、目的地を検出し、動く先の位置・方位を検出すること、ガイドの手振り・身振りを分析し、動き先の方向や動き出すタイミングを検出すること、ガイドが持つ指示棒のようなものにボタンとＬＥＤのような発光素子を設け、ガイドの操作により発光素子がパルス的に発光しその発行パターンを検出することで、動き先の方向、位置を検出することまたはあらかじめ定めていた複数の目的地から一つを選択すること、動き出しのタイミングを検出することなどを行うことで生成される。あるいは、マイクからの音声を分析し、ガイドが発生する言葉から目的地を特定すること、動く方向や動き出しのタイミングを検出することを行い、ＣＰＵ８０２で実行される位置・方位検出機能で適切なメタデータに変換されＶＲシステム３３０１に送られる。

　本発明の実施例のＶＲシステム３３０１（表示装置、ＨＭＤ／ＶＲグラスとコンピュータ/スマートフォン３５０１）の実現例を図３３及び図３５を参照して説明する。

　本発明の実施例のＶＲシステム３３０１の従来例２のＶＲシステムの差を中心に説明する。

　実施例では、従来例２のＶＲシステムのコンピュータ／スマートフォン３５０１のＣＰＵ９６５およびＧＰＵ９５４にプログラムとして位置・方位・キュー判断部（視点判断部）３５０２及び３５０３が追加されている。

　ＣＰＵ９６５の位置・方位・キュー判断部３５０３では、通信素子（受信部）経由で観測システム３３５１より、観測システム３３５１あるいはガイドから取得した目標物の位置・方位とともにキューデータをメタデータとして受け取り、キューデータに従い、音声を変更する場合は、ＣＰＵ９６５のプログラムで実現される音声再生部によりガイド音声を生成することや再生音声を適切に加工することなどが行われる。キューデータによりＶＲ映像やグラフィックスを変更する場合は、ＣＰＵ９６５の位置・方位・キュー判断部３５０３はメタデータをシステムバス経由で、ＧＰＵへ送る。

　ＧＰＵ９５４では位置・方位・キュー判断部３５０２により受け取ったメタデータを処理し、キューデータに基づいた図形を表示するためにグラフィックス生成部（グラフィックス生成部）９５９に情報を送る。グラフィックス生成部９５９からのグラフィックスデータはＶＲ表示制御部９５７でＶＲ映像に重畳し表示される。あるいは位置・方位・キュー判断部３５０２からキューデータに基づいた情報がＶＲ制御部９５６へ送り、動き・位置センサ９０３からの情報を動き・位置検出処理部（検出部）９５５で検出されたＶＲシステムの位置・方位の状態とともにＶＲ表示制御部（表示制御部）９５７でＶＲ映像を適切に加工し、ＡＶ出力９５２からＡＶ入力９２５に映像データを送り、映像表示処理部９１２でＶＲ映像として表示素子（表示部）９０５で表示することを行う。上記の音声、グラフィックス、ＶＲ映像の処理は、それぞれ単独で実現され他の処理はなされない場合も、複数の処理が実現され、ＶＲシステムあるいは観測システムの動作時に処理を選択するとされる場合がある。

　また、観測システム３３５１の位置・方位検出処理は、クラウドなど観測システムとＶＲシステムの間にあるコンピュータシステムで実現される場合もある。この場合、観測システム３３５１からはメタデータは送出されないか、操作者が入力するデータがメタデータとして送出され、例えばクラウドにある位置・方位検出手段で、観測システムから送出される映像、音声あるいはメタデータから観測システム、ガイドあるいは目標物の位置・方位または動きを検出しメタデータとしてＶＲシステムに送る。これにより既存の３６０°カメラでも本実施例の効果を発揮することができる。

　いくつかの処理についてはＧＰＵ９５４で行うかＣＰＵ９６５で行うかは本例と異なる場合があり、バス構成も本例と異なる場合があるが、後述する機能構成、動作に違いはない。

　一体型のＶＲシステムについては、本実施例についても従来例とほぼ変わらず、ＣＰＵ９６５およびＧＰＵ９５４をそれぞれ一つとして機能を実現することで、小型の一体型のＶＲシステムを実現できる。

　再び図３３を参照して、実施例の別の構成について説明する。

　図３３では、実施例は、図３４の観測システム、図３５のＶＲシステムのそれぞれを機能ブロックとして実際の接続ではなくデータや制御の流れとして２つのシステムを一体化させて記載している。

　観測システム３３５１では、図３４におけるＶＲ撮影カメラ８０４は図３３ではＶＲ撮影手段７６２にあたる。同様にＶＲ映像処理部はＶＲ映像処理手段７５８、ＶＲ映像圧縮部はＶＲ圧縮手段７５６、マイク群、マイク端子、マイクアンプおよびＡＤＣは音声入力手段７６３、音声圧縮部は音声圧縮手段７６０、入力ボタンはキュー情報入力手段３３５２、動き・位置検出部、位置・方位検出・記憶部とＧＰＵとＣＰＵの２つの位置・方位分析部は位置・方位検出・記憶手段３３５３、多重化部は多重化手段２６５２、無線通信素子は通信手段７５４、分離部は分離手段７５５、音声復号部は音声復号手段７６１、ＤＡＣ、アンプ、ヘッドフォン素子、スピーカーは音声出力手段７６４にあたる。映像系バス、メモリバス、システムバス、Ｉ／Ｏバス、バス変換、ＲＡＭ、ＥＥＰＲＯＭ、ＳＤカード、電源スイッチ、電源制御素子、バッテリー、表示素子、撮影モード選択ボタン、ズームボタン、撮影開始/終了ボタンは本発明の動作に直接関連がないことから図示を省略した。

　ＶＲシステム３３０１では、図３５の通信素子は図３３では通信手段７１６にあたる。同様に分離部は分離手段７１５、音声復号部は音声復号手段７１３、音声再生制御部は、音声再生制御手段７０９、ＤＡＣ、アンプ、スピーカー、ヘッドフォン端子は、音声再生手段７０５、ＶＲ映像復号部はＶＲ映像復号手段７１０、グラフィックス生成部はグラフィックス生成手段７１２、ＣＰＵとＧＰＵそれぞれにある位置・方位・キュー判断部は位置方位・キュー判断手段３３０２、動き・位置センサと動き・位置検出部は位置検出手段と回転検出手段、動き・位置検出処理部とＶＲ制御部は、ＶＲ制御手段７０７、ＶＲ表示制御部はＶＲ表示制御手段７０８、映像表示処理部、表示素子、レンズは、ＶＲ映像表示手段７０４、マイク、マイクアンプ、ＡＤＣは音声入力手段７０６、音声圧縮部は音声圧縮手段７１４、多重化部は多重化手段７１７にあたる。映像系バス、メモリバス、システムバス、Ｉ／Ｏバス、バス変換、ＲＡＭ、ＥＥＰＲＯＭ、不揮発性メモリ、電源スイッチ、電源制御素子、バッテリー、音量ボタン、ＡＶ出力、ＡＶ入力、ＵＳＢは本発明の動作に直接関連がないこと、または一つのシステムとして記載したことから図示を省略した。無線通信素子はコントローラとの通信のために必要であるが、図３３ではコントローラを省いたことから図示を省略した。

　本発明の実施例では、キュー情報入力手段３３５２を備える。キュー情報入力手段３３５２は、観測システム３３５１の操作者やガイドが物理的に操作するスイッチやタブレット、スマートフォンなどにより、移動の開始と終了のタイミング、移動の位置または方向、あるいは目的地（ターゲット）の位置、方向を入力する。また、キューデータにより複数の目標から移動する目標を指定する。

　あるいはキュー情報入力手段３３５２は、破線で示されているように、ＶＲ映像処理手段７５８から得られる映像または音声入力手段から得られる音声情報からキュー情報を得ることもある。

　キュー情報入力手段３３５２から得られたキュー情報は位置・方位検出・記憶手段３３５３に送られ、観測システム３３５１の位置、方位とともに処理され、場合によってはその状態が記憶されるとともに適したデータに成形され、メタデータとして多重化手段２６５２に送られ、映像、音声およびグラフィックスとともに多重化後、通信手段７５４により、ＶＲシステム３３０１に送出される。

　ＶＲシステム３３０１では、通信手段７１６が観測システム３３５１からの通信情報を受け取り、分離手段７１５により、メタデータを分離し、位置・方位・キュー判断手段３３０２に送る。

　位置・方位・キュー判断手段３３０２では、キューデータがメタデータより取り出され、定められた処理を行い、図形としてキュー情報を表示するためにグラフィックス生成手段７１２へ送り、ＶＲ表示手段７０４でＶＲ映像に重畳し表示すること、あるいはＶＲ制御手段７０７へ送り、ＶＲシステム３３０１の位置・方位の状態とともにＶＲ表示制御手段７０８でＶＲ映像を適切に加工し、ＶＲ表示手段７０４で表示すること、あるいは、音声再生制御手段７０９によりガイド音声を生成することや再生音声を適切に加工することなどが行われる。

　具体例として、キューデータで、「目標Ａへ移動」というデータが示された場合、ＶＲシステムの位置によっては、目標Ａの位置が異なり、グラフィックスでキュー情報を示す場合、適切な方向に矢印が表示される。具体的には目標Ａが左側にある場合、左向きの矢印が表示され、映像を制御する場合、例えば左側にのみがクリアになるなどの制御が行われ、音声で制御する場合、「左側を向いてください」というようなアナウンスが流れる。このようにキューデータの内容とＶＲシステムの位置・方位を比較して適切な処理が行われる。

　図３６および図３７は、実施例に係るメタデータの構成例を示す図である。本実施例のメタデータの構成例を説明する。

　メタデータの種別は、本発明のメタデータであることを示す既定のコードあるいは文字列が入る。バージョン番号は、メタデータの構造を変更したときのための番号であり、例えば、評価段階では０．８１（００８１）、実証実験中は０．９２（００９２）、リリース時は１．０（０１００）などのようにメジャーバージョン、マイナーバージョンのように用い、同じメジャーバージョンの間では互換性を保証するという考え方で用いる。

　機能コードは、０の場合、メタデータの情報が無効であることを示し、他の場合は、メタデータ内の情報の種別を示す。例えば、０００１は、基準位置、カメラ、ガイドとターゲットの位置と移動方向と速度を記載するフォーマットであることを示す。０００２は、グラフィックスデータを示すものであり、０００３は、ＶＲシステムの情報を示すもの、００１１は、０００１に観測システムから送られるキューデータが付属しているもの、００２１は、キューデータ付きであり移動する目標を定めたものであるなどである。

　この他、キューデータの種類、サイズなど、メタデータにはキューデータに関するパラメータが複数含まれている。キューデータに関するパラメータとして、図３７に示すように、キューデータの種類には、例えば、０～７の８種類が用意され、そのいずれのキューデータであるかを指定する数値が入力されている。また、この例では、複数のターゲットを選択的に指定できるようになっているため、ターゲットを指定するためのパラメータが含まれている。具体的には、複数のターゲットのそれぞれには、異なる数値が設定されており、ターゲットを数値によって指定して選択できるようになっている。また、パラメータの１つとして、単に方向を指定するためのパラメータを入力することも可能になっている。ここでは、方向として、１°単位で方向を指定することができる。

　基準位置は、位置データの基準となる位置のデータであり、全体システムとして例えばＸ（東西の距離）、Ｙ（南北の距離）、Ｚ（高さ方向の距離）あるいは経緯度と高度で表すなど単位を含めてあらかじめ定めておく。基準位置が０の場合は、システム全体のリセット時の位置を基準とすることを示す。カメラの位置、ガイドの位置についてもあらかじめ絶対座標なのか基準位置からの相対座標であるのかを定めておく。

　移動方向、速度は観測システムとしてあるいはガイドの移動状況を示すが、キューデータがある場合はこれからどう移動するのかを示す。

　ターゲットの数は、ＶＲ観光の場合、観光としての訪問先を示す。ターゲットの数が０の場合はターゲットがないことを示している。

　検証コードは、メタデータのデータが送出中に誤っていないかの検証のためのコードであり、例えばＣＲＣなどが用いられる。

　メタデータのそれぞれ項目の順序、項目の内容、値については、本構成例と異なっても同様の機能を有するものであってもよい。

　図３８は、実施例に係るメタデータの別の構成例を示す図である。この例では、図３６の例に対して、目標を定めた状態のメタデータが示されている。

　図３９は、実施例に係る映像表示システムの動作フローの一例を示す図である。本発明の実施例の動作を説明する。

　観測システムでは、キュー情報入力ステップで入力ボタンなどからの入力をキュー情報入力手段でキュー情報とされ（Ｓ３９３２）、位置・方位検出・記憶手段で有効なキュー情報があるか確認される（Ｓ３９３３）。有効なキュー情報がある場合（Ｓ３９３３でＹｅｓ）、入力されたキュー情報が位置・方位検出・記憶手段でメタデータが生成され（Ｓ３９３４）、次に、多重化手段によりキュー情報は映像、音声およびグラフィックス情報と多重化され（Ｓ３９２７）、通信手段によりＶＲシステムに送出される（Ｓ３９２８）。有効なキュー情報がない場合（Ｓ３９３３でＮｏ）、何も処理が行われない（Ｓ３９３５）。

　あるいは、入力された音声情報、ＶＲ映像音声入力および撮影手段からのＶＲ映像の入力からキュー入力手段によりキュー情報を抽出し（Ｓ３９３０）、位置・方位検出・記憶手段でメタデータに変換し（Ｓ３９３１）、多重化手段により映像、音声およびグラフィックス情報と多重化され（Ｓ２９２７）、通信手段によりＶＲシステムに送出される（Ｓ３９２８）。

　ＶＲシステムでは、通信手段で受信した情報から分離手段でメタデータを分離し（Ｓ３９０１、Ｓ３９０２）、メタデータ解析ステップで位置・方位・キュー判断手段によりメタデータを解析し（Ｓ３９０６）、キュー情報がある場合、キュー情報に従い、グラフィックス生成手段あるいはＶＲ制御手段また音声制御手段にキュー情報を送る。グラフィックス生成手段は、キュー情報に基づきグラフィックスの生成を行う。あるいは、ＶＲ制御手段はキュー情報に基づくによるＶＲ映像の制御を行う（Ｓ３９０７、Ｓ３９０８、Ｓ３９０９、Ｓ３９１０）。さらに音声制御手段によるキュー情報に基づく音声情報の付加や制御が行われる場合がある（Ｓ３９０３、Ｓ３９０４、Ｓ３９０５）。上記のどの処理を行うかは、ＶＲシステムあるいはシステム全体の設定に依存する。

　また、上記に説明のないステップは、図１３の同様のステップにおける説明を参照することによりここでの説明を省略する。具体的には、ステップＳ３９２１は、ステップＳ１３２１に対応し、ステップＳ３９２２は、ステップＳ１３２２に対応し、ステップＳ３９２３は、ステップＳ１３２３に対応し、ステップＳ３９２４は、ステップＳ１３２４に対応し、ステップＳ３９２５は、ステップＳ１３２５に対応し、ステップＳ３９２６は、ステップＳ１３２６に対応している。

　図４０は、実施例における映像表示システムの動作の結果を説明する図である。図４０の例では、矢印表示グラフィックスが重畳される場合を示している。具体的には、キューデータで、「右を向く」というデータが示された場合、ＶＲシステムの位置によってはＶＲシステムの使用者の左側に目標がある場合があり、その場合、グラフィックスでキュー情報を示す場合では、左向きの矢印が表示される。どちらに矢印が出るかは、観測システムにおいて、ターゲットの位置・方向がかなり精度よくわかっている場合、その情報を入力しメタデータとして、ＶＲシステムに送ると、ＶＲシステムの使用者の向きと比較し、所定の誤差で正面にターゲットがある場合は、矢印はＶＲシステムの使用者の正面を示し、使用者の所定の誤差以上左であれば左側を示す矢印となり、所定の誤差以上右であれば右を示す矢印が示される。もし、別に定める誤差の範囲で使用者の後方にターゲットがある場合は、後ろ向きの矢印が示される。

　観測システムでターゲットの位置・方向があいまいな場合でも近い情報を入力すれば、それらがメタデータに反視され、ＶＲシステムに送られ、上記と同様な処理が行われ矢印が表示される位置・方位判断手段では、観測システムあるいはガイドや目標物の位置・方位をメタデータとして受け取り、その情報を図形として表示するためにグラフィックス生成手段へ送り、ＶＲ表示手段でＶＲ映像に重畳し表示する。

　例えば、図中の左端の例では、正面を示す矢印が表示される様子が示されている。次に、中央左側の例では、右側を示すように矢印が表示される様子が示されている。次に、真ん中の例では、ＶＲシステムの使用者が右を向いている場合、左側を示す矢印、左を向いている場合、後ろ差す矢印、後ろを向いている場合、左後ろを差す矢印となる様子（図中では、右を向いている場合に左側を示す矢印が表示されている）が示されている。使用者が向きを変えるとそれに沿って上記のように矢印の向きが変わる。次に、中央右側の例では、ＭＡＰ表示の場合の様子が示されている。ＭＡＰ表示の場合、右側を示すように矢印が表示されたり、星マークなどで目的地を示すようになっている。次に、右端の例では、ＭＡＰ表示の場合について示されている。ＭＡＰ表示の場合も、向きに応じて適切に矢印とＭＡＰとが回転して表示される様子が示されている。

　図４１は、実施例における映像表示システムの動作の結果を説明する図である。図４１の例では、ＶＲ映像を加工する場合を示している。具体的には、キューデータで、「右を向く」というデータが示された場合、ＶＲシステムの位置によってはＶＲシステムの使用者の左側や背後に目標がある場合があり、映像を制御する場合、例えばマスクや解像度の制御位置が変わる。なお、向きの判断は矢印の場合と同様である。

　例えば、図中の左端の例では、正面が目標の場合は特に処理は行われず、そのまま映像が表示される様子が示されている。次に、中央左側の例では、右側以外がマスクされ、右を向くことを促す様子が示されている。次に、真ん中の例では、右側以外の解像度を落とし右を向くことを促す様子が示されている。次に、中央右側の例では、右を向くとマスク（中央左側の例）や解像度（真ん中の例）が元の表示に戻る様子が示されている。次に、右端の例では、最初から右を向いていた場合は、特に何も表示されない、または、中央部以外がマスクされたり、解像度を落としたりする処理が行われる。左を向いていた場合は、右の少しだけがマスクされ、後ろを向いていた場合は、左側がマスクされるとしてもよい。

　図４２は、実施例における映像表示システムの動作の結果を説明する図である。図４２の例では、音声ガイドが再生される場合を示している。具体的には、キューデータで、「右を向く」というデータが示された場合、ＶＲシステムの位置によってはＶＲシステムの使用者の左側に目標がある場合があり、音声で制御する場合、「左側を向いてください」というようなアナウンスが流れる。なお、向きの判断は矢印の場合と同様である。

　例えば、図中の左端の例では、正面の建物の説明をしているときは正面からガイドの声が聞こえるように音声が再生される様子が示されている。次に、真ん中の例では、右手の建物の説明をしているときは右からガイドの声が聞こえ、後ろが目標になる場合は後ろ、左が目標になる場合は左から聞こえるように音声が再生される様子（図中では、右手の建物の説明をしているときに右からガイドの声が聞こえる例）が示されている。次に、右端の例では、ＶＲシステムの使用者が右や後ろを向いている場合、右手が実際は左手であるので、ＶＲシステムの使用者の左からガイドの声が聞こえる。混乱する場合は、音声中の「右」を「左」に置き換える、グラフィックスと組み合わせて矢印などで向きを示すなどを行う。

　図４３は、実施例における映像表示システムの動作の結果を説明する図である。図４３の例では、複数のユーザが同じ画像空間内で分散している場合を示している。具体的には、複数のＶＲシステムの使用者がいて、ＶＲ空間内でガイドの場所とは異なるところにいる場合、ＶＲシステムの使用者が見ているＶＲ映像はあらかじめ撮影してあったものとなる。あるいは複数の観測システムが存在する。この時、ガイドがガイドの場所へ参加者を集合させるために、音声やボタンまたは地図の位置を示し集合のためのキューデータを送ると、ＶＲシステムの使用者の位置、向きに応じ、矢印やＶＲ画像を加工することまたは音声、コントローラの振動などで、ＶＲシステムの使用者それぞれに表示または再生される。

　図中では、ＶＲシステムＡは、北向きであり、正面がＡ神社なので、矢印が正面を差すように表示される、ＶＲシステムＢは、北向きであり、左手がＡ神社なので、矢印が左を差すように表示される、ＶＲシステムＣは、東向きであり、右手がＡ神社なので、矢印が右を差すように表示される。なお、ＶＲシステムＣの別例として示すように、ＭＡＰ表示を行ってもよい。

　移動に際しては、コントローラで、いわゆるワープ機能を用いて移動するようにしてもよい。同様の機能として、メニューから、「ガイドの位置に移動する」という機能を選択するようにして移動させてもよい。

　この機能は、ＶＲ会議、ＶＲイベント、ＶＲスポーツ観戦など広いＶＲ空間に複数のＶＲシステムが分散している場合にも有効である。

　図４４は、実施例における映像表示システムの用途の一例を説明する図である。図４４に示すように、ＶＲ展示会の例に映像表示システムを用いることができる。例えば、ブース２－３に集合などとガイドまたは主催者がアナウンスすると、複数のＶＲシステムでの参加者が、それぞれの位置から移動することが可能となる。

　図４５は、実施例における映像表示システムの用途の一例を説明する図である。図４５に示すように、ＶＲモールの例に映像表示システムを用いることができる。例えば、アトリウムＡ８に集合などとガイドまたは主催者がアナウンスすると、複数のＶＲシステムでの参加者が、それぞれの位置から移動することが可能となる。

　このように、観測システムからのＶＲ画像を送るのではなく、ＣＧで構成されたＶＲ空間でのＶＲ観光、ＶＲ会議（複数のセッションから全体セッションに集合）、ＶＲスポーツ観戦（複数の観戦場所からメインの場所に集合）、ＶＲイベント（複数の異なるイベントの場所からメイン会場へ集合）などに応用できる。

　この場合、観測システムに実装された機能と操作などは、ガイドあるいは主催者が操作するＶＲシステムで実現される。

　また、集合だけでなく、異なる会場へグループで移動する場合も同様の手法が使用できる。この場合、主催者あるいはガイドがキューを出すのでなく、グループのメンバーがキューを出すことにすればよい。

　図４６は、実施例における映像表示システムの移動方法の別の例を説明するための図である。図４６に示すように、ガイドまたは主催者などから移動のキューが出されたときに、ＶＲシステムの使用者が見ているＶＲ画面の状況によって移動の開始方法が異なる。例えば、移動方向が矢印や画面の変更、音声で指示されたときにコントローラの機能（例えばワープ機能）を使って移動する。この方法は近距離では問題ないが遠距離では手間である。

　矢印が表示されたとき、矢印を選択することで、目標の場所に移動することができるようになっていてもよい。同様に、ＭＡＰ表示の場合において、ＭＡＰ内の任意の点を選択することで対応する地点まで移動することができるようになっていてもよい。さらに、目標に対応する文字（Ａ、Ｂ、Ｃなど）を表示させ、このいずれかの文字を選択することで、対応するあらかじめ設定された地点まで移動することができるようになっていてもよい。画面がマスクされているときに、マスクされていない部分を選択すると指定された地点に移動することができるようになっていてもよい。

　図４７は、実施例に係る映像表示システムをクラウドを利用して実現する構成例を説明するための図である。図４７に示す構成では、クラウド上に観測システム４７６１の位置・方位・キュー情報とＶＲシステムの位置・方位に応じてグラフィックスやＶＲ動画、音声およびコントローラの振動を制御しＶＲシステムの使用者に適切な情報を与える機能を持つことで、簡易なＶＲシステムにおいても本発明の効果を発揮できる。

　図４７に示す構成では、クラウドに位置・方位・キュー検出記憶手段４７４０を持つことで、クラウド上で観測システム４７６１の位置・方位を観測システムから送られてきたデータから分離手段４７４２で分離したメタデータより読み取ることや、観測システム４７６１から送られてきたＶＲ映像から観測システムの位置や方位を読み取ることで矢印などのグラフィックスをグラフィックス生成手段４７３６で生成する。観測システムの位置・方位およびＶＲシステム位置と方位をＶＲ制御手段４７０７で判断し、ＶＲ表示制御手段４７０８でＶＲ映像とグラフィックス合成すること、あるいは、ＶＲ映像を加工すること、また、音声再生制御手段４７３９で音声の定位を変えること、音声の内容を変更することなどにより、ＶＲシステム４７０１の位置や方位に適した表示や音声の出力が可能となる。また、ここでは図示しないがＶＲシステムのコントローラを適切に制御し、振動などにより、方向や位置をＶＲシステムの使用者に知らせることが可能となる。

　なお、クラウド上に備える機能としては、図４７に示す構成に限定されるものでなく、接続される観測システムまたＶＲシステムの構成、機能により、全体としての機能、動作をほぼ同様とするようにクラウド上に備える機能を選択することができる。例として、観測システムでは、観測システムの位置・方位を検出せず、クラウド上で観測システムの位置・方位を検出し、グラフィックスとしてＶＲシステムに映像に重畳して送る場合は、ＶＲシステムの位置・方位によるグラフィックスの変更に制限があるがＶＲシステムに格別の機能は必要ない。また、ＶＲシステムにＶＲシステムの位置・方位によりグラフィックスを修正する位置・方位制御手段とグラフィックス生成手段を備える構成では、ＶＲシステムの位置・方位によるグラフィックスの変更も可能となる。

　なお、上記に説明のない構成は、図３３の同様の名称の構成における説明を参照することによりここでの説明を省略する。ＶＲシステム４７０１が備える、位置検出手段４７０２、回転検出手段４７０３、ＶＲ表示手段４７０４、音声再生手段４７０５、音声入力手段４７０６、ＶＲ制御手段４７０７、ＶＲ表示制御手段４７０８、音声復号手段４７０９、音声圧縮手段４７１０、ＶＲ映像復号手段４７１１、分離手段４７１２、多重化手段４７１３、及び、通信手段４７１４、ならびに、コンピュータシステム４７３１が備える分離手段４７３２、ＶＲ映像圧縮手段４７３３、多重化手段４７３４、通信手段４７３５、グラフィックス生成手段４７３６、ＶＲ表示制御手段４７３７、ＶＲ映像伸張手段４７３８、音声再生制御手段４７３９、位置・方位・キュー検出記憶手段４７４０、通信手段４７４１、及び、分離手段４７４２、ならびに、観測システム４７６１が備えるキュー情報入力手段４７６２、多重化手段４７６３、通信手段４７６４、分離手段４７６５、ＶＲ映像圧縮手段４７６６、音声圧縮手段４７６７、音声復号手段４７６８、ＶＲ映像処理手段４７６９、ＶＲ撮影手段４７７０、音声入力手段４７７１、音声出力手段４７７２のそれぞれは、位置検出手段７０２、回転検出手段７０３、ＶＲ表示手段７０４、音声再生手段７０５、音声入力手段７０６、ＶＲ制御手段７０７、ＶＲ表示制御手段７０８、音声再生制御手段７０９、ＶＲ映像復号手段７１０、グラフィックス生成手段７１２、音声復号手段７１３、音声圧縮手段７１４、分離手段７１５、通信手段７１６、多重化手段７１７、位置・方位・キュー判断手段３３０２、キュー情報入力手段３３５２、位置・方位検出・記憶手段３３５３、通信手段７５４、分離手段７５５、ＶＲ映像圧縮手段７５６、多重化手段７５７、ＶＲ映像処理手段７５８、グラフィックス生成手段７５９、音声圧縮手段７６０、音声復号手段７６１、ＶＲ撮影手段７６２、音声入力手段７６３、音声出力手段７６４のそれぞれに１対１、多対１、１対多、又は多対多で対応している。

　図４８は、実施例に係る映像表示システムをクラウドを利用して実現する構成例を説明するための図である。図４８に示すように、観測システムの位置・方位・キュー検出記憶手段４７４０は、クラウドなど観測システム４７６１とＶＲシステム４７０１の間にあるコンピュータシステムで実現される場合もある。この場合、観測システムからは方向を示すメタデータは送出されないか、操作者が入力するなどしたキュー情報のデータがメタデータとして送出され、例えばクラウドにある位置・方位・キュー検出記憶手段４８４０で、観測システム４８６１から送出される映像、音声あるいはメタデータから観測システム、ガイドあるいは目標物の位置・方位または動きを検出しメタデータとしてＶＲシステムに送る。これにより既存の３６０°カメラでも本実施例の効果を発揮することができる。

　さらには、ＶＲシステム側の位置・方位判断手段４９１５とそれによるＶＲ映像、音声の制御についても、クラウドなどのＶＲシステムと観測システムの間にあるコンピュータシステムで実現される場合もある。この場合、同じ処理を一か所で行い、複数のＶＲシステムに同じ効果を同時に与えることが容易となる、また既存システムに本発明の効果を与えることができるなどの効果が期待できる。しかしながらＶＲシステムの方向や位置を反映させるには、ＶＲシステムからＶＲシステムの位置や方向をクラウド側に送付することが必要であり、クラウド側にＶＲシステムそれぞれに対応した処理部を設ける必要がある。

　図４８の構成では、ＶＲシステムの位置や方位をクラウド側に送らない場合の例であり、この場合、ＶＲシステムの位置や方位に応じて矢印を表示する、音声を変えるなどは難しくなるが、ＶＲ表示制御手段にて、位置・方位・キュー検出記憶手段の出力に応じてＶＲ映像の解像度を変える、マスクをする、音声の定位を変えるなどの処理を行うことが可能である。

　なお、上記に説明のない構成は、図３３の同様の名称の構成における説明を参照することによりここでの説明を省略する。ＶＲシステム４８０１が備える、位置検出手段４８０２、回転検出手段４８０３、ＶＲ表示手段４８０４、音声再生手段４８０５、音声入力手段４８０６、ＶＲ制御手段４８０７、ＶＲ表示制御手段４８０８、音声復号手段４８０９、音声圧縮手段４８１０、ＶＲ映像復号手段４８１１、分離手段４８１２、多重化手段４８１３、通信手段４８１４、及び、音声再生制御手段４８１７、ならびに、コンピュータシステム４８３１が備えるＶＲ映像圧縮手段４７３３、多重化手段４８３４、通信手段４８３５、グラフィックス生成手段４８３６、ＶＲ表示制御手段４８３７、ＶＲ映像伸張手段４８３８、音声再生制御手段４８３９、位置・方位・キュー検出記憶手段４８４０、通信手段４８４１、及び、分離手段４８４２、ならびに、観測システム４８６１が備えるキュー情報入力手段４８６２、多重化手段４８６３、通信手段４８６４、分離手段４８６５、ＶＲ映像圧縮手段４８６６、音声圧縮手段４８６７、音声復号手段４８６８、ＶＲ映像処理手段４８６９、ＶＲ撮影手段４８７０、音声入力手段４８７１、音声出力手段４８７２のそれぞれは、位置検出手段７０２、回転検出手段７０３、ＶＲ表示手段７０４、音声再生手段７０５、音声入力手段７０６、ＶＲ制御手段７０７、ＶＲ表示制御手段７０８、音声再生制御手段７０９、ＶＲ映像復号手段７１０、グラフィックス生成手段７１２、音声復号手段７１３、音声圧縮手段７１４、分離手段７１５、通信手段７１６、多重化手段７１７、位置・方位・キュー判断手段３３０２、キュー情報入力手段３３５２、位置・方位検出・記憶手段３３５３、通信手段７５４、分離手段７５５、ＶＲ映像圧縮手段７５６、多重化手段７５７、ＶＲ映像処理手段７５８、グラフィックス生成手段７５９、音声圧縮手段７６０、音声復号手段７６１、ＶＲ撮影手段７６２、音声入力手段７６３、音声出力手段７６４のそれぞれに１対１、多対１、１対多、又は多対多で対応している。

　図４９は、実施例に係る映像表示システムをクラウドを利用して実現する構成例を説明するための図である。図４８の構成では、ＶＲシステムの位置や方位に応じて矢印を表示する、音声を変えるなどが困難であったが、図４９に示す構成では、ＶＲシステムに位置・方位判断手段４９０２、４９０３を持つことで、クラウド上で観測システムの位置・方位を観測システムから送られてきたデータから分離手段４９１２で分離したメタデータより読み取り、それに応じて矢印などのグラフィックスグラフィックス生成手段４９１６で生成し、これをメタデータ変換手段４９３７で観測システムから送られた位置・方位情報などとともにメタデータに変換し、多重化手段で多重化し、ＶＲシステムに送る。

　ＶＲシステムでは、分離手段で分離したメタデータからグラフィックスを生成するとともに、観測システムの位置・方位および位置検出手段と回転検出手段から得られたＶＲシステムの位置と方向をＶＲ制御手段で判断し、ＶＲ表示制御手段で適切にＶＲ映像とグラフィックス合成すること、あるいは、ＶＲ映像を加工すること、また、音声再生制御手段で音声の定位を変えること、音声の内容を変更することなどにより、ＶＲシステムの位置や方位に適した表示や音声の出力が可能となる。また、ここでは図示しないがＶＲシステムのコントローラを適切に制御し、振動などにより、方向や位置をＶＲシステムの使用者に知らせることが可能となる。

　なお、ＶＲシステムの位置検出手段および回転検出手段で検出したＶＲシステムの位置・方位情報をメタデータとして、多重化手段において他の情報と多重化し、通信手段で、クラウド上のコンピュータシステムに送出する。この機能は、一般的なＶＲシステムにほぼ備えられている。

　なお、上記に説明のない構成は、図３３の同様の名称の構成における説明を参照することによりここでの説明を省略する。ＶＲシステム４９０１が備える、位置検出手段４９０２、回転検出手段４９０３、ＶＲ表示手段４９０４、音声再生手段４９０５、音声入力手段４９０６、ＶＲ制御手段４９０７、ＶＲ表示制御手段４９０８、音声復号手段４９０９、音声圧縮手段４９１０、ＶＲ映像復号手段４９１１、分離手段４９１２、多重化手段４９１３、通信手段４９１４、位置・方位判断手段４９１５、グラフィックス生成手段４９１６、及び、音声再生制御手段４９１７、ならびに、コンピュータシステム４９３１が備える多重化手段４９３４、通信手段４９３５、グラフィックス生成手段４９３６、ＶＲ表示制御手段４９３７、位置・方位・キュー検出記憶手段４９４０、通信手段４９４１、及び、分離手段４９４２、ならびに、観測システム４９６１が備えるキュー情報入力手段４９６２、多重化手段４９６３、通信手段４９６４、分離手段４９６５、ＶＲ映像圧縮手段４９６６、音声圧縮手段４９６７、音声復号手段４９６８、ＶＲ映像処理手段４９６９、ＶＲ撮影手段４９７０、音声入力手段４９７１、音声出力手段４９７２のそれぞれは、位置検出手段７０２、回転検出手段７０３、ＶＲ表示手段７０４、音声再生手段７０５、音声入力手段７０６、ＶＲ制御手段７０７、ＶＲ表示制御手段７０８、音声再生制御手段７０９、ＶＲ映像復号手段７１０、グラフィックス生成手段７１２、音声復号手段７１３、音声圧縮手段７１４、分離手段７１５、通信手段７１６、多重化手段７１７、位置・方位・キュー判断手段３３０２、キュー情報入力手段３３５２、位置・方位検出・記憶手段３３５３、通信手段７５４、分離手段７５５、ＶＲ映像圧縮手段７５６、多重化手段７５７、ＶＲ映像処理手段７５８、グラフィックス生成手段７５９、音声圧縮手段７６０、音声復号手段７６１、ＶＲ撮影手段７６２、音声入力手段７６３、音声出力手段７６４のそれぞれに１対１、多対１、１対多、又は多対多で対応している。

　（その他の実施の形態）
　以上、実施の形態等について説明したが、本開示は、上記実施の形態等に限定されるものではない。

　また、上記実施の形態等において映像表示システムを構成する構成要素について例示したが、映像表示システムが備える構成要素の各機能は、映像表示システムを構成する複数の部分にどのように振り分けられてもよい。

　また、上記実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、各構成要素は、ハードウエアによって実現されてもよい。例えば、各構成要素は、回路（又は集積回路）でもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

　また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　その他、実施の形態等に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で実施の形態等における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。

　本開示は、表示装置に適切な映像を表示させる用途において有用である。

　　１１　　位置検出手段
　　１３　　回転検出手段
　　１５　　ＶＲ表示手段
　　１７　　音声再生手段
　　１９、７１　　音声入力手段
　　２１　　ＶＲ制御手段
　　２３　　ＶＲ表示制御手段
　　２５　　音声再生制御手段
　　２７、６３　　音声圧縮手段
　　２９　　ＶＲ映像復号手段
　　３１　　位置・方位・キュー判断手段
　　３３　　グラフィックス生成手段
　　３５、６５　　音声復号手段
　　３７、５７　　分離手段
　　３９、５５　　通信手段
　　４１、６１　　多重化手段
　　５１　　キュー情報入力手段
　　５３　　位置・方位検出・記憶手段
　　５９　　ＶＲ映像圧縮手段
　　６７　　ＶＲ映像処理手段
　　６９　　ＶＲ撮影手段
　　７３　　音声出力手段
　　９９　　グラフィック
　　９９ａ　矢印
　　９９ｂ　マップ
　　９９ｃ　マスク
　　９９ｄ　低解像度化フィルタ
　　１００　表示装置
　　１０１　表示部
　　１０２　表示状態検出部
　　１５０　ネットワーク
　　２００　サーバ装置
　　２０１　受信部
　　２０２　差分算出部
　　２０３　提示部
　　２０４　映像生成部
　　３００　観測装置
　　３００ａ、３００ｂ　撮影装置
　　３０１　記憶部
　　３０２　入力インターフェイス
　　３０３　位置入力部
　　３０４　データ取得部
　　３０５　メタデータ取得部
　　３０６　送信部
　　５００　映像表示システム

Claims

　表示装置により表示映像を表示するための映像表示システムであって、
　広視野角映像を生成する撮影部と、前記広視野角映像内で前記表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方に関するデータ、ならびに、前記観測システムの状態の変化を知らせるためのキュー情報を取得するデータ取得部と、前記データ取得部からの前記データを他の情報とともにメタデータとするメタデータ構成部と、前記広視野角映像を前記メタデータとともに送信する送信部と、を有する観測装置と、
　前記広視野角映像、前記データ及び前記キュー情報を受信する受信部と、前記表示装置の前記広視野角映像内における位置及び方向の少なくとも一方を推定する表示状態推定部と、推定された前記表示装置の前記広視野角映像内における位置及び方向の少なくとも一方と、前記メタデータ上の前記注視対象の位置及び方向の少なくとも一方との差分に基づいて、前記表示装置の前記広視野角映像内における位置及び方向の少なくとも一方に対する相対的な前記注視対象の位置である相対位置、及び、相対的な前記注視対象の方向である相対方向の少なくとも一方を算出する差分算出部と、算出された前記相対位置及び前記相対方向の少なくとも一方の情報、ならびに、前記キュー情報による指示及び前記観測システムの状態を前記表示装置のユーザに提示する提示部と、受信された前記広視野角映像から前記表示状態推定部が推定した前記表示装置の前記広視野角映像内における位置及び方向の少なくとも一方の情報、ならびに、前記キュー情報による指示及び前記観測システムの状態に応じた視野部分に対応する一部の画像を含む前記表示映像を生成する映像生成部と、前記表示映像を表示する前記表示装置と、を有するＶＲ装置と、を備える
　映像表示システム。
　映像を撮影するカメラ、又は、演算により画像を生成する画像生成部をさらに備え、
　前記広視野角映像は、前記カメラによって撮影された映像、又は、前記画像生成部によって演算された画像である
　請求項１に記載の映像表示システム。
　前記提示部は、
　算出された前記相対位置及び前記相対方向の少なくとも一方およびキュー情報に基づく情報を示すグラフィックスを生成して出力し、
　前記一部の画像に、出力した前記グラフィックスを重畳させることで、前記映像生成部に前記相対位置及び前記相対方向の少なくとも一方を提示させる
　請求項１又は２に記載の映像表示システム。
　前記データ受付部は、前記注視対象の方向に関するデータの入力を受け付け、
　前記表示状態推定部は、前記表示装置の前記広視野角映像内における方向を推定し、
　前記グラフィックスは、前記表示映像上に前記相対方向を指し示す矢印を表示させる
　請求項３に記載の映像表示システム。
　前記データ受付部は、前記注視対象の方向に関するデータの入力を受け付け、
　前記表示状態推定部は、前記表示装置の前記広視野角映像内における方向を推定し、
　前記グラフィックスは、前記表示映像上における前記相対方向側以外の少なくとも一部を覆い隠すための画像であるマスクを表示させる
　請求項３に記載の映像表示システム。
　前記データ受付部は、前記注視対象の位置に関するデータの入力を受け付け、
　前記表示状態推定部は、前記表示装置の前記広視野角映像内における位置を推定し、
　前記グラフィックスは、前記表示映像上に前記相対位置を示すマップを表示させる
　請求項３に記載の映像表示システム。
　さらに、前記データの入力に用いるための入力インターフェイスを備え、
　前記データ取得部は、前記入力インターフェイスを介して入力された前記データを取得する
　請求項１～６のいずれか１項に記載の映像表示システム。
　さらに、前記ユーザの前記広視野角映像内での移動の開始と終了のタイミングの少なくとも一方を指定するための入力インターフェイスを備え、
　前記データ取得部は、前記入力インターフェイスを介して入力された前記移動の開始と終了のタイミングの少なくとも一方を取得する
　請求項３～５のいずれか１項に記載の映像表示システム。
　前記広視野角映像を構成する画像は、実空間を撮影する撮影部によって出力された画像であり、
　前記入力インターフェイスは、前記実空間において前記入力インターフェイスの操作者が保持する指示マーカであって、前記指示マーカの動きによって前記注視対象の位置及び方向の少なくとも一方を指示する指示マーカと、前記撮影部によって出力された前記指示マーカを含む画像を解析することにより前記指示マーカによって指示された前記注視対象の位置及び方向の少なくとも一方を受け付ける画像解析部と、を有する
　請求項６に記載の映像表示システム。
　前記観測装置と前記ＶＲ装置が備える機能の少なくとも一部を備え、前記観測装置及び前記ＶＲ装置とをネットワークで接続され、前記観測装置また前記ＶＲ装置の処理の一部を担う情報処理装置を備える
　請求項１～９のいずれか１項に記載の映像表示システム。
　前記情報処理装置は、
　前記広視野角映像、前記データ及び前記キュー情報を前記観測装置から前記メタデータとして受信する受信部と、
　前記メタデータ上の前記注視対象の位置及び方向の少なくとも一方、ならびに、前記キュー情報に従った情報を前記表示装置のユーザに提示させるための情報を生成する提示部と、
　受信された前記広視野角映像から、前記表示状態推定部が推定した前記表示装置の前記広視野角映像内における位置及び方向の少なくとも一方の情報に応じた視野部分に対応する一部の画像に前記提示部で生成された情報を加えて、前記表示映像を生成する映像生成部と、
　前記広視野角映像、前記相対位置及び前記相対方向の少なくとも一方の情報に応じた視野部分に対応する一部の画像、ならびに、前記メタデータを送信する送信部と、を備えた
　請求項１０に記載の映像表示システム。
　前記情報処理装置は、
　前記広視野角映像、前記データ及び前記キュー情報を前記観測装置から前記メタデータとして受信する受信部と、
　前記メタデータ上の前記注視対象の位置及び方向の少なくとも一方、ならびに、前記キュー情報に従った情報を前記表示装置のユーザに提示させるための情報を生成する提示部と、
　前記提示部で生成された情報から前記メタデータを生成するメタデータ構成部と、
　前記メタデータ構成部で生成された前記メタデータと前記受信部で受信された前記広視野角映像とその他の情報とを、前記ＶＲ装置に送信する送信部と、を備えた
　請求項１０に記載の映像表示システム。
　前記情報処理装置は、
　前記広視野角映像、前記データ及び前記キュー情報を前記観測装置から前記メタデータとして受信し、前記表示装置の向きに関するデータを前記表示装置から受信
する受信部と、
　前記表示装置の向きと前記撮影部の移動に関する移動情報との差分および前記キュー情報に基づいて、前記表示装置の向きに対する相対的な前記撮影部の移動方向である相対移動方向を算出する差分算出部と、
　算出した前記相対移動方向を示すグラフィックスであって、前記広視野角映像のうち、前記表示装置の推定された向きに応じた視野部分に対応する一部の映像に対して重畳されることで前記相対移動方向および前記キュー情報に従った情報を前記表示装置のユーザに提示させるグラフィックスを生成して出力する提示部と、
　前記グラフフィックスを前記表示装置の向きに関するデータに基づいて修正し、前記広視野角映像に重畳することで前記表示映像を生成する映像生成部と、
　前記表示映像とその他の情報とを送信する送信部と、を備えた
　請求項１０に記載の映像表示システム。
　前記情報処理装置は
　広域ネットワークに接続されたクラウド上に設けられ、
　前記広域ネットワークを介して前記観測装置及び前記ＶＲ装置と接続される
　請求項１０～１３のいずれか１項に記載の映像表示システム。
　前記キュー情報は
　前記観測装置の移動方向又は前記表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方が変化することを示す情報である
　請求項１～１４のいずれか１項に記載の映像表示システム。
　表示装置に広視野角映像内の少なくとも一部の表示映像を表示させるための映像表示システムに用いられる情報処理装置であって、
　前記広視野角映像で前記表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方に関するデータであって、入力を受け付けることによって得られたデータに基づくメタデータを受信する受信部と、
　前記メタデータ上の前記注視対象の位置及び方向の少なくとも一方との差分に基づいて、前記表示装置の前記広視野角映像内における位置及び方向の少なくとも一方に対する相対的な前記注視対象の位置である相対位置、及び、相対的な前記注視対象の方向である相対方向の少なくとも一方を算出して出力する差分算出部と、を備える
　情報処理装置。
　算出した前記相対位置及び前記相対方向の少なくとも一方を示すグラフィックスであって、前記広視野角映像を構成する画像のうち、前記表示装置の前記広視野角映像内における推定された位置及び方向の少なくとも一方に応じた視野部分に対応する一部の画像に対して重畳されることで、前記相対位置及び前記相対方向の少なくとも一方を前記表示装置のユーザに提示させるグラフィックスを生成して出力する提示部をさらに備える
　請求項１６に記載の情報処理装置。
　表示装置に広視野角映像内の少なくとも一部の表示映像を表示させる情報処理方法であって、
　前記広視野角映像で前記表示装置のユーザに注視させる注視対象の位置及び方向の少なくとも一方に関するデータであって、入力を受け付けることによって得られたデータに基づくメタデータを受信し、
　前記表示装置の前記広視野角映像内における推定された位置及び方向の少なくとも一方と、前記メタデータ上の前記注視対象の位置及び方向の少なくとも一方との差分に基づいて、前記表示装置の向きに対する相対的な前記注視対象の位置である相対位置、及び、相対的な前記注視対象の方向である相対方向の少なくとも一方を算出して出力する
　情報処理方法。
　請求項１８に記載の情報処理方法をコンピュータに実行させるための
　プログラム。