JP7543297B2

JP7543297B2 - ルームモードの局所効果を組み込むための音響フィルタの決定

Info

Publication number: JP7543297B2
Application number: JP2021554713A
Authority: JP
Inventors: ガリ，セバスチアヴァイセンスアメンガル; カールシスラー，; フィリップロビンソン，
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-05-21
Filing date: 2020-04-16
Publication date: 2024-09-02
Anticipated expiration: 2040-04-16
Also published as: US20200374648A1; US11218831B2; JP2022533881A; US10856098B1; KR20220011152A; CN113812171A; WO2020236356A1; US20210044916A1; EP3935870A1; TW202112145A

Description

関連出願の相互参照
本出願は、その内容全体がすべての目的のために参照により本明細書に組み込まれる、２０１９年５月２１日に出願された米国出願第１６／４１８，４２６号からの優先権を主張する。

本開示は、一般にオーディオの提示に関し、詳細には、ルームモード（ｒｏｏｍｍｏｄｅ）の局所効果を組み込むための音響フィルタの決定に関する。

物理的エリア（たとえば、部屋）が、１つまたは複数のルームモードを有し得る。ルームモードは、様々な部屋表面から反射する音によって引き起こされる。ルームモードは、部屋の周波数応答における腹（ａｎｔｉ－ｎｏｄｅ）（ピーク）と節（ｎｏｄｅ）（ディップ）の両方を引き起こすことがある。これらの定在波の節および腹により、共振周波数のラウドネスは、部屋の異なるロケーションにおいて異なることになる。その上、ルームモードの効果は、浴室、オフィス、および小さい会議室など、小さい部屋において特に顕著であり得る。従来の仮想現実システムは、特定の仮想現実環境に関連することになるルームモードを考慮することができない。従来の仮想現実システムは、概して、環境の物理的モデル化に関係しない低い周波数または芸術的表示（ａｒｔｉｓｔｉｃｒｅｎｄｅｒ）において信頼できない幾何学的音響効果シミュレーションに依拠する。したがって、従来の仮想現実システムによって提示されるオーディオは、仮想現実環境（たとえば、小さい部屋）に関連するリアリズムの感覚が欠如していることがある。

本開示の実施形態は、ルームモードの局所効果を組み込むための音響フィルタを決定するための、方法、コンピュータ可読媒体、および装置をサポートする。いくつかの実施形態では、ターゲットエリア（たとえば、仮想エリア、ユーザの物理的環境など）のモデルが、ターゲットエリアの３次元（３Ｄ）仮想表現に部分的に基づいて決定される。モデルを使用して、ターゲットエリアのルームモードが決定される。ルームモードのうちの少なくとも１つとターゲットエリア内のユーザの位置とに基づいて、１つまたは複数のルームモードパラメータが決定される。１つまたは複数のルームモードパラメータは音響フィルタを表す。音響フィルタは、１つまたは複数のルームモードパラメータに基づいて生成され得る。音響フィルタは、少なくとも１つのルームモードに関連する周波数における音響ひずみをシミュレートする。音響フィルタに部分的に基づいて、オーディオコンテンツが提示される。オーディオコンテンツは、オーディオコンテンツがターゲットエリア中のオブジェクト（たとえば、仮想オブジェクト）から発生するように思われるように、提示される。

本発明によれば、ターゲットエリアの３次元仮想表現に部分的に基づいてターゲットエリアのモデルを決定するように構成されたマッチングモジュールと、モデルを使用してターゲットエリアのルームモードを決定するように構成されたルームモードモジュールと、ルームモードのうちの少なくとも１つのルームモードとターゲットエリア内のユーザの位置とに基づいて１つまたは複数のルームモードパラメータを決定することを行うように構成された音響フィルタモジュールであって、１つまたは複数のルームモードパラメータが、ユーザにオーディオコンテンツを提示するためにヘッドセットによって使用される音響フィルタを表し、音響フィルタが、オーディオコンテンツに適用されたとき、ユーザの位置における、および少なくとも１つのルームモードに関連する周波数における、音響ひずみをシミュレートする、音響フィルタモジュールとを備える、装置が提供される。

随意に、マッチングモジュールは、３次元仮想表現を複数の候補モデルと比較することと、３次元仮想表現にマッチする、複数の候補モデルのうちの１つをターゲットエリアのモデルとして識別することとを行うことによって、ターゲットエリアの３次元再構築に部分的に基づいてターゲットエリアのモデルを決定するように構成される。

随意に、ルームモードモジュールは、モデルの形状に基づいてルームモードを決定することを行うことによって、モデルを使用してターゲットエリアのルームモードを決定するように構成される。

随意に、音響ひずみは、周波数の関数としての増幅を表す。

随意に、音響フィルタモジュールは、ヘッドセットにおいてオーディオコンテンツをレンダリングするために、音響フィルタを表すパラメータをヘッドセットに送信することを行うように構成される。

本発明によれば、ターゲットエリアの３次元仮想表現に部分的に基づいてターゲットエリアのモデルを決定することと、モデルを使用してターゲットエリアのルームモードを決定することと、ルームモードのうちの少なくとも１つとターゲットエリア内のユーザの位置とに基づいて１つまたは複数のルームモードパラメータを決定することであって、１つまたは複数のルームモードパラメータが、ユーザにオーディオコンテンツを提示するためにヘッドセットによって使用される音響フィルタを表し、音響フィルタが、オーディオコンテンツに適用されたとき、ユーザの位置における、および少なくとも１つのルームモードに関連する周波数における、音響ひずみをシミュレートする、１つまたは複数のルームモードパラメータを決定することとを含む、方法がさらに提供される。

随意に、本方法は、ヘッドセットから、ターゲットエリアの少なくとも一部分を表す深度情報を受信することと、深度情報を使用して３次元再構築の少なくとも一部を生成することとをさらに含む。

随意に、ターゲットエリアの３次元再構築に部分的に基づいてターゲットエリアのモデルを決定することは、３次元仮想表現を複数の候補モデルと比較することと、３次元仮想表現にマッチする、複数の候補モデルのうちの１つをターゲットエリアのモデルとして識別することとを含む。

随意に、本方法は、ターゲットエリアの少なくとも一部分のカラー画像データを受信することと、カラー画像データを使用してターゲットエリアの部分における表面の材料組成を決定することと、表面の材料組成に基づいて各表面についての減衰パラメータを決定することと、各表面の減衰パラメータによりモデルを更新することとをさらに含む。

随意に、モデルを使用してターゲットエリアのルームモードを決定することは、モデルの形状に基づいてルームモードを決定することをさらに含む。

随意に、本方法は、ヘッドセットにおいてオーディオコンテンツをレンダリングするために、音響フィルタを表すパラメータをヘッドセットに送信することをさらに含む。

随意に、ターゲットエリアは仮想エリアである。随意に、仮想エリアは、ユーザの物理的環境とは異なる。随意に、ターゲットエリアは、ユーザの物理的環境である。

本発明によれば、１つまたは複数のルームモードパラメータに基づいて音響フィルタを生成することであって、音響フィルタが、ターゲットエリア内のユーザの位置における、およびターゲットエリアの少なくとも１つのルームモードに関連する周波数における、音響ひずみをシミュレートする、音響フィルタを生成することと、音響フィルタを使用することによってユーザにオーディオコンテンツを提示することであって、オーディオコンテンツが、ターゲットエリア中のオブジェクトから発生し、ターゲットエリア内のユーザの位置において受信されているように思われる、オーディオコンテンツを提示することとを含む、方法がまたさらに提供される。

随意に、音響フィルタは、少なくとも１つのルームモードのモーダル周波数（ｍｏｄａｌｆｒｅｑｕｅｎｃｉｅｓ）におけるＱ値または利得を伴う複数の無限インパルス応答フィルタを含む。随意に、音響フィルタは、少なくとも１つのルームモードのモーダル周波数におけるＱ値または利得を伴う複数の全域通過フィルタをさらに含む。

随意に、本方法は、オーディオサーバにルームモードクエリを送ることであって、ルームモードクエリが、ターゲットエリアの仮想情報とユーザのロケーション情報とを含む、ルームモードクエリを送ることと、オーディオサーバから１つまたは複数のルームモードパラメータを受信することとをさらに含む。

随意に、本方法は、少なくとも１つのルームモードとユーザの位置の変化とに基づいて音響フィルタを動的に調整することをさらに含む。

１つまたは複数の実施形態による、部屋におけるルームモードの局所効果を示す図である。１つまたは複数の実施形態による、立方体の部屋の軸モードと、正接モード（ｔａｎｇｅｎｔｉａｌｍｏｄｅ）と、斜交モード（ｏｂｌｉｑｕｅｍｏｄｅ）とを示す図である。１つまたは複数の実施形態による、オーディオシステムのブロック図である。１つまたは複数の実施形態による、オーディオサーバのブロック図である。１つまたは複数の実施形態による、音響フィルタを表すルームモードパラメータを決定するためのプロセスを示すフローチャートである。１つまたは複数の実施形態による、オーディオアセンブリのブロック図である。１つまたは複数の実施形態による、音響フィルタに部分的に基づいてオーディオコンテンツを提示するプロセスを示すフローチャートである。１つまたは複数の実施形態による、ヘッドセットとオーディオサーバとを含むシステム環境のブロック図である。１つまたは複数の実施形態による、オーディオアセンブリを含むヘッドセットの斜視図である。

図は、単に説明の目的で本開示の実施形態を図示する。本明細書で説明される開示の原理またはうたわれている利益から逸脱することなく、本明細書で示される構造および方法の代替実施形態が採用され得ることを、当業者は以下の説明から容易に認識されよう。

本開示の実施形態は、人工現実システムを含むか、または人工現実システムとともに実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ハイブリッド現実、あるいはそれらの何らかの組合せおよび／または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた（たとえば、現実世界の）コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る（観察者に３次元効果をもたらすステレオビデオなど）。さらに、いくつかの実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作成するために使用される、および／または人工現実において別様に使用される（たとえば、人工現実におけるアクティビティを実施する）アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連し得る。人工現実コンテンツを提供する人工現実システムは、ヘッドセット、ホストコンピュータシステムに接続されたヘッドマウントディスプレイ（ＨＭＤ）、スタンドアロンＨＭＤ、ニアアイディスプレイ（ＮＥＤ）、モバイルデバイスまたはコンピューティングシステム、あるいは、１人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。

ルームモードの局所効果を組み込むための音響フィルタの決定のためのオーディオシステムが本明細書で提示される。オーディオアセンブリによって提示されるオーディオコンテンツは、ユーザのターゲットエリアに関連するルームモードによって引き起こされることになる音響ひずみ（たとえば、周波数と位置との関数としての増幅）が、提示されたオーディオコンテンツの一部であり得るように、音響フィルタを使用してフィルタ処理される。本明細書で使用される増幅は、信号強度の増加または減少を表すために使用され得ることに留意されたい。ターゲットエリアは、ユーザによって占有されるローカルエリア、または仮想エリアであり得る。仮想エリアは、ローカルエリア、何らかの他の仮想エリア、またはそれらの何らかの組合せに基づき得る。たとえば、ローカルエリアは、オーディオシステムのユーザによって占有されているリビングルームであり得、仮想エリアは、仮想コンサートスタジアムまたは仮想会議室であり得る。

オーディオシステムは、オーディオサーバに通信可能に結合されたオーディオアセンブリを含む。オーディオアセンブリは、ユーザによって装着されるヘッドセット上に実装され得る。オーディオアセンブリは、１つまたは複数のルームモードパラメータをオーディオサーバに（たとえば、ネットワークを介して）要求し得る。要求は、たとえば、ターゲットエリアの少なくとも一部の視覚情報（深度情報、カラー情報など）、ユーザのロケーション情報、仮想音源のロケーション情報、ユーザによって占有されるローカルエリアの視覚情報、またはそれらの何らかの組合せを含み得る。

オーディオサーバは、１つまたは複数のルームモードパラメータを決定する。オーディオサーバは、要求中の情報を使用してターゲットエリアのモデルを識別および／または生成する。いくつかの実施形態では、オーディオサーバは、要求中のターゲットエリアの視覚情報に基づいてターゲットエリアの少なくとも一部分の３Ｄ仮想表現を展開する。オーディオサーバは、複数の候補モデルからモデルを選択するために３Ｄ仮想表現を使用する。オーディオサーバは、モデルを使用することによってターゲットエリアのルームモードを決定する。たとえば、オーディオサーバは、モデルの形状または次元に基づいてルームモードを決定する。ルームモードは、１つまたは複数のタイプのルームモードを含み得る。ルームモードのタイプは、たとえば、軸モード、正接モード、および斜交モードを含み得る。各タイプについて、ルームモードは、１次モード、より高次のモード、またはそれらの何らかの組合せを含み得る。オーディオサーバは、ルームモードのうちの少なくとも１つとユーザの位置とに基づいて１つまたは複数のルームモードパラメータ（たとえば、Ｑファクタ、利得、振幅、モーダル周波数など）を決定する。オーディオサーバは、ルームモードパラメータを決定するために仮想音源のロケーション情報をも使用し得る。たとえば、オーディオサーバは、ルームモードが喚起（ｅｘｃｉｔｅ）されるか否かを決定するために仮想音源のロケーション情報を使用する。オーディオサーバは、仮想音源が腹位置に位置することに基づいて、ルームモードが喚起されないと決定し得る。

ルームモードパラメータは、オーディオコンテンツに適用されたとき、ターゲットエリア内のユーザの位置における音響ひずみをシミュレートする、音響フィルタを表す。音響ひずみは、少なくとも１つのルームモードに関連する周波数における増幅を表現し得る。オーディオサーバは、ルームモードパラメータのうちの１つまたは複数をヘッドセットに送信する。

オーディオアセンブリは、オーディオサーバからの１つまたは複数のルームモードパラメータを使用して音響フィルタを生成する。オーディオアセンブリは、生成された音響フィルタを使用してオーディオコンテンツを提示する。いくつかの実施形態では、オーディオアセンブリは、ユーザの位置の変化および／またはユーザと仮想オブジェクトとの間の相対位置の変化を動的に検出し、それらの変化に基づいて音響フィルタを更新する。

いくつかの実施形態では、オーディオコンテンツは空間化されたオーディオコンテンツである。空間化されたオーディオコンテンツは、オーディオコンテンツがユーザの周辺の環境中の１つまたは複数のポイントから（たとえば、ターゲットエリア中の仮想オブジェクトから）発生するように思われるような様式で提示される、オーディオコンテンツである。

いくつかの実施形態では、ターゲットエリアは、ユーザのローカルエリアであり得る。たとえば、ターゲットエリアは、ユーザが座るオフィスルームである。ターゲットエリアが実際のオフィスであるので、オーディオアセンブリは、現実の音源がオフィスルーム中の特定のロケーションからどのように聞こえることになるかに従う様式で、提示されたオーディオコンテンツが空間化されることを引き起こす、音響フィルタを生成する。

いくつかの他の実施形態では、ターゲットエリアは、（たとえば、ヘッドセットを介して）ユーザに提示されている仮想エリアである。たとえば、ターゲットエリアは仮想会議室であり得る。ターゲットエリアが仮想会議室であるので、オーディオアセンブリは、現実の音源が仮想会議室中の特定のロケーションからどのように聞こえることになるかに従う様式で、提示されたオーディオコンテンツが空間化されることを引き起こす、音響フィルタを生成する。たとえば、ユーザは仮想コンテンツを提示され得、これにより、仮想コンテンツは、仮想話者がスピーチをするのを見る仮想オーディエンスとともに、ユーザが着座しているかのように思われるようになる。また、音響フィルタによって修正された提示されたオーディオコンテンツにより、オーディオコンテンツは、話者が会議室において話しているかのようにユーザに聞こえるようになり、これは、ユーザが実際は（大きい会議室とは著しく異なる音響特性を有することになる）オフィスルームにいるにもかかわらずである。

図１は、１つまたは複数の実施形態による、部屋１００におけるルームモードの局所効果を示す。音源１０５が、部屋１００中に位置し、部屋１００に音波を放出する。音波は、部屋１００の基本共振を引き起こし、部屋１００においてルームモードが生じる。図１は、部屋の第１のモーダル周波数における１次モード１１０と、第１のモーダル周波数の２倍である第２のモーダル周波数における２次モード１２０とを示す。図１に示されていないが、より高次のルームモードが部屋１００において存在することがある。１次モード１１０と２次モード１２０は両方とも軸モードであり得る。

ルームモードは、部屋１００の形状、次元、および／または音響特性に依存する。ルームモードは、部屋１００内の異なる位置において異なる量の音響ひずみを引き起こす。音響ひずみは、モーダル周波数（およびモーダル周波数の倍数）におけるオーディオ信号の正の増幅（すなわち、振幅の増加）または負の増幅（すなわち、減衰）であり得る。

１次モード１１０と２次モード１２０とは、部屋１００の異なる位置においてピークとディップとを有し、ピークとディップとは、部屋１００内の周波数と位置との関数としての音波の増幅の異なるレベルを引き起こす。図１は、部屋１００内の３つの異なる位置１３０、１４０、および１５０を示す。位置１３０において、１次モード１１０および２次モード１２０は各々ピークを有する。位置１４０に移動すると、１次モード１１０と２次モード１２０の両方が減少し、２次モード１２０はディップを有する。位置１５０にさらに移動すると、１次モード１１０におけるヌルと２次モード１２０におけるピークとがある。１次モード１１０の効果と２次モード１２０の効果とを組み合わせると、オーディオ信号の増幅は、位置１３０において最も高く、位置１５０において最も低い。したがって、ユーザによって知覚される音は、ユーザがどんな部屋にいるか、および、ユーザがその部屋の中のどこにいるかに基づいて、劇的に変動することがある。以下で説明されるように、ユーザによって占有されるターゲットエリアについてのルームモードをシミュレートし、追加されたレベルのリアリズムをユーザに提供するためにルームモードを考慮に入れてユーザにオーディオコンテンツを提示する、システムが説明される。

図２は、１つまたは複数の実施形態による、立方体の部屋の軸モード２１０と、正接モード２２０と、斜交モード２３０とを示す。ルームモードは、様々な部屋表面から反射する音によって引き起こされる。図２中の部屋は、立方体の形状を有し、６つの表面、すなわち、４つの壁と、１つの天井と、１つの床とを含む。部屋において３つのタイプのモード、すなわち、軸モード２１０と、正接モード２２０と、斜交モード２３０とがあり、それらのモードは、図２では破線によって表現される。軸モード２１０は、部屋の２つの平行な表面間の共振を伴う。３つの軸モード２１０が部屋において生じ、１つは、天井と床とを伴い、他の２つは、各々、平行な壁のペアを伴う。他の形状の部屋では、異なる数の軸モード２１０が生じ得る。正接モード２２０は、平行な表面の２つのセット、すなわち、すべての４つの壁、または、天井と床とをもつ２つの壁を伴う。斜交ルームモード２３０は、部屋のすべての６つの表面を伴う。

軸ルームモード２１０は、３つのタイプのモードのうちで最も強い。正接ルームモード２２０は、軸ルームモード２１０の半分の強さであり得、斜交ルームモード２３０は、軸ルームモード２１０の１／４の強さであり得る。いくつかの実施形態では、オーディオコンテンツに適用されたとき、部屋における音響ひずみをシミュレートする音響フィルタが、軸ルームモード２１０に基づいて決定される。いくつかの他の実施形態では、正接ルームモード２２０および／または斜交ルームモード２３０も、音響フィルタを決定するために使用される。軸ルームモード２１０、正接ルームモード２２０、および斜交ルームモード２３０の各々は、一連のモーダル周波数において生じることがある。３つのタイプのルームモードのモーダル周波数は異なり得る。

図３は、１つまたは複数の実施形態による、オーディオシステム３００のブロック図である。オーディオシステム３００は、ネットワーク３３０を介してオーディオサーバ３２０に接続されたヘッドセット３１０を含む。ヘッドセット３１０は、部屋３５０中のユーザ３４０によって装着され得る。

ネットワーク３３０は、ヘッドセット３１０をオーディオサーバ３２０に接続する。ネットワーク３３０は、ワイヤレス通信システムおよび／またはワイヤード通信システムの両方を使用する、ターゲットエリアネットワークおよび／またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク３３０は、インターネット、ならびに携帯電話網を含み得る。一実施形態では、ネットワーク３３０は、標準通信技術および／またはプロトコルを使用する。したがって、ネットワーク３３０は、イーサネット、８０２．１１、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス（ＷｉＭＡＸ）、２Ｇ／３Ｇ／４Ｇモバイル通信プロトコル、デジタル加入者回線（ＤＳＬ）、非同期転送モード（ＡＴＭ）、ＩｎｆｉｎｉＢａｎｄ、ＰＣＩＥｘｐｒｅｓｓアドバンストスイッチングなどの技術を使用するリンクを含み得る。同様に、ネットワーク３３０上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング（ＭＰＬＳ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキストトランスポートプロトコル（ＨＴＴＰ）、簡易メール転送プロトコル（ＳＭＴＰ）、ファイル転送プロトコル（ＦＴＰ）などを含むことができる。ネットワーク３３０を介して交換されるデータは、２進形式（たとえばポータブルネットワークグラフィックス（ＰＮＧ））の画像データ、ハイパーテキストマークアップ言語（ＨＴＭＬ）、拡張可能マークアップ言語（ＸＭＬ）などを含む、技術および／またはフォーマットを使用して表現され得る。さらに、リンクの全部または一部は、セキュアソケットレイヤ（ＳＳＬ）、トランスポートレイヤセキュリティ（ＴＬＳ）、仮想プライベートネットワーク（ＶＰＮ）、インターネットプロトコルセキュリティ（ＩＰｓｅｃ）など、従来の暗号化技術を使用して暗号化され得る。ネットワーク３３０はまた、同じまたは異なる部屋中に位置する複数のヘッドセットを同じオーディオサーバ３２０に接続し得る。

ヘッドセット３１０は、ユーザにメディアコンテンツを提示する。一実施形態では、ヘッドセット３１０は、たとえば、ＮＥＤまたはＨＭＤであり得る。概して、ヘッドセット３１０は、メディアコンテンツが、ヘッドセット３１０の一方または両方のレンズを使用して提示されるように、ユーザの顔に装着され得る。しかしながら、ヘッドセット３１０はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット３１０によって提示されるメディアコンテンツの例は、１つまたは複数の画像、ビデオコンテンツ、オーディオコンテンツ、またはそれらの何らかの組合せを含む。ヘッドセット３１０は、オーディオアセンブリを含み、少なくとも１つの深度カメラアセンブリ（ＤＣＡ）および／または少なくとも１つのパッシブカメラアセンブリ（ＰＣＡ）をも含み得る。図８に関して以下で詳細に説明されるように、ＤＣＡは、ターゲットエリア（たとえば、部屋３５０）の一部または全部についての３Ｄジオメトリを表す深度画像データを生成し、ＰＣＡは、ターゲットエリアの一部または全部についてのカラー画像データを生成する。いくつかの実施形態では、ヘッドセット３１０のＤＣＡおよびＰＣＡは、部屋３５０の視覚情報を決定するためにヘッドセット３１０上に取り付けられた同時位置特定およびマッピング（ＳＬＡＭ）センサーの一部である。したがって、少なくとも１つのＤＣＡによってキャプチャされた深度画像データおよび／または少なくとも１つのＰＣＡによってキャプチャされたカラー画像データは、ヘッドセット３１０のＳＬＡＭセンサーによって決定された視覚情報と呼ばれることがある。さらに、ヘッドセット３１０は、ターゲットエリア内のヘッドセット３１０の位置（たとえば、ロケーションおよび姿勢）を追跡する位置センサーまたは慣性測定ユニット（ＩＭＵ）を含み得る。ヘッドセット３１０は、ターゲットエリア内のヘッドセット３１０のロケーションをさらに追跡するための全地球測位システム（ＧＰＳ）受信機をも含み得る。ターゲットエリア内のヘッドセット３１０の位置（配向を含む）は、ヘッドセット３１０のロケーション情報と呼ばれる。ヘッドセットのロケーション情報は、ヘッドセット３１０のユーザ３４０の位置を指示し得る。

オーディオアセンブリは、ユーザ３４０にオーディオコンテンツを提示する。オーディオコンテンツは、オーディオコンテンツがターゲットエリア中のオブジェクト（現実のまたはオブジェクト）から発生するように思われるような様式で提示され、空間化されたオーディオコンテンツとしても知られ得る。ターゲットエリアは、部屋３５０など、ユーザの物理的環境、または仮想エリアであり得る。たとえば、オーディオアセンブリによって提示されるオーディオコンテンツは、仮想会議室中の仮想話者から発生するように思われ得る（これは、ヘッドセット３１０を介してユーザ３４０に提示されている）。いくつかの実施形態では、ターゲットエリア内のユーザ３４０の位置に関連するルームモードの局所効果がオーディオコンテンツに組み込まれる。ルームモードの局所効果は、ターゲットエリア内のユーザ３４０の位置において生じる（特定の周波数の）音響ひずみによって表現される。音響ひずみは、ターゲットエリア中のユーザの位置が変化するにつれて、変化し得る。いくつかの実施形態では、ターゲットエリアは部屋３５０である。いくつかの他の実施形態では、ターゲットエリアは仮想エリアである。仮想エリアは、部屋３５０とは異なる現実の部屋に基づき得る。たとえば、部屋３５０はオフィスである。ターゲットエリアは、会議室に基づく仮想エリアである。オーディオアセンブリによって提示されるオーディオコンテンツは、会議室中に位置する話者からのスピーチであり得る。会議室内の位置が、ターゲットエリア内のユーザの位置に対応する。オーディオコンテンツは、オーディオコンテンツが、会議室の話者から発生し、会議室内の位置において受信されているように思われるように、レンダリングされる。

オーディオアセンブリは、ルームモードの局所効果を組み込むために音響フィルタを使用する。オーディオアセンブリは、オーディオサーバ３２０にルームモードクエリを送ることによって音響フィルタを要求する。ルームモードクエリは、１つまたは複数のルームモードパラメータについての要求であり、１つまたは複数のルームモードパラメータに基づいて、オーディオアセンブリは、オーディオコンテンツに適用されたとき、ルームモードによって引き起こされることになる音響ひずみ（たとえば、周波数と位置との関数としての増幅）をシミュレートする、音響フィルタを生成することができる。ルームモードクエリは、ターゲットエリア（たとえば、部屋３５０または仮想エリア）の一部または全部を表す視覚情報、ユーザのロケーション情報、オーディオコンテンツの情報、またはそれらの何らかの組合せを含み得る。視覚情報は、ターゲットエリアの一部または全部の３Ｄジオメトリを表し、ターゲットエリアの一部または全部のカラー画像データをも含み得る。いくつかの実施形態では、ターゲットエリアの視覚情報は、（たとえば、ターゲットエリアが部屋３５０である実施形態において）ヘッドセット３１０および／または異なるデバイスによってキャプチャされ得る。ユーザのロケーション情報は、ターゲットエリア内のユーザ３４０の位置を指示し、ヘッドセット３１０のロケーション情報、またはユーザ３４０の位置を表す情報を含み得る。オーディオコンテンツの情報は、たとえば、オーディオコンテンツの仮想音源のロケーションを表す情報を含む。オーディオコンテンツの仮想音源は、ターゲットエリア中の現実オブジェクトおよび／または仮想オブジェクトであり得る。ヘッドセット３１０は、ネットワーク３３０を介してオーディオサーバ３２０にルームモードクエリを通信し得る。

いくつかの実施形態では、ヘッドセット３１０は、オーディオサーバ３２０から、音響フィルタを表す１つまたは複数のルームモードパラメータを取得する。ルームモードパラメータは、オーディオコンテンツに適用されたとき、ターゲットエリアにおける１つまたは複数のルームモードによって引き起こされる音響ひずみをシミュレートする、音響フィルタを表すパラメータである。ルームモードパラメータは、ルームモードのＱファクタ、利得、振幅、モーダル周波数、音響フィルタを表す他の特徴、またはそれらの何らかの組合せを含む。ヘッドセット３１０は、オーディオコンテンツをレンダリングするためのフィルタを生成するために、ルームモードパラメータを使用する。たとえば、ヘッドセット３１０は、無限インパルス応答フィルタおよび／または全域通過フィルタを生成する。無限インパルス応答フィルタおよび／または全域通過フィルタは、各モーダル周波数に対応するＱ値および利得を含む。ヘッドセット３１０の動作および構成要素に関する追加の詳細は、図４、図８、および図９に関して以下で説明される。

オーディオサーバ３２０は、ヘッドセット３１０から受信されたルームモードクエリに基づいて１つまたは複数のルームモードパラメータを決定する。オーディオサーバ３２０は、ターゲットエリアのモデルを決定する。いくつかの実施形態では、オーディオサーバ３２０は、ターゲットエリアの視覚情報に基づいてモデルを決定する。たとえば、オーディオサーバ３２０は、視覚情報に基づいてターゲットエリアの少なくとも一部分の３Ｄ仮想表現を取得する。オーディオサーバ３２０は、３Ｄ仮想表現を候補モデルのグループと比較し、３Ｄ仮想表現にマッチする候補モデルをモデルとして識別する。いくつかの実施形態では、候補モデルは、部屋の形状、部屋の１つまたは複数の次元、または部屋内の表面の材料音響パラメータ（たとえば、減衰パラメータ）を含む、部屋のモデルである。候補モデルのグループは、異なる形状、異なる次元、および異なる表面を有する、部屋のモデルを含むことができる。ターゲットエリアの３Ｄ仮想表現は、ターゲットエリアの形状および／または次元を定義する、ターゲットエリアの３Ｄメッシュを含む。３Ｄ仮想表現は、ターゲットエリア内の表面の音響特性を表すために１つまたは複数の材料音響パラメータ（たとえば、減衰パラメータ）を使用し得る。オーディオサーバ３２０は、候補モデルと３Ｄ仮想表現との間の差がしきい値を下回るという決定に基づいて、候補モデルが３Ｄ仮想表現にマッチすると決定する。差は、表面の形状、次元、音響特性などの差を含み得る。いくつかの実施形態では、オーディオサーバ３２０は、候補モデルと３Ｄ仮想表現との間の差を決定するために、適合メトリック（ｆｉｔｍｅｔｒｉｃ）を使用する。適合メトリックは、ハウスドルフ距離（Ｈａｕｓｄｏｒｆｆｄｉｓｔａｎｃｅ）の２乗誤差、開放性（たとえば屋内対屋外）、ボリュームなど、１つまたは複数の幾何学的特徴に基づき得る。しきい値は、ルームモード変化の知覚的丁度可知差（ＪＮＤ：ｊｕｓｔｎｏｔｉｃｅａｂｌｅｄｉｆｆｅｒｅｎｃｅ）に基づき得る。たとえば、ユーザがモーダル周波数の１０％の変化を検出することができる場合、最高１０％のモーダル周波数変化を生じることになる幾何学的偏差が許容されることになる。しきい値は、１０％のモーダル周波数変化を生じることになる幾何学的偏差であり得る。

オーディオサーバ３２０は、モデルを使用してターゲットエリアのルームモードを決定する。たとえば、オーディオサーバ３２０は、ルームモードを決定するために、数値シミュレーション技法（たとえば、有限要素法、境界要素法、有限差分時間領域法など）など、従来の技法を使用する。いくつかの実施形態では、オーディオサーバ３００は、ルームモードを決定するためのモデルの形状、次元、および／または材料音響パラメータに基づいて、ルームモードを決定する。ルームモードは、軸モード、正接モード、および斜交モードのうちの１つまたは複数を含み得る。いくつかの実施形態では、オーディオサーバ３２０は、ユーザの位置に基づいてルームモードを決定する。たとえば、オーディオサーバ３２０は、ユーザの位置に基づいてターゲットエリアを識別し、識別に基づいてターゲットエリアのルームモードを取り出す。

オーディオサーバ３３０は、ルームモードのうちの少なくとも１つとターゲットエリア内のユーザの位置とに基づいて、１つまたは複数のルームモードパラメータを決定する。ルームモードパラメータは、オーディオコンテンツに適用されたとき、少なくとも１つのルームモードに関連する周波数について、ターゲットエリア内のユーザの位置において生じる音響ひずみをシミュレートする、音響フィルタを表す。オーディオサーバ３２０は、オーディオコンテンツをレンダリングするために、ルームモードパラメータをヘッドセット３１０に送信する。いくつかの実施形態では、オーディオサーバ３３０は、ルームモードパラメータに基づいて音響フィルタを生成し得、音響フィルタをヘッドセット３１０に送信する。

図４は、１つまたは複数の実施形態による、オーディオサーバ４００のブロック図である。オーディオサーバ４００の一実施形態がオーディオサーバ３００である。オーディオサーバ４００は、オーディオアセンブリからのルームモードクエリに応答して、ターゲットエリアの１つまたは複数のルームモードパラメータを決定する。オーディオサーバ４００は、データベース４１０と、マッピングモジュール４２０と、マッチングモジュール４３０と、ルームモードモジュール４４０と、音響フィルタモジュール４５０とを含む。他の実施形態では、オーディオサーバ４００は、任意の追加のモジュールとともにリストされたモジュールの任意の組合せを有することができる。オーディオサーバ４００の１つまたは複数のプロセッサ（図示せず）が、オーディオサーバ４００内のモジュールの一部または全部を稼働し得る。

データベース４１０は、オーディオサーバ４００のためのデータを記憶する。記憶されたデータは、仮想モデル、候補モデル、ルームモード、ルームモードパラメータ、音響フィルタ、オーディオデータ、視覚情報（深度情報、カラー情報など）、ルームモードクエリ、オーディオサーバ４００によって使用され得る他の情報、またはそれらの何らかの組合せを含み得る。

仮想モデルは、１つまたは複数のエリアと、それらのエリアの音響特性（たとえば、ルームモード）とを表す。仮想モデル中の各ロケーションが、対応するエリアについての音響特性（たとえば、ルームモード）に関連する。音響特性が仮想モデル中に表されるエリアは、仮想エリア、物理的エリア、またはそれらの何らかの組合せを含む。物理的エリアは、仮想エリアとは対照的な、現実のエリア（たとえば、実際の物理的部屋）である。物理的エリアの例は、会議室、浴室、廊下、オフィス、ベッドルーム、ダイニングルーム、屋外スペース（たとえば、パティオ、庭園、公園など）、リビングルーム、オーディトリアム、何らかの他の現実のエリア、またはそれらの何らかの組合せを含む。仮想エリアは、完全に架空であり、および／または現実の物理的エリアに基づき得る（たとえば、物理的部屋を仮想エリアとしてレンダリングする）、スペースを表す。たとえば、仮想エリアは、架空化された地下牢、仮想会議室のレンダリングなどであり得る。仮想エリアは現実の場所に基づき得ることに留意されたい。たとえば、仮想会議室は、現実の会議場に基づき得る。仮想モデル中の特定のロケーションは、部屋３５０内のヘッドセット３１０の現在の物理的ロケーションに対応し得る。部屋３５０の音響特性は、マッピングモジュール４２０から取得された仮想モデル内のロケーションに基づいて、仮想モデルから取り出され得る。

ルームモードクエリは、ターゲットエリア内のユーザの位置について、ターゲットエリアのルームモードの効果を組み込むために使用される音響フィルタを表す、ルームモードパラメータについての要求である。ルームモードクエリは、ターゲットエリア情報、ユーザ情報、オーディオコンテンツ情報、オーディオサーバ３２０が音響フィルタを決定するために使用することができる何らかの他の情報、またはそれらの何らかの組合せを含む。ターゲットエリア情報は、ターゲットエリアを表す情報（たとえば、ターゲットエリアのジオメトリ、ターゲットエリア内のオブジェクト、材料、カラーなど）である。ターゲットエリア情報は、ターゲットエリアの深度画像データ、ターゲットエリアのカラー画像データ、またはそれらの何らかの組合せを含み得る。ユーザ情報は、ユーザを表す情報である。ユーザ情報は、ターゲットエリア内のユーザの位置を表す情報、ユーザが物理的に位置する物理的エリアの情報、またはそれらの何らかの組合せを含み得る。オーディオコンテンツ情報は、オーディオコンテンツを表す情報である。オーディオコンテンツ情報は、オーディオコンテンツの仮想音源のロケーション情報、オーディオコンテンツの物理的音源のロケーション情報、またはそれらの何らかの組合せを含み得る。

候補モデルは、異なる形状および／または次元を有する、部屋のモデルであり得る。オーディオサーバ４００は、ターゲットエリアのモデルを決定するために候補モデルを使用する。

マッピングモジュール４２０は、ルームモードクエリ中の情報を仮想モデル内のロケーションにマッピングする。マッピングモジュール４２０は、ターゲットエリアに対応する仮想モデル内のロケーションを決定する。いくつかの実施形態では、マッピングモジュール４２０は、（ｉ）ターゲットエリアの情報および／またはユーザの位置の情報と、（ｉｉ）仮想モデル内のエリアの対応する構成との間のマッピングを識別するために、仮想モデルを検索する。仮想モデル内のエリアは、物理的エリアおよび／または仮想エリアを表し得る。一実施形態では、マッピングは、ターゲットエリアの視覚情報のジオメトリを、仮想モデル内のロケーションに関連するジオメトリとマッチングすることによって実施される。別の実施形態では、マッピングは、ユーザの位置の情報を仮想モデル内のロケーションとマッチングすることによって実施される。たとえば、ターゲットエリアが仮想エリアである実施形態では、マッピングモジュール４２０は、ユーザの位置を指示する情報に基づいて、仮想モデル中の仮想エリアに関連するロケーションを識別する。マッチは、仮想モデル内のロケーションがターゲットエリアの表現であることを示唆する。

マッチが見つけられた場合、マッピングモジュール４２０は、仮想モデル内のロケーションに関連するルームモードを取り出し、ルームモードパラメータを決定するためにルームモードを音響フィルタモジュール４５０に送る。いくつかの実施形態では、仮想モデルは、ターゲットエリアにマッチする仮想モデル内のロケーションに関連するルームモードを含まないが、ロケーションに関連する候補モデルを含む。マッピングモジュール４２０は、候補モデルを取り出し得、ターゲットエリアのルームモードを決定するために候補モデルをルームモードモジュール４４０に送る。いくつかの実施形態では、仮想モデルは、ターゲットエリアにマッチする仮想モデル内のロケーションに関連する、ルームモードまたは候補モデルを含まない。マッピングモジュール４２０は、ロケーションの３Ｄ表現を取り出し得、ターゲットエリアのモデルを決定するためにその３Ｄ表現をマッチングモジュール４４０に送る。

マッチが見つけられない場合、これは、ターゲットエリアの構成が仮想モデルによってまだ表されていないという指示である。そのような場合、マッピングモジュール４２０は、ルームモードクエリ中の視覚情報に基づいてターゲットエリアの３Ｄ仮想表現を展開し、３Ｄ仮想表現により仮想モデルを更新し得る。ターゲットエリアの３Ｄ仮想表現は、ターゲットエリアの３Ｄメッシュを含み得る。３Ｄメッシュは、ターゲットエリアの境界を表現するポイントおよび／またはラインを含む。３Ｄ仮想表現は、壁、天井、床、家具の表面、器具の表面、他のタイプのオブジェクトの表面など、ターゲットエリア内の表面の仮想表現をも含み得る。いくつかの実施形態では、仮想モデルは、仮想エリア内の表面の音響特性を表すために１つまたは複数の材料音響パラメータ（たとえば、減衰パラメータ）を使用する。いくつかの実施形態では、マッピングモジュール４２０は、３Ｄ仮想表現を含み、仮想エリア内の表面の音響特性を表すために１つまたは複数の材料音響パラメータを使用する、新しいモデルを展開し得る。新しいモデルはデータベース４１０中に保存され得る。

マッピングモジュール４２０はまた、マッチングモジュール４３０とルームモードモジュール４４０とのうちの少なくとも１つに、マッチが見つけられないことを知らせ得、したがって、マッチングモジュール４３０は、ターゲットエリアのモデルを決定することができ、ルームモードモジュール４４０は、モデルを使用することによってターゲットエリアのルームモードを決定することができる。

いくつかの実施形態では、マッピングモジュール４２０は、ユーザが物理的に位置するローカルエリア（たとえば、部屋３５０）に対応する、仮想モデル内のロケーションをも決定し得る。

ターゲットエリアは、ローカルエリアとは異なり得る。たとえば、ローカルエリアは、ユーザが座るオフィスルームであるが、ターゲットエリアは仮想エリア（たとえば、仮想会議室）である。

マッチが見つけられた場合、マッピングモジュール４２０は、ターゲットエリアに対応する仮想モデル内のロケーションに関連するルームモードを取り出し、ルームモードパラメータを決定するためにルームモードを音響フィルタモジュール４５０に送る。マッチが見つけられない場合、マッピングモジュール４２０は、ルームモードクエリ中の視覚情報に基づいてターゲットエリアの３Ｄ仮想表現を展開し、ターゲットエリアの３Ｄ仮想表現により仮想モデルを更新し得る。マッピングモジュール４２０はまた、マッチングモジュール４３０とルームモードモジュール４４０とのうちの少なくとも１つに、マッチが見つけられないことを知らせ得、したがって、マッチングモジュール４３０は、ターゲットエリアのモデルを決定することができ、ルームモードモジュール４４０は、モデルを使用することによってターゲットエリアのルームモードを決定することができる。

マッチングモジュール４３０は、ターゲットエリアの３Ｄ仮想表現に基づいてターゲットエリアのモデルを決定する。一例としてターゲットエリアをとると、いくつかの実施形態では、マッチングモジュール４３０は、複数の候補モデルからモデルを選択する。候補モデルは、形状、次元、または部屋内の表面に関する情報を含む、部屋のモデルであり得る。候補モデルのグループは、異なる形状（たとえば、正方形、円、三角形など）と、異なる次元（たとえば、靴箱、大きい会議室など）と、異なる表面とを有する部屋のモデルを含むことができる。マッチングモジュール４３０は、ターゲットエリアの３Ｄ仮想表現を各候補モデルと比較し、候補モデルが３Ｄ仮想表現にマッチするかどうかを決定する。マッチングモジュール４３０は、候補モデルと３Ｄ仮想表現との間の差がしきい値を下回るという決定に基づいて、候補モデルが３Ｄ仮想表現にマッチすると決定する。差は、表面の形状、次元、音響特性などの差を含み得る。いくつかの実施形態では、マッチングモジュール４３０は、３Ｄ仮想表現が複数の候補モデルにマッチすると決定し得る。マッチングモジュール４３０は、最良のマッチを伴う候補モデル、すなわち、３Ｄ仮想表現との最小差を有する候補モデルを選択する。

いくつかの実施形態では、マッチングモジュール４３０は、候補モデルの形状と、３Ｄ仮想表現中に含まれる３Ｄメッシュの形状とを比較する。たとえば、マッチングモジュール４３０は、３Ｄメッシュターゲットエリアの中心からいくつかの方向において光線を追跡し、３Ｄメッシュが算出する、光線が交差するポイントを決定する。マッチングモジュール４３０は、これらのポイントにマッチする候補モデルを識別する。マッチングモジュール４３０は、比較から、候補モデルのサイズとターゲットエリアのサイズとの差を除外するために、候補モデルを縮小または拡大し得る。

ルームモードモジュール４４０は、ターゲットエリアのモデルを使用してターゲットエリアのルームモードを決定する。ルームモードは、３つのタイプのルームモード、すなわち、軸モード、正接モード、および斜交モードのうちの少なくとも１つを含み得る。いくつかの実施形態では、各タイプのルームモードについて、ルームモードモジュール４４０は、１次モードを決定し、より高次のモードをも決定し得る。ルームモードモジュール４４０は、モデルの形状および／または次元に基づいてルームモードを決定する。たとえば、モデルが矩形均質形状を有する実施形態では、ルームモードモジュール４４０は、モデルの軸モード、正接モード、および斜交モードを決定する。いくつかの実施形態では、ルームモードモジュール４４０は、聴覚のまたは再生可能な周波数範囲中のより低い周波数（たとえば、６３Ｈｚ）から、ターゲットエリアのシュレーダー周波数（Ｓｃｈｒｏｅｄｅｒｆｒｅｑｕｅｎｃｙ）までの範囲に入る、ルームモードを計算するためにモデルの次元を使用する。ターゲットエリアのシュレーダー周波数は、ルームモードが、周波数においてあまりに密に重複しすぎて、個々に区別可能でない、周波数であり得る。ルームモードモジュール４４０は、ターゲットエリアのボリュームおよびターゲットエリアの残響時間（たとえば、ＲＴ６０）に基づいてシュレーダー周波数を決定し得る。ルームモードモジュール４４０は、ルームモードを決定するために、たとえば、（有限要素法、境界要素法、有限差分時間領域法などの）数値シミュレーション技法を使用し得る。

いくつかの実施形態では、ルームモードモジュール４４０は、ルームモードを決定するためにターゲットエリアの３Ｄ仮想表現内の表面の（減衰パラメータなどの）材料音響パラメータを使用する。たとえば、ルームモードモジュール４４０は、ターゲットエリアのカラー画像データを使用して表面の材料組成を決定する。ルームモードモジュール４４０は、表面の材料組成に基づいて各表面についての減衰パラメータを決定し、その材料組成および減衰パラメータによりモデルを更新する。

一実施形態では、ルームモードモジュール４４０は、表面の材料組成を決定するために機械学習技法を使用する。初期化モジュール２３０が、ターゲットエリアの画像データ（または、表面に関係する画像データの一部）および／またはオーディオデータを機械学習モデルに入力することができ、機械学習モデルは、各表面の材料組成を出力する。機械学習モデルは、線形サポートベクターマシン（線形ＳＶＭ）、他のアルゴリズムのブースティング（たとえば、ＡｄａＢｏｏｓｔ）、ニューラルネットワーク、ロジスティック回帰、単純ベイズ、メモリベース学習、ランダムフォレスト、バッグツリー、判定ツリー、ブーストツリー、またはブーストスタンプなど、異なる機械学習技法を用いてトレーニングされ得る。機械学習モデルのトレーニングの一部として、トレーニングセットが形成される。トレーニングセットは、表面のグループの画像データおよび／またはオーディオデータと、そのグループ中の表面の材料組成とを含む。

各ルームモードまたは複数のルームモードの組合せについて、ルームモードモジュール４４０は、周波数と位置との関数としての増幅を決定する。増幅は、（１つまたは複数の）対応するルームモードによって引き起こされる信号強度の増加または減少を含む。

音響フィルタモジュール４５０は、ルームモードのうちの少なくとも１つとターゲットエリア内のユーザの位置とに基づいて、ターゲットエリアの１つまたは複数のルームモードパラメータを決定する。いくつかの実施形態では、音響フィルタモジュール４５０は、周波数とターゲットエリア内の位置（たとえば、ユーザの位置）との関数としての増幅に基づいて、ルームモードパラメータを決定する。ルームモードパラメータは、ユーザの位置においてルームモードのうちの少なくとも１つによって引き起こされる音響ひずみを表す。いくつかの実施形態では、音響フィルタモジュール４５０はまた、音響ひずみを決定するためにオーディオコンテンツの音源の位置を使用する。

いくつかの実施形態では、オーディオコンテンツは、ヘッドセットの外部にある１つまたは複数のスピーカーによってレンダリングされる。音響フィルタモジュール４５０は、ユーザのローカルエリアの１つまたは複数のルームモードパラメータを決定する。いくつかの実施形態では、ターゲットエリアは、ローカルエリアとは異なる。たとえば、ユーザのローカルエリアは、ユーザが座るオフィスルームであり、ターゲットエリアは、仮想音源（たとえば、話者）を含む仮想会議室である。ローカルエリアのルームモードパラメータは、ヘッドセットの外部の（たとえば、コンソール上のまたはコンソールに結合された）スピーカーからのオーディオコンテンツをレンダリングするために使用され得る、ローカルエリアの音響フィルタを表す。ローカルエリアの音響フィルタは、ローカルエリア中のユーザの位置においてローカルエリアのルームモードを緩和する。いくつかの実施形態では、音響フィルタモジュール４５０は、ルームモードモジュール４４０によって決定されたローカルエリアの１つまたは複数のルームモードに基づいて、ローカルエリアのルームモードパラメータを決定する。ローカルエリアのルームモードは、マッピングモジュール４２０またはマッチングモジュール４３０のいずれかによって決定されたローカルエリアのモデルに基づいて、決定され得る。

図５は、１つまたは複数の実施形態による、音響フィルタを表すルームモードパラメータを決定するためのプロセス５００を示すフローチャートである。図５のプロセス５００は、装置、たとえば、図４のオーディオサーバ４００の構成要素によって実施され得る。他の実施形態では、他のエンティティ（たとえば、ヘッドセットおよび／またはコンソールの部分）が、プロセスのステップの一部または全部を実施し得る。同様に、実施形態は、異なるおよび／または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。

オーディオサーバ４００は、５１０において、ターゲットエリアの３Ｄ仮想表現に部分的に基づいてターゲットエリアのモデルを決定する。ターゲットエリアは、ローカルエリアまたは仮想エリアであり得る。仮想エリアは現実の部屋に基づき得る。いくつかの実施形態では、オーディオサーバ５１０は、ターゲットエリア内のユーザの位置に基づいてデータベースからモデルを取り出すことによって、モデルを決定する。たとえば、データベースは、１つまたは複数のエリアを表す仮想モデルを記憶し、それらのエリアのモデルを含む。各エリアは、仮想モデル内のロケーションに対応する。エリアは、仮想エリア、物理的エリア、またはそれらの何らかの組合せを含む。オーディオサーバ４００は、たとえば、ターゲットエリア内のユーザの位置に基づいて、仮想モデル中のターゲットエリアに関連するロケーションを識別することができる。オーディオサーバ４００は、識別されたロケーションに関連するモデルを取り出す。他のいくつかの実施形態では、オーディオサーバ４００は、たとえば、ヘッドセットから、ターゲットエリアの少なくとも一部分を表す深度情報を受信する。いくつかの実施形態では、オーディオサーバ４００は、深度情報を使用して３Ｄ仮想表現の少なくとも一部を生成する。オーディオサーバ４００は、３Ｄ仮想表現を複数の候補モデルと比較する。オーディオサーバ４００は、３次元仮想表現にマッチする、複数の候補モデルのうちの１つをターゲットエリアのモデルとして識別する。いくつかの実施形態では、オーディオサーバ４００は、候補モデルの形状と３Ｄ仮想表現の形状との間の差がしきい値を下回るという決定に基づいて、候補モデルが３次元仮想表現にマッチすると決定する。オーディオサーバ４００は、比較中に、候補モデルの次元と３Ｄ仮想表現の次元との差をなくすために、候補モデルを縮小または拡大し得る。いくつかの実施形態では、オーディオサーバ４００は、３Ｄ仮想表現中の各表面についての減衰パラメータを決定し、その減衰パラメータによりモデルを更新する。

オーディオサーバ４００は、５２０において、モデルを使用してターゲットエリアのルームモードを決定する。いくつかの実施形態では、オーディオサーバ３２０は、モデルの形状に基づいてルームモードを決定する。ルームモードは、従来の技法を使用して計算され得る。オーディオサーバ４００はまた、ルームモードを決定するために３Ｄ仮想表現における表面のモデルの次元および／または減衰パラメータを使用することができる。ルームモードは、軸モード、正接モード、または斜交モードを含み得る。いくつかの実施形態では、ルームモードは、可聴周波数範囲のより低い周波数（たとえば、６３Ｈｚ）からターゲットエリアのシュレーダー周波数までの範囲に入る。ルームモードは、ターゲットエリア内の位置の関数としての、特定の周波数における音の増幅を表す。オーディオサーバ４００は、複数のルームモードの組合せに対応する増幅を決定し得る。

オーディオサーバ４００は、５３０において、ルームモードのうちの少なくとも１つとターゲットエリア内のユーザの位置とに基づいて、１つまたは複数のルームモードパラメータ（たとえば、Ｑファクタなど）を決定する。ルームモードは、周波数と位置との関数としての、信号強度の増幅によって表現される。いくつかの実施形態では、オーディオサーバ４００は、周波数と位置との関数としての増幅をより十分に表すために、２つ以上のルームモードに関連する増幅を組み合わせる。オーディオサーバ４００は、ユーザの位置における周波数の関数としての増幅を決定する。増幅とユーザの位置における周波数との関数に基づいて、オーディオサーバ４００はルームモードパラメータを決定する。ルームモードパラメータは、オーディオコンテンツに適用されたとき、少なくとも１つのルームモードに関連する周波数における、ユーザの位置における、音響ひずみをシミュレートする、音響フィルタを表す。いくつかの実施形態では、少なくとも１つのルームモードは１次軸モードである。いくつかの実施形態では、オーディオサーバ３２０は、ターゲットエリア内のユーザの位置における少なくとも１つのルームモードに対応する増幅に基づいて、１つまたは複数のルームモードパラメータを決定する。音響フィルタは、オーディオコンテンツをユーザに提示するためにヘッドセットによって使用され得る。

図６は、１つまたは複数の実施形態による、オーディオアセンブリ６００のブロック図である。オーディオアセンブリ６００の一部または全部は、ヘッドセット（たとえば、ヘッドセット３１０）の一部であり得る。オーディオアセンブリ６００は、スピーカーアセンブリ６１０と、マイクロフォンアセンブリ６２０と、オーディオコントローラ６３０とを含む。一実施形態では、オーディオアセンブリ６００は、たとえば、オーディオアセンブリ６００の異なる構成要素の動作を制御するための入力インターフェース（図６に図示せず）をさらに備える。他の実施形態では、オーディオアセンブリ６００は、任意の追加の構成要素とともにリストされた構成要素の任意の組合せを有することができる。いくつかの実施形態では、オーディオサーバ４００の機能のうちの１つまたは複数がオーディオアセンブリ６００によって実施され得る。

スピーカーアセンブリ６１０は、たとえば、オーディオコントローラ６３０からのオーディオ命令に基づいてユーザの耳のために音を作り出す。いくつかの実施形態では、スピーカーアセンブリ６１０は、たとえば、オーディオコントローラ６３０からのオーディオ命令に従って、ユーザの耳において空気伝搬音響圧力波を生成することによって音を作り出す、空気伝導トランスデューサのペアとして（たとえば、各耳について１つずつ）実装される。スピーカーアセンブリ６１０の各空気伝導トランスデューサは、周波数範囲の異なる部分をカバーするための１つまたは複数のトランスデューサを含み得る。たとえば、周波数範囲の第１の部分をカバーするために圧電トランスデューサが使用され得、周波数範囲の第２の部分をカバーするために可動コイルトランスデューサが使用され得る。いくつかの他の実施形態では、スピーカーアセンブリ６１０の各トランスデューサは、ユーザの頭部中の対応する骨を振動させることによって音を作り出す、骨伝導トランスデューサとして実装される。骨伝導トランスデューサとして実装される各トランスデューサは、ユーザの骨の一部分に結合された耳介の後ろに配置されて、ユーザの骨の一部分を振動させ、それにより、組織伝搬（ｔｉｓｓｕｅ－ｂｏｒｎｅ）音響圧力波が生成され、組織伝搬音響圧力波は、ユーザの蝸牛のほうへ伝搬し、それにより鼓膜を迂回し得る。いくつかの他の実施形態では、スピーカーアセンブリ６１０の各トランスデューサは軟骨伝導トランスデューサとして実装され、軟骨伝導トランスデューサは、外耳の周りの耳介軟骨の１つまたは複数の部分（たとえば、耳殻、耳珠、耳介軟骨の何らかの他の部分、またはそれらの何らかの組合せ）を振動させることによって、音を作り出す。軟骨伝導トランスデューサは、耳介軟骨の１つまたは複数の部分を振動させることによって、空気伝搬音響圧力波を生成する。

マイクロフォンアセンブリ６２０は、ターゲットエリアからの音を検出する。マイクロフォンアセンブリ６２０は複数のマイクロフォンを含み得る。複数のマイクロフォンは、たとえば、各耳について耳道の入口において音を測定するように構成された少なくとも１つのマイクロフォン、ターゲットエリアからの音をキャプチャするように位置決めされた１つまたは複数のマイクロフォン、ユーザからの音（たとえば、ユーザのスピーチ）をキャプチャするように位置決めされた１つまたは複数のマイクロフォン、またはそれらの何らかの組合せを含み得る。

オーディオコントローラ６３０は、ルームモードパラメータについて要求するためにルームモードクエリを生成する。オーディオコントローラ６３０は、ターゲットエリアの視覚情報とユーザのロケーション情報とに少なくとも部分的に基づいて、ルームモードクエリを生成することができる。オーディオコントローラ６３０は、たとえば、ヘッドセット３１０の１つまたは複数のカメラから、ターゲットエリアの視覚情報を取得し得る。視覚情報は、ターゲットエリアの３Ｄジオメトリを表す。視覚情報は、深度画像データ、カラー画像データ、またはそれらの組合せを含み得る。深度画像データは、ターゲットエリアの壁、床および天井の表面など、ターゲットエリアの表面によって定義されるターゲットエリアの形状に関するジオメトリ情報を含み得る。カラー画像データは、ターゲットエリアの表面に関連する音響材料に関する情報を含み得る。オーディオコントローラ６３０は、ヘッドセット３１０からユーザのロケーション情報を取得し得る。一実施形態では、ユーザのロケーション情報はヘッドセットのロケーション情報を含む。別の実施形態では、ユーザのロケーション情報は、現実の部屋または仮想部屋中のユーザの位置を指定する。

オーディオコントローラ６３０は、オーディオサーバ４００から受信されたルームモードパラメータに基づいて音響フィルタを生成し、音響フィルタを使用してオーディオコンテンツを提示するためにスピーカーアセンブリ６１０にオーディオ命令を提供する。たとえば、オーディオコントローラ６３０は、ルームモードパラメータに基づいてベル形パラメトリック無限インパルス応答フィルタを生成する。ベル形パラメトリック無限インパルス応答フィルタは、各モーダル周波数に対応するＱ値および利得を含む。いくつかの実施形態では、オーディオコントローラ６３０は、たとえば、モーダル周波数におけるオーディオ信号の振幅を増加させることによって、オーディオ信号をレンダリングするために、これらのフィルタを適用する。いくつかの実施形態では、オーディオコントローラ６３０は、人工リバーブレータ（ｒｅｖｅｒｂｅｒａｔｏｒ）（たとえば、シュレーダー、ＦＤＮ、またはネスト全域通過リバーブレータ）のフィードバックループ内に、またはモーダル周波数における残響時間を修正するために、これらのフィルタを配置する。オーディオコントローラ６３０は、ユーザのターゲットエリアに関連するルームモードによって引き起こされることになる音響ひずみ（たとえば、周波数と位置との関数としての増幅）が、提示されたオーディオコンテンツの一部であり得るように、音響フィルタをオーディオコンテンツに適用する。

別の例として、オーディオコントローラ６３０は、ルームモードパラメータに基づいて全域通過フィルタを生成する。全域通過フィルタは、モーダル周波数を中心とするＱ値を有する。オーディオコントローラ６３０は、モーダル周波数におけるオーディオ信号を遅延させ、モーダル周波数におけるリンギングの知覚を作成するために、全域通過フィルタを使用する。いくつかの実施形態では、オーディオコントローラ６３０は、オーディオ信号をレンダリングするために、ベル形パラメトリック無限インパルス応答フィルタと全域通過フィルタの両方を使用する。いくつかの実施形態では、オーディオコントローラ６３０は、ユーザの位置の変化に基づいてフィルタを動的に更新する。

図７は、１つまたは複数の実施形態による、音響フィルタを使用することによってオーディオコンテンツを提示するプロセス７００を示すフローチャートである。図７のプロセス７００は、装置、たとえば、図６のオーディオアセンブリ６００の構成要素によって実施され得る。他の実施形態では、他のエンティティ（たとえば、図９のヘッドセット９００の構成要素および／または図８に示されている構成要素）が、プロセスのステップの一部または全部を実施し得る。同様に、実施形態は、異なるおよび／または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。

オーディオアセンブリ６００は、７１０において、１つまたは複数のルームモードパラメータに基づいて音響フィルタを生成する。音響フィルタは、コンテンツに適用されたとき、ターゲットエリア内のユーザの位置における、およびターゲットエリアの少なくとも１つのルームモードに関連する周波数における、音響ひずみをシミュレートする。音響ひずみは、音がターゲットエリア中で放出されたときの、ターゲットエリア内のユーザの位置における増幅によって表現される。ターゲットエリアは、ユーザのローカルエリア、または仮想エリアであり得る。いくつかの実施形態では、音響フィルタは、ルームモードのモーダル周波数におけるＱ値または利得を伴う無限インパルス応答フィルタ、および／あるいはモーダル周波数を中心とするＱ値を伴う全域通過フィルタを含む。

いくつかの実施形態では、１つまたは複数のルームモードパラメータは、オーディオサーバ、たとえば、オーディオサーバ４００からオーディオアセンブリ６００によって受信される。オーディオアセンブリはルームモードクエリをオーディオサーバに送り、オーディオサーバは、ルームモードクエリ中の情報に基づいて１つまたは複数のルームモードパラメータを決定する。いくつかの他の実施形態では、オーディオアセンブリ６００は、ターゲットエリアの少なくとも１つのルームモードに基づいて１つまたは複数のルームモードパラメータを決定する。ターゲットエリアの少なくとも１つのルームモードは、オーディオサーバによって決定され、オーディオアセンブリ６００に送られ得る。

オーディオアセンブリ６００は、７２０において、音響フィルタを使用することによってユーザにオーディオコンテンツを提示する。たとえば、オーディオアセンブリ６００は、ユーザのターゲットエリアに関連するルームモードによって引き起こされることになる音響ひずみ（たとえば、信号強度の増加または減少）が、提示されたオーディオコンテンツの一部であり得るように、音響フィルタをオーディオコンテンツに適用する。オーディオコンテンツは、ユーザがターゲットエリア中に物理的に位置しないことがあるにもかかわらず、ターゲットエリア中のオブジェクトから発生し、ターゲットエリア内のユーザの位置において受信されているように思われる。たとえば、ユーザは、オフィスルームにおいて座り、オーディオコンテンツ（たとえば、ミュージカル）は、仮想会議室中の話者から発生し、仮想会議室中のユーザの位置において受信されているように思われるように、提示され得る。

システム環境
図８は、１つまたは複数の実施形態による、ヘッドセット８１０とオーディオサーバ４００とを含むシステム環境８００のブロック図である。システム８００は、人工現実環境、たとえば、仮想現実環境、拡張現実環境、複合現実環境、またはそれらの何らかの組合せにおいて動作し得る。図８によって示されているシステム８００は、ヘッドセット８１０と、オーディオサーバ４００と、コンソール８６０に結合された入出力（Ｉ／Ｏ）インターフェース８４０とを含む。ヘッドセット８１０と、オーディオサーバ４００と、コンソール８６０とは、ネットワーク８８０を通して通信する。図８は、１つのヘッドセット８１０と１つのＩ／Ｏインターフェース８５０とを含む例示的なシステム８００を示すが、他の実施形態では、任意の数のこれらの構成要素が、システム８００中に含まれ得る。たとえば、各々が、関連するＩ／Ｏインターフェース８５０を有する、複数のヘッドセット８１０があり得、各ヘッドセット８１０およびＩ／Ｏインターフェース８５０はコンソール８６０と通信する。代替構成では、異なるおよび／または追加の構成要素が、システム８００中に含まれ得る。さらに、図８に示されている構成要素のうちの１つまたは複数に関して説明される機能性は、いくつかの実施形態では、図８に関して説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コンソール８６０の機能性の一部または全部がヘッドセット８１０によって提供され得る。

ヘッドセット８１０は、ディスプレイアセンブリ８１５と、光学ブロック８２０と、１つまたは複数の位置センサー８３５と、ＤＣＡ８３０と、慣性測定ユニット（ＩＭＵ）８２５と、ＰＣＡ８４０と、オーディオアセンブリ６００とを含む。ヘッドセット８１０のいくつかの実施形態は、図８に関して説明されるものとは異なる構成要素を有する。さらに、図８に関して説明される様々な構成要素によって提供される機能性は、他の実施形態ではヘッドセット８１０の構成要素の間で別様に分散されるか、またはヘッドセット８１０からリモートにある別個のアセンブリにおいて取り込まれ得る。ヘッドセット８１０の一実施形態が、図３中のヘッドセット３１０または図９中のヘッドセット９００である。

ディスプレイアセンブリ８１５は、コンソール８６０から受信されたデータに従ってユーザに２Ｄ画像または３Ｄ画像を表示する電子ディスプレイを含み得る。画像は、ユーザのローカルエリアの画像、ローカルエリアからの光と組み合わせられた仮想オブジェクトの画像、仮想エリアの画像、またはそれらの何らかの組合せを含み得る。仮想エリアは、ユーザから遠い現実の部屋をマッピングされ得る。様々な実施形態では、ディスプレイアセンブリ８１５は、単一の電子ディスプレイまたは複数の電子ディスプレイ（たとえば、ユーザの各眼のためのディスプレイ）を備える。電子ディスプレイの例は、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ（ＡＭＯＬＥＤ）、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。

光学ブロック８２０は、電子ディスプレイから受光された画像光を拡大し、画像光に関連する光学誤差を補正し、補正された画像光をヘッドセット８１０のユーザに提示する。様々な実施形態では、光学ブロック８２０は、１つまたは複数の光学要素を含む。光学ブロック８２０中に含まれる例示的な光学要素は、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射表面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック８２０は、異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック８２０中の光学要素のうちの１つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、１つまたは複数のコーティングを有し得る。

光学ブロック８２０による画像光の拡大および集束は、電子ディスプレイが、物理的により小さくなり、重さが減じ、より大きいディスプレイよりも少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイによって提示されるコンテンツの視野を増加させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて（たとえば、対角約１１０度）、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大の量は、光学要素を追加することまたは取り外すことによって調整され得る。

いくつかの実施形態では、光学ブロック８２０は、１つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイに提供されるコンテンツは予歪され、光学ブロック８２０が、そのコンテンツに基づいて生成された画像光を電子ディスプレイから受光した後に、光学ブロック８２０はそのひずみを補正する。

ＩＭＵ８２５は、位置センサー８３５のうちの１つまたは複数から受信された測定信号に基づいて、ヘッドセット８１０の位置を指示するデータを生成する電子デバイスである。位置センサー８３５は、ヘッドセット８１０の運動に応答して１つまたは複数の測定信号を生成する。位置センサー８３５の例は、１つまたは複数の加速度計、１つまたは複数のジャイロスコープ、１つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、ＩＭＵ８２５の誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー８３５は、ＩＭＵ８２５の外部に、ＩＭＵ８２５の内部に、またはそれらの何らかの組合せで位置し得る。

ＤＣＡ８３０は、部屋など、ターゲットエリアの深度画像データを生成する。深度画像データは、イメージングデバイスからの距離を定義するピクセル値を含み、したがって、深度画像データにおいてキャプチャされたロケーションの（たとえば、３Ｄ）マッピングを提供する。図８中のＤＣＡ８３０は、光プロジェクタ８３３と、１つまたは複数のイメージングデバイス８２５と、コントローラ８３０とを含む。いくつかの他の実施形態では、ＤＣＡ８３０は、ステレオでイメージングするカメラのセットを含む。

光プロジェクタ８３３は、ターゲットエリア中のオブジェクトから反射され、深度画像データを生成するためにイメージングデバイス８３５によってキャプチャされた、構造化光パターンまたは他の光（たとえば、飛行時間についての赤外線フラッシュ）を投影し得る。たとえば、光プロジェクタ８３３は、異なるタイプの複数の構造化光（ＳＬ）要素（たとえばライン、グリッド、またはドット）をヘッドセット８１０の周囲のターゲットエリアの一部分上に投影し得る。様々な実施形態では、光プロジェクタ８３３は、エミッタと回折光学要素とを備える。エミッタは、光（たとえば、赤外光）で回折光学要素を照明するように構成される。照明された回折光学要素は、複数のＳＬ要素を含むＳＬパターンをターゲットエリアに投影する。たとえば、照明された回折光学要素によって投影されるＳＬ要素の各々は、回折光学要素上の特定のロケーションに関連するドットである。

ＤＣＡ８３０によってターゲットエリアに投影されるＳＬパターンは、それがターゲットエリア中の様々な表面およびオブジェクトに遭遇するとき、変形する。１つまたは複数のイメージングデバイス８２５は、各々、ターゲットエリアの１つまたは複数の画像をキャプチャするように構成される。キャプチャされた１つまたは複数の画像の各々は、光プロジェクタ８３３によって投影され、ターゲットエリア中のオブジェクトによって反射される、複数のＳＬ要素（たとえば、ドット）を含み得る。１つまたは複数のイメージングデバイス８２５の各々は、検出器アレイ、カメラ、またはビデオカメラであり得る。

いくつかの実施形態では、光プロジェクタ８３３は、飛行時間技法を使用することによって深度画像データを生成するために、ローカルエリア中のオブジェクトから反射され、イメージングデバイス８３５によってキャプチャされる、光パルスを投影する。たとえば、光プロジェクタ８３３は、飛行時間についての赤外線フラッシュを投影する。イメージングデバイス８３５は、オブジェクトによって反射された赤外線フラッシュをキャプチャする。コントローラ８３７は、オブジェクトまでの距離を決定するために、イメージングデバイス８３５からの画像データを使用することができる。コントローラ８３７は、イメージングデバイス８３５が、光プロジェクタ８３３による光パルスの投影と同期して、反射された光パルスをキャプチャするように、命令をイメージングデバイス８３５に提供し得る。

コントローラ８３７は、イメージングデバイス８３５によってキャプチャされた光に基づいて深度画像データを生成する。コントローラ８３７は、コンソール８６０、オーディオコントローラ４２０、または何らかの他の構成要素に深度画像データをさらに提供し得る。

ＰＣＡ８４０は、カラー（たとえば、ＲＧＢ）画像データを生成する１つまたは複数のパッシブカメラを含む。アクティブ光放出および反射を使用するＤＣＡ８３０とは異なり、ＰＣＡ８４０は、画像データを生成するためにターゲットエリアの環境から光をキャプチャする。ピクセル値がイメージングデバイスからの深度または距離を定義するのではなく、画像データのピクセル値は、イメージングデータにおいてキャプチャされたオブジェクトの可視カラーを定義し得る。いくつかの実施形態では、ＰＣＡ８４０は、パッシブイメージングデバイスによってキャプチャされた光に基づいてカラー画像データを生成するコントローラを含む。いくつかの実施形態では、ＤＣＡ８３０とＰＣＡ８４０とは共通コントローラを共有する。たとえば、共通コントローラは、可視スペクトル（たとえば、画像データ）においておよび赤外線スペクトル（たとえば、深度画像データ）においてキャプチャされた１つまたは複数の画像の各々を互いにマッピングし得る。１つまたは複数の実施形態では、共通コントローラは、追加または代替として、オーディオコントローラまたはコンソール８６０にターゲットエリアの１つまたは複数の画像を提供するように構成される。

オーディオアセンブリ６００は、ルームモードの局所効果をオーディオコンテンツに組み込むための音響フィルタを使用して、ヘッドセット８１０のユーザにオーディオコンテンツを提示する。いくつかの実施形態では、オーディオアセンブリ６００は、音響フィルタを表すルームモードパラメータを要求するために、ルームモードクエリをオーディオサーバ４００に送る。ルームモードクエリは、ターゲットエリアの仮想情報、ユーザのロケーション情報、オーディオコンテンツの情報、またはそれらの何らかの組合せを含む。オーディオアセンブリ６００は、ネットワーク８８０を通してオーディオサーバ４００からルームモードパラメータを受信する。オーディオアセンブリ６００は、オーディオコンテンツをレンダリングするための一連のフィルタ（たとえば、無限インパルス応答フィルタ、全域通過フィルタなど）を生成するために、ルームモードパラメータを使用する。フィルタは、モーダル周波数におけるＱ値および利得を有し、ターゲットエリア内のユーザの位置における音響ひずみをシミュレートする。オーディオコンテンツは、空間化され、提示されるとき、ターゲットエリア内のオブジェクト（たとえば、仮想オブジェクトまたは現実オブジェクト）から発生し、ターゲットエリア内のユーザの位置において受信されているように思われる。

一実施形態では、ターゲットエリアは、ユーザのローカルエリアの少なくとも一部分であり、空間化されたオーディオコンテンツは、ローカルエリア中の仮想オブジェクトから発生するように思われ得る。別の実施形態では、ターゲットエリアは仮想エリアである。たとえば、ユーザは小さいオフィスにいるが、ターゲットエリアは、仮想話者がスピーチをする大きい仮想会議室である。仮想会議室は、ルームモードなど、小さいオフィスとは異なる音響効果特性を有する。オーディオアセンブリ６００は、スピーチが仮想会議室中の仮想話者から発生するかのように、ユーザにスピーチを提示する（すなわち、会議室が現実のロケーションであるかのように、会議室のルームモードを使用し、小さいオフィスのルームモードを使用しない）。

オーディオサーバ４００は、オーディオアセンブリ６００からのルームモードクエリ中の情報に基づいてターゲットエリアの１つまたは複数のルームモードパラメータを決定する。いくつかの実施形態では、オーディオサーバ４００は、ターゲットエリアの３Ｄ表現に基づいてターゲットエリアのモデルを決定する。ターゲットエリアの３Ｄ表現は、ターゲットエリアの視覚情報、および／またはターゲットエリア内のユーザの位置を指示するユーザのロケーション情報など、ルームモードクエリ中の情報に基づいて決定され得る。オーディオサーバ４００は、３Ｄ表現を候補モデルと比較し、３Ｄ表現にマッチする候補モデルを、ターゲットエリアのモデルとして選択する。オーディオサーバ４００は、モデルの形状および／または次元などに基づいて、モードを使用して、ターゲットエリアのルームモードを決定する。ルームモードは、周波数と位置との関数としての増幅によって表現され得る。ルームモードのうちの少なくとも１つとターゲットエリア中のユーザの位置とに基づいて、オーディオサーバ４００は、１つまたは複数のルームモードパラメータを決定する。

いくつかの実施形態では、オーディオアセンブリ６００は、オーディオサーバ４００の機能性の一部または全部を有する。ヘッドセット８１０のオーディオアセンブリ６００とオーディオサーバ４００とは、ワイヤードまたはワイヤレス通信リンク（たとえば、ネットワーク８８０）を介して通信し得る。

Ｉ／Ｏインターフェース８５０は、ユーザがアクション要求を送り、コンソール８６０から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実施するための要求である。たとえば、アクション要求は、画像データまたはビデオデータのキャプチャを開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であり得る。Ｉ／Ｏインターフェース８５０は、１つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ゲームコントローラ、またはアクション要求を受信し、そのアクション要求をコンソール８６０に通信するための任意の他の好適なデバイスを含む。Ｉ／Ｏインターフェース８５０によって受信されたアクション要求は、コンソール８６０に通信され、コンソール８６０は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、Ｉ／Ｏインターフェース８５０は、上記でさらに説明されたように、Ｉ／Ｏインターフェース８５０の初期位置に対するＩ／Ｏインターフェース８５０の推定位置を指示する較正データをキャプチャするＩＭＵ８２５を含む。いくつかの実施形態では、Ｉ／Ｏインターフェース８５０は、コンソール８６０から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信された後に触覚フィードバックが提供されるか、または、コンソール８６０がアクションを実施した後に、コンソール８６０が、Ｉ／Ｏインターフェース８５０に命令を通信して、Ｉ／Ｏインターフェース８５０が触覚フィードバックを生成することを引き起こす。

コンソール８６０は、ＤＣＡ８３０とＰＣＡ８４０とヘッドセット８１０とＩ／Ｏインターフェース８５０とのうちの１つまたは複数から受信された情報に従って、処理するためのコンテンツをヘッドセット８１０に提供する。図８に示されている例では、コンソール８６０は、アプリケーションストア８６３と、追跡モジュール８６５と、エンジン８６７とを含む。コンソール８６０のいくつかの実施形態は、図８に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、図８に関して説明されるものとは異なる様式でコンソール８６０の構成要素の間で分散され得る。いくつかの実施形態では、コンソール８６０に関して本明細書で説明される機能性は、ヘッドセット８１０、またはリモートシステムにおいて実装され得る。

アプリケーションストア８６３は、コンソール８６０が実行するための１つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、ヘッドセット８１０またはＩ／Ｏインターフェース８５０の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例は、ゲームアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の好適なアプリケーションを含む。

追跡モジュール８６５は、１つまたは複数の較正パラメータを使用してシステム８００のローカルエリアを較正し、ヘッドセット８１０またはＩ／Ｏインターフェース８５０の位置を決定する際の誤差を低減するように、１つまたは複数の較正パラメータを調整し得る。たとえば、追跡モジュール８６５は、ＤＣＡ８３０によってキャプチャされたＳＬ要素の位置をより正確に決定するために、ＤＣＡ８３０の焦点を調整するための較正パラメータをＤＣＡ８３０に通信する。また、追跡モジュール８６５によって実施される較正は、ヘッドセット８１０中のＩＭＵ８２５および／またはＩ／Ｏインターフェース８５０中に含まれるＩＭＵ８２５から受信された情報を考慮する。さらに、ヘッドセット８１０の追跡が失われた（たとえば、ＤＣＡ８３０が、少なくともしきい値数の投影されたＳＬ要素の見通し線を失った）場合、追跡モジュール８６５は、システム８００の一部または全部を再較正し得る。

追跡モジュール８６５は、ＤＣＡ８３０、ＰＣＡ８４０、１つまたは複数の位置センサー８３５、ＩＭＵ８２５、またはそれらの何らかの組合せからの情報を使用して、ヘッドセット８１０またはＩ／Ｏインターフェース８５０の移動を追跡する。たとえば、追跡モジュール８６５は、ヘッドセット８１０からの情報に基づいて、ローカルエリアのマッピングにおいてヘッドセット８１０の基準点の位置を決定する。追跡モジュール８６５は、ローカルエリアまたは仮想エリア中のオブジェクト（現実オブジェクトまたは仮想オブジェクト）の位置をも決定し得る。さらに、いくつかの実施形態では、追跡モジュール８６５は、ヘッドセット８１０の将来のロケーションを予測するために、ＩＭＵ８２５からのヘッドセット８１０の位置を指示するデータの部分ならびにＤＣＡ８３０からのローカルエリアの表現を使用し得る。追跡モジュール８６５は、ヘッドセット８１０またはＩ／Ｏインターフェース８５０の推定または予測された将来の位置をエンジン８６７に提供する。

エンジン８６７は、アプリケーションを実行し、追跡モジュール８６５から、ヘッドセット８１０の位置情報、加速度情報、速度情報、予測された将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン８６７は、ユーザへの提示のためにヘッドセット８１０に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザがターゲットエリアの位置にいることを指示する場合、エンジン８６７は、ターゲットエリアに関連する仮想コンテンツ（たとえば、画像およびオーディオ）を生成する。ターゲットエリアは、仮想エリア、たとえば、仮想会議室であり得る。エンジン８６７は、ヘッドセット８１０がユーザに表示すべき、仮想会議室の画像と、仮想会議室においてなされるスピーチとを生成することができる。ターゲットエリアは、ユーザのローカルエリアであり得る。エンジン８６７は、ローカルエリアからの現実オブジェクトと組み合わせられた仮想オブジェクトの画像と、仮想オブジェクトまたは現実オブジェクトに関連するオーディオコンテンツとを生成することができる。別の例として、受信された情報が、ユーザが左を見ていることを指示する場合、エンジン８６７は、仮想ターゲットエリアにおいてまたはターゲットエリアにおいて、ターゲットエリアを追加のコンテンツで拡張するユーザの移動を反映する、ヘッドセット８１０のためのコンテンツを生成する。さらに、エンジン８６７は、Ｉ／Ｏインターフェース８５０から受信されたアクション要求に応答して、コンソール８６０上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、ヘッドセット８１０を介した視覚または可聴フィードバック、あるいはＩ／Ｏインターフェース８５０を介した触覚フィードバックであり得る。

図９は、１つまたは複数の実施形態による、オーディオアセンブリを含むヘッドセット９００の斜視図である。ヘッドセット９００は、図３中のヘッドセット３３０または図８中のヘッドセット８１０の一実施形態であり得る。（図９に示されているような）いくつかの実施形態では、ヘッドセット９００は、ＮＥＤとして実装される。（図９に示されていない）代替実施形態では、ヘッドセット９００は、ＨＭＤとして実装される。概して、ヘッドセット９００は、コンテンツ（たとえば、メディアコンテンツ）が、ヘッドセット９００の一方または両方のレンズ９１０を使用して提示されるように、ユーザの顔に装着され得る。しかしながら、ヘッドセット９００はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット９００によって提示されるメディアコンテンツの例は、１つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。ヘッドセット９００は、他の構成要素の中でも、フレーム９０５と、レンズ９１０と、ＤＣＡ９２５と、ＰＣＡ９３０と、位置センサー９４０と、オーディオアセンブリとを含み得る。ＤＣＡ９２５およびＰＣＡ９３０は、ヘッドセット９００の一部または全部の周囲のターゲットエリアの視覚情報をキャプチャするためにヘッドセット９００に取り付けられたＳＬＡＭセンサーの一部であり得る。図９は、ヘッドセット９００の構成要素をヘッドセット９００上の例示的なロケーションに示すが、構成要素は、ヘッドセット９００上の他の場所に、ヘッドセット９００とペアにされた周辺デバイス上に、またはそれらの何らかの組合せで位置し得る。

ヘッドセット９００は、ユーザの視覚を補正または増強するか、ユーザの眼を保護するか、あるいはユーザに画像を提供し得る。ヘッドセット９００は、ユーザの視力の欠損を補正する眼鏡であり得る。ヘッドセット９００は、太陽からユーザの眼を保護するサングラスであり得る。ヘッドセット９００は、衝撃からユーザの眼を保護する保護眼鏡であり得る。ヘッドセット９００は、夜間にユーザの視覚を増強するための暗視デバイスまたは赤外線ゴーグルであり得る。ヘッドセット９００は、ユーザのための人工現実コンテンツを作り出すニアアイディスプレイであり得る。代替的に、ヘッドセット９００は、レンズ９１０を含まないことがあり、ユーザにオーディオコンテンツ（たとえば、音楽、ラジオ、ポッドキャスト）を提供するオーディオアセンブリをもつフレーム９０５であり得る。

フレーム９０５は、ヘッドセット９００の他の構成要素を保持する。フレーム９０５は、レンズ９１０を保持する前面部分と、ユーザの頭部に付けるためのエンドピースとを含む。フレーム９０５の前面部分は、ユーザの鼻の上をまたいでいる。エンドピース（たとえば、テンプル）は、そこにユーザのこめかみが付くフレーム９０５の部分である。エンドピースの長さは、異なるユーザに適合するように調整可能（たとえば、調整可能なテンプルの長さ）であり得る。エンドピースはまた、ユーザの耳の後ろ側で湾曲する部分（たとえば、テンプルの先端、イヤピース）を含み得る。

レンズ９１０は、ヘッドセット９００を装着しているユーザに対して光を提供するかまたは透過する。レンズ９１０は、ユーザの視力の欠損を補正するのを助けるための処方レンズ（たとえば、単焦点、二焦点、および三焦点、または累進多焦点（ｐｒｏｇｒｅｓｓｉｖｅ））を含み得る。処方レンズは、ヘッドセット９００を装着しているユーザに対して周辺光を透過する。透過された周辺光は、ユーザの視力の欠損を補正するように処方レンズによって変えられ得る。レンズ９１０は、太陽からユーザの眼を保護するための偏光レンズまたは色付きレンズを含み得る。レンズ９１０は、ユーザの眼に向かって導波路の端部または縁部を通って画像光が結合された導波路ディスプレイの一部としての１つまたは複数の導波路を含み得る。レンズ９１０は、画像光を提供するための電子ディスプレイを含み得、電子ディスプレイからの画像光を拡大するための光学ブロックをも含み得る。レンズ９１０は、ディスプレイアセンブリ８１５と光学ブロック８２０との組合せの一実施形態であり得る。

ＤＣＡ９２５は、部屋など、ヘッドセット３３０の周囲のローカルエリアについての深度情報を表す深度画像データをキャプチャする。ＤＣＡ９２５は、ＤＣＡ８３０の一実施形態であり得る。いくつかの実施形態では、ＤＣＡ９２５は、光プロジェクタ（たとえば、構造化光および／または飛行時間についてのフラッシュ照明）と、イメージングデバイスと、コントローラ（図９に図示せず）とを含み得る。キャプチャされたデータは、光プロジェクタによってローカルエリア上に投影された光の、イメージングデバイスによってキャプチャされた画像であり得る。一実施形態では、ＤＣＡ９２５は、コントローラと、ローカルエリアの部分をステレオでキャプチャするために配向される２つまたはそれ以上のカメラとを含み得る。キャプチャされたデータは、ローカルエリアの２つまたはそれ以上のカメラによってステレオでキャプチャされた画像であり得る。ＤＣＡ９２５のコントローラは、キャプチャされたデータと、深度決定技法（たとえば、構造化光、飛行時間、ステレオイメージングなど）を使用して、ローカルエリアの深度情報を算出する。深度情報に基づいて、ＤＣＡ９２５のコントローラは、ローカルエリア内のヘッドセット３３０の絶対位置情報を決定する。ＤＣＡ９２５は、ヘッドセット３３０と一体化され得るか、またはヘッドセット３３０の外部のローカルエリア内に配置され得る。いくつかの実施形態では、ＤＣＡ９２５のコントローラは、たとえばさらなる処理とオーディオサーバ４００への通信とのために、ヘッドセット３３０のオーディオコントローラ９２０に深度画像データを送信し得る。

ＰＣＡ９３０は、カラー（たとえば、ＲＧＢ）画像データを生成する１つまたは複数のパッシブカメラを含む。ＰＣＡ９３０は、ＰＣＡ８４０の一実施形態であり得る。アクティブ光放出および反射を使用するＤＣＡ９２５とは異なり、ＰＣＡ９３０は、カラー画像データを生成するためにローカルエリアの環境から光をキャプチャする。ピクセル値がイメージングデバイスからの深度または距離を定義するのではなく、カラー画像データのピクセル値は、画像データにおいてキャプチャされたオブジェクトの可視カラーを定義し得る。いくつかの実施形態では、ＰＣＡ９３０は、パッシブイメージングデバイスによってキャプチャされた光に基づいてカラー画像データを生成するコントローラを含む。ＰＣＡ９３０は、たとえば、さらなる処理とオーディオサーバ４００への通信とのために、オーディオコントローラ９２０にカラー画像データを提供し得る。

いくつかの実施形態では、ＤＣＡ９２５とＰＣＡ９３０とは、深度情報を生成するためにステレオイメージングを使用するカラーカメラシステムなどの同じカメラアセンブリである。

位置センサー９４０は、ヘッドセット９０１０の運動に応答して、１つまたは複数の測定信号に基づいて、ヘッドセット９００のロケーション情報を生成する。位置センサー９４０は、位置センサー８３５のうちの１つの一実施形態であり得る。位置センサー９４０は、ヘッドセット９００のフレーム９０５の一部分に位置し得る。位置センサー９４０は、位置センサー、ＩＭＵ、またはその両方を含み得る。ヘッドセット９００のいくつかの実施形態は、位置センサー９４０を含むことも含まないこともあり、または２つ以上の位置センサー９４０を含み得る。位置センサー９４０がＩＭＵを含む実施形態では、ＩＭＵは、位置センサー９４０からの測定信号に基づいてＩＭＵデータを生成する。位置センサー９４０の例は、１つまたは複数の加速度計、１つまたは複数のジャイロスコープ、１つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、ＩＭＵの誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー９４０は、ＩＭＵの外部に、ＩＭＵの内部に、またはそれらの何らかの組合せで位置し得る。

１つまたは複数の測定信号に基づいて、位置センサー９４０は、ヘッドセット９００の初期位置に対するヘッドセット９００の現在位置を推定する。推定位置は、ヘッドセット９００のロケーションおよび／あるいはヘッドセット９００またはヘッドセット９００を装着しているユーザの頭部の配向、あるいはそれらの何らかの組合せを含み得る。配向は、基準点に対する各耳の位置に対応し得る。いくつかの実施形態では、位置センサー９４０は、ヘッドセット９００の現在位置を推定するために、ＤＣＡ９２５からの深度情報および／または絶対位置情報を使用する。位置センサー９４０は、並進運動（前／後、上／下、左／右）を測定するための複数の加速度計と、回転運動（たとえば、ピッチ、ヨー、ロール）を測定するための複数のジャイロスコープとを含み得る。いくつかの実施形態では、ＩＭＵは、測定信号を迅速にサンプリングし、サンプリングされたデータからヘッドセット９００の推定位置を計算する。たとえば、ＩＭＵは、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ヘッドセット９００上の基準点の推定位置を決定する。基準点は、ヘッドセット９００の位置を表すために使用され得る点である。基準点は、概してエリア中の点として定義され得るが、実際には、基準点は、ヘッドセット９００内の点として定義される。

オーディオアセンブリは、ルームモードの局所効果を組み込むためにオーディオコンテンツをレンダリングする。ヘッドセット９００のオーディオアセンブリは、図６に関して上記で説明されたオーディオアセンブリ６００の一実施形態である。いくつかの実施形態では、オーディオアセンブリは、音響フィルタについてのクエリをオーディオサーバ（たとえば、オーディオサーバ４００）に送る。オーディオアセンブリは、オーディオサーバからルームモードパラメータを受信し、オーディオコンテンツを提示するための音響フィルタを生成する。音響フィルタは、ルームモードのモーダル周波数におけるＱ値および利得を有する、無限インパルス応答フィルタおよび／または全域通過フィルタを含むことができる。いくつかの実施形態では、オーディオアセンブリは、スピーカー９１５ａおよび９１５ｂと、音響センサーのアレイ９３５と、オーディオコントローラ９２０とを含む。

スピーカー９１５ａおよび９１５ｂは、ユーザの耳のために音を作り出す。スピーカー９１５ａ、９１５ｂは、図６中のスピーカーアセンブリ６１０のトランスデューサの実施形態である。スピーカー９１５ａおよび９１５ｂは、オーディオコントローラ９２０から、音を生成するためのオーディオ命令を受信する。スピーカー９１５ａは、オーディオコントローラ９２０から左オーディオチャネルを取得し、スピーカー９１５ｂは、オーディオコントローラ９２０から右オーディオチャネルを取得する。図９に示されているように、各スピーカー９１５ａ、９１５ｂは、フレーム９０５のエンドピースに結合され、ユーザの対応する耳への入口の前に配置される。スピーカー９１５ａおよび９１５ｂはフレーム９０５の外部に示されているが、スピーカー９１５ａおよび９１５ｂはフレーム９０５に囲まれ得る。いくつかの実施形態では、各耳のための個々のスピーカー９１５ａおよび９１５ｂの代わりに、ヘッドセット３３０は、提示されたオーディオコンテンツの方向性を改善するために、たとえば、フレーム９０５のエンドピースに組み込まれた、スピーカーアレイ（図９に図示せず）を含む。

音響センサーのアレイ９３５は、ヘッドセット３３０の一部または全部の周囲のローカルエリアにおける音を監視および記録する。音響センサーのアレイ９３５は、図６のマイクロフォンアセンブリ６２０の一実施形態である。図９に示されているように、音響センサーのアレイ９３５は、ヘッドセット３３０上に位置決めされた複数の音響検出ロケーションを伴う複数の音響センサーを含む。

オーディオコントローラ９２０は、ルームモードクエリをオーディオサーバ（たとえば、オーディオサーバ４００）に送ることによって１つまたは複数のルームモードパラメータをオーディオサーバに要求する。ルームモードクエリは、ターゲットエリア情報、ユーザ情報、オーディオコンテンツ情報、オーディオサーバ３２０が音響フィルタを決定するために使用することができる何らかの他の情報、またはそれらの何らかの組合せを含む。いくつかの実施形態では、オーディオコントローラ９２０は、ヘッドセット９００に接続されたコンソール（たとえば、コンソール８６０）からの情報に基づいてルームモードクエリを生成する。オーディオサーバ９２０は、ターゲットエリアの画像に基づいて、ターゲットエリアの少なくとも一部分を表す視覚情報を生成し得る。いくつかの実施形態では、オーディオコントローラ９２０は、ヘッドセット９００の他の構成要素からの情報に基づいてルームモードクエリを生成する。たとえば、ターゲットエリアの少なくとも一部分を表す視覚情報は、ＤＣＡ９２５によってキャプチャされた深度画像データおよび／またはＰＣＡ９３０によってキャプチャされたカラー画像データを含み得る。ユーザのロケーション情報は、位置センサー９４０によって決定され得る。

オーディオコントローラ９２０は、オーディオサーバから受信されたルームモードパラメータに基づいて音響フィルタを生成する。オーディオコントローラ９２０は、ターゲットエリアのルームモードの局所効果が音に組み込まれるように、音響フィルタを使用することによって音を生成するための、オーディオ命令をスピーカー９１５ａ、９１５ｂに提供する。オーディオコントローラ９２０は、図６のオーディオコントローラ６３０の一実施形態であり得る。

一実施形態では、通信モジュール（たとえば、トランシーバ）がオーディオコントローラ９２０に組み込まれ得る。別の実施形態では、通信モジュールは、オーディオコントローラ９２０の外部にあり、オーディオコントローラ９２０に結合された別個のモジュールとしてフレーム９０５に組み込まれ得る。

追加の構成情報
本開示の実施形態の上記の説明は、説明の目的で提示されており、網羅的であること、または開示される正確な形態に本開示を限定することは意図されない。当業者は、上記の開示に照らして多くの修正および変形が可能であることを諒解することができる。

本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して本開示の実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、算出量的に、または論理的に説明されるが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの仕組みをモジュールと呼ぶことが時々好都合であることも証明された。説明される動作およびそれらの関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現され得る。

本明細書で説明されるステップ、動作、またはプロセスのいずれも、１つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、説明されるステップ、動作、またはプロセスのいずれかまたはすべてを実施するためにコンピュータプロセッサによって実行され得る。

本開示の実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および／あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得、それらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された算出能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。

本開示の実施形態はまた、本明細書で説明されるコンピューティングプロセスによって作り出される製品に関し得る。そのような製品は、コンピューティングプロセスから生じる情報を備え得、その情報は、非一時的有形コンピュータ可読記憶媒体に記憶され、本明細書で説明されるコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。

最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、本発明の主題を定めるかまたは制限するように選択されていないことがある。したがって、本開示の範囲はこの詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される本開示の範囲を例示するものであり、限定するものではない。

Claims

ターゲットエリアの３次元仮想表現に部分的に基づいて前記ターゲットエリアのモデルを決定することであって、前記ターゲットエリアの前記３次元仮想表現が、前記ターゲットエリアの少なくとも一部分の深度情報を用いて生成される、前記ターゲットエリアのモデルを決定することと、
前記モデルを使用して前記ターゲットエリアのルームモードを決定することと、
前記ルームモードのうちの少なくとも１つのルームモードと前記ターゲットエリア内のユーザの位置とに基づいて１つまたは複数のルームモードパラメータを決定することであって、前記１つまたは複数のルームモードパラメータが、前記ユーザにオーディオコンテンツを提示するためにヘッドセットによって使用される音響フィルタを表し、前記音響フィルタが、オーディオコンテンツに適用されたとき、前記ユーザの前記位置での、前記少なくとも１つのルームモードに関連する周波数における音響ひずみをシミュレートする、１つまたは複数のルームモードパラメータを決定することと
を含む、方法。
前記ヘッドセットから前記深度情報を受信することをさらに含む、請求項１に記載の方法。
前記ターゲットエリアの前記３次元仮想表現に部分的に基づいて前記ターゲットエリアの前記モデルを決定することが、
前記３次元仮想表現を複数の候補モデルと比較することと、
前記３次元仮想表現にマッチする、前記複数の候補モデルのうちの１つを前記ターゲットエリアの前記モデルとして識別することと
を含み、前記モデルを使用して前記ターゲットエリアの前記ルームモードを決定することが、前記モデルの形状に基づいて前記ルームモードを決定することをさらに含む、請求項１に記載の方法。
前記ターゲットエリアの少なくとも一部分のカラー画像データを受信することと、
前記カラー画像データを使用して前記ターゲットエリアの前記一部分における表面の材料組成を決定することと、
前記表面の前記材料組成に基づいて各表面についての減衰パラメータを決定することと、
各表面の前記減衰パラメータにより前記モデルを更新することと
をさらに含む、請求項１に記載の方法。
前記ヘッドセットにおいて前記オーディオコンテンツをレンダリングするために、前記音響フィルタを表すパラメータを前記ヘッドセットに送信すること
をさらに含む、請求項１に記載の方法。
前記ターゲットエリアが仮想エリアであり、前記仮想エリアが、前記ユーザの物理的環境とは異なる、請求項１に記載の方法。
前記ターゲットエリアが前記ユーザの物理的環境である、請求項１に記載の方法。
ターゲットエリアの３次元仮想表現に部分的に基づいて前記ターゲットエリアのモデルを決定するように構成されたマッチングモジュールであって、前記ターゲットエリアの前記３次元仮想表現が、前記ターゲットエリアの少なくとも一部分の深度情報を用いて生成される、マッチングモジュールと、
前記モデルを使用して前記ターゲットエリアのルームモードを決定するように構成されたルームモードモジュールと、
前記ルームモードのうちの少なくとも１つのルームモードと前記ターゲットエリア内のユーザの位置とに基づいて１つまたは複数のルームモードパラメータを決定することを行うように構成された、音響フィルタモジュールであって、前記１つまたは複数のルームモードパラメータが、前記ユーザにオーディオコンテンツを提示するためにヘッドセットによって使用される音響フィルタを表し、前記音響フィルタが、オーディオコンテンツに適用されたとき、前記ユーザの前記位置での、前記少なくとも１つのルームモードに関連する周波数における音響ひずみをシミュレートする、音響フィルタモジュールと
を備える、装置。
前記マッチングモジュールが、
前記３次元仮想表現を複数の候補モデルと比較することと、
前記３次元仮想表現にマッチする、前記複数の候補モデルのうちの１つを前記ターゲットエリアの前記モデルとして識別することと
を行うことによって、前記ターゲットエリアの前記３次元仮想表現に部分的に基づいて前記ターゲットエリアの前記モデルを決定するように構成された、請求項８に記載の装置。
前記ルームモードモジュールが、
前記モデルの形状に基づいて前記ルームモードを決定すること
を行うことによって、前記モデルを使用して前記ターゲットエリアの前記ルームモードを決定するように構成された、請求項８に記載の装置。
前記音響フィルタモジュールが、
前記ヘッドセットにおいて前記オーディオコンテンツをレンダリングするために、前記音響フィルタを表すパラメータを前記ヘッドセットに送信すること
を行うように構成された、請求項８に記載の装置。
１つまたは複数のルームモードパラメータに基づいて音響フィルタを生成することであって、前記音響フィルタが、ターゲットエリア内のユーザの位置での、前記ターゲットエリアの少なくとも１つのルームモードに関連する周波数における音響ひずみをシミュレートする、音響フィルタを生成することと、
前記音響フィルタを使用することによって前記ユーザにオーディオコンテンツを提示することであって、前記オーディオコンテンツが、前記ターゲットエリア中のオブジェクトから発生し、かつ前記ターゲットエリア内の前記ユーザの前記位置において受け取られているかのように提示される、オーディオコンテンツを提示することと
を含む、方法。
前記音響フィルタが、前記少なくとも１つのルームモードのモーダル周波数におけるＱ値または利得を伴う複数の無限インパルス応答フィルタを含む、請求項１２に記載の方法。
前記音響フィルタが、前記少なくとも１つのルームモードのモーダル周波数におけるＱ値または利得を伴う複数の全域通過フィルタをさらに含む、請求項１２に記載の方法。
オーディオサーバにルームモードクエリを送ることであって、前記ルームモードクエリが、前記ターゲットエリアの仮想情報と前記ユーザのロケーション情報とを含む、ルームモードクエリを送ることと、
前記オーディオサーバから前記１つまたは複数のルームモードパラメータを受信することと、
前記少なくとも１つのルームモードと前記ユーザの前記位置の変化とに基づいて前記音響フィルタを動的に調整することと
をさらに含む、請求項１２に記載の方法。