JP2022530505A

JP2022530505A - 複数のタイプのレンダラーを用いたオーディオ・オブジェクトのレンダリング

Info

Publication number: JP2022530505A
Application number: JP2021563698A
Authority: JP
Inventors: ジェ．ジェルマン，フランソワ; ジェイ．シーフェルト，アラン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2019-05-03
Filing date: 2020-05-01
Publication date: 2022-06-29
Anticipated expiration: 2040-05-01
Also published as: EP4236378A3; JP2022173590A; CN113767650A; CN113767650B; JP7443453B2; JP7157885B2; US11943600B2; EP4236378B1; EP3963906A1; EP4236378A2; WO2020227140A1; US20220286800A1; EP3963906B1

Abstract

複数のタイプのレンダラーを用いてオーディオ・オブジェクトをレンダリングするための装置および方法。選択されたレンダラー間の重み付けは、各オーディオ・オブジェクト内にある位置情報に依存する。各タイプのレンダラーは異なる出力カバレッジを有するので、それらの重み付けされた出力の組み合わせは、オーディオがその位置で位置情報に従って知覚されることにつながる。

Description

本発明は、オーディオ処理に関し、特に、複数のタイプのレンダラーを使用してオーディオ・オブジェクトを処理することに関する。

本明細書に別段の記載がない限り、本セクションに記載されるアプローチは、本出願の請求項に対する先行技術ではなく、本セクションに含まれることにより先行技術であると自認されるものではない。

オーディオ信号は、一般に、チャネル・ベースのオーディオとオブジェクト・ベースのオーディオの2つのタイプに分類される。

チャネル・ベースのオーディオでは、オーディオ信号はいくつかのチャネル信号を含み、各チャネル信号はスピーカーに対応する。チャネル・ベースのオーディオ信号の例には、ステレオオーディオ、5.1チャネルサラウンドオーディオ、7.1チャネルサラウンドオーディオなどを含む。ステレオオーディオは、左スピーカーのための左チャネルと右スピーカーのための右チャネルの2つのチャネルを含む。5.1チャネルサラウンドオーディオは、前方左チャネル、前方右チャネル、中央チャネル、左サラウンドチャネル、右サラウンドチャネル、および低周波効果チャネルの6つのチャネルがある。7.1チャネルサラウンドオーディオは、前方左チャネル、前方右チャネル、中央チャネル、左サラウンドチャネル、右サラウンドチャネル、左後方チャネル、右後方チャネル、低周波効果チャネルの8つのチャネルを含む。

オブジェクト・ベースのオーディオでは、オーディオ信号はオーディオ・オブジェクトを含み、各オーディオ・オブジェクトは、そのオーディオ・オブジェクトのオーディオがどこに出力されるかに関する位置情報を含む。よって、この位置情報は、スピーカーの構成に関して関知しない可能性がある。次いで、レンダリング・システムが、位置情報を使用してオーディオ・オブジェクトをレンダリングして、スピーカーの特定の構成のための特定の信号を生成する。オブジェクト・ベースのオーディオの例は、ドルビー（登録商標）アトモス（商標）オーディオ、DTS:X（商標）オーディオなどを含む。

チャネル・ベースのシステムおよびオブジェクト・ベースのシステムの両方とも、チャネル信号またはオブジェクト信号からスピーカー信号を生成するレンダラーを含んでいてもよい。レンダラーは、波面レンダラー、ビームフォーマー、パンナー、バイノーラル・レンダラーなどを含むさまざまなタイプに分類されうる。

U.S. Application Pub. No. 2016/0300577 U.S. Application Pub. No. 2017/0048640 International Application Pub. No. WO 2017/087564 A1 U.S. Application Pub. No. 2015/0245157 U.S. Patent No. 7,515,719 U.S. Application Pub. No. 2015/0350804 U.S. Patent No. 7,515,719

H. Wittek, F. Rumsey, and G. Theile, "Perceptual Enhancement of Wavefield Synthesis by Stereophonic Means," Journal of the Audio Engineering Society, vol. 55, no. 9, pp. 723-751, 2007 M. N. Montag, "Wave field synthesis in Three Dimensions by Multiple Line Arrays," University of Miami, 2011 R. Ranjan and W. S. Gan, "A hybrid speaker array-headphone system for immersive 3D audio reproduction," Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 1836-1840, Apr. 2015 V. Pulkki, "Virtual sound source positioning using vector base amplitude panning," Journal of the Audio Engineering Society, vol. 45, no. 6, pp. 456-466, 1997 H. Wierstorf, "Perceptual Assessment of Sound Field Synthesis," Technische Universit¨at Berlin, 2014

多くの既存のシステムは複数のレンダラーを組み合わせているが、レンダラーの選択が音の所望される知覚される位置に基づいて行われてもよいことを認識していない。多くの聴取環境において、聴取体験は、レンダラーを選択する際に音の所望される知覚される位置を考慮することによって改善されうる。よって、レンダラーを選択するとき、および選択されたレンダラー間で使用される重みを割り当てるときに、音の所望される知覚される位置を考慮に入れるシステムが必要である。

上記の問題および解決策の欠如を考慮して、本明細書に記載される実施形態は、任意的には単一のカテゴリーまたは異なるカテゴリーを有する2つ以上のレンダラーを制御するために、オーディオ・オブジェクトの所望される知覚される位置を使用することに向けられる。

ある実施形態によれば、オーディオ処理方法は、一つまたは複数のオーディオ・オブジェクトを受領するステップを含み、前記一つまたは複数のオーディオ・オブジェクトのそれぞれは、位置情報を含む。本方法は、さらに、前記一つまたは複数のオーディオ・オブジェクトのうちの所与のオーディオ・オブジェクトについて、該所与のオーディオ・オブジェクトの位置情報に基づいて、複数のレンダラーのうちの少なくとも2つのレンダラー、たとえば、少なくとも2つのカテゴリーを有する前記少なくとも2つのレンダラーを選択するステップと；前記所与のオーディオ・オブジェクトの位置情報に基づいて、少なくとも2つの重みを決定するステップと；前記位置情報に基づいて、前記少なくとも2つの重みに基づいて重み付けされた前記少なくとも2つのレンダラーを使用して、前記所与のオーディオ・オブジェクトをレンダリングして、複数のレンダリングされた信号を生成するステップと；前記複数のレンダリングされた信号を組み合わせて、複数のスピーカー信号を生成するステップとを含む。本方法はさらに、複数のスピーカーから前記複数のスピーカー信号を出力するステップを含む。

前記少なくとも2つのカテゴリーは、音場レンダラー、ビームフォーマー、パンナー、およびバイノーラル・レンダラーを含んでいてもよい。

前記複数のレンダリングされた信号のうちの所与のレンダリングされた信号は、少なくとも1つの成分信号を含んでいてもよく、前記少なくとも1つの成分信号のそれぞれは、前記複数のスピーカーのそれぞれに関連し、前記複数のスピーカー信号のうちの所与のスピーカー信号は、前記複数のスピーカーのうちの所与のスピーカーのために、前記所与のスピーカーに関連する前記少なくとも1つの成分信号のすべてを組み合わせることに対応する。

第1のレンダラーが、第1のレンダリングされた信号を生成してもよい。前記第1のレンダリングされた信号は、第1のスピーカーに関連付けられた第1の成分信号と、第2のスピーカーに関連付けられた第2の成分信号とを含む。第2のレンダラーが、第2のレンダリングされた信号を生成することができ、前記第2のレンダリングされた信号は、前記第1のスピーカーに関連付けられた第3の成分信号と、前記第2のスピーカーに関連付けられた第4の成分信号とを含む。第1のスピーカーに関連する第1のスピーカー信号は、第1の成分信号と第3の成分信号とを組み合わせることに対応してもよい。第2のスピーカーに関連する第2のスピーカー信号は、第2の成分信号と第4の成分信号を組み合わせることに対応してもよい。

前記所与のオーディオ・オブジェクトをレンダリングすることは、前記複数のレンダラーのうちの所与のレンダラーについて、前記位置情報に基づく利得を適用して、前記複数のレンダリングされた信号のうちの所与のレンダリングされた信号を生成することを含んでいてもよい。

前記複数のスピーカーは、スピーカーの密な線形アレイを含んでいてもよい。

前記少なくとも2つのカテゴリーは、音場レンダラーを含んでいてもよく、前記音場レンダラーは、波面合成プロセスを実行する。

前記複数のスピーカーは、第1の方向に向けられる第1のグループと、第1の方向とは異なる第2の方向に向けられる第2のグループに配置されてもよい。第1の方向は前方成分を含んでいてもよく、第2の方向は垂直成分を含んでいてもよい。第2の方向は垂直成分を含んでいてもよく、ここで、前記少なくとも2つのレンダラーは、波面合成レンダラーおよび上方発射パン・レンダラーを含み、前記波面合成レンダラーおよび前記上方発射パン・レンダラーは、前記第2のグループのために前記複数のレンダリングされた信号を生成する。第2の方向は垂直成分を含んでいてもよく、ここで、前記少なくとも2つのレンダラーは、波面合成レンダラー、上方発射パン・レンダラー、およびビームフォーマーを含み、前記波面合成レンダラー、前記上方発射パン・レンダラー、および前記ビームフォーマーは、前記第2のグループのために前記複数のレンダリングされた信号を生成する。第2の方向は垂直成分を含んでいてもよく、前記少なくとも2つのレンダラーは、波面合成レンダラーと、上方発射パン・レンダラーと、側方発射パン・レンダラーとを含み、前記波面合成レンダラーと、前記上方発射パン・レンダラーと、前記側方発射パン・レンダラーとは、前記第2のグループのために、複数のレンダリングされた信号を生成する。第1の方向は前方成分を含んでいてもよく、第2の方向は側方成分を含んでいてもよい。第1の方向は前方成分を含んでいてもよく、前記少なくとも2つのレンダラーは、波面合成レンダラーを含み、前記波面合成レンダラーは、前記第1のグループのために前記複数のレンダリングされた信号を生成する。第2の方向は、側方成分を含んでいてもよく、前記少なくとも2つのレンダラーは、波面合成レンダラーおよびビームフォーマーを含み、前記波面合成レンダラーおよび前記ビームフォーマーは、前記第2のグループのために、前記複数のレンダリングされた信号を生成する。第2の方向は側方成分を含んでいてもよく、前記少なくとも2つのレンダラーは、波面合成レンダラーおよび側方発射パン・レンダラーを含み、前記波面合成レンダラーおよび前記側方発射パン・レンダラーは、前記第2のグループのために前記複数のレンダリングされた信号を生成する。

本方法は、さらに、前記一つまたは複数のオーディオ・オブジェクトのための前記複数のレンダリングされた信号を組み合わせて、前記複数のスピーカー信号を生成することを含んでいてもよい。

前記少なくとも2つのレンダラーは、直列のレンダラーを含んでいてもよい。

前記少なくとも2つのレンダラーは、振幅パンナー、複数のバイノーラル・レンダラー、および複数のビームフォーマーを含んでいてもよい。振幅パンナーは、位置情報に基づいて、前記所与のオーディオ・オブジェクトをレンダリングして、第1の複数の信号を生成するように構成されてもよい。前記複数のバイノーラル・レンダラーは、前記第1の複数の信号をレンダリングして、第2の複数の信号を生成するように構成されてもよい。前記複数のビームフォーマーは、前記第2の複数の信号をレンダリングして、第3の複数の信号を生成するように構成されてもよい。前記第3の複数の信号は、前記複数のスピーカー信号を生成するために組み合わされてもよい。

別の実施形態によれば、非一時的なコンピュータ読み取り可能媒体が、プロセッサによって実行されたときに本明細書で議論される方法ステップの一つまたは複数を含む処理を実行するよう装置を制御するコンピュータ・プログラムを記憶する。

別の実施形態によれば、オーディオを処理するための装置が、複数のスピーカー、プロセッサ、およびメモリを含む。プロセッサは、一つまたは複数のオーディオ・オブジェクトを受領するように当該装置を制御するように構成され、前記一つまたは複数のオーディオ・オブジェクトのそれぞれは、位置情報をそれぞれ含む。前記一つまたは複数のオーディオ・オブジェクトのうちの所与のオーディオ・オブジェクトについて、プロセッサは、前記所与のオーディオ・オブジェクトの位置情報に基づいて、複数のレンダラーのうちの少なくとも2つのレンダラーを選択するよう当該装置を制御するように構成され、前記少なくとも2つのレンダラーは少なくとも2つのカテゴリーを有し；プロセッサは、前記所与のオーディオ・オブジェクトの位置情報に基づいて、少なくとも2つの重みを決定するように当該装置を制御するように構成され；プロセッサは、前記位置情報に基づいて、前記少なくとも2つの重みに基づいて重み付けされた前記少なくとも2つのレンダラーを使って前記所与のオーディオ・オブジェクトをレンダリングして、複数のレンダリングされた信号を生成するように当該装置を制御するように構成され；プロセッサは、前記複数のレンダリングされた信号を組み合わせて、複数のスピーカー信号を生成するように当該装置を制御するように構成される。プロセッサは、前記複数のスピーカーから前記複数のスピーカー信号を出力するように当該装置を制御するように構成される。

当該装置は、本明細書に記載された方法と同様のさらなる詳細を含んでいてもよい。

別の実施形態によれば、オーディオ処理の方法は、一つまたは複数のオーディオ・オブジェクトを受領するステップを含み、前記一つまたは複数のオーディオ・オブジェクトのそれぞれは位置情報を含む。前記一つまたは複数のオーディオ・オブジェクトのうちの所与のオーディオ・オブジェクトについて、本方法は、前記位置情報に基づいて、第1のカテゴリーのレンダラーを使用して前記所与のオーディオ・オブジェクトをレンダリングして、第1の複数の信号を生成するステップと；第2のカテゴリーのレンダラーを使用して前記第1の複数の信号をレンダリングして、第2の複数の信号を生成するステップと；第3のカテゴリーのレンダラーを使用して前記第2の複数の信号をレンダリングして、第3の複数の信号を生成するステップと；前記第3の複数の信号を組み合わせて複数のスピーカー信号を生成するステップとをさらに含む。本方法はさらに、複数のスピーカーから前記複数のスピーカー信号を出力するステップを含む。

レンダラーの前記第1のカテゴリーは振幅パンナーに対応してもよく、レンダラーの前記第2のカテゴリーは複数のバイノーラル・レンダラーに対応してもよく、レンダラーの前記第3のカテゴリーは複数のビームフォーマーに対応してもよい。

本方法は、本明細書で論じられている他の方法に関して記載されているものと同様のさらなる詳細を含んでいてもよい。

別の実施形態によれば、オーディオを処理するための装置は、複数のスピーカー、プロセッサ、およびメモリを含む。プロセッサは、一つまたは複数のオーディオ・オブジェクトを受領するように当該装置を制御するように構成され、前記一つまたは複数のオーディオ・オブジェクトのそれぞれは、位置情報をそれぞれ含む。前記一つまたは複数のオーディオ・オブジェクトのうちの所与のオーディオ・オブジェクトについて、プロセッサは、位置情報に基づいて、第1のカテゴリーのレンダラーを使用して前記所与のオーディオ・オブジェクトをレンダリングして、第1の複数の信号を生成するように当該装置を制御するように構成され；プロセッサは、第2のカテゴリーのレンダラーを使用して、前記第1の複数の信号をレンダリングして、第2の複数の信号を生成するように当該装置を制御するように構成され；プロセッサは、第3のカテゴリーのレンダラーを使用して前記第2の複数の信号をレンダリングして、第3の複数の信号を生成するように当該装置を制御するように構成され；プロセッサは、前記第3の複数の信号を組み合わせて、複数のスピーカー信号を生成するように当該装置を制御するように構成される。プロセッサは、複数のスピーカーから前記複数のスピーカー信号を出力するように当該装置を制御するように構成される。

本装置は、本明細書で論じられる方法と同様のさらなる詳細を含んでいてもよい。

以下の詳細な説明および添付の図面は、さまざまな実装の性質および利点のさらなる理解を提供する。

レンダリング・システム100のブロック図である。オーディオ処理の方法200のフローチャートである。レンダリング・システム300のブロック図である。スピーカー・システム400のブロック図である。 AおよびBは、それぞれ、サウンドバー500の上面図および側面図である。室内におけるサウンドバー500（図のAおよびB参照）についての出力カバレッジを示す第1の上面図である。室内におけるサウンドバー500（図のAおよびB参照）についての出力カバレッジを示す第2の上面図である。室内におけるサウンドバー500（図のAおよびB参照）についての出力カバレッジを示す側面図である。レンダリング・システム700のブロック図である。 AおよびBは、それぞれ、サウンドバー500（図5のA参照）についての源分布の例を示す上面図および側面図である。 AおよびBは、オブジェクト・ベースのオーディオ（A）のスピーカー・アレイ（B）へのマッピングを示す上面図である。レンダリング・システム1100のブロック図である。室内におけるサウンドバー500（図5のAおよびB参照）において実装された、ビームフォーマー1120eおよび1120fについての出力カバレッジを示す上面図である。サウンドバー1200の上面図である。レンダリング・システム1300のブロック図である。レンダラー1400のブロック図である。レンダラー1500のブロック図である。レンダリング・システム1600のブロック図である。オーディオ処理の方法1700のフローチャートである。

本明細書では、オーディオ・レンダリングのための技法が記述される。以下の記述では、説明の目的で、本発明の十全な理解を提供するために、多数の例および個別的な詳細が記載される。しかしながら、特許請求の範囲によって定義される本発明は、これらの例における特徴の一部または全部を単独で、または以下に記載される他の特徴と組み合わせて含むことができ、さらに、本明細書に記載される特徴および概念の修正および均等物を含むことができることは、当業者にとって明らかであろう。

以下の記述では、さまざまな方法、プロセスおよび手順が詳述される。具体的なステップが、ある順序で記述されることがあるが、そのような順序は、主として、便宜上、明確のためである。特定のステップが2回以上繰り返されてもよく、他のステップの前または後に行われてもよく（たとえそれらのステップが別の順序で記述されていても）、他のステップと並列に行われてもよい。第2のステップが第1のステップの後にくることが要求されるのは、第2のステップが開始される前に第1のステップが完了しなければならない場合にのみである。そのような状況は、文脈から明確でない場合には、特に指摘されるであろう。

本稿において、用語「および」、「または」および「および／または」が使用される。そのような用語は、包含的な意味を有するものとして読まれるべきである。たとえば、「AおよびB」は、少なくとも：「AおよびBの両方」、「少なくともAおよびBの両方」を意味しうる。別の例として、「AまたはB」は、少なくとも：「少なくともA」、「少なくともB」、「AおよびBの両方」、「少なくともAおよびBの両方」を意味しうる。別の例として、「Aおよび／またはB」は、少なくとも：「AおよびB」、「AまたはB」を意味しうる。排他的離接が意図されるときは、その旨が具体的に記載される（たとえば、「AまたはBのいずれか一方」、「高々AおよびBの一方」）。

図1は、レンダリング・システム100のブロック図である。レンダリング・システム100は、分配モジュール110と、いくつかのレンダラー120（120a、120b、120cの3つが示されている）と、ルーティング・モジュール130とを含む。レンダラー120はいくつかの異なるカテゴリーに分類され、これらのカテゴリーはのちにより詳細に論じられる。レンダリング・システム100は、オーディオ信号150を受領し、オーディオ信号150をレンダリングし、いくつかのスピーカー信号170を生成する。スピーカー信号170のそれぞれは、スピーカー（図示せず）を駆動する。

オーディオ信号150は、オブジェクト・オーディオ信号であり、一つまたは複数のオーディオ・オブジェクトを含む。各オーディオ・オブジェクトは、オブジェクト・メタデータ152およびオブジェクト・オーディオ・データ154を含む。オブジェクト・メタデータ152は、オーディオ・オブジェクトについての位置情報を含む。位置情報は、オーディオ・オブジェクトのオブジェクト・オーディオ・データ154についての所望される知覚される位置に対応する。オブジェクト・オーディオ・データ154は、レンダリング・システム100によってレンダリングされ、スピーカー（図示せず）によって出力されるオーディオ・データに対応する。オーディオ信号150は、ドルビー（登録商標）アトモス（商標）フォーマット、アンビソニックス・フォーマット（たとえば、Bフォーマット）、Xperi社からのDTS:X（商標）フォーマットなどを含む、多様なフォーマットの一つまたは複数であってもよい。簡単のため、以下は、レンダリング・システム100の動作を記述するために単一のオーディオ・オブジェクトに言及するが、たとえばレンダラー120のうちの一つまたは複数のレンダラーの複数のインスタンスをインスタンス生成することによって、複数のオーディオ・オブジェクトが、同時並行して処理されてもよいことは理解される。たとえば、ドルビー（登録商標）アトモス（商標）システムの実装は、オーディオ信号150内の最大128個の同時オーディオ・オブジェクトを再生することができる。

分配モジュール110は、オーディオ信号150からオブジェクト・メタデータ152を受領する。分配モジュール110は、スピーカー構成情報156をも受領する。スピーカー構成情報156は、一般に、レンダリング・システム100に接続されたスピーカーの番号、構成、または物理的位置などの構成を示す。スピーカー位置が固定されている場合（たとえば、レンダリング・システム100を含む装置に物理的に取り付けられた構成要素である場合）、スピーカー構成情報156は静的であってもよく、スピーカーの位置が調整されうる場合には、スピーカーの構成情報156は動的であってもよい。動的な情報は、たとえば、スピーカーが移動されるときに、所望に応じて更新されてもよい。スピーカー構成情報156は、メモリ（図示せず）に記憶されてもよい。

オブジェクト・メタデータ152およびスピーカー構成情報156に基づいて、分配モジュール110は選択情報162および位置情報164を決定する。選択情報162は、スピーカー構成情報156に従ったスピーカーの配置を与えられて、オブジェクト・メタデータ152内の所与の位置情報についてオーディオ・オブジェクトをレンダリングするのに適した、レンダラー120のうちの2つ以上を選択する。位置情報164は、選択されたレンダラー120のそれぞれによってレンダリングされる源位置に対応する。一般に、位置情報164は、選択されたレンダラー120の間でオブジェクト・オーディオ・データ154を重み付けする重み付け関数とみなされてもよい。

レンダラー120は、オブジェクト・オーディオ・データ154と、スピーカー構成情報156と、選択情報162と、位置情報164とを受領する。レンダラー120は、スピーカー構成情報156を使用して、その出力を構成する。選択情報162は、オブジェクト・オーディオ・データ154をレンダリングするための、レンダラー120のうちの2つ以上を選択する。位置情報164に基づいて、選択されたレンダラー120のそれぞれは、オブジェクト・オーディオ・データ154をレンダリングして、レンダリングされた信号166を生成する（たとえば、レンダラー120aはレンダリングされた信号166aを生成し、レンダラー120bはレンダリングされた信号166bを生成する、など）。レンダラー120のそれぞれからのレンダリングされた信号166のそれぞれは、スピーカー構成情報156に従って構成された、スピーカー（図示せず）の1つのためのドライバー信号に対応する。たとえば、レンダリング・システム100が14個のスピーカーに接続されている場合、レンダラー120aは、最大14個のレンダリングされた信号166aを生成する。（所与のオーディオ・オブジェクトが、特定のスピーカーから出力されないようにレンダリングされる場合、レンダリングされた信号166のうちのその1つは、スピーカー構成情報156によって示されるところにより、ゼロである、または存在しないとみなされてもよい。）

ルーティング・モジュール130は、レンダラー120のそれぞれからのレンダリングされた信号166と、およびスピーカー構成情報156とを受領する。スピーカー構成情報156に基づいて、ルーティング・モジュール130は、レンダリングされた信号166を組み合わせて、スピーカー信号170を生成する。スピーカー信号170のそれぞれを生成するために、ルーティング・モジュール130は、各スピーカーのために、そのスピーカーに対応するレンダリングされた信号166のそれぞれを組み合わせる。たとえば、所与のスピーカーは、レンダリングされた信号166aの1つ、レンダリングされた信号166bの1つ、およびレンダリングされた信号166cの1つに関係していてもよく；ルーティング・モジュール130は、これら3つの信号を組み合わせて、スピーカー信号170のうち、その所与のスピーカーのための対応する1つを生成する。このようにして、ルーティング・モジュール130は、それぞれのスピーカー信号170を生成するために、適切なレンダリングされた信号166の混合機能を実行する。

音響の直線性のため、重ね合わせの原理により、レンダリング・システム100は、任意の所与のスピーカーを、レンダラー120のうちの任意の数のために同時並行して使用することができる。ルーティング・モジュール130は、各スピーカーについて、各レンダラー120からの寄与を加算することによってこれを実現する。これらの信号の合計がスピーカーを過負荷にしない限り、結果は、聴取者にとっての印象の点で、各レンダラーに独立なスピーカーが割り当てられる状況に対応する。

複数のオーディオ・オブジェクトが同時並行して出力されるようにレンダリングされる場合、ルーティング・モジュール130は、上述した単一のオーディオ・オブジェクトの場合と同様の方法で、レンダリングされた信号166を結合する。

図2は、オーディオ処理の方法200のフローチャートである。方法200は、レンダリング・システム100（図1参照）によって実行されてもよい。方法200は、たとえば、レンダリング・システム100がその動作を制御するために実行する、一つまたは複数のコンピュータ・プログラムによって実装されてもよい。

202では、一つまたは複数のオーディオ・オブジェクトが受領される。各オーディオ・オブジェクトは、それぞれ位置情報を含む。（たとえば、2つのオーディオ・オブジェクトAおよびBがそれぞれの位置情報PAおよびPBを有していてもよい。）例として、レンダリング・システム100（図1参照）は、オーディオ信号150において一つまたは複数のオーディオ・オブジェクトを受領してもよい。各オーディオ・オブジェクトについて、方法は204に続く。

204では、所与のオーディオ・オブジェクトについて、該所与のオーディオ・オブジェクトの位置情報に基づいて、少なくとも2つのレンダラーが選択される。任意的に、前記少なくとも2つのレンダラーは、少なくとも2つのカテゴリーを有する。（もちろん、特定のオーディオ・オブジェクトは、単一のカテゴリーのレンダラーを使用してレンダリングされてもよい；そのような状況は、本明細書で論じられる複数カテゴリーの状況と同様に動作する。）たとえば、位置情報が、そのオーディオ・オブジェクトをレンダリングするために特定の2つのレンダラー（特定の2つのカテゴリーを有する）が適切であることを示す場合、それらの2つのレンダラーが選択される。レンダラーは、スピーカー構成情報156（図1参照）に基づいて選択されてもよい。一例として、分配モジュール110は、オブジェクト・メタデータ152内の位置情報およびスピーカー構成情報156に基づいて、レンダラー120のうちの少なくとも2つを選択するために選択情報162を生成することができる。

206では、所与のオーディオ・オブジェクトについて、少なくとも2つの重みが位置情報に基づいて決定される。重みは、204で選択されたレンダラーに関連する。例として、分配モジュール110（図1参照）は、オブジェクト・メタデータ152内の位置情報およびスピーカー構成情報156に基づいて（重みに対応する）位置情報164を生成することができる。

208では、所与のオーディオ・オブジェクトは、位置情報に基づいて、重み（206参照）に従って重み付けされた選択されたレンダラー（204参照）を使用してレンダリングされて、複数のレンダリングされた信号を生成する。例として、レンダラー120（図1参照；選択情報162に従って選択される）は、位置情報164に従って重み付けされた、オブジェクト・オーディオ・データ154から、レンダリングされた信号166を生成する。この例を続けると、レンダラー120a、120bが選択されると、レンダリングされた信号166a、166bが生成される。

210では、複数のレンダリングされた信号（208参照）が組み合わされて、複数のスピーカー信号を生成する。所与のスピーカーについて、スピーカー信号を生成するために、対応するレンダリングされた信号166が合計される。所与のスピーカーを過負荷にするのを防止するために、スピーカー信号は、最大信号レベルを超える場合には減衰させられてもよい。例として、ルーティング・モジュール130は、レンダリングされた信号166を組み合わせて、スピーカー信号170を生成することができる。

212では、複数のスピーカー信号（210参照）は、複数のスピーカーから出力される。

複数のオーディオ・オブジェクトが同時並行して出力される場合、方法200は同様に動作する。たとえば、複数の所与のオーディオ・オブジェクトは、204‐206‐208の複数の経路を使って並列に処理されてもよく、該複数のオーディオ・オブジェクトに対応するレンダリングされた信号が組み合わされてスピーカー信号を生成する（210参照）。

図3は、レンダリング・システム300のブロック図である。レンダリング・システム300は、レンダリング・システム100（図1参照）を実装するため、または方法200（図2参照）のステップの一つまたは複数を実行するために使用されてもよい。レンダリング・システム300は、レンダリング・システム100を実装するため、または方法200を実行するために、一つまたは複数のコンピュータ・プログラムを記憶し、実行してもよい。レンダリング・システム300は、バス310によって接続された、メモリ302、プロセッサ304、入力インターフェース306、および出力インターフェース308を含む。レンダリング・システム300は、（簡潔のために）図示されていない他の構成要素を含んでいてもよい。

メモリ302は、一般に、レンダリング・システム300によって使用されるデータを記憶する。メモリ302は、レンダリング・システム300の動作を制御する一つまたは複数のコンピュータ・プログラムをも記憶してもよい。メモリ302は、揮発性コンポーネント（たとえば、ランダム・アクセス・メモリ）および不揮発性コンポーネント（たとえば、固体メモリ）を含んでいてもよい。メモリ302は、スピーカー構成情報156（図1参照）または図1の他の信号に対応するデータ、たとえばオブジェクト・メタデータ152、オブジェクト・オーディオ・データ154、レンダリングされた信号166などを記憶してもよい。

プロセッサ304は、一般に、レンダリング・システム300の動作を制御する。レンダリング・システム300がレンダリング・システム100（図1参照）を実装するとき、プロセッサ304は、分配モジュール110、レンダラー120、およびルーティング・モジュール130に対応する機能を実装する。

入力インターフェース306は、オーディオ信号150を受領し、出力インターフェース308は、スピーカー信号170を出力する。

図4は、スピーカー・システム400のブロック図である。スピーカー・システム400は、レンダリング・システム402と、いくつかのスピーカー404（404a、404b、404c、404d、404eおよび404fの6つが示されている）とを含む。スピーカー・システム400は、これらの構成要素の全部を含む単一の装置（たとえば、サウンドバー形状因子）として構成されてもよい。スピーカー・システム400は、別個の諸装置として構成されてもよい（たとえば、レンダリング・システム402が1つの構成要素であり、スピーカー404が一つまたは複数の他の構成要素）。

レンダリング・システム402は、レンダリング・システム100（図1参照）に対応してもよく、オーディオ信号150を受領し、スピーカー信号170（図1参照）に対応するスピーカー信号406を生成する。レンダリング・システム402の構成要素は、レンダリング・システム300（図3参照）の構成要素と同様であってもよい。

スピーカー404は、スピーカー信号406（406a、406b、406c、406d、406eおよび406fの6つが示されている）に対応する聴覚信号（図示せず）を出力する。スピーカー信号406は、スピーカー信号170（図1参照）に対応してもよい。スピーカー404は、図3の312に関して上述したようにスピーカー信号を出力してもよい。

レンダラーのカテゴリー
上述のように、レンダラー（たとえば、図1のレンダラー120）は、さまざまなカテゴリーに分類される。レンダラーの4つの一般的なカテゴリーは、音場レンダラー、バイノーラル・レンダラー、パンニング・レンダラー、およびビームフォーミング・レンダラーを含む。上述したように（図2の204を参照）、所与のオーディオ・オブジェクトについて、選択されたレンダラーは、少なくとも2つのカテゴリーを有する。たとえば、オブジェクト・メタデータ152およびスピーカー構成情報156（図1参照）に基づいて、分配モジュール110は、所与のオーディオ・オブジェクトをレンダリングするために、（レンダラー120のうちの）音場レンダラーおよびビームフォーミング・レンダラーを選択することができる。

レンダラーの4つの一般的なカテゴリーの追加的な詳細は、以下に提供される。カテゴリーがレンダラーのサブカテゴリーを含む場合、レンダラーの異なるカテゴリーへの言及はレンダラーの異なるサブカテゴリーに同様に適用可能であることに留意されたい。本明細書に記載されるレンダリング・システム（たとえば、図1のレンダリング・システム100）は、レンダラーのこれらのカテゴリーのうちの一つまたは複数を実装してもよい。

音場レンダラー
一般に、音場レンダリングは、所与の空間体積における特定の音圧（音）場を再現することを目的とする。音場レンダラーのサブカテゴリーは、波動場合成、近接場補償高次アンビソニックス、およびスペクトル分割を含む。音場レンダリング方法の1つの重要な機能は、近距離場に仮想源を投影できることである。これは、聴取者にとって自分とスピーカーとの間の位置に定位される音源を生成することを意味する。そのような効果は、バイノーラル・レンダラーについても可能であるが（後述）、ここでは、正しい定位印象が広い聴取領域にわたって生成できることが特に重要である。

バイノーラル・レンダラー
バイノーラル・レンダリング法は、源位置に関連する両耳手がかりを模倣するように処理された源信号を伝える信号を聴取者の耳に届けることに焦点を当てる。そのような信号を届けるための、より簡単な方法は、普通にはヘッドフォンを介して行われるが、スピーカー・システムでも、個別の左耳および右耳のフィードを聴取者に届けるためにクロストークキャンセラを使用することによって、うまく実現できる。

パンニング・レンダラー
パンニング法は、基本的な聴覚機構（たとえば、両耳間のラウドネスや時間差の変化）を直接利用して、複数のスピーカーに送られる前に源信号に適用される遅延および／または利得差を通じて、音像を動かす。利得差分のみを使用する振幅パンナーは、その単純な実装および安定した知覚的印象のため、人気がある。これらは、ステレオシステムや伝統的な映画館コンテンツ・レンダリングなど、多くの消費者オーディオ・システムにおいて展開されている。（任意のスピーカー・アレイのための好適な振幅パンナー設計の例は、V. Pulkki、"Virtual sound source positioning using vector base amplitude panning"、Journal of the Audio Engineering Society, vol.45, no.6, pp.456-466, 1997.において与えられている）最後に、再生環境からの反射を使用する方法は、一般に、システムからの空間的印象を操作するために同様の原理に依拠する。

ビームフォーミング・レンダラー
ビームフォーミングは、もともとは、一組の好ましい方向から来る信号を増幅する手段として、センサー・アレイ（たとえば、マイクロフォン・アレイ）用に設計された。音響学における相反性の原理のおかげで、同じ原理は、方向性のある音響信号を生成するために利用できる。特許文献７は、合焦した源の使用を通じて仮想スピーカーを生成するためのビームフォーミングの使用を記載している。

レンダリング・システムの考慮事項
上述のレンダリング・システムのカテゴリーは、スイートスポットおよびレンダリングされる源位置に関していくつの考慮事項を有する。スイートスポットは、一般に、聴取者の知覚メトリックに従って、レンダリングが許容可能であると考えられるスペースに対応する。そのような領域の正確な範囲の定義は、一般に、レンダリングの知覚的品質をうまく捕捉する解析的メトリックがないために、不完全であるが、一般に、典型的な誤差メトリック（たとえば、二乗誤差）から定性的情報を導出し、異なる構成の異なるシステムを比較することが可能である。たとえば、一般的な観察結果は、周波数が高いほどスイートスポットは小さくなる（レンダラーの全カテゴリーについて）ということである。一般に、スイートスポットは、スイートスポットは、システムにおいて利用可能なスピーカーの数とともに増大することも観察できる。ただし、パンニング法ではスピーカーの追加には異なる利点がある。

異なるレンダリング・システム・カテゴリーは、さまざまな源位置で知覚されるオーディオを提供する仕方と、そのためにそれらが有する機能においても異なることがある。音場レンダリング方法は、一般に、聴取者の観点からスピーカー・アレイの方向の任意の場所に仮想源を生成することを許容する。それらの方法の一つの側面は、それらが、音源の知覚される距離の操作を、透明な仕方で、かつ、聴覚領域全体の視点から許容するということである。バイノーラル・レンダリング法は、理論的にスイートスポット内の任意の源位置を提供することができる。ただし、それらの位置に関連する両耳情報が以前に記憶されていることを前提とする。最後に、パンニング方法は、十分近接した（たとえば、約60度、たとえば55～65度の間の角度）スピーカーのペア／トリオが聴取者の観点から利用可能である任意の源方向を送達することができる。（しかしながら、パンニング方法は一般に、源距離を扱う特定の方法を定義しないので、距離成分が望まれる場合は、追加の戦略を使用する必要がある。）

加えて、いくつかのレンダリング・システム・カテゴリーは、源位置とスイートスポットとの間の相互依存性を示す。たとえば、（音場レンダリング・カテゴリーにおいて）波面合成プロセスを実装するスピーカーの直線アレイの場合、アレイの背後の中央における源位置は、アレイの前の大きなスイートスポットにおいて知覚されうるのに対して、アレイの手前にある、横にずれた源位置は、より小さな、中心から外れたスイートスポットにおいて知覚されうる。

詳細な実施形態
上述の考察から、実施形態は、2つ以上のレンダリング方法を組み合わせて使用することに向けられ、選択されたレンダリング方法間の相対的な重みはオーディオ・オブジェクトの位置に依存する。

消費者用途において多数のスピーカーを使用することを許容するハードウェアの利用可能性が増すとともに、複雑なレンダリング戦略を使用する可能性がますます魅力的になる。実際、スピーカーの数は依然として限られているため、単一のレンダリング方法を使用するのでは、一般に、スイートスポットの範囲に関して、一般に、強い制限が生じる。さらに、複雑な戦略は、複雑なスピーカー・セットアップ、たとえば、一部の領域でのサラウンド・カバレッジのいくらかの欠損、または単にスピーカー密度の欠如などに対処する可能性がある。しかしながら、それらの再生方法の標準的な制限が残っており、所与の数のチャネルについて、カバレッジ（可能な源位置の、より広い範囲を有するための可能な最大のアレイ）と密度（エイリアシングによる高周波数歪みをできるだけ回避するための可能な最も高密度のアレイ）との間の必要な妥協につながる。

上記の点に鑑み、実施形態は、オブジェクト・ベースのオーディオ・コンテンツをレンダリングするために、一緒に駆動される複数のタイプのレンダラーを使用することに向けられる。たとえば、レンダリング・システム100（図1参照）では、分配モジュール110は、（1）レンダラー120のうちのどれをアクティブ化するか（選択情報162）、および（2）それぞれのアクティブ化されたレンダラーによってレンダリングされる源位置（位置情報164）を決定するために、オブジェクト・メタデータ152およびスピーカー構成情報156に基づいて、オブジェクト・ベースのオーディオ・コンテンツを処理する。次いで、それぞれの選択されたレンダラーは、位置情報164に従ってオブジェクト・オーディオ・データ154をレンダリングし、レンダリングされた信号166を生成し、それをルーティング・モジュール130がシステム内の適切なスピーカーにルーティングする。ルーティング・モジュール130は、所与のスピーカーの、複数のレンダラーによる使用を許容する。このようにして、レンダリング・システム100は、分配モジュール110を使用して、各オーディオ・オブジェクトをレンダラー120に分配し、それが所望される聴取領域において、意図された空間的印象を効果的に伝達する。

K個のスピーカー（k＝1…K）のシステムについては、R個の異なるレンダラー（r＝1...R）を用いてO個のオブジェクト（o＝1...O）をレンダリングすると、各スピーカーkの出力は次式によって与えられる。

上記の式において：
s_k(t)：スピーカーkからの出力信号
s_o(t)：オブジェクト信号
w_r：オブジェクト位置→x_oの関数としてのレンダラーrのアクティブ化（実スカラーまたは実フィルタでありうる）
δ_k∈r：インジケータ関数。スピーカーkがレンダラーrに取り付けられている場合は1であり、それ以外の場合は0
D_k ^(r)：オブジェクト位置→x_r ^(o)の関数としてレンダラーrによって指揮されるスピーカーkの駆動関数（実スカラーまたは実フィルタでありうる）

〔便宜上→x_oと記すことがある〕：メタデータによるオブジェクト位置

〔便宜上→x_r ^(o)と記すことがある〕：オブジェクトoについてレンダラーrを駆動するために使用されるオブジェクト位置（→x_oに等しいこともある）。

レンダラーrについてのレンダラー・タイプは駆動関数D_k ^(r)に反映される。所与のレンダラーの特定の挙動は、そのタイプおよびそれが駆動するスピーカーの利用可能なセットアップ（δ_k∈rによって決定される）によって決定される。所与のオブジェクトの、レンダラー間での分配は、アクティブ化係数w_rおよびレンダラーrによって制御される空間内での所与のオブジェクトoのマッピングを通じて、分配アルゴリズムによって制御される。

上記の式をレンダリング・システム100（図1参照）に当てはめると、各s_kは、スピーカー信号170のうちの1つに対応し、s_oは、所与のオーディオ・オブジェクトについてのオブジェクト・オーディオ・データ154に対応し、w_rは選択情報162に対応し、δ_k∈rはスピーカー構成情報156（たとえば、ルーティング・モジュール130によって実行されるルーティングを構成する）に対応し、D_k ^(r)はレンダラー120のそれぞれについてのレンダリング関数に対応し、→x_oおよび→x_r ^(o)は位置情報164に対応する。w_rとD_k ^(r)の組み合わせは、所与のオーディオ・オブジェクトについての選択されたレンダラー間の相対的な重みを提供する重みとみなすことができる。

上記の式は時間領域で書かれているが、例示的な実装は、たとえばフィルタバンクを使用して、周波数領域で動作してもよい。そのような実装は、オブジェクト・オーディオ・データ154を周波数領域に変換し、上記の式の演算を周波数領域で実行し（たとえば、畳み込みが乗算になるなど）、次いで結果を逆変換して、レンダリングされた信号166またはスピーカー信号170を生成することができる。

図5のAおよびBは、それぞれ、サウンドバー500の上面図および側面図である。サウンドバー500は、レンダリング・システム100（図1参照）を実装してもよい。サウンドバー500は、線形アレイ502（12個のスピーカー502a、502b、502c、502d、502e、502f、502g、502h、502i、502j、502k、および502lを有する）および上方発射グループ504（2個のスピーカー504aおよび504bを含む）を含むいくつかのスピーカーを含む。スピーカー502aは、左端スピーカーと称されてもよく、スピーカー502lは、右端スピーカーと称されてもよく、スピーカー504aは、上方左スピーカーと称されてもよく、スピーカー504bは、上方右スピーカーと称されてもよい。スピーカーの数およびその配置は、所望に応じて調整されうる。

サウンドバー500は、たとえばホームシアター構成における消費者使用に好適であり、接続されたテレビジョンまたはオーディオ／ビデオ・レシーバーからその入力を受け取ることができる。サウンドバー500は、たとえば、テレビジョン画面の上または下に置かれてもよい。

図6A、6B、および6Cはそれぞれ、室内におけるサウンドバー500（図5のAおよびB参照）についての出力カバレッジを示す、第1の上面図、第2の上面図、および側面図である。図6Aは、線形アレイ502によって生成される近接場出力602を示す。近接場出力602は、一般に、線形アレイ502の前方から外方に投射される。図6Bは、ビームフォーミングを使用して線形アレイ502によって生成される仮想的な側方出力604aおよび604bを示す。仮想的な側方面出力604aおよび604bは、壁に対するビームフォーミングの結果として生じる。図6Cは、上方発射グループ504によって生成される仮想的な上出力606を示す。（一般に聴取者の平面内にある図6Aの近接場出力602も示されている。）仮想的な上出力606は、天井による反射から生じる。所与のオーディオ・オブジェクトについて、サウンドバー500は、オーディオ・オブジェクトの知覚される位置をその位置メタデータに適合させるために、たとえば、ルーティング・モジュール130（図1参照）のようなルーティング・モジュールを使用して、これらの出力のうちの2つ以上を組み合わせることができる。

図7は、レンダリング・システム700のブロック図である。レンダリング・システム700は、サウンドバー500（図5A参照）に適したレンダリング・システム100（図1参照）の特定の実施形態である。レンダリング・システム700は、レンダリング・システム300（図3参照）の構成要素を使用して実装されてもよい。レンダリング・システム100と同様に、レンダリング・システム700は、オーディオ信号150を受領する。レンダリング・システム700は、分配モジュール710と、4つのレンダラー720a、720b、720c、および720d（集合的にレンダラー720）と、ルーティング・モジュール730とを含む。

分配モジュール710は、分配モジュール110（図1参照）と同様の仕方で、オブジェクト・メタデータ152およびスピーカー構成情報156を受領し、選択情報162および位置情報164を生成する。

レンダラー720は、オブジェクト・オーディオ・データ154、スピーカー構成情報156、選択情報162、および位置情報164を受領し、レンダリングされた信号766a、766b、766c、および766d（集合的にレンダリングされた信号766）を生成する。レンダラー720は、他の点ではレンダラー120（図1参照）と同様に機能する。レンダラー720は、波面レンダラー720a、左ビームフォーマー720b、右ビームフォーマー720c、および垂直パンナー720dを含む。波面レンダラー720aは、近接場出力602（図6A参照）に対応するレンダリングされた信号766aを生成する。左ビームフォーマー720bは、仮想的な側方出力604a（図6B参照）に対応するレンダリングされた信号766bを生成する。右ビームフォーマー720cは、仮想的な側方出力604b（図6B参照）に対応するレンダリングされた信号766cを生成する。垂直パンナー720dは、仮想的な上出力606（図6C参照）に対応するレンダリングされた信号766dを生成する。

ルーティング・モジュール730は、スピーカー構成情報156およびレンダリングされた信号766を受領し、ルーティング・モジュール130（図1参照）と同様の仕方でレンダリングされた信号766を組み合わせて、スピーカー信号770aおよび770b（集合的に、スピーカー信号770）を生成する。ルーティング・モジュール730は、レンダリングされた信号766a、766b、および766cを組み合わせて、線形アレイ502（図5A参照）のスピーカーに供給されるスピーカー信号770aを生成する。ルーティング・モジュール730は、レンダリングされた信号766dを、スピーカー信号770bとして、上方発射グループ504（図5A参照）のスピーカーにルーティングする。

オーディオ・オブジェクトの知覚される位置が聴取環境にわたって変化するので、分配モジュール710は、図6A、6B、および6Cの異なる領域の間でのなめらかな知覚される音源の動きをもたらすように、さまざまなレンダラー720の間で（位置情報164を使用して）クロスフェードを実行する。

図8のAおよびBはそれぞれ、サウンドバー500（図5A参照）についての源分布の例を示す上面図および側面図である。オーディオ信号150（図1参照）における特定のオーディオ・オブジェクトについて、オブジェクト・メタデータ152は、サイズ1×1×1の仮想立方体内の所望される知覚される位置を定義する。この仮想立方体は、たとえば分配モジュール110（図1参照）または分配モジュール710（図7参照）によって、位置情報164を使用して、聴取環境内の立方体にマッピングされる。

図8Aは、点902が（0,0）、点904が（1,0）、点906が（0,－0.5）、点908が（1,－0.5）にある水平面（x,y）を示す。（これらの点は「X」でマークされている。）次いで、オーディオ・オブジェクトの知覚される位置は、仮想立方体から、これらの4点によって定義される長方形領域920にマッピングされる。この平面は、この次元における仮想立方体の半分のみであり、y＞0.5（たとえば、聴取者位置910の背後）の源は、聴取者位置910の前の点906と908との間の線上に配置されることに留意されたい。点902および904は、聴取環境の前方壁にあると考えられてもよい。領域920（たとえば、点902と904との間）の幅は、線形アレイ502（図5Aも参照）の側面（またはそのわずかに内側）とほぼ整列される。

図8Bは、点902が（0,0）、点906が（－0.5,0）、点912が（0,1）、点916が（－0.5,1）にある垂直面（x,z）を示す。次いで、オーディオ・オブジェクトの知覚された位置が、仮想立方体から、これらの4点によって定義される長方形領域930にマッピングされる。図8Aと同様に、図8Bでは、y＞0.5（たとえば、聴取者位置910の背後）の源は点906と916との間の線上に配置される。点912および916は、聴取環境の天井にあると考えられてもよい。領域930の底部は、線形アレイ502のレベルで整列される。

図8Aでは、水平面内の台形922に着目されたい。その長い底が点902と904との間の領域920の一辺に整列され、その短い底が聴取者位置910の前（点906と908との間の線上）に整列されている。システムは、台形922内に所望される知覚される位置をもつ音源を、台形922外（だが領域920内）の音源から区別する。台形922内では、源は、ビームフォーマー（たとえば、図7の720bおよび720c）を使用することなく再生され、代わりに、音場レンダラー（たとえば、図7の720a）が、源を再生するために使用される。台形922の外側では、源は、水平面内のビームフォーマー（たとえば、720bおよび720c）および音場レンダラー（たとえば、720a）の両方を使用して再生されてもよい。特に、音場レンダラー720aは、音源が左に位置する場合には源を台形922の左端（at the very left）に、同じ座標yで配置し（音源が右に位置する場合には右端）、一方、2つのビームフォーマー720bおよび720cは、パンを通じて互いの間にステレオ・ファントム源を生成する。2つのビームフォーマー720bと720cとの間の左右パン因子は、一定エネルギーの振幅パン規則に従い、x＝0を左ビームフォーマー720bのみに、x＝1を右ビームフォーマー720cのみにマッピングしてもよい。（分配モジュール710は、位置情報164を使用して、たとえば重みを使って、この振幅パン規則を実装することができる。）システムは、音場レンダラー720aとビームフォーマー720b～720cの対との間に一定エネルギーのクロスフェード規則を適用し、音源が台形922から離れて配置されるにつれて、ビームフォーマー720b～720cからの音エネルギーが増加し、音場レンダラー720aからの音エネルギーが減少するようにする。（分配モジュール710は、位置情報164を使用して、このクロスフェード規則を実装してもよい。）

z次元（図8B参照）では、システムは、ビームフォーマー720b～720cと音場レンダラー720aとの組み合わせに供給される信号と、上方発射グループ504に供給される垂直パンナー720dによってレンダリングされるレンダリングされた信号766dとの間に、一定エネルギーのクロスフェード規則を適用する（図5Aおよび5B参照）。クロスフェード因子は、z座標に比例し、z＝0は、信号のすべてがビームフォーマー720b～720cおよび音場レンダラー720aを通じてレンダリングされることに対応し、z＝1は、信号のすべてが垂直パンナー720dを用いてレンダリングされることに対応する。垂直パンナー720dによって生成されたレンダリングされた信号766dは、一定エネルギーの振幅パン規則を使用して、2つのチャネル間で（2つのスピーカー504aおよび504bに）分配され、x＝0を左スピーカー504aのみに、x＝1を右スピーカー504bのみにマッピングする。（分配モジュール710は、位置情報164を使用して、この振幅パン規則を実装することができる）。

図9のAおよびBは、オブジェクト・ベースのオーディオ（A）の、スピーカー・アレイ（B）へのマッピングを示す上面図である。図9のAは、（0,0）の点1002、（1,0）の点1004、（0,1）の点1006、（1,1）の点1008によって定義される水平な正方形領域1000を示す。点1003は、点1002と1006との間の中点にある（0,0.5）にあり、点1007は、点1004と1008との間の中点にある（1,0.5）にある。点1005は、正方形領域1000の中心（0.5、0.5）にある。点1002、1004、1012、および1014は、台形1016を定義する。台形1016の側辺に隣接する2つのゾーン1020および1022は、指定されたx方向に0.25単位の幅を有する。ゾーン1020および1022の側辺には、三角形1024および1026が隣接する。オーディオ・オブジェクトは、そのメタデータ（たとえば、図1のオブジェクト・メタデータ152）に従って、正方形領域1000内の所望される知覚される位置を有してもよい。水平な正方形1000を使用するオブジェクト・オーディオシステムの例は、ドルビー・アトモス（登録商標）システムである。

図9Bは、点1052、1054、1053、および1057によって定義される領域1050に対する正方形領域1000（図9A参照）の一部のマッピングを示す。正方形領域1000（点1002、1004、1003および1007によって定義される）の半分のみが領域1050にマッピングされ、正方形領域1000の他の半分における知覚される位置は、点1053と1057との間の線上にマッピングされることに留意されたい。（これは、図8Aにおいて上述したことと同様である。）スピーカー・アレイ1059は領域1050内にあり、スピーカー・アレイ1059の幅は、領域1050の幅Lに対応する。正方形領域1000（図9A参照）と同様に、領域1050は、台形1056、台形1056の側辺に隣接する2つのゾーン1070および1072、ならびに2つの三角形1074および1076を含む。ゾーン1070および1072は、ゾーン1020および1022（図9A参照）に対応し、三角形1074および1076は、三角形1024および1026（図9A参照）に対応する。台形1056の長い底は、領域1050の幅Lに対応し、短い底は、幅lに対応する。台形1056の高さは（H－h）であり、ここで、Hは、台形1056を含む大きな三角形に対応し、長い底（幅Lを有する）から点1075まで延び、hは、短い底（幅lを有する）から点1075まで延びる小さな三角形の高さに対応する。のちにさらに詳述するように、ゾーン1070および1072内では、システムは、レンダラーのカテゴリー間に一定エネルギーのクロスフェード規則を実装する。

より正確には、スピーカー・アレイ1059（図9B参照）の出力は、以下のように記述されうる。スピーカー・アレイ1059は、M個のスピーカー（左から右へm＝1,…,M）を有する。それらのスピーカーは以下のように駆動される：

因子θ_NF/B(x₀,y₀)は、近接場波面合成レンダラー720aとビームフォーマー720b～720c（図7参照）との間のバランスを駆動する。それは、台形1056について図9Bに呈示されている記法を用いて定義され、y₀≦1/2については、以下のようになる：

そしてy₀＞1/2については、

となる。

波面レンダラー720aを用いた近接場における源の位置決めは、規則：

に従う。

駆動関数は、周波数領域で書かれる。アレイ平面の背後（たとえば、点1052と点1054との間の線上のようなスピーカー・アレイ1059の背後）の源については：

そして、アレイ平面の前（たとえば、スピーカー・アレイ1059の前）では、最後の項のみが変わることに注意されたい：

これらの式では、最後の項は、アレイ平面（たとえば、スピーカー・アレイ1059によって定義される）の前後の局在化される源について2.5D波面合成理論における振幅および遅延制御値に対応する。（波面合成理論の概要は、非特許文献５によって提供される。）他の係数は以下のように定義される：
ω：周波数（rad/s）
α：窓関数。打ち切りアーチファクトを制限し、源と聴取位置の関数として局所的な波面合成を実装する
EQ_m：スピーカー応答の歪みを補償する等化フィルタ
PreEQ：2.5次元効果と打ち切り効果を補償するプレ等化フィルタ。
→x_l：任意の聴取位置。

ビームフォーマー720b～720cに関して、システムは、線形スピーカー・アレイ1059の左半分の構成に適合されたM/2個のスピーカー遅延および振幅の集合を事前に計算する。周波数領域では、それは各スピーカーmと周波数ωについてフィルタ係数B_m(ω)を与える。すると、スピーカー・アレイの左半分（m＝1…M/2）についてのビームフォーマー駆動関数は、周波数領域で

のように定義されたフィルタである。

上記の式で、EQ_mは、スピーカー応答の歪みを補償する等化フィルタである（式（1）および（2）と同じフィルタ）。このシステムは対称セットアップ用に設計されており、よって、アレイの右半分のためにビーム・フィルタを反転させるだけで他方のビームを得ることができる。よって、m＝M/2,…,Mについて、

となる。

2つの上方発射スピーカー504a～504b（図5参照）に提供されるスピーカー信号770bに対応するレンダリングされた信号766d（図7参照）は、次のように信号s_ULおよびs_URに対応する：

ある実施形態によれば、垂直パンナー720d（図7参照）は、プレフィルタリング・ステージを含む。プレフィルタリング・ステージは、高さ座標z₀に比例して高さ知覚フィルタHを適用する。その場合、所与のz₀についての適用されるフィルタは(1－z₀)＋z₀(H/2)である。

図10は、レンダリング・システム1100のブロック図である。レンダリング・システム1100は、サウンドバー500（図5A参照）における実装に好適なレンダリング・システム700（図7参照）の変形である。レンダリング・システム1100は、レンダリング・システム300（図3参照）の構成要素を使用して実装されてもよい。レンダリング・システム1100の構成要素は、レンダリング・システム700の構成要素に類似しており、同様の参照番号を使用する。レンダリング・システム1100はまた、第2の対のビームフォーマー1120eおよび1120fを含む。左ビームフォーマー1120eはレンダリングされた信号1166dを生成し、右ビームフォーマー1120fはレンダリングされた信号1166eを生成し、ルーティング・モジュール730は、他のレンダリングされた信号766a、766b、および766cと組み合わさって、スピーカー信号770aを生成する。それらの出力がそれ自体で考慮されるときは、図11に示されるように、左ビームフォーマー1120eは仮想的な左後方源を生成し、右ビームフォーマー1120fは仮想的な右後方源を生成する。

図11は、室内のサウンドバー500（図5Aおよび5B参照）において実装された、ビームフォーマー1120eおよび1120fについての出力カバレッジを示す上面図である。（レンダリング・システム1100の他のレンダラーについての出力カバレッジは、図6A～6Cに示される通りである。）仮想左後方出力1206aは、部屋の左壁および後壁から反射される信号を生成する左ビームフォーマー1120e（図10参照）から生じる。仮想的な右後方出力1206bは、部屋の右壁および後壁から反射される信号を生成する右ビームフォーマー1120f（図10参照）から生じる。（1206aおよび1206bが聴取者の背後で重なる三角形領域に注意。）所与のオーディオ・オブジェクトについて、サウンドバー500は、図11の出力カバレッジを、たとえば、ルーティング・モジュール730（図10参照）のようなルーティング・モジュールを用いて、図6A～6Cの出力カバレッジの一つまたは複数と組み合わせてもよい。

図6A～図6Cおよび図11の出力カバレッジは、サウンドバー500（図5Aおよび図5B参照）が、伝統的な7.1チャネル（または7.1.2チャネル）サラウンドサウンドシステムにおけるスピーカーの代わりに使用されうる様子を示す。7.1チャネル・システムの左、中央、および右スピーカーは、音場レンダラー720a（図7参照）によって駆動される線形アレイ502によって置き換えられてもよく、その結果、図6Aに示される出力カバレッジが生じる。7.1.2チャネル・システムの上スピーカーは、垂直パンナー720dによって駆動される上方発射グループ504によって置き換えられてもよく、図6Cに示される出力カバレッジを生じる。7.1チャネル・システムの左および右サラウンドスピーカーは、ビームフォーマー720bおよび720cによって駆動される線形アレイ502によって置き換えられてもよく、図6Bに示される出力カバレッジを生じる。7.1チャネル・システムの左および右サラウンドスピーカーは、ビームフォーマー1120eおよび1120f（図10参照）によって駆動される線形アレイ502によって置き換えられてもよく、図11に示される出力カバレッジを生じる。上記で論じたように、システムは、複数のレンダラーが、オーディオ・オブジェクトのための適切な知覚される位置を生成するために、それらの組み合わされた出力カバレッジに従ってオーディオ・オブジェクトをレンダリングすることを可能にする。

まとめると、本明細書に記載されるシステムは、映画コンテンツの大部分が位置すると期待され（スクリーン位置と一致するので）、人間の定位精度が最大である前方において最大分解能（たとえば、近距離場レンダラー）をもち、後方では、典型的な映画コンテンツについてそれほど決定的でないことがありうる横方向および高さのレンダリングは、より粗いままであるレンダリング・システムを有するという利点を有する。これらのシステムの多くは、比較的コンパクトなままであり、典型的な視覚装置の付近に（たとえば、テレビジョン画面の上または下に）合理的に統合できる。留意すべき一つの特徴は、スピーカー・アレイが、重ね合わせ原理のおかげで多数のビームを同時並行して生成するために使用でき（たとえば、ルーティング・モジュールを使用して組み合わされる）、ずっと複雑なシステムを生成するという点である。

上述した出力カバレッジのほかに、さらなる構成は、レンダラーの他の組み合わせを使用して、他のスピーカー・セットアップをモデル化してもよい。

図12は、サウンドバー1200の上面図である。サウンドバー1200は、レンダリング・システム100（図1参照）を実装してもよい。サウンドバー1200は、サウンドバー500（図5Aを参照）と同様であり、線形アレイ502（12個のスピーカー502a、502b、502c、502d、502e、502f、502g、502h、502i、502j、502kおよび502lを有する）および上方発射グループ504（2個のスピーカー504aおよび504bを含む）を含む。サウンドバー1200はまた、2つの側方発射スピーカー1202aおよび1202bを含み、スピーカー1202aは左側方発射スピーカーと呼ばれ、スピーカー1202bは右側方発射スピーカーと呼ばれる。

サウンドバー500（図5A参照）と比較して、サウンドバー1200は、仮想側方出力604aおよび604b（図6B参照）を生成するために、側方発射スピーカー1202aおよび1202bを使用する。

図13は、レンダリング・システム1300のブロック図である。レンダリング・システム1300は、サウンドバー1200（図12を参照）での実装に好適なレンダリング・システム1100（図10を参照）の修正である。レンダリング・システム1300は、レンダリング・システム300（図3参照）の構成要素を使用して実装されてもよい。レンダリング・システム1300の構成要素は、レンダリング・システム1100の構成要素と同様であり、同様の参照符号を使用する。レンダリング・システム1100と比較して、レンダリング・システム1300は、ビームフォーマー720bおよび720cをバイノーラル・レンダラー1320で置き換えている。

バイノーラル・レンダラー1320は、スピーカー構成情報156、オブジェクト・オーディオ・データ154、選択情報162、および位置情報164を受領する。バイノーラル・レンダラール1320は、オブジェクト・オーディオ・データ154に対してバイノーラル・レンダリングを実行し、左バイノーラル信号1366bおよび右バイノーラル信号1366cを生成する。側方発射スピーカー1202aおよび1202b（図12参照）のみを考慮すると、左バイノーラル信号1366bは、左側方発射スピーカー1202aからの出力に概して対応し、右バイノーラル信号1366cは、右側方発射スピーカー1202bからの出力に概して対応する。（ルーティング・モジュール730は、次に、バイノーラル信号1366bおよび1366cを他のレンダリングされた信号766と組み合わせて、スピーカーのフルセット502、504および1202へのスピーカー信号770を生成することを想起されたい。）

図14は、レンダラー1400のブロック図である。レンダラー1400は、レンダラー120（図1参照）、レンダラー720（図7参照）、レンダラー1120（図10参照）などの、上述のレンダラーの一つまたは複数に対応してもよい。レンダラー1400は、レンダラーが、その構成要素として、2つ以上のレンダラーを含んでいてもよいことを示す。ここに示されるように、レンダラー1400は、レンダラー1402をレンダラー1404と直列に含む。2つのレンダラー1402、1404が示されているが、レンダラー1400は、雑多な直列および並列構成で、追加のレンダラーを含んでいてもよい。レンダラー1400は、スピーカー構成情報156、選択情報162、および位置情報164を受領する；レンダラー1400は、それらの特定の構成に依存して、レンダラー1402および1404のうちの一つまたは複数にこれらの信号を提供してもよい。

レンダラー1402は、オブジェクト・オーディオ・データ154と、スピーカー構成情報156、選択情報162、および位置情報164のうちの一つまたは複数とを受領する。レンダラー1402は、オブジェクト・オーディオ・データ154に対してレンダリングを実行して、レンダリングされた信号1410を生成する。レンダリングされた信号1410は、一般に、中間的なレンダリングされた信号に対応する。たとえば、レンダリングされた信号1410は、仮想スピーカー・フィード信号であってもよい。

レンダラー1404は、レンダリングされた信号1410と、スピーカー構成情報156、選択情報162、および位置情報164のうちの一つまたは複数とを受領する。レンダラー1404は、レンダリングされた信号1410に対してレンダリングを実行し、レンダリングされた信号1412を生成する。レンダリングされた信号1412は、レンダリングされた信号166（図1参照）、レンダリングされた信号766（図7参照）、レンダリングされた信号1166（図10参照）などの上述のレンダリングされた信号に対応する。レンダラー1400は、次に、上述のものと同様の仕方で、レンダリングされた信号1412をルーティング・モジュール（たとえば、図1のルーティング・モジュール130、図7または図10または図13のルーティング・モジュール730）などに提供してもよい。

一般に、レンダラー1402および1404は、上述のものと同様の仕方で異なるタイプを有する。たとえば、タイプは、振幅パンナー、垂直パンナー、波面レンダラー、バイノーラル・レンダラー、およびビームフォーマーを含んでいてもよい。具体的な例示的構成が図15に示される。

図15は、レンダラー1500のブロック図である。レンダラー1500は、レンダラー120（図1参照）、レンダラー720（図7参照）、レンダラー1120（図10参照）、レンダラー1400（図14参照）などの、上述したレンダラーのうちの一つまたは複数に対応してもよい。レンダラー1500は、振幅パンナー1502と、N個のバイノーラル・レンダラー1504（1504a、1504bおよび1504cの3つが示されている）と、左ビームフォーマー1506（1506a、1506bおよび1506cの3つが示されている）および右ビームフォーマー1508（1508a、1508bおよび1508cの3つが示されている）を含むM個のビームフォーマー集合とを含む。

振幅パンナー1502は、オブジェクト・オーディオ・データ154、選択情報162、および位置情報164を受領する。振幅パンナー1502は、本明細書に記載される他の振幅パンナーと同様の仕方で、オブジェクト・オーディオ・データ154に対してレンダリングを実行して、仮想スピーカー・フィード1520（1520a、1520b、および1520cの3つが示されている）を生成する。仮想スピーカー・フィード1520は、5.1チャネルサラウンド信号、7.1チャネルサラウンド信号、7.1.2チャネルサラウンド信号7.1.4チャネルサラウンド信号、9.1チャネルサラウンド信号等のような正準的なスピーカー・フィード信号に対応してもよい。仮想スピーカー・フィード1520は、実際のスピーカーに直接提供される必要がないので、「仮想」と呼ばれるが、代わりに、さらなる処理のためにレンダラー1500内の他のレンダラーに提供されてもよい。

仮想スピーカー・フィード1520の詳細は、レンダラー1500のさまざまな実施形態および実装の間で異なってもよい。たとえば、仮想スピーカー・フィード1520が低周波効果チャネル信号を含む場合、振幅パンナー1502は、一つまたは複数のスピーカーにそのチャネル信号を直接（たとえば、バイノーラル・レンダラー1504およびビームフォーマー1506および1508をバイパスして）提供してもよい。別の例として、仮想スピーカー・フィード1520が中心チャネル信号を含む場合、振幅パンナー1502は、そのチャネル信号を一つまたは複数のスピーカーに直接提供してもよく、または、その信号を、左ビームフォーマー1506の1つおよび右ビームフォーマー1508の1つの集合に直接（たとえば、バイノーラル・レンダラー1504をバイパスして）提供してもよい。

バイノーラル・レンダラー1504は、仮想スピーカー・フィード1520およびスピーカー構成情報156を受領する。（一般に、バイノーラル・レンダラー1504の数Nは、上述したように、仮想スピーカー・フィード1520の数、仮想スピーカー・フィードのタイプなど、レンダラー1500の実施形態の詳細に依存する。）バイノーラル・レンダラー1504は、仮想スピーカー・フィード1520に対してレンダリングを実行し、本明細書に記載される他のバイノーラル・レンダラーと同様の仕方で、左バイノーラル信号1522（1522a、1522bおよび1522cの3つが示されている）および右バイノーラル信号1524（1524a、1524bおよび1524cの3つが示されている）を生成する。

左側のビームフォーマー1506は左バイノーラル信号1522およびスピーカー構成情報156を受領し、右ビームフォーマー1508は右バイノーラル信号1524およびスピーカー構成情報156を受領する。左ビームフォーマー1506のそれぞれは、左バイノーラル信号1522の一つまたは複数を受領してもよく、右ビームフォーマー1508のそれぞれは、右バイノーラル信号1524の一つまたは複数を受領してもよく、これはやはり、上述したレンダラー1500の実施形態の詳細に依存する。（これらの一つまたは複数の関係は、図15の1522および1524について破線によって示される。）左ビームフォーマー1506は、左バイノーラル信号1522に対してレンダリングを実行して、レンダリングされた信号1566（1566a、1566bおよび1566cの3つが示されている）を生成する。右ビームフォーマー1508は、右バイノーラル信号1524に対してレンダリングを実行して、レンダリングされた信号1568（1568a、1568b、および1568cの3つが示されている）を生成する。ビームフォーマー1506および1508は、これ以外の点では、本明細書に記載される他のビームフォーマーと同様の仕方で動作する。レンダリングされた信号1566および1568は、レンダリングされた信号166（図1参照）、レンダリングされた信号766（図7参照）、レンダリングされた信号1166（図10参照）、レンダリングされた信号1412（図14参照）などの上述したレンダリングされた信号に対応する。

レンダラー1500は、次いで、上述したものと同様の仕方で、レンダリングされた信号1566および1568をルーティング・モジュール（たとえば、図1のルーティング・モジュール130、図7または図10または図13のルーティング・モジュール730）などに提供してもよい。

左ビームフォーマー1506および右ビームフォーマー1508の数Mは、上述したように、レンダラー1500の実施形態の詳細に依存する。たとえば、数Mは、レンダラー1500を含む装置の形状因子、レンダラー1500に接続されるスピーカー・アレイの数、これらのスピーカー・アレイの能力および配置などに基づいて変わってもよい。一般的なガイドラインとして、（ビームフォーマー1506および1508の）数Mは、（バイノーラル・レンダラー1504の）数N以下であってもよい。別の一般的なガイドラインとして、別個のスピーカー・アレイの数は、（バイノーラル・レンダラー1504の）数Nの2倍以下であってもよい。一つの例示的な形状因子として、装置は、物理的に別個の左右のスピーカー・アレイを有していてもよく、左スピーカー・アレイがすべての左ビームを生じ、右スピーカー・アレイがすべての右ビームを生じる。別の例示的な形状因子として、装置は、物理的に別個の前方および後方のスピーカー・アレイを有していてもよく、前方スピーカー・アレイは、すべての前方バイノーラル信号のための左右のビームを生成し、後方スピーカー・アレイは、すべての後方バイノーラル信号のための左右のビームを生成する。

図16は、レンダリング・システム1600のブロック図である。レンダリング・システム1600は、レンダリング・システム100（図1参照）と同様であり、レンダラー120（図1参照）は、レンダラー1500（図15参照）と同様のレンダラー配置によって置き換えられる；分配モジュール110（図1参照）に関連する相違もある。レンダリング・システム1600は、振幅パンナー1602と、N個のバイノーラル・レンダラー1604（1604a、1604bおよび1604cの3つが示されている）と、いくつかの左ビームフォーマー1606（1606a、1606bおよび1606cの3つが示されている）および右ビームフォーマー1608（1608a、1608bおよび1508cの3つが示されている）を含むM個のビームフォーマー集合と、ルーティング・モジュール1630とを含む。

振幅パンナー1602は、本明細書に記載される他の振幅パンナーと同様の仕方で、オブジェクト・メタデータ152およびオブジェクト・オーディオ・データ154を受領し、オブジェクト・メタデータ152内の位置情報に従ってオブジェクト・オーディオ・データ154に対してレンダリングを実行し、仮想スピーカー・フィード1620（1620a、1620bおよび1620cの3つが示されている）を生成する。同様に、仮想スピーカー・フィード1620の詳細は、レンダラー1500（図15参照）に関して上述したのと同様の仕方で、レンダリング・システム1600のさまざまな実施形態および実装の間で異なっていてもよい。（レンダリング・システム100（図1参照）と比較すると、レンダリング・システム1600は、分配モジュール110を省略しているが、振幅パンナー1602を使用して、バイノーラル・レンダラー1604の間で仮想スピーカー・フィード1620に重み付けする。）

バイノーラル・レンダラー1604は、仮想スピーカー・フィード1620およびスピーカー構成情報156を受領する。（一般に、バイノーラル・レンダラー1604の数Nは、上述したように、仮想スピーカー・フィード1620の数、仮想スピーカー・フィードのタイプなど、レンダリング・システム1600の実施形態の詳細に依存する。）バイノーラル・レンダラー1604は、本明細書に記載される他のバイノーラル・レンダラーと同様の仕方で、仮想スピーカー・フィード1620に対してレンダリングを実行して、左バイノーラル信号1622（1622a、1622bおよび1622cの3つが示されている）および右バイノーラル信号1624（1624a、1624bおよび1624cの3つが示されている）を生成する。

左ビームフォーマー1606は、左バイノーラル信号1622およびスピーカー構成情報156を受領し、右ビームフォーマー1608は、右バイノーラル信号1624およびスピーカー構成情報156を受領する。左ビームフォーマー1606のそれぞれは、左バイノーラル信号1622の一つまたは複数を受領してもよく、右ビームフォーマー1608のそれぞれは、右バイノーラル信号1624の一つまたは複数を受領してもよく、これはやはり、上記したレンダリング・システム1600の実施形態の特性に依存する。（これらの一つまたは複数の関係は、図16において1622および1624についての破線によって示される。）左ビームフォーマー1606は、左バイノーラル信号1622に対してレンダリングを実行して、レンダリングされた信号1666（1666a、1666bおよび1666cの3つが示されている）を生成する。右ビームフォーマー1608は、右バイノーラル信号1624に対してレンダリングを実行し、レンダリングされた信号1668（1668a、1668b、および1668cの3つが示されている）を生成する。ビームフォーマー1606および1608は、これ以外の点では、本明細書に記載される他のビームフォーマーと同様の仕方で動作する。

ルーティング・モジュール1630は、スピーカー構成情報156、レンダリングされた信号1666、およびレンダリングされた信号1668を受領する。ルーティング・モジュール1630は、本明細書に記載される他のルーティング・モジュールと同様の仕方で、スピーカー信号1670を生成する。

図17は、オーディオ処理の方法1700のフローチャートである。方法1700は、レンダリング・システム1600（図16参照）によって実行されてもよい。方法1700は、たとえば、レンダリング・システム1600がその動作を制御するために実行する、一つまたは複数のコンピュータ・プログラムによって実装されてもよい。

1702では、一つまたは複数のオーディオ・オブジェクトが受領される。各オーディオ・オブジェクトは、それぞれ、位置情報を含む。例として、レンダリング・システム1600（図16参照）は、オブジェクト・メタデータ152およびオブジェクト・オーディオ・データ154を含むオーディオ信号150を受領してもよい。各オーディオ・オブジェクトについて、方法は1704に続く。

1704では、所与のオーディオ・オブジェクトについて、該所与のオーディオ・オブジェクトは、位置情報に基づいて、第1のカテゴリーのレンダラーを使用してレンダリングされて、第1の複数の信号を生成する。たとえば、振幅パンナー1602（図16参照）は、（オブジェクト・メタデータ152内の）位置情報に基づいて、（オブジェクト・オーディオ・データ154内の）前記所与のオーディオ・オブジェクトをレンダリングして、仮想スピーカー信号1620を生成してもよい。

1706では、前記所与のオーディオ・オブジェクトについて、前記第1の複数の信号は、第2のカテゴリーのレンダラーを使用してレンダリングされて、第2の複数の信号を生成する。たとえば、バイノーラル・レンダラー1604（図16参照）が、仮想スピーカー・フィード1620をレンダリングして、左バイノーラル信号1622および右バイノーラル信号1624を生成してもよい。

1708では、前記所与のオーディオ・オブジェクトについて、前記第2の複数の信号は、第3のカテゴリーのレンダラーを使用してレンダリングされて、第3の複数の信号を生成する。たとえば、左ビームフォーマー1606が、左バイノーラル信号1622をレンダリングして、レンダリングされた信号1666を生成してもよく、右ビームフォーマー1608が、右バイノーラル信号1624をレンダリングして、レンダリングされた信号1668を生成してもよい。

1710では、第3の複数の信号は、複数のスピーカー信号を生成するために組み合わされる。たとえば、ルーティング・モジュール1630（図16参照）は、レンダリングされた信号1666とレンダリングされた信号1668を組み合わせて、スピーカー信号1670を生成してもよい。

1712では、前記複数のスピーカー信号（1708参照）が複数のスピーカーから出力される。

複数のオーディオ・オブジェクトが同時並行して出力される場合、方法1700は同様に動作する。たとえば、複数の所与のオーディオ・オブジェクトは、1704‐1706‐1708の複数の経路を並列に使用して処理されてもよく、複数のオーディオ・オブジェクトに対応するレンダリングされた信号が組み合わされて、スピーカー信号を生成する（1710参照）。

別の例として、前記レンダリング・ステージの一つまたは複数の出力において、各オーディオ・オブジェクトについて、レンダリングされた信号を組み合わせることによって、複数の所与のオーディオ・オブジェクトが処理されてもよい。この例をレンダリング・システム1600（図16参照）に適用すると、振幅パンナー1602は、複数の所与のオーディオ・オブジェクトをレンダリングしてもよく、仮想スピーカー信号1620のそれぞれは、複数の所与のオーディオ・オブジェクトを組み合わせる組み合わされたレンダリングに対応し、バイノーラル・レンダラー1604およびビームフォーマー1606、1608は、この組み合わされたレンダリングに対して作用する。

実装の詳細
実施形態は、ハードウェア、コンピュータ読み取り可能媒体上に記憶された実行可能モジュール、または両者の組み合わせ（たとえば、プログラマブル論理アレイ）において実装されうる。別段の規定がない限り、実施形態によって実行されるステップは、本来的に何らかの特定のコンピュータまたは他の装置に関連する必要はない。ただし、ある種の実施形態ではそうであってもよい。特に、さまざまな汎用機械が、本明細書の教示に従って書かれたプログラムとともに使用されてもよく、または、必要な方法ステップを実行するために、より特化した装置（たとえば、集積回路）を構築することがより便利であることがある。このように、実施形態は、それぞれが少なくとも1つのプロセッサ、少なくとも1つのデータ記憶システム（揮発性および不揮発性メモリおよび／または記憶素子を含む）、少なくとも1つの入力装置もしくはポート、および少なくとも1つの出力装置もしくはポートを含む、一つまたは複数のプログラマブルコンピュータシステム上で実行される一つまたは複数のコンピュータ・プログラムにおいて実装されてもよい。プログラム・コードは、本明細書に記載される機能を実行し、出力情報を生成するために入力データに適用される。出力情報は、既知の仕方で一つまたは複数の出力装置に適用される。

そのようなコンピュータ・プログラムのそれぞれは、好ましくは、本明細書に記載される手順を実行するためにコンピュータ・システムによって記憶媒体またはデバイスが読まれるときに、コンピュータを構成し、動作させるために、汎用または特殊目的のプログラム可能なコンピュータによって読み出し可能な記憶媒体またはデバイス（たとえば、固体メモリまたは媒体、または磁気または光学媒体）に記憶またはダウンロードされる。本発明のシステムは、コンピュータ・プログラムで構成されたコンピュータ読み取り可能な記憶媒体として実装され、そのように構成された記憶媒体が、コンピュータ・システムを、本明細書に記載される機能を実行するために、特定の所定の仕方で動作させると考えられてもよい。（ソフトウェア自体および無形または一時的な信号は、それらが特許できない主題事項である限りにおいて、除外される。）

上述の記述は、本発明の諸側面がどのように実装されうるかの例とともに、本発明のさまざまな実施形態を示している。上記の例および実施形態は、唯一の実施形態とみなされるべきではなく、特許請求の範囲によって定義される本発明の柔軟性および利点を示すために呈示されている。上述の開示および以下の特許請求の範囲に基づいて、他の構成、実施形態、実装および等価物は当業者には明らかであり、特許請求の範囲によって定義される本発明の精神および範囲から逸脱することなく、使用されうる。本発明のさまざまな側面は、以下の箇条書き例示的実施形態（enumerated example embodiment、EEE）から理解されうる。

〔EEE１〕
オーディオ処理の方法であって、当該方法は：
一つまたは複数のオーディオ・オブジェクトを受領するステップであって、前記一つまたは複数のオーディオ・オブジェクトのそれぞれは、位置情報を含む、ステップと；
前記一つまたは複数のオーディオ・オブジェクトのうちの所与のオーディオ・オブジェクトについての：
前記所与のオーディオ・オブジェクトの位置情報に基づいて、複数のレンダラーのうちの少なくとも2つのレンダラーを選択するステップであって、前記少なくとも2つのレンダラーは、少なくとも2つのカテゴリーを有する、ステップ；
前記所与のオーディオ・オブジェクトの位置情報に基づいて、少なくとも2つの重みを決定するステップ；
前記位置情報に基づいて、前記少なくとも2つの重みに基づいて重み付けされた前記少なくとも2つのレンダラーを使用して、前記所与のオーディオ・オブジェクトをレンダリングして、複数のレンダリングされた信号を生成するステップ；および
前記複数のレンダリングされた信号を組み合わせて、複数のスピーカー信号を生成するステップと；
前記複数のスピーカー信号を複数のスピーカーから出力するステップとを含む、
方法。
〔EEE２〕
前記少なくとも2つのカテゴリーが、音場レンダラー、ビームフォーマー、パンナー、およびバイノーラル・レンダラーを含む、EEE１に記載の方法。
〔EEE３〕
前記複数のレンダリングされた信号のうちの所与のレンダリングされた信号が、少なくとも1つの成分信号を含み、
前記少なくとも1つの成分信号のそれぞれは、前記複数のスピーカーのそれぞれに関連し、
前記複数のスピーカー信号のうちの所与のスピーカー信号は、前記複数のスピーカーのうちの所与のスピーカーのために、前記所与のスピーカーに関連する前記少なくとも1つの成分信号のすべてを組み合わせることに対応する、
EEE１または２に記載の方法。
〔EEE４〕
第1のレンダラーが、第1のレンダリングされた信号を生成し、前記第1のレンダリングされた信号は、第1のスピーカーに関連付けられた第1の成分信号と、第2のスピーカーに関連付けられた第2の成分信号とを含み、
第2のレンダラーが、第2のレンダリングされた信号を生成し、前記第2のレンダリングされた信号は、前記第1のスピーカーに関連付けられた第3の成分信号と、前記第2のスピーカーに関連付けられた第4の成分信号とを含み、
前記第1のスピーカーに関連する第1のスピーカー信号は、前記第1の成分信号と前記第3の成分信号を組み合わせることに対応し、
前記第2のスピーカーに関連する第2のスピーカー信号は、前記第2の成分信号と前記第4の成分信号を組み合わせることに対応する、
EEE３に記載の方法。
〔EEE５〕
前記所与のオーディオ・オブジェクトをレンダリングすることは、前記複数のレンダラーのうちの所与のレンダラーについて、前記位置情報に基づく利得を適用して、前記複数のレンダリングされた信号のうちの所与のレンダリングされた信号を生成することを含む、EEE１ないし４のうちいずれか一項に記載の方法。
〔EEE６〕
前記複数のスピーカーは、スピーカーの密な線形アレイを含む、EEE１ないし５のうちいずれか一項に記載の方法。
〔EEE７〕
前記少なくとも2つのカテゴリーは、音場レンダラーを含み、前記音場レンダラーは、波面合成プロセスを実行する、EEE１ないし６のうちいずれか一項に記載の方法。
〔EEE８〕
前記複数のスピーカーは、第1の方向に向けられる第1のグループと、前記第1の方向とは異なる第2の方向に向けられる第2のグループにおいて配置される、EEE１ないし７のうちいずれか一項に記載の方法。
〔EEE９〕
前記第1の方向は前方成分を含み、前記第2の方向は垂直成分を含む、EEE８に記載の方法。
〔EEE１０〕
前記第2の方向は垂直成分を含み、前記少なくとも2つのレンダラーは、波面合成レンダラーおよび上方発射パン・レンダラーを含み、前記波面合成レンダラーおよび前記上方発射パン・レンダラーは、前記第2のグループのために前記複数のレンダリングされた信号を生成する、EEE８に記載の方法。
〔EEE１１〕
前記第2の方向は垂直成分を含み、前記少なくとも2つのレンダラーは、波面合成レンダラー、上方発射パン・レンダラー、およびビームフォーマーを含み、前記波面合成レンダラー、前記上方発射パン・レンダラー、および前記ビームフォーマーは、前記第2のグループのために前記複数のレンダリングされた信号を生成する、EEE８に記載の方法。
〔EEE１２〕
前記第2の方向は垂直成分を含み、前記少なくとも2つのレンダラーは、波面合成レンダラー、上方発射パン・レンダラー、および側方発射パン・レンダラーを含み、前記波面合成レンダラー、前記上方発射パン・レンダラー、および前記側方発射パン・レンダラーは、前記第2のグループのために、前記複数のレンダリングされた信号を生成する、EEE８に記載の方法。
〔EEE１３〕
前記第1の方向は前方成分を含み、前記第2の方向は側方成分を含む、EEE８に記載の方法。
〔EEE１４〕
前記第1の方向は前方成分を含み、前記少なくとも2つのレンダラーは、波面合成レンダラーを含み、前記波面合成レンダラーは、前記第1のグループのために前記複数のレンダリングされた信号を生成する、EEE８に記載の方法。
〔EEE１５〕
前記第2の方向は側方成分を含み、前記少なくとも2つのレンダラーは、波面合成レンダラーおよびビームフォーマーを含み、前記波面合成レンダラーおよび前記ビームフォーマーは、前記第2のグループのために、前記複数のレンダリングされた信号を生成する、EEE８に記載の方法。
〔EEE１６〕
前記第2の方向は側方成分を含み、前記少なくとも2つのレンダラーは、波面合成レンダラーおよび側方発射パン・レンダラーを含み、前記波面合成レンダラーおよび前記側方発射パン・レンダラーは、前記第2のグループのために前記複数のレンダリングされた信号を生成する、EEE８に記載の方法。
〔EEE１７〕
前記一つまたは複数のオーディオ・オブジェクトのための前記複数のレンダリングされた信号を組み合わせて、前記複数のスピーカー信号を生成することをさらに含む、EEE１ないし１６のうちいずれか一項に記載の方法。
〔EEE１８〕
前記少なくとも2つのレンダラーは、直列のレンダラーを含む、EEE１ないし１７のうちいずれか一項に記載の方法。
〔EEE１９〕
前記少なくとも2つのレンダラーは、振幅パンナー、複数のバイノーラル・レンダラー、および複数のビームフォーマーを含み、
前記振幅パンナーは、前記位置情報に基づいて、前記所与のオーディオ・オブジェクトをレンダリングして、第1の複数の信号を生成するように構成され；
前記複数のバイノーラル・レンダラーは、前記第1の複数の信号をレンダリングして、第2の複数の信号を生成するように構成され；
前記複数のビームフォーマーは、前記第2の複数の信号をレンダリングして、第3の複数の信号を生成するように構成され、
前記第3の複数の信号が組み合わされて、前記複数のスピーカー信号を生成する、
EEE１ないし１８のうちいずれか一項に記載の方法。
〔EEE２０〕
オーディオを処理するための装置であって、当該装置が：
複数のスピーカー；
プロセッサ；および
メモリを有しており、
前記プロセッサは、一つまたは複数のオーディオ・オブジェクトを受領するように当該装置を制御するように構成され、前記一つまたは複数のオーディオ・オブジェクトのそれぞれは、位置情報をそれぞれ含み；
前記一つまたは複数のオーディオ・オブジェクトのうちの所与のオーディオ・オブジェクトについて：
前記プロセッサは、前記所与のオーディオ・オブジェクトの位置情報に基づいて、複数のレンダラーのうちの少なくとも2つのレンダラーを選択するよう当該装置を制御するように構成され、前記少なくとも2つのレンダラーは少なくとも2つのカテゴリーを有し；
前記プロセッサは、前記所与のオーディオ・オブジェクトの位置情報に基づいて、少なくとも2つの重みを決定するように当該装置を制御するように構成され；
前記プロセッサは、前記位置情報に基づいて、前記少なくとも2つの重みに基づいて重み付けされた前記少なくとも2つのレンダラーを使って前記所与のオーディオ・オブジェクトをレンダリングして、複数のレンダリングされた信号を生成するように当該装置を制御するように構成され；
前記プロセッサは、前記複数のレンダリングされた信号を組み合わせて、複数のスピーカー信号を生成するように当該装置を制御するように構成され；
前記プロセッサは、前記複数のスピーカーから前記複数のスピーカー信号を出力するように当該装置を制御するように構成される、
装置。
〔EEE２１〕
オーディオ処理の方法であって、当該方法は：
一つまたは複数のオーディオ・オブジェクトを受領するステップを含み、前記一つまたは複数のオーディオ・オブジェクトのそれぞれは位置情報を含み；
前記一つまたは複数のオーディオ・オブジェクトのうちの所与のオーディオ・オブジェクトについての：
前記位置情報に基づいて、第1のカテゴリーのレンダラーを使用して前記所与のオーディオ・オブジェクトをレンダリングして、第1の複数の信号を生成するステップ；
第2のカテゴリーのレンダラーを使用して前記第1の複数の信号をレンダリングして、第2の複数の信号を生成するステップ；
第3のカテゴリーのレンダラーを使用して前記第2の複数の信号をレンダリングして、第3の複数の信号を生成するステップ；および
前記第3の複数の信号を組み合わせて複数のスピーカー信号を生成するステップと；
前記複数のスピーカー信号を複数のスピーカーから出力するステップとを含む、
方法。
〔EEE２２〕
前記第1のカテゴリーのレンダラーは振幅パンナーに対応し、前記第2のカテゴリーのレンダラーは複数のバイノーラル・レンダラーに対応し、前記第3のカテゴリーのレンダラーは複数のビームフォーマーに対応する、EEE２１に記載の方法。
〔EEE２３〕
プロセッサによって実行されると、EEE１ないし１９、２１または２２のうちいずれか一項に記載の方法を含む処理を実行するよう装置を制御するコンピュータ・プログラムを記憶している非一時的なコンピュータ読み取り可能媒体。
〔EEE２４〕
オーディオを処理するための装置であって、当該装置は：
複数のスピーカー；
プロセッサ；および
メモリを有しており、
前記プロセッサは、一つまたは複数のオーディオ・オブジェクトを受領するように当該装置を制御するように構成され、前記一つまたは複数のオーディオ・オブジェクトのそれぞれは、位置情報をそれぞれ含み；
前記一つまたは複数のオーディオ・オブジェクトのうちの所与のオーディオ・オブジェクトについて：
前記プロセッサは、前記位置情報に基づいて、第1のカテゴリーのレンダラーを使用して前記所与のオーディオ・オブジェクトをレンダリングして、第1の複数の信号を生成するように当該装置を制御するように構成され；
前記プロセッサは、第2のカテゴリーのレンダラーを使用して、前記第1の複数の信号をレンダリングして、第2の複数の信号を生成するように当該装置を制御するように構成され；
前記プロセッサは、第3のカテゴリーのレンダラーを使用して、前記第2の複数の信号をレンダリングして、第3の複数の信号を生成するように当該装置を制御するように構成され；
前記プロセッサは、前記第3の複数の信号を組み合わせて、複数のスピーカー信号を生成するように当該装置を制御するように構成され、
前記プロセッサは、前記複数のスピーカーから前記複数のスピーカー信号を出力するように当該装置を制御するように構成される、
装置。

Claims

オーディオ処理の方法であって、当該方法は：
一つまたは複数のオーディオ・オブジェクトを受領するステップであって、前記一つまたは複数のオーディオ・オブジェクトのそれぞれは、位置情報をそれぞれ含む、ステップと；
前記一つまたは複数のオーディオ・オブジェクトのうちの所与のオーディオ・オブジェクトについての：
前記所与のオーディオ・オブジェクトの位置情報に基づいて、複数のレンダラーのうちの少なくとも2つのレンダラーを選択するステップ；
前記所与のオーディオ・オブジェクトの位置情報に基づいて、少なくとも2つの重みを決定するステップ；
前記位置情報に基づいて、前記少なくとも2つの重みに基づいて重み付けされた前記少なくとも2つのレンダラーを使用して、前記所与のオーディオ・オブジェクトをレンダリングして、複数のレンダリングされた信号を生成するステップ；および
前記複数のレンダリングされた信号を組み合わせて、複数のスピーカー信号を生成するステップと；
前記複数のスピーカー信号を複数のスピーカーから出力するステップとを含む、
方法。
前記少なくとも2つのレンダラーが少なくとも2つのカテゴリーに分類される、請求項１に記載の方法。
前記少なくとも2つのカテゴリーが、音場レンダラー、ビームフォーマー、パンナー、およびバイノーラル・レンダラーを含む、請求項２に記載の方法。
前記複数のレンダリングされた信号のうちの所与のレンダリングされた信号が、少なくとも1つの成分信号を含み、
前記少なくとも1つの成分信号のそれぞれは、前記複数のスピーカーのうちの対応するものに関連し、
前記複数のスピーカー信号のうちの所与のスピーカー信号は、前記複数のスピーカーのうちの所与のスピーカーのために、前記所与のスピーカーに関連する前記少なくとも1つの成分信号のすべてを組み合わせることに対応する、
請求項１ないし３のうちいずれか一項に記載の方法。
第1のレンダラーが、第1のレンダリングされた信号を生成し、前記第1のレンダリングされた信号は、第1のスピーカーに関連付けられた第1の成分信号と、第2のスピーカーに関連付けられた第2の成分信号とを含み、
第2のレンダラーが、第2のレンダリングされた信号を生成し、前記第2のレンダリングされた信号は、前記第1のスピーカーに関連付けられた第3の成分信号と、前記第2のスピーカーに関連付けられた第4の成分信号とを含み、
前記第1のスピーカーに関連する第1のスピーカー信号は、前記第1の成分信号と前記第3の成分信号を組み合わせることに対応し、
前記第2のスピーカーに関連する第2のスピーカー信号は、前記第2の成分信号と前記第4の成分信号を組み合わせることに対応する、
請求項４に記載の方法。
前記所与のオーディオ・オブジェクトをレンダリングすることは、前記複数のレンダラーのうちの所与のレンダラーについて、前記位置情報に基づく利得を適用して、前記複数のレンダリングされた信号のうちの所与のレンダリングされた信号を生成することを含む、請求項１ないし５のうちいずれか一項に記載の方法。
前記複数のスピーカーは、第1の方向に向けられる第1のグループと、前記第1の方向とは異なる第2の方向に向けられる第2のグループにおいて配置される、請求項１ないし５のうちいずれか一項に記載の方法。
前記第2の方向は垂直成分を含み、前記少なくとも2つのレンダラーは、波面合成レンダラー、上方発射パン・レンダラー、およびビームフォーマーを含み、前記波面合成レンダラー、前記上方発射パン・レンダラー、および前記ビームフォーマーは、前記第2のグループのために前記複数のレンダリングされた信号を生成する、請求項７に記載の方法。
前記第2の方向は垂直成分を含み、前記少なくとも2つのレンダラーは、波面合成レンダラー、上方発射パン・レンダラー、および側方発射パン・レンダラーを含み、前記波面合成レンダラー、前記上方発射パン・レンダラー、および前記側方発射パン・レンダラーは、前記第2のグループのために、前記複数のレンダリングされた信号を生成する、請求項７に記載の方法。
前記第2の方向は側方成分を含み、前記少なくとも2つのレンダラーは、波面合成レンダラーおよびビームフォーマーを含み、前記波面合成レンダラーおよび前記ビームフォーマーは、前記第2のグループのために、前記複数のレンダリングされた信号を生成する、請求項７に記載の方法。
前記第2の方向は側方成分を含み、前記少なくとも2つのレンダラーは、波面合成レンダラーおよび側方発射パン・レンダラーを含み、前記波面合成レンダラーおよび前記側方発射パン・レンダラーは、前記第2のグループのために前記複数のレンダリングされた信号を生成する、請求項７に記載の方法。
前記少なくとも2つのレンダラーは、直列のレンダラーを含む、請求項１ないし１１のうちいずれか一項に記載の方法。
前記少なくとも2つのレンダラーは、振幅パンナー、複数のバイノーラル・レンダラー、および複数のビームフォーマーを含み、
前記振幅パンナーは、前記位置情報に基づいて、前記所与のオーディオ・オブジェクトをレンダリングして、第1の複数の信号を生成するように構成され；
前記複数のバイノーラル・レンダラーは、前記第1の複数の信号をレンダリングして、第2の複数の信号を生成するように構成され；
前記複数のビームフォーマーは、前記第2の複数の信号をレンダリングして、第3の複数の信号を生成するように構成され、
前記第3の複数の信号が組み合わされて、前記複数のスピーカー信号を生成する、
請求項１ないし１２のうちいずれか一項に記載の方法。
命令を有するコンピュータ・プログラムであって、前記命令は、前記プログラムがプロセッサによって実行されると、請求項１ないし１３のうちいずれか一項に記載の方法を含む処理を実行するよう装置を制御するものである、コンピュータ・プログラム。
オーディオを処理するための装置であって、当該装置が：
複数のスピーカー；
プロセッサ；および
メモリを有しており、
前記プロセッサは、一つまたは複数のオーディオ・オブジェクトを受領するように当該装置を制御するように構成され、前記一つまたは複数のオーディオ・オブジェクトのそれぞれは、位置情報をそれぞれ含み；
前記一つまたは複数のオーディオ・オブジェクトのうちの所与のオーディオ・オブジェクトについて：
前記プロセッサは、前記所与のオーディオ・オブジェクトの位置情報に基づいて、複数のレンダラーのうちの少なくとも2つのレンダラーを選択するよう当該装置を制御するように構成され；
前記プロセッサは、前記所与のオーディオ・オブジェクトの位置情報に基づいて、少なくとも2つの重みを決定するように当該装置を制御するように構成され；
前記プロセッサは、前記位置情報に基づいて、前記少なくとも2つの重みに基づいて重み付けされた前記少なくとも2つのレンダラーを使って前記所与のオーディオ・オブジェクトをレンダリングして、複数のレンダリングされた信号を生成するように当該装置を制御するように構成され；
前記プロセッサは、前記複数のレンダリングされた信号を組み合わせて、複数のスピーカー信号を生成するように当該装置を制御するように構成され；
前記プロセッサは、前記複数のスピーカーから前記複数のスピーカー信号を出力するように当該装置を制御するように構成される、
装置。