JP2021520760A

JP2021520760A - 音源の位置特定

Info

Publication number: JP2021520760A
Application number: JP2020564659A
Authority: JP
Inventors: ソルヴァン，オードゥン
Original assignee: Nomono AS
Current assignee: Nomono AS
Priority date: 2018-02-22
Filing date: 2019-02-22
Publication date: 2021-08-19
Anticipated expiration: 2039-02-22
Also published as: CN112005556B; JP7469235B2; CA3091880A1; CN112005556A; GB201802850D0; WO2019162690A1; US20200396537A1; EP3756359A1; US11388512B2

Abstract

音源（４）の位置を特定する方法が提供され、本方法は、少なくとも２つのマイクロホンを備える音場マイクロホンシステム（２）を使用して、空間的に符号化された音場信号を生成することを含み、この空間的に符号化された音場信号は複数の成分を含み、各成分は音源（４）からの音声を含む。本方法は、音源（４）に近接して配置されたローカルマイクロホン（８）を使用して、音源（４）からの音声に対応するローカルマイクロホン信号を生成することと、このローカルマイクロホン信号をこれら複数の成分のそれぞれと比較して、複数の比較結果を生成することと、これら複数の比較結果を使用して、音場マイクロホンシステム（２）に対する音源（４）の位置を特定することとをさらに含む。【選択図】図１

Description

本出願は、音場録音システム、特に、空間オーディオコンテンツ又は仮想現実作品での使用に適した音場録音システムに関するが、これに限定されない。

音場、すなわち空間オーディオシステム及びフォーマット（たとえば、アンビソニックス、ＤｏｌｂｙＡｔｍｏｓ（商標）、Ａｕｒｏ−３Ｄ（商標）、ＤＴＳ：Ｘ（商標））は、特定の音響シーンに関連する空間的に符号化された音声情報を保存する方法をもたらしている。すなわち、これらのシステムは、音響シーン内の音源に位置情報を割り当てる方法をもたらしている。空間的に符号化された音声情報（又は「音場」）は、（たとえば、コンピュータで生成されたビデオゲームの音響シーンを制作する場合に）位置情報が手動で割り当てられた、個別に録音されているサウンドトラックを使用して生成することができ、あるいは、たとえば多指向性アンビソニックマイクロホンを使用して、完全に生でキャプチャすることもできる。生の「音場」データのキャプチャは、（たとえば、オーケストラの一員として座っているかのような錯覚をもたらすことによって）典型的には従来の録音作業をより没入型のものにするために使用されてきたが、近年ではこの技術が仮想現実作品に適用され始めている。

仮想現実（ＶＲ）作品は通常、３６０度の立体映像信号と、対応するサウンドトラックとで構成されている。これらの作品は、臨場感を生み出すために、一人称視点をサポートしているプラットフォームでユーザに対して再生される。このようなプラットフォームの例としては、双眼型ヘッドセット及びステレオヘッドホン、デスクトップ用３６０度ビデオプレーヤー及び３６０度映画が挙げられる。双眼型ヘッドセットは通常、（たとえば、ＩＭＵ／加速度計を使用して）ユーザの頭部の位置及び方向を追跡できるため、ヘッドセット及びヘッドホンに対して再生される映像及び音声がそれぞれ適宜調整されて、仮想現実の錯覚を維持することができる。たとえば、ある時点で、仮想環境でのユーザの現在の視界に対応している３６０度の映像信号の一部のみが、そのユーザに表示される。ユーザが頭部を動かしたり向きを変えたりすると、この動きによりユーザの視界がどのように変化するかを仮想世界で反映するために、ユーザに表示される３６０度の信号の一部が変化する。同様に、仮想シーンでさまざまな場所から聞こえてくる音声は、ユーザが動くときに、左右のヘッドホンチャンネルの適応フィルタリングを受けることになり、耳部と人の頭部と上半身との間の空間的オフセットが分散することによって現実に発生する、当該音声の周波数に依存した位相変化と振幅の変化とをエミュレートすることができる。

一部のＶＲ作品は、コンピュータ生成映像と、個別に事前録音又は合成された音声とで全て構成されている。しかしながら、３６０度の視界を記録できるカメラと、空間的に符号化されたサウンドトラックを録音できる音場マイクロホンとを使用して、「生の動作」のＶＲ録画映像を制作することがますます一般的になっている。その後、録音された音声と映像とが処理されて、上記のようなヘッドセットとヘッドホンとを介して再生できるＶＲ録画映像が制作されることになる。

音場マイクロホンシステムを使用してＶＲサウンドトラックを録音すると、録音された音声は空間情報でネイティブに符号化されるため、この録音された音声をＶＲアプリケーションに容易に実装することができる。録音されたこれらの映像信号及び音声信号は、最終的なＶＲ録画映像を制作するために「整列させる」だけでよく、これによって上記のシステムを介して再生できるようになる。多くの市販のビデオ制作ツールやコンピュータ・ソフトウェア・アプリケーションには、空間的に符号化された音声ファイルを当該作品に取り入れる機能など、ＶＲ制作機能がすでに含まれている。

空間オーディオマイクロホンは、空間内の特定の地点から生の音場情報をキャプチャするための便利なツールであるが、出力の品質及び柔軟性に関していくつかの制限がある。たとえば、マイクロホンから遠く離隔した場所にいる人物の音質は大幅に低下する恐れがある。また、エフェクトを追加したりレベルを調整したりする目的で、音場録音内の単一の音源を分離することも困難である。本出願は、これらの課題の少なくとも一部を軽減することを図るものである。

第１の態様から、本発明は、音源の位置を特定する方法を提供するものであり、本方法は、
少なくとも２つのマイクロホンを備える音場マイクロホンシステムを使用して、空間的に符号化された音場信号を生成することであって、この空間的に符号化された音場信号は複数の成分を含み、各成分は当該音源からの音声を含む、ことと、
当該音源に近接して配置されたローカルマイクロホンを使用して、当該音源からの音声に対応するローカルマイクロホン信号を生成することと、
このローカルマイクロホン信号を複数の成分のそれぞれと比較して、複数の比較結果を生成することと、
これら複数の比較結果を使用して、音場マイクロホンシステムに対する当該音源の位置を特定することとを含む。

このため、本発明によって、より高い音質及び／又は分離を生成し得るローカルマイクロホン信号を容易に使用し、かつこれを音場マイクロホン信号と一体化できることが、当業者には明らかとなるであろう。

したがって、本発明は、音声のみの制作（たとえば、音楽の演奏又は演劇の上演、朗読作品、ラジオ放送、ポッドキャストなど）を含む、高品質で精度も高く、かつ没入型の空間オーディオ録音又は生放送を容易に実現することができる。

また、従来の音声及び映像の制作では、音質と分離レベルとを向上させるために、カメラから離隔している音源を近接マイクロホン（たとえば、人の衣服に留められるラベリアタイプのマイクロホン）でキャプチャする場合がある。ここで結果として得られる音声信号は、これら音声及び映像の２つのタイミングを同期することで映像に取り込むことができる（多くの場合、録音装置をタイムコード及び同期信号装置へと接続し、当該ユニットに同一のワードクロックとタイムコードとをもたらすことで実現される）が、この手法はＶＲ制作にそれほど容易に適用されるものではない。映像トラック及び音声トラックのタイミングの同期は比較的容易に行えるが、ＶＲ世界内に音声を配置して、映像内の特定の方向から音声が聞こえるように見せるには、音源の位置に関する追加情報が必要となる。音源が移動している場合、及び／又はシーンの一部若しくは全体でカメラの視界から音源が部分的に、又は完全に隠れている場合、本プロセスはさらに複雑になる。

音源の位置を特定するために使用できる１つの手法は手動追跡であり、これにより、ユーザはポストプロダクション中に録画映像を監視し、音源の位置及び／又は経路を手動で追跡する。次いで、当該音源の近接マイクロホンを使用した録音が手動で追跡された位置又は動きに割り当てられ、正確な空間オーディオ情報を使用した最終的なＶＲ作品を制作することができる。ただし、この手法は相当の労力を要し、精度も低くなる可能性があり、またカメラで確認できる音源でのみ実行可能となっている。その上、二次元で音源の位置特定を行うことに実質的に制限されている。距離情報が推定され、かつ／又は一定値に設定される必要もあり得る。こうした課題は全て、最終的なＶＲサウンドトラックでの音場再生の精度が低下し、またＶＲ体験における没入感が低下することへとつながっていく。この手法は、録画映像が利用できない音声のみの制作には全く適用されない。

典型的な生の動作シーンには、数十又は数百の個々の音源が含まれる場合がある。対象となる各音源に個々の近接マイクロホンを供給することは、分離及び音質を考慮する点で有益であるが、上記の理由により、これには多くの制作リソースと時間とが別途必要になり得る。

これに対し、本発明によれば、音源からの音声は近接マイクロホン及び音場マイクロホンシステムの両方によって検出される（ただし、強度及び品質は低下する）ので、本出願人は、複数の比較結果を使用すれば、音場マイクロホンシステムに対する当該音源の位置を特定することが可能であると理解している。これは、ユーザ（たとえば制作者）が、時間がかかり、なおかつ精度の低い手法を使用して、音源の位置を手動で特定する必要がないことを意味している。その代わりに、最小限のユーザ入力で、音源の位置を自動的に特定することができる。本手法には、精度が向上する可能性と、音声のみの制作で、又はカメラが認識できない音源（たとえば、低照度のシーン又は暗いシーン、あるいは当該音源がより大きな物体に含まれているが、その物体と区別できないような場合）で使用できるという別の利点がある。

ローカルマイクロホン信号は通常、音源によって生成される音声を正確に表すと仮定され、またローカルマイクロホンは、好ましくは当該音源にできるだけ近接して配置され、その結果、当該音源の位置を特定することが、ローカルマイクロホンの位置を特定することと実質的に等価となる。

「空間的に符号化された」という用語は、本明細書では、位置情報を特定できるデータを指すために使用されている。このデータは、音声データと共に保存される明示的な位置メタデータを含んでいてもよいが、位置情報を回復できるデータを含むとさらに理解される必要があり、この例としては、前記マイクロホンからの音声データと共にマイクロホンの既知の位置及び／又は指向性が挙げられる。空間的に符号化された音声信号の例としては、アンビソニックＡフォーマット又はアンビソニックＢフォーマットが挙げられる。

本音場マイクロホンシステムは、空間的に符号化された音場信号を生成できるマイクロホンのあらゆる配列を含んでいてもよく、これにはたとえば、平面配列、直交配列、又はより複雑な配列が含まれる。

本出願人は、三次元で位置情報を明確に特定するには、理論上は本音場マイクロホンシステムが４つ以上のマイクロホンを備えることが必要になり得ると認識しているが、多くの場合、位置を十分正確に特定するのに２つのマイクロホンがあれば十分であり得ることも理解している。たとえば、音源の位置又は動きに対する物理的限界の知識、あるいは追跡技術と連携して得た開始位置に関する知識などの追加情報を使用することが、音源の位置を分析する補助となり得る。ただし、一組の実施形態では、本音場マイクロホンシステムは少なくとも３つのマイクロホンを備え、またいくつかのそのような実施形態では、本音場マイクロホンシステムは少なくとも４つのマイクロホンを備える。

一組の実施形態では、本音場マイクロホンシステムは、処理モジュールをさらに備える。この処理モジュールは、複数のマイクロホンの出力を位置データで符号化するように構成されていてもよい。

好ましくは、本音場マイクロホンシステムの少なくとも２つのマイクロホンは互いに隣接しているが、これらは概ね、互いから離隔している可能性がある。本音場マイクロホンシステムは、互いに直交して配置された複数のマイクロホンを備えていてもよく、これはすなわち、最大の応答を有する各マイクロホンのそれぞれの軸が、互いに直交していることを意味する。

いくつかの実施形態の組では、ローカルマイクロホン信号を複数の成分のそれぞれと比較することは、このローカルマイクロホン信号と複数の成分のそれぞれとの間の相関の尺度を決定することを含む。任意の適切な相関の尺度を使用してもよいが、一組の実施形態では、この相関の尺度は、ローカルマイクロホン信号と、空間的に符号化された音場信号の複数の成分のそれぞれとの間のクロススペクトルを含む。いくつかのそのような実施形態では、ローカルマイクロホン信号及び空間的に符号化された音場信号が前処理されてから、相関の尺度が決定される。たとえば、ローカルマイクロホン信号及び複数の成分のそれぞれは、フーリエ変換されてもよい。

いくつかの実施形態では、空間的に符号化された音場信号の複数の成分のそれぞれは、マイクロホンの１つからの出力のみで構成されている。そのような実施形態では、各マイクロホンの位置及び方向は典型的には既知であり、そこから空間的符号化を達成することができる。いくつかのそのような実施形態では、空間的に符号化された音場信号は、アンビソニックＡフォーマット信号のセットを含む。

いくつかのそのような実施形態では、決定された相関の尺度を使用して、ローカルマイクロホン信号と複数の成分の少なくとも１つとの間における１つ又は複数の伝搬遅延（たとえば、ローカルマイクロホン信号と複数の成分のそれぞれとの間に発生する伝搬遅延）を計算することができる。そのような実施形態では、本音場マイクロホンシステムに対する音源の位置を特定することは、この伝搬遅延の２つ以上の間の差を使用して、本音場マイクロホンシステムからローカルマイクロホンへの方向を特定することを含んでいてもよい。

マイクロホンのそれぞれの位置が分かっているので、計算されたこれらの伝搬遅延を音速の推定値と共に使用して、音源からマイクロホンのそれぞれまでの距離を特定することができる。これらの距離がぴったり一致する地点を特定することにより、音源の位置を特定することができる。この「三辺測量」法は、特定された距離の差が個々の範囲測定値の不確実性よりも大きいことに依存している。結果的に、本方法は、それぞれのマイクロホンと音源との間の特定された距離により大きな差が生じるために、これらのマイクロホンがある程度離隔して配置されているような音場マイクロホンシステムにとりわけ適している。

ローカルマイクロホン信号と複数の成分のそれぞれとの間における伝搬遅延を計算することは、決定された相関の尺度のそれぞれ（たとえば、クロススペクトルのそれぞれ）における相互相関を計算することを含んでいてもよい。

本音場マイクロホンシステムに対する音源の位置を特定することは、伝搬遅延の少なくとも１つ、たとえば、伝搬遅延の平均値を、音速の推定値と共に使用して、本音場マイクロホンシステムからローカルマイクロホンまでの距離を特定することにより、音場マイクロホンシステムからローカルマイクロホンまでの距離を特定することを含んでいてもよい。

複数の成分のそれぞれとローカルマイクロホン信号との間に十分な時間的同期があれば、各送信機とマイクロホンとの間の距離範囲を高精度に（たとえば、数ｃｍまで）測定することができる。

複数の成分のそれぞれとローカルマイクロホン信号との間の時間的同期が不正確であるか、又は利用できない状況であっても、本音場マイクロホンシステムからローカルマイクロホンまでの距離の経時変化を依然として特定できる場合があり、たとえば、既知の音源の初期位置とこれとを組み合わせることにより、この距離の経時変化を使用して、本音場マイクロホンシステムに対する音源の位置を特定することができる。

代替の実施形態では、少なくとも２つのマイクロホンからの出力が処理されて、空間的に符号化された音場信号が生成される。これは、マイクロホン信号からの出力を組み合わせて、複数の成分を生成することを含んでいてもよい。そのような実施形態では、これら複数の成分のそれぞれは、特定の位置、方向、及び感知領域を有する仮想マイクロホンの出力に対応していてもよい。たとえば、これら複数の成分のそれぞれは、球面調和関数の１つに対応する感知領域を有するマイクロホンに対応していてもよい。一組の実施形態では、空間的に符号化された音場信号は、アンビソニックＢフォーマット信号のセットを含む。いくつかのそのような実施形態では、本音場マイクロホンシステムは、マイクロホンアレイとエンコーダとを備える。エンコーダは、マイクロホンアレイからの出力を処理して、空間的に符号化された音場信号を生成するように構成されていてもよい。

いくつかのそのような実施形態では、決定された相関の尺度を使用して、本音場マイクロホンシステムから音源への方向及び範囲を計算する。上記のように、Ｂフォーマット信号及びローカルマイクロホン信号はフーリエ変換されてもよく、また相関の尺度は、ローカルマイクロホン信号と複数の成分のそれぞれとの間のクロススペクトルを含んでいてもよい。

ローカルマイクロホン信号と複数の成分のそれぞれとの間で計算されたクロススペクトルを使用して、音源及びマイクロホンを含む当該環境のインパルス応答を求めることができる。次いで、時間窓をこのインパルス応答に適用して、球面調和関数によって重み付けされた直接音を抽出することができる。球面調和関数の成分それぞれの重みを使用して、音源の方位角及び仰角（すなわち方向）を抽出することができる。

いくつかの実施形態では、相関の尺度を使用して、球面調和関数によって重み付けされた直接音の自己相関を求めることができる。そのような実施形態では、本音場マイクロホンシステムからローカルマイクロホンへの方向は、直接音の自己相関の成分を評価することによって抽出することができる。

音源から本音場マイクロホンシステムまでの範囲は、インパルス応答の０次成分（すなわち、０次の０球面調和関数）を調べ、かつローカルマイクロホン信号と空間的に符号化された音声信号との間における伝搬遅延を抽出することによって計算することができる。次いで、音源から本音場マイクロホンシステムまでの範囲は、伝搬遅延に音速の推定値を乗算することによって計算することができる。この計算された範囲を特定された音源の方向と組み合わせると、音源の位置が完全に確定することになる。一次球面調和関数の成分の比重から方位角及び仰角を求める場合において、直接音を抽出するときに使用される時間窓を調整するために、この伝搬遅延も使用することができる。

上記から理解されるように、本発明の多くの実施形態では、本音場マイクロホンシステムに対する音源の位置を正確に特定するために、音速を高精度に推定しなければならない。したがって、いくつかの実施形態では、周囲温度測定値を使用して、音源の位置を特定する際に使用される音速の推定値を計算又は精緻化している。

前述のように、ＶＲ制作では、音源が当該シーン内を移動することがよくある。本発明は、音源が移動音源を含んでいる状況にとりわけ適用可能であり得るが、それはなぜなら、制作中、移動音源を手動で追跡する際に要する相当の労力を軽減することができるからである。

移動音源を特徴とする実施形態では、ローカルマイクロホンは、好ましくは音源と共に移動するように構成され、当該音源からの音声に対応するローカルマイクロホン信号を確実に生成し続けるようにしている。これは、ローカルマイクロホンを音源に固定又は接続することで実現され得る。たとえば、この音源は発話中の人物を含んでいてもよく、またローカルマイクロホンは、その人物の衣服のアイテムに留められるラベリアマイクロホンを含んでいてもよい。

本出願人は、本明細書に開示している位置特定技術が、対象となる音源が複数存在する状況にも適用できることを理解している。上記のように、複数の音源を使用する制作では、それぞれの位置を手動で追跡することは相当の労力を要する可能性がある。したがって、いくつかの実施形態では、複数の成分のそれぞれは第２の音源からの音声を含み、本方法は、
第２の音源に近接して配置された第２のマイクロホンを使用して、第２のマイクロホン信号をキャプチャすることであって、ここで第１のマイクロホン信号は、第２の音源からの音声を含む、ことと、
この第２のマイクロホン信号を複数の成分のそれぞれと比較して、第２の複数の比較結果を生成することと、
これら第２の複数の比較結果を使用して、本音場マイクロホンシステムに対する第２の音源の位置を特定することとをさらに含む。

本明細書に記載の方法を使用して特定される音源の位置には、いくつかの異なる用途がある。いくつかの実施形態では、本方法は、空間的に符号化されたサウンドトラックを生成することをさらに含み、ここでローカルマイクロホン信号は、本音場マイクロホンシステムに対する音源の位置で符号化される。これにより、制作中に音源を手動で追跡することに関連した作業負荷を別途要することなく、精度が高く、没入感のある再生をユーザが行うことができる。

本出願人はまた、いくつかの実施形態において、当該位置を有利に使用して、さらなる動作を制御できることを理解している。当該位置はリアルタイムで特定されてもよく、空間的に符号化された音場信号及びローカルマイクロホン信号が生成されている間に特定される。いくつかのそのような実施形態では、音源の位置を使用して、たとえば効果音、カメラの動き、及び／又は照明の変更を自動的にトリガすることができる。

いくつかの実施形態では、音源の位置を使用して、効果音又は音響処理技術をトリガ又は制御することができ、この例としては、ゲインレベル及び／又は自動ゲイン制御（ＡＧＣ）、コンプレッサー、ミキシング、ドライ／ウェットのミックスを含むディレイとリバーブ、イコライジングを含むフィルタリング、トレモロ、モジュレーション、コーラス、フランジャー、ワウワウ、フェイザー、タイムストレッチとピッチシフト、ノイズリダクションとリストア、ヴォコーディング、オートチューン、及びサウンド・シンセシスが挙げられる。

そのような効果音若しくは処理技術は、ダイジェティック・サウンド信号又はノン・ダイジェティック・サウンド信号に適用され、かつ／又は実行されてもよい。これらの効果音及び／又は処理技術は、他の音源から発信される音声にも同様に、又は代わりに適用されてもよいが、位置特定の対象となる音源によって発信される音声に適用され、かつ／又は実行されてもよい。

これらの効果音及び処理はモノラルであってもよいし、空間的であってもよい。

上記のように、本発明は、対応するサウンドトラックと共に映像を含む仮想現実（ＶＲ）制作内での使用にとりわけ適している。このため、いくつかの実施形態の組では、本方法は、カメラシステムを使用して映像信号をキャプチャすることをさらに含み、ここで音源は、この映像信号内でキャプチャされる。この映像信号は、３６０度の映像信号を含んでいてもよい。

音源の位置を使用して、再編成、フィルタ、テキストと字幕、又はコンピュータ生成画像（ＣＧＩ）などの映像効果又は処理技術をトリガし、かつ／又は制御することもできる。

いくつかのそのような実施形態では、本音場マイクロホンシステムはカメラシステムと併置されている。本音場マイクロホンシステム及びカメラシステムは、エンドユーザにとって便利なＶＲ制作ソリューションをもたらすために、一体になった映像及び音声記録装置の一部として設けられてもよい。ただし代替の実施形態では、本音場マイクロホンシステムは、カメラシステムとは別個に（すなわち、併置されずに）設けられてもよい。

これらの実施形態のいずれかにおいて、本方法は、映像信号内で光学画像追跡技術を使用して、音源の位置を特定し、かつ精緻化することをさらに含んでいてもよい。これは自動化されていてもよいが、ユーザ入力が一部必要になり得る。２つの独立した位置特定技術を組み合わせることにより、位置の特定における不確実性を低減することができる。音源の位置を特定する際に使用される音速の推定値は、映像信号内で光学的対象追跡を使用して位置特定バイアスを推定することによって精緻化されてもよい。

音場マイクロホンが別々に設けられている実施形態では、映像信号内で光学画像追跡技術を使用して、空間的に符号化された音場信号と映像信号とを整列させてもよい。

本音場マイクロホンシステムとカメラシステムとが離隔して配置されている実施形態では、２つのシステムの空間定位がずれている可能性がある。２つの独立した位置特定技術を組み合わせることにより、２つのシステムの空間定位を揃えることができる。

いくつかの実施形態では、ローカルマイクロホン信号を複数の成分のそれぞれと比較することは、ローカルマイクロホン信号及び複数の成分のそれぞれをニューラルネットワークに入力することと、本音場マイクロホンシステムに対する音源の位置を前記ニューラルネットワークからの出力として受信することとを含む。いくつかのそのような実施形態では、このニューラルネットワークは、従前にキャプチャされたローカルマイクロホン信号と、空間的に符号化された音場信号と、音源位置に関する情報とを使用して訓練される。

本明細書に記載の音源の位置を特定する方法が、本方法が実行されるそれぞれの信号をキャプチャするシステムの一部として使用できることが、当業者には理解されるであろう。ただしこのことは必須ではなく、従前にキャプチャされたか、又は他の場所でキャプチャされた信号に対しても同様に実行することができる。したがって、第２の態様から見た場合、本発明は、音源の位置を特定する方法を提供するものであり、本方法は、
複数の成分を含む、空間的に符号化された音場信号を供給することであって、各成分は当該音源からの音声を含む、ことと、
当該音源からの音声に対応するローカルマイクロホン信号を供給することと、
このローカルマイクロホン信号を複数の成分のそれぞれと比較して、複数の比較結果を生成することと、
これら複数の比較結果を使用して、当該音源の位置を特定することとを含む。

本発明の第２の態様は、
複数の成分を含む空間的に符号化された音場信号を受信し、各成分はある音源からの音声を含み、
当該音源からの音声に対応するローカルマイクロホン信号を受信し、
このローカルマイクロホン信号を複数の成分のそれぞれと比較して、複数の比較結果を生成し、かつ
これら複数の比較結果を使用して、当該音源の位置を特定するように構成されたソフトウェアを備える、コンピュータソフトウェアツール又は非一時的なコンピュータ可読媒体に及ぶ。

本発明の第１の態様による方法の実施形態の多くが、上記の第２の態様による方法又はソフトウェアの実施形態でもあることが理解されるであろう。たとえば、上記の第２の態様による方法又はソフトウェアは、空間的に符号化されたサウンドトラックを生成するためのデータ、あるいは効果音、カメラの動き、及び／又は照明の変更などのさらなる動作を制御するための制御信号を供給することを含み得る。

本発明は、概して、本明細書に記載の方法を実行するように構成された装置、たとえばある音源位置特定システムにも及ぶものであり、この音源位置特定システムは、
複数の成分を含む音場信号を出力するように構成された音場マイクロホンシステムであって、各成分はある音源からの音声を含む、音場マイクロホンシステムと、
当該音源に近接して配置され、かつ当該音源からの音声に対応する近接マイクロホン信号を出力するように構成された近接マイクロホンと、
この近接マイクロホン信号及び音場信号を受信するように構成されたプロセッサとを備え、
このプロセッサは、近接マイクロホン信号を複数の成分のそれぞれと比較して、複数の比較結果を生成し、かつこれら複数の比較結果を使用して、本音場マイクロホンシステムに対する当該音源の位置を特定するように構成されている。

次に、本発明の特定の実施形態について、例示としてのみ、そして添付の図面を参照しながら説明する。
本発明の一実施形態に従って動作する、音場録音システムの概略図である。簡略化された三辺測量による位置特定技術を示した概略図である。本発明の一実施形態に従って動作する、移動音源を備える音場録音システムの概略図である。本発明の一実施形態による、仮想現実生成システムの概略図である。

図１は、音場マイクロホンアレイ２（たとえばアンビソニックマイクロホン）を備え、第１の人物４及び第２の人物６を伴う仮想現実制作からのシーンを示している。図１には示していないが、マイクロホンアレイ２は、あらゆる方向からマイクロホンアレイ２に到達する音声をキャプチャするように構成された、複数のマイクロホンを含む。これら複数のマイクロホンそれぞれの位置及び方向は、あらかじめ正確に選択される。マイクロホンアレイ２は、複数の音声信号を処理モジュール１０へと出力するように構成されている。

音場マイクロホンアレイ２と第１の人物４との間の距離、及びその結果としての信号対雑音比の低下に起因して、第１の人物からの発話が録音される際の音質が、特定の用途には適切でないものとなり得る。

結果として得られるサウンドトラックでの第１の人物による発話の音質を上昇させるために、ローカルマイクロホン８が第１の人物４に近接して配置される。このマイクロホンは、たとえば衣服のアイテムに取り付けられる目立たないラベリアタイプのマイクロホンか、又は録音位置のすぐ外に配置される指向性のブームマイクロホンとすることができる。ローカルマイクロホン８は、処理モジュール１０に渡される単一の（モノラルの）ローカルマイクロホン信号を出力する。

マイクロホン２、８と処理モジュール１０との間に物理的接続を示しているが、無線による接続、たとえば無線周波数接続を、それらの一方又は両方に同様に供給することができる。

ローカルマイクロホン８が第１の人物４に非常に近接して配置されているので、高い信号対雑音比を実現することができ、またそこからの信号は、第１の人物４からの音声によって支配されることになる。

図１に示すように、第１の人物４が発話中のため、当該シーン内の音源としてこれが機能している。第２の人物６も同様に発話中であり、これも別の音源として機能している。第１の人物４及び第２の人物６の両方によって生成される音声は、マイクロホンアレイ２によってキャプチャされる。その結果、マイクロホンアレイ２によって出力される複数の音声信号は、第１の人物及び第２の人物４、６の両方からの音声を表している。

ここに示している本システムは、マイクロホンアレイ２によってキャプチャされる、第１の人物４及び第２の人物６の両方からの音声を含む、通常の空間的に符号化されたサウンドトラックを生成することができる。具体的には、処理モジュール１０は、個々のマイクロホンの既知の位置及び方向と共に、マイクロホンアレイ２からの複数の信号を使用して、複数の成分を含む空間的に符号化された音場信号を生成し、各成分は第１の人物４及び第２の人物６からの音声を含む。

ただし、本発明によれば、ローカルマイクロホン８からのより高品質の信号を、空間的に符号化されたサウンドトラックにさらに取り込むことができる。

これを行うために、音場マイクロホンアレイ２に対する第１の人物４の位置を特定する必要がある。処理モジュール１０は、ローカルマイクロホン８からの信号をマイクロホンアレイ２からの複数の成分のそれぞれと比較して、複数の比較結果を生成することによってこれを行う。

ローカルマイクロホン８からのより高品質の信号を空間的に符号化されたサウンドトラックに取り込むことに加えて、又はその代わりに、音場マイクロホンアレイ２に対する第１の人物４の位置を使用して、制作中若しくは制作後に、たとえば効果音の適用の制御又は音響レベルの自動制御をトリガしてもよい。

処理モジュール１０が第１の人物４（すなわち、音源）の位置を特定できるいくつかの方法があり、そのうちの２つについては、以下の一般的な例において詳述している。図１では、マイクロホンアレイ２及びローカルマイクロホン８に物理的に近接して配置され、かつこれに接続された状態で処理モジュール１０を示しているが、処理モジュール１０は、たとえば遠隔サーバ上に設けられるなど、遠隔に配置されてもよい。

処理モジュール１０を使用して、音声のキャプチャが進行している間に「リアルタイム」で第１の人物４の位置を特定することができ、たとえば上述したようなさらなる動作を制作中にトリガすることができる。ただし、その代わりに、この位置の特定を、たとえばポストプロダクション中など後で行ってもよい。

図１に記載している状況の一般的な例を使用して、２つの異なる位置特定手法について説明する。

第１の手法では、マイクロホンアレイは

個のマイクロホンで構成され、アンビソニックＡフォーマット信号のセット

を出力しており（すなわち、それぞれのマイクロホンからの生の出力）、これらの信号はそれぞれ音源からの音声を含む。ローカルマイクロホンは、音源からの音声に対応するローカルマイクロホン信号

をキャプチャする。

Ａフォーマット信号が反射壁のある部屋に配置された

個の独立した音源で構成されていると仮定すると、

番目のマイクロホンの信号は次のように表すことができ、

ここで、

はノイズであり、

は

番目の音源と

番目のマイクロホンとの間の室内インパルス応答である。この室内インパルス応答が次のような

回の遅延反射で構成されていると仮定している。

離散時間周波数のフーリエ領域では、時間

における

番目のマイクロホンの信号は次のように表すことができる。

はサンプリング周波数である。本明細書の残りの部分では、可読性を確保するために、添え字Ｔを省略している。当該位置を推定するために、直接音

の到達時刻が推定される。ローカルマイクロホン信号

及びＡフォーマット信号

に対し、位相変換（ＰＨＡＴ）アルゴリズムが使用されている。

したがって、マイクロホン

から音源

までの距離が

に等しくなることを推定することができ、ここで

は音速である。

マイクロホンのそれぞれから音源までの距離がひとたび特定されれば、音源の位置を特定するのに必要となるのは、これらの距離をマイクロホンの位置と併せて使用した簡単な代数操作のみである。図２は、このプロセスを二次元で示した概略図であるが、この理論は完全な３Ｄ実装にも同様に適用することができる。

図２は、図１に示しているものと同様のマイクロホンアレイを構成する３つのマイクロホン２０２、２０４、２０６の位置を示している。音源２０８は、これら３つのマイクロホン２０２、２０４、２０６と、近接して配置されたローカルマイクロホン（図示せず）とによってキャプチャされる音声を生成する。上記と同様の方法を使用して、３つのマイクロホン２０２、２０４、２０６のそれぞれから当該音源までの距離が特定される。特定された距離のそれぞれは、当該音源が位置するところで対応しているマイクロホンを中心とする、円の半径を画定する。音源２０８の位置は、３つの円がぴったり一致する地点を識別することによって特定することができる。

次に、音源の位置を特定するための第２の手法について説明する。複数のマイクロホンを含むマイクロホンアレイは、それぞれが音源からの音声を含むアンビソニックＡフォーマット信号のセットを出力している。このＡフォーマット信号が処理されて、球面調和関数へと分解される部屋の音場を含む、アンビソニックＢフォーマット信号のセットが生成される。Ｂフォーマット信号のそれぞれには符号

が付され、その際、ｍ及びｎは球面調和関数を表している。好ましい実施例では、本アンビソニックマイクロホンは、ｎ＝ｍ＝０及びｎ＝１ｍ＝−１，０，１の場合に対応する４つの信号を出力する。これは、直交して配置された３つの８の字型マイクロホン（ｎ＝１ｍ＝−１，０，１）と一致する、全指向性マイクロホン（ｎ＝ｍ＝１）から発信されるＡフォーマット信号と概念的に同等のものである。他の実施例では、高次の球面調和関数を使用してもよい（Ｂフォーマット信号の数を増加させる）。

前述同様に、ローカルマイクロホンは、当該音源からの音声に対応するローカルマイクロホン信号

をキャプチャする。

ここでも、

個の無相関の音源

が反射壁のある部屋でモデル化されている。この場合、結果として得られるアンビソニックＢフォーマット信号は次のように記述でき、

ここで、

は室内インパルス応答であり、

は球面調和関数であり、また

はノイズを表している。

この室内インパルス応答

は、次のような

回の遅延反射で構成されていると仮定している。

したがって、Ｂフォーマット信号のフーリエ変換は、次のように記述することができる。

位置特定の対象となる、Ｂフォーマット信号

とマイクロホン信号

との間のクロススペクトルが、次のように計算される。

クロススペクトルに逆フーリエ変換を施すと、ｓ番目の音源の推定自己相関関数

で畳み込まれたマイクロホン信号における、室内インパルス応答のアンビソニックＢフォーマット表現（すなわち、球面調和関数へと分解されたもの）が、次のように生成される。

このアンビソニック表現で切り捨てた合計は、音源の方位角及び仰角に対応する球面調和関数によって重み付けされた、直接音の自己相関で切り捨てた合計（すなわち、あらゆる反射を除いたもの）を抽出する。

切り捨ての制限成分

は、Ａフォーマット信号の場合と同一の方法で、ローカルマイクロホン信号及び

（全指向性Ｂフォーマット成分）にＰＨＡＴアルゴリズムを使用することによって抽出することができる。

は

よりも小さいと仮定され、

となるように選択される。

アンビソニックマイクロホンに対する音源の方向（方位角と仰角）は、以下のように

の成分を評価することによって抽出することができる。

音源の位置を完全に確定するには、マイクロホンアレイから当該音源までの距離（又は範囲）も特定する必要がある。これは

を使用して計算することができ、ここで

は音速である。

図３は、図１に示しているものと同様のシーンを示しており、ここで音場マイクロホンアレイ３０２及びローカルマイクロホン３０８が使用され、第１の人物３０４及び第２の人物３０６の両方からの音声を含む、空間的に符号化されたサウンドトラックを録音している。ただし、図１とは対照的に、このシーンの第１の人物３０４は、発話中に移動している（点線で示している）。従来技術のシステムでは、移動音源の位置を特定するには相当の労力を要するが、図１及び図２を参照して説明した本手法は、移動音源に完全に対応できるため、このシーンでも本手法を使用して、あらゆる動きを通して第１の人物４の位置を特定することができる。これにより、高品質のローカルマイクロホン信号を含む空間的に符号化されたサウンドトラックを、はるかに容易かつ迅速に生成することができる。

図４は、図１及び図３に示すものと同様の仮想現実制作からのシーンを示しており、ここでは、音場マイクロホンアレイ４０２、ローカルマイクロホン４０８、及びプロセッサ４１０が使用され、第１の人物４０４及び第２の人物４０６の両方からの音声を含む、空間的に符号化されたサウンドトラックを録音している。ただし図４は、３６０度カメラ４０３も示しており、このカメラは、第１及び第２の人物４０４、４０６の両方を含む３６０度の映像信号をキャプチャするように動作可能である。この３６０度の映像信号は空間的に符号化されたサウンドトラックと共にユーザに対して再生され、制作中に手動追跡を集中的に行う必要もなく、第１の人物４０４からの高品質な音声を含む、没入型で精度の高いＶＲ体験を生み出すことができる。

上記のように、本明細書に開示している方法を使用して特定される、第１の人物４０４の位置は、制作中及び制作後の両方において高品質の音声を促進する以外の目的に使用することができる。たとえば、この第１の人物４０４の位置を使用して、カメラ４０３の動き及び／又は照明の調整を指示してもよい。本明細書に開示している方法は、ポッドキャスト又は音楽の演奏などの高品質の、没入型で精度の高い音声のみの制作（すなわち、３６０度映像を付随させることなく）をさらに可能にし得る。

Claims

音源の位置を特定する方法であって、前記方法は、
少なくとも２つのマイクロホンを備える音場マイクロホンシステムを使用して、空間的に符号化された音場信号を生成することであって、前記空間的に符号化された音場信号は複数の成分を含み、各成分は前記音源からの音声を含む、ことと、
前記音源に近接して配置されたローカルマイクロホンを使用して、前記音源からの音声に対応するローカルマイクロホン信号を生成することと、
前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較して、複数の比較結果を生成することと、
前記複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記音源の位置を特定することとを含む、
音源の位置を特定する方法。
前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較することは、前記ローカルマイクロホン信号と前記複数の成分のそれぞれとの間の相関の尺度をそれぞれ決定することを含む、請求項１に記載の方法。
前記音場マイクロホンシステムに対する前記音源の位置を特定することは、
前記相関の尺度を使用して、球面調和関数によって重み付けされた直接音の自己相関を求めることと、
前記直接音の自己相関の成分を評価することによって、前記音場マイクロホンシステムから前記ローカルマイクロホンへの方向を抽出することとを含む、請求項２に記載の方法。
前記決定された相関の尺度を使用して、前記ローカルマイクロホン信号と前記複数の成分の少なくとも１つとの間における１つ又は複数の伝搬遅延を計算することを含む、請求項２又は３に記載の方法。
前記複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記音源の位置を特定することは、前記伝搬遅延の２つ以上の間の差を使用して、前記音場マイクロホンシステムから前記ローカルマイクロホンへの方向を特定することを含む、請求項４に記載の方法。
前記複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記音源の位置を特定することは、前記伝搬遅延の少なくとも１つを使用して、前記音場マイクロホンシステムから前記ローカルマイクロホンまでの距離、又は距離の変化を特定することを含む、請求項４又は５に記載の方法。
前記音源が移動している、請求項１から６のいずれか一項に記載の方法。
前記複数の成分のそれぞれは第２の音源からの音声を含み、前記方法は、
前記第２の音源に近接して配置された第２のマイクロホンを使用して、第２のマイクロホン信号をキャプチャすることであって、ここで前記第１のマイクロホン信号は、前記第２の音源からの音声を含む、ことと、
前記第２のマイクロホン信号を前記複数の成分のそれぞれと比較して、第２の複数の比較結果を生成することと、
前記第２の複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記第２の音源の位置を特定することとをさらに含む、請求項１から７のいずれか一項に記載の方法。
空間的に符号化されたサウンドトラックを生成することをさらに含み、ここで前記ローカルマイクロホン信号は、前記音場マイクロホンシステムに対する前記音源の位置で符号化される、請求項１から８のいずれか一項に記載の方法。
前記方法は、前記特定された前記音源の位置を使用して、さらなる動作を制御することを含む、請求項１から９のいずれか一項に記載の方法。
カメラシステムを使用して映像信号をキャプチャすることをさらに含み、ここで前記音源は前記映像信号内でキャプチャされる、請求項１から１０のいずれか一項に記載の方法。
前記音場マイクロホンシステムは前記カメラシステムと併置されている、請求項１１に記載の方法。
前記方法は、光学画像追跡技術を前記映像信号と共に使用して、前記音源の位置を精緻化することをさらに含む、請求項１１又は１２に記載の方法。
前記方法は、光学画像追跡技術を使用して、前記空間的に符号化された音場信号と前記映像信号とを整列させることをさらに含む、請求項１１に記載の方法。
前記音場マイクロホンシステムは、少なくとも４つのマイクロホンを備える、請求項１から１４のいずれか一項に記載の方法。
前記音場マイクロホンシステムは、マイクロホンアレイとエンコーダとを備える、請求項１から１５のいずれか一項に記載の方法。
前記空間的に符号化された音場信号は、アンビソニックＢフォーマット信号を含む、請求項１から１６のいずれか一項に記載の方法。
前記音場マイクロホンシステムの前記少なくとも２つのマイクロホンは、互いに隣接している、請求項１から１７のいずれか一項に記載の方法。
前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較することは、前記ローカルマイクロホン信号及び前記複数の成分のそれぞれをニューラルネットワークに入力することと、前記音場マイクロホンシステムに対する前記音源の位置を前記ニューラルネットワークからの出力として受信することとを含む、請求項１から１８のいずれか一項に記載の方法。
従前にキャプチャされたローカルマイクロホン信号と、空間的に符号化された音場信号と、音源位置に関する情報とを使用して、前記ニューラルネットワークを訓練することをさらに含む、請求項１９に記載の方法。
音源の位置を特定する方法であって、前記方法は、
複数の成分を含む、空間的に符号化された音場信号を供給することであって、各成分は前記音源からの音声を含む、ことと、
前記音源からの音声に対応するローカルマイクロホン信号を供給することと、
前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較して、複数の比較結果を生成することと、
前記複数の比較結果を使用して、前記音源の位置を特定することとを含む、
音源の位置を特定する方法。
複数の成分を含む空間的に符号化された音場信号を受信し、各成分はある音源からの音声を含み、
前記音源からの音声に対応するローカルマイクロホン信号を受信し、
前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較して、複数の比較結果を生成し、かつ
前記複数の比較結果を使用して、前記音源の位置を特定するように構成された、コンピュータソフトウェアツール。
複数の成分を含む音場信号を出力するように構成された音場マイクロホンシステムであって、各成分はある音源からの音声を含む、音場マイクロホンシステムと、
前記音源に近接して配置され、かつ前記音源からの音声に対応する近接マイクロホン信号を出力するように構成された近接マイクロホンと、
前記近接マイクロホン信号及び前記音場信号を受信するように構成されたプロセッサとを備え、
前記プロセッサは、前記近接マイクロホン信号を前記複数の成分のそれぞれと比較して、複数の比較結果を生成し、かつ前記複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記音源の位置を特定するように構成されている、
音源位置特定システム。