[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2021520760A - 音源の位置特定 - Google Patents

音源の位置特定 Download PDF

Info

Publication number
JP2021520760A
JP2021520760A JP2020564659A JP2020564659A JP2021520760A JP 2021520760 A JP2021520760 A JP 2021520760A JP 2020564659 A JP2020564659 A JP 2020564659A JP 2020564659 A JP2020564659 A JP 2020564659A JP 2021520760 A JP2021520760 A JP 2021520760A
Authority
JP
Japan
Prior art keywords
sound
sound source
microphone
signal
sound field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020564659A
Other languages
English (en)
Other versions
JP7469235B2 (ja
Inventor
ソルヴァン,オードゥン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomono AS
Original Assignee
Nomono AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomono AS filed Critical Nomono AS
Publication of JP2021520760A publication Critical patent/JP2021520760A/ja
Application granted granted Critical
Publication of JP7469235B2 publication Critical patent/JP7469235B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Studio Devices (AREA)

Abstract

音源(4)の位置を特定する方法が提供され、本方法は、少なくとも2つのマイクロホンを備える音場マイクロホンシステム(2)を使用して、空間的に符号化された音場信号を生成することを含み、この空間的に符号化された音場信号は複数の成分を含み、各成分は音源(4)からの音声を含む。本方法は、音源(4)に近接して配置されたローカルマイクロホン(8)を使用して、音源(4)からの音声に対応するローカルマイクロホン信号を生成することと、このローカルマイクロホン信号をこれら複数の成分のそれぞれと比較して、複数の比較結果を生成することと、これら複数の比較結果を使用して、音場マイクロホンシステム(2)に対する音源(4)の位置を特定することとをさらに含む。【選択図】図1

Description

本出願は、音場録音システム、特に、空間オーディオコンテンツ又は仮想現実作品での使用に適した音場録音システムに関するが、これに限定されない。
音場、すなわち空間オーディオシステム及びフォーマット(たとえば、アンビソニックス、Dolby Atmos(商標)、Auro−3D(商標)、DTS:X(商標))は、特定の音響シーンに関連する空間的に符号化された音声情報を保存する方法をもたらしている。すなわち、これらのシステムは、音響シーン内の音源に位置情報を割り当てる方法をもたらしている。空間的に符号化された音声情報(又は「音場」)は、(たとえば、コンピュータで生成されたビデオゲームの音響シーンを制作する場合に)位置情報が手動で割り当てられた、個別に録音されているサウンドトラックを使用して生成することができ、あるいは、たとえば多指向性アンビソニックマイクロホンを使用して、完全に生でキャプチャすることもできる。生の「音場」データのキャプチャは、(たとえば、オーケストラの一員として座っているかのような錯覚をもたらすことによって)典型的には従来の録音作業をより没入型のものにするために使用されてきたが、近年ではこの技術が仮想現実作品に適用され始めている。
仮想現実(VR)作品は通常、360度の立体映像信号と、対応するサウンドトラックとで構成されている。これらの作品は、臨場感を生み出すために、一人称視点をサポートしているプラットフォームでユーザに対して再生される。このようなプラットフォームの例としては、双眼型ヘッドセット及びステレオヘッドホン、デスクトップ用360度ビデオプレーヤー及び360度映画が挙げられる。双眼型ヘッドセットは通常、(たとえば、IMU/加速度計を使用して)ユーザの頭部の位置及び方向を追跡できるため、ヘッドセット及びヘッドホンに対して再生される映像及び音声がそれぞれ適宜調整されて、仮想現実の錯覚を維持することができる。たとえば、ある時点で、仮想環境でのユーザの現在の視界に対応している360度の映像信号の一部のみが、そのユーザに表示される。ユーザが頭部を動かしたり向きを変えたりすると、この動きによりユーザの視界がどのように変化するかを仮想世界で反映するために、ユーザに表示される360度の信号の一部が変化する。同様に、仮想シーンでさまざまな場所から聞こえてくる音声は、ユーザが動くときに、左右のヘッドホンチャンネルの適応フィルタリングを受けることになり、耳部と人の頭部と上半身との間の空間的オフセットが分散することによって現実に発生する、当該音声の周波数に依存した位相変化と振幅の変化とをエミュレートすることができる。
一部のVR作品は、コンピュータ生成映像と、個別に事前録音又は合成された音声とで全て構成されている。しかしながら、360度の視界を記録できるカメラと、空間的に符号化されたサウンドトラックを録音できる音場マイクロホンとを使用して、「生の動作」のVR録画映像を制作することがますます一般的になっている。その後、録音された音声と映像とが処理されて、上記のようなヘッドセットとヘッドホンとを介して再生できるVR録画映像が制作されることになる。
音場マイクロホンシステムを使用してVRサウンドトラックを録音すると、録音された音声は空間情報でネイティブに符号化されるため、この録音された音声をVRアプリケーションに容易に実装することができる。録音されたこれらの映像信号及び音声信号は、最終的なVR録画映像を制作するために「整列させる」だけでよく、これによって上記のシステムを介して再生できるようになる。多くの市販のビデオ制作ツールやコンピュータ・ソフトウェア・アプリケーションには、空間的に符号化された音声ファイルを当該作品に取り入れる機能など、VR制作機能がすでに含まれている。
空間オーディオマイクロホンは、空間内の特定の地点から生の音場情報をキャプチャするための便利なツールであるが、出力の品質及び柔軟性に関していくつかの制限がある。たとえば、マイクロホンから遠く離隔した場所にいる人物の音質は大幅に低下する恐れがある。また、エフェクトを追加したりレベルを調整したりする目的で、音場録音内の単一の音源を分離することも困難である。本出願は、これらの課題の少なくとも一部を軽減することを図るものである。
第1の態様から、本発明は、音源の位置を特定する方法を提供するものであり、本方法は、
少なくとも2つのマイクロホンを備える音場マイクロホンシステムを使用して、空間的に符号化された音場信号を生成することであって、この空間的に符号化された音場信号は複数の成分を含み、各成分は当該音源からの音声を含む、ことと、
当該音源に近接して配置されたローカルマイクロホンを使用して、当該音源からの音声に対応するローカルマイクロホン信号を生成することと、
このローカルマイクロホン信号を複数の成分のそれぞれと比較して、複数の比較結果を生成することと、
これら複数の比較結果を使用して、音場マイクロホンシステムに対する当該音源の位置を特定することとを含む。
このため、本発明によって、より高い音質及び/又は分離を生成し得るローカルマイクロホン信号を容易に使用し、かつこれを音場マイクロホン信号と一体化できることが、当業者には明らかとなるであろう。
したがって、本発明は、音声のみの制作(たとえば、音楽の演奏又は演劇の上演、朗読作品、ラジオ放送、ポッドキャストなど)を含む、高品質で精度も高く、かつ没入型の空間オーディオ録音又は生放送を容易に実現することができる。
また、従来の音声及び映像の制作では、音質と分離レベルとを向上させるために、カメラから離隔している音源を近接マイクロホン(たとえば、人の衣服に留められるラベリアタイプのマイクロホン)でキャプチャする場合がある。ここで結果として得られる音声信号は、これら音声及び映像の2つのタイミングを同期することで映像に取り込むことができる(多くの場合、録音装置をタイムコード及び同期信号装置へと接続し、当該ユニットに同一のワードクロックとタイムコードとをもたらすことで実現される)が、この手法はVR制作にそれほど容易に適用されるものではない。映像トラック及び音声トラックのタイミングの同期は比較的容易に行えるが、VR世界内に音声を配置して、映像内の特定の方向から音声が聞こえるように見せるには、音源の位置に関する追加情報が必要となる。音源が移動している場合、及び/又はシーンの一部若しくは全体でカメラの視界から音源が部分的に、又は完全に隠れている場合、本プロセスはさらに複雑になる。
音源の位置を特定するために使用できる1つの手法は手動追跡であり、これにより、ユーザはポストプロダクション中に録画映像を監視し、音源の位置及び/又は経路を手動で追跡する。次いで、当該音源の近接マイクロホンを使用した録音が手動で追跡された位置又は動きに割り当てられ、正確な空間オーディオ情報を使用した最終的なVR作品を制作することができる。ただし、この手法は相当の労力を要し、精度も低くなる可能性があり、またカメラで確認できる音源でのみ実行可能となっている。その上、二次元で音源の位置特定を行うことに実質的に制限されている。距離情報が推定され、かつ/又は一定値に設定される必要もあり得る。こうした課題は全て、最終的なVRサウンドトラックでの音場再生の精度が低下し、またVR体験における没入感が低下することへとつながっていく。この手法は、録画映像が利用できない音声のみの制作には全く適用されない。
典型的な生の動作シーンには、数十又は数百の個々の音源が含まれる場合がある。対象となる各音源に個々の近接マイクロホンを供給することは、分離及び音質を考慮する点で有益であるが、上記の理由により、これには多くの制作リソースと時間とが別途必要になり得る。
これに対し、本発明によれば、音源からの音声は近接マイクロホン及び音場マイクロホンシステムの両方によって検出される(ただし、強度及び品質は低下する)ので、本出願人は、複数の比較結果を使用すれば、音場マイクロホンシステムに対する当該音源の位置を特定することが可能であると理解している。これは、ユーザ(たとえば制作者)が、時間がかかり、なおかつ精度の低い手法を使用して、音源の位置を手動で特定する必要がないことを意味している。その代わりに、最小限のユーザ入力で、音源の位置を自動的に特定することができる。本手法には、精度が向上する可能性と、音声のみの制作で、又はカメラが認識できない音源(たとえば、低照度のシーン又は暗いシーン、あるいは当該音源がより大きな物体に含まれているが、その物体と区別できないような場合)で使用できるという別の利点がある。
ローカルマイクロホン信号は通常、音源によって生成される音声を正確に表すと仮定され、またローカルマイクロホンは、好ましくは当該音源にできるだけ近接して配置され、その結果、当該音源の位置を特定することが、ローカルマイクロホンの位置を特定することと実質的に等価となる。
「空間的に符号化された」という用語は、本明細書では、位置情報を特定できるデータを指すために使用されている。このデータは、音声データと共に保存される明示的な位置メタデータを含んでいてもよいが、位置情報を回復できるデータを含むとさらに理解される必要があり、この例としては、前記マイクロホンからの音声データと共にマイクロホンの既知の位置及び/又は指向性が挙げられる。空間的に符号化された音声信号の例としては、アンビソニックAフォーマット又はアンビソニックBフォーマットが挙げられる。
本音場マイクロホンシステムは、空間的に符号化された音場信号を生成できるマイクロホンのあらゆる配列を含んでいてもよく、これにはたとえば、平面配列、直交配列、又はより複雑な配列が含まれる。
本出願人は、三次元で位置情報を明確に特定するには、理論上は本音場マイクロホンシステムが4つ以上のマイクロホンを備えることが必要になり得ると認識しているが、多くの場合、位置を十分正確に特定するのに2つのマイクロホンがあれば十分であり得ることも理解している。たとえば、音源の位置又は動きに対する物理的限界の知識、あるいは追跡技術と連携して得た開始位置に関する知識などの追加情報を使用することが、音源の位置を分析する補助となり得る。ただし、一組の実施形態では、本音場マイクロホンシステムは少なくとも3つのマイクロホンを備え、またいくつかのそのような実施形態では、本音場マイクロホンシステムは少なくとも4つのマイクロホンを備える。
一組の実施形態では、本音場マイクロホンシステムは、処理モジュールをさらに備える。この処理モジュールは、複数のマイクロホンの出力を位置データで符号化するように構成されていてもよい。
好ましくは、本音場マイクロホンシステムの少なくとも2つのマイクロホンは互いに隣接しているが、これらは概ね、互いから離隔している可能性がある。本音場マイクロホンシステムは、互いに直交して配置された複数のマイクロホンを備えていてもよく、これはすなわち、最大の応答を有する各マイクロホンのそれぞれの軸が、互いに直交していることを意味する。
いくつかの実施形態の組では、ローカルマイクロホン信号を複数の成分のそれぞれと比較することは、このローカルマイクロホン信号と複数の成分のそれぞれとの間の相関の尺度を決定することを含む。任意の適切な相関の尺度を使用してもよいが、一組の実施形態では、この相関の尺度は、ローカルマイクロホン信号と、空間的に符号化された音場信号の複数の成分のそれぞれとの間のクロススペクトルを含む。いくつかのそのような実施形態では、ローカルマイクロホン信号及び空間的に符号化された音場信号が前処理されてから、相関の尺度が決定される。たとえば、ローカルマイクロホン信号及び複数の成分のそれぞれは、フーリエ変換されてもよい。
いくつかの実施形態では、空間的に符号化された音場信号の複数の成分のそれぞれは、マイクロホンの1つからの出力のみで構成されている。そのような実施形態では、各マイクロホンの位置及び方向は典型的には既知であり、そこから空間的符号化を達成することができる。いくつかのそのような実施形態では、空間的に符号化された音場信号は、アンビソニックAフォーマット信号のセットを含む。
いくつかのそのような実施形態では、決定された相関の尺度を使用して、ローカルマイクロホン信号と複数の成分の少なくとも1つとの間における1つ又は複数の伝搬遅延(たとえば、ローカルマイクロホン信号と複数の成分のそれぞれとの間に発生する伝搬遅延)を計算することができる。そのような実施形態では、本音場マイクロホンシステムに対する音源の位置を特定することは、この伝搬遅延の2つ以上の間の差を使用して、本音場マイクロホンシステムからローカルマイクロホンへの方向を特定することを含んでいてもよい。
マイクロホンのそれぞれの位置が分かっているので、計算されたこれらの伝搬遅延を音速の推定値と共に使用して、音源からマイクロホンのそれぞれまでの距離を特定することができる。これらの距離がぴったり一致する地点を特定することにより、音源の位置を特定することができる。この「三辺測量」法は、特定された距離の差が個々の範囲測定値の不確実性よりも大きいことに依存している。結果的に、本方法は、それぞれのマイクロホンと音源との間の特定された距離により大きな差が生じるために、これらのマイクロホンがある程度離隔して配置されているような音場マイクロホンシステムにとりわけ適している。
ローカルマイクロホン信号と複数の成分のそれぞれとの間における伝搬遅延を計算することは、決定された相関の尺度のそれぞれ(たとえば、クロススペクトルのそれぞれ)における相互相関を計算することを含んでいてもよい。
本音場マイクロホンシステムに対する音源の位置を特定することは、伝搬遅延の少なくとも1つ、たとえば、伝搬遅延の平均値を、音速の推定値と共に使用して、本音場マイクロホンシステムからローカルマイクロホンまでの距離を特定することにより、音場マイクロホンシステムからローカルマイクロホンまでの距離を特定することを含んでいてもよい。
複数の成分のそれぞれとローカルマイクロホン信号との間に十分な時間的同期があれば、各送信機とマイクロホンとの間の距離範囲を高精度に(たとえば、数cmまで)測定することができる。
複数の成分のそれぞれとローカルマイクロホン信号との間の時間的同期が不正確であるか、又は利用できない状況であっても、本音場マイクロホンシステムからローカルマイクロホンまでの距離の経時変化を依然として特定できる場合があり、たとえば、既知の音源の初期位置とこれとを組み合わせることにより、この距離の経時変化を使用して、本音場マイクロホンシステムに対する音源の位置を特定することができる。
代替の実施形態では、少なくとも2つのマイクロホンからの出力が処理されて、空間的に符号化された音場信号が生成される。これは、マイクロホン信号からの出力を組み合わせて、複数の成分を生成することを含んでいてもよい。そのような実施形態では、これら複数の成分のそれぞれは、特定の位置、方向、及び感知領域を有する仮想マイクロホンの出力に対応していてもよい。たとえば、これら複数の成分のそれぞれは、球面調和関数の1つに対応する感知領域を有するマイクロホンに対応していてもよい。一組の実施形態では、空間的に符号化された音場信号は、アンビソニックBフォーマット信号のセットを含む。いくつかのそのような実施形態では、本音場マイクロホンシステムは、マイクロホンアレイとエンコーダとを備える。エンコーダは、マイクロホンアレイからの出力を処理して、空間的に符号化された音場信号を生成するように構成されていてもよい。
いくつかのそのような実施形態では、決定された相関の尺度を使用して、本音場マイクロホンシステムから音源への方向及び範囲を計算する。上記のように、Bフォーマット信号及びローカルマイクロホン信号はフーリエ変換されてもよく、また相関の尺度は、ローカルマイクロホン信号と複数の成分のそれぞれとの間のクロススペクトルを含んでいてもよい。
ローカルマイクロホン信号と複数の成分のそれぞれとの間で計算されたクロススペクトルを使用して、音源及びマイクロホンを含む当該環境のインパルス応答を求めることができる。次いで、時間窓をこのインパルス応答に適用して、球面調和関数によって重み付けされた直接音を抽出することができる。球面調和関数の成分それぞれの重みを使用して、音源の方位角及び仰角(すなわち方向)を抽出することができる。
いくつかの実施形態では、相関の尺度を使用して、球面調和関数によって重み付けされた直接音の自己相関を求めることができる。そのような実施形態では、本音場マイクロホンシステムからローカルマイクロホンへの方向は、直接音の自己相関の成分を評価することによって抽出することができる。
音源から本音場マイクロホンシステムまでの範囲は、インパルス応答の0次成分(すなわち、0次の0球面調和関数)を調べ、かつローカルマイクロホン信号と空間的に符号化された音声信号との間における伝搬遅延を抽出することによって計算することができる。次いで、音源から本音場マイクロホンシステムまでの範囲は、伝搬遅延に音速の推定値を乗算することによって計算することができる。この計算された範囲を特定された音源の方向と組み合わせると、音源の位置が完全に確定することになる。一次球面調和関数の成分の比重から方位角及び仰角を求める場合において、直接音を抽出するときに使用される時間窓を調整するために、この伝搬遅延も使用することができる。
上記から理解されるように、本発明の多くの実施形態では、本音場マイクロホンシステムに対する音源の位置を正確に特定するために、音速を高精度に推定しなければならない。したがって、いくつかの実施形態では、周囲温度測定値を使用して、音源の位置を特定する際に使用される音速の推定値を計算又は精緻化している。
前述のように、VR制作では、音源が当該シーン内を移動することがよくある。本発明は、音源が移動音源を含んでいる状況にとりわけ適用可能であり得るが、それはなぜなら、制作中、移動音源を手動で追跡する際に要する相当の労力を軽減することができるからである。
移動音源を特徴とする実施形態では、ローカルマイクロホンは、好ましくは音源と共に移動するように構成され、当該音源からの音声に対応するローカルマイクロホン信号を確実に生成し続けるようにしている。これは、ローカルマイクロホンを音源に固定又は接続することで実現され得る。たとえば、この音源は発話中の人物を含んでいてもよく、またローカルマイクロホンは、その人物の衣服のアイテムに留められるラベリアマイクロホンを含んでいてもよい。
本出願人は、本明細書に開示している位置特定技術が、対象となる音源が複数存在する状況にも適用できることを理解している。上記のように、複数の音源を使用する制作では、それぞれの位置を手動で追跡することは相当の労力を要する可能性がある。したがって、いくつかの実施形態では、複数の成分のそれぞれは第2の音源からの音声を含み、本方法は、
第2の音源に近接して配置された第2のマイクロホンを使用して、第2のマイクロホン信号をキャプチャすることであって、ここで第1のマイクロホン信号は、第2の音源からの音声を含む、ことと、
この第2のマイクロホン信号を複数の成分のそれぞれと比較して、第2の複数の比較結果を生成することと、
これら第2の複数の比較結果を使用して、本音場マイクロホンシステムに対する第2の音源の位置を特定することとをさらに含む。
本明細書に記載の方法を使用して特定される音源の位置には、いくつかの異なる用途がある。いくつかの実施形態では、本方法は、空間的に符号化されたサウンドトラックを生成することをさらに含み、ここでローカルマイクロホン信号は、本音場マイクロホンシステムに対する音源の位置で符号化される。これにより、制作中に音源を手動で追跡することに関連した作業負荷を別途要することなく、精度が高く、没入感のある再生をユーザが行うことができる。
本出願人はまた、いくつかの実施形態において、当該位置を有利に使用して、さらなる動作を制御できることを理解している。当該位置はリアルタイムで特定されてもよく、空間的に符号化された音場信号及びローカルマイクロホン信号が生成されている間に特定される。いくつかのそのような実施形態では、音源の位置を使用して、たとえば効果音、カメラの動き、及び/又は照明の変更を自動的にトリガすることができる。
いくつかの実施形態では、音源の位置を使用して、効果音又は音響処理技術をトリガ又は制御することができ、この例としては、ゲインレベル及び/又は自動ゲイン制御(AGC)、コンプレッサー、ミキシング、ドライ/ウェットのミックスを含むディレイとリバーブ、イコライジングを含むフィルタリング、トレモロ、モジュレーション、コーラス、フランジャー、ワウワウ、フェイザー、タイムストレッチとピッチシフト、ノイズリダクションとリストア、ヴォコーディング、オートチューン、及びサウンド・シンセシスが挙げられる。
そのような効果音若しくは処理技術は、ダイジェティック・サウンド信号又はノン・ダイジェティック・サウンド信号に適用され、かつ/又は実行されてもよい。これらの効果音及び/又は処理技術は、他の音源から発信される音声にも同様に、又は代わりに適用されてもよいが、位置特定の対象となる音源によって発信される音声に適用され、かつ/又は実行されてもよい。
これらの効果音及び処理はモノラルであってもよいし、空間的であってもよい。
上記のように、本発明は、対応するサウンドトラックと共に映像を含む仮想現実(VR)制作内での使用にとりわけ適している。このため、いくつかの実施形態の組では、本方法は、カメラシステムを使用して映像信号をキャプチャすることをさらに含み、ここで音源は、この映像信号内でキャプチャされる。この映像信号は、360度の映像信号を含んでいてもよい。
音源の位置を使用して、再編成、フィルタ、テキストと字幕、又はコンピュータ生成画像(CGI)などの映像効果又は処理技術をトリガし、かつ/又は制御することもできる。
いくつかのそのような実施形態では、本音場マイクロホンシステムはカメラシステムと併置されている。本音場マイクロホンシステム及びカメラシステムは、エンドユーザにとって便利なVR制作ソリューションをもたらすために、一体になった映像及び音声記録装置の一部として設けられてもよい。ただし代替の実施形態では、本音場マイクロホンシステムは、カメラシステムとは別個に(すなわち、併置されずに)設けられてもよい。
これらの実施形態のいずれかにおいて、本方法は、映像信号内で光学画像追跡技術を使用して、音源の位置を特定し、かつ精緻化することをさらに含んでいてもよい。これは自動化されていてもよいが、ユーザ入力が一部必要になり得る。2つの独立した位置特定技術を組み合わせることにより、位置の特定における不確実性を低減することができる。音源の位置を特定する際に使用される音速の推定値は、映像信号内で光学的対象追跡を使用して位置特定バイアスを推定することによって精緻化されてもよい。
音場マイクロホンが別々に設けられている実施形態では、映像信号内で光学画像追跡技術を使用して、空間的に符号化された音場信号と映像信号とを整列させてもよい。
本音場マイクロホンシステムとカメラシステムとが離隔して配置されている実施形態では、2つのシステムの空間定位がずれている可能性がある。2つの独立した位置特定技術を組み合わせることにより、2つのシステムの空間定位を揃えることができる。
いくつかの実施形態では、ローカルマイクロホン信号を複数の成分のそれぞれと比較することは、ローカルマイクロホン信号及び複数の成分のそれぞれをニューラルネットワークに入力することと、本音場マイクロホンシステムに対する音源の位置を前記ニューラルネットワークからの出力として受信することとを含む。いくつかのそのような実施形態では、このニューラルネットワークは、従前にキャプチャされたローカルマイクロホン信号と、空間的に符号化された音場信号と、音源位置に関する情報とを使用して訓練される。
本明細書に記載の音源の位置を特定する方法が、本方法が実行されるそれぞれの信号をキャプチャするシステムの一部として使用できることが、当業者には理解されるであろう。ただしこのことは必須ではなく、従前にキャプチャされたか、又は他の場所でキャプチャされた信号に対しても同様に実行することができる。したがって、第2の態様から見た場合、本発明は、音源の位置を特定する方法を提供するものであり、本方法は、
複数の成分を含む、空間的に符号化された音場信号を供給することであって、各成分は当該音源からの音声を含む、ことと、
当該音源からの音声に対応するローカルマイクロホン信号を供給することと、
このローカルマイクロホン信号を複数の成分のそれぞれと比較して、複数の比較結果を生成することと、
これら複数の比較結果を使用して、当該音源の位置を特定することとを含む。
本発明の第2の態様は、
複数の成分を含む空間的に符号化された音場信号を受信し、各成分はある音源からの音声を含み、
当該音源からの音声に対応するローカルマイクロホン信号を受信し、
このローカルマイクロホン信号を複数の成分のそれぞれと比較して、複数の比較結果を生成し、かつ
これら複数の比較結果を使用して、当該音源の位置を特定するように構成されたソフトウェアを備える、コンピュータソフトウェアツール又は非一時的なコンピュータ可読媒体に及ぶ。
本発明の第1の態様による方法の実施形態の多くが、上記の第2の態様による方法又はソフトウェアの実施形態でもあることが理解されるであろう。たとえば、上記の第2の態様による方法又はソフトウェアは、空間的に符号化されたサウンドトラックを生成するためのデータ、あるいは効果音、カメラの動き、及び/又は照明の変更などのさらなる動作を制御するための制御信号を供給することを含み得る。
本発明は、概して、本明細書に記載の方法を実行するように構成された装置、たとえばある音源位置特定システムにも及ぶものであり、この音源位置特定システムは、
複数の成分を含む音場信号を出力するように構成された音場マイクロホンシステムであって、各成分はある音源からの音声を含む、音場マイクロホンシステムと、
当該音源に近接して配置され、かつ当該音源からの音声に対応する近接マイクロホン信号を出力するように構成された近接マイクロホンと、
この近接マイクロホン信号及び音場信号を受信するように構成されたプロセッサとを備え、
このプロセッサは、近接マイクロホン信号を複数の成分のそれぞれと比較して、複数の比較結果を生成し、かつこれら複数の比較結果を使用して、本音場マイクロホンシステムに対する当該音源の位置を特定するように構成されている。
次に、本発明の特定の実施形態について、例示としてのみ、そして添付の図面を参照しながら説明する。
本発明の一実施形態に従って動作する、音場録音システムの概略図である。 簡略化された三辺測量による位置特定技術を示した概略図である。 本発明の一実施形態に従って動作する、移動音源を備える音場録音システムの概略図である。 本発明の一実施形態による、仮想現実生成システムの概略図である。
図1は、音場マイクロホンアレイ2(たとえばアンビソニックマイクロホン)を備え、第1の人物4及び第2の人物6を伴う仮想現実制作からのシーンを示している。図1には示していないが、マイクロホンアレイ2は、あらゆる方向からマイクロホンアレイ2に到達する音声をキャプチャするように構成された、複数のマイクロホンを含む。これら複数のマイクロホンそれぞれの位置及び方向は、あらかじめ正確に選択される。マイクロホンアレイ2は、複数の音声信号を処理モジュール10へと出力するように構成されている。
音場マイクロホンアレイ2と第1の人物4との間の距離、及びその結果としての信号対雑音比の低下に起因して、第1の人物からの発話が録音される際の音質が、特定の用途には適切でないものとなり得る。
結果として得られるサウンドトラックでの第1の人物による発話の音質を上昇させるために、ローカルマイクロホン8が第1の人物4に近接して配置される。このマイクロホンは、たとえば衣服のアイテムに取り付けられる目立たないラベリアタイプのマイクロホンか、又は録音位置のすぐ外に配置される指向性のブームマイクロホンとすることができる。ローカルマイクロホン8は、処理モジュール10に渡される単一の(モノラルの)ローカルマイクロホン信号を出力する。
マイクロホン2、8と処理モジュール10との間に物理的接続を示しているが、無線による接続、たとえば無線周波数接続を、それらの一方又は両方に同様に供給することができる。
ローカルマイクロホン8が第1の人物4に非常に近接して配置されているので、高い信号対雑音比を実現することができ、またそこからの信号は、第1の人物4からの音声によって支配されることになる。
図1に示すように、第1の人物4が発話中のため、当該シーン内の音源としてこれが機能している。第2の人物6も同様に発話中であり、これも別の音源として機能している。第1の人物4及び第2の人物6の両方によって生成される音声は、マイクロホンアレイ2によってキャプチャされる。その結果、マイクロホンアレイ2によって出力される複数の音声信号は、第1の人物及び第2の人物4、6の両方からの音声を表している。
ここに示している本システムは、マイクロホンアレイ2によってキャプチャされる、第1の人物4及び第2の人物6の両方からの音声を含む、通常の空間的に符号化されたサウンドトラックを生成することができる。具体的には、処理モジュール10は、個々のマイクロホンの既知の位置及び方向と共に、マイクロホンアレイ2からの複数の信号を使用して、複数の成分を含む空間的に符号化された音場信号を生成し、各成分は第1の人物4及び第2の人物6からの音声を含む。
ただし、本発明によれば、ローカルマイクロホン8からのより高品質の信号を、空間的に符号化されたサウンドトラックにさらに取り込むことができる。
これを行うために、音場マイクロホンアレイ2に対する第1の人物4の位置を特定する必要がある。処理モジュール10は、ローカルマイクロホン8からの信号をマイクロホンアレイ2からの複数の成分のそれぞれと比較して、複数の比較結果を生成することによってこれを行う。
ローカルマイクロホン8からのより高品質の信号を空間的に符号化されたサウンドトラックに取り込むことに加えて、又はその代わりに、音場マイクロホンアレイ2に対する第1の人物4の位置を使用して、制作中若しくは制作後に、たとえば効果音の適用の制御又は音響レベルの自動制御をトリガしてもよい。
処理モジュール10が第1の人物4(すなわち、音源)の位置を特定できるいくつかの方法があり、そのうちの2つについては、以下の一般的な例において詳述している。図1では、マイクロホンアレイ2及びローカルマイクロホン8に物理的に近接して配置され、かつこれに接続された状態で処理モジュール10を示しているが、処理モジュール10は、たとえば遠隔サーバ上に設けられるなど、遠隔に配置されてもよい。
処理モジュール10を使用して、音声のキャプチャが進行している間に「リアルタイム」で第1の人物4の位置を特定することができ、たとえば上述したようなさらなる動作を制作中にトリガすることができる。ただし、その代わりに、この位置の特定を、たとえばポストプロダクション中など後で行ってもよい。
図1に記載している状況の一般的な例を使用して、2つの異なる位置特定手法について説明する。
第1の手法では、マイクロホンアレイは
Figure 2021520760
個のマイクロホンで構成され、アンビソニックAフォーマット信号のセット
Figure 2021520760
を出力しており(すなわち、それぞれのマイクロホンからの生の出力)、これらの信号はそれぞれ音源からの音声を含む。ローカルマイクロホンは、音源からの音声に対応するローカルマイクロホン信号
Figure 2021520760
をキャプチャする。
Aフォーマット信号が反射壁のある部屋に配置された
Figure 2021520760
個の独立した音源で構成されていると仮定すると、
Figure 2021520760
番目のマイクロホンの信号は次のように表すことができ、
Figure 2021520760
ここで、
Figure 2021520760
はノイズであり、
Figure 2021520760

Figure 2021520760
番目の音源と
Figure 2021520760
番目のマイクロホンとの間の室内インパルス応答である。この室内インパルス応答が次のような
Figure 2021520760
回の遅延反射で構成されていると仮定している。
Figure 2021520760
離散時間周波数のフーリエ領域では、時間
Figure 2021520760
における
Figure 2021520760
番目のマイクロホンの信号は次のように表すことができる。
Figure 2021520760
Figure 2021520760
はサンプリング周波数である。本明細書の残りの部分では、可読性を確保するために、添え字Tを省略している。当該位置を推定するために、直接音
Figure 2021520760
の到達時刻が推定される。ローカルマイクロホン信号
Figure 2021520760
及びAフォーマット信号
Figure 2021520760
に対し、位相変換(PHAT)アルゴリズムが使用されている。
Figure 2021520760
Figure 2021520760
したがって、マイクロホン
Figure 2021520760
から音源
Figure 2021520760
までの距離が
Figure 2021520760
に等しくなることを推定することができ、ここで
Figure 2021520760
は音速である。
マイクロホンのそれぞれから音源までの距離がひとたび特定されれば、音源の位置を特定するのに必要となるのは、これらの距離をマイクロホンの位置と併せて使用した簡単な代数操作のみである。図2は、このプロセスを二次元で示した概略図であるが、この理論は完全な3D実装にも同様に適用することができる。
図2は、図1に示しているものと同様のマイクロホンアレイを構成する3つのマイクロホン202、204、206の位置を示している。音源208は、これら3つのマイクロホン202、204、206と、近接して配置されたローカルマイクロホン(図示せず)とによってキャプチャされる音声を生成する。上記と同様の方法を使用して、3つのマイクロホン202、204、206のそれぞれから当該音源までの距離が特定される。特定された距離のそれぞれは、当該音源が位置するところで対応しているマイクロホンを中心とする、円の半径を画定する。音源208の位置は、3つの円がぴったり一致する地点を識別することによって特定することができる。
次に、音源の位置を特定するための第2の手法について説明する。複数のマイクロホンを含むマイクロホンアレイは、それぞれが音源からの音声を含むアンビソニックAフォーマット信号のセットを出力している。このAフォーマット信号が処理されて、球面調和関数へと分解される部屋の音場を含む、アンビソニックBフォーマット信号のセットが生成される。Bフォーマット信号のそれぞれには符号
Figure 2021520760
が付され、その際、m及びnは球面調和関数を表している。好ましい実施例では、本アンビソニックマイクロホンは、n=m=0及びn=1m=−1,0,1の場合に対応する4つの信号を出力する。これは、直交して配置された3つの8の字型マイクロホン(n=1m=−1,0,1)と一致する、全指向性マイクロホン(n=m=1)から発信されるAフォーマット信号と概念的に同等のものである。他の実施例では、高次の球面調和関数を使用してもよい(Bフォーマット信号の数を増加させる)。
前述同様に、ローカルマイクロホンは、当該音源からの音声に対応するローカルマイクロホン信号
Figure 2021520760
をキャプチャする。
ここでも、
Figure 2021520760
個の無相関の音源
Figure 2021520760
が反射壁のある部屋でモデル化されている。この場合、結果として得られるアンビソニックBフォーマット信号は次のように記述でき、
Figure 2021520760
ここで、
Figure 2021520760
は室内インパルス応答であり、
Figure 2021520760
は球面調和関数であり、また
Figure 2021520760
はノイズを表している。
この室内インパルス応答
Figure 2021520760
は、次のような
Figure 2021520760
回の遅延反射で構成されていると仮定している。
Figure 2021520760
したがって、Bフォーマット信号のフーリエ変換は、次のように記述することができる。
Figure 2021520760
位置特定の対象となる、Bフォーマット信号
Figure 2021520760
とマイクロホン信号
Figure 2021520760
との間のクロススペクトルが、次のように計算される。
Figure 2021520760
クロススペクトルに逆フーリエ変換を施すと、s番目の音源の推定自己相関関数
Figure 2021520760
で畳み込まれたマイクロホン信号における、室内インパルス応答のアンビソニックBフォーマット表現(すなわち、球面調和関数へと分解されたもの)が、次のように生成される。
Figure 2021520760
このアンビソニック表現で切り捨てた合計は、音源の方位角及び仰角に対応する球面調和関数によって重み付けされた、直接音の自己相関で切り捨てた合計(すなわち、あらゆる反射を除いたもの)を抽出する。
Figure 2021520760
切り捨ての制限成分
Figure 2021520760
は、Aフォーマット信号の場合と同一の方法で、ローカルマイクロホン信号及び
Figure 2021520760
(全指向性Bフォーマット成分)にPHATアルゴリズムを使用することによって抽出することができる。
Figure 2021520760

Figure 2021520760
よりも小さいと仮定され、
Figure 2021520760
となるように選択される。
アンビソニックマイクロホンに対する音源の方向(方位角と仰角)は、以下のように
Figure 2021520760
の成分を評価することによって抽出することができる。
Figure 2021520760
Figure 2021520760
Figure 2021520760
音源の位置を完全に確定するには、マイクロホンアレイから当該音源までの距離(又は範囲)も特定する必要がある。これは
Figure 2021520760
を使用して計算することができ、ここで
Figure 2021520760
は音速である。
図3は、図1に示しているものと同様のシーンを示しており、ここで音場マイクロホンアレイ302及びローカルマイクロホン308が使用され、第1の人物304及び第2の人物306の両方からの音声を含む、空間的に符号化されたサウンドトラックを録音している。ただし、図1とは対照的に、このシーンの第1の人物304は、発話中に移動している(点線で示している)。従来技術のシステムでは、移動音源の位置を特定するには相当の労力を要するが、図1及び図2を参照して説明した本手法は、移動音源に完全に対応できるため、このシーンでも本手法を使用して、あらゆる動きを通して第1の人物4の位置を特定することができる。これにより、高品質のローカルマイクロホン信号を含む空間的に符号化されたサウンドトラックを、はるかに容易かつ迅速に生成することができる。
図4は、図1及び図3に示すものと同様の仮想現実制作からのシーンを示しており、ここでは、音場マイクロホンアレイ402、ローカルマイクロホン408、及びプロセッサ410が使用され、第1の人物404及び第2の人物406の両方からの音声を含む、空間的に符号化されたサウンドトラックを録音している。ただし図4は、360度カメラ403も示しており、このカメラは、第1及び第2の人物404、406の両方を含む360度の映像信号をキャプチャするように動作可能である。この360度の映像信号は空間的に符号化されたサウンドトラックと共にユーザに対して再生され、制作中に手動追跡を集中的に行う必要もなく、第1の人物404からの高品質な音声を含む、没入型で精度の高いVR体験を生み出すことができる。
上記のように、本明細書に開示している方法を使用して特定される、第1の人物404の位置は、制作中及び制作後の両方において高品質の音声を促進する以外の目的に使用することができる。たとえば、この第1の人物404の位置を使用して、カメラ403の動き及び/又は照明の調整を指示してもよい。本明細書に開示している方法は、ポッドキャスト又は音楽の演奏などの高品質の、没入型で精度の高い音声のみの制作(すなわち、360度映像を付随させることなく)をさらに可能にし得る。

Claims (23)

  1. 音源の位置を特定する方法であって、前記方法は、
    少なくとも2つのマイクロホンを備える音場マイクロホンシステムを使用して、空間的に符号化された音場信号を生成することであって、前記空間的に符号化された音場信号は複数の成分を含み、各成分は前記音源からの音声を含む、ことと、
    前記音源に近接して配置されたローカルマイクロホンを使用して、前記音源からの音声に対応するローカルマイクロホン信号を生成することと、
    前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較して、複数の比較結果を生成することと、
    前記複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記音源の位置を特定することとを含む、
    音源の位置を特定する方法。
  2. 前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較することは、前記ローカルマイクロホン信号と前記複数の成分のそれぞれとの間の相関の尺度をそれぞれ決定することを含む、請求項1に記載の方法。
  3. 前記音場マイクロホンシステムに対する前記音源の位置を特定することは、
    前記相関の尺度を使用して、球面調和関数によって重み付けされた直接音の自己相関を求めることと、
    前記直接音の自己相関の成分を評価することによって、前記音場マイクロホンシステムから前記ローカルマイクロホンへの方向を抽出することとを含む、請求項2に記載の方法。
  4. 前記決定された相関の尺度を使用して、前記ローカルマイクロホン信号と前記複数の成分の少なくとも1つとの間における1つ又は複数の伝搬遅延を計算することを含む、請求項2又は3に記載の方法。
  5. 前記複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記音源の位置を特定することは、前記伝搬遅延の2つ以上の間の差を使用して、前記音場マイクロホンシステムから前記ローカルマイクロホンへの方向を特定することを含む、請求項4に記載の方法。
  6. 前記複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記音源の位置を特定することは、前記伝搬遅延の少なくとも1つを使用して、前記音場マイクロホンシステムから前記ローカルマイクロホンまでの距離、又は距離の変化を特定することを含む、請求項4又は5に記載の方法。
  7. 前記音源が移動している、請求項1から6のいずれか一項に記載の方法。
  8. 前記複数の成分のそれぞれは第2の音源からの音声を含み、前記方法は、
    前記第2の音源に近接して配置された第2のマイクロホンを使用して、第2のマイクロホン信号をキャプチャすることであって、ここで前記第1のマイクロホン信号は、前記第2の音源からの音声を含む、ことと、
    前記第2のマイクロホン信号を前記複数の成分のそれぞれと比較して、第2の複数の比較結果を生成することと、
    前記第2の複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記第2の音源の位置を特定することとをさらに含む、請求項1から7のいずれか一項に記載の方法。
  9. 空間的に符号化されたサウンドトラックを生成することをさらに含み、ここで前記ローカルマイクロホン信号は、前記音場マイクロホンシステムに対する前記音源の位置で符号化される、請求項1から8のいずれか一項に記載の方法。
  10. 前記方法は、前記特定された前記音源の位置を使用して、さらなる動作を制御することを含む、請求項1から9のいずれか一項に記載の方法。
  11. カメラシステムを使用して映像信号をキャプチャすることをさらに含み、ここで前記音源は前記映像信号内でキャプチャされる、請求項1から10のいずれか一項に記載の方法。
  12. 前記音場マイクロホンシステムは前記カメラシステムと併置されている、請求項11に記載の方法。
  13. 前記方法は、光学画像追跡技術を前記映像信号と共に使用して、前記音源の位置を精緻化することをさらに含む、請求項11又は12に記載の方法。
  14. 前記方法は、光学画像追跡技術を使用して、前記空間的に符号化された音場信号と前記映像信号とを整列させることをさらに含む、請求項11に記載の方法。
  15. 前記音場マイクロホンシステムは、少なくとも4つのマイクロホンを備える、請求項1から14のいずれか一項に記載の方法。
  16. 前記音場マイクロホンシステムは、マイクロホンアレイとエンコーダとを備える、請求項1から15のいずれか一項に記載の方法。
  17. 前記空間的に符号化された音場信号は、アンビソニックBフォーマット信号を含む、請求項1から16のいずれか一項に記載の方法。
  18. 前記音場マイクロホンシステムの前記少なくとも2つのマイクロホンは、互いに隣接している、請求項1から17のいずれか一項に記載の方法。
  19. 前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較することは、前記ローカルマイクロホン信号及び前記複数の成分のそれぞれをニューラルネットワークに入力することと、前記音場マイクロホンシステムに対する前記音源の位置を前記ニューラルネットワークからの出力として受信することとを含む、請求項1から18のいずれか一項に記載の方法。
  20. 従前にキャプチャされたローカルマイクロホン信号と、空間的に符号化された音場信号と、音源位置に関する情報とを使用して、前記ニューラルネットワークを訓練することをさらに含む、請求項19に記載の方法。
  21. 音源の位置を特定する方法であって、前記方法は、
    複数の成分を含む、空間的に符号化された音場信号を供給することであって、各成分は前記音源からの音声を含む、ことと、
    前記音源からの音声に対応するローカルマイクロホン信号を供給することと、
    前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較して、複数の比較結果を生成することと、
    前記複数の比較結果を使用して、前記音源の位置を特定することとを含む、
    音源の位置を特定する方法。
  22. 複数の成分を含む空間的に符号化された音場信号を受信し、各成分はある音源からの音声を含み、
    前記音源からの音声に対応するローカルマイクロホン信号を受信し、
    前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較して、複数の比較結果を生成し、かつ
    前記複数の比較結果を使用して、前記音源の位置を特定するように構成された、コンピュータソフトウェアツール。
  23. 複数の成分を含む音場信号を出力するように構成された音場マイクロホンシステムであって、各成分はある音源からの音声を含む、音場マイクロホンシステムと、
    前記音源に近接して配置され、かつ前記音源からの音声に対応する近接マイクロホン信号を出力するように構成された近接マイクロホンと、
    前記近接マイクロホン信号及び前記音場信号を受信するように構成されたプロセッサとを備え、
    前記プロセッサは、前記近接マイクロホン信号を前記複数の成分のそれぞれと比較して、複数の比較結果を生成し、かつ前記複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記音源の位置を特定するように構成されている、
    音源位置特定システム。

JP2020564659A 2018-02-22 2019-02-22 音源の位置特定 Active JP7469235B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862633755P 2018-02-22 2018-02-22
GB1802850.6 2018-02-22
US62/633,755 2018-02-22
GBGB1802850.6A GB201802850D0 (en) 2018-02-22 2018-02-22 Positioning sound sources
PCT/GB2019/050497 WO2019162690A1 (en) 2018-02-22 2019-02-22 Positioning sound sources

Publications (2)

Publication Number Publication Date
JP2021520760A true JP2021520760A (ja) 2021-08-19
JP7469235B2 JP7469235B2 (ja) 2024-04-16

Family

ID=61903200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020564659A Active JP7469235B2 (ja) 2018-02-22 2019-02-22 音源の位置特定

Country Status (7)

Country Link
US (1) US11388512B2 (ja)
EP (1) EP3756359A1 (ja)
JP (1) JP7469235B2 (ja)
CN (1) CN112005556B (ja)
CA (1) CA3091880A1 (ja)
GB (1) GB201802850D0 (ja)
WO (1) WO2019162690A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024070127A1 (ja) * 2022-09-28 2024-04-04 パナソニックIpマネジメント株式会社 音場再現装置、音場再現方法及び音場再現システム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2590906A (en) * 2019-12-19 2021-07-14 Nomono As Wireless microphone with local storage
US11425496B2 (en) * 2020-05-01 2022-08-23 International Business Machines Corporation Two-dimensional sound localization with transformation layer
WO2023232864A1 (en) * 2022-05-31 2023-12-07 Nomono As Method for obtaining a position of a sound source
CN115604646B (zh) * 2022-11-25 2023-03-21 杭州兆华电子股份有限公司 一种全景深空间音频处理方法
CN117935837B (zh) * 2024-03-25 2024-05-24 中国空气动力研究与发展中心计算空气动力研究所 一种时域多声源定位及噪声处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016020873A (ja) * 2014-07-15 2016-02-04 パナソニックIpマネジメント株式会社 音速補正装置
US9430931B1 (en) * 2014-06-18 2016-08-30 Amazon Technologies, Inc. Determining user location with remote controller

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2379147B (en) * 2001-04-18 2003-10-22 Univ York Sound processing
US8155331B2 (en) 2006-05-10 2012-04-10 Honda Motor Co., Ltd. Sound source tracking system, method and robot
US20090017910A1 (en) 2007-06-22 2009-01-15 Broadcom Corporation Position and motion tracking of an object
KR101395722B1 (ko) 2007-10-31 2014-05-15 삼성전자주식회사 마이크로폰을 이용한 음원 위치 추정 방법 및 장치
US8116994B2 (en) * 2008-11-23 2012-02-14 Parker David H Method for locating an underground septic tank, conduit, or the like using injection/detection synchronization of an acoustic signal and digital signal processing
US8842851B2 (en) 2008-12-12 2014-09-23 Broadcom Corporation Audio source localization system and method
US9318096B2 (en) * 2010-09-22 2016-04-19 Broadcom Corporation Method and system for active noise cancellation based on remote noise measurement and supersonic transport
US8676728B1 (en) 2011-03-30 2014-03-18 Rawles Llc Sound localization with artificial neural network
US8830792B2 (en) 2011-04-18 2014-09-09 Microsoft Corporation Mobile device localization using audio signals
US8983089B1 (en) 2011-11-28 2015-03-17 Rawles Llc Sound source localization using multiple microphone arrays
US9560446B1 (en) 2012-06-27 2017-01-31 Amazon Technologies, Inc. Sound source locator with distributed microphone array
US10750132B2 (en) 2013-03-14 2020-08-18 Pelco, Inc. System and method for audio source localization using multiple audio sensors
EP2840807A1 (en) * 2013-08-19 2015-02-25 Oticon A/s External microphone array and hearing aid using it
US20170374455A1 (en) 2015-01-20 2017-12-28 3M Innovative Properties Company Mountable sound capture and reproduction device for determining acoustic signal origin
WO2016123572A1 (en) * 2015-01-30 2016-08-04 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
US20160227377A1 (en) * 2015-02-02 2016-08-04 Carrier Corporation System for locating an object and a method of using the same
US10602265B2 (en) 2015-05-04 2020-03-24 Rensselaer Polytechnic Institute Coprime microphone array system
GB2540226A (en) 2015-07-08 2017-01-11 Nokia Technologies Oy Distributed audio microphone array and locator configuration
GB2543275A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
US10063965B2 (en) 2016-06-01 2018-08-28 Google Llc Sound source estimation using neural networks
GB2551780A (en) 2016-06-30 2018-01-03 Nokia Technologies Oy An apparatus, method and computer program for obtaining audio signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430931B1 (en) * 2014-06-18 2016-08-30 Amazon Technologies, Inc. Determining user location with remote controller
JP2016020873A (ja) * 2014-07-15 2016-02-04 パナソニックIpマネジメント株式会社 音速補正装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024070127A1 (ja) * 2022-09-28 2024-04-04 パナソニックIpマネジメント株式会社 音場再現装置、音場再現方法及び音場再現システム

Also Published As

Publication number Publication date
CN112005556B (zh) 2022-05-03
JP7469235B2 (ja) 2024-04-16
CA3091880A1 (en) 2019-08-29
CN112005556A (zh) 2020-11-27
GB201802850D0 (en) 2018-04-11
WO2019162690A1 (en) 2019-08-29
US20200396537A1 (en) 2020-12-17
EP3756359A1 (en) 2020-12-30
US11388512B2 (en) 2022-07-12

Similar Documents

Publication Publication Date Title
US10645518B2 (en) Distributed audio capture and mixing
CN112005556B (zh) 确定声源的位置的方法、声源定位系统以及存储介质
US11528576B2 (en) Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
WO2017064368A1 (en) Distributed audio capture and mixing
CN118633032A (zh) 获得声源位置的方法
WO2021095563A1 (ja) 信号処理装置および方法、並びにプログラム
JP6587047B2 (ja) 臨場感伝達システムおよび臨場感再現装置
JP2023510141A (ja) ローカルストレージを有する無線マイクロフォン
CN116614762B (zh) 一种球幕影院的音效处理方法及系统
WO2023085186A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2024007669A (ja) 音源及び受音体の位置情報を用いた音場再生プログラム、装置及び方法
NZ795232A (en) Distributed audio capturing techniques for virtual reality (1vr), augmented reality (ar), and mixed reality (mr) systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230301

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240404

R150 Certificate of patent or registration of utility model

Ref document number: 7469235

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150