JP7020257B2

JP7020257B2 - オーディオ装置、音響効果係数算出方法、およびプログラム

Info

Publication number: JP7020257B2
Application number: JP2018073642A
Authority: JP
Inventors: 毅彦川▲原▼
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-04-06
Filing date: 2018-04-06
Publication date: 2022-02-16
Anticipated expiration: 2038-04-06
Also published as: JP2019186687A

Description

本発明は、雑音の存在する環境での音の再生を支援する技術に関する。

走行中の車両の車室のように雑音の存在する環境で楽音などの音を再生する場合に再生音が雑音に埋もれないように音の再生を支援する技術が種々提案されており、その一例としては特許文献１に開示の技術が挙げられる。

特許文献１に開示の技術では、スピーカから再生音が放音される環境にマイクロフォンを設置し、当該マイクロフォンに再生音とその環境において聴取される雑音とを収音させる。そして、特許文献１に開示の技術では、雑音の振幅スペクトルの平均値と再生音の振幅スペクトルの平均値とが周波数帯域毎に算出され、雑音の振幅スペクトルに再生音の振幅スペクトルが埋もれないように、再生音の音量が周波数帯域毎に補正される。

特開平１１－２９８９９０号公報

しかし、従来の技術では、ある周波数帯域において再生音の振幅スペクトルに急峻なピークが現れている場合、再生音の振幅スペクトルを平均することで当該周波数帯域の音量は小と判定され、当該周波数帯域全体に亘って再生音の音量が引き上げられる。したがって、ピークに対応する音を聞き分けることができれば十分であるにも拘らず、当該周波数帯域における再生音の音量が過大に引き上げられる、といった問題がある。

本発明に係るオーディオ装置の一態様は、スピーカから環境に放射される再生音を表す第１音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記再生音の音量を周波数帯域毎に推定する第１推定部と、前記環境において聴取される雑音を表す第２音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して前記一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記雑音の音量を周波数帯域毎に推定する第２推定部と、前記第１推定部により推定された音量と前記第２推定部により推定された音量とを周波数帯域毎に比較し、比較結果に基づいて前記第１音信号に付与する音響効果係数を算出する算出部と、を備える。

本発明に係る音響効果係数算出方法の一態様は、スピーカから環境に放射される再生音を表す第１音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記再生音の音量を周波数帯域毎に推定し、前記環境において聴取される雑音を表す第２音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して前記一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記雑音の音量を周波数帯域毎に推定し、前記再生音について推定された音量と前記雑音について推定された音量とを周波数帯域毎に比較し、比較結果に基づいて前記第１音信号に付与する音響効果係数を算出する。

本発明に係るプログラムは、プロセッサを、スピーカから環境に放射される再生音を表す第１音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記再生音の音量を周波数帯域毎に推定する第１推定部と、前記環境において聴取される雑音を表す第２音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して前記一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記雑音の音量を周波数帯域毎に推定する第２推定部と、前記第１推定部により推定された音量と前記第２推定部により推定された音量とを周波数帯域毎に比較し、比較結果に基づいて前記第１音信号に付与する音響効果係数を算出する算出部と、して機能させる。

本発明の一実施形態のオーディオ装置１２０を含むオーディオシステムの構成例を示す図である。オーディオ装置１２０の構成例を示す図である。補正テーブル３０１の格納内容の一例を示す図である。オーディオ装置１２０の演算部２２０が再生支援プログラム３０３にしたがって実行する再生支援処理の流れを示すフローチャートである。再生音推定部２１２が実行する再生音推定処理の流れを示す図である。再生音推定部２１２が再生音推定処理のステップＳＢ１００にて生成する振幅スペクトルの一例を示す図である。再生音推定部２１２が再生音推定処理のステップＳＢ１１０にて生成するデータＤＡ１の一例を示す図である。再生音推定部２１２が再生音推定処理のステップＳＢ１２０にて生成するデータＤＡ２の一例を示す図である。雑音推定部２１３が実行する雑音推定処理の流れを示す図である。雑音推定部２１３が雑音推定処理のステップＳＢ１００にて生成する振幅スペクトルの一例を示す図である。雑音推定部２１３が雑音推定処理のステップＳＢ１１０にて生成するデータＤＢ１の一例を示す図である。雑音推定部２１３が雑音推定処理のステップＳＣ１２０にて生成するデータＤＢ２の一例を示す図である。音響効果係数算出部２１４が実行する音響効果係数算出処理の流れを示す図である。補正処理ＳＤ１００を経たデータＤＣ１の一例を示す図である。比較処理ＳＤ１１０の処理結果を表すデータＤＣ２の一例を示す図である。再生音推定部２１２が音量推定処理のステップＳＢ１２０にて生成するデータＤＡ２の他の例を示す図である。雑音推定部２１３が音量推定処理のステップＳＣ１２０にて生成するデータＤＢ２の他の例を示す図である。

以下、図面を参照しながら本発明に係る実施の形態を説明する。なお、図面において各部の寸法および縮尺は実際のものと適宜異なる。また、以下に記載する実施の形態は、本発明の好適な具体例である。このため、本実施形態には、技術的に好ましい種々の限定が付されている。しかしながら、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの形態に限られるものではない。

＜１．実施形態＞
図１は、本発明の一実施形態のオーディオ装置１２０を含むオーディオシステムの構成例を示す図である。このオーディオシステムは、車両に搭載され、当該車両の車室１において楽音等を再生するカーオーディオシステムである。図１に示すように、このオーディオシステムは、オーディオ装置１２０と、スピーカ１３０－１から１３０－４と、マイクロフォン１４０と、を有する。図１に示すように、スピーカ１３０－１から１３０－４とマイクロフォン１４０とは、オーディオケーブルなどの信号線を介してオーディオ装置１２０に接続されている。

図１に示すように、スピーカ１３０－１は、オーディオ装置１２０が搭載される車両の運転席１１１近傍に設けられており、スピーカ１３０－２は上記車両の助手席１１２近傍に設けられている。具体的には、スピーカ１３０－１は運転席側ドアの内側にその放音面を車室１内に向けた姿勢で設けられている。スピーカ１３０－２は助手席側ドアにその放音面を車室１内に向けた姿勢で設けられている。スピーカ１３０－３および１３０－４は、上記車両の後列席１１３を挟むように設けられている。具体的には、スピーカ１３０－３は上記車両の運転席側の後部ドアにその放音面を車室１内に向けた姿勢で設けられている。スピーカ１３０－４は上記車両の助手席側の後部ドアにその放音面を車室１内に向けた姿勢で設けられている。以下では、スピーカ１３０－１から１３０－４の各々を区別する必要がない場合には、「スピーカ１３０」と表記する。スピーカ１３０には、楽音等の再生音の音信号がオーディオ装置１２０から供給される。音信号とは、音の波形を表すアナログ信号のことをいう。スピーカ１３０は、オーディオ装置１２０から供給される音信号に応じた音を車室１内に放音する。

マイクロフォン１４０は、例えば、オーディオ装置１２０が搭載される車両のダッシュボードに設けられている。マイクロフォン１４０は、その設置位置において収音した音の波形を表す音信号をオーディオ装置１２０へ出力する。マイクロフォン１４０により収音される音には、スピーカ１３０から車室１内に放音された再生音と当該音以外の雑音とが含まれている。マイクロフォン１４０により収音される雑音の具体例としては、車両の走行に伴って発生するロードノイズが挙げられる。

図２は、オーディオ装置１２０の構成例を示す図である。図２に示すように、オーディオ装置１２０は、再生装置２１０と、演算部２２０と、記憶部２３０と、Ａ／Ｄ変換器２４０と、Ｄ／Ａ変換器２５０と、アンプ２６０と、を有する。

再生装置２１０は、スピーカ１３０から放射する再生音の音データＤ１を演算部２２０へ出力する。音データとは、音の波形をサンプリングして得られるサンプル列などのデジタルデータのことをいう。再生装置２１０の具体例としては、ＣＤドライブなどの記録媒体読み取り装置或いはカーラジオなどの受信器が挙げられる。再生装置２１０が記録媒体読み取り装置である場合、再生装置２１０は、記録媒体から音データＤ１を読み出し、当該読み出した音データＤ１を演算部２２０へ出力する。

Ａ／Ｄ変換器２４０には、信号線を介してマイクロフォン１４０が接続されている。Ａ／Ｄ変換器２４０は、マイクロフォン１４０から与えられる音信号にアナログ／デジタル変換を施し、その変換結果である音データＤ２を演算部２２０に与える。

演算部２２０は、プロセッサであり、例えば単数または複数のチップで構成される。演算部２２０は、例えば、周辺装置とのインタフェース、演算装置およびレジスタ等を含む中央処理装置（ＣＰＵ：Central Processing Unit）で構成される。なお、演算部２２０の機能の一部または全部を、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）等のハードウェアで実現してもよい。演算部２２０は、各種の処理を並列的または逐次的に実行する。
演算部２２０は、記憶部２３０に記憶されている再生支援プログラム３０３を実行し、オーディオ装置１２０の制御中枢として機能する。再生支援プログラム３０３にしたがって作動している演算部２２０は、再生装置２１０から与えられた音データＤ１の表す再生音の音量を過大に引き上げることなく、その再生音がロードノイズ等の雑音に埋もれないようにする再生支援処理を実行し、その処理結果である音データＤＤをＤ／Ａ変換器２５０へ出力する。この再生支援処理の詳細については後に明らかにする。

Ｄ／Ａ変換器２５０は、演算部２２０から与えられる音データＤＤにデジタル／アナログ変換を施して音信号に変換し、この音信号をアンプ２６０へ出力する。アンプ２６０には、スピーカ１３０－１から１３０－４の各々がそれぞれ信号線を介して接続されている。アンプ２６０は、Ｄ／Ａ変換器２５０から与えられた音信号の信号レベルをスピーカ１３０からの放音に適した信号レベルに増幅してスピーカ１３０へ出力する。

記憶部２３０は、図２では詳細な図示を省略したが揮発性記憶部と不揮発性記憶部とを含んでいる。揮発性記憶部は、例えばＲＡＭ（Random Access Memory）である。この揮発性記憶部は、再生支援プログラム３０３を実行する際のワークエリアとして演算部２２０によって利用される。また、この揮発性記憶部は、Ａ／Ｄ変換器２４０から与えられた音データＤ２と、再生装置２１０から与えられた音データＤ１とを蓄積するバッファとしても利用される。不揮発性記憶部は、例えばハードディスクである。不揮発性記憶部には、補正テーブル３０１と、音響効果係数テーブル３０２と、再生支援プログラム３０３とが予め記憶されている。

補正テーブル３０１には、例えば２０Ｈｚから１００００Ｈｚの帯域を分割した複数の周波数帯域の各々において雑音の音量と再生音の音量とを比較する際の再生音の音量の補正量を表すデータが予め格納されている。本実施形態では、上記複数の周波数帯域として、各々の中心周波数が６３Ｈｚ，１２５Ｈｚ、２５０Ｈｚ、５００Ｈｚ、１０００Ｈｚ、２０００Ｈｚ、および４０００Ｈｚであり、各々１オクターブに相当するバンド幅を有するオクターブバンドが採用されている。以下では、上記複数の周波数帯域の各々を１から７のバンド番号で区別する。バンド番号＝１の周波数帯域の中心周波数は６３Ｈｚであり、バンド番号＝２の周波数帯域の中心周波数は１２５Ｈｚである。バンド番号＝３の周波数帯域の中心周波数は２５０Ｈｚであり、バンド番号＝４の周波数帯域の中心周波数は５００Ｈｚである。バンド番号＝５の周波数帯域の中心周波数は１０００Ｈｚであり、バンド番号＝６の周波数帯域の中心周波数は２０００Ｈｚであり、バンド番号＝７の周波数帯域の中心周波数は４０００Ｈｚである。

補正テーブル３０１の格納内容は、オーディオ装置１２０を含むオーディオシステムの特性に応じて定められる。本実施形態では、図３に示すように、バンド番号＝１のバンドについては音量を５ｄＢ引き下げ、バンド番号＝２から７の各バンドについては音量を２から８ｄＢ引き上げることを表すデータを格納した補正テーブル３０１が記憶部２３０に予め格納されている。

音響効果係数テーブル３０２には、補正テーブル３０１の格納内容にしたがって補正された再生音の音量と雑音の音量との差に対応づけて、再生音が雑音に埋もれないように再生音の音量を補正する音響効果係数（例えば、音量の引き上げ量）を表すデータが格納されている。

演算部２２０は、オーディオ装置１２０の電源（図２では図示略）の投入を契機として再生支援プログラム３０３を不揮発性記憶部から揮発性記憶部へ読み出し、当該再生支援プログラム３０３の実行を開始する。再生支援プログラム３０３にしたがって作動している演算部２２０は、再生支援処理（図４参照）を実行し、図２に示す音響効果付与部２１１、再生音推定部２１２、雑音推定部２１３、音響効果係数算出部２１４、およびエコーキャンセル部２１５として機能する。つまり、図２における音響効果付与部２１１、再生音推定部２１２、雑音推定部２１３、音響効果係数算出部２１４、およびエコーキャンセル部２１５の各々はソフトウェアにしたがって実現されるソフトウェアモジュールである。

図２に示すように、音響効果付与部２１１、再生音推定部２１２、雑音推定部２１３、およびエコーキャンセル部２１５の各々には音データＤ１が与えられる。また、エコーキャンセル部２１５には音データＤ２も与えられる。

エコーキャンセル部２１５は、図４におけるエコーキャンセル処理ＳＡ１００を実行する。エコーキャンセル部２１５は、スピーカ１３０、当該スピーカ１３０からの再生音が放音される空間（車室１）、マイクロフォン１４０といった音の伝播経路の特性を考慮して音データＤ１´を上記バッファから読み出した音データＤ１に基づいて生成する。音の伝播経路の特性には、たとえば周波数ごとの振幅特性及び反射によるエコーなどが含まれる。具体的には、エコーキャンセル部２１５は、伝播経路の特性を表すＦＩＲ（finite impulse response）フィルタの係数をリアルタイムで推定し、推定した係数が設定されたＦＩＲフィルタに、音データＤ１を入力して音データＤ１´を得る。エコーキャンセル部２１５は、音データＤ２から当該音データＤ１´の表す信号成分を除外して新たな音データＤ３を生成し、雑音推定部２１３に出力する。

再生音推定部２１２は、図４における再生音推定処理ＳＡ１１０を実行する。図５は、再生音推定処理の流れを示す図である。図５に示すように、再生音推定部２１２は、まず、一定時間分の音データＤ１をバッファから読み出し、当該音データＤ１を上記一定時間よりも短い時間分の処理単位データに区切って短時間周波数解析を施して周波数領域のデータに変換する（ステップＳＢ１００）。なお、本実施形態において一定時間とは、上記複数の周波数帯域における最も低い周波数の対応する音の複数周期（例えば４周期）に相当する時間であり、上記処理単位データは当該１周期に相当する時間分の音データである。図５では、短時間周波数解析はＳＴＦＴ（Short Time Fourier Transform）と略記されている。また、短時間周波数解析の具体的なアルゴリズムとしては、ＦＦＴ（Fast Fourier Transform）が挙げられる。例えば、上記一定時間分の音データＤ１が４個の処理単位データに分割される場合、各処理単位データに短時間周波数解析を施すことで図６に示す振幅スペクトルＳＰ１－１からＳＰ１－４が得られる。以下では、振幅スペクトルＳＰ１－１からＳＰ１－４の各々を区別する必要がない場合には「振幅スペクトルＳＰ１」と表記する。

ステップＳＢ１１０では、再生音推定部２１２は、ステップＳＢ１００により得られた周波数領域のデータから、上記一定時間における振幅スペクトルのピーク（最大値）を周波数毎に特定し、上記一定時間における各周波数の振幅スペクトルのピークを表すデータＤＡ１を生成する。例えば、ステップＳＢ１００にて振幅ＳＰ１－１からＳＰ１－４を表すデータが得られた場合、再生音推定部２１２は図７に示すデータＤＡ１を生成する。

ステップＳＢ１２０では、再生音推定部２１２は、ステップＳＢ１１０にて生成したデータを解析して上記一定時間における再生音の音量を周波数帯域毎に推定し、その推定結果を示すデータＤＡ２（図８参照）を音響効果係数算出部２１４へ出力する。より詳細に説明すると、再生音推定部２１２は、データＤＡ１を参照して周波数帯域毎にいずれの周波数の振幅スペクトルのピークが最大であるかを判定し、最大のピークを当該周波数帯域における再生音の音量とする。例えば、バンド番号＝１の周波数帯域ではその中心周波数の振幅スペクトルのピークが最大であったとする。この場合、再生音推定部２１２は、当該中心周波数（６３Ｈｚ）の振幅スペクトルのピークをバンド番号＝１の周波数帯域における再生音の音量とする。本実施形態において、上記一定時間における再生音の音量を周波数帯域毎にその周波数帯域に属する各周波数の振幅スペクトルの平均値ではなく、各周波数の振幅スペクトルのピークの最大値に基づいて推定するのは、平均値を用いることに起因する弊害を避けるためである。

雑音推定部２１３は、図４における雑音推定処理Ａ１２０を実行する。図９は、雑音推定処理の流れを示す図である。図９に示すように、雑音推定部２１３は、上記一定時間分の音データＤ３を処理対象として前述のステップＳＢ１００およびステップＳＢ１１０の処理を実行する。音データＤ３を処理対象としてステップＳＢ１００の処理を実行することで、例えば、図１０に示す振幅スペクトルＳＰ２－１からＳＰ２－４が生成される。以下では、振幅スペクトルＳＰ２－１からＳＰ２－４の各々を区別する必要がない場合には「振幅スペクトルＳＰ２」と表記する。そして、雑音推定部２１３は、振幅スペクトルＳＰ２－１からＳＰ２－４（図１０参照）を処理対象としてステップＳＢ１１０を実行することで、上記一定時間における雑音の各周波数の振幅スペクトルのピークを表すデータＤＢ１（図１１参照）を生成する。

雑音推定処理においてステップＳＢ１１０に後続して実行されるステップＳＣ１２０では、雑音推定部２１３は、データＤＢ１を解析して上記一定時間における雑音の音量を周波数帯域毎に推定し、その推定結果を示すデータＤＢ２（図１２参照）を音響効果係数算出部２１４へ出力する。より詳細に説明すると、このステップＳＣ１２０では、雑音推定部２１３は、データＤＢ１を参照して周波数帯域毎にいずれの周波数の振幅スペクトルのピークが最小であるかを判定し、最小のピークを当該周波数帯域における雑音の音量とする。例えば、バンド番号＝１の周波数帯域ではその上限周波数の振幅スペクトルのピークが最小であったとする。この場合、雑音推定部２１３は、当該周波数の振幅スペクトルのピークを当該周波数帯域における雑音の音量とする。本実施形態において、上記一定時間における雑音の音量を周波数帯域毎にその周波数帯域に属する各周波数の振幅スペクトルの平均値ではなく、各周波数の振幅スペクトルのピークの最小値に基づいて推定するのは、突発的な雑音の影響により雑音の音量が過大となることを回避しつつ、平均値を用いることに起因する弊害を避けるためである。

本実施形態では、上記一定時間における雑音の音量を周波数帯域毎にその周波数帯域に属する各周波数の振幅スペクトルのピークの最小値に基づいて推定した。しかし、周波数帯域における各周波数の振幅スペクトルのピークの中央値、または各周波数の振幅スペクトルのピークの値をヒストグラム化することで得られた最頻出値に基づいて雑音の音量を推定してもよい。これらの態様によっても、突発的な雑音の影響により雑音の音量が過大となることを回避しつつ、平均値を用いることに起因する弊害を避けることができると考えられるからである。また、周波数帯域に属する各周波数の振幅スペクトルのピークから最大値および最小値を除外して振幅スペクトルのピークの平均値を算出し、その平均値を当該周波数帯域における雑音の音量としてもよい。このような態様によっても、最大値および最小値を除外せずに平均値を算出する態様に比較して急峻なピークを有する雑音の影響を受けないようにすることが可能になる。

音響効果係数算出部２１４は、図４における音響効果係数算出処理ＳＡ１３０を実行する。図１３は、音響効果係数算出処理の流れを示す図である。図１３における補正処理（ＳＤ１００）では、音響効果係数算出部２１４は、データＤＡ２の表す各周波数帯域の音量を補正テーブル３０１の格納内容（図３参照）に応じて補正し、補正後の音量を表すデータＤＣ１（図１４参照）を生成する。例えば、図３に示す補正テーブル３０１には、バンド番号＝１の周波数帯域の音量を５ｄＢ引き下げることを示すデータが格納されている。このため、本実施形態の補正処理では、バンド番号＝１の周波数帯域の音量は、データＤＡ２の示す当該周波数帯域の音量から５ｄＢ引き下げられる。

補正処理に後続する比較処理（図１３：ＳＤ１１０）では、音響効果係数算出部２１４は、複数の周波数帯域の各々における再生音の音量と雑音の音量とを周波数帯域毎に比較し、その比較結果を示すデータＤＣ２を生成する。具体的には、音響効果係数算出部２１４は、周波数帯域毎にデータＤＣ１の示す音量からデータＤＢ２の示す音量を減算してデータＤＣ２（図１５参照）を生成する。このデータＤＣ２において音量が負の値となっている周波数帯域は、再生音が雑音に埋もれていることを意味する。例えば、図１５に示すデータＤＣ２は、バンド番号＝１および２の各周波数帯域で再生音が雑音に埋もれていることを示している。そして、係数算出処理（図１３：ＳＤ１２０）では、音響効果係数算出部２１４は、周波数帯域毎に当該周波数帯域における再生音の音量と雑音の音量との差（データＤＣ２の示す音量差）に応じた音響効果係数を音響効果係数テーブル３０２から読み出して音響効果付与部２１１に与える。例えば、比較処理にて図１５に示すデータＤＣ２が算出された場合、バンド番号＝１および２の各周波数帯域の再生音の音量を、データＤＣ２の示す音量差に応じて引き上げることを示す音響効果係数が音響効果係数算出部２１４から音響効果付与部２１１へ与えられる。

音響効果付与部２１１は、再生装置２１０から与えられる音データＤ１に対して、音響効果係数算出部２１４から与えられた音響効果係数に応じた音響効果の付与（本実施形態では音量の調整）を行い、当該音響効果を付与済みの音データをＤ／Ａ変換器２５０に出力する。

このような構成としたため、本実施形態のオーディオ装置１２０からスピーカ１３０へ与えられる音データには、各周波数帯域における再生音が当該周波数帯域における雑音に埋もれないようにする音響効果が付与されているので、いずれの周波数帯域においても再生音が雑音に埋もれることはない。

また、本実施形態のオーディオ装置１２０によれば、再生音の振幅スペクトルに急峻なピークが現れている周波数帯域の再生音の音量は当該ピークに基づいて推定される。このため、当該周波数帯域の再生音の音量が過小に推定され、当該周波数帯域の再生音の音量が過大に引き上げられることはない。また、ある周波数帯域において雑音の振幅スペクトルに急峻なピークが現れていても、当該周波数帯域における雑音の音量が過大に推定されることはなく、当該周波数帯域における再生音の音量が過大に引き上げられることはない。

このように本実施形態によれば、雑音の存在する環境で音を再生する際に、再生音の音量を過大に引き上げることなく、再生音が雑音に埋もれないようにすることが可能になる。

＜２．変形例＞
以上の実施態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は相矛盾しない限り適宜に併合され得る。
＜２－１：変形例１＞
上記実施形態では、再生音の音量と雑音の音量とをオクターブバンド単位で推定し、オクターブバンド単位で再生音の音量を補正した。しかし、バンド幅が１／３の１／３オクターブバンド単位で、再生音および雑音の音量の推定と再生音の音量の補正をおこなってもよい。この場合、補正テーブル３０１には、１／３オクターブ単位の周波数帯域の各々において雑音の音量と再生音の音量とを比較する際の再生音の音量の補正量を表すデータを格納しておけばよい。また、再生音推定部２１２には、図８に示すデータＤ１に代えて、図１６に示すように、各々１／３オクターブのバンド幅を有するバンド番号＝１から２１の周波数帯域における再生音の音量を表すデータＤ１を生成させるようにすればよい。同様に、雑音推定部２１３には、図１２に示すデータＤ２に代えて、図１７に示すようにバンド番号＝１から２１の各周波数帯域における雑音の音量を表すデータＤ２を生成させるようにすればよい。なお、図１６および図１７において、バンド番号＝１の周波数帯域の中心周波数は６３Ｈｚ、バンド番号＝２の周波数帯域の中心周波数は８０Ｈｚ、…バンド番号＝２０の周波数帯域の中心周波数は５０００Ｈｚ、バンド番号＝２１の周波数帯域の中心周波数は６３００Ｈｚである。

＜２－２：変形例２＞
上記実施形態では、音響効果付与部２１１、再生音推定部２１２、雑音推定部２１３、音響効果係数算出部２１４、およびエコーキャンセル部２１５をソフトウェアで実現した。しかし、音響効果付与部２１１、再生音推定部２１２、雑音推定部２１３、音響効果係数算出部２１４、およびエコーキャンセル部２１５の各々を電子回路などのハードウェアで実現し、それらハードウェアを組み合わせてオーディオ装置１２０を構成してもよい。この場合、音響効果係数算出部２１４については、補正処理（図１３：ＳＤ１００）を実行する補正部と、比較処理（図１３：ＳＤ１１０）を実行する比較部と、係数算出処理（図１３；ＳＤ１２０）を実行する係数算出部の各部を電子回路で実現し、これら各部を組み合わせて構成すればよい。

＜２－３：変形例３＞
上記実施形態では、再生音が雑音に埋もれないように再生音の音量の補正量（音響効果係数）を決定した。しかし、補正後の再生音の音量を示すデータをバッファに蓄積しておき、当該バッファの格納内容の示す再生音の音量の時間変化から音のアタック部であるか否か、或いはリリース部であるか否かを判定し、その判定結果に応じて上記補正量を調整してもよい。例えば、アタック部である場合には、補正後の再生音の音量が前回の補正後の再生音の音量を上回るように上記補正量を調整することが好ましい。補正後の再生音の音量が前回の補正後の再生音の音量を下回っているとアタック感が薄れるからである。同様に、リリース部である場合には、補正後の再音の音量が前回の補正後の再生音の音量を下回るように補正量を調整することが好ましい。補正後の再生音の音量が前回の補正後の再生音の音量を上回っているとリリース感が薄れるからである。

＜２－４：変形例４＞
上記実施形態のオーディオ装置１２０は再生装置２１０を含んでいたが、信号線を介して再生装置２１０をオーディオ装置１２０に接続する態様であってもよい。つまり、再生装置２１０は本発明のオーディオ装置の必須構成要素ではなく、省略可能である。同様に、記憶部２３０も本発明のオーディオ装置の必須構成要素ではなく、省略可能である。記憶部２３０を省略する場合には、ＵＳＢケーブル等を介してオーディオ装置１２０に接続されるハードディスクドライブ、或いはインターネットなどの電気通信回線経由で演算部２２０がアクセス可能なハードディスクドライブに記憶部２３０の役割を担わせればよい。

マイクロフォン１４０がＡ／Ｄ変換器を含んでいる場合には、Ａ／Ｄ変換器２４０は不要であり、スピーカ１３０或いはアンプ２６０がＤ／Ａ変換器を含んでいる場合にはＤ／Ａ変換器２５０は不要である。また、信号線を介してオーディオ装置１２０に接続されるアンプにアンプ２６０の役割を担わせてもよく、この場合はアンプ２６０を省略可能である。

また、マイクロフォン１４０として鋭い指向性を有するマイクロフォンを用い、当該マイクロフォンを雑音の音源近傍に設置する等、スピーカ１３０から放射される差音がマイクロフォン１４０によって収音されないようにすることができる場合には、エコーキャンセル部２１５を省略してもよい。また、音響効果付与部２１１をオーディオ装置１２０とは別箇のＤＳＰにより実現する場合には、音響効果付与部２１１も省略可能である。

つまり、本発明のオーディオ装置は、スピーカから環境に放射される再生音を表す第１音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記再生音の音量を周波数帯域毎に推定する第１推定部（上記実施形態における再生音推定部２１２）と、前記環境において聴取される雑音を表す第２音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して前記一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記雑音の音量を周波数帯域毎に推定する第２推定部（上記実施形態における雑音推定部２１３）と、前記第１推定部により推定された音量と前記第２推定部により推定された音量とを周波数帯域毎に比較し、比較結果に基づいて各周波数帯域において前記再生音の音量が前記雑音の音量を上回るように前記第１音信号に付与する音響効果係数を算出する算出部（上記実施形態における音響効果係数算出部２１４）と、を備えていればよい。

＜２－５：変形例５＞
上記実施形態では、再生支援プログラム３０３とは別箇に補正テーブル３０１と音響効果係数テーブル３０２とが記憶部２３０に記憶されていたが、補正テーブル３０１と音響効果係数テーブル３０２とを再生支援プログラム３０３に埋め込んで置いてもよい。また、上記実施形態では、オーディオ装置１２０の記憶部２３０に再生支援プログラム３０３を予め記憶させておいたが、補正テーブル３０１および音響効果係数テーブル３０２が埋め込まれているか否かを問わずに再生支援プログラム３０３を単体で提供してもよい。再生支援プログラム３０３の具体的な提供態様としては、ＣＤ－ＲＯＭなどのコンピュータ読み取り可能な記録媒体に書き込んで配布する態様、またはインターネットなどの電気通信回線経由のダウンロードにより配布する態様が考えられる。パーソナルコンピュータなどの一般的なコンピュータ装置に上記の要領で配布される再生支援プログラム３０３をインストールし、当該コンピュータ装置のプロセッサに当該再生支援プログラム３０３を実行させることで、当該コンピュータ装置を上記実施形態のオーディオ装置１２０として機能させることが可能になる。なお、補正テーブル３０１および音響効果係数テーブル３０２を再生支援プログラム３０３に埋め込んで置かない態様の場合、これらテーブルは当該再生支援プログラム３０３を実行するコンピュータ装置がアクセス可能な記憶装置に記憶されていればよい。

＜２－６：変形例６＞
上記実施形態では、カーオーディオシステムに含まれるオーディオ装置への本発明の適用例を説明したが、本発明の適用対象はカーオーディオシステムに含まれるオーディオ装置に限定される訳ではない。また、上記実施形態では、各周波数帯域において再生音が雑音に埋もれることがないように、各周波数帯域において再生音の音量が雑音の音量を上回るように第１音信号に付与する音響効果係数を算出した。しかし、再生音の音信号に付与する音響効果係数の算出（すなわち、再生音のチューニング）を、再生音について推定した音量と雑音について推定した音量との比較結果に応じて行う態様であればよい。要は、雑音の存在する環境で音の再生を行うオーディオ装置であれば、本発明を適用することで、再生音の音量が過小に推定されることを回避しつつ再生音のチューニングを行うことが可能になる。

＜３．実施形態および各変形例の少なくとも１つから把握される態様＞
上述した各実施形態および各変形例の少なくとも１つから以下の態様が把握される。
オーディオ装置の一態様は、スピーカから環境に放射される再生音を表す第１音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記再生音の音量を周波数帯域毎に推定する第１推定部と、前記環境において聴取される雑音を表す第２音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して前記一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記雑音の音量を周波数帯域毎に推定する第２推定部と、前記第１推定部により推定された音量と前記第２推定部により推定された音量とを周波数帯域毎に比較し、比較結果に基づいて前記第１音信号に付与する音響効果係数を算出する算出部と、を備える。
本態様によれば、各周波数帯域における再生音の音量は周波数帯域に属する各周波数の振幅スペクトルのピークに応じて推定される。このため、周波数帯域に属する各周波数の振幅スペクトルの平均値に応じて再生音の音量を推定する従来技術に比較して、再生音の振幅スペクトルに急峻なピークが現れている場合であっても、当該ピークに対応する周波数の属する周波数帯域における再生音の音量が過小に推定されることが回避される。本態様によれば、雑音の存在する環境で再生される再生音の振幅スペクトルに急峻なピークが現れている場合であっても、当該ピークに対応する周波数の属する周波数帯域における再生音の音量が過小に推定されることを回避しつつ、再生音をチューニングすることが可能になる。

上述したオーディオ装置の一態様において、前記第１推定部は、周波数帯域における前記再生音の音量をその周波数帯域に属する各周波数の振幅スペクトルのピークの最大値に基づいて推定することが好ましい。
再生音の振幅スペクトルに急峻なピークが現れている場合、当該ピークは上記最大値に対応する。このため、本態様によれば、周波数帯域における再生音の音量が過小に推定されることを確実に回避することができる。

上述したオーディオ装置の一態様において、前記第２推定部は、周波数帯域における前記雑音の音量をその周波数帯域に属する各周波数の振幅スペクトルのピークの最小値、中央値、最頻出値または各周波数に対応する振幅スペクトルのピークから最小値と最大値とを除外して算出される平均値のいずれかに基づいて推定することが好ましい。
本態様によれば、再生音の振幅スペクトルに急峻なピークが現れている場合、当該ピークは上記最大値に対応する。本態様によれば、各周波数帯域における雑音の音量の際に当該最大値は使用されないので、雑音の振幅スペクトルに急峻なピークが現れている周波数帯域における当該雑音の音量が過大に推定されることを確実に回避することができる。

上述したオーディオ装置の一態様において、前記算出部は、前記第１推定部により推定された音量と前記第２推定部により推定された音量とを周波数帯域毎に比較し、比較結果に基づいて各周波数帯域において前記再生音の音量が前記雑音の音量を上回るように前記第１音信号に付与する音響効果係数を算出することを特徴とする。
本態様によれば、音の存在する環境で音を再生する際に、再生音の音量を過大に引き上げることなく、雑音に埋もれないように再生音をチューニングすることが可能になる。

上記オーディオ装置の一態様において、前記再生音と前記雑音とを収音するマイクロフォンから出力される第３音信号から前記第１音信号に対応する信号成分を除外して前記第２音信号を生成することが好ましい。
本態様によれば、マイクロフォンの出力信号を用いて雑音の音量を簡便かつ正確に推定することが可能になる。

上記オーディオ装置の一態様において、前記算出部は、前記第１推定部により推定された各周波数帯域における前記再生音の音量についての補正量を周波数帯域毎に規定して補正テーブルにしたがって、前記第１推定部により推定された前記再生音の音量を周波数帯域毎に補正する補正部と、前記補正部による補正後の音量と前記第２推定部により推定された前記雑音の音量とを周波数帯域毎に比較する比較部と、を有し、前記比較部における比較結果に応じて前記音響効果係数を周波数帯域毎に算出することを特徴とすることが好ましい。
本態様によれば、補正テーブルを切り替えることで多様なオーディオシステムに対応することが可能になる。

音響効果係数算出方法の一態様は、スピーカから環境に放射される再生音を表す第１音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記再生音の音量を周波数帯域毎に推定し、前記環境において聴取される雑音を表す第２音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して前記一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記雑音の音量を周波数帯域毎に推定し、前記再生音について推定された音量と前記雑音について推定された音量とを周波数帯域毎に比較し、比較結果に基づいて前記第１音信号に付与する音響効果係数を算出する。
本態様によっても、雑音の存在する環境で再生される再生音の振幅スペクトルに急峻なピークが現れている場合であっても、当該ピークに対応する周波数の属する周波数帯域における再生音の音量が過小に推定されることを回避しつつ、再生音をチューニングすることが可能になる。

プログラムの一態様は、プロセッサを、スピーカから環境に放射される再生音を表す第１音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記再生音の音量を周波数帯域毎に推定する第１推定部と、前記環境において聴取される雑音を表す第２音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して前記一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記雑音の音量を周波数帯域毎に推定する第２推定部と、前記第１推定部により推定された音量と前記第２推定部により推定された音量とを周波数帯域毎に比較し、比較結果に基づいて前記第１音信号に付与する音響効果係数を算出する算出部と、して機能させる。
本態様によっても、雑音の存在する環境で再生される再生音の振幅スペクトルに急峻なピークが現れている場合であっても、当該ピークに対応する周波数の属する周波数帯域における再生音の音量が過小に推定されることを回避しつつ、再生音をチューニングすることが可能になる。

１…車室、１１１…運転席、１１２…助手席、１１３…後列席、１２０…オーディオ装置、１３０,１３０－１. １３０－２. １３０－３. １３０－４…スピーカ、１４０…マイクロフォン、２１０…再生装置、２２０…演算部、２３０…記憶部、２４０…Ａ／Ｄ変換器、２５０…Ｄ／Ａ変換器、２６０…アンプ、２１１…音響効果付与部、２１２…再生音推定部、２１３…雑音推定部、２１４…音響効果係数算出部、２１５…エコーキャンセル部、３０１…補正テーブル、３０２…音響効果係数テーブル、３０３…再生支援プログラム。

Claims

スピーカから環境に放射される再生音を表す第１音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記再生音の音量を周波数帯域毎に推定する第１推定部と、
前記環境において聴取される雑音を表す第２音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して前記一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記雑音の音量を周波数帯域毎に推定する第２推定部と、
前記第１推定部により推定された音量と前記第２推定部により推定された音量とを周波数帯域毎に比較し、比較結果に基づいて前記第１音信号に付与する音響効果係数を算出する算出部と、
を備えるオーディオ装置。
前記第１推定部は、周波数帯域における前記再生音の音量をその周波数帯域に属する各周波数の振幅スペクトルのピークの最大値に基づいて推定することを特徴とする請求項１に記載のオーディオ装置。
前記第２推定部は、周波数帯域における前記雑音の音量をその周波数帯域に属する各周波数の振幅スペクトルのピークの最小値、中央値、最頻出値または各周波数に対応する振幅スペクトルのピークから最小値と最大値とを除外して算出される平均値のいずれかに基づいて推定することを特徴とする請求項１または請求項２に記載のオーディオ装置。
前記算出部は、前記第１推定部により推定された音量と前記第２推定部により推定された音量とを周波数帯域毎に比較し、比較結果に基づいて各周波数帯域において前記再生音の音量が前記雑音の音量を上回るように前記第１音信号に付与する音響効果係数を算出することを特徴とする請求項１から３までのいずれか１項に記載のオーディオ装置。
前記再生音と前記雑音とを収音するマイクロフォンから出力される第３音信号から前記第１音信号に対応する信号成分を除外して前記第２音信号を生成するエコーキャンセル部を有することを特徴とする請求項１から４までのいずれか１項に記載のオーディオ装置。
前記算出部は、
前記第１推定部により推定された各周波数帯域における前記再生音の音量についての補正量を周波数帯域毎に規定して補正テーブルにしたがって、前記第１推定部により推定された前記再生音の音量を周波数帯域毎に補正する補正部と、
前記補正部による補正後の音量と前記第２推定部により推定された前記雑音の音量とを周波数帯域毎に比較する比較部と、を有し、
前記比較部における比較結果に応じて前記音響効果係数を周波数帯域毎に算出することを特徴とする請求項１から５までのいずれか１項に記載のオーディオ装置。
スピーカから環境に放射される再生音を表す第１音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記再生音の音量を周波数帯域毎に推定し、
前記環境において聴取される雑音を表す第２音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して前記一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記雑音の音量を周波数帯域毎に推定し、
前記再生音について推定された音量と前記雑音について推定された音量とを周波数帯域毎に比較し、比較結果に基づいて前記第１音信号に付与する音響効果係数を算出する、
音響効果係数算出方法。
プロセッサを、
スピーカから環境に放射される再生音を表す第１音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記再生音の音量を周波数帯域毎に推定する第１推定部と、
前記環境において聴取される雑音を表す第２音信号を時間軸方向に複数に分割して得られる各信号に短時間周波数解析を施して前記一定時間における振幅スペクトルのピークを周波数毎に特定し、特定した振幅スペクトルのピークに基づいて前記雑音の音量を周波数帯域毎に推定する第２推定部と、
前記第１推定部により推定された音量と前記第２推定部により推定された音量とを周波数帯域毎に比較し、比較結果に基づいて前記第１音信号に付与する音響効果係数を算出する算出部と、
して機能させるプログラム。