JP5172580B2

JP5172580B2 - 音補正装置及び音補正方法

Info

Publication number: JP5172580B2
Application number: JP2008257471A
Authority: JP
Inventors: 将高長田; 公生三関
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-10-02
Filing date: 2008-10-02
Publication date: 2013-03-27
Anticipated expiration: 2028-10-02
Also published as: JP2010085913A

Description

本発明は音補正装置に関する。

テレビやラジオの放送受信再生装置、音楽プレイヤー、携帯電話機などの音声・音楽を再生する機器は、電車の中や屋外や車の中など周囲に雑音がある場所で使用される場合がある。この場合、機器によって再生する音（以降、再生音と称する）と収録雑音との周波数やパワーの関係によっては、再生音が収録雑音によってマスクされ、音の明瞭度が低下する場合がある。多くの再生機器は再生音量をユーザの操作によって調整することができるが、再生音の周波数成分ごとに音量調整ができるわけではないため、音量を上げたとしても音の明瞭度が向上するとは限らない。また、再生音量を上げた場合には、再生音の全帯域のパワーが増幅されるため、音が歪んでしまい、かえって音質が悪化することもある。更に、音量を上げすぎると、聴覚に対してダメージを与えるという問題が起こる可能性がある。

そこで、収録雑音のある環境下での音声通話において、サブバンド毎の騒音レベルを予め測定し、この騒音レベルによって決定したゲインに基づいて、受話音声信号に対するフィルタ処理を行うことにより、収録雑音によってマスクされていた音も聞き取れるレベルにまで増幅する受話音声処理装置が提案されている（例えば、特許文献１参照。）。
特開２００１−１８８５９９号公報

特許文献１に記載される発明では、固定的な騒音信号の長時間周波数特性を利用してゲインを決定するため、補正の必要が無い音量の大きな区間の信号を補正したり、逆に補正が必要な音量が低レベルの区間の信号に対する補正が不足したりする場合があるという問題点がある。

そこで本発明は、収録された雑音信号のマスキング閾値を用いて周囲の環境に適合した再生音の補正を行う音補正装置を提供することを目的とする。

上記目的を達成するために、本発明による音補正装置は、再生音の周波数成分に対する補正係数を算出し、再生音の補正を行う音補正装置であって、予め収録された収録雑音のマスキング閾値を記憶する収録雑音マスキング閾値記憶手段と、再生音の所定の区間ごとのパワーの平均値を算出し、この再生音の区間ごとのパワーの平均値に応じて前記収録雑音マスキング閾値記憶手段から読み出した収録雑音のマスキング閾値を補正し、補正後の収録雑音マスキング閾値未満のパワーを有する再生音の周波数成分を増幅させるよう補正する補正手段を有することを特徴としている。

本発明によれば、収録された雑音信号のマスキング閾値を用いて周囲の環境に適合した再生音の補正を行う音補正装置を提供することができる。

以下、本発明の一例である実施形態について図面を参照して説明する。

本発明の音補正装置は、携帯電話機、ＰＣ、ポータブルオーディオ機器などに実装される。ここでは、携帯電話機に実装した場合を例に説明する。

図１は本発明にかかる携帯電話機の構成図である。この携帯電話機は、全体の制御を行う制御部１１を含み、制御部１１には、送受信部１２、放送受信部１３、信号処理部１４、操作部１５、記憶部１６、表示部１７、音声入出力部１８が接続されている。

送受信部１２は、図示しない基地局との間で情報の送受信を行う。送受信部１２には、アンテナが接続されており、アンテナによって電波に変換した情報を基地局へ送信する送信機能と、基地局から電波を受信し、電気信号へ変換する受信機能を有する。

放送受信部１３は、ＴＶ放送受信用のアンテナが接続されている。放送受信部１３は、ＴＶ放送受信用のアンテナによって入力された電波のうち、選局された物理チャンネルの信号を取得する。

信号処理部１４は、映像信号や音声信号、オーディオ信号などのデジタル信号を処理する。信号処理部１４は、再生音の補正処理を行う補正処理部３０を有しており、送受信部１２によって受信した電話やテレビ電話などの通話音声や、放送受信部１３によって受信したテレビ放送やラジオ放送の音データや、記憶部１６に記憶されている音楽データなどを再生するときの再生音を明瞭化するよう補正処理を行う。

操作部１５は、入力キーなどによって構成され、ユーザからの操作入力手段として用いられる。記憶部１６は、アプリケーションソフトウェアや、音楽データや映像データなどが格納される。表示部１７は、液晶ディスプレイや有機ＥＬディスプレイなどから成る。

表示部１７は、携帯電話機の動作状態に合わせた画像を表示する。

音声入出力部１８は、マイクロホンやスピーカから構成される。スピーカによって、ＴＶ放送の音声や通話機能使用時の受話音声、着信時の鳴動音などを出力する。また、マイクロホンによって音声信号が携帯電話機へ入力される。

以下では、補正処理部３０について説明する。
図２は、補正処理部３０の詳細を示す構成図である。補正処理部３０には、補正処理の対象となる再生音が所定の単位区間ごとに入力される。前述のとおり、再生音は、通信によって得た音でも良いし、記憶部１６に記憶されている音でも良い。例えば、放送受信部１３を介して受信したテレビ放送波やラジオ放送波から得られる音や、送受信部１２を介して受信した音声通話の音声や、記憶部１６に記憶されたオーディオなどが考えられる。

補正処理部３０に入力された所定の単位区間ごとの再生音は、時間／周波数変換部３１に入力される。

時間／周波数変換部３１は、所定の単位区間の再生音を時間域の信号から周波数域の信号に変換する。時間域と周波数域との変換には、例えば、ＦＦＴ（Fast Fourier Transform）や、ＭＤＣＴ（Modified Discrete Cosine Transform）などの手法を用いることができる。このように周波数域に変換された再生音は、再生音パワー解析部３２と再生音補正部３５に入力される。

再生音パワー解析部３２では、時間／周波数変換部３１から入力される周波数域の再生音パワーsignal_power[i]を算出する。ここで、signal_power[i]は、再生音の周波数成分の実部の二乗と虚部の二乗とを加算することによって算出することができる。さらに再生音パワー解析部３２では、signal_power[i]の単位区間での平均値であるframe_powerを算出する。

再生音マスキング特性解析部３４では、再生音パワー解析部３２で算出された再生音の周波数域パワーsignal_power[i]を用いて再生音のマスキング閾値signal_thr[i]を算出する。マスキング閾値の算出方法としては、例えばspreading functionと呼ばれる関数を再生音の周波数域パワーに畳み込むことで算出する方法がある。spreading functionは、ISO/IEC13818-7, ITU-R1387, 3GPP TS 26.403といった文献によって説明されている。

一方、収録雑音マスキング閾値記憶部３７には、雑音のマスキング閾値が記憶されている。雑音のマスキング閾値は、予め収録された長時間の雑音が有するマスキング閾値を算出したものである。収録雑音マスキング閾値記憶部３７からは、収録雑音のマスキング閾値noise_thr[i]が読み出され、収録雑音マスキング閾値補正部３３に入力される。なお、収録雑音マスキング閾値記憶部３７に記憶される収録雑音のマスキング閾値は、１種類でも良いし、複数種類でも良い。様々な環境下で収録された複数種類の収録雑音のマスキング閾値を収録雑音マスキング閾値記憶部３７に記憶させておくと、携帯電話機が様々な環境下で使用されるような場合であっても、周囲の雑音に合わせた環境の選択操作が操作部１５からなされることによって、適切な収録雑音のマスキング閾値によって再生音の補正処理を行うことができる。以降の説明では、収録雑音マスキング閾値記憶部３７に記憶されている収録雑音のマスキング閾値は、１種類であるとして説明する。

収録雑音マスキング閾値補正部３３では、後述の再生音パワー解析部３２から出力される再生音の周波数域平均パワーframe_powerを用いて、収録雑音マスキング閾値記憶部３
７から読み出された収録雑音のマスキング閾値noise_thr[i]に対する補正処理を行う。なお、この補正処理は、後ほど詳細に説明する。

再生音補正部３５には、収録雑音マスキング閾値補正部３３から収録雑音マスキング閾値が入力され、再生音パワー解析部３２から再生音の周波数域パワーsignal_power[i]が
入力され、再生音マスキング特性解析部３４から再生音のマスキング特性signal_thr[i]
が入力され、時間／周波数変換部３１から再生音の周波数スペクトルが入力される。再生音補正部３５は、これらの値を用いて、収録雑音のマスキング閾値によってマスクされている周波数帯域であって、再生音自身によってマスクされていない周波数帯域を増幅するよう再生音の補正を行う。再生音補正部３５の詳細な処理については、後述する。

周波数／時間変換部３６は、再生音補正部３５から出力された再生音の周波数スペクトルを時間域の信号に変換する。これによって、補正された再生音が得られる。この再生音は音声入出力部１８のスピーカから出力することができる。

次に、以上のような構成を有する補正処理部３０の収録雑音マスキング閾値補正部３３と再生音補正部３５について詳細に説明する。

収録雑音マスキング閾値補正部３３は、再生音パワー解析部３２から入力される再生音の単位区間ごとの周波数域平均パワーframe_powerと所定の閾値ＴＨ１およびＴＨ２（た
だしＴＨ１＜ＴＨ２）とを比較する。閾値ＴＨ１およびＴＨ２は、予め設定された値であって、再生音の周波数域平均パワーframe_powerがＴＨ１よりも小さい場合には、低レベ
ルの再生音と判定でき、frame_powerがＴＨ２よりも大きい場合には、再生音が十分に大
きく、収録雑音にかかわらず十分に知覚できるような大レベルの再生音と判定できるよう設定される。

収録雑音マスキング閾値補正部３３での周波数域平均パワーframe_powerと所定の閾値
ＴＨ１およびＴＨ２との比較結果としては、３つの場合がある。

第１に、収録雑音マスキング閾値補正部３３が、再生音の周波数域平均パワーframe_powerはＴＨ１よりも小さい低レベルの再生音であるとの判定する場合がある。この場合は
、当該区間の再生音は低レベルであるため、音量増加を含めてより明瞭度を向上させる必要がある。そこで、まず収録雑音のマスキング閾値noise_thr[i]の平均値が再生音の周波数域パワーの平均値frame_powerよりも大きくなるよう補正する。図３は、再生音の周波
数域平均パワーframe_powerがＴＨ１よりも小さいときに、収録雑音マスキング閾値noise_thr[i]を補正するときの処理の概念図である。図３（ａ）のような収録雑音マスキング
閾値が収録雑音マスキング閾値記憶部３７から読み出されている状態で、図３（ｂ）のような信号特性を有する再生音の単位区間が補正処理部３０に入力されたとする。収録雑音マスキング閾値補正部３３が、この再生音の周波数域平均パワーframe_powerはＴＨ１よ
りも低いと判定すると、図３（ｃ）のように、収録雑音のマスキング閾値の平均値を再生音の周波数域パワーの平均値frame_powerよりも大きくなるよう、収録雑音のマスキング
閾値を補正する。そして、収録雑音マスキング閾値補正部３３は、補正処理を施したマスキング閾値を出力する。

第２に、収録雑音マスキング閾値補正部３３が、再生音の周波数域平均パワーはＴＨ１以上であり、ＴＨ２未満であると判定する場合がある。この場合は、中レベルの再生音の音量増加を抑制しつつ聴感上の明瞭度を向上させるために、収録雑音マスキング閾値を再生音パワーに合わせて正規化する。つまり、収録雑音のマスキング閾値noise_thr[i]の平均値が再生音の周波数域パワー平均値frame_powerと等しくなるよう補正する。図４は、
再生音の周波数域平均パワーframe_powerがＴＨ１以上であり、ＴＨ２未満であるときに
、収録雑音マスキング閾値noise_thr[i]を補正するときの処理の概念図である。図４（ａ）のような収録雑音マスキング閾値が収録雑音マスキング閾値記憶部３７から読み出されている状態で、図４（ｂ）のような信号特性を有する再生音の単位区間が補正処理部３０に入力されたとする。収録雑音マスキング閾値補正部３３が、この再生音の周波数域平均パワーframe_powerはＴＨ１以上であり、ＴＨ２未満であると判定すると、図４（ｃ）の
ように、収録雑音のマスキング閾値の平均値を再生音の周波数域パワーの平均値frame_powerと等しくなるよう、全帯域に対して同じレベル分だけ増幅させる。そして、収録雑音
マスキング閾値補正部３３は、補正処理を施したマスキング閾値を出力する。

第３に、収録雑音マスキング閾値補正部３３が、再生音の周波数域平均パワーframe_powerはＴＨ２よりも大きい高レベルの再生音であると判定する場合がある。この場合、再
生音は、収録雑音にかかわらず十分に近くされるレベルであるため、収録雑音マスキング閾値noise_thr[i]に対してとくに補正処理を行わず、そのままnoise_thr[i]を出力する。

図５は、この収録雑音マスキング閾値補正部３３によって補正された後の収録雑音マスキング閾値パワーnoise_thr[i]の平均値と再生音の周波数域平均パワーframe_powerとの
関係を示す図である。図５で表されるように、再生音の周波数域平均パワーframe_power
がＴＨ１よりも小さい場合には、収録雑音マスキング閾値の平均値を再生音の周波数平均パワーよりも大きくなるように設定している。一方、再生音の周波数域平均パワーがＴＨ１以上ＴＨ２未満の場合には、収録雑音マスキング閾値の平均値を再生音の周波数域平均パワーと同じになるよう設定している。

なお、収録雑音マスキング閾値パワーを、図６のように再生音の周波数域平均パワーに対して連続的に変化する特性を用いて調整しても良い。この場合、図６のような特性を持つ関数を用いることによって、低レベルほど大きくなるように補正する。この関数は、例えば、式（１）のような関数である。式（１）中の閾値ＴＨは、任意の値が設定され、ｘ＝ＴＨを満たすときに、式（１）が傾き１となるように設定される。

このように、収録雑音マスキング閾値補正部３３では、再生音の周波数域平均パワーに応じて収録雑音マスキング閾値のレベルを補正する。補正後の収録雑音マスキング閾値nose_thr[i]は、後述の再生音補正部３５によって算出される再生音の増幅率に影響するた
め、再生音の周波数域平均パワーが小さいほど収録雑音マスキング閾値のレベルが高くなるよう補正することは、再生音の周波数域平均パワーが小さいほど再生音の周波数帯域に対する増幅率を高くすることを意味する。なお、上記説明においては、frame_powerを再
生音の周波数域パワーとして既定の閾値ＴＨ１、ＴＨ２と比較しているが、単位区間のパワーの大小関係を判定することが目的であり、時間／周波数変換前の時間域平均パワーを用いても良い。

再生音補正部３５は、収録雑音マスキング閾値補正部３３から出力された補正後のマスキング閾値（noise_thr_new[i]と称する）を用いて再生音の補正処理を行う。図７は、再生音補正部３５を詳細に説明した図である。再生音補正部３５は、再生音マスキング判定部３５ａ、パワースムージング部３５ｂ、補正係数算出部３５ｃ、補正係数スムージング部３５ｄ、補正演算部３５ｅを含み、再生音マスキング判定部３５ａから補正係数スムージング部３５ｄの処理を行って得られた補正係数を用いて、補正演算部３５ｅによって再生音の補正処理を行う構成となっている。以下、それぞれの処理について説明する。

再生音マスキング判定部３５ａは、再生音マスキング特性解析部３４から入力された周波数成分ごとの再生音の周波数域パワーと再生音のマスキング閾値を用いて、再生音の他の周波数成分によってマスクされる周波数成分とマスクされない周波数成分とに分ける。

再生音自身によってマスクされるか否かを判定するために、周波数成分ごとに、再生音の周波数域パワーsignal_power[i]と再生音のマスキング閾値signal_thr[i]との比較を行い、再生音のパワーが再生音のマスキング閾値以上ならば、その周波数成分は、再生音の他の周波数成分にマスクされないという情報を記憶する。また、再生音のパワーが再生音のマスキング閾値未満であるならば、その周波数成分は、再生音の他の周波数成分にマスクされるという情報を記憶する。

パワースムージング部３５ｂは、補正係数算出部３５ｃの前段階の処理として、再生音の周波数域パワーsignal_power[i]のスムージングを行う。再生音のパワーをスムージン
グする理由は、補正係数の算出には収録雑音のマスキング閾値と再生音のパワーとの比が用いられるため、再生音のパワーをスムージングさせないで補正係数を求め、この補正係数を用いて補正を行った場合、再生音の微細な構造が崩れてしまい、聴感が悪くなるためである。再生音のパワーのスムージングは、例えば、加重移動平均を用いる方法が考えられる。

補正係数算出部３５ｃでは、再生音の補正を行うための補正係数tmp_coef[i]を算出す
る。この補正係数tmp_coef[i]の算出には、パワースムージング部３５ｂでスムージング
された再生音の周波数成分ごとのパワーと、収録雑音マスキング閾値補正部３３から出力された収録雑音のマスキング閾値noise_thr_new[i]の値を用いる。

ここで、再生音のマスキングについて説明する。図８は、収録雑音および再生音自身によるマスキングを模式的に表している。この図に示すように、収録雑音によってマスクされる周波数成分は、再生音自身によってマスクされる周波数成分と、再生音にはマスクされない周波数成分とがある。再生音自身によってマスクされる周波数成分（signal_thr[i]＞signal_power[i]となる周波数成分）は、収録雑音が無かったとしても聞こえない周波数成分であるため、増幅させないように補正係数tmp_coef[i]を１または１以下の値に設
定する。

それに対して、収録雑音によってマスクされ、かつ、再生音自身にはマスクされない周波数成分（signal_thr[i]≦signal_power[i]かつnoise_thr_new＞signal_powerとなる周
波数成分）は、収録雑音が無ければ知覚できるにも関わらず、収録雑音によってマスクされていると判断できる。そこで、この周波数成分を増幅するように補正係数を設定する。

このときの補正係数の算出は、式（２）によって行われる。

tmp_coef[i] = F(noise_thr_new[i] / signal_power [i]) ・・・(2)
ただし、Ｆ（）は補正係数tmp_coef[i]を算出する関数であり、例えば、式（３）や式
（４）のような関数である。

F(noise_thr_new[i]/signal_power[i]) = noise_thr_new[i] / signal_power[i]+α
・・・(3)
F(noise_thr_new[i]/signal_power[i]) = noise_thr_new[i] / signal_power[i]×α ・・・(4)
なお、式（３）や式（４）中のαは補正係数を調整するための値である。この補正係数を調整するための値は、収録雑音マスキング閾値補正部３３で再生音の周波数域平均パワーがＴＨ１未満であると判定された場合であるか、収録雑音マスキング閾値補正部３３で再生音の周波数域平均パワーがＴＨ１以上でありＴＨ２未満であると判定された場合であるかに応じて、この値を変えても良い。

例えば、収録雑音マスキング閾値補正部３３で再生音の周波数域平均パワーがＴＨ１未満であると判定された場合には、式（３）や式（４）の関数によって補正係数tmp_coef[i]を算出するのに対して、収録雑音マスキング閾値補正部３３で再生音の周波数域平均パ
ワーがＴＨ１以上でありＴＨ２未満であると判定された場合には、式（５）や式（６）の関数を用いて補正係数tmp_coef[i]を算出するとする。ただし、αとβとの関係はα＞β
である。

F(noise_thr_new[i]/signal_power[i]) = noise_thr_new[i] / signal_power[i]+β
・・・(5)
F(noise_thr_new[i]/signal_power[i]) = noise_thr_new[i] / signal_power[i]×β ・・・(6)
このように、再生音の周波数域平均パワーがＴＨ１未満であると判定された場合（再生音が低レベルの場合）と再生音の周波数域平均パワーがＴＨ１以上でありＴＨ２未満であると判定された場合（再生音が中レベルの場合）とに応じて、補正係数を調整するために用いる値を変えることによって、もともと聞き取りにくい低レベルの区間に対して重みをつけて補正することができ、さらなる明瞭度の向上をはかることができる。

補正係数算出部３５ｃは、以上のような処理を行って補正係数tmp_coef[i]を算出し、
出力する。出力された補正係数tmp_coef[i]は、補正係数スムージング部３５ｄに入力さ
れる。

補正係数スムージング部３５ｄでは、補正係数算出部３５ｃまでの処理で算出された補正係数tmp_coef[i]に対してスムージングを行い、スムージングされた補正係数coef[i]を出力する。補正係数tmp_coef[i]は、隣接する周波数成分に対する補正係数tmp_coef[i+1]やtmp_coef[i-1]と不連続な場合がある。特に、再生音マスキング判定部３５ａで再生音
自身にマスクされると判定された周波数成分に対する補正係数と、再生音自身にマスクされないと判定された周波数成分に対する補正係数とは算出方法が異なるため、隣接していた場合、不連続になりやすい。そこで、この不連続性を緩和するために、補正係数のスムージングを行い、再生音の品質劣化を抑制する。補正係数のスムージングは、例えば加重移動平均によって行う。

なお、補正係数のスムージングは全周波数成分に対して行っても良いが、再生音自身にマスクされる周波数成分とマスクされない周波数成分との境界周辺に限定してスムージングを行っても良い。

補正演算部３５ｅには、再生音のスペクトルsignal[i]と、補正係数スムージング部３
５ｄによってスムージングされた補正係数coef[i]とが入力される。補正演算部３５ｅは
、入力された補正係数coef[i]と再生音のスペクトルsignal[i]とを式（７）のようにかけ合わせて補正後の再生音のスペクトルsignal_new[i]を得て、この値を出力する。

signal_new[i] = coef[i]×signal[i] ・・・(7)
なお、補正演算部３５ｅによって再生音の補正を行うときに、低域信号（例えば、１００Ｈｚ以下の信号）は補正を行わないという条件や、低域信号を増幅させるときには所定の閾値以下の補正係数とするという条件などを付しても良い。

このように、再生音補正部３５では、収録雑音によってマスクされた再生音の周波数成分を補正するときに、再生音自身によってマスクされる周波数成分の信号は増幅させないことにより、再生音の音量の増幅をできるだけ抑えつつ、再生音の明瞭化を図る。その結果、再生音補正部３５によって再生音の補正処理を行うと、図３（ｄ）や図４（ｄ）のように、再生音を雑音によってマスクされないよう増幅することができる。

以上のように、本実施形態の補正処理部では、収録雑音のマスキング閾値に基づいて再生音の補正係数を算出する前に、再生音のパワーに応じて収録雑音のマスキング閾値を補正している。これによって、実際の周囲の雑音レベルの大小に係わらず、聞き取りやすさを向上することができる。

本発明の第２の実施形態を説明する。実施例２でも、実施例１と同様に携帯電話機に実装した場合を例にして説明する。なお、携帯電話機の構成は、実施例１と同様であるため、説明を省略する。

第２の実施形態の補正処理部の構成を図９に示す。第１の実施形態の補正処理部と同じ構成要素は図９でも図２と同じ記号で示し、詳細な説明を省略する。第２の実施形態の補正処理部では、収録雑音マスキング閾値の補正に対して、操作部１５を用いてユーザに設定された音量増減の設定値（以降、ユーザボリューム値と称する）を考慮する。そのため、再生音の周波数域平均パワーをユーザボリューム値に応じて補正するユーザボリューム適用部３８が設けられている。

ユーザボリューム適用部３８には、再生音パワー解析部３２から再生音の周波数域平均パワーframe_powerおよび、操作部１５を用いてユーザに設定されたユーザボリューム値
が入力される。ユーザボリューム適用部３８では、入力された再生信号パワー情報をユーザボリューム値に応じて式（８）のように補正を行う。ただし、式（８）中のΔVは、基
準となるボリューム値（０ｄＢ）とユーザによって設定されたボリューム値との差分の値である。

frame_power_new = 10^ΔV/20・frame_power ・・・(8)
また、再生音の周波数域パワーsignal_power[i]も同様にユーザボリューム値に応じて
式（９）のように補正を行う。

signal_power_new[i] = 10^ΔV/20・signal_power[i] ・・・(9)
このようにユーザボリューム適用部３８では、再生音の周波数域平均パワーframe_powerおよび再生音の周波数パワーsignal_power[i]を補正することによって、収録雑音マスキング閾値補正部３３における再生音のレベル（低レベルか中レベルか大レベルか）の判定をより正確に行うことができ、聞き取りやすさを向上することができる。なお、実施例１と同様、上記説明においては、frame_powerを再生音の周波数域パワーとしているが、単
位区間のパワーの大小関係を判定することが目的であり、時間／周波数変換前の時間域平均パワーを用いても良い。

なお、上記実施形態に限定されることはなく、本発明の要旨を逸脱しない範囲において、適宜変更しても良い。

本発明の第１の実施形態に係る携帯電話機の構成を示すブロック図。本発明の第１の実施形態に係る携帯電話機の補正処理部の構成を示す図。再生音が低レベルの場合に、収録雑音マスキング閾値を補正する処理を示す概念図。再生音が中レベルの場合に、収録雑音マスキング閾値を補正する処理を示す概念図。本発明の第１の実施形態に係る携帯電話機の収録雑音マスキング閾値補正部によって補正された後の収録雑音マスキング閾値パワーの平均値と再生音の周波数域平均パワーとの関係を示す図。本発明の第１の実施形態に係る携帯電話機の収録雑音マスキング閾値補正部によって収録雑音マスキング閾値パワーの平均値を補正する関数の一例。本発明の第１の実施形態に係る携帯電話機の再生音補正部を詳細に表した図。周囲雑音によってマスクされる周波数成分を表した図。本発明の第２の実施形態に係る携帯電話機の補正処理部の構成を示す図。

符号の説明

１１制御部、１２送受信部、１３放送受信部、１４信号処理部、１５操作部、１６記憶部、１７表示部、１８音声入出力部、３０補正処理部、３１時間／周波数変換部、３２再生音パワー解析部、３３収録雑音マスキング閾値補正部、３４再生音マスキング特性解析部、３５再生音補正部、３６周波数／時間変換部、３７収録雑音マスキング閾値記憶部、３５ａ再生音マスキング判定部、３５ｂパワースムージング部、３５ｃ補正係数算出部、３５ｄ補正係数スムージング部、３５ｅ補正演算部、３８ユーザボリューム適用部

Claims

再生音の周波数成分に対する補正係数を算出し、音声出力部から音声として出力される再生音の補正を行う音補正装置であって、
騒音環境下で予め収録された雑音から算出され、前記再生音がマスキングされるか否かを示すマスキング閾値を予め記憶する収録雑音マスキング閾値記憶手段と、
前記再生音の所定の区間のパワーの平均値を算出する手段と、
この再生音の区間ごとのパワーの平均値と、第１の閾値及びこの第１の閾値よりも大きい第２の閾値とを比較する手段と、
前記比較の結果、前記再生音の区間ごとのパワーの平均値が前記第１の閾値以上でかつ前記第２の閾値未満であった場合に前記区間に対応する前記マスキング閾値の平均値が前記再生音の区間ごとのパワーの平均値と同等になるように前記マスキング閾値を補正し、前記比較の結果前記再生音の区間ごとのパワーの平均値が前記第２の閾値以上であった場合は前記マスキング閾値の補正を行わず、前記比較の結果前記再生音の所定の区間ごとのパワーの平均値が前記第１の閾値未満であった場合は前記マスキング閾値を前記所定の区間の再生音よりも大きくなるように補正し、補正後の前記マスキング閾値未満のパワーを有する再生音の周波数成分を増幅させるよう補正する補正手段と
を有することを特徴とする音補正装置。
前記補正手段は、補正後前記マスキング閾値未満のパワーを有する再生音の周波数成分を増幅させるときに、前記再生音の所定の区間ごとのパワーの平均値が前記第１の閾値未満であった場合には、前記再生音の所定の区間ごとのパワーの平均値が前記第１の閾値以上であった場合よりも増幅率を高く設定することを特徴とする請求項１に記載の音補正装置。
ユーザからの再生音の音量増減操作を受ける操作手段を更に有し、
前記補正手段は、前記操作手段によって設定された再生音の音量増減設定値を用いて再生音の所定の区間ごとのパワーの平均値を補正し、補正後の再生音のパワーの平均値に応じて前記マスキング閾値を補正し、補正後の前記マスキング閾値未満のパワーを有する再生音の周波数成分を増幅させるよう補正することを特徴とする請求項１に記載の音補正装置。
前記再生音は、予め記憶されていた音声データに対応する再生音もしくは無線または有線により受信した音声信号に対応する再生音であることを特徴とする請求項１に記載の音補正装置。
騒音環境下で予め収録された雑音から算出され、前記再生音がマスキングされるか否かを示すマスキング閾値を予め記憶する収録雑音マスキング閾値記憶手段を備える音補正装置における音声出力部から音声として出力される再生音の補正を行う音補正方法であって、
前記再生音の所定の区間のパワーの平均値を算出するステップと、
この再生音の区間ごとのパワーの平均値と、第１の閾値及びこの第１の閾値よりも大きい第２の閾値とを比較するステップと、
前記比較の結果、前記再生音の区間ごとのパワーの平均値が前記第１の閾値以上でかつ前記第２の閾値未満であった場合に前記区間に対応する前記マスキング閾値の平均値が前記再生音の区間ごとのパワーの平均値と同等になるように前記マスキング閾値を補正し、前記比較の結果前記再生音の区間ごとのパワーの平均値が前記第２の閾値以上であった場合は前記マスキング閾値の補正を行わず、前記比較の結果前記再生音の所定の区間ごとのパワーの平均値が前記第１の閾値未満であった場合は前記マスキング閾値を前記所定の区間の再生音よりも大きくなるように補正し、補正後の前記マスキング閾値未満のパワーを有する再生音の周波数成分を増幅させるよう補正するステップと
を有することを特徴とする音補正方法。