[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2023106686A - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JP2023106686A
JP2023106686A JP2022007557A JP2022007557A JP2023106686A JP 2023106686 A JP2023106686 A JP 2023106686A JP 2022007557 A JP2022007557 A JP 2022007557A JP 2022007557 A JP2022007557 A JP 2022007557A JP 2023106686 A JP2023106686 A JP 2023106686A
Authority
JP
Japan
Prior art keywords
noise
estimated
audio signal
gain
estimation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022007557A
Other languages
English (en)
Inventor
雅司 鈴木
Masashi Suzuki
訓史 鵜飼
Norifumi Ukai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2022007557A priority Critical patent/JP2023106686A/ja
Priority to CN202310071447.7A priority patent/CN116486776A/zh
Priority to EP23151806.9A priority patent/EP4216213A3/en
Priority to US18/098,522 priority patent/US20230238013A1/en
Publication of JP2023106686A publication Critical patent/JP2023106686A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17853Methods, e.g. algorithms; Devices of the filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17879General system configurations using both a reference signal and an error signal
    • G10K11/17881General system configurations using both a reference signal and an error signal the reference signal being an acoustic signal, e.g. recorded with a microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

【課題】話者音声を入力している時のノイズを低減することができる音声処理装置を提供する。【解決手段】音声処理装置は、音声を収音して第1音声信号を生成する収音部と、ノイズを推定するノイズ推定部と、前記ノイズ推定部で推定したノイズに基づき、前記第1音声信号のゲインを制御し、第2音声信号を出力するゲイン制御部と、前記ノイズ推定部で推定したノイズに基づき、前記第2音声信号の所定周波数帯域の成分を低減するフィルタ処理を行うフィルタ部と、を備える。【選択図】 図3

Description

本発明の一実施形態は、音声処理装置および音声処理方法に関し、特にノイズを低減する技術に関する。
特許文献1のノイズゲートは、音声信号の周波数スペクトルに基づいて定常ノイズのノイズスペクトルを推定する。ノイズゲートは、音声信号の周波数スペクトルとノイズスペクトルとの信号レベル比が閾値以上の場合、周波数スペクトルをそのまま出力する、ノイズゲートは、音声信号の周波数スペクトルとノイズスペクトルとの信号レベル比が閾値未満の場合、ゲインを低減して出力する。
特開2010-122617号公報
ノイズレベルと音声のレベルの比(S/N)に応じてゲイン制御を行う場合、話者音声を入力している時にはノイズが混在してしまう。
以上の事情を考慮して、本開示のひとつの態様は、話者音声を入力している時のノイズを低減することができる音声処理装置を提供することを目的とする。
音声処理装置は、音声を収音して第1音声信号を生成する収音部と、ノイズを推定するノイズ推定部と、前記ノイズ推定部で推定したノイズに基づき、前記第1音声信号のゲインを制御し、第2音声信号を出力するゲイン制御部と、前記ノイズ推定部で推定したノイズに基づき、前記第2音声信号の所定周波数帯域の成分を低減するフィルタ処理を行うフィルタ部と、を備える。
本発明の一実施形態によれば、話者音声を入力している時のノイズを低減することができる。
音声処理装置1の構成を示すブロック図である。 プロセッサ12の機能的構成を示すブロック図である。 プロセッサ12の動作を示すフローチャートである。 ノイズ低減部121のゲインおよびS/Nの関係を示す図である。 EQ122のゲインおよびノイズパワー推定値の関係を示す図である。 複数の周波数帯域のそれぞれのノイズ成分の推定結果を示す図である。 ノイズパワー推定値の時間変化を示す図である。 参考例として、ある帯域(例えば0~250Hz)のノイズパワーに基づいてノイズパワー推定値を求めた場合のノイズパワー推定値の時間変化を示す図である。 変形例2に係るプロセッサ12の機能的構成を示すブロック図である。 EQ122のゲインおよびノイズパワー推定値の関係を示す図である。 帯域毎のゲインを変更する場合のEQ122のゲインおよびノイズパワー推定値の関係を示す図である。
図1は、音声処理装置1の構成を示すブロック図である。音声処理装置1は、マイク11、プロセッサ12、RAM13、フラッシュメモリ14、および通信部15を備えている。
マイク11は、音声を収音する。プロセッサ12は、マイク11で収音した音声信号を、通信部15を介して外部のパーソナルコンピュータ(PC)等に送信する。
プロセッサ12は、CPU、DSP、またはSoC(System on a Chip)等からなる。プロセッサ12は、記憶媒体であるフラッシュメモリ14からプログラムを読み出し、RAM13に一時記憶することで、種々の動作を行う。プログラムは、音声処理プログラム141を含む。
フラッシュメモリ14は、プロセッサ12の動作用プログラムを記憶している。例えば、フラッシュメモリ14は、上記音声処理プログラム141を記憶している。プロセッサ12は、音声処理プログラム141により、本発明の音声処理方法を実行する。
図2は、プロセッサ12の機能的構成を示すブロック図である。図3は、音声処理方法の動作を示すフローチャートである。プロセッサ12は、ノイズ低減部121、イコライザ(EQ)122、ゲイン計算部123、EQ制御部124、第1ノイズ推定部125、および第2ノイズ推定部126を有する。これら機能的構成は、音声処理プログラム141により構成される。ノイズ低減部121およびゲイン計算部123は、本発明のゲイン制御部の一例である。EQ122およびEQ制御部124は、本発明のフィルタ部の一例である。
マイク11は、音声を収音し、第1音声信号を生成する(S11)。音声は、話者の音声またはノイズを含む。マイク11は、生成した第1音声信号をプロセッサ12に出力する。
まず、第1ノイズ推定部125は、第1音声信号に基づいてノイズパワーを推定する(S12)。ノイズパワーの推定手法は、どの様な手法であってもよい。例えば、第1ノイズ推定部125は、第1音声信号の所定区間のパワー平均値における最小値をノイズパワーとして推定する。
ゲイン計算部123は、第1ノイズ推定部125で推定したノイズパワーに基づいて、ノイズ低減部121における第1音声信号のゲインを計算する(S13)。例えば、ゲイン計算部123は、ノイズ低減部121をウィーナーフィルタとして機能させるように、ノイズ低減部121のゲインを第1音声信号のパワーSおよびノイズパワーNの比(S/N)に基づいて決定する。
図4は、ノイズ低減部121のゲインおよびS/Nの関係を示す図である。図4のグラフの横軸はS/Nであり、縦軸はノイズ低減部121のゲインである。ゲイン計算部123は、図4に示す様に、S/Nが小さい場合にはノイズ低減部121のゲインを小さくし、S/Nが大きい場合にはノイズ低減部121のゲインを大きくする。
ノイズ低減部121は、ゲイン計算部123で計算されたゲインで第1音声信号を入力し、第2音声信号を出力する(S14)。これにより、ノイズ低減部121は、話者が発話していない場合には第2音声信号のレベルを小さくするため、ノイズを低減する。一方、ノイズ低減部121は、話者が発話している場合には第2音声信号のレベルを大きくするため、話者の音声を低減することがない。
第2ノイズ推定部126は、第1音声信号の一部の帯域に基づいてノイズを推定する。例えば、第2ノイズ推定部126は、第1ノイズ推定部125で計算したノイズパワーのうち1kHz以下のノイズパワーに基づいてノイズパワー推定値を求める(S15)。
EQ制御部124は、第2ノイズ推定部126で求めたノイズパワー推定値に基づいて、EQ122のゲインを計算する(S16)。EQ122は、EQ制御部124で計算されたゲインに基づいて第2音声信号の所定周波数帯域の成分を低減する処理を行う(S17)。例えば、EQ122は、第2音声信号の1kHz以下の帯域を低減する。
図5は、EQ122のゲインおよびノイズパワー推定値の関係を示す図である。図5のグラフの横軸はノイズパワー推定値であり、縦軸はEQ122のゲインである。EQ制御部124は、図5に示す様に、ノイズパワー推定値が小さい場合にはEQ122のゲインを大きくし、ノイズパワー推定値が大きい場合にはEQ122のゲインを小さくする。EQ制御部124は、図5の例では、ノイズパワー推定値が所定値N1よりも低い場合にはEQ122のゲインを最大値(例えば0dB)にする。つまり、ノイズパワー推定値が所定値N1よりも低い場合にはEQ122における低減処理は行われない。EQ制御部124は、図5の例では、ノイズパワー推定値が所定値N2よりも高い場合にはEQ122のゲインを最小値(例えば-36dB)にする。EQ制御部124は、ノイズパワー推定値が所定値N1以上、N2以下の場合、EQ122のゲインを、ノイズパワー推定値に応じて線形に変化させる。
以上のように、ノイズ低減部121は、話者が発話していない場合には第2音声信号のレベルを小さくするため、ノイズを低減する。一方、ノイズ低減部121は、話者が発話している場合には第2音声信号のレベルを大きくするため、第2音声信号にノイズが混在する場合がある。特に、1kHz以下の低域に含まれるノイズは、聴感上目立つ。しかし、本実施形態のEQ122およびEQ制御部124は、ノイズパワー推定値に基づいて1kHz以下の低域を低減するため、話者音声を入力している時のノイズを低減することができる。また、本実施形態のEQ制御部124は、第1音声信号のパワーに依存せずノイズパワー推定値のみに基づいてEQ122のゲインを設定する。そのため話者の音声のレベルに依存せずに常時ノイズを低減することができる。
(変形例1)
第2ノイズ推定部126は、複数の周波数帯域でそれぞれノイズ成分を推定し、該複数の周波数帯域のそれぞれのノイズ成分の推定結果に基づいてノイズを推定してもよい。
例えば、第2ノイズ推定部126は、0~250Hzの第1帯域、250~500Hzの第2帯域、500~750Hzの第3帯域、および750~1000Hzの第4帯域のそれぞれのノイズパワーを求める。ただし帯域の数および帯域幅はこの例に限らない。
さらに、第2ノイズ推定部126は、各帯域のノイズパワーに重み付けを行う。重みは、聴感上影響の大きい帯域を大きく、聴感上影響の小さい帯域を小さくする。例えば、第2ノイズ推定部126は、第1帯域の重み付け係数を0.8、第2帯域の重み付け係数を0.1、第3帯域の重み付け係数を0.05、第4帯域の重み付け係数を0.05として、各帯域のノイズパワーにそれぞれの重み付け係数を乗算し、期待値を算出する。第2ノイズ推定部126は、各帯域の期待値を加算する。第2ノイズ推定部126は、加算結果をノイズパワー推定値とする。
図6は、数の周波数帯域のそれぞれのノイズ成分の推定結果を示す図である。第2ノイズ推定部126は、第1帯域、第2帯域、第3帯域、および第4帯域のノイズパワーをそれぞれ10dB、20dB、5dB、および15dBとして求めている。第2ノイズ推定部126は、各帯域の重み付け係数を乗算し、第1帯域、第2帯域、第3帯域、および第4帯域の期待値をそれぞれ8、2、0.25、0.75として求めている。第2ノイズ推定部126は、各帯域の期待値を加算し、ノイズパワー推定値=11を算出する。
この様に、第2ノイズ推定部126は、よりノイズの影響が大きいと予測できる帯域と、ノイズの影響が小さいと予測できる帯域と、を分けてノイズ推定を行う。これにより、第2ノイズ推定部126は、EQ122によるフィルタ処理を安定化させることができる。
図7は、第2ノイズ推定部126で求めたノイズパワー推定値の時間変化を示す図であり、図8は参考例として、ある帯域(例えば0~250Hz)のノイズパワーに基づいてノイズパワー推定値を求めた場合のノイズパワー推定値の時間変化を示す図である。
図8に示す様に、ある帯域(例えば0~250Hz)のノイズパワーに基づいてノイズパワー推定値を求めた場合、瞬間的に当該帯域でノイズパワーが大きくなるまたは小さくなる場合があり、ノイズパワー推定値がばらつく。そのため、EQ122のゲインがばらつく可能性がある。
これに対して、図7に示す様に、変形例1の第2ノイズ推定部126は、複数の周波数帯域でそれぞれノイズパワーを求めて、重み付け加算を行うことで瞬間的にある帯域でノイズパワーが大きくなるまたは小さくなった場合でも、ノイズパワー推定値がばらつくことがない。したがって、変形例1の第2ノイズ推定部126は、EQ122のゲインを安定化させることができる。
なお、EQ122は、第2ノイズ推定部126で推定した複数の周波数帯域(第1帯域乃至第4帯域)よりも狭い帯域でフィルタ処理を行ってもよい。例えば、EQ122は、聴感上最も影響の大きい帯域(例えば第1帯域)にのみフィルタ処理を施してもよい。これにより、EQ122は、音質の変化を最小限に抑えることができる。
(変形例2)
第1ノイズ推定部125または第2ノイズ推定部126は、画像データを取得し、取得した画像データに基づいてノイズを推定してもよい。図9は、変形例2に係るプロセッサ12の機能的構成を示すブロック図である。この例では、音声処理装置1は、画像データを取得するためのカメラ20を備える。また、この例では、第2ノイズ推定部126は、カメラ20から画像データを取得し、取得した画像データに基づいてノイズを推定する。
具体的には、第2ノイズ推定部126は、画像データに含まれるノイズ源を認識し、認識したノイズ源の状態に応じてノイズパワー推定値を求める。ノイズ源は、例えば人、PC、エアコン、換気扇、または掃除機等を含む。
第2ノイズ推定部126は、例えば、所定時間内に認識する移動物体(例えば歩行者)の数に基づいてノイズパワー推定値を求める。第2ノイズ推定部126は、所定時間内に認識した移動物体(例えば歩行者)の数が多いほどノイズパワー推定値が大きいと推定し、所定時間内に認識した移動物体(例えば歩行者)の数が少ないほどノイズパワー推定値が小さいと推定する。
あるいは、第2ノイズ推定部126は、遠方の人物の数に基づいてノイズパワー推定値を求めてもよい。第2ノイズ推定部126は、エアコンの画像を認識し、エアコンの状態(例えばファンの回転数)に基づいてノイズパワー推定値を求めてもよい。あるいは、第2ノイズ推定部126は、エアコンの周囲の物体の状態(例えばカーテンの揺れ度合い)に基づいてノイズパワー推定値を求めてもよい。あるいは、第2ノイズ推定部126は、エアコンのリモコンを認識し、該リモコンに表示されている設定温度に基づいてノイズパワー推定値を求めてもよい。第2ノイズ推定部126は、冷房運転のエアコンの場合、設定温度が低いほどノイズパワー推定値が大きいと推定し、設定温度が高いほどノイズパワー推定値が小さいと推定する。第2ノイズ推定部126は、暖房運転のエアコンの場合、設定温度が高いほどノイズパワー推定値が大きいと推定し、設定温度が低いほどノイズパワー推定値が小さいと推定する。
なお、第1ノイズ推定部125が、カメラ20から画像データを取得し、取得した画像データに基づいてノイズを推定してもよいし、第1ノイズ推定部125および第2ノイズ推定部126の両方がカメラ20から画像データを取得し、取得した画像データに基づいてノイズを推定してもよい。また、第1ノイズ推定部125または第2ノイズ推定部126は、第1音声信号および画像データに基づいてノイズパワーを推定してもよい。
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
例えば、EQ制御部124は、第1ノイズ推定部125で求めたノイズパワー推定値に基づいて、EQ122のゲインを計算してもよい。EQ制御部124は、第1音声信号のパワーSおよびノイズパワーNの比(S/N)に基づいてEQ122のゲインを計算してもよい。
また、図5では、EQ制御部124は、ノイズパワー推定値が所定値N1以上、N2以下の場合、EQ122のゲインを、ノイズパワー推定値に応じて線形に変化させた。しかし、EQ制御部124は、EQ122のゲインを、ノイズパワー推定値に応じて線形に変化させる必要はない。
図10は、EQ122のゲインおよびノイズパワー推定値の関係を示す図である。図5のグラフの横軸はノイズパワー推定値であり、縦軸はEQ122のゲインである。図10に示すように、EQ制御部124は、ノイズパワー推定値が小さい場合、ノイズパワー推定値に応じて緩やかにEQ122のゲインを変化させ、ノイズパワー推定値がある程度大きくなった場合にEQ122のゲインを急激に変化させ、ノイズパワー推定値が大きい場合には緩やかにEQ122のゲインを変化させてもよい。また、EQ制御部124は、ノイズパワー推定値が所定値以上になった場合に、EQ122のゲインを最小値にし、ノイズパワー推定値が所定値未満になった場合に、EQ122のゲインを最大値にしてもよい。
また、変形例1に示した様に第2ノイズ推定部126が複数の周波数帯域でそれぞれノイズパワーを求めて、ノイズパワー推定値を求める場合、EQ制御部124は、求めたノイズパワー推定値に基づいてEQ122の帯域毎のゲインを変更してもよい。
例えば、図11は、帯域毎のゲインを変更する場合のEQ122のゲインおよびノイズパワー推定値の関係を示す図である。この例では、EQ制御部124は、ノイズパワー推定値に基づいてEQ122の第1帯域および第2帯域それぞれのゲインを変更する。この例では、第1帯域の最小値のゲインは、第2帯域の最小値のゲインよりも小さい。つまり、第1帯域の低減量は総体的に大きく、第2帯域の低減量は相対的に小さくなる。この例ではEQ122は、第3帯域および第4帯域のゲインを変更しない。
このように、なお、EQ制御部124は、ノイズパワー推定値に基づくEQ122のゲインを帯域毎に変更してもよい。これにより、EQ122は、音質の変化を最小限に抑え、かつノイズを正確に低減することができる。
1 :音声処理装置
11 :マイク
12 :プロセッサ
13 :RAM
14 :フラッシュメモリ
15 :通信部
20 :カメラ
121 :ノイズ低減部
122 :EQ
123 :ゲイン計算部
124 :EQ制御部
125 :第1ノイズ推定部
126 :第2ノイズ推定部
141 :音声処理プログラム

Claims (18)

  1. 音声を収音して第1音声信号を生成する収音部と、
    ノイズを推定するノイズ推定部と、
    前記ノイズ推定部で推定したノイズに基づき、前記第1音声信号のゲインを制御し、第2音声信号を出力するゲイン制御部と、
    前記ノイズ推定部で推定したノイズに基づき、前記第2音声信号の所定周波数帯域の成分を低減するフィルタ処理を行うフィルタ部と、
    を備える
    音声処理装置。
  2. 前記ノイズ推定部は、前記第1音声信号に基づいて前記ノイズを推定する、
    請求項1に記載の音声処理装置。
  3. 前記ノイズ推定部は、
    第1ノイズ推定部および第2ノイズ推定部を有し、
    前記ゲイン制御部は、前記第1ノイズ推定部で推定したノイズに基づき前記第1音声信号のゲインを制御し、
    前記フィルタ部は、前記第2ノイズ推定部で推定したノイズに基づき前記フィルタ処理を行い、
    前記第2ノイズ推定部は、前記第1音声信号の一部の帯域に基づいてノイズを推定する、
    請求項1または請求項2に記載の音声処理装置。
  4. 前記第2ノイズ推定部は、複数の周波数帯域でそれぞれノイズ成分を推定し、前記複数の周波数帯域のそれぞれのノイズ成分の推定結果に基づいて前記ノイズを推定する、
    請求項3に記載の音声処理装置。
  5. 前記フィルタ部は、前記第2ノイズ推定部で推定した前記複数の周波数帯域よりも狭い帯域で前記フィルタ処理を行う、
    請求項4に記載の音声処理装置。
  6. 前記ノイズ推定部で推定したノイズのレベルが大きいほど前記フィルタ処理における低減量が大きくなる、
    請求項1乃至請求項5のいずれか1項に記載の音声処理装置。
  7. 前記フィルタ処理における低減量は、上限および下限を有する、
    請求項1乃至請求項6のいずれか1項に記載の音声処理装置。
  8. 前記ノイズ推定部は、画像データを取得し、取得した画像データに基づいて前記ノイズを推定する、
    請求項1乃至請求項7のいずれか1項に記載の音声処理装置。
  9. 前記ゲイン制御部は、前記ノイズ推定部で推定したノイズのレベルと、前記第1音声信号のレベルと、に基づいて前記ゲインを制御し、
    前記フィルタ部は、前記ノイズ推定部で推定したノイズのレベルに基づいて前記フィルタ処理を行う、
    請求項1乃至請求項8のいずれか1項に記載の音声処理装置。
  10. 音声を収音して第1音声信号を生成し、
    ノイズを推定し、
    推定したノイズに基づき、前記第1音声信号のゲインを制御し、第2音声信号を出力し、
    推定したノイズに基づき、前記第2音声信号の所定周波数帯域の成分を低減するフィルタ処理を行う、
    音声処理方法。
  11. 前記第1音声信号に基づいて前記ノイズを推定する、
    請求項10に記載の音声処理方法。
  12. 前記ノイズ推定部は、
    第1ノイズ推定部および第2ノイズ推定部を有し、
    第1ノイズ推定処理で推定したノイズに基づき前記第1音声信号のゲインを制御し、
    第2ノイズ推定処理で推定したノイズに基づき前記フィルタ処理を行い、
    前記第2ノイズ推定処理は、前記第1音声信号の一部の帯域に基づいてノイズを推定する、
    請求項10または請求項11に記載の音声処理方法。
  13. 前記第2ノイズ推定処理は、複数の周波数帯域でそれぞれノイズ成分を推定し、前記複数の周波数帯域のそれぞれのノイズ成分の推定結果に基づいて前記ノイズを推定する、
    請求項12に記載の音声処理方法。
  14. 前記第2ノイズ推定処理で推定した前記複数の周波数帯域よりも狭い帯域で前記フィルタ処理を行う、
    請求項13に記載の音声処理方法。
  15. 推定したノイズのレベルが大きいほど前記フィルタ処理における低減量が大きくなる、
    請求項10乃至請求項14のいずれか1項に記載の音声処理方法。
  16. 前記フィルタ処理における低減量は、上限および下限を有する、
    請求項10乃至請求項15のいずれか1項に記載の音声処理方法。
  17. 画像データを取得し、取得した画像データに基づいて前記ノイズを推定する、
    請求項10乃至請求項16のいずれか1項に記載の音声処理方法。
  18. ノイズのレベルと、前記第1音声信号のレベルと、に基づいて前記ゲインを制御し、
    推定したノイズのレベルに基づいて前記フィルタ処理を行う、
    請求項10乃至請求項17のいずれか1項に記載の音声処理方法。
JP2022007557A 2022-01-21 2022-01-21 音声処理装置および音声処理方法 Pending JP2023106686A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2022007557A JP2023106686A (ja) 2022-01-21 2022-01-21 音声処理装置および音声処理方法
CN202310071447.7A CN116486776A (zh) 2022-01-21 2023-01-13 声音处理装置以及声音处理方法
EP23151806.9A EP4216213A3 (en) 2022-01-21 2023-01-16 Sound processing apparatus and sound processing method
US18/098,522 US20230238013A1 (en) 2022-01-21 2023-01-18 Sound Processing Apparatus and Sound Processing Method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022007557A JP2023106686A (ja) 2022-01-21 2022-01-21 音声処理装置および音声処理方法

Publications (1)

Publication Number Publication Date
JP2023106686A true JP2023106686A (ja) 2023-08-02

Family

ID=84981299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022007557A Pending JP2023106686A (ja) 2022-01-21 2022-01-21 音声処理装置および音声処理方法

Country Status (4)

Country Link
US (1) US20230238013A1 (ja)
EP (1) EP4216213A3 (ja)
JP (1) JP2023106686A (ja)
CN (1) CN116486776A (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454010B1 (en) * 2004-11-03 2008-11-18 Acoustic Technologies, Inc. Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation
JP2010122617A (ja) 2008-11-21 2010-06-03 Yamaha Corp ノイズゲート、及び収音装置
WO2018148095A1 (en) * 2017-02-13 2018-08-16 Knowles Electronics, Llc Soft-talk audio capture for mobile devices

Also Published As

Publication number Publication date
EP4216213A2 (en) 2023-07-26
EP4216213A3 (en) 2023-09-13
US20230238013A1 (en) 2023-07-27
CN116486776A (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
TWI463817B (zh) 可適性智慧雜訊抑制系統及方法
JP5852266B2 (ja) 補聴器の動作方法および補聴器
US9349384B2 (en) Method and system for object-dependent adjustment of levels of audio objects
CN115280414B (zh) 基于期望信号的机器学习水平估计的自动增益控制
US20200021932A1 (en) Sound Pickup Device and Sound Pickup Method
JP5417491B2 (ja) 電子機器、方法およびプログラム
CN110173857A (zh) 空调器的控制方法、空调器及计算机可读存储介质
EP2700161A2 (en) Processing audio signals
JP2016054421A (ja) 残響抑制装置
JP6977768B2 (ja) 情報処理装置、情報処理方法、音声出力装置、および音声出力方法
JP6857344B2 (ja) オーディオ信号を処理するための装置および方法
US10873810B2 (en) Sound pickup device and sound pickup method
JP2009296298A (ja) 音声信号処理装置および方法
JP2023106686A (ja) 音声処理装置および音声処理方法
GB2490092A (en) Reducing howling by applying a noise attenuation factor to a frequency which has above average gain
JP2012163682A (ja) 音声処理装置及び方法
CN112133320B (zh) 语音处理装置及语音处理方法
CN110173864B (zh) 空调器的控制方法、空调器及存储介质
JP4518817B2 (ja) 収音方法、収音装置、収音プログラム
EP4178230A1 (en) Compensating noise removal artifacts
CN115240700B (zh) 一种声学设备及其声音处理方法
US11902747B1 (en) Hearing loss amplification that amplifies speech and noise subsignals differently
JP5036283B2 (ja) オートゲインコントロール装置、音響信号記録装置、映像・音響信号記録装置および通話装置
JP2004061567A (ja) ノイズキャンセラ
WO2023172609A1 (en) Method and audio processing system for wind noise suppression