JP2023536104A - 機械学習を用いたノイズ削減 - Google Patents
機械学習を用いたノイズ削減 Download PDFInfo
- Publication number
- JP2023536104A JP2023536104A JP2023505851A JP2023505851A JP2023536104A JP 2023536104 A JP2023536104 A JP 2023536104A JP 2023505851 A JP2023505851 A JP 2023505851A JP 2023505851 A JP2023505851 A JP 2023505851A JP 2023536104 A JP2023536104 A JP 2023536104A
- Authority
- JP
- Japan
- Prior art keywords
- band
- gain
- audio signal
- band gain
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Feedback Control In General (AREA)
Abstract
Description
本願は、2020年11月11日出願の欧州特許出願第20206921.7号、2020年11月5日出願の米国仮特許出願第63/110,114号、2020年8月20日出願の米国仮特許出願第63/068,227号および2020年7月31日出願の国際特許出願第PCT/CN2020/106270号の優先権の利益を主張するものであり、これらはすべて、ここにその全体が参照により組み込まれる。
本開示は、オーディオ処理、特にノイズ削減に関する。
VAD判定は、クリーンな発話Sの解析に基づいていてもよい。ある実装では、VAD判定は、現在のフレームのエネルギーの絶対閾値によって決定される。他の実装では、他のVAD方法が使用されうる。たとえば、VADは手動でラベルを付けされることができる。
上式で、Es(b)はクリーンな発話の帯域bのエネルギーであり、Ex(b)ノイズのある発話の帯域bのエネルギーである。
Sm=a*Si
Nm=b*Ni
Xm=(Sm+Nm)
c=32767/Amax
S=c*Sm
N=c*Nm
X=S+N
〔EEE1〕
コンピュータ実装されるオーディオ処理方法であって、当該方法は:
機械学習モデルを使用して、第1帯域利得およびオーディオ信号の音声活動検出値を生成し;
前記第1帯域利得および前記音声活動検出値に基づいて背景ノイズ推定値を生成し;
前記背景ノイズ推定値によって制御されるウィーナー・フィルタを使用して前記オーディオ信号を処理することによって、第2帯域利得を生成し;
前記第1帯域利得と前記第2帯域利得を組み合わせることによって、組み合わされた利得を生成し;
前記組み合わされた利得を使用して前記オーディオ信号を修正することによって、修正されたオーディオ信号を生成することを含む、
方法。
〔EEE2〕
前記機械学習モデルが、トレーニング・データの多様性を増すようデータ増強を使用して生成される、EEE1に記載の方法。
〔EEE3〕
前記第1帯域利得および前記音声活動検出値を生成することは、全結合型ニューラルネットワーク、リカレントニューラルネットワーク、および畳み込みニューラルネットワークのいずれかを使用して実行される、EEE1または2に記載の方法。
〔EEE4〕
前記第1帯域利得を生成することは、少なくとも2つの異なる帯域について少なくとも2つの異なる制限を使用して前記第1帯域利得を制限することを含む、EEE1ないし3のうちいずれか一項に記載の方法。
〔EEE5〕
前記背景ノイズ推定値を生成することは、特定の帯域についての閾値を超える、いくつかのノイズ・フレームに基づく、EEE1ないし4のうちいずれか一項に記載の方法。
〔EEE6〕
前記第2帯域利得を生成することは、特定の帯域についての定常ノイズ・レベルに基づいて前記ウィーナー・フィルタを使用することを含む、EEE1ないし5のうちいずれか一項に記載の方法。
〔EEE7〕
前記第2帯域利得を生成することが、少なくとも2つの異なる帯域について少なくとも2つの異なる制限を使用して前記第2帯域利得を制限することを含む、EEE1ないし6のうちいずれか一項に記載の方法。
〔EEE8〕
前記組み合わされた利得を生成することは:
前記第1帯域利得と前記第2帯域利得を乗算し;
少なくとも2つの異なる帯域について少なくとも2つの異なる制限を使用して、前記組み合わされた帯域利得を制限することを含む、
EEE1ないし7のうちいずれか一項に記載の方法。
〔EEE9〕
前記修正されたオーディオ信号を生成することは、前記組み合わされた帯域利得を使用して前記オーディオ信号の振幅スペクトルを修正することを含む、EEE1ないし8のうちいずれか一項に記載の方法。
〔EEE10〕
入力オーディオ信号に重複窓を適用して複数のフレームを生成することをさらに含み、前記オーディオ信号が該複数のフレームに対応する、EEE1ないし9のうちいずれか一項に記載の方法。
〔EEE11〕
前記オーディオ信号に対してスペクトル解析を実行し、前記オーディオ信号の複数のビン特徴および基本周波数を生成することをさらに含み、
前記第1帯域利得および前記音声活動検出値は、前記複数のビン特徴および前記基本周波数に基づく、
EEE1ないし10のうちいずれか一項に記載の方法。
〔EEE12〕
前記複数のビン特徴に基づいて複数の帯域特徴を生成し、前記複数の帯域特徴は、メル周波数ケプストラム係数およびバーク周波数ケプストラム係数の一方を使用して生成され、
前記第1帯域利得および前記音声活動検出値は、前記複数の帯域特徴および前記基本周波数に基づく、
EEE11に記載の方法。
〔EEE13〕
前記組み合わされた利得は、前記オーディオ信号の複数の帯域に関連する組み合わされた帯域利得であり、当該方法は、さらに:
前記組み合わされた帯域利得を組み合わされたビン利得に変換することを含み、前記組み合わされたビン利得は複数のビンに関連する、
EEE1ないし12のうちいずれか一項に記載の方法。
〔EEE14〕
プロセッサによって実行されたときに、EEE1ないし13のうちいずれか一項に記載の方法を含む処理を実行するよう装置を制御するコンピュータ・プログラムを記憶している、非一時的なコンピュータ読み取り可能な媒体。
〔EEE15〕
オーディオ処理のための装置であって、当該装置は:
プロセッサ;および
メモリを有しており、
前記プロセッサは、機械学習モデルを使用して、第1帯域利得およびオーディオ信号の音声活動検出値を生成するよう当該装置を制御するように構成されており;
前記プロセッサは、前記第1帯域利得および前記音声活動検出値に基づいて背景ノイズ推定値を生成するよう当該装置を制御するように構成されており;
前記プロセッサは、前記背景ノイズ推定値によって制御されるウィーナー・フィルタを使用して前記オーディオ信号を処理することによって、第2帯域利得を生成するように当該装置を制御するよう構成されており;
前記プロセッサは、前記第1帯域利得と前記第2帯域利得を組み合わせることによって、組み合わされた利得を生成するよう当該装置を制御するように構成されており;
前記プロセッサは、前記組み合わされた利得を使用して前記オーディオ信号を修正することによって、修正されたオーディオ信号を生成するように当該装置を制御するように構成されている、
装置。
〔EEE16〕
前記機械学習モデルが、トレーニング・データの多様性を増すようデータ増強を使用して生成される、EEE16に記載の装置。
〔EEE17〕
前記第1帯域利得および前記第2帯域利得のうちの少なくとも1つを生成するときに、少なくとも1つの制限が適用される、EEE15または16に記載の装置。
〔EEE18〕
前記背景ノイズ推定値を生成することは、特定の帯域についての閾値を超える、いくつかのノイズ・フレームに基づく、EEE15ないし17のうちいずれか一項に記載の装置。
〔EEE19〕
前記プロセッサは、前記オーディオ信号に対してスペクトル解析を実行し、前記オーディオ信号の複数のビン特徴および基本周波数を生成するよう当該装置を制御するように構成されており、
前記第1帯域利得および前記音声活動検出値は、前記複数のビン特徴および前記基本周波数に基づく、
EEE15ないし18のうちいずれか一項に記載の装置。
〔EEE20〕
前記プロセッサは、前記複数のビン特徴に基づいて複数の帯域特徴を生成するよう当該装置を制御するように構成されており、前記複数の帯域特徴は、メル周波数ケプストラム係数およびバーク周波数ケプストラム係数の一方を使用して生成され、
前記第1帯域利得および前記音声活動検出値は、前記複数の帯域特徴および前記基本周波数に基づく、
EEE19に記載の装置。
Claims (15)
- コンピュータ実装されるオーディオ処理方法であって、当該方法は:
機械学習モデルを使用して、第1帯域利得およびオーディオ信号の音声活動検出値を生成し;
前記第1帯域利得および前記音声活動検出値に基づいて背景ノイズ推定値を生成し;
前記背景ノイズ推定値によって制御されるウィーナー・フィルタを使用して前記オーディオ信号を処理することによって、第2帯域利得を生成し;
前記第1帯域利得と前記第2帯域利得を組み合わせることによって、組み合わされた利得を生成し;
前記組み合わされた利得を使用して前記オーディオ信号を修正することによって、修正されたオーディオ信号を生成することを含む、
方法。 - 前記機械学習モデルが、トレーニング・データの多様性を増すようデータ増強を使用して生成される、請求項1に記載の方法。
- 前記第1帯域利得を生成することは、少なくとも2つの異なる帯域について少なくとも2つの異なる制限を使用して前記第1帯域利得を制限することを含む、請求項1または2に記載の方法。
- 前記背景ノイズ推定値を生成することは、特定の帯域についての閾値を超える、いくつかのノイズ・フレームに基づく、請求項1ないし3のうちいずれか一項に記載の方法。
- 前記第2帯域利得を生成することは、特定の帯域についての定常ノイズ・レベルに基づいて前記ウィーナー・フィルタを使用することを含む、請求項1ないし4のうちいずれか一項に記載の方法。
- 前記第2帯域利得を生成することが、少なくとも2つの異なる帯域について少なくとも2つの異なる制限を使用して前記第2帯域利得を制限することを含む、請求項1ないし5のうちいずれか一項に記載の方法。
- 前記組み合わされた利得を生成することは:
前記第1帯域利得と前記第2帯域利得を乗算し;
少なくとも2つの異なる帯域について少なくとも2つの異なる制限を使用して、前記組み合わされた帯域利得を制限することを含む、
請求項1ないし6のうちいずれか一項に記載の方法。 - 前記修正されたオーディオ信号を生成することは、前記組み合わされた帯域利得を使用して前記オーディオ信号の振幅スペクトルを修正することを含む、請求項1ないし7のうちいずれか一項に記載の方法。
- 入力オーディオ信号に重複窓を適用して複数のフレームを生成することをさらに含み、前記オーディオ信号が該複数のフレームに対応する、請求項1ないし8のうちいずれか一項に記載の方法。
- 前記オーディオ信号に対してスペクトル解析を実行し、前記オーディオ信号の複数のビン特徴および基本周波数を生成することをさらに含み、
前記第1帯域利得および前記音声活動検出値は、前記複数のビン特徴および前記基本周波数に基づく、
請求項1ないし9のうちいずれか一項に記載の方法。 - 前記複数のビン特徴に基づいて複数の帯域特徴を生成し、前記複数の帯域特徴は、メル周波数ケプストラム係数およびバーク周波数ケプストラム係数の一方を使用して生成され、
前記第1帯域利得および前記音声活動検出値は、前記複数の帯域特徴および前記基本周波数に基づく、
請求項10に記載の方法。 - 前記組み合わされた利得は、前記オーディオ信号の複数の帯域に関連する組み合わされた帯域利得であり、当該方法は、さらに:
前記組み合わされた帯域利得を組み合わされたビン利得に変換することを含み、前記組み合わされたビン利得は複数のビンに関連する、
請求項1ないし11のうちいずれか一項に記載の方法。 - プロセッサによって実行されたときに、請求項1ないし12のうちいずれか一項に記載の方法を含む処理を実行するよう装置を制御するコンピュータ・プログラムを記憶している、非一時的なコンピュータ読み取り可能な媒体。
- オーディオ処理のための装置であって、当該装置は:
プロセッサ;および
メモリを有しており、
前記プロセッサは、機械学習モデルを使用して、第1帯域利得およびオーディオ信号の音声活動検出値を生成するよう当該装置を制御するように構成されており;
前記プロセッサは、前記第1帯域利得および前記音声活動検出値に基づいて背景ノイズ推定値を生成するよう当該装置を制御するように構成されており;
前記プロセッサは、前記背景ノイズ推定値によって制御されるウィーナー・フィルタを使用して前記オーディオ信号を処理することによって、第2帯域利得を生成するように当該装置を制御するよう構成されており;
前記プロセッサは、前記第1帯域利得と前記第2帯域利得を組み合わせることによって、組み合わされた利得を生成するよう当該装置を制御するように構成されており;
前記プロセッサは、前記組み合わされた利得を使用して前記オーディオ信号を修正することによって、修正されたオーディオ信号を生成するように当該装置を制御するように構成されている、
装置。 - 前記第1帯域利得および前記第2帯域利得のうちの少なくとも1つを生成するときに、少なくとも1つの制限が適用される、請求項14に記載の装置。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2020106270 | 2020-07-31 | ||
CNPCT/CN2020/106270 | 2020-07-31 | ||
US202063068227P | 2020-08-20 | 2020-08-20 | |
US63/068,227 | 2020-08-20 | ||
US202063110114P | 2020-11-05 | 2020-11-05 | |
US63/110,114 | 2020-11-05 | ||
EP20206921 | 2020-11-11 | ||
EP20206921.7 | 2020-11-11 | ||
PCT/US2021/044166 WO2022026948A1 (en) | 2020-07-31 | 2021-08-02 | Noise reduction using machine learning |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023536104A true JP2023536104A (ja) | 2023-08-23 |
JP7667247B2 JP7667247B2 (ja) | 2025-04-22 |
Family
ID=77367484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023505851A Active JP7667247B2 (ja) | 2020-07-31 | 2021-08-02 | 機械学習を用いたノイズ削減 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230267947A1 (ja) |
EP (2) | EP4383256A3 (ja) |
JP (1) | JP7667247B2 (ja) |
WO (1) | WO2022026948A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11621016B2 (en) * | 2021-07-31 | 2023-04-04 | Zoom Video Communications, Inc. | Intelligent noise suppression for audio signals within a communication platform |
DE102022210839A1 (de) * | 2022-10-14 | 2024-04-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein | Wiener-Filter-basierte Signalwiederherstellung mit gelernter Signal-zu-Rausch-Verhältnis-Abschätzung |
CN117854536B (zh) * | 2024-03-09 | 2024-06-07 | 深圳市龙芯威半导体科技有限公司 | 一种基于多维语音特征组合的rnn降噪方法及系统 |
CN119049494B (zh) * | 2024-10-28 | 2025-03-25 | 中国海洋大学 | 一种基于谐波模型基频同步改进维纳滤波的语音增强方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7464029B2 (en) | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
US8473287B2 (en) * | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US9053697B2 (en) | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
EP3252766B1 (en) | 2016-05-30 | 2021-07-07 | Oticon A/s | An audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal |
CN105513605B (zh) | 2015-12-01 | 2019-07-02 | 南京师范大学 | 手机麦克风的语音增强系统和语音增强方法 |
US10861478B2 (en) | 2016-05-30 | 2020-12-08 | Oticon A/S | Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal |
US10224053B2 (en) | 2017-03-24 | 2019-03-05 | Hyundai Motor Company | Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering |
CN107863099B (zh) | 2017-10-10 | 2021-03-26 | 成都启英泰伦科技有限公司 | 一种新型双麦克风语音检测和增强方法 |
US10546593B2 (en) | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
CN109065067B (zh) | 2018-08-16 | 2022-12-06 | 福建星网智慧科技有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN111192599B (zh) | 2018-11-14 | 2022-11-22 | 中移(杭州)信息技术有限公司 | 一种降噪方法及装置 |
CN109378013B (zh) | 2018-11-19 | 2023-02-03 | 南瑞集团有限公司 | 一种语音降噪方法 |
JP7498560B2 (ja) | 2019-01-07 | 2024-06-12 | シナプティクス インコーポレイテッド | システム及び方法 |
CN110085249B (zh) | 2019-05-09 | 2021-03-16 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
CN110211598A (zh) | 2019-05-17 | 2019-09-06 | 北京华控创为南京信息技术有限公司 | 智能语音降噪通信方法及装置 |
US11227586B2 (en) * | 2019-09-11 | 2022-01-18 | Massachusetts Institute Of Technology | Systems and methods for improving model-based speech enhancement with neural networks |
CN110660407B (zh) | 2019-11-29 | 2020-03-17 | 恒玄科技(北京)有限公司 | 一种音频处理方法及装置 |
EP3866165B1 (en) * | 2020-02-14 | 2022-08-17 | System One Noc & Development Solutions, S.A. | Method for enhancing telephone speech signals based on convolutional neural networks |
-
2021
- 2021-08-02 US US18/007,005 patent/US20230267947A1/en active Pending
- 2021-08-02 EP EP24173039.9A patent/EP4383256A3/en active Pending
- 2021-08-02 JP JP2023505851A patent/JP7667247B2/ja active Active
- 2021-08-02 WO PCT/US2021/044166 patent/WO2022026948A1/en active Application Filing
- 2021-08-02 EP EP21755871.7A patent/EP4189677B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20230267947A1 (en) | 2023-08-24 |
WO2022026948A1 (en) | 2022-02-03 |
EP4189677B1 (en) | 2024-05-01 |
EP4383256A2 (en) | 2024-06-12 |
EP4383256A3 (en) | 2024-06-26 |
JP7667247B2 (ja) | 2025-04-22 |
EP4189677A1 (en) | 2023-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10210883B2 (en) | Signal processing apparatus for enhancing a voice component within a multi-channel audio signal | |
JP7667247B2 (ja) | 機械学習を用いたノイズ削減 | |
CA2732723C (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
CN101802910B (zh) | 利用话音清晰性的语音增强 | |
EP2164066B1 (en) | Noise spectrum tracking in noisy acoustical signals | |
KR101120679B1 (ko) | 이득-제한된 잡음 억제 | |
CN109643554A (zh) | 自适应语音增强方法和电子设备 | |
CN104637491A (zh) | 用于内部mmse计算的基于外部估计的snr的修改器 | |
US9076446B2 (en) | Method and apparatus for robust speaker and speech recognition | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
CN108053834B (zh) | 音频数据处理方法、装置、终端及系统 | |
CN104637490A (zh) | 基于mmse语音概率存在的准确正向snr估计 | |
US10297272B2 (en) | Signal processor | |
JP6361148B2 (ja) | 雑音推定装置、方法及びプログラム | |
Steinmetz et al. | High-fidelity noise reduction with differentiable signal processing | |
CN116057626A (zh) | 使用机器学习的降噪 | |
US20240161762A1 (en) | Full-band audio signal reconstruction enabled by output from a machine learning model | |
Kamaraju et al. | Speech Enhancement Technique Using Eigen Values | |
HK1159300B (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
HK1138422A (en) | Apparatus and method for processing and audio signal for speech enhancement using a feature extraction | |
HK1138422B (en) | Apparatus and method for processing and audio signal for speech enhancement using a feature extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240813 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20241113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250410 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7667247 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |