JP7123134B2 - デコーダにおけるノイズ減衰 - Google Patents
デコーダにおけるノイズ減衰 Download PDFInfo
- Publication number
- JP7123134B2 JP7123134B2 JP2020523364A JP2020523364A JP7123134B2 JP 7123134 B2 JP7123134 B2 JP 7123134B2 JP 2020523364 A JP2020523364 A JP 2020523364A JP 2020523364 A JP2020523364 A JP 2020523364A JP 7123134 B2 JP7123134 B2 JP 7123134B2
- Authority
- JP
- Japan
- Prior art keywords
- bin
- context
- processed
- value
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 126
- 238000013139 quantization Methods 0.000 claims description 97
- 239000011159 matrix material Substances 0.000 claims description 73
- 238000012545 processing Methods 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 38
- 238000001914 filtration Methods 0.000 claims description 34
- 238000009826 distribution Methods 0.000 claims description 27
- 230000005236 sound signal Effects 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 4
- 230000001143 conditioned effect Effects 0.000 claims 1
- 230000006872 improvement Effects 0.000 description 33
- 230000003595 spectral effect Effects 0.000 description 32
- 238000001228 spectrum Methods 0.000 description 30
- 230000009467 reduction Effects 0.000 description 21
- 238000012360 testing method Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 17
- 238000012549 training Methods 0.000 description 14
- 238000013459 approach Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000012805 post-processing Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000009472 formulation Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000116 mitigating effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 241000238097 Callinectes sapidus Species 0.000 description 1
- 241000665848 Isca Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
Description
ビットストリームから、入力信号のバージョンをフレームのシーケンスとして提供するビットストリームリーダであって、各フレームが複数のビンに細分され、各ビンがサンプル値を有する、ビットストリームリーダと、
処理中の1つのビンのコンテキストを定義するように構成されたコンテキスト定義器であって、コンテキストが、処理中のビンとあらかじめ定められた位置関係にある少なくとも1つの追加のビンを含む、コンテキスト定義器と、
処理中のビンと少なくとも1つの追加のビンとの間の統計的関係および/または情報、ならびに/またはそれらに関する情報を提供するように構成された統計的関係および/または情報推定器であって、統計的関係推定器が、量子化ノイズに関する統計的関係および/または情報を提供するように構成された量子化ノイズ関係および/または情報推定器を含む、統計的関係および/または情報推定器と、
推定された統計的関係および/または情報、ならびに統計的関係および/または量子化ノイズに関する情報に基づいて、処理中のビンの値の推定値を処理および取得するように構成された値推定器と、
推定信号を時間領域信号に変換するトランスフォーマとを備える、デコーダが提供される。
ビットストリームから、入力信号のバージョンをフレームのシーケンスとして提供するビットストリームリーダであって、各フレームが複数のビンに細分され、各ビンがサンプル値を有する、ビットストリームリーダと、
処理中の1つのビンのコンテキストを定義するように構成されたコンテキスト定義器であって、コンテキストが、処理中のビンとあらかじめ定められた位置関係にある少なくとも1つの追加のビンを含む、コンテキスト定義器と、
処理中のビンと少なくとも1つの追加のビンとの間の統計的関係および/または情報、ならびに/またはそれらに関する情報を提供するように構成された統計的関係および/または情報推定器であって、統計的関係推定器が、ノイズに関する統計的関係および/または情報を提供するように構成されたノイズ関係および/または情報推定器を含む、統計的関係および/または情報推定器と、
推定された統計的関係および/または情報、ならびに統計的関係および/またはノイズに関する情報に基づいて、処理中のビンの値の推定値を処理および取得するように構成された値推定器と、
推定信号を時間領域信号に変換するトランスフォーマとを備える、デコーダが開示される。
値推定器は、測定値に基づいて、処理中のビンの値の推定値を取得するように構成される。
コンテキスト定義器は、少なくとも1つの以前に処理されたビンを追加のビンのうちの少なくとも1つとして使用してコンテキストを定義するように構成される。
統計的関係および/または情報推定器は、入力信号のハーモニックに関連付けられるメトリックに基づいて、複数のあらかじめ定義された行列から1つの行列を選択するように構成される。
統計的関係および/または情報推定器は、入力信号のハーモニックに関連付けられるメトリックに基づいて、複数のあらかじめ定義された行列から1つの行列を選択するように構成される。
入力信号の処理中の1つのビンのコンテキストを定義するステップであって、コンテキストが、周波数/時間空間において、処理中のビンとあらかじめ定められた位置関係にある少なくとも1つの追加のビンを含む、ステップと、
処理中のビンと少なくとも1つの追加のビンとの間の統計的関係および/または情報、ならびに/またはそれらに関する情報に基づいて、ならびに量子化ノイズに関する統計的関係および/または情報に基づいて、処理中のビンの値を推定するステップと
を有する方法が提供される。
入力信号の処理中の1つのビンのコンテキストを定義するステップであって、コンテキストが、周波数/時間空間において、処理中のビンとあらかじめ定められた位置関係にある少なくとも1つの追加のビンを含む、ステップと、
処理中のビンと少なくとも1つの追加のビンとの間の統計的関係および/または情報、ならびに/またはそれらに関する情報に基づいて、ならびに量子化ノイズではないノイズに関する統計的関係および/または情報に基づいて、処理中のビンの値を推定するステップと
を有する方法が提供される。
4.1.1.例
図1.1は、デコーダ110の例を示している。図1.2は、デコーダ110によって処理される信号バージョン120の表現を示している。
Y(k,t)=X(k,t)+V(k,t)
に関して表現されていると理解され得、X(k,t)はクリーンな信号(取得されることが望ましい)であり、V(k,t)は量子化ノイズ信号(または、他のタイプのノイズ信号)である。本明細書で説明される技法を用いて、クリーンな信号の適切で最適な推定値に到達することが可能である点に留意されたい。
- 第1のクラスの未処理のビン126(図1.2では破線の円で示されている)、たとえば、将来の反復において処理されるビン
- 第2のクラスのすでに処理されたビン124、125(図1.2では四角で示されている)、たとえば、以前の反復において処理されたビン。
- コンテキスト114'の第1の追加のビンC1は、帯域k=3の瞬間t-1=3のビンである、
- コンテキスト114'の第2の追加のビンC2は、帯域k-1=2の瞬間t=4のビンである、
- コンテキスト114'の第3の追加のビンC3は、帯域k-1=2の瞬間t-1=3のビンである、
- コンテキスト114'の第4の追加のビンC4は、帯域k+1=4の瞬間t-1=3のビンである、
- 以下同様である。(本明細書の後続の部分において、コンテキストの「追加のビン」124を示すために、「コンテキストビン」が使用され得る。)
このセクションにおける、およびそのサブセクションにおける例は、主に音声およびオーディオコーディングの複雑なスペクトル相関を使用したポストフィルタリングするための技法に関する。
音声信号を効率的に送信および記憶するために圧縮する処理である音声コーディングは、音声処理技術において不可欠なコンポーネントである。音声コーディングは、音声信号の送信、記憶、またはレンダリングに関わるほとんどすべてのデバイスにおいて使用されている。標準の音声コーデックは、目標ビットレートの周りで透過的なパフォーマンスを実現するが、コーデックのパフォーマンスは、目標ビットレート範囲外の効率と複雑さの点で影響を受ける[5]。
低ビットレートにおいては、従来のエントロピコーディング方法ではまばらな信号が生成され、ミュージカルノイズとして知られる知覚的なアーチファクトを引き起こすことがしばしばある。このようなスペクトルホールからの情報は、利得をほとんど修正するため、ウィナーフィルタリングなどの従来の手法によって回復することができない。さらに、音声処理において使用される一般的なノイズ低減技法は、音声とノイズの特性をモデル化し、それらを区別することによって低減を実行する。しかしながら、低いビットレートでは、量子化ノイズは基になる音声信号と高度に相関しているため、それらを区別することは困難になる。図2.2~図2.3はこれらの問題を示しており、図2.2(a)は非常にまばらな復号された信号の分布を示し、図2.2(b)は白色ガウス入力シーケンスの量子化ノイズの分布を示している。図2.3(i)および図2.3(ii)は、真の音声のスペクトログラムと、低いビットレートにおいてシミュレートされた復号された音声をそれぞれ示している。
Yk,t=Xk,t=Vk,t (2.1)
であり、上式で、Y、X、およびVは、それぞれノイズの多いクリーンな音声信号およびノイズ信号の複素数値の短時間周波数領域値である。kは、時間フレームtにおける周波数ビンを示す。さらに、XとVはゼロ平均ガウス確率変数であると仮定する。私たちの目的は、観測Yk,tからXk,tを推定することと、以前に推定された
提案された方法は、客観的テストと主観的テストの両方を使用して評価された。人間の知覚に近似しており、一般的な音声コーデックにおいてすでに利用可能であるため、知覚SNR(pSNR)[3、5]を客観的な尺度として使用した。主観的評価として、MUSHRAリスニングテストを実施した。
システム構造が図2.4に示される(例では、3GPP EVS [3]におけるTCXモードと同様であり得る)。第1に、周波数領域(242')における信号に変換するために、STFTを入力音声信号240'に適用する(ブロック241)。本明細書では、標準MDCTの代わりにSTFTを使用し得、結果を音声強調アプリケーションに簡単に転送することができる。非公式の実験により、変換の選択によって結果に予期しない問題が発生しないことが確認されている[8、5]。
実験的なセットアップ:処理はトレーニング段階とテスト段階に分割される。トレーニング段階において、音声データからコンテキストサイズL∈{1,2..14}の静的正規化音声共分散を推定する。トレーニングでは、TIMITデータベースのトレーニングセットから50個のランダムサンプルを選択した[20]。すべての信号は12.8kHzにリサンプリングされ、50%の重複があるサイズ20ミリ秒のフレームにサインウィンドウが適用される。次いで、ウィンドウ処理された信号が周波数領域に変換される。強化は知覚領域において適用されるため、知覚領域における音声もモデル化する。知覚領域におけるビンサンプルごとに、セクション4.1.2.2で説明されているように、コンテキストの近傍が行列に構成され、共分散が計算される。同様に、知覚的に重み付けされたガウスノイズを使用してノイズモデルを取得する。
提案された方法の品質を主観的なMUSHRAリスニングテストで評価した[16]。テストは6つの項目で構成され、各項目は8つのテスト条件で構成されている。20歳から43歳までの、専門家と非専門家の両方のリスナが参加した。しかしながら、90MUSHRAポイントを超える非表示の参照をスコアした参加者の評価のみが選択されたため、この評価にスコアが含まれたリスナは15人になった。
音声とオーディオのコーディングにおいて量子化ノイズを減衰させるための時間周波数ベースのフィルタリング方法であって、相関が統計的にモデル化され、デコーダにおいて使用さる方法を提案する。したがって、本方法は、追加の時間情報の送信を必要としないため、送信損失によるエラー伝播の可能性を排除する。コンテキスト情報を組み込むことによって、最良のケースでは6dB、一般的なアプリケーションでは2dBのpSNRの改善が見られ、主観的に、10から30のMUSHRAポイントの改善が観測される。
[1] Y. Huang and J. Benesty,"A multi-frame approach to the frequency-domain single-channel noise reduction problem",IEEE Transactions on Audio, Speech, and Language Processing,vol. 20,no. 4,pp. 1256-1269,2012
[2] T. Backstrom, F. Ghido, and J. Fischer,"Blind recovery of perceptual models in distributed speech and audio coding",in Interspeech,ISCA,2016,pp. 2483-2487
[3] "EVS codec detailed algorithmic description; 3GPP technical specification",http://www.3gpp.org/DynaReport/26445.htm
[4] T. Baeckstroem,"Estimation of the probability distribution of spectral fine structure in the speech source",in Interspeech,2017
[5] Speech Coding with Code-Excited Linear Prediction,Springer,2017
[6] T. Baeckstroem, J. Fischer, and S. Das,"Dithered quantization for frequency-domain speech and audio coding",in Interspeech,2018
[7] T. Baeckstroem and J. Fischer,"Coding of parametric models with randomized quantization in a distributed speech and audio codec",in Proceedings of the 12. ITG Symposium on Speech Communication,VDE,2016,pp. 1-5
[8] J. Benesty, M. M. Sondhi, and Y. Huang,Springer handbook of speech processing,Springer Science & Business Media,2007
[9] J. Benesty and Y. Huang,"A single-channel noise reduction MVDR filter",in ICASSP,IEEE,2011,pp. 273-276
[10] S. Das and T. Baeckstroem,"Postfiltering using log-magnitude spectrum for speech and audio coding",in Interspeech,2018
[11] R. W. Floyd and L. Steinber,"An adaptive algorithm for spatial gray-scale",in Proc. Soc. Inf. Disp.,vol. 17,1976,pp. 75-77
[12] G. Fuchs, V. Subbaraman, and M. Multrus,"Efficient context adaptive entropy coding for real-time applications",in ICASSP,IEEE,2011,pp. 493-496
[13] H. Huang, L. Zhao, J. Chen, and J. Benesty,"A minimum variance distortionless response filter based on the bifrequency spectrum for single-channel noise reduction",Digital Signal Processing,vol. 33,pp. 169-179,2014
[14] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach et al.,"A novel scheme for low bitrate unified speech and audio coding-MPEG RM0",in Audio Engineering Society Convention 126,Audio Engineering Society,2009
[15] --,"Unified speech and audio coding scheme for high quality at low bitrates",in ICASSP,IEEE,2009,pp. 1-4
[16] M. Schoeffler, F. R. Stoeter, B. Edler, and J. Herre,"Towards the next generation of web-based experiments: a case study assessing basic audio quality following the ITU-R recommendation BS. 1534 (MUSHRA)",in 1st Web Audio Conference,Citeseer,2015
[17] Y. Soon and S. N. Koh,"Speech enhancement using 2-D Fourier transform",IEEE Transactions on speech and audio processing,vol. 11,no. 6,pp. 717-724,2003
[18] T. Baeckstroem and J. Fischer,"Fast randomization for distributed low-bitrate coding of speech and audio",IEEE/ACM Trans. Audio, Speech, Lang. Process.,2017
[19] J. M. Valin, G. Maxwell, T. B. Terriberry, and K. Vos,"High-quality, low-delay music coding in the OPUS codec",in Audio Engineering Society Convention 135,Audio Engineering Society,2013
[20] V. Zue, S. Seneff, and J. Glass,"Speech database development at MIT: TIMIT and beyond",Speech Communication,vol. 9,no. 4,pp. 351-356,1990
このセクションとサブセクションにおける例は、主に音声およびオーディオコーディングのための対数振幅スペクトルを使用したポストフィルタリングのための技法を参照する。
音声およびオーディオコーデックは、ほとんどのオーディオ処理アプリケーションに不可欠な部分であり、最近、MPEG USAC[18、16]、および3GPP EVS[13]などのコーディング標準に急速な発展が見られる。これらの標準は、オーディオと音声のコーディングの統合に向けて動き、スーパーワイド帯域とフル帯域の音声信号のコーディングを可能にし、ボイスオーバIPのサポートを追加した。これらのコーデック内のコアコーディングアルゴリズムであるACELPおよびTCXは、目標ビットレート範囲内の中程度から高いビットレートで、知覚的に透過的な品質を実現する。しかしながら、コーデックがこの範囲外で動作すると、パフォーマンスが低下する。具体的には、周波数領域における低ビットレートコーディングの場合、パフォーマンスの低下は、符号化に使用できるビットが少なくなるためであり、これにより、エネルギーの低い領域はゼロに量子化される。復号された信号におけるそのようなスペクトルホールは、知覚的に歪められ、こもった特性を信号に与え、これはリスナにとって煩わしい場合がある。
フォルマントは音声における言語内容の基本的な指標であり、音声のスペクトル振幅エンベロープによって表されるため、振幅スペクトルはソースモデル化の重要な部分である[10、21]。以前の研究では、音声の周波数係数はラプラシアンまたはガンマ分布によって最もよく表されることが示されている[1、4、2、3]。したがって、図3.2aに示されるように、音声の振幅スペクトルは指数分布である。この図は、分布が低い振幅値に集中していることを示している。数値の精度の問題のため、これをモデルとして使用することは困難である。さらに、一般的な数学的演算を使用するだけでは、推定値が正であることを確実にすることは困難である。スペクトルを対数振幅領域に変換することによって、この問題に対処する。対数は非線形であるため、指数分布振幅の分布が、対数表現における正規分布に類似するように、等級軸を再分布する(図3.2b)。これにより、ガウス確率密度関数(pdf)を使用して対数振幅スペクトルの分布を近似できるようになる。
- コンテキストを定義するためのルール(たとえば、周波数帯域kに基づいて)、および/または、
- 処理中のビンとコンテキストを形成する少なくとも1つの追加のビンに関する情報、および/またはそれらの間の統計的関係および/または情報115'を生成するために、推定器115によって使用される音声のモデル(たとえば、正規化された共分散行列ΛXに使用される値)、ならびに/あるいは、
- ノイズの統計的関係および/または情報(たとえば、行列Λnを定義するために使用される値)を生成するために推定器119によって使用されるノイズのモデル(たとえば、量子化ノイズ)を備える。
私たちの目的は、統計的事前分布を使用して、ノイズの多い復号された信号の観測値からクリーンな音声信号を推定することである。この目的を達成するために、観測値と以前の推定値を考慮して、現在のサンプルの最尤(ML)として問題を定式化する。サンプルxが量子化レベルQ∈[l,u]に量子化されていると仮定する。次いで、最適化問題を次のように表すことができる。
私たちの目的は、対数振幅スペクトルをモデル化することの利点を評価することである。エンベロープモデルは、従来のコーデックにおいて振幅スペクトルをモデル化するための主要な方法であるため、統計的事前分布の効果を、スペクトル全体とエンベロープのみの両方の観点から評価する。したがって、音声のノイズの多い振幅スペクトルから音声を推定するための提案された方法を評価するだけでなく、ノイズの多いエンベロープの観測からのスペクトルエンベロープの推定についてもテストする。スペクトルエンベロープを取得するために、信号を周波数領域に変換した後、ケプストラムを計算し、20個の低い係数を保持して、周波数領域に変換する。エンベロープモデル化の次のステップは、セクション4.1.3.2および図3.3において提示されたスペクトル振幅モデル化と同じであり、すなわち、コンテキストベクトルおよび共分散推定値を取得する。
システム360の一般的なブロック図が図3.6に示されている。エンコーダ360aにおいて、信号361はフレームに分割される(たとえば、50%の重複およびサインウィンドウを伴う20ミリ秒のもの)。次いで、音声入力361は、ブロック362において、たとえばSTFTを使用して、周波数領域信号362'に変換され得る。ブロック363においてプリプロセスし、ブロック364において信号をスペクトルエンベロープによって知覚的に重み付けした後、符号化された信号366(ビットストリーム111の例であり得る)を取得するために、ブロック365において振幅スペクトルが量子化され、ブロック366において算術コーディング[19]を使用してエントロピコーディングされる。
トレーニングには、TIMITデータベース[22]のトレーニングセットから250個の音声サンプルを使用した。トレーニング処理のブロック図が図3.3に提示される。テストでは、データベースのテストセットから10個の音声サンプルがランダムに選択された。コーデックはTCXモードにおけるEVSコーデック[6]に基づいており、知覚SNR(pSNR)[6、9]がコーデックの標準的な範囲内になるようにコーデックパラメータを選択した。したがって、9.6~128kbpsの12個の異なるビットレートにおいてコーディングをシミュレーションし、これにより、pSNR値が約4~18dBの範囲になる。EVSのTCXモードにはポストフィルタリングが組み込まれていない点に留意されたい。テストケースごとに、コンテキストサイズが∈{1,4,8,10,14,20,40}である復号された信号にポストフィルタを適用する。コンテキストベクトルは、セクション4.1.3.2および図3.1における説明に従って取得される。振幅スペクトルを使用したテストでは、ポストプロセッシングされた信号のpSNRが、ノイズの多い量子化信号のpSNRと比較される。スペクトルエンベロープベースのテストでは、真のエンベロープと推定されたエンベロープとの間の信号対ノイズ比(SNR)が定量的測定として使用される。
図3.4において、10個の音声サンプルの定量的測定の平均がプロットされる。プロット(a)および(b)は、振幅スペクトルを使用した評価結果を表し、プロット(c)および(d)は、スペクトルエンベロープテストに対応する。スペクトルとエンベロープの両方について、コンテキスト情報を組み込むと、SNRの一貫した改善が示される。改善の程度は、プロット(b)および(d)に示されている。振幅スペクトルの場合、改善の範囲は、低い入力pSNRにおいてすべてのコンテキストで1.5~2.2dB、また高い入力pSNRにおいて0.2~1.2dBである。スペクトルエンベロープの場合、傾向は似ており、コンテキストに対する改善は、低い入力SNRでは1.25~2.75dB、高い入力SNRでは0.5~2.25である。約10dBの入力SNRにおいて、改善はすべてのコンテキストサイズでピークに達する。
このセクションでは、量子化ノイズを低減するための、音声に固有のコンテキスト情報の使用を調査した。統計的事前分布を使用して、量子化された信号からデコーダにおいて音声サンプルを推定することに焦点を当てたポストプロセッシング方法を提案する。結果は、音声相関を含めるとpSNRが改善するだけでなく、ノイズフィリングアルゴリズムのスペクトル振幅の推定値も提供されることを示している。本書の焦点はスペクトル振幅のモデル化であったが、現在の洞察と添付の書類[20]からの結果に基づくジョイント振幅フェーズモデル化方法は、次のステップとして自然である。
4.1.3.6.1付録A:切り捨てられたガウスpdf
コンテキストベクトルをx=[x1,x2]Tとして定義し、上式で、
[1] J. Porter and S. Boll,"Optimal estimators for spectral restoration of noisy speech",in ICASSP,vol. 9,Mar 1984,pp. 53-56
[2] C. Breithaupt and R. Martin,"MMSE estimation of magnitude-squared DFT coefficients with superGaussian priors",in ICASSP,vol. 1,April 2003,pp. I-896-I-899 vol. 1
[3] T. H. Dat, K. Takeda, and F. Itakura,"Generalized gamma modeling of speech and its online estimation for speech enhancement",in ICASSP,vol. 4,March 2005,pp. iv/181-iv/184 Vol. 4
[4] R. Martin,"Speech enhancement using MMSE short time spectral estimation with gamma distributed speech priors",in ICASSP,vol. 1,May 2002,pp. I-253-I-256
[5] Y. Huang and J. Benesty,"A multi-frame approach to the frequency-domain single-channel noise reduction problem",IEEE Transactions on Audio, Speech, and Language Processing,vol. 20,no. 4,pp.1256-1269,2012
[6] "EVS codec detailed algorithmic description; 3GPP technical specification",http://www.3gpp.org/DynaReport/26445.htm
[7] T. Baeckstroem and C. R. Helmrich,"Arithmetic coding of speech and audio spectra using TCX based on linear predictive spectral envelopes",in ICASSP,April 2015,pp. 5127-5131
[8] Y. I. Abramovich and O. Besson,"Regularized covariance matrix estimation in complex elliptically symmetric distributions using the expected likelihood approach part 1: The over-sampled case",IEEE Transactions on Signal Processing,vol. 61,no. 23,pp. 5807-5818,2013
[9] T. Baeckstroem,Speech Coding with Code-Excited Linear Prediction,Springer,2017
[10] J. Benesty, M. M. Sondhi, and Y. Huan,Springer handbook of speech precessing,Springer Science & Business Media,2007
[11] J. Benesty and Y. Huang,"A single-channel noise reduction MVDR filter",in ICASSP,IEEE,2011,pp. 273-276
[12] N. Chopin,"Fast simulation of truncated Gaussian distributions",Statistics and Computing,vol. 21,no. 2,pp. 275-288,2011
[13] M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell, H. Pobloth, L. Miao, Z. Wang, L. Laaksonen, A. Vasilache et al.,"Overview of the EVS codec architecture",in ICASSP,IEEE,2015,pp. 5698-5702
[14] H. Huang, L. Zhao, J. Chen, and J. Benesty,"A minimum variance distortionless response filter based on the bifrequency spectrum for single-channel noise reduction",Digital Signal Processing,vol. 33,pp.169-179,2014
[15] S. Korse, G. Fuchs, and T. Baeckstroem,"GMM-based iterative entropy coding for spectral envelopes of speech and audio",in ICASSP,IEEE,2018
[16] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach et al.,"A novel scheme for low bitrate unified speech and audio coding-MPEG RM0",in Audio Engineering Society Convention 126,Audio Engineering Society,2009
[17] E. T. Northardt, I. Bilik, and Y. I. Abramovich,"Spatial compressive sensing for direction-of-arrival estimation with bias mitigation via expected likelihood",IEEE Transactions on Signal Processing,vol. 61,no. 5,pp. 1183-1195,2013
[18] S. Quackenbush,"MPEG unified speech and audio coding",IEEE MultiMedia,vol. 20,no. 2,pp. 72-78,2013
[19] J. Rissanen and G. G. Langdon,"Arithmetic coding",IBM Journal of Research and Development,vol. 23,no. 2,pp. 149-162,1979
[20] S. Das and T. Baeckstroem,"Postfiltering with complex spectral correlations for speech and audio coding",in Interspeech,2018
[21] T. Barker,"Non-negative factorisation techniques for sound source separation",Ph.D. dissertation,Tampere University of Technology,2017
[22] V. Zue, S. Seneff, and J. Glass,"Speech database development at MIT: TIMIT and beyond",Speech Communication,vol. 9,no. 4,pp. 351-356,1990
4.1.4.1システム構造
提案された方法は、ノイズを低減するために、時間-周波数領域においてフィルタリングを適用する。特に音声およびオーディオコーデックの量子化ノイズの減衰用に設計されているが、あらゆるノイズ低減タスクに適用可能である。図1にシステム構造を示す。
1.パフォーマンスを維持しながら複雑さを低減するために、フィルタリングは各時間-周波数ビンのすぐ近傍にのみ適用される。この近傍は、本明細書ではビンのコンテキストと呼ばれる。
2.利用可能な場合、コンテキストはクリーンな信号の推定を含むという意味で、フィルタリングは再帰的である。言い換えると、各時間-周波数ビンに対して反復においてノイズ減衰を適用すると、すでに処理されたビンが次の反復にフィードバックされる(図2を参照)。これにより、自己回帰フィルタリングと同様のフィードバックループが作成される。利点は2つある。
3.以前に推定されたサンプルは現在のサンプルとは異なるコンテキストを使用するため、現在のサンプルの推定においてより大きなコンテキストを効果的に使用している。より多くのデータを使用することによって、より良い品質を得ることができる。
4.以前に推定されたサンプルは、通常、完全な推定値ではなく、つまり、推定値には多少のエラーがある。以前に推定されたサンプルをクリーンなサンプルのように扱うことによって、現在のサンプルを以前に推定されたサンプルと同様のエラーに偏らせている。これは実際のエラーを増加させる可能性があるが、エラーはソースモデルにより良く適合し、すなわち、信号は目的の信号の統計により類似している。言い換えると、音声信号の場合、たとえ絶対エラーが必ずしも最小化されていなくても、フィルタリングされた音声は音声によく似ている。
5.コンテキストのエネルギーは、時間と周波数の両方で大きな変動を有するが、量子化精度が一定であると仮定すると、量子化ノイズエネルギーは事実上一定である。最適フィルタは共分散推定に基づいているため、現在のコンテキストがたまたま有しているエネルギーの量は、共分散に、したがって最適フィルタに大きな影響を与える。そのようなエネルギーにおける変動を考慮に入れるために、処理の一部において正規化を適用する必要がある。現在の実装形態では、コンテキストのノルムで処理する前に、目的のソースの共分散を入力コンテキストと一致するように正規化する(図4.3を参照)。フレームワーク全体の要件に応じて、正規化の他の実装形態も容易に可能である。
6.現在の研究では、最適なフィルタを導出するためのよく知られており、理解されている方法であるため、ウィナーフィルタリングを使用した。当業者が、最小分散歪みなし応答(MVDR)最適化基準などの、彼が選択した他の任意のフィルタ設計を選択できることは明らかである。
4.4.4.2.1従来のコーディング手法
提案された方法の中心的な新規性は、音声信号の統計的な特性を時間-周波数表現において経時的に考慮に入れることである。3GPP EVSなどの従来の通信コーデックは、現在のフレーム内の周波数でのみエントロピコーダおよびソースモデル化において信号の統計を使用する[1]。MPEG USACなどのブロードキャストコーデックは、それらのエントロピコーダにおいて、いくつかの時間-周波数情報をやはり経時的に使用するが、その使用範囲は限られている[2]。
1.従来のコーデック設計を使用した中および高ビットレートにおいて、ならびに、
2.ランダム化された量子化を使用する場合の低ビットレートにおいて。
比較的最近になって、ノイズ減衰アプリケーションは、時間-周波数領域において統計情報を経時的に組み込むことから大きな恩恵を受けることが示された。具体的には、Benesty他は、バックグラウンドノイズを低減するために、時間-周波数領域においてMVDRなどの従来の最適フィルタを適用した[6、7]。提案された方法の主なアプリケーションは量子化ノイズの減衰であるが、Benestyが行うように一般的なノイズ減衰問題にも当然適用することができる。しかしながら、現在のビンとの相関が最も高い時間-周波数ビンをコンテキストに明示的に選択した点が異なる。違いは、Benestyは経時的にフィルタリングを適用するだけで、隣接する周波数は適用しないことである。時間-周波数ビンからより自由に選択することによって、最小のコンテキストサイズで品質が最も改善する周波数ビンを選択できるため、計算の複雑さが低減される。
提案された方法から自然に続く多くの自然な拡張があり、上および下に開示された態様および例に適用され得る。
1.上記では、コンテキストは、ノイズの多い現在のサンプルと、クリーンな信号の過去の推定のみを含む。しかしながら、コンテキストは、まだ処理されていない時間-周波数近傍も含むことができる。すなわち、最も有用な近傍を含むコンテキストを使用でき、可能な場合は推定されたクリーンなサンプルを使用するが、それ以外の場合はノイズの多いサンプルを使用する。次いで、ノイズの多い近傍は、当然、現在のサンプルと同様のノイズの共分散を有する。
2.クリーンな信号の推定値は当然完全ではなく、多少のエラーも含まれるが、上記では、過去の信号の推定値にはエラーがないと仮定している。品質を改善させるために、過去の信号についても残留ノイズの推定値を含めることができる。
3.現在の研究は量子化ノイズの減衰に焦点を当てているが、明らかに、バックグラウンドノイズも含めることができる。その場合、最小化プロセスに適切なノイズ共分散を含めるだけで済む[8]。
4.本方法は、本明細書では単一チャネル信号にのみ適用されて提示されたが、従来の方法を使用して、それをマルチチャネル信号に拡張できることは明らかである[8]。
5.現在の実装形態では、オフラインで推定される共分散を使用しており、所望のソース共分散のスケーリングのみが信号に適用される。信号に関するさらなる情報がある場合、適応共分散モデルが役立つことは明らかである。たとえば、音声信号の発声量の指標、または高調波対雑音比(HNR)の推定値がある場合、発声またはHNRにそれぞれ一致するように所望のソース共分散を適応させることができる。同様に、量子化器のタイプまたはモードがフレームごとに変わる場合、量子化ノイズの共分散を適応させるためにそれを使用することができる。共分散が観測された信号の統計と一致することを確認することによって、明らかに所望の信号のより良い推定値が得られる。
6.現在の実装形態におけるコンテキストは、時間-周波数グリッドにおける最も近い近傍から選択される。しかしながら、これらのサンプルのみを使用することに制限はない。利用可能な任意の有用な情報を自由に選択することができる。たとえば、調和信号の櫛形構造に対応するコンテキスト内にサンプルを選択するために、信号の調和構造に関する情報を使用することができる。さらに、エンベロープモデルにアクセスできる場合、[9]と同様に、スペクトル周波数ビンの統計を推定するためにそれを使用することができる。一般化すると、クリーンな信号の推定値を改善するために、現在のサンプルと相関している任意の利用可能な情報を使用することができる。
[1] 3GPP,TS 26.445,EVS Codec Detailed Algorithmic Description,3GPP Technical Specification (Release 12),2014
[2] ISO/IEC 23003-3:2012,"MPEG-D (MPEG audio technology),Part 3: Unified speech and audio coding",2012
[3] T Baeckstroem, F Ghido, and J Fischer,"Blind recovery of perceptual models in distributed speech and audio coding",in Proc. Interspeech,2016,pp. 2483-2487
[4] T Baeckstroem and J Fischer,"Fast randomization for distributed low-bitrate coding of speech and audio",accepted to IEEE/ACM Trans. Audio, Speech, Lang. Process.,2017
[5] R. Mudumbai, G. Barriac, and U. Madhow,"On the feasibility of distributed beamforming in wireless networks",Wireless Communications,IEEE Transactions on,vol. 6,no. 5,pp. 1754-1763,2007
[6] Y.A. Huang and J. Benesty,"A multi-frame approach to the frequency-domain single-channel noise reduction problem",IEEE Transactions on Audio, Speech, and Language Processing,vol. 20,no. 4,pp. 1256-1269,2012
[7] J. Benesty and Y. Huang,"A single-channel noise reduction MVDR filter",in ICASSP,IEEE,2011,pp. 273-276
[8] J Benesty, M Sondhi, and Y Huang,Springer Handbook of Speech Processing,Springer,2008
[9] T Baeckstroem and C R Helmrich,"Arithmetic coding of speech and audio spectra using TCX based on linear predictive spectral envelopes",in Proc. ICASSP,Apr. 2015,pp. 5127-5131
4.1.5.1追加の仕様およびさらなる詳細
上記の例では、ビットストリーム111において符号化されたフレーム間情報は必要ない。したがって、例では、コンテキスト定義器114、統計的関係および/または情報推定器115、量子化ノイズ関係および/または情報推定器119、ならびに値推定器116のうちの少なくとも1つが、デコーダにおいてフレーム間情報を利用し、したがって、パケットまたはビット損失の場合のペイロードとエラー伝播のリスクを低減する。
- 低ビットレートモードであって、上記の技法が使用される、および
- 高ビットレートモードであって、提案されたポストフィルタリングがバイパスされる。
図5.1は、いくつかの例においてデコーダ110によって実装され得る例510を示す。ビットレートに関して決定511が実行される。ビットレートがあらかじめ定められたしきい値を下回る場合、512において、上記のコンテキストベースのフィルタリングが実行される。ビットレートが所定のしきい値を超える場合、513において、コンテキストベースのフィルタリングがスキップされる。
上記で開示された機器の動作は、本開示による方法であり得る。
- 入力信号の処理中の1つのビン(たとえば、123)のコンテキスト(たとえば、114')が定義され、コンテキスト(たとえば、114')が、周波数/時間空間において、処理中のビン(たとえば123)とあらかじめ定められた位置関係にある少なくとも1つの追加のビン(たとえば118'、124)を含む、第1のステップ521(たとえば、コンテキスト定義器114によって実行される)、
- 処理中のビン(たとえば、123)と少なくとも1つの追加のビン(たとえば、118'、124)との間の統計的関係および/または情報(たとえば、115')、ならびに/あるいはそれらに関する情報に基づいて、ならびにノイズ(たとえば、量子化ノイズおよび/または他の種類のノイズ)に関する統計的関係および/または情報(たとえば、119')に基づいて、処理中のビン(たとえば、123)の値(たとえば、116')を推定する、第2のステップ522(たとえば、コンポーネント115、119、116のうちの少なくとも1つによって実行される)。
図5.3に示されるように、上記で開示された機器(たとえば、113、114、116、118、115、117、119など)および方法の動作は、プロセッサベースのシステム530によって実装され得る。後者は、プロセッサ532によって実行されると、ノイズを低減するように動作し得る非一時的ストレージユニット534を備え得る。入力/出力(I/O)ポート536が示されており、これは、たとえば受信アンテナおよび/またはストレージユニット(たとえば、入力信号111が記憶されている)から、データ(入力信号111など)をプロセッサ532に提供し得る。
図5.4は、エンコーダ542およびデコーダ130(または、上記の別のエンコーダ)を備えるシステム540を示している。エンコーダ542は、たとえばワイヤレス(たとえば、無線周波数および/または超音波および/または光通信)で、またはビットストリーム111をストレージサポートに記憶することによって、符号化された入力信号を伴うビットストリーム111を提供するように構成される。
一般に、例は、プログラム命令を有するコンピュータプログラム製品として実装されてもよく、プログラム命令は、コンピュータプログラム製品がコンピュータ上で実行されるときに方法のうちの1つを実行するように動作する。プログラム命令は、たとえば、機械可読媒体に記憶され得る。
111 ビットストリーム
112 強化されたTD出力信号
113 ビットストリームリーダ
113' 元の入力信号のバージョン
114 コンテキスト定義器
114' コンテキスト
115 統計的関係および/または情報推定器
115' 期待される関係
115' 推定された統計的関係および/または情報
116 値推定器
116' 推定値、推定信号
117 FD-TD変換器
118 コンテキストビン
118 処理されたビン記憶ユニット
118' 追加のビン
119 量子化ノイズ関係および/または情報推定器
120 信号バージョン
121 フレーム
122 帯域
123 ビン
124 コンテキストビン
124 すでに処理されたビン
125 すでに処理されたビン
126 未処理のビン
130 デコーダ
131 測定器
132 スケーラ
132' スケーリングされた行列
133 加算器
135' 値
136 乗算器
530 プロセッサベースのシステム
532 プロセッサ
534 非一時的ストレージユニット
540 システム
542 エンコーダ
Claims (43)
- ビットストリーム(111)において定義された周波数領域入力信号を復号するためのデコーダ(110)であって、前記周波数領域入力信号がノイズにさらされ、前記デコーダ(110)が、
前記ビットストリーム(111)から、前記周波数領域入力信号のバージョン(113',120)をフレーム(121)のシーケンスとして提供するビットストリームリーダ(113)であって、各フレーム(121)が複数のビン(123~126)に細分され、各ビンがサンプル値を有する、ビットストリームリーダ(113)と、
処理中の1つのビン(123)のコンテキスト(114')を定義するように構成されたコンテキスト定義器(114)であって、前記コンテキスト(114')が、処理中の前記ビン(123)とあらかじめ定められた位置関係にある少なくとも1つの追加のビン(118',124)を含む、コンテキスト定義器(114)と、
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)との間の統計的関係(115')、および
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)とに関する情報
を提供するように構成された統計的関係および情報推定器(115)であって、前記統計的関係(115')が、共分散または相関の形態で提供され、前記情報が、分散または自己相関の形態で提供され、前記統計的関係および情報推定器(115)が、ノイズに関する統計的関係および情報(119')を提供するように構成されたノイズ関係および情報推定器(119)を含み、前記ノイズに関する統計的関係および情報(119')が、処理中の前記ビン(123)および前記少なくとも1つの追加のビン(118',124)のノイズ信号間の関係を推定するノイズ行列(ΛN)を含む、統計的関係および情報推定器(115)と、
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)との間の推定された前記統計的関係(115')、および処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)とに関する推定された前記情報、ならびに前記ノイズに関する統計的関係および情報(119')に基づいて、処理中の前記ビン(123)の値の推定値(116')を取得するように構成された値推定器(116)と、
前記推定値(116')を時間領域信号(112)に変換するトランスフォーマ(117)と
を備える、デコーダ。 - 前記ノイズが量子化ノイズである、請求項1に記載のデコーダ。
- 前記ノイズが、量子化ノイズではないノイズである、請求項1に記載のデコーダ。
- 前記コンテキスト定義器(114)が、以前に処理されたビン(124,125)の中から前記少なくとも1つの追加のビン(118',124)を選択するように構成される、請求項1から3のいずれか一項に記載のデコーダ。
- 前記コンテキスト定義器(114)が、前記ビンの帯域(122)に基づいて前記少なくとも1つの追加のビン(118',124)を選択するように構成される、請求項1から4のいずれか一項に記載のデコーダ。
- 前記コンテキスト定義器(114)が、すでに処理されたビンの中から、あらかじめ定められた位置しきい値内で前記少なくとも1つの追加のビン(118',124)を選択するように構成される、請求項1から5のいずれか一項に記載のデコーダ。
- 前記コンテキスト定義器(114)が、異なる帯域のビンに異なるコンテキストを選択するように構成される、請求項1から6のいずれか一項に記載のデコーダ。
- 前記値推定器(116)が、前記周波数領域入力信号の最適推定値を提供するウィナーフィルタとして動作するように構成される、請求項1から7のいずれか一項に記載のデコーダ。
- 前記値推定器(116)が、処理中の前記ビン(123)の前記値の前記推定値(116')を、前記少なくとも1つの追加のビン(118',124)の少なくとも1つのサンプル値から取得するように構成される、請求項1から8のいずれか一項に記載のデコーダ。
- 前記コンテキスト(114')の前記少なくとも1つの追加のビン(118',124)の以前に実行された推定(116')に関連付けられる測定値(131')を提供するように構成された測定器(131)をさらに備え、
前記値推定器(116)が、前記測定値(131')に基づいて、処理中の前記ビン(123)の前記値の推定値(116')を取得するように構成される、請求項1から9のいずれか一項に記載のデコーダ。 - 前記測定値(131')が、前記コンテキスト(114')の前記少なくとも1つの追加のビン(118',124)のエネルギーに関連付けられる値である、請求項10に記載のデコーダ。
- 前記測定値(131')が、前記コンテキスト(114')の前記少なくとも1つの追加のビン(118',124)に関連付けられる利得(γ)である、請求項10または11に記載のデコーダ。
- 前記測定器(131)が、ベクトルのスカラ積として前記利得(γ)を取得するように構成され、第1のベクトルが前記コンテキスト(114')の前記少なくとも1つの追加のビン(118',124)の値を含み、第2のベクトルが前記第1のベクトルの転置共役である、請求項12に記載のデコーダ。
- 前記統計的関係および情報推定器(115)が、前記統計的関係および情報(115')を、処理中の前記ビン(123)と前記コンテキスト(114')の前記少なくとも1つの追加のビン(118',124)との間のあらかじめ定義された推定値または期待される統計的関係として提供するように構成される、請求項1から13のいずれか一項に記載のデコーダ。
- 前記サンプル値が知覚領域にある、請求項1から14のいずれか一項に記載のデコーダ。
- 前記統計的関係および情報推定器(115)が、処理中の前記ビン(123)の前記値または前記コンテキスト(114')の前記少なくとも1つの追加のビン(118',124)に関係なく、前記統計的関係および情報(115')を提供するように構成される、請求項1から15のいずれか一項に記載のデコーダ。
- 前記統計的関係および情報推定器(115)が、前記統計的関係および情報(115')を、処理中の前記ビン(123)と前記コンテキスト(114')の前記少なくとも1つの追加のビン(118',124)との間の分散および共分散値、または相関および自己相関値の関係を確立する行列の形態で提供するように構成される、請求項1から16のいずれか一項に記載のデコーダ。
- 前記統計的関係および情報推定器(115)が、前記統計的関係および情報(115')を、処理中の前記ビン(123)と前記コンテキスト(114')の前記少なくとも1つの追加のビン(118',124)との間の分散および共分散値、または相関および自己相関値の関係を確立する正規化された行列の形態で提供するように構成される、請求項1から17のいずれか一項に記載のデコーダ。
- 前記値推定器(116)が、処理中の前記ビン(123)および前記コンテキスト(114')の前記少なくとも1つの追加のビン(118',124)のエネルギーおよび利得の変動を考慮に入れるために、エネルギー関連または利得値(131')によって前記行列の要素をスケーリング(132)するように構成される、請求項17または18に記載のデコーダ。
- 処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)との間の前記統計的関係(115')および処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)とに関する情報が、正規化された共分散行列
前記ノイズに関する統計的関係および情報(119')が、ノイズ行列
ノイズ観測ベクトル
前記値推定器(116)が、関係
- ビットストリーム(111)において定義された周波数領域入力信号を復号するためのデコーダ(110)であって、前記周波数領域入力信号がノイズにさらされ、前記デコーダ(110)が、
前記ビットストリーム(111)から、前記周波数領域入力信号のバージョン(113',120)をフレーム(121)のシーケンスとして提供するビットストリームリーダ(113)であって、各フレーム(121)が複数のビン(123~126)に細分され、各ビンがサンプル値を有する、ビットストリームリーダ(113)と、
処理中の1つのビン(123)のコンテキスト(114')を定義するように構成されたコンテキスト定義器(114)であって、前記コンテキスト(114')が、処理中の前記ビン(123)とあらかじめ定められた位置関係にある少なくとも1つの追加のビン(118',124)を含む、コンテキスト定義器(114)と、
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)との間の統計的関係(115')、および
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)とに関する情報
を値推定器(116)に提供するように構成された統計的関係および情報推定器(115)であって、前記統計的関係および情報が、処理中の前記ビン(123)と前記コンテキスト(114')の前記少なくとも1つの追加のビン(118',124)との間の分散関連および共分散関連の関係に基づく分散関連および/または標準偏差値関連値を含み、前記統計的関係および情報推定器(115)が、ノイズに関する統計的関係および情報(119')を提供するように構成されたノイズ関係および情報推定器(119)を含み、前記ノイズに関する統計的関係および情報(119')が、ビンごとに、天井値と床値との間にあるという条件付きの前記信号の期待値に基づいて前記信号を推定するための前記天井値および前記床値を含む、統計的関係および情報推定器(115)と、
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)との間の推定された前記統計的関係(115')、および処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)とに関する推定された前記情報、ならびに前記ノイズに関する統計的関係および情報(119')に基づいて、処理中の前記ビン(123)の値の推定値(116')を取得するように構成された前記値推定器(116)と、
前記推定値(116')を時間領域信号(112)に変換するトランスフォーマ(117)と
を備える、デコーダ。 - 前記統計的関係および情報推定器(115)が、前記信号の平均値を前記値推定器(116)に提供するように構成される、請求項22に記載のデコーダ。
- 前記統計的関係および情報推定器(115)が、処理中の前記ビン(123)と前記コンテキスト(114')の少なくとも1つの追加のビン(118',124)との間の分散関連および共分散関連の関係に基づいて、クリーン信号の平均値を提供するように構成される、請求項22または23に記載のデコーダ。
- 前記統計的関係および情報推定器(115)が、処理中の前記ビン(123)の期待値に基づいて、クリーン信号の平均値を提供するように構成される、請求項22から24のいずれか一項に記載のデコーダ。
- 前記統計的関係および情報推定器(115)が、推定されたコンテキストに基づいて前記信号の平均値を更新するように構成される、請求項25に記載のデコーダ。
- 前記周波数領域入力信号の前記バージョン(113',120)が、量子化レベルである量子化された値を有し、前記量子化レベルが、離散的な数の量子化レベルから選択された値である、請求項22から26のいずれか一項に記載のデコーダ。
- 前記量子化レベルの数または値またはスケールが、前記ビットストリーム(111)においてシグナリングされる、請求項27に記載のデコーダ。
- 前記周波数領域入力信号がオーディオ信号である、請求項22から30のいずれか一項に記載のデコーダ。
- 前記周波数領域入力信号が音声信号である、請求項22から31のいずれか一項に記載のデコーダ。
- 前記コンテキスト定義器(114)、前記統計的関係および情報推定器(115)、前記ノイズ関係および情報推定器(119)、ならびに前記値推定器(116)のうちの少なくとも1つが、ポストフィルタリング動作を実行して、前記周波数領域入力信号のクリーンな推定(116')を取得するように構成される、請求項22から32のいずれか一項に記載のデコーダ。
- 前記コンテキスト定義器(114)が、複数の追加のビン(124)で前記コンテキスト(114')を定義するように構成される、請求項22から33のいずれか一項に記載のデコーダ。
- 前記コンテキスト定義器(114)が、周波数/時間グラフにおいてビンの単純に接続された近傍として前記コンテキスト(114')を定義するように構成される、請求項22から34のいずれか一項に記載のデコーダ。
- 前記ビットストリームリーダ(113)が、前記ビットストリーム(111)からのフレーム間情報の復号を回避するように構成される、請求項22から35のいずれか一項に記載のデコーダ。
- 以前に処理されたビン(124,125)に関する情報を記憶する処理されたビンストレージユニット(118)をさらに備え、
前記コンテキスト定義器(114)が、少なくとも1つの以前に処理されたビンを前記追加のビン(124)のうちの少なくとも1つとして使用して前記コンテキスト(114')を定義するように構成される、請求項22から36のいずれか一項に記載のデコーダ。 - 前記コンテキスト定義器(114)が、少なくとも1つの未処理のビン(126)を前記追加のビンのうちの少なくとも1つとして使用して前記コンテキスト(114')を定義するように構成される、請求項22から37のいずれか一項に記載のデコーダ。
- ビットストリーム(111)において定義された周波数領域入力信号を復号するための方法であって、前記周波数領域入力信号がノイズにさらされ、前記方法が、
ビットストリーム(111)から、周波数領域入力信号のバージョン(113',120)をフレーム(121)のシーケンスとして提供するステップであって、各フレーム(121)が複数のビン(123~126)に細分され、各ビンがサンプル値を有する、ステップと、
前記周波数領域入力信号の処理中の1つのビン(123)のコンテキスト(114')を定義するステップであって、前記コンテキスト(114')が、周波数/時間空間において、処理中の前記ビン(123)とあらかじめ定められた位置関係にある少なくとも1つの追加のビン(118',124)を含む、ステップと、
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)との間の統計的関係(115')、処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)とに関する情報、ならびにノイズに関する統計的関係および情報(119')に基づいて、処理中の前記ビン(123)の値(116')を推定するステップであって、前記統計的関係(115')が、共分散または相関の形態で提供され、前記情報が、分散または自己相関の形態で提供され、前記ノイズに関する統計的関係および情報(119')が、処理中の前記ビン(123)および前記少なくとも1つの追加のビン(118',124)のノイズ信号間の関係を推定するノイズ行列(ΛN)を含む、ステップと、
推定値(116')を時間領域信号(112)に変換するステップと
を有する、方法。 - ビットストリーム(111)において定義された周波数領域入力信号を復号するための方法であって、前記周波数領域入力信号がノイズにさらされ、前記方法が、
ビットストリーム(111)から、周波数領域入力信号のバージョン(113',120)をフレーム(121)のシーケンスとして提供するステップであって、各フレーム(121)が複数のビン(123~126)に細分され、各ビンがサンプル値を有する、ステップと、
前記周波数領域入力信号の処理中の1つのビン(123)のコンテキスト(114')を定義するステップであって、前記コンテキスト(114')が、周波数/時間空間において、処理中の前記ビン(123)とあらかじめ定められた位置関係にある少なくとも1つの追加のビン(118',124)を含む、ステップと、
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)との間の統計的関係(115')、処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118',124)とに関する情報、ならびにノイズに関する統計的関係および情報(119')に基づいて、処理中の前記ビン(123)の値(116')を推定するステップであって、前記統計的関係および情報が、処理中の前記ビン(123)と前記コンテキスト(114')の前記少なくとも1つの追加のビン(118',124)との間の分散関連および共分散関連の関係に基づいて提供される分散関連および/または標準偏差値関連値を含み、前記ノイズに関する統計的関係および情報(119')が、ビンごとに、天井値と床値との間にあるという条件付きの前記信号の期待値に基づいて前記信号を推定するための前記天井値および前記床値を含む、ステップと、
推定値(116')を時間領域信号(112)に変換するステップと
を有する、方法。 - 前記ノイズが量子化ノイズである、請求項39または40に記載の方法。
- 前記ノイズが、量子化ノイズではないノイズである、請求項39または40に記載の方法。
- プロセッサによって実行されたときに、前記プロセッサに、請求項39から42のいずれか一項に記載の方法を実行させる命令を記憶した非一時的ストレージユニット。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17198991.6 | 2017-10-27 | ||
EP17198991 | 2017-10-27 | ||
PCT/EP2018/071943 WO2019081089A1 (en) | 2017-10-27 | 2018-08-13 | MITIGATION OF NOISE AT THE LEVEL OF A DECODER |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021500627A JP2021500627A (ja) | 2021-01-07 |
JP7123134B2 true JP7123134B2 (ja) | 2022-08-22 |
Family
ID=60268208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020523364A Active JP7123134B2 (ja) | 2017-10-27 | 2018-08-13 | デコーダにおけるノイズ減衰 |
Country Status (10)
Country | Link |
---|---|
US (1) | US11114110B2 (ja) |
EP (1) | EP3701523B1 (ja) |
JP (1) | JP7123134B2 (ja) |
KR (1) | KR102383195B1 (ja) |
CN (1) | CN111656445B (ja) |
AR (1) | AR113801A1 (ja) |
BR (1) | BR112020008223A2 (ja) |
RU (1) | RU2744485C1 (ja) |
TW (1) | TWI721328B (ja) |
WO (1) | WO2019081089A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3956886B1 (en) * | 2019-04-15 | 2024-05-29 | Dolby International AB | Dialogue enhancement in audio codec |
EP4008000A1 (en) * | 2019-08-01 | 2022-06-08 | Dolby Laboratories Licensing Corporation | Encoding and decoding ivas bitstreams |
IL276249A (en) | 2020-07-23 | 2022-02-01 | Camero Tech Ltd | System and method for extracting signals with a high signal-to-noise ratio from signals with a low signal-to-noise ratio |
RU2754497C1 (ru) * | 2020-11-17 | 2021-09-02 | федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет" (ФГАОУ ВО КФУ) | Способ передачи речевых файлов по зашумленному каналу и устройство для его реализации |
CN114900246B (zh) * | 2022-05-25 | 2023-06-13 | 中国电子科技集团公司第十研究所 | 噪声基底估计方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011514557A (ja) | 2008-03-05 | 2011-05-06 | ヴォイスエイジ・コーポレーション | 復号化音調音響信号を増強するためのシステムおよび方法 |
JP2013521540A (ja) | 2010-03-10 | 2013-06-10 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | コーディングコンテキストのピッチ依存適合を用いた、オーディオ信号復号器、オーディオ信号符号化器、オーディオ信号を復号するための方法、オーディオ信号を符号化するための方法、およびコンピュータプログラム |
US20150179182A1 (en) | 2013-12-19 | 2015-06-25 | Dolby Laboratories Licensing Corporation | Adaptive Quantization Noise Filtering of Decoded Audio Data |
Family Cites Families (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US8271287B1 (en) * | 2000-01-14 | 2012-09-18 | Alcatel Lucent | Voice command remote control system |
US6678647B1 (en) * | 2000-06-02 | 2004-01-13 | Agere Systems Inc. | Perceptual coding of audio signals using cascaded filterbanks for performing irrelevancy reduction and redundancy reduction with different spectral/temporal resolution |
US7020605B2 (en) * | 2000-09-15 | 2006-03-28 | Mindspeed Technologies, Inc. | Speech coding system with time-domain noise attenuation |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
US7318035B2 (en) * | 2003-05-08 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
EP1521242A1 (en) * | 2003-10-01 | 2005-04-06 | Siemens Aktiengesellschaft | Speech coding method applying noise reduction by modifying the codebook gain |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US20060009985A1 (en) * | 2004-06-16 | 2006-01-12 | Samsung Electronics Co., Ltd. | Multi-channel audio system |
TWI497485B (zh) * | 2004-08-25 | 2015-08-21 | Dolby Lab Licensing Corp | 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法 |
CN101263554B (zh) * | 2005-07-22 | 2011-12-28 | 法国电信公司 | 在比特率分级和带宽分级的音频解码中的比特率切换方法 |
WO2007047505A2 (en) * | 2005-10-18 | 2007-04-26 | Telecommunication Systems, Inc. | Automatic call forwarding to in-vehicle telematics system |
KR20080033639A (ko) * | 2006-10-12 | 2008-04-17 | 삼성전자주식회사 | 영상 재생 장치 및 영상 재생 장치에서의 음량 조절 방법 |
HUE047607T2 (hu) * | 2007-08-27 | 2020-05-28 | Ericsson Telefon Ab L M | Eljárás és eszköz hangjel észlelési spektrális dekódolására, beleértve a spektrális lyukak kitöltését |
WO2010031049A1 (en) * | 2008-09-15 | 2010-03-18 | GH Innovation, Inc. | Improving celp post-processing for music signals |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
US8571231B2 (en) * | 2009-10-01 | 2013-10-29 | Qualcomm Incorporated | Suppressing noise in an audio signal |
TW201143375A (en) * | 2010-05-18 | 2011-12-01 | Zyxel Communications Corp | Portable set-top box |
CA2803273A1 (en) * | 2010-07-05 | 2012-01-12 | Nippon Telegraph And Telephone Corporation | Encoding method, decoding method, encoding device, decoding device, program, and recording medium |
US8826444B1 (en) * | 2010-07-09 | 2014-09-02 | Symantec Corporation | Systems and methods for using client reputation data to classify web domains |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
WO2012169805A2 (en) * | 2011-06-08 | 2012-12-13 | Samsung Electronics Co., Ltd. | Enhanced stream reservation protocol for audio video networks |
US8526586B2 (en) * | 2011-06-21 | 2013-09-03 | At&T Intellectual Property I, L.P. | Methods, systems, and computer program products for determining targeted content to provide in response to a missed communication |
US8930610B2 (en) * | 2011-09-26 | 2015-01-06 | Key Digital Systems, Inc. | System and method for transmitting control signals over HDMI |
US9082402B2 (en) * | 2011-12-08 | 2015-07-14 | Sri International | Generic virtual personal assistant platform |
CN103259999B (zh) * | 2012-02-20 | 2016-06-15 | 联发科技(新加坡)私人有限公司 | Hpd信号输出控制方法、hdmi接收端设备及系统 |
CN102710365A (zh) * | 2012-03-14 | 2012-10-03 | 东南大学 | 应用于多小区协作系统的基于信道统计信息的预编码方法 |
CN110706715B (zh) * | 2012-03-29 | 2022-05-24 | 华为技术有限公司 | 信号编码和解码的方法和设备 |
WO2013155619A1 (en) * | 2012-04-20 | 2013-10-24 | Sam Pasupalak | Conversational agent |
US9736604B2 (en) * | 2012-05-11 | 2017-08-15 | Qualcomm Incorporated | Audio user interaction recognition and context refinement |
KR101605862B1 (ko) * | 2012-06-29 | 2016-03-24 | 삼성전자주식회사 | 디스플레이 장치, 전자 장치, 대화형 시스템 및 이들의 제어 방법 |
EP3121813B1 (en) * | 2013-01-29 | 2020-03-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise filling without side information for celp-like coders |
FI3848929T3 (fi) * | 2013-03-04 | 2023-10-11 | Voiceage Evs Llc | Laite ja menetelmä kvantisointikohinan vähentämiseksi aika-alueen dekooderissa |
CN103347070B (zh) * | 2013-06-28 | 2017-08-01 | 小米科技有限责任公司 | 推送语音数据的方法、终端、服务器及系统 |
EP2830060A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise filling in multichannel audio coding |
US9575720B2 (en) * | 2013-07-31 | 2017-02-21 | Google Inc. | Visual confirmation for a recognized voice-initiated action |
EP2879131A1 (en) * | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
US9620133B2 (en) * | 2013-12-04 | 2017-04-11 | Vixs Systems Inc. | Watermark insertion in frequency domain for audio encoding/decoding/transcoding |
CN104980811B (zh) * | 2014-04-09 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 遥控器装置、通话装置、通话系统及通话方法 |
US20150379455A1 (en) * | 2014-06-30 | 2015-12-31 | Authoria, Inc. | Project planning and implementing |
US11330100B2 (en) * | 2014-07-09 | 2022-05-10 | Ooma, Inc. | Server based intelligent personal assistant services |
US9564130B2 (en) * | 2014-12-03 | 2017-02-07 | Samsung Electronics Co., Ltd. | Wireless controller including indicator |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
US10365620B1 (en) * | 2015-06-30 | 2019-07-30 | Amazon Technologies, Inc. | Interoperability of secondary-device hubs |
US10847175B2 (en) * | 2015-07-24 | 2020-11-24 | Nuance Communications, Inc. | System and method for natural language driven search and discovery in large data sources |
US9728188B1 (en) * | 2016-06-28 | 2017-08-08 | Amazon Technologies, Inc. | Methods and devices for ignoring similar audio being received by a system |
US10904727B2 (en) * | 2016-12-13 | 2021-01-26 | Universal Electronics Inc. | Apparatus, system and method for promoting apps to smart devices |
US10916243B2 (en) * | 2016-12-27 | 2021-02-09 | Amazon Technologies, Inc. | Messaging from a shared device |
US10930276B2 (en) * | 2017-07-12 | 2021-02-23 | Universal Electronics Inc. | Apparatus, system and method for directing voice input in a controlling device |
US10310082B2 (en) * | 2017-07-27 | 2019-06-04 | Quantenna Communications, Inc. | Acoustic spatial diagnostics for smart home management |
-
2018
- 2018-08-13 RU RU2020117192A patent/RU2744485C1/ru active
- 2018-08-13 EP EP18752768.4A patent/EP3701523B1/en active Active
- 2018-08-13 JP JP2020523364A patent/JP7123134B2/ja active Active
- 2018-08-13 CN CN201880084074.4A patent/CN111656445B/zh active Active
- 2018-08-13 BR BR112020008223-6A patent/BR112020008223A2/pt unknown
- 2018-08-13 WO PCT/EP2018/071943 patent/WO2019081089A1/en active Search and Examination
- 2018-08-13 KR KR1020207015066A patent/KR102383195B1/ko active IP Right Grant
- 2018-10-22 TW TW107137188A patent/TWI721328B/zh active
- 2018-10-26 AR ARP180103123A patent/AR113801A1/es active IP Right Grant
-
2020
- 2020-04-23 US US16/856,537 patent/US11114110B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011514557A (ja) | 2008-03-05 | 2011-05-06 | ヴォイスエイジ・コーポレーション | 復号化音調音響信号を増強するためのシステムおよび方法 |
JP2013521540A (ja) | 2010-03-10 | 2013-06-10 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | コーディングコンテキストのピッチ依存適合を用いた、オーディオ信号復号器、オーディオ信号符号化器、オーディオ信号を復号するための方法、オーディオ信号を符号化するための方法、およびコンピュータプログラム |
US20150179182A1 (en) | 2013-12-19 | 2015-06-25 | Dolby Laboratories Licensing Corporation | Adaptive Quantization Noise Filtering of Decoded Audio Data |
Also Published As
Publication number | Publication date |
---|---|
TW201918041A (zh) | 2019-05-01 |
RU2744485C1 (ru) | 2021-03-10 |
KR102383195B1 (ko) | 2022-04-08 |
TWI721328B (zh) | 2021-03-11 |
KR20200078584A (ko) | 2020-07-01 |
EP3701523B1 (en) | 2021-10-20 |
CN111656445A (zh) | 2020-09-11 |
CN111656445B (zh) | 2023-10-27 |
US11114110B2 (en) | 2021-09-07 |
BR112020008223A2 (pt) | 2020-10-27 |
US20200251123A1 (en) | 2020-08-06 |
AR113801A1 (es) | 2020-06-10 |
EP3701523A1 (en) | 2020-09-02 |
WO2019081089A1 (en) | 2019-05-02 |
JP2021500627A (ja) | 2021-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10885926B2 (en) | Classification between time-domain coding and frequency domain coding for high bit rates | |
JP7123134B2 (ja) | デコーダにおけるノイズ減衰 | |
EP3039676B1 (en) | Adaptive bandwidth extension and apparatus for the same | |
RU2712125C2 (ru) | Кодер и способ кодирования аудиосигнала с уменьшенным фоновым шумом с использованием кодирования с линейным предсказанием | |
JP2022528720A (ja) | オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム | |
JP2017156767A (ja) | 低または中ビットレートに対する知覚品質に基づくオーディオ分類 | |
Korse et al. | Enhancement of coded speech using a mask-based post-filter | |
EP3544005A1 (en) | Audio encoder, audio decoder, audio encoding method and audio decoding method for dithered quantization for frequency-domain speech and audio coding | |
Jokinen et al. | Spectral tilt modelling with GMMs for intelligibility enhancement of narrowband telephone speech. | |
EP3079151A1 (en) | Audio encoder and method for encoding an audio signal | |
Moriya et al. | Progress in LPC-based frequency-domain audio coding | |
CN119096296A (zh) | 声码器技术 | |
Kim et al. | Signal modification for robust speech coding | |
Kim et al. | A preprocessor for low-bit-rate speech coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200623 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200623 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210824 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20211206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220406 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220406 |
|
C11 | Written invitation by the commissioner to file amendments |
Free format text: JAPANESE INTERMEDIATE CODE: C11 Effective date: 20220425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220418 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220511 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220809 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7123134 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |