JP2004272292A - Sound signal processing method - Google Patents
Sound signal processing method Download PDFInfo
- Publication number
- JP2004272292A JP2004272292A JP2004158788A JP2004158788A JP2004272292A JP 2004272292 A JP2004272292 A JP 2004272292A JP 2004158788 A JP2004158788 A JP 2004158788A JP 2004158788 A JP2004158788 A JP 2004158788A JP 2004272292 A JP2004272292 A JP 2004272292A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- spectrum
- signal
- noise
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、音声や楽音などの符号化復号化処理によって発生する量子化雑音や、雑音抑圧処理などのさまざまな信号加工処理によって生じる歪み、などの主観的に好ましくない成分を主観的に感じにくいように加工する音信号加工方法および音信号加工装置に関する。 The present invention makes it difficult to subjectively perceive subjectively unfavorable components such as quantization noise generated by encoding / decoding processes such as voices and musical sounds, distortion caused by various signal processing processes such as noise suppression processing, and the like. Signal processing method and a sound signal processing apparatus for performing the above processing.
音声や楽音などの情報源符号化の圧縮率を高めていくと、次第に符号化時の歪みである量子化雑音が増えてくるし、量子化雑音が変形してきて主観的に耐えられないものになってくる。一例を挙げて説明すると、PCM(Pulse Code Modulation)やADPCM(Adaptive Differential Pulse Code Modulation)のような信号自体を忠実に表現しようとする音声符号化方式の場合には、量子化雑音は乱数状であり、主観的にもあまり気にならないが、圧縮率が高まり、符号化方式が複雑になるにつれて、量子化雑音に符号化方式固有のスペクトル特性が表れ、主観的に大きな劣化となる場合がでてくる。特に背景雑音が支配的な信号区間においては、高圧縮率の音声符号化方式が利用している音声モデルが合わないため、非常に聞き苦しい音となってしまう。 As the compression rate of information source coding such as voice and musical sound is increased, quantization noise, which is distortion at the time of coding, gradually increases, and the quantization noise is deformed and becomes subjectively unbearable. Come. For example, in the case of a speech coding system that attempts to faithfully represent a signal itself, such as PCM (Pulse Code Modulation) and ADPCM (Adaptive Differential Pulse Code Modulation), the quantization noise is random. Yes, it does not matter much subjectively, but as the compression ratio increases and the coding system becomes more complex, the quantization noise may show spectral characteristics unique to the coding system, resulting in a subjectively large deterioration. Come. In particular, in a signal section in which background noise is dominant, a speech model used by a speech encoding scheme with a high compression rate does not match, resulting in a very hard-to-hear sound.
また、スペクトルサブトラクション法などの雑音抑圧処理を行った場合、雑音の推定誤差が処理後の信号上に歪みとして残り、これが処理前の信号と大きく異なる特性をもっているために、主観評価を大きく劣化させることがある。 In addition, when noise suppression processing such as a spectral subtraction method is performed, noise estimation errors remain as distortions on the processed signal, and have significantly different characteristics from the signal before the processing, which greatly deteriorates the subjective evaluation. Sometimes.
上記のような量子化雑音や歪みによる主観評価の低下を抑制する従来の方法としては、特開平8−130513号、特開平8−146998号、特開平7−160296号、特開平6−326670号、特開平7−248793号、およびS.F.Boll著 ractionSSP−27, No.2, pp.113−120, April 1979)(以降文献1と呼ぶ)に開示されているものがある。 As a conventional method for suppressing the deterioration of the subjective evaluation due to the quantization noise and distortion as described above, JP-A-8-130513, JP-A-8-146998, JP-A-7-160296, and JP-A-6-326670 are disclosed. And JP-A-7-248793, and S.I. F. Boll, fractionSSP-27, No. 2, pp. 113-120, April 1979) (hereinafter referred to as Document 1).
特開平8−130513号は、背景雑音区間の品質改善を目的としたもので、背景雑音のみの区間であるか否かを判定して、背景雑音のみの区間に専用の符号化処理または復号化処理を行うようにし、背景雑音のみの区間の復号化を行う場合に合成フィルタの特性を抑制することで、聴感的に自然な再生音を得るようにしたものである。 Japanese Patent Application Laid-Open No. Hei 8-130513 aims to improve the quality of a background noise section, and determines whether or not the section is only a background noise section, and performs an encoding process or decoding dedicated to the section including only the background noise section. By performing the processing and suppressing the characteristic of the synthesis filter when decoding only the section of the background noise, an acoustically natural reproduced sound is obtained.
特開平8−146998号は、白色雑音が符号化復号化によって耳障りな音色になることを抑制することを狙って、復号音声に対して白色雑音や予め格納しておいた背景雑音を加えるようにしたものである。 Japanese Patent Application Laid-Open No. Hei 8-146998 discloses a technique of adding white noise or pre-stored background noise to decoded speech with the aim of suppressing white noise from becoming an unpleasant tone due to encoding and decoding. It was done.
特開平7−160296号は、量子化雑音を聴感的に低減することを狙って、復号音声または音声復号化部が受信したスペクトルパラメータに関するインデックスを基に、聴覚マスキング閾値を求め、これを反映したフィルタ係数を求めて、この係数をポストフィルタに使用するようにしたものである。 Japanese Patent Application Laid-Open No. 7-160296 seeks an auditory masking threshold based on an index related to a decoded speech or a spectrum parameter received by a speech decoding unit and aims to reduce quantization noise audibly, and reflects this. A filter coefficient is obtained, and this coefficient is used for a post filter.
特開平6−326670号は、通信電力制御などのために音声を含まない区間で符号伝送を停止するシステムでは、符号伝送の無い時には復号側で疑似背景雑音を生成して出力するが、この時に発生する、音声区間に含まれる実際の背景雑音と無音区間の疑似背景雑音の間の違和感を軽減することを狙ったもので、音声を含まない区間だけでなく音声区間にも疑似背景雑音を重畳するようにしたものである。 Japanese Unexamined Patent Publication No. Hei 6-326670 discloses a system in which code transmission is stopped in a section that does not include voice for communication power control or the like. In the absence of code transmission, pseudo background noise is generated and output on the decoding side. It aims to reduce the sense of discomfort between the actual background noise included in the voice section and the pseudo background noise in the silent section, and superimposes the pseudo background noise not only on the section containing no voice but also on the voice section. It is intended to be.
特開平7−248793号は、雑音抑圧処理によって発生する歪み音を聴感的に軽減することを目的としたもので、符号化側では、まず雑音区間か音声区間か判定し、雑音区間では雑音スペクトルを伝送し、音声区間では雑音抑圧処理後のスペクトルを伝送し、復号化側では、雑音区間では受信した雑音スペクトルを用いて合成音を生成して出力し、音声区間では受信した雑音抑圧処理後のスペクトルを用いて生成した合成音に、雑音区間で受信した雑音スペクトルを用いて生成した合成音に重畳倍率を乗じて加算して出力するようにしたものである。 Japanese Patent Application Laid-Open No. Hei 7-248793 aims to reduce audibly the distortion sound generated by the noise suppression processing. On the encoding side, first, it is determined whether the noise section is a speech section or a speech section. Is transmitted in the voice section, the spectrum after the noise suppression processing is transmitted, and the decoding side generates and outputs a synthesized sound using the received noise spectrum in the noise section. Is added to the synthesized sound generated by using the spectrum of (i) and the synthesized sound generated by using the noise spectrum received in the noise section, multiplied by the superimposition ratio, and output.
文献1は、雑音抑圧処理によって発生する歪み音を聴感的に軽減することを狙い、雑音抑圧処理後の出力音声に対して、時間的に前後の区間と振幅スペクトル上の平滑化を行い、更に背景雑音区間に限って振幅抑圧処理を行っている。
上記の従来法には、以下に述べる課題がある。 The above conventional method has the following problems.
特開平8−130513号には、符号化処理や復号化処理を区間判定結果に従って大きく切り替えているために、雑音区間と音声区間の境界で特性の急変が起こる課題がある。特に雑音区間を音声区間と誤判定することが頻繁に起こった場合、本来比較的定常である雑音区間が不安定に変動してしまい、かえって雑音区間の劣化を起こす場合がある。雑音区間判定結果を伝送する場合、伝送するための情報の追加が必要で、更にその情報が伝送路上で誤った場合に、不必要な劣化を引き起こす課題がある。また、合成フィルタの特性を抑制するだけでは、音源符号化の際に生じる量子化雑音は軽減されないため、雑音種によっては改善効果がほとんど得られない課題がある。 Japanese Patent Application Laid-Open No. Hei 8-130513 has a problem that a sudden change in characteristics occurs at a boundary between a noise section and a speech section because encoding processing and decoding processing are largely switched according to the section determination result. In particular, when erroneous determination of a noise section as a voice section frequently occurs, the noise section which is originally relatively stationary fluctuates in an unstable manner, and may rather deteriorate the noise section. When transmitting the noise section determination result, it is necessary to add information to be transmitted, and there is a problem that when the information is erroneous on a transmission path, unnecessary deterioration is caused. Further, simply suppressing the characteristics of the synthesis filter does not reduce the quantization noise generated at the time of excitation coding, so that there is a problem that an improvement effect is hardly obtained depending on the type of noise.
特開平8−146998号には、予め用意してある雑音を加えてしてしまうために、符号化された現在の背景雑音の特性が失われてしまう課題がある。劣化音を聞こえにくくするためには劣化音を上回るレベルの雑音を加える必要があり、再生される背景雑音が大きくなってしまう課題がある。 Japanese Patent Application Laid-Open No. 8-146998 has a problem that the characteristic of the current coded background noise is lost because noise prepared in advance is added. In order to make the degraded sound difficult to hear, it is necessary to add noise at a level higher than the degraded sound, and there is a problem that the reproduced background noise increases.
特開平7−160296号では、スペクトルパラメータに基づいて聴覚マスキング閾値を求めて、これに基づいてスペクトルポストフィルタを行うだけであるので、スペクトルが比較的平坦な背景雑音などでは、マスキングされる成分もほとんどなく、全く改善効果が得られない課題がある。また、マスキングされない主要成分については、大きな変化を与えることができないので、主要成分に含まれている歪みについては何らの改善効果も得られない課題がある。 In Japanese Patent Application Laid-Open No. 7-160296, an auditory masking threshold is obtained based on spectral parameters, and a spectrum post-filter is simply performed based on the threshold. There is a problem that there is hardly any improvement effect. In addition, since a large change cannot be given to a main component that is not masked, there is a problem that no improvement effect can be obtained for distortion included in the main component.
特開平6−326670号では、実際の背景雑音に関係なく疑似背景雑音を生成しているので、実際の背景雑音の特性が失われてしまう課題がある。 In JP-A-6-326670, since the pseudo background noise is generated regardless of the actual background noise, there is a problem that the characteristics of the actual background noise are lost.
特開平7−248793号には、符号化処理や復号化処理を区間判定結果に従って大きく切り替えているために、雑音区間か音声区間かの判定を誤ると大きな劣化を引き起こす課題がある。雑音区間の一部を音声区間と誤った場合には、雑音区間内の音質が不連続に変動して聞き苦しくなる。逆に音声区間を雑音区間と誤った場合には、平均雑音スペクトルを用いた雑音区間の合成音と、音声区間で重畳される雑音スペクトルを用いた合成音に音声成分が混入し、全体的に音質劣化が起こる課題がある。更に、音声区間における劣化音を聞こえなくするためには、決して小さくない雑音を重畳することが必要である。 Japanese Patent Laid-Open No. Hei 7-248793 has a problem that since the encoding process and the decoding process are largely switched in accordance with the section determination result, erroneous determination of a noise section or a voice section causes a large deterioration. If a part of the noise section is mistaken for a voice section, the sound quality in the noise section varies discontinuously, making it difficult to hear. Conversely, if the speech section is mistaken for a noise section, speech components are mixed into the synthesized sound of the noise section using the average noise spectrum and the synthesized sound using the noise spectrum superimposed in the speech section, and There is a problem that sound quality degradation occurs. Furthermore, in order to make the degraded sound in the voice section inaudible, it is necessary to superimpose noise that is not low.
文献1には、平滑化のために半区間分(10ms〜20ms程度)の処理遅延が発生する課題がある。また、雑音区間内の一部を音声区間と誤判定してしまった場合、雑音区間内の音質が不連続に変動して聞き苦しくなる課題がある。
この発明は、かかる課題を解決するためになされたものであり、区間判定誤りによる劣化が少なく、雑音種やスペクトル形状への依存度が少なく、大きな遅延時間を必要としない、実際の背景雑音の特性を残すことができ、背景雑音レベルを過度に大きくすることがなく、新たな伝送情報の追加が不要で、音源符号化などによる劣化成分についても良好な抑圧効果を与えることのできる音信号加工方法および音信号加工装置を提供することを目的としている。 The present invention has been made in order to solve such a problem, and there is little deterioration due to a section determination error, little dependence on a noise type or a spectrum shape, and a large delay time is not required. Sound signal processing that can retain the characteristics, does not excessively increase the background noise level, does not require the addition of new transmission information, and can provide a good suppression effect even for components degraded by excitation coding etc. It is an object to provide a method and a sound signal processing device.
入力音信号を加工して第一の加工信号を生成し、前記入力音信号を分析して所定の評価値を算出し、この評価値に基づいて前記入力音信号と前記第一の加工信号を重み付け加算して第二の加工信号とし、この第二の加工信号を出力信号とすることを特徴とする。 The input sound signal is processed to generate a first processed signal, the input sound signal is analyzed to calculate a predetermined evaluation value, and the input sound signal and the first processed signal are calculated based on the evaluation value. The second processing signal is obtained by weighting and adding, and the second processing signal is used as an output signal.
また、更に、前記第一の加工信号生成方法は、前記入力音信号をフーリエ変換することで周波数毎のスペクトル成分を算出し、このフーリエ変換により算出された周波数毎のスペクトル成分に対して所定の変形を与え、変形後のスペクトル成分を逆フーリエ変換して生成することを特徴とする。 Further, the first processed signal generation method calculates a spectral component for each frequency by performing a Fourier transform on the input sound signal, and a predetermined spectral component for each frequency calculated by the Fourier transform. It is characterized in that a transform is given and the transformed spectral component is generated by performing an inverse Fourier transform.
また、更に、前記重み付け加算をスペクトル領域で行なうようにしたことを特徴とする。 Further, the weighted addition is performed in a spectral domain.
また、更に、前記重み付け加算を周波数成分毎に独立に制御するようにしたことを特徴とする。 Further, the weighted addition is controlled independently for each frequency component.
また、更に、前記周波数毎のスペクトル成分に対する所定の変形に振幅スペクトル成分の平滑化処理を含むことを特徴とする。 Further, the predetermined deformation of the spectrum component for each frequency includes a smoothing process of an amplitude spectrum component.
また、更に、前記周波数毎のスペクトル成分に対する所定の変形に位相スペクトル成分の擾乱付与処理を含むことを特徴とする。 Furthermore, the predetermined deformation of the spectrum component for each frequency includes a disturbance imparting process of a phase spectrum component.
また、更に、前記平滑化処理における平滑化強度を、入力音信号の振幅スペクトル成分の大きさによって制御するようにしたことを特徴とする。 Further, the smoothing strength in the smoothing processing is controlled by the magnitude of the amplitude spectrum component of the input sound signal.
また、更に、前記擾乱付与処理における擾乱付与強度を、入力音信号の振幅スペクトル成分の大きさによって制御するようにしたことを特徴とする。 Further, the present invention is characterized in that the disturbance imparting strength in the disturbance imparting process is controlled by the magnitude of the amplitude spectrum component of the input sound signal.
また、更に、前記平滑化処理における平滑化強度を、入力音信号のスペクトル成分の時間方向の連続性の大きさによって制御するようにしたことを特徴とする。 Further, the smoothing strength in the smoothing process is controlled by the magnitude of the continuity of the spectral components of the input sound signal in the time direction.
また、更に、前記擾乱付与処理における擾乱付与強度を、入力音信号のスペクトル成分の時間方向の連続性の大きさによって制御するようにしたことを特徴とする。 Further, the disturbance imparting strength in the disturbance imparting process is controlled by the magnitude of the continuity of the spectral components of the input sound signal in the time direction.
また、更に、前記入力音信号として、聴覚重み付した入力音信号を用いるようにしたことを特徴とする。 Further, an input sound signal weighted by auditory sense is used as the input sound signal.
また、更に、前記平滑化処理における平滑化強度を、前記評価値の時間変動性の大きさによって制御するようにしたことを特徴とする。 Further, the smoothing strength in the smoothing process is controlled by the magnitude of the time variability of the evaluation value.
また、更に、前記擾乱付与処理における擾乱付与強度を、前記評価値の時間変動性の大きさによって制御するようにしたことを特徴とする。 Further, the disturbance imparting intensity in the disturbance imparting process is controlled by the magnitude of the time variability of the evaluation value.
また、更に、前記所定の評価値として、前記入力音信号を分析して算出した背景雑音らしさの度合を用いるようにしたことを特徴とする。 Further, a characteristic of the background noise calculated by analyzing the input sound signal is used as the predetermined evaluation value.
また、更に、前記所定の評価値として、前記入力音信号を分析して算出した摩擦音らしさの度合を用いるようにしたことを特徴とする。 Further, the method is characterized in that a degree of fricativeness calculated by analyzing the input sound signal is used as the predetermined evaluation value.
また、更に、前記入力音信号として、音声符号化処理によって生成された音声符号を復号した復号音声を用いるようにしたことを特徴とする。 Further, a decoded speech obtained by decoding a speech code generated by a speech encoding process is used as the input sound signal.
この発明音信号加工方法は、前記入力音信号を音声符号化処理によって生成された音声符号を復号した第一の復号音声とし、この第一の復号音声に対してポストフィルタ処理を行なって第二の復号音声を生成し、前記第一の復号音声を加工して第一の加工音声を生成し、いずれかの復号音声を分析して所定の評価値を算出し、この評価値に基づいて前記第二の復号音声と前記第一の加工音声を重み付けし加算して第二の加工音声とし、この第二の加工音声を出力音声として出力することを特徴とする。 In the sound signal processing method of the present invention, the input sound signal is used as a first decoded sound obtained by decoding a sound code generated by a sound coding process, and the first decoded sound is subjected to a post-filter process to perform a second filtering. The first decoded voice is generated to generate a first processed voice, a decoded voice is analyzed to calculate a predetermined evaluation value, and based on the evaluation value, A second decoded audio and the first processed audio are weighted and added to form a second processed audio, and the second processed audio is output as an output audio.
この発明の音信号加工装置は、入力音信号を加工して第一の加工信号を生成する第一の加工信号生成部と、前記入力音信号を分析して所定の評価値を算出する評価値算出部と、この評価値算出部の評価値に基づいて前記入力音信号と前記第一の加工信号を重み付けして加算し、第二の加工信号として出力する第二の加工信号生成部とを備えたことを特徴とする。 A sound signal processing device according to the present invention includes a first processed signal generation unit that processes an input sound signal to generate a first processed signal, and an evaluation value that analyzes the input sound signal and calculates a predetermined evaluation value. A second processing signal generator that weights and adds the input sound signal and the first processing signal based on the evaluation value of the evaluation value calculator and outputs the second processing signal as a second processing signal. It is characterized by having.
また、更に、前記第一の加工信号生成部は、前記入力音信号をフーリエ変換することで周波数毎のスペクトル成分を算出し、この算出された周波数毎のスペクトル成分に対して振幅スペクトル成分の平滑化処理を与え、この振幅スペクトル成分の平滑化処理された後のスペクトル成分を逆フーリエ変換して第一の加工信号を生成することを特徴とする。 Further, the first processed signal generation unit calculates a spectrum component for each frequency by performing a Fourier transform on the input sound signal, and smoothes an amplitude spectrum component with respect to the calculated spectrum component for each frequency. And a first processing signal is generated by performing an inverse Fourier transform on the spectrum component after the smoothing process of the amplitude spectrum component.
また、更に、前記第一の加工信号生成部は、前記入力音信号をフーリエ変換することで周波数毎のスペクトル成分を算出し、この算出された周波数毎のスペクトル成分に対して位相スペクトル成分の擾乱付与処理を与え、この位相スペクトル成分の擾乱付与処理された後のスペクトル成分を逆フーリエ変換して第一の加工信号を生成することを特徴とする。 Further, the first processed signal generation unit calculates a spectral component for each frequency by performing a Fourier transform on the input sound signal, and disturbs a phase spectral component with respect to the calculated spectral component for each frequency. An application process is performed, and the spectrum component after the disturbance application process of the phase spectrum component is subjected to inverse Fourier transform to generate a first processed signal.
以上説明したように本発明の音信号加工方法および音信号加工装置は、入力信号に対して所定の信号加工処理を行うことで、入力信号に含まれる劣化成分を主観的に気にならないようにした加工信号を生成し、所定の評価値によって入力信号と加工信号の加算重みを制御するようにしたので、劣化成分が多く含まれる区間を中心に加工信号の比率を増やして、主観品質を改善できる効果がある。 As described above, the sound signal processing method and the sound signal processing apparatus of the present invention perform a predetermined signal processing process on an input signal so that a deterioration component included in the input signal is not subjectively noticed. Generated processing signal, and the addition weight of the input signal and the processing signal is controlled by a predetermined evaluation value, so that the ratio of the processing signal is increased mainly in the section where many degraded components are included, and the subjective quality is improved. There is an effect that can be done.
また、従来の2値区間判定を廃し、連続量の評価値を算出して、これに基づいて連続的に入力信号と加工信号の重み付け加算係数を制御できるので、区間判定誤りによる品質劣化を回避できる効果がある。 In addition, the conventional binary interval determination is eliminated, and the continuous value evaluation value is calculated. Based on this, the weighted addition coefficient of the input signal and the processed signal can be controlled continuously, so that quality deterioration due to an interval determination error is avoided. There is an effect that can be done.
また、背景雑音の情報が多く含まれている入力信号の加工処理によって出力信号を生成できるので、実際の背景雑音の特性を残しつつ、雑音種やスペクトル形状にあまり依存しない安定な品質改善効果が得られるし、音源符号化などによる劣化成分に対しても改善効果が得られる効果がある。 In addition, since an output signal can be generated by processing an input signal that contains a lot of background noise information, a stable quality improvement effect that does not depend much on the noise type or spectrum shape while maintaining the characteristics of the actual background noise can be obtained. It is possible to obtain an effect of improving a component degraded by excitation coding or the like.
また、現在までの入力信号を用いて処理を行うことができるので特に大きな遅延時間は不要で、入力信号と加工信号の加算方法によっては処理時間以外の遅延を排除することもできる効果がある。加工信号のレベルをあげる際には入力信号のレベルを下げていくようにすれば、従来のように劣化成分をマスクするために大きな疑似雑音を重畳することも不要で、逆に適用対象に応じて、背景雑音レベルを小さ目にしたり、大き目にしたりすることすら可能である。また、当然のことであるが、音声符号化復号化による劣化音を解消する場合でも、従来のような新たな伝送情報の追加は不要である。 In addition, since processing can be performed using the input signal up to the present time, a particularly large delay time is not required, and there is an effect that a delay other than the processing time can be eliminated depending on a method of adding the input signal and the processed signal. If the level of the input signal is lowered when raising the level of the processing signal, it is not necessary to superimpose large pseudo noise to mask the degraded components as in the past, and conversely, depending on the application target Thus, it is possible to make the background noise level small or even large. Also, needless to say, even in the case of eliminating the degraded sound due to the voice encoding / decoding, it is not necessary to add new transmission information as in the related art.
本発明の音信号加工方法および音信号加工装置は、入力信号に対して、スペクトル領域での所定の加工処理を行うことで、入力信号に含まれる劣化成分を主観的に気にならないようにした加工信号を生成し、所定の評価値によって入力信号と加工信号の加算重みを制御するようにしたので、上記信号加工方法が持つ効果に加えて、スペクトル領域での細かい劣化成分の抑圧処理を行うことができ、更に主観品質を改善できる効果がある。 The sound signal processing method and the sound signal processing apparatus of the present invention perform predetermined processing in the spectral domain on the input signal, so that the deterioration component included in the input signal is not subjectively noticed. Since the processing signal is generated and the addition weight of the input signal and the processing signal is controlled by a predetermined evaluation value, in addition to the effect of the signal processing method, a process of suppressing a fine degradation component in a spectrum region is performed. Has the effect of further improving the subjective quality.
本発明の音信号加工方法は、上記発明の音信号加工方法において、入力信号と加工信号をスペクトル領域で重み付け加算するようにしたので、上記音信号加工方法が持つ効果に加えて、スペクトル領域での処理を行う雑音抑圧方法の後段に接続する場合などに、音信号加工方法が必要とするフーリエ変換処理、逆フーリエ変換処理を一部または全部省略することができ、処理が簡易化できる効果がある。 According to the sound signal processing method of the present invention, in the sound signal processing method of the present invention, the input signal and the processed signal are weighted and added in the spectral domain. For example, in the case of connecting to the subsequent stage of the noise suppression method that performs the processing of the above, some or all of the Fourier transform processing and the inverse Fourier transform processing required by the sound signal processing method can be omitted, and the effect of simplifying the processing can be obtained. is there.
本発明の音信号加工方法は、上記発明の音信号加工方法において、重み付け加算を周波数成分毎に独立に制御するようにしたので、上記音信号加工方法が持つ効果に加えて、量子化雑音や劣化成分の支配的な成分が重点的に加工信号に置換され、量子化雑音や劣化成分が少ない良好な成分まで置換してしまうことがなくなり、入力信号の特性を良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。 According to the sound signal processing method of the present invention, in the sound signal processing method of the present invention, the weighted addition is controlled independently for each frequency component. The dominant component of the degraded component is replaced with the processed signal with emphasis, and it is no longer replaced with a good component with a small amount of quantization noise and degraded components. There is an effect that the deteriorating component can be suppressed subjectively and the subjective quality can be improved.
本発明の音信号加工方法は、上記発明の音信号加工方法における加工処理として、振幅スペクトル成分の平滑化処理を行うようにしたので、上記音信号加工方法が持つ効果に加えて、量子化雑音などによって生じる振幅スペクトル成分の不安定な変動を良好に抑圧することができ、主観品質を改善できる効果がある。 The sound signal processing method of the present invention performs the smoothing processing of the amplitude spectrum component as the processing in the sound signal processing method of the present invention. As a result, it is possible to favorably suppress unstable fluctuations of the amplitude spectrum component caused by the above-mentioned factors, and to improve the subjective quality.
本発明の音信号加工方法は、上記発明の音信号加工方法における加工処理として、位相スペクトル成分の擾乱付与処理を行うようにしたので、上記音信号加工方法が持つ効果に加えて、位相成分間に独特な相互関係を持ってしまい、特徴的な劣化と感じられることが多い量子化雑音や劣化成分に対して、位相成分間の関係に擾乱を与えることができ、主観品質を改善できる効果がある。 According to the sound signal processing method of the present invention, as the processing in the sound signal processing method of the present invention, the disturbance imparting process of the phase spectrum component is performed. The quantization noise and the degradation components, which often have characteristic correlation with each other, can disturb the relationship between the phase components and improve the subjective quality. is there.
本発明の音信号加工方法は、上記発明の音信号加工方法における平滑化強度または擾乱付与強度を、入力信号または聴覚重み付けした入力信号の振幅スペクトル成分の大きさによって制御するようにしたので、上記音信号加工方法が持つ効果に加えて、前記振幅スペクトル成分が小さいために量子化雑音や劣化成分が支配的になっている成分に対して重点的に加工が加えられ、量子化雑音や劣化成分が少ない良好な成分まで加工してしまうことがなくなり、入力信号の特性を良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。 In the sound signal processing method of the present invention, the smoothing strength or the disturbance imparting strength in the sound signal processing method of the present invention is controlled by the magnitude of the amplitude spectrum component of the input signal or the input signal that is auditory weighted. In addition to the effects of the sound signal processing method, processing is added with emphasis on components in which the quantization noise and degraded components are dominant because the amplitude spectrum components are small, and quantization noise and degraded components are added. This eliminates the possibility of processing even a good component with a small amount of noise, has the effect of subjectively suppressing quantization noise and degraded components while maintaining the characteristics of the input signal, and improving the subjective quality.
本発明の音信号加工方法は、上記発明の音信号加工方法における平滑化強度または擾乱付与強度を、入力信号または聴覚重み付けした入力信号のスペクトル成分の時間方向の連続性の大きさによって制御するようにしたので、上記音信号加工方法が持つ効果に加えて、スペクトル成分の連続性が低いために量子化雑音や劣化成分が多くなりがちな成分に対して重点的に加工が加えられ、量子化雑音や劣化成分が少ない良好な成分まで加工してしまうことがなくなり、入力信号の特性を良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。 According to the sound signal processing method of the present invention, the smoothing strength or the disturbance imparting strength in the sound signal processing method of the present invention is controlled by the magnitude of the temporal continuity of the spectral component of the input signal or the auditory weighted input signal. Therefore, in addition to the effects of the above sound signal processing method, processing is added with emphasis on components that tend to increase quantization noise and degraded components due to the low continuity of spectral components. There is no need to process even a good component with little noise and degraded components, and it is possible to subjectively suppress quantization noise and degraded components while maintaining good characteristics of the input signal, thereby improving the subjective quality.
本発明の音信号加工方法は、上記発明の音信号加工方法における平滑化強度または擾乱付与強度を、前記評価値の時間変動性の大きさによって制御するようにしたので、上記音信号加工方法が持つ効果に加えて、入力信号の特性が変動している区間において必要以上に強い加工処理を抑止でき、特に振幅平滑化によるなまけ、エコーの発生を防止できる効果がある。 According to the sound signal processing method of the present invention, the smoothing strength or the disturbance imparting strength in the sound signal processing method of the present invention is controlled by the magnitude of the time variability of the evaluation value. In addition to the effects, it is possible to suppress unnecessarily strong processing in a section where the characteristics of the input signal are fluctuating, and it is possible to prevent the occurrence of echo and the occurrence of echoes, particularly by amplitude smoothing.
本発明の音信号加工方法は、上記発明の音信号加工方法における所定の評価値として背景雑音らしさの度合を用いるようにしたので、上記音信号加工方法が持つ効果に加えて、量子化雑音や劣化成分が多く発生しがちな背景雑音区間に対して重点的な加工が加えられ、背景雑音以外の区間についてもその区間に適切な加工(加工しない、低レベルの加工を行うなど)が選択されるので、主観品質を改善できる効果がある。 The sound signal processing method of the present invention uses the degree of background noise likeness as the predetermined evaluation value in the sound signal processing method of the present invention. Prioritized processing is applied to background noise sections where deterioration components tend to occur frequently, and appropriate processing (no processing, low-level processing, etc.) is selected for sections other than background noise. Therefore, there is an effect that the subjective quality can be improved.
本発明の音信号加工方法は、上記発明の音信号加工方法における前記所定の評価値として摩擦音らしさの度合を用いるようにしたので、上記音信号加工方法が持つ効果に加えて、量子化雑音や劣化成分が多く発生しがちな摩擦音区間に対して重点的な加工が加えられ、摩擦音以外の区間についてもその区間に適切な加工(加工しない、低レベルの加工を行うなど)が選択されるので、主観品質を改善できる効果がある。 The sound signal processing method of the present invention uses the degree of fricative likeness as the predetermined evaluation value in the sound signal processing method of the present invention.In addition to the effects of the sound signal processing method, quantization noise and noise Focused processing is applied to the friction noise section where a lot of deterioration components tend to occur, and appropriate processing (no processing, low-level processing, etc.) is selected for the section other than the friction sound as well. This has the effect of improving the subjective quality.
本発明の音信号加工方法は、音声符号化処理によって生成された音声符号を入力とし、この音声符号を復号して復号音声を生成し、この復号音声を入力として上記音信号加工方法を用いた信号加工処理を施して加工音声を生成し、この加工音声を出力音声として出力するようにしたので、上記音信号加工方法が持つ主観品質改善効果等をそのまま持った音声復号が実現される効果がある。 The sound signal processing method of the present invention uses a sound code generated by a sound coding process as an input, decodes the sound code to generate a decoded sound, and uses the decoded sound as an input to use the sound signal processing method. Since the processed voice is generated by performing the signal processing and the processed voice is output as the output voice, the effect that the voice decoding having the subjective quality improvement effect and the like of the above-described sound signal processing method can be realized is realized. is there.
本発明の音信号加工方法は、音声符号化処理によって生成された音声符号を入力とし、この音声符号を復号して復号音声を生成し、復号音声に所定の信号加工処理を行って加工音声を生成し、復号音声にポストフィルタ処理を行い、更にポストフィルタ前または後の復号音声を分析して所定の評価値を算出し、この評価値に基づいてポストフィルタ後の復号音声と加工音声を重み付け加算して出力するようにしたので、上記音信号加工方法が持つ主観品質改善効果等をそのまま持った音声復号が実現される効果に加えて、ポストフィルタに影響されない加工音声が生成でき、ポストフィルタに影響されずに算出した精度の高い評価値に基づいて精度の高い加算重み制御ができるようになるので、更に主観品質が改善する効果がある。 The sound signal processing method of the present invention receives a speech code generated by a speech encoding process as an input, decodes the speech code to generate a decoded speech, performs a predetermined signal processing process on the decoded speech, and outputs the processed speech. Generate and perform post-filter processing on the decoded voice, further analyze the decoded voice before or after the post-filter, calculate a predetermined evaluation value, and weight the decoded voice after the post-filter and the processed voice based on this evaluation value. Since the addition and the output are performed, in addition to the effect of realizing the audio decoding having the subjective quality improvement effect and the like of the sound signal processing method as described above, it is possible to generate the processed audio which is not affected by the post filter. Since it is possible to perform highly accurate addition weight control based on the highly accurate evaluation value calculated without being affected by the above, there is an effect that the subjective quality is further improved.
以下図面を参照しながら、この発明の実施の形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
実施の形態1.
図1は、本実施の形態による音信号加工方法を適用した音声復号方法の全体構成を示し、図中1は音声復号装置、2はこの発明による信号加工方法を実行する信号加工部、3は音声符号、4は音声復号部、5は復号音声、6は出力音声である。信号加工部2は、信号変形部7、信号評価部12、重み付き加算部18より構成されている。信号変形部7は、フーリエ変換部8、振幅平滑化部9、位相擾乱部10、逆フーリエ部11より構成されている。信号評価部12は、逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15、推定背景雑音パワー更新部16、推定雑音スペクトル更新部17より構成されている。
FIG. 1 shows an overall configuration of a speech decoding method to which a sound signal processing method according to the present embodiment is applied. In FIG. 1, 1 is a speech decoding device, 2 is a signal processing unit that executes the signal processing method according to the present invention, and 3 is a signal processing unit. The voice code, 4 is a voice decoding unit, 5 is a decoded voice, and 6 is an output voice. The signal processing unit 2 includes a
以下、図に基づいて動作を説明する。 The operation will be described below with reference to the drawings.
まず音声符号3が音声復号装置1内の音声復号部4に入力される。なお、この音声符号3は、別途音声符号化部が音声信号を符号化した結果として出力され、通信路や記憶デバイスを介してこの音声復号部4に入力される。
First, the
音声復号部4は、音声符号3に対して、前記音声符号化部と対を成す復号処理を行い、得られた所定の長さ(1フレーム長)の信号を復号音声5として出力する。そして、この復号音声5は、信号加工部2内の信号変形部7、信号評価部12、重み付き加算部18に入力される。
The
信号変形部7内のフーリエ変換部8は、入力された現フレームの復号音声5と必要に応じ前フレームの復号音声5の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを振幅平滑化部9に出力する。なお、フーリエ変換処理としては、離散フーリエ変換(DFT)、高速フーリエ変換(FFT)などが代表的である。窓がけ処理としては、台形窓、方形窓、ハニング窓など様々なものが適用可能であるが、ここでは、台形窓の両端の傾斜部分をそれぞれハニング窓の半分ずつに置換した変形台形窓を使用する。実際の形状例、復号音声5や出力音声6との時間関係については、図面を用いて後述説明する。
The
振幅平滑化部9は、フーリエ変換部8から入力された周波数毎のスペクトルの振幅成分に対して平滑化処理を行い、平滑化後のスペクトルを位相擾乱部10に出力する。ここで用いる平滑化処理としては、周波数軸方向、時間軸方向の何れを用いても、量子化雑音などの劣化音の抑制効果が得られる。しかし、周波数軸方向の平滑化をあまり強くすると、スペクトルの怠けが生じ、本来の背景雑音の特性を損なってしまうことが多い。一方、時間軸方向の平滑化についても、あまり強くしていくと、長時間にわたって同じ音が残ることになり、反響感が発生してしまう。色々な背景雑音に対して調整を進めた結果、周波数軸方向の平滑化はなし、時間軸方向は振幅を対数領域で平滑化する、とした場合が出力音声6の品質が良かった。その時の平滑化方法は、次式で表わされる。
The amplitude smoothing unit 9 performs a smoothing process on the amplitude component of the spectrum for each frequency input from the
yi = yi−1(1−α)+xiα ・・・ 式1
ここで、xiが現在のフレーム(第iフレーム)の平滑化前の対数振幅スペクトル値、yi−1が前フレーム(第i−1フレーム)の平滑化後の対数振幅スペクトル値、yiが現在のフレーム(第iフレーム)の平滑化後の対数振幅スペクトル値、αが0〜1の値を持つ平滑化係数である、平滑化係数αはフレーム長、解消したい劣化音のレベルなどによって最適値が異なるが、概ね0.5程度の値となる。
y i = y i−1 (1−α) + x i α Equation 1
Here, the logarithmic amplitude spectrum value before smoothing x i is the current frame (i-th frame), y i-1 is the previous frame logarithmic amplitude spectrum value after smoothing (the i-1 frame), y i Is the logarithmic amplitude spectrum value of the current frame (i-th frame) after smoothing, α is a smoothing coefficient having a value of 0 to 1, and the smoothing coefficient α depends on the frame length, the level of the degraded sound to be eliminated, and the like. Although the optimum value is different, the value is generally about 0.5.
位相擾乱部10は、振幅平滑化部9から入力された平滑化後のスペクトルの位相成分に擾乱を与え、擾乱後のスペクトルを逆フーリエ変換部11に出力する。各位相成分に擾乱を与える方法としては、乱数を用いて所定範囲の位相角を生成し、これを元々の位相角に加算すれば良い。位相角生成の範囲の制限を設けない場合には、各位相成分を乱数で生成した位相角に単に置換すればよい。符号化などによる劣化が大きい場合には、位相角生成の範囲は制限しない。
The
逆フーリエ変換部11は、位相擾乱部10から入力された擾乱後のスペクトルに対して逆フーリエ変換処理を行うことで、信号領域に戻し、前後のフレームとの滑らかな連接のための窓がけを行いつつ連接していき、得られた信号を変形復号音声34として重み付き加算部18に出力する。
The inverse
信号評価部12内の逆フィルタ部13は、後述する推定雑音スペクトル更新部17内に格納されている推定雑音スペクトルパラメータを用いて、前記音声復号部4から入力された復号音声5に対する逆フィルタ処理を行い、逆フィルタされた復号音声をパワー算出部14に出力する。この逆フィルタ処理によって、背景雑音の振幅が大きい、つまり音声と背景雑音が拮抗している可能性が高い成分の振幅抑圧を行っており、逆フィルタ処理を行わない場合に比べて、音声区間と背景雑音区間の信号パワー比が大きくとれるようになっている。
The
なお、推定雑音スペクトルパラメータは、音声符号化処理や音声復号処理との親和性、ソフトウエアの共有化といった観点で選択する。現状では多くの場合、線スペクトル対(LSP)を使用する。LSPの他にも、線形予測係数(LPC)、ケプストラムなどのスペクトル包絡パラメータ、または振幅スペクトルそのものを用いても類似の効果を得ることができる。後述する推定雑音スペクトル更新部17における更新処理としては線形補間や平均処理などを用いる構成が簡単であり、スペクトル包絡パラメータの中では線形補間や平均処理を行ってもフィルタが安定であることが保証できるLSPとケプストラムが適している。雑音成分のスペクトルに対する表現力としてはケプストラムが優れているが、逆フィルタ部の構成の容易さという点ではLSPが勝る。振幅スペクトルを用いる場合には、この振幅スペクトル特性をもつLPCを算出して逆フィルタに使用するか、復号音声5をフーリエ変換した結果(フーリエ変換部8の出力に等しい)に対して振幅変形処理を行って逆フィルタと同様の効果を実現すればよい。
Note that the estimated noise spectrum parameter is selected from the viewpoints of compatibility with speech encoding processing and speech decoding processing and sharing of software. At present, a line spectrum pair (LSP) is often used. Similar effects can be obtained by using a spectral envelope parameter such as a linear prediction coefficient (LPC), a cepstrum, or the amplitude spectrum itself, in addition to the LSP. It is easy to use a linear interpolation or averaging process as the updating process in the estimated noise
パワー算出部14は、逆フィルタ部13から入力された逆フィルタされた復号音声のパワーを求め、算出されたパワー値を背景雑音らしさ算出部15に出力する。
The
背景雑音らしさ算出部15は、パワー算出部14から入力されたパワーと、後述する推定雑音パワー更新部16内に格納されている推定雑音パワーを用いて、現在の復号音声5の背景雑音らしさを算出し、これを加算制御値35として重み付き加算部18に出力する。また、算出した背景雑音らしさを後述する推定雑音パワー更新部16と推定雑音スペクトル更新部17に対して出力し、パワー算出部14から入力されたパワーを後述する推定雑音パワー更新部16に対して出力する。ここで、背景雑音らしさについては、最も単純には、次式によって算出できる。
The background noise
v = log(pN) − log(p) ・・・ 式2
ここで、pがパワー算出部14から入力されたパワー、pNが推定雑音パワー更新部16内に格納されている推定雑音パワー、vが算出された背景雑音らしさである。
v = log (p N) - log (p) ··· formula 2
Here, p is the power input from the
この場合、vの値が大きい程(負値であればその絶対値が小さい程)背景雑音らしい、ということになる。この他にも、pN/pを計算してvとするなど、様々な算出方法が考えられる。 In this case, the larger the value of v (the smaller the absolute value of a negative value, the smaller the absolute value), the more likely the background noise. In addition, various calculation methods such as calculating p N / p to obtain v are conceivable.
推定雑音パワー更新部16は、背景雑音らしさ算出部15から入力された背景雑音らしさとパワーを用いて、その内部に格納してある推定雑音パワーの更新を行う。例えば、入力された背景雑音らしさが高い(vの値が大きい)時に、次式に従い、入力されたパワーを推定雑音パワーに反映させることで更新を行う。
The estimated noise
log(pN′)= (1−β)log(pN)+βlog(p) ・・・ 式3
ここで、βは0〜1の値を取る更新速度定数で、比較的0に近い値に設定するとよい。この式の右辺の値を求めて、左辺のpN′を新しい推定雑音パワーとすることで更新を行う。
log (p N ') = ( 1-β) log (p N) + βlog (p) ···
Here, β is an update rate constant taking a value of 0 to 1 and may be set to a value relatively close to 0. The value on the right side of this equation is obtained, and updating is performed by setting p N ′ on the left side as a new estimated noise power.
なお、この推定雑音パワーの更新方法については、更に推定精度を向上させるためにフレーム間での変動性を参照したり、入力された過去のパワーを複数格納しておいて、統計分析によって雑音パワーの推定を行ったり、pの最低値をそのまま推定雑音パワーとしたりするなど様々な変形、改良が可能である。 In addition, regarding the method of updating the estimated noise power, the variability between frames is referred to in order to further improve the estimation accuracy, a plurality of input past powers are stored, and the noise power is determined by statistical analysis. Various modifications and improvements are possible, for example, by estimating the minimum value of p and using the lowest value of p as the estimated noise power.
推定雑音スペクトル更新部17は、まず入力された復号音声5を分析して、現在のフレームのスペクトルパラメータを算出する。算出するスペクトルパラメータについては逆フィルタ部13にて説明した通りで、多くの場合LSPを使用する。そして、背景雑音らしさ算出部15から入力され背景雑音らしさとここで算出したスペクトルパラメータを用いて、内部に格納してある推定雑音スペクトルを更新する。例えば、入力された背景雑音らしさが高い(vの値が大きい)時に、次式に従い、算出したスペクトルパラメータを推定雑音スペクトルに反映させることで更新を行う。
The estimated noise
xN′= (1−γ)xN+γx ・・・ 式4
ここで、xが現在のフレームのスペクトルパラメータ、xNが推定雑音スペクトル(パラメータ)である。γは0〜1の値を取る更新速度定数で、比較的0に近い値に設定するとよい。この式の右辺の値を求めて、左辺のxN′を新しい推定雑音スペクトル(パラメータ)とすることで更新を行う。
x N '= (1-γ ) x N + γx ···
Here, x is from the spectrum parameter of the current frame, x N is the estimated noise spectrum (parameter). γ is an update rate constant taking a value of 0 to 1 and may be set to a value relatively close to 0. The value on the right side of this equation is obtained, and x N ′ on the left side is updated as a new estimated noise spectrum (parameter).
なお、この推定雑音スペクトルの更新方法についても、上記推定雑音パワーの更新方法と同様に様々な改良が可能である。 In addition, various improvements can be made to the method for updating the estimated noise spectrum in the same manner as the above-described method for updating the estimated noise power.
そして、最後の処理として、重み付き加算部18は、信号評価部12から入力された加算制御値35に基づいて、音声復号部4から入力された復号音声5と信号変形部7から入力された変形復号音声34を重み付けして加算し、得られた出力音声6を出力する。重み付け加算の制御方法の動作としては、加算制御値35が大きく(背景雑音らしさが高く)なるにつれて復号音声5に対する重みを小さく、変形復号音声34に対する重みを大きく制御する。逆に加算制御値35が小さく(背景雑音らしさが低く)なるにつれて復号音声5に対する重みを大きく、変形復号音声34に対する重みを小さく制御する。
Then, as the last processing, the
なお、フレーム間での重みの急変に伴う出力音声6の品質劣化を抑制するために、加算制御値35または重み付け係数をサンプル毎に徐々に変化するように平滑化を行うことが望ましい。
Note that, in order to suppress the quality deterioration of the
図2には、この重み付け加算部18における、加算制御値に基づく重み付け加算の制御例を示す。
FIG. 2 shows a control example of weighted addition based on the addition control value in the
図2(a)では、加算制御値35に対する2つの閾値v1とv2を用いて線形制御している場合である。加算制御値35がv1未満の場合には、復号音声5に対する重み付け係数wSを1、変形復号音声34に対する重み付け係数wNを0とする。加算制御値35がv2以上の場合には、復号音声5に対する重み付け係数wSを0、変形復号音声34に対する重み付け係数wNをANとする。そして加算制御値35がv1以上でv2未満の場合には、復号音声5に対する重み付け係数wSを1〜0、変形復号音声34に対する重み付け係数wNを0〜ANの間で線形的に計算して与えている。 In FIG. 2 (a), a case where linearly controlled using two threshold v 1 and v 2 for the addition control value 35. Addition control value 35 is the case of less than v 1, the 1 weighting coefficient w S for the decoded speech 5, the weighting coefficient w N to deformation decoded speech 34 to 0. If the addition control value 35 is v 2 or more, the weighting coefficient w S for the decoded speech 5 0, the weighting coefficient w N to deformation decoded speech 34 to A N. And when the addition control value 35 is v less than 2 v 1 or more, linear weighting coefficients w S for the decoded speech 5 1-0, the weighting coefficient w N to deformation decoded speech 34 between 0 to A N Is calculated and given.
この様に制御することで、確実に背景雑音区間であると判断できる場合(v2以上)には変形復号信号34のみが出力され、確実に音声区間であると判断できる場合(v1未満)には復号音声5そのものが出力され、音声区間か背景雑音区間か判断がつかない場合(v1以上v2未満)には、どちらの傾向が強いかに依存した比率で復号音声5と変形復号音声34が混合された結果が出力される。 If this control is that as a reliably only modified decoded signal 34 when (v 2 or more) that can be determined that the background noise interval is output, can be reliably determined that the speech segment (v less than 1) Outputs the decoded speech 5 itself, and if it is not possible to determine whether it is a speech section or a background noise section (v 1 or more and less than v 2 ), the decoded speech 5 and the modified decoding at a ratio depending on which tendency is stronger. The result obtained by mixing the audio 34 is output.
なお、ここで確実に背景雑音区間であると判断できる場合(v2以上)に変形復号信号34に乗じる重み付け係数値ANとして1以下の値を与えれば、結果的に背景雑音区間の振幅抑圧効果が得られる。逆に1以上の値を与えれば、背景雑音区間の振幅強調効果が得られる。背景雑音区間は、音声符号化復号化処理によって振幅低下が起こる場合が多く、その場合には背景雑音区間の振幅強調を行うことによって、背景雑音の再現性を向上することができる。振幅抑圧と振幅強調のどちらを行うかは適用対象、使用者の要求などに依存する。 Note that if you give a value of 1 or less as the weighting coefficient value A N for multiplying the modified decoded signal 34 when (v 2 or more) which can be determined that where a strictly background noise period, resulting in the amplitude suppression of the background noise period The effect is obtained. Conversely, if a value of 1 or more is given, an effect of enhancing the amplitude of the background noise section can be obtained. The amplitude of the background noise section often decreases due to the speech encoding / decoding process. In such a case, the reproducibility of the background noise can be improved by emphasizing the amplitude of the background noise section. Whether to perform amplitude suppression or amplitude emphasis depends on the application target, user requirements, and the like.
図2(b)では、新たな閾値v3を追加し、v1とv3間、v3とv2間で重み付け係数を線形的に計算して与えた場合である。閾値v3の位置における重み付け係数の値を調整することで、音声区間か背景雑音区間か判断がつかない場合( v1以上v2未満)における混合比率を更に細かく設定することができる。一般に位相の相関が低い2つの信号を加算した場合、得られる信号のパワーは加算前の2つの信号のパワーの合計より小さくなる。v1以上v2未満の範囲における2つの重み付け係数の合計を1ないしwNより大きくすることで、このパワー低下を抑制することができる。なお、図2(a)によって得られた重み付け係数の平方根をとって更に定数を乗じた値を新たに重み付け係数とすることによっても同様の効果をもたらすことができる。 In FIG. 2 (b), is to add the new threshold value v 3, v between 1 and v 3, v 3 and v if the weighting factor given by linearly calculated between 2. By adjusting the value of the weighting coefficient at the position of the threshold value v 3, it can be set more finely to the mixing ratio in the case of determining whether the speech segment or the background noise period is not attached (v 1 or v less than 2). Generally, when two signals having low phase correlations are added, the power of the obtained signal is smaller than the sum of the powers of the two signals before the addition. v 1 or v, 1 to the sum of the two weighting factors in the range of less than 2 to be larger than w N, it is possible to suppress the power reduction. The same effect can be obtained by taking a square root of the weighting coefficient obtained in FIG. 2A and further multiplying by a constant to obtain a new weighting coefficient.
図2(c)では、図2(a)のv1未満の範囲における変形復号音声34に与える重み付け係数wNとして0より大きいBNという値を与え、これに応じてv1以上v2未満の範囲におけるwNも修正した場合である。背景雑音レベルが高い場合や、符号化における圧縮率が非常に高い場合など、音声区間における量子化雑音や劣化音が大きい場合には、この様に確実に音声区間と分かっている範囲においても、変形復号音声を加算することで、劣化音を聞こえにくくすることができる。 In FIG. 2 (c), a value of B N greater than 0 is given as a weighting coefficient w N to be applied to the modified decoded speech 34 in a range less than v 1 in FIG. 2 (a), and accordingly, v 1 or more and less than v 2 This is a case where w N in the range is also corrected. If the quantization noise or degraded sound in the voice section is large, such as when the background noise level is high or the compression rate in encoding is very high, even in the range where the voice section is surely known, By adding the modified decoded voice, it is possible to make the degraded sound difficult to hear.
図2(d)は、背景雑音らしさ算出部15において、推定雑音パワーを現在のパワーで除算した結果(pN/p)を背景雑音らしさ(加算制御値35)として出力した場合に対応する制御例である。この場合、加算制御値35は復号音声5中に含まれる背景雑音の比率を示しているので、この値に比例した比率で混合されるように重み付け係数を算出している。具体的には、加算制御値35が1以上の場合にはwNが1でwSが0、1未満の場合には、wNが加算制御値35そのもの、wSが(1−wN)となっている。
FIG. 2D shows a control corresponding to a case where the background noise
図3には、フーリエ変換部8における切り出し窓、逆フーリエ変換部11における連接のための窓の実際の形状例、復号音声5との時間関係を説明する説明図を示す。
FIG. 3 is an explanatory diagram illustrating an example of an actual shape of a cutout window in the
復号音声5は、音声復号部4から所定の時間長(1フレーム長)毎に出力されてくる。ここでこの1フレーム長をNサンプルとする。図3(a)は、この復号音声5の一例を示しており、x(0)〜x(N−1)が入力された現在のフレームの復号音声5に当たる。フーリエ変換部8では、図3(a)に示されるこの復号音声5に対して図3(b)に示す変形台形窓を乗じることで、長さ(N+NX)の信号を切り出す。NXは変形台形窓の両端の1未満の値を持つ区間のそれぞれの長さである。この両端の区間は長さ(2NX)のハニング窓を前半と後半に2分割したものに等しい。逆フーリエ変換部11では、逆フーリエ変換処理によって生成した信号に対して、図3(c)に示す変形台形窓を乗じ、(図3(c)に破線で示すように)前後のフレームで得られた同信号と時間関係を守りつつ信号の加算を行って、連続する変形復号音声34(図3(d))を生成する。
The decoded speech 5 is output from the
次のフレームの信号との連接のための区間(長さNX)については、現在のフレーム時点では変形復号音声34が確定していない。すなわち、新たに確定する変形復号音声34は、x′(−NX)〜x′(N−NX−1)である。このため、現在のフレームの復号音声5に対して得られる出力音声6は、次式の通りとなる。
In the section (length NX) for connection with the signal of the next frame, the modified decoded speech 34 has not been determined at the time of the current frame. That is, the newly determined modified decoded speech 34 is x '(-NX) to x' (N-NX-1). Therefore, the
y(n) = x(n) + x′(n) ・・・ 式5
(n= −NX,…,N−NX−1)
ここで、y(n)が出力音声6である。この時、信号加工部2としての処理遅延は最低でもNXだけ必要となる。
y (n) = x (n) + x ′ (n) Equation 5
(N = -NX, ..., N-NX-1)
Here, y (n) is the
この処理遅延NXが許容できない適用対象の場合、復号音声5と変形復号音声34の時間的ズレを許容して、次式のように出力音声6を生成することもできる。
If the processing delay NX is an application target that cannot be tolerated, the
y(n) = x(n) + x′(n−NX) ・・・ 式6
(n= 0,…,N−1)
この場合、復号音声5と変形復号音声34の時間関係にズレがあるので、位相擾乱部10における擾乱が弱い(つまり復号音声の位相特性がある程度残っている)場合や、フレーム内でスペクトルやパワーが急変する場合には劣化を生じる場合がある。特に重み付き加算部18における重み付け係数が大きく変化するときと、2つの重み付け係数が拮抗している場合に劣化を生じ易い。しかし、それらの劣化は比較的少なく、信号加工部の導入効果の方が十分に大きい。よって処理遅延NXが許容できない適用対象についても、この方法を用いることができる。
y (n) = x (n) + x '(n-NX)
(N = 0, ..., N-1)
In this case, there is a time difference between the decoded speech 5 and the modified decoded speech 34, so that the disturbance in the
なお、この図3の場合、フーリエ変換前と逆フーリエ変換後に変形台形窓を乗じており、連接部分の振幅低下を招く場合がある。この振幅低下も、位相擾乱部10における擾乱が弱い場合に起こりやすい。そのような場合には、フーリエ変換前の窓を方形窓に変更することで振幅低下の抑制が得られる。通常、位相擾乱部10によって位相が大きく変形された結果、逆フーリエ変換後の信号に最初の変形台形窓の形状が現れてこないので、前後のフレームの変形復号音声34とのスムーズな連接のために2つ目の窓がけが必要になる。
In the case of FIG. 3, the modified trapezoidal window is multiplied before the Fourier transform and after the inverse Fourier transform, which may cause a decrease in the amplitude of the connected portion. This decrease in amplitude is likely to occur when the disturbance in the
なお、ここでは、信号変形部7、信号評価部12、重み付け加算部18の処理を全てフレーム毎に行ったが、これに限ったものではない。例えば、1フレームを複数のサブフレームに分割し、信号評価部12の処理をサブフレーム毎に行ってサブフレーム毎の加算制御値35を算出し、重み付け加算部18における重み付け制御もサブフレーム毎に行っても良い。信号変形処理にフーリエ変換を使用しているので、フレーム長があまり短いとスペクトル特性の分析結果が不安定になり、変形復号音声34が安定しにくい。一方、背景雑音らしさはもっと短い区間に対しても比較的安定に算出できるので、サブフレーム毎に算出して重み付けを細かく制御することで音声の立ち上がり部分などにおける品質改善効果が得られる。
Here, the processing of the
また、信号評価部12の処理をサブフレーム毎に行って、フレーム内の全ての加算制御値を組み合わせて、少数の加算制御値35を算出することもできる。音声区間を背景雑音らしいと誤りたくない場合には、全ての加算制御値の内の最小値(背景雑音らしさの最小値)を選択してフレームを代表する加算制御値35として出力すれば良い。 Further, the processing of the signal evaluation unit 12 may be performed for each sub-frame, and a small number of addition control values 35 may be calculated by combining all the addition control values in the frame. If it is not desired to make an error in the voice section as background noise, the minimum value (minimum value of the background noise likeness) of all the addition control values may be selected and output as the addition control value 35 representing the frame.
更に、復号音声5のフレーム長と信号変形部7の処理フレーム長は同一である必要はない。例えば、復号音声5のフレーム長が短くて、信号変形部7内のスペクトル分析にとって短すぎる場合には、複数フレームの復号音声5を蓄積して、一括して信号変形処理を行うようにすれば良い。但し、この場合には、複数フレームの復号音声5を蓄積するために処理遅延が発生してしまう。この他、復号音声5のフレーム長と全く独立に信号変形部7や信号加工部2全体の処理フレーム長を設定しても構わない。この場合、信号のバッファリングが複雑になるが、様々な復号音声5のフレーム長に依存することなく、信号加工処理にとって最適の処理フレーム長を選択でき、信号加工部2の品質が最も良くなる効果がある。
Further, the frame length of the decoded voice 5 and the processing frame length of the
また、ここでは、背景雑音らしさの算出に、逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15、推定背景雑音レベル更新部16、推定雑音スペクトル更新部17を使用したが、背景雑音らしさを評価するものであれば、この構成に限ったものではない。
Also, here, the
この実施の形態1によれば、入力信号(復号音声)に対して所定の信号加工処理を行うことで、入力信号に含まれる劣化成分を主観的に気にならないようにした加工信号(変形復号音声)を生成し、所定の評価値(背景雑音らしさ)によって入力信号と加工信号の加算重みを制御するようにしたので、劣化成分が多く含まれる区間を中心に加工信号の比率を増やして、主観品質を改善できる効果がある。 According to the first embodiment, by performing a predetermined signal processing process on an input signal (decoded voice), a processed signal (deformed decoding) in which a degradation component included in the input signal is not subjectively noticed Voice), and the addition weight of the input signal and the processed signal is controlled by a predetermined evaluation value (likelihood of background noise). Therefore, the ratio of the processed signal is increased centering on a section containing many degraded components. This has the effect of improving subjective quality.
また、スペクトル領域で信号加工処理を行うようにしたことで、スペクトル領域での細かい劣化成分の抑圧処理を行うことができ、更に主観品質を改善できる効果がある。 In addition, since the signal processing is performed in the spectral domain, it is possible to perform a process of suppressing a fine degradation component in the spectral domain, and there is an effect that the subjective quality can be further improved.
また、加工処理として振幅スペクトル成分の平滑化処理と位相スペクトル成分の擾乱付与処理を行うようにしたので、量子化雑音などによって生じる振幅スペクトル成分の不安定な変動を良好に抑圧することができ、更に、位相成分間に独特な相互関係を持ってしまい特徴的な劣化と感じられることが多い量子化雑音に対して、位相成分間の関係に擾乱を与えることができ、主観品質を改善できる効果がある。 In addition, since the smoothing process of the amplitude spectrum component and the disturbance imparting process of the phase spectrum component are performed as the processing, the unstable fluctuation of the amplitude spectrum component caused by quantization noise or the like can be suppressed well. Furthermore, for quantization noise, which has a unique mutual relationship between phase components and is often perceived as characteristic degradation, it is possible to disturb the relationship between phase components, thereby improving the subjective quality. There is.
また、従来の音声区間または背景雑音区間のどちらか、という2値区間判定を廃し、背景雑音らしさという連続量を算出して、これに基づいて連続的に復号音声と変形復号音声の重み付け加算係数を制御するようにしたので、区間判定誤りによる品質劣化を回避できる効果がある。 Further, the conventional binary section determination of either the speech section or the background noise section is abolished, a continuous amount called background noise likeness is calculated, and the weighted addition coefficient of the decoded speech and the modified decoded speech is continuously calculated based on this. Is controlled, so that there is an effect that quality deterioration due to a section determination error can be avoided.
また、音声区間における量子化雑音や劣化音が大きい場合には、確実に音声区間と分かっている区間においても、変形復号音声を加算することで、劣化音を聞こえにくくすることができる効果がある。 Further, when the quantization noise or the degraded sound in the voice section is large, the degraded sound can be made hard to be heard by adding the modified decoded voice even in the section that is surely known as the voice section. .
また、背景雑音の情報が多く含まれている復号音声の加工処理によって出力音声を生成しているので、実際の背景雑音の特性を残しつつ、雑音種やスペクトル形状にあまり依存しない安定な品質改善効果が得られるし、音源符号化などによる劣化成分に対しても改善効果が得られる効果がある。 In addition, since the output speech is generated by processing the decoded speech that contains a lot of background noise information, stable quality improvement that does not depend much on the noise type or spectrum shape while maintaining the characteristics of the actual background noise An effect is obtained, and an improvement effect is obtained even for a degradation component due to excitation coding or the like.
また、現在までの復号音声を用いて処理を行うので特に大きな遅延時間は不要で、復号音声と変形復号音声の加算方法によっては処理時間以外の遅延を排除することもできる効果がある。変形復号音声のレベルを上げる際には復号音声のレベルを下げていくので、従来のように量子化雑音を聞こえなくするために大きな疑似雑音を重畳することも不要で、逆に適用対象に応じて、背景雑音レベルを小さ目にしたり、大き目にしたりすることすら可能である。また、当然のことであるが、音声復号装置または信号加工部内に閉じた処理であるので従来のような新たな伝送情報の追加は不要である。 Further, since the processing is performed using the decoded voice up to the present time, a particularly large delay time is not required, and there is an effect that a delay other than the processing time can be eliminated depending on the method of adding the decoded voice and the modified decoded voice. When raising the level of the modified decoded voice, the level of the decoded voice is reduced, so it is not necessary to superimpose large pseudo noise to make the quantization noise inaudible as in the past. Thus, it is possible to make the background noise level small or even large. Needless to say, since the processing is closed in the audio decoding device or the signal processing unit, it is not necessary to add new transmission information as in the related art.
更に、この実施の形態1では、音声復号部と信号加工部が明確に分離されており、両者の間の情報のやりとりも少ないので、既存のものも含めて様々な音声復号装置内に導入することが容易である。 Further, in the first embodiment, the audio decoding unit and the signal processing unit are clearly separated, and information exchange between the two is small. Therefore, the audio decoding unit is introduced into various audio decoding devices including the existing one. It is easy.
実施の形態2.
図4は、本実施の形態による音信号加工方法を雑音抑圧方法と組み合わて適用した音信号加工装置の構成の一部を示す。図中36は入力信号、8はフーリエ変換部、19は雑音抑圧部、39はスペクトル変形部、12は信号評価部、18は重み付き加算部、11は逆フーリエ変換部、40は出力信号である。スペクトル変形部39は、振幅平滑化部9、位相擾乱部10より構成されている。
以下、図に基づいて動作を説明する。
Embodiment 2 FIG.
FIG. 4 shows a part of the configuration of a sound signal processing apparatus to which the sound signal processing method according to the present embodiment is applied in combination with the noise suppression method. In the figure, 36 is an input signal, 8 is a Fourier transform unit, 19 is a noise suppression unit, 39 is a spectrum transforming unit, 12 is a signal evaluation unit, 18 is a weighted addition unit, 11 is an inverse Fourier transform unit, and 40 is an output signal. is there. The spectrum deforming section 39 includes an amplitude smoothing section 9 and a
The operation will be described below with reference to the drawings.
まず、入力信号36が、フーリエ変換部8と信号評価部12に入力される。
First, the
フーリエ変換部8は、入力された現フレームの入力信号36と必要に応じ前フレームの入力信号36の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを雑音抑圧部19に出力する。なお、フーリエ変換処理および窓がけ処理については実施の形態1と同様である。
The
雑音抑圧部19は、フーリエ変換部8より入力された周波数毎のスペクトル成分から、雑音抑圧部19内部に格納してある推定雑音スペクトルを減算し、得られた結果を雑音抑圧スペクトル37として重み付け加算部18とスペクトル変形部39内の振幅平滑化部9に出力する。これは、いわゆるスペクトルサブトラクション処理の主部に相当する処理である。そして、雑音抑圧部19は、背景雑音区間であるか否かの判定を行い、背景雑音区間であればフーリエ変換部8より入力された周波数毎のスペクトル成分を用いて、内部の推定雑音スペクトルを更新する。なお、背景雑音区間であるか否かの判定は、後述する信号評価部12の出力結果を流用して行うことで処理を簡易化することも可能である。
The
スペクトル変形部39内の振幅平滑化部9は、雑音抑圧部19より入力された雑音抑圧スペクトル37の振幅成分に対して平滑化処理を行い、平滑化後の雑音抑圧スペクトルを位相擾乱部10に出力する。ここで用いる平滑化処理としては、周波数軸方向、時間軸方向の何れを用いても、雑音抑圧部が発生させた劣化音の抑制効果が得られる。具体的な平滑化方法については実施の形態1と同様のものを用いることができる。
The amplitude smoothing unit 9 in the spectrum transformation unit 39 performs a smoothing process on the amplitude component of the noise suppression spectrum 37 input from the
スペクトル変形部39内の位相擾乱部10は、振幅平滑化部9から入力された平滑化後の雑音抑圧スペクトルの位相成分に擾乱を与え、擾乱後のスペクトルを変形雑音抑圧スペクトル38として重み付き加算部18に出力する。各位相成分に擾乱を与える方法については実施の形態1と同様のものを用いることができる。
The
信号評価部12は、入力信号36を分析して背景雑音らしさを算出し、これを加算制御値35として重み付け加算部18に出力する。なお、この信号評価部12内の構成と各処理については、実施の形態1と同様のものを用いることができる。
The signal evaluation unit 12 analyzes the
重み付き加算部18は、信号評価部12から入力された加算制御値35に基づいて、雑音抑圧部19から入力された雑音抑圧スペクトル37とスペクトル変形部39から入力された変形雑音抑圧スペクトル38を重み付けして加算し、得られたスペクトルを逆フーリエ変換部11に出力する。重み付け加算の制御方法の動作としては、実施の形態1と同様に、加算制御値35が大きく(背景雑音らしさが高く)なるにつれて雑音抑圧スペクトル37に対する重みを小さく、変形雑音抑圧スペクトル38に対する重みを大きく制御する。逆に加算制御値35が小さく(背景雑音らしさが低く)なるにつれて雑音抑圧スペクトル37に対する重みを大きく、変形雑音抑圧スペクトル38に対する重みを小さく制御する。
The
そして、最後の処理として、逆フーリエ変換部11は、重み付き加算部18から入力されたスペクトルに対して逆フーリエ変換処理を行うことで、信号領域に戻し、前後のフレームとの滑らかな連接のための窓がけを行いつつ連接していき、得られた信号を出力信号40として出力する。連接のための窓がけと連接処理については、実施の形態1と同様である。
Then, as the last process, the inverse
この実施の形態2によれば、雑音抑圧処理等によって劣化したスペクトルに対して所定の加工処理を行うことで、劣化成分を主観的に気にならないようにした加工スペクトル(変形雑音抑圧スペクトル)を生成し、所定の評価値(背景雑音らしさ)によって加工前のスペクトルと加工スペクトルの加算重みを制御するようにしたので、劣化成分が多く含まれて主観品質の低下につながっている区間(背景雑音区間)を中心に加工スペクトルの比率を増やして、主観品質を改善できる効果がある。 According to the second embodiment, by performing a predetermined processing on the spectrum degraded by the noise suppression processing or the like, a processed spectrum (deformed noise suppression spectrum) in which the degraded component is not subjectively noticed can be obtained. Since the added weight of the spectrum before processing and the processed spectrum is controlled by a predetermined evaluation value (likelihood of background noise), a section (background noise) containing many degraded components and leading to a decrease in subjective quality is generated. The effect of improving the subjective quality is to increase the ratio of the processing spectrum around the section).
また、スペクトル領域での重み付け加算を行うようにしたので、実施の形態1に比べると加工処理のためのフーリエ変換と逆フーリエ変換が不要となり、処理が簡易になる効果がある。なお、この実施の形態2におけるフーリエ変換部8と逆フーリエ変換11は、雑音抑圧部19のために元々必要な構成である。
Further, since the weighted addition is performed in the spectral domain, the Fourier transform and the inverse Fourier transform for the processing are not required as compared with the first embodiment, and the processing is simplified. Note that the
また、加工処理として振幅スペクトル成分の平滑化処理と位相スペクトル成分の擾乱付与処理を行うようにしたので、量子化雑音などによって生じる振幅スペクトル成分の不安定な変動を良好に抑圧することができ、更に、位相成分間に独特な相互関係を持ってしまい特徴的な劣化と感じられることが多い量子化雑音や劣化成分に対して、位相成分間の関係に擾乱を与えることができ、主観品質を改善できる効果がある。 In addition, since the smoothing process of the amplitude spectrum component and the disturbance imparting process of the phase spectrum component are performed as the processing, the unstable fluctuation of the amplitude spectrum component caused by quantization noise or the like can be suppressed well. Furthermore, it is possible to disturb the relationship between the phase components with respect to the quantization noise and the deteriorated components, which often have a characteristic mutual relationship between the phase components and are felt as characteristic degradation, thereby improving the subjective quality. There is an effect that can be improved.
また、背景雑音区間であるか否かという2値区間判定ではなく、背景雑音らしさという連続量を算出して、これに基づいて連続的に重み付け加算係数を制御するようにしたので、区間判定誤りによる品質劣化を回避できる効果がある。 Also, instead of a binary section determination as to whether or not the section is a background noise section, a continuous amount called background noise likeness is calculated and the weighted addition coefficient is continuously controlled based on the calculated amount. This has the effect of avoiding quality degradation due to
また、背景雑音区間以外における劣化音が大きい場合には、図2(c)のような重み付け加算を行うことで、確実に背景雑音区間以外と分かっている区間においても変形雑音抑圧スペクトルを加算し、劣化音を聞こえにくくすることができる効果がある。 When the degraded sound is large outside the background noise section, the weighted addition as shown in FIG. 2C is performed, so that the modified noise suppression spectrum is added even in the section that is surely known to be outside the background noise section. This has the effect of making it difficult to hear the degraded sound.
また、雑音抑圧スペクトルに対して、単純な処理を直接施して変形雑音抑圧スペクトルを生成しているので、雑音種やスペクトル形状にあまり依存しない安定な品質改善効果が得られる効果がある。 Further, since the modified noise suppression spectrum is generated by directly performing a simple process on the noise suppression spectrum, there is an effect that a stable quality improvement effect which is not so dependent on the noise type and the spectrum shape is obtained.
また、現在までの雑音抑圧スペクトルを用いて処理を行うので、雑音抑圧部19の遅延時間に追加して、大きな遅延時間がいらない特長を持つ。変形雑音抑圧スペクトルの加算レベルをあげる際には元々の雑音抑圧スペクトルの加算レベルを下げていくので、量子化雑音を聞こえなくするために比較的大きな雑音を重畳することも不要で、背景雑音レベルを小さくすることができる効果がある。また、当然のことであるが、この処理を音声符号化処理の前処理などとして用いる場合にも、符号化部内に閉じた処理となるので従来のような新たな伝送情報の追加は不要である。
In addition, since the processing is performed using the noise suppression spectrum up to the present time, in addition to the delay time of the
実施の形態3.
図1との対応部分に同一符号を付けた図5は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中20は信号変形部7の変形強度を制御する情報を出力する変形強度制御部である。変形強度制御部20は、聴覚重み付け部21、フーリエ変換部22、レベル判定部23、連続性判定部24、変形強度算出部25より構成されている。
FIG. 5 in which the same reference numerals are assigned to the parts corresponding to those in FIG. 1 shows the overall configuration of a speech decoding apparatus to which the sound signal processing method according to the present embodiment is applied. This is a deformation strength control unit that outputs information to be performed. The deformation intensity control unit 20 includes an
以下、図に基づいて動作を説明する。 The operation will be described below with reference to the drawings.
音声復号部4から出力された復号音声5が、信号加工部2内の信号変形部7、変形強度制御部20、信号評価部12、重み付き加算部18に入力される。
The decoded speech 5 output from the
変形強度制御部20内の聴覚重み付け部21は、音声復号部4より入力された復号音声5に対して、聴覚重み付け処理を行い、得られた聴覚重み付け音声をフーリエ変換部22に出力する。ここで、聴覚重み付け処理としては、音声符号化処理(音声復号部4で行った音声復号処理と対を成すもの)で使用されているものと同様な処理を行う。
The
CELPなどの符号化処理で良く用いられる聴覚重み付け処理は、符号化対象の音声を分析して線形予測係数(LPC)を算出し、これに定数乗算を行って2つの変形LPCを求め、この2つの変形LPCをフィルタ係数とするARMAフィルタを構成し、このフィルタを用いたフィルタリング処理によって聴覚重み付けを行う、というものである。復号音声5に対して符号化処理と同様の聴覚重み付けを行うためには、受信した音声符号3を復号して得られたLPC、もしくは復号音声5を再分析して算出したLPCを出発点として、2つの変形LPCを求め、これを用いて聴覚重み付けフィルタを構成すれば良い。
Perceptual weighting processing often used in coding processing such as CELP is to analyze a speech to be coded, calculate a linear prediction coefficient (LPC), and perform constant multiplication to obtain two modified LPCs. An ARMA filter using the two modified LPCs as filter coefficients is configured, and auditory weighting is performed by a filtering process using these filters. In order to perform the same auditory weighting on the decoded speech 5 as in the encoding process, an LPC obtained by decoding the received
CELPなどの符号化処理では、聴覚重み付け後の音声上での歪みを最小化するように符号化を行うので、聴覚重み付け後の音声において、振幅が大きいスペクトル成分は、量子化雑音の重畳が少ない、ということになる。従って、符号化時の聴覚重み付け音声に近い音声を復号化部1内で生成できれば、信号変形部7における変形強度の制御情報として有用である。
In an encoding process such as CELP, encoding is performed so as to minimize distortion on the audio after the hearing weighting. In the audio after the hearing weighting, a spectral component having a large amplitude has a small amount of superposition of quantization noise. ,It turns out that. Therefore, if a speech close to the auditory weighting speech at the time of encoding can be generated in the
なお、音声復号部4における音声復号処理にスペクトルポストフィルタなどの加工処理が含まれている場合(CELPの場合にはほとんどに含まれている)には、本来であればまず復号音声5からスペクトルポストフィルタなどの加工処理の影響を除去した音声を生成するか、音声復号部4内からこの加工処理直前の音声を抽出するかして、該音声に対して聴覚重み付けを行うことによって、符号化時の聴覚重み付け音声に近い音声が得られる。しかし、背景雑音区間の品質改善を主な目的とする場合には、この区間におけるスペクトルポストフィルタなどの加工処理の影響は少なく、その影響を除去しなくても効果に大差は出ない。この実施の形態3は、スペクトルポストフィルタなどの加工処理の影響除去を行わない構成としている。
If the speech decoding process in the
なお、当然のことであるが、符号化処理において聴覚重み付けを行っていない場合や、その効果が小さくて無視しても良い場合には、この聴覚重み付け部21は不要となる。その場合、信号変形部7内のフーリエ変換部8の出力を、後述するレベル判定部23と連続性判定部24に与えればよいので、フーリエ変換部22も不要とできる。
Needless to say, the
更に、スペクトル領域でも非線型振幅変換処理など聴覚重み付けに近い効果をもたらす方法があるので、符号化処理内で使用している聴覚重み付け方法との誤差を無視して構わない場合には、信号変形部7内のフーリエ変換部8の出力をこの聴覚重み付け部21への入力とし、聴覚重み付け部21がこの入力に対してスペクトル領域での聴覚重み付けを行い、フーリエ変換部22を省略して、後述するレベル判定部23と連続性判定部24に聴覚重み付けされたスペクトルを出力するように構成することも可能である。
Furthermore, since there is a method that provides an effect similar to auditory weighting in the spectral domain, such as non-linear amplitude conversion processing, if an error from the auditory weighting method used in the encoding processing can be ignored, signal deformation is performed. The output of the
変形強度制御部20内のフーリエ変換部22は、聴覚重み付け部21より入力された聴覚重み付け音声と必要に応じ前フレームの聴覚重み付け音声の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを聴覚重み付けスペクトルとしてレベル判定部23と連続性判定部24に出力する。なお、フーリエ変換処理および窓がけ処理については実施の形態1のフーリエ変換部8と同様である。
The
レベル判定部23は、フーリエ変換部22から入力された聴覚重み付けスペクトルの各振幅成分の値の大きさに基づいて、各周波数毎の第一の変形強度を算出し、これを変形強度算出部25に出力する。聴覚重み付けスペクトルの各振幅成分の値が小さい程量子化雑音の比率が大きいので、第一の変形強度を強くすればよい。最も単純には、全振幅成分の平均値を求めて、この平均値に所定の閾値Thを加算して、これを上回る成分に対しては第一の変形強度を0、これを下回る成分に対しては第一の変形強度を1とすればよい。図6には、この閾値Thを用いた場合の聴覚重み付けスペクトルと第一の変形強度の関係を示す。なお、第一の変形強度の算出方法はこれに限定されるものではない。
The
連続性判定部24は、フーリエ変換部22から入力された聴覚重み付けスペクトルの各振幅成分または各位相成分の時間方向の連続性を評価し、この評価結果に基づいて、各周波数毎の第二の変形強度を算出し、これを変形強度算出部25に出力する。聴覚重み付けスペクトルの振幅成分の時間方向の連続性、位相成分の(フレーム間の時間推移による位相の回転を補償した後の)連続性が低い周波数成分については、良好な符号化が行われていたとは考えにくいので、第二の変形強度を強くする。この第二の変形強度の算出についても、最も単純には所定の閾値を用いた判定によって0または1を与える方法を用いることができる。
The
変形強度算出部25は、レベル判定部23より入力された第一の変形強度と、連続性判定部24より入力された第二の変形強度に基づいて、各周波数毎の最終的な変形強度を算出し、これを信号変形部7内の振幅平滑化部9と位相擾乱部10に出力する。この最終的な変形強度については、第一の変形強度と第二の変形強度の最小値、重み付き平均値、最大値などを用いることができる。 以上でこの実施の形態3にて新たに加わった変形強度制御部20の動作の説明を終了する。
The deformation
次に、この変形強度制御部20の追加に伴って、動作に変更がある構成要素について説明する。 Next, a description will be given of components whose operations are changed with the addition of the deformation strength control unit 20.
振幅平滑化部9は、変形強度制御部20より入力された変形強度に従い、フーリエ変換部8から入力された周波数毎のスペクトルの振幅成分に対して平滑化処理を行い、平滑化後のスペクトルを位相擾乱部10に出力する。なお、変形強度が強い周波数成分程、平滑化を強めるように制御する。平滑化強度の強さを制御する最も単純な方法は、入力された変形強度が大きいときにのみ平滑化を行うようにすればよい。この他にも平滑化を強める方法としては、実施の形態1で説明した平滑化の数式における平滑化係数αを小さくしたり、固定的な平滑化を行った後のスペクトルと平滑化前のスペクトルを重み付き加算して最終的なスペクトルを生成するように構成しておき、平滑化前のスペクトルに対する重みを小さくするなど様々な方法を用いることができる。
The amplitude smoothing unit 9 performs a smoothing process on the amplitude component of the spectrum for each frequency input from the
位相擾乱部10は、変形強度制御部20より入力された変形強度に従い、振幅平滑化部9から入力された平滑化後のスペクトルの位相成分に擾乱を与え、擾乱後のスペクトルを逆フーリエ変換部11に出力する。なお、変形強度が強い周波数成分程、位相の擾乱を大きく与えるように制御する。擾乱の大きさを制御する最も単純な方法は、入力された変形強度が大きいときにのみ擾乱を与えるようにすればよい。この他にも擾乱を制御する方法としては、乱数で生成する位相角の範囲を大小させるなど様々な方法を用いることができる。
The
その他の構成要素については、実施の形態1と同様であるため説明を省略する。 The other components are the same as those in the first embodiment, and a description thereof will not be repeated.
なお、ここでは、レベル判定部23と連続性判定部24の両方の出力結果を使用したが、一方だけを使用するようにして、残るもう一方は省略する構成も可能である。また、変形強度によって制御する対象を、振幅平滑化部9と位相擾乱部10の一方のみとする構成でも構わない。
Here, the output results of both the
この実施の形態3によれば、入力信号(復号音声)または聴覚重み付けされた入力信号(復号音声)の各周波数成分毎の振幅の大きさ、各周波数毎の振幅や位相の連続性の大きさに基づいて、加工信号(変形復号音声)を生成する際の変形強度を周波数毎に制御するようにしたので、実施の形態1が持つ効果に加えて、前記振幅スペクトル成分が小さいために量子化雑音や劣化成分が支配的になっている成分、スペクトル成分の連続性が低いために量子化雑音や劣化成分が多くなりがちな成分に対して重点的に加工が加えられ、量子化雑音や劣化成分が少ない良好な成分まで加工してしまうことがなくなり、入力信号や実際の背景雑音の特性を比較的良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。 According to the third embodiment, the magnitude of the amplitude of each frequency component of the input signal (decoded speech) or the input signal (decoded speech) weighted by the auditory sense, and the magnitude of the continuity of the amplitude and phase of each frequency Is used to control the deformation intensity at the time of generating a processed signal (deformed decoded voice) for each frequency. In addition to the effects of the first embodiment, quantization is performed because the amplitude spectrum component is small. The noise and degraded components are dominant, and the continuity of the spectral components is low, so the quantization noise and degraded components are likely to be increased. Eliminates processing of good components with few components.Effects of subjectively suppressing quantization noise and degraded components while maintaining relatively good characteristics of input signals and actual background noise, thereby improving subjective quality. There .
実施の形態4.
図5との対応部分に同一符号を付けた図7は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中41は加算制御値分割部であり、図5における信号変形部7の部分は、フーリエ変換部8、スペクトル変形部39、逆フーリエ変換部11の構成に変更している。
FIG. 7 in which parts corresponding to those in FIG. 5 are assigned the same reference numerals shows the overall configuration of a speech decoding apparatus to which the sound signal processing method according to the present embodiment is applied. In FIG. 7,
以下、図に基づいて動作を説明する。 The operation will be described below with reference to the drawings.
音声復号部4から出力された復号音声5は、信号加工部2内のフーリエ変換部8、変形強度制御部20、信号評価部12に入力される。
The decoded voice 5 output from the
フーリエ変換部8は、実施の形態2と同様にして、入力された現フレームの復号音声5と必要に応じ前フレームの復号音声5の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを復号音声スペクトル43として重み付き加算部18とスペクトル変形部39内の振幅平滑化部9に出力する。
The
スペクトル変形部39は、実施の形態2と同様にして、入力された復号音声スペクトル43に対して、振幅平滑化部9、位相擾乱部10の処理を順に行い、得られたスペクトルを変形復号音声スペクトル44として、重み付き加算部18に出力する。
The spectrum deforming unit 39 performs the processing of the amplitude smoothing unit 9 and the
変形強度制御部20内では、実施の形態3と同様に、入力された復号音声5に対して、聴覚重み付け部21、フーリエ変換部22、レベル判定部23、連続性判定部24、変形強度算出部25の処理を順次行い、得られた周波数毎の変形強度を加算制御値分割部41に出力する。
In the deformation intensity control unit 20, as in the third embodiment, the
なお、実施の形態3と同様に、符号化処理において聴覚重み付けを行っていない場合や、その効果が小さい場合には、聴覚重み付け部21とフーリエ変換部22は不要となる。その場合、フーリエ変換部8の出力を、レベル判定部23と連続性判定部24に与えればよい。
Note that, as in the third embodiment, when the auditory weighting is not performed in the encoding process or when the effect is small, the
また、フーリエ変換部8の出力をこの聴覚重み付け部21への入力とし、聴覚重み付け部21がこの入力に対してスペクトル領域での聴覚重み付けを行い、フーリエ変換部22を省略して、後述するレベル判定部23と連続性判定部24に聴覚重み付けされたスペクトルを出力するように構成することも可能である。この様に構成することで、処理の簡易化効果が得られる。
The output of the
信号評価部12は、実施の形態1と同様に、入力された復号音声5に対して、背景雑音らしさを求めて、これを加算制御値35として加算制御値分割部41に出力する。
As in the first embodiment, the signal evaluation unit 12 obtains the likelihood of background noise from the input decoded speech 5 and outputs this as an addition control value 35 to the addition control
新たに加えられた加算制御値分割部41は、変形強度制御部20から入力された周波数毎の変形強度と、信号評価部12から入力された加算制御値35を用いて、周波数毎の加算制御値42を生成し、これを重み付き加算部18に出力する。変形強度が強い周波数については、その周波数の加算制御値42の値を制御して、重み付き加算部18における復号音声スペクトル43の重みを弱く、変形復号音声スペクトル44の重みを強くする。逆に変形強度が弱い周波数については、その周波数の加算制御値42の値を制御して、重み付き加算部18における復号音声スペクトル43の重みを強く、変形復号音声スペクトル44の重みを弱くする。つまり、変形強度が強い周波数については、背景雑音らしさが高いわけであるので、その周波数の加算制御値42を大きくし、逆の場合には、小さくするわけである。
The newly added addition control
重み付き加算部18は、加算制御値分割部41から入力された周波数毎の加算制御値42に基づいて、フーリエ変換部8から入力された復号音声スペクトル43とスペクトル変形部39から入力された変形復号音声スペクトル44を重み付けして加算し、得られたスペクトルを逆フーリエ変換部11に出力する。重み付け加算の制御方法の動作としては、図2にて説明したのと同様に、周波数毎の加算制御値42が大きい(背景雑音らしさが高い)周波数成分に対しては復号音声スペクトル43に対する重みを小さく、変形復号音声スペクトル44に対する重みを大きく制御する。逆に周波数毎の加算制御値42が小さい(背景雑音らしさが低い)周波数成分に対しては復号音声スペクトル43に対する重みを大きく、変形復号音声スペクトル44に対する重みを小さく制御する。
The
そして、最後の処理として、逆フーリエ変換部11は、実施の形態2と同様にして、重み付き加算部18から入力されたスペクトルに対して逆フーリエ変換処理を行うことで、信号領域に戻し、前後のフレームとの滑らかな連接のための窓がけを行いつつ連接していき、得られた信号を出力音声6として出力する。
Then, as the last process, the inverse
なお、加算制御値分割部41を廃して、信号評価部12の出力を重み付き加算部18に与え、変形強度制御部20の出力である変形強度を振幅平滑化部9と位相擾乱部10に与える構成も可能である。この様にしたものは、実施の形態3の構成における重み付き加算処理をスペクトル領域で行うようにしたものに相当する。
Note that the addition control
更に、実施の形態3の場合と同様に、レベル判定部23と連続性判定部24の一方だけを使用するようにして、残るもう一方は省略する構成も可能である。
この実施の形態4によれば、入力信号(復号音声)または聴覚重み付けされた入力信号(復号音声)の各周波数成分毎の振幅の大きさ、各周波数毎の振幅や位相の連続性の大きさに基づいて、入力信号のスペクトル(復号音声スペクトル)と加工スペクトル(変形復号音声スペクトル)の重み付け加算を周波数成分毎に独立に制御するようにしたので、実施の形態1が持つ効果に加えて、前記振幅スペクトル成分が小さいために量子化雑音や劣化成分が支配的になっている成分、スペクトル成分の連続性が低いために量子化雑音や劣化成分が多くなりがちな成分に対して重点的に加工スペクトルの重みを強め、量子化雑音や劣化成分が少ない良好な成分まで加工スペクトルの重みを強めてしまうことがなくなり、入力信号や実際の背景雑音の特性を比較的良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。
Further, similarly to the case of the third embodiment, a configuration is possible in which only one of the
According to the fourth embodiment, the magnitude of the amplitude of each frequency component of the input signal (decoded speech) or the input signal (decoded speech) weighted by auditory sense, and the magnitude of the continuity of the amplitude and phase of each frequency , The weighted addition of the spectrum of the input signal (decoded speech spectrum) and the processed spectrum (deformed decoded speech spectrum) are controlled independently for each frequency component. In addition to the effects of the first embodiment, The components in which the quantization noise and the degraded components are dominant because the amplitude spectrum components are small, and the components in which the quantization noise and the degraded components tend to be increased due to the low continuity of the spectral components. By increasing the weight of the processing spectrum, the weight of the processing spectrum will not be strengthened even to a good component with less quantization noise and degraded components. While leaving sex relatively good can subjectively suppressed quantization noise or the degraded component, there is an effect of improving the subjective quality.
実施の形態3と比較すると、平滑化と擾乱という2つの周波数毎の変形処理から、1つの周波数毎の変形処理に変わっており、処理が簡易化される効果がある。 Compared with the third embodiment, the transformation processing for each frequency, namely, smoothing and disturbance, is changed to the transformation processing for each frequency, which has the effect of simplifying the processing.
実施の形態5.
図5との対応部分に同一符号を付けた図8は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中26は背景雑音らしさ(加算制御値35)の時間方向の変動性を判定する変動性判定部である。
Embodiment 5 FIG.
FIG. 8 in which the same reference numerals are assigned to parts corresponding to those in FIG. 5 shows the entire configuration of a speech decoding apparatus to which the sound signal processing method according to the present embodiment is applied. In the figure,
以下、図に基づいて動作を説明する。 The operation will be described below with reference to the drawings.
音声復号部4から出力された復号音声5が、信号加工部2内の信号変形部7、変形強度制御部20、信号評価部12、重み付き加算部18に入力される。 信号評価部12は、入力された復号音声5に対して、背景雑音らしさを評価し、評価結果を加算制御値35として、変動性判定部26と重み付き加算部18に出力する。
The decoded speech 5 output from the
変動性判定部26は、信号評価部12より入力された加算制御値35を、その内部に格納している過去の加算制御値35と比較し、値の時間方向の変動性が高いか否かを判定し、この判定結果に基づいて第三の変形強度を算出し、これを変形強度制御部20内の変形強度算出部25に出力する。そして、入力された加算制御値35を用いて内部に格納している過去の加算制御値35を更新する。
加算制御値35などのフレーム(またはサブフレーム)の特性を表すパラメータの時間方向の変動性が高い場合には、復号音声5のスペクトルが時間方向に大きく変化している場合が多く、必要以上に強い振幅平滑化や位相擾乱付与を行うと不自然な反響感が発生してしまう。そこで、この第三の変形強度は、加算制御値35の時間方向の変動性が高い場合には、振幅平滑化部9における平滑化と位相擾乱部10における擾乱付与が弱くなるように設定する。なお、フレーム(またはサブフレーム)の特性を表すパラメータであれば、復号音声のパワー、スペクトル包絡パラメータなど、加算制御値35以外のパラメータを用いても同様の効果を得ることができる。
The
If the time direction variability of a parameter representing the characteristics of a frame (or a subframe) such as the addition control value 35 is high, the spectrum of the decoded speech 5 often changes greatly in the time direction, which is more than necessary. When strong amplitude smoothing or phase disturbance is applied, an unnatural reverberation is generated. Therefore, the third deformation strength is set such that when the variability in the time direction of the addition control value 35 is high, the smoothing in the amplitude smoothing unit 9 and the disturbance application in the
変動性の判定方法としては、最も単純には、前フレームの加算制御値35との差分の絶対値を所定の閾値と比較して、閾値を上回っていれば変動性が高い、とすれば良い。この他、前フレームおよび前々フレームの加算制御値35との差分の絶対値を各々算出して、その一方が所定の閾値を上回っているか否かで判定してもよい。また、信号評価部12がサブフレーム毎に加算制御値35を算出する場合には、現在のフレーム内または必要に応じて前フレーム内の全サブフレーム間の加算制御値35の差分の絶対値を求めて、何れかが所定の閾値を上回っているか否かで判定することもできる。そして、具体的な処理例としては、閾値を上回っていれば第三の変形強度を0、閾値を下回っていれば第三の変形強度を1とする。 The simplest method of determining the variability is to compare the absolute value of the difference from the addition control value 35 of the previous frame with a predetermined threshold, and determine that the variability is high if the absolute value exceeds the threshold. . Alternatively, the absolute value of the difference between the addition control value 35 of the previous frame and the two frames before the previous frame may be calculated, and the determination may be made based on whether one of them exceeds a predetermined threshold. When the signal evaluation unit 12 calculates the addition control value 35 for each subframe, the signal evaluation unit 12 calculates the absolute value of the difference between the addition control values 35 between all the subframes in the current frame or, if necessary, in the previous frame. In this case, it can be determined whether or not any of them exceeds a predetermined threshold. Then, as a specific processing example, the third deformation intensity is set to 0 when the value exceeds the threshold value, and the third deformation intensity is set to 1 when the value is lower than the threshold value.
変形強度制御部20内では、入力された復号音声5に対して、聴覚重み付け部21、フーリエ変換部22、レベル判定部23、連続性判定部24までは、実施の形態3と同様な処理を行う。
In the deformation strength control unit 20, the same processing as in the third embodiment is performed on the input decoded speech 5 up to the
そして、変形強度算出部25では、レベル判定部23より入力された第一の変形強度、連続性判定部24より入力された第二の変形強度、変動性判定部26より入力された第三の変形強度に基づいて、各周波数毎の最終的な変形強度を算出し、これを信号変形部7内の振幅平滑化部9と位相擾乱部10に出力する。この最終的な変形強度の算出方法としては、第三の変形強度を全周波数に対して一定値として与え、周波数毎にこの全周波数に拡張した第三の変形強度、第一の変形強度、第二の変形強度の最小値、重み付き平均値、最大値などを求めて最終的な変形強度とする、という方法を用いることができる。
Then, in the deformation
以降の信号変形部7、重み付き加算部18の動作は、実施の形態3と同様であり、説明を省略する。
The subsequent operations of the
なお、ここでは、レベル判定部23と連続性判定部24の両方の出力結果を使用したが、一方だけを使用するようにしたり、両方とも使用しない構成も可能である。また、変形強度によって制御する対象を、振幅平滑化部9と位相擾乱部10の一方のみとしたり、第三の変形強度については一方のみを制御対象とする構成でも構わない。
Here, although the output results of both the
この実施の形態5によれば、実施の形態3の構成に加えて、平滑化強度または擾乱付与強度を、所定の評価値(背景雑音らしさ)の時間変動性(フレームまたはサブフレーム間の変動性)の大きさによって制御するようにしたので、実施の形態3が持つ効果に加えて、入力信号(復号音声)の特性が変動している区間において必要以上に強い加工処理を抑止でき、なまけ、エコー(反響感)の発生を防止できる効果がある。 According to the fifth embodiment, in addition to the configuration of the third embodiment, the smoothing strength or the disturbance imparting strength is determined by changing the temporal variability (variability between frames or subframes) of a predetermined evaluation value (likelihood of background noise). ), It is possible to suppress unnecessarily strong processing in a section where the characteristics of the input signal (decoded voice) fluctuate, in addition to the effects of the third embodiment. This has the effect of preventing the occurrence of echo.
実施の形態6.
図5との対応部分に同一符号を付けた図9は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示す。図中27は摩擦音らしさ評価部、31は背景雑音らしさ評価部、45は加算制御値算出部である。摩擦音らしさ評価部27は、低域カットフィルタ28、零交差数カウント部29、摩擦音らしさ算出部30より構成される。背景雑音らしさ評価部31は、図5における信号評価部12と同じ構成であり、逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15、推定雑音パワー更新部16、推定雑音スペクトル更新部17より構成される。信号評価部12は、図5の場合と異なり、摩擦音らしさ評価部27、背景雑音らしさ評価部31、加算制御値算出部45より構成される。
FIG. 9 in which parts corresponding to those in FIG. 5 are assigned the same reference numerals shows the overall configuration of a speech decoding apparatus to which the sound signal processing method according to the present embodiment is applied. In the figure, reference numeral 27 denotes a friction noise likeness evaluation unit, 31 denotes a background noise likeness evaluation unit, and 45 denotes an addition control value calculation unit. The fricative sound likeness evaluation unit 27 includes a low
以下、図に基づいて動作を説明する。 The operation will be described below with reference to the drawings.
音声復号部4から出力された復号音声5が、信号加工部2内の信号変形部7、変形強度制御部20、信号評価部12内の摩擦音らしさ評価部27と背景雑音らしさ評価部31、そして重み付き加算部18に入力される。
The decoded speech 5 output from the
信号評価部12内の背景雑音らしさ評価部31は、実施の形態3における信号評価部12と同様に、入力された復号音声5に対して、逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15の処理を行って、得られた背景雑音らしさ46を加算制御値算出部45に出力する。また、推定雑音パワー更新部16、推定雑音スペクトル更新部17の処理を行って、各々に格納してある推定雑音パワーと推定雑音スペクトルの更新を行う。
Like the signal evaluation unit 12 in the third embodiment, the background noise likeness evaluation unit 31 in the signal evaluation unit 12 applies the
摩擦音らしさ評価部27内の低域カットフィルタ28は、入力された復号音声5に対して低周波数成分を抑圧する低域カットフィルタリング処理を行い、フィルタリング後の復号音声を零交差数カウント部29に出力する。この低域カットフィルタリング処理の目的は、復号音声に含まれる直流成分や低周波数の成分がオッフセットとなって、後述する零交差数カウント部29のカウント結果が少なくなることを防止することである。従って、単純には、フレーム内の復号音声5の平均値を算出し、これを復号音声5の各サンプルから減算することでもよい。
The low-
零交差数カウント部29は、低域カットフィルタ28より入力された音声を分析して、含まれる零交差数を数え上げ、得られた零交差数を摩擦音らしさ算出部30に出力する。零交差数を数え上げる方法としては、隣接サンプルの正負を比較し、同一でなければ零を交差している、としてカウントする方法、隣接サンプルの値の積をとって、その結果が負または零であれば零を交差している、としてカウントする方法などがある。
The number-of-zero-crossings counting unit 29 analyzes the voice input from the low-
摩擦音らしさ算出部30は、零交差数カウント部29より入力された零交差数を、所定の閾値と比較し、この比較結果に基づいて摩擦音らしさ47を求めて、これを加算制御値算出部45に出力する。例えば、零交差数が閾値より大きい場合には、摩擦音らしいと判定して摩擦音らしさを1に設定する。逆に零交差数が閾値より小さい場合には、摩擦音らしくないと判定して摩擦音らしさを0に設定する。この他、閾値を2つ以上設けて、摩擦音らしさを段階的に設定したり、所定の関数を用意しておいて、零交差数から連続的な値の摩擦音らしさを算出するようにしても良い。
The fricative sound
なお、この摩擦音らしさ評価部27内の構成は、あくまでも一例にすぎず、スペクトル傾斜の分析結果に基づいて評価するようにしたり、パワーやスペクトルの定常性に基づいて評価するようにしたり、零交差数も含めて複数のパラメータを組み合わせて評価するようにしたりしても構わない。 Note that the configuration in the fricative soundness evaluation section 27 is merely an example, and the evaluation is performed based on the analysis result of the spectrum tilt, the evaluation is performed based on the power and the stationarity of the spectrum, or the zero-crossing is performed. The evaluation may be performed by combining a plurality of parameters including the number.
加算制御値算出部45は、背景雑音らしさ評価部31より入力された背景雑音らしさ46と、摩擦音らしさ評価部27より入力された摩擦音らしさ47に基づいて、加算制御値35を算出し、これを重み付き加算部18に出力する。背景雑音らしい場合と摩擦音らしい場合のどちらにおいても、量子化雑音が聞き苦しくなってしまうことが多いので、背景雑音らしさ46と摩擦音らしさ47を適切に重み付き加算することで加算制御値35を算出すればよい。
The addition control
以降の信号変形部7、変形強度制御部20、重み付き加算部18の動作は、実施の形態3と同様であり、説明を省略する。
Subsequent operations of the
この実施の形態6によれば、入力信号(復号音声)の背景雑音らしさと摩擦音らしさが高い場合に、入力信号(復号音声)の代わりに加工信号(変形復号音声)をより大きく出力するようにしたので、実施の形態3が持つ効果に加えて、量子化雑音や劣化成分が多く発生しがちな摩擦音区間に対して重点的な加工が加えられ、摩擦音以外の区間についてもその区間に適切な加工(加工しない、低レベルの加工を行うなど)が選択されるので、主観品質を改善できる効果がある。 なお、摩擦音らしさ以外にも、量子化雑音や劣化成分が多く発生しがちな部分がある程度特定できる場合には、その部分らしさを評価して、加算制御値に反映させることが可能である。その様に構成すれば、大きい量子化雑音や劣化成分を1つずつ抑圧していくことができるので、主観品質が一層改善できる効果がある。 According to the sixth embodiment, when the likelihood of background noise and fricative noise of an input signal (decoded voice) is high, a processed signal (modified decoded voice) is output more instead of the input signal (decoded voice). Therefore, in addition to the effects of the third embodiment, emphasis processing is applied to a friction sound section in which quantization noise and a large amount of degradation components tend to occur, and a section other than the friction sound is appropriately processed in that section. Since processing (no processing, low-level processing, etc.) is selected, there is an effect that the subjective quality can be improved. In addition, when a portion where quantization noise and a large amount of degradation components tend to occur can be specified to some extent other than the frictional sound, it is possible to evaluate the likelihood and reflect it in the addition control value. With such a configuration, since large quantization noise and degraded components can be suppressed one by one, there is an effect that the subjective quality can be further improved.
また、当然のことであるが、背景雑音らしさ評価部を削除した構成も可能である。 Of course, a configuration in which the background noise likeness evaluation unit is deleted is also possible.
実施の形態7.
図1との対応部分に同一符号を付けた図10は、本実施の形態による信号加工方法を適用した音声復号装置の全体構成を示し、図中32はポストフィルタ部である。
FIG. 10 in which the same reference numerals are assigned to parts corresponding to those in FIG. 1 shows the entire configuration of a speech decoding device to which the signal processing method according to the present embodiment is applied, and 32 in the figure denotes a post-filter unit.
以下、図に基づいて動作を説明する。 The operation will be described below with reference to the drawings.
まず音声符号3が音声復号装置1内の音声復号部4に入力される。
First, the
音声復号部4は、入力された音声符号3に対して復号処理を行い、得られた復号音声5をポストフィルタ部32、信号変形部7、信号評価部12に出力する。
The
ポストフィルタ部32は、入力された復号音声5に対して、スペクトル強調処理、ピッチ周期性強調処理などを行い、得られた結果をポストフィルタ復号音声48として重み付き加算部18に出力する。このポストフィルタ処理は、CELP復号処理の後処理として一般的に使用されているもので、符号化復号化によって発生した量子化雑音を抑圧することを目的として導入されている。スペクトル強度の弱い部分には量子化雑音が多く含まれているので、この成分の振幅を抑圧してしまうものである。なお、ピッチ周期性強調処理が行われず、スペクトル強調処理だけが行われている場合もある。
The
なお、実施の形態1、実施の形態3ないし6は、このポストフィルタ処理を音声復号部4内に含まれるもの、もしくは存在しないものの何れにも適用可能なものについて説明したが、この実施の形態7では、音声復号部4内にポストフィルタ処理が含まれるものからポストフィルタ処理の全部もしくは一部をポストフィルタ部32として独立させている。
In the first embodiment and the third to sixth embodiments, a description has been given of a case in which this post-filter processing is applicable to both those included in the
信号変形部7は、実施の形態1と同様に、入力された復号音声5に対して、 フーリエ変換部8、振幅平滑化部9、位相擾乱部10、逆フーリエ変換部11の処理を行い、得られた変形復号音声34を重み付き加算部18に出力する。
The
信号評価部12は、実施の形態1と同様に、入力された復号音声5に対して、背景雑音らしさを評価し、評価結果を加算制御値35として重み付き加算部18に出力する。
As in the first embodiment, the signal evaluation unit 12 evaluates the likelihood of background noise with respect to the input decoded speech 5 and outputs the evaluation result to the
そして、最後の処理として、重み付き加算部18は、実施の形態1と同様に、信号評価部12から入力された加算制御値35に基づいて、ポストフィルタ部32から入力されたポストフィルタ復号音声48と信号変形部7から入力された変形復号音声34を重み付け加算し、得られた出力音声6を出力する。
Then, as the last process, the
この実施の形態7によれば、ポストフィルタによる加工前の復号音声に基づいて変形復号音声を生成し、更にポストフィルタによる加工前の復号音声を分析して背景雑音らしさを求め、これに基づいてポストフィルタ復号音声と変形復号音声の加算時の重みを制御するようにしたので、実施の形態1が持つ効果に加えて、ポストフィルタによる復号音声の変形を含まない変形復号音声が生成でき、ポストフィルタによる復号音声の変形に影響されずに算出した精度の高い背景雑音らしさに基づいて精度の高い加算重み制御ができるようになるので、更に主観品質が改善する効果がある。 According to the seventh embodiment, a modified decoded speech is generated based on the decoded speech before processing by the post filter, and the decoded speech before processing by the post filter is analyzed to determine the likelihood of background noise. Since the weight at the time of adding the post-filter decoded speech and the modified decoded speech is controlled, in addition to the effect of the first embodiment, a modified decoded speech that does not include the modification of the decoded speech by the post filter can be generated. Since highly accurate addition weight control can be performed based on the high-accuracy background noise calculated without being affected by the deformation of the decoded speech by the filter, the subjective quality is further improved.
背景雑音区間においては、ポストフィルタによって劣化音までも強調されて聞き苦しくなってしまっていることが多く、ポストフィルタによる加工前の復号音声を出発点として変形復号音声を生成した方が、歪み音は小さくなる。また、ポストフィルタの処理が複数のモードを持っており、しばしば処理を切り替える場合には、その切り替えが背景雑音らしさの評価に影響する危険性が高く、ポストフィルタによる加工前の復号音声に対して背景雑音らしさを評価した方が安定な評価結果が得られる。 In the background noise section, even the degraded sound is often emphasized by the post filter, making it difficult to hear. Becomes smaller. Also, post-filter processing has multiple modes, and if the processing is frequently switched, there is a high risk that the switching will affect the evaluation of the likelihood of background noise. A more stable evaluation result can be obtained by evaluating the likelihood of the background noise.
なお、実施の形態3の構成において、この実施の形態7と同様にポストフィルタ部の分離を行った場合には、図5の聴覚重み付け部21の出力結果が、より符号化処理内の聴覚重み付け音声に近づき、量子化雑音の多い成分の特定精度が上がり、より良い変形強度制御が得られ、主観品質が更に改善する効果が得られる。
In the configuration of the third embodiment, when the post-filter unit is separated in the same manner as in the seventh embodiment, the output result of the
また、実施の形態6の構成において、この実施の形態7と同様にポストフィルタ部の分離を行った場合には、図9の摩擦音らしさ評価部27における評価精度が上がり、主観品質が更に改善する効果が得られる。 Further, in the configuration of the sixth embodiment, when the post-filter unit is separated in the same manner as in the seventh embodiment, the evaluation accuracy in the frictional sound likeness evaluation unit 27 in FIG. 9 is increased, and the subjective quality is further improved. The effect is obtained.
なお、ポストフィルタ部の分離を行わない構成は、分離したこの実施の形態7の構成に比べると、音声復号部(ポストフィルタを含む)との接続が復号音声の1点だけと少なく、独立の装置、プログラムにて実現が容易である長所がある。この実施の形態7では、ポストフィルタを有する音声復号部に対して独立の装置、プログラムにて実現することが容易でない短所もあるが、上記の様々な効果を持つものである。 The configuration in which the post filter section is not separated has a smaller connection with the audio decoding section (including the post filter) to only one point of the decoded voice than the separated configuration of the seventh embodiment. There is an advantage that it can be easily realized by a device and a program. In the seventh embodiment, there is a disadvantage that it is not easy to realize an audio decoding unit having a post filter by an independent device and a program, but it has the various effects described above.
実施の形態8.
図10との対応部分に同一符号を付けた図11は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中33は音声復号部4内で生成されたスペクトルパラメータである。図10との相違点としては、実施の形態3と同様の変形強度制御部20が追加され、スペクトルパラメータ33が音声復号部4から信号評価部12と変形強度制御部20に入力されている点である。
FIG. 11, in which parts corresponding to those in FIG. 10 are assigned the same reference numerals, shows the entire configuration of a speech decoding apparatus to which the sound signal processing method according to the present embodiment is applied. It is a spectrum parameter. The difference from FIG. 10 is that a deformation intensity control unit 20 similar to that of the third embodiment is added, and a
以下、図に基づいて動作を説明する。 The operation will be described below with reference to the drawings.
まず音声符号3が音声復号装置1内の音声復号部4に入力される。
First, the
音声復号部4は、入力された音声符号3に対して復号処理を行い、得られた復号音声5をポストフィルタ部32、信号変形部7、変形強度制御部20、信号評価部12に出力する。また、復号処理の過程で生成したスペクトルパラメータ33を、信号評価部12内の推定雑音スペクトル更新部17と変形強度制御部20内の聴覚重み付け部21に出力する。なお、スペクトルパラメータ33としては、線形予測係数(LPC)、線スペクトル対(LSP)などが一般的に用いられていることが多い。
The
変形強度制御部20内の聴覚重み付け部21は、音声復号部4より入力された復号音声5に対して、やはり音声復号部4から入力されたスペクトルパラメータ33を用いて聴覚重み付け処理を行い、得られた聴覚重み付け音声をフーリエ変換部22に出力する。具体的な処理としては、スペクトルパラメータ33が線形予測係数(LPC)である場合にはこれをそのまま用い、スペクトルパラメータ33がLPC以外のパラメータである場合には、このスペクトルパラメータ33をLPCに変換して、このLPCに定数乗算を行って2つの変形LPCを求め、この2つの変形LPCをフィルタ係数とするARMAフィルタを構成し、このフィルタを用いたフィルタリング処理によって聴覚重み付けを行う。なお、この聴覚重み付け処理は、音声符号化処理(音声復号部4で行った音声復号処理と対を成すもの)で使用されているものと同様な処理を行うことが望ましい。
The
変形強度制御部20内では、上記聴覚重み付け部21の処理に続いて、実施の形態3と同様に、フーリエ変換部22、レベル判定部23、連続性判定部24、変形強度算出部25の処理を行い、得られた変形強度を信号変形部7に対して出力する。
In the deformation intensity control unit 20, following the processing of the
信号変形部7は、実施の形態3と同様に、入力された復号音声5と変形強度に対して、 フーリエ変換部8、振幅平滑化部9、位相擾乱部10、逆フーリエ変換部11の処理を行い、得られた変形復号音声34を重み付き加算部18に出力する。
Similarly to the third embodiment, the
信号評価部12内では、実施の形態1と同様に、入力された復号音声5に対して、まず逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15の処理を行って背景雑音らしさを評価し、評価結果を加算制御値35として重み付き加算部18に出力する。また、推定雑音パワー更新部16の処理を行って、内部の推定雑音パワーを更新する。
In the signal evaluation unit 12, as in the first embodiment, the input decoded speech 5 is first subjected to the processing of the
そして、推定雑音スペクトル更新部17は、音声復号部4から入力されたスペクトルパラメータ33と背景雑音らしさ算出部15から入力され背景雑音を用いて、その内部に格納してある推定雑音スペクトルを更新する。例えば、入力された背景雑音らしさが高い時に、実施の形態1に示した式に従い、スペクトルパラメータ33を推定雑音スペクトルに反映させることで更新を行う。
以降のポストフィルタ部32、重み付き加算部18の動作については、実施の形態7と同様であるため、説明を省略する。
The estimated noise
Subsequent operations of the
この実施の形態8によれば、音声復号処理の過程で生成されたスペクトルパラメータを流用して、聴覚重み付け処理、推定雑音スペクトルの更新を行うようにしたので、実施の形態3及び実施の形態7が持つ効果に加えて、処理が簡易化される効果がある。 According to the eighth embodiment, the auditory weighting process and the update of the estimated noise spectrum are performed by using the spectrum parameters generated in the speech decoding process. Therefore, the third and seventh embodiments are used. There is an effect that processing is simplified, in addition to the effect of.
更に、符号化処理とまったく同じ聴覚重み付け処理が実現され、量子化雑音の多い成分の特定精度が上がり、より良い変形強度制御が得られ、主観品質が改善する効果が得られる。 Furthermore, the same auditory weighting process as the encoding process is realized, the accuracy of specifying a component with much quantization noise is increased, better deformation intensity control is obtained, and the effect of improving the subjective quality is obtained.
また、背景雑音らしさの算出に用いる推定雑音スペクトルの(音声符号化処理に入力された音声のスペクトルに近いという意味での)推定精度が上がり、結果として得られる安定した高精度の背景雑音らしさに基づいて精度の高い加算重み制御ができるようになり、主観品質が改善する効果がある。 In addition, the estimation accuracy of the estimated noise spectrum used for calculating the likelihood of background noise (in the sense that it is close to the spectrum of the speech input to the speech encoding process) is improved, and the resulting stable and highly accurate background noise is considered. Based on this, it is possible to perform highly accurate addition weight control, and there is an effect that the subjective quality is improved.
なお、この実施の形態8では、ポストフィルタ部32を音声復号部4から分離した構成であったが、分離していない構成においても、実施の形態8のように音声復号部4が出力したスペクトルパラメータ33を流用して信号加工部2の処理を行うことができる。この場合でも、上記実施の形態8と同様の効果が得られる。
Although the
実施の形態9.
上記図7に示す実施の形態4の構成において、加算制御値分割部41が、重み付け加算部18にて加算される変形復号音声スペクトル44の周波数毎の重みを乗じた後のスペクトルの概形が、量子化雑音の推定スペクトル形状に一致するように、出力する変形強度を制御することも可能である。
Embodiment 9 FIG.
In the configuration of the fourth embodiment shown in FIG. 7, the outline of the spectrum after the addition control
図12は、この場合の復号音声スペクトル43と、変形復号音声スペクトル44に周波数毎の重みを乗じた後のスペクトルの一例を示す模式図である。 FIG. 12 is a schematic diagram showing an example of the spectrum after multiplying the decoded speech spectrum 43 and the modified decoded speech spectrum 44 by the weight for each frequency in this case.
復号音声スペクトル43には、符号化方式に依存したスペクトル形状を持つ量子化雑音が重畳している。CELP系の音声符号化方式においては、聴覚重み付け処理後の音声における歪みを最小化するように符号の探索を行う。このため、量子化雑音は、聴覚重み付け処理後の音声においては、平坦なスペクトル形状を持つことになり、最終的な量子化雑音のスペクトル形状は、聴覚重み付け処理の逆特性のスペクトル形状を持つことになる。よって、聴覚重み付け処理のスペクトル特性を求め、この逆特性のスペクトル形状を求めて、変形復号音声スペクトルのスペクトル形状がこれに合うように、加算制御値分割部41の出力を制御することは可能である。
On the decoded speech spectrum 43, quantization noise having a spectrum shape depending on the encoding method is superimposed. In the CELP speech coding method, a code search is performed so as to minimize distortion in the speech after the auditory weighting process. For this reason, the quantization noise has a flat spectrum shape in the speech after the hearing weighting process, and the final quantization noise spectrum shape has a spectrum shape of the inverse characteristic of the hearing weighting process. become. Therefore, it is possible to obtain the spectrum characteristic of the auditory weighting process, obtain the spectrum shape of the inverse characteristic, and control the output of the addition control
この実施の形態9によれば、最終的な出力音声6に含まれる変形復号音声成分のスペクトル形状を量子化雑音の推定スペクトルの概形に一致するようにしたので、実施の形態4が持つ効果に加えて、必要最低限のパワーの変形復号音声の加算によって音声区間における聞き苦しい量子化雑音を聞こえにくくすることができる効果がある。
According to the ninth embodiment, the spectrum shape of the modified decoded speech component included in the
実施の形態10.
上記実施の形態1、実施の形態3ないし8の構成において、振幅平滑化部9の処理内で、平滑化後の振幅スペクトルが推定量子化雑音の振幅スペクトル形状に一致するように加工することも可能である。なお、推定量子化雑音の振幅スペクトル形状の算出は、実施の形態9と同様にして行えばよい。
In the configuration of the first embodiment and the third to eighth embodiments, in the processing of the amplitude smoothing unit 9, processing may be performed such that the amplitude spectrum after smoothing matches the amplitude spectrum shape of the estimated quantization noise. It is possible. The calculation of the amplitude spectrum shape of the estimated quantization noise may be performed in the same manner as in the ninth embodiment.
この実施の形態10によれば、変形復号音声のスペクトル形状を量子化雑音の推定スペクトル形状に一致するようにしたので、実施の形態1、実施の形態3ないし8が持つ効果に加えて、必要最低限のパワーの変形復号音声の加算によって音声区間における聞き苦しい量子化雑音を聞こえにくくすることができる効果がある。 According to the tenth embodiment, the spectrum shape of the modified decoded speech is made to match the estimated spectrum shape of the quantization noise. Therefore, in addition to the effects of the first and third to eighth embodiments, necessary By adding the modified decoded voice with the minimum power, there is an effect that uncomfortable quantization noise in a voice section can be hardly heard.
実施の形態11.
上記実施の形態1、実施の形態3ないし10では、信号加工部2を復号音声5の加工に使用しているが、この信号加工部2のみを取り出して、音響信号復号部(音響信号符号化に対する復号部)、雑音抑圧処理の後段に接続するなど、他の信号加工処理に使用することもできる。但し、解消したい劣化成分の特性に応じて、信号変形部における変形処理、信号評価部における評価方法を変更、調整することが必要になる。
In the first embodiment and the third to tenth embodiments, the signal processing unit 2 is used for processing the decoded voice 5. However, only the signal processing unit 2 is extracted and the audio signal decoding unit (the audio signal encoding unit) is used. , And can be used for other signal processing, such as connecting to the subsequent stage of the noise suppression processing. However, it is necessary to change and adjust the deformation process in the signal deformation unit and the evaluation method in the signal evaluation unit according to the characteristics of the degradation component to be eliminated.
この実施の形態11によれば、復号音声以外の劣化成分を含む信号に対して、主観的に好ましくない成分を感じにくく加工することが可能である。 According to the eleventh embodiment, it is possible to process a signal including a degraded component other than the decoded voice so that a subjectively undesirable component is less likely to be perceived.
実施の形態12.
上記実施の形態1ないし11では、現在のフレームまでの信号を用いて該信号の加工を行っているが、処理遅延の発生を許して次フレーム以降の信号も使用する構成も可能である。
Embodiment 12 FIG.
In the first to eleventh embodiments, the signal is processed by using the signal up to the current frame. However, a configuration in which the processing delay is allowed to use the signal of the next frame and thereafter is also possible.
この実施の形態12によれば、次のフレーム以降の信号を参照できるので、振幅スペクトルの平滑化特性の改善、連続性判定の精度向上、雑音らしさなどの評価精度の向上効果が得られる。 According to the twelfth embodiment, it is possible to refer to the signal after the next frame, so that it is possible to obtain the effect of improving the smoothing characteristics of the amplitude spectrum, improving the accuracy of continuity determination, and improving the evaluation accuracy such as noise.
実施の形態13.
上記実施の形態1、実施の形態3、実施の形態5ないし12では、フーリエ変換によってスペクトル成分を算出し、変形処理を行って、逆フーリエ変換によって信号領域に戻しているが、フーリエ変換の代わりにバンドパスフィルタ群の各出力に対して、変形処理を行い、帯域別信号の加算によって信号を再構築する構成も可能である。
In the first, third, and fifth to twelfth embodiments, the spectral components are calculated by the Fourier transform, transformed, and returned to the signal domain by the inverse Fourier transform. Alternatively, it is also possible to perform a transformation process on each output of the band-pass filter group and reconstruct the signal by adding the signals for each band.
この実施の形態13によれば、フーリエ変換を使用しない構成でも同様の効果が得られる。 According to the thirteenth embodiment, the same effect can be obtained even in a configuration not using Fourier transform.
実施の形態14.
上記実施の形態1ないし13では、振幅平滑化部9と位相擾乱部10の両方を備えた構成であったが、振幅平滑化部9と位相擾乱部10の一方を省略した構成も可能であるし、更に別の変形部を導入した構成も可能である。
In the first to thirteenth embodiments, the configuration includes both the amplitude smoothing unit 9 and the
この実施の形態14によれば、解消したい量子化雑音や劣化音の特性によっては、導入効果がない変形部を省略することで処理が簡易化できる効果がある。また、適切な変形部を導入することで、振幅平滑化部9と位相擾乱部10では解消できない量子化雑音や劣化音を解消できる効果が期待できる。
According to the fourteenth embodiment, depending on the characteristics of the quantization noise and the degraded sound to be eliminated, there is an effect that the processing can be simplified by omitting a deformed portion having no introduction effect. In addition, by introducing an appropriate deformation unit, an effect of eliminating quantization noise and degraded sound that cannot be eliminated by the amplitude smoothing unit 9 and the
Claims (1)
前記復号音声を加工して第一の加工音声を生成する第一加工音声生成ステップと、
前記情報に基づいて所定の評価値を算出する評価値算出ステップと、
前記評価値に基づいて前記復号音声と前記第一の加工音声を重み付けし加算して第二の加工音声を生成する第二加工音声生成ステップと、
前記第二の加工音声を出力音声として出力する出力音声ステップと
を備えたことを特徴とする音信号加工方法。 Decoding a speech code to generate a decoded speech, a decoded speech generation step of generating predetermined information based on the speech code,
A first processed voice generation step of processing the decoded voice to generate a first processed voice,
An evaluation value calculation step of calculating a predetermined evaluation value based on the information,
A second processed voice generating step of generating a second processed voice by weighting and adding the decoded voice and the first processed voice based on the evaluation value,
An output audio step of outputting the second processed audio as an output audio.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004158788A JP4230414B2 (en) | 1997-12-08 | 2004-05-28 | Sound signal processing method and sound signal processing apparatus |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33680397 | 1997-12-08 | ||
JP2004158788A JP4230414B2 (en) | 1997-12-08 | 2004-05-28 | Sound signal processing method and sound signal processing apparatus |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000524789 Division | 1998-12-07 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006316566A Division JP4358221B2 (en) | 1997-12-08 | 2006-11-24 | Sound signal processing method and sound signal processing apparatus |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004272292A true JP2004272292A (en) | 2004-09-30 |
JP2004272292A5 JP2004272292A5 (en) | 2007-11-29 |
JP4230414B2 JP4230414B2 (en) | 2009-02-25 |
Family
ID=33133357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004158788A Expired - Fee Related JP4230414B2 (en) | 1997-12-08 | 2004-05-28 | Sound signal processing method and sound signal processing apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4230414B2 (en) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006196978A (en) * | 2005-01-11 | 2006-07-27 | Kddi Corp | Beam control apparatus, array antenna system, and wireless device |
JP2007183306A (en) * | 2005-12-29 | 2007-07-19 | Fujitsu Ltd | Noise suppressing device, noise suppressing method, and computer program |
JP2008015356A (en) * | 2006-07-07 | 2008-01-24 | Toshiba Corp | Decoding device and spectrum shaping method |
JP2008309955A (en) * | 2007-06-13 | 2008-12-25 | Toshiba Corp | Noise suppresser |
WO2010046954A1 (en) | 2008-10-24 | 2010-04-29 | 三菱電機株式会社 | Noise suppression device and audio decoding device |
JP2010142285A (en) * | 2008-12-16 | 2010-07-01 | Yoshida Dental Mfg Co Ltd | System and apparatus for tracking lower anterior tooth part movement and temporomandibular joint noise analyzer |
JP2010160496A (en) * | 2010-02-15 | 2010-07-22 | Toshiba Corp | Signal processing device and signal processing method |
JP2011508897A (en) * | 2007-12-06 | 2011-03-17 | 韓國電子通信研究院 | Voice codec quality improving apparatus and method |
WO2014083999A1 (en) * | 2012-11-27 | 2014-06-05 | 日本電気株式会社 | Signal processing device, signal processing method, and signal processing program |
WO2014084000A1 (en) * | 2012-11-27 | 2014-06-05 | 日本電気株式会社 | Signal processing device, signal processing method, and signal processing program |
US9531344B2 (en) | 2011-02-26 | 2016-12-27 | Nec Corporation | Signal processing apparatus, signal processing method, storage medium |
CN110914902A (en) * | 2017-03-31 | 2020-03-24 | 弗劳恩霍夫应用研究促进协会 | Apparatus and method for determining a predetermined characteristic related to spectral enhancement processing of an audio signal |
CN112037805A (en) * | 2019-06-04 | 2020-12-04 | 歌拉利旺株式会社 | Sound mixing device and sound mixing method |
JP2023022101A (en) * | 2013-03-04 | 2023-02-14 | ヴォイスエイジ・イーブイエス・エルエルシー | Device and method for reducing quantization noise in a time-domain decoder |
-
2004
- 2004-05-28 JP JP2004158788A patent/JP4230414B2/en not_active Expired - Fee Related
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006196978A (en) * | 2005-01-11 | 2006-07-27 | Kddi Corp | Beam control apparatus, array antenna system, and wireless device |
JP2007183306A (en) * | 2005-12-29 | 2007-07-19 | Fujitsu Ltd | Noise suppressing device, noise suppressing method, and computer program |
JP2008015356A (en) * | 2006-07-07 | 2008-01-24 | Toshiba Corp | Decoding device and spectrum shaping method |
JP2008309955A (en) * | 2007-06-13 | 2008-12-25 | Toshiba Corp | Noise suppresser |
US9135926B2 (en) | 2007-12-06 | 2015-09-15 | Electronics And Telecommunications Research Institute | Apparatus and method of enhancing quality of speech codec |
US9142222B2 (en) | 2007-12-06 | 2015-09-22 | Electronics And Telecommunications Research Institute | Apparatus and method of enhancing quality of speech codec |
JP2011508897A (en) * | 2007-12-06 | 2011-03-17 | 韓國電子通信研究院 | Voice codec quality improving apparatus and method |
US9135925B2 (en) | 2007-12-06 | 2015-09-15 | Electronics And Telecommunications Research Institute | Apparatus and method of enhancing quality of speech codec |
WO2010046954A1 (en) | 2008-10-24 | 2010-04-29 | 三菱電機株式会社 | Noise suppression device and audio decoding device |
JP2010142285A (en) * | 2008-12-16 | 2010-07-01 | Yoshida Dental Mfg Co Ltd | System and apparatus for tracking lower anterior tooth part movement and temporomandibular joint noise analyzer |
JP2010160496A (en) * | 2010-02-15 | 2010-07-22 | Toshiba Corp | Signal processing device and signal processing method |
US9531344B2 (en) | 2011-02-26 | 2016-12-27 | Nec Corporation | Signal processing apparatus, signal processing method, storage medium |
WO2014084000A1 (en) * | 2012-11-27 | 2014-06-05 | 日本電気株式会社 | Signal processing device, signal processing method, and signal processing program |
WO2014083999A1 (en) * | 2012-11-27 | 2014-06-05 | 日本電気株式会社 | Signal processing device, signal processing method, and signal processing program |
US9401746B2 (en) | 2012-11-27 | 2016-07-26 | Nec Corporation | Signal processing apparatus, signal processing method, and signal processing program |
US10447516B2 (en) | 2012-11-27 | 2019-10-15 | Nec Corporation | Signal processing apparatus, signal processing method, and signal processing program |
JP2023022101A (en) * | 2013-03-04 | 2023-02-14 | ヴォイスエイジ・イーブイエス・エルエルシー | Device and method for reducing quantization noise in a time-domain decoder |
JP7427752B2 (en) | 2013-03-04 | 2024-02-05 | ヴォイスエイジ・イーブイエス・エルエルシー | Device and method for reducing quantization noise in time domain decoders |
CN110914902A (en) * | 2017-03-31 | 2020-03-24 | 弗劳恩霍夫应用研究促进协会 | Apparatus and method for determining a predetermined characteristic related to spectral enhancement processing of an audio signal |
CN110914902B (en) * | 2017-03-31 | 2023-10-03 | 弗劳恩霍夫应用研究促进协会 | Apparatus and method for determining predetermined characteristics related to spectral enhancement processing of an audio signal |
US12067995B2 (en) | 2017-03-31 | 2024-08-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal |
CN112037805A (en) * | 2019-06-04 | 2020-12-04 | 歌拉利旺株式会社 | Sound mixing device and sound mixing method |
Also Published As
Publication number | Publication date |
---|---|
JP4230414B2 (en) | 2009-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4684359B2 (en) | Sound signal processing equipment | |
US8255222B2 (en) | Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus | |
US7379866B2 (en) | Simple noise suppression model | |
KR100915733B1 (en) | Method and device for the artificial extension of the bandwidth of speech signals | |
EP1638083B1 (en) | Bandwidth extension of bandlimited audio signals | |
JP4440937B2 (en) | Method and apparatus for improving speech in the presence of background noise | |
US5752222A (en) | Speech decoding method and apparatus | |
RU2470385C2 (en) | System and method of enhancing decoded tonal sound signal | |
US8311842B2 (en) | Method and apparatus for expanding bandwidth of voice signal | |
EP2346032B1 (en) | Noise suppressor and voice decoder | |
KR102105044B1 (en) | Improving non-speech content for low rate celp decoder | |
JPH08328591A (en) | Method for adaptation of noise masking level to synthetic analytical voice coder using short-term perception weightingfilter | |
JP4230414B2 (en) | Sound signal processing method and sound signal processing apparatus | |
CN102682777A (en) | Acquiring method and acquiring device of attenuation factors | |
JP4358221B2 (en) | Sound signal processing method and sound signal processing apparatus | |
JP5291004B2 (en) | Method and apparatus in a communication network | |
JP4006770B2 (en) | Noise estimation device, noise reduction device, noise estimation method, and noise reduction method | |
JP3360423B2 (en) | Voice enhancement device | |
JPH09160595A (en) | Voice synthesizing method | |
JP2997668B1 (en) | Noise suppression method and noise suppression device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071016 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080901 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080909 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081203 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111212 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111212 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121212 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |