[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5203077B2 - Speech coding apparatus and method, speech decoding apparatus and method, and speech bandwidth extension apparatus and method - Google Patents

Speech coding apparatus and method, speech decoding apparatus and method, and speech bandwidth extension apparatus and method Download PDF

Info

Publication number
JP5203077B2
JP5203077B2 JP2008183113A JP2008183113A JP5203077B2 JP 5203077 B2 JP5203077 B2 JP 5203077B2 JP 2008183113 A JP2008183113 A JP 2008183113A JP 2008183113 A JP2008183113 A JP 2008183113A JP 5203077 B2 JP5203077 B2 JP 5203077B2
Authority
JP
Japan
Prior art keywords
frequency spectrum
spectrum
high frequency
shape
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008183113A
Other languages
Japanese (ja)
Other versions
JP2010020251A (en
Inventor
孝輔 辻野
圭 菊入
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2008183113A priority Critical patent/JP5203077B2/en
Publication of JP2010020251A publication Critical patent/JP2010020251A/en
Application granted granted Critical
Publication of JP5203077B2 publication Critical patent/JP5203077B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To improve the subjective quality of a decryption signal by precisely adjusting the microstructure of a high-frequency spectrum dependent on frequency in speech coding and speech decoding in a band spreading technique. <P>SOLUTION: The speech decoder for decoding a speech signal including a frequency component corresponding to both low-frequency spectrum and high-frequency spectrum from a bit stream including encoded information of the low-frequency spectrum of speech signal and auxiliary information related to the nature of the high-frequency spectrum includes: a means for separating the bit stream into encoded information of the low-frequency spectrum of the speech signal and the auxiliary information related to the nature of the high-frequency spectrum; a means for decoding the low-frequency spectrum from the encoded information of the low-frequency spectrum of the speech signal; a means for obtaining a first high-frequency spectrum by copying part or the whole of the low-frequency spectrum obtained by decoding to the high-frequency region; a spectrum shape adjusting means for obtaining a second high-frequency spectrum by adjusting the shape of the first high-frequency spectrum utilizing the auxiliary information; and a means for decoding the speech signal utilizing the low-frequency spectrum and the second high-frequency spectrum. <P>COPYRIGHT: (C)2010,JPO&amp;INPIT

Description

本発明は、音声信号を符号化する音声符号化装置及び方法、符号化された信号を復号化する音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法に関する。   The present invention relates to a voice encoding apparatus and method for encoding a voice signal, a voice decoding apparatus and method for decoding a coded signal, and a voice band extending apparatus and method.

音声を低ビットレートに圧縮する音声符号化技術は、音声通信において、通信路の限られた伝送容量を有効に活用するために重要である。また、近年においては、音声通信の高品質化への要望が高まっており、それに対して、音声を高品質で伝送可能であるとともに人間の声以外の様々な周囲音、音楽をも伝送可能な音声符号化方式の研究開発が行われている。   A speech coding technique for compressing speech to a low bit rate is important for effectively utilizing a limited transmission capacity of a communication path in speech communication. In recent years, there has been an increasing demand for higher quality voice communication. In contrast, voice can be transmitted with high quality and various ambient sounds and music other than human voice can be transmitted. Research and development of speech coding methods is underway.

従来、携帯電話やVoIP(Voice over Internet Protocol)向けには、300Hz〜3.4kHzの狭帯域信号を4.75kbit/s〜64kbit/s程度の情報量で伝送可能な音声符号化方式であるAdaptive Multi Rate (AMR)、G.711、G.729等が用いられてきた。これに対し、7KHzまでの広帯域信号を、6.6kbit/s〜32kbit/s程度のビットレートで伝送可能なAMR-WB、G.722.1等の音声符号化方式が3GPP、ITU-Tで標準化されている。さらに、15kHz程度までの超広帯域信号を24kbps〜128kbps程度のビットレートで伝送可能な音声・音響符号化方式として、G.722.1C、AAC-LD等の方式がITU-T、MPEGで標準化されている。これらの超広帯域の符号化方式を用いることで、可聴周波数帯域に含まれるほぼ全ての周波数成分が伝送可能であるとともに、人間の声以外の様々な周囲音、音楽をも原音に近い品質で伝送可能であり、高品質の音声通信が可能となる。その反面、これらの方式では伝送に必要なビットレートが比較的高くなるという問題点がある。   Conventionally, for mobile phones and VoIP (Voice over Internet Protocol), Adaptive Multi Rate, an audio encoding method that can transmit narrowband signals of 300 Hz to 3.4 kHz with an information amount of about 4.75 kbit / s to 64 kbit / s. (AMR), G.711, G.729, and the like have been used. On the other hand, audio coding methods such as AMR-WB and G.722.1 that can transmit wideband signals up to 7KHz at a bit rate of about 6.6kbit / s to 32kbit / s have been standardized by 3GPP and ITU-T. Yes. In addition, G.722.1C, AAC-LD, etc. have been standardized by ITU-T and MPEG as voice / acoustic coding systems that can transmit ultra-wideband signals up to about 15 kHz at bit rates of 24 kbps to 128 kbps. Yes. By using these ultra-wideband coding methods, almost all frequency components included in the audible frequency band can be transmitted, and various ambient sounds and music other than human voice can be transmitted with quality close to the original sound. It is possible and high-quality voice communication is possible. On the other hand, these methods have a problem that the bit rate required for transmission becomes relatively high.

これに対し、周波数帯域の広い信号を低いビットレートで符号化する方法として、帯域拡張に基づく音声符号化方法が存在する。帯域拡張に基づく音声符号化方法の例は、特許文献1に記載されている。帯域拡張に基づく音声符号化方法では、QMF(Quadrature Mirror Filters)、FFT(Fast Fourier Transform)、MDCT(Modified Discrete Cosine Transform)などの変換領域で低域から高域へのスペクトル係数の複写を行った後、複写された係数のスペクトル包絡を調整することによって高品質の復号音声を得ることができる。この方法を利用した音声符号化方式においては、信号の高域スペクトルの微細構造に関する情報を伝送する必要がなく、スペクトルの概形のみを少ないビットレートで伝送すればよいため、符号化されたビットストリームの情報量を大幅に削減することができる。   On the other hand, as a method for encoding a signal having a wide frequency band at a low bit rate, there is a speech encoding method based on band expansion. An example of a speech encoding method based on band expansion is described in Patent Document 1. In the speech coding method based on bandwidth expansion, spectral coefficients were copied from low to high in transform regions such as QMF (Quadrature Mirror Filters), FFT (Fast Fourier Transform), and MDCT (Modified Discrete Cosine Transform). Later, high-quality decoded speech can be obtained by adjusting the spectral envelope of the copied coefficients. In a speech coding system using this method, it is not necessary to transmit information about the fine structure of the high-frequency spectrum of the signal, and only the outline of the spectrum needs to be transmitted at a low bit rate. The amount of stream information can be greatly reduced.

このように、帯域拡張技術は音声・音響符号化のビットレート削減のための有効な手段であるが、スペクトルを低域から高域へ複写することによって高域成分を生成すると、生成された高域成分と原音声の高域成分の間でのスペクトルの微細構造の不一致が復号音声の音質劣化につながる場合がある。複写されたスペクトルに対しては、通常、符号器から与えられる補助情報を用いてスペクトル包絡の調整が行われるが、包絡調整後も、スペクトルの微細構造の影響は依然として残る。スペクトルの微細構造の影響について、以下に例示する。   As described above, the band extension technology is an effective means for reducing the bit rate of speech / acoustic coding. However, when the high frequency component is generated by copying the spectrum from the low frequency to the high frequency, the generated high frequency is generated. Inconsistency in the fine structure of the spectrum between the high frequency component of the original component and the high frequency component may lead to deterioration of the sound quality of the decoded audio. For the copied spectrum, the spectral envelope is usually adjusted using auxiliary information given from the encoder, but the influence of the fine structure of the spectrum still remains after the envelope adjustment. The influence of the fine structure of the spectrum is illustrated below.

図1に、STFT(Short-time Fourier Transform)を用いて求めた音声信号のスペクトルの例を示す。およそ4kHzまでの低域においては、基本周波数の整数倍の位置に急峻なスペクトルのピークが現れることから、基本周波数の倍音系列からなるトーン性の成分が信号において支配的であることがわかる。それに対し、4kHz以上の高域においては周波数の増大に伴って次第にピークが弱くなり、トーン性を持たない雑音成分が支配的となってくることが観察できる。このように、音声では、高域ほど雑音成分が支配的になる傾向がある。   FIG. 1 shows an example of a spectrum of an audio signal obtained using STFT (Short-time Fourier Transform). In a low frequency range up to about 4 kHz, a steep spectral peak appears at a position that is an integral multiple of the fundamental frequency, so that it is understood that a tone component composed of harmonic series of the fundamental frequency is dominant in the signal. On the other hand, in the high region of 4 kHz or higher, it can be observed that the peak gradually weakens as the frequency increases, and the noise component having no tone property becomes dominant. Thus, in the voice, the noise component tends to be dominant as the frequency increases.

図1に示す信号に対し、低域から高域へスペクトルの複写を行った後、スペクトル包絡の調整を行った結果の例を図2に示す。図2のスペクトルは大域的な包絡は図1に近いものの、高域スペクトルのピーク・ディップの形状が図1と大きく異なり、スペクトルの微細構造が原信号と大きく異なることがわかる。   FIG. 2 shows an example of the result of adjusting the spectral envelope after copying the spectrum from the low frequency to the high frequency for the signal shown in FIG. Although the spectrum of FIG. 2 has a global envelope similar to that of FIG. 1, the peak dip shape of the high-frequency spectrum is significantly different from that of FIG. 1, and the fine structure of the spectrum is greatly different from that of the original signal.

以上の例に示した微細構造の差は、主観的な音声品質に悪影響を及ぼす。すなわち、スペクトル包絡の調整のみを行った帯域拡張音声を聴取した際には、高域スペクトルの微細構造の差により、原音声と異なる不自然な音色が知覚される。例えば音声では、前述の通り高域ほど雑音成分が支配的になるため、帯域拡張技術によって生成された高域成分と原信号の間の微細構造の不一致による不快な金属的音色がしばしば復号音声に現れる。   The difference in the fine structure shown in the above examples has an adverse effect on subjective speech quality. In other words, when listening to band-expanded speech in which only the spectral envelope has been adjusted, an unnatural timbre different from the original speech is perceived due to the difference in the fine structure of the high-frequency spectrum. For example, in speech, the noise component becomes dominant at higher frequencies as described above, so unpleasant metallic tone due to the mismatch of the fine structure between the high frequency component generated by the band extension technique and the original signal is often found in the decoded speech. appear.

そこで、一部の帯域拡張技術では、複写によって生成された高域スペクトルに対して微細構造の調整を行う。スペクトル微細構造の調整方法として、低域スペクトルの振幅を一様に制限した後に高域へ複写する方法が特許文献2で開示されている。
特表2001−521648号公報 再公表2005−111568号公報
Therefore, in some band expansion technologies, fine structure adjustment is performed on the high-frequency spectrum generated by copying. As a method for adjusting the spectral fine structure, Patent Document 2 discloses a method of copying to a high band after uniformly limiting the amplitude of a low band spectrum.
JP-T-2001-521648 Republication 2005-111568

しかし、特許文献2で開示された方法によれば、低域スペクトルの複写によって生成される高域スペクトル全体の微細構造を一様に調整するため、原信号のスペクトルの微細構造が周波数に依存して様々に変化する場合であっても、生成される高域スペクトルの微細構造は均一なものとなってしまう。そこで、本発明が解決しようとする課題の1点目は、帯域拡張技術に基づく音声符号化および音声復号化において、周波数に依存する高域スペクトルの微細構造の調整を精度よく行い、復号信号の主観的品質を向上させることにある。   However, according to the method disclosed in Patent Document 2, since the fine structure of the entire high-frequency spectrum generated by copying the low-frequency spectrum is uniformly adjusted, the fine structure of the spectrum of the original signal depends on the frequency. Even if it changes variously, the fine structure of the generated high frequency spectrum will be uniform. Therefore, the first problem to be solved by the present invention is that, in speech coding and speech decoding based on the band extension technology, the fine structure of the high-frequency spectrum depending on the frequency is accurately adjusted, and the decoded signal To improve subjective quality.

また、演算量の低減やコーデックの構成上の理由から、周波数領域への変換に実数値のフィルタバンクを用いているときには、スペクトルの形状を変形した場合、復号信号に有害なエイリアシング歪みが生じ、復号信号の主観品質に悪影響を与える場合がある。この歪みは、図4のように、振幅を伸縮したスペクトル係数の近隣の周波数に広がって現れる。歪みのパワースペクトル密度が大きく雑音成分のパワースペクトル密度が小さい場合には、歪みが主観的な音質の顕著な劣化につながる場合がある。そこで、本発明が解決しようとする課題の2点目は、帯域拡張技術に基づく音声符号化および音声復号化において、スペクトルの変形に伴う歪みによる音質の劣化を抑えつつスペクトル微細構造の調整を行い、復号信号の主観的品質を向上させることにある。   In addition, when using a real-valued filter bank for conversion to the frequency domain due to the reduction in the amount of computation and the configuration of the codec, if the shape of the spectrum is deformed, harmful aliasing distortion occurs in the decoded signal, The subjective quality of the decoded signal may be adversely affected. As shown in FIG. 4, this distortion appears to spread to frequencies near the spectral coefficient whose amplitude is expanded and contracted. When the power spectral density of distortion is large and the power spectral density of noise components is small, the distortion may lead to significant deterioration in subjective sound quality. Therefore, the second problem to be solved by the present invention is to adjust the spectral fine structure while suppressing the deterioration of sound quality due to distortion caused by the deformation of the spectrum in the speech coding and speech decoding based on the band expansion technology. It is to improve the subjective quality of the decoded signal.

本発明に係る音声復号化装置は、音声信号の低域スペクトルを符号化した情報と高域スペクトルの性質に関する補助情報とを含むビットストリームから、前記低域スペクトルと前記高域スペクトルの両方に相当する周波数成分を含む音声信号を復号する音声復号化装置であって、前記ビットストリームを、音声信号の低域スペクトルを符号化した情報と、高域スペクトルの性質に関する補助情報とに分離する手段と、前記音声信号の低域スペクトルを符号化した情報から、低域スペクトルを復号する手段と、復号によって得られた低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得る手段と、上記高域スペクトルの性質に関する補助情報を利用して上記第1の高域スペクトルの形状を調整することによって第2の高域スペクトルを得るスペクトル形状調整手段と、上記低域スペクトルと上記第2の高域スペクトルとを利用して音声信号を復号する手段と、前記高域スペクトルの性質に関する補助情報と前記第1の高域スペクトルとに基づいて、前記スペクトル形状調整手段により用いられる前記形状の調整の仕方または重畳する雑音の量を決定するスペクトル形状調整方法決定手段と、を備え、前記スペクトル形状調整方法決定手段は、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと形状調整後の高域スペクトルによるマスキング量とを利用して、前記形状の調整の仕方または重畳する雑音の量を決定することを特徴とする。ここで、前記スペクトル形状調整方法決定手段は、前記音声信号の高域スペクトルのトーン対雑音比と前記第1の高域スペクトルのトーン対雑音比とを比較することが望ましい。 The speech decoding apparatus according to the present invention corresponds to both the low-frequency spectrum and the high-frequency spectrum from a bitstream including information obtained by encoding the low-frequency spectrum of the speech signal and auxiliary information regarding the nature of the high-frequency spectrum. An audio decoding device for decoding an audio signal including a frequency component to be transmitted, wherein the bit stream is separated into information obtained by encoding the low frequency spectrum of the audio signal and auxiliary information relating to the nature of the high frequency spectrum; Means for decoding the low-frequency spectrum from information obtained by encoding the low-frequency spectrum of the audio signal, and copying the part or the whole of the low-frequency spectrum obtained by decoding to the high frequency. By adjusting the shape of the first high-frequency spectrum using means for obtaining a spectrum and auxiliary information regarding the properties of the high-frequency spectrum. Spectral shape adjustment means for obtaining a second high-frequency spectrum Te, and means for decoding the audio signal using the above-described low band spectrum and the second high-frequency spectrum, and auxiliary information about the nature of the high frequency spectrum Spectrum shape adjustment method determining means for determining how to adjust the shape used by the spectrum shape adjusting means or the amount of noise to be superimposed based on the first high frequency spectrum, and the spectrum shape adjustment The method determining means uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high-frequency spectrum after the shape adjustment to determine how to adjust the shape or the amount of noise to be superimposed. It is characterized by determining . Here, it is preferable that the spectrum shape adjustment method determining unit compares the tone-to-noise ratio of the high frequency spectrum of the speech signal with the tone-to-noise ratio of the first high frequency spectrum.

ここで、スペクトル形状調整手段は、上記第1の高域スペクトルの形状の調整に加え、雑音を重畳することによって上記第2の高域スペクトルを得る構成とすることが望ましい。   Here, it is desirable that the spectrum shape adjusting means obtains the second high frequency spectrum by superimposing noise in addition to adjusting the shape of the first high frequency spectrum.

また、スペクトル形状調整手段は、上記第1の高域スペクトルを複数のサブバンドに分割し、分割後のサブバンドの各々に属する部分スペクトルについて、該部分スペクトルの形状の調整を行う構成とすることが望ましい。   Further, the spectrum shape adjusting means is configured to divide the first high frequency spectrum into a plurality of subbands and adjust the shape of the partial spectrum for each partial spectrum belonging to each of the divided subbands. Is desirable.

このとき、高域スペクトルの性質に関する補助情報は、音声の高域周波数成分の時間領域での包絡に関する情報を含み、スペクトル形状調整手段は、重畳する雑音の時間領域での包絡を調整する構成とすることが望ましい。   At this time, the auxiliary information related to the nature of the high frequency spectrum includes information related to the envelope in the time domain of the high frequency component of the voice, and the spectrum shape adjusting means adjusts the envelope in the time domain of the superimposed noise and It is desirable to do.

本発明に係る音声符号化装置は、低域スペクトルの復号結果の高域への複写に基づいて高域スペクトルの復号を行う音声復号化装置、に適合するビットストリームを生成する音声符号化装置であって、音声信号を周波数領域に変換し、低域スペクトルを分離した後、残存する高域スペクトルの一部または全体を第1の高域スペクトルとして分離する手段と、上記低域スペクトルを符号化する手段と、上記低域スペクトルの一部または全体を高域に複写することによって第2の高域スペクトルを得る手段と、上記第1の高域スペクトルと上記第2の高域スペクトルの性質に基づいて、上記音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定手段と、符号化された上記低域スペクトルと、上記決定された高域スペクトルの形状の調整の仕方の情報とを多重化したビットストリームを生成する手段とを備え、前記スペクトル形状調整方法決定手段は、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする。ここで、前記スペクトル形状調整方法決定手段は、前記第1の高域スペクトルのトーン対雑音比と前記第2の高域スペクトルのトーン対雑音比とを比較することが望ましい。 A speech coding apparatus according to the present invention is a speech coding apparatus that generates a bit stream suitable for a speech decoding apparatus that decodes a high-frequency spectrum based on copying of a decoding result of a low-frequency spectrum to a high frequency. The voice signal is converted into the frequency domain, and after the low frequency spectrum is separated, a part or the whole of the remaining high frequency spectrum is separated as the first high frequency spectrum, and the low frequency spectrum is encoded. Means for obtaining a second high-frequency spectrum by copying a part or the whole of the low-frequency spectrum to a high frequency, and properties of the first high-frequency spectrum and the second high-frequency spectrum. Based on the spectrum shape adjustment method determining means for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus, the encoded low frequency spectrum, and the determination Is provided with means for generating a bit stream by multiplexing the high frequency band spectrum of the manner of adjustment of the shape information, the spectral shape adjustment method determining means, the output signal due to the adjustment of the shape of the spectrum The method of adjusting the shape of the high-frequency spectrum or the amount of noise to be superimposed is determined using the distortion that occurs and the masking amount by the high-frequency spectrum after adjusting the spectral shape . Here, it is preferable that the spectrum shape adjustment method determination unit compares the tone-to-noise ratio of the first high-frequency spectrum with the tone-to-noise ratio of the second high-frequency spectrum.

ここで、スペクトル形状調整方法決定手段は、上記第1の高域スペクトルと上記第2の高域スペクトルの性質に基づいて、上記高域スペクトルの形状の調整の仕方に加え、上記音声復号化装置における高域スペクトルの形状の調整のために高域スペクトルに重畳する雑音の量を決定する構成とすることが望ましい。   Here, the spectrum shape adjustment method determining means includes the speech decoding apparatus in addition to the method of adjusting the shape of the high frequency spectrum based on the properties of the first high frequency spectrum and the second high frequency spectrum. It is desirable that the amount of noise to be superimposed on the high frequency spectrum is determined in order to adjust the shape of the high frequency spectrum at.

また、スペクトル形状調整方法決定手段は、上記第1の高域スペクトルを複数のサブバンドに分割し、分割後のサブバンドの各々に属する部分スペクトルについて、該部分スペクトルの形状の調整の仕方を決定する構成とすることが望ましい。   The spectrum shape adjustment method determining means divides the first high-frequency spectrum into a plurality of subbands, and determines how to adjust the shape of the partial spectrum for each of the divided subbands. It is desirable to adopt a configuration that does this.

本発明に係る音声帯域拡張装置は、音声の低域周波数成分のみを含む低域スペクトルから、上記低域スペクトルに含まれない高域周波数成分を含む音声信号を復元する音声帯域拡張装置であって、上記低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得る手段と、上記第1の高域スペクトルの形状を調整することで、第2の高域スペクトルを得るスペクトル形状調整手段と、上記低域スペクトルと上記第2の高域スペクトルとを利用して、高域周波数成分を含む音声信号を復元する手段と、前記第1の高域スペクトルの性質に基づいて、音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定手段と、を備え、前記スペクトル形状調整方法決定手段は、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする。ここで、前記スペクトル形状調整方法決定手段は、前記第1の高域スペクトルのトーン対雑音比と前記低域スペクトルから推定した高域スペクトルのトーン対雑音比とを比較することが望ましい。なお、上記スペクトル形状調整手段は、第1の高域スペクトルの形状の調整に加え、雑音を重畳することによって第2の高域スペクトルを得る構成とすることが望ましい。 An audio band extending apparatus according to the present invention is an audio band extending apparatus that restores an audio signal including a high frequency component not included in the low frequency spectrum from a low frequency spectrum including only a low frequency component of the audio. Means for obtaining a first high-frequency spectrum by copying a part or the whole of the low-frequency spectrum to a high frequency; and adjusting the shape of the first high-frequency spectrum to thereby obtain a second high-frequency spectrum. A spectral shape adjusting means for obtaining a sound signal including a high frequency component using the low frequency spectrum and the second high frequency spectrum, and a property of the first high frequency spectrum. A spectral shape adjustment method determining means for determining how to adjust the shape of the high frequency spectrum in the speech decoding device, the spectral shape adjustment method determining means, How to adjust the shape of the high-frequency spectrum or the amount of noise to be superimposed using the distortion generated in the output signal due to the spectral shape adjustment and the masking amount by the high-frequency spectrum after the spectral shape adjustment It is characterized by determining . Here, it is preferable that the spectrum shape adjustment method determination unit compares the tone-to-noise ratio of the first high-frequency spectrum with the tone-to-noise ratio of the high-frequency spectrum estimated from the low-frequency spectrum. The spectrum shape adjusting means is preferably configured to obtain the second high frequency spectrum by superimposing noise in addition to adjusting the shape of the first high frequency spectrum.

ここで、スペクトル形状調整手段は、上記第1の高域スペクトルを複数のサブバンドに分割し、分割後のサブバンドの各々に属する部分スペクトルについて、該部分スペクトルの形状の調整を行う構成とすることが望ましい。   Here, the spectrum shape adjusting means is configured to divide the first high-frequency spectrum into a plurality of subbands and adjust the shape of the partial spectrum for each partial spectrum belonging to each of the divided subbands. It is desirable.

以上のような本発明によれば、帯域拡張技術に基づく音声符号化および音声復号化において、復号信号の主観的品質を向上させることができる。   According to the present invention as described above, the subjective quality of a decoded signal can be improved in speech encoding and speech decoding based on a band extension technique.

ところで、音声復号化装置に関する本発明は、音声復号化方法の発明として捉えることもでき、以下のように記述することができる。本発明に係る音声復号化方法は、音声信号の低域スペクトルを符号化した情報と高域スペクトルの性質に関する補助情報とを含むビットストリームから、前記低域スペクトルと前記高域スペクトルの両方に相当する周波数成分を含む音声信号を復号する音声復号化装置、により実行される音声復号化方法であって、前記ビットストリームを、音声信号の低域スペクトルを符号化した情報と、高域スペクトルの性質に関する補助情報とに分離するステップと、前記音声信号の低域スペクトルを符号化した情報から、低域スペクトルを復号するステップと、復号によって得られた低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得るステップと、上記高域スペクトルの性質に関する補助情報を利用して上記第1の高域スペクトルの形状を調整することによって第2の高域スペクトルを得るスペクトル形状調整ステップと、上記低域スペクトルと上記第2の高域スペクトルとを利用して音声信号を復号するステップと、前記高域スペクトルの性質に関する補助情報と前記第1の高域スペクトルとに基づいて、前記スペクトル形状調整ステップにより用いられる前記形状の調整の仕方または重畳する雑音の量を決定するスペクトル形状調整方法決定ステップと、を備え、前記スペクトル形状調整方法決定ステップは、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと形状調整後の高域スペクトルによるマスキング量とを利用して、前記形状の調整の仕方または重畳する雑音の量を決定することを特徴とする。このとき、上記スペクトル形状調整ステップでは、音声復号化装置は、上記第1の高域スペクトルの形状の調整に加え、雑音を重畳することによって上記第2の高域スペクトルを得ることが望ましい。 By the way, the present invention relating to a speech decoding apparatus can also be regarded as an invention of a speech decoding method and can be described as follows. The speech decoding method according to the present invention corresponds to both the low-frequency spectrum and the high-frequency spectrum from a bitstream including information obtained by encoding the low-frequency spectrum of the speech signal and auxiliary information regarding the nature of the high-frequency spectrum. A speech decoding method executed by a speech decoding apparatus that decodes a speech signal including a frequency component to be encoded, wherein the bitstream is encoded with information obtained by encoding a low-frequency spectrum of the speech signal, and a property of a high-frequency spectrum And sub-information, and a step of decoding the low-frequency spectrum from the information obtained by encoding the low-frequency spectrum of the audio signal, and a part or the whole of the low-frequency spectrum obtained by the decoding is made high frequency. Obtaining the first high-frequency spectrum by copying, and using auxiliary information relating to the nature of the high-frequency spectrum A spectral shape adjustment step of obtaining a second high-frequency spectrum by adjusting the shape of one high-frequency spectrum, and a step of decoding an audio signal using the low-frequency spectrum and the second high-frequency spectrum; A spectral shape adjustment method for determining the shape adjustment method or the amount of noise to be superimposed used by the spectral shape adjustment step based on the auxiliary information on the nature of the high frequency spectrum and the first high frequency spectrum A step of determining the shape of the spectrum using the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high-frequency spectrum after the shape adjustment. It is characterized in that the adjustment method or the amount of noise to be superimposed is determined . At this time, in the spectrum shape adjustment step, it is desirable that the speech decoding apparatus obtains the second high frequency spectrum by superimposing noise in addition to the adjustment of the shape of the first high frequency spectrum.

また、音声符号化装置に関する本発明は、音声符号化方法の発明として捉えることもでき、以下のように記述することができる。本発明に係る音声符号化方法は、低域スペクトルの復号結果の高域への複写に基づいて高域スペクトルの復号を行う音声復号化装置、に適合するビットストリームを生成する音声符号化装置により実行される音声符号化方法であって、音声信号を周波数領域に変換し、低域スペクトルを分離した後、残存する高域スペクトルの一部または全体を第1の高域スペクトルとして分離するステップと、上記低域スペクトルを符号化するステップと、上記低域スペクトルの一部または全体を高域に複写することによって第2の高域スペクトルを得るステップと、上記第1の高域スペクトルと上記第2の高域スペクトルの性質に基づいて、上記音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定ステップと、符号化された上記低域スペクトルと、上記決定された高域スペクトルの形状の調整の仕方の情報とを多重化したビットストリームを生成するステップとを備え、前記スペクトル形状調整方法決定ステップは、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする。このとき、上記スペクトル形状調整方法決定ステップでは、音声符号化装置は、上記第1の高域スペクトルと上記第2の高域スペクトルの性質に基づいて、上記高域スペクトルの形状の調整の仕方に加え、上記音声復号化装置における高域スペクトルの形状の調整のために高域スペクトルに重畳する雑音の量を決定することが望ましい。 Further, the present invention relating to a speech coding apparatus can also be understood as a speech coding method invention and can be described as follows. The speech coding method according to the present invention includes a speech decoding device that generates a bitstream suitable for a speech decoding device that decodes a high frequency spectrum based on a copy of a decoding result of a low frequency spectrum to a high frequency. A speech encoding method to be performed, comprising: converting a speech signal into a frequency domain, separating a low-frequency spectrum, and then separating a part or all of the remaining high-frequency spectrum as a first high-frequency spectrum; Encoding the low-frequency spectrum, obtaining a second high-frequency spectrum by copying a part or the whole of the low-frequency spectrum to the high frequency, the first high-frequency spectrum, and the first A spectral shape adjustment method determining step for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus based on the properties of the high frequency spectrum of 2 And encoded the low frequency spectrum, and a step of generating a bit stream by multiplexing the information of how the adjustment of the shape of the high frequency band spectrum determined above, the spectral shape adjustment method determining step, Using the distortion generated in the output signal due to the adjustment of the spectrum shape and the masking amount by the high frequency spectrum after the spectrum shape adjustment, how to adjust the shape of the high frequency spectrum or the noise to be superimposed It is characterized by determining the quantity . At this time, in the spectrum shape adjustment method determination step, the speech encoding apparatus determines how to adjust the shape of the high frequency spectrum based on the properties of the first high frequency spectrum and the second high frequency spectrum. In addition, it is desirable to determine the amount of noise to be superimposed on the high frequency spectrum in order to adjust the shape of the high frequency spectrum in the speech decoding apparatus.

また、音声帯域拡張装置に関する本発明は、音声帯域拡張方法の発明として捉えることもでき、以下のように記述することができる。本発明に係る音声帯域拡張方法は、音声の低域周波数成分のみを含む低域スペクトルから、上記低域スペクトルに含まれない高域周波数成分を含む音声信号を復元する音声帯域拡張装置、により実行される音声帯域拡張方法であって、上記低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得るステップと、上記第1の高域スペクトルの形状を調整することで、第2の高域スペクトルを得るスペクトル形状調整ステップと、上記低域スペクトルと上記第2の高域スペクトルとを利用して、高域周波数成分を含む音声信号を復元するステップと、前記第1の高域スペクトルの性質に基づいて、音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定ステップと、を備え、前記スペクトル形状調整方法決定ステップは、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする。なお、上記スペクトル形状調整ステップでは、音声復号化装置は、第1の高域スペクトルの形状の調整に加え、雑音を重畳することによって第2の高域スペクトルを得ることが望ましい。 Further, the present invention relating to a voice band extending apparatus can also be regarded as an invention of a voice band extending method and can be described as follows. An audio band extending method according to the present invention is performed by an audio band extending apparatus that restores an audio signal including a high frequency component not included in the low frequency spectrum from a low frequency spectrum including only a low frequency component of the audio. A method for expanding a voice band, the step of obtaining a first high frequency spectrum by copying a part or the whole of the low frequency spectrum to a high frequency, and adjusting the shape of the first high frequency spectrum it is a step in which the spectral shape adjustment step of obtaining a second high-frequency spectrum, by using the above low frequency band spectrum and the second high-frequency spectrum, to restore the audio signals containing high frequency components, wherein A spectral shape adjustment method determining step for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus based on the property of the first high frequency spectrum; And the spectral shape adjustment method determining step uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high frequency spectrum after the adjustment of the spectrum shape. It is characterized in that the method of adjusting the shape or the amount of noise to be superimposed is determined . In the spectrum shape adjustment step, it is desirable that the speech decoding apparatus obtains the second high frequency spectrum by superimposing noise in addition to adjusting the shape of the first high frequency spectrum.

本発明によれば、帯域拡張技術に基づく音声符号化および音声復号化において、原信号における高域スペクトルの微細構造がサブバンド間で異なる場合にも、図3に示すように、複写された高域スペクトルの微細構造を精度よく調整することができる。また、調整に伴う歪みの知覚的影響を最小限にしつつスペクトル微細構造の調整を行うことができる。以上により、帯域拡張技術に基づく音声符号化および音声復号化において、復号信号の主観的品質を向上させることができる。   According to the present invention, in speech coding and speech decoding based on the band extension technique, even if the fine structure of the high-frequency spectrum in the original signal differs between subbands, as shown in FIG. The fine structure of the region spectrum can be adjusted with high accuracy. In addition, the spectral fine structure can be adjusted while minimizing the perceptual effect of distortion associated with the adjustment. As described above, the subjective quality of the decoded signal can be improved in speech encoding and speech decoding based on the band extension technique.

以下では、本発明の実施形態について、添付図面を参照して詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

(実施形態1)
図5は、本発明の実施形態1における音声符号化装置501の主要な構成を示すブロック図である。図5に示すように、音声符号化装置501は、入力信号に対して周波数領域への変換を行う周波数領域変換部503と、低域スペクトルを符号化する低域符号化部509と、低域符号化部509から与えられた符号を復号する低域復号化部515と、入力された低域スペクトルの一部または全体を複写することで、所定の境界周波数以上の成分を持つ高域スペクトルを作成するスペクトル複写部517と、所定の分割規則に基づいて高域スペクトルを複数のサブバンドに分割するサブバンド分割部511、521と、サブバンドに分解された高域スペクトルのスペクトル包絡を計算するスペクトル包絡計算部527と、サブバンド分割された高域スペクトルを利用して高域スペクトルの形状調整方法をサブバンドごとに決定するスペクトル形状調整方法決定部525と、低域符号化部509から与えられる符号とスペクトル形状調整方法決定部525から与えられるスペクトル形状調整情報とスペクトル包絡計算部527から与えられるスペクトル包絡情報とを多重化しビットストリームを生成するビットストリーム多重化部529と、を備えている。
(Embodiment 1)
FIG. 5 is a block diagram showing the main configuration of speech encoding apparatus 501 according to Embodiment 1 of the present invention. As illustrated in FIG. 5, the speech encoding apparatus 501 includes a frequency domain conversion unit 503 that converts an input signal into a frequency domain, a low frequency encoding unit 509 that encodes a low frequency spectrum, and a low frequency A low frequency decoding unit 515 that decodes the code given from the encoding unit 509 and a part or the whole of the input low frequency spectrum are copied, so that a high frequency spectrum having a component equal to or higher than a predetermined boundary frequency is obtained. A spectrum copying unit 517 to be created, subband division units 511 and 521 that divide a high-frequency spectrum into a plurality of subbands based on a predetermined division rule, and a spectral envelope of the high-frequency spectrum decomposed into subbands Spectral envelope calculation unit 527 and spectral shape for determining the shape adjustment method of the high frequency spectrum for each subband using the high frequency spectrum divided into subbands A bit stream obtained by multiplexing the code provided from the adjustment method determination unit 525, the low frequency encoding unit 509, the spectrum shape adjustment information provided from the spectrum shape adjustment method determination unit 525, and the spectrum envelope information provided from the spectrum envelope calculation unit 527 And a bit stream multiplexing unit 529 for generating.

この音声符号化装置501は、ハードウェア構成としては、例えば、図22に示すように、オペレーティングシステムやアプリケーションプログラムなどを実行するCPU2201、ROM及びRAMで構成される主記憶部2202、ハードディスクなどで構成される補助記憶部2203、外部とデータ通信を行う通信制御部2204、液晶モニタなどで構成される表示部2205、並びに文字・数字入力及び実行指示等を行うための操作部2206を含んで構成される。前述した図5の各ブロックの機能は、図22に示すCPU2201の制御の下で主記憶部2202に所定のソフトウェアを読み込ませ実行することにより、実現される。   As shown in FIG. 22, the speech encoding apparatus 501 includes, for example, a CPU 2201 that executes an operating system and application programs, a main storage unit 2202 including ROM and RAM, a hard disk, and the like. Auxiliary storage unit 2203, communication control unit 2204 for performing data communication with the outside, display unit 2205 configured with a liquid crystal monitor, etc., and operation unit 2206 for performing character / number input and execution instructions, etc. The The functions of the blocks in FIG. 5 described above are realized by reading and executing predetermined software in the main storage unit 2202 under the control of the CPU 2201 shown in FIG.

音声符号化装置501は、入力信号に対して、図6のフローチャートに示す一連の処理を行って、符号化されたビットストリームを外部へ出力する。以下、図6の一連の処理を説明する。   The audio encoding device 501 performs a series of processes shown in the flowchart of FIG. 6 on the input signal, and outputs the encoded bit stream to the outside. Hereinafter, a series of processes in FIG. 6 will be described.

図6のステップ601では、周波数領域変換部503が入力信号に対して周波数領域への変換を行う。ここで、変換の方法としては離散フーリエ変換(DFT)、離散コサイン変換(DCT)、修正離散コサイン変換(MDCT)、コサイン変調フィルタバンクなどを用いる。周波数領域に変換されたスペクトルは、所定の境界周波数Fcを用いて、低域スペクトル505と高域スペクトル507に分離される。また、高域スペクトル507は境界周波数Fc以上の周波数帯域の全体でなく、一部のみを含むものであってもよい。周波数領域変換部503または周波数領域変換ステップ601は、まず帯域通過フィルタやフィルタバンクを用いて入力信号を低域信号と高域信号に分離し、その後各々の信号に対して周波数領域への変換を行うことによっても実現できる。   In step 601 of FIG. 6, the frequency domain conversion unit 503 converts the input signal into the frequency domain. Here, as a conversion method, discrete Fourier transform (DFT), discrete cosine transform (DCT), modified discrete cosine transform (MDCT), cosine modulation filter bank, or the like is used. The spectrum converted into the frequency domain is separated into a low frequency spectrum 505 and a high frequency spectrum 507 using a predetermined boundary frequency Fc. Further, the high frequency spectrum 507 may include only a part of the frequency band equal to or higher than the boundary frequency Fc. The frequency domain transforming unit 503 or the frequency domain transforming step 601 first separates the input signal into a low-frequency signal and a high-frequency signal using a band-pass filter or a filter bank, and then converts each signal into the frequency domain. It can also be realized by doing.

次のステップ603では、低域符号化部509が低域スペクトル505を符号化し、得られた符号を低域復号化部515に与える。そして、次のステップ605では、低域復号化部515が、低域符号化部509から与えられた符号を復号し、復号により得られた低域スペクトルをスペクトル複写部517に与える。なお、代替的な実現手段として、図5の低域復号化部515および図6のステップ605を省略し、低域スペクトル505をスペクトル複写部517に直接与えることもできる。   In the next step 603, the low frequency encoding unit 509 encodes the low frequency spectrum 505 and gives the obtained code to the low frequency decoding unit 515. In the next step 605, the low frequency decoding unit 515 decodes the code given from the low frequency encoding unit 509 and gives the low frequency spectrum obtained by the decoding to the spectrum copying unit 517. As an alternative implementation means, the low band decoding unit 515 in FIG. 5 and step 605 in FIG. 6 can be omitted, and the low band spectrum 505 can be directly provided to the spectrum copying unit 517.

次のステップ607では、スペクトル複写部517が、入力された低域スペクトルの一部または全体を複写することで、境界周波数Fc以上の成分を持つ高域スペクトル519を作成し、サブバンド分割部521に与える。高域スペクトル519は境界周波数Fc以上の周波数帯域の全体でなく、一部のみを含むものであってもよい。上記の複写の方法としては、図7(a)のように高域スペクトルを高域にシフトさせて複写を行う方法や、図7(b)のように境界周波数Fcに関して線対称になるようにスペクトルを反転させて複写を行う方法を採用することができる。複写によって生成する高域スペクトルの帯域幅が複写に利用する低域スペクトルより広い場合には、図7(c)のように繰り返し複写を行うこともできる。   In the next step 607, the spectrum copying unit 517 creates a high frequency spectrum 519 having a component equal to or higher than the boundary frequency Fc by copying a part or the whole of the input low frequency spectrum, and the subband dividing unit 521. To give. The high frequency spectrum 519 may include only a part of the frequency band not lower than the boundary frequency Fc. As the above copying method, copying is performed by shifting the high-frequency spectrum to the high frequency as shown in FIG. 7A, or so as to be line-symmetric with respect to the boundary frequency Fc as shown in FIG. 7B. It is possible to adopt a method of performing copying by inverting the spectrum. When the bandwidth of the high-frequency spectrum generated by copying is wider than the low-frequency spectrum used for copying, the copying can be repeated as shown in FIG.

次のステップ609では、サブバンド分割部511、521が、同一の分割規則に基づいて、高域スペクトル507、519をそれぞれ複数のサブバンドに分割し、スペクトル形状調整方法決定部525に与える。なお、図5のサブバンド分割部511、521および図6のステップ609は必須ではなく、分割されていない高域スペクトル507、519全体を、スペクトル形状調整方法決定部525に与えてもよい。   In the next step 609, the subband division units 511 and 521 divide the high-frequency spectra 507 and 519 into a plurality of subbands based on the same division rule, and give them to the spectrum shape adjustment method determination unit 525. Note that the subband splitting units 511 and 521 in FIG. 5 and step 609 in FIG. 6 are not essential, and the entire high-frequency spectra 507 and 519 may be given to the spectrum shape adjustment method determining unit 525.

次のステップ611では、スペクトル形状調整方法決定部525が、サブバンド分割された高域スペクトル513、523を利用して、音声復号化装置側における高域スペクトルの形状調整方法をサブバンドごとに決定し、決定された方法を示す情報をビットストリーム多重化部529に与える。なお、図5のサブバンド分割部511、521および図6のステップ609が省略されている場合は、スペクトル形状調整方法決定部525は高域スペクトル全体を1つのサブバンドとして取り扱う。このステップ611の処理については、図8〜図11を用いて、後に詳述する。   In next step 611, spectrum shape adjustment method determination section 525 determines the shape adjustment method of the high frequency spectrum on the speech decoding apparatus side for each subband using subband-divided high frequency spectra 513 and 523. Then, information indicating the determined method is provided to the bit stream multiplexing unit 529. When the subband division units 511 and 521 in FIG. 5 and step 609 in FIG. 6 are omitted, the spectrum shape adjustment method determination unit 525 handles the entire high frequency spectrum as one subband. The processing in step 611 will be described in detail later with reference to FIGS.

次のステップ613では、スペクトル包絡計算部527が、サブバンド分割部511によりサブバンドに分解された高域スペクトルのスペクトル包絡を計算し、ビットストリーム多重化部529に与える。スペクトル包絡は、各々のサブバンド内のスペクトルの平均電力の形で表現することができる。また、代替的な構成として、スペクトル包絡計算部527が入力信号を直接受け取ってLPC分析を行い、得られたLPCパラメータをビットストリーム多重化部529に与えることもできる。図5のスペクトル包絡計算部527および図6のステップ613は、本発明の効果を得るために必須ではなく、省略することもできる。   In the next step 613, the spectrum envelope calculation unit 527 calculates the spectrum envelope of the high frequency spectrum decomposed into subbands by the subband division unit 511, and provides the spectrum envelope to the bitstream multiplexing unit 529. The spectral envelope can be expressed in the form of the average power of the spectrum within each subband. As an alternative configuration, the spectrum envelope calculation unit 527 can directly receive the input signal, perform LPC analysis, and provide the obtained LPC parameters to the bitstream multiplexing unit 529. The spectrum envelope calculation unit 527 in FIG. 5 and step 613 in FIG. 6 are not essential to obtain the effect of the present invention, and can be omitted.

次のステップ615では、ビットストリーム多重化部529が、低域符号化部509から与えられた符号と、スペクトル形状調整方法決定部525から与えられたスペクトル形状調整情報と、スペクトル包絡計算部527から与えられたスペクトル包絡情報とを多重化し、ビットストリームを生成する。   In the next step 615, the bit stream multiplexing unit 529 receives the code given from the low frequency coding unit 509, the spectrum shape adjustment information given from the spectrum shape adjustment method determination unit 525, and the spectrum envelope calculation unit 527. A bit stream is generated by multiplexing the given spectral envelope information.

以上のようにして、音声符号化装置501において、ビットストリームが生成され外部へ出力される。   As described above, the speech encoding apparatus 501 generates a bit stream and outputs it to the outside.

以下では、図8のスペクトル形状調整方法決定部525の構成、および図6のステップ611の処理について詳述する。   Hereinafter, the configuration of the spectral shape adjustment method determination unit 525 in FIG. 8 and the processing in step 611 in FIG. 6 will be described in detail.

前述したように、図6のステップ611では、スペクトル形状調整方法決定部525は、サブバンド分割された高域スペクトル513、523を利用して、復号器における高域スペクトルの形状調整方法をサブバンドごとに決定し、決定された方法を示す情報をビットストリーム多重化部529に与える。   As described above, in step 611 of FIG. 6, the spectrum shape adjustment method determination unit 525 uses the highband spectrums 513 and 523 obtained by subband division to change the shape adjustment method of the highband spectrum in the decoder to the subband. Information indicating the determined method is given to the bit stream multiplexing unit 529.

上記処理を行うスペクトル形状調整方法決定部525は、図8の構成を備えている。図8に示すスペクトル正規化部801、803は、サブバンド分割された高域スペクトル513、523の振幅をサブバンドごとに正規化する。正規化の方法は式1に従う。ただし、正規化前のスペクトル係数をS’(k)、正規化後のスペクトル係数をS(k)で表す。インデックスkは周波数を示し、i番目のサブバンドはF≦k<Fi+1の周波数を含むものとする。ただし、Fはi番目のサブバンドに含まれる周波数の下限である。また、max( )は最大値を、| |は絶対値をそれぞれ表す。

Figure 0005203077

スペクトル正規化部801、803は省略することもできる。 The spectrum shape adjustment method determination unit 525 that performs the above processing has the configuration of FIG. Spectral normalization sections 801 and 803 shown in FIG. 8 normalize the amplitudes of the subband-divided high frequency spectra 513 and 523 for each subband. The normalization method follows Formula 1. However, the spectrum coefficient before normalization is represented by S ′ (k), and the spectrum coefficient after normalization is represented by S (k). The index k indicates a frequency, and the i-th subband includes a frequency of F i ≦ k <F i + 1 . However, F i is the lower limit of the frequency included in the i-th subband. Further, max () represents a maximum value and || represents an absolute value.
Figure 0005203077

The spectrum normalization units 801 and 803 can be omitted.

なお、図8のスペクトル形状調整方法決定部525には、入力信号の高域スペクトルをLPC分析するLPC分析部805を設けてもよい。例えば、音声復号化装置でLPCフィルタによる雑音波形の時間包絡調整を行う場合には、LPC分析部805によって入力信号の高域スペクトルをLPC分析し、分析によって得られたパラメータをスペクトル形状調整情報に含めることができる。   Note that the spectrum shape adjustment method determination unit 525 in FIG. 8 may be provided with an LPC analysis unit 805 that performs LPC analysis of the high frequency spectrum of the input signal. For example, when performing the time envelope adjustment of the noise waveform by the LPC filter in the speech decoding apparatus, the high frequency spectrum of the input signal is LPC analyzed by the LPC analysis unit 805, and the parameters obtained by the analysis are used as the spectrum shape adjustment information. Can be included.

トーン対雑音比算出部807、809は、スペクトル正規化部801、803から与えられた正規化スペクトルを用いて各サブバンドのトーン対雑音比を示す指標Tを算出し、パラメータ決定部811に与える。Tは複数の方法で定義することができるが、例えば式2、式3、式4に示すような定義を用いることができる。ただし、mean( )は算術平均を、gmean( )は幾何平均を、min( )は最小値をそれぞれ表す。

Figure 0005203077

式2、式3、式4のいずれの定義に従っても、Tはトーン成分の雑音成分に対する比率が高いほど大きな値をとる。 The tone-to-noise ratio calculation units 807 and 809 calculate an index T i indicating the tone-to-noise ratio of each subband using the normalized spectrum given from the spectrum normalization units 801 and 803, and the parameter determination unit 811 give. T i is can be defined in several ways, for example Formula 2, Formula 3, can be used to define, as shown in Equation 4. Here, mean () represents an arithmetic mean, gmean () represents a geometric mean, and min () represents a minimum value.
Figure 0005203077

Formula 2, Formula 3, also in accordance with any of the definitions of Formula 4, T i takes a larger value the higher the ratio of the noise component of the tone component.

パラメータ決定部811は、複写された高域スペクトル523と入力信号の高域スペクトル53のトーン対雑音比を比較し、復号器における高域スペクトルのスペクトル形状調整方法を決定する。 The parameter determination unit 811 compares the tone-to-noise ratio of the copied high-frequency spectrum 523 and the high-frequency spectrum 5 13 of the input signal, and determines the spectral shape adjustment method of the high-frequency spectrum in the decoder.

スペクトル形状の調整は、複写された高域スペクトル523をSc(k)、スペクトル形状調整後の高域スペクトルをSt(k)として、式5に従う。すなわち、スペクトル形状調整方法の決定は、式5の表記において、パラメータα、βを決定することと等価である。ただし、f(x,α)はxを入力とする非線形関数であり、αは関数の形状を制御するパラメータである。また、rvは所定の電力を持つ雑音であり、βはスペクトルに重畳する雑音の大きさを示すパラメータである。sign( )は正負の符号を示す。
St(k)=sign(Sc(k))・f(|Sc(k)|,α)+β・rv
where F≦k<Fi+1 …(式5)
f(x,α)の具体的な形状は、例えば式6、式7、式8のように定めることができる。ただし、max(a,b)はaとbの最大値を、min(a,b)はaとbの最小値を表す。
f(x,α)=xαi …(式6)
f(x,α)=min(x,α) …(式7)
f(x,α)=max(0,x+α) …(式8)
パラメータ決定部811は、式5に従う調整によって得られるSt(k)の各サブバンドにおけるトーン対雑音比が入力信号の高域スペクトル513の各サブバンドにおけるトーン対雑音比と一致するようパラメータα、βを決定する。パラメータ決定部811により実行されるパラメータの決定処理は、以下で述べる図9のフローチャートに従う。
The spectrum shape is adjusted according to Equation 5 with Sc (k) as the copied high-frequency spectrum 523 and St (k) as the high-frequency spectrum after the spectrum shape adjustment. That is, the determination of the spectral shape adjustment method is equivalent to determining the parameters α i and β i in the expression of Equation 5. Here, f (x, α i ) is a nonlinear function having x as an input, and α i is a parameter for controlling the shape of the function. Rv is noise having a predetermined power, and β i is a parameter indicating the magnitude of noise superimposed on the spectrum. sign () indicates a positive or negative sign.
St (k) = sign (Sc (k)) · f (| Sc (k) |, α i ) + β i · rv
where F i ≦ k <F i + 1 (Formula 5)
The specific shape of f (x, α i ) can be determined as shown in Equation 6, Equation 7, and Equation 8, for example. However, max (a, b) represents the maximum value of a and b, and min (a, b) represents the minimum value of a and b.
f (x, α i) = x αi ... ( Equation 6)
f (x, α i ) = min (x, α i ) (Expression 7)
f (x, α i ) = max (0, x + α i ) (Equation 8)
The parameter determination unit 811 sets the parameter α i so that the tone-to-noise ratio in each subband of St (k) obtained by the adjustment according to Equation 5 matches the tone-to-noise ratio in each subband of the high frequency spectrum 513 of the input signal. , Β i are determined. The parameter determination process executed by the parameter determination unit 811 follows the flowchart of FIG. 9 described below.

図9のステップ901では、パラメータ決定部811は、未処理のサブバンドから1つを選択し、ステップ903にて、高域スペクトル513、523のトーン対雑音比を取得する。次のステップ905ではβを0に設定し、ステップ907では、高域スペクトル513、523のトーン対雑音比を比較する。ここで、入力信号の高域スペクトル513のトーン対雑音比が複写された高域スペクトル523のトーン対雑音比よりも高い場合には、後述するステップ909が実行され、高域スペクトル513のトーン対雑音比が高域スペクトル523のトーン対雑音比以下の場合には、後述するステップ911が実行される。 In step 901 of FIG. 9, the parameter determination unit 811 selects one from the unprocessed subbands, and acquires the tone-to-noise ratio of the high-frequency spectra 513 and 523 in step 903. In the next step 905, β i is set to 0, and in step 907, the tone-to-noise ratios of the high-frequency spectra 513 and 523 are compared. Here, if the tone-to-noise ratio of the high-frequency spectrum 513 of the input signal is higher than the tone-to-noise ratio of the copied high-frequency spectrum 523, step 909 described later is executed, and the tone pair of the high-frequency spectrum 513 is executed. When the noise ratio is equal to or lower than the tone-to-noise ratio of the high frequency spectrum 523, Step 911 described later is executed.

ステップ909では、高域スペクトル513とSt(k)のトーン対雑音比が一致するαを「α>1」の条件下で探索する。ここでの探索は、一定のステップ幅を用いてαを増加させながらSt(k)のトーン対雑音比を計算することで行うことができる。 In step 909, α i that matches the tone-to-noise ratio of the high-frequency spectrum 513 and St (k) is searched under the condition of “α i > 1”. This search can be performed by calculating the tone-to-noise ratio of St (k) while increasing α i using a constant step width.

一方、ステップ911では、同様に高域スペクトル513とSt(k)のトーン対雑音比が一致するαを「α<1」の条件下で探索する。次のステップ913は、マスキング判定部813により実行される。このステップ913の処理は図10を用いて後述するが、このステップ913では、マスキング判定部813が、ステップ911で求められたαを用いた場合に歪みがマスキングされるか否かを判断する。ステップ913で、歪みがマスキングされないと判定された場合にはステップ915にてαに一定値が加算され、ステップ911の処理が再度実行される。一方、ステップ913で、歪みがマスキングされと判定された場合およびステップ909が実行された後には、ステップ917にて、決定されたα、βが出力される。そして、ステップ919で未処理のサブバンドが探索され、全てのサブバンドについて処理が終了していない場合には、未処理のサブバンドについてステップ901以降の処理が再度実行される。以上のような図9の処理により、パラメータα、βが決定される。 On the other hand, in step 911, α i in which the tone-to-noise ratio of high frequency spectrum 513 and St (k) coincide is similarly searched under the condition of “α i <1”. The next step 913 is executed by the masking determination unit 813. The processing in step 913 will be described later with reference to FIG. 10. In this step 913, the masking determination unit 813 determines whether distortion is masked when α i obtained in step 911 is used. . If it is determined in step 913 that the distortion is not masked, a constant value is added to α i in step 915, and the processing in step 911 is executed again. On the other hand, in step 913, after the case and steps 909 strain is determined to Ru masked is executed at step 917, the determined alpha i, beta i is output. Then, in step 919, an unprocessed subband is searched, and in the case where processing has not been completed for all subbands, the processing from step 901 onward is executed again for the unprocessed subband. The parameters α i and β i are determined by the processing of FIG. 9 as described above.

ここで、図9のステップ913においてマスキング判定部813によって実行される歪みのマスキング判定処理について概説する。この歪みのマスキング判定処理は、図10に示すフローチャートに従う。   Here, an outline of the distortion masking determination process executed by the masking determination unit 813 in step 913 in FIG. 9 will be described. This distortion masking determination processing follows the flowchart shown in FIG.

図10のステップ1001では、マスキング判定部813は、スペクトル振幅の変形に伴うスペクトル振幅の変化量d(k)を式9に従って求める。
d(k)=f(Sc(k),α)−Sc(k) …(式9)
次のステップ1003では、エイリアシング歪みの上界Dsup(k)を式10に従って求める。ただし、spr(k)は、周波数領域への変換の種類と窓関数の形状によって定まる拡散関数であり、*は畳み込み演算を表す。
sup(k)=spr(k)*|d(k)| …(式10)
次のステップ1005では、マスキング量Tmask(k)を式11に従って求める。ただし、同時マスキング量を示すマスキングパターンをFcb(k)とする。
mask(k)=|S(k)|*Fcb(k) …(式11)
mask(k)とDsup(k)の関係の例を図11に示す。
In step 1001 of FIG. 10, the masking determination unit 813 obtains the change amount d (k) of the spectrum amplitude accompanying the deformation of the spectrum amplitude according to Equation 9.
d (k) = f (Sc (k), α i ) −Sc (k) (Equation 9)
In the next step 1003, the upper limit D sup (k) of the aliasing distortion is obtained according to Equation 10. Here, spr (k) is a diffusion function determined by the type of conversion to the frequency domain and the shape of the window function, and * represents a convolution operation.
D sup (k) = spr (k) * | d (k) | (Formula 10)
In the next step 1005, the masking amount T mask (k) is obtained according to Equation 11. However, the masking pattern indicating the simultaneous masking amount is F cb (k).
T mask (k) = | S t (k) | * F cb (k) (Formula 11)
An example of the relationship between T mask (k) and D sup (k) is shown in FIG.

次のステップ1007では、Tmask(k)とDsup(k)を比較し、全てのkについてTmask(k)≧Dsup(k)の場合には歪みがマスキングされると判断し、一方、いずれかのkについてTmask(k)<Dsup(k)の場合には歪みがマスキングされないと判断する。 In the next step 1007, T mask (k) and D sup (k) are compared, and if T mask (k) ≧ D sup (k) for all k, it is determined that the distortion is masked, , If T mask (k) <D sup (k) for any k, it is determined that the distortion is not masked.

以上のようにして歪みのマスキング判定処理が行われる。なお、マスキングの判断において、マスキング量を超える一定量の歪みKを許容し、Tmask(k)+K≧Dsup(k)の場合には歪みがマスキングされたと判断する方法をとることもできる。 The distortion masking determination process is performed as described above. In the masking determination, a certain amount of distortion K exceeding the masking amount is allowed, and when T mask (k) + K ≧ D sup (k), it can be determined that the distortion is masked.

(実施形態1の変形例1)
ところで、パラメータ決定部811によるパラメータ決定処理について、演算量を低減した変形例1を以下に示す。同変形例1は、図12のフローチャートに沿って実行される。図12のフローチャートでは、図9のフローチャートと同じ処理には同じ番号を付しており、図12のステップ1213、1215、1217が図9のフローチャートと異なる。以下では、異なる点について説明する。
(Modification 1 of Embodiment 1)
By the way, in the parameter determination process by the parameter determination unit 811, Modification 1 in which the amount of calculation is reduced is shown below. The first modification is executed according to the flowchart of FIG. In the flowchart of FIG. 12, the same processes as those in the flowchart of FIG. 9 are given the same numbers, and steps 1213, 1215, and 1217 in FIG. 12 are different from those in the flowchart of FIG. Below, a different point is demonstrated.

図9のフローチャートではステップ913においてマスキングの判断を行うのに対し、図12のフローチャートではステップ1213においてαを所与の最大値Aと比較する。ここで、αが最大値Aを超える場合には、ステップ1215においてα=Aとした後、ステップ1217でスペクトル513とSt(k)のトーン対雑音比が一致するβを探索する。 In the flowchart of FIG. 9, masking is determined in step 913, whereas in the flowchart of FIG. 12, α i is compared with a given maximum value A in step 1213. If α i exceeds the maximum value A, α i = A is set in step 1215, and then β i in which the tone-to-noise ratio of spectrum 513 and St (k) match is searched for in step 1217.

一方、ステップ1213にてαが最大値Aを超えない場合およびステップ1217の実行後には、ステップ917へ進み、決定されたα、βを出力する。なお、αの最大値Aは、固定値としてもよいし、スペクトル523のトーン対雑音比に応じて決定してもよい。 On the other hand, when α i does not exceed the maximum value A in step 1213 and after execution of step 1217, the process proceeds to step 917, where the determined α i and β i are output. The maximum value A of α i may be a fixed value or may be determined according to the tone-to-noise ratio of the spectrum 523.

(実施形態1の変形例2)
式5においてβを0に固定することにより、雑音の重畳を伴わず、スペクトルの振幅の変形のみによるスペクトル形状調整方法を取ることができる。この場合には、図13に示すフローチャートに従ってαを求めることができる。
(Modification 2 of Embodiment 1)
By fixing β i to 0 in Equation 5, it is possible to adopt a spectral shape adjustment method that is not accompanied by superimposition of noise but only by deformation of the spectrum amplitude. In this case, α i can be obtained according to the flowchart shown in FIG.

図13のフローチャートでは、図9のフローチャートと同じ処理には同じ番号を付しており、図13のステップ1307、1309、1311が図9のフローチャートと異なる。すなわち、ステップ1307においてスペクトル513とSt(k)のトーン対雑音比が一致するαを求め、次のステップ1309でαとAを比較する。ここで、αがAを超える場合にはステップ1311でα=Aとすればよい。なお、ステップ1309の処理は、図10のフローチャートに従うマスキング判定によって実行してもよい。 In the flowchart of FIG. 13, the same processes as those in the flowchart of FIG. 9 are denoted by the same numbers, and steps 1307, 1309, and 1311 in FIG. 13 are different from those in the flowchart of FIG. That is, α i in which the tone-to-noise ratio of the spectrum 513 and St (k) match is obtained in step 1307, and α i and A are compared in the next step 1309. Here, if α i exceeds A, α i = A may be set in step 1311. Note that the processing of step 1309 may be executed by masking determination according to the flowchart of FIG.

(実施形態1の変形例3)
式5においてαを適切な値Zに固定することにより、スペクトルの振幅の変形を伴わず、雑音の重畳のみによるスペクトル形状調整方法を取ることができる。この場合には、図14に示すフローチャートに従ってβを求めることができる。
(Modification 3 of Embodiment 1)
By fixing α i to an appropriate value Z in Equation 5, it is possible to adopt a spectral shape adjustment method that only involves noise superposition without being accompanied by deformation of the spectral amplitude. In this case, β i can be obtained according to the flowchart shown in FIG.

図14のフローチャートでは、図9のフローチャートと同じ処理には同じ番号を付しており、図14のステップ1405、1409、1411が図9のフローチャートと異なる。すなわち、ステップ1405においてα=Zとし、次のステップ907において高域スペクトル513、523のトーン対雑音比を比較する。ここで、高域スペクトル523のトーン対雑音比が高域スペクトル513のトーン対雑音比よりも高いときのみ、ステップ1411にてスペクトル513とSt(k)のトーン対雑音比が一致するβを探索することができる。一方、高域スペクトル523のトーン対雑音比が高域スペクトル513のトーン対雑音比以下の場合にはステップ1409で常にβ=0とする。 In the flowchart of FIG. 14, the same processes as those in the flowchart of FIG. 9 are given the same numbers, and steps 1405, 1409, and 1411 in FIG. 14 are different from the flowchart in FIG. 9. That is, α i = Z is set in step 1405, and the tone-to-noise ratios of the high-frequency spectra 513 and 523 are compared in the next step 907. Here, only when the tone-to-noise ratio of the high-frequency spectrum 523 is higher than the tone-to-noise ratio of the high-frequency spectrum 513, β i at which the tone-to-noise ratio of the spectrum 513 and St (k) match is set in step 1411. Can be explored. On the other hand, if the tone-to-noise ratio of the high-frequency spectrum 523 is less than or equal to the tone-to-noise ratio of the high-frequency spectrum 513, β i = 0 is always set in step 1409.

(実施形態1の変形例4)
ところで、式5における雑音rvは均一な分布またはガウス性の分布を持つ乱数とすることができる。rvを乱数とした場合には、重畳された雑音は時間領域において平坦な包絡を持つ。また、別の方法として、上記乱数に周波数軸に沿ってLPCフィルタリングを施したものをrvとして用いることもできる。周波数領域でLPCフィルタリングを行うことにより、時間領域への逆変換を行った際の雑音波形の時間領域での包絡を調整することができる。周波数領域でのLPCフィルタリングによって時間領域での波形の包絡が調整できることは、例えば文献「J.Herre et al., “Enhancing the Performance of Perceptual Audio Coders by UsingTemporal Noise Shaping (TNS)”, AES convention 101, paper number 4384, 1996」において説明されている。
(Modification 4 of Embodiment 1)
By the way, the noise rv in Equation 5 can be a random number having a uniform distribution or a Gaussian distribution. When rv is a random number, the superimposed noise has a flat envelope in the time domain. As another method, the random number obtained by applying LPC filtering along the frequency axis can be used as rv. By performing LPC filtering in the frequency domain, it is possible to adjust the envelope in the time domain of the noise waveform when the inverse transformation to the time domain is performed. The ability to adjust the envelope of the waveform in the time domain by LPC filtering in the frequency domain is described in, for example, the document “J. Herre et al.,“ Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS) ”, AES convention 101, paper number 4384, 1996 ".

音声復号化装置においてLPCフィルタによる雑音波形の時間包絡調整を行う場合には、図8のLPC分析部805において入力信号の高域スペクトルをLPC分析し、分析によって得られたパラメータをスペクトル形状調整情報に含めることができる。なお、LPC分析部805は本発明の効果を得るための必須の構成ではなく、省略することもできる。   When the time envelope adjustment of the noise waveform by the LPC filter is performed in the speech decoding apparatus, the LPC analysis unit 805 in FIG. 8 performs LPC analysis on the high frequency spectrum of the input signal, and the parameters obtained by the analysis are used as spectral shape adjustment information. Can be included. The LPC analysis unit 805 is not an essential configuration for obtaining the effects of the present invention, and can be omitted.

なお、式5においては、スペクトル振幅の変形をスカラー関数で実現し、あるスペクトル係数に対する変形は周囲のスペクトル係数の値に影響されないものとしているが、変形結果が周囲のスペクトル係数に依存する処理方法を取ってもよい。例えば、非線形スカラー関数f(x,α)によってスペクトル振幅|Sc(k)|を変形する代わりに、f(Sc(k),α)/|Sc(k)|を各スペクトル係数に重畳されるゲインとみなし、このゲインを周波数軸に沿って平滑化した後で|Sc(k)|に乗算することができる。 In Equation 5, the deformation of the spectral amplitude is realized by a scalar function, and the deformation for a certain spectral coefficient is not affected by the value of the surrounding spectral coefficient. However, the processing method in which the deformation result depends on the surrounding spectral coefficient. You may take For example, instead of transforming the spectrum amplitude | Sc (k) | by a non-linear scalar function f (x, α i ), f (Sc (k), α i ) / | Sc (k) | is superimposed on each spectral coefficient. It is possible to multiply | Sc (k) | after smoothing the gain along the frequency axis.

(実施形態1における音声復号化装置の構成および動作)
図15は、本発明の実施形態1における音声復号化装置1501の主要な構成を示すブロック図である。図15に示すように、音声復号化装置1501は、多重化されたビットストリームを、(1)音声信号の低域スペクトルを符号化した情報1505と(2)高域スペクトルのスペクトル形状調整方法を指示する補助情報1507と(3)スペクトル包絡情報1509とに分離するビットストリーム分離部1503と、音声信号の低域スペクトルを符号化した情報1505から低域スペクトルを復号化する低域復号化部1511と、図5のスペクトル複写部517と同一の方法でスペクトルの高域への複写を行うスペクトル複写部1513と、図5のサブバンド分割部521と同一の分割法により、複写されたスペクトルをサブバンドに分割するサブバンド分割部1515と、補助情報1507に基づいて高域スペクトルのスペクトル形状をサブバンドごとに調整するスペクトル形状調整部1517と、スペクトル包絡情報1509に基づいて、高域スペクトルの包絡を調整するスペクトル包絡調整部1519と、低域スペクトルと高域スペクトルとを結合し全周波数帯域にわたるスペクトルを得るスペクトル結合部1521と、スペクトルを時間信号に変換し、変換後の信号を復号信号として外部へ出力する周波数領域逆変換部1523とを備えている。
(Configuration and operation of speech decoding apparatus in embodiment 1)
FIG. 15 is a block diagram showing the main configuration of speech decoding apparatus 1501 according to Embodiment 1 of the present invention. As shown in FIG. 15, the speech decoding apparatus 1501 divides the multiplexed bit stream into (1) information 1505 obtained by encoding the low frequency spectrum of the audio signal and (2) a spectral shape adjustment method for the high frequency spectrum. A bit stream separation unit 1503 that separates the auxiliary information 1507 to be instructed into (3) spectrum envelope information 1509, and a low-frequency decoding unit 1511 that decodes the low-frequency spectrum from information 1505 that encodes the low-frequency spectrum of the audio signal. 5 is copied by the same method as the spectrum copying unit 517 in FIG. 5, and the copied spectrum is subdivided by the same dividing method as the subband dividing unit 521 in FIG. A subband dividing unit 1515 that divides the signal into bands, and the spectrum shape of the high-frequency spectrum for each subband based on the auxiliary information 1507 Based on spectrum shape adjustment unit 1517 for adjustment, spectrum envelope adjustment unit 1519 for adjusting the envelope of the high frequency spectrum based on spectrum envelope information 1509, and combining the low frequency spectrum and the high frequency spectrum, a spectrum over the entire frequency band is obtained. A spectrum combining unit 1521 and a frequency domain inverse transform unit 1523 that converts a spectrum into a time signal and outputs the converted signal to the outside as a decoded signal are provided.

この音声復号化装置1501は、ハードウェア構成としては、前述した音声符号化装置501と同様に、例えば図22に示す構成を備える。即ち、音声復号化装置1501は、図22に示すように、オペレーティングシステムやアプリケーションプログラムなどを実行するCPU2201、ROM及びRAMで構成される主記憶部2202、ハードディスクなどで構成される補助記憶部2203、外部とデータ通信を行う通信制御部2204、液晶モニタなどで構成される表示部2205、並びに文字・数字入力及び実行指示等を行うための操作部2206を含んで構成される。前述した図15の各ブロックの機能は、図22に示すCPU2201の制御の下で主記憶部2202に所定のソフトウェアを読み込ませ実行することにより、実現される。   The speech decoding apparatus 1501 has, for example, the configuration shown in FIG. 22 as the hardware configuration, similar to the speech encoding apparatus 501 described above. That is, as shown in FIG. 22, the speech decoding apparatus 1501 includes a CPU 2201 that executes an operating system, an application program, and the like, a main storage unit 2202 that includes a ROM and a RAM, an auxiliary storage unit 2203 that includes a hard disk, It includes a communication control unit 2204 that performs data communication with the outside, a display unit 2205 that includes a liquid crystal monitor, and an operation unit 2206 that performs character / number input and execution instructions. The functions of the blocks in FIG. 15 described above are realized by reading and executing predetermined software in the main storage unit 2202 under the control of the CPU 2201 shown in FIG.

音声復号化装置1501は、入力ビットストリームに対して図16のフローチャートに示す一連の処理を行って、復号化された信号を外部へ出力する。以下、図16の一連の処理を説明する。   The audio decoding device 1501 performs a series of processes shown in the flowchart of FIG. 16 on the input bitstream, and outputs the decoded signal to the outside. Hereinafter, a series of processes of FIG. 16 will be described.

図16のステップ1601では、ビットストリーム分離部1503が、多重化されたビットストリームを、(1)音声信号の低域スペクトルを符号化した情報1505と、(2)高域スペクトルのスペクトル形状調整方法を指示する補助情報1507と、(3)スペクトル包絡情報1509とに分離する。なお、本発明に係る「高域スペクトルの性質に関する補助情報」は、上記の補助情報1507およびスペクトル包絡情報1509に相当する。   In step 1601 of FIG. 16, the bit stream demultiplexing unit 1503 converts the multiplexed bit stream into (1) information 1505 obtained by encoding the low frequency spectrum of the audio signal, and (2) a spectral shape adjustment method for the high frequency spectrum. Is divided into auxiliary information 1507 for instructing and (3) spectrum envelope information 1509. It should be noted that “auxiliary information relating to the nature of the high frequency spectrum” according to the present invention corresponds to the auxiliary information 1507 and the spectrum envelope information 1509 described above.

次のステップ1603では、低域復号化部1511が、音声信号の低域スペクトルを符号化した情報1505から低域スペクトルを復号化し、スペクトル複写部1513およびスペクトル結合部1521に与える。   In the next step 1603, the low frequency decoding unit 1511 decodes the low frequency spectrum from the information 1505 obtained by encoding the low frequency spectrum of the audio signal, and supplies the decoded low frequency spectrum to the spectrum copying unit 1513 and the spectrum combining unit 1521.

次のステップ1605では、スペクトル複写部1513が、前述した図5のスペクトル複写部517と同一の方法でスペクトルの高域への複写を行い、サブバンド分割部1515に与える。ここで、低域スペクトルの一部を高域へ複写する場合には、予め定められた複写範囲に従って、スペクトル複写部517と同一の部分スペクトルを複写することができる。また、入力信号に応じてスペクトル複写の方法を変える場合には、音声符号化装置501のスペクトル複写部517により図6のステップ607で複写の方法を決定し、決定された複写の方法を示す補助情報をビットストリームに重畳して伝送し、伝送された補助情報に従って音声復号化装置1501のスペクトル複写部1513がスペクトルの高域への複写を行うこともできる。   In the next step 1605, the spectrum copying unit 1513 copies the spectrum to the high band by the same method as the above-described spectrum copying unit 517 of FIG. 5 and gives it to the subband dividing unit 1515. Here, when a part of the low frequency spectrum is copied to the high frequency, the same partial spectrum as that of the spectrum copying unit 517 can be copied in accordance with a predetermined copy range. When the spectrum copying method is changed in accordance with the input signal, the copying method is determined in step 607 of FIG. 6 by the spectrum copying unit 517 of the speech coding apparatus 501 and the determined copying method is shown. It is also possible to transmit the information by superimposing it on the bit stream, and the spectrum copying unit 1513 of the audio decoding device 1501 can copy the spectrum to a high frequency according to the transmitted auxiliary information.

次のステップ1607では、サブバンド分割部1515が、前述した図5のサブバンド分割部521と同一の分割法により、複写されたスペクトルをサブバンドに分割してスペクトル形状調整部1517に与える。   In the next step 1607, the subband splitting unit 1515 splits the copied spectrum into subbands by the same splitting method as the subband splitting unit 521 in FIG.

次のステップ1609では、スペクトル形状調整部1517が、補助情報1507に基づいて、高域スペクトルのスペクトル形状を式5に従ってサブバンドごとに調整し、調整後の高域スペクトルのスペクトル形状をスペクトル包絡調整部1519に与える。   In the next step 1609, the spectrum shape adjustment unit 1517 adjusts the spectrum shape of the high-frequency spectrum for each subband based on the auxiliary information 1507 according to Equation 5, and adjusts the spectral shape of the adjusted high-frequency spectrum to the spectrum envelope. Part 1519.

なお、式5における雑音rvに対しては、前述の通りLPCフィルタリングによって時間領域での包絡の調整を行うことができる。フィルタリングに用いるLPCパラメータとしては、補助情報1507に含まれるLPCパラメータ(即ち、符号化前の原信号の高域成分に対する分析から得られたLPCパラメータ)を用いることができる。また、復号された低域スペクトルをLPC分析して得られるLPCパラメータを用いることで、雑音波形の時間領域での包絡を復号信号の低域成分に近づけることもできる。   For the noise rv in Equation 5, the envelope in the time domain can be adjusted by LPC filtering as described above. As the LPC parameter used for filtering, the LPC parameter included in the auxiliary information 1507 (that is, the LPC parameter obtained from the analysis of the high-frequency component of the original signal before encoding) can be used. Further, by using LPC parameters obtained by LPC analysis of the decoded low-frequency spectrum, the envelope of the noise waveform in the time domain can be brought close to the low-frequency component of the decoded signal.

次のステップ1611では、スペクトル包絡調整部1519が、スペクトル包絡情報1509に基づいて、スペクトル形状調整部1517から与えられた高域スペクトルの包絡を調整し、スペクトル結合部1521に与える。   In the next step 1611, the spectrum envelope adjustment unit 1519 adjusts the envelope of the high frequency spectrum given from the spectrum shape adjustment unit 1517 based on the spectrum envelope information 1509, and gives it to the spectrum combination unit 1521.

次のステップ1613では、スペクトル結合部1521が、低域復号化部1511から与えられた低域スペクトルと、スペクトル包絡調整部1519から与えられた高域スペクトルとを結合し、全周波数帯域にわたるスペクトルを得て、得られた全周波数帯域にわたるスペクトルを周波数領域逆変換部1523に与える。   In the next step 1613, the spectrum combiner 1521 combines the low-frequency spectrum given from the low-frequency decoder 1511 and the high-frequency spectrum given from the spectrum envelope adjuster 1519 to obtain a spectrum over the entire frequency band. The obtained spectrum over the entire frequency band is given to the frequency domain inverse transform unit 1523.

次のステップ1615では、周波数領域逆変換部1523が、スペクトルを時間信号に変換し、変換後の信号を復号信号として外部へ出力する。   In the next step 1615, the frequency domain inverse transform unit 1523 converts the spectrum into a time signal and outputs the converted signal to the outside as a decoded signal.

上述した実施形態1における音声符号化装置501と音声復号化装置1501とを用いることで、帯域拡張に伴うスペクトル微細構造の調整を高い品質で行うことができ、復号音声の主観的品質を向上させることができる。   By using the speech coding apparatus 501 and speech decoding apparatus 1501 according to the first embodiment described above, the spectral fine structure can be adjusted with high quality accompanying band expansion, and the subjective quality of the decoded speech is improved. be able to.

(実施形態2)
以下の実施形態2では、実施形態1で述べた音声復号化装置1501とは異なる構成の音声復号化装置を説明する。実施形態2の音声復号化装置は、音声信号の低域スペクトルを符号化した情報と高域スペクトルのトーン対雑音比情報と高域スペクトルの包絡情報を含むビットストリームに対し、図18のフローチャートに示す一連の処理を行って、復号された音声信号を外部へ出力する。
(Embodiment 2)
In the following second embodiment, a speech decoding apparatus having a configuration different from that of the speech decoding apparatus 1501 described in the first embodiment will be described. The speech decoding apparatus according to the second embodiment applies a bit stream including information obtained by encoding the low frequency spectrum of the audio signal, tone-to-noise ratio information of the high frequency spectrum, and envelope information of the high frequency spectrum to the flowchart of FIG. A series of processing shown in the figure is performed, and the decoded audio signal is output to the outside.

実施形態2の音声復号化装置は、実施形態1の音声復号化装置と類似の構成を持つが、実施形態1では、伝送されるビットストリームに、スペクトル形状の調整方法を指示する補助情報が含まれるのに対し、実施形態2では、伝送されるビットストリームに、高域スペクトルのトーン対雑音比を記述する補助情報が含まれる点で両者は異なる。   The speech decoding apparatus according to the second embodiment has a configuration similar to that of the speech decoding apparatus according to the first embodiment. However, in the first embodiment, auxiliary information that instructs a method for adjusting a spectrum shape is included in the transmitted bitstream. On the other hand, the second embodiment is different in that the auxiliary information describing the tone-to-noise ratio of the high frequency spectrum is included in the transmitted bit stream.

図17は、本発明の実施形態2における音声復号化装置1701の主要な構成を示すブロック図である。図17に示すように、音声復号化装置1701は、多重化されたビットストリームを、音声信号の低域スペクトルを符号化した情報1705と高域スペクトルのトーン対雑音比情報1707と高域スペクトルの包絡情報1709とに分離するビットストリーム分離部1703と、音声信号の低域スペクトルを符号化した情報1705に基づいて低域スペクトルを復号化する低域復号化部1713と、実施形態1における図5のスペクトル複写部517と同様の方法でスペクトルの高域への複写を行うスペクトル複写部1715と、複写された高域スペクトルをサブバンドに分割するサブバンド分割部1717と、後述する図19のブロック図に従ってスペクトル形状調整方法を決定するスペクトル形状調整方法決定部1711と、サブバンド分割された高域スペクトルの形状を式5に従って調整するスペクトル形状調整部1719と、高域スペクトルの包絡情報1709に基づいて高域スペクトルの包絡を調整するスペクトル包絡調整部1721と、低域スペクトルと高域スペクトルとを結合し全周波数帯域にわたるスペクトルを得るスペクトル結合部1723と、スペクトルを時間信号に変換し変換後の信号を復号信号として外部に出力する周波数領域逆変換部1725とを備えている。   FIG. 17 is a block diagram showing the main configuration of speech decoding apparatus 1701 according to Embodiment 2 of the present invention. As shown in FIG. 17, the speech decoding apparatus 1701 converts information 1705 obtained by encoding a low frequency spectrum of a speech signal, tone-to-noise ratio information 1707 of a high frequency spectrum, and high frequency spectrum from a multiplexed bit stream. A bit stream separation unit 1703 that separates the envelope information 1709, a low-frequency decoder 1713 that decodes the low-frequency spectrum based on the information 1705 obtained by encoding the low-frequency spectrum of the audio signal, and FIG. The spectrum copying unit 1715 for copying the spectrum to the high band in the same manner as the spectrum copying unit 517, the subband dividing unit 1717 for dividing the copied high band spectrum into subbands, and the block of FIG. Spectral shape adjustment method determination unit 1711 for determining a spectral shape adjustment method according to the figure, and subband A spectrum shape adjustment unit 1719 that adjusts the shape of the divided high-frequency spectrum according to Equation 5, a spectrum envelope adjustment unit 1721 that adjusts the envelope of the high-frequency spectrum based on the envelope information 1709 of the high-frequency spectrum, A spectrum combining unit 1723 that combines the high-frequency spectrum to obtain a spectrum over the entire frequency band, and a frequency domain inverse conversion unit 1725 that converts the spectrum into a time signal and outputs the converted signal to the outside as a decoded signal are provided. .

また、音声復号化装置1701は、ハードウェア構成としては、前述した音声復号化装置1501と同様に、図22に示す構成を備える。前述した図17の各ブロックの機能は、例えば図22に示すCPU2201の制御の下で主記憶部2202に所定のソフトウェアを読み込ませ実行することにより、実現される。   Also, the speech decoding apparatus 1701 has the configuration shown in FIG. 22 as the hardware configuration, similar to the speech decoding apparatus 1501 described above. The functions of the blocks in FIG. 17 described above are realized by, for example, reading and executing predetermined software in the main storage unit 2202 under the control of the CPU 2201 shown in FIG.

音声復号化装置1701は、音声信号の低域スペクトルを符号化した情報と高域スペクトルのトーン対雑音比情報と高域スペクトルの包絡情報を含むビットストリームに対し、図18のフローチャートに示す一連の処理を行って、復号された音声信号を外部へ出力する。以下、図18の一連の処理を説明する。   The speech decoding apparatus 1701 performs a series of operations shown in the flowchart of FIG. 18 on a bitstream including information obtained by encoding the low frequency spectrum of the audio signal, tone-to-noise ratio information of the high frequency spectrum, and envelope information of the high frequency spectrum. Processing is performed, and the decoded audio signal is output to the outside. Hereinafter, a series of processes of FIG. 18 will be described.

図18のステップ1801では、ビットストリーム分離部1703が、多重化されたビットストリームを、音声信号の低域スペクトルを符号化した情報1705と高域スペクトルのトーン対雑音比情報1707と高域スペクトルの包絡情報1709とに分離する。   In step 1801 of FIG. 18, the bit stream separation unit 1703 converts the multiplexed bit stream into information 1705 obtained by encoding the low frequency spectrum of the audio signal, tone-to-noise ratio information 1707 of the high frequency spectrum, and the high frequency spectrum. Separated into envelope information 1709.

次のステップ1803では、低域復号化部1713が、音声信号の低域スペクトルを符号化した情報1705に基づいて低域スペクトルを復号化し、スペクトル複写部1715およびスペクトル結合部1723に与える。   In the next step 1803, the low frequency decoding unit 1713 decodes the low frequency spectrum based on the information 1705 obtained by encoding the low frequency spectrum of the audio signal, and supplies the decoded low frequency spectrum to the spectrum copying unit 1715 and the spectrum combining unit 1723.

次のステップ1805では、スペクトル複写部1715が、実施形態1における図5のスペクトル複写部517と同様の方法(図6のステップ607と同様の方法)でスペクトルの高域への複写を行い、スペクトル形状調整方法決定部1711およびサブバンド分割部1717に与える。   In the next step 1805, the spectrum copying unit 1715 performs the copying of the spectrum to the high band by the same method as the spectrum copying unit 517 of FIG. 5 in the first embodiment (the same method as step 607 of FIG. 6). This is given to the shape adjustment method determination unit 1711 and the subband division unit 1717.

次のステップ1807では、サブバンド分割部1717が、複写された高域スペクトルをサブバンドに分割し、スペクトル形状調整部1719に与える。   In the next step 1807, the subband dividing unit 1717 divides the copied high frequency spectrum into subbands and supplies the subband to the spectrum shape adjusting unit 1719.

次のステップ1809では、スペクトル形状調整方法決定部1711が、図19に示すブロック図に従って、スペクトル形状調整方法を決定する。図19の処理内容は、実施形態1における図5のスペクトル形状調整方法決定部525による図6のステップ611の処理内容とほぼ同様であるが、図6のステップ611とは異なり、入力信号のトーン対雑音比情報1707がスペクトル形状調整方法決定部1711に対し与えられる。そのため、図19の処理では、スペクトル正規化とトーン対雑音比算出は、複写後の高域スペクトルに対してのみ行われる。スペクトル形状調整方法決定部1711には、実施形態1の変形例1から変形例4と同様の変形を加えることができる。変形例2と同様の変形を加えることより、雑音の重畳を伴わず、スペクトルの振幅の変形のみによるスペクトル形状調整方法をとることができる。また、変形例3と同様の変形を加えることにより、スペクトルの振幅の変形を伴わず、雑音の重畳のみによるスペクトル形状調整方法を取ることができる。   In the next step 1809, the spectrum shape adjustment method determination unit 1711 determines the spectrum shape adjustment method according to the block diagram shown in FIG. The processing content of FIG. 19 is almost the same as the processing content of step 611 of FIG. 6 by the spectrum shape adjustment method determining unit 525 of FIG. 5 in the first embodiment, but unlike the step 611 of FIG. Noise-to-noise ratio information 1707 is given to the spectrum shape adjustment method determination unit 1711. Therefore, in the processing of FIG. 19, spectrum normalization and tone-to-noise ratio calculation are performed only for the high frequency spectrum after copying. The spectrum shape adjustment method determination unit 1711 can be modified in the same manner as in Modification 1 to Modification 4 of Embodiment 1. By applying the same modification as that of the second modification, it is possible to adopt a spectrum shape adjustment method only by the deformation of the spectrum amplitude without superimposing noise. Further, by applying the same modification as that of the modification 3, it is possible to adopt a spectrum shape adjustment method only by superimposing noise without accompanying a modification of the spectrum amplitude.

次のステップ1811では、スペクトル形状調整部1719が、サブバンド分割された高域スペクトルの形状を式5に従って調整し、その調整結果をスペクトル包絡調整部1721に与える。   In the next step 1811, the spectrum shape adjustment unit 1719 adjusts the shape of the subband-divided high frequency spectrum according to Equation 5, and gives the adjustment result to the spectrum envelope adjustment unit 1721.

次のステップ1813では、スペクトル包絡調整部1721が、高域スペクトルの包絡情報1709に基づいて高域スペクトルの包絡を調整し、その調整結果をスペクトル結合部1723に与える。   In the next step 1813, the spectrum envelope adjustment unit 1721 adjusts the envelope of the high frequency spectrum based on the envelope information 1709 of the high frequency spectrum, and gives the adjustment result to the spectrum combining unit 1723.

次のステップ1815では、スペクトル結合部1723が、低域復号化部1713から与えられた低域スペクトルと、スペクトル包絡調整部1721から与えられた高域スペクトルとを結合し、全周波数帯域にわたるスペクトルを得て、得られた全周波数帯域にわたるスペクトルを周波数領域逆変換部1725に与える。   In the next step 1815, the spectrum combiner 1723 combines the low-frequency spectrum given from the low-frequency decoder 1713 and the high-frequency spectrum given from the spectrum envelope adjuster 1721 to obtain a spectrum over the entire frequency band. The obtained spectrum over the entire frequency band is given to the frequency domain inverse transform unit 1725.

次のステップ1817では、周波数領域逆変換部1725が、スペクトルを時間信号に変換し、変換後の信号を復号信号として外部へ出力する。   In the next step 1817, the frequency domain inverse transform unit 1725 converts the spectrum into a time signal and outputs the converted signal to the outside as a decoded signal.

以上に示した実施形態2においても、実施形態1と同様に、帯域拡張に伴うスペクトル微細構造の調整を高い品質で行うことができ、復号音声の主観的品質を向上させることができる。   Also in the second embodiment described above, as in the first embodiment, the spectral fine structure accompanying the band expansion can be adjusted with high quality, and the subjective quality of the decoded speech can be improved.

(実施形態3)
図20は、本発明の実施形態3における音声帯域拡張装置2001の主要な構成を示すブロック図である。音声帯域拡張装置2001は、入力信号に対し周波数領域への変換処理を行い低域スペクトルを得る周波数領域変換部2003と、前述した図5のスペクトル複写部517と同様の方法で、周波数領域変換部2003から与えられた低域スペクトルの高域への複写を行うスペクトル複写部2005と、スペクトル複写部2005から与えられた高域スペクトルを複数のサブバンドに分割するサブバンド分割部2011と、高域スペクトルの各サブバンドにおけるトーン対雑音比を低域スペクトルから推定するトーン対雑音比推定部2007と、高域スペクトルのスペクトル包絡を低域スペクトルから推定するスペクトル包絡推定部2009と、サブバンド分割部2011から与えられるサブバンド分割された高域スペクトルと、トーン対雑音比推定部2007から与えられるトーン対雑音比とから、前述した図5のスペクトル形状調整方法決定部525と同様の方法で、スペクトル形状調整方法を決定するスペクトル形状調整方法決定部2015と、スペクトル形状調整方法決定部2015から与えられるスペクトル形状調整方法を用いて、前述した図15のスペクトル形状調整部1517と同様の方法で高域スペクトルの形状調整を行うスペクトル形状調整部2013と、スペクトル包絡推定部2009から与えられたスペクトル包絡情報を用いて高域スペクトルの包絡を調整するスペクトル包絡調整部2017と、スペクトル包絡調整部2017から与えられた高域スペクトルと周波数領域変換部2003から与えられた低域スペクトルとを結合するスペクトル結合部2019と、結合後のスペクトルを時間信号に変換し、高域が復元された広帯域音声信号として変換後の信号を外部へ出力する周波数領域逆変換部2021とを備えている。
(Embodiment 3)
FIG. 20 is a block diagram showing the main configuration of the voice band extending apparatus 2001 according to Embodiment 3 of the present invention. The voice band expansion device 2001 performs a frequency domain conversion unit 2003 that obtains a low-frequency spectrum by performing a conversion process on an input signal to a frequency domain, and a frequency domain conversion unit in the same manner as the spectrum copying unit 517 in FIG. A spectrum copying unit 2005 for copying a low-frequency spectrum given from 2003 to a high frequency; a sub-band dividing unit 2011 for dividing the high-frequency spectrum given from the spectrum copying unit 2005 into a plurality of sub-bands; Tone-to-noise ratio estimation unit 2007 for estimating the tone-to-noise ratio in each subband of the spectrum from the low-frequency spectrum, spectral envelope estimation unit 2009 for estimating the spectral envelope of the high-frequency spectrum from the low-frequency spectrum, and subband dividing unit Subband-divided high-frequency spectrum given by 2011 and tone-to-noise A spectrum shape adjustment method determination unit 2015 that determines a spectrum shape adjustment method from the tone-to-noise ratio given from the estimation unit 2007 in the same manner as the spectrum shape adjustment method determination unit 525 of FIG. A spectrum shape adjustment unit 2013 that adjusts the shape of the high frequency spectrum in the same manner as the spectrum shape adjustment unit 1517 of FIG. The spectrum envelope adjustment unit 2017 that adjusts the envelope of the high-frequency spectrum using the spectrum envelope information given from the above, the high-frequency spectrum given from the spectrum envelope adjustment unit 2017, and the low-frequency spectrum given from the frequency domain conversion unit 2003 Spectral coupling unit 2019 coupling Converts the spectrum after binding to a time signal, the high-frequency range and a frequency domain inverse transform unit 2021 outputs the converted signal as a decompressed wideband speech signal to the outside.

この音声帯域拡張装置2001は、ハードウェア構成としては、前述した音声符号化装置501および音声復号化装置1501と同様に、例えば図22に示す構成を備える。前述した図20の各ブロックの機能は、図22に示すCPU2201の制御の下で主記憶部2202に所定のソフトウェアを読み込ませ実行することにより、実現される。   The speech band expansion device 2001 has a hardware configuration as shown in FIG. 22, for example, as with the speech encoding device 501 and speech decoding device 1501 described above. The functions of the blocks in FIG. 20 described above are realized by reading and executing predetermined software in the main storage unit 2202 under the control of the CPU 2201 shown in FIG.

音声帯域拡張装置2001は、音声の低域成分のみを含む帯域制限された入力信号に対し図21のフローチャートに示す一連の処理を行って高域成分が復元された広帯域音声信号を外部へ出力する。以下、図21の一連の処理を説明する。   The voice band extending apparatus 2001 performs a series of processes shown in the flowchart of FIG. 21 on the band-limited input signal including only the low frequency component of the voice, and outputs a wideband voice signal whose high frequency component is restored to the outside. . Hereinafter, a series of processes of FIG. 21 will be described.

図21のステップ2101では、周波数領域変換部2003が、入力信号に対して周波数領域への変換を行い、低域スペクトルを得る。ここでの変換の方法としては、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、修正離散コサイン変換(MDCT)、コサイン変調フィルタバンクなどを用いることができる。入力音声が時間領域でなく周波数領域の信号として与えられる場合にはステップ2101および周波数領域変換部2003は省略することができる。   In step 2101 of FIG. 21, the frequency domain conversion unit 2003 performs conversion to the frequency domain on the input signal to obtain a low frequency spectrum. As a conversion method, discrete Fourier transform (DFT), discrete cosine transform (DCT), modified discrete cosine transform (MDCT), cosine modulation filter bank, or the like can be used. If the input speech is given as a signal in the frequency domain instead of the time domain, the step 2101 and the frequency domain transform unit 2003 can be omitted.

次のステップ2103では、スペクトル複写部2005が、前述した図5のスペクトル複写部517による図6のステップ607と同様の方法で、周波数領域変換部2003から与えられた低域スペクトルの高域への複写を行い、サブバンド分割部2011に与える。   In the next step 2103, the spectrum copying unit 2005 converts the low band spectrum given from the frequency domain conversion unit 2003 to the high band in the same manner as the step 607 in FIG. 6 by the above-described spectrum copying unit 517 in FIG. Copying is performed and given to the subband dividing unit 2011.

次のステップ2105では、サブバンド分割部2011が、スペクトル複写部2005から与えられた高域スペクトルを複数のサブバンドに分割し、スペクトル形状調整方法決定部2015およびスペクトル形状調整部2013に与える。なお、図20のサブバンド分割部2011または図21のステップ2105は、必須ではなく、分割されていない高域スペクトル全体をスペクトル形状調整部2013に与えてもよい。   In the next step 2105, the subband dividing unit 2011 divides the high-frequency spectrum given from the spectrum copying unit 2005 into a plurality of subbands, and gives it to the spectrum shape adjusting method determining unit 2015 and the spectrum shape adjusting unit 2013. Note that the subband splitting unit 2011 in FIG. 20 or step 2105 in FIG. 21 is not essential, and the entire high-frequency spectrum that is not split may be given to the spectrum shape adjusting unit 2013.

次のステップ2107では、トーン対雑音比推定部2007が、高域スペクトルの各サブバンドにおけるトーン対雑音比を低域スペクトルから推定し、スペクトル形状調整方法決定部2015に与える。ここでの推定には、広帯域音声のスペクトルを用いて予め学習したベクトル量子化器、混合ガウスモデル(GMM)、隠れマルコフモデル(HMM)などを用いることができる。   In the next step 2107, the tone-to-noise ratio estimation unit 2007 estimates the tone-to-noise ratio in each subband of the high-frequency spectrum from the low-frequency spectrum, and provides it to the spectral shape adjustment method determination unit 2015. For this estimation, a vector quantizer, a mixed Gaussian model (GMM), a hidden Markov model (HMM), or the like previously learned using a spectrum of wideband speech can be used.

次のステップ2109では、スペクトル包絡推定部2009が、高域スペクトルのスペクトル包絡を低域スペクトルから推定し、スペクトル包絡調整部2017に与える。ここでの推定には、トーン対雑音比の推定と同様、広帯域音声のスペクトルを用いて予め学習したベクトル量子化器、混合ガウスモデル(GMM)、隠れマルコフモデル(HMM)などを用いることができる。   In the next step 2109, the spectrum envelope estimation unit 2009 estimates the spectrum envelope of the high frequency spectrum from the low frequency spectrum, and provides it to the spectrum envelope adjustment unit 2017. As in the estimation of the tone-to-noise ratio, a vector quantizer, a mixed Gaussian model (GMM), a hidden Markov model (HMM), or the like previously learned using a wideband speech spectrum can be used for the estimation here. .

次のステップ2111では、スペクトル形状調整方法決定部2015が、サブバンド分割部2011から与えられるサブバンド分割された高域スペクトルと、トーン対雑音比推定部2007から与えられるトーン対雑音比とから、前述した図5のスペクトル形状調整方法決定部525と同様の方法で、スペクトル形状調整方法を決定し、スペクトル形状調整部2013に与える。スペクトル形状調整方法決定部2015には、実施形態1の変形例1から変形例4と同様の変形を加えることができる。変形例2と同様の変形を加えることより、雑音の重畳を伴わず、スペクトルの振幅の変形のみによるスペクトル形状調整方法をとることができる。また、変形例3と同様の変形を加えることにより、スペクトルの振幅の変形を伴わず、雑音の重畳のみによるスペクトル形状調整方法を取ることができる。   In the next step 2111, the spectrum shape adjustment method determination unit 2015 uses the subband-divided high-frequency spectrum given from the subband division unit 2011 and the tone-to-noise ratio given from the tone-to-noise ratio estimation unit 2007. A spectrum shape adjustment method is determined by the same method as the spectrum shape adjustment method determination unit 525 of FIG. 5 described above, and is given to the spectrum shape adjustment unit 2013. The spectrum shape adjustment method determination unit 2015 can be modified in the same manner as in Modification 1 to Modification 4 of Embodiment 1. By applying the same modification as that of the second modification, it is possible to adopt a spectrum shape adjustment method only by the deformation of the spectrum amplitude without superimposing noise. Further, by applying the same modification as that of the modification 3, it is possible to adopt a spectrum shape adjustment method only by superimposing noise without accompanying a modification of the spectrum amplitude.

次のステップ2113では、スペクトル形状調整部2013が、スペクトル形状調整方法決定部2015から与えられるスペクトル形状調整方法を用いて、前述した図15のスペクトル形状調整部1517と同様の方法で、高域スペクトルの形状調整を行う。   In the next step 2113, the spectrum shape adjustment unit 2013 uses the spectrum shape adjustment method given from the spectrum shape adjustment method determination unit 2015 in the same manner as the spectrum shape adjustment unit 1517 of FIG. Adjust the shape.

次のステップ2115では、スペクトル包絡調整部2017が、スペクトル包絡推定部2009から与えられたスペクトル包絡情報を用いて高域スペクトルの包絡を調整し、スペクトル結合部2019に与える。   In the next step 2115, the spectrum envelope adjustment unit 2017 adjusts the envelope of the high frequency spectrum using the spectrum envelope information given from the spectrum envelope estimation unit 2009, and gives it to the spectrum combining unit 2019.

次のステップ2117では、スペクトル結合部2019が、スペクトル包絡調整部2017から与えられた高域スペクトルと、周波数領域変換部2003から与えられた低域スペクトルとを結合し、結合後のスペクトルを周波数領域逆変換部2021に与える。   In the next step 2117, the spectrum combining unit 2019 combines the high-frequency spectrum given from the spectrum envelope adjustment unit 2017 and the low-frequency spectrum given from the frequency domain conversion unit 2003, and the combined spectrum is converted into the frequency domain. This is given to the inverse transform unit 2021.

次のステップ2119では、周波数領域逆変換部2021が、結合後のスペクトルを時間信号に変換し、高域が復元された広帯域音声信号として、変換後の信号を外部へ出力する。   In the next step 2119, the frequency domain inverse transform unit 2021 converts the combined spectrum into a time signal, and outputs the converted signal to the outside as a wideband audio signal whose high frequency is restored.

(実施形態3の変形例)
以上に示した音声帯域拡張装置2001においては、入力音声が時間領域の信号として与えられる場合を例示したが、前述の通り入力信号は周波数領域の信号であってもよい。さらに、この周波数領域の信号は、変換符号化に基づく音声符号化方法によって符号化された音声の復号処理の中途段階において得られた信号であってもよい。変換符号化に基づく音声符号化方法によって符号化された音声の復号処理を行う音声復号化装置では、復号処理の最後の段階において周波数領域から時間領域への信号の逆変換を行うが、逆変換前の周波数領域の信号を音声帯域拡張装置2001に与えることにより、高域が復元された広帯域の復号音声を音声帯域拡張装置2001の出力として得ることができる。
(Modification of Embodiment 3)
In the voice band extending apparatus 2001 shown above, the case where the input voice is given as a signal in the time domain is exemplified, but the input signal may be a frequency domain signal as described above. Further, the signal in the frequency domain may be a signal obtained in the middle of the decoding process of speech encoded by a speech encoding method based on transform encoding. In a speech decoding apparatus that performs speech decoding processing of speech encoded by a speech encoding method based on transform encoding, the signal is inversely transformed from the frequency domain to the time domain at the final stage of the decoding processing. By supplying the signal in the previous frequency domain to the voice band extending apparatus 2001, it is possible to obtain wideband decoded speech whose high band is restored as the output of the voice band extending apparatus 2001.

以上に示した実施形態3においても、実施形態1と同様に、帯域拡張に伴うスペクトル微細構造の調整を高い品質で行うことができ、復元音声の主観的品質を向上させることができる。   Also in the third embodiment described above, as in the first embodiment, the spectral fine structure can be adjusted with a high quality as a result of band expansion, and the subjective quality of the restored speech can be improved.

音声信号のスペクトルの例を示す図である。It is a figure which shows the example of the spectrum of an audio | voice signal. 低域から高域へスペクトルを複写しスペクトル包絡の調整を行った結果の例を示す図である。It is a figure which shows the example of the result of having copied the spectrum from the low region to the high region, and having adjusted the spectrum envelope. サブバンドに分割して微細構造の調整を行ったスペクトルの例を示す図である。It is a figure which shows the example of the spectrum which divided | segmented into the subband and adjusted the fine structure. スペクトル振幅の圧縮に伴う歪み発生を示す模式図である。It is a schematic diagram which shows distortion generation accompanying compression of a spectrum amplitude. 実施形態1における音声符号化装置の主要な構成を示すブロック図である。1 is a block diagram illustrating a main configuration of a speech encoding apparatus according to Embodiment 1. FIG. 実施形態1における音声符号化方法の主要なステップを示すフローチャートである。4 is a flowchart showing main steps of the speech encoding method according to Embodiment 1. スペクトルの低域から高域への複写方法のさまざまな例を示す模式図である。It is a schematic diagram which shows the various examples of the copying method from the low region of a spectrum to a high region. スペクトル形状調整方法決定部525の主要な構成を示すブロック図である。It is a block diagram which shows the main structures of the spectrum shape adjustment method determination part 525. パラメータ決定部811による処理の主要なステップを示すフローチャートである。10 is a flowchart showing main steps of processing by a parameter determination unit 811. 図9のステップ913の判断処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of the judgment process of step 913 of FIG. スペクトル振幅の変形に伴う歪みのマスキングを示す模式図である。It is a schematic diagram which shows the masking of the distortion accompanying a deformation | transformation of a spectrum amplitude. パラメータ決定部811による処理の別の態様を示すフローチャートである。10 is a flowchart showing another mode of processing by the parameter determination unit 811. αを固定とした場合のパラメータ決定部811による処理の別の態様を示すフローチャートである。It is a flowchart which shows another aspect of the process by the parameter determination part 811 when (alpha) i is fixed. βを固定とした場合のパラメータ決定部811による処理の別の態様を示すフローチャートである。It is a flowchart which shows another aspect of the process by the parameter determination part 811 when (beta) i is made fixed. 実施形態1における音声復号化装置の主要な構成を示すブロック図である。It is a block diagram which shows the main structures of the speech decoding apparatus in Embodiment 1. 実施形態1における音声復号化方法の主要なステップを示すフローチャートである。6 is a flowchart showing main steps of the speech decoding method according to Embodiment 1. 実施形態2における音声復号化装置の主要な構成を示すブロック図である。It is a block diagram which shows the main structures of the speech decoding apparatus in Embodiment 2. 実施形態2における音声復号化方法の主要なステップを示すフローチャートである。10 is a flowchart showing main steps of the speech decoding method according to Embodiment 2. スペクトル形状調整方法決定部1711の主要な構成を示すブロック図である。It is a block diagram which shows the main structures of the spectrum shape adjustment method determination part 1711. FIG. 実施形態3における音声帯域拡張装置の主要な構成を示すブロック図である。It is a block diagram which shows the main structures of the audio | voice band expansion apparatus in Embodiment 3. FIG. 実施形態3における音声帯域拡張方法の主要なステップを示すブロック図である。It is a block diagram which shows the main steps of the audio | voice band expansion method in Embodiment 3. FIG. 音声符号化装置、音声復号化装置、音声帯域拡張装置のハードウェア構成例を示す図である。It is a figure which shows the hardware structural example of an audio | voice encoding apparatus, an audio | voice decoding apparatus, and an audio | voice band expansion apparatus.

符号の説明Explanation of symbols

501…音声符号化装置、503…周波数領域変換部、505…低域スペクトル、507…高域スペクトル、509…低域符号化部、511…サブバンド分割部、513…高域スペクトル、515…低域復号化部、517…スペクトル複写部、519…高域スペクトル、521…サブバンド分割部、523…高域スペクトル、525…スペクトル形状調整方法決定部、527…スペクトル包絡計算部、529…ビットストリーム多重化部、801、803…スペクトル正規化部、805…LPC分析部、807、809…トーン対雑音比算出部、811…パラメータ決定部、813…マスキング判定部、1501…音声復号化装置、1503…ビットストリーム分離部、1505…符号化した情報、1507…補助情報、1509…スペクトル包絡情報、1511…低域復号化部、1513…スペクトル複写部、1515…サブバンド分割部、1517…スペクトル形状調整部、1519…スペクトル包絡調整部、1521…スペクトル結合部、1523…周波数領域逆変換部、1701…音声復号化装置、1703…ビットストリーム分離部、1705…符号化した情報、1707…トーン対雑音比情報、1709…包絡情報、1711…スペクトル形状調整方法決定部、1713…低域復号化部、1715…スペクトル複写部、1717…サブバンド分割部、1719…スペクトル形状調整部、1721…スペクトル包絡調整部、1723…スペクトル結合部、1725…周波数領域逆変換部、2001…音声帯域拡張装置、2003…周波数領域変換部、2005…スペクトル複写部、2007…トーン対雑音比推定部、2009…スペクトル包絡推定部、2011…サブバンド分割部、2013…スペクトル形状調整部、2015…スペクトル形状調整方法決定部、2017…スペクトル包絡調整部、2019…スペクトル結合部、2021…周波数領域逆変換部、2201…CPU、2202…主記憶部、2203…補助記憶部、2204…通信制御部、2205…表示部、2206…操作部。
501: Speech coding apparatus, 503: Frequency domain transform unit, 505 ... Low frequency spectrum, 507 ... High frequency spectrum, 509 ... Low frequency encoding unit, 511 ... Subband division unit, 513 ... High frequency spectrum, 515 ... Low Area decoding section, 517 ... Spectrum copying section, 519 ... High band spectrum, 521 ... Subband splitting section, 523 ... High band spectrum, 525 ... Spectral shape adjustment method determining section, 527 ... Spectrum envelope calculation section, 529 ... Bit stream Multiplexer, 801, 803 ... spectrum normalization unit, 805 ... LPC analysis unit, 807,809 ... tone-to-noise ratio calculation unit, 811 ... parameter determination unit, 813 ... masking determination unit, 1501 ... voice decoding device, 1503 ... bitstream separation unit, 1505 ... encoded information, 1507 ... auxiliary information, 1509 ... spect Envelope information, 1511 ... Low band decoding unit, 1513 ... Spectrum copying unit, 1515 ... Subband dividing unit, 1517 ... Spectrum shape adjusting unit, 1519 ... Spectrum envelope adjusting unit, 1521 ... Spectrum combining unit, 1523 ... Frequency domain inverse transform , 1701... Speech decoding device, 1703... Bitstream separation unit, 1705... Encoded information, 1707... Tone-to-noise ratio information, 1709... Envelope information, 1711. 1715 ... Spectrum copying unit, 1717 ... Subband dividing unit, 1719 ... Spectral shape adjusting unit, 1721 ... Spectral envelope adjusting unit, 1723 ... Spectrum combining unit, 1725 ... Frequency domain inverse converting unit, 2001 ... Audio band expanding device , 2003 ... frequency domain transform unit, 2005 ... spectrum Copy unit 2007 ... tone-to-noise ratio estimation unit 2009 ... spectrum envelope estimation unit 2011 ... subband division unit 2013 ... spectral shape adjustment unit 2015 ... spectral shape adjustment method determination unit 2017 ... spectrum envelope adjustment unit 2019 ... spectrum combining unit, 2021 ... frequency domain inverse transformation unit, 2201 ... CPU, 2202 ... main storage unit, 2203 ... auxiliary storage unit, 2204 ... communication control unit, 2205 ... display unit, 2206 ... operation unit.

Claims (19)

音声信号の低域スペクトルを符号化した情報と高域スペクトルの性質に関する補助情報とを含むビットストリームから、前記低域スペクトルと前記高域スペクトルの両方に相当する周波数成分を含む音声信号を復号する音声復号化装置であって、
前記ビットストリームを、音声信号の低域スペクトルを符号化した情報と、高域スペクトルの性質に関する補助情報とに分離する手段と、
前記音声信号の低域スペクトルを符号化した情報から、低域スペクトルを復号する手段と、
復号によって得られた低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得る手段と、
前記高域スペクトルの性質に関する補助情報を利用して前記第1の高域スペクトルの形状を調整することによって第2の高域スペクトルを得るスペクトル形状調整手段と、
前記低域スペクトルと前記第2の高域スペクトルとを利用して音声信号を復号する手段と、
前記高域スペクトルの性質に関する補助情報と前記第1の高域スペクトルとに基づいて、前記スペクトル形状調整手段により用いられる前記形状の調整の仕方または重畳する雑音の量を決定するスペクトル形状調整方法決定手段と、
を備え、
前記スペクトル形状調整方法決定手段は、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと形状調整後の高域スペクトルによるマスキング量とを利用して、前記形状の調整の仕方または重畳する雑音の量を決定することを特徴とする音声復号化装置。
A speech signal including a frequency component corresponding to both the low-frequency spectrum and the high-frequency spectrum is decoded from a bitstream including information obtained by encoding the low-frequency spectrum of the audio signal and auxiliary information regarding the nature of the high-frequency spectrum. A speech decoding device comprising:
Means for separating the bitstream into information encoded from a low frequency spectrum of an audio signal and auxiliary information relating to the nature of the high frequency spectrum;
Means for decoding a low-frequency spectrum from information obtained by encoding the low-frequency spectrum of the audio signal;
Means for obtaining a first high-frequency spectrum by copying a part or the whole of the low-frequency spectrum obtained by decoding to a high frequency;
Spectrum shape adjusting means for obtaining a second high-frequency spectrum by adjusting the shape of the first high-frequency spectrum using auxiliary information on the nature of the high-frequency spectrum;
Means for decoding an audio signal using the low frequency spectrum and the second high frequency spectrum;
Spectral shape adjustment method determination for determining how to adjust the shape used by the spectral shape adjusting means or the amount of noise to be superimposed based on auxiliary information regarding the nature of the high frequency spectrum and the first high frequency spectrum Means,
With
The spectrum shape adjustment method determining means uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount due to the high-frequency spectrum after the shape adjustment to superimpose or superimpose the shape. A speech decoding apparatus characterized by determining an amount of noise .
前記スペクトル形状調整方法決定手段は、さらに、前記音声信号の高域スペクトルのトーン対雑音比と前記第1の高域スペクトルのトーン対雑音比とを比較する、The spectrum shape adjustment method determining means further compares the tone-to-noise ratio of the high frequency spectrum of the speech signal with the tone-to-noise ratio of the first high frequency spectrum.
ことを特徴とする請求項1記載の音声復号化装置。  The speech decoding apparatus according to claim 1.
前記スペクトル形状調整手段は、前記第1の高域スペクトルの形状の調整に加え、雑音を重畳することによって前記第2の高域スペクトルを得る、
ことを特徴とする請求項1または2に記載の音声復号化装置。
The spectrum shape adjusting means obtains the second high frequency spectrum by superimposing noise in addition to adjusting the shape of the first high frequency spectrum.
The speech decoding apparatus according to claim 1 or 2 , characterized in that
前記スペクトル形状調整手段は、前記第1の高域スペクトルを複数のサブバンドに分割し、分割後のサブバンドの各々に属する部分スペクトルについて、該部分スペクトルの形状の調整を行うことを特徴とする請求項1〜3の何れか一項に記載の音声復号化装置。 The spectrum shape adjusting means divides the first high-frequency spectrum into a plurality of subbands, and adjusts the shape of the partial spectrum for each of the partial spectra belonging to each of the divided subbands. The speech decoding apparatus according to any one of claims 1 to 3 . 前記高域スペクトルの性質に関する補助情報は、音声の高域周波数成分の時間領域での包絡に関する情報を含み、
前記スペクトル形状調整手段は、重畳する雑音の時間領域での包絡を調整することを特徴とする請求項1〜3の何れか一項に記載の音声復号化装置。
The auxiliary information related to the nature of the high frequency spectrum includes information related to the envelope in the time domain of the high frequency components of the speech,
The speech decoding apparatus according to claim 1, wherein the spectrum shape adjusting unit adjusts an envelope in a time domain of superimposed noise.
低域スペクトルの復号結果の高域への複写に基づいて高域スペクトルの復号を行う音声復号化装置、に適合するビットストリームを生成する音声符号化装置であって、
音声信号を周波数領域に変換し、低域スペクトルを分離した後、残存する高域スペクトルの一部または全体を第1の高域スペクトルとして分離する手段と、
前記低域スペクトルを符号化する手段と、
前記低域スペクトルの一部または全体を高域に複写することによって第2の高域スペクトルを得る手段と、
前記第1の高域スペクトルと前記第2の高域スペクトルの性質に基づいて、前記音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定手段と、
符号化された前記低域スペクトルと、前記決定された高域スペクトルの形状の調整の仕方の情報とを多重化したビットストリームを生成する手段と
を備え
前記スペクトル形状調整方法決定手段は、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする音声符号化装置。
A speech encoding device that generates a bitstream compatible with a speech decoding device that decodes a high-frequency spectrum based on a copy of a decoding result of a low-frequency spectrum to a high frequency,
Means for separating the low frequency spectrum after converting the audio signal into the frequency domain, and then separating a part or all of the remaining high frequency spectrum as a first high frequency spectrum;
Means for encoding the low frequency spectrum;
Means for obtaining a second high frequency spectrum by copying a part or the whole of the low frequency spectrum to a high frequency;
A spectral shape adjustment method determining means for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus based on the properties of the first high frequency spectrum and the second high frequency spectrum;
Means for generating a bit stream in which the encoded low frequency spectrum and information on how to adjust the shape of the determined high frequency spectrum are multiplexed ;
Equipped with a,
The spectrum shape adjustment method determining means uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high frequency spectrum after the spectrum shape adjustment, to form the shape of the high frequency spectrum. A speech coding apparatus that determines how to adjust the amount of noise or the amount of noise to be superimposed .
前記スペクトル形状調整方法決定手段は、前記第1の高域スペクトルのトーン対雑音比と前記第2の高域スペクトルのトーン対雑音比とを比較する、The spectrum shape adjustment method determining means compares the tone-to-noise ratio of the first high-frequency spectrum with the tone-to-noise ratio of the second high-frequency spectrum.
ことを特徴とする請求項6記載の音声符号化装置。  The speech encoding apparatus according to claim 6.
前記スペクトル形状調整方法決定手段は、前記第1の高域スペクトルと前記第2の高域スペクトルの性質に基づいて、前記高域スペクトルの形状の調整の仕方に加え、前記音声復号化装置における高域スペクトルの形状の調整のために高域スペクトルに重畳する雑音の量を決定することを特徴とする請求項6または7に記載の音声符号化装置。 The spectrum shape adjustment method determining means, in addition to the method of adjusting the shape of the high frequency spectrum based on the properties of the first high frequency spectrum and the second high frequency spectrum, the high frequency in the speech decoding apparatus. The speech coding apparatus according to claim 6 or 7 , wherein the amount of noise to be superimposed on the high frequency spectrum is determined for adjusting the shape of the high frequency spectrum. 前記スペクトル形状調整方法決定手段は、前記第1の高域スペクトルを複数のサブバンドに分割し、分割後のサブバンドの各々に属する部分スペクトルについて、該部分スペクトルの形状の調整の仕方を決定することを特徴とする請求項6〜8の何れか一項に記載の音声符号化装置。 The spectrum shape adjustment method determining means divides the first high frequency spectrum into a plurality of subbands, and determines how to adjust the shape of the partial spectrum for each partial spectrum belonging to each of the divided subbands. The speech coding apparatus according to any one of claims 6 to 8, wherein 音声の低域周波数成分のみを含む低域スペクトルから、前記低域スペクトルに含まれない高域周波数成分を含む音声信号を復元する音声帯域拡張装置であって、
前記低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得る手段と、
前記第1の高域スペクトルの形状を調整することで、第2の高域スペクトルを得るスペクトル形状調整手段と、
前記低域スペクトルと前記第2の高域スペクトルとを利用して、高域周波数成分を含む音声信号を復元する手段と、
前記第1の高域スペクトルの性質に基づいて、音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定手段と、
を備え
前記スペクトル形状調整方法決定手段は、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする音声帯域拡張装置。
An audio band extending apparatus for restoring an audio signal including a high frequency component not included in the low frequency spectrum from a low frequency spectrum including only a low frequency component of the audio,
Means for obtaining a first high frequency spectrum by copying a part or the whole of the low frequency spectrum to a high frequency;
A spectrum shape adjusting means for obtaining a second high frequency spectrum by adjusting the shape of the first high frequency spectrum;
Means for reconstructing an audio signal including a high frequency component using the low frequency spectrum and the second high frequency spectrum;
Spectrum shape adjustment method determining means for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus based on the property of the first high frequency spectrum;
Equipped with a,
The spectrum shape adjustment method determining means uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high frequency spectrum after the spectrum shape adjustment, to form the shape of the high frequency spectrum. A voice band extending apparatus for determining an adjustment method or an amount of superimposed noise .
前記スペクトル形状調整方法決定手段は、前記第1の高域スペクトルのトーン対雑音比と前記低域スペクトルから推定した高域スペクトルのトーン対雑音比とを比較する、The spectrum shape adjustment method determining means compares the tone-to-noise ratio of the first high-frequency spectrum with the tone-to-noise ratio of the high-frequency spectrum estimated from the low-frequency spectrum.
ことを特徴とする請求項10記載の音声帯域拡張装置。  The voice band extending apparatus according to claim 10.
前記スペクトル形状調整手段は、前記第1の高域スペクトルの形状の調整に加え、雑音を重畳することによって前記第2の高域スペクトルを得る、
ことを特徴とする請求項10または11に記載の音声帯域拡張装置。
The spectrum shape adjusting means obtains the second high frequency spectrum by superimposing noise in addition to adjusting the shape of the first high frequency spectrum.
The voice band extending apparatus according to claim 10 or 11 , wherein
前記スペクトル形状調整手段は、前記第1の高域スペクトルを複数のサブバンドに分割し、分割後のサブバンドの各々に属する部分スペクトルについて、該部分スペクトルの形状の調整を行うことを特徴とする請求項10〜12の何れか一項に記載の音声帯域拡張装置。 The spectrum shape adjusting means divides the first high-frequency spectrum into a plurality of subbands, and adjusts the shape of the partial spectrum for each of the partial spectra belonging to each of the divided subbands. The voice band extending apparatus according to any one of claims 10 to 12 . 音声信号の低域スペクトルを符号化した情報と高域スペクトルの性質に関する補助情報とを含むビットストリームから、前記低域スペクトルと前記高域スペクトルの両方に相当する周波数成分を含む音声信号を復号する音声復号化装置、により実行される音声復号化方法であって、
前記ビットストリームを、音声信号の低域スペクトルを符号化した情報と、高域スペクトルの性質に関する補助情報とに分離するステップと、
前記音声信号の低域スペクトルを符号化した情報から、低域スペクトルを復号するステップと、
復号によって得られた低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得るステップと、
前記高域スペクトルの性質に関する補助情報を利用して前記第1の高域スペクトルの形状を調整することによって第2の高域スペクトルを得るスペクトル形状調整ステップと、
前記低域スペクトルと前記第2の高域スペクトルとを利用して音声信号を復号するステップと、
前記高域スペクトルの性質に関する補助情報と前記第1の高域スペクトルとに基づいて、前記スペクトル形状調整ステップにより用いられる前記形状の調整の仕方または重畳する雑音の量を決定するスペクトル形状調整方法決定ステップと、
を備え、
前記スペクトル形状調整方法決定ステップは、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと形状調整後の高域スペクトルによるマスキング量とを利用して、前記形状の調整の仕方または重畳する雑音の量を決定することを特徴とする音声復号化方法。
A speech signal including a frequency component corresponding to both the low-frequency spectrum and the high-frequency spectrum is decoded from a bitstream including information obtained by encoding the low-frequency spectrum of the audio signal and auxiliary information regarding the nature of the high-frequency spectrum. A speech decoding method executed by a speech decoding device,
Separating the bitstream into information encoded from the low frequency spectrum of the audio signal and auxiliary information relating to the nature of the high frequency spectrum;
Decoding the low-frequency spectrum from information obtained by encoding the low-frequency spectrum of the audio signal;
Obtaining a first high-frequency spectrum by copying a part or the whole of the low-frequency spectrum obtained by decoding to a high frequency;
A spectral shape adjustment step of obtaining a second high-frequency spectrum by adjusting the shape of the first high-frequency spectrum using auxiliary information on the nature of the high-frequency spectrum;
Decoding an audio signal using the low frequency spectrum and the second high frequency spectrum;
Spectral shape adjustment method determination for determining the shape adjustment method or the amount of noise to be superimposed used by the spectral shape adjustment step based on the auxiliary information on the nature of the high frequency spectrum and the first high frequency spectrum Steps,
With
The spectrum shape adjustment method determining step uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high-frequency spectrum after the shape adjustment, or the method of shape adjustment or superimposition. A speech decoding method characterized by determining an amount of noise .
前記スペクトル形状調整ステップでは、前記音声復号化装置は、前記第1の高域スペクトルの形状の調整に加え、雑音を重畳することによって前記第2の高域スペクトルを得る、
ことを特徴とする請求項14記載の音声復号化方法。
In the spectral shape adjustment step, the speech decoding apparatus obtains the second high frequency spectrum by superimposing noise in addition to the adjustment of the shape of the first high frequency spectrum.
The speech decoding method according to claim 14 , wherein:
低域スペクトルの復号結果の高域への複写に基づいて高域スペクトルの復号を行う音声復号化装置、に適合するビットストリームを生成する音声符号化装置により実行される音声符号化方法であって、
音声信号を周波数領域に変換し、低域スペクトルを分離した後、残存する高域スペクトルの一部または全体を第1の高域スペクトルとして分離するステップと、
前記低域スペクトルを符号化するステップと、
前記低域スペクトルの一部または全体を高域に複写することによって第2の高域スペクトルを得るステップと、
前記第1の高域スペクトルと前記第2の高域スペクトルの性質に基づいて、前記音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定ステップと、
符号化された前記低域スペクトルと、前記決定された高域スペクトルの形状の調整の仕方の情報とを多重化したビットストリームを生成するステップと
を備え
前記スペクトル形状調整方法決定ステップは、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする音声符号化方法。
A speech coding method that is executed by a speech coding apparatus that generates a bitstream suitable for a speech decoding apparatus that decodes a high-frequency spectrum based on copying of a decoding result of a low-frequency spectrum to a high frequency, ,
Separating the audio signal into the frequency domain, separating the low-frequency spectrum, and then separating part or all of the remaining high-frequency spectrum as a first high-frequency spectrum;
Encoding the low-pass spectrum;
Obtaining a second high frequency spectrum by copying a part or the whole of the low frequency spectrum to a high frequency;
A spectral shape adjustment method determining step for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus based on the properties of the first high frequency spectrum and the second high frequency spectrum;
Generating a bitstream in which the encoded low-frequency spectrum and information on how to adjust the shape of the determined high-frequency spectrum are multiplexed ;
Equipped with a,
The spectrum shape adjustment method determination step uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high frequency spectrum after the spectrum shape adjustment, and the shape of the high frequency spectrum A speech encoding method characterized by determining an adjustment method or an amount of noise to be superimposed .
前記スペクトル形状調整方法決定ステップでは、前記音声符号化装置は、前記第1の高域スペクトルと前記第2の高域スペクトルの性質に基づいて、前記高域スペクトルの形状の調整の仕方に加え、前記音声復号化装置における高域スペクトルの形状の調整のために高域スペクトルに重畳する雑音の量を決定することを特徴とする請求項16に記載の音声符号化方法。 In the spectral shape adjustment method determining step, the speech encoding apparatus, in addition to the method of adjusting the shape of the high frequency spectrum based on the properties of the first high frequency spectrum and the second high frequency spectrum, The speech coding method according to claim 16 , wherein the amount of noise to be superimposed on the high frequency spectrum is determined for adjusting the shape of the high frequency spectrum in the speech decoding apparatus. 音声の低域周波数成分のみを含む低域スペクトルから、前記低域スペクトルに含まれない高域周波数成分を含む音声信号を復元する音声帯域拡張装置、により実行される音声帯域拡張方法であって、
前記低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得るステップと、
前記第1の高域スペクトルの形状を調整することで、第2の高域スペクトルを得るスペクトル形状調整ステップと、
前記低域スペクトルと前記第2の高域スペクトルとを利用して、高域周波数成分を含む音声信号を復元するステップと、
前記第1の高域スペクトルの性質に基づいて、音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定ステップと、
を備え
前記スペクトル形状調整方法決定ステップは、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする音声帯域拡張方法。
A voice band extending method executed by a voice band extending apparatus for restoring a voice signal including a high frequency component not included in the low frequency spectrum from a low frequency spectrum including only a low frequency component of the voice,
Obtaining a first high frequency spectrum by copying a part or the whole of the low frequency spectrum to a high frequency;
A spectral shape adjustment step for obtaining a second high frequency spectrum by adjusting the shape of the first high frequency spectrum;
Reconstructing an audio signal including a high frequency component using the low frequency spectrum and the second high frequency spectrum;
A spectral shape adjustment method determining step for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus based on the property of the first high frequency spectrum;
Equipped with a,
The spectrum shape adjustment method determination step uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high frequency spectrum after the spectrum shape adjustment, and the shape of the high frequency spectrum A method of expanding a voice band , characterized by determining a method of adjusting the amount of noise or an amount of noise to be superimposed .
前記スペクトル形状調整ステップでは、前記音声復号化装置は、前記第1の高域スペクトルの形状の調整に加え、雑音を重畳することによって前記第2の高域スペクトルを得る、
ことを特徴とする請求項18記載の音声帯域拡張方法。
In the spectral shape adjustment step, the speech decoding apparatus obtains the second high frequency spectrum by superimposing noise in addition to the adjustment of the shape of the first high frequency spectrum.
The method of extending a voice band according to claim 18 .
JP2008183113A 2008-07-14 2008-07-14 Speech coding apparatus and method, speech decoding apparatus and method, and speech bandwidth extension apparatus and method Expired - Fee Related JP5203077B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008183113A JP5203077B2 (en) 2008-07-14 2008-07-14 Speech coding apparatus and method, speech decoding apparatus and method, and speech bandwidth extension apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008183113A JP5203077B2 (en) 2008-07-14 2008-07-14 Speech coding apparatus and method, speech decoding apparatus and method, and speech bandwidth extension apparatus and method

Publications (2)

Publication Number Publication Date
JP2010020251A JP2010020251A (en) 2010-01-28
JP5203077B2 true JP5203077B2 (en) 2013-06-05

Family

ID=41705184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008183113A Expired - Fee Related JP5203077B2 (en) 2008-07-14 2008-07-14 Speech coding apparatus and method, speech decoding apparatus and method, and speech bandwidth extension apparatus and method

Country Status (1)

Country Link
JP (1) JP5203077B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410647B2 (en) 2014-03-24 2019-09-10 Ntt Docomo, Inc. Audio decoding device, audio encoding device, audio decoding method, audio encoding method, audio decoding program, and audio encoding program
US11562760B2 (en) 2012-04-27 2023-01-24 Ntt Docomo, Inc. Audio decoding device, audio coding device, audio decoding method, audio coding method, audio decoding program, and audio coding program

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011001578A1 (en) * 2009-06-29 2011-01-06 パナソニック株式会社 Communication apparatus
JP5754899B2 (en) 2009-10-07 2015-07-29 ソニー株式会社 Decoding apparatus and method, and program
JP5609737B2 (en) 2010-04-13 2014-10-22 ソニー株式会社 Signal processing apparatus and method, encoding apparatus and method, decoding apparatus and method, and program
JP5652658B2 (en) 2010-04-13 2015-01-14 ソニー株式会社 Signal processing apparatus and method, encoding apparatus and method, decoding apparatus and method, and program
JP5850216B2 (en) 2010-04-13 2016-02-03 ソニー株式会社 Signal processing apparatus and method, encoding apparatus and method, decoding apparatus and method, and program
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
JP5707842B2 (en) 2010-10-15 2015-04-30 ソニー株式会社 Encoding apparatus and method, decoding apparatus and method, and program
KR20140027091A (en) * 2011-02-08 2014-03-06 엘지전자 주식회사 Method and device for bandwidth extension
JP5977176B2 (en) * 2011-02-18 2016-08-24 株式会社Nttドコモ Speech decoding apparatus, speech encoding apparatus, speech decoding method, speech encoding method, speech decoding program, and speech encoding program
JP5942358B2 (en) 2011-08-24 2016-06-29 ソニー株式会社 Encoding apparatus and method, decoding apparatus and method, and program
JP6037156B2 (en) * 2011-08-24 2016-11-30 ソニー株式会社 Encoding apparatus and method, and program
JP5975243B2 (en) * 2011-08-24 2016-08-23 ソニー株式会社 Encoding apparatus and method, and program
JP5595605B2 (en) * 2011-12-27 2014-09-24 三菱電機株式会社 Audio signal restoration apparatus and audio signal restoration method
KR101897455B1 (en) * 2012-04-16 2018-10-04 삼성전자주식회사 Apparatus and method for enhancement of sound quality
CN104584124B (en) * 2013-01-22 2019-04-16 松下电器产业株式会社 Code device, decoding apparatus, coding method and coding/decoding method
BR112016005167B1 (en) * 2013-09-12 2021-12-28 Dolby International Ab AUDIO DECODER, AUDIO ENCODER AND METHOD FOR TIME ALIGNMENT OF QMF-BASED PROCESSING DATA
CN105531762B (en) 2013-09-19 2019-10-01 索尼公司 Code device and method, decoding apparatus and method and program
SG11201605015XA (en) 2013-12-27 2016-08-30 Sony Corp Decoding device, method, and program
CN106463143B (en) * 2014-03-03 2020-03-13 三星电子株式会社 Method and apparatus for high frequency decoding for bandwidth extension
CN111105806B (en) 2014-03-24 2024-04-26 三星电子株式会社 High-frequency band encoding method and apparatus, and high-frequency band decoding method and apparatus
PL3550563T3 (en) * 2014-03-31 2024-07-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, encoding method, decoding method, and associated programs
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3288031A1 (en) * 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
CN112189231B (en) 2018-04-25 2024-09-20 杜比国际公司 Integration of high frequency audio reconstruction techniques
CA3238617A1 (en) 2018-04-25 2019-10-31 Dolby International Ab Integration of high frequency reconstruction techniques with reduced post-processing delay
CN112530446B (en) * 2019-09-18 2023-10-20 腾讯科技(深圳)有限公司 Band expansion method, device, electronic equipment and computer readable storage medium

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3926726B2 (en) * 2001-11-14 2007-06-06 松下電器産業株式会社 Encoding device and decoding device
JP4308229B2 (en) * 2001-11-14 2009-08-05 パナソニック株式会社 Encoding device and decoding device
DE60202881T2 (en) * 2001-11-29 2006-01-19 Coding Technologies Ab RECONSTRUCTION OF HIGH-FREQUENCY COMPONENTS
WO2005104094A1 (en) * 2004-04-23 2005-11-03 Matsushita Electric Industrial Co., Ltd. Coding equipment
JP5237637B2 (en) * 2005-06-08 2013-07-17 パナソニック株式会社 Apparatus and method for extending the bandwidth of an audio signal
JP4736812B2 (en) * 2006-01-13 2011-07-27 ソニー株式会社 Signal encoding apparatus and method, signal decoding apparatus and method, program, and recording medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562760B2 (en) 2012-04-27 2023-01-24 Ntt Docomo, Inc. Audio decoding device, audio coding device, audio decoding method, audio coding method, audio decoding program, and audio coding program
US10410647B2 (en) 2014-03-24 2019-09-10 Ntt Docomo, Inc. Audio decoding device, audio encoding device, audio decoding method, audio encoding method, audio decoding program, and audio encoding program
US11437053B2 (en) 2014-03-24 2022-09-06 Ntt Docomo, Inc. Audio decoding device, audio encoding device, audio decoding method, audio encoding method, audio decoding program, and audio encoding program
EP4293667A2 (en) 2014-03-24 2023-12-20 Ntt Docomo, Inc. Audio encoding device and audio encoding method

Also Published As

Publication number Publication date
JP2010020251A (en) 2010-01-28

Similar Documents

Publication Publication Date Title
JP5203077B2 (en) Speech coding apparatus and method, speech decoding apparatus and method, and speech bandwidth extension apparatus and method
JP7092809B2 (en) A device and method for decoding or coding an audio signal using energy information for the reconstructed band.
US10522168B2 (en) Audio signal synthesizer and audio signal encoder
KR101979557B1 (en) Decoding device and method, and computer-readable storage device
JP5224017B2 (en) Audio encoding apparatus, audio encoding method, and audio encoding program
KR101747918B1 (en) Method and apparatus for decoding high frequency signal
KR101916619B1 (en) Decoding device and method, and computer readable recording medium
KR100915733B1 (en) Method and device for the artificial extension of the bandwidth of speech signals
JP4289815B2 (en) Improved spectral transfer / folding in the subband region
KR101801996B1 (en) Signal processing device and method, encoding device and method, decoding device and method, and computer readable recording medium
JP3579047B2 (en) Audio decoding device, decoding method, and program
KR101355376B1 (en) Method and apparatus for encoding and decoding high frequency band
JP4934427B2 (en) Speech signal decoding apparatus and speech signal encoding apparatus
KR101373004B1 (en) Apparatus and method for encoding and decoding high frequency signal
WO2010024371A1 (en) Device and method for expanding frequency band, device and method for encoding, device and method for decoding, and program
JP2017203995A (en) Method of encoding and decoding audio signal, and device of the same
KR20080045047A (en) Method and apparatus for bandwidth extension encoding and decoding
JP4313993B2 (en) Audio decoding apparatus and audio decoding method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110614

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130213

R150 Certificate of patent or registration of utility model

Ref document number: 5203077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160222

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees