WO2011048810A1 - ベクトル量子化装置及びベクトル量子化方法 - Google Patents
ベクトル量子化装置及びベクトル量子化方法 Download PDFInfo
- Publication number
- WO2011048810A1 WO2011048810A1 PCT/JP2010/006225 JP2010006225W WO2011048810A1 WO 2011048810 A1 WO2011048810 A1 WO 2011048810A1 JP 2010006225 W JP2010006225 W JP 2010006225W WO 2011048810 A1 WO2011048810 A1 WO 2011048810A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- vector
- signal
- search
- impulse response
- code
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 223
- 238000000034 method Methods 0.000 title claims description 23
- 230000004044 response Effects 0.000 claims abstract description 74
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 33
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 33
- 238000001914 filtration Methods 0.000 claims abstract description 31
- 230000003044 adaptive effect Effects 0.000 claims description 128
- 238000004364 calculation method Methods 0.000 claims description 83
- 238000013139 quantization Methods 0.000 claims description 46
- 238000004904 shortening Methods 0.000 claims description 12
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 2
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000005056 compaction Methods 0.000 abstract 1
- 230000001747 exhibiting effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 76
- 230000007613 environmental effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000005284 excitation Effects 0.000 description 9
- 230000006866 deterioration Effects 0.000 description 8
- 239000002131 composite material Substances 0.000 description 7
- 230000000593 degrading effect Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
Definitions
- the present invention relates to a vector quantization apparatus and a vector quantization method.
- Speech coding technology that has greatly improved performance by CELP (Code Excited Linear Prediction), which is a basic method that applies vector quantization by modeling the speech utterance mechanism established 20 years ago, is an ITU-T standard G . 729 or ETSI standard AMR (Adaptive Multi-Rate) and other standard systems are widely used (see, for example, Non-Patent Document 1).
- VMR-WB Vehicle-RateRMultimode Wideband
- Wideband Wideband
- Wideband Wideband
- Narrow Band 200Hz to 3.4kHz
- VMR-WB Source-Controlled-Variable-Rate Multimode Wideband Speech Codec
- the search for an adaptive codebook in CELP has not made much progress in reducing the amount of calculation compared to the search for a fixed codebook.
- the adaptive codebook search (formula (5.16.1-1) and formula (5.16.1-2)) described in the VMR-WB standard (Non-Patent Document 2) is the VMR-WB standard. ITU-T standard G. This is almost the same as the adaptive codebook search (Chapter 3.7: Expression (37) and Expression (38)) described in the standard 729 (Non-Patent Document 1). That is, VMR-WB is an ITU-T standard G.264 standard. It can be seen that although the algorithm handles nearly double the number of samples compared to 729, there has been little technical progress in adaptive codebook search.
- An object of the present invention is to provide a vector quantization apparatus and a vector quantization method capable of reducing the amount of speech codec calculation without degrading speech quality when a wideband digital signal is encoded. is there.
- a vector quantization apparatus is a vector quantization apparatus that searches a codebook composed of a plurality of code vectors and obtains a code indicating a code vector that minimizes coding distortion.
- Filtering means for inputting an impulse response of a filter and generating a first signal by applying a filter having one or both of a low-pass characteristic and a high-pass characteristic to the impulse response, and convolving the first signal with each of the plurality of code vectors
- a search means for performing the search using the second signal and a target vector.
- the vector quantization method of the present invention is a vector quantization method for searching a codebook composed of a plurality of code vectors and obtaining a code indicating a code vector that minimizes coding distortion, and includes a low-pass characteristic and a high-pass characteristic.
- the calculation amount of the voice codec can be reduced without substantially degrading the voice quality.
- FIG. 1 is a block diagram showing a configuration of a CELP encoding apparatus according to Embodiment 1 of the present invention.
- FIG. 1 is a block diagram showing a configuration of a vector quantization apparatus according to Embodiment 1 of the present invention.
- the block diagram which shows the structure of the search part of the vector quantization apparatus which concerns on Embodiment 1 of this invention.
- the block diagram which shows the structure of the vector quantization apparatus which concerns on Embodiment 2 of this invention.
- the block diagram which shows the structure of the search part of the vector quantization apparatus which concerns on Embodiment 2 of this invention.
- a CELP encoding apparatus is used as an example of a speech encoding apparatus using the vector quantization apparatus of the present invention as an adaptive codebook quantization apparatus.
- FIG. 1 is a block diagram showing a configuration of CELP encoding apparatus 100 according to the present embodiment.
- a CELP encoding apparatus 100 encodes a speech signal composed of vocal tract information and sound source information by obtaining an LPC parameter (linear prediction coefficient) for the vocal tract information, Encoding is performed by obtaining an index for specifying which of the stored speech models is used. That is, the sound source information is encoded by obtaining an index (code) that specifies what sound source vector (code vector) is generated in the adaptive codebook 103 and the fixed codebook 104.
- LPC parameter linear prediction coefficient
- each unit of CELP encoding apparatus 100 performs the following operation.
- the LPC analysis unit 101 performs linear prediction analysis on the speech signal, obtains LPC parameters that are spectrum envelope information, and outputs the obtained LPC parameters to the LPC quantization unit 102 and the perceptual weighting unit 111.
- the LPC quantization unit 102 quantizes the LPC parameter output from the LPC analysis unit 101, outputs the obtained quantized LPC parameter to the LPC synthesis filter 109, and sets the index of the quantized LPC parameter of the CELP encoding device 100. Output to the outside.
- the adaptive codebook 103 stores past driving sound sources used in the LPC synthesis filter 109, and stores them according to an adaptive codebook lag corresponding to an index instructed from the distortion minimizing unit 112 described later.
- a sound source vector for one subframe is generated from the driving sound source. This excitation vector is output to multiplier 106 as an adaptive codebook vector.
- Fixed codebook 104 stores a plurality of excitation vectors having a predetermined shape in advance, and outputs the excitation vector corresponding to the index instructed from distortion minimizing section 112 to multiplier 107 as a fixed codebook vector.
- fixed codebook 104 is an algebraic sound source, and a case where an algebraic codebook is used will be described.
- An algebraic sound source is a sound source used in many standard codecs.
- the adaptive codebook 103 is used for expressing a component with strong periodicity such as voiced sound, while the fixed codebook 104 is used for expressing a component with weak periodicity such as white noise. Used for.
- the gain codebook 105 is a gain for the adaptive codebook vector (adaptive codebook gain) output from the adaptive codebook 103 and a fixed codebook output from the fixed codebook 104 in accordance with an instruction from the distortion minimizing unit 112.
- Vector gain (fixed codebook gain) is generated and output to multipliers 106 and 107, respectively.
- Multiplier 106 multiplies the adaptive codebook gain output from gain codebook 105 by the adaptive codebook vector output from adaptive codebook 103, and outputs the multiplied adaptive codebook vector to adder 108.
- Multiplier 107 multiplies the fixed codebook gain output from gain codebook 105 by the fixed codebook vector output from fixed codebook 104, and outputs the fixed codebook vector after multiplication to adder 108.
- Adder 108 adds the adaptive codebook vector output from multiplier 106 and the fixed codebook vector output from multiplier 107, and outputs the added excitation vector to LPC synthesis filter 109 as a driving excitation. .
- the LPC synthesis filter 109 uses a quantized LPC parameter output from the LPC quantization unit 102 as a filter coefficient, and a filter function using the excitation vector generated by the adaptive codebook 103 and the fixed codebook 104 as a driving excitation, that is, LPC A synthesized signal is generated using a synthesis filter. This combined signal is output to adder 110.
- the adder 110 calculates an error signal by subtracting the synthesized signal generated by the LPC synthesis filter 109 from the audio signal, and outputs the error signal to the perceptual weighting unit 111. This error signal corresponds to coding distortion.
- the perceptual weighting unit 111 performs perceptual weighting on the encoded distortion output from the adder 110 and outputs it to the distortion minimizing unit 112.
- the distortion minimizing unit 112 sets the indexes (codes) of the adaptive codebook 103, the fixed codebook 104, and the gain codebook 105 such that the coding distortion output from the perceptual weighting unit 111 is minimized for each subframe. These indices are output to the outside of the CELP encoding apparatus 100 as encoded information. More specifically, a series of processes for generating a composite signal based on the above-described adaptive codebook 103 and fixed codebook 104 and obtaining the coding distortion of this signal is closed loop control (feedback control), and distortion is minimized. The encoding unit 112 searches each codebook by changing the index indicated to each codebook in one subframe, and finally obtains the index of each codebook that minimizes the encoding distortion. Output.
- the driving sound source when the coding distortion is minimized is fed back to the adaptive codebook 103 for each subframe.
- the adaptive codebook 103 updates the stored driving sound source by this feedback.
- the adaptive codebook vector and the fixed codebook vector are searched in an open loop (in separate loops), and the search for the excitation vector and the derivation of the index (code) are the coding distortions of the following equation (1). This is done by searching for a sound source vector that minimizes.
- E coding distortion
- x coding target (auditory weighted speech signal)
- p adaptive codebook vector
- H auditory weighted synthesis filter (impulse response matrix)
- g ideal gain of adaptive codebook vector
- equation (2) Can be transformed into a cost function.
- equation (2) the subscript t indicates vector transposition.
- the adaptive codebook vector p that minimizes the coding distortion E of the above equation (1) maximizes the cost function of the above equation (2).
- the numerator of Expression (2) Let's take the square root of the denominator term without squaring the term. That is, the numerator term in Equation (2) represents the correlation value between the encoding target x and the synthesized adaptive codebook vector Hp, and the denominator term in Equation (2) is the synthesized adaptive codebook vector Hp. Represents the square root of power.
- CELP encoding apparatus 100 searches for adaptive codebook vector p that maximizes the cost function shown in the above equation (2), and adaptive codebook vector that maximizes the cost function. Are output to the outside of the CELP encoding apparatus 100.
- FIG. 2 is a block diagram showing a configuration related to adaptive codebook search among internal configurations of distortion minimizing section 112 according to the present embodiment. That is, FIG. 2 is a block diagram illustrating an example of the distortion minimizing unit 112 including the vector quantization apparatus (adaptive codebook quantization apparatus) according to the present invention as part of the internal configuration.
- the vector quantization apparatus adaptive codebook quantization apparatus
- the vector quantization apparatus shown in FIG. 2 includes coding distortion (target vector for adaptive codebook search) subjected to auditory weighting in the perceptual weighting unit 111, and a synthesis filter (perceptual weighted) in the perceptual weighting unit 111.
- coding distortion target vector for adaptive codebook search
- synthesis filter perceptual weighted
- the filtering unit 201 applies a band-pass filter to the impulse response of the auditory weighted synthesis filter. Specifically, the filtering unit 201 convolves a coefficient of an FIR (Finite Impulse Response) filter with the impulse response. Then, the filtering unit 201 outputs the impulse response (first signal) of the filtered auditory weighted synthesis filter to the shortening unit 202.
- FIR Finite Impulse Response
- the filtering unit 201 outputs the impulse response (first signal) of the filtered auditory weighted synthesis filter to the shortening unit 202.
- an example of the transfer function of the bandpass filter used in the present embodiment is shown in the following formula (3), and the frequency characteristic of the transfer function shown in formula (3) is shown in FIG.
- the frequency characteristic shown in FIG. 4 has a low-pass characteristic from around 4 kHz to 8 kHz. That is, the band pass filter in the filtering unit 201 has both a low pass characteristic and a high pass characteristic.
- a low-dimensional (fourth order) bandpass filter is used in order to minimize the amount of calculation when applying the bandpass filter to the impulse response of the auditory weighted synthesis filter. Therefore, in the frequency characteristics shown in FIG. There is a transmission characteristic in between. However, since the impulse response of the audible weighted synthesis filter does not contain much components in this frequency band (6 kHz to 8 kHz), it is not greatly affected by the transmission characteristics.
- the filtering unit 201 multiplies the impulse response by a band-pass filter (Equation (3), FIG. 4), so that downsampling can be performed with almost no deterioration in voice quality due to the low-pass characteristic of the filter.
- the correlation value between the target vector and the adaptive codebook vector in which the impulse response is convolved (the synthesized adaptive codebook vector)
- the power of the synthesized adaptive codebook vector can be reduced with a smaller number of products. Can be sought. For this reason, it is possible to reduce the amount of calculation in the adaptive codebook search with almost no deterioration in speech quality.
- the filtering unit 201 multiplies the impulse response by a band-pass filter (equation (3), FIG. 4), so that impulse response components can be collected into low-order components due to the high-pass characteristics of the filter. Therefore, by shortening the impulse response component only to the low-order part, it is possible to reduce the amount of calculation required for convolution of the impulse response and the adaptive codebook vector.
- the shortening unit 202 shortens the impulse response component of the filtered auditory weighted synthesis filter input from the filtering unit 201 to only a low-order part.
- the order of the impulse response input from the audibility weighting unit 111 is assumed to be the 64th order (0th to 63rd) which is the same as the order of the frame.
- the shortening unit 202 shortens the impulse response input from the filtering unit 201 only to the 24th order from the 0th to the 23rd.
- an impulse response shortened only to a low-order part is referred to as an “improved impulse response (or shortened signal)”.
- the shortening unit 202 outputs the improved impulse response (shortening signal) to the convolution unit 203 and the search unit 204.
- the convolution unit 203 performs an improved impulse response (input from the shortening unit 202) on the entire adaptive codebook vector (code vector of the adaptive codebook) input from the adaptive codebook 103 according to the following equation (4). Fold the shortened signal.
- convolution section 203 outputs the obtained synthesized first adaptive codebook vector y 0 (n) (second signal) to search section 204.
- Search unit 204 receives various adaptive codebook vectors from adaptive codebook 103.
- FIG. 3 is a block diagram illustrating an example of an internal configuration of the search unit 204 in FIG.
- the search unit 204 includes three components, that is, a calculation unit 205, a comparison unit 206, and an update unit 207.
- the search unit 204 quantizes (encodes) the adaptive codebook vector through three processes in each component.
- the calculation unit 205 of the search unit 204 uses the synthesized adaptive codebook vector (second signal) input from the convolution unit 203 and the target vector input from the audibility weighting unit 111 to obtain the following equation:
- the cost function E k (k: adaptive codebook vector number) shown in (5) is calculated.
- the square root of the denominator term is taken without squaring the numerator term of Equation (5).
- the numerator term in Equation (5) represents the correlation value between the target vector x and the synthesized adaptive codebook vector y k
- the denominator term in Equation (5) is the synthesized adaptive codebook vector y k.
- the calculation unit 205 calculates the cost function by thinning out the elements of the adaptive codebook vector (code vector) y k and the elements of the target vector x as shown in Expression (5).
- the comparison unit 206 of the search unit 204 compares the cost functions E k sequentially calculated by the calculation unit 205, and holds the largest value E k and the coefficient k among the calculated cost functions. Then, comparison section 206, the result of the adaptive codebook search, the coefficient k of the highest cost function E k, the number k of the optimum adaptive codebook vector.
- the search unit 204 obtains and outputs an index (a code, that is, an optimal adaptive codebook vector number k).
- FIG. 5 shows the result of an encoding simulation showing the effect of the present invention.
- FIG. 5 shows an average value of 16 pieces of audio data to which various environmental noises are added.
- the original (conventional method) codec shown in FIG. It is a 718-compliant floating point simulator and has a bit rate of 12 kbps.
- the calculation amount (WMOPS: Weighted Mega Operation Per Second) shown in FIG. 5 is an aggregation of the operations only for the portion related to the adaptive codebook search.
- the encoding apparatus according to the present invention when used, there is no deterioration in speech quality (S / N ratio) compared to the case where the original encoding apparatus is used (slightly).
- the calculation amount is greatly reduced to about 2/3. That is, by applying filtering to the impulse response, the order of the impulse response is shortened (use of an improved impulse response), and the sum of products of the cost function at the time of adaptive codebook search is thinned, thereby reducing the voice quality. It was verified that the computational complexity at the time of adaptive codebook search can be greatly reduced without degradation.
- FIG. 6 shows the result of a coding simulation for verifying that the voice quality does not deteriorate due to the environmental conditions of the voice.
- the original (conventional method) codec shown in FIG. 6 is similar to FIG. It is a 718-compliant floating point simulator and has a bit rate of 12 kbps.
- FIG. 6 as environmental conditions, the average value of 16 pieces of sound data to which various environmental noises similar to those in FIG. 5 are added (condition: 16 sound average), sound data without noise (condition: clean), Audio data (condition: car noise) to which noise of a running car is added and audio data (condition: bubble noise) to which bubble noise (colored noise) is added are used.
- the speech quality (S / N ratio) is slightly lower when the encoding device of the present invention is used than when the original encoding device is used.
- the speech quality (S / N ratio) is slightly lower when the encoding device of the present invention is used than when the original encoding device is used.
- a voiced signal can stably analyze periodicity in a low-frequency region. Therefore, by applying a filter having a low-pass characteristic to an impulse response, the voice is obtained by a low-pass characteristic. Downsampling can be performed with almost no degradation in quality. Thereby, the calculation amount required for the product-sum calculation at the time of codebook search can be reduced.
- the impulse response of the auditory weighted synthesis filter has a large amplitude up to a high-order component due to a large low-frequency wave.
- the impulse response components can be collected in a low-order component due to the high-pass characteristic, and the impulse response can be shortened to only a low-order part.
- the amount of calculation required for convolution of an impulse response and a codebook vector can be reduced. That is, the amount of calculation of the voice codec can be greatly reduced by reducing the two amounts of calculation.
- a filter having a low-pass characteristic and a high-pass characteristic is convoluted with the impulse response of the auditory weighted synthesis filter.
- the downsampling is performed by the low-pass characteristic of the filter, so that it is possible to thin out the target of product sum in the product-sum calculation of the cost function (Equation (5)).
- the amount of calculation at the time can be reduced.
- the number of products to be summed when calculating the synthesized adaptive codebook vector (equation (6)) can be reduced by reducing the order of the impulse response by the high-pass characteristic of the filter. Therefore, it is possible to reduce the amount of calculation at the time of adaptive codebook search. Therefore, according to the present embodiment, even when a wideband digital signal is encoded by CELP, the amount of speech codec calculation can be reduced without degrading speech quality.
- the shortening unit 202 illustrated in FIG. 2 may shorten the order of the impulse response after filtering when the filter of the filtering unit 201 has a high-pass characteristic.
- the search unit 204 (calculation unit 205) shown in FIG.
- the filter 2 uses the elements of the adaptive codebook vector and the target vector in the cost function (equation (5)) when the filter of the filtering unit 201 has low-pass characteristics.
- the adaptive codebook search may be performed by thinning out.
- the order of the bandpass filter is the fourth order as shown in Expression (3).
- the present invention is not limited to this, and the order of the bandpass filter may be another order.
- the calculation unit 205 of the search unit 204 uses the numerator of the cost function shown in Equation (5) as a correlation value and the denominator as the square root of power.
- the numerator of the cost function may be the square of the correlation value and the denominator may be power.
- the square of the correlation value may be multiplied by the polarity (+ ⁇ ) of the correlation value in the cost function. In this case, since the square root is not taken in the cost function, the calculation amount can be further reduced.
- the present invention is applied to adaptive codebook quantization (encoding) has been described.
- the present invention can be applied not only to the adaptive codebook but also to a fixed codebook, for example.
- use of a filter having a low-pass characteristic a band-pass filter having the characteristic shown in FIG. 4 in the present embodiment
- a cost function calculation method in the calculation unit 205 of the search unit 204 an algorithm for thinning out product-sum calculation
- Equation (1) if the gain g is an ideal gain, since the equation obtained by partial differentiation of the equation (1) with g becomes 0, g can be eliminated, and the equation (1) can be expressed by the equation (2)
- the cost function can be transformed into That is, the adaptive codebook vector p that minimizes the coding distortion E in Equation (1) maximizes the cost function in Equation (2).
- the encoding target x and the adaptive codebook vector (synthesized adaptive codebook vector) Hp in which the impulse response H is convoluted have a positive correlation. Therefore, the square root of the denominator term is taken without squaring the numerator term of the formula (2).
- the numerator term of the cost function shown in Expression (7) is obtained by multiplying the correlation value (x t Mp) obtained by multiplying the composite vector (Mp) and the encoding target (x) by the absolute value (
- the denominator term of the cost function shown in the equation (7) is obtained by calculating the power (p t M t Mp) of the composite vector (Mp).
- CELP encoding apparatus 100 searches for adaptive codebook vector p that maximizes the cost function shown in the above equation (7), and adaptive codebook vector that maximizes the cost function. Are output to the outside of the CELP encoding apparatus 100.
- FIG. 7 is a block diagram showing a configuration related to adaptive codebook search among internal configurations of distortion minimizing section 112 of CELP encoding apparatus 100 (FIG. 1) according to the present embodiment. That is, FIG. 7 is a block diagram illustrating an example of the distortion minimizing unit 112 including the vector quantization apparatus (adaptive codebook quantization apparatus) according to the present invention as part of the internal configuration.
- the same components as those of the first embodiment (FIG. 2) are denoted by the same reference numerals, and the description thereof is omitted.
- the vector quantization apparatus shown in FIG. 7 includes a coding distortion (target vector for adaptive codebook search) subjected to auditory weighting in the perceptual weighting unit 111 (FIG. 1), and a synthesis filter in the perceptual weighting unit 111.
- the impulse response of the (audience weighted synthesis filter) is input.
- the search convolution vector calculation unit 301 includes a filtering unit 302 and a cut-out unit 303, and uses the impulse response of the audible weighted synthesis filter to calculate a convolution matrix of the search convolution vector (equation (7)). Calculate M).
- the filtering unit 302 of the search convolution vector calculation unit 301 filters the impulse response of the auditory weighted synthesis filter. Specifically, the filtering unit 302 convolves the coefficient of the FIR filter with the impulse response. Then, the filtering unit 301 outputs the impulse response (first signal) of the filtered auditory weighted synthesis filter to the clipping unit 302.
- the transfer function of the filter used in the present embodiment is shown in the following formula (8). Note that the frequency characteristic of the transfer function shown in Expression (8) is weaker than the frequency characteristic shown in Expression (3) (FIG. 4) of Embodiment 1 (low-pass characteristic or high-pass characteristic).
- the filtering unit 302 by applying a filter having a transfer function shown in Expression (8) to the impulse response, the components of the output vector can be collected into low-order components due to the high-pass characteristics of the filter. Therefore, by limiting the search convolution vector to only a low order part, it is possible to reduce the amount of calculation required for convolution of the impulse response and the adaptive codebook vector.
- the cutout unit 303 cuts out a low-order part of the impulse response (first signal) of the filtered auditory weighted synthesis filter input from the filtering unit 302, and searches the convolution vector (M) ( Alternatively, it is called a partial signal.
- the order of the impulse response input from the audibility weighting unit 111 is assumed to be the 64th order (0th to 63rd) which is the same as the order of the frame.
- the cutout unit 303 cuts out the 24th order from the 0th to the 23rd from the impulse response input from the filtering unit 302, and extracts the 24th order from the 0th to the 23rd from the search convolution vector (partial). Signal).
- the clipping unit 303 outputs the search convolution vector (partial signal) to the convolution unit 203 and the search unit 204.
- the convolution unit 203 performs convolution for search input from the clipping unit 303 on the entire adaptive codebook vector (code vector of the adaptive codebook) input from the adaptive codebook 103 according to the following equation (9).
- Convolve vector partial signal
- the convolution unit 203 performs convolution using the low-order part of the impulse response of the filtered auditory weighted synthesis filter extracted by the extraction unit 303.
- y 0 (n) synthesized first adaptive codebook vector (initial vector of synthesized vector)
- u (T start + i) Adaptive codebook vector (code vector of adaptive codebook)
- T start Lag (pitch delay) used first as a code vector
- convolution section 203 outputs the obtained synthesized first adaptive codebook vector y 0 (n) (second signal) to search section 204.
- Search unit 204 receives various adaptive codebook vectors from adaptive codebook 103.
- FIG. 8 is a block diagram showing an example of the internal configuration of the search unit 204 in FIG.
- the search unit 204 includes three components, that is, a calculation unit 304, a comparison unit 206, and an update unit 305.
- the search unit 204 quantizes (encodes) the adaptive codebook vector through three processes in each component.
- the calculation unit 304 of the search unit 204 uses the synthesized adaptive codebook vector input from the convolution unit 203 and the target vector input from the perceptual weighting unit 111 to use the cost function E k (k: adaptive). Codebook vector number) is calculated. However, it is necessary to limit to the case where the target vector and the combined vector have a positive correlation. Therefore, in the present embodiment, the calculation unit 304 calculates the numerator term and the denominator term of the cost function E k using Expression (7).
- the search unit 204 correlates the adaptive codebook vector (a plurality of code vectors) obtained by convolving the impulse response (low-order part) of the audible weighted synthesis filter after filtering in the convolution unit 203 with the target vector.
- Adaptive codebook vector plural code vectors in which the numerator term represented by (x t Mp) and the impulse response (low-order part) of the audible weighted synthesis filter after filtering in the convolution unit 203 are convolved
- the adaptive codebook is searched using a cost function including a denominator term expressed by the power of ( t t M t Mp).
- the numerator term is obtained by multiplying the correlation value (x t Mp) by the absolute value (
- the denominator term of the cost function (the power of the combined vector) is calculated at a rate of once every two times (that is, every other adaptive codebook vector) in the adaptive codebook search loop. Then, thin out the product-sum calculation of the denominator term of the cost function. That is, the number of product sums for obtaining the denominator term is 1 ⁇ 2 that the product sum calculation is not thinned out (that is, the thinning rate is 1 ⁇ 2). Further, according to equation (10), calculation unit 304 calculates the denominator term (power) of the cost function in the adaptive codebook vector in which product-sum calculation is not performed in the cost function calculation, and adaptive codes before and after the adaptive codebook vector.
- the calculation unit 304 calculates the numerator and denominator terms of the cost function. As the denominator of the cost function as shown in equation (10), the inverse L k of the denominator term is calculated. Then, the calculation unit 304 calculates the cost function E k using the numerator term U k and the reciprocal L k of the denominator term as shown in Expression (10).
- the denominator term that is, the reciprocal of the denominator term
- L k ⁇ 1 is calculated at (k ⁇ 1) immediately before k. It was not (thinned out). Therefore, calculation unit 304, (k-1) before and after, by interpolation using the inverse L k of the denominator term in the inverse L k-2 and k the denominator terms in (k-2), (k -1 ) To find the reciprocal L k ⁇ 1 of the denominator term.
- the reciprocal L k ⁇ 1 of the denominator is the average value of the reciprocal of the denominator before and after (k ⁇ 1) (that is, (k ⁇ 2) and k). Then, the calculation unit 304 uses the numerator term U k ⁇ 1 obtained by the product-sum calculation and the denominator term (reciprocal number) L k ⁇ 1 obtained by interpolation according to the equation (10), and (k ⁇ 1) The cost function E k ⁇ 1 at is calculated.
- the calculation unit 304 calculates and stores only the numerator term U k of the cost function.
- the search unit 204 is a coefficient (number) assigned to each adaptive codebook vector (a plurality of code vectors), and the coefficient k synchronized with the time lag is an even number or a value corresponding to the end of the search loop.
- the denominator term of the cost function in the code vector corresponding to the coefficient k is obtained by calculation, and when the coefficient k is an odd number, the denominator term of the cost function in the code vector corresponding to the coefficient k corresponds to the coefficient (k ⁇ 1). It is obtained by interpolation using the denominator term of the cost function in the code vector and the denominator term of the cost function in the code vector corresponding to the coefficient (k + 1).
- the search unit 204 calculates a denominator term of the cost function for some code vectors out of the adaptive codebook vector (a plurality of code vectors), and a part of the denominator term for the cost function obtained by the calculation.
- the denominator term of the cost function is obtained by interpolation using the denominator term calculated with the partial code vector.
- the calculation unit 304 performs the calculation of the denominator term of the cost function E k for every other adaptive codebook vector (when k is an even number in Expression (10)). in the product sum computation times for the denominator (power) calculation of the cost function E k is half, and, by performing interpolation denominator by averaging the reciprocal of the denominator of the cost function E k, cost The number of times of calculating the reciprocal of the denominator term of the function E k is also halved. In general (that is, when the denominator term is not thinned out), the interpolation method as described above is not performed on the denominator term (power) of the cost function E k .
- the inventor of the present invention pays attention to the fact that the denominator term of the cost function changes sufficiently slowly as each lag changes in the search loop of the adaptive codebook. We found that it is possible to use the denominator interpolation method. The inventor of the present invention has confirmed that there is no particular inconvenience caused by using this denominator interpolation method.
- the comparison unit 206 of the search unit 204 compares the cost functions E k sequentially calculated by the calculation unit 304, and holds the largest value E k and the coefficient k among the calculated cost functions. Then, comparison section 206, the result of the adaptive codebook search, the coefficient k of the highest cost function E k, the number k of the optimum adaptive codebook vector.
- the update unit 305 of the search unit 204 updates the composite vector y k (n) according to the following equation (11). That is, as shown in Expression (11), the update unit 305 determines the difference (u ( ⁇ k) M () between the previous number (k ⁇ 1) and the combined vector y k ⁇ 1 (n ⁇ 1). Update the composite vector y k (n) by calculating only n)).
- the search unit 204 obtains and outputs an index (a code, that is, an optimal adaptive codebook vector number k).
- FIG. 9 shows the result of the encoding simulation showing the effect of the present invention.
- FIG. 9 shows an average value of 16 pieces of audio data with a sampling rate of 16 kHz to which various environmental noises are added.
- the original (conventional method) codec shown in FIG. It is a 718-compliant floating point simulator and has a bit rate of 8 kbps.
- the calculation amount (WMOPS: Weighted Mega Operation Per Second) shown in FIG. 9 is an aggregation of operations only for the portion related to the adaptive codebook search.
- the speech quality (S / N ratio and segmental S / N ratio) is higher than when the original encoding apparatus is used. While almost no deterioration is observed, the calculation amount is greatly reduced to about 3/5. That is, application of filtering to impulse response, reduction of impulse response order (use of convolution vector for search), non-use of square root in cost function during adaptive codebook search, and denominator of cost function during adaptive codebook search It was verified that the amount of calculation at the time of adaptive codebook search can be significantly reduced by thinning out the term (power) calculation without significantly degrading the speech quality.
- Audio data without noise condition: clean
- voice data with office noise added condition: office noise
- voice data with music added to the background condition: background music
- Voice data to which bubble noise (colored noise) is added condition: bubble noise
- the evaluation targets are 8 audio data of “condition: clean”, 2 audio data of “condition: office noise”, 2 audio data of “condition: background music”, and “condition: bubble noise”. And two pieces of voice data of “condition: interfering speaker”.
- a paired comparison test (a method in which the subject compares the original and the present invention and compares which is better) was used. Further, there are five evaluation stages (1: original is good, 2: original is slightly good, 3: neither can be said, 4: the present invention is slightly good, and 5: the present invention is good). There are three subjects (subjects A, B, and C).
- FIG. 10 The evaluation results for each of subjects A, B, and C are shown in FIG. As shown in FIG. 10, there is almost no overall superiority between the original and the present invention for each subject. Moreover, the evaluation result of each test subject for every environmental condition is shown in FIG. As shown in FIG. 11, the original and the present invention have almost no superiority or inferiority in each environmental condition.
- the present embodiment as in the first embodiment, by applying a filter having a low-pass characteristic to the impulse response, it is possible to perform down-sampling with almost no deterioration in voice quality due to the low-pass characteristic. It becomes. Thereby, the calculation amount required for the product-sum calculation at the time of codebook search can be reduced.
- the impulse response of the auditory weighted synthesis filter has a large amplitude up to high-order components due to a large low-frequency wave. From this, as in the first embodiment, by applying a filter having a high-pass characteristic to the impulse response, the impulse response components can be collected into low-order components by the high-pass characteristic. Therefore, according to the present embodiment, it is possible to reduce the amount of calculation required for convolution of the impulse response and the codebook vector by cutting out only the low-order part of the impulse response.
- the denominator (power) calculation of the cost function used at the time of codebook search is thinned out, and the value of the thinned denominator term is interpolated by the denominator terms calculated before and after.
- the calculation amount of the denominator term can be reduced without degrading the accuracy of the cost function at the time of codebook search.
- the square root (special function) is not used in the cost function (formula (7)) used at the time of codebook search. Therefore, the calculation required for the calculation of the special function can be omitted, and the calculation amount required for the codebook search can be reduced.
- the amount of calculation of the voice codec can be greatly reduced by the reduction of the above four amounts of calculation. Therefore, according to the present embodiment, it is possible to further reduce the calculation amount of the voice codec as compared with the first embodiment without substantially degrading the voice quality.
- the present embodiment the case where a bandpass filter having weaker characteristics (low-pass characteristics and high-pass characteristics) than that in the first embodiment is described.
- a bandpass filter instead of a bandpass filter, a low-pass filter and a high-pass filter are used. May be used in combination.
- the order of the bandpass filter is the third order as shown in Expression (8).
- the present invention is not limited to this, and the order of the bandpass filter may be another order.
- the search for an adaptive codebook in CELP is described as an example.
- the present invention can be applied to any spectrum quantization method using vector quantization, not limited to CELP.
- the present invention may be applied to a spectral quantization method using MDCT (Modified Discrete Cosine Transform) or QMF (Quadrature Mirror Filter).
- MDCT Modified Discrete Cosine Transform
- QMF Quadrature Mirror Filter
- the vector quantization device in the above embodiment or a speech coding device including the vector quantization device can be applied to a base station device or a terminal device.
- the present invention is not limited to this, and can also be realized by software.
- the algorithm according to the present invention is described in a programming language, and this program is stored in a memory and executed by an information processing means, so that it is the same as the vector quantization apparatus or the speech encoding apparatus according to the present invention. Function can be realized.
- each functional block in the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
- the LSI may be referred to as an IC, a system LSI, a super LSI, an ultra LSI, or the like depending on the degree of integration.
- the method of circuit integration is not limited to LSI, and implementation with a dedicated circuit or a general-purpose processor is also possible.
- An FPGA Field Programmable Gate Array
- a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI may be used.
- the vector quantization apparatus and vector quantization method according to the present invention are particularly suitable for speech codecs using CELP.
- CELP encoding apparatus 101 LPC analysis part 102 LPC quantization part 103 Adaptive codebook 104 Fixed codebook 105 Gain codebook 106,107 Multiplier 108,110 Adder 109 LPC synthesis filter 111 Auditory weighting part 112 Distortion minimizing part 201 , 302 Filtering unit 202 Shortening unit 203 Convolution unit 204 Search unit 205, 304 Calculation unit 206 Comparison unit 207, 305 Update unit 301 Convolution vector calculation unit for search 303 Extraction unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
広帯域のディジタル信号を符号化する場合に、音声品質を劣化させることなく、音声コーデックの計算量を削減することができるベクトル量子化装置。ベクトル量子化装置(112)は、聴感重み付き合成フィルタのインパルス応答が畳み込まれた、符号帳を構成する複数のコードベクトルと、ターゲットベクトルとを用いて符号帳の探索を行う。フィルタリング部(201)は、インパルス応答に、ローパス特性及びハイパス特性の一方または双方を有するフィルタを掛け、短縮部(202)は、フィルタがハイパス特性を有する場合、フィルタリング後のインパルス応答の次数を短縮し、畳込部(203)は、複数のコードベクトルそれぞれに、フィルタリング後のインパルス応答を畳み込み、探索部(204)は、フィルタがローパス特性を有する場合、インパルス応答が畳み込まれた複数のコードベクトルそれぞれの要素、及び、ターゲットベクトルの要素を間引いて探索を行う。
Description
本発明は、ベクトル量子化装置及びベクトル量子化方法に関する。
移動体通信においては伝送帯域の有効利用のために音声または画像のディジタル情報の圧縮符号化が必須である。その中でも携帯電話で広く利用されている音声コーデック(符号化/復号)技術に対する期待は大きく、圧縮率の高い従来の高効率符号化に更によりよい音質の要求が強まっている。また、音声通信は公衆で使用されるため、標準化が必須であり、それに伴う知的財産権の価値の大きさゆえに世界各国の企業において研究開発が盛んに行われている。
近年、多層構造を持つスケーラブルコーデックは、ITU-T(International Telecommunication Union - Telecommunication Standardization Sector)およびMPEG(Moving Picture Experts Group)で標準化が検討されており、より効率的で高品質の音声コーデックが求められている。
20年前に確立された音声の発声機構をモデル化してベクトル量子化を応用した基本方式であるCELP(Code Excited Linear Prediction)によって大きく性能を向上させた音声符号化技術は、ITU-T標準G.729またはETSI標準AMR(Adaptive Multi-Rate)等の標準方式として広く使用されている(例えば、非特許文献1参照)。また、3GPP2標準VMR-WB(Variable-Rate Multimode Wideband)では、電話帯域(Narrow Band:200Hz~3.4kHz)以上の広帯域(Wide Band:0Hz~7kHz)の音声を、CELPを用いて符号化する方式が標準化されている(例えば、非特許文献2参照)。
ITU-T標準G.729
"Source-Controlled-Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service options 62 and 63 for Spread Spectrum Systems", 3GPP2 C.S0052-A, April 2005.
しかしながら、広帯域のディジタル信号をCELPで符号化すると、従来の電話帯域の信号よりもサンプリングレートが高い分だけ計算量が増加してしまう。特に、CELPにおける適応符号帳の探索は、固定符号帳の探索と比較して計算量削減が進んでいない。例えば、VMR-WBの規格書(非特許文献2)に記載されている適応符号帳探索(式(5.16.1-1)および式(5.16.1-2))は、VMR-WBの規格書よりも以前に標準化されたITU-T標準G.729の規格書(非特許文献1)に記載されている適応符号帳探索(3.7章:式(37)および式(38))とほぼ同一である。すなわち、VMR-WBは、ITU-T標準G.729と比較して倍近くのサンプル数を扱うアルゴリズムでありながら、適応符号帳探索において技術的進歩がほとんど無かったことがわかる。
そのため、広帯域化により音声品質は向上するものの、適応符号帳探索に必要となる計算量が大きいため、コーデックの計算量が多くなり、実用化のコストが格段に大きくなるという重大な問題を有している。
本発明の目的は、広帯域のディジタル信号を符号化する場合に、音声品質を劣化させることなく、音声コーデックの計算量を削減することができるベクトル量子化装置及びベクトル量子化方法を提供することである。
本発明のベクトル量子化装置は、複数のコードベクトルにより構成される符号帳の探索を行い、符号化歪みが最小となるコードベクトルを示す符号を得るベクトル量子化装置であって、聴感重み付き合成フィルタのインパルス応答を入力し、ローパス特性およびハイパス特性の一方または双方を有するフィルタを前記インパルス応答に掛けて第1信号を生成するフィルタリング手段と、前記複数のコードベクトルそれぞれに前記第1信号を畳み込んで第2信号を生成する畳込手段と、前記第2信号とターゲットベクトルとを用いて前記探索を行う探索手段と、を具備する構成を採る。
本発明のベクトル量子化方法は、複数のコードベクトルにより構成される符号帳の探索を行い、符号化歪みが最小となるコードベクトルを示す符号を得るベクトル量子化方法であって、ローパス特性およびハイパス特性の一方または双方を有するフィルタを、聴感重み付き合成フィルタのインパルス応答に掛けて第1信号を生成するフィルタリングステップと、前記複数のコードベクトルそれぞれに前記第1信号を畳み込んで第2信号を生成する畳込ステップと、前記第2信号とターゲットベクトルとを用いて前記探索を行う探索ステップと、を具備するようにした。
本発明によれば、音声品質をほとんど劣化させることなく、音声コーデックの計算量を削減することができる。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。以下の実施の形態においては、本発明のベクトル量子化装置を適応符号帳の量子化装置として用いた音声符号化装置の一例として、CELP符号化装置を用いる。
(実施の形態1)
図1は、本実施の形態に係るCELP符号化装置100の構成を示すブロック図である。
図1は、本実施の形態に係るCELP符号化装置100の構成を示すブロック図である。
図1において、CELP符号化装置100は、声道情報と音源情報とからなる音声信号を、声道情報については、LPCパラメータ(線形予測係数)を求めることにより符号化し、音源情報については、予め記憶されている音声モデルのいずれを用いるかを特定するインデックスを求めることにより符号化する。すなわち、音源情報については、適応符号帳103および固定符号帳104でどのような音源ベクトル(コードベクトル)を生成するかを特定するインデックス(符号)を求めることにより符号化する。
具体的には、CELP符号化装置100の各部は以下の動作を行う。
LPC分析部101は、音声信号に対して線形予測分析を施し、スペクトル包絡情報であるLPCパラメータを求め、求めたLPCパラメータをLPC量子化部102および聴感重み付け部111に出力する。
LPC量子化部102は、LPC分析部101から出力されたLPCパラメータを量子化し、得られた量子化LPCパラメータをLPC合成フィルタ109に出力し、量子化LPCパラメータのインデックスをCELP符号化装置100の外部へ出力する。
一方、適応符号帳103は、LPC合成フィルタ109で使用された過去の駆動音源を記憶しており、後述する歪み最小化部112から指示されたインデックスに対応する適応符号帳ラグに従って、記憶している駆動音源から1サブフレーム分の音源ベクトルを生成する。この音源ベクトルは、適応符号帳ベクトルとして乗算器106に出力される。
固定符号帳104は、所定形状の音源ベクトルを複数個予め記憶しており、歪み最小化部112から指示されたインデックスに対応する音源ベクトルを、固定符号帳ベクトルとして乗算器107に出力する。ここで、固定符号帳104は代数的音源であり、代数的符号帳を用いた場合について説明する。代数的音源とは、多くの標準コーデックに採用されている音源である。
なお、上記の適応符号帳103は、有声音のように周期性の強い成分を表現するために使われ、一方、固定符号帳104は、白色雑音のように周期性の弱い成分を表現するために使われる。
ゲイン符号帳105は、歪み最小化部112からの指示に従って、適応符号帳103から出力される適応符号帳ベクトル用のゲイン(適応符号帳ゲイン)、および固定符号帳104から出力される固定符号帳ベクトル用のゲイン(固定符号帳ゲイン)を生成し、それぞれ乗算器106、107に出力する。
乗算器106は、ゲイン符号帳105から出力された適応符号帳ゲインを、適応符号帳103から出力された適応符号帳ベクトルに乗じ、乗算後の適応符号帳ベクトルを加算器108に出力する。
乗算器107は、ゲイン符号帳105から出力された固定符号帳ゲインを、固定符号帳104から出力された固定符号帳ベクトルに乗じ、乗算後の固定符号帳ベクトルを加算器108に出力する。
加算器108は、乗算器106から出力された適応符号帳ベクトルと、乗算器107から出力された固定符号帳ベクトルとを加算し、加算後の音源ベクトルを駆動音源としてLPC合成フィルタ109に出力する。
LPC合成フィルタ109は、LPC量子化部102から出力された量子化LPCパラメータをフィルタ係数とし、適応符号帳103および固定符号帳104で生成される音源ベクトルを駆動音源としたフィルタ関数、すなわち、LPC合成フィルタを用いて合成信号を生成する。この合成信号は、加算器110に出力される。
加算器110は、LPC合成フィルタ109で生成された合成信号を音声信号から減算することによって誤差信号を算出し、この誤差信号を聴感重み付け部111に出力する。なお、この誤差信号が符号化歪みに相当する。
聴感重み付け部111は、加算器110から出力された符号化歪みに対して聴感的な重み付けを施し、歪み最小化部112に出力する。
歪み最小化部112は、聴感重み付け部111から出力された符号化歪みが最小となるような、適応符号帳103、固定符号帳104およびゲイン符号帳105の各インデックス(符号)をサブフレームごとに求め、これらのインデックスを符号化情報としてCELP符号化装置100の外部に出力する。より詳細には、上記の適応符号帳103および固定符号帳104に基づいて合成信号を生成し、この信号の符号化歪みを求める一連の処理は閉ループ制御(帰還制御)となっており、歪み最小化部112は、各符号帳に指示するインデックスを1サブフレーム内において様々に変化させることによって各符号帳を探索し、最終的に得られる、符号化歪みを最小とする各符号帳のインデックスを出力する。
なお、符号化歪みが最小となる際の駆動音源は、サブフレームごとに適応符号帳103へフィードバックされる。適応符号帳103は、このフィードバックにより、記憶されている駆動音源を更新する。
ここで、適応符号帳103の探索方法について説明する。一般的に、適応符号帳ベクトルと固定符号帳ベクトルとはオープンループで(別々のループで)探索され、音源ベクトルの探索とインデックス(符号)の導出とは以下の式(1)の符号化歪を最小化する音源ベクトルを探索することにより行われる。
E:符号化歪、x:符号化ターゲット(聴感重み付き音声信号)、p:適応符号帳ベクトル、H:聴感重み付き合成フィルタ(インパルス応答の行列)、g:適応符号帳ベクトルの理想ゲイン
ここで、ゲインgが理想ゲインであるとすると、上式(1)をgで偏微分した式が0になることからgを消去でき、上式(1)は、以下の式(2)のコスト関数に変形できる。なお、式(2)において添字tはベクトルの転置を示す。
つまり、上式(1)の符号化歪Eを最小にする適応符号帳ベクトルpは、上式(2)のコスト関数を最大にするものである。ただし、符号化ターゲットxと、インパルス応答Hが畳み込まれた適応符号帳ベクトル(合成された適応符号帳ベクトル)Hpとが正の相関を持つ場合に限定するために、式(2)の分子項を2乗せずに、分母項の平方根を取ることとする。すなわち、式(2)の分子項は、符号化ターゲットxと、合成された適応符号帳ベクトルHpとの相関値を表し、式(2)の分母項は、合成された適応符号帳ベクトルHpのパワの平方根を表す。
よって、適応符号帳103の探索の際、CELP符号化装置100は、上式(2)に示すコスト関数を最大にする適応符号帳ベクトルpを探索し、コスト関数を最大にする適応符号帳ベクトルのインデックス(符号)を、CELP符号化装置100の外部へ出力する。
次に、図2は、本実施の形態に係る歪み最小化部112の内部構成のうち、適応符号帳探索に係る構成を示すブロック図である。つまり、図2は、本発明に係るベクトル量子化装置(適応符号帳の量子化装置)を内部構成の一部として備えた歪み最小化部112の一例を示すブロック図である。
図2に示すベクトル量子化装置には、聴感重み付け部111において聴感的な重み付けが施された符号化歪み(適応符号帳探索のターゲットベクトル)、および、聴感重み付け部111における合成フィルタ(聴感重み付き合成フィルタ)のインパルス応答が入力される。
図2において、フィルタリング部201は、聴感重み付き合成フィルタのインパルス応答に、バンドパスフィルタを掛ける。具体的には、フィルタリング部201は、インパルス応答に、FIR(Finite Impulse Response)フィルタの係数を畳み込む。そして、フィルタリング部201は、フィルタリング後の聴感重み付き合成フィルタのインパルス応答(第1信号)を短縮部202に出力する。ここで、本実施の形態で使用するバンドパスフィルタの伝達関数の一例を以下の式(3)に示し、式(3)に示す伝達関数の周波数特性を図4に示す。
図4に示す周波数特性では、2kHz付近から0Hzに向かってハイパス特性が有ることが分かる。また、図4に示す周波数特性では、4kHz付近から8kHzに向かってローパス特性が有ることが分かる。つまり、フィルタリング部201におけるバンドパスフィルタは、ローパス特性およびハイパス特性の双方を有する。なお、聴感重み付き合成フィルタのインパルス応答にバンドパスフィルタを掛ける際の計算量をできるだけ少なくするべく、低次元(4次)のバンドパスフィルタとしたため、図4に示す周波数特性において6kHzから8kHzまでの間に透過特性が有る。しかし、聴感重み付き合成フィルタのインパルス応答には、この周波数帯域(6kHz~8kHz)の成分があまり含まれていないため、透過特性による大きな影響は受けない。
ここで、有声性の有る信号では低周波数領域で周期性を安定して分析することができる。従って、フィルタリング部201がインパルス応答にバンドパスフィルタ(式(3)、図4)を掛けることで、フィルタのローパス特性により、音声品質をほとんど劣化させずにダウンサンプリングを行うことが可能となる。これにより、ターゲットベクトルと、インパルス応答が畳み込まれた適応符号帳ベクトル(合成された適応符号帳ベクトル)との相関値、および、合成された適応符号帳ベクトルのパワをより少ない積和数で求めることができる。このため、適応符号帳探索における計算量を、音声品質をほとんど劣化させずに削減することができる。
また、聴感重み付き合成フィルタのインパルス応答には低周波の大きな波が存在し、高次数成分に低周波数領域の大きな振幅を有する。そこで、フィルタリング部201がインパルス応答にバンドパスフィルタ(式(3)、図4)を掛けることで、フィルタのハイパス特性により、インパルス応答の成分を低次数成分に集めることができる。よって、インパルス応答の成分を低次の部分のみに短縮することにより、インパルス応答と適応符号帳ベクトルとの畳み込みに要する計算量を削減することが可能となる。
短縮部202は、フィルタリング部201から入力される、フィルタリング後の聴感重み付き合成フィルタのインパルス応答の成分を、低次の部分のみに短縮する。例えば、聴感重み付け部111から入力されるインパルス応答の次数を、フレームの次数と同一の64次(0番目~63番目)とする。このとき、短縮部202は、フィルタリング部201から入力されるインパルス応答を、0番目~23番目までの24次のみに短縮する。以下の説明では、低次の部分のみに短縮されたインパルス応答を「改良インパルス応答(または、短縮信号)」と呼ぶ。そして、短縮部202は、改良インパルス応答(短縮信号)を、畳込部203および探索部204に出力する。
畳込部203は、以下の式(4)に従って、適応符号帳103から入力される適応符号帳ベクトル(適応符号帳のコードベクトル)全体に対して、短縮部202から入力される改良インパルス応答(短縮信号)を畳み込む。
y0(n):合成された最初の適応符号帳ベクトル
u(Tstart+i):適応符号帳ベクトル(適応符号帳のコードベクトル)
Tstart:コードベクトルとして最初に用いられるラグ(ピッチディレイ)
H(n-i):改良インパルス応答
u(Tstart+i):適応符号帳ベクトル(適応符号帳のコードベクトル)
Tstart:コードベクトルとして最初に用いられるラグ(ピッチディレイ)
H(n-i):改良インパルス応答
そして、畳込部203は、得られる、合成された最初の適応符号帳ベクトルy0(n)(第2信号)を、探索部204に出力する。
探索部204には、様々な適応符号帳ベクトルが適応符号帳103から入力される。図3は、図2における探索部204の内部構成の一例を示すブロック図である。探索部204は、計算部205、比較部206および更新部207の3つの構成部から成り、各構成部における3つの過程により、適応符号帳ベクトルの量子化(符号化)を行う。
探索部204の計算部205は、畳込部203から入力される、合成された適応符号帳ベクトル(第2信号)、および、聴感重み付け部111から入力されるターゲットベクトルを用いて、以下の式(5)に示すコスト関数Ek(k:適応符号帳ベクトルの番号)を算出する。ただし、ターゲットベクトルと、合成された適応符号帳ベクトルとが正の相関を持つ場合に限定するために、式(5)の分子項を2乗せずに、分母項の平方根を取ることとする。すなわち、式(5)の分子項は、ターゲットベクトルxと、合成された適応符号帳ベクトルykとの相関値を表し、式(5)の分母項は、合成された適応符号帳ベクトルykのパワの平方根を表す。
x(2n):ターゲットベクトル
yk(2n):合成された適応符号帳ベクトル
yk(2n):合成された適応符号帳ベクトル
ここで、合成された適応符号帳ベクトルyk(2n)は、改良インパルス応答で合成されているので、上式(5)では積和計算を間引くことができる。つまり、計算部205は、式(5)に示すように、適応符号帳ベクトル(コードベクトル)ykの要素およびターゲットベクトルxの要素を間引いて、コスト関数を計算する。本実施の形態では、1サンプル置き(つまり、2n(n=0,1,…,31))に積和を取ることとする。すなわち、積和数は、1サンプル毎(n=0,1,…,63)に積和を取る場合、つまり、積和計算を間引かない場合の1/2(つまり、間引き率が1/2)となる。VMR-WBの規格書(非特許文献2)に記載されている関数Tkの式(5.16.1-1)と比較すると、本発明におけるコスト関数Ekの積和計算の対象(n=0~31のみ)が削減されていることが明らかである。
探索部204の比較部206は、計算部205で順次算出されるコスト関数Ekを比較し、算出されたコスト関数の中で最も大きい値Ekおよびその係数kを保持する。そして、比較部206は、適応符号帳探索の結果、最も大きいコスト関数Ekの係数kを、最適な適応符号帳ベクトルの番号kとする。
探索部204の更新部207は、以下の式(6)に従って、合成された適応符号帳ベクトルyk(n)を更新する。すなわち、更新部207は、式(6)に示すようにして、1つ前の番号(k-1)の合成された適応符号帳ベクトルyk-1(n-1)との差分(u(-k)H(n))だけを計算することにより、合成された適応符号帳ベクトルyk(n)を更新する。本実施の形態では、64次から24次に短縮された改良インパルス応答Hを用いるため、式(6)に示すように、積和計算はn=0~23のみで行われる。ここで、VMR-WBの規格書(非特許文献2)に記載されている式(5.16.1-2)と比較すると、本発明の式(6)では積和計算の対象(n=0~23のみ)が削減されていることが明らかである。
以上のようにして、探索部204は、インデックス(符号、つまり、最適な適応符号帳ベクトルの番号k)を求め、出力する。
次に、本発明の効果を示す符号化シミュレーションの結果を図5に示す。図5では、様々な環境騒音が付加された16個の音声データの平均値を示す。また、図5に示すオリジナル(従来方法)のコーデックは、ITU-T標準G.718準拠の浮動小数点シミュレータであり、ビットレートを12kbpsとする。また、図5に示す計算量(WMOPS:Weighted Mega Operation Per Second)は、適応符号帳探索に係る部分のみのオペレーションを集計したものである。
図5に示すように、本発明に係る符号化装置を用いた場合には、オリジナルの符号化装置を用いた場合と比較して音声品質(S/N比)の劣化は見られない(若干向上している)のに対して、計算量は約2/3と大きく削減されている。すなわち、インパルス応答に対してフィルタリングを適用して、インパルス応答の次数を短縮(改良インパルス応答の使用)し、かつ、適応符号帳探索時のコスト関数の積和計算を間引くことで、音声品質を劣化させずに、適応符号帳探索時の計算量を大幅に削減できることが検証された。
また、音声の環境条件によって音声品質の劣化が生じないことを検証するための符号化シミュレーションの結果を図6に示す。図6に示すオリジナル(従来方法)のコーデックは、図5と同様、ITU-T標準G.718準拠の浮動小数点シミュレータであり、ビットレートを12kbpsとする。また、図6では、環境条件として、図5と同様の様々な環境騒音が付加された16個の音声データの平均値(条件:16音声平均)、ノイズ無しの音声データ(条件:クリーン)、走行中の車の騒音が付加された音声データ(条件:カーノイズ)およびバブルノイズ(有色ノイズ)が付加された音声データ(条件:バブルノイズ)を用いる。
図6に示すように、(条件:カーノイズ)では、本発明の符号化装置を用いた場合には、オリジナルの符号化装置を用いた場合と比較して音声品質(S/N比)が僅かに下回るものの、全体的に音声品質の劣化はほとんど見られない。すなわち、いずれの環境条件においても音声品質の劣化が見られず、本発明の頑健性が検証された。
以上のように本実施の形態によれば、有声性のある信号では低周波数領域で安定して周期性を分析できることから、インパルス応答にローパス特性を有するフィルタを掛けることで、ローパス特性により、音声品質をほとんど落とさずにダウンサンプリングを行うことが可能となる。これにより、符号帳探索時の積和計算に要する計算量を削減することができる。また聴感重み付き合成フィルタのインパルス応答は低周波の大きな波により高次数成分まで大きな振幅を持つ。このことから、インパルス応答にハイパス特性を有するフィルタを掛けることで、ハイパス特性により、インパルス応答の成分を低次数成分に集めることができ、インパルス応答を低次の部分だけに短縮することができる。これにより、インパルス応答と符号帳ベクトルとの畳み込みに要する計算量を削減することができる。つまり、前記2つの計算量の削減により音声コーデックの計算量の大幅な削減が可能となる。
具体的には、本実施の形態によれば、聴感重み付き合成フィルタのインパルス応答に対して、ローパス特性およびハイパス特性を有するフィルタを畳み込む。これにより、CELP符号化装置では、フィルタのローパス特性によりダウンサンプリングを行うことで、コスト関数(式(5))の積和計算において積和を取る対象を間引くことができるため、適応符号帳探索時の計算量を削減することができる。さらに、CELP符号化装置では、フィルタのハイパス特性によりインパルス応答の次数を短縮することで、合成された適応符号帳ベクトルを算出する際(式(6))の積和を取る対象を削減できるため、適応符号帳探索時の計算量を削減することができる。よって、本実施の形態によれば、広帯域のディジタル信号をCELPで符号化する場合でも、音声品質を劣化させることなく、音声コーデックの計算量を削減することができる。
なお、本実施の形態では、フレームの次数を64次とし、インパルス応答の短縮数(短縮後の次数)を24次とし、積和計算の間引き率を1/2とする場合について説明した。しかし、これらの数値は一例であり、他のどのような仕様においても本発明を適用することができる。
また、本実施の形態では、ローパス特性およびハイパス特性を有するバンドパスフィルタを用いる場合について説明したが、バンドパスフィルタの代わりに、ローパスフィルタとハイパスフィルタとを組み合わせて用いてもよい。また、本実施の形態では、ローパス特性およびハイパス特性の双方を有するフィルタを用いる場合について説明したが、ローパス特性およびハイパス特性のいずれか一方を有するフィルタを用いてもよい。つまり、図2に示す短縮部202は、フィルタリング部201のフィルタがハイパス特性を有する場合、フィルタリング後のインパルス応答の次数を短縮すればよい。同様に、図2に示す探索部204(計算部205)は、フィルタリング部201のフィルタがローパス特性を有する場合、コスト関数(式(5))において、適応符号帳ベクトルの要素およびターゲットベクトルの要素を間引いて適応符号帳探索を行えばよい。また、本実施の形態では、バンドパスフィルタの次数を、式(3)に示すように4次としたが、本発明はこれに限らず、バンドパスフィルタの次数を他の次数としてもよい。
また、探索部204の計算部205において式(5)に示すコスト関数の分子を相関値とし、分母をパワの平方根とした場合について説明した。しかし、本発明では、コスト関数の分子を相関値の2乗とし、分母をパワとしてもよい。さらに、正の相関を持つ場合にアドバンテージを持たせる場合には、コスト関数において、相関値の2乗に相関値の極性(+-)を乗ずればよい。また、この場合には、コスト関数において平方根を取らないため、計算量をさらに削減することができる。
また、本実施の形態では、適応符号帳の量子化(符号化)に本発明を適用する場合について説明した。しかし、適応符号帳に限らず、例えば、固定符号帳に対しても本発明を適用することができる。また、ローパス特性を持つフィルタ(本実施の形態では図4に示す特性を有するバンドパスフィルタ)の使用、および、探索部204の計算部205におけるコスト関数の計算方法(積和計算を間引くアルゴリズム)は、CELPにおける適応符号帳探索のピッチの限定における前処理として行われるオープンループピッチ探索に用いることができる。
(実施の形態2)
まず、本実施の形態に係るCELP符号化装置100の適応符号帳103(図1)の探索方法について説明する。実施の形態1と同様、適応符号帳ベクトルと固定符号帳ベクトルとはオープンループで(別々のループで)探索され、音源ベクトルの探索とインデックス(符号)の導出は式(1)の符号化歪を最小化する音源ベクトルを探索することにより行われる。
まず、本実施の形態に係るCELP符号化装置100の適応符号帳103(図1)の探索方法について説明する。実施の形態1と同様、適応符号帳ベクトルと固定符号帳ベクトルとはオープンループで(別々のループで)探索され、音源ベクトルの探索とインデックス(符号)の導出は式(1)の符号化歪を最小化する音源ベクトルを探索することにより行われる。
また、式(1)において、ゲインgが理想ゲインであるとすると、式(1)をgで偏微分した式が0になることからgを消去でき、式(1)は、式(2)のコスト関数に変形できる。つまり、式(1)の符号化歪Eを最小にする適応符号帳ベクトルpは、式(2)のコスト関数を最大にするものである。
ここで、実施の形態1では、符号化ターゲットxと、インパルス応答Hが畳み込まれた適応符号帳ベクトル(合成された適応符号帳ベクトル)Hpとが正の相関を持つ場合に限定するために、式(2)の分子項を2乗せずに、分母項の平方根を取ることとした。
これに対して、本実施の形態では、次式(7)に示すように、式(2)のような平方根の計算を行わない。具体的には、式(7)に示すコスト関数の分子項では、聴感重み付き合成フィルタのインパルス応答を用いて求められる探索用畳み込みベクトルMが畳み込まれた適応符号帳ベクトル(合成ベクトル)Mpが計算される。そして、式(7)に示すコスト関数の分子項は、合成ベクトル(Mp)と符号化ターゲット(x)とを乗じた相関値(xtMp)に、その相関値の絶対値(|xtMp|)を乗じることにより得られる。また、式(7)に示すコスト関数の分母項は、合成ベクトル(Mp)のパワ(ptMtMp)を計算することにより得られる。
M:探索用畳み込みベクトルの畳み込みマトリクス
式(7)に示すコスト関数の計算により、式(2)に示すコスト関数のように「平方根」という特殊関数を計算することなく、かつ、符号化ターゲットxと合成ベクトルMpとが正の相関を持つ場合に限定することができる。
そして、適応符号帳103の探索の際、CELP符号化装置100は、上式(7)に示すコスト関数を最大にする適応符号帳ベクトルpを探索し、コスト関数を最大にする適応符号帳ベクトルのインデックス(符号)を、CELP符号化装置100の外部へ出力する。
次に、図7は、本実施の形態に係るCELP符号化装置100(図1)の歪み最小化部112の内部構成のうち、適応符号帳探索に係る構成を示すブロック図である。つまり、図7は、本発明に係るベクトル量子化装置(適応符号帳の量子化装置)を内部構成の一部として備えた歪み最小化部112の一例を示すブロック図である。なお、図7において、実施の形態1(図2)と同一の構成要素には同一の符号を付しその説明を省略する。
図7に示すベクトル量子化装置には、聴感重み付け部111(図1)において聴感的な重み付けが施された符号化歪み(適応符号帳探索のターゲットベクトル)、および、聴感重み付け部111における合成フィルタ(聴感重み付き合成フィルタ)のインパルス応答が入力される。
図7において、探索用畳み込みベクトル計算部301は、フィルタリング部302及び切出部303で構成され、聴感重み付き合成フィルタのインパルス応答を用いて、探索用畳み込みベクトルの畳み込みマトリクス(式(7)に示すM)を計算する。
具体的には、探索用畳み込みベクトル計算部301のフィルタリング部302は、聴感重み付き合成フィルタのインパルス応答に、フィルタを掛ける。具体的には、フィルタリング部302は、インパルス応答に、FIRフィルタの係数を畳み込む。そして、フィルタリング部301は、フィルタリング後の聴感重み付き合成フィルタのインパルス応答(第1信号)を切出部302に出力する。ここで、本実施の形態で使用するフィルタの伝達関数の一例を以下の式(8)に示す。なお、式(8)に示す伝達関数の周波数特性は、実施の形態1の式(3)(図4)に示す周波数特性よりも特性(ローパス特性又はハイパス特性)が弱い。
フィルタリング部302において、インパルス応答に式(8)に示す伝達関数を有するフィルタを掛けることで、フィルタのハイパス特性により、出力ベクトルの成分を低次数成分に集めることができる。よって、探索用畳み込みベクトルを低次部分のみに短く限定することにより、インパルス応答と適応符号帳ベクトルとの畳み込みに要する計算量を削減することが可能となる。
切出部303は、フィルタリング部302から入力される、フィルタリング後の聴感重み付き合成フィルタのインパルス応答(第1信号)の低次部分を切り出して、切り出した部分を探索用畳み込みベクトル(M)(または、部分信号と呼ぶ。)とする。例えば、聴感重み付け部111から入力されるインパルス応答の次数を、フレームの次数と同一の64次(0番目~63番目)とする。このとき、切出部303は、例えば、フィルタリング部302から入力されるインパルス応答のうち0番目~23番目までの24次を切り出し、0番目~23番目までの24次を探索用畳み込みベクトル(部分信号)とする。そして、切出部303は、探索用畳み込みベクトル(部分信号)を、畳込部203および探索部204に出力する。
畳込部203は、以下の式(9)に従って、適応符号帳103から入力される適応符号帳ベクトル(適応符号帳のコードベクトル)全体に対して、切出部303から入力される探索用畳み込みベクトル(部分信号)を畳み込む。つまり、畳込部203は、切出部303において切り出された、フィルタリング後の聴感重み付き合成フィルタのインパルス応答の低次部分を用いて畳み込みを行う。
y0(n):合成された最初の適応符号帳ベクトル(合成ベクトルの初期ベクトル)
u(Tstart+i):適応符号帳ベクトル(適応符号帳のコードベクトル)
Tstart:コードベクトルとして最初に用いられるラグ(ピッチディレイ)
M(n-i):探索用畳み込みベクトル
u(Tstart+i):適応符号帳ベクトル(適応符号帳のコードベクトル)
Tstart:コードベクトルとして最初に用いられるラグ(ピッチディレイ)
M(n-i):探索用畳み込みベクトル
そして、畳込部203は、得られる、合成された最初の適応符号帳ベクトルy0(n)(第2信号)を、探索部204に出力する。
探索部204には、様々な適応符号帳ベクトルが適応符号帳103から入力される。図8は、図7における探索部204の内部構成の一例を示すブロック図である。探索部204は、計算部304、比較部206および更新部305の3つの構成部から成り、各構成部における3つの過程により、適応符号帳ベクトルの量子化(符号化)を行う。
探索部204の計算部304は、畳込部203から入力される、合成された適応符号帳ベクトル、および、聴感重み付け部111から入力されるターゲットベクトルを用いて、コスト関数Ek(k:適応符号帳ベクトルの番号)を算出する。ただし、ターゲットベクトルと、合成ベクトルとが正の相関を持つ場合に限定する必要がある。そこで、本実施の形態では、計算部304は、式(7)を用いてコスト関数Ekの分子項及び分母項を計算する。
つまり、探索部204は、畳込部203においてフィルタリング後の聴感重み付き合成フィルタのインパルス応答(低次部分)が畳み込まれた適応符号帳ベクトル(複数のコードベクトル)とターゲットベクトルとの相関値(xtMp)で表される分子項、および、畳込部203においてフィルタリング後の聴感重み付き合成フィルタのインパルス応答(低次部分)が畳み込まれた適応符号帳ベクトル(複数のコードベクトル)のパワ(ptMtMp)で表される分母項、から成るコスト関数を用いて、適応符号帳の探索を行う。また、上記コスト関数において、分子項は相関値(xtMp)と相関値の絶対値(|xtMp|)との乗算により得られ、分母項はパワ(ptMtMp)の計算により得られる。
また、本実施の形態では、適応符号帳の探索ループにおいて2回に1回の割合(つまり、1つ置きの適応符号帳ベクトル)でコスト関数の分母項(合成ベクトルのパワ)を計算することで、コスト関数の分母項の積和計算を間引く。つまり、分母項を求めるための積和の数は、積和計算を間引かない場合の1/2(つまり、間引き率が1/2)となる。また、計算部304は、式(10)に従って、コスト関数の計算において積和計算が行われない適応符号帳ベクトルにおけるコスト関数の分母項(パワ)を、その適応符号帳ベクトルの前後の適応符号帳ベクトルにおけるコスト関数の分母項を用いた補間により求める。
Uk:コスト関数の分子項
Lk:コスト関数の分母項の逆数
x(n):ターゲットベクトル
yk(n):合成ベクトル
Lk:コスト関数の分母項の逆数
x(n):ターゲットベクトル
yk(n):合成ベクトル
式(10)に示すように、適応符号帳の探索ループにおけるループカウンタであり、適応符号帳ベクトルの番号とタイムラグとに同期する係数kが偶数または探索ループにおける最後の値である場合、計算部304は、コスト関数の分子項および分母項を計算する。なお、式(10)に示すようにコスト関数の分母項としては、分母項の逆数Lkが計算される。そして、計算部304は、式(10)に示すように、分子項Ukおよび分母項の逆数Lkを用いて、コスト関数Ekを計算する。
また、このとき、式(10)において係数kが最初の値でない場合には、kの1つ前の(k-1)において分母項(つまり、分母項の逆数)Lk-1が計算されなかった(間引かれた)ことになる。そこで、計算部304は、(k-1)の前後の、(k-2)における分母項の逆数Lk-2とkにおける分母項の逆数Lkとを用いた補間により、(k-1)における分母項の逆数Lk-1を求める。式(10)では、分母項の逆数Lk-1は、(k-1)の前後(つまり、(k-2)とk)の分母項の逆数の平均値となる。そして、計算部304は、式(10)に従って、積和計算により得られた分子項Uk-1および補間により得られた分母項(逆数)Lk-1を用いて、(k-1)におけるコスト関数Ek-1を計算する。
また、式(10)において係数kが奇数の場合、計算部304は、コスト関数の分子項Ukのみを計算して格納しておく。
換言すると、探索部204は、適応符号帳ベクトル(複数のコードベクトル)にそれぞれ付された係数(番号)であって、タイムラグに同期する係数kが偶数または探索ループの最後に対応する値の場合、係数kに対応するコードベクトルにおけるコスト関数の分母項を計算により求め、係数kが奇数の場合、係数kに対応するコードベクトルにおけるコスト関数の分母項を、係数(k-1)に対応するコードベクトルにおけるコスト関数の分母項および係数(k+1)に対応するコードベクトルにおけるコスト関数の分母項を用いた補間により求める。すなわち、探索部204は、適応符号帳ベクトル(複数のコードベクトル)のうち、一部のコードベクトルではコスト関数の分母項を計算により求め、コスト関数の分母項が計算により求められた一部のコードベクトル以外のコードベクトルでは、コスト関数の分母項を、上記一部のコードベクトルで計算された分母項を用いた補間により求める。
ここで、着目すべき点は、計算部304において、コスト関数Ekの分母項の計算が1つおきの適応符号帳ベクトル(式(10)ではkが偶数の場合)に対して行われることでコスト関数Ekの分母項(パワ)計算のための積和計算回数が半分となること、および、コスト関数Ekの分母項の逆数を平均して分母項の補間を行うことにより、コスト関数Ekの分母項の逆数を計算する回数も半分になっていることである。一般(つまり、分母項の間引きを行わない場合)には、コスト関数Ekの分母項(パワ)に対して上述したような補間方法が行われることはない。しかし、本発明の発明者は、適応符号帳の探索ループにおいて各ラグが推移していくとコスト関数の分母項が十分に緩慢に変化していくことに着目し、コスト関数の計算において上述した分母項の補間方法を用いることが可能であることを発見した。本発明の発明者は、この分母項の補間方法を用いることによる特別な不都合が無いことを確認してある。
探索部204の比較部206は、計算部304で順次算出されるコスト関数Ekを比較し、算出されたコスト関数の中で最も大きい値Ekおよびその係数kを保持する。そして、比較部206は、適応符号帳探索の結果、最も大きいコスト関数Ekの係数kを、最適な適応符号帳ベクトルの番号kとする。
探索部204の更新部305は、以下の式(11)に従って、合成ベクトルyk(n)を更新する。すなわち、更新部305は、式(11)に示すようにして、1つ前の番号(k-1)の合成ベクトルyk-1(n-1)との差分(u(-k)M(n))だけを計算することにより、合成ベクトルyk(n)を更新する。本実施の形態では、64次から24次に短縮された探索用畳み込みベクトルMを用いるため、式(11)に示すように、積和計算はn=0~23のみで行われる。ここで、VMR-WBの規格書(非特許文献2)に記載されている式(5.16.1-2)と比較すると、本発明の式(11)では積和計算の対象(n=0~23のみ)が削減されていることが明らかである。
以上のようにして、探索部204は、インデックス(符号、つまり、最適な適応符号帳ベクトルの番号k)を求め、出力する。
次に、本発明の効果を示す符号化シミュレーションの結果を図9に示す。図9では、様々な環境騒音が付加された、サンプリングレート16kHzの16個の音声データの平均値を示す。また、図9に示すオリジナル(従来方法)のコーデックは、ITU-T標準G.718準拠の浮動小数点シミュレータであり、ビットレートを8kbpsとする。また、図9に示す計算量(WMOPS:Weighted Mega Operation Per Second)は、適応符号帳探索に係る部分のみのオペレーションを集計したものである。
図9に示すように、本発明に係る符号化装置を用いた場合には、オリジナルの符号化装置を用いた場合と比較して音声品質(S/N比及びセグメンタルS/N比)の劣化はほぼ見られないのに対して、計算量は約3/5と大きく削減されている。すなわち、インパルス応答に対するフィルタリングの適用、インパルス応答の次数の短縮(探索用畳み込みベクトルの使用)、適応符号帳探索時のコスト関数における平方根の不使用、及び、適応符号帳探索時のコスト関数の分母項(パワ)計算の間引きにより、音声品質を大幅に劣化させずに、適応符号帳探索時の計算量を大幅に削減できることが検証された。
さらに、本発明の発明者は、音声の環境条件によって聴感的に音声品質の劣化が生じないことを検証するための試聴実験を行った。試聴実験の環境条件として、ノイズ無しの音声データ(条件:クリーン)、オフィスでの騒音が付加された音声データ(条件:オフィスノイズ)、背景に音楽が付加された音声データ(条件:背景音楽)、バブルノイズ(有色ノイズ)が付加された音声データ(条件:バブルノイズ)、及び、対象となる音声データに対して干渉となる音声が付加された音声データ(条件:干渉話者)の5つの環境条件を用いる。また、評価対象は、「条件:クリーン」の8個の音声データ、「条件:オフィスノイズ」の2個の音声データ、「条件:背景音楽」の2個の音声データ、「条件:バブルノイズ」の2個の音声データ、及び、「条件:干渉話者」の2個の音声データの16データとする。また、評価方法は、一対比較試験(被験者がオリジナル及び本発明を試聴してどちらがどれだけ良いかを比較する方法)を用いた。また、評価段階は5つ(1:オリジナルが良い、2:オリジナルが僅かに良い、3:どちらとも言えない、4:本発明が僅かに良い、5:本発明が良い)である。また、被験者は3人(被験者A,B,C)である。
被験者A,B,C毎の評価結果を図10に示す。図10に示すように、各被験者ともにオリジナルと本発明とで全体的にほとんど優劣がない。また、環境条件毎の各被験者の評価結果を図11に示す。図11に示すように、各環境条件においてもオリジナルと本発明とで全体的にほとんど優劣がない。
すなわち、図10及び図11に示すように、本発明を用いる場合でも、オリジナルと比較して、音声の環境条件によって聴感的に音声品質の劣化が生じないことが検証された。つまり、いずれの環境条件においても音声品質の劣化が見られず、本発明の頑健性が検証された。
以上のように本実施の形態によれば、実施の形態1と同様、インパルス応答にローパス特性を有するフィルタを掛けることで、ローパス特性により、音声品質をほとんど落とさずにダウンサンプリングを行うことが可能となる。これにより、符号帳探索時の積和計算に要する計算量を削減することができる。
また聴感重み付き合成フィルタのインパルス応答は低周波の大きな波により高次数成分まで大きな振幅を持つ。このことから、実施の形態1と同様、インパルス応答にハイパス特性を有するフィルタを掛けることで、ハイパス特性により、インパルス応答の成分を低次数成分に集めることができる。よって、本実施の形態によれば、インパルス応答の低次の部分だけを切り出すことにより、インパルス応答と符号帳ベクトルとの畳み込みに要する計算量を削減することができる。
また、本実施の形態によれば、符号帳探索時に用いるコスト関数の分母項(パワ)計算を間引き、かつ、間引かれた分母項の値を前後に計算された分母項で補間する。これにより、符号帳探索時のコスト関数の精度を劣化させることなく、分母項の計算量を削減することができる。
また、本実施の形態によれば、符号帳探索時に用いるコスト関数(式(7))において平方根(特殊関数)を使用しない。これにより、特殊関数の計算に必要な計算を省略することができ、符号帳探索時に要する計算量を削減することができる。
つまり、前記4つの計算量の削減により音声コーデックの計算量の大幅な削減が可能となる。よって、本実施の形態によれば、音声品質をほとんど劣化させることなく、音声コーデックの計算量を、実施の形態1よりもさらに削減することができる。
なお、本実施の形態では、フレームの次数を64次とし、探索用畳み込みベクトル長を24次とし、積和計算の間引き率を1/2とする場合について説明した。しかし、これらの数値は一例であり、他のどのような仕様においても本発明を適用することができる。
また、本実施の形態では、実施の形態1と比較して特性(ローパス特性およびハイパス特性)が弱いバンドパスフィルタを用いる場合について説明したが、バンドパスフィルタの代わりに、ローパスフィルタとハイパスフィルタとを組み合わせて用いてもよい。また、本実施の形態では、バンドパスフィルタの次数を、式(8)に示すように3次としたが、本発明はこれに限らず、バンドパスフィルタの次数を他の次数としてもよい。
以上、本発明の各実施の形態について説明した。
なお、上記実施の形態ではCELPにおける適応符号帳の探索を一例として説明したが、CELPに限らず、ベクトル量子化を用いたスペクトルの量子化方法であれば本発明を適用することができる。例えば、MDCT(Modified Discrete Cosine Transform)またはQMF(Quadrature Mirror Filter)を用いたスペクトル量子化方法に対して本発明を適用してもよい。また、帯域拡張技術における低周波数領域のスペクトルの中から類似するスペクトル形状を探索するアルゴリズムに対して本発明を適用することで、そのアルゴリズムの計算量削減に応用することもできる。
また、上記実施の形態におけるベクトル量子化装置、あるいは、これを含む音声符号化装置を、基地局装置あるいは端末装置に適用することも可能である。
また、上記実施の形態においては、ハードウェアで構成する場合を例に説明したが、本発明はこれに限らず、ソフトウェアで実現することも可能である。例えば、本発明に係るアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係るベクトル量子化装置あるいは音声符号化装置等と同様の機能を実現することができる。
また、上記実施の形態の各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。ここで、LSIは、集積度の違いによって、IC、システムLSI、スーパーLSIまたはウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2009年10月20日出願の特願2009-241616および2010年5月14日出願の特願2010-112374の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明にかかるベクトル量子化装置およびベクトル量子化方法は、特にCELPを用いた音声コーデックに好適である。
100 CELP符号化装置
101 LPC分析部
102 LPC量子化部
103 適応符号帳
104 固定符号帳
105 ゲイン符号帳
106、107 乗算器
108、110 加算器
109 LPC合成フィルタ
111 聴感重み付け部
112 歪み最小化部
201,302 フィルタリング部
202 短縮部
203 畳込部
204 探索部
205,304 計算部
206 比較部
207,305 更新部
301 探索用畳み込みベクトル計算部
303 切出部
101 LPC分析部
102 LPC量子化部
103 適応符号帳
104 固定符号帳
105 ゲイン符号帳
106、107 乗算器
108、110 加算器
109 LPC合成フィルタ
111 聴感重み付け部
112 歪み最小化部
201,302 フィルタリング部
202 短縮部
203 畳込部
204 探索部
205,304 計算部
206 比較部
207,305 更新部
301 探索用畳み込みベクトル計算部
303 切出部
Claims (12)
- 複数のコードベクトルにより構成される符号帳の探索を行い、符号化歪みが最小となるコードベクトルを示す符号を得るベクトル量子化装置であって、
聴感重み付き合成フィルタのインパルス応答を入力し、ローパス特性およびハイパス特性の一方または双方を有するフィルタを前記インパルス応答に掛けて第1信号を生成するフィルタリング手段と、
前記複数のコードベクトルそれぞれに前記第1信号を畳み込んで第2信号を生成する畳込手段と、
前記第2信号とターゲットベクトルとを用いて前記探索を行う探索手段と、
を具備するベクトル量子化装置。 - 前記第1信号の次数を短縮して短縮信号を生成する短縮手段を、さらに具備し、
前記畳込手段は、
前記第1信号の代わりに前記短縮信号を入力し、前記短縮信号を畳み込みに用いて前記第2信号を生成する、
請求項1記載のベクトル量子化装置。 - 前記探索手段は、
前記第2信号の要素、および、前記ターゲットベクトルの要素を間引いて前記探索を行う、
請求項1記載のベクトル量子化装置。 - 前記フィルタリング手段は、
CELPにおける適応符号帳の前記探索において、前記フィルタを、前記インパルス応答に掛ける、
請求項1記載のベクトル量子化装置。 - 前記第1信号の低次部分を切り出して部分信号を生成する切出し手段を、さらに具備し、
前記畳込手段は、
前記第1信号の代わりに前記部分信号を入力し、前記部分信号を畳み込みに用いて前記第2信号を生成する、
請求項1記載のベクトル量子化装置。 - 前記探索手段は、
前記第2信号と前記ターゲットベクトルとの相関値で表される分子項、および、前記第2信号のパワで表される分母項、から成る関数を用いて前記探索を行い、
前記関数において、
前記分子項は前記相関値と前記相関値の絶対値との乗算により得られ、前記分母項は前記パワの計算により得られる、
請求項5記載のベクトル量子化装置。 - 前記探索手段は、
前記複数のコードベクトルのうち、一部のコードベクトルでは前記分母項を計算により求め、前記一部のコードベクトル以外のコードベクトルでは、前記分母項を、前記一部のコードベクトルで計算された前記分母項を用いた補間により求める、
請求項6記載のベクトル量子化装置。 - 前記探索手段は、
前記複数のコードベクトルにそれぞれ付された係数であって、タイムラグに同期する係数kが偶数または前記探索の最後に対応する値の場合、前記係数kに対応するコードベクトルにおける前記分母項を計算により求め、前記係数kが奇数の場合、前記係数kに対応するコードベクトルにおける前記分母項を、係数(k-1)に対応するコードベクトルにおける前記分母項および係数(k+1)に対応するコードベクトルにおける前記分母項を用いた補間により求める、
請求項6記載のベクトル量子化装置。 - 請求項1記載のベクトル量子化装置を有する音声符号化装置。
- 請求項9記載の音声符号化装置を有する通信端末装置。
- 請求項9記載の音声符号化装置を有する基地局装置。
- 複数のコードベクトルにより構成される符号帳の探索を行い、符号化歪みが最小となるコードベクトルを示す符号を得るベクトル量子化方法であって、
ローパス特性およびハイパス特性の一方または双方を有するフィルタを、聴感重み付き合成フィルタのインパルス応答に掛けて第1信号を生成するフィルタリングステップと、
前記複数のコードベクトルそれぞれに前記第1信号を畳み込んで第2信号を生成する畳込ステップと、
前記第2信号とターゲットベクトルとを用いて前記探索を行う探索ステップと、
を具備するベクトル量子化方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011537141A JPWO2011048810A1 (ja) | 2009-10-20 | 2010-10-20 | ベクトル量子化装置及びベクトル量子化方法 |
US13/502,228 US20120203548A1 (en) | 2009-10-20 | 2010-10-20 | Vector quantisation device and vector quantisation method |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009-241616 | 2009-10-20 | ||
JP2009241616 | 2009-10-20 | ||
JP2010-112374 | 2010-05-14 | ||
JP2010112374 | 2010-05-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2011048810A1 true WO2011048810A1 (ja) | 2011-04-28 |
Family
ID=43900054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2010/006225 WO2011048810A1 (ja) | 2009-10-20 | 2010-10-20 | ベクトル量子化装置及びベクトル量子化方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20120203548A1 (ja) |
JP (1) | JPWO2011048810A1 (ja) |
WO (1) | WO2011048810A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2013129439A1 (ja) * | 2012-02-28 | 2015-07-30 | 日本電信電話株式会社 | 符号化装置、この方法、プログラム及び記録媒体 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0588699A (ja) * | 1991-09-30 | 1993-04-09 | Toshiba Corp | 音声駆動信号のベクトル量子化方式 |
WO2006049179A1 (ja) * | 2004-11-04 | 2006-05-11 | Matsushita Electric Industrial Co., Ltd. | ベクトル変換装置及びベクトル変換方法 |
JP2009241616A (ja) | 2008-03-28 | 2009-10-22 | Jtekt Corp | 車輪用軸受装置 |
JP2010112374A (ja) | 2008-11-05 | 2010-05-20 | General Electric Co <Ge> | シュラウド冷却に関連する方法及び装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE466824B (sv) * | 1990-08-10 | 1992-04-06 | Ericsson Telefon Ab L M | Foerfarande foer kodning av en samplad talsignalvektor |
US5195168A (en) * | 1991-03-15 | 1993-03-16 | Codex Corporation | Speech coder and method having spectral interpolation and fast codebook search |
EP0654909A4 (en) * | 1993-06-10 | 1997-09-10 | Oki Electric Ind Co Ltd | PREDICTIVE LINEAR ENCODER-ENCODER WITH CODES EXCITATION. |
EP1553564A3 (en) * | 1996-08-02 | 2005-10-19 | Matsushita Electric Industrial Co., Ltd. | Voice encoding device, voice decoding device, recording medium for recording program for realizing voice encoding /decoding and mobile communication device |
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
JP3881943B2 (ja) * | 2002-09-06 | 2007-02-14 | 松下電器産業株式会社 | 音響符号化装置及び音響符号化方法 |
KR101610765B1 (ko) * | 2008-10-31 | 2016-04-11 | 삼성전자주식회사 | 음성 신호의 부호화/복호화 방법 및 장치 |
-
2010
- 2010-10-20 WO PCT/JP2010/006225 patent/WO2011048810A1/ja active Application Filing
- 2010-10-20 US US13/502,228 patent/US20120203548A1/en not_active Abandoned
- 2010-10-20 JP JP2011537141A patent/JPWO2011048810A1/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0588699A (ja) * | 1991-09-30 | 1993-04-09 | Toshiba Corp | 音声駆動信号のベクトル量子化方式 |
WO2006049179A1 (ja) * | 2004-11-04 | 2006-05-11 | Matsushita Electric Industrial Co., Ltd. | ベクトル変換装置及びベクトル変換方法 |
JP2009241616A (ja) | 2008-03-28 | 2009-10-22 | Jtekt Corp | 車輪用軸受装置 |
JP2010112374A (ja) | 2008-11-05 | 2010-05-20 | General Electric Co <Ge> | シュラウド冷却に関連する方法及び装置 |
Non-Patent Citations (1)
Title |
---|
"Source-Controlled-Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service options 62 and 63 for Spread Spectrum Systems", 3GPP2 C.S0052-A, April 2005 (2005-04-01) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2013129439A1 (ja) * | 2012-02-28 | 2015-07-30 | 日本電信電話株式会社 | 符号化装置、この方法、プログラム及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2011048810A1 (ja) | 2013-03-07 |
US20120203548A1 (en) | 2012-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2234104B1 (en) | Vector quantizer, vector inverse quantizer, and methods therefor | |
EP2128858B1 (en) | Encoding device and encoding method | |
WO2008072701A1 (ja) | ポストフィルタおよびフィルタリング方法 | |
EP3511935A1 (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates | |
WO2009125588A1 (ja) | 符号化装置および符号化方法 | |
US11114106B2 (en) | Vector quantization of algebraic codebook with high-pass characteristic for polarity selection | |
US20100049508A1 (en) | Audio encoding device and audio encoding method | |
WO2011048810A1 (ja) | ベクトル量子化装置及びベクトル量子化方法 | |
JPH09127987A (ja) | 信号符号化方法及び装置 | |
CN106935243A (zh) | 一种基于melp的低比特数字语音矢量量化方法和系统 | |
JP3598111B2 (ja) | 広帯域音声復元装置 | |
JP3560964B2 (ja) | 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法 | |
JP2013101212A (ja) | ピッチ分析装置、音声符号化装置、ピッチ分析方法および音声符号化方法 | |
WO2012053149A1 (ja) | 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法 | |
JPH09127986A (ja) | 符号化信号の多重化方法及び信号符号化装置 | |
JP2004341551A (ja) | 広帯域音声復元方法及び広帯域音声復元装置 | |
JP2004355018A (ja) | 広帯域音声復元方法及び広帯域音声復元装置 | |
JP2004046238A (ja) | 広帯域音声復元装置及び広帯域音声復元方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10824662 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2011537141 Country of ref document: JP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 13502228 Country of ref document: US |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2010824662 Country of ref document: EP |