[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

EP1383109A1 - Method and device for wide band speech coding - Google Patents

Method and device for wide band speech coding Download PDF

Info

Publication number
EP1383109A1
EP1383109A1 EP02015918A EP02015918A EP1383109A1 EP 1383109 A1 EP1383109 A1 EP 1383109A1 EP 02015918 A EP02015918 A EP 02015918A EP 02015918 A EP02015918 A EP 02015918A EP 1383109 A1 EP1383109 A1 EP 1383109A1
Authority
EP
European Patent Office
Prior art keywords
filter
term
word
excitation
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP02015918A
Other languages
German (de)
French (fr)
Inventor
désignation de l'inventeur n'a pas encore été déposée La
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
STMicroelectronics NV
Original Assignee
STMicroelectronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by STMicroelectronics NV filed Critical STMicroelectronics NV
Priority to EP02015918A priority Critical patent/EP1383109A1/en
Priority to EP20030291747 priority patent/EP1383111A2/en
Priority to US10/622,021 priority patent/US7254534B2/en
Publication of EP1383109A1 publication Critical patent/EP1383109A1/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Definitions

  • the invention relates to speech encoding / decoding extended band, in particular but not limited to telephony mobile.
  • the bandwidth of the speech signal is between 50 and 7000 Hz.
  • Successive speech sequences sampled at one predetermined sampling frequency are processed in a coding device using a prediction linear excitation by coded sequences (ACELP: “algebraic-code-excited linear-prediction ”), well known to those skilled in the art, and described in particular in recommendation ITU-TG 729, version 3/96, titled “speech coding at 8 kbit / s by prediction linear with excitation by coded sequences with algebraic structure conjugate ”.
  • ACELP “algebraic-code-excited linear-prediction ”
  • the prediction coder CD of the ACELP type, is based on the linear predictive coding model with code excitation.
  • the coder operates on vocal superframes equivalent for example to 20 ms of signal and each comprising 320 samples.
  • the extraction of the linear prediction parameters i.e. the coefficients of the linear prediction filter also called short-term synthesis filter 1 / A (z), is carried out for each speech superframe.
  • each superframe is subdivided into 5 ms frames comprising 80 samples.
  • the voice signal is analyzed to extract the parameters of the CELP prediction model (that is to say, in particular, a long-term digital excitation word V i extracted from an adaptive coded directory DLT, also called “adaptive long-term dictionary", an associated long-term gain Ga, a short-term excitation word C j , extracted from an algebraic coded directory DCT, also known as “fixed coded directory” or “short dictionary algebraic term ", and an associated short-term gain Gc).
  • a long-term digital excitation word V i extracted from an adaptive coded directory DLT, also called “adaptive long-term dictionary", an associated long-term gain Ga
  • a short-term excitation word C j extracted from an algebraic coded directory DCT, also known as “fixed coded directory” or “short dictionary algebraic term ", and an associated short-term gain Gc).
  • these parameters are used, in a decoder, to retrieve the excitation and predictive filter parameters. We then reconstitutes speech by filtering this excitation flow in a short-term synthesis filter.
  • the short-term dictionary DCT is founded on an algebraic structure using a permutation model intertwined with Dirac pulses.
  • this coded directory which contains innovative excitations also called excitations algebraic or short-term, each vector contains a certain number of non-zero pulses, for example four, each of which can have amplitude +1 or -1 with predetermined positions.
  • the CD encoder processing means include functionally of the first MEXT1 extraction means intended to extract the word long-term excitement, and second MEXT2 extraction means intended to extract the word short-term excitement. Functionally, these means are made for example in software within a processor.
  • These extraction means include a predictive filter FP having a transfer function equal to 1 / A (z), as well as a filter FPP perceptual weighting with a transfer function W (z).
  • the perceptual weighting filter is applied to the signal to model the perception of the ear.
  • the extraction means include means MECM intended to perform a minimization of a square error average.
  • the linear prediction FP synthesis filter models the spectral envelope of the signal. Linear predictive analysis is performed all superframes, so as to determine the linear predictive filter coefficients. These are converted to spectral line pairs (LSP: “Line Spectrum Pairs”) and digitized by predictive vector quantization in two stages.
  • LSP Line Spectrum Pairs
  • Each 20 ms speech superframe is divided into four frames of 5 ms each containing 80 samples.
  • the settings Quantized LSPs are transmitted to the decoder once per superframe while long term and short term parameters are passed at each frame.
  • the coefficients of the linear prediction filter, quantified and not quantified, are used for the most recent frame of a super-frame, while the other three frames of the same super-frame use an interpolation of these coefficients.
  • Tonal delay open loop is estimated every two frames based on the perceptually weighted voice signal. Then, the following operations are repeated at each frame:
  • the long-term target signal X LT is calculated by filtering the sampled speech signal s (n) by the perceptual weighting filter FPP.
  • the impulse response of the weighted synthesis filter is calculated.
  • a closed loop tonal analysis using a minimization of the mean square error is then carried out in order to determine the long-term excitation word v i and the associated gain Ga, by means of the target signal and the impulse response, by searches around the value of the tone delay in open loop.
  • the long-term target signal is then updated by subtracting the filtered contribution y from the adaptive coded directory DLT and this new short-term target signal X ST is used when exploring the fixed coded directory DCT in order to determine the password.
  • short term excitation c j and the associated gain G c is used when exploring the fixed coded directory DCT in order to determine the password.
  • An object of the invention is to reduce the harmonic noise and the high frequency noise.
  • the invention also aims to suppress noise from "whistling" type tainting the voiced speech frames.
  • Another object of the invention is to independently control short-term and long-term distortions.
  • the invention therefore provides a speech encoding method with wide band, in which the speech is sampled so as to obtain successive voice frames each comprising a predetermined number of samples, and for each voice frame, we determines parameters of a linear prediction model at excitation by code, these parameters comprising a numeric word of long-term excitement extracted from an adaptive coded repertoire and a associated long-term gain, as well as a word of short-term excitement extract from an algebraic coded repertoire and short-term gain associated, and we update the adaptive coded directory from the word excerpt long term excitement and short term excitement word extract.
  • the invention here uses a "total correction" filter which combines a harmonic noise correction filter and a high frequency correction.
  • the invention thus improves the quality during voiced speech frames. Furthermore, the complexity of the encoder is reduced by merging the filter of harmonic correction and the high frequency correction filter.
  • the invention differs in particular from a solution described in an article by Kroon and Atal, entitled “Strategies for Improving the Performance of CELP Coders at Low Bit Rates ”, Proc., IEEE, Int. Conf. Acoustics, Speech, and Signal Processing, ICASSP'88, New York, USA, 1988, Pages 151-154, which offers filtering of adaptive dictionary made at the output of this dictionary and not not at the entrance according to the invention.
  • the prefiltering of the adaptive dictionary according to the invention presents in relation to the post-filtering of the article of Kroon and Atal, the advantage that filtering is taken into account when error minimization performed to choose excitation adaptive to the next frame. This is not the case for the solution of Kroon and Atal, since the proposed filtering takes place on the excitation chosen next. Also, to take into account the filtering in the minimization of the error, it would then be necessary to increase considerably complexity and filter out any excitement to be tested.
  • the summed word with a finite impulse response digital filter at linear phase having an order at least equal to 10.
  • the sampling frequency is 16 kHz
  • the invention also provides a control type solution gain, but totally different from that described in particular in the articles of Taniguchi and others and of Shoham.
  • the extraction of the short term excitation word comprises digital linear prediction filtering and the method includes an update of the state of the linear prediction filter with the word short-term excitation filtered by a filter whose coefficients depend on the value of the long-term gain, so that weaken the contribution of short-term excitement when the gain long-term excitement is above a predetermined threshold, for example equal to 1.
  • the solution according to the invention consists here to weaken the contribution of short-term excitement if the gain of long-term excitement is important.
  • this is the contribution of undiminished short-term excitement which is stored in the adaptive dictionary for updating. So the reduction occurs only on exit. Preserving the magnitude of the short-term contribution to be stored is important, since the richness of the adaptive dictionary is thus preserved for the lowest frequencies.
  • the gain correction must also be applied when reconstructing the signal at the decoder.
  • This filter can be of order 0 or of higher or equal order to 1. In the latter case, the filter of order greater than or equal to 1 can be finite impulse response.
  • the first coefficient B0 of the filter is equal to 1 / (1 + ⁇ . min (Ga, 1))
  • the second coefficient B1 of the filter is equal to ⁇ .min (Ga, 1) / (1 + ⁇ .min (Ga, 1))
  • is a real number with a lower absolute value at 1
  • Ga is the long-term gain
  • min (Ga, 1) designates the minimum value between Ga and 1.
  • the denominator of the transfer function of the first formantic weighting filter is equal to the numerator of the second formantic weighting filter.
  • the use of two filters of weighting different formant allows to control regardless of short-term and long-term distortions.
  • the short-term weighting filter is cascaded to the filter of long-term weighting.
  • tying the denominator of the long-term weighting filter in the numerator of the short-term weighting allows these two to be controlled separately filters and also allows a clear simplification when these two filters are cascaded.
  • the first extraction means include a digital prediction filter linear
  • the device comprises second updating means capable of updating the state of the linear prediction filter with short term excitation word filtered by a filter whose coefficient (s) depend on the value long-term gain, so as to weaken the contribution of short-term excitement when gaining long-term excitement is above a predetermined threshold.
  • the first extraction means include a first filter perceptual weighting including a first weighting filter formantic, by the fact that the second means of extraction include the first perceptual weighting filter cascaded to a second perceptual weighting filter comprising a second formantic weighting filter, and by the fact that the denominator of the transfer function of the first filter of formantic weighting is equal to the numerator of the second filter formantic weighting.
  • the invention also relates to a terminal of a system wireless communication, such as a mobile phone cell, incorporating a device as defined above.
  • the encoding device, or encoder, CD differs from that of the prior art as illustrated in FIG. 1 by the fact that the MAJ means of DLT adaptive long-term dictionary update feature a total correction filter FLCT connected between the output of a SM summer and DLT dictionary entry.
  • the two inputs of the summator SM respectively receive the product of the extracted word of long-term excitation v; by the associated long-term gain Ga, and the product of the extracted short-term excitation word c j by the associated gain Gc.
  • This FLCT total correction filter is a low pass filter generally having a cutoff frequency greater than quarter of the sampling frequency and less than half of it.
  • This filter is in the example described a digital filter with linear phase finite impulse response with order at less than 10.
  • a cutoff frequency of preferably will be used of the order of 6 kHz and a filter of order 20, which achieves a good trade-off between memory complexity and signal quality reconstituted vocal.
  • Harmonic noise is introduced by the contribution of long-term excitement and by repeating samples for values of the fundamental period (pitch) less than the length of a speech frame, here of 5 ms. This noise is also present for values of the fundamental period greater than the size of a frame. It is also linked to adaptive gain, extracts a single times per speech frame.
  • the total correction filter according to the invention therefore achieves the double harmonic correction and high correction function frequency. This allows an improvement in quality during voiced speech frames.
  • this filter i.e. at the input of the adaptive dictionary, allows filtering to be taken into account minimization of the error made to choose the excitation adaptive of the following speech frame.
  • the coder CD further comprises second updating means MAJ2 able to update the state of the linear prediction filter FP and the state of the filter perceptual weighting FPP with the short-term excitation word C j filtered by a filter which is represented here schematically by a gain Gc '.
  • This filter can be of order 0 and its gain Gc 'is less than the gain Gc.
  • this filter can be of finite impulse response and of order greater than or equal to 1, with for example a filter of finite impulse response of order 1.
  • the coefficients of this first order filter depend on the value long-term gain Ga, so as to weaken the contribution of short-term excitement when gaining long-term excitement Ga is greater than a predetermined threshold, for example equal to 1.
  • the transfer function of this filter is equal to B0 + B1 z -1 .
  • the first coefficient of the filter B0 can be determined by the formula (I) below. 1 / (1 + 0.98 min (Ga, 1)) while the second coefficient of filter B1 can be determined by formula (II) below. 0.98 min (Ga, 1) / (1 + 0.98 min (Ga, 1))
  • the attenuation occurs only on the signal preserving the magnitude of the short contribution term to store keeps the richness of the dictionary adaptive for the lowest frequencies.
  • the variant embodiment illustrated in FIG. 3 allows, in addition to the benefits of the total correction filter, to eliminate hissing noise on speech frames voiced.
  • the FPP perceptual weighting filter uses the masking properties of the human ear compared to the spectral envelope of the speech signal, whose shape is a function resonances of the vocal tract. This filter allows you to assign more importance of the error appearing in the spectral valleys by compared to formic peaks.
  • the same FPP perceptual weighting filter is used for short-term research and for long-term research.
  • the transfer function W (z) of this FPP filter is given by the formula (III) below.
  • W ( z ) AT ( z / ⁇ 1 ) AT ( z / ⁇ 2 ) in which 1 / A (z) is the transfer function of the predictive filter FP and ⁇ 1 and ⁇ 2 are the perceptual weighting coefficients, the two coefficients being positive or zero and less than or equal to 1 with the coefficient ⁇ 2 less than or equal to the coefficient ⁇ 1.
  • the perceptual weighting filter consists of a formantic weighting filter and a weighting of the slope of the spectral envelope of the signal (tilt).
  • FIG. 4 Such an embodiment is illustrated in FIG. 4, in which, compared to Figure 3, the unique FPP filter was replaced by a first formantic weighting filter FPP1 for long-term research, cascaded with a second filter of FPP2 formant weighting for short-term research.
  • the filters appearing in the long-term research loop should also appear in the short-term research loop.
  • the transfer function W 1 (z) of the formantic weighting filter FPP1 is given by formula (IV) below.
  • W 1 ( z ) AT ( z / ⁇ 11 ) AT ( z / ⁇ 12 ) while the transfer function W 2 (z) of the formantic weighting filter FPP2 is given by the formula (V) below.
  • W 2 ( z ) AT ( z / ⁇ 21 ) AT ( z / ⁇ 22 )
  • the coefficient ⁇ 12 is equal to the coefficient ⁇ 21 . This allows a clear simplification when cascading these two filters.
  • the filter equivalent to the cascade of these two filters has a transfer function given by the formula (VI) below.
  • the synthesis filter FP (having the transfer function 1 / A (z)) followed by the long-term weighting filter FPP1 and the weighting filter FPP2 is then equivalent to the filter whose transfer function is given by formula (VII) below. 1 AT ( z / ⁇ 22 )
  • FIG. 5 Such an embodiment is illustrated in FIG. 5, where one see that the use of the two form filters is taken into account combination with the use of the total correction filter.
  • the invention advantageously applies to telephony mobile, and in particular to all remote terminals belonging to a wireless communication system.
  • Such a terminal for example a TP mobile telephone, such as that illustrated in FIG. 6, conventionally comprises a antenna connected via a DUP duplexer to a chain reception CHR and a CHT transmission chain.
  • a baseband processor BB is connected to the chain respectively of reception CHR and to the chain of transmission CHT by via analog digital ADCs and analog digital DACs.
  • the processor BB performs processing in baseband, including DCN channel decoding, followed by DCS source decoding.
  • the processor For transmission, the processor performs source coding CCS followed by CCN channel coding.
  • the mobile phone incorporates an encoder according to the invention, it is incorporated within the coding means of CCS source, while the decoder is incorporated within the means DCS source decoding.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

The product of the word extracted by long term excitation with the associated long term gain (Ga) is added (SM) to the product of the word extracted by short term excitation with the associated short term gain (Gc). The dataword is filtered using a low-pass filter having a cut-off frequency which is greater than 25 % of the sampling frequency, but less than 50 % of the latter. The filtered code is then combined with the adaptive coded index. Speech is sampled in order to obtain a succession of speech frames, each one comprising a pre-determined number of samples. The parameters for a code excitation-based linear prediction model are determined for each speech frame and these parameters comprise a long term excitation dataword (vi) extracted from an associated coded index (DLT) and an associated short term gain, as well as a short term excitation dataword (cj) extracted from an algebraic coded index (DCT) and an associated short term gain, providing an adaptive coded index obtained from the long term excitation extracted word and the short term excitation extracted word. Independent claims are also included for the following: (1) Speech coding device (CD) for carrying out this method; and (2) Wireless communication terminal provided with the coding device.

Description

L'invention concerne l'encodage/décodage de la parole à bande élargie, notamment mais non limitativement pour la téléphonie mobile.The invention relates to speech encoding / decoding extended band, in particular but not limited to telephony mobile.

En bande élargie, la bande passante du signal de parole est comprise entre 50 et 7000 Hz.In wideband, the bandwidth of the speech signal is between 50 and 7000 Hz.

Des séquences de parole successives échantillonnées à une fréquence d'échantillonnage prédéterminée, par exemple 16 kHz, sont traitées dans un dispositif de codage utilisant une prédiction linéaire à excitation par séquences codées (ACELP : « algebraic-code-excited linear-prediction »), bien connu de l'homme du métier, et décrit notamment dans la recommandation ITU-TG 729, version 3/96, intitulée « codage de la parole à 8 kbits/s par prédiction linéaire avec excitation par séquences codées à structure algébrique conjuguée ».Successive speech sequences sampled at one predetermined sampling frequency, for example 16 kHz, are processed in a coding device using a prediction linear excitation by coded sequences (ACELP: “algebraic-code-excited linear-prediction ”), well known to those skilled in the art, and described in particular in recommendation ITU-TG 729, version 3/96, titled “speech coding at 8 kbit / s by prediction linear with excitation by coded sequences with algebraic structure conjugate ”.

On va maintenant rappeler brièvement, en se référant à la figure 1, les principales caractéristiques et fonctionnalités d'un tel codeur, l'homme du métier pouvant se référer à toutes fins utiles, pour plus de détails, à la recommandation G 729 précitée.We will now briefly recall, referring to the Figure 1, the main features and functionality of such coder, the skilled person can refer for all practical purposes, for more details, see the above-mentioned recommendation G 729.

Le codeur de prédiction CD, du type ACELP, est fondé sur le modèle de codage prédictif linéaire à excitation par code. Le codeur opère sur des super-trames vocales équivalentes par exemple à 20 ms de signal et comportant chacune 320 échantillons. L'extraction des paramètres de prédiction linéaire, c'est-à-dire les coefficients du filtre de prédiction linéaire également appelé filtre de synthèse à court-terme 1/A(z), est effectuée pour chaque super-trame de parole. Par contre, chaque super-trame est subdivisée en trames de 5 ms comprenant 80 échantillons. Toutes les trames, le signal vocal est analysé pour en extraire les paramètres du modèle de prédiction CELP (c'est-à-dire, notamment, un mot numérique d'excitation à long terme Vi extrait d'un répertoire codé adaptatif DLT, également dénommé « dictionnaire à long terme adaptatif », un gain à long terme associé Ga, un mot d'excitation à court terme Cj, extrait d'un répertoire codé algébrique DCT, également dénommé « répertoire codé fixe » ou « dictionnaire à court terme algébrique », et un gain à court terme associé Gc).The prediction coder CD, of the ACELP type, is based on the linear predictive coding model with code excitation. The coder operates on vocal superframes equivalent for example to 20 ms of signal and each comprising 320 samples. The extraction of the linear prediction parameters, i.e. the coefficients of the linear prediction filter also called short-term synthesis filter 1 / A (z), is carried out for each speech superframe. On the other hand, each superframe is subdivided into 5 ms frames comprising 80 samples. All the frames, the voice signal is analyzed to extract the parameters of the CELP prediction model (that is to say, in particular, a long-term digital excitation word V i extracted from an adaptive coded directory DLT, also called "adaptive long-term dictionary", an associated long-term gain Ga, a short-term excitation word C j , extracted from an algebraic coded directory DCT, also known as "fixed coded directory" or "short dictionary algebraic term ", and an associated short-term gain Gc).

Ces paramètres sont ensuite codés et transmis.These parameters are then coded and transmitted.

A la réception, ces paramètres servent, dans un décodeur, à récupérer les paramètres d'excitation et du filtre prédictif. On reconstitue alors la parole en filtrant ce flux d'excitation dans un filtre de synthèse à court terme.On reception, these parameters are used, in a decoder, to retrieve the excitation and predictive filter parameters. We then reconstitutes speech by filtering this excitation flow in a short-term synthesis filter.

Alors que le dictionnaire adaptatif DLT contient des mots nunériques représentatifs de délais tonaux représentatifs d'excitations passées, le dictionnaire à court terme DCT est fondé sur une structure algébrique utilisant un modèle de permutation entrelacée d'impulsions de Dirac. Dans ce répertoire codé, qui contient des excitations innovatrices également appelées excitations algébriques ou à court-terme, chaque vecteur contient un certain nombre d'impulsions non nulles, par exemple quatre, dont chacune peut avoir l'amplitude +1 ou -1 avec des positions prédéterminées.While the Adaptive DLT Dictionary Contains Words digital representative of representative tonal delays of past excitations, the short-term dictionary DCT is founded on an algebraic structure using a permutation model intertwined with Dirac pulses. In this coded directory, which contains innovative excitations also called excitations algebraic or short-term, each vector contains a certain number of non-zero pulses, for example four, each of which can have amplitude +1 or -1 with predetermined positions.

Les moyens de traitement du codeur CD comportent fonctionnellement des premiers moyens d'extraction MEXT1 destinés à extraire le mot d'excitation à long terme, et des deuxièmes moyens d'extraction MEXT2 destinés à extraire le mot d'excitation à court terme. Fonctionnellement, ces moyens sont réalisés par exemple de façon logicielle au sein d'un processeur.The CD encoder processing means include functionally of the first MEXT1 extraction means intended to extract the word long-term excitement, and second MEXT2 extraction means intended to extract the word short-term excitement. Functionally, these means are made for example in software within a processor.

Ces moyens d'extraction comportent un filtre prédictif FP ayant une fonction de transfert égale à 1/A(z), ainsi qu'un filtre de pondération perceptuel FPP ayant une fonction de transfert W(z). Le filtre de pondération perceptuelle est appliqué au signal pour modéliser la perception de l'oreille.These extraction means include a predictive filter FP having a transfer function equal to 1 / A (z), as well as a filter FPP perceptual weighting with a transfer function W (z). The perceptual weighting filter is applied to the signal to model the perception of the ear.

Par ailleurs, les moyens d'extraction comportent des moyens MECM destinés à effectuer une minimisation d'une erreur carrée moyenne.Furthermore, the extraction means include means MECM intended to perform a minimization of a square error average.

Le filtre de synthèse FP de la prédiction linéaire modélise l'enveloppe spectrale du signal. L'analyse prédictive linéaire est effectuée toutes les super-trames, de façon à déterminer les coefficients de filtrage prédictif linéaire. Ceux-ci sont convertis en paires de lignes spectrales (LSP : « Line Spectrum Pairs ») et numérisés par quantification vectorielle prédictive en deux étapes.The linear prediction FP synthesis filter models the spectral envelope of the signal. Linear predictive analysis is performed all superframes, so as to determine the linear predictive filter coefficients. These are converted to spectral line pairs (LSP: “Line Spectrum Pairs”) and digitized by predictive vector quantization in two stages.

Chaque super-trame de parole de 20 ms est divisée en quatre trames de 5 ms chacune contenant 80 échantillons. Les paramètres LSP quantifiés sont transmis au décodeur une fois par super-trame alors que les paramètres à long terme et à court terme sont transmis à chaque trame.Each 20 ms speech superframe is divided into four frames of 5 ms each containing 80 samples. The settings Quantized LSPs are transmitted to the decoder once per superframe while long term and short term parameters are passed at each frame.

Les coefficients du filtre de prédiction linéaire, quantifiés et non quantifiés, sont utilisés pour la trame la plus récente d'une super-trame, tandis que les trois autres trames de la même super-trame utilisent une interpolation de ces coefficients. Le délai tonal en boucle ouverte est estimé toutes les deux trames sur la base du signal vocal pondéré perceptuellement. Puis, les opérations suivantes sont répétées à chaque trame :The coefficients of the linear prediction filter, quantified and not quantified, are used for the most recent frame of a super-frame, while the other three frames of the same super-frame use an interpolation of these coefficients. Tonal delay open loop is estimated every two frames based on the perceptually weighted voice signal. Then, the following operations are repeated at each frame:

Le signal cible à long terme XLT est calculé en filtrant le signal de parole échantillonné s(n) par le filtre de pondération perceptuelle FPP.The long-term target signal X LT is calculated by filtering the sampled speech signal s (n) by the perceptual weighting filter FPP.

On soustrait ensuite du signal vocal pondéré la réponse à entrée nulle du filtre de synthèse pondéré FP, FPP, de façon à obtenir un nouveau signal cible long terme.We then subtract the response to null input of the weighted synthesis filter FP, FPP, so that get a new long-term target signal.

La réponse impulsionnelle du filtre de synthèse pondéré est calculé.The impulse response of the weighted synthesis filter is calculated.

Une analyse tonale en boucle fermée utilisant une minimisation de l'erreur carrée moyenne, est ensuite effectuée afin de déterminer le mot d'excitation à long terme vi et le gain associé Ga, au moyen du signal cible et de la réponse impulsionnelle, par recherche autour de la valeur du délai tonal en boucle ouverte.A closed loop tonal analysis using a minimization of the mean square error is then carried out in order to determine the long-term excitation word v i and the associated gain Ga, by means of the target signal and the impulse response, by searches around the value of the tone delay in open loop.

Le signal cible long terme est ensuite mis à jour par soustraction de la contribution filtrée y du répertoire codé adaptatif DLT et ce nouveau signal cible court terme XST est utilisé lors de l'exploration du répertoire codé fixe DCT afin de déterminer le mot d'excitation court terme cj et le gain Gc associé. Là encore, cette recherche en boucle fermée s'effectue par une minimisation de l'erreur carrée moyenne.The long-term target signal is then updated by subtracting the filtered contribution y from the adaptive coded directory DLT and this new short-term target signal X ST is used when exploring the fixed coded directory DCT in order to determine the password. short term excitation c j and the associated gain G c . Again, this closed loop search is performed by minimizing the mean square error.

Finalement, le dictionnaire à long terme adaptatif DLT ainsi que les mémoires des filtres FP et FPP, sont mis à jour au moyen des mots d'excitation long terme et court terme ainsi déterminés.Finally, the long-term adaptive DLT dictionary as well that the memories of the filters FP and FPP, are updated by means of the long term and short term excitation words so determined.

La qualité d'un algorithme CELP dépend fortement de la richesse du dictionnaire d'excitation algébrique DCT. Si l'efficacité d'un tel algorithme est incontestable pour les signaux à bande passante étroite (300-3400 Hz), des problèmes surviennent pour des signaux à bande élargie.The quality of a CELP algorithm strongly depends on the richness of the DCT algebraic excitation dictionary. If the efficiency of such an algorithm is indisputable for band signals narrow bandwidth (300-3400 Hz), problems arise for wideband signals.

Les inventeurs ont en effet observé que même avec un dictionnaire algébrique très riche, l'algorithme d'encodage de la parole produit deux types de problèmes :

  • 1) une qualité globale de parole reconstruite totalement insuffisante (la parole reconstruite manque de présence, le niveau d'énergie est très variable, le timbre de la voix est méconnaissable, ...),
  • 2) un signal reconstruit corrompu par trois sortes de bruits :
    • un bruit harmonique en haute fréquence (comb-like noise),
    • un fort bruit à haute fréquence, tel un bruit de quantification,
    • un bruit en basse fréquence (rumbling noise), tel qu'un balai de paille frappé à intervalles réguliers sur le sol.
  • The inventors have indeed observed that even with a very rich algebraic dictionary, the speech encoding algorithm produces two types of problems:
  • 1) an overall quality of reconstructed speech totally insufficient (the reconstructed speech lacks presence, the energy level is very variable, the timbre of the voice is unrecognizable, ...),
  • 2) a reconstructed signal corrupted by three kinds of noise:
    • harmonic noise at high frequency (comb-like noise),
    • strong noise at high frequency, such as quantization noise,
    • a low frequency noise (rumbling noise), such as a straw broom struck at regular intervals on the ground.
  • Il a alors été observé qu'une amélioration de la qualité globale de la parole pouvait être obtenue par une élimination partielle ou totale de ces bruits.It was then observed that an improvement in the quality overall speech could be achieved by elimination partial or total of these noises.

    Un but de l'invention est de réduire le bruit harmonique et le bruit haute fréquence.An object of the invention is to reduce the harmonic noise and the high frequency noise.

    L'invention a également pour but de supprimer le bruit de type « sifflement » entachant les trames de parole voisée.The invention also aims to suppress noise from "whistling" type tainting the voiced speech frames.

    L'invention a encore pour but de contrôler indépendamment les distorsions à court terme et à long terme. Another object of the invention is to independently control short-term and long-term distortions.

    L'invention propose donc un procédé d'encodage de la parole à bande élargie, dans lequel on échantillonne la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons, et à chaque trame vocale, on détermine des paramètres d'un modèle de prédiction linéaire à excitation par code, ces paramètres comportant un mot numérique d'excitation à long terme extrait d'un répertoire codé adaptatif et un gain à long terme associé, ainsi qu'un mot d'excitation à court terme extrait d'un répertoire codé algébrique et un gain à court terme associé, et on met à jour le répertoire codé adaptatif à partir du mot d'excitation à long terme extrait et du mot d'excitation à court terme extrait.The invention therefore provides a speech encoding method with wide band, in which the speech is sampled so as to obtain successive voice frames each comprising a predetermined number of samples, and for each voice frame, we determines parameters of a linear prediction model at excitation by code, these parameters comprising a numeric word of long-term excitement extracted from an adaptive coded repertoire and a associated long-term gain, as well as a word of short-term excitement extract from an algebraic coded repertoire and short-term gain associated, and we update the adaptive coded directory from the word excerpt long term excitement and short term excitement word extract.

    Selon une caractéristique générale de l'invention, on somme le produit du mot extrait d'excitation à long terme par le gain à long terme associé, avec le produit du mot extrait d'excitation à court terme par le gain à court terme associé, on filtre le mot numérique sommé dans un filtre passe-bas ayant une fréquence de coupure supérieure au quart de la fréquence d'échantillonnage et inférieure à la moitié de celle-ci, et on met à jour le répertoire codé adaptatif avec le mot filtré.According to a general characteristic of the invention, we sum the product of the word extracted from long-term excitation by long-term gain associated term with the product of the excerpt short word term by the associated short-term gain, we filter the digital word summed in a low pass filter having a cutoff frequency greater than a quarter of the sampling frequency and less than half of it, and we update the adaptive coded directory with the filtered word.

    L'invention utilise ici un filtre « de correction totale » qui combine un filtre de correction du bruit harmonique et un filtre de correction haute fréquence.The invention here uses a "total correction" filter which combines a harmonic noise correction filter and a high frequency correction.

    L'invention permet ainsi une amélioration de la qualité durant les trames de parole voisées. Par ailleurs, la complexité de l'encodeur est réduite en fusionnant en un seul filtre le filtre de correction harmonique et le filtre de correction haute fréquence.The invention thus improves the quality during voiced speech frames. Furthermore, the complexity of the encoder is reduced by merging the filter of harmonic correction and the high frequency correction filter.

    L'invention se distingue notamment d'une solution décrite dans un article de Kroon et Atal, intitulé « Strategies for Improving the Performance of CELP Coders at Low Bit Rates », Proc., IEEE, Int. Conf. Acoustics, Speech, and Signal Processing, ICASSP'88, New York, USA, 1988, Pages 151-154, qui propose un filtrage du dictionnaire adaptatif effectué à la sortie de ce dictionnaire et non pas à l'entrée conformément à l'invention. The invention differs in particular from a solution described in an article by Kroon and Atal, entitled "Strategies for Improving the Performance of CELP Coders at Low Bit Rates ”, Proc., IEEE, Int. Conf. Acoustics, Speech, and Signal Processing, ICASSP'88, New York, USA, 1988, Pages 151-154, which offers filtering of adaptive dictionary made at the output of this dictionary and not not at the entrance according to the invention.

    Ainsi, le préfiltrage du dictionnaire adaptatif selon l'invention présente par rapport au post-filtrage de l'article de Kroon et Atal, l'avantage que le filtrage est pris en compte lors de la minimisation de l'erreur effectuée pour choisir l'excitation adaptative à la trame suivante. Ce n'est pas le cas pour la solution de Kroon et Atal, puisque le filtrage proposé a lieu sur l'excitation choisie suivante. Aussi, pour tenir compte du filtrage dans la minimisation de l'erreur, il faudrait alors augmenter considérablement la complexité et filtrer toute excitation à tester.Thus, the prefiltering of the adaptive dictionary according to the invention presents in relation to the post-filtering of the article of Kroon and Atal, the advantage that filtering is taken into account when error minimization performed to choose excitation adaptive to the next frame. This is not the case for the solution of Kroon and Atal, since the proposed filtering takes place on the excitation chosen next. Also, to take into account the filtering in the minimization of the error, it would then be necessary to increase considerably complexity and filter out any excitement to be tested.

    Selon un mode de mise en oeuvre préférentielle, on filtre le mot sommé avec un filtre numérique à réponse impulsionnelle finie à phase linéaire ayant un ordre au moins égal à 10. Par exemple, lorsque la fréquence d'échantillonnage est de 16 kHz, on peut choisir un filtre d'ordre 20 ayant une fréquence de coupure de l'ordre de 6 kHz.According to a preferred embodiment, the summed word with a finite impulse response digital filter at linear phase having an order at least equal to 10. For example, when the sampling frequency is 16 kHz, you can choose a filter of order 20 having a cut-off frequency of around 6 kHz.

    Bien que la qualité de la parole soit ainsi améliorée, les trames de parole voisées semblent encore corrompues par un bruit de type « sifflement ». Ce bruit de nature haute fréquence provient de l'excitation à court terme qui introduit des artéfacts indésirables. Deux types de solutions pour résoudre ce problème ont déjà été proposés dans la littérature. Un premier type de solution, décrit par exemple
       dans l'article de Gerson et Jasiuk, intitulé « Techniques for Improving the Performance of CELP-Type Speech Coders », IEEE, Journal on Selected Areas In Communications, Vol. 10, N°5, Juin 1992, pages 858-865, ou bien
       dans l'article de Miki et autres, intitulé « A Pitch Synchronous Innovation CELP (PSI-CELP) Coder for 2-4 kbit/s », Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, ICASSP'94, Adelaïde, South Australia, 1994, Vol. II, pages 113-116,
       propose de rendre la contribution à court terme périodique.
    Although the quality of the speech is thus improved, the voiced speech frames still seem to be corrupted by “hissing” noise. This high frequency noise comes from short term excitation which introduces unwanted artifacts. Two types of solutions to solve this problem have already been proposed in the literature. A first type of solution, described for example
    in the article by Gerson and Jasiuk, entitled "Techniques for Improving the Performance of CELP-Type Speech Coders", IEEE, Journal on Selected Areas In Communications, Vol. 10, N ° 5, June 1992, pages 858-865, or else
    in the article by Miki et al., entitled "A Pitch Synchronous Innovation CELP (PSI-CELP) Coder for 2-4 kbit / s", Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, ICASSP'94, Adelaide, South Australia, 1994, Vol. II, pages 113-116,
    proposes to make the short-term contribution periodic.

    Un autre type de solution, décrit par exemple
       dans l'article de Taniguchi Johnson et Ohta, intitulé « Pitch Sharpening for Perceptually Improved CELP, and the Sparse-Delta Codebook for Reduced Computation », Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, ICASSP'91, Toronto, Canada, 1991, pages 241-244, ou
       dans l'article de Shoham, intitulé « Constrained-Stochastic Excitation Coding of Speech At 4,8 kb/s », Advances in Speech Coding, B.S. Atal, V. Cuperman, and A. Gersho, Eds., Dordrecht, The Netherlands, Kluwer, 1991, pages 339-348,
       propose un contrôle de façon adaptative du gain à court terme.
    Another type of solution, described for example
    in the article by Taniguchi Johnson and Ohta, entitled “Pitch Sharpening for Perceptually Improved CELP, and the Sparse-Delta Codebook for Reduced Computation”, Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, ICASSP'91, Toronto, Canada, 1991, pages 241-244, or
    in Shoham's article, "Constrained-Stochastic Excitation Coding of Speech At 4.8 kb / s", Advances in Speech Coding, BS Atal, V. Cuperman, and A. Gersho, Eds., Dordrecht, The Netherlands, Kluwer, 1991, pages 339-348,
    offers adaptive short-term gain control.

    L'invention propose également une solution du type contrôle de gain, mais totalement différente de celle décrite notamment dans les articles de Taniguchi et autres et de Shoham.The invention also provides a control type solution gain, but totally different from that described in particular in the articles of Taniguchi and others and of Shoham.

    Plus précisément, selon un mode de mise en oeuvre de l'invention, l'extraction du mot d'excitation à court terme comporte un filtrage numérique de prédiction linéaire et le procédé comporte une mise à jour de l'état du filtre de prédiction linéaire avec le mot d'excitation à court terme filtré par un filtre dont le ou les coefficients dépendent de la valeur du gain à long terme, de façon à affaiblir la contribution de l'excitation à court terme lorsque le gain de l'excitation à long terme est supérieur à un seuil prédéterminé, par exemple égal à 1.More specifically, according to an embodiment of the invention, the extraction of the short term excitation word comprises digital linear prediction filtering and the method includes an update of the state of the linear prediction filter with the word short-term excitation filtered by a filter whose coefficients depend on the value of the long-term gain, so that weaken the contribution of short-term excitement when the gain long-term excitement is above a predetermined threshold, for example equal to 1.

    En d'autres termes, la solution selon l'invention consiste ici à affaiblir la contribution de l'excitation à court terme si le gain de l'excitation à long terme est important. Cependant, c'est la contribution de l'excitation à court terme non affaiblie qui est stockée dans le dictionnaire adaptatif pour sa mise à jour. Ainsi, la réduction intervient seulement sur la sortie. Le fait de préserver l'amplitude de la contribution à court terme à stocker est important, puisque la richesse du dictionnaire adaptatif est ainsi conservée pour les plus basses fréquences.In other words, the solution according to the invention consists here to weaken the contribution of short-term excitement if the gain of long-term excitement is important. However, this is the contribution of undiminished short-term excitement which is stored in the adaptive dictionary for updating. So the reduction occurs only on exit. Preserving the magnitude of the short-term contribution to be stored is important, since the richness of the adaptive dictionary is thus preserved for the lowest frequencies.

    Bien entendu, la correction du gain doit également être appliquée lors de la reconstruction du signal au niveau du décodeur. Of course, the gain correction must also be applied when reconstructing the signal at the decoder.

    Ce filtre peut être d'ordre 0 ou bien d'ordre supérieur ou égal à 1. Dans ce dernier cas, le filtre d'ordre supérieur ou égal à 1 peut être à réponse impulsionnelle finie.This filter can be of order 0 or of higher or equal order to 1. In the latter case, the filter of order greater than or equal to 1 can be finite impulse response.

    Selon un mode de mise en oeuvre de l'invention, dans lequel filtre est d'ordre 1 et sa fonction de transfert égale à B0+B1 z-1, le premier coefficient B0 du filtre est égal à 1/(1+β.min(Ga,1)), et le deuxième coefficient B1 du filtre est égal à β.min(Ga,1)/(1+β.min(Ga,1)), où β est un nombre réel de valeur absolue inférieure à 1, Ga est le gain à long terme et min(Ga,1) désigne la valeur minimale entre Ga et 1.According to an embodiment of the invention, in which filter is of order 1 and its transfer function equal to B0 + B1 z -1 , the first coefficient B0 of the filter is equal to 1 / (1 + β. min (Ga, 1)), and the second coefficient B1 of the filter is equal to β.min (Ga, 1) / (1 + β.min (Ga, 1)), where β is a real number with a lower absolute value at 1, Ga is the long-term gain and min (Ga, 1) designates the minimum value between Ga and 1.

    Selon une autre variante de l'invention, qui peut être prise en combinaison ou bien indépendamment de la variante précédente, on effectue l'extraction du mot d'excitation à long terme en utilisant un premier filtre de pondération perceptuelle comportant un premier filtre de pondération formantique, et on effectue l'extraction du mot d'excitation à court terme en utilisant le premier filtre de pondération perceptuelle cascadé à un deuxième filtre de pondération perceptuelle comportant un deuxième filtre de pondération formantique. Le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique.According to another variant of the invention, which can be taken into account combination or independently of the previous variant, we performs long term excitation word extraction using a first perceptual weighting filter comprising a first formantic weighting filter, and we extract the word short-term excitation using the first filter perceptual weighting cascaded to a second filter of perceptual weighting including a second filter formantic weighting. The denominator of the transfer function of the first formantic weighting filter is equal to the numerator of the second formantic weighting filter.

    Ainsi, selon cette variante, l'utilisation de deux filtres de pondération formantique différents permet de contrôler indépendamment les distorsions à court terme et à long terme. Le filtre de pondération à court terme est cascadé au filtre de pondération à long terme. En outre, le fait de lier le dénominateur du filtre de pondération à long terme au numérateur du filtre de pondération à court terme permet de contrôler séparément ces deux filtres et permet en outre une nette simplification lorsque ces deux filtres sont cascadés.Thus, according to this variant, the use of two filters of weighting different formant allows to control regardless of short-term and long-term distortions. The short-term weighting filter is cascaded to the filter of long-term weighting. Also, tying the denominator of the long-term weighting filter in the numerator of the short-term weighting allows these two to be controlled separately filters and also allows a clear simplification when these two filters are cascaded.

    Bien entendu, lorsque cette variante est utilisée en combinaison avec la variante de contrôle de gain, il est prévu une mise à jour de l'état des deux filtres de pondération perceptuelle avec le mot d'excitation à court terme filtré par le filtre d'ordre supérieur ou égal à 1.Of course, when this variant is used in combination with the gain control variant there is a update the status of the two perceptual weighting filters with the short term excitation word filtered by the order filter greater than or equal to 1.

    L'invention a également pour objet un dispositif d'encodage de la parole à bande élargie, comportant

    • des moyens d'échantillonnage aptes à échantillonner la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons,
    • des moyens de traitement aptes à chaque trame vocale, à déterminer des paramètres d'un modèle de prédiction linéaire à excitation par code, ces moyens de traitement comportant des premiers moyens d'extraction aptes à extraire un mot numérique d'excitation à long terme d'un répertoire codé adaptatif et à calculer un gain à long terme associé, et des deuxièmes moyens d'extraction aptes à extraire un mot d'excitation à court terme d'un répertoire codé algébrique et à calculer un gain à court terme associé, et
    • des premiers moyens de mise à jour aptes à mettre à jour le répertoire codé adaptatif à partir du mot d'excitation à long terme extrait et du mot d'excitation à court terme extrait. Selon une caractéristique générale de l'invention, les premiers moyens de mise à jour comportent
    • des premiers moyens de calcul aptes à sommer le produit du mot extrait d'excitation à long terme par le gain à long terme associé, avec le produit du mot extrait d'excitation à court terme par le gain à court terme associé, de façon à délivrer un mot numérique sommé, et
    • un filtre passe-bas ayant une fréquence de coupure supérieure au quart de la fréquence d'échantillonnage et inférieure à la moitié de celle-ci, et connecté entre la sortie des premiers moyens de calcul et le répertoire codé adaptatif de façon à mettre à jour ce répertoire adaptatif avec le mot filtré.
    The subject of the invention is also a device for encoding speech with a wide band, comprising
    • sampling means able to sample the speech so as to obtain successive speech frames each comprising a predetermined number of samples,
    • processing means suitable for each voice frame, in determining parameters of a linear prediction model with code excitation, these processing means comprising first extraction means capable of extracting a digital word of long-term excitation d '' an adaptive coded repertoire and calculating an associated long-term gain, and second extraction means capable of extracting a short-term excitation word from an algebraic coded repertoire and calculating an associated short-term gain, and
    • first updating means capable of updating the adaptive coded directory on the basis of the extracted long-term excitation word and the extracted short-term excitation word. According to a general characteristic of the invention, the first updating means comprise
    • first calculation means capable of summing the product of the extracted word of long-term excitation by the associated long-term gain, with the product of the extracted word of short-term excitation by the associated short-term gain, so as to issue a summed digital word, and
    • a low-pass filter having a cutoff frequency greater than a quarter of the sampling frequency and less than half of it, and connected between the output of the first calculation means and the adaptive coded directory so as to update this adaptive directory with the filtered word.

    Selon un mode de réalisation de l'invention, les premiers moyens d'extraction comportent un filtre numérique de prédiction linéaire, et par le fait que le dispositif comporte des deuxièmes moyens de mise à jour aptes à effectuer une mise à jour de l'état du filtre de prédiction linéaire avec le mot d'excitation à court terme filtré par un filtre dont le ou les coefficients dépendent de la valeur du gain à long terme, de façon à affaiblir la contribution de l'excitation à court terme lorsque le gain de l'excitation à long terme est supérieur à un seuil prédéterminé.According to one embodiment of the invention, the first extraction means include a digital prediction filter linear, and by the fact that the device comprises second updating means capable of updating the state of the linear prediction filter with short term excitation word filtered by a filter whose coefficient (s) depend on the value long-term gain, so as to weaken the contribution of short-term excitement when gaining long-term excitement is above a predetermined threshold.

    Selon un autre mode de réalisation de l'invention, les premiers moyens d'extraction comprennent un premier filtre de pondération perceptuelle comportant un premier filtre de pondération formantique, par le fait que les deuxièmes moyens d'extraction comprennent le premier filtre de pondération perceptuelle cascadé à un deuxième filtre de pondération perceptuelle comportant un deuxième filtre de pondération formantique, et par le fait que le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique.According to another embodiment of the invention, the first extraction means include a first filter perceptual weighting including a first weighting filter formantic, by the fact that the second means of extraction include the first perceptual weighting filter cascaded to a second perceptual weighting filter comprising a second formantic weighting filter, and by the fact that the denominator of the transfer function of the first filter of formantic weighting is equal to the numerator of the second filter formantic weighting.

    L'invention a également pour objet un terminal d'un système de communication sans fil, par exemple un téléphone mobile cellulaire, incorporant un dispositif tel que défini ci-avant.The invention also relates to a terminal of a system wireless communication, such as a mobile phone cell, incorporating a device as defined above.

    D'autres avantages et caractéristiques de l'invention apparaítront à l'examen de la description détaillée de modes de réalisation et de mise en oeuvre, nullement limitatifs, et des dessins annexés, sur lesquels :

    • la figure 1, déjà décrite, illustre schématiquement un dispositif d'encodage de la parole, selon l'art antérieur ;
    • la figure 2 illustre schématiquement un premier mode de réalisation d'un dispositif d'encodage, selon l'invention ;
    • la figure 3 illustre schématiquement un deuxième mode de réalisation d'un dispositif d'encodage, selon l'invention, et la figure 3a illustre schématiquement un mode de réalisation d'un décodeur correspondant ;
    • la figure 4 illustre schématiquement un troisième mode de réalisation d'un dispositif d'encodage, selon l'invention ;
    • la figure 5 illustre schématiquement un quatrième mode de réalisation d'un dispositif d'encodage, selon l'invention ; et
    • la figure 6 illustre schématiquement l'architecture interne d'un téléphone mobile cellulaire incorporant un dispositif de codage, selon l'invention.
    Other advantages and characteristics of the invention will appear on examining the detailed description of embodiments and implementation, in no way limiting, and the appended drawings, in which:
    • Figure 1, already described, schematically illustrates a speech encoding device, according to the prior art;
    • Figure 2 schematically illustrates a first embodiment of an encoding device according to the invention;
    • Figure 3 schematically illustrates a second embodiment of an encoding device according to the invention, and Figure 3a schematically illustrates an embodiment of a corresponding decoder;
    • Figure 4 schematically illustrates a third embodiment of an encoding device according to the invention;
    • FIG. 5 schematically illustrates a fourth embodiment of an encoding device according to the invention; and
    • FIG. 6 schematically illustrates the internal architecture of a cellular mobile telephone incorporating a coding device according to the invention.

    Le dispositif d'encodage, ou codeur, CD, selon l'invention, tel qu'illustré sur la figure 2, se distingue de celui de l'art antérieur comme illustré sur la figure 1 par le fait que les moyens MAJ de mise à jour du dictionnaire à long terme adaptatifs DLT comportent un filtre de correction totale FLCT connecté entre la sortie d'un sommateur SM et l'entrée du dictionnaire DLT.The encoding device, or encoder, CD, according to the invention, as illustrated in Figure 2, differs from that of the prior art as illustrated in FIG. 1 by the fact that the MAJ means of DLT adaptive long-term dictionary update feature a total correction filter FLCT connected between the output of a SM summer and DLT dictionary entry.

    Les deux entrées du sommateur SM reçoivent respectivement le produit du mot extrait d'excitation à long terme v; par le gain à long terme associé Ga, et le produit du mot extrait d'excitation à court terme cj par le gain associé Gc.The two inputs of the summator SM respectively receive the product of the extracted word of long-term excitation v; by the associated long-term gain Ga, and the product of the extracted short-term excitation word c j by the associated gain Gc.

    Ce filtre de correction totale FLCT est un filtre passe-bas ayant d'une façon générale une fréquence de coupure supérieure au quart de la fréquence d'échantillonnage et inférieure à la moitié de celle-ci.This FLCT total correction filter is a low pass filter generally having a cutoff frequency greater than quarter of the sampling frequency and less than half of it.

    Ce filtre est dans l'exemple décrit un filtre numérique à réponse impulsionnelle finie à phase linéaire ayant un ordre au moins égal à 10.This filter is in the example described a digital filter with linear phase finite impulse response with order at less than 10.

    Plus précisément, lorsque la fréquence d'échantillonnage est de 16 kHz, on utilisera de préférence une fréquence de coupure de l'ordre de 6 kHz et un filtre d'ordre 20, ce qui réalise un bon compromis entre la complexité de la mémoire et la qualité du signal vocal reconstitué.More specifically, when the sampling frequency is of 16 kHz, a cutoff frequency of preferably will be used of the order of 6 kHz and a filter of order 20, which achieves a good trade-off between memory complexity and signal quality reconstituted vocal.

    Le bruit harmonique est introduit par la contribution de l'excitation à long terme et par la répétition d'échantillons pour des valeurs de la période fondamentale (pitch) inférieures à la longueur d'une trame de parole, ici de 5 ms. Ce bruit est également présent pour des valeurs de la période fondamentale supérieures à la taille d'une trame. Il est en outre lié au gain adaptatif, extrait une seule fois par trame de parole.Harmonic noise is introduced by the contribution of long-term excitement and by repeating samples for values of the fundamental period (pitch) less than the length of a speech frame, here of 5 ms. This noise is also present for values of the fundamental period greater than the size of a frame. It is also linked to adaptive gain, extracts a single times per speech frame.

    L'utilisation d'un filtrage passe-bas de la contribution à long terme est une solution pour réduire le bruit harmonique. Using long-pass low-pass filtering term is a solution to reduce harmonic noise.

    Par ailleurs, le bruit à haute fréquence est introduit par des anciennes contributions à haute fréquence du dictionnaire à court terme, présentes dans le dictionnaire adaptatif.In addition, high frequency noise is introduced by old high frequency short dictionary contributions term, present in the adaptive dictionary.

    Pour éliminer ce bruit haute fréquence, on peut éliminer les composantes résiduelles à haute fréquence du dictionnaire adaptatif, en utilisant un filtre de correction, et ceci avant de remettre à jour le dictionnaire.To eliminate this high frequency noise, we can eliminate high frequency residual components of the adaptive dictionary, using a correction filter, and this before updating the dictionary.

    Le filtre de correction totale selon l'invention réalise donc la double fonction de correction harmonique et de correction haute fréquence. Ceci permet une amélioration de la qualité durant les trames de parole voisées.The total correction filter according to the invention therefore achieves the double harmonic correction and high correction function frequency. This allows an improvement in quality during voiced speech frames.

    En outre, l'emplacement de ce filtre, c'est-à-dire en entrée du dictionnaire adaptatif, permet de prendre en compte le filtrage lors de la minimisation de l'erreur effectuée pour choisir l'excitation adaptative de la trame de parole suivante.In addition, the location of this filter, i.e. at the input of the adaptive dictionary, allows filtering to be taken into account minimization of the error made to choose the excitation adaptive of the following speech frame.

    Dans le mode de réalisation illustré sur la figure 3, le codeur CD comporte en outre des deuxièmes moyens de mise à jour MAJ2 aptes à effectuer une mise à jour de l'état du filtre de prédiction linéaire FP et de l'état du filtre de pondération perceptuelle FPP avec le mot d'excitation à court terme Cj filtré par un filtre que l'on a représenté ici schématiquement par un gain Gc'. Ce filtre peut être d'ordre 0 et son gain Gc' est inférieur au gain Gc. En variante, ce filtre peut être à réponse impulsionnelle finie et d'ordre supérieur ou égal à 1, avec pour cas particulier un filtre à réponse impulsionnelle finie d'ordre 1.In the embodiment illustrated in FIG. 3, the coder CD further comprises second updating means MAJ2 able to update the state of the linear prediction filter FP and the state of the filter perceptual weighting FPP with the short-term excitation word C j filtered by a filter which is represented here schematically by a gain Gc '. This filter can be of order 0 and its gain Gc 'is less than the gain Gc. As a variant, this filter can be of finite impulse response and of order greater than or equal to 1, with for example a filter of finite impulse response of order 1.

    Les coefficients de ce filtre d'ordre 1 dépendent de la valeur du gain à long terme Ga, de façon à affaiblir la contribution de l'excitation à court terme lorsque le gain de l'excitation à long terme Ga est supérieur à un seuil prédéterminé, par exemple égal à 1.The coefficients of this first order filter depend on the value long-term gain Ga, so as to weaken the contribution of short-term excitement when gaining long-term excitement Ga is greater than a predetermined threshold, for example equal to 1.

    La fonction de transfert de ce filtre est égale à B0+B1 z-1. A titre d'exemple, le premier coefficient du filtre B0 peut être déterminé par la formule (I) ci-dessous. 1/(1+0,98 min (Ga, 1)) tandis que le deuxième coefficient du filtre B1 peut être déterminé par la formule (II) ci-dessous. 0,98 min (Ga, 1) / (1 + 0,98 min (Ga, 1)) The transfer function of this filter is equal to B0 + B1 z -1 . By way of example, the first coefficient of the filter B0 can be determined by the formula (I) below. 1 / (1 + 0.98 min (Ga, 1)) while the second coefficient of filter B1 can be determined by formula (II) below. 0.98 min (Ga, 1) / (1 + 0.98 min (Ga, 1))

    Par contre c'est bien la contribution à court terme non affaiblie (gain Gc) qui est stockée dans le dictionnaire adaptatif DLT pour sa mise à jour.However, it is the short-term contribution not weakened (gain Gc) which is stored in the adaptive DLT dictionary for its update.

    Ainsi, l'affaiblissement intervient uniquement sur le signal de sortie et le fait de préserver l'amplitude de la contribution à court terme à stocker permet de conserver la richesse du dictionnaire adaptatif pour les plus basses fréquences.Thus, the attenuation occurs only on the signal preserving the magnitude of the short contribution term to store keeps the richness of the dictionary adaptive for the lowest frequencies.

    Naturellement, la correction du gain Gc doit être également appliquée pour la mise à jour de l'état des mémoires des filtres dans le décodeur DCD, comme illustré schématiquement sur la figure 3a.Naturally, the correction of the Gc gain must also be applied for updating the memory status of the filters in the DCD decoder, as shown diagrammatically in FIG. 3a.

    La variante de réalisation illustrée sur la figure 3 permet, outre les avantages apportés par le filtre de correction totale, d'éliminer le bruit de type sifflement sur les trames de parole voisées.The variant embodiment illustrated in FIG. 3 allows, in addition to the benefits of the total correction filter, to eliminate hissing noise on speech frames voiced.

    Le filtre de pondération perceptuelle FPP exploite les propriétés de masquage de l'oreille humaine par rapport à l'enveloppe spectrale du signal de parole, dont la forme est fonction des résonances du conduit vocal. Ce filtre permet d'attribuer plus d'importance à l'erreur apparaissant dans les vallées spectrales par rapport aux pics formantiques.The FPP perceptual weighting filter uses the masking properties of the human ear compared to the spectral envelope of the speech signal, whose shape is a function resonances of the vocal tract. This filter allows you to assign more importance of the error appearing in the spectral valleys by compared to formic peaks.

    Dans les variantes illustrées sur les figures 2 et 3, le même filtre de pondération perceptuelle FPP est utilisé pour la recherche à court terme et pour celle à long terme. La fonction de transfert W(z) de ce filtre FPP est donnée par la formule (III) ci-dessous. W(z) = A(z1) A(z2) dans laquelle 1/A(z) est la fonction de transfert du filtre prédictif FP et γ1 et γ2 sont les coefficients de pondération perceptuelle, les deux coefficients étant positifs ou nuls et inférieurs ou égaux à 1 avec le coefficient γ2 inférieur ou égal au coefficient γ1.In the variants illustrated in FIGS. 2 and 3, the same FPP perceptual weighting filter is used for short-term research and for long-term research. The transfer function W (z) of this FPP filter is given by the formula (III) below. W ( z ) = AT ( z / γ 1 ) AT ( z / γ 2 ) in which 1 / A (z) is the transfer function of the predictive filter FP and γ1 and γ2 are the perceptual weighting coefficients, the two coefficients being positive or zero and less than or equal to 1 with the coefficient γ2 less than or equal to the coefficient γ1.

    D'une façon générale, le filtre de pondération perceptuelle est constitué d'un filtre de pondération formantique et d'un filtre de pondération de la pente de l'enveloppe spectrale du signal (tilt).In general, the perceptual weighting filter consists of a formantic weighting filter and a weighting of the slope of the spectral envelope of the signal (tilt).

    Dans le cas présent, on supposera que le filtre de pondération perceptuelle est uniquement formé du filtre de pondération formantique dont la fonction de transfert est donnée par la formule (III) ci-dessus.In this case, assume that the weighting filter perceptual is only formed by the weighting filter formant whose transfer function is given by the formula (III) above.

    Or, la nature spectrale de la contribution à long terme est différente de celle de la contribution à court terme. Par conséquent, il est avantageux d'utiliser deux filtres de pondération formantique différents, permettant de contrôler indépendamment les distorsions à court terme et à long terme.The spectral nature of the long-term contribution is different from the short-term contribution. Therefore, it is advantageous to use two formantic weighting filters different, allowing independent control of distortions at short term and long term.

    Un tel mode de réalisation est illustré sur la figure 4, dans laquelle, par rapport à la figure 3, le filtre unique FPP a été remplacé par un premier filtre de pondération formantique FPP1 pour la recherche à long terme, cascadé avec un deuxième filtre de pondération formantique FPP2 pour la recherche à court terme.Such an embodiment is illustrated in FIG. 4, in which, compared to Figure 3, the unique FPP filter was replaced by a first formantic weighting filter FPP1 for long-term research, cascaded with a second filter of FPP2 formant weighting for short-term research.

    Puisque le filtre de pondération à court terme FPP2 est cascadé au filtre de pondération à long terme, les filtres apparaissant dans la boucle de recherche long terme doivent aussi apparaítre dans la boucle de recherche court terme.Since the short-term weighting filter FPP2 is cascaded to the long-term weighting filter, the filters appearing in the long-term research loop should also appear in the short-term research loop.

    La fonction de transfert W1(z) du filtre de pondération formantique FPP1 est donnée par la formule (IV) ci-dessous. W 1(z) = A(z11) A(z12) tandis que la fonction de transfert W2(z) du filtre de pondération formantique FPP2 est donnée par la formule (V) ci-dessous. W 2(z) = A(z21) A(z22) The transfer function W 1 (z) of the formantic weighting filter FPP1 is given by formula (IV) below. W 1 ( z ) = AT ( z / γ 11 ) AT ( z / γ 12 ) while the transfer function W 2 (z) of the formantic weighting filter FPP2 is given by the formula (V) below. W 2 ( z ) = AT ( z / γ 21 ) AT ( z / γ 22 )

    Par ailleurs, le coefficient γ12 est égal au coefficient γ21. Ceci permet une nette simplification lorsqu'on cascade ces deux filtres. Ainsi, le filtre équivalent à la cascade de ces deux filtres a une fonction de transfert donnée par la formule (VI) ci-dessous. A(z11) A(z12) Furthermore, the coefficient γ 12 is equal to the coefficient γ 21 . This allows a clear simplification when cascading these two filters. Thus, the filter equivalent to the cascade of these two filters has a transfer function given by the formula (VI) below. AT ( z / γ 11 ) AT ( z / γ 12 )

    Par ailleurs, si l'on utilise la valeur 1 pour le coefficient γ11, alors le filtre de synthèse FP (ayant la fonction de transfert 1/A(z)) suivi du filtre de pondération à long terme FPP1 et du filtre de pondération FPP2 équivaut alors au filtre dont la fonction de transfert est donnée par la formule (VII) ci-dessous. 1 A(z22) Furthermore, if the value 1 is used for the coefficient γ 11 , then the synthesis filter FP (having the transfer function 1 / A (z)) followed by the long-term weighting filter FPP1 and the weighting filter FPP2 is then equivalent to the filter whose transfer function is given by formula (VII) below. 1 AT ( z / γ 22 )

    Ce qui réduit encore considérablement la complexité de l'algorithme d'extraction des excitations.This further reduces the complexity of the excitation extraction algorithm.

    A titre indicatif, on peut par exemple utiliser pour les coefficients γ11, γ21 = γ12 et γ22, les valeurs respectives 1 ; 0,1 et 0,9.As an indication, one can for example use for the coefficients γ 11 , γ 21 = γ 12 and γ 22 , the respective values 1; 0.1 and 0.9.

    Bien entendu, la variante prévoyant l'utilisation de deux filtres formantiques différents peut être utilisée indépendamment de celle prévoyant l'affaiblissement du gain Gc.Of course, the variant providing for the use of two different form filters can be used independently of that providing for the weakening of the gain Gc.

    Un tel mode de réalisation est illustré sur la figure 5, où l'on voit que l'utilisation des deux filtres formantiques est prise en combinaison avec l'utilisation du filtre de correction totale.Such an embodiment is illustrated in FIG. 5, where one see that the use of the two form filters is taken into account combination with the use of the total correction filter.

    L'invention s'applique avantageusement à la téléphonie mobile, et en particulier à tous terminaux distants appartenant à un système de communication sans fil.The invention advantageously applies to telephony mobile, and in particular to all remote terminals belonging to a wireless communication system.

    Un tel terminal, par exemple un téléphone mobile TP, tel que celui illustré sur la figure 6, comporte de façon classique une antenne reliée par l'intermédiaire d'un duplexeur DUP à une chaíne de réception CHR et à une chaíne de transmission CHT. Un processeur en bande de base BB est relié respectivement à la chaíne de réception CHR et à la chaíne de transmission CHT par l'intermédiaire de convertisseurs analogiques numériques CAN et numériques analogiques CNA.Such a terminal, for example a TP mobile telephone, such as that illustrated in FIG. 6, conventionally comprises a antenna connected via a DUP duplexer to a chain reception CHR and a CHT transmission chain. A baseband processor BB is connected to the chain respectively of reception CHR and to the chain of transmission CHT by via analog digital ADCs and analog digital DACs.

    Classiquement, le processeur BB effectue des traitements en bande de base, et notamment un décodage de canal DCN, suivi d'un décodage de source DCS.Conventionally, the processor BB performs processing in baseband, including DCN channel decoding, followed by DCS source decoding.

    Pour l'émission, le processeur effectue un codage de source CCS suivi d'un codage de canal CCN.For transmission, the processor performs source coding CCS followed by CCN channel coding.

    Lorsque le téléphone mobile incorpore un codeur selon l'invention, celui-ci est incorporé au sein des moyens de codage de source CCS, tandis que le décodeur est incorporé au sein des moyens de décodage de source DCS.When the mobile phone incorporates an encoder according to the invention, it is incorporated within the coding means of CCS source, while the decoder is incorporated within the means DCS source decoding.

    Claims (18)

    Procédé d'encodage de la parole à bande élargie, dans lequel on échantillonne la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons, et à chaque trame vocale on détermine des paramètres d'un modèle de prédiction linéaire à excitation par code, ces paramètres comportant un mot numérique d'excitation à long terme (v;) extrait d'un répertoire codé adaptatif (DLT) et un gain à long terme associé (Ga), ainsi qu'un mot d'excitation à court terme (cj) extrait d'un répertoire codé algébrique (DCT) et un gain à court terme associé (Gc), et on met à jour le répertoire codé adaptatif à partir du mot d'excitation à long terme extrait et du mot d'excitation à court terme extrait, caractérisé par le fait qu'on somme (SM) le produit du mot extrait d'excitation à long terme par le gain à long terme associé, avec le produit du mot extrait d'excitation à court terme par le gain à court terme associé, on filtre le mot numérique sommé dans un filtre passe-bas (FLCT) ayant une fréquence de coupure supérieure au quart de la fréquence d'échantillonnage et inférieure à la moitié de celle-ci, et on met à jour le répertoire codé adaptatif avec le mot filtré.Wideband speech encoding method, in which speech is sampled so as to obtain successive speech frames each comprising a predetermined number of samples, and for each speech frame parameters of a linear prediction model are determined with code excitation, these parameters comprising a long term digital excitation word (v;) extracted from an adaptive coded directory (DLT) and an associated long term gain (Ga), as well as an excitation word short-term (cj) extracted from an algebraic coded repertoire (DCT) and an associated short-term gain (Gc), and the adaptive coded repertoire is updated from the extracted long-term excitation word and the word of short-term excitation extracted, characterized by the fact that we sum (SM) the product of the word extracted from long-term excitation by the associated long-term gain, with the product of the word extracted from short-term excitation by short-term gain assoc ié, we filter the summed digital word in a low-pass filter (FLCT) having a cut-off frequency greater than a quarter of the sampling frequency and less than half of it, and we update the adaptive coded directory with the filtered word. Procédé selon la revendication 1, caractérisé par le fait qu'on filtre le mot sommé avec un filtre numérique (FLCT) à réponse impulsionnelle finie à phase linéaire ayant un ordre au moins égal à 10.Method according to claim 1, characterized in that the summed word is filtered with a digital filter (FLCT) with finite impulse response in linear phase having an order at least equal to 10. Procédé selon la revendication 2, caractérisé par le fait que la fréquence d'échantillonnage est de 16 kHz, et par le fait que le filtre (FLCT) est un filtre d'ordre 20 ayant une fréquence de coupure de l'ordre de 6 kHz.Method according to Claim 2, characterized in that the sampling frequency is 16 kHz, and in that the filter (FLCT) is a filter of order 20 having a cut-off frequency of the order of 6 kHz . Procédé selon l'une des revendications précédentes, caractérisé par le fait que l'extraction du mot d'excitation à court terme comporte un filtrage numérique de prédiction linéaire (FP), et par le fait que le procédé comporte une mise à jour de l'état du filtre de prédiction linéaire avec le mot d'excitation à court terme filtré par un filtre (Gc') dont le ou les coefficients dépendent de la valeur du gain à long terme, de façon à affaiblir la contribution de l'excitation à court terme lorsque le gain de l'excitation à long terme est supérieur à un seuil prédéterminé.Method according to one of the preceding claims, characterized in that the extraction of the short-term excitation word comprises a digital linear prediction (FP) filtering, and in that the method comprises an update of the state of the linear prediction filter with the short term excitation word filtered by a filter (Gc ') whose coefficients or coefficients depend on the value of the long term gain, so as to weaken the contribution of the excitation to short term when the gain of the long term excitation is higher than a predetermined threshold. Procédé selon la revendication 4, caractérisé par le fait que le seuil prédéterminé est égal à 1.Method according to claim 4, characterized in that the predetermined threshold is equal to 1. Procédé selon la revendication 5, caractérisé par le fait que le filtre est d'ordre 1 et a une fonction de transfert égale à B0+B1 z-1, et par le fait que le premier coefficient du filtre B0 est égal à 1/(1+β.min(Ga,1)), et le deuxième coefficient du filtre B1 est égal à β.min(Ga,1)/(1+β.min(Ga,1)), où β est un nombre réel de valeur absolue inférieure à 1, Ga est le gain à long terme et min(Ga,1) désigne la valeur minimale entre Ga et 1.Method according to claim 5, characterized in that the filter is of order 1 and has a transfer function equal to B0 + B1 z -1 , and in that the first coefficient of the filter B0 is equal to 1 / ( 1 + β.min (Ga, 1)), and the second coefficient of the filter B1 is equal to β.min (Ga, 1) / (1 + β.min (Ga, 1)), where β is a real number with an absolute value less than 1, Ga is the long-term gain and min (Ga, 1) designates the minimum value between Ga and 1. Procédé selon l'une des revendications précédentes, caractérisé par le fait qu'on effectue l'extraction du mot d'excitation à long terme en utilisant un premier filtre de pondération perceptuelle (FPP1) comportant un premier filtre de pondération formantique, par le fait qu'on effectue l'extraction du mot d'excitation à court terme en utilisant le premier filtre de pondération perceptuelle (FPP1) cascadé à un deuxième filtre de pondération perceptuelle (FPP2) comportant un deuxième filtre de pondération formantique, et par le fait que le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique.Method according to one of the preceding claims, characterized in that the extraction of the long-term excitation word is carried out using a first perceptual weighting filter (FPP1) comprising a first formant weighting filter, by the fact that the short term excitation word is extracted using the first perceptual weighting filter (FPP1) cascaded to a second perceptual weighting filter (FPP2) comprising a second formantic weighting filter, and by the fact that the denominator of the transfer function of the first formant weighting filter is equal to the numerator of the second formant weighting filter. Procédé selon la revendication 7 prise en combinaison avec l'une des revendications 4 à 6, caractérisé par le fait qu'il comporte une mise à jour de l'état des deux filtres de pondération perceptuelle avec le mot d'excitation à court terme filtré par ledit filtre d'ordre 1.Method according to claim 7 taken in combination with one of claims 4 to 6, characterized in that it includes an update of the state of the two perceptual weighting filters with the filtered short-term excitation word by said order filter 1. Dispositif d'encodage de la parole à bande élargie, comportant des moyens d'échantillonnage aptes à échantillonner la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons, des moyens de traitement aptes à chaque trame vocale, à déterminer des paramètres d'un modèle de prédiction linéaire à excitation par code, ces moyens de traitement comportant des premiers moyens d'extraction (MEXT1) aptes à extraire un mot numérique d'excitation à long terme d'un répertoire codé adaptatif et à calculer un gain à long terme associé, et des deuxièmes moyens d'extraction (MEXT2) aptes à extraire un mot d'excitation à court terme d'un répertoire codé algébrique et à calculer un gain à court terme associé, et des premiers moyens de mise à jour (MAJ) aptes à mettre à jour le répertoire codé adaptatif à partir du mot d'excitation à long terme extrait et du mot d'excitation à court terme extrait, caractérisé par le fait que les premiers moyens de mise à jour comportent des premiers moyens de calcul (SM) aptes à sommer le produit du mot extrait d'excitation à long terme par le gain à long terme associé, avec le produit du mot extrait d'excitation à court terme par le gain à court terme associé, de façon à délivrer un mot numérique sommé, et un filtre passe-bas (FLCT) ayant une fréquence de coupure supérieure au quart de la fréquence d'échantillonnage et inférieure à la moitié de celle-ci, et connecté entre la sortie des premiers moyens de calcul et le répertoire codé adaptatif de façon à mettre à jour ce répertoire adaptatif avec le mot filtré. Wideband speech encoding device comprising sampling means able to sample the speech so as to obtain successive speech frames each comprising a predetermined number of samples, processing means suitable for each voice frame, in determining parameters of a linear prediction model with code excitation, these processing means comprising first extraction means (MEXT1) capable of extracting a digital excitation word with long term of an adaptive coded repertoire and calculating an associated long term gain, and second extraction means (MEXT2) able to extract a short term excitation word from an algebraic coded repertoire and calculating a gain associated short-term, and first updating means (MAJ) capable of updating the adaptive coded directory on the basis of the extracted long-term excitation word and the extracted short-term excitation word, characterized in that the first means of update feature first calculation means (SM) capable of summing the product of the word extracted from long-term excitation by the associated long-term gain, with the product of the word extracted from short-term excitation by the associated short-term gain, so as to deliver a summed digital word, and a low-pass filter (FLCT) having a cut-off frequency greater than a quarter of the sampling frequency and less than half of it, and connected between the output of the first calculation means and the adaptive coded repertoire so as to update this adaptive directory with the filtered word. Dispositif selon la revendication 9, caractérisé par le fait que le filtre passe-bas (FLCT) est un filtre numérique à réponse impulsionnelle finie à phase linéaire ayant un ordre au moins égal à 10.Device according to Claim 9, characterized in that the low-pass filter (FLCT) is a digital finite impulse response filter with linear phase having an order at least equal to 10. Dispositif selon la revendication 10, caractérisé par le fait que la fréquence d'échantillonnage est de 16 kHz, et par le fait que le filtre est un filtre d'ordre 20 ayant une fréquence de coupure de l'ordre de 6 kHz. Device according to Claim 10, characterized in that the sampling frequency is 16 kHz, and in that the filter is a filter of order 20 having a cut-off frequency of the order of 6 kHz. Dispositif selon l'une des revendications 9 à 11, caractérisé par le fait que les premiers moyens d'extraction comportent un filtre numérique de prédiction linéaire (FP), et par le fait que le dispositif comporte des deuxièmes moyens de mise à jour (MAJ2) aptes à effectuer une mise à jour de l'état du filtre de prédiction linéaire avec le mot d'excitation à court terme filtré (Gc') par un filtre dont les coefficients dépendent de la valeur du gain à long terme, de façon à affaiblir la contribution de l'excitation à court terme lorsque le gain de l'excitation à long terme est supérieur à un seuil prédéterminé.Device according to one of Claims 9 to 11, characterized in that the first extraction means comprise a digital linear prediction filter (FP), and in that the device comprises second updating means (MAJ2 ) capable of updating the state of the linear prediction filter with the short-term excitation word filtered (Gc ') by a filter whose coefficients depend on the value of the long-term gain, so as to weaken the contribution of short-term excitation when the gain of long-term excitation is above a predetermined threshold. Dispositif selon la revendication 12, caractérisé par le fait que le seuil prédéterminé est égal à 1.Device according to claim 12, characterized in that the predetermined threshold is equal to 1. Dispositif selon la revendication 13, caractérisé par le fait que le filtre est un filtre d'ordre 1 et a une fonction de transfert égale à B0+B1 z-1, et par le fait que le premier coefficient B0 du filtre est égal à 1/(1+β.min(Ga,1)), et le deuxième coefficient B1 du filtre est égal à β.min(Ga,1)/(1+β.min(Ga,1)), où β est un nombre réel de valeur absolue inférieure à 1, Ga est le gain à long terme et min(Ga,1) désigne la valeur minimale entre Ga et 1.Device according to claim 13, characterized in that the filter is a filter of order 1 and has a transfer function equal to B0 + B1 z -1 , and in that the first coefficient B0 of the filter is equal to 1 /(1+β.min(Ga,1)), and the second coefficient B1 of the filter is equal to β.min (Ga, 1) / (1 + β.min (Ga, 1)), where β is a real number of absolute value less than 1, Ga is the long-term gain and min (Ga, 1) designates the minimum value between Ga and 1. Dispositif selon l'une des revendications 9 à 14, caractérisé par le fait que les premiers moyens d'extraction comprennent un premier filtre de pondération perceptuelle (FPP1) comportant un premier filtre de pondération formantique, par le fait que les deuxièmes moyens d'extraction comprennent le premier filtre de pondération perceptuelle cascadé à un deuxième filtre de pondération perceptuelle (FPP2) comportant un deuxième filtre de pondération formantique, et par le fait que le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique.Device according to one of Claims 9 to 14, characterized in that the first extraction means comprise a first perceptual weighting filter (FPP1) comprising a first formantic weighting filter, in that the second extraction means include the first perceptual weighting filter cascaded to a second perceptual weighting filter (FPP2) having a second formant weighting filter, and in that the denominator of the transfer function of the first formant weighting filter is equal to the numerator of the second formantic weighting filter. Dispositif selon la revendication 15 prise en combinaison avec l'une des revendications 12 à 14, caractérisé par le fait que les deuxièmes moyens de mise à jour sont aptes à effectuer une mise à jour de l'état des deux filtres de pondération perceptuelle avec le mot d'excitation à court terme filtré par ledit filtre d'ordre 1. Device according to Claim 15 taken in combination with one of Claims 12 to 14, characterized in that the second updating means are capable of updating the state of the two perceptual weighting filters with the short term excitation word filtered by said filter of order 1. Terminal d'un système de communication sans fil, caractérisé par le fait qu'il incorpore un dispositif selon l'une des revendications 9 à 16.Terminal of a wireless communication system, characterized in that it incorporates a device according to one of claims 9 to 16. Terminal selon la revendication 17, caractérisé par le fait qu'il forme un téléphone mobile cellulaire.Terminal according to claim 17, characterized in that it forms a cellular mobile telephone.
    EP02015918A 2002-07-17 2002-07-17 Method and device for wide band speech coding Withdrawn EP1383109A1 (en)

    Priority Applications (3)

    Application Number Priority Date Filing Date Title
    EP02015918A EP1383109A1 (en) 2002-07-17 2002-07-17 Method and device for wide band speech coding
    EP20030291747 EP1383111A2 (en) 2002-07-17 2003-07-15 Method and device for speechcoding with enlarged bandwidth
    US10/622,021 US7254534B2 (en) 2002-07-17 2003-07-17 Method and device for encoding wideband speech

    Applications Claiming Priority (1)

    Application Number Priority Date Filing Date Title
    EP02015918A EP1383109A1 (en) 2002-07-17 2002-07-17 Method and device for wide band speech coding

    Publications (1)

    Publication Number Publication Date
    EP1383109A1 true EP1383109A1 (en) 2004-01-21

    Family

    ID=29762636

    Family Applications (1)

    Application Number Title Priority Date Filing Date
    EP02015918A Withdrawn EP1383109A1 (en) 2002-07-17 2002-07-17 Method and device for wide band speech coding

    Country Status (2)

    Country Link
    US (1) US7254534B2 (en)
    EP (1) EP1383109A1 (en)

    Families Citing this family (6)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
    CN103928029B (en) 2013-01-11 2017-02-08 华为技术有限公司 Audio signal coding method, audio signal decoding method, audio signal coding apparatus, and audio signal decoding apparatus
    AU2015251609B2 (en) 2014-04-25 2018-05-17 Ntt Docomo, Inc. Linear prediction coefficient conversion device and linear prediction coefficient conversion method
    CN105096958B (en) 2014-04-29 2017-04-12 华为技术有限公司 audio coding method and related device
    US9959364B2 (en) * 2014-05-22 2018-05-01 Oath Inc. Content recommendations
    CN106502799A (en) * 2016-12-30 2017-03-15 南京大学 A kind of host load prediction method based on long memory network in short-term

    Citations (1)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    EP0751494A1 (en) * 1994-12-21 1997-01-02 Sony Corporation Sound encoding system

    Family Cites Families (9)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US3391763A (en) 1967-02-14 1968-07-09 Kelsey Hayes Co Brake disk
    DE2257176C3 (en) 1972-11-22 1979-03-15 Dr.Ing.H.C. F. Porsche Ag, 7000 Stuttgart Double-sided disc brake for motor vehicles
    EP0512853B1 (en) 1991-05-10 1996-08-21 KIRIU MACHINE MFG. Co., Ltd. Ventilated-type disc rotor
    FR2729245B1 (en) * 1995-01-06 1997-04-11 Lamblin Claude LINEAR PREDICTION SPEECH CODING AND EXCITATION BY ALGEBRIC CODES
    US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
    FR2742568B1 (en) * 1995-12-15 1998-02-13 Catherine Quinquis METHOD OF LINEAR PREDICTION ANALYSIS OF AN AUDIO FREQUENCY SIGNAL, AND METHODS OF ENCODING AND DECODING AN AUDIO FREQUENCY SIGNAL INCLUDING APPLICATION
    US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
    US6260669B1 (en) 1999-07-30 2001-07-17 Hayes Lemmerz International, Inc. Brake rotor with airflow director
    US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals

    Patent Citations (1)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    EP0751494A1 (en) * 1994-12-21 1997-01-02 Sony Corporation Sound encoding system

    Non-Patent Citations (2)

    * Cited by examiner, † Cited by third party
    Title
    KROON P ET AL: "Strategies for improving the performance of CELP coders at low bit rates (speech analysis)", ICASSP 88: 1988 INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (CAT. NO.88CH2561-9), NEW YORK, NY, USA, 11-14 APRIL 1988, 1988, New York, NY, USA, IEEE, USA, pages 151 - 154 vol.1, XP010073075 *
    TANIGUCHI T ET AL: "Pitch sharpening for perceptually improved CELP, and the sparse-delta codebook for reduced computation", SPEECH PROCESSING 2, VLSI, UNDERWATER SIGNAL PROCESSING. TORONTO, MAY 14 - 17, 1991, INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH & SIGNAL PROCESSING. ICASSP, NEW YORK, IEEE, US, vol. 2 CONF. 16, 14 April 1991 (1991-04-14), pages 241 - 244, XP010043867, ISBN: 0-7803-0003-3 *

    Also Published As

    Publication number Publication date
    US7254534B2 (en) 2007-08-07
    US20050075867A1 (en) 2005-04-07

    Similar Documents

    Publication Publication Date Title
    EP0608174B1 (en) System for predictive encoding/decoding of a digital speech signal by an adaptive transform with embedded codes
    EP0782128B1 (en) Method of analysing by linear prediction an audio frequency signal, and its application to a method of coding and decoding an audio frequency signal
    EP0749626B1 (en) Speech coding method using linear prediction and algebraic code excitation
    EP2002428B1 (en) Method for trained discrimination and attenuation of echoes of a digital signal in a decoder and corresponding device
    EP1320087B1 (en) Synthesis of an excitation signal for use in a comfort noise generator
    FR2596936A1 (en) VOICE SIGNAL TRANSMISSION SYSTEM
    EP1125283B1 (en) Method for quantizing speech coder parameters
    EP1267325B1 (en) Process for voice activity detection in a signal, and speech signal coder comprising a device for carrying out the process
    EP0428445B1 (en) Method and apparatus for coding of predictive filters in very low bitrate vocoders
    EP2005424A2 (en) Method for post-processing a signal in an audio decoder
    EP2652735B1 (en) Improved encoding of an improvement stage in a hierarchical encoder
    EP1383109A1 (en) Method and device for wide band speech coding
    FR2702590A1 (en) Digital speech coding and decoding device, method of exploring a pseudo-logarithmic dictionary of LTP delays, and LTP analysis method.
    EP1383111A2 (en) Method and device for speechcoding with enlarged bandwidth
    EP1383110A1 (en) Method and device for wide band speech coding, particularly allowing for an improved quality of voised speech frames
    FR2783651A1 (en) DEVICE AND METHOD FOR FILTERING A SPEECH SIGNAL, RECEIVER AND TELEPHONE COMMUNICATIONS SYSTEM
    EP1383112A2 (en) Method and device for enlarged bandwidth speech coding, allowing in particular an improved quality of voiced frames
    EP1383113A1 (en) Method and device for wide band speech coding capable of controlling independently short term and long term distortions
    EP1388846A2 (en) Method and device for wideband speech coding able to independently control short-term and long-term distortions
    EP1192618B1 (en) Audio coding with adaptive liftering
    WO2001003121A1 (en) Encoding and decoding with harmonic components and minimum phase
    FR2980620A1 (en) Method for processing decoded audio frequency signal, e.g. coded voice signal including music, involves performing spectral attenuation of residue, and combining residue and attenuated signal from spectrum of tonal components
    FR2773653A1 (en) Input sound digital word decoding/coding device, especially for analyzing and compressing inputs for recording
    WO2002029786A1 (en) Method and device for segmental coding of an audio signal
    FR2739482A1 (en) Speech signal analysis method e.g. for low rate vocoder

    Legal Events

    Date Code Title Description
    PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

    Free format text: ORIGINAL CODE: 0009012

    AK Designated contracting states

    Kind code of ref document: A1

    Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LI LU MC NL PT SE SK TR

    AX Request for extension of the european patent

    Extension state: AL LT LV MK RO SI

    STAA Information on the status of an ep patent application or granted ep patent

    Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

    18D Application deemed to be withdrawn

    Effective date: 20031119