FR2734389A1

FR2734389A1 - Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme

Info

Publication number: FR2734389A1
Application number: FR9505851A
Authority: FR
Original assignee: Individual
Current assignee: Individual
Priority date: 1995-05-17
Filing date: 1995-05-17
Publication date: 1996-11-22
Anticipated expiration: 2015-05-17
Also published as: EP0743634B1; JPH08328591A; US5845244A; KR960042516A; JP3481390B2; CN1138183A; CA2176665A1; CN1112671C; DE69604526T2; EP0743634A1; KR100389692B1; DE69604526D1; CA2176665C; HK1003735A1; FR2734389B1

Abstract

Dans un codeur de parole à analyse par synthèse utilisant un filtre de pondération perceptuelle à court terme de fonction de transfert W(z)=A(z/ gamma1 )/A(z/ gamma2 ), on adapte dynamiquement les valeurs des coefficients d'expansion spectrale gamma1 et gamma2 en fonction de paramètres spectraux obtenus lors de l'analyse par prédiction linéaire à court terme. Les paramètres spectraux servant à cette adaptation peuvent notamment comprendre des paramètres représentatifs de la pente générale du spectre du signal de parole, et des paramètres représentatifs du caractère résonant du filtre de synthèse à court terme.

Description

PROCEDE D'ADAPTATION DU NIVEAU DE MASQUAGE DU BRUIT

DANS UN CODEUR DE PAROLE A ANALYSE PAR SYNTHESE

UTILISANT UN FILTRE DE PONDERATION PERCEPTUELLE

A COURT TERME

La présente invention concerne le codage de la parole

par les techniques d'analyse par synthèse.

Un procédé de codage de parole à analyse par synthèse comprend habituellement les étapes suivantes: - analyse par prédiction linéaire d'ordre p d'un signal de parole numérisé en trames successives pour déterminer des paramètres définissant un filtre de synthèse à court terme; - détermination de paramètres d'excitation définissant un signal d'excitation à appliquer au filtre de synthèse à court terme pour produire un signal synthétique représentatif du signal de parole, certains au moins des paramètres d'excitation étant déterminés en minimisant l'énergie d'un signal d'erreur résultant du filtrage de la différence entre le signal de parole et le signal synthétique par au moins un filtre de pondération perceptuelle; et - production de valeurs de quantification des paramètres définissant le filtre de synthèse à court terme

et des paramètres d'excitation.

Les paramètres du filtre de synthèse à court terme, obtenus par prédiction linéaire, sont représentatifs de la fonction de transfert du conduit vocal, et caractéristiques

du spectre du signal d'entrée.

Il existe différentes modélisations du signal d'excitation à appliquer au filtre de synthèse à court terme, qui permettent de distinguer différentes classes de codeurs à analyse par synthèse. Dans la plupart des codeurs actuels, le signal d'excitation comporte une composante à long terme synthétisée par un filtre de synthèse à long terme ou par la technique du répertoire adaptatif ('Adaptive Codebook"), qui permet d'exploiter la périodicité à long terme des sons voisés, tels que les voyelles, due à la vibration des cordes vocales. Dans les codeurs CELP ("Code Excited Linear Prediction, voir M.R. Schroeder et B. S. Atal: "Code-Excited Linear Prediction (CELP): High Quality Speech at Very Low

Bit Rates", Proc. ICASSP'85, Tampa, mars 1985, pages 937-

940), l'excitation résiduelle est modélisée par une forme d'onde extraite d'un répertoire stochastique, multipliée par un gain. Les codeurs CELP ont permis, dans la bande téléphonique usuelle, de réduire le débit numérique requis de 64 kbits/s (codeurs MIC classiques) à 16 kbits/s (codeurs LD-CELP) et même jusqu'à 8 kbits/s pour les plus récents codeurs, sans dégradation de la qualité de la parole. Ces codeurs sont aujourd'hui couramment utilisés dans les transmissions téléphoniques, mais ils présentent de nombreuses autres applications telles que le stockage, la téléphonie en bande élargie ou les transmissions par satellite. D'autres exemples de codeurs à analyse par synthèse auxquels 1 'invention peut s'appliquer sont notamment les codeurs MP-LPC (Multi-Pulse Linear Predictive Coding, voir B.S. Atal et J.R. Remde: "A New Model of LPC Excitation for Producing Natural-Sounding Speech at Low Bit Rates", Proc. ICASSP'82, Paris, mai 1982, Vol.l, pages 614-617), o l'excitation résiduelle est modélisée par des impulsions de position variable affectées de gains respectifs, et les codeurs VSELP (Vector-Sum Excited Linear Prediction, voir I.A. Gerson et M.A. Jasiuk, "Vector-Sum Excited Linear Prediction (VSELP) Speech Coding at 8 kbits/s", Proc. ICASSP'90 Albuquerque, avril 1990, Vol. 1, pages 461-464), o l'excitation est modélisée par une combinaison linéaire

de vecteurs d'impulsions extraits de répertoires respectifs.

Le codeur évalue l'excitation résiduelle "en boucle fermée", par minimisation de l'erreur pondérée perceptuellement entre le signal synthétique et le signal de parole d'origine. On sait que la pondération perceptuelle améliore sensiblement la perception subjective de la parole synthétisée, par rapport à une simple minimisation de l'erreur quadratique moyenne. La pondération perceptuelle à court terme consiste à réduire l'importance, dans le critère d'erreur minimisé, des zones du spectre de parole o le niveau du signal est relativement important. En d'autres termes, le bruit perçu par l'auditeur est diminué si son spectre, a priori plat, est mis en forme de façon à accepter davantage de bruit dans les zones formantiques que dans les zones inter-formantiques. Pour réaliser cela, le filtre de pondération perceptuelle à court terme a fréquemment une fonction de transfert de la forme W(z)=A (z)/A(z/Y) o p A(Z)= 1- aiz l i=1 les coefficients ai étant les coefficients de prédiction linéaire obtenus à l'étape d'analyse par prédiction linéaire, et y désigne un coefficient d'expansion spectrale compris entre 0 et 1. Cette forme de pondération a été proposée par B.S. Atal et M.R. Schroeder: "Predictive Coding of Speech Signals and Subjective Error Criteria", IEEE Trans. on Acoustics, Speech, and Signal Processing, Vol. ASSP-27, n 3, juin 1979, pages 247-254. Pour 7=1, il n'y a pas de masquage : la minimisation de l'erreur quadratique est faite sur le signal de synthèse. Si 7=0, le masquage est total: la minimisation est faite sur le résidu et le bruit de codage

a la même enveloppe spectrale que le signal de parole.

Une généralisation consiste à choisir pour le filtre de pondération perceptuelle une fonction de transfert W(z) de la forme W(z) = A(z/y1)/A(z/Y2) 71 et y2 désignant des coefficients d'expansion spectrale tels que O0y27y11. Voir J.H. Chen et A. Gersho: "Real-Time Vector APC Speech Coding at 4800 Bps with Adaptive

Postfiltering", Proc. ICASSP'87, avril 1987, pages 2185-2188.

On note que le masquage est inexistant lorsque 71=72, et total lorsque 71= 1 et 72=0. Les coefficients d'expansion spectrale '1 et Y2 déterminent le niveau de masquage du bruit souhaité. Un masquage trop faible rend perceptible un bruit de quantification granulaire constant. Un masquage trop fort affecte l'allure des formants, la distorsion devenant alors

très audible.

Dans les codeurs actuels les plus performants, les paramètres du prédicteur à long terme, comprenant le retard LTP et éventuellement une phase (retard fractionnaire) ou un jeu de coefficients (filtre LTP multicoefficients), sont également déterminés pour chaque trame ou sous-trame, par une procédure en boucle fermée faisant intervenir le filtre de

pondération perceptuelle.

Dans certains codeurs, le filtre de pondération perceptuelle W(z), qui exploite la modélisation à court terme du signal de parole et assure une répartition formantique du bruit, est complété par un filtre de pondération harmonique qui augmente l'énergie du bruit dans les pics correspondant aux harmoniques et l'affaiblit entre ces pics, et/ou par un filtre de correction de pente destiné à empêcher l'apparition de bruit non masqué à haute fréquence, notamment dans les applications en bande élargie. La présente invention est principalement concernée par le filtre de pondération

perceptuelle à court terme W(z).

Le choix des paramètres d'expansion spectrale y, ou y1 et 72, du filtre perceptuel à court terme est habituellement optimisé à l'aide de tests subjectifs. Ce choix est ensuite figé. Or, le demandeur a constaté que, selon les caractéristiques spectrales du signal d'entrée, les valeurs optimales des paramètres d'expansion spectrale peuvent subir une variation importante. Le choix effectué

constitue donc un compromis plus ou moins satisfaisant.

Un but de la présente invention est d'augmenter la qualité subjective du signal codé par une meilleure caractérisation du filtre de pondération perceptuelle. Un autre but est de rendre les performances du codeur plus homogènes pour différents types de signaux d'entrée. Un autre but est que cette amélioration n'exige pas une importante

complexité supplémentaire.

La présente invention concerne ainsi un procédé de codage de parole à analyse par synthèse du type indiqué au début, dans lequel le filtre de pondération perceptuelle a une fonction de transfert de la forme générale W(z)=A(z/l1)/A(z/72) comme indiqué précédemment, et dans lequel on adapte la valeur d'au moins un des coefficients d'expansion spectrale y1, 72 en fonction de paramètres spectraux obtenus à l'étape d'analyse par prédiction

linéaire.

Le fait de rendre adaptatifs les coefficients 71 et Y2 du filtre de pondération perceptuelle permet d'optimiser le niveau de masquage du bruit de codage pour différentes caractéristiques spectrales du signal d'entrée, qui peuvent avoir des variations importantes selon les caractéristiques de la prise de son, les différentes caractéristiques des voix ou la présence de bruit de fond de fort niveau (par exemple bruit de voiture dans la radiotéléphonie mobile). La qualité subjective perçue est augmentée, et les performances du codeur sont rendues plus homogènes pour différents types d'entrée. De préférence, les paramètres spectraux en fonction desquels on adapte la valeur d'un au moins des coefficients d'expansion spectrale, comprennent au moins un paramètre représentatif de la pente générale du spectre du signal de parole. Un spectre de parole a en moyenne plus d'énergie dans les basses fréquences (autour de la fréquence du fondamental qui va de 60 Hz pour une voix d'homme grave à 500 Hz pour une

voix d'enfant) et donc une pente globalement descendante.

Toutefois, une voix d'homme grave aura des hautes fréquences beaucoup plus atténuées et donc un spectre de pente plus importante. Le préfiltrage appliqué par le système de prise de son a une influence importante sur cette pente. Les combinés téléphoniques classiques opèrent un pré-filtrage passe-haut, appelé SRI, qui atténue beaucoup cet effet de pente. Mais une entrée "linéaire" réalisée dans certains équipements plus récents conserve en revanche toute l'importance des basses fréquences. Un masquage faible (faible écart entre Y1 et Y2) atténue trop la pente du filtre perceptuel par rapport à celle du signal. Le niveau de bruit en haute fréquence reste élevé et devient supérieur au signal

lui-même si celui-ci est peu énergétique à ces fréquences.

L'oreille perçoit un bruit non masqué à haute fréquence, d'autant plus gênant qu'il possède parfois un caractère harmonique. La simple correction de la pente du filtre ne suffit pas à modéliser suffisamment cette différence d'énergie. L'adaptation des coefficients d'expansion spectrale tenant compte de la pente générale du spectre de

parole permet de mieux traiter ce problème.

De préférence, les paramètres spectraux en fonction desquels on adapte la valeur d'au moins un des coefficients d'expansion spectrale comprennent en outre au moins un paramètre représentatif du caractère résonant du filtre de synthèse à court terme (LPC). Un signal de parole possède

jusqu'à quatre ou cinq formants dans la bande téléphonique.

Ces "bosses" caractérisant le contour du spectre sont généralement relativement arrondies. Toutefois, l'analyseLPC peut conduire à des filtres proches de l'instabilité. Le spectre correspondant au filtre LPC comporte alors des pics relativement prononcés qui présentent une énergie importante sur une largeur de bande faible. Plus le masquage est important, plus le spectre du bruit devient proche du spectre LPC. Or, la présence d'un pic d'énergie dans la répartition du bruit est très néfaste. Cela produit une distorsion au niveau du formant dans une zone d'énergie importante o la dégradation devient très perceptible. L'invention permet alors de diminuer le niveau du masquage lorsqu'augmente le

caractère résonant du filtre LPC.

Lorsque le filtre de synthèse à court terme est représenté par des paramètres ou fréquences de raie spectrale (LSP ou LSF), le paramètre représentatif du caractère résonant du filtre de synthèse à court terme, en fonction duquel on adapte la valeur de 71 et/ou 72, peut être la plus petite des distances entre deux fréquences de raie spectrale consécutives. D'autres particularités et avantages de la présente

invention apparaîtront dans la description ci-après

d'exemples de réalisation préférés, mais non limitatifs, en référence aux dessins annexés, dans lesquels: - les figures 1 et 2 sont des schémas synoptiques d'un décodeur et d'un codeur CELP pouvant mettre en oeuvre l'invention; - la figure 3 est un organigramme d'une procédure d'évaluation de la pondération perceptuelle; et - la figure 4 montre un graphe de la fonction

log[(1-r)/(l+r)].

L'invention est décrite ci-après dans son application à un codeur de parole de type CELP. On comprendra toutefois qu'elle est également applicable à d'autres types de codeurs

à analyse par synthèse (MP-LPC, VSELP...).

Le processus de synthèse de parole mis en oeuvre dans

un codeur et un décodeur CELP est illustré sur la figure 1.

Un générateur d'excitation 10 délivre un code d'excitation ck appartenant à un répertoire prédéterminé en réponse à un index k. Un amplificateur 12 multiplie ce code d'excitation par un gain d'excitation A, et le signal résultant est soumis à un filtre 14 de synthèse à long terme. Le signal de sortie u du filtre 14 est à son tour soumis à un filtre 16 de synthèse à court terme, dont la sortie s constitue ce qu'on

considère ici comme le signal de parole synthétisé. Bien en-

tendu, d'autres filtres peuvent également être mis en oeuvre au niveau du décodeur, par exemple des post-filtres, comme

il est bien connu dans le domaine du codage de la parole.

Les signaux précités sont des signaux numériques représentés par exemple par des mots de 16 bits à une cadence d'échantillonnage Fe égale par exemple à 8 kHz. Les filtres de synthèse 14, 16 sont en général des filtres purement

récursifs. Le filtre 14 de synthèse à long terme a typi-

quement une fonction de transfert de la forme l/B(z) avec

B(z)=l-Gz T. Le retard T et le gain G constituent des para-

mètres de prédiction à long terme (LTP) qui sont déterminés d'une manière adaptative par le codeur. Les paramètres LPC du filtre 16 de synthèse à court terme sont déterminés au codeur par une prédiction linéaire du signal de parole. La fonction de transfert du filtre 16 est ainsi de la forme l/A(z) avec A(z) =1- a z1 i=1 dans le cas d'une prédiction linéaire d'ordre p (p-10 typiquement), ai représentant le i-ième coefficient de

prédiction linéaire.

On désigne ici par "signal d'excitation" le signal u(n) appliqué au filtre de synthèse à court terme 14. Ce signal d'excitation comporte une composante LTP G.u(n-T) et

une composante résiduelle, ou séquence d'innovation, Ck(n).

Dans un codeur à analyse par synthèse, les paramètres caractérisant la composante résiduelle et, optionnellement, la composante LTP sont évalués en boucle fermée, en utilisant

un filtre de pondération perceptuelle.

La figure 2 montre le schéma d'un codeur CELP. Le signal de parole s(n) est un signal numérique, par exemple fourni par un convertisseur analogique-numérique 20 traitant

le signal de sortie amplifié et filtré d'un microphone 22.

Le signal s(n) est numérisé en trames successives de A échantillons elles-mêmes divisées en sous-trames, ou trames

d'excitation, de L échantillons (par exemple A=240, L=40).

Les paramètres LPC, LTP et EXC (index k et gain d'excitation A) sont obtenus au niveau du codeur par trois modules d'analyse respectifs 24, 26, 28. Ces paramètres sont ensuite quantifiés de façon connue en vue d'une transmission numérique efficace, puis soumis à un multiplexeur 30 qui forme le signal de sortie du codeur. Ces paramètres sont également fournis à un module 32 de calcul d'états initiaux

de certains filtres du codeur. Ce module 32 comprend essen-

tiellement une chaîne de décodage telle que celle représentée sur la figure 1. Comme le décodeur, le module 32 opère sur la base des paramètres LPC, LTP et EXC quantifiés. Si une interpolation des paramètres LPC est effectuée au décodeur, comme il est courant, la même interpolation est effectuée par le module 32. Le module 32 permet de connaître au niveau du codeur les états antérieurs des filtres de synthèse 14, 16

du décodeur, déterminés en fonction des paramètres de syn-

thèse et d'excitation antérieurs à la sous-trame considérée.

Dans une première étape du processus de codage, le module 24 d'analyse à court terme détermine les paramètres LPC (coefficients ai du filtre de synthèse à court terme) en analysant les corrélations à court terme du signal de parole s(n). Cette détermination est effectuée par exemple une fois par trame de A échantillons, de manière à s'adapter à l'évolution du contenu spectral du signal de parole. Les

méthodes d'analyse LPC sont bien connues dans la technique.

On pourra par exemple se reporter à l'ouvrage "Digital Processing of Speech Signals" de L.R. Rabiner et R.W. Shafer, Prentice-Hall Int., 1978. Cet ouvrage décrit notamment l'algorithme de Durbin, qui comporte les étapes suivantes: - évaluation de p autocorrélations R(i) (0si<p) du signal de parole s(n) sur une fenêtre d'analyse incluant la trame courante et éventullement des échantillons antérieurs si la trame est de petite longueur (par exemple 20 à 30 ms): M-1 R(i)= E s*(n). s*(n-i) n=i avec MkA et s*(n)=s(n).f(n), f(n) désignant une fonction de fenêtrage de longueur M, par exemple une fonction rectangulaire ou une fonction de Hamming; - évaluation récursive des coefficients ai:

E(0) = R(0)

Pour i allant de 1 à p, faire i-1 (i-1) ri = [R (i) - X aj. .R(ij)]/E(i-1) ri [R(ci) - aj 103= a() = ri E(i) = (1-ri2).s(i-l) Pour j allant de 1 à i-l, faire a i) aj(1-1) - riaj (i -1) Les coefficients ai sont pris égaux aux ai(P) obtenus à la dernière itération. La quantité E(p) est l'énergie de l'erreur résiduelle de prédiction. Les coefficients ri, compris entre -1 et 1, sont appelés coefficients de réflexion. Ils sont souvent représentés par les rapports logarithmiques (log-area-ratios) LARi=LAR(ri), la fonction

LAR étant définie par LAR(r)= log10[(l-r)/(l+r)].

La quantification des paramètres LPC peut être effectuée sur les coefficients ai directement, sur les coefficients de réflexion ri ou sur les rapports logarithmiques LARi. Une autre possibilité est de quantifier des paramètres de raie spectrale (LSP pour "line spectrum parameters, ou LSF pour "line spectrum frequencies"). Les p fréquences de raie spectrale Ci(leisp), normalisées entre 0 et n, sont telles que les nombres complexes 1, exp(jû2), exp(jo4),..., exp(jip), soient les racines du polynôme P(z)=A(z)-z-(P+l)A(z-1) et que les nombres complexes exp(j l), exp(j3),..., exp(j pl), et -1 soient les racines du polynôme Q(z)=A(z)+z-(P+)A(z-1). La quantification peut porter sur les fréquences normalisées xi

ou sur leurs cosinus.

Le module 24 peut effectuer l'analyse LPC selon l'algorithme classique de Durbin, ci-dessus rappelé afin de définir les quantités ri, LARi et Xi utiles à la mise en oeuvre de l'invention. D'autres algorithmes fournissant les mêmes résultats, développés plus récemment, peuvent être utilisés avantageusement, notamment l'algorithme de Levinson éclaté (voir "A new Efficient Algorithm to Compute the LSP Parameters for Speech Coding", par S. Saoudi, J.M. Boucher

et A. Le Guyader, Signal Processing, Vol.28, 1992, pages 201-

212), ou l'utilisation des polynômes de Chebyshev (voir "The Computation of Line Spectrum Frequencies Using Chebyshev Polynomials, par P. Kabal et R.P. Ramachandran, IEEE Trans. on Acoustics, Speech, and Signal Processing, Vol. ASSP-34,

n 6, pages 1419-1426, décembre 1986).

L'étape suivante du codage consiste en la

détermination des paramètres LTP de prédiction à long terme.

Ceux-ci sont par exemple déterminés une fois par sous-trame de L échantillons. Un soustracteur 34 soustrait du signal de parole s(n) la réponse à un signal d'entrée nul du filtre de synthèse à court terme 16. Cette réponse est déterminée par un filtre 36 de fonction de transfert l/A(z) dont les coefficients sont donnés par les paramètres LPC qui ont été déterminés par le module 24, et dont les états initiaux s sont fournis par le module 32 de façon à correspondre aux p derniers échantillons du signal synthétique. Le signal de sortie du soustracteur 34 est soumis à un filtre 38 de pondération perceptuelle dont le rôle est d'accentuer les portions du spectre o les erreurs sont les plus perceptibles, c'està-dire les zones inter-formantiques. La fonction de transfert W(z) du filtre de pondération perceptuelle est de la forme générale: W(z)=A(z/'Y)/A(z/y2), Y1 et Y2 étant deux coefficients d'expansion spectrale tels que O0y2sYlsl. L'invention propose d'adapter dynamiquement les valeurs de 71 et Y2 en fonction de paramètres spectraux déterminés par le module d'analyse LPC 24. Cette adaptation est réalisée par un module 39 d'évaluation de la pondération perceptuelle, selon un

processus décrit plus loin.

Le filtre de pondération perceptuelle peut être vu comme la succession en série d'un filtre purement récursif d'ordre p, de fonction de transfert: P 1/A(z/y2)= 1/[ E biz-] 1=0 avec b0=l et bi=-aiy2i pour 0<iep et d'un filtre à réponse impulsionnelle finie d'ordre p. de fonction de transfert P A(z/y,)= E ci 1=0 avec c0=l et ci=-ai1yl pour 0<isp. Le module 39 calcule ainsi les coefficients bi et ci pour chaque trame et les fournit

au filtre 38.

L'analyse LTP en boucle fermée effectuée par le module 26 consiste, de façon classique, à sélectionner pour chaque sous-trame le retard T qui maximise la corrélation normalisée: [ Elx/(n) YT(n) 2/ (n)] 2]

E YT 1 E [YT()

n=0 n=0 o x' (n) désigne le signal de sortie du filtre 38 pendant la sous-trame considérée, et YT(n) désigne le produit de convolution u(n-T)*h (n). Dans l'expression ci-dessus, h' (0), h' (1),....h'(L-l) désigne la réponse impulsionnelle du filtre de synthèse pondéré, de fonction de transfert W(z)/A(z). Cette réponse impulsionnelle h' est obtenue par un module 40 de calcul de réponses impulsionnelles, en fonction des coefficients bi et ci fournis par le module 39

et des paramètres LPC qui ont été déterminés pour la sous-

trame, le cas échéant après quantification et interpolation.

Les échantillons u(n-T) sont les états antérieurs du filtre 14 de synthèse à long terme, fournis par le module 32. Pour les retards T inférieurs à la longueur d'une sous-trame, les échantillons manquants u(n-T) sont obtenus par interpolation sur la base des échantillons antérieurs, ou à partir du signal de parole. Les retards T, entiers ou fractionnaires, sont sélectionnés dans une fenêtre déterminée, allant par exemple de 20 à 143 échantillons. Pour réduire la plage de recherche en boucle fermée, et donc pour réduire le nombre de convolutions yT(n) à calculer, on peut d'abord déterminer un retard T en boucle ouverte par exemple une fois par trame, puis sélectionner les retards en boucle fermée pour chaque sous-trame dans un intervalle réduit autour de T. La recherche en boucle ouverte consiste plus simplement à déterminer le retard T' qui maximise l'autocorrélation du signal de parole s(n) éventuellement filtré par le filtre inverse de fonction de transfert A(z). Une fois que le retard T a été déterminé, le gain G de prédiction à long terme est obtenu par: G = [E x'(n) YT(n)] / [E [YT(n)] n=O n=O Pour rechercher l'excitation CELP relative à une sous-trame, le signal GyT(n), qui a été calculé par le module 26 pour le retard optimal T, est d'abord soustrait du signal x' (n) par le soustracteur 42. Le signal résultant x(n) est soumis à un filtre à rebours 44 qui fournit un signal D(n) donné par L-1 D(n) =E x(i).h(i-n) i=n

o h(0), h(l),..., h(L-l) désigne la réponse impul-

sionnelle du filtre composé des filtres de synthèse et du filtre de pondération perceptuelle, calculée par le module 40. En d'autres termes, le filtre composé a pour fonction de transfert W(z)/[A(z).B(z)]. En notation matricielle, on a donc: D = (D(0), D(1),.... D(L-1)) = x.H avec x = (x(0), x(l),..., x(L-l)) h(0) 0. O h(l) h(0) 0 et H = h(L-2). h(0) 0 h(L-l) h(L-2).. h(l)h(0) Le vecteur D constitue un vecteur-cible pour le module 28 de recherche de l'excitation. Ce module 28 détermine un mot de code du répertoire qui maximise la corrélation normalisée Pk2/ak2 dans laquelle: Pk = D.ck ak2 = CkH.HT.H. kT = Ck.U. ckT L'indice k optimal ayant été déterminé, le gain

d'excitation 5 est pris égal à 0 = Pk/ck2.

En référence à la figure 1, le décodeur CELP comprend

un démultiplexeur 8 recevant le flux binaire issu du codeur.

Les valeurs quantifiées des paramètres d'excitation EXC et des paramètres de synthèse LTP et LPC sont fournies au générateur 10, à l'amplificateur 12 et aux filtres 14, 16 pour reconstituer le signal synthétique s, qui peut par exemple être converti en analogique par le convertisseur 18 avant d'être amplifié puis appliqué à un haut- parleur 19 pour

restituer la parole originale.

Les paramètres spectraux en fonction desquels les coefficients Y1 et Y2 sont adaptés comprennent d'une part les deux premiers coefficients de réflexion rl=R(l)/(R(0) et r2=[R(2)-rlR(l)]/[(1-r12)R(0)], qui sont représentatifs de la pente générale du spectre de parole, et d'autre part les fréquences de raie spectrale, dont la distribution est représentative du caractère résonant du filtre de synthèse à court terme. Le caractère résonant du filtre de synthèse à court terme augmente lorsque la plus petite distance dmin entre deux fréquences de raie spectrale diminue. Les fréquences (i étant obtenues en ordre croissant (0<61<o2<...<ûp)<1), on a: dmin = min (Oi+l-Oi) l1i<p Si on s'arrête à la première itération de l'algorithme de Durbin ci-dessus rappelé, on réalise une approximation grossière du spectre de parole par une fonction de transfert l/(l-rl.z 1). La pente générale (le plus souvent négative) du filtre de synthèse tend donc à augmenter en valeur absolue lorsque le premier coefficient de réflexion r1 se rapproche de 1. Si on pousse l'analyse à l'ordre 2 en ajoutant une itération, on a une modélisation moins grossière par un filtre d'ordre 2 de fonction de transfert l/ [l-(rl-rlr2).z-1-r2.z 2)]. Le caractère résonant à basse fréquence de ce filtre d'ordre 2 augmente lorsque ses pôles se rapprochent du cercle unité, c'est-à-dire lorsque r1 tend vers 1 et r2 tend vers -1. On peut donc conclure que le spectre de parole présente une relativement grande énergie dans les basses fréquences (ou encore une pente générale négative relativement importante) lorsque r1 se rapproche de

1 et r2 de -1.

On sait qu'un pic formantique dans le spectre de parole conduit au rapprochement de plusieurs fréquences de raie spectrale (2 ou 3), tandis qu'une partie plate du spectre correspond à une répartition uniforme de ces fréquences. Le caractère résonant du filtre LPC augmente donc

lorsque la distance dmin diminue.

De façon générale, on adopte un masquage plus important (un plus grand écart entre Y1 et Y2) lorsque le caractère passe-bas du filtre de synthèse augmente (r1 se rapproche de 1 et r2 de -1), et/ou lorsque le caractère

résonant du filtre de synthèse diminue (dmin augmente).

La figure 3 montre un exemple d'organigramme des opérations effectuées à chaque trame par le module 39

d'évaluation de la pondération perceptuelle.

A chaque trame, le module 39 reçoit du module 24 les paramètres LPC ai, ri (ou LARi) et (i (leisp). A l'étape 50, le module 39 évalue la distance minimale dmin entre deux fréquences de raie spectrale consécutives en minimisant

Oi+l-@i pour 1 i<p. En fonction des paramètres représentatifs de la pente générale du spectre

sur la trame (rI et r2), le module 39 effectue une classification de la trame entre N classes PO'P,....PN-l' Dans l'exemple de la figure 3, N=2. La classe P1 correspond au cas o le signal de parole s(n) est relativement énergétique aux basses fréquences (r1

relativement proche de 1 et r2 relativement proche de -1).

On adoptera donc généralement un masquage plus important en

classe P1 qu'en classe P0.

Pour éviter les transitions trop fréquentes entre les classes, on introduit une certaine hystérésis en fonction des valeurs de r1 et r2. On peut ainsi prévoir que la classe P1 soit sélectionnée à partir de chaque trame pour laquelle r1 est supérieur à un seuil positif T1 et r2 est inférieur à un seuil négatif -T2, et que la classe P0 soit sélectionnée à partir de chaque trame pour laquelle r1 est inférieur à un autre seuil positif T1 (avec T1 <T1) ou r2 est supérieur à un autre seuil négatif -T2 (avec T2 <T2). Etant donné la sensibilité des coefficients de réflexion autour de 1, cette hystérésis est plus facile à visualiser dans le domaine des rapports logarithmiques LAR (voir figure 4) o les seuils T1, T1, -T2, -T2 correspondant à des seuils respectifs -S1,

-S1, S2, S2

A l'initialisation, la classe par défaut est par exemple celle pour laquelle le masquage est le moins

important (P0).

A l'étape 52, le module 39 examine si la trame précédente relevait de la classe P0 ou de la classe Pi. Si la trame précédente était de classe P0' le module 39 teste, en 54, la condition [LAR1<-S1 et LAR2>S2] ou, si le module 24 fournit les coefficients de réflexion r1, r2 au lieu des rapports logarithmiques LAR1, LAR2, la condition équivalente [rl> T1 et r2<-T2]. Si LARi<-S1 et LAR2>S2, une transition est effectuée en classe P1 (étape 56). Si le test 54 montre que LAR1l-S1 ou que LAR2SS2, la trame courante reste en classe

P0 (étape 58).

Si l'étape 52 montre que la trame précédente était de classe P1, le module 39 teste, en 60, la condition [LARI>-S1 ou LAR2<S2] ou, si le module 24 fournit les coefficients de réflexion r1, r2 au lieu des rapports logarithmiques LAR1, LAR2, la condition équivalente [rl<T1 ou r2>-T2]. Si LARi>-S1 ou LAR2<S2, une transition est effectuée en classe P0 (étape 58). Si le test 60 montre que LARie-S1 et LAR2kS2, la trame courante reste en classe P1

(étape 56).

Dans l'exemple illustré par la figure 3, le plus grand y1 des deux coefficients d'expansion spectrale a une valeur constante ro, rF dans chaque classe P0' P1, avec ro0rl, et l'autre coefficient d'expansion spectrale 72 est une fonction affine décroissante de la distance minimale dmin entre les fréquences de raie spectrale: y2=- 0'dmin+ g0 en classe P0 et y2=-Xldmin+ J1 en classe Pi, avec 102X110 et j4làt00. On peut également borner les valeurs de Y2 pour éviter des variations trop brutales: Amin 0Ty2eAmax,0 en classe P0 et Amin,l Y2 Amax,l en classe P1. Suivant la classe retenue pour la trame courante, le module 39 affecte les valeurs de '1 et Y2 à l'étape 56 ou 58, puis calcule les coefficients bi et ci du filtre de pondération perceptuelle

à l'étape 62.

Comme mentionné précédemment les trames de A échantillons sur lesquelles le module 24 calcule les paramètres LPC sont souvent subdivisées en sous-trames de L

échantillons pour la détermination du signal d'excitation.

En général, une interpolation des paramètres LPC est effectuée au niveau des sous-trames. Dans ce cas, il convient de mettre en oeuvre le processus de la figure 3 pour chaque sous-trame, ou trame d'excitation, à l'aide des paramètres

LPC interpolés.

Le demandeur a testé le processus d'adaptation des coefficients 71 et 2 dans le cas d'un codeur CELP à répertoire algébrique, fonctionnant à 8 kbits/s, pour lequel les paramètres LPC sont calculés à chaque trame de lOms (A=80). Les trames sont divisées chacune en deux sous-trames de 5ms (L=40) pour la recherche du signal d'excitation. Le filtre LPC obtenu pour une trame est appliqué pour la seconde de ses sous-trames. Pour la première sous-trame, une interpolation est effectuée dans le domaine des LSF entre ce filtre et celui obtenu pour la trame précédente. La procédure d'adaptation du niveau de masquage est appliquée au rythme des sous-trames, avec une interpolation des LSF Xi et des

coefficients de réflexion r1, r2 pour les premières sous-

trames. La procédure illustrée par la figure 3 a été utilisée avec les valeurs numériques: S1=1,74; S1 =1,52; S2=0,65; S2'=0,43; F0=0,94; Xo0=0; go=0,6; F1=0,98; 1=6; 1=l; Amin,l=0,4; Amax,1=0,7, les fréquences)i étant normalisées

entre 0 et s.

Cette procédure d'adaptation, avec une complexité supplémentaire négligeable et sans modification structurelle importante du codeur, a permis d'observer une amélioration

significative de la qualité subjective de la parole codée.

Le demandeur a également obtenu des résultats favorables avec le processus de la figure 3 appliqué à un codeur LD-CELP (faible retard) à débit variable entre 8 et 16 kbits/s. Les classes de pente étaient les mêmes que dans le cas précédent, avec [o=0,98; k0=4; 0o=; Amin, 0o=0,6;

Amax, 0=0,8; rl=O,98; 1=6; 1=l; min, l=0,2; Amax,l=0,7.

Claims

REVENDICATIONS

1. Procédé de codage de parole à analyse par synthèse, comprenant les étapes suivantes: - analyse par prédiction linéaire d'ordre p d'un signal de parole (s(n)) numérisé en trames successives pour déterminer des paramètres (LPC) définissant un filtre de synthèse à court terme (16); détermination de paramètres d'excitation définissant un signal d'excitation à appliquer au filtre de synthèse à court terme pour produire un signal synthétique représentatif du signal de parole, certains au moins des paramètres d'excitation étant déterminés en minimisant l'énergie d'un signal d'erreur résultant du filtrage de la différence entre le signal de parole et le signal synthétique par au moins un filtre de pondération perceptuelle dont la fonction de transfert est de la forme W(z)=A(z/Y1)/A(z/y2) o p A(z) = 1- aiz i=1 les coefficients ai étant des coefficients de prédiction linéaire obtenus à l'étape d'analyse par prédiction linéaire, et T1 et 72 désignent des coefficients d'expansion spectrale tels que Oey21ylsl; et - production de valeurs de quantification des paramètres définissant le filtre de synthèse à court terme et des paramètres d'excitation, caractérisé en ce qu'on adapte la valeur d'au moins un des coefficients d'expansion spectrale en fonction de paramètres spectraux obtenus à l'étape d'analyse par

prédiction linéaire.

2. Procédé selon la revendication 1, caractérisé en ce que les paramètres spectraux en fonction desquels on adapte la valeur d'au moins un des coefficients d'expansion spectrale comprennent au moins un paramètre (r1,r2) représentatif de la pente générale du spectre du signal de parole et au moins un paramètre (dmin) représentatif du

caractère résonant du filtre de synthèse à court terme (16).

3. Procédé selon la revendication 2, caractérisé en ce que lesdits paramètres représentatifs de la pente générale du spectre comprennent le premier et le second coefficient de réflexion (r1,r2) déterminés lors de l'analyse par

prédiction linéaire.

4. Procédé selon la revendication 2 ou 3, caractérisé en ce que ledit paramètre représentatif du caractère résonant est la plus petite (dmin) des distances entre deux fréquences

de raie spectrale consécutives.

5. Procédé selon l'une quelconque des revendications

2 à 4, caractérisé en ce qu'on effectue une classification des trames du signal de parole entre plusieurs classes (POP1) en fonction du ou des paramètres (rl,r2) représentatifs de la pente générale du spectre, et en ce que, pour chaque classe, on adopte des valeurs des deux coefficients d'expansion spectrale telles que leur différence Y71-72 diminue lorsqu'augmente le caractère résonant du filtre

de synthèse à court terme (16).

6. Procédé selon les revendications 3 et 5,

caractérisé en ce qu'on prévoit deux classes sélectionnées en fonction des valeurs du premier coefficient de réflexion rl=R(l)/R(O) et du second coefficient de réflexion

r2=[R(2)-rl.R(1)]/[(l-r12).R(O)], R(j) désignant l'autocorré-

lation du signal de parole pour un retard de j échantillons, en ce qu'on sélectionne la première classe (P1) à partir de chaque trame pour laquelle le premier coefficient de réflexion (r1) est supérieur à un premier seuil positif (T1) et le second coefficient de réflexion (r2) est inférieur à un premier seuil négatif (-T2), en ce qu'on sélectionne la seconde classe (P0) à partir de chaque trame pour laquelle le premier coefficient de réflexion (r1) est inférieur à un second seuil positif (T1) inférieur au premier seuil positif ou le second coefficient de réflexion (r2) est supérieur à un second seuil négatif (-T2) inférieur en valeur absolue

au premier seuil négatif (-T2).

7. Procédé selon les revendications 4 et 5, carac-

térisé en ce que, dans chaque classe (Po,P1), le plus grand 71 des coefficients d'expansion spectrale est fixe et le plus

petit 72 des coefficients d'expansion spectrale est une fonc-

tion affine décroissante de la plus petite (dmin) des dis-

tances entre deux fréquences de raie spectrale consécutives.