[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

EP0519802A1 - Speech synthesis method using wavelets - Google Patents

Speech synthesis method using wavelets Download PDF

Info

Publication number
EP0519802A1
EP0519802A1 EP92401663A EP92401663A EP0519802A1 EP 0519802 A1 EP0519802 A1 EP 0519802A1 EP 92401663 A EP92401663 A EP 92401663A EP 92401663 A EP92401663 A EP 92401663A EP 0519802 A1 EP0519802 A1 EP 0519802A1
Authority
EP
European Patent Office
Prior art keywords
coefficients
wavelets
signal
speech
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP92401663A
Other languages
German (de)
French (fr)
Inventor
Christian Gulli
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales Avionics SAS
Original Assignee
Thales Avionics SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales Avionics SAS filed Critical Thales Avionics SAS
Publication of EP0519802A1 publication Critical patent/EP0519802A1/en
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • G10L19/0216Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition

Definitions

  • the present invention relates to a method of speech synthesis.
  • the spectrum of the signal to be coded is divided into a certain number of sub-bands of width B k (equal to each other or not).
  • Each sub-band (of index k) is then resampled at the Shannon frequency, ie 2B k .
  • the signals from each subband filter are quantized differently depending on the frequency, i.e. quantization fine for the fundamental and the formants, and coarse quantification in the ranges where the energy is weak.
  • the reverse operation is performed to reconstruct the signal.
  • the signals are coded for example according to a MIC coding law (pulse modulation and coding) standardized to 64 kbits / s (signal sampled at 8 kHz on 8 bits in the 300-3600 Hz band and compressed according to a logarithmic law).
  • ADPCM adaptive differential MIC
  • FIG. 1 shows the block diagram of a coding device 1 with two sub-bands.
  • the speech signal x is filtered by two filters F1, F2 (of impulse responses h1, h2).
  • Each of the two sub-bands at the output of F1, F2 is decimated by 2 (deletion of a sample out of 2) by circuits 2, 3 respectively, then coded (4), for example in ADPCM and stored (or transmitted).
  • the speech signal is reconstituted by decoding (5, 6) then filtering in interpolators (7, 8) identical to those of the corresponding analysis strip and summation (9) of the two decoded sub-bands.
  • Filters F1 and F2 are FIR (finite impulse response) filters of linear phase and satisfy the following conditions.
  • h2 (n) (-1) not h1 (n)
  • FIG. 2 shows the template of these filters.
  • the principle of coding in sub-bands consists in filtering the speech signal by a bank of filters, then in sub-sampling the output signals of these filters. On reception, the reconstruction is done by adding each decoded sub-band, interpolated by a filter identical to that of the corresponding analysis strip.
  • This type of coding was first implemented using disjoint and contiguous filters with finite impulse response. It was then extended thanks to the use of quadrature mirror filters, allowing an almost perfect reconstruction of the initial signal in the absence of error on the quantization.
  • being the normalized half sampling frequency.
  • the problem of aliasing of the templates during the sub-sampling can be compensated by a phase term in the cosine phase shift function.
  • the coefficients h (n) are zero for n even, except ho.
  • the template is defined by the ripple in bandwidth and cut, and by ⁇ f which represents the width of the transition band.
  • the reduction or increase in the sampling frequency is obtained by cascading P half-band filters.
  • the known devices are either too rudimentary, and do not make it possible to obtain a sufficiently intelligible speech signal on rendering, or are too complex and therefore expensive.
  • the subject of the present invention is a method of speech synthesis which makes it possible to synthesize speech signals as simply as possible and only calls, for its implementation, on existing and inexpensive circuits.
  • the method of the invention consists in digitizing a voice signal, in cutting this digital signal in an orthogonal base of wavelets with compact support, in storing the coefficients representative of the voice signal, and in restitution, in reconstructing the voice signal by low frequency filtering, interpolation and amplification.
  • the voice message synthesizer described below has two main parts: an analysis part 14 and a voice synthesis part 15 (FIG. 3).
  • the signals from the source 16 are quantified, then analyzed at 17 and coded at 18.
  • the relevant criteria which result therefrom are stored at 19 (for example memories of the EEPROM type). All these operations are, in this case, carried out in the laboratory.
  • a device 20 ensures the reconstitution of the signal from the coefficients selected and stored (at 19), the reconstituted signal is sent to an amplifier 21 provided with a loud speaker.
  • an algorithm for coding and reconstruction which decomposes the voice signal in an orthogonal base of wavelets with compact support.
  • wavelets are for example Daubechies wavelets (see Figure 8). Only the coefficients deemed representative of the starting voice signal and ensuring perfect intelligibility of the reconstructed message are stored, which greatly limits the bit rate of the signals to be stored.
  • This analysis consists in particular in decomposing the digitized signal on an orthogonal basis of wavelets with compact support, and uses filters whose impulse response may or may not be symmetrical.
  • this response is symmetrical, the storage of the extreme coefficients (responsible for the edge effects) is limited to one side of the signal, the other side being deduced by symmetry (the periodicity of the filters is implicit by construction).
  • this decomposition 128 linear combinations independent of the observation base.
  • the regularity of the wave, which conditions the shape of the decomposition filter is one of the two major parameters of decomposition (with the level of decomposition, which conditions the width of the filter ).
  • 32 are kept for example (estimated to be the most significant) which are coded (25), in this case on 8 bits, which gives a throughput of values to be stored of 20 kbits / s.
  • the selection of 16 coefficients coded on 16 bits would not modify the bit rate of the values to be stored, but would decrease the quality of the restored signal.
  • FIG. 5 illustrates the implementation of the decomposition algorithm according to the invention.
  • the coding of the parameters (at 25) can be carried out either from local histograms, or, more simply, by a quantification linked to an energy level fixed in advance.
  • the evaluation phase (26) consists in listening to the reconstituted message, and, if necessary, if the listening is not deemed satisfactory, in modifying (28) the parameters to be stored. This reconstruction is done, as described below in detail, by digital / analog conversion, low-pass smoothing filtering and low frequency amplification. When the quality of the reconstructed message is judged satisfactory, the coefficients (29) are shaped and loaded (30) into an appropriate memory. Formatting essentially consists of formatting the data, producing the corresponding addresses and sequencing the successive frames of data.
  • the synthesis algorithm is illustrated in FIG. 6.
  • vocal proper implementing the method of the invention, which constitutes an autonomous means of generating messages, distinct from the laboratory synthesis device, mentioned above, which was used for the evaluation of the choice of parameters.
  • This speech synthesis algorithm reconstructs the original signal by interpolating (35.o to 35.j for So to Sj and 36.o to 36.j for Do to Dj), filtering (37.o to 37.j and 38.o to 38.j respectively), addition (39.o to 39.j), multiplication (40.0 to 40.j) and low frequency amplification.
  • the Daubechies wavelets which the invention preferentially uses, are wavelets with compact support, which thereby minimize the number of points of their impulse response, therefore of the convolution.
  • the decomposition filters are identical to those of reconstruction, but they are not symmetrical, which obliges to memorize the coefficients due to the edge effects at the beginning and at the end of the frame of coefficients to memorize.
  • FIG. 7 shows the simplified diagram of a speech synthesis device implementing the method according to the invention.
  • the coefficients of the reconstruction filters are stored in a memory 41 and used by a specialized computer or a microprocessor 42 which reconstructs the voice signal under the control of the reconstruction algorithm described above and stored in its program memory 43 with the values of the impulse responses of the different reconstruction filters.
  • the digital values of the reconstructed signal are converted into analog by the converter 44 which is followed by an amplifier 45 with an analog low-pass filter (at a cut-off frequency of 4 kHz for example) and with gain control 46.
  • the output of the amplifier 45 is connected to a loudspeaker 47.
  • the amplifier advantageously includes a high impedance output 48 which can be connected to a suitable recording device.
  • the microprocessor 42 is also connected to an input 49 (for example RS232 or RS422 serial input) by which it receives requests for synthesis of voice messages. These requests can come from alarm circuits.
  • the processor 50 is represented with its address bus 51, its data bus 52 and its control bus 53, which is connected in particular to a logic sequencer 54
  • the sequencer is connected to a serial input interface 55 and to a serial output interface 56, and via an opto-isolation circuit 57 to a message synthesis control device (not shown), which sends it the addresses of the messages to be synthesized.
  • a program memory 58 is connected to the three buses 51 to 53.
  • the coefficients are stored in a memory 59 directly connected to the address bus and to the sequencer 54 and connected via a three-state gate 60 to the data bus, the gate 60 being controlled by the sequencer 54.
  • Buses 51 to 53 can be connected to an external connector to download coefficients or modify the reconstruction program, to carry out tests or maintenance work.
  • the sequencer 54 is connected to a digital / analog converter 61 followed by a low-pass filter 62 and a low-frequency amplifier 63 whose gain can be adjusted by a potentiometer 64.
  • the amplifier 63 is connected to one or more loudspeakers 65 and to a high impedance output terminal 66.
  • Processing edge effects is essential when using a high level of decomposition. It can be obtained by artificially making the speech frames artificially odd, by adding on one side of a speech frame or on both sides a copy of part of this frame, for example for a frame of 256 points, we add on one side or both 128 points.
  • the synthesis processing which is described above in blocks can be implemented by N disjoint filters in cascade (vocoder type). This process limits the edge effects due to the refreshment of the filtering values, but penalizes the processor since the optimizations described then are not used during the dyadic decomposition.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

The vocal synthesis of the invention consists in analysing a vocal signal by orthogonal decomposition on a base of wavelets with compact support, preferably Daubechies wavelets. The synthesis is carried out from coefficients which are stored and selected during the analysis, according to the same algorithm as that used for the analysis. <IMAGE>

Description

La présente invention se rapporte à un procédé de synthèse vocale.The present invention relates to a method of speech synthesis.

Parmi les nombreux domaines d'application de la synthèse vocale, certains, tels que les appareils à commande interactive (commande de véhicules, de processus industriels, ...) ne nécessitent que la synthèse de messages simples (mots isolés ou phases prédéterminées). Dans de telles applications, on recherche à minimiser le coût du dispositif de synthèse vocale. La diminution du coût peut être essentiellement obtenue par l'emploi de circuits de grande diffusion et par la diminution de la capacité de mémoire nécessaire au stockage des messages.Among the many fields of application of speech synthesis, some, such as interactive command devices (vehicle control, industrial processes, ...) only require the synthesis of simple messages (isolated words or predetermined phases). In such applications, it is sought to minimize the cost of the speech synthesis device. The reduction in cost can be obtained essentially by the use of mass-market circuits and by the reduction in the memory capacity necessary for storing messages.

Afin de réduire cette capacité de mémoire, l'art connu fait appel à différents types de codage. Parmi les codages les plus employés, on connaît le codage temporel qui associe à l'amplitude du signal un code binaire à des instants discrets, et plus précisément, on mémorise plutôt la différence entre le signal et sa composante prédictible (codage différentiel). On fait également appel au codage de la parole par analyse et synthèse, selon lequel on ne stocke que très peu de paramètres significatifs (dispositifs dits : "vocodeur à canaux" ou "vocodeur à prédiction linéaire"). On connaît enfin un procédé qui résulte de l'association des deux procédés précités : "vocodeur prédictif adaptatif" ou "à excitation vocale", en particulier le codage en sous-bandes.In order to reduce this memory capacity, the known art uses different types of coding. Among the most used codings, we know the temporal coding which associates with the amplitude of the signal a binary code at discrete instants, and more precisely, we rather memorize the difference between the signal and its predictable component (differential coding). Speech coding by analysis and synthesis is also used, according to which very few significant parameters are stored (so-called "channel vocoder" or "linear prediction vocoder"). Finally, a method is known which results from the combination of the two aforementioned methods: "adaptive predictive vocoder" or "voice excitation", in particular coding in sub-bands.

Dans le cas du codage en sous-bandes, qui est un codage dans le domaine fréquentiel, on fractionne le spectre du signal à coder en un certain nombre de sous-bandes de largeur Bk (égales entre elles ou non). Chaque sous-bande (d'indice k) est ensuite rééchantillonnée à la fréquence de Shannon, soit 2Bk. Les signaux issus de chaque filtre de sous-bande sont quantifiés différemment en fonction de la fréquence, à savoir quantification fine pour le fondamental et les formants, et quantification grossière dans les plages où l'énergie est faible. L'opération inverse est réalisée pour reconstruire le signal.In the case of coding in sub-bands, which is coding in the frequency domain, the spectrum of the signal to be coded is divided into a certain number of sub-bands of width B k (equal to each other or not). Each sub-band (of index k) is then resampled at the Shannon frequency, ie 2B k . The signals from each subband filter are quantized differently depending on the frequency, i.e. quantization fine for the fundamental and the formants, and coarse quantification in the ranges where the energy is weak. The reverse operation is performed to reconstruct the signal.

Avant stockage et transmission, les signaux sont codés par exemple selon une loi de codage MIC (modulation par impulsions et codage) normalisée à 64 kbits/s (signal échantillonné à 8 kHz sur 8 bits dans la bande 300-3600 Hz et compressé selon une loi logarithmique). Le codage MICDA (MIC différentiel adaptatif), à un débit de 32 kbits/s (8 kHz sur 4 bits), tend à se généraliser.Before storage and transmission, the signals are coded for example according to a MIC coding law (pulse modulation and coding) standardized to 64 kbits / s (signal sampled at 8 kHz on 8 bits in the 300-3600 Hz band and compressed according to a logarithmic law). ADPCM (adaptive differential MIC) coding, at a rate of 32 kbits / s (8 kHz on 4 bits), is tending to become generalized.

On a représenté en figure 1 le schéma de principe d'un dispositif 1 de codage à deux sous-bandes. Le signal de parole x est filtré par deux filtres F1, F2 (de réponses impulsionnelles h1, h2). Chacune des deux sous-bandes en sortie de F1, F2 est décimée par 2 (suppression d'un échantillon sur 2) par les circuits 2, 3 respectivement, puis codée (4), par exemple en MICDA et stockée (ou transmise). A la lecture (ou réception), la reconstitution du signal de parole se fait par décodage (5, 6) puis filtrage dans des interpolateurs (7, 8) identiques à ceux de la bande d'analyse correspondante et sommation (9) des deux sous-bandes décodées. Les filtres F1 et F2 sont des filtres FIR (à réponse impulsionnelle finie) à phase linéaire et satisfont aux conditions suivantes. h₂ (n) = (-1) n h1 (n)

Figure imgb0001
|H₁ (e )|² + |H₂ (e )|² # 1
Figure imgb0002
FIG. 1 shows the block diagram of a coding device 1 with two sub-bands. The speech signal x is filtered by two filters F1, F2 (of impulse responses h1, h2). Each of the two sub-bands at the output of F1, F2 is decimated by 2 (deletion of a sample out of 2) by circuits 2, 3 respectively, then coded (4), for example in ADPCM and stored (or transmitted). When reading (or receiving), the speech signal is reconstituted by decoding (5, 6) then filtering in interpolators (7, 8) identical to those of the corresponding analysis strip and summation (9) of the two decoded sub-bands. Filters F1 and F2 are FIR (finite impulse response) filters of linear phase and satisfy the following conditions. h₂ (n) = (-1) not h1 (n)
Figure imgb0001
| H₁ (e i ) | ² + | H₂ (e i ) | ² # 1
Figure imgb0002

On a représenté en figure 2 le gabarit de ces filtres.FIG. 2 shows the template of these filters.

Le principe du codage en sous-bandes consiste à filtrer le signal de parole par un banc de filtres, puis à sous-échantillonner les signaux de sortie de ces filtres. A la réception, la reconstitution se fait par addition de chaque sous-bande décodée, interpolée par un filtre identique à celui de la bande d'analyse correspondante. Ce type de codage a d'abord été implanté à partir de filtres disjoints et contigus à réponse impulsionnelle finie. Il a ensuite été étendu grâce à l'emploi de filtres miroirs en quadrature, permettant une reconstitution quasi parfaite du signal initial en l'absence d'erreur sur la quantification.The principle of coding in sub-bands consists in filtering the speech signal by a bank of filters, then in sub-sampling the output signals of these filters. On reception, the reconstruction is done by adding each decoded sub-band, interpolated by a filter identical to that of the corresponding analysis strip. This type of coding was first implemented using disjoint and contiguous filters with finite impulse response. It was then extended thanks to the use of quadrature mirror filters, allowing an almost perfect reconstruction of the initial signal in the absence of error on the quantization.

Il existe deux grandes familles de procédés pour synthétiser les filtres qui décomposent le signal de parole :

  • soit on scinde l'entrée en deux bandes par un filtre optimisé, et on renouvelle l'algorithme pour chaque bande ;
  • soit on déplace sur l'axe fréquentiel un gabarit de filtre passe-bande. Dans ce cas, le filtre de base est de réponse h(n) et de largeur de bande π/2M (M étant le nombre de sous-bandes). Par déplacement, on obtient :
h i (n) = h(n) . cos (nπ (2i+1)/2M)
Figure imgb0003
There are two main families of methods for synthesizing the filters which decompose the speech signal:
  • either the input is split into two bands by an optimized filter, and the algorithm is renewed for each band;
  • or a band pass filter template is moved on the frequency axis. In this case, the basic filter has response h (n) and bandwidth π / 2M (M being the number of sub-bands). By displacement, we obtain:
h i (n) = h (n). cos (nπ (2i + 1) / 2M)
Figure imgb0003

π étant la demi-fréquence d'échantillonnage normalisée. Le problème de repliement des gabarits lors du sous-échantillonnage peut être compensé par un terme de phase dans la fonction cosinus de déphasage.π being the normalized half sampling frequency. The problem of aliasing of the templates during the sub-sampling can be compensated by a phase term in the cosine phase shift function.

Le filtre demi-bande, dont le gabarit est représenté en figure 2, est classiquement un filtre linéaire dont la fonction de transfert vaut 1/2 à fe/4 (fe = fréquence d'échantilllonnage) et est antisymétrique par rapport à ce point, c'est-à-dire que l'on a :

Figure imgb0004
The half-band filter, the template of which is shown in FIG. 2, is conventionally a linear filter whose transfer function is equal to 1/2 to fe / 4 (fe = sampling frequency) and is asymmetric with respect to this point, that is to say that we have:
Figure imgb0004

Les coefficients h(n) sont nuls pour n pair, sauf ho. Le gabarit est défini par l'ondulation en bandes passante et coupée, et par Δf qui représente la largeur de la bande de transition. Le nombre N de coefficients du filtre en fonction du gabarit désiré est donné par la relation approchée : N # 2 3 log ( 1 10δ² ) fe Δf

Figure imgb0005

dans laquelle δ = δ₁ = δ₂ représente l'ondulation dans les bandes passante et coupée. La réduction ou l'élévation de la fréquence d'échantillonnage sont obtenues par la mise en cascade de P filtres demi-bande. La fréquence intermédiaire fi est un sous-multiple de la fréquence d'échantillonnage dans un rapport deux : fe = 2P . fi.The coefficients h (n) are zero for n even, except ho. The template is defined by the ripple in bandwidth and cut, and by Δf which represents the width of the transition band. The number N of filter coefficients as a function of the desired template is given by the approximate relation: NOT # 2 3 log ( 1 10δ² ) fe Δf
Figure imgb0005

in which δ = δ₁ = δ₂ represents the ripple in the passband and cut. The reduction or increase in the sampling frequency is obtained by cascading P half-band filters. The intermediate frequency fi is a submultiple of the sampling frequency in a ratio two: fe = 2 P. fi.

Il existe également des dispositifs procédant à l'analyse multirésolution du signal de parole, et comportant essentiellement un filtre discret et un circuit de "décimation" (suppression d'un échantillon sur deux). On connaît également ("Traitement de Signal", vol 7, n° 2, 1990), pour la compression numérique d'image, un algorithme rapide mettant en oeuvre une transformée en ondelettes, mais cet algorithme ne convient que pour des images (seule la composante HF est conservée).There are also devices carrying out multiresolution analysis of the speech signal, and essentially comprising a discrete filter and a "decimation" circuit (removal of one in two samples). We also know ("Signal Processing", vol 7, n ° 2, 1990), for digital image compression, a fast algorithm implementing a wavelet transform, but this algorithm is only suitable for images (only the HF component is retained).

Les dispositifs connus sont soit trop rudimentaires, et ne permettent pas d'obtenir à la restitution un signal de parole suffisamment intelligible, soit trop complexes et donc onéreux.The known devices are either too rudimentary, and do not make it possible to obtain a sufficiently intelligible speech signal on rendering, or are too complex and therefore expensive.

La présente invention a pour objet un procédé de synthèse vocale qui permette de synthétiser le plus simplement possible des signaux de parole et ne fasse appel, pour sa mise en oeuvre, qu'à des circuits existants et peu onéreux.The subject of the present invention is a method of speech synthesis which makes it possible to synthesize speech signals as simply as possible and only calls, for its implementation, on existing and inexpensive circuits.

Le procédé de l'invention consiste à numériser un signal vocal, à découper ce signal numérisé dans une base orthogonale d'ondelettes à support compact, à stocker les coefficients représentatifs du signal vocal, et, à la restitution, à reconstituer le signal vocal par filtrage, interpolation et amplification basse fréquence.The method of the invention consists in digitizing a voice signal, in cutting this digital signal in an orthogonal base of wavelets with compact support, in storing the coefficients representative of the voice signal, and in restitution, in reconstructing the voice signal by low frequency filtering, interpolation and amplification.

L'invention sera mieux comprise à la lecture de la description détaillée d'un mode de réalisation, pris à titre d'exemple non limitatif et illustré par le dessin annexé, sur lequel :

  • la figure 1, déjà décrite ci-dessus, est un bloc-diagramme d'un système de codage connu ;
  • la figure 2 est un gabarit de filtre demi-bande utilisable dans le système de la figure 1 ;
  • la figure 3 est un bloc-diagramme d'un système de synthèse mettant en oeuvre le procédé conforme à l'invention ;
  • la figure 4 est un bloc-diagramme du dispositif d'analyse du système de la figure 3 ;
  • la figure 5 est un diagramme illustrant l'algorithme de décomposition de l'Invention ;
  • la figure 6 est un diagramme illustrant l'algorithme de reconstruction de l'invention ;
  • la figure 7 est un bloc-diagramme simplifié d'un dispositif de synthèse vocale mettant en oeuvre le procédé de l'invention ;
  • la figure 8 est un chronogramme d'une fonction d'échelle et d'une ondelette utilisées par l'invention ; et
  • la figure 9 est un schéma d'un dispositif de synthèse mettant en oeuvre le procédé conforme à l'invention.
The invention will be better understood on reading the detailed description of an embodiment, taken by way of nonlimiting example and illustrated by the appended drawing, on which :
  • FIG. 1, already described above, is a block diagram of a known coding system;
  • Figure 2 is a half-band filter template usable in the system of Figure 1;
  • Figure 3 is a block diagram of a synthesis system implementing the method according to the invention;
  • Figure 4 is a block diagram of the system analysis device of Figure 3;
  • FIG. 5 is a diagram illustrating the decomposition algorithm of the invention;
  • FIG. 6 is a diagram illustrating the reconstruction algorithm of the invention;
  • FIG. 7 is a simplified block diagram of a speech synthesis device implementing the method of the invention;
  • Figure 8 is a timing diagram of a scale function and a wavelet used by the invention; and
  • Figure 9 is a diagram of a synthesis device implementing the method according to the invention.

Le synthétiseur de messages vocaux décrit ci-dessous comporte deux parties principales : une partie 14 d'analyse et une partie 15 de synthèse vocale (figure 3).The voice message synthesizer described below has two main parts: an analysis part 14 and a voice synthesis part 15 (FIG. 3).

Dans la partie 14, les signaux de la source 16 (par exemple un microphone) sont quantifiés, puis analysés en 17 et codés en 18. Les critères pertinents qui en résultent sont stockés en 19 (par exemple des mémoires de type EEPROM). Toutes ces opérations sont, dans le cas présent, réalisées en laboratoire.In part 14, the signals from the source 16 (for example a microphone) are quantified, then analyzed at 17 and coded at 18. The relevant criteria which result therefrom are stored at 19 (for example memories of the EEPROM type). All these operations are, in this case, carried out in the laboratory.

Dans la deuxième partie, qui comporte le dispositif de stockage 19, un dispositif 20 assure la reconstitution du signal à partir des coefficients sélectionnés et stockés (en 19), le signal reconstitué est envoyé à un amplificateur 21 muni d'un haut-parleur.In the second part, which includes the storage device 19, a device 20 ensures the reconstitution of the signal from the coefficients selected and stored (at 19), the reconstituted signal is sent to an amplifier 21 provided with a loud speaker.

Selon l'invention, on met en oeuvre, pour le codage et la reconstitution, un algorithme qui décompose le signal vocal dans une base orthogonale d'ondelettes à support compact. Ces ondelettes sont par exemple des ondelettes de Daubechies (voir figure 8). Seuls sont stockés les coefficients jugés représentatifs du signal vocal de départ et assurant une parfaite intelligibilité du message reconstitué, ce qui limite fortement le débit des signaux à stocker.According to the invention, an algorithm is implemented for coding and reconstruction which decomposes the voice signal in an orthogonal base of wavelets with compact support. These wavelets are for example Daubechies wavelets (see Figure 8). Only the coefficients deemed representative of the starting voice signal and ensuring perfect intelligibility of the reconstructed message are stored, which greatly limits the bit rate of the signals to be stored.

L'organigramme de la figure 4 illustre la procédure d'analyse vocale conforme à l'invention.The flowchart of Figure 4 illustrates the voice analysis procedure according to the invention.

Les signaux basse fréquence produits par une source de signaux basse fréquence 22 (capteur acoustique, moyen de stockage magnétique, ...) sont numérisés (23), par exemple sur 16 bits, par exemple à l'aide d'un convertisseur "flash" ou d'un convertisseur à approximations successives (dont le temps de conversion est de l'ordre de 60 µs ou moins) à une fréquence d'échantillonnage, qui est par exemple de 10 kHz. Le signal échantillonné est ensuite découpé en trames de, par exemple, 128 points (durée d'une trame : 12,8 ms). Selon un autre exemple, on peut mettre en oeuvre des trames de 256 points, sans préjudice notable pour la qualité de la restitution. Ensuite, on procède à l'analyse (24), qui constitue une étape essentielle de l'invention. Cette analyse consiste en particulier à décomposer le signal numérisé sur une base orthogonale d'ondelettes à support compact, et fait appel à des filtres dont la réponse impulsionnelle peut être symétrique ou non. Dans le cas où cette réponse est symétrique, on limite le stockage des coefficients extrêmes (responsables des effets de bords) à un seul côté du signal, l'autre côté étant déduit par symétrie (la périodicité des filtres est implicite par construction).The low frequency signals produced by a low frequency signal source 22 (acoustic sensor, magnetic storage means, etc.) are digitized (23), for example on 16 bits, for example using a "flash" converter "or of a successive approximation converter (whose conversion time is of the order of 60 μs or less) at a sampling frequency, which is for example 10 kHz. The sampled signal is then divided into frames of, for example, 128 points (duration of a frame: 12.8 ms). According to another example, it is possible to use frames of 256 points, without significant damage to the quality of the reproduction. Next, the analysis (24) is carried out, which constitutes an essential step of the invention. This analysis consists in particular in decomposing the digitized signal on an orthogonal basis of wavelets with compact support, and uses filters whose impulse response may or may not be symmetrical. In the case where this response is symmetrical, the storage of the extreme coefficients (responsible for the edge effects) is limited to one side of the signal, the other side being deduced by symmetry (the periodicity of the filters is implicit by construction).

A partir des 128 points initiaux, on obtient donc par cette décomposition 128 combinaisons linéaires indépendantes de la base d'observation.La régularité de l'onde, qui conditionne la forme du filtre de décomposition est un des deux paramètres majeurs de la décomposition (avec le niveau de décomposition, qui conditionne la largeur du filtre). Parmi ces 128 combinaisons, on en conserve par exemple 32 (estimées être les plus significatives) qui sont codées (25), dans le cas présent sur 8 bits, ce qui donne un débit de valeurs à stocker de 20 kbits/s. La sélection de 16 coefficients codés sur 16 bits ne modifierait pas le débit des valeurs à stocker, mais diminuerait la qualité du signal restitué.From the initial 128 points, we therefore obtain by this decomposition 128 linear combinations independent of the observation base. The regularity of the wave, which conditions the shape of the decomposition filter is one of the two major parameters of decomposition (with the level of decomposition, which conditions the width of the filter ). Among these 128 combinations, 32 are kept for example (estimated to be the most significant) which are coded (25), in this case on 8 bits, which gives a throughput of values to be stored of 20 kbits / s. The selection of 16 coefficients coded on 16 bits would not modify the bit rate of the values to be stored, but would decrease the quality of the restored signal.

On notera que l'analyse par dilatation de l'échelle des temps (voir fonction d'échelle, en trait interrompu, en figure 8) est réalisée non pas en dilatant les ondelettes d'analyse, mais en sous-échantillonnant d'un facteur 2P le signal à analyser. Il en résulte, pour une décomposition à un niveau p, (p+1) jeux de coefficients. De plus, la projection sur une base orthogonale (à nombre de points = N/2 + N/4 + ... + N/2P+1) n'induit ni perte ni redondance d'informations. La représentation en ondelettes devient (Sj, Dj)0≦j≦J

Figure imgb0006
est l'approximation du signal à la résolution 2j et les Dj correspondent aux détails de résolution 2j.It will be noted that the analysis by expansion of the time scale (see scale function, in dashed lines, in FIG. 8) is carried out not by expanding the analysis wavelets, but by subsampling by a factor 2 P the signal to analyze. This results, for a decomposition at a level p, (p + 1) sets of coefficients. In addition, projection on an orthogonal basis (at number of points = N / 2 + N / 4 + ... + N / 2 P + 1 ) does not result in any loss or redundancy of information. The wavelet representation becomes (S j , D j ) 0 ≦ j ≦ J where
Figure imgb0006
is the signal approximation at resolution 2 j and the D j correspond to details of resolution 2 j .

Les paramètres ayant été codés (25), on procède toujours en laboratoire, avant de les stocker, à une évaluation (26), en réalisant la synthèse, comme décrit ci-dessous. Si (en 27) la qualité de la restitution du signal vocal est mauvaise, on modifie (28) le choix des paramètres résultant de l'analyse (24), et on les code (25) pour une nouvelle évaluation (25). Si cette qualitée est jugée bonne, on met en forme les trames de paramètres (29) et on transmet celles-ci, par exemple via une liaison série RS422 (30), aux moyens de stockage.The parameters having been coded (25), one always proceeds in the laboratory, before storing them, to an evaluation (26), by carrying out the synthesis, as described below. If (at 27) the quality of the reproduction of the voice signal is poor, the choice of parameters resulting from the analysis (24) is modified (28), and they are coded (25) for a new evaluation (25). If this quality is judged to be good, the parameter frames (29) are shaped and these are transmitted, for example via an RS422 serial link (30), to the storage means.

On a illustré en figure 5 la mise en oeuvre de l'algorithme de décomposition selon l'invention.FIG. 5 illustrates the implementation of the decomposition algorithm according to the invention.

Les différentes composantes So à Sj sont traitées chacune de la même façon : convolution avec les (j+1) filtres

Figure imgb0007
(31.o à 31.j) et leurs (j+1) miroirs respectifs (32.o à 32.j)
Figure imgb0008
et décimation par 2 (respectivement 32.o à 32.j et 34.o à 34.j).The different components So to Sj are each treated in the same way: convolution with the (j + 1) filters
Figure imgb0007
(31.o to 31.j) and their respective (j + 1) mirrors (32.o to 32.j)
Figure imgb0008
and decimation by 2 (respectively 32.o to 32.j and 34.o to 34.j).

Pour une régularité n, le support du filtre comporte 2.n valeurs. A partir des N coefficients de départ, on a pour n=1 2 fois N/2 coefficients, pour N=2, 4 fois N/4 coefficients, etc..., mais on n'en stocke que N/2n. Si l'on prend par exemple n=6, on met en oeuvre une convolution sur 12 points. Cette valeur implique que la convolution est réalisée dans le domaine temporel. Cependant, pour une régularité supérieure à environ 16, il est préférable, du point de vue du temps de calcul du processeur d'analyse, de substituer à la convolution une multiplication dans l'espace fréquentiel dual (ce qui revient à une convolution sectionnée).For a regularity n, the filter support has 2.n values. From the N starting coefficients, we have for n = 1 2 times N / 2 coefficients, for N = 2, 4 times N / 4 coefficients, etc ..., but we only store N / 2n. If we take for example n = 6, we implement a convolution on 12 points. This value implies that convolution is performed in the time domain. However, for a regularity greater than about 16, it is preferable, from the point of view of the computation time of the analysis processor, to substitute for the convolution a multiplication in the dual frequency space (which amounts to a sectioned convolution) .

Le codage des paramètres (en 25) peut être réalisé soit à partir d'histogrammes locaux, soit, de manière plus simple, par une quantification liée à un niveau énergétique fixé par avance.The coding of the parameters (at 25) can be carried out either from local histograms, or, more simply, by a quantification linked to an energy level fixed in advance.

La phase d'évaluation (26) consiste à écouter le message reconstitué, et, le cas échéant, si l'écoute n'est pas jugée satisfaisante, à modifier (28) les paramètres à stocker. Cette reconstitution se fait, comme décrit ci-dessous en détail, par conversion numérique/analogique, filtrage passe-bas de lissage et amplification basse fréquence. Lorsque la qualité du message reconstitué est jugée satisfaisante, on met en forme les coefficients (29) et on les charge (30) dans une mémoire appropriée. La mise en forme consiste essentiellement à formatter les données, à produire les adresses correspondantes et à séquencer les trames successives de données.The evaluation phase (26) consists in listening to the reconstituted message, and, if necessary, if the listening is not deemed satisfactory, in modifying (28) the parameters to be stored. This reconstruction is done, as described below in detail, by digital / analog conversion, low-pass smoothing filtering and low frequency amplification. When the quality of the reconstructed message is judged satisfactory, the coefficients (29) are shaped and loaded (30) into an appropriate memory. Formatting essentially consists of formatting the data, producing the corresponding addresses and sequencing the successive frames of data.

On a illustré en figure 6 l'algorithme de synthèse vocale proprement dit mettant en oeuvre le procédé de l'invention, qui constitue un moyen autonome de génération de messages, distinct du dispositif de synthèse de laboratoire, mentionné ci-dessus, ayant servi pour l'évaluation du choix des paramètres. Cet algorithme de synthèse vocale reconstitue le signal d'origine en procédant par interpolation (35.o à 35.j pour So à Sj et 36.o à 36.j pour Do à Dj), filtrage (37.o à 37.j et 38.o à 38.j respectivement), addition (39.o à 39.j), multiplication (40.0 à 40.j) et amplification basse fréquence. En effet, à partir de la décomposition en échelle-ondelette au niveau p (typiquement p=2 à 3), il est possible de reconstruire la décomposition au niveau (p-1). Il suffit pour cela d'insérer des valeurs nulles entre chaque valeur de la décomposition au niveau p, puis de convoluer avec les fonctions ondelettes et échelles inverses selon l'algorithme de reconstruction détaillé ci-dessus.The synthesis algorithm is illustrated in FIG. 6. vocal proper implementing the method of the invention, which constitutes an autonomous means of generating messages, distinct from the laboratory synthesis device, mentioned above, which was used for the evaluation of the choice of parameters. This speech synthesis algorithm reconstructs the original signal by interpolating (35.o to 35.j for So to Sj and 36.o to 36.j for Do to Dj), filtering (37.o to 37.j and 38.o to 38.j respectively), addition (39.o to 39.j), multiplication (40.0 to 40.j) and low frequency amplification. Indeed, from the wavelet-scale decomposition at level p (typically p = 2 to 3), it is possible to reconstruct the decomposition at level (p-1). It is enough for that to insert null values between each value of the decomposition at the level p, then to convolve with the wavelet and inverse scales functions according to the algorithm of reconstruction detailed above.

Les ondelettes de Daubechies, que l'invention utilise préférentiellement, sont des ondelettes à support compact, qui minimisent de ce fait le nombre de points de leur réponse impulsionnelle, donc de la convolution.The Daubechies wavelets, which the invention preferentially uses, are wavelets with compact support, which thereby minimize the number of points of their impulse response, therefore of the convolution.

Les filtres de décomposition sont identiques à ceux de reconstruction, mais ils ne sont pas symétriques, ce qui oblige à mémoriser les coefficients dus aux effets de bords au début et à la fin de la trame de coefficients à mémoriser. On peut contourner ce problème en utilisant des ondelettes bi-orthogonales, ce qui oblige alors à utiliser des filtres de reconstruction différents de ceux de décomposition, mais leur réponse étant symétrique, seuls sont stockés les coefficients d'un seul côté.The decomposition filters are identical to those of reconstruction, but they are not symmetrical, which obliges to memorize the coefficients due to the edge effects at the beginning and at the end of the frame of coefficients to memorize. One can circumvent this problem by using bi-orthogonal wavelets, which obliges then to use filters of reconstruction different from those of decomposition, but their answer being symmetrical, only the coefficients are stored on only one side.

On a représenté en figure 7 le schéma simplifié d'un dispositif de synthèse vocale mettant en oeuvre le procédé conforme à l'invention. Les coefficients des filtres de reconstruction sont stockés dans une mémoire 41 et utilisés par un calculateur spécialisé ou un microprocesseur 42 qui reconstruit le signal vocal sous la commande de l'algorithme de reconstruction décrit ci-dessus et mémorisé dans sa mémoire de programme 43 avec les valeurs des réponses impulsionnelles des différents filtres de reconstruction. Les valeurs numériques du signal reconstruit sont converties en analogique par le convertisseur 44 qui est suivi d'un amplificateur 45 à filtre analogique passe-bas (à fréquence de coupure de 4 kHz par exemple) et à commande de gain 46. La sortie de l'amplificateur 45 est reliée à un haut-parleur 47. L'amplificateur comporte avantageusement une sortie haute impédance 48 qui peut être reliée à un dispositif d'enregistrement approprié. Le microprocesseur 42 est par ailleurs relié à une entrée 49 (par exemple entrée série RS232 ou RS422) par laquelle il reçoit des demandes de synthèse de messages vocaux. Ces demandes peuvent provenir de circuits d'alarme.FIG. 7 shows the simplified diagram of a speech synthesis device implementing the method according to the invention. The coefficients of the reconstruction filters are stored in a memory 41 and used by a specialized computer or a microprocessor 42 which reconstructs the voice signal under the control of the reconstruction algorithm described above and stored in its program memory 43 with the values of the impulse responses of the different reconstruction filters. The digital values of the reconstructed signal are converted into analog by the converter 44 which is followed by an amplifier 45 with an analog low-pass filter (at a cut-off frequency of 4 kHz for example) and with gain control 46. The output of the amplifier 45 is connected to a loudspeaker 47. The amplifier advantageously includes a high impedance output 48 which can be connected to a suitable recording device. The microprocessor 42 is also connected to an input 49 (for example RS232 or RS422 serial input) by which it receives requests for synthesis of voice messages. These requests can come from alarm circuits.

Sur le schéma détaillé du dispositif de synthèse vocale de la figure 9, on a représenté le processeur 50 avec son bus d'adresses 51, son bus de données 52 et son bus de commande 53, qui est relié en particulier à un séquenceur logique 54. Le séquenceur est relié à une interface série d'entrée 55 et à une interface série de sortie 56, et via un circuit d'opto-isolation 57 à un dispositif de commande de synthèse de messages (non représenté), qui lui envoie les adresses des messages à synthétiser. Une mémoire de programme 58 est reliée au trois bus 51 à 53. Les coefficients sont stockés dans une mémoire 59 reliée directement au bus d'adresses et au séquenceur 54 et reliée via une porte trois états 60 au bus de données, la porte 60 étant commandée par le séquenceur 54.In the detailed diagram of the speech synthesis device in FIG. 9, the processor 50 is represented with its address bus 51, its data bus 52 and its control bus 53, which is connected in particular to a logic sequencer 54 The sequencer is connected to a serial input interface 55 and to a serial output interface 56, and via an opto-isolation circuit 57 to a message synthesis control device (not shown), which sends it the addresses of the messages to be synthesized. A program memory 58 is connected to the three buses 51 to 53. The coefficients are stored in a memory 59 directly connected to the address bus and to the sequencer 54 and connected via a three-state gate 60 to the data bus, the gate 60 being controlled by the sequencer 54.

Les bus 51 à 53 peuvent être reliés à un connecteur extérieur pour télécharger des coefficients ou modifier le programme de reconstruction, pour effectuer des tests ou des travaux de maintenance.Buses 51 to 53 can be connected to an external connector to download coefficients or modify the reconstruction program, to carry out tests or maintenance work.

Le séquenceur 54 est relié à un convertisseur numérique/analogique 61 suivi d'un filtre passe-bas 62 et d'un amplificateur basse fréquence 63 dont le gain peut être ajusté par un potentiomètre 64. L'amplificateur 63 est relié à un ou plusieurs haut-parleurs 65 et à une borne de sortie haute impédance 66.The sequencer 54 is connected to a digital / analog converter 61 followed by a low-pass filter 62 and a low-frequency amplifier 63 whose gain can be adjusted by a potentiometer 64. The amplifier 63 is connected to one or more loudspeakers 65 and to a high impedance output terminal 66.

Le traitement des effets de bords est rendu indispensable lorsque l'on utilise un niveau de décomposition important. Il peut être obtenu en rendant artificiellement impaires les trames de parole, en ajoutant d'un côté d'une trame de parole ou des deux côtés une copie d'une partie de cette trame, par exemple pour une trame de 256 points, on rajoute d'un côté ou des deux 128 points.Processing edge effects is essential when using a high level of decomposition. It can be obtained by artificially making the speech frames artificially odd, by adding on one side of a speech frame or on both sides a copy of part of this frame, for example for a frame of 256 points, we add on one side or both 128 points.

Il est possible d'adopter une modélisation autorégressive de la trame (25,6 ms) de parole voisée pour étendre artificiellement sa durée par une extrapolation temporelle.It is possible to adopt an autoregressive modeling of the frame (25.6 ms) of voiced speech to artificially extend its duration by a temporal extrapolation.

Le traitement de synthèse qui est décrit ci-dessus par blocs peut être mis en oeuvre par N filtres disjoints en cascade (type vocodeur). Ce procédé limite les effets de bords dus au rafraichissement des valeurs du filtrage, mais pénalise le processeur puisque l'on n'utilise pas alors les optimisations décrites lors de la décomposition dyadique.The synthesis processing which is described above in blocks can be implemented by N disjoint filters in cascade (vocoder type). This process limits the edge effects due to the refreshment of the filtering values, but penalizes the processor since the optimizations described then are not used during the dyadic decomposition.

La base orthogonale choisie est à support compact, ce qui optimise le temps de calcul de la convolution du filtrage. Les coefficients sont réels, ce qui permet une interprétation facile du module et du signe, et qui relaxe les contraintes liées à l'exploitation physique du modulo 2 π (lorsque la base est complexe). Lorsque le nombre de points utilisés est inférieur à environ 30, on effectue une convolution temporelle. On peut faire appel à plusieurs bases orthogonales, avec des régularités différentes.

  • la décomposition n'est pas établie à un niveau donné, mais chaque filtre est adapté en largeur (par exemple niveau de décomposition oblique : analyse à Q
    Figure imgb0009
    constant) grâce au niveau variable en fonction de l'optimisation liée à la parole. On peut par exemple effectuer un découpage plus fin autour de 800 Hz ;
  • le choix de la régularité de l'ondelette de synthèse peut par exemple être déterminé par une analyse préliminaire des trames de parole (par "ondelette de voisement" qui est par exemple une ondelette moyenne déterminée à partir des trois classes de voisement ou la dérivée troisième d'une gaussienne) ;
    • trame voisée (structure harmonique) : régularité 6 à 10 environ ;
    • trame non voisée (plosives, fricatives) : faible régularité (1 à 6) ;
  • le réagencement des coefficients d'ondelette (résultat du produit scalaire) en fonction de leur position fréquentielle permet de traiter plus facilement l'analyse temps-échelle et de la voir comme une analyse temps-fréquence ;
  • une quantification vectorielle permet d'optimiser le débit en adaptant le codage en fonction du rang fréquentiel et de l'énergie à coder. Quelle que soit la méthode employée (par exemple dichotomie), la finalité reste toujours l'élaboration d'un "codebook" multirésolution (un "codebook" étant un ensemble de vecteurs qui comportent toutes les "classes" ou vecteurs caractérisant le barycentre de nuages de points). In fine on essaye de choisir une distorsion minimale (erreur quadratique faible) aussi peu pénalisante que possible ;
  • le nombre de bits de codage d'un vecteur du code book est fonction de l'énergie traitée (nombre important pour le fondamental, faible pour les fréquences extrêmes).
The chosen orthogonal base has compact support, which optimizes the time taken to calculate the filtering convolution. The coefficients are real, which allows an easy interpretation of the module and the sign, and which relaxes the constraints linked to the physical exploitation of the modulo 2 π (when the base is complex). When the number of points used is less than about 30, a time convolution is carried out. We can use several orthogonal bases, with regularities different.
  • the decomposition is not established at a given level, but each filter is adapted in width (for example oblique level of decomposition: analysis at Q
    Figure imgb0009
    constant) thanks to the variable level depending on the optimization linked to speech. One can for example carry out a finer cutting around 800 Hz;
  • the choice of the regularity of the synthetic wavelet can for example be determined by a preliminary analysis of the speech frames (by "voicing wavelet" which is for example an average wavelet determined from the three voicing classes or the third derivative from a Gaussian);
    • voiced weft (harmonic structure): regularity 6 to 10 approximately;
    • unvoiced frame (plosives, fricatives): poor regularity (1 to 6);
  • the rearrangement of the wavelet coefficients (result of the scalar product) as a function of their frequency position makes it easier to process the time-scale analysis and to see it as a time-frequency analysis;
  • vector quantization makes it possible to optimize the bit rate by adapting the coding according to the frequency rank and the energy to be coded. Whatever the method used (for example dichotomy), the finality always remains the elaboration of a multiresolution "codebook" (a "codebook" being a set of vectors which include all the "classes" or vectors characterizing the barycenter of clouds points). Ultimately, we try to choose a minimal distortion (low quadratic error) as little penalizing as possible;
  • the number of coding bits of a vector of the code book is a function of the energy processed (large number for the fundamental, weak for extreme frequencies).

Claims (11)

Procédé de synthése vocale, caractérisé par le fait qu'il consiste à numériser un signal vocal, à découper ce signal numérisé dans au moins une base orthogonale d'ondelettes à support compact, à stocker les coefficients représentatifs du signal vocal, et, à la restitution, à reconstituer le signal vocal par filtrage, interpolation et amplification basse fréquence.Speech synthesis method, characterized in that it consists in digitizing a speech signal, in cutting this digitized signal in at least one orthogonal wavelet base with compact support, in storing the coefficients representative of the speech signal, and, in the restitution, to reconstruct the voice signal by filtering, interpolation and low frequency amplification. Procédé selon la revendication 1, caractérisé par le fait que les coefficients sont réels.Method according to claim 1, characterized in that the coefficients are real. Procédé selon la revendication 1 ou 2, caractérisé par le fait que le choix de la régularité de l'ondelette de synthèse est déterminé par une analyse préliminaire des trames de parole.Method according to claim 1 or 2, characterized in that the choice of the regularity of the synthetic wavelet is determined by a preliminary analysis of the speech frames. Procédé selon l'une des revendications précédentes, caractérisé par le fait que pour des trames de parole voisée, la régularité de l'ondelette de synthèse est d'environ 6 à 10.Method according to one of the preceding claims, characterized in that for voiced speech frames, the regularity of the synthesis wavelet is approximately 6 to 10. Procédé selon l'une des revendications 1 à 3, caractérisé par le fait que pour des trames de parole non voisée, la régularité de l'ondelette de synthèse est de 1 à 6.Method according to one of claims 1 to 3, characterized in that for non-voiced speech frames, the regularity of the synthesis wavelet is from 1 to 6. Procédé selon l'une des revendications précédentes, caractérisé par le fait que pour traiter les effets de bords, on rend artificiellement impaires les trames de parole.Method according to one of the preceding claims, characterized in that, to process the edge effects, the speech frames are artificially odd. Procédé selon l'une des revendications précédentes, caractérisé par le fait que les ondelettes sont des ondelettes de Daubechies.Method according to one of the preceding claims, characterized in that the wavelets are wavelets of Daubechies. Procédé selon l'une des revendications précédentes, caractérisé par le fait que l'on utilise des ondelettes bi-orthogonales.Method according to one of the preceding claims, characterized in that bi-orthogonal wavelets are used. Procédé selon l'une des revendications précédentes, caractérisé par le fait qu'avant d'être stockés, les coefficients sont utilisés pour une synthèse d'évaluation (26), et ne sont stockés que lorsque la qualité de restitution est jugée satisfaisante.Method according to one of the preceding claims, characterized in that before being stored, the coefficients are used for an evaluation summary (26), and are only stored when the quality of restitution is judged satisfactory. Procédé selon l'une des revendications précédentes, caractérisé par le fait que le filtrage est fait par convolution.Method according to one of the preceding claims, characterized in that the filtering is done by convolution. Procédé selon l'une des revendications précédentes, caractérisé par le fait que pour une régularité supérieure à environ 16, le filtrage est fait par une multiplication dans l'espace fréquentiel dual.Method according to one of the preceding claims, characterized in that for a regularity greater than approximately 16, the filtering is done by a multiplication in the dual frequency space.
EP92401663A 1991-06-18 1992-06-16 Speech synthesis method using wavelets Ceased EP0519802A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9107424 1991-06-18
FR9107424A FR2678103B1 (en) 1991-06-18 1991-06-18 VOICE SYNTHESIS PROCESS.

Publications (1)

Publication Number Publication Date
EP0519802A1 true EP0519802A1 (en) 1992-12-23

Family

ID=9413950

Family Applications (1)

Application Number Title Priority Date Filing Date
EP92401663A Ceased EP0519802A1 (en) 1991-06-18 1992-06-16 Speech synthesis method using wavelets

Country Status (5)

Country Link
US (1) US5826232A (en)
EP (1) EP0519802A1 (en)
JP (1) JPH06503186A (en)
FR (1) FR2678103B1 (en)
WO (1) WO1992022890A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19538852A1 (en) * 1995-06-30 1997-01-02 Deutsche Telekom Ag Method and arrangement for classifying speech signals
US5781881A (en) * 1995-10-19 1998-07-14 Deutsche Telekom Ag Variable-subframe-length speech-coding classes derived from wavelet-transform parameters
WO1999059134A1 (en) * 1998-05-11 1999-11-18 Siemens Aktiengesellschaft Method and device for determining spectral voice characteristics in a spoken expression
EP3705369A1 (en) * 2019-03-04 2020-09-09 Commissariat à l'énergie atomique et aux énergies alternatives Method for detecting anomalies in rolling stock using a signal for deformation of a rail support

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5727119A (en) * 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
FR2744277B1 (en) * 1996-01-26 1998-03-06 Sextant Avionique VOICE RECOGNITION METHOD IN NOISE AMBIENCE, AND IMPLEMENTATION DEVICE
US6032113A (en) * 1996-10-02 2000-02-29 Aura Systems, Inc. N-stage predictive feedback-based compression and decompression of spectra of stochastic data using convergent incomplete autoregressive models
US6182035B1 (en) * 1998-03-26 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for detecting voice activity
US6898756B1 (en) * 1999-03-15 2005-05-24 Georgia Tech Research Corporation System and method for enabling efficient error correction and encryption using wavelet transforms over finite fields
JP3430985B2 (en) * 1999-08-05 2003-07-28 ヤマハ株式会社 Synthetic sound generator
US6622121B1 (en) 1999-08-20 2003-09-16 International Business Machines Corporation Testing speech recognition systems using test data generated by text-to-speech conversion
US20030220801A1 (en) * 2002-05-22 2003-11-27 Spurrier Thomas E. Audio compression method and apparatus
DE102004025566A1 (en) * 2004-04-02 2005-10-27 Conti Temic Microelectronic Gmbh Method and device for analyzing and evaluating a signal, in particular a sensor signal
US7623826B2 (en) 2004-07-22 2009-11-24 Frank Pergal Wireless repeater with arbitrary programmable selectivity
CN101156196A (en) * 2005-03-28 2008-04-02 莱塞克技术公司 Hybrid speech synthesizer, method and use
US8185316B2 (en) * 2007-05-25 2012-05-22 Prime Geoscience Corporation Time-space varying spectra for seismic processing
JP5159279B2 (en) * 2007-12-03 2013-03-06 株式会社東芝 Speech processing apparatus and speech synthesizer using the same.
CN113129911B (en) * 2021-03-19 2024-09-17 江门市华恩电子研究院有限公司 Audio signal coding compression and transmission method and electronic equipment
CN113744714B (en) * 2021-09-27 2024-04-05 深圳市木愚科技有限公司 Speech synthesis method, device, computer equipment and storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4599567A (en) * 1983-07-29 1986-07-08 Enelf Inc. Signal representation generator
US4974187A (en) * 1989-08-02 1990-11-27 Aware, Inc. Modular digital signal processing system
FR2648567A1 (en) * 1989-05-24 1990-12-21 Inst Nat Sante Rech Med Method for the digital processing of a signal by reversible transformation into wavelets

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4384169A (en) * 1977-01-21 1983-05-17 Forrest S. Mozer Method and apparatus for speech synthesizing
US4398059A (en) * 1981-03-05 1983-08-09 Texas Instruments Incorporated Speech producing system
US4520499A (en) * 1982-06-25 1985-05-28 Milton Bradley Company Combination speech synthesis and recognition apparatus
JPH0632020B2 (en) * 1986-03-25 1994-04-27 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン Speech synthesis method and apparatus
US5086475A (en) * 1988-11-19 1992-02-04 Sony Corporation Apparatus for generating, recording or reproducing sound source data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4599567A (en) * 1983-07-29 1986-07-08 Enelf Inc. Signal representation generator
FR2648567A1 (en) * 1989-05-24 1990-12-21 Inst Nat Sante Rech Med Method for the digital processing of a signal by reversible transformation into wavelets
US4974187A (en) * 1989-08-02 1990-11-27 Aware, Inc. Modular digital signal processing system

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
COMMUNICATIONS ON PURE AND APPLIED MATHEMATICS, vol. XLI, 1988, pages 909-996; I. DAUBECHIES: "Orthonormal bases of compactly supported wavelets" *
COMPUTER MUSIC JOURNAL, vol. 12, no. 4, 1 janvier 1988, pages 11-20, Cambridge, Massachusetts; R. KRONLAND-MARTINET: "The wavelet transform for analysis, synthesis, and processing of speech and music sounds" *
INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Albuquerque, New Mexico, 3-6 avril 1990, vol. 3, pages 1723-1726, IEEE, New York, US; M. VETTERLI et al.: "Wavelets and filter banks: relationships and new results" *
INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Dallas, Texas, 6-9 avril 1987, vol. 2, pages 948-951, IEEE, New York, US; J.-S. LIENARD: "Speech analysis and reconstruction using short-time, elementary waveforms" *
INTERNATIONAL JOURNAL ON PATTERN RECOGNITION AND ARTIFICIAL INTELLIGENCE, vol. 1, no. 2, 1987, pages 273-302; R. KRONLAND-MARTINET et al.: "Analysis of sound patterns through wavelet transforms" *
TRAITEMENT DU SIGNAL, vol. 7, no. 2, 1990, pages 101-115; P. MATHIEU et al.: "Compression d'image par transformée en ondelette et quantification vectorielle" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19538852A1 (en) * 1995-06-30 1997-01-02 Deutsche Telekom Ag Method and arrangement for classifying speech signals
US5781881A (en) * 1995-10-19 1998-07-14 Deutsche Telekom Ag Variable-subframe-length speech-coding classes derived from wavelet-transform parameters
WO1999059134A1 (en) * 1998-05-11 1999-11-18 Siemens Aktiengesellschaft Method and device for determining spectral voice characteristics in a spoken expression
EP3705369A1 (en) * 2019-03-04 2020-09-09 Commissariat à l'énergie atomique et aux énergies alternatives Method for detecting anomalies in rolling stock using a signal for deformation of a rail support
FR3093493A1 (en) * 2019-03-04 2020-09-11 Commissariat A L'energie Atomique Et Aux Energies Alternatives Rolling stock anomaly detection method using a rail support deformation signal

Also Published As

Publication number Publication date
US5826232A (en) 1998-10-20
WO1992022890A1 (en) 1992-12-23
FR2678103A1 (en) 1992-12-24
FR2678103B1 (en) 1996-10-25
JPH06503186A (en) 1994-04-07

Similar Documents

Publication Publication Date Title
EP0519802A1 (en) Speech synthesis method using wavelets
EP0608174B1 (en) System for predictive encoding/decoding of a digital speech signal by an adaptive transform with embedded codes
EP1103951B1 (en) Adaptive wavelet extraction for speech recognition
CA2436318C (en) Noise reduction method and device
RU2582061C2 (en) Bandwidth extension method, bandwidth extension apparatus, program, integrated circuit and audio decoding apparatus
EP2104936B1 (en) Low-delay transform coding using weighting windows
EP0865028A1 (en) Waveform interpolation speech coding using splines functions
FR2596936A1 (en) VOICE SIGNAL TRANSMISSION SYSTEM
FR2680924A1 (en) METHOD FOR THE ADAPTIVE FILTERING OF A SUBBAND TRANSFORMED SIGNAL AND CORRESPONDING FILTERING DEVICE
EP0865029B1 (en) Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
EP3084959B1 (en) Resampling of an audio signal interrupted with a variable sampling frequency according to the frame
EP0511095A1 (en) Coding and decoding method and apparatus for a digital signal
EP0287741B1 (en) Process for varying speech speed and device for implementing said process
EP0481895A2 (en) Method and apparatus for low bit rate transmission of a speech signal using CELP coding
FR2784218A1 (en) LOW-SPEED SPEECH CODING METHOD
EP2656344B1 (en) Improved filtering in the transformed domain
FR2702075A1 (en) A method of generating a spectral weighting filter of noise in a speech coder.
FR2667745A1 (en) Method of synthesising sub-band filters with quantised coefficients and filter structures obtained by this method
CA2108663C (en) Filtering method and device for reducing digital audio signal pre-echoes
WO2023165946A1 (en) Optimised encoding and decoding of an audio signal using a neural network-based autoencoder
EP0616315A1 (en) Digital speech coding and decoding device, process for scanning a pseudo-logarithmic LTP codebook and process of LTP analysis
FR3023646A1 (en) UPDATING STATES FROM POST-PROCESSING TO A VARIABLE SAMPLING FREQUENCY ACCORDING TO THE FRAMEWORK
EP2126904B1 (en) Audio encoding method and device
JPH0651800A (en) Data quantity converting method
EP0454552A2 (en) Method and apparatus for low bitrate speech coding

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): BE DE ES FR GB NL SE

17P Request for examination filed

Effective date: 19930420

17Q First examination report despatched

Effective date: 19961001

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 19990307