[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

EP1606792A1 - Method for analyzing fundamental frequency information and voice conversion method and system implementing said analysis method - Google Patents

Method for analyzing fundamental frequency information and voice conversion method and system implementing said analysis method

Info

Publication number
EP1606792A1
EP1606792A1 EP04716265A EP04716265A EP1606792A1 EP 1606792 A1 EP1606792 A1 EP 1606792A1 EP 04716265 A EP04716265 A EP 04716265A EP 04716265 A EP04716265 A EP 04716265A EP 1606792 A1 EP1606792 A1 EP 1606792A1
Authority
EP
European Patent Office
Prior art keywords
fundamental frequency
samples
determining
spectrum
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP04716265A
Other languages
German (de)
French (fr)
Other versions
EP1606792B1 (en
Inventor
Taoufik En-Najjary
Olivier Rosec
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP1606792A1 publication Critical patent/EP1606792A1/en
Application granted granted Critical
Publication of EP1606792B1 publication Critical patent/EP1606792B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Definitions

  • the present invention relates to a method for analyzing fundamental frequency information contained in voice samples, and a method for analyzing voice frequency conversion method and system for converting voice. method and a voice conversion system implementing this analysis method.
  • the production of speech and in particular voiced sounds can involve the vibration of the vocal cords, which manifests itself in the presence in the speech signal, of a periodic structure with a fundamental period, the reverse is called fundamental frequency or "pitch".
  • fundamental frequency the reverse is called fundamental frequency or "pitch”.
  • voice conversion hearing is essential and to obtain an acceptable quality, it is necessary to master the parameters related to prosody and among these, the fundamental frequency.
  • the aim of the present invention is to remedy this problem, by defining a method for analyzing fundamental frequency information of vocal samples, allowing the definition of a configurable representation of the fundamental frequency.
  • the subject of the present invention is a method for analyzing fundamental frequency information contained in voice samples, characterized in that it comprises at least:
  • a step of determining a model representing the common characteristics of spectrum and fundamental frequency of all the samples a step of determining, from this model and the voice samples, a function for predicting the fundamental frequency as a function only of information relating to the spectrum.
  • said analysis step is adapted to deliver said information relating to the spectrum in the form of cepstral coefficients
  • a substep for estimating the spectrum parameters of each frame of samples - It further includes a step of normalizing the fundamental frequency of each frame of samples with respect to the average of the fundamental frequencies of the samples analyzed;
  • step of determining a prediction function is carried out from an estimator of the realization of the fundamental frequency knowing the spectrum information of the samples;
  • step of determining the prediction function of the fundamental frequency comprises a sub-step of determining the conditional expectation of the realization of the fundamental frequency knowing the spectrum information from the posterior probability that the spectrum information are obtained from the model, the conditional expectation forming said estimator.
  • the invention also relates to a method for converting a voice signal pronounced by a source speaker into a converted voice signal whose characteristics resemble those of a target speaker, comprising at least: - a step of determining a transformation function of spectral characteristics of the source speaker into spectral characteristics of the target speaker, carried out from voice samples of the source speaker and the target speaker; and
  • a step of transforming the spectrum information of the voice signal of the source speaker to be converted using said transformation function characterized in that it further comprises:
  • step of determining a transformation function is carried out from an estimator of the achievement of the target spectral characteristics knowing the source spectral characteristics; - said step of determining a transformation function includes:
  • - Said transformation function is a transformation function of the spectral envelope
  • the subject of the invention is also a system for converting a voice signal pronounced by a source speaker into a converted voice signal whose characteristics resemble those of a target speaker, system comprising at least:
  • means for transforming spectrum information of the voice signal of the source speaker to be converted by the application of said transformation function delivered by the means characterized in that it further comprises:
  • means for analyzing the voice signal to be converted adapted to output information relating to the spectrum and to the fundamental frequency of the voice signal to be converted;
  • - synthesis means making it possible to form a converted voice signal from at least the transformed spectrum information delivered by the means and predicted fundamental frequency information delivered by the means;
  • Said means for determining a transformation function are adapted to deliver a transformation function for the spectral envelope
  • - Fig.1 is a flow diagram of an analysis method according to the invention.
  • - Fig.2 is a flow diagram of a voice conversion method implementing the analysis method of the invention.
  • Fig.3 is a functional block diagram of a voice conversion system, allowing the implementation of the method of the invention described in Figure 2.
  • the method of the invention shown in Figure 1 is implemented from a database of voice samples containing natural speech sequences.
  • the method begins with a step 2 of analyzing the samples by grouping them by frame, in order to obtain for each frame of samples, information relating to the spectrum and in particular to the spectral envelope and information relating to the fundamental frequency.
  • this analysis step 2 is based on the use of a model of a sound signal in the form of a sum of a harmonic signal with a noise signal according to a model commonly called "HNM" (in English: Harmonie plus Noise Model).
  • HNM Harmonie plus Noise Model
  • the embodiment described is based on a representation of the spectral envelope by the discrete cepstrum.
  • step 2 of analysis includes a sub-step 4 of modeling each frame of voice signal into a harmonic part representing the periodic component of the signal, consisting of a sum of L harmonic sinusoids of amplitude Ai and phase ⁇ , and a noisy part representing the friction noise and the variation of the glottal excitation.
  • s (n) h (n) + b (n)
  • Step 2 then includes a sub-step 5 for estimating for each frame, frequency parameters and in particular the fundamental frequency, for example by means of an autocorrelation method.
  • this HNM analysis delivers the maximum voicing frequency.
  • this frequency can be arbitrarily fixed or be estimated by other known means.
  • This sub-step 5 is followed by a sub-step 6 of synchronized analysis of each frame on its fundamental frequency, which makes it possible to estimate the parameters of the harmonic part as well as the parameters of the noise of the signal.
  • this synchronized analysis corresponds to the determination of the parameters of the harmonics by minimization of a criterion of weighted least squares between the complete signal and its harmonic decomposition corresponding in the embodiment described, to the estimated noise signal.
  • the criterion noted E is equal to:
  • w (n) is the analysis window and Tj is the fundamental period of the current frame.
  • the analysis window is centered around the mark of the fundamental period and has a duration of twice this period.
  • Step 2 of analysis finally includes a sub-step 7 of estimating the parameters of the components of the spectral envelope of the signal using for example a regularized discrete cepstrum method and a transformation into a Bark scale to reproduce as faithfully as possible. possible the properties of the human ear.
  • the analysis step 2 delivers, for each frame of rank n of speech signal samples, a scalar denoted x n comprising fundamental frequency information and a vector denoted y n comprising spectrum information in the form of a sequence of cepstral coefficients.
  • step 2 of analysis is followed by a step 10 of normalizing the value of the fundamental frequency of each frame with respect to the average fundamental frequency in order to replace for each frame of voice samples, the value of the frequency fundamental by a normalized fundamental frequency value according to the following formula:
  • F m ° y corresponds to the average of the values of
  • This normalization makes it possible to modify the scale of variations of scalars of fundamental frequency in order to make it consistent with the scale of variations of cepstral coefficients.
  • the normalization step 10 is followed by a step 20 of determining a model representing the common cepstrum and fundamental frequency characteristics of all the samples analyzed.
  • N (z; ⁇ ; ⁇ j) is the probability density of the normal law of mean ⁇ i and of covariance matrix ⁇ and the coefficients o are the coefficients of the mixture.
  • the coefficient ⁇ corresponds to the a priori probability that the random variable z is generated by the Gaussian i th of the mixture.
  • Step 20 then includes a sub-step 24 for estimating GMM parameters ( ⁇ , ⁇ , ⁇ ) of the density p (z).
  • This estimation can be carried out, for example, using a conventional algorithm of the type called "EM” (Expectation - Maximization), corresponding to an iterative method leading to obtaining a maximum likelihood estimator between the speech sample data and the Gaussian mixing model.
  • EM Exctation - Maximization
  • the initial parameters of the GMM model are determined using a standard vector quantization technique.
  • the model determination step 20 thus delivers the parameters of a mixture of Gaussian densities representative of the common characteristics of the spectra, represented by the cepstral coefficients, and of the fundamental frequencies of the analyzed vocal samples.
  • the method then comprises a step 30 of determining, from the model and the voice samples, a function of prediction of the fundamental frequency as a function only of spectrum information supplied by the signal cepstrum.
  • This prediction function is determined from an estimator of the realization of the fundamental frequency given the cepstrum of the voice samples, formed in the embodiment described, by the conditional expectation.
  • step 30 includes a sub-step 32 for determining the conditional expectation of the fundamental frequency, knowing the information relating to the spectrum provided by the cepstrum.
  • the conditional expectation is noted F (y) and is determined from the following formulas:
  • Pj (y) corresponds to the posterior probability that the cepstrum vector y is generated by the i th component of the Gaussian mixture of the model, defined during step 20 by the covariance matrix ⁇ j and the normal law ⁇ i ⁇ .
  • the determination of the conditional expectation thus makes it possible to obtain the prediction function of the fundamental frequency from the cepstrum information.
  • the estimator implemented during step 30 can be an a posteriori maximum criterion, called "MAP" and corresponding to the realization of the expectation calculation only for the model best representing the source vector.
  • MAP a posteriori maximum criterion
  • the analysis method of the invention makes it possible, from the model and the voice samples, to obtain a prediction function of the fundamental frequency as a function only of spectrum information provided, in the embodiment described, by the cepstrum.
  • Such a prediction function then makes it possible to determine the value of the fundamental frequency for a speech signal, only on the basis of spectrum information of this signal, thus allowing a relevant prediction of the fundamental frequency in particular for sounds which are not in the voice samples analyzed.
  • Voice conversion consists of modifying the voice signal of a reference speaker called “source speaker” so that the signal produced seems to have been spoken by another speaker named “target speaker”.
  • This method is implemented from a database of voice samples spoken by the source speaker and the target speaker.
  • such a method comprises a step 50 of determining a function for transforming the spectral characteristics of the voice samples of the source speaker to make them resemble the spectral characteristics of the voice samples of the target speaker.
  • this step 50 is based on an HNM type analysis making it possible to determine the relationships existing between the characteristics of the spectral envelope of the speech signals of the source and target speakers.
  • Step 50 includes a sub-step 52 of modeling the voice samples according to an HNM model, of the sum of harmonic signals and of noise.
  • Sub-step 52 is followed by a sub-step 54 of alignment between the source and target signals using for example a conventional alignment algorithm called "DTW" (in English “Dynamic Time Warping”) .
  • DTW a conventional alignment algorithm
  • Step 50 then comprises a sub-step 56 of determining a model such as a GMM type model representing the common characteristics of the spectra of the voice samples of the source and target speakers.
  • a model such as a GMM type model representing the common characteristics of the spectra of the voice samples of the source and target speakers.
  • the estimator can be formed from a posteriori maximum criterion.
  • the function thus defined therefore makes it possible to modify the spectral envelope of a speech signal originating from the source speaker in order to make it resemble the spectral envelope of the target speaker.
  • the parameters of the GMM model representing the common spectral characteristics of the source and the target are initialized, for example, using a vector quantization algorithm.
  • the analysis method of the invention is implemented during a step 60 of analyzing only the vocal samples of the target speaker.
  • the analysis step 60 makes it possible to obtain, for the target speaker, a function of prediction of the fundamental frequency as a function solely of information from spectra.
  • the conversion method then comprises a step 65 of analyzing a voice signal to be converted pronounced by the source speaker, which signal to be converted is different from the voice signals used during steps 50 and 60.
  • This analysis step 65 is carried out, for example, using a decomposition according to the HNM model making it possible to deliver spectrum information in the form of cepstral coefficients, fundamental frequency information as well as phase information and maximum voicing frequency.
  • step 65 is followed by a step 70 of transformation of the spectral characteristics of the voice signal to be converted by the application of the transformation function determined in step 50, to the cepstral coefficients defined during step 65.
  • This step 70 allows in particular the modification of the spectral envelope of the voice signal to be converted.
  • each frame of samples of the signal to be converted from the source speaker is thus associated with transformed spectral information whose characteristics are similar to the spectral characteristics of the samples of the target speaker.
  • the conversion method then comprises a step 80 of predicting the fundamental frequency for the voice samples of the source speaker, by applying the prediction function determined according to the method of the invention during step 60, to the only information transformed spectral associated with the voice signal to be converted from the source speaker.
  • the prediction function defined during step 60 makes it possible to obtain a relevant prediction of the fundamental frequency.
  • the conversion method then comprises a step 90 of synthesis of the output signal carried out, in the example described, by an HNM type synthesis which directly delivers the voice signal converted from the transformed spectral envelope information delivered by step 70, predicted fundamental frequency information originating from step 80 and phase and maximum voicing frequency information delivered by step 65.
  • the conversion method implementing the analysis method of the invention thus makes it possible to obtain a voice conversion carrying out modifications of spectra as well as a prediction of fundamental frequency, so as to obtain a good auditory rendering.
  • the effectiveness of such a method can be evaluated from identical voice samples pronounced by the source speaker and the target speaker.
  • the speech signal spoken by the source speaker is converted using the method as described and the resemblance of the converted signal with the signal spoken by the target speaker is evaluated. For example, this resemblance is calculated as a ratio between the acoustic distance separating the converted signal from the target signal and the acoustic distance separating the target signal from the source signal.
  • the ratio obtained for a signal converted using the method of the invention is l '' from 0.3 to 0.5.
  • FIG. 3 shows a functional block diagram of a voice conversion system implementing the method described with reference to FIG. 2.
  • This system uses as input a database 100 of voice samples spoken by the source speaker and a database 102 containing at least the same voice samples spoken by the target speaker. These two databases are used by a module 104 for determining a function for transforming spectral characteristics of the source speaker into spectral characteristics of the target speaker.
  • This module 104 is suitable for the implementation of step 50 of the method as described with reference to FIG. 2 and therefore allows the determination of a transformation function of the spectral envelope.
  • the system includes a module 106 for determining a fundamental frequency prediction function based solely on information relating to the spectrum.
  • the module 106 therefore receives the voice samples of the single target speaker, contained in the database 102, as input.
  • the module 106 is suitable for implementing step 60 of the method described with reference to FIG. 2 and corresponding to the analysis method of the invention as described with reference to FIG. 1.
  • the function of transformation delivered by the module is suitable for implementing step 60 of the method described with reference to FIG. 2 and corresponding to the analysis method of the invention as described with reference to FIG. 1.
  • the prediction function delivered by the module 106 are stored for later use.
  • the voice conversion system receives as input a voice signal 110 corresponding to a speech signal spoken by the source speaker and intended to be converted.
  • the signal 110 is introduced into a signal analysis module 112, implementing, for example, an HNM type decomposition and making it possible to dissociate spectrum information from the signal 110 in the form of cepstral coefficients and frequency information. fundamental.
  • the module 112 also delivers phase information and maximum voice frequency obtained by applying the HNM model.
  • the module 112 therefore implements step 65 of the method described above.
  • this analysis can be done beforehand and the information is stored for later use.
  • the cepstral coefficients delivered by the module 112 are then introduced into a transformation module 114 adapted to apply the transformation function determined by the module 104.
  • the transformation module 114 implements step 70 of the method described with reference to FIG. 2 and delivers transformed cepstral coefficients whose characteristics are similar to the spectral characteristics of the target speaker.
  • the module 114 thus performs a modification of the spectral envelope of the voice signal 110.
  • the transformed cepstral coefficients " delivered by the module 114, are then introduced into a module 116 for predicting the fundamental frequency suitable for implementing the prediction function determined by the module 106.
  • the module 116 implements step 80 of the method described with reference to FIG. 2 and delivers as output fundamental frequency information predicted from only the transformed spectrum information.
  • the system then includes a synthesis module 118 receiving as input the transformed cepstral coefficients from module 114 and corresponding to the spectral envelope, the predicted fundamental frequency information from module 116, and the phase and maximum voicing frequency information. delivered by module 112.
  • the module 118 thus implements step 90 of the method described with reference to FIG. 2 and delivers a signal 120 corresponding to the voice signal 110 of the source speaker, but whose spectrum and fundamental frequency characteristics have been modified to be similar to that of the target speaker.
  • the system described can be implemented in various ways and in particular using a suitable computer program and connected to hardware means of sound acquisition.
  • HNM and GMM models can be replaced by other techniques and models known to those skilled in the art, such as for example the techniques known as LSF (Line Spectral Frequencies), LPC (Linear Predictive Coding) or still parameters relating to formants.
  • LSF Line Spectral Frequencies
  • LPC Linear Predictive Coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

A method for analyzing fundamental frequency information contained in voice samples, characterized in that it comprises at least one analysis step (2) for the voice samples which are grouped together in frames in order to obtain information relating to the spectrum and information relating to the fundamental frequency for each sample frame; a step (20) for the determination of a model representing the common characteristics of the spectrum and fundamental frequency of all samples; and a step (30) for determination of a fundamental frequency prediction function exclusively according to spectrum-related in formation on the basis of said model and voice samples.

Description

Procédé d'analyse d'informations de fréquence fondamentale et procédé et système de conversion de voix mettant en œuyre un tel procédé d'analyse La présente invention concerne un procédé d'analyse d'informations de fréquence fondamentale contenues dans des échantillons vocaux, et un procédé et un système de conversion de voix mettant en œuvre ce procédé d'analyse. Suivant la nature des sons à émettre, la production de la parole et notamment des sons voisés, peut faire intervenir la vibration des cordes vocales, ce qui se manifeste par la présence dans le signal de parole, d'une structure périodique de période fondamentale dont l'inverse est appelé fréquence fondamentale ou "pitch". Dans certaines applications, tels que la conversion de voix, le rendu auditif est primordial et pour obtenir une qualité acceptable, il convient de bien maîtriser les paramètres liés à la prosodie et parmi ces derniers, la fréquence fondamentale. The present invention relates to a method for analyzing fundamental frequency information contained in voice samples, and a method for analyzing voice frequency conversion method and system for converting voice. method and a voice conversion system implementing this analysis method. Depending on the nature of the sounds to be emitted, the production of speech and in particular voiced sounds, can involve the vibration of the vocal cords, which manifests itself in the presence in the speech signal, of a periodic structure with a fundamental period, the reverse is called fundamental frequency or "pitch". In some applications, such as voice conversion, hearing is essential and to obtain an acceptable quality, it is necessary to master the parameters related to prosody and among these, the fundamental frequency.
Ainsi, il existe aujourd'hui de nombreux procédés d'analyse des infor- mations de fréquence fondamentale contenues dans des échantillons vocaux.Thus, today there are many methods of analyzing the fundamental frequency information contained in voice samples.
Ces analyses permettent de déterminer et de modéliser des caractéristiques de la fréquence fondamentale. Par exemple, il existe des procédés permettant de déterminer la pente, ou encore une échelle d'amplitude de la fréquence fondamentale sur l'ensemble d'une base de données d'échantillons vo- eaux.These analyzes make it possible to determine and model the characteristics of the fundamental frequency. For example, there are methods for determining the slope, or even an amplitude scale of the fundamental frequency over an entire database of sample voices.
La connaissance de ces paramètres permet d'effectuer des modifications de signaux de parole, par exemple par des mises à l'échelle de fréquence fondamentale entre des locuteurs source et cible, de manière à respecter globalement la moyenne et la variation de la fréquence fondamentale du locuteur cible. Cependant, ces analyses ne permettent d'obtenir que des représentations globales et pas de représentations paramétrables de la fréquence fondamentale et ne sont donc pas pertinentes notamment pour des locuteurs dont les styles d'élocution sont différents.Knowing these parameters makes it possible to carry out modifications of speech signals, for example by scaling the fundamental frequency between source and target speakers, so as to generally respect the mean and the variation of the fundamental frequency of the target speaker. However, these analyzes make it possible to obtain only global representations and not configurable representations of the fundamental frequency and are therefore not particularly relevant for speakers whose speech styles are different.
Le but de la présente invention est de remédier à ce problème, en dé- finissant un procédé d'analyse d'informations de fréquence fondamentale d'échantillons vocaux, permettant la définition d'une représentation paramétrable de la fréquence fondamentale. A cet effet, la présente invention a pour objet un procédé d'analyse d'informations de fréquence fondamentale contenues dans des échantillons vocaux, caractérisé en ce qu'il comporte au moins :The aim of the present invention is to remedy this problem, by defining a method for analyzing fundamental frequency information of vocal samples, allowing the definition of a configurable representation of the fundamental frequency. To this end, the subject of the present invention is a method for analyzing fundamental frequency information contained in voice samples, characterized in that it comprises at least:
- une étape d'analyse des échantillons vocaux regroupés en trames pour obtenir, pour chaque trame d'échantillons, des informations relatives au spectre et des informations relatives à la fréquence fondamentale;a step of analyzing the voice samples grouped into frames to obtain, for each frame of samples, information relating to the spectrum and information relating to the fundamental frequency;
- une étape de détermination d'un modèle représentant les caractéristiques communes de spectre et de fréquence fondamentale de tous les échantillons; et - une étape de détermination, à partir de ce modèle et des échantillons vocaux, d'une fonction de prédiction de la fréquence fondamentale en fonction uniquement d'informations relatives au spectre.a step of determining a model representing the common characteristics of spectrum and fundamental frequency of all the samples; and a step of determining, from this model and the voice samples, a function for predicting the fundamental frequency as a function only of information relating to the spectrum.
Suivant d'autres caractéristiques de ce procédé d'analyse :According to other characteristics of this analysis method:
- ladite étape d'analyse est adaptée pour délivrer lesdites informations relatives au spectre sous la forme de coefficients cepstraux ;said analysis step is adapted to deliver said information relating to the spectrum in the form of cepstral coefficients;
- ladite étape d'analyse comporte :- said analysis step includes:
- une sous-étape de modélisation des échantillons vocaux selon une somme d'un signal harmonique et d'un signal de bruit ;- a sub-step of modeling the voice samples according to a sum of a harmonic signal and a noise signal;
- une sous-étape d'estimation de paramètres de fréquence et au moins de la fréquence fondamentale des échantillons vocaux ;a substep for estimating frequency parameters and at least the fundamental frequency of the voice samples;
- une sous-étape d'analyse synchronisée de chaque trame d'échantillons sur sa fréquence fondamentale ; et- a sub-step of synchronized analysis of each frame of samples on its fundamental frequency; and
- une sous-étape d'estimation des paramètres de spectre de chaque trame d'échantillons ; - il comporte en outre une étape de normalisation de la fréquence fondamentale de chaque trame d'échantillons par rapport à la moyenne des fréquences fondamentales des échantillons analysés ;a substep for estimating the spectrum parameters of each frame of samples; - It further includes a step of normalizing the fundamental frequency of each frame of samples with respect to the average of the fundamental frequencies of the samples analyzed;
- ladite étape de détermination d'un modèle correspond à la détermination d'un modèle par mélange de densités gaussiennes ; - ladite étape de détermination d'un modèle comprend :- Said step of determining a model corresponds to the determination of a model by mixing Gaussian densities; - said step of determining a model comprises:
- une sous-étape de détermination d'un modèle correspondant à un mélange de densités gaussiennes; et- a sub-step of determining a model corresponding to a mixture of Gaussian densities; and
- une sous-étape d'estimation des paramètres du mélange de densités gaussiennes à partir de l'estimation du maximum de vraisemblance en- tre les informations de spectre et de fréquence fondamentale des échantillons et du modèle ;a sub-step for estimating the parameters of the mixture of Gaussian densities from the estimation of the maximum likelihood in be the spectrum and fundamental frequency information of the samples and of the model;
- ladite étape de détermination d'une fonction de prédiction est réalisée à partir d'un estimateur de la réalisation de la fréquence fondamentale sachant les informations de spectre des échantillons ;- Said step of determining a prediction function is carried out from an estimator of the realization of the fundamental frequency knowing the spectrum information of the samples;
- ladite étape de détermination de la fonction de prédiction de la fréquence fondamentale comprend une sous-étape de détermination de l'espérance conditionnelle de la réalisation de la fréquence fondamentale sachant les informations de spectre à partir de la probabilité a posteriori que les informations de spectre soient obtenues à partir du modèle, l'espérance conditionnelle formant ledit estimateur.- Said step of determining the prediction function of the fundamental frequency comprises a sub-step of determining the conditional expectation of the realization of the fundamental frequency knowing the spectrum information from the posterior probability that the spectrum information are obtained from the model, the conditional expectation forming said estimator.
L'invention a également pour objet un procédé de conversion d'un signal vocal prononcé par un locuteur source en un signal vocal converti dont les caractéristiques ressemblent à celles d'un locuteur cible, comportant au moins : - une étape de détermination d'une fonction de transformation de caractéristiques spectrales du locuteur source en caractéristiques spectrales du locuteur cible, réalisée à partir d'échantillons vocaux du locuteur source et du locuteur cible; etThe invention also relates to a method for converting a voice signal pronounced by a source speaker into a converted voice signal whose characteristics resemble those of a target speaker, comprising at least: - a step of determining a transformation function of spectral characteristics of the source speaker into spectral characteristics of the target speaker, carried out from voice samples of the source speaker and the target speaker; and
- une étape de transformation des informations de spectre du signal de voix du locuteur source à convertir à l'aide de ladite fonction de transformation, caractérisé en ce qu'il comporte en outre :a step of transforming the spectrum information of the voice signal of the source speaker to be converted using said transformation function, characterized in that it further comprises:
- une étape de détermination d'une fonction de prédiction de la fréquence fondamentale en fonction uniquement d'informations relatives au spectre pour le locuteur cible, ladite fonction de prédiction étant obtenue à l'aide d'un procédé d'analyse tel que défini précédemment ; eta step of determining a prediction function of the fundamental frequency as a function only of information relating to the spectrum for the target speaker, said prediction function being obtained using an analysis method as defined above ; and
- une étape de prédiction de la fréquence fondamentale du signal de voix à convertir par l'application de ladite fonction de prédiction de la fréquence fondamentale auxdites informations de spectres transformés du signal de voix du locuteur source. Suivant d'autres caractéristiques de ce procédé de conversion :a step of predicting the fundamental frequency of the voice signal to be converted by applying said function of predicting the fundamental frequency to said information of transformed spectra of the voice signal of the source speaker. According to other characteristics of this conversion process:
- ladite étape de détermination d'une fonction de transformation est réalisée à partir d'un estimateur de la réalisation des caractéristiques spectrales cibles sachant les caractéristiques spectrales source ; - ladite étape de détermination d'une fonction de transformation comporte :- Said step of determining a transformation function is carried out from an estimator of the achievement of the target spectral characteristics knowing the source spectral characteristics; - said step of determining a transformation function includes:
- une sous-étape de modélisation des échantillons vocaux source et cible selon un modèle de somme d'un signal harmonique et d'un signal de bruit ;a sub-step of modeling the source and target voice samples according to a model of sum of a harmonic signal and a noise signal;
- une sous-étape d'alignement entre les échantillons source et cible; et- an alignment sub-step between the source and target samples; and
- une sous-étape de détermination de ladite fonction de transformation à partir du calcul de l'espérance conditionnelle de la réalisation des caractéristiques spectrales cibles sachant la réalisation des caractérisations spectrales sources, l'espérance conditionnelle formant ledit estimateur.a sub-step of determining said transformation function from the calculation of the conditional expectation of the achievement of the target spectral characteristics knowing the achievement of the source spectral characterizations, the conditional expectation forming said estimator.
- ladite fonction de transformation est une fonction de transformation de l'enveloppe spectrale ;- Said transformation function is a transformation function of the spectral envelope;
- il comporte en outre une étape d'analyse du signal de voix à convertir adaptée pour délivrer lesdites informations relatives au spectre et à la fréquence fondamentale ;- it further includes a step of analyzing the voice signal to be converted adapted to deliver said information relating to the spectrum and to the fundamental frequency;
- il comporte en outre une étape de synthèse permettant de former un signal de voix converti à partir au moins des informations de spectre transformées et des informations de fréquence fondamentale prédites. L'invention a encore pour objet un système de conversion d'un signal vocal prononcé par un locuteur source en un signal vocal converti dont les caractéristiques ressemblent à celles d'un locuteur cible, système comportant au moins :- It further comprises a synthesis step making it possible to form a voice signal converted from at least the transformed spectrum information and the predicted fundamental frequency information. The subject of the invention is also a system for converting a voice signal pronounced by a source speaker into a converted voice signal whose characteristics resemble those of a target speaker, system comprising at least:
- des moyens de détermination d'une fonction de transformation de ca- ractéristiques spectrales du locuteur source en caractéristiques spectrales du locuteur cible, recevant en entrée des échantillons vocaux du locuteur source et du locuteur cible ; etmeans for determining a function for transforming spectral characteristics of the source speaker into spectral characteristics of the target speaker, receiving as input vocal samples of the source speaker and of the target speaker; and
- des moyens de transformation des informations de spectre du signal de voix du locuteur source à convertir par l'application de ladite fonction de trans- formation délivrée par les moyens, caractérisé en ce qu'il comporte en outre :means for transforming spectrum information of the voice signal of the source speaker to be converted by the application of said transformation function delivered by the means, characterized in that it further comprises:
- des moyens de détermination d'une fonction de prédiction de la fréquence fondamentale en fonction uniquement d'informations relatives au spectre pour le locuteur cible, adaptés pour la mise en œuvre d'un procédé d'analyse, à partir d'échantillons vocaux du locuteur cible ; etmeans for determining a prediction function of the fundamental frequency based solely on information relating to the spectrum for the target speaker, adapted for the implementation of an analysis method, from voice samples of the target speaker; and
- des moyens de prédiction de la fréquence fondamentale dudit signal de voix à convertir, par l'application de ladite fonction de prédiction déterminée par lesdits moyens de détermination d'une fonction de prédiction auxdites informations de spectre transformé délivrées par lesdits moyens de transformation. Suivant d'autres caractéristiques de ce système :means for predicting the fundamental frequency of said voice signal to be converted, by applying said prediction function determined by said means for determining a prediction function to said transformed spectrum information delivered by said transformation means. According to other characteristics of this system:
- il comporte en outre :- it also includes:
- des moyens d'analyse du signal de voix à convertir, adaptés pour délivrer en sortie des informations relatives au spectre et à la fréquence fondamentale du signal de voix à convertir ; etmeans for analyzing the voice signal to be converted, adapted to output information relating to the spectrum and to the fundamental frequency of the voice signal to be converted; and
- des moyens de synthèse permettant de former un signal de voix converti à partir au moins des informations de spectre transformé délivrées par les moyens et des informations de fréquence fondamentale prédites délivrées par les moyens;- synthesis means making it possible to form a converted voice signal from at least the transformed spectrum information delivered by the means and predicted fundamental frequency information delivered by the means;
- lesdits moyens de détermination d'une fonction de transformation sont adaptés pour délivrer une fonction de transformation de l'enveloppe spectrale ;- Said means for determining a transformation function are adapted to deliver a transformation function for the spectral envelope;
- il est adapté pour la mise en œuvre d'un procédé de conversion de voix tel que défini précédemment.- It is suitable for the implementation of a voice conversion process as defined above.
L'invention sera mieux comprise à la lecture de la description qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins annexés, sur lesquels :The invention will be better understood on reading the description which follows, given solely by way of example and made with reference to the appended drawings, in which:
- la Fig.1 est un organigramme d'un procédé d'analyse selon l'inven- tion ;- Fig.1 is a flow diagram of an analysis method according to the invention;
- la Fig.2 est un organigramme d'un procédé de conversion de voix mettant en œuvre le procédé d'analyse de l'invention ; et- Fig.2 is a flow diagram of a voice conversion method implementing the analysis method of the invention; and
- la Fig.3 est un schéma bloc fonctionnel d'un système de conversion de voix, permettant la mise en œuvre du procédé de l'invention décrit à la figure 2.- Fig.3 is a functional block diagram of a voice conversion system, allowing the implementation of the method of the invention described in Figure 2.
Le procédé de l'invention représenté sur la figure 1 , est mis en œuvre à partir d'une base de données d'échantillons vocaux contenant des séquences de parole naturelle. Le procédé débute par une étape 2 d'analyse des échantillons en les regroupant par trame, afin d'obtenir pour chaque trame d'échantillons, des informations relatives au spectre et notamment à l'enveloppe spectrale et des informations relatives à la fréquence fondamentale. Dans le mode de réalisation décrit, cette étape 2 d'analyse est basée sur l'utilisation d'un modèle d'un signal sonore sous la forme d'une somme d'un signal harmonique avec un signal de bruit selon un modèle communément appelé "HNM" (en anglais : Harmonie plus Noise Model).The method of the invention shown in Figure 1, is implemented from a database of voice samples containing natural speech sequences. The method begins with a step 2 of analyzing the samples by grouping them by frame, in order to obtain for each frame of samples, information relating to the spectrum and in particular to the spectral envelope and information relating to the fundamental frequency. In the embodiment described, this analysis step 2 is based on the use of a model of a sound signal in the form of a sum of a harmonic signal with a noise signal according to a model commonly called "HNM" (in English: Harmonie plus Noise Model).
En outre, le mode de réalisation décrit est fondé sur une représenta- tion de l'enveloppe spectrale par le cepstre discret.In addition, the embodiment described is based on a representation of the spectral envelope by the discrete cepstrum.
En effet, une représentation cepstrale permet de séparer, dans le signal de parole, la composante relative au conduit vocal de la composante résultant de la source, correspondant aux vibrations des cordes vocales et caractérisée par la fréquence fondamentale. Ainsi, l'étape 2 d'analyse comporte une sous-étape 4 de modélisation de chaque trame de signal vocal en une partie harmonique représentant la composante périodique du signal, constituée d'une somme de L sinusoïdes harmoniques d'amplitude Ai et de phase φι, et d'une partie bruitée représentant le bruit de friction et la variation de l'excitation glottale. On peut ainsi écrire : s(n)=h(n)+b(n)Indeed, a cepstral representation makes it possible to separate, in the speech signal, the component relating to the vocal tract from the component resulting from the source, corresponding to the vibrations of the vocal cords and characterized by the fundamental frequency. Thus, step 2 of analysis includes a sub-step 4 of modeling each frame of voice signal into a harmonic part representing the periodic component of the signal, consisting of a sum of L harmonic sinusoids of amplitude Ai and phase φι, and a noisy part representing the friction noise and the variation of the glottal excitation. We can thus write: s (n) = h (n) + b (n)
Le terme h(n) représente donc l'approximation harmonique du signal s(n). L'étape 2 comporte ensuite une sous-étape 5 d'estimation pour chaque trame, de paramètres de fréquence et notamment de la fréquence fondamentale, par exemple au moyen d'une méthode d'autocorrélation.The term h (n) therefore represents the harmonic approximation of the signal s (n). Step 2 then includes a sub-step 5 for estimating for each frame, frequency parameters and in particular the fundamental frequency, for example by means of an autocorrelation method.
De manière classique, cette analyse HNM délivre la fréquence maximale de voisement. En variante, cette fréquence peut être fixée arbitrairement ou être estimée par d'autres moyens connus.Conventionally, this HNM analysis delivers the maximum voicing frequency. As a variant, this frequency can be arbitrarily fixed or be estimated by other known means.
Cette sous-étape 5 est suivie d'une sous-étape 6 d'analyse synchronisée de chaque trame sur sa fréquence fondamentale, qui permet d'estimer les paramètres de la partie harmonique ainsi que les paramètres du bruit du signal. Dans le mode de réalisation décrit, cette analyse synchronisée correspond à la détermination des paramètres des harmoniques par minimisation d'un critère de moindres carrés pondérés entre le signal complet et sa décomposition harmonique correspondant dans le mode de réalisation décrit, au signal de bruit estimé. Le critère noté E est égal à :This sub-step 5 is followed by a sub-step 6 of synchronized analysis of each frame on its fundamental frequency, which makes it possible to estimate the parameters of the harmonic part as well as the parameters of the noise of the signal. In the embodiment described, this synchronized analysis corresponds to the determination of the parameters of the harmonics by minimization of a criterion of weighted least squares between the complete signal and its harmonic decomposition corresponding in the embodiment described, to the estimated noise signal. The criterion noted E is equal to:
Dans cette équation, w (n) est la fenêtre d'analyse et Tj est la période fondamentale de la trame courante.In this equation, w (n) is the analysis window and Tj is the fundamental period of the current frame.
Ainsi, la fenêtre d'analyse est centrée autour de la marque de la pé- riode fondamentale et a pour durée deux fois cette période.Thus, the analysis window is centered around the mark of the fundamental period and has a duration of twice this period.
L'étape 2 d'analyse comporte enfin une sous-étape 7 d'estimation des paramètres des composantes de l'enveloppe spectrale du signal en utilisant par exemple une méthode de cepstre discret régularisé et une transformation en échelle de Bark pour reproduire le plus fidèlement possible les propriétés de l'oreille humaine.Step 2 of analysis finally includes a sub-step 7 of estimating the parameters of the components of the spectral envelope of the signal using for example a regularized discrete cepstrum method and a transformation into a Bark scale to reproduce as faithfully as possible. possible the properties of the human ear.
Ainsi, l'étape 2 d'analyse délivre, pour chaque trame de rang n d'échantillons de signal de parole, un scalaire noté xn comprenant des informations de fréquence fondamentale et un vecteur noté yn comprenant des informations de spectre sous la forme d'une séquence de coefficients cepstraux. Avantageusement, l'étape 2 d'analyse est suivie par une étape 10 de normalisation de la valeur de la fréquence fondamentale de chaque trame par rapport à la fréquence fondamentale moyenne afin de remplacer pour chaque trame d'échantillons vocaux, la valeur de la fréquence fondamentale par une valeur de fréquence fondamentale normalisée selon la formule suivante :Thus, the analysis step 2 delivers, for each frame of rank n of speech signal samples, a scalar denoted x n comprising fundamental frequency information and a vector denoted y n comprising spectrum information in the form of a sequence of cepstral coefficients. Advantageously, step 2 of analysis is followed by a step 10 of normalizing the value of the fundamental frequency of each frame with respect to the average fundamental frequency in order to replace for each frame of voice samples, the value of the frequency fundamental by a normalized fundamental frequency value according to the following formula:
Dans cette formule, Fm°y correspond à la moyenne des valeurs desIn this formula, F m ° y corresponds to the average of the values of
fréquences fondamentales sur toute la base de données analysée.fundamental frequencies over the entire analyzed database.
Cette normalisation permet de modifier l'échelle des variations des scalaires de fréquence fondamentale afin de la rendre cohérente avec l'échelle des variations des coefficients cepstraux. L'étape 10 de normalisation est suivie d'une étape 20 de détermination d'un modèle représentant les caractéristiques communes de cepstre et de fréquence fondamentale de tous les échantillons analysés.This normalization makes it possible to modify the scale of variations of scalars of fundamental frequency in order to make it consistent with the scale of variations of cepstral coefficients. The normalization step 10 is followed by a step 20 of determining a model representing the common cepstrum and fundamental frequency characteristics of all the samples analyzed.
Dans le mode de réalisation décrit, il s'agit d'un modèle probabiliste de la fréquence fondamentale et du cepstre discret, selon un modèle de mélange de densités gaussiennes couramment noté "GMM", dont les paramètres sont estimés à partir de la densité jointe de la fréquence fondamentale normalisée et du cepstre discret.In the embodiment described, it is a probabilistic model of the fundamental frequency and of the discrete cepstrum, according to a model of mixture of Gaussian densities commonly noted "GMM", the parameters of which are estimated from the joint density. of the normalized fundamental frequency and of the discrete cepstrum.
De manière classique, la densité de probabilité d'une variable aléatoire notée de manière générale p(z), suivant un modèle de mélange de densités gaussiennes GMM s'écrit mathématiquement de la manière suivante :Conventionally, the probability density of a random variable generally noted p (z), following a mixture model of Gaussian densities GMM is written mathematically as follows:
Dans cette formule, N(z ; μι ; ∑j) est la densité de probabilité de la loi normale de moyenne μi et de matrice de covariance ∑ι et les coefficients o sont les coefficients du mélange.In this formula, N (z; μι; ∑j) is the probability density of the normal law of mean μi and of covariance matrix ∑ι and the coefficients o are the coefficients of the mixture.
Ainsi, le coefficient αι correspond à la probabilité a priori que la variable aléatoire z soit générée par la ie e gaussienne du mélange.Thus, the coefficient αι corresponds to the a priori probability that the random variable z is generated by the Gaussian i th of the mixture.
De manière plus particulière, l'étape 20 de détermination du modèle comporte une sous-étape 22 de modélisation de la densité jointe entre le cepstre noté y et la fréquence fondamentale normalisée notée x, de sorte que : p(z) = p(y,x), où z = MMore specifically, step 20 of determining the model includes a sub-step 22 of modeling the joint density between the cepstrum denoted y and the normalized fundamental frequency denoted x, so that: p (z) = p (y , x), where z = M
Dans ces équations, x = [xi, x2, ... XN] correspond à la séquence des scalaires contenant les informations de fréquence fondamentale normalisée pour N trames d'échantillons vocaux et y = [y-i, y2,... y^], correspond à la séquence des vecteurs de coefficients cepstraux correspondants.In these equations, x = [xi, x 2 , ... XN] corresponds to the sequence of scalars containing the fundamental frequency information normalized for N frames of vocal samples and y = [yi, y 2 , ... y ^], corresponds to the sequence of vectors of corresponding cepstral coefficients.
L'étape 20 comporte ensuite une sous-étape 24 d'estimation de paramètres GMM (α, μ, Σ) de la densité p(z). Cette estimation peut être réalisée, par exemple, à l'aide d'un algorithme classique de type dit "EM" (Expectation - Maximisation), correspondant à une méthode itérative conduisant à l'obtention d'un estimateur de maximum de vraisemblance entre les données des échantillons de parole et le modèle de mélange de gaussienne.Step 20 then includes a sub-step 24 for estimating GMM parameters (α, μ, Σ) of the density p (z). This estimation can be carried out, for example, using a conventional algorithm of the type called "EM" (Expectation - Maximization), corresponding to an iterative method leading to obtaining a maximum likelihood estimator between the speech sample data and the Gaussian mixing model.
La détermination des paramètres initiaux du modèle GMM est obtenue à l'aide d'une technique classique de quantification vectorielle.The initial parameters of the GMM model are determined using a standard vector quantization technique.
L'étape 20 de détermination de modèle délivre ainsi les paramètres d'un mélange de densités gaussiennes représentatifs des caractéristiques communes des spectres, représentées par les coefficients cepstraux, et des fréquences fondamentales des échantillons vocaux analysés.The model determination step 20 thus delivers the parameters of a mixture of Gaussian densities representative of the common characteristics of the spectra, represented by the cepstral coefficients, and of the fundamental frequencies of the analyzed vocal samples.
Le procédé comporte ensuite une étape 30 de détermination, à partir du modèle et des échantillons vocaux, d'une fonction de prédiction de la fréquence fondamentale en fonction uniquement d'informations de spectre fournies par le cepstre du signal.The method then comprises a step 30 of determining, from the model and the voice samples, a function of prediction of the fundamental frequency as a function only of spectrum information supplied by the signal cepstrum.
Cette fonction de prédiction est déterminée à partir d'un estimateur de la réalisation de la fréquence fondamentale étant donné le cepstre des échantillons vocaux, formé dans le mode de réalisation décrit, par l'espérance conditionnelle.This prediction function is determined from an estimator of the realization of the fundamental frequency given the cepstrum of the voice samples, formed in the embodiment described, by the conditional expectation.
Pour cela, l'étape 30 comporte une sous-étape 32 de détermination de l'espérance conditionnelle de la fréquence fondamentale sachant les informations relatives au spectre fournies par le cepstre. L'espérance conditionnelle est notée F(y) et est déterminée à partir des formules suivantes :For this, step 30 includes a sub-step 32 for determining the conditional expectation of the fundamental frequency, knowing the information relating to the spectrum provided by the cepstrum. The conditional expectation is noted F (y) and is determined from the following formulas:
Dans ces équations, Pj(y) correspond à la probabilité a posteriori que le vecteur y de cepstre soit généré par la ieme composante du mélange de gaussiennes du modèle, défini lors de l'étape 20 par la matrice de covariance ∑j et la loi normale \i\. La détermination de l'espérance conditionnelle permet ainsi d'obtenir la fonction de prédiction de la fréquence fondamentale à partir des informations de cepstre.In these equations, Pj (y) corresponds to the posterior probability that the cepstrum vector y is generated by the i th component of the Gaussian mixture of the model, defined during step 20 by the covariance matrix ∑j and the normal law \ i \ . The determination of the conditional expectation thus makes it possible to obtain the prediction function of the fundamental frequency from the cepstrum information.
En variante, l'estimateur mis en œuvre lors de l'étape 30 peut être un critère de maximum a posteriori, dit "MAP" et correspondant à la réalisation du calcul de l'espérance uniquement pour le modèle représentant le mieux le vecteur source.As a variant, the estimator implemented during step 30 can be an a posteriori maximum criterion, called "MAP" and corresponding to the realization of the expectation calculation only for the model best representing the source vector.
Il apparaît donc que le procédé d'analyse de l'invention permet, à partir du modèle et des échantillons vocaux, d'obtenir une fonction de prédiction de la fréquence fondamentale en fonction uniquement d'informations de spectre fournies, dans le mode de réalisation décrit, par le cepstre.It therefore appears that the analysis method of the invention makes it possible, from the model and the voice samples, to obtain a prediction function of the fundamental frequency as a function only of spectrum information provided, in the embodiment described, by the cepstrum.
Une telle fonction de prédiction permet ensuite de déterminer la valeur de la fréquence fondamentale pour un signal de parole, uniquement à partir d'informations de spectre de ce signal, permettant ainsi une prédiction pertinente de la fréquence fondamentale notamment pour des sons qui ne sont pas dans les échantillons vocaux analysés.Such a prediction function then makes it possible to determine the value of the fundamental frequency for a speech signal, only on the basis of spectrum information of this signal, thus allowing a relevant prediction of the fundamental frequency in particular for sounds which are not in the voice samples analyzed.
En référence à la figure 2, on va maintenant décrire l'utilisation d'un procédé d'analyse selon l'invention dans le cadre de la conversion de voix.With reference to FIG. 2, we will now describe the use of an analysis method according to the invention in the context of voice conversion.
La conversion de voix consiste à modifier le signal vocal d'un locuteur de référence appelé " locuteur source " de façon que le signal produit semble avoir été prononcé par un autre locuteur nommé " locuteur cible".Voice conversion consists of modifying the voice signal of a reference speaker called "source speaker" so that the signal produced seems to have been spoken by another speaker named "target speaker".
Ce procédé est mis en œuvre à partir d'une base de données d'échantillons vocaux prononcés par le locuteur source et le locuteur cible.This method is implemented from a database of voice samples spoken by the source speaker and the target speaker.
De manière classique, un tel procédé comporte une étape 50 de dé- termination d'une fonction de transformation des caractéristiques spectrales des échantillons vocaux du locuteur source pour les faire ressembler aux caractéristiques spectrales des échantillons vocaux du locuteur cible.Conventionally, such a method comprises a step 50 of determining a function for transforming the spectral characteristics of the voice samples of the source speaker to make them resemble the spectral characteristics of the voice samples of the target speaker.
Dans le mode de réalisation décrit, cette étape 50 est basée sur une analyse de type HNM permettant de déterminer les relations existantes entre les caractéristiques de l'enveloppe spectrale des signaux de parole des locuteurs source et cible.In the embodiment described, this step 50 is based on an HNM type analysis making it possible to determine the relationships existing between the characteristics of the spectral envelope of the speech signals of the source and target speakers.
Pour cela, il est nécessaire de disposer d'enregistrements vocaux source et cible correspondant à la réalisation acoustique de la même séquence phonétique. L'étape 50 comporte une sous-étape 52 de modélisation des échantillons vocaux selon un modèle HNM, de somme de signaux harmoniques et de bruit.For this, it is necessary to have source and target voice recordings corresponding to the acoustic realization of the same phonetic sequence. Step 50 includes a sub-step 52 of modeling the voice samples according to an HNM model, of the sum of harmonic signals and of noise.
La sous-étape 52 est suivie d'une sous-étape 54 d'alignement entre les signaux source et cible à l'aide par exemple d'un algorithme classique d'alignement dit "DTW" (en anglais " Dynamic Time Warping").Sub-step 52 is followed by a sub-step 54 of alignment between the source and target signals using for example a conventional alignment algorithm called "DTW" (in English "Dynamic Time Warping") .
L'étape 50 comporte ensuite une sous-étape 56 de détermination d'un modèle tel qu'un modèle de type GMM représentant les caractéristiques communes des spectres des échantillons vocaux des locuteurs source et cible.Step 50 then comprises a sub-step 56 of determining a model such as a GMM type model representing the common characteristics of the spectra of the voice samples of the source and target speakers.
Dans le mode de réalisation décrit, on utilise un modèle GMM à 64 composantes et un unique vecteur contenant les paramètres cepstraux de la source et de la cible, de sorte que l'on peut définir une fonction de transformation spectrale correspondant à un estimateur de la réalisation des paramètres spectraux de cible notés t, sachant les paramètres spectraux de source notés s.In the embodiment described, we use a GMM model with 64 components and a single vector containing the cepstral parameters of the source and the target, so that we can define a spectral transformation function corresponding to an estimator of the realization of the target spectral parameters noted t, knowing the spectral source parameters noted s.
Dans le mode de réalisation décrit, cette fonction de transformation notée F(s) se note sous la forme d'une espérance conditionnelle obtenue par la formule suivante :In the described embodiment, this transformation function denoted F (s) is noted in the form of a conditional expectation obtained by the following formula:
QQ
F(s)=E[t | s]= ∑ft(s)[μ{+Σ* (∑sf) "1(s-μ f)] i=lF (s) = E [t | s] = ∑ft (s) [μ {+ Σ * (∑ s f) "1 (s-μ f)] i = l
La détermination précise de cette fonction est obtenue par la maximi- sation de la vraisemblance entre les paramètres de la source et de la cible, obtenue par un algorithme de type EM.The precise determination of this function is obtained by maximizing the likelihood between the parameters of the source and the target, obtained by an EM-type algorithm.
En variante, l'estimateur peut être formé d'un critère de maximum a posteriori.Alternatively, the estimator can be formed from a posteriori maximum criterion.
La fonction ainsi définie permet donc de modifier l'enveloppe spectrale d'un signal de parole issue du locuteur source afin de la faire ressembler à l'enveloppe spectrale du locuteur cible. Préalablement à cette maximisation, les paramètres du modèle GMM représentant les caractéristiques spectrales communes de la source et de la cible sont initialisés, par exemple, à l'aide d'un algorithme de quantification vectorielle.The function thus defined therefore makes it possible to modify the spectral envelope of a speech signal originating from the source speaker in order to make it resemble the spectral envelope of the target speaker. Prior to this maximization, the parameters of the GMM model representing the common spectral characteristics of the source and the target are initialized, for example, using a vector quantization algorithm.
Parallèlement, le procédé d'analyse de l'invention est mis en œuvre lors d'une étape 60 d'analyse des seuls échantillons vocaux du locuteur cible.In parallel, the analysis method of the invention is implemented during a step 60 of analyzing only the vocal samples of the target speaker.
Ainsi que cela a été décrit à la référence à la figure 1 , l'étape 60 d'analyse selon l'invention permet d'obtenir, pour le locuteur cible, une fonction de prédiction de la fréquence fondamentale en fonction uniquement d'informations de spectres. Le procédé de conversion comporte ensuite une étape 65 d'analyse d'un signal de voix à convertir prononcé par le locuteur source, lequel signal à convertir est différent des signaux vocaux utilisés lors des étapes 50 et 60.As described with reference to FIG. 1, the analysis step 60 according to the invention makes it possible to obtain, for the target speaker, a function of prediction of the fundamental frequency as a function solely of information from spectra. The conversion method then comprises a step 65 of analyzing a voice signal to be converted pronounced by the source speaker, which signal to be converted is different from the voice signals used during steps 50 and 60.
Cette étape d'analyse 65 est réalisée, par exemple, à l'aide d'une décomposition selon le modèle HNM permettant de délivrer des informations de spectre sous la forme de coefficients cepstraux, des informations de fréquence fondamentale ainsi que des informations de phase et de fréquence maximale de voisement.This analysis step 65 is carried out, for example, using a decomposition according to the HNM model making it possible to deliver spectrum information in the form of cepstral coefficients, fundamental frequency information as well as phase information and maximum voicing frequency.
Cette étape 65 est suivie d'une étape 70 de transformation des caractéristiques spectrales du signal de voix à convertir par l'application de la fonction de transformation déterminée à l'étape 50, aux coefficients cepstraux définis lors de l'étape 65.This step 65 is followed by a step 70 of transformation of the spectral characteristics of the voice signal to be converted by the application of the transformation function determined in step 50, to the cepstral coefficients defined during step 65.
Cette étape 70 permet notamment la modification de l'enveloppe spectrale du signal de voix à convertir.This step 70 allows in particular the modification of the spectral envelope of the voice signal to be converted.
A l'issue de l'étape 70, chaque trame d'échantillons du signal à conver- tir du locuteur source est ainsi associée à des informations spectrales transformées dont les caractéristiques sont similaires aux caractéristiques spectrales des échantillons du locuteur cible.At the end of step 70, each frame of samples of the signal to be converted from the source speaker is thus associated with transformed spectral information whose characteristics are similar to the spectral characteristics of the samples of the target speaker.
Le procédé de conversion comporte ensuite une étape 80 de prédiction de la fréquence fondamentale pour les échantillons vocaux du locuteur source, par l'application de la fonction de prédiction déterminée selon le procédé de l'invention lors de l'étape 60, aux seules informations spectrales transformées associées au signal de voix à convertir du locuteur source.The conversion method then comprises a step 80 of predicting the fundamental frequency for the voice samples of the source speaker, by applying the prediction function determined according to the method of the invention during step 60, to the only information transformed spectral associated with the voice signal to be converted from the source speaker.
En effet, les échantillons vocaux du locuteur source étant associés à des informations spectrales transformées dont les caractéristiques sont similaires à celles du locuteur cible, la fonction de prédiction définie lors de l'étape 60 permet d'obtenir une prédiction pertinente de la fréquence fondamentale.Indeed, the voice samples of the source speaker being associated with transformed spectral information whose characteristics are similar to those of the target speaker, the prediction function defined during step 60 makes it possible to obtain a relevant prediction of the fundamental frequency.
De manière classique, le procédé de conversion comporte ensuite une étape 90 de synthèse du signal de sortie réalisée, dans l'exemple décrit, par une synthèse de type HNM qui délivre directement le signal de voix converti à partir des informations d'enveloppe spectrale transformées délivrées par l'étape 70, des informations de fréquence fondamentale prédites issues de l'étape 80 et des informations de phase et de fréquence maximale de voisement délivrées par l'étape 65. Le procédé de conversion mettant en œuvre le procédé d'analyse de l'invention, permet ainsi d'obtenir une conversion de voix réalisant des modifications de spectres ainsi qu'une prédiction de fréquence fondamentale, de manière à obtenir un rendu auditif de bonne qualité.Conventionally, the conversion method then comprises a step 90 of synthesis of the output signal carried out, in the example described, by an HNM type synthesis which directly delivers the voice signal converted from the transformed spectral envelope information delivered by step 70, predicted fundamental frequency information originating from step 80 and phase and maximum voicing frequency information delivered by step 65. The conversion method implementing the analysis method of the invention thus makes it possible to obtain a voice conversion carrying out modifications of spectra as well as a prediction of fundamental frequency, so as to obtain a good auditory rendering.
Notamment, l'efficacité d'un tel procédé peut être évaluée à partir d'échantillons vocaux identiques prononcés par le locuteur source et le locuteur cible.In particular, the effectiveness of such a method can be evaluated from identical voice samples pronounced by the source speaker and the target speaker.
Le signal vocal prononcé par le locuteur source est converti à l'aide du procédé tel que décrit et la ressemblance du signal converti avec le signal prononcé par le locuteur cible, est évaluée. Par exemple, cette ressemblance est calculée sous la forme d'un ratio entre la distance acoustique séparant le signal converti du signal cible et la distance acoustique séparant le signal cible du signal source.The speech signal spoken by the source speaker is converted using the method as described and the resemblance of the converted signal with the signal spoken by the target speaker is evaluated. For example, this resemblance is calculated as a ratio between the acoustic distance separating the converted signal from the target signal and the acoustic distance separating the target signal from the source signal.
En calculant la distance acoustique à partir des coefficients cepstraux ou du spectre d'amplitude des signaux obtenu à l'aide de ces coefficients ceps- traux, le ratio obtenu pour un signal converti à l'aide du procédé de l'invention est de l'ordre de 0,3 à 0,5.By calculating the acoustic distance from the cepstral coefficients or the amplitude spectrum of the signals obtained using these cepstral coefficients, the ratio obtained for a signal converted using the method of the invention is l '' from 0.3 to 0.5.
Sur la figure 3, on a représenté un schéma bloc fonctionnel d'un système de conversion des voix mettant en œuvre le procédé décrit en référence à la figure 2. Ce système utilise en entrée une base de données 100 d'échantillons vocaux prononcés par le locuteur source et une base de données 102 contenant au moins les mêmes échantillons vocaux prononcés par le locuteur cible. Ces deux bases de données sont utilisées par un module 104 de détermination d'une fonction de transformation de caractéristiques spectrales du locuteur source en caractéristiques spectrales du locuteur cible.FIG. 3 shows a functional block diagram of a voice conversion system implementing the method described with reference to FIG. 2. This system uses as input a database 100 of voice samples spoken by the source speaker and a database 102 containing at least the same voice samples spoken by the target speaker. These two databases are used by a module 104 for determining a function for transforming spectral characteristics of the source speaker into spectral characteristics of the target speaker.
Ce module 104 est adapté pour la mise en œuvre de l'étape 50 du procédé tel que décrit en référence à la figure 2 et permet donc la détermination d'une fonction de transformation de l'enveloppe spectrale.This module 104 is suitable for the implementation of step 50 of the method as described with reference to FIG. 2 and therefore allows the determination of a transformation function of the spectral envelope.
Par ailleurs, le système comporte un module 106 de détermination d'une fonction de prédiction de la fréquence fondamentale en fonction uniquement d'informations relatives au spectre. Le module 106 reçoit pour cela en en- trée les échantillons vocaux du seul locuteur cible, contenus dans la base de données 102.Furthermore, the system includes a module 106 for determining a fundamental frequency prediction function based solely on information relating to the spectrum. The module 106 therefore receives the voice samples of the single target speaker, contained in the database 102, as input.
Le module 106 est adapté pour la mise en œuvre de l'étape 60 du procédé décrit en référence à la figure 2 et correspondant au procédé d'analyse de l'invention tel que décrit en référence à la figure 1. Avantageusement, la fonction de transformation délivrée par le moduleThe module 106 is suitable for implementing step 60 of the method described with reference to FIG. 2 and corresponding to the analysis method of the invention as described with reference to FIG. 1. Advantageously, the function of transformation delivered by the module
104 et la fonction de prédiction délivrée par le module 106, sont mémorisées en vue d'une utilisation ultérieure.104 and the prediction function delivered by the module 106 are stored for later use.
Le système de conversion de voix reçoit en entrée un signal de voix 110 correspondant à un signal de parole prononcé par le locuteur source et des- tiné à être converti.The voice conversion system receives as input a voice signal 110 corresponding to a speech signal spoken by the source speaker and intended to be converted.
Le signal 110 est introduit dans un module 112 d'analyse du signal, mettant en œuvre, par exemple, une décomposition de type HNM et permettant de dissocier des informations de spectre du signal 110 sous la forme de coefficients cepstraux et d'informations de fréquence fondamentale. Le module 112 délivre également des informations de phase et de fréquence maximale de voi- sement obtenues par l'application du modèle HNM.The signal 110 is introduced into a signal analysis module 112, implementing, for example, an HNM type decomposition and making it possible to dissociate spectrum information from the signal 110 in the form of cepstral coefficients and frequency information. fundamental. The module 112 also delivers phase information and maximum voice frequency obtained by applying the HNM model.
Le module 112 met donc en œuvre l'étape 65 du procédé décrit précédemment.The module 112 therefore implements step 65 of the method described above.
Eventuellement cette analyse peut être faite au préalable et les infor- mations sont stockées pour être utilisées ultérieurement.Optionally, this analysis can be done beforehand and the information is stored for later use.
Les coefficients cepstraux délivrés par le module 112, sont ensuite introduits dans un module 114 de transformation adapté pour appliquer la fonction de transformation déterminée par le module 104. Ainsi, le module 114 de transformation met en œuvre l'étape 70 du procédé décrit en référence à la figure 2 et délivre des coefficients cepstraux transformés dont les caractéristiques sont similaires aux caractéristiques spectrales du locuteur cible. Le module 114 réalise ainsi une modification de l'enveloppe spectrale du signal de voix 110.The cepstral coefficients delivered by the module 112 are then introduced into a transformation module 114 adapted to apply the transformation function determined by the module 104. Thus, the transformation module 114 implements step 70 of the method described with reference to FIG. 2 and delivers transformed cepstral coefficients whose characteristics are similar to the spectral characteristics of the target speaker. The module 114 thus performs a modification of the spectral envelope of the voice signal 110.
Les coefficients cepstraux" transformés délivrés par le module 114, sont ensuite introduits dans un module 116 de prédiction de la fréquence fondamentale adaptés pour mettre en œuvre la fonction de prédiction déterminée par le module 106.The transformed cepstral coefficients " delivered by the module 114, are then introduced into a module 116 for predicting the fundamental frequency suitable for implementing the prediction function determined by the module 106.
Ainsi, le module 116 met en œuvre l'étape 80 du procédé décrit en référence à la figure 2 et délivre en sortie des informations de fréquence fondamentale prédites à partir uniquement des informations de spectre transformées.Thus, the module 116 implements step 80 of the method described with reference to FIG. 2 and delivers as output fundamental frequency information predicted from only the transformed spectrum information.
Le système comporte ensuite un module 118 de synthèse recevant en entrée les coefficients cepstraux transformés issus du module 114 et correspondant à l'enveloppe spectrale, les informations de fréquence fondamentale prédites issues du module 116, et les informations de phase et de fréquence maximale de voisement délivrées par le module 112.The system then includes a synthesis module 118 receiving as input the transformed cepstral coefficients from module 114 and corresponding to the spectral envelope, the predicted fundamental frequency information from module 116, and the phase and maximum voicing frequency information. delivered by module 112.
Le module 118 met ainsi en œuvre l'étape 90 du procédé décrit en ré- férence à la figure 2 et délivre un signal 120 correspondant au signal de voix 110 du locuteur source, mais dont les caractéristiques de spectre et de fréquence fondamentale ont été modifiées afin d'être similaires à celles du locuteur cible.The module 118 thus implements step 90 of the method described with reference to FIG. 2 and delivers a signal 120 corresponding to the voice signal 110 of the source speaker, but whose spectrum and fundamental frequency characteristics have been modified to be similar to that of the target speaker.
Le système décrit peut être mis en œuvre de diverses manières et notamment à l'aide d'un programme informatique adapté et relié à des moyens ma- tériels d'acquisition sonore.The system described can be implemented in various ways and in particular using a suitable computer program and connected to hardware means of sound acquisition.
Bien entendu, d'autres modes de réalisation que celui décrit peuvent être envisagés.Of course, other embodiments than that described can be envisaged.
Notamment, les modèles HNM et GMM peuvent être remplacés par d'autres techniques et modèles connus de l'homme de l'art, tels que par exemple les techniques dites LSF (Line Spectral Frequencies), LPC (Linear Prédictif Co- ding) ou encore des paramètres relatifs aux formants. In particular, the HNM and GMM models can be replaced by other techniques and models known to those skilled in the art, such as for example the techniques known as LSF (Line Spectral Frequencies), LPC (Linear Predictive Coding) or still parameters relating to formants.

Claims

REVENDICATIONS
1. Procédé d'analyse d'informations de fréquence fondamentale contenues dans des échantillons vocaux, caractérisé en ce qu'il comporte au moins : - une étape (2) d'analyse des échantillons vocaux regroupés en trames pour obtenir, pour chaque trame d'échantillons, des informations relatives au spectre et des informations relatives à la fréquence fondamentale;1. A method of analysis of fundamental frequency information contained in voice samples, characterized in that it comprises at least: - a step (2) of analysis of the voice samples grouped in frames to obtain, for each frame d 'samples, spectrum information and fundamental frequency information;
- une étape (20) de détermination d'un modèle représentant les caractéristiques communes de spectre et de fréquence fondamentale de tous les échantillons; et- a step (20) of determining a model representing the common characteristics of spectrum and fundamental frequency of all the samples; and
- une étape (30) de détermination, à partir de ce modèle et des échantillons vocaux, d'une fonction de prédiction de la fréquence fondamentale en fonction uniquement d'informations relatives au spectre.a step (30) of determining, from this model and the voice samples, a function for predicting the fundamental frequency as a function only of information relating to the spectrum.
2. Procédé selon la revendication 1 , caractérisé en ce que ladite étape (2) d'analyse est adaptée pour délivrer lesdites informations relatives au spectre sous la forme de coefficients cepstraux.2. Method according to claim 1, characterized in that said analysis step (2) is adapted to deliver said information relating to the spectrum in the form of cepstral coefficients.
3. Procédé selon l'une quelconque des revendications 1 ou 2, caractérisé en ce que ladite étape d'analyse (2) comporte :3. Method according to any one of claims 1 or 2, characterized in that said analysis step (2) comprises:
- une sous-étape (4) de modélisation des échantillons vocaux selon une somme d'un signal harmonique et d'un signal de bruit ;- a sub-step (4) of modeling the voice samples according to a sum of a harmonic signal and a noise signal;
- une sous-étape (5) d'estimation de paramètres de fréquence et au moins de la fréquence fondamentale des échantillons vocaux;- a sub-step (5) for estimating frequency parameters and at least the fundamental frequency of the voice samples;
- une sous-étape (6) d'analyse synchronisée de chaque trame d'échantillons sur sa fréquence fondamentale; et - une sous-étape (7) d'estimation des paramètres de spectre de chaque trame d'échantillons.- a sub-step (6) of synchronized analysis of each frame of samples on its fundamental frequency; and - a sub-step (7) for estimating the spectrum parameters of each frame of samples.
4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce qu'il comporte en outre une étape (10) de normalisation de la fréquence fondamentale de chaque trame d'échantillons par rapport à la moyenne des fré- quences fondamentales des échantillons analysés.4. Method according to any one of claims 1 to 3, characterized in that it further comprises a step (10) of normalization of the fundamental frequency of each frame of samples with respect to the average of the fundamental frequencies samples analyzed.
5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que ladite étape (20) de détermination d'un modèle correspond à la détermination d'un modèle par mélange de densités gaussiennes. 5. Method according to any one of claims 1 to 4, characterized in that said step (20) of determining a model corresponds to the determination of a model by mixing of Gaussian densities.
6. Procédé selon la revendication 5, caractérisé en ce que ladite étape de détermination (20) d'un modèle comprend :6. Method according to claim 5, characterized in that said step of determining (20) a model comprises:
- une sous-étape (22) de détermination d'un modèle correspondant à un mélange de densités gaussiennes; et - une sous-étape (24) d'estimation des paramètres du mélange de densités gaussiennes à partir de l'estimation du maximum de vraisemblance entre les informations de spectre et de fréquence fondamentale des échantillons et du modèle.- a sub-step (22) of determining a model corresponding to a mixture of Gaussian densities; and - a sub-step (24) of estimating the parameters of the mixture of Gaussian densities from the estimation of the maximum likelihood between the spectrum and fundamental frequency information of the samples and of the model.
7. Procédé selon l'une quelconque des revendications 1 à 6, caractéri- se en ce que ladite étape (30) de détermination d'une fonction de prédiction est réalisée à partir d'un estimateur de la réalisation de la fréquence fondamentale sachant les informations de spectre des échantillons.7. Method according to any one of claims 1 to 6, characterized in that said step (30) of determining a prediction function is carried out from an estimator of the realization of the fundamental frequency knowing the sample spectrum information.
8. Procédé selon la revendication 7, caractérisé en ce que ladite étape (30) de détermination de la fonction de prédiction de la fréquence fondamentale comprend une sous-étape (32) de détermination de l'espérance conditionnelle de la réalisation de la fréquence fondamentale sachant les informations de spectre à partir de la probabilité a posteriori que les informations de spectre soient obtenues à partir du modèle, l'espérance conditionnelle formant ledit estimateur.8. Method according to claim 7, characterized in that said step (30) of determining the prediction function of the fundamental frequency comprises a substep (32) of determining the conditional expectation of the achievement of the fundamental frequency knowing the spectrum information from the posterior probability that the spectrum information will be obtained from the model, the conditional expectation forming said estimator.
9. Procédé de conversion d'un signal vocal prononcé par un locuteur source en un signal vocal converti dont les caractéristiques ressemblent à celles d'un locuteur cible, comportant au moins :9. Method for converting a voice signal pronounced by a source speaker into a converted voice signal whose characteristics resemble those of a target speaker, comprising at least:
- une étape (50) de détermination d'une fonction de transformation de caractéristiques spectrales du locuteur source en caractéristiques spectrales du locuteur cible, réalisée à partir d'échantillons vocaux du locuteur source et du locuteur cible; et- a step (50) of determining a function for transforming the spectral characteristics of the source speaker into the spectral characteristics of the target speaker, carried out using voice samples of the source speaker and the target speaker; and
- une étape (70) de transformation des informations de spectre du signal de voix du locuteur source à convertir à l'aide de ladite fonction de transformation, caractérisé en ce qu'il comporte en outre : - une étape (60) de détermination d'une fonction de prédiction de la fréquence fondamentale en fonction uniquement d'informations relatives au spectre pour le locuteur cible, ladite fonction de prédiction étant obtenue à l'aide d'un procédé d'analyse selon l'une quelconque des revendications 1 à 8; et - une étape (80) de prédiction de la fréquence fondamentale du signal de voix à convertir par l'application de ladite fonction de prédiction de la fréquence fondamentale auxdites informations de spectres transformés du signal de voix du locuteur source. - a step (70) of transforming the spectrum information of the voice signal of the source speaker to be converted using said transformation function, characterized in that it further comprises: - a step (60) of determining d a fundamental frequency prediction function as a function only of information relating to the spectrum for the target speaker, said prediction function being obtained using an analysis method according to any one of claims 1 to 8 ; and a step (80) of predicting the fundamental frequency of the voice signal to be converted by applying said function of predicting the fundamental frequency to said information of transformed spectra of the voice signal of the source speaker.
10. Procédé selon la revendication 9, caractérisé en ce que ladite étape (50) de détermination d'une fonction de transformation est réalisée à partir d'un estimateur de la réalisation des caractéristiques spectrales cibles sachant les caractéristiques spectrales source.10. Method according to claim 9, characterized in that said step (50) of determining a transformation function is carried out from an estimator of the achievement of the target spectral characteristics knowing the source spectral characteristics.
11. Procédé selon la revendication 10, caractérisé en ce que ladite étape (50) de détermination d'une fonction de transformation comporte :11. Method according to claim 10, characterized in that said step (50) of determining a transformation function comprises:
- une sous-étape (52) de modélisation des échantillons vocaux source et cible selon un modèle de somme d'un signal harmonique et d'un signal de bruit ;- a sub-step (52) of modeling the source and target voice samples according to a model of sum of a harmonic signal and a noise signal;
- une sous-étape (54) d'alignement entre les échantillons source et ci- ble; et- a sub-step (54) of alignment between the source and target samples; and
- une sous-étape (56) de détermination de ladite fonction de transformation à partir du calcul de l'espérance conditionnelle de la réalisation des caractéristiques spectrales cibles sachant la réalisation des caractérisations spectrales sources, l'espérance conditionnelle formant ledit estimateur. - a substep (56) of determining said transformation function from the calculation of the conditional expectation of the achievement of the target spectral characteristics knowing the achievement of the source spectral characterizations, the conditional expectation forming said estimator.
12. Procédé selon l'une quelconque des revendications 9 à 11 , caractérisé en ce que ladite fonction de transformation est une fonction de transformation de l'enveloppe spectrale.12. Method according to any one of claims 9 to 11, characterized in that said transformation function is a transformation function of the spectral envelope.
13. Procédé selon l'une quelconque des revendications 9 à 12, caractérisé en ce qu'il comporte en outre une étape (65) d'analyse du signal de voix à convertir adaptée pour délivrer lesdites informations relatives au spectre et à la fréquence fondamentale.13. Method according to any one of claims 9 to 12, characterized in that it further comprises a step (65) of analysis of the voice signal to be converted adapted to deliver said information relating to the spectrum and to the fundamental frequency .
14. Procédé selon l'une quelconque des revendications 9 à 13, caractérisé en ce qu'il comporte en outre une étape (90) de synthèse permettant de former un signal de voix converti au moins à partir des informations de spectre transformées et des informations de fréquence fondamentale prédites.14. Method according to any one of claims 9 to 13, characterized in that it further comprises a synthesis step (90) making it possible to form a voice signal converted at least from the transformed spectrum information and information predicted fundamental frequencies.
15. Système de conversion d'un signal vocal (110) prononcé par un locuteur source en un signal vocal (120) converti dont les caractéristiques ressemblent à celles d'un locuteur cible, système comportant au moins : - des moyens (104) de détermination d'une fonction de transformation de caractéristiques spectrales du locuteur source en caractéristiques spectrales du locuteur cible, recevant en entrée des échantillons vocaux du locuteur source (100) et du locuteur cible (102) ; et - des moyens (114) de transformation des informations de spectre du signal de voix (110) du locuteur source à convertir par l'application de ladite fonction de transformation délivrée par les moyens (104), caractérisé en ce qu'il comporte en outre :15. System for converting a voice signal (110) pronounced by a source speaker into a converted voice signal (120) whose characteristics resemble those of a target speaker, system comprising at least: - Means (104) for determining a function for transforming spectral characteristics of the source speaker into spectral characteristics of the target speaker, receiving input samples of the source speaker (100) and the target speaker (102); and - means (114) for transforming spectrum information of the voice signal (110) of the source speaker to be converted by the application of said transformation function delivered by the means (104), characterized in that it comprises outraged :
- des moyens (106) de détermination d'une fonction de prédiction de la fréquence fondamentale en fonction uniquement d'informations relatives au spectre pour le locuteur cible, adaptés pour la mise en œuvre d'un procédé d'analyse selon l'une quelconque des revendications 1 à 8, à partir d'échantillons vocaux (102) du locuteur cible ; et- Means (106) for determining a prediction function of the fundamental frequency as a function only of information relating to the spectrum for the target speaker, suitable for implementing an analysis method according to any one claims 1 to 8, based on voice samples (102) of the target speaker; and
- des moyens (116) de prédiction de la fréquence fondamentale dudit signal de voix à convertir (110), par l'application de ladite fonction de prédiction déterminée par lesdits moyens (106) de détermination d'une fonction de prédiction auxdites informations de spectre transformé délivrées par lesdits moyens de transformation (114).- means (116) for predicting the fundamental frequency of said voice signal to be converted (110), by applying said prediction function determined by said means (106) for determining a prediction function to said spectrum information transformed delivered by said transformation means (114).
16. Système selon la revendication 15, caractérisé en ce qu'il com- porte en outre :16. System according to claim 15, characterized in that it further comprises:
- des moyens (112) d'analyse du signal de voix à convertir (110), adaptés pour délivrer en sortie des informations relatives au spectre et à la fréquence fondamentale du signal de voix à convertir ; et- means (112) for analyzing the voice signal to be converted (110), adapted to output information relating to the spectrum and to the fundamental frequency of the voice signal to be converted; and
- des moyens (118) de synthèse permettant de former un signal de voix converti à partir au moins des informations de spectre transformé délivrées par les moyens (114) et des informations de fréquence fondamentale prédites délivrées par les moyens (116).- Synthesis means (118) making it possible to form a converted voice signal from at least the transformed spectrum information delivered by the means (114) and predicted fundamental frequency information delivered by the means (116).
17. Système selon l'une quelconque des revendications 15 et 16, caractérisé en ce que lesdits moyens (104) de détermination d'une fonction de transformation sont adaptés pour délivrer une fonction de transformation de l'enveloppe spectrale.17. System according to any one of claims 15 and 16, characterized in that said means (104) for determining a transformation function are adapted to deliver a transformation function of the spectral envelope.
18. Système selon l'une quelconque des revendications 15 à 17, caractérisé en ce qu'il est adapté pour la mise en œuvre d'un procédé de conversion de voix selon l'une quelconque des revendications 9 à 12. 18. System according to any one of claims 15 to 17, characterized in that it is suitable for the implementation of a voice conversion method according to any one of claims 9 to 12.
EP04716265A 2003-03-27 2004-03-02 Method for analyzing fundamental frequency information and voice conversion method and system implementing said analysis method Expired - Lifetime EP1606792B1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0303790A FR2853125A1 (en) 2003-03-27 2003-03-27 METHOD FOR ANALYZING BASIC FREQUENCY INFORMATION AND METHOD AND SYSTEM FOR VOICE CONVERSION USING SUCH ANALYSIS METHOD.
FR0303790 2003-03-27
PCT/FR2004/000483 WO2004088633A1 (en) 2003-03-27 2004-03-02 Method for analyzing fundamental frequency information and voice conversion method and system implementing said analysis method

Publications (2)

Publication Number Publication Date
EP1606792A1 true EP1606792A1 (en) 2005-12-21
EP1606792B1 EP1606792B1 (en) 2008-05-14

Family

ID=32947218

Family Applications (1)

Application Number Title Priority Date Filing Date
EP04716265A Expired - Lifetime EP1606792B1 (en) 2003-03-27 2004-03-02 Method for analyzing fundamental frequency information and voice conversion method and system implementing said analysis method

Country Status (8)

Country Link
US (1) US7643988B2 (en)
EP (1) EP1606792B1 (en)
JP (1) JP4382808B2 (en)
CN (1) CN100583235C (en)
AT (1) ATE395684T1 (en)
DE (1) DE602004013747D1 (en)
FR (1) FR2853125A1 (en)
WO (1) WO2004088633A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063899A (en) * 2010-10-27 2011-05-18 南京邮电大学 Method for voice conversion under unparallel text condition

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4241736B2 (en) * 2006-01-19 2009-03-18 株式会社東芝 Speech processing apparatus and method
CN101064104B (en) * 2006-04-24 2011-02-02 中国科学院自动化研究所 Emotion voice creating method based on voice conversion
US20080167862A1 (en) * 2007-01-09 2008-07-10 Melodis Corporation Pitch Dependent Speech Recognition Engine
JP4966048B2 (en) * 2007-02-20 2012-07-04 株式会社東芝 Voice quality conversion device and speech synthesis device
US8131550B2 (en) * 2007-10-04 2012-03-06 Nokia Corporation Method, apparatus and computer program product for providing improved voice conversion
JP4577409B2 (en) * 2008-06-10 2010-11-10 ソニー株式会社 Playback apparatus, playback method, program, and data structure
CN102664003B (en) * 2012-04-24 2013-12-04 南京邮电大学 Residual excitation signal synthesis and voice conversion method based on harmonic plus noise model (HNM)
ES2432480B2 (en) * 2012-06-01 2015-02-10 Universidad De Las Palmas De Gran Canaria Method for the clinical evaluation of the voice system of patients with laryngeal pathologies through an acoustic evaluation of voice quality
US9570087B2 (en) * 2013-03-15 2017-02-14 Broadcom Corporation Single channel suppression of interfering sources
CN109524023A (en) * 2016-01-22 2019-03-26 大连民族大学 A kind of method of pair of fundamental frequency estimation experimental verification
WO2018138543A1 (en) * 2017-01-24 2018-08-02 Hua Kanru Probabilistic method for fundamental frequency estimation
CN108766450B (en) * 2018-04-16 2023-02-17 杭州电子科技大学 Voice conversion method based on harmonic impulse decomposition
CN108922516B (en) * 2018-06-29 2020-11-06 北京语言大学 Method and device for detecting threshold value
CN111179902B (en) * 2020-01-06 2022-10-28 厦门快商通科技股份有限公司 Speech synthesis method, equipment and medium for simulating resonance cavity based on Gaussian model
CN112750446B (en) * 2020-12-30 2024-05-24 标贝(青岛)科技有限公司 Voice conversion method, device and system and storage medium
CN115148225B (en) * 2021-03-30 2024-09-03 北京猿力未来科技有限公司 Intonation scoring method, intonation scoring system, computing device, and storage medium

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US6615174B1 (en) * 1997-01-27 2003-09-02 Microsoft Corporation Voice conversion system and methodology

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2004088633A1 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063899A (en) * 2010-10-27 2011-05-18 南京邮电大学 Method for voice conversion under unparallel text condition
CN102063899B (en) * 2010-10-27 2012-05-23 南京邮电大学 Method for voice conversion under unparallel text condition

Also Published As

Publication number Publication date
EP1606792B1 (en) 2008-05-14
ATE395684T1 (en) 2008-05-15
FR2853125A1 (en) 2004-10-01
JP4382808B2 (en) 2009-12-16
JP2006521576A (en) 2006-09-21
DE602004013747D1 (en) 2008-06-26
CN1795491A (en) 2006-06-28
US20060178874A1 (en) 2006-08-10
CN100583235C (en) 2010-01-20
WO2004088633A1 (en) 2004-10-14
US7643988B2 (en) 2010-01-05

Similar Documents

Publication Publication Date Title
EP1730729A1 (en) Improved voice signal conversion method and system
Viikki et al. Cepstral domain segmental feature vector normalization for noise robust speech recognition
EP1606792B1 (en) Method for analyzing fundamental frequency information and voice conversion method and system implementing said analysis method
McLoughlin Line spectral pairs
Geiser et al. Bandwidth extension for hierarchical speech and audio coding in ITU-T Rec. G. 729.1
WO2005106853A1 (en) Method and system for the quick conversion of a voice signal
CN114694632A (en) Speech processing device
Prasad et al. Bandwidth extension of speech signals: A comprehensive review
EP1526508B1 (en) Method for the selection of synthesis units
Khonglah et al. Speech enhancement using source information for phoneme recognition of speech with background music
Jokinen et al. Estimating the spectral tilt of the glottal source from telephone speech using a deep neural network
Liu et al. Audio bandwidth extension based on temporal smoothing cepstral coefficients
Srivastava Fundamentals of linear prediction
Al-Radhi et al. Continuous vocoder applied in deep neural network based voice conversion
Liu et al. Audio bandwidth extension based on ensemble echo state networks with temporal evolution
Milivojević et al. Estimation of the fundamental frequency of the speech signal compressed by mp3 algorithm
Xiao et al. Speech intelligibility enhancement by non-parallel speech style conversion using CWT and iMetricGAN based CycleGAN
EP1846918B1 (en) Method of estimating a voice conversion function
Gupta et al. A new framework for artificial bandwidth extension using H∞ filtering
Grumiaux et al. Efficient bandwidth extension of musical signals using a differentiable harmonic plus noise model
Park et al. Unsupervised noise reduction scheme for voice-based information retrieval in mobile environments
Kleijn Signal processing representations of speech
Jinachitra Robust structured voice extraction for flexible expressive resynthesis
Li et al. Variable bit-rate sinusoidal transform coding using variable order spectral estimation
Liu et al. EURASIP Journal on Audio, Speech, and Music Processing

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20050921

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL LT LV MK

DAX Request for extension of the european patent (deleted)
RIN1 Information on inventor provided before grant (corrected)

Inventor name: ROSEC, OLIVIER

Inventor name: EN-NAJJARY, TAOUFIK

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 21/00 20060101ALN20070817BHEP

Ipc: G10L 11/04 20060101AFI20070817BHEP

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

REF Corresponds to:

Ref document number: 602004013747

Country of ref document: DE

Date of ref document: 20080626

Kind code of ref document: P

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080825

NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20081014

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080814

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20090217

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080814

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

BERE Be: lapsed

Owner name: FRANCE TELECOM

Effective date: 20090331

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20090331

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20090331

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20090331

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20090331

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080815

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20090302

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20081115

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080514

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 13

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20160218

Year of fee payment: 13

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20160223

Year of fee payment: 13

Ref country code: FR

Payment date: 20160219

Year of fee payment: 13

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 602004013747

Country of ref document: DE

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20170302

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20171130

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170331

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171003

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170302