EP1593116B1 - Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d'effets spéciaux et dispositif pour la mise en oeuvre dudit procédé - Google Patents
Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d'effets spéciaux et dispositif pour la mise en oeuvre dudit procédé Download PDFInfo
- Publication number
- EP1593116B1 EP1593116B1 EP04705433A EP04705433A EP1593116B1 EP 1593116 B1 EP1593116 B1 EP 1593116B1 EP 04705433 A EP04705433 A EP 04705433A EP 04705433 A EP04705433 A EP 04705433A EP 1593116 B1 EP1593116 B1 EP 1593116B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- signal
- pitch
- block
- synthesis
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000000694 effects Effects 0.000 title claims abstract description 47
- 238000001914 filtration Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 title claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims abstract description 90
- 230000005236 sound signal Effects 0.000 claims abstract description 26
- 230000015572 biosynthetic process Effects 0.000 claims description 76
- 238000003786 synthesis reaction Methods 0.000 claims description 76
- 238000004364 calculation method Methods 0.000 claims description 52
- 230000002123 temporal effect Effects 0.000 claims description 31
- 230000009466 transformation Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 14
- 230000003595 spectral effect Effects 0.000 claims description 10
- 230000004048 modification Effects 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 9
- 230000002829 reductive effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000033764 rhythmic process Effects 0.000 claims 4
- 230000001419 dependent effect Effects 0.000 claims 2
- 230000008929 regeneration Effects 0.000 claims 2
- 238000011069 regeneration method Methods 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 239000011295 pitch Substances 0.000 description 172
- 230000006870 function Effects 0.000 description 33
- 238000012360 testing method Methods 0.000 description 19
- 238000010200 validation analysis Methods 0.000 description 19
- 238000010606 normalization Methods 0.000 description 14
- 230000001629 suppression Effects 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 9
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000011282 treatment Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 235000021183 entrée Nutrition 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000007480 spreading Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 206010049290 Feminisation acquired Diseases 0.000 description 2
- 208000034793 Feminization Diseases 0.000 description 2
- 241000861223 Issus Species 0.000 description 2
- 241000287107 Passer Species 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000272525 Anas platyrhynchos Species 0.000 description 1
- 241000272517 Anseriformes Species 0.000 description 1
- 238000006677 Appel reaction Methods 0.000 description 1
- 101100402341 Caenorhabditis elegans mpk-1 gene Proteins 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 241001080024 Telles Species 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 101150036453 sur-2 gene Proteins 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Definitions
- the present invention relates to a differentiated digital processing of voice and music, noise filtering, the creation of special effects and a device for implementing said method.
- the voice signal is composed of a mixture of very complex transient signals (noises) and quasiperiodic signal parts (harmonic sounds).
- the noises can be small explosions: P, B, T, D, K, GU; soft diffuse noise: F, V, J, Z or intense CH, S; as for harmonic sounds, their spectrum varies with the type of vowel and with the speaker.
- the intensity ratios between noises and vowels change according to whether it is a conversational voice, a conference-like voice, a loud voice or a sung voice.
- the strong voice and the sung voice favor vowel sounds at the expense of noises.
- the vocal signal transmits simultaneously two types of messages: a semantic message conveyed by the word, verbal expression of the thought, and an aesthetic message perceptible through the aesthetic qualities of the voice (timbre, intonation, flow, etc.).
- the semantic content of speech is practically independent of the qualities of the voice; it is conveyed by temporal acoustic forms; a whispered voice consists only of flow noises; an "intimate" or proximity voice consists of a mixture of harmonic sounds in the low frequencies and noises of flow in the treble; the voice of a speaker or singer has a rich and intense harmonic vowel spectrum.
- the musical range and the spectral content are not directly related; some instruments have the energy maxima included in the range; others have a well-circumscribed maximum zone of energy at the sharp limit of the range and beyond; others, finally, have extremely spreading energy maxima that extend well beyond the acute limit of the tessitura.
- the originality of digital technologies is to introduce a determinism (that is to say, a priori knowledge) as much as possible at the level of the processed signals so as to perform particular treatments that will reside in the form of calculations.
- this signal will be processed without undergoing degradation such that background, distortion and bandwidth limitation; moreover, it can be processed to create special effects such as the transformation of the voice, the suppression of the ambient noise, the modification of the breath of the voice, the differentiation of the voice and the music.
- the patent US 5,684,262 A discloses a method of multiplying the original voice with a tone to obtain a frequency offset and thereby obtain a deeper or more acute voice.
- the rate reduction methods are used mainly for digital storage (in order to reduce the bit volume) and for transmission (in order to reduce the required bit rate). These methods include pre-storage or transmission processing (coding) and rendering processing (decoding).
- This process is based on the mask effect of human hearing, that is, the disappearance of weak sounds in the presence of loud sounds, equivalent to a shift of the hearing threshold caused by the loudest sound and depending on the frequency and level difference between the two sounds.
- the number of bits per sample is set according to the mask effect since the low sounds and the quantization noise are inaudible.
- the audio spectrum is divided into a number of sub-bands, thus allowing the mask level to be specified in each of the sub-bands and to realize a bit allocation for each one of the sub-bands. between them.
- This technique consists in transmitting a variable bit rate according to the instant composition of the sound.
- this method is rather adapted to the processing of the music and not to the vocal signal; it does not detect the presence of voice or music, separate the voice or musical signal and noise, modify the voice in real time to synthesize a different but realistic voice, synthesize breath (noise) for create special effects, code a voice signal with a single voice, reduce ambient noise.
- the object of the invention is therefore more particularly to eliminate these disadvantages.
- this method of transforming the voice, the music and the ambient noise is as defined in claim 1.
- the analysis of the voice signal and the coding of the parameters constitute the two functionalities of the analyzer (block A); likewise, the decoding of the parameters, the special effects and the synthesis constitute the functions of the synthesizer (block C).
- thresholds (blocks 4, 7, 8, 22) respectively make it possible to detect the presence of an inaudible signal, the presence of an inaudible frame, the presence of a pulse, the presence of a mains disturbance signal (50 Hz) or 60 Hz).
- a fifth threshold makes it possible to perform the Fast Fourier Transform (TRF) on the untreated signal according to the characteristics of the "pitch" and its variation.
- a sixth threshold makes it possible to restore the result of the Fast Fourier Transform (TRF) with pretreatment as a function of the signal-to-noise ratio.
- Two frames are used in the audio signal analysis method, a so-called "current” frame, of fixed periodicity, containing a certain number of samples corresponding to the vocal signal, and a so-called “analysis” frame, whose number of samples is equivalent to that of the current frame or the double, and can be shifted, according to the temporal interpolation, with respect to the aforesaid current frame.
- the formatting of the input signal (block 1) consists in performing a high pass filtering in order to improve the future coding of the frequency amplitudes by increasing their dynamics; said high pass filter increases the dynamic of frequency amplitude by avoiding that a low audible frequency occupies all the dynamics and makes disappear frequencies of small amplitude but nevertheless audible.
- the filtered signal is then directed to block 2 for the determination of the time envelope.
- the time offset to be applied to the analysis frame is then calculated by searching on the one hand for the maximum of the envelope in the said frame and on the other hand two indices corresponding to the values of the envelope that are lower by a certain percentage than the value of the maximum.
- the temporal interpolation detection (block 3) makes it possible to correct the two offset indices of the analysis frame found in the previous calculation, and this taking into account the past.
- a first threshold detects the presence of an audible signal or not by measuring the maximum value of the envelope; if so, the analysis of the frame is completed; otherwise, continuous treatment.
- the dynamics of the signal is then calculated (block 6) for its normalization in order to reduce the computation noise; the normalization gain of the signal is calculated from the highest sample in absolute value in the analysis frame.
- a second threshold (block 7) detects or not the presence of an inaudible frame by mask effect caused by the previous frames; if yes, the analysis is complete; otherwise, the treatment continues.
- a third threshold (block 8) then detects the presence of a pulse; in the affirmative, a specific treatment is carried out (blocks 9, 10); otherwise, the signal parameter calculations (block 11) for preprocessing the time signal (block 12) will be performed.
- the repetition of the pulse (block 9) is performed by creating an artificial "pitch", equal to the duration of the pulse, so as to avoid the masking of the useful frequencies during the fast transformation of Fourrier (TRF).
- the Fast Fourier Transform (TRF) (block 10) is then performed on the repeated pulse keeping only the absolute value of the complex number and not the phase; the calculation of frequencies and modules of the frequency data (block 20) is then performed.
- the calculation of the "pitch” is carried out beforehand by differentiating the signal from the analysis frame, followed by a low-pass filtering of the high-rank components, and then a cube elevation of the result of said filtering; the value of the "pitch” is determined by calculating the minimum distance between a portion of the high energy signal and the sequence of the subsequent signal, since the aforesaid minimum distance is the sum of the absolute value of the differences between the samples the template and the samples to be correlated; then, the main part of a "pitch” centered around one and a half times the value of the "pitch” is sought at the beginning of the analysis frame in order to calculate the distance of this portion of "pitch” on the entirety of the analysis frame; thus, the minimum distances defining the positions of the "pitch", the "pitch” being the average of the "pitches” detected; then the variation of the "pitch” is calculated using a line that minimizes the mean square error of the successions of the detected "pitches”; the "pitch” estimated
- the subtraction of the variation of the pitch consists of sampling the oversampled analysis frame with a sampling step varying with the inverse value of said variation of the pitch.
- the oversampling, in a ratio two, of the analysis frame is performed by multiplying the result of the Fast Fourier Transform (TFR) of the analysis frame by the factor exp (-j * 2 * PI * k / (2 * L_frame), so as to add a half-sample delay to the time signal used to calculate the fast Fourier transform, the fast Fourier transform is then performed in order to obtain the offset time signal of half a sample.
- TFR Fast Fourier Transform
- a frame of double length is thus produced by alternately using a sample of the original frame with a sample of the frame shifted by half a sample.
- the calculation of the signal-to-noise ratio is performed on the absolute value of the Fast Fourier Transform (TRF) result; the aforesaid ratio is in fact the ratio of the difference of the energy of the signal and the noise to the sum of the energy of the signal and the noise; the numerator of the aforesaid ratio corresponds to the logarithm of the difference between two peaks of energy, respectively of the signal and the noise, the peak of energy being that which is either greater than the four adjacent samples corresponding to the harmonic signal, or less than the four adjacent samples corresponding to the noise; the denominator is the sum of the logarithms of all signal peaks and noise; Moreover, the calculation of signal-to-noise ratio is by subband, the highest subbands, in terms of level, are averaged and give the desired ratio.
- TRF Fast Fourier Transform
- the calculation of the signal-to-noise ratio defined as the signal ratio minus the signal noise plus the noise, performed in the block 14, makes it possible to determine whether the signal analyzed is a voiced signal or music, the case of a high ratio, or noise, case of a low ratio.
- the calculation of the signal-to-noise ratio is then carried out in the block 17, so as to transmit to the block 20 the results of the Fast Fourier Transform (TRF) without pre-processing, in the case of a variation of the "pitch" zero, or, in the opposite case to restore the results of the fast Fourier transform (TRF) with pretreatment (block 19).
- TRF Fast Fourier Transform
- TRF fast fourier transform
- the Fast Fourier Transform (TRF), previously mentioned with reference to the blocks 10, 13, 16, is carried out, for example, on 256 samples in the case of an offset frame or pulse, or on the double of samples in the case of a centered field without impulse.
- a weighting of the samples located at the ends of the samples is carried out in the case of the fast Fourier transform (TRF) on n samples; on 2n samples, we use the HAMMING weighting window multiplied by the square root of the HAMMING window.
- TRF fast Fourier transform
- the ratio between two adjacent maximal values is calculated, each representing the product of the amplitude of the frequency component by a cardinal sinus; by successive approximations, we compare this ratio between the maximum values, with values contained in tables containing this same ratio, for N frequencies (for example 32 or 64) distributed uniformly on a half sample of the fast Fourier transform (TRF) .
- N frequencies for example 32 or 64
- TRF fast Fourier transform
- the calculation of frequencies and frequency data modules of the fast Fourier transform (TRF) performed in block 20 also makes it possible to detect a DTMF signal (dual tone multifrequency) in telephony.
- TRF fast Fourier transform
- the signal-to-noise ratio is the essential criterion that defines the type of signal.
- Detection of the presence or absence of disturbing signal at 50 Hz is carried out in block 22; the level of the detection threshold is a function of the level of the desired signal so as to avoid confusing the electromagnetic disturbance (50, 60 Hz) and the fundamental of a musical instrument.
- a computation of the dynamics of the amplitudes of the frequency components, or modules, is carried out in the block 23; the aforesaid frequency dynamic is used for the coding as well as for the suppression of the inaudible signals subsequently carried out in block 25.
- the frequency plane is subdivided into several parts, each of which has several amplitude ranges differentiated according to the type of signal detected at block 21.
- time interpolation and frequency interpolation are suppressed at block 24; these had been done to optimize the quality of the signal.
- Frequency interpolation depends on the variation of the pitch; this one will be suppressed according to the offset of a certain number of samples and the direction of the variation of the pitch.
- the amplitudes below the lower limit of the amplitude range are eliminated, and the frequencies whose range is smaller than one frequency unit, defined as the sampling frequency by sample unit.
- the inaudible components are eliminated by means of a test between the amplitude of the frequency component to be tested and the amplitude of the others. adjacent components multiplied by an attenuator term depending on the difference between their frequency.
- the number of frequency components is limited to a value beyond which the difference on the result obtained is not perceptible.
- the calculation of the "pitch" on the frequency signal must make it possible to decide whether it should be used in coding, knowing that the use of the pitch in the coding makes it possible to strongly reduce the coding and to make the voice more natural to synthesis; it is also used by the noise filter.
- the principle of the "pitch" calculation consists in synthesizing the signal by a sum of cosines having phases at the origin zero; thus the shape of the original signal will be reconstituted without the disturbances of the envelope, the phases and the variation of the pitch.
- the value of the frequency "pitch” is defined by the value of the temporal “pitch” which is equivalent to the first synthesis value having a maximum greater than the product of a coefficient by the sum of the modules used for the local synthesis (sum of the cosines said modules); this coefficient is equal to the ratio of the energy of the signal, considered as harmonic, to the sum of the energy of the noise and the energy of the signal; the aforesaid coefficient is even lower than the "pitch" to be detected is embedded in the noise; for example, at a signal-to-noise ratio of 0 decibels corresponds to a coefficient of 0.5.
- the validation information of the frequency "pitch” is obtained using the report of the synthesis sample, at the location of the "pitch", the sum of the modules used for the local synthesis; this ratio, synonymous with the energy of the harmonic signal on the total energy of the signal, is corrected according to the approximate signal-to-noise ratio calculated in the block 14; the "pitch" validation information depends on exceeding the threshold of this report.
- the values of said modules are not limited for the second local synthesis, only the number of frequencies is limited by taking into account only those which have a significant modulus in order to limit the noise.
- a second method of calculating the "pitch” consists in selecting the "pitch” which gives the maximum energy for a sampling step of the synthesis equal to the desired "pitch”; this process is used for music or a sound environment with multiple voices.
- the analysis will end with the following processing consisting in attenuating the noise, in the block 28, by decreasing the frequency components which are not a multiple of the "pitch"; after attenuation of said frequency components, the suppression of the inaudible signal, as described previously, at the block 25 will be carried out again.
- the attenuation of said frequency components is a function of the type of signal as defined previously by block 21.
- the formatting of the modules (block 31) consists in eliminating the attenuation of the input filter of the samples of the analysis (block 1 of the block A1) and taking into account the direction of the variation of the "pitch" because the synthesis is performed temporally by a phase increment of a sinus.
- the validation information of the "pitch" is deleted if the synthesis option of the music is validated; this option improves the phase calculation of the frequencies by avoiding synchronizing the phases of the harmonics with each other according to the "pitch".
- the noise reduction (block 32) is performed if it has not been previously performed during the analysis (block 28 of block A1).
- the signal upgrade (block 33) deletes the standardization of modules received from the analysis; this upgrade consists of multiplying the modules by the inverse of the normalization gain defined in the calculation of the signal dynamics (block 6 of block A1) and multiplying said modules by 4 in order to eliminate the effect of the HAMMING window, and only half of the frequency plane is used.
- the saturation of the modules is performed if the sum of the modules is greater than the signal dynamics of the output samples; it consists of multiplying the modules by the ratio of the maximum value of the sum of the modules to the sum of the modules, in the case where said ratio is less than 1.
- the pulse is re-generated by realizing the sum of sines in the pulse duration; the pulse parameters are modified (block 35) according to the variable speed of synthesis.
- the frequency phases are then calculated (block 36); it aims to give a phase continuity between the frequencies of the frames or to re-synchronize the phases between them; it also makes the voice more natural.
- Phase continuity consists of looking for the frequencies of the current frame at the beginning of the frame which are closest to the frequencies at the end of the frame of the previous frame; then the phase of each frequency becomes equal to that of the nearest preceding frequency, knowing that the frequencies at the beginning of the current frame are calculated from the central value of the frequency modified by the variation of the "pitch".
- the phases of the harmonics will be synchronized to that of the pitch by multiplying the phase of the "pitch” by the index of the harmonic of the "pitch”; as for the continuity of phase, one calculates the phase of the "pitch” at the end of the frame according to its variation and the phase at the origin of the frame; this phase will be used for the beginning of the next frame.
- a second solution is to no longer apply the variation of "pitch” on the "pitch” to know the new phase; it is enough to resume the phase of the end of the previous frame of the "pitch”; moreover, during the synthesis, the variation of the "pitch” is applied on the interpolation of the synthesis realized without variation of the "pitch".
- the generation of the breath is then performed (block 37).
- any sound signal in the interval of a frame is the sum of sinus of fixed amplitude and whose frequency is linearly modulated as a function of time, this sum being temporally modulated by the envelope of signal, the noise being added to this signal prior to said sum.
- the principle of the noise calculation is based on a filtering of a white noise by a transversal filter whose coefficients are calculated by the sum of the sines of the frequencies of the signal whose amplitudes are attenuated according to the values of their frequency and their amplitude.
- a HAMMING window is then applied to the coefficients to decrease the sidelobes.
- the filtered noise is then saved in two separate parts.
- a first part will make the link between two successive frames; the connection between two frames is made by overlapping these two frames each of which is weighted linearly and in the opposite direction; said overlap is performed when the signal is sinusoidal; it does not apply when it comes to uncorrelated noise; thus the saved portion of the filtered noise is added without weighting on the overlap area.
- the second part is intended for the main body of the frame.
- the link between two frames must first allow a smooth passage between two noise filters of two successive frames, and secondly prolong the noise of the next frame beyond the overlapping part of the frames if a start word (or sound) is detected.
- the fluid passage between two frames is achieved by the sum of the white noise filtered by the filter of the previous frame weighted by a linear downward slope, and the same white noise filtered by the noise filter of the current frame weighted by the slope. rising opposite to that of the filter of the previous frame.
- the energy of the noise will be added to the energy of the sum of the sines, according to the proposed method.
- the generation of a pulse differs from a signal without pulse; indeed, in the case of the generation of a pulse, the sum of the sines is not realized only on a part of the current frame to which is added the sum of the sines of the previous frame.
- the synthesis with the new frequency data (block 39) consists in carrying out the sum of the sinuses of the frequency components of the current frame; the variation of the length of the frame makes it possible to perform a variable speed synthesis; nevertheless the values of the frequencies at the beginning and at the end of the frame must be identical, whatever the length of the frame, for a given speed of synthesis.
- phase associated with the sinus a function of frequency, will be calculated by iteration; indeed for each iteration, one calculates the sine multiplied by the module; the result is then summed for each sample according to all the frequencies of the signal.
- Another method of synthesis is to carry out the inverse of the analysis by recreating the frequency domain from the cardinal sinus realized with the module, the frequency and the phase, and then realizing a fast inverse Fourier transform (TFR), followed by the product of the inverse of the HAMMING window to obtain the time domain of the signal.
- TFR fast inverse Fourier transform
- the phases at the origin of the frequency data are maintained at the value 0.
- the calculation of the sine sum is also performed on a portion preceding the frame and on the same portion following the frame; the parts at both ends of the frame will then be summed with those of the adjacent frames by linear weighting.
- the sum of the sines is made in the generation interval of the pulse; in order to avoid the creation of spurious pulses due to the discontinuities in the calculation of the sum of the sines, a certain number of samples situated at the beginning and at the end of the sequence are weighted respectively by a rising slope and a descending slope.
- the synthesis by the sum of the sines with the data of the previous frame (block 41) is performed when the current frame contains a pulse to be generated; indeed, in the case of music or noise, if the synthesis is not performed on the previous frame, serving as a background signal, the pulse will be generated on a silence, which is detrimental to a good quality of the sound. obtained result ; Moreover the continuity of the previous frame is inaudible, even in the presence of a progression of the signal.
- the application of the envelope on the synthesis signal (block 42) is performed from the sampled values of the envelope previously determined (block 2 of block A3); moreover, the connection between two successive frames is performed by the weighted sum, as indicated above; this Weighting by the increasing and decreasing curves is not done on the noise, because the noise is not juxtaposed between wefts.
- the length of the frame varies in steps in order to be homogeneous with the sampling of the envelope.
- the juxtaposition weighting between two frames is then performed (block 45) as indicated above.
- the backup of the raster edge (block 47) will be performed so that said raster edge can be added to the beginning of the next frame.
- the coding of the parameters (block A2) calculated in the analysis (block A1) in the method according to the invention consists in limiting the quantity of useful information in order to reproduce at the synthesis (block C3) after decoding (block C1) an auditory equivalent to the original audio signal.
- each coded frame has a number of bits of clean information; the audio signal being variable, more or less information will be coded.
- the coding of the parameters can be either linear, the number of bits being a function of the number of values, or of the HUFFMAN type, the number of bits being a statistical function of the value to be encoded (the more the data is frequent, the less it uses bits and vice versa).
- the type of signal as defined during the analysis (block 21 of block A1), provides the noise generation information and the quality of the coding to be used; the coding of the type of signal is carried out first (block 51).
- a test is then performed (block 52) allowing in the case of type 3 of the signal, as defined in block 21 of the analysis (block A1), not to perform coding parameters; the synthesis will include null samples.
- the encoding of the type of compression (block 53) is used in the case where the user wishes to act on the bit rate of the coding data, to the detriment of the quality; this option can be advantageous in telecommunication mode associated with a high compression ratio.
- the coding of the normalization value (block 54) of the signal of the analysis frame is of the HUFFMAN type.
- a test on the presence of pulse (block 55) is then performed, allowing in case of synthesis of a pulse, to code the parameters of said pulse.
- parameters of said pulse (block 56) will be performed on the beginning and the end of said pulse in the current frame.
- the coding of the doppler variation of the pitch (block 57) it will be done according to a logarithmic law, taking into account the sign of said variation; this coding will not be performed in the presence of a pulse or if the type of signal is unvoiced.
- a limitation of the number of frequencies to be coded (block 58) is then performed in order to prevent a high value frequency from exceeding the dynamic bounded by the sampling frequency, since the doppler variation of the pitch varies. the frequencies during the synthesis.
- the encoding of the sampling values of the envelope depends on the variation of the signal, the type of compression, the type of signal, the normalization value and the possible presence of pulse; said coding consists in coding the variations and the minimum value of said sampling values.
- the validation of the "pitch” is then coded (block 60), followed by a validation test (block 61) requiring, if so, to code the harmonic frequencies (block 62) according to their index with respect to the frequency of the "Pitch". As for the non-harmonic frequencies, they will be coded (block 63) according to their whole part.
- the coding of the harmonic frequencies (block 62) consists in logarithmic coding of the pitch, in order to obtain the same relative precision for each harmonic frequency; the coding of said harmonic indices is performed according to their presence or absence by packet of three indices according to the HUFFMAN coding.
- Frequencies that have not been detected as harmonic to the pitch frequency will be coded separately (block 63).
- a non-harmonic frequency changes position with respect to a harmonic frequency
- the non-harmonic frequency which is too close to the harmonic frequency is suppressed, knowing that it has less weight in the sense audible; thus the suppression takes place if the non-harmonic frequency is greater than the harmonic frequency and the fraction of the non-harmonic frequency due to the coding of the whole part, makes said non-harmonic frequency lower than the near harmonic frequency.
- the coding of non-harmonic frequencies (block 63) consists in coding the number of non-harmonic frequencies, then the integer part of the frequencies, then the fractional parts when the modules are coded; concerning the coding of the integer part of the frequencies, only the gaps between said integer parts are coded; moreover, the smaller the module, the lower the precision on the fractional part; this in order to decrease the bit rate.
- a maximum number of differences between two frequencies is defined.
- the coding of the dynamics of the modules uses a HUFFMAN law as a function of the number of ranges defining said dynamics and the type of signal.
- the signal energy is in the low frequencies; for the other types of signal, the energy is distributed uniformly in the frequency plane, with a decrease towards the high frequencies.
- the coding of the highest module (block 65) consists of coding, according to a HUFFMAN law, the integer part of said highest module taking into account the statistic of said highest module.
- the coding of the modules (block 66) is performed only if the number of modules to be coded is greater than 1, since otherwise it is the only module being the highest.
- the suppression of the inaudible signal eliminates the modules lower than the product of the module by the corresponding attenuation; thus a module is necessarily located in a zone of the module / frequency plane depending on the distance separating it from its two adjacent modules as a function of the frequency deviation of said modules adjacent.
- the value of the module is approximated relative to the preceding module as a function of the frequency difference and the corresponding attenuation which depends on the type of signal, the normalization value and the type of compression, said approximation of the value of the module is made with reference to a scale whose pitch varies according to a logarithmic law.
- the coding of the attenuation (block 67) provided by the sample input filter is performed, followed by the deletion of the normalization (block 68) which makes it possible to recalculate the highest module and the corresponding frequency.
- the coding of the frequency fractions of the non-harmonic frequencies completes the coding of the integer parts of said frequencies.
- the coding of the number of coding bytes (block 70) is carried out after the coding of the various parameters mentioned above, stored in a dedicated coding memory.
- the decoding phase of the parameters is represented by the block C1.
- Decoding being the inverse of the coding, the exploitation of the coding bits of the various parameters mentioned above will make it possible to recover the original values of the parameters, with possible approximations.
- the noise filtering and special effects generation phase from the analysis, without going through the synthesis is indicated by the block D.
- the noise filtering is performed from the voice parameters calculated in the analysis (block A1 of block A), taking the path IV indicated on the simplified flowchart of the method according to the invention.
- noise filtering is therefore to reduce all kinds of noise such as: ambient noise of car, engine, crowd, music, other voices if they are weaker than those to be kept, as well as as the computational noise of any vocoder (for example: ADPCM, GSM, G723).
- the majority of noises have their energy in the low frequencies; the fact of using the signal of the analysis previously filtered by the sample input filter makes it possible to reduce the very low frequency noise by the same amount.
- the noise filtering (block D) for a voiced signal consists of producing the sum for each sample, of the original signal, of the original signal shifted by a "pitch" in positive value and of the original signal shifted by a "pitch” in negative value. .
- the two offset signals are multiplied by the same coefficient, and the original signal is not shifted by a second coefficient; the sum of said first coefficient added to itself and said second coefficient is equal to 1, decreased so as to maintain an equivalent level of the resulting signal.
- the number of samples spaced from a temporal "pitch" is not limited to three samples; the more samples used for the noise filter, the more the filter reduces the noise.
- the number of three samples is adapted to the highest temporal pitch encountered in the voice and the filter delay.
- the lower the temporal "pitch" the more we can use samples shifted by a "pitch” to carry out the filtering; which amounts to keeping the bandwidth around a harmonic, almost constant; the higher the fundamental, the higher the attenuated bandwidth.
- the noise filtering does not concern signals in the form of pulses; it is therefore necessary to detect the presence of any pulses in the signal.
- the noise filtering (block D) for an unvoiced signal consists of attenuating said signal by a coefficient of less than 1.
- the sum of the three signals mentioned above is correlated; as for the noise contained in the original signal, the sum will attenuate its level.
- the noise filtering and special effects generation phase from the analysis, without going through the synthesis, may not include the calculation of the variation of the "pitch"; this makes it possible to obtain a hearing quality close to that previously obtained according to the aforementioned method; in this procedure, the functions defined by blocks 11, 12, 15, 16, 17, 18, 19, 25 and 28 are deleted.
- the "Transvoice” function consists in recreating the harmonic modules from the spectral envelope, the original harmonics are abandoned knowing that the non-harmonic frequencies are not modified; as such, said function “Transvoice” uses the function "Formant” which determines the formant.
- the transformation of the voice is done realistically because the formant is preserved; a coefficient of multiplication of the harmonic frequencies higher than 1 rejuvenates the voice, even the feminization; conversely, a coefficient of multiplication of the harmonic frequencies lower than 1 makes the voice more serious.
- the new amplitudes will be multiplied by the ratio of the sum of the input modules of said "Transvoice" function to the sum of the output modules.
- Said "Formant” function can be applied during the coding of the modules, the frequencies, the amplitude ranges and the frequency fractions, by performing the said coding only on the essential parameters of the formant, the "pitch" being validated.
- the frequencies and the modules are recalculated from the "pitch” and the spectral envelope, respectively.
- the bit rate is reduced; nevertheless, this approach is applicable only to the voice.
- this coefficient of multiplication is a function of the ratio between the new "pitch” and the real “pitch”
- the voice will be characterized by a fixed "pitch” and a variable formant; it will thus be transformed into a robot voice associated with a spatial effect.
- this multiplication coefficient varies periodically or randomly, at low frequency, the voice is aged associated with a very low frequency.
- a last solution is to perform a fixed rate coding.
- the type of signal is reduced to the voiced signal (type 0 and 2 with the validation of the "pitch” at 1), or to the noise (type 1 and 2 with the validation of the "pitch” at 0).
- Type 2 being for music, it is eliminated in this case, since this coding can only encode the voice.
- the pitch provides all the harmonics of the voice; their amplitudes are those of the formant.
- frequencies of the unvoiced signal frequencies are spaced apart from each other by an average value to which is added a random deviation; the amplitudes are those of the formant.
- the device may include all the elements mentioned above, in professional or semi professional version; some elements, such as the display, can be simplified in basic version.
- the device according to the invention can exploit the process of differentiated digital processing of voice and music, noise filtering and the creation of special effects.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Noise Elimination (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
Description
- La présente invention concerne un traitement numérique différencié de la voix et de la musique, le filtrage du bruit, la création d'effets spéciaux ainsi qu'un dispositif pour la mise en oeuvre dudit procédé.
- Elle a plus particulièrement pour objet de transformer la voix d'une façon réaliste ou originale et, d'une manière plus générale, de traiter en temps réel la voix, la musique, le bruit ambiant et d'enregistrer les résultats obtenus sur un support informatique.
- Elle s'applique notamment, mais non exclusivement, au grand public et aux professionnels du son qui souhaitent transformer la voix pour des applications ludiques, traiter différemment la voix et la musique, créer des effets spéciaux, réduire le bruit ambiant, et enregistrer, sous forme numérique compressée, les résultats obtenus.
- D'une façon générale, on sait que le signal vocal est composé d'un mélange de signaux transitoires très complexes (bruits) et de parties de signal quasipériodiques (sons harmoniques). Les bruits peuvent être de petites explosions : P, B, T, D, K, GU ; des bruits diffus doux : F, V, J, Z ou intenses CH, S ; quant aux sons harmoniques, leur spectre varie avec le type de voyelle et avec le locuteur.
- Les rapports d'intensité entre les bruits et les voyelles changent selon qu'il s'agit d'une voix conversationnelle, d'une voix parlée type conférence, d'une voix forte criée ou d'une voix chantée. La voix forte et la voix chantée favorisent les sons vocaliques au détriment des bruits.
- Le signal vocal transmet simultanément deux types de messages : un message sémantique convoyé par la parole, expression verbale de la pensée, et un message esthétique perceptible au travers des qualités esthétiques de la voix (timbre, intonation, débit, etc.).
- Le contenu sémantique de la parole, support d'une bonne intelligibilité est pratiquement indépendant des qualités de la voix ; il est véhiculé par les formes acoustiques temporelles ; une voix chuchotée n'est constituée que de bruits d'écoulement ; une voix « intime » ou de proximité est constituée d'un mélange de sons harmoniques dans les fréquences graves et de bruits d'écoulement dans l'aigu ; la voix d'un conférencier ou d'un chanteur possède un spectre vocalique harmonique riche et intense.
- Quant aux instruments de musique, ils sont caractérisés par leur tessiture, c'est-à-dire l'étendue en fréquence de toutes les notes qu'ils peuvent émettre. Néanmoins très peu d'instruments possèdent un « son harmonique », c'est-à-dire un fondamental intense accompagné d'harmoniques dont l'intensité décroît avec le rang.
- D'autre part, la tessiture musicale et le contenu spectral ne sont pas directement liés ; certains instruments ont les maxima d'énergie inclus dans la tessiture ; d'autres présentent une zone maximale d'énergie bien circonscrite, située à la limite aiguë de la tessiture et au-delà; d'autres enfin ont des maxima d'énergie très étalés qui débordent largement la limite aiguë de la tessiture.
- Par ailleurs, on sait que le traitement analogique de ces signaux complexes, par exemple leur amplification, provoque, d'une façon incontournable, une dégradation croissante au fur et à mesure dudit traitement et cela d'une manière irréversible.
- L'originalité des technologies numériques est d'introduire un déterminisme (c'est-à-dire une connaissance a priori) le plus important possible au niveau des signaux traités de manière à réaliser des traitements particuliers qui résideront sous forme de calculs.
- Ainsi, si l'on opère une transformation du signal représentatif d'un son, à l'origine sous sa forme naturelle de vibrations, en un signal numérique muni des propriétés évoquées précédemment, ce signal sera traité sans subir de dégradation telles que bruit de fond, distorsion et limitation de bande passante ; de plus, il pourra être traité afin de créer des effets spéciaux tels que la transformation de la voix, la suppression du bruit ambiant, la modification du souffle de la voix, la différentiation de la voix et de la musique.
- Bien entendu, la technologie audionumérique comprend les trois étapes principales:
- la conversion du signal analogique en un signal numérique,
- les traitements souhaités transposés en équations à résoudre,
- la conversion du signal numérique en signal analogique puisque le dernier maillon de la chaîne génère des vibrations acoustiques.
- D'une manière générale, on sait que les dispositifs de traitement du son, désignés sous le terme de vocodeur, comportent les quatre fonctions suivantes :
- l'analyse,
- le codeur,
- le décodeur,
- la synthèse.
- Le brevet
US 2002/184009 (HEIKKINEN Ari) du 5 décembre 2002 propose un procédé de suppression de la variation du pitch en déplaçant individuellement les impulsions du pitch de la trame d'analyse afin d'obtenir un pitch fixe. - Le brevet
WO 01/59766A - Le brevet
US 5 684 262 A décrit un procédé consistant à multiplier la voix originale par une tonalité afin d'obtenir un décalage fréquentiel et ainsi obtenir une voix plus grave ou plus aiguë. - Par ailleurs, les procédés de réduction de débit sont employés essentiellement pour le stockage numérique (dans le but de diminuer le volume binaire) et pour la transmission (dans le but de diminuer le débit nécessaire). Ces procédés comprennent un traitement préalable au stockage ou à la transmission (codage) et un traitement à la restitution (décodage).
- Parmi les procédés de réduction de débit, ceux utilisant les méthodes perceptuelles avec pertes d'information sont les plus employés et notamment le procédé MPEG Audio.
- Ce procédé repose sur l'effet de masque de l'audition humaine, c'est-à-dire la disparition des sons faibles en présence des sons forts, équivalent à un déplacement du seuil d'audition provoqué par le son le plus fort et fonction de l'écart de fréquence et de niveau entre les deux sons.
- Ainsi, le nombre de bits par échantillon est défini en fonction de l'effet de masque étant donné que les sons faibles et le bruit de quantification sont inaudibles. Afin de tirer le meilleur profit de cet effet de masque, le spectre audio est divisé en un certain nombre de sous-bandes, permettant ainsi de préciser le niveau de masque dans chacune des sous-bandes et de réaliser une allocation binaire pour chacune d'entre elles.
- Le procédé MPEG audio consiste ainsi à :
- numériser en 16 bits avec un échantillonnage à 48 kHz,
- déduire la courbe de masque entre 20 Hz et 20 kHz,
- diviser le signal en 32 sous bandes,
- évaluer le niveau maximal atteint dans chaque sous bande et durant 24 ms,
- évaluer le niveau de bruit de quantification juste inaudible,
- allouer le nombre de bits pour le codage,
- générer le nombre de bits dans la sous bande,
- encapsuler ces données en une trame de données qui se répète chaque 24 ms.
- Cette technique consiste à transmettre un débit binaire variable selon la composition instantanée du son.
- Néanmoins, ce procédé est plutôt adapté au traitement de la musique et non au signal vocal ; il ne permet pas de détecter la présence de la voix ou de la musique, de séparer le signal vocal ou musical et le bruit, de modifier la voix en temps réel pour synthétiser une voix différente mais réaliste, de synthétiser du souffle (bruit) pour créer des effets spéciaux, de coder un signal vocal comportant une seule voix, de réduire le bruit ambiant.
- L'invention a donc plus particulièrement pour but de supprimer ces inconvénients.
- Elle propose, à cet effet, un procédé permettant de tirer un meilleur parti des technologies audionumériques en effectuant préalablement au codage, une analyse du signal audio en considérant que tout signal sonore dans l'intervalle d'une trame est la somme de sinus d'amplitude fixe et dont la fréquence est modulée linéairement en fonction du temps, cette somme étant modulée temporellement par l'enveloppe du signal, le bruit étant rajouté à ce signal préalablement à ladite somme.
- Selon l'invention, ce procédé de transformation de la voix, de la musique et du bruit ambiant, est tel que défini dans la revendication 1.
- Un mode d'exécution de l'invention sera décrit ci-après; à titre d'exemple non limitatif, avec référence aux dessins annexés, dans lesquels :
- La
figure 1 est un organigramme simplifié du procédé selon l'invention ; - La
figure 2 est un organigramme de l'étape d'analyse ; - La
figure 3 est un organigramme de l'étape de synthèse ; - La
figure 4 est un organigramme de l'étape de codage ; et - La
figure 5 est un schéma synoptique d'un dispositif selon l'invention. - Dans cet exemple, le procédé de traitement numérique différencié de la voix et de la musique selon l'invention, représenté selon la
figure 1 , comprend les étapes suivantes : - analyse du signal vocal (bloc A1),
- codage des paramètres (bloc A2),
- sauvegarde des paramètres (bloc B),
- lecture des paramètres (bloc B'),
- décodage des paramètres (bloc C1),
- effets spéciaux (bloc C2),
- synthèse (bloc C3).
- Par ailleurs, l'analyse du signal vocal et le codage des paramètres constituent les deux fonctionnalités de l'analyseur (bloc A) ; de même, le décodage des paramètres, les effets spéciaux et la synthèse constituent les fonctionnalités du synthétiseur (bloc C).
- Ces différentes fonctionnalités seront décrites ci-après, notamment en ce qui concerne les différentes étapes constitutives des procédés d'analyse et de synthèse.
- D'une manière générale, le procédé de traitement numérique différencié de la voix et de la musique comprend essentiellement quatre configurations de traitement :
- la première configuration (trajet I) comprenant l'analyse, suivie du codage des paramètres, suivi de la sauvegarde et de la lecture des paramètres, suivie du décodage des paramètres, suivi des effets spéciaux, suivis de la synthèse,
- la seconde configuration (trajet II) comprenant l'analyse, suivie du codage des paramètres, suivi du décodage des paramètres, suivi des effets spéciaux, suivis de la synthèse,
- la troisième configuration (trajet III) comprenant l'analyse, suivie des effets spéciaux, suivis de la synthèse,
- la quatrième configuration (trajet IV) comprenant le filtre de bruit ou la génération d'effets spéciaux à partir de l'analyse, sans passer par la synthèse.
- Ces différentes possibilités sont offertes à l'appréciation de l'utilisateur du dispositif mettant en oeuvre le susdit procédé, lequel dispositif sera décrit ultérieurement.
- Dans cet exemple, la phase d'analyse du signal audio (bloc A1), représentée selon la
figure 2 , comprend les étapes suivantes : - mise en forme du signal d'entrée (bloc 1),
- calcul de l'enveloppe temporelle (bloc 2),
- détection d'interpolation temporelle (bloc 3),
- détection du signal audible (bloc 4),
- calcul de l'interpolation temporelle (bloc 5),
- calcul de la dynamique du signal (bloc 6),
- détection de trame inaudible après une trame d'énergie plus élevée (bloc 7),
- traitement d'impulsion (bloc 8),
- répétition de l'impulsion (bloc 9),
- calcul de la transformée rapide de Fourrier (TRF) sur impulsion répétée (bloc 10),
- calcul des paramètres du signal servant au prétraitement avant la TRF (bloc 11),
- prétraitement du signal temporel (bloc 12),
- calcul de la TRF sur signal traité (bloc 13),
- calcul du rapport signal à bruit (bloc 14),
- test de la variation doppler du «pitch» (bloc 15),
- calcul de la TRF sur signal non traité (bloc 16),
- calcul du rapport signal à bruit (bloc 17),
- comparaison des rapports signal à bruit avec et sans prétraitement (bloc 18),
- restitution du résultat de la TRF avec prétraitement (bloc 19),
- calcul des fréquences et modules (amplitudes des composantes fréquentielles (bloc 20),
- décision du type de signal (bloc 21),
- test du 50 ou 60 Hz (bloc 22),
- calcul de la dynamique des modules dans le domaine fréquentiel (bloc 23),
- suppression de l'interpolation sur les données fréquentielles (bloc 24),
- suppression du signal inaudible (bloc 25),
- calcul et validation du «pitch» (bloc 26),
- décision si filtrage de bruit ou effets spéciaux, ou continuation de l'analyse (bloc 27),
- atténuation éventuelle du bruit ambiant (bloc 28),
- fin du traitement de la trame (bloc 29).
L'exploitation de la transformée rapide de Fourrier (TRF) pour de la voix n'est pas envisageable étant donné la variabilité du signal fréquentiel ; en effet la variation des fréquences crée un étalement du résultat de ladite transformée rapide de Fourrier (TRF) ; l'élimination de cet étalement est rendu possible grâce au calcul de la variation du « pitch » et à l'application de la variation inverse dudit « pitch » sur le signal temporel. - Ainsi, l'analyse du signal vocal est effectuée essentiellement en quatre étapes :
- calcul de l'enveloppe du signal (bloc 2),
- calcul du «pitch» et de sa variation (bloc 12),
- application au signal temporel de la variation inverse du «pitch» (bloc 12),
- transformée rapide de Fourrier (TRF) sur le signal prétraité (bloc 13),
- élimination éventuelle du bruit ambiant avant codage (blocs 23 à 28).
- Par ailleurs, quatre seuils (blocs 4, 7, 8, 22) permettent de détecter respectivement la présence de signal inaudible, la présence de trame inaudible, la présence d'une impulsion, la présence de signal perturbateur secteur (50 Hz) ou 60 Hz).
- D'autre part, un cinquième seuil (bloc 15) permet d'effectuer la transformée rapide de Fourrier (TRF) sur le signal non traité en fonction des caractéristiques du «pitch» et de sa variation.
- Un sixième seuil (bloc 18) permet de restituer le résultat de la transformée rapide de Fourrier (TRF) avec prétraitement en fonction du rapport signal à bruit.
- Enfin, une décision est prise (bloc 27) si le filtrage du bruit ou les effets spéciaux sont effectués ; dans le cas contraire, on continue l'analyse (flèche IV).
- Deux trames sont exploitées dans le procédé d'analyse du signal audio, une trame dite «courante», de périodicité fixe, contenant un certain nombre d'échantillons correspondant au signal vocal, et une trame dite « d'analyse », dont le nombre d'échantillons est équivalent à celui de la trame courante ou le double, et pouvant être décalée, en fonction de l'interpolation temporelle, par rapport à la susdite trame courante.
- La mise en forme du signal d'entrée (bloc 1) consiste à effectuer un filtrage passe haut afin d'améliorer le codage futur des amplitudes fréquentielles en augmentant leur dynamique ; ledit filtrage passe haut augmente la dynamique d'amplitude fréquentielle en évitant qu'une fréquence basse audible n'occupe toute la dynamique et fasse disparaître des fréquences de faible amplitude mais néanmoins audibles. Le signal filtré est ensuite dirigé vers le bloc 2 pour la détermination de l'enveloppe temporelle.
- Le calcul de l'enveloppe temporelle (bloc 2) permet de définir :
- le type de signal, s'il s'agit d'une impulsion avec ou sans signal de fond (bruit ambiant ou musique),
- la position de la trame d'analyse de l'enveloppe du signal par rapport à la trame courante,
- l'énergie du signal temporel.
- Il est effectué par une recherche des maxima du signal, considérés comme la partie du «pitch» la plus élevée en valeur absolue.
- On calcule ensuite le décalage temporel à appliquer à la trame d'analyse en recherchant d'une part le maximum de l'enveloppe dans ladite trame puis d'autre part deux indices correspondant aux valeurs de l'enveloppe inférieures d'un certain pourcentage à la valeur du maximum.
- Si dans une trame d'analyse on trouve localement un écart entre deux échantillons supérieur à un pourcentage de la dynamique maximale de la trame et ce durant une durée limitée, on déclare qu'une impulsion brève est contenue dans la trame en forçant les indices de décalage temporels aux valeurs entourant l'impulsion additionnelle.
- La détection d'interpolation temporelle (bloc 3) permet de corriger les deux indices de décalage de la trame d'analyse trouvés dans le calcul précédent, et ce en prenant en compte le passé.
- Un premier seuil (bloc 4) détecte ou non la présence d'un signal audible en mesurant la valeur maximale de l'enveloppe; dans l'affirmative, l'analyse de la trame est terminée ; dans le cas contraire, le traitement continu.
- Un calcul est ensuite effectué (bloc 5) des paramètres associés au décalage temporel de la trame d'analyse en déterminant le paramètre d'interpolation des modules qui est égal au rapport de l'enveloppe maximale dans la trame courante à celle de la trame décalée.
- La dynamique du signal est ensuite calculée (bloc 6) pour sa normalisation afin de diminuer le bruit de calcul ; le gain de normalisation du signal est calculé à partir de l'échantillon le plus élevé en valeur absolue dans la trame d'analyse.
- Un second seuil (bloc 7) détecte ou non la présence d'une trame inaudible par effet de masque provoqué par les précédentes trames ; dans l'affirmative, l'analyse est terminée ; dans le cas contraire, le traitement continue.
- Un troisième seuil (bloc 8) détecte ensuite ou non la présence d'une impulsion ; dans l'affirmative, un traitement spécifique est effectué (blocs 9, 10) ; dans le cas contraire, les calculs des paramètres du signal (bloc 11) servant au prétraitement du signal temporel (bloc 12) seront effectués.
- En présence d'une impulsion, la répétition de l'impulsion (bloc 9) est effectuée en créant un « pitch » artificiel, égal à la durée de l'impulsion, de manière à éviter le masquage des fréquences utiles lors de la transformée rapide de Fourrier (TRF).
La transformée rapide de Fourrier (TRF) (bloc 10) est ensuite réalisée sur l'impulsion répétée en ne conservant que la valeur absolue du nombre complexe et non la phase ; le calcul des fréquences et des modules des données fréquentielles (bloc 20) est ensuite effectué. - En l'absence d'impulsion, le calcul des paramètres du signal (bloc 11) est effectué, lesquels paramètres concernent :
- le calcul du « pitch » et de sa variation,
- la définition du nombre d'échantillons dans la trame d'analyse.
- En fait, le calcul du « pitch » est effectué préalablement par une différentiation du signal de la trame d'analyse, suivi d'un filtrage passe bas des composantes de rang élevé, puis d'une élévation au cube du résultat dudit filtrage ; la valeur du « pitch » est déterminée par le calcul de la distance minimale entre une portion de signal d'énergie élevée avec la suite du signal subséquent, étant donné que la susdite distance minimale est la somme de la valeur absolue des différences entre les échantillons du gabarit et les échantillons à corréler ; ensuite, la partie principale d'un « pitch » centrée autour de une fois et demie la valeur du « pitch » est recherchée en début de trame d'analyse afin de calculer la distance de cette portion de « pitch » sur l'intégralité de la trame d'analyse ; ainsi, les distances minimales définissant les positions des « pitch » , le « pitch » étant la moyenne des « pitchs » détectés ; puis la variation du « pitch » est calculée à l'aide d'une droite qui minimise l'erreur quadratique moyenne des successions des « pitchs » détectés ; le « pitch » estimé en début et en fin de trame d'analyse en est déduit ; si le « pitch » temporel en fin de trame est supérieur à celui en début de trame, la variation du « pitch » est égale au rapport du « pitch » estimé de début de trame à celui de fin de trame, diminué de 1 ; inversement, si le « pitch » temporel en fin de trame est inférieur à celui en début de trame, la variation du « pitch » est égal à 1 diminué du rapport du « pitch » estimé en fin de trame à celui en début de trame.
- La variation du « pitch », trouvée et validée précédemment, sera soustraite du signal temporel dans le bloc 12 de prétraitement temporel, en n'utilisant que le premier ordre de ladite variation.
- La soustraction de la variation du « pitch » consiste à échantillonner la trame d'analyse sur-échantillonnée avec un pas d'échantillonnage variant avec la valeur inverse de ladite variation du « pitch ».
- Le sur-échantillonnage, dans un rapport deux, de la trame d'analyse est réalisé en multipliant le résultat de la transformée rapide de Fourrier (TFR) de la trame d'analyse par le facteur exp(-j*2*PI*k/(2*L_trame), de manière à ajouter un délai d'un demi échantillon au signal temporel servant au calcul de la transformée rapide de Fourrier ; la transformée rapide de Fourrier inverse est ensuite réalisée afin d'obtenir le signal temporel décalé d'un demi échantillon.
- Une trame de longueur double est ainsi réalisée en utilisant alternativement un échantillon de la trame originale avec un échantillon de la trame décalée d'un demi échantillon.
- Après élimination de la variation du « pitch », ledit « pitch » semble identique sur toute la fenêtre d'analyse, ce qui donnera un résultat de la transformée rapide de Fourrier (TRF) sans étalement de fréquences ; la transformée rapide de Fourrier (TRF) pourra être ensuite effectuée dans le bloc 13 afin de connaître le domaine fréquentiel de la trame d'analyse ; la méthode utilisée permet de calculer rapidement le module du nombre complexe au détriment de la phase du signal.
- Le calcul du rapport du signal à bruit est effectué sur la valeur absolue du résultat de la transformée rapide de Fourrier (TRF) ; le susdit rapport est en fait le rapport de la différence de l'énergie du signal et du bruit à la somme de l'énergie du signal et du bruit ; le numérateur du susdit rapport correspond au logarithme de l'écart entre deux pics d'énergie, respectivement du signal et du bruit, le pic d'énergie étant celui qui est soit supérieur aux quatre échantillons adjacents correspondant au signal harmonique, ou inférieur aux quatre échantillons adjacents correspondant au bruit ; le dénominateur est la somme des logarithmes de tous les pics du signal et du bruit ; par ailleurs, le calcul du rapport signal à bruit se fait par sous-bande, les sous-bandes les plus élevées, en terme de niveau, sont moyennées et donnent le rapport recherché.
- Le calcul du rapport de signal à bruit, défini comme étant le rapport signal moins le bruit à signal plus le bruit, effectué dans le bloc 14, permet de déterminer si le signal analysé est un signal voisé ou de la musique, cas d'un rapport élevé, ou du bruit, cas d'un rapport faible.
- Cette distinction est ensuite effectuée dans le bloc 15 ; en fait, des tests sont effectués sur la variation doppler du « pitch » et sur la fréquence du « pitch » ; si la variation du « pitch » est faible ou sa fréquence élevée, le traitement est immédiatement suivi par le calcul des fréquences et des modules des données fréquentielles de la transformée rapide de Fourrier (TRF) (bloc 20) ; dans le cas contraire, la transformée rapide de Fourrier (TRF) est effectuée sans prétraitement (bloc 16).
- Le calcul du rapport signal à bruit est ensuite effectué dans le bloc 17, de manière à transmettre au bloc 20 les résultats de la transformée rapide de Fourrier (TRF) sans prétraitement, cas d'une variation du « pitch » nulle, ou, dans le cas contraire à restituer les résultats de la transformée rapide de Fourrier (TRF) avec prétraitement (bloc 19).
- Cette distinction est effectuée dans le bloc 18, de la manière suivante :
- si le rapport signal à bruit sans prétraitement est supérieur au rapport signal à bruit avec prétraitement, les résultats de la transformée rapide de Fourrier (TRF) sont transférés au bloc 20,
- si le rapport signal à bruit sans prétraitement est inférieur au rapport signal à bruit avec traitement, la restitution des résultats de la transformée rapide de Fourrier (TRF) avec prétraitement étant effectuée dans le bloc 19, les résultats obtenus avec prétraitement sont ensuite transférés dans le bloc 20.
- Ce test permet de valider la variation du « pitch », qui pourrait être non nulle pour de la musique, alors que celle-ci doit effectivement être nulle.
- Le calcul des fréquences et des modules des données fréquentielles de la transformée rapide de Fourrier (TRF) est effectué dans le bloc 20.
- La transformée rapide de Fourrier (TRF), précédemment citée en référence aux blocs 10, 13, 16, est réalisée, à titre d'exemple, sur 256 échantillons dans le cas d'une trame décalée ou d'une impulsion, ou sur le double d'échantillons dans le cas d'une trame centrée sans impulsion.
- Une pondération des échantillons situés aux extrémités des prélèvements, dite de HAMMING, est effectué dans le cas de la transformée rapide de Fourrier (TRF) sur n échantillons ; sur 2n échantillons, on utilise la fenêtre de pondération de HAMMING multipliée par la racine carrée de la fenêtre de HAMMING.
- A partir des valeurs absolues des données complexes de la transformée rapide de Fourrier (TRF), on calcule le rapport entre deux valeurs maximales adjacentes, chacune représentant le produit de l'amplitude de la composante fréquentielle par un sinus cardinal ; par approximations successives, on compare ce rapport entre les valeurs maximales, à des valeurs contenues dans des tableaux contenant ce même rapport, pour N fréquences (par exemple 32 ou 64) réparties uniformément sur un demi échantillon de la transformée rapide de Fourrier (TRF). L'indice dudit tableau qui définit le rapport le plus proche de celui à comparer donne d'une part le module et d'autre part la fréquence pour chaque maximum de la valeur absolue de la transformée rapide de Fourrier (TRF).
- Par ailleurs, le calcul des fréquences et des modules des données fréquentielles de la transformée rapide de Fourrier (TRF), effectué dans le bloc 20, permet également de détecter un signal DTMF (multifréquence à double tonalité) en téléphonie.
- Il est à noter que le rapport signal à bruit est le critère essentiel qui définit le type de signal.
- Afin de déterminer l'énergie du bruit à générer à la synthèse et la précision du codage, le signal extrait du bloc 20 est catégorisé en quatre types dans le bloc 21, à savoir :
- type 0 : signal voisé ou musique.
Le « pitch » et sa variation peuvent être non nuls ; le bruit appliqué à la synthèse sera de faible énergie ; le codage des paramètres sera effectué avec la précision maximale. - type 1 : signal non voisé et éventuellement de la musique.
Le « pitch » et sa variation sont nuls ; le bruit appliqué à la synthèse sera de forte énergie ; le codage des paramètres sera effectué avec la précision minimale. - type 2 : signal voisé ou musique.
Le « pitch » et sa variation sont nuls ; le bruit appliqué à la synthèse sera de moyenne énergie ; le codage des paramètres sera effectué avec une précision intermédiaire. - type 3 : ce type de signal est décidé en fin d'analyse lorsque le signal à synthétiser est nul.
- Une détection de présence ou de non présence de signal perturbateur à 50 Hz (60 Hz) est effectuée dans le bloc 22 ; le niveau du seuil de détection est fonction du niveau du signal recherché de manière à éviter de confondre la perturbation électromagnétique (50, 60 Hz) et la fondamentale d'un instrument de musique.
- En présence du signal perturbateur recherché, l'analyse est terminée afin de diminuer le débit binaire : fin du traitement de la trame référencée par le bloc 29.
- Dans le cas contraire, en l'absence de signal perturbateur, on continue l'analyse.
- Un calcul de la dynamique des amplitudes des composantes fréquentielles, ou modules, est effectué dans le bloc 23 ; la susdite dynamique fréquentielle est utilisée pour le codage ainsi que pour la suppression des signaux inaudibles effectuée ultérieurement dans le bloc 25.
- Ainsi, le plan fréquentiel est subdivisé en plusieurs parties, chacune d'entre-elles possède plusieurs plages d'amplitude différenciées en fonction du type de signal détecté au niveau du bloc 21.
- D'autre part, l'interpolation temporelle et l'interpolation fréquentielle sont supprimées au niveau du bloc 24 ; celles-ci avaient été effectuées pour optimiser la qualité du signal.
- L'interpolation temporelle qui donne des modules plus élevés, sera retirée en multipliant chaque module par le paramètre de normalisation calculé au niveau du bloc 5.
- L'interpolation fréquentielle dépend de la variation du « pitch » ; celle-ci sera supprimée en fonction du décalage d'un certain nombre d'échantillons et du sens de la variation du « pitch ».
- La suppression du signal inaudible est effectuée ensuite dans le bloc 25. En effet, certaines fréquences sont inaudibles car masquées par d'autres signaux d'amplitude plus élevées.
- L'élimination de ces dites fréquences inaudibles permettra de diminuer le débit et aussi d'améliorer le calcul du «pitch» grâce à la suppression du bruit.
- Tout d'abord, on effectue une élimination des amplitudes situées en deçà de la limite inférieure de la plage d'amplitude, puis on éloigne les fréquences dont l'intervalle est inférieure à une unité fréquentielle, définie comme étant la fréquence d'échantillonnage par unité d'échantillon.
- Ensuite, on élimine les composantes inaudibles à l'aide d'un test entre l'amplitude de la composante fréquentielle à tester et l'amplitude des autres composantes adjacentes multipliée par un terme atténuateur fonction de la différence entre leur fréquence.
- Par ailleurs, on limite le nombre de composantes fréquentielles à une valeur au-delà de laquelle la différence sur le résultat obtenu n'est pas perceptible.
- Le calcul du « pitch » et la validation du « pitch » sont effectués au niveau du bloc 26 ; en effet le « pitch » calculé dans le bloc 11 sur le signal temporel a été déterminé dans le domaine temporel en présence de bruit ; le calcul du « pitch » dans le domaine fréquentiel permettra d'améliorer la précision du « pitch » et de détecter un « pitch » que le calcul sur le signal temporel, effectué dans le bloc 11, n'aurait pas déterminé à cause du bruit ambiant.
- Par ailleurs, le calcul du « pitch » sur le signal fréquentiel doit permettre de décider si celui-ci doit être utilisé au codage, sachant que l'utilisation du « pitch » au codage permet de diminuer fortement le codage et de rendre la voix plus naturelle à la synthèse ; il est par ailleurs utilisé par le filtre de bruit.
- Etant donné que les fréquences et les modules de la trame sont disponibles, le principe du calcul du « pitch » consiste à synthétiser le signal par une somme de cosinus ayant des phases à l'origine nulles ; ainsi la forme du signal original sera reconstitué sans les perturbations de l'enveloppe, des phases et de la variation du « pitch ».
- La valeur du «pitch» fréquentiel est définie par la valeur du « pitch » temporel laquelle est équivalente à la première valeur de synthèse présentant un maximum supérieur au produit d'un coefficient par la somme des modules utilisés pour la synthèse locale (somme des cosinus desdits modules) ; ce coefficient est égal au rapport de l'énergie du signal, considéré comme harmonique, à la somme de l'énergie du bruit et de l'énergie du signal ; le susdit coefficient est d'autant plus faible que le « pitch » à détecter est noyé dans le bruit ; à titre d'exemple, à un rapport signal à bruit de 0 décibel correspond un coefficient de 0,5.
- L'information de validation du « pitch » fréquentiel est obtenue à l'aide du rapport de l'échantillon de synthèse, à l'endroit du « pitch », à la somme des modules utilisés pour la synthèse locale ; ce rapport, synonyme d'énergie du signal harmonique sur l'énergie totale du signal, est corrigé en fonction du rapport approximatif signal à bruit calculé dans le bloc 14 ; l'information de validation du « pitch » dépend du dépassement du seuil de ce rapport.
- Afin d'éviter de valider un « pitch » sur du bruit ou de la musique, quand le seuil de détection du « pitch » est faible, un contrôlé de l'existence d'un « pitch » est effectué aux emplacements des multiples du « pitch » temporel dans la synthèse locale ; ainsi le « pitch » n'est pas valide si le niveau de la synthèse est trop faible pour être un « pitch » aux susdits emplacements des multiples du « pitch » temporel.
- La synthèse locale est calculée deux fois ; une première fois en n'utilisant que les fréquences dont le module est élevé, afin de s'affranchir du bruit pour le calcul du « pitch » ; une deuxième fois avec la totalité des modules limités en valeur maximale, afin de calculer le rapport signal à bruit qui validera le « pitch » ; en effet la limitation des modules donne plus de poids aux fréquences non harmoniques à module faible, afin de diminuer la probabilité de validation d'un « pitch » sur de la musique.
- Dans le cas du filtrage du bruit, les valeurs desdits modules ne sont pas limités pour la deuxième synthèse locale, seul le nombre de fréquences est limité en ne prenant en compte que celles qui ont un module significatif afin de limiter le bruit.
- Un second procédé de calcul du « pitch » consiste à sélectionner le « pitch » qui donne l'énergie maximale pour un pas d'échantillonnage de la synthèse égal au « pitch » recherché ; ce procédé est utilisé pour de la musique ou un milieu sonore comportant plusieurs voix.
- Préalablement à la dernière étape consistant à atténuer le bruit, une décision sera prise par l'utilisateur s'il souhaite réaliser le filtrage du bruit ou générer des effets spéciaux (bloc 27), à partir de l'analyse, sans passer par la synthèse.
- Dans le cas contraire, l'analyse se terminera par le traitement suivant consistant à atténuer le bruit, dans le bloc 28, en diminuant les composantes fréquentielles qui ne sont pas un multiple du « pitch » ; après atténuation desdites composantes fréquentielles, on effectuera à nouveau la suppression du signal inaudible, tel que décrit précédemment, au niveau du bloc 25.
- L'atténuation desdites composantes fréquentielles est fonction du type de signal tel que définit précédemment par le bloc 21.
- Après avoir effectué ladite atténuation du bruit, on peut considérer que le traitement de la trame est terminé ; l'aboutissement de ladite phase d'analyse est référencé par le bloc 29.
- En référence à la
figure 1 représentant un organigramme simplifié du procédé selon l'invention, dans cet exemple, la phase de synthèse du signal audio (bloc C3), représentée selon lafigure 3 , comprend les étapes suivantes : - mise en forme des modules (bloc 31),
- réduction du bruit (bloc 32),
- mise à niveau du signal (bloc 33),
- saturation des modules (bloc 34),
- modification des paramètres d'impulsion en fonction de la vitesse de la synthèse (bloc 35),
- calcul des phases (bloc 36),
- génération du souffle (bloc 37),
- décision concernant la génération d'une impulsion (bloc 38),
- synthèse avec les données fréquentielles de la trame courante (bloc 39),
- test concernant la trame précédente (bloc 40),
- synthèse avec les données fréquentielles de la trame précédente (bloc 41),
- application de l'enveloppe sur le signal de synthèse (bloc 42),
- décision concernant l'ajout d'une impulsion (bloc 43),
- synthèse avec les nouvelles données fréquentielles (bloc 44),
- connexion entre trames adjacentes (bloc 45),
- transfert du résultat de synthèse dans la trame d'échantillon (bloc 46),
- sauvegarde du bord de trame (bloc 47),
- fin de la synthèse (bloc 48).
La synthèse consiste à calculer les échantillons du signal audio à partir des paramètres calculés par l'analyse ; les phases et le bruit seront calculés artificiellement suivant le contexte. - La mise en forme des modules (bloc 31) consiste à éliminer l'atténuation du filtre d'entrée des échantillons de l'analyse (bloc 1 du bloc A1) et à tenir compte du sens de la variation du «pitch» car la synthèse est réalisée temporellement par un incrément de phase d'un sinus.
- Par ailleurs, l'information de validation du « pitch » est supprimée si l'option de synthèse de la musique est validée ; cette option améliore le calcul de phase des fréquences en évitant de synchroniser les phases des harmoniques entre elles en fonction du «pitch».
- La réduction du bruit (bloc 32) est effectuée si celle-ci n'a pas été préalablement effectuée durant l'analyse (bloc 28 du bloc A1).
- La mise à niveau du signal (bloc 33) supprime la normalisation des modules reçus de l'analyse ; cette mise à niveau consiste à multiplier les modules par l'inverse du gain de normalisation défini dans le calcul de la dynamique du signal (bloc 6 du bloc A1) et à multiplier lesdits modules par 4 afin d'éliminer l'effet de la fenêtre de HAMMING, et que seule la moitié du plan fréquentiel est utilisée.
- La saturation des modules (bloc 34) est effectuée si la somme des modules est supérieure à la dynamique du signal des échantillons de sortie ; elle consiste à multiplier les modules par le rapport dé la valeur maximale de la somme des modules à la somme des modules, au cas où ledit rapport est inférieur à 1.
- L'impulsion est re-générée en réalisant la somme de sinus dans la durée d'impulsion ; les paramètres d'impulsion sont modifiés (bloc 35) en fonction de la vitesse variable de synthèse.
- Le calcul des phases des fréquences est effectué ensuite (bloc 36) ; il a pour but de donner une continuité de phase entre les fréquences des trames ou de re-synchroniser les phases entre elles ; elle rend par ailleurs la voix plus naturelle.
- La synchronisation des phases est réalisée à chaque fois qu'un nouveau signal dans la trame courante semble séparé dans le domaine temporel ou dans le domaine fréquentiel de la trame précédente ; cette séparation correspond :
- au passage de signal bruité à un signal non bruité,
- à un début de mot (ou son) dont l'enveloppe en début de trame est faible,
- à une transition entre deux mots (ou son) sans variation de l'enveloppe,
- à un début de mot (ou son) qui a été détecté dans la trame précédente, mais dont la montée de l'enveloppe dans la trame courante est telle que la synchronisation doit être refaite pour que les phases soient calculées en fonction d'un « pitch » de meilleure qualité.
- La continuité de phase consiste à rechercher les fréquences de la trame courante en début de trame qui sont les plus proches des fréquences en fin de trame de la trame précédente ; ensuite la phase de chaque fréquence devient égale à celle de la fréquence précédente la plus proche, sachant que les fréquences en début de trame courante sont calculées à partir de la valeur centrale de la fréquence modifiée par la variation du « pitch ».
- En présence d'un « pitch », cas du signal voisé, les phases des harmoniques seront synchronisées sur celle du pitch en multipliant la phase du « pitch » par l'indice de l'harmonique du « pitch » ; quant à la continuité de phase, on calcule la phase du « pitch » en fin de trame en fonction de sa variation et de la phase à l'origine de la trame; cette phase servira pour le début de la trame suivante.
- Une seconde solution consiste à ne plus appliquer la variation du « pitch » sur le « pitch » pour connaître la nouvelle phase ; il suffit de reprendre la phase de la fin de la trame précédente du « pitch » ; par ailleurs, lors de la synthèse, la variation du « pitch » est appliquée sur l'interpolation de la synthèse réalisée sans variation du « pitch ».
- La génération du souffle est ensuite effectuée (bloc 37).
- Selon l'invention, on considère que tout signal sonore dans l'intervalle d'une trame est la somme de sinus d'amplitude fixe et dont la fréquence est modulée linéairement en fonction du temps, cette somme étant modulée temporellement par l'enveloppe du signal, le bruit étant rajouté à ce signal préalablement à ladite somme.
- Sans ce bruit, la voix est métallique car l'élimination des modules faibles, effectuée dans le bloc 25 du bloc A3, concerne essentiellement le souffle.
- Par ailleurs, l'estimation du rapport signal à bruit effectuée dans le bloc 14 du bloc A3, n'est pas exploitée ; on calcule en effet un bruit en fonction du type de signal, des modules et des fréquences.
- Le principe du calcul du bruit repose sur un filtrage d'un bruit blanc par un filtre transversal dont les coefficients sont calculés par la somme des sinus des fréquences du signal dont les amplitudes sont atténuées en fonction des valeurs de leur fréquence et de leur amplitude. Une fenêtre de HAMMING est ensuite appliquée sur les coefficients pour diminuer les lobes secondaires.
- Le bruit filtré est ensuite sauvegardé en deux parties distinctes.
- Une première partie permettra de faire le lien entre deux trames successives ; la connexion entre deux trames est réalisée par chevauchement de ces deux trames dont chacune est pondérée linéairement et en sens inverse ; ledit chevauchement est effectué lorsque le signal est sinusoïdal ; il ne s'applique pas quand il s'agit de bruit non corrélé ; ainsi la partie sauvegardée du bruit filtré est rajoutée sans pondération sur la zone de chevauchement. La seconde partie est destinée au corps principal de la trame.
- Le lien entre deux trames doit d'une part permettre un passage fluide entre deux filtres de bruit de deux trames successives, et d'autre part de prolonger le bruit de la trame suivante au-delà de la partie de chevauchement des trames si un début de mot (ou son) est détecté.
- Ainsi, le passage fluide entre deux trames est réalisé par la somme du bruit blanc filtré par le filtre de la trame précédente pondéré par une pente descendante linéaire, et le même bruit blanc filtré par le filtre de bruit de la trame courante pondéré par la pente montante inverse de celle du filtre de la trame précédente.
- L'énergie du bruit sera rajoutée à l'énergie de la somme des sinus, selon le procédé proposé.
- La génération d'une impulsion diffère d'un signal sans impulsion ; en effet, dans le cas de la génération d'une impulsion, la somme des sinus n'est réalisée que sur une partie de la trame courante à laquelle est rajoutée la somme des sinus de la trame précédente.
- Cette distinction nécessite de faire le choix (bloc 38) entre les deux options : une impulsion doit elle être générée ou non ? ; dans le cas où il n'y a pas de génération d'une impulsion , on effectue la synthèse avec les nouvelles données fréquentielles (bloc 39) ; dans le cas contraire, il s'agit de savoir si la trame précédente n'était pas une impulsion (bloc 40) ; dans ce cas on effectue la synthèse avec les données fréquentielles de la trame précédente (bloc 41) qui va servir de fond à l'impulsion (cas de la musique ou de bruit ambiant à répéter) ; dans le cas contraire, la trame précédente étant une impulsion, on ne répète pas le signal de fond avec les paramètres de l'impulsion précédente.
- La synthèse avec les nouvelles données fréquentielles (bloc 39) consiste à effectuer la somme des sinus des composantes fréquentielles de la trame courante ; la variation de la longueur de la trame permet d'effectuer une synthèse à vitesse variable ; néanmoins les valeurs des fréquences en début et en fin de trame doivent être identiques, quelque soit la longueur de la trame, pour une vitesse donnée de synthèse.
- La phase associée au sinus, fonction de la fréquence, sera calculée par itération ; en effet pour chaque itération, on calcule le sinus multiplié par le module ; le résultat est ensuite sommé pour chaque échantillon suivant toutes les fréquences du signal.
- Une autre méthode de synthèse consiste à réaliser l'inverse de l'analyse en recréant le domaine fréquentiel à partir du sinus cardinal réalisé avec le module, la fréquence et la phase, et ensuite en réalisant une transformée rapide de Fourier (TFR) inverse, suivie par le produit de l'inverse de la fenêtre de HAMMING pour obtenir le domaine temporel du signal.
- Dans le cas où le « pitch » varie, l'inverse de l'analyse est à nouveau effectué en rajoutant la variation du « pitch » à la trame temporelle sur-échantillonnée.
- Dans le cas d'une impulsion, il suffit d'appliquer au signal temporel, une fenêtre à 1 durant l'impulsion, et à 0, en dehors de celle-ci.
- Dans le cas d'une impulsion à générer, les phases à l'origine des données fréquentielles sont maintenues à la valeur 0.
- Afin de réaliser une connexion fluide entre les trames, le calcul de la somme des sinus est également effectué sur une portion précédant la trame et sur une même portion suivant la trame ; les parties aux deux bouts de la trame seront ensuite sommées avec celles des trames adjacentes par pondération linéaire.
- Dans le cas d'une impulsion, la somme des sinus est effectuée dans l'intervalle de temps de génération de l'impulsion ; afin d'éviter la création d'impulsions parasites suite aux discontinuités dans le calcul de la somme des sinus, un certain nombre d'échantillons situés au début et à la fin de la séquence sont pondérés respectivement par une pente montante et une pente descendante.
- Quant au cas des fréquences harmoniques du « pitch », les phases ont été calculées précédemment pour être synchronisées, elles seront générées à partir de l'indice de l'harmonique correspondant.
- La synthèse par la somme des sinus avec les données de la trame précédente (bloc 41) est effectuée lorsque la trame courante contient une impulsion à générer ; en effet, dans le cas de la musique ou de bruit, si la synthèse n'est pas effectuée sur la trame précédente, servant de signal de fond, l'impulsion sera générée sur un silence, ce qui est préjudiciable à une bonne qualité du résultat obtenu ; par ailleurs la continuité de la trame précédente est inaudible, même en présence d'une progression du signal.
- L'application de l'enveloppe sur le signal de synthèse (bloc 42) est effectuée à partir des valeurs échantillonnées de l'enveloppe précédemment déterminées (bloc 2 du bloc A3) ; par ailleurs la connexion entre deux trames successives est réalisée par la somme pondérée, comme indiqué précédemment ; cette pondération par les courbes croissante et décroissante n'est pas effectuée sur le bruit, car le bruit n'est pas juxtaposé entre trame.
- Enfin, dans le cas de la synthèse à vitesse variable, la longueur de la trame varie par pas afin d'être homogène avec l'échantillonnage de l'enveloppe.
- Le rajout d'une impulsion par la somme de sinus dans l'intervalle ou a été détectée l'impulsion, est effectué (bloc 44) en fonction du test réalisé précédemment (bloc 43).
- La pondération de juxtaposition entre deux trames est ensuite effectuée (bloc 45) comme indiqué précédemment.
- Le transfert du résultat de synthèse (bloc 46) sera ensuite effectué dans la trame de sortie d'échantillon afin que ledit résultat soit sauvegardé.
- De même, la sauvegarde du bord de trame (bloc 47) sera effectuée afin que ledit bord de trame puisse être additionné au début de la trame suivante.
- L'aboutissement de ladite phase de synthèse est référencée par le bloc 48.
- En référence à la
figure 1 représentant un organigramme simplifié du procédé selon l'invention, dans cet exemple, la phase de codage des paramètres (bloc A2), représentée selon lafigure 4 , comprend les étapes suivantes : - codage du type de signal (bloc 51),
- test sur le type de signal (bloc 52),
- codage du type de compression (bloc 53),
- codage de la valeur de normalisation du signal de trame (bloc 54),
- test sur la présence d'impulsion (bloc 55),
- codage des paramètres d'impulsion (bloc 56),
- codage de la variation du « pitch » (bloc 57),
- limitation du nombre de fréquences à coder (bloc 58),
- codage des valeurs d'échantillonnage de l'enveloppe (bloc 59),
- codage de la validation du « pitch » (bloc 60),
- test de validation du « pitch » (bloc 61),
- codage des harmoniques (bloc 62),
- codage des fréquences non harmoniques (bloc 63),
- codage de la dynamique des modules (bloc 64),
- codage du module le plus élevé (bloc 65),
- codage des modules (bloc 66),
- codage de l'atténuation (bloc 67),
- suppression de la normalisation des modules (bloc 68),
- codage des fractions fréquentielles des fréquences non harmoniques (bloc 69),
- codage du nombre d'octets de codage (bloc 70),
- fin de codage (bloc 71).
- Le codage des paramètres (bloc A2) calculés dans l'analyse (bloc A1) dans le procédé selon l'invention, consiste à limiter la quantité d'informations utiles afin de reproduire à la synthèse (bloc C3) après décodage (bloc C1) un équivalent auditif au signal audio d'origine.
- Le codage étant de longueur variable, chaque trame codée a un nombre de bits d'information propre ; le signal audio étant variable, plus ou moins d'informations seront à coder.
- Les paramètres de codage étant interdépendants, un paramètre codé influencera le type de codage des paramètres suivants.
- Par ailleurs, le codage des paramètres peut être soit linéaire, le nombre de bits étant fonction du nombre de valeurs, soit de type HUFFMAN, le nombre de bits étant fonction statistique de la valeur à coder (plus la donnée est fréquente, moins elle utilise de bits et réciproquement).
- Le type de signal, tel que défini lors de l'analyse (bloc 21 du bloc A1), fournit l'information de génération du bruit et la qualité du codage à utiliser ; le codage du type de signal est effectué en premier lieu (bloc 51).
- Un test est ensuite effectué (bloc 52) permettant dans le cas du type 3 du signal, tel que défini dans le bloc 21 de l'analyse (bloc A1), de ne pas effectuer de codage des paramètres ; la synthèse comportera des échantillons nuls.
- Le codage du type de compression (bloc 53) est utilisé dans le cas où l'utilisateur souhaite agir sur le débit des données de codage, au détriment de la qualité ; cette option peut être avantageuse en mode télécommunication associé à un taux de compression élevé.
- Le codage de la valeur de normalisation (bloc 54) du signal de la trame d'analyse est de type HUFFMAN.
- Un test sur la présence d'impulsion (bloc 55) est ensuite effectué, permettant en cas de synthèse d'une impulsion, de coder les paramètres de ladite impulsion.
- En cas de présence d'une impulsion, le codage, suivant une loi linéaire, des paramètres de ladite impulsion (bloc 56) sera effectué sur le début et la fin de ladite impulsion dans la trame courante.
- Quant au codage de la variation doppler du « pitch » (bloc 57), il sera effectué suivant une loi logarithmique, en tenant compte du signe de la dite variation ; ce codage ne sera pas effectué en présence d'une impulsion ou si le type de signal est non voisé.
- Une limitation du nombre de fréquences à coder (bloc 58) est ensuite effectuée afin d'éviter qu'une fréquence de valeur haute ne dépasse la dynamique bornée par la fréquence d'échantillonnage, étant donné que la variation doppler du « pitch » fait varier les fréquences durant la synthèse.
- Le codage des valeurs d'échantillonnage de l'enveloppe (bloc 59) dépend de la variation du signal, du type de compression, du type de signal, de la valeur de normalisation et de l'éventuelle présence d'impulsion ; ledit codage consiste à coder les variations et la valeur minimale desdites valeurs d'échantillonnage.
- La validation du « pitch » est ensuite codée (bloc 60), suivi d'un test de validation (bloc 61) nécessitant, dans l'affirmative, de coder les fréquences harmoniques (bloc 62) suivant leur indice par rapport à la fréquence du « pitch ». Quant aux fréquences non harmoniques, elles seront codées (bloc 63) suivant leur partie entière.
- Le codage des fréquences harmoniques (bloc 62) consiste à effectuer un codage logarithmique du pitch, afin d'obtenir la même précision relative pour chaque fréquence harmonique ; le codage desdits indices des harmoniques est effectué en fonction de leur présence ou de leur absence par paquet de trois indices selon le codage d'HUFFMAN.
- Les fréquences qui n'ont pas été détectées comme étant harmoniques de la fréquence du « pitch » seront codées séparément (bloc 63).
- Afin d'éviter qu'au moment du codage, une fréquence non harmonique change de position par rapport à une fréquence harmonique, on supprime la fréquence non harmonique qui est trop proche de la fréquence harmonique, sachant qu'elle a moins de poids au sens audible ; ainsi la suppression a lieu si la fréquence non harmonique est supérieure à la fréquence harmonique et que la fraction de la fréquence non harmonique due au codage de la partie entière, rend ladite fréquence non harmonique inférieure à la fréquence harmonique proche.
- Le codage des fréquences non harmoniques (bloc 63) consiste à coder le nombre de fréquences non harmoniques, puis la partie entière des fréquences, puis les parties fractionnaires quand les modules seront codés ; concernant le codage de la partie entière des fréquences, seuls les écarts entre lesdites parties entières sont codés ; par ailleurs, plus le module est faible et plus la précision sur la partie fractionnaire est faible ; ceci afin de diminuer le débit binaire. Afin d'optimiser le codage en terme de débit de la partie entière en fonction de la statistique des écarts de fréquence, on définit un certain nombre d'écarts maximal entre deux fréquences.
- Le codage de la dynamique des modules (bloc 64) utilise une loi de HUFFMAN en fonction du nombre de plages définissant ladite dynamique et du type de signal. Dans le cas d'un signal voisé, l'énergie du signal se situe dans les basses fréquences ; pour les autres types de signal, l'énergie est répartie uniformément dans le plan fréquentiel, avec une baisse vers les hautes fréquences.
- Le codage du module le plus élevé (bloc 65) consiste à coder, suivant une loi de HUFFMAN, la partie entière dudit module le plus élevé en tenant compte de la statistique dudit module le plus élevé.
- Le codage des modules (bloc 66) n'est réalisé que si le nombre de module à coder est supérieur à 1, étant donné que dans le cas contraire, il est seul en étant le module le plus élevé.
- Lors de l'analyse (bloc A1), la suppression du signal inaudible (bloc 25 du bloc A1) élimine les modules inférieurs au produit du module par l'atténuation correspondante ; ainsi un module se situe obligatoirement dans une zone du plan module/fréquence dépendant de la distance qui le sépare de ses deux modules adjacents en fonction de l'écart de fréquence desdits modules adjacents. Ainsi la valeur du module est approximée relativement au module précédent en fonction de l'écart de fréquence et de l'atténuation correspondante qui dépend du type de signal, de la valeur de normalisation et du type de compression ladite approximation de la valeur du module est effectuée en référence à une échelle dont le pas varie suivant une loi logarithmique.
- Le codage de l'atténuation (bloc 67) apportée par le filtre d'entrée des échantillons est effectué, puis est suivi de la suppression de la normalisation (bloc 68) qui permet de recalculer le module le plus élevé ainsi que la fréquence correspondante.
- Le codage des fractions fréquentielles des fréquences non harmoniques (bloc 69) complète le codage des parties entières desdites fréquences.
- La précision du codage va dépendre :
- de la fréquence : plus la fréquence est faible, plus la précision sera élevée de manière à ce que le rapport erreur de codage sur fréquence soit faible,
- du type de signal,
- du type de compression,
- de la valeur de normalisation du signal : plus l'intensité du signal est élevée, plus le codage est précis.
- Enfin, le codage du nombre d'octets de codage (bloc 70) est effectué à l'issue du codage des différents paramètres susmentionnés, mémorisés dans une mémoire de codage dédiée.
- L'aboutissement de ladite phase de codage est référencé par le bloc 71.
- En référence à la
figure 1 représentant un organigramme simplifié du procédé selon l'invention, dans cet exemple, la phase de décodage des paramètres est représentée par le bloc C1.
Le décodage étant l'inverse du codage, l'exploitation des bits de codage des différents paramètres susmentionnés permettra de retrouver les valeurs d'origine des paramètres, avec d'éventuelles approximations. - En référence à la
figure 1 représentant un organigramme simplifié du procédé selon l'invention, dans cet exemple, la phase de filtrage du bruit et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse est indiquée par le bloc D. - Le filtrage du bruit est effectué à partir des paramètres de la voix calculés dans l'analyse (bloc A1 du bloc A), empruntant le trajet IV indiqué sur ledit organigramme simplifié du procédé selon l'invention.
- Il s'avère que les algorithmes connus de l'état de l'art réalisent une annulation du bruit à partir des propriétés statistiques du signal ; le bruit doit être par conséquent stationnaire statistiquement ; cette démarche n'autorise donc pas la présence de bruit sous forme harmonique (voix, musique).
- L'objectif du filtrage du bruit est par conséquent de réduire toutes sortes de bruit tel que : bruit ambiant de voiture, de moteur, de foule, de musique, d'autres voix si celles-ci sont plus faibles que celles à conserver, ainsi que les bruits de calcul de tout vocodeur (à titre d'exemple : ADPCM, GSM, G723).
- Par ailleurs, la majorité des bruits ont leur énergie dans les basses fréquences ; le fait d'utiliser le signal de l'analyse préalablement filtré par le filtre d'entrée des échantillons permet de diminuer d'autant le bruit très basse fréquence.
- Le filtrage du bruit (bloc D) pour un signal voisé consiste à réaliser la somme pour chaque échantillon, du signal original, du signal original décalé de un « pitch » en valeur positive et du signal original décalé de un « pitch » en valeur négative. Ceci nécessite de connaître pour chaque échantillon, la valeur du « pitch » et de sa variation. Avantageusement les deux signaux décalés sont multipliés par un même coefficient, et le signal original non décalé par un second coefficient ; la somme dudit premier coefficient rajouté à lui-même et dudit second coefficient est égale à 1, diminué de manière à conserver un niveau équivalent du signal résultant.
- Le nombre d'échantillons espacés d'un « pitch » temporel ne se limite pas à trois échantillons ; plus il y a d'échantillons utilisés pour le filtre de bruit, et plus le filtre diminue le bruit.
- Le nombre de trois échantillons est adapté au « pitch » temporel le plus élevé rencontré dans de la voix et au retard de filtrage. Afin de garder un retard de filtrage fixe, plus le « pitch » temporel est faible, plus on peut utiliser d'échantillons décalés d'un « pitch » pour réaliser le filtrage ; ce qui revient à garder la bande passante autour d'un harmonique, à peu près constante ; plus la fondamentale est élevée et plus la largeur de bande atténuée est élevée.
- Par ailleurs, le filtrage du bruit ne concerne pas les signaux sous forme d'impulsion ; il est donc nécessaire de détecter la présence d'éventuelles impulsions dans le signal.
- Le filtrage du bruit (bloc D) pour un signal non voisé consiste à atténuer ledit signal par un coefficient inférieure à 1.
- Dans le domaine temporel, la somme des trois signaux sus mentionnés est corrélée ; quant au bruit contenu dans le signal original, la somme atténuera son niveau.
- Ainsi, il est nécessaire de connaître avec exactitude la variation du « pitch », c'est-à-dire la valeur temporelle du «pitch», approximée en valeur linéaire, sachant qu'elle fait intervenir un terme du second ordre ; l'amélioration de la précision des deux susdits décalages, positif et négatif, est obtenue grâce à l'utilisation de la corrélation par la distance en début, milieu et fin de trame ; cette démarche a été décrite au cours de l'étape "calcul des paramètres du signal" (bloc 11 du bloc A1).
- Avantageusement, le filtrage de bruit, décrit précédemment, permet de générer des effets spéciaux ; ladite génération d'effets spéciaux permet d'obtenir :
- une féminisation de la voix, en divisant la valeur temporelle du « pitch » par deux, pour certaines valeurs des amplitudes du signal original et des signaux originaux décalés ; ceci multiplie artificiellement la fréquence du « pitch » de la voix par deux en supprimant les harmoniques impaires ;
- une voix artificielle et étrange, en divisant la valeur temporelle du « pitch » par deux, pour d'autres valeurs des amplitudes du signal original et des signaux originaux décalés ; ceci permet de ne garder que les harmoniques impaires ;
- deux voix différentes, en divisant la valeur temporelle du « pitch » par deux, pour différentes valeurs des amplitudes du signal original et des signaux originaux décalés ; ceci permet d'atténuer les harmoniques impaires.
- Enfin, une autre démarche, semblable à celle décrite précédemment permettant le filtrage du bruit, pourra être appliquée, non pas pour filtrer le bruit, mais pour diviser par deux ou par trois la fondamentale de la voix et ce, sans modification du formant (enveloppe spectrale) de ladite voix.
- Le principe de ladite démarche consiste :
- à multiplier chaque échantillon de la voix originale par un cosinus variant au rythme de la moitié de la fondamentale (multiplication par deux du nombre de fréquences), ou variant au rythme du tiers de la fondamentale (multiplication par trois du nombre de fréquences),
- puis à additionner le résultat obtenu à la voix originale.
- Par ailleurs, la phase de filtrage du bruit et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, peut ne pas inclure le calcul de la variation du « pitch » ; ceci permet d'obtenir une qualité auditive voisine de celle précédemment obtenue selon le procédé susmentionné ; dans ce mode opératoire, les fonctions définies par les blocs 11, 12, 15, 16, 17, 18, 19, 25 et 28 sont supprimées.
- En référence à la
figure 1 représentant un organigramme simplifié du procédé selon l'invention, dans cet exemple, la phase de génération d'effets spéciaux, associée à la synthèse (bloc C3) est indiquée par le bloc C2 du bloc C. - La dite phase de génération d'effets spéciaux, associée à la synthèse, permet de transformer la voix Ou la musique :
- soit en modifiant selon certaines lois, les paramètres décodés issus du bloc C1 (trajet II),
- soit en traitant directement les résultats de l'analyse issus du bloc A1 (trajet III).
- Les paramètres modifiés sont :
- le « pitch »,
- la variation du « pitch »,
- la validation du « pitch »,
- le nombre de composantes fréquentielles,
- les fréquences,
- les modules,
- les indices.
Les fréquences étant distinctes entre elles, leur transformation permet de rajeunir la voix, de la vieillir, de la féminiser ou inversement, de la transformer en une voix artificielle. Ainsi la transformation des modules autorise toute sorte de filtrages et permet en outre de conserver la voix naturelle en gardant le formant (enveloppe spectrale). - A titre d'exemples, trois types de transformation de la voix seront décrits ci-après, chacun étant référencé sous une appellation qui lui est propre, à savoir :
- la fonction "Transform" modifiant la voix de façon artificielle et permettant de créer un effet de chorale,
- la fonction "Transvoice" modifiant la voix de façon réaliste,
- la fonction "Formant" associée à la fonction"Transvoice".
- La fonction "Transform" consiste à multiplier toutes les fréquences des composantes fréquentielles par un coefficient. Les modifications de la voix sont fonction de la valeur de ce coefficient, à savoir :
- une valeur supérieure à 1 transforme la voix en voix de canard,
- une valeur faiblement supérieure à 1 rajeunit la voix,
- une valeur inférieure à 1 rend la voix plus grave.
En effet, ce rendu artificiel de la voix est dû au fait que les modules des composantes fréquentielles sont inchangés et que l'enveloppe spectrale est déformée.
Par ailleurs, en synthétisant plusieurs fois les mêmes paramètres, modifiés par ladite fonction "Transform" avec un coefficient différent, on réalise un effet de chorale en donnant l'impression que plusieurs voix sont présentes. - La fonction "Transvoice" consiste à recréer les modules des harmoniques à partir de l'enveloppe spectrale, les harmoniques originaux sont abandonnés sachant que les fréquences non harmoniques ne sont pas modifiées ; à ce titre, ladite fonction "Transvoice" fait appel à la fonction "Formant" qui détermine le formant.
- Ainsi, la transformation de la voix est effectuée de façon réaliste car le formant est conservé ; un coefficient de multiplication des fréquences harmoniques supérieure à 1 rajeunit la voix, voire la féminise; réciproquement, un coefficient de multiplication des fréquences harmoniques inférieure à 1 rend la voix plus grave.
- Par ailleurs, afin de conserver un niveau sonore constant, indépendamment de la valeur du coefficient de multiplication, les nouvelles amplitudes seront multipliées par le rapport de la somme des modules en entrée de ladite fonction "Transvoice" à la somme des modules en sortie.
- La fonction "Formant" consiste à déterminer l'enveloppe spectrale du signal fréquentiel ; elle est exploitée pour garder les modules des composantes fréquentielles constants quand les fréquences sont modifiées. La détermination de l'enveloppe est effectuée en deux étapes, à savoir :
- un filtrage des modules placés dans l'enveloppe,
- une interpolation logarithmique de l'enveloppe entre deux modules d'un harmonique.
- Ladite fonction "Formant" peut être appliquée lors du codage des modules, des fréquences, des plages d'amplitudes et des fractions de fréquences, en n'effectuant le dit codage que sur les paramètres essentiels du formant, le « pitch » étant validé. Dans ce cas, lors du décodage, les fréquences et les modules sont recalculés à partir respectivement du « pitch » et de l'enveloppe spectrale. Ainsi le débit binaire est réduit ; néanmoins, cette démarche n'est applicable qu'à la voix.
- Les dites fonctions "Transform" et "Transvoice", décrites précédemment font intervenir un coefficient de multiplication des fréquences constant. Cette transformation peut être non linéaire et permettre de rendre la voix artificielle.
- En effet, si ce coefficient de multiplication est fonction du rapport entre le nouveau « pitch » et le « pitch » réel, la voix sera caractérisée par un « pitch » fixe et un formant variable ; elle sera ainsi transformée en voix de robot associée à un effet spatial.
- Si ce coefficient de multiplication varie périodiquement ou aléatoirement, à basse fréquence, la voix est vieillie associée à un effet hilarant.
- Ces différentes transformations de la voix, obtenues à partir d'une modification, constante ou variable dans le temps, des fréquences, ladite modification étant effectuée sur chacune des fréquences prises séparément, sont données à titre d'exemples.
- Une dernière solution consiste à effectuer un codage à débit fixe. Le type de signal est ramené à du signal voisé (type 0 et 2 avec la validation du « pitch » à 1), ou à du bruit (type 1 et 2 avec la validation du « pitch » à 0). Le type 2 étant pour la musique, il est éliminé dans ce cas, puisque ce codage ne peut coder que de la voix.
- Le codage à débit fixe consiste à :
- coder le type de signal, l'information de la présence d'impulsion, et la validation du « pitch » en codage de HUFFMAN,
- coder l'emplacement de l'impulsion dans la trame si on n'est pas en présence d'une impulsion, sinon coder les parties d'enveloppe temporelle en faisant appel à une table de codage représentant les enveloppes les plus couramment rencontrées,
- coder le «pitch» en loi logarithmique sur sa valeur ou la différence entre le « pitch » codé de la trame précédente et celui de la trame courante ; à noter que le codage différentiel permet d'utiliser moins de bits de codage,
- coder la variation du « pitch », n'étant pas en présence d'une impulsion, seulement si la valeur calculée dans l'analyse est éloignée d'un certain pourcentage de la variation du « pitch » calculée à partir des « pitchs » de la trame précédente et de la trame courante ; de même, la variation du « pitch » n'est pas codée, si la valeur absolue de l'écart entre ces deux variations est inférieure à une valeur maximale,
- coder le formant différentiel sur 2 bits pour les fréquences basses, et sur 1 bit pour les autres fréquences, le premier formant n'étant pas codé en différentiel. A noter que plus il y a d'échantillons de formant à coder, meilleure est la qualité auditive du codeur à débit fixe, et plus la différence de codage entre deux échantillons adjacents est faible.
- Le décodage étant l'inverse du codage, le « pitch » fournit tous les harmoniques de la voix ; leurs amplitudes sont celles du formant. Quant aux fréquences du signal non voisé, on calcule des fréquences espacées entre elles par une valeur moyenne à laquelle est rajouté un écart aléatoire ; les amplitudes sont celles du formant.
- Le processus de synthèse, décrit précédemment, est identique à celui décrit pour un décodeur à débit variable.
- Afin de permettre la mise en oeuvre du procédé selon l'invention, un dispositif sera décrit ci-après, avec référence à la
figure 5 . - Le dispositif, selon l'invention, comprend essentiellement :
- un calculateur 71, de type DSP, permettant d'effectuer le traitement numérique des signaux,
- un clavier 72 permettant de sélectionner les menus de traitement de la voix,
- une mémoire morte 73, de type EEPROM, contenant le logiciel de traitement de la voix,
- une mémoire vive 74, de type flash ou «memory stick», contenant les enregistrements de la voix traitée,
- un afficheur 75, de type LCD, associé au clavier 72, indiquant les différents menus de traitement de la voix,
- un codeur/décodeur 76, de type codec, assurant les liaisons entrée/sortie des périphériques audio,
- un micro 77, de type électret,
- un haut-parleur 78,
- une batterie 79,
- une liaison entrée/sortie 80, permettant le transfert des enregistrements numériques et les mises à jour du logiciel de traitement de la voix.
- Par ailleurs, le dispositif pourra comporter :
- un connecteur téléphonique permettant au dispositif selon l'invention de se substituer à un combiné téléphonique,
- un connecteur de téléphonie mobile,
- une sortie casque, permettant l'écoute des enregistrements,
- une sortie chaîne hi fi, permettant la fonction karaoké,
- un connecteur d'alimentation externe.
- D'une manière plus précise, le dispositif pourra comporter :
- des moyens d'analyse permettant de déterminer des paramètres représentatifs dudit signal sonore, les susdits moyens d'analyse comprenant :
- des moyens de calcul de l'enveloppe du signal,
- des moyens de calcul du «pitch« et de sa variation,
- des moyens d'application au signal temporel de la variation inverse du «pitch»,
- des moyens de transformée rapide de Fourrier (TRF) sur le signal prétraité,
- des moyens d'extraction des composantes fréquentielles et leurs amplitudes dudit signal, à partir du résultat de la transformée rapide de Fourrier,
- des moyens d'élimination éventuelle du bruit ambiant par filtrage sélectif avant codage,
- des moyens de synthèse desdits paramètres représentatifs permettant de reconstituer ledit signal sonore, les susdits moyens de synthèse comprenant :
- des moyens de sommation des sinus dont l'amplitude des composantes fréquentielles varie en fonction de l'enveloppe du signal,
- des moyens de calcul des phases en fonction de la valeur des fréquences et des valeurs des phases et des fréquences appartenant à la trame précédente,
- des moyens de superposition du bruit,
- des moyens d'application de l'enveloppe,
- des moyens de filtrage du bruit et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, les susdits moyens de filtrage du bruit et de génération d'effets spéciaux comprenant :
- des moyens de sommation du signal original, du signal original décalé de un « pitch » en valeur positive et du signal original décalé de un « pitch » en valeur négative,
- des moyens de division de la valeur temporelle du « pitch » par deux,
- des moyens de modification des amplitudes du signal original et des deux signaux décalés,
- des moyens de multiplication de chaque échantillon de la voix originale par un cosinus variant au rythme de la moitié de la fondamentale (multiplication par deux du nombre de fréquences), ou variant au rythme du tiers de la fondamentale (multiplication par trois du nombre de fréquences),
- des moyens d'addition ensuite du résultat obtenu à la voix originale,
- des moyens de génération d'effets spéciaux associés à la synthèse, les susdits moyens de génération d'effets spéciaux comprenant :
- des moyens de multiplication de toutes les fréquences des composantes fréquentielles du signal original, prises individuellement, par un coefficient,
- des moyens de régénération des modules des harmoniques à partir de l'enveloppe spectrale dudit signal original.
- Avantageusement, le dispositif pourra comporter tous les éléments cités précédemment, en version professionnelle ou semi professionnelle ; certains éléments, tel que l'afficheur, pourront être simplifiés en version de base.
- Ainsi, le dispositif selon l'invention, décrit ci-dessus, pourra exploiter le procédé de traitement numérique différencié de la voix et de la musique, de filtrage du bruit et la création d'effets spéciaux.
- Il permettra notamment de transformer la voix :
- en une autre voix réaliste,
- pour un usage de type karaoké,
- en une autre voix futuriste, étrange, d'accompagnement.
- Il permettra également :
- de supprimer le bruit ambiant et d'augmenter les capacités d'enregistrement,
- de transférer les enregistrements sur disque dur d'ordinateur et de les réécouter à vitesse variable,
- de réaliser une fonction « main libre » associée à un radiotéléphone mobile.
- de générer une réponse auditive adaptée aux mal entendants.
Claims (21)
- Procédé pour le traitement numérique différencié d'un signal sonore, constitué dans l'intervalle d'une trame par la somme de sinus d'amplitude fixe et dont la fréquence est modulée linéairement en fonction du temps, cette somme étant modulée temporellement par une enveloppe, le bruit dudit signal sonore étant rajouté audit signal, préalablement à ladite somme,
caractérisé en ce qu'il comprend:une étape d'analyse permettant de déterminer des paramètres représentatifs dudit signal sonore, par• un calcul de l'enveloppe du signal,• un calcul du signal sonore du pitch et de sa variation,• une application au signal temporel de la variation inverse du "pitch" consistant à effectuer un échantillonnage temporel du signal sonore à pas d'échantillonnage variable, ce pas variant avec la valeur inverse de la variation du pitch,• une transformée rapide de Fourrier (TRF) sur le signal prétraité,• une extraction des composantes fréquentielles et leurs amplitudes dudit signal, à partir du résultat de la transformée rapide de Fourrier,• un calcul du « pitch » dans le domaine fréquentiel et sa variation par rapport au "pitch" calculé précédemment de façon à améliorer la précision de ce "pitch" calculé précédemment. - Procédé selon la revendication 1,
caractérisé en ce qu'il comprend en outre une étape de synthèse desdits paramètres représentatifs permettant de reconstituer ledit signal sonore. - Procédé selon les revendications précédentes,
caractérisé en ce qu'il comprend en outre une étape de codage et de décodage desdits paramètres représentatifs dudit signal sonore. - Procédé selon les revendications précédentes,
caractérisé en ce qu'il comprend en outre une étape de filtrage du bruit et une étape de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse. - Procédé selon les revendications précédentes,
caractérisé en ce qu'il comprend en outre une étape de génération d'effets spéciaux associés à la synthèse. - Procédé selon la revendication 2,
caractérisé en ce que la susdite étape de synthèse comprend• une sommation des sinus dont l'amplitude des composantes fréquentielles varie en fonction de l'enveloppe du signal et dont les fréquences varient linéairement,• un calcul des phases en fonction de la valeur des fréquences et des valeurs des phases et des fréquences appartenant à la trame précédente,• une superposition du bruit,• une application de l'enveloppe. - Procédé selon la revendication 4,
caractérisé en ce que la susdite étape de filtrage du bruit et la susdite étape de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, comprennent une somme du signal original, du signal original décalé de un " pitch " en valeur positive et du signal original décalé de un " pitch " en valeur négative. - Procédé selon la revendication 7,
caractérisé en ce que les susdits signaux décalés sont multipliés par un même coefficient, et le signal original par un second coefficient, la somme dudit premier coefficient, rajouté à lui-même, et dudit second coefficient est égale à 1, diminué de manière à conserver un niveau équivalent du signal résultant. - Procédé selon la revendication 7,
caractérisé en ce que la susdite étape de filtrage et la susdite étape de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, comprennent:• une division de la valeur temporelle du " pitch " par deux,• une modification des amplitudes du signal original et des deux signaux décalés. - Procédé selon la revendication 7,
caractérisé en ce que la susdite étape de filtrage et la susdite étape de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, comprennent:• une multiplication de chaque échantillon de la voix originale par un cosinus variant au rythme de la moitié de la fondamentale (multiplication par deux du nombre de fréquences), ou variant au rythme du tiers de la fondamentale (multiplication par trois du nombre de fréquences),• une addition ensuite du résultat obtenu à la voix originale. - Procédé selon la revendication 5,
caractérisé en ce que la susdite étape de génération d'effets spéciaux associés à la synthèse, comprend:• une multiplication de toutes les fréquences des composantes fréquentielles du signal original, prises individuellement, par un coefficient,• une régénération des modules des harmoniques à partir de l'enveloppe spectrale dudit signal original. - Procédé selon la revendication 11,
caractérisé en ce que le susdit coefficient de multiplication des composantes fréquentielles est:• un coefficient fonction du rapport entre le nouveau " pitch " et le " pitch " réel,• un coefficient variant, périodiquement ou aléatoirement, à basse fréquence. - Dispositif, de traitement numérique différencié d'un signal sonore, constitué dans l'intervalle d'une trame par la somme de sinus d'amplitude fixe et dont la fréquence est modulée linéairement en fonction du temps, cette somme étant modulée temporellement par une enveloppe, le bruit dudit signal sonore étant rajouté audit signal, préalablement à ladite somme,
caractérisé en ce qu'il comprend_ö
des moyens d'analyse permettant de déterminer des paramètres représentatifs dudit signal sonore, comprenant :• des moyens de calcul de l'enveloppe du signal,• des moyens de calcul du « pitch » et de sa variation,• des moyens d'application au signal temporel de la variation inverse du « pitch » consistant à effectuer un échantillonnage temporel du signal sonore à pas d'échantillonnage variable, ce pas variant avec la valeur inverse de la variation du pitch,• des moyens de transformée rapide de Fourrier (TRF) sur le signal prétraité,• des moyens d'extraction des composantes fréquentielles et leurs amplitudes dudit signal, à partir du résultat de la transformée rapide de Fourrier,• des moyens calcul du « pitch » dans le domaine fréquentiel et sa variation par rapport au " pitch " calculé précédemment de façon à améliorer la précision de ce " pitch" calculé précédemment. - Dispositif selon la revendication 13, caractérisé en ce qu'il comprend en outre :- des moyens de synthèse desdits paramètres représentatifs permettant de reconstituer ledit signal sonore et/ou- des moyens de codage et de décodage desdits paramètres représentatifs dudit signal sonore, et/ou- des moyens de filtrage du bruit et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, et/ou- des moyens de génération d'effets spéciaux associés à la synthèse.
- Dispositif selon la revendication 14,
caractérisé en ce que les susdits moyens de synthèse comprennent:• des moyens de sommation des sinus dont l'amplitude des composantes fréquentielles varie en fonction de l'enveloppe du signal,• des moyens de calcul des phases en fonction de la valeur des fréquences et des valeurs des phases et des fréquences appartenant à la trame précédente,• des moyens de superposition du bruit,• des moyens d'application de l'enveloppe. - Dispositif selon la revendication 13,
caractérisé en ce que les susdits moyens de filtrage du bruit et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, comprennent des moyens de sommation du signal original, du signal original décalé de un " pitch " en valeur positive et du signal original décalé de un " pitch " en valeur négative. - Dispositif selon la revendication 16,
caractérisé en ce que les susdits signaux décalés sont multipliés par un même coefficient, et le signal original par un second coefficient, la somme dudit premier coefficient, rajouté à lui-même, et dudit second coefficient est égale à 1, diminué de manière à conserver un niveau équivalent du signal résultant. - Dispositif selon la revendication 14,
caractérisé en ce que les susdits moyens de filtrage et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, comprennent:• des moyens de division de la valeur temporelle du " pitch " par deux,• des moyens de modification des amplitudes du signal original et des• deux signaux décalés. - Dispositif selon la revendication 14,
caractérisé en ce que les susdits moyens de filtrage et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, comprennent:• des moyens de multiplication de chaque échantillon de la voix originale par un cosinus variant au rythme de la moitié de la fondamentale (multiplication par deux du nombre de fréquences), ou variant au rythme du tiers de la fondamentale (multiplication par trois du nombre de fréquences),• des moyens d'addition ensuite du résultat obtenu à la voix originale. - Dispositif selon la revendication 14.
caractérisé en ce que les susdits moyens de génération d'effets spéciaux associés à la synthèse, comprennent:• des moyens de multiplication de toutes les fréquences des composantes fréquentielles du signal original, prises individuellement, par un coefficient,• des moyens de régénération des modules des harmoniques à partir de l'enveloppe spectrale dudit signal original. - Dispositif selon la revendication 20,
caractérisé en ce que le susdit coefficient de multiplication des composantes fréquentielles est:• un coefficient fonction du rapport entre le nouveau " pitch " et le " pitch " réel,• un coefficient variant périodiquement, à basse fréquence.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0301081A FR2850781B1 (fr) | 2003-01-30 | 2003-01-30 | Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede |
FR0301081 | 2003-01-30 | ||
PCT/FR2004/000184 WO2004070705A1 (fr) | 2003-01-30 | 2004-01-27 | Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage de bruit, la creation d’effets speciaux et dispositif pour la mise en oeuvre dudit procede |
Publications (2)
Publication Number | Publication Date |
---|---|
EP1593116A1 EP1593116A1 (fr) | 2005-11-09 |
EP1593116B1 true EP1593116B1 (fr) | 2010-03-10 |
Family
ID=32696232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP04705433A Expired - Lifetime EP1593116B1 (fr) | 2003-01-30 | 2004-01-27 | Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d'effets spéciaux et dispositif pour la mise en oeuvre dudit procédé |
Country Status (7)
Country | Link |
---|---|
US (1) | US8229738B2 (fr) |
EP (1) | EP1593116B1 (fr) |
AT (1) | ATE460726T1 (fr) |
DE (1) | DE602004025903D1 (fr) |
ES (1) | ES2342601T3 (fr) |
FR (1) | FR2850781B1 (fr) |
WO (1) | WO2004070705A1 (fr) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100547113B1 (ko) * | 2003-02-15 | 2006-01-26 | 삼성전자주식회사 | 오디오 데이터 인코딩 장치 및 방법 |
US20050226601A1 (en) * | 2004-04-08 | 2005-10-13 | Alon Cohen | Device, system and method for synchronizing an effect to a media presentation |
JP2007114417A (ja) * | 2005-10-19 | 2007-05-10 | Fujitsu Ltd | 音声データ処理方法及び装置 |
US7772478B2 (en) * | 2006-04-12 | 2010-08-10 | Massachusetts Institute Of Technology | Understanding music |
US7622665B2 (en) * | 2006-09-19 | 2009-11-24 | Casio Computer Co., Ltd. | Filter device and electronic musical instrument using the filter device |
FR2912249A1 (fr) * | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
CA2690433C (fr) * | 2007-06-22 | 2016-01-19 | Voiceage Corporation | Procede et dispositif de detection d'activite sonore et de classification de signal sonore |
KR101410230B1 (ko) * | 2007-08-17 | 2014-06-20 | 삼성전자주식회사 | 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치 |
CN102017402B (zh) | 2007-12-21 | 2015-01-07 | Dts有限责任公司 | 用于调节音频信号的感知响度的系统 |
US20100329471A1 (en) * | 2008-12-16 | 2010-12-30 | Manufacturing Resources International, Inc. | Ambient noise compensation system |
US8670990B2 (en) * | 2009-08-03 | 2014-03-11 | Broadcom Corporation | Dynamic time scale modification for reduced bit rate audio coding |
KR101681798B1 (ko) * | 2009-08-11 | 2016-12-01 | 디티에스 엘엘씨 | 스피커의 인지성 소리 강도를 증가시키는 시스템 |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US8204742B2 (en) * | 2009-09-14 | 2012-06-19 | Srs Labs, Inc. | System for processing an audio signal to enhance speech intelligibility |
EP2492911B1 (fr) * | 2009-10-21 | 2017-08-16 | Panasonic Intellectual Property Management Co., Ltd. | Appareil d'encodage audio, appareil de décodage, procédé, circuit et programme |
JP6147744B2 (ja) | 2011-07-29 | 2017-06-14 | ディーティーエス・エルエルシーDts Llc | 適応音声了解度処理システムおよび方法 |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
US9318086B1 (en) * | 2012-09-07 | 2016-04-19 | Jerry A. Miller | Musical instrument and vocal effects |
JP5974369B2 (ja) * | 2012-12-26 | 2016-08-23 | カルソニックカンセイ株式会社 | ブザー出力制御装置およびブザー出力制御方法 |
US9484044B1 (en) * | 2013-07-17 | 2016-11-01 | Knuedge Incorporated | Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms |
US9530434B1 (en) | 2013-07-18 | 2016-12-27 | Knuedge Incorporated | Reducing octave errors during pitch determination for noisy audio signals |
US20150179181A1 (en) * | 2013-12-20 | 2015-06-25 | Microsoft Corporation | Adapting audio based upon detected environmental accoustics |
JP6402477B2 (ja) * | 2014-04-25 | 2018-10-10 | カシオ計算機株式会社 | サンプリング装置、電子楽器、方法、およびプログラム |
TWI569263B (zh) * | 2015-04-30 | 2017-02-01 | 智原科技股份有限公司 | 聲頻訊號的訊號擷取方法與裝置 |
KR101899538B1 (ko) * | 2017-11-13 | 2018-09-19 | 주식회사 씨케이머티리얼즈랩 | 햅틱 제어 신호 제공 장치 및 방법 |
CN112908352B (zh) * | 2021-03-01 | 2024-04-16 | 百果园技术(新加坡)有限公司 | 一种音频去噪方法、装置、电子设备及存储介质 |
US12094481B2 (en) * | 2021-11-18 | 2024-09-17 | Tencent America LLC | ADL-UFE: all deep learning unified front-end system |
US20230289652A1 (en) * | 2022-03-14 | 2023-09-14 | Matthias THÖMEL | Self-learning audio monitoring system |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4201105A (en) * | 1978-05-01 | 1980-05-06 | Bell Telephone Laboratories, Incorporated | Real time digital sound synthesizer |
US4357852A (en) * | 1979-05-21 | 1982-11-09 | Roland Corporation | Guitar synthesizer |
US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
JP3351905B2 (ja) * | 1994-07-28 | 2002-12-03 | ソニー株式会社 | 音声信号処理装置 |
AU7723696A (en) * | 1995-11-07 | 1997-05-29 | Euphonics, Incorporated | Parametric signal modeling musical synthesizer |
US6031173A (en) * | 1997-09-30 | 2000-02-29 | Kawai Musical Inst. Mfg. Co., Ltd. | Apparatus for generating musical tones using impulse response signals |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
JP2000082260A (ja) * | 1998-09-04 | 2000-03-21 | Sony Corp | オーディオ信号再生装置及び方法 |
CA2399706C (fr) * | 2000-02-11 | 2006-01-24 | Comsat Corporation | Reduction du bruit de fond dans des systemes de codage vocal sinusoidaux |
US20020184009A1 (en) * | 2001-05-31 | 2002-12-05 | Heikkinen Ari P. | Method and apparatus for improved voicing determination in speech signals containing high levels of jitter |
-
2003
- 2003-01-30 FR FR0301081A patent/FR2850781B1/fr not_active Expired - Fee Related
-
2004
- 2004-01-27 ES ES04705433T patent/ES2342601T3/es not_active Expired - Lifetime
- 2004-01-27 AT AT04705433T patent/ATE460726T1/de not_active IP Right Cessation
- 2004-01-27 US US10/544,189 patent/US8229738B2/en not_active Expired - Fee Related
- 2004-01-27 DE DE602004025903T patent/DE602004025903D1/de not_active Expired - Lifetime
- 2004-01-27 EP EP04705433A patent/EP1593116B1/fr not_active Expired - Lifetime
- 2004-01-27 WO PCT/FR2004/000184 patent/WO2004070705A1/fr active Application Filing
Also Published As
Publication number | Publication date |
---|---|
EP1593116A1 (fr) | 2005-11-09 |
ES2342601T3 (es) | 2010-07-09 |
FR2850781B1 (fr) | 2005-05-06 |
US8229738B2 (en) | 2012-07-24 |
WO2004070705A1 (fr) | 2004-08-19 |
ATE460726T1 (de) | 2010-03-15 |
DE602004025903D1 (de) | 2010-04-22 |
FR2850781A1 (fr) | 2004-08-06 |
US20060130637A1 (en) | 2006-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1593116B1 (fr) | Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d'effets spéciaux et dispositif pour la mise en oeuvre dudit procédé | |
EP0002998B1 (fr) | Procédé de compression de données relatives au signal vocal et dispositif mettant en oeuvre ledit procédé | |
EP2002428B1 (fr) | Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant | |
BE1005622A3 (fr) | Methodes de codage de segments du discours et de reglage du pas pour des systemes de synthese de la parole. | |
EP1692689B1 (fr) | Procede de codage multiple optimise | |
EP1395981B1 (fr) | Dispositif et procede de traitement d'un signal audio. | |
Kumar | Real-time performance evaluation of modified cascaded median-based noise estimation for speech enhancement system | |
EP0428445B1 (fr) | Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit | |
EP1849157B1 (fr) | Procede de mesure de la gene due au bruit dans un signal audio | |
EP2080194B1 (fr) | Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information | |
EP1125283A1 (fr) | Procede de quantification des parametres d'un codeur de parole | |
EP2795618B1 (fr) | Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant | |
EP0573358B1 (fr) | Procédé et dispositif de synthèse vocale à vitesse variable | |
EP1192619B1 (fr) | Codage et decodage audio par interpolation | |
EP1192618B1 (fr) | Codage audio avec liftrage adaptif | |
EP1192621B1 (fr) | Codage audio avec composants harmoniques | |
EP1190414A1 (fr) | Codage et decodage audio avec composantes harmoniques et phase minimale | |
EP1192620A1 (fr) | Codage et decodage audio incluant des composantes non harmoniques du signal | |
FR2760285A1 (fr) | Procede et dispositif de generation d'un signal de bruit pour la sortie non vocale d'un signal decode de la parole | |
FR2737360A1 (fr) | Procedes de codage et de decodage de signaux audiofrequence, codeur et decodeur pour la mise en oeuvre de tels procedes | |
FR2739482A1 (fr) | Procede et dispositif pour l'evaluation du voisement du signal de parole par sous bandes dans des vocodeurs | |
FR2980620A1 (fr) | Traitement d'amelioration de la qualite des signaux audiofrequences decodes | |
EP1194923A1 (fr) | Procedes et dispositifs d'analyse et de synthese audio | |
FR2847706A1 (fr) | Analyse de la qualite de signal vocal selon des criteres de qualite |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 20050824 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PT RO SE SI SK TR |
|
AX | Request for extension of the european patent |
Extension state: AL LT LV MK |
|
DAX | Request for extension of the european patent (deleted) | ||
17Q | First examination report despatched |
Effective date: 20081001 |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
RTI1 | Title (correction) |
Free format text: METHOD FOR DIFFERENTIATED DIGITAL VOICE AND MUSIC PROCESSING, NOISE FILTERING, CREATION OF SPECIAL EFFECTS AND DEVICE FOR CARRYING OUT SAID METHOD |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PT RO SE SI SK TR |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D |
|
REF | Corresponds to: |
Ref document number: 602004025903 Country of ref document: DE Date of ref document: 20100422 Kind code of ref document: P |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: VDEP Effective date: 20100310 |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FG2A Ref document number: 2342601 Country of ref document: ES Kind code of ref document: T3 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 Ref country code: SI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FD4D |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 Ref country code: RO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 Ref country code: EE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100611 Ref country code: NL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BG Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100610 Ref country code: CZ Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 Ref country code: SK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 Ref country code: PT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100712 Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 |
|
26N | No opposition filed |
Effective date: 20101213 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MC Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20110131 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20110131 Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20110131 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20110127 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: TR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: HU Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20100310 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R082 Ref document number: 602004025903 Country of ref document: DE Representative=s name: GRAMM, LINS & PARTNER PATENT- UND RECHTSANWAEL, DE |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 13 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 14 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 15 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: ES Payment date: 20190719 Year of fee payment: 16 Ref country code: IT Payment date: 20190730 Year of fee payment: 16 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: BE Payment date: 20190718 Year of fee payment: 16 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20190719 Year of fee payment: 16 |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20200127 |
|
REG | Reference to a national code |
Ref country code: BE Ref legal event code: MM Effective date: 20200131 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200127 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200131 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200127 |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FD2A Effective date: 20210604 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: ES Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200128 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20220720 Year of fee payment: 19 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20230127 Year of fee payment: 20 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 602004025903 Country of ref document: DE |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20230801 |