FR2961938A1 - Synthetiseur numerique audio ameliore - Google Patents
Synthetiseur numerique audio ameliore Download PDFInfo
- Publication number
- FR2961938A1 FR2961938A1 FR1002674A FR1002674A FR2961938A1 FR 2961938 A1 FR2961938 A1 FR 2961938A1 FR 1002674 A FR1002674 A FR 1002674A FR 1002674 A FR1002674 A FR 1002674A FR 2961938 A1 FR2961938 A1 FR 2961938A1
- Authority
- FR
- France
- Prior art keywords
- window
- data
- digital
- current
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006870 function Effects 0.000 claims abstract description 44
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 230000005236 sound signal Effects 0.000 claims abstract description 10
- 230000001186 cumulative effect Effects 0.000 claims abstract description 3
- 230000004044 response Effects 0.000 claims abstract description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000543381 Cliftonia monophylla Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/155—Musical effects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/155—Musical effects
- G10H2210/265—Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
- G10H2210/281—Reverberation or echo
- G10H2210/285—Electromechanical effectors therefor, i.e. using springs or similar electromechanical audio delay units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/005—Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/025—Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
- G10H2250/031—Spectrum envelope processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/261—Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued
- G10H2250/281—Hamming window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/471—General musical sound synthesis principles, i.e. sound category-independent synthesis methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Complex Calculations (AREA)
Abstract
Un synthétiseur numérique audio qui comprend : * une mémoire d'entrée pour recevoir une suite de données numériques représentatives du spectre d'amplitude d'un signal audio, sur des fenêtres temporelles consécutives et chevauchantes, * un calculateur (120), agencé pour recevoir en entrée un jeu de données numériques d'esquisse d'une fenêtre courante comprenant en début de fenêtre des données extrapolées d'amplitude, et des valeurs nulles pour le reste de la fenêtre, et pour établir en réponse une représentation numérique de la transformée de Fourier discrète complexe de ce jeu, * un composeur (130), agencé pour combiner l'entrée de spectre d'amplitude associée à la fenêtre courante considérée et la représentation numérique déterminée par le calculateur, et pour appeler le calculateur (120) avec les données résultantes pour établir une représentation numérique de la transformée de Fourier discrète complexe inverse correspondante, ce qui fournit un jeu de données numériques estimées, relatives à la fenêtre courante considérée, et * un additionneur (140), pour cumuler sélectivement les données numériques estimées qui correspondent à un même temps, * le composeur (130) est agencé pour calculer un jeu de données numériques auxiliaires (xi(n)), en prenant le jeu de données numériques estimées (z(n)) courant, divisé par une fonction de fenêtre sur chaque fenêtre temporelle, * l'additionneur (140) est agencé pour ajouter le jeu de données numériques estimées courant multiplié par la fonction de fenêtre (H) à la valeur précédente du cumul, * un extrapolateur (110) agencé pour calculer le jeu de données numériques d'esquisse pour une fenêtre courante à partir du jeu de données numériques auxiliaires de la fenêtre précédente multiplié sélectivement par le carré de la fonction de fenêtre.
Description
INRIA 117.FRD Synthétiseur numérique audio amélioré
L'invention concerne la synthèse numérique audio en temps réel.
Plus particulièrement, l'invention s'applique dans les domaines qui nécessitent de réaliser une modification spectrale d'un signal audio en temps réel, par exemple dans les prothèses auditives, les jeux vidéos, la sonorisation d'espaces, etc.
Depuis le milieu des années 1980, des solutions ont été recherchées pour permettre de reconstruire un signal audio à partir de son spectre d'amplitude. Pour cela, ces méthodes se basent sur l'utilisation de la transformée de Fourier à court terme (Short-Term Fourier Transform en anglais ou STFT) dans des conditions précises.
Ces méthodes présentent néanmoins plusieurs désavantages. Le premier est qu'elles nécessitent de travailler sur tout le signal, ce qui empêche de fonctionner en temps réel. De plus, ces méthodes sont basées sur une réduction itérative non bornée qui présente un coût de calcul important.
L'invention vient améliorer la situation.
A cet effet, l'invention propose un synthétiseur numérique audio, comprenant : * une mémoire d'entrée pour recevoir une suite de données numériques représentatives du spectre d'amplitude d'un signal audio, sur des fenêtres temporelles consécutives et chevauchantes, * un calculateur, agencé pour recevoir en entrée un jeu de données numériques d'esquisse d'une fenêtre courante comprenant en début de fenêtre des données extrapolées d'amplitude, et des valeurs nulles pour le reste de la fenêtre, et pour établir en réponse une représentation numérique de la transformée de Fourier discrète complexe de ce jeu, * un composeur, agencé pour combiner l'entrée du spectre d'amplitude associé à la fenêtre courante considérée et la représentation numérique déterminée par le calculateur, et pour appeler le calculateur avec les données résultantes pour établir une représentation numérique de la transformée de Fourier discrète complexe inverse correspondante, ce qui fournit un jeu de données numériques estimées, relatives à la fenêtre courante considérée, et * un additionneur, pour cumuler sélectivement les données numériques estimées qui correspondent à un même temps.
Dans ce synthétiseur : * le composeur est agencé pour calculer un jeu de données numériques auxiliaires, en prenant le jeu de données numériques estimées courant, divisé par une fonction de fenêtre sur chaque fenêtre temporelle, 10 * l'additionneur est agencé pour ajouter le jeu de données numériques estimées courant multiplié par la fonction de fenêtre à la valeur précédente du cumul, * un extrapolateur est agencé pour calculer le jeu de données numériques d'esquisse pour une fenêtre courante à partir du jeu de données numériques auxiliaires de la fenêtre précédente multiplié sélectivement par le carré de la fonction de fenêtre. 15 D'autres caractéristiques et avantages de l'invention apparaîtront mieux à la lecture de la description qui suit, tirée d'exemples donnés à titre illustratif et non limitatif, tirés des dessins sur lesquels : - la figure 1 représente un exemple de mise en oeuvre d'un synthétiseur selon l'invention, 20 et - la figure 2 représente un diagramme de flux des opérations mises en oeuvre par le synthétiseur de la figure 1.
La description détaillée est augmentée de l'annexe A, qui donne la formulation de 25 certaines formules mathématiques mises en oeuvre dans le cadre de l'invention. Cette annexe est mise à part dans un but de clarification, et pour faciliter les renvois. Elle est partie intégrante de la description, et pourra donc non seulement servir à mieux faire comprendre la présente invention, mais aussi contribuer à sa définition, le cas échéant.
30 Les dessins et la description ci-après contiennent, pour l'essentiel, des éléments de caractère certain. Ils pourront donc non seulement servir à mieux faire comprendre la présente invention, mais aussi contribuer à sa définition, le cas échéant.
La figure 1 représente un synthétiseur audio 100 selon l'invention. Le synthétiseur 100 comprend un extrapolateur 110, un calculateur 120, un composeur 130, et un additionneur 140.
En fonctionnement, le synthétiseur 100 reçoit en entrée des données numériques 150 (ci-après notées Fi(c))) représentatives du spectre d'amplitude d'un signal audio. Les données numériques 150 sont traitées par le synthétiseur 100, et sont retournées sous la forme de données numériques de signal audio 160.
Comme cela apparaîtra avec la figure 2, le synthétiseur 100 travaille sur des fenêtres temporelles consécutives et chevauchantes. Dans l'exemple décrit ici, ces fenêtres portent sur un nombre U de trames dans le signal audio que l'on cherche à resynthétiser.
Chaque trame comprend N échantillons dont les L derniers sont extrapolés. L est choisi dans l'exemple décrit ici comme un diviseur de la taille N de la STFT. De manière préférée, N est un multiple de 4L. Le synthétiseur audio 100 fonctionne sur la base d'une boucle, dans laquelle une trame est extrapolée à chaque itération.
Le synthétiseur 100 opère conformément au diagramme de flux de la figure 2.
Dans une première opération 200, la synthèse audio est initialisée au moyen d'une fonction Init(). La fonction Init() prépare les variables et paramètres qui vont être utilisés dans la synthèse et leur assigne des valeurs d'origine. Dans l'exemple décrit ici, la fonction Init() est réalisée par le composeur 130. Ces variables et paramètres sont : - N le nombre d'échantillons de la transformée de Fourier, N est aussi le nombre d'échantillons de chaque trame, - L le nombre d'échantillons extrapolés par itération, 30 - U le nombre d'itérations, - xo(n) = 0 pour n compris entre 0 et N-l. À chaque itération, un signal xi(n) est calculé, qui sert de données auxiliaires à l'extrapolation de l'itération suivante, - s(n) = 0 pour n compris entre 0 et U*L+N-1, où s(n) est le signal resynthétisé, 25 - le compteur i est initialisé à 0.
Une fois que toutes les variables ont été initialisées, la boucle de resynthèse commence en 210 avec l'incrémentation du compteur i. Ensuite, un test sur la valeur du compteur i dans une opération 220 peut déclencher une opération 230 de sortie de boucle si l'ensemble des trames ont été traitées.
Dans le cas contraire, des données d'esquisse y(n) sont calculées dans une opération 240 au moyen d'une fonction Ext(). La fonction Ext() est dans l'exemple décrit ici réalisée par l'extrapolateur 110. La fonction Ext() utilise comme argument les données auxiliaires xi_1(n).
Pour toutes les itérations, les données auxiliaires xi_1(n) sont calculées à l'itération précédente, sauf pour la première, où xo(n) est calculé par la fonction Irait().
Pour chaque n variant entre 0 et N-L-1, la fonction Ext() définit y(n) comme le produit des données x;4(n+L) par le carré d'une fonction de fenêtrage H(n) selon la formule donnée en (10) dans l'annexe A. Pour chaque n variant entre N-L et N-1, la fonction Ext() définit y(n) égal à 0.
Ensuite, le calculateur 120 est appelé dans une opération 250 pour calculer la transformée de Fourier discrète de y(n) au moyen d'une fonction DFT(). Le résultat de cette fonction est stocké dans des données Y(w) où w varie entre 0 et N-1, selon la formule (20) de l'annexe A.
Le composeur 130 est alors appelé dans une opération 260 pour combiner les données Y(w) avec des données Fi(w) pour produire des données Z(w), au moyen d'une fonction Comp().
30 Les données Fi(w) sont des données de spectre d'amplitude du signal à resynthétiser correspondant à la trame de l'itération courante. Dans l'exemple décrit ici, les données Fi(w) sont calculées par STFT du signal à resynthétiser, en utilisant la fonction H(n) comme fonction fenêtre. 4 20 25 La fonction Comp() combine les données Y(w) avec des données Fi(w) en appliquant le module Fi(w) aux données Y(w). Ainsi, dans les données Z(w), la phase des données d'esquisse y(n) est préservée, et l'énergie de la trame à resynthétiser est réintroduite.
Dans l'exemple décrit ici, les données Fi(w) sont reçues en entrée. Cependant, le synthétiseur 100 pourrait comprendre un spectromètre audio pour calculer ces coefficients et les fournir au composeur 130.
Le synthétiseur peut également comprendre un composant placé entre le spectromètre et 10 la mémoire d'entrée propre à modifier les données numériques représentatives du spectre d'amplitude en entrée, et à transmettre les données de spectre d'amplitude modifiées à la mémoire d'entrée.
Ce composant peut appliquer un algorithme ou filtre quelconque de prétraitement du 15 spectre d'amplitude, dans le cadre par exemple d'une transformation du type voix oesophagienne vers voie laryngée.
Les données Z(w) sont alors renvoyées au calculateur 120 dans une opération 270. Dans cette opération, le calculateur 120 exécute une fonction IDFT() qui réalise l'inverse de 20 l'opération 250, et stocke le résultat dans des données z(n), selon la formule (30) de l'annexe A.
Le composeur 130 est alors rappelé dans une opération 280 pour calculer les données auxiliaires xi(n) pour l'itération suivante. Cette opération est réalisée au moyen d'une 25 fonction Rest() qui reçoit les données z(n) en entrée, et qui les divise par la fonction de fenêtre H(n).
Enfin, le signal resynthétisé s(n) est enfin calculé dans une opération 290 au moyen d'une fonction Add(), puis la boucle reprend en 210. La fonction Add() est réalisée par 30 l'additionneur 140, et reçoit comme arguments les données z(n) et le compteur i. La fonction Add() ajoute alors les données z(n) multipliées par la fonction de fenêtre H(n) aux données resynthétisées d'indice s(i*L+n), selon la formule (40) de l'annexe A.
Comme cela a été mentionné en introduction, le domaine de la resynthèse à partir du spectre d'amplitude est un domaine qui est mal connu et difficilement compris. Ce domaine fait appel à la maîtrise des transformées de Fourier à court terme (STFT), dont le sens physique n'est pas toujours maîtrisé. Bien que les phénomènes en cause ne soient pas entièrement compris, il est possible d'en donner une explication au moins partielle, comme on le verra maintenant.
Chaque itération permet d'extrapoler les L échantillons d'une trame courante. Comme 10 ces échantillons sont à la suite des trames précédentes, les données auxiliaires xi_1(n) contiennent donc déjà une grande partie du signal.
C'est pour cela que les données auxiliaires xi_i(n) sont d'abord décalées vers la gauche de L indices, et les L derniers éléments sont laissés nuls. Ensuite, les données d'esquisse 15 qui servent au calcul des données de resynthèse sont multipliées par la fonction de fenêtre H(n) au carré. La fonction de fenêtre utilisée dans l'exemple décrit ici est une fenêtre de Hamming normalisée, dont la formule est donnée en (50) dans l'annexe A.
De fait, l'opération 250 est une STFT modifiée, parce que c'est le carré de la fonction de 20 fenêtre qui est appliqué au lieu de la fonction fenêtre. C'est pour cela que les données z(n) sont divisées par la fonction de fenêtre H(n) pour donner les données auxiliaires xi(n) dans l'opération 280.
Les multiplications et division par la fonction de fenêtre ne sont pas faites au hasard. En 25 effet, on pourrait penser supprimer la division de l'opération 280 et faire une multiplication simple dans l'opération 240 au lieu d'une multiplication par le carré.
Mais cela serait ne pas tenir compte du fait que la multiplication de l'opération 250 est faite sur des x1_1(n) décalés par rapport à ceux de l'opération 280. Et ce détail est crucial, 30 car cela permet d'utiliser un signal xi(n) qui est une sorte de vision "idéalisée" du signal audio_ resynthétisé.
À l'inverse, les données resynthétisées s(n) sont fenêtrées par rapport aux données z(n). Cela est réalisé afin d'obtenir un effet de lissage de type chevauchement et addition5 (overlap-add en anglais ou OLA), et permet de limiter les discontinuités au niveau des extrémités des trames.
L'annexe A et ces explications ne sont pas qu'une suite de formules mathématiques 5 théoriques. Ainsi, le Demandeur a dans un premier temps utilisé une formule (50) avec une multiplication simple au lieu de la multiplication par le carré.
Les expérimentations ne donnant pas satisfaction, ses recherches l'ont mené à l'utilisation du carré de cette fenêtre. Cela est avantageux car la multiplication par le 10 carré de la fonction de fenêtre assure la normalisation et économise une étape de calcul.
D'autres fonctions pourraient être utilisées pour la fonction de fenêtre, comme une fenêtre de Hann normalisée ou une autre fenêtre normalisée. L'utilisation de la fenêtre normalisée est importante car celle-ci permet d'une part le lissage des données 15 resynthétisées s(n) sans qu'il soit nécessaire d'autre part de normaliser ces dernières à la fin de la resynthèse.
En effet, sans lissage, des artefacts apparaîtraient aux frontières des trames. Et sans fenêtre normalisée, il faudrait tenir compte de tous les éléments produits pour 20 normaliser, ce qui empêcherait une application temps réel.
Annexe A
0 . N-L n)= N -Ln (10) Yw -2 III -W ,71 *e N (20) 2 .titi .rt ô-1Z() * e (30) = s * L + n = s L+ n) + () ~I ) (40) 0.54- 0.46* cos (50) 4*O.542+243.462
Claims (5)
- REVENDICATIONS1. Synthétiseur numérique audio, comprenant : * une mémoire d'entrée pour recevoir une suite de données numériques (Fi(w)) représentatives du spectre d'amplitude d'un signal audio, sur des fenêtres temporelles consécutives et chevauchantes, * un calculateur (120), agencé pour recevoir en entrée un jeu de données numériques d'esquisse (y(n)) d'une fenêtre courante comprenant en début de fenêtre des données extrapolées d'amplitude, et des valeurs nulles pour le reste de la fenêtre, et pour établir en réponse une représentation numérique (Y(w)) de la transformée de Fourier discrète complexe de ce jeu, * un composeur (130), agencé pour combiner l'entrée de spectre d'amplitude (Fi(w)) associée à la fenêtre courante considérée et la représentation numérique (Y(w)) déterminée par le calculateur, et pour appeler le calculateur (120) avec les données résultantes pour établir une représentation numérique de la transformée de Fourier discrète complexe inverse correspondante, ce qui fournit un jeu de données numériques estimées (z(n)), relatives à la fenêtre courante considérée, et * un additionneur (140), pour cumuler sélectivement les données numériques estimées (z(n)) qui correspondent à un même temps, caractérisé en ce que : * le composeur (130) est agencé pour calculer un jeu de données numériques auxiliaires (x;(n)), en prenant le jeu de données numériques estimées (z(n)) courant, divisé par une fonction de fenêtre (H(n)) sur chaque fenêtre temporelle, * l'additionneur (140) est agencé pour ajouter le jeu de données numériques estimées (z(n)) courant multiplié par la fonction de fenêtre (H) à la valeur précédente du cumul, et en ce qu'il comprend un extrapolateur (110) agencé pour calculer le jeu de données numériques d'esquisse (y(n)) pour une fenêtre courante à partir du jeu de données numériques auxiliaires (x;_I(n)) de la fenêtre précédente multiplié sélectivement par le carré de la fonction de fenêtre.
- 2. Synthétiseur selon la revendication 1, dans lequel l'extrapolateur (110) calcule le jeu de données numériques d'esquisse (y(n)) pour une fenêtre courante par décalage à gauche de L échantillons du jeu de données numériques auxiliaires (x;_i(n)) de la fenêtreprécédente, avec mise à zéro des L derniers échantillons du jeu décalé, puis par multiplication terme à terme par le carré de la fonction de fenêtre.
- 3. Synthétiseur selon la revendication 1 ou 2, dans lequel la fonction de fenêtre (H) 5 comprend une fonction fenêtre de Hamming normalisée.
- 4. Synthétiseur selon l'une des revendications 1 à 3, comprenant en outre un spectromètre agencé pour calculer une suite de données numériques (Fi(w)) représentatives du spectre d'amplitude d'un signal audio en entrée, et pour transmettre 10 ces données à la mémoire d'entrée.
- 5. Synthétiseur selon la revendication 4, comprenant un composant placé entre le spectromètre et la mémoire d'entrée propre à modifier les données numériques représentatives du spectre d'amplitude en entrée, et à transmettre les données de spectre 15 d'amplitude modifiées à la mémoire d'entrée.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1002674A FR2961938B1 (fr) | 2010-06-25 | 2010-06-25 | Synthetiseur numerique audio ameliore |
US13/806,825 US9170983B2 (en) | 2010-06-25 | 2011-06-21 | Digital audio synthesizer |
PCT/FR2011/051425 WO2011161372A1 (fr) | 2010-06-25 | 2011-06-21 | Synthetiseur numerique audio ameliore |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1002674A FR2961938B1 (fr) | 2010-06-25 | 2010-06-25 | Synthetiseur numerique audio ameliore |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2961938A1 true FR2961938A1 (fr) | 2011-12-30 |
FR2961938B1 FR2961938B1 (fr) | 2013-03-01 |
Family
ID=43447302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1002674A Expired - Fee Related FR2961938B1 (fr) | 2010-06-25 | 2010-06-25 | Synthetiseur numerique audio ameliore |
Country Status (3)
Country | Link |
---|---|
US (1) | US9170983B2 (fr) |
FR (1) | FR2961938B1 (fr) |
WO (1) | WO2011161372A1 (fr) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6216550B2 (ja) * | 2013-06-25 | 2017-10-18 | クラリオン株式会社 | フィルタ係数群演算装置及びフィルタ係数群演算方法 |
WO2016133751A1 (fr) * | 2015-02-16 | 2016-08-25 | Sound Devices Llc | Conversion analogique-numérique à plage dynamique élevée à réparation de données reposant sur une régression sélective |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5401897A (en) * | 1991-07-26 | 1995-03-28 | France Telecom | Sound synthesis process |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4922797A (en) * | 1988-12-12 | 1990-05-08 | Chapman Emmett H | Layered voice musical self-accompaniment system |
US5504833A (en) * | 1991-08-22 | 1996-04-02 | George; E. Bryan | Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications |
WO1993018505A1 (fr) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Systeme de transformation vocale |
US5998725A (en) * | 1996-07-23 | 1999-12-07 | Yamaha Corporation | Musical sound synthesizer and storage medium therefor |
US6351730B2 (en) * | 1998-03-30 | 2002-02-26 | Lucent Technologies Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
GB9811019D0 (en) * | 1998-05-21 | 1998-07-22 | Univ Surrey | Speech coders |
AU5009399A (en) * | 1998-09-24 | 2000-05-04 | Sony Corporation | Impulse response collecting method, sound effect adding apparatus, and recording medium |
JP4067762B2 (ja) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
AUPR433901A0 (en) * | 2001-04-10 | 2001-05-17 | Lake Technology Limited | High frequency signal construction method |
ATE387000T1 (de) * | 2001-05-10 | 2008-03-15 | Dolby Lab Licensing Corp | Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches |
JP3815347B2 (ja) * | 2002-02-27 | 2006-08-30 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
US7027980B2 (en) * | 2002-03-28 | 2006-04-11 | Motorola, Inc. | Method for modeling speech harmonic magnitudes |
US8019598B2 (en) * | 2002-11-15 | 2011-09-13 | Texas Instruments Incorporated | Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition |
US20050065784A1 (en) * | 2003-07-31 | 2005-03-24 | Mcaulay Robert J. | Modification of acoustic signals using sinusoidal analysis and synthesis |
WO2006043603A1 (fr) * | 2004-10-20 | 2006-04-27 | Kabushiki Kaisha Toshiba | Dispositif à ultrasons de diagnostic doppler |
WO2008022181A2 (fr) * | 2006-08-15 | 2008-02-21 | Broadcom Corporation | Mise à jour des états de décodeur après un masquage de perte de paquet |
ES2966659T3 (es) * | 2008-12-15 | 2024-04-23 | Fraunhofer Ges Forschung | Decodificador de extensión de ancho de banda de audio, procedimiento correspondiente y programa informático |
JP5275102B2 (ja) * | 2009-03-25 | 2013-08-28 | 株式会社東芝 | 音声合成装置及び音声合成方法 |
EP2237266A1 (fr) * | 2009-04-03 | 2010-10-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Appareil et procédé pour déterminer plusieurs centres locaux de fréquences de gravité du spectre d'un signal audio |
US8971551B2 (en) * | 2009-09-18 | 2015-03-03 | Dolby International Ab | Virtual bass synthesis using harmonic transposition |
SG178344A1 (en) * | 2009-08-25 | 2012-03-29 | Univ Nanyang Tech | A method and system for reconstructing speech from an input signal comprising whispers |
ES2374008B1 (es) * | 2009-12-21 | 2012-12-28 | Telefónica, S.A. | Codificación, modificación y síntesis de segmentos de voz. |
DE102010009745A1 (de) * | 2010-03-01 | 2011-09-01 | Gunnar Eisenberg | Verfahren und Vorrichtung zur Verarbeitung von Audiodaten |
-
2010
- 2010-06-25 FR FR1002674A patent/FR2961938B1/fr not_active Expired - Fee Related
-
2011
- 2011-06-21 US US13/806,825 patent/US9170983B2/en not_active Expired - Fee Related
- 2011-06-21 WO PCT/FR2011/051425 patent/WO2011161372A1/fr active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5401897A (en) * | 1991-07-26 | 1995-03-28 | France Telecom | Sound synthesis process |
Non-Patent Citations (2)
Title |
---|
CROCHIERE R E: "A WEIGHTED OVERLAP-ADD METHOD OF SHORT-TIME FOURIER ANALYSIS/SYNTHESIS", IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, IEEE INC. NEW YORK, USA, vol. ASSP. 28, no. 1, 1 February 1980 (1980-02-01), pages 99 - 102, XP002901006, ISSN: 0096-3518, DOI: DOI:10.1109/TASSP.1980.1163353 * |
GRIFFIN D W ET AL: "Signal estimation from modified short-time Fourier transform", IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING USA, vol. ASSP-32, no. 2, April 1984 (1984-04-01), pages 236 - 243, XP002618474, ISSN: 0096-3518 * |
Also Published As
Publication number | Publication date |
---|---|
US20130103173A1 (en) | 2013-04-25 |
FR2961938B1 (fr) | 2013-03-01 |
US9170983B2 (en) | 2015-10-27 |
WO2011161372A1 (fr) | 2011-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112289333A (zh) | 语音增强模型的训练方法和装置及语音增强方法和装置 | |
US8971548B2 (en) | Motor noise reduction circuit | |
EP2603862B1 (fr) | Procédé d'analyse de signaux fournissant des fréquences instantanées et des transformées de fourier glissantes et dispositif d'analyse de signaux | |
EP1395981B1 (fr) | Dispositif et procede de traitement d'un signal audio. | |
CA2841303C (fr) | Adaptations de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee | |
FR2820227A1 (fr) | Procede et dispositif de reduction de bruit | |
US8280062B2 (en) | Sound corrector, sound measurement device, sound reproducer, sound correction method, and sound measurement method | |
EP2689419B1 (fr) | Procédé et arrangement pour atténuer les fréquences dominantes dans un signal audio | |
FR2961938A1 (fr) | Synthetiseur numerique audio ameliore | |
EP3729299B1 (fr) | Filtre interpolateur numerique, dispositif de changement de rythme et equipement de reception correspondants | |
EP2689418B1 (fr) | Procédé et arrangement pour atténuer les fréquences dominantes dans un signal audio | |
EP3025342B1 (fr) | Procédé de suppression de la réverbération tardive d'un signal sonore | |
EP2361411B1 (fr) | Procédé de traitement du signal audionumérique | |
EP1103138B1 (fr) | Dispositif de traitement numerique a filtrage frequentiel et a complexite de calcul reduite | |
Gaultier | Design and evaluation of sparse models and algorithms for audio inverse problems | |
EP4184505B1 (fr) | Spatialisation sonore avec effet de salle, optimisee en complexite | |
FR2704348A1 (fr) | Procédé de reconnaissance de parole à apprentissage. | |
Kober | Fast algorithms for the computation of sliding discrete Hartley transforms | |
EP3384688B1 (fr) | Décompositions successives de filtres audio | |
Marin-Hurtado et al. | FFT-based block processing in speech enhancement: potential artifacts and solutions | |
EP3155609B1 (fr) | Analyse frequentielle par démodulation de phase d'un signal acoustique | |
TWI859552B (zh) | 聲頻處理系統、聲頻處理方法及用於執行其之非暫時性電腦可讀媒體 | |
EP4315328A1 (fr) | Estimation d'un masque optimise pour le traitement de donnees sonores acquises | |
Groot et al. | CleanUMamba: A Compact Mamba Network for Speech Denoising using Channel Pruning | |
EP1714273A1 (fr) | Procede de restauration de partiels d'un signal sonore |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 7 |
|
PLFP | Fee payment |
Year of fee payment: 8 |
|
PLFP | Fee payment |
Year of fee payment: 9 |
|
PLFP | Fee payment |
Year of fee payment: 10 |
|
ST | Notification of lapse |
Effective date: 20210205 |