[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

FR2961938A1 - Synthetiseur numerique audio ameliore - Google Patents

Synthetiseur numerique audio ameliore Download PDF

Info

Publication number
FR2961938A1
FR2961938A1 FR1002674A FR1002674A FR2961938A1 FR 2961938 A1 FR2961938 A1 FR 2961938A1 FR 1002674 A FR1002674 A FR 1002674A FR 1002674 A FR1002674 A FR 1002674A FR 2961938 A1 FR2961938 A1 FR 2961938A1
Authority
FR
France
Prior art keywords
window
data
digital
current
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1002674A
Other languages
English (en)
Other versions
FR2961938B1 (fr
Inventor
Martino Joseph Di
Laurent Pierron
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universite Henri Poincare Nancy I
Institut National de Recherche en Informatique et en Automatique INRIA
Original Assignee
Universite Henri Poincare Nancy I
Institut National de Recherche en Informatique et en Automatique INRIA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universite Henri Poincare Nancy I, Institut National de Recherche en Informatique et en Automatique INRIA filed Critical Universite Henri Poincare Nancy I
Priority to FR1002674A priority Critical patent/FR2961938B1/fr
Priority to US13/806,825 priority patent/US9170983B2/en
Priority to PCT/FR2011/051425 priority patent/WO2011161372A1/fr
Publication of FR2961938A1 publication Critical patent/FR2961938A1/fr
Application granted granted Critical
Publication of FR2961938B1 publication Critical patent/FR2961938B1/fr
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/281Reverberation or echo
    • G10H2210/285Electromechanical effectors therefor, i.e. using springs or similar electromechanical audio delay units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/261Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued
    • G10H2250/281Hamming window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

Un synthétiseur numérique audio qui comprend : * une mémoire d'entrée pour recevoir une suite de données numériques représentatives du spectre d'amplitude d'un signal audio, sur des fenêtres temporelles consécutives et chevauchantes, * un calculateur (120), agencé pour recevoir en entrée un jeu de données numériques d'esquisse d'une fenêtre courante comprenant en début de fenêtre des données extrapolées d'amplitude, et des valeurs nulles pour le reste de la fenêtre, et pour établir en réponse une représentation numérique de la transformée de Fourier discrète complexe de ce jeu, * un composeur (130), agencé pour combiner l'entrée de spectre d'amplitude associée à la fenêtre courante considérée et la représentation numérique déterminée par le calculateur, et pour appeler le calculateur (120) avec les données résultantes pour établir une représentation numérique de la transformée de Fourier discrète complexe inverse correspondante, ce qui fournit un jeu de données numériques estimées, relatives à la fenêtre courante considérée, et * un additionneur (140), pour cumuler sélectivement les données numériques estimées qui correspondent à un même temps, * le composeur (130) est agencé pour calculer un jeu de données numériques auxiliaires (xi(n)), en prenant le jeu de données numériques estimées (z(n)) courant, divisé par une fonction de fenêtre sur chaque fenêtre temporelle, * l'additionneur (140) est agencé pour ajouter le jeu de données numériques estimées courant multiplié par la fonction de fenêtre (H) à la valeur précédente du cumul, * un extrapolateur (110) agencé pour calculer le jeu de données numériques d'esquisse pour une fenêtre courante à partir du jeu de données numériques auxiliaires de la fenêtre précédente multiplié sélectivement par le carré de la fonction de fenêtre.

Description

INRIA 117.FRD Synthétiseur numérique audio amélioré
L'invention concerne la synthèse numérique audio en temps réel.
Plus particulièrement, l'invention s'applique dans les domaines qui nécessitent de réaliser une modification spectrale d'un signal audio en temps réel, par exemple dans les prothèses auditives, les jeux vidéos, la sonorisation d'espaces, etc.
Depuis le milieu des années 1980, des solutions ont été recherchées pour permettre de reconstruire un signal audio à partir de son spectre d'amplitude. Pour cela, ces méthodes se basent sur l'utilisation de la transformée de Fourier à court terme (Short-Term Fourier Transform en anglais ou STFT) dans des conditions précises.
Ces méthodes présentent néanmoins plusieurs désavantages. Le premier est qu'elles nécessitent de travailler sur tout le signal, ce qui empêche de fonctionner en temps réel. De plus, ces méthodes sont basées sur une réduction itérative non bornée qui présente un coût de calcul important.
L'invention vient améliorer la situation.
A cet effet, l'invention propose un synthétiseur numérique audio, comprenant : * une mémoire d'entrée pour recevoir une suite de données numériques représentatives du spectre d'amplitude d'un signal audio, sur des fenêtres temporelles consécutives et chevauchantes, * un calculateur, agencé pour recevoir en entrée un jeu de données numériques d'esquisse d'une fenêtre courante comprenant en début de fenêtre des données extrapolées d'amplitude, et des valeurs nulles pour le reste de la fenêtre, et pour établir en réponse une représentation numérique de la transformée de Fourier discrète complexe de ce jeu, * un composeur, agencé pour combiner l'entrée du spectre d'amplitude associé à la fenêtre courante considérée et la représentation numérique déterminée par le calculateur, et pour appeler le calculateur avec les données résultantes pour établir une représentation numérique de la transformée de Fourier discrète complexe inverse correspondante, ce qui fournit un jeu de données numériques estimées, relatives à la fenêtre courante considérée, et * un additionneur, pour cumuler sélectivement les données numériques estimées qui correspondent à un même temps.
Dans ce synthétiseur : * le composeur est agencé pour calculer un jeu de données numériques auxiliaires, en prenant le jeu de données numériques estimées courant, divisé par une fonction de fenêtre sur chaque fenêtre temporelle, 10 * l'additionneur est agencé pour ajouter le jeu de données numériques estimées courant multiplié par la fonction de fenêtre à la valeur précédente du cumul, * un extrapolateur est agencé pour calculer le jeu de données numériques d'esquisse pour une fenêtre courante à partir du jeu de données numériques auxiliaires de la fenêtre précédente multiplié sélectivement par le carré de la fonction de fenêtre. 15 D'autres caractéristiques et avantages de l'invention apparaîtront mieux à la lecture de la description qui suit, tirée d'exemples donnés à titre illustratif et non limitatif, tirés des dessins sur lesquels : - la figure 1 représente un exemple de mise en oeuvre d'un synthétiseur selon l'invention, 20 et - la figure 2 représente un diagramme de flux des opérations mises en oeuvre par le synthétiseur de la figure 1.
La description détaillée est augmentée de l'annexe A, qui donne la formulation de 25 certaines formules mathématiques mises en oeuvre dans le cadre de l'invention. Cette annexe est mise à part dans un but de clarification, et pour faciliter les renvois. Elle est partie intégrante de la description, et pourra donc non seulement servir à mieux faire comprendre la présente invention, mais aussi contribuer à sa définition, le cas échéant.
30 Les dessins et la description ci-après contiennent, pour l'essentiel, des éléments de caractère certain. Ils pourront donc non seulement servir à mieux faire comprendre la présente invention, mais aussi contribuer à sa définition, le cas échéant.
La figure 1 représente un synthétiseur audio 100 selon l'invention. Le synthétiseur 100 comprend un extrapolateur 110, un calculateur 120, un composeur 130, et un additionneur 140.
En fonctionnement, le synthétiseur 100 reçoit en entrée des données numériques 150 (ci-après notées Fi(c))) représentatives du spectre d'amplitude d'un signal audio. Les données numériques 150 sont traitées par le synthétiseur 100, et sont retournées sous la forme de données numériques de signal audio 160.
Comme cela apparaîtra avec la figure 2, le synthétiseur 100 travaille sur des fenêtres temporelles consécutives et chevauchantes. Dans l'exemple décrit ici, ces fenêtres portent sur un nombre U de trames dans le signal audio que l'on cherche à resynthétiser.
Chaque trame comprend N échantillons dont les L derniers sont extrapolés. L est choisi dans l'exemple décrit ici comme un diviseur de la taille N de la STFT. De manière préférée, N est un multiple de 4L. Le synthétiseur audio 100 fonctionne sur la base d'une boucle, dans laquelle une trame est extrapolée à chaque itération.
Le synthétiseur 100 opère conformément au diagramme de flux de la figure 2.
Dans une première opération 200, la synthèse audio est initialisée au moyen d'une fonction Init(). La fonction Init() prépare les variables et paramètres qui vont être utilisés dans la synthèse et leur assigne des valeurs d'origine. Dans l'exemple décrit ici, la fonction Init() est réalisée par le composeur 130. Ces variables et paramètres sont : - N le nombre d'échantillons de la transformée de Fourier, N est aussi le nombre d'échantillons de chaque trame, - L le nombre d'échantillons extrapolés par itération, 30 - U le nombre d'itérations, - xo(n) = 0 pour n compris entre 0 et N-l. À chaque itération, un signal xi(n) est calculé, qui sert de données auxiliaires à l'extrapolation de l'itération suivante, - s(n) = 0 pour n compris entre 0 et U*L+N-1, où s(n) est le signal resynthétisé, 25 - le compteur i est initialisé à 0.
Une fois que toutes les variables ont été initialisées, la boucle de resynthèse commence en 210 avec l'incrémentation du compteur i. Ensuite, un test sur la valeur du compteur i dans une opération 220 peut déclencher une opération 230 de sortie de boucle si l'ensemble des trames ont été traitées.
Dans le cas contraire, des données d'esquisse y(n) sont calculées dans une opération 240 au moyen d'une fonction Ext(). La fonction Ext() est dans l'exemple décrit ici réalisée par l'extrapolateur 110. La fonction Ext() utilise comme argument les données auxiliaires xi_1(n).
Pour toutes les itérations, les données auxiliaires xi_1(n) sont calculées à l'itération précédente, sauf pour la première, où xo(n) est calculé par la fonction Irait().
Pour chaque n variant entre 0 et N-L-1, la fonction Ext() définit y(n) comme le produit des données x;4(n+L) par le carré d'une fonction de fenêtrage H(n) selon la formule donnée en (10) dans l'annexe A. Pour chaque n variant entre N-L et N-1, la fonction Ext() définit y(n) égal à 0.
Ensuite, le calculateur 120 est appelé dans une opération 250 pour calculer la transformée de Fourier discrète de y(n) au moyen d'une fonction DFT(). Le résultat de cette fonction est stocké dans des données Y(w) où w varie entre 0 et N-1, selon la formule (20) de l'annexe A.
Le composeur 130 est alors appelé dans une opération 260 pour combiner les données Y(w) avec des données Fi(w) pour produire des données Z(w), au moyen d'une fonction Comp().
30 Les données Fi(w) sont des données de spectre d'amplitude du signal à resynthétiser correspondant à la trame de l'itération courante. Dans l'exemple décrit ici, les données Fi(w) sont calculées par STFT du signal à resynthétiser, en utilisant la fonction H(n) comme fonction fenêtre. 4 20 25 La fonction Comp() combine les données Y(w) avec des données Fi(w) en appliquant le module Fi(w) aux données Y(w). Ainsi, dans les données Z(w), la phase des données d'esquisse y(n) est préservée, et l'énergie de la trame à resynthétiser est réintroduite.
Dans l'exemple décrit ici, les données Fi(w) sont reçues en entrée. Cependant, le synthétiseur 100 pourrait comprendre un spectromètre audio pour calculer ces coefficients et les fournir au composeur 130.
Le synthétiseur peut également comprendre un composant placé entre le spectromètre et 10 la mémoire d'entrée propre à modifier les données numériques représentatives du spectre d'amplitude en entrée, et à transmettre les données de spectre d'amplitude modifiées à la mémoire d'entrée.
Ce composant peut appliquer un algorithme ou filtre quelconque de prétraitement du 15 spectre d'amplitude, dans le cadre par exemple d'une transformation du type voix oesophagienne vers voie laryngée.
Les données Z(w) sont alors renvoyées au calculateur 120 dans une opération 270. Dans cette opération, le calculateur 120 exécute une fonction IDFT() qui réalise l'inverse de 20 l'opération 250, et stocke le résultat dans des données z(n), selon la formule (30) de l'annexe A.
Le composeur 130 est alors rappelé dans une opération 280 pour calculer les données auxiliaires xi(n) pour l'itération suivante. Cette opération est réalisée au moyen d'une 25 fonction Rest() qui reçoit les données z(n) en entrée, et qui les divise par la fonction de fenêtre H(n).
Enfin, le signal resynthétisé s(n) est enfin calculé dans une opération 290 au moyen d'une fonction Add(), puis la boucle reprend en 210. La fonction Add() est réalisée par 30 l'additionneur 140, et reçoit comme arguments les données z(n) et le compteur i. La fonction Add() ajoute alors les données z(n) multipliées par la fonction de fenêtre H(n) aux données resynthétisées d'indice s(i*L+n), selon la formule (40) de l'annexe A.
Comme cela a été mentionné en introduction, le domaine de la resynthèse à partir du spectre d'amplitude est un domaine qui est mal connu et difficilement compris. Ce domaine fait appel à la maîtrise des transformées de Fourier à court terme (STFT), dont le sens physique n'est pas toujours maîtrisé. Bien que les phénomènes en cause ne soient pas entièrement compris, il est possible d'en donner une explication au moins partielle, comme on le verra maintenant.
Chaque itération permet d'extrapoler les L échantillons d'une trame courante. Comme 10 ces échantillons sont à la suite des trames précédentes, les données auxiliaires xi_1(n) contiennent donc déjà une grande partie du signal.
C'est pour cela que les données auxiliaires xi_i(n) sont d'abord décalées vers la gauche de L indices, et les L derniers éléments sont laissés nuls. Ensuite, les données d'esquisse 15 qui servent au calcul des données de resynthèse sont multipliées par la fonction de fenêtre H(n) au carré. La fonction de fenêtre utilisée dans l'exemple décrit ici est une fenêtre de Hamming normalisée, dont la formule est donnée en (50) dans l'annexe A.
De fait, l'opération 250 est une STFT modifiée, parce que c'est le carré de la fonction de 20 fenêtre qui est appliqué au lieu de la fonction fenêtre. C'est pour cela que les données z(n) sont divisées par la fonction de fenêtre H(n) pour donner les données auxiliaires xi(n) dans l'opération 280.
Les multiplications et division par la fonction de fenêtre ne sont pas faites au hasard. En 25 effet, on pourrait penser supprimer la division de l'opération 280 et faire une multiplication simple dans l'opération 240 au lieu d'une multiplication par le carré.
Mais cela serait ne pas tenir compte du fait que la multiplication de l'opération 250 est faite sur des x1_1(n) décalés par rapport à ceux de l'opération 280. Et ce détail est crucial, 30 car cela permet d'utiliser un signal xi(n) qui est une sorte de vision "idéalisée" du signal audio_ resynthétisé.
À l'inverse, les données resynthétisées s(n) sont fenêtrées par rapport aux données z(n). Cela est réalisé afin d'obtenir un effet de lissage de type chevauchement et addition5 (overlap-add en anglais ou OLA), et permet de limiter les discontinuités au niveau des extrémités des trames.
L'annexe A et ces explications ne sont pas qu'une suite de formules mathématiques 5 théoriques. Ainsi, le Demandeur a dans un premier temps utilisé une formule (50) avec une multiplication simple au lieu de la multiplication par le carré.
Les expérimentations ne donnant pas satisfaction, ses recherches l'ont mené à l'utilisation du carré de cette fenêtre. Cela est avantageux car la multiplication par le 10 carré de la fonction de fenêtre assure la normalisation et économise une étape de calcul.
D'autres fonctions pourraient être utilisées pour la fonction de fenêtre, comme une fenêtre de Hann normalisée ou une autre fenêtre normalisée. L'utilisation de la fenêtre normalisée est importante car celle-ci permet d'une part le lissage des données 15 resynthétisées s(n) sans qu'il soit nécessaire d'autre part de normaliser ces dernières à la fin de la resynthèse.
En effet, sans lissage, des artefacts apparaîtraient aux frontières des trames. Et sans fenêtre normalisée, il faudrait tenir compte de tous les éléments produits pour 20 normaliser, ce qui empêcherait une application temps réel.
Annexe A
0 . N-L n)= N -Ln (10) Yw -2 III -W ,71 *e N (20) 2 .titi .rt ô-1Z() * e (30) = s * L + n = s L+ n) + () ~I ) (40) 0.54- 0.46* cos (50) 4*O.542+243.462

Claims (5)

  1. REVENDICATIONS1. Synthétiseur numérique audio, comprenant : * une mémoire d'entrée pour recevoir une suite de données numériques (Fi(w)) représentatives du spectre d'amplitude d'un signal audio, sur des fenêtres temporelles consécutives et chevauchantes, * un calculateur (120), agencé pour recevoir en entrée un jeu de données numériques d'esquisse (y(n)) d'une fenêtre courante comprenant en début de fenêtre des données extrapolées d'amplitude, et des valeurs nulles pour le reste de la fenêtre, et pour établir en réponse une représentation numérique (Y(w)) de la transformée de Fourier discrète complexe de ce jeu, * un composeur (130), agencé pour combiner l'entrée de spectre d'amplitude (Fi(w)) associée à la fenêtre courante considérée et la représentation numérique (Y(w)) déterminée par le calculateur, et pour appeler le calculateur (120) avec les données résultantes pour établir une représentation numérique de la transformée de Fourier discrète complexe inverse correspondante, ce qui fournit un jeu de données numériques estimées (z(n)), relatives à la fenêtre courante considérée, et * un additionneur (140), pour cumuler sélectivement les données numériques estimées (z(n)) qui correspondent à un même temps, caractérisé en ce que : * le composeur (130) est agencé pour calculer un jeu de données numériques auxiliaires (x;(n)), en prenant le jeu de données numériques estimées (z(n)) courant, divisé par une fonction de fenêtre (H(n)) sur chaque fenêtre temporelle, * l'additionneur (140) est agencé pour ajouter le jeu de données numériques estimées (z(n)) courant multiplié par la fonction de fenêtre (H) à la valeur précédente du cumul, et en ce qu'il comprend un extrapolateur (110) agencé pour calculer le jeu de données numériques d'esquisse (y(n)) pour une fenêtre courante à partir du jeu de données numériques auxiliaires (x;_I(n)) de la fenêtre précédente multiplié sélectivement par le carré de la fonction de fenêtre.
  2. 2. Synthétiseur selon la revendication 1, dans lequel l'extrapolateur (110) calcule le jeu de données numériques d'esquisse (y(n)) pour une fenêtre courante par décalage à gauche de L échantillons du jeu de données numériques auxiliaires (x;_i(n)) de la fenêtreprécédente, avec mise à zéro des L derniers échantillons du jeu décalé, puis par multiplication terme à terme par le carré de la fonction de fenêtre.
  3. 3. Synthétiseur selon la revendication 1 ou 2, dans lequel la fonction de fenêtre (H) 5 comprend une fonction fenêtre de Hamming normalisée.
  4. 4. Synthétiseur selon l'une des revendications 1 à 3, comprenant en outre un spectromètre agencé pour calculer une suite de données numériques (Fi(w)) représentatives du spectre d'amplitude d'un signal audio en entrée, et pour transmettre 10 ces données à la mémoire d'entrée.
  5. 5. Synthétiseur selon la revendication 4, comprenant un composant placé entre le spectromètre et la mémoire d'entrée propre à modifier les données numériques représentatives du spectre d'amplitude en entrée, et à transmettre les données de spectre 15 d'amplitude modifiées à la mémoire d'entrée.
FR1002674A 2010-06-25 2010-06-25 Synthetiseur numerique audio ameliore Expired - Fee Related FR2961938B1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR1002674A FR2961938B1 (fr) 2010-06-25 2010-06-25 Synthetiseur numerique audio ameliore
US13/806,825 US9170983B2 (en) 2010-06-25 2011-06-21 Digital audio synthesizer
PCT/FR2011/051425 WO2011161372A1 (fr) 2010-06-25 2011-06-21 Synthetiseur numerique audio ameliore

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1002674A FR2961938B1 (fr) 2010-06-25 2010-06-25 Synthetiseur numerique audio ameliore

Publications (2)

Publication Number Publication Date
FR2961938A1 true FR2961938A1 (fr) 2011-12-30
FR2961938B1 FR2961938B1 (fr) 2013-03-01

Family

ID=43447302

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1002674A Expired - Fee Related FR2961938B1 (fr) 2010-06-25 2010-06-25 Synthetiseur numerique audio ameliore

Country Status (3)

Country Link
US (1) US9170983B2 (fr)
FR (1) FR2961938B1 (fr)
WO (1) WO2011161372A1 (fr)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6216550B2 (ja) * 2013-06-25 2017-10-18 クラリオン株式会社 フィルタ係数群演算装置及びフィルタ係数群演算方法
WO2016133751A1 (fr) * 2015-02-16 2016-08-25 Sound Devices Llc Conversion analogique-numérique à plage dynamique élevée à réparation de données reposant sur une régression sélective

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5401897A (en) * 1991-07-26 1995-03-28 France Telecom Sound synthesis process

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4922797A (en) * 1988-12-12 1990-05-08 Chapman Emmett H Layered voice musical self-accompaniment system
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
WO1993018505A1 (fr) * 1992-03-02 1993-09-16 The Walt Disney Company Systeme de transformation vocale
US5998725A (en) * 1996-07-23 1999-12-07 Yamaha Corporation Musical sound synthesizer and storage medium therefor
US6351730B2 (en) * 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
AU5009399A (en) * 1998-09-24 2000-05-04 Sony Corporation Impulse response collecting method, sound effect adding apparatus, and recording medium
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
AUPR433901A0 (en) * 2001-04-10 2001-05-17 Lake Technology Limited High frequency signal construction method
ATE387000T1 (de) * 2001-05-10 2008-03-15 Dolby Lab Licensing Corp Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches
JP3815347B2 (ja) * 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
US7027980B2 (en) * 2002-03-28 2006-04-11 Motorola, Inc. Method for modeling speech harmonic magnitudes
US8019598B2 (en) * 2002-11-15 2011-09-13 Texas Instruments Incorporated Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition
US20050065784A1 (en) * 2003-07-31 2005-03-24 Mcaulay Robert J. Modification of acoustic signals using sinusoidal analysis and synthesis
WO2006043603A1 (fr) * 2004-10-20 2006-04-27 Kabushiki Kaisha Toshiba Dispositif à ultrasons de diagnostic doppler
WO2008022181A2 (fr) * 2006-08-15 2008-02-21 Broadcom Corporation Mise à jour des états de décodeur après un masquage de perte de paquet
ES2966659T3 (es) * 2008-12-15 2024-04-23 Fraunhofer Ges Forschung Decodificador de extensión de ancho de banda de audio, procedimiento correspondiente y programa informático
JP5275102B2 (ja) * 2009-03-25 2013-08-28 株式会社東芝 音声合成装置及び音声合成方法
EP2237266A1 (fr) * 2009-04-03 2010-10-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Appareil et procédé pour déterminer plusieurs centres locaux de fréquences de gravité du spectre d'un signal audio
US8971551B2 (en) * 2009-09-18 2015-03-03 Dolby International Ab Virtual bass synthesis using harmonic transposition
SG178344A1 (en) * 2009-08-25 2012-03-29 Univ Nanyang Tech A method and system for reconstructing speech from an input signal comprising whispers
ES2374008B1 (es) * 2009-12-21 2012-12-28 Telefónica, S.A. Codificación, modificación y síntesis de segmentos de voz.
DE102010009745A1 (de) * 2010-03-01 2011-09-01 Gunnar Eisenberg Verfahren und Vorrichtung zur Verarbeitung von Audiodaten

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5401897A (en) * 1991-07-26 1995-03-28 France Telecom Sound synthesis process

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CROCHIERE R E: "A WEIGHTED OVERLAP-ADD METHOD OF SHORT-TIME FOURIER ANALYSIS/SYNTHESIS", IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, IEEE INC. NEW YORK, USA, vol. ASSP. 28, no. 1, 1 February 1980 (1980-02-01), pages 99 - 102, XP002901006, ISSN: 0096-3518, DOI: DOI:10.1109/TASSP.1980.1163353 *
GRIFFIN D W ET AL: "Signal estimation from modified short-time Fourier transform", IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING USA, vol. ASSP-32, no. 2, April 1984 (1984-04-01), pages 236 - 243, XP002618474, ISSN: 0096-3518 *

Also Published As

Publication number Publication date
US20130103173A1 (en) 2013-04-25
FR2961938B1 (fr) 2013-03-01
US9170983B2 (en) 2015-10-27
WO2011161372A1 (fr) 2011-12-29

Similar Documents

Publication Publication Date Title
CN112289333A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
US8971548B2 (en) Motor noise reduction circuit
EP2603862B1 (fr) Procédé d'analyse de signaux fournissant des fréquences instantanées et des transformées de fourier glissantes et dispositif d'analyse de signaux
EP1395981B1 (fr) Dispositif et procede de traitement d'un signal audio.
CA2841303C (fr) Adaptations de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
FR2820227A1 (fr) Procede et dispositif de reduction de bruit
US8280062B2 (en) Sound corrector, sound measurement device, sound reproducer, sound correction method, and sound measurement method
EP2689419B1 (fr) Procédé et arrangement pour atténuer les fréquences dominantes dans un signal audio
FR2961938A1 (fr) Synthetiseur numerique audio ameliore
EP3729299B1 (fr) Filtre interpolateur numerique, dispositif de changement de rythme et equipement de reception correspondants
EP2689418B1 (fr) Procédé et arrangement pour atténuer les fréquences dominantes dans un signal audio
EP3025342B1 (fr) Procédé de suppression de la réverbération tardive d'un signal sonore
EP2361411B1 (fr) Procédé de traitement du signal audionumérique
EP1103138B1 (fr) Dispositif de traitement numerique a filtrage frequentiel et a complexite de calcul reduite
Gaultier Design and evaluation of sparse models and algorithms for audio inverse problems
EP4184505B1 (fr) Spatialisation sonore avec effet de salle, optimisee en complexite
FR2704348A1 (fr) Procédé de reconnaissance de parole à apprentissage.
Kober Fast algorithms for the computation of sliding discrete Hartley transforms
EP3384688B1 (fr) Décompositions successives de filtres audio
Marin-Hurtado et al. FFT-based block processing in speech enhancement: potential artifacts and solutions
EP3155609B1 (fr) Analyse frequentielle par démodulation de phase d'un signal acoustique
TWI859552B (zh) 聲頻處理系統、聲頻處理方法及用於執行其之非暫時性電腦可讀媒體
EP4315328A1 (fr) Estimation d'un masque optimise pour le traitement de donnees sonores acquises
Groot et al. CleanUMamba: A Compact Mamba Network for Speech Denoising using Channel Pruning
EP1714273A1 (fr) Procede de restauration de partiels d'un signal sonore

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 7

PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9

PLFP Fee payment

Year of fee payment: 10

ST Notification of lapse

Effective date: 20210205