FR2553555A1 - Procede de codage de la parole et dispositif pour sa mise en oeuvre - Google Patents
Procede de codage de la parole et dispositif pour sa mise en oeuvre Download PDFInfo
- Publication number
- FR2553555A1 FR2553555A1 FR8316392A FR8316392A FR2553555A1 FR 2553555 A1 FR2553555 A1 FR 2553555A1 FR 8316392 A FR8316392 A FR 8316392A FR 8316392 A FR8316392 A FR 8316392A FR 2553555 A1 FR2553555 A1 FR 2553555A1
- Authority
- FR
- France
- Prior art keywords
- message
- version
- spoken
- coded
- written
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 23
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- SFITWQDBYUMAPS-UHFFFAOYSA-N mecloqualone Chemical compound CC1=NC2=CC=CC=C2C(=O)N1C1=CC=CC=C1Cl SFITWQDBYUMAPS-UHFFFAOYSA-N 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
DISPOSITIF DE CODAGE DE LA PAROLE, CARACTERISE EN CE QU'IL COMPORTE DES MOYENS 2 POUR ANALYSER ET CODER LA VERSION PARLEE DU MESSAGE A CODER, ET DES MOYENS 3 POUR COMBINER LES CODES DU MESSAGE ECRIT CORRESPONDANT AUX CODES DU MESSAGE PARLE ET POUR ENGENDRER UN CODE DE COMBINAISON CONTENANT DES DONNEES DE DUREE ET DE FREQUENCE FONDAMENTALE DES ALLOPHONES DU MESSAGE CODE.
Description
1, 2553555
La présente invention est relative au codage
de la parole.
Dans de nombreuses applications, le signal de la parole est codé de telle sorte qu'il peut être 5 stocké de façon numérique en vue d'être émis plus tard ou bien être reproduit localement par un dispositif quelconque. Dans les deux cas précités, une cadence de bits très faible peut être nécessaire soit pour satis10 faire à une exigence de canal de transmission, soit
pour permettre le stockage d'un vocabulaire très étendu.
Une faible cadence de bits-peut être obtenue
en utilisant la synthèse de la parole à partir d'un 15 texte.
Le code obtenu peut être une représentation
orthographique du texte lui-même, ce qui permet d'obtenir une cadence de bits de 50 bits/seconde.
Pour simplifier le décodeur utilisé dans une 20 installation de traitement des informations codées de ce type, le code peut être composé d'une séquence de codes de phonèmes et de repères prosodiques obtenus à partir du texte, une telle conception entraînant un
léger accroissement de la cadence de bits.
Malheureusement, la parole reproduite de cette manière pèche par un important manque de naturel et dans les meilleurs des cas, elles est d'une grande monotonie. La cause essentielle de ce défaut est l'in30 tonation " synthétique " que l'on obtient avec un tel procédé. Un tel résultat est très compréhensible lorsque l'on considère la complexité des phénomènes d'intonation qui doivent non seulement satisfaire
2 255355
certaines règles linguistiques, mais également refléter certains aspects de la personnalité et de l'état
d esprit de la personne qui parle.
Il est à l'heure actuelle difficile de 5 prévoir quand des règles prosodiques capables de donner au language des intonations "humaines" seront
disponibles pour tous les languages.
Il existe par ailleurs des procédés de codage qui impliquent des cadences de bits beaucoup plus 10 élevées.
De tels procédés donnent des résultats satisfaisants mais présentent l'inconvénient essentiel
de nécessiter de disposer de mémoires dont la capacité est telle qu'elle rend leur emploi souvent prohi15 bitif.
L'invention vise à remédier aux inconvénients précités en créant un procédé de synthèse de la parole qui, tout en nécessitant une cadence de bits relativement peu importante, assure la reproduction de 20 la parole avec des intonations se rapprochant considérablement des intonations naturelles de la voix humaine.
Elle a donc pour objet un procédé de codage de la parole, consistant à effectuer un codage de la 25 version écrite d'un message à coder, caractérisé en ce qu'il consiste en outre à coder la version parlée du même message et à combiner aux codes du message écrit les codes des paramètres d'intonation tirés du message parlé. L'invention sera mieux comprise à l'aide de
la description qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins
annexés, sur lesquels: la Fig 1 est un diagramme montrant le trajet de correspondance optimale entre les versions parlée et synthétique d'un message à coder par le procédé de l'invention; la Fig 2 est une vue schématique d'un 5 dispositif de codage de la parole mettant en oeuvre le procédé de l'invention; la Fig 3 est une vue schématique d'un dispositif de décodage d'un message codé selon le procédé
de l'invention.
L'utilisation d'un message sous une forme écrite a pour objectif de produire un modèle acoustique du message dans lequel les limites phonétiques
sont connues.
Ceci peut être obtenu en utilisant l'une des 15 techniques de synthèse de la parole telles que: la synthèse par règle dans laquelle chaque segment acoustique correspondant à chaque phonème du message est obtenu en utilisant des règles acoustiques/phonétiques et qui consiste à calculer les para20 mètres acoustiques du phonème considéré d'après le
contexte dans lequel il doit être réalisé.
( G Fant & al _ O V E II Synthesis, Strategy Proc of Speech Comm Seminar, Stockholm 1962, L R Rabiner, Speech Synthesis by Rule: 25 An acoustic Domain Approach Bell Syst Tech J 47,
17-37, 1968,
L R Rabiner, A model for synthesizing speech by rule IEEE trans on Audio and Electr AU 17, pp 7-13, 1969, D H Klatt, Structure of a Phonological Rule component for a Synthesis by Rule Program, IEEE
Trans ASSP-24, 391-398 1976).
la synthèse par -concaténation d'unités phonétiques emmagasinées, dans un dictionnaire ces unités pouvant être des diphones (N R Dixon & H D. Maxey Technical Analog Synthesis of Continuous speech using the Diphone Method of Segment Assembly, IEEE Trans AU-16, 40-50, 1968, F Emerard Synthèse par diphone et traitement de la Prosodie Thèse 3 ème cycle Univ des
Langues et Lettres, Grenoble, 1977).
Les unités phonétiques peuvent également être des allophones (Kun Shan Lin et al Text 10 10 speech using allophone stringing), des demi-syllabes (M.3 Macchi A phonetic dictionary for demi-syllabic speech synthesis proc of 3 CASSP 1980, p 565) ou d'autres unités ( G V Benbassat, X Delon) application de la distinction trait-indice-propriété à la 15 construction d'un logiciel pour la synthèse Speech
Comm 3 Vol 2, n' 2-3 Juillet 1983 pp 141,144.
Les unités phonétiques sont choisies selon des règles plus ou moins sophistiquées en fonction de
la nature des unités et de l'entrée écrite.
Le message écrit peut être donné soit sous sa forme régulière orthographique soit sous une forme phonologique Lorsque le message est donné sous une forme orthographique, il peut être transcrit sous une forme phonologique en utilisant un algorithme appro25 prié (B A Sherwood Fast text-to-speech algorithms for Esperant, Spanish, Italian, Russian and English Int. 3 Man-Machine Studies, 10, 669-692, 1978) ou être
directement converti en un ensemble d'unités phonétiques.
Le codage de la version écrite du message étant réalisé par l'un des procédés connus précités, on va maintenant procéder au codage du message parlé correspondant. La version parlée du message est d'abord
2553555
numérisée et ensuite analysée afin d'obtenir une représentation acoustique du signal de la parole similaire à celle engendrée à partir de la forme écrite du
message que l'on appelera version synthétique.
Par exemple, les paramètres cpestraux peuvent être obtenus à partir d'une transformation de Fourier ou, d'une façon plus classique, à partir d'une analyse prédictive linéaire ( J D Markel, A H Gray, Linear Prediction of speech Springer Verlas, Berlin 10 1976). Ces paramètres peuvent ensuite être stockés sous une forme qui est adaptée pour calculer une distance spectrale entre chaque tronçon de la version
parlée et la version synthétique.
Par exemple, si la version synthétique du message est obtenue par concaténation, de segments analysés par prédiction linéaire, la version parlée
peut être également analysée en utilisant la prédiction linéaire.
Les paramètres de prédiction linéaire peuvent être aisément convertis sous la forme de paramètres cpestraux (J D Markel, A H Gray) et une
distance euclidienne entre les deux jeux de coefficients cpestraux forment une bonne mesure de la dis25 tance entre les spectres de faible amplitude.
La fréquence fondamentale de la version parlée peut être obtenue en utilisant l'un des nombreux algorithmes de détermination de la fondamentale de signal de parole existants (L R Rabiner & 30 al A comparative performance study of several pitch
detection algorithms, IEEE Trans Acoust Speech and signal Process, Vol ASSP 24, pp 399-417 Oct 1976.
B.Secrest, G Boddignton, Post-processing techniques for voice pitch trackers Procs of the ICASSP 1982 -
6 2553555
Paris, pp 172-175).
Les versions parlée et synthétique sont ensuite comparées en utilisant une technique de programmation dynamique agissant sur les distances 5 spectrales d'une manière devenue classique dans la
reconnaissance globale de la parole (H SAKOE ET S.CHI 8 A Dynamic programming algorithm optimisation for spoken word recognition IEEE trans ASSP-26-1, Fev.
1978).
Cette technique est également appelée compression-extension temporelle dynamique car elle fournit une correspondance élément par élément ( ou projection) entre les deux versions du message de sorte
que la distance spectrale totale entre elles est ré15 duite au minimum.
Sur la Fig 1, on a représenté en abcisses
des unités phonétiques de la version synthétique d'un message et en ordonnées, la version parlée de ce même message dont les segments correspondent respectivement 20 aux unités phonétiques de la version synthétique.
Afin de faire correspondre la durée de la
version synthétique avec celle de la version parlée, il est suffisant d'ajuster la durée de chaque unité phonétique de manière à la rendre égale à la durée de 25 chaque segment correspondant de la version parlée.
Après cet ajustement, étant donné que les durées sont égales, la fréquence fondamentale de la version synthétique peut être rendu égale à celle de la version parlée simplement en rendant la fréquence 30 fondamentale de chaque tronçon des unités phonétiques
égale à la fréquence fondamentale du tronçon correspondant de la version parlée.
La prosodie est alors composée des compressions-extensions de durée à appliquer à chaque unité
7 2553555
phonétique et du contour de la fréquence fondamentale
de la version parlée.
On va maintenant examiner le codage de la
prosodie La prosodie peut être codée de différentes 5 manières qui dépendent du compromis fidélité/cadence de bits souhaité.
Une façon très précise pour effectuer ce
codage est la suivante.
Pour chaque tronçon des unités phonétiques, 10 le trajet optimal correspondant peut être vertical,
horizontal, ou diagonal.
Si le-trajet est vertical, cela signifie que
la partie de la version parlée correspondant à ce tronçon est prolongée d'un facteur égal à la longueur 15 du trajet dans un certain nombre de tronçons.
Au contraire, si le trajet est horizontal, tous les tronçons des unités phonétiques situés sous cette portion du trajet doivent être raccourcis d'un facteur qui est égal à la longueur du trajet Si le 20 trajet est diagonal, les tronçons correspondants des
unités phonétiques doivent conserver la même longueur.
Avec une contrainte locale appropriée de la compression-extension temporelle, la longueur des trajets horizontaux et verticaux peut être raisonna25 blement limitée à trois tronçons Alors, pour chaque
tronçon des unités phonétiques, la compression-extension de durée peut être codée à l'aide de trois bits.
La fréquence fondamentale de chaque tronçon de la version parlée peut être copiée dans chaque 30 tronçon correspondant des unités phonétiques, en
utilisant une interpolation d'ordre zéro ou un.
Les valeurs de la fréquence fondamentale
peuvent être codées efficacement avec six bits.
Il en résulte qu'un tel codage conduit à un
taux de 9 bits/tronçon pour la prosodie.
Si l'on suppose une moyenne de 40 tronçons/s
ceci donne une cadence-de l'ordre de 400 bits/s y compris le code phonétique.
Un mode de codage plus compact peut être obtenu en employant un nombre limité de caractères pour coder à la fois la compression-extension en durée
et le contour de la fréquence fondamentale.
De telles formes peuvent être identifiées 10 pour des segments contenant plusieurs unités phonétiques. Un choix approprié pour ces segments est la syllabe Une définition pratique de la syllabe est la suivante: C (groupe consonantique) 3 voyelle C(groupe consonantique) J ( = facultatif) Une syllabe correspond à plusieurs unités
phonétiques et ses limites peuvent être déterminées automatiquement à partir de la forme écrite du message Ensuite, les limites de la syllabe peuvent être identifiées sur la version parlée Puis, si un groupe 25 de contours de fréquences fondamentales caractéristiques de syllabe a été choisi comme caractères représentatifs, chacun d'eux peut être comparé au contour de fréquence fondamentale réel de la syllabe dans la version parlée et on choisit alors le plus proche du 30 contour de fréquence fondamentale réel.
Par exemple, si l'on -a 32 caractères, le code de fréquence fondamentale pour une syllabe occupe bits. En ce qui concerne la durée, une syllabe
9 2553555
peut être scindée en 3 Segments comme indiqué plus haut. Le facteur de compression-extension temporelle peut être calculé pour chacune des zones comme expliquée pour le procédé précédemment décrit. Les groupes de trois facteurs de compression
extension peut être limité à un nombre fini en choisissant le plus proche dans un jeu de caractères.
Pour 32 caractères, ceci conduit à nouveau à 10 5 bits par syllabe.
La solution qui vient d'être décrite nécessite environ 10 bits/syllabe pour la prosodie ce qui conduit à un total d'environ 120 bits/s y compris le
code phonétique.
Sur la Fig 2, on a représenté le schéma d'un dispositif de codage de la parole mettant en oeuvre le
procédé suivant l'invention.
L'entrée du dispositif est constituée par la
sortie d'un microphone non représenté.
Elle est appliqué à l'entrée d'un circuit 2
d'analyse et de codage par prédiction linéaire; la sortie de ce circuit est connecté à l'entrée d'un circuit 3 d'élaboration d'algorithme d'adaptation.
Une autre entrée du circuit 3 est connectée 25 à la sortie d'une mémoire 4 qui constitue un dictionnaire d'allophones.
Enfin, sur une troisième entrée 5, le circuit 3 d'élaboration d'algorithme d'adaptation reçoit les séquences d'allophones Le circuit 3 délivre à sa 30 sortie un message codé contenant la durée et les
fréquences fondamentales des allophones.
Afin d'assigner la prosodie d'une phrase à une chaine d'allophones, la phrase est enregistrée et analysée dans le circuit 3 en utilisant le codage par
2553555
prédiction linéaire.
Les allophones sont ensuite comparés avec la
phrase codée par prédiction linéaire dans le circuit 3 et des informations de prosodie telles que la durée 5 des allophones et la fréquence fondamentale sont tirées de la phrase et assignées à la chaine d'allophones.
La cadence des données provenant du microphone à l'entrée du circuit de la Fig 2 étant par 10 exemple de 96 000 bits/s, le message codé correspondant disponible à la sortie de ce circuit a une cadence de 120 bits/s.
La répartition des bits est la suivante.
bits pour la désignation d'un allophone/ 15 phonème ( 32 valeurs) 3 bits pour la durée ( 7 valeurs) bits pour la fréquence fondamentale ( 7 valeurs)
Ceci fait au total 13 bits par phonème.
Si l'on considère qu'il y a de l'ordre de 9 à 10 phonèmes par seconde, on obtient une cadence de
l'ordre de 120 bits/s.
Le circuit représenté à la Fig 3 est le circuit de décodage des signaux engendrés par le circuit 25 de la Fig 2.
Ce dispositif comporte un circuit 6 d'élaboration d'algorithmes de concaténation dont une entrée est destinée à recevoir le message codé à 120 bits/s. Par une autre entrée, le circuit 6 est connecté à un dictionnaire d'allophones 7 La sortie du circuit 6 est reliée à l'entrée d'un synthétiseur 8,
par exemple du type TMS 5200 A La sortie du synthétiseur 8 est connectée à un haut-parleur 9.
1 2553555
Le circuit 6 délivre un message codé par prédiction linéaire dont la cadence est de 1800 bits/s et le synthétiseur 8 convertit à son tour ce message en un message dont la cadence est de 64000 bits/s exploitable par le haut-parleur 9. Pour la langue américaine, on a développé un dictionnaire d'allophone comprenant 128 allophones d'une longueur comprise entre 2 et 15 tronçons, la
longueur moyenne étant de 4,5 tronçons.
Pour la langue française, le processus de concaténation des allophones est différent en ce que le dictionnaire comporte 250 états stables et autant
de transitions.
Les zones d'interpolation sont utilisées 15 pour rendre plus régulières les transitions entre les
allophones du dictionnaire américain.
Les zones d'interpolation sont également utilisées pour régulariser l'énergie au début et à la fin des phrases Pour obtenir une cadence de données 20 de 120 bits/s, trois bits par phonème sont réservés à
l'information de durée.
Le code de durée est le rapport du nombre de tronçons dans l'allophone modifié au nombre de tronçons dans l'original Ce rapport de codage est 25 nécessaire pour les allophones de la langue américaine
car leur longueur peut varier de 1 à 15 tronçons.
En revanche étant donné que les ensembles transitions + états stables de la langue française ont une longueur de 4 à 5 tronçons, leur longueur modifiée 30 peut être égale à 2 à 9 tronçons et le code de durée peut être le nombre de tronçons dans l'ensemble états
stables + transitions modifié.
L'invention qui vient d'être décrite permet un codage de la parole avec une cadence de données
12 2553555
relativement faible par rapport aux cadences obtenues
par les procédés classiques.
Elle donc particulièrement applicable pour la réalisation de livres dont les pages comportent en 5 parallèle avec des lignes d'écriture ou des images, un texte correspondant codé et reproductible par un synthétiseur. Elle est également très intéressante à utiliser dans les systèmes de vidéo-texte développés par 10 la Demanderesse et notamment dans les dispositifs pour l'audition de messages parlés synthétisés et pour la visualisation de messages graphiques correspondants du type décrit à la demande de brevet FR 83 09 194
déposée le 2 3 uin 1983 par la Demanderesse.
Claims (9)
1 Procédé de codage de la parole, consistant à effectuer un codage de la version écrite d'un message à coder, caractrisé en ce qu'il consiste 5 en outre à coder la version parlée du même message et à combiner aux codes du message écrit, les codes des
paramètres d'intonation tirés du message parlé.
2 Procédé suivant la revendication 1,
caractérisé en ce que la version écrite est utilisée 10 pour engendrer les composants en segments du message.
3 Procédé suivant l'une quelconque des
revendications 1 et 2, caractérisé en ce que la version parlée du message à coder est analysée puis comparée avec les segments concaténés obtenus à partir 15 de la version écrite afin de déterminer l'alignement
correct dans le temps entre les deux versions.
4 Procédé suivant la revendication 3, caractérisé en ce que les composants de la forme écrite étant engendrés par concaténation de petits 20 segments sonores stockés dans un dictionnaire, la version parlée est comparée avec lesdits segments concaténés en utilisant un algorithme de programmation dynamique. Procédé suivant la revendication 4, ca25 ractérisé en ce que ladite programmation dynamique
opère sur les distances spectrales.
6 Dispositif de codage de la parole destiné
à mettre en oeuvre le procédé suivant l'une quelconque des revendications 1 à 5, caractérisé en ce qu'il com30 porte des moyens ( 2) pour analyser et coder la version
parlée du messsage à coder, et des moyens ( 3) pour combiner les codes du message écrit correspondant aux codes du message parlé et pour engendrer un code de
combinaison contenant des données de durée et de fré-
14 2553555
quence fondamentale des allophones du message codé.
7 Dispositif suivant la revendication 6,
caractérisé en ce que lesdits moyens d'analyse et de codage de la version parlée du message à coder sont 5 constitués par un circuit d'analyse et de codage par prédiction linéaire.
8 Dispositif suivant l'une des revendications 5 à 7, caractérisé en ce que lesdits moyens ( 3) de combinaison des codes de la version parlée à ceux 10 de la version écrite du message à coder comprennent
des moyens pour élaborer un algorithme d'adaptation auxquels est associé un dictionnaire d'allophones ( 4) en vue de la synthèse par concaténation des composants
de la version écrite.
9 Dispositif de décodage d'un message codé
par le procédé suivant l'une quelconque des revendications 1 à 5 caractérisé en ce qu'il comporte des moyens ( 6) d'élaboration d'un algorithme de concaténation en vue d'engendrer des signaux codés par prédic20 tion linéaire à partir du code résultant de la
combinaison des codes de la version écrite et de la version parlée du message et de données contenues dans
un dictionnaire d'allophones ( 7) associé, et un synthétiseur de la parole ( 8) associé à des moyens ( 9) de 25 reproduction sonore.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR8316392A FR2553555B1 (fr) | 1983-10-14 | 1983-10-14 | Procede de codage de la parole et dispositif pour sa mise en oeuvre |
EP84402062A EP0140777B1 (fr) | 1983-10-14 | 1984-10-12 | Procédé de codage de la parole et dispositif pour sa mise en oeuvre |
DE8484402062T DE3480969D1 (de) | 1983-10-14 | 1984-10-12 | Verfahren zur codierung von sprache und einrichtung zur durchfuehrung des verfahrens. |
JP59216004A JP2885372B2 (ja) | 1983-10-14 | 1984-10-15 | 音声符号化方法 |
US07/266,214 US4912768A (en) | 1983-10-14 | 1988-10-28 | Speech encoding process combining written and spoken message codes |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR8316392A FR2553555B1 (fr) | 1983-10-14 | 1983-10-14 | Procede de codage de la parole et dispositif pour sa mise en oeuvre |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2553555A1 true FR2553555A1 (fr) | 1985-04-19 |
FR2553555B1 FR2553555B1 (fr) | 1986-04-11 |
Family
ID=9293153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR8316392A Expired FR2553555B1 (fr) | 1983-10-14 | 1983-10-14 | Procede de codage de la parole et dispositif pour sa mise en oeuvre |
Country Status (5)
Country | Link |
---|---|
US (1) | US4912768A (fr) |
EP (1) | EP0140777B1 (fr) |
JP (1) | JP2885372B2 (fr) |
DE (1) | DE3480969D1 (fr) |
FR (1) | FR2553555B1 (fr) |
Families Citing this family (95)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0632020B2 (ja) * | 1986-03-25 | 1994-04-27 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声合成方法および装置 |
US5278943A (en) * | 1990-03-23 | 1994-01-11 | Bright Star Technology, Inc. | Speech animation and inflection system |
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
US5333275A (en) * | 1992-06-23 | 1994-07-26 | Wheatley Barbara J | System and method for time aligning speech |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
US5642466A (en) * | 1993-01-21 | 1997-06-24 | Apple Computer, Inc. | Intonation adjustment in text-to-speech systems |
CA2119397C (fr) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Synthese vocale automatique utilisant un traitement prosodique, une epellation et un debit d'enonciation du texte ameliores |
JPH0671105U (ja) * | 1993-03-25 | 1994-10-04 | 宏 伊勢田 | 複数の錐刃を収納した連接錐 |
SE516526C2 (sv) * | 1993-11-03 | 2002-01-22 | Telia Ab | Metod och anordning vid automatisk extrahering av prosodisk information |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
US5864814A (en) * | 1996-12-04 | 1999-01-26 | Justsystem Corp. | Voice-generating method and apparatus using discrete voice data for velocity and/or pitch |
US5875427A (en) * | 1996-12-04 | 1999-02-23 | Justsystem Corp. | Voice-generating/document making apparatus voice-generating/document making method and computer-readable medium for storing therein a program having a computer execute voice-generating/document making sequence |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
US5995924A (en) * | 1997-05-05 | 1999-11-30 | U.S. West, Inc. | Computer-based method and apparatus for classifying statement types based on intonation analysis |
US5987405A (en) * | 1997-06-24 | 1999-11-16 | International Business Machines Corporation | Speech compression by speech recognition |
US6081780A (en) * | 1998-04-28 | 2000-06-27 | International Business Machines Corporation | TTS and prosody based authoring system |
US6246672B1 (en) | 1998-04-28 | 2001-06-12 | International Business Machines Corp. | Singlecast interactive radio system |
FR2786600B1 (fr) * | 1998-11-16 | 2001-04-20 | France Telecom | Procede de recherche par le contenu de documents textuels utilisant la reconnaissance vocale |
US6144939A (en) * | 1998-11-25 | 2000-11-07 | Matsushita Electric Industrial Co., Ltd. | Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains |
US6230135B1 (en) | 1999-02-02 | 2001-05-08 | Shannon A. Ramsay | Tactile communication apparatus and method |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6625576B2 (en) * | 2001-01-29 | 2003-09-23 | Lucent Technologies Inc. | Method and apparatus for performing text-to-speech conversion in a client/server environment |
JP3895758B2 (ja) * | 2004-01-27 | 2007-03-22 | 松下電器産業株式会社 | 音声合成装置 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20090132237A1 (en) * | 2007-11-19 | 2009-05-21 | L N T S - Linguistech Solution Ltd | Orthogonal classification of words in multichannel speech recognizers |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
DE602008000303D1 (de) * | 2008-09-03 | 2009-12-31 | Svox Ag | Sprachsynthese mit dynamischen Einschränkungen |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
WO2012134877A2 (fr) * | 2011-03-25 | 2012-10-04 | Educational Testing Service | Systèmes et procédés, implémentés dans des ordinateurs, servant à évaluer des traits prosodiques de contenus vocaux |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197336A1 (fr) | 2013-06-07 | 2014-12-11 | Apple Inc. | Système et procédé pour détecter des erreurs dans des interactions avec un assistant numérique utilisant la voix |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (fr) | 2013-06-07 | 2014-12-11 | Apple Inc. | Système et procédé destinés à une prononciation de mots spécifiée par l'utilisateur dans la synthèse et la reconnaissance de la parole |
WO2014197335A1 (fr) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interprétation et action sur des commandes qui impliquent un partage d'informations avec des dispositifs distants |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0042155A1 (fr) * | 1980-06-12 | 1981-12-23 | Texas Instruments Incorporated | Dispositif de lecture de données à commande manuelle pour des synthétiseurs de parole |
EP0059880A2 (fr) * | 1981-03-05 | 1982-09-15 | Texas Instruments Incorporated | Dispositif pour la synthèse de la parole à partir d'un texte |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5919358B2 (ja) * | 1978-12-11 | 1984-05-04 | 株式会社日立製作所 | 音声内容伝送方式 |
US4685135A (en) * | 1981-03-05 | 1987-08-04 | Texas Instruments Incorporated | Text-to-speech synthesis system |
US4731847A (en) * | 1982-04-26 | 1988-03-15 | Texas Instruments Incorporated | Electronic apparatus for simulating singing of song |
EP0095139A3 (fr) * | 1982-05-25 | 1984-08-22 | Texas Instruments Incorporated | Synthèse de parole à partir de données prosodiques et de données caractérisant le son de la voix humaine |
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
FR2547146B1 (fr) * | 1983-06-02 | 1987-03-20 | Texas Instruments France | Procede et dispositif pour l'audition de messages parles synthetises et pour la visualisation de messages graphiques correspondants |
-
1983
- 1983-10-14 FR FR8316392A patent/FR2553555B1/fr not_active Expired
-
1984
- 1984-10-12 DE DE8484402062T patent/DE3480969D1/de not_active Expired - Lifetime
- 1984-10-12 EP EP84402062A patent/EP0140777B1/fr not_active Expired
- 1984-10-15 JP JP59216004A patent/JP2885372B2/ja not_active Expired - Lifetime
-
1988
- 1988-10-28 US US07/266,214 patent/US4912768A/en not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0042155A1 (fr) * | 1980-06-12 | 1981-12-23 | Texas Instruments Incorporated | Dispositif de lecture de données à commande manuelle pour des synthétiseurs de parole |
EP0059880A2 (fr) * | 1981-03-05 | 1982-09-15 | Texas Instruments Incorporated | Dispositif pour la synthèse de la parole à partir d'un texte |
Non-Patent Citations (3)
Title |
---|
IBM TECHNICAL DISCLOSURE BULLETIN, vol. 23, no. 7B, décembre 1980, New York (US) * |
ICASSP 79 (IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING) Washington D.C., 2-4 avril 1979, IEEE, New York (US) * |
ICASSP 80 PROCEEDINGS (IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING), Denver, Colorado, 9-11 avril 1980, vol. 1 des 3, IEEE, New York (US) * |
Also Published As
Publication number | Publication date |
---|---|
DE3480969D1 (de) | 1990-02-08 |
EP0140777B1 (fr) | 1990-01-03 |
FR2553555B1 (fr) | 1986-04-11 |
US4912768A (en) | 1990-03-27 |
JPS60102697A (ja) | 1985-06-06 |
JP2885372B2 (ja) | 1999-04-19 |
EP0140777A1 (fr) | 1985-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2553555A1 (fr) | Procede de codage de la parole et dispositif pour sa mise en oeuvre | |
US11605371B2 (en) | Method and system for parametric speech synthesis | |
US7979274B2 (en) | Method and system for preventing speech comprehension by interactive voice response systems | |
CA2351988C (fr) | Methode et systeme de preselection d'unites convenables de paroles enchainees | |
US20050182629A1 (en) | Corpus-based speech synthesis based on segment recombination | |
US20230335107A1 (en) | Reference-Free Foreign Accent Conversion System and Method | |
Shi et al. | Muskits: an end-to-end music processing toolkit for singing voice synthesis | |
US20110046957A1 (en) | System and method for speech synthesis using frequency splicing | |
Acero | Source-filter models for time-scale pitch-scale modification of speech | |
Hsieh et al. | A speaking rate-controlled Mandarin TTS system | |
Nthite et al. | End-to-End Text-To-Speech synthesis for under resourced South African languages | |
Ramasubramanian et al. | Ultra low bit-rate speech coding | |
US20060178873A1 (en) | Method of synthesis for a steady sound signal | |
Bunnell | Speech synthesis: Toward a “Voice” for all | |
Leontiev et al. | Improving the Quality of Speech Synthesis Using Semi-Syllabic Synthesis | |
JP2023139557A (ja) | 音声合成装置、音声合成方法及びプログラム | |
Kumari et al. | 20Conversion of English Text-to-Speech (TTS) Using Indian Speech Signal | |
Glinski | Diphone speech synthesis based on a pitch-adaptive short-time Fourier transform | |
JP6159436B2 (ja) | 読み記号列編集装置および読み記号列編集方法 | |
JP2809769B2 (ja) | 音声合成装置 | |
EP1589524A1 (fr) | Procédé et dispositif pour la synthèse de la parole | |
Hinterleitner et al. | Speech synthesis | |
Shamsi et al. | Investigating the Relation Between Voice Corpus Design and Hybrid Synthesis | |
JP2012163721A (ja) | 読み記号列編集装置および読み記号列編集方法 | |
Pahwa et al. | More Than Meets the Ears: The Voice Transformers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |