[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2007110553A1 - Systeme de mise en coherence de prononciations - Google Patents

Systeme de mise en coherence de prononciations Download PDF

Info

Publication number
WO2007110553A1
WO2007110553A1 PCT/FR2007/051040 FR2007051040W WO2007110553A1 WO 2007110553 A1 WO2007110553 A1 WO 2007110553A1 FR 2007051040 W FR2007051040 W FR 2007051040W WO 2007110553 A1 WO2007110553 A1 WO 2007110553A1
Authority
WO
WIPO (PCT)
Prior art keywords
pronunciation
voice
word
user
name
Prior art date
Application number
PCT/FR2007/051040
Other languages
English (en)
Inventor
Laurence Ferrieux
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to US12/295,217 priority Critical patent/US20100049518A1/en
Priority to EP07731844A priority patent/EP2002423A1/fr
Publication of WO2007110553A1 publication Critical patent/WO2007110553A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Definitions

  • the present invention relates to a system for consistency between a pronunciation of a word by a user and a confirmation pronunciation issued by a voice server.
  • the invention finds a particularly advantageous application in the field of interactive voice systems using voice recognition and speech synthesis, particularly in the context of applications implementing voice recognition for proper names, such as family names. a directory and directory contacts, or place names in location recognition systems.
  • These interactive voice services systems generally use a voice recognition engine to recognize what the user says when uttering a word, a proper name for example, and a speech synthesis engine to transmit to the user a pronunciation supposed to confirm that issued by the user in his request.
  • This confirmation pronunciation is established by the speech synthesis system from a text label provided by the voice recognition system. More specifically, tag means an identifier of what has been recognized by the voice recognition system.
  • the speech recognition systems used are able to take into account several variations of pronunciation of the same word.
  • the phonetizer can automatically establish two associated pronunciations, namely fl_ei_ch_ei and fl_ei_ch_ai_r.
  • the speech synthesis system only provides a single pronunciation for each name from a single text label.
  • the voice recognition system which is reminded that it is able to take into account the pronunciation variants of the same name, identifies that it is the name "Arrow” and provides speech synthesis system l unique textual label "arrow", which is uniquely pronounced in the form fl_ei_ch_ei. It finally results that at his request pronounced fl_ei_ch_ai_r, the user is answered a confirmation pronounced fl_ei_ch_ei by the server. Faced with such a situation of apparent incomprehension, the user generally gives up his request.
  • the technical problem to be solved by the object of the present invention is to propose a coherence system between a pronunciation of a word by a user and a confirmation pronunciation issued by a voice server, said voice server comprising a voice recognition system able to recognize the pronunciation of the word by the user and to associate a text label, and a speech synthesis system able to issue said confirmation pronunciation from said textual label, which would solve the problems.
  • difficulties mentioned above relating to the inconsistencies that may occur during dialogues between a user and the server involving names proper to pronunciation variants, while preserving the advantages of the automatic generation of these variants by the phonetizer.
  • the solution to the technical problem posed consists, according to the present invention, in that said textual label is a phonetic textual label constructed by concatenation of the phonemes of the pronunciation recognized by the speech recognition system.
  • said textual label is a phonetic textual label constructed by concatenation of the phonemes of the pronunciation recognized by the speech recognition system.
  • the method according to the invention therefore has the effect of associating with the result of the recognition a label corresponding to the concatenation phonemes of the recognized variant.
  • the recognized pronunciation variant fl_ei_ch_ai_r the system associates the phonetic text label "fl_ei_ch_ai_r” or "fleichair” which will be correctly pronounced fl_ei_ch_ai_r by the system of speech synthesis in its confirmation message.
  • the invention provides that a prosody indicator is associated with said phonetic text label.
  • a table maintains the correspondence between the spelling of the word and the phoneme strings corresponding to the variants.
  • Figure 1 is a diagram of a voice service system implementing the coherence system according to the invention.
  • Figure 1 is shown a voice server 1 associated with a voice service phone book or directory, for example.
  • a phonetizer 10 automatically generates the possible pronunciations for the words.
  • the phonetizer 10 provides a large number of variants that can be related to the origin regional or foreign words, or more simply an ambiguity of pronunciation rules not lifted by use.
  • the system provides as many entries as there are important variants. Two entries diverging by a "dumb e" will not necessarily be considered as two different variants and can be grouped under a single textual label, by convention without "e dumb".
  • the phonetizer 10 generates a single pronunciation d_y_r_an for the name "Durand” which has no pronunciation variant and the two pronunciation variants fl_ei_ch_ei and fl_ei_ch_ai_r of "Arrow".
  • the voice recognition system 20 recognizes this variant of pronunciation and transmits to the speech synthesis system 30 a phonetic text label 21 corresponding to the list of recognized phonemes that can be written "Fl_ei_ch_ai_r” or "fleichair".
  • the speech synthesis system 30 transmits a confirmation message in which the requested name is correctly spoken fl_ei_ch_ai_r, in accordance with the user's initial pronunciation.
  • the confirmation message may be a fully synthetic message or a mixed mode message that combines recorded segments, such as "Did you say," and summary segments, such as the recognized name.
  • a prosody indicator is associated with the list of phonemes to indicate that it is a family name and that it must be pronounced as such.
  • the phonetic text label 21 is accompanied by the [Nfam] indicator specifying that the list of associated phonemes, namely here fl_ei_ch_ai_r, must be pronounced as a surname.
  • this indicator of prosody can be any and write for example ["Dupont"] for a last name.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

Système de mise en cohérence entre une prononciation d'un mot par un utilisateur et une prononciation de confirmation émise par un serveur vocal (1), ledit serveur vocal comprenant un système (20) de reconnaissance vocal apte à reconnaître la prononciation du mot par l'utilisateur et à lui associer une étiquette textuelle, et un système (30) de synthèse de la parole apte à émettre ladite prononciation de confirmation à partir de ladite étiquette textuelle. Selon l'invention, ladite étiquette textuelle est une étiquette textuelle phonétique (21) construite par concaténation des phonèmes de la prononciation reconnue par le système (20) de reconnaissance vocale. Application aux services vocaux mettant en oevre des variantes de prononciations de mots.

Description

SYSTEME DE MISE EN COHERENCE DE PRONONCIATIONS
La présente invention concerne un système de mise en cohérence entre une prononciation d'un mot par un utilisateur et une prononciation de confirmation émise par un serveur vocal.
L'invention trouve une application particulièrement avantageuse dans le domaine des systèmes vocaux interactifs utilisant la reconnaissance vocale et la synthèse de la parole, notamment dans le cadre des applications mettant en œuvre la reconnaissance vocale pour les noms propres, tels que les noms de famille d'un annuaire et les contacts d'un répertoire, ou encore les noms de lieux dans les systèmes de reconnaissance de localisation. Ces systèmes de services vocaux interactifs utilisent généralement un moteur de reconnaissance vocale pour reconnaître ce que dit l'utilisateur lorsqu'il prononce un mot, un nom propre par exemple, et un moteur de synthèse de la parole pour émettre à destination de l'utilisateur une prononciation censée confirmer celle émise par l'utilisateur dans sa demande. Cette prononciation de confirmation est établie par le système de synthèse de la parole à partir d'une étiquette textuelle fournie par le système de reconnaissance vocale. Plus précisément, on entend par étiquette un identificateur de ce qui a été reconnu par le système de reconnaissance vocale. Dans la plupart des systèmes vocaux existants, les systèmes de reconnaissance vocale utilisés sont capables de prendre en compte plusieurs variantes de prononciation d'un même mot. Pour les noms propres, le nombre de variantes de prononciation calculées automatiquement par un phonétiseur à partir d'une même forme orthographique est souvent importante puisque la prononciation de ces noms est davantage affectée par les particularités régionales ou par la langue d'origine du nom que pour les nom communs. Les différences entre deux prononciations d'un même nom peuvent donc être significatives. Ainsi par exemple, pour le nom propre « Flécher », le phonétiseur peut établir de manière automatique deux prononciations associées, à savoir fl_ei_ch_ei et fl_ei_ch_ai_r.
Par contre, le système de synthèse de la parole ne fournit qu'une prononciation unique pour chaque nom à partir d'une seule étiquette textuelle.
Dans l'exemple précédent, l'étiquette textuelle associée au nom « Flécher » est « flécher » que le système de synthèse de la parole prononce fl_ei_ch_ei de manière unique.
On comprend que dans un système vocal mettant en œuvre des noms propres, il existe un risque important d'incohérence entre la prononciation de l'utilisateur et celle restituée par le système de synthèse de la parole. Cet écart est une source de difficultés lors du déroulement d'un dialogue homme- machines dans le contexte, par exemple, d'un annuaire ou d'une liste de contacts dans un répertoire. Ces difficultés peuvent être illustrées de la façon suivante. Imaginons qu'un utilisateur s'adresse à un serveur d'annuaire vocal pour obtenir le numéro de téléphone d'une personne dont le nom de famille est « Flécher » en prononçant ce nom fl_ei_ch_ai_r. Le système de reconnaissance vocal, dont on rappelle qu'il est capable de prendre en compte les variantes de prononciation d'un même nom, repère qu'il s'agit du nom « Flécher » et fournit au système de synthèse de la parole l'étiquette textuelle unique « flécher », laquelle est prononcé de manière unique sous la forme fl_ei_ch_ei. Il en résulte finalement qu'à sa demande prononcée fl_ei_ch_ai_r, l'utilisateur se voit répondre une confirmation prononcée fl_ei_ch_ei par le serveur. Devant une telle situation d'incompréhension apparente l'utilisateur renonce généralement à sa demande.
Pour résoudre cette difficulté, on pourrait utiliser comme approche permettant d'obtenir une meilleure cohérence entre les prononciations de transformer les noms ayant plusieurs variantes de prononciation en autant d'entrées distinctes avec des étiquettes textuelles ayant des orthographes donnant des prononciations non ambiguës. Dans l'exemple précédent, le nom « Flécher » serait associé à une première étiquette « fléché » prononcée fl_ei_ch_ei par le système de synthèse de la parole et une seconde étiquette « fléchaire » qui serait prononcée fl_ei_ch_ai_r.
Cependant, une telle approche ne permettrait pas au système de tirer directement profit des variantes générées automatiquement par le phonétiseur car il faudrait intervenir manuellement au cas par cas pour modifier les entrées et les étiquettes textuelles associées, ce qui n'est pas envisageable pour des applications à grands vocabulaires comme un annuaire national qui compte plusieurs millions d'entrées.
Aussi, le problème technique à résoudre par l'objet de la présente invention est de proposer un système de mise en cohérence entre une prononciation d'un mot par un utilisateur et une prononciation de confirmation émise par un serveur vocal, ledit serveur vocal comprenant un système de reconnaissance vocal apte à reconnaître la prononciation du mot par l'utilisateur et à lui associer une étiquette textuelle, et un système de synthèse de la parole apte à émettre ladite prononciation de confirmation à partir de ladite étiquette textuelle, qui permettrait de résoudre les difficultés mentionnées plus haut relatives aux incohérences pouvant se produire lors de dialogues entre un utilisateur et le serveur impliquant des noms propres à variantes de prononciation, tout en préservant les avantages de la génération automatique de ces variantes par le phonétiseur.
La solution au problème technique posé consiste, selon la présente invention, en ce que ladite étiquette textuelle est une étiquette textuelle phonétique construite par concaténation des phonèmes de la prononciation reconnue par le système de reconnaissance vocale. Ainsi, comme on le verra en détail plus loin, la cohérence est maintenue entre les mécanismes de reconnaissance et de synthèse en utilisant la transcription phonétique des variantes de prononciation générées automatiquement par l'outil de phonétisation des mots, ou phonétiseur. Cette approche ne nécessite donc pas de gérer manuellement des correspondances pseudo-orthographiques, c'est à dire des orthographes de mots conduisant à une prononciation unique, permettant de lever l'ambiguïté.
Le procédé conforme à l'invention a donc pour effet d'associer au résultat de la reconnaissance une étiquette correspondant à la concaténation des phonèmes de la variante reconnue. Dans l'exemple précité, à la variante de prononciation reconnue fl_ei_ch_ai_r le système associe l'étiquette textuelle phonétique « fl_ei_ch_ai_r » ou « fleichair » qui sera prononcée correctement fl_ei_ch_ai_r par le système de synthèse de la parole dans son message de confirmation.
Avantageusement, l'invention prévoit qu'un indicateur de prosodie est associé à ladite étiquette textuelle phonétique.
Cette disposition permet de conserver la prosodie calculée automatiquement par le système pour une phrase complète dans laquelle vient s'insérer le mot résultat. Par exemple, les noms propres ont tendance à être prononcés en baissant la voix en finale, contrairement aux noms communs.
Le fait d'entendre le système reformuler le nom en utilisant la même variante de prononciation que l'utilisateur limite le risque de voir ce dernier refuser la bonne solution simplement à cause d'une prononciation qu'il ne reconnaît pas.
Pour l'utilisation du mot reconnu dans d'autres actions du système, recherche dans une base de données par exemple, une table maintient la correspondance entre l'orthographe du mot et les chaînes de phonèmes correspondant aux variantes.
La description qui va suivre en regard du dessin annexé, donné à titre d'exemple non limitatif, fera bien comprendre en quoi consiste l'invention et comment elle peut être réalisée.
La figure 1 est un schéma d'un système de service vocal mettant en oeuvre le système de mise en cohérence conforme à l'invention.
Sur la figure 1 est représenté un serveur vocal 1 associé à un service vocal d'annuaire téléphonique ou de répertoire, par exemple.
A partir d'une liste 2 contenant des noms propres en mode textuel, tels que les noms de famille d'un annuaire ou des contacts d'un répertoire, un phonétiseur 10 génère automatiquement les prononciations possibles pour les mots. S'agissant plus particulièrement des noms propres, le phonétiseur 10 fournit un nombre important de variantes qui peuvent être liées à l'origine régionale ou étrangère des mots, ou plus simplement à une ambiguïté des règles de prononciation non levée par l'usage.
Au moment de la génération du modèle de reconnaissance, le système fournit autant d'entrées qu'il y a de variantes importantes. Deux entrées divergeant par un « e muet » ne seront pas nécessairement considérées comme deux variantes différentes et peuvent être regroupées sous une seule étiquette textuelle, par convention sans « e muet ».
Dans l'exemple montré à la figure 1 , le phonétiseur 10 génère une seule prononciation d_y_r_an pour le nom « Durand » qui n'a pas de variante de prononciation et les deux variantes de prononciation fl_ei_ch_ei et fl_ei_ch_ai_r de « Flécher ».
Lorsque l'utilisateur prononce le nom qu'il recherche, ici le nom
« Flécher » prononcé « Fléchair », soit phonétiquement fl_ei_ch_ai_r, le système 20 de reconnaissance vocale reconnaît cette variante de prononciation et transmet au système 30 de synthèse de la parole une étiquette textuelle phonétique 21 correspondant à la liste des phonèmes reconnus qui peut s'écrire « fl_ei_ch_ai_r » ou « fleichair ».
Le système 30 de synthèse de la parole émet un message de confirmation dans lequel le nom demandé est correctement prononcé fl_ei_ch_ai_r , conformément à la prononciation initiale de l'utilisateur. Le message de confirmation peut être un message construit entièrement par synthèse ou un message en mode mixte combinant des segments enregistrés, comme « Avez-vous dit », et des segments de synthèse, comme le nom reconnu. De manière à assurer la génération d'une prosodie correcte de la phrase par le système 30 de synthèse, un indicateur de prosodie est associé à la liste des phonèmes afin d'indiquer qu'il s'agit d'un nom de famille et qu'il doit être prononcé en tant que tel.
Sur la figure 1 , on peut voir que l'étiquette textuelle phonétique 21 est accompagné de l'indicateur [Nfam] précisant que la liste des phonèmes associée, à savoir ici fl_ei_ch_ai_r , doit être prononcé comme un nom de famille. Bien entendu, cet indicateur de prosodie peut être quelconque et s'écrire par exemple [« Dupont »] pour un nom de famille.

Claims

REVENDICATIONS
1. Système de mise en cohérence entre une prononciation d'un mot par un utilisateur et une prononciation de confirmation émise par un serveur vocal (1 ), ledit serveur vocal comprenant un système (20) de reconnaissance vocal apte à reconnaître la prononciation du mot par l'utilisateur et à lui associer une étiquette textuelle, et un système (30) de synthèse de la parole apte à émettre ladite prononciation de confirmation à partir de ladite étiquette textuelle, caractérisé en ce que ladite étiquette textuelle est une étiquette textuelle phonétique (21 ) construite par concaténation des phonèmes de la prononciation reconnue par le système (20) de reconnaissance vocale.
2. Système selon la revendication 1 , caractérisé en ce qu'un indicateur de prosodie est associé à ladite étiquette textuelle phonétique (21 ).
PCT/FR2007/051040 2006-03-29 2007-03-29 Systeme de mise en coherence de prononciations WO2007110553A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/295,217 US20100049518A1 (en) 2006-03-29 2007-03-29 System for providing consistency of pronunciations
EP07731844A EP2002423A1 (fr) 2006-03-29 2007-03-29 Systeme de mise en coherence de prononciations

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0651085 2006-03-29
FR0651085 2006-03-29

Publications (1)

Publication Number Publication Date
WO2007110553A1 true WO2007110553A1 (fr) 2007-10-04

Family

ID=36847646

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2007/051040 WO2007110553A1 (fr) 2006-03-29 2007-03-29 Systeme de mise en coherence de prononciations

Country Status (3)

Country Link
US (1) US20100049518A1 (fr)
EP (1) EP2002423A1 (fr)
WO (1) WO2007110553A1 (fr)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US8949125B1 (en) * 2010-06-16 2015-02-03 Google Inc. Annotating maps with user-contributed pronunciations
EP2642482A1 (fr) * 2012-03-23 2013-09-25 Tata Consultancy Services Limited Procédé et système de traitement de la parole adaptés à la prononciation des locuteurs étrangers
GB201320334D0 (en) * 2013-11-18 2014-01-01 Microsoft Corp Identifying a contact
US10102852B2 (en) * 2015-04-14 2018-10-16 Google Llc Personalized speech synthesis for acknowledging voice actions
CN108288470B (zh) * 2017-01-10 2021-12-21 富士通株式会社 基于声纹的身份验证方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1139318A4 (fr) * 1999-09-27 2002-11-20 Kojima Co Ltd Systeme d'evaluation de la prononciation
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
EP1215661A1 (fr) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Appareil portable à reconnaissance de la parole
JP2002318594A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
US7099828B2 (en) * 2001-11-07 2006-08-29 International Business Machines Corporation Method and apparatus for word pronunciation composition
US20050273337A1 (en) * 2004-06-02 2005-12-08 Adoram Erell Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HIDEYUKI MIZUNO ET AL: "DEVELOPMENT OF SPEECH DESIGN TOOL SESIGN99 TO ENHANCE SYNTHESIZED SPEECH", 1999, EUROSPEECH, BUDAPEST, HUNGARY, XP007001420 *
YEON-JUN KIM, ANN SYRDAL, ALISTAIR CONKIE: "Pronunciation Lexicon Adaptation for TTS Voice Building", INTERSPEECH (ICSLP), 2004 - 2204, Jeju, Korea, pages 1 - 4, XP002397124 *

Also Published As

Publication number Publication date
EP2002423A1 (fr) 2008-12-17
US20100049518A1 (en) 2010-02-25

Similar Documents

Publication Publication Date Title
WO2007110553A1 (fr) Systeme de mise en coherence de prononciations
US7490039B1 (en) Text to speech system and method having interactive spelling capabilities
Chafe Language and the flow of thought
EP2453436A3 (fr) Mise à jour automatique de modèle de langage
US20080133241A1 (en) Phonetic decoding and concatentive speech synthesis
EP1769489B1 (fr) Procede et systeme de reconnaissance vocale adaptes aux caracteristiques de locuteurs non-natifs
WO2006023631A3 (fr) Adaptation d'un systeme de transcription de documents
Tree Coordinating spontaneous talk
Morin French data and phonological theory
Crocco Is Italian Clitic Right Dislocation grammaticalised? A prosodic analysis of yes/no questions and statements
Bigi et al. Orthographic Transcription: which Enrichment is required for phonetization?
Cardona Indian linguistics
Goad et al. Articles in Turkish/English interlanguage revisited
Tang et al. Aspects of Cantonese grammar
Stromberg Observations on inner-scriptural scribal expansion in MT Ezekiel
Ward The relationship between sound and meaning in Japanese back-channel grunts
Zainkó et al. A polyglot domain optimised text-to-speech system for railway station announcements
Idiatov Word-final consonant epenthesis in Northeastern Nigerian English
KR20090109501A (ko) 언어학습용 리듬훈련 시스템 및 방법
Chineze et al. Linguistic variation and change in Nawfija speech community
US11176930B1 (en) Storing audio commands for time-delayed execution
Caspers Pitch accents, boundary tones and turn-taking in dutch map task dialogues
Mellesmoen A fricative-first path from Proto-Salish* c to/s/and/θ/in Central Salish
Côté Edge effects and the prosodic hierarchy: Evidence from stops and affricates in Basque
Sadanobu et al. Hesitant word-internal prolongation in Japanese and Korean

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07731844

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2007731844

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 12295217

Country of ref document: US