[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2003271194A - 音声対話装置及びその制御方法 - Google Patents

音声対話装置及びその制御方法

Info

Publication number
JP2003271194A
JP2003271194A JP2002070320A JP2002070320A JP2003271194A JP 2003271194 A JP2003271194 A JP 2003271194A JP 2002070320 A JP2002070320 A JP 2002070320A JP 2002070320 A JP2002070320 A JP 2002070320A JP 2003271194 A JP2003271194 A JP 2003271194A
Authority
JP
Japan
Prior art keywords
voice
tone
quality
input
recognizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002070320A
Other languages
English (en)
Inventor
Kazue Kaneko
和恵 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002070320A priority Critical patent/JP2003271194A/ja
Publication of JP2003271194A publication Critical patent/JP2003271194A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】ユーザの声の話調及び/又は声質に対して、応
答側の合成音声の話調及び/又は声質を変えることで、
より親しみやすい音声対話を提供する。 【解決手段】認識モデル103は複数種類の話調に対応
した認識モデルを含む。音声認識部104は、認識モデ
ル103を参照して、音声入力部101よりの入力音声
の話調及び内容を認識する。話調決定部108は、音声
認識部104で認識された話調に基づいて合成音声の話
調を決定する。応答文作成部105は、認識された内容
に対する応答文を作成し、応答文解析部106がこれを
読みに変換する。波形生成部109は、話調決定部10
8で決定された話調と、応答文解析部106によって得
られた応答文の読みに基づいて音声波形を生成し、音声
出力部111がこれを音声出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザの音声を認
識し、その認識結果に応じて合成音声で応答する音声対
話装置及びその制御方法に関する。
【0002】
【従来の技術】従来の音声対話システムでは、ユーザの
音声を認識結果としての文字情報に変換し、それに対応
する応答の文を合成音声で出力するものが主流であり、
常に一定の調子での音声による応答しか得られないもの
であった。近年、音声認識や音声合成の技術の進歩によ
り、さまざまな場面での音声対話システムが実現可能と
なってきており、表現豊かな応答を返す、より親しみや
すい音声対話システムが期待されている。
【0003】例えば、ユーザの音声から感情や性別・年
齢などの情報を認識し、システム側は、この認識結果に
基づいて相手に合わせた文体の応答文を作成し、CGの
顔画像を使って表情豊かに応答するなどの提案がなされ
ている。
【0004】また、ユーザの発声した文のアクセント型
や声の高さや大きさや話す速度を検出して、合成音声の
アクセント型や声の高さや大きさ及び話す速度をユーザ
の発声に適応させるという提案もなされている。
【0005】
【発明が解決しようとする課題】ユーザの音声に含まれ
る感情や性別・年齢などを認識して、顔画像の表情など
で応答の表現力をあげるという方法では、画像表示部分
を持たない電話などによる音声対話システムでは利用で
きない。また、応答内容の文体などを変更するという手
段は、電子メールの読み上げや文学作品の朗読など、も
との内容を変更することが好ましくない場面では利用で
きない。
【0006】また、ユーザのアクセント型や声の高さや
大きさや話す速度に、合成音声のアクセント型や声の高
さや大きさ話す速度を適応させるという方法では、感情
表現というところまで行なえず、親しみやすさという点
で限界がある。
【0007】本発明は上記課題に鑑みてなされたもので
あり、ユーザの声の話調及び/または声質に対応して応
答側の合成音声の話調及び/または声質を変えることを
可能とし、より親しみやすい合成音声による対話を実現
することを目的とする。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めの本発明による音声対話装置は以下の構成を備える。
すなわち、入力音声を認識し、認識結果に応じた応答文
を合成音声で出力する音声対話装置であって、前記入力
音声の話調及び内容を認識する認識手段と、前記認識手
段で認識された話調に基づいて合成音声の話調を決定す
る決定手段と、前記決定手段で決定された話調で、前記
入力音声の内容に対する応答文の合成音声を生成する生
成手段とを備える。また、上記の目的を達成するための
本発明の他の構成による音声対話装置は以下の構成を備
える。即ち、入力音声を認識し、認識結果に応じた応答
文を合成音声で出力する音声対話装置であって、前記入
力音声の声質及び内容を認識する認識手段と、前記認識
手段で認識された声質に基づいて合成音声の声質を決定
する決定手段と、前記決定手段で決定された声質で、前
記入力音声の内容に対する応答文の合成音声を生成する
生成手段とを備える。
【0009】また、上記の目的を達成するための本発明
による音声対話装置の制御方法は、入力音声を認識し、
認識結果に応じた応答文を合成音声で出力する音声対話
装置の制御方法であって、前記入力音声の話調及び内容
を認識する認識工程と、前記認識工程で認識された話調
に基づいて合成音声の話調を決定する決定工程と、前記
決定工程で決定された話調で、前記入力音声の内容に対
する応答文の合成音声を生成する生成工程とを備える。
更に、上記の目的を達成する本発明の他の構成による音
声対話装置の制御方法は、入力音声を認識し、認識結果
に応じた応答文を合成音声で出力する音声対話装置の制
御方法であって、前記入力音声の声質及び内容を認識す
る認識工程と、前記認識工程で認識された声質に基づい
て合成音声の声質を決定する決定工程と、前記決定工程
で決定された声質で、前記入力音声の内容に対する応答
文の合成音声を生成する生成工程とを備える。
【0010】
【発明の実施の形態】以下、添付の図面を参照して本発
明の実施形態を詳細に説明する。
【0011】以下で説明する第1乃至第3実施形態で
は、音声認識において複数種類の話調(ささやき声や明
るい声や悲しそうな声などの複数種類の話調)の認識モ
デルを用いて、ユーザの発声した音声の内容ととともに
その話調を認識する。そして、音声合成処理において、
複数種類の話調の音声波形辞書を用い、ユーザの話調に
応じた話調の音声を合成する。なお、応答文の合成音声
をユーザの話調に適応させる他に、ユーザの声質に適応
させるように構成してもよい(第4乃至第6実施形
態)。
【0012】<第1実施形態>図1は、第1実施形態に
よる音声対話装置の構成を示すブロック図である。図1
において、101は音声入力部であり、ユーザの音声を
入力する。102はデータベースであり、認識結果に対
応する応答文を生成するために使用される。103は認
識モデルであり、ユーザの発声内容とその話調を認識す
るのに用いられる。104は音声認識部であり、認識モ
デル103を用いてユーザの発声内容と話調を認識す
る。
【0013】105は応答文作成部であり、音声認識部
104で認識した発声内容から応答文を作成する。10
6は応答文解析部であり、応答文作成部105で作成さ
れた応答文を解析して読み方を付与する。107は言語
解析用辞書であり、応答文解析部106が応答文を解析
するために用いられる。
【0014】108は話調決定部であり、音声合成にお
いて用いる話調を、音声認識部104にてユーザの音声
から認識した話調にもっとも近い話調に決定する。10
9は波形生成部であり、応答文解析部106で得られた
応答文の読みと、話調決定部108で決定された話調で
音声波形を生成する。110は音声波形辞書であり、複
数種類の話調の音声素片を格納する。111は音声出力
部であり、波形生成部109で生成された音声波形に従
って、応答文の音声を出力する。
【0015】以上の各部の構成は汎用のパーソナルコン
ピュータにおいて、メモリに格納された以下のフローチ
ャートで説明するプログラムをCPUが実行することに
より実現される。また、データベース102、認識モデ
ル103、言語解析用辞書107、音声波形辞書110
は、それぞれ当該パーソナルコンピュータによってアク
セスが可能な外部記憶装置に格納される。
【0016】図7は第1実施形態による音声対話処理の
手順を説明するフローチャートである。
【0017】まず、ステップS701で音声入力部10
1によりユーザの音声を入力する。そして、ステップS
702において、音声認識部104は、ユーザの発声内
容とその話調を認識する。なお、認識のための認識モデ
ル103は、複数種類の話調について、複数の人間がそ
れぞれの話調で発声した音声データを用いて作成された
複数種類の隠れマルコフモデル(HMM)である。それ
ぞれの話調のHMMとのマッチングをとり、もっともよ
くマッチングしたモデルの話調と発声内容を認識結果と
する。
【0018】ステップS703において、話調決定部1
08は、音声合成の話調を決定する。ここでは、音声波
形辞書110に用意されている話調のうち、ユーザの音
声の認識結果の話調に一番近い話調を選択する。
【0019】ステップS704で、応答文作成部105
は、ユーザの発声内容から応答文を作成する。応答文
は、「こんにちは」に対する「こんにちは」、「ありが
とう」に対する「どういたしまして」のような会話の上
での対応づけのとれているものもあるが、ユーザの「今
日の天気は?」といった質問に対して、「9月25日の
横浜の天気は晴れ、午後一時曇り、降水確率は午前中0
%、午後は10%、最低気温は15度、最高気温は28
度です」といったような外部のデータを参照して作成す
るものまでさまざまである。図1のデータベース102
はこれらの応答を作成するために必要な情報源である。
【0020】ステップS705では、応答文解析部10
6が応答文の言語解析を行なう。例えば日本語の音声合
成においては、漢字かな混じり文についての読み表記を
作成する。英語の音声合成においてはスペルから発音記
号表記を作成する。
【0021】ステップS706では、波形生成部109
が、話調決定部108で決定された話調に対応した音声
波形辞書から、読みや発音記号に相当する音声素片を取
り出し、話調に合せた韻律の生成やポーズの配置を行い
音声波形を作成する。ステップS707では、音声出力
部111が、波形生成部109で生成された音声波形を
用いて音声を出力する。
【0022】以上のように、第1実施形態によれば、入
力された音声の話調に応じて、入力音声の話調にもっと
も近い話調の音声が合成されるので、機械とのより自然
な音声対話が実現される。
【0023】<第2実施形態>第1実施形態では、話調
を音声認識部104で認識された話調に最も近い話調と
するように合成音声の話調を決定した。第2実施形態で
は、入力音声の話調に対する合成音声の話調を対応付け
るテーブルを用意し、これに基づいて合成音声の話調を
決定する。
【0024】図2は第2実施形態による音声対話装置の
構成を示すブロック図である。第1実施形態と同様の構
成には同一の参照番号を付してある。208は話調決定
部であり、音声認識部104で認識された入力音声の話
調で話調対応付けテーブル211を検索し、応答文の話
調を決定する。話調対応付けテーブル211には、ユー
ザの話調と応答音声(合成音声)の話調の対応づけがあ
らかじめ登録されている。
【0025】以上の構成を備えた第2実施形態による音
声対話装置の動作は第1実施形態と同様であるが、ステ
ップS703において、話調決定部208は音声認識部
104で認識された入力音声の話調に対応付けられた話
調を、話調対応付けテーブル211を参照して取得し、
応答音声の話調を決定する。図9の(a)は話調対応付
けテーブル211の一例である。ユーザがノーマルな状
態の声の場合は、システムの応答もノーマルな声で応答
する。ユーザがささやき声のときは、システム側もささ
やき声で応答する。ユーザが悲しそうな声のときは、シ
ステム側は穏やかな声で応答し、ユーザが怒った声のと
きは、システム側は緊張した声で応答する。この応答は
ユーザーに同調する方向のものであり、対話戦略におい
て、ユーザーに反感を抱かせずさらなる発話を促すため
のものである。
【0026】なお、図9(a),(b)において、ユー
ザとは入力音声(の話調)を、システムとは応答音声
(の話調)を表す。また、第2実施形態では、話調の対
応を図9の(a)のように、ユーザに同調させるものと
したが、図9の(b)のように、ユーザの悲しそうな声
に対してシステム側で朗らかな声で応答し、怒った声に
対してはささやき声で応答するような、ユーザ側の感情
を反対方向に誘導するような対応づけを用いてもよい。
【0027】<第3実施形態>第2実施形態において、
話調対応付けテーブル211を参照して合成音声の話調
を決定することを説明したが、第3実施形態では、複数
種類の話調対応付けテーブルを用意し、所望のテーブル
をユーザが選択できるようにする。
【0028】図3は第3実施形態による音声対話装置の
構成を示すブロック図である。第1実施形態或いは第2
実施形態と同様の構成には同一の参照番号を付してあ
る。311は話調対応選択部であり、話調対応付けテー
ブル312に格納されている複数種類の話調対応付けテ
ーブルから所望のテーブルを選択する。ステップS80
3において、話調決定部308は、第2実施形態の話長
決定部208とほぼ同じ機能を有するが、話調対応選択
部311で選択された話調対応付けテーブルを参照して
合成音声の話調を決定する。
【0029】例えば、話調対応付けテーブルには、図9
(a)と図9(b)に示すようなテーブルが登録されて
おり、話調対応選択部311はユーザの指示により所望
のテーブルを選択する。話調決定部308は、話調対応
選択部311によって選択されている方のテーブルを参
照して合成音声の話調を決定する。なお、図9(a),
(b)では2種類のテーブルを示したがテーブル数は3
つ以上あってもかまわない。
【0030】なお、テーブルの選択に際しては、音声対
話装置が備える表示装置上に図9の(a)、(b)に示
すような表を表示して、所望のテーブルをユーザに選択
させるインターフェースが提供されるようにする。
【0031】以上のように第3実施形態によれば、入力
音声の内容に対応する応答文の音声出力に際して、入力
音声の話調に応じた所望の話調で音声合成を行なうこと
が可能となる。
【0032】なお、第3実施形態ではテーブルの選択を
行なう構成を示したが、話調対応付けテーブルを任意に
作成できる(話調対応付けテーブルを編集可能とする)
ようにしてもよい。例えば、図9(a)においてユーザ
側の話調とシステム側の話調の任意な組み合わせを設定
できるようにしてもよい。この場合、入力音声の2種類
の話調に対して合成音声の話調を1種類とすることがで
きるようにしてもよい(例えば、ユーザ側の「ノーマル
な声」と「ささやき声」に「ノーマルな声」を割り当て
可能としてもよい)。
【0033】<第4実施形態>上記第1乃至第3実施形
態では、入力音声の話調に応じて、合成音声の話調を決
定した。第4実施形態では、入力音声の声質に応じて合
成音声の声質を決定する。
【0034】図4は、第4実施形態による音声対話装置
の構成を示すブロック図である。図4において、第1乃
至第3実施形態の音声対話装置と同様の構成には同一の
参照番号を付してある。
【0035】認識モデル403は、ユーザの発声内容と
複数種類の声質を認識するためのモデルが登録されてい
る。音声認識部404は、認識モデル403を参照して
ユーザの発声内容と声質を認識する。声質決定部408
は、ユーザの音声から認識した声質にもっとも近い声質
を、当該入力音声に対する応答文の合成音声で使用する
声質として決定する。波形生成部409は、応答文解析
部106で得られた応答文の読みと、声質決定部408
で決定された声質に基づいて、音声波形辞書410を参
照して音声波形を生成する。音声波形辞書410は、複
数種類の声質の音声素片を格納する。
【0036】図8は第4実施形態による音声対話処理を
説明するフローチャートである。
【0037】まず、ステップS801で音声入力部10
1によりユーザの音声を入力する。ステップS802で
は、音声認識部404が、認識モデル403を参照し
て、入力音声の発声内容とその声質を認識する。
【0038】発声内容と声質の認識のための認識モデル
403は、年齢・性別によってグループ分けした人間の
発声した音声を用いて作成した複数種類の隠れマルコフ
モデル(HMM)である。入力音声について、それそれ
の声質のHMMとのマッチングをとり、もっともよくマ
ッチングした認識モデルの声質と発声内容を認識結果と
する。
【0039】ステップS803では、声質決定部408
が、ステップS802で認識された声質に基づいて音声
合成の声質を決定する。第4実施形態では、音声波形辞
書410に登録されている声質のうち、音声認識部40
4で認識されたユーザ音声の声質に一番近いものが選択
される。
【0040】ステップS804 で、応答文作成部10
5は、音声認識部404で認識されたユーザの発声内容
から応答文を作成する。応答文は、「こんにちは」に対
する「こんにちは」、「ありがとう」に対する「どうい
たしまして」のような会話の上での対応づけのとれてい
るものもあるが、ユーザの「今日の天気は?」といった
質問に対して、「9月25日の横浜の天気は晴れ、午後
一時曇り、降水確率は午前中0%、午後は10%、最低
気温は15度、最高気温は28度です」といったよう
な、外部のデータを参照して作成するものまでさまざま
である。データベース102はこれらの応答を作成する
ために必要な情報源を示す。
【0041】ステップS805で、応答文解析部106
により応答文の言語解析を行なう。日本語においては漢
字かな混じり文についての読み表記を作成する。英語に
おいてはスペルから発音記号表記を作成する。
【0042】ステップS806では、波形生成部409
が、応答音声の声質にあった音声波形辞書から読みや発
音記号に相当する音声素片を取り出し、声質に合せた韻
律の生成やポーズの配置を行い音声波形を作成する。ス
テップS807では、音声出力部111が波形生成部4
09で生成した音声波形に基づいて音声を出力する。
【0043】以上のように第4実施形態によれば、入力
音声に応じた声質で応答文を発声することが可能とな
る。
【0044】<第5実施形態>第4実施形態では、入力
音声の声質を認識し、認識された声質に最も近い声質の
合成音声を生成する。第5実施形態では、第2実施形態
で説明した話調対応付けテーブルに類似の声質対応付け
テーブルを用いて、合成音声の声質を決定する。
【0045】図5は第5実施形態による音声対話装置の
構成を示すブロック図である。第1乃至第4実施形態と
同様の構成には同一の参照番号を付してある。508は
声質決定部であり、音声認識部404で認識された入力
音声の声質で声質対応付けテーブル511を検索し、応
答文の声質を決定する。声質対応付けテーブル511に
は、ユーザの声質と応答音声(合成音声)の声質の対応
づけがあらかじめ登録されている。
【0046】以上の構成を備えた第5実施形態による音
声対話装置の動作は第4実施形態と同様であるが、ステ
ップS803において、音声認識部104で認識された
入力音声の話調に対応付けられた声質を声質対応付けテ
ーブル511を参照して取得し、応答音声の声質に決定
する。例えば、図10の(a)は、この声質対応付けテ
ーブル511の一例である。ユーザが成人男性音声の場
合は、システムの応答は成人女性音声で応答し、ユーザ
が成人女性音声のときは、システム側は成人男性音声で
応答するといった対応づけが与えられている。
【0047】なお、図10(a),(b)において、ユ
ーザとは入力音声(の声質)を、システムとは応答音声
(の声質)を表す。
【0048】<第6実施形態>第5実施形態において、
声質対応付けテーブル511を参照して合成音声の声質
を決定することを説明したが、第6実施形態では、複数
種類の声質対応付けテーブルを用意し、所望のテーブル
をユーザが選択できるようにする。
【0049】図6は第6実施形態による音声対話装置の
構成を示すブロック図である。第1乃至第5実施形態と
同様の構成には同一の参照番号を付してある。611は
声質対応選択部であり、声質対応付けテーブル612に
格納されている複数種類の声質対応付けテーブルから所
望のテーブルを選択する。
【0050】ステップS803において、声質決定部6
08は、声質対応選択部611で選択された声質対応付
けテーブルを参照して合成音声の声質を決定する。
【0051】例えば、声質対応付けテーブル612に
は、図10(a)と図10(b)に示すようなテーブル
が登録されており、声質対応選択部311はユーザの指
示により所望のテーブルを選択する。声質決定部608
は、声質対応選択部611によって選択されている方の
テーブルを参照して合成音声の声質を決定する。なお、
図10では2種類のテーブルを示したがテーブル数は3
つ以上あってもかまわない。
【0052】なお、テーブルの選択に際しては、音声対
話装置が備える表示装置上に図10の(a)、(b)に
示すような表を表示して、所望のテーブルをユーザに選
択させるインターフェースが提供されるようにする。
【0053】以上のように第6実施形態によれば、入力
音声の内容に対応する応答文の音声出力に際して、入力
音声の声質に応じた所望の声質で音声合成を行なうこと
が可能となる。
【0054】なお、第6実施形態ではテーブルの選択を
行なう構成を示したが、声質対応付けテーブルを任意に
作成できる(声質対応付けテーブルを編集可能とする)
ようにしてもよい。例えば、図10(a)においてユー
ザ側の声質とシステム側の声質の任意な組み合わせを設
定できるようにしてもよい。この場合、入力音声の2種
類の声質に対して合成音声の声質を1種類とすることが
できるようにしてもよい(例えば、ユーザ側の「成人男
性音声」と「成人女性音声」に「子供男性音声」を割り
当て可能としてもよい)。
【0055】なお、第1〜第6の各実施形態では、音声
認識の認識モデルに隠れマルコフモデルを使用したが、
ニューラルネットなどの別のモデルを用いてもよい。
【0056】また、上記第1〜第3実施形態では、話調
としてささやき声や喜怒哀楽などの感情のこもった声を
採用しているが、DJ調、ナレーター調、朗読調などの
より韻律部分に特徴のあるものも話調の種類としてもよ
い。
【0057】また、上記第1〜第6実施形態では、一番
よくマッチングした話調や音質のモデルのみを認識結果
に採用しているが、候補が複数ある場合の上位に入った
ものの話調や音質の組みあわせを認識結果とし、その組
み合わせで応答の話調を決定するようにしてもよい。例
えば、ユーザの音声の認識結果として、悲しそうな声と
怒った声がともに上位にあがった場合は、ささやき声で
応答するというような対応づけが考えられる。
【0058】また、上記実施形態では、声質として年齢
と性別の組み合わせを採用しているが、バスやテノール
アルトやソプラノなどのベースとなる声の高さも声質の
種類として採用してもよい。図10の(b)がその対応
例である。
【0059】更に、上記実施形態では、話調を対応させ
るもの(第1乃至第3実施形態)と声質を対応させるも
の(第4乃至第6実施形態)とに分けて説明したが、話
調及び声質を入力音声に対応させるようにしてもよいこ
と、またその場合に第1乃至第3実施形態の何れかと第
4乃至第6実施形態のいずれかを組み合わせてよいこと
は上記実施形態の説明から明らかである。
【0060】以上説明したように、上記各実施形態によ
れば、ユーザの声質やユーザのその時々の話調に対応し
て、応答する声の声質や話調が変更される。このため、
表情を現す顔画像を使用せず、発話内容などを変更する
ことなく、反感を与えずより親しみやすい印象を与える
合成音声の生成が可能となるという効果がある。
【0061】なお、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
【0062】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
【0063】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク,ハードディス
ク,光ディスク,光磁気ディスク,CD−ROM,CD
−R,磁気テープ,不揮発性のメモリカード,ROMな
どを用いることができる。
【0064】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
【0065】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0066】
【発明の効果】以上説明したように、本発明によれば、
ユーザの声の話調及び/又は声質に対して、応答側の合
成音声の話調及び/又は声質を変えることで、より親し
みやすい音声対話を提供することが可能となる。
【図面の簡単な説明】
【図1】第1実施形態による音声対話装置の構成を示す
ブロック図である。
【図2】第2実施形態による音声対話装置の構成を示す
ブロック図である。
【図3】第3実施形態による音声対話装置の構成を示す
ブロック図である。
【図4】第4実施形態による音声対話装置の構成を示す
ブロック図である。
【図5】第5実施形態による音声対話装置の構成を示す
ブロック図である。
【図6】第6実施形態による音声対話装置の構成を示す
ブロック図である。
【図7】第1実施形態による音声対話処理を説明するフ
ローチャートである。
【図8】第4実施形態による音声対話処理を説明するフ
ローチャートである。
【図9】ユーザとシステムの話調の対応テーブルの例を
示す図である。
【図10】ユーザとシステムの声質の対応テーブルの例
を示す図である。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/14 G10L 3/00 R

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 入力音声を認識し、認識結果に応じた応
    答文を合成音声で出力する音声対話装置であって、 前記入力音声の話調及び内容を認識する認識手段と、 前記認識手段で認識された話調に基づいて合成音声の話
    調を決定する決定手段と、 前記決定手段で決定された話調で、前記入力音声の内容
    に対する応答文の合成音声を生成する生成手段とを備え
    ることを特徴とする音声対話装置。
  2. 【請求項2】 複数種類の話調に対応する音声波形辞書
    を更に備え、 前記生成手段は、前記決定手段で決定された話調に対応
    する音声波形辞書を用いて前既往等分の合成音声を生成
    することを特徴とする請求項1に記載の音声対話装置。
  3. 【請求項3】 前記決定手段は、合成音声の話調を、前
    記認識手段で認識された話調と同類の話調に決定するこ
    とを特徴とする請求項1に記載の音声対話装置。
  4. 【請求項4】 合成音声の話調を入力音声の話調に対応
    付けて登録する話調テーブルを更に備え、 前記決定手段は、前記認識手段で認識された話調に対応
    する合成音声用の話調を前記話調テーブルより取得する
    ことを特徴とする請求項1に記載の音声対話装置。
  5. 【請求項5】 話調テーブルを複数種類有し、 前記複数種類の話調テーブルより、前記決定手段で用い
    る所望のテーブルを選択する選択手段を更に備えること
    を特徴とする請求項4に記載の音声対話装置。
  6. 【請求項6】 前記話調テーブルを編集する編集手段を
    更に備えることを特徴とする請求項4に記載の音声対話
    装置。
  7. 【請求項7】 前記認識手段は、複数種類の話調に対応
    した認識モデルを用いて入力音声を認識し、最もよく一
    致した認識モデルが対応する話調を当該入力音声の話調
    に決定することを特徴とする請求項1に記載の音声対話
    装置。
  8. 【請求項8】 入力音声を認識し、認識結果に応じた応
    答文を合成音声で出力する音声対話装置であって、 前記入力音声の声質及び内容を認識する認識手段と、 前記認識手段で認識された声質に基づいて合成音声の声
    質を決定する決定手段と、 前記決定手段で決定された声質で、前記入力音声の内容
    に対する応答文の合成音声を生成する生成手段とを備え
    ることを特徴とする音声対話装置。
  9. 【請求項9】 複数種類の声質に対応する音声波形辞書
    を更に備え、 前記生成手段は、前記決定手段で決定された声質に対応
    する音声波形辞書を用いて前既往等分の合成音声を生成
    することを特徴とする請求項8に記載の音声対話装置。
  10. 【請求項10】 前記決定手段は、合成音声の声質を、
    前記認識手段で認識された声質と同類の声質に決定する
    ことを特徴とする請求項8に記載の音声対話装置。
  11. 【請求項11】 合成音声の声質を入力音声の声質に対
    応付けて登録する声質テーブルを更に備え、 前記決定手段は、前記認識手段で認識された声質に対応
    する合成音声用の声質を前記声質テーブルより取得する
    ことを特徴とする請求項8に記載の音声対話装置。
  12. 【請求項12】 声質テーブルを複数種類有し、 前記複数種類の声質テーブルより、前記決定手段で用い
    る所望のテーブルを選択する選択手段を更に備えること
    を特徴とする請求項11に記載の音声対話装置。
  13. 【請求項13】 前記声質テーブルを編集する編集手段
    を更に備えることを特徴とする請求項11に記載の音声
    対話装置。
  14. 【請求項14】 前記認識手段は、複数種類の声質に対
    応した認識モデルを用いて入力音声を認識し、最もよく
    一致した認識モデルが対応する声質を当該入力音声の声
    質に決定することを特徴とする請求項8に記載の音声対
    話装置。
  15. 【請求項15】 入力音声を認識し、認識結果に応じた
    応答文を合成音声で出力する音声対話装置の制御方法で
    あって、 前記入力音声の話調及び内容を認識する認識工程と、 前記認識工程で認識された話調に基づいて合成音声の話
    調を決定する決定工程と、 前記決定工程で決定された話調で、前記入力音声の内容
    に対する応答文の合成音声を生成する生成工程とを備え
    ることを特徴とする音声対話装置の制御方法。
  16. 【請求項16】 入力音声を認識し、認識結果に応じた
    応答文を合成音声で出力する音声対話装置の制御方法で
    あって、 前記入力音声の声質及び内容を認識する認識工程と、 前記認識工程で認識された声質に基づいて合成音声の声
    質を決定する決定工程と、 前記決定工程で決定された声質で、前記入力音声の内容
    に対する応答文の合成音声を生成する生成工程とを備え
    ることを特徴とする音声対話装置の制御方法。
  17. 【請求項17】 請求項15又は16に記載の制御方法
    をコンピュータに実行させるための制御プログラム。
  18. 【請求項18】 請求項15又は16に記載の制御方法
    をコンピュータに実行させるための制御プログラムを格
    納した記憶媒体。
JP2002070320A 2002-03-14 2002-03-14 音声対話装置及びその制御方法 Withdrawn JP2003271194A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002070320A JP2003271194A (ja) 2002-03-14 2002-03-14 音声対話装置及びその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002070320A JP2003271194A (ja) 2002-03-14 2002-03-14 音声対話装置及びその制御方法

Publications (1)

Publication Number Publication Date
JP2003271194A true JP2003271194A (ja) 2003-09-25

Family

ID=29200926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002070320A Withdrawn JP2003271194A (ja) 2002-03-14 2002-03-14 音声対話装置及びその制御方法

Country Status (1)

Country Link
JP (1) JP2003271194A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム
WO2009122773A1 (ja) * 2008-03-31 2009-10-08 三洋電機株式会社 発話装置、発話制御プログラムおよび発話制御方法
WO2014192959A1 (ja) 2013-05-31 2014-12-04 ヤマハ株式会社 音声合成を用いて発言に応答する技術
JP2015087740A (ja) * 2013-05-31 2015-05-07 ヤマハ株式会社 音声合成装置およびプログラム
CN107077840A (zh) * 2014-10-20 2017-08-18 雅马哈株式会社 语音合成装置和方法
JP2017151517A (ja) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 ロボット制御システム
CN107707974A (zh) * 2017-09-18 2018-02-16 广东九联科技股份有限公司 一种特效人声功能的实现方法及系统
JP2018136500A (ja) * 2017-02-23 2018-08-30 株式会社Nttドコモ 音声応答システム
US10224021B2 (en) 2014-07-02 2019-03-05 Yamaha Corporation Method, apparatus and program capable of outputting response perceivable to a user as natural-sounding
JP2020181183A (ja) * 2019-04-24 2020-11-05 北京百度网▲訊▼科技有限公司Beijing Baidu Netcom Science And Technology Co.,Ltd. 音声対話方法、装置、スマートロボット及びコンピュータ可読記憶媒体
WO2022222841A1 (zh) * 2021-04-20 2022-10-27 北京沃东天骏信息技术有限公司 信息展示方法、装置、电子设备和计算机可读介质
US11562744B1 (en) * 2020-02-13 2023-01-24 Meta Platforms Technologies, Llc Stylizing text-to-speech (TTS) voice response for assistant systems

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム
WO2009122773A1 (ja) * 2008-03-31 2009-10-08 三洋電機株式会社 発話装置、発話制御プログラムおよび発話制御方法
EP3399521A1 (en) 2013-05-31 2018-11-07 Yamaha Corporation Technology for responding to remarks using speech synthesis
WO2014192959A1 (ja) 2013-05-31 2014-12-04 ヤマハ株式会社 音声合成を用いて発言に応答する技術
JP2015087740A (ja) * 2013-05-31 2015-05-07 ヤマハ株式会社 音声合成装置およびプログラム
CN105247609A (zh) * 2013-05-31 2016-01-13 雅马哈株式会社 利用言语合成对话语进行响应的技术
JP2016136284A (ja) * 2013-05-31 2016-07-28 ヤマハ株式会社 音声合成装置およびプログラム
EP3007165A4 (en) * 2013-05-31 2017-01-25 Yamaha Corporation Technology for responding to remarks using speech synthesis
US20170110111A1 (en) * 2013-05-31 2017-04-20 Yamaha Corporation Technology for responding to remarks using speech synthesis
US9685152B2 (en) 2013-05-31 2017-06-20 Yamaha Corporation Technology for responding to remarks using speech synthesis
US10490181B2 (en) 2013-05-31 2019-11-26 Yamaha Corporation Technology for responding to remarks using speech synthesis
US10224021B2 (en) 2014-07-02 2019-03-05 Yamaha Corporation Method, apparatus and program capable of outputting response perceivable to a user as natural-sounding
US10217452B2 (en) 2014-10-20 2019-02-26 Yamaha Corporation Speech synthesis device and method
CN107077840A (zh) * 2014-10-20 2017-08-18 雅马哈株式会社 语音合成装置和方法
US10789937B2 (en) 2014-10-20 2020-09-29 Yamaha Corporation Speech synthesis device and method
JP2017151517A (ja) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 ロボット制御システム
JP2018136500A (ja) * 2017-02-23 2018-08-30 株式会社Nttドコモ 音声応答システム
CN107707974A (zh) * 2017-09-18 2018-02-16 广东九联科技股份有限公司 一种特效人声功能的实现方法及系统
JP2020181183A (ja) * 2019-04-24 2020-11-05 北京百度网▲訊▼科技有限公司Beijing Baidu Netcom Science And Technology Co.,Ltd. 音声対話方法、装置、スマートロボット及びコンピュータ可読記憶媒体
US11562744B1 (en) * 2020-02-13 2023-01-24 Meta Platforms Technologies, Llc Stylizing text-to-speech (TTS) voice response for assistant systems
WO2022222841A1 (zh) * 2021-04-20 2022-10-27 北京沃东天骏信息技术有限公司 信息展示方法、装置、电子设备和计算机可读介质

Similar Documents

Publication Publication Date Title
Pitrelli et al. The IBM expressive text-to-speech synthesis system for American English
Theune et al. Generating expressive speech for storytelling applications
JP4363590B2 (ja) 音声合成
CN100371926C (zh) 通过响应输入语句而输出应答语句的交互对话装置和方法
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
Kuligowska et al. Speech synthesis systems: disadvantages and limitations
US11763797B2 (en) Text-to-speech (TTS) processing
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
CN101156196A (zh) 混合语音合成器、方法和使用
JPWO2006123539A1 (ja) 音声合成装置
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
JPWO2003019528A1 (ja) イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ
JP5198046B2 (ja) 音声処理装置及びそのプログラム
US20100066742A1 (en) Stylized prosody for speech synthesis-based applications
JPH1138989A (ja) 音声合成装置及び方法
JP2003271194A (ja) 音声対話装置及びその制御方法
JP2003302992A (ja) 音声合成方法及び装置
JP2016151736A (ja) 音声加工装置、及びプログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
JP2006227589A (ja) 音声合成装置および音声合成方法
KR0146549B1 (ko) 한국어 텍스트/음성 변환 방법
JPH08335096A (ja) テキスト音声合成装置
JP2016142936A (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP2004145015A (ja) テキスト音声合成システム及び方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050607