JP2003271194A

JP2003271194A - 音声対話装置及びその制御方法

Info

Publication number: JP2003271194A
Application number: JP2002070320A
Authority: JP
Inventors: Kazue Kaneko; 和恵金子
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2002-03-14
Filing date: 2002-03-14
Publication date: 2003-09-25

Abstract

(57)【要約】【課題】ユーザの声の話調及び／又は声質に対して、応
答側の合成音声の話調及び／又は声質を変えることで、
より親しみやすい音声対話を提供する。【解決手段】認識モデル１０３は複数種類の話調に対応
した認識モデルを含む。音声認識部１０４は、認識モデ
ル１０３を参照して、音声入力部１０１よりの入力音声
の話調及び内容を認識する。話調決定部１０８は、音声
認識部１０４で認識された話調に基づいて合成音声の話
調を決定する。応答文作成部１０５は、認識された内容
に対する応答文を作成し、応答文解析部１０６がこれを
読みに変換する。波形生成部１０９は、話調決定部１０
８で決定された話調と、応答文解析部１０６によって得
られた応答文の読みに基づいて音声波形を生成し、音声
出力部１１１がこれを音声出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ユーザの音声を認
識し、その認識結果に応じて合成音声で応答する音声対
話装置及びその制御方法に関する。

【０００２】

【従来の技術】従来の音声対話システムでは、ユーザの
音声を認識結果としての文字情報に変換し、それに対応
する応答の文を合成音声で出力するものが主流であり、
常に一定の調子での音声による応答しか得られないもの
であった。近年、音声認識や音声合成の技術の進歩によ
り、さまざまな場面での音声対話システムが実現可能と
なってきており、表現豊かな応答を返す、より親しみや
すい音声対話システムが期待されている。

【０００３】例えば、ユーザの音声から感情や性別・年
齢などの情報を認識し、システム側は、この認識結果に
基づいて相手に合わせた文体の応答文を作成し、ＣＧの
顔画像を使って表情豊かに応答するなどの提案がなされ
ている。

【０００４】また、ユーザの発声した文のアクセント型
や声の高さや大きさや話す速度を検出して、合成音声の
アクセント型や声の高さや大きさ及び話す速度をユーザ
の発声に適応させるという提案もなされている。

【０００５】

【発明が解決しようとする課題】ユーザの音声に含まれ
る感情や性別・年齢などを認識して、顔画像の表情など
で応答の表現力をあげるという方法では、画像表示部分
を持たない電話などによる音声対話システムでは利用で
きない。また、応答内容の文体などを変更するという手
段は、電子メールの読み上げや文学作品の朗読など、も
との内容を変更することが好ましくない場面では利用で
きない。

【０００６】また、ユーザのアクセント型や声の高さや
大きさや話す速度に、合成音声のアクセント型や声の高
さや大きさ話す速度を適応させるという方法では、感情
表現というところまで行なえず、親しみやすさという点
で限界がある。

【０００７】本発明は上記課題に鑑みてなされたもので
あり、ユーザの声の話調及び／または声質に対応して応
答側の合成音声の話調及び／または声質を変えることを
可能とし、より親しみやすい合成音声による対話を実現
することを目的とする。

【０００８】

【課題を解決するための手段】上記の目的を達成するた
めの本発明による音声対話装置は以下の構成を備える。
すなわち、入力音声を認識し、認識結果に応じた応答文
を合成音声で出力する音声対話装置であって、前記入力
音声の話調及び内容を認識する認識手段と、前記認識手
段で認識された話調に基づいて合成音声の話調を決定す
る決定手段と、前記決定手段で決定された話調で、前記
入力音声の内容に対する応答文の合成音声を生成する生
成手段とを備える。また、上記の目的を達成するための
本発明の他の構成による音声対話装置は以下の構成を備
える。即ち、入力音声を認識し、認識結果に応じた応答
文を合成音声で出力する音声対話装置であって、前記入
力音声の声質及び内容を認識する認識手段と、前記認識
手段で認識された声質に基づいて合成音声の声質を決定
する決定手段と、前記決定手段で決定された声質で、前
記入力音声の内容に対する応答文の合成音声を生成する
生成手段とを備える。

【０００９】また、上記の目的を達成するための本発明
による音声対話装置の制御方法は、入力音声を認識し、
認識結果に応じた応答文を合成音声で出力する音声対話
装置の制御方法であって、前記入力音声の話調及び内容
を認識する認識工程と、前記認識工程で認識された話調
に基づいて合成音声の話調を決定する決定工程と、前記
決定工程で決定された話調で、前記入力音声の内容に対
する応答文の合成音声を生成する生成工程とを備える。
更に、上記の目的を達成する本発明の他の構成による音
声対話装置の制御方法は、入力音声を認識し、認識結果
に応じた応答文を合成音声で出力する音声対話装置の制
御方法であって、前記入力音声の声質及び内容を認識す
る認識工程と、前記認識工程で認識された声質に基づい
て合成音声の声質を決定する決定工程と、前記決定工程
で決定された声質で、前記入力音声の内容に対する応答
文の合成音声を生成する生成工程とを備える。

【００１０】

【発明の実施の形態】以下、添付の図面を参照して本発
明の実施形態を詳細に説明する。

【００１１】以下で説明する第１乃至第３実施形態で
は、音声認識において複数種類の話調（ささやき声や明
るい声や悲しそうな声などの複数種類の話調）の認識モ
デルを用いて、ユーザの発声した音声の内容ととともに
その話調を認識する。そして、音声合成処理において、
複数種類の話調の音声波形辞書を用い、ユーザの話調に
応じた話調の音声を合成する。なお、応答文の合成音声
をユーザの話調に適応させる他に、ユーザの声質に適応
させるように構成してもよい（第４乃至第６実施形
態）。

【００１２】＜第１実施形態＞図１は、第１実施形態に
よる音声対話装置の構成を示すブロック図である。図１
において、１０１は音声入力部であり、ユーザの音声を
入力する。１０２はデータベースであり、認識結果に対
応する応答文を生成するために使用される。１０３は認
識モデルであり、ユーザの発声内容とその話調を認識す
るのに用いられる。１０４は音声認識部であり、認識モ
デル１０３を用いてユーザの発声内容と話調を認識す
る。

【００１３】１０５は応答文作成部であり、音声認識部
１０４で認識した発声内容から応答文を作成する。１０
６は応答文解析部であり、応答文作成部１０５で作成さ
れた応答文を解析して読み方を付与する。１０７は言語
解析用辞書であり、応答文解析部１０６が応答文を解析
するために用いられる。

【００１４】１０８は話調決定部であり、音声合成にお
いて用いる話調を、音声認識部１０４にてユーザの音声
から認識した話調にもっとも近い話調に決定する。１０
９は波形生成部であり、応答文解析部１０６で得られた
応答文の読みと、話調決定部１０８で決定された話調で
音声波形を生成する。１１０は音声波形辞書であり、複
数種類の話調の音声素片を格納する。１１１は音声出力
部であり、波形生成部１０９で生成された音声波形に従
って、応答文の音声を出力する。

【００１５】以上の各部の構成は汎用のパーソナルコン
ピュータにおいて、メモリに格納された以下のフローチ
ャートで説明するプログラムをＣＰＵが実行することに
より実現される。また、データベース１０２、認識モデ
ル１０３、言語解析用辞書１０７、音声波形辞書１１０
は、それぞれ当該パーソナルコンピュータによってアク
セスが可能な外部記憶装置に格納される。

【００１６】図７は第１実施形態による音声対話処理の
手順を説明するフローチャートである。

【００１７】まず、ステップＳ７０１で音声入力部１０
１によりユーザの音声を入力する。そして、ステップＳ
７０２において、音声認識部１０４は、ユーザの発声内
容とその話調を認識する。なお、認識のための認識モデ
ル１０３は、複数種類の話調について、複数の人間がそ
れぞれの話調で発声した音声データを用いて作成された
複数種類の隠れマルコフモデル（ＨＭＭ）である。それ
ぞれの話調のＨＭＭとのマッチングをとり、もっともよ
くマッチングしたモデルの話調と発声内容を認識結果と
する。

【００１８】ステップＳ７０３において、話調決定部１
０８は、音声合成の話調を決定する。ここでは、音声波
形辞書１１０に用意されている話調のうち、ユーザの音
声の認識結果の話調に一番近い話調を選択する。

【００１９】ステップＳ７０４で、応答文作成部１０５
は、ユーザの発声内容から応答文を作成する。応答文
は、「こんにちは」に対する「こんにちは」、「ありが
とう」に対する「どういたしまして」のような会話の上
での対応づけのとれているものもあるが、ユーザの「今
日の天気は？」といった質問に対して、「９月２５日の
横浜の天気は晴れ、午後一時曇り、降水確率は午前中０
％、午後は１０％、最低気温は１５度、最高気温は２８
度です」といったような外部のデータを参照して作成す
るものまでさまざまである。図１のデータベース１０２
はこれらの応答を作成するために必要な情報源である。

【００２０】ステップＳ７０５では、応答文解析部１０
６が応答文の言語解析を行なう。例えば日本語の音声合
成においては、漢字かな混じり文についての読み表記を
作成する。英語の音声合成においてはスペルから発音記
号表記を作成する。

【００２１】ステップＳ７０６では、波形生成部１０９
が、話調決定部１０８で決定された話調に対応した音声
波形辞書から、読みや発音記号に相当する音声素片を取
り出し、話調に合せた韻律の生成やポーズの配置を行い
音声波形を作成する。ステップＳ７０７では、音声出力
部１１１が、波形生成部１０９で生成された音声波形を
用いて音声を出力する。

【００２２】以上のように、第１実施形態によれば、入
力された音声の話調に応じて、入力音声の話調にもっと
も近い話調の音声が合成されるので、機械とのより自然
な音声対話が実現される。

【００２３】＜第２実施形態＞第１実施形態では、話調
を音声認識部１０４で認識された話調に最も近い話調と
するように合成音声の話調を決定した。第２実施形態で
は、入力音声の話調に対する合成音声の話調を対応付け
るテーブルを用意し、これに基づいて合成音声の話調を
決定する。

【００２４】図２は第２実施形態による音声対話装置の
構成を示すブロック図である。第１実施形態と同様の構
成には同一の参照番号を付してある。２０８は話調決定
部であり、音声認識部１０４で認識された入力音声の話
調で話調対応付けテーブル２１１を検索し、応答文の話
調を決定する。話調対応付けテーブル２１１には、ユー
ザの話調と応答音声（合成音声）の話調の対応づけがあ
らかじめ登録されている。

【００２５】以上の構成を備えた第２実施形態による音
声対話装置の動作は第１実施形態と同様であるが、ステ
ップＳ７０３において、話調決定部２０８は音声認識部
１０４で認識された入力音声の話調に対応付けられた話
調を、話調対応付けテーブル２１１を参照して取得し、
応答音声の話調を決定する。図９の（ａ）は話調対応付
けテーブル２１１の一例である。ユーザがノーマルな状
態の声の場合は、システムの応答もノーマルな声で応答
する。ユーザがささやき声のときは、システム側もささ
やき声で応答する。ユーザが悲しそうな声のときは、シ
ステム側は穏やかな声で応答し、ユーザが怒った声のと
きは、システム側は緊張した声で応答する。この応答は
ユーザーに同調する方向のものであり、対話戦略におい
て、ユーザーに反感を抱かせずさらなる発話を促すため
のものである。

【００２６】なお、図９（ａ），（ｂ）において、ユー
ザとは入力音声（の話調）を、システムとは応答音声
（の話調）を表す。また、第２実施形態では、話調の対
応を図９の（ａ）のように、ユーザに同調させるものと
したが、図９の（ｂ）のように、ユーザの悲しそうな声
に対してシステム側で朗らかな声で応答し、怒った声に
対してはささやき声で応答するような、ユーザ側の感情
を反対方向に誘導するような対応づけを用いてもよい。

【００２７】＜第３実施形態＞第２実施形態において、
話調対応付けテーブル２１１を参照して合成音声の話調
を決定することを説明したが、第３実施形態では、複数
種類の話調対応付けテーブルを用意し、所望のテーブル
をユーザが選択できるようにする。

【００２８】図３は第３実施形態による音声対話装置の
構成を示すブロック図である。第１実施形態或いは第２
実施形態と同様の構成には同一の参照番号を付してあ
る。３１１は話調対応選択部であり、話調対応付けテー
ブル３１２に格納されている複数種類の話調対応付けテ
ーブルから所望のテーブルを選択する。ステップＳ８０
３において、話調決定部３０８は、第２実施形態の話長
決定部２０８とほぼ同じ機能を有するが、話調対応選択
部３１１で選択された話調対応付けテーブルを参照して
合成音声の話調を決定する。

【００２９】例えば、話調対応付けテーブルには、図９
（ａ）と図９（ｂ）に示すようなテーブルが登録されて
おり、話調対応選択部３１１はユーザの指示により所望
のテーブルを選択する。話調決定部３０８は、話調対応
選択部３１１によって選択されている方のテーブルを参
照して合成音声の話調を決定する。なお、図９（ａ），
（ｂ）では２種類のテーブルを示したがテーブル数は３
つ以上あってもかまわない。

【００３０】なお、テーブルの選択に際しては、音声対
話装置が備える表示装置上に図９の（ａ）、（ｂ）に示
すような表を表示して、所望のテーブルをユーザに選択
させるインターフェースが提供されるようにする。

【００３１】以上のように第３実施形態によれば、入力
音声の内容に対応する応答文の音声出力に際して、入力
音声の話調に応じた所望の話調で音声合成を行なうこと
が可能となる。

【００３２】なお、第３実施形態ではテーブルの選択を
行なう構成を示したが、話調対応付けテーブルを任意に
作成できる（話調対応付けテーブルを編集可能とする）
ようにしてもよい。例えば、図９（ａ）においてユーザ
側の話調とシステム側の話調の任意な組み合わせを設定
できるようにしてもよい。この場合、入力音声の２種類
の話調に対して合成音声の話調を１種類とすることがで
きるようにしてもよい（例えば、ユーザ側の「ノーマル
な声」と「ささやき声」に「ノーマルな声」を割り当て
可能としてもよい）。

【００３３】＜第４実施形態＞上記第１乃至第３実施形
態では、入力音声の話調に応じて、合成音声の話調を決
定した。第４実施形態では、入力音声の声質に応じて合
成音声の声質を決定する。

【００３４】図４は、第４実施形態による音声対話装置
の構成を示すブロック図である。図４において、第１乃
至第３実施形態の音声対話装置と同様の構成には同一の
参照番号を付してある。

【００３５】認識モデル４０３は、ユーザの発声内容と
複数種類の声質を認識するためのモデルが登録されてい
る。音声認識部４０４は、認識モデル４０３を参照して
ユーザの発声内容と声質を認識する。声質決定部４０８
は、ユーザの音声から認識した声質にもっとも近い声質
を、当該入力音声に対する応答文の合成音声で使用する
声質として決定する。波形生成部４０９は、応答文解析
部１０６で得られた応答文の読みと、声質決定部４０８
で決定された声質に基づいて、音声波形辞書４１０を参
照して音声波形を生成する。音声波形辞書４１０は、複
数種類の声質の音声素片を格納する。

【００３６】図８は第４実施形態による音声対話処理を
説明するフローチャートである。

【００３７】まず、ステップＳ８０１で音声入力部１０
１によりユーザの音声を入力する。ステップＳ８０２で
は、音声認識部４０４が、認識モデル４０３を参照し
て、入力音声の発声内容とその声質を認識する。

【００３８】発声内容と声質の認識のための認識モデル
４０３は、年齢・性別によってグループ分けした人間の
発声した音声を用いて作成した複数種類の隠れマルコフ
モデル（ＨＭＭ）である。入力音声について、それそれ
の声質のＨＭＭとのマッチングをとり、もっともよくマ
ッチングした認識モデルの声質と発声内容を認識結果と
する。

【００３９】ステップＳ８０３では、声質決定部４０８
が、ステップＳ８０２で認識された声質に基づいて音声
合成の声質を決定する。第４実施形態では、音声波形辞
書４１０に登録されている声質のうち、音声認識部４０
４で認識されたユーザ音声の声質に一番近いものが選択
される。

【００４０】ステップＳ８０４で、応答文作成部１０
５は、音声認識部４０４で認識されたユーザの発声内容
から応答文を作成する。応答文は、「こんにちは」に対
する「こんにちは」、「ありがとう」に対する「どうい
たしまして」のような会話の上での対応づけのとれてい
るものもあるが、ユーザの「今日の天気は？」といった
質問に対して、「９月２５日の横浜の天気は晴れ、午後
一時曇り、降水確率は午前中０％、午後は１０％、最低
気温は１５度、最高気温は２８度です」といったよう
な、外部のデータを参照して作成するものまでさまざま
である。データベース１０２はこれらの応答を作成する
ために必要な情報源を示す。

【００４１】ステップＳ８０５で、応答文解析部１０６
により応答文の言語解析を行なう。日本語においては漢
字かな混じり文についての読み表記を作成する。英語に
おいてはスペルから発音記号表記を作成する。

【００４２】ステップＳ８０６では、波形生成部４０９
が、応答音声の声質にあった音声波形辞書から読みや発
音記号に相当する音声素片を取り出し、声質に合せた韻
律の生成やポーズの配置を行い音声波形を作成する。ス
テップＳ８０７では、音声出力部１１１が波形生成部４
０９で生成した音声波形に基づいて音声を出力する。

【００４３】以上のように第４実施形態によれば、入力
音声に応じた声質で応答文を発声することが可能とな
る。

【００４４】＜第５実施形態＞第４実施形態では、入力
音声の声質を認識し、認識された声質に最も近い声質の
合成音声を生成する。第５実施形態では、第２実施形態
で説明した話調対応付けテーブルに類似の声質対応付け
テーブルを用いて、合成音声の声質を決定する。

【００４５】図５は第５実施形態による音声対話装置の
構成を示すブロック図である。第１乃至第４実施形態と
同様の構成には同一の参照番号を付してある。５０８は
声質決定部であり、音声認識部４０４で認識された入力
音声の声質で声質対応付けテーブル５１１を検索し、応
答文の声質を決定する。声質対応付けテーブル５１１に
は、ユーザの声質と応答音声（合成音声）の声質の対応
づけがあらかじめ登録されている。

【００４６】以上の構成を備えた第５実施形態による音
声対話装置の動作は第４実施形態と同様であるが、ステ
ップＳ８０３において、音声認識部１０４で認識された
入力音声の話調に対応付けられた声質を声質対応付けテ
ーブル５１１を参照して取得し、応答音声の声質に決定
する。例えば、図１０の（ａ）は、この声質対応付けテ
ーブル５１１の一例である。ユーザが成人男性音声の場
合は、システムの応答は成人女性音声で応答し、ユーザ
が成人女性音声のときは、システム側は成人男性音声で
応答するといった対応づけが与えられている。

【００４７】なお、図１０（ａ），（ｂ）において、ユ
ーザとは入力音声（の声質）を、システムとは応答音声
（の声質）を表す。

【００４８】＜第６実施形態＞第５実施形態において、
声質対応付けテーブル５１１を参照して合成音声の声質
を決定することを説明したが、第６実施形態では、複数
種類の声質対応付けテーブルを用意し、所望のテーブル
をユーザが選択できるようにする。

【００４９】図６は第６実施形態による音声対話装置の
構成を示すブロック図である。第１乃至第５実施形態と
同様の構成には同一の参照番号を付してある。６１１は
声質対応選択部であり、声質対応付けテーブル６１２に
格納されている複数種類の声質対応付けテーブルから所
望のテーブルを選択する。

【００５０】ステップＳ８０３において、声質決定部６
０８は、声質対応選択部６１１で選択された声質対応付
けテーブルを参照して合成音声の声質を決定する。

【００５１】例えば、声質対応付けテーブル６１２に
は、図１０（ａ）と図１０（ｂ）に示すようなテーブル
が登録されており、声質対応選択部３１１はユーザの指
示により所望のテーブルを選択する。声質決定部６０８
は、声質対応選択部６１１によって選択されている方の
テーブルを参照して合成音声の声質を決定する。なお、
図１０では２種類のテーブルを示したがテーブル数は３
つ以上あってもかまわない。

【００５２】なお、テーブルの選択に際しては、音声対
話装置が備える表示装置上に図１０の（ａ）、（ｂ）に
示すような表を表示して、所望のテーブルをユーザに選
択させるインターフェースが提供されるようにする。

【００５３】以上のように第６実施形態によれば、入力
音声の内容に対応する応答文の音声出力に際して、入力
音声の声質に応じた所望の声質で音声合成を行なうこと
が可能となる。

【００５４】なお、第６実施形態ではテーブルの選択を
行なう構成を示したが、声質対応付けテーブルを任意に
作成できる（声質対応付けテーブルを編集可能とする）
ようにしてもよい。例えば、図１０（ａ）においてユー
ザ側の声質とシステム側の声質の任意な組み合わせを設
定できるようにしてもよい。この場合、入力音声の２種
類の声質に対して合成音声の声質を１種類とすることが
できるようにしてもよい（例えば、ユーザ側の「成人男
性音声」と「成人女性音声」に「子供男性音声」を割り
当て可能としてもよい）。

【００５５】なお、第１〜第６の各実施形態では、音声
認識の認識モデルに隠れマルコフモデルを使用したが、
ニューラルネットなどの別のモデルを用いてもよい。

【００５６】また、上記第１〜第３実施形態では、話調
としてささやき声や喜怒哀楽などの感情のこもった声を
採用しているが、ＤＪ調、ナレーター調、朗読調などの
より韻律部分に特徴のあるものも話調の種類としてもよ
い。

【００５７】また、上記第１〜第６実施形態では、一番
よくマッチングした話調や音質のモデルのみを認識結果
に採用しているが、候補が複数ある場合の上位に入った
ものの話調や音質の組みあわせを認識結果とし、その組
み合わせで応答の話調を決定するようにしてもよい。例
えば、ユーザの音声の認識結果として、悲しそうな声と
怒った声がともに上位にあがった場合は、ささやき声で
応答するというような対応づけが考えられる。

【００５８】また、上記実施形態では、声質として年齢
と性別の組み合わせを採用しているが、バスやテノール
アルトやソプラノなどのベースとなる声の高さも声質の
種類として採用してもよい。図１０の（ｂ）がその対応
例である。

【００５９】更に、上記実施形態では、話調を対応させ
るもの（第１乃至第３実施形態）と声質を対応させるも
の（第４乃至第６実施形態）とに分けて説明したが、話
調及び声質を入力音声に対応させるようにしてもよいこ
と、またその場合に第１乃至第３実施形態の何れかと第
４乃至第６実施形態のいずれかを組み合わせてよいこと
は上記実施形態の説明から明らかである。

【００６０】以上説明したように、上記各実施形態によ
れば、ユーザの声質やユーザのその時々の話調に対応し
て、応答する声の声質や話調が変更される。このため、
表情を現す顔画像を使用せず、発話内容などを変更する
ことなく、反感を与えずより親しみやすい印象を与える
合成音声の生成が可能となるという効果がある。

【００６１】なお、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ（またはＣＰＵ
やＭＰＵ）が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。

【００６２】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。

【００６３】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク，ハードディス
ク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ
−Ｒ，磁気テープ，不揮発性のメモリカード，ＲＯＭな
どを用いることができる。

【００６４】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているＯＳ（オペレ
ーティングシステム）などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。

【００６５】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るＣＰＵなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。

【００６６】

【発明の効果】以上説明したように、本発明によれば、
ユーザの声の話調及び／又は声質に対して、応答側の合
成音声の話調及び／又は声質を変えることで、より親し
みやすい音声対話を提供することが可能となる。

【図面の簡単な説明】

【図１】第１実施形態による音声対話装置の構成を示す
ブロック図である。

【図２】第２実施形態による音声対話装置の構成を示す
ブロック図である。

【図３】第３実施形態による音声対話装置の構成を示す
ブロック図である。

【図４】第４実施形態による音声対話装置の構成を示す
ブロック図である。

【図５】第５実施形態による音声対話装置の構成を示す
ブロック図である。

【図６】第６実施形態による音声対話装置の構成を示す
ブロック図である。

【図７】第１実施形態による音声対話処理を説明するフ
ローチャートである。

【図８】第４実施形態による音声対話処理を説明するフ
ローチャートである。

【図９】ユーザとシステムの話調の対応テーブルの例を
示す図である。

【図１０】ユーザとシステムの声質の対応テーブルの例
を示す図である。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/14 Ｇ１０Ｌ 3/00 Ｒ

Claims

【特許請求の範囲】

【請求項１】入力音声を認識し、認識結果に応じた応
答文を合成音声で出力する音声対話装置であって、前記入力音声の話調及び内容を認識する認識手段と、前記認識手段で認識された話調に基づいて合成音声の話
調を決定する決定手段と、前記決定手段で決定された話調で、前記入力音声の内容
に対する応答文の合成音声を生成する生成手段とを備え
ることを特徴とする音声対話装置。
【請求項２】複数種類の話調に対応する音声波形辞書
を更に備え、前記生成手段は、前記決定手段で決定された話調に対応
する音声波形辞書を用いて前既往等分の合成音声を生成
することを特徴とする請求項１に記載の音声対話装置。
【請求項３】前記決定手段は、合成音声の話調を、前
記認識手段で認識された話調と同類の話調に決定するこ
とを特徴とする請求項１に記載の音声対話装置。
【請求項４】合成音声の話調を入力音声の話調に対応
付けて登録する話調テーブルを更に備え、前記決定手段は、前記認識手段で認識された話調に対応
する合成音声用の話調を前記話調テーブルより取得する
ことを特徴とする請求項１に記載の音声対話装置。
【請求項５】話調テーブルを複数種類有し、前記複数種類の話調テーブルより、前記決定手段で用い
る所望のテーブルを選択する選択手段を更に備えること
を特徴とする請求項４に記載の音声対話装置。
【請求項６】前記話調テーブルを編集する編集手段を
更に備えることを特徴とする請求項４に記載の音声対話
装置。
【請求項７】前記認識手段は、複数種類の話調に対応
した認識モデルを用いて入力音声を認識し、最もよく一
致した認識モデルが対応する話調を当該入力音声の話調
に決定することを特徴とする請求項１に記載の音声対話
装置。
【請求項８】入力音声を認識し、認識結果に応じた応
答文を合成音声で出力する音声対話装置であって、前記入力音声の声質及び内容を認識する認識手段と、前記認識手段で認識された声質に基づいて合成音声の声
質を決定する決定手段と、前記決定手段で決定された声質で、前記入力音声の内容
に対する応答文の合成音声を生成する生成手段とを備え
ることを特徴とする音声対話装置。
【請求項９】複数種類の声質に対応する音声波形辞書
を更に備え、前記生成手段は、前記決定手段で決定された声質に対応
する音声波形辞書を用いて前既往等分の合成音声を生成
することを特徴とする請求項８に記載の音声対話装置。
【請求項１０】前記決定手段は、合成音声の声質を、
前記認識手段で認識された声質と同類の声質に決定する
ことを特徴とする請求項８に記載の音声対話装置。
【請求項１１】合成音声の声質を入力音声の声質に対
応付けて登録する声質テーブルを更に備え、前記決定手段は、前記認識手段で認識された声質に対応
する合成音声用の声質を前記声質テーブルより取得する
ことを特徴とする請求項８に記載の音声対話装置。
【請求項１２】声質テーブルを複数種類有し、前記複数種類の声質テーブルより、前記決定手段で用い
る所望のテーブルを選択する選択手段を更に備えること
を特徴とする請求項１１に記載の音声対話装置。
【請求項１３】前記声質テーブルを編集する編集手段
を更に備えることを特徴とする請求項１１に記載の音声
対話装置。
【請求項１４】前記認識手段は、複数種類の声質に対
応した認識モデルを用いて入力音声を認識し、最もよく
一致した認識モデルが対応する声質を当該入力音声の声
質に決定することを特徴とする請求項８に記載の音声対
話装置。
【請求項１５】入力音声を認識し、認識結果に応じた
応答文を合成音声で出力する音声対話装置の制御方法で
あって、前記入力音声の話調及び内容を認識する認識工程と、前記認識工程で認識された話調に基づいて合成音声の話
調を決定する決定工程と、前記決定工程で決定された話調で、前記入力音声の内容
に対する応答文の合成音声を生成する生成工程とを備え
ることを特徴とする音声対話装置の制御方法。
【請求項１６】入力音声を認識し、認識結果に応じた
応答文を合成音声で出力する音声対話装置の制御方法で
あって、前記入力音声の声質及び内容を認識する認識工程と、前記認識工程で認識された声質に基づいて合成音声の声
質を決定する決定工程と、前記決定工程で決定された声質で、前記入力音声の内容
に対する応答文の合成音声を生成する生成工程とを備え
ることを特徴とする音声対話装置の制御方法。
【請求項１７】請求項１５又は１６に記載の制御方法
をコンピュータに実行させるための制御プログラム。
【請求項１８】請求項１５又は１６に記載の制御方法
をコンピュータに実行させるための制御プログラムを格
納した記憶媒体。