JP3883066B2 - Voice dialogue system and method, voice dialogue program and recording medium therefor - Google Patents
Voice dialogue system and method, voice dialogue program and recording medium therefor Download PDFInfo
- Publication number
- JP3883066B2 JP3883066B2 JP2003062552A JP2003062552A JP3883066B2 JP 3883066 B2 JP3883066 B2 JP 3883066B2 JP 2003062552 A JP2003062552 A JP 2003062552A JP 2003062552 A JP2003062552 A JP 2003062552A JP 3883066 B2 JP3883066 B2 JP 3883066B2
- Authority
- JP
- Japan
- Prior art keywords
- confirmation
- procedure
- user
- cost
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、対話型情報提供システムに係り、詳しくは、ユーザが音声を使ってデータベースの内容についての問い合わせを入力したとき、システムは、必要ならば、ユーザの問い合わせ内容を確認するためのやり取りを行った後、認識された問い合わせ内容にしたがって、データベースの内容をユーザに対し音声により提供する音声対話システム及び方法、音声対話プログラム並びにその記録媒体に関するものである。
【0002】
【従来の技術】
音声対話システムは、たとえば、気象情報、テレビ番組表、スケジュール表、交通機関の時刻、といった様々な情報を蓄積したデータベースがあるとき、データベースの内容についての問い合わせを意味する文を、ユーザが音声認識装置を介して音声によって入力すると、システムが認識した問い合わせ内容を、属性と属性の値と属性の値が確定済みであるかどうかを示すフラグの3つ組みの集合として表現されるシステム理解状態として保持する。
【0003】
このような音声対話システムでは、音声認識誤りのため、ユーザ問い合わせ内容を認識した結果は必ずしも正しいとは限らない。そこで、必要に応じて、システム理解状態の全て或いは一部の内容を確認するために、確認文を音声としてユーザに対し出力する。ユーザが確認の承認を意味する承認文(例:「はい」)を入力した場合には、システムは確認したシステム理解状態の内容を確定済みとして記録する。ユーザが確認に対し訂正を意味する訂正文を入力した場合には、システムは訂正文の内容にしたがってシステム理解状態を更新する。確認を行うためのやり取りの後、システムはシステム理解状態にしたがってユーザ問い合わせ内容を決定し、ユーザに対し情報を提供するための応答文を出力する。
【0004】
一方、確認を一切行わない場合には、ユーザが問い合わせを入力した直後、システムはその時のシステム理解状態にしたがってユーザ問い合わせ内容を決定し、ユーザに対し情報を提供するための応答文を出力することとなる。
【0005】
確認を行う利点は、属性の値を確認するための確認文に対してユーザが承認文を入力すると、属性の値が正しい確率が高まるので、システムはユーザの必要とする情報をより的確に伝達することが可能となることにある。しかし、確認を行うことにより対話の長さは長くなるので、ユーザの満足度が減少する可能性がある。
【0006】
従来、音声対話システムがユーザ問い合わせ内容の確認を行うための技術としては、ユーザからの承認文によって確定済みとなった属性の値のみにしたがって、応答文を生成する第一の技術、確認を全く行わないという第二の技術、各属性の値を認識した際に得られる音声認識結果の信頼度をシステム理解状態の中に記録しておき、その信頼度が或る閾値よりも大きければ、その属性の値については確認を行わないという第三の技術(例えば、非特許文献1参照)、及び、確定済みの属性の値だけでなく、確定済みでない属性の値も正しい値であると仮定して、応答文を生成したとき、もしその応答文が誤っていたならば、ユーザからの拒否発話があることを前提とし、ユーザからの拒否発話を受け取ったなら、次は確定済みの属性の値が正しい値であるとして、応答文を生成するという第四の技術(例えば、非特許文献2、非特許文献3、参照)がある。
【0007】
【非特許文献1】
駒谷和範,河原達也,「混合主導対話における音声認識誤りに対処するための対話管理」,
言語処理学会第6回年次大会発表論文集,336−339(2000)
【非特許文献2】
堂坂浩二,安田宜仁,相川清明,「システム知識制限下での効率的音声対話制御」,
自然言語処理,Vo1.9,No.1(2002)43−63
【非特許文献3】
堂坂浩二,安田宣仁,相川清明,「情報伝達効率最大化に基づく音声対話制御法」,
言語処理学会第8回年次大会発表論文集,260−263(2002)
【0008】
【発明が解決しようとする課題】
音声対話システムは、音声認識誤りのため、ユーザ問い合わせ内容を認識した結果は正しいとは限らない。そこで、音声対話システムでは、音声認識誤りが存在しても、ユーザの問い合わせ内容に対して可能な限り応えるための技術が開発されてきている。
【0009】
上記した従技の第一の技術、第二の技術、第三の技術、第四の技術のいずれにおいても、対話の各時点においてシステムが認識しているユーザの問い合わせ内容は、属性と属性の値と値が確定済みであるかどうかを示すフラグの3つ組みの集合として表される。この3つ組みの集合をシステム理解状態と呼ぶ。
【0010】
第一の技術においては、システムは認識した属性の値を確認するための確認文をユーザに対し出力し、ユーザからの承認文、例えば「はい」という文、が認識されたときに、確認した属性の値が確定済みとなったことをシステム理解状態の中に記録する。システムは、確定済みとなった属性の値のみにしたがってデータベースを検索し、検索結果をユーザに伝達するための応答文を出力する。この方法は、ユーザによって承認された値のみにしたがって応答文を出力するので、システムはユーザの問い合わせ内容を誤認識した結果にしたがって誤った応答を行う可能性が小さくなるという利点がある。確認文の出力は、システムの応答文の信頼性を上げるために有効である一方で、数多くの確認は、ユーザが必要な情報を得るまでにかかる時間が増大するので、ユーザの不満足度が高まるという問題も引き起こす。
【0011】
従来の第一の技術は、応答文を作成するために必要なすべての属性値について確認を行い、確認文の数を減らす工夫がなされていないため、ユーザの不満足度が高まってしまうという問題がある。
【0012】
従来の第二の技術は、確認を全く行わないという方法である。この方法は、従来の第一の技術と違って、確認文を全く出力しないという点では、ユーザの不満足度は高まらない。しかし、確認を全く行わないので、システムはユーザ問い合わせ内容の誤認識結果に基づいて応答文を出力する可能性がある。結果として、ユーザは再度問い合わせを行うことになり、かえって、ユーザが必要とする情報を得るまでの対話の長さが増大してしまうという問題がある。
【0013】
従来の第三の技術は、属性値の音声認識結果の信頼度を記録しておき、或る閾値よりも大きな信頼度もつ属性値に関しては、確認を行わず、音声認識結果の信頼度が低いときに確認を行うという方法である。この方法では、閾値が、ユーザ問い合わせ内容の理解率を向上させるという基準で決定されている。ユーザの問い合わせ内容の理解率を向上させるという基準は、必ずしも、ユーザが必要とする情報を手に入れるまでに要する対話の長さをできるだけ短くすることを帰結しないという問題がある。
【0014】
従来の第四の技術は、対話の各時点で、応答文を出力し終わるまでの対話の手順として可能な手順を枚挙し、最も対話の長さが短くなるような対話手順にしたがって、対話の各時点でのシステムの振る舞いを決定するという方法である。対話の手順としては、確認を行った後に、確定済みのシステム理解状態のみにしたがって、応答文を出力するという確定的な確認型の対話手順、確認を行わないで、現時点で確定済みのシステム理解状態のみにしたがって応答文を出力するという確定的な即時応答型の対話手順、現時点で確定済みでない属性値も含めたシステム理解状態にしたがって応答文を出力し、ユーザが応答文に対して拒否発話を起こったときには対話をやり直し、やり直した対話の中では確定済みのシステム理解状態のみにしたがって応答文を出力するという確認必要性探索型の対話手順を考える。第四の技術では、これらの対話手順のそれぞれについて、対話の長さを推定し、対話の長さが最も短い対話手順を選択する。選択された対話手順にしたがって、システムの次の行動が決定される。
【0015】
第四の技術では、確認必要性探索型の対話手順が、他の種類の対話手順よりも、短い対話でユーザが必要な情報を手に入れることができることと判断できる場合には、この確認必要性探索型の対話手順が選択され、いくつかの属性値の確認を省くことができる。このとき、対話全体の長さが他の対話手順に比べて増大することがないことも保証されている。
【0016】
従来の第四の技術は、従来の第一の技術に比べて、いくつかの確認を省くことができるという利点をもち、従来の第二の技術における、誤った応答文を何度も出力することにより、対話の長さが増大するという問題点を克服することができる。第三の技術では、閾値を選択するための基準がユーザ問い合わせの理解率を向上するという基準であるが、第四の技術では、各対話手順にしたがったときの対話の長さを短くするという基準を用いている。
【0017】
しかし、第四の技術は、システムが誤った応答を行った場合、ユーザが拒否発話を行ってくれることを前提としており、この前提が成立しない場合には適用できないという問題がある。実際の対話では、ユーザは、システムが誤った応答を行ったとき、「違います」といった拒否発話を行ってくれる場合もあるだろうが、拒否発話を明示的に行うことなく、再度、問い合わせを繰り返して対話をやり直すという場合も考えられる。また、システムが誤った応答を行った場合、必ず拒否発話を行わなければいけないとユーザに強制することは、ユーザに負担をかけ、ユーザの不満足度を増大させることになる。
【0018】
このように、第四の技術は、第一、第二、第三の技術の問題点を克服するという利点はあるが、システムの誤った応答に対してユーザが拒否発話を行うことを前提としており、この前提が、実際の対話の中では、必ずしも成立しないという問題がある。
【0019】
本発明は、音声対話システムにおいて、上述のような従来の技術の問題点に鑑みてなされたものであり、システムが誤認識により誤った応答を行った場合にユーザが拒否発話を行うことを前提とせずに、システム理解状態を確認するための確認文の出力をできるだけ削減すると同時に、対話のやり直しによる対話の長さの増大を抑制することを目的とする。
【0020】
【課題を解決するための手段】
本発明では、従来の第四の技術で考慮されていた確認必要性探索型の対話手順を考慮することをとりやめる。なぜなら、この確認必要性探索型の対話手順は、ユーザの拒否発話を前提とする対話手順であるからである。代わりに、システム理解状態に含まれる属性の値の全て或いは一部を確認するための確認文を出力し、ユーザが承認文を入力した後に、確定済みの属性の値だけでなく、確定済みでない属性の値も正しいと仮定して、情報を提供するための応答文を出力するという試行的な確認型の対話手順と、ユーザに対する確認は行わないで、確定済みの属性の値だけでなく、確定済みでない属性の値も正しいと仮定して、即座にユーザに情報を提供するための応答文を出力するという試行的な即時応答型の対話手順を考慮する。この試行的な確認型の対話手順及び試行的な即時応答型の対話手順では、システムの誤った応答に対してユーザからの拒否発話は前提としない。
【0021】
また、本発明では、上記の試行的な確認型の対話手順と、試行的な即時応答型の対話手順に加えて、システム理解状態に含まれる属性の値の全て或いは一部を確認するための確認文を出力し、ユーザが承認文を入力した後に、確定済みの属性の値にしたがってユーザに情報を提供するための応答文を出力するという確定的な確認型の対話手順と、ユーザに対する確認は行わないで、確定済みの属性の値にしたがって、即座にユーザに情報を提供するための応答文を出力するという確定的な即時応答型の対話手順も考慮する。
【0022】
対話の各時点において、確定的な確認型の対話手順、試行的な確認型の対話手順、確定的な即時応答型の対話手順、試行的な即時応答型の対話手順の4種類の対話手順をすべて考慮し、可能な対話手順の中でも最も対話の長さが短くなるような対話手順を選択する。対話手順にしたがって対話を行うときの対話の長さを対話手順のコストと呼ぶこととすれば、対話手順コストが最小となるような対話手順を選択すればよい。
【0023】
各対話手順の対話コストは次のように計算することができる。
確定的な確認型の対話手順の対話コスト:対話手順にしたがって対話を行うときに、システムとユーザがやり取りする自立語の数の期待値。
確定的な即時応答型の対話手順の対話コスト:対話手順にしたがって対話を行うときに、システム応答文に含まれる自立語の数の期待値。
試行的な確認型の対話手順の対話コスト:対話手順にしたがって対話を行うときに、システムとユーザがやり取りする自立語の期待値と、その対話手順に含まれるシステム応答文が誤っていた場合に、後続する対話においてシステムとユーザがやり取りする自立語の数の期待値の和。
試行的な即時応答型の対話手順の対話コスト:対話手順にしたがって対話を行うときに、システム応答文に含まれる自立語の数の期待値と、システム応答が誤っていた場合に、後続する対話においてシステムとユーザがやり取りする自立語の数の期待値の和。
【0024】
本発明によれば、これら4種類の対話手順の全てを考慮し、対話コストという客観的な基準の下で最小の対話コストをもつ対話手順を選択することにより、システムが誤認識により誤った応答を行った場合にユーザが拒否発話を行うことを前提とせずに、システム理解状態を確認するための確認文の出力をできるだけ削減すると同時に、対話のやり直しによる対話の長さの増大を抑制することができる。
【0025】
【発明の実施の形態】
以下、発明の実施の形態について図面により詳細に説明する。
図1に本発明による音声対話システムのシステム環境を示す。本音声対話システム10はデータベース20及びメモリ装置30を具備し、通信回線40などにより多数の利用者端末(計算機端末)50と接続されている。ユーザが利用者端末50を使用し、情報の問い合わせを意味する文を音声によって入力すると、音声対話システム10は、ユーザと問い合わせ内容の全てあるいは一部を確認するためのやり取りを行った後、問い合わせ内容に応じてデータベース20に保持された情報を、通信回線40、利用者端末50を介し、音声によってユーザに提供する。音声対話システム10の実体はコンピュータシステムである。メモリ装置30は、音声対話システム10の作業用メモリであり、後述するように、対話の各時点におけるシステム理解状態、対話手順、対話コスト、確認候補、確認候補コスト等を格納する。
【0026】
図2は、本発明による音声対話システム10の構成例を示す機能ブロックである。図中、入力部100と出力部170が通信回線40などにより、利用者端末50と接続される。
【0027】
入力部100は、ユーザが計算機端末としての利用者端末50の音声認識装置を介し音声(音声信号)として入力する、情報の問い合わせを意味する文または問い合わせ内容の訂正を意味する文または確認の承認を意味する文を取り込む。
【0028】
文理解部110は、入力部100から音声(音声信号)によって入力されるユーザ問い合わせの内容を認識し、システムが認識した問い合わせ内容をシステム理解状態として保持する。実際には、システム理解状態はメモリ装置30に保持される。システム理解状態は、属性と属性の値と属性の値が確認済みかどうかを示すフラグの3つ組みの集合として表現される。文理解部110は、ユーザから情報の問い合わせを意味する文が入力されたと認識された場合には、問い合わせ文の認識結果からシステム理解状態を生成する。ユーザから問い合わせ内容の訂正文が入力された場合には、訂正文の内容を認識した結果にしたがって現在のシステム理解状態を更新する。システムがシステム理解状態に含まれる属性の値の全て或いは一部についてユーザに対して確認するために確認文を出力した後に、ユーザから承認文が入力されたと認識された場合には、確認した値が確定済みとなったことを現在のシステム理解状態の中に記録する。
【0029】
提供情報種別決定部120は、文理解部110が生成・更新するシステム理解状態から判断して、ユーザに提供することが可能なすべての情報の種別を提供情報種別として決定するとともに、該提供情報種別に加えて、提供情報種別の確率を計算する。図1では省略したが、この提供情報別及びその確率もメモリ装置30に保持される。
【0030】
対話手順生成部130は、提供情報種別決定部120が決定した提供情報種別の各々に関して、システム理解状態に含まれる属性の値の全て或いは一部を確認するためのやり取りを行った後に、確定済みの属性の値のみを正しい値と仮定して、ユーザに情報を提供するための応答文を出力するという確定的な確認型の対話手順(A)と、システム理解状態に含まれる属性の値の全て或いは一部を確認するためのやり取りを行った後に、確定済みとなった属性の値だけでなく、確定済みでない属性の値も正しい値であると仮定して、ユーザに情報を提供するための応答文を出力するという試行的な確認型の対話手順(B)と、ユーザに対する確認は行わないで、確定済みの属性の値のみが正しい値であると仮定して、即座にユーザに情報を提供するための応答文を出力するという確定的な即時応答型の対話手順(C)と、ユーザに対する確認は行わないで、確定済みの属性の値だけでなく、確定済みでない属性の値も正しい値であると仮定して、即座にユーザに情報を提供するための応答文を出力するという試行的な即時応答型の対話手順(D)を生成する。生成された各対話手順(対話プラン)はメモリ装置30に保持される。
【0031】
対話手順コスト計算部140は、対話手順生成部130で生成された各対話手順のコスト(対話コスト)を計算する。確定的な確認型の対話手順(A)に関しては、対話手順にしたがって対話を行うときにシステムとユーザがやり取りする自立語の数の期待値を、該確定的な確認型の対話手順のコストとして計算する。試行的な確認型の対話手順(B)に関しては、対話手順に従って対話を行うときにシステムとユーザがやり取りする自立語の期待値と、その対話手順に含まれるシステム応答文が誤っていた場合に後続する対話においてシステムとユーザがやり取りする自立語の数の期待値の和を、該試行的な確認型の対話手順のコストとして計算する。確定的な即時応答型の対話手順(C)に関しては、対話手順に従ってシステムが応答するときにシステム応答文に含まれる自立語の数の期待値を、該確定的な即時応答型の対話手順のコストとして計算する。試行的な即時応答型の対話手順(D)に関しては、対話手順に従ってシステムが応答するときに、システム応答文に含まれる自立語の数の期待値と、システム応答が誤っていた場合に後続する対話においてシステムとユーザがやり取りする自立語の数の期待値の和を、該試行的な即時応答型の対話手順として計算する。生成された各々の対話手順のコストは、当該対話手順と対応付けてメモリ装置30に保持される。
【0032】
確認候補生成部150は、システム理解状態に含まれる属性のうち、確定済みでない属性のすべての組みあわせを確認候補として生成する。生成された各確認候補はメモリ装置30に保持される。
【0033】
確認候補コスト生成部160は、確認候補の各々に関して、提供情報種別ごとに、確認候補の確認を含むような対話手順の中で、最小のコストをもつ対話手順を選び、提供情報種別の確率を考慮して、コストの期待値を計算し、その期待値を確認候補のコストとして生成する。生成された各々の確認候補のコストは、当該確認候補と対応付けてメモリ装置30に保持される。
【0034】
出力部170は、すべての確認候補のコストと、すべての即時応答型の対話手順のコストを比較する。比較の結果、即時応答型の対話手順のコストの方が小さい場合には、その最小の即時応答型の対話手順にしたがって情報を提供するための応答文を生成して出力し、確認候補のコストの方が小さい場合には、そのうちの最小のコストの確認候補の確認を行うための確認文を生成して出力する。
【0035】
制御部180は、各部100〜170が以上のように連携動作するように、各部の動作を制御する。
【0036】
図3に本音声対話システム10の処理フローチャートを示す。また、図4に、図3中のコスト判定ステップ210の詳細処理フローチャートを示す。
【0037】
以下に、具体例とともに本発明の実施例の詳細な動作について説明する。
ここでは、一例として天気情報案内を行う音声対話システムについて考える。可能な提供情報種別は、天気と警報の2つであるとする。利用者の問い合せの内容は、場所、日、情報種別という3つの属性によって表されるとする。場所という属性は、神奈川県、香川県といった都道府県名や都市名を値としてとり、日属性は、今日、明日という値をとり、情報種別は、天気、警報という値をとるとする。また、データベース20には、100個の場所が登録されており、各場所に予報されている天気カテゴリと発表されている警報の種類が記憶されている。
【0038】
入力部100は、ユーザから、最初に、次のような情報の問い合せを意味する文を入力したとする(ステップ201)。
「神奈川県の明日の天気について教えてください」 (1)
【0039】
文理解部110は、ユーザからの問い合わせ文の内容を認識し、システム理解状態を生成する(ステップ202)。システム理解状態は、属性と属性の値と属性の値が確認済みかどうかを示すフラグの3つの組の集合として表現される。文理解部110が生成するシステム理解状態は、次のようであったとする。
【0040】
{<場所、香川県、未>、<日、明日、未><情報種別、天気、未>}(2)
上記の表現において、3つ組み<属性、値、未>は、属性の値が確認済みでないことを表す。(1)の例の場合、場所属性の値は神奈川県であり、日属性の値は明日であり、情報種別属性の値は天気であり、いずれも確定済みではない。また、生成されたシステム理解状態(2)では、場所属性の値は「香川県」と誤認識されている。日属性と情報種別属性の値は正しく認識されている。
【0041】
制御部180は、システム理解状態について、属性の値に未確認のものが存在するか判定する(ステップ204)。存在すればステップ205に進み、存在しなければステップ212に進む。今の時点では、確定済みの属性は存在しないため、ステップ205に進むが、初回のステップ205〜211の処理は省略する。
【0042】
この後、本音声対話システム10が情報種別の値が天気であることを確認する「天気ですか?」といった確認文を出力し、ユーザがこの確認文に対して「はい」といった承認文を入力した状況を想定する。
【0043】
文理解部110は、ユーザからの承認文を認識した場合には、確認した値が確定済みとなったことをシステム理解状態の中に記録する(ステップ203)。ここでは、システム理解状態の内容は次のように表現される。
{<場所、香川県、未>、<日、明日、未>、<情報種別、天気、済>}(3)
上の表現において、3つ組み<属性、値、済>は、属性の値が確認済みであることを示す。情報種別の値は天気であることが確定済みとなっている。この時点でも、場所と日の属性の値は未確定であるため、ステップ205に進む。
【0044】
提供情報種別決定部120は、システム理解状態に基づき、ユーザに提供することが可能なすべての情報の種別を決定し、それぞれの確率を計算する(ステップ205)。ここでは、システム理解状態(3)から判断して、提供情報種別として天気を生成する。可能な提供情報種別は1個しかないので、天気という情報種別の確率は1である。なお、提供情報種別が複数あるときは、たとえば、各提供情報種別の確率が等確率であると仮定して、各提供情報種別の確率を計算する方法がある。
【0045】
対話手順生成部130は、現在のシステム理解状態(3)の下で可能な対話手順(対話プラン)を生成する(ステップ206)。可能な対話手順を網羅的に記述すると以下の通りである。
【0046】
(1) 確定的な確認型の対話手順A
(i) 場所属性の値のみを確認し、その後で、確認した場所のすべての日(今日、明日)の天気を応答するという手順。
(ii) 日属性の値のみを確認し、その後で、確認した日のすべての場所(100ケ所)の天気を応答するという手順。
(iii) 場所属性の値を確認、その後、日属性の値を確認し、その後で、確認した場所、日の天気を応答するという手順。
(iv) 日属性の値を確認し、その後、場所属性の値を確認し、その後で、確認した日、場所の天気を応答するという手順。
(v) 場所属性と日属性の値を同時に確認し、その後で、確定した場所、日の天気を応答するという手順。
【0047】
(2) 試行的な確認型の対話手順B
(i) 場所属性を確認し、その後で、確定した場所における明日の天気を応答するという手順。この場合、明日という値は確定済みではないが、正しい値であると仮定して応答を生成する。
(ii) 日属性を確認し、その後で、確定した日の場所「香川県」の天気を応答するという手順。この場合、場所「香川県」という値は確定済みではないが、正しい値であると仮定して応答を生成する。
【0048】
(3) 確定的な即時応答型の対話手順C
確認を行わずに、すべての場所(100ケ所)、すべての日(今日、明日)の天気を応答するという手順。
【0049】
(4) 試行的な即時応答型の対話手順D
(i)確認を行わずに、香川県のすべての日(今日、明日)の天気を応答するという手順。この場合、場所属性「香川県」という値は確定済みではないか、正しい値であると仮定して応答を生成する。
(ii) 確認を行わずに、明日のすべての場所(100ケ所)の天気を応答するという手順。この場合、日属性「明日」という値は確定済みではないが、正しい値であると仮定して応答を生成する。
(iii) 確認を行わずに、香川県、明日の天気を応答するという手順。この場合、場所属性「香川県」、日属性「明日」という値は確定済みではないが、正しい値であると仮定して応答を生成する。
【0050】
ここでは、簡単に、(1)確定的な確認型の対話手順Aでは(v)のケースの、場所と日を同時に確認し、その後で、確定した場所、日の天気を応答するという手順、(2)試行的な確認型の対話手順Bでは(i)のケースの、場所を確認し、その後で、確定した場所における明日の天気を応答するという手順、(3)確定的な即時応答型の対話手順Cでは上記の通り、すべての場所、すべての日の天気を応答するという手順、(4)試行的な即時応答型の対話手順Dでは( )のケースの、香川県、明日の天気を応答するという手順の、4つの対話手順が生成されたとする。
【0051】
対話手順コスト計算部140は、各対話手順のコストを計算する(ステップ207)。今、提供情報種別は天気の一つであり、その確率は1である。
まず、確定的な即時応答型の対話手順Cの対話コストについて説明する。対話手順Cは、現在確定済みである天気という値のみにしたがって応答するという対話手順である。場所属性と日属性の確定済みでない値は使わないので、すべての場所、日の天気を応答することになる。ここで想定している状況では、データベース140に100個の場所が登録されており、日属性の値は今日と明日の2つの値であるとしている。一つの場所、一つの日における天気について応答するためには、「明日の神奈川県は晴れです」のように、「明日」、「神奈川県」、「晴れ」という3つの自立語が必要であるとする。対話手順は、100個の場所における今日と明日の天気を応答するので、600個の自立語を含む応答文を出力することになる。したがって、対話手順Cのコストは「600」となる。
【0052】
次に、確定的な確認型の対話手順Aのコストについて説明する。対話手順Aでは、まず、場所と日という2つの属性の値を確認する。この確認のための対話の中でやり取りされる自立語の数の期待値は、先の第四の従来法で用いられている方法によって計算されるものとする(非特許文献2参照)。ここでは、確認する属性の認識精度をrとし、確認する属性の数をmとするとき、それらの属性の値を確定するまでにやり取りされる自立語の数は、以下の式で表される。
2m/r−m+1 (4)
【0053】
今、場所属性の認識精度が0.60、日属性の認識精度が0.95であるとする。場所属性と日属性を同時に正しく認識できる認識精度は、各属性の認識精度の積で表されるとすると、0.60×0.95=0.57となる。したがって、場所属性と日属性の値を同時に確定するまでの対話の中でやり取りされる自立語の期待数は、(4)式で、m=2、F=0.57として、2・2/0.57−2+1=6.02となる。
【0054】
対話手順Aは、場所属性と日属性の値を確定した後、確定済みの場所と日における天気を応答する。この応答においては、「今日の神奈川県は晴れです」のように、3つの自立語が出力されるとする。確認のために6.02個の自立語を要し、確認後の応答のために3個の自立語を要することになり、合計「9.02」個の自立語が必要となる。結果として、対話手順Aの対話コストは9.02となる。
【0055】
次に、試行的な即時応答型の対話手順Dのコストについて説明する。対話手順Dでは、現在のシステム理解状態(3)において確定済みではない、香川県、明日という値と、確定済みの天気という値にしたがって、応答を行うという対話手順である。ここでは、システムは「明日の香川県は晴れです」と応答することになる。もちろん、香川県は誤認識した値なので、この応答によってはユーザが必要とする情報は与えられない。
【0056】
ここで、試行的な即時応答型の対話手順のコストについて、一般的な形で説明する。現在のシステム理解状態が正しい確率をpとして、システム理解状態が正しい場合と正しくない場合に分けて説明を進める。まず、現在のシステム理解状態が正しい場合について考える。システム理解状態が正しいならば、システムの応答はユーザの問い合わせに合致したものであり、ユーザは必要な情報を得ることができて、ここで対話は終了する。システム理解状態が正しいときのシステム応答に含まれる自立語の数をL1とする。
【0057】
次に、現在のシステム理解状態が正しくない場合を考える。システム理解状態が正しくない確率は1−pである。このとき、システム応答は誤っているので、ユーザは必要な情報を手に入れることはできない。ユーザは必要な情報を手に入れるために、現在の問い合わせをはじめからやり直し、対話を何度か行った後に、必要な情報を手に入れることになる。
【0058】
ここでコストの計算を容易にするために、誤った応答が出力された後に続く対話においても、現在のシステム理解状態で確定済みとなっている属性は確定済みとなり、確定済みでない属性は確定しないという状態で、システム応答が出力されると仮定する。継続する1回の対話の中でやり取りされる自立語の期待値をL2とする。期待値L2に関しては、事前に収集した対話データを使って、現存の問い合わせている情報種別についての対話に含まれる自立語の数の平均値を計算し、この平均値をL2とする。縦続する個々の対話では、確率qで正しい応答が出力されるとすると、正しい応答を行うまでに必要な対話回数の期待値は1/qとなる。
【0059】
以上の考察をまとめると、現在のシステム理解状態が確率pで正しい場合、システムは正しい応答を行って、ユーザは必要な情報を得ることに成功する。このとき、システム応答に含まれる自立語の数をL1とする。次に、現在のシステム理解状態が確率1−pで正しくない場合、L1個の自立語を含む誤ったシステム応答が出力された後、L2個の自立語を含む対話が1/q回続き、ユーザは必要な情報を得ることに成功する。したがって、試行的な即時応答型の対話手順の対話コストは次のようになる。これをあらかじめ定義しておく。
【0060】
今取り上げている例に戻る。現在のシステム理解状態(3)が正しい確率は、場所属性の認識精度0.60と日属性の認識精度0.95の積で与えられるとする。したがって、p=0.60×0.95=0.57でシステム理解状態(3)は正しい。ここでは、誤った応答を行った後の対話で正しいシステム応答が生成される確率qは、Pと等しいと仮定して、q=p=0.57とする。誤った応答「明日の香川県は晴れです」に含まれる自立語は3個であるので、L1=3である。誤った応答の後に続く各対話でやり取りされる自立語の期待値L2については、事前に収集された対話データの中で天気の問い合わせを行う対話に含まれる自立語の平均数をとり、L2=10となったと仮定する。(5)式より、対話手順Dのコストは、3+0.43・10/0.57=3+7.54=10.54となる。
【0061】
次に、試行的な確認型の対話手順Bの対話コストについて説明する。対話手順Bは、ここでは、場所属性を確認し、その後で、確定した場所における明日の天気を応答するという手順である。まず、場所属性の値を確定するまでにやり取りされる自立語の期待数は、(4)式で、m=1、r=0.65であるから、2・1/0.65−1+1=3.08となる。
【0062】
場所属性が確定した後の状況では、日属性の値のみが未確定である。日属性の認識精度は0.95であると仮定しているので、この時点でシステム理解状態が正しい確率は0.95となる。この状況は、日属性の値が正しいと仮定してシステム応答を行うという試行的な即時応答型の対話手順を踏んでいるのと同じ状況である。したがって、場所属性の値が確定した後の対話に含まれる自立語の期待数は、(5)式において、p=q=0.95、L1=3、L2=10として、3+0.05・10/0.95=3+0.53=3.53となる。結局、対話手順Bの対話コストは、3.08+3.53=6.61となる。
【0063】
以上をまとめると、
(1)確定的な確認型の対話手順Aの対話コスト:9.02
(2)試行的な確認型の対話手順Bの対話コスト:6.61
(3)確定的な即時応答型の対話手順Cの対話コスト:600
(4)試行的な即時応答型の対話手順Dの対話コスト:10.54
となる。
【0064】
このように、対話手順コスト計算部140が各対話手順のコストを計算した後、確認侯補生成部150が、現在のシステム理解状態に含まれる属性のうち、確定済みでない属性のすべての組み合わせを確認候補として生成する(ステップ208)。先のシステム理解状態(3)から、組み合わせは、(1)場所を確認、(2)日を確認、(3)場所と日を確認の3通りである。ここでは、簡単のため、確認候補として、場所属性のみを確認するという確認候補、場所属性と日属性を同時に確認するという確認候補が生成されたとする。
【0065】
次に、確認候補コスト生成手段160は、確認候補の各々に関して、確認侯補を含むような対話手順の中で、最小のコストをもつ対話手順を選び、提供情報種別の確率を考慮して、コストの期待値を計算し、その期待値を確認候補のコストとして生成する(ステップ209)。ここでは、可能な提供情報種別は天気のみであり、その確率は1である。
場所属性のみの確認を含む対話手順は、試行的な確認型の対話手順Bのみである。したがって、場所属性のみを確認するという確認候補のコストは「6.61」となる。
場所属性と日属性を同時に確認することを含む対話手順は、確定的な確認型の対話手順Aのみである。したがって、場所属性と日属性を同時に確認するという確認候補のコストは「9.02」となる。
【0066】
続いて、出力部180が、コスト判定し(ステップ210)、その判定結果に基づいて確定文又は応答文を生成して出力する(ステップ211)。詳しくは、まず、すべての確認候補(ここでは、場所のみ確認、場所と日を確認)のコストと、すべての即時応答型の対話手順(ここでは、対話手順CとD)のコストを比較する(ステップ2110)。そして、即時応答型の対話手順のコストの方が小さかったならば、即時応答型の対話手順の中から、最小のコストをもつ即時応答型(確定的な即時応答型又は試行的な即時応答型)を決定し(ステップ2111)、その対話手順にしたがって情報を提供するための応答文を生成する(ステップ2112)。一方、確認候補のコストの方が小さかったならば、確認候補の中から最小のコストをもつものを決定し(ステップ2113)、その確認候補の確認(ここでは、場所を確認又は場所と日を確認)を行うための確認文を生成する(ステップ2114)。
【0067】
現在の例の場合、結局、最小のコストは、場所属性のみを確認するという確認侯補のコスト6.61である。出力部170は、現在のシステム理解状態(3)にしたがって、場所属性の値のみを確認するための確認文「香川県ですか?」を出力する。
【0068】
この後、ユーザが「神奈川県です」という訂正文を入力し、システムはその訂正文を正しく認識し、次に、「神奈川県ですか」という場所属性の値を確認するための確認文を出力し、ユーザが「はい」という承認文を入力し、システムはその承認文が正しく認識したとする。このとき、システム理解状態は次のようになる。
{<場所、神奈川県、済>、<日、明日、未>、<情報種別、天気、済>}(6)
日属性のみが未確定である。したがって、この場合もステップ205以降の処理に進む。
【0069】
ここで、対話手順生成部130は、再び可能な対話手順をすべて生成する(ステップ206)。ここでは、簡単のため、次の2つの対話手順を取り上げて、説明を続ける。
(5) 確定的な確認型の対話手順A:
日属性の値を確定した後で、確定した日における神奈川県の天気を応答するという手順。
(6) 試行的な即時応答型の対話手順D:
確認を行わずに、神奈川県の明日の天気を応答するという手順。ここでは、明日という値は確定済みではないが、正しい値であると仮定して応答が出力される。
【0070】
次に、対話手順コスト計算部140が、各対話手順のコストを計算する(ステップ207)。今、可能な提供情報種別は天気のみであり、その確率は1である。
まず、(5)の対話手順Aの対話コストについて説明する。日属性を確定するまでに必要な自立語の期待数は、日属性の認識精度は0.95であるので、式(4)で、m=1、r=0.95として、2・1/0.95−1+1=2.11となる。日属性が確定した後に生成される応答に含まれる自立語は3である。したがって、対話手順Eの対話コストは、2.11+3=5.11となる。
次に、(6)の対話手順Dの対話コストについて説明する。日属性の認識精度は0.95であるので、現在のシステム理解状態(6)が正しい確率は0.95である。また、天気についての問い合わせの対話は、平均して10個の自立語をやり取りするとしているので、対話手順の対話コストは、式(5)で、p=q=0.95、L1=3、L2=10とおいて、3+0.05・10/0.95=3+0.53=3.53となる。
【0071】
まとめると、
確定的な確認型の対話手順Aのコスト:5.11
試行的な即時応答型の対話手順Dのコスト:3.53
となる。
【0072】
次に、確認候補コスト生成部150が、ここでは日属性のみを確認するという確認候補のみを生成する(ステップ208)。この確認候補のコストは、対話手順Eのコストと等しく、5.11となる。
【0073】
文出力部180は、日属性のみを確認するという確認候補のコスト5.11と、試行的な即時応答型の対話手順Dのコスト3.53を比較し、小さいコストを与える対話手順Dを選択する(ステップ210、211)。この選択にしたがって、日属性を確認するための確認文を出力することなしに、「明日の神奈川県は晴れです」という応答文が出力されることになる。
【0074】
以上の対話をまとめると次のようになる。
(文1) ユーザ :「神奈川県の明日の天気を教えてください」
(文2) システム:「天気ですか?」
(文3) ユーザ :「はい」
(文4) システム:「香川県ですか?」
(文5) ユーザ :「神奈川県です」
(文6) システム:「神奈川県ですか?」
(文7) ユーザ :「はい」
(文8) システム:「神奈川県の明日の天気は晴れです」
ここでの説明は、文(4)以降のシステムの行動に焦点を絞った説明である。
【0075】
なお、図3の処理フローにおいて、ある時点で、ステップ204にて、システム理解状態に未確定の属性がなくなったことが判定されれば、出力部170では、当該システム理解状態に基づいて直ちに応答文を生成し出力することになる。
【0076】
本音声対話システム10では、認識精度の低い場所属性の値は確認するが、認識精度の高い日属性の値は確認しないという振る舞いを示す。どの属性の値を確認するかという判断は、対話手順のコストという客観的な基準によって決定されている。この方法により、ユーザは短い対話で必要な情報を手に入れることが可能となる。
【0077】
なお、図2で示した音声対話システム10における各部の一部もしくは全部の処理機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、あるいは、図3、図4で示した処理手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもない。また、コンピュータでその処理機能を実現するためのプログラム、あるいは、コンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、FD、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、提供したりすることができるとともに、インターネット等のネットワークを通してそのプログラムを配布したりすることが可能である。
【0078】
【発明の効果】
以上説明したように、本発明の音声対話システムによれば、対話全体の長さを増大させることがないと判断される場合には、ユーザ問い合わせ内容の一部或いは全てに関して、確認を省くことができ、確認文の出力数の増大に伴うユーザ不満足度の増大を避けることができる。また、システムが誤認識のため誤った応答を行ったときには、ユーザが拒否発話を行うということを前提としていないので、ユーザに拒否発話を行うことを強制する必要がなくなり、ユーザ満足度が増す。
【図面の簡単な説明】
【図1】本発明のシステム環境を示す全体構成図である。
【図2】本発明による音声対話システムの一実施例の機能ブロック図である。
【図3】本発明の一実施例の処理フローチャートである。
【図4】図3におけるコスト判定の詳細処理フローチャートである。
【符号の説明】
10 音声対話システム
20 データベース
30 メモリ装置
40 通信回線
50 利用者端末
100 入力部
110 文理解部
120 提供情報種別決定部
130 対話手順生成部
140 対話手順コスト計算部
150 確認候補生成部
160 確認候補コスト生成部
170 出力部
180 制御部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an interactive information providing system. More specifically, when a user inputs a query about the contents of a database using voice, the system performs an exchange for confirming the contents of the query of the user, if necessary. The present invention relates to a voice dialogue system and method, a voice dialogue program, and a recording medium for the same, which provide a user with the contents of a database by voice according to the contents of a query that is recognized.
[0002]
[Prior art]
For example, when there is a database that stores various information such as weather information, TV program schedules, schedules, and transportation times, a voice dialogue system allows a user to recognize a sentence meaning a query about the contents of the database. When the voice is input through the device, the inquiry content recognized by the system is expressed as a system understanding state expressed as a set of triples indicating the attribute, the value of the attribute, and the value of the attribute. Hold.
[0003]
In such a voice interaction system, the result of recognizing the contents of the user inquiry is not always correct due to a voice recognition error. Therefore, if necessary, a confirmation sentence is output as a voice to the user in order to confirm all or part of the system understanding state. When the user inputs an approval sentence (for example, “Yes”) indicating confirmation of confirmation, the system records the confirmed contents of the system understanding state as confirmed. When the user inputs a correction sentence meaning correction for confirmation, the system updates the system understanding state according to the content of the correction sentence. After the exchange for confirmation, the system determines the contents of the user inquiry according to the system understanding state, and outputs a response sentence for providing information to the user.
[0004]
On the other hand, if no confirmation is made, immediately after the user inputs the inquiry, the system determines the contents of the user inquiry according to the system understanding state at that time, and outputs a response sentence for providing information to the user. It becomes.
[0005]
The advantage of confirmation is that if the user enters an approval sentence for the confirmation sentence for confirming the attribute value, the probability that the attribute value is correct will increase, so the system will convey the information required by the user more accurately. It is possible to do that. However, since the length of the dialogue is increased by performing the confirmation, the user's satisfaction may be reduced.
[0006]
Conventionally, as a technology for confirming the contents of user inquiries by the spoken dialogue system, the first technology for generating a response sentence according to only the attribute values that have been confirmed by the approval sentence from the user, the confirmation is completely Second technique not to perform, record the reliability of the speech recognition result obtained when recognizing the value of each attribute in the system understanding state, if the reliability is greater than a certain threshold, Assume that the third technique (for example, see Non-Patent Document 1) that does not check the attribute value, and that not only the attribute value that has been confirmed but also the value of the attribute that has not been confirmed are correct values. When a response sentence is generated, if the response sentence is incorrect, it is assumed that there is a rejection utterance from the user, and if a rejection utterance is received from the user, the next is the value of the confirmed attribute Is positive As a have value, the fourth technique of generating a response text (e.g., Non-Patent
[0007]
[Non-Patent Document 1]
Komaya Kazunori and Kawahara Tatsuya, “Dialogue Management to Deal with Speech Recognition Errors in Mixed-initiated Dialogue”,
Proc. Of the 6th Annual Conference of the Language Processing Society, 336-339 (2000)
[Non-Patent Document 2]
Koji Dosaka, Yoshihito Yasuda, Kiyoaki Aikawa, “Efficient Spoken Dialogue Control under System Knowledge Restriction”,
Natural Language Processing, Vo1.9, No. 1 (2002) 43-63
[Non-Patent Document 3]
Koji Dosaka, Nobuhito Yasuda, Kiyoaki Aikawa, “Spoken Dialogue Control Based on Maximizing Information Transmission Efficiency”,
Proc. Of the 8th Annual Conference of the Language Processing Society, 260-263 (2002)
[0008]
[Problems to be solved by the invention]
In the voice interactive system, the result of recognizing the contents of the user inquiry is not always correct due to a voice recognition error. Therefore, in the speech dialogue system, a technique for responding as much as possible to the content of the user's inquiry has been developed even if a speech recognition error exists.
[0009]
In any of the first technique, the second technique, the third technique, and the fourth technique, the user's inquiry contents recognized by the system at each point of the dialogue are attribute and attribute It is represented as a set of triples of values and flags that indicate whether the values have been finalized. This triplet set is called a system understanding state.
[0010]
In the first technique, the system outputs a confirmation message for confirming the value of the recognized attribute to the user, and confirms when the approval sentence from the user, for example, the sentence “Yes” is recognized. Record in the system understanding state that the value of the attribute has been finalized. The system searches the database according to only the attribute values that have been confirmed, and outputs a response sentence for transmitting the search result to the user. Since this method outputs a response sentence according to only the value approved by the user, there is an advantage that the system is less likely to make an incorrect response according to the result of misrecognizing the user's inquiry content. While the output of confirmation sentences is effective to increase the reliability of the response sentence of the system, the number of confirmations increases the time required for the user to obtain the necessary information, which increases the degree of user dissatisfaction. It also causes the problem.
[0011]
The first conventional technique checks all the attribute values necessary to create a response sentence, and has not been devised to reduce the number of confirmation sentences, so there is a problem that the degree of user dissatisfaction increases. is there.
[0012]
The second conventional technique is a method in which no confirmation is performed. Unlike the first conventional technique, this method does not increase the degree of user dissatisfaction in that no confirmation text is output. However, since no confirmation is performed at all, the system may output a response sentence based on the erroneous recognition result of the user inquiry content. As a result, the user makes an inquiry again, and there is a problem that the length of the dialog until the user obtains the necessary information increases.
[0013]
The conventional third technique records the reliability of the speech recognition result of the attribute value, does not check the attribute value having a reliability greater than a certain threshold, and the reliability of the speech recognition result is low. This is sometimes done by checking. In this method, the threshold value is determined on the basis of improving the understanding rate of the user inquiry content. There is a problem that the standard of improving the understanding rate of the user's inquiry content does not necessarily result in shortening the length of dialogue required to obtain the information required by the user as much as possible.
[0014]
In the conventional fourth technique, at each point in the dialogue, the possible procedures for the dialogue until the response sentence is output are listed, and the dialogue is performed according to the dialogue procedure that minimizes the length of the dialogue. It is a method of determining the behavior of the system at each time point. As a procedure of dialogue, after confirmation, a definite confirmation type dialogue procedure that outputs a response sentence only according to the confirmed system understanding state, without understanding, understanding the system that has been confirmed at present A deterministic immediate response type interactive procedure that outputs a response sentence only according to the state, a response sentence is output according to the system understanding state including attribute values that have not been confirmed at present, and the user rejects the response sentence Consider a confirmation-needs-search type dialogue procedure in which a dialogue is retried when an error occurs, and a response sentence is output only according to the confirmed system understanding state in the redo dialogue. In the fourth technique, for each of these dialogue procedures, the dialogue length is estimated, and the dialogue procedure with the shortest dialogue length is selected. The next action of the system is determined according to the selected interaction procedure.
[0015]
In the fourth technology, if it is determined that the confirmation-needs search type interaction procedure can obtain necessary information in a shorter interaction than other types of interaction procedures, this confirmation requirement is required. A sex search type interactive procedure is selected, and confirmation of some attribute values can be omitted. At this time, it is also guaranteed that the total length of the dialogue does not increase compared to other dialogue procedures.
[0016]
The conventional fourth technique has the advantage that some confirmations can be omitted compared to the conventional first technique, and the erroneous response sentence in the conventional second technique is output many times. As a result, the problem that the length of the dialogue increases can be overcome. In the third technology, the criterion for selecting a threshold is a criterion that improves the understanding rate of user queries. In the fourth technology, the length of the dialogue is shortened when following each dialogue procedure. Standards are used.
[0017]
However, the fourth technique is based on the premise that the user will make a refusal utterance when the system gives an incorrect response, and there is a problem that it cannot be applied if this premise is not satisfied. In an actual dialogue, the user may give a refusal utterance such as “No” when the system gives an incorrect response, but without making an explicit refusal utterance, the user can ask again. It may be possible to repeat the dialogue repeatedly. Also, forcing the user to make a rejection utterance when the system gives an incorrect response puts a burden on the user and increases the degree of user dissatisfaction.
[0018]
In this way, the fourth technology has the advantage of overcoming the problems of the first, second, and third technologies, but on the premise that the user makes a refusal utterance in response to an incorrect response of the system. However, there is a problem that this assumption does not necessarily hold in an actual dialogue.
[0019]
The present invention has been made in view of the above-described problems of the prior art in a voice interaction system, and is based on the premise that a user makes a rejection utterance when the system makes a wrong response due to a recognition error. The purpose is to reduce the output of the confirmation text for confirming the system understanding state as much as possible, and to suppress the increase in the length of the dialog due to the re-execution of the dialog.
[0020]
[Means for Solving the Problems]
In the present invention, the confirmation necessity search type interactive procedure considered in the conventional fourth technique is stopped. This is because the confirmation necessity search type dialogue procedure is a dialogue procedure based on the user's rejection utterance. Instead, a confirmation text for confirming all or part of the attribute values included in the system understanding state is output, and after the user inputs an approval text, not only the confirmed attribute values but also the confirmed values are not confirmed. Assuming that the value of the attribute is also correct, a trial confirmation type interactive procedure of outputting a response sentence for providing information, and not confirming to the user, not only the confirmed attribute value, Assuming that the value of the attribute that has not been finalized is also correct, consider a trial immediate response type interactive procedure in which a response sentence for immediately providing information to the user is output. In the trial confirmation type interactive procedure and the trial immediate response type interactive procedure, the rejection utterance from the user is not assumed for the erroneous response of the system.
[0021]
In addition, in the present invention, in addition to the above-described trial confirmation type interactive procedure and trial immediate response type interactive procedure, it is possible to confirm all or part of the attribute values included in the system understanding state. A definite confirmation type interactive procedure that outputs a confirmation sentence, and after the user inputs an approval sentence, outputs a response sentence for providing information to the user according to the value of the confirmed attribute, and confirmation to the user Considering a deterministic immediate response type interactive procedure in which a response sentence for promptly providing information to the user is output according to the value of the determined attribute.
[0022]
At each point in the dialogue, there are four types of dialogue procedures: deterministic confirmation type interaction procedure, trial confirmation type interaction procedure, deterministic immediate response type interaction procedure, and trial immediate response type interaction procedure. Consider all of them, and select the dialogue procedure that will minimize the length of the dialogue among the possible dialogue procedures. If the length of the dialogue when the dialogue is performed according to the dialogue procedure is called the cost of the dialogue procedure, the dialogue procedure that minimizes the dialogue procedure cost may be selected.
[0023]
The interaction cost of each interaction procedure can be calculated as follows.
Dialog cost of a deterministic confirmation-type dialog procedure: Expected value of the number of independent words that the system and the user exchange when performing a dialog according to the dialog procedure.
Dialog cost of a deterministic immediate-response dialog procedure: Expected value of the number of independent words included in a system response sentence when a dialog is performed according to the dialog procedure.
Dialogue cost of a trial confirmation-type dialogue procedure: When dialogues are conducted according to the dialogue procedure, when the expected value of the independent word exchanged between the system and the user and the system response sentence included in the dialogue procedure are incorrect The sum of the expected number of free words that the system and the user exchange in the subsequent dialogue.
Dialogue cost of a trial procedure of immediate response type: When performing dialogue according to the dialogue procedure, the expected value of the number of free words included in the system response sentence and the subsequent dialogue if the system response is incorrect The sum of the expected number of independent words that the system and user exchange in.
[0024]
According to the present invention, all of these four types of dialogue procedures are considered, and the dialogue procedure having the smallest dialogue cost is selected under the objective criterion of dialogue cost. If the user does the refusal, the output of the confirmation sentence for confirming the system understanding state is reduced as much as possible, and at the same time, the increase in the length of the conversation due to the re-conversation is suppressed. Can do.
[0025]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 shows a system environment of a voice dialogue system according to the present invention. The voice
[0026]
FIG. 2 is a functional block showing a configuration example of the
[0027]
The
[0028]
The
[0029]
The provided information
[0030]
The dialogue
[0031]
The dialog procedure
[0032]
The confirmation
[0033]
The confirmation candidate
[0034]
The
[0035]
The
[0036]
FIG. 3 shows a process flowchart of the
[0037]
Hereinafter, detailed operations of the embodiment of the present invention will be described together with specific examples.
Here, as an example, consider a spoken dialogue system that provides weather information guidance. Assume that there are two types of provided information, weather and warning. It is assumed that the content of the user's inquiry is represented by three attributes: place, date, and information type. Assume that the place attribute has values of prefecture names and city names such as Kanagawa Prefecture and Kagawa Prefecture, the day attribute has values of today and tomorrow, and the information type has values of weather and warning. Further, 100 locations are registered in the
[0038]
It is assumed that the
“Tell me about tomorrow's weather in Kanagawa” (1)
[0039]
The
[0040]
{<Place, Kagawa, not yet>, <day, tomorrow, not yet><information type, weather, not yet}} (2)
In the above expression, the triple <attribute, value, not> indicates that the attribute value has not been confirmed. In the case of the example of (1), the value of the place attribute is Kanagawa Prefecture, the value of the day attribute is tomorrow, the value of the information type attribute is weather, and neither has been confirmed. Further, in the generated system understanding state (2), the value of the location attribute is erroneously recognized as “Kagawa Prefecture”. The values of the day attribute and information type attribute are recognized correctly.
[0041]
The
[0042]
Thereafter, the
[0043]
When the
{<Place, Kagawa, not yet>, <day, tomorrow, not>, <information type, weather, finished>} (3)
In the above expression, the triplet <attribute, value, done> indicates that the value of the attribute has been confirmed. The value of the information type has been confirmed to be weather. Even at this time, since the values of the place and date attributes are unconfirmed, the process proceeds to step 205.
[0044]
The provided information
[0045]
The
[0046]
(1) Definite confirmation type dialogue procedure A
(I) A procedure of confirming only the value of the location attribute and then responding with the weather for all the days (today and tomorrow) of the confirmed location.
(Ii) A procedure of confirming only the value of the day attribute and then responding to the weather of all places (100 places) on the confirmed day.
(Iii) A procedure of confirming the value of the location attribute, then confirming the value of the day attribute, and then responding with the weather of the confirmed location and day.
(Iv) A procedure of confirming the value of the day attribute, then confirming the value of the location attribute, and then responding with the weather of the confirmed day and location.
(V) A procedure of confirming the value of the place attribute and the day attribute at the same time, and then responding with the confirmed place and day weather.
[0047]
(2) Trial confirmation type dialogue procedure B
(I) A procedure of confirming the location attribute and then responding tomorrow's weather at the determined location. In this case, the value of tomorrow is not finalized, but a response is generated assuming that it is a correct value.
(Ii) A procedure of confirming the day attribute and then responding with the weather of the place “Kagawa Prefecture” on the confirmed day. In this case, the value of the place “Kagawa Prefecture” is not fixed, but a response is generated assuming that the value is correct.
[0048]
(3) Definite immediate response type interactive procedure C
The procedure of responding to the weather of all locations (100 locations) and all days (today, tomorrow) without confirmation.
[0049]
(4) Trial immediate response type interactive procedure D
(I) A procedure of responding to the weather on all days (today, tomorrow) in Kagawa Prefecture without performing confirmation. In this case, the response is generated assuming that the value of the location attribute “Kagawa Prefecture” has not been confirmed or is a correct value.
(Ii) The procedure of responding to the weather of all tomorrow's places (100 places) without confirmation. In this case, the value of the day attribute “tomorrow” is not finalized, but a response is generated on the assumption that it is a correct value.
(Iii) The procedure of responding to Kagawa Prefecture and tomorrow's weather without confirmation. In this case, although the values of the place attribute “Kagawa Prefecture” and the date attribute “Tomorrow” are not finalized, a response is generated assuming that the values are correct.
[0050]
Here, simply, (1) in the definite confirmation type interactive procedure A, the procedure of confirming the location and date in the case of (v) at the same time, and then responding with the confirmed location and date weather, (2) In the trial confirmation type interactive procedure B, the procedure of confirming the location in the case of (i) and then responding tomorrow's weather at the confirmed location; (3) Deterministic immediate response type In the dialogue procedure C, as described above, the procedure of responding to the weather of all locations and all days, (4) In the trial procedure of immediate response type D, the weather of Kagawa Prefecture, tomorrow Assume that four interactive procedures are generated:
[0051]
The dialog procedure
First, the dialogue cost of the deterministic immediate response type dialogue procedure C will be described. The dialogue procedure C is a dialogue procedure in which a response is made only in accordance with the currently determined value of weather. Since the unfixed values of the place attribute and the day attribute are not used, the weather of all places and days is responded. In the situation assumed here, 100 locations are registered in the
[0052]
Next, the cost of the definite confirmation type dialogue procedure A will be described. In the dialogue procedure A, first, the values of two attributes of place and date are confirmed. It is assumed that the expected value of the number of independent words exchanged in the confirmation dialogue is calculated by the method used in the fourth conventional method (see Non-Patent Document 2). Here, when the recognition accuracy of the attribute to be confirmed is r and the number of the attributes to be confirmed is m, the number of independent words exchanged until the values of those attributes are determined is represented by the following expression. .
2m / r-m + 1 (4)
[0053]
Assume that the location attribute recognition accuracy is 0.60 and the day attribute recognition accuracy is 0.95. The recognition accuracy for correctly recognizing the place attribute and the day attribute at the same time is 0.60 × 0.95 = 0.57, if expressed by the product of the recognition accuracy of each attribute. Therefore, the expected number of independent words exchanged in the dialogue until the values of the place attribute and the day attribute are determined simultaneously is (2) where m = 2 and F = 0.57. 0.52-2 + 1 = 6.02.
[0054]
In the dialogue procedure A, after the values of the place attribute and the day attribute are confirmed, the weather in the confirmed place and day is returned. In this response, it is assumed that three independent words are output, such as “Today's Kanagawa Prefecture is sunny”. 6.02 independent words are required for the confirmation, and 3 independent words are required for the response after the confirmation, and a total of “9.02” independent words are required. As a result, the dialogue cost of the dialogue procedure A is 9.02.
[0055]
Next, the cost of a trial immediate response type interactive procedure D will be described. The dialogue procedure D is a dialogue procedure in which a response is made according to the values of Kagawa Prefecture and tomorrow and the value of confirmed weather that have not been confirmed in the current system understanding state (3). Here, the system responds with “Tomorrow's Kagawa Prefecture is sunny”. Of course, since Kagawa Prefecture is a misrecognized value, the information required by the user is not given by this response.
[0056]
Here, the cost of a trial immediate response type interactive procedure will be described in a general form. The description will be divided into a case where the system understanding state is correct and a case where the system understanding state is not correct, where p is the probability that the current system understanding state is correct. First, consider the case where the current system understanding state is correct. If the system understanding state is correct, the system response is consistent with the user's query and the user can obtain the necessary information, and the dialog ends here. Let L1 be the number of free words included in the system response when the system understanding state is correct.
[0057]
Next, consider a case where the current system understanding state is incorrect. The probability that the system understanding state is incorrect is 1-p. At this time, since the system response is incorrect, the user cannot obtain necessary information. In order to obtain the necessary information, the user starts over the current inquiry from the beginning, and after several dialogues, obtains the necessary information.
[0058]
Here, in order to facilitate the calculation of costs, even in the dialogue that follows the output of an incorrect response, the attributes that have been confirmed in the current system understanding state are confirmed, and the attributes that are not confirmed are not confirmed. Assume that a system response is output in the above state. Let L2 be the expected value of an independent word exchanged in one continuous conversation. With respect to the expected value L2, the average value of the number of free words included in the dialog for the currently inquired information type is calculated using the dialog data collected in advance, and this average value is set to L2. Assuming that a correct response is output with probability q in each cascaded dialog, the expected value of the number of dialogs required to perform a correct response is 1 / q.
[0059]
To summarize the above considerations, when the current system understanding state is correct with probability p, the system responds correctly and the user succeeds in obtaining the necessary information. At this time, the number of independent words included in the system response is L1. Next, if the current system understanding state is incorrect with probability 1-p, an incorrect system response containing L1 independent words is output, followed by 1 / q dialogues containing L2 independent words, The user succeeds in obtaining the necessary information. Therefore, the interactive cost of the trial immediate response type interactive procedure is as follows. This is defined in advance.
[0060]
Let's go back to the example we're taking now. The probability that the current system understanding state (3) is correct is given by the product of the location attribute recognition accuracy 0.60 and the day attribute recognition accuracy 0.95. Therefore, the system understanding state (3) is correct when p = 0.60 × 0.95 = 0.57. Here, it is assumed that q = p = 0.57, assuming that the probability q that a correct system response is generated in a dialog after an erroneous response is made is equal to P. Since there are three independent words included in the erroneous response “Tomorrow's Kagawa is sunny”, L1 = 3. For the expected value L2 of the independent word exchanged in each dialogue following the erroneous response, the average number of independent words included in the dialogue for inquiring the weather among the dialogue data collected in advance is taken, and L2 = Assume that 10 is reached. From the equation (5), the cost of the dialogue procedure D is 3 + 0.43 · 10 / 0.57 = 3 + 7.54 = 10.54.
[0061]
Next, the dialogue cost of the trial confirmation type dialogue procedure B will be described. Here, the dialogue procedure B is a procedure of confirming the place attribute and then responding tomorrow's weather at the decided place. First, since the expected number of independent words exchanged until the value of the location attribute is determined is m = 1 and r = 0.65 in the equation (4), 2.1 / 0.65-1-1 = 3.08.
[0062]
In the situation after the place attribute is confirmed, only the value of the day attribute is not confirmed. Since the recognition accuracy of the day attribute is assumed to be 0.95, the probability that the system understanding state is correct at this time is 0.95. This situation is the same as when a trial immediate response type interactive procedure is performed in which a system response is made assuming that the value of the day attribute is correct. Therefore, the expected number of free words included in the dialogue after the value of the place attribute is determined is 3 + 0.05 · 10 in the equation (5), where p = q = 0.95, L1 = 3, and L2 = 10. /0.95=3+0.53=3.53. Eventually, the dialogue cost of the dialogue procedure B is 3.08 + 3.53 = 6.61.
[0063]
In summary,
(1) Dialogue cost of definite confirmation type dialogue procedure A: 9.02
(2) Dialogue cost of trial confirmation type dialogue procedure B: 6.61
(3) Dialog cost of deterministic immediate response type dialog procedure C: 600
(4) Dialog cost of trial immediate response type dialog procedure D: 10.54
It becomes.
[0064]
As described above, after the dialog procedure
[0065]
Next, for each of the confirmation candidates, the confirmation candidate cost generating means 160 selects an interaction procedure having the minimum cost among the interaction procedures including the confirmation supplement, and considers the probability of the provided information type, The expected value of cost is calculated, and the expected value is generated as the cost of the confirmation candidate (step 209). Here, the only possible provision information type is weather, and its probability is 1.
The interactive procedure including confirmation of only the location attribute is only a trial confirmation type interactive procedure B. Therefore, the cost of the confirmation candidate for confirming only the location attribute is “6.61”.
The only interactive procedure that includes confirming the place attribute and the day attribute at the same time is the definite confirmation type interactive procedure A. Therefore, the cost of the confirmation candidate for confirming the place attribute and the day attribute at the same time is “9.02”.
[0066]
Subsequently, the
[0067]
In the case of the present example, the minimum cost after all is the confirmation compensation cost 6.61 of confirming only the location attribute. The
[0068]
After this, the user inputs a correction sentence “This is Kanagawa Prefecture”, the system recognizes the correction sentence correctly, and then outputs a confirmation sentence to confirm the value of the location attribute “Is Kanagawa Prefecture?” Assume that the user inputs an approval sentence “Yes” and the system correctly recognizes the approval sentence. At this time, the system understanding state is as follows.
{<Place, Kanagawa Prefecture, Finished>, <Sunday, Tomorrow, Not>, <Information Type, Weather, Finished}} (6)
Only the date attribute is indeterminate. Therefore, also in this case, the process proceeds to step 205 and subsequent steps.
[0069]
Here, the
(5) Definite confirmation type dialogue procedure A:
After confirming the value of the day attribute, the procedure of responding the weather in Kanagawa Prefecture on the confirmed date.
(6) Trial immediate response type interactive procedure D:
The procedure of responding to tomorrow's weather in Kanagawa without checking. Here, the value of tomorrow is not finalized, but a response is output assuming that it is a correct value.
[0070]
Next, the dialog procedure
First, the dialogue cost of the dialogue procedure A in (5) will be described. The expected number of independent words required until the date attribute is determined is that the recognition accuracy of the day attribute is 0.95. Therefore, in Equation (4), m = 1 and r = 0.95, 2 · 1 / 0.95-1 + 1 = 2.11. The number of free words included in the response generated after the date attribute is determined is 3. Therefore, the dialogue cost of the dialogue procedure E is 2.11 + 3 = 5.11.
Next, the dialogue cost of the dialogue procedure D in (6) will be described. Since the recognition accuracy of the day attribute is 0.95, the probability that the current system understanding state (6) is correct is 0.95. In addition, since the dialogue for inquiries about the weather exchanges 10 independent words on average, the dialogue cost of the dialogue procedure is expressed by equation (5), where p = q = 0.95, L1 = 3, When L2 = 10, 3 + 0.05 · 10 / 0.95 = 3 + 0.53 = 3.53.
[0071]
Summary,
Cost of deterministic confirmation type dialogue procedure A: 5.11
Cost of trial interactive response procedure D: 3.53
It becomes.
[0072]
Next, the confirmation candidate
[0073]
The
[0074]
The above dialogue is summarized as follows.
(Sentence 1) User: “Please tell me the weather tomorrow in Kanagawa Prefecture”
(Sentence 2) System: “Weather?”
(Sentence 3) User: “Yes”
(Sentence 4) System: “Is it Kagawa Prefecture?”
(Sentence 5) User: “It is Kanagawa Prefecture”
(Sentence 6) System: “Is it Kanagawa Prefecture?”
(Sentence 7) User: “Yes”
(Sentence 8) System: “Tomorrow's weather in Kanagawa Prefecture is fine”
The explanation here focuses on the behavior of the system after sentence (4).
[0075]
In the processing flow of FIG. 3, if it is determined in
[0076]
In the present spoken
[0077]
The processing functions of some or all of the components in the
[0078]
【The invention's effect】
As described above, according to the voice dialogue system of the present invention, when it is determined that the length of the whole dialogue is not increased, confirmation of part or all of the user inquiry content may be omitted. It is possible to avoid an increase in the degree of user dissatisfaction associated with an increase in the number of output confirmation sentences. In addition, when the system makes an erroneous response due to misrecognition, it is not premised that the user makes a refusal utterance, so it is not necessary to force the user to make a refusal utterance, and user satisfaction is increased.
[Brief description of the drawings]
FIG. 1 is an overall configuration diagram showing a system environment of the present invention.
FIG. 2 is a functional block diagram of an embodiment of a voice interaction system according to the present invention.
FIG. 3 is a process flowchart of an embodiment of the present invention.
4 is a detailed process flowchart of cost determination in FIG. 3;
[Explanation of symbols]
10 Spoken dialogue system
20 database
30 Memory device
40 Communication line
50 User terminal
100 input section
110 sentence comprehension department
120 Provided information type determination unit
130 Dialog procedure generator
140 Dialog procedure cost calculator
150 Confirmation candidate generator
160 Confirmation candidate cost generator
170 Output unit
180 Control unit
Claims (7)
認識された問い合わせ内容を、属性と属性の値と値が確定済みであるかどうかを示すフラグの3つ組の集合によって表現されるシステム理解状態として生成し、対話の各時点において前記システム理解状態を更新する手段と、
前記システム理解状態に含まれる属性の値の全て或いは一部を確認するためのやり取りを行った後に、確定済みとなった属性の値のみが正しい値であると仮定してユーザ問い合わせ内容を決定し、ユーザに情報を提供するための応答文を出力するという確定的な確認型の対話手順(A)、システム理解状態に含まれる属性の値の全て或いは一部を確認するためのやり取りを行った後に、確定済みとなった属性の値だけでなく、確定済みでない属性の値も正しい値であると仮定してユーザ問い合わせ内容を決定し、ユーザに情報を提供するための応答文を出力するという試行的な確認型の対話手順(B)、ユーザに対する確認は行わないで、確定済みの属性の値のみが正しい値であると仮定してユーザ問い合わせ内容を決定し、ユーザに情報を提供するための応答文を即座に出力するという確定的な即時応答型の対話手順(C)、及び、ユーザに対する確認は行わないで、確定済みの属性の値だけでなく、確定済みでない属性の値も正しい値であると仮定してユーザ問い合わせ内容を決定し、ユーザに情報を提供するための応答文を出力するという試行的な即時応答型の対話手順(D)を生成する手段と、
前記確定的な確認型の対話手順(A)のコスト、前記確定的な即時応答型の対話手順(B)のコスト、前記試行的な確認型の対話手順(C)のコスト、及び、前記試行的な即時応答型の対話手順(D)のコストを計算する手段と、
システム理解状態の内、確定済みでない属性の値の全て或いは一部を確認候補として生成する手段と、
前記確認候補の各々に関して、確認候補の確認を含む対話手順のコストをもとに確認候補のコストを計算する手段と、
すべての確認候補のコストと、すべての即時応答型の対話手順のコストを比較して、即時応答型の対話手順のコストが最小のコストとなるならば、その即時応答型の対話手順にしたがって情報を提供するための応答文を生成し、確認候補のコストが最小のコストとなるならば、その確認候補の確認を行うための確認文を生成する手段と、
を有することを特徴とする音声対話システム。When the user inputs a sentence meaning an inquiry of information by voice, after exchanging to confirm all or part of the recognized inquiry content, the information held in the database is changed according to the inquiry content. In a spoken dialogue system that provides users with voice,
Recognized inquiry content is generated as a system understanding state expressed by a set of triples indicating an attribute, a value of the attribute, and whether or not the value has been confirmed, and the system understanding state at each time point of the dialogue A means of updating
After exchanging for confirming all or part of the attribute values included in the system understanding state, the user inquiry content is determined assuming that only the attribute values that have been confirmed are correct values. , A definite confirmation type interactive procedure (A) of outputting a response sentence for providing information to the user, and an exchange for confirming all or part of attribute values included in the system understanding state Later, it is assumed that not only the value of the attribute that has been confirmed but also the value of the attribute that has not been confirmed is a correct value, the user inquiry content is determined, and a response statement for providing information to the user is output. Trial confirmation type interactive procedure (B), without confirming to the user, assuming that only the value of the confirmed attribute is the correct value, determining the user inquiry contents, and providing information to the user A deterministic immediate response type interactive procedure (C) that immediately outputs a response sentence to be provided, and a value for a non-determined attribute as well as a definite attribute value without confirmation to the user A means for generating a trial immediate response type interactive procedure (D) of determining a user inquiry content on the assumption that the value is also a correct value and outputting a response sentence for providing information to the user;
The cost of the definite confirmation type interactive procedure (A), the cost of the definite immediate response type interactive procedure (B), the cost of the trial confirmation type interactive procedure (C), and the trial Means for calculating the cost of a typical immediate response interactive procedure (D);
Means for generating all or part of attribute values that have not been confirmed in the system understanding state as confirmation candidates;
Means for calculating the cost of the confirmation candidate based on the cost of the interactive procedure including confirmation of the confirmation candidate for each of the confirmation candidates;
Comparing the costs of all confirmation candidates with the costs of all immediate response interactive procedures, and if the cost of the immediate response interactive procedure is the lowest cost, follow the prompt response interactive procedure Generating a response sentence for providing the confirmation candidate, and if the cost of the confirmation candidate is the minimum cost, means for generating a confirmation sentence for confirming the confirmation candidate;
A spoken dialogue system comprising:
対話手順のコストを計算する手段は、確定的な確認型の対話手順に従って対話を行うときにシステムとユーザがやり取りする自立語の数の期待値を、確定的な確認型の対話手順のコストとして計算し、確定的な即時応答型の対話手順に従ってシステムが応答するときにシステム応答文に含まれる自立語の数の期待値を、確定的な即時応答型の対話手順のコストとして計算し、試行的な確認型の対話手順に従って対話を行うときにシステムとユーザがやり取りする自立語の期待値と、その対話手順に含まれるシステム応答文が誤っていた場合に後続する対話においてシステムとユーザがやり取りする自立語の数の期待値の和を、試行的な確認型の対話手順のコストとして計算し、試行的な即時応答型の対話手順に従ってシステムが応答するときに、システム応答文に含まれる自立語の数の期待値と、システム応答が誤っていた場合に後続する対話においてシステムとユーザがやり取りする自立語の数の期待値の和を、試行的な即時応答型の対話手順のコストとして計算することを特徴とする音声対話システム。The voice interaction system according to claim 1,
The means for calculating the cost of the dialogue procedure is to calculate the expected value of the number of independent words that the system and the user exchange when performing the dialogue according to the definite confirmation type dialogue procedure as the cost of the definite confirmation type dialogue procedure. Calculate and try the expected value of the number of free words contained in the system response sentence as the cost of the deterministic immediate response interactive procedure when the system responds according to the deterministic immediate response interactive procedure System and the user interact with each other in the subsequent conversation if the expected value of the independent word that the system and the user interact when interacting according to a typical confirmation-type interaction procedure and the system response text included in the interaction procedure is incorrect When the system responds by calculating the sum of the expected value of the number of free words to be used as the cost of a trial confirmation type interactive procedure The sum of the expected number of free words included in the system response sentence and the expected value of the number of free words exchanged between the system and the user in the subsequent dialogue when the system response is incorrect is a trial immediate response. A spoken dialogue system characterized by calculating the cost of a type dialogue procedure.
確認候補のコストを計算する手段は、確認候補の各々に関して、確認候補の確認を含む対話手順の中で、最小のコストをもつ対話手順を選び、提供情報種別の確率を考慮して、コストの期待値を計算し、その期待値を確認候補のコストとすることを特徴とする音声対話システム。The spoken dialogue system according to claim 1 or 2,
The means for calculating the cost of the confirmation candidate selects, for each of the confirmation candidates, the dialogue procedure having the minimum cost from among the dialogue procedures including confirmation of the confirmation candidate, and takes the probability of the provided information type into consideration. A spoken dialogue system characterized by calculating an expected value and using the expected value as a cost of a confirmation candidate.
ユーザが入力する情報の問い合せを意味する問い合わせ文、問い合わせ内容の訂正を意味する訂正文、確認の承認を意味する承認文を受け取るステップと、
ユーザから問い合わせ文が入力された場合には、問い合わせ文の内容を認識した結果にしたがって、属性と属性の値と値が確定済みであるかどうかを示すフラグの3つ組の集合によって表現されるシステム理解状態を生成し、ユーザから問い合わせ内容の訂正文が入力された場合には、訂正文の内容を認識した結果にしたがってシステム理解状態を更新し、システム理解状態に含まれる属性の値の全て或いは一部についてシステムが確認するために確認文を出力した後に、ユーザからの承認文を認識した場合には、確認した値が確定済みとなったことをシステム理解状態の中に記録するステップと、
システム理解状態から判断して、ユーザに提供することが可能なすべての情報の種別を提供情報種別として決定し、提供情報種別のそれぞれの確率を計算するステップと、
提供情報種別の各々に関して、システム理解状態に含まれる属性の値の全て或いは一部を確認するための確認するためのやり取りを行った後に、確定済みとなった属性の値のみが正しい値であると仮定してユーザ問い合わせ内容を決定し、ユーザに情報を提供するための応答文を出力するという確定的な確認型の対話手順(A)、システム理解状態に含まれる属性の値の全て或いは一部を確認するためのやり取りを行った後に、確定済みとなった属性の値だけでなく、確定済みでない属性の値も正しい値であると仮定してユーザ問い合わせ内容を決定し、ユーザに情報を提供するための応答文を出力するという試行的な確認型の対話手順(B)、ユーザに対する確認は行わないで、確定済みの属性の値のみが正しい値であると仮定してユーザ問い合わせ内容を決定し、ユーザに情報を提供するための応答文を即座に出力するという確定的な即時応答型の対話手順(C)、ユーザに対する確認は行わないで、確定済みの属性の値だけでなく、確定済みでない属性の値も正しい値であると仮定してユーザ問い合わせ内容を決定し、ユーザに情報を提供するための応答文を出力するという試行的な即時応答型の対話手順(D)を生成するステップと、
提供情報種別の各々に関して、前記確定的な確認型の対話手順のコスト、前記確定的な即時応答型の対話手順のコスト、前記試行的な確認型の対話手順のコスト、前記試行的な即時応答型の対話手順のコストを計算するステップと、
システム理解状態の内、確定済みでない属性の値の全て或いは一部を確認候補として生成するステップと、
確認候補の各々に関して、提供情報種別ごとに、確認候補の確認を含む対話手順のコストをもとに確認候補のコストを計算するステップと、
すべての確認候補のコストと、すべての即時応答型の対話手順のコストを比較して、即時応答型の対話手順のコストが最小のコストとなるならば、その即時応答型の対話手順にしたがって情報を提供するための応答文を生成し、確認候補のコストが最小のコストとなるならば、その確認候補の確認を行うための確認文を生成し、出力するステップと、
を有することを特徴とする音声対話方法。When the user inputs a sentence meaning an information inquiry by voice, after exchanging to confirm all or part of the recognized inquiry content, the information stored in the database is changed according to the inquiry content. In the voice interaction method provided to the user by voice,
Receiving an inquiry sentence meaning an inquiry of information input by the user, a correction sentence meaning correction of the content of the inquiry, and an approval sentence meaning approval of the confirmation;
When a query is input from the user, it is represented by a set of triples of an attribute, a value indicating the value of the attribute, and a flag indicating whether or not the value has been determined according to the result of recognizing the content of the query. When the system understanding state is generated and the correction text of the inquiry content is input from the user, the system understanding state is updated according to the result of recognizing the content of the correction text, and all the attribute values included in the system understanding state Alternatively, when the confirmation sentence is recognized by the user after the system outputs a confirmation sentence for confirming a part, a step of recording in the system understanding state that the confirmed value is confirmed; ,
Determining from the system understanding state, determining the type of all information that can be provided to the user as the provided information type, and calculating the respective probabilities of the provided information types;
For each provided information type, only the attribute values that have been confirmed after the exchange for confirming all or part of the attribute values included in the system understanding state are correct values. It is assumed that the user inquiry content is determined, and a definite confirmation type interactive procedure (A) of outputting a response sentence for providing information to the user, all or one of the attribute values included in the system understanding state After exchanging for confirmation, the user inquiry content is determined assuming that not only the value of the attribute that has been confirmed but also the value of the attribute that has not been confirmed is the correct value. Trial confirmation type interactive procedure (B) of outputting a response sentence to provide, without confirmation to the user, assuming that only the value of the confirmed attribute is the correct value A deterministic immediate response type interactive procedure (C) in which the contents of the inquiry are determined and a response sentence for providing information to the user is immediately output. In addition, it is assumed that the value of the attribute that has not been finalized is also a correct value, determines the content of the user inquiry, and outputs a response sentence for providing information to the user. Generating D);
For each of the provided information types, the cost of the definite confirmation type interactive procedure, the cost of the deterministic immediate response type interaction procedure, the cost of the trial confirmation type interactive procedure, the trial immediate response Calculating the cost of a type interaction procedure;
Generating all or part of attribute values that have not been confirmed in the system understanding state as confirmation candidates;
For each of the confirmation candidates, for each provided information type, calculating the cost of the confirmation candidate based on the cost of the interactive procedure including confirmation of the confirmation candidate;
Comparing the costs of all confirmation candidates with the costs of all immediate response interactive procedures, and if the cost of the immediate response interactive procedure is the lowest cost, follow the prompt response interactive procedure Generating a response sentence for providing the confirmation candidate, and generating and outputting a confirmation sentence for confirming the confirmation candidate if the cost of the confirmation candidate is the minimum cost;
A voice interaction method characterized by comprising:
対話手順のコストを計算するステップは、確定的な確認型の対話手順に従って対話を行うときにシステムとユーザがやり取りする自立語の数の期待値を、確定的な確認型の対話手順のコストとして計算し、確定的な即時応答型の対話手順に従ってシステムが応答するときにシステム応答文に含まれる自立語の数の期待値を、確定的な即時応答型の対話手順のコストとして計算し、試行的な確認型の対話手順に従って対話を行うときにシステムとユーザがやり取りする自立語の期待値と、その対話手順に含まれるシステム応答文が誤っていた場合に後続する対話においてシステムとユーザがやり取りする自立語の数の期待値の和を、試行的な確認型の対話手順のコストとして計算し、試行的な即時応答型の対話手順に従ってシステムが応答するときに、システム応答文に含まれる自立語の数の期待値と、システム応答が誤っていた場合に後続する対話においてシステムとユーザがやり取りする自立語の数の期待値の和を、試行的な即時応答型の対話手順のコストとして計算し、
確認候補のコストを計算するステップは、確認候補の各々に関して、確認候補の確認を含む対話手順の中で、最小のコストをもつ対話手順を選び、提供情報種別の確率を考慮して、コストの期待値を計算し、その期待値を確認候補のコストとする、
ことを特徴とする音声対話方法。The voice interaction method according to claim 4.
The step of calculating the cost of the dialogue procedure is to calculate the expected value of the number of independent words exchanged between the system and the user as the cost of the definite confirmation type dialogue procedure. Calculate and try the expected value of the number of free words contained in the system response sentence as the cost of the deterministic immediate response interactive procedure when the system responds according to the deterministic immediate response interactive procedure The system and the user interact with each other in the subsequent conversation if the expected value of the independent word that the system interacts with the user when performing a conversation according to a typical confirmation-type conversation procedure and the system response text included in the conversation procedure is incorrect Calculates the sum of expected values for the number of free words to be used as the cost of a trial-confirmed interactive procedure, and the system responds according to a trial immediate-response interactive procedure In this case, the sum of the expected value of the number of independent words included in the system response sentence and the expected value of the number of independent words exchanged between the system and the user in the subsequent dialogue when the system response is incorrect Calculate as the cost of an instant response interactive procedure,
In the step of calculating the cost of the confirmation candidate, for each of the confirmation candidates, the dialogue procedure having the minimum cost is selected from among the dialogue procedures including confirmation of the confirmation candidate, and the probability of the provided information type is taken into consideration. Calculate the expected value and use the expected value as the cost of the confirmation candidate.
A voice dialogue method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003062552A JP3883066B2 (en) | 2003-03-07 | 2003-03-07 | Voice dialogue system and method, voice dialogue program and recording medium therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003062552A JP3883066B2 (en) | 2003-03-07 | 2003-03-07 | Voice dialogue system and method, voice dialogue program and recording medium therefor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004271909A JP2004271909A (en) | 2004-09-30 |
JP3883066B2 true JP3883066B2 (en) | 2007-02-21 |
Family
ID=33124393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003062552A Expired - Fee Related JP3883066B2 (en) | 2003-03-07 | 2003-03-07 | Voice dialogue system and method, voice dialogue program and recording medium therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3883066B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720684B2 (en) | 2005-04-29 | 2010-05-18 | Nuance Communications, Inc. | Method, apparatus, and computer program product for one-step correction of voice interaction |
WO2014024751A1 (en) * | 2012-08-10 | 2014-02-13 | エイディシーテクノロジー株式会社 | Voice response system |
WO2015187048A1 (en) * | 2014-06-06 | 2015-12-10 | Obschestvo S Ogranichennoy Otvetstvennostiyu "Speactoit" | Proactive environment-based chat information system |
-
2003
- 2003-03-07 JP JP2003062552A patent/JP3883066B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004271909A (en) | 2004-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10319381B2 (en) | Iteratively updating parameters for dialog states | |
US10402501B2 (en) | Multi-lingual virtual personal assistant | |
US11817101B2 (en) | Speech recognition using phoneme matching | |
US9742912B2 (en) | Method and apparatus for predicting intent in IVR using natural language queries | |
JP2017058673A (en) | Dialog processing apparatus and method, and intelligent dialog processing system | |
US11049493B2 (en) | Spoken dialog device, spoken dialog method, and recording medium | |
WO2021109690A1 (en) | Multi-type question smart answering method, system and device, and readable storage medium | |
US7680661B2 (en) | Method and system for improved speech recognition | |
US9484034B2 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
US11537661B2 (en) | Systems and methods for conversing with a user | |
WO2021000403A1 (en) | Voice matching method for intelligent dialogue system, electronic device and computer device | |
US20150081294A1 (en) | Speech recognition for user specific language | |
JP4680691B2 (en) | Dialog system | |
US20100049500A1 (en) | Dialogue generation apparatus and dialogue generation method | |
JP2018063271A (en) | Voice dialogue apparatus, voice dialogue system, and control method of voice dialogue apparatus | |
JP3883066B2 (en) | Voice dialogue system and method, voice dialogue program and recording medium therefor | |
US11582174B1 (en) | Messaging content data storage | |
Sun | Adapting spoken dialog systems towards domains and users | |
JP2018159729A (en) | Interaction system construction support device, method and program | |
JP3783936B2 (en) | Interactive information providing apparatus, interactive information providing processing method, program, and recording medium | |
CN112820294B (en) | Speech recognition method, device, storage medium and electronic equipment | |
Huang et al. | DuIVRS: A Telephonic Interactive Voice Response System for Large-Scale POI Attribute Acquisition at Baidu Maps | |
JP6244731B2 (en) | Information processing apparatus and information processing program | |
WO2016136208A1 (en) | Voice interaction device, voice interaction system, control method of voice interaction device | |
US12061636B1 (en) | Dialogue configuration system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050118 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061109 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101124 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101124 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111124 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111124 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121124 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121124 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131124 Year of fee payment: 7 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |