JP7132206B2

JP7132206B2 - 案内システム、案内システムの制御方法、およびプログラム

Info

Publication number: JP7132206B2
Application number: JP2019225540A
Authority: JP
Inventors: 秀樹村田
Original assignee: NEC Platforms Ltd
Current assignee: NEC Platforms Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2022-09-06
Anticipated expiration: 2039-12-13
Also published as: JP2021096293A

Description

本開示は、案内システム等に関する。

電話による問合せの際に、音声ガイダンスによってユーザに番号を指定して電話の番号ボタンを操作させる問合せシステムが存在する。また、駅や銀行において、ユーザに反応して、音声により情報を提供する会話ロボットが存在する。

特許文献１には、ユーザとの対話を行う対話インタフェースを提供する対話システムが開示されており、ユーザの発話内容を特定し、ユーザの発話内容に対してシステムの出力する発話内容を選択することが記載されている。

特許文献２には、機械と人間の対話方法が開示されており、ロボットは、対話を通じて話者のプロファイルを充実させ、更新された話者のプロファイルを用いて応答文を生成することが記載されている。

特開２０１８－２０５６１６号公報特表２０１６－５３６６３０号公報

音声ガイダンスを利用した問合せシステムでは、システムのシーケンスに従う必要があるから、ユーザは音声ガイダンスをよく聞いて、問合せ事項を特定する要素をシステムに入力する必要がある。したがって、問合せ事項の特定はシステム主体となる。さらに、ユーザはシステムのシーケンスにひとつずつ従っていると、問合せ事項の特定に時間がかかる。

特許文献１および２の開示では、システムとユーザの対話において、ユーザの発話内容はシステムの質問内容に捕らわれるから、対話はシステム主体となる。

本開示は、システムによる案内サービスを受けるときに、ユーザ主体の問合せの発話を可能にする。

本開示に係る案内システムは、アクションと前記アクションの実行に必要な複数の変数との対応関係を定めるアクション情報を記憶する記憶手段と、音声から認識した単語が関係する前記変数を推定する推定手段と、前記アクション情報を参照し、前記変数の値として、前記認識した単語を設定する設定手段と、前記必要な複数の変数の値が設定されると、設定された単語に基づいて前記アクションを実行する実行手段と、を有する。

本開示に係る案内システムの制御方法は、音声から認識した単語が関係する変数を推定し、アクションと前記アクションの実行に必要な複数の変数との対応関係を定めるアクション情報を参照し、前記アクションの実行に必要な変数の値として、前記認識した単語を設定し、前記必要な複数の変数の値が設定されると、設定された単語に基づいて前記アクションを実行する。

本開示に係る案内プログラムは、音声から認識した単語が関係する変数を推定する推定処理と、アクションと前記アクションの実行に必要な複数の変数との対応関係を定めるアクション情報を参照し、前記アクションの実行に必要な変数の値として、前記認識した単語を設定する設定処理と、前記必要な複数の変数の値が設定されると、設定された単語に基づいて前記アクションを実行する実行処理と、をコンピュータに実行させる。

本開示によれば、システムによる案内サービスを受けるときに、ユーザ主体の問合せの発話を可能にする。

第１実施形態における情報処理システムのハードウエア構成例を概念的に示す図である。第１実施形態に係る案内システム１００の構成を例示するブロック図である。アクション情報の例を示す図である。第１実施形態における案内システム１００の動作例を示すフローチャートである。変数「乗車駅」の値が設定された第１設定情報の例を示す図である。変数「乗車駅」と「降車駅」の値が設定された第１設定情報の例を示す図である。変数「乗車駅」、「降車駅」、「日時」の値が設定された第１設定情報の例を示す図である。第２実施形態に係る案内システム２００の構成を例示するブロック図である。第２実施形態における案内システム２００の動作例を示すフローチャートである。第２設定情報の例を示す図である。アクションの選択の例を示す図である。第２設定情報の例を示す図である。アクションの選択の例を示す図である。第３実施形態に係る案内システム３００の構成を例示するブロック図である。第３実施形態における案内システム３００の動作例を示すフローチャートである。第３実施形態における案内システム３００の動作例を示すフローチャートである。質問情報の例を示す図である。第１～３実施形態における案内システム１００～３００の他のハードウエア構成例を概念的に示す図である。

以下、本開示の実施形態について図面を参照しながら説明する。

［第１実施形態］
〔ハードウエア構成〕
図１は、第１実施形態における案内システムと周辺機器を含む情報処理システムのハードウエア構成例を概念的に示す図である。第１実施形態における案内システムは、例えば、コンピュータ９０によって構成される。コンピュータ９０は、ＣＰＵ（Central Processing Unit）９１、メモリ９２を有する。コンピュータ９０には、音声認識装置６０、マイク７０、出力装置８０が接続される。これら各ハードウエア要素は、例えば、バス等により接続される。メモリ９２は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、補助記憶装置（ハードディスク等）等である。

マイク７０は、ユーザの音声を取得して音声認識装置６０に音声データを送信する。音声認識装置６０は、マイク７０から入力された音声データを音声認識してテキストに変換し、当該テキストをコンピュータ９０に送信する。出力装置８０は、例えばスピーカーやディスプレイであり、ユーザに対し検索結果を提供する。なお、出力装置８０は、スピーカー、ディスプレイに限られない。

〔処理構成〕
図２は、コンピュータ９０によって構成される、第１実施形態に係る案内システム１００の機能的構成を例示するブロック図である。案内システム１００はユーザの問合せに応じてアクションを実行し、種々の情報をユーザに提供する。案内システム１００が実行するアクションは、情報の検索であり、例えば、ユーザが手ごろな日本料理店を知りたい場合、案内システム１００はアクションとして、所定の価格帯の日本料理店に関する情報を検索する。

案内システム１００は、記憶部１１１、推定部１１２、設定部１１３、実行部１１４を有する。推定部１１２、設定部１１３、実行部１１４は、例えばＣＰＵ９１がメモリ９２に格納されるプログラムを実行することによりソフトウェア要素として実現される。記憶部１１１は例えばメモリ９２である。また、当該プログラムは、例えば、ＣＤ（Compact Disc）、メモリカード等のような可搬型記録媒体やネットワークを介して他のコンピュータからインストールされ、メモリ９２に格納されてもよい。また、案内システム１００は、図２に示されていない他の機能を実行するソフトウェア要素を有してもよい。

記憶部１１１は、アクションとアクションの実行に必要な複数の変数との対応関係を定めるアクション情報を記憶する。図３は、第１実施形態において記憶部１１１が記憶するアクション情報の例を示す図である。図３において、記憶部１１１は、例えばアクション「列車検索」に必要な、３つの変数「乗車駅」「降車駅」「日時」を記憶する。なお、アクションに必要となる変数の数は２つでもよく、３つより多くてもよい。

推定部１１２は、ユーザの音声データから音声認識した単語をテキストとして受け付け、単語が関係する変数を推定する。音声認識は、既存の技術を用いて音声データをテキストに変換する。推定部１１２は、既存の技術を用いて、例えば文章構造から変数を推定してもよい。推定部１１２は、文章構造や単語と変数との関係を記憶するデータベースを参照して、単語と関係する変数を推定してもよい。推定部１１２は、抜き出した単語が関係する変数の推定に機械学習を用いてもよい。推定部１１２はテキスト含意認識技術を用いて、文の意味を捉えてもよい。

設定部１１３は、記憶されたアクション情報を参照し、アクションの実行に必要な変数の値として、音声認識した単語を設定する。設定部１１３は、認識された単語と同じ意味を持つ別の単語をデータベースから検索して設定してもよい。実行部１１４は、必要な複数の変数の値が設定されると、設定された単語に基づいてアクションを実行する。案内システム１００が実行するアクションの例は次に説明する。

〔動作例〕
以下、第１実施形態における案内システム１００の制御方法について、図４を用いて説明する。図４は、第１実施形態における案内システム１００の動作例を示すフローチャートである。以下において、ユーザがアクションの実行に必要な変数を、一文で発話した例について説明する。

ユーザが「５日９時に新大阪から東京まで行く。」と発声すると、音声認識装置６０は、マイク７０を介してユーザの音声データを取得する。音声認識装置６０は、マイク７０から取得した音声データを音声認識処理によってテキストに変換し、当該テキストを案内システム１００に送信する。

推定部１１２は、音声から認識した単語が関係する変数を推定する（ステップＳ１１）。例えば、推定部１１２は、テキストに変換された音声から認識した単語「新大阪」が、変数「乗車駅」に関係することを、テキスト含意認識技術を用いて推定する。同様に、推定部１１２は、単語「東京」が変数「降車駅」に関係し、「５日９時」が変数「日時」に関係することを推定する。

設定部１１３は、記憶部１１１が記憶するアクションとアクションの実行に必要な複数の変数との対応関係を定めるアクション情報を参照し（ステップＳ１２）、アクションの実行に必要な変数の値として、認識した単語を設定する（ステップＳ１３）。

例えば、設定部１１３は、図３に示すアクション情報を参照し（ステップＳ１２）、推定した変数「乗車駅」を要するアクションである、アクション「列車検索」および「天気予報１」を選択する。設定部１１３は、選択されたアクションの実行に必要な変数の値を設定する第１設定情報を生成する。図５Ａは、変数「乗車駅」の値が設定された第１設定情報の例を示す図である。設定部１１３は、図５Ａに示すように、変数「乗車駅」の値として、認識した単語「新大阪」を設定する（ステップＳ１３）。

次に、実行部１１４は、設定部１１３が選択したアクションが必要とする変数の値が設定済みであるか判定する（ステップＳ１４）。実行部１１４は、アクションが必要とする変数の値が設定されていないと判定すると（ステップＳ１４；Ｎｏ）、案内システム１００は、他の推定された変数でステップＳ１２からステップＳ１４を繰り返す。

例えば、実行部１１４は、図５Ａの第１設定情報より、アクション「列車検索」に必要な変数「降車駅」および「日時」の値が設定されていないことを判定する（ステップＳ１４；Ｎｏ）と、設定部１１３は、前述のステップＳ１２と同様に、アクション情報を参照（ステップＳ１２）し、他の推定した変数「降車駅」を要するアクション「列車検索」、「天気予報２」を選択する。

設定部１１３は、変数「降車駅」の値が設定された第１設定情報を生成する。さらに、設定部１１３は、先に生成した変数「乗車駅」の第１設定情報に加え、変数「降車駅」の第１設定情報をマージして変数「乗車駅」と変数「降車駅」の値を設定する第１設定情報を生成する。図５Ｂは、変数「乗車駅」、変数「降車駅」の値が設定された第１設定情報の例を示す図である。図５Ｂに示すように、設定部１１３は、変数「乗車駅」の値として「新大阪」を設定し、変数「降車駅」の値として「東京」を設定する（ステップＳ１３）。

実行部１１４は、図５Ｂに示す第１設定情報より、アクション「列車検索」、「天気予報１」、「天気予報２」に対して変数「日時」の値が設定されていないことを判定する（ステップＳ１４；Ｎｏ）と、案内システム１００は、他の推定された変数でステップＳ１２からステップＳ１４を繰り返す。

設定部１１３は、前述のステップＳ１２と同様に、アクション情報を参照（ステップＳ１２）し、他の推定した変数「日時」を要するアクション「列車検索」、「天気予報１」、「天気予報２」を選択する。

設定部１１３は、変数「日時」の値が設定された第１設定情報を生成する。さらに、設定部１１３は、先に生成した変数「乗車駅」と変数「降車駅」の第１設定情報に加え、変数「日時」の第１設定情報をマージして変数「乗車駅」、「降車駅」、「日時」の値を設定する第１設定情報を生成する。図５Ｃは、変数「乗車駅」、「降車駅」、「日時」の値が設定された第１設定情報の例を示す図である。図５Ｃに示すように、設定部１１３は、変数「乗車駅」、「降車駅」、「日時」の値として、それぞれ「新大阪」、「東京」、「５日９時」を設定する。

実行部１１４は、アクションに必要な複数の変数の値が設定されたことを判定すると（ステップＳ１４；Ｙｅｓ）、設定された単語に基づいてアクションを実行する（ステップＳ１５）。例えば、実行部１１４は、アクション「列車検索」の変数の値がコンプリートされたことを判定し、単語「新大阪」、「東京」、「５日９時」に基づきアクション「列車検索」を実行し、列車に関する情報を検索する。案内システム１００は、列車に関する情報を出力装置８０に送信し、出力装置８０は列車の発車時刻や運賃などの情報を提供する。出力装置８０はユーザが乗車する列車の切符の購入画面を表示してもよい。

同様に、実行部１１４は、アクションに必要な変数が設定された「天気予報１」および「天気予報２」を実行する（ステップＳ１４、ステップＳ１５）。実行部１１４が実行するアクション「天気予報１」は、例えば乗車駅における天気の情報の検索であり、アクション「天気予報２」は、例えば降車駅における天気の情報の検索である。出力装置８０は検索された天気の情報を提供する。

なお、記憶部１１１は、アクションに必要となる変数の数が１つであるアクションを記憶してもよい。例えば図３において、記憶部１１１はアクション「挨拶発話」に必要な変数「挨拶」を記憶している。ユーザが「こんにちは」と発声すると、変数「挨拶」に値「こんにちは」が設定され、実行部１１４は「挨拶発話」を実行する。実行部１１４は音声「こんにちは」を出力装置８０であるスピーカーから出力するよう指示してもよい。

〔第１実施形態の効果〕
第１実施形態では、システムによる案内サービスを受けるときに、ユーザ主体の問合せの発話を可能にする。その理由は、案内システム１００が、複数の変数を必要とするアクションについて、音声から認識した単語が関係する変数を推定し、変数に値を設定し、複数の変数の値が設定されるとアクションを実行するからである。

［第２実施形態］
〔処理構成〕
図６は、第２実施形態に係る案内システム２００の構成を例示するブロック図である。案内システム２００は、記憶部２１１、推定部２１２、設定部２１３、実行部２１４、音声認識部２２０、音声合成部２２１を有する。第２実施形態に係る案内システム２００のハードウエア構成は、第１実施形態において説明した図１のコンピュータ９０と同様であってもよい。推定部２１２、設定部２１３、実行部２１４、音声認識部２２０および音声合成部２２１は、例えばＣＰＵ９１がメモリ９２に格納されるプログラムを実行することによりソフトウェア要素として実現される。

記憶部２１１、推定部２１２、設定部２１３、実行部２１４は、第１実施形態における記憶部１１１、推定部１１２、設定部１１３、実行部１１４と同様の機能を有し、さらに他の機能も有する。案内システム２００の具体的な動作については後述する。

音声認識部２２０は、マイクを介して入力されたユーザの音声データをテキストに変換する。音声合成部２２１は、ユーザに情報を提供するために、音声を合成する。例えば、音声合成部２２１は、実行部２１４がアクションとして検索した結果を音声合成する。

第２実施形態の案内システム２００は、音声認識部２２０および音声合成部２２１を案内システム２００に内装した例で説明するが、これに限られない。音声認識部２２０および音声合成部２２１の少なくとも一方が外部装置として案内システム２００に接続された構成でもよい。

推定部２１２は、音声認識部２２０からユーザの音声データが変換されたテキストを受け付け、テキストに含まれる単語が関係する変数を推定する。設定部２１３は、記憶されたアクション情報を参照し、アクションの実行に必要な変数の値として、ユーザの音声を認識した単語を設定する。また設定部２１３は以下の機能を有する。

設定部２１３は、アクションの実行に必要な変数の値を設定する第２設定情報を生成する。第１実施形態の第１設定情報が、選択されたアクションの実行に必要な変数の値を設定する設定情報である。これに対し、第２実施形態の第２設定情報はアクションの実行に必要な変数の値を設定する設定情報ではあるが、第２設定情報には変数に対応づけられるアクションは含まれていない。

次に設定部２１３は、推定部２１２が推定した変数の値は設定済みであるか判定する。すなわち、設定部２１３は推定した変数のうち、値を設定していない変数（以下、未設定変数と記す）が存在するか判定する。未設定変数が存在する場合、設定部２１３は、第２設定情報に変数の値を設定する。

設定部２１３は、第２設定情報の変数に値が設定されると、第２設定情報に含まれる値が設定された変数が、アクション情報に含まれるアクションの実行に必要な変数に該当するかを確認する。該当する場合、設定部２１３は、第２設定情報の変数を含むアクションを選択する。なお、該当するアクションが複数ある場合、設定部２１３は、該当するアクションがアクション情報に残っているか確認する。

実行部２１４は、アクションの実行に必要な複数の変数の値が設定されると、設定された単語に基づいてアクションを実行する。また実行部２１４は以下の機能を有する。

実行部２１４は、設定部２１３が選択したアクションに対して、図３に示すアクション情報を参照し、アクションの実行に必要な変数の値が第２設定情報に設定済みであるか判定する。実行部２１４は、第２設定情報に設定済みであればアクションを実行する。実行部２１４は、アクションを実行した結果を音声合成部２２１に出力する。

また、実行部２１４は、設定部２１３が選択したアクションが複数ある場合、実行されていないアクションがあるか確認する。実行部２１４は、残っているアクションに対して、図３に示すアクション情報を参照し、アクションの実行に必要な変数の値が第２設定情報に設定済みであるか判定する。実行部２１４は、第２設定情報に設定済みであればアクションを実行する。

〔動作例〕
以下、第２実施形態における案内システム２００の制御方法について、図７を用いて説明する。図７は、第２実施形態における案内システム２００の動作例を示すフローチャートである。

以下において、ユーザが二回に分けて、アクションの実行に必要な変数を含む発話する場合の例について説明する。また、第１実施形態における動作例では、設定部１１３は認識した単語を一つずつ設定する例について説明したが、以下の例において、設定部２１３は、認識した単語を一度に複数設定する場合について説明する。

ユーザが例えば「新大阪から新幹線で東京まで行く。」と発声すると、音声認識部２２０は、マイクを介してユーザの音声データを取得する（ステップＳ２１）。音声認識部２２０は、取得した音声データをテキストに変換する（ステップＳ２２）。推定部２１２は、テキストから単語「新大阪」と「新幹線」と「東京」を抜き出し、記憶部２１１に記憶された図３に示すアクション情報を参照して、これらの単語が関係する変数が「乗車駅」と「降車駅」であると推定する（ステップＳ２３）。

設定部２１３は、推定部２１２が推定した変数のうち、未設定変数が存在するか判定する。ステップＳ２３において、推定部２１２は変数「乗車駅」と「降車駅」を推定しており、設定部２１３はまだこれらの値を設定した設定情報を生成していない。したがって設定部２１３は推定した変数の値は設定済みでないことを判定する（ステップＳ２４；Ｎｏ）。設定部２１３は、アクションの実行に必要な変数の値を設定する第２設定情報において、変数「乗車駅」に値「新大阪」を設定し、変数「降車駅」に値「東京」を設定する（ステップＳ２５）。例えば、設定部２１３は図８Ａに示す第２設定情報を生成することで、値を設定する。

設定部２１３は、図３に示すアクション情報を参照し、変数「乗車駅」または変数「降車駅」を含む、アクション「列車検索」と「天気予報１」と「天気予報２」を選択する（ステップＳ２６）。例えば、設定部２１３は図８Ｂに示す態様でアクションを選択してもよい。

実行部２１４は、アクションの実行に必要な変数の値は設定されたかを判定する（ステップＳ２７）。例えば、実行部２１４は、アクション情報と第２設定情報より、アクション「列車検索」が要求する変数「乗車駅」と「降車駅」以外の他の変数として変数「日時」の値が設定されていないことを判定する（ステップＳ２７；Ｎｏ）。

図８Ａに示す第２設定情報ではアクション「列車検索」を実行できないため、実行部２１４は、アクション情報を参照し、変数「乗車駅」と「降車駅」を含む実行されていないアクションが残っているか確認する（ステップＳ２９）。実行部２１４はアクション「天気予報１」と「天気予報２」が存在することを確認する（ステップＳ２９；Ｙｅｓ）。実行部２１４は、アクション「天気予報１」の必要とする変数が全て設定されているか確認し（ステップＳ２７）、変数「日時」の値が設定されていないことを判定する（ステップＳ２７；Ｎｏ）。

実行部２１４はアクション「天気予報２」についても、アクション「天気予報１」と同様に、ステップＳ２７の判定を行う。実行部２１４は、再度アクション情報を参照し、変数「乗車駅」を含む実行されていないアクションが残っているか確認し（ステップＳ２９）、他にアクションがないことを確認する（ステップＳ２９；Ｎｏ）。

設定部２１３は、推定部２１２が推定した変数のうち、未設定変数が存在するか判定する。設定部２１３は変数「乗車駅」と「降車駅」の値を設定した第２設定情報を生成済みである。したがって設定部２１３は推定した変数の値は設定済みであることを判定する（ステップＳ２４；Ｙｅｓ）。

ここで、音声認識部２２０が、新たに音声「週末の５日の朝９時に出掛ける」の音声データを取得する（ステップＳ２１）。音声認識部２２０は音声データをテキスト変換する（ステップＳ２２）。推定部２１２は、「５日」「朝９時」が変数「日時」に関係すると推定する（ステップＳ２３）。設定部２１３は、新たに推定された変数「日時」の値は第２設定情報に設定されていないことを判定し（ステップＳ２４；Ｎｏ）、値「５日９時」を設定する（ステップＳ２５）。例えば、設定部２１３は図８Ａの第２設定情報を更新し、図８Ｃに示す第２設定情報を生成することで、値を設定する。

設定部２１３は、アクション「列車検索」と「天気予報１」と「天気予報２」を選択する（ステップＳ２６）。例えば、設定部２１３は図８Ｄに示す態様でアクションを選択してもよい。変数「日時」を含み、変数「乗車駅」「降車駅」を含まないアクションは、図３に示したアクション情報の例には存在しない。したがって、図８Ｄと図８Ｂを比較すると、設定部２１３が選択するアクションに変化はない。

実行部２１４は、「列車検索」に必要な変数の値が充足していることを判定し（ステップＳ２７；Ｙｅｓ）、アクション「列車検索」を実行する（ステップＳ２８）。実行部２１４は、列車検索の結果を音声合成部２２１に送信し、音声合成部２２１は、例えば検索結果に関する「９時６分のぞみ４号があります」の音声を合成する。

次に、実行部２１４は、変数「日時」を含むアクション「天気予報１」が残っていることを確認する（ステップＳ２９；Ｙｅｓ）。実行部１４は、「天気予報１」に必要な変数が揃っていることを判定する（ステップＳ２７；Ｙｅｓ）。実行部２１４はアクション「天気予報１」を実行し（ステップＳ２８）、例えば新大阪駅５日の天気予報を検索する。

さらに、実行部２１４は、変数「日時」を含むアクション「天気予報２」が実行されずに残っていることを確認する（ステップＳ２９；Ｙｅｓ）。実行部２１４は、「天気予報２」に必要な変数が揃っていることを判定する（ステップＳ２７；Ｙｅｓ）。実行部２１４はアクション「天気予報２」を実行し、東京駅の５日の天気予報を検索する（ステップＳ２８）。実行部２１４は、変数「日時」を含むアクションが全て実行されたことを判定し（ステップＳ２９；Ｎｏ）、処理ステップはステップＳ２４に戻る。

案内システム２００は、推定した変数は設定済みであり（ステップＳ２４；Ｙｅｓ）、所定時間内にユーザから音声入力が無い場合、発話したユーザへの案内を終了する。ユーザが追加で発話した場合にはステップＳ２１からステップＳ２９の処理を繰り返す。

第２実施形態において、設定部２１３は、推定された変数を含むアクションを全て選択したが、アクションの選択方法はこれに限られない。設定部２１３が選択するアクションの数には制限を設けてもよい。また、推定された変数を含むアクションが複数存在する場合、設定部２１３は、複数のアクションのうち不足している変数が少ないアクションを優先して選択してもよい。設定部２１３は、第２設定情報に含まれる変数を全て必要とするアクションを選択してもよい。さらに、推定部２１２は、ユーザの発話内容に基づいて、推定された変数を含む複数のアクションのうちユーザが求めるアクションを推定してもよい。

〔第２実施形態の効果〕
第２実施形態では、システムによる案内サービスを受けるときに、ユーザ主体の問合せの発話を可能にする。その理由は、案内システム２００が、ユーザが追加で発話した音声についても、音声から認識した単語が関係する変数を推定し、変数に値を設定し、アクション情報が定める複数の変数の値が設定されるとアクションを実行するからである。

音声認識部２２０と音声合成部２２１を備えた自動音声応答（Interactive Voice Response, ＩＶＲ）システムを利用することで、ユーザはシステムとの対話を通じて問合せをすることが可能になる。

［第３実施形態］
〔処理構成〕
図９は、第３実施形態に係る案内システム３００の構成を例示するブロック図である。案内システム３００は、記憶部３１１、推定部３１２、設定部３１３、実行部３１４、音声認識部３２０、音声合成部３２１、タイマー３２２を有する。第３実施形態に係る案内システム３００のハードウエア構成は、第１および第２実施形態において説明した、図１のコンピュータ９０と同様であってもよい。

記憶部３１１、推定部３１２、設定部３１３、実行部３１４、音声認識部３２０、音声合成部３２１は、第２実施形態における記憶部２１１、推定部２１２、設定部２１３、実行部２１４、音声認識部２２０、音声合成部２２１と同様の機能を有する。以下において、第２実施形態における機能と相違する点を説明する。

設定部３１３は、第２設定情報に変数の値として、単語を第２設定情報に設定した後、値を設定した変数を含むアクションを選択する。第３実施形態において、実行部３１４は、設定部３１３が選択したアクションに対して、図３に示すアクション情報を参照し、第２設定情報の変数でアクションが実行できるか判定する。例えば、実行部３１４は、第２設定情報にアクションの実行に不足している変数の値がある場合、案内システム３００のユーザに対してアクションの実行に必要な変数に関する発話を促す情報を出力する。

さらに、設定部３１３が選択したアクションの実行に必要な変数が不足している場合に、実行部３１４は、タイマー３２２をセットする。タイマー３２２は、所定時間の経過を計測する。タイマー３２２の計測する所定の時間が経過すると、実行部３１４は、不足している変数が設定されたか判定する。不足している変数が設定されていない場合、実行部３１４はユーザの発話を誘導する情報を案内システム３００に出力する。

実行部３１４は、例えば、誘導する情報として、質問文を出力してもよい。案内システム３００は合成音声の質問文を出力してもいいし、ディスプレイに誘導する情報を表示してもよい。

実行部３１４は、値が入力されていない変数が所定の個数以下となったアクションのタイマー３２２をセットしてもよい。これにより実行部３１４が実行するアクションを絞り込むことが可能になる。値が揃った実行可能なアクションが複数存在する場合、実行部３１４は、アクション情報に予め定められた優先順位が高い順に、実行するアクションを決定してもよい。また、実行部３１４は、実行可能なアクションが複数ある場合、ユーザに実行する前記アクションの決定する発話を誘導する情報を出力してもよい。実行部３１４は、図３に示すアクション情報の「提供情報」を参照し、「「列車」と「天気」、どちらについて知りたいですか？」と出力してもよい。

タイマー３２２による所定時間の経過は、ユーザが発話を終えた時点から計測してもいいし、設定部３１３が値の設定を終えた時点から計測してもよいが、これらに限られない。例えば実行部３１４は、変数「日時」が不足していることを判定した時点でタイマー３２２をセットしてもよい。タイマー３２２は、例えばセットされた時点から５秒を計測する。タイマー３２２は実行部３１４に変数「日時」が不足していることを判定した時点から５秒が経過したことを通知してもよい。

実行部３１４は、ユーザの発話に基づいて、アクションの実行に必要な複数の変数の値が設定されると、設定された単語に基づいてアクションを実行する。実行部３１４はさらに以下の機能を有する。実行部３１４は、アクションを実行した結果を音声合成部３２１に出力する。

また、実行部３１４は、設定部３１３が選択したアクションが複数ある場合、実行されていないアクションがあるか確認する。実行部３１４は、残っているアクションに対して、図３に示すアクション情報を参照し、アクションの実行に必要な変数の値が第２設定情報に設定済みであるか判定する。実行部３１４は、変数の値が第２設定情報に設定済みであればアクションを実行する。

記憶部３１１は、アクションの実行に不足している変数と質問文との対応関係を定める質問情報を記憶していてもよい。実行部３１４は記憶された質問情報を参照し、質問文を選択してもよい。図１１は、質問情報の例を示す図である。実行部３１４は、変数「乗車駅」の値が不足している場合、質問文「どこから乗りますか？」を選択し、案内システム３００に出力する。

〔動作例〕
以下、第３実施形態における案内システム３００の制御方法について、図１０Ａおよび図１０Ｂを用いて説明する。図１０Ａおよび図１０Ｂは、第３実施形態における案内システム３００の動作例を示すフローチャートである。以下において、ユーザが二回に分けて、アクションの実行に必要な変数を含む発話する場合の例について説明する。

音声認識部３２０は、マイクを介して例えば「新大阪から新幹線で東京まで行く。」の音声データを取得する（ステップＳ２１）。このとき案内システム３００の動作は、第２実施形態におけるステップＳ２１からステップＳ２７までの動作例と同様であるため詳細な説明は省略する。

実行部３１４は、変数「日時」の値が設定されていないことを判定すると（ステップＳ２７；Ｎｏ）、変数「日時」に関する発話を誘導する情報の出力タイミングを計測するタイマー３２２をセットする（ステップＳ３０）。その後、設定部３１３は、変数「乗車駅」を含むアクションが設定情報に残っているか確認する（ステップＳ２９）。

本例において、ユーザが最初に「新大阪から新幹線で東京まで行く。」と発話した後に、変数「日時」の値に関して、追加で自発的に発話しない場合について説明する。タイマー３２２は、所定時間経過を計測する（ステップＳ３１）。所定時間経過後、実行部３１４は、変数「日時」の値が設定されていないことを判定する（ステップＳ３２；Ｎｏ）。実行部３１４は、発話を誘導する情報を出力する（ステップＳ３３）。実行部３１４は、誘導する情報として例えば「日時を教えて下さい。」を音声合成部３２１に出力してもよい。

第２実施形態における動作例と同様に、ユーザが自発的に「日時」に関する発話をした場合、所定時間経過後（ステップＳ３１）、実行部３１４は値が設定されていなかった「日時」の値が設定されたことを判定し（ステップＳ３２；Ｙｅｓ）処理を終了する。

なお、案内システム３００においても、推定した変数は設定済みであり（ステップＳ２４；Ｙｅｓ）、所定時間内にユーザから音声入力が無い場合、発話したユーザへの案内を終了する。ユーザが追加で発話した場合にはステップＳ２１からステップＳ２９の処理を繰り返す。

〔第３実施形態の効果〕
第３実施形態では、案内システム３００は、ユーザによる最初の発話に含まれる単語に基づき、アクションに必要な変数が揃うように誘導する情報を出力する。このためユーザが発話すべき内容が明確になり、ユーザの最初の発話から案内システム３００のアクションの実行までの時間を短縮することができる。

第３実施形態では、タイマー３２２を備えることにより、所定時間が経過してから不足する変数を誘導する情報を出力させるから、ユーザ主体の問合せの発話を可能にする。すなわち、タイマー３２２により、ユーザの発話内容を十分に聞いてから、不足している変数に関する発話を促すことができる。

なお、第３実施形態において、タイマー３２２が所定時間の経過を計測する場合について説明したが、所定時間の経過は実行部３１４が計測してもよい。このとき、実行部３１４はタイマー３２２が示す時間を参照し、時間の経過を計測する。

また、第３実施形態において、案内システム３００がタイマー３２２を備える場合について説明したが、案内システム３００はタイマー３２２を備えていなくてもよい。すなわち誘導する情報の出力のタイミングは、タイマー３２２により制御しない構成であってもいい。例えばアクションに必要な変数の数が所定の個数以下であると、実行部３１４は、不足している変数に関する発話を誘導する情報を出力してもよい。

〔変形例〕
以下に第１実施形態に係る案内システム１００の変形例について説明するが、これらの変形例は、第２および第３実施形態に係る案内システム２００、３００に対しても適用することができる。

図１２は、案内システム１００の他のハードウエア構成例を概念的に示す図である。案内システム１００の各機能は、図１に示すように１つのコンピュータ９０に備えられる必要はなく、複数のコンピュータ１９０、２９０等により実現されてもよい。図１における出力装置８０は、具体的には、図１２に示すようにディスプレイ８１およびスピーカー８２であってもよい。出力装置８０は、プリンタであってもよい。マイク７０はコンピュータ１９０に接続されていてもよい。

設定部１１３は、値を入力する際に、ユーザに対する返答を生成してもよい。返答とは、例えば「はい」や「なるほど」であり、検索結果の提供とは異なる。案内システム１００がロボットである場合、ロボットは返答として、頷く動作をしてもよい。案内システム１００が返答をすることで、ユーザは音声が入力されていることを確認することが可能になる。

また、案内システム１００は、返答として、ユーザの発話内容を復唱してもよい。例えばユーザが「朝９時」を含む発話をすると、案内システム１００は「本日の朝９時ですね。」と復唱する。案内システム１００がユーザの発話内容を復唱することで、ユーザは発話内容が正しく認識されていることを確認することが可能になる。

以上のように、案内システム１００がアクションを実行する前に、返答を行うことで、ユーザは落ち着いて問合せの発話をすることができる。

案内システム１００は、情報案内としてディスプレイに検索結果を表示する代わりに、検索結果を表示するウェブサイトを特定する情報を出力してもよい。ウェブサイトを特定する情報はＵＲＬ（Uniform Resource Locator）や二次元バーコードであってもよく、これらはディスプレイに表示されてもいいし、プリンタにより紙に印刷されてもよい。さらに、案内システム１００は近距離無線通信、メール、ソーシャルネットワークサービスを通じて、ユーザに情報案内を送信してもよい。また電話案内の際には、ユーザの携帯端末に情報案内をショートメッセージサービスにより送信してもよい。

実行部が実行するアクションには、情報案内アクションの他に、会話アクションを含んでもよい。アクション情報には、ユーザの個人情報に関する変数「体調」や、地域の情報に関する変数「天気」などを含んでもよい。変数「体調」の値が「良い」であり、変数「天気」の値も「晴れ」であると、案内システム１００は、例えば地域のイベントに出かけることを促す発話アクションを実行することができる。このように、案内システム１００は会話ロボットとして雑談をすることもできる。

なお、推定部１１２は、ユーザの発話内容のうち、変数「体調」または変数「天気」に関係する単語を推定してもよい。設定部１１３は、インターネットを通じて一部の変数の値を取得し、設定してもよい。

一般的な会話ロボットは、対話のテーマとシナリオが予め決まっているため、会話はシステム主導となり、人は予め定められたシーケンスに則って発話する必要がある。会話アクションの実行に案内システム１００を適用すると、会話をユーザ主導とすることができる。

対話のテーマを自由にするために、インターネットのチャット履歴を機械学習によって学習したチャットボットを利用しても、会話の内容は一般化されてしまうから、チャットボットとの会話は各人に合わせた内容とならないことがある。会話アクションの実行に第１実施形態の案内システム１００を適用すると、各人に合わせた会話が可能になる。

＜適用例＞
本開示の各実施形態は、切符の自動販売機、観光地の案内ロボット、ホテルのチェックインシステム、コンビニエンスストアのマルチメディアキオスクまたは複合機において適用することができる。

音声によってユーザの問合せを受け付けることで、ユーザは複雑な画面から問合せ内容を探し出す必要がなくなる。さらに音声入力によれば、ボタンの操作が困難である場面において、ハンズフリーで要求を入力することができる。

以上、上述した実施形態を模範的な例として本開示を説明した。しかしながら、本開示は、上述した実施形態には限定されない。即ち、本開示は、本開示のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

１００、２００、３００案内システム
１１１、２１１、３１１記憶部
１１２、２１２、３１２推定部
１１３、２１３、３１３設定部
１１４、２１４、３１４実行部
２２０、３２０音声認識部
２２１、３２１音声合成部
３２２タイマー

Claims

アクションと前記アクションの実行に必要な複数の変数との対応関係を定めるアクション情報を記憶する記憶手段と、
音声から認識した単語が関係する前記変数を推定する推定手段と、
前記アクション情報を参照し、前記変数の値として、前記認識した単語を設定する設定手段と、
前記必要な複数の変数の値が設定されると、設定された単語に基づいて前記アクションを実行する実行手段と、
を備え、
前記実行手段は、値が未設定の変数の数が所定の個数以下となった前記アクションの実行に必要な未設定の変数に関する発話を誘導する情報を、所定時間経過後に、出力する
案内システム。
前記推定手段は、前記アクションの実行に必要な複数の変数が不足している間、前記変数の推定を繰り返す、
請求項１に記載の案内システム。
実行可能な前記アクションが複数ある場合、実行する前記アクションの決定する発話を誘導する情報を出力する
請求項１又は２に記載の案内システム。
前記アクションはユーザに案内する情報の検索である
請求項１乃至３のいずれか１項に記載の案内システム。
前記設定手段は、値を設定するとき、アクション実行前に返答を生成する、
請求項１乃至４のいずれか１項に記載の案内システム。
音声から認識した単語が関係する変数を推定し、
アクションと前記アクションの実行に必要な複数の変数との対応関係を定めるアクション情報を参照し、前記アクションの実行に必要な変数の値として、前記認識した単語を設定し、
値が未設定の変数の数が所定の個数以下となった前記アクションの実行に必要な未設定の変数に関する発話を誘導する情報を、所定時間経過後に、出力し、
前記必要な複数の変数の値が設定されると、設定された単語に基づいて前記アクションを実行する、
案内システムの制御方法。
音声から認識した単語が関係する変数を推定する推定処理と、
アクションと前記アクションの実行に必要な複数の変数との対応関係を定めるアクション情報を参照し、前記アクションの実行に必要な変数の値として、前記認識した単語を設定する設定処理と、
値が未設定の変数の数が所定の個数以下となった前記アクションの実行に必要な未設定の変数に関する発話を誘導する情報を、所定時間経過後に、出力する出力処理と、
前記必要な複数の変数の値が設定されると、設定された単語に基づいて前記アクションを実行する実行処理と、
をコンピュータに実行させる案内プログラム。