JP6514503B2 - 意図推定装置、および意図推定システム - Google Patents
意図推定装置、および意図推定システム Download PDFInfo
- Publication number
- JP6514503B2 JP6514503B2 JP2014262090A JP2014262090A JP6514503B2 JP 6514503 B2 JP6514503 B2 JP 6514503B2 JP 2014262090 A JP2014262090 A JP 2014262090A JP 2014262090 A JP2014262090 A JP 2014262090A JP 6514503 B2 JP6514503 B2 JP 6514503B2
- Authority
- JP
- Japan
- Prior art keywords
- intention
- unit
- data
- intention estimation
- learning data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013179 statistical model Methods 0.000 claims description 164
- 238000012937 correction Methods 0.000 claims description 134
- 238000011156 evaluation Methods 0.000 claims description 118
- 238000004891 communication Methods 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 18
- 230000009471 action Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 5
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 128
- 230000014509 gene expression Effects 0.000 description 73
- 230000008569 process Effects 0.000 description 72
- 239000013598 vector Substances 0.000 description 21
- 238000010586 diagram Methods 0.000 description 13
- 238000007619 statistical method Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 9
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000007423 decrease Effects 0.000 description 7
- 230000007704 transition Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000002411 adverse Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Testing And Monitoring For Control Systems (AREA)
Description
特許文献1には、ユーザの自然言語入力による電子機器の操作において、それぞれのユーザが優先的に使用する操作を学習し、ユーザごとに意図推定のパラメータを変更することで、意図推定装置の推定精度を高める方法が開示されている。
本発明の第2の態様による意図推定システムは、上述した意図推定装置、および前記意図推定装置とネットワークを介して接続される端末から構成される意図推定システムであって、前記端末は、前記ユーザの入力を受け付ける入力部と、前記入力部に入力された前記ユーザの入力を前記意図推定装置に送信する送信部と、前記意図推定装置が前記ユーザの入力を意図推定した結果を受信し、当該意図推定した結果にしたがい動作する実行部とを備える。
以下、図1〜12を参照して、本発明による意図推定システムの一実施形態を説明する。
操作入力部1030は、たとえば押しボタンおよびポインティングデバイスである。操作入力部1030は、ユーザによる入力操作を検出して制御部1070に出力する。操作入力部1030はこれから音声入力を行うユーザを選択するボタン、および音声入力を開始するボタンを備える。
音声出力部1050は、たとえばスピーカである。音声出力部1050は、制御部1070からの出力に従い、音声を発してユーザに報知する。
位置取得部1060は、たとえばGPS受信機である。位置取得部1060は、制御部1070からの指令により衛星から電波を受信し、当該車載器200の位置を算出する。位置取得部1060は、算出した位置を制御部1070に出力する。
音声認識サーバ300は、発話の音声信号が入力されると、対応する文字情報、すなわちテキストを出力する不図示の音声認識部を備える。音声認識サーバ300は、中継サーバ1000から音声信号を受信すると、音声認識部に当該音声信号を入力し、得られたテキストを中継サーバ1000に送信する。
施設検索サーバ400は、施設に関する情報を記憶した不図示のPOIデータベースを備える。施設検索サーバ400は、中継サーバ1000から検索クエリを受信すると、検索クエリを用いてPOIデータベースを検索し、得られた検索結果を中継サーバ1000に送信する。
管理端末500は、オペレータの操作に従い、中継サーバ1000を管理する。
図2を用いて中継サーバ1000の構成を説明する。中継サーバ1000は、外部と通信を行う通信部1110と、不図示の制御部と、不図示の記憶部を備える。図2では、制御部により実行される複数の機能、および記憶部に保存される複数のデータを、概念的に機能ブロックとして表現している。ここでは全ての構成要素の概要、および各構成要素の相関を説明し、その後にデータの構造や具体的な動作を説明する。
通信部1110は、通信網Xを介して車載器200、音声認識サーバ300、施設検索サーバ400、管理端末500と通信を行う。通信部1110は、車載器200から音声信号、位置情報、端末ID、およびユーザIDを受信すると、音声信号を音声認識サーバ300に送信し、位置情報を検索部1140に出力し、音声信号、端末ID、ユーザID、現在の日付および現在時刻をユーザログ1180に記録する。通信部1110は、音声認識サーバ300から音声信号を認識した結果であるテキストを受信すると、そのテキストを意図推定部1120に出力する。通信部1110は、検索部1140から検索クエリが入力されると、その検索クエリを施設検索サーバ400に送信する。通信部1110は、施設検索サーバ400から検索結果を受信すると、その検索結果を検索部1140に出力する。
意図推定モデル1130は、統計モデル1131およびルールテーブル1132から構成される。統計モデル1131およびルールテーブル1132は、意図推定部1120が音声認識サーバ300の出力したテキストを意図推定するために用いられる。前述のように、統計モデル1131は、学習部1220により評価用統計モデル1240として作成され、評価部1230により肯定的な評価がされたものである。
評価データ1210は、評価用統計モデル1240の評価に使用されるデータであり、テキストと正解意図の組合せから構成される。本実施の形態では、評価データ1210は、追加学習データ群1202および基礎学習データ群1201と同じ内容のデータから構成されるものとする。すなわち、追加学習データ群1202および基礎学習データ群1201の各学習データにおけるテキストと正解意図の組合せが、評価データ1210として用いられる。
優先度基礎情報1270は、データ修正部1260が後述する優先度を決定する際に読み込まれる。
統計モデル1131を用いた意図推定は、音声認識サーバ300から受信したテキストを、ユーザが意図した車載器200に対する操作を表す意図表現に変換する。意図表現の形式は、任意の形式を採用することができるが、本実施形態では、文字列で表すこととする。また、1個の意図表現は、実行する機能の種類に相当する「トピック」と、機能を実行する際に決める必要があり多様に変わりうる変数を表す「スロット」との2つに分けて推定する。トピックとは、たとえば、周辺検索、ルート沿い検索、エアコン設定、自宅ルート検索、などである。スロットとは、たとえば、周辺検索やルート沿い検索における施設検索クエリ、エアコン設定におけるエアコンの設定温度、などである。また、本実施形態では、1個の意図表現を、トピックとスロットをカンマで区切った文字列で表現する。
図3〜4を参照して基礎学習データ群1201、追加学習データ群1202、およびこの2つを併せた学習データ群1200、のデータ構造を説明する。これらはいずれも、1または複数の学習データから構成される。学習データは、それぞれ1つの、テキストと、当該テキストの正しい意図である正解意図表現と、倍率と、優先度とから構成される。学習データを構成する、テキストと、正解意図表現と、倍率と、優先度とは、互いに関連付けられている。
図3に示す例では、基礎学習データ群1201の先頭の6つのレコード、すなわち6つの学習データが示されている。先頭のレコードは、「近くのレストラン」というテキストの正しい意図表現は、機能の種類に相当するトピックは「周辺検索」であり、変数に相当するスロットは「レストラン」であることを示している。
基礎学習データ群1201は複数のレコードから構成される。
図5を参照して、ユーザログ1180のデータ構造を説明する。図5は、ユーザログ1180の一例を示す図である。ユーザログ1180は、複数のレコードから構成される。1つのレコードは、音声信号を受信した日付および時刻と、車載器200を識別する機器IDと、車載器200のユーザを識別するユーザIDと、テキストと、意図推定部1120がテキストを意図推定した結果である意図表現と、管理端末500のオペレータにより付与される正解フラグ、および正解意図表現とから構成される。ただし、正解フラグが正解の場合には、正解意図表現は存在しない。図5の例では、正解フラグが正解の場合には、正解意図表現は、ブランク(−)として表現している。
図6〜8を参照して、優先度基礎情報1270を構成する、トピック意図重要度1271、およびスロット意図重要度1272のデータ構造を説明する。いずれも、ユーザの発話に基づいて生成されたテキストが、統計モデル1131により誤って意図推定されたときに、どの程度ユーザに不利益をもたらすかを数値化している。数値が大きいほど不利益が大きいことを示している。本実施の形態では、優先度と重要度は、直接の大小比較が可能な関係にある。
不一致とは、推定されたスロットが、正解のスロットをまったく含まない文字列であることをいう。上記の例で不一致に該当するスロットの誤りは、たとえば「クエリ=行く」である。この場合、正しく検索される可能性は無い。そのため、この誤りパターンに対する表の値は大きく設定する。
図8を参照してルールテーブル1132の構造を説明する。
ルールテーブル1132は、複数のレコードから構成される。1つのレコードは、テキストと正解意図表現とから構成される。ルールテーブル1132の各レコードは、学習データ群1200のうち対応するレコードから、優先度および倍率を除いて作成される。意図推定部1120は、音声認識サーバ300の出力するテキストと一致する、ルールテーブル1132の文字列を検索する。意図推定部1120は、テキストと一致する文字列に関連付けられた正解意図表現を、意図表現として通信部1110およびユーザログ1180に出力する。ただし、ユーザログ1180へはルールテーブル1132を参照したことを明示するために、ユーザログ1180の正解フラグを、「ルール」とする。
意図推定モデル1130に含まれる統計モデル1131およびルールテーブル1132を説明する。統計モデル1131は、統計的手法により意図推定を実行する際に用いられる。ルールテーブル1132は、パターンマッチングにより意図推定を実行する際に用いられる。本実施の形態では、2つの手法による意図推定を相補的に用いる。パターンマッチングによる意図推定は、ルールテーブル1132に記載されたルールにしたがって明示的にユーザ発話と特定の意図に理解することができる。そのため、パターンマッチングによる意図推定は、特定の発話パターンを狙って意図推定させることができるメリットがある。しかし、あらかじめ用意した発話パターンに沿った発話しか理解できないため、多様な言い回しを受理する手法としては、一般に統計的な手法のほうが向いている。そのため、本実施の形態では、入力されたテキストがルールテーブル1132に含まれる場合には、統計モデル1131を用いずに、ルールテーブル1132を用いたパターンマッチングによる意図推定を行う。
統計的手法による意図推定を実行するためには、あらかじめ、多数のテキストと正解意図表現の対を集めた学習データから、両者の関係を統計的手法によりモデル化した意図推定モデルを構築しておく必要がある。このプロセスを学習という。たとえば、非特許文献1では、本実施の形態におけるトピックに相当する部分を、Support Vector Machineと呼ばれる統計的手法を用いた分類器により推定し、スロットに相当する部分を、Conditional Random Fieldと呼ばれる手法により推定する技術が開示されている。非特許文献2の方法では、本実施の形態におけるスロットに相当する部分を、最大エントロピー法と呼ばれる統計的手法で実現している。非特許文献3では、1個のトピックを表す多次元空間上の代表点を学習データから求めておき、入力文から求めた多次元ベクトルと、トピックの代表点との距離を計算し、もっとも距離が小さかったトピックを意図推定結果として出力するベクトルベースの手法が開示されている。
X. Liu, R. Sarikaya, C. Brockett, C. Quirk, W.B. Dolan: ``Paraphrase features to improve natural language understanding," Proc. of Interspeech 2013, pp.3776-3779, 2013
(非特許文献2)
C. Chelba, M. Mahajan, A. Acero: ``Speech utterance classification,” Proc. of ICASSP, pp.280-283, 2003
(非特許文献3)
J. Chu-Carroll, B. Carpenter: "Vector-based natural language call routing," Computational Linguistics, vol.25, no.3, pp.361-388, 1999
本実施の形態では、この統計的手法による意図推定に、独自の概念である優先度および倍率を導入する。優先度および倍率は、テキストに関連付けられる、優先度同士、倍率同士で大小比較が可能な概念である。たとえば、0.0〜1.0や−10〜+10の数値で表してもよいし、A〜Zのアルファベットで表してもよい。優先度と倍率は異なる概念なので、優先度と倍率の大小比較は行わない。本実施の形態では、優先度は0〜1の実数、倍率は0〜10の実数とする。
優先度は、関連付けられたテキストが正しく意図推定されることの重要さを示す指標である。優先度は、統計モデル1131の学習には用いられず、統計モデル1131の評価、および学習データ群1200の修正に用いられる。優先度は、データ修正部1260により設定される。
倍率は、学習における当該倍率に関連付けられたテキストの重みを示す値である。倍率2030の初期値は「1」であり、データ修正部1260により後述する処理により更新される。
この倍率は、学習部1220における学習において、たとえば、以下のように利用される。非特許文献2に示した最大エントロピー法を使用する統計モデルの学習において、倍率に記載された値に応じて、学習に用いるテキストの数を増加させる方法がある。図3に示す基礎学習データ群1201の例では、テキストが「一個戻る」であるレコードは、倍率が2に設定されている。そのため、統計モデルの学習において、「一個戻る」というテキストと、「一画面戻り」という正解意図表現の組を2つ入力する。
あるテキストを正しく意図推定させたい場合には、そのテキストに関連付ける倍率を高く設定すればよい。これを本実施の形態では増加法と呼ぶ。しかし、あるテキストの倍率が高いために、他のテキストの学習へ悪影響を及ぼすことがある。たとえば、「我が家に戻る」が学習データに存在するために、他の優先度が高いデータ(たとえば、「自宅に帰る」など)が正しく意図推定できないような場合である。そこで、倍率を変更する方法として逆のアプローチをとることも考えられる。
オペレータは、所定の時間ごと、たとえば12時間ごとに管理端末500を用いて中継サーバ1000にアクセスし、通信部1110を介して正解判定部1280にアクセスする。オペレータは、ユーザログ1180を閲覧して、これまでの経験などに基づき正解フラグをユーザログ1180に書き込む。正解フラグを不正解とする場合は、正解意図表現も併せて書きこむ。
まず図9を参照してメインのフローチャートの動作を説明し、その後に、図10〜12を参照してサブルーチンの動作を説明する。
ステップS4020において、データ修正部1260は、追加学習データ群1202を作成するために、図10に示すサブルーチンを実行する。このサブルーチンにおいて、図3に示すように複数のレコードを有する追加学習データ群1202が作成される。図10に示すサブルーチンの動作は後に説明する。その後、ステップS4030に進む。
ステップS4030において、データ修正部1260は、ステップS4010において読み込んだ基礎学習データ群1201と、ステップS4020において作成した追加学習データ群1202とを用いて、学習部1220に評価用統計モデル1240を作成させる。学習部1220は、たとえば、トピックを推定するためのSupport Vector Machineの手法を用いた統計モデル、およびスロットを推定するためのConditional Random Fieldの手法を用いた統計モデルを作成する。前述のとおり、統計モデルを作成するための学習では、テキスト、正解意図表現、および倍率が用いられる。次にステップS4040に進む。
(A)統計モデル1131と評価用統計モデル1240の両方に評価データ1210のテキストを入力し、それぞれ推定意図表現を得る。その推定意図表現が、入力したテキストに関連付けられた正解意図表現に一致する場合を正解とする。評価用統計モデル1240の方が、統計モデル1131よりも所定の割合以上、正解となる割合が多い。
(B)統計モデル1131と評価用統計モデル1240の両方に評価データ1210のテキストを入力し、それぞれ推定意図表現を得る。その推定意図表現が、入力したテキストに関連付けられた正解意図表現に一致しない場合を不正解とする。統計モデル1131では正解であるが、評価用統計モデル1240では不正解である評価データ1210の割合が所定の割合より少ない。
(C)評価用統計モデル1240に評価データ1210のテキストを入力し、推定意図表現を得る。正解数が所定の数より多い、または正解の割合が所定の割合よりも高い。
以上の3つを全て評価し、ステップS4050に進む。
評価用統計モデル1240が合格基準に達していると判断されたときに実行されるステップS4200において、データ修正部1260は、ステップS4060と同様に、追加学習データ群1202および基礎学習データ群1201から誤りデータを抽出する。そして、抽出した各誤りデータが表すテキストと正解意図表現の組み合わせを、ルールテーブル1132に追加する。次にステップS4220に進む。
ステップS4230において、データ修正部1260は、ステップS4220で更新した基礎学習データ群1201から新規理解テキストを抽出する。ここでは、基礎学習データ群1201に含まれる複数の学習データのテキストの中で、統計モデル1131に基づいて出力される意図推定結果が誤りであり、かつ評価用統計モデル1240に基づいて出力される意図推定結果が正しくなるようなテキストを、新規理解テキストとして抽出する。換言すると、ステップS4210において作成された評価用統計モデル1240は正解を出力するが、統計モデル1131は不正解を出力するテキストを、新規理解テキストとして基礎学習データ群1201から抽出する。すなわち、新規理解テキストを評価用統計モデル1240に入力すると、そのテキストに関連付けられた正解意図表現を出力するが、同一のテキストを統計モデル1131に入力しても、正解意図表現を得られない。さらに、S4200でルールテーブル1132に追加されたテキストのうち、統計モデル1131とS4200の処理の前のルールテーブル1132の組み合わせによる意図推定では、正しく理解できなかったテキストもある。このテキストも、新規理解テキストに追加する。次にステップS4240に進む。
ステップS4260において、データ修正部1260は、現在の統計モデル1131を削除し、ステップS4030で作成した評価用統計モデル1240を、新しい、更新された統計モデル1131とする。以上で図9に示したフローチャートの動作を終了する。
図9のステップS4001から呼び出されるサブルーチンの動作を、図10を用いて説明する。
ステップS4002において、データ修正部1260は、ユーザログ1180を読込み、その総レコード数をnとして保存する。この総レコード数nは、後のステップS4015において利用される。次にステップS4003に進む。
ステップS4003において、データ修正部1260は、変数iに1を代入してステップS4004に進む。
ステップS4005において、データ修正部1260は、読込んだ正解フラグが「不正解」か否かを判断する。「不正解」であると判断する場合はステップS4006に進み、「正解」、または「ルール」であると判断する場合はステップS4015に進む。
トピックが一致するが不正解の場合、すなわちスロットが不正解である場合に実行されるステップS4007において、データ修正部1260は、図7に例示したスロット意図重要度1272を参照し、該当する重要度を読み取る。すなわち、まずスロット誤りのパターンが、内包、部分一致、不一致、などのいずれのパターンに該当するかを判断する。そして、正解意図表現のトピックからスロット意図重要度1272の行を特定し、判断したスロット誤りのパターンからスロット意図重要度1272の列を特定し、重要度を読取る。次にステップS4009に進む。
ステップS4009において、データ修正部1260は、ユーザログ1180のi番目のレコードに記載のテキストと同一のテキストを有するレコードを、追加学習データ群1202および基礎学習データ群1201から検索し、ステップS4010に進む。
同一のテキストを有するレコードが検索された場合に実行されるステップS4011において、データ修正部1260は、ステップS4009における検索により得られたレコードの優先度(以後、レコードの優先度)と、ステップS4007またはステップS4008において読取った重要度(以後、読取り重要度)の大きさを比較する。レコードの優先度の方が大きいと判断する場合はステップS4012に進み、それ以外の場合はステップS4013に進む。
同一のテキストを有するレコードが検索されなかった場合、または読取り重要度がレコードの優先度以下であると判断された場合に実行されるステップS4013において、データ修正部1260は、読取り重要度を新たに設定する優先度として決定し、ステップS4014に進む。
ステップS4016において、データ修正部1260は、変数iに1を加えてステップS4004に戻る。
ステップS4017において、データ修正部1260は、ユーザログ1180を削除し、図10に示すフローチャートを終了し、図9のステップS4030に進む。
図9のステップS4061から呼び出されるサブルーチンの動作を、図11を用いて説明する。図11に示すサブルーチンは、データ総数がmである誤りデータを用いて、追加学習データ群1202および基礎学習データ群1201の倍率を修正する。誤りデータは抽出された順番に1〜mの番号が付されている。
ステップS4070において、データ修正部1260は、処理対象の誤りデータを示す変数jに1を代入してステップS4080に進む。
ステップS4100において、データ修正部1260は、ステップS4090において抽出した対立データの優先度と誤りデータの優先度の大小関係を比較する。誤りデータの優先度の方が大きいと判断する場合はステップS4140に進み、誤りデータの優先度が対立データの優先度以下であると判断する場合はステップS4110に進む。
ステップS4120において、データ修正部1260は、対立データである学習データ群1200の1レコードに含まれる倍率を所定の量、たとえば1増加させてステップS4162に進む。
ステップS4130において、データ修正部1260は、誤りデータである学習データ群1200の1レコードに含まれる倍率を所定の量、たとえば0.5減少させてステップS4162に進む。
ステップS4150において、データ修正部1260は、誤りデータである学習データ群1200の1レコードに含まれる倍率を所定の量、たとえば1増加させてステップS4162に進む。
ステップS4160において、データ修正部1260は、対立データである学習データ群1200の1レコードに含まれる倍率を所定の量、たとえば0.5減少させてステップS4162に進む。
以上説明したステップS4120、S4130、S4150、S4160のいずれかの処理を実行することにより、データ修正部1260は、学習部1220による評価用統計モデル1240の作成における誤りデータまたは対立データの影響を変化させるように、学習データ群1200の修正を行うことができる。
ステップS4180において、データ修正部1260は、変数jに1を追加して処理対象の誤りデータを次の番号が付されたものに変更し、ステップS4080に戻る。
中継サーバ1000の動作のまとめとして、フローチャートを適宜参照しながら、統計モデル1131と評価用統計モデル1240の関係、およびユーザログ1180と、追加学習データ群1202と、基礎学習データ群1201との関係を説明する。
図12は、統計モデル1131が更新される過程を示す概要図である。図12において時間は上から下に向かって経過している。ここまでの説明では更新の前後に関わらず統計モデル1131の名称を区別していなかったが、ここでは作成するたびにバージョンを1増加させて区別する。また、ユーザログ1180と、追加学習データ群1202と、基礎学習データ群1201のレコード数の例も明示する。
この時刻t4の状態は、統計モデル1131のバージョン番号、および基礎学習データ群1201のレコード数を除けば、時刻t1の状態と同一である。すなわち、中継サーバ1000は、この時刻t1〜t3の状態を繰り返す。
(1)本実施の形態における中継サーバ1000、すなわち意図推定装置は、テキストおよび正解意図表現を関連付けて構成される学習データを複数含む第1の学習データ群、すなわち基礎学習データ群1201と、この第1の学習データ群に含まれる複数の学習データおよび第1の学習データ群に含まれない複数の学習データを含む第2の学習データ群、すなわち基礎学習データ群1201と追加学習データ群1202を合わせた学習データ群1200と、テキストが入力されると当該テキストの意図を推定して意図推定結果を出力する統計モデルを学習データを用いて作成するモデル作成部、すなわち学習部1220(図11のステップS4030)と、学習部1220により基礎学習データ群1201を用いて作成された第1の統計モデル、すなわち統計モデル1131と、学習部1220により学習データ群1200を用いて作成された第2の統計モデル、すなわち評価用統計モデル1240と、を備える。
このような中継サーバ1000によれば、複数のユーザの自然言語のログを用いた学習により、テキストがより正しく意図推定されるので、ユーザの利便性を高めることができる。
誤りデータの倍率を増加させる場合は、優先度が低いテキストも正しく意図推定される可能性が残る。対立データの倍率を減少させる場合は、優先度が高いテキストに対する悪影響が速やかに取り除かれるため、優先度が高いデータは正しく理解されるようになる。また、学習データの増加が起こらないため、学習時間が増加しない。
(3)データ修正部1260は、誤りデータの優先度が対立データの優先度よりも大きい場合には、ステップS4150において誤りデータの倍率を増加させることにより、統計モデルの作成における誤りデータの影響を大きくするか、または、ステップS4160において対立データの倍率を減少させることにより、統計モデルの作成における対立データの影響を小さくするように、学習データ群1200の修正を行う。このようにしたので、優先度がより高い誤りデータに対応するテキストが正しく意図推定されるように、学習データ群1200を修正することができる。
(4)一方、データ修正部1260は、誤りデータの優先度が対立データの優先度よりも小さい場合には、ステップS4130において誤りデータの倍率を減少させることにより、統計モデルの作成における誤りデータの影響を小さくするか、または、ステップS4120において対立データの倍率を増加させることにより、統計モデルの作成における対立データの影響を大きくするように、学習データ群1200の修正を行う。このようにしたので、優先度がより高い対立データに対応するテキストが正しく意図推定されるように、学習データ群1200を修正することができる。
そのため、評価用統計モデル1240を異なる観点から評価することができる。(A)による評価では、意図推定の正解率が高いことを評価する。(B)による評価では、これまで正しく意図推定が可能であったのに、不可能となったテキストが十分に少ないことを評価する。(C)による評価では、新たに意図推定が正しく行えるようになったことを評価する。
そのため、学習部1220は、意図推定部1120が意図推定を行う場合と同様のデータを用いて学習を行うことができる。
そのため、不利益度が大きいほど優先度が高く設定されるので、ユーザが大きい不利益を受けることが少ない。すなわち、ユーザの利便性を高めることができる。
優先度設定部(図10のステップS4006〜S4014)は、トピックに誤りがある場合にトピック意図重要度1271を参照し、スロットに誤りがある場合にスロット意図重要度1272を参照し、不利益度の大きさに基づいて優先度を設定する。
そのため、トピックの誤り、およびスロットの誤りに対して独立した不利益度を設定し、詳細に優先度を設定することができる。
以上説明した第1の実施の形態を以下のように変形して実施することができる。
(1)図11に示した倍率の更新(S4110〜S4160)において、増加方式または減少方式のいずれかの方式を採用したが、両者を併用してもよい。すなわち、たとえば誤りデータの方が優先度が大きい場合に(S4100:YES)、対立データの倍率を減少させるとともに、誤りデータの倍率を増加させてもよい。また、誤りデータの方が優先度が小さい場合は、学習データの倍率を変更しなくてもよい。
車載器200、中継サーバ1000は、別のユニットになっている必要は無く、同一のユニットにあってもよい。
本実施の形態は、中継サーバ以外のサーバにて、施設検索のサービスを行う構成としたが、楽曲検索やWeb検索など、別のサービスを提供するサーバが存在する構成でもよい。また、中継サーバ以外のサーバに接続しない形態でもよい。
(5)評価用統計モデル1240の評価において、データ修正部1260は3つの基準の全てを満たすことを合格基準とした(ステップS4040)。しかし、2つ以上を満たすことを合格基準としてもよいし、少なくとも1つを満たすことを合格基準としてもよい。
また、第1の実施の形態で説明した(A)(B)(C)の合格基準における「正解(不正解)の割合」は、正解数(不正解数)を評価データの数で割った値として算出する方法が基本的な方法である。これに加えて、それぞれの評価データの優先度を考慮した値を計算することもできる。たとえば、「正解(不正解)の割合」として、正解(不正解)だった評価データの優先度を合計した値を、すべての評価データの優先度を合計した値で割った値を使ってもよい。または、優先度の大きさを低(0〜0.3)、中(0.3〜0.7)、高(0.7〜1.0)のように数段階に分けておき、それぞれの段階の優先度の評価データごとに「正解(不正解)の割合」「正解(不正解)数」を計算し、それぞれの段階ごとに合格と判定する基準値を別に設けてもよい。
(7)評価部1230は、評価データ1210として学習データ群1200を用いたが、学習データ群1200と無関係のデータを用いてもよい。すなわち、学習部1220が学習に用いたか否かに関わらず、複数の、テキストとそのテキストの正解意図表現の組合せを評価データ1210として用いてもよい。
(9)通信部1080は、車載器200に内蔵せず、他の通信機器が有する通信機能を利用してもよい。
(10)データ修正部1260による評価用統計モデル1240の評価において、優先度を考慮してもよい。たとえば、正解意図表現が得られた数をカウントする際に、一律に1を加えるのではなく、0.0〜1.0の優先度を加算してもよい。これにより、優先度が高いデータの正解・不正解が合否判定における重要さを増すように計算される。
(13)図9のステップS4220において、データ修正部1260は、追加学習データ群1202の全てのレコードを基礎学習データ群1201に追加したが、倍率が所定の値より小さいレコードは基礎学習データ群1201に追加しなくてもよい。たとえば、倍率が0.2未満のレコードは基礎学習データ群1201に追加することなく、追加学習データ群1202から削除してもよい。
(15)ルールテーブル1132は、学習データのうち統計手法では正しく意図推定できないものが自動的に格納されるという前提で説明した。しかし、ルールテーブル1132のデータには、自動的に格納されるもののほかに、人が追加したデータがあってもよい。また、学習データから選定されたデータを運用者が見て、文字列や正解意図表現を編集したうえで、ルールテーブル1132に追加する方式をとってもよい。
(17)上述した実施の形態では、ステップS4005の動作を、読み込んだ正解フラグが「不正解」である場合のみ、ステップS4006に進むとした。しかし、実際には「正解」であったデータも、正しく意図推定される状態が継続することが望ましく、そのことを検証するには、「正解」であったデータも追加学習データに入れる必要がある。そのため、S4005の分岐の条件を、「正解」「不正解」のいずれかであったときにS4006に遷移するように変更してもよい。
上述した実施の形態では、オペレータが管理端末500から正解判定部1280を操作して、ユーザログ1180に正解フラグを付与していたが、正解判定部1280はオペレータの操作なく正解フラグを付与してもよい。
意図推定部1120が統計モデル1131の出力した推定意図表現を車載器200に送信すると、車載器200は受信した推定意図表現に従って動作する。このとき、車載器200のユーザは自らの意図と異なる動作が行われると、ユーザはたとえば次のA〜Dのような行動を行うと考えられる。
(B)受信した推定意図表現によって機能が実行された直後に、操作入力部1030から本来意図していた機能を実行する。
(C)ユーザがもう一度同じ発話を行い音声入力部1020に入力する。
(D)ユーザが、同じ意図を実行させるために、異なる言い回しによる発話を行い音声入力部1020に入力する。
たとえば、異なる言い回しの検出には、複数回のユーザ発話から、単語列の一致数、多次元ベクトルに変換したときの空間上の距離、などの値を測定することにより、検出することができる。
(1)中継サーバ1000は、ユーザの発声行動および入力操作行動に基づく入力をそれぞれ検出する音声入力部1020および操作入力部1030を備える車載器200との間で情報の送受信を行う通信部1110と、統計モデル1131に基づいて入力されたテキストに対する意図推定結果を出力する意図推定部1120と、意図推定部1120による意図推定結果の正誤を判断する正解判定部1280とを備える。通信部1110は、意図推定部1120から出力された意図推定結果を車載器200に送信すると共に、意図推定結果を受信してから所定時間以内に音声入力部1020および操作入力部1030により検出された入力に基づく入力情報を車載器200から受信する。正解判定部1280は、通信部1110により受信された入力情報に基づいて、意図推定部1120による意図推定結果の正誤を判断する。
そのため、正解判定部1280がユーザログに正解フラグを付与するので、オペレータの負荷を軽減することができる。
音声認識の意図推定結果が正しかった場合、および誤りであった場合のユーザ操作ログを事前に用意する。ユーザおよび機器の状態が確率的に遷移するマルコフモデルを想定し、各状態において各ユーザ行為が行われる確率、および状態間を遷移する確率をモデル化しておく。このマルコフモデルを、意図推定結果が正しかった場合と、誤りであった場合のそれぞれで、ユーザ操作ログから学習しておく。実際にユーザが行った行為順序が、どちらのマルコフモデルから生成される確率が高いかを評価する。確率が高かったモデルが、正しかった場合のモデル/誤りであった場合のモデル、のいずれであるかにより、正解フラグを正解/不正解としてもよい。
図13〜16を参照して、本発明による意図推定システムの第2の実施の形態を説明する。以下の説明では、第1の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第1の実施の形態と同じである。本実施の形態では、主に、優先度の決定方法が第1の実施の形態と異なる。
第2の実施の形態における、車載器200と、音声認識サーバ300と、施設検索サーバ400と、管理端末500の構成、および動作は、第1の実施の形態と同様である。中継サーバ1000の構成は、第1の実施の形態における構成に加えて、発話回数ポイントデータ3000、機器/ユーザデータ3100、およびポイント表を備える点が異なり、データ修正部1260の動作が異なる。データ修正部1260が、発話回数ポイントデータ3000、機器/ユーザデータ3100、およびポイント表を更新する。データ修正部1260が、発話回数ポイントデータ3000、機器/ユーザデータ3100、およびポイント表を用いて優先度を決定する。
中継サーバ1000の通信部1110が音声認識サーバ300からテキストを受信すると、通信部1110がそのテキストを意図推定部1120とデータ修正部1260に伝達する。データ修正部1260は、伝達されたテキストと、テキストが伝達される直前に伝達された機器IDおよびユーザIDとを対応させて扱う。データ修正部1260は、伝達されたテキストに一致するテキストを発話回数データ3000から検索し、一致するレコードの発話回数を1増加させる。データ修正部1260は、機器/ユーザデータ3100を参照し、その伝達されたテキストに対応する機器IDを有するレコードの、利用頻度、最終利用日、初回利用日、および重点フラグを所定の算出式に代入してポイントを算出する。データ修正部1260は、算出したポイントを発話回数データ3000の、伝達されたテキストを含むレコードのポイントに追加する。
P=A÷10+1÷B+C÷work+D・・・・・・(式1)
ただし、Dは、重点フラグを有する場合は所定の値、たとえば5を設定し、重点フラグを有さない場合は0を設定する。
図16のフローチャートに示すプログラムは、第1の実施の形態における図10に示すサブルーチンに代わって、第2の実施の形態においてデータ修正部1260が実行する処理手順を示すものである。
ステップS5001において、データ修正部1260は、発話回数データ3000を読込み、ステップS5002に進む。
ステップS5003において、データ修正部1260は、既知である発話回数データ3000の総レコード数を勘案し、並べ替えた10%ごとの境界となるポイントを算出する。たとえば、最上位の10%のグループと次の10%の境界となるポイントである。次にステップS5004に進む。
ステップS5005において、データ修正部1260は、ユーザログ1180を読込み、その総レコード数をnとして保存する。この総レコード数nは、後のステップS5012において利用される。次にステップS5006に進む。
ステップS5007において、データ修正部1260は、ユーザログ1180のi番目のレコードの一部、すなわち、テキスト、および正解フラグを読み込む。次にステップS5008に進む。
ステップS5008において、データ修正部1260は、読込んだ正解フラグが「不正解」か否かを判断する。「不正解」であると判断する場合はステップS5009に進み、「正解」、または「ルール」であると判断する場合はステップS5011に進む。
ステップS5010において、データ修正部1260は、ポイント表3200を参照し、ステップS5009において読取ったポイントが該当する優先度を読み取る。たとえば、ポイント表3200が図15に示す例の場合に、読取ったポイントが「23456」の場合には、21000よりも大きいことから優先度は「1.0」であると読取る。次に、ステップS5011に進む。
ステップS5012において、データ修正部1260は、変数iがユーザログ1180の総レコード数であるnと同一か否かを判断する。変数iがnと同一であると判断する場合は図16に示すフローチャートを終了し、図9のステップS4030に進む。変数iがnと同一でない、すなわち変数iがn未満であると判断する場合はステップS5013に進む。
ステップS5013において、データ修正部1260は、変数iに1を加えてステップS5007に戻る。
(1)学習データ群1200に含まれるテキストは、音声入力部1020を備える車載器200から送信される音声信号に基づいて音声認識サーバ300において作成される。中継サーバ1000は、通信部1110により受信されたユーザからの入力情報に基づいて音声認識サーバ300により作成されたテキストの頻度に基づいて、学習データ群1200の優先度を設定する優先度設定部、すなわちデータ修正部1260を備える。
そのため、中継サーバ1000が受信する頻度が高いテキストほど高い優先度が付され、正しく意図推定が行われるようにデータ修正部1260が倍率を変更するので、受信する頻度が高いテキストほど正しく意図推定が行われるようになる。すなわち、ユーザが高い頻度で発話する言葉が正しく意図推定が行われるため、ユーザの利便性が向上する。
(B)車載器200が前記情報を送信する頻度、すなわち機器/ユーザデータ3100の利用頻度
(C)車載器200が直前に前記情報を送信してからの経過時間、すなわち機器/ユーザデータ3100の最終利用日から算出される経過日数
(D)車載器200が最初に前記情報を送信してからの経過時間、すなわち機器/ユーザデータ3100の初回利用日から算出される経過日数
Aに示すように重点フラグを用いる場合は、当該システムにおいて重要であるとオペレータが判断し、重点フラグを付与した車載器200に入力された発話音声が、正しく意図推定されやすくなる。すなわち、利用頻度や利用期間などを問わず、オペレータの操作により任意の車載器200を優先することができる。
Bに示すように利用頻度を用いる場合は、利用頻度が高い熱心なユーザの発話を優先することができる。
Dに示すように初回利用日からの経過時間を用いる場合は、利用期間の長いユーザの発話を優先することができる。
以上説明した実施の形態を以下のように変形して実施することができる。
(1)機器/ユーザデータ3100の重点フラグは、車載器200に対してではなく、車載器200を使用するユーザに対して付与してもよい。すなわち、ユーザIDがあらかじめ設定されたユーザIDと一致するか否かにより重点フラグを設定してもよい。
なお、ユーザIDを車載器200が送信しない場合であっても、車載器200にユーザのニックネームを入力してもらいそれをIDの代わりとして送信する方法や、車載器200に接続して使用するスマートフォンのユーザ情報を利用する方法や、ユーザの声を車載器または中継サーバにあらかじめ保存しておき、ユーザが音声認識にて発話した音声からユーザを推定する方法などを取ることができる。
(3)第2の実施の形態では、利用頻度が高いほど、直前の利用からの経過日数が短いほど、初回利用日からの経過日数が長いほど、優先度を高く設定した。しかし、利用頻度が低いほど、直前の利用からの経過日数が長いほど、初回利用日からの経過日数が短いほど、優先度を高く設定してもよい。これらの場合は、あまり利用していないユーザや使い始めたばかりのユーザに、サービスを継続的に使用する意欲を増すことができる。
または、利用頻度の高低とポイントの大小の関係は、ユーザIDごとに変えてもよい。
上記では、種々の実施の形態および変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。
400 … 施設検索サーバ 500 … 管理端末
1000 … 中継サーバ 1020 … 音声入力部
1070 … 制御部 1080 … 通信部
1110 … 通信部 1120 … 意図推定部
1130 … 意図推定モデル 1131 … 統計モデル
1132 … ルールテーブル 1140 … 検索部
1180 … ユーザログ 1200 … 学習データ群
1201 … 基礎学習データ群 1202 … 追加学習データ群
1210 … 評価データ 1220 … 学習部
1230 … 評価部 1240 … 評価用統計モデル
1260 … データ修正部 1270 … 優先度基礎情報
1271 … トピック意図重要度 1272 … スロット意図重要度
1280 … 正解判定部
Claims (12)
- ユーザの発話を音声認識して得られるテキストおよび正解意図を関連付けて構成される学習データを複数含む第1の学習データ群と、
前記第1の学習データ群に含まれる複数の前記学習データおよび前記第1の学習データ群に含まれない複数の前記学習データを含む第2の学習データ群と、
前記学習データを用いて、前記テキストが入力されると当該テキストの意図を推定して意図推定結果を出力するための統計モデルを作成するモデル作成部と、
前記モデル作成部により前記第1の学習データ群を用いて作成された第1の統計モデルと、
前記モデル作成部により前記第2の学習データ群を用いて作成された第2の統計モデルと、
前記第1の統計モデルに基づいて出力される意図推定結果が正しく、かつ前記第2の統計モデルに基づいて出力される意図推定結果が誤りである前記第2の学習データ群に含まれるテキストを含む学習データを、誤りデータとして前記第2の学習データ群から抽出し、
前記第2の統計モデルに基づく前記誤りデータの意図推定結果が誤りとなる原因の学習データを、対立データとして前記第2の学習データ群から抽出し、
前記モデル作成部による前記統計モデルの作成における前記誤りデータまたは前記対立データの影響を変化させるように前記第2の学習データ群の修正を行うデータ修正部を備え、
前記データ修正部は、オペレータによる判断、または前記ユーザの行動に基づく入力を利用する正解判定部により前記意図推定結果が誤りであるか否かを判断し、
前記誤りデータと同一または類似するテキストおよび、前記誤りデータに関連付けられた正解意図とは異なる正解意図とを有する学習データを、前記対立データとして抽出し、
前記学習データは、当該テキストの意図推定における重要性の指標を示す優先度をさらに含み、
前記データ修正部は、前記誤りデータの優先度と前記対立データの優先度を比較し、その比較結果に基づいて、前記第2の学習データ群の修正を行い、
前記誤りデータの優先度が前記対立データの優先度よりも大きい場合には、前記データ修正部は、前記統計モデルの作成における前記誤りデータの影響を大きくするか、または前記対立データの影響を小さくするように、前記第2の学習データ群の修正を行い、
前記誤りデータの優先度が前記対立データの優先度よりも小さい場合には、前記データ修正部は、前記統計モデルの作成における前記誤りデータの影響を小さくするか、または前記対立データの影響を大きくするように、前記第2の学習データ群の修正を行う意図推定装置。 - 請求項1に記載の意図推定装置において、
前記学習データは、前記モデル作成部による前記統計モデルの作成における当該テキストの重みを表す倍率をさらに含み、
前記データ修正部は、前記誤りデータまたは前記対立データの前記倍率を増減させることにより、前記第2の学習データ群の修正を行う意図推定装置。 - 請求項1に記載の意図推定装置において、
任意のテキストを前記第2の統計モデルに入力して得られた意図推定結果に基づいて、前記第2の統計モデルが所定の基準を満たすか否かを判断するモデル評価部をさらに備え、
前記データ修正部は、前記第2の統計モデルが前記所定の基準を満たさないと前記モデル評価部が判断した場合に、前記第2の学習データ群を修正し、
前記モデル作成部は、前記データ修正部により修正された前記第2の学習データ群を用いて、第2の統計モデルを再度作成する意図推定装置。 - 請求項1に記載の意図推定装置において、
前記第2の学習データ群は、入力部を備える端末から送信される情報であってオペレータによる判断を含む情報に基づいて作成された学習データ、および前記第1の学習データ群から構成される、意図推定装置。 - 請求項2に記載の意図推定装置において、
テキストおよび当該テキストの正解意図が関連付けられて保存されるルールテーブルと、
前記第1の統計モデルおよび前記ルールテーブルに基づいて、入力されたテキストに対する意図推定結果を出力する意図推定部とをさらに備え、
前記データ修正部は、前記第2の学習データ群に含まれる学習データのうち前記倍率が所定の範囲外にある学習データを前記ルールテーブルに移動し、
前記意図推定部は、前記入力されたテキストが前記ルールテーブルに含まれる場合は、前記第1の統計モデルを用いずに、前記ルールテーブルに基づいて前記意図推定結果を出力する意図推定装置。 - 請求項4に記載の意図推定装置において、
前記ユーザの行動に基づく入力を検出する入力部を備えた端末との間で情報の送受信を行う通信部と、
前記第1の統計モデルに基づいて、入力されたテキストに対する意図推定結果を出力する意図推定部と、
前記意図推定部による意図推定結果の正誤を判断する正解判定部と、をさらに備え、
前記データ修正部は、オペレータによる判断、または前記ユーザの行動に基づく入力を利用する正解判定部により前記意図推定結果が誤りであるか否かを判断し、
前記通信部は、前記意図推定部から出力された意図推定結果を前記端末に送信すると共に、前記意図推定結果を受信してから所定時間以内に前記入力部により検出された入力に基づく入力情報を前記端末から受信し、
前記正解判定部は、前記通信部により受信された前記入力情報に基づいて、前記意図推定部による意図推定結果の正誤を判断する意図推定装置。 - 請求項1または請求項2に記載の意図推定装置において、
前記ユーザの行動に基づく入力を利用して意図推定結果が正しいか否かを判断する正解判定部と、
前記第1の統計モデルに基づいて出力される意図推定結果が誤りであり、かつ前記第2の統計モデルに基づいて出力される意図推定結果が正しいテキストをオペレータによる判断および前記正解判定部のいずれかを用いて抽出し、抽出したテキストを通知する通知部をさらに備える意図推定装置。 - 請求項1に記載の意図推定装置において、
正解意図、誤った意図推定結果、および当該誤った意図推定結果を出力することにより前記ユーザの受ける不利益の大きさである不利益度の関係を示す意図重要度表に関する情報を含む優先度基礎情報と、
前記意図重要度表を参照し、前記優先度が前記不利益度よりも小さい場合は前記優先度を前記不利益度に書き換え、前記優先度が前記不利益度と同等以下の場合は前記優先度を変更しない優先度設定部とをさらに備える意図推定装置。 - 請求項8に記載の意図推定装置において、
意図推定結果は、機能についての推定結果である機能推定結果と前記機能を実行する際に決定する必要のある変数についての推定結果である変数推定結果とから構成され、
前記意図重要度表は、機能推定結果の誤りに対応する第1の意図重要度表と、変数推定結果の誤りに対応する第2の意図重要度表とから構成され、
前記優先度設定部は、機能推定結果に誤りがある場合に前記第1の意図重要度表を参照し、変数推定結果に誤りがある場合に前記第2の意図重要度表を参照し、前記不利益度の大きさに基づいて前記優先度を設定する、意図推定装置。 - 請求項1に記載の意図推定装置において、
前記ユーザの行動に基づく入力を検出する入力部を備えた端末との間で情報の送受信を行い、前記入力部により検出された入力に基づく入力情報を前記端末から受信する通信部と、
前記通信部により受信された前記ユーザの発話である入力情報に基づいて作成されたテキストの頻度に基づいて前記優先度を設定する優先度設定部と、をさらに備える意図推定装置。 - 請求項1から請求項5まで、および請求項7から請求項9までのいずれか1項に記載の意図推定装置、および前記意図推定装置とネットワークを介して接続される端末から構成される意図推定システムであって、
前記端末は、
前記ユーザの入力を受け付ける入力部と、
前記入力部に入力された前記ユーザの入力を前記意図推定装置に送信する送信部と、
前記意図推定装置が前記ユーザの入力を意図推定した結果を受信し、当該意図推定した結果にしたがい動作する実行部とを備える、意図推定システム。 - 請求項6または請求項10に記載の意図推定装置、および前記意図推定装置とネットワークを介して接続される端末から構成される意図推定システムであって、
前記端末は、
前記入力部と、
前記入力部に入力された前記ユーザの入力を前記意図推定装置に送信する送信部と、
前記意図推定装置が前記ユーザの入力を意図推定した結果を受信し、当該意図推定した結果にしたがい動作する実行部とを備える、意図推定システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014262090A JP6514503B2 (ja) | 2014-12-25 | 2014-12-25 | 意図推定装置、および意図推定システム |
US14/969,109 US9569427B2 (en) | 2014-12-25 | 2015-12-15 | Intention estimation equipment and intention estimation system |
EP15200815.7A EP3037982A3 (en) | 2014-12-25 | 2015-12-17 | Intention estimation equipment and intention estimation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014262090A JP6514503B2 (ja) | 2014-12-25 | 2014-12-25 | 意図推定装置、および意図推定システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016122336A JP2016122336A (ja) | 2016-07-07 |
JP6514503B2 true JP6514503B2 (ja) | 2019-05-15 |
Family
ID=55024834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014262090A Active JP6514503B2 (ja) | 2014-12-25 | 2014-12-25 | 意図推定装置、および意図推定システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9569427B2 (ja) |
EP (1) | EP3037982A3 (ja) |
JP (1) | JP6514503B2 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6459684B2 (ja) * | 2015-03-23 | 2019-01-30 | カシオ計算機株式会社 | 情報出力装置、情報出力方法及びプログラム |
JP6781961B2 (ja) * | 2016-09-29 | 2020-11-11 | 株式会社村田製作所 | 送信装置、送信方法及び送信プログラム |
WO2018080532A1 (en) | 2016-10-31 | 2018-05-03 | Rovi Guides, Inc. | Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset |
WO2018174884A1 (en) | 2017-03-23 | 2018-09-27 | Rovi Guides, Inc. | Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset |
EP3631794A1 (en) * | 2017-05-24 | 2020-04-08 | Rovi Guides, Inc. | Methods and systems for correcting, based on speech, input generated using automatic speech recognition |
CN107357849B (zh) * | 2017-06-27 | 2020-11-03 | 北京百度网讯科技有限公司 | 基于测试类应用的交互方法和装置 |
JP2019057123A (ja) * | 2017-09-21 | 2019-04-11 | 株式会社東芝 | 対話システム、方法、及びプログラム |
JPWO2019087811A1 (ja) * | 2017-11-02 | 2020-09-24 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
CN108022586B (zh) * | 2017-11-30 | 2019-10-18 | 百度在线网络技术(北京)有限公司 | 用于控制页面的方法和装置 |
US20210012158A1 (en) * | 2018-02-16 | 2021-01-14 | Nippon Telegraph And Telephone Corporation | Learning apparatus, identification apparatus, methods thereof, and program |
KR101937088B1 (ko) * | 2018-03-14 | 2019-01-09 | 목포해양대학교 산학협력단 | 코드화된 표준해사영어를 이용한 해상 무선 통신 방법 |
JP2021113835A (ja) * | 2018-04-19 | 2021-08-05 | ソニーグループ株式会社 | 音声処理装置および音声処理方法 |
CN110895705B (zh) * | 2018-09-13 | 2024-05-14 | 富士通株式会社 | 异常样本检测装置及其训练装置和训练方法 |
US12079579B2 (en) | 2018-09-19 | 2024-09-03 | Huawei Technologies Co., Ltd. | Intention identification model learning method, apparatus, and device |
JP6622369B1 (ja) * | 2018-09-28 | 2019-12-18 | 三菱電機インフォメーションシステムズ株式会社 | 訓練データを生成する方法、コンピュータおよびプログラム |
US11182557B2 (en) * | 2018-11-05 | 2021-11-23 | International Business Machines Corporation | Driving intent expansion via anomaly detection in a modular conversational system |
US10977443B2 (en) | 2018-11-05 | 2021-04-13 | International Business Machines Corporation | Class balancing for intent authoring using search |
CN109508376A (zh) * | 2018-11-23 | 2019-03-22 | 四川长虹电器股份有限公司 | 可在线纠错更新的意图识别方法及装置 |
CN111292752B (zh) * | 2018-12-06 | 2023-05-12 | 北京嘀嘀无限科技发展有限公司 | 一种用户意图识别方法、装置、电子设备及存储介质 |
JP7305956B2 (ja) | 2018-12-28 | 2023-07-11 | 株式会社富士通ゼネラル | アダプタ |
US20200242511A1 (en) * | 2019-01-30 | 2020-07-30 | Oracle International Corporation | Dynamic Data Selection for a Machine Learning Model |
JP2020135689A (ja) * | 2019-02-25 | 2020-08-31 | 株式会社コトバデザイン | モデル学習システム、意図解釈システム、モデル学習方法およびモデル学習用プログラム |
CN111797615B (zh) * | 2019-04-04 | 2024-07-26 | 北京国双科技有限公司 | 法律文书纠错结果的优化方法及装置 |
US11069346B2 (en) * | 2019-04-22 | 2021-07-20 | International Business Machines Corporation | Intent recognition model creation from randomized intent vector proximities |
CN110334344B (zh) * | 2019-06-13 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 一种语义意图识别方法、装置、设备及存储介质 |
JP7234071B2 (ja) * | 2019-08-02 | 2023-03-07 | 東北電力株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN113327572B (zh) * | 2021-06-02 | 2024-02-09 | 清华大学深圳国际研究生院 | 基于情感类别标签的可控情感语音合成方法及系统 |
CN113903342B (zh) * | 2021-10-29 | 2022-09-13 | 镁佳(北京)科技有限公司 | 一种语音识别纠错方法及装置 |
WO2023107441A1 (en) * | 2021-12-06 | 2023-06-15 | Gatik Ai Inc. | Method and system for operating an autonomous agent with a remote operator |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6324512B1 (en) * | 1999-08-26 | 2001-11-27 | Matsushita Electric Industrial Co., Ltd. | System and method for allowing family members to access TV contents and program media recorder over telephone or internet |
US8726148B1 (en) * | 1999-09-28 | 2014-05-13 | Cloanto Corporation | Method and apparatus for processing text and character data |
US7308404B2 (en) | 2001-09-28 | 2007-12-11 | Sri International | Method and apparatus for speech recognition using a dynamic vocabulary |
US7295981B1 (en) | 2004-01-09 | 2007-11-13 | At&T Corp. | Method for building a natural language understanding model for a spoken dialog system |
JP2010224194A (ja) * | 2009-03-23 | 2010-10-07 | Sony Corp | 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム |
KR20110036385A (ko) * | 2009-10-01 | 2011-04-07 | 삼성전자주식회사 | 사용자 의도 분석 장치 및 방법 |
JP2012047924A (ja) * | 2010-08-26 | 2012-03-08 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP5957269B2 (ja) * | 2012-04-09 | 2016-07-27 | クラリオン株式会社 | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
US9530405B2 (en) * | 2012-11-30 | 2016-12-27 | Mitsubishi Electric Corporation | Intention estimating device and intention estimating method |
-
2014
- 2014-12-25 JP JP2014262090A patent/JP6514503B2/ja active Active
-
2015
- 2015-12-15 US US14/969,109 patent/US9569427B2/en active Active
- 2015-12-17 EP EP15200815.7A patent/EP3037982A3/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP3037982A2 (en) | 2016-06-29 |
EP3037982A3 (en) | 2016-07-20 |
JP2016122336A (ja) | 2016-07-07 |
US9569427B2 (en) | 2017-02-14 |
US20160188574A1 (en) | 2016-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6514503B2 (ja) | 意図推定装置、および意図推定システム | |
US9020819B2 (en) | Recognition dictionary system and recognition dictionary system updating method | |
US11256868B2 (en) | Architecture for resolving ambiguous user utterance | |
US11615785B2 (en) | Speech recognition using natural language understanding related knowledge via deep feedforward neural networks | |
JP6869339B2 (ja) | 音声認識のためのシステム及び方法 | |
CN105448292B (zh) | 一种基于场景的实时语音识别系统和方法 | |
CN102549652B (zh) | 信息检索装置 | |
JP5089955B2 (ja) | 音声対話装置 | |
US9785630B2 (en) | Text prediction using combined word N-gram and unigram language models | |
JP5526396B2 (ja) | 情報検索装置、情報検索システム及び情報検索方法 | |
US9190054B1 (en) | Natural language refinement of voice and text entry | |
JP5315289B2 (ja) | オペレーティングシステム及びオペレーティング方法 | |
US10037758B2 (en) | Device and method for understanding user intent | |
US10043520B2 (en) | Multilevel speech recognition for candidate application group using first and second speech commands | |
CN110232129B (zh) | 场景纠错方法、装置、设备和存储介质 | |
CN101567189A (zh) | 声音识别结果修正装置、方法以及系统 | |
US20180033426A1 (en) | Acoustic model training using corrected terms | |
JP2015219583A (ja) | 話題決定装置、発話装置、方法、及びプログラム | |
JP7185540B2 (ja) | 対話装置及び対話方法 | |
CN115545013A (zh) | 用于对话场景的音似纠错方法及装置 | |
JP4755478B2 (ja) | 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体 | |
CN110223674A (zh) | 语音语料训练方法、装置、计算机设备和存储介质 | |
CN107170447B (zh) | 声音处理系统以及声音处理方法 | |
JP6477648B2 (ja) | キーワード生成装置およびキーワード生成方法 | |
JP2017059014A (ja) | 解析装置およびデータ検索装置,ならびにこれらの制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20170315 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170404 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20170921 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180320 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180521 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190131 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20190208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6514503 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |