JP7229847B2 - 対話装置、対話方法、及び対話コンピュータプログラム - Google Patents
対話装置、対話方法、及び対話コンピュータプログラム Download PDFInfo
- Publication number
- JP7229847B2 JP7229847B2 JP2019090423A JP2019090423A JP7229847B2 JP 7229847 B2 JP7229847 B2 JP 7229847B2 JP 2019090423 A JP2019090423 A JP 2019090423A JP 2019090423 A JP2019090423 A JP 2019090423A JP 7229847 B2 JP7229847 B2 JP 7229847B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- user
- feature model
- speech
- end point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000004590 computer program Methods 0.000 title claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 41
- 230000004044 response Effects 0.000 claims description 41
- 230000003993 interaction Effects 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 16
- 238000012549 training Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004904 shortening Methods 0.000 description 3
- 230000009118 appropriate response Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 102100034761 Cilia- and flagella-associated protein 418 Human genes 0.000 description 1
- 101100439214 Homo sapiens CFAP418 gene Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000009844 basic oxygen steelmaking Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008867 communication pathway Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Description
しかしながら、上記の特許文献のいずれにも、ユーザの次の発話について予測されている発話の長短属性(発話が長いか短いかを示す情報)に基づいて、適切な応答(機械発話)を生成するための機械学習モデルを選択することが考慮されていない。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
(ハードウェア構成)
このような待ち時間が生じると、ユーザは自分が発した音声が対話システムに正常に受付けられたのか否か分からず、不安を感じたり、再度音声を発話したりすることがある。
そのため、ユーザと対話システムとの間で自然な会話を実現させるためには、対話システムにおけるユーザの待ち時間を短縮することが望ましい。
また、BOPモデルとは、対話システムが「話を聞いている」又は「話を続けて」などといった意思を人間に対して明確にする相槌を打つべきかどうかを判定するモデルである。以下では、EOTを「発話終了」と呼び、BOPを「相槌機会」と呼ぶこともある。
なお、BOTもEOTも、いずれも対話装置から見れば、ユーザの発話の一次的な終了点であるため、これらを総称して、「終了時点」ということがある。
一例として、対話装置250は、例えば、銀行に設置される端末であって、口座の開設や送金等を行うように構成されているものであってもよく、空港で乗客のチェックインや案内を行うように構成されているものであってもよい。
あるいは、対話装置がロボットに接続されており、ロボットを制御するような構成である場合、この機械発話は、ロボットの顔が頷くような動作であってもよい。また、対話装置がディスプレイなどの表示装置と接続されており、ディスプレイ上にキャラクタを表示するような形態の場合、この機械発話は、ディスプレイ上のキャラクタのアニメーションを生成することを含んでもよい。応答生成部260が応答を生成する処理の詳細については後述する。
以下、対話方法400のステップの詳細について説明する。
なお、この第1の機械発話は、複数の発話行為のうち、少なくとも一つに該当するものである。一般には、発話行為とは、(ユーザ又は対話装置の)発話の意図を示したものであり、当該発話の内容から発話の意図、目的の種類を定義するものである。以下の表1では、機械発話及び当該機械発話に対応する発話行為の例を示す。後述するように、第1の機械発話がどの発話行為に対応するかは、応答生成部が管理している情報であり、この発話行為は、後述するステップS420の際に用いられる。
上述したように、本発明において、発話長短属性とは、ユーザの発話(つまり、ユーザの次の発話である第2のユーザ発話)の長さ(時間での長さや単語数での長さ)を示す情報である。
以下では、説明の便宜上、所定の時間基準(例えば5秒)又は所定の単語数基準(例えば5ワード)を満たす発話のことを「長い」に属する発話とし、所定の時間基準又は所定の単語数基準を満たさない発話のことを「短い」に属する発話として説明する。しかし、これらの「長い」、「短い」の基準値は、あくまでも説明のための便宜的な基準値であり、何ら本発明を限定するものではない。
後述するように、ステップS420で予測した発話の長短属性を用いることで、ユーザの発話における終了時点を計算するための適切なモデルを選択することができる。
以下の表2では、第1機械発話の発話行為と、第2のユーザ発話の長短属性の対応関係を示す。
なお、表2に示す対応関係はあくまでも一例であり、どの発話行為がどの発話の長短属性に該当するかは、対話の場面に応じて適宜に変更されてもよい。
上述したように、字句特徴モデルを用いた終了判定は、音声特徴モデルを用いた終了判定よりも、精度が高く、ユーザの発話における終了時点(BOP及びEOT)を正しく計算できる確率が高いものの、処理時間が長い。一方、音声特徴モデルを用いた終了判定は、字句特徴モデル程精度が字句特徴モデル程高くないが、処理時間が短い。これらの特徴は以下の表3で記載されている。
具体的には、音声特徴モデルは、第2のユーザ発話がユーザから発される際に、当該発話のメル周波数ケプストラム係数や音高等の音声特徴を分析し、第2のユーザ発話における終了時点が相槌機会(BOP)である確率と、当該終了時点が発話終了(EOT)である確率を計算し、この計算の結果を示すメタデータであるタイミングラベルを生成してもよい。
このように、第2のユーザ発話が短いと予測される場合には、音声特徴モデルが良好な精度で終了時点を推定することができるため、EOT及びBOPの確率を高精度で迅速に計算することができる。
そこで、本発明では、字句特徴モデルの長い処理時間に対処するために、ユーザの発話の途中で、現時点から、何ワード後に現在の発話が終了するかを予測するための、「後続単語数予測モデル」を用いることとする。この後続単語数予測モデルを用いることにより、発話が何ワード後に終了するかを事前に予測し、対話装置の応答を生成する処理を早期に開始することで、対話装置の応答が生成されるまでの遅延を短縮することができる。
この後続単語数予測モデルは、ユーザの発話速度(平均として1秒に何ワード発しているか)及び対話装置の応答を生成するために要する時間(つまり、遅延時間)に基づいて、複数のサブモデルの中から選択される。それぞれのサブモデルは、ユーザ発話における終了時点を所定のワード数前に推定するように訓練された機械学習モデルである。例えば、この後続単語数予測モデルは、ユーザ発話における終了時点が5ワード後であることを推定するように訓練された5ワードサブモデルや、ユーザ発話における終了時点が3ワード後であることを推定するように訓練された5ワードサブモデル等、任意のワード数毎にサブモデルを有してもよい。
具体的には、選択部は、発話速度と遅延時間をかけることで、乗算の結果であるワード数に一致するサブモデルを選択することができる。例えば、遅延時間が1秒であり、ユーザが平均として1秒に3ワードを発する場合みは、選択部は、3ワードのサブモデルを選択してもよい。これにより、ユーザの発話の終了時点を3ワード前に予測することとなるため、この時点(つまり、発話が終了する1秒前)に対話装置の応答を生成する処理を開始することで、ユーザの発話が終了した直後に対話装置の応答を出力することができる。
また、音響特徴モデル及び字句特徴モデルの両方が使用された場合には、両方の確率に対して、各特徴に対する重み付けを行った後、両値を加算した値を使用することができる。また、例えばBOPの確率がEOTの確率より高い場合には、推定部は、「はい」や「なるほど」等の相槌を打つ発話を生成してもよく、EOTの確率がBOPの確率より高い場合には、推定部は、自然言語処理の手段を用いて、ユーザの発話の内容に応じた発話を生成してもよい。その後、推定部は、第2の機械発話を出力する。
例えば、ここでは、対話装置510が発した発話がオープン型質問の発話行為に該当するため、ユーザの次の発話514が「知らせる」との発話行為に対応する可能性が高く、発話の長短属性が長いと予測し、長い発話における終了時点の判定に適した字句特徴モデルを選択してもよい。その後、対話装置510は、選択した字句特徴モデルを用いて、図4を参照して説明した処理に従って、ユーザの発話514における終了時点を判定し、次の機械発話516を生成してもよい。
従って、ここでは、平均情報量が低いと、出現する可能性のある発話行為の数が少なく、どの発話行為が出現するかが特定しやすい。一方、平均情報量が高いと、出現する可能性のある発話行為の数が多く、どの発話行為が出現するかが特定しにくい。この場合には、字句特徴の重み付けをより高く設定したり、予測される候補の発話行為の発話長短属性の種類(長いか短いか)の出現率を考慮したり、平均情報量を用いて、字句特徴モデルをドメイン毎に訓練したりすることで、ユーザの次の発話の発話行為を予測してもよい。
以下では、音声特徴モデル及び字句特徴モデルの重み付けを発話の長短属性及び信頼値の両方に基づいて計算する場合について説明する。
なお、以上では、音声特徴モデル及び字句特徴モデルの信頼値を信号雑音比に基づいて計算する場合について説明したが、本発明はそれに限定されず、自動音声認識の精度等のパラメータに基づいて計算されてもよい。
なお、後続単語数予測の処理のフローを図7を参照して説明したため、ここではその説明を省略し、後続単語数予測モデルにおけるサブモデルを訓練する手段について説明する。
例えば、この後続単語数予測モデルは、ユーザ発話における終了時点が5ワード後であることを推定するように訓練された5ワードサブモデルや、ユーザ発話における終了時点が3ワード後であることを推定するように訓練された5ワードサブモデル等、任意のワード数n毎に訓練されたサブモデルを有してもよい。
また、図7に示すように、単語列700は、訓練プロセスを促進するために、710a及び710bの二つのシーケンスに分割されている。原則として、単語列は、各BOPで別のシーケンスに分割される。例えば、単語列がBOPを3つ含む場合には、3つのシーケンスに分割されてもよい。
また、図7に示す単語列700では、最後の単語にかならずEOT又はBOPのラベルが付与されているデータを示したが、それ以外にも、シーケンス内の単語のどれもEOT、BOPラベルが存在しないものを学習データに含んでもよい。このようなシーケンスを学習に用いる場合の損失は、以下の数式14で示される。
なお、図8では、n=1、n=2、n=3、及びn=4の4つのサブモデルを訓練した場合を例示しているが、本発明はそれに限定されず、任意の数のサブモデルを訓練してもよい。
例えば、対話の履歴は、いわゆる「信念状態」(belief state)のベクトルとして表現されてもよい。この信念状態のベクトルは、ある対話において、現在の時点に至るまでの情報(ユーザの要求、対話装置からの提案等)を縮約した状態で記録するベクトルである。
なお、図9に示すように、セル950は、ニューラルネットワークにおいて他のセルの隠れ状態(Hidden states)を受信し、自分の隠れ状態を他のセルに渡すように構成されてもよい。
なお、セル(RNNセル)950の出力は第2の発話機械に限らず、ユーザの状態を示す情報を含んでもよい。例えば、セル(RNNセル)950は、入力された情報を解析し、「ユーザが検討中」や「ユーザが同行人と相談中」等のユーザ状態を示す情報をベクトルとして出力してもよい。その後、上述した応答生成部は、このユーザ状態を示すベクトルに基づいて、適切な機械発話又は別の行動を決定してもよい。
その後、計算部1050は、入力した発話行為の情報に基づいてユーザの発話長短属性を推定し、推定した発話長短属性、字句特徴モデルの遅延時間、音声特徴モデルの信頼値、及び字句特徴モデルの信頼値に基づいて、字句特徴モデル及び音声特徴モデルの重み付けを計算してもよい。この重み付けの計算は、図6を参照して説明した処理と実質的に同様であるため、その説明は省略する。
プログラムコードを記録するための記憶媒体としては、例えばフレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性メモリカード、ROM等がある。
また、対話装置の出力は、音声に限定されず、テキストを画面に表示するなどの方法で質問や応答をユーザに提示しても良いことはいうまでもない。
250 対話装置
252 入力部
254 予測部
256 選択部
258 推定部
260 応答生成部
262 ストレージ部
264 音声特徴モデル
266 字句特徴モデル
Claims (10)
- 対話装置であって、
前記対話装置は、
ユーザ発話の発話長短属性を予測する予測部と、
前記発話長短属性を用いて、前記ユーザ発話の終了判定に用いる特徴モデルとして、音声特徴モデル及び字句特徴モデルの内の少なくとも一方を選択する選択部と、
前記選択部が選択した特徴モデルを用いて、前記ユーザ発話の終了時点を推定する推定部と、
を含む対話装置。 - 前記選択部は、
前記発話長短属性と、前記終了時点の推定が正解である確率を示す信頼値とに基づいて、
前記音声特徴モデル及び前記字句特徴モデルに対する重み付けを設定し、
前記音声特徴モデル又は前記字句特徴モデルのいずれかから、所定の重み付け基準を達成するモデルを選択する、
ことを特徴とする、請求項1に記載の対話装置。 - 前記字句特徴モデルは、
複数のサブモデルを備え、
前記複数のサブモデルは、前記ユーザ発話における終了時点を所定のワード数前に推定するように訓練された機械学習モデルであって、
前記選択部は、
前記字句特徴モデルを用いて前記ユーザ発話における終了時点を推定する場合には、
前記ユーザ発話における終了時点から、機械発話が出力される時点までの遅延時間を計算し、
以前のユーザ発話に基づいて、ユーザの発話速度を計算し、
前記遅延時間及び前記ユーザの発話速度に基づいて、前記複数のサブモデルの中から、前記遅延時間を、所定の時間以内に短縮できるサブモデルを選択する、
ことを特徴とする、請求項1に記載の対話装置。 - 前記字句特徴モデルは、ワード、音素、形態素のうちのいずれか1つを字句特徴として入力し、前記ユーザ発話における終了時点を推定する、
ことを特徴とする、請求項1に記載の対話装置。 - 前記音声特徴モデル及び前記字句特徴モデルはいずれも、
前記ユーザ発話における前記終了時点が相槌機会である相槌確率と、
前記ユーザ発話における前記終了時点が発話終了である確率と、
を計算することを特徴とする、請求項1に記載の対話装置。 - 前記対話装置は応答生成部を更に備え、
前記応答生成部は、
前記ユーザ発話における終了時点が相槌機会である確率が所定の相槌確率基準を達成する場合には、相槌応答を生成し、出力し、
前記ユーザ発話における終了時点が発話終了である確率が所定の終了確率基準を達成する場合には、
自然言語理解の手段を用いて、前記ユーザ発話の内容に応じた前記対話装置によって生成される応答(以下、「機械発話」という。)を生成する、
ことを特徴とする、請求項5に記載の対話装置。 - 前記予測部は、
前記機械発話の意図を示す機械発話行為を判定し、
前記機械発話行為に基づいて、前記ユーザ発話を予測し、
前記ユーザ発話の意図を示すユーザ発話行為を判定することで、
前記ユーザ発話の発話長短属性を予測する、
ことを特徴とする、請求項6に記載の対話装置。 - 前記音声特徴モデル及び字句特徴モデルは、再帰型ニューラルネットワークによって訓練可能である、
ことを特徴とする、請求項1に記載の対話装置。 - 対話方法であって、
前記対話方法は、
ユーザからの発話(以下、「第1のユーザ発話」という)を受信する工程と、
前記第1のユーザ発話に対する第1の機械発話を生成する工程と、
前記第1の機械発話に対する第2のユーザ発話の発話長短属性を予測する工程と、
前記発話長短属性と、前記第2のユーザ発話における終了時点の推定が正解である確率を示す信頼値とに基づいて、音声特徴モデル及び字句特徴モデルに対する重み付けを設定する工程と、
前記音声特徴モデルの重み付けが所定の重み付け基準を満たす場合には、
前記音声特徴モデルを用いて、前記第2のユーザ発話における終了時点を推定する工程と、
前記字句特徴モデルの重み付けが所定の重み付け基準について計算された確率が所定の確率基準を満たす場合には、
前記第2のユーザ発話における終了時点から、第2の機械発話が出力されるまでの遅延時間を計算する工程と、
以前のユーザ発話に基づいて、ユーザの発話速度を計算する工程と、
前記遅延時間及び前記ユーザの発話速度に基づいて、複数のサブモデルの中から、前記遅延時間を、所定の時間以上に短縮できるサブモデルを選択する工程と、
選択されたサブモデルを用いて、前記第2のユーザ発話における終了時点を推定する工程と、
を含む対話方法。 - 対話装置によって実行される対話コンピュータプログラムであって、
前記対話コンピュータプログラムは、
ユーザからの発話(以下、「第1のユーザ発話」という)を受信する工程と、
前記第1のユーザ発話に対する第1の機械発話を生成する工程と、
前記第1の機械発話に対する第2のユーザ発話の発話長短属性を予測する工程と、
前記発話長短属性と、前記第2のユーザ発話における終了時点の推定が正解である確率を示す信頼値とに基づいて、音声特徴モデル及び字句特徴モデルに対する重み付けを設定する工程と、
前記音声特徴モデルの重み付けが所定の重み付け基準を満たす場合には、
前記音声特徴モデルを用いて、前記第2のユーザ発話における終了時点を推定する工程と、
前記字句特徴モデルの重み付けが所定の重み付け基準について計算された確率が所定の確率基準を満たす場合には、
前記第2のユーザ発話における終了時点から、第2の機械発話が出力されるまでの遅延時間を計算する工程と、
以前のユーザ発話に基づいて、ユーザの発話速度を計算する工程と、
前記遅延時間及び前記ユーザの発話速度に基づいて、複数のサブモデルの中から、前記遅延時間を、所定の時間以上に短縮できるサブモデルを選択する工程と、
選択されたサブモデルを用いて、前記第2のユーザ発話における終了時点を推定する工程と、
をプロセッサに実行させることを特徴とする対話コンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019090423A JP7229847B2 (ja) | 2019-05-13 | 2019-05-13 | 対話装置、対話方法、及び対話コンピュータプログラム |
EP20164080.2A EP3739583B1 (en) | 2019-05-13 | 2020-03-19 | Dialog device, dialog method, and dialog computer program |
US16/824,634 US11605377B2 (en) | 2019-05-13 | 2020-03-19 | Dialog device, dialog method, and dialog computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019090423A JP7229847B2 (ja) | 2019-05-13 | 2019-05-13 | 対話装置、対話方法、及び対話コンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020187211A JP2020187211A (ja) | 2020-11-19 |
JP2020187211A5 JP2020187211A5 (ja) | 2022-02-25 |
JP7229847B2 true JP7229847B2 (ja) | 2023-02-28 |
Family
ID=69846252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019090423A Active JP7229847B2 (ja) | 2019-05-13 | 2019-05-13 | 対話装置、対話方法、及び対話コンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11605377B2 (ja) |
EP (1) | EP3739583B1 (ja) |
JP (1) | JP7229847B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7151606B2 (ja) * | 2019-04-17 | 2022-10-12 | 日本電信電話株式会社 | コマンド解析装置、コマンド解析方法、プログラム |
US11050885B1 (en) * | 2020-06-02 | 2021-06-29 | Bank Of America Corporation | Call interception heuristics |
US11587567B2 (en) | 2021-03-21 | 2023-02-21 | International Business Machines Corporation | User utterance generation for counterfactual analysis and improved conversation flow |
KR20230158615A (ko) * | 2021-08-17 | 2023-11-20 | 구글 엘엘씨 | 자동화된 어시스턴트를 위한 소프트 엔드포인팅을 사용한 자연스러운 대화 활성화 |
US12020703B2 (en) | 2021-08-17 | 2024-06-25 | Google Llc | Enabling natural conversations with soft endpointing for an automated assistant |
KR20230032086A (ko) * | 2021-08-30 | 2023-03-07 | 한국전자기술연구원 | 대화형 에이전트 시스템에서 back-channel 자동 생성 방법 및 시스템 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008069308A1 (ja) | 2006-12-08 | 2008-06-12 | Nec Corporation | 音声認識装置および音声認識方法 |
JP2018124484A (ja) | 2017-02-02 | 2018-08-09 | トヨタ自動車株式会社 | 音声認識装置 |
JP2018523156A (ja) | 2015-06-29 | 2018-08-16 | アマゾン テクノロジーズ インコーポレイテッド | 言語モデルスピーチエンドポインティング |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7177810B2 (en) * | 2001-04-10 | 2007-02-13 | Sri International | Method and apparatus for performing prosody-based endpointing of a speech signal |
US8214213B1 (en) * | 2006-04-27 | 2012-07-03 | At&T Intellectual Property Ii, L.P. | Speech recognition based on pronunciation modeling |
JP4798039B2 (ja) | 2007-03-26 | 2011-10-19 | 株式会社デンソー | 音声対話装置および方法 |
US7996214B2 (en) * | 2007-11-01 | 2011-08-09 | At&T Intellectual Property I, L.P. | System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework |
US9437186B1 (en) | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
JP5958475B2 (ja) | 2014-01-17 | 2016-08-02 | 株式会社デンソー | 音声認識端末装置、音声認識システム、音声認識方法 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US10319374B2 (en) * | 2015-11-25 | 2019-06-11 | Baidu USA, LLC | Deployed end-to-end speech recognition |
US10235994B2 (en) * | 2016-03-04 | 2019-03-19 | Microsoft Technology Licensing, Llc | Modular deep learning model |
US12020174B2 (en) * | 2016-08-16 | 2024-06-25 | Ebay Inc. | Selecting next user prompt types in an intelligent online personal assistant multi-turn dialog |
US10832658B2 (en) * | 2017-11-15 | 2020-11-10 | International Business Machines Corporation | Quantized dialog language model for dialog systems |
US10810996B2 (en) * | 2018-07-31 | 2020-10-20 | Nuance Communications, Inc. | System and method for performing automatic speech recognition system parameter adjustment via machine learning |
-
2019
- 2019-05-13 JP JP2019090423A patent/JP7229847B2/ja active Active
-
2020
- 2020-03-19 EP EP20164080.2A patent/EP3739583B1/en active Active
- 2020-03-19 US US16/824,634 patent/US11605377B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008069308A1 (ja) | 2006-12-08 | 2008-06-12 | Nec Corporation | 音声認識装置および音声認識方法 |
JP2018523156A (ja) | 2015-06-29 | 2018-08-16 | アマゾン テクノロジーズ インコーポレイテッド | 言語モデルスピーチエンドポインティング |
JP2018124484A (ja) | 2017-02-02 | 2018-08-09 | トヨタ自動車株式会社 | 音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3739583A1 (en) | 2020-11-18 |
EP3739583B1 (en) | 2022-09-14 |
US20200365146A1 (en) | 2020-11-19 |
JP2020187211A (ja) | 2020-11-19 |
US11605377B2 (en) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7229847B2 (ja) | 対話装置、対話方法、及び対話コンピュータプログラム | |
JP7508533B2 (ja) | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション | |
JP6538779B2 (ja) | 音声対話システム、音声対話方法、および音声対話システムを適合させる方法 | |
US10152971B2 (en) | System and method for advanced turn-taking for interactive spoken dialog systems | |
CN112673421B (zh) | 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言 | |
KR101942521B1 (ko) | 음성 엔드포인팅 | |
US9230541B2 (en) | Keyword detection for speech recognition | |
EP3619708B1 (en) | Speaker diarization using an end-to-end model | |
JP7230806B2 (ja) | 情報処理装置、及び情報処理方法 | |
JP4729902B2 (ja) | 音声対話システム | |
US10152298B1 (en) | Confidence estimation based on frequency | |
JPWO2019017462A1 (ja) | 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム | |
EP1385147A2 (en) | Method of speech recognition using time-dependent interpolation and hidden dynamic value classes | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
CN113744755A (zh) | 一种从音频信号生成语音动画的装置及方法 | |
KR20180038707A (ko) | 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법 | |
JP7531164B2 (ja) | 発話解析装置、発話解析方法及びプログラム | |
JP6110283B2 (ja) | 共感反感箇所検出装置、共感反感箇所検出方法及びプログラム | |
CN116229946A (zh) | 用于语音识别的系统和方法 | |
JP6629172B2 (ja) | 対話制御装置、その方法及びプログラム | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 | |
US20230343332A1 (en) | Joint Segmenting and Automatic Speech Recognition | |
CN111402893A (zh) | 语音识别模型确定方法、语音识别方法及装置、电子设备 | |
JP2024538020A (ja) | 自然会話音声システムのための非流暢性検出モデル | |
JP2024538717A (ja) | エンドツーエンド音声認識モデルのオンデバイスバッチ処理のための単語境界を予測すること |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220216 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7229847 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |