JP2004101901A - Speech interaction system and speech interaction program - Google Patents
Speech interaction system and speech interaction program Download PDFInfo
- Publication number
- JP2004101901A JP2004101901A JP2002264081A JP2002264081A JP2004101901A JP 2004101901 A JP2004101901 A JP 2004101901A JP 2002264081 A JP2002264081 A JP 2002264081A JP 2002264081 A JP2002264081 A JP 2002264081A JP 2004101901 A JP2004101901 A JP 2004101901A
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- speaker
- database
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、ユーザとの音声対話を実現するに際して、ユーザの話者認識をし、話者認識の結果に応じて対話内容を変更可能とする音声対話装置及び音声対話プログラムに関する。
【0002】
【従来の技術】
従来より、ユーザに対して音声を放音し、更に、ユーザから発せられた音声を入力して、ユーザとの間で対話を実現する音声対話システムが知られている。この従来の音声対話システムでは、現在のユーザが誰であるかを認識せず、新規のユーザである場合や過去に利用経験のあるユーザである場合に拘わらず対話を実行することが多かった。
【0003】
これに対し、従来の他の音声対話システムでは、例えばユーザにパスワード等のキー入力を促すことで、ユーザを認識していた。
【0004】
【特許文献1】
特開昭63−85698号公報
【0005】
【発明が解決しようとする課題】
しかしながら、上述の従来の音声対話システムの多くは、現在の話し相手が誰であるかを認識せずに対話を実行するため、話し相手の固有情報や知識を参照することはなされていない。したがって、従来の音声対話システムでは、ユーザとの間で有効な対話が進行しないことや、以前に対話した内容を再度繰り返し実行するため、性能面や効率面での問題があった。
【0006】
また、従来の他の音声対話システムでは、ユーザにパスワード入カを促すことでユーザを識別していたが、対話の開始に際してユーザに操作負担を強いることがあるという問題がある。
【0007】
そこで、本発明は、上述した実情に鑑みて提案されたものであり、既に登録済のユーザであるか、新規のユーザであるかの話者認識を正確にして、話者に応じた対話を実現する音声対話装置及び音声対話プログラムを提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明は、ユーザに関するユーザ情報を記憶するデータベース記憶手段を用意しておき、ユーザとの間で音声対話をするに際して、入力した音声信号から話者識別をし、識別した話者に対応したユーザ情報を読み出し、読み出したユーザ情報に基づいて、複数の対話シナリオのうち、ユーザに対応した対話シナリオを選択する。そして、本発明では、ユーザに応じて選択した対話シナリオを用いた対話を実現することにより、上述の課題を解決する。
【0009】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。
【0010】
[音声対話装置の構成]
本発明は、例えば図1に示すように構成された音声対話装置1に適用される。この音声対話装置1は、図示しない記憶機構に音声対話プログラムが格納され、図示しないCPU(Central Processing Unit)等を含むコンピュータにより音声対話プログラムを実行することで後述の話者認識部2、音声対話部3及び音声記憶部5の各部の機能モジュールを構成する。また、ユーザデータベース記憶部4及び、音声対話部3内の対話シナリオ記憶部21は、音声対話プログラムを実行することで構成される各機能モジュールによりその内容が読み込まれると共に、情報更新や新規情報登録処理などがなされる。
【0011】
音声対話装置1は、装置正面位置に向かってマイク等の収音機構(図示せず)が設けられ、この収音機構を介してユーザから発せられた音声が電気信号の音声信号として話者認識部2及び音声対話部3に入力される。
【0012】
この音声対話装置1では、ユーザに関する情報を管理するために、話者認識用ユーザ音声データベース11と個人情報データベース12とを予め用意しておき、ユーザデータベース記憶部4に記憶させている。また、この音声対話装置1では、ユーザに応じて異なる対話を実現するための複数の対話シナリオを予め用意し、この対話シナリオを対話シナリオ記憶部21に記憶させている。なお、本例において、この対話シナリオは、新規ユーザ向け対話シナリオ31、登録ユーザ向け対話シナリオ32を用意しておく。
【0013】
ユーザデータベース記憶部4は、例えばハードディスク等の大容量データが記憶可能な記録媒体からなる。このユーザデータベース記憶部4に記憶されている話者認識用ユーザ音声データベース11には、過去に音声対話装置1を利用したユーザの音声が音声信号として格納されている。すなわち、話者認識用ユーザ音声データベース11に記憶されている音声信号は、個人情報データベース12の個人情報の名称等と対応づけられて登録されて記憶されている。
【0014】
本例において、話者認識用ユーザ音声データベース11に記憶されている音声信号としては、ユーザの名前がある。この話者認識用ユーザ音声データベース11には、同じ名前の複数の音声信号が格納される場合があるが、声の音程等により音声信号の周波数特性が個人ごとに異なるために、後述の話者認識部2にて認識可能となっている。
【0015】
個人情報データベース12には、過去に音声対話装置1を利用したユーザの名称を始めとする各種の個人情報が記憶されている。この各種の個人情報とは、音声対話装置1の利用履歴や、利用目的等であって、音声対話装置1の用途によって異なる。なお、この個人情報の具体例については、後述の音声対話装置1の具体的な動作にて説明する。
【0016】
話者認識部2は、ユーザデータベース記憶部4に格納された話者認識用ユーザ音声データベース11の内容、外部から入力された音声信号及び音声対話部3からの音声認識結果を用いて話者認識をする。
【0017】
このとき、話者認識部2は、音声対話部3からの音声認識結果を例えばテキスト形式にて入力すると、このテキストに類似したテキストの音声信号を話者認識用ユーザ音声データベース11から抽出する話者識別処理をする。次いで、話者認識部2は、抽出したユーザ候補となる音声信号と、入力した音声信号とを照合して、ユーザ候補から単一の話者を決定する話者照合処理をする。
【0018】
これにより、話者認識部2は、話者認識処理の結果、話者が決定した場合にはその旨の情報を音声対話部3に送り、新規のユーザと判定した場合にはその旨を音声対話部3に送る。
【0019】
ここで、例えば話者の候補としてN人を抽出した場合であっても、実際にはN人以外の他人が発声したとき、話者識別処理のみではN人のうちの一番似通った音声を持つ人を候補として選んでしまうが、N人以外の他人(或いは新規の人)であると判断するために、話者の候補を抽出する話者識別処理後に話者照合処理を行い、N人に含まれる話者か、N人以外の他人(或いは新規の人)かを判断する。
【0020】
また、この音声対話装置1は、音声対話部3にて入力した音声信号の音声認識結果を入力して、この音声信号を話者認識用ユーザ音声データベース11に登録する音声記憶部5を備える。話者認識用ユーザ音声データベース11は、音声記憶部5からの音声信号を入力すると、個人情報データベース12に記憶された個人情報と対応させ、話者認識部2での話者認識処理時に参照可能とする。
【0021】
音声対話部3は、外部からユーザの音声信号をする音声認識部22、対話制御部23、音声合成部24を備える。この音声対話部3では、音声認識部22により音声信号を入力すると、音声認識部22により音声認識をする。
【0022】
このとき、音声認識部22では、入力した音声信号と予め用意した音声識別用データベースとを比較することで音声認識をし、音声認識結果を話者認識部2、音声記憶部5又は対話制御部23に送る。ここで、音声認識部22による音声認識の開始タイミングとしては、音圧レベルが所定値以上となりこの音圧レベルが所定時間以上継続したタイミングとする。そして、音声認識部22では、音声認識の開始タイミング後に入力した音声信号にフーリエ変換等を施して音声特徴量を抽出し、その音声特徴量を用いて音声認識をする。
【0023】
音声認識部22は、話者認識部2にて話者認識をさせるに際して、音声認識結果をテキスト形式にして話者認識部2に送る。このとき、音声認識部22は、音声認識のスコア(確実度)の高い上位複数のテキストを音声認識結果として話者認識部2に送る。そして、音声認識部22は、話者認識部2により話者認識をした結果、話者が確定した場合には、そのときの音声信号を音声記憶部5に送る。これにより、音声記憶部5により、話者認識用ユーザ音声データベース11に音声信号の新規登録や、既に登録されている音声信号の更新をさせる。
【0024】
音声合成部24は、例えばスピーカ等の放音機構と接続され、対話制御部23の制御に従って各種内容の音声をユーザに向かって放音させる。本例では、対話制御部23により対話シナリオ記憶部21及び個人情報データベース12を参照して生成したテキストが音声合成部24に送られ、音声合成部24により音声合成をすることで、ユーザに発する音声が生成されることになる。
【0025】
対話制御部23は、話者認識部2からの話者認識結果に従って、話者に対応した対話シナリオを対話シナリオ記憶部21から選択する。このとき、対話制御部23は、個人情報データベース12を参照して、ユーザごとの対話シナリオを読み出す。そして、対話制御部23では、個人情報データベース12を参照し、音声認識部22からの音声認識結果に応じて音声合成部24を制御して話者に対応した音声を放音させる。
【0026】
対話制御部23は、話者認識部2から新規のユーザである旨の話者認識結果を入力した場合には、対話シナリオ記憶部21から新規ユーザ向け対話シナリオ31を読み出して放音させる。また、対話制御部23は、話者認識部2からユーザデータベース記憶部4に登録済のユーザである旨の話者認識結果を入力した場合には、対話シナリオ記憶部21から登録ユーザ向け対話シナリオ32を読み出して放音させる。ここで、登録ユーザ向け対話シナリオ32としては、ユーザデータベース記憶部4に登録するユーザごとに用意しても良く、所定のカテゴリなどを設定しておいて用意しても良い。
【0027】
このような音声対話装置1では、話者認識部2により登録済のユーザと認識した場合に、個人情報データベース12を参照しながら登録ユーザ向け対話シナリオ32を用いて音声対話を進行する。これにより、音声対話装置1では、個人に対応した音声対話エージェントとして機能することができる。
【0028】
すなわち、この音声対話装置1では、ユーザからの音声が入力されたことに応じて音声認識部22により音声認識をして音声信号をテキストに変換し、このテキストを対話制御部23に入力させることにより、対話制御部23により個人情報データベース12及び対話シナリオを参照することで音声対話装置1からユーザに返答すべきテキストを生成する。これにより、音声合成部24では、返答するテキストを入力して、音声に変換し、ユーザに返答することになる。
【0029】
また、この音声対話装置1では、話者認識部2により新規のユーザと認識した場合に、新規ユーザ向け対話シナリオ31を用いて音声対話を進行する。これにより、音声対話装置1では、登録済のユーザと新規のユーザとを区別して音声対話を進行させる。ここで、新規のユーザの場合には、音声対話中または音声対話終了後に新たに話者認識用ユーザ音声データベース11及び個人情報データベース12にユーザに関する情報を登録することになる。
【0030】
[音声対話装置の他の構成]
つぎに、本発明を適用した他の音声対話装置40について図2を参照して説明する。なお、上述の図1に示した音声対話装置1と同様の部分については同一符号を付することによりその詳細な説明を省略する。
【0031】
図2に示す音声対話装置40は、話者を認識するに際して、ユーザの顔画像を撮像し、顔画像を用いて話者認識をする点で図1に示した音声対話装置1と異なる。
【0032】
この音声対話装置40は、図1に示した音声対話装置1に加えて、顔画像認識用データベース41、顔画像認識部42、ユーザ認識部43を備える。このような音声対話装置40では、ユーザの立ち位置に視野角を有するカメラ機構(図示せず)を備え、このカメラ機構からの顔画像データを顔画像認識部42にて入力する。ここで、顔画像の入力タイミングとしては、例えば話者認識部2にユーザの音声が入力されて、話者認識部2による話者認識を開始するタイミングなどがある。
【0033】
顔画像認識部42では、顔画像データを入力すると、顔画像データから顔特徴量を抽出する。そして、顔画像認識部42では、抽出した顔特徴量と、顔画像認識用データベース41に登録されている複数のユーザの顔特徴量とを比較してマッチングすることで、現在音声対話装置40を利用しようとしている複数のユーザ候補を認識する。そして、顔画像認識部42では、複数のユーザ候補についてマッチングスコアを作成し、顔画像認識結果としてユーザ認識部43に送る。顔画像認識用データベース41には、過去に音声対話装置40を利用したユーザの顔特徴量が個人情報と対応づけられて蓄積されている。
【0034】
また、ユーザ認識部43には、話者認識部2から話者認識結果が送られる。この音声対話装置40では、音声対話装置1の場合とは異なり、顔画像認識部42による顔画像を用いたマッチングスコアと総合的にユーザ認識をするために、話者認識部2により音声信号を用いて抽出したユーザ候補ごとにマッチングスコアを作成してユーザ認識部43に送る。
【0035】
ユーザ認識部43は、話者認識部2からのマッチングスコアと、顔画像認識部42からのマッチングスコアとを用いてユーザ認識をする。この時、ユーザ認識部43では、ユーザ候補ごとに、顔画像認識部42からのマッチングスコアと話者認識部2からのマッチングスコアとを用いた複合演算をして、所定のしきい値を超えたマッチングスコアのユーザを話者に決定する。
【0036】
このような音声対話装置40では、顔画像及び音声信号の双方を用いて話者認識をするので、音声信号のみを用いて話者認識する場合と比較して話者認識率を向上させる。
【0037】
[音声対話装置の具体的な動作]
つぎに、上述した音声対話装置による具体的な音声対話処理について図3を参照して説明する。なお、図3を用いた説明では、図2に示した音声対話装置40による音声対話処理について説明する。
【0038】
また、本例では、例えば病院の受付案内を代行する音声対話装置40について説明する。すなわち、音声対話装置40では、初めての来院者に対しては新規ユーザ向け対話シナリオ31を用いた音声対話を実行し、過去に音声対話装置40を利用した来院者については登録ユーザ向け対話シナリオ32を用いた音声対話を実行する場合について説明する。
【0039】
先ず、音声対話装置40では、ユーザの立ち位置に来院者が存在すると認識した場合に、ステップS1に処理を進め、対話制御部23により、「お名前は?」との問いかけをするように音声合成部24を制御して、ステップS2に処理を進める。
【0040】
ステップS2においては、ステップS1にて問いかけをしたことに対し、「西山です」と来院者が名乗った場合に、その音声信号をマイクなどの入カデバイス及びA/Dコンバータを介してデジタルデータとして音声認識部22及び話者認識部2にて取得して、ステップS3に処理を進める。
【0041】
ステップS3においては、音声認識部22により、ステップS2にて入力された音声信号を用いた音声認識処理をすることで音声特徴を抽出して「ニシヤマ」をテキストとして取得し、ユーザの候補として話者認識部2に送ってステップS4に処理を進める。なお、本例において、話者の名称を認証IDとしている。なお、音声認識部22による音声認識手法としてはHMM(Hidden Markov Model)やDP(Dynamic Programming)マッチング、又はその他の手法を用いる。
【0042】
ステップS4においては、話者認識部2により、ステップS3にて音声認識部22から取得したユーザ候補となるテキストが話者認識用ユーザ音声データベース11に登録されているか否かの判定をする。このとき、話者認識部2では、「ニシヤマ」のテキストの他に、「ニシヤマ」に類似した他のテキストもユーザの候補として話者認識用ユーザ音声データベース11を検索する。話者認識部2によりユーザ候補となるテキストが話者認識用ユーザ音声データベース11に存在すると判定した場合にはステップS5に処理を進め、存在しないと判定した場合にはステップS6に処理を進める。
【0043】
ステップS5においては、話者認識部2により、ステップS3にて入力したテキスト(名前)と類似するテキスト(名前)と対応づけられた音声信号を話者認識用ユーザ音声データベース11から読み出して取得し、ステップS7に処理を進める。
【0044】
ステップS7においては、話者認識部2により、ステップS2にて取得した音声信号と、ステップS5にて読み出して取得音声信号とをマッチングしてマッチングスコアMs1を作成して、ユーザ認識部43に送ってステップS8に処理を進める。
【0045】
ステップS8においては、ユーザ認識部43により、ステップS7にて入力した音声信号を用いたマッチングスコアMs1と、顔画像を用いたマッチングスコアMs2とを用いて、双方のマッチングスコアを複合演算した結果の総合スコアMssを作成して、ステップS9に処理を進める。
【0046】
ここで、ステップS1〜ステップS3では、話者認識部2によって音声信号に応じたテキストを取得する場合について説明したが、ステップS1〜ステップS3の処理と平行して顔画像を用いたユーザ候補の抽出をする。このとき、音声対話装置40では、顔画像認識部42により顔画像を入力して顔画像の特徴量を抽出し、抽出した顔特徴量と顔画像認識用データベース41に蓄積された顔特徴量とをマッチングさせて複数のユーザ候補についてのマッチングスコアMs2をユーザ認識部43に送る。
【0047】
ステップS9においては、ユーザ認識部43により、ステップS8にて演算した総合スコアMssが予め設定したしきい値よりも大きいか否かを判定する。ここで、しきい値は、音声信号を用いたマッチングスコアMs1と顔画像を用いたマッチングスコアMs2とを複合演算したときに、登録済の話者を特定するマッチングスコアが予め設定されている。なお、このしきい値は、音声対話装置40のシステム設計時に話者認識部2により作成するマッチングスコアMs1や顔画像認識部42により作成するマッチングスコアMs2の演算手法、ユーザ認識部43にて作成する総合スコアMssの演算手法により変化するものである。
【0048】
ステップS9において、総合スコアMssがしきい値よりも大きくないと判定した場合には、新規のユーザ又は他の登録済話者と特定するためにステップS10に処理を進め、総合スコアMssがしきい値よりも大きいと判定した場合には、登録済の話者を特定したと判定してステップS12に処理を進める。
【0049】
ステップS10においては、ユーザ認識部43により、話者の候補となる他のテキストが存在するか否かを判定し、存在すると判定した場合には前のステップS5〜ステップS8での処理対象となっていたテキストを除外してステップS5に処理を戻し、存在しないと判定した場合にはステップS4に処理を戻す。
【0050】
そして、この音声対話装置40では、ユーザの候補として話者認識部2にて取得したテキストが存在する限り、ステップS5、ステップS7〜ステップS10の処理を繰り返し、ユーザの候補となるテキストが存在しないと判定した場合にステップS4に処理を進め、ステップS4からステップS6に処理を進める。
【0051】
ステップS6においては、ステップS5、ステップS7〜ステップS10の処理を繰り返した結果、ユーザ候補のテキスト(本例では「ニシヤマ」及びそれに類似したテキスト)が存在しないことから、例えば音声にて新規来院者かどうかを確認し、新規来院者でない場合にはステップS1に処理を戻し、新規来院者である場合には新規話者IDを個人情報データベース12に登録して、ステップS13に処理を進める。
【0052】
一方、ステップS9において、ユーザ認識部43により総合スコアMssがしきい値を超えるユーザ候補のテキストが存在すると判定された場合のステップS12においては、当該ユーザ候補のテキストを話者認識部2から対話制御部23に送る。そして、対話制御部23により、個人情報データベース12を参照してユーザ候補のテキストに対応した個人情報を読み出してステップS13に処理を進める。
【0053】
ステップS13においては、対話制御部23により、対話シナリオ記憶部21から新規ユーザ向け対話シナリオ31又は登録ユーザ向け対話シナリオ32を選択して読み出す。このとき、対話制御部23では、ステップS12にて個人情報を取得した場合には登録ユーザ向け対話シナリオ32を読み出してステップS14に処理を進め、ステップS11にて新規話者IDを取得した場合には新規ユーザ向け対話シナリオ31を読み出してステップS14に処理を進める。
【0054】
ステップS14においては、対話制御部23により、ステップS13にて選択した対話シナリオに応じて音声を合成するように音声合成部24にテキストデータを送り、ステップS15においては、ステップS14にて音声を放音させたことに対する音声を入力して音声認識部22により音声認識をする。
【0055】
このステップS14及びステップS15を実行することで、対話制御部23では、新規ユーザ向け対話シナリオ31を用いて、来院者の名前、生年月日、住所、連絡先、既往症などの個人情報を音声対話によって取得する。これに対し、登録ユーザ向け対話シナリオ32を用いた場合には、新規来院者と同じ個人情報の問い合わせは行わず、前回の来院記録などを個人情報データベース12から参照しながら、会話を進める。
【0056】
そして、ステップS14及びステップS15が完了した時点のステップS16において、対話制御部23により、対話シナリオを用いた対話が終了したか否かを判定する。対話が終了していないと判定した場合にはステップS17に処理を進め、更に個人情報データベース12を参照してステップS13〜ステップS15の処理を繰り返す。
【0057】
一方、ステップS16において対話が終了したと判定した場合には、ステップS14及びステップS15での音声対話を反映させるように話者認識用ユーザ音声データベース11及び個人情報データベース12の内容を更新する。すなわち、対話制御部23では、対話が終了したと判定した場合に最新のユーザ音声を個人情報データベース12に記憶して、最新のユーザ音声に更新させるように音声記憶部5を制御する。また、対話制御部23では、対話内容に応じて、ユーザの個人情報を更新するように個人情報データベース12の内容を書き換える。
【0058】
[実施の形態の効果]
以上詳細に説明したように、本発明を適用した音声対話装置1,40によれば、入力した音声及び/又は顔画像から登録済のユーザか、新規のユーザかを認識し、登録済のユーザと新規のユーザとで対話シナリオを選択して対話内容を区別することができる。さらに、この音声対話装置1,40によれば、登録済のユーザについては個人情報データベース12を参照して個人情報に応じて対話内容を変更することができ、更にユーザに対応した対話を実現することができる。
【0059】
すなわち、この音声対話装置1,40によれば、具体的な対話を開始する前に話者認識をすることで、登録済のユーザである場合には以前に対話した同じ内容は対話せず、以前の対話で得たユーザに関する情報や知識を次回の対話に反映させるように対話シナリオを変更することができ、より人間との対話に近い知的な機能を付与することができる。
【0060】
また、この音声対話装置1,40によれば、個人情報と対応させて対話シナリオを識別する情報を個人情報データベース12に登録しておき、対話シナリオ記憶部21に個人ごとの対話シナリオを用意しておいても良い。このようにすることで、対話制御部23では、話者認識結果に応じて、話者に対応した個人情報から適切な対話シナリオを対話シナリオ記憶部21から選択することができる。
【0061】
これにより、例えば、個人情報として来院回数、来院目的などの情報を取得し、対話制御部23により、来院者が今回お見舞いで来院したか否かをステップS14及びステップS15にて確認することで、次のステップS13にてお見舞い用の対話シナリオを用いた対話を開始させることができる。この効果に加えて、音声対話装置1,40では、新規ユーザ向け対話シナリオを用意しておくので、新規のユーザにとっても自然な対話を実現することができる。
【0062】
また、この音声対話装置1,40によれば、話者を認識するに際してパスワード入力等を促す必要が無く、ユーザ側の負担を低減することができる。
【0063】
更に、この音声対話装置1,40によれば、音声認識部22により音声認識をして取得したテキストから話者認識部2にてマッチングを行う音声信号を話者認識用ユーザ音声データベース11から取得するので、入力した音声信号と話者認識用ユーザ音声データベース11に記憶されている全部の音声信号とのマッチングをする必要なく、話者認識部2での演算量を削減することができる。
【0064】
更にまた、この音声対話装置1,40によれば、ユーザの発話開始を音声信号のレベルからのみ判断しても良く、更には、顔画像認識部42によりユーザの顔画像の口部分の動きを検出してユーザの発話開始を判断しても良い。これにより、ユーザの発話開始及び発話終了を正確に判断して、タイミングよく音声認識及び話者認識を開始及び終了することができ、音声対話装置1,40の周囲が騒音のある環境であっても音声認識及び話者認識の精度を向上させると共に誤認識を少なくすることができる。
【0065】
なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施形態に限定されることはなく、この実施の形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。
【0066】
すなわち、上述した一例では、音声対話装置1,40の具体的な使用例として病院の受付に適用した場合について説明したが、これに限らず、商品紹介や説明エージェントヘの応用、コンビニエンスストアにおけるレジ・エージェントヘの応用、携帯電話での話者照合による電子決裁システムヘの応用などに適用しても、上述と同様の効果を発揮できることは勿論である。
【0067】
【発明の効果】
本発明によれば、音声から話者認識をし、ユーザ情報に応じて対話シナリオを選択して対話シナリオに従って音声対話をするので、ユーザに応じて対話内容を変更することができ、既に登録済のユーザであるか、新規のユーザであるかの話者認識を正確にして、話者に応じた対話を実現することができる。
【図面の簡単な説明】
【図1】本発明を適用した音声対話装置の構成を示すブロック図である。
【図2】本発明を適用した他の音声対話装置の構成を示すブロック図である。
【図3】本発明を適用した音声対話装置の具体的な処理を説明するためのフローチャートである。
【符号の説明】
1,40 音声対話装置
2 話者認識部
3 音声対話部
4 ユーザデータベース記憶部
5 音声記憶部
11 話者認識用ユーザ音声データベース
12 個人情報データベース
21 対話シナリオ記憶部
22 音声認識部
23 対話制御部
24 音声合成部
31 新規ユーザ向け対話シナリオ
32 登録ユーザ向け対話シナリオ
41 顔画像認識用データベース
42 顔画像認識部
43 ユーザ認識部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a voice dialogue apparatus and a voice dialogue program that recognize a user's speaker when realizing a voice dialogue with the user and change the content of the dialogue according to the result of the speaker recognition.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, there has been known a voice interaction system that emits a voice to a user and further inputs a voice emitted from the user to realize a dialogue with the user. In this conventional voice dialogue system, it is often the case that the current user is not recognized, and the dialogue is executed regardless of whether the user is a new user or a user who has used in the past.
[0003]
On the other hand, in another conventional voice interaction system, for example, the user is recognized by prompting the user to input a key such as a password.
[0004]
[Patent Document 1]
JP-A-63-85698
[0005]
[Problems to be solved by the invention]
However, many of the above-described conventional voice dialogue systems perform a dialogue without recognizing who the current talker is, and therefore do not refer to the unique information or knowledge of the talker. Therefore, in the conventional voice dialogue system, there is a problem in terms of performance and efficiency in that effective dialogue with the user does not progress, and the content of the previous dialogue is repeatedly executed.
[0006]
Further, in another conventional voice interaction system, the user is identified by prompting the user to enter a password. However, there is a problem that an operation burden is imposed on the user when starting the dialogue.
[0007]
Therefore, the present invention has been proposed in view of the above-described situation, and makes it possible to accurately perform speaker recognition as to whether the user is a registered user or a new user, and perform a dialog according to the speaker. It is an object of the present invention to provide a spoken dialogue apparatus and a spoken dialogue program to be realized.
[0008]
[Means for Solving the Problems]
According to the present invention, a database storage unit for storing user information about a user is prepared, and when performing a voice dialogue with the user, a speaker is identified from an input voice signal, and a user corresponding to the identified speaker is identified. The information is read, and an interaction scenario corresponding to the user is selected from the plurality of interaction scenarios based on the read user information. The present invention solves the above-described problem by realizing a dialog using a dialog scenario selected according to a user.
[0009]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0010]
[Configuration of voice interaction device]
The present invention is applied to, for example, a spoken
[0011]
The voice
[0012]
In the spoken
[0013]
The user
[0014]
In this example, the voice signal stored in the speaker recognition
[0015]
The
[0016]
The
[0017]
At this time, when the speech recognition result from the
[0018]
As a result, if the speaker is determined as a result of the speaker recognition processing, the
[0019]
Here, for example, even if N people are extracted as speaker candidates, when other people than the N people actually utter, the most similar voice of the N people is obtained only by the speaker identification processing. Although a person having possession is selected as a candidate, in order to determine that the person is another person (or a new person) other than N, speaker verification processing is performed after speaker identification processing for extracting speaker candidates, and N , Or a person other than N (or a new person).
[0020]
The
[0021]
The
[0022]
At this time, the
[0023]
When causing the
[0024]
The
[0025]
The
[0026]
When a speaker recognition result indicating that the user is a new user is input from the
[0027]
In such a
[0028]
That is, in the
[0029]
Further, in the
[0030]
[Other Configurations of Voice Dialogue Device]
Next, another voice
[0031]
The
[0032]
This
[0033]
When face image data is input, the face
[0034]
Further, the speaker recognition result is sent from the
[0035]
The
[0036]
In such a
[0037]
[Specific operation of voice interaction device]
Next, a specific voice interaction process by the above-described voice interaction device will be described with reference to FIG. In the description with reference to FIG. 3, the voice dialogue processing by the
[0038]
Further, in this example, a description will be given of, for example, the
[0039]
First, when the
[0040]
In step S2, in response to the inquiry in step S1, if the visitor claims to be "Nishiyama," the audio signal is converted into digital data via an input device such as a microphone and an A / D converter. The information is acquired by the
[0041]
In step S3, the voice feature is extracted by performing voice recognition processing using the voice signal input in step S2 by the
[0042]
In step S4, the
[0043]
In step S5, the
[0044]
In step S7, the
[0045]
In step S8, the
[0046]
Here, in steps S1 to S3, the case has been described in which the
[0047]
In step S9, the
[0048]
If it is determined in step S9 that the total score Mss is not larger than the threshold, the process proceeds to step S10 in order to identify a new user or another registered speaker, and the total score Mss is determined. If it is determined that the value is larger than the value, it is determined that the registered speaker has been specified, and the process proceeds to step S12.
[0049]
In step S10, the
[0050]
Then, in the
[0051]
In step S6, as a result of repeating the processing of step S5 and steps S7 to S10, there is no user candidate text ("Nishiyama" and a text similar thereto) in this example. It is confirmed whether or not it is not a new visitor, and the process returns to step S1. If it is a new visitor, the new speaker ID is registered in the
[0052]
On the other hand, in step S12, when the
[0053]
In step S13, the
[0054]
In step S14, the
[0055]
By executing Steps S14 and S15, the
[0056]
Then, in step S16 when step S14 and step S15 are completed, the
[0057]
On the other hand, if it is determined in step S16 that the dialog has ended, the contents of the speaker recognition
[0058]
[Effects of Embodiment]
As described above in detail, according to the
[0059]
That is, according to the
[0060]
Further, according to the
[0061]
Thereby, for example, information such as the number of visits and the purpose of the visit is acquired as personal information, and the
[0062]
Further, according to the
[0063]
Further, according to the
[0064]
Furthermore, according to the
[0065]
Note that the above embodiment is an example of the present invention. For this reason, the present invention is not limited to the above-described embodiment, and other than the present embodiment, various modifications may be made according to the design and the like within a range not departing from the technical idea according to the present invention. Can be changed.
[0066]
That is, in the above-described example, the case where the
[0067]
【The invention's effect】
According to the present invention, speaker recognition is performed from voice, a dialogue scenario is selected according to user information, and a voice dialogue is performed according to the dialogue scenario. It is possible to accurately perform speaker recognition as to whether the user is a new user or a new user, and realize a conversation corresponding to the speaker.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of a voice interaction device to which the present invention has been applied.
FIG. 2 is a block diagram showing a configuration of another voice interactive device to which the present invention is applied.
FIG. 3 is a flowchart illustrating a specific process of the voice interaction device to which the present invention is applied;
[Explanation of symbols]
1,40 spoken dialogue device
2 Speaker recognition unit
3 Voice Dialogue Department
4 User database storage
5 Voice storage unit
11 User speech database for speaker recognition
12 Personal information database
21 Dialogue scenario storage unit
22 Voice Recognition Unit
23 Dialogue control unit
24 Voice synthesis unit
31 Dialogue scenario for new users
32 Dialogue scenarios for registered users
41 Face Image Recognition Database
42 face image recognition unit
43 User Recognition Unit
Claims (10)
音声をユーザに向かって放音する音声出力手段と、
上記音声入力手段にて生成した音声信号から話者識別をする話者認識手段と、ユーザに関するユーザ情報を記憶したユーザデータベースを記憶するデータベース記憶手段と、
上記話者認識手段にて識別した話者に対応した情報を上記データベース記憶手段から読み出し、読み出したユーザ情報に基づいて、複数の対話シナリオのうち、ユーザに対応した対話シナリオを選択して、上記対話シナリオに従った音声を出力させるように上記音声出力手段を制御する対話制御手段と
を備えることを特徴とする音声対話装置。Voice input means for receiving a voice from the user and generating a voice signal;
Audio output means for emitting audio to the user,
Speaker recognition means for performing speaker identification from the voice signal generated by the voice input means, database storage means for storing a user database storing user information about the user,
Information corresponding to the speaker identified by the speaker recognition means is read from the database storage means, and based on the read user information, an interaction scenario corresponding to the user is selected from a plurality of interaction scenarios. A dialogue control unit that controls the voice output unit so as to output a voice according to a dialogue scenario.
上記話者認識手段は、上記ユーザ音声データベースに登録された音声信号と上記音声入力手段にて生成した音声信号とを照合して話者識別をし、上記対話制御手段は、話者識別結果に基づいて上記個人情報データベースを参照してユーザに対応した対話シナリオを選択することを特徴とする請求項1に記載の音声対話装置。The database storage means includes, as the user database, a user voice database in which voice signals previously input by the voice input means are stored and registered for each user, and a personal information database in which personal information is registered for each user. Is remembered,
The speaker recognition unit performs speaker identification by comparing a voice signal registered in the user voice database with a voice signal generated by the voice input unit, and the dialog control unit outputs a speaker identification result. The voice interaction device according to claim 1, wherein a dialog scenario corresponding to a user is selected by referring to the personal information database based on the personal information database.
上記対話制御手段は、上記話者認識手段により登録されたユーザであると判定された場合には、対話シナリオとして登録ユーザ向けシナリオを選択して音声対話をし、上記話者認識手段により新規のユーザであると判定された場合には、対話シナリオとして新規ユーザ向けシナリオを選択して音声対話をすることを特徴とする請求項1に記載の音声対話装置。As a result of performing the speaker recognition, the speaker recognition unit determines whether the user is a registered user or a new user,
When it is determined that the user is a registered user by the speaker recognition means, the dialog control means selects a scenario for the registered user as a dialog scenario and performs a voice dialogue. 2. The voice interaction apparatus according to claim 1, wherein when it is determined that the user is a user, a scenario for a new user is selected as the interaction scenario to have a voice interaction.
入力した音声信号から話者識別をし、
識別した話者に対応した情報を、ユーザに関するユーザ情報を記憶するデータベース記憶手段から読み出し、
読み出したユーザ情報に基づいて、複数の対話シナリオのうち、ユーザに対応した対話シナリオを選択し、
上記対話シナリオに従った音声を出力させる処理をコンピュータに実行させることを特徴とする音声対話プログラム。When conducting a voice dialogue with the user,
Identify the speaker from the input voice signal,
Reading information corresponding to the identified speaker from a database storage unit that stores user information about the user;
Based on the read user information, select an interaction scenario corresponding to the user from among a plurality of interaction scenarios,
A speech dialogue program for causing a computer to execute a process of outputting speech according to the above-mentioned dialogue scenario.
話者識別結果に基づいて、ユーザごとに個人情報を登録した個人情報データベースを参照してユーザに対応した対話シナリオを選択する処理をコンピュータに実行させることを特徴とする請求項6に記載の音声対話プログラム。The voice signal is read from the user voice database in which the voice signal is registered for each user, the speaker is identified by comparing the voice signal with the input voice signal,
7. The voice according to claim 6, wherein the computer is caused to execute a process of selecting a conversation scenario corresponding to the user by referring to a personal information database in which personal information is registered for each user based on a speaker identification result. Dialogue program.
上記抽出した音声信号と上記入力した音声信号とを照合して話者認識をする処理をコンピュータに実行させることを特徴とする請求項7に記載の音声対話プログラム。The voice recognition is performed using the input voice signal, and a voice signal to be a user candidate registered in the user voice database is extracted from the voice recognition result,
The computer-readable storage medium according to claim 7, wherein the computer performs a process of performing speaker recognition by comparing the extracted voice signal with the input voice signal.
登録されたユーザであると判定された場合には、対話シナリオとして登録ユーザ向けシナリオを選択して音声対話をし、
新規のユーザであると判定された場合には、対話シナリオとして新規ユーザ向けシナリオを選択して音声対話をする処理をコンピュータに実行させることを特徴とする請求項6に記載の音声対話プログラム。By performing speaker recognition, it is determined whether the user is already registered or a new user,
When it is determined that the user is a registered user, a scenario for the registered user is selected as a dialog scenario, and a voice dialogue is performed.
7. The voice dialogue program according to claim 6, wherein, when it is determined that the user is a new user, a computer performs a process of selecting a scenario for a new user as a dialogue scenario and performing voice dialogue.
音声信号を用いた話者識別結果と顔画像を用いた話者識別結果とに基づいてユーザを認識をする処理をコンピュータに実行させることを特徴とする請求項6に記載の音声対話プログラム。The voice signal is stored for each user, and the voice signal registered in a user voice database registered and collated with the input voice signal is used to identify a speaker, and a face image registered in a face image recognition database in advance and image pickup is performed. The speaker is identified by comparing it with the
The computer-readable storage medium according to claim 6, wherein the program causes a computer to execute a process of recognizing a user based on a speaker identification result using a voice signal and a speaker identification result using a face image.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002264081A JP2004101901A (en) | 2002-09-10 | 2002-09-10 | Speech interaction system and speech interaction program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002264081A JP2004101901A (en) | 2002-09-10 | 2002-09-10 | Speech interaction system and speech interaction program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004101901A true JP2004101901A (en) | 2004-04-02 |
Family
ID=32263618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002264081A Pending JP2004101901A (en) | 2002-09-10 | 2002-09-10 | Speech interaction system and speech interaction program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004101901A (en) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006098534A (en) * | 2004-09-28 | 2006-04-13 | Toyota Motor Corp | Device and method for speech processing |
JP2008033198A (en) * | 2006-08-01 | 2008-02-14 | Nec System Technologies Ltd | Voice interaction system, voice interaction method, voice input device and program |
KR101508092B1 (en) * | 2014-03-13 | 2015-04-07 | 재단법인 다차원 스마트 아이티 융합시스템 연구단 | Method and system for supporting video conference |
JP2016017980A (en) * | 2014-07-04 | 2016-02-01 | 日本電信電話株式会社 | Voice imitation voice evaluation device, voice imitation voice evaluation method, and program |
JP2016508007A (en) * | 2013-02-07 | 2016-03-10 | アップル インコーポレイテッド | Voice trigger for digital assistant |
WO2016194740A1 (en) * | 2015-06-04 | 2016-12-08 | シャープ株式会社 | Speech recognition device, speech recognition system, terminal used in said speech recognition system, and method for generating speaker identification model |
WO2017217314A1 (en) * | 2016-06-13 | 2017-12-21 | 日本電気株式会社 | Response device, response system, response method, and recording medium |
JP2018041230A (en) * | 2016-09-06 | 2018-03-15 | 富士通株式会社 | Reception support program, reception support method, reception support system and information processor |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
WO2018230345A1 (en) * | 2017-06-15 | 2018-12-20 | 株式会社Caiメディア | Dialogue robot, dialogue system, and dialogue program |
JP2019053126A (en) * | 2017-09-13 | 2019-04-04 | 株式会社日立製作所 | Growth type interactive device |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
JP2019124835A (en) * | 2018-01-17 | 2019-07-25 | トヨタ自動車株式会社 | Speaker estimation device |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
JP2019153010A (en) * | 2018-03-01 | 2019-09-12 | Necソリューションイノベータ株式会社 | Pseudo chat device, pseudo chat execution method, and program |
JP2019185728A (en) * | 2018-03-30 | 2019-10-24 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Method and apparatus for recommending video |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
CN112639638A (en) * | 2018-09-07 | 2021-04-09 | 株式会社牧野铣床制作所 | Control device for machine tool |
JP2021076677A (en) * | 2019-11-07 | 2021-05-20 | Jeインターナショナル株式会社 | Automatic call origination system, processing method, and program |
JP2021099874A (en) * | 2020-05-22 | 2021-07-01 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Public scenario conversation backtracking method, apparatus, electronic device, recording medium, and computer program in multi-turn conversation |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
-
2002
- 2002-09-10 JP JP2002264081A patent/JP2004101901A/en active Pending
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006098534A (en) * | 2004-09-28 | 2006-04-13 | Toyota Motor Corp | Device and method for speech processing |
JP2008033198A (en) * | 2006-08-01 | 2008-02-14 | Nec System Technologies Ltd | Voice interaction system, voice interaction method, voice input device and program |
JP2016508007A (en) * | 2013-02-07 | 2016-03-10 | アップル インコーポレイテッド | Voice trigger for digital assistant |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US11636869B2 (en) | 2013-02-07 | 2023-04-25 | Apple Inc. | Voice trigger for a digital assistant |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US12009007B2 (en) | 2013-02-07 | 2024-06-11 | Apple Inc. | Voice trigger for a digital assistant |
US10714117B2 (en) | 2013-02-07 | 2020-07-14 | Apple Inc. | Voice trigger for a digital assistant |
KR101508092B1 (en) * | 2014-03-13 | 2015-04-07 | 재단법인 다차원 스마트 아이티 융합시스템 연구단 | Method and system for supporting video conference |
JP2016017980A (en) * | 2014-07-04 | 2016-02-01 | 日本電信電話株式会社 | Voice imitation voice evaluation device, voice imitation voice evaluation method, and program |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
JP2017003611A (en) * | 2015-06-04 | 2017-01-05 | シャープ株式会社 | Voice recognition device, voice recognition system, terminal used in voice recognition system and method for generating speaker identification model |
WO2016194740A1 (en) * | 2015-06-04 | 2016-12-08 | シャープ株式会社 | Speech recognition device, speech recognition system, terminal used in said speech recognition system, and method for generating speaker identification model |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
WO2017217314A1 (en) * | 2016-06-13 | 2017-12-21 | 日本電気株式会社 | Response device, response system, response method, and recording medium |
JPWO2017217314A1 (en) * | 2016-06-13 | 2018-06-21 | 日本電気株式会社 | Response device, response system, response method, and recording medium |
JP2021047873A (en) * | 2016-06-13 | 2021-03-25 | 日本電気株式会社 | Reception robot, reception method, and program |
EP3418912A4 (en) * | 2016-06-13 | 2019-02-06 | Nec Corporation | Response device, response system, response method, and recording medium |
US11514663B2 (en) | 2016-06-13 | 2022-11-29 | Nec Corporation | Reception apparatus, reception system, reception method, and storage medium |
EP4086791A1 (en) * | 2016-06-13 | 2022-11-09 | NEC Corporation | Response device, response system, response method, and recording medium |
US11850728B2 (en) | 2016-06-13 | 2023-12-26 | Nec Corporation | Reception apparatus, reception system, reception method, and storage medium |
US11430207B2 (en) | 2016-06-13 | 2022-08-30 | Nec Corporation | Reception apparatus, reception system, reception method and storage medium |
JP2018041230A (en) * | 2016-09-06 | 2018-03-15 | 富士通株式会社 | Reception support program, reception support method, reception support system and information processor |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
WO2018230345A1 (en) * | 2017-06-15 | 2018-12-20 | 株式会社Caiメディア | Dialogue robot, dialogue system, and dialogue program |
CN109643550A (en) * | 2017-06-15 | 2019-04-16 | 株式会社Cai梅帝亚 | Talk with robot and conversational system and dialogue program |
JPWO2018230345A1 (en) * | 2017-06-15 | 2019-11-07 | 株式会社Caiメディア | Dialogue robot, dialogue system, and dialogue program |
JP2019053126A (en) * | 2017-09-13 | 2019-04-04 | 株式会社日立製作所 | Growth type interactive device |
JP7143591B2 (en) | 2018-01-17 | 2022-09-29 | トヨタ自動車株式会社 | speaker estimation device |
JP2019124835A (en) * | 2018-01-17 | 2019-07-25 | トヨタ自動車株式会社 | Speaker estimation device |
JP7072761B2 (en) | 2018-03-01 | 2022-05-23 | Necソリューションイノベータ株式会社 | Pseudo-chat device, pseudo-chat execution method and program |
JP2019153010A (en) * | 2018-03-01 | 2019-09-12 | Necソリューションイノベータ株式会社 | Pseudo chat device, pseudo chat execution method, and program |
JP2019185728A (en) * | 2018-03-30 | 2019-10-24 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Method and apparatus for recommending video |
US10694247B2 (en) | 2018-03-30 | 2020-06-23 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for recommending video |
CN112639638A (en) * | 2018-09-07 | 2021-04-09 | 株式会社牧野铣床制作所 | Control device for machine tool |
JP2021076677A (en) * | 2019-11-07 | 2021-05-20 | Jeインターナショナル株式会社 | Automatic call origination system, processing method, and program |
JP7141482B2 (en) | 2020-05-22 | 2022-09-22 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Backtracking method and apparatus for public scenario conversation in multi-turn conversation, electronic device, storage medium, and computer program |
JP2021099874A (en) * | 2020-05-22 | 2021-07-01 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Public scenario conversation backtracking method, apparatus, electronic device, recording medium, and computer program in multi-turn conversation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004101901A (en) | Speech interaction system and speech interaction program | |
US11564090B1 (en) | Audio verification | |
JP3284832B2 (en) | Speech recognition dialogue processing method and speech recognition dialogue device | |
WO2017197953A1 (en) | Voiceprint-based identity recognition method and device | |
JP6469252B2 (en) | Account addition method, terminal, server, and computer storage medium | |
US20120271631A1 (en) | Speech recognition using multiple language models | |
JP5200712B2 (en) | Speech recognition apparatus, speech recognition method, and computer program | |
CN110706714B (en) | Speaker model making system | |
JPH096390A (en) | Voice recognition interactive processing method and processor therefor | |
JP7040449B2 (en) | Voice processing device, information processing device, voice processing method and information processing method | |
JP2007133414A (en) | Method and apparatus for estimating discrimination capability of voice and method and apparatus for registration and evaluation of speaker authentication | |
KR101888058B1 (en) | The method and apparatus for identifying speaker based on spoken word | |
TW202018696A (en) | Voice recognition method and device and computing device | |
JP6696803B2 (en) | Audio processing device and audio processing method | |
JP6468258B2 (en) | Voice dialogue apparatus and voice dialogue method | |
CN113643707A (en) | Identity verification method and device and electronic equipment | |
CN109065026B (en) | Recording control method and device | |
US11416593B2 (en) | Electronic device, control method for electronic device, and control program for electronic device | |
CN110570843B (en) | User voice recognition method and device | |
JP4440502B2 (en) | Speaker authentication system and method | |
JP7347511B2 (en) | Audio processing device, audio processing method, and program | |
KR20240000474A (en) | Keyword spotting method based on neural network | |
CN110895938B (en) | Voice correction system and voice correction method | |
JP6571587B2 (en) | Voice input device, method thereof, and program | |
KR20210098250A (en) | Electronic device and Method for controlling the electronic device thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050712 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080424 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090106 |