(本開示の基礎となった知見)
一般的に、音声対話システムに対して発話者が音声コマンドを発話することにより機器を制御する際には、周囲の騒音、又は音声対話システムに対して発話している発話者以外の発話者の音声が混入している騒音環境下で音声対話システムを使用することが考えられる。そのため、音声対話システムからの応答音声に指向性を持たせることで、音声対話システムと対話をしている人のみに向けて応答音声を再生することが検討されている。例えば、音声対話システムの前に複数の人が存在し、発話音声に対する応答音声を聴きたい人が発話者の一人のみである場合には、指向性を有しない通常の再生方法で応答音声を再生してしまうと、周囲の雑音等の騒音により発話者が応答音声を聴きとりにくかったり、本来聞かれたくない人が応答音声を聴いてしまったりすることがある。そのため、例えば、特許文献1に開示されている技術のように、特定の人の方向のみにスピーカの指向性を向けて応答音声を再生することが有効である。
しかしながら、特許文献1に開示されている装置を用いると次のような課題が発生するおそれがある。例えば、音声対話システムの前に複数の人が存在し、その全員が発話音声に対する応答音声を聴きたい場合に、特許文献1のように発話した特定の人の位置のみに指向性を向けて応答音声を再生すると、応答音声を聴きたかった発話者以外の人が応答音声を聴くことができないという課題があった。
すなわち、特許文献1の装置では、発話者の周囲の状況に応じて最適な再生方法で応答音声を再生することができない。また、特許文献2の装置でも同様に、発話者の周囲の状況に応じて最適な再生方法で応答音声を再生することに関しては検討されていない。
上記のような課題を解決するため、本開示の一態様に係る音声再生方法は、発話音声に対する応答音声を再生する音声対話システムにおける音声再生方法であって、前記音声対話システムに対して発話した発話音声を含み、前記発話音声の発話者の周囲の音を表す周囲音声情報を取得し、前記周囲音声情報を、前記発話音声を含む第1の音声情報と、前記発話音声以外の音を含む第2の音声情報とに分離し、前記第1の音声情報の音声レベルと、前記第2の音声情報の音声レベルとを比較し、比較した結果に応じて、第1の再生方法及び前記第1の再生方法とは再生する音声の指向性が異なる第2の再生方法のいずれかにより、前記応答音声を再生する。
この構成によれば、音声対話システムに対して発話した発話音声を含み、発話音声の発話者の周囲の音を表す周囲音声情報が取得される。周囲音声情報が、発話音声を含む第1の音声情報と、発話音声以外の音を含む第2の音声情報とに分離される。第1の音声情報の音声レベルと、第2の音声情報の音声レベルとが比較される。比較された結果に応じて、第1の再生方法及び第1の再生方法とは再生する音声の指向性が異なる第2の再生方法のいずれかにより、応答音声が再生される。
したがって、音声対話システムに対して発話した発話音声を含む第1の音声情報の音声レベルと、発話音声以外の音を含む第2の音声情報の音声レベルとの比較結果に応じて、第1の再生方法及び第1の再生方法とは再生する音声の指向性が異なる第2の再生方法のいずれかにより、応答音声が再生されるので、発話者の周囲の状況に応じた再生方法で応答音声を再生することができる。
また、上記の音声再生方法において、前記第1の再生方法は、指向性を有しない再生方法であり、前記第2の再生方法は、前記発話者に対して指向性を有する再生方法であり、前記第1の音声情報の音声レベルが、前記第2の音声情報の音声レベルより高い場合に、前記第1の再生方法で前記応答音声を再生し、前記第1の音声情報の音声レベルが、前記第2の音声情報の音声レベルより低い場合に、前記第2の再生方法で前記応答音声を再生してもよい。
この構成によれば、第1の再生方法は、指向性を有しない再生方法であり、第2の再生方法は、発話者に対して指向性を有する再生方法である。第1の音声情報の音声レベルが、第2の音声情報の音声レベルより高い場合に、第1の再生方法で応答音声が再生され、第1の音声情報の音声レベルが、第2の音声情報の音声レベルより低い場合に、第2の再生方法で応答音声が再生される。
第1の音声情報の音声レベルが、第2の音声情報の音声レベルより高い場合は、発話者以外の人も応答音声を確認するために音を発さないようにしていることが想定される。そのため、第1の音声情報の音声レベルが、第2の音声情報の音声レベルより高い場合は、指向性を有しない再生方法で応答音声が再生されるので、発話者以外の人も応答音声を聞くことができる。
また、第1の音声情報の音声レベルが、第2の音声情報の音声レベルより低い場合は、発話者以外の人は応答音声に関心がないために音を発していることが想定される。そのため、第1の音声情報の音声レベルが、第2の音声情報の音声レベルより低い場合は、発話者に対して指向性を有する再生方法で応答音声が再生されるので、発話者のみが応答音声を聞くことができる。
また、上記の音声再生方法において、前記第1の音声情報に対して音声認識を行い、前記音声認識の結果を用いて応答音声を生成し、前記応答音声を前記第1の再生方法及び前記第2の再生方法のいずれかにより再生してもよい。
この構成によれば、分離された第1の音声情報に対して音声認識が行われる。音声認識の結果を用いて応答音声が生成される。生成された応答音声が第1の再生方法及び第2の再生方法のいずれかにより再生される。
したがって、第1の音声情報に対する音声認識の結果を用いて応答音声を生成することができる。
また、上記の音声再生方法において、前記周囲音声情報は、複数のマイクを含むアレイマイクシステムから取得される、所定の角度ごとに指向性を有する複数の周囲音声情報を含み、前記複数の周囲音声情報のそれぞれが、前記音声対話システムに対する前記発話音声であるか否かを判断することで、前記周囲音声情報を前記第1の音声情報と前記第2の音声情報とに分離してもよい。
この構成によれば、周囲音声情報は、複数のマイクを含むアレイマイクシステムから取得される、所定の角度ごとに指向性を有する複数の周囲音声情報を含む。複数の周囲音声情報のそれぞれが、音声対話システムに対する発話音声であるか否かが判断されることで、周囲音声情報を第1の音声情報と第2の音声情報とに分離することができる。
また、上記の音声再生方法において、前記第2の再生方法により前記応答音声を再生する際に、前記音声対話システムに対する前記発話音声であると判断された前記周囲音声情報が取得された角度の方向に向けて、前記応答音声を再生してもよい。
この構成によれば、第2の再生方法により応答音声が再生される際に、音声対話システムに対する発話音声であると判断された周囲音声情報が取得された角度の方向に向けて、応答音声が再生される。したがって、発話者のいる方向に向けて確実に応答音声を再生することができる。
また、上記の音声再生方法において、前記複数の周囲音声情報のそれぞれに対し、予め記憶されている所定のキーワードが含まれているか否かを判断し、前記周囲音声情報に前記所定のキーワードが含まれている場合、当該周囲音声情報が前記音声対話システムに対する発話音声であると判断してもよい。
この構成によれば、複数の周囲音声情報のそれぞれに対し、予め記憶されている所定のキーワードが含まれているか否かが判断される。周囲音声情報に所定のキーワードが含まれている場合、当該周囲音声情報が音声対話システムに対する発話音声であると判断される。
したがって、複数の周囲音声情報から、音声対話システムに対する発話音声を含む第1の音声情報を確実に分離することができる。
また、上記の音声再生方法において、スペクトルサブトラクション法を用いて前記周囲音声情報を前記第1の音声情報と前記第2の音声情報とに分離してもよい。
この構成によれば、スペクトルサブトラクション法を用いることにより、周囲音声情報を第1の音声情報と第2の音声情報とに分離することができる。
また、上記の音声再生方法において、前記周囲音声情報から周囲にいる人を識別し、前記第1の音声情報の音声レベルと前記第2の音声情報の音声レベルとを比較した結果と、前記周囲にいる人を識別した結果とに基づいて、前記第1の再生方法及び前記第2の再生方法のいずれで再生するかを切り替えてもよい。
この構成によれば、周囲音声情報から発話者の周囲にいる人が識別される。第1の音声情報の音声レベルと第2の音声情報の音声レベルとを比較した結果と、発話者の周囲にいる人を識別した結果とに基づいて、第1の再生方法及び第2の再生方法のいずれで再生するかが切り替えられる。
したがって、発話者の周囲にいる人が誰であるかによって、指向性を有しない再生方法と、発話者に対して指向性を有する再生方法とのいずれで応答音声を再生するかを切り替えることができる。
また、上記の音声再生方法において、過去に取得した前記第1の音声情報と、過去に前記第1の音声情報を再生した際に選択された前記第1の再生方法及び前記第2の再生方法のいずれかとを関連付けて記憶するテーブルを用いて、前記応答音声を再生する再生方法を選択してもよい。
この構成によれば、過去に取得された第1の音声情報と、過去に第1の音声情報を再生した際に選択された第1の再生方法及び第2の再生方法のいずれかとを関連付けて記憶するテーブルを用いて、応答音声を再生する再生方法が選択される。
したがって、過去の履歴に基づいて再生方法が選択されるので、再生方法を決定するために要する処理時間を短縮することができる。
また、上記の音声再生方法において、前記音声対話システムの周囲の画像を取得し、前記画像から、前記音声対話システムを注視している人を検出し、前記第2の再生方法により前記応答音声を再生する際に、検出した前記人に向けて前記応答音声を再生してもよい。
この構成によれば、音声対話システムの周囲の画像が取得され、画像から、音声対話システムを注視している人が検出される。第2の再生方法により応答音声が再生される際に、検出された人に向けて応答音声が再生される。
したがって、音声対話システムを注視している人は、応答音声に関心を持っている可能性があるので、音声対話システムを注視している人に向けて応答音声を再生することができる。
また、上記の音声再生方法において、前記第1の再生方法は、指向性を有しない再生方法であり、前記第2の再生方法は、発話者に対して指向性を有する再生方法であり、前記音声対話システムの周囲の画像を取得し、前記画像から、前記音声対話システムを注視している人の数を検出し、前記人の数の検出結果から複数の人が前記音声対話システムを注視しているか否かを判断し、複数の人が前記音声対話システムを注視していると判断した場合、前記第1の再生方法で前記応答音声を再生し、複数の人が前記音声対話システムを注視していないと判断した場合、前記第2の再生方法で前記応答音声を再生してもよい。
この構成によれば、第1の再生方法は、指向性を有しない再生方法であり、第2の再生方法は、発話者に対して指向性を有する再生方法である。音声対話システムの周囲の画像が取得され、画像から、音声対話システムを注視している人の数が検出される。人の数の検出結果から複数の人が音声対話システムを注視しているか否かが判断される。複数の人が音声対話システムを注視していると判断された場合、第1の再生方法で応答音声が再生される。また、複数の人が音声対話システムを注視していないと判断された場合、第2の再生方法で応答音声が再生される。
したがって、複数の人が音声対話システムを注視している場合は、複数の人に対して応答音声が聞こえるように、指向性を有しない再生方法で応答音声を再生することができ、複数の人が音声対話システムを注視していない場合、すなわち、発話者のみが音声対話システムを注視している場合は、発話者に対して指向性を有する再生方法で応答音声を再生することができる。
また、上記の音声再生方法において、前記第1の再生方法は、指向性を有しない再生方法であり、前記第2の再生方法は、発話者に対して指向性を有する再生方法であり、前記発話者が保持する収音装置によって前記発話音声を収音し、前記音声対話システムの周囲の画像を取得し、前記画像から、前記収音装置に対して発話した前記発話者の位置を特定し、前記発話者によって所定の指示信号が前記収音装置に入力された状態で前記発話音声が収音されたか否かを判断し、前記所定の指示信号が前記収音装置に入力された状態で前記発話音声が収音されていないと判断した場合、前記第1の再生方法で前記応答音声を再生し、前記所定の指示信号が前記収音装置に入力された状態で前記発話音声が収音されたと判断した場合、前記第2の再生方法で前記応答音声を再生してもよい。
この構成によれば、第1の再生方法は、指向性を有しない再生方法であり、第2の再生方法は、発話者に対して指向性を有する再生方法である。発話者が保持する収音装置によって発話音声が収音される。音声対話システムの周囲の画像が取得され、画像から、収音装置に対して発話した発話者の位置が特定される。発話者によって所定の指示信号が収音装置に入力された状態で発話音声が収音されたか否かが判断される。所定の指示信号が収音装置に入力された状態で発話音声が収音されていないと判断された場合、第1の再生方法で応答音声が再生される。また、所定の指示信号が収音装置に入力された状態で発話音声が収音されたと判断された場合、第2の再生方法で応答音声が再生される。
したがって、発話者によって所定の指示信号が収音装置に入力された状態で発話された場合に、発話者のみに対して応答音声が再生されるので、発話者の意図を反映させた再生方法で応答音声を再生することができる。
また、上記の音声再生方法において、前記第1の再生方法は、指向性を有しない再生方法であり、前記第2の再生方法は、発話者に対して指向性を有する再生方法であり、前記周囲音声情報は、複数のマイクを含むアレイマイクシステムから取得される、所定の角度ごとに指向性を有する複数の周囲音声情報を含み、前記複数の周囲音声情報のそれぞれが前記音声対話システムに対する前記発話音声であるか否かを判断することで、前記複数の周囲音声情報を前記第1の音声情報と前記第2の音声情報とに分離し、前記第1の音声情報を含む周囲音声情報が取得されたマイクの指向性に基づいて、前記発話者の位置を特定し、前記発話者の位置と、前記第1の再生方法及び前記第2の再生方法のいずれかとを対応付けて記憶する音声情報データベースを参照し、特定した前記発話者の位置に前記第1の再生方法及び前記第2の再生方法のいずれかが対応付けられているか否かを判断し、特定した前記発話者の位置に前記第1の再生方法及び前記第2の再生方法のいずれかが対応付けられていると判断した場合、特定した前記発話者の位置に対応付けられている前記第1の再生方法及び前記第2の再生方法のいずれかにより、前記応答音声を再生し、特定した前記発話者の位置に前記第1の再生方法及び前記第2の再生方法のいずれも対応付けられていないと判断した場合、前記第1の音声情報の音声レベルと、前記第2の音声情報の音声レベルとを比較し、前記第1の音声情報の音声レベルが、前記第2の音声情報の音声レベルより高い場合に、前記第1の再生方法で前記応答音声を再生し、前記第1の音声情報の音声レベルが、前記第2の音声情報の音声レベルより低い場合に、前記第2の再生方法で前記応答音声を再生し、特定した前記発話者の位置と、前記応答音声が再生された前記第1の再生方法及び前記第2の再生方法のいずれかとを対応付けて前記音声情報データベースに記憶してもよい。
この構成によれば、第1の再生方法は、指向性を有しない再生方法であり、第2の再生方法は、発話者に対して指向性を有する再生方法である。周囲音声情報は、複数のマイクを含むアレイマイクシステムから取得される、所定の角度ごとに指向性を有する複数の周囲音声情報を含む。複数の周囲音声情報のそれぞれが音声対話システムに対する発話音声であるか否かが判断されることで、複数の周囲音声情報が第1の音声情報と第2の音声情報とに分離される。第1の音声情報を含む周囲音声情報が取得されたマイクの指向性に基づいて、発話者の位置が特定される。発話者の位置と、第1の再生方法及び第2の再生方法のいずれかとを対応付けて記憶する音声情報データベースが参照され、特定された発話者の位置に第1の再生方法及び第2の再生方法のいずれかが対応付けられているか否かが判断される。特定された発話者の位置に第1の再生方法及び第2の再生方法のいずれかが対応付けられていると判断された場合、特定された発話者の位置に対応付けられている第1の再生方法及び第2の再生方法のいずれかにより、応答音声が再生される。また、特定された発話者の位置に第1の再生方法及び第2の再生方法のいずれも対応付けられていないと判断された場合、第1の音声情報の音声レベルと、第2の音声情報の音声レベルとが比較される。第1の音声情報の音声レベルが、第2の音声情報の音声レベルより高い場合に、第1の再生方法で応答音声が再生される。また、第1の音声情報の音声レベルが、第2の音声情報の音声レベルより低い場合に、第2の再生方法で応答音声が再生される。特定された発話者の位置と、応答音声が再生された第1の再生方法及び第2の再生方法のいずれかとが対応付けられて音声情報データベースに記憶される。
したがって、発話者の位置と再生方法とを対応付けて音声情報データベースに予め記憶しておき、発話者の位置が、音声情報データベースに予め記憶されている発話者の位置と同じである場合は、記憶されている発話者の位置に対応付けられている再生方法を選択することができ、再生方法を決定するために要する処理時間を短縮することができる。
また、上記の音声再生方法において、前記発話音声を発話した発話者を識別し、前記発話者を識別する情報と、前記第1の再生方法及び前記第2の再生方法のいずれかとを対応付けて記憶する音声情報データベースから、識別した前記発話者に対応付けられている前記第1の再生方法及び前記第2の再生方法のいずれかを選択し、前記第1の再生方法及び前記第2の再生方法のいずれかにより、前記応答音声を再生してもよい。
この構成によれば、発話音声を発話した発話者が識別される。発話者を識別する情報と、第1の再生方法及び第2の再生方法のいずれかとを対応付けて記憶する音声情報データベースから、識別された発話者に対応付けられている第1の再生方法及び第2の再生方法のいずれかが選択される。第1の再生方法及び第2の再生方法のいずれかにより、応答音声が再生される。
したがって、発話者を識別する情報と再生方法とを対応付けて音声情報データベースに予め記憶しておき、識別された発話者が、音声情報データベースに予め記憶されている発話者を識別する情報と同じである場合は、記憶されている発話者を識別する情報に対応付けられている再生方法を選択することができ、再生方法を決定するために要する処理時間を短縮することができる。
また、上記の音声再生方法において、前記第1の再生方法は、指向性を有しない再生方法であり、前記第2の再生方法は、発話者に対して指向性を有する再生方法であり、分離した前記第1の音声情報が予め記憶部に記憶されている所定のキーワードを含むか否かを判断し、前記第1の音声情報が前記所定のキーワードを含むと判断した場合、前記第1の再生方法で前記応答音声を再生し、前記第1の音声情報が前記所定のキーワードを含まないと判断した場合、前記第2の再生方法で前記応答音声を再生してもよい。
この構成によれば、第1の再生方法は、指向性を有しない再生方法であり、第2の再生方法は、発話者に対して指向性を有する再生方法である。分離された第1の音声情報が予め記憶部に記憶されている所定のキーワードを含むか否かが判断される。第1の音声情報が所定のキーワードを含むと判断された場合、第1の再生方法で応答音声が再生される。また、第1の音声情報が所定のキーワードを含まないと判断された場合、第2の再生方法で応答音声が再生される。
したがって、第1の音声情報が予め記憶部に記憶されている所定のキーワードを含むか否かによって再生方法が決定されるので、再生方法を容易に決定することができる。
また、上記の音声再生方法において、分離した前記第1の音声情報の発話内容を分析し、分析した前記発話内容が前回取得した第1の音声情報の発話内容と同じであるか否かを判断し、分析した前記発話内容が前回の発話内容と同じであると判断した場合、前記応答音声を再生せず、分析した前記発話内容が前回の発話内容と同じではないと判断した場合、前記第1の音声情報の音声レベルと、前記第2の音声情報の音声レベルとを比較し、比較した結果に応じて、前記第1の再生方法及び前記第2の再生方法のいずれかにより、前記応答音声を再生し、分析した前記発話内容を前記記憶部に記憶してもよい。
この構成によれば、分離された第1の音声情報の発話内容が分析される。分析された発話内容が前回取得した第1の音声情報の発話内容と同じであるか否かが判断される。分析された発話内容が前回の発話内容と同じであると判断された場合、応答音声が再生されない。また、分析された発話内容が前回の発話内容と同じではないと判断された場合、第1の音声情報の音声レベルと、第2の音声情報の音声レベルとが比較される。比較された結果に応じて、第1の再生方法及び第2の再生方法のいずれかにより、応答音声が再生される。そして、分析された発話内容が記憶部に記憶される。
したがって、例えば、発話者の周囲の騒音が大きくて応答音声が聞こえにくい場合に、2回目の発話音声に対する応答音声の再生を中止することができるので、不要な応答音声の再生をキャンセルすることができる。
また、上記の音声再生方法において、前記第1の再生方法は、指向性を有しない再生方法であり、前記第2の再生方法は、発話者に対して指向性を有する再生方法であり、分離した前記第2の音声情報に含まれる人の音声の音声レベルを通常音声レベルとして音声レベルデータベースに蓄積し、分離した前記第1の音声情報の音声レベルが、前記音声レベルデータベースに蓄積されている前記通常音声レベルの平均値より高いか否かを判断し、前記第1の音声情報の音声レベルが前記通常音声レベルの平均値より高いと判断した場合、前記第1の再生方法で前記応答音声を再生し、前記第1の音声情報の音声レベルが前記通常音声レベルの平均値より低いと判断した場合、前記第2の再生方法で前記応答音声を再生してもよい。
この構成によれば、第1の再生方法は、指向性を有しない再生方法であり、第2の再生方法は、発話者に対して指向性を有する再生方法である。分離された第2の音声情報に含まれる人の音声の音声レベルが通常音声レベルとして音声レベルデータベースに蓄積される。分離された第1の音声情報の音声レベルが、音声レベルデータベースに蓄積されている通常音声レベルの平均値より高いか否かが判断される。第1の音声情報の音声レベルが通常音声レベルの平均値より高いと判断された場合、第1の再生方法で応答音声が再生される。また、第1の音声情報の音声レベルが通常音声レベルの平均値より低いと判断された場合、第2の再生方法で応答音声が再生される。
したがって、音声対話システムに対する指示を発話した発話音声の音声レベルと、通常の会話で発話者が発話した音声の音声レベルとを比較することにより、再生方法を決定することができる。
また、上記の音声再生方法において、前記第1の音声情報の音声レベルと、前記第2の音声情報の音声レベルとを比較し、比較した結果に応じて、前記第1の再生方法及び前記第2の再生方法のいずれかにより、前記発話音声により制御される制御対象機器が再生する音声を再生してもよい。
この構成によれば、第1の音声情報の音声レベルと、第2の音声情報の音声レベルとが比較された結果に応じて、第1の再生方法及び第2の再生方法のいずれかにより、発話音声により制御される制御対象機器が再生する音声が再生される。
したがって、発話音声に対する応答音声だけでなく、発話音声により制御される制御対象機器が再生する音声の再生方法についても制御することができる。
本開示の他の態様に係る音声対話装置は、発話音声に対する応答音声を再生する音声対話装置であって、前記音声対話装置に対して発話した発話音声を含み、前記発話音声の発話者の周囲の音を表す周囲音声情報を、前記発話音声を含む第1の音声情報と、前記発話音声以外の音を含む第2の音声情報とに分離する音声分離部と、前記第1の音声情報の音声レベルと、前記第2の音声情報の音声レベルとを比較する比較部と、比較した結果に応じて、第1の再生方法及び前記第1の再生方法とは再生する音声の指向性が異なる第2の再生方法のいずれかにより、前記応答音声を再生する再生制御部と、を備える。
この構成によれば、音声対話装置に対して発話した発話音声を含み、発話音声の発話者の周囲の音を表す周囲音声情報が取得される。周囲音声情報が、発話音声を含む第1の音声情報と、発話音声以外の音を含む第2の音声情報とに分離される。第1の音声情報の音声レベルと、第2の音声情報の音声レベルとが比較される。比較された結果に応じて、第1の再生方法及び第1の再生方法とは再生する音声の指向性が異なる第2の再生方法のいずれかにより、応答音声が再生される。
したがって、音声対話装置に対して発話した発話音声を含む第1の音声情報の音声レベルと、発話音声以外の音を含む第2の音声情報の音声レベルとの比較結果に応じて、第1の再生方法及び第1の再生方法とは再生する音声の指向性が異なる第2の再生方法のいずれかにより、応答音声が再生されるので、発話者の周囲の状況に応じた再生方法で応答音声を再生することができる。
本開示の他の態様に係る音声対話プログラムは、発話音声に対する応答音声を再生する音声対話プログラムであって、音声対話装置を、前記音声対話装置に対して発話した発話音声を含み、前記発話音声の発話者の周囲の音を表す周囲音声情報を、前記発話音声を含む第1の音声情報と、前記発話音声以外の音を含む第2の音声情報とに分離する音声分離部と、前記第1の音声情報の音声レベルと、前記第2の音声情報の音声レベルとを比較する比較部と、比較した結果に応じて、第1の再生方法及び前記第1の再生方法とは再生する音声の指向性が異なる第2の再生方法のいずれかにより、前記応答音声を再生する再生制御部として機能させる。
この構成によれば、音声対話装置に対して発話した発話音声を含み、発話音声の発話者の周囲の音を表す周囲音声情報が取得される。周囲音声情報が、発話音声を含む第1の音声情報と、発話音声以外の音を含む第2の音声情報とに分離される。第1の音声情報の音声レベルと、第2の音声情報の音声レベルとが比較される。比較された結果に応じて、第1の再生方法及び第1の再生方法とは再生する音声の指向性が異なる第2の再生方法のいずれかにより、応答音声が再生される。
したがって、音声対話装置に対して発話した発話音声を含む第1の音声情報の音声レベルと、発話音声以外の音を含む第2の音声情報の音声レベルとの比較結果に応じて、第1の再生方法及び第1の再生方法とは再生する音声の指向性が異なる第2の再生方法のいずれかにより、応答音声が再生されるので、発話者の周囲の状況に応じた再生方法で応答音声を再生することができる。
以下、本開示の実施の形態における音声対話装置又は音声対話システムについて、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体的を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、又はステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。
なお、これらの全般的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なCD−ROM等の記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録媒体の任意な組み合わせで実現されてもよい。
(音声対話装置の構成)
図1は、本開示の実施の形態における音声対話装置の構成を示す図である。図1に示す音声対話装置100は、本実施の形態における全ての構成を一つの装置に備える構成例である。別の構成例に関しては図4を用いて後述する。なお、図1に示す音声対話装置100の構成は一例であり、図1に示されている構成以外の構成を備えていてもよいし、また一部の構成が欠けていてもよい。
図1は、本実施の形態の一形態である音声対話装置100の構成例を示す。音声対話装置100は、音声取得部101、通信部102、表示部103、制御部104、再生部105、画像取得部106及び音情報DB(データベース)107を備える。なお、各構成は、必ずしも音声対話装置100の内部に設けられていなくてもよい。例えば、通信部102、表示部103、画像取得部106又は音情報DB107は音声対話装置100に必須の構成ではない。また、音声取得部101が、音声対話装置100の外部装置に設けられており、音声対話装置100と外部装置とが有線又は無線で接続されていてもよい。音声対話装置100は、一つの家庭に一台のみ配置されているとは限らず、一つの家庭に複数台配置されている場合もある。
また、音声対話装置100は、例えばテレビなどの家電機器であってもよいし、マイク、スピーカ又はカメラが搭載された専用の装置であってもよい。
まず、図1を用いて、本実施の形態の一形態である音声対話装置100の各構成について説明する。
音声取得部101は、例えばマイクなどである。音声取得部101が取得する音には、音声対話装置100を使用する際に音声対話装置100(音声対話システム)に対して音声コマンドを発話する発話者の音声、音声対話装置100(音声対話システム)に対して音声コマンドを発話している発話者以外の人の音声、発話者の周囲の機器から発せられる機器ノイズ、又は生活音などの周囲の騒音などが含まれる。
ここで、音声取得部101は、音声を取得する際の指向性を制御する指向性制御部と、取得した音声に対して音源分離をする信号処理部(図示せず)を備えることが望ましい。これにより、音声取得部101への各音の到来方向(領域)ごとに音声を取得(分離)することができるので、音声コマンドを発話した発話者の発話音声と、当該発話者以外の人の音声と、周囲の騒音とに分離する精度を向上させることができる。なお、信号処理部(図示せず)は、制御部104に含まれていてもよい。
通信部102は、インターネット等のネットワークと接続することで他の機器又はサーバ装置と通信し、種々の情報を送受信する。上述したように通信部102は音声対話装置100に必須の構成ではない。
表示部103は、種々の情報を表示する。表示部103は、一般的なディスプレイであればよいので、説明を省略する。上述したように表示部103は音声対話装置100に必須の構成ではない。
制御部104は、例えばCPU(中央演算処理装置)、プロセッサ又はマイクロコンピュータなどであり、他の機器を制御し、音声認識処理、画像処理又は収音信号処理などの機能を有している。制御部104は、音声取得部101及び表示部103などの各構成の動作を制御する。また、制御部104は、物理的に1つの制御ユニットにまとめられている必要はなく、物理的に別体である複数の制御ユニットが搭載される場合は、複数の制御ユニットの全てが制御部104に含まれる。制御部104の機能に関しては後述する。
再生部105は、制御部104で制御された信号を再生する。再生部105は、例えば、複数のスピーカユニットをアレイ上に配置したスピーカ(アレイスピーカ)であり、再生する応答音声の指向性を制御可能なスピーカであればよい。再生部105は、音声対話装置100内に備えられていなくてもよい。例えば、再生部105は、外付けのスピーカなどであってもよく、再生部105と音声対話装置100とが有線又は無線により接続されてもよい。
画像取得部106は、例えば音声対話装置100がテレビである場合に、テレビに設けられているカメラである。音声対話装置100に対して発話する発話者の位置が特定されれば、発話者の位置に指向性を向けることで、応答音声を的確に発話者の位置へ返すことができ、音声認識精度を向上させることができる。上述したとおり、本実施の形態では画像取得部106は音声対話装置100に必須の構成ではない。画像取得部106を利用して、音声対話装置100に対して発話する発話者の位置に指向性を向ける手法についての詳細は実施の形態2で説明する。
音情報DB107は、音声取得部101で取得した音声対話装置100に対して発話する発話者の音声コマンド又は音声情報を蓄積している。音情報DB107は、音声対話装置100に対して発話する発話者が音声コマンドを発話した回数又は音声コマンドの音声レベルを含む個人の音声信号の特徴を、関連付けて管理及び蓄積していてもよい。音情報DB107にこれらの情報が管理及び蓄積されていれば、制御部104が、音声取得部101で取得した音声対話装置100に対して発話する発話者の音声コマンドの特徴を解析し、音情報DB107に蓄積されている音声コマンドと同じ音声レベル又は特徴を有する音声コマンドを分析することにより、音声対話装置100に対して発話する発話者が音声対話装置100を使用する時間の頻度又は周囲の騒音レベルの変動がわかる。よって、音声対話装置100に対して発話者が音声コマンドを発話した時間、環境又は状況に応じた再生方法で音量を調整し、応答することができる。なお、上述したように音情報DB107は音声対話装置100に必須の構成ではない。
(制御部の機能構成)
図2を用いて制御部104の機能構成を説明する。図2は、本開示の実施の形態における制御部の機能構成を示す図である。なお、図2に記載の制御部104の機能構成は一例であり、図2に示されている制御部104の機能構成以外の構成を備えていてもよい。
音声対話装置100の制御部104は、音情報取得部201、分析部202、判断部203及び再生制御部206を備える。各部の動作及び処理の流れに関しては図3を用いて後述する。
音情報取得部201は、音声対話装置に対して発話した発話音声を含み、発話音声の発話者の周囲の音を表す周囲音声情報を取得する。
分析部202は、音情報取得部201によって取得された周囲音声情報を、音声対話装置100に対して発話した発話音声を含む第1の音声情報と、発話音声以外の音を含む第2の音声情報とに分離する。
判断部203は、第1の音声情報の音声レベルと、第2の音声情報の音声レベルとを比較する。判断部203は、第1の音声情報の音声レベルが第2の音声情報の音声レベルより高いか否かを判断する。
再生制御部206は、判断部203によって比較された結果に応じて、第1の再生方法及び第1の再生方法とは再生する音声の指向性が異なる第2の再生方法のいずれかにより、応答音声を再生する。第1の再生方法は、指向性を有しない再生方法であり、第2の再生方法は、発話者に対して指向性を有する再生方法である。再生制御部206は、通常再生制御部204及びエリア再生制御部205を備える。
通常再生制御部204は、判断部203によって第1の音声情報の音声レベルが第2の音声情報の音声レベルより高いと判断された場合に、第1の再生方法で応答音声を再生する。
エリア再生制御部205は、判断部203によって第1の音声情報の音声レベルが第2の音声情報の音声レベルより低いと判断された場合に、第2の再生方法で応答音声を再生する。
なお、判断部203によって第1の音声情報の音声レベルが第2の音声情報の音声レベルと同じであると判断された場合は、通常再生制御部204が、第1の再生方法で応答音声を再生してもよいし、エリア再生制御部205が、第2の再生方法で応答音声を再生してもよい。
(音声対話装置100の処理)
図3は、本実施の形態における音声対話装置の動作の一例を示すフローチャートである。
まず、音情報取得部201は、音声取得部101によって取得された音情報(周囲音声情報)を取得する(ステップS301)。当該取得した音情報には、例えば、音声対話装置100(音声対話システム)に対して音声コマンドを発話する発話者の音声と、音声対話装置100(音声対話システム)に対して音声コマンドを発話する発話者以外の人の音声と、人が発話した音声以外の騒音とが含まれる。また、ここで取得する音情報は、到来方向ごとに分離された情報であることが望ましい。音声取得部101が指向性収音を行うことができるマイクであれば、音情報取得部201は、音の到来方向(角度を有する複数の領域)ごとの音情報を取得できる。音情報取得部201は、音の到来方向(角度を有する複数の領域)ごとの音情報を取得する。音情報取得部201は、取得した音情報を分析部202に出力する。すなわち、音情報取得部201は、複数のマイクを含むアレイマイクシステムから取得される、所定の角度ごとに指向性を有する複数の周囲音声情報を取得してもよい。
次に、分析部202は、音情報取得部201によって取得された周囲音声情報を、音声対話装置100に対して発話した発話音声を含む第1の音声情報と、発話音声以外の音を含む第2の音声情報とに分離する(ステップS302)。
分析部202は、音情報取得部201によって取得された音情報を分析(分類又は分離を含む)する。
分析部202は、少なくとも音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の音声と、音声コマンドを発話した発話者以外の人が発話した音声とに音情報を分類する。また、分析部202は、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の音声と、音声コマンドを発話した発話者以外の人が発話した音声と、音声以外の周囲の騒音との3つに音情報を分類してもよい。
ここで、ステップS301において、音の到来方向ごとの音情報を取得している場合は、分析部202は、音の到来方向(領域)ごとの音情報のそれぞれに対して、音声対話システムに対して発話した発話音声を含む第1の音声情報と、発話音声以外の音を含む第2の音声情報とに分類する。すなわち、分析部202は、取得した複数の周囲音声情報のそれぞれが、音声対話装置100に対する発話音声であるか否かを判断することで、複数の周囲音声情報を第1の音声情報と第2の音声情報とに分離してもよい。
また、ステップS301において、音の到来方向ごとの音情報を取得することが望ましいと記載したが、分析部202が、取得した音情報に対して到来方向ごとの音情報に分離する処理を行ってもよい。すなわち、分析部202は、取得した音情報を、音の到来方向(領域)ごとの音情報に分離した後、各到来方向(領域)の音情報が、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声を含む第1の音声情報と、発話音声以外の音を含む第2の音声情報とのいずれであるかを判断してもよい。
次に、判断部203は、第1の音声情報の音声レベルと第2の音声情報の音声レベルとを比較し、第1の音声情報の音声レベルが第2の音声情報の音声レベルより高いか否かを判断する(ステップS303)。
判断部203は、分析部202で分析した結果に基づき、音声対話装置100(音声対話システム)に対して音声コマンドを発話する発話者の音声の音声レベルと、それ以外の音声の音声レベルとを比較する。ここで、音声レベルとは音の高さを示し、音量又はボリュームと表現してもよい。
続いて、判断部203で比較した結果、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声を含む第1の音声情報の音声レベルが、発話音声以外の音を含む第2の音声情報の音声レベルより高いと判断された場合(ステップS303でYES)、ステップS304の処理に進む。一方、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声を含む第1の音声情報の音声レベルが、発話音声以外の音を含む第2の音声情報の音声レベルより低いと判断された場合(ステップS303でNO)、ステップS305の処理に進む。
第1の音声情報の音声レベルが第2の音声情報の音声レベルより高いと判断された場合、ステップS304において、通常再生制御部204は、第1の再生方法で応答音声を再生するように再生部105を制御する。もしくは、通常再生制御部204は、第1の再生方法で応答音声を再生するように再生部105を制御するための制御情報を生成する。ここでは、第1の再生方法は通常の再生方法である。通常の再生方法とは、指向性を持たせずに音声(応答音声)を再生する再生方法である。
一方、第1の音声情報の音声レベルが第2の音声情報の音声レベルより低いと判断された場合、ステップS305において、エリア再生制御部205は、第2の再生方法で応答音声を再生するように再生部105を制御する。もしくは、エリア再生制御部205は、第2の再生方法で応答音声を再生するように再生部105を制御するための制御情報を生成する。ここでは、第2の再生方法は、指向性再生で音声(応答音声)を再生する再生方法である。第2の再生方法では、発話者の方向のみに向けて応答音声が再生される。ここで、ステップS302において、音の到来方向(領域)ごとに、音声対話装置100(音声対話システム)に対して音声コマンドを発話する発話者の発話音声を含む第1の音声情報と、発話音声以外の音を含む第2の音声情報とに分類した場合、エリア再生制御部205は、第1の音声情報に分類された領域に、指向性再生(エリア再生)を行う。
なお、再生部105は、第2の再生方法で再生する応答音声の音声レベルを、第1の再生方法で再生する応答音声の音声レベルより大きくしてもよい。
(音声対話システムの構成)
次に、図4を用いて、本実施の形態の別の構成例を説明する。図4は、本実施の形態における音声対話システムの構成を示す図である。音声対話システムは、音声対話装置100とサーバ装置110とを備える。
図4に示す構成例では、音声対話装置100は、ネットワーク120を介して外部のサーバ装置110と互いに通信可能に接続される。サーバ装置110と音声対話装置100との接続(通信)の方法は特に限定しない。サーバ装置110と音声対話装置100とは、無線で接続されていてもよいし、有線で接続されていてもよい。サーバ装置110が設置されている場所に関しては、特に限定しない。サーバ装置110は、ビッグデータを取り扱うデータセンターを管理及び運営する会社が保有するデータセンターに配置されていてもよいし、各家庭に配置されていてもよい。すなわち、サーバ装置110は、音声対話装置100と同一の空間に配置されていてもよいし、音声対話装置100とは別の空間に配置されていてもよい。
図4の例では、音声対話装置100は、音声取得部101、通信部102、表示部103、制御部104、再生部105、画像取得部106及び音情報DB107を備える。図1に示す例と同様、表示部103、画像取得部106及び音情報DB107は、音声対話装置100に必須の構成ではない。ただし、図4の例では、通信部102は、音声対話装置100に必須の構成となる。また、サーバ装置110は、制御部111、通信部112及び音情報DB113を備える。
図4に示す音声対話装置100の各構成の機能に関しては、上記で説明した各構成と同様であるので説明を省略する。通信部102は、例えばインターネットであるネットワーク120を介してサーバ装置110の通信部112と接続する。これにより、通信部102は、音声対話装置100にて取得した音情報をサーバ装置110に送信することができる。サーバ装置110は、通信部112を介して複数の音声対話装置と接続されていてもよい。
サーバ装置110における制御部111、通信部112及び音情報DB113の基本的な機能は、音声対話装置100における制御部104、通信部102及び音情報DB107の機能と同様であるので、その説明を省略する。
図4に示す構成例のように、音声対話装置100は、サーバ装置110と通信することで、一部の構成をサーバ装置110側に備えることができる。言い換えると、音声対話装置100は、サーバ装置110と通信をすることで、一部の処理をサーバ装置110側に負担させることができる。例えば、比較的処理負荷の小さい処理を音声対話装置100で行い、比較的処理負荷の大きい処理をサーバ装置110で行うことにより、音声対話装置100側の処理負荷を軽減することができる。また、音声対話装置100の音情報DB107には比較的情報量の小さい情報のみを蓄積し、サーバ装置110の音情報DB113には比較的情報量の大きい情報を蓄積することにより、音声対話装置100側のメモリ消費を低減できる。また、サーバ装置110に接続された他の音声対話装置(図示せず)から取得した情報を利用することもできる。
なお、図1及び図4は音声対話装置及び音声対話システムの構成における一例にすぎず、本実施の形態では、図1及び図4のいずれを採用してもよいし、図示した以外の装置を音声対話装置及び音声対話システムに採用することもできる。
また、図2に示す制御部104の機能構成は、図1及び図4のいずれの構成例でも共通する機能構成である。なお、図4の場合、図2に示した各機能構成の一部を制御部104が備え、他の機能構成を制御部111が備えればよい。例えば、制御部104が音情報取得部201、判断部203及び再生制御部206を備え、制御部111が分析部202を備えてもよい。また、例えば、制御部111が、音情報取得部201、分析部202、判断部203及び再生制御部206の全てを備えていてもよい。
(音声対話システムの動作例)
以下、図5を用いて、音声対話システムを実現する具体的な各装置の動作の一例を説明する。図5は、本実施の形態における音声対話システムの動作を説明するためのシーケンス図である。ここでは、図4に示した音声対話装置(テレビ)100とサーバ装置110とによって音声対話システムを実現する例を示すが、図4に示す音声対話システムの動作は一例であり本実施の形態を限定するものではない。
まず、ステップS401において、音声対話装置100の音声取得部101は、取得した音情報(周囲音声情報)を通信部102に出力する。ここで、音声取得部101が取得する音情報は、音の到来方向ごとに分離された音情報であることが望ましい。すなわち、音声取得部101が通信部102に出力する音情報は、音の到来方向ごとに分離された複数の音情報である。
音声取得部101が音情報を取得するタイミング、及び音声取得部101が取得した音情報を通信部102に出力するタイミングに関しては特に限定しない。例えば、音声対話装置100がテレビである場合、音声取得部101は、テレビの電源がONになっている間は常に音情報を取得してもよい。また、音情報の中にマジックワード(所定のキーワード)が検出された時(直後)に、音声取得部101は、音情報を通信部102に出力してもよい。マジックワードとは、特定の機器及びシステムを起動するためのキーワードである。例えば、ある特定のシステムでは、「マイクオン」のマジックワードをマイクで収音した時にシステムが起動する。このマジックワードに連続して、機器を制御するための音声コマンドが発声されることで、システムのマイクが起動され、システムへの音声コマンドの指示通りに、特定のシステムが制御される。
マジックワードを用いて音情報を取得するか否かを切り替える場合は、音声取得部101は、音声認識部(図示せず)及びマジックワード検出部(図示せず)を含む。音声認識部は、取得した音情報をテキスト情報に変換する。マジックワード検出部は、音声認識部によって変換されたテキスト情報の中から、予め記憶しているマジックワードを検出する。マジックワード検出部は、テキスト情報の中からマジックワードが検出された場合、音情報を通信部102へ出力する。
また、制御部104が音声認識部(図示せず)及びマジックワード検出部(図示せず)を含んでいてもよい。この場合は、音声取得部101は常に音情報を取得しており、制御部104が取得した音情報に対して音声認識処理及びマジックワード検出処理を行うことで、システムに対して発話している時間区間を特定することができる。そして、制御部104は、通信部102に対して、特定した時間区間の音情報のみをサーバ装置110に送信するように制御してもよい。
次に、ステップS402において、音声対話装置100の通信部102は、ネットワーク120を介して、取得した音情報をサーバ装置110に送信する。ここで、通信部102がサーバ装置110に音情報を送信するタイミングに関しては特に限定しない。
通信部102は、音声取得部101が音情報を取得する度に、随時音情報をサーバ装置110に送信してもよい。
上記したように、音声取得部101が音声認識部及びマジックワード検出部を備えている場合には、音声取得部101が取得した音情報は、既にシステムに対して発話している時間区間に取得されたと推定される。そのため、この場合、通信部102は、音声取得部101によって取得された全ての音情報をサーバ装置110に送信する。そのため、通信部102は、音声取得部101から音情報を取得したタイミングで、音情報を送信してもよい。
また、制御部104が音声認識部及びマジックワード検出部を備える場合は、制御部104が、発話者がシステムに対して音声コマンドを発話している時間区間を特定している。そのため、通信部102は、制御部104によって特定された時間区間のみ音情報をサーバ装置110に送信する。そのため、通信部102は、システムに対して音声コマンドが発話されている時間区間が制御部104によって特定されたタイミングで、音情報を送信してもよい。
また、音声取得部101は、取得した音情報を音情報DB107に蓄積してもよい。この場合、通信部102は、一定の量の音情報が音情報DB107に蓄積されたタイミング、又は一定時間ごとのタイミングで、サーバ装置110に音情報を送信してもよい。
この時、一つのサーバ装置110に対して複数の音声対話装置100が接続されている場合、通信部102は、音情報と合わせて音声対話装置100を特定するID(識別情報)を送信してもよい。
そして、サーバ装置110の制御部111は、通信部112を介して音声対話装置100から音情報を取得する。制御部111が音情報を取得する処理は、図3のステップS301の処理に相当する。
次に、ステップS403において、サーバ装置110の制御部111は、音声対話装置100から送信された音情報を分析する。ここでは、制御部111は、取得した音の到来方向ごとの音情報を、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声を含む第1の音声情報と、発話音声以外の音を含む第2の音声情報とに分離する。制御部111が音情報を分離する処理は、図3のステップS302の処理に相当する。
制御部111の分析部202は、少なくとも取得した音情報を音源毎に分離する音源分離部を含む。音源分離部は、取得した音情報に対して、スペクトルの情報又は発声パワーの特徴量から、少なくとも、音声コマンドを発話した発話者の発話音声を含む第1の音声情報と、発話音声以外の音を含む第2の音声情報とに音源分離を行う。ここで、ステップS402の処理において取得した音情報が音の到来方向(領域)ごとに分離されている場合、音源分離部は、領域ごとに音情報を分離する。以下に、音源分離の一例を説明する。
まず、音源分離部は、例えば取得した音情報に対して、音の到来方向(領域)ごとに、人の音声と、人以外の音とに分離する。音の到来方向の取得に関しては、上記したように音声取得部101が指向性収音を行うマイク(アレイ状に並べた複数のマイク)である場合に、音声取得部101は、複数の角度領域ごとに指向性ビームを変化させながら収音することで、複数の角度領域(音の到来方向)ごとの音情報を取得する。
また、音情報の他の分離方法としては、一般的な人の音声のスペクトル情報又は特徴量から分離する方法などが考えられる。例えば、騒音環境から音声信号のみを検出する方法としてスペクトルサブトラクション法が挙げられる。分析部202は、スペクトルサブトラクション法を用いて周囲音声情報を第1の音声情報と第2の音声情報とに分離してもよい。ただし、音情報を人の音声と人の音声以外の音とに分離する方法はスペクトルサブトラクション法に限られない。分析部202は、予め音声対話装置100が配置される空間の環境音情報を把握(蓄積)し、取得した音情報に対して環境音情報と環境音情報以外の音声情報とに分類することで、音情報を人の音声と人の音声以外の音とに分離してもよい。
そして、分析部202は、分離した人の音声をさらに詳細に分析することで、音の到来方向(領域)ごとに、音声対話システムに対して発話した発話者の音声と、発話者以外の人が発話した音声とに音情報を分離する。ここで、システムに対して発話した発話者の音声と、発話者以外の人が発話した音声とに音情報を分離する方法としては、例えば、マジックワード(所定のキーワード)を検出し、当該マジックワードを発話した発話者の声の特徴量を取得し、当該発話者をシステムに対して発話した発話者として特定し、他の音声特徴量を有している音情報と分離する方法などが考えられる。分析部202は、取得した複数の周囲音声情報のそれぞれに対し、予め記憶されている所定のキーワードが含まれているか否かを判断し、周囲音声情報に所定のキーワードが含まれている場合、当該周囲音声情報が音声対話システムに対する発話音声であると判断してもよい。
また、予め音声対話装置100に対して音声コマンドを発話できる人が制限されている場合は、発話者を識別して、制限されている人の音声と、制限されている人以外の人の音声とを分離することができる。例えば、音声対話装置100の保有者の音声が初期登録されており、音声対話装置100の音情報DB107に蓄積されていれば、分析部202は、蓄積された音声と合致する音声と合致しない音声とを分類することで、音声対話システムに対して発話した発話者の音声と、発話者以外の人が発話した音声とを分離することができる。
すなわち、上記の方法で音情報を分類すると、結果的に、各音の到来方向(領域)ごとに、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の音声と、音声コマンドを発話した発話者以外の人が発話した音声と、周囲騒音との3つに音情報が分類される。ここで、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の音声が、上記した音声対話装置100(音声対話システム)に対して発話した発話者の発話音声に相当する。また、音声コマンドを発話した発話者以外の人が発話した音声と、周囲騒音とを併せた音が、上記した発話音声以外の音に相当する。なお、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の音声が、上記した音声対話装置100(音声対話システム)に対して発話した発話者の発話音声に相当し、音声コマンドを発話した発話者以外の人が発話した音声が、上記した発話音声以外の音に相当してもよい。
ここで、分析部202は、音の到来方向(領域)ごとに、音声コマンドを発話する発話者の発話音声と、発話音声以外の音声とに音源分離を行うと記載したが、このステップS403のタイミングで音の到来方向(領域)ごとに音源分離を行わなくてもよい。ただし、後述するステップS408において発話者に対して指向性を向けて応答音声を再生する場合は、必ず事前にシステムに対して発話した発話者の方向(位置又は領域)を特定する必要がある。よって、音情報を分離する段階で各音の到来方向(領域)ごとに音情報を分析しておくことが望ましい。
次に、ステップS404において、サーバ装置110の制御部111は、ステップS403の分析結果を用いて、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声を含む第1の音声情報の音声レベルと、発話音声以外の音を含む第2の音声情報の音声レベルとを比較する。
ここで、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声が上記した第1の音声情報に相当し、音声コマンドを発話した発話者以外の人が発話した音声と周囲騒音とを併せた音声が上記した第2の音声情報に相当する場合、制御部111は、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声の音声レベルと、音声コマンドを発話した発話者以外の人が発話した音声の音声レベルに周囲騒音の音声レベルを加算した音声レベルとを比較する。
なお、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声が上記した第1の音声情報に相当し、音声コマンドを発話した発話者以外の人が発話した音声が上記した第2の音声情報に相当するとした場合、制御部111は、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声の音声レベルと、音声コマンドを発話した発話者以外の人が発話した音声の音声レベルとを比較し、周囲騒音の音声レベルは無視する。
なお、ステップS404の処理は図3のS303の処理に相当する。
次に、ステップS405において、制御部111は、ステップS404で比較した結果に基づいて再生方法を決定する。具体的には、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声の音声レベルが、発話音声以外の音声の音声レベルより高い場合には、制御部111は、再生方法を第1の再生方法(通常の再生方法)に決定し、第1の再生方法で応答音声を再生するように再生部105を制御するための制御情報を生成する。ここでは、第1の再生方法は通常の再生方法である。通常の再生方法とは、指向性を持たせずに音声を再生する再生方法である。
一方、音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声の音声レベルが、発話音声以外の音声の音声レベルより低い場合には、制御部111は、再生方法を第2の再生方法に決定し、第2の再生方法で応答音声を再生するように再生部105を制御するための制御情報を生成する。ここでは、第2の再生方法は指向性再生で再生する再生方法である。なお、ステップS405の処理は図3のS304〜S305の処理に相当する。
次に、ステップS406において、制御部111は、音声コマンドに対する応答音声を作成する。まず、制御部111は、音声認識を行う。ここでは、制御部111は、ステップS403で音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声であると特定された到来方向(領域)の音情報のみに対して音声認識を行う。なお、制御部111は、音声認識をこの段階で行わなくてもよい。例えば、制御部111は、ステップS403の後など、事前に音声認識を行っていてもよい。また、音声対話装置100が音声認識を行ってもよい。
そして、制御部111は、音声認識の結果に基づいて、応答音声の応答内容を決定する。ここでは、制御部111は、外部の対話サーバ(図示せず)を利用して、応答内容を選択してもよい。対話サーバには、膨大な量の対話応答スクリプト(対話辞書)が用意されており、音声認識の結果と照合することで、応答内容を選択することができる。例えば、音声認識処理の結果「明日の天気は?」という認識結果が得られた場合、制御部111は、「雨です」などの応答内容を決定する。応答内容の決定方法については特に限定しない。
そして、制御部111は、選択した応答内容に応じて音声対話装置100で再生する応答音声の音声合成を行う。ここでは、制御部111は、音声合成を行うとともに、ステップS405で第2の再生方法(指向性再生)に決定された場合、応答音声を再生する方向を示す再生部105(スピーカ)の指向性パラメータに関する情報を生成する。すなわち、制御部111は、ステップS403で特定した音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声によって特定される到来方向(領域)に対して応答音声を再生するための指向性パラメータを生成する。
このように、制御部111は、分離した第1の音声情報に対して音声認識を行い、音声認識の結果を用いて応答音声を生成する。
次に、ステップS407において、サーバ装置110の制御部111は、ステップS405で決定した再生方法と、ステップS406で作成した応答音声とを音声対話装置100の通信部102を介して再生部105に送信する。ここで、ステップS405で第2の再生方法(指向性再生)に決定された場合、制御部111は、応答音声を再生する方向を示す再生部105(スピーカ)の指向性パラメータに関する情報も併せて送信する。すなわち、制御部111は、ステップS403で特定した音声対話装置100(音声対話システム)に対して音声コマンドを発話した発話者の発話音声によって特定される到来方向(領域)に対して応答音声を再生するための指向性パラメータを送信する。
次に、ステップS408において、再生部105は、取得した再生方法で応答音声を再生する。ここで、ステップS405で第2の再生方法(指向性再生)に決定されている場合、再生部105は、応答音声を再生する方向を示す再生部105(スピーカ)の指向性パラメータも併せて取得しているので、当該指向性パラメータで応答音声を指向性再生する。再生部105は、生成された応答音声を第1の再生方法及び第2の再生方法のいずれかにより再生する。再生部105は、第2の再生方法により応答音声を再生する際に、音声対話システムに対する発話音声であると判断された周囲音声情報が取得された角度の方向に向けて、応答音声を再生する。
(効果)
以上、本実施の形態によれば、音声対話装置100(音声対話システム)に対して発話している発話者の発話音声の音声レベルが発話音声以外の音の音声レベルより高いか否かを判断し、判断結果に基づいて、指向性を有しない通常の再生方法と、発話者に対して指向性を有する再生方法とのいずれかにより、応答音声が再生される。これによれば、状況に応じて最適な再生方法で対話の応答音声を再生することができる。
以下、音声対話装置100(音声対話システム)の利用シーンに関してより具体的に説明する。音声対話装置100の周辺に複数の人がおり、一人のみが音声対話装置100に対して質問した状況(以下、第1の状況ともいう)について説明する。
図6は、音声対話装置に対して発話している発話者の発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合における応答音声の第1の再生方法について説明するための模式図である。
音声対話装置100に対して発話している発話者10の発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合、音声対話装置100に対して発話した発話者10以外の人も音声対話装置100からの応答結果(応答音声)を確認するために音を発さないようにしていることが想定できる。すなわち、この場合、音声対話装置100の周辺に存在する全ての人が音声対話装置100からの応答結果(応答音声)に対して関心を持っている可能性が高い。また、周囲の騒音レベルが高くないので、指向性を持たせて音声対話装置100に対して発話した発話者10のみに再生する必要がない状況であることが推測できる。本実施の形態によれば、音声対話装置100に対して発話している発話者10の発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合において、自動的に指向性を有しない通常の第1の再生方法で応答音声を再生することができる(図6)。
図7は、音声対話装置に対して発話している発話者の発話音声の音声レベルが発話音声以外の音の音声レベルより低い場合における応答音声の第2の再生方法について説明するための模式図である。
音声対話装置100に対して発話している発話者10の発話音声の音声レベルが発話音声以外の音の音声レベルより低い場合、音声対話装置100に対して発話した発話者10以外の人(周囲の人)が音を発している(音声対話装置100以外の人に対して発話又は会話している)ことが想定できる。すなわち、この場合、音声対話装置100に対して発話した発話者10以外の人は、音声対話装置100からの応答結果(応答音声)に対して関心を持っていない可能性が高い。また、周囲の騒音レベルが高いので、指向性を持たせて音声対話装置100に対して発話した発話者10のみに応答音声を再生する必要がある状況であることが推測できる。本実施の形態によれば、音声対話装置100に対して発話している発話者10の発話音声の音声レベルが発話音声以外の音の音声レベルより低い場合において、自動的に発話者10に対して指向性を有する第2の再生方法で応答音声を再生することができる(図7)。
このように、本実施の形態では、状況に応じて最適な再生方法で発話音声に対する応答音声を再生することができる。また、一般的に、所定の領域のみに向けて音声を再生するエリア再生を行う際には、音声対話装置100(音声対話システム)の演算量が増えるが、常にエリア再生を行う場合と比較して、音声対話装置100(音声対話システム)の処理負荷を低減することができる。
以下、本実施の形態の変形例について説明する。
(変形例1)
本実施の形態では、上記の例のように、音声対話装置100(音声対話システム)に対する発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合に、通常の再生方法(指向性を有しない第1の再生方法)で応答音声が再生され、音声対話装置100(音声対話システム)に対する発話音声の音声レベルが発話音声以外の音の音声レベルより低い場合に、エリア再生方法(発話者に対して指向性を有する第2の再生方法)で応答音声が再生される(以下、第1の再生制御パターンともいう)が、本開示はこれに限られない。例えば、状況に応じて上記の例とは異なる再生方法で応答音声を再生してもよい。
具体的には、上記で記載した第1の状況以外の状況において、音声対話装置100(音声対話システム)に対する発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合に、エリア再生方法(発話者に対して指向性を有する第2の再生方法)で応答音声が再生され、音声対話装置100(音声対話システム)に対する発話音声の音声レベルが発話音声以外の音の音声レベルより低い場合に、通常の再生方法(指向性を有しない第1の再生方法)で応答音声が再生されてもよい(以下、第2の再生制御パターンともいう)。第1の状況以外の状況とは、例えば、音声対話装置100(音声対話システム)に対して発話する人以外の人(例えば、幼児など)が音声対話装置100(音声対話システム)の周辺で寝ている状況(以下、第2の状況ともいう)である。音声対話装置100(音声対話システム)に対する発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合は、音声対話装置100(音声対話システム)に対して発話した人以外の人(例えば、幼児など)が物音を立てていない状況であるので、発話者以外の人は例えば睡眠をしている可能性がある。
したがって、第2の状況において、音声対話装置100(音声対話システム)に対する発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合に、発話者に対して指向性を有する第2の再生方法で応答音声が再生され、音声対話装置100(音声対話システム)に対する発話音声の音声レベルが発話音声以外の音の音声レベルより低い場合に、指向性を有しない第1の再生方法で応答音声が再生されることが好ましい。また、音声対話装置100(音声対話システム)は、このように状況に応じて再生制御を変更する際に、ユーザによる現在の状況の選択を受け付けてもよい。
なお、音声対話装置100(音声対話システム)に対して発話した発話者以外の人が幼児であるか否かは、画像取得部106によって取得された画像から画像認識を行い、幼児を検出することにより判定してもよい。
(変形例2)
また、制御部104は、分析部202によって取得された環境音から現在の状況を推測する状況推測部(図示せず)を備えてもよい。ここで、状況推測部は、例えば音情報から発話者を識別する話者識別部であってもよい。これによれば、取得した音声に応じて、システムの周囲にどんな人がいるのかを判断することができる。例えば話者識別により、上記した第2の状況のように音声対話装置100(音声対話システム)の周辺に幼児が存在すると判断された場合に、第2の再生制御パターンにて制御してもよい。
すなわち、話者識別部は、取得された周囲音声情報から周囲にいる人を識別してもよい。そして、判断部203は、第1の音声情報の音声レベルと第2の音声情報の音声レベルとを比較した結果と、周囲にいる人を識別した結果とに基づいて、第1の再生方法及び第2の再生方法のいずれで再生するかを切り替えてもよい。
例えば、周囲にいる人を識別した結果、周囲に幼児がいる場合、判断部203は、音声対話装置100(音声対話システム)に対する発話音声の音声レベルが発話音声以外の音の音声レベルより高いと判断した場合、発話者に対して指向性を有する第2の再生方法に決定し、音声対話装置100(音声対話システム)に対する発話音声の音声レベルが発話音声以外の音の音声レベルより低いと判断した場合、指向性を有しない第1の再生方法に決定してもよい。
なお、話者識別部は、画像取得部106によって取得された画像から周囲にいる人を識別してもよい。
(変形例3)
音情報DB107が過去の音声取得状況を蓄積している場合に、判断部203は、取得した音情報のみを用いるのではなく、音情報DBに蓄積されている音声取得状況も用いて再生方法を判断してもよい。具体的には、音情報DB107には、少なくとも過去に取得した音情報と、当該音情報が取得された時に判断した再生方法とが関連付けられてテーブル化されている。これにより、判断部203は、取得した音声情報(第1の音声情報)と音情報DB107に蓄積されている音声情報とが類似する場合には、ステップS303に示す比較処理を行わずに、過去に決定された再生方法と同じ再生方法に決定すればよい。
すなわち、判断部203は、過去に取得した第1の音声情報と、過去に第1の音声情報を再生した際に選択された第1の再生方法及び第2の再生方法のいずれかとを関連付けて記憶するテーブルを用いて、応答音声を再生する再生方法を選択してもよい。
また、ステップS303に示す比較処理と、音情報DB107に蓄積されている過去に取得された音情報と再生方法とを対応付けたテーブル情報とを併せて利用することで再生方法を決定してもよい。また、判断部203は、ステップS303に示す比較処理の結果、音声対話装置100(音声対話システム)に対する発話音声の音声レベルと発話音声以外の音の音声レベルとに所定値以上の差異が無い場合には、音情報DB107を利用して再生方法を決定してもよい。
(変形例4)
本実施の形態の変形例4では、発話者を識別する情報と、第1の再生方法及び第2の再生方法のいずれかとが対応付けて音声情報データベースに予め記憶されている。そして、取得された周囲音声情報が第1の音声情報と第2の音声情報とに分離され、発話者が識別される。識別された発話者に対応付けられている再生方法が音声情報データベースに存在する場合、音声情報データベースに記憶されている再生方法で応答音声が再生される。
分析部202が状況推測部(特に話者識別部)を備えており、音情報DB107に予め音声対話装置100(音声対話システム)を利用する一又は複数の発話者の音声の特徴と再生方法とが関連付けられて保持されている場合にも、ステップS303に示す比較処理を行わずに、再生方法を決定することが可能である。これによれば、例えば、父親が音声対話装置100(音声対話システム)に対して発話した場合には、いかなる状況であっても発話者である父親に対して指向性を有する第2の再生方法で応答音声を再生することが可能となる。すなわち、個人の好みに応じて最適な再生方法で応答音声を再生することができる。
ここで、本実施の形態の変形例4における音声対話装置100について説明する。
なお、本実施の形態の変形例10における音声対話装置100の構成については、図1及び図2を用いて説明する。
分析部202は、話者識別部(不図示)を備える。話者識別部は、発話音声を発話した発話者を識別する。
音情報DB107は、発話者を識別する情報と、第1の再生方法及び第2の再生方法のいずれかとを対応付けて記憶する。発話者を識別する情報とは、例えば、発話者の名前、発話者のニックネーム、又は発話者のID番号である。また、発話者を識別する情報は、発話者が発話した発話音声を示す音声情報であってもよく、発話者が発話した発話音声を示す音声情報の特徴量であってもよい。
また、音声対話装置100は、発話者を識別する情報及び再生方法のユーザによる入力を予め受け付けてもよい。音情報DB107は、予めユーザによって入力された発話者を識別する情報と、第1の再生方法及び第2の再生方法のいずれかとを対応付けて記憶してもよい。
再生制御部206は、音情報DB107から、識別された発話者に対応付けられている第1の再生方法及び第2の再生方法のいずれかを選択する。再生制御部206は、選択した第1の再生方法及び第2の再生方法のいずれかにより、応答音声を再生するように再生部105を制御する。
図8は、本実施の形態の変形例4における音声対話装置の動作の一例を示すフローチャートである。
ステップS1201及びステップS1202の処理は、図3に示すステップS301及びステップS302の処理と同じであるので、説明を省略する。
次に、ステップS1203において、話者識別部は、発話音声を発話した発話者を識別する。
次に、ステップS1204において、再生制御部206は、音情報DB107から、識別された発話者に対応付けられている第1の再生方法及び第2の再生方法のいずれかを選択する。
次に、ステップS1205において、再生制御部206は、選択した第1の再生方法及び第2の再生方法のいずれかにより、応答音声を再生するように再生部105を制御する。すなわち、識別された発話者に第1の再生方法が対応付けられている場合、通常再生制御部204は、指向性を有しない第1の再生方法で応答音声を再生するように再生部105を制御する。また、識別された発話者に第2の再生方法が対応付けられている場合、エリア再生制御部205は、発話者のみに指向性を有する第2の再生方法で応答音声を再生するように再生部105を制御する。
なお、上記の変形例4では、発話者を識別する情報と、第1の再生方法及び第2の再生方法のいずれかとが、予め対応付けて音情報DB107に記憶されている。しかしながら、音情報DB107は、発話者を識別する情報と、第1の再生方法及び第2の再生方法のいずれかとを必ずしも対応付けて記憶しているとは限らない。そのため、ステップS1203の処理の後、判断部203は、音情報DB107を参照し、識別された発話者に再生方法が対応付けられているか否かを判断してもよい。識別された発話者に再生方法が対応付けられている場合、再生制御部206は、音情報DB107から、識別された発話者に対応付けられている第1の再生方法及び第2の再生方法のいずれかを選択する。
一方、識別された発話者に再生方法が対応付けられていない場合、判断部203は、第1の音声情報の音声レベルが第2の音声情報の音声レベルより高いか否かを判断してもよい。そして、第1の音声情報の音声レベルが第2の音声情報の音声レベルより高いと判断された場合、通常再生制御部204は、第1の再生方法で応答音声を再生するように再生部105を制御する。また、第1の音声情報の音声レベルが第2の音声情報の音声レベルより低いと判断された場合、エリア再生制御部205は、第2の再生方法で応答音声を再生するように再生部105を制御する。その後、再生制御部206は、発話者を識別する情報と、応答音声が再生された第1の再生方法及び第2の再生方法のいずれかとを対応付けて音情報DB107に記憶してもよい。
また、判断部203は、ステップS303に示す比較処理において、音声対話装置100(音声対話システム)に対する発話音声の音声レベルと発話音声以外の音の音声レベルとの差分の絶対値が、所定の閾値以上である場合にのみ、音声対話装置100(音声対話システム)に対する発話音声の音声レベルが発話音声以外の音の音声レベルより高いか否かを判断してもよい。また、判断部203は、差分の絶対値が所定の閾値より小さい場合に、音情報DB107にユーザごとの初期設定として保持されている再生方法の中から、話者識別部によって識別されたユーザに対応する再生方法で応答音声を再生するように決定してもよい。これによれば、再生方法が頻繁に変化するのを抑制することができる。
(変形例5)
判断部203は、画像取得部106が取得した画像情報を利用して、再生方法を判断してもよい。例えば、分析部202が画像認識部(図示せず)を備えており、画像認識部は、音声対話装置100(音声対話システム)に対して関心を持っている人の数を認識してもよい。これによれば、判断部203は、ステップS303に示す比較処理を行わずに、画像認識部による認識結果から再生方法を決定することができる。
例えば、音声対話装置100(音声対話システム)に対して関心を持っていると判断した人の数が閾値以上である場合に、判断部203は、再生方法を通常の再生方法(第1の再生方法)に決定してもよい。また、音声対話装置100(音声対話システム)に対して関心を持っていると判断した人の数が閾値より少ない場合に、判断部203は、再生方法をエリア再生方法(第2の再生方法)に決定してもよい。取得した画像から音声対話装置100(音声対話システム)に対して関心を持っている人であるか否かを認識する方法は、既存の顔認識処理又は視線認識処理の結果から判断する方法を採用すればよい。例えば、判断部203は、顔認識処理の結果、音声対話装置100(音声対話システム)の方向を向いていると判断した場合に、音声対話装置100(音声対話システム)に対して関心を持っていると判断してもよい。また、例えば、判断部203は、視線認識処理の結果、音声対話装置100(音声対話システム)の方向を見ていると判断した場合に、音声対話装置100(音声対話システム)に対して関心を持っていると判断してもよい。
また、判断部203は、ステップS303の比較処理の後に、画像認識部の結果を利用して再生方法を決定してもよい。これによれば、音声レベルの比較と画像処理の結果とを併用することで、より精度よく状況を推定し、適切な再生方法を選択できる。例えば、音声対話装置100(音声対話システム)に対する発話音声の音声レベルが、発話音声以外の音の音声レベルより低い場合に、判断部203は、さらに取得した画像を用いて、音声対話装置100(音声対話システム)に対して興味を持っている人の位置を取得し、当該興味を持っている人の位置に対して指向性を有する再生方法で応答音声を再生してもよい。
この場合、画像取得部106は、音声対話装置100の周囲の画像を取得する。分析部202は、取得された画像から、音声対話装置100(音声対話システム)を注視している人を検出する。エリア再生制御部205は、第2の再生方法により応答音声を再生する際に、検出された人に向けて応答音声を再生するように再生部105を制御する。再生部105は、第2の再生方法により応答音声を再生する際に、検出された人に向けて応答音声を再生する。
(変形例6)
音声対話装置100が音声取得部101を備えておらず、音声対話装置100とは別の収音装置が音声取得部101を備えてもよい。例えば、音声対話装置100がテレビである場合に、当該テレビを遠隔制御するためのリモートコントローラが音声取得部101を備えてもよい。音声対話装置100(又はサーバ装置110)と収音装置(リモートコントローラ)とが所定の方法にて通信することで、本実施の形態の再生制御方法を実現する。
なお、音声対話装置100は、収音装置(リモートコントローラ)の位置を検出する検出部を備えてもよい。これによれば、ステップS403における音の到来方向の検出は不要となる。すなわち、ステップS305において、再生部105は、音の到来方向にエリア再生を行う際に、リモートコントローラの位置に向けて応答音声を再生すればよい。この場合、判断部203は、音声対話装置100(音声対話システム)に対して発話する発話者が収音装置(リモートコントローラ)に備えられたボタン(物理的ボタン又はタッチパネルに表示された仮想ボタン)を押しながら発話したか否かによって、再生方法を決定してもよい。例えば、発話者がボタンを押しながら発話をした場合にのみ、判断部203は、ステップS305のエリア再生を行ってもよい。これによれば、ステップS303の比較処理は不要となり、よりユーザの意図を反映した再生方法で応答音声を再生することができる。
ここで、本実施の形態の変形例6における音声対話システムについて説明する。音声対話システムは、収音装置と、音声対話装置100とを備える。
収音装置は、発話者によって保持され、音声取得部101を備える。音声取得部101は、音声対話システムに対して発話した発話音声を収音する。収音装置は、収音した発話音声を示す音声情報を音声対話装置100へ送信する。なお、収音装置は、ボタンを備えており、ボタンが押下された状態で発話音声が収音されたか否かを示すボタン押下情報(所定の指示信号)を音声情報に付加して送信する。
画像取得部106は、音声対話装置100の周囲の画像を取得する。分析部202は、画像認識部(図示せず)を備えている。画像認識部は、取得された画像から、収音装置に対して発話した発話者の位置を特定する。
判断部203は、発話者によって所定の指示信号が収音装置に入力された状態で発話音声が収音されたか否かを判断する。
通常再生制御部204は、所定の指示信号が収音装置に入力された状態で発話音声が収音されていないと判断された場合、第1の再生方法で応答音声を再生するように再生部105を制御する。
エリア再生制御部205は、所定の指示信号が収音装置に入力された状態で発話音声が収音されたと判断された場合、第2の再生方法で応答音声を再生するように再生部105を制御する。
図9は、本実施の形態の変形例6における音声対話システムの動作の一例を示すフローチャートである。
まず、ステップS1001において、収音装置の音声取得部101は、音声対話システムに対して発話した発話音声を収音する。なお、収音装置は、収音した発話音声を示す音声情報を音声対話装置100へ送信する。音声対話装置100の通信部102は、収音装置によって送信された音声情報を受信する。
次に、ステップS1002において、画像取得部106は、音声対話装置100の周囲の画像を取得する。
次に、ステップS1003において、画像認識部は、取得された画像から、収音装置に対して発話した発話者の位置を特定する。画像認識部は、例えば、画像認識処理によって収音装置を検出し、検出した収音装置の位置を発話者の位置として特定してもよい。
次に、ステップS1004において、判断部203は、発話者によって収音装置に設けられたボタンが押下された状態で発話音声が収音されたか否かを判断する。上記のように、音声情報には、ボタンが押下された状態で発話音声が収音されたか否かを示すボタン押下情報が付加されている。そのため、判断部203は、音声情報に付加されたボタン押下情報が、ボタンが押下された状態で発話音声が収音されたことを示す場合、ボタンが押下された状態で発話音声が収音されたと判断し、音声情報に付加されたボタン押下情報が、ボタンが押下されていない状態で発話音声が収音されたことを示す場合、ボタンが押下されていない状態で発話音声が収音されたと判断する。
ここで、ボタンが押下された状態で発話音声が収音されたと判断された場合(ステップS1004でYES)、ステップS1005において、エリア再生制御部205は、第2の再生方法で応答音声を再生するように再生部105を制御する。
一方、ボタンが押下された状態で発話音声が収音されていないと判断された場合、すなわち、ボタンが押下されていない状態で発話音声が収音されたと判断された場合(ステップS1004でNO)、ステップS1006において、通常再生制御部204は、第1の再生方法で応答音声を再生するように再生部105を制御する。
なお、収音装置としては、リモートコントローラのほか、例えば音声対話システム専用のマイク、音声対話システムを利用するユーザが保有する携帯端末(スマートフォン又はタブレット型コンピュータなど)、ウェアラブル端末(人体装着型端末、スマートウォッチ又はスマートバンドなど)、又は室内の天井又は壁に設置された収音マイクなどが考えられる。収音装置が音声対話システムを利用するユーザが保有する携帯端末(スマートフォン又はタブレット型コンピュータなど)である場合、携帯端末は、ユーザの発話音声を取得する機能を備えているので、日常からユーザの発話音声を取得することが可能である。この場合、変形例4に記載した音情報DB107を容易に構築することができる。この場合、収音装置が音情報DB107を備えるのではなく、音声対話装置100又はサーバ装置110が音情報DB107を備えてもよい。
(変形例7)
本実施の形態の変形例7では、複数の人が音声対話装置100(音声対話システム)を注視している場合に、指向性を有しない第1の再生方法で応答音声が再生され、複数の人が音声対話装置100(音声対話システム)を注視していない場合、すなわち、音声対話装置100(音声対話システム)を注視している人が発話者のみである場合、発話者のみに指向性を有する第2の再生方法で応答音声が再生される。
なお、本実施の形態の変形例7における音声対話装置100の構成については、図1及び図2を用いて説明する。
画像取得部106は、音声対話装置100の周囲の画像を取得する。
分析部202は、画像認識部(図示せず)を備えている。画像認識部は、取得された画像から、音声対話装置100の周囲にいる人の顔の向き及び視線の向きを検出し、音声対話装置100を注視している人の数を検出する。
判断部203は、複数の人が音声対話装置100を注視しているか否かを判断する。
通常再生制御部204は、判断部203によって複数の人が音声対話装置100を注視していると判断された場合、指向性を有しない第1の再生方法で応答音声を再生するように再生部105を制御する。
エリア再生制御部205は、判断部203によって複数の人が音声対話装置100を注視していないと判断された場合、発話者のみに指向性を有する第2の再生方法で応答音声を再生するように再生部105を制御する。
図10は、本実施の形態の変形例7における音声対話装置の動作の一例を示すフローチャートである。
まず、ステップS801において、画像取得部106は、音声対話装置100の周囲の画像を取得する。
次に、ステップS802において、画像認識部は、画像取得部106によって取得された画像から、音声対話装置100の周囲にいる人の顔の向き及び視線の向きを検出し、音声対話装置100を注視している人の数を検出する。画像認識部は、顔の向き及び視線の向きが、音声対話装置100(画像取得部106)の方向を向いている場合、音声対話装置100を注視していると判断する。なお、画像認識部は、顔の向き及び視線の向きのいずれか一方を検出してもよい。
次に、ステップS803において、判断部203は、複数の人が音声対話装置100を注視しているか否かを判断する。ここで、複数の人が音声対話装置100を注視していると判断された場合(ステップS803でYES)、ステップS804において、通常再生制御部204は、第1の再生方法で応答音声を再生するように再生部105を制御する。
一方、複数の人が音声対話装置100を注視していないと判断された場合(ステップS803でNO)、ステップS805において、エリア再生制御部205は、第2の再生方法で応答音声を再生するように再生部105を制御する。
なお、本実施の形態の変形例7では、音声対話装置100(音声対話システム)に対する発話音声の音声レベルと、発話音声以外の音の音声レベルとを比較する処理を行わなくてもよい。
また、本実施の形態の変形例7においても、応答音声を作成する必要があるので、音声対話装置100(サーバ装置110)は、周囲音声情報を取得する処理(図3のステップS301)、周囲音声情報を第1の音声情報と第2の音声情報とに分離する処理(図3のステップS302)及び応答音声を作成する処理(図5のステップS406)を行う。
(変形例8)
本実施の形態の変形例7では、周囲音声情報から音声対話装置100(音声対話システム)の周囲にいる人の数が検出される。複数の人が音声対話装置100(音声対話システム)の周囲におり、かつ複数の人が音声対話装置100(音声対話システム)を注視している場合に、指向性を有しない第1の再生方法で応答音声が再生される。また、複数の人が音声対話装置100(音声対話システム)の周囲にいない場合、すなわち、音声対話装置100(音声対話システム)の周囲に発話者のみがいる場合、発話者のみに指向性を有する第2の再生方法で応答音声が再生される。さらに、複数の人が音声対話装置100(音声対話システム)を注視していない場合、すなわち、音声対話装置100(音声対話システム)を注視している人が発話者のみである場合、発話者のみに指向性を有する第2の再生方法で応答音声が再生される。
画像取得部106は、音声対話装置100の周囲の画像を取得する。
分析部202は、画像認識部(図示せず)を備えている。画像認識部は、取得された画像から、音声対話装置100の周囲にいる人の顔の向き及び視線の向きを検出し、音声対話装置100を注視している人の数を検出する。
分析部202は、音情報取得部201によって取得された周囲音声情報から、音声対話装置100の周囲で発話している人の数を検出する。分析部202は、周囲音声情報から、人が発話した音声を示す音声情報を抽出し、抽出した音声情報の特徴量の差異から、発話している人の数を検出する。
判断部203は、複数の人が音声対話装置100の周囲にいるか否かを判断する。判断部203は、分析部202によって検出された発話している人の数が2人以上である場合、複数の人が音声対話装置100の周囲にいると判断し、分析部202によって検出された発話している人の数が1人である場合、複数の人が音声対話装置100の周囲にいないと判断する。
判断部203は、複数の人が音声対話装置100の周囲にいると判断した場合、複数の人が音声対話装置100を注視しているか否かを判断する。
通常再生制御部204は、判断部203によって複数の人が音声対話装置100を注視していると判断された場合、指向性を有しない第1の再生方法で応答音声を再生するように再生部105を制御する。
エリア再生制御部205は、判断部203によって複数の人が音声対話装置100の周囲にいないと判断された場合、発話者のみに指向性を有する第2の再生方法で応答音声を再生するように再生部105を制御する。また、エリア再生制御部205は、判断部203によって複数の人が音声対話装置100を注視していないと判断された場合、発話者のみに指向性を有する第2の再生方法で応答音声を再生するように再生部105を制御する。
図11は、本実施の形態の変形例8における音声対話装置の動作の一例を示すフローチャートである。
まず、ステップS901において、音情報取得部201は、音声取得部101によって取得された音情報(周囲音声情報)を取得する。なお、ステップS901の処理は、図3に示すステップS301の処理と同じである。
次に、ステップ902において、分析部202は、音情報取得部201によって取得された周囲音声情報から、音声対話装置100の周囲で発話している人の数を検出する。
次に、ステップS903において、判断部203は、複数の人が音声対話装置100の周囲にいるか否かを判断する。ここで、複数の人が音声対話装置100の周囲にいると判断された場合(ステップS903でYES)、ステップS904において、画像取得部106は、音声対話装置100の周囲の画像を取得する。
次に、ステップS905において、画像認識部は、画像取得部106によって取得された画像から、音声対話装置100の周囲にいる人の顔の向き及び視線の向きを検出し、音声対話装置100を注視している人の数を検出する。画像認識部は、顔の向き及び視線の向きが、音声対話装置100(画像取得部106)の方向を向いている場合、音声対話装置100を注視していると判断する。なお、画像認識部は、顔の向き及び視線の向きのいずれか一方を検出してもよい。
次に、ステップS906において、判断部203は、複数の人が音声対話装置100を注視しているか否かを判断する。ここで、複数の人が音声対話装置100を注視していると判断された場合(ステップS906でYES)、ステップS907において、通常再生制御部204は、第1の再生方法で応答音声を再生するように再生部105を制御する。
一方、複数の人が音声対話装置100の周囲にいないと判断された場合(ステップS903でNO)、又は複数の人が音声対話装置100を注視していないと判断された場合(ステップS906でNO)、ステップS908において、エリア再生制御部205は、第2の再生方法で応答音声を再生するように再生部105を制御する。
なお、本実施の形態の変形例8では、音声対話装置100(音声対話システム)に対する発話音声の音声レベルと、発話音声以外の音の音声レベルとを比較する処理を行わなくてもよい。
また、本実施の形態の変形例8においても、応答音声を作成する必要があるので、音声対話装置100(サーバ装置110)は、周囲音声情報を第1の音声情報と第2の音声情報とに分離する処理(図3のステップS302)及び応答音声を作成する処理(図5のステップS406)を行う。
(変形例9)
本実施の形態の変形例9では、発話者の位置と、第1の再生方法及び第2の再生方法のいずれかとが対応付けて音声情報データベースに予め記憶されている。そして、取得された周囲音声情報が第1の音声情報と第2の音声情報とに分離され、発話者の位置が特定される。特定された発話者の位置に対応付けられている再生方法が音声情報データベースに存在する場合、音声情報データベースに記憶されている再生方法で応答音声が再生される。
なお、本実施の形態の変形例9における音声対話装置100の構成については、図1及び図2を用いて説明する。
音情報取得部201は、所定の角度ごとに指向性を有する複数の周囲音声情報を取得する。なお、音声取得部101は、複数のマイクを含むアレイマイクシステムで構成され、複数のマイクから、所定の角度ごとに指向性を有する複数の周囲音声情報を取得する。
分析部202は、音情報取得部201によって取得された複数の周囲音声情報に対して音声対話装置100に対する発話音声であるか否かを判断することで、複数の周囲音声情報を第1の音声情報と第2の音声情報とに分離する。
分析部202は、第1の音声情報を含む周囲音声情報が取得されたマイクの指向性に基づいて、発話者の位置を特定する。なお、発話者の位置は、マイクを使用する部屋の残響時間により算出してもよい。なお、残響時間は、予めマイクが設置される部屋の残響時間を測定することにより提供される。
音情報DB107は、発話者の位置と、第1の再生方法及び第2の再生方法のいずれかとを対応付けて記憶する。
判断部203は、音情報DB107を参照し、分析部202によって特定された発話者の位置に第1の再生方法及び第2の再生方法のいずれかが対応付けられているか否かを判断する。
再生制御部206は、特定された発話者の位置に第1の再生方法及び第2の再生方法のいずれかが対応付けられていると判断された場合、特定された発話者の位置に対応付けられている第1の再生方法及び第2の再生方法のいずれかにより、応答音声を再生するように再生部105を制御する。このとき、通常再生制御部204は、特定された発話者の位置に第1の再生方法が対応付けられている場合、指向性を有しない第1の再生方法で応答音声を再生するように再生部105を制御する。また、エリア再生制御部205は、特定された発話者の位置に第2の再生方法が対応付けられている場合、発話者のみに指向性を有する第2の再生方法で応答音声を再生するように再生部105を制御する。
また、判断部203は、特定された発話者の位置に第1の再生方法及び第2の再生方法のいずれも対応付けられていないと判断した場合、第1の音声情報の音声レベルと、第2の音声情報の音声レベルとを比較する。
通常再生制御部204は、判断部203によって第1の音声情報の音声レベルが第2の音声情報の音声レベルより高いと判断された場合に、第1の再生方法で応答音声を再生する。
エリア再生制御部205は、判断部203によって第1の音声情報の音声レベルが第2の音声情報の音声レベルより低いと判断された場合に、第2の再生方法で応答音声を再生する。
再生制御部206は、特定された発話者の位置と、応答音声が再生された第1の再生方法及び第2の再生方法のいずれかとを対応付けて音情報DB107に記憶する。
図12は、本実施の形態の変形例9における音声対話装置の動作の一例を示すフローチャートである。
ステップS1101及びステップS1102の処理は、図3に示すステップS301及びステップS302の処理と同じであるので、説明を省略する。
次に、ステップS1103において、分析部202は、第1の音声情報を含む周囲音声情報が取得されたマイクの指向性に基づいて、発話者の位置を特定する。なお、音声取得部101は、複数のマイクを含むアレイマイクシステムで構成されているので、分析部202は、発話音声の到来方向を特定することが可能であり、発話音声の到来方向から発話者の位置を特定することが可能である。なお、分析部202は、発話者の位置(発話者がいる方向)だけでなく、発話者がいる領域を特定してもよい。発話者がいる領域は、例えば、発話者が手を伸ばして届く範囲である。
次に、ステップS1104において、判断部203は、音情報DB107を参照し、分析部202によって特定された発話者の位置に再生方法が対応付けられているか否かを判断する。ここで、特定された発話者の位置に再生方法が対応付けられていると判断された場合(ステップS1104でYES)、ステップS1105において、再生制御部206は、特定された発話者の位置に対応付けられている第1の再生方法及び第2の再生方法のいずれかにより、応答音声を再生するように再生部105を制御する。このとき、特定された発話者の位置に第1の再生方法が対応付けられている場合、通常再生制御部204は、指向性を有しない第1の再生方法で応答音声を再生するように再生部105を制御する。また、特定された発話者の位置に第2の再生方法が対応付けられている場合、エリア再生制御部205は、発話者のみに指向性を有する第2の再生方法で応答音声を再生するように再生部105を制御する。
一方、特定された発話者の位置に再生方法が対応付けられていないと判断された場合(ステップS1104でNO)、ステップS1106において、判断部203は、第1の音声情報の音声レベルが第2の音声情報の音声レベルより高いか否かを判断する。
なお、ステップS1106〜ステップS1108の処理は、図3に示すステップS303〜ステップS305の処理と同じであるので、説明を省略する。
次に、ステップS1109において、再生制御部206は、特定された発話者の位置と、応答音声が再生された第1の再生方法及び第2の再生方法のいずれかとを対応付けて音情報DB107に記憶する。
(変形例10)
本実施の形態の変形例10では、所定のキーワードが記憶部に予め記憶されている。そして、取得された周囲音声情報が第1の音声情報と第2の音声情報とに分離され、第1の音声情報が所定のキーワードを含む場合、第1の再生方法で応答音声が再生される。
なお、本実施の形態の変形例10における音声対話装置100の構成については、図1及び図2を用いて説明する。
分析部202は、分離された第1の音声情報の発話内容を分析する。分析部202は、分離された第1の音声情報をテキスト情報に変換する。
判断部203は、分析部202によってテキスト情報に変換された第1の音声情報が予め音情報DB107に記憶されている所定のキーワードを含むか否かを判断する。音情報DB107は、予め所定のキーワードを記憶している。所定のキーワードは、例えば、応答音声を第1の再生方法で再生することが予め決められている発話内容である。
通常再生制御部204は、第1の音声情報が所定のキーワードを含むと判断された場合、第1の再生方法で応答音声を再生するように再生部105を制御する。
エリア再生制御部205は、第1の音声情報が所定のキーワードを含まないと判断された場合、第2の再生方法で応答音声を再生するように再生部105を制御する。
図13は、本実施の形態の変形例10における音声対話装置の動作の一例を示すフローチャートである。
ステップS1301及びステップS1302の処理は、図3に示すステップS301及びステップS302の処理と同じであるので、説明を省略する。
次に、ステップS1303において、判断部203は、第1の音声情報が予め音情報DB107に記憶されている所定のキーワードを含むか否かを判断する。なお、第1の音声情報は、分析部202によってテキスト情報に変換されている。
ここで、第1の音声情報が所定のキーワードを含むと判断された場合(ステップS1303でYES)、ステップS1304において、通常再生制御部204は、指向性を有しない第1の再生方法で応答音声を再生するように再生部105を制御する。
一方、第1の音声情報が所定のキーワードを含まないと判断された場合(ステップS1303でNO)、ステップS1305において、エリア再生制御部205は、発話者のみに指向性を有する第2の再生方法で応答音声を再生するように再生部105を制御する。
なお、本実施の形態では、第1の音声情報が所定のキーワードを含むと判断された場合に、第1の再生方法で応答音声が再生され、第1の音声情報が所定のキーワードを含まないと判断された場合に、第2の再生方法で応答音声が再生されるが、本開示は特にこれに限定されない。第1の音声情報が所定のキーワードを含むと判断された場合に、第2の再生方法で応答音声が再生され、第1の音声情報が所定のキーワードを含まないと判断された場合に、第1の再生方法で応答音声が再生されてもよい。
(変形例11)
本実施の形態の変形例11では、同じ発話内容の発話音声が連続して取得された場合、応答音声を再生しない。
なお、本実施の形態の変形例11における音声対話装置100の構成については、図1及び図2を用いて説明する。
分析部202は、分離された第1の音声情報の発話内容を分析する。
判断部203は、分析部202によって分析された発話内容が音情報DB107に記憶されている前回取得された第1の音声情報の発話内容と同じであるか否かを判断する。
再生制御部206は、分析した発話内容が前回の発話内容と同じであると判断された場合、応答音声の再生を中止する。
判断部203は、分析した発話内容が前回の発話内容と同じではないと判断した場合、第1の音声情報の音声レベルと、第2の音声情報の音声レベルとを比較する。再生制御部206は、比較した結果に応じて、第1の再生方法及び第2の再生方法のいずれかにより、応答音声を再生する。
再生制御部206は、今回の第1の音声情報の発話内容を音情報DB107に記憶する。
図14は、本実施の形態の変形例11における音声対話装置の動作の一例を示すフローチャートである。
ステップS1401及びステップS1402の処理は、図3に示すステップS301及びステップS302の処理と同じであるので、説明を省略する。
次に、ステップS1403において、判断部203は、第1の音声情報の発話内容が音情報DB107に記憶されている前回の第1の音声情報の発話内容と同じであるか否かを判断する。なお、第1の音声情報の発話内容は、分析部202によって分析される。発話内容が同じであるとは、発話者が発話した発話音声の文言が全く同じである場合だけでなく、発話者が発話した発話音声の意味が同じである場合も含む。
ここで、第1の音声情報の発話内容が前回の第1の音声情報の発話内容と同じであると判断された場合(ステップS1403でYES)、ステップS1404において、再生制御部206は、応答音声の再生を中止する。
一方、第1の音声情報の発話内容が前回の第1の音声情報の発話内容と同じではないと判断された場合(ステップS1403でNO)、ステップS1405において、判断部203は、第1の音声情報の音声レベルが第2の音声情報の音声レベルより高いか否かを判断する。
なお、ステップS1405〜ステップS1407の処理は、図3に示すステップS303〜ステップS305の処理と同じであるので、説明を省略する。
次に、ステップS1408において、再生制御部206は、今回の第1の音声情報の発話内容を音情報DB107に記憶する。
なお、本実施の形態の変形例11では、ステップS1402とステップS1403との間において、前回の第1の音声情報が取得されてから所定時間経過したか否かを判断してもよい。前回の第1の音声情報が取得されてから所定時間経過したと判断された場合、ステップS1405の処理へ移行し、前回の第1の音声情報が取得されてから所定時間経過していないと判断された場合、ステップS1403の処理へ移行してもよい。これにより、短時間に連続して同じ発話内容の発話音声が入力された場合に、後続の発話音声に対する応答音声の再生を中止することができる。
(変形例12)
本実施の形態の変形例12では、発話者が通常の会話で発話した音声の音声レベルを通常音声レベルとして音声レベルデータベースに蓄積し、音声対話装置100に対する指示を発話した発話音声をと含む第1の音声情報の音声レベルが、音声レベルデータベースに蓄積されている通常音声レベルの平均値より高い場合、第1の再生方法で応答音声が再生され、第1の音声情報の音声レベルが、通常音声レベルの平均値より低い場合、第2の再生方法で応答音声が再生される。
なお、本実施の形態の変形例11における音声対話装置100の構成については、図1及び図2を用いて説明する。
分析部202は、分離された第2の音声情報に含まれる人の音声の音声レベルを通常音声レベルとして音情報DB107に蓄積する。すなわち、分析部202は、音声対話装置100に対する指示を発話した発話音声の音声レベルではなく、通常の会話で発話者が発話した音声の音声レベルを通常音声レベルとして音情報DB107に蓄積する。
音情報DB107は、通常音声レベルを蓄積する。なお、音情報DB107は、分析部202から出力された全ての通常音声レベルを蓄積してもよい。また、音情報DB107は、分析部202から出力された通常音声レベルと、既に蓄積されている通常音声レベルとの平均値を算出し、算出した平均値のみを蓄積してもよい。
判断部203は、分離された第1の音声情報の音声レベルが、音情報DB107に蓄積されている通常音声レベルの平均値より高いか否かを判断する。
通常再生制御部204は、第1の音声情報の音声レベルが通常音声レベルの平均値より高いと判断された場合、第1の再生方法で応答音声を再生するように再生部105を制御する。
エリア再生制御部205は、第1の音声情報の音声レベルが通常音声レベルの平均値より低いと判断された場合、第2の再生方法で応答音声を再生するように再生部105を制御する。
図15は、本実施の形態の変形例12における音声対話装置の動作の一例を示すフローチャートである。
ステップS1501及びステップS1502の処理は、図3に示すステップS301及びステップS302の処理と同じであるので、説明を省略する。
次に、ステップS1503において、分析部202は、分離された第2の音声情報に含まれる人の音声の音声レベルを通常音声レベルとして音情報DB107に蓄積する。
次に、ステップS1504において、判断部203は、分離された第1の音声情報の音声レベルが、音情報DB107に蓄積されている通常音声レベルの平均値より高いか否かを判断する。
ここで、第1の音声情報の音声レベルが通常音声レベルの平均値より高いと判断された場合(ステップS1504でYES)、ステップS1505において、通常再生制御部204は、第1の再生方法で応答音声を再生するように再生部105を制御する。
一方、第1の音声情報の音声レベルが通常音声レベルの平均値より低いと判断された場合(ステップS1504でNO)、エリア再生制御部205は、第2の再生方法で応答音声を再生するように再生部105を制御する。
なお、第1の音声情報の音声レベルが通常音声レベルの平均値と同じであると判断された場合は、通常再生制御部204が、第1の再生方法で応答音声を再生してもよいし、エリア再生制御部205が、第2の再生方法で応答音声を再生してもよい。
また、第1の音声情報の音声レベルが通常音声レベルの平均値より高いと判断された場合、第2の再生方法で応答音声が再生され、第1の音声情報の音声レベルが通常音声レベルの平均値より低いと判断された場合、第1の再生方法で応答音声が再生されてもよい。
また、本実施の形態では、再生部105は、第1の再生方法又は第2の再生方法で応答音声を再生しているが、本開示は特にこれに限定されず、再生部105は、第1の再生方法及び第2の再生方法のいずれかにより、発話音声により制御される制御対象機器が再生する音声を再生してもよい。例えば、音声対話装置100がテレビに設けられており、発話者が、テレビの音量を上げる指示を音声対話装置100に対して発話した場合、音声対話装置100は、第1の音声情報の音声レベルと第2の音声情報の音声レベルとを比較した結果に応じて、第1の再生方法及び第2の再生方法のいずれかにより、テレビが再生する音声を再生してもよい。