JP2016206646A

JP2016206646A - 音声再生方法、音声対話装置及び音声対話プログラム

Info

Publication number: JP2016206646A
Application number: JP2016008005A
Authority: JP
Inventors: 智美松岡; Tomomi Matsuoka; 敦坂口; Atsushi Sakaguchi
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2015-04-24
Filing date: 2016-01-19
Publication date: 2016-12-08
Anticipated expiration: 2036-01-19
Also published as: JP6678315B2

Abstract

【課題】発話者の周囲の状況に応じた再生方法で応答音声を再生することができる音声再生方法、音声対話装置及び音声対話プログラムを提供する。【解決手段】音声再生方法は、音声対話システムに対して発話した発話音声を含み、発話音声の発話者の周囲の音を表す周囲音声情報を取得するステップ（Ｓ３０１）と、周囲音声情報を、発話音声を含む第１の音声情報と、発話音声以外の音を含む第２の音声情報とに分離するステップ（Ｓ３０２）と、第１の音声情報の音声レベルと、第２の音声情報の音声レベルとを比較するステップ（Ｓ３０３）と、比較した結果に応じて、第１の再生方法及び第１の再生方法とは再生する音声の指向性が異なる第２の再生方法のいずれかにより、応答音声を再生するステップ（Ｓ３０４，Ｓ３０５）とを含む。【選択図】図３

Description

本開示は、発話音声に対する応答音声を再生する音声再生方法、音声対話装置及び音声対話プログラムに関する。

従来、対話システムにおいて、アレイ状に配置した複数のマイクで収音した話者の発話信号から、話者の存在する方向を推定し、アレイ状に配置した複数のスピーカの指向性を話者の存在する方向に向けて応答音声を再生する技術が提案されている。

例えば、特許文献１には、配列された複数のマイクからなるマイクアレイと、配列された複数のスピーカからなるスピーカアレイと、マイクアレイにより検出した発話者の方向に関する情報に基づいてスピーカアレイの指向性を発話者の方向に向ける制御手段とを備える音声入力装置が開示されている。

また、例えば、特許文献２には、複数のスピーカを用いて異なる領域で異なる信号源の音を聴取することができる指向性拡声制御システムにおいて、所定の聴取エリアで或る信号源の音を聞きにくくしたり、異なる聴取エリアでは別々の音を聞き取れるように、複数の聴取エリアに別々の音情報を伝達したりする指向性拡声装置が開示されている。

特開２００６−２７０８７６号公報特開２００１−９５０８２号公報

しかしながら、上記の従来の装置では、常に発話者が存在する方向に対してのみ指向性を向けて応答音声が再生されるため、音声対話システムに不具合が生じる場合がある。例えば、応答音声を聴きたい（聴かせたい）人が指向性エリアに入っていない場合には、当該人が応答音声を聞けなかったり、応答音声を聴きたくない（聴かせたくない）人が指向性エリアに入っている場合には、当該人が応答音声を聞いたりといった不具合が生じるおそれがある。

本開示の一態様に係る音声再生方法は、発話音声に対する応答音声を再生する音声対話システムにおける音声再生方法であって、前記音声対話システムに対して発話した発話音声を含み、前記発話音声の発話者の周囲の音を表す周囲音声情報を取得し、前記周囲音声情報を、前記発話音声を含む第１の音声情報と、前記発話音声以外の音を含む第２の音声情報とに分離し、前記第１の音声情報の音声レベルと、前記第２の音声情報の音声レベルとを比較し、比較した結果に応じて、第１の再生方法及び前記第１の再生方法とは再生する音声の指向性が異なる第２の再生方法のいずれかにより、前記応答音声を再生する。

本開示によれば、発話者の周囲の状況に応じた再生方法で応答音声を再生することができる。

本開示の実施の形態における音声対話装置の構成を示す図である。本開示の実施の形態における制御部の機能構成を示す図である。本実施の形態における音声対話装置の動作の一例を示すフローチャートである。本実施の形態における音声対話システムの構成を示す図である。本実施の形態における音声対話システムの動作を説明するためのシーケンス図である。音声対話装置に対して発話している発話者の発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合における応答音声の第１の再生方法について説明するための模式図である。音声対話装置に対して発話している発話者の発話音声の音声レベルが発話音声以外の音の音声レベルより低い場合における応答音声の第２の再生方法について説明するための模式図である。本実施の形態の変形例４における音声対話装置の動作の一例を示すフローチャートである。本実施の形態の変形例６における音声対話システムの動作の一例を示すフローチャートである。本実施の形態の変形例７における音声対話装置の動作の一例を示すフローチャートである。本実施の形態の変形例８における音声対話装置の動作の一例を示すフローチャートである。本実施の形態の変形例９における音声対話装置の動作の一例を示すフローチャートである。本実施の形態の変形例１０における音声対話装置の動作の一例を示すフローチャートである。本実施の形態の変形例１１における音声対話装置の動作の一例を示すフローチャートである。本実施の形態の変形例１２における音声対話装置の動作の一例を示すフローチャートである。

（本開示の基礎となった知見）
一般的に、音声対話システムに対して発話者が音声コマンドを発話することにより機器を制御する際には、周囲の騒音、又は音声対話システムに対して発話している発話者以外の発話者の音声が混入している騒音環境下で音声対話システムを使用することが考えられる。そのため、音声対話システムからの応答音声に指向性を持たせることで、音声対話システムと対話をしている人のみに向けて応答音声を再生することが検討されている。例えば、音声対話システムの前に複数の人が存在し、発話音声に対する応答音声を聴きたい人が発話者の一人のみである場合には、指向性を有しない通常の再生方法で応答音声を再生してしまうと、周囲の雑音等の騒音により発話者が応答音声を聴きとりにくかったり、本来聞かれたくない人が応答音声を聴いてしまったりすることがある。そのため、例えば、特許文献１に開示されている技術のように、特定の人の方向のみにスピーカの指向性を向けて応答音声を再生することが有効である。

しかしながら、特許文献１に開示されている装置を用いると次のような課題が発生するおそれがある。例えば、音声対話システムの前に複数の人が存在し、その全員が発話音声に対する応答音声を聴きたい場合に、特許文献１のように発話した特定の人の位置のみに指向性を向けて応答音声を再生すると、応答音声を聴きたかった発話者以外の人が応答音声を聴くことができないという課題があった。

すなわち、特許文献１の装置では、発話者の周囲の状況に応じて最適な再生方法で応答音声を再生することができない。また、特許文献２の装置でも同様に、発話者の周囲の状況に応じて最適な再生方法で応答音声を再生することに関しては検討されていない。

上記のような課題を解決するため、本開示の一態様に係る音声再生方法は、発話音声に対する応答音声を再生する音声対話システムにおける音声再生方法であって、前記音声対話システムに対して発話した発話音声を含み、前記発話音声の発話者の周囲の音を表す周囲音声情報を取得し、前記周囲音声情報を、前記発話音声を含む第１の音声情報と、前記発話音声以外の音を含む第２の音声情報とに分離し、前記第１の音声情報の音声レベルと、前記第２の音声情報の音声レベルとを比較し、比較した結果に応じて、第１の再生方法及び前記第１の再生方法とは再生する音声の指向性が異なる第２の再生方法のいずれかにより、前記応答音声を再生する。

この構成によれば、音声対話システムに対して発話した発話音声を含み、発話音声の発話者の周囲の音を表す周囲音声情報が取得される。周囲音声情報が、発話音声を含む第１の音声情報と、発話音声以外の音を含む第２の音声情報とに分離される。第１の音声情報の音声レベルと、第２の音声情報の音声レベルとが比較される。比較された結果に応じて、第１の再生方法及び第１の再生方法とは再生する音声の指向性が異なる第２の再生方法のいずれかにより、応答音声が再生される。

したがって、音声対話システムに対して発話した発話音声を含む第１の音声情報の音声レベルと、発話音声以外の音を含む第２の音声情報の音声レベルとの比較結果に応じて、第１の再生方法及び第１の再生方法とは再生する音声の指向性が異なる第２の再生方法のいずれかにより、応答音声が再生されるので、発話者の周囲の状況に応じた再生方法で応答音声を再生することができる。

また、上記の音声再生方法において、前記第１の再生方法は、指向性を有しない再生方法であり、前記第２の再生方法は、前記発話者に対して指向性を有する再生方法であり、前記第１の音声情報の音声レベルが、前記第２の音声情報の音声レベルより高い場合に、前記第１の再生方法で前記応答音声を再生し、前記第１の音声情報の音声レベルが、前記第２の音声情報の音声レベルより低い場合に、前記第２の再生方法で前記応答音声を再生してもよい。

この構成によれば、第１の再生方法は、指向性を有しない再生方法であり、第２の再生方法は、発話者に対して指向性を有する再生方法である。第１の音声情報の音声レベルが、第２の音声情報の音声レベルより高い場合に、第１の再生方法で応答音声が再生され、第１の音声情報の音声レベルが、第２の音声情報の音声レベルより低い場合に、第２の再生方法で応答音声が再生される。

第１の音声情報の音声レベルが、第２の音声情報の音声レベルより高い場合は、発話者以外の人も応答音声を確認するために音を発さないようにしていることが想定される。そのため、第１の音声情報の音声レベルが、第２の音声情報の音声レベルより高い場合は、指向性を有しない再生方法で応答音声が再生されるので、発話者以外の人も応答音声を聞くことができる。

また、第１の音声情報の音声レベルが、第２の音声情報の音声レベルより低い場合は、発話者以外の人は応答音声に関心がないために音を発していることが想定される。そのため、第１の音声情報の音声レベルが、第２の音声情報の音声レベルより低い場合は、発話者に対して指向性を有する再生方法で応答音声が再生されるので、発話者のみが応答音声を聞くことができる。

また、上記の音声再生方法において、前記第１の音声情報に対して音声認識を行い、前記音声認識の結果を用いて応答音声を生成し、前記応答音声を前記第１の再生方法及び前記第２の再生方法のいずれかにより再生してもよい。

この構成によれば、分離された第１の音声情報に対して音声認識が行われる。音声認識の結果を用いて応答音声が生成される。生成された応答音声が第１の再生方法及び第２の再生方法のいずれかにより再生される。

したがって、第１の音声情報に対する音声認識の結果を用いて応答音声を生成することができる。

また、上記の音声再生方法において、前記周囲音声情報は、複数のマイクを含むアレイマイクシステムから取得される、所定の角度ごとに指向性を有する複数の周囲音声情報を含み、前記複数の周囲音声情報のそれぞれが、前記音声対話システムに対する前記発話音声であるか否かを判断することで、前記周囲音声情報を前記第１の音声情報と前記第２の音声情報とに分離してもよい。

この構成によれば、周囲音声情報は、複数のマイクを含むアレイマイクシステムから取得される、所定の角度ごとに指向性を有する複数の周囲音声情報を含む。複数の周囲音声情報のそれぞれが、音声対話システムに対する発話音声であるか否かが判断されることで、周囲音声情報を第１の音声情報と第２の音声情報とに分離することができる。

また、上記の音声再生方法において、前記第２の再生方法により前記応答音声を再生する際に、前記音声対話システムに対する前記発話音声であると判断された前記周囲音声情報が取得された角度の方向に向けて、前記応答音声を再生してもよい。

この構成によれば、第２の再生方法により応答音声が再生される際に、音声対話システムに対する発話音声であると判断された周囲音声情報が取得された角度の方向に向けて、応答音声が再生される。したがって、発話者のいる方向に向けて確実に応答音声を再生することができる。

また、上記の音声再生方法において、前記複数の周囲音声情報のそれぞれに対し、予め記憶されている所定のキーワードが含まれているか否かを判断し、前記周囲音声情報に前記所定のキーワードが含まれている場合、当該周囲音声情報が前記音声対話システムに対する発話音声であると判断してもよい。

この構成によれば、複数の周囲音声情報のそれぞれに対し、予め記憶されている所定のキーワードが含まれているか否かが判断される。周囲音声情報に所定のキーワードが含まれている場合、当該周囲音声情報が音声対話システムに対する発話音声であると判断される。

したがって、複数の周囲音声情報から、音声対話システムに対する発話音声を含む第１の音声情報を確実に分離することができる。

また、上記の音声再生方法において、スペクトルサブトラクション法を用いて前記周囲音声情報を前記第１の音声情報と前記第２の音声情報とに分離してもよい。

この構成によれば、スペクトルサブトラクション法を用いることにより、周囲音声情報を第１の音声情報と第２の音声情報とに分離することができる。

また、上記の音声再生方法において、前記周囲音声情報から周囲にいる人を識別し、前記第１の音声情報の音声レベルと前記第２の音声情報の音声レベルとを比較した結果と、前記周囲にいる人を識別した結果とに基づいて、前記第１の再生方法及び前記第２の再生方法のいずれで再生するかを切り替えてもよい。

この構成によれば、周囲音声情報から発話者の周囲にいる人が識別される。第１の音声情報の音声レベルと第２の音声情報の音声レベルとを比較した結果と、発話者の周囲にいる人を識別した結果とに基づいて、第１の再生方法及び第２の再生方法のいずれで再生するかが切り替えられる。

したがって、発話者の周囲にいる人が誰であるかによって、指向性を有しない再生方法と、発話者に対して指向性を有する再生方法とのいずれで応答音声を再生するかを切り替えることができる。

また、上記の音声再生方法において、過去に取得した前記第１の音声情報と、過去に前記第１の音声情報を再生した際に選択された前記第１の再生方法及び前記第２の再生方法のいずれかとを関連付けて記憶するテーブルを用いて、前記応答音声を再生する再生方法を選択してもよい。

この構成によれば、過去に取得された第１の音声情報と、過去に第１の音声情報を再生した際に選択された第１の再生方法及び第２の再生方法のいずれかとを関連付けて記憶するテーブルを用いて、応答音声を再生する再生方法が選択される。

したがって、過去の履歴に基づいて再生方法が選択されるので、再生方法を決定するために要する処理時間を短縮することができる。

また、上記の音声再生方法において、前記音声対話システムの周囲の画像を取得し、前記画像から、前記音声対話システムを注視している人を検出し、前記第２の再生方法により前記応答音声を再生する際に、検出した前記人に向けて前記応答音声を再生してもよい。

この構成によれば、音声対話システムの周囲の画像が取得され、画像から、音声対話システムを注視している人が検出される。第２の再生方法により応答音声が再生される際に、検出された人に向けて応答音声が再生される。

したがって、音声対話システムを注視している人は、応答音声に関心を持っている可能性があるので、音声対話システムを注視している人に向けて応答音声を再生することができる。

また、上記の音声再生方法において、前記第１の再生方法は、指向性を有しない再生方法であり、前記第２の再生方法は、発話者に対して指向性を有する再生方法であり、前記音声対話システムの周囲の画像を取得し、前記画像から、前記音声対話システムを注視している人の数を検出し、前記人の数の検出結果から複数の人が前記音声対話システムを注視しているか否かを判断し、複数の人が前記音声対話システムを注視していると判断した場合、前記第１の再生方法で前記応答音声を再生し、複数の人が前記音声対話システムを注視していないと判断した場合、前記第２の再生方法で前記応答音声を再生してもよい。

この構成によれば、第１の再生方法は、指向性を有しない再生方法であり、第２の再生方法は、発話者に対して指向性を有する再生方法である。音声対話システムの周囲の画像が取得され、画像から、音声対話システムを注視している人の数が検出される。人の数の検出結果から複数の人が音声対話システムを注視しているか否かが判断される。複数の人が音声対話システムを注視していると判断された場合、第１の再生方法で応答音声が再生される。また、複数の人が音声対話システムを注視していないと判断された場合、第２の再生方法で応答音声が再生される。

したがって、複数の人が音声対話システムを注視している場合は、複数の人に対して応答音声が聞こえるように、指向性を有しない再生方法で応答音声を再生することができ、複数の人が音声対話システムを注視していない場合、すなわち、発話者のみが音声対話システムを注視している場合は、発話者に対して指向性を有する再生方法で応答音声を再生することができる。

また、上記の音声再生方法において、前記第１の再生方法は、指向性を有しない再生方法であり、前記第２の再生方法は、発話者に対して指向性を有する再生方法であり、前記発話者が保持する収音装置によって前記発話音声を収音し、前記音声対話システムの周囲の画像を取得し、前記画像から、前記収音装置に対して発話した前記発話者の位置を特定し、前記発話者によって所定の指示信号が前記収音装置に入力された状態で前記発話音声が収音されたか否かを判断し、前記所定の指示信号が前記収音装置に入力された状態で前記発話音声が収音されていないと判断した場合、前記第１の再生方法で前記応答音声を再生し、前記所定の指示信号が前記収音装置に入力された状態で前記発話音声が収音されたと判断した場合、前記第２の再生方法で前記応答音声を再生してもよい。

この構成によれば、第１の再生方法は、指向性を有しない再生方法であり、第２の再生方法は、発話者に対して指向性を有する再生方法である。発話者が保持する収音装置によって発話音声が収音される。音声対話システムの周囲の画像が取得され、画像から、収音装置に対して発話した発話者の位置が特定される。発話者によって所定の指示信号が収音装置に入力された状態で発話音声が収音されたか否かが判断される。所定の指示信号が収音装置に入力された状態で発話音声が収音されていないと判断された場合、第１の再生方法で応答音声が再生される。また、所定の指示信号が収音装置に入力された状態で発話音声が収音されたと判断された場合、第２の再生方法で応答音声が再生される。

したがって、発話者によって所定の指示信号が収音装置に入力された状態で発話された場合に、発話者のみに対して応答音声が再生されるので、発話者の意図を反映させた再生方法で応答音声を再生することができる。

また、上記の音声再生方法において、前記第１の再生方法は、指向性を有しない再生方法であり、前記第２の再生方法は、発話者に対して指向性を有する再生方法であり、前記周囲音声情報は、複数のマイクを含むアレイマイクシステムから取得される、所定の角度ごとに指向性を有する複数の周囲音声情報を含み、前記複数の周囲音声情報のそれぞれが前記音声対話システムに対する前記発話音声であるか否かを判断することで、前記複数の周囲音声情報を前記第１の音声情報と前記第２の音声情報とに分離し、前記第１の音声情報を含む周囲音声情報が取得されたマイクの指向性に基づいて、前記発話者の位置を特定し、前記発話者の位置と、前記第１の再生方法及び前記第２の再生方法のいずれかとを対応付けて記憶する音声情報データベースを参照し、特定した前記発話者の位置に前記第１の再生方法及び前記第２の再生方法のいずれかが対応付けられているか否かを判断し、特定した前記発話者の位置に前記第１の再生方法及び前記第２の再生方法のいずれかが対応付けられていると判断した場合、特定した前記発話者の位置に対応付けられている前記第１の再生方法及び前記第２の再生方法のいずれかにより、前記応答音声を再生し、特定した前記発話者の位置に前記第１の再生方法及び前記第２の再生方法のいずれも対応付けられていないと判断した場合、前記第１の音声情報の音声レベルと、前記第２の音声情報の音声レベルとを比較し、前記第１の音声情報の音声レベルが、前記第２の音声情報の音声レベルより高い場合に、前記第１の再生方法で前記応答音声を再生し、前記第１の音声情報の音声レベルが、前記第２の音声情報の音声レベルより低い場合に、前記第２の再生方法で前記応答音声を再生し、特定した前記発話者の位置と、前記応答音声が再生された前記第１の再生方法及び前記第２の再生方法のいずれかとを対応付けて前記音声情報データベースに記憶してもよい。

この構成によれば、第１の再生方法は、指向性を有しない再生方法であり、第２の再生方法は、発話者に対して指向性を有する再生方法である。周囲音声情報は、複数のマイクを含むアレイマイクシステムから取得される、所定の角度ごとに指向性を有する複数の周囲音声情報を含む。複数の周囲音声情報のそれぞれが音声対話システムに対する発話音声であるか否かが判断されることで、複数の周囲音声情報が第１の音声情報と第２の音声情報とに分離される。第１の音声情報を含む周囲音声情報が取得されたマイクの指向性に基づいて、発話者の位置が特定される。発話者の位置と、第１の再生方法及び第２の再生方法のいずれかとを対応付けて記憶する音声情報データベースが参照され、特定された発話者の位置に第１の再生方法及び第２の再生方法のいずれかが対応付けられているか否かが判断される。特定された発話者の位置に第１の再生方法及び第２の再生方法のいずれかが対応付けられていると判断された場合、特定された発話者の位置に対応付けられている第１の再生方法及び第２の再生方法のいずれかにより、応答音声が再生される。また、特定された発話者の位置に第１の再生方法及び第２の再生方法のいずれも対応付けられていないと判断された場合、第１の音声情報の音声レベルと、第２の音声情報の音声レベルとが比較される。第１の音声情報の音声レベルが、第２の音声情報の音声レベルより高い場合に、第１の再生方法で応答音声が再生される。また、第１の音声情報の音声レベルが、第２の音声情報の音声レベルより低い場合に、第２の再生方法で応答音声が再生される。特定された発話者の位置と、応答音声が再生された第１の再生方法及び第２の再生方法のいずれかとが対応付けられて音声情報データベースに記憶される。

したがって、発話者の位置と再生方法とを対応付けて音声情報データベースに予め記憶しておき、発話者の位置が、音声情報データベースに予め記憶されている発話者の位置と同じである場合は、記憶されている発話者の位置に対応付けられている再生方法を選択することができ、再生方法を決定するために要する処理時間を短縮することができる。

また、上記の音声再生方法において、前記発話音声を発話した発話者を識別し、前記発話者を識別する情報と、前記第１の再生方法及び前記第２の再生方法のいずれかとを対応付けて記憶する音声情報データベースから、識別した前記発話者に対応付けられている前記第１の再生方法及び前記第２の再生方法のいずれかを選択し、前記第１の再生方法及び前記第２の再生方法のいずれかにより、前記応答音声を再生してもよい。

この構成によれば、発話音声を発話した発話者が識別される。発話者を識別する情報と、第１の再生方法及び第２の再生方法のいずれかとを対応付けて記憶する音声情報データベースから、識別された発話者に対応付けられている第１の再生方法及び第２の再生方法のいずれかが選択される。第１の再生方法及び第２の再生方法のいずれかにより、応答音声が再生される。

したがって、発話者を識別する情報と再生方法とを対応付けて音声情報データベースに予め記憶しておき、識別された発話者が、音声情報データベースに予め記憶されている発話者を識別する情報と同じである場合は、記憶されている発話者を識別する情報に対応付けられている再生方法を選択することができ、再生方法を決定するために要する処理時間を短縮することができる。

また、上記の音声再生方法において、前記第１の再生方法は、指向性を有しない再生方法であり、前記第２の再生方法は、発話者に対して指向性を有する再生方法であり、分離した前記第１の音声情報が予め記憶部に記憶されている所定のキーワードを含むか否かを判断し、前記第１の音声情報が前記所定のキーワードを含むと判断した場合、前記第１の再生方法で前記応答音声を再生し、前記第１の音声情報が前記所定のキーワードを含まないと判断した場合、前記第２の再生方法で前記応答音声を再生してもよい。

この構成によれば、第１の再生方法は、指向性を有しない再生方法であり、第２の再生方法は、発話者に対して指向性を有する再生方法である。分離された第１の音声情報が予め記憶部に記憶されている所定のキーワードを含むか否かが判断される。第１の音声情報が所定のキーワードを含むと判断された場合、第１の再生方法で応答音声が再生される。また、第１の音声情報が所定のキーワードを含まないと判断された場合、第２の再生方法で応答音声が再生される。

したがって、第１の音声情報が予め記憶部に記憶されている所定のキーワードを含むか否かによって再生方法が決定されるので、再生方法を容易に決定することができる。

また、上記の音声再生方法において、分離した前記第１の音声情報の発話内容を分析し、分析した前記発話内容が前回取得した第１の音声情報の発話内容と同じであるか否かを判断し、分析した前記発話内容が前回の発話内容と同じであると判断した場合、前記応答音声を再生せず、分析した前記発話内容が前回の発話内容と同じではないと判断した場合、前記第１の音声情報の音声レベルと、前記第２の音声情報の音声レベルとを比較し、比較した結果に応じて、前記第１の再生方法及び前記第２の再生方法のいずれかにより、前記応答音声を再生し、分析した前記発話内容を前記記憶部に記憶してもよい。

この構成によれば、分離された第１の音声情報の発話内容が分析される。分析された発話内容が前回取得した第１の音声情報の発話内容と同じであるか否かが判断される。分析された発話内容が前回の発話内容と同じであると判断された場合、応答音声が再生されない。また、分析された発話内容が前回の発話内容と同じではないと判断された場合、第１の音声情報の音声レベルと、第２の音声情報の音声レベルとが比較される。比較された結果に応じて、第１の再生方法及び第２の再生方法のいずれかにより、応答音声が再生される。そして、分析された発話内容が記憶部に記憶される。

したがって、例えば、発話者の周囲の騒音が大きくて応答音声が聞こえにくい場合に、２回目の発話音声に対する応答音声の再生を中止することができるので、不要な応答音声の再生をキャンセルすることができる。

また、上記の音声再生方法において、前記第１の再生方法は、指向性を有しない再生方法であり、前記第２の再生方法は、発話者に対して指向性を有する再生方法であり、分離した前記第２の音声情報に含まれる人の音声の音声レベルを通常音声レベルとして音声レベルデータベースに蓄積し、分離した前記第１の音声情報の音声レベルが、前記音声レベルデータベースに蓄積されている前記通常音声レベルの平均値より高いか否かを判断し、前記第１の音声情報の音声レベルが前記通常音声レベルの平均値より高いと判断した場合、前記第１の再生方法で前記応答音声を再生し、前記第１の音声情報の音声レベルが前記通常音声レベルの平均値より低いと判断した場合、前記第２の再生方法で前記応答音声を再生してもよい。

この構成によれば、第１の再生方法は、指向性を有しない再生方法であり、第２の再生方法は、発話者に対して指向性を有する再生方法である。分離された第２の音声情報に含まれる人の音声の音声レベルが通常音声レベルとして音声レベルデータベースに蓄積される。分離された第１の音声情報の音声レベルが、音声レベルデータベースに蓄積されている通常音声レベルの平均値より高いか否かが判断される。第１の音声情報の音声レベルが通常音声レベルの平均値より高いと判断された場合、第１の再生方法で応答音声が再生される。また、第１の音声情報の音声レベルが通常音声レベルの平均値より低いと判断された場合、第２の再生方法で応答音声が再生される。

したがって、音声対話システムに対する指示を発話した発話音声の音声レベルと、通常の会話で発話者が発話した音声の音声レベルとを比較することにより、再生方法を決定することができる。

また、上記の音声再生方法において、前記第１の音声情報の音声レベルと、前記第２の音声情報の音声レベルとを比較し、比較した結果に応じて、前記第１の再生方法及び前記第２の再生方法のいずれかにより、前記発話音声により制御される制御対象機器が再生する音声を再生してもよい。

この構成によれば、第１の音声情報の音声レベルと、第２の音声情報の音声レベルとが比較された結果に応じて、第１の再生方法及び第２の再生方法のいずれかにより、発話音声により制御される制御対象機器が再生する音声が再生される。

したがって、発話音声に対する応答音声だけでなく、発話音声により制御される制御対象機器が再生する音声の再生方法についても制御することができる。

本開示の他の態様に係る音声対話装置は、発話音声に対する応答音声を再生する音声対話装置であって、前記音声対話装置に対して発話した発話音声を含み、前記発話音声の発話者の周囲の音を表す周囲音声情報を、前記発話音声を含む第１の音声情報と、前記発話音声以外の音を含む第２の音声情報とに分離する音声分離部と、前記第１の音声情報の音声レベルと、前記第２の音声情報の音声レベルとを比較する比較部と、比較した結果に応じて、第１の再生方法及び前記第１の再生方法とは再生する音声の指向性が異なる第２の再生方法のいずれかにより、前記応答音声を再生する再生制御部と、を備える。

この構成によれば、音声対話装置に対して発話した発話音声を含み、発話音声の発話者の周囲の音を表す周囲音声情報が取得される。周囲音声情報が、発話音声を含む第１の音声情報と、発話音声以外の音を含む第２の音声情報とに分離される。第１の音声情報の音声レベルと、第２の音声情報の音声レベルとが比較される。比較された結果に応じて、第１の再生方法及び第１の再生方法とは再生する音声の指向性が異なる第２の再生方法のいずれかにより、応答音声が再生される。

したがって、音声対話装置に対して発話した発話音声を含む第１の音声情報の音声レベルと、発話音声以外の音を含む第２の音声情報の音声レベルとの比較結果に応じて、第１の再生方法及び第１の再生方法とは再生する音声の指向性が異なる第２の再生方法のいずれかにより、応答音声が再生されるので、発話者の周囲の状況に応じた再生方法で応答音声を再生することができる。

本開示の他の態様に係る音声対話プログラムは、発話音声に対する応答音声を再生する音声対話プログラムであって、音声対話装置を、前記音声対話装置に対して発話した発話音声を含み、前記発話音声の発話者の周囲の音を表す周囲音声情報を、前記発話音声を含む第１の音声情報と、前記発話音声以外の音を含む第２の音声情報とに分離する音声分離部と、前記第１の音声情報の音声レベルと、前記第２の音声情報の音声レベルとを比較する比較部と、比較した結果に応じて、第１の再生方法及び前記第１の再生方法とは再生する音声の指向性が異なる第２の再生方法のいずれかにより、前記応答音声を再生する再生制御部として機能させる。

以下、本開示の実施の形態における音声対話装置又は音声対話システムについて、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体的を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、又はステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。

なお、これらの全般的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なＣＤ−ＲＯＭ等の記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録媒体の任意な組み合わせで実現されてもよい。

（音声対話装置の構成）
図１は、本開示の実施の形態における音声対話装置の構成を示す図である。図１に示す音声対話装置１００は、本実施の形態における全ての構成を一つの装置に備える構成例である。別の構成例に関しては図４を用いて後述する。なお、図１に示す音声対話装置１００の構成は一例であり、図１に示されている構成以外の構成を備えていてもよいし、また一部の構成が欠けていてもよい。

図１は、本実施の形態の一形態である音声対話装置１００の構成例を示す。音声対話装置１００は、音声取得部１０１、通信部１０２、表示部１０３、制御部１０４、再生部１０５、画像取得部１０６及び音情報ＤＢ（データベース）１０７を備える。なお、各構成は、必ずしも音声対話装置１００の内部に設けられていなくてもよい。例えば、通信部１０２、表示部１０３、画像取得部１０６又は音情報ＤＢ１０７は音声対話装置１００に必須の構成ではない。また、音声取得部１０１が、音声対話装置１００の外部装置に設けられており、音声対話装置１００と外部装置とが有線又は無線で接続されていてもよい。音声対話装置１００は、一つの家庭に一台のみ配置されているとは限らず、一つの家庭に複数台配置されている場合もある。

また、音声対話装置１００は、例えばテレビなどの家電機器であってもよいし、マイク、スピーカ又はカメラが搭載された専用の装置であってもよい。

まず、図１を用いて、本実施の形態の一形態である音声対話装置１００の各構成について説明する。

音声取得部１０１は、例えばマイクなどである。音声取得部１０１が取得する音には、音声対話装置１００を使用する際に音声対話装置１００（音声対話システム）に対して音声コマンドを発話する発話者の音声、音声対話装置１００（音声対話システム）に対して音声コマンドを発話している発話者以外の人の音声、発話者の周囲の機器から発せられる機器ノイズ、又は生活音などの周囲の騒音などが含まれる。

ここで、音声取得部１０１は、音声を取得する際の指向性を制御する指向性制御部と、取得した音声に対して音源分離をする信号処理部（図示せず）を備えることが望ましい。これにより、音声取得部１０１への各音の到来方向（領域）ごとに音声を取得（分離）することができるので、音声コマンドを発話した発話者の発話音声と、当該発話者以外の人の音声と、周囲の騒音とに分離する精度を向上させることができる。なお、信号処理部（図示せず）は、制御部１０４に含まれていてもよい。

通信部１０２は、インターネット等のネットワークと接続することで他の機器又はサーバ装置と通信し、種々の情報を送受信する。上述したように通信部１０２は音声対話装置１００に必須の構成ではない。

表示部１０３は、種々の情報を表示する。表示部１０３は、一般的なディスプレイであればよいので、説明を省略する。上述したように表示部１０３は音声対話装置１００に必須の構成ではない。

制御部１０４は、例えばＣＰＵ（中央演算処理装置）、プロセッサ又はマイクロコンピュータなどであり、他の機器を制御し、音声認識処理、画像処理又は収音信号処理などの機能を有している。制御部１０４は、音声取得部１０１及び表示部１０３などの各構成の動作を制御する。また、制御部１０４は、物理的に１つの制御ユニットにまとめられている必要はなく、物理的に別体である複数の制御ユニットが搭載される場合は、複数の制御ユニットの全てが制御部１０４に含まれる。制御部１０４の機能に関しては後述する。

再生部１０５は、制御部１０４で制御された信号を再生する。再生部１０５は、例えば、複数のスピーカユニットをアレイ上に配置したスピーカ（アレイスピーカ）であり、再生する応答音声の指向性を制御可能なスピーカであればよい。再生部１０５は、音声対話装置１００内に備えられていなくてもよい。例えば、再生部１０５は、外付けのスピーカなどであってもよく、再生部１０５と音声対話装置１００とが有線又は無線により接続されてもよい。

画像取得部１０６は、例えば音声対話装置１００がテレビである場合に、テレビに設けられているカメラである。音声対話装置１００に対して発話する発話者の位置が特定されれば、発話者の位置に指向性を向けることで、応答音声を的確に発話者の位置へ返すことができ、音声認識精度を向上させることができる。上述したとおり、本実施の形態では画像取得部１０６は音声対話装置１００に必須の構成ではない。画像取得部１０６を利用して、音声対話装置１００に対して発話する発話者の位置に指向性を向ける手法についての詳細は実施の形態２で説明する。

音情報ＤＢ１０７は、音声取得部１０１で取得した音声対話装置１００に対して発話する発話者の音声コマンド又は音声情報を蓄積している。音情報ＤＢ１０７は、音声対話装置１００に対して発話する発話者が音声コマンドを発話した回数又は音声コマンドの音声レベルを含む個人の音声信号の特徴を、関連付けて管理及び蓄積していてもよい。音情報ＤＢ１０７にこれらの情報が管理及び蓄積されていれば、制御部１０４が、音声取得部１０１で取得した音声対話装置１００に対して発話する発話者の音声コマンドの特徴を解析し、音情報ＤＢ１０７に蓄積されている音声コマンドと同じ音声レベル又は特徴を有する音声コマンドを分析することにより、音声対話装置１００に対して発話する発話者が音声対話装置１００を使用する時間の頻度又は周囲の騒音レベルの変動がわかる。よって、音声対話装置１００に対して発話者が音声コマンドを発話した時間、環境又は状況に応じた再生方法で音量を調整し、応答することができる。なお、上述したように音情報ＤＢ１０７は音声対話装置１００に必須の構成ではない。

（制御部の機能構成）
図２を用いて制御部１０４の機能構成を説明する。図２は、本開示の実施の形態における制御部の機能構成を示す図である。なお、図２に記載の制御部１０４の機能構成は一例であり、図２に示されている制御部１０４の機能構成以外の構成を備えていてもよい。

音声対話装置１００の制御部１０４は、音情報取得部２０１、分析部２０２、判断部２０３及び再生制御部２０６を備える。各部の動作及び処理の流れに関しては図３を用いて後述する。

音情報取得部２０１は、音声対話装置に対して発話した発話音声を含み、発話音声の発話者の周囲の音を表す周囲音声情報を取得する。

分析部２０２は、音情報取得部２０１によって取得された周囲音声情報を、音声対話装置１００に対して発話した発話音声を含む第１の音声情報と、発話音声以外の音を含む第２の音声情報とに分離する。

判断部２０３は、第１の音声情報の音声レベルと、第２の音声情報の音声レベルとを比較する。判断部２０３は、第１の音声情報の音声レベルが第２の音声情報の音声レベルより高いか否かを判断する。

再生制御部２０６は、判断部２０３によって比較された結果に応じて、第１の再生方法及び第１の再生方法とは再生する音声の指向性が異なる第２の再生方法のいずれかにより、応答音声を再生する。第１の再生方法は、指向性を有しない再生方法であり、第２の再生方法は、発話者に対して指向性を有する再生方法である。再生制御部２０６は、通常再生制御部２０４及びエリア再生制御部２０５を備える。

通常再生制御部２０４は、判断部２０３によって第１の音声情報の音声レベルが第２の音声情報の音声レベルより高いと判断された場合に、第１の再生方法で応答音声を再生する。

エリア再生制御部２０５は、判断部２０３によって第１の音声情報の音声レベルが第２の音声情報の音声レベルより低いと判断された場合に、第２の再生方法で応答音声を再生する。

なお、判断部２０３によって第１の音声情報の音声レベルが第２の音声情報の音声レベルと同じであると判断された場合は、通常再生制御部２０４が、第１の再生方法で応答音声を再生してもよいし、エリア再生制御部２０５が、第２の再生方法で応答音声を再生してもよい。

（音声対話装置１００の処理）
図３は、本実施の形態における音声対話装置の動作の一例を示すフローチャートである。

まず、音情報取得部２０１は、音声取得部１０１によって取得された音情報（周囲音声情報）を取得する（ステップＳ３０１）。当該取得した音情報には、例えば、音声対話装置１００（音声対話システム）に対して音声コマンドを発話する発話者の音声と、音声対話装置１００（音声対話システム）に対して音声コマンドを発話する発話者以外の人の音声と、人が発話した音声以外の騒音とが含まれる。また、ここで取得する音情報は、到来方向ごとに分離された情報であることが望ましい。音声取得部１０１が指向性収音を行うことができるマイクであれば、音情報取得部２０１は、音の到来方向（角度を有する複数の領域）ごとの音情報を取得できる。音情報取得部２０１は、音の到来方向（角度を有する複数の領域）ごとの音情報を取得する。音情報取得部２０１は、取得した音情報を分析部２０２に出力する。すなわち、音情報取得部２０１は、複数のマイクを含むアレイマイクシステムから取得される、所定の角度ごとに指向性を有する複数の周囲音声情報を取得してもよい。

次に、分析部２０２は、音情報取得部２０１によって取得された周囲音声情報を、音声対話装置１００に対して発話した発話音声を含む第１の音声情報と、発話音声以外の音を含む第２の音声情報とに分離する（ステップＳ３０２）。

分析部２０２は、音情報取得部２０１によって取得された音情報を分析（分類又は分離を含む）する。

分析部２０２は、少なくとも音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の音声と、音声コマンドを発話した発話者以外の人が発話した音声とに音情報を分類する。また、分析部２０２は、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の音声と、音声コマンドを発話した発話者以外の人が発話した音声と、音声以外の周囲の騒音との３つに音情報を分類してもよい。

ここで、ステップＳ３０１において、音の到来方向ごとの音情報を取得している場合は、分析部２０２は、音の到来方向（領域）ごとの音情報のそれぞれに対して、音声対話システムに対して発話した発話音声を含む第１の音声情報と、発話音声以外の音を含む第２の音声情報とに分類する。すなわち、分析部２０２は、取得した複数の周囲音声情報のそれぞれが、音声対話装置１００に対する発話音声であるか否かを判断することで、複数の周囲音声情報を第１の音声情報と第２の音声情報とに分離してもよい。

また、ステップＳ３０１において、音の到来方向ごとの音情報を取得することが望ましいと記載したが、分析部２０２が、取得した音情報に対して到来方向ごとの音情報に分離する処理を行ってもよい。すなわち、分析部２０２は、取得した音情報を、音の到来方向（領域）ごとの音情報に分離した後、各到来方向（領域）の音情報が、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声を含む第１の音声情報と、発話音声以外の音を含む第２の音声情報とのいずれであるかを判断してもよい。

次に、判断部２０３は、第１の音声情報の音声レベルと第２の音声情報の音声レベルとを比較し、第１の音声情報の音声レベルが第２の音声情報の音声レベルより高いか否かを判断する（ステップＳ３０３）。

判断部２０３は、分析部２０２で分析した結果に基づき、音声対話装置１００（音声対話システム）に対して音声コマンドを発話する発話者の音声の音声レベルと、それ以外の音声の音声レベルとを比較する。ここで、音声レベルとは音の高さを示し、音量又はボリュームと表現してもよい。

続いて、判断部２０３で比較した結果、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声を含む第１の音声情報の音声レベルが、発話音声以外の音を含む第２の音声情報の音声レベルより高いと判断された場合（ステップＳ３０３でＹＥＳ）、ステップＳ３０４の処理に進む。一方、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声を含む第１の音声情報の音声レベルが、発話音声以外の音を含む第２の音声情報の音声レベルより低いと判断された場合（ステップＳ３０３でＮＯ）、ステップＳ３０５の処理に進む。

第１の音声情報の音声レベルが第２の音声情報の音声レベルより高いと判断された場合、ステップＳ３０４において、通常再生制御部２０４は、第１の再生方法で応答音声を再生するように再生部１０５を制御する。もしくは、通常再生制御部２０４は、第１の再生方法で応答音声を再生するように再生部１０５を制御するための制御情報を生成する。ここでは、第１の再生方法は通常の再生方法である。通常の再生方法とは、指向性を持たせずに音声（応答音声）を再生する再生方法である。

一方、第１の音声情報の音声レベルが第２の音声情報の音声レベルより低いと判断された場合、ステップＳ３０５において、エリア再生制御部２０５は、第２の再生方法で応答音声を再生するように再生部１０５を制御する。もしくは、エリア再生制御部２０５は、第２の再生方法で応答音声を再生するように再生部１０５を制御するための制御情報を生成する。ここでは、第２の再生方法は、指向性再生で音声（応答音声）を再生する再生方法である。第２の再生方法では、発話者の方向のみに向けて応答音声が再生される。ここで、ステップＳ３０２において、音の到来方向（領域）ごとに、音声対話装置１００（音声対話システム）に対して音声コマンドを発話する発話者の発話音声を含む第１の音声情報と、発話音声以外の音を含む第２の音声情報とに分類した場合、エリア再生制御部２０５は、第１の音声情報に分類された領域に、指向性再生（エリア再生）を行う。

なお、再生部１０５は、第２の再生方法で再生する応答音声の音声レベルを、第１の再生方法で再生する応答音声の音声レベルより大きくしてもよい。

（音声対話システムの構成）
次に、図４を用いて、本実施の形態の別の構成例を説明する。図４は、本実施の形態における音声対話システムの構成を示す図である。音声対話システムは、音声対話装置１００とサーバ装置１１０とを備える。

図４に示す構成例では、音声対話装置１００は、ネットワーク１２０を介して外部のサーバ装置１１０と互いに通信可能に接続される。サーバ装置１１０と音声対話装置１００との接続（通信）の方法は特に限定しない。サーバ装置１１０と音声対話装置１００とは、無線で接続されていてもよいし、有線で接続されていてもよい。サーバ装置１１０が設置されている場所に関しては、特に限定しない。サーバ装置１１０は、ビッグデータを取り扱うデータセンターを管理及び運営する会社が保有するデータセンターに配置されていてもよいし、各家庭に配置されていてもよい。すなわち、サーバ装置１１０は、音声対話装置１００と同一の空間に配置されていてもよいし、音声対話装置１００とは別の空間に配置されていてもよい。

図４の例では、音声対話装置１００は、音声取得部１０１、通信部１０２、表示部１０３、制御部１０４、再生部１０５、画像取得部１０６及び音情報ＤＢ１０７を備える。図１に示す例と同様、表示部１０３、画像取得部１０６及び音情報ＤＢ１０７は、音声対話装置１００に必須の構成ではない。ただし、図４の例では、通信部１０２は、音声対話装置１００に必須の構成となる。また、サーバ装置１１０は、制御部１１１、通信部１１２及び音情報ＤＢ１１３を備える。

図４に示す音声対話装置１００の各構成の機能に関しては、上記で説明した各構成と同様であるので説明を省略する。通信部１０２は、例えばインターネットであるネットワーク１２０を介してサーバ装置１１０の通信部１１２と接続する。これにより、通信部１０２は、音声対話装置１００にて取得した音情報をサーバ装置１１０に送信することができる。サーバ装置１１０は、通信部１１２を介して複数の音声対話装置と接続されていてもよい。

サーバ装置１１０における制御部１１１、通信部１１２及び音情報ＤＢ１１３の基本的な機能は、音声対話装置１００における制御部１０４、通信部１０２及び音情報ＤＢ１０７の機能と同様であるので、その説明を省略する。

図４に示す構成例のように、音声対話装置１００は、サーバ装置１１０と通信することで、一部の構成をサーバ装置１１０側に備えることができる。言い換えると、音声対話装置１００は、サーバ装置１１０と通信をすることで、一部の処理をサーバ装置１１０側に負担させることができる。例えば、比較的処理負荷の小さい処理を音声対話装置１００で行い、比較的処理負荷の大きい処理をサーバ装置１１０で行うことにより、音声対話装置１００側の処理負荷を軽減することができる。また、音声対話装置１００の音情報ＤＢ１０７には比較的情報量の小さい情報のみを蓄積し、サーバ装置１１０の音情報ＤＢ１１３には比較的情報量の大きい情報を蓄積することにより、音声対話装置１００側のメモリ消費を低減できる。また、サーバ装置１１０に接続された他の音声対話装置（図示せず）から取得した情報を利用することもできる。

なお、図１及び図４は音声対話装置及び音声対話システムの構成における一例にすぎず、本実施の形態では、図１及び図４のいずれを採用してもよいし、図示した以外の装置を音声対話装置及び音声対話システムに採用することもできる。

また、図２に示す制御部１０４の機能構成は、図１及び図４のいずれの構成例でも共通する機能構成である。なお、図４の場合、図２に示した各機能構成の一部を制御部１０４が備え、他の機能構成を制御部１１１が備えればよい。例えば、制御部１０４が音情報取得部２０１、判断部２０３及び再生制御部２０６を備え、制御部１１１が分析部２０２を備えてもよい。また、例えば、制御部１１１が、音情報取得部２０１、分析部２０２、判断部２０３及び再生制御部２０６の全てを備えていてもよい。

（音声対話システムの動作例）
以下、図５を用いて、音声対話システムを実現する具体的な各装置の動作の一例を説明する。図５は、本実施の形態における音声対話システムの動作を説明するためのシーケンス図である。ここでは、図４に示した音声対話装置（テレビ）１００とサーバ装置１１０とによって音声対話システムを実現する例を示すが、図４に示す音声対話システムの動作は一例であり本実施の形態を限定するものではない。

まず、ステップＳ４０１において、音声対話装置１００の音声取得部１０１は、取得した音情報（周囲音声情報）を通信部１０２に出力する。ここで、音声取得部１０１が取得する音情報は、音の到来方向ごとに分離された音情報であることが望ましい。すなわち、音声取得部１０１が通信部１０２に出力する音情報は、音の到来方向ごとに分離された複数の音情報である。

音声取得部１０１が音情報を取得するタイミング、及び音声取得部１０１が取得した音情報を通信部１０２に出力するタイミングに関しては特に限定しない。例えば、音声対話装置１００がテレビである場合、音声取得部１０１は、テレビの電源がＯＮになっている間は常に音情報を取得してもよい。また、音情報の中にマジックワード（所定のキーワード）が検出された時（直後）に、音声取得部１０１は、音情報を通信部１０２に出力してもよい。マジックワードとは、特定の機器及びシステムを起動するためのキーワードである。例えば、ある特定のシステムでは、「マイクオン」のマジックワードをマイクで収音した時にシステムが起動する。このマジックワードに連続して、機器を制御するための音声コマンドが発声されることで、システムのマイクが起動され、システムへの音声コマンドの指示通りに、特定のシステムが制御される。

マジックワードを用いて音情報を取得するか否かを切り替える場合は、音声取得部１０１は、音声認識部（図示せず）及びマジックワード検出部（図示せず）を含む。音声認識部は、取得した音情報をテキスト情報に変換する。マジックワード検出部は、音声認識部によって変換されたテキスト情報の中から、予め記憶しているマジックワードを検出する。マジックワード検出部は、テキスト情報の中からマジックワードが検出された場合、音情報を通信部１０２へ出力する。

また、制御部１０４が音声認識部（図示せず）及びマジックワード検出部（図示せず）を含んでいてもよい。この場合は、音声取得部１０１は常に音情報を取得しており、制御部１０４が取得した音情報に対して音声認識処理及びマジックワード検出処理を行うことで、システムに対して発話している時間区間を特定することができる。そして、制御部１０４は、通信部１０２に対して、特定した時間区間の音情報のみをサーバ装置１１０に送信するように制御してもよい。

次に、ステップＳ４０２において、音声対話装置１００の通信部１０２は、ネットワーク１２０を介して、取得した音情報をサーバ装置１１０に送信する。ここで、通信部１０２がサーバ装置１１０に音情報を送信するタイミングに関しては特に限定しない。

通信部１０２は、音声取得部１０１が音情報を取得する度に、随時音情報をサーバ装置１１０に送信してもよい。

上記したように、音声取得部１０１が音声認識部及びマジックワード検出部を備えている場合には、音声取得部１０１が取得した音情報は、既にシステムに対して発話している時間区間に取得されたと推定される。そのため、この場合、通信部１０２は、音声取得部１０１によって取得された全ての音情報をサーバ装置１１０に送信する。そのため、通信部１０２は、音声取得部１０１から音情報を取得したタイミングで、音情報を送信してもよい。

また、制御部１０４が音声認識部及びマジックワード検出部を備える場合は、制御部１０４が、発話者がシステムに対して音声コマンドを発話している時間区間を特定している。そのため、通信部１０２は、制御部１０４によって特定された時間区間のみ音情報をサーバ装置１１０に送信する。そのため、通信部１０２は、システムに対して音声コマンドが発話されている時間区間が制御部１０４によって特定されたタイミングで、音情報を送信してもよい。

また、音声取得部１０１は、取得した音情報を音情報ＤＢ１０７に蓄積してもよい。この場合、通信部１０２は、一定の量の音情報が音情報ＤＢ１０７に蓄積されたタイミング、又は一定時間ごとのタイミングで、サーバ装置１１０に音情報を送信してもよい。

この時、一つのサーバ装置１１０に対して複数の音声対話装置１００が接続されている場合、通信部１０２は、音情報と合わせて音声対話装置１００を特定するＩＤ（識別情報）を送信してもよい。

そして、サーバ装置１１０の制御部１１１は、通信部１１２を介して音声対話装置１００から音情報を取得する。制御部１１１が音情報を取得する処理は、図３のステップＳ３０１の処理に相当する。

次に、ステップＳ４０３において、サーバ装置１１０の制御部１１１は、音声対話装置１００から送信された音情報を分析する。ここでは、制御部１１１は、取得した音の到来方向ごとの音情報を、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声を含む第１の音声情報と、発話音声以外の音を含む第２の音声情報とに分離する。制御部１１１が音情報を分離する処理は、図３のステップＳ３０２の処理に相当する。

制御部１１１の分析部２０２は、少なくとも取得した音情報を音源毎に分離する音源分離部を含む。音源分離部は、取得した音情報に対して、スペクトルの情報又は発声パワーの特徴量から、少なくとも、音声コマンドを発話した発話者の発話音声を含む第１の音声情報と、発話音声以外の音を含む第２の音声情報とに音源分離を行う。ここで、ステップＳ４０２の処理において取得した音情報が音の到来方向（領域）ごとに分離されている場合、音源分離部は、領域ごとに音情報を分離する。以下に、音源分離の一例を説明する。

まず、音源分離部は、例えば取得した音情報に対して、音の到来方向（領域）ごとに、人の音声と、人以外の音とに分離する。音の到来方向の取得に関しては、上記したように音声取得部１０１が指向性収音を行うマイク（アレイ状に並べた複数のマイク）である場合に、音声取得部１０１は、複数の角度領域ごとに指向性ビームを変化させながら収音することで、複数の角度領域（音の到来方向）ごとの音情報を取得する。

また、音情報の他の分離方法としては、一般的な人の音声のスペクトル情報又は特徴量から分離する方法などが考えられる。例えば、騒音環境から音声信号のみを検出する方法としてスペクトルサブトラクション法が挙げられる。分析部２０２は、スペクトルサブトラクション法を用いて周囲音声情報を第１の音声情報と第２の音声情報とに分離してもよい。ただし、音情報を人の音声と人の音声以外の音とに分離する方法はスペクトルサブトラクション法に限られない。分析部２０２は、予め音声対話装置１００が配置される空間の環境音情報を把握（蓄積）し、取得した音情報に対して環境音情報と環境音情報以外の音声情報とに分類することで、音情報を人の音声と人の音声以外の音とに分離してもよい。

そして、分析部２０２は、分離した人の音声をさらに詳細に分析することで、音の到来方向（領域）ごとに、音声対話システムに対して発話した発話者の音声と、発話者以外の人が発話した音声とに音情報を分離する。ここで、システムに対して発話した発話者の音声と、発話者以外の人が発話した音声とに音情報を分離する方法としては、例えば、マジックワード（所定のキーワード）を検出し、当該マジックワードを発話した発話者の声の特徴量を取得し、当該発話者をシステムに対して発話した発話者として特定し、他の音声特徴量を有している音情報と分離する方法などが考えられる。分析部２０２は、取得した複数の周囲音声情報のそれぞれに対し、予め記憶されている所定のキーワードが含まれているか否かを判断し、周囲音声情報に所定のキーワードが含まれている場合、当該周囲音声情報が音声対話システムに対する発話音声であると判断してもよい。

また、予め音声対話装置１００に対して音声コマンドを発話できる人が制限されている場合は、発話者を識別して、制限されている人の音声と、制限されている人以外の人の音声とを分離することができる。例えば、音声対話装置１００の保有者の音声が初期登録されており、音声対話装置１００の音情報ＤＢ１０７に蓄積されていれば、分析部２０２は、蓄積された音声と合致する音声と合致しない音声とを分類することで、音声対話システムに対して発話した発話者の音声と、発話者以外の人が発話した音声とを分離することができる。

すなわち、上記の方法で音情報を分類すると、結果的に、各音の到来方向（領域）ごとに、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の音声と、音声コマンドを発話した発話者以外の人が発話した音声と、周囲騒音との３つに音情報が分類される。ここで、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の音声が、上記した音声対話装置１００（音声対話システム）に対して発話した発話者の発話音声に相当する。また、音声コマンドを発話した発話者以外の人が発話した音声と、周囲騒音とを併せた音が、上記した発話音声以外の音に相当する。なお、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の音声が、上記した音声対話装置１００（音声対話システム）に対して発話した発話者の発話音声に相当し、音声コマンドを発話した発話者以外の人が発話した音声が、上記した発話音声以外の音に相当してもよい。

ここで、分析部２０２は、音の到来方向（領域）ごとに、音声コマンドを発話する発話者の発話音声と、発話音声以外の音声とに音源分離を行うと記載したが、このステップＳ４０３のタイミングで音の到来方向（領域）ごとに音源分離を行わなくてもよい。ただし、後述するステップＳ４０８において発話者に対して指向性を向けて応答音声を再生する場合は、必ず事前にシステムに対して発話した発話者の方向（位置又は領域）を特定する必要がある。よって、音情報を分離する段階で各音の到来方向（領域）ごとに音情報を分析しておくことが望ましい。

次に、ステップＳ４０４において、サーバ装置１１０の制御部１１１は、ステップＳ４０３の分析結果を用いて、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声を含む第１の音声情報の音声レベルと、発話音声以外の音を含む第２の音声情報の音声レベルとを比較する。

ここで、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声が上記した第１の音声情報に相当し、音声コマンドを発話した発話者以外の人が発話した音声と周囲騒音とを併せた音声が上記した第２の音声情報に相当する場合、制御部１１１は、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声の音声レベルと、音声コマンドを発話した発話者以外の人が発話した音声の音声レベルに周囲騒音の音声レベルを加算した音声レベルとを比較する。

なお、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声が上記した第１の音声情報に相当し、音声コマンドを発話した発話者以外の人が発話した音声が上記した第２の音声情報に相当するとした場合、制御部１１１は、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声の音声レベルと、音声コマンドを発話した発話者以外の人が発話した音声の音声レベルとを比較し、周囲騒音の音声レベルは無視する。

なお、ステップＳ４０４の処理は図３のＳ３０３の処理に相当する。

次に、ステップＳ４０５において、制御部１１１は、ステップＳ４０４で比較した結果に基づいて再生方法を決定する。具体的には、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声の音声レベルが、発話音声以外の音声の音声レベルより高い場合には、制御部１１１は、再生方法を第１の再生方法（通常の再生方法）に決定し、第１の再生方法で応答音声を再生するように再生部１０５を制御するための制御情報を生成する。ここでは、第１の再生方法は通常の再生方法である。通常の再生方法とは、指向性を持たせずに音声を再生する再生方法である。

一方、音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声の音声レベルが、発話音声以外の音声の音声レベルより低い場合には、制御部１１１は、再生方法を第２の再生方法に決定し、第２の再生方法で応答音声を再生するように再生部１０５を制御するための制御情報を生成する。ここでは、第２の再生方法は指向性再生で再生する再生方法である。なお、ステップＳ４０５の処理は図３のＳ３０４〜Ｓ３０５の処理に相当する。

次に、ステップＳ４０６において、制御部１１１は、音声コマンドに対する応答音声を作成する。まず、制御部１１１は、音声認識を行う。ここでは、制御部１１１は、ステップＳ４０３で音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声であると特定された到来方向（領域）の音情報のみに対して音声認識を行う。なお、制御部１１１は、音声認識をこの段階で行わなくてもよい。例えば、制御部１１１は、ステップＳ４０３の後など、事前に音声認識を行っていてもよい。また、音声対話装置１００が音声認識を行ってもよい。

そして、制御部１１１は、音声認識の結果に基づいて、応答音声の応答内容を決定する。ここでは、制御部１１１は、外部の対話サーバ（図示せず）を利用して、応答内容を選択してもよい。対話サーバには、膨大な量の対話応答スクリプト（対話辞書）が用意されており、音声認識の結果と照合することで、応答内容を選択することができる。例えば、音声認識処理の結果「明日の天気は？」という認識結果が得られた場合、制御部１１１は、「雨です」などの応答内容を決定する。応答内容の決定方法については特に限定しない。

そして、制御部１１１は、選択した応答内容に応じて音声対話装置１００で再生する応答音声の音声合成を行う。ここでは、制御部１１１は、音声合成を行うとともに、ステップＳ４０５で第２の再生方法（指向性再生）に決定された場合、応答音声を再生する方向を示す再生部１０５（スピーカ）の指向性パラメータに関する情報を生成する。すなわち、制御部１１１は、ステップＳ４０３で特定した音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声によって特定される到来方向（領域）に対して応答音声を再生するための指向性パラメータを生成する。

このように、制御部１１１は、分離した第１の音声情報に対して音声認識を行い、音声認識の結果を用いて応答音声を生成する。

次に、ステップＳ４０７において、サーバ装置１１０の制御部１１１は、ステップＳ４０５で決定した再生方法と、ステップＳ４０６で作成した応答音声とを音声対話装置１００の通信部１０２を介して再生部１０５に送信する。ここで、ステップＳ４０５で第２の再生方法（指向性再生）に決定された場合、制御部１１１は、応答音声を再生する方向を示す再生部１０５（スピーカ）の指向性パラメータに関する情報も併せて送信する。すなわち、制御部１１１は、ステップＳ４０３で特定した音声対話装置１００（音声対話システム）に対して音声コマンドを発話した発話者の発話音声によって特定される到来方向（領域）に対して応答音声を再生するための指向性パラメータを送信する。

次に、ステップＳ４０８において、再生部１０５は、取得した再生方法で応答音声を再生する。ここで、ステップＳ４０５で第２の再生方法（指向性再生）に決定されている場合、再生部１０５は、応答音声を再生する方向を示す再生部１０５（スピーカ）の指向性パラメータも併せて取得しているので、当該指向性パラメータで応答音声を指向性再生する。再生部１０５は、生成された応答音声を第１の再生方法及び第２の再生方法のいずれかにより再生する。再生部１０５は、第２の再生方法により応答音声を再生する際に、音声対話システムに対する発話音声であると判断された周囲音声情報が取得された角度の方向に向けて、応答音声を再生する。

（効果）
以上、本実施の形態によれば、音声対話装置１００（音声対話システム）に対して発話している発話者の発話音声の音声レベルが発話音声以外の音の音声レベルより高いか否かを判断し、判断結果に基づいて、指向性を有しない通常の再生方法と、発話者に対して指向性を有する再生方法とのいずれかにより、応答音声が再生される。これによれば、状況に応じて最適な再生方法で対話の応答音声を再生することができる。

以下、音声対話装置１００（音声対話システム）の利用シーンに関してより具体的に説明する。音声対話装置１００の周辺に複数の人がおり、一人のみが音声対話装置１００に対して質問した状況（以下、第１の状況ともいう）について説明する。

図６は、音声対話装置に対して発話している発話者の発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合における応答音声の第１の再生方法について説明するための模式図である。

音声対話装置１００に対して発話している発話者１０の発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合、音声対話装置１００に対して発話した発話者１０以外の人も音声対話装置１００からの応答結果（応答音声）を確認するために音を発さないようにしていることが想定できる。すなわち、この場合、音声対話装置１００の周辺に存在する全ての人が音声対話装置１００からの応答結果（応答音声）に対して関心を持っている可能性が高い。また、周囲の騒音レベルが高くないので、指向性を持たせて音声対話装置１００に対して発話した発話者１０のみに再生する必要がない状況であることが推測できる。本実施の形態によれば、音声対話装置１００に対して発話している発話者１０の発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合において、自動的に指向性を有しない通常の第１の再生方法で応答音声を再生することができる（図６）。

図７は、音声対話装置に対して発話している発話者の発話音声の音声レベルが発話音声以外の音の音声レベルより低い場合における応答音声の第２の再生方法について説明するための模式図である。

音声対話装置１００に対して発話している発話者１０の発話音声の音声レベルが発話音声以外の音の音声レベルより低い場合、音声対話装置１００に対して発話した発話者１０以外の人（周囲の人）が音を発している（音声対話装置１００以外の人に対して発話又は会話している）ことが想定できる。すなわち、この場合、音声対話装置１００に対して発話した発話者１０以外の人は、音声対話装置１００からの応答結果（応答音声）に対して関心を持っていない可能性が高い。また、周囲の騒音レベルが高いので、指向性を持たせて音声対話装置１００に対して発話した発話者１０のみに応答音声を再生する必要がある状況であることが推測できる。本実施の形態によれば、音声対話装置１００に対して発話している発話者１０の発話音声の音声レベルが発話音声以外の音の音声レベルより低い場合において、自動的に発話者１０に対して指向性を有する第２の再生方法で応答音声を再生することができる（図７）。

このように、本実施の形態では、状況に応じて最適な再生方法で発話音声に対する応答音声を再生することができる。また、一般的に、所定の領域のみに向けて音声を再生するエリア再生を行う際には、音声対話装置１００（音声対話システム）の演算量が増えるが、常にエリア再生を行う場合と比較して、音声対話装置１００（音声対話システム）の処理負荷を低減することができる。

以下、本実施の形態の変形例について説明する。

（変形例１）
本実施の形態では、上記の例のように、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合に、通常の再生方法（指向性を有しない第１の再生方法）で応答音声が再生され、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルが発話音声以外の音の音声レベルより低い場合に、エリア再生方法（発話者に対して指向性を有する第２の再生方法）で応答音声が再生される（以下、第１の再生制御パターンともいう）が、本開示はこれに限られない。例えば、状況に応じて上記の例とは異なる再生方法で応答音声を再生してもよい。

具体的には、上記で記載した第１の状況以外の状況において、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合に、エリア再生方法（発話者に対して指向性を有する第２の再生方法）で応答音声が再生され、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルが発話音声以外の音の音声レベルより低い場合に、通常の再生方法（指向性を有しない第１の再生方法）で応答音声が再生されてもよい（以下、第２の再生制御パターンともいう）。第１の状況以外の状況とは、例えば、音声対話装置１００（音声対話システム）に対して発話する人以外の人（例えば、幼児など）が音声対話装置１００（音声対話システム）の周辺で寝ている状況（以下、第２の状況ともいう）である。音声対話装置１００（音声対話システム）に対する発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合は、音声対話装置１００（音声対話システム）に対して発話した人以外の人（例えば、幼児など）が物音を立てていない状況であるので、発話者以外の人は例えば睡眠をしている可能性がある。

したがって、第２の状況において、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルが発話音声以外の音の音声レベルより高い場合に、発話者に対して指向性を有する第２の再生方法で応答音声が再生され、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルが発話音声以外の音の音声レベルより低い場合に、指向性を有しない第１の再生方法で応答音声が再生されることが好ましい。また、音声対話装置１００（音声対話システム）は、このように状況に応じて再生制御を変更する際に、ユーザによる現在の状況の選択を受け付けてもよい。

なお、音声対話装置１００（音声対話システム）に対して発話した発話者以外の人が幼児であるか否かは、画像取得部１０６によって取得された画像から画像認識を行い、幼児を検出することにより判定してもよい。

（変形例２）
また、制御部１０４は、分析部２０２によって取得された環境音から現在の状況を推測する状況推測部（図示せず）を備えてもよい。ここで、状況推測部は、例えば音情報から発話者を識別する話者識別部であってもよい。これによれば、取得した音声に応じて、システムの周囲にどんな人がいるのかを判断することができる。例えば話者識別により、上記した第２の状況のように音声対話装置１００（音声対話システム）の周辺に幼児が存在すると判断された場合に、第２の再生制御パターンにて制御してもよい。

すなわち、話者識別部は、取得された周囲音声情報から周囲にいる人を識別してもよい。そして、判断部２０３は、第１の音声情報の音声レベルと第２の音声情報の音声レベルとを比較した結果と、周囲にいる人を識別した結果とに基づいて、第１の再生方法及び第２の再生方法のいずれで再生するかを切り替えてもよい。

例えば、周囲にいる人を識別した結果、周囲に幼児がいる場合、判断部２０３は、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルが発話音声以外の音の音声レベルより高いと判断した場合、発話者に対して指向性を有する第２の再生方法に決定し、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルが発話音声以外の音の音声レベルより低いと判断した場合、指向性を有しない第１の再生方法に決定してもよい。

なお、話者識別部は、画像取得部１０６によって取得された画像から周囲にいる人を識別してもよい。

（変形例３）
音情報ＤＢ１０７が過去の音声取得状況を蓄積している場合に、判断部２０３は、取得した音情報のみを用いるのではなく、音情報ＤＢに蓄積されている音声取得状況も用いて再生方法を判断してもよい。具体的には、音情報ＤＢ１０７には、少なくとも過去に取得した音情報と、当該音情報が取得された時に判断した再生方法とが関連付けられてテーブル化されている。これにより、判断部２０３は、取得した音声情報（第１の音声情報）と音情報ＤＢ１０７に蓄積されている音声情報とが類似する場合には、ステップＳ３０３に示す比較処理を行わずに、過去に決定された再生方法と同じ再生方法に決定すればよい。

すなわち、判断部２０３は、過去に取得した第１の音声情報と、過去に第１の音声情報を再生した際に選択された第１の再生方法及び第２の再生方法のいずれかとを関連付けて記憶するテーブルを用いて、応答音声を再生する再生方法を選択してもよい。

また、ステップＳ３０３に示す比較処理と、音情報ＤＢ１０７に蓄積されている過去に取得された音情報と再生方法とを対応付けたテーブル情報とを併せて利用することで再生方法を決定してもよい。また、判断部２０３は、ステップＳ３０３に示す比較処理の結果、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルと発話音声以外の音の音声レベルとに所定値以上の差異が無い場合には、音情報ＤＢ１０７を利用して再生方法を決定してもよい。

（変形例４）
本実施の形態の変形例４では、発話者を識別する情報と、第１の再生方法及び第２の再生方法のいずれかとが対応付けて音声情報データベースに予め記憶されている。そして、取得された周囲音声情報が第１の音声情報と第２の音声情報とに分離され、発話者が識別される。識別された発話者に対応付けられている再生方法が音声情報データベースに存在する場合、音声情報データベースに記憶されている再生方法で応答音声が再生される。

分析部２０２が状況推測部（特に話者識別部）を備えており、音情報ＤＢ１０７に予め音声対話装置１００（音声対話システム）を利用する一又は複数の発話者の音声の特徴と再生方法とが関連付けられて保持されている場合にも、ステップＳ３０３に示す比較処理を行わずに、再生方法を決定することが可能である。これによれば、例えば、父親が音声対話装置１００（音声対話システム）に対して発話した場合には、いかなる状況であっても発話者である父親に対して指向性を有する第２の再生方法で応答音声を再生することが可能となる。すなわち、個人の好みに応じて最適な再生方法で応答音声を再生することができる。

ここで、本実施の形態の変形例４における音声対話装置１００について説明する。

なお、本実施の形態の変形例１０における音声対話装置１００の構成については、図１及び図２を用いて説明する。

分析部２０２は、話者識別部（不図示）を備える。話者識別部は、発話音声を発話した発話者を識別する。

音情報ＤＢ１０７は、発話者を識別する情報と、第１の再生方法及び第２の再生方法のいずれかとを対応付けて記憶する。発話者を識別する情報とは、例えば、発話者の名前、発話者のニックネーム、又は発話者のＩＤ番号である。また、発話者を識別する情報は、発話者が発話した発話音声を示す音声情報であってもよく、発話者が発話した発話音声を示す音声情報の特徴量であってもよい。

また、音声対話装置１００は、発話者を識別する情報及び再生方法のユーザによる入力を予め受け付けてもよい。音情報ＤＢ１０７は、予めユーザによって入力された発話者を識別する情報と、第１の再生方法及び第２の再生方法のいずれかとを対応付けて記憶してもよい。

再生制御部２０６は、音情報ＤＢ１０７から、識別された発話者に対応付けられている第１の再生方法及び第２の再生方法のいずれかを選択する。再生制御部２０６は、選択した第１の再生方法及び第２の再生方法のいずれかにより、応答音声を再生するように再生部１０５を制御する。

図８は、本実施の形態の変形例４における音声対話装置の動作の一例を示すフローチャートである。

ステップＳ１２０１及びステップＳ１２０２の処理は、図３に示すステップＳ３０１及びステップＳ３０２の処理と同じであるので、説明を省略する。

次に、ステップＳ１２０３において、話者識別部は、発話音声を発話した発話者を識別する。

次に、ステップＳ１２０４において、再生制御部２０６は、音情報ＤＢ１０７から、識別された発話者に対応付けられている第１の再生方法及び第２の再生方法のいずれかを選択する。

次に、ステップＳ１２０５において、再生制御部２０６は、選択した第１の再生方法及び第２の再生方法のいずれかにより、応答音声を再生するように再生部１０５を制御する。すなわち、識別された発話者に第１の再生方法が対応付けられている場合、通常再生制御部２０４は、指向性を有しない第１の再生方法で応答音声を再生するように再生部１０５を制御する。また、識別された発話者に第２の再生方法が対応付けられている場合、エリア再生制御部２０５は、発話者のみに指向性を有する第２の再生方法で応答音声を再生するように再生部１０５を制御する。

なお、上記の変形例４では、発話者を識別する情報と、第１の再生方法及び第２の再生方法のいずれかとが、予め対応付けて音情報ＤＢ１０７に記憶されている。しかしながら、音情報ＤＢ１０７は、発話者を識別する情報と、第１の再生方法及び第２の再生方法のいずれかとを必ずしも対応付けて記憶しているとは限らない。そのため、ステップＳ１２０３の処理の後、判断部２０３は、音情報ＤＢ１０７を参照し、識別された発話者に再生方法が対応付けられているか否かを判断してもよい。識別された発話者に再生方法が対応付けられている場合、再生制御部２０６は、音情報ＤＢ１０７から、識別された発話者に対応付けられている第１の再生方法及び第２の再生方法のいずれかを選択する。

一方、識別された発話者に再生方法が対応付けられていない場合、判断部２０３は、第１の音声情報の音声レベルが第２の音声情報の音声レベルより高いか否かを判断してもよい。そして、第１の音声情報の音声レベルが第２の音声情報の音声レベルより高いと判断された場合、通常再生制御部２０４は、第１の再生方法で応答音声を再生するように再生部１０５を制御する。また、第１の音声情報の音声レベルが第２の音声情報の音声レベルより低いと判断された場合、エリア再生制御部２０５は、第２の再生方法で応答音声を再生するように再生部１０５を制御する。その後、再生制御部２０６は、発話者を識別する情報と、応答音声が再生された第１の再生方法及び第２の再生方法のいずれかとを対応付けて音情報ＤＢ１０７に記憶してもよい。

また、判断部２０３は、ステップＳ３０３に示す比較処理において、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルと発話音声以外の音の音声レベルとの差分の絶対値が、所定の閾値以上である場合にのみ、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルが発話音声以外の音の音声レベルより高いか否かを判断してもよい。また、判断部２０３は、差分の絶対値が所定の閾値より小さい場合に、音情報ＤＢ１０７にユーザごとの初期設定として保持されている再生方法の中から、話者識別部によって識別されたユーザに対応する再生方法で応答音声を再生するように決定してもよい。これによれば、再生方法が頻繁に変化するのを抑制することができる。

（変形例５）
判断部２０３は、画像取得部１０６が取得した画像情報を利用して、再生方法を判断してもよい。例えば、分析部２０２が画像認識部（図示せず）を備えており、画像認識部は、音声対話装置１００（音声対話システム）に対して関心を持っている人の数を認識してもよい。これによれば、判断部２０３は、ステップＳ３０３に示す比較処理を行わずに、画像認識部による認識結果から再生方法を決定することができる。

例えば、音声対話装置１００（音声対話システム）に対して関心を持っていると判断した人の数が閾値以上である場合に、判断部２０３は、再生方法を通常の再生方法（第１の再生方法）に決定してもよい。また、音声対話装置１００（音声対話システム）に対して関心を持っていると判断した人の数が閾値より少ない場合に、判断部２０３は、再生方法をエリア再生方法（第２の再生方法）に決定してもよい。取得した画像から音声対話装置１００（音声対話システム）に対して関心を持っている人であるか否かを認識する方法は、既存の顔認識処理又は視線認識処理の結果から判断する方法を採用すればよい。例えば、判断部２０３は、顔認識処理の結果、音声対話装置１００（音声対話システム）の方向を向いていると判断した場合に、音声対話装置１００（音声対話システム）に対して関心を持っていると判断してもよい。また、例えば、判断部２０３は、視線認識処理の結果、音声対話装置１００（音声対話システム）の方向を見ていると判断した場合に、音声対話装置１００（音声対話システム）に対して関心を持っていると判断してもよい。

また、判断部２０３は、ステップＳ３０３の比較処理の後に、画像認識部の結果を利用して再生方法を決定してもよい。これによれば、音声レベルの比較と画像処理の結果とを併用することで、より精度よく状況を推定し、適切な再生方法を選択できる。例えば、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルが、発話音声以外の音の音声レベルより低い場合に、判断部２０３は、さらに取得した画像を用いて、音声対話装置１００（音声対話システム）に対して興味を持っている人の位置を取得し、当該興味を持っている人の位置に対して指向性を有する再生方法で応答音声を再生してもよい。

この場合、画像取得部１０６は、音声対話装置１００の周囲の画像を取得する。分析部２０２は、取得された画像から、音声対話装置１００（音声対話システム）を注視している人を検出する。エリア再生制御部２０５は、第２の再生方法により応答音声を再生する際に、検出された人に向けて応答音声を再生するように再生部１０５を制御する。再生部１０５は、第２の再生方法により応答音声を再生する際に、検出された人に向けて応答音声を再生する。

（変形例６）
音声対話装置１００が音声取得部１０１を備えておらず、音声対話装置１００とは別の収音装置が音声取得部１０１を備えてもよい。例えば、音声対話装置１００がテレビである場合に、当該テレビを遠隔制御するためのリモートコントローラが音声取得部１０１を備えてもよい。音声対話装置１００（又はサーバ装置１１０）と収音装置（リモートコントローラ）とが所定の方法にて通信することで、本実施の形態の再生制御方法を実現する。

なお、音声対話装置１００は、収音装置（リモートコントローラ）の位置を検出する検出部を備えてもよい。これによれば、ステップＳ４０３における音の到来方向の検出は不要となる。すなわち、ステップＳ３０５において、再生部１０５は、音の到来方向にエリア再生を行う際に、リモートコントローラの位置に向けて応答音声を再生すればよい。この場合、判断部２０３は、音声対話装置１００（音声対話システム）に対して発話する発話者が収音装置（リモートコントローラ）に備えられたボタン（物理的ボタン又はタッチパネルに表示された仮想ボタン）を押しながら発話したか否かによって、再生方法を決定してもよい。例えば、発話者がボタンを押しながら発話をした場合にのみ、判断部２０３は、ステップＳ３０５のエリア再生を行ってもよい。これによれば、ステップＳ３０３の比較処理は不要となり、よりユーザの意図を反映した再生方法で応答音声を再生することができる。

ここで、本実施の形態の変形例６における音声対話システムについて説明する。音声対話システムは、収音装置と、音声対話装置１００とを備える。

収音装置は、発話者によって保持され、音声取得部１０１を備える。音声取得部１０１は、音声対話システムに対して発話した発話音声を収音する。収音装置は、収音した発話音声を示す音声情報を音声対話装置１００へ送信する。なお、収音装置は、ボタンを備えており、ボタンが押下された状態で発話音声が収音されたか否かを示すボタン押下情報（所定の指示信号）を音声情報に付加して送信する。

画像取得部１０６は、音声対話装置１００の周囲の画像を取得する。分析部２０２は、画像認識部（図示せず）を備えている。画像認識部は、取得された画像から、収音装置に対して発話した発話者の位置を特定する。

判断部２０３は、発話者によって所定の指示信号が収音装置に入力された状態で発話音声が収音されたか否かを判断する。

通常再生制御部２０４は、所定の指示信号が収音装置に入力された状態で発話音声が収音されていないと判断された場合、第１の再生方法で応答音声を再生するように再生部１０５を制御する。

エリア再生制御部２０５は、所定の指示信号が収音装置に入力された状態で発話音声が収音されたと判断された場合、第２の再生方法で応答音声を再生するように再生部１０５を制御する。

図９は、本実施の形態の変形例６における音声対話システムの動作の一例を示すフローチャートである。

まず、ステップＳ１００１において、収音装置の音声取得部１０１は、音声対話システムに対して発話した発話音声を収音する。なお、収音装置は、収音した発話音声を示す音声情報を音声対話装置１００へ送信する。音声対話装置１００の通信部１０２は、収音装置によって送信された音声情報を受信する。

次に、ステップＳ１００２において、画像取得部１０６は、音声対話装置１００の周囲の画像を取得する。

次に、ステップＳ１００３において、画像認識部は、取得された画像から、収音装置に対して発話した発話者の位置を特定する。画像認識部は、例えば、画像認識処理によって収音装置を検出し、検出した収音装置の位置を発話者の位置として特定してもよい。

次に、ステップＳ１００４において、判断部２０３は、発話者によって収音装置に設けられたボタンが押下された状態で発話音声が収音されたか否かを判断する。上記のように、音声情報には、ボタンが押下された状態で発話音声が収音されたか否かを示すボタン押下情報が付加されている。そのため、判断部２０３は、音声情報に付加されたボタン押下情報が、ボタンが押下された状態で発話音声が収音されたことを示す場合、ボタンが押下された状態で発話音声が収音されたと判断し、音声情報に付加されたボタン押下情報が、ボタンが押下されていない状態で発話音声が収音されたことを示す場合、ボタンが押下されていない状態で発話音声が収音されたと判断する。

ここで、ボタンが押下された状態で発話音声が収音されたと判断された場合（ステップＳ１００４でＹＥＳ）、ステップＳ１００５において、エリア再生制御部２０５は、第２の再生方法で応答音声を再生するように再生部１０５を制御する。

一方、ボタンが押下された状態で発話音声が収音されていないと判断された場合、すなわち、ボタンが押下されていない状態で発話音声が収音されたと判断された場合（ステップＳ１００４でＮＯ）、ステップＳ１００６において、通常再生制御部２０４は、第１の再生方法で応答音声を再生するように再生部１０５を制御する。

なお、収音装置としては、リモートコントローラのほか、例えば音声対話システム専用のマイク、音声対話システムを利用するユーザが保有する携帯端末（スマートフォン又はタブレット型コンピュータなど）、ウェアラブル端末（人体装着型端末、スマートウォッチ又はスマートバンドなど）、又は室内の天井又は壁に設置された収音マイクなどが考えられる。収音装置が音声対話システムを利用するユーザが保有する携帯端末（スマートフォン又はタブレット型コンピュータなど）である場合、携帯端末は、ユーザの発話音声を取得する機能を備えているので、日常からユーザの発話音声を取得することが可能である。この場合、変形例４に記載した音情報ＤＢ１０７を容易に構築することができる。この場合、収音装置が音情報ＤＢ１０７を備えるのではなく、音声対話装置１００又はサーバ装置１１０が音情報ＤＢ１０７を備えてもよい。

（変形例７）
本実施の形態の変形例７では、複数の人が音声対話装置１００（音声対話システム）を注視している場合に、指向性を有しない第１の再生方法で応答音声が再生され、複数の人が音声対話装置１００（音声対話システム）を注視していない場合、すなわち、音声対話装置１００（音声対話システム）を注視している人が発話者のみである場合、発話者のみに指向性を有する第２の再生方法で応答音声が再生される。

なお、本実施の形態の変形例７における音声対話装置１００の構成については、図１及び図２を用いて説明する。

画像取得部１０６は、音声対話装置１００の周囲の画像を取得する。

分析部２０２は、画像認識部（図示せず）を備えている。画像認識部は、取得された画像から、音声対話装置１００の周囲にいる人の顔の向き及び視線の向きを検出し、音声対話装置１００を注視している人の数を検出する。

判断部２０３は、複数の人が音声対話装置１００を注視しているか否かを判断する。

通常再生制御部２０４は、判断部２０３によって複数の人が音声対話装置１００を注視していると判断された場合、指向性を有しない第１の再生方法で応答音声を再生するように再生部１０５を制御する。

エリア再生制御部２０５は、判断部２０３によって複数の人が音声対話装置１００を注視していないと判断された場合、発話者のみに指向性を有する第２の再生方法で応答音声を再生するように再生部１０５を制御する。

図１０は、本実施の形態の変形例７における音声対話装置の動作の一例を示すフローチャートである。

まず、ステップＳ８０１において、画像取得部１０６は、音声対話装置１００の周囲の画像を取得する。

次に、ステップＳ８０２において、画像認識部は、画像取得部１０６によって取得された画像から、音声対話装置１００の周囲にいる人の顔の向き及び視線の向きを検出し、音声対話装置１００を注視している人の数を検出する。画像認識部は、顔の向き及び視線の向きが、音声対話装置１００（画像取得部１０６）の方向を向いている場合、音声対話装置１００を注視していると判断する。なお、画像認識部は、顔の向き及び視線の向きのいずれか一方を検出してもよい。

次に、ステップＳ８０３において、判断部２０３は、複数の人が音声対話装置１００を注視しているか否かを判断する。ここで、複数の人が音声対話装置１００を注視していると判断された場合（ステップＳ８０３でＹＥＳ）、ステップＳ８０４において、通常再生制御部２０４は、第１の再生方法で応答音声を再生するように再生部１０５を制御する。

一方、複数の人が音声対話装置１００を注視していないと判断された場合（ステップＳ８０３でＮＯ）、ステップＳ８０５において、エリア再生制御部２０５は、第２の再生方法で応答音声を再生するように再生部１０５を制御する。

なお、本実施の形態の変形例７では、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルと、発話音声以外の音の音声レベルとを比較する処理を行わなくてもよい。

また、本実施の形態の変形例７においても、応答音声を作成する必要があるので、音声対話装置１００（サーバ装置１１０）は、周囲音声情報を取得する処理（図３のステップＳ３０１）、周囲音声情報を第１の音声情報と第２の音声情報とに分離する処理（図３のステップＳ３０２）及び応答音声を作成する処理（図５のステップＳ４０６）を行う。

（変形例８）
本実施の形態の変形例７では、周囲音声情報から音声対話装置１００（音声対話システム）の周囲にいる人の数が検出される。複数の人が音声対話装置１００（音声対話システム）の周囲におり、かつ複数の人が音声対話装置１００（音声対話システム）を注視している場合に、指向性を有しない第１の再生方法で応答音声が再生される。また、複数の人が音声対話装置１００（音声対話システム）の周囲にいない場合、すなわち、音声対話装置１００（音声対話システム）の周囲に発話者のみがいる場合、発話者のみに指向性を有する第２の再生方法で応答音声が再生される。さらに、複数の人が音声対話装置１００（音声対話システム）を注視していない場合、すなわち、音声対話装置１００（音声対話システム）を注視している人が発話者のみである場合、発話者のみに指向性を有する第２の再生方法で応答音声が再生される。

分析部２０２は、音情報取得部２０１によって取得された周囲音声情報から、音声対話装置１００の周囲で発話している人の数を検出する。分析部２０２は、周囲音声情報から、人が発話した音声を示す音声情報を抽出し、抽出した音声情報の特徴量の差異から、発話している人の数を検出する。

判断部２０３は、複数の人が音声対話装置１００の周囲にいるか否かを判断する。判断部２０３は、分析部２０２によって検出された発話している人の数が２人以上である場合、複数の人が音声対話装置１００の周囲にいると判断し、分析部２０２によって検出された発話している人の数が１人である場合、複数の人が音声対話装置１００の周囲にいないと判断する。

判断部２０３は、複数の人が音声対話装置１００の周囲にいると判断した場合、複数の人が音声対話装置１００を注視しているか否かを判断する。

エリア再生制御部２０５は、判断部２０３によって複数の人が音声対話装置１００の周囲にいないと判断された場合、発話者のみに指向性を有する第２の再生方法で応答音声を再生するように再生部１０５を制御する。また、エリア再生制御部２０５は、判断部２０３によって複数の人が音声対話装置１００を注視していないと判断された場合、発話者のみに指向性を有する第２の再生方法で応答音声を再生するように再生部１０５を制御する。

図１１は、本実施の形態の変形例８における音声対話装置の動作の一例を示すフローチャートである。

まず、ステップＳ９０１において、音情報取得部２０１は、音声取得部１０１によって取得された音情報（周囲音声情報）を取得する。なお、ステップＳ９０１の処理は、図３に示すステップＳ３０１の処理と同じである。

次に、ステップ９０２において、分析部２０２は、音情報取得部２０１によって取得された周囲音声情報から、音声対話装置１００の周囲で発話している人の数を検出する。

次に、ステップＳ９０３において、判断部２０３は、複数の人が音声対話装置１００の周囲にいるか否かを判断する。ここで、複数の人が音声対話装置１００の周囲にいると判断された場合（ステップＳ９０３でＹＥＳ）、ステップＳ９０４において、画像取得部１０６は、音声対話装置１００の周囲の画像を取得する。

次に、ステップＳ９０５において、画像認識部は、画像取得部１０６によって取得された画像から、音声対話装置１００の周囲にいる人の顔の向き及び視線の向きを検出し、音声対話装置１００を注視している人の数を検出する。画像認識部は、顔の向き及び視線の向きが、音声対話装置１００（画像取得部１０６）の方向を向いている場合、音声対話装置１００を注視していると判断する。なお、画像認識部は、顔の向き及び視線の向きのいずれか一方を検出してもよい。

次に、ステップＳ９０６において、判断部２０３は、複数の人が音声対話装置１００を注視しているか否かを判断する。ここで、複数の人が音声対話装置１００を注視していると判断された場合（ステップＳ９０６でＹＥＳ）、ステップＳ９０７において、通常再生制御部２０４は、第１の再生方法で応答音声を再生するように再生部１０５を制御する。

一方、複数の人が音声対話装置１００の周囲にいないと判断された場合（ステップＳ９０３でＮＯ）、又は複数の人が音声対話装置１００を注視していないと判断された場合（ステップＳ９０６でＮＯ）、ステップＳ９０８において、エリア再生制御部２０５は、第２の再生方法で応答音声を再生するように再生部１０５を制御する。

なお、本実施の形態の変形例８では、音声対話装置１００（音声対話システム）に対する発話音声の音声レベルと、発話音声以外の音の音声レベルとを比較する処理を行わなくてもよい。

また、本実施の形態の変形例８においても、応答音声を作成する必要があるので、音声対話装置１００（サーバ装置１１０）は、周囲音声情報を第１の音声情報と第２の音声情報とに分離する処理（図３のステップＳ３０２）及び応答音声を作成する処理（図５のステップＳ４０６）を行う。

（変形例９）
本実施の形態の変形例９では、発話者の位置と、第１の再生方法及び第２の再生方法のいずれかとが対応付けて音声情報データベースに予め記憶されている。そして、取得された周囲音声情報が第１の音声情報と第２の音声情報とに分離され、発話者の位置が特定される。特定された発話者の位置に対応付けられている再生方法が音声情報データベースに存在する場合、音声情報データベースに記憶されている再生方法で応答音声が再生される。

なお、本実施の形態の変形例９における音声対話装置１００の構成については、図１及び図２を用いて説明する。

音情報取得部２０１は、所定の角度ごとに指向性を有する複数の周囲音声情報を取得する。なお、音声取得部１０１は、複数のマイクを含むアレイマイクシステムで構成され、複数のマイクから、所定の角度ごとに指向性を有する複数の周囲音声情報を取得する。

分析部２０２は、音情報取得部２０１によって取得された複数の周囲音声情報に対して音声対話装置１００に対する発話音声であるか否かを判断することで、複数の周囲音声情報を第１の音声情報と第２の音声情報とに分離する。

分析部２０２は、第１の音声情報を含む周囲音声情報が取得されたマイクの指向性に基づいて、発話者の位置を特定する。なお、発話者の位置は、マイクを使用する部屋の残響時間により算出してもよい。なお、残響時間は、予めマイクが設置される部屋の残響時間を測定することにより提供される。

音情報ＤＢ１０７は、発話者の位置と、第１の再生方法及び第２の再生方法のいずれかとを対応付けて記憶する。

判断部２０３は、音情報ＤＢ１０７を参照し、分析部２０２によって特定された発話者の位置に第１の再生方法及び第２の再生方法のいずれかが対応付けられているか否かを判断する。

再生制御部２０６は、特定された発話者の位置に第１の再生方法及び第２の再生方法のいずれかが対応付けられていると判断された場合、特定された発話者の位置に対応付けられている第１の再生方法及び第２の再生方法のいずれかにより、応答音声を再生するように再生部１０５を制御する。このとき、通常再生制御部２０４は、特定された発話者の位置に第１の再生方法が対応付けられている場合、指向性を有しない第１の再生方法で応答音声を再生するように再生部１０５を制御する。また、エリア再生制御部２０５は、特定された発話者の位置に第２の再生方法が対応付けられている場合、発話者のみに指向性を有する第２の再生方法で応答音声を再生するように再生部１０５を制御する。

また、判断部２０３は、特定された発話者の位置に第１の再生方法及び第２の再生方法のいずれも対応付けられていないと判断した場合、第１の音声情報の音声レベルと、第２の音声情報の音声レベルとを比較する。

再生制御部２０６は、特定された発話者の位置と、応答音声が再生された第１の再生方法及び第２の再生方法のいずれかとを対応付けて音情報ＤＢ１０７に記憶する。

図１２は、本実施の形態の変形例９における音声対話装置の動作の一例を示すフローチャートである。

ステップＳ１１０１及びステップＳ１１０２の処理は、図３に示すステップＳ３０１及びステップＳ３０２の処理と同じであるので、説明を省略する。

次に、ステップＳ１１０３において、分析部２０２は、第１の音声情報を含む周囲音声情報が取得されたマイクの指向性に基づいて、発話者の位置を特定する。なお、音声取得部１０１は、複数のマイクを含むアレイマイクシステムで構成されているので、分析部２０２は、発話音声の到来方向を特定することが可能であり、発話音声の到来方向から発話者の位置を特定することが可能である。なお、分析部２０２は、発話者の位置（発話者がいる方向）だけでなく、発話者がいる領域を特定してもよい。発話者がいる領域は、例えば、発話者が手を伸ばして届く範囲である。

次に、ステップＳ１１０４において、判断部２０３は、音情報ＤＢ１０７を参照し、分析部２０２によって特定された発話者の位置に再生方法が対応付けられているか否かを判断する。ここで、特定された発話者の位置に再生方法が対応付けられていると判断された場合（ステップＳ１１０４でＹＥＳ）、ステップＳ１１０５において、再生制御部２０６は、特定された発話者の位置に対応付けられている第１の再生方法及び第２の再生方法のいずれかにより、応答音声を再生するように再生部１０５を制御する。このとき、特定された発話者の位置に第１の再生方法が対応付けられている場合、通常再生制御部２０４は、指向性を有しない第１の再生方法で応答音声を再生するように再生部１０５を制御する。また、特定された発話者の位置に第２の再生方法が対応付けられている場合、エリア再生制御部２０５は、発話者のみに指向性を有する第２の再生方法で応答音声を再生するように再生部１０５を制御する。

一方、特定された発話者の位置に再生方法が対応付けられていないと判断された場合（ステップＳ１１０４でＮＯ）、ステップＳ１１０６において、判断部２０３は、第１の音声情報の音声レベルが第２の音声情報の音声レベルより高いか否かを判断する。

なお、ステップＳ１１０６〜ステップＳ１１０８の処理は、図３に示すステップＳ３０３〜ステップＳ３０５の処理と同じであるので、説明を省略する。

次に、ステップＳ１１０９において、再生制御部２０６は、特定された発話者の位置と、応答音声が再生された第１の再生方法及び第２の再生方法のいずれかとを対応付けて音情報ＤＢ１０７に記憶する。

（変形例１０）
本実施の形態の変形例１０では、所定のキーワードが記憶部に予め記憶されている。そして、取得された周囲音声情報が第１の音声情報と第２の音声情報とに分離され、第１の音声情報が所定のキーワードを含む場合、第１の再生方法で応答音声が再生される。

分析部２０２は、分離された第１の音声情報の発話内容を分析する。分析部２０２は、分離された第１の音声情報をテキスト情報に変換する。

判断部２０３は、分析部２０２によってテキスト情報に変換された第１の音声情報が予め音情報ＤＢ１０７に記憶されている所定のキーワードを含むか否かを判断する。音情報ＤＢ１０７は、予め所定のキーワードを記憶している。所定のキーワードは、例えば、応答音声を第１の再生方法で再生することが予め決められている発話内容である。

通常再生制御部２０４は、第１の音声情報が所定のキーワードを含むと判断された場合、第１の再生方法で応答音声を再生するように再生部１０５を制御する。

エリア再生制御部２０５は、第１の音声情報が所定のキーワードを含まないと判断された場合、第２の再生方法で応答音声を再生するように再生部１０５を制御する。

図１３は、本実施の形態の変形例１０における音声対話装置の動作の一例を示すフローチャートである。

ステップＳ１３０１及びステップＳ１３０２の処理は、図３に示すステップＳ３０１及びステップＳ３０２の処理と同じであるので、説明を省略する。

次に、ステップＳ１３０３において、判断部２０３は、第１の音声情報が予め音情報ＤＢ１０７に記憶されている所定のキーワードを含むか否かを判断する。なお、第１の音声情報は、分析部２０２によってテキスト情報に変換されている。

ここで、第１の音声情報が所定のキーワードを含むと判断された場合（ステップＳ１３０３でＹＥＳ）、ステップＳ１３０４において、通常再生制御部２０４は、指向性を有しない第１の再生方法で応答音声を再生するように再生部１０５を制御する。

一方、第１の音声情報が所定のキーワードを含まないと判断された場合（ステップＳ１３０３でＮＯ）、ステップＳ１３０５において、エリア再生制御部２０５は、発話者のみに指向性を有する第２の再生方法で応答音声を再生するように再生部１０５を制御する。

なお、本実施の形態では、第１の音声情報が所定のキーワードを含むと判断された場合に、第１の再生方法で応答音声が再生され、第１の音声情報が所定のキーワードを含まないと判断された場合に、第２の再生方法で応答音声が再生されるが、本開示は特にこれに限定されない。第１の音声情報が所定のキーワードを含むと判断された場合に、第２の再生方法で応答音声が再生され、第１の音声情報が所定のキーワードを含まないと判断された場合に、第１の再生方法で応答音声が再生されてもよい。

（変形例１１）
本実施の形態の変形例１１では、同じ発話内容の発話音声が連続して取得された場合、応答音声を再生しない。

なお、本実施の形態の変形例１１における音声対話装置１００の構成については、図１及び図２を用いて説明する。

分析部２０２は、分離された第１の音声情報の発話内容を分析する。

判断部２０３は、分析部２０２によって分析された発話内容が音情報ＤＢ１０７に記憶されている前回取得された第１の音声情報の発話内容と同じであるか否かを判断する。

再生制御部２０６は、分析した発話内容が前回の発話内容と同じであると判断された場合、応答音声の再生を中止する。

判断部２０３は、分析した発話内容が前回の発話内容と同じではないと判断した場合、第１の音声情報の音声レベルと、第２の音声情報の音声レベルとを比較する。再生制御部２０６は、比較した結果に応じて、第１の再生方法及び第２の再生方法のいずれかにより、応答音声を再生する。

再生制御部２０６は、今回の第１の音声情報の発話内容を音情報ＤＢ１０７に記憶する。

図１４は、本実施の形態の変形例１１における音声対話装置の動作の一例を示すフローチャートである。

ステップＳ１４０１及びステップＳ１４０２の処理は、図３に示すステップＳ３０１及びステップＳ３０２の処理と同じであるので、説明を省略する。

次に、ステップＳ１４０３において、判断部２０３は、第１の音声情報の発話内容が音情報ＤＢ１０７に記憶されている前回の第１の音声情報の発話内容と同じであるか否かを判断する。なお、第１の音声情報の発話内容は、分析部２０２によって分析される。発話内容が同じであるとは、発話者が発話した発話音声の文言が全く同じである場合だけでなく、発話者が発話した発話音声の意味が同じである場合も含む。

ここで、第１の音声情報の発話内容が前回の第１の音声情報の発話内容と同じであると判断された場合（ステップＳ１４０３でＹＥＳ）、ステップＳ１４０４において、再生制御部２０６は、応答音声の再生を中止する。

一方、第１の音声情報の発話内容が前回の第１の音声情報の発話内容と同じではないと判断された場合（ステップＳ１４０３でＮＯ）、ステップＳ１４０５において、判断部２０３は、第１の音声情報の音声レベルが第２の音声情報の音声レベルより高いか否かを判断する。

なお、ステップＳ１４０５〜ステップＳ１４０７の処理は、図３に示すステップＳ３０３〜ステップＳ３０５の処理と同じであるので、説明を省略する。

次に、ステップＳ１４０８において、再生制御部２０６は、今回の第１の音声情報の発話内容を音情報ＤＢ１０７に記憶する。

なお、本実施の形態の変形例１１では、ステップＳ１４０２とステップＳ１４０３との間において、前回の第１の音声情報が取得されてから所定時間経過したか否かを判断してもよい。前回の第１の音声情報が取得されてから所定時間経過したと判断された場合、ステップＳ１４０５の処理へ移行し、前回の第１の音声情報が取得されてから所定時間経過していないと判断された場合、ステップＳ１４０３の処理へ移行してもよい。これにより、短時間に連続して同じ発話内容の発話音声が入力された場合に、後続の発話音声に対する応答音声の再生を中止することができる。

（変形例１２）
本実施の形態の変形例１２では、発話者が通常の会話で発話した音声の音声レベルを通常音声レベルとして音声レベルデータベースに蓄積し、音声対話装置１００に対する指示を発話した発話音声をと含む第１の音声情報の音声レベルが、音声レベルデータベースに蓄積されている通常音声レベルの平均値より高い場合、第１の再生方法で応答音声が再生され、第１の音声情報の音声レベルが、通常音声レベルの平均値より低い場合、第２の再生方法で応答音声が再生される。

分析部２０２は、分離された第２の音声情報に含まれる人の音声の音声レベルを通常音声レベルとして音情報ＤＢ１０７に蓄積する。すなわち、分析部２０２は、音声対話装置１００に対する指示を発話した発話音声の音声レベルではなく、通常の会話で発話者が発話した音声の音声レベルを通常音声レベルとして音情報ＤＢ１０７に蓄積する。

音情報ＤＢ１０７は、通常音声レベルを蓄積する。なお、音情報ＤＢ１０７は、分析部２０２から出力された全ての通常音声レベルを蓄積してもよい。また、音情報ＤＢ１０７は、分析部２０２から出力された通常音声レベルと、既に蓄積されている通常音声レベルとの平均値を算出し、算出した平均値のみを蓄積してもよい。

判断部２０３は、分離された第１の音声情報の音声レベルが、音情報ＤＢ１０７に蓄積されている通常音声レベルの平均値より高いか否かを判断する。

通常再生制御部２０４は、第１の音声情報の音声レベルが通常音声レベルの平均値より高いと判断された場合、第１の再生方法で応答音声を再生するように再生部１０５を制御する。

エリア再生制御部２０５は、第１の音声情報の音声レベルが通常音声レベルの平均値より低いと判断された場合、第２の再生方法で応答音声を再生するように再生部１０５を制御する。

図１５は、本実施の形態の変形例１２における音声対話装置の動作の一例を示すフローチャートである。

ステップＳ１５０１及びステップＳ１５０２の処理は、図３に示すステップＳ３０１及びステップＳ３０２の処理と同じであるので、説明を省略する。

次に、ステップＳ１５０３において、分析部２０２は、分離された第２の音声情報に含まれる人の音声の音声レベルを通常音声レベルとして音情報ＤＢ１０７に蓄積する。

次に、ステップＳ１５０４において、判断部２０３は、分離された第１の音声情報の音声レベルが、音情報ＤＢ１０７に蓄積されている通常音声レベルの平均値より高いか否かを判断する。

ここで、第１の音声情報の音声レベルが通常音声レベルの平均値より高いと判断された場合（ステップＳ１５０４でＹＥＳ）、ステップＳ１５０５において、通常再生制御部２０４は、第１の再生方法で応答音声を再生するように再生部１０５を制御する。

一方、第１の音声情報の音声レベルが通常音声レベルの平均値より低いと判断された場合（ステップＳ１５０４でＮＯ）、エリア再生制御部２０５は、第２の再生方法で応答音声を再生するように再生部１０５を制御する。

なお、第１の音声情報の音声レベルが通常音声レベルの平均値と同じであると判断された場合は、通常再生制御部２０４が、第１の再生方法で応答音声を再生してもよいし、エリア再生制御部２０５が、第２の再生方法で応答音声を再生してもよい。

また、第１の音声情報の音声レベルが通常音声レベルの平均値より高いと判断された場合、第２の再生方法で応答音声が再生され、第１の音声情報の音声レベルが通常音声レベルの平均値より低いと判断された場合、第１の再生方法で応答音声が再生されてもよい。

また、本実施の形態では、再生部１０５は、第１の再生方法又は第２の再生方法で応答音声を再生しているが、本開示は特にこれに限定されず、再生部１０５は、第１の再生方法及び第２の再生方法のいずれかにより、発話音声により制御される制御対象機器が再生する音声を再生してもよい。例えば、音声対話装置１００がテレビに設けられており、発話者が、テレビの音量を上げる指示を音声対話装置１００に対して発話した場合、音声対話装置１００は、第１の音声情報の音声レベルと第２の音声情報の音声レベルとを比較した結果に応じて、第１の再生方法及び第２の再生方法のいずれかにより、テレビが再生する音声を再生してもよい。

本開示に係る音声再生方法、音声対話装置及び音声対話プログラムは、発話者の周囲の状況に応じた再生方法で応答音声を再生することができ、発話音声に対する応答音声を再生する音声再生方法、音声対話装置及び音声対話プログラムとして有用である。

１００音声対話装置
１０１音声取得部
１０２通信部
１０３表示部
１０４制御部
１０５再生部
１０６画像取得部
１０７音情報ＤＢ
１１０サーバ装置
１１１制御部
１１２通信部
１１３音情報ＤＢ
２０１音情報取得部
２０２分析部
２０３判断部
２０４通常再生制御部
２０５エリア再生制御部
２０６再生制御部

Claims

発話音声に対する応答音声を再生する音声対話システムにおける音声再生方法であって、
前記音声対話システムに対して発話した発話音声を含み、前記発話音声の発話者の周囲の音を表す周囲音声情報を取得し、
前記周囲音声情報を、前記発話音声を含む第１の音声情報と、前記発話音声以外の音を含む第２の音声情報とに分離し、
前記第１の音声情報の音声レベルと、前記第２の音声情報の音声レベルとを比較し、
比較した結果に応じて、第１の再生方法及び前記第１の再生方法とは再生する音声の指向性が異なる第２の再生方法のいずれかにより、前記応答音声を再生する、
音声再生方法。
前記第１の再生方法は、指向性を有しない再生方法であり、
前記第２の再生方法は、前記発話者に対して指向性を有する再生方法であり、
前記第１の音声情報の音声レベルが、前記第２の音声情報の音声レベルより高い場合に、前記第１の再生方法で前記応答音声を再生し、
前記第１の音声情報の音声レベルが、前記第２の音声情報の音声レベルより低い場合に、前記第２の再生方法で前記応答音声を再生する、
請求項１記載の音声再生方法。
前記第１の音声情報に対して音声認識を行い、
前記音声認識の結果を用いて応答音声を生成し、
前記応答音声を前記第１の再生方法及び前記第２の再生方法のいずれかにより再生する、
請求項１又は２記載の音声再生方法。
前記周囲音声情報は、複数のマイクを含むアレイマイクシステムから取得される、所定の角度ごとに指向性を有する複数の周囲音声情報を含み、
前記複数の周囲音声情報のそれぞれが、前記音声対話システムに対する前記発話音声であるか否かを判断することで、前記周囲音声情報を前記第１の音声情報と前記第２の音声情報とに分離する、
請求項１〜３のいずれか１項に記載の音声再生方法。
前記第２の再生方法により前記応答音声を再生する際に、前記音声対話システムに対する前記発話音声であると判断された前記周囲音声情報が取得された角度の方向に向けて、前記応答音声を再生する、
請求項４記載の音声再生方法。
前記複数の周囲音声情報のそれぞれに対し、予め記憶されている所定のキーワードが含まれているか否かを判断し、前記周囲音声情報に前記所定のキーワードが含まれている場合、当該周囲音声情報が前記音声対話システムに対する発話音声であると判断する、
請求項４又は５記載の音声再生方法。
スペクトルサブトラクション法を用いて前記周囲音声情報を前記第１の音声情報と前記第２の音声情報とに分離する、
請求項１記載の音声再生方法。
前記周囲音声情報から周囲にいる人を識別し、
前記第１の音声情報の音声レベルと前記第２の音声情報の音声レベルとを比較した結果と、前記周囲にいる人を識別した結果とに基づいて、前記第１の再生方法及び前記第２の再生方法のいずれで再生するかを切り替える、
請求項１記載の音声再生方法。
過去に取得した前記第１の音声情報と、過去に前記第１の音声情報を再生した際に選択された前記第１の再生方法及び前記第２の再生方法のいずれかとを関連付けて記憶するテーブルを用いて、前記応答音声を再生する再生方法を選択する、
請求項１記載の音声再生方法。
前記音声対話システムの周囲の画像を取得し、
前記画像から、前記音声対話システムを注視している人を検出し、
前記第２の再生方法により前記応答音声を再生する際に、検出した前記人に向けて前記応答音声を再生する、
請求項２記載の音声再生方法。
前記第１の再生方法は、指向性を有しない再生方法であり、
前記第２の再生方法は、発話者に対して指向性を有する再生方法であり、
前記音声対話システムの周囲の画像を取得し、
前記画像から、前記音声対話システムを注視している人の数を検出し、
前記人の数の検出結果から複数の人が前記音声対話システムを注視しているか否かを判断し、
複数の人が前記音声対話システムを注視していると判断した場合、前記第１の再生方法で前記応答音声を再生し、
複数の人が前記音声対話システムを注視していないと判断した場合、前記第２の再生方法で前記応答音声を再生する、
請求項１記載の音声再生方法。
前記第１の再生方法は、指向性を有しない再生方法であり、
前記第２の再生方法は、発話者に対して指向性を有する再生方法であり、
前記発話者が保持する収音装置によって前記発話音声を収音し、
前記音声対話システムの周囲の画像を取得し、
前記画像から、前記収音装置に対して発話した前記発話者の位置を特定し、
前記発話者によって所定の指示信号が前記収音装置に入力された状態で前記発話音声が収音されたか否かを判断し、
前記所定の指示信号が前記収音装置に入力された状態で前記発話音声が収音されていないと判断した場合、前記第１の再生方法で前記応答音声を再生し、
前記所定の指示信号が前記収音装置に入力された状態で前記発話音声が収音されたと判断した場合、前記第２の再生方法で前記応答音声を再生する、
請求項１記載の音声再生方法。
前記第１の再生方法は、指向性を有しない再生方法であり、
前記第２の再生方法は、発話者に対して指向性を有する再生方法であり、
前記周囲音声情報は、複数のマイクを含むアレイマイクシステムから取得される、所定の角度ごとに指向性を有する複数の周囲音声情報を含み、
前記複数の周囲音声情報のそれぞれが前記音声対話システムに対する前記発話音声であるか否かを判断することで、前記複数の周囲音声情報を前記第１の音声情報と前記第２の音声情報とに分離し、
前記第１の音声情報を含む周囲音声情報が取得されたマイクの指向性に基づいて、前記発話者の位置を特定し、
前記発話者の位置と、前記第１の再生方法及び前記第２の再生方法のいずれかとを対応付けて記憶する音声情報データベースを参照し、特定した前記発話者の位置に前記第１の再生方法及び前記第２の再生方法のいずれかが対応付けられているか否かを判断し、
特定した前記発話者の位置に前記第１の再生方法及び前記第２の再生方法のいずれかが対応付けられていると判断した場合、特定した前記発話者の位置に対応付けられている前記第１の再生方法及び前記第２の再生方法のいずれかにより、前記応答音声を再生し、
特定した前記発話者の位置に前記第１の再生方法及び前記第２の再生方法のいずれも対応付けられていないと判断した場合、前記第１の音声情報の音声レベルと、前記第２の音声情報の音声レベルとを比較し、
前記第１の音声情報の音声レベルが、前記第２の音声情報の音声レベルより高い場合に、前記第１の再生方法で前記応答音声を再生し、
前記第１の音声情報の音声レベルが、前記第２の音声情報の音声レベルより低い場合に、前記第２の再生方法で前記応答音声を再生し、
特定した前記発話者の位置と、前記応答音声が再生された前記第１の再生方法及び前記第２の再生方法のいずれかとを対応付けて前記音声情報データベースに記憶する、
請求項１記載の音声再生方法。
前記発話音声を発話した発話者を識別し、
前記発話者を識別する情報と、前記第１の再生方法及び前記第２の再生方法のいずれかとを対応付けて記憶する音声情報データベースから、識別した前記発話者に対応付けられている前記第１の再生方法及び前記第２の再生方法のいずれかを選択し、
前記第１の再生方法及び前記第２の再生方法のいずれかにより、前記応答音声を再生する、
請求項１記載の音声再生方法。
前記第１の再生方法は、指向性を有しない再生方法であり、
前記第２の再生方法は、発話者に対して指向性を有する再生方法であり、
分離した前記第１の音声情報が予め記憶部に記憶されている所定のキーワードを含むか否かを判断し、
前記第１の音声情報が前記所定のキーワードを含むと判断した場合、前記第１の再生方法で前記応答音声を再生し、
前記第１の音声情報が前記所定のキーワードを含まないと判断した場合、前記第２の再生方法で前記応答音声を再生する、
請求項１記載の音声再生方法。
分離した前記第１の音声情報の発話内容を分析し、分析した前記発話内容が前回取得した第１の音声情報の発話内容と同じであるか否かを判断し、
分析した前記発話内容が前回の発話内容と同じであると判断した場合、前記応答音声を再生せず、
分析した前記発話内容が前回の発話内容と同じではないと判断した場合、前記第１の音声情報の音声レベルと、前記第２の音声情報の音声レベルとを比較し、比較した結果に応じて、前記第１の再生方法及び前記第２の再生方法のいずれかにより、前記応答音声を再生し、
分析した前記発話内容を前記記憶部に記憶する、
請求項１記載の音声再生方法。
前記第１の再生方法は、指向性を有しない再生方法であり、
前記第２の再生方法は、発話者に対して指向性を有する再生方法であり、
分離した前記第２の音声情報に含まれる人の音声の音声レベルを通常音声レベルとして音声レベルデータベースに蓄積し、
分離した前記第１の音声情報の音声レベルが、前記音声レベルデータベースに蓄積されている前記通常音声レベルの平均値より高いか否かを判断し、
前記第１の音声情報の音声レベルが前記通常音声レベルの平均値より高いと判断した場合、前記第１の再生方法で前記応答音声を再生し、
前記第１の音声情報の音声レベルが前記通常音声レベルの平均値より低いと判断した場合、前記第２の再生方法で前記応答音声を再生する、
請求項１記載の音声再生方法。
前記第１の音声情報の音声レベルと、前記第２の音声情報の音声レベルとを比較し、比較した結果に応じて、前記第１の再生方法及び前記第２の再生方法のいずれかにより、前記発話音声により制御される制御対象機器が再生する音声を再生する、
請求項１〜１７のいずれか１項に記載の音声再生方法。
発話音声に対する応答音声を再生する音声対話装置であって、
前記音声対話装置に対して発話した発話音声を含み、前記発話音声の発話者の周囲の音を表す周囲音声情報を、前記発話音声を含む第１の音声情報と、前記発話音声以外の音を含む第２の音声情報とに分離する音声分離部と、
前記第１の音声情報の音声レベルと、前記第２の音声情報の音声レベルとを比較する比較部と、
比較した結果に応じて、第１の再生方法及び前記第１の再生方法とは再生する音声の指向性が異なる第２の再生方法のいずれかにより、前記応答音声を再生する再生制御部と、
を備える音声対話装置。
発話音声に対する応答音声を再生する音声対話プログラムであって、
音声対話装置を、
前記音声対話装置に対して発話した発話音声を含み、前記発話音声の発話者の周囲の音を表す周囲音声情報を、前記発話音声を含む第１の音声情報と、前記発話音声以外の音を含む第２の音声情報とに分離する音声分離部と、
前記第１の音声情報の音声レベルと、前記第２の音声情報の音声レベルとを比較する比較部と、
比較した結果に応じて、第１の再生方法及び前記第１の再生方法とは再生する音声の指向性が異なる第２の再生方法のいずれかにより、前記応答音声を再生する再生制御部として機能させる、
音声対話プログラム。