JP7503759B2

JP7503759B2 - 音声制御システム、及び、音声制御方法

Info

Publication number: JP7503759B2
Application number: JP2020115318A
Authority: JP
Inventors: 彩衣吉川
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2024-06-21
Anticipated expiration: 2040-07-03
Also published as: JP2022013035A

Description

本発明は、音声制御システム、及び、音声制御方法に関する。

ＶＰＡ（ＶｉｒｔｕａｌＰｅｒｓｏｎａｌＡｓｓｉｓｔａｎｔ）と呼ばれるサービスが普及し始めている。このようなＶＰＡの一形態として音声で機器を操作するサービスがある。特許文献１には、ネットワークに接続可能な集音機器が音声情報を収集し、収集した音声情報に基づいて、ネットワークを介して家電機器を制御する家電機器制御システムが開示されている。

国際公開第２０１４／１７１１４４号

本発明は、機器の制御を意図した発話音声が入力された後に当該制御の実行確認を行うか否かを切り替えることができる音声制御システム、及び、音声制御方法を提供する。

本発明の一態様に係る音声制御システムは、音声ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）装置に入力されるユーザの発話音声によって指示される機器の制御を実行するための情報を取得する第一取得部と、取得された前記情報が示す前記制御の実行に対する確認の要否の設定を示す設定情報を取得する第二取得部と、取得された前記設定情報に基づいて、前記制御を実行する前に前記音声ＵＩ装置に前記確認のための確認音声を出力させる実行部とを備える。

本発明の一態様に係る音声制御方法は、音声ＵＩ装置に入力されるユーザの発話音声によって指示される機器の制御を実行するための情報を取得する第一取得ステップと、取得された前記情報が示す前記制御の実行に対する確認の要否の設定を示す設定情報を取得する第二取得ステップと、取得された前記設定情報に基づいて、前記制御を実行する前に前記音声ＵＩ装置に前記確認のための確認音声を出力させる実行ステップとを含む。

本発明の一態様に係るプログラムは、前記音声制御方法をコンピュータに実行させるためのプログラムである。

本発明の一態様に係る音声制御システム及び音声制御方法は、機器の制御を意図した発話音声が入力された後に当該制御の実行確認を行うか否かを切り替えることができる。

図１は、実施の形態に係る音声制御システムの機能構成を示すブロック図である。図２は、機器を個別制御するときのユーザと音声ＵＩ装置の対話の第一の例を示す図である。図２は、機器を個別制御するときのユーザと音声ＵＩ装置の対話の第二の例を示す図である。図４は、機器の個別制御に対するアクション設定の設定画面の第一の例を示す図である。図５は、機器の個別制御に対するアクション設定の設定画面の第二の例を示す図である。図６は、機器の個別制御に対するアクション設定の設定画面の第三の例を示す図である。図７は、実施の形態に係る音声制御システムの動作例１のシーケンス図である。図８は、実施の形態に係る音声制御システムの動作例２のシーケンス図である。図９は、シーン制御を実行するための制御情報の一例を示す図である。図１０は、シーン制御に対するアクション設定の設定画面の第一の例を示す図である。図１１は、シーン制御に対するアクション設定の設定画面の第二の例を示す図である。図１２は、シーン制御に対するアクション設定の判定動作のフローチャートである。

以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略または簡略化される場合がある。

（実施の形態）
［構成］
まず、実施の形態に係る音声制御システムの構成について説明する。図１は、実施の形態に係る音声制御システムの機能構成を示すブロック図である。

実施の形態に係る音声制御システム１００は、ユーザの発話音声に基づいて、施設８０に設置された機器５０を制御することができるシステムである。つまり、音声制御システム１００は、音声に基づく機器制御システムである。施設８０は、例えば、集合住宅または戸建住宅などの住宅であるが、オフィスなどの住宅以外の施設であってもよい。

図１に示されるように、音声制御システム１００は、音声ＵＩ装置１０と、音声認識サーバ２０と、機器制御サーバ３０と、制御装置４０と、複数の機器５０と、携帯端末６０とを備える。

まず、音声ＵＩ装置１０について説明する。音声ＵＩ装置１０は、ユーザの発話音声が入力される情報端末であり、入力された発話音声の音声信号を、インターネットなどの広域通信ネットワーク７０を介して音声認識サーバ２０へ送信する。音声ＵＩ装置１０は、例えば、施設８０に設置されるスマートスピーカである。なお、図１では、音声ＵＩ装置１０とは別に制御装置４０が記載されているが、制御装置４０自体が音声ＵＩ装置１０として使用されてもよい。同様に、図１では、音声ＵＩ装置１０とは別に携帯端末６０が記載されているが、携帯端末６０自体が音声ＵＩ装置１０として使用されてもよい。音声ＵＩ装置１０は、具体的には、マイクロフォン１１、表示部１２、及び、スピーカ１３を有する。

マイクロフォン１１は、ユーザが発する音声（発話音声）を取得する。マイクロフォン１１は、具体的には、コンデンサマイク、ダイナミックマイク、または、ＭＥＭＳ（ＭｉｃｒｏＥｌｅｃｔｒｏＭｅｃｈａｎｉｃａｌＳｙｓｔｅｍｓ）マイクなどである。

表示部１２は、画像の表示機能、及び、ユーザの手動入力を受け付ける機能を有する表示デバイスである。表示部１２は、タッチパネル、及び、液晶パネルまたは有機ＥＬパネルなどの表示パネルによって実現される。タッチパネルは、例えば、静電容量方式のタッチパネルであるが、抵抗膜方式のタッチパネルであってもよい。

スピーカ１３は、マイクロフォン１１によって取得された発話音声への応答として、音声（機械音声）を出力する。これにより、ユーザは対話形式で機器５０を制御することができる（詳細は後述）。

次に、音声認識サーバ２０について説明する。音声認識サーバ２０は、施設８０外に位置するコンピュータである。音声認識サーバ２０は、具体的には、音声ＵＩ装置１０によって送信される音声信号を受信し、受信した音声信号に対して音声認識処理を行うクラウドサーバである。音声認識サービスを提供する事業者は、音声認識サーバ２０を用いて当該音声認識サービスを提供する。音声認識サーバ２０は、例えば、音声ＵＩ装置１０によって送信される音声信号をテキスト情報に変換し、テキスト情報を機器制御サーバ３０に送信する。

次に、機器制御サーバ３０について説明する。施設８０外に位置するコンピュータである。機器制御サーバ３０は、具体的には、音声認識サーバ２０から送信されるテキスト情報に基づいて制御命令を生成し、生成した制御命令を制御装置４０に送信するクラウドサーバである。制御命令は、制御装置４０を介して機器５０によって受信される。機器制御サーバ３０は、通信部３１と、情報処理部３２と、記憶部３３とを備える。

通信部３１は、機器制御サーバ３０が広域通信ネットワーク７０を介して、音声ＵＩ装置１０、音声認識サーバ２０、制御装置４０、及び、携帯端末６０などと通信を行うための通信モジュール（通信回路）である。通信部３１によって行われる通信は、例えば、有線通信であるが、無線通信であってもよい。通信に用いられる通信規格についても特に限定されない。

情報処理部３２は、機器５０の制御に関する情報処理を行う。情報処理部３２は、例えば、マイクロコンピュータによって実現されるが、プロセッサによって実現されてもよい。情報処理部３２は、第一取得部３４と、第二取得部３５と、実行部３６とを有する。第一取得部３４、第二取得部３５、及び、実行部３６の機能の詳細については後述する。

記憶部３３は、機器５０の制御の実行に対する確認の要否の設定を示す設定情報、及び、情報処理部３２が実行する制御プログラムなどが記憶される記憶装置である。記憶部３３は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）などによって実現される。

次に、制御装置４０について説明する。制御装置４０は、例えば、エネルギーマネジメント機能を有するＨＥＭＳ（ＨｏｍｅＥｎｅｒｇｙＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）コントローラである。制御装置４０は、施設８０内に設置され、施設８０に設置された複数の機器５０の電気使用量（言い換えれば、消費電力量）を管理する。また、制御装置４０は、ユーザの音声に基づいて施設８０内（あるいは、施設８０の敷地内）に設置された複数の機器５０の制御を行う。制御装置４０は、ＨＥＭＳコントローラに限定されず、エネルギーマネジメント機能を有しない他のホームコントローラ、または、ゲートウェイ装置であってもよい。

制御装置４０は、具体的には、表示部４１と、第一通信部４２と、第二通信部４３と、制御部４４と、記憶部４５とを備える。

表示部４１は、画像の表示機能、及び、ユーザの手動入力を受け付ける機能を有する表示デバイスである。表示部４１は、タッチパネル、及び、液晶パネルまたは有機ＥＬパネルなどの表示パネルによって実現される。タッチパネルは、例えば、静電容量方式のタッチパネルであるが、抵抗膜方式のタッチパネルであってもよい。

第一通信部４２は、制御装置４０が、複数の機器５０などと局所通信ネットワークを介して通信を行うための通信モジュール（通信回路）である。第一通信部４２は、例えば、無線通信を行う無線通信回路であるが、有線通信を行う有線通信回路であってもよい。第一通信部４２が行う通信の通信規格は、例えば、ＥＣＨＯＮＥＴＬｉｔｅ（登録商標）であるが、特に限定されない。第一通信部４２は、通信相手の機器５０に応じて異なる通信規格で通信を行ってもよい。

第二通信部４３は、制御装置４０が、音声ＵＩ装置１０、音声認識サーバ２０、機器制御サーバ３０、及び、携帯端末６０などと広域通信ネットワーク７０を介して通信を行うための通信回路である。第二通信部４３は、例えば、無線通信を行う無線通信回路であるが、有線通信を行う有線通信回路であってもよい。第二通信部４３が行う通信の通信規格については特に限定されない。

制御部４４は、機器５０の制御に関する情報処理を行う。制御部４４は、例えば、マイクロコンピュータによって実現されるが、プロセッサまたは専用回路によって実現されてもよい。

記憶部４５は、制御部４４が実行する制御プログラムなどが記憶される記憶装置である。記憶部４５は、例えば、半導体メモリによって実現される。

次に、複数の機器５０について説明する。複数の機器５０は、施設８０に設置される、音声制御システム１００における制御対象機器である。複数の機器５０は、制御装置４０の第一通信部４２から送信される制御命令によって制御される。複数の機器５０には、空調機器５１、照明機器５２、電動シャッター５３、及び、電気錠５４などが含まれる。

空調機器５１は、一般家庭用の空調機器である。空調機器５１は、熱交換器（図示せず）などを有することにより、空調機器５１から送出される風の温度の調整が可能な空調機器である。つまり、空調機器５１は、温度調整機能（送風機能及び冷暖房機能）を有する。空調機器５１は、一般家庭用の空調機器に限定されず、産業用の空調機器であってもよい。

照明機器５２は、施設８０の中（室内）を照明する。照明機器５２は、例えば、シーリングライトであるが、照明機器５２の具体的態様は、特に限定されない。照明機器５２は、ダウンライト、ペンダントライト、スポットライト、または、ブラケットライトなどであってもよい。また、照明機器５２は、施設８０の外（室外）を照明する機器であってもよい。

電動シャッター５３は、施設８０が有する窓の外側（または内側）に配置され、施設８０内への外光の取り入れ量を調整する。電動シャッター５３は、例えば、電動ブラインドなどであり、物理的に光の遮蔽物が開閉する構成を有する。電動シャッター５３は、液晶パネルなどを備え、物性的に光の透過率が変化する構成であってもよい。

電気錠５４は、施設８０が有するドア（または窓など）の開錠及び施錠を制御する防犯機器である。電気錠５４は、例えば、カードキーなどから鍵情報を取得するＲＦＩＤリーダを備える。また、電気錠５４は、指紋などの生体情報を鍵情報として取得する生体センサを備えてもよい。以下の実施の形態では、電気錠５４は、玄関のドアに設けられた電気錠であるものとして説明される。

次に、携帯端末６０について説明する。携帯端末６０は、ユーザが設定情報の内容を変更するために操作する携帯型の情報端末であり、具体的には、スマートフォンまたはタブレット端末などである。携帯端末６０は、表示部６１を有する。

表示部６１は、画像の表示機能、及び、ユーザの手動入力を受け付ける機能を有する表示デバイスである。表示部６１は、タッチパネル、及び、液晶パネルまたは有機ＥＬパネルなどの表示パネルによって実現される。タッチパネルは、例えば、静電容量方式のタッチパネルであるが、抵抗膜方式のタッチパネルであってもよい。

［機器の制御の概要］
音声制御システム１００において、ユーザは音声ＵＩ装置１０との対話形式で機器５０を制御することができる。図２及び図３は、機器５０を制御するときのユーザと音声ＵＩ装置１０の対話の一例を示す図である。

図２の例では、（ａ）ユーザが「エアコンをつけて」と発話すると、（ｂ）音声ＵＩ装置１０は、「エアコンをスイッチオンしました」と応答し、空調機器５１が動作を開始する。一方、図３の例では、（ａ）ユーザが「エアコンをつけて」と発話すると、（ｂ）音声ＵＩ装置１０は、「エアコンをスイッチオンしてもよいですか？」と応答する。これに対して、（ｃ）ユーザが「はい」と発話すると、（ｄ）音声ＵＩ装置１０は、「エアコンをスイッチオンしました」と応答し、空調機器５１が動作を開始する。

図２のようにユーザが一度発話するだけで機器５０を制御することができる構成（以下、シングルアクション構成とも記載される）は、簡単に機器５０を制御することができるが、音声の誤認識などより機器５０が誤作動してしまう可能性がある。一方、図３では、音声ＵＩ装置１０から本当に機器５０制御してもよいかの確認音声（確認メッセージ）が出力されるため、ユーザは二度発話しなければ機器５０を制御できない構成（以下、ダブルアクション構成とも記載される）である。この構成では、機器５０が誤作動してしまうことが抑制される。

このように音声に基づいて機器５０を制御する際に、シングルアクション構成を採用するか、ダブルアクション構成を採用するかは、システムの設計者等により定められることが一般的である。これに対し、音声制御システム１００においては、シングルアクション構成を採用するか、ダブルアクション構成を採用するかの設定（以下、アクション設定とも記載される）をユーザが変更することができる。これにより、ユーザの好みに応じた機器５０の音声制御が実現される。なお、アクション設定（つまり、機器５０の制御の実行に対する確認の要否の設定）を示す設定情報は、機器制御サーバ３０の記憶部３３に記憶される。

なお、音声制御システム１００では、ユーザは施設８０内で発話し、これに基づいて施設８０に設置される機器５０が制御される。しかしながら、発話音声の音声信号は、施設８０外に位置する音声認識サーバ２０に送信される。このため、音声制御システム１００における機器５０の制御は、施設８０外からの遠隔制御とみなされ、機器５０の制御は、電安法などの法律を遵守する観点から慎重に実行される必要がある。ダブルアクション構成は、慎重に機器５０を制御するための手法の一例である。

［アクション設定の変更方法］
次に、アクション設定の変更方法（記憶部３３に記憶される設定情報の設定内容の変更方法）について説明する。ユーザは、音声制御システム１００の導入時に、携帯端末６０を操作することによりユーザ登録を行う。このとき、ユーザは、音声制御システム１００の利用規約に同意する必要がある。アクション設定は、例えば、利用規約への同意と合わせて携帯端末６０への手動入力に基づいて行われる。図４は、アクション設定の設定画面の第一の例を示す図である。

図４の例では、ダブルアクションがデフォルト設定となっており、シングルアクションに設定することへのリスクを示すメッセージが表示されている。これにより、ユーザは、このようなリスクを認識したうえで、シングルアクションへ設定変更することができる。なお、携帯端末６０の表示部６１によってアクション設定を変更する手動入力が受け付けられると、設定変更を指示する情報が携帯端末６０から機器制御サーバ３０へ送信され、記憶部３３に記憶された設定情報に変更内容が反映される。

また、音声制御システム１００のユーザは、制御装置４０を操作することにより、事前に制御装置４０に機器５０を登録（無線接続）する必要がある。そこで、アクション設定は、機器５０の登録時に、制御装置４０への手動入力に基づいて行われてもよい。図５は、アクション設定の設定画面の第二の例を示す図である。なお、制御装置４０の表示部４１によってアクション設定を変更する手動入力が受け付けられると、設定変更を指示する情報が制御装置４０から機器制御サーバ３０へ送信され、記憶部３３に記憶された設定情報に変更内容が反映される。

また、図５の例では、施設８０に設置された複数の機器５０は、一括してシングルアクション及びダブルアクションのいずれかに設定される。言い換えれば、記憶部３３に記憶される設定情報においては、確認音声の要否が複数の機器５０に対して１つ定められる。しかしながら、施設８０に設置された複数の機器５０は、個別にシングルアクション及びダブルアクションのいずれかに設定されてもよい。言い換えれば、記憶部３３に記憶される設定情報においては、確認音声の要否が、施設８０に設置された複数の機器５０のそれぞれに対して個別に定められてもよい。図６は、このようなアクション設定の設定画面の第三の例を示す図である。

なお、図示されないが、図６のような設定画面において、複数の機器５０のアクション設定を一括して変更するためのオブジェクト（一括変更ボタン）が設けられてもよい。また、図６のアクション設定画面は一例である。設定画面は、当該設定画面においてチェックを入れた機器５０だけがシングルアクションに設定変更されるような設定画面であってもよい。

以上、アクション設定の変更方法について説明したが、アクション設定の変更方法は、上記に限定されない。例えば、アクション設定の変更は、音声ＵＩ装置１０が備える表示部１２への手動入力によって行われてもよいし、音声ＵＩ装置１０が備えるマイクロフォン１１への音声入力によって行われてもよい。この場合、設定変更を指示する情報が音声ＵＩ装置１０から（例えば、音声認識サーバ２０を介して）機器制御サーバ３０へ送信され、記憶部３３に記憶された設定情報に変更内容が反映される。

アクション設定の変更は、音声ＵＩ装置１０、制御装置４０、及び、携帯端末６０の少なくとも１つを通じて行われればよく、音声制御システム１００の導入時（例えば、利用規約に同意するとき）に行われてもよいし、音声制御システム１００の導入後（例えば、機器５０の登録時）に行われてもよい。いずれのケースにおいても、アクション設定は、機器５０ごとに個別に変更されてもよいし、複数の機器５０に対して一括変更されてもよい。

［動作例１：シングルアクションに設定された機器の制御］
次に、シングルアクションに設定された機器５０を制御するときの音声制御システム１００の動作について説明する。図７は、このような音声制御システム１００の動作例１のシーケンス図である。

ユーザが機器５０の制御を意図した音声を発すると、音声ＵＩ装置１０のマイクロフォン１１は、この発話音声（例えば、図２の（ａ））を取得する（Ｓ１１）。音声ＵＩ装置１０は、取得した発話音声の音声信号を音声認識サーバ２０へ送信する（Ｓ１２）。

音声認識サーバ２０は音声信号を受信すると、受信した音声信号（つまり、発話音声）に対して音声認識処理を行う（Ｓ１３）。音声認識サーバ２０は、具体的には、受信した音声信号をテキスト情報に変換し、テキスト情報を機器制御サーバ３０に送信する。

機器制御サーバ３０の第一取得部３４は、通信部３１を介して音声認識サーバ２０からテキスト情報を取得する（Ｓ１４）。テキスト情報は、機器５０の制御を実行するための情報の一例である。なお、音声認識サーバ２０はテキスト情報をコマンド情報（後述の制御命令に類似する情報）に変換し、第一取得部３４は、通信部３１を介して音声認識サーバ２０からコマンド情報を取得してもよい。この場合のコマンド情報は、機器５０の制御を実行するための情報の別の一例である。

第二取得部３５は、記憶部３３から設定情報を取得する（Ｓ１５）。実行部３６は、第一取得部３４によって取得されたテキスト情報に基づいてユーザが意図する制御の制御対象の機器５０を特定し、第二取得部３５によって取得された設定情報に基づいて、特定した機器５０のアクション設定を判定する（Ｓ１６）。例えば、テキスト情報が「エアコンをつけて」というテキストを示す場合、実行部３６は、設定情報において空調機器５１に紐づけられたアクション設定を参照することで、空調機器５１のアクション設定を判定することができる。

動作例１では、実行部３６は、機器５０がシングルアクションに設定されていると判定し、制御命令を通信部３１に制御装置４０へ送信させる（Ｓ１７）。上述のようにテキスト情報が「エアコンをつけて」というテキストを示す場合、実行部３６は、空調機器５１をオンするための制御命令を通信部３１に送信させる。

制御装置４０の第二通信部４３は、制御命令を機器制御サーバ３０から受信する。制御部４４は、受信された制御命令を第一通信部４２に機器５０（この場合、空調機器５１へ送信させる（Ｓ１８）。機器５０は、制御命令を受信すると制御命令にしたがって動作（または停止）する（Ｓ１９）。そして、機器５０は、動作（または停止）が完了したことを示す完了応答を制御装置４０へ送信する（Ｓ２０）。

制御装置４０の第一通信部４２は、完了応答を機器５０から受信する。制御部４４は、受信された完了応答を第二通信部４３に機器制御サーバ３０へ送信させる（Ｓ２１）。

機器制御サーバ３０の通信部３１は、完了応答を受信する。実行部３６は、完了応答が受信されると、完了通知を通信部３１に音声認識サーバ２０へ送信させる（Ｓ２２）。

音声認識サーバ２０は、完了通知を受信すると、音声ＵＩ装置１０へ完了通知を送信する（Ｓ２３）。音声ＵＩ装置１０は、完了通知を受信すると、受信した完了通知に基づいてスピーカ１３から完了音声（例えば、図２の（ｂ））を出力する（Ｓ２４）。

このように、実行部３６は、記憶部３３に記憶された設定情報に基づいて機器５０がシングルアクションに設定（制御の実行確認が不要に設定）されていると判定すると、音声ＵＩ装置１０に確認音声を出力させずに機器５０の制御を実行する。これにより、ユーザが確認音声に対する応答（つまり、２度目の発話）を煩わしく感じてしまうことが抑制される。

［動作例２：ダブルアクションに設定された機器の制御］
次に、ダブルアクションに設定された機器５０を制御するときの音声制御システム１００の動作について説明する。図８は、このような音声制御システム１００の動作例２のシーケンス図である。

ステップＳ１１～ステップＳ１５の処理は、動作例１と同様である。ステップＳ１５の後、実行部３６は、第一取得部３４によって取得されたテキスト情報に基づいてユーザが意図する制御の制御対象の機器５０を特定し、第二取得部３５によって取得された設定情報に基づいて、特定した機器５０のアクション設定を判定する（Ｓ３１）。例えば、テキスト情報が「エアコンをつけて」というテキストを示す場合、実行部３６は、設定情報において空調機器５１に紐づけられたアクション設定を参照することで、空調機器５１のアクション設定を判定することができる。

動作例２では、実行部３６は、機器５０がダブルアクションに設定されていると判定し、音声ＵＩ装置１０に確認音声を出力させるための確認命令を通信部３１に音声認識サーバ２０へ送信させる（Ｓ３２）。

音声認識サーバ２０は、確認命令を受信すると、音声ＵＩ装置１０へ確認命令を送信する（Ｓ３３）。音声ＵＩ装置１０は、確認命令を受信すると、受信した確認命令に基づいてスピーカ１３から確認音声（例えば、図３の（ｂ））を出力する（Ｓ３４）。

ユーザが機器５０の制御に同意することを意図した音声を発すると、音声ＵＩ装置１０のマイクロフォン１１は、この発話音声（例えば、図３の（ｃ））を取得する（Ｓ３５）。音声ＵＩ装置１０は、取得した発話音声の音声信号を音声認識サーバ２０へ送信する（Ｓ３６）。

音声認識サーバ２０は音声信号を受信すると、受信した音声信号（つまり、発話音声）に対して音声認識処理を行う（Ｓ３７）。音声認識サーバ２０は、具体的には、受信した音声信号をテキスト情報に変換し、テキスト情報を機器制御サーバ３０に送信する。

機器制御サーバ３０の第一取得部３４は、通信部３１を介して音声認識サーバ２０からテキスト情報を取得する（Ｓ３８）。

実行部３６は、取得されたテキスト情報がユーザが機器５０の制御に同意することを示すと判定し、制御命令を通信部３１に制御装置４０へ送信させる（Ｓ１７）。上述のようにテキスト情報が「エアコンをつけて」というテキストを示す場合、実行部３６は、空調機器５１をオンするための制御命令を通信部３１に送信させる。以降の処理は、動作例１と同様である。

なお、ステップＳ３５で取得された発話音声がユーザが機器５０の制御に同意しないことを意図した音声である場合、ステップＳ３８の後、実行部３６は、取得されたテキスト情報がユーザが機器５０の制御に同意しないことを示すと判定し、ステップＳ１７以降の処理を行わない。

このように、実行部３６は、記憶部３３に記憶された設定情報に基づいて機器５０がダブルアクションに設定（制御の実行確認が必要に設定）されていると判定すると、機器５０の制御を実行する前に音声ＵＩ装置１０に確認音声を出力させる。これにより、発話音声の誤認識などによって機器５０が誤作動してしまうことが抑制される。

［シーン制御に対するアクション設定］
ところで、音声制御システム１００のユーザは、発話音声により、シーン制御（定型アクションなどと呼ばれる場合もある）を実行することもできる。シーン制御は、施設８０内を所定の室内環境に近づけるために、施設８０内に配置された２以上の機器５０を一括して動作させる制御である。図９は、シーン制御を実行するための制御情報の一例を示す図である。

シーン制御の制御情報においては、起床、外出、及び、就寝などの生活シーン（シーン名称）のそれぞれに対して、機器５０の制御内容が紐づけられている。例えば、ユーザは、音声ＵＩ装置１０に対して「「帰宅」を有効にして」と発話すると、機器制御サーバ３０の実行部３６は、記憶部３３に記憶された制御情報を参照して機器５０を制御する。この結果、空調機器５１及び照明機器５２があらかじめ登録された設定（明るさ、設定温度など）でオンし、電動シャッター５３が開く。シーン制御を実行するときの動作シーケンスは、動作例１または動作例２と同様である。「帰宅」のシーン制御の実行が指示されたときに、どのような機器５０がどのような動作を行うかは、ユーザが設定することができる。

ここで、音声制御システム１００は、シーン制御に対してもアクション設定が可能であってもよい。言い換えれば、設定情報は、シーン制御（複数の機器５０の一括制御）の実行に対する確認の要否の設定を示す情報であってもよい。図１０は、シーン制御に対するアクション設定の設定画面の第一の例を示す図である。

図１０の例では、機器５０を個別に制御するときのアクション設定と、シーン制御（複数の機器５０の一括制御）を実行するときのアクション設定とが区別されている。ユーザは、機器５０を個別に制御するときにはダブルアクション設定、シーン制御を行うときには、シングルアクション設定というような設定が可能である。

図１０の例では、登録された全てのシーン制御は、一括してシングルアクション及びダブルアクションのいずれかに設定される。言い換えれば、記憶部３３に記憶される設定情報においては、確認音声の要否が複数のシーン制御に対して１つ定められる。しかしながら、複数のシーン制御は、個別にシングルアクション及びダブルアクションのいずれかに設定されてもよい。言い換えれば、記憶部３３に記憶される設定情報においては、確認音声の要否が、複数のシーン制御のそれぞれに対して個別に定められてもよい。図１１は、このようなシーン制御に対するアクション設定の設定画面の第二の例を示す図である。

なお、図示されないが、図１１のような設定画面において、複数のシーン制御のアクション設定を一括して変更するためのオブジェクト（一括変更ボタン）が設けられてもよい。また、図１１の設定画面は一例である。設定画面は、当該設定画面においてチェックを入れたシーン制御だけがシングルアクションに設定変更されるような設定画面であってもよい。

なお、図１０及び図１１は、制御装置４０の表示部４１への手動入力によってシーン制御に対するアクション設定の変更が行われる例を示しているが、シーン制御に対するアクション設定の変更は、上述した個別制御に対するアクション設定の変更と同様に、音声ＵＩ装置１０、制御装置４０、及び、携帯端末６０の少なくとも１つを通じて行われればよい。

［シーン制御時のアクション設定の判定］
また、音声制御システム１００は、シーン制御に対してはアクション設定が不可能であり、実行部３６は、シーン制御の制御対象の複数の機器５０に対するアクション設定に基づいてシーン制御のアクション設定をシングルアクションにするかダブルアクションにするかを判定してもよい。図１２は、シーン制御に対するアクション設定の判定動作のフローチャートである。なお、図１２に示される判定動作は、複数の機器５０が個別にシングルアクション及びダブルアクションのいずれかに設定されることが前提となる。

まず、機器制御サーバ３０の第一取得部３４は、シーン制御を意図したユーザの発話音声に基づくテキスト情報を、通信部３１を介して音声認識サーバ２０から取得する（Ｓ４１）。

次に、第二取得部３５は、記憶部３３から設定情報を取得する（Ｓ４２）。実行部３６は、第一取得部３４によって取得されたテキスト情報に基づいてユーザが意図するシーン制御の制御対象となる複数の機器５０を特定し（Ｓ４３）、第二取得部３５によって取得された設定情報に基づいて、特定した複数の機器５０のアクション設定を特定する（Ｓ４４）。

次に、実行部３６は、ステップＳ４４の特定結果に基づいて、ステップＳ４３で特定した制御対象の複数の機器５０の中にダブルアクションに設定されている機器が含まれるか否かを判定する（Ｓ４５）。

実行部３６は、複数の機器５０の中にダブルアクションに設定されている機器５０が含まれると判定すると（Ｓ４５でＹｅｓ）、音声ＵＩ装置１０に確認音声を出力させた後（Ｓ４６）、ユーザが意図するシーン制御を実行する（Ｓ４７）。言い換えれば、実行部３６は、シーン制御に対するアクション設定をダブルアクション設定とみなし、シーン制御を実行する前に音声ＵＩ装置１０に確認音声を出力させる。

一方、実行部３６は、複数の機器５０の中にダブルアクションに設定されている機器５０が含まれないと判定すると（Ｓ４５でＮｏ）、音声ＵＩ装置１０に確認音声を出力させずにユーザが意図するシーン制御を実行する（Ｓ４７）。言い換えれば、実行部３６は、シーン制御に対するアクション設定をシングルアクション設定とみなし、シーン制御を実行する前に音声ＵＩ装置１０に確認音声を出力させない。

このように、実行部３６は、設定情報が示す複数の機器５０のそれぞれの設定に基づいて、シーン制御を実行する前に音声ＵＩ装置１０に確認音声を出力させる。これにより、音声制御システム１００は、シーン制御に対するアクション設定を省略して、複数の機器５０の一括制御の前に確認音声を出力するか否かの切り換えを実現することができる。

なお、図１２の判定動作は一例である。例えば、ステップＳ４５では、制御対象の複数の機器５０の中にシングルアクションに設定されている機器が含まれるか否かが判定されてもよい。この場合、実行部３６は、複数の機器５０の中にシングルアクションに設定されている機器５０が含まれると判定すると、シーン制御を実行する前に音声ＵＩ装置１０に確認音声を出力させ、複数の機器５０の中にシングルアクションに設定されている機器５０が含まれないと判定すると、シーン制御を実行する前に音声ＵＩ装置１０に確認音声を出力させない。

また、実行部３６は、制御対象の複数の機器５０に含まれるシングルアクションに設定されている機器５０の数、及び、制御対象の複数の機器５０に含まれるダブルアクションに設定されている機器５０の数に基づいて、シーン制御に対するアクション設定を多数決で決定してもよい。

［効果等］
以上説明したように、音声制御システム１００は、音声ＵＩ装置１０に入力されるユーザの発話音声によって指示される機器５０の制御を実行するための情報を取得する第一取得部３４と、取得された情報が示す上記制御の実行に対する確認の要否の設定を示す設定情報を取得する第二取得部３５と、取得された設定情報に基づいて、上記制御を実行する前に音声ＵＩ装置１０に上記確認のための確認音声を出力させる実行部３６とを備える。

このような音声制御システム１００は、機器５０の制御の前に確認音声を出力するか否かを設定情報に基づいて切り替えることができる。つまり、音声制御システム１００は、機器５０の制御を意図した発話音声が入力された後に当該制御の実行確認を行うか否かを切り替えることができる。

また、例えば、設定情報においては、確認の要否が、機器５０を含む複数の機器５０に対して１つ定められる。

このような音声制御システム１００は、機器５０の制御の前に確認音声を出力するか否かを一括して設定することができる。

また、例えば、設定情報においては、確認の要否が、機器５０を含む複数の機器５０のそれぞれに対して個別に定められる。

このような音声制御システム１００は、機器５０の制御の前に確認音声を出力するか否かを機器５０ごとに個別に設定することができる。

また、例えば、設定情報の内容は、音声ＵＩ装置１０に入力される発話音声に基づいて変更される。

このような音声制御システム１００によれば、ユーザは、設定情報の内容を発話音声（音声入力）によって変更することができる。

また、例えば、音声制御システム１００は、さらに、情報端末と通信する通信部３１を備える。設定情報の内容は、情報端末への手動入力に基づいて変更される。情報端末は、例えば、音声ＵＩ装置１０、制御装置４０、または、携帯端末６０である。

このような音声制御システム１００によれば、ユーザは、設定情報の内容を音声ＵＩ装置１０、制御装置４０、または、携帯端末６０への手動入力によって変更することができる。

また、例えば、実行部３６は、制御装置４０を介して機器５０の制御を実行し、設定情報の内容は、制御装置４０への手動入力に基づいて変更される。

このような音声制御システム１００によれば、ユーザは、制御装置４０への手動入力によって変更することができる。

また、例えば、上記制御は、機器５０を含む複数の機器５０の一括制御である。設定情報は、一括制御の実行に対する確認の要否の設定を示す。

このような音声制御システム１００は、複数の機器５０の一括制御の前に確認音声を出力するか否かを設定情報に基づいて切り替えることができる。つまり、音声制御システム１００は、複数の機器５０の一括制御の前に確認音声を出力するか否かの切り換えを実現することができる。

また、例えば、上記制御は、複数の機器５０の一括制御であり、実行部３６は、設定情報が示す複数の機器５０のそれぞれの設定に基づいて、一括制御を実行する前に音声ＵＩ装置１０に確認音声を出力させる。

このような音声制御システム１００は、複数の機器５０の一括制御の前に確認音声を出力するか否かを複数の機器５０の個別の設定に基づいて切り替えることができる。つまり、音声制御システム１００は、複数の機器５０の一括制御に対する設定を省略して、複数の機器５０の一括制御の前に確認音声を出力するか否かの切り換えを実現することができる。

また、例えば、実行部３６は、複数の機器５０の中に確認が必要であると設定されている機器５０が含まれる場合に、一括制御を実行する前に音声ＵＩ装置１０に確認音声を出力させ、複数の機器５０の中に確認が必要であると設定されている機器５０が含まれない場合に、一括制御を実行する前に音声ＵＩ装置１０に確認音声を出力させない。

このような音声制御システム１００は、一括制御の対象となる複数の機器５０の中に１つでも確認が必要であると設定された機器５０があるときに、確認音声を出力することができる。

また、例えば、設定情報の内容は、機器５０が音声制御システム１００に登録されるときに変更可能である。

このような音声制御システム１００によれば、ユーザは、機器５０の音声制御システム１００への登録時に設定情報の内容を変更することができる。

また、例えば、機器５０は、施設８０に設置され、設定情報の内容は、音声制御システム１００が施設８０に導入されるときに変更可能である。

このような音声制御システム１００によれば、ユーザは、音声制御システム１００が施設８０に導入されるときに設定情報の内容を変更することができる。

また、例えば、機器５０は、施設８０に設置され、音声制御システム１００は、さらに、音声ＵＩ装置１０と、発話音声に対して音声認識処理を行うことにより上記情報を送信する、施設８０外に位置する音声認識サーバ２０とを備える。第一取得部３４は、音声認識サーバ２０によって送信された上記情報を取得する。音声認識サーバ２０は、コンピュータの一例である。

このような音声制御システム１００は、施設８０外に位置する音声認識サーバ２０を利用して音声認識処理を行うことができる。

また、音声制御システム１００などのコンピュータが実行する音声制御方法は、音声ＵＩ装置１０に入力されるユーザの発話音声によって指示される機器５０の制御を実行するための情報を取得する第一取得ステップと、取得された情報が示す上記制御の実行に対する確認の要否の設定を示す設定情報を取得する第二取得ステップと、取得された設定情報に基づいて、上記制御を実行する前に音声ＵＩ装置１０に確認のための確認音声を出力させる実行ステップとを含む。

このような音声制御方法は、機器５０の制御の前に確認音声を出力するか否かを設定情報に基づいて切り替えることができる。つまり、音声制御方法は、機器５０の制御を意図した発話音声が入力された後に当該制御の実行確認を行うか否かを切り替えることができる。

（その他の実施の形態）
以上、実施の形態について説明したが、本発明は、上記実施の形態に限定されるものではない。

例えば、上記実施の形態では、音声制御システムは、複数の装置によって実現されたが、単一の装置によって実現されてもよい。例えば、音声制御システムは、上記実施の形態の機器制御サーバに相当する単一の装置として実現されてもよい。音声制御システムが複数の装置によって実現される場合、各システムが備える構成要素（機能）は、複数の装置にどのように振り分けられてもよい。例えば、上記実施の形態では、音声認識処理は、音声認識サーバによって行われたが、音声ＵＩ装置または制御装置などの他の装置によって行われてもよい。

また、例えば、上記実施の形態における装置間の通信方法については特に限定されるものではない。また、装置間の通信においては、図示されない中継装置が介在してもよい。また、上記実施の形態で説明された情報の伝達経路は、シーケンス図に示される伝達経路に限定されない。

また、上記実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。

また、上記実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路（または集積回路）でもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

また、本発明の全般的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

例えば、本発明は、上記実施の形態に係る制御装置またはこれに相当する音声制御システムとして実現されてもよい。また、本発明は、音声制御システムなどのコンピュータが実行する音声制御方法として実現されてもよいし、このような音声制御方法をコンピュータに実行させるためのプログラムとして実現されてもよい。本発明は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。

その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、または、本発明の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本発明に含まれる。

１０音声ＵＩ装置
２０音声認識サーバ（コンピュータ）
３１通信部
３４第一取得部
３５第二取得部
３６実行部
４０制御装置
５０機器
１００音声制御システム

Claims

音声ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）装置に入力されるユーザの発話音声によって指示される機器の制御を実行するための情報を取得する第一取得部と、
取得された前記情報が示す前記制御の実行に対する確認の要否の設定を示す設定情報を取得する第二取得部と、
取得された前記設定情報に基づいて、前記制御を実行する前に前記音声ＵＩ装置に前記確認のための確認音声を出力させる実行部とを備え、
前記設定情報においては、前記確認の要否が、前記機器を含む複数の機器のそれぞれに対して個別に定められ、
前記制御は、前記複数の機器の一括制御であり、
前記実行部は、
前記複数の機器の中に前記確認が必要であると設定されている機器が含まれる場合に、前記一括制御を実行する前に前記音声ＵＩ装置に前記確認音声を出力させ、
前記複数の機器の中に前記確認が必要であると設定されている機器が含まれない場合に、前記一括制御を実行する前に前記音声ＵＩ装置に前記確認音声を出力させない
音声制御システム。
前記設定情報の内容は、前記音声ＵＩ装置に入力される発話音声に基づいて変更される
請求項１に記載の音声制御システム。
さらに、情報端末と通信する通信部を備え、
前記設定情報の内容は、前記情報端末への手動入力に基づいて変更される
請求項１または２に記載の音声制御システム。
前記実行部は、制御装置を介して前記機器の制御を実行し、
前記設定情報の内容は、前記制御装置への手動入力に基づいて変更される
請求項１～３のいずれか１項に記載の音声制御システム。
前記設定情報の内容は、前記機器が前記音声制御システムに登録されるときに変更可能である
請求項１～４のいずれか１項に記載の音声制御システム。
前記機器は、施設に設置され、
前記設定情報の内容は、前記音声制御システムが前記施設に導入されるときに変更可能である
請求項１～５のいずれか１項に記載の音声制御システム。
前記機器は、施設に設置され、
前記音声制御システムは、さらに、
前記音声ＵＩ装置と、
前記発話音声に対して音声認識処理を行うことにより前記情報を送信する、前記施設外に位置するコンピュータとを備え、
前記第一取得部は、前記コンピュータによって送信された前記情報を取得する
請求項１～６のいずれか１項に記載の音声制御システム。
コンピュータによって実行される音声制御方法であって、
音声ＵＩ装置に入力されるユーザの発話音声によって指示される機器の制御を実行するための情報を取得する第一取得ステップと、
取得された前記情報が示す前記制御の実行に対する確認の要否の設定を示す設定情報を取得する第二取得ステップと、
取得された前記設定情報に基づいて、前記制御を実行する前に前記音声ＵＩ装置に前記確認のための確認音声を出力させる実行ステップとを含み、
前記設定情報においては、前記確認の要否が、前記機器を含む複数の機器のそれぞれに対して個別に定められ、
前記制御は、前記複数の機器の一括制御であり、
前記実行ステップにおいては、
前記複数の機器の中に前記確認が必要であると設定されている機器が含まれる場合に、前記一括制御を実行する前に前記音声ＵＩ装置に前記確認音声を出力させ、
前記複数の機器の中に前記確認が必要であると設定されている機器が含まれない場合に、前記一括制御を実行する前に前記音声ＵＩ装置に前記確認音声を出力させない
音声制御方法。
請求項８に記載の音声制御方法を前記コンピュータに実行させるためのプログラム。