JP2023103287A

JP2023103287A - 音声処理装置、会議システム、及び音声処理方法

Info

Publication number: JP2023103287A
Application number: JP2023072113A
Authority: JP
Inventors: 慶子蛭川; Keiko Hirukawa; 智寺田; Satoshi Terada
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2019-03-06
Filing date: 2023-04-26
Publication date: 2023-07-26
Anticipated expiration: 2039-03-06
Also published as: JP7553645B2; JP2020144209A; US11322145B2; CN111667822A; CN111667822B; US20200286478A1

Abstract

【課題】ユーザの会話を妨げることなく、かつ、ユーザが意図しないコマンドの実行を防ぐことが可能な音声処理装置、会議システム及び音声処理方法を提供する。【解決手段】会議システム１００において、音声処理装置１は、音声を受信する音声受信部と、被写体の画像を撮像してデジタル画像データとして出力するカメラと、カメラが撮像した撮像画像を取得する画像取得部と、音声受信部が受信した音声及び画像取得部が取得した撮像画像とに基づいて、発話者を特定する話者特定部と、音声受信部が受信した音声及び撮像画像とに含まれる話者特定部が特定する発話者の画像に基づいて、当該音声が特定ワードであるか否かを判定する音声判定部と、音声判定部による判定結果に基づいて、音声受信部が受信する音声の送信先を切り替える音声送信部と、を備える。【選択図】図２

Description

本発明は、音声処理装置、会議システム、及び音声処理方法に関する。

ユーザの音声を認識して、当該音声に応じた情報処理を実行する音声処理装置が提案されている（例えば特許文献１参照）。例えば、ユーザは、現在の天気を知りたい場合に、音声処理装置に向かって予め設定された特定ワードを発話する。音声処理装置は、前記特定ワードを受信すると、情報処理に応じたコマンドの受け付けを開始する。その後、ユーザが「天気を教えて」などの質問（コマンド音声）を発話すると、音声処理装置は前記コマンド音声を受信して、コマンドを実行する。例えば音声処理装置は、インターネットを利用して天気情報を取得し、前記質問に応じた回答を音声出力する。

特開２０１０－５５３７５号公報

従来の前記音声処理装置において、複数のユーザが通常の会話の中で前記特定ワードを発話した場合、音声処理装置が前記特定ワードを検知して、コマンドの受け付けを開始する待機状態に移行してしまう。この場合、音声処理装置が待機状態になったことを外部に報知することによりユーザの会話の妨げになったり、ユーザが待機状態を解除しなければならなかったりする問題が生じる。また、音声処理装置が待機状態になったことをユーザが気付かずに会話を続けた場合に、音声処理装置がユーザの会話の一部をコマンド音声と認識してコマンドを実行してしまう問題も生じる。

本発明の目的は、ユーザの会話を妨げることなく、かつユーザが意図しないコマンドの実行を防ぐことが可能な音声処理装置、会議システム、及び音声処理方法を提供することにある。

本発明の一の態様に係る音声処理装置は、音声を受信する音声受信部と、撮像部により撮像される撮像画像を取得する画像取得部と、前記音声受信部より受信される前記音声と、前記画像取得部により取得される前記撮像画像とに基づいて、発話者を特定する話者特定部と、前記音声受信部より受信される前記音声と、前記撮像画像に含まれる前記話者特定部により特定される前記発話者の画像とに基づいて、当該音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定する音声判定部と、前記音声判定部による判定結果に基づいて、前記音声受信部より受信される前記音声の送信先を切り替える音声送信部と、を備える。

本発明の他の態様に係る会議システムは、ネットワークを介して互いに接続される第１音声処理装置及び第２音声処理装置を含み、前記第１音声処理装置で受信する音声を前記第２音声処理装置に送信し、前記第２音声処理装置で受信する音声を前記第１音声処理装置に送信することが可能な会議システムであって、前記第１音声処理装置は、音声を受信する音声受信部と、撮像部により撮像される撮像画像を取得する画像取得部と、前記音声受信部より受信される前記音声と、前記画像取得部により取得される前記撮像画像とに基づいて、発話者を特定する話者特定部と、前記音声受信部より受信される前記音声と、前記撮像画像に含まれる前記話者特定部により特定される前記発話者の画像とに基づいて、当該音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定する音声判定部と、前記音声判定部による判定結果に基づいて、前記音声受信部より受信される前記音声の送信先を切り替える音声送信部と、を備え、前記音声判定部により、前記音声受信部より受信される前記音声が前記特定ワードであると判定された場合に、前記音声送信部は、前記音声受信部が前記特定ワードの次に受信する音声をコマンド音声として、前記所定のコマンドを実行するサーバ装置に送信し、前記音声判定部により、前記音声受信部より受信される前記音声が前記特定ワードでないと判定された場合に、前記音声送信部は、当該音声を前記第２音声処理装置に送信する。

本発明の他の態様に係る音声処理方法は、音声を受信する音声受信ステップと、撮像部により撮像される撮像画像を取得する画像処理ステップと、前記音声受信ステップより受信される前記音声と、前記画像処理ステップにより取得される前記撮像画像とに基づいて、発話者を特定する話者特定ステップと、前記音声受信ステップより受信される前記音声と、前記撮像画像に含まれる前記話者特定ステップにより特定される前記発話者の画像とに基づいて、当該音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定する音声判定ステップと、前記音声判定ステップによる判定結果に基づいて、前記音声受信ステップより受信される前記音声の送信先を切り替える音声送信ステップと、を一又は複数のプロセッサーにより実行する。

本発明によれば、ユーザの会話を妨げることなく、かつユーザが意図しないコマンドの実行を防ぐことが可能な音声処理装置、会議システム、及び音声処理方法が提供される。

図１は、本発明の実施形態に係る会議システムの概略構成を示す図である。図２は、本発明の実施形態に係る会議システムの構成を示す機能ブロック図である。図３は、本発明の実施形態に係る会議システムに用いられるユーザ情報の一例を示す図である。図４は、本発明の実施形態に係る音声処理装置における音声処理の手順の一例を説明するためのフローチャートである。図５は、本発明の実施形態に係る音声処理装置における音声判定処理の手順の一例を説明するためのフローチャートである。

以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。

本発明に係る音声処理装置は、複数のユーザが参加する会議、遠隔地をネットワーク接続して複数のユーザが参加するリモート会議などに適用することができる。また、前記音声処理装置は、一人のユーザにより利用されてもよい。例えば、音声処理装置は、一般家庭に設置され、家庭内の機器と接続してユーザの指示に基づいて各種コマンドを実行するものであってもよい。また、音声処理装置１は、コマンドを実行する機能と、ユーザ間で通話可能な通話機能とを備えたものであってもよい。以下の実施形態では、音声処理装置がリモート会議に適用される場合を例に挙げて説明する。すなわち、本発明に係る音声処理装置は、本発明に係る会議システムを構成する。リモート会議では、それぞれの遠隔地（会議室）に音声処理装置が設置され、一方の会議室の音声処理装置がユーザの発話した音声を受信して、他方の会議室の音声処理装置に送信することにより、各会議室のユーザ同士の会話を可能にする。また、音声処理装置は、各会議室において、ユーザからコマンド音声を受信して、所定のコマンドを実行するクラウドサーバに送信する。

図１は、本発明の実施形態に係る会議システムの概略構成を示す図である。会議システム１００は、１又は複数の音声処理装置１と、クラウドサーバ２とを含んでいる。音声処理装置１Ａ，１Ｂのそれぞれは、マイク及びスピーカを備えたマイクスピーカ装置であり、例えばＡＩスピーカ、スマートスピーカなどである。ここでは、会議室Ａに設置された音声処理装置１Ａと、会議室Ｂに設置された音声処理装置１Ｂとを示している。音声処理装置１Ａと音声処理装置１Ｂとクラウドサーバ２とは、ネットワークＮ１を介して互いに接続されている。ネットワークＮ１は、インターネット、ＬＡＮ、ＷＡＮ、又は公衆電話回線などの通信網である。クラウドサーバ２は、例えば複数台のデータサーバ（仮想サーバ）で構築される。音声処理装置１Ａ，１Ｂのそれぞれは、本発明の音声処理装置の一例である。また音声処理装置１Ａは、本発明の第１音声処理装置の一例であり、音声処理装置１Ｂは、本発明の第２音声処理装置の一例である。クラウドサーバ２は、本発明のサーバ装置の一例である。

以下、会議システム１００の具体的な構成について説明する。尚、以下の説明では、音声処理装置１Ａ，１Ｂを区別しない場合は音声処理装置１と称す。また、クラウドサーバ２は、１台の仮想サーバとして説明する。尚、クラウドサーバ２は、１台の物理サーバに置き換えられてもよい。

［音声処理装置１］
図２に示すように、音声処理装置１は、制御部１１、記憶部１２、スピーカ１３、マイク１４、カメラ１５、及び通信インターフェース１６などを備える。音声処理装置１は、例えばＡＩスピーカ、スマートスピーカなどの機器であってもよい。音声処理装置１は、例えば会議室の机の中央付近に配置され、会議に参加するユーザの音声をマイク１４を介して取得したり、当該ユーザに対してスピーカ１３から音声を出力（報知）したりする。

カメラ１５は、被写体の画像を撮像してデジタル画像データとして出力するデジタルカメラである。例えばカメラ１５は、音声処理装置１の上面に設けられ、音声処理装置１の周囲３６０度の範囲を撮像可能であり、ここでは会議室の室内全体を撮像することが可能である。カメラ１５は、本発明の撮像部の一例である。

通信インターフェース１６は、音声処理装置１を有線又は無線でネットワークＮ１に接続し、ネットワークＮ１を介して他の機器（例えば音声処理装置１、クラウドサーバ２）との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。

記憶部１２は、各種の情報を記憶するフラッシュメモリーなどの不揮発性の記憶部である。

具体的に、記憶部１２には、音声処理装置１を利用するユーザの情報（ユーザ情報Ｄ１）などのデータが記憶される。図３は、ユーザ情報Ｄ１の一例を示す図である。ユーザ情報Ｄ１には、ユーザごとに、ユーザＩＤと、画像データとが関連付けられて登録されている。ユーザＩＤは、ユーザの識別情報である。画像データは、ユーザを撮像した撮像画像の画像データである。前記撮像画像にはユーザの顔画像が含まれる。図３に示す例は、会議室Ａに設置された音声処理装置１Ａの記憶部１２に記憶されたユーザ情報Ｄ１を示しており、当該ユーザ情報Ｄ１には、会議室Ａにいる４人のユーザ（図１参照）のユーザ情報が登録されている。なお、ユーザが会議室Ａに入室する際にＩＤカード等を音声処理装置１Ａ等の機器に翳すことにより、予め複数のユーザ情報が登録されたデータサーバ（不図示）から、記憶部１２のユーザ情報Ｄ１に前記ユーザのユーザＩＤ及び画像データが登録されてもよい。

さらに、記憶部１２には、制御部１１に後述の音声処理（図４参照）を実行させるための音声処理プログラムなどの制御プログラムが記憶されている。例えば、前記音声処理プログラムは、クラウドサーバ２から配信されて記憶される。また前記音声処理プログラムは、ＣＤ又はＤＶＤなどのコンピュータ読取可能な記録媒体に非一時的に記録され、音声処理装置１が備えるＣＤドライブ又はＤＶＤドライブなどの読取装置（不図示）で読み取られて記憶部１２に記憶されてもよい。

制御部１１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサーである。前記ＲＯＭは、前記ＣＰＵに各種の処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムを予め記憶する。前記ＲＡＭは、各種の情報を記憶し、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部１１は、前記ＲＯＭ又は記憶部１２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することにより音声処理装置１を制御する。

具体的に、制御部１１は、音声受信部１１１、画像取得部１１２、話者特定部１１３、音声判定部１１４、音声送信部１１５、表示処理部１１６、調整処理部１１７、応答処理部１１８などの各種の処理部を含む。なお、制御部１１は、前記ＣＰＵで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部１１に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記音声処理プログラムは、複数のプロセッサーを前記各種の処理部として機能させるためのプログラムであってもよい。

音声受信部１１１は、音声処理装置１を利用するユーザが発話した音声を受信する。音声受信部１１１は、本発明の音声受信部の一例である。ユーザは、例えば、会議に関する音声、音声処理装置１がコマンドの受け付けを開始するための特定ワード（起動ワード、ウェイクアップワードともいう。）の音声、音声処理装置１に指示する各種コマンドの音声（コマンド音声）などを発話する。音声受信部１１１は、ユーザから発話された各種音声を受信する。

画像取得部１１２は、カメラ１５により撮像された撮像画像を取得する。画像取得部１１２は、本発明の画像取得部の一例である。例えば、カメラ１５により会議室Ａにいる４人のユーザが撮像された場合、画像取得部１１２は、４人のユーザを含む撮像画像を取得する。

話者特定部１１３は、音声受信部１１１より受信された前記音声と、画像取得部１１２により取得された前記撮像画像とに基づいて、発話したユーザ（発話者）を特定する。話者特定部１１３は、本発明の話者特定部の一例である。例えば、話者特定部１１３は、マイク１４による集音方向に基づいて前記音声を受信した方向（発話者の方向）を特定し、当該方向に含まれる前記撮像画像に基づいて発話者を特定する。例えば、前記方向に含まれる前記撮像画像にユーザが含まれる場合、話者特定部１１３は、当該ユーザを発話者として特定する。

ここで、音声受信部１１１が音声を受信した方向に含まれる前記撮像画像に少なくとも一人のユーザが含まれる場合、話者特定部１１３は以下の方法により発話者を特定してもよい。

第１の方法として、話者特定部１１３は、前記撮像画像から発話者の候補として一人のユーザを抽出する。話者特定部１１３は、抽出したユーザが所定範囲内にいるか否かを判定し、所定範囲内にいる場合に当該ユーザを発話者として特定する。前記所定範囲は、例えば、音声処理装置１を中心として半径数メートルの範囲に設定される。これにより、音声処理装置１から離れた位置にいるユーザが前記発話者として特定されることを防ぐことができる。

第２の方法として、話者特定部１１３は、抽出したユーザが正面を向いているか否か、すなわち当該ユーザの顔の方向又は視線がカメラ１５に向けられているか否かを判定し、当該ユーザが正面を向いている場合に当該ユーザを発話者として特定する。これにより、正面とは異なる方向を向いて発話しているユーザが前記発話者として特定されることを防ぐことができる。

第３の方法として、話者特定部１１３は、抽出したユーザがユーザ情報Ｄ１に登録されているか否かを判定し、当該ユーザがユーザ情報Ｄ１に登録されている場合に当該ユーザを発話者として特定する。これにより、ユーザ情報Ｄ１に登録されていないユーザが発話した場合、当該ユーザが前記発話者として特定されることを防ぐことができる。

第４の方法として、話者特定部１１３は、抽出したユーザの口の動きと、音声受信部１１１が音声を受信したタイミングとが一致するか否かを判定し、当該口の動きと当該受信したタイミングとが一致する場合に、当該ユーザを発話者として特定する。これにより、前記口の動きと前記受信したタイミングとが一致しないユーザが前記発話者として特定されることを防ぐことができる。

話者特定部１１３は、前記第１の方法から前記第４の方法のうち少なくともいずれかの方法を用いて発話者を特定する。また、話者特定部１１３は、前記第１の方法から前記第４の方法のうち任意の複数の方法を組み合わせて発話者を特定してもよいし、全ての方法を用いて発話者を特定してもよい。

ここで、音声受信部１１１が音声を受信した方向に含まれる前記撮像画像に含まれる複数のユーザのうち任意に抽出された第１のユーザが、前記第１の方法から前記第４の方法のいずれの方法によっても前記発話者として特定されない場合、話者特定部１１３は、他の第２のユーザを抽出して、前記第１の方法から前記第４の方法の少なくともいずれかにより発話者の判定を行う。このようにして、話者特定部１１３は、前記複数のユーザのそれぞれに対して、前記発話者が特定されるまで前記判定処理を行う。

なお、会議システム１００が、遠隔地（会議室Ｂ）のユーザが発話した音声が会議室Ａに設置された、音声処理装置１Ａとは異なるスピーカ装置（不図示）から出力される構成である場合、音声処理装置１Ａの音声受信部１１１が前記音声を受信した方向に含まれる撮像画像にはユーザが含まれず、前記スピーカが含まれることとなる。この場合、話者特定部１１３は、発話者を特定せず、会議室Ａにいるユーザの音声ではないと判断する。

音声判定部１１４は、音声受信部１１１より受信された前記音声と、前記撮像画像に含まれる話者特定部１１３により特定された前記発話者の画像とに基づいて、当該音声が前記特定ワードであるか否かを判定する。音声判定部１１４は、本発明の音声判定部の一例である。例えば、音声判定部１１４は、音声受信部１１１より受信された前記音声が前記特定ワードと一致するか否かを判定する。また音声判定部１１４は、前記撮像画像に含まれる前記発話者が正面を向いているか否か、すなわち前記発話者の顔の方向又は視線がカメラ１５に向けられているか否かを判定する。そして、音声判定部１１４は、音声受信部１１１より受信された前記音声が前記特定ワードと一致し、かつ、前記撮像画像に含まれる前記発話者の顔の方向又は視線がカメラ１５に向けられている場合に、音声受信部１１１より受信される前記音声が前記特定ワードであると判定する。一方、音声判定部１１４は、音声受信部１１１より受信された前記音声が前記特定ワードと一致しない場合、又は、前記撮像画像に含まれる前記発話者の顔の方向又は視線がカメラ１５に向けられていない場合には、音声受信部１１１より受信される前記音声が前記特定ワードでないと判定する。

音声送信部１１５は、音声判定部１１４による判定結果に基づいて、音声受信部１１１より受信される前記音声の送信先を切り替える。音声送信部１１５は、本発明の音声送信部の一例である。具体的には、音声判定部１１４により、音声受信部１１１より受信された前記音声が前記特定ワードであると判定された場合に、音声送信部１１５は、音声受信部１１１が前記特定ワードの次に受信する音声をコマンド音声として、クラウドサーバ２のみに送信する。また音声判定部１１４により、音声受信部１１１より受信された前記音声が前記特定ワードでないと判定された場合には、音声送信部１１５は、当該音声を他の音声処理装置１に送信する。例えば、音声処理装置１Ａの音声送信部１１５は、前記特定ワードではない音声を、音声処理装置１Ｂに送信する。音声処理装置１Ｂは、本発明の外部機器の一例である。

ここで、音声送信部１１５は、音声判定部１１４による判定結果に基づいて、音声受信部１１１より受信された前記音声をクラウドサーバ２に送信するコマンド送信モード（本発明の第１送信モードに対応）と、音声受信部１１１より受信された前記音声を他の音声処理装置１に送信する音声送信モード（本発明の第２送信モードに対応）とを切り替える構成を備えてもよい。例えば、音声判定部１１４により、音声受信部１１１より受信された前記音声が前記特定ワードであると判定された場合に、音声送信部１１５は、送信モードをコマンド送信モードに設定する（切り替える）。送信モードがコマンド送信モードに設定された場合、音声送信部１１５は前記コマンド音声をクラウドサーバ２に送信する。また音声送信部１１５は、前記コマンド音声をクラウドサーバ２に送信した後、送信モードを音声送信モードに設定する（切り替える）。送信モードが音声送信モードに設定された場合、音声送信部１１５は、音声受信部１１１より受信された前記音声を他の音声処理装置１に送信する。

表示処理部１１６は、前記送信モードを示す識別情報を表示させる。表示処理部１１６は、本発明の表示処理部の一例である。例えば、表示処理部１１６は、送信モードがコマンド送信モードである場合、赤色ＬＥＤを発光させ、送信モードが音声送信モードである場合、青色ＬＥＤを発光させる。なお、前記送信モードを示す識別情報は、テキスト情報であってもよし、音声情報であってもよい。音声処理装置１が表示部を備える場合には、表示処理部１１６は、前記表示部に前記テキスト情報を表示させてもよい。

調整処理部１１７は、音声を収音するマイク１４の指向性を調整する。調整処理部１１７は、本発明の調整処理部の一例である。具体的には、調整処理部１１７は、音声送信部１１５により音声送信モードからコマンド送信モードに設定された場合に、マイク１４の指向性を話者特定部１１３により特定される前記発話者の方向に調整する。これにより、音声受信部１１１は、発話者から発話される前記コマンド音声を確実に取得することが可能となる。

応答処理部１１８は、クラウドサーバ２において実行された前記コマンドに対応する応答（コマンド応答）をクラウドサーバ２から取得し、当該コマンド応答をスピーカ１３から出力させる。なお、音声処理装置１が表示部を備える場合には、応答処理部１１８は、前記表示部に前記コマンド応答を表示させてもよい。応答処理部１１８は、本発明の応答処理部の一例である。

［クラウドサーバ２］
図２に示すように、クラウドサーバ２は、制御部２１、記憶部２２、通信インターフェース２３などを備える。

通信インターフェース２３は、クラウドサーバ２を有線又は無線でネットワークＮ１に接続し、ネットワークＮ１を介して他の機器（例えば音声処理装置１Ａ，１Ｂ）との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。

記憶部２２は、各種の情報を記憶するフラッシュメモリーなどの不揮発性の記憶部である。例えば、記憶部２２には、制御部２１により実行される制御プログラムが記憶されている。また記憶部２２には、音声処理装置１から受信する音声データ（コマンド音声）に対応するコマンドの情報（コマンド情報）が記憶されている。

制御部２１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサーである。前記ＲＯＭは、前記ＣＰＵに各種の処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムを予め記憶する。前記ＲＡＭは、各種の情報を記憶し、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部２１は、前記ＲＯＭ又は記憶部２２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することによりクラウドサーバ２を制御する。

具体的に、制御部２１は、音声受信部２１１、コマンド判定部２１２、コマンド処理部２１３などの各種の処理部を含む。なお、制御部２１は、前記ＣＰＵで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部２１に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記制御プログラムは、複数のプロセッサーを前記各種の処理部として機能させるためのプログラムであってもよい。

音声受信部２１１は、音声処理装置１から送信されるコマンド音声を受信する。具体的には、音声処理装置１が、前記特定ワードを検知してコマンドの受け付けを開始する待機状態（コマンド送信モード）に移行した後にコマンド音声を取得し、当該コマンド音声をクラウドサーバ２に送信すると、クラウドサーバ２が当該コマンド音声を受信する。すなわち、音声処理装置１が待機状態に移行する前のスリープ状態（音声送信モード）である場合は、音声データはクラウドサーバ２に送信されないため、不要なデータ通信を抑えることができる。

コマンド判定部２１２は、音声受信部２１１により受信されたコマンド音声に基づいて、コマンドを判定する。具体的には、コマンド判定部２１２は、音声受信部２１１により受信されたコマンド音声に対して音声認識処理を実行して、音声データをテキストデータに変換する。そして、コマンド判定部２１２は、記憶部２２に記憶されたコマンド情報を参照して、前記テキストデータに応じたコマンドを判定する。

コマンド処理部２１３は、コマンド判定部２１２により判定された前記コマンドに応じた処理を実行する。例えば、前記コマンドが所定の情報を検索する検索コマンドである場合、コマンド処理部２１３は、検索処理を実行する。また、コマンド処理部２１３は、前記コマンド音声に対する応答結果（コマンド応答）を、当該コマンド音声の送信元の音声処理装置１に送信する。なお、コマンド処理部２１３は、前記コマンド音声の送信元とは異なる機器にコマンド応答を送信してもよい。例えば、コマンド処理部２１３は、会議室Ａにおいて、音声処理装置１Ａから前記コマンド音声を受信した場合に、前記コマンド応答を会議室Ａに設置された表示装置（不図示）に送信してもよい。この場合、前記コマンド応答の情報が前記表示装置に表示される。

なお、音声処理装置１の他の実施形態として、各音声処理装置１が、クラウドサーバ２の機能、すなわちコマンド判定部２１２及びコマンド処理部２１３の機能を備えてもよい。

［音声処理］
以下、図４及び図５を参照しつつ、音声処理装置１の制御部１１によって実行される音声処理の手順の一例について説明する。ここでは、図１に示す会議システム１００において、音声処理装置１Ａに着目して前記音声処理を説明する。例えば、音声処理装置１Ａの制御部１１は、ユーザの音声を受信することにより前記音声処理プログラムの実行を開始することによって、前記音声処理の実行を開始する。なお、前記音声処理は、音声処理装置１Ａ，１Ｂのそれぞれにおいて、個別に並行して実行される。

なお、本発明は、前記音声処理に含まれる一又は複数のステップを実行する音声処理方法の発明として捉えることができる。また、ここで説明する前記音声処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記音声処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部１１によって前記音声処理における各ステップが実行される場合を例に挙げて説明するが、他の実施形態では、複数のプロセッサーによって前記音声処理における各ステップが分散して実行されてもよい。

ステップＳ１０１において、制御部１１は、音声処理装置１Ａがクラウドサーバ２から前記コマンド応答を受信したか否かを判定する。音声処理装置１Ａがクラウドサーバ２から前記コマンド応答を受信した場合（Ｓ１０１：ＹＥＳ）、処理はステップＳ１１６に移行する。一方、音声処理装置１Ａがクラウドサーバ２から前記コマンド応答を受信しない場合（Ｓ１０１：ＮＯ）、処理はステップＳ１０２に移行する。

ステップＳ１０２において、制御部１１は、マイク１４による音声の入力を開始したか否かを判定する。例えば、会議室Ａのユーザが発話を開始することにより音声の入力が開始された場合（Ｓ１０２：ＹＥＳ）、処理はステップＳ１０３に移行する。音声の入力が開始されない場合（Ｓ１０２：ＮＯ）、処理はステップＳ１０１に戻る。

ステップＳ１０３において、制御部１１は、送信モードがコマンド送信モードであるか否かを判定する。送信モードがコマンド送信モードである場合（Ｓ１０３：ＹＥＳ）、処理はステップＳ１１２に移行する。一方、送信モードがコマンド送信モードでない場合（Ｓ１０３：ＮＯ）、処理はステップＳ１０４に移行する。

ステップＳ１０４において、制御部１１は、カメラ１５により撮像された撮像画像を取得し、画像認識を行ってユーザを認識する。ここでは、制御部１１は、撮像画像に基づいて、会議室Ａ（図１参照）にいる４人のユーザを認識する。

次にステップＳ１０５において、制御部１１は、入力された音声を認識する。例えば、制御部１１は、音声データをテキストデータに変換する音声認識処理を実行する。

次にステップＳ１０６において、制御部１１は、認識した音声が前記特定ワードであるか否かを判定する音声判定処理を実行する。図５は、前記音声判定処理の手順の一例を示すフローチャートである。

図５に示すステップＳ２１において、制御部１１は、前記音声が前記特定ワードと一致するか否かを判定する。例えば、制御部１１は、前記音声のテキストデータと前記特定ワードとを比較して両者が一致するか否かを判定する。前記音声が前記特定ワードと一致する場合（Ｓ２１：ＹＥＳ）、処理はステップＳ２２に移行する。一方、前記音声が前記特定ワードと一致しない場合（Ｓ２１：ＮＯ）、処理はステップＳ３０に移行する。

ステップＳ２２において、制御部１１は、撮像画像において、前記音声を受信した方向にユーザがいるか否かを判定する。前記音声を受信した方向にユーザがいる場合（Ｓ２２：ＹＥＳ）、処理はステップＳ２３に移行する。一方、前記音声を受信した方向にユーザがいない場合（Ｓ２２：ＮＯ）、処理はステップＳ３０に移行する。

ステップＳ２３において、制御部１１は、未抽出の話者候補が一人以上いるか否かを判定する。未抽出の話者候補が一人以上いる場合（Ｓ２３：ＹＥＳ）、処理はステップＳ２４に移行する。未抽出の話者候補が一人以上いない場合（Ｓ２３：ＮＯ）、処理はステップＳ３０に移行する。

ステップＳ２４において、制御部１１は、撮像画像に含まれる話者候補のうち任意の一人のユーザを抽出する。

ステップＳ２５において、制御部１１は、抽出したユーザが前記所定範囲内にいるか否かを判定する。ステップＳ２５は、前記第１の方法に対応する。抽出したユーザが前記所定範囲内にいる場合（Ｓ２５：ＹＥＳ）、処理はステップＳ２６に移行する。一方、抽出したユーザが前記所定範囲内にいない場合（Ｓ２５：ＮＯ）、処理はステップＳ２３に戻る。

ステップＳ２６において、制御部１１は、抽出したユーザが正面を向いているか否か、すなわち当該ユーザの顔の方向又は視線がカメラ１５に向けられているか否かを判定する。ステップＳ２６は、前記第２の方法に対応する。抽出したユーザが正面を向いている場合（Ｓ２６：ＹＥＳ）、処理はステップＳ２７に移行する。一方、抽出したユーザが正面を向いていない場合（Ｓ２６：ＮＯ）、処理はステップＳ２３に戻る。

ステップＳ２７において、制御部１１は、抽出したユーザがユーザ情報Ｄ１（図３参照）に登録されているか否かを判定する。ステップＳ２７は、前記第３の方法に対応する。抽出したユーザがユーザ情報Ｄ１に登録されている場合（Ｓ２７：ＹＥＳ）、処理はステップＳ２８に移行する。一方、抽出したユーザがユーザ情報Ｄ１に登録されていない場合（Ｓ２７：ＮＯ）、処理はステップＳ２３に戻る。

ステップＳ２８において、制御部１１は、抽出したユーザの口の動きと、前記音声を受信したタイミングとが一致するか否かを判定する。ステップＳ２８は、前記第４の方法に対応する。抽出したユーザの口の動きと前記音声を受信したタイミングとが一致する場合（Ｓ２８：ＹＥＳ）、処理はステップＳ２９に移行する。一方、抽出したユーザの口の動きと前記音声を受信したタイミングとが一致しない場合（Ｓ２８：ＮＯ）、処理はステップＳ２３に戻る。

ステップＳ２９において、制御部１１は、前記ユーザを発話者として特定し、前記音声が前記特定ワードであると判定する。一方、ステップＳ３０において、制御部１１は、前記音声が前記特定ワードでないと判定する。制御部１１は、以上のようにして前記音声判定処理を実行する。なお、上述の処理では、前記第１の方法から前記第４の方法の全てを用いて音声判定処理を実行しているが、本発明はこれに限定されず、前記第１の方法から前記第４の方法の少なくともいずれか一つを用いて音声判定処理を実行してもよい。

前記音声判定処理が終了すると、制御部１１は、図４に示すステップＳ１０７において、前記音声が前記特定ワードであるか否かを判定する。前記音声が前記特定ワードである場合（Ｓ１０７：ＹＥＳ）、処理はステップＳ１０９に移行する。一方、前記音声が前記特定ワードでない場合（Ｓ１０７：ＮＯ）、処理はステップＳ１０８に移行する。

ステップＳ１０８において、制御部１１は、前記音声を音声処理装置１Ｂに送信する。ここでは、前記音声は、例えば会議の議題に対する会話の音声である。ステップＳ１０８の後、前記音声処理は終了する。

ステップＳ１０９において、制御部１１は、送信モードをコマンド送信モードに設定する。

ステップＳ１１０において、制御部１１は、マイク１４の指向性を前記発話者の方向に調整する。

ステップＳ１１１において、制御部１１は、コマンド送信モードを示す情報（ＬＥＤ）を音声処理装置１Ａに表示する。ステップＳ１１１の後、前記音声処理は終了する。

ここで、ステップＳ１０３で送信モードがコマンド送信モードである場合（Ｓ１０３：ＹＥＳ）、ステップＳ１１２において、制御部１１は、音声入力を受け付ける。ここでの音声は、コマンド音声である。

次にステップＳ１１３において、制御部１１は、前記コマンド音声をクラウドサーバ２に送信する。このように、前記コマンド音声は、音声処理装置１Ｂに送信されず、クラウドサーバ２に送信される。

次にステップＳ１１４において、制御部１１は、送信モードをコマンド送信モードから音声送信モードに切り替える。

次にステップＳ１１５において、制御部１１は、音声送信モードを示す情報（ＬＥＤ）を音声処理装置１Ａに表示する。ステップＳ１１５の後、前記音声処理は終了する。

また、ステップＳ１０１で音声処理装置１Ａがクラウドサーバ２から前記コマンド応答を受信した場合（Ｓ１０１：ＹＥＳ）、ステップＳ１１６において、制御部１１は、前記コマンド応答をスピーカ１３から出力する。ステップＳ１１６の後、前記音声処理は終了する。なお、音声処理装置１Ａは、コマンド音声を連続して受け付け可能に構成されてもよい。例えば、前記コマンド応答に連続受付を許可する情報が含まれる場合、制御部１１は、ステップＳ１１６の後、送信モードをコマンド送信モードに設定して、引き続きユーザからコマンド音声を受け付ける。この場合、制御部１１は、コマンド送信モードを示す情報を引き続き音声処理装置１Ａに表示する。

以上のようにして、前記音声処理が実行される。以上のように、本発明の実施形態に係る音声処理装置１は、ユーザが発話した音声が特定ワード（起動ワード）である場合に、コマンドの受け付けを開始して、受け付けたコマンド音声をクラウドサーバ２に送信する。また音声処理装置１は、前記コマンド音声を他の音声処理装置１等の外部機器に送信しない。一方、音声処理装置１は、ユーザが発話した音声が特定ワードでない場合には、当該音声を外部機器に送信する。また、音声処理装置１は、ユーザが発話した音声が特定ワードと一致する場合であっても、当該ユーザの撮像画像において、当該ユーザがコマンドの実行を指示するために発話した音声ではないと判断した場合（例えば顔画像が正面を向いていない場合）には、当該ユーザが発話した音声は特定ワードでないと判定し、当該音声を外部機器に送信する。これにより、ユーザの会話を妨げることなく、かつユーザが意図しないコマンドの実行を防ぐことが可能となる。また、本実施形態に係る会議システム１００によれば、リモート会議において、会話の音声を適切に遠隔地に伝達することができ、かつ、ユーザが意図するコマンドを適切に実行させることができる。

１：音声処理装置
２：クラウドサーバ
１１：制御部
１２：記憶部
１３：スピーカ
１４：マイク
１５：カメラ
１６：通信インターフェース
２１：制御部
２２：記憶部
２３：通信インターフェース
１００：会議システム
１１１：音声受信部
１１２：画像取得部
１１３：話者特定部
１１４：音声判定部
１１５：音声送信部
１１６：表示処理部
１１７：調整処理部
１１８：応答処理部
２１１：音声受信部
２１２：コマンド判定部
２１３：コマンド処理部

Claims

音声を受信する音声受信部と、
前記音声受信部より受信される前記音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定する音声判定部と、
前記音声判定部による判定結果に基づいて、前記音声受信部より受信される前記音声を前記所定のコマンドを実行するサーバ装置に送信する第１送信モードと、前記音声受信部より受信される前記音声を所定の外部機器に送信する第２送信モードとを切り替える音声送信部と、
前記サーバ装置において実行される前記コマンドに対応する応答を当該サーバ装置から取得し、当該応答を出力する応答処理部と、
を備え、
前記音声送信部は、前記第１送信モードにおいて前記サーバ装置から取得される前記コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれる場合に前記第１送信モードを維持し、前記第１送信モードにおいて前記サーバ装置から取得される前記コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれない場合に前記第２送信モードに切り替える、音声処理装置。
撮像部により撮像される撮像画像を取得する画像取得部と、
前記音声受信部より受信される前記音声と、前記画像取得部により取得される前記撮像画像とに基づいて、発話者を特定する話者特定部と、
をさらに備え、
前記音声判定部は、前記音声受信部より受信される前記音声と、前記撮像画像に含まれる前記話者特定部により特定される前記発話者の画像とに基づいて、当該音声が前記特定ワードであるか否かを判定する、
請求項１に記載の音声処理装置。
前記音声送信部は、前記音声判定部により前記音声受信部より受信された前記音声が前記特定ワードであると判定された場合に前記第１送信モードに切り替え、前記第１送信モードにおいて当該音声を前記サーバ装置に送信した後に前記第２送信モードに切り替える、
請求項１又は２に記載の音声処理装置。
前記話者特定部は、前記音声受信部より受信される前記音声を受信した方向に含まれる前記撮像画像から抽出される発話候補者が予め記憶されたユーザ情報に登録されているか否かを判定し、当該発話候補者が前記ユーザ情報に登録されている場合に当該発話候補者を前記発話者として特定する、
請求項２に記載の音声処理装置。
前記話者特定部は、前記音声受信部より受信される前記音声を受信した方向に含まれる前記撮像画像から抽出される発話候補者の口の動きと、前記音声受信部が前記音声を受信するタイミングとが一致するか否かを判定し、当該口の動きと前記音声を受信するタイミングとが一致する場合に、当該発話候補者を前記発話者として特定する、
請求項２に記載の音声処理装置。
前記音声判定部により、前記音声受信部より受信される前記音声が前記特定ワードであると判定された場合に、前記音声送信部は、前記音声受信部が前記特定ワードの次に受信する音声をコマンド音声として前記サーバ装置に送信する、
請求項１～５のいずれかに記載の音声処理装置。
前記音声判定部により、前記音声受信部より受信される前記音声が前記特定ワードでないと判定された場合に、前記音声送信部は、当該音声を所定の外部機器に送信する、
請求項１～６のいずれかに記載の音声処理装置。
前記音声判定部は、前記音声受信部より受信される前記音声が前記特定ワードと一致し、かつ、前記撮像画像に含まれる前記発話者の顔の方向又は視線が前記撮像部に向けられている場合に、前記音声受信部より受信される前記音声が前記特定ワードであると判定する、
請求項２に記載の音声処理装置。
ネットワークを介して互いに接続される第１音声処理装置及び第２音声処理装置を含み、前記第１音声処理装置で受信する音声を前記第２音声処理装置に送信し、前記第２音声処理装置で受信する音声を前記第１音声処理装置に送信することが可能な会議システムであって、
前記第１音声処理装置は、
音声を受信する音声受信部と、
前記音声受信部より受信される前記音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定する音声判定部と、
前記音声判定部による判定結果に基づいて、前記音声受信部より受信される前記音声を前記所定のコマンドを実行するサーバ装置に送信する第１送信モードと、前記音声受信部より受信される前記音声を前記第２音声処理装置に送信する第２送信モードとを切り替える音声送信部と、
前記サーバ装置において実行される前記コマンドに対応する応答を当該サーバ装置から取得し、当該応答を出力する応答処理部と、
を備え、
前記音声送信部は、前記第１送信モードにおいて前記サーバ装置から取得される前記コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれる場合に前記第１送信モードを維持し、前記第１送信モードにおいて前記サーバ装置から取得される前記コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれない場合に前記第２送信モードに切り替える、会議システム。
前記第２音声処理装置は、前記第２送信モードにおいて、前記第１音声処理装置から受信する前記音声を出力する、
請求項９に記載の会議システム。
音声を受信することと、
受信される前記音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定することと、
判定結果に基づいて、受信される前記音声を前記所定のコマンドを実行するサーバ装置に送信する第１送信モードと、受信される前記音声を所定の外部機器に送信する第２送信モードとを切り替えることと、
前記サーバ装置において実行される前記コマンドに対応する応答を当該サーバ装置から取得し、当該応答を出力することと、
前記第１送信モードにおいて前記サーバ装置から取得される前記コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれる場合に前記第１送信モードを維持し、前記第１送信モードにおいて前記サーバ装置から取得される前記コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれない場合に前記第２送信モードに切り替えることと、
を一又は複数のプロセッサーが実行する音声処理方法。