JP7427408B2

JP7427408B2 - 情報処理装置、情報処理方法、及び情報処理プログラム

Info

Publication number: JP7427408B2
Application number: JP2019184431A
Authority: JP
Inventors: 智寺田; 慶子蛭川; 洋介大崎
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2019-10-07
Filing date: 2019-10-07
Publication date: 2024-02-05
Anticipated expiration: 2039-10-07
Also published as: JP2021061527A; US20210105437A1

Description

本発明は、会議に利用可能な情報処理装置、情報処理方法、及び情報処理プログラムに関する。

従来、互いに離れた場所においてネットワークを介して音声、映像、ファイルなどを送受信して行う会議システムが知られている。例えば特許文献１には、会議参加者の顔をカメラにより撮影し、撮像した顔画像に基づいて発話者を特定し、特定した発話者を選択的に撮影したり、特定した発話者の音声を選択的に集音したりする技術が開示されている。

特開２０１０－５５３７５号公報

しかしながら、従来の技術では、例えば、発話者がいる会議室Ｒ１とは別の会議室Ｒ２（遠隔地など）に設置されるディスプレイに、発話者の顔画像を表示することはできるが、発話者の相手方の顔画像や発話者が説明する対象の物体（商品など）などを表示することは困難である。このため、会議の参加者が会議内容を理解し難いという問題が生じる。

本発明の目的は、会議の参加者が会議内容を容易に理解することが可能な情報処理装置、情報処理方法、及び情報処理プログラムを提供することにある。

本発明の一の態様に係る情報処理装置は、撮像部により撮像される撮像画像を取得する画像取得部と、発話者を特定する話者特定部と、前記画像取得部により取得される前記撮像画像から、前記話者特定部により特定される前記発話者に対応する表示対象を特定する表示対象特定部と、前記表示対象特定部により特定される前記表示対象に対応する表示情報を第１表示部に表示させる表示処理部と、を備える。

本発明の他の態様に係る情報処理方法は、撮像部により撮像される撮像画像を取得する画像取得ステップと、発話者を特定する話者特定ステップと、前記画像取得ステップにより取得される前記撮像画像から、前記話者特定ステップにより特定される前記発話者に対応する表示対象を特定する表示対象特定ステップと、前記表示対象特定ステップにより特定される前記表示対象に対応する表示情報を第１表示部に表示させる表示ステップと、を一又は複数のプロセッサーにより実行する情報処理方法である。

本発明の他の態様に係る情報処理プログラムは、撮像部により撮像される撮像画像を取得する画像取得ステップと、発話者を特定する話者特定ステップと、前記画像取得ステップにより取得される前記撮像画像から、前記話者特定ステップにより特定される前記発話者に対応する表示対象を特定する表示対象特定ステップと、前記表示対象特定ステップにより特定される前記表示対象に対応する表示情報を第１表示部に表示させる表示ステップと、を一又は複数のプロセッサーに実行させるための情報処理プログラムである。

本発明によれば、会議の参加者が会議内容を容易に理解することが可能な情報処理装置、情報処理方法、及び情報処理プログラムが提供される。

図１は、本発明の実施形態に係る会議システムの概略構成を示す図である。図２は、本発明の実施形態に係る情報処理装置の構成を示す機能ブロック図である。図３は、本発明の実施形態に係る情報処理装置において撮像される撮像画像の一例を示す図である。図４は、本発明の実施形態に係る会議システムにおいて発話者の視線方向の一例を示す図である。図５は、本発明の実施形態に係る情報処理装置において撮像される撮像画像の一例を示す図である。図６は、本発明の実施形態に係る表示装置の表示画面の一例を示す図である。図７は、本発明の実施形態に係る表示装置の表示画面の一例を示す図である。図８は、本発明の実施形態に係る表示装置の表示画面の一例を示す図である。図９は、本発明の実施形態に係る情報処理装置における表示制御処理の手順の一例を説明するためのフローチャートである。図１０は、本発明の実施形態に係る情報処理装置における表示制御処理の手順の一例を説明するためのフローチャートである。

以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。

本発明に係る情報処理装置は、複数のユーザが参加する会議、遠隔地をネットワーク接続して複数のユーザが参加するリモート会議などに適用することができる。また、前記情報処理装置は、カメラ装置であってもよいし、カメラ機能と、音声コマンドを実行する機能と、ユーザ間で通話可能な通話機能とを備えた機器であってもよい。以下の実施形態では、前記情報処理装置がリモート会議に適用される場合を例に挙げて説明する。前記リモート会議では、例えば、それぞれの遠隔地（会議室）に前記情報処理装置が設置され、一方の会議室の前記情報処理装置がユーザの発話した音声を受信して、他方の会議室の前記情報処理装置に送信することにより、各会議室のユーザ同士の会話を可能にする。また、一方の会議室の前記情報処理装置が撮像した撮像画像を、他方の会議室に設置された表示装置（ディスプレイ）に表示させる。また、前記情報処理装置は、各会議室において、ユーザからコマンド音声を受信して、所定のコマンドを実行するクラウドサーバ（不図示）に送信する。

図１は、本発明の実施形態に係る会議システムの概略構成を示す図である。会議システム１００は、１又は複数の情報処理装置１と、１又は複数の表示装置２とを含んでいる。情報処理装置１Ａ，１Ｂのそれぞれは、カメラ、マイク及びスピーカを備えた機器である。情報処理装置１Ａ，１Ｂのそれぞれは、例えば、カメラ機能を備えたＡＩスピーカ、スマートスピーカなどであってもよい。ここでは、会議室Ｒ１に設置された情報処理装置１Ａと、会議室Ｒ２に設置された情報処理装置１Ｂとを示している。表示装置２Ａ，２Ｂのそれぞれは、各種情報を表示するディスプレイである。情報処理装置１Ａ，１Ｂと表示装置２Ａ，２Ｂとは、ネットワークＮ１を介して互いに接続されている。ネットワークＮ１は、インターネット、ＬＡＮ、ＷＡＮ、又は公衆電話回線などの通信網である。情報処理装置１Ａ，１Ｂは、本発明の情報処理装置の一例である。

以下、会議システム１００の具体的な構成について説明する。なお、以下の説明では、情報処理装置１Ａ，１Ｂを区別しない場合は情報処理装置１と称し、表示装置２Ａ，２Ｂを区別しない場合は表示装置２と称す。情報処理装置１Ａ，１Ｂは同一の構成を備える。以下では、情報処理装置１Ａを例に挙げて説明する。

図２に示すように、情報処理装置１Ａは、制御部１１、記憶部１２、スピーカ１３、マイク１４、カメラ１５、及び通信インターフェース１６などを備える。情報処理装置１Ａは、例えば図１に示すように会議室Ｒ１の机の中央付近に配置され、会議に参加するユーザの顔をカメラ１５により撮影したり、当該ユーザ（発話者）の音声をマイク１４を介して取得したり、当該ユーザに対してスピーカ１３から音声を出力したりする。

カメラ１５は、被写体の画像を撮像してデジタル画像データとして出力するデジタルカメラである。例えばカメラ１５は、情報処理装置１Ａの上部に設けられ、情報処理装置１Ａの周囲３６０度の範囲を撮像可能である。ここでは、カメラ１５は、会議室Ｒ１の室内全体を撮像する。カメラ１５は、本発明の撮像部の一例である。

通信インターフェース１６は、情報処理装置１Ａを有線又は無線でネットワークＮ１に接続し、ネットワークＮ１を介して他の機器（例えば情報処理装置１Ｂ、表示装置２Ａ，２Ｂ）との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。

記憶部１２は、各種の情報を記憶するフラッシュメモリー、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などの不揮発性の記憶部である。

具体的に、記憶部１２には、カメラ１５により撮像される撮像画像データ、マイク１４により集音される音声データなどのデータが記憶される。また、記憶部１２に、表示装置２Ａ，２Ｂに表示される画像（資料など）の表示データが記憶されてもよい。なお、これらのデータは、ネットワークＮ１に接続されるデータサーバ（不図示）に記憶されてもよい。

また、記憶部１２には、制御部１１に後述の表示制御処理（図９、図１０参照）を実行させるための表示制御プログラムなどの制御プログラムが記憶されている。例えば、前記表示制御プログラムは、ＵＳＢ、ＣＤ又はＤＶＤなどのコンピュータ読取可能な記録媒体に非一時的に記録され、情報処理装置１Ａが備える読取装置（不図示）で読み取られて記憶部１２に記憶される。

制御部１１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサーである。前記ＲＯＭは、前記ＣＰＵに各種の処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムを予め記憶する。前記ＲＡＭは、各種の情報を記憶し、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部１１は、前記ＲＯＭ又は記憶部１２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することにより情報処理装置１Ａを制御する。

具体的に、制御部１１は、音声受信部１１１、画像取得部１１２、話者特定部１１３、表示対象特定部１１４、表示処理部１１５などの各種の処理部を含む。なお、制御部１１は、前記ＣＰＵで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部１１に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記表示制御プログラムは、複数のプロセッサーを前記各種の処理部として機能させるためのプログラムであってもよい。

音声受信部１１１は、情報処理装置１Ａを利用するユーザが発話した音声を受信する。音声受信部１１１は、本発明の音声受信部の一例である。ユーザは、例えば、会議の内容（議題）に関する音声、情報処理装置１Ａがコマンドの受け付けを開始するための特定ワード（起動ワード、ウェイクアップワードともいう。）の音声、情報処理装置１Ａに指示する各種コマンドの音声（コマンド音声）などを発話する。例えば図１に示すように、音声受信部１１１は、会議室Ｒ１において会議に参加するユーザＡ，Ｂ，Ｃが発話する各種音声を受信する。

画像取得部１１２は、カメラ１５により撮像された撮像画像を取得する。画像取得部１１２は、本発明の画像取得部の一例である。例えば、図１に示す会議室Ｒ１において、カメラ１５により、情報処理装置１Ａの周囲３６０度の範囲に含まれるユーザＡ，Ｂ，Ｃと表示装置２Ａとが撮像された場合、画像取得部１１２は、ユーザＡ，Ｂ，Ｃと表示装置２Ａとを含む撮像画像Ｐ１（図３参照）を取得する。

話者特定部１１３は、発話したユーザ（発話者）を特定する。話者特定部１１３は、本発明の話者特定部の一例である。具体的には、話者特定部１１３は、画像取得部１１２により取得された撮像画像Ｐ１に基づいて発話者を特定する。例えば、話者特定部１１３は、撮像画像Ｐ１に含まれるユーザＡ，Ｂ，Ｃの顔及び口の動きに基づいて発話者を特定する。

話者特定部１１３は、音声受信部１１１より受信された前記音声と撮像画像Ｐ１とに基づいて発話者を特定してもよい。例えば、話者特定部１１３は、マイク１４による集音方向に基づいて前記音声を受信した方向（発話者の方向）を特定し、当該方向に含まれる撮像画像Ｐ１に基づいて発話者を特定する。例えば、前記方向に含まれる撮像画像Ｐ１にユーザが含まれる場合、話者特定部１１３は、当該ユーザを発話者として特定する。これにより、発話者を正確に特定することが可能となる。

表示対象特定部１１４は、画像取得部１１２により取得された撮像画像Ｐ１から、話者特定部１１３により特定された前記発話者に対応する表示対象を特定する。表示対象特定部１１４は、本発明の表示対象特定部の一例である。前記表示対象は、例えば、前記発話者がいる会議室Ｒ１とは異なる会議室Ｒ２に設置された表示装置２Ｂに表示される表示対象であり、ユーザＡ，Ｂ，Ｃ（人物）、表示装置２Ａの表示画面、会議室Ｒ１に配置された物体（議題の対象となる商品、資料など）などである。すなわち、前記表示対象は、発話者の相手方の人物、説明に対する対象物などである。

具体的には、表示対象特定部１１４は、撮像画像Ｐ１に基づいて前記発話者の視線方向を特定し、特定した前記視線方向に基づいて撮像画像Ｐ１から前記表示対象を特定する。表示対象特定部１１４は、周知の技術により前記視線方向を特定することが可能である。図１及び図３には、話者特定部１１３により前記発話者として特定されたユーザＡの視線方向Ｘの一例を示している。表示対象特定部１１４は、図３に示す撮像画像Ｐ１に基づいてユーザＡの視線方向Ｘを特定する。そして、表示対象特定部１１４は、撮像画像Ｐ１において、特定した視線方向Ｘに位置するユーザＢを前記表示対象として特定する。

図４及び図５には、話者特定部１１３により前記発話者として特定されたユーザＡの視線方向Ｘの他の例を示している。表示対象特定部１１４は、図５に示す撮像画像Ｐ１に基づいてユーザＡの視線方向Ｘを特定する。そして、表示対象特定部１１４は、撮像画像Ｐ１において、特定した視線方向Ｘに位置する表示装置２Ａの表示画面を前記表示対象として特定する。なお、表示装置２Ａの表示画面には、例えば、会議の議題に関する資料（ファイル）の情報（表示内容Ｄ１）が表示されている。ここでは、例えばユーザＡは、表示装置２Ａの表示画面を見ながら表示内容Ｄ１について説明を行っている。

他の例として、発話者の視線方向Ｘに例えば商品（物体）がある場合、表示対象特定部１１４は、撮像画像Ｐ１において、前記商品を前記表示対象として特定する。

表示処理部１１５は、表示対象特定部１１４により特定された前記表示対象に対応する表示情報を表示装置２Ａ，２Ｂに表示させる。表示処理部１１５は、本発明の表示処理部の一例である。

また、表示処理部１１５は、前記表示情報の領域を特定する。例えば、表示対象特定部１１４が前記表示対象としてユーザＢを特定した場合、表示処理部１１５は、ユーザＡの顔を中心とした所定領域と、ユーザＢの顔を中心とした所定領域とを特定する。また例えば、表示対象特定部１１４が前記表示対象として表示装置２Ａの表示画面を特定した場合、表示処理部１１５は、前記表示画面全体の領域を特定する。また例えば、表示対象特定部１１４が前記表示対象として物体（商品）を特定した場合、表示処理部１１５は、物体全体の領域を特定する。表示処理部１１５は、前記表示情報の領域を特定すると、例えば以下に示すように、前記表示情報を表示装置２Ａ，２Ｂに表示させる。表示装置２Ａ，２Ｂは本発明の第１表示部の一例である。また、表示装置２Ａ，２Ｂは本発明の第１表示部の一例である。また、表示装置２Ｂは本発明の第１表示部の一例であり、表示装置２Ａは本発明の第２表示部の一例である。

表示処理部１１５は、前記表示情報に対応するデータ（画像データ、表示データなど）を表示装置２Ｂ又は情報処理装置１Ｂに送信する。表示装置２Ｂが情報処理装置１Ａから前記データを受信して前記表示情報を表示してもよいし、情報処理装置１Ｂが情報処理装置１Ａから前記データを受信して前記表示情報を表示装置２Ｂに表示させてもよい。

例えば、表示対象特定部１１４が前記表示対象としてユーザＢを特定した場合、表示処理部１１５は、図６に示すように、前記発話者であるユーザＡの顔画像Ｐ２と、表示対象特定部１１４により特定されたユーザＢの顔画像Ｐ３とを、表示装置２Ｂ（本発明の第１表示部の一例）に並べて表示させる。なお、表示処理部１１５は、顔画像Ｐ２，Ｐ３に加えて、さらに撮像画像Ｐ１を表示装置２Ｂに表示させてもよい。これにより、会議室Ｒ２の参加者（ユーザＤ，Ｅ，Ｆ）は、会議室Ｒ１でユーザＡがユーザＢに対して発言していることを認識することができる。また、ユーザＡの発言の後にユーザＢが発言することを予想することができる。なお、この場合、情報処理装置１Ｂは、音声受信部１１１が受信したユーザＡの音声を、情報処理装置１Ａから取得して会議室Ｒ２において出力する。また、会議室Ｒ１の表示装置２Ａは、顔画像Ｐ２，Ｐ３に加えて、会議室Ｒ２内のユーザＤ，Ｅ，Ｆ、表示装置２Ｂを撮像した撮像画像を表示する。

図６に示す例において、制御部１１は、さらに、表示対象特定部１１４により特定されたユーザＢの音声を集音し易いように、ビームフォーミング技術等により、マイク１４の指向性（パラメータ）をユーザＢの方向に設定（調整）してもよい。これにより、ユーザＡの次に発話する可能性の高いユーザＢの音声を適切に取得することが可能となる。

また例えば、表示対象特定部１１４が前記表示対象として表示装置２Ａの表示画面を特定した場合、表示処理部１１５は、図７に示すように、表示対象特定部１１４により特定された前記表示画面全体の表示内容Ｄ１を、表示装置２Ｂ（本発明の第１表示部の一例）に表示させる。ここで、表示処理部１１５は、前記表示画面全体の撮像画像を表示装置２Ｂに表示させてもよいが、表示内容Ｄ１に対応する表示データに基づいて表示内容Ｄ１を表示装置２Ｂに表示させることが望ましい。これにより、表示装置２Ａ，２Ｂに表示される表示内容Ｄ１の画質を統一することができる。なお、表示装置２Ｂが情報処理装置１Ａから前記表示データを受信して表示内容Ｄ１を表示してもよいし、情報処理装置１Ｂが情報処理装置１Ａから前記表示データを受信して表示内容Ｄ１を表示装置２Ｂに表示させてもよい。これにより、会議室Ｒ２の参加者（ユーザＤ，Ｅ，Ｆ）は、会議室Ｒ１でユーザＡが説明している内容（資料）を容易に認識することができる。なお、この場合、情報処理装置１Ｂは、音声受信部１１１が受信したユーザＡの音声を、情報処理装置１Ａから取得して会議室Ｒ２において出力する。また、この場合、表示処理部１１５は、ユーザＡの顔画像Ｐ２を表示装置２Ｂに表示させなくてもよい。

また例えば、表示対象特定部１１４が前記表示対象として会議室Ｒ１に置かれた商品（物体）を特定した場合、表示処理部１１５は、表示対象特定部１１４により特定された商品全体の画像を、表示装置２Ｂ（本発明の第１表示部の一例）に表示させる。これにより、会議室Ｒ２の参加者（ユーザＤ，Ｅ，Ｆ）は、会議室Ｒ１でユーザＡが説明している商品を容易に認識することができる。なお、この場合、情報処理装置１Ｂは、音声受信部１１１が受信したユーザＡの音声を、情報処理装置１Ａから取得して会議室Ｒ２において出力する。また、この場合、表示処理部１１５は、ユーザＡの顔画像Ｐ２を表示装置２Ｂに表示させなくてもよい。

また、表示処理部１１５は、さらに、表示対象特定部１１４により特定された前記表示対象に応じた特定情報を表示装置２Ｂに表示させてもよい。例えば図８に示すように、表示処理部１１５は、ユーザＡの顔画像Ｐ２の近傍にユーザＡの属性に応じた特定情報Ｓ１（例えば「営業担当」）を表示させ、ユーザＢの顔画像Ｐ３の近傍にユーザＢの属性に応じた特定情報Ｓ１（例えば「開発担当」）を表示させる。前記表示対象が前記表示画面（図７参照）の場合、表示処理部１１５は、前記特定情報として、例えば表示内容Ｄ１のタイトル（資料名、ファイル名など）を表示させる。また前記表示対象が前記商品の場合、表示処理部１１５は、前記特定情報として、例えば商品名を表示させる。

［表示制御処理］
以下、図９を参照しつつ、情報処理装置１の制御部１１によって実行される表示制御処理の手順の一例について説明する。ここでは、図１に示す会議システム１００において、情報処理装置１Ａに着目して前記表示制御処理を説明する。例えば、情報処理装置１Ａの制御部１１は、ユーザの音声を受信することにより前記表示制御プログラムの実行を開始することによって、前記表示制御処理の実行を開始する。なお、前記表示制御処理は、情報処理装置１Ａ，１Ｂのそれぞれにおいて、個別に並行して実行される。

なお、本発明は、前記表示制御処理に含まれる一又は複数のステップを実行する表示制御処理方法の発明として捉えることができる。また、ここで説明する前記表示制御処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記表示制御処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部１１によって前記表示制御処理における各ステップが実行される場合を例に挙げて説明するが、他の実施形態では、複数のプロセッサーによって前記表示制御処理における各ステップが分散して実行されてもよい。

先ず、ステップＳ１１において、制御部１１は、カメラ１５により撮像された撮像画像を取得する。ここでは、制御部１１は、会議室Ｒ１（図１参照）にいる３人のユーザＡ，Ｂ，Ｃ及び表示装置２Ａを含む撮像画像Ｐ１（図２参照）を取得する。ステップＳ１１は、本発明の画像取得ステップの一例である。

次に、ステップＳ１２において、制御部１１は、発話者を特定する。例えば、制御部１１は、撮像画像Ｐ１に含まれるユーザＡ，Ｂ，Ｃの顔及び口の動き等に基づいて発話者を特定する。ここでは、発話者としてユーザＡが特定されたものとする。ステップＳ１２は、本発明の話者特定ステップの一例である。

次に、ステップＳ１３において、制御部１１は、発話者の視線方向を特定する。例えば、制御部１１は、撮像画像Ｐ１に基づいてユーザＡの視線方向Ｘを特定する。

次に、ステップＳ１４において、制御部１１は、前記視線方向に基づいて前記表示対象を特定する。具体的には、制御部１１は、前記表示対象が人物であるか否かを判定する。例えば、制御部１１は、撮像画像Ｐ１において、特定した視線方向Ｘに位置する前記表示対象（オブジェクト画像）が人物であるか否かを判定する。前記表示対象が人物である場合（Ｓ１４：Ｙｅｓ）、処理はステップＳ１５に移行する。前記表示対象が人物でない場合（Ｓ１４：Ｎｏ）、処理はステップＳ１６に移行する。図３に示す例では、制御部１１は、前記表示対象が人物であると判定する。

ステップＳ１５において、制御部１１は、発話者の顔を中心とした所定領域と、前記表示対象として特定した人物の顔を中心とした所定領域とを特定する。ここでは、制御部１１は、発話者であるユーザＡに対応する所定領域と、前記表示対象であるユーザＢに対応する所定領域とを特定する。そして、制御部１１は、特定した所定領域に対応する画像を表示装置２Ａ，２Ｂに表示させる。例えば、図６に示すように、制御部１１は、ユーザＡの顔画像Ｐ２とユーザＢの顔画像Ｐ３とを表示装置２Ｂに表示させる。

ステップＳ１６において、制御部１１は、前記視線方向に基づいて特定した前記表示対象が表示画面であるか否かを判定する。例えば、制御部１１は、撮像画像Ｐ１において、特定した視線方向Ｘに位置する前記表示対象（オブジェクト画像）が表示装置２Ａの表示画面であるか否かを判定する。前記表示対象が表示画面である場合（Ｓ１６：Ｙｅｓ）、処理はステップＳ１７に移行する。前記表示対象が表示画面でない場合（Ｓ１６：Ｎｏ）、処理はステップＳ１８に移行する。図５に示す例では、制御部１１は、前記表示対象が表示画面であると判定する。ステップＳ１４，Ｓ１６は、本発明の表示対象特定ステップの一例である。

ステップＳ１７において、制御部１１は、表示装置２Ａの表示画面全体の領域を特定する。そして、制御部１１は、特定した表示画面全体の表示内容を表示装置２Ｂに表示させる。例えば、図７に示すように、制御部１１は、表示装置２Ａの表示画面に表示された表示内容Ｄ１に対応する表示データを情報処理装置１Ｂに送信して、表示内容Ｄ１を表示装置２Ｂに表示させる表示処理を情報処理装置１Ｂに実行させる。

ステップＳ１８において、制御部１１は、前記視線方向に基づいて特定した前記表示対象である物体（商品など）の全体の領域を特定する。そして、制御部１１は、特定した物体全体の画像を表示装置２Ｂに表示させる。

ステップＳ１５，Ｓ１７，Ｓ１８のそれぞれの処理が終了すると、上述の表示制御処理を繰り返す。ステップＳ１５，Ｓ１７，Ｓ１８は、本発明の表示ステップの一例である。

以上のように、本発明の実施形態に係る情報処理装置１は、カメラ１５により撮像された撮像画像から発話者に対応する表示対象（発話者の相手方人物、表示画面、物体など）を特定し、特定した前記表示対象に対応する表示情報（顔画像、表示内容など）を表示装置２に表示させる。これにより、例えば遠隔地で会議に参加する参加者は、遠隔地の表示装置２において発話者の意図した情報を視認することができるため、会議内容を容易に理解することが可能となる。

本発明の情報処理装置は、上述の実施形態に限定されず、以下の示す実施形態を適用することもできる。

他の実施形態に係る情報処理装置１において、表示対象特定部１１４は、音声受信部１１１により受信される発話者の音声に対応する発話内容に基づいて撮像画像Ｐ１から前記表示対象を特定する。例えば、前記発話内容にユーザＢの識別情報（名前など）が含まれる場合、表示対象特定部１１４は、撮像画像Ｐ１から前記表示対象としてユーザＢを特定する。

また例えば、前記発話内容に表示装置２Ａに表示された表示内容Ｄ１に関するキーワード（議題、資料名など）が含まれる場合、表示対象特定部１１４は、撮像画像Ｐ１から前記表示対象として表示装置２Ａの表示画面を特定する。

また例えば、前記発話内容に会議室Ｒ１に置かれた商品（物体）に関するキーワード（商品名など）が含まれる場合、表示対象特定部１１４は、撮像画像Ｐ１から前記表示対象として商品を特定する。

図１０は、前記他の実施形態に対応する表示制御処理の一例を示すフローチャートである。図１０に示すステップＳ２３，Ｓ２４，Ｓ２６以外の処理は、図９に示す処理と同一である。

ステップＳ２３において、制御部１１は、発話者の音声に対応する発話内容を特定する。例えば、制御部１１は、周知の音声認識技術により発話内容を特定する。

ステップＳ２４において、制御部１１は、特定した前記発話内容に基づいて前記表示対象が人物であるか否かを判定する。例えば、制御部１１は、前記発話内容にユーザＢの名前などが含まれる場合に、前記表示対象が人物であると判定する。

ステップＳ２６において、制御部１１は、特定した前記発話内容に基づいて前記表示対象が表示画面であるか否かを判定する。例えば、制御部１１は、前記発話内容に表示装置２Ａに表示された表示内容Ｄ１に関するキーワード（議題、資料名など）が含まれる場合に、前記表示対象が表示画面であると判定する。また例えば、制御部１１は、前記発話内容に物体（商品）に関するキーワード（商品名など）が含まれる場合に、前記表示対象が物体であると判定する（Ｓ２６：Ｎｏ）。

このように、表示対象特定部１１４は、発話者の視線方向を考慮せず、発話者の発話内容に基づいて撮像画像Ｐ１から前記表示対象を特定してもよい。この構成では、記憶部１２に前記表示対象に対応するキーワードが予め記憶され、制御部１１は、前記発話内容に含まれるキーワードに基づいて前記表示対象を特定する。

また本発明の他の実施形態として、表示対象特定部１１４は、発話者の視線方向と、当該発話者の音声に対応する発話内容とに基づいて、撮像画像Ｐ１から前記表示対象を特定してもよい。例えば、発話者の視線方向ＸにユーザＢがいる場合であって、前記発話内容にユーザＢの名前が含まれる場合に、表示対象特定部１１４は、前記表示対象としてユーザＢを特定する。

また例えば、発話者の視線方向Ｘにいずれかのユーザがいる場合であって、前記発話内容に表示内容Ｄ１又は商品のキーワードが含まれる場合には、表示対象特定部１１４は、前記表示対象として表示内容Ｄ１又は商品を特定する。ここでは、表示対象特定部１１４は、視線方向Ｘよりも発話内容を優先的に利用して前記表示対象を特定する。

なお、表示対象特定部１１４は、視線方向Ｘの向いている時間に応じて、視線方向及び発話内容の優先度を決定してもよい。例えば、視線方向ＸがユーザＢに所定時間以上向いている場合には、前記発話内容に表示内容Ｄ１又は商品のキーワードが含まれる場合であっても、表示対象特定部１１４は、発話内容よりも視線方向Ｘを優先的に利用して、前記表示対象としてユーザＢを特定する。

ところで、発話者の視線方向Ｘに基づいて表示装置２Ｂに表示対象を表示させる場合、発話者の視線方向Ｘが変わる度に表示装置２Ｂの表示内容が変化するため、表示装置２Ｂのユーザが煩わしく感じる場合がある。そこで、本発明の他の実施形態として、表示処理部１１５は、表示情報を表示装置２Ｂに表示させてから、所定時間経過するまで、又は、表示対象特定部１１４により異なる前記表示対象が特定されるまで、継続して当該表示情報を表示装置２Ｂに表示させてもよい。例えば図６に示すように、ユーザＢの顔画像Ｐ３が表示装置２Ｂに表示された後に、発話者であるユーザＡの視線方向ＸがユーザＢから外れた場合であっても、表示処理部１１５は、所定時間だけ継続してユーザＢの顔画像Ｐ３を表示装置２Ｂに表示させる。これにより、例えばユーザＡがユーザＢとは異なる方向を見ながらユーザＢに発話しているケースにおいても、ユーザＢを前記表示対象として適切に表示装置２Ｂに表示させることができる。そして、前記ケースにおいて、表示処理部１１５は、表示対象特定部１１４が例えば表示装置２Ａの表示画面（表示内容Ｄ１）を前記表示対象として特定した場合に、表示装置２Ｂの表示情報を、ユーザＢの顔画像Ｐ３から表示内容Ｄ１に変更する。

上述の実施形態では、情報処理装置１が本発明の情報処理装置に相当するが、本発明の情報処理装置はこれに限定されない。例えば、本発明の情報処理装置は、管理サーバ（不図示）単体で構成されてもよいし、情報処理装置１及び管理サーバにより構成されてもよい。管理サーバは、制御部１１に含まれる複数の処理部（音声受信部１１１、画像取得部１１２、話者特定部１１３、表示対象特定部１１４、表示処理部１１５）のうち少なくともいずれかを備えて構成される。

また、カメラ１５、マイク１４、及びスピーカ１３のそれぞれは、情報処理装置１とは別体に構成され、情報処理装置１にネットワークＮ１を介して接続されてもよい。この場合、例えば、カメラ１５、マイク１４、及びスピーカ１３は各会議室に設置される。そして、情報処理装置１は、会議室の外に設置され、各会議室のカメラ１５、マイク１４、及びスピーカ１３を管理する管理サーバとして機能する。

なお、本発明の情報処理装置は、各請求項に記載された発明の範囲において、以上に示された各実施形態を自由に組み合わせること、或いは各実施形態を適宜、変形又は一部を省略することによって構成されることも可能である。

１：情報処理装置
２：表示装置
１４：マイク
１５：カメラ
１００：会議システム
１１１：音声受信部
１１２：画像取得部
１１３：話者特定部
１１４：表示対象特定部
１１５：表示処理部

Claims

撮像部により撮像される撮像画像を取得する画像取得部と、
発話者を特定する話者特定部と、
前記画像取得部により取得される前記撮像画像から、前記話者特定部により特定される前記発話者に対応する表示対象を特定する表示対象特定部と、
前記表示対象特定部により特定される前記表示対象に対応する表示情報を第１表示部に表示させる表示処理部と、
を備え、
前記表示対象特定部により特定された前記表示対象が第２表示部の表示画面である場合に、前記表示処理部は、前記表示画面に表示される表示内容を、当該表示内容に対応する表示データに基づいて前記第１表示部に表示させる、情報処理装置。
前記表示対象特定部は、前記撮像画像に基づいて前記発話者の視線方向を特定し、特定した前記視線方向に基づいて前記撮像画像から前記表示対象を特定する、
請求項１に記載の情報処理装置。
音声を受信する音声受信部をさらに備え、
前記表示対象特定部は、前記音声受信部により受信される前記音声に対応する発話内容に基づいて前記撮像画像から前記表示対象を特定する、
請求項１に記載の情報処理装置。
音声を受信する音声受信部をさらに備え、
前記表示対象特定部は、前記撮像画像に基づいて前記発話者の視線方向を特定し、特定した前記視線方向と前記音声受信部により受信される前記音声に対応する発話内容とに基づいて前記撮像画像から前記表示対象を特定する、
請求項１に記載の情報処理装置。
前記表示対象特定部により特定された前記表示対象が前記発話者とは異なる人物である場合に、前記表示処理部は、前記撮像画像に含まれる前記発話者の画像と前記人物の画像とを前記第１表示部に並べて表示させる、
請求項１から請求項４のいずれか１項に記載の情報処理装置。
前記表示対象特定部により特定された前記表示対象が物体である場合に、前記表示処理部は、前記撮像画像に含まれる前記物体の画像を前記第１表示部に表示させ、前記撮像画像に含まれる前記発話者の画像を前記第１表示部に表示させない、
請求項１から請求項４のいずれか１項に記載の情報処理装置。
前記表示処理部は、さらに、前記表示対象特定部により特定された前記表示対象に応じた特定情報を前記第１表示部に表示させる、
請求項１から請求項６のいずれか１項に記載の情報処理装置。
音声を集音するマイクの指向性を前記人物の方向に設定する、
請求項５に記載の情報処理装置。
前記表示処理部は、前記表示情報を前記第１表示部に表示させてから、所定時間経過するまで又は前記表示対象特定部により異なる前記表示対象が特定されるまで、継続して当該表示情報を前記第１表示部に表示させる、
請求項１から請求項８のいずれか１項に記載の情報処理装置。
撮像部により撮像される撮像画像を取得する画像取得ステップと、
発話者を特定する話者特定ステップと、
前記画像取得ステップにより取得される前記撮像画像から、前記話者特定ステップにより特定される前記発話者に対応する表示対象を特定する表示対象特定ステップと、
前記表示対象特定ステップにより特定される前記表示対象に対応する表示情報を第１表示部に表示させる表示ステップと、
を一又は複数のプロセッサーが実行し、
前記表示対象特定ステップにより特定された前記表示対象が第２表示部の表示画面である場合に、前記表示ステップにおいて、前記表示画面に表示される表示内容を、当該表示内容に対応する表示データに基づいて前記第１表示部に表示させる、情報処理方法。
撮像部により撮像される撮像画像を取得する画像取得ステップと、
発話者を特定する話者特定ステップと、
前記画像取得ステップにより取得される前記撮像画像から、前記話者特定ステップにより特定される前記発話者に対応する表示対象を特定する表示対象特定ステップと、
前記表示対象特定ステップにより特定される前記表示対象に対応する表示情報を第１表示部に表示させる表示ステップと、
を一又は複数のプロセッサーに実行させるための情報処理プログラムであって、
前記表示対象特定ステップにより特定された前記表示対象が第２表示部の表示画面である場合に、前記表示ステップにおいて、前記表示画面に表示される表示内容を、当該表示内容に対応する表示データに基づいて前記第１表示部に表示させる、情報処理プログラム。