[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7427408B2 - 情報処理装置、情報処理方法、及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法、及び情報処理プログラム Download PDF

Info

Publication number
JP7427408B2
JP7427408B2 JP2019184431A JP2019184431A JP7427408B2 JP 7427408 B2 JP7427408 B2 JP 7427408B2 JP 2019184431 A JP2019184431 A JP 2019184431A JP 2019184431 A JP2019184431 A JP 2019184431A JP 7427408 B2 JP7427408 B2 JP 7427408B2
Authority
JP
Japan
Prior art keywords
display
unit
speaker
information processing
display target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019184431A
Other languages
English (en)
Other versions
JP2021061527A (ja
Inventor
智 寺田
慶子 蛭川
洋介 大崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2019184431A priority Critical patent/JP7427408B2/ja
Priority to US17/035,636 priority patent/US20210105437A1/en
Publication of JP2021061527A publication Critical patent/JP2021061527A/ja
Application granted granted Critical
Publication of JP7427408B2 publication Critical patent/JP7427408B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/22Synchronisation circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • H04M2201/405Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition involving speaker-dependent recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/41Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、会議に利用可能な情報処理装置、情報処理方法、及び情報処理プログラムに関する。
従来、互いに離れた場所においてネットワークを介して音声、映像、ファイルなどを送受信して行う会議システムが知られている。例えば特許文献1には、会議参加者の顔をカメラにより撮影し、撮像した顔画像に基づいて発話者を特定し、特定した発話者を選択的に撮影したり、特定した発話者の音声を選択的に集音したりする技術が開示されている。
特開2010-55375号公報
しかしながら、従来の技術では、例えば、発話者がいる会議室R1とは別の会議室R2(遠隔地など)に設置されるディスプレイに、発話者の顔画像を表示することはできるが、発話者の相手方の顔画像や発話者が説明する対象の物体(商品など)などを表示することは困難である。このため、会議の参加者が会議内容を理解し難いという問題が生じる。
本発明の目的は、会議の参加者が会議内容を容易に理解することが可能な情報処理装置、情報処理方法、及び情報処理プログラムを提供することにある。
本発明の一の態様に係る情報処理装置は、撮像部により撮像される撮像画像を取得する画像取得部と、発話者を特定する話者特定部と、前記画像取得部により取得される前記撮像画像から、前記話者特定部により特定される前記発話者に対応する表示対象を特定する表示対象特定部と、前記表示対象特定部により特定される前記表示対象に対応する表示情報を第1表示部に表示させる表示処理部と、を備える。
本発明の他の態様に係る情報処理方法は、撮像部により撮像される撮像画像を取得する画像取得ステップと、発話者を特定する話者特定ステップと、前記画像取得ステップにより取得される前記撮像画像から、前記話者特定ステップにより特定される前記発話者に対応する表示対象を特定する表示対象特定ステップと、前記表示対象特定ステップにより特定される前記表示対象に対応する表示情報を第1表示部に表示させる表示ステップと、を一又は複数のプロセッサーにより実行する情報処理方法である。
本発明の他の態様に係る情報処理プログラムは、撮像部により撮像される撮像画像を取得する画像取得ステップと、発話者を特定する話者特定ステップと、前記画像取得ステップにより取得される前記撮像画像から、前記話者特定ステップにより特定される前記発話者に対応する表示対象を特定する表示対象特定ステップと、前記表示対象特定ステップにより特定される前記表示対象に対応する表示情報を第1表示部に表示させる表示ステップと、を一又は複数のプロセッサーに実行させるための情報処理プログラムである。
本発明によれば、会議の参加者が会議内容を容易に理解することが可能な情報処理装置、情報処理方法、及び情報処理プログラムが提供される。
図1は、本発明の実施形態に係る会議システムの概略構成を示す図である。 図2は、本発明の実施形態に係る情報処理装置の構成を示す機能ブロック図である。 図3は、本発明の実施形態に係る情報処理装置において撮像される撮像画像の一例を示す図である。 図4は、本発明の実施形態に係る会議システムにおいて発話者の視線方向の一例を示す図である。 図5は、本発明の実施形態に係る情報処理装置において撮像される撮像画像の一例を示す図である。 図6は、本発明の実施形態に係る表示装置の表示画面の一例を示す図である。 図7は、本発明の実施形態に係る表示装置の表示画面の一例を示す図である。 図8は、本発明の実施形態に係る表示装置の表示画面の一例を示す図である。 図9は、本発明の実施形態に係る情報処理装置における表示制御処理の手順の一例を説明するためのフローチャートである。 図10は、本発明の実施形態に係る情報処理装置における表示制御処理の手順の一例を説明するためのフローチャートである。
以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。
本発明に係る情報処理装置は、複数のユーザが参加する会議、遠隔地をネットワーク接続して複数のユーザが参加するリモート会議などに適用することができる。また、前記情報処理装置は、カメラ装置であってもよいし、カメラ機能と、音声コマンドを実行する機能と、ユーザ間で通話可能な通話機能とを備えた機器であってもよい。以下の実施形態では、前記情報処理装置がリモート会議に適用される場合を例に挙げて説明する。前記リモート会議では、例えば、それぞれの遠隔地(会議室)に前記情報処理装置が設置され、一方の会議室の前記情報処理装置がユーザの発話した音声を受信して、他方の会議室の前記情報処理装置に送信することにより、各会議室のユーザ同士の会話を可能にする。また、一方の会議室の前記情報処理装置が撮像した撮像画像を、他方の会議室に設置された表示装置(ディスプレイ)に表示させる。また、前記情報処理装置は、各会議室において、ユーザからコマンド音声を受信して、所定のコマンドを実行するクラウドサーバ(不図示)に送信する。
図1は、本発明の実施形態に係る会議システムの概略構成を示す図である。会議システム100は、1又は複数の情報処理装置1と、1又は複数の表示装置2とを含んでいる。情報処理装置1A,1Bのそれぞれは、カメラ、マイク及びスピーカを備えた機器である。情報処理装置1A,1Bのそれぞれは、例えば、カメラ機能を備えたAIスピーカ、スマートスピーカなどであってもよい。ここでは、会議室R1に設置された情報処理装置1Aと、会議室R2に設置された情報処理装置1Bとを示している。表示装置2A,2Bのそれぞれは、各種情報を表示するディスプレイである。情報処理装置1A,1Bと表示装置2A,2Bとは、ネットワークN1を介して互いに接続されている。ネットワークN1は、インターネット、LAN、WAN、又は公衆電話回線などの通信網である。情報処理装置1A,1Bは、本発明の情報処理装置の一例である。
以下、会議システム100の具体的な構成について説明する。なお、以下の説明では、情報処理装置1A,1Bを区別しない場合は情報処理装置1と称し、表示装置2A,2Bを区別しない場合は表示装置2と称す。情報処理装置1A,1Bは同一の構成を備える。以下では、情報処理装置1Aを例に挙げて説明する。
図2に示すように、情報処理装置1Aは、制御部11、記憶部12、スピーカ13、マイク14、カメラ15、及び通信インターフェース16などを備える。情報処理装置1Aは、例えば図1に示すように会議室R1の机の中央付近に配置され、会議に参加するユーザの顔をカメラ15により撮影したり、当該ユーザ(発話者)の音声をマイク14を介して取得したり、当該ユーザに対してスピーカ13から音声を出力したりする。
カメラ15は、被写体の画像を撮像してデジタル画像データとして出力するデジタルカメラである。例えばカメラ15は、情報処理装置1Aの上部に設けられ、情報処理装置1Aの周囲360度の範囲を撮像可能である。ここでは、カメラ15は、会議室R1の室内全体を撮像する。カメラ15は、本発明の撮像部の一例である。
通信インターフェース16は、情報処理装置1Aを有線又は無線でネットワークN1に接続し、ネットワークN1を介して他の機器(例えば情報処理装置1B、表示装置2A,2B)との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。
記憶部12は、各種の情報を記憶するフラッシュメモリー、HDD(Hard Disk Drive)又はSSD(Solid State Drive)などの不揮発性の記憶部である。
具体的に、記憶部12には、カメラ15により撮像される撮像画像データ、マイク14により集音される音声データなどのデータが記憶される。また、記憶部12に、表示装置2A,2Bに表示される画像(資料など)の表示データが記憶されてもよい。なお、これらのデータは、ネットワークN1に接続されるデータサーバ(不図示)に記憶されてもよい。
また、記憶部12には、制御部11に後述の表示制御処理(図9、図10参照)を実行させるための表示制御プログラムなどの制御プログラムが記憶されている。例えば、前記表示制御プログラムは、USB、CD又はDVDなどのコンピュータ読取可能な記録媒体に非一時的に記録され、情報処理装置1Aが備える読取装置(不図示)で読み取られて記憶部12に記憶される。
制御部11は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサーである。前記ROMは、前記CPUに各種の処理を実行させるためのBIOS及びOSなどの制御プログラムを予め記憶する。前記RAMは、各種の情報を記憶し、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部11は、前記ROM又は記憶部12に予め記憶された各種の制御プログラムを前記CPUで実行することにより情報処理装置1Aを制御する。
具体的に、制御部11は、音声受信部111、画像取得部112、話者特定部113、表示対象特定部114、表示処理部115などの各種の処理部を含む。なお、制御部11は、前記CPUで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部11に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記表示制御プログラムは、複数のプロセッサーを前記各種の処理部として機能させるためのプログラムであってもよい。
音声受信部111は、情報処理装置1Aを利用するユーザが発話した音声を受信する。音声受信部111は、本発明の音声受信部の一例である。ユーザは、例えば、会議の内容(議題)に関する音声、情報処理装置1Aがコマンドの受け付けを開始するための特定ワード(起動ワード、ウェイクアップワードともいう。)の音声、情報処理装置1Aに指示する各種コマンドの音声(コマンド音声)などを発話する。例えば図1に示すように、音声受信部111は、会議室R1において会議に参加するユーザA,B,Cが発話する各種音声を受信する。
画像取得部112は、カメラ15により撮像された撮像画像を取得する。画像取得部112は、本発明の画像取得部の一例である。例えば、図1に示す会議室R1において、カメラ15により、情報処理装置1Aの周囲360度の範囲に含まれるユーザA,B,Cと表示装置2Aとが撮像された場合、画像取得部112は、ユーザA,B,Cと表示装置2Aとを含む撮像画像P1(図3参照)を取得する。
話者特定部113は、発話したユーザ(発話者)を特定する。話者特定部113は、本発明の話者特定部の一例である。具体的には、話者特定部113は、画像取得部112により取得された撮像画像P1に基づいて発話者を特定する。例えば、話者特定部113は、撮像画像P1に含まれるユーザA,B,Cの顔及び口の動きに基づいて発話者を特定する。
話者特定部113は、音声受信部111より受信された前記音声と撮像画像P1とに基づいて発話者を特定してもよい。例えば、話者特定部113は、マイク14による集音方向に基づいて前記音声を受信した方向(発話者の方向)を特定し、当該方向に含まれる撮像画像P1に基づいて発話者を特定する。例えば、前記方向に含まれる撮像画像P1にユーザが含まれる場合、話者特定部113は、当該ユーザを発話者として特定する。これにより、発話者を正確に特定することが可能となる。
表示対象特定部114は、画像取得部112により取得された撮像画像P1から、話者特定部113により特定された前記発話者に対応する表示対象を特定する。表示対象特定部114は、本発明の表示対象特定部の一例である。前記表示対象は、例えば、前記発話者がいる会議室R1とは異なる会議室R2に設置された表示装置2Bに表示される表示対象であり、ユーザA,B,C(人物)、表示装置2Aの表示画面、会議室R1に配置された物体(議題の対象となる商品、資料など)などである。すなわち、前記表示対象は、発話者の相手方の人物、説明に対する対象物などである。
具体的には、表示対象特定部114は、撮像画像P1に基づいて前記発話者の視線方向を特定し、特定した前記視線方向に基づいて撮像画像P1から前記表示対象を特定する。表示対象特定部114は、周知の技術により前記視線方向を特定することが可能である。図1及び図3には、話者特定部113により前記発話者として特定されたユーザAの視線方向Xの一例を示している。表示対象特定部114は、図3に示す撮像画像P1に基づいてユーザAの視線方向Xを特定する。そして、表示対象特定部114は、撮像画像P1において、特定した視線方向Xに位置するユーザBを前記表示対象として特定する。
図4及び図5には、話者特定部113により前記発話者として特定されたユーザAの視線方向Xの他の例を示している。表示対象特定部114は、図5に示す撮像画像P1に基づいてユーザAの視線方向Xを特定する。そして、表示対象特定部114は、撮像画像P1において、特定した視線方向Xに位置する表示装置2Aの表示画面を前記表示対象として特定する。なお、表示装置2Aの表示画面には、例えば、会議の議題に関する資料(ファイル)の情報(表示内容D1)が表示されている。ここでは、例えばユーザAは、表示装置2Aの表示画面を見ながら表示内容D1について説明を行っている。
他の例として、発話者の視線方向Xに例えば商品(物体)がある場合、表示対象特定部114は、撮像画像P1において、前記商品を前記表示対象として特定する。
表示処理部115は、表示対象特定部114により特定された前記表示対象に対応する表示情報を表示装置2A,2Bに表示させる。表示処理部115は、本発明の表示処理部の一例である。
また、表示処理部115は、前記表示情報の領域を特定する。例えば、表示対象特定部114が前記表示対象としてユーザBを特定した場合、表示処理部115は、ユーザAの顔を中心とした所定領域と、ユーザBの顔を中心とした所定領域とを特定する。また例えば、表示対象特定部114が前記表示対象として表示装置2Aの表示画面を特定した場合、表示処理部115は、前記表示画面全体の領域を特定する。また例えば、表示対象特定部114が前記表示対象として物体(商品)を特定した場合、表示処理部115は、物体全体の領域を特定する。表示処理部115は、前記表示情報の領域を特定すると、例えば以下に示すように、前記表示情報を表示装置2A,2Bに表示させる。表示装置2A,2Bは本発明の第1表示部の一例である。また、表示装置2A,2Bは本発明の第1表示部の一例である。また、表示装置2Bは本発明の第1表示部の一例であり、表示装置2Aは本発明の第2表示部の一例である。
表示処理部115は、前記表示情報に対応するデータ(画像データ、表示データなど)を表示装置2B又は情報処理装置1Bに送信する。表示装置2Bが情報処理装置1Aから前記データを受信して前記表示情報を表示してもよいし、情報処理装置1Bが情報処理装置1Aから前記データを受信して前記表示情報を表示装置2Bに表示させてもよい。
例えば、表示対象特定部114が前記表示対象としてユーザBを特定した場合、表示処理部115は、図6に示すように、前記発話者であるユーザAの顔画像P2と、表示対象特定部114により特定されたユーザBの顔画像P3とを、表示装置2B(本発明の第1表示部の一例)に並べて表示させる。なお、表示処理部115は、顔画像P2,P3に加えて、さらに撮像画像P1を表示装置2Bに表示させてもよい。これにより、会議室R2の参加者(ユーザD,E,F)は、会議室R1でユーザAがユーザBに対して発言していることを認識することができる。また、ユーザAの発言の後にユーザBが発言することを予想することができる。なお、この場合、情報処理装置1Bは、音声受信部111が受信したユーザAの音声を、情報処理装置1Aから取得して会議室R2において出力する。また、会議室R1の表示装置2Aは、顔画像P2,P3に加えて、会議室R2内のユーザD,E,F、表示装置2Bを撮像した撮像画像を表示する。
図6に示す例において、制御部11は、さらに、表示対象特定部114により特定されたユーザBの音声を集音し易いように、ビームフォーミング技術等により、マイク14の指向性(パラメータ)をユーザBの方向に設定(調整)してもよい。これにより、ユーザAの次に発話する可能性の高いユーザBの音声を適切に取得することが可能となる。
また例えば、表示対象特定部114が前記表示対象として表示装置2Aの表示画面を特定した場合、表示処理部115は、図7に示すように、表示対象特定部114により特定された前記表示画面全体の表示内容D1を、表示装置2B(本発明の第1表示部の一例)に表示させる。ここで、表示処理部115は、前記表示画面全体の撮像画像を表示装置2Bに表示させてもよいが、表示内容D1に対応する表示データに基づいて表示内容D1を表示装置2Bに表示させることが望ましい。これにより、表示装置2A,2Bに表示される表示内容D1の画質を統一することができる。なお、表示装置2Bが情報処理装置1Aから前記表示データを受信して表示内容D1を表示してもよいし、情報処理装置1Bが情報処理装置1Aから前記表示データを受信して表示内容D1を表示装置2Bに表示させてもよい。これにより、会議室R2の参加者(ユーザD,E,F)は、会議室R1でユーザAが説明している内容(資料)を容易に認識することができる。なお、この場合、情報処理装置1Bは、音声受信部111が受信したユーザAの音声を、情報処理装置1Aから取得して会議室R2において出力する。また、この場合、表示処理部115は、ユーザAの顔画像P2を表示装置2Bに表示させなくてもよい。
また例えば、表示対象特定部114が前記表示対象として会議室R1に置かれた商品(物体)を特定した場合、表示処理部115は、表示対象特定部114により特定された商品全体の画像を、表示装置2B(本発明の第1表示部の一例)に表示させる。これにより、会議室R2の参加者(ユーザD,E,F)は、会議室R1でユーザAが説明している商品を容易に認識することができる。なお、この場合、情報処理装置1Bは、音声受信部111が受信したユーザAの音声を、情報処理装置1Aから取得して会議室R2において出力する。また、この場合、表示処理部115は、ユーザAの顔画像P2を表示装置2Bに表示させなくてもよい。
また、表示処理部115は、さらに、表示対象特定部114により特定された前記表示対象に応じた特定情報を表示装置2Bに表示させてもよい。例えば図8に示すように、表示処理部115は、ユーザAの顔画像P2の近傍にユーザAの属性に応じた特定情報S1(例えば「営業担当」)を表示させ、ユーザBの顔画像P3の近傍にユーザBの属性に応じた特定情報S1(例えば「開発担当」)を表示させる。前記表示対象が前記表示画面(図7参照)の場合、表示処理部115は、前記特定情報として、例えば表示内容D1のタイトル(資料名、ファイル名など)を表示させる。また前記表示対象が前記商品の場合、表示処理部115は、前記特定情報として、例えば商品名を表示させる。
[表示制御処理]
以下、図9を参照しつつ、情報処理装置1の制御部11によって実行される表示制御処理の手順の一例について説明する。ここでは、図1に示す会議システム100において、情報処理装置1Aに着目して前記表示制御処理を説明する。例えば、情報処理装置1Aの制御部11は、ユーザの音声を受信することにより前記表示制御プログラムの実行を開始することによって、前記表示制御処理の実行を開始する。なお、前記表示制御処理は、情報処理装置1A,1Bのそれぞれにおいて、個別に並行して実行される。
なお、本発明は、前記表示制御処理に含まれる一又は複数のステップを実行する表示制御処理方法の発明として捉えることができる。また、ここで説明する前記表示制御処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記表示制御処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部11によって前記表示制御処理における各ステップが実行される場合を例に挙げて説明するが、他の実施形態では、複数のプロセッサーによって前記表示制御処理における各ステップが分散して実行されてもよい。
先ず、ステップS11において、制御部11は、カメラ15により撮像された撮像画像を取得する。ここでは、制御部11は、会議室R1(図1参照)にいる3人のユーザA,B,C及び表示装置2Aを含む撮像画像P1(図2参照)を取得する。ステップS11は、本発明の画像取得ステップの一例である。
次に、ステップS12において、制御部11は、発話者を特定する。例えば、制御部11は、撮像画像P1に含まれるユーザA,B,Cの顔及び口の動き等に基づいて発話者を特定する。ここでは、発話者としてユーザAが特定されたものとする。ステップS12は、本発明の話者特定ステップの一例である。
次に、ステップS13において、制御部11は、発話者の視線方向を特定する。例えば、制御部11は、撮像画像P1に基づいてユーザAの視線方向Xを特定する。
次に、ステップS14において、制御部11は、前記視線方向に基づいて前記表示対象を特定する。具体的には、制御部11は、前記表示対象が人物であるか否かを判定する。例えば、制御部11は、撮像画像P1において、特定した視線方向Xに位置する前記表示対象(オブジェクト画像)が人物であるか否かを判定する。前記表示対象が人物である場合(S14:Yes)、処理はステップS15に移行する。前記表示対象が人物でない場合(S14:No)、処理はステップS16に移行する。図3に示す例では、制御部11は、前記表示対象が人物であると判定する。
ステップS15において、制御部11は、発話者の顔を中心とした所定領域と、前記表示対象として特定した人物の顔を中心とした所定領域とを特定する。ここでは、制御部11は、発話者であるユーザAに対応する所定領域と、前記表示対象であるユーザBに対応する所定領域とを特定する。そして、制御部11は、特定した所定領域に対応する画像を表示装置2A,2Bに表示させる。例えば、図6に示すように、制御部11は、ユーザAの顔画像P2とユーザBの顔画像P3とを表示装置2Bに表示させる。
ステップS16において、制御部11は、前記視線方向に基づいて特定した前記表示対象が表示画面であるか否かを判定する。例えば、制御部11は、撮像画像P1において、特定した視線方向Xに位置する前記表示対象(オブジェクト画像)が表示装置2Aの表示画面であるか否かを判定する。前記表示対象が表示画面である場合(S16:Yes)、処理はステップS17に移行する。前記表示対象が表示画面でない場合(S16:No)、処理はステップS18に移行する。図5に示す例では、制御部11は、前記表示対象が表示画面であると判定する。ステップS14,S16は、本発明の表示対象特定ステップの一例である。
ステップS17において、制御部11は、表示装置2Aの表示画面全体の領域を特定する。そして、制御部11は、特定した表示画面全体の表示内容を表示装置2Bに表示させる。例えば、図7に示すように、制御部11は、表示装置2Aの表示画面に表示された表示内容D1に対応する表示データを情報処理装置1Bに送信して、表示内容D1を表示装置2Bに表示させる表示処理を情報処理装置1Bに実行させる。
ステップS18において、制御部11は、前記視線方向に基づいて特定した前記表示対象である物体(商品など)の全体の領域を特定する。そして、制御部11は、特定した物体全体の画像を表示装置2Bに表示させる。
ステップS15,S17,S18のそれぞれの処理が終了すると、上述の表示制御処理を繰り返す。ステップS15,S17,S18は、本発明の表示ステップの一例である。
以上のように、本発明の実施形態に係る情報処理装置1は、カメラ15により撮像された撮像画像から発話者に対応する表示対象(発話者の相手方人物、表示画面、物体など)を特定し、特定した前記表示対象に対応する表示情報(顔画像、表示内容など)を表示装置2に表示させる。これにより、例えば遠隔地で会議に参加する参加者は、遠隔地の表示装置2において発話者の意図した情報を視認することができるため、会議内容を容易に理解することが可能となる。
本発明の情報処理装置は、上述の実施形態に限定されず、以下の示す実施形態を適用することもできる。
他の実施形態に係る情報処理装置1において、表示対象特定部114は、音声受信部111により受信される発話者の音声に対応する発話内容に基づいて撮像画像P1から前記表示対象を特定する。例えば、前記発話内容にユーザBの識別情報(名前など)が含まれる場合、表示対象特定部114は、撮像画像P1から前記表示対象としてユーザBを特定する。
また例えば、前記発話内容に表示装置2Aに表示された表示内容D1に関するキーワード(議題、資料名など)が含まれる場合、表示対象特定部114は、撮像画像P1から前記表示対象として表示装置2Aの表示画面を特定する。
また例えば、前記発話内容に会議室R1に置かれた商品(物体)に関するキーワード(商品名など)が含まれる場合、表示対象特定部114は、撮像画像P1から前記表示対象として商品を特定する。
図10は、前記他の実施形態に対応する表示制御処理の一例を示すフローチャートである。図10に示すステップS23,S24,S26以外の処理は、図9に示す処理と同一である。
ステップS23において、制御部11は、発話者の音声に対応する発話内容を特定する。例えば、制御部11は、周知の音声認識技術により発話内容を特定する。
ステップS24において、制御部11は、特定した前記発話内容に基づいて前記表示対象が人物であるか否かを判定する。例えば、制御部11は、前記発話内容にユーザBの名前などが含まれる場合に、前記表示対象が人物であると判定する。
ステップS26において、制御部11は、特定した前記発話内容に基づいて前記表示対象が表示画面であるか否かを判定する。例えば、制御部11は、前記発話内容に表示装置2Aに表示された表示内容D1に関するキーワード(議題、資料名など)が含まれる場合に、前記表示対象が表示画面であると判定する。また例えば、制御部11は、前記発話内容に物体(商品)に関するキーワード(商品名など)が含まれる場合に、前記表示対象が物体であると判定する(S26:No)。
このように、表示対象特定部114は、発話者の視線方向を考慮せず、発話者の発話内容に基づいて撮像画像P1から前記表示対象を特定してもよい。この構成では、記憶部12に前記表示対象に対応するキーワードが予め記憶され、制御部11は、前記発話内容に含まれるキーワードに基づいて前記表示対象を特定する。
また本発明の他の実施形態として、表示対象特定部114は、発話者の視線方向と、当該発話者の音声に対応する発話内容とに基づいて、撮像画像P1から前記表示対象を特定してもよい。例えば、発話者の視線方向XにユーザBがいる場合であって、前記発話内容にユーザBの名前が含まれる場合に、表示対象特定部114は、前記表示対象としてユーザBを特定する。
また例えば、発話者の視線方向Xにいずれかのユーザがいる場合であって、前記発話内容に表示内容D1又は商品のキーワードが含まれる場合には、表示対象特定部114は、前記表示対象として表示内容D1又は商品を特定する。ここでは、表示対象特定部114は、視線方向Xよりも発話内容を優先的に利用して前記表示対象を特定する。
なお、表示対象特定部114は、視線方向Xの向いている時間に応じて、視線方向及び発話内容の優先度を決定してもよい。例えば、視線方向XがユーザBに所定時間以上向いている場合には、前記発話内容に表示内容D1又は商品のキーワードが含まれる場合であっても、表示対象特定部114は、発話内容よりも視線方向Xを優先的に利用して、前記表示対象としてユーザBを特定する。
ところで、発話者の視線方向Xに基づいて表示装置2Bに表示対象を表示させる場合、発話者の視線方向Xが変わる度に表示装置2Bの表示内容が変化するため、表示装置2Bのユーザが煩わしく感じる場合がある。そこで、本発明の他の実施形態として、表示処理部115は、表示情報を表示装置2Bに表示させてから、所定時間経過するまで、又は、表示対象特定部114により異なる前記表示対象が特定されるまで、継続して当該表示情報を表示装置2Bに表示させてもよい。例えば図6に示すように、ユーザBの顔画像P3が表示装置2Bに表示された後に、発話者であるユーザAの視線方向XがユーザBから外れた場合であっても、表示処理部115は、所定時間だけ継続してユーザBの顔画像P3を表示装置2Bに表示させる。これにより、例えばユーザAがユーザBとは異なる方向を見ながらユーザBに発話しているケースにおいても、ユーザBを前記表示対象として適切に表示装置2Bに表示させることができる。そして、前記ケースにおいて、表示処理部115は、表示対象特定部114が例えば表示装置2Aの表示画面(表示内容D1)を前記表示対象として特定した場合に、表示装置2Bの表示情報を、ユーザBの顔画像P3から表示内容D1に変更する。
上述の実施形態では、情報処理装置1が本発明の情報処理装置に相当するが、本発明の情報処理装置はこれに限定されない。例えば、本発明の情報処理装置は、管理サーバ(不図示)単体で構成されてもよいし、情報処理装置1及び管理サーバにより構成されてもよい。管理サーバは、制御部11に含まれる複数の処理部(音声受信部111、画像取得部112、話者特定部113、表示対象特定部114、表示処理部115)のうち少なくともいずれかを備えて構成される。
また、カメラ15、マイク14、及びスピーカ13のそれぞれは、情報処理装置1とは別体に構成され、情報処理装置1にネットワークN1を介して接続されてもよい。この場合、例えば、カメラ15、マイク14、及びスピーカ13は各会議室に設置される。そして、情報処理装置1は、会議室の外に設置され、各会議室のカメラ15、マイク14、及びスピーカ13を管理する管理サーバとして機能する。
なお、本発明の情報処理装置は、各請求項に記載された発明の範囲において、以上に示された各実施形態を自由に組み合わせること、或いは各実施形態を適宜、変形又は一部を省略することによって構成されることも可能である。
1 :情報処理装置
2 :表示装置
14 :マイク
15 :カメラ
100 :会議システム
111 :音声受信部
112 :画像取得部
113 :話者特定部
114 :表示対象特定部
115 :表示処理部

Claims (11)

  1. 撮像部により撮像される撮像画像を取得する画像取得部と、
    発話者を特定する話者特定部と、
    前記画像取得部により取得される前記撮像画像から、前記話者特定部により特定される前記発話者に対応する表示対象を特定する表示対象特定部と、
    前記表示対象特定部により特定される前記表示対象に対応する表示情報を第1表示部に表示させる表示処理部と、
    を備え
    前記表示対象特定部により特定された前記表示対象が第2表示部の表示画面である場合に、前記表示処理部は、前記表示画面に表示される表示内容を、当該表示内容に対応する表示データに基づいて前記第1表示部に表示させる、情報処理装置。
  2. 前記表示対象特定部は、前記撮像画像に基づいて前記発話者の視線方向を特定し、特定した前記視線方向に基づいて前記撮像画像から前記表示対象を特定する、
    請求項1に記載の情報処理装置。
  3. 音声を受信する音声受信部をさらに備え、
    前記表示対象特定部は、前記音声受信部により受信される前記音声に対応する発話内容に基づいて前記撮像画像から前記表示対象を特定する、
    請求項1に記載の情報処理装置。
  4. 音声を受信する音声受信部をさらに備え、
    前記表示対象特定部は、前記撮像画像に基づいて前記発話者の視線方向を特定し、特定した前記視線方向と前記音声受信部により受信される前記音声に対応する発話内容とに基づいて前記撮像画像から前記表示対象を特定する、
    請求項1に記載の情報処理装置。
  5. 前記表示対象特定部により特定された前記表示対象が前記発話者とは異なる人物である場合に、前記表示処理部は、前記撮像画像に含まれる前記発話者の画像と前記人物の画像とを前記第1表示部に並べて表示させる、
    請求項1から請求項4のいずれか1項に記載の情報処理装置。
  6. 前記表示対象特定部により特定された前記表示対象が物体である場合に、前記表示処理部は、前記撮像画像に含まれる前記物体の画像を前記第1表示部に表示させ、前記撮像画像に含まれる前記発話者の画像を前記第1表示部に表示させない、
    請求項1から請求項4のいずれか1項に記載の情報処理装置。
  7. 前記表示処理部は、さらに、前記表示対象特定部により特定された前記表示対象に応じた特定情報を前記第1表示部に表示させる、
    請求項から請求項のいずれか1項に記載の情報処理装置。
  8. 音声を集音するマイクの指向性を前記人物の方向に設定する、
    請求項5に記載の情報処理装置。
  9. 前記表示処理部は、前記表示情報を前記第1表示部に表示させてから、所定時間経過するまで又は前記表示対象特定部により異なる前記表示対象が特定されるまで、継続して当該表示情報を前記第1表示部に表示させる、
    請求項1から請求項のいずれか1項に記載の情報処理装置。
  10. 撮像部により撮像される撮像画像を取得する画像取得ステップと、
    発話者を特定する話者特定ステップと、
    前記画像取得ステップにより取得される前記撮像画像から、前記話者特定ステップにより特定される前記発話者に対応する表示対象を特定する表示対象特定ステップと、
    前記表示対象特定ステップにより特定される前記表示対象に対応する表示情報を第1表示部に表示させる表示ステップと、
    を一又は複数のプロセッサー実行し、
    前記表示対象特定ステップにより特定された前記表示対象が第2表示部の表示画面である場合に、前記表示ステップにおいて、前記表示画面に表示される表示内容を、当該表示内容に対応する表示データに基づいて前記第1表示部に表示させる、情報処理方法。
  11. 撮像部により撮像される撮像画像を取得する画像取得ステップと、
    発話者を特定する話者特定ステップと、
    前記画像取得ステップにより取得される前記撮像画像から、前記話者特定ステップにより特定される前記発話者に対応する表示対象を特定する表示対象特定ステップと、
    前記表示対象特定ステップにより特定される前記表示対象に対応する表示情報を第1表示部に表示させる表示ステップと、
    を一又は複数のプロセッサーに実行させるための情報処理プログラムであって、
    前記表示対象特定ステップにより特定された前記表示対象が第2表示部の表示画面である場合に、前記表示ステップにおいて、前記表示画面に表示される表示内容を、当該表示内容に対応する表示データに基づいて前記第1表示部に表示させる、情報処理プログラム
JP2019184431A 2019-10-07 2019-10-07 情報処理装置、情報処理方法、及び情報処理プログラム Active JP7427408B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019184431A JP7427408B2 (ja) 2019-10-07 2019-10-07 情報処理装置、情報処理方法、及び情報処理プログラム
US17/035,636 US20210105437A1 (en) 2019-10-07 2020-09-28 Information processing device, information processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019184431A JP7427408B2 (ja) 2019-10-07 2019-10-07 情報処理装置、情報処理方法、及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2021061527A JP2021061527A (ja) 2021-04-15
JP7427408B2 true JP7427408B2 (ja) 2024-02-05

Family

ID=75274497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019184431A Active JP7427408B2 (ja) 2019-10-07 2019-10-07 情報処理装置、情報処理方法、及び情報処理プログラム

Country Status (2)

Country Link
US (1) US20210105437A1 (ja)
JP (1) JP7427408B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022109048A (ja) * 2021-01-14 2022-07-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
WO2023191814A1 (en) * 2022-04-01 2023-10-05 Hewlett-Packard Development Company, L.P. Audience configurations of audiovisual signals
KR102720846B1 (ko) * 2022-06-07 2024-10-24 엘지전자 주식회사 파 엔드 단말기 및 그의 음성 포커싱 방법
US11881025B1 (en) * 2022-07-11 2024-01-23 Hewlett-Packard Development Company, L.P. Compound images

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003023612A (ja) 2001-07-10 2003-01-24 Mitsubishi Electric Corp 画像通信端末装置
JP2003323628A (ja) 2002-05-02 2003-11-14 Nippon Hoso Kyokai <Nhk> 発言者特定映像装置およびそのプログラムならびに発言者特定映像表示方法
JP2005124160A (ja) 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 会議支援システム、情報表示装置、プログラム、及び制御方法
JP2009206924A (ja) 2008-02-28 2009-09-10 Fuji Xerox Co Ltd 情報処理装置、情報処理システム及び情報処理プログラム
JP2017034502A (ja) 2015-08-03 2017-02-09 株式会社リコー 通信装置、通信方法、プログラムおよび通信システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003023612A (ja) 2001-07-10 2003-01-24 Mitsubishi Electric Corp 画像通信端末装置
JP2003323628A (ja) 2002-05-02 2003-11-14 Nippon Hoso Kyokai <Nhk> 発言者特定映像装置およびそのプログラムならびに発言者特定映像表示方法
JP2005124160A (ja) 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 会議支援システム、情報表示装置、プログラム、及び制御方法
JP2009206924A (ja) 2008-02-28 2009-09-10 Fuji Xerox Co Ltd 情報処理装置、情報処理システム及び情報処理プログラム
JP2017034502A (ja) 2015-08-03 2017-02-09 株式会社リコー 通信装置、通信方法、プログラムおよび通信システム

Also Published As

Publication number Publication date
JP2021061527A (ja) 2021-04-15
US20210105437A1 (en) 2021-04-08

Similar Documents

Publication Publication Date Title
JP7427408B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP5201050B2 (ja) 会議支援装置、会議支援方法、会議システム、会議支援プログラム
US10848889B2 (en) Intelligent audio rendering for video recording
JP4474013B2 (ja) 情報処理装置
WO2013024704A1 (ja) 画像処理装置および方法、並びにプログラム
KR101077267B1 (ko) 얼굴인식 회의 속기 시스템 및 방법
JP2019220848A (ja) データ処理装置、データ処理方法及びプログラム
JP2014146066A (ja) 文書データ生成装置、文書データ生成方法及びプログラム
EP2503545A1 (en) Arrangement and method relating to audio recognition
JP2023131635A (ja) 表示システム、表示方法、撮像装置、プログラム
JP7400364B2 (ja) 音声認識システム及び情報処理方法
JP5272820B2 (ja) テレビ会議装置、テレビ会議システム、テレビ会議方法、及びテレビ会議プログラム
US11184184B2 (en) Computer system, method for assisting in web conference speech, and program
WO2021192991A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2019149083A (ja) 議事録生成装置、議事録生成方法、及びプログラム
JP2009060220A (ja) コミュニケーションシステム及びコミュニケーションプログラム
JP2019176375A (ja) 動画出力装置、動画出力方法および動画出力プログラム
JP2019135609A (ja) 文字入力支援システム、文字入力支援制御装置、文字入力支援プログラム
JP2007251355A (ja) 対話システム用中継装置、対話システム、対話方法
CN112584225A (zh) 视频录制处理方法、视频播放控制方法及电子设备
JP7397084B2 (ja) データ作成方法及びデータ作成プログラム
TWI581626B (zh) 影音自動處理系統及方法
CN111816183B (zh) 基于音视频录制的语音识别方法、装置、设备及存储介质
JP2021105688A (ja) 会議支援装置
JP7525222B2 (ja) 遠隔会議システム、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240124

R150 Certificate of patent or registration of utility model

Ref document number: 7427408

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150