JP4585380B2 - Next speaker detection method, apparatus, and program - Google Patents
Next speaker detection method, apparatus, and program Download PDFInfo
- Publication number
- JP4585380B2 JP4585380B2 JP2005164119A JP2005164119A JP4585380B2 JP 4585380 B2 JP4585380 B2 JP 4585380B2 JP 2005164119 A JP2005164119 A JP 2005164119A JP 2005164119 A JP2005164119 A JP 2005164119A JP 4585380 B2 JP4585380 B2 JP 4585380B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- video
- presentation
- next speaker
- imaging device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Processing (AREA)
- Position Input By Displaying (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Description
本発明は、複数のユーザが同一の空間、またはネットワークを介して互いに音声通信可能な遠隔の空間において会議する会議システムにおいて、あるユーザが発言中に次に発言することを望んでいるユーザを検出し、明示する方法および装置に関する。 The present invention detects a user who wants to speak next while a user speaks in a conference system in which a plurality of users conference in the same space or in a remote space where they can communicate with each other via a network. And an explicit method and apparatus.
没入型仮想共有環境における聴覚障害者支援に対するコミュニケーション支援手法として、相手の発話行為をユーザの視覚内に文字画像で提示する手法がある(非特許文献1、特許文献1)。
As a communication support method for the hearing-impaired person support in the immersive virtual shared environment, there is a method of presenting the other party's speech act as a character image in the user's vision (Non-patent
また、遠隔会議等において、発話者を特定する手法として、映像に吹き出しを表示する手法の提案がある(非特許文献2)。
これらの技術は、過去の発話や入力済みの会話内容を改めて提示し、利用する手法であり、吹き出し等への文字提示を行う処理は、文字データを入力、あるいはデータベースから読み出す処理の後に行われる。 These techniques are methods for re-presenting and using past utterances and entered conversation contents, and the process of presenting characters in speech balloons etc. is performed after the process of inputting character data or reading from a database. .
本発明の目的は、会話の場、特に遠隔コミュニケーションにおいて、次発言権が明示されないために、会話開始の衝突が多くなることを解決する次発言者明示方法および装置を提供することにある。 An object of the present invention is to provide a next speaker specifying method and apparatus that solves an increase in the number of collisions at the start of a conversation because the right to speak is not clearly specified in a conversation place, particularly in remote communication.
本発明によれば、次発言者明示方法は、ユーザを撮像する撮像装置と、前記撮像装置で撮影された映像を前記ユーザに提示する提示装置とを有する各サイトのそれぞれにいる複数のユーザがネットワークを介して会議する会議システムにおいて、前記複数のユーザのうちのあるユーザが発言中に次に発言することを望んでいるユーザを検出し、明示する次発言者明示方法であって、
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザのユーザ位置とユーザ頭部の3次元位置を検出するユーザ位置検出ステップと、
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザの視線方向を検出するユーザ視線方向検出ステップと、
前記ユーザ頭部の3次元位置と、前記視線方向と、前記提示装置の提示面の、前記撮像装置を中心とした座標系における3次元位置、傾き、提示面の大きさにより、前記ユーザ頭部の3次元位置からの前記視線方向ベクトルが交差する、前記提示装置の提示面上の座標位置を取得し、該座標位置と前記各ユーザのユーザ位置より、各ユーザがどのユーザに対して視線を向けているのかを検出する注視対象検出ステップと、
視線を得ているユーザの投票処理を行い、所定の割合以上のユーザから視線を得ているユーザを次発言者のユーザと判定する次発言者判定ステップと、
次発言者と判定されたユーザの提示装置上の映像上に、該ユーザが次発言権を持つことを明示するエフェクトを提示するエフェクト提示ステップとを有する。
According to the onset bright, the next speaker explicitly method, a plurality of users in each of the sites having an imaging device for imaging the user, and a presentation device for presenting the image photographed by the image pickup device to the user In a conferencing system for meeting over a network, a next speaker specifying method for detecting and clearly indicating a user who wants to speak next while a certain user among the plurality of users speaks,
A user position detecting step for detecting a user position of each user on the video and a three-dimensional position of the user's head from the video of the imaging device at each site including the own site presented to the presentation device;
A user gaze direction detection step for detecting a gaze direction of each user on the video from a video of the imaging device at each site including the own site presented to the presentation device;
According to the three-dimensional position of the user head, the line-of-sight direction, and the three-dimensional position, inclination, and size of the presentation surface of the presentation surface of the presentation device in the coordinate system centered on the imaging device, The coordinate position on the presentation surface of the presentation device where the line-of-sight vector from the three-dimensional position intersects is obtained, and from which user's line of sight to each user, the coordinate position and the user position of each user Gaze target detection step for detecting whether or not
A next speaker determination step of performing a voting process of a user who has obtained a line of sight, and determining a user who has obtained a line of sight from a predetermined percentage of users as a user of the next speaker
An effect presenting step of presenting an effect that clearly indicates that the user has the right to speak next on the video on the presentation device of the user determined to be the next speaker.
本発明は、会議に参加していり各ユーザの視線を元に、次発言権を有するユーザを自動的に検出し、次発言権を示すエフェクトを提示することにより、会話の参加者全体に次発言権を有するユーザを明示する。 The present invention automatically detects a user who has the next speech right based on each user's line of sight and presents an effect indicating the next speech right to the entire conversation participants. Specify who has the right to speak.
会議における次発言者が自動的に検出され、明示されることにより、各ユーザは会議の場において各ユーザが次に話すことを望んでいるユーザを知ることができ、会議の場での各ユーザの会話開始の衝突が少なくなるなど、会議の場での会話が円滑に進む効果がある。 The next speaker in the meeting is automatically detected and identified so that each user knows who each user wants to speak next in the meeting and each user in the meeting There is an effect that the conversation at the conference is smoothly advanced, such as less collisions at the start of conversation.
また、会議の場に参加するユーザの興味のない発話をする発言者に対して発話の交代を促す効果や、会話の場で話が発生しないときにいずれかのユーザに次発言権が明示されることにより、会話の場の発話を促す効果もある。 In addition, the effect of prompting a speaker who speaks uninterested in a meeting place to speak is changed, and the right to speak next is clearly indicated to any user when no talk occurs in the conversation place. This also has the effect of prompting the user to speak in a conversation place.
特に遠隔コミュニケーションにおいて、これらの効果は高い。 These effects are particularly high in remote communication.
次に、本発明の実施の形態について図面を参照して説明する。 Next, embodiments of the present invention will be described with reference to the drawings.
[第1の実施形態]
図1は本発明の第1の実施形態による次発言者明示装置の構成図である。ここでは、簡単のために、2台の次発言者明示装置1と2がネットワーク3を介して接続される例を示している。
[First Embodiment]
FIG. 1 is a block diagram of a next speaker specifying apparatus according to a first embodiment of the present invention. Here, for the sake of simplicity, an example is shown in which two next
次発言者明示装置1は通信装置11と音声再生装置12と収音装置13と提示装置14と撮像装置15と次発言者判定装置16とを有している。次発言者明示装置2も次発言者明示装置1と同じ構成で、通信装置21と音声再生装置22と収音装置23と提示装置24と撮像装置25と次発言者判定装置26とを有している。
The next
音声再生装置12は次発言者明示装置2の収音装置23で収音され、ネットワーク3を経て通信装置11で受信された音声を再生し、ユーザ301に提示する。収音装置13は提示装置14周辺の音声を収音し、該音声を通信装置11、ネットワーク3を介して次発言者明示装置2に送信する。提示装置14は、次発言者明示装置2の撮像装置25で撮影され、ネットワーク3を介して通信装置11で受信された映像や撮像装置15で撮影された映像や視覚エフェクトを提示する。撮像装置15は提示装置14周辺を撮影し、映像を通信装置11からネットワーク3を介して次発言者明示装置2に送信するもので、提示装置14の映像提示方向と同じ方向に向けて設置されている。次発言者判定装置16は次発言者を判定する。
The
図2は次発言者判定装置16の構成を示している。次発言者判定装置16はユーザ位置検出部101と視線方向検出部102と注視対象検出部103と次発言権者判定部104とエフェクト提示部105と発話音声検出部106と発話映像検出部107とエフェクト消去部108とを有している。図示していないが、次発言者判定装置26も、次発言者判定装置16と同じ構成である。
FIG. 2 shows the configuration of the next
ユーザ位置検出部101は、提示装置14に提示される、次発言者明示装置2の撮像装置25からの映像と自装置1の撮像装置15からの映像を元に、次発言者明示装置2と自装置1周辺にいる各ユーザの、取得映像上のユーザ領域の重心であるユーザ位置を検出する。また、あらかじめ取得される、各撮像装置のユーザ領域に対応するユーザ頭部の3次元位置を推定するキャリブレーションデータを元に、次発言者明示装置2の撮像装置25からの映像と自装置1の撮像装置15からの映像におけるユーザ領域より、ユーザ頭部の3次元位置を推定する。なお、各撮像装置に対して、カメラなどの撮像系を2台以上用い、ステレオ画像によりユーザ頭部の3次元位置を検出してもよい。
Based on the video from the
視線方向検出部102は、提示装置14に提示される、次発言者明示装置2の撮像装置25からの映像と自装置1の撮像装置15からの映像において、映像上のユーザの瞳を検出し、ユーザの目を球体とみなす場合に映像上の、ユーザの瞳の位置が球体上のどの位置にあるかによって、球体中心部より映像上の、ユーザの瞳の位置を通るベクトルを取得でき、該ベクトルを各ユーザの映像上の視線方向とする。なお、各ユーザにユーザの眼球用の撮像装置を装着させることによって正確な視線方向を検出してもよい。
The gaze
注視対象検出部103は、ユーザ位置検出部101で検出されたユーザ頭部の3次元位置と、視線方向検出部102で検出されたユーザの映像上の視線方向と、提示装置14の提示面の、撮像装置15を中心とした座標系における3次元位置、傾き、提示面の大きさにより、ユーザ位置検出部101で検出されたユーザ頭部の3次元位置からの視線方向検出部102で検出された、ユーザの、映像上の視線方向のベクトルが、提示装置14の提示面と交差するかどうかを検出し、交差する場合は交差している部分の、提示装置14の提示上の座標位置を取得し、該座標位置とユーザ位置検出部101で検出された各ユーザのユーザ位置より、自分を含むどのユーザの映像に対して該ユーザが視線を向けているのかを判定する。
The gaze
次発言者判定部104は、注視対象検出部103での結果を元に、会話の場で、現発話者に視線を向けているユーザを除いたユーザのうち、過半数のユーザの視線を得ているユーザがいる場合に、該ユーザを次発言者と判定する。
Based on the result of the gaze
エフェクト提示部105は、次発言者判定部104で次発言権があると判定されたユーザの提示装置14上の映像に対して、ユーザ位置検出部101で得た各ユーザのユーザ位置に重畳させて、該ユーザが次発言権を持つことを明示する吹き出しエフェクトを提示する。
The
発話音声検出部106は、通信装置11を介して音声再生装置12で得た音声、もしくは通信装置11を介さずに収音装置13で得た音声を用いて、音声より発話の有無を検出する。
The utterance
発話映像検出部107は、通信装置11を介して提示装置14で得た映像、もしくは通信装置11を介さずに撮像装置15で得た映像を用いて、映像より発話可能性のあるユーザを特定して検出する。
The utterance video detection unit 107 uses the video obtained by the
エフェクト消去部108は、発話音声検出部106によって発話の有りが所定時間以上検出され、かつ発話映像検出部107によって同じ地点において発話可能性のあるユーザが検出された場合、該ユーザが次発言者を含む、現発言者以外のユーザであったならば、エフェクト提示部105によって重畳されている吹き出しエフェクトを消す。ここで、「所定時間以上」は、発言の割込みや雑音を考慮したものである。
When the utterance
なお、次発言者判定装置16の各部で検出されたユーザ位置、視線方向、注視対象、次発言者等は不図示の記憶部に記憶される。
Note that the user position, line-of-sight direction, gaze target, next speaker, and the like detected by each unit of the next
図3は本実施形態における次発言者判定処理を示すフローチャート、図4は本実施形態におけるユーザ位置検出、エフェクト提示の例、図5は本実施形態における視線方向検出、注視位置検出の例を示している。 FIG. 3 is a flowchart showing the next speaker determination process in this embodiment, FIG. 4 shows an example of user position detection and effect presentation in this embodiment, and FIG. 5 shows an example of gaze direction detection and gaze position detection in this embodiment. ing.
次に、次発言者判定処理の流れを、他装置のユーザ401、自装置のユーザ301に注目して説明する。
Next, the flow of the next speaker determination process will be described by paying attention to the user 401 of the other apparatus and the
ユーザ位置検出部101は、提示装置14に提示される、次発言者明示装置2の撮像装置25からの映像と自装置1の撮像装置15からの映像を元に、次発言者明示装置2と自装置1周辺にいる各ユーザの、取得映像上のユーザ領域の重心であるユーザ位置402を検出する(ステップ201)。また、あらかじめ取得される、各撮像装置のユーザ領域に対応するユーザ頭部の3次元位置を推定するキャリブレーションデータを元に、次発言者明示装置2の撮像装置25からの映像と自装置1の撮像装置15からの映像におけるユーザ領域より、ユーザ頭部の3次元位置を推定する。図4において、他地点のユーザ401のユーザ位置402を検出する例を示す。映像の各フレーム間の差分を計算することで、映像中の動物体を検出し、ユーザであるとみなす動物体の領域を抽出し、映像上での該領域の重心を求めることで、ユーザであるとみなす動物体の中心位置を検出し、これをユーザ401のユーザ位置402とする(参考文献:「ディジタル映像処理」 八木伸行監修、映像情報メディア学会編、オーム社出版局)。他地点のユーザ401のユーザ頭部の3次元位置を推定する例を示す。予め他地点の撮像装置25を用いて取得される、撮像装置25に写るユーザ401の領域の大きさと領域の位置に対する、そのときの該ユーザ頭部の3次元位置を対応させたデータを、ユーザ頭部の3次元位置を推定するキャリブレーションデータとして保存しておく。ユーザ位置402の検出時に得た、ユーザ401であるとみなす動物体の領域より、ユーザの領域が近似するキャリブレーションデータを抽出する。該キャリブレーションデータに対応するユーザ頭部の3次元位置を、ユーザ位置402に対応するユーザの3次元位置と推定する。キャリブレーションデータ作成の粒度には、作成時のユーザ頭部の3次元位置のデータの粒度が依存する。撮像装置25の設置位置に大きく影響されるため一概に規定できないが、粒度を高くするほど、正確なユーザ頭部の3次元位置が推定できる。実用的には、次発言者明示装置2を利用する範囲にユーザ401がいる場合のキャリブレーションデータのみを保存することでデータ作成コストを省略することができる。
Based on the video from the
次に、視線方向検出部102は、提示装置14に提示される、次発言者明示装置2の撮像装置25からの映像と自装置1の撮像装置15からの映像において、図5に示すように、映像上のユーザの瞳302を検出し、ユーザの目を球体とみなす場合に映像上の、ユーザの瞳302の位置が球体上のどの位置にあるかによって、球体中心部より映像上の、ユーザの瞳302の位置を通るベクトルを取得し、該ベクトルを各ユーザの映像上の視線方向303とする(ステップ202)。ユーザの視線が撮像装置15に対して反対を向いている場合のように撮像装置15でユーザの瞳を前方向から撮影できない場合、各ユーザの視線方向の検出は難しい。しかし、提示装置14の方向を向いていないユーザは会話の場に参加する意図が少なく、会話の場の一員として捉える必要がないと考え、視線方向の検出は行わない。
Next, as shown in FIG. 5, the line-of-sight
次に、注視対象検出部103は、ユーザ位置検出部101におけるユーザ頭部の3次元位置と、視線方向検出部102におけるユーザの映像上の視線方向303と、提示装置14の提示面の、撮像装置15を中心とした座標系における3次元位置、傾き、提示面の大きさにより、ユーザ位置検出部101におけるユーザ頭部の3次元位置からの視線方向検出部102におけるユーザの、映像上の視線方向303のベクトルが、提示装置14の提示面と交差するかどうかを検出し、交差する場合は交差している部分の、提示装置14の提示上の座標位置(注視位置)304を取得し、注視位置304があるユーザのユーザ位置402に対して一定量の誤差の範囲内で、一定時間以上向けられている場合、該ユーザに対して視線を向けていると検出する(ステップ203)。具体的には、注視対象検出部103の注視位置情報が提示装置14上の該ユーザのユーザ位置に対して、提示装置上で2cmの誤差の範囲内に、1秒以上向けられていることを条件とする。この数値は変更可能であり、数値の変更によって次発言者判定処理の結果や、会話の場での会話の流れや発話数を制御することができる。
Next, the gaze
次に、次発言者判定部104は、会話の場にいるユーザの視線が集中する対象を検出することによって、次に発言を行う権利を明示的に持つユーザを判定する(ステップ204)。注視対象検出部203の結果を元に、自動的に投票を行い、次発言者を判定する。具体的には、現発話者に視線を向けているユーザを除いたユーザのうち、過半数のユーザの視線を得ている対象ユーザがいる場合に、該ユーザを次発言者と判定する。この投票条件は変更可能であり、現発話者に視線を向けているユーザを除かず全ユーザを対象に視線方向の投票を行う条件や、過半数でなく3分の2以上のユーザの視線を得ている対象ユーザがいるという条件が考えられ、それぞれの条件によって、発言権の移動を起こりやすくすることや、起こりにくくすることが可能である。
Next, the next
次発言者判定部104で、次発言者と判定されるユーザがいる場合は、該ユーザに次発言権を与え、エフェクト提示処理に移る(ステップ205)。次発言者判定部104で、次発言者と判定されるユーザがいない場合は、次発言者判定(ステップ202,203)を繰り返し行う。
If there is a user who is determined to be the next speaker in the next
次に、エフェクト提示部105は、次発言者判定部104で、次発言者と判定されるユーザがいる場合、該ユーザの映る映像に対してエフェクト提示処理を行う(ステップ206)。図4において、他地点のユーザ401が次発言者として判定された場合の例を示す。提示装置14上で、映像中の該ユーザ401の領域の重心である、ユーザ位置検出部101によって検出された該ユーザ401のユーザ位置402に吹き出しエフェクト403を重畳させる。重畳させる位置関係は、吹き出しエフェクトの尾404の先端がユーザ位置402に一致するように重畳することで、吹き出しエフェクト403が該ユーザ401より発信されたものだと見える位置関係である。
Next, when there is a user who is determined to be the next speaker by the next
次に、発話音声検出部106は、通信装置11を介して音声再生装置12で再生する、次発言者明示装置2からの音声、もしくは通信装置11を介さずに収音装置13で収音した音声を処理し、発話が行われていない時のノイズレベルより大きい音声入力を検出した場合、該音声入力が検出された時点で発話があったとみなす(ステップ211)。
Next, the utterance
発話映像検出部107は、通信装置11を介して提示装置14で提示する、次発言者明示装置2からの映像、もしくは通信装置11を介さずに撮像装置15で撮影した映像を処理し、映像より各ユーザの口の動きの変化を抽出し、あるユーザの口の動きに変化が合った場合、該ユーザに発話の可能性があるとみなす(ステップ212)。
The utterance video detection unit 107 processes the video from the next speaker specifying device 2 presented by the
エフェクト消去部108は、発話音声検出部106によってある地点での発話が所定時間以上有ったと検出され、かつ発話映像検出部107によって同じ地点で発話可能性のあるユーザがいると検出された場合、該ユーザが次発言者を含む、現発言者以外のユーザであったならば、エフェクト提示部105によって重畳されている吹き出しエフェクトを消す(ステップ213)。
When the utterance
[第2の実施形態]
本実施形態では、同一空間における会話の場での例について例示する。
[Second Embodiment]
In the present embodiment, an example in the place of conversation in the same space is illustrated.
図6は本実施形態の次発言者明示装置の全体図、図7は本実施形態の次発言者判定装置34のブロック図である。
FIG. 6 is an overall view of the next speaker specifying device of this embodiment, and FIG. 7 is a block diagram of the next
本実施形態の次発言者明示装置4は提示装置31と撮像装置32と収音装置33と次発言権者判定装置34を有している。
The next speaker specifying device 4 of the present embodiment includes a
提示装置31は、周辺にいるユーザ801に対して視覚エフェクトを提示し、会話の場の中央に、例えば会議室の会議デスク上に提示され、天井に設置したプロジェクタとデスク上に設置した平面白板より構成される、あるいはデスク上に設置した映像提示デバイスにより構成される。収音装置33は提示装置31の周辺の音声を収音する。撮像装置32は、提示装置31周辺を撮影し、提示装置31の映像提示方向と反対方向に向けて、提示装置31の近傍にいるユーザと提示装置31の提示内容を撮影可能な位置に設置される。次発言権判定装置34はユーザ位置検出部601と視線方向検出部602と注視対象検出部603と次発言権者判定部604とエフェクト提示部605と発話音声検出部606と発話映像検出部607とエフェクト消去部608を有している。
The
ユーザ位置検出部601は、提示装置31に提示される、撮像装置32からの映像を元に、各ユーザの取得映像上のユーザ領域の重心であるユーザ位置を検出する。視線方向検出部602は、提示装置31に提示される、撮像装置32からの映像において、映像上のユーザの瞳を検出し、ユーザの目を球体とみなす場合に映像上の、ユーザの瞳の位置が球体上のどの位置にあるかによって、球体中心部より映像上の、ユーザの瞳の位置を通るベクトルを取得し、該ベクトルを各ユーザの視線方向とする。注視対象検出部603は、ユーザ位置検出部601で検出されたユーザ位置と、視線方向検出部602で検出された各ユーザの視線方向より、どのユーザに対して視線を向けているのかを検出する。次発言者判定部604は、注視対象検出部603での結果を元に、会話の場で、現発話者に視線を向けているユーザを除いたユーザのうち、過半数のユーザの視線を得ているユーザがいる場合に、該ユーザを次発言者と判定する。エフェクト提示部605は、次発言者判定部604で次発言権があると判定されたユーザの付近で、かつ提示装置31上の該ユーザの視線方向にある部分に、該ユーザが次発言権を持つことを明示する吹き出しエフェクトを該ユーザから発信されたエフェクトであるように提示する。発話音声検出部606は、収音装置33で得た音声を用いて、音声より発話の有無を検出する。発話映像検出部607は、撮像装置32で得た映像を用いて、映像より発話可能性のあるユーザを特定して検出する。エフェクト消去部608は、発話音声検出部606によって発話の有りが所定時間以上検出され、かつ発話映像検出部607によって発話可能性のあるユーザが検出された場合、該ユーザが次発言者を含む、現発言者以外のユーザであったならば、エフェクト提示部605によって重畳されている吹き出しエフェクトを消す。ここで、「所定時間以上」は、発言の割込みや雑音を考慮したものである。
The user
なお、次発言者判定装置34の各部で検出されたユーザ位置、視線方向、注視対象、次発言者等は不図示の記憶部に記憶される。
Note that the user position, line-of-sight direction, gaze target, next speaker, and the like detected by each unit of the next
図8は本実施形態における次発言者判定処理を示すフローチャート、図9は本実施形態におけるユーザ位置検出とエフェクト提示の一例を示す図、図10は本実施形態における視線方向検出の一例を示す図である。 FIG. 8 is a flowchart showing the next speaker determination processing in this embodiment, FIG. 9 is a diagram showing an example of user position detection and effect presentation in this embodiment, and FIG. 10 is a diagram showing an example of gaze direction detection in this embodiment. It is.
次に、次発言者判定処理の流れを、ユーザ801に注目して説明する。 Next, the flow of the next speaker determination process will be described by paying attention to the user 801.
ユーザ位置検出部601は、提示装置31に提示される、撮像装置32からの映像を元に、各ユーザの取得映像上のユーザ領域の重心であるユーザ位置を検出する(ステップ701)(図9において、ユーザ801のユーザ位置802を検出する例を示す)。映像の各フレーム間の差分を計算することで、映像中の動物体を検出し、ユーザであるとみなす動物体の領域を抽出し、映像上での該領域の重心を求めることで、ユーザであるとみなす動物体の中心位置を検出し、これをユーザ801のユーザ位置802とする(参考文献:「ディジタル映像処理」 八木伸行監修、映像情報メディア学会編、オーム社出版局)。
The user
視線方向検出部602は、提示装置31に提示される、撮像装置32からの映像において、映像上のユーザの瞳を検出し、ユーザの目を球体とみなす場合に、ユーザの瞳の位置が球体上のどの位置にあるかによって、球体中心部より映像上の、ユーザの瞳の位置を通るベクトルを取得し、該ベクトルを各ユーザの視線方向とする(ステップ702)(図10において、ユーザ901のユーザの瞳902を検出することによって、ユーザ901の視線方向903を検出する例を示す)。ユーザの視線が撮像装置32に対して反対を向いている場合のように撮像装置32でユーザの瞳を前方向から撮影できない場合、各ユーザの視線方向の検出は難しい。しかし、提示装置31の方向を向いていないユーザは会話の場に参加する意図が少なく、会話の場の一員として捉える必要がないと考え、視線方向の検出は行わない。
The line-of-sight
注視対象検出部603は、視線方向検出部602によって検出されたユーザの視線方向903が、ユーザ位置検出部601で検出された各ユーザのユーザ位置802に対して一定量の誤差の範囲内で、一定時間以上向けられている場合、該ユーザに対して視線を向けていると検出する(ステップ703)。具体的には、視線方向検出部602によって検出されたユーザの視線方向903がユーザ801のユーザ位置802に対して、あらかじめ計測された提示装置31の大きさを基準にして1mの誤差の範囲内に、1秒以上向けられていることを条件とする。この数値は変更可能であり、数値の変更によって次発言者判定処理の結果や、会話の場での会話の流れや発話数を制御することができる。
The gaze
次発言者判定部604は、会話の場にいるユーザの視線が集中する対象を検出することによって、次に発言を行う権利を明示的に持つユーザを判定する(ステップ704)。注視対象検出部603の結果を元に、自動的に投票を行い、次発言者を判定する。具体的には、現発話者に視線を向けているユーザを除いたユーザのうち、過半数のユーザの視線を得ている対象ユーザがいる場合に、該ユーザを次発言者と判定する。この投票条件は変更可能であり、現発話者に視線を向けているユーザを除かず全ユーザを対象に視線方向の投票を行う条件や、過半数でなく3分の2以上のユーザの視線を得ている対象ユーザがいるという条件が考えられ、それぞれの条件によって、発言権の移動を起こりやすくすることや、起こりにくくすることが可能である。
The next
次発言者判定部604で、次発言者と判定されるユーザがいる場合は、該ユーザに次発言権を与え、エフェクト提示処理に移る(ステップ705)。次発言者判定部604で、次発言者と判定されるユーザがいない場合は、次発言者判定を繰り返し行う。
If there is a user who is determined to be the next speaker by the next
エフェクト提示部605は、次発言者判定部604で、次発言者と判定されるユーザがいる場合、該ユーザの映る映像に対してエフェクト提示処理を行う(ステップ706)。図9において、ユーザ801が次発言者として判定された場合の例を示す。次発言権があると判定されたユーザ801の視線方向にある提示装置31上に、次発言権を持つことを明示する吹き出しエフェクト803を提示する。重畳させる位置関係は、吹き出しエフェクトの尾804の先端が、ユーザ801のユーザ位置802に対して提示装置31上で最も近い位置に一致するように重畳することで、吹き出しエフェクト803が該ユーザ801より発信されたものだと見える位置関係である。
When there is a user who is determined to be the next speaker by the next
発話音声検出部606は、収音装置33で収音された音声を処理し、発話が行われていない時のノイズレベルより大きい音声入力を検出した場合、該音声入力が検出された地点で発話があったとみなす(ステップ711)。
The utterance
発話映像検出部607は、撮像装置32で撮影された映像を処理し、映像より各ユーザの口の動きの変化を抽出し、あるユーザの口の動きに変化が合った場合、該ユーザに発話の可能性があるとみなす(ステップ712)。
The utterance
エフェクト消去部608は、発話音声検出部606によって発話有りが所定時間以上検出され、かつ発話映像検出部607によって発話可能性のあるユーザがいると検出された場合、該ユーザが次発言者を含む、現発言者以外のユーザであったならば、エフェクト提示部605によって重畳されている吹き出しエフェクトを消す(ステップ713)。
When the utterance
なお、以上説明した次発言者明示装置の機能は、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータ内の揮発性メモリのように、一定時間プログラムを保持しているものを含む。 The function of the next speaker specifying apparatus described above is executed by recording a program for realizing the function on a computer-readable recording medium and causing the computer to read the program recorded on the recording medium. You may do. The computer-readable recording medium refers to a recording medium such as a flexible disk, a magneto-optical disk, and a CD-ROM, and a storage device such as a hard disk device built in a computer system. Further, the computer-readable recording medium is a medium that dynamically holds the program for a short time (transmission medium or transmission wave) as in the case of transmitting the program via the Internet, and in the computer serving as a server in that case Such as a volatile memory that holds a program for a certain period of time.
1,2,4 次発言者明示装置
3 ネットワーク
11,21 通信装置
12,22 音声再生装置
13,23,33 収音装置
14,24,31 提示装置
15,25,32 撮像装置
16,26,34 次発言者判定装置
101,601 ユーザ位置検出部
102,602 視線方向検出部
103,603 注視対象検出部
104,604 次発言者判定部
105,605 エフェクト提示部
106,606 発話音声検出部
107,607 発話映像検出部
108,608 エフェクト消去部
201〜206,211〜213 ステップ
301 ユーザ
302 ユーザの瞳
303 視線方向
304 注視位置
301‘ 映像上のユーザ
302‘ 映像上のユーザの瞳
303‘ 映像上の視線方向
401,801 ユーザ
402,802 ユーザ位置
403,803 吹き出しエフェクト
404,804 吹き出しエフェクトの尾
901 ユーザ
902 ユーザの瞳
903 視線方向
1, 2, 4 Secondary
Claims (5)
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザのユーザ位置とユーザ頭部の3次元位置を検出するユーザ位置検出ステップと、
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザの視線方向を検出するユーザ視線方向検出ステップと、
前記ユーザ頭部の3次元位置と、前記視線方向と、前記提示装置の提示面の、前記撮像装置を中心とした座標系における3次元位置、傾き、提示面の大きさにより、前記ユーザ頭部の3次元位置からの前記視線方向ベクトルが交差する、前記提示装置の提示面上の座標位置を取得し、該座標位置と前記各ユーザのユーザ位置より、各ユーザがどのユーザに対して視線を向けているのかを検出する注視対象検出ステップと、
視線を得ているユーザの投票処理を行い、所定の割合以上のユーザから視線を得ているユーザを次発言者のユーザと判定する次発言者判定ステップと、
次発言者と判定されたユーザの提示装置上の映像上に、該ユーザが次発言権を持つことを明示するエフェクトを提示するエフェクト提示ステップとを有する次発言者明示方法。 In a conference system in which a plurality of users at each site having an imaging device that captures an image of a user and a presentation device that presents an image captured by the imaging device to the user is conferred via a network . A next-speaker explicit method that detects and explicitly identifies the user that one of the users wants to speak next while speaking,
A user position detecting step for detecting a user position of each user on the video and a three-dimensional position of the user's head from the video of the imaging device at each site including the own site presented to the presentation device;
A user gaze direction detecting step for detecting a gaze direction of each user on the video from a video of the imaging device at each site including the own site presented to the presentation device;
According to the three-dimensional position of the user head, the line-of-sight direction, and the three-dimensional position, inclination, and size of the presentation surface of the presentation surface of the presentation device in the coordinate system centered on the imaging device, The coordinate position on the presentation surface of the presentation device where the line-of-sight vector from the three-dimensional position intersects is obtained, and from which user's line of sight to each user, the coordinate position and the user position of each user Gaze target detection step for detecting whether or not
A next speaker determination step of performing a voting process of a user who has obtained a line of sight and determining a user who has obtained a line of sight from a predetermined percentage or more of users as a user of the next speaker;
An effect presentation step of presenting an effect that clearly indicates that the user has the right to speak on the video on the presentation device of the user determined to be the next speaker.
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザのユーザ位置とユーザ頭部の3次元位置を検出するユーザ検出手段と、
前記提示装置に提示されている、自サイトを含む前記各サイトの前記撮像装置の映像より映像上の各ユーザの視線方向を検出するユーザ視線方向検出手段と、
前記ユーザ頭部の3次元位置と、前記視線方向と、前記提示装置の提示面の、前記撮像装置を中心とした座標系における3次元位置、傾き、提示面の大きさにより、前記ユーザ頭部の3次元位置からの前記視線方向ベクトルが交差する、前記提示装置の提示面上の座標位置を取得し、該座標位置と前記各ユーザのユーザ位置より、各ユーザがどのユーザに対して視線を向けているのかを検出する注視対象検出手段と、
視線を得ているユーザの投票処理を行い、所定の割合以上のユーザから視線を得ているユーザを次発言者のユーザと判定する次発言者判定手段と、
次発言者と判定されたユーザの提示装置上の映像上に、該ユーザが次発言権を持つことを明示するエフェクトを提示するエフェクト提示手段とを有する次発言者明示装置。 In a conference system in which a plurality of users at each site having an imaging device that captures an image of a user and a presentation device that presents an image captured by the imaging device to the user is conferred via a network . A next-speaker clarification device that detects and explicitly identifies the user that one of the users wants to speak next while speaking,
User detection means for detecting the user position of each user on the video and the three-dimensional position of the user head from the video of the imaging device at each site including the own site presented to the presentation device;
User gaze direction detection means for detecting the gaze direction of each user on the video from the video of the imaging device at each site including the own site presented to the presentation device;
According to the three-dimensional position of the user head, the line-of-sight direction, and the three-dimensional position, inclination, and size of the presentation surface of the presentation surface of the presentation device in the coordinate system centered on the imaging device, The coordinate position on the presentation surface of the presentation device where the line-of-sight vector from the three-dimensional position intersects is obtained, and from which user's line of sight to each user, the coordinate position and the user position of each user Gaze target detection means for detecting whether or not
Next speaker determination means for performing voting processing of users who have obtained a line of sight, and determining a user who has obtained a line of sight from a predetermined percentage or more of users as a user of the next speaker,
A next speaker specifying device comprising effect presentation means for presenting an effect indicating that the user has the next speaking right on the video on the presentation device of the user determined to be the next speaker.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005164119A JP4585380B2 (en) | 2005-06-03 | 2005-06-03 | Next speaker detection method, apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005164119A JP4585380B2 (en) | 2005-06-03 | 2005-06-03 | Next speaker detection method, apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006338493A JP2006338493A (en) | 2006-12-14 |
JP4585380B2 true JP4585380B2 (en) | 2010-11-24 |
Family
ID=37558980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005164119A Expired - Fee Related JP4585380B2 (en) | 2005-06-03 | 2005-06-03 | Next speaker detection method, apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4585380B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106416233A (en) * | 2014-06-27 | 2017-02-15 | 英特尔公司 | Technologies for audiovisual communication using interestingness algorithms |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8493390B2 (en) * | 2010-12-08 | 2013-07-23 | Sony Computer Entertainment America, Inc. | Adaptive displays using gaze tracking |
JP2019139387A (en) | 2018-02-07 | 2019-08-22 | 日本電信電話株式会社 | Estimation device, estimation method and program |
CN111654715B (en) * | 2020-06-08 | 2024-01-09 | 腾讯科技(深圳)有限公司 | Live video processing method and device, electronic equipment and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07162532A (en) * | 1993-12-07 | 1995-06-23 | Nippon Telegr & Teleph Corp <Ntt> | Inter-multi-point communication conference support equipment |
JPH10150648A (en) * | 1996-11-15 | 1998-06-02 | Nec Corp | Videoconference system |
JP2001350578A (en) * | 2000-06-06 | 2001-12-21 | Sensor:Kk | Device and method for input control by visual line and recording medium with control program to be inputted by visual line recorded thereon |
JP2003196017A (en) * | 2001-12-25 | 2003-07-11 | Gen Tec:Kk | Data input method and device |
-
2005
- 2005-06-03 JP JP2005164119A patent/JP4585380B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07162532A (en) * | 1993-12-07 | 1995-06-23 | Nippon Telegr & Teleph Corp <Ntt> | Inter-multi-point communication conference support equipment |
JPH10150648A (en) * | 1996-11-15 | 1998-06-02 | Nec Corp | Videoconference system |
JP2001350578A (en) * | 2000-06-06 | 2001-12-21 | Sensor:Kk | Device and method for input control by visual line and recording medium with control program to be inputted by visual line recorded thereon |
JP2003196017A (en) * | 2001-12-25 | 2003-07-11 | Gen Tec:Kk | Data input method and device |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106416233A (en) * | 2014-06-27 | 2017-02-15 | 英特尔公司 | Technologies for audiovisual communication using interestingness algorithms |
US10440071B2 (en) | 2014-06-27 | 2019-10-08 | Intel Corporation | Technologies for audiovisual communication using interestingness algorithms |
CN106416233B (en) * | 2014-06-27 | 2020-04-10 | 英特尔公司 | Audio-visual server, method and equipment for audio-visual communication |
US10972518B2 (en) | 2014-06-27 | 2021-04-06 | Intel Corporation | Technologies for audiovisual communication using interestingness algorithms |
US11863604B2 (en) | 2014-06-27 | 2024-01-02 | Intel Corporation | Technologies for audiovisual communication using interestingness algorithms |
Also Published As
Publication number | Publication date |
---|---|
JP2006338493A (en) | 2006-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10642569B2 (en) | Methods and devices for identifying object in virtual reality communication, and virtual reality equipment | |
US9949056B2 (en) | Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene | |
EP3424229B1 (en) | Systems and methods for spatial audio adjustment | |
US8411130B2 (en) | Apparatus and method of video conference to distinguish speaker from participants | |
US12032155B2 (en) | Method and head-mounted unit for assisting a hearing-impaired user | |
JP7347597B2 (en) | Video editing device, video editing method and program | |
WO2020015473A1 (en) | Interaction method and device | |
CN111936964B (en) | Non-interrupt NUI commands | |
CN108307659A (en) | Control method, translating equipment and the program of translating equipment | |
US20210065405A1 (en) | Identifying objects of interest in augmented reality | |
EP3412036B1 (en) | Method for assisting a hearing-impaired person in following a conversation | |
CN107087208B (en) | Panoramic video playing method, system and storage device | |
JP4585380B2 (en) | Next speaker detection method, apparatus, and program | |
CN114513622A (en) | Speaker detection method, speaker detection apparatus, storage medium, and program product | |
US20230267942A1 (en) | Audio-visual hearing aid | |
CN112751582A (en) | Wearable device for interaction, interaction method and equipment, and storage medium | |
JP2009060220A (en) | Communication system and communication program | |
JP2019071515A (en) | Communication device, communication system, and program | |
JP6191333B2 (en) | Information processing apparatus, communication system, and program | |
CN111144287A (en) | Audio-visual auxiliary communication method, device and readable storage medium | |
US20230215011A1 (en) | Panoramic video conference system and method | |
JP7292343B2 (en) | Information processing device, information processing method and information processing program | |
JP7342928B2 (en) | Conference support device, conference support method, conference support system, and conference support program | |
JP2022112784A (en) | Video call device, control apparatus to be used for the same, and control method | |
JP7151707B2 (en) | Information processing device, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061129 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070814 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100709 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100825 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100903 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130910 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |