本発明は、会議映像処理装置、会議映像処理方法およびプログラムに関する。
会議ビデオに索引付けし、その索引付けられたビデオを利用する技術、会議映像を分析する技術や会議ビデオを要約する技術あるいは規則やルールに基づいて会議ビデオを要約する会議記録に関する従来技術として以下のようなものが提案されている。
特許文献1記載の目次インデキシング装置は、エピソードデータに対応するインデックスをデータに付けて目次を表示し、選択されたエピソードデータを再生するというものである。特許文献2記載の方法は、ビデオ議事録を生成する方法であって、レコードは映像内容を持つ複数のフレームからなり、複数のフレームをサーチして1人以上の参加者による第1の有意な動きを探し、この第1の有意な動きを含むフレームが見つかったときに、このフレームを一つのビデオラベルとして記憶というものである。
特許文献3記載の装置は、会議中に捕らえられた画像を会議参加者が発する音声の録音とマッチさせることによって会議内容の索引付けを行うというものである。
特開平7−219971号公報
特開平9−9202号公報
特開2000−125274号公報
しかしながら、上記従来技術は、いずれも物理事象レベルでビデオに索引付け行い、その索引付けられたビデオの利用を可能にするものであるが、会議を撮影した映像データを対象とした場合、上記従来技術を用いても、会議参加者の行為に対して適切に索引付けを行うことができず、会議後に会議映像を視聴する者にとって有用な会議映像を提供することができていないという問題がある。
また、特許文献2記載の方法では、参加者の有意な動きに基づいて索引付けを行うようにしているが、この有意な動きは具体的に開示されていない。また、利用者に応じた会議映像の要約を提供することができない。
そこで、本発明は、上記問題点に鑑みてなされたもので、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる会議映像処理装置、会議映像処理方法およびプログラムを提供することを目的とする。
上記課題を解決するために、本発明の会議映像処理装置は、請求項1記載のように、会議映像情報から会議の参加者の1以上の物理事象を含む部分映像情報を抽出する抽出手段と、前記抽出手段によって抽出された部分会議映像情報について前記1以上の物理事象を抽象化した機能行為に基づいて、前記部分会議映像情報に対して索引を付加する付加手段とを備えることを特徴とする。請求項1記載の発明によれば、1以上の物理事象を抽象化した機能行為に基づいて会議映像情報を編集することができる。これにより、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。
また、本発明は、請求項2に記載のように、請求項1記載の会議映像処理装置において、更に、前記付加手段によって付加された索引結果に基づいて、前記会議映像情報を要約した会議映像を作成する作成手段を備えることを特徴とする。請求項2記載の発明によれば、機能行為に基づいて会議映像情報を要約した会議映像を作成するので、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。
また、本発明は、請求項3に記載のように、請求項2に記載の会議映像処理装置において、更に、前記作成手段により要約した会議映像を記録する記録手段を備えることを特徴とする。請求項3記載の発明によれば、機能行為に基づいて会議映像情報を要約した会議映像を記録できる。
また、本発明は、請求項4に記載のように、請求項2または請求項3記載の会議映像処理装置において、更に、前記作成手段により要約した会議映像を表示する表示手段を備えることを特徴とする。請求項4記載の発明によれば、機能行為に基づいて会議映像情報を要約した会議映像を表示できる。
また、本発明は、請求項5に記載のように、請求項1から請求項4のいずれか一項に記載の会議映像処理装置において、更に、同じ時間帯に撮影した前記会議映像が複数あった際に、これらの会議映像を同期させる同期手段を備えることを特徴とする。請求項5記載の発明によれば、複数の会議映像を同期させて処理できる。
また、本発明は、請求項6に記載のように、請求項1から請求項5のいずれか一項に記載の会議映像処理装置において、更に、前記付加手段による索引結果を所定の表示装置に表示するグラフィカル・ユーザ・インタフェースを有することを特徴とする。請求項6記載の発明によれば、索引結果を表示することで機能行為を視覚化できる。
また、本発明は、請求項7に記載のように、請求項1から請求項6のいずれか一項に記載の会議映像処理装置において、前記付加手段は、前記1以上の物理事象の所要時間の論理和から前記機能行為の所領時間を算出することを特徴とする。請求項7記載の発明によれば、1以上の物理事象の所要時間の論理和から機能行為の所要時間を算出することで、物理事象を抽象化することができる。
また、本発明は、請求項8に記載のように、請求項1から請求項7のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者のジェスチャーから前記機能行為を特定することを特徴とする。請求項8記載の発明によれば、会議参加者のジェスチャーから物理事象を抽象化した機能行為を特定できる。
また、本発明は、請求項9に記載のように、請求項1から請求項8のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の口の動きから前記機能行為を特定することを特徴とする。請求項9記載の発明によれば、会議参加者の口の動きから物理事象を抽象化した機能行為を特定できる。
また、本発明は、請求項10に記載のように、請求項1から請求項9のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の視線から前記機能行為を特定することを特徴とする。請求項10記載の発明によれば、会議参加者の視線から物理事象を抽象化した機能行為を特定できる。
また、本発明は、請求項11に記載のように、請求項1から請求項10のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の頭部の動きから前記機能行為を特定することを特徴とする。請求項11記載の発明によれば、会議参加者の頭部の動きから物理事象を抽象化した機能行為を特定できる。
また、本発明は、請求項12に記載のように、請求項1から請求項11のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の物を書く動作から前記機能行為を特定することを特徴とする。請求項12記載の発明によれば、会議参加者の物を書く動作から物理事象を抽象化した機能行為を特定できる。
また、本発明は、請求項13に記載のように、請求項1から請求項12のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の椅子から立ち上がる動作から前記機能行為を特定することを特徴とする。請求項13記載の発明によれば、会議参加者の椅子から立ち上がる動作から物理事象を抽象化した機能行為を特定できる。
また、本発明は、請求項14に記載のように、請求項1から請求項13のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の所定の入力装置へのタイピング動作から前記機能行為を特定することを特徴とする。請求項14記載の発明によれば、会議参加者の入力装置へのタイピング動作から物理事象を抽象化した機能行為を特定できる。
また、本発明は、請求項15に記載のように、請求項1から請求項14のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の顔の表情から前記機能行為を特定することを特徴とする。請求項15記載の発明によれば、会議参加者の顔の表情から物理事象を抽象化した機能行為を特定できる。
また、本発明は、請求項16に記載のように、請求項1から請求項15のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の音声データに基づいて前記機能行為を特定することを特徴とする。請求項16記載の発明によれば、音声データに基づいて物理事象を抽象化した機能行為を特定できる。
また、本発明は、請求項17に記載のように、請求項2から請求項16のいずれか一項に記載の会議映像処理装置において、前記作成手段は、前記機能行為のうちの発言、質問、発言型共有情報空間操作、質問型共有情報空間操作もしくは不発言型共有情報空間操作である能動的機能行為または発言型思考の機能行為を集めた振り返り用の会議映像を作成することを特徴とする。請求項17記載の発明によれば、会議に参加した人が後で参加した会議の映像を振り返って見る際に便利な会議映像を作成できる。例えば、参加者は能動的機能行為または発言型思考の機能行為の中から任意の機能行為を選んで振り返り用の会議映像を作成することもできる。
また、本発明は、請求項18に記載のように、請求項2から請求項17のいずれか一項に記載の会議映像処理装置において、前記作成手段は、前記機能行為のうちの発言、質問、発言型思考または発言型共有情報空間操作を集めた閲覧用の会議映像を作成することを特徴とする。請求項18記載の発明によれば、会議に参加していない人が会議の映像を閲覧する際に便利な会議映像を作成できる。この閲覧用の会議映像は振り返り用の会議映像を更に要約したものである。参加者は閲覧用の会議映像に該当する機能行為の中から任意の機能行為を選んで閲覧用の会議映像を作成することもできる。
また、本発明は、請求項19に記載のように、請求項2から請求項18のいずれか一項に記載の会議映像処理装置において、前記作成手段は、前記機能行為のうちの発言、発言型思考または発言型共有情報空間操作を集めた役員用の会議映像を作成することを特徴とする。請求項19記載の発明によれば、役員等のエグゼクティブな人が会議の映像を見る際に便利な会議映像を作成できる。この役員用の会議映像は振り返り用の会議映像を更に要約したものである。参加者は役員用の会議映像に該当する機能行為の中から任意の機能行為を選んで役員用の会議映像を作成することもできる。
また、本発明は、請求項20に記載のように、請求項6から請求項19のいずれか一項に記載の会議映像処理装置において、前記グラフィカル・ユーザ・インタフェースは、前記物理事象および前記物理事象を抽象化した機能行為を階層的に表示することを特徴とする。請求項20記載の発明によれば、物理事象とこの物理事象を抽象化した機能行為の違いを階層的に理解することができる。
また、本発明は、請求項21に記載のように、請求項6から請求項20のいずれか一項に記載の会議映像処理装置において、前記グラフィカル・ユーザ・インタフェースは、1以上の前記機能行為を抽象化したシーンを前記機能行為に対して階層的に表示することを特徴とする。請求項21記載の発明によれば、1以上の機能行為を抽象化したシーンを階層的に見ることで機能行為とこの機能行為を抽象化したシーンの違いを階層的に理解することができる。
また、本発明は、請求項22に記載のように、請求項6から請求項21のいずれか一項に記載の会議映像処理装置において、前記グラフィカル・ユーザ・インタフェースは、タイムライン形式または表形式によって前記索引結果を表現することを特徴とする。請求項22記載の発明によれば、利用者に分かりやすい形態の映像要約の属性情報を提供することが可能となる。
また、本発明は、請求項23に記載のように、請求項6から請求項22のいずれか一項に記載の会議映像処理装置において、前記グラフィカル・ユーザ・インタフェースは、前記機能行為を色によって表現することを特徴とする。請求項23記載の発明によれば、機能行為を色によって簡単に識別できる。
また、本発明は、請求項24に記載のように、請求項6から請求項23のいずれか一項に記載の会議映像処理装置において、前記グラフィカル・ユーザ・インタフェースは、前記機能行為に関する図的要素を色、形状またはアニメーション動作によって、音声的話者交代、身体的話者交代または音声的身体的話者交代を強調表現することを特徴とする。請求項24記載の発明によれば、強調表現により音声的話者交代または身体的話者交代または音声的身体的話者交代を図的に表現することが可能となる。
また、本発明は、請求項25に記載のように、請求項6から請求項24のいずれか一項に記載の会議映像処理装置において、前記グラフィカル・ユーザ・インタフェースは、索引識別子、索引開始時刻、索引終了時刻、機能行為、会議参加者の役割、意図する行為方向の各データを表現することを特徴とする。請求項25記載の発明によれば、機能行為に関するデータを詳しく見ることができる。
また、本発明は、請求項26に記載のように、請求項2から請求項25のいずれか一項に記載の会議映像処理装置において、前記作成手段は、前記部分映像情報のうちの所定の所要時間を超えない映像部分を用いて前記会議映像情報を要約した会議映像を作成することを特徴とする。請求項26記載の発明によれば、適当な所要時間の会議映像を生成することができる。
また、本発明の会議映像処理方法は、請求項27に記載のように、会議映像情報から会議の参加者の1以上の物理事象を含む部分映像情報を抽出する抽出ステップと、前記抽出手段によって抽出された部分会議映像情報について前記1以上の物理事象を抽象化した機能行為に基づいて、前記部分会議映像情報に対して索引を付加する付加ステップとを有することを特徴とする。請求項27記載の発明によれば、1以上の物理事象を抽象化した機能行為に基づいて会議映像情報を編集することができる。これにより、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。
また、本発明は、請求項28に記載のように、請求項27記載の会議映像処理方法において、更に、前記付加ステップによって付加された索引結果に基づいて、前記会議映像情報を要約した会議映像を作成する作成ステップを有することを特徴とする。請求項28記載の発明によれば、機能行為に基づいて会議映像情報を要約した会議映像を作成するので、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。
また、本発明のプログラムは、請求項29に記載のように、会議映像情報から会議の参加者の1以上の物理事象を含む部分映像情報を抽出する抽出ステップ、前記抽出手段によって抽出された部分会議映像情報について前記1以上の物理事象を抽象化した機能行為に基づいて、前記部分会議映像情報に対して索引を付加する付加ステップをコンピュータに実行させる。請求項29記載の発明によれば、1以上の物理事象を抽象化した機能行為に基づいて会議映像情報を編集することができる。これにより、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。
また、本発明は、請求項30に記載のように、請求項29記載のプログラムにおいて、更に、前記付加ステップによって付加された索引結果に基づいて、前記会議映像情報を要約した会議映像を作成する作成ステップを前記コンピュータに実行させることを特徴とする。請求項30記載の発明によれば、機能行為に基づいて会議映像情報を要約した会議映像を作成するので、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。
本発明によれば、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる会議映像処理装置、会議映像処理方法およびプログラムを提供できる。
以下、本発明を実施するための最良の形態について実施例を用いて説明する。
以下、第1実施例に係る会議映像処理装置を図面を参照しながら説明する。図1は、本実施例に係る会議映像処理装置の一例を示すブロック図である。会議映像装置1は、会議映像撮像部2、会議映像記録部3、部分会議映像抽出部4、索引付加部5、索引記録部6、会議映像表示部7、索引表示部8、同期部9、要約規則生成部10、要約記録記録部11、要約規則表示部12、映像要約生成部13、映像要約記録部14から構成される。
会議映像撮像部2、会議映像記録部3、部分会議映像抽出部4、索引付加部5、索引記録部6、会議映像表示部7、索引表示部8、同期部9、要約規則生成部10、要約記録記録部11、要約規則表示部12、映像要約生成部13、映像要約記録部14は、会議映像処理装置1の内部のネットワークまたはデータ回線および制御回線ないし回路を介して相互に接続される。
会議映像処理装置1は、会議映像を処理するもので、例えばCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM((Random access Memory)等を含んで構成されている。このCPUは所定のプログラムをRAM上に展開して図1に示す一部の機能を実現する。特許請求の範囲における会議映像処理方法はこのプログラムにより実行される。会議映像撮像部2は、ビデオ・カメラ、マイク・システム(集音システムないし収音システムまたは音声収録システム)またはそれらの組み合わせから構成されている。この会議映像撮像部2は、動画像データ、音声データまたはそれらを組み合わせた会議映像データを捕捉し、会議映像記録部3に出力する。
会議映像記録部3は、例えばメモリやハードディスクなどの記録媒体および記録装置によって構成されている。この会議映像記録部3は、会議映像撮像部2によって捕捉された会議映像データを入力し、内部のメモリないしハードディスクの記録媒体に記録する。会議映像記録部3は、記録する会議映像データ等を部分会議映像抽出部4、映像要約生成部13または会議映像表示部7にそれぞれ出力する。
部分会議映像抽出部4は、会議映像記録部3に記憶されている会議映像情報から会議の参加者の1以上の物理事象を含む部分映像情報を抽出する。また、部分会議映像抽出部4は、この部分会議映像情報から各物理事象ごとの映像情報を抽出する。部分会議映像抽出部4は、部分映像情報を抽出する際に、会議映像記録部3に記録されている会議映像情報の一部の情報を抽出することもあるし、または会議映像情報の全部の情報を抽出することもある。また、部分会議映像抽出部4が抽出した部分映像情報を、部分会議映像データまたは部分映像データと呼ぶこともある。部分会議映像抽出部4は、画像認識装置などの画像処理装置、映像処理装置(動画像データ処理装置もしくは視聴覚データ処理装置)、音声認識装置など音声処理装置等を含んで構成される。
索引付加部5は、例えばCPU等から構成されている。索引付加部5は、部分会議映像抽出部4で抽出された各物理事象ごとの映像情報に対して、各物理事象に応じた索引データを付加する。また、索引付加部5は、各物理事象に応じた索引データから1以上の物理事象を抽象化した機能行為を特定し、この機能行為に基づいて部分会議映像抽出部4によって抽出した部分会議映像データに索引を付加する。索引付加部5は、索引データを半自動または全自動で生成する。実施例1では索引データを半自動で生成するについて説明し、実施例2で索引データを全自動で生成する例について説明する。
また、索引付加部5は、いわゆるマウスなどのポインター、キーボードおよびディスプレイなどのグラフィカル・ユーザ・インタフェースを備える。利用者は、ポインター、キーボードおよびグラフィカル・ユーザ・インタフェースを用いて手動により索引データを生成することができる。
索引記録部6は、例えばメモリまたはハードディスクなど記録媒体および記録装置によって構成されている。索引記録部6は、索引付加部5から入力された索引データを記録し、索引表示部8または映像要約生成部13に出力する。会議映像表示部7は、例えばディスプレイ、モニター等の表示装置により構成されている。会議映像表示部7は、会議映像記録部3から出力される会議映像、部分会議映像抽出部から出力される部分映像および映像要約生成部13が要約した会議映像を表示する。索引表示部8は、例えばディスプレイ、モニター等の表示装置により構成され、索引記録部8から入力される索引データを利用者に表示する。
同期部9は、会議映像撮像部2で同じ時間帯に撮影した会議映像が複数あった際に、これらの会議映像データを同期させる。これにより複数の会議映像を同期できる。同期部9は、例えば同期化するためのパラメータとして遅延時間データを用いる。この遅延時間データは、各映像データに対する属性情報として会議映像記録部3に記録されるものである。
要約規則生成部10は、会議映像記録部3に記録されている映像データを要約するための要約規則データを生成するためのものである。要約規則生成部10は、生成した要約規則データを要約規則記録部11に出力する。要約規則記録部11は、例えばメモリまたはハードディスクなど記録媒体および記録装置によって構成されている。要約規則記録部11は、要約規則生成部10から入力された要約規則データを内部のメモリまたはハードディスクなどの記録媒体に記録し、要約規則記録部11に出力する。要約規則表示部12は、例えばディスプレイ、モニター等の表示装置によって構成され、要約規則記録部11から入力した要約規則データを利用者に表示する。
映像要約生成部13は、要約規則記録部11から入力された要約規則データおよび索引付加部5によって付加された索引結果に基づいて、会議映像記録部3の会議映像情報を要約した会議映像を作成する。映像要約生成部13は、要約会議映像を映像要約記録部14に出力する。映像要約記録部14は、メモリまたはハードディスクなど記録媒体および記録装置によって構成されている。映像要約記録部13は、映像要約生成部13により要約した会議映像を記録するものである。映像要約記録部13は、記録した当該映像要約データを会議映像表示部7に出力する。これにより、機能行為に基づいて作成された会議映像が会議映像表示部7に表示される。
部分会議映像抽出部4、索引付加部5、映像要約生成部13、映像要約記録部14、会議映像表示部7、同期部9が、特許請求の範囲における抽出手段、付加手段、作成手段、記録手段、表示手段、同期手段にそれぞれ相当する。
次に、会議参加者の行為について説明する。図2は、会議参加者の各行為を階層化した視覚化データ22で示す図である。この視覚化データ22は、後述するグラフィカル・ユーザ・インタフェースにより索引表示部8を介して利用者に提供される。図2に示すように、会議参加者の各行為は、シーン層22a、機能行為層22b、メディア層22cに分類される。シーン層22aは、機能行為層22bの上位層に当たる層である。例えば、「議論(discussion)」、「プレゼンテーション(presentation)」の行為がシーン層22aに分類される。
機能行為層22bは、機能行為を機能行為単位に表現し、シーン層22aの下位層で、メディア層22cの上位層に当たる層である。この機能行為層22bの詳細は後述するが、例えば発言(Statement)、発言形共有情報空間操作(Stating Public Information Space Manipulation)が機能行為に該当する。メディア層22cは、音声認識技術やジェスチャー認識技術のデータの入出力単位にデータを表現し、機能行為層22bの下位層に当たる層である。例えば、発話している、何かを見ている、ジェスチャー等のビデオの物理事象(イベント)がこのメディア層22cに分類される。したがって、1以上の物理事象を抽象化したものが機能行為と定義される。
このように、グラフィカル・ユーザ・インタフェースは、物理事象および物理事象を抽象化した機能行為を階層的に表示し、また1以上の機能行為を抽象化したシーンを機能行為に対して階層的に表示することにより、物理事象とこの物理事象を抽象化した機能行為の違いを階層的に理解することができ、また、機能行為とこの機能行為を抽象化したシーンの違いを階層的に理解することができる。
また、図2に示されるように、会議映像の構造化は、多階層のデータ表現によって構造化され、少なくとも一つの階層は機能行為に関する記述を内容とし、少なくとも他の一つの階層はシーンに関する記述を内容としている。なお、会議映像の構造化は、一つ以上の階層の単階層または多階層のデータ表現によって構造化されていてもよい。
また、会議処理装置装置1は、会議参加者の各行為を、階層化して視覚化するとともに階層化した表現としてデータを処理および保存ないし蓄積およびXML等を使って外部表現することもできる。
次に、会議参加者の機能行為を例示する。機能行為には、例えば、発言(Statement:ステイトメント)、発言権の取得(横取り、強奪)(Floor Grabber)、発言権の保持(Floor Holder)、観察(Observing)、参加(Attending)、不参加(Non-attending)、バック・チャネル(Back-channel)、質問(Question)、確認の質問(Confirming Question)、発言型思考(Stating Think)、質問型思考(Question Think)、確認の質問型思考(Confirming Question Think)、不発話型思考(Non-stating Think)、独り言(Self Talk)、発言型共有情報空間操作、質問型共有情報空間操作(Question Public Information Space Manipulation)、確認の質問型共有情報空間操作(Confirming Question Public Information Space Manipulation)、不発言型共有情報空間操作(Non-stating Public Information Space Manipulation)、参加型私的情報空間操作(Attending Private Information Space Manipulation)、不参加型私的情報空間操作(Non-attending Private Information Space Manipulation)、笑い(Laugh)、解釈不能(Non-decipherable)等の行為が含まれる。
なお、上記行為は機能行為の例示であり、機能行為は1以上の物理事象を抽象化したものをいい、これらの行為には限定されない。またこれらの機能行為については本実施例の最後に定義する。
次に、索引付加部5が提供するグラフィカル・ユーザ・インタフェース15について説明する。図3は、索引付加部が提供するグラフィカル・ユーザ・インタフェース15の表示例である。このグラフィカル・ユーザ・インタフェース15の表示は、例えばOS(Operating System)のUSERによって制御されている。
索引付加部5は、索引記録部6を介してこのユーザインターフェース15を索引表示部8に表示する。このグラフィカル・ユーザ・インタフェース15は、索引付加部5による索引結果を会議映像表示部7に表示する。ユーザはこのグラフィカル・ユーザ・インタフェース15を用いて会議映像処理装置1全体を制御することができる。また、機能行為に応じた索引を付加することもできる。
図3に示されるように、グラフィカル・ユーザ・インタフェース15は、映像表示ウィンドウ16a、16b、16c、16d、制御パネル17、メニュー18、機能行為記述テーブル19、トラック・テーブル20およびシーン記述テーブル21から構成される。各映像表示ウィンドウ16a〜16dは、会議映像記録部3に記録された会議映像や部分会議映像抽出部4で抽出した部分会議映像を表示する。このグラフィカル・ユーザ・インタフェース15は、一つの会議が四系統のビデオ・カメラと一系統のステレオ・マイクで捕捉され、各ビデオ・カメラの動画データをそれぞれ映像表示ウィンドウ16a、16b、16c、16dに表示する。
制御パネル17は、映像データ再生ボタン17a、映像データ停止ボタン17b、映像データ早送りボタン17c、映像データ巻き戻しボタン17dおよびスライダー・バー17eから構成されている。この制御パネル17は、映像表示ウィンドウ16a、16b、16c、16dに再生表示される動画データとスピーカーで再生される音声データ(両方を総称して映像データと呼ぶこともある)を制御するために利用者によって操作されるものである。
スライダー・バー17eは利用者が任意の時点の同期した動画データを映像表示ウィンドウ16a、16b、16c、16dに表示するために利用される。メニュー18は、ファイル・メニュー18aおよび要約メニュー18bから構成される。ファイル・メニュー18aは、「動画データの新規読み込み」、「既存データの読み込み」、「上書き保存」、「別名保存」、「終了」などのメニュー項目から構成される。
要約メニュー18bは、「振り返り用の会議映像」、「閲覧用の会議映像」および「役員用の会議映像」などのメニュー項目から構成される。これらの項目を選択することにより、会議映像から振り返り用の会議映像、閲覧用の会議映像、役員用の会議映像を生成することができる。振り返り用の会議映像は、会議に参加した人が後で参加した会議の映像を振り返って見る際に便利な映像である。閲覧用の会議映像は、会議に参加していない人が会議の映像を閲覧する際に便利な映像である。役員用の会議映像は、役員等のエグゼクティブな人が会議の映像を見る際に便利な映像である。
機能行為記述テーブル19A、19Bは会議参加者の人数に応じて設けられている。機能行為記述テーブル19Aは、行為者名を表示する行為者名表示領域19aおよび識別番号19b、開始時間19c、終了時間19d、機能行為名19e、行為者の役割19f、意図する行為方向19gの各欄から構成される。機能行為記述テーブル19Bは、会議参加者の各個人ごとに対応して生成および表示される。例えば、図3では、会議参加者が「Alice」と「Betty」の二人であると仮定し、「Alice」と「Betty」の各人に対応して、「Alice」用の機能行為記述テーブルと「Betty」用の機能行為記述テーブルの二つのテーブルが例示されている。
ここで、識別番号19bの欄は、機能行為の順番を識別するための番号であり、開始時間19cおよび終了時間19dの欄は、それぞれ一つの機能行為の開始時間と終了時間を記述する。機能行為名19eの欄には、前述のように定義した会議参加者の機能行為を記述する。ユーザが手動で索引付けする場合には、ユーザはグラフィカル・ユーザ・インタフェース15の映像表示ウィンドウ16a〜16dを参照して機能行為を特定し、特定した機能行為に応じた索引をキーボードを用いて入力すると、機能行為名19eの欄に機能行為名が表示される。
自動で索引付けする場合には、部分会議映像抽出部4で会議映像情報から会議の参加者の1以上の物理事象を含む部分映像情報を抽出し、索引付加部5でこの部分部分会議映像情報について1以上の物理事象を抽象化した機能行為を特定し、この機能行為に基づいて、部分会議映像情報に対して索引を付加する。これにより、グラフィカル・ユーザ・インタフェース15の機能行為名19eの欄に記述した機能行為名が表示される。
行為者の役割19fの欄には、開始者(Initiator)、応答者(Replier)、観察者(Observer)など行為者の抽象的な役割を記述する。意図する行為方向19gの欄には、機能行為の意図する行為方向を記述する。例えば、「Alice」が「Betty」に質問(Question)する機能行為の場合、意図する行為方向は、「Betty」となる。それに対する「Betty」の「Alice」に対する返答の場合の意図する行為方向は「Alice」となる。
グラフィカル・ユーザ・インタフェース15は、機能行為記述テーブル19に示すように、索引を、会議参加者ごとに、索引識別子、索引開始時刻、索引終了時刻、機能行為、会議参加者の役割、意図する行為方向の各データを表現する。
トラック・テーブル20は、同期させる際に必要なとなるズレを表すものであり、ビデオの識別子となるトラック番号20a、メディアを識別するメディア識別子20bおよび相対的な遅れ時間を示す遅延時間20cから構成される。トラック・テーブル20のデータは利用される(映像表示ウィンドウ16a、16b、16c、16dに表示される)動画データの数に応じて、生成および表示される。トラック番号20aと表示される映像表示ウィンドウ16a〜16dとは対応している。つまり、トラック番号20aの0番に対応する動画データは映像表示ウィンドウ16aに表示され、1番に対応する動画データは映像表示ウィンドウ16bに表示され、2番に対応する動画データは映像表示ウィンドウ16cに表示され、3番に対応する動画データは映像表示ウィンドウ16dに表示される。
トラック・テーブル20は、複数の動画データを同期するデータの情報を指定する、もしくは提供するためのものである。トラック番号20aは、トラック・テーブルのデータの順番を表現する。メディア識別子20bは、会議映像記録部3に記録されている動画データないし映像データの名前などの識別子を表現する。遅延時間20cは、システムが規定するメディア(映像データ)の再生開始時間からの相対的な遅延時間を示す。図3の例では、トラック番号20aが3番の動画データ、つまりメディア識別子20bの動画データが他の動画データに対して、0.05秒遅延していることを例示している。利用者は各映像データの遅延時間20cを指定することによって、複数のビデオを同期して再生することができる。
シーン記述テーブル21は、機能行為とは異なる抽象度もしくは意味の映像データに対する内容ないし構造の記述を表現するものであり、会議のシーンを記述するためのデータを表現するテーブルであり、識別番号21a、開始時間21b、終了時間21c、シーン名21dおよびフリー・テキスト・アノテーション21eの欄から構成される。識別番号21aの欄にはシーンの順番を識別するための番号を記述し、開始時間21bおよび終了時間21cの欄には各シーンの開始時間と終了時間をそれぞれ記述する。シーン名21dの欄は、議論やプレゼンテーションなどシーンを表現するシーン名を記述する。フリー・テキスト・アノテーション21eの欄には、各シーンでの出来事などをテキストで記述する。
機能行為記述テーブル19またはシーン記述テーブル21によって記録された索引データを、グラフィカル・ユーザ・インタフェース15によって、二次元的または三次元的に特定の図形要素を色付けし、時間的に配置することによって、利用者に対して、図的に表現することができる。
次に、二次元的な機能行為の図的表現について説明する。図4は、二次元的な機能行為の図的表現の一例を示す図である。つまり、図4は索引付けした会議映像の図的表現を示す図である。この会議映像の図的表現は、索引表示部8に表示される。本実施例では、会議には、「Alice」と「Betty」が参加しているものとする。
図4においては、会議参加者である「Alice」と「Betty」の各機能行為が参加者毎に、時間的に配列され、タイム・ライン形式または表形式によって表現されている。横軸は時間を示している。「Alice」、「Betty」の各欄の四角の1つがそれぞれ機能行為を示している。機能行為単位に索引付けが行われている。なお、図4では、「Alice」を対象とした見直しの映像要約を作成するために利用する機能行為に対応する図形要素を色で塗りつぶしている。
ここで、各機能行為は色付けられた長方形で表現されている。例えば、発言はローズ・ピンクで、発言権の取得(横取り)はオールド・ローズで、発言権の保持(Floor Holder)はボルドーで、観察はカルミンで、参加はスカーレットで、不参加チャイニーズ・レッドで、バック・チャネルはブロンドで、質問はブラウンで、確認の質問はベージュで、発言型思考はブロンズで、質問型思考はナポリ・イエローで、確認の質問型思考はクリーム・イエローで、不発話型思考はレモン・イエローで、独り言はシー・グリーンで、発言型共有情報空間操作はコバルト・グリーンで、質問型共有情報空間操作はビリジアンで、確認の質問型共有情報空間操作はトルコ・ブルーで、不発言共有情報空間操作セルリーン・ブルーで、参加型私的情報空間操作はアイロン・ブルーで、不参加型私的情報空間操作はウルトラマリンブルーで、笑いはバイオレットで、解釈不能はパープルで、一時の退室はスノー・ホワイトで、ミーティングルームの準備はグレーで色付けされる。
また、図4の例では、シーン記述に対応する導入部(introduction)、独り言(monologue)、発表(presentation)、議論(discussion)および話(talk)に対するラベルないし索引が表現されている。図4に示されるように、グラフィカル・ユーザ・インタフェースは、タイムライン形式または表形式によって索引付加部5による索引結果を表現するので、利用者に分かりやすい形態の映像要約の属性情報を提供できる。図4のように、グラフィカル・ユーザ・インタフェース15が特定の機能行為に関する図形要素を色、形状またはアニメーション動作によって、会議参加者の音声的話者交代、身体的話者交代または音声的身体的話者交代を強調表現することで、会議参加者の音声的話者交代、身体的話者交代または音声的身体的話者交代を図的に表現することができる。
次に、索引データをXMLデータとして表現する場合について説明する。この索引データは、索引付加部5で生成され、索引記録部6に記録されるものである。図5は、索引データをXMLデータとして表現した前半部分であり、図6は、索引データをXMLデータとして表現した後半部分である。図5および図6においては、索引データは、Mpeg7要素をルート要素とするXMLデータとして表現されている。
Mpeg7要素は、Description要素を持つ。Description要素は、索引付けに利用する映像データの集合を記述するContentCollection要素と機能行為を記述するSession要素を持つ。この例では、ContentCollectionは、二つの映像データの利用を記述するために、二つのMultiMediaContent要素を持つ。各MultiMediaContent要素は、AudioVisual要素を持ち、AudioVisual要素は、対応する映像データの所在を表現するMediaLocation要素と同期のための遅延時間を表現するMediaTime要素を持つ。
MediaLocation要素は、MediaUri要素を持ち、MediaUri要素は、映像データが記憶されている識別子を持つ。この例では、映像データとして、file:/video1.mpgとfile:/video2.mpgが利用されていることを表現している。一方、MediaTime要素は、MediaTimePoint要素を持ち、MeiaTimePoint要素は、システムが規定する基準時刻(基準点)からの相対的な遅延時間を表現する。この例では、file:/video1.mpgの遅延時間は、0.0秒で、すなわち遅れは無く、一方、file:/video2.mpgの遅延時間は、1.0秒であることを示す。つまり、file:/video2.mpgは、file:/video1.mpgに対して1秒の遅れがあり、会議映像処理装置1は、file:/video2.mpgをfile:/video1.mpgに対して1秒遅らせて、再生等を行う。
また、Session要素は、会議参加者を表現するActor要素と会議のシーンの集合を表現するConceptualSceneCollectionを持つ。この例では、二人の会議参加者を表現する二つのActor要素が記述されている。Actor要素は、会議参加者の名前を表現するName要素と会議参加者の機能行為の集合を表現するFunctionalActCollectionを持つ。この例では、「Alice」と「Betty」が会議参加者であることを示す。FunctionalActCollection要素は、機能行為を表現する一つ以上のFunctionalAct要素を持つ。この例では、会議参加者AliceとBettyに対応する機能行為は、それぞれ二つのFunctionalAct要素で表現されている。
FunctionalAct要素は、機能行為の時間を表現するMediaTime要素、会議参加者の役割を表現するRoleOfActor要素および意図する行為方向を表現するActDirectionIntention要素を持つ。また、FunctionalAct要素は、その属性として、機能行為の型を表現するtype属性および機能行為の識別子を表現するid属性を持つ。この例では、「Alice」の機能行為としてQuestionとObservingが表現され、一方、「Betty」の機能行為としてObservingとStatementが表現されている。
FunctionalAct要素中のMediaTime要素は、MeidaTimePoint要素およびMediaTimeDuration要素を持つ。このMeidaTimePoint要素は、機能行為の開始時刻を表現し、一方、MediaTimeDuration要素は対応する機能行為の所要時間を表現する。会議参加者AliceのQuestionの機能行為は、会議映像処理装置1の規定する基準時間(基準点)に対して0秒から1秒間の時間に生じたことを表現している。また、当該機能行為の会議の役割(RoleOfActor)は、Initiator(開始者)であり、意図する行為方向は、「Betty」であることをこの例が表現している。
また、ConceptualSceneColoection要素は、シーンを表現する一つ以上のConceptualScene要素を持つ。ConceptualScene要素は、シーンの内容を表現するTextAnnotation要素と対応するシーンの時間を表現するMediaTime要素を持つ。TextAnnotation要素は、FreeTextAnnotation要素を持つ。この例では、シーンが議論(discussion)であることを示している。また、対応するMediaTime要素は、MeidaTimePoint要素およびMediaDuration要素を持ち、それぞれシーンの開始時刻とシーンの所要時間を表現する。この例では、議論(discussion)が基準時間に対して0秒から60秒間行われたことを表現している。
次に、参加者の機能行為に応じて、利用者が手動によって部分会議映像に対して索引データを付加し、映像要約データを生成する方法について説明する。なお、自動的で参加者の機能行為に応じた索引データを生成、付加する例については、実施例2で説明する。図7は、会議記録手続きを示すフローチャートである。会議記録手続きは、会議映像を捕捉する会議映像捕捉ステップS1、会議映像の索引付けを行う会議映像索引付けステップS2および会議映像を要約する会議映像要約ステップS3を有する。
会議映像捕捉ステップS1においては、会議映像撮像部2から捕捉された動画データとマイク・システムから捕捉された音声データとからなる会議映像データが会議映像記録部3に記録される。この会議映像記録部3に記録された会議映像は、利用者の要求に応じて会議映像表示部7に表示される。利用者は、図3のグラフィカル・ユーザ・インタフェース15中の映像表示ウィンドウ16a、16b、16c、16dを通して、会議映像データ(会議映像の動画データ)を参照する。
利用者は複数の動画データを同期させるため、トラック・テーブル20のトラック番号20a、メディア識別子20bおよび遅延時間20cを指定する。トラック・テーブル20のトラック番号20a、メディア識別子20bおよび遅延時間20cの欄のデータは、索引付加部5から同期部9に伝えられる。同期部9はそれらのデータを利用して会議映像記録部3に記録されている映像データを同期させる。
次に、会議映像索引付けステップS2の手続きについて説明する。会議映像索引ステップS2は、部分会議映像抽出ステップS21、索引付加記録ステップS22および索引表示ステップS23を有する。部分会議映像抽出ステップS21においては、部分会議映像抽出部4は、会議映像記録部3に記録されている会議映像データから部分会議映像を抽出する。
索引付加記録ステップS22においては、グラフィカル・ユーザ・インタフェース15を用いて利用者によって部分会議映像抽出ステップS21において抽出された部分会議映像データに対して、参加者の機能行為に応じた索引データの索引付けが行われる。索引データは、図5および図6に示したように、XMLデータ等の形式で、索引記録部6に記録される。索引表示ステップS23においては、図5および図6で示したように、索引付加記録ステップS22において索引記録部6に記録されたXMLデータ形式等の索引データをグラフィカル・ユーザ・インタフェース15の表形式として利用者に提示する。
この会議映像索引付けステップS2においては、利用者は、図3で示した制御パネル17の映像データ再生ボタン17a等を操作しつつ、映像表示ウィンドウ16a、16b、16c、16dに表示されている動画データおよびスピーカーによって提示される音声データを視聴しながら、映像データの内容である会議参加者の機能行為を観察し、観察された機能行為を機能行為記述テーブル19に記述する。つまり、利用者は会議参加者の機能行為に応じて、識別番号19b、開始時間19c、終了時間19d、機能行為名19e、行為者の役割19fおよび意図する行為方向19gを記述する。ここで、開始時間19cおよび終了時間19dは対応する映像データから取得できる。
なお、機能行為記述テーブル19は、索引記録部6に記録される索引データのグラフィカル・ユーザ・インタフェースとしての表現であり、索引付加部5および索引表示部8の具体化である。
また、利用者が制御パネル17を使って特定の(部分的な)映像データを参照することは、会議映像処理装置1の部分会議映像抽出部4によって映像データを抽出することに対応する。さらに、利用者は、会議映像索引付けステップS2においては、制御パネル17の映像データ再生ボタン17a等を操作しつつ、映像表示ウィンドウ16a、16b、16c、16dに表示されている動画データおよびスピーカーによって提示される音声データを視聴しながら、映像データのシーンを特定し、対応するシーン名(例えば、議論やプレゼンテーションなど)をシーン記述テーブル21のシーン名21dの欄に、識別番号21a、開始時刻21b、終了時刻21cおよびフリー・テキスト・アノテーション21eの欄と共に記述する。
続いて、会議映像要約ステップS3の手続きの詳細について説明する。会議映像要約ステップS3では、目的に応じて様々な映像要約を生成する。会議映像要約ステップS3は、要約規則を生成する要約規則生成ステップS31および映像の要約処理を行う映像要約処理ステップS32を有する。
要約規則生成ステップS31においては、要約規則生成部10は、要約規則データを生成し、この要約規則データを要約規則記録部11に記録し、記録された要約規則データを要約規則表示部12によって利用者に表示する。なお、グラフィカル・ユーザ・インタフェース15においては、要約規則表示部12の具体化されたユーザインターフェースは例示していない。映像要約処理ステップS32においては、映像要約生成部13は、会議映像記録部3において記録されている会議映像データ、索引記録部6において記録されている索引データおよび要約規則記録部11に記録されている要約規則データを参照し、索引データおよび要約規則データに応じて会議映像データを編集し、要約された会議映像要約データを生成する。
ここで、映像要約処理ステップS32において、映像要約生成部13は、既定の最大部分映像所要時間と各部分映像データの所要時間とを比較する。映像要約生成部13は、候補となっている部分映像データのうち所要時間を超えない部分を用いて会議映像情報を要約した会議映像を作成する。所定の最大部分映像所要時間を例えば10秒と設定することができる。映像要約生成部13は、候補となった部分映像データの所要時間が10秒を超えた場合、最初の10秒間のみを映像要約データのデータ源の候補とすることができる。
映像要約生成部13によって生成された会議映像要約データは映像要約記録部14に記録される。記録された会議映像要約データは、会議映像表示部7に表示される。なお、映像要約処理ステップS32は、利用者がメニュー18の要約メニュー18bの項目を指定することによって、処理が始まるようにしてもよい。
次に、要約規則生成ステップS31について詳細に説明する。図8は、要約規則生成ステップS31の詳細を示すフローチャートである。要約規則生成ステップS31は、要約メニュー18bの中の「振り返り用の会議映像」、「閲覧用の会議映像」および「役員用の会議映像」を選択することにより処理が始まる。ここで、振り返り用の会議映像とは、会議に参加した人が後で参加した会議の映像を振り返って見る際に便利な会議映像である。閲覧用の会議映像とは、会議に参加していない人が会議の映像を閲覧する際に便利な会議映像でる。役員用の会議映像とは、役員等のエグゼクティブな人が会議の映像を見る際に便利な会議映像である。
まず、ステップS41で、要約規則生成部10は、振り返り用の会議映像が選択されているかどうかを判断し、振り返り用会議映像が選択されている場合、ステップS42に進み、振り返り用会議映像が選択されていない場合、ステップS43に進む。ステップS42の振り返り用会議映像規則生成ステップでは、要約規則生成部10は、機能行為のうち「能動的機能行為」または「発言型思考の機能行為」を取り扱う。参加者指定ステップS421においては、利用者により振り返り対象となる会議参加者名がキーボードなどによって指定される。振り返り関連機能行為判定ステップS422では、要約規則生成部10は、索引記録部6の索引データを参照し、「能動的機能行為」または「発言型思考の機能行為」のいずれかに対応する索引データがあるかどうかを判定する。
要約規則生成部10は、「能動的機能行為」または「発言型思考の機能行為」のいずれかに対応する索引データがあった場合、関連する部分会議映像データを振り返り映像要約のデータ源の候補とする映像要約生成規則を生成する。また要約規則生成部10は、振り返り用会議映像のデータ源の候補の中から、対応する部分映像データのシーンが「議論」である部分映像データを振り返り用の会議映像のデータ源の第二の候補とする映像要約生成規則を生成する。要約規則生成部10は、振り返り用の会議映像規則データとして要約規則記録部11に出力する。
ここで、能動的機能行為は、「発言」、「質問」、「発言型共有情報空間操作」、「質問型共有情報空間操作」および「不発言型共有情報空間操作」の機能行為の総称を意味する。なお、振り返り関連機能行為判定ステップS422において処理対象となる機能行為は、参加者指定ステップS421において指定された参加者に関連する機能行為のみが対象となる。
ステップS43で、要約規則生成部10は、閲覧用の会議映像が選択されているかどうかを判断し、閲覧用の会議映像が選択されている場合、ステップS44に進み、閲覧用の会議映像が選択されていない場合、ステップS45に進む。閲覧用の会議映像規則生成ステップS44では、要約規則生成部10は、「発言」、「質問」、「発言型思考」または「発言型共有情報空間操作」のいずれかの機能行為を取り扱う。
閾値および参加者指定ステップS441においては、映像要約生成のための閾値データが利用者によってキーボードなどで指定される。なお、閾値データは既定値として予め会議映像処理装置1が提供するものとしても良い。また、利用者によって対象とする会議参加者がキーボード等によって指定される。この閾値データは、対象となるシーンのシーン所要時間に対する候補となる部分映像データの所要時間の総和に対する比である。ここで、シーン所要時間は、各シーンの開始時間と終了時間の差として定義される。
閲覧関連機能行為判定ステップS442においては、要約規則生成部10は、索引記録部6を参照し、索引データが、「発言」、「質問」、「発言型思考」または「発言型共有情報空間操作」のいずれかの機能行為に対応するものであるか否かを判定する。要約規則生成部10は、「発言」、「質問」、「発言型思考」または「発言型共有情報空間操作」のいずれかの機能行為に対応する索引データがあった場合、関連する部分会議映像データを閲覧用の会議映像のデータ源の候補として映像要約規則を生成する。
要約規則生成部10は、処理対象の機能行為に対応する部分映像データのシーン所要時間と当該部分映像データの所要時間の総和との比が閾値および参加者指定ステップS441において指定された閾値データの値を超える場合に、当該部分映像データを閲覧用の会議映像のデータ源の第二の候補とする映像要約生成規則を生成する。要約規則生成部10は、生成した閲覧用の会議映像生成規則データとして要約規則記録部11に出力する。なお、閲覧関連機能行為判定ステップS442において、処理の対象となる機能行為は、閾値および参加者指定ステップS441において指定された会議参加者に関する機能行為のみが映像要約処理の対象となる。
ステップS45で、要約規則生成部10は、役員用の会議映像が選択されているかどうかを判断し、役員用の会議映像が選択されている場合、ステップS46に進み、役員用の会議映像が選択されていない場合、要約規則生成処理を終了する。この役員用の会議映像規則生成ステップS46では、要約規則生成部10は、「発言」、「発言型思考」または「発言型共有情報空間操作」のいずれかの機能行為を取り扱う。
閾値および参加者指定ステップS461においては、映像要約生成のための閾値データが利用者によってキーボードなどで指定される。なお、閾値データは既定値として予め会議映像処理装置1が提供するものとしても良い。また、利用者によって対象とする会議参加者がキーボード等によって指定される。この閾値データは、対象となるシーンのシーン所要時間に対する候補となる部分映像データの所要時間の総和に対する比である。
役員関心対象機能行為判定ステップ462においては、要約規則生成部10は、索引記録部6を参照し、「発言」、「発言型思考」または「発言型共有情報空間操作」のいずれかの機能行為に対応する索引データがあるか否かを判定する。要約規則生成部10は、「発言」、「発言型思考」または「発言型共有情報空間操作」のいずれかの行為に対応する索引データがあった場合、関連する前記部分会議映像データを役員用の会議映像のデータ源の候補とする要約規則データを生成する。
要約規則生成部10は、候補となった役員用の会議映像のデータ源の候補の中から、対応する部分映像データのシーンが「議論」または「プレゼンテーション」である部分映像データを役員用の会議映像のデータ源の第二の候補とする要約規則データを生成する。要約規則生成部10は、さらに処理対象の機能行為に対応する部分映像データのシーン所要時間と当該部分映像データの所要時間の総和との比が前記閾値および参加者指定ステップS461において指定された閾値データの値を超える場合に、当該部分映像データを役員用の会議映像のデータ源の第三の候補とする映像要約生成規則を生成する。要約規則生成部10は、生成した要約規則データを役員用の会議映像規則データとして要約規則記録部11に出力する。なお、役員関心対象機能行為判定ステップS462において、処理の対象となる機能行為は、閾値および参加者指定ステップS461において指定された会議参加者に関する機能行為のみが映像要約処理の対象となる。
次に、会議映像要約を三種類の利用場面に分けて、会議映像要約ステップS3の手続きの詳細を説明する。会議映像要約は、利用者のメニュー18の要約メニュー18bの「振り返り用の会議映像」項目、「閲覧用の会議映像」項目または「役員用の会議映像」項目のいずれかを選択することによって、それぞれ「振り返り用の会議映像」「閲覧用の会議映像」または「役員用の会議映像」の場合に分けられる。
まず、「振り返り用の会議映像」の場合について説明する。「振り返り用の会議映像」の場合、要約映像生成部13は、振り返り用の会議映像規則生成ステップS42の手続きで生成された振り返り用の会議映像規則データを用いて、索引記録部6に記録されている索引データから対象となる索引データを抽出する。映像要約生成部13は、当該索引データに関連する映像データまたは部分映像データを会議映像記録3から抽出し、機能行為のうちの発言、質問、発言型共有情報空間操作、質問型共有情報空間操作もしくは不発言型共有情報空間操作である能動的機能行為または発言型思考の機能行為を集めた振り返り用の会議映像データを作成する。
次に、「閲覧用の会議映像」の場合について説明する。「閲覧用の会議映像」の場合、要約映像生成部13は、閲覧用の会議映像要約規則生成ステップS44の手続きで生成された閲覧用の会議映像規則データを用いて、対象となる索引データを索引記録部6から抽出する。映像要約生成部13は、当該索引データに関連する映像データまたは部分映像データを会議映像記録部3から抽出し、機能行為のうちの発言、質問、発言型思考または発言型共有情報空間操作を集めた閲覧用の会議映像データを作成する。
最後に、「役員用の会議映像」の場合について説明する。「役員用の会議映像」の場合、要約映像生成部13は、役員用の会議映像規則生成ステップS46の手続きで生成された役員用の会議映像規則データを用いて、対象となる索引データを索引記録部6から抽出する。映像要約生成部13は、当該索引データに関連する映像データまたは部分映像データを抽出し、機能行為のうちの発言、発言型思考または発言型共有情報空間操作を集めた役員用の会議映像データを作成する。
ここで、前述の三種類の会議映像要約において、どのように機能行為に関するデータが利用されて要約処理が行われるかを図9および図10を用いて説明する。図9は、会議参加者としてAlice、BettyおよびCherrylの三人が会議に参加し、各人の機能行為が本発明の実施例のように特定された場合のタイムラインの例を示している。つまり、図9は、機能行為の所要時間を表現するタイムラインの例を示す。また、図9の横軸は時間(の経過)を示す。
図9において、Aliceは、会議において、(a)発言、(b)発言、(c)バックチャネル、(d)質問、(e)バックチャネルおよび(f)不発言型共有時間操作を行ったことを示している。また、図9において、Bettyは、(g)発言を行い、Cherrylは(h)発言を行ったことを表現している。ここで、前述の振り返り用の会議映像規則生成ステップS42では、会議に参加した会議参加者が会議開催後に映像要約を使って対象となる会議を振り返るための映像要約の規則を生成するものとする。
また、前述の閲覧用の会議映像規則生成ステップSS44では、会議に参加しなかった者が、会議開催後に映像要約を使って対象となる会議を閲覧するための映像要約の規則を生成するものとする。また、前述の役員用の会議映像規則生成ステップSS46では、会議参加者の役員ないし上長あるいは管理者が当該会議を対象となる会議を参照するための映像要約の規則を生成するものとする。
例えば、Aliceは、会議に参加していたので「振り返り用の会議映像」を利用して会議映像を振り返ることができる。また、Dianaは、会議に参加していなかったので「閲覧用の会議映像」を利用して会議映像を閲覧することができる。さらに、Aliceの管理者であり、役員であるEllyは、「役員用の会議映像」を利用して会議映像を参照することができる。ここで、Dianaは対象となる会議には参加しなかったものとする。なお、ここの参加しなかったことの意味は、物理的に参加しなかった、あるいは、テレビ会議等で(テレビ会議等の機器を利用しないで)会議に参加しなかった場合などであり、機能行為の「不参加」とは意味が異なり、会議に何らの関与もなかったことを意味する。
ここで、Aliceが「振り返り用の会議映像」を使用する場合、Aliceは前述の参加者指定ステップS421においては参加者として自分自身つまりAlice自身を指定する。このようにAlice自身を参加者として指定することによって、Aliceの機能行為のみを対象することができる。つまり、Aliceの「振り返り用の会議映像」における機能行為の対象は、図9の(a)発言、(b)発言、(c)バックチャネル、(d)質問、(e)バックチャネルおよび(f)不発言型共有時間操作にまず限定される。次に、前述のように振り返り用の会議映像規則生成では、機能行為のうち「能動的機能行為」または「発言型思考の機能行為」のみを取り扱う。そこで、図9の(a)発言、(b)発言、(d)質問および(f)不発言型共有時間操作の機能行為を対象として要約処理が進められる。
次に、会議に参加していなかったDianaが「閲覧用の会議映像」を使用する場合、まず、Dianaは会議参加者を指定する。例えば、Dianaは閾値および参加者指定ステップS421においてAliceを指定したとする。そこで、「閲覧用の会議映像」における機能行為の対象は、図9の(a)発言、(b)発言、(c)バックチャネル、(d)質問、(e)バックチャネルおよび(f)不発言型共有時間操作にまず限定される。
次に、前述のように「閲覧用の会議映像」においては、「発言」、「質問」「発言型思考」または「発言型共有情報空間操作」のいずれかの機能行為が処理対象となるので、結局、図9の(a)発言、(b)発言および(d)質問のみの機能行為を対象として要約処理が進められる。次に、役員であるEllyが「役員用の会議映像」を使用する場合、閾値および参加者指定ステップS461において、EllyがAlice、BettyおよびCherrylを指定したとする。前述のように、役員用の会議映像規則生成ステップS46においては、「発言」、「発言型思考」または「発言型共有情報空間操作」のいずれかのみの機能行為を対象としているので、図9のAliceによる(a)発言、(b)発言、Bettyによる(g)発言、Cherrylによる(h)発言のみの機能行為を対象として要約処理が進められる。
次に、閾値の処理手続きについて説明する。閾値をよりコンパクトな映像要約を生成するために利用することができる。例えば、閾値を処理対象とする機能行為の所要時間の上限を設定するために利用することができる。図10は、閾値よりも長い所要時間を持つ機能行為と閾値より短い所要時間を持つ機能行為の例を示す。また、図10の横軸は時間(の経過)を示す。図10では、Aliceが(a’)発言と(b’)発言を行ったことを表現している。
ここで、処理対象とする機能行為の所要時間の上限を設定するために、閾値tを8秒と設定したとする。また、Aliceの先行する(a’)発言は10秒で、Aliceの後続する(b’)発言は6秒だったとする。映像要約処理を行う場合に、8秒の閾値tを上限にして、発言の機能行為が処理されるとき、先行する(a’)の発言は、発言の先頭から8秒のみを処理対象とすることができる。一方、8秒の閾値tより短い後続する(b’)発言はすべて部分を処理対象とすることができる。
次に、上記で例示した各機能行為を定義する。発言とは、他のいずれのカテゴリーの機能行為にも属さないいわゆる話として最も良く記述ないし説明されるものであり、言語行為に関連付けられる。質問(Question)は別のカテゴリーであるけれども、修辞的な質問は発言として分類される。発言権の取得は、議論に参加していない参加者が議論に入ることを望むときに生じる行為である。
発言権の取得には、音声的現象および視覚的現象の両方がなり得る。発言権の取得には、例えば、参加者が話を始めたいことを示すために手を上げる、あるいは他の人々の注意を惹くために音を立てるなどの行為が含まれる。発言権の保持とは、誰か他の人が発言権を取ろうとしているとき、参加者が、その参加者の発言権の順番を維持しようと試みることを除いて、上述の発言権の取得と同じ行為をいう。
観察とは、他の行為なしに(他の行為を伴わず)、参加者が注意強奪点(attention grabbing point)を意図的に見る行為を意味する。ここで、注意強奪点とは、文字通り参加者の注意や関心を惹くものや人の行為などを意味する。参加とは、意図することなく注意強奪点を見る行為を意味する。参加者は目を驚かせたり、座る位置を変えるかも知れない。この行為の意図する行為方向(act intention direction)を見つけること(特定すること)は、もし注視(gaze)のみを考慮するならば、考えるほど難しくは無い。
人がどこかに注視しているときは重要であり、特に、この行為の最初と最後の注視方向は、意図する行為方向に対する良い手がかりとなる。また、誰か他の人がバック・チャネル(Back-channel)を行ったり、あるいは、話者がどことなく彼または彼女の話を強調する場合(例えば、姿勢の動き、音声的強調など)、参加している(attending)参加者は、意図する行為方向(act direction intention)を見ると考えられる。不参加とは、参加者が意図的に会議と関係の無い事に巻き込まれることを意味する。例えば、睡眠、電話に出て話すことが不参加に該当する。
バック・チャネルとは、参加者が議論を続ける場合の確認のサインを意味する。例えば、うなずきまたは「へぇー」などの短い言語的なメッセージがバック・チャネルに該当する。質問とは、回答者に対して発言権をオープンのままにする質問を意味する。確認の質問とは、回答者に対して発言権を与えないことを意図した質問を意味する。この確認の質問は、通常短いメッセージである。
発言型思考とは、発言を伴う思考の行為を意味し、もし参加者が上を向いているならば、この行為を決定するサインである。質問型思考とは、質問を伴う思考の行為を意味する。確認の質問型思考とは、確認の質問を伴う思考を意味する。不発話型思考とは、発言をしない状態での思考を意味する。独り言とは、誰にも向けられていない話を意味する。通常良いサインの一つは、下を向いている場合である。これは意図する行為方向を持たない。
発言型共有情報空間操作とは、発言しながら、会議における二人の参加者以上に共有されているホワイト・ボードあるいは他の任意の情報空間(information space)に何かを書く等の行為を意味する。質問型共有情報空間操作とは、質問しながら、会議における二人の参加者以上に共有されているホワイト・ボードあるいは他の任意の情報空間に何かを書く等の行為を意味する。確認の質問型共有情報空間操作とは、確認の質問をしながら、会議における二人の参加者以上に共有されているホワイト・ボードあるいは他の任意の情報空間に何かを書く等の行為を意味する。
不発言共有情報空間操作とは、会議における二人の参加者以上に共有されているホワイト・ボードあるいは他の任意の情報空間に何かを書く等の行為を意味する。不発言共有情報空間操作以外の発言していない機能行為の場合、意図する行為方向(act intention direction)を持たない。参加型私的情報空間操作とは、参加者が意図的に私的情報空間(private information space)に巻き込まれている場合で、会議に参加しているときを意味する。例えば、メモを紙に書くあるいはラップトップ・コンピューターに書くなどの行為がこの参加型私的情報空間操作に当たる。この場合、参加者は会議を一瞥し、さらに短いコメントまたはバック・チャネルを行うときもある。
不参加型私的情報空間操作とは、参加者が意図的に私的情報空間に巻き込まれている場合で、会議に参加していないときを意味する。笑いとは、笑うことを意味する。解釈不能とは、行為もしくは意図する行為方向がビデオから解釈できない場合を意味する。
以上、実施例1によれば、1以上の物理事象を抽象化した機能行為に基づいて会議映像情報を編集することができる。これにより、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。
次に実施例2について説明する。実施例2では、索引付加部5において参加者の機能行為に応じた索引データを自動的に生成する例について説明するものである。第2実施例では、音声/非音声区間の検出ないし音声認識技術やジェスチャー認識技術を利用して、映像データから機能行為を特定し、特定した機能行為を、クラスタリング技術等を用いて特定したシーンと共に自動的に参加者の機構行為に応じた索引データを生成する。
図11は、索引を表示するまでの処理フローチャートである。処理手続きは、図11のフローチャートに示すように、事象索引付けステップS51、機能行為索引付けステップS52、シーン索引付けステップS53および索引表示ステップS54から成る。なお、事象索引付けステップS51、機能行為索引付けステップS52およびシーン索引付けステップS53は、上述した索引付加記録ステップS22を詳細化したものである。
事象索引付けステップS51においては、索引付加部5は、メディア層22cに対応する映像データの索引付けを行う。具体的には、索引付加部5は、部分会議映像抽出部4において抽出された部分会議映像データから会議参加者の視線やうなずきなどの各物理事象を特定し、索引付けおよび映像データの構造化を行う。機能行為索引付けステップS52においては、索引付加部5は、機能行為層22bに対応する映像データの索引付けを行う。具体的には、索引付加部5は、メディア層22cとして構造化された物理事象の索引データに基づいて機能行為を特定し、索引付けおよび映像データの構造化を行う。
シーン索引付けステップS53においては、索引付加部5は、シーン層22aに対応する映像データの索引付けを行う。具体的には、索引付加部5は、機能行為層22bとして構造化された機能行為の索引データに基づいてシーンを特定し、索引付けおよび映像データの構造化を行う。索引表示ステップS54においては、索引表示部8は、メディア層22c、機能行為層22bおよびシーン層22aとして構造化された索引データを利用者に対して図2のように図的に視覚化する。
図12は、機能行為層とメディア層における映像データの構造化の一例を示す図である。ここで、メディア層22cの四つのイベント(事象)は、事象Aが離席を表現する事象であり、事象Bが発話を表現する事象であり、事象Cがホワイトボードへの書き込みを表現する事象であり、事象Dが着席を表現する事象であるとする。ここで、事象Bと事象Cは同時並行的に生じているものとする。具体的には、会議参加者が発話しながらホワイトボードに書き込みを行っているとする。このような事象の索引データに基づいて、対応する機能行為層22bでは、機能行為として発言型共有情報空間操作の機能行為を特定することができる。
なお、上記において、シーンの境界を特定する際には、金子らの“ゆう度比検定を用いたMPEGビットストリームからの動画像カット検出手法”,電子情報通信学会論文誌D-II vol. J82-D-II, No.3, pp.361-370(1990)を用いることができる。また、複数のカットで一つのシーンが構成されている場合には、Boreczkyらの“An Interactive Comic Book Presentation for Exploring Video”, CHI2000 CHI Letters, volume 2, issue 1, pp.185-192,(2000)において利用されているクラスタリング手法を用いて、複数のカットを一つのシーンとしてまとめて取り扱うことができる。Boreczkyらは、ビデオのすべてのフレームをクラスタリングしている。ここでは、フレームは、階層的集団クラスタリング技術(hierachical agglomerative clustering technique)のいわゆる完全リンク法(complete link method)を使ってクラスタリングされる。
また、(部分会議)映像データから「発言」の機能行為を特定するために、丸山らが“ワードスポッテングと動的計画法を用いたテレビ番組に対する字幕提示タイミング検出法”で利用されているBlock Cepstrum Fluxを用いることができる。つまり、音声および非音声の閾値から非音声と判断されたフレームが一定以上連続した場合、その区間を非音声区間、残りを全て音声区間として判定して、音声区間を検出することで、映像データから「発話」の機能行為を特定することができる。
また、手振りで「発言権の取得」を示している場合、(部分会議)映像データからそのような手振りや身振りを検出する方法として、従来のジェスチャー認識技術を利用することができる。例えば、特開2001−229398号公報記載の装置を用いて、動画キャラクターの動作を自然にするため、動作者のジェスチャーを映像から取得し、動作を再生可能な基準にパラメータ化して、パラメータにタグを付け記憶し、キャラクター動作に利用できる。また、特開2000−222586号公報記載の装置を用いて、映像中のオブジェクトに対するモーション情報を効率的に記述するために、モーションヒストグラムを累積した累積モーションヒストグラムを生成し、映像中の内容物に対するモーション情報を効率的に記述したモーションディスクリプタを生成し、ビデオ検索に利用できる。
さらにジェスチャー認識を行うために、モデルを構築して、連続するフレーム画像から精度よく動物体の動作と構造を推定したものもいくつか提案されている。例えば、特開平9−245178号公報記載のジェスチャー動画像認識方法を用いて、動画像を構成する複数のフレーム画像の各々をベクトル空間上の一つの点とみなし、当該点の動作軌跡をジェスチャーの種類ごとの特徴パラメータとし、当該抽出された特徴パラメータと基準パターンの特徴パラメータとを比較することにより、ジェスチャー認識を行うことができる。
また、特開平11−238142号公報記載の装置を用いて、元映像において行われるジェスチャーに関して、問いかけ(身を乗り出す)または同意(うなづく)など、ジェスチャーの意味的な単位は分割されているので、各単位ジェスチャーに付与される意味ラベルを構築し、意味ラベルからジェスチャーの意味を抽出し、ジェスチャーの開始時刻と終了時刻を記述したスクリプト生成できる。また、特開平6−89342号公報記載の動画像処理装置を用いて、動画像を構成する複数の画像を入力し、画像間における少なくとも3点の特徴点の位置の変化から画像フレーム間のアフィン変形を推定して、画像の特徴量の位置の変化から対象物体の動きおよび構造を検出することができる。これらのジェスチャー認識技術を映像データから「発言権の取得」や「バック・チャネル」等の機能行為を特定するために利用することができる。
次に、索引付加部5における機能行為の特定方法について説明する。索引付加部5は、1以上の物理事象の所要時間の論理和から機能行為の所領時間を算出する。この機能行為の所要時間は、機能行為の開始時刻と機能行為の終了時刻から特定することが可能で、前述の機能行為索引付けに利用することができる。つまり、機能行為の所要時間を映像データの構造化に応用することができる。また、索引付加部5は、部分会議映像情報に含まれる会議参加者のジェスチャー、会議参加者の口の動き、会議参加者の視線、会議参加者の頭部の動き、会議参加者の物を書く動作、会議参加者の椅子から立ち上がる動作、会議参加者の所定の入力装置へのタイピング動作、会議参加者の顔の表情、会議参加者の音声データなどから機能行為を特定する。
まず、発言(Statement)の場合について説明する。図13は、発言(Statement)の機能行為に関するタイムラインの図である。図13の横軸は時間(の経過)を示す。図13の(a)発言の動画像源データ、(b)発言者のジェスチャー画像データ、(c)発言者の口の動き画像データ、および(d)発言の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)発言として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図13の(a)は、発言の動画像データであり、(b)の発言者のジェスチャーの画像データおよび(c)の発言者の口の動きの画像データのデータ源と言う意味で、「発言の動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の発言の動画像源データから(b)の発言者のジェスチャーの画像データを取得する。同様に、部分会議映像抽出部4は、(a)の発言の動画像源データから(c)発言者の口の動きの画像データを取得する。索引付加部5は、機能行為層の発言の所要時間を、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
図14は、機能行為の所要時間を特定する手続きを示すフローチャートである。機能行為の所要時間を特定する手続きは、メディア層のイベント所要時間の時間的な論理和処理ステップS61、他のイベント(データ源)の有無判定ステップS62および機能行為の所要時間特定ステップS63から構成される。これらのステップは索引付加部5により行われる。通常、機能行為は、メディア層の一つ以上のイベントの所要時間によって特定することができる。そこで、索引付加部5は、対象となるメディア層のイベントの回数分だけ、メディア層のイベント所要時間の時間的な論理和処理ステップS61を繰り返す。索引付加部5は、その繰り返しの有無を、次の他のイベント(データ源)の有無判定ステップS62において判定する。
メディア層のイベント所要時間の時間的な論理和処理ステップS61においては、既に計算されているイベント所要時間と、現在計算しようとしているイベント所要時間の論理的な時間軸上の和を計算するステップである。機能行為の所要時間特定ステップS63においては、索引付加部5は、メディア層のイベント所要時間の時間的な論理和処理ステップS61において設定された時間的な論理和の結果の開始時刻および終了時刻から、それらの差を算出し、対象とする機能行為の所要時間として特定する。つまり、機能行為の所要時間を開始時刻と終了時刻の差として算出する。上記の発言の機能行為の所要時間を特定する場合、索引付加部5は、図13の(b)発言者のジェスチャーの画像データ、(c)発言者の口の動きの画像データおよび(d)発言の音声データの各メディア層の所要時間の論理和を算出することによって、発言の機能行為の所要時間を特定する。
次に、図14で示した機能行為所要時間特定ステップS63の詳細な処理について説明する。また、図15は、機能行為の所要時間を特定する手続きを示すフローチャートである。図15に示すように、機能行為の所要時間を特定する手続きは、開始時刻の取得ステップS71、最早開始時刻との比較ステップS72、最早開始時刻の設定ステップS73、終了時刻の取得ステップS74、最遅終了時刻との比較ステップS75、最遅終了時刻の設定ステップS76、他のイベント(データ源)の有無判定ステップS77および機能行為の所要時間特定ステップS78からなる。これらのステップは索引付加部5により行われる。ここで、最も早い開始時刻を最早開始時刻と呼ぶことにする。また、最も遅い終了時刻を最遅終了時刻と呼ぶことにする。開始時刻の取得ステップS71においては、索引付加部5は、メディア層のあるイベントの開始時刻を取得する。
次に、最早開始時刻との比較ステップS72においては、索引付加部5は、既に設定されている最早開始時刻と開始時刻の取得ステップS71で取得したイベントの開始時刻とを比較する。索引付加部5は、開始時刻が最早開始時刻よりも早い場合、最早開始時刻の設定処理ステップS73の処理を行う。一方、索引付加部5は、開始時刻が最早開始時刻と同じか遅い場合、終了時刻の取得ステップS74に進む。最早開始時刻の設定ステップS73においては、索引付加部5は、開始時刻の取得ステップS71において取得した開始時刻を改めて最早開始時刻として設定する。次に、終了時刻の取得ステップS74においては、索引付加部5は、対応するメディア層のあるイベントの終了時刻を取得する。
次に、最遅終了時刻との比較ステップS75においては、索引付加部5は、既に設定されている最早終了時刻と終了時刻の取得ステップS74において取得したイベントの終了時刻とを比較し、終了時刻が最遅終了時刻よりも遅い場合、最遅終了時刻の設定ステップS76の処理を行い、終了時刻が最遅終了時刻と同じか早い場合、他のイベント(データ源)の有無判定ステップS77に進む。他のイベント(データ源)の有無判定ステップS77においては、索引付加部5は、対象とする機能行為に関連する他のイベント(データ源)の有無を判定し、まだ他のイベントがある場合、そのイベントに関する処理時刻の取得手続きS71の処理に戻る。
一方、索引付加部5は、対象とする機能行為に関して他のイベントが無い場合、機能行為の所要時間特定ステップS78の処理を行う。機能行為の所要時間特定ステップS78においては、索引付加部5は、最早開始時刻の設定ステップS73および最遅終了時刻の設定ステップS76において設定された最早開始時刻および最遅終了時刻から、それらの差を算出し、対象とする機能行為の所要時間として特定する。つまり、機能行為の所要時間を最早開始時刻と最遅終了時刻の差として算出する。以上のような手続きで、図13の(b)発言者のジェスチャーの画像データ、(c)発言者の口の動きの画像データおよび(d)発言の音声データから(e)発言として特定される所要時間(時間帯)を算出することができる。
次に、図13の(a)発言の動画像源データからメディア層の各物理事象を抽出する手法について説明する。この処理は部分会議映像抽出部4により行われる。ここで、図13の(a)発言の動画像源データから(b)発言者のジェスチャーの画像データを抽出する方法として、株式会社応用計測研究所のソフトウェア版リアルタイム3次元運動計測システムSV-Trackerや画像式運動計測ソフトウェアPc-MAGを利用することができる。
SV-Trackerを用いた場合、会議参加者には事前にジェスチャーの三次元計測のためのマーカーを装着してもらう必要があるがいわゆるIEEE1394デジタル・カメラを用いて、そのカメラから撮像した発言の動画像源データから発言者のジェスチャーの画像データを抽出することが可能となる。一方、Pc-MAGを用いた場合、前述のようなマーカーは不要であるが、発言の動画像源データの画像に対してジェスチャーを計測するための計測点を設定する必要があるが、発言の動画像源データから発言者のジェスチャーの画像データを抽出することが可能となる。
また、ジェスチャー認識技術については、富永らの「ジェスチャ認識のための多視点カメラによる人物位置推定および手領域抽出法の提案」情報処理学会研究報告Vol.2001, No.87,ヒューマンインタフェース95-12 (2001.9.13),pp.85-92記載の方法を利用することができる。ここで、図13の(a)発言の動画像源データから(c)発言者の口の動きの画像データを抽出する方法として、村井らの「口周囲の動きから発話終始端検出」情報処理学会2000年秋季全国大会Vol.2,pp.169-170,2000の方法を利用することができる。
また、図13の(d)発言の音声データの取得については、IBM社製の”Speech for Java(登録商標)”技術を用いることによって、一般的な音声データから発言が行われている音声区間の音声データを抽出することができる。また、「音声認識記述の基礎と応用プログラム開発手法」Interface1998,Aug.,pp.100-105記載の音声認識処理の方法を用いて発話の音声データを取得することも可能と考えられる。
次に、発言権の取得(Floor Grabber)の場合について説明する。図16は、発言権の取得(Floor Grabber)の機能行為に関するタイムラインの図である。図16の横軸は時間(の経過)を示す。図16の(a)発言権の取得の動画像源データ、(b)発言権の取得のジェスチャー(手を上げる動作)の画像データ、(c)参加者の椅子から立ち上がる動作の画像データ、(d)会議参加者の口の動きの画像データ、および(e)発言権の取得(「あのー」)の音声データは、前述のメディア層のデータと捉えることができる。一方、(f)発言権の取得として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図16の(a)は、発言権の取得の動画像データであり、(b)の発言権の取得のジェスチャーの画像データ、(c)参加者の椅子から立ち上がる動作の画像データおよび(d)の会議参加者の口の動きの画像データのデータ源と言う意味で、「発言権の取得の動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の発言権の取得の動画像源データから(b)の発言権の取得のジェスチャーの画像データを取得する。同様に、部分会議映像抽出部4は、(a)の発言権の取得の動画像源データから(c)参加者の椅子から立ち上がる動作の画像データを取得する。同様に、部分会議映像抽出部4は、(a)の発言権の取得の動画像源データから(c)会議参加者の口の動きの画像データを取得する。
索引付加部5は、機能行為層の発言権の取得の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが発言権の取得をしようとしたとき、上述の(a)発言権の取得の動画像源データ、(b)発言権の取得のAliceのジェスチャー(Aliceの手を上げる動作)の画像データ、(c)参加者Aliceの椅子から立ち上がる動作の画像データ、(d)会議参加者Aliceの口の動きの画像データ、および(e)発言権の取得(Aliceの「あのー」)の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(f)発言権の取得として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、発言権の保持(Floor Holder)の場合について説明する。図17は、発言権の保持(Floor Holder)の機能行為に関するタイムラインの図である。図17の横軸は時間(の経過)を示す。図17の(a)発言権の保持の動画像源データ、(b)発言権の保持のジェスチャー(手を差し出す(手による制止)動作)の画像データ、(c)会議参加者の口の動きの画像データ、および(d)発言権の保持(「それから」)の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)発言権の保持として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図17の(a)は、発言権の保持の動画像データであり、(b)の発言権の保持のジェスチャーの画像データ、(c)の会議参加者の口の動きの画像データのデータ源と言う意味で、「発言権の保持の動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の発言権の保持の動画像源データから(b)の発言権の保持のジェスチャーの画像データを取得する。同様に、部分会議映像抽出部4は、(a)の発言権の取得の動画像源データから(c)会議参加者の口の動きの画像データを取得する。索引付加部5は、機能行為層の発言権の保持の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが発言権の保持をしようとしたとき、上述の(a)発言権の保持の動画像源データ、(b)発言権の保持のAliceのジェスチャー(Aliceの手を差し出す動作)の画像データ、(c)会議参加者Aliceの口の動きの画像データ、および(d)発言権の保持(Aliceの「それから」)の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)発言権の保持として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、観察(Observing)の場合について説明する。図18は、観察(Observing)の機能行為に関するタイムラインの図である。図18の横軸は時間(の経過)を示す。図18の(a)観察の動画像源データ、(b)観察者の視線データは、前述のメディア層のデータと捉えることができる。一方、(c)観察として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。図18の(a)は、観察の動画像データであり、(b)の観察者の視線の画像データのデータ源と言う意味で、「観察の動画像源データ」と名付けることにする。
部分会議映像抽出部4は、従来技術の視線追尾技術の方法などを使うことによって、(a)の観察の動画像源データから(b)の観察者の視線の画像データを取得する。索引付加部5は、機能行為層の観察の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。ここで、視線データの取得方法については、大和らの「視線を利用したアプリケーションの内部構造可視化インタフェース」電子情報通信学会技術報告HIP2000-12(2000-06),pp.37-42および大野健彦の「視線インタフェースから視線コミュニケーションへ-視線のある環境を目指して-」情報処理学会研究報告Vol.2001, No.87,ヒューマンインタフェース95-24(2001.9.14),pp.171-178記載の方法を利用することができる。
次に、参加(Attending)の場合について説明する。図19は、参加(Attending)の機能行為に関するタイムラインの図である。図19の横軸は時間(の経過)を示す。図19の(a)参加の動画像源データ、(b)参加者の視線データは、前述のメディア層のデータと捉えることができる。一方、(c)参加として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。図19の(a)は、参加の動画像データであり、(b)の参加者の視線の画像データのデータ源と言う意味で、「参加の動画像源データ」と名付けることにする。部分会議映像抽出部4は、例えば従来技術の視線追尾技術の方法などを使うことによって、(a)の参加の動画像源データから(b)の参加者の視線の画像データを取得する。索引付加部5は、機能行為層の参加の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
次に、不参加(Non-attending)の場合について説明する。図20は、不参加(Non-attending)の機能行為に関するタイムラインの図である。図20の横軸は時間(の経過)を示す。図20の(a)不参加の動画像源データ、(b)不参加者の頭部の前後運動の動画像データ、(c)不参加者の鼾の音声データおよび(d)不参加者の鼾の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)不参加として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図20の(a)は、不参加の動画像データであり、(b)の不参加者頭部の前後運動の画像データのデータ源と言う意味で、「不参加の動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術のジェスチャー認識技術の方法などを使うことによって、(a)の不参加の動画像源データから(b)の不参加者の前後運動の画像データを取得する。索引付加部5は、機能行為層の不参加の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
次に、バックチャネル(Backchannel)の場合について説明する。図21は、バックチャネル(Backchannel)の機能行為に関するタイムラインの図である。図21の横軸は時間(の経過)を示す。図21の(a)バックチャネル(うなづき)の動画像源データ、(b)バックチャネルのジェスチャー(うなづきに伴う「手を叩く」動作)の画像データ、(c)バックチャネル(うなづき)の首を振る動作の画像データ、(d)会議参加者の口の動きの画像データ、および(e)バックチャネル(「へぇー」)の音声データは、前述のメディア層のデータと捉えることができる。一方、(f)バックチャネルとして特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図21の(a)は、バックチャネルの動画像データであり、(b)のバックチャネルのジェスチャーの画像データ、(c)バックチャネルの首を振る動作の画像データ、(d)の会議参加者の口の動きの画像データのデータ源と言う意味で、「バックチャネルの動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)のバックチャネルの動画像源データから(b)のバックチャネルのジェスチャーの画像データを取得する。同様に、部分会議映像抽出部4は、(a)のバックチャネルの動画像源データから(c)バックチャネルの首を振る動作の画像データを取得する。同様に、部分会議映像抽出部4は、(a)のバックチャネルの動画像源データから(d)会議参加者の口の動きの画像データを取得する。索引付加部5は、機能行為層のバックチャネルの所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceがバックチャネルをしようとしたとき、上述の(a)バックチャネルの動画像源データ、(b)バックチャネルのAliceのジェスチャー(Aliceの手を叩く動作)の画像データ、(c)Aliceのうなづき(首を振る動作)の画像データ、(d)会議参加者Aliceの口の動きの画像データ、および(e)バックチャネル(Aliceの「へぇー」)の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)バックチャネルとして特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
ここで、うなづき(首を振る動作)の画像データの所要時間などの特定には、前田らの「自然対話におけるジェスチャーの相互的関係の分析」情報処理学会研究報告Vol.2003, No.9,ヒューマンインタフェース102-7(2003.1.31),pp.39-46の方法を利用することができる。また、頭部位置の位置および姿勢の検出に関しては、藤井らの「大型情報表記環境のための頭部位置・姿勢検出手法とその応用」情報処理学会研究報告Vol.2002, No.38,ヒューマンインタフェース98-6(2002.5.17),pp.33-40に記載の手法を利用することができる。また、首振り動作の検出については、久保らの「首振り動作による障害者用PC操作支援ツールの検討」電子情報通信学会技術報告HCS2000-5(2000-04),pp.29-36記載の方法を利用することができる。
次に、質問(Question)の場合について説明する。図22は、質問(Question)の機能行為に関するタイムラインの図である。図22の横軸は時間(の経過)を示す。図22の(a)質問の動画像源データ、(b)質問のジェスチャー(手を上げる動作)の画像データ、(c)質問者の口の動きの画像データ、および(d)質問の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)質問として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。図22の(a)は、質問の動画像データであり、(b)の質問のジェスチャーの画像データ、(c)の質問者の口の動きの画像データのデータ源と言う意味で、「質問の動画像源データ」と名付けることにする。
部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の質問の動画像源データから(b)の質問のジェスチャーの画像データを取得することができる。同様に、部分会議映像抽出部4は、(a)の質問の動画像源データから(c)質問者の口の動きの画像データを取得することができる。索引付加部5は、機能行為層の質問の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが質問をしようとしたとき、上述の(a)質問の動画像源データ、(b)質問のAliceのジェスチャー(Aliceの手を上げる動作)の画像データ、(c)質問者Aliceの口の動きの画像データ、および(d)Aliceの質問の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)質問として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、確認の質問(Confirming Question)の場合について説明する。図23は、確認の質問(Confirming Question)の機能行為に関するタイムラインの図である。図23の横軸は時間(の経過)を示す。図23の(a)確認の質問の動画像源データ、(b)確認の質問者の椅子から立ち上がる動作の画像データ、(c)確認の質問者の口の動きの画像データ、および(d)確認の質問の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)確認の質問として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図23の(a)は、確認の質問の動画像データであり、(b)の確認の質問者の椅子から立ち上がる動作の画像データ、(c)の確認の質問者の口の動きの画像データのデータ源と言う意味で、「確認の質問の動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の確認の質問の動画像源データから(b)の確認の質問者の椅子から立ち上がる動作の動画像データを取得する。同様に、部分会議映像抽出部4は、(a)の確認の質問の動画像源データから(c)確認の質問者の口の動きの画像データを取得する。索引付加部5は、機能行為層の確認の質問の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが確認の質問をしようとしたとき、上述の(a)確認の質問の動画像源データ、(b)確認の質問のAliceの椅子から立ち上がる動作の画像データ、(c)確認の質問者Aliceの口の動きの画像データ、および(d) Aliceの確認の質問の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)確認の質問として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、発言型思考(Stating Think)の場合について説明する。図24は、発言型思考(Stating Think)の機能行為に関するタイムラインの図である。図24の横軸は時間(の経過)を示す。図24の(a)発言型思考の動画像源データ、(b)参加者が天井を見ている視線の画像データ、(c)発言者の口の動きの画像データ、および(d)発言の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)発言型思考として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。図24の(a)は、発言型思考の動画像データであり、(b)の参加者が天井を見ている視線の画像データ、(c)の発言者の口の動きの画像データのデータ源と言う意味で、「発言型思考の動画像源データ」と名付けることにする。
部分会議映像抽出部4は、従来技術の視線計測やジェスチャー認識の方法などを使うことによって、(a)の発言型思考の動画像源データから(b)の参加者が天井を見ている視線の画像データを取得する。同様に、部分会議映像抽出部4は、(a)の発言型思考の動画像源データから(c)発言者の口の動きの画像データを取得することができる。索引付加部5は、機能行為層の発言型思考の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが発言型思考をしようとしたとき、上述の(a)発言型思考の動画像源データ、(b)参加者Aliceが天井を見ている視線の画像データ、(c)発言者Aliceの口の動きの画像データ、および(d)Aliceの発言の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)発言型思考として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、質問型思考(Question Think)の場合について説明する。図25は、質問型思考(Question Think)の機能行為に関するタイムラインの図である。図25の横軸は時間(の経過)を示す。図25の(a)質問型思考の動画像源データ、(b)参加者が天井を見ている視線の画像データ、(c)質問者の口の動きの画像データ、および(d)質問の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)質問型思考として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。図25の(a)は、質問型思考の動画像データであり、(b)の参加者が天井を見ている視線の画像データ、(c)の質問者の口の動きのデータのデータ源と言う意味で、「質問型思考の動画像源データ」と名付けることにする。
部分会議映像抽出部4は、従来技術の視線計測やジェスチャー認識の方法などを使うことによって、(a)の質問型思考の動画像源データから(b)の参加者が天井を見ている視線の視線データを取得する。同様に、部分会議映像抽出部4は、(a)の質問型思考の動画像源データから(c)質問者の口の動きのデータを取得する。索引付加部5は、機能行為層の質問型思考の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが質問型思考をしようとしたとき、上述の(a)質問型思考の動画像源データ、(b)参加者Aliceが天井を見ている視線の画像データ、(c)質問者Aliceの口の動きの画像データ、および(d)Aliceの質問の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)質問型思考として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、確認の質問型思考(Confirming Question Think)の場合について説明する。図26は、確認の質問型思考(Confirming Question Think)の機能行為に関するタイムラインの図である。図26の横軸は時間(の経過)を示す。図26の(a)確認の質問型思考の動画像源データ、(b)参加者が天井を見ている視線の画像データ、(c)確認の質問者の口の動きの画像データ、および(d)確認の質問の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)確認の質問型思考として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図26の(a)は、確認の質問型思考の動画像データであり、(b)の参加者が天井を見ている視線の画像データ、(c)の確認の質問者の口の動きの画像データのデータ源と言う意味で、「確認の質問型思考の動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術の視線計測やジェスチャー認識の方法などを使うことによって、(a)の確認の質問型思考の動画像源データから(b)の参加者が天井を見ている視線の画像データを取得する。同様に、部分会議映像抽出部4は、(a)の確認の質問型思考の動画像源データから(c)確認の質問者の口の動きのデータを取得する。索引付加部5は、機能行為層の確認の質問型思考の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが確認の質問型思考をしようとしたとき、上述の(a)確認の質問型思考の動画像源データ、(b)参加者Aliceが天井を見ている視線の画像データ、(c)確認の質問者Aliceの口の動きの画像データ、および(d)Aliceの確認の質問の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)確認の質問型思考として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、不発話型思考(Non-stating Think)の場合について説明する。図27は、不発話型思考(Non-stating Think)の機能行為に関するタイムラインの図である。図27の横軸は時間(の経過)を示す。図27の(a)不発話型思考の動画像源データ、(b)参加者が天井を見ている視線の画像データおよび(c)参加者が腕を組むジェスチャーの画像データは、前述のメディア層のデータと捉えることができる。一方、(d)不発話型思考として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図27の(a)は、不発話型思考の動画像データであり、(b)の参加者が天井を見ている視線の画像データ、(c)の参加者の腕を組むジェスチャーの画像データのデータ源と言う意味で、「不発話型思考の動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術の視線計測やジェスチャー認識の方法などを使うことによって、(a)の不発話型思考の動画像源データから(b)の参加者が天井を見ている視線の視線データを取得する。同様に、部分会議映像抽出部4は、(a)の不発話型思考の動画像源データから(c)参加者の腕を組むジェスチャーの画像データを取得する。索引付加部5は、機能行為層の不発話型思考の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが不発話型思考をしようとしたとき、上述の(a)不発話型思考の動画像源データ、(b)参加者Aliceが天井を見ている視線の画像データ、(c)参加者Aliceの腕を組むジェスチャーの画像データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)不発話型思考として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、独り言(Self Talk)の場合について説明する。図28は、独り言(Self Talk)の機能行為に関するタイムラインの図である。図28の横軸は時間(の経過)を示す。図28の(a)独り言の動画像源データ、(b)会議参加者の口の動きおよび(c)独り言の音声データは、前述のメディア層のデータと捉えることができる。一方、(d)独り言として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。図28の(a)は、独り言の動画像データであり、(b)の会議参加者の口の動きの画像データのデータ源と言う意味で、「独り言の動画像源データ」と名付けることにする。
部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の独り言の動画像源データから(b)の会議参加者の口の動きのデータを取得する。索引付加部5は、機能行為層の独り言の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが独り言をしようとしたとき、上述の(a)会議参加者Aliceの動画像源データ、(b)参加者Aliceの口の動きの画像データ、(c)Aliceの独り言の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)独り言として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、発言型共有情報空間操作(Stating Public Information Space Manipulation)の場合について説明する。図29は、発言型共有情報空間操作(Stating Public Information Space Manipulation)の機能行為に関するタイムラインの図である。図29の横軸は時間(の経過)を示す。図29の(a)発言型共有情報空間操作の動画像源データ、(b)発言者の椅子から立ち上がる動作の動画像データ、(c)発言者のホワイトボードに書く動作の画像データ、(d)発言者の口の動きの画像データ、および(e)発言の音声データは、前述のメディア層のデータと捉えることができる。一方、(f)発言型共有情報空間操作として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図29の(a)は、発言型共有情報空間操作の動画像データであり、(b)の発言者の椅子から立ち上がる動作の動画像データ、(c)発言者のホワイトボードに書く動作の画像データ、(d)の発言者の口の動きの画像データのデータ源と言う意味で、「発言型共有情報空間操作の動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の発言型共有情報空間操作の動画像源データから(b)の発言者の椅子から立ち上がる動作の動画像データを取得する。
同様に、部分会議映像抽出部4は、(a)の発言型共有情報空間操作の動画像源データから(c)発言者のホワイトボードに各動作の動画像データを取得する。同様に、部分会議映像抽出部4は、(a)の発言型共有情報空間操作の動画像源データから(d)発言者の口の動きの画像データを取得することができる。索引付加部5は、機能行為層の発言型共有情報空間操作の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが発言型共有情報空間操作をしようとしたとき、上述の(a)発言型共有情報空間操作の動画像源データ、(b)発言者Aliceが椅子から立ち上がる画像データ、(c)発言者Aliceのホワイトボードに書く動作の画像データ、(d)発言者Aliceの口の動き、および(e)Aliceの発言の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(f)発言型共有情報空間操作として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、質問型共有情報空間操作(Question Public Information Space Manipulation)の場合について説明する。図30は、質問型共有情報空間操作(Question Public Information Space Manipulation)の機能行為に関するタイムラインの図である。図30の横軸は時間(の経過)を示す。図30の(a)質問型共有情報空間操作の動画像源データ、(b)質問者の椅子から立ち上がる動作の画像データ、(c)質問者のホワイトボードに書く動作の画像データ、(d)質問者の口の動きの画像データ、および(e)質問の音声データは、前述のメディア層のデータと捉えることができる。一方、(f)質問型共有情報空間操作として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図30の(a)は、質問型共有情報空間操作の動画像データであり、(b)の質問者の椅子から立ち上がる動作の画像データ、(c)質問者のホワイトボードに書く動作の画像データ、(d)の質問者の口の動きの画像データのデータ源と言う意味で、「質問型共有情報空間操作の動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の質問型共有情報空間操作の動画像源データから(b)の質問者の椅子から立ち上がる動作の動画像データを取得する。同様に、部分会議映像抽出部4は、(a)の質問型共有情報空間操作の動画像源データから(c)質問者のホワイトボードに各動作の画像データを取得する。同様に、部分会議映像抽出部4は、(a)の質問型共有情報空間操作の動画像源データから(d)質問者の口の動きの画像データを取得する。
索引付加部5は、機能行為層の質問型共有情報空間操作の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが質問型共有情報空間操作をしようとしたとき、上述の(a)質問型共有情報空間操作の動画像源データ、(b)質問者Aliceが椅子から立ち上がる画像データ、(c)質問者Aliceのホワイトボードに書く動作の画像データ、(d)質問者Aliceの口の動きの画像データ、および(e)Aliceの質問の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(f)質問型共有情報空間操作として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、確認の質問型共有情報空間操作(Confirming Question Public Information Space Manipulation)の場合について説明する。図31は、確認の質問型共有情報空間操作(Confirming Question Public Information Space Manipulation)の機能行為に関するタイムラインの図である。図31の横軸は時間(の経過)を示す。図31の(a)確認の質問型共有情報空間操作の動画像源データ、(b)確認の質問者の椅子から立ち上がる動作の画像データ、(c)確認の質問者のホワイトボードに書く動作の画像データ、(d)確認の質問者の口の動きの画像データ、および(e)確認の質問の音声データは、前述のメディア層のデータと捉えることができる。一方、(f)確認の質問型共有情報空間操作として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図31の(a)は、確認の質問型共有情報空間操作の動画像データであり、(b)の確認の質問者の椅子から立ち上がる動作の画像データ、(c)確認の質問者のホワイトボードに書く動作の画像データ、(d)の確認の質問者の口の動きの画像データのデータ源と言う意味で、「確認の質問型共有情報空間操作の動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の確認の質問型共有情報空間操作の動画像源データから(b)の確認の質問者の椅子から立ち上がる動作の動画像データを取得する。
同様に、部分会議映像抽出部4は、(a)の確認の質問型共有情報空間操作の動画像源データから(c)確認の質問者のホワイトボードに各動作の画像データを取得する。同様に、部分会議映像抽出部4は、(a)の確認の質問型共有情報空間操作の動画像源データから(d)確認の質問者の口の動きのデータを取得する。索引付加部5は、機能行為層の確認の質問型共有情報空間操作の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが確認の質問型共有情報空間操作をしようとしたとき、上述の(a)確認の質問型共有情報空間操作の動画像源データ、(b)確認の質問者Aliceが椅子から立ち上がる画像データ、(c)確認の質問者Aliceのホワイトボードに書く動作の画像データ、(d)確認の質問者Aliceの口の動きの画像データ、および(e)Aliceの確認の質問の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(f)確認の質問型共有情報空間操作として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、不発言型共有情報空間操作(Non-stating Public Information Space Manipulation)の場合について説明する。図32は、不発言型共有情報空間操作(Non-stating Public Information Space Manipulation)の機能行為に関するタイムラインの図である。図32の横軸は時間(の経過)を示す。図32の(a)不発言型共有情報空間操作の動画像源データ、(b)会議参加者の椅子から立ち上がる動作の画像データおよび(c)会議参加者のホワイトボードに書く動作の画像データは、前述のメディア層のデータと捉えることができる。一方、(d)不発言型共有情報空間操作として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図32の(a)は、不発言型共有情報空間操作の動画像データであり、(b)の会議参加者者の椅子から立ち上がる動作の画像データおよび(c)会議参加者者のホワイトボードに書く動作の画像データのデータ源と言う意味で、「不発言型共有情報空間操作の動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の不発言型共有情報空間操作の動画像源データから(b)の会議参加者の椅子から立ち上がる動作の画像データを取得する。同様に、部分会議映像抽出部4は、(a)の不発言型共有情報空間操作の動画像源データから(c)会議参加者のホワイトボードに各動作の画像データを取得する。索引付加部5は、機能行為層の不発言型共有情報空間操作の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが不発言型共有情報空間操作をしようとしたとき、上述の(a)不発言型共有情報空間操作の動画像源データ、(b)会議参加者Aliceが椅子から立ち上がる画像データおよび(c)会議参加者Aliceのホワイトボードに書く動作の画像データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(d)不発言型共有情報空間操作として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、参加型私的情報空間操作(Attending Private Information Space Manipulation)の場合について説明する。図33は、参加型私的情報空間操作(Attending Private Information Space Manipulation)の機能行為に関するタイムラインの図である。図33の横軸は時間(の経過)を示す。図33の(a)参加型私的情報空間操作の動画像源データ、(b)参加者のノート型パーソナル・コンピュータへのタイピング動作の画像データ、(c)参加者の頭部の前後運動(頷き)の画像データ、(d)参加者の口の動きの画像データ、および(e)参加者の頷きの音声データは、前述のメディア層のデータと捉えることができる。一方、(f)参加型私的情報空間操作として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図33の(a)は、参加型私的情報空間操作の動画像データであり、(b)の参加者のノート型パーソナル・コンピュータへのタイピング動作の画像データ、(c)参加者の頭部の前後運動(頷き)の画像データ、(d)の参加者の口の動きの画像データのデータ源と言う意味で、「参加型私的情報空間操作の動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の参加型私的情報空間操作の動画像源データから(b)の参加者のノート型パーソナル・コンピュータへのタイピング動作の画像データを取得する。
同様に、部分会議映像抽出部4は、(a)の参加型私的情報空間操作の動画像源データから(c)参加者頭部の前後運動(頷き)の動画像データを取得する。同様に、(a)の参加型私的情報空間操作の動画像源データから(d)参加者の口の動きの画像データを取得することができる。索引付加部5は、機能行為層の参加型私的情報空間操作の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが参加型私的情報空間操作をしようとしたとき、上述の(a)参加型私的情報空間操作の動画像源データ、(b)参加者Aliceによるノート型パーソナル・コンピュータへのタイピング動作の画像データ、(c)参加者Aliceの頭部の前後運動(頷き)の画像データ、(d)参加者Aliceの口の動きの画像データ、および(e)参加者Aliceの「ふむ」や「うん」などの頷きの音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(f)参加型私的情報空間操作として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、不参加型私的情報空間操作(Non-attending Private Information Space Manipulation)の場合について説明する。図34は、不参加型私的情報空間操作(Non-attending Private Information Space Manipulation)の機能行為に関するタイムラインの図である。図34の横軸は時間(の経過)を示す。図34の(a)不参加型私的情報空間操作の動画像源データ、(b)会議参加者のノート型パーソナル・コンピュータへのタイピング動作の画像データは、前述のメディア層のデータと捉えることができる。一方、(c)不参加型私的情報空間操作として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図34の(a)は、不参加型私的情報空間操作の動画像データであり、(b)の会議参加者のノート型パーソナル・コンピュータへのタイピング動作の画像データのデータ源と言う意味で、「不参加型私的情報空間操作の動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の不参加型私的情報空間操作の動画像源データから(b)の会議参加者のノート型パーソナル・コンピュータへのタイピング動作の画像データを取得する。索引付加部5は、機能行為層の不参加型私的情報空間操作の所要時間を、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが不参加型私的情報空間操作をしようとしたとき、上述の(a)不参加型私的情報空間操作の動画像源データ、(b)会議参加者Aliceによるノート型パーソナル・コンピュータへのタイピング動作の画像データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(c)不参加型私的情報空間操作として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
次に、笑い(Laugh)の場合について説明する。図35は、笑い(Laugh)の機能行為に関するタイムラインの図である。図35の横軸は時間(の経過)を示す。図35の(a)笑いの動画像源データ、(b)会議参加者の顔の表情の動画像データ、(c)会議参加者の口の動き、および(d)会議参加者の笑いの音声データは、前述のメディア層のデータと捉えることができる。一方、(e)笑いとして特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。
図35の(a)は、笑いの動画像データであり、(b)の参加者の顔の表情の画像データ、(c)の会議参加者の口の動きの画像データのデータ源と言う意味で、「笑いの動画像源データ」と名付けることにする。部分会議映像抽出部4は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の笑いの動画像源データから(b)の参加者の顔の表情の動画像データを取得する。同様に、部分会議映像抽出部4は、(a)の笑いの動画像源データから(c)参加者の口の動きのデータを取得する。索引付加部5は、機能行為層の笑いの所要時間は、発言の場合と同様に、図14に示すように、各メディア層の所要時間の論理和を算出することによって特定する。
ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが笑おうとしたとき、上述の(a)笑いの動画像源データ、(b)Aliceの笑う顔の表情の画像データ、(c)Aliceの口の動き、および(d)Aliceの笑いの音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)笑いとして特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。
以上、第2実施例によれば、部分会議映像抽出部4において抽出された部分会議映像データに対して索引付加部5において参加者の機能行為に応じた索引データを自動的に生成することができる。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本実施例に係る会議映像処理装置の一例を示すブロック図である。
会議参加者の各行為を階層化した視覚化データで示す図である。
索引付加部が提供するグラフィカル・ユーザ・インタフェースの表示例である。
二次元的な機能行為の図的表現の一例を示す図である。
索引データをXMLデータとして表現した前半部分である。
索引データをXMLデータとして表現した後半部分である。
会議記録手続きを示すフローチャートである。
要約規則生成ステップS31の詳細を示すフローチャートである。
会議参加者としてAlice、BettyおよびCherrylの三人が会議に参加し、各人の機能行為が本発明の実施例のように特定された場合のタイムラインを示す図である。
閾値よりも長い所要時間を持つ機能行為と閾値より短い所要時間を持つ機能行為の例を示す。
索引を表示するまでの処理フローチャートである。
機能行為層とメディア層における映像データの構造化の一例を示す図である。
発言の機能行為に関するタイムラインの図である。
機能行為の所要時間を特定する手続きを示すフローチャートである。
機能行為の所要時間を特定する手続きを示すフローチャートである。
発言権の取得の機能行為に関するタイムラインの図である。
発言権の保持の機能行為に関するタイムラインの図である。
観察の機能行為に関するタイムラインの図である。
参加の機能行為に関するタイムラインの図である。
不参加の機能行為に関するタイムラインの図である。
バックチャネルの機能行為に関するタイムラインの図である。
質問の機能行為に関するタイムラインの図である。
確認の質問の機能行為に関するタイムラインの図である。
発言型思考の機能行為に関するタイムラインの図である。
質問型思考の機能行為に関するタイムラインの図である。
確認の質問型思考の機能行為に関するタイムラインの図である。
不発話型思考の機能行為に関するタイムラインの図である。
独り言の機能行為に関するタイムラインの図である。
発言型共有情報空間操作の機能行為に関するタイムラインの図である。
質問型共有情報空間操作の機能行為に関するタイムラインの図である。
確認の質問型共有情報空間操作の機能行為に関するタイムラインの図である。
不発言型共有情報空間操作の機能行為に関するタイムラインの図である。
参加型私的情報空間操作の機能行為に関するタイムラインの図である。
不参加型私的情報空間操作の機能行為に関するタイムラインの図である。
笑いの機能行為に関するタイムラインの図である。
符号の説明
1 会議処理装置 8 索引表示部
2 会議映像撮像部 9 同期部
3 会議映像記録部 10 要約規則生成部
4 部分会議映像抽出部 11 要約規則記録部
5 索引付加部 12 要約規則表示部
6 索引記録部 13 映像要約生成部
7 会議映像表示部 14 映像要約記録部