JP2005277445A

JP2005277445A - 会議映像処理装置、会議映像処理方法およびプログラム

Info

Publication number: JP2005277445A
Application number: JP2004083268A
Authority: JP
Inventors: Kazuki Hirata; 和貴平田; Atsushi Miyazaki; 宮崎　　淳
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-03-22
Filing date: 2004-03-22
Publication date: 2005-10-06
Also published as: CN100425071C; US20050210105A1; US7809792B2; CN1674672A

Abstract

【課題】後に会議映像を見る者にとって有用な会議映像を提供できる会議映像処理装置を提供する。
【解決手段】会議映像処理装置１は、会議映像情報から会議の参加者の１以上の物理事象を含む部分映像情報を抽出する部分会議映像抽出部４と、抽出された部分会議映像情報について前記１以上の物理事象を抽象化した機能行為に基づいて、部分会議映像情報に対して索引を付加する索引付加部５と、索引付加部５によって付加された索引結果に基づいて、会議映像情報を要約した会議映像を作成する映像要約生成部１３とを備える。１以上の物理事象を抽象化した機能行為に基づいて会議映像情報を編集することができる。これにより、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。
【選択図】図１

Description

本発明は、会議映像処理装置、会議映像処理方法およびプログラムに関する。

会議ビデオに索引付けし、その索引付けられたビデオを利用する技術、会議映像を分析する技術や会議ビデオを要約する技術あるいは規則やルールに基づいて会議ビデオを要約する会議記録に関する従来技術として以下のようなものが提案されている。

特許文献1記載の目次インデキシング装置は、エピソードデータに対応するインデックスをデータに付けて目次を表示し、選択されたエピソードデータを再生するというものである。特許文献２記載の方法は、ビデオ議事録を生成する方法であって、レコードは映像内容を持つ複数のフレームからなり、複数のフレームをサーチして１人以上の参加者による第１の有意な動きを探し、この第１の有意な動きを含むフレームが見つかったときに、このフレームを一つのビデオラベルとして記憶というものである。

特許文献３記載の装置は、会議中に捕らえられた画像を会議参加者が発する音声の録音とマッチさせることによって会議内容の索引付けを行うというものである。

特開平７−２１９９７１号公報特開平９−９２０２号公報特開２０００−１２５２７４号公報

しかしながら、上記従来技術は、いずれも物理事象レベルでビデオに索引付け行い、その索引付けられたビデオの利用を可能にするものであるが、会議を撮影した映像データを対象とした場合、上記従来技術を用いても、会議参加者の行為に対して適切に索引付けを行うことができず、会議後に会議映像を視聴する者にとって有用な会議映像を提供することができていないという問題がある。

また、特許文献２記載の方法では、参加者の有意な動きに基づいて索引付けを行うようにしているが、この有意な動きは具体的に開示されていない。また、利用者に応じた会議映像の要約を提供することができない。

そこで、本発明は、上記問題点に鑑みてなされたもので、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる会議映像処理装置、会議映像処理方法およびプログラムを提供することを目的とする。

上記課題を解決するために、本発明の会議映像処理装置は、請求項１記載のように、会議映像情報から会議の参加者の１以上の物理事象を含む部分映像情報を抽出する抽出手段と、前記抽出手段によって抽出された部分会議映像情報について前記１以上の物理事象を抽象化した機能行為に基づいて、前記部分会議映像情報に対して索引を付加する付加手段とを備えることを特徴とする。請求項１記載の発明によれば、１以上の物理事象を抽象化した機能行為に基づいて会議映像情報を編集することができる。これにより、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。

また、本発明は、請求項２に記載のように、請求項１記載の会議映像処理装置において、更に、前記付加手段によって付加された索引結果に基づいて、前記会議映像情報を要約した会議映像を作成する作成手段を備えることを特徴とする。請求項２記載の発明によれば、機能行為に基づいて会議映像情報を要約した会議映像を作成するので、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。

また、本発明は、請求項３に記載のように、請求項２に記載の会議映像処理装置において、更に、前記作成手段により要約した会議映像を記録する記録手段を備えることを特徴とする。請求項３記載の発明によれば、機能行為に基づいて会議映像情報を要約した会議映像を記録できる。

また、本発明は、請求項４に記載のように、請求項２または請求項３記載の会議映像処理装置において、更に、前記作成手段により要約した会議映像を表示する表示手段を備えることを特徴とする。請求項４記載の発明によれば、機能行為に基づいて会議映像情報を要約した会議映像を表示できる。

また、本発明は、請求項５に記載のように、請求項１から請求項４のいずれか一項に記載の会議映像処理装置において、更に、同じ時間帯に撮影した前記会議映像が複数あった際に、これらの会議映像を同期させる同期手段を備えることを特徴とする。請求項５記載の発明によれば、複数の会議映像を同期させて処理できる。

また、本発明は、請求項６に記載のように、請求項１から請求項５のいずれか一項に記載の会議映像処理装置において、更に、前記付加手段による索引結果を所定の表示装置に表示するグラフィカル・ユーザ・インタフェースを有することを特徴とする。請求項６記載の発明によれば、索引結果を表示することで機能行為を視覚化できる。

また、本発明は、請求項７に記載のように、請求項１から請求項６のいずれか一項に記載の会議映像処理装置において、前記付加手段は、前記１以上の物理事象の所要時間の論理和から前記機能行為の所領時間を算出することを特徴とする。請求項７記載の発明によれば、１以上の物理事象の所要時間の論理和から機能行為の所要時間を算出することで、物理事象を抽象化することができる。

また、本発明は、請求項８に記載のように、請求項１から請求項７のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者のジェスチャーから前記機能行為を特定することを特徴とする。請求項８記載の発明によれば、会議参加者のジェスチャーから物理事象を抽象化した機能行為を特定できる。

また、本発明は、請求項９に記載のように、請求項１から請求項８のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の口の動きから前記機能行為を特定することを特徴とする。請求項９記載の発明によれば、会議参加者の口の動きから物理事象を抽象化した機能行為を特定できる。

また、本発明は、請求項１０に記載のように、請求項１から請求項９のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の視線から前記機能行為を特定することを特徴とする。請求項１０記載の発明によれば、会議参加者の視線から物理事象を抽象化した機能行為を特定できる。

また、本発明は、請求項１１に記載のように、請求項１から請求項１０のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の頭部の動きから前記機能行為を特定することを特徴とする。請求項１１記載の発明によれば、会議参加者の頭部の動きから物理事象を抽象化した機能行為を特定できる。

また、本発明は、請求項１２に記載のように、請求項１から請求項１１のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の物を書く動作から前記機能行為を特定することを特徴とする。請求項１２記載の発明によれば、会議参加者の物を書く動作から物理事象を抽象化した機能行為を特定できる。

また、本発明は、請求項１３に記載のように、請求項１から請求項１２のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の椅子から立ち上がる動作から前記機能行為を特定することを特徴とする。請求項１３記載の発明によれば、会議参加者の椅子から立ち上がる動作から物理事象を抽象化した機能行為を特定できる。

また、本発明は、請求項１４に記載のように、請求項１から請求項１３のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の所定の入力装置へのタイピング動作から前記機能行為を特定することを特徴とする。請求項１４記載の発明によれば、会議参加者の入力装置へのタイピング動作から物理事象を抽象化した機能行為を特定できる。

また、本発明は、請求項１５に記載のように、請求項１から請求項１４のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の顔の表情から前記機能行為を特定することを特徴とする。請求項１５記載の発明によれば、会議参加者の顔の表情から物理事象を抽象化した機能行為を特定できる。

また、本発明は、請求項１６に記載のように、請求項１から請求項１５のいずれか一項に記載の会議映像処理装置において、前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の音声データに基づいて前記機能行為を特定することを特徴とする。請求項１６記載の発明によれば、音声データに基づいて物理事象を抽象化した機能行為を特定できる。

また、本発明は、請求項１７に記載のように、請求項２から請求項１６のいずれか一項に記載の会議映像処理装置において、前記作成手段は、前記機能行為のうちの発言、質問、発言型共有情報空間操作、質問型共有情報空間操作もしくは不発言型共有情報空間操作である能動的機能行為または発言型思考の機能行為を集めた振り返り用の会議映像を作成することを特徴とする。請求項１７記載の発明によれば、会議に参加した人が後で参加した会議の映像を振り返って見る際に便利な会議映像を作成できる。例えば、参加者は能動的機能行為または発言型思考の機能行為の中から任意の機能行為を選んで振り返り用の会議映像を作成することもできる。

また、本発明は、請求項１８に記載のように、請求項２から請求項１７のいずれか一項に記載の会議映像処理装置において、前記作成手段は、前記機能行為のうちの発言、質問、発言型思考または発言型共有情報空間操作を集めた閲覧用の会議映像を作成することを特徴とする。請求項１８記載の発明によれば、会議に参加していない人が会議の映像を閲覧する際に便利な会議映像を作成できる。この閲覧用の会議映像は振り返り用の会議映像を更に要約したものである。参加者は閲覧用の会議映像に該当する機能行為の中から任意の機能行為を選んで閲覧用の会議映像を作成することもできる。

また、本発明は、請求項１９に記載のように、請求項２から請求項１８のいずれか一項に記載の会議映像処理装置において、前記作成手段は、前記機能行為のうちの発言、発言型思考または発言型共有情報空間操作を集めた役員用の会議映像を作成することを特徴とする。請求項１９記載の発明によれば、役員等のエグゼクティブな人が会議の映像を見る際に便利な会議映像を作成できる。この役員用の会議映像は振り返り用の会議映像を更に要約したものである。参加者は役員用の会議映像に該当する機能行為の中から任意の機能行為を選んで役員用の会議映像を作成することもできる。

また、本発明は、請求項２０に記載のように、請求項６から請求項１９のいずれか一項に記載の会議映像処理装置において、前記グラフィカル・ユーザ・インタフェースは、前記物理事象および前記物理事象を抽象化した機能行為を階層的に表示することを特徴とする。請求項２０記載の発明によれば、物理事象とこの物理事象を抽象化した機能行為の違いを階層的に理解することができる。

また、本発明は、請求項２１に記載のように、請求項６から請求項２０のいずれか一項に記載の会議映像処理装置において、前記グラフィカル・ユーザ・インタフェースは、１以上の前記機能行為を抽象化したシーンを前記機能行為に対して階層的に表示することを特徴とする。請求項２１記載の発明によれば、１以上の機能行為を抽象化したシーンを階層的に見ることで機能行為とこの機能行為を抽象化したシーンの違いを階層的に理解することができる。

また、本発明は、請求項２２に記載のように、請求項６から請求項２１のいずれか一項に記載の会議映像処理装置において、前記グラフィカル・ユーザ・インタフェースは、タイムライン形式または表形式によって前記索引結果を表現することを特徴とする。請求項２２記載の発明によれば、利用者に分かりやすい形態の映像要約の属性情報を提供することが可能となる。

また、本発明は、請求項２３に記載のように、請求項６から請求項２２のいずれか一項に記載の会議映像処理装置において、前記グラフィカル・ユーザ・インタフェースは、前記機能行為を色によって表現することを特徴とする。請求項２３記載の発明によれば、機能行為を色によって簡単に識別できる。

また、本発明は、請求項２４に記載のように、請求項６から請求項２３のいずれか一項に記載の会議映像処理装置において、前記グラフィカル・ユーザ・インタフェースは、前記機能行為に関する図的要素を色、形状またはアニメーション動作によって、音声的話者交代、身体的話者交代または音声的身体的話者交代を強調表現することを特徴とする。請求項２４記載の発明によれば、強調表現により音声的話者交代または身体的話者交代または音声的身体的話者交代を図的に表現することが可能となる。

また、本発明は、請求項２５に記載のように、請求項６から請求項２４のいずれか一項に記載の会議映像処理装置において、前記グラフィカル・ユーザ・インタフェースは、索引識別子、索引開始時刻、索引終了時刻、機能行為、会議参加者の役割、意図する行為方向の各データを表現することを特徴とする。請求項２５記載の発明によれば、機能行為に関するデータを詳しく見ることができる。

また、本発明は、請求項２６に記載のように、請求項２から請求項２５のいずれか一項に記載の会議映像処理装置において、前記作成手段は、前記部分映像情報のうちの所定の所要時間を超えない映像部分を用いて前記会議映像情報を要約した会議映像を作成することを特徴とする。請求項２６記載の発明によれば、適当な所要時間の会議映像を生成することができる。

また、本発明の会議映像処理方法は、請求項２７に記載のように、会議映像情報から会議の参加者の１以上の物理事象を含む部分映像情報を抽出する抽出ステップと、前記抽出手段によって抽出された部分会議映像情報について前記１以上の物理事象を抽象化した機能行為に基づいて、前記部分会議映像情報に対して索引を付加する付加ステップとを有することを特徴とする。請求項２７記載の発明によれば、１以上の物理事象を抽象化した機能行為に基づいて会議映像情報を編集することができる。これにより、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。

また、本発明は、請求項２８に記載のように、請求項２７記載の会議映像処理方法において、更に、前記付加ステップによって付加された索引結果に基づいて、前記会議映像情報を要約した会議映像を作成する作成ステップを有することを特徴とする。請求項２８記載の発明によれば、機能行為に基づいて会議映像情報を要約した会議映像を作成するので、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。

また、本発明のプログラムは、請求項２９に記載のように、会議映像情報から会議の参加者の１以上の物理事象を含む部分映像情報を抽出する抽出ステップ、前記抽出手段によって抽出された部分会議映像情報について前記１以上の物理事象を抽象化した機能行為に基づいて、前記部分会議映像情報に対して索引を付加する付加ステップをコンピュータに実行させる。請求項２９記載の発明によれば、１以上の物理事象を抽象化した機能行為に基づいて会議映像情報を編集することができる。これにより、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。

また、本発明は、請求項３０に記載のように、請求項２９記載のプログラムにおいて、更に、前記付加ステップによって付加された索引結果に基づいて、前記会議映像情報を要約した会議映像を作成する作成ステップを前記コンピュータに実行させることを特徴とする。請求項３０記載の発明によれば、機能行為に基づいて会議映像情報を要約した会議映像を作成するので、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。

本発明によれば、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる会議映像処理装置、会議映像処理方法およびプログラムを提供できる。

以下、本発明を実施するための最良の形態について実施例を用いて説明する。

以下、第１実施例に係る会議映像処理装置を図面を参照しながら説明する。図１は、本実施例に係る会議映像処理装置の一例を示すブロック図である。会議映像装置１は、会議映像撮像部２、会議映像記録部３、部分会議映像抽出部４、索引付加部５、索引記録部６、会議映像表示部７、索引表示部８、同期部９、要約規則生成部１０、要約記録記録部１１、要約規則表示部１２、映像要約生成部１３、映像要約記録部１４から構成される。

会議映像撮像部２、会議映像記録部３、部分会議映像抽出部４、索引付加部５、索引記録部６、会議映像表示部７、索引表示部８、同期部９、要約規則生成部１０、要約記録記録部１１、要約規則表示部１２、映像要約生成部１３、映像要約記録部１４は、会議映像処理装置１の内部のネットワークまたはデータ回線および制御回線ないし回路を介して相互に接続される。

会議映像処理装置１は、会議映像を処理するもので、例えばＣＰＵ(Central Processing Unit)、ＲＯＭ(Read Only Memory)、ＲＡＭ((Random access Memory)等を含んで構成されている。このＣＰＵは所定のプログラムをＲＡＭ上に展開して図１に示す一部の機能を実現する。特許請求の範囲における会議映像処理方法はこのプログラムにより実行される。会議映像撮像部２は、ビデオ・カメラ、マイク・システム(集音システムないし収音システムまたは音声収録システム)またはそれらの組み合わせから構成されている。この会議映像撮像部２は、動画像データ、音声データまたはそれらを組み合わせた会議映像データを捕捉し、会議映像記録部３に出力する。

会議映像記録部３は、例えばメモリやハードディスクなどの記録媒体および記録装置によって構成されている。この会議映像記録部３は、会議映像撮像部２によって捕捉された会議映像データを入力し、内部のメモリないしハードディスクの記録媒体に記録する。会議映像記録部３は、記録する会議映像データ等を部分会議映像抽出部４、映像要約生成部１３または会議映像表示部７にそれぞれ出力する。

部分会議映像抽出部４は、会議映像記録部３に記憶されている会議映像情報から会議の参加者の１以上の物理事象を含む部分映像情報を抽出する。また、部分会議映像抽出部４は、この部分会議映像情報から各物理事象ごとの映像情報を抽出する。部分会議映像抽出部４は、部分映像情報を抽出する際に、会議映像記録部３に記録されている会議映像情報の一部の情報を抽出することもあるし、または会議映像情報の全部の情報を抽出することもある。また、部分会議映像抽出部４が抽出した部分映像情報を、部分会議映像データまたは部分映像データと呼ぶこともある。部分会議映像抽出部４は、画像認識装置などの画像処理装置、映像処理装置(動画像データ処理装置もしくは視聴覚データ処理装置)、音声認識装置など音声処理装置等を含んで構成される。

索引付加部５は、例えばＣＰＵ等から構成されている。索引付加部５は、部分会議映像抽出部４で抽出された各物理事象ごとの映像情報に対して、各物理事象に応じた索引データを付加する。また、索引付加部５は、各物理事象に応じた索引データから１以上の物理事象を抽象化した機能行為を特定し、この機能行為に基づいて部分会議映像抽出部４によって抽出した部分会議映像データに索引を付加する。索引付加部５は、索引データを半自動または全自動で生成する。実施例１では索引データを半自動で生成するについて説明し、実施例２で索引データを全自動で生成する例について説明する。

また、索引付加部５は、いわゆるマウスなどのポインター、キーボードおよびディスプレイなどのグラフィカル・ユーザ・インタフェースを備える。利用者は、ポインター、キーボードおよびグラフィカル・ユーザ・インタフェースを用いて手動により索引データを生成することができる。

索引記録部６は、例えばメモリまたはハードディスクなど記録媒体および記録装置によって構成されている。索引記録部６は、索引付加部５から入力された索引データを記録し、索引表示部８または映像要約生成部１３に出力する。会議映像表示部７は、例えばディスプレイ、モニター等の表示装置により構成されている。会議映像表示部７は、会議映像記録部３から出力される会議映像、部分会議映像抽出部から出力される部分映像および映像要約生成部１３が要約した会議映像を表示する。索引表示部８は、例えばディスプレイ、モニター等の表示装置により構成され、索引記録部８から入力される索引データを利用者に表示する。

同期部９は、会議映像撮像部２で同じ時間帯に撮影した会議映像が複数あった際に、これらの会議映像データを同期させる。これにより複数の会議映像を同期できる。同期部９は、例えば同期化するためのパラメータとして遅延時間データを用いる。この遅延時間データは、各映像データに対する属性情報として会議映像記録部３に記録されるものである。

要約規則生成部１０は、会議映像記録部３に記録されている映像データを要約するための要約規則データを生成するためのものである。要約規則生成部１０は、生成した要約規則データを要約規則記録部１１に出力する。要約規則記録部１１は、例えばメモリまたはハードディスクなど記録媒体および記録装置によって構成されている。要約規則記録部１１は、要約規則生成部１０から入力された要約規則データを内部のメモリまたはハードディスクなどの記録媒体に記録し、要約規則記録部１１に出力する。要約規則表示部１２は、例えばディスプレイ、モニター等の表示装置によって構成され、要約規則記録部１１から入力した要約規則データを利用者に表示する。

映像要約生成部１３は、要約規則記録部１１から入力された要約規則データおよび索引付加部５によって付加された索引結果に基づいて、会議映像記録部３の会議映像情報を要約した会議映像を作成する。映像要約生成部１３は、要約会議映像を映像要約記録部１４に出力する。映像要約記録部１４は、メモリまたはハードディスクなど記録媒体および記録装置によって構成されている。映像要約記録部１３は、映像要約生成部１３により要約した会議映像を記録するものである。映像要約記録部１３は、記録した当該映像要約データを会議映像表示部７に出力する。これにより、機能行為に基づいて作成された会議映像が会議映像表示部７に表示される。

部分会議映像抽出部４、索引付加部５、映像要約生成部１３、映像要約記録部１４、会議映像表示部７、同期部９が、特許請求の範囲における抽出手段、付加手段、作成手段、記録手段、表示手段、同期手段にそれぞれ相当する。

次に、会議参加者の行為について説明する。図２は、会議参加者の各行為を階層化した視覚化データ２２で示す図である。この視覚化データ２２は、後述するグラフィカル・ユーザ・インタフェースにより索引表示部８を介して利用者に提供される。図２に示すように、会議参加者の各行為は、シーン層２２ａ、機能行為層２２ｂ、メディア層２２ｃに分類される。シーン層２２ａは、機能行為層２２ｂの上位層に当たる層である。例えば、「議論（discussion）」、「プレゼンテーション（presentation）」の行為がシーン層２２ａに分類される。

機能行為層２２ｂは、機能行為を機能行為単位に表現し、シーン層２２ａの下位層で、メディア層２２ｃの上位層に当たる層である。この機能行為層２２ｂの詳細は後述するが、例えば発言(Statement)、発言形共有情報空間操作(Stating Public Information Space Manipulation)が機能行為に該当する。メディア層２２ｃは、音声認識技術やジェスチャー認識技術のデータの入出力単位にデータを表現し、機能行為層２２ｂの下位層に当たる層である。例えば、発話している、何かを見ている、ジェスチャー等のビデオの物理事象（イベント）がこのメディア層２２ｃに分類される。したがって、１以上の物理事象を抽象化したものが機能行為と定義される。

このように、グラフィカル・ユーザ・インタフェースは、物理事象および物理事象を抽象化した機能行為を階層的に表示し、また１以上の機能行為を抽象化したシーンを機能行為に対して階層的に表示することにより、物理事象とこの物理事象を抽象化した機能行為の違いを階層的に理解することができ、また、機能行為とこの機能行為を抽象化したシーンの違いを階層的に理解することができる。

また、図２に示されるように、会議映像の構造化は、多階層のデータ表現によって構造化され、少なくとも一つの階層は機能行為に関する記述を内容とし、少なくとも他の一つの階層はシーンに関する記述を内容としている。なお、会議映像の構造化は、一つ以上の階層の単階層または多階層のデータ表現によって構造化されていてもよい。

また、会議処理装置装置１は、会議参加者の各行為を、階層化して視覚化するとともに階層化した表現としてデータを処理および保存ないし蓄積およびＸＭＬ等を使って外部表現することもできる。

次に、会議参加者の機能行為を例示する。機能行為には、例えば、発言（Statement：ステイトメント）、発言権の取得(横取り、強奪)(Floor Grabber)、発言権の保持(Floor Holder)、観察(Observing)、参加(Attending)、不参加(Non-attending)、バック・チャネル(Back-channel)、質問(Question)、確認の質問(Confirming Question)、発言型思考(Stating Think)、質問型思考(Question Think)、確認の質問型思考(Confirming Question Think)、不発話型思考(Non-stating Think)、独り言(Self Talk)、発言型共有情報空間操作、質問型共有情報空間操作(Question Public Information Space Manipulation)、確認の質問型共有情報空間操作(Confirming Question Public Information Space Manipulation)、不発言型共有情報空間操作(Non-stating Public Information Space Manipulation)、参加型私的情報空間操作(Attending Private Information Space Manipulation)、不参加型私的情報空間操作(Non-attending Private Information Space Manipulation)、笑い(Laugh)、解釈不能(Non-decipherable)等の行為が含まれる。

なお、上記行為は機能行為の例示であり、機能行為は１以上の物理事象を抽象化したものをいい、これらの行為には限定されない。またこれらの機能行為については本実施例の最後に定義する。

次に、索引付加部５が提供するグラフィカル・ユーザ・インタフェース１５について説明する。図３は、索引付加部が提供するグラフィカル・ユーザ・インタフェース１５の表示例である。このグラフィカル・ユーザ・インタフェース１５の表示は、例えばＯＳ（Operating System）のＵＳＥＲによって制御されている。

索引付加部５は、索引記録部６を介してこのユーザインターフェース１５を索引表示部８に表示する。このグラフィカル・ユーザ・インタフェース１５は、索引付加部５による索引結果を会議映像表示部７に表示する。ユーザはこのグラフィカル・ユーザ・インタフェース１５を用いて会議映像処理装置１全体を制御することができる。また、機能行為に応じた索引を付加することもできる。

図３に示されるように、グラフィカル・ユーザ・インタフェース１５は、映像表示ウィンドウ１６ａ、１６ｂ、１６ｃ、１６ｄ、制御パネル１７、メニュー１８、機能行為記述テーブル１９、トラック・テーブル２０およびシーン記述テーブル２１から構成される。各映像表示ウィンドウ１６ａ〜１６ｄは、会議映像記録部３に記録された会議映像や部分会議映像抽出部４で抽出した部分会議映像を表示する。このグラフィカル・ユーザ・インタフェース１５は、一つの会議が四系統のビデオ・カメラと一系統のステレオ・マイクで捕捉され、各ビデオ・カメラの動画データをそれぞれ映像表示ウィンドウ１６ａ、１６ｂ、１６ｃ、１６ｄに表示する。

制御パネル１７は、映像データ再生ボタン１７ａ、映像データ停止ボタン１７ｂ、映像データ早送りボタン１７ｃ、映像データ巻き戻しボタン１７ｄおよびスライダー・バー１７ｅから構成されている。この制御パネル１７は、映像表示ウィンドウ１６ａ、１６ｂ、１６ｃ、１６ｄに再生表示される動画データとスピーカーで再生される音声データ(両方を総称して映像データと呼ぶこともある)を制御するために利用者によって操作されるものである。

スライダー・バー１７ｅは利用者が任意の時点の同期した動画データを映像表示ウィンドウ１６ａ、１６ｂ、１６ｃ、１６ｄに表示するために利用される。メニュー１８は、ファイル・メニュー１８ａおよび要約メニュー１８ｂから構成される。ファイル・メニュー１８ａは、「動画データの新規読み込み」、「既存データの読み込み」、「上書き保存」、「別名保存」、「終了」などのメニュー項目から構成される。

要約メニュー１８ｂは、「振り返り用の会議映像」、「閲覧用の会議映像」および「役員用の会議映像」などのメニュー項目から構成される。これらの項目を選択することにより、会議映像から振り返り用の会議映像、閲覧用の会議映像、役員用の会議映像を生成することができる。振り返り用の会議映像は、会議に参加した人が後で参加した会議の映像を振り返って見る際に便利な映像である。閲覧用の会議映像は、会議に参加していない人が会議の映像を閲覧する際に便利な映像である。役員用の会議映像は、役員等のエグゼクティブな人が会議の映像を見る際に便利な映像である。

機能行為記述テーブル１９Ａ、１９Ｂは会議参加者の人数に応じて設けられている。機能行為記述テーブル１９Ａは、行為者名を表示する行為者名表示領域１９ａおよび識別番号１９ｂ、開始時間１９ｃ、終了時間１９ｄ、機能行為名１９ｅ、行為者の役割１９ｆ、意図する行為方向１９ｇの各欄から構成される。機能行為記述テーブル１９Ｂは、会議参加者の各個人ごとに対応して生成および表示される。例えば、図３では、会議参加者が「Alice」と「Betty」の二人であると仮定し、「Alice」と「Betty」の各人に対応して、「Alice」用の機能行為記述テーブルと「Betty」用の機能行為記述テーブルの二つのテーブルが例示されている。

ここで、識別番号１９ｂの欄は、機能行為の順番を識別するための番号であり、開始時間１９ｃおよび終了時間１９ｄの欄は、それぞれ一つの機能行為の開始時間と終了時間を記述する。機能行為名１９ｅの欄には、前述のように定義した会議参加者の機能行為を記述する。ユーザが手動で索引付けする場合には、ユーザはグラフィカル・ユーザ・インタフェース１５の映像表示ウィンドウ１６ａ〜１６ｄを参照して機能行為を特定し、特定した機能行為に応じた索引をキーボードを用いて入力すると、機能行為名１９ｅの欄に機能行為名が表示される。

自動で索引付けする場合には、部分会議映像抽出部４で会議映像情報から会議の参加者の１以上の物理事象を含む部分映像情報を抽出し、索引付加部５でこの部分部分会議映像情報について１以上の物理事象を抽象化した機能行為を特定し、この機能行為に基づいて、部分会議映像情報に対して索引を付加する。これにより、グラフィカル・ユーザ・インタフェース１５の機能行為名１９ｅの欄に記述した機能行為名が表示される。

行為者の役割１９ｆの欄には、開始者（Initiator）、応答者（Replier）、観察者（Observer）など行為者の抽象的な役割を記述する。意図する行為方向１９ｇの欄には、機能行為の意図する行為方向を記述する。例えば、「Alice」が「Betty」に質問（Question）する機能行為の場合、意図する行為方向は、「Betty」となる。それに対する「Betty」の「Alice」に対する返答の場合の意図する行為方向は「Alice」となる。

グラフィカル・ユーザ・インタフェース１５は、機能行為記述テーブル１９に示すように、索引を、会議参加者ごとに、索引識別子、索引開始時刻、索引終了時刻、機能行為、会議参加者の役割、意図する行為方向の各データを表現する。

トラック・テーブル２０は、同期させる際に必要なとなるズレを表すものであり、ビデオの識別子となるトラック番号２０ａ、メディアを識別するメディア識別子２０ｂおよび相対的な遅れ時間を示す遅延時間２０ｃから構成される。トラック・テーブル２０のデータは利用される(映像表示ウィンドウ１６ａ、１６ｂ、１６ｃ、１６ｄに表示される)動画データの数に応じて、生成および表示される。トラック番号２０ａと表示される映像表示ウィンドウ１６ａ〜１６ｄとは対応している。つまり、トラック番号２０ａの０番に対応する動画データは映像表示ウィンドウ１６ａに表示され、１番に対応する動画データは映像表示ウィンドウ１６ｂに表示され、２番に対応する動画データは映像表示ウィンドウ１６ｃに表示され、３番に対応する動画データは映像表示ウィンドウ１６ｄに表示される。

トラック・テーブル２０は、複数の動画データを同期するデータの情報を指定する、もしくは提供するためのものである。トラック番号２０ａは、トラック・テーブルのデータの順番を表現する。メディア識別子２０ｂは、会議映像記録部３に記録されている動画データないし映像データの名前などの識別子を表現する。遅延時間２０ｃは、システムが規定するメディア(映像データ)の再生開始時間からの相対的な遅延時間を示す。図３の例では、トラック番号２０ａが３番の動画データ、つまりメディア識別子２０ｂの動画データが他の動画データに対して、０．０５秒遅延していることを例示している。利用者は各映像データの遅延時間２０ｃを指定することによって、複数のビデオを同期して再生することができる。

シーン記述テーブル２１は、機能行為とは異なる抽象度もしくは意味の映像データに対する内容ないし構造の記述を表現するものであり、会議のシーンを記述するためのデータを表現するテーブルであり、識別番号２１ａ、開始時間２１ｂ、終了時間２１ｃ、シーン名２１ｄおよびフリー・テキスト・アノテーション２１ｅの欄から構成される。識別番号２１ａの欄にはシーンの順番を識別するための番号を記述し、開始時間２１ｂおよび終了時間２１ｃの欄には各シーンの開始時間と終了時間をそれぞれ記述する。シーン名２１ｄの欄は、議論やプレゼンテーションなどシーンを表現するシーン名を記述する。フリー・テキスト・アノテーション２１ｅの欄には、各シーンでの出来事などをテキストで記述する。

機能行為記述テーブル１９またはシーン記述テーブル２１によって記録された索引データを、グラフィカル・ユーザ・インタフェース１５によって、二次元的または三次元的に特定の図形要素を色付けし、時間的に配置することによって、利用者に対して、図的に表現することができる。

次に、二次元的な機能行為の図的表現について説明する。図４は、二次元的な機能行為の図的表現の一例を示す図である。つまり、図４は索引付けした会議映像の図的表現を示す図である。この会議映像の図的表現は、索引表示部８に表示される。本実施例では、会議には、「Alice」と「Betty」が参加しているものとする。

図４においては、会議参加者である「Alice」と「Betty」の各機能行為が参加者毎に、時間的に配列され、タイム・ライン形式または表形式によって表現されている。横軸は時間を示している。「Alice」、「Betty」の各欄の四角の１つがそれぞれ機能行為を示している。機能行為単位に索引付けが行われている。なお、図４では、「Alice」を対象とした見直しの映像要約を作成するために利用する機能行為に対応する図形要素を色で塗りつぶしている。

ここで、各機能行為は色付けられた長方形で表現されている。例えば、発言はローズ・ピンクで、発言権の取得(横取り)はオールド・ローズで、発言権の保持(Floor Holder)はボルドーで、観察はカルミンで、参加はスカーレットで、不参加チャイニーズ・レッドで、バック・チャネルはブロンドで、質問はブラウンで、確認の質問はベージュで、発言型思考はブロンズで、質問型思考はナポリ・イエローで、確認の質問型思考はクリーム・イエローで、不発話型思考はレモン・イエローで、独り言はシー・グリーンで、発言型共有情報空間操作はコバルト・グリーンで、質問型共有情報空間操作はビリジアンで、確認の質問型共有情報空間操作はトルコ・ブルーで、不発言共有情報空間操作セルリーン・ブルーで、参加型私的情報空間操作はアイロン・ブルーで、不参加型私的情報空間操作はウルトラマリンブルーで、笑いはバイオレットで、解釈不能はパープルで、一時の退室はスノー・ホワイトで、ミーティングルームの準備はグレーで色付けされる。

また、図４の例では、シーン記述に対応する導入部(introduction)、独り言(monologue)、発表(presentation)、議論(discussion)および話(talk)に対するラベルないし索引が表現されている。図４に示されるように、グラフィカル・ユーザ・インタフェースは、タイムライン形式または表形式によって索引付加部５による索引結果を表現するので、利用者に分かりやすい形態の映像要約の属性情報を提供できる。図４のように、グラフィカル・ユーザ・インタフェース１５が特定の機能行為に関する図形要素を色、形状またはアニメーション動作によって、会議参加者の音声的話者交代、身体的話者交代または音声的身体的話者交代を強調表現することで、会議参加者の音声的話者交代、身体的話者交代または音声的身体的話者交代を図的に表現することができる。

次に、索引データをＸＭＬデータとして表現する場合について説明する。この索引データは、索引付加部５で生成され、索引記録部６に記録されるものである。図５は、索引データをＸＭＬデータとして表現した前半部分であり、図６は、索引データをＸＭＬデータとして表現した後半部分である。図５および図６においては、索引データは、Ｍｐｅｇ７要素をルート要素とするＸＭＬデータとして表現されている。

Ｍｐｅｇ７要素は、Description要素を持つ。Description要素は、索引付けに利用する映像データの集合を記述するContentCollection要素と機能行為を記述するSession要素を持つ。この例では、ContentCollectionは、二つの映像データの利用を記述するために、二つのMultiMediaContent要素を持つ。各MultiMediaContent要素は、AudioVisual要素を持ち、AudioVisual要素は、対応する映像データの所在を表現するMediaLocation要素と同期のための遅延時間を表現するMediaTime要素を持つ。

MediaLocation要素は、MediaUri要素を持ち、MediaUri要素は、映像データが記憶されている識別子を持つ。この例では、映像データとして、file:/video1.mpgとfile:/video2.mpgが利用されていることを表現している。一方、MediaTime要素は、MediaTimePoint要素を持ち、MeiaTimePoint要素は、システムが規定する基準時刻(基準点)からの相対的な遅延時間を表現する。この例では、file:/video1.mpgの遅延時間は、0.0秒で、すなわち遅れは無く、一方、file:/video2.mpgの遅延時間は、1.0秒であることを示す。つまり、file:/video2.mpgは、file:/video1.mpgに対して1秒の遅れがあり、会議映像処理装置１は、file:/video2.mpgをfile:/video1.mpgに対して１秒遅らせて、再生等を行う。

また、Session要素は、会議参加者を表現するActor要素と会議のシーンの集合を表現するConceptualSceneCollectionを持つ。この例では、二人の会議参加者を表現する二つのActor要素が記述されている。Actor要素は、会議参加者の名前を表現するName要素と会議参加者の機能行為の集合を表現するFunctionalActCollectionを持つ。この例では、「Alice」と「Betty」が会議参加者であることを示す。FunctionalActCollection要素は、機能行為を表現する一つ以上のFunctionalAct要素を持つ。この例では、会議参加者AliceとBettyに対応する機能行為は、それぞれ二つのFunctionalAct要素で表現されている。

FunctionalAct要素は、機能行為の時間を表現するMediaTime要素、会議参加者の役割を表現するRoleOfActor要素および意図する行為方向を表現するActDirectionIntention要素を持つ。また、FunctionalAct要素は、その属性として、機能行為の型を表現するtype属性および機能行為の識別子を表現するid属性を持つ。この例では、「Alice」の機能行為としてQuestionとObservingが表現され、一方、「Betty」の機能行為としてObservingとStatementが表現されている。

FunctionalAct要素中のMediaTime要素は、MeidaTimePoint要素およびMediaTimeDuration要素を持つ。このMeidaTimePoint要素は、機能行為の開始時刻を表現し、一方、MediaTimeDuration要素は対応する機能行為の所要時間を表現する。会議参加者AliceのQuestionの機能行為は、会議映像処理装置１の規定する基準時間(基準点)に対して０秒から１秒間の時間に生じたことを表現している。また、当該機能行為の会議の役割(RoleOfActor)は、Initiator(開始者)であり、意図する行為方向は、「Betty」であることをこの例が表現している。

また、ConceptualSceneColoection要素は、シーンを表現する一つ以上のConceptualScene要素を持つ。ConceptualScene要素は、シーンの内容を表現するTextAnnotation要素と対応するシーンの時間を表現するMediaTime要素を持つ。TextAnnotation要素は、FreeTextAnnotation要素を持つ。この例では、シーンが議論(discussion)であることを示している。また、対応するMediaTime要素は、MeidaTimePoint要素およびMediaDuration要素を持ち、それぞれシーンの開始時刻とシーンの所要時間を表現する。この例では、議論(discussion)が基準時間に対して０秒から６０秒間行われたことを表現している。

次に、参加者の機能行為に応じて、利用者が手動によって部分会議映像に対して索引データを付加し、映像要約データを生成する方法について説明する。なお、自動的で参加者の機能行為に応じた索引データを生成、付加する例については、実施例２で説明する。図７は、会議記録手続きを示すフローチャートである。会議記録手続きは、会議映像を捕捉する会議映像捕捉ステップＳ１、会議映像の索引付けを行う会議映像索引付けステップＳ２および会議映像を要約する会議映像要約ステップＳ３を有する。

会議映像捕捉ステップＳ１においては、会議映像撮像部２から捕捉された動画データとマイク・システムから捕捉された音声データとからなる会議映像データが会議映像記録部３に記録される。この会議映像記録部３に記録された会議映像は、利用者の要求に応じて会議映像表示部７に表示される。利用者は、図３のグラフィカル・ユーザ・インタフェース１５中の映像表示ウィンドウ１６ａ、１６ｂ、１６ｃ、１６ｄを通して、会議映像データ(会議映像の動画データ)を参照する。

利用者は複数の動画データを同期させるため、トラック・テーブル２０のトラック番号２０ａ、メディア識別子２０ｂおよび遅延時間２０ｃを指定する。トラック・テーブル２０のトラック番号２０ａ、メディア識別子２０ｂおよび遅延時間２０ｃの欄のデータは、索引付加部５から同期部９に伝えられる。同期部９はそれらのデータを利用して会議映像記録部３に記録されている映像データを同期させる。

次に、会議映像索引付けステップＳ２の手続きについて説明する。会議映像索引ステップＳ２は、部分会議映像抽出ステップＳ２１、索引付加記録ステップＳ２２および索引表示ステップＳ２３を有する。部分会議映像抽出ステップＳ２１においては、部分会議映像抽出部４は、会議映像記録部３に記録されている会議映像データから部分会議映像を抽出する。

索引付加記録ステップＳ２２においては、グラフィカル・ユーザ・インタフェース１５を用いて利用者によって部分会議映像抽出ステップＳ２１において抽出された部分会議映像データに対して、参加者の機能行為に応じた索引データの索引付けが行われる。索引データは、図５および図６に示したように、ＸＭＬデータ等の形式で、索引記録部６に記録される。索引表示ステップＳ２３においては、図５および図６で示したように、索引付加記録ステップＳ２２において索引記録部６に記録されたＸＭＬデータ形式等の索引データをグラフィカル・ユーザ・インタフェース１５の表形式として利用者に提示する。

この会議映像索引付けステップＳ２においては、利用者は、図３で示した制御パネル１７の映像データ再生ボタン１７ａ等を操作しつつ、映像表示ウィンドウ１６ａ、１６ｂ、１６ｃ、１６ｄに表示されている動画データおよびスピーカーによって提示される音声データを視聴しながら、映像データの内容である会議参加者の機能行為を観察し、観察された機能行為を機能行為記述テーブル１９に記述する。つまり、利用者は会議参加者の機能行為に応じて、識別番号１９ｂ、開始時間１９ｃ、終了時間１９ｄ、機能行為名１９ｅ、行為者の役割１９ｆおよび意図する行為方向１９ｇを記述する。ここで、開始時間１９ｃおよび終了時間１９ｄは対応する映像データから取得できる。

なお、機能行為記述テーブル１９は、索引記録部６に記録される索引データのグラフィカル・ユーザ・インタフェースとしての表現であり、索引付加部５および索引表示部８の具体化である。

また、利用者が制御パネル１７を使って特定の(部分的な)映像データを参照することは、会議映像処理装置１の部分会議映像抽出部４によって映像データを抽出することに対応する。さらに、利用者は、会議映像索引付けステップＳ２においては、制御パネル１７の映像データ再生ボタン１７ａ等を操作しつつ、映像表示ウィンドウ１６ａ、１６ｂ、１６ｃ、１６ｄに表示されている動画データおよびスピーカーによって提示される音声データを視聴しながら、映像データのシーンを特定し、対応するシーン名(例えば、議論やプレゼンテーションなど)をシーン記述テーブル２１のシーン名２１ｄの欄に、識別番号２１ａ、開始時刻２１ｂ、終了時刻２１ｃおよびフリー・テキスト・アノテーション２１ｅの欄と共に記述する。

続いて、会議映像要約ステップＳ３の手続きの詳細について説明する。会議映像要約ステップＳ３では、目的に応じて様々な映像要約を生成する。会議映像要約ステップＳ３は、要約規則を生成する要約規則生成ステップＳ３１および映像の要約処理を行う映像要約処理ステップＳ３２を有する。

要約規則生成ステップＳ３１においては、要約規則生成部１０は、要約規則データを生成し、この要約規則データを要約規則記録部１１に記録し、記録された要約規則データを要約規則表示部１２によって利用者に表示する。なお、グラフィカル・ユーザ・インタフェース１５においては、要約規則表示部１２の具体化されたユーザインターフェースは例示していない。映像要約処理ステップＳ３２においては、映像要約生成部１３は、会議映像記録部３において記録されている会議映像データ、索引記録部６において記録されている索引データおよび要約規則記録部１１に記録されている要約規則データを参照し、索引データおよび要約規則データに応じて会議映像データを編集し、要約された会議映像要約データを生成する。

ここで、映像要約処理ステップＳ３２において、映像要約生成部１３は、既定の最大部分映像所要時間と各部分映像データの所要時間とを比較する。映像要約生成部１３は、候補となっている部分映像データのうち所要時間を超えない部分を用いて会議映像情報を要約した会議映像を作成する。所定の最大部分映像所要時間を例えば１０秒と設定することができる。映像要約生成部１３は、候補となった部分映像データの所要時間が１０秒を超えた場合、最初の１０秒間のみを映像要約データのデータ源の候補とすることができる。

映像要約生成部１３によって生成された会議映像要約データは映像要約記録部１４に記録される。記録された会議映像要約データは、会議映像表示部７に表示される。なお、映像要約処理ステップＳ３２は、利用者がメニュー１８の要約メニュー１８ｂの項目を指定することによって、処理が始まるようにしてもよい。

次に、要約規則生成ステップＳ３１について詳細に説明する。図８は、要約規則生成ステップＳ３１の詳細を示すフローチャートである。要約規則生成ステップＳ３１は、要約メニュー１８ｂの中の「振り返り用の会議映像」、「閲覧用の会議映像」および「役員用の会議映像」を選択することにより処理が始まる。ここで、振り返り用の会議映像とは、会議に参加した人が後で参加した会議の映像を振り返って見る際に便利な会議映像である。閲覧用の会議映像とは、会議に参加していない人が会議の映像を閲覧する際に便利な会議映像でる。役員用の会議映像とは、役員等のエグゼクティブな人が会議の映像を見る際に便利な会議映像である。

まず、ステップＳ４１で、要約規則生成部１０は、振り返り用の会議映像が選択されているかどうかを判断し、振り返り用会議映像が選択されている場合、ステップＳ４２に進み、振り返り用会議映像が選択されていない場合、ステップＳ４３に進む。ステップＳ４２の振り返り用会議映像規則生成ステップでは、要約規則生成部１０は、機能行為のうち「能動的機能行為」または「発言型思考の機能行為」を取り扱う。参加者指定ステップＳ４２１においては、利用者により振り返り対象となる会議参加者名がキーボードなどによって指定される。振り返り関連機能行為判定ステップＳ４２２では、要約規則生成部１０は、索引記録部６の索引データを参照し、「能動的機能行為」または「発言型思考の機能行為」のいずれかに対応する索引データがあるかどうかを判定する。

要約規則生成部１０は、「能動的機能行為」または「発言型思考の機能行為」のいずれかに対応する索引データがあった場合、関連する部分会議映像データを振り返り映像要約のデータ源の候補とする映像要約生成規則を生成する。また要約規則生成部１０は、振り返り用会議映像のデータ源の候補の中から、対応する部分映像データのシーンが「議論」である部分映像データを振り返り用の会議映像のデータ源の第二の候補とする映像要約生成規則を生成する。要約規則生成部１０は、振り返り用の会議映像規則データとして要約規則記録部１１に出力する。

ここで、能動的機能行為は、「発言」、「質問」、「発言型共有情報空間操作」、「質問型共有情報空間操作」および「不発言型共有情報空間操作」の機能行為の総称を意味する。なお、振り返り関連機能行為判定ステップＳ４２２において処理対象となる機能行為は、参加者指定ステップＳ４２１において指定された参加者に関連する機能行為のみが対象となる。

ステップＳ４３で、要約規則生成部１０は、閲覧用の会議映像が選択されているかどうかを判断し、閲覧用の会議映像が選択されている場合、ステップＳ４４に進み、閲覧用の会議映像が選択されていない場合、ステップＳ４５に進む。閲覧用の会議映像規則生成ステップＳ４４では、要約規則生成部１０は、「発言」、「質問」、「発言型思考」または「発言型共有情報空間操作」のいずれかの機能行為を取り扱う。

閾値および参加者指定ステップＳ４４１においては、映像要約生成のための閾値データが利用者によってキーボードなどで指定される。なお、閾値データは既定値として予め会議映像処理装置１が提供するものとしても良い。また、利用者によって対象とする会議参加者がキーボード等によって指定される。この閾値データは、対象となるシーンのシーン所要時間に対する候補となる部分映像データの所要時間の総和に対する比である。ここで、シーン所要時間は、各シーンの開始時間と終了時間の差として定義される。

閲覧関連機能行為判定ステップＳ４４２においては、要約規則生成部１０は、索引記録部６を参照し、索引データが、「発言」、「質問」、「発言型思考」または「発言型共有情報空間操作」のいずれかの機能行為に対応するものであるか否かを判定する。要約規則生成部１０は、「発言」、「質問」、「発言型思考」または「発言型共有情報空間操作」のいずれかの機能行為に対応する索引データがあった場合、関連する部分会議映像データを閲覧用の会議映像のデータ源の候補として映像要約規則を生成する。

要約規則生成部１０は、処理対象の機能行為に対応する部分映像データのシーン所要時間と当該部分映像データの所要時間の総和との比が閾値および参加者指定ステップＳ４４１において指定された閾値データの値を超える場合に、当該部分映像データを閲覧用の会議映像のデータ源の第二の候補とする映像要約生成規則を生成する。要約規則生成部１０は、生成した閲覧用の会議映像生成規則データとして要約規則記録部１１に出力する。なお、閲覧関連機能行為判定ステップＳ４４２において、処理の対象となる機能行為は、閾値および参加者指定ステップＳ４４１において指定された会議参加者に関する機能行為のみが映像要約処理の対象となる。

ステップＳ４５で、要約規則生成部１０は、役員用の会議映像が選択されているかどうかを判断し、役員用の会議映像が選択されている場合、ステップＳ４６に進み、役員用の会議映像が選択されていない場合、要約規則生成処理を終了する。この役員用の会議映像規則生成ステップＳ４６では、要約規則生成部１０は、「発言」、「発言型思考」または「発言型共有情報空間操作」のいずれかの機能行為を取り扱う。

閾値および参加者指定ステップＳ４６１においては、映像要約生成のための閾値データが利用者によってキーボードなどで指定される。なお、閾値データは既定値として予め会議映像処理装置１が提供するものとしても良い。また、利用者によって対象とする会議参加者がキーボード等によって指定される。この閾値データは、対象となるシーンのシーン所要時間に対する候補となる部分映像データの所要時間の総和に対する比である。

役員関心対象機能行為判定ステップ４６２においては、要約規則生成部１０は、索引記録部６を参照し、「発言」、「発言型思考」または「発言型共有情報空間操作」のいずれかの機能行為に対応する索引データがあるか否かを判定する。要約規則生成部１０は、「発言」、「発言型思考」または「発言型共有情報空間操作」のいずれかの行為に対応する索引データがあった場合、関連する前記部分会議映像データを役員用の会議映像のデータ源の候補とする要約規則データを生成する。

要約規則生成部１０は、候補となった役員用の会議映像のデータ源の候補の中から、対応する部分映像データのシーンが「議論」または「プレゼンテーション」である部分映像データを役員用の会議映像のデータ源の第二の候補とする要約規則データを生成する。要約規則生成部１０は、さらに処理対象の機能行為に対応する部分映像データのシーン所要時間と当該部分映像データの所要時間の総和との比が前記閾値および参加者指定ステップＳ４６１において指定された閾値データの値を超える場合に、当該部分映像データを役員用の会議映像のデータ源の第三の候補とする映像要約生成規則を生成する。要約規則生成部１０は、生成した要約規則データを役員用の会議映像規則データとして要約規則記録部１１に出力する。なお、役員関心対象機能行為判定ステップＳ４６２において、処理の対象となる機能行為は、閾値および参加者指定ステップＳ４６１において指定された会議参加者に関する機能行為のみが映像要約処理の対象となる。

次に、会議映像要約を三種類の利用場面に分けて、会議映像要約ステップＳ３の手続きの詳細を説明する。会議映像要約は、利用者のメニュー１８の要約メニュー１８ｂの「振り返り用の会議映像」項目、「閲覧用の会議映像」項目または「役員用の会議映像」項目のいずれかを選択することによって、それぞれ「振り返り用の会議映像」「閲覧用の会議映像」または「役員用の会議映像」の場合に分けられる。

まず、「振り返り用の会議映像」の場合について説明する。「振り返り用の会議映像」の場合、要約映像生成部１３は、振り返り用の会議映像規則生成ステップＳ４２の手続きで生成された振り返り用の会議映像規則データを用いて、索引記録部６に記録されている索引データから対象となる索引データを抽出する。映像要約生成部１３は、当該索引データに関連する映像データまたは部分映像データを会議映像記録３から抽出し、機能行為のうちの発言、質問、発言型共有情報空間操作、質問型共有情報空間操作もしくは不発言型共有情報空間操作である能動的機能行為または発言型思考の機能行為を集めた振り返り用の会議映像データを作成する。

次に、「閲覧用の会議映像」の場合について説明する。「閲覧用の会議映像」の場合、要約映像生成部１３は、閲覧用の会議映像要約規則生成ステップＳ４４の手続きで生成された閲覧用の会議映像規則データを用いて、対象となる索引データを索引記録部６から抽出する。映像要約生成部１３は、当該索引データに関連する映像データまたは部分映像データを会議映像記録部３から抽出し、機能行為のうちの発言、質問、発言型思考または発言型共有情報空間操作を集めた閲覧用の会議映像データを作成する。

最後に、「役員用の会議映像」の場合について説明する。「役員用の会議映像」の場合、要約映像生成部１３は、役員用の会議映像規則生成ステップＳ４６の手続きで生成された役員用の会議映像規則データを用いて、対象となる索引データを索引記録部６から抽出する。映像要約生成部１３は、当該索引データに関連する映像データまたは部分映像データを抽出し、機能行為のうちの発言、発言型思考または発言型共有情報空間操作を集めた役員用の会議映像データを作成する。

ここで、前述の三種類の会議映像要約において、どのように機能行為に関するデータが利用されて要約処理が行われるかを図９および図１０を用いて説明する。図９は、会議参加者としてAlice、BettyおよびCherrylの三人が会議に参加し、各人の機能行為が本発明の実施例のように特定された場合のタイムラインの例を示している。つまり、図９は、機能行為の所要時間を表現するタイムラインの例を示す。また、図９の横軸は時間(の経過)を示す。

図９において、Aliceは、会議において、(a)発言、(b)発言、(c)バックチャネル、(d)質問、(e)バックチャネルおよび(f)不発言型共有時間操作を行ったことを示している。また、図９において、Bettyは、(g)発言を行い、Cherrylは(h)発言を行ったことを表現している。ここで、前述の振り返り用の会議映像規則生成ステップＳ４２では、会議に参加した会議参加者が会議開催後に映像要約を使って対象となる会議を振り返るための映像要約の規則を生成するものとする。

また、前述の閲覧用の会議映像規則生成ステップＳＳ４４では、会議に参加しなかった者が、会議開催後に映像要約を使って対象となる会議を閲覧するための映像要約の規則を生成するものとする。また、前述の役員用の会議映像規則生成ステップＳＳ４６では、会議参加者の役員ないし上長あるいは管理者が当該会議を対象となる会議を参照するための映像要約の規則を生成するものとする。

例えば、Aliceは、会議に参加していたので「振り返り用の会議映像」を利用して会議映像を振り返ることができる。また、Dianaは、会議に参加していなかったので「閲覧用の会議映像」を利用して会議映像を閲覧することができる。さらに、Aliceの管理者であり、役員であるEllyは、「役員用の会議映像」を利用して会議映像を参照することができる。ここで、Dianaは対象となる会議には参加しなかったものとする。なお、ここの参加しなかったことの意味は、物理的に参加しなかった、あるいは、テレビ会議等で(テレビ会議等の機器を利用しないで)会議に参加しなかった場合などであり、機能行為の「不参加」とは意味が異なり、会議に何らの関与もなかったことを意味する。

ここで、Aliceが「振り返り用の会議映像」を使用する場合、Aliceは前述の参加者指定ステップＳ４２１においては参加者として自分自身つまりAlice自身を指定する。このようにAlice自身を参加者として指定することによって、Aliceの機能行為のみを対象することができる。つまり、Aliceの「振り返り用の会議映像」における機能行為の対象は、図９の(a)発言、(b)発言、(c)バックチャネル、(d)質問、(e)バックチャネルおよび(f)不発言型共有時間操作にまず限定される。次に、前述のように振り返り用の会議映像規則生成では、機能行為のうち「能動的機能行為」または「発言型思考の機能行為」のみを取り扱う。そこで、図９の(a)発言、(b)発言、(d)質問および(f)不発言型共有時間操作の機能行為を対象として要約処理が進められる。

次に、会議に参加していなかったDianaが「閲覧用の会議映像」を使用する場合、まず、Dianaは会議参加者を指定する。例えば、Dianaは閾値および参加者指定ステップＳ４２１においてAliceを指定したとする。そこで、「閲覧用の会議映像」における機能行為の対象は、図９の(a)発言、(b)発言、(c)バックチャネル、(d)質問、(e)バックチャネルおよび(f)不発言型共有時間操作にまず限定される。

次に、前述のように「閲覧用の会議映像」においては、「発言」、「質問」「発言型思考」または「発言型共有情報空間操作」のいずれかの機能行為が処理対象となるので、結局、図９の(a)発言、(b)発言および(d)質問のみの機能行為を対象として要約処理が進められる。次に、役員であるEllyが「役員用の会議映像」を使用する場合、閾値および参加者指定ステップＳ４６１において、EllyがAlice、BettyおよびCherrylを指定したとする。前述のように、役員用の会議映像規則生成ステップＳ４６においては、「発言」、「発言型思考」または「発言型共有情報空間操作」のいずれかのみの機能行為を対象としているので、図９のAliceによる(a)発言、(b)発言、Bettyによる(g)発言、Cherrylによる(h)発言のみの機能行為を対象として要約処理が進められる。

次に、閾値の処理手続きについて説明する。閾値をよりコンパクトな映像要約を生成するために利用することができる。例えば、閾値を処理対象とする機能行為の所要時間の上限を設定するために利用することができる。図１０は、閾値よりも長い所要時間を持つ機能行為と閾値より短い所要時間を持つ機能行為の例を示す。また、図１０の横軸は時間(の経過)を示す。図１０では、Aliceが(a’)発言と(b’)発言を行ったことを表現している。

ここで、処理対象とする機能行為の所要時間の上限を設定するために、閾値tを８秒と設定したとする。また、Aliceの先行する(a’)発言は１０秒で、Aliceの後続する(b’)発言は６秒だったとする。映像要約処理を行う場合に、８秒の閾値tを上限にして、発言の機能行為が処理されるとき、先行する(a’)の発言は、発言の先頭から８秒のみを処理対象とすることができる。一方、８秒の閾値tより短い後続する(b’)発言はすべて部分を処理対象とすることができる。

次に、上記で例示した各機能行為を定義する。発言とは、他のいずれのカテゴリーの機能行為にも属さないいわゆる話として最も良く記述ないし説明されるものであり、言語行為に関連付けられる。質問(Question)は別のカテゴリーであるけれども、修辞的な質問は発言として分類される。発言権の取得は、議論に参加していない参加者が議論に入ることを望むときに生じる行為である。

発言権の取得には、音声的現象および視覚的現象の両方がなり得る。発言権の取得には、例えば、参加者が話を始めたいことを示すために手を上げる、あるいは他の人々の注意を惹くために音を立てるなどの行為が含まれる。発言権の保持とは、誰か他の人が発言権を取ろうとしているとき、参加者が、その参加者の発言権の順番を維持しようと試みることを除いて、上述の発言権の取得と同じ行為をいう。

観察とは、他の行為なしに(他の行為を伴わず)、参加者が注意強奪点(attention grabbing point)を意図的に見る行為を意味する。ここで、注意強奪点とは、文字通り参加者の注意や関心を惹くものや人の行為などを意味する。参加とは、意図することなく注意強奪点を見る行為を意味する。参加者は目を驚かせたり、座る位置を変えるかも知れない。この行為の意図する行為方向(act intention direction)を見つけること(特定すること)は、もし注視(gaze)のみを考慮するならば、考えるほど難しくは無い。

人がどこかに注視しているときは重要であり、特に、この行為の最初と最後の注視方向は、意図する行為方向に対する良い手がかりとなる。また、誰か他の人がバック・チャネル(Back-channel)を行ったり、あるいは、話者がどことなく彼または彼女の話を強調する場合(例えば、姿勢の動き、音声的強調など)、参加している(attending)参加者は、意図する行為方向(act direction intention)を見ると考えられる。不参加とは、参加者が意図的に会議と関係の無い事に巻き込まれることを意味する。例えば、睡眠、電話に出て話すことが不参加に該当する。

バック・チャネルとは、参加者が議論を続ける場合の確認のサインを意味する。例えば、うなずきまたは「へぇー」などの短い言語的なメッセージがバック・チャネルに該当する。質問とは、回答者に対して発言権をオープンのままにする質問を意味する。確認の質問とは、回答者に対して発言権を与えないことを意図した質問を意味する。この確認の質問は、通常短いメッセージである。

発言型思考とは、発言を伴う思考の行為を意味し、もし参加者が上を向いているならば、この行為を決定するサインである。質問型思考とは、質問を伴う思考の行為を意味する。確認の質問型思考とは、確認の質問を伴う思考を意味する。不発話型思考とは、発言をしない状態での思考を意味する。独り言とは、誰にも向けられていない話を意味する。通常良いサインの一つは、下を向いている場合である。これは意図する行為方向を持たない。

発言型共有情報空間操作とは、発言しながら、会議における二人の参加者以上に共有されているホワイト・ボードあるいは他の任意の情報空間(information space)に何かを書く等の行為を意味する。質問型共有情報空間操作とは、質問しながら、会議における二人の参加者以上に共有されているホワイト・ボードあるいは他の任意の情報空間に何かを書く等の行為を意味する。確認の質問型共有情報空間操作とは、確認の質問をしながら、会議における二人の参加者以上に共有されているホワイト・ボードあるいは他の任意の情報空間に何かを書く等の行為を意味する。

不発言共有情報空間操作とは、会議における二人の参加者以上に共有されているホワイト・ボードあるいは他の任意の情報空間に何かを書く等の行為を意味する。不発言共有情報空間操作以外の発言していない機能行為の場合、意図する行為方向(act intention direction)を持たない。参加型私的情報空間操作とは、参加者が意図的に私的情報空間(private information space)に巻き込まれている場合で、会議に参加しているときを意味する。例えば、メモを紙に書くあるいはラップトップ・コンピューターに書くなどの行為がこの参加型私的情報空間操作に当たる。この場合、参加者は会議を一瞥し、さらに短いコメントまたはバック・チャネルを行うときもある。

不参加型私的情報空間操作とは、参加者が意図的に私的情報空間に巻き込まれている場合で、会議に参加していないときを意味する。笑いとは、笑うことを意味する。解釈不能とは、行為もしくは意図する行為方向がビデオから解釈できない場合を意味する。

以上、実施例１によれば、１以上の物理事象を抽象化した機能行為に基づいて会議映像情報を編集することができる。これにより、会議後に会議映像を視聴する者にとって有用な会議映像を提供できる。

次に実施例２について説明する。実施例２では、索引付加部５において参加者の機能行為に応じた索引データを自動的に生成する例について説明するものである。第２実施例では、音声/非音声区間の検出ないし音声認識技術やジェスチャー認識技術を利用して、映像データから機能行為を特定し、特定した機能行為を、クラスタリング技術等を用いて特定したシーンと共に自動的に参加者の機構行為に応じた索引データを生成する。

図１１は、索引を表示するまでの処理フローチャートである。処理手続きは、図１１のフローチャートに示すように、事象索引付けステップＳ５１、機能行為索引付けステップＳ５２、シーン索引付けステップＳ５３および索引表示ステップＳ５４から成る。なお、事象索引付けステップＳ５１、機能行為索引付けステップＳ５２およびシーン索引付けステップＳ５３は、上述した索引付加記録ステップＳ２２を詳細化したものである。

事象索引付けステップＳ５１においては、索引付加部５は、メディア層２２ｃに対応する映像データの索引付けを行う。具体的には、索引付加部５は、部分会議映像抽出部４において抽出された部分会議映像データから会議参加者の視線やうなずきなどの各物理事象を特定し、索引付けおよび映像データの構造化を行う。機能行為索引付けステップＳ５２においては、索引付加部５は、機能行為層２２ｂに対応する映像データの索引付けを行う。具体的には、索引付加部５は、メディア層２２ｃとして構造化された物理事象の索引データに基づいて機能行為を特定し、索引付けおよび映像データの構造化を行う。

シーン索引付けステップＳ５３においては、索引付加部５は、シーン層２２ａに対応する映像データの索引付けを行う。具体的には、索引付加部５は、機能行為層２２ｂとして構造化された機能行為の索引データに基づいてシーンを特定し、索引付けおよび映像データの構造化を行う。索引表示ステップＳ５４においては、索引表示部８は、メディア層２２ｃ、機能行為層２２ｂおよびシーン層２２ａとして構造化された索引データを利用者に対して図２のように図的に視覚化する。

図１２は、機能行為層とメディア層における映像データの構造化の一例を示す図である。ここで、メディア層２２ｃの四つのイベント(事象)は、事象Ａが離席を表現する事象であり、事象Ｂが発話を表現する事象であり、事象Ｃがホワイトボードへの書き込みを表現する事象であり、事象Ｄが着席を表現する事象であるとする。ここで、事象Ｂと事象Ｃは同時並行的に生じているものとする。具体的には、会議参加者が発話しながらホワイトボードに書き込みを行っているとする。このような事象の索引データに基づいて、対応する機能行為層２２ｂでは、機能行為として発言型共有情報空間操作の機能行為を特定することができる。

なお、上記において、シーンの境界を特定する際には、金子らの“ゆう度比検定を用いたＭＰＥＧビットストリームからの動画像カット検出手法”,電子情報通信学会論文誌D-II vol. J82-D-II, No.3, pp.361-370(1990)を用いることができる。また、複数のカットで一つのシーンが構成されている場合には、Boreczkyらの“An Interactive Comic Book Presentation for Exploring Video”, CHI2000 CHI Letters, volume 2, issue 1, pp.185-192,(2000)において利用されているクラスタリング手法を用いて、複数のカットを一つのシーンとしてまとめて取り扱うことができる。Boreczkyらは、ビデオのすべてのフレームをクラスタリングしている。ここでは、フレームは、階層的集団クラスタリング技術(hierachical agglomerative clustering technique)のいわゆる完全リンク法(complete link method)を使ってクラスタリングされる。

また、(部分会議)映像データから「発言」の機能行為を特定するために、丸山らが“ワードスポッテングと動的計画法を用いたテレビ番組に対する字幕提示タイミング検出法”で利用されているBlock Cepstrum Fluxを用いることができる。つまり、音声および非音声の閾値から非音声と判断されたフレームが一定以上連続した場合、その区間を非音声区間、残りを全て音声区間として判定して、音声区間を検出することで、映像データから「発話」の機能行為を特定することができる。

また、手振りで「発言権の取得」を示している場合、(部分会議)映像データからそのような手振りや身振りを検出する方法として、従来のジェスチャー認識技術を利用することができる。例えば、特開２００１−２２９３９８号公報記載の装置を用いて、動画キャラクターの動作を自然にするため、動作者のジェスチャーを映像から取得し、動作を再生可能な基準にパラメータ化して、パラメータにタグを付け記憶し、キャラクター動作に利用できる。また、特開２０００−２２２５８６号公報記載の装置を用いて、映像中のオブジェクトに対するモーション情報を効率的に記述するために、モーションヒストグラムを累積した累積モーションヒストグラムを生成し、映像中の内容物に対するモーション情報を効率的に記述したモーションディスクリプタを生成し、ビデオ検索に利用できる。

さらにジェスチャー認識を行うために、モデルを構築して、連続するフレーム画像から精度よく動物体の動作と構造を推定したものもいくつか提案されている。例えば、特開平９−２４５１７８号公報記載のジェスチャー動画像認識方法を用いて、動画像を構成する複数のフレーム画像の各々をベクトル空間上の一つの点とみなし、当該点の動作軌跡をジェスチャーの種類ごとの特徴パラメータとし、当該抽出された特徴パラメータと基準パターンの特徴パラメータとを比較することにより、ジェスチャー認識を行うことができる。

また、特開平１１−２３８１４２号公報記載の装置を用いて、元映像において行われるジェスチャーに関して、問いかけ(身を乗り出す)または同意(うなづく)など、ジェスチャーの意味的な単位は分割されているので、各単位ジェスチャーに付与される意味ラベルを構築し、意味ラベルからジェスチャーの意味を抽出し、ジェスチャーの開始時刻と終了時刻を記述したスクリプト生成できる。また、特開平６−８９３４２号公報記載の動画像処理装置を用いて、動画像を構成する複数の画像を入力し、画像間における少なくとも３点の特徴点の位置の変化から画像フレーム間のアフィン変形を推定して、画像の特徴量の位置の変化から対象物体の動きおよび構造を検出することができる。これらのジェスチャー認識技術を映像データから「発言権の取得」や「バック・チャネル」等の機能行為を特定するために利用することができる。

次に、索引付加部５における機能行為の特定方法について説明する。索引付加部５は、１以上の物理事象の所要時間の論理和から機能行為の所領時間を算出する。この機能行為の所要時間は、機能行為の開始時刻と機能行為の終了時刻から特定することが可能で、前述の機能行為索引付けに利用することができる。つまり、機能行為の所要時間を映像データの構造化に応用することができる。また、索引付加部５は、部分会議映像情報に含まれる会議参加者のジェスチャー、会議参加者の口の動き、会議参加者の視線、会議参加者の頭部の動き、会議参加者の物を書く動作、会議参加者の椅子から立ち上がる動作、会議参加者の所定の入力装置へのタイピング動作、会議参加者の顔の表情、会議参加者の音声データなどから機能行為を特定する。

まず、発言(Statement)の場合について説明する。図１３は、発言(Statement)の機能行為に関するタイムラインの図である。図１３の横軸は時間(の経過)を示す。図１３の(a)発言の動画像源データ、(b)発言者のジェスチャー画像データ、(c)発言者の口の動き画像データ、および(d)発言の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)発言として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図１３の(a)は、発言の動画像データであり、(b)の発言者のジェスチャーの画像データおよび(c)の発言者の口の動きの画像データのデータ源と言う意味で、「発言の動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の発言の動画像源データから(b)の発言者のジェスチャーの画像データを取得する。同様に、部分会議映像抽出部４は、(a)の発言の動画像源データから(c)発言者の口の動きの画像データを取得する。索引付加部５は、機能行為層の発言の所要時間を、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

図１４は、機能行為の所要時間を特定する手続きを示すフローチャートである。機能行為の所要時間を特定する手続きは、メディア層のイベント所要時間の時間的な論理和処理ステップＳ６１、他のイベント(データ源)の有無判定ステップＳ６２および機能行為の所要時間特定ステップＳ６３から構成される。これらのステップは索引付加部５により行われる。通常、機能行為は、メディア層の一つ以上のイベントの所要時間によって特定することができる。そこで、索引付加部５は、対象となるメディア層のイベントの回数分だけ、メディア層のイベント所要時間の時間的な論理和処理ステップＳ６１を繰り返す。索引付加部５は、その繰り返しの有無を、次の他のイベント(データ源)の有無判定ステップＳ６２において判定する。

メディア層のイベント所要時間の時間的な論理和処理ステップＳ６１においては、既に計算されているイベント所要時間と、現在計算しようとしているイベント所要時間の論理的な時間軸上の和を計算するステップである。機能行為の所要時間特定ステップＳ６３においては、索引付加部５は、メディア層のイベント所要時間の時間的な論理和処理ステップＳ６１において設定された時間的な論理和の結果の開始時刻および終了時刻から、それらの差を算出し、対象とする機能行為の所要時間として特定する。つまり、機能行為の所要時間を開始時刻と終了時刻の差として算出する。上記の発言の機能行為の所要時間を特定する場合、索引付加部５は、図１３の(b)発言者のジェスチャーの画像データ、(c)発言者の口の動きの画像データおよび(d)発言の音声データの各メディア層の所要時間の論理和を算出することによって、発言の機能行為の所要時間を特定する。

次に、図１４で示した機能行為所要時間特定ステップＳ６３の詳細な処理について説明する。また、図１５は、機能行為の所要時間を特定する手続きを示すフローチャートである。図１５に示すように、機能行為の所要時間を特定する手続きは、開始時刻の取得ステップＳ７１、最早開始時刻との比較ステップＳ７２、最早開始時刻の設定ステップＳ７３、終了時刻の取得ステップＳ７４、最遅終了時刻との比較ステップＳ７５、最遅終了時刻の設定ステップＳ７６、他のイベント(データ源)の有無判定ステップＳ７７および機能行為の所要時間特定ステップＳ７８からなる。これらのステップは索引付加部５により行われる。ここで、最も早い開始時刻を最早開始時刻と呼ぶことにする。また、最も遅い終了時刻を最遅終了時刻と呼ぶことにする。開始時刻の取得ステップＳ７１においては、索引付加部５は、メディア層のあるイベントの開始時刻を取得する。

次に、最早開始時刻との比較ステップＳ７２においては、索引付加部５は、既に設定されている最早開始時刻と開始時刻の取得ステップＳ７１で取得したイベントの開始時刻とを比較する。索引付加部５は、開始時刻が最早開始時刻よりも早い場合、最早開始時刻の設定処理ステップＳ７３の処理を行う。一方、索引付加部５は、開始時刻が最早開始時刻と同じか遅い場合、終了時刻の取得ステップＳ７４に進む。最早開始時刻の設定ステップＳ７３においては、索引付加部５は、開始時刻の取得ステップＳ７１において取得した開始時刻を改めて最早開始時刻として設定する。次に、終了時刻の取得ステップＳ７４においては、索引付加部５は、対応するメディア層のあるイベントの終了時刻を取得する。

次に、最遅終了時刻との比較ステップＳ７５においては、索引付加部５は、既に設定されている最早終了時刻と終了時刻の取得ステップＳ７４において取得したイベントの終了時刻とを比較し、終了時刻が最遅終了時刻よりも遅い場合、最遅終了時刻の設定ステップＳ７６の処理を行い、終了時刻が最遅終了時刻と同じか早い場合、他のイベント(データ源)の有無判定ステップＳ７７に進む。他のイベント(データ源)の有無判定ステップＳ７７においては、索引付加部５は、対象とする機能行為に関連する他のイベント(データ源)の有無を判定し、まだ他のイベントがある場合、そのイベントに関する処理時刻の取得手続きＳ７１の処理に戻る。

一方、索引付加部５は、対象とする機能行為に関して他のイベントが無い場合、機能行為の所要時間特定ステップＳ７８の処理を行う。機能行為の所要時間特定ステップＳ７８においては、索引付加部５は、最早開始時刻の設定ステップＳ７３および最遅終了時刻の設定ステップＳ７６において設定された最早開始時刻および最遅終了時刻から、それらの差を算出し、対象とする機能行為の所要時間として特定する。つまり、機能行為の所要時間を最早開始時刻と最遅終了時刻の差として算出する。以上のような手続きで、図１３の(b)発言者のジェスチャーの画像データ、(c)発言者の口の動きの画像データおよび(d)発言の音声データから(e)発言として特定される所要時間(時間帯)を算出することができる。

次に、図１３の（ａ）発言の動画像源データからメディア層の各物理事象を抽出する手法について説明する。この処理は部分会議映像抽出部４により行われる。ここで、図１３の(a)発言の動画像源データから(b)発言者のジェスチャーの画像データを抽出する方法として、株式会社応用計測研究所のソフトウェア版リアルタイム３次元運動計測システムSV-Trackerや画像式運動計測ソフトウェアPc-MAGを利用することができる。

SV-Trackerを用いた場合、会議参加者には事前にジェスチャーの三次元計測のためのマーカーを装着してもらう必要があるがいわゆるIEEE1394デジタル・カメラを用いて、そのカメラから撮像した発言の動画像源データから発言者のジェスチャーの画像データを抽出することが可能となる。一方、Pc-MAGを用いた場合、前述のようなマーカーは不要であるが、発言の動画像源データの画像に対してジェスチャーを計測するための計測点を設定する必要があるが、発言の動画像源データから発言者のジェスチャーの画像データを抽出することが可能となる。

また、ジェスチャー認識技術については、富永らの「ジェスチャ認識のための多視点カメラによる人物位置推定および手領域抽出法の提案」情報処理学会研究報告Vol.2001, No.87,ヒューマンインタフェース95-12 (2001.9.13),pp.85-92記載の方法を利用することができる。ここで、図１３の(a)発言の動画像源データから(c)発言者の口の動きの画像データを抽出する方法として、村井らの「口周囲の動きから発話終始端検出」情報処理学会2000年秋季全国大会Vol.2,pp.169-170,2000の方法を利用することができる。

また、図１３の(d)発言の音声データの取得については、IBM社製の”Speech for Java（登録商標）”技術を用いることによって、一般的な音声データから発言が行われている音声区間の音声データを抽出することができる。また、「音声認識記述の基礎と応用プログラム開発手法」Interface1998,Aug.,pp.100-105記載の音声認識処理の方法を用いて発話の音声データを取得することも可能と考えられる。

次に、発言権の取得(Floor Grabber)の場合について説明する。図１６は、発言権の取得(Floor Grabber)の機能行為に関するタイムラインの図である。図１６の横軸は時間(の経過)を示す。図１６の(a)発言権の取得の動画像源データ、(b)発言権の取得のジェスチャー(手を上げる動作)の画像データ、(c)参加者の椅子から立ち上がる動作の画像データ、(d)会議参加者の口の動きの画像データ、および(e)発言権の取得(「あのー」)の音声データは、前述のメディア層のデータと捉えることができる。一方、(f)発言権の取得として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図１６の(a)は、発言権の取得の動画像データであり、(b)の発言権の取得のジェスチャーの画像データ、(c)参加者の椅子から立ち上がる動作の画像データおよび(d)の会議参加者の口の動きの画像データのデータ源と言う意味で、「発言権の取得の動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の発言権の取得の動画像源データから(b)の発言権の取得のジェスチャーの画像データを取得する。同様に、部分会議映像抽出部４は、(a)の発言権の取得の動画像源データから(c)参加者の椅子から立ち上がる動作の画像データを取得する。同様に、部分会議映像抽出部４は、(a)の発言権の取得の動画像源データから(c)会議参加者の口の動きの画像データを取得する。

索引付加部５は、機能行為層の発言権の取得の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが発言権の取得をしようとしたとき、上述の(a)発言権の取得の動画像源データ、(b)発言権の取得のAliceのジェスチャー(Aliceの手を上げる動作)の画像データ、(c)参加者Aliceの椅子から立ち上がる動作の画像データ、(d)会議参加者Aliceの口の動きの画像データ、および(e)発言権の取得(Aliceの「あのー」)の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(f)発言権の取得として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、発言権の保持(Floor Holder)の場合について説明する。図１７は、発言権の保持(Floor Holder)の機能行為に関するタイムラインの図である。図１７の横軸は時間(の経過)を示す。図１７の(a)発言権の保持の動画像源データ、(b)発言権の保持のジェスチャー(手を差し出す(手による制止)動作)の画像データ、(c)会議参加者の口の動きの画像データ、および(d)発言権の保持(「それから」)の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)発言権の保持として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図１７の(a)は、発言権の保持の動画像データであり、(b)の発言権の保持のジェスチャーの画像データ、(c)の会議参加者の口の動きの画像データのデータ源と言う意味で、「発言権の保持の動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の発言権の保持の動画像源データから(b)の発言権の保持のジェスチャーの画像データを取得する。同様に、部分会議映像抽出部４は、(a)の発言権の取得の動画像源データから(c)会議参加者の口の動きの画像データを取得する。索引付加部５は、機能行為層の発言権の保持の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが発言権の保持をしようとしたとき、上述の(a)発言権の保持の動画像源データ、(b)発言権の保持のAliceのジェスチャー(Aliceの手を差し出す動作)の画像データ、(c)会議参加者Aliceの口の動きの画像データ、および(d)発言権の保持(Aliceの「それから」)の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)発言権の保持として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、観察(Observing)の場合について説明する。図１８は、観察(Observing)の機能行為に関するタイムラインの図である。図１８の横軸は時間(の経過)を示す。図１８の(a)観察の動画像源データ、(b)観察者の視線データは、前述のメディア層のデータと捉えることができる。一方、(c)観察として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。図１８の(a)は、観察の動画像データであり、(b)の観察者の視線の画像データのデータ源と言う意味で、「観察の動画像源データ」と名付けることにする。

部分会議映像抽出部４は、従来技術の視線追尾技術の方法などを使うことによって、(a)の観察の動画像源データから(b)の観察者の視線の画像データを取得する。索引付加部５は、機能行為層の観察の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。ここで、視線データの取得方法については、大和らの「視線を利用したアプリケーションの内部構造可視化インタフェース」電子情報通信学会技術報告HIP2000-12(2000-06),pp.37-42および大野健彦の「視線インタフェースから視線コミュニケーションへ-視線のある環境を目指して-」情報処理学会研究報告Vol.2001, No.87,ヒューマンインタフェース95-24(2001.9.14),pp.171-178記載の方法を利用することができる。

次に、参加(Attending)の場合について説明する。図１９は、参加(Attending)の機能行為に関するタイムラインの図である。図１９の横軸は時間(の経過)を示す。図１９の(a)参加の動画像源データ、(b)参加者の視線データは、前述のメディア層のデータと捉えることができる。一方、(c)参加として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。図１９の(a)は、参加の動画像データであり、(b)の参加者の視線の画像データのデータ源と言う意味で、「参加の動画像源データ」と名付けることにする。部分会議映像抽出部４は、例えば従来技術の視線追尾技術の方法などを使うことによって、(a)の参加の動画像源データから(b)の参加者の視線の画像データを取得する。索引付加部５は、機能行為層の参加の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

次に、不参加(Non-attending)の場合について説明する。図２０は、不参加(Non-attending)の機能行為に関するタイムラインの図である。図２０の横軸は時間(の経過)を示す。図２０の(a)不参加の動画像源データ、(b)不参加者の頭部の前後運動の動画像データ、(c)不参加者の鼾の音声データおよび(d)不参加者の鼾の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)不参加として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図２０の(a)は、不参加の動画像データであり、(b)の不参加者頭部の前後運動の画像データのデータ源と言う意味で、「不参加の動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術のジェスチャー認識技術の方法などを使うことによって、(a)の不参加の動画像源データから(b)の不参加者の前後運動の画像データを取得する。索引付加部５は、機能行為層の不参加の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

次に、バックチャネル(Backchannel)の場合について説明する。図２１は、バックチャネル(Backchannel)の機能行為に関するタイムラインの図である。図２１の横軸は時間(の経過)を示す。図２１の(a)バックチャネル(うなづき)の動画像源データ、(b)バックチャネルのジェスチャー(うなづきに伴う「手を叩く」動作)の画像データ、(c)バックチャネル(うなづき)の首を振る動作の画像データ、(d)会議参加者の口の動きの画像データ、および(e)バックチャネル(「へぇー」)の音声データは、前述のメディア層のデータと捉えることができる。一方、(f)バックチャネルとして特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図２１の(a)は、バックチャネルの動画像データであり、(b)のバックチャネルのジェスチャーの画像データ、(c)バックチャネルの首を振る動作の画像データ、(d)の会議参加者の口の動きの画像データのデータ源と言う意味で、「バックチャネルの動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)のバックチャネルの動画像源データから(b)のバックチャネルのジェスチャーの画像データを取得する。同様に、部分会議映像抽出部４は、(a)のバックチャネルの動画像源データから(c)バックチャネルの首を振る動作の画像データを取得する。同様に、部分会議映像抽出部４は、(a)のバックチャネルの動画像源データから(d)会議参加者の口の動きの画像データを取得する。索引付加部５は、機能行為層のバックチャネルの所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceがバックチャネルをしようとしたとき、上述の(a)バックチャネルの動画像源データ、(b)バックチャネルのAliceのジェスチャー(Aliceの手を叩く動作)の画像データ、(c)Aliceのうなづき(首を振る動作)の画像データ、(d)会議参加者Aliceの口の動きの画像データ、および(e)バックチャネル(Aliceの「へぇー」)の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)バックチャネルとして特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

ここで、うなづき(首を振る動作)の画像データの所要時間などの特定には、前田らの「自然対話におけるジェスチャーの相互的関係の分析」情報処理学会研究報告Vol.2003, No.9,ヒューマンインタフェース102-7(2003.1.31),pp.39-46の方法を利用することができる。また、頭部位置の位置および姿勢の検出に関しては、藤井らの「大型情報表記環境のための頭部位置・姿勢検出手法とその応用」情報処理学会研究報告Vol.2002, No.38,ヒューマンインタフェース98-6(2002.5.17),pp.33-40に記載の手法を利用することができる。また、首振り動作の検出については、久保らの「首振り動作による障害者用PC操作支援ツールの検討」電子情報通信学会技術報告HCS2000-5(2000-04),pp.29-36記載の方法を利用することができる。

次に、質問(Question)の場合について説明する。図２２は、質問(Question)の機能行為に関するタイムラインの図である。図２２の横軸は時間(の経過)を示す。図２２の(a)質問の動画像源データ、(b)質問のジェスチャー(手を上げる動作)の画像データ、(c)質問者の口の動きの画像データ、および(d)質問の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)質問として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。図２２の(a)は、質問の動画像データであり、(b)の質問のジェスチャーの画像データ、(c)の質問者の口の動きの画像データのデータ源と言う意味で、「質問の動画像源データ」と名付けることにする。

部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の質問の動画像源データから(b)の質問のジェスチャーの画像データを取得することができる。同様に、部分会議映像抽出部４は、(a)の質問の動画像源データから(c)質問者の口の動きの画像データを取得することができる。索引付加部５は、機能行為層の質問の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが質問をしようとしたとき、上述の(a)質問の動画像源データ、(b)質問のAliceのジェスチャー(Aliceの手を上げる動作)の画像データ、(c)質問者Aliceの口の動きの画像データ、および(d)Aliceの質問の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)質問として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、確認の質問(Confirming Question)の場合について説明する。図２３は、確認の質問(Confirming Question)の機能行為に関するタイムラインの図である。図２３の横軸は時間(の経過)を示す。図２３の(a)確認の質問の動画像源データ、(b)確認の質問者の椅子から立ち上がる動作の画像データ、(c)確認の質問者の口の動きの画像データ、および(d)確認の質問の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)確認の質問として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図２３の(a)は、確認の質問の動画像データであり、(b)の確認の質問者の椅子から立ち上がる動作の画像データ、(c)の確認の質問者の口の動きの画像データのデータ源と言う意味で、「確認の質問の動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の確認の質問の動画像源データから(b)の確認の質問者の椅子から立ち上がる動作の動画像データを取得する。同様に、部分会議映像抽出部４は、(a)の確認の質問の動画像源データから(c)確認の質問者の口の動きの画像データを取得する。索引付加部５は、機能行為層の確認の質問の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが確認の質問をしようとしたとき、上述の(a)確認の質問の動画像源データ、(b)確認の質問のAliceの椅子から立ち上がる動作の画像データ、(c)確認の質問者Aliceの口の動きの画像データ、および(d) Aliceの確認の質問の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)確認の質問として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、発言型思考(Stating Think)の場合について説明する。図２４は、発言型思考(Stating Think)の機能行為に関するタイムラインの図である。図２４の横軸は時間(の経過)を示す。図２４の(a)発言型思考の動画像源データ、(b)参加者が天井を見ている視線の画像データ、(c)発言者の口の動きの画像データ、および(d)発言の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)発言型思考として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。図２４の(a)は、発言型思考の動画像データであり、(b)の参加者が天井を見ている視線の画像データ、(c)の発言者の口の動きの画像データのデータ源と言う意味で、「発言型思考の動画像源データ」と名付けることにする。

部分会議映像抽出部４は、従来技術の視線計測やジェスチャー認識の方法などを使うことによって、(a)の発言型思考の動画像源データから(b)の参加者が天井を見ている視線の画像データを取得する。同様に、部分会議映像抽出部４は、(a)の発言型思考の動画像源データから(c)発言者の口の動きの画像データを取得することができる。索引付加部５は、機能行為層の発言型思考の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが発言型思考をしようとしたとき、上述の(a)発言型思考の動画像源データ、(b)参加者Aliceが天井を見ている視線の画像データ、(c)発言者Aliceの口の動きの画像データ、および(d)Aliceの発言の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)発言型思考として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、質問型思考(Question Think)の場合について説明する。図２５は、質問型思考(Question Think)の機能行為に関するタイムラインの図である。図２５の横軸は時間(の経過)を示す。図２５の(a)質問型思考の動画像源データ、(b)参加者が天井を見ている視線の画像データ、(c)質問者の口の動きの画像データ、および(d)質問の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)質問型思考として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。図２５の(a)は、質問型思考の動画像データであり、(b)の参加者が天井を見ている視線の画像データ、(c)の質問者の口の動きのデータのデータ源と言う意味で、「質問型思考の動画像源データ」と名付けることにする。

部分会議映像抽出部４は、従来技術の視線計測やジェスチャー認識の方法などを使うことによって、(a)の質問型思考の動画像源データから(b)の参加者が天井を見ている視線の視線データを取得する。同様に、部分会議映像抽出部４は、(a)の質問型思考の動画像源データから(c)質問者の口の動きのデータを取得する。索引付加部５は、機能行為層の質問型思考の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが質問型思考をしようとしたとき、上述の(a)質問型思考の動画像源データ、(b)参加者Aliceが天井を見ている視線の画像データ、(c)質問者Aliceの口の動きの画像データ、および(d)Aliceの質問の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)質問型思考として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、確認の質問型思考(Confirming Question Think)の場合について説明する。図２６は、確認の質問型思考(Confirming Question Think)の機能行為に関するタイムラインの図である。図２６の横軸は時間(の経過)を示す。図２６の(a)確認の質問型思考の動画像源データ、(b)参加者が天井を見ている視線の画像データ、(c)確認の質問者の口の動きの画像データ、および(d)確認の質問の音声データは、前述のメディア層のデータと捉えることができる。一方、(e)確認の質問型思考として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図２６の(a)は、確認の質問型思考の動画像データであり、(b)の参加者が天井を見ている視線の画像データ、(c)の確認の質問者の口の動きの画像データのデータ源と言う意味で、「確認の質問型思考の動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術の視線計測やジェスチャー認識の方法などを使うことによって、(a)の確認の質問型思考の動画像源データから(b)の参加者が天井を見ている視線の画像データを取得する。同様に、部分会議映像抽出部４は、(a)の確認の質問型思考の動画像源データから(c)確認の質問者の口の動きのデータを取得する。索引付加部５は、機能行為層の確認の質問型思考の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが確認の質問型思考をしようとしたとき、上述の(a)確認の質問型思考の動画像源データ、(b)参加者Aliceが天井を見ている視線の画像データ、(c)確認の質問者Aliceの口の動きの画像データ、および(d)Aliceの確認の質問の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)確認の質問型思考として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、不発話型思考(Non-stating Think)の場合について説明する。図２７は、不発話型思考(Non-stating Think)の機能行為に関するタイムラインの図である。図２７の横軸は時間(の経過)を示す。図２７の(a)不発話型思考の動画像源データ、(b)参加者が天井を見ている視線の画像データおよび(c)参加者が腕を組むジェスチャーの画像データは、前述のメディア層のデータと捉えることができる。一方、(d)不発話型思考として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図２７の(a)は、不発話型思考の動画像データであり、(b)の参加者が天井を見ている視線の画像データ、(c)の参加者の腕を組むジェスチャーの画像データのデータ源と言う意味で、「不発話型思考の動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術の視線計測やジェスチャー認識の方法などを使うことによって、(a)の不発話型思考の動画像源データから(b)の参加者が天井を見ている視線の視線データを取得する。同様に、部分会議映像抽出部４は、(a)の不発話型思考の動画像源データから(c)参加者の腕を組むジェスチャーの画像データを取得する。索引付加部５は、機能行為層の不発話型思考の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが不発話型思考をしようとしたとき、上述の(a)不発話型思考の動画像源データ、(b)参加者Aliceが天井を見ている視線の画像データ、(c)参加者Aliceの腕を組むジェスチャーの画像データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)不発話型思考として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、独り言(Self Talk)の場合について説明する。図２８は、独り言(Self Talk)の機能行為に関するタイムラインの図である。図２８の横軸は時間(の経過)を示す。図２８の(a)独り言の動画像源データ、(b)会議参加者の口の動きおよび(c)独り言の音声データは、前述のメディア層のデータと捉えることができる。一方、(d)独り言として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。図２８の(a)は、独り言の動画像データであり、(b)の会議参加者の口の動きの画像データのデータ源と言う意味で、「独り言の動画像源データ」と名付けることにする。

部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の独り言の動画像源データから(b)の会議参加者の口の動きのデータを取得する。索引付加部５は、機能行為層の独り言の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが独り言をしようとしたとき、上述の(a)会議参加者Aliceの動画像源データ、(b)参加者Aliceの口の動きの画像データ、(c)Aliceの独り言の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)独り言として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、発言型共有情報空間操作(Stating Public Information Space Manipulation)の場合について説明する。図２９は、発言型共有情報空間操作(Stating Public Information Space Manipulation)の機能行為に関するタイムラインの図である。図２９の横軸は時間(の経過)を示す。図２９の(a)発言型共有情報空間操作の動画像源データ、(b)発言者の椅子から立ち上がる動作の動画像データ、(c)発言者のホワイトボードに書く動作の画像データ、(d)発言者の口の動きの画像データ、および(e)発言の音声データは、前述のメディア層のデータと捉えることができる。一方、(f)発言型共有情報空間操作として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図２９の(a)は、発言型共有情報空間操作の動画像データであり、(b)の発言者の椅子から立ち上がる動作の動画像データ、(c)発言者のホワイトボードに書く動作の画像データ、(d)の発言者の口の動きの画像データのデータ源と言う意味で、「発言型共有情報空間操作の動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の発言型共有情報空間操作の動画像源データから(b)の発言者の椅子から立ち上がる動作の動画像データを取得する。

同様に、部分会議映像抽出部４は、(a)の発言型共有情報空間操作の動画像源データから(c)発言者のホワイトボードに各動作の動画像データを取得する。同様に、部分会議映像抽出部４は、(a)の発言型共有情報空間操作の動画像源データから(d)発言者の口の動きの画像データを取得することができる。索引付加部５は、機能行為層の発言型共有情報空間操作の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが発言型共有情報空間操作をしようとしたとき、上述の(a)発言型共有情報空間操作の動画像源データ、(b)発言者Aliceが椅子から立ち上がる画像データ、(c)発言者Aliceのホワイトボードに書く動作の画像データ、(d)発言者Aliceの口の動き、および(e)Aliceの発言の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(f)発言型共有情報空間操作として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、質問型共有情報空間操作(Question Public Information Space Manipulation)の場合について説明する。図３０は、質問型共有情報空間操作(Question Public Information Space Manipulation)の機能行為に関するタイムラインの図である。図３０の横軸は時間(の経過)を示す。図３０の(a)質問型共有情報空間操作の動画像源データ、(b)質問者の椅子から立ち上がる動作の画像データ、(c)質問者のホワイトボードに書く動作の画像データ、(d)質問者の口の動きの画像データ、および(e)質問の音声データは、前述のメディア層のデータと捉えることができる。一方、(f)質問型共有情報空間操作として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図３０の(a)は、質問型共有情報空間操作の動画像データであり、(b)の質問者の椅子から立ち上がる動作の画像データ、(c)質問者のホワイトボードに書く動作の画像データ、(d)の質問者の口の動きの画像データのデータ源と言う意味で、「質問型共有情報空間操作の動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の質問型共有情報空間操作の動画像源データから(b)の質問者の椅子から立ち上がる動作の動画像データを取得する。同様に、部分会議映像抽出部４は、(a)の質問型共有情報空間操作の動画像源データから(c)質問者のホワイトボードに各動作の画像データを取得する。同様に、部分会議映像抽出部４は、(a)の質問型共有情報空間操作の動画像源データから(d)質問者の口の動きの画像データを取得する。

索引付加部５は、機能行為層の質問型共有情報空間操作の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが質問型共有情報空間操作をしようとしたとき、上述の(a)質問型共有情報空間操作の動画像源データ、(b)質問者Aliceが椅子から立ち上がる画像データ、(c)質問者Aliceのホワイトボードに書く動作の画像データ、(d)質問者Aliceの口の動きの画像データ、および(e)Aliceの質問の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(f)質問型共有情報空間操作として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、確認の質問型共有情報空間操作(Confirming Question Public Information Space Manipulation)の場合について説明する。図３１は、確認の質問型共有情報空間操作(Confirming Question Public Information Space Manipulation)の機能行為に関するタイムラインの図である。図３１の横軸は時間(の経過)を示す。図３１の(a)確認の質問型共有情報空間操作の動画像源データ、(b)確認の質問者の椅子から立ち上がる動作の画像データ、(c)確認の質問者のホワイトボードに書く動作の画像データ、(d)確認の質問者の口の動きの画像データ、および(e)確認の質問の音声データは、前述のメディア層のデータと捉えることができる。一方、(f)確認の質問型共有情報空間操作として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図３１の(a)は、確認の質問型共有情報空間操作の動画像データであり、(b)の確認の質問者の椅子から立ち上がる動作の画像データ、(c)確認の質問者のホワイトボードに書く動作の画像データ、(d)の確認の質問者の口の動きの画像データのデータ源と言う意味で、「確認の質問型共有情報空間操作の動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の確認の質問型共有情報空間操作の動画像源データから(b)の確認の質問者の椅子から立ち上がる動作の動画像データを取得する。

同様に、部分会議映像抽出部４は、(a)の確認の質問型共有情報空間操作の動画像源データから(c)確認の質問者のホワイトボードに各動作の画像データを取得する。同様に、部分会議映像抽出部４は、(a)の確認の質問型共有情報空間操作の動画像源データから(d)確認の質問者の口の動きのデータを取得する。索引付加部５は、機能行為層の確認の質問型共有情報空間操作の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが確認の質問型共有情報空間操作をしようとしたとき、上述の(a)確認の質問型共有情報空間操作の動画像源データ、(b)確認の質問者Aliceが椅子から立ち上がる画像データ、(c)確認の質問者Aliceのホワイトボードに書く動作の画像データ、(d)確認の質問者Aliceの口の動きの画像データ、および(e)Aliceの確認の質問の音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(f)確認の質問型共有情報空間操作として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、不発言型共有情報空間操作(Non-stating Public Information Space Manipulation)の場合について説明する。図３２は、不発言型共有情報空間操作(Non-stating Public Information Space Manipulation)の機能行為に関するタイムラインの図である。図３２の横軸は時間(の経過)を示す。図３２の(a)不発言型共有情報空間操作の動画像源データ、(b)会議参加者の椅子から立ち上がる動作の画像データおよび(c)会議参加者のホワイトボードに書く動作の画像データは、前述のメディア層のデータと捉えることができる。一方、(d)不発言型共有情報空間操作として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図３２の(a)は、不発言型共有情報空間操作の動画像データであり、(b)の会議参加者者の椅子から立ち上がる動作の画像データおよび(c)会議参加者者のホワイトボードに書く動作の画像データのデータ源と言う意味で、「不発言型共有情報空間操作の動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の不発言型共有情報空間操作の動画像源データから(b)の会議参加者の椅子から立ち上がる動作の画像データを取得する。同様に、部分会議映像抽出部４は、(a)の不発言型共有情報空間操作の動画像源データから(c)会議参加者のホワイトボードに各動作の画像データを取得する。索引付加部５は、機能行為層の不発言型共有情報空間操作の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが不発言型共有情報空間操作をしようとしたとき、上述の(a)不発言型共有情報空間操作の動画像源データ、(b)会議参加者Aliceが椅子から立ち上がる画像データおよび(c)会議参加者Aliceのホワイトボードに書く動作の画像データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(d)不発言型共有情報空間操作として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、参加型私的情報空間操作(Attending Private Information Space Manipulation)の場合について説明する。図３３は、参加型私的情報空間操作(Attending Private Information Space Manipulation)の機能行為に関するタイムラインの図である。図３３の横軸は時間(の経過)を示す。図３３の(a)参加型私的情報空間操作の動画像源データ、(b)参加者のノート型パーソナル・コンピュータへのタイピング動作の画像データ、(c)参加者の頭部の前後運動(頷き)の画像データ、(d)参加者の口の動きの画像データ、および(e)参加者の頷きの音声データは、前述のメディア層のデータと捉えることができる。一方、(f)参加型私的情報空間操作として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図３３の(a)は、参加型私的情報空間操作の動画像データであり、(b)の参加者のノート型パーソナル・コンピュータへのタイピング動作の画像データ、(c)参加者の頭部の前後運動(頷き)の画像データ、(d)の参加者の口の動きの画像データのデータ源と言う意味で、「参加型私的情報空間操作の動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の参加型私的情報空間操作の動画像源データから(b)の参加者のノート型パーソナル・コンピュータへのタイピング動作の画像データを取得する。

同様に、部分会議映像抽出部４は、(a)の参加型私的情報空間操作の動画像源データから(c)参加者頭部の前後運動(頷き)の動画像データを取得する。同様に、(a)の参加型私的情報空間操作の動画像源データから(d)参加者の口の動きの画像データを取得することができる。索引付加部５は、機能行為層の参加型私的情報空間操作の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが参加型私的情報空間操作をしようとしたとき、上述の(a)参加型私的情報空間操作の動画像源データ、(b)参加者Aliceによるノート型パーソナル・コンピュータへのタイピング動作の画像データ、(c)参加者Aliceの頭部の前後運動(頷き)の画像データ、(d)参加者Aliceの口の動きの画像データ、および(e)参加者Aliceの「ふむ」や「うん」などの頷きの音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(f)参加型私的情報空間操作として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、不参加型私的情報空間操作(Non-attending Private Information Space Manipulation)の場合について説明する。図３４は、不参加型私的情報空間操作(Non-attending Private Information Space Manipulation)の機能行為に関するタイムラインの図である。図３４の横軸は時間(の経過)を示す。図３４の(a)不参加型私的情報空間操作の動画像源データ、(b)会議参加者のノート型パーソナル・コンピュータへのタイピング動作の画像データは、前述のメディア層のデータと捉えることができる。一方、(c)不参加型私的情報空間操作として特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図３４の(a)は、不参加型私的情報空間操作の動画像データであり、(b)の会議参加者のノート型パーソナル・コンピュータへのタイピング動作の画像データのデータ源と言う意味で、「不参加型私的情報空間操作の動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の不参加型私的情報空間操作の動画像源データから(b)の会議参加者のノート型パーソナル・コンピュータへのタイピング動作の画像データを取得する。索引付加部５は、機能行為層の不参加型私的情報空間操作の所要時間を、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが不参加型私的情報空間操作をしようとしたとき、上述の(a)不参加型私的情報空間操作の動画像源データ、(b)会議参加者Aliceによるノート型パーソナル・コンピュータへのタイピング動作の画像データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(c)不参加型私的情報空間操作として特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

次に、笑い(Laugh)の場合について説明する。図３５は、笑い(Laugh)の機能行為に関するタイムラインの図である。図３５の横軸は時間(の経過)を示す。図３５の(a)笑いの動画像源データ、(b)会議参加者の顔の表情の動画像データ、(c)会議参加者の口の動き、および(d)会議参加者の笑いの音声データは、前述のメディア層のデータと捉えることができる。一方、(e)笑いとして特定される所要時間(時間帯)は、機能行為層のデータと捉えることができる。

図３５の(a)は、笑いの動画像データであり、(b)の参加者の顔の表情の画像データ、(c)の会議参加者の口の動きの画像データのデータ源と言う意味で、「笑いの動画像源データ」と名付けることにする。部分会議映像抽出部４は、従来技術のジェスチャー認識の方法などを使うことによって、(a)の笑いの動画像源データから(b)の参加者の顔の表情の動画像データを取得する。同様に、部分会議映像抽出部４は、(a)の笑いの動画像源データから(c)参加者の口の動きのデータを取得する。索引付加部５は、機能行為層の笑いの所要時間は、発言の場合と同様に、図１４に示すように、各メディア層の所要時間の論理和を算出することによって特定する。

ここで、会議参加者としてAliceが会議に参加している場合に、そのAliceが笑おうとしたとき、上述の(a)笑いの動画像源データ、(b)Aliceの笑う顔の表情の画像データ、(c)Aliceの口の動き、および(d)Aliceの笑いの音声データは、すべてAliceに関するメディア層のデータと捉えることができる。また、(e)笑いとして特定される所要時間(時間帯)は、Aliceに関する機能行為層のデータと捉えることができる。

以上、第２実施例によれば、部分会議映像抽出部４において抽出された部分会議映像データに対して索引付加部５において参加者の機能行為に応じた索引データを自動的に生成することができる。

以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本実施例に係る会議映像処理装置の一例を示すブロック図である。会議参加者の各行為を階層化した視覚化データで示す図である。索引付加部が提供するグラフィカル・ユーザ・インタフェースの表示例である。二次元的な機能行為の図的表現の一例を示す図である。索引データをＸＭＬデータとして表現した前半部分である。索引データをＸＭＬデータとして表現した後半部分である。会議記録手続きを示すフローチャートである。要約規則生成ステップＳ３１の詳細を示すフローチャートである。会議参加者としてAlice、BettyおよびCherrylの三人が会議に参加し、各人の機能行為が本発明の実施例のように特定された場合のタイムラインを示す図である。閾値よりも長い所要時間を持つ機能行為と閾値より短い所要時間を持つ機能行為の例を示す。索引を表示するまでの処理フローチャートである。機能行為層とメディア層における映像データの構造化の一例を示す図である。発言の機能行為に関するタイムラインの図である。機能行為の所要時間を特定する手続きを示すフローチャートである。機能行為の所要時間を特定する手続きを示すフローチャートである。発言権の取得の機能行為に関するタイムラインの図である。発言権の保持の機能行為に関するタイムラインの図である。観察の機能行為に関するタイムラインの図である。参加の機能行為に関するタイムラインの図である。不参加の機能行為に関するタイムラインの図である。バックチャネルの機能行為に関するタイムラインの図である。質問の機能行為に関するタイムラインの図である。確認の質問の機能行為に関するタイムラインの図である。発言型思考の機能行為に関するタイムラインの図である。質問型思考の機能行為に関するタイムラインの図である。確認の質問型思考の機能行為に関するタイムラインの図である。不発話型思考の機能行為に関するタイムラインの図である。独り言の機能行為に関するタイムラインの図である。発言型共有情報空間操作の機能行為に関するタイムラインの図である。質問型共有情報空間操作の機能行為に関するタイムラインの図である。確認の質問型共有情報空間操作の機能行為に関するタイムラインの図である。不発言型共有情報空間操作の機能行為に関するタイムラインの図である。参加型私的情報空間操作の機能行為に関するタイムラインの図である。不参加型私的情報空間操作の機能行為に関するタイムラインの図である。笑いの機能行為に関するタイムラインの図である。

符号の説明

１会議処理装置８索引表示部
２会議映像撮像部９同期部
３会議映像記録部１０要約規則生成部
４部分会議映像抽出部１１要約規則記録部
５索引付加部１２要約規則表示部
６索引記録部１３映像要約生成部
７会議映像表示部１４映像要約記録部

Claims

会議映像情報から会議の参加者の１以上の物理事象を含む部分映像情報を抽出する抽出手段と、
前記抽出手段によって抽出された部分会議映像情報について前記１以上の物理事象を抽象化した機能行為に基づいて、前記部分会議映像情報に対して索引を付加する付加手段とを備えることを特徴とする会議映像処理装置。
前記会議映像処理装置は更に、前記付加手段によって付加された索引結果に基づいて、前記会議映像情報を要約した会議映像を作成する作成手段を備えることを特徴とする請求項１記載の会議映像処理装置。
前記会議映像処理装置は更に、前記作成手段により要約した会議映像を記録する記録手段を備えることを特徴とする請求項２に記載の会議映像処理装置。
前記会議映像処理装置は更に、前記作成手段により要約した会議映像を表示する表示手段を備えることを特徴とする請求項２または請求項３記載の会議映像処理装置。
前記会議映像処理装置は更に、同じ時間帯に撮影した前記会議映像が複数あった際に、これらの会議映像を同期させる同期手段を備えることを特徴とする請求項１から請求項４のいずれか一項に記載の会議映像処理装置。
前記会議映像処理装置は更に、前記付加手段による索引結果を所定の表示装置に表示するグラフィカル・ユーザ・インタフェースを有することを特徴とする請求項１から請求項５のいずれか一項に記載の会議映像処理装置。
前記付加手段は、前記１以上の物理事象の所要時間の論理和から前記機能行為の所領時間を算出することを特徴とする請求項１から請求項６のいずれか一項に記載の会議映像処理装置。
前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者のジェスチャーから前記機能行為を特定することを特徴とする請求項１から請求項７のいずれか一項に記載の会議映像処理装置。
前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の口の動きから前記機能行為を特定することを特徴とする請求項１から請求項８のいずれか一項に記載の会議映像処理装置。
前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の視線から前記機能行為を特定することを特徴とする請求項１から請求項９のいずれか一項に記載の会議映像処理装置。
前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の頭部の動きから前記機能行為を特定することを特徴とする請求項１から請求項１０のいずれか一項に記載の会議映像処理装置。
前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の物を書く動作から前記機能行為を特定することを特徴とする請求項１から請求項１１のいずれか一項に記載の会議映像処理装置。
前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の椅子から立ち上がる動作から前記機能行為を特定することを特徴とする請求項１から請求項１２のいずれか一項に記載の会議映像処理装置。
前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の所定の入力装置へのタイピング動作から前記機能行為を特定することを特徴とする請求項１から請求項１３のいずれか一項に記載の会議映像処理装置。
前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の顔の表情から前記機能行為を特定することを特徴とする請求項１から請求項１４のいずれか一項に記載の会議映像処理装置。
前記付加手段は、少なくとも前記部分会議映像情報に含まれる会議参加者の音声データに基づいて前記機能行為を特定することを特徴とする請求項１から請求項１５のいずれか一項に記載の会議映像処理装置。
前記作成手段は、前記機能行為のうちの発言、質問、発言型共有情報空間操作、質問型共有情報空間操作もしくは不発言型共有情報空間操作である能動的機能行為または発言型思考の機能行為を集めた振り返り用の会議映像を作成することを特徴とする請求項２から請求項１６のいずれか一項に記載の会議映像処理装置。
前記作成手段は、前記機能行為のうちの発言、質問、発言型思考または発言型共有情報空間操作を集めた閲覧用の会議映像を作成することを特徴とする請求項２から請求項１７のいずれか一項に記載の会議映像処理装置。
前記作成手段は、前記機能行為のうちの発言、発言型思考または発言型共有情報空間操作を集めた役員用の会議映像を作成することを特徴とする請求項２から請求項１８のいずれか一項に記載の会議映像処理装置。
前記グラフィカル・ユーザ・インタフェースは、前記物理事象および前記物理事象を抽象化した機能行為を階層的に表示することを特徴とする請求項６から請求項１９のいずれか一項に記載の会議映像処理装置。
前記グラフィカル・ユーザ・インタフェースは、１以上の前記機能行為を抽象化したシーンを前記機能行為に対して階層的に表示することを特徴とする請求項６から請求項２０のいずれか一項に記載の会議映像処理装置。
前記グラフィカル・ユーザ・インタフェースは、タイムライン形式または表形式によって前記索引結果を表現することを特徴とする請求項６から請求項２１のいずれか一項に記載の会議映像処理装置。
前記グラフィカル・ユーザ・インタフェースは、前記機能行為を色によって表現することを特徴とする請求項６から請求項２２のいずれか一項に記載の会議映像処理装置。
前記グラフィカル・ユーザ・インタフェースは、前記機能行為に関する図的要素を色、形状またはアニメーション動作によって、音声的話者交代、身体的話者交代または音声的身体的話者交代を強調表現することを特徴とする請求項６から請求項２３のいずれか一項に記載の会議映像処理装置。
前記グラフィカル・ユーザ・インタフェースは、索引識別子、索引開始時刻、索引終了時刻、機能行為、会議参加者の役割、意図する行為方向の各データを表現することを特徴とする請求項６から請求項２４のいずれか一項に記載の会議映像処理装置。
前記作成手段は、前記部分映像情報のうちの所定の所要時間を超えない映像部分を用いて前記会議映像情報を要約した会議映像を作成することを特徴とする請求項２から請求項２５のいずれか一項に記載の会議映像処理装置。
会議映像情報から会議の参加者の１以上の物理事象を含む部分映像情報を抽出する抽出ステップと、
前記抽出手段によって抽出された部分会議映像情報について前記１以上の物理事象を抽象化した機能行為に基づいて、前記部分会議映像情報に対して索引を付加する付加ステップとを有することを特徴とする会議映像処理方法。
前記会議映像処理方法は更に、前記付加ステップによって付加された索引結果に基づいて、前記会議映像情報を要約した会議映像を作成する作成ステップを有することを特徴とする請求項２７記載の会議映像処理方法。
会議映像情報から会議の参加者の１以上の物理事象を含む部分映像情報を抽出する抽出ステップ、
前記抽出手段によって抽出された部分会議映像情報について前記１以上の物理事象を抽象化した機能行為に基づいて、前記部分会議映像情報に対して索引を付加する付加ステップをコンピュータに実行させるためのプログラム。
前記プログラムは更に、前記付加ステップによって付加された索引結果に基づいて、前記会議映像情報を要約した会議映像を作成する作成ステップを前記コンピュータに実行させることを特徴とする請求項２９記載のプログラム。