JP2009510877A - 顔検出を利用したストリーミングビデオにおける顔アノテーション - Google Patents
顔検出を利用したストリーミングビデオにおける顔アノテーション Download PDFInfo
- Publication number
- JP2009510877A JP2009510877A JP2008532925A JP2008532925A JP2009510877A JP 2009510877 A JP2009510877 A JP 2009510877A JP 2008532925 A JP2008532925 A JP 2008532925A JP 2008532925 A JP2008532925 A JP 2008532925A JP 2009510877 A JP2009510877 A JP 2009510877A
- Authority
- JP
- Japan
- Prior art keywords
- face
- streaming video
- video
- candidates
- annotator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
- G06F16/784—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Facsimiles In General (AREA)
Abstract
本発明は、ビデオデータにおいて、その場で顔を検出しアノテーション付けするためのシステム5、15及び方法に関する。アノテーション付け29は、ビデオの画素内容を修正することにより実行され、それによりファイルのタイプ、プロトコル及び規格とは独立なものとなる。本発明はまた、検出された顔を記憶装置からの既知の顔と比較することによりリアルタイムな顔認識を実行することができ、それによりアノテーションは顔に関連する人物情報38を含むことができる。本発明は、伝送チャネルのいずれの端において適用されても良く、ビデオ会議、インターネット教室等において特に適用可能である。
Description
本発明は、ストリーミングビデオに関する。特に、本発明はビデオデータにおける顔の検出及び認識に関する。
ストリーミングビデオの品質はしばしば、特に画像が何人かの人物を含み1人の人物にズームされていない場合に、ビデオに出現する人物の顔を認識することを困難にする。このことは、例えばビデオ会議を実行する際に不利となる。なぜなら、観測者は、音声を認識しない限りは誰が発話しているのかを決定することができないからである。
国際特許出願公開WO04/051981は、ビデオマテリアルにおける人間の顔を検出し、該検出された顔の画像を抽出し、これら画像をメタデータとしてビデオに供給することが可能なビデオカメラ装置を開示している。該メタデータは、ビデオの内容を迅速に確立するために利用されることができる。
本発明の目的は、ストリーミングビデオにおけるリアルタイムな顔検出を実行し、検出された顔に関するアノテーション付け(annotation)により該ストリーミングビデオを修正するためのシステム及び方法を提供することにある。
本発明の他の目的は、ストリーミングビデオにおける検出された顔のリアルタイムな顔認識を実行し、認識された顔に関するアノテーション付けにより該ストリーミングビデオを修正するためのシステム及び方法を提供することにある。
第1の態様において、本発明は、ストリーミングビデオのリアルタイムな顔へのアノテーション付けのためのシステムであって、前記システムは、
ストリーミングビデオ源と、
前記ストリーミングビデオ源からストリーミングビデオを受信するように動作可能に接続され、前記ストリーミングビデオにおける顔の候補を保持する領域のリアルタイムな検出を実行するように構成された顔検出コンポーネントと、
前記ストリーミングビデオと前記顔検出コンポーネントからの顔領域の候補の位置とを受信するように動作可能に接続されたアノテータ(annotator)であって、少なくとも1つの顔領域の候補に関連する前記ストリーミングビデオにおける画素内容を修正するように構成されたアノテータと、
前記アノテータから顔にアノテーションを付された(face-annotated)ストリーミングビデオを受信するように動作可能に接続された出力部と、
を有するシステムを提供する。
ストリーミングビデオ源と、
前記ストリーミングビデオ源からストリーミングビデオを受信するように動作可能に接続され、前記ストリーミングビデオにおける顔の候補を保持する領域のリアルタイムな検出を実行するように構成された顔検出コンポーネントと、
前記ストリーミングビデオと前記顔検出コンポーネントからの顔領域の候補の位置とを受信するように動作可能に接続されたアノテータ(annotator)であって、少なくとも1つの顔領域の候補に関連する前記ストリーミングビデオにおける画素内容を修正するように構成されたアノテータと、
前記アノテータから顔にアノテーションを付された(face-annotated)ストリーミングビデオを受信するように動作可能に接続された出力部と、
を有するシステムを提供する。
ストリーミングは、連続的な大量のデータで、或る点から別の点へとデータを送信する技術であり、一般にインターネット及びその他のネットワークにおいて利用される。ストリーミングビデオは、ネットワークを圧縮された形態で送信され、到着時にビューアによって表示される、「動画」のシーケンスである。ストリーミングビデオを用いると、ネットワークユーザは、ビデオを見る又は音声を聴くまでに大きなファイルをダウンロードするのを待つ必要がない。その代わり、メディアは連続的なストリームで送信され、到着時に再生される。送信側のユーザは、ビデオカメラと、記録されたデータを圧縮し該データを送信のために加工するエンコーダとを必要とする。受信側のユーザは、ビデオデータを伸張しディスプレイに送信する及びオーディオデータを伸張しスピーカに送信する特殊なプログラムである、プレイヤを必要とする。主なストリーミングビデオ及びストリーミングメディア技術は、RealNetwork社のRealSystem G2、Microsoft Windows(登録商標) Media Technologies(NetShow(登録商標) Service及びTheater Serverを含む)及びVDOを含む。圧縮及び伸張を行うプログラムは、コーデック(codec)とも呼ばれる。一般に、ストリーミングビデオは、接続のデータレートに制限されるが(例えばISDN接続の場合は128kbpsまで)、非常に高速な接続については、利用可能なソフトウェア及び適用されるプロトコルが上限を決める。本明細書においては、ストリーミングビデオは、以下をカバーする。
−サーバ→クライアント:予め記録されたビデオファイルの連続的な伝送(例えばwwwからのビデオの視聴)
−クライアント←→クライアント:2つのユーザ間のライブ記録されたビデオデータの一方向又は双方向伝送(例えばビデオ会議、ビデオチャット)
−サーバ/クライアント→複数のクライアント:ライブ放送伝送(この場合、ビデオ信号が複数の受信器に送信される(マルチキャスト))(例えばインターネットニュースチャネル、3以上のユーザによるビデオ会議、インターネット教室)
−サーバ→クライアント:予め記録されたビデオファイルの連続的な伝送(例えばwwwからのビデオの視聴)
−クライアント←→クライアント:2つのユーザ間のライブ記録されたビデオデータの一方向又は双方向伝送(例えばビデオ会議、ビデオチャット)
−サーバ/クライアント→複数のクライアント:ライブ放送伝送(この場合、ビデオ信号が複数の受信器に送信される(マルチキャスト))(例えばインターネットニュースチャネル、3以上のユーザによるビデオ会議、インターネット教室)
また、ビデオ信号は、該ビデオ信号の処理がリアルタイム又はその場で(on-the-fly)行われる場合には常にストリーミング送信される。例えば、ビデオカメラとエンコーダの出力部との間、又はデコーダとディスプレイとの間の信号経路における信号もまた、本文脈においてはストリーミングビデオとみなされる。
顔検出は、画像又は画像のストリームにおいて、顔領域の候補(人間の顔又はそれに似た特徴の画像を保持する領域を意味する)を見出すための処理である。顔領域の候補(顔位置とも呼ばれる)は、人間の顔に似た特徴が検出された領域である。好ましくは、顔領域の候補は、フレーム番号、及び検出された顔の周囲の長方形における対角の角を形成する2つの画素座標により表される。顔検出がリアルタイムとなるように、顔検出は、コンポーネント(典型的にはコンピュータプロセッサ又はASIC)が画像又はビデオデータを受信する、その場で実行される。先行技術は、リアルタイムの顔検出手法の幾つかの説明を提供しており、斯かる既知の手法が、本発明により教示されるように適用されても良い。
顔検出は、ディジタル画像において顔に似た特徴を探すことにより実行されることができる。ビデオにおける各場面、カット又は動きは多くのフレームの間継続するため、顔が或る画像フレームにおいて検出された場合、該顔は幾つかの後続するフレームについてもビデオ中に見出されることが予期される。また、ビデオ信号中の画像フレームは一般に人物又はカメラが動くよりもかなり高速に変化するため、或る画像フレームにおける或る位置において検出された顔は、幾つかの後続するフレームにおいて略同じ位置に見出され得ると予期される。これらの理由のため、幾つかの選択された画像フレームにおいてのみ(例えば10個、50個又は100個の画像フレーム毎に)顔検出が実行されることが有利となり得る。代替として、顔検出が実行されるフレームは、他のパラメータを用いて選択される(例えば、場面におけるカット又はシフトのような全体的な変化が検出されるたびに、1つのフレームが選択される)。それ故、好適な実施例においては、
前記ストリーミングビデオ源は、画像フレームを有する圧縮されていないストリーミングビデオを供給するように構成され、
前記顔検出コンポーネントは更に、前記ストリーミングビデオの選択された画像フレームに対してのみ検出を実行するように構成される。
前記ストリーミングビデオ源は、画像フレームを有する圧縮されていないストリーミングビデオを供給するように構成され、
前記顔検出コンポーネントは更に、前記ストリーミングビデオの選択された画像フレームに対してのみ検出を実行するように構成される。
好適な実装においては、第1の態様によるシステムはまた、該システムによって既に知られた、ビデオにおける顔を認識することができる。これにより該システムは、人物に関する情報を用いて、顔の背後においてビデオにアノテーション付けすることができる。本実装においては、本システムは更に、
1以上の顔を識別するデータ及び関連するアノテーション情報を保持する記憶装置と、
前記顔検出コンポーネントからの顔領域の候補を受信し前記記憶装置にアクセスするように動作可能に接続され、前記記憶装置における顔の候補のリアルタイムな識別を実行するように構成された顔認識コンポーネントと、
を更に有し、
前記アノテータは更に、
顔の候補が識別されたという情報と、
前記顔認識コンポーネント又は前記記憶装置からのいずれかの識別された顔の候補についてのアノテーション情報と、
を受信するように動作可能に接続され、前記アノテータは更に、前記ストリーミングビデオにおける画素内容の修正において、識別された顔の候補に関連するアノテーション情報を含ませるように構成される。
1以上の顔を識別するデータ及び関連するアノテーション情報を保持する記憶装置と、
前記顔検出コンポーネントからの顔領域の候補を受信し前記記憶装置にアクセスするように動作可能に接続され、前記記憶装置における顔の候補のリアルタイムな識別を実行するように構成された顔認識コンポーネントと、
を更に有し、
前記アノテータは更に、
顔の候補が識別されたという情報と、
前記顔認識コンポーネント又は前記記憶装置からのいずれかの識別された顔の候補についてのアノテーション情報と、
を受信するように動作可能に接続され、前記アノテータは更に、前記ストリーミングビデオにおける画素内容の修正において、識別された顔の候補に関連するアノテーション情報を含ませるように構成される。
顔認識は、与えられた顔の画像を既知の人物の顔の画像(又は該顔の一意な特徴を表すデータ)と照合し、これらの顔が同一の人物に属するものか否かを決定するための処理である。本発明においては、与えられる顔の画像は、顔検出処理により識別された顔領域の候補である。顔認識がリアルタイムとなるように、顔認識は、コンポーネント(典型的にはコンピュータプロセッサ又はASIC)が画像又はビデオデータを受信する、その場で実行される。顔認識処理は、既知の人物の顔の例を利用する。該データは典型的には、顔認識処理のためにアクセス可能なメモリ又は記憶装置に保存される。リアルタイム処理は該保存されたデータへの高速なアクセスを必要とし、記録装置は好適にはRAM(Random Access Memory)のような高速にアクセス可能なタイプのものである。
照合を実行する際、該認識処理は、保存された顔と与えられた顔との特定の特徴間の対応を決定する。先行技術は、リアルタイムの顔認識手法の幾つかの説明を提供しており、斯かる既知の手法が、本発明により教示されるように適用されても良い。
本文脈においては、アノテータにより実行される修正又はアノテーション付けは、注釈、コメント、グラフィック特徴、改善された解像度、又はその他の顔に関する情報をストリーミングビデオの視聴者に伝達する顔領域の候補のマーキングである。アノテーション付けの幾つかの例は、本発明の詳細な説明において与えられる。従って、顔にアノテーションを付されたストリーミングビデオは、ビデオに出現する少なくとも1つの顔に関するアノテーションを一部が含むストリーミングビデオである。
識別された顔は、顔に関連するアノテーションとして与えられ得る情報を提供するアノテーション情報(例えば名前、肩書き、会社、人物の位置、顔の前に黒線を描画することにより顔を匿名にすることのような顔の好適な修正)に関連付けられても良い。
顔の背後にある人物の識別情報に必ずしもリンクされなくても良い他のアノテーション情報は、変化する場所においても区別され得るようにするための各顔にリンクされたアイコン又はグラフィクス、現在発話している人物に属する顔のインジケータ、娯楽目的のための顔の修正(例えば眼鏡や偽の髪を追加すること)を含む。
第1の態様によるシステムは、前述したように、ストリーミングビデオ伝送のいずれの側に配置されても良い。それ故、ストリーミングビデオ源は、ディジタルビデオを記録するためのディジタルビデオカメラを有しても良く、ストリーミングビデオを生成しても良い。代替として、ストリーミングビデオ源は、ストリーミングビデオを受信及びデコードするための受信器及びデコーダを有しても良い。同様に、出力部が、顔にアノテーションを付されたストリーミングビデオをエンコード及び送信するためのエンコーダ及び送信器を有しても良い。代替として、出力部が、出力端子から顔にアノテーションを付されたストリーミングビデオを受信し、該ビデオをエンドユーザに対して表示するように動作可能に接続されたディスプレイを有しても良い。
第2の態様においては、本発明は、第1の態様によるシステムにより実行される方法のような、ストリーミングビデオの顔アノテーション(face-annotation)を作成するための方法を提供する。該第2の態様の方法は、
ストリーミングビデオを受信するステップと、
前記ストリーミングビデオにおける顔の候補を保持する領域を検出するためのリアルタイムな顔検出処理を実行するステップと、
少なくとも1つの顔領域の候補に関連する前記ストリーミングビデオにおける画素内容を修正することにより、前記ストリーミングビデオにアノテーション付けするステップと、
を有する。
ストリーミングビデオを受信するステップと、
前記ストリーミングビデオにおける顔の候補を保持する領域を検出するためのリアルタイムな顔検出処理を実行するステップと、
少なくとも1つの顔領域の候補に関連する前記ストリーミングビデオにおける画素内容を修正することにより、前記ストリーミングビデオにアノテーション付けするステップと、
を有する。
第1の態様のシステムに関連して与えられた説明は、一般に第2の態様の方法にも当てはまる。それ故、ストリーミングビデオが、画像フレームから成る圧縮されていないストリーミングビデオを有すること、及び顔検出処理が該ストリーミングビデオの選択された画像フレームのみに対して実行されることが、好適となり得る。
顔認識をも実行するため、本方法は好ましくは、
1以上の顔を識別するデータを供給するステップと、
前記データにおける顔の候補のリアルタイムな識別を実行するためのリアルタイムな顔認識処理を実行するステップと、
前記ストリーミングビデオにおける画素内容の修正において、識別された顔の候補に関連するアノテーション情報を含ませるステップと、
を有しても良い。
1以上の顔を識別するデータを供給するステップと、
前記データにおける顔の候補のリアルタイムな識別を実行するためのリアルタイムな顔認識処理を実行するステップと、
前記ストリーミングビデオにおける画素内容の修正において、識別された顔の候補に関連するアノテーション情報を含ませるステップと、
を有しても良い。
本発明の基本的な概念は、ビデオ信号における顔をその場で検出し、ビデオ信号自体を修正することによりこれら顔にアノテーション付けすることである。即ち、表示されるストリーミングビデオにおける画素内容が変更される。このことは、単にアノテーションに類似する情報を持つメタデータを添付又は同封することとは対照的である。このことは、ビデオの伝送において利用されるいずれのファイルフォーマット、通信プロトコル又は他の規格に対して独立であるという利点を持つ。アノテーション付けはその場で実行されるため、本発明はビデオ会議、討論からの伝送、パネルディスカッション等のようなライブ伝送において特に適用可能である。
添付図面を参照しながら、例としてのみ、本発明の実施例が以下に説明される。
図1は、顔にアノテーションを付された信号18の標準的な伝送チャネル8を通した受信器9への送信の前に、記録されたストリーミングビデオ信号4が送信側2においてどのように顔アノテーション付けされるかを、模式的に示す。送信側2は、ビデオ会議における一方の団体であっても良く、入力部1はストリーミングビデオ信号4を記録及び生成するディジタルビデオカメラであっても良い。入力部はまた単に、システム5の一部を形成しないメモリから又はカメラからの信号を受信しても良い。伝送チャネル8は、例えばISDN(Integrated Services Digital Network)接続を用いた電話線のような、適用可能なフォーマットを用いたいずれのデータ伝送線であっても良い。顔にアノテーションを付されたストリーミングビデオを受信する他端においては、受信側9はビデオ会議の他方の団体であっても良い。
ストリーミングビデオのリアルタイムの顔アノテーション付けのためのシステム5は、入力部1において信号4を受信し、該信号をアノテータ14及び顔検出コンポーネント10の双方に配信する。顔検出コンポーネント10は、顔検出ソフトウェアモジュールの顔検出アルゴリズムを実行するプロセッサであっても良い。該コンポーネントは、信号4の画像フレームから、人間の顔に類似する領域を探し、顔領域の候補としていずれの斯かる領域をも識別する。顔領域の候補は次いで、アノテータ14及び顔認識コンポーネント12に対して利用可能とされる。顔検出コンポーネント10は例えば、顔領域の候補から成る画像を生成及び供給しても良いし、又は単にストリーミングビデオ信号4における顔領域の候補の位置及びサイズを示すデータを供給しても良い。
画像における顔の検出は、既存の技術を利用して実行されても良い。例えば以下のような、種々の既存の顔検出コンポーネントの例が知られており利用可能である:
−顔検出及び顔追跡を実行するウェブカメラ、
−顔優先の自動フォーカスカメラ、又は
−ディジタル画像の後処理において赤目補正、人物像トリミング、肌色の調節等を可能とする重要な顔要素を自動的に識別する顔検出ソフトウェア。
−顔検出及び顔追跡を実行するウェブカメラ、
−顔優先の自動フォーカスカメラ、又は
−ディジタル画像の後処理において赤目補正、人物像トリミング、肌色の調節等を可能とする重要な顔要素を自動的に識別する顔検出ソフトウェア。
アノテータ14が信号4及び顔領域の候補を受信すると、該アノテータは信号4を修正する。該修正において該アノテータは、アノテーション付けがストリーミングビデオ信号の組み込まれた部分となるように画像フレームにおける画素を変更する。その結果の顔にアノテーションを付されたストリーミングビデオ信号18は、出力部17によって伝送チャネル8に供給される。受信側9が信号18を観測するときには、顔アノテーションはビデオの分離不可能な部分となっており、元来的に記録されたコンテンツであるように見える。顔領域の候補にのみ基づく(即ち顔認識のない)アノテーション付けは、一般に、人物の特定に関連する情報ではない。その代わり、アノテーションは例えば顔領域の候補における解像度を改善するもの、又は現在の発話者を示すグラフィクスであり得る(各人物がマイクロフォンを装着しても良く、その場合には現在の発話者を特定することが容易である)。
顔認識コンポーネント12は、顔領域の候補を、既に利用可能な顔データと比較して、顔領域の候補に合致する顔を特定する。アノテータ14が顔領域の候補のみに基づいてビデオ信号にアノテーション付けしても良いため、顔認識コンポーネント12は任意である。顔認識コンポーネント12にとってアクセス可能なデータベースは、既知の人物の顔の画像、又は肌、顔及び目の色、目、耳及び眉毛間の距離、頭部の高さ及び幅等のような顔を識別するデータを保持しても良い。合致が得られた場合、顔認識コンポーネント12はアノテータ14に通知し、ことによると顔の高解像度画像、人物の名前及び肩書きのような特定情報、ストリーミングビデオ4における対応する領域をどのようにアノテーション付けするかの指示等のような更なるアノテーション情報を供給する。顔認識コンポーネント12は、顔検出ソフトウェアモジュールの顔検出アルゴリズムを実行するプロセッサであっても良い。
ストリーミングビデオの顔領域の候補における顔の認識は、既存の技術を利用して実行されても良い。これら技術の例は、以下の参照文献において記載されている:
−Beyond Eigenfaces: Probabilistic Matching for Face Recognition Moghaddam B., Wahid W. & Pentland A. International Conference on Automatic Face & Gesture Recognition, Nara, Japan, April 1998
- Probabilistic Visual Learning for Object Representation Moghaddam B. & Pentland A. Pattern Analysis and Machine Intelligence, PAMI-19 (7), pp. 696-710, July 1997
- A Bayesian Similarity Measure for Direct Image Matching Moghaddam B., Nastar C. & Pentland A. International Conference on Pattern Recognition, Vienna, Austria, August 1996
- Bayesian Face Recognition Using Deformable Intensity Surfaces Moghaddam B., Nastar C. & Pentland A.IEEE Conf. on Computer Vision & Pattern Recognition, San Francisco, Calif., June 1996
- Active Face Tracking and Pose Estimation in an Interactive Room
Darrell T., Moghaddam B. & Pentland A. IEEE Conf. on Computer Vision & Pattern Recognition, San Francisco, Calif., June 1996
- Generalized Image Matching: Statistical Learning of Physically-Based
Deformations Nastar C., Moghaddam B. & Pentland A. Fourth European Conference on Computer Vision, Cambridge, UK, April 1996
- Probabilistic Visual Learning for Object Detection Moghaddam B. & Pentland A. International Conference on Computer Vision, Cambridge, Mass., June 1995
- A Subspace Method for Maximum Likelihood Target Detection Moghaddam B. & Pentland A. International Conference on Image Processing, Washington D.C., October 1995
- An Automatic System for Model-Based Coding of Faces Moghaddam B. & Pentland A.IEEE Data Compression Conference, Snowbird, Utah, March 1995
- View-Based and Modular Eigenspaces for Face Recognition Pentland A., Moghaddam B. & Starner T. IEEE Conf. on Computer Vision & Pattern Recognition, Seattle, Wash., July 1994
−Beyond Eigenfaces: Probabilistic Matching for Face Recognition Moghaddam B., Wahid W. & Pentland A. International Conference on Automatic Face & Gesture Recognition, Nara, Japan, April 1998
- Probabilistic Visual Learning for Object Representation Moghaddam B. & Pentland A. Pattern Analysis and Machine Intelligence, PAMI-19 (7), pp. 696-710, July 1997
- A Bayesian Similarity Measure for Direct Image Matching Moghaddam B., Nastar C. & Pentland A. International Conference on Pattern Recognition, Vienna, Austria, August 1996
- Bayesian Face Recognition Using Deformable Intensity Surfaces Moghaddam B., Nastar C. & Pentland A.IEEE Conf. on Computer Vision & Pattern Recognition, San Francisco, Calif., June 1996
- Active Face Tracking and Pose Estimation in an Interactive Room
Darrell T., Moghaddam B. & Pentland A. IEEE Conf. on Computer Vision & Pattern Recognition, San Francisco, Calif., June 1996
- Generalized Image Matching: Statistical Learning of Physically-Based
Deformations Nastar C., Moghaddam B. & Pentland A. Fourth European Conference on Computer Vision, Cambridge, UK, April 1996
- Probabilistic Visual Learning for Object Detection Moghaddam B. & Pentland A. International Conference on Computer Vision, Cambridge, Mass., June 1995
- A Subspace Method for Maximum Likelihood Target Detection Moghaddam B. & Pentland A. International Conference on Image Processing, Washington D.C., October 1995
- An Automatic System for Model-Based Coding of Faces Moghaddam B. & Pentland A.IEEE Data Compression Conference, Snowbird, Utah, March 1995
- View-Based and Modular Eigenspaces for Face Recognition Pentland A., Moghaddam B. & Starner T. IEEE Conf. on Computer Vision & Pattern Recognition, Seattle, Wash., July 1994
図2は、顔にアノテーションを付されたストリーミングビデオ18をエンドユーザに対して表示する前に、受信されたストリーミングビデオ信号4が受信側9においてどのようにアノテーション付けされるかを、模式的に示す。ストリーミングビデオのリアルタイムな顔アノテーション付けのためのシステム15の性能及び構成要素は、図1のシステム5のものと類似している。しかしながら図2においては、システム15は、伝送チャネル8を通して入力部1において、送信側2から信号4を受信する。入力部1は、ストリーミングビデオ信号4を伸張するプレイヤであっても良い。送信側2は、ストリーミングビデオ信号4を生成及び送信することが可能ないずれかの利用可能な技術によって、ストリーミングビデオ信号4を生成及び送信している。また、顔にアノテーションを付されたビデオ信号18はネットワークによって伝送されるのではなく、出力部17がストリーミングビデオをユーザに対して提示するディスプレイであっても良い。出力部17はまた、顔にアノテーションを付されたビデオを、保存のためメモリに送信しても良いし、又はシステム15の一部を形成しないディスプレイに送信しても良い。
図1及び2に関連して説明されたシステム5及び15はまた、ストリーミングビデオ信号4及び18と共に記録及び再生されるが、アノテーション付けされていない、ストリーミングオーディオ信号6に対処しても良い。各人物はシステムに対する個別のマイクロフォン入力を持っても良く、それにより、どのマイクロフォンが最も大きな信号をピックアップしたかにより、現在の発話者が決定される。オーディオ信号6はまた、システム5及び15の音声認識器又は位置特定器16により利用されても良く、ビデオにおいて現在発話している人物を識別又は位置特定する際に利用されても良い。
図3は、ストリーミングビデオのリアルタイムの顔アノテーション付けのためのシステム5及び15の種々のコンポーネントを有する、ハードウェアモジュール20を示す。モジュール20は例えば、パーソナルコンピュータ、ハンドヘルド型コンピュータ、モバイル電話、ビデオレコーダ、ビデオ会議装置、テレビジョンセット、セットトップボックス、衛星受信器等の一部であっても良い。モジュール20は、ビデオを生成又は受信することが可能な入力部1と、モジュールのタイプに対応するビデオを送信又は表示することが可能な出力部17とを持ち、送信側に配置されたシステム5としても、又は受信側に配置されたシステム15としても動作する。
一実施例において、モジュール20は、データフローを取り扱うバス21、例えばCPU(central processing unit)のようなプロセッサ22、例えばRAMのような内部高速アクセスメモリ23、及び例えば磁気ドライブのような不揮発性メモリ24を持つ。モジュール20は、本発明による顔検出、顔認識及びアノテーション付けのためのソフトウェアコンポーネントを保持及び実行しても良い。同様に、メモリ23及び24は、認識されるべき顔に対応するデータ、及び関連するアノテーション情報を保持しても良い。
図4は、2つの団体(一方が25乃至27、他方が37)間のライブのビデオ会議を示す。ここで、人物25乃至27は、ストリーミングビデオをシステム5に送信するディジタルビデオカメラ28により記録される。本システムは、人物25乃至27の顔に対応するビデオにおける顔領域の候補を決定し、これら候補を保存された既知の顔と比較する。本システムは、そのうちの1人即ち人物25を、会議の主催者であるMs. M. Donaldsonと特定する。それ故システム5は、結果のストリーミングビデオ32を、Ms. Donaldsonの頭部の周囲のフレーム29によって修正する。代替として本システムは、認識された声の人物に関連する顔を認識することにより、現在発話している人物を特定しても良い。カメラ28に内蔵されたマイクロフォンを用いて、システム5は、Ms. Donaldsonの音声を認識し、該音声を認識された顔と関連付け、ストリーミングビデオ32においてフレーム29によってMs. Donaldsonを発話者として示す。代替実施例においては、システム5は、残りの領域における解像度の代わりに、特定された発話者の顔領域の候補における解像度を改善し、それにより必要とされる帯域幅を増大させない。
ビデオ会議の他方においては、標準的な構成がユーザ37のストリーミングビデオを記録し、ユーザ25乃至27へと送信する。システム15によりストリーミングビデオを受信することにより、入力される標準的なストリーミングビデオは、ユーザ25乃至27に対する表示の前に顔アノテーション付けされ得る。ここで、システム15は、人物37の顔を記憶された個人の顔として識別し、人物37に対して名前及び肩書きタグ38を付加することにより信号を修正する。
他の実施例においては、本発明によるシステム及び方法は、欧州議会のような会議又は議会において適用される。ここでは数百の潜在的な発話者が参加し、注釈者又は字幕製作者にとって個人を追跡し続けることが困難であり得る。全ての参加者の写真を記憶装置に保持することにより、本発明は現在カメラの観測範囲内にいる人物を追跡し続けることができる。
Claims (10)
- ストリーミングビデオのリアルタイムな顔へのアノテーション付けのためのシステムであって、前記システムは、
ストリーミングビデオ源と、
前記ストリーミングビデオ源からストリーミングビデオを受信するように動作可能に接続され、前記ストリーミングビデオにおける顔の候補を保持する領域のリアルタイムな検出を実行するように構成された顔検出コンポーネントと、
前記ストリーミングビデオと前記顔検出コンポーネントからの顔領域の候補の位置とを受信するように動作可能に接続されたアノテータであって、少なくとも1つの顔領域の候補に関連する前記ストリーミングビデオにおける画素内容を修正するように構成されたアノテータと、
前記アノテータから顔にアノテーションを付されたストリーミングビデオを受信するように動作可能に接続された出力部と、
を有するシステム。 - 前記ストリーミングビデオ源は、画像フレームを有する圧縮されていないストリーミングビデオを供給するように構成され、
前記顔検出コンポーネントは更に、前記ストリーミングビデオの選択された画像フレームに対してのみ検出を実行するように構成された、請求項1に記載のシステム。 - 1以上の顔を識別するデータ及び関連するアノテーション情報を保持する記憶装置と、
前記顔検出コンポーネントからの顔領域の候補を受信し前記記憶装置にアクセスするように動作可能に接続され、前記記憶装置における顔の候補のリアルタイムな識別を実行するように構成された顔認識コンポーネントと、
を更に有し、
前記アノテータは更に、
顔の候補が識別されたという情報と、
前記顔認識コンポーネント又は前記記憶装置からのいずれかの識別された顔の候補についてのアノテーション情報と、
を受信するように動作可能に接続され、前記アノテータは更に、前記ストリーミングビデオにおける画素内容の修正において、識別された顔の候補に関連するアノテーション情報を含ませるように構成された、請求項1又は2に記載のシステム。 - 前記ストリーミングビデオ源は、ディジタルビデオを記録し前記ストリーミングビデオを生成するためのディジタルビデオカメラを有する、請求項1乃至3のいずれか一項に記載のシステム。
- 前記出力部は、前記顔にアノテーションを付されたストリーミングビデオをエンコード及び送信するためのエンコーダ及び送信器を有する、請求項1乃至4のいずれか一項に記載のシステム。
- 前記出力部は、出力端子から前記顔にアノテーションを付されたストリーミングビデオを受信し、該ストリーミングビデオをエンドユーザに対して表示するように動作可能に接続されたディスプレイを有する、請求項1又は2に記載のシステム。
- 前記ストリーミングビデオ源は、ストリーミングビデオを受信及びデコードするための受信器及びデコーダを有する、請求項1、2、3又は5のいずれか一項に記載のシステム。
- ストリーミングビデオの顔アノテーションを作成するための方法であって、
ストリーミングビデオを受信するステップと、
前記ストリーミングビデオにおける顔の候補を保持する領域を検出するためのリアルタイムな顔検出処理を実行するステップと、
少なくとも1つの顔領域の候補に関連する前記ストリーミングビデオにおける画素内容を修正することにより、前記ストリーミングビデオにアノテーション付けするステップと、
を有する方法。 - 1以上の顔を識別するデータを供給するステップと、
前記データにおける顔の候補のリアルタイムな識別を実行するためのリアルタイムな顔認識処理を実行するステップと、
前記ストリーミングビデオにおける画素内容の修正において、識別された顔の候補に関連するアノテーション情報を含ませるステップと、
を更に有する、請求項8に記載の方法。 - 前記ストリーミングビデオは、画像フレームから成る圧縮されていないストリーミングビデオを有し、前記顔検出処理は、前記ストリーミングビデオの選択された画像フレームに対してのみ実行される、請求項8又は9に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP05109062 | 2005-09-30 | ||
PCT/IB2006/053365 WO2007036838A1 (en) | 2005-09-30 | 2006-09-19 | Face annotation in streaming video |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009510877A true JP2009510877A (ja) | 2009-03-12 |
Family
ID=37672387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008532925A Withdrawn JP2009510877A (ja) | 2005-09-30 | 2006-09-19 | 顔検出を利用したストリーミングビデオにおける顔アノテーション |
Country Status (6)
Country | Link |
---|---|
US (1) | US20080235724A1 (ja) |
EP (1) | EP1938208A1 (ja) |
JP (1) | JP2009510877A (ja) |
CN (1) | CN101273351A (ja) |
TW (1) | TW200740214A (ja) |
WO (1) | WO2007036838A1 (ja) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8341112B2 (en) * | 2006-05-19 | 2012-12-25 | Microsoft Corporation | Annotation by search |
US8174555B2 (en) * | 2007-05-30 | 2012-05-08 | Eastman Kodak Company | Portable video communication system |
US9443010B1 (en) * | 2007-09-28 | 2016-09-13 | Glooip Sarl | Method and apparatus to provide an improved voice over internet protocol (VOIP) environment |
US8131750B2 (en) * | 2007-12-28 | 2012-03-06 | Microsoft Corporation | Real-time annotator |
US20090324022A1 (en) * | 2008-06-25 | 2009-12-31 | Sony Ericsson Mobile Communications Ab | Method and Apparatus for Tagging Images and Providing Notifications When Images are Tagged |
FR2933518A1 (fr) * | 2008-07-03 | 2010-01-08 | Mettler Toledo Sas | Terminal de transaction et systeme de transaction comportant de tels terminaux relies a un serveur |
EP2146289A1 (en) * | 2008-07-16 | 2010-01-20 | Visionware B.V.B.A. | Capturing, storing and individualizing images |
US20100104004A1 (en) * | 2008-10-24 | 2010-04-29 | Smita Wadhwa | Video encoding for mobile devices |
NO331287B1 (no) * | 2008-12-15 | 2011-11-14 | Cisco Systems Int Sarl | Fremgangsmate og anordning for gjenkjenning av ansikter i en videostrom |
TWI395145B (zh) * | 2009-02-02 | 2013-05-01 | Ind Tech Res Inst | 手勢辨識系統及其方法 |
US8325999B2 (en) * | 2009-06-08 | 2012-12-04 | Microsoft Corporation | Assisted face recognition tagging |
TWI393444B (zh) * | 2009-11-03 | 2013-04-11 | Delta Electronics Inc | 多媒體播放系統、辨識一檔案之裝置及其方法 |
DE102009060687A1 (de) * | 2009-11-04 | 2011-05-05 | Siemens Aktiengesellschaft | Verfahren und Vorrichtung zum rechnergestützten Annotieren von Multimediadaten |
DE102010011029A1 (de) | 2010-03-11 | 2011-09-15 | Osram Opto Semiconductors Gmbh | Portables elektronisches Gerät |
US9703782B2 (en) | 2010-05-28 | 2017-07-11 | Microsoft Technology Licensing, Llc | Associating media with metadata of near-duplicates |
US8903798B2 (en) | 2010-05-28 | 2014-12-02 | Microsoft Corporation | Real-time annotation and enrichment of captured video |
US8559682B2 (en) | 2010-11-09 | 2013-10-15 | Microsoft Corporation | Building a person profile database |
US9678992B2 (en) | 2011-05-18 | 2017-06-13 | Microsoft Technology Licensing, Llc | Text to image translation |
CN102752540B (zh) * | 2011-12-30 | 2017-12-29 | 新奥特(北京)视频技术有限公司 | 一种基于人脸识别技术的自动编目方法 |
CN102572218B (zh) * | 2012-01-16 | 2014-03-12 | 唐桥科技(杭州)有限公司 | 基于网络视频会议系统的视频标注方法 |
US9239848B2 (en) | 2012-02-06 | 2016-01-19 | Microsoft Technology Licensing, Llc | System and method for semantically annotating images |
US9058806B2 (en) | 2012-09-10 | 2015-06-16 | Cisco Technology, Inc. | Speaker segmentation and recognition based on list of speakers |
US9424279B2 (en) | 2012-12-06 | 2016-08-23 | Google Inc. | Presenting image search results |
US8886011B2 (en) | 2012-12-07 | 2014-11-11 | Cisco Technology, Inc. | System and method for question detection based video segmentation, search and collaboration in a video processing environment |
US9524282B2 (en) * | 2013-02-07 | 2016-12-20 | Cherif Algreatly | Data augmentation with real-time annotations |
US9792716B2 (en) * | 2014-06-13 | 2017-10-17 | Arcsoft Inc. | Enhancing video chatting |
US20170164056A1 (en) * | 2014-06-25 | 2017-06-08 | Thomson Licensing | Annotation method and corresponding device, computer program product and storage medium |
US9704020B2 (en) | 2015-06-16 | 2017-07-11 | Microsoft Technology Licensing, Llc | Automatic recognition of entities in media-captured events |
WO2017120375A1 (en) * | 2016-01-05 | 2017-07-13 | Wizr Llc | Video event detection and notification |
US10609324B2 (en) | 2016-07-18 | 2020-03-31 | Snap Inc. | Real time painting of a video stream |
CN110324723B (zh) * | 2018-03-29 | 2022-03-08 | 华为技术有限公司 | 字幕生成方法及终端 |
US11087538B2 (en) * | 2018-06-26 | 2021-08-10 | Lenovo (Singapore) Pte. Ltd. | Presentation of augmented reality images at display locations that do not obstruct user's view |
US11393170B2 (en) | 2018-08-21 | 2022-07-19 | Lenovo (Singapore) Pte. Ltd. | Presentation of content based on attention center of user |
US10991139B2 (en) | 2018-08-30 | 2021-04-27 | Lenovo (Singapore) Pte. Ltd. | Presentation of graphical object(s) on display to avoid overlay on another item |
US11166077B2 (en) * | 2018-12-20 | 2021-11-02 | Rovi Guides, Inc. | Systems and methods for displaying subjects of a video portion of content |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU5645999A (en) * | 1998-09-10 | 2000-04-03 | Mate - Media Access Technologies Ltd. | Method of face indexing for efficient browsing and searching ofp eople in video |
AU2003214539A1 (en) * | 2002-04-02 | 2003-10-13 | Koninklijke Philips Electronics N.V. | Method and system for providing complementary information for a video program |
US7039222B2 (en) * | 2003-02-28 | 2006-05-02 | Eastman Kodak Company | Method and system for enhancing portrait images that are processed in a batch mode |
FR2852422B1 (fr) * | 2003-03-14 | 2005-05-06 | Eastman Kodak Co | Procede d'identification automatique d'entites dans une image numerique |
US7274822B2 (en) * | 2003-06-30 | 2007-09-25 | Microsoft Corporation | Face annotation for photo management |
-
2006
- 2006-09-19 WO PCT/IB2006/053365 patent/WO2007036838A1/en active Application Filing
- 2006-09-19 US US12/088,001 patent/US20080235724A1/en not_active Abandoned
- 2006-09-19 JP JP2008532925A patent/JP2009510877A/ja not_active Withdrawn
- 2006-09-19 CN CNA2006800359253A patent/CN101273351A/zh active Pending
- 2006-09-19 EP EP06809341A patent/EP1938208A1/en not_active Withdrawn
- 2006-09-27 TW TW095135701A patent/TW200740214A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
EP1938208A1 (en) | 2008-07-02 |
CN101273351A (zh) | 2008-09-24 |
TW200740214A (en) | 2007-10-16 |
US20080235724A1 (en) | 2008-09-25 |
WO2007036838A1 (en) | 2007-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009510877A (ja) | 顔検出を利用したストリーミングビデオにおける顔アノテーション | |
US6961446B2 (en) | Method and device for media editing | |
US11676369B2 (en) | Context based target framing in a teleconferencing environment | |
KR101099884B1 (ko) | 동화상데이터의 부호화방법, 복호화방법, 이들을 실행하는단말장치, 및 쌍방향 대화형 시스템 | |
US8289363B2 (en) | Video conferencing | |
US9282284B2 (en) | Method and system for facial recognition for a videoconference | |
US7583287B2 (en) | System and method for very low frame rate video streaming for face-to-face video conferencing | |
US7355623B2 (en) | System and process for adding high frame-rate current speaker data to a low frame-rate video using audio watermarking techniques | |
US20190215464A1 (en) | Systems and methods for decomposing a video stream into face streams | |
US7676063B2 (en) | System and method for eye-tracking and blink detection | |
US7362350B2 (en) | System and process for adding high frame-rate current speaker data to a low frame-rate video | |
US7659920B2 (en) | System and method for very low frame rate teleconferencing employing image morphing and cropping | |
US7355622B2 (en) | System and process for adding high frame-rate current speaker data to a low frame-rate video using delta frames | |
US11076127B1 (en) | System and method for automatically framing conversations in a meeting or a video conference | |
JP2009501476A (ja) | ビデオ時間アップコンバージョンを用いた処理方法及び装置 | |
JP4451892B2 (ja) | 映像再生装置、映像再生方法、及び映像再生プログラム | |
US11477393B2 (en) | Detecting and tracking a subject of interest in a teleconference | |
CN114727120A (zh) | 直播音频流的获取方法、装置、电子设备及存储介质 | |
EP4106326A1 (en) | Multi-camera automatic framing | |
JP4649640B2 (ja) | 画像処理方法、画像処理装置、及びコンテンツ作成システム | |
US20220329727A1 (en) | Region of interest based adjustment of camera parameters in a teleconferencing environment | |
CN116189251A (zh) | 实时人脸图像驱动方法、装置、电子设备及存储介质 | |
Al-Hames et al. | Automatic multi-modal meeting camera selection for video-conferences and meeting browsers | |
US20230245271A1 (en) | Videoconferencing Systems with Facial Image Rectification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20091201 |