JP2009533786A

JP2009533786A - 自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法

Info

Publication number: JP2009533786A
Application number: JP2009520714A
Authority: JP
Inventors: ショーンスミス，; マイケルチェイキー，; ピーターゲートリー，
Original assignee: アヴァワークスインコーポレーテッド
Priority date: 2006-04-10
Filing date: 2006-04-10
Publication date: 2009-09-17
Also published as: WO2008156437A1; US20100007665A1; EP2030171A1; CA2654960A1; AU2006352758A1; US8553037B2

Abstract

自分でできるフォトリアリスティックなトーキングヘッド作成システムであって、テンプレートと、対象者の画像出力信号を有するディスプレイとビデオカメラとを備えた携帯用機器と、前記テンプレートと前記対象者の画像出力信号とを合成画像に混合するためのミキサプログラム及び前記合成画像を表現する出力信号を有するコンピュータと、前記対象者に合成画像として表示するために前記合成画像の信号を前記ディスプレイに送信するようにされたコンピュータと、前記ビデオカメラが前記対象者の前記画像を収集して前記対象者に前記合成画像を表示できるように、さらに前記対象者が前記対象者の前記画像を前記テンプレートに合わせて配置できるようにされた前記ディスプレイ及び前記ビデオカメラと、前記対象者の前記収集画像を表現する前記ビデオカメラの前記出力信号を受信するための入力を有し、前記テンプレートに実質的に合わせて配置された前記対象者の前記画像を保存するための保存手段とを備えるシステム。

Description

本発明は、概してトーキングヘッドに関し、さらに詳しくは、写真のような現実感のある（以下、フォトリアリスティックという。）トーキングヘッドの作成に関する。

デジタル通信は、現在の生活の重要な部分である。個人や企業は、インターネットを含むあらゆる種類のネットワークを経由して互いに通信するが、それぞれのネットワークの種類は、通常は帯域幅が限定されている。無線及び有線ネットワークによってユーザ間で情報を伝達し、通信の必要性を満たすために、パーソナルコンピュータ、携帯端末、電子手帳（ＰＤＡ）、インターネットベースの携帯電話、電子メールやインスタントメッセージサービス、ＰＣ電話、ビデオ会議、及び他の適切な手段が使用される。情報は、ビデオやオーディオ情報を有する動画及びテキストベースの両方のフォーマットで伝達されているが、人の動画を用いる傾向にあり、これによって、個性を伝えること、会話の重要点の強調及び感情的内容の追加が可能である。しかしながら、ほとんどの場合には、ファイルサイズを縮小するために圧縮し、ダウンロードにかかる時間を短縮するためにストリーム化すると、ビデオ画像を不明瞭化するアーチファクトの結果として、動きのある実際の人間のフォトリアリスティックな画像は制限され、かつ／又は低品質であった。

トーキングヘッドの動画画像を生成するために多様な方法が使用されてきた。これにより、例えばニュースキャスターがより個人の容姿で見えるようになったが、これらの動画画像は、未だ一般的には個人の個性を伝え、会話の重要点を強調するとともに、感情的内容を追加するために必要なフォトリアリスティックな品質には欠けており、不明瞭であることが多く、口合わせができておらず、現在のネットワーク及び／又はインターネットのほとんどで一般的に利用可能な帯域幅よりもはるかに大きい帯域幅を必要とし、作成が困難で時間がかかる。

ニュース報道は、電子通信媒体の基本要素であり、ニュースキャスターの形態は、ニュース報道に関連したグラフィックや写真、フォトリアリスティックな品質を有して個人の容姿で見えるようになっているトーキングヘッドの動画画像の使用によって増強されており、このようなトーキングヘッドを使用することができる多数の用途のうちの１つである。

したがって、ユーザが、ニュースキャスターなどのトーキングヘッドのフォトリアリスティックな動画画像を迅速、容易、かつ簡単に生成することができる、自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法に対する必要性が存在する。自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法は、個人の個性を伝え、会話の重要点を強調するとともに、感情的内容を追加するために必要なフォトリアリスティックな品質を有する画像を生み出し、動画化されたフォトリアリスティックな画像を明瞭かつ明確に表示するとともに、口合わせも高品質で、ほとんどの現在のネットワーク及び／又はインターネット上で一般的に利用可能な帯域幅よりも少ない帯域幅しか必要としないものでなくてはならない。

自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法は、実際の人間の輪郭を捉えて、様々な角度位置のフォトリアリスティックなトーキングヘッドのライブラリを作成することができなければならない。そうすれば、フォトリアリスティックなトーキングヘッドのライブラリは、例えば、個人の個性を伝え、会話の重要点を強調するとともに感情的内容を追加することが必要な、フォトリアリスティックな品質を有するニュースキャスターやその他のトーキングヘッド等の動画化された動作を作成するために使用することができる。動画化されたフォトリアリスティックな画像は、動画化されたトーキングヘッドを明瞭かつ明確に表示するとともに、口合わせも高品質で、ほとんどの現在のネットワーク及び／又はインターネット上で一般的に利用可能な帯域幅よりも少ない帯域幅しか必要としないものでなくてはならない。

フォトリアリスティックなトーキングヘッドのライブラリは、通常のコンピュータ操作技術を有する個人によって迅速、容易、かつ効果的に作成することが可能であり、様々な角度位置にある実際の人間の画像の混合及び配置合わせのためのテンプレートとして用いられるガイドを使用して、作成時間を最小限にするものでなくてはならない。

様々なガイドライブラリのライブラリが提供され、それぞれのガイドライブラリは、その中に様々なガイドを有し、それぞれのガイドは異なる角度位置に対応しなくてはならない。それぞれのガイドライブラリは、互いに異なる顔の特徴を有し、それによってユーザは、様々なガイドライブラリからなるライブラリから、ユーザの顔の特徴及び特性に近い顔の特徴及び特性を持つガイドライブラリを選択するものでなければならない。

トーキングヘッドは、ニュース報道に関連してニュースキャスターの形式で使用されることができ、多数及び多様な用途での使用のために、トーキングヘッドの動画画像の使用は、フォトリアリスティックな品質を持つとともに擬人化された外観を生み出すことができなければならない。

自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法は、任意選択により、実際の人間を撮影したデジタルビデオテープの映像から、コンピュータベースの二次元画像のライブラリを作成することもできなければならない。ユーザは、規則的な頭部の動きについてテンプレートを提供するために、パーソナルコンピュータソフトウェアを用いて混合され、コンピュータモニタ又はその他の適当な機器に表示される３Ｄ描画ガイド画像又はテンプレートのライブラリを操作することができなければならない。対象者又はニュースキャスターは、正しい姿勢配置を維持すると同時に、一連の顔の表情、まばたき、眉毛の動きを完成させ、目標の音素又は口の形を含んだ語句を話すためにガイドを使用することができなければならない。この行動は、任意選択により、高解像度デジタルビデオテープ上に連続して記録することができなければならない。ユーザは、任意選択により、各コマが対象者の参照ソースビデオフレームに相当する異なる頭部の位置の配置、顔の表情及び口の形状を含む選択された個別のビデオフレームを使用し、画像編集ソフトウェアによって、トーキングヘッドのライブラリを組み立てることができなければならない。自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法によって生成される出力は、実際のビデオを使用する代わりに、パーソナルコンピュータ、ＰＤＡ又は携帯電話上の多様な用途及び表示に使用することができなければならない。自分でできるフォトリアリスティックなトーキングヘッドの作成システムは、任意選択により、スクリプトコマンドからトーキングヘッドの表示を作成することもできなければならない。

自分でできるフォトリアリスティックなトーキングヘッドの作成システム及び方法は、携帯端末及び携帯無線端末で使用することができなければならない。これらの携帯端末及び携帯無線端末には、デジタル通信端末、電子手帳、携帯電話、ノート型コンピュータ、ビデオ電話、ビデオカメラ及びビデオ画面付きデジタル通信端末、並びにその他適当な機器が含まれる。

携帯端末及び携帯無線端末は、携帯用小型端末でなければならず、携帯無線端末は、無線で信号を送受信できなければならない。

対象者は、ビデオカメラ等の機器で自分自身の画像を捉え、機器のビデオディスプレイ上で捉えた画像の生ビデオを表示することができなければならない。

対象者のガイド画像は、自分でできるフォトリアリスティックなトーキングヘッド作成システムの携帯端末及び／又は携帯無線端末のディスプレイ上で、重ね合わせることができなければならない。

このような端末のそれぞれのディスプレイは、対象者の収集画像と選択された配置テンプレートとの合成画像を表示することができなければならない。ディスプレイ及びビデオカメラによって、ビデオカメラは対象者の画像を収集し、対象者は合成画像を見て、自分の頭部の画像を指定の配置テンプレートの頭部の角度と実質的に同じ角度で配置テンプレートの頭部に合わせて配置することができることが必要である。

このような携帯端末及び／又は携帯無線端末は、有線又は無線接続を経由してパーソナルコンピュータに、及び／又はリアルタイムビデオストリーミング及び／又は適当な信号の送信をサポートする十分な帯域幅のネットワークを経由してリモートサーバに接続することができなければならない。一般的なネットワークは、携帯電話ネットワーク、無線ネットワーク、無線デジタルネットワークや、インターネット、グローバルネットワーク、広域ネットワーク、都市圏ネットワーク又はローカルエリアネットワーク等の分散ネットワーク、及びその他適当なネットワークを含む。

２人以上のユーザは、いかなる時であってもリモートサーバに接続することができなければならない。記録されたビデオストリーム及び／又は静止画像は、処理してフォトリアリスティックなトーキングヘッドのライブラリを作成するために、コンピュータ及び／又はサーバに送信されなければならない。又は任意選択により、処理は、端末自体で実行することができなければならない。

ソフトウェアアプリケーション及び／又はハードウェアは、このような機器、コンピュータ及び／又はリモートサーバ内に存在することができ、対象者の収集画像と配置テンプレートとの合成信号を分析して、ガイド画像に対する配置の正確性を決定しなければならない。

自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法は、合成によって生成された音声、実際に記録された人間の音声、又は生の人間の技術者によって作成され、リアルタイムで対象者に通信される音声プロンプトを使用して、そして代わりに及び／又は追加でビデオプロンプトを使用して、配置プロセス中にユーザをリアルタイムで支援することができなければならない。そこで、対象者は、プロンプトの情報に従って、自分の頭部の位置を調整することができ、適切に配置すると、キャプチャープロセスの会話部分を開始することができる。音声及び／又はビデオプロンプトは、シーケンスを繰り返す場合、キャプチャー及び／又は配置プロセス中に正しい配置が失われる場合、及び／又はセッションを開始及び／又は停止する場合等、その他のタスクでも対象者を支援するために使用することができる。

電子画像、特に頭部、頭部の作製技術、及び／又は人体に関連して、電子画像を作製、作成及び操作するための様々な方法や装置が開示されてきた。しかしながら、どの方法や装置も、前述のこれらの必要性を十分満たさない。

米国特許番号６，９１９，８９２（Ｃｈｅｉｋｙら）は、テンプレートと、対象者の画像出力信号を有するビデオカメラと、テンプレートと対象者の画像出力信号とを合成画像及び合成画像の出力信号に混合するためのミキサと、ビデオカメラと対象者の間に部分反射鏡を有するプロンプタと、合成画像のミキサによる表現の出力信号を受信するための入力とを備え、部分的に反射するミラーは、それを通してビデオカメラが対象者画像を収集し、対象者が合成画像を見て、対象者の画像をテンプレートに合わせて配置できるようにされ、また、対象者の収集画像のビデオカメラ表現の出力画像信号を受信するための入力を有するとともに、テンプレートと実質的に配置を合わせた対象者の画像を保存する保存手段も備える、フォトリアリスティックな頭部作成システム及び方法を開示している。

米国特許番号６，３５１，２６５（Ｂｕｌｍａｎ）は、（ａ）頭部を含む画像の電子表示を受信するステップと、（ｂ）画像から頭部を抽出するステップと、（ｃ）頭部の大きさを決定するステップと、（ｄ）頭部を複数の望ましい大きさに再修正するステップと、（ｅ）複数の修正した頭部を印刷画像として媒体上に出力するステップとを備える、標準化画像を提供する方法を開示している。

米国特許番号４，２７６，６７０（Ｂｕｒｓｏｎら）は、異なる年齢の人の顔の画像を作製するための方法及び装置を開示しており、人の顔上に異なる年齢の外観をシミュレーションするために、老人の顔の写真及び対応する若い人の顔を記録して、老人の顔と若い人の顔の差異を検出して記録する。そして、異なる年齢でシミュレーションされる人の顔の写真が記録され、差異によって修正されて、修正後の画像が表示される。

米国特許番号４，８４１，５７５（Ｗｅｌｓｈら）は、画像コード化及び合成装置を開示しており、話し手の顔の視覚画像が処理されて、学習シーケンス中に画像の静止フレームと、一般的な口の形状のセットとを抽出する。次に、変化する口の形状をセットの形状に一致させて、それらを特定するコード名を生成することによって、送信されて、記録されるシーケンスのコード化が達成される。あるいは、コード名は、スピーチパラメータをコード名に関係付ける参照テーブルを使用して、実際又は合成の話し方を関連付けるように生成することができる。受信側では、静止画面と口の形状のセットが保存されて、受信されたコード名は、静止フレームに組み入れる連続的な口の形状を選択するために使用される。

米国特許番号６，６５４，０１８（Ｃｏｓａｔｔｏら）は、フォトリアリスティックなトーキングヘッド動画の合成のためのオーディオビジュアル選択プロセスを開示している。オーディオビジュアルユニット選択プロセスを利用するテキスト入力から、フォトリアリスティックなトーキングヘッドの動画を生成するためのシステム及び方法が開示されている。口合わせは、口領域の可変長のビデオユニットを選択して連結することによって得られる。ユニット選択プロセスは、候補画像の目標コストを決定するために音波データを利用して、連結コストを決定するためにビジュアルデータを利用する。画像データベースは、高レベルの機能（頭部の完全な３Ｄモデリング、幾何学的サイズ、要素の位置等）、及びピクセルベース、低レベルの機能（多様な特徴ビットマップをラベルするためのＰＣＡベースの測定基準）を含め、階層別に準備される。

米国特許番号６，２８３，８５８（Ｈａｙｅｓ，Ｊｒ．ら）は、画像を操作するためのシステム及び方法を開示している。システムは、デジタルコンピュータ、入力及び出力周辺機器、及び多様な画像を操作するための複数の機能を提供するプログラムを含む。画像は処理されて固有の物が生成され、それは操作者によって修正することができる。また、プログラムによって、ビデオゲームやその他のデジタルコンピュータ等、多様なシステムへの統合やデータ送信も可能になる。システムは、キャラクターをプレイヤーの実際の画像に置換するために、ビデオゲームにデータを送信するために使用することができる。また、システムは、画像の動画化を行い、話すことによる顔の動きをシミュレーションし、リアルタイムで身体の部分の表面的な再構成をシミュレーションするために使用することもできる。プラグラムは、さらに、操作されている画像の３次元表現を生成することができる。

米国特許番号５，９６０，０９９（Ｈａｙｅｓ，Ｊｒ．ら）は、人のデジタル化画像を作製するためのシステム及び方法を開示している。システムは、デジタルコンピュータと、デジタルコンピュータに操作的に連結されるスキャン装置を含む。人の頭部分の写真がスキャンされて、データはデジタルコンピュータに送信される。データを操作して、デジタルコンピュータ上で表示されるデジタル画像を再構成するためのプログラムが提供される。プログラムによって、デジタル画像の顔の表情をカスタマイズすることができる。また、プログラムは、必要な比例関係を維持しながら、デジタル化画像の拡大縮小も可能にする。また、プログラムは、コンピュータ支援製造（ＣＡＭ）システムへの統合やデータ送信も可能にするので、顔の表情に対応する３次元の輪郭やくぼみが自動的に再作成できる。

米国特許番号４，８４３，５６８（Ｋｒｕｅｇｅｒら）は、リアルタイムのコンピュータ事象を制御するために、人間の身体の画像を使用する装置及び方法を開示している。認知や特徴分析は、特殊回路及びコンピュータソフトウェアによって実行されて、認知に対する応答は、コンピュータによって制御可能な装置を使用して示される。参加者は、一般的に、動作と反応との間の処理遅延を認識していない。さらに、事象の認知は、人間又は動物での対処に類似する。認知及び応答は、密接に連結した動作と反応とともに、リアルタイムで発生する。

米国特許番号６，０４４，２２６（ＭｃＷｉｌｌｉａｍｓ）は、写真の対象者の注目を集中させるための装置及び方法を開示している。対象者の点は、ビームスプリッターによって写真の対象者に向かって反射されて、反射板によって画像領域に反射される。写真機器は、ビームスプリッターと画像領域の後ろに置かれる。対象者の点で画像を画像領域に反射することによって、写真の対象者の注目は望ましい場所に集中することになる。

米国特許番号６，０８４，９７９（Ｋａｎａｄａら）は、現実を仮想化する方法、つまり、実際の出来事の画像から、フォトリアリスティックな仮想現実を作製する方法を開示しており、複数の角度に配置された複数のカメラを使用して、実際の出来事の各時点の複数の画像を記録するステップを備える。各画像は、明暗度及び／又は色情報として保存される。これらの画像やカメラ角度に関する情報から適当な内部での表現が計算される。各時点の画像は、その内部での表現を使用して、任意の視角から生成することができる。仮想的視点は、単一のテレビ画面上に表示することができ、又は立体ディスプレイ装置を使用して真の３次元効果を得ることができる。このように仮想化された出来事は、任意の仮想現実システムを通してナビゲートされ、任意の仮想現実システムと相互作用することが可能である。

米国特許番号６，２７８，４６６（Ｃｈｅｎ）は、動画を作成するための装置及び方法を開示している。一連のビデオ画像が検査されて、一連のビデオ画像で描かれた場面の第１の変換を識別する。第１の画像と第２の画像は、ビデオ画像のシーケンスから取得される。第１の画像は第１の変換前の場面を表現し、第２の画像は第１の変換後の場面を表現する。第１の変換を示す情報が生成されて、この情報は、ビデオ画像のシーケンスの表示に近いビデオ効果を作成するように、第１の画像と第２の画像との間を補間するために使用可能である。

米国特許番号５，９９５，１１９（Ｃｏｓａｔｔｏら）は、フォトリアリスティックなキャラクターを生成するための方法を開示しており、個人の１つ以上の写真が、複数のパラメータ化された顔の部分に分解される。顔の部分はメモリに記憶される。動画化されたフレームを作成するために、個々の顔の部分は、規定の様態でメモリから呼び出されて、顔のベースに重ねられて、全体の顔を形成する。次に、それを動画化されたフレームを形成するために、背景画像に重ねることができる。

米国特許番号６，２５０，９２８（Ｐｏｇｇｉｏら）は、会話している顔の表示方法及び装置を開示している。当該方法及び装置は、入力テキストをオーディオビジュアルスピーチストリームに変換し、結果として、会話の顔画像がテキストを読み上げる。入力テキストをオーディオビジュアルスピーチストリームに変換するこの方法は、対象者の画像集合体を記録するステップと、視覚素の補間データベースを構築するステップと、会話の顔画像をテキストストリームに同期するステップとを備える。好ましい実施形態では、視覚素の移行は、光学フロー方法を使用して自動的に計算され、モーフィング技術が採用されて、スムーズな視覚素の移行をもたらす。視覚素の移行は、タイミング情報に従って、連結され、音素と同期化される。そして、オーディオビジュアルスピーチのストリームがリアルタイムで表示されるので、フォトリアリスティックな会話している顔が表示される。

米国特許番号６，２７２，２３１（Ｍａｕｒｅｒら）は、アバターの動画化のためのウェーブレットベースの顔の動きの捕捉を開示しており、装置での実施形態が示される。さらに、人の顔の動き、特徴及び特性等を感知し、顔の感知に基づいて、アバター画像を生成及び動画化する関連方法を開示している。アバター装置は、モデルグラフやバンチグラフに基づいて、画像特徴をジェットとして効果的に表現する画像処理技術を使用する。ジェットは、容易に識別可能な特徴に対応する画像上のノード又は目印の場所で処理されたウェーブレットの変換から構成される。ノードは、人の顔の動きに応じて、アバター画像を画像化するために取得及び追跡される。また、顔の感知は、ジェットの類似度を使用して、人の顔の特徴や特性を決定することができるので、人の自然な特徴を干渉又は阻害する場合がある人工的な要素がなく、人の自然な特徴をたどることができる。

米国特許番号６，３０１，３７０（Ｓｔｅｆｆｅｎｓら）は、ビデオ画像からの顔の認識を開示しており、画像フレームの物体を検出及び認識するための装置、及び関連方法での実施形態が示される。物体は、例えば、特定の顔の特徴を有する頭部にすることができる。物体識別や認識プロセスは、モデルグラフやバンチグラフに基づいて、画像特徴をジェットとして効果的に表現する画像処理技術を使用する。ジェットは、ウェーブレットの変換から構成され、容易に識別可能な特徴に対応する画像上のノード又は目印の場所で処理される。このシステムは、特に、広範囲の姿勢角度で人を認識する場合に利点がある。

米国特許番号６，１６３，３２２（ＬａＣｈａｐｅｌｌｅ）は、姿勢のデータベースを利用するリアルタイムの画像を提供して、合成身体部分を動画化するための方法及び装置を開示している。３Ｄ動画システム及び方法は、基本姿勢のデータベースを使用する。第１のステップでは、各フレームに対して、基本姿勢のデータベースからの基本姿勢の一次組み合わせが、重要点の変位の間のユークリッド距離を最小限にすることによって、取得される。変位情報は、外部から提供され、一般的に、現実世界の移動する物理的身体の部分上の物理的マーカーの変位を観察することによって、取得することが可能である。例えば、合成身体の部分は、人間の顔の表現にすることができ、変位データは、動作主の顔上に配置された物理的マーカーを観察することによって、取得される。次に、姿勢のデータベースの中の姿勢の線形結合を使用して、望ましい姿勢を作成する。姿勢は、各タイムフレームに対して作成されてから、動画を提供するために連続的に表示される。動画プロセスを実現するために、コンピュータのプロセッサに命令するプログラム要素を含むコンピュータ読取可能な記憶媒体も提供される。

米国特許番号６，１８１，３５１（Ｍｅｒｒｉｌｌら）は、動画化されたキャラクターの動く口を、記録された会話に同期させるための方法及び装置を開示している。会話するキャラクターの動画は、言語的に修正された音のファイルを作成及び再生することによって、記録された会話と同期される。サウンド編集ツールは、会話認識エンジンを採用して、記録された会話や会話のテキストから、言語的に修正されたサウンドファイルを作成する。会話認識エンジンは、単語の切れ目や音素に関するタイミング情報を提供し、この情報は、言語的に修正されたサウンドファイルの作成時に、サウンド編集ツールによって使用されて、会話のサウンドデータに注釈をつける。言語的に修正されたサウンドファイルが再生されてサウンド出力を生成すると、タイミング情報が呼び出されて、動画化されたキャラクターの口の動きや、キャラクターの吹き出しの単語の速度を制御する。サウンド編集ツールは、さらに、タイミング情報を操作するための編集機能を提供する。テキストから会話へのエンジンは、言語的に修正されたサウンドファイルの再生機能と同じプログラミングインターフェースを使用して、動画に注釈を送信することができるので、記録された会話を用いずにプロトタイピングを提供することができる。どちらも同じインターフェースを使用するので、記録された会話は、最小限の修正だけで後から組み入れることが可能である。

米国特許番号５，８７８，３９６（Ｈｅｎｔｏｎ）は、顔の動画における合成会話のための方法及び装置を開示しており、顔の画像は合成会話と同期される。視覚素画像を音と音のつながり部分（Ｄｉｐｈｏｎｅ）にマッピングするには、Ｄｉｐｈｏｎｅに関連付けられる画像は静止画像ではなく、唇、歯や舌の位置を用いて、関連のあるＤｉｐｈｏｎｅで発生する音の移行を動的に描写する一連の画像であるという点において、同じ「移行」が必要である。それぞれ一連の唇、歯や舌の位置の移行は、Ｈｅｎｔｏｎの特許では「Ｄｉｓｅｍｅ」と呼ばれる。Ｄｉｓｅｍｅは、したがって、（Ｄｉｐｈｏｎｅと同様に）、１つの視覚素（音）のどこかで開始して、次の視覚素（音）のどこかで終了する。唇、歯及び舌の位置の画像化間の共通性のために、音はＡｒｃｈｉｐｈｏｎｉｃ族にグループ化される。単一のＤｉｓｅｍｅは、１つのＡｒｃｈｉｐｈｏｎｉｃ族の音から異なるＡｒｃｈｉｐｈｏｎｉｃ族の別の音への移行を表すが、第１のＡｒｃｈｉｐｈｏｎｉｃ族の任意の音と、第２のＡｒｃｈｉｐｈｏｎｉｃ族の任意の音との間の移行を表示するために使用することが可能である。このようにして、一般的なアメリカ英語のおよそ１８００のＤｉｐｈｏｎｅは、ここでも、唇、歯及び舌の画像位置づけ間の類似性によって、比較的小さい数のＤｉｓｅｍｅによって視覚的に表すことが可能である。これによって、合成会話と顔の画像とがマッピングされ、実際の話し手画像の会話での変化する動きをより正確に反映する。

米国特許番号５，８７３，１９０（Ｔｒｏｗｅｒ，ＩＩら）は、インタラクティブなユーザインターフェースキャラクターの画像化のためのクライアントサーバ動画システムを開示しており、クライアントがインタラクティブなユーザインターフェースのキャラクターのために、動画や口合わせされた会話出力を再生できるサービスを提供する。サーバのプログラミングインターフェースを介して、クライアントは、クライアントが動作中に、インタラクティブなユーザインターフェースのキャラクターのインスタンスが反応する会話とカーソルデバイス入力の両方を指定することが可能である。また、クライアントは、このインターフェースを介して、動画と口を合わせた会話出力の再生を要求することも可能である。サービスはアプリケーションプログラムから、さらに、インターネットからダウンロードしたウェブページに組み込まれたウェブスクリプトから、起動可能である。

米国特許番号６，０６９，６３３（Ａｐｐａｒａｏら）は、多様なホストプラットフォームによく適合し、フレームバッファ表示領域の更新時に発生する描画の量を最小限にする、スプライトエンジン又は合成器を開示している。この発明は、ホストプラットフォームの、バック・ツー・フロントとフロント・ツー・バックの両方の描画アルゴリズムを実行する能力を利用し、使用されるアルゴリズムの選択は、スプライトが不透明又は透明であるかどうかに依存する。それぞれのスプライトは、それ自体を、スプライトエンジンに登録し、スプライトが全体的に不透明又は透明であるかどうか、スプライトの境界領域であるかどうか、及び、スプライトが描画に使用する機能を特定する。機能は、ホストプラットフォーム又はオペレーティングシステムから利用可能な描画ルーチンにすることができる。スプライトエンジンは、各スプライトのＺ位置を追跡し、各スプライトを確認して、スプライトが更新が必要な特定の領域に重なっているかどうかを決定する。四角で不透明であるスプライトは、ホストプラットフォームのフロント・ツー・バックの描画アルゴリズムを使用して、容易に描画することができる特殊なケースと考えられる。トップダウン方式では、Ｚ位置によって、不透明な全てのスプライトを描画することができる。他の全ての種類のスプライトは、バック・ツー・フロント方式で描画される。透明なスプライトがあると、スプライトエンジンは、ボトムアップ方式で残りのスプライトを検索して、透明なスプライトの下のＺ位置を有するスプライトを描画して、透明なスプライトを終了して、残りの領域においてバック・ツー・フロントアルゴリズムを使用する。

米国特許番号５，９３３，１５１（Ｊａｙａｎｔら）は、Ｎ−状態のマルコフ（Ｍａｒｋｏｖ）モデルを使用して、コンピュータ生成合成トーキングヘッドの自然な動きをシミュレーションするための方法を開示している。最初に、合成トーキングヘッドのＮ個の様々な位置方向を表現する、状態Ｎの数を設定する。トーキングヘッドの現在の可能な各位置から次の可能な各位置への移行は、ゼロから１の範囲の一連の移行の確率によって特定される。均一に分散された無作為な数が生成されて、無作為な数に関連付けられた移行確率によって特定された状態が、トーキングヘッドの次の位置を特定する。合成トーキングヘッドは、その次の位置に回転して、同様な方式で確率的に決定される、次の位置に移動するまで、一定期間そのままの位置にとどまる。現実的な頭部の動きをさらにシミュレーションするために、合成された頭部は、シミュレーションされた会話の文の最後で長時間、特定の状態又は位置にとどまるようにプログラムすることができる。

米国特許番号６，０９７，３８１及び６，２３２，９６５（Ｓｃｏｔｔら）は、人間の会話のリアルな動画を合成する方法及び装置を開示しており、コンピュータを使用して、選択された会話のシーケンスに一致するように、会話又は顔の動きを合成する。多様なシーケンスを話しているユーザの複数の画像を含め、任意のテキストシーケンスのビデオテープが取得される。特定の話された音素に対応するビデオ画像が取得される。ビデオフレームは、そのシーケンスからデジタル化されて、極端な口の動きや形状を表現する。これは、話された音素や二重母音に関連して異なる顔の位置の画像のデータベースを作成するために使用される。次に、ビデオシーケンスが一致する要素として、オーディオスピーチシーケンスが使用される。オーディオシーケンスは、分析されて、話された音素シーケンスや相対的タイミングを決定する。データベースは、これらの音素やこれらのタイミングのそれぞれに対する画像を取得するために使用されて、モーフィング技術は、画像の間の移行を作成するために使用される。画像の異なる部分は、さらに現実的な会話パターンを作成するように、様々な方式で処理することができる。６，２３２，９６５の特許は、ビデオシーケンスを一致する要素として、オーディオスピーチシーケンスを使用しており、話された音素シーケンスや関連のタイミングを決定するために分析される。

米国特許番号６，０７２，４９６（Ｇｕｅｎｔｅｒら）は、顔の表情やその他の画像化された物体の３Ｄ幾何学、色や影を捉えて表現するための方法及びシステムを開示している。本方法は、顔の３Ｄモデルを捉えるが、これは、３Ｄメッシュや一連のメッシュの変形を含み、時間の経過とともに（例えば各フレームに対して）メッシュの位置の変化を定める。また、本方法は、動画シーケンスの各フレームに関連付けられたテクスチャマップも構築する。本方法は、時間の経過とともに顔の動きを追跡して、３Ｄモデルとテクスチャとの間の関係を確立するために、動作主の顔にマーカーを使用することによって、顕著な利点を達成する。具体的には、マーカーを付けた動作主の顔のビデオは、複数のカメラに捉えられる。ステレオマッチングを使用して、各フレームのマーカーの３Ｄ位置を得る。また、３Ｄスキャンもマーカーを付けた動作主の顔で実施して、マーカーの最初のメッシュを作成する。３Ｄスキャンからのマーカーを、ステレオマッチングプロセスからの各フレームのマーカーの３Ｄ位置に一致させる。この方法では、マーカーの３Ｄの位置をフレーム間でマッチさせることによって、メッシュの位置が、フレームからフレームでどのように変化するかを決定する。方法では、ビデオデータからドットを削除して、テクスチャ空間とメッシュの３Ｄ空間の間のマッピングを見つけて、各フレームに対するカメラ表示を信号テクスチャマップに組み入れることによって、各フレームに対するテクスチャを得る。顔の動画表現に必要なデータは、１）初期３Ｄメッシュ、２）フレームあたりのメッシュの３Ｄ変形、及び３）各変形に関連付けられたテクスチャマップ、を含む。方法は、変形データを、基底ベクトルと係数に分解することによって、３Ｄ幾何学を圧縮する。本方法は、ビデオ圧縮を使用して、テクスチャを圧縮する。

米国特許番号５，７１９，９５１（Ｓｈａｃｋｌｅｔｏｎら）は、画像を処理する方法を開示しており、画像内で少なくとも１つの所定の特徴を検索するステップと、各特徴を示すデータを画像から抽出するステップと、Ｎ次元空間で特徴の画像データの位置を表す特徴ベクトルを各特徴に対して計算し、かかる空間は複数の参照ベクトルによって定義され、参照ベクトルのそれぞれは、同様な特徴のトレーニングセットの固有ベクトルで、各特徴の画像データは、各特徴の形状を標準化するために修正され、それによって特徴の所定の標準形状からの派生を減少させるステップとを含む。このステップは、対応する特徴ベクトルを計算する前に、実行される。

米国特許番号６，０４４，１６８（Ｔｕｃｅｒｙａｎら）は、特徴検出及び固有顔のコーディングを使用する、モデルベースの顔のコーディング及びデコーディングの方法を開示している。本方法は、３次元の顔のモデルと、固有顔の分解と呼ばれる技術を使用して、一端でビデオを分析する。顔の画像での顔の特徴の場所と固有顔のコーディングは、デコーダに送信される。デコーダは、受信側で顔の画像を合成する。固有顔のコーディングを使用して、検出された特徴の場所によってゆがめられた３次元モデルをテクスチャマッピングする。

米国特許番号６，０８８，０４０（Ｏｄａら）は、顔の画像を表現する複数の顔の表情の構成要素に対して、補間／補外することによって、顔の画像を変換する方法及び装置を開示している。入力／出力制御メカニズムは、複数の人間の異なる顔の表情の顔画像情報を受信して制御を提供するので、標準化処理メカニズムは顔画像情報を標準化する。顔表情生成メカニズムは、標準化された顔画像情報を顔の表情構成要素に変換して、各顔の表情に対して顔の表情構成要素を平均化して、平均顔表情構成要素として、これを保存する。入力／出力制御メカニズムは、適用された顔の画像情報が標準化された後、顔の表情生成メカニズムによって変換された顔の表情構成要素を有する。顔の表情生成メカニズムは、適用された顔の画像情報の顔表情に対応する平均顔表情構成要素と、特定の顔表情の平均顔表情構成要素との間の差に応じて、適用された顔の画像情報の顔の表情構成要素を変換する。合成顔画像情報は、変換された合成顔表情構成要素から生成される。

米国特許番号６，３０７，５７６（Ｒｏｓｅｎｆｅｌｄ）は、記録されたテキストの加重モーフィングターゲットや時間的に配列した音声転写を使用して、アニメキャラクター、特に３次元のアニメキャラクターの口合わせや顔の表情を自動的に動画化するための方法を開示している。この方法は、タイミングの合う音素及び／又はその他のタイミングの合うデータがあると、モーフィング加重セットのストリームを備えるシステム出力を決定する一連の規則を利用する。「驚き」、「嫌悪」、「困惑」、「臆病そうな笑い」等、タイミングの合う感情状態のデータ又はＥｍｏｔｅｍｅ等その他のデータは、モーフィング加重セットの出力ストリームに影響を与えるために、又は追加のストリームを作成するために、入力することができる。

米国特許番号６，０２８，９６０（Ｇｒａｆら）は、自動的な読唇とキャラクターの動画化のための顔の特徴分析方法を開示しており、これは、単独のフレームの顔の分析を使用して、例えば、目や鼻の位置等、複数の顔の特徴を生成することによって開始する。次に、小鼻の追跡ウィンドウが鼻候補の周囲に定義されて、皮膚の色の領域ピクセルと小鼻の領域のピクセルのパーセントに基づいて、その中のピクセルにテストが適用されて、鼻の候補が実際の鼻を表現するかどうかを決定する。実際の小鼻が特定されると、実際の小鼻の大きさ、分離や近接性が、小鼻追跡ウィンドウ内に小鼻のピクセルを投影することによって、決定される。口のウィンドウが口領域の周囲に表示されてから、口の詳細分析が口のウィンドウ内のピクセルに適用されて、口内部と歯のピクセルを定義して、そこから口内部の輪郭が生成される。小鼻の位置と口内部の輪郭は、合成モデル頭部を生成するために使用される。生成された口内部の輪郭と合成モデル頭部の輪郭との直接比較が行われて、これに応じて合成モデル頭部が調整される。処理の能率を高めるために、顔モデルのパターンのコードブックを開発するベクトル定量化アルゴリズムを使用することができる。顔の特徴分析は、鼻、照度の変化、頭部の傾き、縮尺の変動及び小鼻の形状に関係なく適している。

米国特許番号６，０６９，６３１（Ｔａｏら）は、帯域制限されたチャネルで合成トーキングヘッドビデオを送信するための、顔の動画化パラメータ（ＦＡＰ）のコード化の方法及び装置を開示している。ＦＡＰコード化技術は、知覚できるアーチファクトを再構成された合成のトーキングヘッドに導入することなく、帯域制限されたチャネルから、複数の合成のトーキングヘッドを送信できるように十分なコード化を実現する。これは、各ＦＡＰフレームの空間相関関係及び／又はＦＡＰフレームのシーケンスの一次的相関関係を利用することによって、達成される。フレーム内の相関関係を除去するために、ｎ次元空間からｍ次元部分空間にセグメント化する前に各ＦＡＰフレームが変換されるが、ｍ＜ｎの場合は、エネルギー圧縮変換を使用する。フレーム内の余剰を除去するために、シーケンスはセグメント化されて、各パラメータベクトルは、ベクトルの相関関係を無効にするように変換符号化される。

米国特許番号６，０６１，０７２（Ｒｏｕｅｔら）は、コンピュータの動画化された物体の実物そっくりなデジタル表現、特に、３次元物体の実物そっくりなデジタル表現を作成するための方法及び装置を開示している。アニメータが複数の動画化された物体を効果的に選択及び組み合わせて、新しい動画化された物体を生成するステップと手段が説明される。アニメータは、複数の物体形状を保存させることができる。保存量を最小限にするために、物体形状の全ては、基本物体との違いとしてだけ保存される。新しい物体を形成するには、アニメータは、データベースから望ましい特徴を備えたいくつかの物体を選択することができ、これらの物体を互いに融合して、選択された物体の組み合わせである特徴を備えた新しい物体を作成する。選択された物体が新しい物体に組み入れられる程度は、各選択された物体に加重を割り当てることによって、アニメータによって選択することができる。したがって、新しい物体は、選択された各物体と基本物体との間での差を加重により乗じたものの和である。顔の物体を動画化するための改善されたグラフィカルユーザインターフェースも導入される。

米国特許番号５，６８０，４８１（Ｐｒａｓａｄら）は、ニューラルネットワーク、音響及び視覚会話認識システムのための顔特徴抽出方法及び装置を開示している。顔の特徴抽出方法及び装置は、話し手の顔の前面表示の光度（グレースケール）における変動を使用する。ビデオ画像のシーケンスがサンプリングされて、スキャンラインの座標系とスキャンラインに沿ってピクセル位置を自然に形成する１５０ｘ１５０ピクセルの規則的配列に定量化される。左右の目の領域と口の位置は、ピクセルグレースケールを閾値化して、３つの領域の重心を見つけることによって位置づけられる。目の領域の重心につながるラインセグメントは、直角に二等分されて、対称軸を形成する。口領域の重心を通る直線は、対称線に直角で、口線の構成要素となる。口線と口領域近辺の対称軸に沿ったピクセルは、それぞれ、水平方向及び縦方向のグレースケールプロファイルを形成する。プロファイルは、特徴ベクトルとして使用することが可能であるが、視覚ベクトル構成要素として、上下の唇、口角や口領域の位置等の重要な生理学的な発話の特徴やピクセル値やピクセル値の時間導関数に対応するプロファイルの上と下（最大と最小）を選択するほうが効果的である。時間導関数は、ビデオ画像のフレームの間のピクセル位置や値の変化によって推算される。会話認識システムは、時間遅延ニューラルネットワークへの入力として、同時音響ベクトルとの組み合わせで、視覚特徴ベクトルを使用する。

米国特許番号５，６３０，０１７（Ｇａｓｐｅｒら）は、会話合成動画のための高度なツールを開示している。ランダムアクセス動画ユーザインターフェース環境は、ｉｎｔｅｒＦＡＣＥと呼ばれるが、これによって、ユーザは、ユーザプログラム及び製品で使用するためにパーソナルコンピュータを利用して、動画化された口を合わせた画像又は物体を作成及び制御できる。合成動作主（以下「ｓｙｎａｃｔｏｒ」）を提供するために、リアルタイムのランダムアクセスインターフェースドライバ（ＲＡＶＥ）が、記述的オーサリング言語（ＲＡＶＥＬ）とともに使用される。Ｓｙｎａｃｔｏｒは、実際又は想像上の人物又はアニメキャラクター、物体又は場面を表現することができる。Ｓｙｎａｃｔｏｒは、これまでに発生したイベントの連続的に保存済みでの記録でない会話を含めて、動作を実施するように作成及びプログラムすることができる。さらに、動画及び音の同期化は、自動的及びリアルタイムで作製することができる。実際又は想像上の人物又はアニメキャラクターの音や視覚画像は、それらの音に関連付けられてシステムに入力され、断片的画像及び音を作製するように、構成部分に分解することができる。特定のＳｙｎａｃｔｏｒの動きや音のデジタルモデルを画定するためには、一連の特徴が利用される。ランダムアクセスや、体系化されて音に同期されているＳｙｎａｃｔｏｒの画像をフレーム別に表示するためには、汎用目的のシステムが提供される。合成会話やデジタル記録のどちらも、Ｓｙｎａｃｔｏｒに会話を提供することができる。

米国特許番号４，７１０，８７３（Ｂｒｅｓｌｏｗら）は、デジタル画像をゲームグラフィックスに組み入れ、そしてゲームプレーヤー又はその他の構成要素の顔の画像を表現するデータを取得及び保存するため、及びゲームの全プレイ中を通して、ビデオゲームのディスプレイ上の所定の場所で、ビデオゲームグラフィックスと連携して、構成要素の画像を選択的に組み入れるための処理を含む、ビデオゲーム装置及び方法を開示している。ビデオゲーム装置によって制御される多様なゲームのプレイに従って、１人以上の人間の保存された画像は、ビデオグラフィックスによって生成される身体の頭部として、その他の生成されたグラフィックス表現の一部として、機能的ゲーム物体の表現として、又は制御可能なプレイ対象者として利用される。また、ビデオゲーム装置は、点数を表示するフォーマットで、ゲームプレーヤーの画像の表示も提供して、最高得点を取得しているこれまでのゲームプレーヤーのうち所定数のプレーヤーの画像が、ゲームの最初又は最後で表示される。

米国特許番号６，２０８，３５９（Ｙａｍａｍｏｔｏ）は、コンピュータの動画画像を介して通信するためのシステム及び方法を開示しており、通信中に生のキャラクターの動画シーケンスを生成する。演者の声や他の入力に反応して、キャラクターの動画シーケンスはリアルタイムベースで生成され、そして人間の会話に近いものとなる。アニメキャラクターは、幸福、怒り、驚きなど、一定の所定の感情を表すことができる。さらに、アニメキャラクターは、会話に伴うほぼ自然な動きをすることができる。

米国特許番号６，０１６，１４８（Ｋａｎｇら）は、顔のデジタル化画像のワイヤフレームへのマッピング方法を使用する、顔の画像の動画ワイヤフレームトポロジーへの自動化マッピングを開示しており、参照の顔画像の複数のピクセルから、複数の顔の特徴を検出するステップを含む。均一化されたトリミング済み画像が、画像登録ステップで比較される。ワイヤフレームは、線によってつなげられた複数のノードから構成される。ワイヤフレームトポロジーの対応する顔の目印ノードの対応が決定される。顔の特徴と目印ノード間の変形が計算されて、ワイヤフレームトポロジーを参照の顔画像にマッピングする。参照の顔画像と目標の顔画像は、境界ボックスを使用してトリミングされる。トリミングされた参照の顔画像は、変位フィールドを決定するために、トリミングされた目標の顔画像とともに登録される。変位フィールドは、参照の顔画像のためにマッピングされたワイヤフレームトポロジーに適用されて、目標の顔画像をワイヤフレームトポロジーにマッピングし、ノードは、目標の顔画像の凸部の顔特徴に合わせて配置される。

米国特許番号６，６１１，６１３（Ｋａｎｇら）は、話をしている人の目と顔の特徴を検出するための装置及び方法を開示している。入力画像又はビデオ画像の中の人間の顔の位置を検出するための装置及び方法が開示される。本装置は、入力の赤、青及び緑（ＲＧＢ）画像の中で、検出されるピクセルによって形成される領域の中の目の候補領域として、局所性とテクスチャ特徴を有する領域を決定するために強いグレー特徴を有するピクセルを検出するための目の位置検出手段を含む。また、モデルテンプレートを目の候補領域から抽出された２つの領域に一致させることによって検索テンプレートを作成し、及び検索テンプレートの領域内のピクセルの色度に対する確率距離と、検索テンプレートによって推算された左右の目、口、及び鼻の位置で演算された水平方向のエッジサイズとの和を正規化する値を使用することによって作成された検索テンプレートの中で最適検索テンプレートを決定するための顔の位置決定手段を含む。また、最適検索テンプレートによって最小境界三角形を形成し、目と顔の領域のように、規定値を上回るカウント値が配置される領域を出力するために、形状メモリに保存された、個別のピクセルのカウント値の中で、最小境界三角形領域に対応するカウント値を増加させ、及び最小境界三角形領域以外の領域に対応するカウント値を減少させるための抽出位置安定化手段を含む。本装置は、画像の中の話している人の目と顔を検出することができ、画像ノイズを許容する。

米国特許番号５，７７４，５９１（Ｂｌａｃｋら）は、連続画像の中の顔の表情と顔の表現を認識するための装置及び方法を開示している。連続画像を分析することによって、システムは、時間の経過とともに、人間の頭部及び顔の特徴を追跡する。システムは、２つの画像フレームの間の頭部と顔の両方の特徴の動きを記述する。これらの動きの記述は、システムによってさらに分析されて、顔の動きや表情を認識する。システムは、画像の動きのパラメータ化されたモデルを使用して、２つの画像間の動きを分析する。まず、連続画像の第１の画像が顔の領域と複数の顔の特徴領域にセグメント化される。連続画像の中の第１の画像と第２の画像のセグメント化された顔領域の間の動きを推算するモーションパラメータを復元するために、プラナモデルが使用される。第２の画像は、プラナモデルの推算されたモーションパラメータを使用して、第１の画像に関係する顔の特徴をモデル化するために、第１の画像に対してゆがめられ、又は移行される。モーションパラメータを復元するために、アフィンモデルと、湾曲のあるアフィンモデルが使用されて、セグメント化された顔の特徴領域と、ゆがめられた第２の画像との間の画像モーションを推算する。顔の特徴領域の復元されたモーションパラメータは、第１の画像とゆがめられた画像との間の顔の特徴の相対的動きを表す。第２の画像の顔領域は、顔領域の復元されたモーションパラメータを使用して追跡される。第２の画像の顔の特徴領域は、顔領域の復元されたモーションパラメータと、顔の特徴領域のパラメータの両方を使用して追跡される。２つの画像の間で発生している顔の表現を定める中間レベルの記述を得るために、顔と顔の特徴の動きを記述するパラメータは、フィルタ化される。これらの中間レベルの記述は、画像シーケンスで発生する顔の表情やジェスチャーを決定するために、時間の経過とともに評価される。

米国特許番号５，２８０，３５０（Ｔｒｅｗら）及び欧州特許申請番号ＥＰ４７４，３０７Ａ２（Ｔｒｅｗら）は、場面での移動物体、例えば、ビデオ電話アプリケーションの人の顔を追跡するための方法及び装置を開示しており、顔の初期テンプレートを形成するステップと、顔の輪郭を描くマスクを抽出するステップと、テンプレートを複数（例えば１６）のサブテンプレートに分割するステップと、テンプレートとの一致を見つけるために次のフレームを検索するステップと、サブテンプレートのそれぞれとの一致を見つけるために次のフレームを検索するステップと、テンプレートに対するそれぞれのサブテンプレートの移動を決定するステップと、アフィン変換係数を決定するために前記移動を使用するステップと、更新されたテンプレートと更新されたマスクを作成するためにアフィン変換を実施するステップと、を備える。

米国特許番号５，６８９，５７５（Ｓａｋｏら）は、テレビカメラ、コンピュータ及び顔の部分マスクの生成を使用して、顔部分での顔の表情や状態の画像を処理するための方法及び装置を開示している。顔の部分マスクユニットは、口領域の検出ユニット及び目の領域の検出ユニットの両方に、マスキングデータを提供する。口領域の検出ユニット、目領域の検出ユニット、及び指先検出ユニットは、パーソナルコンピュータへの出力で接続されて、各ユニットから受信されたデータの記号言語の信号内容を自動的に解釈する。

米国仮申請番号２００２／００１２４５４（Ｌｉｕら）は、汎用コンピュータに付随する安価なビデオカメラから取得された画像を使用し、３Ｄ顔モデルを作成するための技術を用いる、動画のための短時間でのコンピュータモデリングを開示している。ユーザの２枚の静止画像と、２つのビデオシーケンスが捉えられる。ユーザは、顔の特徴を５つ特定するように要求され、それがマスクを計算するため、及びフィッティング操作を実施するために使用される。静止画像の比較に基づいて、変形ベクトルが自然な顔のモデルに適用されて、３Ｄモデルを作成する。ビデオシーケンスは、テクスチャマップを作成するために使用される。テクスチャマップを作成するプロセスは、これまでに取得された３Ｄモデルを参照して、連続したビデオ画像でのポーズを決定する。

米国仮申請番号２００２／００２４５１９（Ｐａｒｋ）は、オーサリングツールを使用して、３次元キャラクターの動き、顔の表情、口合わせ、及び口に合わせた音声の合成をサポートする３Ｄ動画を作成するためのシステム及び方法を開示しており、キャラクターの顔の表情の情報、唇の形状及び動作を記憶するように適合されたメモリシステムと、テキスト情報及び／又はユーザからこれまでに記録された会話情報を受信して、入力されたテキスト情報及び／又はこれまでに記録された会話情報を対応する会話情報に変換するように適合された会話情報変換エンジンと、会話情報変換エンジンから出力された会話情報から音素情報を抽出して、メモリシステムから抽出された音素情報に対応する、キャラクターの顔の表情や唇の形状を生成するように適合された唇合成作成エンジンと、ユーザから動作の情報を受信して、メモリシステムからの動作情報に対応して、キャラクターの動作を生成するように適合された動画作成エンジンと、合成画像を画面に表示するために、口合わせ作成エンジンから生成されたキャラクターの顔の表情及び唇の形状と、動画作成エンジンから作成されたキャラクターの動作とを合成するように適合された合成エンジンと、を備える。メモリシステムは、キャラクターの動作情報を保存するように適合された動作ライブラリと、キャラクターの顔の表情と唇の形状を保存するように適合された顔の表情ライブラリと、キャラクターの背景場面に関する情報を保存するように適合された背景場面ライブラリと、サウンド情報を保存するように適合されたサウンドライブラリとを含むことができる。

米国仮申請番号２００２／００３９０９８（Ｈｉｒｏｔａ）は、ニュース情報を発信するための第１のコンピュータ又は通信装置と、第１のコンピュータ又は通信システムと通信するニュース情報を受信するための第２のコンピュータ又は通信装置と、受信したニュース情報の内容を出力するための音声出力手段と、音声の出力に合わせて話をする人を模倣する動画を表示するための表示手段とを含む、情報処理システムを開示している。第１のコンピュータ又は通信装置は、受信したニュース情報の内容に基づいてニュース情報の内容を所定の順序で音声として出力し、第２のコンピュータ又は通信装置は、音声出力に合わせて、話をする人を模倣する動画を表示する。

日本の特許番号ＪＰ４０６１２９８３４Ａ（Ｋａｊｉｗａｒａら）は、人の特徴を自動的に決定するためのシステムを開示しており、それは、人の顔の写真画像をデジタル化し、ニューラルネットワークによって、画像の制御部分にこれまでに登録された複数の特徴のタイプの中でどの特徴タイプがマッチするかを判別することにより達成される。目、鼻、口、眉毛、大きさなどの顔の特徴、及びこれら特徴の間の距離が使用される。

１つの画面上で同時に２つ以上の画像を表示するための様々な装置や方法、及び混合、組み合わせ、重ね合わせ、融合及び統合装置や方法が開示されてきた。しかしながら、どの方法や装置も、前述の必要性を十分満たさない。

米国特許番号５，５８３，５３６（Ｃａｈｉｌｌ，ＩＩＩ）は、アナログビデオ統合及びキー検出のための方法及び装置が開示されており、モノクロやカラーのビデオミキサが、オーバーレイ画像をデフォルト画像に混合して、コンピュータ画面に表示される複合画像を形成する。モノクロビデオのミキサは、複合信号を生成するために、オーバーレイ信号とデフォルト信号を加算するための加算回路を含む。オーバーレイ信号はオーバーレイ画像に対応して、デフォルト信号はデフォルト画像に対応する。また、複合信号は複合画像に対応する。ビデオミキサは、コンパレータを含み、合成信号を受信するための第１の入力と、オーバーレイ信号を受信するための第２の入力を有する。コンパレータは、第１の入力で測定された信号レベルを、第２の入力で測定された信号レベルと比較する。比較に対応して、コンパレータは、デフォルトのキーカラー信号が存在すると、有効信号を提供する。有効信号に対応して、ビデオミキサの有効回路は、オーバーレイ信号を加算回路に提供する。第１の入力信号レベルが第２の入力信号レベルに等しいこと、あるいは、第１の入力信号レベルが第２の入力信号レベル未満であることを有効信号が示した時に、有効回路はオーバーレイ信号を加算回路に提供する。カラービデオミキサは、いくつかの上記のモノクロビデオミキサを含み、各モノクロビデオミキサは、表示装置のカラー電子銃に個別の出力を提供する。各ミキサからのオーバーレイ信号は、全ての（全てのモノクロミキサに対する）コンパレータが有効信号を提供する場合にのみ、（ミキサ加算回路を介して）それぞれのカラー電子銃に渡される。

米国特許番号５，５６６，２５１（Ｈａｎｎａら）は、複数の個別のビデオ信号源から提供された前景と背景のビデオ画像データを統合することによって、合成ビデオ画像を得るための技術を開示しており、この目的のために、先行技術のカラーキー挿入ではなく、パターンキー挿入を採用する。パターンキー挿入には、ビデオ画面の第１のパターンを第２のパターンで置換するステップが関与する。これはまず、ビデオ場面の第１のパターンを検出してから、ビデオ画面の参照物体に対してこの検出されたパターンのポーズを推算することによって実現される。次に、検出された第１のパターンのポーズ推算を使用して、第２のパターンが変換される。最後に、検出された第１のパターンは、幾何学的に変換された第２のパターンで置換される。

米国特許番号６，０７２，９３３（Ｇｒｅｅｎ）は、ビデオ信号を作成するためのシステムを開示しており、事前に記録される記憶媒体から記録済みのビデオ及びオーディオ信号を再生するための再生装置と、ユーザによって提供されたビデオやオーディオ信号源と、事前に記録される信号及びユーザによって提供された信号を組み合わせるためのビデオ及びオーディオミキサと、混合された信号をユーザに表示するためにミキサに接続された作成モニタと、ミキサから混合されたビデオ信号出力を受信する保管又は再製作装置とを含む。事前に記録される記憶媒体は、ビデオチャネル及び少なくとも１つのオーディオチャネルと同様に、少なくとも１つのプロンプトチャネル、ビデオ信号を保存する。このビデオ信号は、ユーザによって提供されるビデオ信号によって、ミキサ内で重ね合わされる領域を示すために、予めキー付けされている事前記録媒体に保存されている。ミキサは、プロンプトチャネルから生産管理信号に変換するように操作可能である。

米国特許番号５，９７７，９３３（Ｗｉｃｈｅｒら）は、単一の信号フレームバッファから、内蔵フラットパネル（ＬＣＤタイプ）ディスプレイ、個別の外部ＣＲＴディスプレイ、又はＮＴＳＣ／ＰＡＬテレビモニタに対しての、携帯用コンピュータドライブ用ディスプレイ制御システムを開示している。同一又は様々な画像のいずれかを、ＣＲＴディスプレイ又はテレビ及びフラットパネルディスプレイ上に同時に表示することができる。様々な画像を同時に表示すること及び同一の画像を同時に表示することができるように、各ディスプレイには独立のクロックが提供される。画面制御システムは、内部プログラム制御の手段によって、広範囲のＣＲＴディスプレイ及びフラットパネルディスプレイでの使用に適する。

米国特許番号６，２７１，８２６（Ｐｏｌら）は、グラフィックス信号とビデオ信号を混合するための方法及び装置を開示している。

米国特許番号４，７１３，６９５（Ｍａｃｈｅｂｏｕｅｆ）は、定められたピークからピークまでの振幅を有する２つの入力画像信号を受信する２つの可変増幅率の増幅回路を含むビデオミキサと、増幅画像信号を得られる画像信号に混合するための追加の回路とを備えるテレビ画像のスーパーインポーズシステムを開示している。テレビ画像スーパーインポーズシステムは、２つの入力画像信号から得られた２つの信号の線形結合それぞれに基づいて、単一の増幅率制御信号を得るための回路を提供する改良を有するため、得られる信号は、定められたピークからピークまでの増幅を有する。制御信号はそれぞれ、アナログ変換回路を経由して、直接、可変増幅率の増幅回路の増幅率制御入力に適用される。

米国特許番号５，７５１，５７６（Ｍｏｎｓｏｎ）は、動画化された地図表示を開示しており、コンピュータ制御農学システムの任意の基本的又は応用地図からの情報、さらには、地理的又は環境的特徴、物理的構造、センサー信号、ステータス情報及びその他のデータを、製品適用車両のウィンドシールドから、操作者に表示可能な現実世界の地形及び環境の上に重ね合わされたヘッドアップディスプレイ（ＨＵＤ）を使用して投影される２次元又は３次元表現に置き換える。動画化された地図の表示は、現実世界の地形又は環境に空間的に対応する３次元画像として設定された特定の地図に関連する情報、及び操作、センサー又はその他のデータ入力に関連する英数字、写真、符号、色、又はテキスト索引を表現することができる。操作者は、データベース又は農学システムに相互作用的に情報、関係又はデータを入力するために、動画化された地図表示にグラフ的に連結された入力インターフェースを使用することができる。

米国特許番号６，１６６，７４４（Ｊａｓｚｌｉｃｓら）は、仮想画像を現実世界の画像と組み合わせるためのシステムを開示している。範囲スキャナが、装置を使用して、観察者に関心のあるフィールド内の現実世界の物体の形状や距離を決定する。現実世界の物体の簡易化されたコンピュータモデルである仮想マスキング物体は、範囲データから得られる。現実世界に存在しない仮想の存在物は、電子コンピュータでシミュレーションされる。仮想の存在物の画像や仮想マスキング物体が組み合わされて、マスクされた仮想画像が作成される。マスクされた仮想画像は、現実世界に実際に存在する場合に、目に見えるであろう仮想的な存在物の部分を示す。マスクされた仮想画像や現実世界の場面の画像は、シミュレーションが適切な場合、現実世界の物体によって仮想の場所が不明瞭に見えるようにして、組み合わされる。組み合わせて得られる画像は、電子又は光学画面に表示される。

米国特許番号６，２６２，７４６（Ｃｏｌｌｉｎｓ）は、透明及び不透明なピクセルを有する画像の表示及び保存のためのシステムを開示しており、画像は、不透明なピクセルの値を表現するデータとして保存されて、保存された命令はいくつかのピクセルに対応して、データ構造が生まれる。画像は、２つのタイプの命令を実行することによって表示することができる。第１のタイプの命令は、目的の画像内のピクセルをスキップするコマンドを含む。第２のタイプの命令は、ソースデータから目的の画像にピクセルをコピーするコマンドを含む。

米国特許番号６，３５６，３１３（Ｃｈａｍｐｉｏｎら）は、ディスプレイ上で動画ビデオ信号をアナログ信号に重ね合わせるためのシステムを開示している。本システムは、動画ビデオ信号を受信してアナログビデオフォオーマットを有する信号に処理するための動画ビデオ処理ユニットと、アナログ信号に同期された出力動画ビデオ信号を提供するように、アナログ信号を受信し、ビデオタイミングパラメータとアナログ信号の対応するオリジナルピクセルクロックを決定し、ビデオフォーマットアナライザ及びシンクロナイザーによって決定されたアナログ信号のビデオタイミングパラメータに一致するように、動画ビデオ信号のビデオタイミングパラメータを制御するためのビデオフォーマットアナライザ及びシンクロナイザーと、アナログ出力信号又はディスプレイ上の同期された出力動画ビデオ信号の表示を決定するための表示決定装置とを含む。

米国特許番号６，２２９，５５０（Ｇｌｏｕｄｅｍａｎｓら）は、グラフィックを混合するためのシステムを開示しており、グラフィック及びビデオは、混合係数を使用してグラフィックやビデオ内の対応するピクセルの相対的透明度を制御することによって、混合される。

米国特許番号６，１６３，３０９（Ｗｅｉｎｅｒｔ）は、ヘッドアップディスプレイ及び視覚システム、又は車両に関する景色の統合されたビデオ画像を作成するための車両画像化システムを開示している。

米国特許番号５，９５６，１８０（Ｂａｓｓら）は、観察者から第１の所定の距離で第１の２次元画面を第１の電子画面装置で表示するための第１の画面と、観察者から第２の所定の距離で第２の電子画面装置上で第２の２次元画像を表示するための第２の画面とを備える複数の画像画面を作成するための光学表示システムを開示している。各画面は、観察者から相対的に近距離及び遠距離の光学表示経路上の様々な所定の場所に配置される。第１の２次元画像は第２の画面から投影されて、複数の重なった画像を作成する。第１及び第２の電子表示装置は、複数の重なった画像の品質を低下することなく、非同期的に操作可能である。観察者に近い所定の場所での光学表示経路に配置された画面は部分的に透明である。

米国特許番号５，５８９，９８０（Ｂａｓｓら）は、シミュレーションされた３次元画像を作製するための光学表示システムを開示している。本システムは、第１の電子表示装置上に画像を表示するための電子機器を含む。少なくとも１つの第２の表示装置上に画像を表示するために、追加の電子機器が提供される。少なくとも１つの第２の電子表示装置は、実質的に透明な表示装置であるので、観察者は、第２の電子表示装置の透明領域を見通すことができる。第１と第２の電子表示装置は、第１の電子表示装置の画像表示が第２の電子表示装置を介して投影されるように、光学表示経路に沿った様々な所定の場所に配置される。第１の電子表示装置は、画像プロジェクタを含み、第２の電子表示装置は、そこから離れた制御可能なピクセル画面を含む。制御可能なピクセル画面は、明度を制御可能なピクセル要素のフィールドを有する正のピクセル表示パネルを備える。制御可能なピクセル画面は、制御可能なピクセル画面によって作成される画像が、画像プロジェクタによって作成される画像の上に重ねられるように、実質的に透明である。３次元場面をシミュレーションするための複数の画像を作製するために、少なくとも２つの画像レコーダチャネルを含む記録システムも開示されている。

米国特許番号５，９８２，４５２（Ｇｒｅｇｓｏｎら）は、Ｎ個のビデオカメラからＮ個のビデオ信号を統合するためのアナログビデオ統合システム、より詳しくは、複数のビデオカメラの出力を得ることができて、単一のフレーム取り込み器カードだけを有するコンピュータにフィード可能な、統合ビデオ信号を形成することができるシステムを開示している。このシステムは、複数のビデオカメラを用いて目標を追跡するために使用され、Ｎ個のビデオカメラからＮ個のビデオ信号を統合するためのアナログビデオ統合装置で構成されている。本装置は、Ｎ個のビデオプロセッサを備え、Ｎ個のプロセッサのそれぞれが、１対１の対応でＮ個のビデオカメラに接続されていて、Ｎ個のビデオプロセッサのそれぞれは、Ｎ個のビデオカメラのうちの１つに関連付けられたビデオ信号を、動的な所定の閾値レベルと比較して、低レベルと高レベルを有するバイナリ出力信号を作成するが、関連付けられたビデオ信号が所定の閾値を下回る場合に高レベルが出力され、関連付けられたビデオ信号が所定の閾値を上回る場合に高レベルが出力される。Ｎ個のバイナリ結合器が提供され、それぞれは１対１の対応でＮ個のビデオプロセッサに接続される。それぞれの結合器は、低レベル及び高レベルを有する処理済みバイナリ信号を作成するが、低レベルは、関連付けられたビデオプロセッサから低レベルの出力がある場合に出力され、高レベルは、関連付けられたビデオプロセッサから高レベルがある場合に出力される。処理されたバイナリ信号の高レベルは、その特定のバイナリの結合器に対する固有のレベルで、このような固有の高レベルは、Ｎ個のビデオカメラに関連付けられたＮ個のバイナリ結合器から出力される。カメラＮの処理済みバイナリ信号は、その他のカメラ信号に対して、２^N-1の倍率で縮小拡大される。統合ビデオ信号を作成するために、Ｎ個のバイナリ結合器からのＮ個の処理済みバイナリ信号を加算するための加算ユニットが提供される。統合ビデオ信号を提供する方法も提供される。

米国特許番号５，５１９，４５０（Ｕｒｂａｎｕｓら）は、メインビデオ画像上にグラフィックスのサブディスプレイを重ね合わせるためのグラフィックスサブシステムを開示しており、字幕、画面上ディスプレイ及びビデオ画像に重ね合わされるその他のグラフィックス画像のためのグラフィックスディスプレイサブシステムを有する、ＳＬＭベースのデジタルディスプレイシステムを示す。グラフィックスディスプレイサブシステムは、グラフィックスデータを準備するグラフィックスプロセッサを有し、当該データは、ビデオデータ処理の後で、参照テーブルユニットの前にビデオデータ経路に挿入される。選択ロジックユニットは、制御信号をマルチプレクサに提供して、当該マルチプレクサは、参照テーブルユニットに入力するためのビデオデータとグラフィックスデータのどちらかを選択する。参照テーブルユニットは、ビデオデータを線形化又はグラフィックスデータパレット化する等によって、受信したデータのタイプに応じてマッピングを実施する。

米国特許番号４，２６２，３０２（Ｓｅｘｔｏｎ）は、モノリシック構造のマイクロプロセッサ、多用途入力／出力サブシステム、マルチメディア機能を有するデジタルコンピュータシステムを開示している。メモリサブシステムには、パフォーマンスを低下させずにコストを最小にするために、動的ＲＡＭ、Ｐチャネル、ＭＯＳＲＯＭ及びＮチャネルＭＯＳＲＯＭのバランスのとれた組み合わせが含まれる。ビデオディスプレイサブシステムでは、モノリシックビデオディスプレイプロセッサが、合成ビデオの生成に加えて、全てのＲＡＭアクセス機能を実行する。得られる合成ビデオ信号は、オーディオと外部のビデオ情報を含み得るが、ビデオモニタに直接適用し、又はテレビの受信機によって使用するためにＲＦ変調することができる。

米国特許番号４，２６２，９８４（Ａｃｋｌｅｙら）は、モノリシック構造のマイクロプロセッサ、多用途入力／出力サブシステム、マルチメディアメモリサブシステム、及びオーディオ生成能を有するビデオディスプレイサブシステムを開示している。メモリサブシステムでは、動的ＲＡＭ、ＰチャネルＭＯＳＲＯＭ及びＮチャネルＭＯＳＲＯＭがバランスよく組み合わされる。ビデオディスプレイサブシステムでは、モノリシックビデオ表示プロセッサが、合成ビデオの生成に加えて、全てのＲＡＭアクセス機能を実行する。得られる合成ビデオ信号は、オーディオと外部のビデオ情報を含み、ビデオモニタに直接適用し、又はテレビの受信機によって使用するためにＲＦ変調することができる。

米国特許番号５，５７９，０２８（Ｔａｋｅｙａ）は、再生ビデオ信号をグラフィックスビデオ信号と混合するための装置を開示している。再生ビデオ信号は、記録媒体を再生することによって得られ、グラフィックスビデオ信号は、データ処理に基づいて得られる。画像データに基づいて再生されたビデオ選択信号は遅延するが、遅延時間は調整可能である。テスト用に画像データを発行することによって、遅延時間は、テスト用の画像がグラフィックスビデオ信号に変換されて発行される時間に、テスト用の画像データとに基づいて、ビデオ画像選択信号が生成される時間と一致するように、手動又は自動で調整される。

米国特許番号５，４８７，１４５（Ｍａｒｓｈら）は、固定された描画領域を最小にする、表示項目を合成するための方法及び装置を開示している。別の画像の上に浮動している画像が移動又は操作されて、奥にあるグラフィック画像のピクセルを見えるようにする場合、合成アーキテクチャは、別のグラフィック画像の下にあるグラフィック画像の一部に対応するデータのバッファリングを提供することよって、それぞれのグラフィック画像の重なり合っている不透明及び半透明な領域を正しく描画するために、急速なピクセル修復を提供する。グラフィック画像を表現するデータは、グラフィック画像の不透明度と奥行きの順序の決定に応答して、ペインタに選択的にルーティングされる。異なる長さの描画パイプラインを有する複数のペインタが提供されることが好ましい。ペインタは、合成される画像の数に応じて選択される。データバッファリングは、グラフィック画像の交差領域に応じて、バッファを動的に作成及び削除することによって最小にされる。

米国特許番号５，４１６，５９７（Ｎｉｓｈｉら）は、ビデオ表示ユニットの画面上にマルチカラーの動画パターンを表示するビデオ制御システムを開示している。ビデオ表示制御システムは、主にビデオＲＡＭ（ＶＲＡＭ）とビデオ表示プロセッサ（ＶＤＰ）によって構築される。ＶＲＡＭは、動画パターンデータ、表示位置データ及び少なくとも２つのカラーデータを記憶する。ＶＤＰは、これらのデータを読み取って、画面上の表示位置で動画パターン画像を少なくとも２色で表示させる。動画パターン画像、２つの色及び表示位置は、動画パターンデータ、２つのカラーデータ及び表示位置データによって決定される。別のビデオ表示制御システムでは、ＶＲＡＭは、少なくとも２つのセットの動画パターンデータ、表示位置データ及びカラーデータを記憶する。２つの動画パターンを表示する場合、ＶＤＰは、２つのパターンの重なり合う位置に関して、２つのカラーデータ上で論理的演算を実施して、重なり合う部分を演算結果に対応する新しい色で表示させる。動画パターンが重なり合う場合、ＶＤＰは、論理演算の代わりに衝突信号を提供することもできるので、ＣＰＵは、重なり合う部分の位置を認識することができる。

米国特許番号５，８９２，５４１（Ｂｌｏｓｓｏｍら）は、複数の層になったグラフィックスプライトのディスプレイフレームを作成するためのシステム及び方法を開示しており、複数の表示フレームピクセルを備える表示フレームを表示するためのグラフィックスディスプレイ装置を含む。スプライト管理システムは、複数のグラフィックスプライトからディスプレイフレームを構成する。各グラフィックスプライトは、複数のピクセルと対応するスプライトピクセル値を含む。各スプライトは、特定された他のスプライトに対しての相対奥行きを有する。スプライトのうち１つは、ビデオスプライトであるように指定される。このスプライトは、彩度キー値が与えられる。スプライト管理システムは、ディスプレイフレーム合成バッファにアクセスするように接続されたデータ処理装置を含む。データ処理装置は、個別のスプライトのピクセル値をディスプレイフレーム合成バッファに書き込むようにプログラムされている。この書き込みは、最も奥にあるスプライトのピクセル値から開始して、スプライトの奥行きが浅くなる順番で残りのスプライトのピクセル値を書き込んで行く。次に、ディスプレイフレームデータは、彩度キー値を含むピクセル上にビデオ画像を重ね合わせるビデオオーバーレイボードに渡される。この結果、ディスプレイフレームには、ビデオスプライトを含む複数のグラフィックスプライトが、それぞれに指定された奥行きに応じて互いに層になって表示される。

米国特許番号６，３６２，８５０（Ａｌｓｉｎｇら）は、表示画面を含むデジタル画像化装置で、静止画像から動画を対話形式で作成するための方法及びシステムを開示しており、カメラをパンして静止画像全体を撮影する経路を決定するステップと、パンする経路に沿って画像フレームを生成するステップと、そして動画を再生するために、表示画面上で所定の間隔で画像フレームを表示するステップとを含む。

米国特許番号５，４０４，４３７（Ｎｇｕｙｅｎ）及び欧州申請番号ＥＰ５９７６１６Ａ１（Ｎｇｕｙｅｎ）は、コンピュータ表示画面上に表現するためのコンピュータグラフィックス情報と動画シーケンスを混合するための装置と方法を開示している。動画シーケンスは、標準の記憶媒体に圧縮形式で保存することができる。動画シーケンス生成機能は、圧縮された動画シーケンスを呼び出して、ピクセル情報に解凍して、コンピュータグラフィックスピクセル情報と同期させるために単一のラインストアに送信する。動画シーケンス及びコンピュータグラフィックス生成機能からのピクセルは混合されて、ウィンドウ化されて、デジタルミキサで重ねられる。デジタルミキサの出力は、コンピュータ表示モニタを動かすビデオのデジタル・アナログ変換器等の視覚表示システムに送信される。

米国特許番号２，７１１，６６７（Ｓｉｍｊｉａｎ）は、動画カメラ、テレビカメラ又は同様な装置の前でポーズをとる人に対するプロンプト装置を開示しており、視覚的プロンプト情報は、ポーズをとっている人に対して表示されるが、描画された情報はオーディオビジュアル記録装置等には表示されない。

様々な画像配置並びに登録方法及び装置が開示されている。しかしながら、どの方法及び装置も、前述の必要性を十分満たさない。

米国特許番号６，００９，２１２（Ｍｉｌｌｅｒら）は、距離測定を使用して、目印の集合体に基づいて第１の変換を演算することと、距離測定と第１の変換から第２の変換を計算することを要件とする画像登録のための装置及び方法を開示している。画像登録は、第２の変換を適用することによって達成される。

米国特許番号６，１５７，７４７（Ｓｚｅｌｉｓｋｉら）は、モザイク画像を作成するために複数の画像を配列する、画像モザイクを作成するための３次元画像回転の方法及び装置を開示している。

米国特許番号５，９２６，１９０（Ｔｕｒｋｏｗｓｋｉら）は、対話式コンピュータアプリケーションで動作をシミュレーションするためのシステム及び方法を開示しており、特定の視点から画面の表示を描画するために、場面の画像が使用される。本方法とシステムは、第１の画像と第２の画像を描画するステップを含み、第１と第２両方の画像の共通特徴を重ねる変換を使用する。２つの画像が登録された後、第１の補間変換を第１の画像に適用して、第２の補間変換を第２の画像に適用することによって、少なくとも１つの中間画像が生成される。次に、場面で動作をシミュレーションするために、第１の画像、中間画像及び第２の画像が連続して描画される。

米国特許番号６，３１４，１９７（Ｊａｉｎら）は、特に指紋画像で、それぞれの画像から抽出された点である１組の対応する点に関連付けられたセグメントの属性に基づいて、場面の２つの画像の間で配置パラメータ（回転角や変換ベクトル）を決定するためのシステム及び方法を開示している。

米国特許番号６，３４９，１５３（Ｔｅｏ）は、重なり合うピクセル領域で重なり合っている２つのデジタル画像を合成するための方法及びシステムを開示しており、少なくとも１つの修正されたデジタル画像を含む最終デジタル画像を作成するように、デジタル画像のうちの少なくとも１つのデジタル画像のピクセルカラー値を調整するステップと、ピクセルカラー値の加重平均を計算することによって、重なり合っているピクセル領域で結果として得たデジタル画像を組み合わせるステップとを含む。また、重なり合うピクセル領域で重なり合っている２つのデジタル画像の境界をぼかすための方法も説明されていて、およそ重なり合うピクセル領域に登録するようにデジタル画像を配置するステップと、３つの曲線であって、そのうちの１つは最も左の曲線で、もう１つは中間の曲線で、もう１つは最も右の曲線で、そのうちの少なくとも１つは垂直線ではなく、曲線は、重なり合うピクセル領域の上から下に伸びて重なり合うピクセル領域内にあり、中間の曲線は最も左と最も右の曲線の間にある３つの曲線を決定するステップと、使用される加重は、最も左の曲線の左に対して画像Ａの５０％を超える値で画像Ｂの５０％未満の値で、中間の曲線に沿って画像Ａの５０％で画像Ｂの５０％で、最も右の曲線の右に対して画像Ａの５０％未満の値で画像Ｂの５０％を超える値であるようにピクセルカラー値の加重平均を計算することによって、デジタル画像を組み合わせるステップとを含む。本方法を実行するためのシステムも説明される。

米国特許番号６，２０５，３６４（Ｌｉｃｈｔｅｎｓｔｅｉｎら）は、（ａ）加工対象者物上の少なくとも２つの重要な参照点の基準場所を加工対象者物の座標として決定する、（ｂ）加工対象者物を処理機械にロードする、（ｃ）組み込まれたら、処理機械の座標として、加工対象者物上の参照点の実際の場所を検出し、測定する、（ｄ）参照点の基準場所の加工対象者物の座標を参照点の実際の場所の処理機械座標に変換するために必要とされる少なくとも１つの幾何学的変換を決定する、（ｅ）決定された幾何学的変換に応じて処理機械を制御する、ことによって、加工対象者物上で処理操作を実施する処理機械を制御するための方法及び装置を開示している。

米国特許番号６，３６２，７９７（Ｄｅｈｍｌｏｗ）は、表示操作中に位置がずれてしまう、タイル張りの投影表示装置の部分を位置合わせするための装置及び方法を開示しており、表示セクションのうちの１つの投影経路に少なくとも１つの２次元の電子機械的にジンバルされたガラス板を補間するステップと、タイルの位置のずれを検出してそれに応答して配置を自動的に調整するステップとを含み、さらに、表示が使用される航空機の操作特徴に基づいて、タイルの位置合わせをするための装置とステップを有する。

米国特許番号５，８３５，１９４と５，９５９，７１８（Ｍｏｒｔｏｎ）は、それぞれ、一体化した画像の位置合わせと、印刷をするための装置及び方法を開示している。

前述の理由のために、ユーザが、ニュースキャスターなどのトーキングヘッドのフォトリアリスティックな動画画像を迅速、容易、かつ簡単に生成することができる、自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法に対する必要性が存在する。自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法は、個人の個性を伝え、会話の重要点を強調するとともに、感情的内容を追加するために必要なフォトリアリスティックな品質を有する画像を生み出し、動画化されたフォトリアリスティックな画像を明瞭かつ明確に表示するとともに、口合わせも高品質で、ほとんどの現在のネットワーク及び／又はインターネット上で一般的に利用可能な帯域幅よりも少ない帯域幅しか必要としないものでなくてはならない。

自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法は、任意選択により、実際の人間を撮影したデジタルビデオテープの映像から、コンピュータベースの二次元画像のライブラリを作成することもできなければならない。ユーザは、規則的な頭部の動きについてテンプレートを提供するために、パーソナルコンピュータソフトウェアを用いて混合され、コンピュータモニタ又はその他の適当な装置に表示される３Ｄ描画ガイド画像又はテンプレートのライブラリを操作することができなければならない。対象者又はニュースキャスターは、正しい姿勢配置を維持すると同時に、一連の顔の表情、まばたき、眉毛の動きを完成させ、目標の音素又は口の形を含んだ語句を話すためにガイドを使用することができなければならない。この行動は、任意選択により、高解像度デジタルビデオテープ上に連続して記録することができなければならない。ユーザは、任意選択により、各コマが対象者の参照ソースビデオフレームに相当する異なる頭部の位置の配置、顔の表情及び口の形状を含む選択された個別のビデオフレームを使用し、画像編集ソフトウェアによって、トーキングヘッドのライブラリを組み立てることができなければならない。自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法によって生成される出力は、実際のビデオを使用する代わりに、パーソナルコンピュータ、ＰＤＡ又は携帯電話上の多様な用途及び表示に使用することができなければならない。自分でできるフォトリアリスティックなトーキングヘッドの作成システムは、任意選択により、スクリプトコマンドからトーキングヘッドの表示を作成することもできなければならない。

自分でできるフォトリアリスティックなトーキングヘッドの作成システム及び方法は、携帯端末及び携帯無線端末で使用することができなければならない。これらの携帯端末及び携帯無線端末には、デジタル通信端末、電子手帳、携帯電話、ノート型コンピュータ、ビデオ電話、ビデオカメラ及びビデオ画面付きデジタル通信端末、並びにその他適当な装置が含まれる。

対象者は、ビデオカメラ等の装置で自分自身の画像を捉え、装置のビデオディスプレイ上で捉えた画像の生ビデオを表示することができなければならない。

このような携帯端末及び／又は携帯無線端末は、有線又は無線接続を経由してパーソナルコンピュータに、及び／又はリアルタイムビデオストリーミング及び／又は適当な信号の送信をサポートする十分な帯域幅のネットワークを経由してリモートサーバに接続することができなければならない。一般的なネットワークは、携帯電話ネットワークや、インターネット、グローバルネットワーク、広域ネットワーク、都市圏ネットワーク又はローカルエリアネットワーク等の分散ネットワーク、及びその他適当なネットワークを含む。

ソフトウェアアプリケーション及び／又はハードウェアは、このような装置、コンピュータ及び／又はリモートサーバ内に存在することができ、対象者の収集画像と配置テンプレートとの合成信号を分析して、ガイド画像に対する配置の正確性を決定しなければならない。

本発明は、ユーザが、ニュースキャスターなどのトーキングヘッドのフォトリアリスティックな動画画像を迅速、容易、かつ簡単に生成できるようにする、自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法に関する。自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法は、個人の個性を伝え、会話の重要点を強調するとともに感情的内容を追加するために必要なフォトリアリスティックな品質を有する画像を生み出し、動画化されたフォトリアリスティックな画像を明瞭かつ明確に表示するとともに、口合わせも高品質で、ほとんどの現在のネットワーク及び／又はインターネット上で一般的に利用可能な帯域幅よりも少ない帯域幅しか必要としない。

自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法は、実際の人間の輪郭を捉えて、様々な角度位置のフォトリアリスティックなトーキングヘッドのライブラリを作成することができる。そこで、フォトリアリスティックなトーキングヘッドのライブラリは、例えば、個人の個性を伝え、会話の重要点を強調するとともに感情的内容を追加するために必要な、フォトリアリスティックな品質を有するニュースキャスターやその他のトーキングヘッド等の動画化された動作を作成するために使用することができる。動画化されたフォトリアリスティックな画像は、動画化されたトーキングヘッドを明瞭かつ明確に表示するとともに、口合わせも高品質で、ほとんどの現在のネットワーク及び／又はインターネット上で一般的に利用可能な帯域幅よりも少ない帯域幅しか必要としない。

フォトリアリスティックなトーキングヘッドのライブラリは、通常のコンピュータ操作技術を有する個人によって迅速、容易、かつ効果的に作成することが可能であり、様々な角度位置にある実際の人間の画像の混合及び配置合わせのためのテンプレートとして用いられるガイドを使用して、作成時間を最小限にすることができる。

様々なガイドライブラリのライブラリが提供され、それぞれのガイドライブラリは、その中に様々なガイドを有し、それぞれのガイドは異なる角度位置に対応する。それぞれのガイドライブラリは、互いに異なる顔の特徴を有し、それによってユーザは、様々なガイドライブラリからなるライブラリから、ユーザの顔の特徴及び特性に近い顔の特徴及び特性を持つガイドライブラリを選択することができる。

トーキングヘッドは、ニュース報道に関連してニュースキャスターの形式で使用されることができ、多数及び多様な用途での使用のために、トーキングヘッドの動画画像の使用は、フォトリアリスティックな品質を持つとともに個人化された外観を生み出すことができる。

本発明の自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法は、対象者が自分自身の頭部画像を見ることができ、それにより自分の頭部画像をガイドに合わせて配置することができ、対象者の頭部とガイド又はテンプレートとを混合又は組み合わせることを可能にする。

正しく配置できたら、対象者の頭部の画像は保存される。様々な頭部の傾き、回転及びうなずきの位置に対してプロセスが繰り返され、このようにして、フォトリアリスティックなトーキングヘッドのライブラリが作成されて保存される。さらに、対象者は、選択された音を発音して、選択された目の動きを行う。つまり、頭部位置のそれぞれで目を閉じたり開けたりして、口と目の形状が変化することになり、顔の表情が変化して、対象者の口と目のトリミングされた画像が、選択された発音と目の動きとのそれぞれに対して追加で保存される。

ガイドは画像であり、対象者の頭部が複数の位置になるように対象者を支援するための参照ガイド又はテンプレートとして使用される。ガイドと対象者の頭部の画像は、対象者が自分の頭部の画像を見て自分の頭部画像とガイドの位置合わせができるように、混合又は組み合わされる。正しく配置できたら、対象者の頭部の画像は保存される。さらに、対象者は、選択された音を話して、選択された目の動きを行う。つまり、頭部位置のそれぞれで、目を閉じたり開けたりして口と目の形状が変化することになり、顔の表情が変化して、対象者の口と目のトリミングされた画像が、選択された発音と目の動きとのそれぞれに対して追加で保存される。様々な頭部の傾き、回転及びうなずきの位置に対してプロセスが繰り返され、それによってフォトリアリスティックなトーキングヘッドのライブラリが作成されて保存される。フォトリアリスティックな頭部のライブラリは、インターネットベースの用途用に、非常に詳細なトーキングヘッドのニュースキャスターを作成するために使用することができる。画像の混合と配置手段は、対象者の頭部をガイドに合わせて配置する際に対象者を支援する。

自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法は、実際の人間を撮影したデジタルビデオテープの映像から、コンピュータベースの二次元画像のライブラリを作成することができる。選択された個別のビデオフレームを使用し、画像編集ソフトウェアによって組み立てられ、それにより作成されたトーキングヘッドのライブラリは、数々の個別の頭部位置、顔の表情及び口の形状を含み、同じ対象者の参照ソースビデオフレームとフレーム毎に比較される。自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法で生成された出力は、ニュース放送の実際のビデオの代わりに使用することが可能で、パーソナルコンピュータ、ＰＤＡ又は携帯電話に一連のスクリプトコマンドからトーキングヘッドのニュース放送を作成することを命令することができる。

本発明の自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法は、組み込み型ウェブコンテンツ、動画化された電子メール、インターネットのメッセージングサービス、ＰＤＡ、携帯電話及びその他の無線通信端末での使用に最適な、個人の写真のトーキングヘッドライブラリを保存及び作成することができる。自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法によって、ユーザは、デジタルビデオカメラ又はコンピュータベースのビデオカメラからの保存ソフトウェア及び入力を使用して、フォトリアリスティックなトーキングヘッドのライブラリを作成することができる。自動画像編集ソフトウェアは、フォトリアリスティックなトーキングヘッドのライブラリに含まれる物に関して、ユーザが目標のフレームを識別してトリミングすることを支援するために、使用することができる。

自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法は、任意選択により、生のニュースキャスターを撮影したデジタルビデオテープの映像から、コンピュータベースの二次元画像のライブラリを作成するために使用することもできる。ユーザは、規則的な頭部の動きについてテンプレートを提供するために、パーソナルコンピュータソフトウェアを用いて混合され、コンピュータモニタ又はその他の適当な機器に表示される３Ｄ描画ガイド画像又はテンプレートのライブラリを操作することができる。対象者又はニュースキャスターは、正しい姿勢配置を維持すると同時に、一連の顔の表情、まばたき、眉毛の動きを完成させ、目標の音素又は口の形を含んだ語句を話すためにガイドを使用することができる。この行動は、任意選択により、高解像度デジタルビデオテープ上に連続して記録することができる。ユーザは、任意選択により、各コマが対象者の参照ソースビデオフレームに相当する異なる頭部の位置の配置、顔の表情及び口の形状を含む選択された個別のビデオフレームを使用し、画像編集ソフトウェアによって、トーキングヘッドのライブラリを組み立てることができる。自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法によって生成される出力は、ニュース放送に関する実際のビデオの代わりに、及び／又はパーソナルコンピュータ、ＰＤＡ又は携帯電話に関する教育の支援として、使用することができる。自分でできるフォトリアリスティックなトーキングヘッドの作成システムは、任意選択により、スクリプトコマンドからトーキングヘッドのニュース放送を作成することもできる。

自分でできるフォトリアリスティックなトーキングヘッドの作成システム及び方法は、携帯端末及び携帯無線端末で使用することができる。これらの携帯端末及び携帯無線端末には、デジタル通信端末、電子手帳、携帯電話、ノートブック型コンピュータ、ビデオ電話及びその他適当な機器が含まれる。

携帯端末及び携帯無線端末は、携帯用小型端末であり、携帯無線端末は、無線で信号を送受信できる。

これらの携帯端末及び携帯無線端末は、デジタル通信端末を含み、ビデオカメラやビデオディスプレイを有することが多い。

対象者は、例えば、ビデオカメラ等の機器で自分自身を捉え、機器のビデオディスプレイ上で捉えられた画像の生ビデオを見ることができる。

対象者のガイド画像は、自分でできるフォトリアリスティックなトーキングヘッド作成システムの携帯端末及び／又は携帯無線端末のディスプレイ上で、重ね合わせることができる。

このような機器のそれぞれのディスプレイは、対象者の収集画像と選択された配置テンプレートとの合成画像を表示することができる。ディスプレイ及びビデオカメラによって、ビデオカメラは対象者の画像を収集し、対象者は合成画像を見て、自分の頭部の画像を指定の配置テンプレートの頭部の角度と実質的に同じ角度で配置テンプレートの頭部に合わせて配置することができる。

このような携帯端末及び／又は携帯無線端末は、例えば、有線又は無線接続を経由してパーソナルコンピュータに、及び／又はリアルタイムビデオストリーミング及び／又は適当な信号の送信をサポートする十分な帯域幅のネットワークを経由してリモートサーバに接続することができる。一般的なネットワークは、携帯電話ネットワーク、無線ネットワーク、無線デジタルネットワークや、インターネット、グローバルネットワーク、広域ネットワーク、都市圏ネットワーク又はローカルエリアネットワーク等の分散ネットワーク、及びその他適当なネットワークを含む。

２人以上のユーザは、いかなる時であってもリモートサーバに接続することができる。記録されたビデオストリーム及び／又は静止画像は、処理してフォトリアリスティックなトーキングヘッドのライブラリを作成するために、コンピュータ及び／又はサーバに送信されることができる。又は任意選択により、処理は、端末自体で実行することができる。

ソフトウェアアプリケーション及び／又はハードウェアは、このような端末、コンピュータ及び／又はリモートサーバ内に存在することができ、対象者の収集画像と配置テンプレートとの合成信号を分析して、ガイド画像に対する配置の正確性を決定する。

音声プロンプトは、合成によって生成された音声、実際に記録された人間の音声、又は生の人間の技術者によって作成され、リアルタイムで対象者と通信して、配置プロセス中にユーザをリアルタイムで支援することができる。代わりに、及び／又は追加で、ビデオプロンプトを使用することができる。そこで、対象者は、プロンプトの情報に従って、自分の頭部の位置を調整することができ、適切に配置すると、キャプチャープロセスの会話部分を開始することができる。音声及び／又はビデオプロンプトは、シーケンスを繰り返す場合、キャプチャー及び／又は配置プロセス中に正しい配置が失われる場合、及び／又はセッションを開始及び／又は停止する場合等、その他のタスクでも対象者を支援するために使用することができる。

本発明の特徴を有するフォトリアリスティックな人間のトーキングヘッドを作成するための装置は、携帯用機器とネットワークとサーバとを備え、ネットワークと携帯用機器とは互いに通信し、ネットワークとサーバとは互いに通信する。
本装置は、配置テンプレートのライブラリを有し、サーバが配置テンプレートのライブラリを備え、配置テンプレートは、それぞれ互いに異なるとともに、配置テンプレートの頭部の傾き、配置テンプレートの頭部のうなずき及び配置テンプレートの頭部の回転構成要素を備える配置テンプレートの頭部の角度位置を有するフォトリアリスティックな人間のトーキングヘッドの配置テンプレートのフレームを表現する。配置テンプレートのフレームは、それぞれ互いに異なり、配置テンプレートの頭部の角度位置は、それぞれ互いに異なる。
本装置は、コントローラを有し、サーバがコントローラを備え、コントローラは、特定の配置テンプレートの頭部の角度位置に対応して、配置テンプレートのライブラリから配置テンプレートを選択し、配置テンプレートを表現する画像出力信号を有する。
本装置は、ビデオカメラを有し、携帯用機器はビデオカメラを備え、ビデオカメラは、対象者の頭部の傾き、対象者の頭部のうなずき及び対象者の頭部の回転構成要素を備えた頭部の角度位置を有する対象者の画像を収集する。ビデオカメラは、対象者の収集画像を表現する出力信号を有する。携帯用機器は、対象者の収集画像を表現するビデオカメラの前記出力信号を、ネットワークを経由して、サーバに送信する。
本装置は、サーバを有し、サーバは、対象者の収集画像を表現するビデオカメラの出力信号を受信する入力を有し、サーバはミキサを有し、選択された配置テンプレートの画像の出力信号をコントローラから受信し、選択された配置テンプレートの画像の出力信号と、受信した対象者の収集画像の出力信号とをミキサに送信する。ミキサは、選択された配置テンプレートの画像の出力信号と、送信された対象者の収集画像の出力信号とを受信し、一方を他方と混合して対象者の収集画像と選択された配置テンプレートとの合成画像を表現する出力信号にし、対象者の収集画像と選択された配置テンプレートとの合成画像の信号をサーバに送信する。サーバは、ミキサから受信した対象者の収集画像と選択された配置テンプレートとの合成画像を表現する出力信号を有し、サーバは、対象者の収集画像と選択された配置テンプレートとの合成画像を表現する出力信号を、ネットワーク経由で携帯用機器に送信する。
本装置はディスプレイを有し、携帯用機器がディスプレイを備え、ディスプレイは、対象者の収集画像と選択された配置テンプレートとの合成画像を表現する出力信号を受信する入力を有する。ディスプレイ及びビデオカメラは、ビデオカメラで対象者の画像を収集して、対象者が合成画像を見えるようにして、対象者が、対象者の頭部の画像を、特定の配置テンプレートの頭部の角度位置と実質的に同じ角度位置で、配置テンプレートの頭部に合わせて配置できるようにされている。
本装置は、様々な対象者の頭部の角度位置で対象者の頭部を含む対象者の収集画像のライブラリを保存する保存手段を有し、サーバがこの保存手段を備え、サーバは受信した対象者の収集画像信号を保存手段に送信する。保存手段は、対象者の収集画像の出力信号を受信して、対象者の保存画像として保存し、対象者が配置テンプレートの頭部と実質的に合わせて配置された対象者の頭部を有する場合、対象者の保存画像は、特定の配置テンプレートの頭部の角度位置と実質的に同じ対象者の頭部の角度位置を有する。保存された収集画像のライブラリの画像は、それぞれ互いに異なり、保存された収集画像の対象者の頭部の角度位置は、それぞれは互いに異なる。
保存された収集画像のライブラリの画像の対象者の頭部の角度位置のそれぞれは、配置テンプレートのライブラリの中の選択された配置テンプレートの頭部の角度位置と対応し、実質的に同一であって、かつ合わせて配置される。
保存された収集画像のそれぞれは、フォトリアリスティックな人間のトーキングヘッドの異なるフレームを表現する。

本発明の特徴を有するフォトリアリスティックな人間のトーキングヘッドを作成する方法は、
配置テンプレートのライブラリから配置テンプレートを選択するステップと、ここで配置テンプレートは、それぞれ互いに異なるとともに、配置テンプレートの頭部の傾き、配置テンプレートの頭部のうなずき及び配置テンプレートの頭部の回転構成要素を備えるテンプレートの頭部の角度位置を有するフォトリアリスティックな人間のトーキングヘッドの配置テンプレートのフレームを表現し、配置テンプレートのフレームはそれぞれ互いに異なり、配置テンプレートの頭部の角度位置はそれぞれ互いに異なり、
対象者の画像をビデオカメラで収集するステップと、
対象者の収集画像を、ミキサを備えるコンピュータに送信するステップと、
対象者の収集画像を、ミキサにおいて選択された配置テンプレートと混合し、対象者の収集画像と選択された配置テンプレートとの合成画像を作成するステップと、
合成画像を、対象者に表示するために、対象者が、対象者の頭部の画像を選択された配置テンプレートの画像に合わせて配置することを補助するようにされているディスプレイに送信するステップと、
対象者の頭部の傾き、対象者の頭部のうなずき及び対象者の頭部の回転構成要素を備える対象者の頭部の角度位置を有する対象者の頭部の角度位置を、選択された配置テンプレートの頭部の角度位置と実質的に同じ角度位置で、選択された配置テンプレートの頭部の画像に実質的に合わせて配置するステップと、
実質的に配置が合わされた対象者の画像を収集して、収集画像のライブラリに保存するステップとを含み、ここで保存された収集画像のそれぞれは、異なる対象者の角度位置を有し、選択された配置テンプレートの頭部の角度位置と実質的に同じで、保存された画像のそれぞれは、フォトリアリスティックな人間のトーキングヘッドの異なるフレームを表現する。

本発明のこれらの及びその他の特徴、態様及び利点は、以下の説明、請求項及び図面を参照することで、理解が深まる。

本発明の好ましい実施形態は、図面の図１〜図４１を参照して説明される。それぞれの図における同一の要素は、同じ参照番号で特定される。

図１は、本発明の自分でできるフォトリアリスティックなトーキングヘッド作成システム１０の実施形態を示し、図２に示されるフォトリアリスティックなトーキングヘッドのライブラリ１２を作成するために使用される。自分でできるフォトリアリスティックなトーキングヘッド作成システム１０は、パーソナルコンピュータ１３を有する。パーソナルコンピュータ１３は、ソフトウェアミキサ１４、図３に示されているガイド２０、ビデオカメラ２８から図４に示されている対象者２６の画像信号出力２４を受信するための入力２２及び混合された信号出力３０を有する。混合された信号出力３０は、ガイド２０と対象者２６の合成出力画像３８を有する。パーソナルコンピュータ１３は、対象者２６の受信された画像信号出力２４をコンピュータ読取可能フォーマットに変換して、対象者２６のコンピュータ読取可能画像信号をソフトウェアミキサ１４に送信する。ソフトウェアミキサ１４は、対象者２６とガイド２０の合成画像を作成する。自分でできるフォトリアリスティックなトーキングヘッド作成システム１０は、図５に示されているパーソナルコンピュータ１３からのガイド２０に合わせて配置された対象者２６の合成画像である合成出力画像３８を表示するためのモニタ３９を有する。パーソナルコンピュータ１３は、図２に示されているフォトリアリスティックなトーキングヘッドのライブラリ１２を作成するために、ビデオカメラ２８で撮影される図２で示される選択された画像４２の画像を保存するための記憶装置４０を有する。しかし、記憶装置４０は、代わりに、パーソナルコンピュータ１３の外部でも良く、及び／又は内部及び／又は外部の記憶装置で補完することができる。モニタ３９は、パーソナルコンピュータ１３から混合された信号出力３０を受信するための入力４３を有する。

ガイド２０は、合成出力画像３８において対象者２６と配置を合わせるためのテンプレートとして使用される。対象者２６の配置をガイド２０に合わせたら、画像４２は記憶装置４０に保存される。図６Ａ〜図６Ｃは、対象者２６とガイド２０との位置合わせの様々な段階での合成出力画像３８を示す。図６Ａは、ガイド２０から水平方向にずらした対象者２６を示す。図６Ｂは、ガイド２０から垂直方向にずらした対象者２６を示す。図６Ｃは、より近づけて配置された対象者２６とガイド２０を示す。図５は、ガイド２０に配置を合わせた対象者２６を示す。

フォトリアリスティックなトーキングヘッドのライブラリ１２は、それぞれ、図１０と１１の座標系及び任意選択の命名規則に従って、様々な角度位置４４での選択された画像４２、及び図２に示された角度位置４４のそれぞれでの様々な目の特徴４６と様々な口の特徴４８の画像から構成される。図７は、図２の特定の角度位置で選択された画像４２の拡大図、及び特定の角度位置で選択された画像４２の様々な目の特徴４６の図及び様々な口の特徴４８の図を示す。図８は、図７の特定の角度位置で選択された画像４２の一般的な画像と、図７の特定の角度位置で目を閉じ及び目を大きく開いた対象者２６によって取得された様々な目の特徴４６の一般的な画像と、選択された音を話している対象者２６によって取得された、図７の特定の角度位置での様々な口の特徴４８の一般的な画像を示す。対象者２６が、特定の角度位置で自分自身をガイド２０に合わせると、対象者２６は目を開閉し、選択された音素を含む一連の文を話す。また、対象者２６は、任意選択により、笑い顔及び／又はしかめ面等、追加の顔のジェスチャーを実施することもできる。図９は、図７の特定の角度位置で目を閉じたり、大きく開いたりした対象者２６によって取得された様々な目の特徴、及び図７の特定の角度位置での様々な口の特徴４８の一般的なものを取得するための、対象者２６の一般的な目の領域５０と一般的な口の領域５２それぞれを示す。

図１０は、対象者２６、ガイド２０、選択された画像４２並びにフォトリアリスティックなトーキングヘッドライブラリ１２の選択された画像４２に関連付けられた様々な目の特徴４６及び様々な口の特徴４８の様々な角度位置４４に対しての、傾き５６、回転５８及びうなずき６０のベクトルを有する座標系５４を示す。傾き５６、回転５８及びうなずき６０のベクトルはそれぞれ、中心６２からの方向及び角度位置を指定し、図１０に一般的な角度や方向が示されるが、その他の適当な角度や方向を使用することができる。回転５８ベクトルは、その角度構成要素として方位角位置（左右）を使用し、うなずき６０ベクトルは、その角度構成要素として高度角度位置（上下）を使用する。傾き５６ベクトルは、うなずき６０ベクトルのいずれかの側において角度方向が左上又は右上に向いている。

図１１は、対象者２６の傾き５６、回転５８及びうなずき６０ベクトル、ガイド２０、選択された画像４２、並びにフォトリアリスティックなトーキングヘッドのライブラリ１２の選択された画像４２に関連付けられた様々な目の特徴４６及び様々な口の特徴４８に関連付けられた任意選択の命名規則６４を示す。他の適当な任意選択の命名規則、又は実際のベクトル方向及び角度を使用することもできる。任意選択の命名規則６４は、それぞれの指定方向と角度に対して、マイナス方向からプラス方向へ、傾き５６ベクトルが０１から単調に上昇増加する連続番号スキームを使用する。したがって、傾き５６の一般的な角度である−２．５°、０°及び＋２．５°に対しては、任意選択の命名規則６４は、それぞれ、−２．５°、０°、及び＋２．５°の一般的な角度を指定するために０１、０２及び０３を使用する。任意選択の命名規則６４は、それぞれの指定方向と角度に対して、マイナス方向からプラス方向へ、回転５８及びうなずき６０ベクトルが００から単調に上昇増加する連続番号スキームを使用する。したがって、回転５８とうなずき６０の一般的な角度の−１０°、−５°、０°、＋５°及び＋１０°に対しては、任意選択の命名規則６４は、それぞれ、−１０°、−５°、０°、＋５°、及び＋１０°を指定するために００、０１、０２及び０３を使用する。傾き５６の−２．５°、０°、及び＋２．５°の一般的な角度以外の適当な角度、及び／又は回転５８及びうなずき６０の−１０°、−５°、０°、＋５°及び＋１０°の一般的な角度以外の適当な角度を使用することができる。しかしながら、他の方向及びマイナスの角度から０°を通りプラスの角度までの角度に対して、傾き５６に対しては０１、回転５８及びうなずき６０に対しては００から開始する単調に増加する連続番号スキームをやはり使用することができる。名前６６は、任意選択のラベル又は識別子として、頭部、口及び目を使用する。選択された画像４２、対象者２６又はガイド２０に対しては頭部を、目の特徴４６に対しては目を、口の特徴４８に対しては口を使用する。したがって、例えば頭部０２０３０１は、図１０に示された一般的角度に対して、傾き５６、回転５８及びうなずき６０をそれぞれ０°、＋５°、−５°として有する選択された画像４２を表す。

図１２は、図１０の座標系５４及び図１１の任意選択の命名規則６４に従って示される、様々な角度位置７０でのガイド２０を有するガイドライブラリ６８を示す。図１２のガイド２０のそれぞれは、ガイドライブラリ６８の中のガイド２０それぞれの角度位置７０に対応する角度位置４４で選択された画像４２を作成し、ガイドライブラリ６８の中のガイド２０それぞれの角度位置７０に対応する角度位置４４で様々な目の特徴４６及び様々な口の特徴４８を作成するために使用される。したがって、対象者２６は、選択された画像４２のそれぞれを作成するために、自分自身を角度位置７０のうちの異なる位置でのそれぞれの合成出力画像３８内のガイド２０に合わせて配置し、配置を合わせた選択された画像４２のそれぞれの特定の角度位置で様々な目の特徴４６のそれぞれを作成するために、目を開いたり閉じたりし、角度位置７０のそれぞれに対応して配置を合わせた選択された画像４２のそれぞれの特定の角度位置で様々な口の特徴４８のそれぞれを作成するために、繰り返して口を動かすことによって、図２のフォトリアリスティックなトーキングヘッドライブラリ１２が作成される。

図１３Ａ〜図１３Ｃは、ガイド２０の作成における一般的な段階を模式的に表す。しかし、ガイド２０を作成するために、その他の適当な技術を使用することができることに注意すべきである。ガイド２０のそれぞれは、一般的に、中程度の解像度でモデル化された頭部で、異なる角度位置での望ましいトーキングヘッド、好ましいニュースキャスター又は汎用のトーキングヘッド若しくはニュースキャスターである。一般的なガイド２０は図１３Ｃに示されているが、ガイド２０のそれぞれは、様々な角度位置のうちの選択された位置に対象者２６の配置を合わせるためのテンプレートとして使用される。ガイド２０のそれぞれは、レーザースキャン、芸術的なモデリング、又はその他適当な技術等の適当な技術を使用して作成することができ、一般的にはガイド２０は、約５０００ポリゴンを有する３Ｄモデル頭部である。ガイド２０を作成するには、３Ｄモデリングソフトウェア又はその他適当なソフトウェア等のモデリングソフトウェアを使用することができる。ガイドを作成するために販売されている一般的な市販の３Ｄモデリングソフトウェアパッケージは、３ＤＳｔｕｄｉｏＭａｘ、Ｌｉｇｈｔｗａｖｅ、Ｍａｙａ及びＳｏｆｔＩｍａｇｅがあるが、その他の適当なモデリングソフトウェアを使用することができる。まず、図１３Ａに示されているように、基礎のワイヤメッシュモデル７２が作成される。フォンシェーディングは、一般的にワイヤメッシュモデル７２に追加されて、図１３Ｂに示されているように、立体的な外観を有するシェードモデル７４を作成する。次に、立体的な外観を有するシェードモデル７４は、一般的に、望ましいトーキングヘッド、好ましいニュースキャスター、又は汎用のトーキングヘッド若しくはニュースキャスターの写真とフォトマッピングされて、図１３Ｃのガイド２０が作成される。これは、望ましいトーキングヘッド、好ましいニュースキャスター、又は汎用のトーキングヘッド若しくはニュースキャスターに似ている。ガイド２０は、フォトリアリスティックなトーキングヘッドのライブラリ１２の選択された画像４２の望ましいトーキングヘッドのライブラリのポーズに対応する、左右、上下及び横回転の配列によって、特定の頭部のポーズで描画される。これにより、様々な角度位置でのガイド２０の中の画像を有するガイドライブラリ６８が得られて、ガイド２０の中の画像それぞれは、様々な角度位置のそれぞれで、配置テンプレートとして使用される。ガイド２０のそれぞれは、一般的にビットマップ画像として保存され、一般的に５１２ｘ３８４ピクセル以下で、一般的に透明な背景色を有し、一般的に図１０の座標系５４及び図１１の任意選択の命名規則６４に従って一般的に可視インデックスでインデックスされるが、その他の適当なインデックスや記憶装置を使用することができる。

対象者２６は、図５、図６Ａ、図６Ｂ及び図６Ｃの様々な配置段階で示されているように、モニタ３９で自分自身の画像とガイド２０の画像の重なりを確認して、自分自身の画像をガイド２０の画像に合わせて配置する。

再度説明するが、ガイド２０は、左右、上下及び横回転の配列によって、フォトリアリスティックなトーキングヘッドのライブラリ１２の選択された画像４２の望ましいトーキングヘッドのライブラリのポーズに対応する特定の頭部のポーズで描画され、様々な角度位置でのガイド２０を有するガイドライブラリ６８が得られて、それぞれは様々な角度位置のそれぞれで、配置テンプレートとして使用される。

フォトリアリスティックなトーキングヘッドのライブラリ１２は、通常のコンピュータ操作技術を有する個人によって、迅速、容易、かつ効果的に作成することができ、また様々な角度位置にある実際の人間の画像との混合及び配置合わせのテンプレートとして使用することができるガイド２０を使用して、作成時間を最小限にすることができる。

様々なガイドライブラリ６８からなるライブラリ７５が提供され、ガイドライブラリ６８のそれぞれは、その中に様々なガイド２０を有し、ガイド２０のそれぞれは異なる角度位置を有する。ガイドライブラリ６８のそれぞれは、互いに異なる顔の特徴を有し、それによってユーザは、ライブラリ７５からユーザの顔の特徴及び特性に近い顔の特徴及び特性を有するガイドライブラリ６８を選択することができる。

図１４Ａ〜図１４Ｆは、様々な顔の特徴を有する一般的なガイド２０を示す。配置を補助するために種々の主要な顔の特徴や肩の特徴が使用されて、対象者２６とガイド２０の正しい位置合わせが達成される。対象者２６は、ライブラリ７５から図１５に示された様々なガイドライブラリ６８を選択することができ、自分自身の顔の特徴に最も一致するものを選択することができる。瞳孔７７の間の距離７６、鼻７９の長さ７８、口８１の幅８０、髪８３のスタイル８２、頭部８５と上からあご８６の距離８４、肩８８の形８７、及び任意選択の眼鏡８９は、自分自身とガイド２０の位置合わせを支援するために対象者２６に目安を提供する一般的な配置特徴である。ガイド２０のサイズ、外観、比率、顔の特徴及び肩の特徴が対象者２６に近くなると、配置が良好になって、フォトリアリスティックなトーキングヘッドのライブラリ１２が得られる。

ビデオカメラ２８は、品質や解像度の点でデジタル静止カメラに近いデジタルビデオフレーム静止画像を作成可能な高解像デジタルビデオカメラであることが好ましいが、他の適当なカメラ及び／又は電子画像収集装置を使用することもできる。

記憶装置４０は、代わりにデジタルビデオテープ又は劣化のないデジタルビデオ編集システムに再生されるリアルタイムのデジタルビデオフィードにすることができるが、他の適当な記憶装置を使用することもできる。

ガイド２０とソフトウェアミキサ１４は、コンピュータプログラムであり、パーソナルコンピュータ１３にロード及び／又は記憶することができる。

図１６は、フォトリアリスティックなトーキングヘッドを作成する方法のステップ９０を示す。それぞれのステップは、ビデオカメラ又はその他の機器で対象者の画像を収集するステップ９１と、
対象者の収集画像をガイド又はテンプレートの画像と混合して、対象者とガイド又はテンプレートの合成画像を作成するステップ９２と、
対象者に表示するために、合成画像を、対象者の画像をガイド又はテンプレートの画像に合わせて配置することを補助するようにされたモニタ又はテレビに送信するステップ９３と、
対象者の画像をガイド又はテンプレートの画像に合わせて配置するステップ９４と、
配置を合わせた対象者の画像を保存するステップ９５とを少なくとも備える。対象者の収集画像をガイド又はテンプレートの画像に混合して、対象者とガイド又はテンプレートとの合成画像を作成するステップ９２は、ミキサプログラムを有するコンピュータで実施されることが好ましい。ミキサプログラムは、収集画像とテンプレートの画像からの合成画像を作成するようにされているが、他の適当な技術を用いることもできる。フォトリアリスティックなトーキングヘッド９０を作成する方法は、図１７に示されるように、追加の任意選択ステップを有することができ、口の形を捉えるステップ９７と、目の形を捉えるステップ９８と、任意選択により、その他の顔の特徴を捉えるステップ９９とを含む、顔の特徴を捉えるステップ９６を備える。

図１８は、自分でできるフォトリアリスティックなトーキングヘッド作成システム１０の側面図を示し、図１９は、画像を有する、自分でできるフォトリアリスティックなトーキングヘッド作成システム１０のビデオカメラとモニタの正面図を示す。

図２０は、自分でできるフォトリアリスティックなトーキングヘッド作成システム１００を示すが、これは、自分でできるフォトリアリスティックなトーキングヘッド作成システム１００が、ガイド１２０及び／又はガイドライブラリ１２２を個別に制御するために用いられるガイド制御ソフトウェア１１２を有することを除き、自分でできるフォトリアリスティックなトーキングヘッド作成システム１０と実質的に同じである。ソフトウェアミキサ１３０は、対象者１４４とガイド１２０の合成画像を作成する。ガイド制御ソフトウェア１１２は、ガイド１２０の任意の制御、ガイド１２０及び／又はガイドライブラリ１２２への容易なアクセス及び／又は選択、及び対象者１４４の画像とガイド１２０の画像との互いの重なりの制御を提供する。ガイド１２０及び／又はガイドライブラリ１２２は、パーソナルコンピュータ１５０にロード及び／又は記憶することができる。ガイド制御ソフトウェア１１２とソフトウェアミキサ１３０はコンピュータプログラムであり、パーソナルコンピュータ１５０にロード及び／又は記憶することができる。ガイド１２０及び／又はガイドライブラリ１２２は、任意選択により、品質及び任意での画像調整、対象者１４４の画像とガイド１２０の画像を互いに重ねるパーセント又は比率の調節、及び／又はガイド１２０及び／又は対象者１４４の画像の位置やサイズの調整のために、モニタ１４６上で見ることができる。

パーソナルコンピュータ１５０は、記憶装置１５２を有する。又は、ビデオカメラ１５４は、代わりに、及び／又は補助的に、対象者１４４の画像を保存するために記憶装置を有することができる。記憶装置１５２は、代わりに、パーソナルコンピュータ１４５及び／又はビデオカメラ１５４へ外付けされてもよく、及び／又は追加の外部記憶装置で補足されてもよい。記憶装置１５２は、代わりに、デジタルビデオテープ又は劣化しないデジタルビデオ編集システムに再生されるリアルタイムのデジタルビデオフィードにすることができるが、他の適当な記憶装置が使用されてもよい。

ビデオカメラ１５４は、品質や解像度の点でデジタル静止カメラに近いデジタルビデオフレーム静止画像を作成可能な、高解像デジタルビデオカメラであることが好ましいが、他の適当なカメラ及び／又は電子画像収集装置が使用されてもよい。

ユーザは、任意選択により、録画を再生して特定のフレームを選択することができる。つまり、最終のフォトリアリスティックなトーキングヘッドのライブラリのソース画像になるフレームを固定することができる。ユーザは、捉えられたフレームの正確度を評価するために、選択されたフレームをガイド１２０と頻繁に同期させることができ、そうしてガイド１２０の位置や動作パターンに実質的に一致する、実際の写真の最終的なフォトリアリスティックなトーキングヘッドのライブラリを作成する。

図２１は、自分でできるフォトリアリスティックなトーキングヘッド作成システム２００を示すが、これは、自分でできるフォトリアリスティックなトーキングヘッド作成システム２００が、モニタ２０４に取り付けられてモニタ２０４と対象者２０８の間でモニタ２０４の前にビデオカメラ２０６を支持するようにされている、図２２及び図２３に示されているような調整可能な片持支持アーム２０２を有することを除き、自分でできるフォトリアリスティックなトーキングヘッド作成システム１０と実質的に同じである。対象者２０８は、視差を減らすためにビデオカメラ２０６の位置を調整でき、これにより、フォトリアリスティックなトーキングヘッドライブラリにおける、さらに良い配置及び改善を補助する。

図２４は、自分でできるフォトリアリスティックなトーキングヘッド作成システム３００を示すが、これは、自分でできるフォトリアリスティックなトーキングヘッド作成システム３００が、図２０の自分でできるフォトリアリスティックなトーキングヘッド作成システム１００のように、ガイド３２０及び／又はガイドライブラリ３２２を個別に制御するために用いられるガイド制御ソフトウェア３１２を有することを除き、自分でできるフォトリアリスティックなトーキングヘッド作成システム１００と実質的に同じである。

図２５〜図４１は、携帯端末と携帯無線端末を使用する、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態を示す。これらの携帯端末及び携帯無線端末は、デジタル通信端末、電子手帳、携帯電話、ノートブック型コンピュータ、ビデオ電話、及びその他適当な機器を含む。

これらの携帯端末及び携帯無線端末は、デジタル通信端末を含み、ビデオカメラやビデオ表示を有することが多い。

対象者は、例えば、そのような機器のビデオカメラで自分自身を捉え、端末のビデオ画面上で捉えられた画像の生ビデオを見ることができる。

対象者のガイド画像は、図２５〜図４１の自分でできるフォトリアリスティックなトーキングヘッド作成システムの携帯端末及び／又は携帯無線端末の画面上で重ね合わされる。

このような機器のディスプレイそれぞれは、前述のように、対象者の収集画像と選択された配置テンプレートの合成画像を表示し、ディスプレイ及びビデオカメラは、ビデオカメラが対象者の画像を収集して、対象者に合成画像を表示して、対象者が対象者の頭部の画像を、特定の配置テンプレートの頭部の角度位置と実質的に同じ角度位置で、配置テンプレートの頭部に合わせて配置できるようにされている。

このような携帯端末及び／又は携帯無線端末は、例えば、有線又は無線接続を経由してパーソナルコンピュータに、及び／又はリアルタイムビデオストリーミング及び／又は適当な信号の送信をサポートする十分な帯域幅のネットワークを経由してリモートサーバに接続することができる。代表的なネットワークとしては、携帯電話ネットワークや、インターネット、グローバルネットワーク、広域ネットワーク、都市圏ネットワーク又はローカルエリアネットワーク等の分散ネットワーク、及びその他適当なネットワークが含まれる。

２人以上のユーザは、いかなる時であってもリモートサーバに接続することができる。捉えられたビデオストリーム及び／又は静止画面は、処理してフォトリアリスティックなトーキングヘッドのライブラリを作成するために、コンピュータ及び／又はサーバに送信されることができる。又は、任意選択により、処理は端末自体で実行することができる。

ソフトウェアアプリケーション及び／又はハードウェアは、このような端末内に存在することができる。コンピュータ及び／又はリモートサーバは、対象者の収集画像と配置テンプレートとの合成信号を分析して、ガイド画像に対する配置の正確性を決定する。

音声プロンプトは、合成によって生成された音声、実際に記録された人間の音声、又は生の人間の技術者によって作成されることができ、配置プロセス中ユーザを支援するために、リアルタイムで対象者と通信することができる。代わりに、及び／又は追加で、ビデオプロンプトを使用することができる。そこで、対象者は、プロンプトの情報に従って自分の頭部の位置を調整することができ、適切に配置すると、キャプチャープロセスの会話部分を開始することができる。音声及び／又はビデオプロンプトは、シーケンスを繰り返す場合、キャプチャー及び／又は配置プロセス中に正しい配置が失われる場合、及び／又はセッションを開始及び／又は停止する場合等、その他のタスクでも対象者を支援するために使用することができる。

携帯端末及び／又は無線携帯端末は、セル方式の携帯電話（ｃｅｌｌｐｈｏｎｅ）、電子手帳（ＰＤＡ）、インターネットベースの電話、携帯電話（ｐｏｒｔａｂｌｅｐｈｏｎｅ）、パーソナルコンピュータ、ノート型コンピュータ、タブレットコンピュータ、ビデオ電話、テレビ、携帯用テレビ、無線デジタルカメラ、無線ビデオカメラ、電子メール端末、インスタントメッセージ端末、ＰＣ電話、ビデオ会議端末、移動電話（ｍｏｂｉｌｅｐｈｏｎｅ）、手動操作機器、無線端末、無線携帯端末、並びにビデオカメラ及びディスプレイ又はその他の適当なカメラ及びディスプレイを有する他の適当な機器である。

図２５と図２６は、自分でできるフォトリアリスティックなトーキングヘッド作成システム４００を示すが、これは、自分でできるフォトリアリスティックなトーキングヘッド作成システム４００が、ビデオカメラ４０４とディスプレイ４０６を有する携帯電話４０２を有することを除き、自分でできるフォトリアリスティックなトーキングヘッド作成システム１０と実質的に同じである。

対象者４０８の画像は、自分でできるフォトリアリスティックなトーキングヘッド作成システム１０で先に説明したのと実質的に同じように、ビデオカメラ４０４によって収集される。コンピュータ４１２のソフトウェアミキサ４１０は、対象者４０４の収集画像とガイド４１４の合成画像を作成する。合成画像は、ディスプレイ４０６に表示され、対象者４０４の収集画像とガイド４１４とは、対象者４０８によって互いに配置を合わせることができる。そして、自分でできるフォトリアリスティックなトーキングヘッド作成システム１０で先に説明したのと実質的に同じように、記憶装置４１６が、選択された画像を保存するために使用される。

図２７と図２８は、自分でできるフォトリアリスティックなトーキングヘッド作成システム５００を示すが、これは、自分でできるフォトリアリスティックなトーキングヘッド作成システム５００が、コンピュータであるサーバ５０４と無線で通信する携帯電話５０２を有することを除き、自分でできるフォトリアリスティックなトーキングヘッド作成システム４００と実質的に同じである。

対象者５０６の画像は、自分でできるフォトリアリスティックなトーキングヘッド作成システム４００で先に説明したのと実質的に同じように、携帯電話５０２のビデオカメラ５０８によって収集される。携帯電話５０２は、アンテナ５１０を経由して、サーバ５０４と無線で通信する。

コンピュータであるサーバ５０４のソフトウェアミキサ５１２は、対象者５０６の収集画像とガイド５１４の合成画像を作成する。合成画像は、携帯電話５０２のディスプレイ５１６に表示されて、対象者５０６の収集画像とガイド５１４は、対象者５０６によって互いに配置を合わせることができる。そして、自分でできるフォトリアリスティックなトーキングヘッド作成システム４００で先に説明したのと実質的に同じように、記憶装置５１８が、選択された画像を保存するために使用される。

図２９と図３０は、自分でできるフォトリアリスティックなトーキングヘッド作成システム６００を示すが、これは、自分でできるフォトリアリスティックなトーキングヘッド作成システム６００が、携帯電話ネットワーク６０６を経由してサーバ６０４と通信する複数の携帯電話６０２を有することを除き、自分でできるフォトリアリスティックなトーキングヘッド作成システム５００と実質的に同じである。携帯電話６０４のそれぞれは、アンテナ６０８を経由して、携帯電話ネットワーク６０６と無線で通信する。

図３１は、自分でできるフォトリアリスティックなトーキングヘッド作成システム６５０を示すが、これは、自分でできるフォトリアリスティックなトーキングヘッド作成システム６５０が、それぞれビデオカメラ６５４とディスプレイ６５６を有する複数の電子手帳（ＰＤＡ）６５２を有することを除き、自分でできるフォトリアリスティックなトーキングヘッド作成システム６００と実質的に同じである。

図３２は、自分でできるフォトリアリスティックなトーキングヘッド作成システム６８０を示すが、これは、自分でできるフォトリアリスティックなトーキングヘッド作成システム６８０が、インターネット６８２に接続されて、インターネット６８２に接続されているサーバ６８４を有することを除き、自分でできるフォトリアリスティックなトーキングヘッド作成システム４００と実質的に同じである。サーバ６８４は、コンピュータ６９８のソフトウェアミキサ６９２、ガイド６９４及び記憶装置６９６の代わりとして、及び／又は追加で、ソフトウェアミキサ６８６、ガイド６８８及び記憶装置６９０を有することができ、コンピュータ６９８のソフトウェアミキサ６９２、ガイド６９４及びソフトウェアミキサ６９２の代わり、及び／又は追加で使用され得る。

図３３と図３４は、自分でできるフォトリアリスティックなトーキングヘッド作成システム７００を示すが、これは、自分でできるフォトリアリスティックなトーキングヘッド作成システム７００が、携帯電話ネットワークハードウェア７０６を経由してインターネット７０４に接続された携帯電話ネットワーク７０２と、インターネット７０４に接続されたサーバ７０８とを有することを除き、自分でできるフォトリアリスティックなトーキングヘッド作成システム６００と実質的に同じである。

対象者７１０の画像は、自分でできるフォトリアリスティックなトーキングヘッド作成システム４００で先に説明されたのと実質的に同じように、携帯電話７１４のビデオカメラ７１２によって収集される。携帯電話７１４は、アンテナ７１６を経由して携帯電話ネットワーク７０２と、そしてインターネット７０４経由でサーバ７０８と無線で通信する。インターネット７０４は、携帯電話ネットワークハードウェア７０６を経由して携帯電話ネットワーク７０２に接続される。

コンピュータであるサーバ７０８のソフトウェアミキサ７１８は、対象者７１０の収集画像とガイド７２０の合成画像を作成する。合成画像は、携帯電話７１４のディスプレイ７２２に表示されて、対象者７１０の収集画像とガイド７２０は、対象者７１０によって互いに配置を合わせることができる。そして、記憶装置７２４が、携帯電話７１４それぞれからの選択された画像を保存するために使用される。

図３５は、自分でできるフォトリアリスティックなトーキングヘッド作成システム７５０を示すが、これは次の事項を除いて、自分でできるフォトリアリスティックなトーキングヘッド作成システム７００と実質的に同じである。自分でできるフォトリアリスティックなトーキングヘッド作成システム７５０は、アンテナ７５６経由で携帯電話ネットワーク７５４に無線で接続されたノート型コンピュータ７５２を有する。アナログ音声通信のみ可能な旧来の電話サービス（ＰＯＴＳ）７５８も、サーバ７６０と７６２に接続される。これらは、それぞれインターネット７６４に接続される。サーバ７６０は、携帯電話ネットワーク７５４と、アナログ音声通信のみ可能な旧来の電話サービス（ＰＯＴＳ）７５８とを、インターネット７６４に接続するために使用される。

ビデオカメラ７６６及びディスプレイ７６８を有するノート型コンピュータ７５２に送受信される信号、並びにビデオカメラ７７２及びディスプレイ７７３有する携帯無線端末７７０に送受信される信号は、携帯電話ネットワーク７５４及びインターネット７６４経由でサーバ７６２と通信される。ビデオカメラ７７５及びディスプレイ７７６を有するデスクトップコンピュータ７７４に送受信される信号も、サーバ７６２と通信される。使用することができる携帯無線端末７７０には、携帯電話、電子手帳（ＰＤＡ）及び他の適当な携帯無線端末が含まれる。

コンピュータであるサーバ７６２のソフトウェアミキサ７７７は、対象者の収集画像とガイド７７８との合成画像を作成する。合成画像は、ノート型コンピュータ７５２、携帯無線端末７７０及びデスクトップコンピュータ７７４それぞれのディスプレイ７６８、７７３及び７７６上に表示され、対象者の収集画像及びガイド７７８は、対象者によって互いに配置を合わせることができる。そして、記憶装置７８０が、ノート型コンピュータ７５２、携帯無線端末７７０及びデスクトップコンピュータ７７４から選択された画像を保存するために使用される。

図３６は、フォトリアリスティックなトーキングヘッドを作成する方法のステップ８００を示すが、これは、フォトリアリスティックなトーキングヘッドの作成方法８００が、配置を合わせた対象者の画像をサーバに送信するステップ８０６と、配置を合わせた対象者の画像をサーバに保存するステップ８０７と、画像を対象者に返信するステップ８０８とを備えることを除き、フォトリアリスティックなトーキングヘッド９０の作成方法のステップと実質的に同じである。

詳細には、フォトリアリスティックなトーキングヘッドを作成する方法８００は、携帯電話のビデオカメラ、電子手帳（ＰＤＡ）のビデオカメラ、又はその他適当な機器で対象者の画像を収集するステップ８０１と、対象者の収集画像をサーバに送信するステップ８０２と、対象者の収集画像とテンプレートの画像とを混合するステップ８０３と、合成画像を携帯無線端末、さらに詳しくは携帯無線端末のディスプレイに送信するステップ８０４と、対象者の画像をテンプレートの画像に合わせて配置するステップ８０５と、配置を合わせた対象者の画像をサーバに送信するステップと８０６、配置を合わせた対象者の画像をサーバに保存するステップ８０７と、配置を合わせた対象者の画像を対象者に送信するステップ８０８とを備える。

図３７は、フォトリアリスティックなトーキングヘッドを作成する方法８００の追加の任意選択ステップ８０９を示し、配置の不一致について配置を合わせた対象者の画像を分析するステップ８１０と、より正確な配置を達成するように対象者を補助するために、音声、音声プロンプト及び／又はビデオプロンプト等のプロンプトを使用するステップ８１１とを備える。

フォトリアリスティックなトーキングヘッドを作成する方法８００は、追加の任意選択ステップを有することができ、ステップ８０８の後、及び／又はステップ８１１の後に顔の特徴を捉えるステップ８１２を備えるが、これは、図１７に示された追加の任意選択ステップと実質的に同じであり、明確化及び理解のためにここで繰り返される。

フォトリアリスティックなトーキングヘッドを作成する方法８００は、図３８に示されているように、追加の任意選択ステップを有することができ、口の形を捉えるステップ８１３と、目の形を捉えるステップ８１４と、任意選択により、その他の顔の特徴を捉えるステップ８１５とを含む、顔の特徴を捉えるステップ８１２とを備える。

図３９は、電子手帳（ＰＤＡ）又はその他の適当な機器等であるビデオ捕捉端末８２０の模式図であり、ビデオカメラ８２２、ディスプレイ８２４、記憶装置８２６、マイク８２８及びスピーカー８３０を有し、本発明の前述の多様な実施形態で使用することができる。

図４０は、本発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態の模式図である。

図４０は、自分でできるフォトリアリスティックなトーキングヘッド作成システム９００を示すが、これは、自分でできるフォトリアリスティックなトーキングヘッド作成システム９００は、実質的に全ての自分でできるフォトリアリスティックなトーキングヘッド作成システム１０の機器を単一の携帯端末にパッケージ化して備えることを除き、自分でできるフォトリアリスティックなトーキングヘッド作成システム１０と実質的に同じである。

自分でできるフォトリアリスティックなトーキングヘッド作成システム９００は、ビデオカメラ９０４、ディスプレイ９０６、ソフトウェアミキサ９１０、ガイド９１４、記憶装置９１６、任意選択のマイク９１８、及び任意選択のスピーカー９２０を有する、電子手帳（ＰＤＡ）又は他の適当な機器を備える。

対象者の画像は、自分でできるフォトリアリスティックなトーキングヘッド作成システム１０で先に説明したのと実質的に同じように、ビデオカメラ９０４によって収集される。ソフトウェアミキサ９１０は、対象者の収集画像とガイド９１４との合成画像を作成する。合成画像は、ディスプレイ９０６で表示されて、対象者の収集画像とガイド９１４とは、対象者によって互いに配置を合わせることができる。そして、自分でできるフォトリアリスティックなトーキングヘッド作成システム１０で先に説明したのと実質的に同じように、記憶装置９１６が、選択された画像を保存するために使用される。

図４１は、自分でできるフォトリアリスティックなトーキングヘッド作成システム９５０を示すが、これは、自分でできるフォトリアリスティックなトーキングヘッド作成システム９５０は、実質的に全ての自分でできるフォトリアリスティックなトーキングヘッド作成システム３００の機器を、単一の携帯端末にパッケージ化して備えることを除き、自分でできるフォトリアリスティックなトーキングヘッド作成システム３００と実質的に同じである。

自分でできるフォトリアリスティックなトーキングヘッド作成システム９５０は、自分でできるフォトリアリスティックなトーキングヘッド作成システム９５０が、自分でできるフォトリアリスティックなトーキングヘッド作成システム３００のように、ガイド９５４及び／又はガイドライブラリ９５６を個別に制御するために使用することができるガイド制御ソフトウェア９５２を有することを除き、自分でできるフォトリアリスティックなトーキングヘッド作成システム９００と実質的に同じである。

本発明は、一定の好ましい形態を参照しながら詳細に説明したが、その他の形態も可能である。

したがって、請求項の趣旨及び範囲は、本明細書に含まれる好ましい形態の説明に限定されるものではない。

本発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの模式図である。本発明のフォトリアリスティックなトーキングヘッドライブラリを表現する模式図である。配置テンプレートとして使用されるガイドの図である。図２のフォトリアリスティックなトーキングヘッドに組み込まれる対象者の図である。図３のガイドと配置を合わせた図４の対象者の合成図である。図６Ａは、図３のガイドから水平方向に移動させた図４の対象者の合成図である。図６Ｂは、図３のガイドから縦方向に移動させた図４の対象者の合成図である。図６Ｃは、図４の対象者と、図３のガイドとを、近づけて配置させた合成図である。特定の角度位置での図２のフォトリアリスティックなトーキングヘッドのライブラリの選択された画像の拡大画像と、図２のフォトリアリスティックなトーキングヘッドライブラリの選択された画像の特定の角度位置での異なる目の特徴の画像及び異なる口の特徴の画像とを、それぞれ示す図である。図７の特定の角度位置での図２のフォトリアリスティックなトーキングヘッドのライブラリの選択された画像のうちの一般的な画像と、図７の特定の角度位置で目を閉じた対象者と目を大きく開いた対象者によって取得された様々な目の特徴のうちの一般的な特徴と、選択された音声を話している対象者によって取得された図７の特定の角度位置での様々な口の特徴のうちの一般的な特徴を示す図である。図８の様々な目の特徴及び様々な口の特徴を取得するための、対象者の一般的な目の領域と一般的な口の領域を示す図である。傾き、回転及びうなずきベクトルを有する座標系を示す図である。任意選択のラベルのために使用することができる、任意選択の命名規則を示す図である。ガイドライブラリの模式図である。図１３Ａは、ガイドのワイヤメッシュモデルの図である。図１３Ｂは、フォンシェーディングを有する図１３Ａのガイドのワイヤメッシュモデルの図である。図１３Ｃは、望ましいトーキングヘッド又は好ましいニュースキャスターの画像にマッピングされた写真で、フォンシェーディングを有する図１３Ｂのガイドの図である。図１４Ａは、一般的な顔の特徴を示す別のガイドの図である。図１４Ｂは、他の一般的な顔の特徴を示す別のガイドの図である。図１４Ｃは、他の一般的な顔の特徴を示す別のガイドの図である。図１４Ｄは、他の一般的な顔の特徴を示す別のガイドの図である。図１４Ｅは、他の一般的な顔の特徴を示す、図３のガイドの別の図である。図１４Ｆは、他の一般的な顔の特徴を示す別のガイドの図である。図１４Ａ〜図１４Ｆのガイドに関連付けられたガイドライブラリのライブラリを表す模式図である。本発明のフォトリアリスティックなトーキングヘッドを作成する方法を表す模式図である。図１４のフォトリアリスティックなトーキングヘッドを作成する方法の追加の任意選択ステップを表す模式図である。図１の自分でできるフォトリアリスティックなトーキングヘッド作成システムの側面図である。画像を有する、図１の自分でできるフォトリアリスティックなトーキングヘッド作成システムのビデオカメラとモニタの正面図である。本発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態の模式図である。本発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態の模式図である。図２１の自分でできるフォトリアリスティックなトーキングヘッド作成システムの側面図である。画像を有する、図２１の自分でできるフォトリアリスティックなトーキングヘッド作成システムのビデオカメラとモニタの正面図である。発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態の模式図である。本発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態の模式図である。図２５の自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態を表す部分的なブロック図と模式図である。本発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態の模式図である。図２７の自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態を表す部分的なブロック図と模式図である。本発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態の模式図である。図２９の自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態を表す部分的なブロック図と模式図である。本発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態の模式図である。本発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態の模式図である。本発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態の模式図である。図３３の自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態を表す部分的なブロック図と模式図である。本発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態の模式図である。本発明のフォトリアリスティックなトーキングヘッドを作成する別の方法を表す模式図である。図３６のフォトリアリスティックなトーキングヘッドを作成する方法の追加の任意選択ステップを表す模式図である。図３６のフォトリアリスティックなトーキングヘッドを作成する方法の追加の任意選択ステップを表す模式図である。ビデオ捕捉端末の模式図である。本発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態の模式図である。本発明に従って作成された、自分でできるフォトリアリスティックなトーキングヘッド作成システムの別の実施形態の模式図である。

Claims

フォトリアリスティックな人間のトーキングヘッドを作成するための装置であって、
携帯用機器と、ネットワークと、サーバと、配置テンプレートのライブラリと、コントローラと、ビデオカメラと、ディスプレイと、様々な対象者の頭部の角度位置で前記対象者の頭部を含む前記対象者の収集画像のライブラリを保存する保存手段とを備え、
前記ネットワークと前記携帯用機器とは互いに通信し、
前記ネットワークと前記サーバとは互いに通信し、
前記サーバは、前記配置テンプレートのライブラリを備え、
前記配置テンプレートは、それぞれ互いに異なるとともに、前記配置テンプレートの頭部の傾き、前記配置テンプレートの頭部のうなずき及び前記配置テンプレートの頭部の回転構成要素を備える前記配置テンプレートの頭部の角度位置を有する前記フォトリアリスティックな人間のトーキングヘッドの配置テンプレートのフレームを表現し、
前記配置テンプレートのフレームは、それぞれ互いに異なり、
前記配置テンプレートの頭部の角度位置は、それぞれ互いに異なり、
前記サーバは、前記コントローラを備え、
前記コントローラは、特定の前記配置テンプレートの頭部の角度位置に対応して、前記配置テンプレートのライブラリから前記配置テンプレートを選択し、前記配置テンプレートを表現する画像の出力信号を有し、
前記携帯用機器は前記ビデオカメラを備え、
前記ビデオカメラは、前記対象者の頭部の傾き、前記対象者の頭部のうなずき及び前記対象者の頭部の回転構成要素を備えた頭部の角度位置を有する前記対象者の画像を収集し、
前記ビデオカメラは、前記対象者の前記収集画像を表現する出力信号を有し、
前記携帯用機器は、前記対象者の前記収集画像を表現する前記ビデオカメラの前記出力信号を、前記ネットワークを経由して前記サーバに送信し、
前記サーバは、前記対象者の前記収集画像を表現する前記ビデオカメラの前記出力信号を受信する入力を有し、
前記サーバはミキサを有し、
前記サーバは、選択された前記配置テンプレートの画像の前記出力信号を前記コントローラから受信し、選択された前記配置テンプレートの画像の前記出力信号と、受信した前記対象者の前記収集画像の前記出力信号とを前記ミキサに送信し、
前記ミキサは、選択された前記配置テンプレートの画像の前記出力信号と、送信された前記対象者の前記収集画像の前記出力信号とを受信し、一方を他方と混合して前記対象者の前記収集画像と選択された前記配置テンプレートとの合成画像を表現する出力信号にし、前記対象者の前記収集画像と選択された前記配置テンプレートとの前記合成画像の前記出力信号を前記サーバに送信し、
前記サーバは、前記ミキサから受信した前記対象者の前記収集画像と選択された前記配置テンプレートとの前記合成画像を表現する前記出力信号を有し、
前記サーバは、前記対象者の前記収集画像と選択された前記配置テンプレートとの前記合成画像を表現する前記出力信号を、前記ネットワーク経由で前記携帯用機器に送信し、
前記携帯用機器は前記ディスプレイを有し、
前記ディスプレイは、前記対象者の前記収集画像と選択された前記配置テンプレートとの前記合成画像を表現する前記出力信号を受信する入力を有し、
前記ディスプレイ及び前記ビデオカメラは、前記ビデオカメラで前記対象者の画像を収集して、前記対象者が前記合成画像を見えるようにして、前記対象者が、前記対象者の前記頭部の画像を、特定の前記配置テンプレートの頭部の角度位置と実質的に同じ角度位置で、前記配置テンプレートの頭部に合わせて配置できるようにされており、
前記サーバは、前記対象者の前記収集画像のライブラリを保存する保存手段を備え、
前記サーバは、受信した前記対象者の前記収集画像の信号を前記保存手段に送信し、
前記保存手段は、前記対象者の前記収集画像の信号を受信して、前記対象者の保存画像として保存し、前記対象者が前記配置テンプレートの頭部と実質的に合わせて配置された前記対象者の前記頭部を有する場合、前記対象者の前記保存画像は、特定の前記配置テンプレートの頭部の角度位置と実質的に同じ前記対象者の頭部の角度位置を有し、
保存された前記収集画像のライブラリの画像は、それぞれ互いに異なり、
保存された前記収集画像の対象者の頭部の角度位置は、それぞれ互いに異なり、
保存された前記収集画像のライブラリの画像の対象者の頭部の角度位置のそれぞれは、前記配置テンプレートのライブラリの中の選択された前記配置テンプレートの頭部の角度位置と対応し、実質的に同じであって、かつ合わせて配置され、
保存された前記収集画像のそれぞれは、フォトリアリスティックな人間のトーキングヘッドの異なるフレームを表現する、
フォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記サーバは、前記配置テンプレートのライブラリを備えるコンピュータを含む、請求項１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記サーバは、前記コントローラを備えるコンピュータを含む、請求項１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記サーバは、少なくとも１つのプログラムを備えるコンピュータを含み、前記少なくとも１つのプログラムは前記ミキサを備える、請求項１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記サーバは、前記保存手段を備えるコンピュータを含む、請求項１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記対象者の前記収集画像は、特定の前記配置テンプレートの頭部の角度位置に対応する前記対象者の頭部の少なくとも１つの顔の特徴の追加の収集画像をさらに備え、前記収集画像のライブラリは、様々な前記対象者の頭部の角度位置のそれぞれで、前記少なくとも１つの顔の特徴の保存された画像をさらに備え、前記顔の特徴の保存された画像のそれぞれは、前記フォトリアリスティックな人間のトーキングヘッドの追加のフレームを表現する、請求項１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記少なくとも１つの顔の特徴は、様々な口の形を備える、請求項６に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記少なくとも１つの顔の特徴は、様々な目の形を備える、請求項６に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記少なくとも１つの顔の特徴は、様々な目の形を備える、請求項７に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記サーバは、少なくとも１つのプログラムを備えるコンピュータを含み、前記少なくとも１つのプログラムは、制御プログラムを備える前記コントローラを含む、請求項１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記配置テンプレートは少なくとも１つの特徴を有し、前記制御プログラムは、選択された前記配置テンプレートの前記少なくとも１つの特徴を制御するようにされている、請求項１０に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記対象者の前記収集画像は少なくとも１つの特徴を有し、前記制御プログラムは、前記対象者の前記選択画像の前記少なくとも１つの特徴を制御するようにされている、請求項１０に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記対象者の前記収集画像は少なくとも１つの特徴を有し、前記制御プログラムは、前記対象者の前記収集画像の前記少なくとも１つの特徴を制御するようにされている、請求項１１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記配置テンプレートのライブラリは、少なくとも２つの前記配置テンプレートのライブラリを備える、請求項２に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記配置テンプレートのライブラリのそれぞれは、様々な顔の特徴を有する人間のトーキングヘッドを表現する、請求項１４に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記ミキサは、ソフトウェアミキサを備える、請求項１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記ネットワークは、分散ネットワークを備える、請求項１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記分散ネットワークは、インターネットを備える、請求項１７に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記ネットワークは、携帯電話ネットワーク、無線ネットワーク、無線デジタルネットワーク、分散ネットワーク、インターネット、グローバルネットワーク、広域ネットワーク、都市規模ネットワーク、ローカルエリアネットワーク、及びこれらの組み合わせのうちのいずれかである、請求項１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記携帯用機器は、セル方式の携帯電話（ｃｅｌｌｐｈｏｎｅ）、電子手帳、ＰＤＡ、インターネットベースの電話、携帯電話（ｐｏｒｔａｂｌｅｐｈｏｎｅ）、パーソナルコンピュータ、ノート型コンピュータ、タブレットコンピュータ、ビデオ電話、テレビ、携帯用テレビ、無線デジタルカメラ、無線ビデオカメラ、ディスプレイ付き無線カメラ、電子メール端末、インスタントメッセージ端末、ＰＣ電話、ビデオ会議端末、移動電話（ｍｏｂｉｌｅｐｈｏｎｅ）、手動操作機器、無線端末及び無線携帯端末のうちのいずれかである、請求項１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記サーバは、受信した前記収集画像の前記出力信号をコンピュータ読取可能フォーマットに変換するようにされているコンピュータを備える、請求項１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記フォトリアリスティックな人間のトーキングヘッドを作成するための装置は、自分でフォトリアリスティックな人間のトーキングヘッドを作成するための装置である、請求項１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
フォトリアリスティックな人間のトーキングヘッドを作成するための装置であって、
無線携帯用機器と、無線ネットワークと、サーバと、配置テンプレートのライブラリと、コントローラと、ビデオカメラと、ディスプレイと、様々な対象者の頭部の角度位置で前記対象者の頭部を含む前記対象者の収集画像のライブラリを保存する保存手段とを備え、
前記無線ネットワークと前記無線携帯用機器とは無線で互いに通信し、
前記無線ネットワークと前記サーバとは互いに通信し、
前記サーバは、前記配置テンプレートのライブラリを備え、
前記配置テンプレートは、それぞれ互いに異なるとともに、前記配置テンプレートの頭部の傾き、前記配置テンプレートの頭部のうなずき及び前記配置テンプレートの頭部の回転構成要素を備える前記テンプレートの頭部の角度位置を有する前記フォトリアリスティックな人間のトーキングヘッドの配置テンプレートのフレームを表現し、
前記配置テンプレートの中のフレームは、それぞれ互いに異なり、
前記配置テンプレートの頭部の角度位置は、それぞれ互いに異なり、
前記サーバは、前記コントローラを備え、
前記コントローラは、特定の前記配置テンプレートの頭部の角度位置に対応して、前記配置テンプレートのライブラリから前記配置テンプレートを選択し、前記配置テンプレートを表現する画像の出力信号を有し、
前記無線携帯用機器は前記ビデオカメラを備え、
前記ビデオカメラは、前記対象者の頭部の傾き、前記対象者の頭部のうなずき及び前記対象者の頭部の回転構成要素を備えた頭部の角度位置を有する前記対象者の画像を収集し、
前記ビデオカメラは、前記対象者の前記収集画像を表現する出力信号を有し、
前記無線携帯用機器は、前記対象者の前記収集画像を表現する前記ビデオカメラの前記出力信号を、前記無線ネットワークを経由して前記サーバに送信し、
前記サーバは、前記対象者の前記収集画像を表現する前記ビデオカメラの前記出力信号を受信する入力を有し、
前記サーバはミキサを有し、
前記サーバは、選択された前記配置テンプレートの画像の前記出力信号を前記コントローラから受信し、選択された前記配置テンプレートの画像の前記出力信号と、受信した前記対象者の前記収集画像の前記出力信号とを前記ミキサに送信し、
前記ミキサは、選択された前記配置テンプレートの画像の前記出力信号と、送信された前記対象者の前記収集画像の前記出力信号とを受信し、一方を他方と混合して前記対象者の前記収集画像と選択された前記配置テンプレートとの合成画像を表現する出力信号にし、前記対象者の前記収集画像と選択された前記配置テンプレートとの前記合成画像の前記出力信号を前記サーバに送信し、
前記サーバは、前記ミキサから受信した前記対象者の前記収集画像と選択された前記配置テンプレートとの前記合成画像を表現する前記出力信号を有し、
前記サーバは、前記対象者の前記収集画像と選択された前記配置テンプレートとの前記合成画像を表現する前記出力信号を、前記無線ネットワーク経由で前記無線携帯用機器に送信し、
前記無線携帯用機器は前記ディスプレイを有し、
前記ディスプレイは、前記対象者の前記収集画像と選択された前記配置テンプレートとの前記合成画像を表現する前記出力信号を受信し、
前記ディスプレイ及び前記ビデオカメラは、前記ビデオカメラで前記対象者の画像を収集して、前記対象者が前記合成画像を見えるようにして、前記対象者が、前記対象者の前記頭部の画像を、特定の前記配置テンプレートの頭部の角度位置と実質的に同じ角度位置で、前記配置テンプレートの頭部に合わせて配置できるようにされており、
前記サーバは、前記対象者の前記収集画像のライブラリを保存する保存手段を備え、
前記サーバは、受信した前記対象者の前記収集画像の信号を前記保存手段に送信し、
前記保存手段は、前記対象者の前記収集画像の信号を受信して、前記対象者の保存画像として保存し、前記対象者が前記配置テンプレートの頭部と実質的に合わせて配置された前記対象者の前記頭部を有する場合、前記対象者の前記保存画像は、特定の前記配置テンプレートの頭部の角度位置と実質的に同じ前記対象者の頭部の角度位置を有し、
保存された前記収集画像のライブラリの画像は、それぞれ互いに異なり、
保存された前記収集画像のライブラリの画像の対象者の頭部の角度位置は、それぞれ互いに異なり、
保存された前記収集画像のライブラリの画像の対象者の頭部の角度位置のそれぞれは、前記配置テンプレートのライブラリの中の選択された前記配置テンプレートの頭部の角度位置と対応し、実質的に同じであって、かつ合わせて配置され、
保存された前記収集画像のそれぞれは、フォトリアリスティックな人間のトーキングヘッドの異なるフレームを表現する、
フォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記サーバは、前記配置テンプレートのライブラリを備えるコンピュータを含む、請求項２３に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記サーバは、前記コントローラを備えるコンピュータを含む、請求項２３に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記サーバは、少なくとも１つのプログラムを備えるコンピュータを含み、前記少なくとも１つのプログラムは前記ミキサを備える、請求項２３に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記サーバは、前記保存手段を備えるコンピュータを含む、請求項２３に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記対象者の前記収集画像は、特定の前記配置テンプレートの頭部の角度位置に対応する前記対象者の頭部の少なくとも１つの顔の特徴の追加の収集画像をさらに備え、前記収集画像のライブラリは、様々な前記対象者の頭部の角度位置のそれぞれで、前記少なくとも１つの顔の特徴の保存された画像をさらに備え、前記顔の特徴の保存された画像のそれぞれは、前記フォトリアリスティックな人間のトーキングヘッドの追加のフレームを表現する、請求項２３に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記少なくとも１つの顔の特徴は、様々な口の形を備える、請求項２８に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記少なくとも１つの顔の特徴は、様々な目の形を備える、請求項２８に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記少なくとも１つの顔の特徴は、様々な目の形を備える、請求項２９に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記サーバは、少なくとも１つのプログラムを備えるコンピュータを含み、前記少なくとも１つのプログラムは、制御プログラムを備える前記コントローラを含む、請求項２３に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記配置テンプレートは少なくとも１つの特徴を有し、前記制御プログラムは、選択された前記配置テンプレートの前記少なくとも１つの特徴を制御するようにされている、請求項３２に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記対象者の前記収集画像は少なくとも１つの特徴を有し、前記制御プログラムは、前記対象者の前記収集画像の前記少なくとも１つの特徴を制御するようにされている、請求項３２に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記対象者の前記収集画像は少なくとも１つの特徴を有し、前記制御プログラムは、前記対象者の前記収集画像の前記少なくとも１つの特徴を制御するようにされている、請求項３３に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記配置テンプレートのライブラリは、少なくとも２つの前記配置テンプレートのライブラリを備える、請求項２４に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記配置テンプレートのライブラリのそれぞれは、様々な顔の特徴を有する人間のトーキングヘッドを表現する、請求項３６に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記ミキサは、ソフトウェアミキサを備える、請求項２３に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記無線ネットワークは、分散ネットワークをさらに備える、請求項２３に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記分散ネットワークは、インターネットを備える、請求項３９に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記無線ネットワークは、携帯電話ネットワーク、無線ネットワーク、無線デジタルネットワーク、分散ネットワーク、インターネット、グローバルネットワーク、広域ネットワーク、都市規模ネットワーク、ローカルエリアネットワーク、及びこれらの組み合わせのうちのいずれかである、請求項２３に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記無線携帯用機器は、セル方式の携帯電話（ｃｅｌｌｐｈｏｎｅ）、電子手帳、ＰＤＡ、インターネットベースの電話、携帯電話（ｐｏｒｔａｂｌｅｐｈｏｎｅ）、パーソナルコンピュータ、ノート型コンピュータ、タブレットコンピュータ、ビデオ電話、テレビ、携帯用テレビ、無線デジタルカメラ、無線ビデオカメラ、ディスプレイ付き無線カメラ、電子メール端末、インスタントメッセージ端末、ＰＣ電話、ビデオ会議端末、移動電話（ｍｏｂｉｌｅｐｈｏｎｅ）、手動操作機器、無線端末及び無線携帯端末のうちのいずれかである、請求項２３に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記サーバは、受信した前記収集画像の前記出力信号をコンピュータ読取可能フォーマットに変換するようにされているコンピュータを備える、請求項２３に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
前記フォトリアリスティックな人間のトーキングヘッドを作成するための装置は、自分でフォトリアリスティックな人間のトーキングヘッドを作成するための装置である、請求項２３に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための装置。
フォトリアリスティックな人間のトーキングヘッドを作成するための機器であって、
配置テンプレートのライブラリと、コントローラと、ビデオカメラと、コンピュータと、ディスプレイと、様々な対象者の頭部の角度位置で前記対象者の頭部を含む前記対象者の収集画像のライブラリを保存する保存手段とを備え、
前記配置テンプレートは、それぞれ互いに異なるとともに、前記配置テンプレートの頭部の傾き、前記配置テンプレートの頭部のうなずき及び前記配置テンプレートの頭部の回転構成要素を備える前記テンプレートの頭部の角度位置を有する前記フォトリアリスティックな人間のトーキングヘッドの配置テンプレートのフレームを表現し、
前記配置テンプレートのフレームは、それぞれ互いに異なり、
前記配置テンプレートの頭部の角度位置は、それぞれ互いに異なり、
前記コントローラは、特定の前記配置テンプレートの頭部の角度位置に対応して、前記配置テンプレートのライブラリから前記配置テンプレートを選択し、前記配置テンプレートを表現する画像の出力信号を有し、
前記ビデオカメラは、前記対象者の頭部の傾き、前記対象者の頭部のうなずき及び前記対象者の頭部の回転構成要素を備えた頭部の角度位置を有する前記対象者の画像を収集し、
前記ビデオカメラは、前記対象者の前記収集画像を表現する出力信号を有し、
前記コンピュータは、前記対象者の前記収集画像を表現する前記ビデオカメラの前記出力信号を受信する入力を有し、
前記コンピュータはミキサを有し、
前記コンピュータは、選択された前記配置テンプレートの画像の前記出力信号を前記コントローラから受信し、選択された前記配置テンプレートの画像の前記出力信号と、受信した前記対象者の前記収集画像の前記出力信号とを前記ミキサに送信し、
前記ミキサは、選択された前記配置テンプレートの画像の前記出力信号と、送信された前記対象者の前記収集画像の前記出力信号とを受信し、一方を他方と混合して前記対象者の前記収集画像と選択された前記配置テンプレートとの合成画像を表現する出力信号にし、前記対象者の前記収集画像と選択された前記配置テンプレートとの前記合成画像の前記出力信号を前記コンピュータに送信し、
前記コンピュータは、前記ミキサから受信した前記対象者の前記収集画像と選択された前記配置テンプレートとの前記合成画像を表現する前記出力信号を有し、
前記ディスプレイは、前記対象者の前記収集画像と選択された前記配置テンプレートとの前記合成画像を表現する前記コンピュータの前記出力信号を受信し、
前記ディスプレイ及び前記ビデオカメラは、前記ビデオカメラで前記対象者の画像を収集して、前記対象者が前記合成画像を見えるようにして、前記対象者が、前記対象者の前記頭部の画像を、特定の前記配置テンプレートの頭部の角度位置と実質的に同じ角度位置で、前記配置テンプレートの頭部に合わせて配置できるようにされており、
前記コンピュータは、受信した前記対象者の前記収集画像の信号を前記保存手段に送信し、
前記保存手段は、前記対象者の前記収集画像の信号を受信して、前記対象者の保存画像として保存し、前記対象者が前記配置テンプレートの頭部と実質的に合わせて配置された前記対象者の前記頭部を有する場合、前記対象者の前記保存画像は、特定の前記配置テンプレートの頭部の角度位置と実質的に同じ前記対象者の頭部の角度位置を有し、
保存された前記収集画像のライブラリの画像は、それぞれ互いに異なり、
保存された前記収集画像のライブラリの画像の対象者の頭部の角度位置は、それぞれ互いに異なり、
保存された前記収集画像のライブラリの画像の対象者の頭部の角度位置のそれぞれは、前記配置テンプレートのライブラリの中の選択された前記配置テンプレートの頭部の角度位置と対応し、実質的に同じであって、かつ合わせて配置され、
保存された前記収集画像のそれぞれは、フォトリアリスティックな人間のトーキングヘッドの異なるフレームを表現する、
フォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記コンピュータは、前記配置テンプレートのライブラリを備える、請求項４５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記コンピュータは、前記コントローラを備える、請求項４５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記コンピュータは、少なくとも１つのプログラムを備え、前記少なくとも１つのプログラムは前記ミキサを備える、請求項４５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記コンピュータは、前記保存手段を備える、請求項４５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記対象者の前記収集画像は、特定の前記配置テンプレートの頭部の角度位置に対応する前記対象者の頭部の少なくとも１つの顔の特徴の追加の収集画像をさらに備え、前記収集画像のライブラリは、様々な前記対象者の頭部の角度位置のそれぞれで、前記少なくとも１つの顔の特徴の保存された画像をさらに備え、前記顔の特徴の保存された画像のそれぞれは、前記フォトリアリスティックな人間のトーキングヘッドの追加のフレームを表現する、請求項４５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記少なくとも１つの顔の特徴は、様々な口の形を備える、請求項５０に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記少なくとも１つの顔の特徴は、様々な目の形を備える、請求項５０に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記少なくとも１つの顔の特徴は、様々な目の形を備える、請求項５１に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記コンピュータは、前記コントローラを含む少なくとも１つのプログラムを備え、前記コントローラは制御プログラムを備える、請求項４５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記配置テンプレートは少なくとも１つの特徴を有し、前記制御プログラムは、選択された前記配置テンプレートの前記少なくとも１つの特徴を制御するようにされている、請求項５４に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記対象者の前記収集画像は少なくとも１つの特徴を有し、前記制御プログラムは、前記対象者の前記選択画像の前記少なくとも１つの特徴を制御するようにされている、請求項５４に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記対象者の前記収集画像は少なくとも１つの特徴を有し、前記制御プログラムは、前記対象者の前記選択画像の前記少なくとも１つの特徴を制御するようにされている、請求項５５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記配置テンプレートのライブラリは、少なくとも２つの前記配置テンプレートのライブラリを備える、請求項４６に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記配置テンプレートのライブラリのそれぞれは、様々な顔の特徴を有する人間のトーキングヘッドを表現する、請求項５８に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記ミキサは、ソフトウェアミキサを備える、請求項４５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記ディスプレイは、モニタ、ディスプレイ及びテレビのうちのいずれかである、請求項４５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記ビデオカメラは、前記ディスプレイに取り付けられていて、前記ディスプレイはモニタを備える、請求項４５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記ビデオカメラは、前記ディスプレイの上に取り付けられていて、前記ディスプレイはモニタを備える、請求項４５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記ビデオカメラを支持するようにされた調整可能な片持支持アームを有する、請求項４５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記調整可能な片持支持アームは、前記ディスプレイに取り付けられていて、前記ディスプレイはモニタを備える、請求項６４に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記サーバは、受信した前記収集画像の前記出力信号をコンピュータ読取可能フォーマットに変換するようにされているコンピュータを備える、請求項４５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
前記フォトリアリスティックな人間のトーキングヘッドを作成するための機器は、自分でフォトリアリスティックな人間のトーキングヘッドを作成するための機器である、請求項４５に記載のフォトリアリスティックな人間のトーキングヘッドを作成するための機器。
フォトリアリスティックな人間のトーキングヘッドを作成する方法であって、
配置テンプレートは、それぞれ互いに異なるとともに、前記配置テンプレートの頭部の傾き、前記配置テンプレートの頭部のうなずき及び前記配置テンプレートの頭部の回転構成要素を備える前記テンプレートの頭部の角度位置を有する前記フォトリアリスティックな人間のトーキングヘッドの配置テンプレートのフレームを表現し、前記配置テンプレートのフレームはそれぞれ互いに異なり、前記配置テンプレートの頭部の角度位置はそれぞれ互いに異なる前記配置テンプレートにおいて、前記配置テンプレートのライブラリから配置テンプレートを選択するステップと、
対象者の画像をビデオカメラで収集するステップと、
前記対象者の収集画像を、ミキサを備えるコンピュータに送信するステップと、
前記対象者の前記収集画像を、前記ミキサにおいて選択された前記配置テンプレートと混合し、前記対象者の前記収集画像と選択された前記配置テンプレートとの合成画像を作成するステップと、
前記合成画像を、前記対象者に表示するために、前記対象者が、前記対象者の頭部の画像を選択された前記配置テンプレートの画像に合わせて配置することを補助するようにされているディスプレイに送信するステップと、
前記対象者の頭部の傾き、前記対象者の頭部のうなずき及び前記対象者の頭部の回転構成要素を備える前記対象者の頭部の角度位置を有する前記対象者の頭部を、選択された前記配置テンプレートの頭部の角度位置と実質的に同じ角度位置で、選択された前記配置テンプレートの頭部の画像に実質的に合わせて配置するステップと、
実質的に配置が合わされた前記対象者の画像を収集して、収集画像のライブラリに保存するステップとを含み、
前記保存された収集画像のそれぞれは、異なる対象者の角度位置を有し、選択された前記配置テンプレートの頭部の角度位置と実質的に同じで、前記保存された収集画像のそれぞれは、フォトリアリスティックな人間のトーキングヘッドの異なるフレームを表現する、フォトリアリスティックな人間のトーキングヘッドを作成する方法。
前記コンピュータは少なくとも１つのプログラムを備え、前記少なくとも１つのプログラムはミキサプログラムを有する前記ミキサを備え、前記ミキサプログラムは、前記対象者の前記収集画像と選択された前記配置テンプレートの画像から前記合成画像を作成するようにされている、請求項６８に記載のフォトリアリスティックな人間のトーキングヘッドを作成する方法。
選択された前記配置テンプレートの頭部の角度位置と、実質的に同じ角度位置で、実質的に配置を合わされた前記対象者の頭部の様々な顔の特徴を捉えるステップと、
前記収集画像のライブラリに前記様々な顔の特徴の画像を保存するステップとをさらに備え、保存された前記顔の特徴の画像は、前記フォトリアリスティックな人間のトーキングヘッドの追加フレームを表現する、請求項６８に記載のフォトリアリスティックな人間のトーキングヘッドを作成する方法。
口の形を捉えるステップをさらに備える、請求項６８に記載のフォトリアリスティックな人間のトーキングヘッドを作成する方法。
目の形を捉えるステップをさらに備える、請求項６８に記載のフォトリアリスティックな人間のトーキングヘッドを作成する方法。
口の形及び目の形を捉えるステップをさらに備える、請求項６８に記載のフォトリアリスティックな人間のトーキングヘッドを作成する方法。
追加の顔の特徴を捉えるステップをさらに備える、請求項７３に記載のフォトリアリスティックな人間のトーキングヘッドを作成する方法。
前記フォトリアリスティックな人間のトーキングヘッドを作成するための方法は、自分でフォトリアリスティックな人間のトーキングヘッドを作成するための方法である、請求項６８に記載のフォトリアリスティックな人間のトーキングヘッドを作成する方法。