JP2011087105A

JP2011087105A - 画像処理装置及びその制御方法、並びにプログラム及び媒体

Info

Publication number: JP2011087105A
Application number: JP2009238159A
Authority: JP
Inventors: Yasushi Kachi; 泰加地
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-10-15
Filing date: 2009-10-15
Publication date: 2011-04-28
Anticipated expiration: 2029-10-15
Also published as: JP5464965B2

Abstract

【課題】人物の顔照合を必要としない簡単な処理構成で、動画像データから代表人物が写ったシーンを特定することができる画像処理装置を提供する。
【解決手段】動画像データから人物の顔が含まれる１つ以上のフレームを特定し、さらにその特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定し、特定されたフレーム範囲の時間を比較しそれが最長であるフレーム範囲を取得する。取得したフレーム範囲の中から、代表画像となるフレームを特定する。
【選択図】図１

Description

本発明は、ビデオ再生装置などの画像処理装置及びその制御方法、並びにプログラム及び媒体に関する。

デジタルビデオカメラなどで動画撮影をして記録した複数のファイルは、再生時にサムネイルで表示されることが一般的に行われている。サムネイルは、ユーザに対して動画像ファイルの内容を把握しやすくすることを目的として表示されるものであり、従来ほとんど多くのサムネイルには動画像ファイル中の最初のシーンが使われていた。

しかしながら、このように最初のシーンをサムネイルに使用する場合には次のような問題がある。例えば、特定の人物に注目して撮影した動画像ファイルをサムネイルにする場合である。このような動画ファイルでは、撮影の対象とした人物が写っているシーンをサムネイルにするとユーザはファイルの内容を把握しやすくなることが考えられる。しかし、最初のシーンはその肝心の人物が写っていないこともあるので、必ずしもサムネイルに適しているとは言えない。

上記のように、人物を対象として撮影した動画像ファイルからサムネイルにふさわしい代表画像を選択するためには、顔検出技術を利用する方法がある。具体的には、動画像中から人物が登場したシーンを検出してサムネイルを作成する。これにより、動画像ファイルの内容をユーザに対してより分かりやすくすることができる。ただし、これを実現するためには、動画像ファイル中に複数の顔が登場する場合でも、処理の対象とする代表人物を特定する必要がある。

この代表人物を特定するための技術として、特許文献１では、動画撮影中に検出した顔を認識して登録し、各々の顔の検出頻度を算出して累積検出回数が高い顔に焦点を合わせて撮影するデジタルカメラについて紹介されている。この技術では、検出した顔を認識して登録するために、個人認識の技術を用いている。即ち、人物の顔の特徴を元に個人の照合を行う個人認識の技術によって各登場人物の顔の累積検出回数を記録している。

特開２００７−６０３３号公報

しかしながら、上記特許文献１の技術では、個人認識の技術を用いているため、人物の顔を検出後にさらに個人の照合を行うため、処理の構成が複雑になるという問題があった。

また、長時間の撮影で記録した動画では、検出される顔が多数になることが予想され、上記特許文献１の累積検出回数を用いる方法によって代表人物を特定することは困難であった。

本発明は上記従来の問題点に鑑み、人物の顔照合を必要としない簡単な処理構成で、動画像データから代表人物が写ったシーンを特定することができる画像処理装置及びその制御方法、並びにプログラム及び媒体を提供することを目的とする。

上記目的を達成するために、本発明は、動画像データを処理する画像処理装置であって、前記動画像データから人物の顔が含まれる１つ以上のフレームを特定するフレーム特定手段と、前記フレーム特定手段により特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定するフレーム範囲特定手段と、前記フレーム範囲の時間が最長であるフレーム範囲を取得するフレーム範囲取得手段と、前記フレーム範囲取得手段によって取得したフレーム範囲の中から、代表画像となるフレームを特定する代表画像特定手段とを備えたことを特徴とする。

本発明によれば、人物の顔照合を必要としない簡単な処理構成で、動画像データから代表画像となるフレームを特定することが可能になる。

第１の実施の形態におけるビデオ再生装置の構成を示すブロック図である。属性情報の内容を示す図である。顔の検出状況とこれに関する属性情報を示す図である。主顔フレーム抽出部の動作を示すフローチャートである。フレーム範囲テーブルとフレーム群の時間テーブルを示す図である。作成したサムネイルの様子を示す図である。第２の実施の形態におけるビデオ再生装置の構成と属性情報を示す図である。第３の実施の形態におけるビデオ再生装置の構成を示すブロック図である。

以下、本発明の実施の形態について、図面を参照しながら説明する。

［第１の実施の形態］
第１の実施の形態では、外部のビデオカメラで記録した動画像データから、顔を検出したフレーム情報と、連続したフレームで顔を追跡した情報を取得する場合について説明する。

＜ビデオ再生装置の全体的な構成＞
図１は、本発明の第１の実施の形態における画像処理装置を備えたビデオ再生装置の概略の構成を示すブロック図である。

このビデオ再生装置１００は、制御部１０１、記録部１０２、動画像復号部１０３、表示部１０４、操作部１０５、及び主顔フレーム抽出部１０６から構成されている。

制御部１０１は、装置全体を制御し、またフレーム範囲取得手段の一例として機能する。制御部１０１は、記録部１０２に記録されている動画像データを読み出して動画像復号部１０３に入力する。ここで読み出す動画像データとは、動画中のビデオとオーディオのデータが格納されているファイルのことである。例えば、ＭＰＥＧ−２ＴＳ形式のファイルが動画像データとして利用できる。

記録部１０２は、装置の制御プログラムを格納するＲＯＭや各種プログラム実行時の作業領域となるＲＡＭ、さらにビデオ再生装置１００に対して着脱可能な記録媒体（例えばＳＤカード）を用いて構成される。ＳＤカードは、外部のビデオカメラ等で記録した動画像データ（ＭＰＥＧ−２ＴＳ形式のファイルと、動画ファイルに付属する属性情報（後述））を取得するために利用される。

動画像復号部１０３はＭＰＥＧ−２ＴＳ形式のファイルを読み出し、復号化して非圧縮画像データとして表示部１０４に送り出す。表示部１０４は、動画像、又は動画像ファイルのサムネイル画像などを生成して表示するものであり、入力された非圧縮画像データを適切なサイズにリサイズし、グラフィック描画としてＬＣＤなどの表示器で表示する。

操作部１０５は、ビデオ再生装置１００を操作する各ボタンを備えている。ユーザがこれらのボタンを押すと、対応した要求が制御部１０１に送られる。そして、制御部１０１は要求に応じた動作を行うために装置全体を制御する。

主顔フレーム抽出部１０６は、記録部１０２から読み出した動画像データから、人物の顔を最も長く連続して検出したフレーム群の情報を取得するモジュールである。主顔フレーム抽出部は、画像データ取得部１０７、フレーム特定部１０８、フレーム範囲特定部１０９、フレーム長比較部１１０から構成される。主顔フレーム抽出部１０６は、記録部１０２に格納されたプログラムが実行されることによって、その機能が実現される。

＜主顔フレーム抽出部１０６の詳細＞
（Ａ）主顔フレーム抽出部１０６の構成
次に、主顔フレーム抽出部１０６の各構成要素について説明する。

画像データ取得部１０７は、記録部１０２に記録されている動画像データから、動画ファイル中で人物の顔部分を検出した情報（属性情報）を取得する。図２（ａ）に、属性情報のデータ構造を示す。

図２（ａ）に示すように、上記の属性情報は、フレーム情報２０１と顔情報識別値２０２から成る。フレーム情報２０１は、動画の各フレームを特定するためのタイムコードやフレーム番号であり、顔情報識別値２０２は、検出した人物の顔ごとに割り振られる顔ＩＤである。

外部のビデオカメラは、動画フレームごとに、図２（ａ）に示すような構成のデータを記録する。つまり属性情報は、全体として図２（ｂ）のように要素数ｎ（全動画フレーム数）の配列で示される。１つのフレームには、検出された顔の数だけ顔ＩＤが記録される。図２（ｂ）の例では、要素１と要素２のフレームでは、１つ顔（顔ＩＤ１）が検出されているのに対し、要素ｍ（＜ｎ）のフレームでは、複数の顔（顔ＩＤ１と顔ＩＤ２）が検出されている。また、外部のビデオカメラは、同一の顔を検出もしくは追跡したとき、同じ顔ＩＤを割り当てる。よって、図２（ｂ）の例からは、要素１〜要素ｍのフレーム間で同一人物の顔（顔ＩＤ１）が連続して検出されていることが判る。

フレーム特定部１０８は、前記属性情報を解析して、動画中で人物の顔が１つ以上含まれるフレームを特定する。顔が１つ以上含まれるフレームとは、属性情報の顔情報識別値２０２の領域に１つ以上の顔ＩＤが格納されたフレームを示している。そこで、フレーム特定部１０８は、属性情報の顔情報識別値２０２に顔ＩＤが格納されているか否かを判断し、その結果、顔ＩＤが格納されているフレームを特定する。そしてフレーム特定部１０８は、ここで特定したフレームのフレーム情報２０１を登録する。前述したように、フレーム情報２０１にはタイムコードやフレーム番号が格納されているため、この情報を取得することによって目的のフレームを特定できることになる。

フレーム範囲特定部１０９は、同一の顔が連続して検出されたフレーム群の範囲を特定する。「顔が連続して検出された」とは、同一の顔ＩＤが連続するフレームに含まれている状態を示す。具体的には、フレーム範囲特定部１０９は、フレーム情報２０１に格納されているフレームのタイムコードを見て、フレームが連続しているかどうかを判断する。そして、連続する各フレームの属性情報に同一の顔ＩＤが含まれているとき、同一の顔が連続して検出されたフレーム群であると判断する。

フレーム範囲特定部１０９は、顔ＩＤごとに連続して検出されたフレーム群を特定し、それらのフレーム群の始点と終了点に当たるフレームのタイムコードを取得する。ただし、ここでフレーム群の範囲を特定するために別のパラメータを利用してもよい。例えば、（１）フレームの開始点のタイムコードとフレーム範囲の時間、（２）フレームの開始点のフレーム番号と終了点のフレーム番号、（３）フレームの開始点のフレーム番号とフレーム範囲のフレーム数、などである。上記のフレーム範囲の「時間」や「フレーム数」は、属性情報のフレーム情報２０１から計算可能な値である。

フレーム長比較部１１０は、同一の顔が連続検出された複数のフレーム群を比較し、フレーム群の範囲が最長であるものを決定する。そのため、フレーム長比較部１１０は、フレーム群の始点と終了点のタイムコードの差を計算し、候補となるフレーム群におけるそれらの値を比較して最長となるフレーム群の範囲を決定する。

（Ｂ）主顔フレーム抽出部における動画像データの処理例
次に、実際に記録した動画像データを主顔フレーム抽出部１０６で処理する例を説明する。

説明の手順として、始めに前述した属性情報をビデオカメラで記録した動画像ファイルにおける顔検出状況を説明し、次にその動画ファイルの属性情報を基に主顔フレーム抽出部１０６が行う動作を説明する。ただし、ユーザは記録した動画像データをＳＤカード（記録部１０２）に記録していることを前提とする。

図３（ａ）は、記録した動画像ファイル中において、顔の検出状況を示す概略図である。

図３（ａ）の３ａは検出された顔ＩＤであり、この例では顔ＩＤ１〜ＩＤ４といった複数の顔を検出している。３ｂはフレームのタイムコードであり、ここではタイムコードｔ１〜ｔ８を記録している（ただし、ｔ１〜ｔ８はそれぞれが連続したフレームのタイムコードではない）。また、棒グラフの横の長さが１つの顔を連続したフレームで検出した期間である。

そのため、顔ＩＤ４に割り当てられた顔については次のような状況が考えられる。（１）顔ＩＤ１、もしくは顔ＩＤ３の人物が再度検出された場合、（２）顔ＩＤ１と顔ＩＤ３以外の顔が新たに検出された場合、である。このように、同一人物の顔であっても属性情報には新しい顔ＩＤ（顔ＩＤ４）として記録される。また、異なる顔ＩＤが同時に検出されている期間では、動画撮影中で同時に複数の人物が写っていることを示している。例えばタイムコードｔ４のフレームの属性情報には、顔ＩＤ１〜ＩＤ３の３人の顔ＩＤが記録されている。

図３（ｂ）は、図３（ａ）の動画像ファイルに付属して記録された属性情報の詳細（ｔ１〜ｔ８以外のタイムコードは省略）を示す図である。

この属性情報には、各フレームに対応して顔検出された情報（フレームのタイムコードと、そのフレームで検出した顔ＩＤ）が記録されている。

（Ｃ）属性情報を基に主顔フレーム抽出部が行う動作
次に、図３（ｂ）に示す属性情報を基に主顔フレーム抽出部１０６が行う動作について、図４のフローチャートを用いて説明する。

始めにユーザは、動画像データが記録されたＳＤカードを記録部１０２のＳＤスロットに挿入する。

ステップＳ４０１では、画像データ取得部１０７は、ＳＤカードに記録されている動画ファイルの属性情報を取得し、続くステップＳ４０２で、Ｎ（フレームの順番を示す数）に最初のフレームであることを示す“１”を代入する。

次のステップＳ４０３では、フレーム特定部１０８は、Ｎ番目のフレームの属性情報に記録されている顔ＩＤ（顔ＩＤ１〜顔ＩＤ４）を確認し、続くステップＳ４０４で、顔ＩＤが少なくとも１つ含まれているフレームのタイムコードを記録する。次のステップＳ４０５では、フレーム特定部１０８は、Ｎ番目のフレームが動画ファイルのフレーム数と等しいかどうかを確認し、等しくない限りステップＳ４０６でＮを１だけインクリメントしてステップＳ４０３の処理まで戻る。フレーム特定部１０８は、このような処理を動画ファイルのフレーム数回だけ繰り返す。そして、ステップＳ４０７では、Ｍ（検出した人数）に１人目を示す“１”を代入する。

次のステップＳ４０８では、フレーム範囲特定部１０９は、前記特定したフレームの中から、顔ＩＤ１を含むフレーム群を特定し、その始点と終了点のタイムコード（ｔ１〜ｔ４）を取得する。これによって、顔ＩＤ１を連続検出したフレーム群の範囲を特定できる。次のステップＳ４０９では、フレーム範囲特定部１０９は、Ｍが動画ファイルで検出した人数と等しいかどうかを確認し、等しくない限りステップＳ４１０でＭを１だけインクリメントしてステップＳ４０８の処理まで戻る。フレーム範囲特定部１０９は、このような処理を顔ＩＤ２〜顔ＩＤ４に対しても行い、それぞれ連続検出したフレーム群の範囲を特定する。その結果、フレーム範囲特定部１０９は図５（ａ）に示すようなフレーム範囲テーブルを作成する。

次のステップＳ４１１では、フレーム長比較部１１０は、前記フレーム範囲テーブルにより、顔ＩＤごとのフレーム範囲の時間の長さを計算し、図５（ｂ）に示すようなフレーム群の時間テーブルを作成する。続くステップＳ４１２では、フレーム範囲比較部１１０は、前記作成した時間テーブルからフレーム群の長さを比較し、最長となる顔ＩＤ２のフレーム群の範囲（始点と終了点のタイムコード）を前記フレーム範囲テーブルから取得する。

以上が、主顔フレーム抽出部１０６が行う動作の説明である。

＜サムネイルの選択方法＞
前記特定した最長のフレーム群の範囲内で連続して登場する顔ＩＤは、動画撮影時に最も注目して撮影された人物（以下、代表人物と記す）の顔である可能性が高い。

主顔フレーム抽出部１０６が特定したフレーム群の情報（始点と終了点のタイムコード）は、上記の代表人物（代表画像）が登場するフレーム群を特定できるものである（代表画像特定）。したがって、例えば主顔フレーム抽出部１０６が特定したフレーム群の範囲内から、動画像ファイルのサムネイルにする画像となるフレームを選択すれば、ユーザに対してファイルの内容を把握しやすいサムネイルを提供できる。

そこで以下では、主顔フレーム抽出部１０６で特定したフレーム群の範囲から、動画像ファイルのサムネイルにするフレームを選択する方法を説明する。

ここでは、目的が異なる２つのサムネイル選択方法について説明する。即ち、（１）代表人物以外の人物が最も少なく写っているフレームをサムネイルとする場合（選択方法１）と、（２）代表人物以外の人物が最も多く写っているフレームをサムネイルとする場合（選択方法２）を挙げる。

図３（ａ）で説明した動画像ファイルに登場する顔の検出状況を基に、選択方法１と選択方法２について説明する。

選択方法１では、「代表人物以外の人物が最も少なく写っている」という条件を満たすフレームはタイムコードｔ５〜ｔ６と、タイムコードｔ７〜ｔ８の間にあるフレームであり、これがサムネイルの候補となる。

制御部１０１はこの候補となるフレームを特定するために、フレーム範囲特定部１０９が作成するフレーム範囲テーブル（図５（ａ）参照）を取得し、前記条件を満たすタイムコードの期間（ｔ５〜ｔ６、ｔ７〜ｔ８）を求める。そして、制御部１０１は、さらにこのフレーム範囲から時間軸で最も先頭に近いフレーム（タイムコードｔ５）をサムネイルとし、記録部１０２にサムネイル情報となるタイムコードｔ５を記録する。

検出される顔が多くなれば、特定の１人だけが検出されたフレームを取り出すことは難しくなる。このような状況を考慮して、候補とするフレームの条件を、代表人物以外の人物が最も少なく検出されているフレームとする。

なお、上記の例では、候補となるフレームの中から最も先頭に近いフレームをサムネイルとした。しかし、候補フレームの中からサムネイルを決定するために別の条件を与えてもよい。例えば、代表人物の顔がより大きく、より画面中心近くに撮影されているフレームをサムネイルにする方法などがある。

次に、選択方法２について説明する。上記選択方法１のときと同様な方法でサムネイルにするフレーム（タイムコードｔ３）を特定する。詳細の動作の説明は省略する。

代表人物が登場するシーンの中では、登場時間が短い人物、つまり注目度が低い（可能性が高い）人物も登場することもある。そのため、代表人物が登場したシーンの中で登場した時間（制限時間と呼ぶ）が一定未満の人物を登場人物として算出しない方法もある。例えば、以下に前記制限時間を１２秒とした場合の例を説明する。

代表人物とする顔ＩＤ２が検出された期間（タイムコード間隔）は、タイムコードｔ２〜ｔ８である。この期間のうち、他の顔が登場している期間はそれぞれ、顔ＩＤ１がタイムコードｔ２〜ｔ４（１５秒）、ＩＤ３がタイムコードｔ３〜ｔ５（１０秒）、タイムコードｔ６〜ｔ７（１４秒）である。ここでは、制限時間が１２秒未満である顔ＩＤ３は登場人物として算出しない。よって、それ以外の人物が一番多く写っているシーン（タイムコードｔ２〜ｔ４と、タイムコードｔ６〜ｔ７）の中から、サムネイル生成するフレームを選択する。

＜サムネイルの表示方法＞
以上で決定したサムネイルを表示する方法について説明する。

制御部１０１は、記録部１０２に記録しているサムネイル情報（フレームのタイムコード）を読み取り、記録部１０２から該当するフレームの画像データを取得する。そして、この画像データを画像動画像復号部１０３で復号化し、表示部１０４に出力する。これにより、表示部１０４は目的のフレームをサムネイル表示することができる。

図６は、作成したサムネイルの様子を示す図である。

図６において、６００は表示部１０４で表示したＧＵＩを示しており、ここではサムネイル６１０とサムネイル６２０が２枚並んで表示されている。サムネイル６１０は、前記選択方法１におけるサムネイルである。人物６１２が顔ＩＤ２の代表人物である、人物６１１はこのフレームの直前まで追跡されていた顔ＩＤ３の人物であり、このサムネイルのフレームで顔の追跡からはずれている。

また、サムネイル６２０は前記選択方法２におけるサムネイルである。人物６２２が顔ＩＤ２の代表人物、人物６２１が顔ＩＤ１、そして人物６２３が顔ＩＤ３である。

＜第１の実施の形態に係る利点＞
本実施の形態によれば、記録された動画ファイルの中で、最も長く連続して検出された顔をそのファイル内の代表人物であると判断し、そのシーンを抽出する。これにより、検出した人物の顔照合（個人認識の技術）を必要としない簡単な処理構成で、動画像データから代表人物が写ったシーンを特定することが可能であり、代表人物が写っているシーンの抽出情報をユーザに提供することができる。即ち、ユーザは、動画ファイル中の代表人物のワンシーンをサムネイルで観ることができるので、それぞれのファイルの中で、中心に撮影された人物を簡単に確認することができる。

［第２の実施の形態］
次に、本発明の第２の実施の形態について説明する。第２の実施の形態では、外部のビデオカメラで記録した動画像データから、顔を検出したフレーム情報（タイムコード）のみを取得できる場合、つまり連続したフレームで顔を追跡した情報は取得できないような場合の例を説明する。

＜ビデオ再生装置の構成及び動作＞
図７（ａ）は、本発明の第２の実施の形態における画像処理装置を備えたビデオ再生装置の構成を示す概略のブロック図であり、図１と共通の要素には同一の符号を付し、その説明を省略する。

第２の実施の形態におけるビデオ再生装置７００は、制御部１０１、記録部１０２、動画像復号部１０３、表示部１０４、操作部１０５、及び主顔フレーム抽出部７１０から構成されている。

主顔フレーム抽出部７１０は、記録部１０２から読み出した動画像データから、人物の顔を最も長く連続して検出したフレーム群の情報を取得するモジュールである。主顔フレーム抽出部７１０は、画像データ取得部１０７、フレーム特定部１０８、フレーム範囲特定部１０９、フレーム長比較部１１０、及び顔追跡部７１１から構成される。

画像データ取得部１０７は、記録部１０２に記録されている属性情報を取得する。ただし、第２の実施の形態で読み出す属性情報は第１の実施の形態のそれとは異なり、図７（ｂ）で示されるデータ構造となっている。これは、図７（ｂ）に示すように、フレーム情報７０１、検出フラグ７０２、顔領域ｘ座標７０３、顔領域ｙ座標７０４、顔領域幅７０５、及び顔領域高さ７０６から構成される。

フレーム情報７０１は、動画の各フレームを特定するためのタイムコードやフレーム番号が格納される。検出フラグ７０２は、‘１’がそのフレームで人物の顔部分を検出したことを、‘０’が検出できなかったことを意味する。

第２の実施の形態において外部のビデオカメラが記録する属性情報は、図７（ｂ）に示すような構造体の型をもち、要素数が動画のフレーム数となる配列で表せる。また、１つのフレームで複数の顔を検出した場合、フレーム情報７０１以外の上記の各領域（７０２〜７０６）は、検出した顔の数だけ確保されて値が記録される。

顔追跡部７１１は、顔追跡処理を用いて同一の顔として識別できる顔対象に顔ＩＤを割り振る。具体的には、画像データ取得部１０７から前記属性情報を取得し、検出フラグ７０２が‘１’となるフレームを開始フレームとして、時間軸の順方向と逆方向のそれぞれに顔追跡処理を実行する。

顔追跡処理における同一顔の推定には、フレーム間の相関を利用する。即ち、前フレーム（第１のフレーム）における顔の位置と現フレーム（第２のフレーム）における顔位置との差が所定の範囲内であった場合に、同一の顔であると判定する手法を利用する（第１の顔位置取得手段、第２の顔位置取得手段、人物追跡手段）。これによって、顔追跡部７１１は同一の顔として判断した顔に顔ＩＤを割り振っていき、その結果、第１の実施の形態で利用した属性情報（図２（ａ））と同様なデータ構造をもつ顔検出情報を作成する。

＜第２の実施の形態における利点＞
本実施の形態によれば、主顔フレーム抽出部７１０は、前記顔検出情報を利用することにより、第１の実施の形態と同様の方法で同一人物が連続して含まれているフレーム群のうち最長であるフレーム群の範囲を抽出することができる。

さらに、このように抽出したフレーム群の範囲は、第１の実施の形態で説明した例と同じように動画ファイルのサムネイルを作成する際に利用することができる。

［第３の実施の形態］
次に、本発明の第３の実施の形態について説明する。第３の実施の形態では、属性情報に顔検出した情報を含まない場合の例を説明する。

＜ビデオ再生装置の構成及び動作＞
図８は、本発明の第３の実施の形態における画像処理装置を備えたビデオ再生装置の概略構成を示すブロック図であり、図１及び図７（ａ）と共通の要素には同一の符号を付しその説明を省略する。

このビデオ再生装置８００は、制御部１０１、記録部１０２、動画像復号部１０３、表示部１０４、操作部１０５、及び主顔フレーム抽出部８０６から構成されている。

主顔フレーム抽出部８０６は、動画像データを読み出して、人物の顔を最も長く連続して検出したフレーム群の情報を取得するモジュールである。主顔フレーム抽出部８０６は、画像データ取得部１０７、フレーム特定部１０８、フレーム範囲特定部１０９、フレーム長比較部１１０、顔追跡部７１１、及び顔検出部８１２から構成される。

画像データ取得部１０７は、動画像復号部１０３が復号化した非圧縮画像データを取得する。顔検出部８１２は、前記非圧縮画像データの各フレーム内に存在する顔の検出を行う。検出方法は公知の顔検出方法を用いる。顔検出の公知技術は、顔に関する知識（肌色情報、目・鼻・口などのパーツ）を利用する方法とニューラルネットに代表される学習アルゴリズムにより顔検出のための識別器を構成する方法などがある。具体的には特開２００２−２５１３８０号公報に記載のウェーブレット変換と画像特徴量を利用して顔検出する方法などが挙げられる。顔検出部８１２により検出される顔領域の情報は、図７（ｂ）に示したデータ構造と同様、顔を検出したフレーム情報（タイムコード）、各フレームの検出フラグ、フレーム検出した人数分の顔の位置、及び大きさ（幅と高さ）である。

よって主顔フレーム抽出部８０６は、顔検出部８１２により検出される顔領域の情報を顔追跡部７１１で処理することにより、第１の実施の形態と同様なデータ構造をもつ属性情報を作成できる。これにより、第１の実施の形態と同様の方法で同一人物が連続して含まれているフレーム群のうち最長であるフレーム群の範囲を抽出（始点と終了点のタイムコードを取得）することができる。

＜第３の実施の形態に係る利点＞
本実施の形態における構成と方法によれば、動画像データから顔検出した情報が取得できない場合であっても、同一人物が連続して含まれているフレーム群のうち最長であるフレーム群の範囲を抽出することができる。

［他の実施の形態］
なお、本発明の実施の形態は、ネットワーク又は各種記録媒体を介して取得したソフトウェア（プログラム）をパーソナルコンピュータ（ＣＰＵ，プロセッサ）にて実行することでも実現できる。

１０１制御部
１０２記録部
１０４表示部
１０６，７１０，８０６主顔フレーム抽出部
１０７画像データ取得部
１０８フレーム特定部
１０９フレーム範囲特定部
１１０フレーム長比較部

Claims

動画像データを処理する画像処理装置であって、
前記動画像データから人物の顔が含まれる１つ以上のフレームを特定するフレーム特定手段と、
前記フレーム特定手段により特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定するフレーム範囲特定手段と、
前記フレーム範囲の時間が最長であるフレーム範囲を取得するフレーム範囲取得手段と、
前記フレーム範囲取得手段によって取得したフレーム範囲の中から、代表画像となるフレームを特定する代表画像特定手段とを備えたことを特徴とする画像処理装置。
前記フレーム範囲取得手段は、
フレームの開始点のタイムコードと終了点のタイムコード、フレームの開始点のタイムコードとフレーム範囲の時間、フレームの開始点のフレーム番号と終了点のフレーム番号、及びフレームの開始点のフレーム番号とフレーム範囲のフレーム数のうち少なくともいずれか１つを前記フレーム範囲として取得することを特徴とする請求項１に記載の画像処理装置。
動画像データに含まれる属性情報を取得する手段を備え、
前記フレーム範囲特定手段は、前記属性情報に基づいて、同一人物が連続して含まれるフレーム範囲を特定することを特徴とする請求項１又は２に記載の画像処理装置。
動画像データに含まれる属性情報を取得する手段と、
前記属性情報から第１のフレームに含まれる人物の顔の位置を取得する第１の顔位置取得手段と、
前記属性情報から前記第１のフレームの次の第２のフレームに含まれる人物の顔の位置を取得する第２の顔位置取得手段と、
前記第１と前記第２の顔位置取得手段によって取得した顔の位置の差が所定の範囲内であった場合に当該人物が同一人物と判定する人物追跡手段とを備え、
前記フレーム範囲特定手段は、前記人物追跡手段により同一人物と判定される人物が連続して含まれるフレーム範囲を特定することを特徴とする請求項１又は２に記載された画像処理装置。
動画像データの各フレームから人物の顔を検出する顔検出手段と、
前記顔検出手段によって検出された、第１のフレームに含まれる人物の顔の位置を取得する第１の顔位置取得手段と、
前記第１のフレームの次の第２のフレームに含まれる人物の顔位置を取得する第２の顔位置取得手段と、
前記第１と前記第２の顔位置取得手段によって取得した顔の位置の差が所定の範囲内であった場合に当該人物が同一人物と判定する人物追跡手段とを備えたことを特徴とする請求項１又は２に記載の画像処理装置。
前記代表画像特定手段は、
前記フレーム範囲取得手段によって取得したフレーム範囲において、検出された人物の顔が最も少ないフレームを代表画像の候補とすることを特徴とする請求項１乃至５のいずれか一項に記載の画像処理装置。
前記代表画像特定手段は、
前記フレーム範囲取得手段によって取得したフレーム範囲において、検出された人物の顔が最も多いフレームを代表画像の候補とすることを特徴とする請求項１乃至５のいずれか一項に記載の画像処理装置。
前記代表画像の候補に基づいてサムネイル画像を生成することを特徴とする請求項６又は７に記載の画像処理装置。
動画像データを処理する画像処理装置の制御方法であって、
前記動画像データから人物の顔が含まれる１つ以上のフレームを特定するフレーム特定工程と、
前記フレーム特定工程により特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定するフレーム範囲特定工程と、
前記フレーム範囲の時間が最長であるフレーム範囲を取得するフレーム範囲取得工程と、
前記フレーム範囲取得工程によって取得したフレーム範囲の中から、代表画像となるフレームを特定する代表画像特定工程とを備えたことを特徴とする画像処理装置の制御方法。
動画像データを処理する画像処理装置の制御方法を実行するための、コンピュータで読み取り可能なプログラムであって、
前記動画像データから人物の顔が含まれる１つ以上のフレームを特定するフレーム特定ステップと、
前記フレーム特定ステップにより特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定するフレーム範囲特定ステップと、
前記フレーム範囲の時間が最長であるフレーム範囲を取得するフレーム範囲取得ステップと、
前記フレーム範囲取得ステップによって取得したフレーム範囲の中から、代表画像となるフレームを特定する代表画像特定ステップとを備えたことを特徴とするプログラム。
請求項１０に記載のプログラムを格納した媒体。