JP5685732B2

JP5685732B2 - 映像抽出装置、プログラム及び記録媒体

Info

Publication number: JP5685732B2
Application number: JP2013216098A
Authority: JP
Inventors: 森岡　芳宏; 芳宏森岡; 吉田　勝彦; 勝彦吉田; 広二竹林; 山内　栄二; 栄二山内; 慶子安藤
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2010-02-10
Filing date: 2013-10-17
Publication date: 2015-03-18
Anticipated expiration: 2031-02-10
Also published as: WO2011099299A1; US8964065B2; US20120307109A1; JP2014030260A; JPWO2011099299A1

Description

ここに開示された技術は、影像の中からダイジェスト再生する部分を抽出する映像抽出装置、さらには、影像の中からダイジェスト再生する部分を抽出するプログラム及びそれを記録する記録媒体に関する。

従来より、映像の中からその一部を抜き出してダイジェスト（要約）映像を再生する技術が知られている。映像は、その全内容を再生するためには少なからず時間を要する。そのため、映像の内容を短時間で把握したいというニーズがある。また、映像の中から重要な部分だけを抽出して視聴したいというニーズもある。特に、プロではない一般のユーザがビデオカメラやデジタルスチルカメラ等の撮影装置を用いて撮影した映像は、シナリオ等を有さず、発生したイベントが単純に時系列で並んでいるだけである。そのため、このような映像の場合には特に、上記のニーズが強い。

このニーズに応えるべく、特許文献１に係る撮影装置は、映像のメタデータに基づいてシーンを評価し、その評価結果に基づいて、映像のシーンやクリップの数を絞り込んだダイジェストを再生している。

特開２００８−２２７８６０号公報

ところで、視聴する人の嗜好によって、好ましいダイジェストの内容は大きく変わる。しかしながら、特許文献１に係るメタデータ及びそれに基づく評価は一意的であり、ユーザの嗜好に対応していない。

ここに開示された技術は、かかる点に鑑みてなされたものであり、その目的とするところは、様々な嗜好に対応したダイジェスト再生を実現することにある。

ここに開示された映像抽出装置は、映像の中から人物の顔の映像を人物を特定することなく検出する顔検出部と、予め登録された特定の人物の顔の映像を記憶する記憶部と、映像の中から前記記憶部に記憶された前記特定の人物の顔の映像を検出する特定顔検出部と、ダイジェスト再生を行うために、映像の中から特定の部分を抽出する制御部とを備え、前記制御部は、前記顔検出部が人物の顔の映像を検出し且つ第１条件が満たされたときに該人物の顔の映像を含む部分を前記特定の部分として抽出し、前記特定顔検出部が前記特定の人物の顔の映像を検出し且つ第２条件が満たされたときに該特定の人物の顔の映像を含む部分を前記特定の部分として抽出し、前記第２条件は、前記第１条件よりも満たしやすい条件であるものとする。

また、別の映像抽出装置は、映像から抽出すべき、映像に関する属性情報を記憶する記憶部と、ユーザの入力操作に応じて、前記属性情報を前記記憶部に入力する入力部と、映像の中から人物の顔の映像を人物を特定することなく検出する顔検出部と、映像の中から特定の人物の顔の映像を検出する特定顔検出部と、ダイジェスト再生するために、映像の中から特定の部分を前記属性記憶部に記憶された前記属性情報に基づいて抽出する制御部とを備え、前記記憶部には、予め登録された特定の人物の顔の映像が記憶され、前記特定顔検出部は、前記記憶部に記憶された前記特定の人物の顔の映像を検出し、前記属性情報は、前記顔検出部が人物の顔の映像を検出し且つ第１条件が満たされたことと、前記特定顔検出部が前記特定の人物の顔の映像を検出し且つ第２条件が満たされたこととを含んでおり、前記第２条件は、前記第１条件よりも満たしやすい条件であるものとする。

また、ここに開示されたプログラムは、映像の中から人物の顔の映像を人物を特定することなく検出することと、映像の中から予め登録された特定の人物の顔の映像を検出することと、ダイジェスト再生を行うために、映像の中から特定の部分を抽出することとをコンピュータに実行させるためのプログラムであって、前記特定の部分を抽出するときには、映像の中から人物の顔の映像を人物を特定することなく検出し且つ第１条件が満たされたときに該人物の顔の映像を含む部分を前記特定の部分として抽出し、映像の中から前記特定の人物の顔の映像を検出し且つ第２条件が満たされたときに該特定の人物の顔の映像を含む部分を前記特定の部分として抽出し、前記第２条件は、前記第１条件よりも満たしやすい条件であるものとする。

また、ここに開示された記録媒体は、映像の中から人物の顔の映像を人物を特定することなく検出することと、映像の中から予め登録された特定の人物の顔の映像を検出することと、ダイジェスト再生を行うために、映像の中から特定の部分を抽出することとをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記特定の部分を抽出するときには、映像の中から人物の顔の映像を人物を特定することなく検出し且つ第１条件が満たされたときに該人物の顔の映像を含む部分を前記特定の部分として抽出し、映像の中から前記特定の人物の顔の映像を検出し且つ第２条件が満たされたときに該特定の人物の顔の映像を含む部分を前記特定の部分として抽出し、前記第２条件は、前記第１条件よりも満たしやすい条件であるものとする。

さらに、別の映像抽出装置は、映像の中から人物の顔の映像を人物を特定することなく検出する顔検出部と、予め登録された特定の人物の顔の映像を記憶する記憶部と、映像の中から前記記憶部に記憶された前記特定の人物の顔の映像を検出する特定顔検出部と、ダイジェスト再生を行うために、映像の中から特定の部分を抽出する制御部とを備え、前記制御部は、前記顔検出部が人物の顔が所定の第１時間以上撮影されている部分を検出したときに該部分を特定の部分として抽出し、前記特定顔検出部が前記特定の人物の顔が所定の第２時間以上撮影されている部分を検出したときに該部分を特定の部分として抽出し、前記第２時間は、前記第１時間よりも短く設定されているものとする。

さらにまた、別の映像抽出装置は、映像から抽出すべき、映像に関する属性情報を記憶する記憶部と、ユーザの入力操作に応じて、前記属性情報を前記記憶部に入力する入力部と、映像の中から人物の顔の映像を人物を特定することなく検出する顔検出部と、映像の中から特定の人物の顔の映像を検出する特定顔検出部と、ダイジェスト再生するために、映像の中から特定の部分を前記属性記憶部に記憶された前記属性情報に基づいて抽出する制御部とを備え、前記記憶部には、予め登録された特定の人物の顔の映像が記憶され、前記特定顔検出部は、前記記憶部に記憶された前記特定の人物の顔の映像を検出し、前記属性情報は、前記顔検出部が人物の顔が所定の第１時間以上撮影されている部分を検出したことと、前記特定顔検出部が前記特定の人物の顔が所定の第２時間以上撮影されている部分を検出したこととを含んでおり、前記第２時間は、前記第１時間よりも短く設定されているものとする。

前記映像抽出装置によれば、ユーザの嗜好に対応したダイジェスト再生を実現することができる。

さらに、前記プログラムによれば、ユーザの嗜好に対応したダイジェスト再生を実現することができる。

さらにまた、前記記録媒体によれば、ユーザの嗜好に対応したダイジェスト再生を実現することができる。

図１は、本実施形態に係るビデオカメラの斜視図である。図２は、ビデオカメラの概略構成を示すブロック図である。図３は、ビデオカメラが撮影した映像の構成を示す図である。図４は、クリップ内を複数のシーンに分割した場合の例を示すイメージ図である。図５は、各種の属性情報と各属性情報に対する評価との対応データのテーブルを示す図である。図６は、シーン評価部或る映像から属性情報を抽出して評価値を付与した結果を示した図である。図７は、人物の顔が撮影される映像の例を示す図であり、（Ａ）は人物Ａの顔が撮影された映像を、（Ｂ）は人物Ｂの顔が撮影された映像を、（Ｃ）は人物Ａの顔と人物Ｂの顔が撮影された映像を、（Ｄ）は大勢の人と共に人物Ａの顔が撮影された映像を示す。図８は、再生情報を示す図である。図９は、撮影、シーン評価、再生情報の生成、記録までの処理の流れを示すフローチャートである。図１０は、ダイジェスト再生時の処理の流れを示したフローチャートである。図１１は、属性情報と評価値との関係を示したテーブル各種の属性情報と各属性情報に対する評価との対応データのテーブルである。図１２は、シーン評価部が図１１のテーブルに基づいて或る映像から属性情報を抽出して評価値を付与した結果を示した図である。図１３は、再生情報を示す図である。図１４は、各種のテーブルに対応するモードをユーザに選択させる選択画面の例を示す図である。図１５は、実施形態２に係るビデオカメラの概略構成を示すブロック図である。図１６は、撮影、属性情報の抽出、記録までの処理の流れを示すフローチャートである。図１７は、ダイジェスト再生時の処理の流れを示したフローチャートである。図１８は、その他の実施形態に係るビデオカメラの概略構成を示すブロック図である。

以下、例示的な実施形態を図面に基づいて詳細に説明する。

《実施形態１》
＜１．ビデオカメラの構成＞
図１は、撮影装置の一例としてのビデオカメラ１００Ａの斜視図であり、図２は、ビデオカメラ１００Ａの概略構成を示すブロック図である。

ビデオカメラ１００Ａは、映像を撮影し、それを記録し、再生するものである。また、ビデオカメラ１００Ａは、映像の中からダイジェスト再生するための部分を抽出し、さらには、ダイジェスト再生を行う。ビデオカメラ１００Ａは、レンズ群２００、撮像素子２０１、映像ＡＤ変換部（Analog-to-Digital Converter）２０２、信号処理部２０３、映像信号圧縮部２０４、レンズ制御モジュール２０５、姿勢検出部２０６、外部入力部２０７、マイクロフォン２０８、音声ＡＤＣ（Analog-to-Digital Converter）２０９、音声信号圧縮部２１０、映像信号伸張部２１１、映像表示部２１２、音声信号伸張部２１３、音声出力部２１４、出力Ｉ／Ｆ（Interface）２１５、制御部３００、クロック３２０、記憶部３３０とを備えている。このビデオカメラ１００Ａが、映像抽出装置及び撮影装置を構成する。

レンズ群２００は、複数のレンズで構成されており、被写体からの入射光を撮像素子２０１上に結像させるものである。また、レンズ群２００は、複数のレンズ間の距離を調整可能に構成されており、レンズ間の距離を変えることによって焦点距離やズーム倍率（映像の拡大倍率）を変化させる。焦点距離やズーム倍率の調整は、ユーザが手動で行うものであっても、後述する制御部３００等が自動的に行うものであってもよい。

撮像素子２０１は、入射する光を電気信号に変換するものである。撮像素子２０１は、ＣＣＤ又はＣＭＯＳで構成されている。撮像素子２０１は、撮像面上の任意の範囲の電気信号を出力する。また、撮像素子２０１は、画像に関する情報以外にも、３原色点の色度空間情報、白色の座標、及び３原色のうち少なくとも２つのゲイン情報、色温度情報、Δｕｖ（デルタｕｖ）、及び３原色または輝度信号のガンマ情報等の情報も出力することが可能である。そのため、撮像素子２０１からの出力は、映像ＡＤ変換部２０２だけでなく、制御部３００の後述する属性情報抽出部３０５にも入力される。

映像ＡＤ変換部２０２は、撮像素子２０１が出力するアナログの電気信号をデジタル信号へ変換するものである。

信号処理部２０３は、映像ＡＤ変換部２０２が出力したデジタル信号をＮＴＳＣ（National Television System Committee）やＰＡＬ（Phase Alternating Line）等の所定の映像信号フォーマットに変換するものである。例えば、信号処理部２０３は、映像ＡＤ変換部２０２からのデジタル信号をＮＴＳＣで規定された水平線の数、走査線の数、フレームレートに準拠したデジタル映像信号（映像データ）に変換する。信号処理部２０３からの出力は、制御部３００へ入力される。信号処理部２０３は、例えば、映像信号変換用のＩＣで構成されている。尚、映像信号フォーマットとしては、１映像フレームの有効画素数が水平方向に１９２０、垂直方向に１０８０である、所謂、フルハイビジョン方式や、１映像フレームの有効画素数が水平方向に１２８０、垂直方向に７２０である方式がある。

映像信号圧縮部２０４は、信号処理部２０３から出力されるデジタル映像信号に所定の符号化変換を施し、データ量を圧縮する。符号化変換の具体例としては、ＭＰＥＧ（Moving Picture Experts Group）２、ＭＰＥＧ４、Ｈ２６４等の符号化方式がある。映像信号圧縮部２０４からの出力は、制御部３００へ入力される。映像信号圧縮部２０４は、例えば、信号圧縮伸張用のＩＣで構成されている。

レンズ制御モジュール２０５は、レンズ群２００の状態を検出したり、レンズ群２００を動作させたりするものである。レンズ制御モジュール２０５は、レンズ制御モータとレンズ位置センサとを有している。レンズ位置センサは、レンズ群２００を構成する複数のレンズ間の距離又は位置関係等を検出するものである。レンズ位置センサは、その検出信号を制御部３００に出力する。レンズ制御モジュール２０５は、２種類のレンズ制御モータを有している。１つのレンズ制御モータは、制御部３００から制御信号に基づいて、レンズ群２００を光軸方向に移動させる。これにより、レンズ群２００の複数のレンズ間の距離が変更され、レンズ群２００の焦点距離及びズーム倍率が調整される。もう１つのレンズ制御モータは、制御部３００から制御信号に基づいて、レンズ群２００のうちの少なくとも１つのレンズ（像ぶれ補正用のレンズ）を光軸に直交する面内で移動させる。これにより、像ぶれを補正する。

姿勢検出部２０６は、ビデオカメラ１００Ａ本体の姿勢を検出するものである。姿勢検出部２０６は、加速度センサ、角速度センサ、及び仰角・俯角センサを有する。これらのセンサにより、撮影時にビデオカメラ１００Ａがどのような姿勢となっているかを認識することができる。尚、加速度センサ及び角速度センサは、ビデオカメラ１００Ａの姿勢を詳細に検出するために、直交３軸方向（ビデオカメラ１００Ａの上下方向、前後方向、左右方向）の姿勢をそれぞれ検出できることが好ましい。姿勢検出部２０６からの信号は、制御部３００へ入力される。尚、姿勢検出部２０６は、上記の構成に限らず、上記センサの何れかだけで構成されていてもよいし、上記センサ以外のセンサを有していてもよい。

外部入力部２０７は、ビデオカメラ１００Ａに外部からの情報を入力する手段である。外部入力部２０７からの信号は、制御部３００へ入力される。尚、図２では、外部入力部２０７からの信号は、制御部３００の属性情報抽出部３０５だけに入力されているが、レンズ制御部３１０等の入力操作に対応する部分にも入力される。撮影時には、この外部入力部２０７を介してビデオカメラ１００Ａに外部からの各種情報が入力される。例えば、外部入力部２０７は、ユーザからの情報の入力を受け付ける入力インタフェースの１つである入力ボタンや、外部から通信経由で入力される撮影インデックス情報等を受信する受信部や、ビデオカメラ１００Ａが三脚に設置されているか否かを検出する三脚センサを含む。例えば、ユーザが入力ボタンを操作することによって、撮影の開始、終了、撮影中の映像にマーキングを挿入する、及び後述する属性情報及びその評価を入力、設定する等、ユーザからの各種要求をビデオカメラ１００Ａに伝えることが可能となる。すなわち、外部入力部２０７は、ユーザの入力操作に応じて、後述する属性情報及び評価の少なくとも一方を記憶部３３０に入力する入力部を構成する。撮影インデックス情報とは、例えば、映画撮影時における撮影場面を識別する番号や、撮影回数を示す番号等のそれぞれの撮影を識別するために用いられる識別番号などである。三脚センサは、ビデオカメラ１００Ａの三脚が固定される部分に設けられたスイッチで構成されている。三脚センサにより、三脚を使用した撮影か否かを判定できる。

マイクロフォン２０８は、ビデオカメラ１００Ａの周囲の音を電気信号に変換して、音声信号として出力するものである。

音声ＡＤ変換部２０９は、マイクロフォン２０８が出力するアナログの音声信号をデジタル音声信号（音声データ）へ変換するものである。

音声信号圧縮部２１０は、音声ＡＤ変換部２０９が出力したデジタル音声信号を所定の符号化アルゴリズムで変換するものである。符号化にはＭＰ３（MPEG Audio Layer-3）やＡＡＣ（Advanced Audio Coding）等の方式がある。音声信号圧縮部２１０は、例えば、圧縮用のＩＣで構成されている。

映像信号伸張部２１１は、制御部３００から出力される映像信号を複合するものである。映像信号伸張部２１１からの出力は、映像表示部２１２に入力される。映像信号伸張部２１１は、例えば、映像信号伸張用のＩＣで構成されている。

映像表示部２１２は、ビデオカメラ１００Ａに記録した映像や、ビデオカメラ１００Ａでリアルタイムに撮影している映像を表示する。それ以外にも、ビデオカメラ１００Ａは、撮影に関する情報や機器情報等の各種情報を表示する。映像表示部２１２は、例えば、タッチパネル式の液晶ディスプレイで構成されている。このようにタッチパネル式の映像表示部２１２は、外部入力部２０７としても機能する。

音声信号伸張部２１３は、制御部３００から出力される音声信号を複合するものである。音声信号伸張部２１３からの出力は、音声出力部２１４に入力される。音声信号伸張部２１３は、例えば、音声信号伸張用のＩＣで構成されている。

音声出力部２１４は、映像に付随する音声を出力する。それ以外にも、音声出力部２１４は、ビデオカメラ１００Ａからユーザへ報知する警告音を出力する。音声出力部２１４は、例えば、スピーカで構成されている。

出力Ｉ／Ｆ２１５は、映像信号をビデオカメラ１００Ａから外部へ出力するためのインタフェースである。具体的には、出力Ｉ／Ｆ２１５は、ビデオカメラ１００Ａと外部機器とをケーブルで接続する場合のケーブルインタフェースや、映像信号をメモリカードに記録する場合のメモリカードインタフェース等である。

制御部３００は、ビデオカメラ１００Ａの全体を制御するものである。制御部３００は、撮像素子２０１、信号処理部２０３、映像信号圧縮部２０４、レンズ制御モジュール２０５、姿勢検出部２０６、外部入力部２０７、音声ＡＤ変換部２０９、音声信号圧縮部２１０、映像信号伸張部２１１、音声信号伸張部２１３、出力Ｉ／Ｆ２１５及び記憶部３３０等との間で信号の授受が可能に構成されている。本実施形態では、制御部３００は、ＣＰＵで構成されている。制御部３００は、記憶部３３０に格納されたプログラムを読み込んで実行することによってビデオカメラ１００Ａの各種制御を実行する。制御部３００が実行する制御の例としては、例えば、レンズ群２００の焦点距離やズームの制御や、姿勢検出部２０６や外部入力部２０７からの入力信号の処理や、信号処理部２０３、映像信号圧縮部２０４、音声信号圧縮部２１０、映像信号伸張部２１１及び音声信号伸張部２１３等のＩＣの動作制御等である。また、図示は省略するが、制御部３００とレンズ制御モジュール２０５等との間では、適宜、信号がＡＤ変換又はＤＡ変換される。尚、制御部３００は、ＩＣ等の集積回路で構成することもできる。

クロック３２０は、ビデオカメラ１００Ａ内で動作する制御部３００等に処理動作の基準となるクロック信号を出力するものである。尚、クロック３２０は、利用する集積回路や扱うデータによって、単一または複数のクロックを用いることも可能である。また、ひとつの発振子のクロック信号を任意の倍数に乗じて使用してもよい。

記憶部３３０は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）及びＨＤＤ（Hard Disk Drive）を含んでいる。ＲＯＭは、制御部３００が処理するプログラムやプログラムを動作させるための各種データを記憶しておくものである。ＲＡＭは、制御部３００が処理するプログラム実行時に使用するメモリ領域等として使用される。また、ＲＡＭは、ＩＣのメモリ領域としても使用され得る。ＨＤＤは、映像信号圧縮部２０４により符号化変換された映像データや静止画データ等の各種データを保存する。また、ＨＤＤは、制御部３００で実行するプログラムを記憶している。尚、このプログラムは、ＨＤＤに限られず、半導体メモリに記憶されていてもよいし、ＣＤ−ＲＯＭやＤＶＤ等の可搬型記録媒体に格納されていてもよい。

以下、制御部３００について詳細に説明する。ここでは、制御部３００のうち、ダイジェスト再生を行うのに必要な構成について説明する。ただし、制御部３００は、一般的なビデオカメラと同様の機能を発揮させるための構成、例えば、撮影した映像を記録したり、再生したりする構成も有する。

制御部３００は、レンズ制御モジュール２０５を制御するレンズ制御部３０１と、撮像素子２０１を制御する撮像制御部３０２と、信号処理部２０３からの出力を解析する映像解析部３０３と、音声ＡＤ変換部２０９からの出力を解析する音声解析部３０４と、映像中の属性情報を抽出する属性情報抽出部３０５と、シーンを評価するシーン評価部３０６と、ダイジェスト再生のための再生情報を生成する再生情報生成部３０７と、映像データと音声データとを多重化する多重化部３０８と、ダイジェスト再生を行うダイジェスト再生部３０９とを有している。制御部３００は、記憶部３３０に記憶されたプログラムを読み込んで実行することによって、後述する各種の処理を実現する。

レンズ制御部３０１は、レンズ制御モジュール２０５のレンズ位置センサの検出信号及び姿勢検出部２０６の各種センサの検出信号が入力されている。レンズ制御部３０１は、これらの検出信号及び撮像素子２０１等の他の構成要素からの情報に基づいて、レンズ群２００を適正に配置させるための制御信号をレンズ制御モータに出力する。こうして、レンズ制御部３０１は、ズーム制御、フォーカス制御、像ぶれ補正制御等を行う。また、レンズ制御部３０１は、レンズ群２００の制御信号を属性情報抽出部３０５へ出力する。尚、姿勢検出部２０６の各種センサの検出信号は、属性情報抽出部３０５へも出力されている。

撮像制御部３０２は、撮像素子２０１の動作を制御するものである。撮像素子２０１に対して、撮影時の露出量、撮影速度、及び感度等を制御するものである。撮像制御部３０２から出力される制御信号は、撮像素子２０１だけでなく、属性情報抽出部３０５へも出力される。

映像解析部３０３は、信号処理部２０３からの映像データに基づいて映像の特徴を抽出するものである。映像解析部３０３は、映像の色情報（例えば、映像に含まれる色の分布を検出する）や、ホワイトバランス情報を検出する。尚、色分布の検出は、デジタル映像信号を形成するデータに含まれる色情報を確認することで実現可能である。また、映像解析部３０３は、映像に人物の顔が含まれている場合には、映像の中から顔検出を行う。顔検出については、パターンマッチング等を用いることにより実現可能である。

音声解析部３０４は、音声ＡＤ変換部２０９からの音声データを解析して、特徴のある音を抽出するものである。ここで特徴のある音とは、例えば、撮影者の声、特定の単語の発音、歓声、及び銃声等がある。これらの音は、これらの音（音声）が持つ特有の周波数を予め登録しておき、それとの比較により判別するなどの方法等によって抽出可能である。また、これ以外にも、例えば、音の入力レベルが所定レベル以上のときに特徴のある音であると判定するようにしてもよい。

属性情報抽出部３０５は、映像に関する属性情報を抽出する。属性情報は、映像の属性を表す情報であって、撮影に関する情報（以下、「撮影情報」ともいう）、外部入力情報及びその他の情報である。属性情報抽出部３０５には、撮像素子２０１、姿勢検出部２０６、外部入力部２０７、レンズ制御部３０１、撮像制御部３０２、映像解析部３０３及び音声解析部３０４からの出力信号が入力されている。属性情報抽出部３０５は、これらの出力信号に基づいて属性情報を抽出する。

この映像に関する属性情報には、映像の撮影時の撮影装置の状態やカメラワークなどの撮影に関する属性情報、ＣＧなどによる映像の生成時の映像に関する属性情報、映像そのものが含む被写体や背景に関する属性情報、映像に付帯する音声に関する属性情報、及び編集機などによる映像の編集時の映像編集内容に関する属性情報が含まれる。

例えば、撮影時の撮影装置に関する属性情報の例としては、焦点距離、ズーム倍率、露出、撮影速度、感度、３原色点の色空間情報、ホワイトバランス、３原色のうち少なくとも２つのゲイン情報、色温度情報、Δｕｖ（デルタｕｖ）、３原色または輝度信号のガンマ情報、色分布、顔認識情報、カメラ姿勢（加速度、角速度、仰角・俯角等）、撮影時刻（撮影開始時刻、終了時刻）、撮影インデックス情報、ユーザ入力、フレームレート、サンプリング周波数等が挙げられる。例えば、属性情報抽出部３０５は、レンズ制御部３０１の制御信号に基づいて、焦点距離やズーム倍率を属性情報として抽出する。また、属性情報抽出部３０５は、姿勢検出部２０６の検出信号に基づいて、カメラ姿勢（加速度、角速度、仰角・俯角等）を検出し、そのカメラ姿勢からパン、ティルト等の撮影時のビデオカメラ１００Ａのカメラワークを属性情報として抽出する。さらには、これらのカメラワークに基づいて、カメラワーク後のフィックス撮影部分（ビデオカメラ１００を静止させて撮影した部分）を属性情報として抽出することができる。このように、属性情報抽出部３０５は、入力された信号そのものから属性情報を抽出する場合もあれば、入力された信号と組み合わせたり、分析したりすることによって属性情報を抽出する場合もある。

シーン評価部３０６は、属性情報抽出部３０５が抽出した属性情報に基づいて、それぞれの属性情報を含む部分の映像を評価して、その評価（値）を該部分に付与する。この評価の詳細については後述する。

再生情報生成部３０７は、シーン評価部３０６によって付与された評価に基づいて、再生すべき部分（シーン）を選択し、ダイジェスト再生すべき部分を特定する情報（以下、「再生情報」という）を生成する。尚、再生情報の詳細については後述する。

多重化部３０８は、映像信号圧縮部２０４からの符号化映像データ、音声信号圧縮部２１０からの符号化音声データ、及び再生情報生成部３０７からの再生情報を多重化して出力する。多重化部３０８により多重化されたデータは、記憶部３３０に格納される。多重化の方式としては、例えば、ＭＰＥＧのＴＳ（Transport Stream）等の技術がある。ただし、これに限定されるものではない。尚、本実施形態では、多重化する場合を例として示しているが、必ずしも多重化しなくてもよい。

これら属性情報抽出部３０５、シーン評価部３０６、再生情報生成部３０７及び多重化部３０８の処理は、撮影時、詳しくは、撮影中又は撮影直後に逐次、実行される。

ダイジェスト再生部３０９は、撮影の終了後に、ユーザの入力に基づいてダイジェスト再生を実行する。詳しくは、ダイジェスト再生部３０９は、記憶部３３０に記憶された多重化されたデータを読み出し、再生情報に従って、ダイジェスト再生させるべき部分の符号化映像データ及び符号化音声データをそれぞれ映像信号伸張部２１１及び音声信号伸張部２１３に出力する。出力された符号化映像データ及び符号化音声データはそれぞれ、映像信号伸張部２１１及び音声信号伸張部２１３で復号され、映像表示部２１２及び音声出力部２１４から出力される。こうして、映像の中から特定の部分だけ抽出したダイジェスト再生が実行される。尚、このダイジェスト映像は、記憶部３３０に記憶するようにしてもよい。

＜２．シーン評価及び再生情報の生成＞
図３は、ビデオカメラ１００Ａが撮影した映像の構成を示す図であり、図４は、クリップ内を複数のシーンに分割した場合の例を示すものである。図４では、各シーンを「開始時間」と「終了時間」で特定しているが、フレーム番号（シーンの開始フレーム番号及び終了フレーム番号）等で各シーンを特定してもよい。

ユーザが撮影開始を指示し、撮影の終了又は撮影の一時停止を指示するまでに撮影された映像の単位を「クリップ」とする。すなわち、ユーザが撮影の開始、撮影の終了又は一時停止を何度も繰り返すと、クリップが複数生成される。１つのクリップは、１又は複数の「シーン」で構成されている。「シーン」は、論理的につながりのある一続きの映像であって、１又は複数の「フレーム」で構成されている。「フレーム」とは、映像を構成する最小単位となる個々の画像である。

例えば、１つの「クリップ」を１つの「シーン」とみなすこともできる。また、画面が大きく変わることを境として「シーン」を設定してもよい。例えば、映像解析部３０３がフレーム間の動きベクトルを算出し、動きの大きさ（即ち、動きベクトルの変化）が所定の値より大きいときを、「シーン」の境界としてもよい。つまり、そのようにして設定された２つの境界の間の映像が１つの「シーン」となる。その他の撮影情報等に基づいて「シーン」を区切ってもよい。例えば、撮影者からのボタン入力により「シーン」を区切ってもよい。この場合に、撮影者の明確な意図で「クリップ」内の「シーン」が構成される。以上の方法で「シーン」を抽出した場合には、図４に示すように、「クリップ」には、連続的な「シーン」が含まれることになる。一方、「クリップ」内の特定の部分だけを「シーン」とみなすこともできる。例えば、映像の中から映像として重要な部分を「シーン」とみなすこともできる。具体的には、特定の属性情報を含む部分を１つの「シーン」とみなしてもよい。例えば、重要と想定される属性情報を含む、所定の時間幅の映像を「シーン」とする。これにより、重要な部分のみが「シーン」として抽出される。その結果、「クリップ」内には、離散的に「シーン」が含まれることになる。このように、「シーン」は、任意に設定することが可能である。本実施形態では、映像のうちの重要な部分を「シーン」としてみなしている。

続いて、シーン評価部３０６のシーン評価について詳しく説明する。図５は、映像を評価する際に用いる、各種の属性情報と各属性情報に対する評価との対応データのテーブルである。このテーブルは、記憶部３３０に記憶されている。シーン評価部３０６は、このテーブルを用いて、映像を評価する。

図５に示すように、属性情報には、それぞれ評価値が設定されている。図５の例では、評価値が高いほど評価が高い（好ましい）ものとしている。例えば、クリップイン（撮影の開始部分）やクリップアウト（撮影の終了直前部分）については、映像の導入部分や重要部分であって、映像が持つ論理的な意味が高いと推定されるので、クリップイン（Ａ）は、評価値「１００」が、クリップアウト（Ｆ）は、評価値「９０」が設定されている。撮影時のカメラワークとしてズームアップ(Ｄ)やズームダウン（Ｇ）は、特定の被写体への注目度を高めるものであるため、評価値「３０」が設定されている。また、顔が検出されたこと（Ｚ）は、人物を対象に撮影が行われることが多いことから、評価値「５０」が設定されている。また、顔検出の中でも、特定の人物Ａの顔が検出されたこと（Ｘ）は、「１００」の評価値が設定され、特定の人物Ｂの顔が検出されたこと（Ｙ）は、評価値「８０」が設定されている。

この特定の人物の顔及びそれに対する評価値は、詳しくは後述するが、ユーザが適宜設定することができる。つまり、単に人物を撮影しているというだけでなく、特定の人物を撮影している映像にはユーザの意思で高い評価値を付与することができる。尚、評価は、プラスの評価、即ち、好ましい評価だけでなく、マイナスの評価、即ち、好ましくない評価もあり得る。例えば、像ぶれは視聴者に見づらい映像となる可能性があるので、このような属性情報を有するシーンには、負の評価値が付与される。

尚、図５の例では、評価が数値化されているが、これに限られるものではない。例えば、評価としてＡ，Ｂ，Ｃ，…のような符号を用いてもよい。評価として用いられる符号には、予め優劣が定められている（例えば、Ａが最も評価が高い等）。また、Ａ，Ｂ，Ｃなどの符号の評価は、ユーザの意思で自由に設定することもできる。

シーン評価部３０６は、属性情報抽出部３０５によって属性情報が抽出された映像の部分に、前記テーブルに基づいて、該属性情報に対応する評価値を付与する。

そして、評価値を付与した後、シーン評価部３０６は、該評価値に基づいて、所定の個数のシーンを抽出する。こうして、シーン評価部３０６は、ダイジェスト再生に用いられ得る特徴的な映像の部分をシーンとして、ダイジェスト再生されるシーンの個数よりも多めに予め抽出しておく。例えば、シーン評価部３０６は、評価値が高い属性情報を有する部分を含む所定時間幅の映像を１つのシーンとして抽出する。そして、シーン評価部３０６は、評価値が高い順に、所定の個数のシーンを抽出する。この所定の個数は、ユーザが任意に設定可能としてもよいし、固定値として予め設定しておいてもよい。前述のシーンの抽出方法は、一例であって、異なる方法でシーンを抽出してもよい。例えば、評価値が高い属性情報を有する部分であっても、それよりも前の映像に同じ属性情報が含まれる部分をシーンとして抽出している場合には、シーンとして抽出しなくてもよい。こうすることで、同じ属性情報を有するシーンばかりが抽出されることを防止することができる。あるいは、特定の属性情報（例えば、人物Ａの顔検出や人物Ｂの顔検出等）を有する部分を優先的にシーンとして抽出してもよい。

次に、シーン評価部３０６は、抽出したシーンの中から、所定の抽出条件に基づいて、ダイジェスト再生すべきシーンを抽出する。例えば、抽出条件が、評価値が高い順に３個というものであれば、シーン評価部３０６は、評価値が上位３つのシーンを抽出する。この個数は、ユーザが任意に設定できる。また、抽出条件が、評価値の高い順に抽出して、合計時間が所定時間になるというものであれば、シーン評価部３０６は、合計時間が所定の時間となるように、評価値が上位のシーンから順に抽出する。この所定の時間は、予め所定の値に設定しておいてもよいし、ユーザが任意に設定できるようにしてもよい。また、評価値が所定の値以上であることが抽出条件であれば、シーン評価部３０６は、評価値が所定の値以上のシーンを、個数及び合計時間にかかわらず、抽出する。この所定の値は、ユーザが任意に設定することができる。このように、シーン評価部３０６は、付与した評価値に基づいて、様々な観点でシーンを抽出することが可能である。尚、抽出条件は、ユーザが適宜設定できるようにしてもよいし、予め設定されていてもよい。

尚、１つのシーンが複数の属性情報を有する場合には、それぞれの属性情報の内容に割り当てられている評価値を加算して、そのシーンの評価値としてもよい。あるいは、複数の属性情報の中から最も高い評価値をそのシーンの評価値としてもよい。あるいは、複数の属性情報の評価値の平均値をそのシーンの評価値としてもよい。

また、属性情報と評価値とのテーブルは、ビデオカメラ１００Ａが１つだけ有するものに限られない。すなわち、ビデオカメラ１００Ａが、属性情報と評価値とのテーブルを複数有し、シーン評価に用いるテーブルを適宜選択するものであってもよい。例えば、ビデオカメラ１００Ａが、属性情報と評価値との複数のテーブルの中から撮影モード（例えば、風景の撮影、人物（ポートレート）撮影、スポーツ撮影、静物撮影等）に応じて最適なテーブルを選択するように構成してもよい。また、このように撮影の状況に応じて適切なテーブルを適宜設定する構成としては、撮影の各状況に対して１対１のテーブルを予め用意しておくのではなく、撮影状況の種類よりも少ない数のテーブルが用意されている場合は、撮影状況に応じて、複数のテーブルを合成（各評価値を一定の比率で加算等）してもよい。この場合には、合成時の各テーブルの重み付け（例えば、加算時の比率）を変更することによって、撮影状況に応じたテーブルを設定するようにしてもよい。

以下に、シーン評価部３０６が行う処理を具体例を挙げて説明する。図６は、シーン評価部３０６が、或る映像から属性情報を抽出して評価値を付与した結果を示した図である。図６の横軸は時間（シーン）を、縦軸に評価値を示す。

図６において、時間０付近の部分は、撮影を開始した直後であることを意味する「クリップイン」の属性情報Ａを有し、評価値「１００」が付与されている。

属性情報Ｂを有する部分は、特定音声が抽出された部分である。特定音声の抽出は、前記音声解析部３０４により行われる。属性情報Ｂを有する部分には、評価値「５０」が付与されている。

属性情報Ｃを有する部分は、ユーザがビデオカメラ１００Ａをパン、ティルト等させた後に静止して撮影している部分である。パン、ティルト等のカメラワーク後の部分は映像としての価値が高いと判断できることから、このようなカメラワーク後の静止撮影を属性情報として設定している。属性情報Ｃを有する部分には、評価値「４０」が付与されている。

属性情報Ｄを有する部分は、ズームアップ又はズームダウン等して撮影している部分である。ズームアップ又はズームダウンは、ユーザの撮影に関する何らかの意図が反映されており、重要と判断できることから、属性情報として設定している。属性情報Ｄを有する部分には、評価値「３０」が付与されている。ただし、ズームアップとズームダウンとで評価値を変えてもよい。例えば、ズームアップの方が、ズームダウンよりも、撮影対象を注視する意図が大きいと判断されるため、評価値を高く設定してもよい。

属性情報Ｅを有する部分は、属性情報Ｃと異なり、ビデオカメラ１００Ａをパン、ティルト等させながら撮影を行った部分である。パン、ティルト等のカメラワークは、撮影対象に追随しようとするユーザの撮影意図が反映されていると判断できるため、属性情報として設定している。属性情報Ｅを有する部分には、評価値「２５」が付与されている。

属性情報Ｉを有する部分は、映像が像ぶれを伴っている部分である。この場合は、映像が揺れているため、視聴者には見づらい映像となる傾向にある。そのため、負の評価値を付与している。具体的には、属性情報Ｉを有する部分には、評価値「−２０」が付与されている。

属性情報Ｊを有する部分は、地面等を撮影している部分である。これは、ユーザが撮影停止ボタンを押さずに撮影を続けたまま、ビデオカメラ１００Ａを手に持って歩いている場合等に生じやすい現象である。この場合には、映像にユーザの特段の意図が反映されていないと判断できるため、負の評価値を付与している。具体的には、属性情報Ｊを有する部分には、評価値「−１０」が付与されている。

属性情報Ｘを有する部分は、人物Ａの顔が映っている部分である。映像解析部３０３は、撮影された映像に写っている被写体が人物の顔であることを認識し、さらに認識された顔が予め記憶部３３０等に記憶されている特定の人物の顔と一致するか否かの判定を行う。シーン評価部３０６は、この結果に基づき、特定の人物の顔が写っている部分を映像の中から抽出することができる。属性情報Ｘを有する部分には、評価値「１００」が付与されている。

属性情報Ｙを有する部分は、人物Ｂの顔が映っている部分である。人物Ａの顔と同様に、人物Ｂの顔が予め記憶部３３０等に記憶されている。属性情報Ｙを有する部分には、評価値「８０」が設定されている。

属性情報Ｚを有する部分は、人物の顔が写っているものの、その顔が予め登録された何れの人物の顔とも一致しない部分である。属性情報Ｚを有する部分には、評価値「５０」が設定されている。

尚、人物の顔が撮影される映像の例として、図７（Ａ）〜（Ｄ）に示すような場合がある。図７（Ａ）や（Ｂ）のように、それぞれの部分に予め登録されている人物の顔が撮影されている場合は、シーン評価部３０６は、テーブルに予め設定された評価値（図５の例では、人物Ａの顔については「１００」、人物Ｂの顔については「８０」）が付与される。

図７（Ｃ）のように、人物Ａと人物Ｂの両者の顔が写っている場合には、シーン評価部３０６は、人物Ａ、Ｂの顔のうち、評価値が高い方の評価値をもって、評価値としてもよい。図５のテーブルを用いた場合には、人物Ａの顔の方が人物Ｂの顔よりも評価値が高いため、人物Ａの顔の評価値である「１００」が評価値となる。尚、図６のＸ＋Ｙの符号が付されている部分は、人物Ａと人物Ｂの両者の顔が写っている部分である。また、別の方法としては、両方の評価値を平均化したものを評価値としてもよい。図５の例では、（１００＋８０）／２から、評価値は「９０」となる。さらに別の方法として、それぞれの評価値に配分比率を設定して合算するものであってもよい。例えば、映像上の顔の大きさが大きいほど、配分比率が高くなるように、それぞれの評価値に配分比率を設定してもよい。図７（Ｃ）の例では、人物Ａの顔の大きさと人物Ｂの顔の大きさの比率が５：３であるとすると、（１００×５＋８０×３）／８から、評価値は「９２．５」となる。映像上の顔の大きさはカメラから被写体までの距離を反映していると可能性が高く、この方法によれば、近くの被写体に大きな配分比率を設定して、影響度を大きくすることができる。また、人物Ａ、Ｂの顔の中心位置と、画面中央又は画面上の顕著領域（Ｓａｌｉｅｎｔな領域）からの距離に応じて、それぞれの評価値に配分比率を設定してもよい。具体的には、当該距離が近いほど、配分比率が高くなるようにしてもよい。顕著領域とは、例えば、画像中の記念像、ペット、カンバンなどの注目される領域である。

図７（Ｄ）のように、大勢の（所定の人数以上の）人物が被写体として撮影されている場合は、人物Ａの顔が撮影されているものの、画面上での大きさは小さく、他の多くの人物と一緒に撮影されているため、他の人物の顔との差別化が難しい場合がある。このような場合には、撮影されている人数に応じて、人物Ａの顔の評価値と、他の人物の顔の評価値とに配分比率を設定して合算するものであってもよい。図７（Ｄ）の例では、人物Ａ以外の、識別できない人物が１０人いるので、（１００×１＋５０×１０）／１１から、評価値「５４．５」が付与される。

また、顔の検出については、画面における位置、顔の大きさ、顔の向き、笑顔レベル、目の開閉情報、顔の喜怒哀楽レベルの情報を評価して、これらに応じて評価値を増減させてもよい。

こうして、映像中で属性情報が抽出された部分に評価値を付与した後、シーン評価部３０６は、評価値が高い順に６個のシーンを抽出する。図６では、６個のシーンに、時間が早い順に＃１〜＃６のラベルが付されている。続いて、シーン評価部３０６は、評価値が高い順に３個という抽出条件に基づいて、評価値が上位３つの＃１、＃２、＃５のシーンをダイジェスト再生すべきシーンとして抽出する。

次に、再生情報生成部３０７による再生情報の生成について詳細に説明する。再生情報生成部３０７は、シーン評価部３０６が抽出したシーンに従って、ダイジェスト再生すべきシーンを特定する情報である再生情報を生成する。例えば、再生情報は、図８に示すように、再生対象となるシーンの開始時刻と終了時刻で示されるものであってもよい。この場合、各シーンの中における代表的なフレーム（シーン中における最も評価の高いフレーム等）を別途記憶しておくと、参照用画面の検索に有効である。尚、再生情報は、上記の内容に限られず、例えば、再生対象となるシーンをフレーム番号で特定してもよい。それ以外にも、後述する多重化部３０８で生成する多重化データ中における該当シーンの位置（場所）をシーンの特定として用いてもよい。多重化にＴＳ等の技術を用いる場合は、ＰＴＳやＤＴＳ等の時刻情報等を用いて再生情報を生成してもよい。一部のビデオカメラのデータ記録方式として用いられているＡＶＣＨＤ（Advanced Video CodecHigh Definition）等の規格を用いて映像データを記録する場合には、ＰｌａｙＬｉｓｔファイル等に再生情報を記録する方法を用いてもよい。

図９は、撮影、シーン評価、再生情報の生成、記録までの処理の流れを示すフローチャートである。

まず、ビデオカメラ１００Ａの制御部３００は、ステップＳ１０１において、撮影を開始する。入力ボタン等の外部入力部２０７からの入力に基づいて、撮影が開始される。

次に、ステップＳ１０２において、属性情報抽出部３０５は、姿勢検出部２０６の検出結果、レンズ制御部３０１の制御情報、並びに映像解析部３０３及び音声解析部３０４の解析結果等に基づいて映像の属性情報を抽出する。

シーン評価部３０６は、ステップＳ１０３において、属性情報抽出部３０５が抽出した属性情報に基づいて映像の各部分に評価値を付与する。その後、シーン評価部３０６は、いくつかの特徴的なシーンを抽出し、さらに、その中からダイジェスト再生すべきシーンを抽出する。

続いて、ステップＳ１０４において、再生情報生成部３０７は、シーン評価部３０６により抽出されたダイジェスト再生すべきシーンに基づいて再生情報を生成する。そして、多重化部３１４は、生成された再生情報を、符号化映像データ、符号化音声データと共に多重化する。

制御部３００は、ステップＳ１０５において、多重化データを記憶部３３０に記憶する。

制御部３００は、ステップＳ１０６において、外部入力部２０７から、撮影終了の入力があるか否かを判定する。撮影終了の入力がない場合は、ステップＳ１０２へ戻って、撮影を継続する。一方、撮影終了の入力がある場合には、撮影を終了する。

＜３．再生情報に基づいたダイジェスト再生＞
ダイジェスト再生部３０９は、記憶部３３０に記憶された再生情報を読み出し、それに基づいてダイジェスト再生を行う。具体的には、ダイジェスト再生部３０９は、図８に示されるダイジェスト再生すべき個々のシーンの開始時刻、終了時刻等の情報に基づいて記憶部３３０に記憶されている映像、音声情報から該当する部分のシーンを抽出する。

図１０は、ダイジェスト再生時の処理の流れを示したフローチャートである。

まず、ダイジェスト再生部３０９は、ステップＳ２０１において、記憶部３３０に記憶された多重化データを読み出す。

次に、ダイジェスト再生部３０９は、ステップＳ２０２において、読み出した多重化データを分解し、再生情報を抽出する。

そして、ステップＳ２０３において、ダイジェスト再生部３０９は、抽出した再生情報に基づいて、再生すべき符号化映像データ及び符号化音声データを、映像信号伸張部２１１及び音声信号伸張部２１３に出力し、映像表示部２１２及び音声出力部２１４を介して映像及び音声を再生する。

こうして、映像の中から特定のシーンだけ抽出したダイジェスト再生が実行される。

＜４．属性情報及び評価値の入力＞
続いて、属性情報及び評価値の、ユーザによる入力について説明する。本実施形態に係るビデオカメラ１００Ａでは、テーブルの属性情報及び評価をユーザが１つ１つ具体的に入力することができる。

例えば、前述の説明における人物Ａの顔検出及び人物Ｂの顔検出は、ユーザが追加で設定したものである。すなわち、ユーザが、ビデオカメラ１００Ａが予め備えていたテーブルに、人物Ａの顔検出を新たな属性情報として登録し、その評価値も登録し、さらに、別の人物Ｂの顔検出を新たな属性情報として登録し、その評価値も登録している。これにより、単に人物の顔検出というだけでなく、さらに詳細に特定の人物の顔検出を行うことができるようになる。

ここで、記憶部３３０には、顔認識テーブルが予め記憶されている。顔認識テーブルは、ＩＤと顔画像と人物の名前と評価値とを１セットとして、これを複数セット（例えば、６セット）だけ登録できるように構成されている。そして、ＩＤと評価値は予め設定されており、特定の人物の顔及び名前をユーザが適宜登録していく。

詳しくは、外部入力部２０７の操作によりビデオカメラ１００Ａが登録モードに設定されると、制御部３００は、登録すべき人物の顔を所定時間（例えば、３秒）以上撮影することをユーザに促すメッセージを映像表示部２１２に表示させる。それに応えて、ユーザがビデオカメラ１００Ａで特定の人物の顔を所定時間以上撮影すると、該人物の顔を登録すべき新たな属性情報として認識し、記憶部３３０に一時的に保存する。その後、制御部３００は、該人物の顔を顔認識テーブルのどのＩＤに対応させるかを尋ねるメッセージを映像表示部２１２に表示させる。尚、ＩＤごとに評価値が既に設定されており、例えば、ＩＤ１〜ＩＤ６のうちでは、ＩＤ１の評価値が「１００」で最も高く、ＩＤの番号が大きくなるほど、評価値は小さくなるように設定されている。つまり、登録すべき人物の顔とＩＤとを対応させることは、該人物の顔の評価値を設定することに等しい。ユーザが対応するＩＤを選択すると、次に、制御部３００は、該人物の名前の入力を促すメッセージを映像表示部２１２に表示させる。こうして、顔認識テーブルに、ＩＤと特定の人物の顔画像と名前と評価値が設定される。尚、この例では、評価値が予め設定されているが、評価値もユーザが任意に入力できるように構成してもよい。その場合には、評価値の入力をユーザに促すメッセージを映像表示部２１２に表示させて、評価値をユーザに入力させるようにすればよい。

こうして、属性情報及び評価の１つ１つの内容をユーザが任意に設定することができる。

そして、このように設定された属性情報及び評価の対応データは、ユーザの選択に基づいて、様々な使われ方をする。例えば、上記の例では、人物Ａの顔、人物Ｂの顔、それ以外の人物の顔がそれぞれ検出されたことを属性情報として設定しているが、検出された顔が誰の顔かを識別せずに、単に人物の顔が検出されたことを属性情報として抽出することもできる。すなわち、ビデオカメラ１００Ａは、人物を特定せずに、単に顔が検出されたことを属性情報として抽出する通常モードと、特定の人物の顔が検出されたことを属性情報として抽出する特定モードとを有する。特定モードでは、登録された人物の顔のうち、属性情報として抽出する顔を選択することもできる。具体的には、制御部３００は、登録されている人物の顔画像、名前又はＩＤを映像表示部２１２に表示させる。それに対して、ユーザが映像表示部２１２を操作して属性情報として抽出する人物の顔を選択する。制御部３００は、選択された人物の顔を属性情報として抽出する。

さらに、通常モードと特定モードとでは、顔検出を属性情報として抽出する際の条件を変更してもよい。すなわち、通常モードでは、映像中に不特定の或る人物の顔が所定の第１時間以上撮影されていることをもって属性情報として抽出する。それに対して、特定モードでは、撮影中に特定の人物（例えば、人物Ａ）の顔が該第１時間よりも短い第２時間以上撮影されている（例えば、１フレームだけに撮影されている）ことをもって属性情報として抽出する。つまり、通常モードでは、風景等に比べて人物の方が一般的に撮影対象としての重要度が高いという考えから、顔が検出されることを属性情報として設定している。そのため、人物の顔が一瞬だけ撮影されたというのではなく、撮影対象として人物の顔が撮影されたと判定できる程度の時間だけ、人物の顔が撮影されることを必要条件としている。それに対して、特定モードは、風景等の他の撮影対象と特定の人物の顔を比べて重要かどうかというよりも、特定の人物の顔が写っている映像を抽出したいというユーザの明確で強い意図が反映されたモードである。そのため、特定モードにおける顔検出の重要度は、通常モードに比べて高い。そこで、特定顔検出モードでは、通所の顔検出モードよりも、顔が検出されたと認定する条件を緩くしている。

尚、顔検出の条件を変えずに、特定の人物の顔の評価値を、不特定の顔の評価値よりも高くすることによって、特定の人物の顔の重要度を高くしてもよい。

続いて、人物Ａの顔検出よりも人物Ｂの顔検出の評価値を高く設定した場合について説明する。図１１は、映像を評価する際に用いる、各種の属性情報と各属性情報に対する評価との対応データのテーブルであり、図１２は、図１１のテーブルに基づいて、シーン評価部３０６が、或る映像から属性情報を抽出して評価値を付与した結果を示した図である。図１２の横軸は時間（シーン）を、縦軸に各シーンの評価値を示す。図１３は、図１１のテーブルに基づく評価から生成された再生情報を示す。

図１１に示すように、人物Ａの顔検出の属性情報の評価値が「６０」であるのに対し、人物Ｂの顔検出の属性情報の評価値が「９０」となっている。そして、このテーブルを用いて映像を評価すると、図１２に示す結果となる。具体的には、図５のテーブルを用いた評価と比べ、シーン＃２の評価が下がり、シーン＃４の評価が上がっている。この評価値に基づいて再生情報を生成すると、図１３に示すように、図８におけるシーン＃２に代わって、シーン＃４がダイジェストに追加されている。

前述のような評価値の変更は、テーブルの評価値をユーザが書き換えてもよいし、評価値が異なるテーブル（図５のテーブルと図１１のテーブル）を予め用意しておき、それを切り替えるようにしてもよい。例えば、予め用意しておいたテーブルを切り替える方法としては、各種のテーブルに対応するモードをユーザに選択させる選択画面（図１４参照）を映像表示部２１２に表示させ、ユーザに外部入力部２０７を介してモードを選択させるようにしてもよい。あるいは、各種のテーブルを映像表示部２１２に表示させて、ユーザにテーブルを選択させるようにしてもよい。尚、予め用意しておくテーブルは、属性情報又は評価値をユーザが直接入力することによって予め作成されたものであってもよい。

このように、属性情報の評価をユーザの嗜好に応じて変更することによって、そのユーザの嗜好に応じたダイジェストを生成することができる。

＜５．まとめ＞
したがって、本実施形態によれば、属性情報及び評価の少なくとも一方をユーザが任意に入力可能とすることによって、ユーザの嗜好を反映したダイジェスト再生を行うことができる。

特に、本実施形態では、属性情報をユーザが追加で設定できるため、よりユーザの嗜好に合った映像をダイジェストとして再生することができる。

詳しくは、ビデオカメラ１００は、ユーザの入力操作に応じて、映像に関する属性情報を入力する外部入力部２０７と、映像の中からダイジェスト再生する部分を抽出するために、前記属性情報を映像の中から抽出する制御部３００とを備えている。これにより、映像の中からダイジェスト再生する部分を抽出するために用いられる属性情報をユーザが適宜入力できる。その結果、ユーザの嗜好に合った映像をダイジェストとして再生することができる。

また、ビデオカメラ１００は、映像に関する属性情報及び該属性情報に対する評価との対応データについて、該属性情報及び評価の少なくとも一方をユーザの入力操作に応じて入力する外部入力部２０７と、映像の中からダイジェスト再生をする部分を抽出するために、前記属性情報を映像の中から抽出し、前記対応データに基づいて該属性情報を有する部分を評価する制御部３００とを備えている。これにより、映像の中からダイジェスト再生する部分を抽出するために用いられる属性情報及び／又はその評価値をユーザが適宜入力できる。その結果、ユーザの嗜好に合った映像をダイジェストとして再生することができる。

また、予め設定された顔検出（人物を特定しない顔検出）という属性情報に対して、特定の人物の顔検出という、下位概念の属性情報を設定可能とすることによって、ユーザのより深い嗜好を反映したダイジェスト再生を行うことができる。

さらに、属性情報には、クリップイン、クリップアウト及びズームアップ等のようなユーザの嗜好が現れ難い属性情報については固定の属性情報と、特定の人物の顔検出のようにユーザの嗜好が現れ易い属性情報については可変の属性情報とすることによって、処理を簡潔にすることができる。つまり、全ての属性情報を可変とすると、様々な属性情報に対応した制御内容（属性情報の入力や属性情報の抽出等）やメモリ容量を準備しておかなければならず、処理が煩雑となってしまう。それに対して、可変となる属性情報を或る程度絞っておくことによって、予め準備しておく制御内容やメモリ容量を少なくすることができ、処理が簡潔になる。また、自身の嗜好を強く反映させたいユーザと、自身の嗜好をあまり反映させたくないユーザ（そのような操作を煩わしいと感じるユーザ）とが存在する。そこで、全ての属性情報を可変とするのではなく、いくつかの属性情報は固定として、固定の属性情報だけに基づくダイジェスト再生を選択可能とすることによって、後者のユーザに対しては、操作の煩わしさを解消し、使いやすいビデオカメラを提供することができる。一方、前者のユーザにとっては、属性情報の一部を嗜好に応じて入力（追加、変更）することができるため、嗜好を反映させたダイジェスト再生を可能とすることができる。つまり、様々なユーザに対して、使い勝手がよく且つ嗜好を反映させたダイジェスト再生が可能なビデオカメラを提供することができる。

また、前記ビデオカメラ１００Ａでは、撮影時に属性情報の抽出、シーン評価、再生情報の生成を行うため、ダイジェスト再生時の処理を低減して、ダイジェスト再生を簡潔且つ迅速に実行することができる。また、ビデオカメラ１００Ａの姿勢等のような属性情報は、映像から事後的に判断することが難しく、又は、可能であるが煩わしく、撮影時のセンサの検出信号等により容易に検出することができる。つまり、属性情報の中には、撮影時の方が検出しやすいものがある。そのため、撮影時に属性情報の抽出を行うことによって、このような属性情報を容易に抽出することができる。

さらに、ビデオカメラ１００Ａのような撮影装置に記録された映像は、編集等がなされていない、単に撮影しただけの映像である。そのため、重要度の低い映像も多く、前述のようなダイジェスト再生が非常に有効なものになる。

《実施形態２》
続いて、実施形態２に係るビデオカメラ１００Ｂについて図１５を参照しながら説明する。図１５は、ビデオカメラ１００Ｂの概略構成を示すブロック図である。ビデオカメラ１００Ｂは、ダイジェスト再生を行うときに再生すべきシーンを選択する点で実施形態１のビデオカメラ１００Ａと異なる。具体的には、ビデオカメラ１００Ｂの基本的な構成は、ビデオカメラ１００Ａと略同様であり、データの流れ、即ち、処理の順序がビデオカメラ１００Ａと異なる。そこで、実施形態１と同様の構成については、同様の符号を付して説明を省略し、異なる部分を中心に説明する。

属性情報抽出部３０５が属性情報を抽出するまでの処理は、実施形態１と同様のである。そして、属性情報抽出部３０５が抽出した属性情報は、多重化部３０８に入力される。多重化部３０８は、映像信号圧縮部２０４からの符号化映像データ、音声信号圧縮部２１０からの符号化音声データ、及び属性情報抽出部３０５からの属性情報を多重化して出力する。この多重化されたデータは、記憶部３３０に記憶される。

シーン評価部３０６は、ダイジェスト再生が行われるときに、記憶部３３０から多重化されたデータを読み出し、属性情報に基づいて、映像の各部分に評価を付与し、映像の中から特徴的なシーンを抽出し、その中から、ダイジェスト再生すべきシーンをさらに抽出する。

その後、再生情報生成部３０７は、シーン評価部３０６が抽出したシーンに基づいて、再生情報を生成して、ダイジェスト再生部３０９へ出力する。

ダイジェスト再生部３０９は、再生情報生成部３０７が生成した再生情報に基づいて該当するデータを記憶部３３０から読み出し、映像信号伸張部２１１及び音声信号伸張部２１３へ出力する。そして、ダイジェスト映像が、映像表示部２１２及び音声出力部２１４によって再生される。

図１６は、撮影、属性情報の抽出、記録までの処理の流れを示すフローチャートである。図１７は、ダイジェスト再生時の処理の流れを示したフローチャートである。

まず、ビデオカメラ１００Ａの制御部３００は、ステップＳ３０１において、撮影を開始する。入力ボタン等の外部入力部２０７からの入力に基づいて、撮影が開始される。

次に、ステップＳ３０２において、属性情報抽出部３０５は、姿勢検出部２０６の検出結果、レンズ制御部３０１の制御情報、並びに映像解析部３０３及び音声解析部３０４の解析結果等に基づいて映像の属性情報を抽出する。そして、ステップＳ３０３において、多重化部３１４は、属性情報を、符号化映像データ、符号化音声データと共に多重化する。ステップＳ３０４において、制御部３００は、これらの多重化データを記憶部３３０に記憶する。

その後、制御部３００は、ステップＳ１０６において、外部入力部２０７から、撮影終了の入力があるか否かを判定する。撮影終了の入力がない場合は、ステップＳ３０２へ戻って、撮影を継続する。一方、撮影終了の入力がある場合には、撮影を終了する。

こうして撮影が終了した後、ダイジェスト再生を実行する際に、ダイジェスト再生すべきシーンの抽出や再生信号の生成が行われる。

詳しくは、外部入力部２０７を介したユーザからのダイジェスト再生の入力があると、シーン評価部３０６は、ステップＳ４０１において、記憶部３３０に記憶された多重化データを読み出す。

次に、シーン評価部３０６は、ステップＳ４０２において、読み出した多重化データを分解し、属性情報を読み出す。続いて、シーン評価部３０６は、ステップＳ４０３において、属性情報に基づいて映像の各部分に評価値を付与する。そして、シーン評価部３０６は、ステップＳ４０４において、映像の全部分の評価が終了したか否かを判定する。終了していなければ、シーン評価部３０６は、ステップＳ４０１に戻り、映像の評価を継続する。一方、評価が終了していれば、シーン評価部３０６は、ステップＳ４０５へ進む。

ステップＳ４０５では、シーン評価部３０６は、評価値に基づいて映像の中からいくつかの特徴的なシーンを抽出し、さらに、その中からダイジェスト再生すべきシーンを抽出する。そして、再生情報生成部３０７は、シーン評価部３０６により抽出されたダイジェスト再生すべきシーンに基づいて再生情報を生成する。

続いて、ダイジェスト再生部３０９は、ステップＳ４０６において、再生情報に基づいて、再生すべき符号化映像データ及び符号化音声データを記憶部３３０から読み出して映像信号伸張部２１１及び音声信号伸張部２１３に出力し、映像表示部２１２及び音声出力部２１４を介して映像及び音声を再生する。

以上により、撮影した映像、音声を記憶部３３０に一度記憶した後に、ダイジェスト再生に必要な再生情報を生成し、ダイジェスト再生を行うことが可能となる。本実施形態によれば、撮影後、ダイジェスト再生を実行する際に、属性情報に対する評価値を変更することができる。

《その他の実施形態》
以上のように、本出願において開示する技術の例示として、前記実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。また、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

前記実施形態について、以下のような構成としてもよい。

例えば、ビデオカメラの構成は前記実施形態に限られるものではない。図１８に示すようにビデオカメラ１００Ｃは、撮影した映像から、属性情報を抽出するところまでを実行するようにしてもよい。そして、映像再生装置５００が、属性情報が付与された映像データに基づいて、シーン評価及びダイジェスト再生を実行するようにしてもよい。さらには、ビデオカメラが、シーン評価を行うところまでを実行するようにしてもよい。そして、映像再生装置が、評価値に基づいてダイジェスト再生を実行するようにしてもよい。

さらに、本実施形態は、ビデオカメラのような撮影装置に限られず、ＰＣ等の映像編集装置や、ＨＤＤレコーダのような映像記録再生装置に適用することもできる。映像編集装置や映像記録再生装置が、映像の中から属性情報を抽出し、属性情報に基づいて映像の各部分を評価し、その評価に基づいてダイジェスト再生を行うようにしてもよい。

また、前記実施形態では、映像の中から、まず属性情報を抽出して各部分を評価し、次に属性情報に基づいてシーンを抽出し、その次にシーンに基づいてダイジェスト映像を生成しているが、これに限られるものではない。例えば、映像を複数のシーンに分割して、各シーンの属性情報を抽出して、属性情報に基づいて各シーンを評価し、その評価に基づいてダイジェスト映像を生成してもよい。この場合、シーンの分割は、前述のように、フレーム間の動きベクトルに基づいて実行してもよいし、ユーザからの入力に基づいて実行してもよいし、様々な属性情報の中でシーンの分割に影響を与える属性情報（カメラワークや地面の撮影等のシーンの区切りとなるもの）の有無に基づいて実行してもよい。

また、ビデオカメラ１００Ａの構成は、前記実施形態に限定されるものではない。例えば、映像ＡＤ変換部２０２、信号処理部２０３、映像信号圧縮部２０４、音声ＡＤ変換部２０９、音声信号圧縮部２１０、映像信号伸張部２１１及び音声像信号伸張部２１３の全部又はいくつかを単一の集積回路として実現することも可能である。また、制御部３００が実行する処理の一部を別途、ＦＰＧＡ（Field Programmable Gate Array）を用いてハードウェアとして実現することも可能である。

また、上記の内容を実現する方法やソフトウェアプログラムとしても実現できることは言うまでもない。

また、前記実施形態では、人物の顔検出を上位の属性情報及び固定の属性情報とし、特定の人物の顔検出を下位の属性情報及び可変の属性情報としているが、これに限られるものではない。例えば、犬などの動物の顔検出を上位の属性情報及び固定の属性情報とし、特定の犬の顔検出を下位の属性情報及び可変の属性情報としてユーザが入力可能としてもよい。または、電車、車又は飛行機などの交通手段の検出を上位の属性情報及び固定の属性情報とし、特定の電車、車又は飛行機の検出を下位の属性情報及び可変の属性情報としてユーザが入力可能としてもよい。または、人物の声の検出を上位の属性情報及び固定の属性情報とし、特定の人物の声の検出を下位の属性情報及び可変の属性情報としてユーザが入力可能としてもよい。この場合、特定の人物の声をマイクロフォン２０８を介してビデオカメラに入力することができる。

さらに、前記テーブルの評価値の値をユーザが個別に入力（変更）可能としてもよい。例えば、カメラワークに関する評価値を増加させたり、減少させたりすることができる。

尚、以上の実施形態は、本質的に好ましい例示であって、本発明、その適用物、あるいはその用途の範囲を制限することを意図するものではない。

ここに開示された技術は、影像の中からダイジェスト再生する部分を抽出する映像抽出装置及びそれを備えた撮影装置に有用である。

１００Ａ，１００Ｂ，１００Ｃビデオカメラ（映像抽出装置、撮影装置）
３００制御部
３０５属性情報抽出部
３０６シーン評価部
３０７再生情報生成部
３０９ダイジェスト再生部

Claims

映像から抽出すべき、映像に関する属性情報を記憶する記憶部と、
ユーザの入力操作に応じて、前記属性情報を前記記憶部に入力する入力部と、
映像の中から人物の顔の映像を人物を特定することなく検出する顔検出部と、
映像の中から特定の人物の顔の映像を検出する特定顔検出部と、
ダイジェスト再生するために、映像の中から特定の部分を前記記憶部に記憶された前記属性情報に基づいて抽出する制御部とを備え、
前記記憶部には、予め登録された特定の人物の顔の映像が記憶され、
前記特定顔検出部は、前記記憶部に記憶された前記特定の人物の顔の映像を検出し、
前記属性情報は、前記顔検出部が人物の顔の映像を検出し且つ第１条件が満たされたことと、前記特定顔検出部が前記特定の人物の顔の映像を検出し且つ第２条件が満たされたこととを含んでおり、
前記第２条件は、前記第１条件よりも満たしやすい条件である映像抽出装置。
ユーザの入力操作に応じて、映像から抽出すべき、映像に関する属性情報を記憶部に入力することと、
映像の中から人物の顔の映像を人物を特定することなく検出することと、
映像の中から特定の人物の顔の映像を検出することと、
ダイジェスト再生を行うために、映像の中から特定の部分を前記属性情報に基づいて抽出することとをコンピュータに実行させるためのプログラムであって、
前記記憶部には、予め登録された特定の人物の顔の映像が記憶され、
前記特定の人物の顔の映像を検出することは、前記記憶部に記憶された前記特定の人物の顔の映像を検出し、
前記属性情報は、人物を特定することなく人物の顔の映像を検出し且つ第１条件が満たされたことと、前記特定の人物の顔の映像を検出し且つ第２条件が満たされたこととを含んでおり、
前記第２条件は、前記第１条件よりも満たしやすい条件であるプログラム。
ユーザの入力操作に応じて、映像から抽出すべき、映像に関する属性情報を記憶部に入力することと、
映像の中から人物の顔の映像を人物を特定することなく検出することと、
映像の中から特定の人物の顔の映像を検出することと、
ダイジェスト再生を行うために、映像の中から特定の部分を前記属性情報に基づいて抽出することとをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記記憶部には、予め登録された特定の人物の顔の映像が記憶され、
前記特定の人物の顔の映像を検出することは、前記記憶部に記憶された前記特定の人物の顔の映像を検出し、
前記属性情報は、人物を特定することなく人物の顔の映像を検出し且つ第１条件が満たされたことと、前記特定の人物の顔の映像を検出し且つ第２条件が満たされたこととを含んでおり、
前記第２条件は、前記第１条件よりも満たしやすい条件である記録媒体。
映像から抽出すべき、映像に関する属性情報を記憶する記憶部と、
ユーザの入力操作に応じて、前記属性情報を前記記憶部に入力する入力部と、
映像の中から人物の顔の映像を人物を特定することなく検出する顔検出部と、
映像の中から特定の人物の顔の映像を検出する特定顔検出部と、
ダイジェスト再生するために、映像の中から特定の部分を前記記憶部に記憶された前記属性情報に基づいて抽出する制御部とを備え、
前記記憶部には、予め登録された特定の人物の顔の映像が記憶され、
前記特定顔検出部は、前記記憶部に記憶された前記特定の人物の顔の映像を検出し、
前記属性情報は、前記顔検出部が人物の顔が所定の第１時間以上撮影されている部分を検出したことと、前記特定顔検出部が前記特定の人物の顔が所定の第２時間以上撮影されている部分を検出したこととを含んでおり、
前記第２時間は、前記第１時間よりも短く設定されている映像抽出装置。