[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5685732B2 - 映像抽出装置、プログラム及び記録媒体 - Google Patents

映像抽出装置、プログラム及び記録媒体 Download PDF

Info

Publication number
JP5685732B2
JP5685732B2 JP2013216098A JP2013216098A JP5685732B2 JP 5685732 B2 JP5685732 B2 JP 5685732B2 JP 2013216098 A JP2013216098 A JP 2013216098A JP 2013216098 A JP2013216098 A JP 2013216098A JP 5685732 B2 JP5685732 B2 JP 5685732B2
Authority
JP
Japan
Prior art keywords
video
face
attribute information
person
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013216098A
Other languages
English (en)
Other versions
JP2014030260A (ja
Inventor
森岡 芳宏
芳宏 森岡
吉田 勝彦
勝彦 吉田
広二 竹林
広二 竹林
山内 栄二
栄二 山内
慶子 安藤
慶子 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2013216098A priority Critical patent/JP5685732B2/ja
Publication of JP2014030260A publication Critical patent/JP2014030260A/ja
Application granted granted Critical
Publication of JP5685732B2 publication Critical patent/JP5685732B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • H04N21/4325Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/782Television signal recording using magnetic recording on tape
    • H04N5/783Adaptations for reproducing at a rate different from the recording rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Description

ここに開示された技術は、影像の中からダイジェスト再生する部分を抽出する映像抽出装置、さらには、影像の中からダイジェスト再生する部分を抽出するプログラム及びそれを記録する記録媒体に関する。
従来より、映像の中からその一部を抜き出してダイジェスト(要約)映像を再生する技術が知られている。映像は、その全内容を再生するためには少なからず時間を要する。そのため、映像の内容を短時間で把握したいというニーズがある。また、映像の中から重要な部分だけを抽出して視聴したいというニーズもある。特に、プロではない一般のユーザがビデオカメラやデジタルスチルカメラ等の撮影装置を用いて撮影した映像は、シナリオ等を有さず、発生したイベントが単純に時系列で並んでいるだけである。そのため、このような映像の場合には特に、上記のニーズが強い。
このニーズに応えるべく、特許文献1に係る撮影装置は、映像のメタデータに基づいてシーンを評価し、その評価結果に基づいて、映像のシーンやクリップの数を絞り込んだダイジェストを再生している。
特開2008−227860号公報
ところで、視聴する人の嗜好によって、好ましいダイジェストの内容は大きく変わる。しかしながら、特許文献1に係るメタデータ及びそれに基づく評価は一意的であり、ユーザの嗜好に対応していない。
ここに開示された技術は、かかる点に鑑みてなされたものであり、その目的とするところは、様々な嗜好に対応したダイジェスト再生を実現することにある。
ここに開示された映像抽出装置は、映像の中から人物の顔の映像を人物を特定することなく検出する顔検出部と、予め登録された特定の人物の顔の映像を記憶する記憶部と、映像の中から前記記憶部に記憶された前記特定の人物の顔の映像を検出する特定顔検出部と、ダイジェスト再生を行うために、映像の中から特定の部分を抽出する制御部とを備え、前記制御部は、前記顔検出部が人物の顔の映像を検出し且つ第1条件が満たされたときに該人物の顔の映像を含む部分を前記特定の部分として抽出し、前記特定顔検出部が前記特定の人物の顔の映像を検出し且つ第2条件が満たされたときに該特定の人物の顔の映像を含む部分を前記特定の部分として抽出し、前記第2条件は、前記第1条件よりも満たしやすい条件であるものとする。
また、別の映像抽出装置は、映像から抽出すべき、映像に関する属性情報を記憶する記憶部と、ユーザの入力操作に応じて、前記属性情報を前記記憶部に入力する入力部と、映像の中から人物の顔の映像を人物を特定することなく検出する顔検出部と、映像の中から特定の人物の顔の映像を検出する特定顔検出部と、ダイジェスト再生するために、映像の中から特定の部分を前記属性記憶部に記憶された前記属性情報に基づいて抽出する制御部とを備え、前記記憶部には、予め登録された特定の人物の顔の映像が記憶され、前記特定顔検出部は、前記記憶部に記憶された前記特定の人物の顔の映像を検出し、前記属性情報は、前記顔検出部が人物の顔の映像を検出し且つ第1条件が満たされたことと、前記特定顔検出部が前記特定の人物の顔の映像を検出し且つ第2条件が満たされたこととを含んでおり、前記第2条件は、前記第1条件よりも満たしやすい条件であるものとする。
また、ここに開示されたプログラムは、映像の中から人物の顔の映像を人物を特定することなく検出することと、映像の中から予め登録された特定の人物の顔の映像を検出することと、ダイジェスト再生を行うために、映像の中から特定の部分を抽出することとをコンピュータに実行させるためのプログラムであって、前記特定の部分を抽出するときには、映像の中から人物の顔の映像を人物を特定することなく検出し且つ第1条件が満たされたときに該人物の顔の映像を含む部分を前記特定の部分として抽出し、映像の中から前記特定の人物の顔の映像を検出し且つ第2条件が満たされたときに該特定の人物の顔の映像を含む部分を前記特定の部分として抽出し、前記第2条件は、前記第1条件よりも満たしやすい条件であるものとする。
また、ここに開示された記録媒体は、映像の中から人物の顔の映像を人物を特定することなく検出することと、映像の中から予め登録された特定の人物の顔の映像を検出することと、ダイジェスト再生を行うために、映像の中から特定の部分を抽出することとをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記特定の部分を抽出するときには、映像の中から人物の顔の映像を人物を特定することなく検出し且つ第1条件が満たされたときに該人物の顔の映像を含む部分を前記特定の部分として抽出し、映像の中から前記特定の人物の顔の映像を検出し且つ第2条件が満たされたときに該特定の人物の顔の映像を含む部分を前記特定の部分として抽出し、前記第2条件は、前記第1条件よりも満たしやすい条件であるものとする。
さらに、別の映像抽出装置は、映像の中から人物の顔の映像を人物を特定することなく検出する顔検出部と、予め登録された特定の人物の顔の映像を記憶する記憶部と、映像の中から前記記憶部に記憶された前記特定の人物の顔の映像を検出する特定顔検出部と、ダイジェスト再生を行うために、映像の中から特定の部分を抽出する制御部とを備え、前記制御部は、前記顔検出部が人物の顔が所定の第1時間以上撮影されている部分を検出したときに該部分を特定の部分として抽出し、前記特定顔検出部が前記特定の人物の顔が所定の第2時間以上撮影されている部分を検出したときに該部分を特定の部分として抽出し、前記第2時間は、前記第1時間よりも短く設定されているものとする。
さらにまた、別の映像抽出装置は、映像から抽出すべき、映像に関する属性情報を記憶する記憶部と、ユーザの入力操作に応じて、前記属性情報を前記記憶部に入力する入力部と、映像の中から人物の顔の映像を人物を特定することなく検出する顔検出部と、映像の中から特定の人物の顔の映像を検出する特定顔検出部と、ダイジェスト再生するために、映像の中から特定の部分を前記属性記憶部に記憶された前記属性情報に基づいて抽出する制御部とを備え、前記記憶部には、予め登録された特定の人物の顔の映像が記憶され、前記特定顔検出部は、前記記憶部に記憶された前記特定の人物の顔の映像を検出し、前記属性情報は、前記顔検出部が人物の顔が所定の第1時間以上撮影されている部分を検出したことと、前記特定顔検出部が前記特定の人物の顔が所定の第2時間以上撮影されている部分を検出したこととを含んでおり、前記第2時間は、前記第1時間よりも短く設定されているものとする。
前記映像抽出装置によれば、ユーザの嗜好に対応したダイジェスト再生を実現することができる。
さらに、前記プログラムによれば、ユーザの嗜好に対応したダイジェスト再生を実現することができる。
さらにまた、前記記録媒体によれば、ユーザの嗜好に対応したダイジェスト再生を実現することができる。
図1は、本実施形態に係るビデオカメラの斜視図である。 図2は、ビデオカメラの概略構成を示すブロック図である。 図3は、ビデオカメラが撮影した映像の構成を示す図である。 図4は、クリップ内を複数のシーンに分割した場合の例を示すイメージ図である。 図5は、各種の属性情報と各属性情報に対する評価との対応データのテーブルを示す図である。 図6は、シーン評価部或る映像から属性情報を抽出して評価値を付与した結果を示した図である。 図7は、人物の顔が撮影される映像の例を示す図であり、(A)は人物Aの顔が撮影された映像を、(B)は人物Bの顔が撮影された映像を、(C)は人物Aの顔と人物Bの顔が撮影された映像を、(D)は大勢の人と共に人物Aの顔が撮影された映像を示す。 図8は、再生情報を示す図である。 図9は、撮影、シーン評価、再生情報の生成、記録までの処理の流れを示すフローチャートである。 図10は、ダイジェスト再生時の処理の流れを示したフローチャートである。 図11は、属性情報と評価値との関係を示したテーブル各種の属性情報と各属性情報に対する評価との対応データのテーブルである。 図12は、シーン評価部が図11のテーブルに基づいて或る映像から属性情報を抽出して評価値を付与した結果を示した図である。 図13は、再生情報を示す図である。 図14は、各種のテーブルに対応するモードをユーザに選択させる選択画面の例を示す図である。 図15は、実施形態2に係るビデオカメラの概略構成を示すブロック図である。 図16は、撮影、属性情報の抽出、記録までの処理の流れを示すフローチャートである。 図17は、ダイジェスト再生時の処理の流れを示したフローチャートである。 図18は、その他の実施形態に係るビデオカメラの概略構成を示すブロック図である。
以下、例示的な実施形態を図面に基づいて詳細に説明する。
《実施形態1》
<1.ビデオカメラの構成>
図1は、撮影装置の一例としてのビデオカメラ100Aの斜視図であり、図2は、ビデオカメラ100Aの概略構成を示すブロック図である。
ビデオカメラ100Aは、映像を撮影し、それを記録し、再生するものである。また、ビデオカメラ100Aは、映像の中からダイジェスト再生するための部分を抽出し、さらには、ダイジェスト再生を行う。ビデオカメラ100Aは、レンズ群200、撮像素子201、映像AD変換部(Analog-to-Digital Converter)202、信号処理部203、映像信号圧縮部204、レンズ制御モジュール205、姿勢検出部206、外部入力部207、マイクロフォン208、音声ADC(Analog-to-Digital Converter)209、音声信号圧縮部210、映像信号伸張部211、映像表示部212、音声信号伸張部213、音声出力部214、出力I/F(Interface)215、制御部300、クロック320、記憶部330とを備えている。このビデオカメラ100Aが、映像抽出装置及び撮影装置を構成する。
レンズ群200は、複数のレンズで構成されており、被写体からの入射光を撮像素子201上に結像させるものである。また、レンズ群200は、複数のレンズ間の距離を調整可能に構成されており、レンズ間の距離を変えることによって焦点距離やズーム倍率(映像の拡大倍率)を変化させる。焦点距離やズーム倍率の調整は、ユーザが手動で行うものであっても、後述する制御部300等が自動的に行うものであってもよい。
撮像素子201は、入射する光を電気信号に変換するものである。撮像素子201は、CCD又はCMOSで構成されている。撮像素子201は、撮像面上の任意の範囲の電気信号を出力する。また、撮像素子201は、画像に関する情報以外にも、3原色点の色度空間情報、白色の座標、及び3原色のうち少なくとも2つのゲイン情報、色温度情報、Δuv(デルタuv)、及び3原色または輝度信号のガンマ情報等の情報も出力することが可能である。そのため、撮像素子201からの出力は、映像AD変換部202だけでなく、制御部300の後述する属性情報抽出部305にも入力される。
映像AD変換部202は、撮像素子201が出力するアナログの電気信号をデジタル信号へ変換するものである。
信号処理部203は、映像AD変換部202が出力したデジタル信号をNTSC(National Television System Committee)やPAL(Phase Alternating Line)等の所定の映像信号フォーマットに変換するものである。例えば、信号処理部203は、映像AD変換部202からのデジタル信号をNTSCで規定された水平線の数、走査線の数、フレームレートに準拠したデジタル映像信号(映像データ)に変換する。信号処理部203からの出力は、制御部300へ入力される。信号処理部203は、例えば、映像信号変換用のICで構成されている。尚、映像信号フォーマットとしては、1映像フレームの有効画素数が水平方向に1920、垂直方向に1080である、所謂、フルハイビジョン方式や、1映像フレームの有効画素数が水平方向に1280、垂直方向に720である方式がある。
映像信号圧縮部204は、信号処理部203から出力されるデジタル映像信号に所定の符号化変換を施し、データ量を圧縮する。符号化変換の具体例としては、MPEG(Moving Picture Experts Group)2、MPEG4、H264等の符号化方式がある。映像信号圧縮部204からの出力は、制御部300へ入力される。映像信号圧縮部204は、例えば、信号圧縮伸張用のICで構成されている。
レンズ制御モジュール205は、レンズ群200の状態を検出したり、レンズ群200を動作させたりするものである。レンズ制御モジュール205は、レンズ制御モータとレンズ位置センサとを有している。レンズ位置センサは、レンズ群200を構成する複数のレンズ間の距離又は位置関係等を検出するものである。レンズ位置センサは、その検出信号を制御部300に出力する。レンズ制御モジュール205は、2種類のレンズ制御モータを有している。1つのレンズ制御モータは、制御部300から制御信号に基づいて、レンズ群200を光軸方向に移動させる。これにより、レンズ群200の複数のレンズ間の距離が変更され、レンズ群200の焦点距離及びズーム倍率が調整される。もう1つのレンズ制御モータは、制御部300から制御信号に基づいて、レンズ群200のうちの少なくとも1つのレンズ(像ぶれ補正用のレンズ)を光軸に直交する面内で移動させる。これにより、像ぶれを補正する。
姿勢検出部206は、ビデオカメラ100A本体の姿勢を検出するものである。姿勢検出部206は、加速度センサ、角速度センサ、及び仰角・俯角センサを有する。これらのセンサにより、撮影時にビデオカメラ100Aがどのような姿勢となっているかを認識することができる。尚、加速度センサ及び角速度センサは、ビデオカメラ100Aの姿勢を詳細に検出するために、直交3軸方向(ビデオカメラ100Aの上下方向、前後方向、左右方向)の姿勢をそれぞれ検出できることが好ましい。姿勢検出部206からの信号は、制御部300へ入力される。尚、姿勢検出部206は、上記の構成に限らず、上記センサの何れかだけで構成されていてもよいし、上記センサ以外のセンサを有していてもよい。
外部入力部207は、ビデオカメラ100Aに外部からの情報を入力する手段である。外部入力部207からの信号は、制御部300へ入力される。尚、図2では、外部入力部207からの信号は、制御部300の属性情報抽出部305だけに入力されているが、レンズ制御部310等の入力操作に対応する部分にも入力される。撮影時には、この外部入力部207を介してビデオカメラ100Aに外部からの各種情報が入力される。例えば、外部入力部207は、ユーザからの情報の入力を受け付ける入力インタフェースの1つである入力ボタンや、外部から通信経由で入力される撮影インデックス情報等を受信する受信部や、ビデオカメラ100Aが三脚に設置されているか否かを検出する三脚センサを含む。例えば、ユーザが入力ボタンを操作することによって、撮影の開始、終了、撮影中の映像にマーキングを挿入する、及び後述する属性情報及びその評価を入力、設定する等、ユーザからの各種要求をビデオカメラ100Aに伝えることが可能となる。すなわち、外部入力部207は、ユーザの入力操作に応じて、後述する属性情報及び評価の少なくとも一方を記憶部330に入力する入力部を構成する。撮影インデックス情報とは、例えば、映画撮影時における撮影場面を識別する番号や、撮影回数を示す番号等のそれぞれの撮影を識別するために用いられる識別番号などである。三脚センサは、ビデオカメラ100Aの三脚が固定される部分に設けられたスイッチで構成されている。三脚センサにより、三脚を使用した撮影か否かを判定できる。
マイクロフォン208は、ビデオカメラ100Aの周囲の音を電気信号に変換して、音声信号として出力するものである。
音声AD変換部209は、マイクロフォン208が出力するアナログの音声信号をデジタル音声信号(音声データ)へ変換するものである。
音声信号圧縮部210は、音声AD変換部209が出力したデジタル音声信号を所定の符号化アルゴリズムで変換するものである。符号化にはMP3(MPEG Audio Layer-3)やAAC(Advanced Audio Coding)等の方式がある。音声信号圧縮部210は、例えば、圧縮用のICで構成されている。
映像信号伸張部211は、制御部300から出力される映像信号を複合するものである。映像信号伸張部211からの出力は、映像表示部212に入力される。映像信号伸張部211は、例えば、映像信号伸張用のICで構成されている。
映像表示部212は、ビデオカメラ100Aに記録した映像や、ビデオカメラ100Aでリアルタイムに撮影している映像を表示する。それ以外にも、ビデオカメラ100Aは、撮影に関する情報や機器情報等の各種情報を表示する。映像表示部212は、例えば、タッチパネル式の液晶ディスプレイで構成されている。このようにタッチパネル式の映像表示部212は、外部入力部207としても機能する。
音声信号伸張部213は、制御部300から出力される音声信号を複合するものである。音声信号伸張部213からの出力は、音声出力部214に入力される。音声信号伸張部213は、例えば、音声信号伸張用のICで構成されている。
音声出力部214は、映像に付随する音声を出力する。それ以外にも、音声出力部214は、ビデオカメラ100Aからユーザへ報知する警告音を出力する。音声出力部214は、例えば、スピーカで構成されている。
出力I/F215は、映像信号をビデオカメラ100Aから外部へ出力するためのインタフェースである。具体的には、出力I/F215は、ビデオカメラ100Aと外部機器とをケーブルで接続する場合のケーブルインタフェースや、映像信号をメモリカードに記録する場合のメモリカードインタフェース等である。
制御部300は、ビデオカメラ100Aの全体を制御するものである。制御部300は、撮像素子201、信号処理部203、映像信号圧縮部204、レンズ制御モジュール205、姿勢検出部206、外部入力部207、音声AD変換部209、音声信号圧縮部210、映像信号伸張部211、音声信号伸張部213、出力I/F215及び記憶部330等との間で信号の授受が可能に構成されている。本実施形態では、制御部300は、CPUで構成されている。制御部300は、記憶部330に格納されたプログラムを読み込んで実行することによってビデオカメラ100Aの各種制御を実行する。制御部300が実行する制御の例としては、例えば、レンズ群200の焦点距離やズームの制御や、姿勢検出部206や外部入力部207からの入力信号の処理や、信号処理部203、映像信号圧縮部204、音声信号圧縮部210、映像信号伸張部211及び音声信号伸張部213等のICの動作制御等である。また、図示は省略するが、制御部300とレンズ制御モジュール205等との間では、適宜、信号がAD変換又はDA変換される。尚、制御部300は、IC等の集積回路で構成することもできる。
クロック320は、ビデオカメラ100A内で動作する制御部300等に処理動作の基準となるクロック信号を出力するものである。尚、クロック320は、利用する集積回路や扱うデータによって、単一または複数のクロックを用いることも可能である。また、ひとつの発振子のクロック信号を任意の倍数に乗じて使用してもよい。
記憶部330は、ROM(Read Only Memory)、RAM(Random Access Memory)及びHDD(Hard Disk Drive)を含んでいる。ROMは、制御部300が処理するプログラムやプログラムを動作させるための各種データを記憶しておくものである。RAMは、制御部300が処理するプログラム実行時に使用するメモリ領域等として使用される。また、RAMは、ICのメモリ領域としても使用され得る。HDDは、映像信号圧縮部204により符号化変換された映像データや静止画データ等の各種データを保存する。また、HDDは、制御部300で実行するプログラムを記憶している。尚、このプログラムは、HDDに限られず、半導体メモリに記憶されていてもよいし、CD−ROMやDVD等の可搬型記録媒体に格納されていてもよい。
以下、制御部300について詳細に説明する。ここでは、制御部300のうち、ダイジェスト再生を行うのに必要な構成について説明する。ただし、制御部300は、一般的なビデオカメラと同様の機能を発揮させるための構成、例えば、撮影した映像を記録したり、再生したりする構成も有する。
制御部300は、レンズ制御モジュール205を制御するレンズ制御部301と、撮像素子201を制御する撮像制御部302と、信号処理部203からの出力を解析する映像解析部303と、音声AD変換部209からの出力を解析する音声解析部304と、映像中の属性情報を抽出する属性情報抽出部305と、シーンを評価するシーン評価部306と、ダイジェスト再生のための再生情報を生成する再生情報生成部307と、映像データと音声データとを多重化する多重化部308と、ダイジェスト再生を行うダイジェスト再生部309とを有している。制御部300は、記憶部330に記憶されたプログラムを読み込んで実行することによって、後述する各種の処理を実現する。
レンズ制御部301は、レンズ制御モジュール205のレンズ位置センサの検出信号及び姿勢検出部206の各種センサの検出信号が入力されている。レンズ制御部301は、これらの検出信号及び撮像素子201等の他の構成要素からの情報に基づいて、レンズ群200を適正に配置させるための制御信号をレンズ制御モータに出力する。こうして、レンズ制御部301は、ズーム制御、フォーカス制御、像ぶれ補正制御等を行う。また、レンズ制御部301は、レンズ群200の制御信号を属性情報抽出部305へ出力する。尚、姿勢検出部206の各種センサの検出信号は、属性情報抽出部305へも出力されている。
撮像制御部302は、撮像素子201の動作を制御するものである。撮像素子201に対して、撮影時の露出量、撮影速度、及び感度等を制御するものである。撮像制御部302から出力される制御信号は、撮像素子201だけでなく、属性情報抽出部305へも出力される。
映像解析部303は、信号処理部203からの映像データに基づいて映像の特徴を抽出するものである。映像解析部303は、映像の色情報(例えば、映像に含まれる色の分布を検出する)や、ホワイトバランス情報を検出する。尚、色分布の検出は、デジタル映像信号を形成するデータに含まれる色情報を確認することで実現可能である。また、映像解析部303は、映像に人物の顔が含まれている場合には、映像の中から顔検出を行う。顔検出については、パターンマッチング等を用いることにより実現可能である。
音声解析部304は、音声AD変換部209からの音声データを解析して、特徴のある音を抽出するものである。ここで特徴のある音とは、例えば、撮影者の声、特定の単語の発音、歓声、及び銃声等がある。これらの音は、これらの音(音声)が持つ特有の周波数を予め登録しておき、それとの比較により判別するなどの方法等によって抽出可能である。また、これ以外にも、例えば、音の入力レベルが所定レベル以上のときに特徴のある音であると判定するようにしてもよい。
属性情報抽出部305は、映像に関する属性情報を抽出する。属性情報は、映像の属性を表す情報であって、撮影に関する情報(以下、「撮影情報」ともいう)、外部入力情報及びその他の情報である。属性情報抽出部305には、撮像素子201、姿勢検出部206、外部入力部207、レンズ制御部301、撮像制御部302、映像解析部303及び音声解析部304からの出力信号が入力されている。属性情報抽出部305は、これらの出力信号に基づいて属性情報を抽出する。
この映像に関する属性情報には、映像の撮影時の撮影装置の状態やカメラワークなどの撮影に関する属性情報、CGなどによる映像の生成時の映像に関する属性情報、映像そのものが含む被写体や背景に関する属性情報、映像に付帯する音声に関する属性情報、及び編集機などによる映像の編集時の映像編集内容に関する属性情報が含まれる。
例えば、撮影時の撮影装置に関する属性情報の例としては、焦点距離、ズーム倍率、露出、撮影速度、感度、3原色点の色空間情報、ホワイトバランス、3原色のうち少なくとも2つのゲイン情報、色温度情報、Δuv(デルタuv)、3原色または輝度信号のガンマ情報、色分布、顔認識情報、カメラ姿勢(加速度、角速度、仰角・俯角等)、撮影時刻(撮影開始時刻、終了時刻)、撮影インデックス情報、ユーザ入力、フレームレート、サンプリング周波数等が挙げられる。例えば、属性情報抽出部305は、レンズ制御部301の制御信号に基づいて、焦点距離やズーム倍率を属性情報として抽出する。また、属性情報抽出部305は、姿勢検出部206の検出信号に基づいて、カメラ姿勢(加速度、角速度、仰角・俯角等)を検出し、そのカメラ姿勢からパン、ティルト等の撮影時のビデオカメラ100Aのカメラワークを属性情報として抽出する。さらには、これらのカメラワークに基づいて、カメラワーク後のフィックス撮影部分(ビデオカメラ100を静止させて撮影した部分)を属性情報として抽出することができる。このように、属性情報抽出部305は、入力された信号そのものから属性情報を抽出する場合もあれば、入力された信号と組み合わせたり、分析したりすることによって属性情報を抽出する場合もある。
シーン評価部306は、属性情報抽出部305が抽出した属性情報に基づいて、それぞれの属性情報を含む部分の映像を評価して、その評価(値)を該部分に付与する。この評価の詳細については後述する。
再生情報生成部307は、シーン評価部306によって付与された評価に基づいて、再生すべき部分(シーン)を選択し、ダイジェスト再生すべき部分を特定する情報(以下、「再生情報」という)を生成する。尚、再生情報の詳細については後述する。
多重化部308は、映像信号圧縮部204からの符号化映像データ、音声信号圧縮部210からの符号化音声データ、及び再生情報生成部307からの再生情報を多重化して出力する。多重化部308により多重化されたデータは、記憶部330に格納される。多重化の方式としては、例えば、MPEGのTS(Transport Stream)等の技術がある。ただし、これに限定されるものではない。尚、本実施形態では、多重化する場合を例として示しているが、必ずしも多重化しなくてもよい。
これら属性情報抽出部305、シーン評価部306、再生情報生成部307及び多重化部308の処理は、撮影時、詳しくは、撮影中又は撮影直後に逐次、実行される。
ダイジェスト再生部309は、撮影の終了後に、ユーザの入力に基づいてダイジェスト再生を実行する。詳しくは、ダイジェスト再生部309は、記憶部330に記憶された多重化されたデータを読み出し、再生情報に従って、ダイジェスト再生させるべき部分の符号化映像データ及び符号化音声データをそれぞれ映像信号伸張部211及び音声信号伸張部213に出力する。出力された符号化映像データ及び符号化音声データはそれぞれ、映像信号伸張部211及び音声信号伸張部213で復号され、映像表示部212及び音声出力部214から出力される。こうして、映像の中から特定の部分だけ抽出したダイジェスト再生が実行される。尚、このダイジェスト映像は、記憶部330に記憶するようにしてもよい。
<2.シーン評価及び再生情報の生成>
図3は、ビデオカメラ100Aが撮影した映像の構成を示す図であり、図4は、クリップ内を複数のシーンに分割した場合の例を示すものである。図4では、各シーンを「開始時間」と「終了時間」で特定しているが、フレーム番号(シーンの開始フレーム番号及び終了フレーム番号)等で各シーンを特定してもよい。
ユーザが撮影開始を指示し、撮影の終了又は撮影の一時停止を指示するまでに撮影された映像の単位を「クリップ」とする。すなわち、ユーザが撮影の開始、撮影の終了又は一時停止を何度も繰り返すと、クリップが複数生成される。1つのクリップは、1又は複数の「シーン」で構成されている。「シーン」は、論理的につながりのある一続きの映像であって、1又は複数の「フレーム」で構成されている。「フレーム」とは、映像を構成する最小単位となる個々の画像である。
例えば、1つの「クリップ」を1つの「シーン」とみなすこともできる。また、画面が大きく変わることを境として「シーン」を設定してもよい。例えば、映像解析部303がフレーム間の動きベクトルを算出し、動きの大きさ(即ち、動きベクトルの変化)が所定の値より大きいときを、「シーン」の境界としてもよい。つまり、そのようにして設定された2つの境界の間の映像が1つの「シーン」となる。その他の撮影情報等に基づいて「シーン」を区切ってもよい。例えば、撮影者からのボタン入力により「シーン」を区切ってもよい。この場合に、撮影者の明確な意図で「クリップ」内の「シーン」が構成される。以上の方法で「シーン」を抽出した場合には、図4に示すように、「クリップ」には、連続的な「シーン」が含まれることになる。一方、「クリップ」内の特定の部分だけを「シーン」とみなすこともできる。例えば、映像の中から映像として重要な部分を「シーン」とみなすこともできる。具体的には、特定の属性情報を含む部分を1つの「シーン」とみなしてもよい。例えば、重要と想定される属性情報を含む、所定の時間幅の映像を「シーン」とする。これにより、重要な部分のみが「シーン」として抽出される。その結果、「クリップ」内には、離散的に「シーン」が含まれることになる。このように、「シーン」は、任意に設定することが可能である。本実施形態では、映像のうちの重要な部分を「シーン」としてみなしている。
続いて、シーン評価部306のシーン評価について詳しく説明する。図5は、映像を評価する際に用いる、各種の属性情報と各属性情報に対する評価との対応データのテーブルである。このテーブルは、記憶部330に記憶されている。シーン評価部306は、このテーブルを用いて、映像を評価する。
図5に示すように、属性情報には、それぞれ評価値が設定されている。図5の例では、評価値が高いほど評価が高い(好ましい)ものとしている。例えば、クリップイン(撮影の開始部分)やクリップアウト(撮影の終了直前部分)については、映像の導入部分や重要部分であって、映像が持つ論理的な意味が高いと推定されるので、クリップイン(A)は、評価値「100」が、クリップアウト(F)は、評価値「90」が設定されている。撮影時のカメラワークとしてズームアップ(D)やズームダウン(G)は、特定の被写体への注目度を高めるものであるため、評価値「30」が設定されている。また、顔が検出されたこと(Z)は、人物を対象に撮影が行われることが多いことから、評価値「50」が設定されている。また、顔検出の中でも、特定の人物Aの顔が検出されたこと(X)は、「100」の評価値が設定され、特定の人物Bの顔が検出されたこと(Y)は、評価値「80」が設定されている。
この特定の人物の顔及びそれに対する評価値は、詳しくは後述するが、ユーザが適宜設定することができる。つまり、単に人物を撮影しているというだけでなく、特定の人物を撮影している映像にはユーザの意思で高い評価値を付与することができる。尚、評価は、プラスの評価、即ち、好ましい評価だけでなく、マイナスの評価、即ち、好ましくない評価もあり得る。例えば、像ぶれは視聴者に見づらい映像となる可能性があるので、このような属性情報を有するシーンには、負の評価値が付与される。
尚、図5の例では、評価が数値化されているが、これに限られるものではない。例えば、評価としてA,B,C,…のような符号を用いてもよい。評価として用いられる符号には、予め優劣が定められている(例えば、Aが最も評価が高い等)。また、A,B,Cなどの符号の評価は、ユーザの意思で自由に設定することもできる。
シーン評価部306は、属性情報抽出部305によって属性情報が抽出された映像の部分に、前記テーブルに基づいて、該属性情報に対応する評価値を付与する。
そして、評価値を付与した後、シーン評価部306は、該評価値に基づいて、所定の個数のシーンを抽出する。こうして、シーン評価部306は、ダイジェスト再生に用いられ得る特徴的な映像の部分をシーンとして、ダイジェスト再生されるシーンの個数よりも多めに予め抽出しておく。例えば、シーン評価部306は、評価値が高い属性情報を有する部分を含む所定時間幅の映像を1つのシーンとして抽出する。そして、シーン評価部306は、評価値が高い順に、所定の個数のシーンを抽出する。この所定の個数は、ユーザが任意に設定可能としてもよいし、固定値として予め設定しておいてもよい。前述のシーンの抽出方法は、一例であって、異なる方法でシーンを抽出してもよい。例えば、評価値が高い属性情報を有する部分であっても、それよりも前の映像に同じ属性情報が含まれる部分をシーンとして抽出している場合には、シーンとして抽出しなくてもよい。こうすることで、同じ属性情報を有するシーンばかりが抽出されることを防止することができる。あるいは、特定の属性情報(例えば、人物Aの顔検出や人物Bの顔検出等)を有する部分を優先的にシーンとして抽出してもよい。
次に、シーン評価部306は、抽出したシーンの中から、所定の抽出条件に基づいて、ダイジェスト再生すべきシーンを抽出する。例えば、抽出条件が、評価値が高い順に3個というものであれば、シーン評価部306は、評価値が上位3つのシーンを抽出する。この個数は、ユーザが任意に設定できる。また、抽出条件が、評価値の高い順に抽出して、合計時間が所定時間になるというものであれば、シーン評価部306は、合計時間が所定の時間となるように、評価値が上位のシーンから順に抽出する。この所定の時間は、予め所定の値に設定しておいてもよいし、ユーザが任意に設定できるようにしてもよい。また、評価値が所定の値以上であることが抽出条件であれば、シーン評価部306は、評価値が所定の値以上のシーンを、個数及び合計時間にかかわらず、抽出する。この所定の値は、ユーザが任意に設定することができる。このように、シーン評価部306は、付与した評価値に基づいて、様々な観点でシーンを抽出することが可能である。尚、抽出条件は、ユーザが適宜設定できるようにしてもよいし、予め設定されていてもよい。
尚、1つのシーンが複数の属性情報を有する場合には、それぞれの属性情報の内容に割り当てられている評価値を加算して、そのシーンの評価値としてもよい。あるいは、複数の属性情報の中から最も高い評価値をそのシーンの評価値としてもよい。あるいは、複数の属性情報の評価値の平均値をそのシーンの評価値としてもよい。
また、属性情報と評価値とのテーブルは、ビデオカメラ100Aが1つだけ有するものに限られない。すなわち、ビデオカメラ100Aが、属性情報と評価値とのテーブルを複数有し、シーン評価に用いるテーブルを適宜選択するものであってもよい。例えば、ビデオカメラ100Aが、属性情報と評価値との複数のテーブルの中から撮影モード(例えば、風景の撮影、人物(ポートレート)撮影、スポーツ撮影、静物撮影等)に応じて最適なテーブルを選択するように構成してもよい。また、このように撮影の状況に応じて適切なテーブルを適宜設定する構成としては、撮影の各状況に対して1対1のテーブルを予め用意しておくのではなく、撮影状況の種類よりも少ない数のテーブルが用意されている場合は、撮影状況に応じて、複数のテーブルを合成(各評価値を一定の比率で加算等)してもよい。この場合には、合成時の各テーブルの重み付け(例えば、加算時の比率)を変更することによって、撮影状況に応じたテーブルを設定するようにしてもよい。
以下に、シーン評価部306が行う処理を具体例を挙げて説明する。図6は、シーン評価部306が、或る映像から属性情報を抽出して評価値を付与した結果を示した図である。図6の横軸は時間(シーン)を、縦軸に評価値を示す。
図6において、時間0付近の部分は、撮影を開始した直後であることを意味する「クリップイン」の属性情報Aを有し、評価値「100」が付与されている。
属性情報Bを有する部分は、特定音声が抽出された部分である。特定音声の抽出は、前記音声解析部304により行われる。属性情報Bを有する部分には、評価値「50」が付与されている。
属性情報Cを有する部分は、ユーザがビデオカメラ100Aをパン、ティルト等させた後に静止して撮影している部分である。パン、ティルト等のカメラワーク後の部分は映像としての価値が高いと判断できることから、このようなカメラワーク後の静止撮影を属性情報として設定している。属性情報Cを有する部分には、評価値「40」が付与されている。
属性情報Dを有する部分は、ズームアップ又はズームダウン等して撮影している部分である。ズームアップ又はズームダウンは、ユーザの撮影に関する何らかの意図が反映されており、重要と判断できることから、属性情報として設定している。属性情報Dを有する部分には、評価値「30」が付与されている。ただし、ズームアップとズームダウンとで評価値を変えてもよい。例えば、ズームアップの方が、ズームダウンよりも、撮影対象を注視する意図が大きいと判断されるため、評価値を高く設定してもよい。
属性情報Eを有する部分は、属性情報Cと異なり、ビデオカメラ100Aをパン、ティルト等させながら撮影を行った部分である。パン、ティルト等のカメラワークは、撮影対象に追随しようとするユーザの撮影意図が反映されていると判断できるため、属性情報として設定している。属性情報Eを有する部分には、評価値「25」が付与されている。
属性情報Iを有する部分は、映像が像ぶれを伴っている部分である。この場合は、映像が揺れているため、視聴者には見づらい映像となる傾向にある。そのため、負の評価値を付与している。具体的には、属性情報Iを有する部分には、評価値「−20」が付与されている。
属性情報Jを有する部分は、地面等を撮影している部分である。これは、ユーザが撮影停止ボタンを押さずに撮影を続けたまま、ビデオカメラ100Aを手に持って歩いている場合等に生じやすい現象である。この場合には、映像にユーザの特段の意図が反映されていないと判断できるため、負の評価値を付与している。具体的には、属性情報Jを有する部分には、評価値「−10」が付与されている。
属性情報Xを有する部分は、人物Aの顔が映っている部分である。映像解析部303は、撮影された映像に写っている被写体が人物の顔であることを認識し、さらに認識された顔が予め記憶部330等に記憶されている特定の人物の顔と一致するか否かの判定を行う。シーン評価部306は、この結果に基づき、特定の人物の顔が写っている部分を映像の中から抽出することができる。属性情報Xを有する部分には、評価値「100」が付与されている。
属性情報Yを有する部分は、人物Bの顔が映っている部分である。人物Aの顔と同様に、人物Bの顔が予め記憶部330等に記憶されている。属性情報Yを有する部分には、評価値「80」が設定されている。
属性情報Zを有する部分は、人物の顔が写っているものの、その顔が予め登録された何れの人物の顔とも一致しない部分である。属性情報Zを有する部分には、評価値「50」が設定されている。
尚、人物の顔が撮影される映像の例として、図7(A)〜(D)に示すような場合がある。図7(A)や(B)のように、それぞれの部分に予め登録されている人物の顔が撮影されている場合は、シーン評価部306は、テーブルに予め設定された評価値(図5の例では、人物Aの顔については「100」、人物Bの顔については「80」)が付与される。
図7(C)のように、人物Aと人物Bの両者の顔が写っている場合には、シーン評価部306は、人物A、Bの顔のうち、評価値が高い方の評価値をもって、評価値としてもよい。図5のテーブルを用いた場合には、人物Aの顔の方が人物Bの顔よりも評価値が高いため、人物Aの顔の評価値である「100」が評価値となる。尚、図6のX+Yの符号が付されている部分は、人物Aと人物Bの両者の顔が写っている部分である。また、別の方法としては、両方の評価値を平均化したものを評価値としてもよい。図5の例では、(100+80)/2から、評価値は「90」となる。さらに別の方法として、それぞれの評価値に配分比率を設定して合算するものであってもよい。例えば、映像上の顔の大きさが大きいほど、配分比率が高くなるように、それぞれの評価値に配分比率を設定してもよい。図7(C)の例では、人物Aの顔の大きさと人物Bの顔の大きさの比率が5:3であるとすると、(100×5+80×3)/8から、評価値は「92.5」となる。映像上の顔の大きさはカメラから被写体までの距離を反映していると可能性が高く、この方法によれば、近くの被写体に大きな配分比率を設定して、影響度を大きくすることができる。また、人物A、Bの顔の中心位置と、画面中央又は画面上の顕著領域(Salientな領域)からの距離に応じて、それぞれの評価値に配分比率を設定してもよい。具体的には、当該距離が近いほど、配分比率が高くなるようにしてもよい。顕著領域とは、例えば、画像中の記念像、ペット、カンバンなどの注目される領域である。
図7(D)のように、大勢の(所定の人数以上の)人物が被写体として撮影されている場合は、人物Aの顔が撮影されているものの、画面上での大きさは小さく、他の多くの人物と一緒に撮影されているため、他の人物の顔との差別化が難しい場合がある。このような場合には、撮影されている人数に応じて、人物Aの顔の評価値と、他の人物の顔の評価値とに配分比率を設定して合算するものであってもよい。図7(D)の例では、人物A以外の、識別できない人物が10人いるので、(100×1+50×10)/11から、評価値「54.5」が付与される。
また、顔の検出については、画面における位置、顔の大きさ、顔の向き、笑顔レベル、目の開閉情報、顔の喜怒哀楽レベルの情報を評価して、これらに応じて評価値を増減させてもよい。
こうして、映像中で属性情報が抽出された部分に評価値を付与した後、シーン評価部306は、評価値が高い順に6個のシーンを抽出する。図6では、6個のシーンに、時間が早い順に#1〜#6のラベルが付されている。続いて、シーン評価部306は、評価値が高い順に3個という抽出条件に基づいて、評価値が上位3つの#1、#2、#5のシーンをダイジェスト再生すべきシーンとして抽出する。
次に、再生情報生成部307による再生情報の生成について詳細に説明する。再生情報生成部307は、シーン評価部306が抽出したシーンに従って、ダイジェスト再生すべきシーンを特定する情報である再生情報を生成する。例えば、再生情報は、図8に示すように、再生対象となるシーンの開始時刻と終了時刻で示されるものであってもよい。この場合、各シーンの中における代表的なフレーム(シーン中における最も評価の高いフレーム等)を別途記憶しておくと、参照用画面の検索に有効である。尚、再生情報は、上記の内容に限られず、例えば、再生対象となるシーンをフレーム番号で特定してもよい。それ以外にも、後述する多重化部308で生成する多重化データ中における該当シーンの位置(場所)をシーンの特定として用いてもよい。多重化にTS等の技術を用いる場合は、PTSやDTS等の時刻情報等を用いて再生情報を生成してもよい。一部のビデオカメラのデータ記録方式として用いられているAVCHD(Advanced Video CodecHigh Definition)等の規格を用いて映像データを記録する場合には、PlayListファイル等に再生情報を記録する方法を用いてもよい。
図9は、撮影、シーン評価、再生情報の生成、記録までの処理の流れを示すフローチャートである。
まず、ビデオカメラ100Aの制御部300は、ステップS101において、撮影を開始する。入力ボタン等の外部入力部207からの入力に基づいて、撮影が開始される。
次に、ステップS102において、属性情報抽出部305は、姿勢検出部206の検出結果、レンズ制御部301の制御情報、並びに映像解析部303及び音声解析部304の解析結果等に基づいて映像の属性情報を抽出する。
シーン評価部306は、ステップS103において、属性情報抽出部305が抽出した属性情報に基づいて映像の各部分に評価値を付与する。その後、シーン評価部306は、いくつかの特徴的なシーンを抽出し、さらに、その中からダイジェスト再生すべきシーンを抽出する。
続いて、ステップS104において、再生情報生成部307は、シーン評価部306により抽出されたダイジェスト再生すべきシーンに基づいて再生情報を生成する。そして、多重化部314は、生成された再生情報を、符号化映像データ、符号化音声データと共に多重化する。
制御部300は、ステップS105において、多重化データを記憶部330に記憶する。
制御部300は、ステップS106において、外部入力部207から、撮影終了の入力があるか否かを判定する。撮影終了の入力がない場合は、ステップS102へ戻って、撮影を継続する。一方、撮影終了の入力がある場合には、撮影を終了する。
<3.再生情報に基づいたダイジェスト再生>
ダイジェスト再生部309は、記憶部330に記憶された再生情報を読み出し、それに基づいてダイジェスト再生を行う。具体的には、ダイジェスト再生部309は、図8に示されるダイジェスト再生すべき個々のシーンの開始時刻、終了時刻等の情報に基づいて記憶部330に記憶されている映像、音声情報から該当する部分のシーンを抽出する。
図10は、ダイジェスト再生時の処理の流れを示したフローチャートである。
まず、ダイジェスト再生部309は、ステップS201において、記憶部330に記憶された多重化データを読み出す。
次に、ダイジェスト再生部309は、ステップS202において、読み出した多重化データを分解し、再生情報を抽出する。
そして、ステップS203において、ダイジェスト再生部309は、抽出した再生情報に基づいて、再生すべき符号化映像データ及び符号化音声データを、映像信号伸張部211及び音声信号伸張部213に出力し、映像表示部212及び音声出力部214を介して映像及び音声を再生する。
こうして、映像の中から特定のシーンだけ抽出したダイジェスト再生が実行される。
<4.属性情報及び評価値の入力>
続いて、属性情報及び評価値の、ユーザによる入力について説明する。本実施形態に係るビデオカメラ100Aでは、テーブルの属性情報及び評価をユーザが1つ1つ具体的に入力することができる。
例えば、前述の説明における人物Aの顔検出及び人物Bの顔検出は、ユーザが追加で設定したものである。すなわち、ユーザが、ビデオカメラ100Aが予め備えていたテーブルに、人物Aの顔検出を新たな属性情報として登録し、その評価値も登録し、さらに、別の人物Bの顔検出を新たな属性情報として登録し、その評価値も登録している。これにより、単に人物の顔検出というだけでなく、さらに詳細に特定の人物の顔検出を行うことができるようになる。
ここで、記憶部330には、顔認識テーブルが予め記憶されている。顔認識テーブルは、IDと顔画像と人物の名前と評価値とを1セットとして、これを複数セット(例えば、6セット)だけ登録できるように構成されている。そして、IDと評価値は予め設定されており、特定の人物の顔及び名前をユーザが適宜登録していく。
詳しくは、外部入力部207の操作によりビデオカメラ100Aが登録モードに設定されると、制御部300は、登録すべき人物の顔を所定時間(例えば、3秒)以上撮影することをユーザに促すメッセージを映像表示部212に表示させる。それに応えて、ユーザがビデオカメラ100Aで特定の人物の顔を所定時間以上撮影すると、該人物の顔を登録すべき新たな属性情報として認識し、記憶部330に一時的に保存する。その後、制御部300は、該人物の顔を顔認識テーブルのどのIDに対応させるかを尋ねるメッセージを映像表示部212に表示させる。尚、IDごとに評価値が既に設定されており、例えば、ID1〜ID6のうちでは、ID1の評価値が「100」で最も高く、IDの番号が大きくなるほど、評価値は小さくなるように設定されている。つまり、登録すべき人物の顔とIDとを対応させることは、該人物の顔の評価値を設定することに等しい。ユーザが対応するIDを選択すると、次に、制御部300は、該人物の名前の入力を促すメッセージを映像表示部212に表示させる。こうして、顔認識テーブルに、IDと特定の人物の顔画像と名前と評価値が設定される。尚、この例では、評価値が予め設定されているが、評価値もユーザが任意に入力できるように構成してもよい。その場合には、評価値の入力をユーザに促すメッセージを映像表示部212に表示させて、評価値をユーザに入力させるようにすればよい。
こうして、属性情報及び評価の1つ1つの内容をユーザが任意に設定することができる。
そして、このように設定された属性情報及び評価の対応データは、ユーザの選択に基づいて、様々な使われ方をする。例えば、上記の例では、人物Aの顔、人物Bの顔、それ以外の人物の顔がそれぞれ検出されたことを属性情報として設定しているが、検出された顔が誰の顔かを識別せずに、単に人物の顔が検出されたことを属性情報として抽出することもできる。すなわち、ビデオカメラ100Aは、人物を特定せずに、単に顔が検出されたことを属性情報として抽出する通常モードと、特定の人物の顔が検出されたことを属性情報として抽出する特定モードとを有する。特定モードでは、登録された人物の顔のうち、属性情報として抽出する顔を選択することもできる。具体的には、制御部300は、登録されている人物の顔画像、名前又はIDを映像表示部212に表示させる。それに対して、ユーザが映像表示部212を操作して属性情報として抽出する人物の顔を選択する。制御部300は、選択された人物の顔を属性情報として抽出する。
さらに、通常モードと特定モードとでは、顔検出を属性情報として抽出する際の条件を変更してもよい。すなわち、通常モードでは、映像中に不特定の或る人物の顔が所定の第1時間以上撮影されていることをもって属性情報として抽出する。それに対して、特定モードでは、撮影中に特定の人物(例えば、人物A)の顔が該第1時間よりも短い第2時間以上撮影されている(例えば、1フレームだけに撮影されている)ことをもって属性情報として抽出する。つまり、通常モードでは、風景等に比べて人物の方が一般的に撮影対象としての重要度が高いという考えから、顔が検出されることを属性情報として設定している。そのため、人物の顔が一瞬だけ撮影されたというのではなく、撮影対象として人物の顔が撮影されたと判定できる程度の時間だけ、人物の顔が撮影されることを必要条件としている。それに対して、特定モードは、風景等の他の撮影対象と特定の人物の顔を比べて重要かどうかというよりも、特定の人物の顔が写っている映像を抽出したいというユーザの明確で強い意図が反映されたモードである。そのため、特定モードにおける顔検出の重要度は、通常モードに比べて高い。そこで、特定顔検出モードでは、通所の顔検出モードよりも、顔が検出されたと認定する条件を緩くしている。
尚、顔検出の条件を変えずに、特定の人物の顔の評価値を、不特定の顔の評価値よりも高くすることによって、特定の人物の顔の重要度を高くしてもよい。
続いて、人物Aの顔検出よりも人物Bの顔検出の評価値を高く設定した場合について説明する。図11は、映像を評価する際に用いる、各種の属性情報と各属性情報に対する評価との対応データのテーブルであり、図12は、図11のテーブルに基づいて、シーン評価部306が、或る映像から属性情報を抽出して評価値を付与した結果を示した図である。図12の横軸は時間(シーン)を、縦軸に各シーンの評価値を示す。図13は、図11のテーブルに基づく評価から生成された再生情報を示す。
図11に示すように、人物Aの顔検出の属性情報の評価値が「60」であるのに対し、人物Bの顔検出の属性情報の評価値が「90」となっている。そして、このテーブルを用いて映像を評価すると、図12に示す結果となる。具体的には、図5のテーブルを用いた評価と比べ、シーン#2の評価が下がり、シーン#4の評価が上がっている。この評価値に基づいて再生情報を生成すると、図13に示すように、図8におけるシーン#2に代わって、シーン#4がダイジェストに追加されている。
前述のような評価値の変更は、テーブルの評価値をユーザが書き換えてもよいし、評価値が異なるテーブル(図5のテーブルと図11のテーブル)を予め用意しておき、それを切り替えるようにしてもよい。例えば、予め用意しておいたテーブルを切り替える方法としては、各種のテーブルに対応するモードをユーザに選択させる選択画面(図14参照)を映像表示部212に表示させ、ユーザに外部入力部207を介してモードを選択させるようにしてもよい。あるいは、各種のテーブルを映像表示部212に表示させて、ユーザにテーブルを選択させるようにしてもよい。尚、予め用意しておくテーブルは、属性情報又は評価値をユーザが直接入力することによって予め作成されたものであってもよい。
このように、属性情報の評価をユーザの嗜好に応じて変更することによって、そのユーザの嗜好に応じたダイジェストを生成することができる。
<5.まとめ>
したがって、本実施形態によれば、属性情報及び評価の少なくとも一方をユーザが任意に入力可能とすることによって、ユーザの嗜好を反映したダイジェスト再生を行うことができる。
特に、本実施形態では、属性情報をユーザが追加で設定できるため、よりユーザの嗜好に合った映像をダイジェストとして再生することができる。
詳しくは、ビデオカメラ100は、ユーザの入力操作に応じて、映像に関する属性情報を入力する外部入力部207と、映像の中からダイジェスト再生する部分を抽出するために、前記属性情報を映像の中から抽出する制御部300とを備えている。これにより、映像の中からダイジェスト再生する部分を抽出するために用いられる属性情報をユーザが適宜入力できる。その結果、ユーザの嗜好に合った映像をダイジェストとして再生することができる。
また、ビデオカメラ100は、映像に関する属性情報及び該属性情報に対する評価との対応データについて、該属性情報及び評価の少なくとも一方をユーザの入力操作に応じて入力する外部入力部207と、映像の中からダイジェスト再生をする部分を抽出するために、前記属性情報を映像の中から抽出し、前記対応データに基づいて該属性情報を有する部分を評価する制御部300とを備えている。これにより、映像の中からダイジェスト再生する部分を抽出するために用いられる属性情報及び/又はその評価値をユーザが適宜入力できる。その結果、ユーザの嗜好に合った映像をダイジェストとして再生することができる。
また、予め設定された顔検出(人物を特定しない顔検出)という属性情報に対して、特定の人物の顔検出という、下位概念の属性情報を設定可能とすることによって、ユーザのより深い嗜好を反映したダイジェスト再生を行うことができる。
さらに、属性情報には、クリップイン、クリップアウト及びズームアップ等のようなユーザの嗜好が現れ難い属性情報については固定の属性情報と、特定の人物の顔検出のようにユーザの嗜好が現れ易い属性情報については可変の属性情報とすることによって、処理を簡潔にすることができる。つまり、全ての属性情報を可変とすると、様々な属性情報に対応した制御内容(属性情報の入力や属性情報の抽出等)やメモリ容量を準備しておかなければならず、処理が煩雑となってしまう。それに対して、可変となる属性情報を或る程度絞っておくことによって、予め準備しておく制御内容やメモリ容量を少なくすることができ、処理が簡潔になる。また、自身の嗜好を強く反映させたいユーザと、自身の嗜好をあまり反映させたくないユーザ(そのような操作を煩わしいと感じるユーザ)とが存在する。そこで、全ての属性情報を可変とするのではなく、いくつかの属性情報は固定として、固定の属性情報だけに基づくダイジェスト再生を選択可能とすることによって、後者のユーザに対しては、操作の煩わしさを解消し、使いやすいビデオカメラを提供することができる。一方、前者のユーザにとっては、属性情報の一部を嗜好に応じて入力(追加、変更)することができるため、嗜好を反映させたダイジェスト再生を可能とすることができる。つまり、様々なユーザに対して、使い勝手がよく且つ嗜好を反映させたダイジェスト再生が可能なビデオカメラを提供することができる。
また、前記ビデオカメラ100Aでは、撮影時に属性情報の抽出、シーン評価、再生情報の生成を行うため、ダイジェスト再生時の処理を低減して、ダイジェスト再生を簡潔且つ迅速に実行することができる。また、ビデオカメラ100Aの姿勢等のような属性情報は、映像から事後的に判断することが難しく、又は、可能であるが煩わしく、撮影時のセンサの検出信号等により容易に検出することができる。つまり、属性情報の中には、撮影時の方が検出しやすいものがある。そのため、撮影時に属性情報の抽出を行うことによって、このような属性情報を容易に抽出することができる。
さらに、ビデオカメラ100Aのような撮影装置に記録された映像は、編集等がなされていない、単に撮影しただけの映像である。そのため、重要度の低い映像も多く、前述のようなダイジェスト再生が非常に有効なものになる。
《実施形態2》
続いて、実施形態2に係るビデオカメラ100Bについて図15を参照しながら説明する。図15は、ビデオカメラ100Bの概略構成を示すブロック図である。ビデオカメラ100Bは、ダイジェスト再生を行うときに再生すべきシーンを選択する点で実施形態1のビデオカメラ100Aと異なる。具体的には、ビデオカメラ100Bの基本的な構成は、ビデオカメラ100Aと略同様であり、データの流れ、即ち、処理の順序がビデオカメラ100Aと異なる。そこで、実施形態1と同様の構成については、同様の符号を付して説明を省略し、異なる部分を中心に説明する。
属性情報抽出部305が属性情報を抽出するまでの処理は、実施形態1と同様のである。そして、属性情報抽出部305が抽出した属性情報は、多重化部308に入力される。多重化部308は、映像信号圧縮部204からの符号化映像データ、音声信号圧縮部210からの符号化音声データ、及び属性情報抽出部305からの属性情報を多重化して出力する。この多重化されたデータは、記憶部330に記憶される。
シーン評価部306は、ダイジェスト再生が行われるときに、記憶部330から多重化されたデータを読み出し、属性情報に基づいて、映像の各部分に評価を付与し、映像の中から特徴的なシーンを抽出し、その中から、ダイジェスト再生すべきシーンをさらに抽出する。
その後、再生情報生成部307は、シーン評価部306が抽出したシーンに基づいて、再生情報を生成して、ダイジェスト再生部309へ出力する。
ダイジェスト再生部309は、再生情報生成部307が生成した再生情報に基づいて該当するデータを記憶部330から読み出し、映像信号伸張部211及び音声信号伸張部213へ出力する。そして、ダイジェスト映像が、映像表示部212及び音声出力部214によって再生される。
図16は、撮影、属性情報の抽出、記録までの処理の流れを示すフローチャートである。図17は、ダイジェスト再生時の処理の流れを示したフローチャートである。
まず、ビデオカメラ100Aの制御部300は、ステップS301において、撮影を開始する。入力ボタン等の外部入力部207からの入力に基づいて、撮影が開始される。
次に、ステップS302において、属性情報抽出部305は、姿勢検出部206の検出結果、レンズ制御部301の制御情報、並びに映像解析部303及び音声解析部304の解析結果等に基づいて映像の属性情報を抽出する。そして、ステップS303において、多重化部314は、属性情報を、符号化映像データ、符号化音声データと共に多重化する。ステップS304において、制御部300は、これらの多重化データを記憶部330に記憶する。
その後、制御部300は、ステップS106において、外部入力部207から、撮影終了の入力があるか否かを判定する。撮影終了の入力がない場合は、ステップS302へ戻って、撮影を継続する。一方、撮影終了の入力がある場合には、撮影を終了する。
こうして撮影が終了した後、ダイジェスト再生を実行する際に、ダイジェスト再生すべきシーンの抽出や再生信号の生成が行われる。
詳しくは、外部入力部207を介したユーザからのダイジェスト再生の入力があると、シーン評価部306は、ステップS401において、記憶部330に記憶された多重化データを読み出す。
次に、シーン評価部306は、ステップS402において、読み出した多重化データを分解し、属性情報を読み出す。続いて、シーン評価部306は、ステップS403において、属性情報に基づいて映像の各部分に評価値を付与する。そして、シーン評価部306は、ステップS404において、映像の全部分の評価が終了したか否かを判定する。終了していなければ、シーン評価部306は、ステップS401に戻り、映像の評価を継続する。一方、評価が終了していれば、シーン評価部306は、ステップS405へ進む。
ステップS405では、シーン評価部306は、評価値に基づいて映像の中からいくつかの特徴的なシーンを抽出し、さらに、その中からダイジェスト再生すべきシーンを抽出する。そして、再生情報生成部307は、シーン評価部306により抽出されたダイジェスト再生すべきシーンに基づいて再生情報を生成する。
続いて、ダイジェスト再生部309は、ステップS406において、再生情報に基づいて、再生すべき符号化映像データ及び符号化音声データを記憶部330から読み出して映像信号伸張部211及び音声信号伸張部213に出力し、映像表示部212及び音声出力部214を介して映像及び音声を再生する。
以上により、撮影した映像、音声を記憶部330に一度記憶した後に、ダイジェスト再生に必要な再生情報を生成し、ダイジェスト再生を行うことが可能となる。本実施形態によれば、撮影後、ダイジェスト再生を実行する際に、属性情報に対する評価値を変更することができる。
《その他の実施形態》
以上のように、本出願において開示する技術の例示として、前記実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。また、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
前記実施形態について、以下のような構成としてもよい。
例えば、ビデオカメラの構成は前記実施形態に限られるものではない。図18に示すようにビデオカメラ100Cは、撮影した映像から、属性情報を抽出するところまでを実行するようにしてもよい。そして、映像再生装置500が、属性情報が付与された映像データに基づいて、シーン評価及びダイジェスト再生を実行するようにしてもよい。さらには、ビデオカメラが、シーン評価を行うところまでを実行するようにしてもよい。そして、映像再生装置が、評価値に基づいてダイジェスト再生を実行するようにしてもよい。
さらに、本実施形態は、ビデオカメラのような撮影装置に限られず、PC等の映像編集装置や、HDDレコーダのような映像記録再生装置に適用することもできる。映像編集装置や映像記録再生装置が、映像の中から属性情報を抽出し、属性情報に基づいて映像の各部分を評価し、その評価に基づいてダイジェスト再生を行うようにしてもよい。
また、前記実施形態では、映像の中から、まず属性情報を抽出して各部分を評価し、次に属性情報に基づいてシーンを抽出し、その次にシーンに基づいてダイジェスト映像を生成しているが、これに限られるものではない。例えば、映像を複数のシーンに分割して、各シーンの属性情報を抽出して、属性情報に基づいて各シーンを評価し、その評価に基づいてダイジェスト映像を生成してもよい。この場合、シーンの分割は、前述のように、フレーム間の動きベクトルに基づいて実行してもよいし、ユーザからの入力に基づいて実行してもよいし、様々な属性情報の中でシーンの分割に影響を与える属性情報(カメラワークや地面の撮影等のシーンの区切りとなるもの)の有無に基づいて実行してもよい。
また、ビデオカメラ100Aの構成は、前記実施形態に限定されるものではない。例えば、映像AD変換部202、信号処理部203、映像信号圧縮部204、音声AD変換部209、音声信号圧縮部210、映像信号伸張部211及び音声像信号伸張部213の全部又はいくつかを単一の集積回路として実現することも可能である。また、制御部300が実行する処理の一部を別途、FPGA(Field Programmable Gate Array)を用いてハードウェアとして実現することも可能である。
また、上記の内容を実現する方法やソフトウェアプログラムとしても実現できることは言うまでもない。
また、前記実施形態では、人物の顔検出を上位の属性情報及び固定の属性情報とし、特定の人物の顔検出を下位の属性情報及び可変の属性情報としているが、これに限られるものではない。例えば、犬などの動物の顔検出を上位の属性情報及び固定の属性情報とし、特定の犬の顔検出を下位の属性情報及び可変の属性情報としてユーザが入力可能としてもよい。または、電車、車又は飛行機などの交通手段の検出を上位の属性情報及び固定の属性情報とし、特定の電車、車又は飛行機の検出を下位の属性情報及び可変の属性情報としてユーザが入力可能としてもよい。または、人物の声の検出を上位の属性情報及び固定の属性情報とし、特定の人物の声の検出を下位の属性情報及び可変の属性情報としてユーザが入力可能としてもよい。この場合、特定の人物の声をマイクロフォン208を介してビデオカメラに入力することができる。
さらに、前記テーブルの評価値の値をユーザが個別に入力(変更)可能としてもよい。例えば、カメラワークに関する評価値を増加させたり、減少させたりすることができる。
尚、以上の実施形態は、本質的に好ましい例示であって、本発明、その適用物、あるいはその用途の範囲を制限することを意図するものではない。
ここに開示された技術は、影像の中からダイジェスト再生する部分を抽出する映像抽出装置及びそれを備えた撮影装置に有用である。
100A,100B,100C ビデオカメラ(映像抽出装置、撮影装置)
300 制御部
305 属性情報抽出部
306 シーン評価部
307 再生情報生成部
309 ダイジェスト再生部

Claims (4)

  1. 映像から抽出すべき、映像に関する属性情報を記憶する記憶部と、
    ユーザの入力操作に応じて、前記属性情報を前記記憶部に入力する入力部と、
    映像の中から人物の顔の映像を人物を特定することなく検出する顔検出部と、
    映像の中から特定の人物の顔の映像を検出する特定顔検出部と、
    ダイジェスト再生するために、映像の中から特定の部分を前記記憶部に記憶された前記属性情報に基づいて抽出する制御部とを備え、
    前記記憶部には、予め登録された特定の人物の顔の映像が記憶され、
    前記特定顔検出部は、前記記憶部に記憶された前記特定の人物の顔の映像を検出し、
    前記属性情報は、前記顔検出部が人物の顔の映像を検出し且つ第1条件が満たされたことと、前記特定顔検出部が前記特定の人物の顔の映像を検出し且つ第2条件が満たされたこととを含んでおり、
    前記第2条件は、前記第1条件よりも満たしやすい条件である映像抽出装置。
  2. ユーザの入力操作に応じて、映像から抽出すべき、映像に関する属性情報を記憶部に入力することと、
    映像の中から人物の顔の映像を人物を特定することなく検出することと、
    映像の中から特定の人物の顔の映像を検出することと、
    ダイジェスト再生を行うために、映像の中から特定の部分を前記属性情報に基づいて抽出することとをコンピュータに実行させるためのプログラムであって、
    前記記憶部には、予め登録された特定の人物の顔の映像が記憶され、
    前記特定の人物の顔の映像を検出することは、前記記憶部に記憶された前記特定の人物の顔の映像を検出し、
    前記属性情報は、人物を特定することなく人物の顔の映像を検出し且つ第1条件が満たされたことと、前記特定の人物の顔の映像を検出し且つ第2条件が満たされたこととを含んでおり、
    前記第2条件は、前記第1条件よりも満たしやすい条件であるプログラム。
  3. ユーザの入力操作に応じて、映像から抽出すべき、映像に関する属性情報を記憶部に入力することと、
    映像の中から人物の顔の映像を人物を特定することなく検出することと、
    映像の中から特定の人物の顔の映像を検出することと、
    ダイジェスト再生を行うために、映像の中から特定の部分を前記属性情報に基づいて抽出することとをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    前記記憶部には、予め登録された特定の人物の顔の映像が記憶され、
    前記特定の人物の顔の映像を検出することは、前記記憶部に記憶された前記特定の人物の顔の映像を検出し、
    前記属性情報は、人物を特定することなく人物の顔の映像を検出し且つ第1条件が満たされたことと、前記特定の人物の顔の映像を検出し且つ第2条件が満たされたこととを含んでおり、
    前記第2条件は、前記第1条件よりも満たしやすい条件である記録媒体。
  4. 映像から抽出すべき、映像に関する属性情報を記憶する記憶部と、
    ユーザの入力操作に応じて、前記属性情報を前記記憶部に入力する入力部と、
    映像の中から人物の顔の映像を人物を特定することなく検出する顔検出部と、
    映像の中から特定の人物の顔の映像を検出する特定顔検出部と、
    ダイジェスト再生するために、映像の中から特定の部分を前記記憶部に記憶された前記属性情報に基づいて抽出する制御部とを備え、
    前記記憶部には、予め登録された特定の人物の顔の映像が記憶され、
    前記特定顔検出部は、前記記憶部に記憶された前記特定の人物の顔の映像を検出し、
    前記属性情報は、前記顔検出部が人物の顔が所定の第1時間以上撮影されている部分を検出したことと、前記特定顔検出部が前記特定の人物の顔が所定の第2時間以上撮影されている部分を検出したこととを含んでおり、
    前記第2時間は、前記第1時間よりも短く設定されている映像抽出装置。
JP2013216098A 2010-02-10 2013-10-17 映像抽出装置、プログラム及び記録媒体 Active JP5685732B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013216098A JP5685732B2 (ja) 2010-02-10 2013-10-17 映像抽出装置、プログラム及び記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010027228 2010-02-10
JP2010027228 2010-02-10
JP2013216098A JP5685732B2 (ja) 2010-02-10 2013-10-17 映像抽出装置、プログラム及び記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011537781A Division JPWO2011099299A1 (ja) 2010-02-10 2011-02-10 映像抽出装置、撮影装置、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2014030260A JP2014030260A (ja) 2014-02-13
JP5685732B2 true JP5685732B2 (ja) 2015-03-18

Family

ID=44367585

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011537781A Pending JPWO2011099299A1 (ja) 2010-02-10 2011-02-10 映像抽出装置、撮影装置、プログラム及び記録媒体
JP2013216098A Active JP5685732B2 (ja) 2010-02-10 2013-10-17 映像抽出装置、プログラム及び記録媒体

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2011537781A Pending JPWO2011099299A1 (ja) 2010-02-10 2011-02-10 映像抽出装置、撮影装置、プログラム及び記録媒体

Country Status (3)

Country Link
US (1) US8964065B2 (ja)
JP (2) JPWO2011099299A1 (ja)
WO (1) WO2011099299A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190069326A (ko) * 2017-12-11 2019-06-19 디즈니엔터프라이지즈,인크. 장면 분류를 위한 시스템 및 방법

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10296874B1 (en) 2007-12-17 2019-05-21 American Express Travel Related Services Company, Inc. System and method for preventing unauthorized access to financial accounts
US8172135B1 (en) 2011-06-24 2012-05-08 American Express Travel Related Services Company, Inc. Systems and methods for gesture-based interaction with computer systems
US8714439B2 (en) 2011-08-22 2014-05-06 American Express Travel Related Services Company, Inc. Methods and systems for contactless payments at a merchant
US10482753B2 (en) * 2013-01-04 2019-11-19 Minnesota Imaging And Engineering Llc Infection control monitoring system
WO2015104780A1 (ja) * 2014-01-07 2015-07-16 パナソニックIpマネジメント株式会社 映像撮像装置
KR102217186B1 (ko) * 2014-04-11 2021-02-19 삼성전자주식회사 요약 컨텐츠 서비스를 위한 방송 수신 장치 및 방법
CN104284240B (zh) * 2014-09-17 2018-02-02 小米科技有限责任公司 视频浏览方法及装置
US9799376B2 (en) 2014-09-17 2017-10-24 Xiaomi Inc. Method and device for video browsing based on keyframe
US20170112381A1 (en) * 2015-10-23 2017-04-27 Xerox Corporation Heart rate sensing using camera-based handheld device
JP6379307B2 (ja) * 2015-12-22 2018-08-22 富士フイルム株式会社 撮像装置、合焦制御方法、及び合焦制御プログラム
CN106028055A (zh) * 2016-05-20 2016-10-12 乐视控股(北京)有限公司 一种数据处理方法、装置及服务器
JP6688179B2 (ja) * 2016-07-06 2020-04-28 日本放送協会 シーン抽出装置およびそのプログラム
JP6878718B2 (ja) * 2016-07-19 2021-06-02 Seven Dew株式会社 ダイジェスト映像取得装置、ダイジェスト映像取得方法、およびプログラム
US10365383B2 (en) 2016-09-09 2019-07-30 Minnesota Imaging And Engineering Llc Structured detectors and detector systems for radiation imaging
CN108012081B (zh) * 2017-12-08 2020-02-04 北京百度网讯科技有限公司 智能美颜方法、装置、终端和计算机可读存储介质
JP7166796B2 (ja) * 2018-06-13 2022-11-08 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4230870B2 (ja) 2003-09-25 2009-02-25 富士フイルム株式会社 動画記録装置、動画記録方法、及びプログラム
JP4683281B2 (ja) * 2005-08-23 2011-05-18 ソニー株式会社 再生システム、再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
JP2007072520A (ja) 2005-09-02 2007-03-22 Sony Corp 映像処理装置
WO2007074842A1 (ja) * 2005-12-27 2007-07-05 Matsushita Electric Industrial Co., Ltd. 画像処理装置
JP2008103802A (ja) 2006-10-17 2008-05-01 Sharp Corp 映像合成装置
JP4960121B2 (ja) 2007-03-12 2012-06-27 パナソニック株式会社 コンテンツ撮影装置
WO2008111308A1 (ja) 2007-03-12 2008-09-18 Panasonic Corporation コンテンツ撮影装置
JP2008278466A (ja) * 2007-03-30 2008-11-13 Sanyo Electric Co Ltd 画像処理装置およびそれを搭載した撮像装置、画像処理方法
US20080240503A1 (en) 2007-03-30 2008-10-02 Sanyo Electric Co., Ltd. Image Processing Apparatus And Image Pickup Apparatus Mounting The Same, And Image Processing Method
JP4360425B2 (ja) 2007-06-15 2009-11-11 ソニー株式会社 画像処理装置、その処理方法およびプログラム
JP2009077026A (ja) * 2007-09-19 2009-04-09 Fujifilm Corp 撮影装置および方法並びにプログラム
CN103475837B (zh) 2008-05-19 2017-06-23 日立麦克赛尔株式会社 记录再现装置及方法
JP2010272109A (ja) * 2009-04-20 2010-12-02 Fujifilm Corp 画像処理装置、画像処理方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190069326A (ko) * 2017-12-11 2019-06-19 디즈니엔터프라이지즈,인크. 장면 분류를 위한 시스템 및 방법
US10701365B2 (en) 2017-12-11 2020-06-30 Disney Enterprises, Inc. Systems and methods for scene categorization
KR102190878B1 (ko) * 2017-12-11 2020-12-16 디즈니엔터프라이지즈,인크. 장면 분류를 위한 시스템 및 방법

Also Published As

Publication number Publication date
WO2011099299A1 (ja) 2011-08-18
US8964065B2 (en) 2015-02-24
US20120307109A1 (en) 2012-12-06
JP2014030260A (ja) 2014-02-13
JPWO2011099299A1 (ja) 2013-06-13

Similar Documents

Publication Publication Date Title
JP5685732B2 (ja) 映像抽出装置、プログラム及び記録媒体
JP5456023B2 (ja) 画像撮影装置、画像撮影方法、プログラム、及び集積回路
US8000558B2 (en) Thumbnail generating apparatus and image shooting apparatus
JP5333229B2 (ja) 再生装置及び再生方法、並びにコンピュータ・プログラム
US20060115235A1 (en) Moving picture recording apparatus and moving picture reproducing apparatus
WO2007108458A1 (ja) コンテンツ撮影装置
WO2015098110A1 (ja) 撮像装置、撮像システムおよび撮像方法
JP4992639B2 (ja) コンテンツ撮影装置
JP4960121B2 (ja) コンテンツ撮影装置
JP2010245856A (ja) 映像編集装置
US20130177287A1 (en) Reproduction apparatus, image capturing apparatus, and program
JP5600405B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2011119936A (ja) 撮影装置及び再生方法
JP6295442B2 (ja) 画像生成装置、撮影装置、画像生成方法及びプログラム
JP2011119934A (ja) 画像撮影装置及び画像撮影方法
JP6314321B2 (ja) 画像生成装置、撮影装置、画像生成方法及びプログラム
JP6295443B2 (ja) 画像生成装置、撮影装置、画像生成方法及びプログラム
JP2021002803A (ja) 画像処理装置、その制御方法、プログラム
WO2015104780A1 (ja) 映像撮像装置
JP2014072642A (ja) 動画像データ処理システム、動画像データ送信装置、及び動画像データ受信装置
JP4667411B2 (ja) コンテンツ撮影装置
JP2010263611A (ja) 映像撮影装置
JP5836091B2 (ja) 再生装置及びプログラム
JP6332963B2 (ja) 画像処理装置及び画像処理装置の制御方法
WO2013186962A1 (ja) 映像処理装置、撮影装置、およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141006

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20141106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141219

R151 Written notification of patent or utility model registration

Ref document number: 5685732

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151