JP2010187374A - Summary video-generating apparatus and summary video generating method - Google Patents
Summary video-generating apparatus and summary video generating method Download PDFInfo
- Publication number
- JP2010187374A JP2010187374A JP2010006670A JP2010006670A JP2010187374A JP 2010187374 A JP2010187374 A JP 2010187374A JP 2010006670 A JP2010006670 A JP 2010006670A JP 2010006670 A JP2010006670 A JP 2010006670A JP 2010187374 A JP2010187374 A JP 2010187374A
- Authority
- JP
- Japan
- Prior art keywords
- video
- section
- person
- person feature
- playback
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
Description
本発明は、要約映像生成装置に係り、特に映像コンテンツの要約映像を生成する要約映像生成装置および要約映像生成方法に関する。 The present invention relates to a summary video generation device, and more particularly to a summary video generation device and a summary video generation method for generating a summary video of video content.
近年、家庭用ビデオカメラの普及により、誰でも気軽に身近なイベントや風景を映像として記録保存することができるようになった。しかしながら、こうした所謂撮りっ放し映像は、撮影直後は楽しく見るものの、後々まで映像コンテンツとして鑑賞され活用される機会は少ない。また、一般のユーザにより撮影された映像は、失敗や不要な場面を多く含み、同じような場面が何度も映っているなど冗長度が高い。そのため、撮影直後に関係者でイベントを振り返るには好適であるが、後々の鑑賞に堪える映像コンテンツとするには、撮影映像を素材として整理し、選択された素材を製作意図に沿ってつなぎ合わせる編集作業を要する。なお、パソコン等を使用して別途編集作業をすることは、煩わしい。 In recent years, with the widespread use of home video cameras, anyone can easily record and save familiar events and scenery as video. However, such a so-called shot-free video can be viewed happily immediately after shooting, but there are few opportunities to be viewed and used as video content until later. Moreover, the video image | photographed by the general user contains many failures and unnecessary scenes, and the degree of redundancy is high, for example, similar scenes are shown many times. Therefore, it is suitable to review the event immediately after shooting, but to make video content that can be enjoyed later, organize the shot video as material and connect the selected material according to the production intention Editing work is required. It is troublesome to separately perform editing work using a personal computer or the like.
このような状況を背景に、自動で撮影データや音声データを編集して要約映像を生成する技術が各種提案されている。 Against this background, various techniques have been proposed for automatically editing shooting data and audio data to generate summary video.
例えば、特許文献1には、撮影画面間の画像の変化からシーン変化を検出し、動画像のシーンの長さ、シーン内の画像の変化度合を基に重要シーンを選択し要約再生する技術が開示されている。また、特許文献2には、動画像データを複数のシーンに分割し、複数の条件から再生シーンを選択する技術が開示されている。また、特許文献3には、顔検出技術を用いて人物シーンを抽出する技術が開示されている。更に、特許文献4では、データストリームの特徴量を基に撮影データの特徴的なシーンに対応する代表区間を選択すると共に、代表区間の導入部となるつなぎ区間を選択し、代表区間とつなぎ区間とを用いて要約映像を生成する技術が開示されている。
For example,
しかし、特許文献1に開示された技術のように、動きのあるシーンを重要選択するような設定では、動きの激しいシーンが次々と現れ、目まぐるしい要約映像になる、という問題がある。
However, as in the technique disclosed in
また、特許文献2に開示された技術においては、画面の明るさや高周波成分など、シーンの評価に複数の条件を設定しているものの、各条件の評価結果からシーンを選択する基準は設定モード毎に一定であり、ある設定モードにおいては、重要と判定されるシーンと対極にあるような条件のシーンは選択されないため、やはり、同種のシーンが集まる、という問題がある。
In the technique disclosed in
また、特許文献3に開示された技術においては、顔という一般家庭ユーザにとって、中心的な被写体となる機会が多く、関心の深い特徴量を用いているが、ユーザが特定の1又は複数の人物を指定する必要がある、という問題がある。
Further, in the technique disclosed in
また、特許文献4に開示された技術においては、データストリームの特徴量を基に撮影データの特徴的なシーンに対応する代表区間を選択すると共に、代表区間の導入部となるつなぎ区間を選択し、代表区間とつなぎ区間とを用いて要約映像を生成しているものの、人物の顔を特徴量として抽出することまでは開示していない。
Further, in the technique disclosed in
更に、映画やテレビ番組の撮影データは、予め専門家によるシーン編集が施されているため、アクション区間に隣接するシーンを適宜組み合わせることにより、ある程度ストーリー性のある要約も可能であるが、一般のユーザがイベントや風景をスナップショット的に撮影した編集以前の素材映像においては、このような手法は有効ではない。 Furthermore, since the shooting data of movies and TV programs are pre-edited by experts, scenes can be summarized to some extent by appropriately combining scenes adjacent to the action section. Such a method is not effective for a material video before editing in which a user takes a snapshot of an event or landscape.
このように、上述のような従来の技術では、ある基準で選び出した重要シーンを発生時間順に次々と提示するため同種のシーンが続く可能性が高く、ユーザにとって必ずしも見易く退屈しない要約映像とはならないという問題があった。 As described above, in the conventional technology as described above, since important scenes selected according to a certain criterion are presented one after another in the order of generation time, there is a high possibility that the same kind of scenes will continue, and it is not always easy for the user to view and do not become a summary video that is not boring. There was a problem.
そこで、本発明は、撮影データから人物を中心とし、かつ、変化のある要約映像を生成することができる要約映像生成装置および要約映像生成方法を提供することを目的とする。 SUMMARY An advantage of some aspects of the invention is that it provides a summary video generation apparatus and a summary video generation method capable of generating a summary video having a person as a center and a change from photographed data.
上記した課題を解決するために、本発明は次の(a)〜(e)の要約映像生成装置および(f)〜(i)の要約映像生成方法を提供する。
(a)映像から抽出された人物領域の映像特徴を示す人物特徴情報に基づいて前記映像を複数の映像区間に分割する人物特徴区間抽出部(9、616)と、前記複数の映像区間から所望の映像区間を選択する要約再生区間選択部(13、62)と、前記要約再生区間選択部が選択した映像区間の映像を用いて要約映像を生成する生成部(14、63)とを備え、前記人物特徴区間抽出部は、前記映像を前記人物特徴情報が所定の閾値以上である第1の映像区間と、前記人物特徴情報が前記閾値より小さい第2の映像区間とに分割し、前記人物特徴情報に基づいて前記第1の映像区間および前記第2の映像区間それぞれの人物特徴を示す特徴値を求め、前記要約再生区間選択部は、前記人物特徴区間抽出部が求めた前記特徴値に選択映像区間を選択し、前記選択映像区間より前記要約映像に用いる第1の再生区間を抽出し、前記生成部は、前記第1の再生区間の映像を用いて前記要約映像を生成することを特徴とする要約映像生成装置(1、600)。
(b)前記要約再生区間選択部は、前記選択映像区間を、前記第1の映像区間より前記特徴値に基づいて選択し、前記選択映像区間から前記第1の再生区間を抽出することを特徴とする(a)記載の要約映像生成装置。
(c)前記要約再生区間選択部は、前記特徴値に対する重み付けを示す要約生成モードに基づいて前記第1の映像区間および前記第2の映像区間を評価する評価値を求め、前記選択映像区間を、前記第1の映像区間より前記評価値に基づいて選択し、前記選択映像区間から前記第1の再生区間を抽出し、前記第1の再生区間に基づいて前記第1の映像区間および前記第2の映像区間から前記要約映像に用いる第2の再生区間を抽出し、前記生成部は、前記第2の再生区間の映像に続けて前記第1の再生区間の映像を再生する前記要約映像を生成することを特徴とする(a)または(b)記載の要約映像生成装置。
(d)前記要約再生区間選択部は、前記特徴値に対する重み付けを異ならせた複数の評価方法により前記第1の映像区間および前記第2の映像区間の評価値をそれぞれ求め、前記選択映像区間を、前記第1の映像区間および前記第2の映像区間より前記評価値に基づいて選択し、前記選択映像区間から前記第1の再生区間を抽出することを特徴とする(a)記載の要約映像生成装置。
(e)前記要約映像生成装置は更に、前記映像から前記人物領域を抽出し、前記人物特徴情報を生成する人物特徴量抽出部(8)を備えることを特徴とする(a)から(d)のいずれか一項記載の要約映像生成装置。
(f)映像を、前記映像から抽出された人物領域の映像特徴を示す人物特徴情報が所定の閾値以上である第1の映像区間と、前記人物特徴情報が前記閾値より小さい第2の映像区間とに分割し、前記人物特徴情報に基づいて前記第1の映像区間および前記第2の映像区間それぞれの人物特徴を示す特徴値を求め、前記特徴値に基づいて選択映像区間を選択し、前記選択映像区間から前記要約映像に用いる第1の再生区間を抽出し、前記第1の再生区間の映像を用いて前記要約映像を生成することを特徴とする要約映像生成方法。
(g)前記選択映像区間を、前記第1の映像区間より前記特徴値に基づいて選択し、前記選択映像区間から前記第1の再生区間を抽出することを特徴とする(f)記載の要約映像生成方法。
(h)前記特徴値に対する重み付けを示す要約生成モードに基づいて前記第1の映像区間および前記第2の映像区間を評価する評価値を求め、前記選択映像区間を、前記第1の映像区間より前記評価値に基づいて選択し、前記選択映像区間から前記第1の再生区間を抽出し、前記第1の映像区間および前記第2の映像区間から前記第1の再生区間に基づいて前記要約映像に用いる第2の再生区間を抽出し、前記第2の再生区間の映像に続けて前記第1の再生区間の映像を再生する前記要約映像を生成することを特徴とする(f)または(g)記載の要約映像生成方法。
(i)前記特徴値に対する重み付けを異ならせた複数の評価方法により前記第1の映像区間および前記第2の映像区間の評価値をそれぞれ求め、前記選択映像区間を、前記第1の映像区間および前記第2の映像区間より前記評価値に基づいて選択し、前記選択映像区間から前記第1の再生区間を抽出することを特徴とする(f)記載の要約映像生成方法。
In order to solve the above-described problems, the present invention provides the following summary video generation apparatuses (a) to (e) and the summary video generation method (f) to (i).
(A) A person feature section extraction unit (9, 616) that divides the video into a plurality of video sections based on the person feature information indicating the video features of the person area extracted from the video, and a desired one from the plurality of video sections A summary playback section selection unit (13, 62) for selecting a video section of the video, and a generation unit (14, 63) for generating a summary video using the video of the video section selected by the summary playback section selection unit, The person feature section extraction unit divides the video into a first video section in which the person feature information is greater than or equal to a predetermined threshold and a second video section in which the person feature information is smaller than the threshold. Based on the feature information, a feature value indicating a person feature of each of the first video section and the second video section is obtained, and the summary reproduction section selection unit uses the feature value obtained by the person feature section extraction unit. Select video section A first playback section used for the summary video is extracted from the selected video section, and the generation unit generates the summary video using the video of the first playback section. Video generation device (1, 600).
(B) The summary playback section selection unit selects the selected video section from the first video section based on the feature value, and extracts the first playback section from the selected video section. The summary video generation device according to (a).
(C) The summary playback section selection unit obtains an evaluation value for evaluating the first video section and the second video section based on a summary generation mode indicating weighting for the feature value, and selects the selected video section. , Selecting from the first video section based on the evaluation value, extracting the first playback section from the selected video section, and based on the first playback section, the first video section and the first video section A second playback section to be used for the summary video is extracted from two video sections, and the generation unit reproduces the summary video for playing back the video of the first playback section following the video of the second playback section. The summary video generation device according to (a) or (b), wherein the summary video generation device is generated.
(D) The summary playback section selection unit obtains evaluation values of the first video section and the second video section by using a plurality of evaluation methods with different weights for the feature values, and selects the selected video section. And selecting the first video section and the second video section based on the evaluation value, and extracting the first playback section from the selected video section. Generator.
(E) The summary video generation device further includes a person feature amount extraction unit (8) that extracts the person region from the video and generates the person feature information. The summary video generation device according to any one of the above.
(F) a first video section in which person feature information indicating a video feature of a person area extracted from the video is equal to or greater than a predetermined threshold value, and a second video section in which the person feature information is smaller than the threshold value And obtaining a feature value indicating a person feature of each of the first video section and the second video section based on the person feature information, selecting a selected video section based on the feature value, A summary video generation method, wherein a first playback section used for the summary video is extracted from a selected video section, and the summary video is generated using the video of the first playback section.
(G) The selected video section is selected from the first video section based on the feature value, and the first reproduction section is extracted from the selected video section. Video generation method.
(H) An evaluation value for evaluating the first video section and the second video section is obtained based on a summary generation mode indicating weighting for the feature value, and the selected video section is determined from the first video section. Selection based on the evaluation value, extraction of the first playback section from the selected video section, and summary video based on the first playback section from the first video section and the second video section (F) or (g), wherein a second playback section used for the first playback section is extracted, and the summary video that plays back the video of the first playback section is generated following the video of the second playback section. ) Summary video generation method described.
(I) The evaluation values of the first video section and the second video section are obtained respectively by a plurality of evaluation methods with different weights for the feature values, and the selected video section is defined as the first video section and the second video section. The summary video generation method according to (f), wherein selection is performed based on the evaluation value from the second video section, and the first reproduction section is extracted from the selected video section.
本発明の要約映像生成装置および要約映像生成方法によれば、ストリームデータ中の撮影データから撮影画面における人物の顔の特徴量による特徴量に基づいて評価値を算出し、算出した評価値に基づいて撮影データから要約再生区間を選択し、選択された要約再生区間に基づいて撮影データから要約映像を生成するようにしたので、撮影データから人物を中心とし、かつ、変化のある要約映像を生成することができる。 According to the summary video generation apparatus and the summary video generation method of the present invention, an evaluation value is calculated based on a feature amount based on a feature amount of a person's face on a shooting screen from shooting data in stream data, and based on the calculated evaluation value The summary playback section is selected from the shooting data, and the summary video is generated from the shooting data based on the selected summary playback section. can do.
以下、本発明の要約映像生成装置および要約映像生成方法を実施するための最良の形態について、図面を参照して説明する。
図1は、本発明の実施形態1である要約映像生成装置の接続例を示す図面である。
The best mode for carrying out a summary video generation apparatus and summary video generation method of the present invention will be described below with reference to the drawings.
FIG. 1 is a diagram showing a connection example of a summary video generation apparatus according to the first embodiment of the present invention.
(実施形態1)
図1に本発明における要約映像生成装置を備える機器と他の機器との接続例を示す。要約映像生成装置は、HDDレコーダや、DVDレコーダ、BDレコーダ等の各種コンテンツを蓄積するコンテンツ蓄積装置21に内蔵される。図1に示すようにコンテンツ蓄積装置21は、ビデオカメラ23と接続され、更にテレビやモニタ等の表示装置22と接続される。
ビデオカメラ23に蓄積されたデータをコンテンツ蓄積装置21に蓄積し、蓄積したデータを表示装置22で視聴する。なお、要約映像生成装置は、表示装置22やビデオカメラ23に内蔵されていてもよい。
(Embodiment 1)
FIG. 1 shows an example of connection between a device provided with the summary video generation apparatus of the present invention and another device. The summary video generation device is built in a
Data stored in the
図2に本発明の実施形態1に係る要約映像生成装置1のブロック図を示す。
要約映像生成装置1は、ビデオカメラ、動画撮影機能を有するデジタルカメラや携帯電話等の撮影装置2(図1の撮影装置23)および表示装置3(図1の表示装置22)と接続され、撮影装置2が撮影した映像データおよび音声データを含む撮影データの要約映像を生成し、生成した要約映像を表示装置3に出力する。なお要約映像生成装置1は、撮影装置2が備える表示部(ディスプレイ)に要約映像を表示するように出力しても勿論よい。
また、要約映像生成装置1が撮影装置2内に設けられていても勿論よい。また撮影データには、映像データが含まれていれば音声データが含まれていなくても勿論よい。
FIG. 2 is a block diagram of the summary
The summary
Of course, the summary
図2に示すように、要約映像生成装置1は、記録制御部4と要約生成再生部6とを備える。要約映像生成装置1は、撮影装置2、表示装置3及び、要約映像生成装置1に対し各種パラメータを設定するパラメータ設定部5等にそれぞれ接続されている。
記録制御部4は、ストリームデータ入力部7と、人物特徴量抽出部8と、人物特徴区間抽出部9と、データ記録部10とを有する。
As shown in FIG. 2, the summary
The
ストリームデータ入力部7は、撮影装置2で撮影し録画された映像データ、この映像データに同期した音声データ、及び撮影データの撮影日時や画質などの撮影情報を含むストリームデータを取得し、取得したストリームデータから各データを分離する。ストリームデータは様々な形式が利用できる。
実施形態1及び後述する他の実施形態では、録画開始から録画停止までの撮影データの単位を1ショットと呼ぶ。1ショット毎に撮影データとその撮影情報を含むデータファイルが作成され保存され、1または複数のショットが集まりストリームデータとなる。ユーザにより設定が可能なタイトル情報も、メタデータとしてデータファイルに保存される。
The stream
In the first embodiment and other embodiments described later, a unit of shooting data from the start of recording to the stop of recording is referred to as one shot. A data file including shooting data and shooting information is created and saved for each shot, and one or a plurality of shots are collected to form stream data. Title information that can be set by the user is also stored in the data file as metadata.
撮影情報は、撮影時間情報と、撮影装置2がGPS受信機を搭載している場合はGPS撮影位置情報と、撮影時に使用した風景撮影モードやスポーツ撮影モード等の撮影モード情報、撮影画角が16:9(ワイド)あるいは4:3(ノーマル)であることを示すワイド/ノーマルモード情報、手振れ補正がありか、なしかを示す手振れモード情報などの、各種情報を含む。
各ショットは、これらの撮影情報を用いて分類できる。同様の撮影情報を有する複数のショットを集めたものを撮影シーンとよぶ。
The shooting information includes shooting time information, GPS shooting position information when the
Each shot can be classified using these pieces of shooting information. A collection of a plurality of shots having similar shooting information is called a shooting scene.
人物特徴量抽出部8は、各ショットの撮影データから人物特徴量を抽出する。実施形態1において人物特徴量とは、例えば、撮影画像における顔画像の有無、顔画像の大きさ、顔画像の画面上の位置、顔画像の顔の向き(顔画像の傾き)等を示す情報や個人識別情報などである。更に抽出した人物特徴量を基に得点を求める。
得点の求め方は、人物特徴量をそのまま得点としてもよいし、抽出された人物特徴量を正規化した値を得点としてもよい。正規化することで、複数の人物特徴量に重み付けして加算することが容易となる。
また、1つの撮影データを通じた人物特徴量の分布を基にしてそれぞれの人物特徴量の値を相対的に求め、求めた値を得点としてもよい。このように求めることで、撮影データ全体に均等に分布する人物特徴量については得点が低くなり、まばらに分布する人物特徴量については得点が高くなる。
The person feature
The method for obtaining the score may be the person feature amount as it is, or may be a value obtained by normalizing the extracted person feature amount. By normalizing, it becomes easy to add a weight to a plurality of person feature amounts.
Moreover, it is good also considering the value of each person feature-value relatively based on the distribution of the person feature-value through one imaging | photography data, and making the calculated | required value a score. By obtaining in this way, the score is low for the human feature amount evenly distributed in the entire photographing data, and the score is high for the human feature amount sparsely distributed.
人物特徴区間抽出部9は、人物特徴量抽出部8により抽出された人物特徴量に基づいて、撮影データ内で例えば人物が所定の基準値より大きい等の特徴的に撮影されている映像区間を人物特徴区間として抽出する。また抽出した人物特徴区間の時間軸上の位置等を示す人物特徴区間情報と、人物特徴区間以外の映像区間である非人物特徴区間の時間軸上の位置等を示す非人物特徴区間情報とを生成して出力する。なお、実施形態1では後述するように、非人物特徴区間を複数に分割する。
Based on the person feature amount extracted by the person feature
データ記録部10は、ストリームデータ入力部7から出力されたストリームデータと、人物特徴量抽出部8で抽出された人物特徴量と、人物特徴区間抽出部9で抽出された人物特徴区間情報および非人物特徴区間情報とを受け取り、各ストリームデータにストリームデータを基にして求めた各情報を対応付ける。ここでは、ストリームデータに人物特徴量と人物特徴区間情報および非人物特徴区間情報とを対応付けする。なおデータ記録部10における各情報の対応付けは、ユーザの指示に基づいて行ってもよい。
データ記録部10は、対応付けしたストリームデータと各情報とを蓄積する。
データ記録部10に蓄積されたストリームデータおよび各情報を、記録媒体11に記録することもできる。図2では記録に用いる手段の図示を省略するが、既知の手段を採用すればよい。記録媒体11は例えばHDDやメモリ、DVD、BD等で、要約映像生成装置1に予め備えられている固定式でもよいし、要約映像生成装置1に脱着可能な脱着式でもよい。
The
The
The stream data and each information accumulated in the
パラメータ設定部5は、要約映像再生時にユーザが選択した、ストリームデータ情報、要約生成モード、要約再生時間等をパラメータとして要約生成再生部6に指示する。ユーザは、要約映像を生成するストリームデータと要約映像を生成する要約生成モードとを選択し、選択したストリームデータ、要約生成モードおよび要約映像を再生する時間等を示すパラメータをパラメータ設定部5に対して設定する。設定は、公知の方法で行えばよい。ストリームデータの選択は、ストリームデータのタイトルを選択する等の方法で行えばよい。
また、パラメータ設定部5は、要約映像生成装置1に設けられていてもよい。
The
The
ここで、要約再生時間とは、要約映像生成装置1にて生成する要約映像の再生時間である。また、要約生成モードとは、記録した映像から要約映像をどのように生成するか、を示す情報である。
例えば、家族旅行に行って、はしゃぐ子供のアップや、観光地の風景や、モニュメントの前でポーズする親等の色々な被写体を撮影した時に、そのまま時系列で見てもよいが、雑多な要約映像となる。
ユーザは、記録した映像をどのような観点で要約した映像を視聴したいか、に応じた要約生成モードを選択すればよい。要約生成モードを変更することで、再生される要約映像のシーン構成を変更することができる。
Here, the summary playback time is the playback time of the summary video generated by the summary
For example, when you go on a family trip and take pictures of a variety of subjects such as parents who pose in front of monuments, up scenic children, you can watch them in chronological order. It becomes.
The user may select a summary generation mode according to what kind of viewpoint the user wants to view the video summarized from the recorded video. By changing the summary generation mode, the scene configuration of the summary video to be played can be changed.
例えば、「キッズ」、「旅行記念」、「風景」のような要約生成モードがあるとする。「キッズ」では、人物(特に子供)のアップシーンを主とし、人物の位置や向きに変化の有るシーンを加える。「旅行記念」では、人物は正面向きで余り大き過ぎずに映っていて人物と共に背景も楽しめるシーンを主とし、背景のみのシーンや人物の位置や向きに変化の有るシーンを加える。「風景」では、人物の映っていないシーンを主とし、所々顔の目立たない程度に人物が映っているシーンも加える。
要約生成モードを選択することで、ユーザは同じ撮影シーンから要約生成モード毎に異なった趣向の要約映像を再生することができる。
For example, it is assumed that there are summary generation modes such as “kids”, “travel memorial”, and “scenery”. In “Kids”, scenes with a change in the position and orientation of the person are added, with the main scene being an upscene of a person (especially a child). In “Travel Commemorative”, the scene is mainly a scene in which the person is reflected in the front and is not too large and the background can be enjoyed together with the person, and a scene with only the background and a scene with a change in the position and orientation of the person are added. In “Landscape”, scenes that do not show a person are mainly used, and scenes in which a person is shown to the extent that the face is not conspicuous are also added.
By selecting the summary generation mode, the user can reproduce summary videos having different preferences for each summary generation mode from the same shooting scene.
要約生成再生部6は、データ読出部12と、要約再生区間選択部13と、要約映像生成部14と、再生処理部15と、デコード部16と、データ出力部17とを有し、要約再生区間選択部13は、代表区間選択部131と、つなぎ区間選択部132とを有する。
The summary generation /
データ読出部12は、パラメータ設定部5により設定されたパラメータに基づいて、ユーザより指定されたストリームデータと、ストリームデータに対応付けられた人物特徴量と、人物特徴区間情報および非人物特徴区間情報とをデータ記録部10より読み出す。データ読出部12は読み出したストリームデータ等を、要約再生区間選択部13に出力する。
データ読出部12は、ストリームデータおよび対応付けられた各情報を記録媒体11より読み出してもよい。
Based on the parameters set by the
The
要約再生区間選択部13は、データ読出部12から供給されたストリームデータと、パラメータ設定部5から供給されたパラメータ、ここでは特に要約生成モードを示すパラメータ、に基づいて、要約映像に使用する映像区間(要約再生区間)を選択する。要約再生区間には、人物特徴区間から選択した代表区間の映像を採用する。更に、代表区間の映像に対して導入映像となるような映像区間、あるいは、複数の代表区間をつなぐ映像となるような映像区間をつなぎ区間として採用することが好ましい。代表区間に加えてつなぎ区間を設けることで、要約映像の内容に変化が生じる。
代表区間選択部131は、要約生成モードに応じて各人物特徴区間の人物特徴量を評価し、人物特徴区間から代表区間を選択する。以下では、各人物特徴区間の評価値を算出し、評価値の高い人物特徴区間を代表区間として選択する方法について述べる。
The summary playback
The representative
実施形態1では、要約生成モードは、人物特徴量に対する重み付けを示す。具体的には要約生成モードは、人物特徴量抽出部8が抽出した人物特徴量に基づいて求めた得点に対する重み付けの程度を示す。評価値は、要約生成モードに基づいて得点を重み付けして算出した値である。
例えば上述した「キッズ」モードでは人物の顔のアップのシーンの評価値が高くなるように、顔のサイズに対応する特徴量に大きく重み付けして評価値を算出する。一方、「旅行記念」モードでは人物の顔が正面向きのシーンの評価値が高くなるように、顔の向きに対応する特徴量に大きく重み付けして評価値を算出する。このように要約生成モード毎に重み付けする特徴量を変更する。重み付けの量を変更する等で、要約生成モードに応じて異なるタイプのシーンの評価値が高くなるよう設定することができる。このようにして、視聴の趣向に応じた代表区間を選択できるようにする。
In the first embodiment, the summary generation mode indicates weighting for the person feature amount. Specifically, the summary generation mode indicates the degree of weighting for the score obtained based on the person feature amount extracted by the person feature
For example, in the “kids” mode described above, the evaluation value is calculated by heavily weighting the feature amount corresponding to the size of the face so that the evaluation value of the scene of the face up of the person is high. On the other hand, in the “travel memorial” mode, the evaluation value is calculated by heavily weighting the feature amount corresponding to the face direction so that the evaluation value of the scene with the human face facing forward is high. In this way, the feature amount to be weighted is changed for each summary generation mode. By changing the weighting amount or the like, it is possible to set the evaluation value of different types of scenes to be high depending on the summary generation mode. In this way, it is possible to select a representative section according to viewing preferences.
つなぎ区間選択部132は、代表区間以外の区間、すなわち非人物特徴区間と、代表区間にならなかった人物特徴区間とから、代表区間の導入部となるつなぎ区間を選択する。なお、つなぎ区間を非人物特徴区間のみから選択しても勿論よいし、代表区間にならなかった人物特徴区間のみから選択しても勿論よい。つなぎ区間を選択する方法は、パラメータ設定部5に設定された要約生成モードに応じて異なる。
The connection
要約映像生成部14は、代表区間選択部131によって選択された代表区間と、つなぎ区間選択部132によって選択されたつなぎ区間とから、要約映像あるいは再生リストを生成する。例えば要約映像は、代表区間を撮影時刻順に並び替え、つなぎ区間を適宜並べた映像を生成し、再生リストは、ストリームデータから要約映像に使用する映像区間を指定したリストを生成すればよい。
なお、実施形態1の要約映像生成部14は、ストリームデータから別途要約映像を生成するとして以下の説明を進める。再生リストを生成する方法は、後述する実施形態2の要約映像生成部63(図6参照)において説明し、要約映像生成部14は同様の方法を用いることができるとする。
The summary
Note that the summary
再生処理部15は、要約映像生成部14によって生成された要約映像の再生処理を行う。
デコード部16は、再生処理部15から出力された要約映像をデコードしてデータ出力部17へ出力する。
データ出力部17は、デコードされた要約映像データを表示装置3へ出力する。
The
The
The
次に、実施形態1に係る要約映像生成装置1の動作について説明する。
まず、ストリームデータ入力部7は、撮影装置2で撮影し録画された撮影データとその撮影情報とを含むストリームデータを取得すると、取得したストリームデータから撮影データと撮影情報等の各データを分離する。撮影データは人物特徴量抽出部8へ出力し、撮影データ以外の各データはデータ記録部10へ出力する。なお、ストリームデータ入力部7から出力する撮影データは、映像データのみのものでもよい。
Next, the operation of the summary
First, when the stream
人物特徴量抽出部8は、撮影データから人物特徴量を抽出し、人物特徴区間抽出部9と、データ記録部10とに出力する。実施形態1では、人物特徴量抽出部8は、4種類の人物の顔の特徴を基にした4種類の人物特徴量を求める。4種類の特徴は、撮影画面における人物の、顔のサイズと顔の位置と顔の向きと顔の傾きとし、4種類の人物特徴量をそれぞれ求める。
なお、実施形態1では上記した4つの人物特徴量を用いて説明するが、全ての人物特徴量を用いる必要はない。顔のサイズと顔の位置等、任意の2つの特徴に基づいた2つの人物特徴量でも、任意の3つの特徴に基づいた3つの人物特徴量でも勿論よい。
人物特徴区間抽出部9は、4種類の人物特徴量に基づいて人物特徴区間を抽出する。
The person feature
In the first embodiment, the description is made using the above-described four person feature amounts, but it is not necessary to use all the person feature amounts. Of course, two person feature amounts based on two arbitrary features such as face size and face position, or three person feature amounts based on three arbitrary features may be used.
The person feature section extraction unit 9 extracts a person feature section based on four types of person feature amounts.
次に、一例として、顔のサイズに基づいた人物特徴量(以下、顔サイズ特徴量)の求め方を説明する。なお、顔の位置、顔の向き、顔の傾きに基づく人物特徴量も同様に求めればよい。
人物特徴量抽出部8は、撮影データ中に含まれる人物の画像を所定の間隔で検出する。実施形態1では、輝度検出や肌色検出等を用いた公知の顔認識方法により、顔画像の領域を人物領域として検出するが、人物の特徴を示す領域であればこれに限定するものではない。人物特徴量抽出部8は、検出した顔の画像に基づいて、顔画像の特徴を表す情報(以下、顔情報)を検出する。顔画像の特徴を顔のサイズで表す場合は、撮影画面サイズに対する顔の大きさ、すなわち顔の面積や、長さ、幅、長さと幅との合計、等の値を求め、時刻tの画像における顔情報Ltとする。
また人物特徴量抽出部8は、顔が検出された画像フレームの撮影時刻と、顔画像が検出された領域を示すリスト(顔情報リスト)を作成する。顔情報リストの一部を図14に示す。ここでは、顔のサイズに基づく顔情報(以下、顔サイズL1t)と顔の位置に基づく顔情報(以下、顔の位置L2t)とを顔情報として用いる。
Next, as an example, a method for obtaining a person feature amount (hereinafter referred to as a face size feature amount) based on the face size will be described. It should be noted that the person feature amount based on the face position, the face orientation, and the face inclination may be obtained in the same manner.
The person feature
The person feature
図15は、顔画像が検出された人物領域を示す座標について説明する図である。画面の左上を(x,y)=(0,0)とし、画面の右下を(x,y)=(w,h)とした時、顔画像が検出された人物領域を(x1,y1)−(x2,y2)で示す。
図14に示す顔情報リストは、更に、顔サイズL1tを基にした顔サイズ特徴量(得点)P1tと、顔サイズL1tと顔の位置L2tとを基に分けた人物特徴区間、非人物特徴区間のIDを有する。なお、撮影時刻の代わりに画像フレームの撮影データ中の位置を示す、インデックス情報を用いてもよい。
FIG. 15 is a diagram for explaining coordinates indicating a person region in which a face image is detected. When the upper left corner of the screen is (x, y) = (0, 0) and the lower right corner of the screen is (x, y) = (w, h), the human area where the face image is detected is (x1, y1). )-(X2, y2).
The face information list shown in FIG. 14 further includes a face size feature amount (score) P1t based on the face size L1t, a person feature section and a non-person feature section based on the face size L1t and the face position L2t. ID. Note that index information indicating the position of the image frame in the shooting data may be used instead of the shooting time.
次に人物特徴量抽出部8は、対象となる全ショットの顔情報Ltから顔情報の平均値Lmを求める。更に、人物特徴量抽出部8は下記の式(1)を用いて、時刻tの画像における顔情報Ltを、第1の閾値Th1を基に判断する。第1の閾値Th1は、Th1=Lm+k1σ(k1は係数、σは顔情報Ltの標準偏差)とする。
更に、時刻tにおける画像の人物特徴量Ptを下記の式(2)で求める。ここで顔サイズL1tを顔情報Ltとして用いた場合、顔情報Ltの平均値Lmは、顔サイズの平均値L1m、顔情報Ltの標準偏差σは、顔サイズの標準偏差σ1、人物特徴量Ptは顔サイズ特徴量P1tとなる。顔情報Ltが顔の位置、顔の向き、顔の傾き等に基づくとした場合も同様である。
Next, the person feature
Further, the person feature amount Pt of the image at time t is obtained by the following equation (2). Here, when the face size L1t is used as the face information Lt, the average value Lm of the face information Lt is the average value L1m of the face size, the standard deviation σ of the face information Lt is the standard deviation σ1 of the face size, and the person feature Pt Is the face size feature amount P1t. The same applies to the case where the face information Lt is based on the face position, face orientation, face inclination, and the like.
Lt>Th1…式(1)
Pt=10(Lt−Lm)/σ+50…式(2)
Lt> Th 1 ... Formula (1)
Pt = 10 (Lt−Lm) / σ + 50 (2)
なお人物特徴量抽出部8が人物特徴量Ptを求める際に、男性と女性とで重み付けを変える、子供と大人とで重み付けを変える等、性別や年齢に応じた重み付けを行ってもよいし、特定の人物に対する重み付けを行ってもよい。
人物特徴量抽出部8は、求めた顔情報Ltと人物特徴量Ptとを、人物特徴区間抽出部9と、データ記録部10とに出力する。
When the person feature
The person feature
人物特徴区間抽出部9は、人物特徴量抽出部8で抽出された顔情報Ltと人物特徴量Ptとに基づいて、撮影データ内の人物特徴区間および非人物特徴区間を抽出する。
人物特徴区間抽出部9は、まず、人物特徴量抽出部8が抽出した顔情報Ltを基に、顔情報Ltが第1の閾値Th1より大きい画像を含む映像区間を抽出する。そして人物特徴区間抽出部9は、第1の閾値Th1より大きい顔情報Ltが検出された画像が連続する映像区間を人物特徴区間とする。
The person feature section extraction unit 9 extracts a person feature section and a non-person feature section in the shooting data based on the face information Lt and the person feature amount Pt extracted by the person feature
The person feature section extraction unit 9 first extracts a video section including an image in which the face information Lt is greater than the first threshold Th 1 based on the face information Lt extracted by the person feature
例えば、顔情報Ltを顔サイズL1tとすると、顔サイズL1tを基に求めた第1の閾値Th11より大きい顔サイズL1tが検出された撮影画像が連続する映像区間を人物特徴区間とする。図16に、顔サイズL1tを基にした人物特徴区間および非人物特徴区間の抽出例を示す。図16は顔情報Lt(顔サイズL1t)の時刻t方向での変動を示す。図16において人物特徴区間は、時刻t1から時刻t2の区間および、時刻t5から時刻t6までの区間である。
人物の顔が含まれる画像が一時的に途切れる場合は、途切れる期間や、途切れる前後の画像における顔の位置や顔サイズを基に、途切れる前後の画像が一連の人物特徴区間であるか否かの連続性を評価する。人物(被写体)が横を向いた後、正面に向き直るような映像は、複数の人物特徴区間に分割される可能性があるが、このような評価をすることで連続した映像区間として扱うことができ、好ましい。
For example, when the face information Lt and face size L1t, the first threshold value Th 11 larger face size L1t is a video sequence personal characteristic section is captured image detected continuously determined based on face size L1t. FIG. 16 shows an example of extraction of person feature sections and non-person feature sections based on the face size L1t. FIG. 16 shows the variation of the face information Lt (face size L1t) in the time t direction. In FIG. 16, the person feature section is a section from time t1 to time t2 and a section from time t5 to time t6.
If an image containing a person's face is temporarily interrupted, whether or not the images before and after the interruption are a series of person feature sections based on the period of interruption and the face position and face size in the images before and after the interruption. Assess continuity. An image in which a person (subject) turns to the front after turning sideways may be divided into a plurality of person feature sections, but can be handled as a continuous video section by performing such an evaluation. It is possible and preferable.
次に、人物特徴区間抽出部9は、人物特徴量抽出部8が抽出した人物特徴量Ptの得点を算出する。人物特徴量Ptの得点は、一区間内で算出された人物特徴量Ptを基に求めればよく、例えば、時刻t1から時刻t2の区間の人物特徴量Ptの得点は、時刻t1〜t2間の複数の人物特徴量Ptに基づいて求める。
時刻t1〜t2間で人物特徴量Ptが変化する場合には、時刻t1〜t2間の人物特徴量Ptの得点を例えば、人物特徴量Ptの平均を基に求める。また、時刻tl〜t2間で人物特徴量Ptの変化が大きい場合は、時刻t1〜t2の人物特徴区間を人物特徴量Ptに応じて更に複数の区間に分割し、分割した各区間における人物特徴量Ptの平均を基にして得点を求めてもよい。また、複数の顔情報に基づいた複数の人物特徴量を用いる場合は、その区間で変化が大きい人物特徴量に基づいて人物特徴区間を複数の区間に分割すればよい。
Next, the person feature section extraction unit 9 calculates the score of the person feature amount Pt extracted by the person feature
When the person feature Pt changes between times t1 and t2, the score of the person feature Pt between times t1 and t2 is obtained based on, for example, the average of the person features Pt. When the change in the person feature Pt is large between the times tl and t2, the person feature section at the times t1 and t2 is further divided into a plurality of sections according to the person feature Pt, and the person feature in each divided section is A score may be obtained based on the average of the amount Pt. In addition, when using a plurality of person feature amounts based on a plurality of face information, the person feature section may be divided into a plurality of sections based on the person feature quantities that change greatly in the section.
なお、人物特徴区間抽出部9は、手振れ、ピンボケなどのミスショット区間を、人物特徴量または撮影情報を基に検出し、人物特徴区間および非人物特徴区間として抽出されないようにしてもよい。 Note that the person feature section extraction unit 9 may detect misshot sections such as camera shake and out-of-focus based on the person feature amount or the shooting information, and may not extract them as the person feature section and the non-person feature section.
また、人物特徴区間抽出部9は、人物特徴量抽出部8が抽出した顔情報Ltを基に、人物特徴区間以外の区間を非人物特徴区間として抽出する。
ここで、人物特徴区間以外の連続した区間を非人物特徴区間として一括して抽出してもよいが、実施形態1の人物特徴区間抽出部9では、非人物特徴区間を第1の非人物特徴区間と第2の非人物特徴区間とに分割する。これにより、映像区間の区分けがよりきめ細かく行える。
第1の非人物特徴区間は、人物が所定の基準値より小さく撮影されている、あるいは撮影されていない区間が連続する区間とし、第2の非人物特徴区間は、映像における人物特徴が人物特徴区間よりも小さく、第1の非人物特徴区間よりも大きい区間である。例えば、人物が撮影されているもののその顔は非常に短い時間しか現れない等の映像区間が相当する。
In addition, the person feature section extraction unit 9 extracts sections other than the person feature section as non-person feature sections based on the face information Lt extracted by the person feature
Here, continuous sections other than the person feature section may be collectively extracted as the non-person feature section. However, in the person feature section extraction unit 9 of the first embodiment, the non-person feature section is the first non-person feature. Dividing into a section and a second non-person feature section. Thereby, the segmentation of the video section can be performed more finely.
The first non-person feature section is a section in which a person is photographed smaller than a predetermined reference value or a section in which no person is photographed is continuous, and the second non-person feature section is a person feature in a video whose person feature is a person feature. It is a section that is smaller than the section and larger than the first non-person feature section. For example, a video section in which a person is photographed but the face appears only for a very short time corresponds.
実施形態1の人物特徴区間抽出部9は、下記の式(3)を満たす時刻tの画像が連続する区間を抽出する。第2の閾値Th2は、Th2=Lm+k2σ(k2は係数、k1>k2)とする。第2の閾値Th2は第1の閾値Th1より小さい。
顔情報Ltが第2の閾値Th2より小さい画像は、顔が非常に小さく写っている画像であり、従って顔の特徴を検出することが難しい。このような画像が連続する区間と、人物の顔が全く映っていない区間とを第1の非人物特徴区間として、実施形態1の人物特徴区間抽出部9が抽出する。
The person feature section extraction unit 9 of
An image whose face information Lt is smaller than the second threshold Th 2 is an image in which the face is very small, and thus it is difficult to detect facial features. The person feature section extraction unit 9 of the first embodiment extracts a section in which such images are continuous and a section in which no person's face is shown as a first non-person feature section.
Lt<Th2…式(3) Lt <Th 2 Formula (3)
そして、人物特徴区間抽出部9は、上述のように抽出した人物特徴区間および第1の非人物特徴区間以外の区間を、第2の非人物特徴区間として抽出する。
顔サイズL1tに基づいて人物特徴量P1tを算出した場合、第2の非人物特徴区間とされる画像は、人物特徴区間の画像より人物の顔のサイズが小さいものの、第1の非人物特徴区間の画像と比較すると、映っている人物の顔から特徴が検出できる程度に大きいサイズの顔画像が連続する映像区間となる。あるいは、連続する映像区間において一瞬だけ顔画像が出現するものも含む。
Then, the person feature section extraction unit 9 extracts a section other than the person feature section and the first non-person feature section extracted as described above as the second non-person feature section.
When the person feature amount P1t is calculated based on the face size L1t, the image that is the second non-person feature section has a smaller face size than the image of the person feature section, but the first non-person feature section Compared with the image, the video section is a series of face images having a size large enough to detect the feature from the face of the person being shown. Or the thing where a face image appears only for a moment in a continuous video section is also included.
再び図16を用いて、顔サイズL1tを基にした第1の非人物特徴区間および第2の非人物特徴区間の抽出例を示す。図16において第1の非人物特徴区間は、顔サイズL1tが第2の閾値Th12を下回る時刻t3から時刻t4の区間であり、第2の非人物特徴区間は時刻t0から時刻t1の区間、時刻t2から時刻t3の区間、時刻t4から時刻t5の区間である。
なお、ここでは人物特徴区間抽出部9は、顔情報Ltを基にした人物特徴量Ptを用いて上記各区間を抽出したが、輝度情報の変化量や画像から検出した顔以外の特徴に基づく特徴量を用いて各区間を抽出してもよい。
FIG. 16 is used again to show an example of extracting the first non-person feature section and the second non-person feature section based on the face size L1t. In FIG. 16, the first non-person feature section is a section from time t3 to time t4 when the face size L1t falls below the second threshold Th 12 , and the second non-person feature section is a section from time t0 to time t1, A section from time t2 to time t3 and a section from time t4 to time t5.
Here, the person feature section extraction unit 9 extracts each of the sections using the person feature amount Pt based on the face information Lt. However, the person feature section extractor 9 is based on the brightness information change amount and features other than the face detected from the image. Each section may be extracted using the feature amount.
図3は、実施形態1における人物特徴区間および非人物特徴区間抽出の概念図を示している。
図3(a)は人物特徴量抽出部8が受け取るストリームデータの一例を示す。図3(b)〜図3(i)は、人物特徴量抽出部8が図3(a)のストリームデータより求めた人物特徴量Ptを基に、人物特徴区間抽出部9が分割した特徴区間(人物特徴区間及び非人物特徴区間)及び分割した各特徴区間の人物特徴量に基づく得点を示す。
図3(b)は顔サイズL1tに基づいた顔サイズ特徴量P1tで映像区間を分割した一例、図3(c)は顔の位置L2tに基づいた顔位置特徴量P2tで分割した一例、図3(d)は顔向きL3tに基づいた顔向き特徴量P3tで分割した一例、図3(e)は顔傾きL4tに基づいた顔傾き特徴量P4tで分割した一例を示す。顔の位置L2tは、画面上の顔画像の位置を示し、顔向きL3tは、顔画像が画面でどちらの方向(左右)を向いているかを示し、顔傾きL4tは、顔画像が画面の垂直方向に対して傾いていることを示す。
FIG. 3 shows a conceptual diagram of person feature section and non-person feature section extraction in the first embodiment.
FIG. 3A shows an example of stream data received by the person feature
3B is an example in which the video section is divided by the face size feature amount P1t based on the face size L1t, and FIG. 3C is an example in which the image section is divided by the face position feature amount P2t based on the face position L2t. FIG. 3D shows an example of division by a face orientation feature amount P3t based on the face orientation L3t, and FIG. 3E shows an example of division by a face inclination feature amount P4t based on the face orientation L4t. The face position L2t indicates the position of the face image on the screen, the face direction L3t indicates which direction (left and right) the face image is facing on the screen, and the face inclination L4t indicates that the face image is perpendicular to the screen. Indicates tilting with respect to the direction.
また、図3(f)は人物特徴区間抽出部9が顔サイズ特徴量P1tより算出した各映像区間の得点、図3(g)は人物特徴区間抽出部9が顔位置特徴量P2tより算出した各映像区間の得点、図3(h)は人物特徴区間抽出部9が顔向き特徴量P3tより算出した各映像区間の得点、図3(i)は人物特徴区間抽出部9が顔傾き特徴量P4tより算出した各映像区間の得点を、それぞれ一例として示す。 Further, FIG. 3F shows the score of each video section calculated by the human feature section extraction unit 9 from the face size feature amount P1t, and FIG. 3G shows the score calculated by the human feature section extraction unit 9 from the face position feature amount P2t. The score of each video section, FIG. 3 (h) shows the score of each video section calculated by the human feature section extraction unit 9 from the face direction feature quantity P3t, and FIG. 3 (i) shows the face tilt feature quantity of the person feature section extraction unit 9. The score of each video section calculated from P4t is shown as an example.
顔位置特徴量P2tは、顔の位置L2tが中央位置を示すとき最も大きい値となり、顔向き特徴量P3tは、顔向きL3tが左右方向より中央方向を示すほうが大きい値となり、顔傾き特徴量P4tは顔傾きL4tが(上下方向角度)が垂直方向を向いているほうが大きい値となる。
図3(f)〜(i)に示す得点例では、顔サイズ特徴量P1tが大きく、顔位置特徴量P2tは顔の位置が画面中心にあり、顔向き特徴量P3tは顔が中央方向を向いており、顔の上下方向の傾き(角度)が垂直の場合を高得点とした。位置、向き、傾きについては、左・右・上・下の方向毎に、更に詳細に特徴量を評価してもよい。
The face position feature amount P2t has the largest value when the face position L2t indicates the center position, and the face orientation feature amount P3t has a larger value when the face direction L3t indicates the center direction than the left-right direction, and the face tilt feature amount P4t. Is larger when the face inclination L4t (vertical angle) is in the vertical direction.
In the score examples shown in FIGS. 3F to 3I, the face size feature value P1t is large, the face position feature value P2t has the face position at the center of the screen, and the face orientation feature value P3t has the face facing the center. The score was high when the vertical inclination (angle) of the face was vertical. Regarding the position, orientation, and inclination, the feature amount may be evaluated in more detail for each of the left, right, up, and down directions.
実施形態1の人物特徴区間抽出部9は、顔情報Ltに基づいて映像を人物特徴区間、第1の非人物特徴区間、第2の非人物特徴区間とに分割し、人物特徴量Ptに基づいて各特徴区間の得点を算出する。人物特徴量Ptは、映像から検出した人物の顔サイズ、画面上の顔位置、顔の向き、顔の傾き等の顔情報Lt毎に求める。
そして、人物特徴区間抽出部9は、人物特徴区間の時刻情報および得点、人物識別情報を含む人物特徴区間情報と、非人物特徴区間の時刻情報および得点を含む非人物区間情報を生成して出力する。
The person feature section extraction unit 9 according to the first embodiment divides the video into a person feature section, a first non-person feature section, and a second non-person feature section based on the face information Lt, and based on the person feature amount Pt. To calculate the score for each feature section. The person feature amount Pt is obtained for each face information Lt such as the face size of the person detected from the video, the face position on the screen, the face direction, and the face tilt.
Then, the person feature section extraction unit 9 generates and outputs the person feature section time information and score, person feature section information including person identification information, and non-person feature section time information and score. To do.
次に、データ記録部10は、ストリームデータ入力部7から入力されるストリームデータと、人物特徴量抽出部8によって抽出された人物特徴量Ptと、人物特徴区間抽出部9によって抽出された人物特徴区間情報および非人物特徴区間情報とを対応付けて記録媒体11に保存する。
Next, the
ここまでがストリームデータ記録時の動作である。次に、要約映像の再生動作を説明する。 This is the operation when recording stream data. Next, the summary video playback operation will be described.
(要約映像再生動作)
要約映像の再生時には、パラメータ設定部5が、ユーザより選択されたストリームデータ、要約生成モード、要約再生時間等をパラメータとして要約生成再生部6へ出力する。
(Summary video playback operation)
When reproducing the summary video, the
データ読出部12は、パラメータ設定部5に設定された情報の示すストリームデータと、そのストリームデータに対応する人物特徴量と、人物特徴区間情報および非人物特徴区間情報とを、データ記録部10より読み出す。
The
次に、代表区間選択部131は、パラメータ設定部5より設定された要約生成モードに基づいて各人物特徴区間の得点を重み付け等して、各人物特徴区間の得点の合計を求めて評価値とし、その評価値の大小に基づき代表区間を選択する。ここで、n種類の人物特徴量を用いて人物特徴区間を評価する際に、i番目の人物特徴量Ptに関する時刻tを含む人物特徴区間の得点をPitとする。設定された要約生成モードmでの人物特徴区間の評価値Vmtは、下記の式(4)により求める。
Next, the representative
ここで、Cmiは、要約生成モードmでのi番目の人物特徴量の重み付け係数、Amiは、初期設定値である。初期設定値Amiは、0等の所定の値でよい。
例えば、子供の可愛い表情を中心とする要約映像であれば、要約生成モードmに応じた重み付け係数Cmiにより、顔の大きさの得点Pitに重み付けして評価値Vmtを算出することにより、子供のアップシーンを優先することができる。旅行時などの風景とともに人物を撮影した映像を主とする要約映像であれば、要約生成モードmに応じた重み付け係数Cmiにより、顔の向きに重み付けして評価値Vmtを算出することにより、観光地における記念撮影のように顔の向きが正面に近い向きのシーンを優先することができる。
Here, Cmi is a weighting coefficient of the i-th person feature amount in the summary generation mode m, and Ami is an initial setting value. The initial setting value Ami may be a predetermined value such as 0.
For example, in the case of a summary video centered on a cute facial expression of a child, the evaluation value Vmt is calculated by weighting the score Pit of the face size by a weighting coefficient Cmi corresponding to the summary generation mode m, thereby You can prioritize upscenes. In the case of a summary video mainly including a video of a person taken together with a landscape during a trip or the like, the evaluation value Vmt is calculated by weighting the orientation of the face with a weighting coefficient Cmi corresponding to the summary generation mode m. Priority can be given to scenes with face orientations close to the front, such as commemorative photography on the ground.
そして、代表区間選択部131は、人物特徴区間を評価値Vmtの大きい方から順に並べて代表区間候補とし、設定した要約再生時間を超えない範囲で、代表区間候補の上位から代表区間を選択する。各代表区間の長さは、見易さを損なわない最短の長さおよび設定要約再生時間に応じた最長の長さを範囲設定し、範囲内の長さとするよう特徴量を基に調整してもよい。
Then, the representative
次に、つなぎ区間選択部132は、代表区間選択部131によって選択された代表区間に対し背景の親和性が高く、中心部に大きな動きの少ない落ち着いた映像区間を短時間、つなぎ区間として選択する。なお、つなぎ区間は、選択しなくても勿論よく、この場合には、つなぎ区間選択部132を省略することができる。また、つなぎ区間は、代表区間の前でなく、代表区間の後ろに挿入するようにしても、更には、代表区間の前後に挿入するようにしても勿論よい。
Next, the connection
ここで、実施形態1では、代表区間と同一ショット内の映像区間をつなぎ区間として用い、つなぎ区間を代表区間の導入部として再生する。すなわち、つなぎ区間に続けて代表区間が再生される要約映像を生成する。 Here, in the first embodiment, the video section in the same shot as the representative section is used as the connecting section, and the connecting section is reproduced as the representative section introducing unit. That is, a summary video is generated in which the representative section is reproduced following the connecting section.
つなぎ区間を選択する第1の例としては、代表区間と同一ショット内の第1の非人物特徴区間から、動きの少ない区間や代表区間に近い時刻情報を有する区間で、所定時間(例えば、2秒〜3秒)の映像区間をつなぎ区間として選択する。 As a first example of selecting a connecting section, from a first non-person feature section in the same shot as the representative section, a section with little movement or a section having time information close to the representative section, a predetermined time (for example, 2 Second to 3 seconds) is selected as the connecting section.
第1の非人物特徴区間は、上述したように、人物の顔が所定の基準値より小さく写っているか、または写っていない、人物の顔が十分に目立たない映像区間である。そのため、人物特徴区間から選択される代表区間との映像の特徴における差異が、第2の非人物特徴区間と代表区間との差異より大きい。従ってつなぎ区間を第1の非人物特徴区間から選択すると、その後に続けて再生される代表区間との映像の特徴において差異が大きいため、つなぎ区間と代表区間で映像の対比が生じ、要約映像に変化がでて、ユーザの退屈感を減少させることができる。 As described above, the first non-person feature section is a video section in which a person's face is captured less than or equal to a predetermined reference value and the person's face is not sufficiently conspicuous. Therefore, the difference in video features from the representative section selected from the person feature sections is larger than the difference between the second non-person feature section and the representative section. Therefore, when the connecting section is selected from the first non-person feature section, there is a large difference in the video characteristics of the representative section that is subsequently played back. Changes can be made and the user's boredom can be reduced.
第2の例としては、代表区間と同一ショット内の第2の非人物特徴区間から動きの少ない区間や、代表区間に時間的に近い区間から所定時間(2秒〜3秒)の映像区間をつなぎ区間として選択する。
第2の非人物特徴区間は、上述したように人物が写っているものの一瞬だけ顔が出現したりする人物の有無として中途半端な区間である。そのため、第1の非人物特徴区間よりは代表区間と映像の特徴における差異が小さいものの、人物特徴区間内の他の映像と比較すれば代表区間との差異は大きい。従って第2の非人物特徴区間からつなぎ区間を選択すると、つなぎ区間は代表区間と対比的な映像区間となるため、要約映像に変化がでて、ユーザの退屈感を減少させることができる。
As a second example, a video section of a predetermined time (2 to 3 seconds) from a second non-person feature section in the same shot as the representative section and a section with little movement, or a section temporally close to the representative section. Select as a connecting section.
As described above, the second non-person feature section is a half-finished section as to whether or not there is a person whose face appears only for a moment even if a person is shown. Therefore, although the difference between the representative section and the video feature is smaller than that of the first non-person feature section, the difference from the representative section is large when compared with other videos in the person feature section. Therefore, when a connecting section is selected from the second non-person feature sections, the connecting section becomes a video section that is contrasted with the representative section, so that the summary video changes and the user's boredom can be reduced.
更に、第3の例としては、つなぎ区間を非人物特徴区間から選ばずに、人物特徴区間および非人物特徴区間に関係なく、ショット開始時点から所定時間(2秒〜3秒)の映像区間を選択する。これは、一般ユーザの撮影傾向として、ショット開始時は、撮影対象人物の周囲の風景等を撮り始めるという撮影行動特性が多く見られるためである。従って簡易に、ショット内のショット開始時から2秒〜3秒程度の映像区間をつなぎ区間として選択する。
上述したように、一般的にショット開始時点から2秒〜3秒程度の映像区間は落ち着いた映像区間であるため、つなぎ区間と代表区間との差異が大きく対比的な映像となり、要約映像に変化がでて、ユーザの退屈感を減少させることができる。
Further, as a third example, a video section of a predetermined time (2 to 3 seconds) from the start of the shot is used regardless of the person feature section and the non-person feature section, without selecting the connection section from the non-person feature section. select. This is because, as a general user's shooting tendency, there are many shooting behavior characteristics such as starting to take a landscape around the shooting target person at the start of the shot. Therefore, a video section of about 2 to 3 seconds from the start of a shot in a shot is simply selected as a connecting section.
As described above, since the video section of about 2 to 3 seconds from the start of the shot is generally a calm video section, the difference between the connecting section and the representative section is large and becomes a contrasting video, changing to a summary video. Therefore, the user's boredom can be reduced.
また更に、第4の例としては、ユーザの撮影したストリームデータではなく、予め記録媒体11に蓄積された、撮影データおよび音声データを含むストリームデータを用い、代表区間と背景の特徴量の親和性が高いショットのうちからつなぎ区間を選択する。また、予めつなぎ用の映像を対応する特徴量と共にデータベース化し、代表区間の特徴量と親和性の高いつなぎ区間を選択してもよい。ここで、特徴量とは映像の撮影日時、タイトル、撮影場所、背景色分布、エッジ分布、動きアクティビティ、音量、音声の種類等であり、代表区間と代表区間以外の映像区間とにおける特徴量を比較して、その特徴量が代表区間のものと同様の値を有する映像区間をつなぎ区間とすればよい。 Furthermore, as a fourth example, the affinity between the representative section and the background feature amount is used using stream data including shooting data and audio data stored in advance in the recording medium 11 instead of stream data shot by the user. Select a connecting section from shots with a high. Alternatively, a connection video having a high affinity with the feature amount of the representative section may be selected by previously creating a database of the connection video together with the corresponding feature amount. Here, the feature amount is the shooting date / time of the video, the title, the shooting location, the background color distribution, the edge distribution, the motion activity, the volume, the type of sound, etc., and the feature amount in the video section other than the representative section and the representative section. In comparison, a video section whose feature value has the same value as that of the representative section may be used as a connecting section.
このようにユーザの撮影したストリームデータ以外からつなぎ区間を選択することにより、更に、代表区間に対し差異が大きくなるつなぎ区間を選択することができる。
なお、つなぎ区間を代表区間の前後に複数設ける場合には、上記第1〜第4の例を任意に組み合わせるようにしても勿論よい。
In this way, by selecting a connecting section other than the stream data photographed by the user, it is possible to further select a connecting section having a greater difference from the representative section.
Of course, when a plurality of connecting sections are provided before and after the representative section, the above first to fourth examples may be arbitrarily combined.
次に、要約映像生成部14は、ストリームデータからそれぞれ選択された代表区間と、それぞれに対応するつなぎ区間とを代表区間の撮影時刻順に並び替え、再生リストまたは要約映像を生成する。
Next, the summary
図4は、要約映像生成部14の要約映像生成方法の一例を示す図である。
図4に示すように、要約映像生成部14は、ストリームデータ40から選択された代表区間40Aと対応するつなぎ区間40B、ストリームデータ41から選択された代表区間41Aと対応するつなぎ区間41B、とを代表区間の撮影時刻順に並び替え、ストリームデータ40、41の要約映像を生成する。この場合、要約映像には、音声データが含まれていても含まれていなくてもかまわない。
FIG. 4 is a diagram illustrating an example of a summary video generation method of the summary
As shown in FIG. 4, the summary
要約映像生成部14は、上述したようにストリームデータ40、41の一部分を抜き出して要約映像を生成するが、要約映像を生成せずに、ストリームデータ40、41の一部分を再生リストにより指定するようにしてもよい。ここで、再生リストとは、要約映像自体は生成せずに、ストリームデータから要約映像として再生する映像の範囲を時刻情報等により指定するものである。
As described above, the summary
再生処理部15は、要約映像生成部14がストリームデータから生成した要約映像を再生処理してデコード部16へ出力する。デコード部16は、再生処理部15からの要約映像をデコードし、データ出力部17へ出力する。
データ出力部17は、デコード部16によってデコードされた要約映像を、表示装置3へ出力して表示させる。その際、データ出力部17は、つなぎ区間と代表区間との接続部分において、ディゾルブやフェードイン・フェードアウト効果を用いて、各区間の映像を滑らかに再生するようにしてもよい。
The
The
図5は、要約映像生成部14による要約映像生成方法の他の例を示す図である。
図5に示す生成方法は、図4に示した生成方法とは異なり、映像データ(撮影データ)と音声データとを独立にずらして要約映像を生成する方法である。
FIG. 5 is a diagram illustrating another example of the summary video generation method by the summary
The generation method shown in FIG. 5 differs from the generation method shown in FIG. 4 in that a summary video is generated by shifting video data (shooting data) and audio data independently.
図5に示す生成方法では、ストリームデータ50から選択した映像データのつなぎ区間51Bと代表区間51Aとが切り替わるタイミングと、つなぎ区間51Bに対応する音声データのつなぎ区間52Bと代表区間51Aに対応する音声データの代表区間52Aとが切り替わるタイミングとをずらして要約映像を生成する。
実施形態1では、音声データのつなぎ区間52Bから代表区間52Aへの切り替えのタイミングを、映像データのつなぎ区間51Bから代表区間51Aへの切り替えのタイミングより早い時間とする。これにより、ユーザは予め音声でつなぎ区間から代表区間への移行を認識できるため、映像が切り替わっても違和感が少なく視聴でき、短時間で内容を把握し易くなる。
同様に、ストリームデータ51から選択した音声データのつなぎ区間54Bから代表区間54Aへの切り替えのタイミングを、映像データのつなぎ区間53Bから代表区間53Aへの切り替えのタイミングより早い時間となるよう要約映像を生成する。
In the generation method shown in FIG. 5, the timing at which the connecting
In the first embodiment, the switching timing of the audio
Similarly, the summary video is selected so that the switching timing of the audio data selected from the stream data 51 from the connecting
以上説明したように、実施形態1によれば、ストリームデータの人物特徴量を基に撮影データに人物が存在する特徴的なシーンを人物特徴区間として選択し、その人物特徴区間から代表区間を選択し所定の順序に並べて再生リストまたは要約映像を生成するので、ユーザが映像内容を把握でき、中心的な被写体を参照可能な要約映像を生成することができる。 As described above, according to the first embodiment, a characteristic scene in which a person is present in captured data is selected as a person feature section based on the person feature amount of stream data, and a representative section is selected from the person feature section. Since the reproduction list or summary video is generated in a predetermined order, the user can grasp the content of the video and generate the summary video that can refer to the central subject.
特に、実施形態1では、要約映像を生成する際、人物特徴区間から選択した代表区間だけでなく、非人物特徴区間からも、代表区間の導入部となるつなぎ区間を選択し、選択した代表区間とつなぎ区間とを並べて要約映像(または、再生リスト)を生成するので、ユーザが映像内容を把握でき、中心的な被写体を参照できることに加えて、見易く退屈しない要約映像を生成することができる。即ち、人物中心の代表区間と人物の存在しないつなぎ区間とを組み合わせることにより、メリハリの利いた要約映像を提供することができる。 In particular, in the first embodiment, when the summary video is generated, not only the representative section selected from the person feature section but also the non-person feature section is selected as a connection section serving as an introduction section of the representative section, and the selected representative section is selected. Since the summary video (or the reproduction list) is generated by arranging the connecting sections, the user can grasp the video content and can refer to the central subject, and can generate the summary video that is easy to see and is not bored. In other words, a sharp summary video can be provided by combining a representative section centered on a person and a connecting section where no person exists.
なお、実施形態1で説明したように、今日普及している家庭用のビデオカメラにおいては、録画/停止の撮影ショット毎にインデックスを生成し記録する形式が一般的であるので、強いてショットチェンジ、すなわちショットの切れ目検出を行う必要のない場合が多いが、旧型の撮影機器で撮影したインデックスのない撮影データを処理する際には、撮影画面間の相関など公知の手法を用いて予めショット区切を検出し、実施形態1の処理を適用すればよい。 As described in the first embodiment, in home video cameras that are widely used today, a format in which an index is generated and recorded for each recording / stop shot shot is generally used. In other words, there is often no need to detect shot breaks, but when processing non-indexed shooting data shot with an old shooting device, shot separation is performed in advance using a known technique such as correlation between shooting screens. It is only necessary to detect and apply the processing of the first embodiment.
(実施形態2)
次に、本発明の実施形態2に係る要約映像生成装置および要約映像生成方法について説明する。実施形態2の要約映像生成装置は、人物特徴量抽出部を備えていない点で、実施形態1にて説明した要約映像生成装置1と異なる。
実施形態2では、ストリームデータを生成する撮影装置が人物特徴量抽出部を備え、人物特徴量抽出部はストリームデータから人物特徴量を抽出する。要約映像生成装置は、撮影装置が出力した人物特徴量が付加されたストリームデータを受け取り処理する。
(Embodiment 2)
Next, a summary video generation apparatus and a summary video generation method according to
In the second embodiment, a photographing apparatus that generates stream data includes a person feature amount extraction unit, and the person feature amount extraction unit extracts a person feature amount from the stream data. The summary video generation apparatus receives and processes the stream data to which the person feature amount output from the photographing apparatus is added.
図6に本発明の実施形態2に係る要約映像生成装置600のブロック図を示す。
要約映像生成装置600は、図6に示すように、記録制御部602と、要約生成再生部603とを有する。要約映像生成装置600は、撮影装置601から出力された、撮影データと撮影データの撮影条件を示す撮影情報とを含むストリームデータ、および撮影データから人物の顔の特徴に基づいて抽出された人物特徴量とを受け取り、要約映像を生成する。
FIG. 6 shows a block diagram of a summary
As shown in FIG. 6, the summary
撮影装置601は、画像入力部605、音声入力部606、画像符号化部607、音声符号化部608、多重化処理部609、データ記憶部610、人物特徴量抽出部611、撮影情報出力部612を有する。撮影情報出力部612は、時計部613、センサ入力部614を含む。
なお、実施形態2の人物特徴量抽出部611は、図1に示す実施形態1の人物特徴量抽出部8と同様のものである。
The
The person feature
記録制御部602は、ストリームデータ入力部615、人物特徴区間抽出部616、データ記録部617、再生制御処理情報生成部618を有する。
The
要約生成再生部603は、データ読出部621、再生制御処理実行部622、操作入力部623、デコード部624、データ出力部625を有する。そして、再生制御処理実行部622は、パラメータ設定処理部61と、要約再生区間選択部62と、要約映像生成部63と、再生処理部64とを有する。
なお、実施形態2の要約生成再生部603は、ストリームデータにて要約映像として使用する映像を指定する再生リストを生成する要約映像生成部(再生リスト生成部)63を有するものとして説明するが、上述の実施形態1のように、ストリームデータから別途要約映像を生成する要約映像生成部14(図2参照)を有しても勿論よい。
The summary generation /
The summary generation /
図7は、図6に示す要約映像生成装置600を実際の製品に適用した一例を示す図である。
図7に示すビデオカメラ71は、図6の撮影装置601に相当し、図7に示すレコーダ72は図6の記録制御部602に相当し、図7に示すBD等のディスク73は図6の記録媒体626に相当する。ディスク73に、ストリームデータが記録される。
FIG. 7 is a diagram showing an example in which the summary
The
また、図7に示すモニタ74、及びモニタ74が接続されたメディアプレーヤ75(DVDまたはBDプレーヤや、HDDプレーヤ、メモリプレーヤ等)、あるいはメディアプレーヤ内蔵のコンピュータ76は、図6の要約生成再生部603に相当し、ディスク73に記録されたストリームデータ等を再生する。
Further, the
次に、図6に戻り、実施形態2の要約映像生成装置600の動作および要約映像生成方法を説明する。
Next, returning to FIG. 6, the operation of the summary
撮影装置601の図示しないカメラ等の撮影部で撮影された撮影画像を、画像入力部605がデジタル画像信号に変換して画像符号化部607に送り、画像符号化部607がデジタル画像信号を符号化し、多重化処理部609へ出力する。ここで、デジタル画像信号は、画像入力部605から人物特徴量抽出部611にも送られ、人物特徴量抽出部611は、実施形態1の人物特徴量抽出部8と同様に、そのデジタル画像信号から人物特徴量を抽出する。人物特徴量は、実施形態1と同様に、例えば、撮影画像内の顔画像の有無、顔画像のサイズ、顔画像の画面上の位置、顔画像の顔の向き等を示す情報や個人識別情報などである。
An
また、音声入力部606は、撮像装置601が撮影画像と共に記録した音声信号をデジタル音声信号に変換して音声符号化部608へ出力する。音声符号化部608はデジタル音声信号を符号化し、多重化処理部609へ出力する。
多重化処理部609は、符号化されたデジタル画像信号およびデジタル音声信号を多重化し、メモリやHDD、BD等のデータ記憶部610へ出力する。
The audio input unit 606 converts the audio signal recorded together with the captured image by the
The
撮影情報出力部612は、撮影を開始した時刻や、撮影開始から撮影終了までの時間等を示す撮影時間情報を出力する時計部613と、撮影時のカメラの動きや、ズーム操作、画質設定等のカメラに実行された制御動作を示す情報や、図示しないGPS受信機やジャイロセンサ等のセンサが検出した撮影位置や撮影方位を示す情報、等の撮影環境を示す情報を出力するセンサ部614を備える。撮影情報出力部612はこれらの情報を撮影情報として、データ記憶部610へ出力する。
The shooting
データ記憶部610は、多重化処理部609で多重化された画像信号及び音声信号(以降、単に撮影データ)と、撮影データの撮影時に撮影情報出力部612が取得した撮影情報とを関連付けて、ストリームデータとして記憶する。更にストリームデータの基となる画像信号から人物特徴量抽出部611が抽出した人物特徴量を、ストリームデータと対応付けて記憶する。ここまでが撮影装置601の動作である。
The
次に記録制御部602の動作を説明する。
まず、ストリームデータ入力部615が、撮影データと撮影データに対応付けられた撮影情報等とを含むストリームデータ及びストリームデータに付加された人物特徴量を、撮影装置601のデータ記憶部610から取得する。実施形態2では、実施形態1と同様に、ストリームデータは、録画開始から録画停止までのショット毎に作成される映像データ(画像信号)および音声データ(音声信号)からなる撮影データと、撮影データと対応付けられた撮影情報とを含むデータファイルが作成される形式として説明する。なお、撮影データと撮影情報と人物特徴量等をそれぞれ別のファイルとし、互いに対応するものとして扱ってもよい。
撮影情報としては、実施形態1と同様に、撮影時間情報や、撮影位置情報等を用いることができる。更に、ショットは、撮影情報を用いて、撮影シーン毎に分類整理することができる。
Next, the operation of the
First, the stream
As shooting information, shooting time information, shooting position information, and the like can be used as in the first embodiment. Furthermore, shots can be classified and arranged for each shooting scene using shooting information.
人物特徴区間抽出部616は、実施形態1の人物特徴区間抽出部9と同様のものである。人物特徴区間抽出部616は、人物特徴量に基づいて撮影シーン内の人物特徴区間を抽出し、人物特徴区間の時間軸上の位置等を示す人物特徴区間情報と、人物特徴区間以外の区間の時間軸上の位置等を示す非人物特徴区間情報とを生成して、データ記録部617へ出力する。その際、実施形態2でも、実施形態1と同様に、非人物特徴区間を複数の非人物特徴区間に分けてもよい。
The person feature
また、再生制御処理情報生成部618は、記録対象のストリームデータの再生制御処理方法に関する再生制御処理情報を生成して、データ記録部617へ出力する。再生制御処理の詳細は後述する。
Also, the playback control processing
データ記録部617は、ストリームデータ入力部615からのストリームデータおよび人物特徴量と、人物特徴区間抽出部616で抽出された人物特徴区間情報および非人物特徴区間情報と、再生制御処理情報生成部618からの再生制御処理情報とを受け取り、各ストリームデータにストリームデータを基にして求めた各情報を対応付ける。実施形態2では、ストリームデータに人物特徴量、撮影情報、人物特徴区間情報および非人物特徴区間情報、再生制御処理情報を対応付けする。なお、要約映像の生成の際に、非人物特徴区間情報を利用しない場合には、非人物特徴区間情報のストリームデータへの対応付けは省略してもよい。以降、ストリームデータと、ストリームデータに対応付けられた上記情報を併せて、単にストリームデータ群とする。
The
データ記録部617は対応付けしたストリームデータ群を蓄積する。
データ記録部617に蓄積されたストリームデータ群を、記録媒体626に記録することもできる。図6では記録に用いる手段の図示を省略するが、既知の手段を採用すればよい。記録媒体626は、DVD、BD、HDD、半導体メモリ等のいずれでもよく、固定式でも脱着式でもよい。
以上が、記録制御部602の記録処理である。
The
The stream data group stored in the
The above is the recording process of the
(要約生成処理)
要約生成再生部603は、データ記録部617に記録されたストリームデータ群を基に、要約映像を生成して再生する。または要約生成再生部603は、記録媒体626に記録されたストリームデータ群を基にして要約映像を生成して再生してもよい。要約生成再生部603が記録媒体626に記録された情報を取得する手段は、既知の手段を採用すればよい。
以下では、要約生成再生部603がデータ記録部617からストリームデータ群を取得する場合について説明する。
(Summary generation process)
The summary generation /
Hereinafter, a case where the summary generation /
データ読出部621は、データ記録部617よりストリームデータ群を読み出す。データ読出部621が読み出したストリームデータ群は、再生制御処理実行部622へ供給される。
データ記録部617からのストリームデータ群の読み出しは、操作入力部623を介しユーザが要約映像の生成および再生を指示した場合にのみ、データ読出部621が行うよう制御してもよい。
The
The
次に、再生制御処理実行部622は、データ読出部621から出力されたストリームデータ群に含まれる再生制御処理情報に従い、ストリームデータの要約映像再生を行う。
再生制御処理実行部622内では、まず、パラメータ設定処理部61が操作入力部623より、ユーザが設定したパラメータを受け取る。ユーザは、操作入力部623に対して、要約映像を生成するストリームデータと要約生成モードおよび、要約映像を再生する時間等を示すパラメータを設定する。
パラメータ設定処理部61は、受け取ったパラメータが示すストリームデータを含むストリームデータ群をデータ読出部621から読み出す。
パラメータ設定処理部61は、読み出したストリームデータ群とパラメータを、要約再生区間選択部62に供給する。要約再生区間選択部62は、実施形態1の要約再生区間選択部13と同様のものである。
Next, the playback control
In the reproduction control
The parameter
The parameter
要約再生区間選択部62は、パラメータ設定処理部61より受け取ったパラメータに基づいて、ストリームデータの各ショットを、そのストリームデータに対応付けられている各ショットの撮影開始時刻や撮影終了時刻等の撮影情報に基づいて撮影シーンに分類する。更に、ユーザより設定された要約生成モードにより各人物特徴区間および非人物特徴区間の得点を評価し、撮影シーン毎に要約再生区間を選択する。要約映像の生成の際に非人物特徴区間情報を利用しない場合には、ストリームデータ群に非人物特徴区間情報が含まれていても非人物特徴区間情報を読み出さなくてもよい。
以下に、実施形態2の要約再生区間選択部62の詳細動作を説明する。
Based on the parameters received from the parameter
The detailed operation of the summary playback
要約再生区間選択部62は、パラメータ設定処理部61より、パラメータとストリームデータ群を受け取る。上述の通り実施形態2では、ストリームデータ群はストリームデータと、ストリームデータに対応付けられた人物特徴量、撮影情報、人物特徴区間情報、非人物特徴区間情報とを含む。
The summary playback
要約再生区間選択部62は、撮影時間情報を基にストリームデータを構成する各ショットを撮影シーンに分類する。例えば、あるシーンで撮影した後、移動し、次のシーンで撮影する、というユーザの撮影パターンを想定し、撮影時間情報を用いて、ショットが撮影された時間間隔の大きさ等により撮影シーンの区切りを決定しショットを分類する。または、ズーム操作の使用、カメラの動き、GPSなどのセンサ情報を用い、撮り方の変化に基づいてショットを分類してもよい。
The summary playback
次に、要約再生区間選択部62は、設定された要約生成モードに基づいて各人物特徴区間および非人物特徴区間の得点を評価する。以降、実施形態2では人物特徴区間および非人物特徴区間をまとめて、特徴区間として扱う。
実施形態2では、要約生成モードに複数のシーンタイプを設定する。実施形態1では、1つの要約生成モードが、1種類の人物特徴量(得点)への重み付けを示すとした。実施形態2では、シーンタイプが重み付けする人物特徴量とその程度を示す。従って1つの要約生成モードには、複数の人物特徴量への重み付けが設定される。シーンタイプの詳細は後述する。
ここで、n種類の人物特徴量Ptを用いて特徴区間を評価する際に、i番目の人物特徴量Ptに関する時刻tを含む特徴区間の得点をPitとする。設定された要約生成モードmおよびシーンタイプsでの特徴区間の評価値Vmstは、下記の式(5)により求める。
Next, the summary playback
In the second embodiment, a plurality of scene types are set in the summary generation mode. In the first embodiment, it is assumed that one summary generation mode indicates weighting to one type of person feature (score). In the second embodiment, the person feature amount weighted by the scene type and its degree are shown. Accordingly, weighting for a plurality of person feature amounts is set in one summary generation mode. Details of the scene type will be described later.
Here, when evaluating a feature section using n types of person feature quantities Pt, the score of the feature section including the time t regarding the i-th person feature quantity Pt is defined as Pit. The evaluation value Vmst of the feature section in the set summary generation mode m and scene type s is obtained by the following equation (5).
ここで、Cmsiは、要約生成モードmおよびシーンタイプsのi番目の人物特徴量Pitの重み付け係数、Amsiは初期設定値である。初期設定値Amsiは、0等の所定の値でよい。 Here, Cmsi is a weighting coefficient of the i-th person feature quantity Pit of the summary generation mode m and the scene type s, and Amsi is an initial setting value. The initial setting value Amsi may be a predetermined value such as 0.
また、実施形態1と同様に、子供のアップシーンを優先する子供中心の要約生成モードや、風景と人物とが映っており、人物の顔の向きが正面向きである撮影シーンを優先する記念撮影の要約生成モード等の、要約生成モードmの設定により、評価値Vmstを算出し、各要約生成モードmに応じた要約映像を生成できる。 Similarly to the first embodiment, a child-centered summary generation mode that prioritizes children's upscenes, and a commemorative photo that prioritizes shooting scenes in which a landscape and a person are reflected and the face of the person is facing the front. An evaluation value Vmst can be calculated by setting the summary generation mode m such as the summary generation mode, and a summary video corresponding to each summary generation mode m can be generated.
ここで、実施形態2で用いる式(5)は、シーンタイプsを考慮して特徴区間の評価値Vmstを算出する。一方実施形態1では、式(4)を用いて評価値Vmtを求めたが、式(4)ではシーンタイプsを考慮していない。
つまり、実施形態1では要約生成モードm毎に、式(4)により複数の映像区間から代表区間を選択する為の評価値を算出する。実施形態1の要約生成モードmは、1種類の人物特徴量に対する重み付けを示すものである。そして代表区間以外の適当な区間をつなぎ区間として選択し、要約映像を構成する。
Here, Expression (5) used in the second embodiment calculates the evaluation value Vmst of the feature section in consideration of the scene type s. On the other hand, in the first embodiment, the evaluation value Vmt is obtained using Expression (4), but the scene type s is not considered in Expression (4).
That is, in the first embodiment, for each summary generation mode m, an evaluation value for selecting a representative section from a plurality of video sections is calculated according to Expression (4). The summary generation mode m of
これに対し、実施形態2では要約生成モードmに複数のシーンタイプsを設定する。設定したシーンタイプs毎の評価値Vmstを式(5)により算出し、各シーンタイプsでの評価値Vmstが高い映像区間からの映像を組み合わせて、要約映像を構成する。 On the other hand, in the second embodiment, a plurality of scene types s are set in the summary generation mode m. An evaluation value Vmst for each set scene type s is calculated by Expression (5), and a summary video is configured by combining videos from video sections having a high evaluation value Vmst for each scene type s.
例えば、子供中心の要約生成モードmであれば、次のような3つのシーンタイプsを想定できる。
シーンタイプ1.画面の中心に人が正面向きで大きく映っている
シーンタイプ2.人が大きく映っているが画面の端の方で向きにも変化がある
シーンタイプ3.人が大きく映ってはいない
For example, in the child-centric summary generation mode m, the following three scene types s can be assumed.
Scene type A scene type in which a person appears in front of the screen. A scene type in which people appear large but the direction of the image changes at the edge of the screen. People are not reflected
つまり、実施形態2では、上述のように、要約生成モードm毎に任意のシーンタイプsを設定して、要約生成モード毎に複数のシーンタイプsで評価した映像区間から抽出した映像を組み合わせて変化のある要約映像を構成することができる。 That is, in the second embodiment, as described above, an arbitrary scene type s is set for each summary generation mode m, and videos extracted from video sections evaluated with a plurality of scene types s are combined for each summary generation mode. A summary video with changes can be constructed.
上述したように実施形態1は、実施形態2に比べ、評価値の種類が少ないため処理がシンプルとなる。一方、実施形態2は、実施形態1に比べ、要約生成モードmに複数のシーンタイプsを設定するため、複数の評価方法で特徴区間を評価し、そこから抽出した映像を組み合わせて要約映像を生成できる。そのため、ユーザが選択した要約生成モードmに沿って、映像の変化をきめ細かくコントロールすることができる。 As described above, since the first embodiment has fewer types of evaluation values than the second embodiment, the processing is simple. On the other hand, compared to the first embodiment, the second embodiment sets a plurality of scene types s in the summary generation mode m. Therefore, the feature section is evaluated by a plurality of evaluation methods, and the extracted video is combined with the summary video. Can be generated. Therefore, it is possible to finely control the change of the video along the summary generation mode m selected by the user.
要約再生区間選択部62は、実施形態1の要約再生区間選択部13と同様のものであり、撮影シーンの撮影時間を基に要約映像に使用するカット数を決定する。そして、複数のシーンタイプs毎に評価値算出パラメータを設定して各映像区間の評価値Vmstを算出し、評価値Vmstを基にして所定のカット数になるまで要約映像に使用する映像区間を選択する。映像区間の選択は、シーンタイプs毎の評価を巡回しながら行うことが好ましい。
The summary playback
要約再生区間選択部62は更に、選択された映像区間から更に所定時間の映像区間を要約再生区間として抽出する。
The summary playback
実施形態2における、要約再生区間の選択手順を、ショットの一例を用いて説明する。 The summary playback section selection procedure in the second embodiment will be described using an example of a shot.
図8は、8ショット分に対応する撮影情報を一例として示す。
図8に示す例では、ショット番号S1〜S8の8ショットがある。それぞれのショットに対して、撮影開始日時と、撮影時間と、前のショットとの撮影間隔、等の撮影情報が付加され要約再生区間選択部62に記憶されている。
FIG. 8 shows imaging information corresponding to 8 shots as an example.
In the example shown in FIG. 8, there are 8 shots with shot numbers S1 to S8. Shooting information such as a shooting start date and time, a shooting time, and a shooting interval between previous shots is added to each shot and stored in the summary playback
図9は要約再生区間選択部62の要約再生区間選択処理を示す。図8に示すショット例を使用して説明する。
要約再生区間選択部62は、複数(ここでは、8つ)のショットS1〜S8を例えば各ショット間の撮影間隔に基づいて撮影シーンに分ける。例えば、30分、1時間、3時間等の所定の閾値を設け、各ショット間の撮影間隔が閾値より小さいものをまとめて一つの撮影シーンとする。図8に示すショットS1〜S8の時系列の撮影ショットを閾値を30分としてまとめる場合、ショットS1とショットS2との撮影間隔は1分29秒であるため、同じ撮影シーンとする。次に、ショットS2とショットS3との撮影間隔は1時間25秒であるため、ショットS2とショットS3とは別の撮影シーンとする。同様にショットS4〜S8についても判断する。
従って、図8に示す例ではショットS1とS2の撮影シーン1と、ショットS3〜S5の撮影シーン2と、ショットS6〜S8の撮影シーン3と、いう3つの撮影シーン1〜3に分けられる。撮影シーン1〜3について図9(a)、(b)に示す。なお、ショットの分け方は所定の閾値と比較しなくてもよく、相対的に撮影間隔のあいている(大きい)ショット間を分けてもよい。また、位置情報を取得可能な場合は、撮影位置のまとまりによって分けてもよい。
FIG. 9 shows the summary playback section selection processing of the summary playback
The summary playback
Therefore, in the example shown in FIG. 8, the
次に、要約再生区間選択部62は、撮影シーン1〜3毎の撮影時間を基に、要約再生用に抽出するカット数を決定する。図8に示す各ショットS1〜S8の撮影時間に基づいた撮影シーン1〜3の撮影時間を、図9(c)に示す。例えば、撮影シーン1であれば、撮影時間が1分31秒のショットS1と1分35秒のショットS2とからなるため、撮影シーン1の撮影時間は3分06秒(3:06)となる。同様に撮影シーン2の撮影時間は2分16秒(2:16)、撮影シーン3の撮影時間は1分45秒(1:45)となる。
要約再生区間選択部62は更に、各撮影シーンの撮影時間に応じて、抽出カット数を決定する。図9(c)に示すように、撮影シーン1の撮影時間が最も長く、撮影シーン2、撮影シーン3の順に撮影時間が短い。ここでは、図9(d)に示すように撮影シーン1から4カットを抽出し、撮影シーン2からは3カット、撮影シーン3からは2カット、と撮影時間の長さに準じて抽出カット数を決定する。
Next, the summary playback
The summary playback
次に、要約再生区間選択部62は、撮影シーン1〜3毎に、それぞれ要約として抽出する区間である要約再生区間(カット)を選択する。
実施形態2では、複数のシーンタイプを設定し、各シーンタイプでショットSを構成する映像区間を評価して評価値を求める。シーンタイプは、映像の評価に際して、どの人物特徴量にどの程度重み付けをするかを設定したものであり、用いる人物特徴量および重み付けはシーンタイプ毎に異なる。
要約再生区間選択部62は、各シーンタイプで評価した映像区間の評価値を基に、抽出する映像区間を選択する。例えば図9(e)〜(g)に示すように各シーンタイプで評価した評価値が高い映像区間を、先に定めた抽出カット数と同数となるまで選択する。要約再生区間選択部62は選択した映像区間から、それぞれ所定時間(例えば、5秒〜10秒)のカットを抽出する。
なお、要約再生区間選択部62は、シーンタイプを設けずに、撮影シーン毎に要約再生区間または要約映像を生成するようにしても勿論よい。
Next, the summary playback
In the second embodiment, a plurality of scene types are set, and an evaluation value is obtained by evaluating a video section constituting the shot S with each scene type. The scene type is a set of how much weight is assigned to which person feature when evaluating a video, and the person feature and weight used differ depending on the scene type.
The summary playback
Of course, the summary playback
図9を用いて、実施形態2の要約再生区間の選択方法を説明する。
要約再生区間選択部62が、ショットS1とS2をシーンタイプ1〜シーンタイプ3でそれぞれ評価した評価値を図9(e)〜(g)に示す。要約再生区間選択部62は、撮影シーン1の抽出カット数を4としたので、図9(e)に示すシーンタイプ1(ST1)で評価したショットS1とショットS2、図9(f)に示すシーンタイプ2(ST2)で評価したショットS1とショットS2、図9(g)に示すシーンタイプ3(ST3)で評価したショットS1とショットS2、の中から合わせて4カットを抽出する。
要約再生区間選択部62はまず、ST1〜ST3において、得点の最も高い映像区間をそれぞれ選択し、更にST1から2番目に得点の高い映像区間を選択して、4つのカットを抽出する映像区間を選択する。すなわち、図9(e)に示すST1では、最も高い得点70を示す映像区間と、2番目に高い得点50を示す映像区間を選択し、図9(f)に示すST2では、最も高い得点60を示す映像区間を選択し、図9(g)に示すST3では、最も高い得点0を示す映像区間を選択した。選択した映像区間は、図9(e)〜(g)に数字と矢印とを付して示す。数字は、要約再生区間選択部62が映像区間を選択した順を示すが、これに限るものではない。また実施形態2では、ST1から順に映像区間の選択を行うが、これに限るものではない。
The summary playback section selection method of the second embodiment will be described with reference to FIG.
FIGS. 9E to 9G show evaluation values obtained by the summary playback
First, in ST1 to ST3, the summary playback
要約再生区間選択部62は最後に、選択した4つの映像区間それぞれから、図9(h)に斜線で示す所定時間のカットを抽出し、要約再生区間1〜4とする。各映像区間からの所定時間のカットの抽出方法は、各映像区間の開始時間から所定時間でもよいし、各映像区間の中心から所定時間でもよく、特に限定されない。実施形態2では、各映像区間の撮影時間における中心を含む所定時間の映像を、選択したカットとして抽出する。
抽出された要約再生区間1〜4は、要約映像生成部63に出力される。なお、要約再生区間選択部62は抽出した要約再生区間に基づいて、つなぎ区間を抽出してもよい。つなぎ区間の抽出は、実施形態1において説明した抽出例のいずれかを採用する。つなぎ区間を抽出した場合は、要約再生区間およびつなぎ区間を要約映像生成部63に出力する。
Finally, the summary playback
The extracted
また、撮影シーン2では抽出カット数を3カットとしたので、図9(e)〜図9(g)にそれぞれ示すように、ST1〜ST3から最も得点の高い映像区間、すなわちST1の得点50の区間と、ST2の得点50の区間と、ST3の得点0の区間をそれぞれ1つ選択した。図9(h)に斜線で示す、選択した3つの映像区間それぞれから抽出した所定時間のカットを要約再生区間1〜3とする。
Further, since the number of cuts to be extracted is set to 3 in the
更に、撮影シーン3では、抽出カット数が2カットなので、ST1とST2から最も得点の高い映像区間、すなわちST1の得点30の区間と、ST2の得点30の区間を選択した。ST1とST2から映像区間を1つずつ選択したことで、抽出カット数2と同数の映像区間を選択したので、ST3で評価したものからは映像区間を選択しない。図9(h)に斜線で示す、選択した2つの映像区間それぞれから抽出した所定時間のカットを、要約再生区間1、2とする。
Furthermore, in the
図10(a)〜(c)はそれぞれ、シーンタイプ1〜3において高評価と判定される映像例を示す図である。
図10(a)に示す映像は、人物が撮影画面の中心に大きく、顔が正面向きで映る特徴を有する。このような映像は人物撮影等のシーンに多く存在する。図10(b)に示す映像は、人物は撮影画面に大きく映っているが、その位置が撮影画面中心からずれて顔の向きも傾いている特徴を有する。このような映像は子供撮影や運動撮影等のシーンに多く存在する。図10(c)に示す映像は、人物が撮影画面内で小さく映っており、しかも中心からずれている特徴を有する。このような映像は風景重視撮影のシーンに多く存在する。
FIGS. 10A to 10C are diagrams illustrating examples of videos that are determined to be highly evaluated in
The video shown in FIG. 10A has a feature that a person is large at the center of the shooting screen and a face is projected in front. There are many such images in scenes such as portrait photography. The video shown in FIG. 10B has a feature that a person is greatly reflected on the shooting screen, but the position is shifted from the center of the shooting screen and the face is inclined. Many such images exist in scenes such as child photography and exercise photography. The video shown in FIG. 10C has a feature that a person appears small in the shooting screen and is offset from the center. There are many such images in scenes for landscape-oriented photography.
図11は、図10(a)〜(c)の特徴を有する映像における、各人物特徴量Ptの得点例を示す。実施形態2では、撮影画面における人物の顔のサイズ、顔の位置、顔の傾きの3種類の顔情報Ltに基づいた、3種類の人物特徴量Ptから得点を算出する。
図10(a)の特徴を有する映像では、サイズ、位置及び傾きの全ての人物特徴量の得点が80である。図10(b)の特徴を有する映像では、サイズの得点が80、位置の得点が20、傾きの得点が50、図10(c)の特徴を有する映像では、サイズの得点が10、位置の得点が20、傾きの得点が80である。
FIG. 11 shows a score example of each person feature amount Pt in the video having the features of FIGS. 10 (a) to 10 (c). In the second embodiment, the score is calculated from the three types of person feature Pt based on the three types of face information Lt of the face size, face position, and face inclination of the person on the shooting screen.
In the video having the feature of FIG. 10A, the score of all the human feature quantities of size, position and inclination is 80. In the image having the feature of FIG. 10B, the size score is 80, the position score is 20, the inclination score is 50, and in the image having the feature of FIG. 10C, the size score is 10, The score is 20, and the score of inclination is 80.
図12は、以下の式(6)で示す評価値計算式に用いるパラメータCsi、Asi(s=1〜n)の、シーンタイプST1〜ST3毎の重み付けの一例を示している。 FIG. 12 shows an example of the weighting for each of the scene types ST1 to ST3 of the parameters Csi and Asi (s = 1 to n) used in the evaluation value calculation formula shown by the following formula (6).
式(6)に示す評価値計算式は、シーンタイプSTへの適合度を示す評価値Vsを算出する。 The evaluation value calculation formula shown in Expression (6) calculates an evaluation value Vs indicating the degree of conformity to the scene type ST.
ここで、式(6)に示す評価値計算式において、パラメータCsi、Asiは、図12に示す人物特徴量毎の重み付けパラメータ、Piは、図11に示す各人物特徴量Ptの得点である。
n種類の人物特徴量Ptのうち、i番目の人物特徴量Ptの得点をPiとする。また同様にi番目の人物特徴量Ptの、重み付け係数をCsi、初期設定値をAsiとする。
Here, in the evaluation value calculation formula shown in Formula (6), parameters Csi and Asi are weighting parameters for each human feature quantity shown in FIG. 12, and Pi is a score of each person feature quantity Pt shown in FIG.
Of the n types of person feature Pt, the score of the i-th person feature Pt is Pi. Similarly, for the i-th person feature Pt, the weighting coefficient is Csi and the initial setting value is Asi.
図12より、シーンタイプ1でのパラメータC1i、A1iは、人物特徴量が顔画像のサイズの場合は(1,0)、顔画像の位置の場合は(1,0)、顔画像の傾きの場合は(1,0)である。シーンタイプ2でのパラメータC2i、A2iは、サイズの場合(1,0)、位置の場合(−1,100)、傾きの場合(−1,100)、シーンタイプ3でのパラメータC3i、A3iは、サイズの場合(−1,100)、位置の場合(−1,100)、傾きの場合(0,0)とした。
From FIG. 12, the parameters C1i and A1i in the
図13は、図10(a)〜(c)に示す映像の評価値Vsを、図12に示すパラメータCsi、Asiを用いてシーンタイプ1〜3でそれぞれ求めた一例を示す。
図10(a)のような人物の顔画像が撮影画面中心に位置し、かつ大きく映像の評価値Vsを式(6)の評価値計算式により求めると、シーンタイプ1の評価値Vsが最も高くなる。図10(b)のような人物の顔画像が撮影画面の端に映っており、かつ傾いているような映像、例えば、動きのある人物(子供やスポーツ選手等)を撮影した映像、の場合シーンタイプ2の評価値Vsが最も高くなる。図10(c)のような人物の顔画像が小さく、背景の占める割合が大きい映像の場合、シーンタイプ3の評価値Vsが最も高くなる。
要約再生区間選択部62は、用いる人物特徴量PtとパラメータCsi、Asiとを変更して、映像を複数のシーンタイプで評価すればよい。
FIG. 13 shows an example in which the video evaluation values Vs shown in FIGS. 10A to 10C are obtained for each of the
When the face image of a person as shown in FIG. 10A is located at the center of the shooting screen and the evaluation value Vs of the video is largely obtained by the evaluation value calculation formula of Expression (6), the evaluation value Vs of the
The summary playback
要約映像生成部63は、以上のようにして要約再生区間選択部62で抽出、選択された図9(h)に示す要約再生区間を用いて再生リストを作成する。再生リストは、撮影時刻情報に基づいた要約再生区間の再生順を示す。つなぎ区間を要約再生区間選択部62より受け取った場合は、つなぎ区間の再生順も共に示した再生リストを作成する。要約映像生成部63は、再生リストを再生処理部64へ出力する。
なお、要約映像生成部63が要約映像を生成する場合、その動作は実施形態1の要約映像生成部14と同様である。
The summary video generation unit 63 creates a playlist using the summary playback section shown in FIG. 9H extracted and selected by the summary playback
Note that when the summary video generation unit 63 generates a summary video, the operation is the same as that of the summary
再生処理部64は、要約映像生成部63から供給された再生リストに基づいて、撮影データから要約再生区間を抽出し、デコード部624に出力する。
デコード部624は、要約再生区間の撮影データをデコードしてデータ出力部625へ出力し、データ出力部625は、表示装置604へ撮影データを出力する。
Based on the playback list supplied from the summary video generation unit 63, the
The
ここで、データ出力部625は、実施形態1のデータ出力部17と同様に、要約再生区間の接続部分では、ディゾルブやフェードイン・フェードアウト効果を用いて、各区間が滑らかに再生されるようにしてもよい。また図5において説明したように、映像データにおけるつなぎ区間51Bから代表区間51Aへの切り替えタイミングより、音声データにおけるつなぎ区間52Bから代表区間52Aへの切り替えタイミングが早くなるよう、切り替え時刻の設定を調整してもよい。このようにすることで、ユーザは予め音声でつなぎ区間から代表区間への要約再生区間の移行を認識できるため、映像の切り替えを違和感なく視聴でき、短時間で内容を把握し易くなる。
Here, similarly to the
以上説明したように、実施形態2によれば、ストリームデータの撮影間隔等の撮影情報に基づいて、複数のショットを撮影シーンに分類するとともに、撮影シーン毎に複数のシーンタイプで算出した評価値を用いて要約再生区間を選択し、再生リスト(または要約映像)を生成するので、色々なタイプの要約再生区間が撮影シーン毎にバランスよく配分される。 As described above, according to the second embodiment, a plurality of shots are classified into shooting scenes based on shooting information such as a shooting interval of stream data, and evaluation values calculated with a plurality of scene types for each shooting scene. Since a summary playback section is selected using and a playlist (or summary video) is generated, various types of summary playback sections are distributed in a balanced manner for each shooting scene.
従って、かかる要約映像をユーザが視聴することにより、ユーザが全体の映像内容を把握でき、中心的な被写体を参照できることに加えて、見易く退屈しない要約映像を生成することができる。すなわち、人物中心の映像区間(シーンタイプ1)、人物の配置に変化の有る映像区間(シーンタイプ2)、人物が存在しないか中心に位置しない映像区間(シーンタイプ3)など、複数のシーンタイプでそれぞれ評価が高い映像区間から抽出したカットを組み合わせて要約映像を生成することにより、ユーザが映像内容を把握でき中心的な被写体を参照できることに加えて、再生シーンに変化を与え、見易く退屈しない、メリハリの利いた要約映像を提供することができる。 Therefore, when the user views the summary video, the user can grasp the entire video content and can refer to the central subject, and can generate a summary video that is easy to see and is not bored. That is, a plurality of scene types, such as a video section centered on a person (scene type 1), a video section where the arrangement of people changes (scene type 2), and a video section where no person exists or is not centered (scene type 3). By combining the cuts extracted from the video sections with high ratings, the summary video can be generated so that the user can grasp the video content and refer to the central subject. It is possible to provide a sharp summary video.
なお、実施形態2では、要約再生区間を選択する際に、代表区間とそのつなぎ区間というように分けて選択することはしなかったが、実施形態1のように人物特徴区間から代表区間を選択すると共に、代表区間のつなぎ区間を選択するようにしても勿論よい。
また、実施形態1では、要約再生区間を選択する際に、人物特徴区間から代表区間を選択すると共に、非人物特徴区間から代表区間のつなぎ区間を選択するように説明したが、実施形態2のように代表区間とそのつなぎ区間というように分けずに、人物特徴区間および非人物特徴区間から評価値に基づいて要約再生区間を選択するようにしても勿論よい。
In the second embodiment, when selecting the summary playback section, the representative section and its connecting section are not selected separately, but the representative section is selected from the person feature section as in the first embodiment. Of course, the connecting section of the representative sections may be selected.
In the first embodiment, when selecting the summary playback section, the representative section is selected from the person feature section, and the connecting section of the representative section is selected from the non-person feature section. Of course, the summary playback section may be selected based on the evaluation value from the person feature section and the non-person feature section without being divided into the representative section and the connecting section.
また、実施形態2においては、抽出した要約再生区間を撮影時刻順に並べて再生リストとしたが、これは一例であり、要約再生区間の再生順をシーンタイプ毎の抽出順としてもよい。これは、1つの撮影シーン内であれば、ある程度内容の一貫性が有ることと、複数のシーンタイプを順番に用いて要約再生区間を抽出すれば、同じようなカットが続くことは無いので、内容を把握しやすいことに加えて変化の有る要約映像を見ることができるためである。 In the second embodiment, the extracted summary playback sections are arranged in the order of shooting time to form a playback list. However, this is an example, and the playback order of the summary playback sections may be the extraction order for each scene type. This is because the content is consistent to some extent within one shooting scene, and if a summary playback section is extracted using a plurality of scene types in order, the same cut will not continue. This is because it is easy to grasp the contents, and it is possible to see a summary video with changes.
また、実施形態1,2においては、図2や図6等に示すように、本発明に係る要約映像生成装置を、ブロック図によりハードウェア的に構成して説明したが、本発明はこれに限るものではない。要約映像生成装置を、CPUと、本発明に係る要約映像生成方法をCPUに実行させるためのプログラムとによりソフトウエア的に構成するようにしても勿論よい。
また、実施形態2の要約映像生成装置600は、本発明における人物特徴量抽出部を備えていないが、要約映像生成装置600が人物特徴量抽出部を備える際は、実施形態1の記録制御部4と同様に、記録制御部602内に設ければよい。
In the first and second embodiments, the summary video generation apparatus according to the present invention has been described as a hardware configuration using a block diagram as shown in FIGS. 2 and 6, but the present invention is not limited thereto. It is not limited. Of course, the summary video generation device may be configured in software by a CPU and a program for causing the CPU to execute the summary video generation method according to the present invention.
The summary
また、本発明に係る要約映像生成装置は、要約映像を表示する手段を含むことは任意であり、要約映像を生成する手段まで含んでいればよい。 In addition, the summary video generation apparatus according to the present invention may optionally include means for displaying the summary video, and may include means for generating the summary video.
1、600 要約映像生成装置
8、611 人物特徴量抽出部
9、616 人物特徴区間抽出部
13、62 要約再生区間選択部
14、63 要約映像生成部
DESCRIPTION OF SYMBOLS 1,600 Summary video production | generation apparatus 8,611 Person feature-value extraction part 9,616 Person feature
Claims (9)
前記複数の映像区間から所望の映像区間を選択する要約再生区間選択部と、
前記要約再生区間選択部が選択した映像区間の映像を用いて要約映像を生成する生成部とを備え、
前記人物特徴区間抽出部は、
前記映像を前記人物特徴情報が所定の閾値以上である第1の映像区間と、前記人物特徴情報が前記閾値より小さい第2の映像区間とに分割し、
前記人物特徴情報に基づいて前記第1の映像区間および前記第2の映像区間それぞれの人物特徴を示す特徴値を求め、
前記要約再生区間選択部は、前記人物特徴区間抽出部が求めた前記特徴値に基づいて選択映像区間を選択し、
前記選択映像区間より前記要約映像に使用する第1の再生区間を抽出し、
前記生成部は、前記第1の再生区間の映像を用いて前記要約映像を生成する
ことを特徴とする要約映像生成装置。 A person feature section extraction unit that divides the video into a plurality of video sections based on the person feature information indicating the video features of the person area extracted from the video;
A summary playback section selection unit for selecting a desired video section from the plurality of video sections;
A generation unit that generates a summary video using the video of the video section selected by the summary playback section selection unit,
The person feature section extraction unit
The video is divided into a first video section in which the person feature information is greater than or equal to a predetermined threshold and a second video section in which the person feature information is smaller than the threshold,
Based on the person feature information, a feature value indicating a person feature of each of the first video section and the second video section is obtained,
The summary playback section selection unit selects a selected video section based on the feature value obtained by the person feature section extraction unit,
Extracting a first playback section to be used for the summary video from the selected video section;
The said production | generation part produces | generates the said summary image | video using the image | video of the said 1st reproduction area. The summary image generation apparatus characterized by the above-mentioned.
前記選択映像区間を、前記第1の映像区間より前記特徴値に基づいて選択し、
前記選択映像区間から前記第1の再生区間を抽出する
ことを特徴とする請求項1記載の要約映像生成装置。 The summary playback section selection unit
Selecting the selected video segment from the first video segment based on the feature value;
The summary video generation apparatus according to claim 1, wherein the first playback section is extracted from the selected video section.
前記特徴値に対する重み付けを示す要約生成モードに基づいて前記第1の映像区間および前記第2の映像区間を評価する評価値を求め、
前記選択映像区間を、前記第1の映像区間より前記評価値に基づいて選択し、
前記選択映像区間から前記第1の再生区間を抽出し、前記第1の再生区間に基づいて前記第1の映像区間および前記第2の映像区間から前記要約映像に用いる第2の再生区間を抽出し、
前記生成部は、前記第2の再生区間の映像に続けて前記第1の再生区間の映像を再生する前記要約映像を生成する
ことを特徴とする請求項1または2記載の要約映像生成装置。 The summary playback section selection unit
Obtaining an evaluation value for evaluating the first video section and the second video section based on a summary generation mode indicating weighting for the feature value;
Selecting the selected video segment from the first video segment based on the evaluation value;
The first playback section is extracted from the selected video section, and the second playback section used for the summary video is extracted from the first video section and the second video section based on the first playback section. And
3. The summary video generation apparatus according to claim 1, wherein the generation unit generates the summary video that plays back the video of the first playback section following the video of the second playback section.
前記特徴値に対する重み付けを異ならせた複数の評価方法により前記第1の映像区間および前記第2の映像区間の評価値をそれぞれ求め、
前記選択映像区間を、前記第1の映像区間および前記第2の映像区間より前記評価値に基づいて選択し、
前記選択映像区間から前記第1の再生区間を抽出する
ことを特徴とする請求項1記載の要約映像生成装置。 The summary playback section selection unit
The evaluation values of the first video section and the second video section are respectively determined by a plurality of evaluation methods with different weightings for the feature values,
Selecting the selected video section from the first video section and the second video section based on the evaluation value;
The summary video generation apparatus according to claim 1, wherein the first playback section is extracted from the selected video section.
前記映像から前記人物領域を抽出し、前記人物特徴情報を生成する人物特徴量抽出部を備える
ことを特徴とする請求項1から4のいずれか一項記載の要約映像生成装置。 The summary video generation device further includes:
The summary video generation device according to any one of claims 1 to 4, further comprising a person feature amount extraction unit that extracts the person region from the video and generates the person feature information.
前記人物特徴情報に基づいて前記第1の映像区間および前記第2の映像区間それぞれの人物特徴を示す特徴値を求め、
前記特徴値に基づいて選択映像区間を選択し、
前記選択映像区間から前記要約映像に用いる第1の再生区間を抽出し、
前記第1の再生区間の映像を用いて前記要約映像を生成する
ことを特徴とする要約映像生成方法。 The video is divided into a first video section in which the person feature information indicating the video feature of the person area extracted from the video is greater than or equal to a predetermined threshold, and a second video section in which the person feature information is smaller than the threshold And
Based on the person feature information, a feature value indicating a person feature of each of the first video section and the second video section is obtained,
Select a selected video section based on the feature value,
Extracting a first playback section used for the summary video from the selected video section;
The summary video generation method, wherein the summary video is generated using the video of the first playback section.
前記選択映像区間から前記第1の再生区間を抽出する
ことを特徴とする請求項6記載の要約映像生成方法。 Selecting the selected video segment from the first video segment based on the feature value;
The summary video generation method according to claim 6, wherein the first playback section is extracted from the selected video section.
前記選択映像区間を、前記第1の映像区間より前記評価値に基づいて選択し、
前記選択映像区間から前記第1の再生区間を抽出し、
前記第1の映像区間および前記第2の映像区間から前記第1の再生区間に基づいて前記要約映像に用いる第2の再生区間を抽出し、
前記第2の再生区間の映像に続けて前記第1の再生区間の映像を再生する前記要約映像を生成する
ことを特徴とする請求項6または7記載の要約映像生成方法。 Obtaining an evaluation value for evaluating the first video section and the second video section based on a summary generation mode indicating weighting for the feature value;
Selecting the selected video segment from the first video segment based on the evaluation value;
Extracting the first playback section from the selected video section;
Extracting a second playback section used for the summary video from the first video section and the second video section based on the first playback section;
The summary video generation method according to claim 6 or 7, wherein the summary video for generating the video of the first playback section is generated following the video of the second playback section.
前記選択映像区間を、前記第1の映像区間および前記第2の映像区間より前記評価値に基づいて選択し、
前記選択映像区間から前記第1の再生区間を抽出する
ことを特徴とする請求項6記載の要約映像生成方法。 The evaluation values of the first video section and the second video section are respectively determined by a plurality of evaluation methods with different weightings for the feature values,
Selecting the selected video section from the first video section and the second video section based on the evaluation value;
7. The summary video generation method according to claim 6, wherein the first playback section is extracted from the selected video section.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010006670A JP5370170B2 (en) | 2009-01-15 | 2010-01-15 | Summary video generation apparatus and summary video generation method |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009006454 | 2009-01-15 | ||
JP2009006454 | 2009-01-15 | ||
JP2010006670A JP5370170B2 (en) | 2009-01-15 | 2010-01-15 | Summary video generation apparatus and summary video generation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010187374A true JP2010187374A (en) | 2010-08-26 |
JP5370170B2 JP5370170B2 (en) | 2013-12-18 |
Family
ID=42767712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010006670A Active JP5370170B2 (en) | 2009-01-15 | 2010-01-15 | Summary video generation apparatus and summary video generation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5370170B2 (en) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012114561A (en) * | 2010-11-22 | 2012-06-14 | Casio Comput Co Ltd | Object detection device, object detection method and program |
WO2012086616A1 (en) * | 2010-12-22 | 2012-06-28 | 株式会社Jvcケンウッド | Video processing device, video processing method, and video processing program |
WO2013186958A1 (en) * | 2012-06-13 | 2013-12-19 | 日本電気株式会社 | Video degree-of-importance calculation method, video processing device and control method therefor, and storage medium for storing control program |
US9013604B2 (en) | 2011-05-18 | 2015-04-21 | Intellectual Ventures Fund 83 Llc | Video summary including a particular person |
JP2015171073A (en) * | 2014-03-10 | 2015-09-28 | 国立大学法人 筑波大学 | Summary video data creation system, method and computer program |
JP2016001821A (en) * | 2014-06-12 | 2016-01-07 | 富士フイルム株式会社 | Content reproduction system, server, portable terminal, content reproduction method, program, and recording media |
JP2016517646A (en) * | 2013-03-08 | 2016-06-16 | トムソン ライセンシングThomson Licensing | Method and apparatus for automatic video segmentation |
JP2016119590A (en) * | 2014-12-22 | 2016-06-30 | ブラザー工業株式会社 | Moving image server device and scene extraction program |
JP2018157293A (en) * | 2017-03-16 | 2018-10-04 | カシオ計算機株式会社 | Moving image processing device, moving image processing method, and program |
JP2020068468A (en) * | 2018-10-24 | 2020-04-30 | ヤフー株式会社 | Generation device, generation method, and generation program |
JP2020079982A (en) * | 2018-11-12 | 2020-05-28 | 株式会社日本経済新聞社 | Tagging device for moving images, method, and program |
JPWO2021171563A1 (en) * | 2020-02-28 | 2021-09-02 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005277531A (en) * | 2004-03-23 | 2005-10-06 | Seiko Epson Corp | Moving image processing apparatus |
WO2008146616A1 (en) * | 2007-05-25 | 2008-12-04 | Nec Corporation | Image-sound section corresponding device, method and program |
-
2010
- 2010-01-15 JP JP2010006670A patent/JP5370170B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005277531A (en) * | 2004-03-23 | 2005-10-06 | Seiko Epson Corp | Moving image processing apparatus |
WO2008146616A1 (en) * | 2007-05-25 | 2008-12-04 | Nec Corporation | Image-sound section corresponding device, method and program |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012114561A (en) * | 2010-11-22 | 2012-06-14 | Casio Comput Co Ltd | Object detection device, object detection method and program |
WO2012086616A1 (en) * | 2010-12-22 | 2012-06-28 | 株式会社Jvcケンウッド | Video processing device, video processing method, and video processing program |
US9013604B2 (en) | 2011-05-18 | 2015-04-21 | Intellectual Ventures Fund 83 Llc | Video summary including a particular person |
KR101531783B1 (en) * | 2011-05-18 | 2015-06-25 | 인텔렉츄얼 벤처스 펀드 83 엘엘씨 | Video summary including a particular person |
WO2013186958A1 (en) * | 2012-06-13 | 2013-12-19 | 日本電気株式会社 | Video degree-of-importance calculation method, video processing device and control method therefor, and storage medium for storing control program |
JP2016517646A (en) * | 2013-03-08 | 2016-06-16 | トムソン ライセンシングThomson Licensing | Method and apparatus for automatic video segmentation |
JP2015171073A (en) * | 2014-03-10 | 2015-09-28 | 国立大学法人 筑波大学 | Summary video data creation system, method and computer program |
JP2016001821A (en) * | 2014-06-12 | 2016-01-07 | 富士フイルム株式会社 | Content reproduction system, server, portable terminal, content reproduction method, program, and recording media |
JP2016119590A (en) * | 2014-12-22 | 2016-06-30 | ブラザー工業株式会社 | Moving image server device and scene extraction program |
JP2018157293A (en) * | 2017-03-16 | 2018-10-04 | カシオ計算機株式会社 | Moving image processing device, moving image processing method, and program |
JP2020068468A (en) * | 2018-10-24 | 2020-04-30 | ヤフー株式会社 | Generation device, generation method, and generation program |
JP7133433B2 (en) | 2018-10-24 | 2022-09-08 | ヤフー株式会社 | Generation device, generation method, generation program |
JP2020079982A (en) * | 2018-11-12 | 2020-05-28 | 株式会社日本経済新聞社 | Tagging device for moving images, method, and program |
JPWO2021171563A1 (en) * | 2020-02-28 | 2021-09-02 | ||
WO2021171563A1 (en) * | 2020-02-28 | 2021-09-02 | 日本電気株式会社 | Billing control device, billing method, and non-transitory computer-readable medium |
Also Published As
Publication number | Publication date |
---|---|
JP5370170B2 (en) | 2013-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5370170B2 (en) | Summary video generation apparatus and summary video generation method | |
US8170269B2 (en) | Image processing apparatus, image processing method, and program | |
JP6267961B2 (en) | Image providing method and transmitting apparatus | |
US7853897B2 (en) | Information processing apparatus and method, and program | |
JP4525558B2 (en) | Information processing apparatus, imaging apparatus, information processing method, and computer program | |
JP5474062B2 (en) | Content reproduction apparatus, content reproduction method, program, and integrated circuit | |
US8009232B2 (en) | Display control device, and associated method of identifying content | |
JP2002142189A (en) | Image processor, image processing method, and storage medium | |
US20120020643A1 (en) | Thumbnail generating apparatus and thumbnail generating method | |
JP4986886B2 (en) | Imaging apparatus, image reproducing apparatus, imaging control method, and image reproducing method | |
JP2007336283A (en) | Information processor, processing method and program | |
JP2010232814A (en) | Video editing program, and video editing device | |
JP2009004999A (en) | Video data management device | |
JP4289326B2 (en) | Information processing apparatus and method, photographing apparatus, and program | |
JP2008178090A (en) | Video processing apparatus | |
JP4296145B2 (en) | Playback apparatus and method | |
JP2007060060A (en) | Reproduction system, reproducing apparatus, reproducing method, information processing apparatus, information processing method, and program | |
JP4923517B2 (en) | Imaging device, imaging method, and semiconductor device | |
JP2008199330A (en) | Moving image management apparatus | |
JP2010263374A (en) | Recording and reproducing device and recording and reproducing method | |
JP2009010839A (en) | Image data reproduction apparatus and image data reproduction method | |
JP2010034918A (en) | Moving image reproducing apparatus | |
JP2011234180A (en) | Imaging apparatus, reproducing device, and reproduction program | |
JP4609711B2 (en) | Image processing apparatus and method, and program | |
JP2008152871A (en) | Information recording and reproducing device and reproducing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20111012 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120329 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130604 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130611 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130820 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5370170 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |