JP2011044871A - シーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバ - Google Patents
シーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバ Download PDFInfo
- Publication number
- JP2011044871A JP2011044871A JP2009191222A JP2009191222A JP2011044871A JP 2011044871 A JP2011044871 A JP 2011044871A JP 2009191222 A JP2009191222 A JP 2009191222A JP 2009191222 A JP2009191222 A JP 2009191222A JP 2011044871 A JP2011044871 A JP 2011044871A
- Authority
- JP
- Japan
- Prior art keywords
- shot
- scene
- score
- label
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
【課題】本発明は、映像コンテンツにおけるシーンの内容に合致したラベルを生成して、ユーザに分かり易く提示できるようにする。
【解決手段】フレーム画像F3の画像特徴量FSPを用いて画像内容を表す各クラスのクラススコアSC1〜SC6をフレームスコアFSCとして算出し、ショット区切点までのフレームスコアFSCに基づいてクラス毎のクラススコアのクラス平均値をショットSHTのショットスコアSHCとして算出し、単一もしくは複数のショットスコアSHCに基づいてショットSHTのショットラベルを生成し、複数のショットSHTのショットラベルに基づいてシーンのシーン区切点を検出する共に、その複数のショットラベルに基づいてシーンラベルを生成することができるので、映像コンテンツにおけるシーンの内容に合致したシーンラベルを一段と正確に生成することができる。
【選択図】図5
【解決手段】フレーム画像F3の画像特徴量FSPを用いて画像内容を表す各クラスのクラススコアSC1〜SC6をフレームスコアFSCとして算出し、ショット区切点までのフレームスコアFSCに基づいてクラス毎のクラススコアのクラス平均値をショットSHTのショットスコアSHCとして算出し、単一もしくは複数のショットスコアSHCに基づいてショットSHTのショットラベルを生成し、複数のショットSHTのショットラベルに基づいてシーンのシーン区切点を検出する共に、その複数のショットラベルに基づいてシーンラベルを生成することができるので、映像コンテンツにおけるシーンの内容に合致したシーンラベルを一段と正確に生成することができる。
【選択図】図5
Description
本発明は、シーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバに関し、例えばハードディスク内蔵のブルーレイディスクレコーダ及び映像コンテンツを配信するコンテンツ配信サーバに適用して好適なものである。
従来、ハードディスク内蔵のブルーレイディスクレコーダではテレビ番組をハードディスクに録画して再生する際、テレビ番組における画像の色信号に対するヒストグラムを用いて意味のある画像と無い画像とを判別し、意味のある画像をサムネイル表示するものがある(例えば特許文献1参照)。
また、ハードディスクドライブが内蔵されたテレビジョン受像機では、テレビ番組における一定時間間隔の画面をインデックス画像としてサムネイル表示するものがある(例えば特許文献2参照)。
さらに、記録再生装置としては、画像、音声を解析することにより番組の盛り上がり部分や、シーンチェンジ後の画像及びコマーシャルの直後の画像を抽出し、これらを基にサムネイル画像を生成してサムネイル表示するものがある(例えば特許文献3参照)。
ところで上述した特許文献1乃至3では、インデックスとして提示されたサムネイル画像の箇所が必ずしも内容に沿って適切に分割されているとは限らないので、サムネイル表示によりシーンの内容を正確に把握させることが出来ないという問題があった。
また上述した特許文献1乃至3では、サムネイル表示がシーンの内容別に分けられているのではなく、一定時間間隔(特許文献2)もしくは必ずしも内容を表していない比較的低レベルの特徴に基づく間隔(特許文献1及び3)に分けられているに過ぎないため、複数のテレビ番組から同種の内容のシーン(例えば野球のシーン)ばかりを集約して提示し得ないという問題があった。
本発明は以上の点を考慮してなされたもので、映像コンテンツにおけるシーンの内容に合致したラベルを生成して、ユーザに分かり易く提示し得るシーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバを提案しようとするものである。
かかる課題を解決するため本発明のシーンラベル生成装置においては、映像コンテンツを構成している複数のフレーム画像から選択した任意のフレーム画像の画像特徴量を抽出する画像特徴量抽出手段と、画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出すると共に、当該フレーム画像のタイムコードを取得するフレームスコア算出手段と、映像コンテンツを構成している複数のフレーム画像について隣接フレーム画像間の変化量が所定の閾値を超えたときに一つの映像単位であるショットのショット区切点を検出するショット区切点検出手段と、ショット区切点までのフレームスコアに基づいてクラス毎のクラススコアのクラス平均値をショットのショットスコアとして算出すると共に、ショット区切点のタイムコードを取得するショットスコア算出手段と、単一もしくは複数の上記ショットスコアに基づいて上記ショットのショットラベルを生成するショットラベル生成手段と、複数のショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、当該シーン区切点までの複数のショットラベルに基づいてシーンラベルを生成するシーンラベル生成手段とを設けるようにする。
これにより、フレーム画像の画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出し、ショット区切点までのフレームスコアに基づいてクラス毎のクラススコアのクラス平均値をショットのショットスコアとして算出し、単一もしくは複数のショットスコアに基づいてショットのショットラベルを生成し、複数のショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、その複数のショットラベルに基づいてシーンラベルを生成することができるので、映像コンテンツにおけるシーンの内容に合致したシーンラベルを一段と正確に生成することができる。
また本発明のシーンラベル生成方法においては、画像特徴量抽出手段により、映像コンテンツを構成している複数のフレーム画像から選択した任意のフレーム画像の画像特徴量を抽出する画像特徴量抽出ステップと、フレームスコア算出手段により、画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出すると共に、当該フレーム画像のタイムコードを取得するフレームスコア算出ステップと、ショット区切点検出手段により、映像コンテンツを構成している複数のフレーム画像について隣接フレーム画像間の変化量が所定の閾値を超えたときに一つの映像単位であるショットのショット区切点を検出するショット区切点検出ステップと、ショットスコア算出手段により、ショット区切点までのフレームスコアに基づいてクラス毎のクラススコアのクラス平均値をショットのショットスコアとして算出すると共に、ショット区切点のタイムコードを取得するショットスコア算出ステップと、ショットラベル生成手段により、単一もしくは複数のショットスコアに基づいてショットのショットラベルを生成するショットラベル生成ステップと、シーンラベル生成手段により、複数のショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、当該シーン区切点までの複数のショットラベルに基づいてシーンラベルを生成するシーンラベル生成ステップとを有するようにする。
これにより、フレーム画像の画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出し、ショット区切点までのフレームスコアに基づいてクラス毎のクラススコアのクラス平均値をショットのショットスコアとして算出し、単一もしくは複数のショットスコアに基づいてショットのショットラベルを生成し、複数のショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、その複数のショットラベルに基づいてシーンラベルを生成することができるので、映像コンテンツにおけるシーンの内容に合致したシーンラベルを一段と正確に生成することができる。
さらに本発明のコンテンツ配信サーバにおいては、複数の映像コンテンツを保持する記憶手段と、映像コンテンツを構成している複数のフレーム画像から選択した任意のフレーム画像の画像特徴量を抽出する画像特徴量抽出手段と、画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出すると共に、当該フレーム画像のタイムコードを取得するフレームスコア算出手段と、映像コンテンツを構成している複数のフレーム画像について隣接フレーム画像間の変化量が所定の閾値を超えたときに一つの映像単位であるショットのショット区切点を検出するショット区切点検出手段と、ショット区切点までのフレームスコアに基づいてクラス毎のクラススコアのクラス平均値をショットのショットスコアとして算出すると共に、ショット区切点のタイムコードを取得するショットスコア算出手段と、単一もしくは複数のショットスコアに基づいてショットのショットラベルを生成するショットラベル生成手段と、複数のショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、当該シーン区切点までの複数のショットラベルに基づいてシーンラベルを生成するシーンラベル生成手段とを設けるようにする。
これにより、フレーム画像の画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出し、ショット区切点までのフレームスコアに基づいてクラス毎のクラススコアのクラス平均値をショットのショットスコアとして算出し、単一もしくは複数のショットスコアに基づいてショットのショットラベルを生成し、複数のショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、その複数のショットラベルに基づいてシーンラベルを生成することができるので、映像コンテンツにおけるシーンの内容に合致したシーンラベルを一段と正確に生成することができる。
本発明によれば、フレーム画像の画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出し、ショット区切点までのフレームスコアに基づいてクラス毎のクラススコアのクラス平均値をショットのショットスコアとして算出し、単一もしくは複数のショットスコアに基づいてショットのショットラベルを生成し、複数のショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、その複数のショットラベルに基づいてシーンラベルを生成することができるので、映像コンテンツにおけるシーンの内容に合致したシーンラベルを一段と正確に生成することができ、かくして映像コンテンツにおけるシーンの内容に合致したラベルを生成して、ユーザに分かり易く提示し得るシーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバを実現することができる。
以下、発明を実施するための形態について説明する。なお、説明は以下の順序で行う。
1.実施の形態
2.他の実施の形態
1.実施の形態
2.他の実施の形態
<1.実施の形態>
[1−1.ブルーレイディスクレコーダの全体構成]
図1において、1は本発明の一実施の形態におけるハードディスク内蔵のブルーレイディスクレコーダ(以下、これをBDレコーダと呼ぶ。)を示す。
[1−1.ブルーレイディスクレコーダの全体構成]
図1において、1は本発明の一実施の形態におけるハードディスク内蔵のブルーレイディスクレコーダ(以下、これをBDレコーダと呼ぶ。)を示す。
このBDレコーダ1において、システムバス19に接続された制御部20は、CPU(Central Processing Unit)15、ROM(Read Only Memory)16及びRAM(Random Access Memory)17によって構成されている。
制御部20のCPU15は、ROM16から読み出してRAM17に立ち上げた基本プログラム及び各種アプリケーションプログラムに従って当該BDレコーダ1としての基本的なテレビ番組の録画再生処理等を実行すべく、各部を制御するようになされている。
実際上、制御部20のCPU15は、アンテナ2を介して放送局から送信されてくる地上デジタル放送波を受信し、これをフロントエンド3へ送出する。
フロントエンド3は、制御部20の制御に従って地上デジタル放送波を復調することにより地上デジタル放送信号D1を生成し、これを、スイッチ4を介してデマルチプレクサデコーダ5へ送出すると共に、スイッチ10経由で記録再生制御部11へ送出する。
デマルチプレクサデコーダ5は、地上デジタル放送信号D1に対して例えばMPEG(Moving Picture Experts Group)2−TS(Transport Stream)方式に従って分離・復号することによりビデオストリームDV2とオーディオストリームDA2とを得る。
そしてデマルチプレクサデコーダ5は、表示制御部6及び出力インタフェース7経由でビデオストリームDV2を外部のテレビジョン受像機(図示せず)へ出力することにより、当該テレビジョン受像機に対して番組映像を表示する。
同時にデマルチプレクサデコーダ5は、出力インタフェース7を介して外部のテレビジョン受像機(図示せず)へオーディオストリームDA2を出力することにより、当該テレビジョン受像機のスピーカから番組音声を出力する。
また制御部20のCPU15は、ユーザインタフェース14を介して長時間録画モードによる番組録画の命令を受けた場合、デマルチプレクサデコーダ5からビデオストリームDV2及びオーディオストリームDA2をエンコーダマルチプレクサ8へ送出する。
エンコーダマルチプレクサ8は、ビデオストリームDV2に対して例えばH264/AVC方式によって圧縮符号化することによりビデオ圧縮データDV3を生成する。またエンコーダマルチプレクサ8は、オーディオストリームDA2に対して例えばMPEG-2 AAC(Advanced Audio Coding)方式によって圧縮符号化することによりオーディオ圧縮データDA3を生成する。さらに、エンコーダマルチプレクサ8はビデオ圧縮データDV3及びオーディオ圧縮データDA3を多重化し例えばAVCHD(Advanced Video Codec High Definition)形式のストリームD4を生成する。
その後、エンコーダマルチプレクサ8は、ストリームD4をスイッチ10経由で記録再生制御部11へ送出する。
記録再生制御部11は、ストリームD4を例えばブルーレイディスク又はDVD(Digital Versatile Disc)等のディスク状記録媒体12又はハードディスクドライブ13に記録する。これにより制御部20のCPU15は、長時間録画モードによりテレビ番組を録画し得るようになされている。
一方、制御部20のCPU15は、ユーザインタフェース14を介して標準録画モードによる番組録画の命令を受けた場合、フロントエンド3から供給された地上デジタル放送信号D1をスイッチ10経由で記録再生制御部11へ直接送出する。
記録再生制御部11は、地上デジタル放送信号D1を例えばブルーレイディスク又はDVD等のディスク状記録媒体12又はハードディスクドライブ13に直接記録することにより、標準録画モードによりテレビ番組を録画し得るようになされている。
ところで制御部20のCPU15は、ディスク状記録媒体12又はハードディスクドライブ13にテレビ番組を録画する場合、ビデオストリームDV2及びオーディオストリームDA2をデマルチプレクサデコーダ5から特徴量抽出部9へ送出する。
特徴量抽出部9は、ビデオストリームDV2に対して所定の特徴量抽出処理(図2において後述する)を実行することにより画像特徴量等を求め、それを制御部20のCPU15へ供給するようになされている。
なお特徴量抽出部9は、オーディオストリームDA2に対しても所定の特徴量抽出処理を実行することが出来るが、ここでは特にビデオストリームDV2に対する特徴量抽出処理についてのみ着目して説明する。
ここで、図2に示すように、特徴量抽出部9はビデオストリームDV2をフレームサンプリング回路21に入力すると共に、ショット区切検出回路27に入力する。
フレームサンプリング回路22は、ビデオストリームDV2を例えば0.5秒間隔でサンプリングし、その結果得られるフレーム画像F3を縮小画像生成回路22へ送出する。ここで、フレームサンプリング回路22は、0.5秒のサンプリング間隔の限るものではなく、0.1秒や1.0秒等のその他種々のサンプリング間隔でサンプリングするようにしてもよい。
縮小画像生成回路22は、フレーム画像F3に基づいて所定サイズのサムネイル画像SG4Aを生成し、これを画像特徴量抽出ブロック28へ送出するようになされている。
実際上、図3に示すように縮小画像生成回路22は、例えばフレーム画像F3がアスペクト比16:9でなる1920×1080ピクセルである場合、そのフレーム画像F3を間引くことにより例えば128×96ピクセルのサムネイル画像SG4を生成する。なお、特徴量抽出部9では、縮小画像生成回路22による間引処理の前に適切な帯域制限を行うための空間フィルタを設けてもよい。
このとき縮小画像生成回路22は、128×96ピクセルのサムネイル画像SG4のうち、後述するアスペクト比4:3のフレーム画像のサムネイル画像と同じ領域を処理対象とするため、当該サムネイル画像SG4の両端部分をそれぞれ16ピクセル分だけ切り落としたサムネイル画像SG4Aを生成する。
また縮小画像生成回路22は、図3に示したように、例えばアスペクト比4:3でなる640×480ピクセルのフレーム画像F3Aが供給された場合、そのフレーム画像F3Aを間引くことにより例えば96×96ピクセルのサムネイル画像SG5Aを生成する。
このときも縮小画像生成回路22は、96×96ピクセルのサムネイル画像SG5Aの両端部分にそれぞれ16ピクセル分だけ黒い画像領域を追加し、サムネイル画像SG4Aと同じサイズの128×96ピクセルでなるサムネイル画像SG5についても生成する。
ここで特徴量抽出部9では、アスペクト比16:9の1920×1080ピクセルであるフレーム画像F3に基づき生成したサムネイル画像SG4Aを対象として画像特徴量を算出する場合を想定して説明し、サムネイル画像SG5Aを対象とした場合の説明については省略する。
画像特徴量抽出ブロック28では、サムネイル画像SG4Aのうち9分割した縦32×横32ピクセルの画像部分について順番に部分特徴量BP1、BP2、……、を抽出し、それらを全て連結することにより、サムネイル画像SG4A全体の画像特徴量SFSPを算出するようになされている。
ここで画像特徴量抽出ブロック28は、フレーム画像F3の特徴を表すうえで十分な解像度を持つ領域に処理対象を限定することにより、処理負荷の軽減と算出時間の短縮化を図るようになされている。
実際上、画像特徴量抽出ブロック28は、色ヒストグラム生成回路23、色モーメント生成回路24、エッジ方向ヒストグラム生成回路25、ローカルバイナリパターン生成回路26により構成され、縮小画像生成回路22からのサムネイル画像SG4Aをそれぞれ入力する。
色ヒストグラム生成回路23は、図4に示すように、サムネイル画像SG4Aのうち9分割した縦32×横32ピクセルの画像部分における例えばRGBの各色チャンネルに対して、個々のピクセルにおける輝度値の頻度を求めることにより、各色チャンネルのそれぞれについて16ビンのRヒストグラム、Gヒストグラム及びBヒストグラムを生成する。
なお色ヒストグラム生成回路23は、RGBの各色チャンネルに対してRヒストグラム、Gヒストグラム及びBヒストグラムを生成するのではなく、例えばY、Cb、Crの各色チャンネルに対して個々のピクセルにおける輝度値の頻度を求めることにより16ビンのYヒストグラム、Cbヒストグラム及びCrヒストグラムを生成するようにしても良い。
そして色ヒストグラム生成回路23は、RGBの各色チャンネルに対する16ビンのRヒストグラム、Gヒストグラム及びBヒストグラムを連結することにより、サムネイル画像SG4Aのうち縦32×横32ピクセルの画像部分に対する48次元(16×3=48)の部分色ヒストグラムchを生成する。
最後に色ヒストグラム生成回路23は、サムネイル画像SG4Aが縦32×横32ピクセルの画像部分が9個集合したものであるため、図3に示したように48次元の部分色ヒストグラムch(部分特徴量BP1、BP2、……、に相当する)を9個連結する。これにより色ヒストグラム生成回路23は、最終的な432次元(48×9=432)の色ヒストグラムCHを生成し、これを出力するようになされている。
なお、ここではサムネイル画像SG4が縦3個及び横3個の9領域に分割され、縦32×横32ピクセルの画像部分に対してそれぞれ部分色ヒストグラムchが生成されているので、その部分色ヒストグラムchのデータ自体には大まかな位置情報が反映されていることになる。
色モーメント生成回路24は、RGBの各色チャンネルに対する値の平均、標準偏差、3次モーメントを求めるようになされている。ここで色モーメント生成回路24は、1つの色チャンネルにつき3次元(平均、標準偏差、3次モーメント)であるため、縦32×横32ピクセルの画像部分に対しては全部で9次元(3×3=9)の部分色モーメントcm(図示せず)を生成する。
そして色モーメント生成回路24は、サムネイル画像SG4Aが縦32×横32ピクセルの画像部分が9個集合したものであるため、9次元の部分色モーメントcm(部分特徴量BP1、BP2、……、に相当する)を9個連結することにより最終的な81次元(9×9=81)の色モーメントCMを生成し、これを出力するようになされている。
この場合も、サムネイル画像SG4が縦3個及び横3個の9領域に分割され、縦32×横32ピクセルの画像部分に対してそれぞれ部分色モーメントcmが生成されているので、その部分色モーメントcmのデータ自体には大まかな位置情報が反映されていることになる。
なお色モーメントCMについては、Brief Descriptions of Visual Features for Baseline TRECVID Concept Detectors, Akira Yanagawa, Winston Hsu and Shih-Fu Chang, Columbia University ADVENT Technical Report#219-2006-5, July 25 2006(akira-Baseline-tr.pdf)に詳述されている。
エッジ方向ヒストグラム生成回路25は、縦32×横32ピクセルの画像部分における画像内のエッジ部分を検出し、そのエッジ部分の輝度の勾配を求め、その勾配が最大となる方向を分解能10度(36方向)でヒストグラム化することにより部分エッジ方向ヒストグラムedh(図示せず)を生成するようになされている。
このときエッジ方向ヒストグラム生成回路25は、エッジ部分の頻度と、非エッジ部分の頻度とを合わせて37ビンの部分エッジ方向ヒストグラムedhを得るようになされている。
ここでエッジ方向ヒストグラム生成回路25は、サムネイル画像SG4Aが縦32×横32ピクセルの画像部分が9個集合したものであるため、37次元の部分エッジ方向ヒストグラムedh(部分特徴量BP1、BP2、……、に相当する)を9個連結する。これによりエッジ方向ヒストグラム生成回路25は、最終的な333次元(37×9=333)のエッジ方向ヒストグラムEDHを生成し、これを出力するようになされている。
この場合も、サムネイル画像SG4が縦3個及び横3個の9領域に分割され、縦32×横32ピクセルの画像部分に対してそれぞれ部分エッジ方向ヒストグラムedhが生成されているので、その部分エッジ方向ヒストグラムedhのデータ自体には大まかな位置情報が反映されていることになる。
ローカルバイナリパターン生成回路26は、縦32×横32ピクセルの画像部分における画像内の対象ピクセルと、当該対象ピクセルと上下左右に隣接する8個の隣接ピクセルとの輝度の差分を2値化し、これをパターン分類して256種類のパターンを59種類に集約し、59次元の部分ローカルバイナリパターンlbp(図示せず)を生成するようになされている。
なお、詳しくは、Texture analysis with local binary patterns, Machine Vision Group, University of OULU.に詳述されている。
そしてローカルバイナリパターン生成回路26は、サムネイル画像SG4Aが縦32×横32ピクセルの画像部分が9個集合したものであるため、59次元の部分ローカルバイナリパターンlbp(部分特徴量BP1、BP2、……、に相当する)を9個連結する。これによりローカルバイナリパターン生成回路26は、最終的な531次元(59×9=531)のローカルバイナリパターンLBPを生成し、これを出力するようになされている。
この場合も、サムネイル画像SG4が縦3個及び横3個の9領域に分割され、縦32×横32ピクセルの画像部分に対してそれぞれ部分ローカルバイナリパターンlbpが生成されているので、その部分ローカルバイナリパターンlbpのデータ自体には大まかな位置情報が反映されていることになる。
このように画像特徴量抽出ブロック28では、サムネイル画像SG4Aに対してそれぞれ求めた色ヒストグラムCH、色モーメントCM、エッジ方向ヒストグラムEDH及びローカルバイナリパターンLBPを全て含め、当該フレーム画像F3に対する画像特徴量FSPとして出力し得るようになされている。
この場合、画像特徴量抽出ブロック28では、フレーム画像F3を用いるのではなく、サムネイル画像SG4Aに対して色ヒストグラムCH、色モーメントCM、エッジ方向ヒストグラムEDH及びローカルバイナリパターンLBPを求めることにより、データ処理量を大幅に軽減し、処理負荷の低減するようになされている。
一方、ショット区切検出回路27は、ビデオストリームDV2を構成している全てのフレーム画像を対象として、隣接するフレーム画像間の輝度の差分値に基づいてショットの切り替わり点を意味するショット区切点SCP(タイムコード)を検出するようになされている。
ここでショットとは、例えば撮影カメラがスイッチ(切り換えられた)されたときに映像の内容が大きく切り替わるが、そのように映像の内容が大きく切り替わるまでの一つの単位を示す。
このショット区切検出回路27では、映像の内容が何時大きく切り替わるのか分からないために、ビデオストリームDV2を構成している全てのフレーム画像を対象としてショット区切点SCP(タイムコード)を検出して出力する。
従って特徴量抽出部9では、ショットに対するサムネイル画像SG4A、画像特徴量FSP及びショット区切点SCPを、ビデオストリームDV2における特徴量として出力し得るようになされている。
これにより制御部20のCPU15は、ショットに対するサムネイル画像SG4A、画像特徴量FSP及びショット区切点SCPを用いてビデオストリームDV2に含まれる複数のシーンに対して各シーンが何であるか(例えば、ジャンル、シーン内容等)を示すシーンラベルを確定し、それを用いてシーンインデックスを生成するようになされている。
このようにブルーレイディスクレコーダ1における制御部20のCPU15が、シーンインデックスを生成するまでの処理工程を、次に説明する。
[1−2.シーンインデックス生成処理手順]
ブルーレイディスクレコーダ1における制御部20のCPU15は、図5に示すように、ルーチンRT1の開始ステップから入って次のステップSP1へ移る。
ブルーレイディスクレコーダ1における制御部20のCPU15は、図5に示すように、ルーチンRT1の開始ステップから入って次のステップSP1へ移る。
ステップSP1において制御部20のCPU15は、シーンインデックス生成過程においてデータを保持するハードディスクドライブ13や、当該データを保持する際にバッファとして用いるRAM17の所定領域を予め初期化し、次のステップSP2へ移る。
ステップSP2において制御部20のCPU15は、特徴量抽出部9により、ビデオストリームDV2を構成しているフレーム画像F3を用いてサムネイル画像SG4Aを生成し、ハードディスクドライブ13に保存した後、次のステップSP3へ移る。
ここで、図6におけるステップSP2のサブルーチンに示すように、ステップSP21において制御部20のCPU15は、特徴量抽出部9のフレームサンプリング回路21を介して、ビデオストリームDV2から0.5秒間隔でサンプリングしたフレーム画像F3を取得し、次のステップSP22へ移る。
ステップSP22において制御部20のCPU15は、その取得したフレーム画像F3に基づいて所定サイズのサムネイル画像SG4A(図3)を生成し、そのときのフレーム画像F3に付されているタイムコードを取得した後、次のステップSP23へ移る。
ステップSP23において制御部20のCPU15は、そのサムネイル画像SG4A及びタイムコードをハードディスクドライブ13の所定領域に保存した後、次のステップSP3(図5)へ移る。
この場合、制御部20のCPU15は、図7(A)に示すように、タイムコードTCと、サムネイル画像SG4Aを構成するピクセルデータP1、P2、……、P10、P11、……、Pn−1、Pnとを対応付けてハードディスクドライブ13に保存する。
ステップSP3(図5)において制御部20のCPU15は、フレーム画像F3のフレームスコアを算出し、次のステップSP4へ移る。
ここでフレームスコアとは、そのフレーム画像F3の画像内容が例えば「野球」、「サッカー」、「ゴルフ」、「相撲」、「その他のスポーツ」、「非スポーツ」の何れのクラスであるかを示すクラスラベルの確からしさを表した値であり、確からしさが高い程、その値が大きくなり、確からしさが低い程、その値が小さくなる。
ここで、図8におけるステップSP3のサブルーチンに示すように、ステップSP31において制御部20のCPU15は、サムネイル画像SG4Aを用いて特徴量抽出部9の画像特徴量抽出ブロック28によりフレーム画像F3の画像特徴量FSPを算出する。
また、このステップSP31において制御部20のCPU15は、画像特徴量FSPを算出すると共に、サムネイル画像SG4Aの元となるフレーム画像F3のタイムコードTCを取得し、次のステップSP32へ移る。
ステップSP32において制御部20のCPU15は、画像特徴量FSPを基にフレームスコア(後述する)を算出し、次のステップSP33へ移る。
なお制御部20のCPU15は、ここで算出したフレームスコアがサムネイル画像SG4Aから求めた画像特徴量FSPをベースにしているが、サムネイル画像SG4Aがフレーム画像F3から生成されたものであるため、便宜上これをフレーム画像F3のフレームスコアとして用いるようになされている。
ステップSP33において制御部20のCPU15は、ステップSP32で算出したフレームスコアと、ステップSP31で取得したフレーム画像F3のタイムコードTCとをバッファとして用いられるRAM17に一時的に保存し、次のステップSP4へ移る。
ここで、フレームスコアを算出する際のフレームスコア算出手法を説明する。図9に示すように、制御部20のCPU15は、フレーム画像F3の画像内容が何であるかを示すクラスラベルを判別するため、予め想定される種類の例えば野球識別器DBB、サッカー識別器DSC、ゴルフ識別器DGF、相撲識別器DSM、その他のスポーツ識別器DOSP、非スポーツ識別器DOP(以下、これらを各識別器Dと呼ぶ)を予め用意する。
このとき制御部20のCPU15は、画像特徴量FSPと、例えば野球クラスを正事例(野球:1)とし、野球以外クラスを負事例(野球以外:−1)とした正解ラベルTL1との双方を予め与えておいたブースティングアルゴリズムARG1を用いて学習させた野球識別器DBBを生成しておく。なお、ブースティングアルゴリズムについては、文献1「Y.Freund and R.E.Schapire,”Experiments with a New Boosting Algorithm”,Proc. Of The 13th Int’l Conf. on Machine Learning, pp.148-156(1996)」等に詳細が記されており、ここでは説明を省略する。
また、同様に制御部20のCPU15は、画像特徴量FSPと、例えばサッカークラスを正事例(サッカー:1)とし、サッカー以外クラスを負事例(サッカー以外:−1)とした正解ラベルTL2との双方を予め与えておいたブースティングアルゴリズムARG2を用いて学習させたサッカー識別器DSCを生成しておく。
なお、制御部10のCPU15は、野球識別器DBB、サッカー識別器DSCと同様に、ブースティングアルゴリズム(図示せず)を用いて予め学習させることにより、ゴルフ識別器DGF、相撲識別器DSM、その他のスポーツ識別器DOSP、非スポーツ識別器DOPを生成しておくようになされている。
例えば野球識別器DBBであれば、画像特徴量FSPに基づいて、そのフレーム画像F3の画像内容が野球クラスを表す可能性が高ければ大きな値の野球スコアSC1を出力し、野球以外クラスを表す可能性が高ければ小さな値の野球スコアSC1を出力する。
同様にサッカー識別器DSCであれば、画像特徴量FSPに基づいて、そのフレーム画像F3の画像内容がサッカークラスを表す可能性が高ければ大きな値のサッカースコアSC2を出力し、サッカー以外クラスを表す可能性が高ければ小さな値のサッカースコアSC2を出力する。
なお、ゴルフ識別器DGF、相撲識別器DSM、その他のスポーツ識別器DOSP、非スポーツ識別器DOPについても同様であり、画像特徴量FSPに基づいてゴルフスコアSC3、相撲スコアSC4、その他のスポーツスコアSC5及び非スポーツスコアSC6を出力する。
これにより制御部20のCPU15は、野球識別器DBB〜非スポーツ識別器DOPまでの各識別器に対して画像特徴量FSPを与えることにより、当該各識別器からそれぞれ野球スコアSC1〜非スポーツスコアSC6を出力することができる。
その結果、制御部20のCPU15は、各識別器から出力された野球スコアSC1〜非スポーツスコアSC6のうち最も値の大きなものが野球スコアSC1であれば、そのフレーム画像F3の画像内容は野球クラスであると認識し得るようになされている。
なお、制御部20のCPU15は、ステップSP33でRAM17に保存する際、野球スコアSC1〜非スポーツスコアSC6の全てをフレームスコアFSCとして、フレーム画像F3のタイムコードTCと共に一時的に記憶するようになされている。
この場合、制御部20のCPU15は、図7(B)に示すように、タイムコードTCと、フレームスコアFSCを構成している野球スコアSC1〜非スポーツスコアSC6とを対応付けてRAM17に保存する。
ステップSP4において制御部20のCPU15は、ステップSP3で算出したフレームスコアFSCに基づいてショットスコア(後述する)を算出し、次のステップSP5(図5)へ移る。
ここで、図10におけるステップSP4のサブルーチンに示すように、ステップSP41において制御部20のCPU15は、特徴量抽出部9のショット区切検出回路27により隣接するフレーム画像間の輝度の差分に基づいてショット区切点SCPを検出し、次のステップSP42へ移る。
ステップSP42において制御部20のCPU15は、ショット区切点SCPを検出したときのフレーム画像F3のタイムコードを取得し、次のステップSP43へ移る。
ステップSP43において制御部20のCPU15は、RAM17から一つ前のショット区切点〜ステップSP41で検出した現在のショット区切点SCPの間に存在する複数のフレーム画像F3に対するフレームスコアFSCを読み出し、次のステップSP44へ移る。
ステップSP44において制御部20のCPU15は、複数のフレームスコアFSCを用いて、野球クラス、サッカークラス、ゴルフクラス、相撲クラス、その他のスポーツクラス、非スポーツクラスのクラス毎にクラス平均値を算出し、これをショットスコアSHCとして次のステップSP45へ移る。
ステップSP45において制御部20のCPU15は、ショット区切点SCPのタイムコードTCと、ステップSP44で求めたショットスコアSHCとをRAM17に保存した後、次のステップSP5(図5)へ移る。
この場合、制御部20のCPU15は、図7(C)に示すように、タイムコードTCと、ショットスコアSHCとを対応付けてRAM17に保存する。
ステップSP5(図5)において制御部20のCPU15は、ビデオストリームDV2の終端までショットスコアSHCを算出し終えたか否かを判定する。ここで否定結果が得られると、このことはビデオストリームDV2の終端までショットスコアSHCを算出し終えていないことを表しており、このとき制御部20のCPU15はステップSP2に戻って上述した処理を繰り返す。
これに対してステップSP5において肯定結果が得られると、このことはビデオストリームDV2の終端までショットスコアSHCを算出し終えたことを表しており、このとき制御部20のCPU15は次のステップSP6へ移る。
ステップSP6において制御部20のCPU15は、ビデオストリームDV2の終端まで算出し終えたショットスコアSHCに基づいてショットラベルを確定し、さらにシーン区切点とシーンラベルを確定することによりシーンインデックスを生成した後、次のステップSP7へ移って処理を終了する。
ここで、図11におけるステップSP6のサブルーチンに示すように、ステップSP61において制御部20のCPU15は、ショット単位でそのショットの内容が何であるかを示すショットラベルを作成し、次のステップSP62へ移る。
ここで図12に示すように、制御部20のCPU15は、例えばフレーム画像F31〜F35によって1つのショットSHTが形成されている場合を考える。
ここでフレーム画像F31は、野球スコアSC1「80」が最大スコアであるため、この画像内容についてはクラスラベル「野球」が相応しい。またフレーム画像F32は、野球スコアSC1「85」が最大スコアであるため、この画像内容についてもクラスラベル「野球」が相応しい。
さらにフレーム画像F33は、サッカースコアSC2「90」が最大スコアであるため、この画像内容についてはクラスラベル「サッカー」が相応しいということになる。
同様にして、フレーム画像F34は、野球スコアSC1「90」が最大スコアであり、フレーム画像F35は、野球スコアSC1「75」が最大スコアであるため、これらの画像内容については双方共にクラスラベル「野球」が相応しい。
このとき制御部20のCPU15は、ショットSHTを構成する複数のフレーム画像F31〜F35のうち最大スコアであるサッカースコアSC2「90」を持つフレーム画像F33のクラスラベル「サッカー」に基づいて、当該ショットSHTがショットラベル「サッカー」であると判別した場合、誤りとなる可能性がある。
そこで制御部20のCPU15は、ショットSHTを構成する複数のフレーム画像F31〜F35における野球スコアSC1、サッカースコアSC2、ゴルフスコアSC3、相撲スコアSC4、その他のスポーツスコアSC5及び非スポーツスコアSC6のクラス平均値をそれぞれ算出する。
そして制御部20のCPU15は、この場合、野球スコアSC1が最大のクラス平均値を持つので、ショットSHTの画像内容がショットラベル「野球」であると判別し確定するようになされている。
ステップSP62において制御部20のCPU15は、ステップSP61によりショットSHT単位のショットラベルを判別したので、複数のショットSHTのショットラベルが切り替わる点をシーン区切点として検出し、次のステップSP63へ移る。
ステップSP63において制御部20のCPU15は、一つ前のシーン区切点から現在検出したシーン区切点まで共通しているショットSHTのショットラベルをシーンラベルとする。そして制御部20のCPU15は、一つ前のシーン区切点に対応したフレーム画像に付されているタイムコードを取得し、シーンラベル及びタイムコードをシーンインデックスとしてハードディスクドライブ13に保存し、次のステップSP7へ移ってシーンインデックス生成処理手順を終了する。
ところで、上述したように制御部20のCPU15は、野球スコアSC1〜SC6の最大のクラス平均値に基づいてショットSHT単位のショットラベルを判別するようにしたが、これでもショットラベルには誤りを含む可能性があるため、例えばビタビアルゴリズムを用いてショットSHT単位のショットラベルを判別することも可能である。
実際上、制御部20のCPU15は、ショットSHT毎に得られた各クラス(野球クラス〜非スポーツクラス)に対する各スコアSC1〜SC6に加え、実際のテレビ番組の映像コンテンツでクラス間の遷移がどのように行われるかという知識を導入し、ショットSHT毎のショットラベルを確定するようになされている。
そのためのアルゴリズムとしては、例えば「Andrew J. Viterbi. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm, IEEE Transactions on information Theory 13(2):260-269, April 1967.」という文献2に詳述されているビタビアルゴリズムを制御部20のCPU15は応用することができる。
また、制御部20のCPU15は、例えば「G. D. Forney. The Viterbi algorithm. Proceedings of the IEEE61(3):268-278,March 1973」という文献3にも詳述されている文献2と同じビタビアルゴリズムを応用することもできる。
ここでビタビアルゴリズムについて文献3に基づき簡単に概略する。マルコフ過程によって与えられる有限状態系列と、その有限状態系列から生じる観測値系列を考えたとき、ある観測値系列が得られる確率は、当該有限状態系列に対応する状態値から一意に定まるものとする。
また、ある時刻の状態が定まったとき、次の時刻の状態がある状態値を取る条件付確率が求められているものとする。このような場合、実際の観測値系列が得られると、ビタビアルゴリズムによって最も確からしい状態系列を求めることができる。
本発明においては、有限状態系列の単位はショットSHT、観測値系列はショットSHTを構成するフレーム画像F3の画像特徴量FSP、状態値はショットSHTのショットラベルに相当する。
さらに本発明においては、各ショットSHTにおいてクラス毎のクラススコアが求められており、これを状態値と観測値系列の組み合わせの確率とに対応付けることができる。また、別途、実際のテレビ番組の映像コンテンツを用い、隣接するショットSHT間でのクラスの組み合わせを統計的に解析することによって、2つの時刻の状態に関する条件付確率を求めることができる。
以上に関する具体的なビタビアルゴリズムとしては、文献3から明らかである。すなわち本発明に当該ビタビアルゴリズムを適用し、ショットSHT毎のショットラベルの状態系列として最も確からしいものを得ることができることが分かる。
このようにして確定したショットSHT単位のショットラベルについて、制御部20のCPU15は、必要に応じてルール処理を実行し得るようにもなされている。
実際上、制御部20のCPU15は、例えば「非スポーツ」のショットラベルを挟んで「野球」のショットラベルが連続する場合、ルール処理により、これをまとめて一つの「野球」を表すシーンのシーンラベルとして確定するようになされている。
この場合、制御部20のCPU15は、最終的に確定したシーンの最初のシーン区切点に対応したフレーム画像に付されているタイムコードと、シーンラベルとをシーンインデックスとしてハードディスクドライブ13に保存するようになされている。
このように制御部20のCPU15が上述したようにシーンインデックスを生成するまでの時系列の流れとして、ステップSP2におけるサムネイル画像の保存処理、ステップSP3におけるフレームスコアの算出処理、ステップSP4におけるショットスコアの算出処理、ステップSP6におけるシーンインデックスの生成処理のタイミングを図13によって示す。
制御部20のCPU15は、フレームサンプリングにより0.5秒間隔でビデオストリームVD2からサンプリングしたフレーム画像F3に基づいてサムネイル画像SG4Aを生成してハードディスクドライブ13に保存する。
そして制御部20のCPU15は、サムネイル画像SG4Aに基づいて画像特徴量FSPを算出し、その画像特徴量FSPを構成する野球スコアSC1〜非スポーツスコアSC6をフレームスコアFSCとして求めてRAM17にバッファリングする。
そして制御部20のCPU15は、フレーム画像毎に監視していた結果、隣接フレーム画像間の差分に基づいてショット区切点を検出すると、ショット区切点を検出した時点までにバッファリングしていた複数のフレームスコアFSCのうち最も高いクラス平均値を算出し、これをショットスコアSHCとして算出する。
最後に制御部20のCPU15は、ビデオストリームVD2の終端ENDまでショットスコアSHCを算出してバッファリングした後で、シーン区切点まで複数のショットSHTで構成される一つのシーンを示すシーンラベルに基づいてシーンインデックスIDXを生成し、ハードディスクドライブ13に保存して終了するようになされている。
このようにして制御部20のCPU15は、テレビ番組に含まれるシーンに対して正確なシーンラベルを付与したシーンインデックスIDXを生成し得るようになされている。これにより制御部20のCPU15は、テレビ番組に含まれる複数のシーンに対してそれぞれ正確なシーンラベルを付与したシーンインデックスIDXを生成し得ると共に、これをハードディスクドライブ13に保持している複数のテレビ番組についてもシーンインデックスIDXを生成し得るようになされている。
[1−3.シーンインデックスを用いた画面遷移]
次に、BDレコーダ1において制御部20のCPU15が、シーンインデックスIDXを用いてテレビ番組のシーンを切り換える画面遷移の流れについて具体的に説明する。
次に、BDレコーダ1において制御部20のCPU15が、シーンインデックスIDXを用いてテレビ番組のシーンを切り換える画面遷移の流れについて具体的に説明する。
[1−3−1.一つのテレビ番組内におけるシーンインデックスを用いた画面遷移]
図14に示すように制御部20のCPU15は、再生メニューが選択されると、予めハードディスクドライブ13に録画した複数のテレビ番組のタイトルTL1〜TL4をメニュー画面G1によって提示し、再生対象をユーザに対して選択させるようになされている。
図14に示すように制御部20のCPU15は、再生メニューが選択されると、予めハードディスクドライブ13に録画した複数のテレビ番組のタイトルTL1〜TL4をメニュー画面G1によって提示し、再生対象をユーザに対して選択させるようになされている。
制御部20のCPU15は、例えばタイトルTL3によって示される「スポーツタイム」のテレビ番組が再生対象の映像コンテンツとして選択されたことを認識すると、そのコンテンツデータ(AVCHD形式のストリームD4)をハードディスクドライブ13から読み出す。
そして制御部20のCPU15は、そのコンテンツデータを、デマルチプレクサデコーダ5を介してデコードすることによりビデオストリームDV2に復元し、表示制御部6及び出力インタフェース7経由でテレビジョン受像機に番組映像の再生画面G2を表示する。
このとき制御部20のCPU15は、再生画面G3において、このビデオストリームDV2に対して予め「野球」、「サッカー」、「ゴルフ」、「相撲」のシーンラベルが付されたシーンインデックスIDX1〜IDX4を、各シーンの最初のサムネイル画像SG4を用いてGUI表示する。
このとき制御部20のCPU15は、シーンインデックスIDX1〜IDX4に対して各シーンの最初のサムネイル画像SG4をイメージとしてGUI表示するだけでなく、それぞれシーンラベルのタイトル(「野球」、「サッカー」、「ゴルフ」、「相撲」)を文字として表示するようになされている。
これによりユーザは、再生画面G3のGUI表示されたシーンインデックスIDX1〜IDX4が示す各シーンの内容が具体的に何であるかを視覚的なイメージ及び文字の両方で正確に認識し得るようになされている。
更に制御部20のCPU15は、シーンインデックスIDX1〜IDX4における各シーンの最初のサムネイル画像SG4に付されているタイムコードTCを用い、シーンインデックスIDX1〜IDX4に対して、そのテレビ番組の中で、そのシーンの再生開始時刻(例えば、「野球」のシーンなら[0:02])を計算して表示する。
従ってユーザは、シーンインデックスIDX1〜IDX4にそれぞれ表示された再生開示時刻に基づいて、「野球」のシーンなら番組開始から2分後に始まり、その再生時間が6分間であることについて瞬時に認識することができる。
同様にユーザは、「サッカー」のシーンなら番組開始から8分後に始まり、その再生時間が3分間であり、「ゴルフ」のシーンなら番組開始から11分後に始まり、その再生時間が2分間であり、「相撲」のシーンなら番組開始から13分後に始まり、その再生時間が2分間であることについても瞬時に認識することができる。
かくして制御部20のCPU15は、再生画面G3のGUI表示されたシーンインデックスIDX1〜IDX4を介してユーザ所望の再生対象となるシーンを任意に選択させ、そのシーンの再生映像G4を表示し得るようになされている。
この場合、制御部20のCPU15は、シーンインデックスIDX2が選択され、当該シーンインデックスIDX2に対応した「サッカー」のシーンの再生映像G4を表示することができる。
[1−3−2.複数のテレビ番組に跨るシーンインデックスを用いた画面遷移]
図15に示すように制御部20のCPU15は、再生メニューが選択されると、予めハードディスクドライブ13に格納した複数のテレビ番組のタイトルTL1〜TL4をメニュー画面G1によって提示し、再生対象をユーザに対して選択させるようになされている。
図15に示すように制御部20のCPU15は、再生メニューが選択されると、予めハードディスクドライブ13に格納した複数のテレビ番組のタイトルTL1〜TL4をメニュー画面G1によって提示し、再生対象をユーザに対して選択させるようになされている。
この場合、制御部20のCPU15は、ユーザの例えばサッカーに関するシーンだけを視聴したいという要求に応えるべく、ジャンル選択画面G10を介して「野球」、「サッカー」、「ゴルフ」、「相撲」のうち「サッカー」をユーザに選択させる。
そして制御部20のCPU15は、ジャンル選択画面G10を介して「サッカー」が選択された場合、タイトルTL1〜TL4によって示されるテレビ番組の中で、「サッカー」と同一または類似するシーンラベルが付されたシーンインデックスIDX11、IDX2及びIDX12をハードディスクドライブ13から読み出して抽出する。
この場合、制御部20のCPU15は、タイトルTL2〜TL4の枠を強調表示することにより、当該タイトルTL2〜TL4によって示されるテレビ番組の中から、「サッカー」のシーンラベルが付されたシーンインデックスIDX11、IDX2及びIDX12をそれぞれ抽出したことを黙示するようになされている。
それだけではなく制御部20のCPU15は、シーンインデックスIDX11、IDX2及びIDX12に対して、それぞれタイトルTL2、TL3及びTL4のテレビ番組名、放送日時についても当該テレビ番組のメタデータから取得して表示し得るようになされている。
ここでシーンインデックスIDX11、IDX2及びIDX12は、全て「サッカー」に関するシーンであり、ユーザにとっては、テレビ番組のタイトルTL2〜TL4に拘わらず、ユーザ所望のシーンインデックスIDX11、IDX2及びIDX12を好きな順番で選択し得るようになされている。
これにより制御部20のCPU15は、例えばシーンインデックスIDX2が選択された場合、当該シーンインデックスIDX2に対応した「サッカー」のシーンの再生映像G4を表示することができる。
このように制御部20のCPU15は、タイトルTL2〜TL4によって示される複数のテレビ番組を跨いで、ユーザが希望するサッカーに関するシーンだけをシーンインデックスIDX11、IDX2及びIDX12として提示し得るようになされている。
なお、この場合のシーンインデックスIDX11、IDX2及びIDX12は、タイトルTL1〜TL4によって示されるテレビ番組にそれぞれ対応しているので、シーンインデックスIDX11のシーンの再生開始時刻が[0:12]であり、シーンインデックスIDX2のシーンの再生開始時刻が[0:08]であり、シーンインデックスIDX12のシーンの再生開始時刻が[0:09]であるように時系列にはなっていない。
このように制御部20のCPU15は、全て「サッカー」に関するシーンインデックスIDX11、IDX2及びIDX12を提示することができるので、テレビ番組のタイトルTL2〜TL4を選択させてから「サッカー」のシーンを選択させるというユーザの手間を省き、効率良く「サッカー」のシーンだけを連続して視聴させることができる。
[1−4.動作及び効果]
以上の構成において、BDレコーダ1の制御部20は、フレーム画像F3に対する画像特徴量FSPに基づいてフレームスコアFSCを算出し、複数のフレームスコアFSCに基づいてショットSHTのショットスコアSHCを算出し、その複数のショットスコアSHCに基づいてそのシーンの内容に合致したシーンラベルを確定することによりシーンインデックスIDX1〜IDX4等を生成する。
以上の構成において、BDレコーダ1の制御部20は、フレーム画像F3に対する画像特徴量FSPに基づいてフレームスコアFSCを算出し、複数のフレームスコアFSCに基づいてショットSHTのショットスコアSHCを算出し、その複数のショットスコアSHCに基づいてそのシーンの内容に合致したシーンラベルを確定することによりシーンインデックスIDX1〜IDX4等を生成する。
これによりBDレコーダ1の制御部20は、テレビ番組に含まれる複数のシーンに対して、その内容に合致し、かつユーザにとって理解容易なシーンラベルを正確に付与したシーンインデックスIDX1〜IDX4等を生成することができる。
かくしてBDレコーダ1の制御部20は、テレビ番組の再生時、シーンの内容に沿って適切に分割されたシーン区切点で、見出しとして用いられるシーンインデックスIDX1〜IDX4を提示することができる。
またBDレコーダ1の制御部20は、シーンインデックスIDX1〜IDX4に対してシーンラベルのタイトル(「野球」、「サッカー」、「ゴルフ」、「相撲」)を文字として表示することが出来る。
すなわち制御部20は、シーンインデックスIDX1〜IDX4に対して各シーンの最初のサムネイル画像SG4をイメージとしてGUI表示する際の画像中のテロップに対する表示箇所に制約されることなく、シーンインデックスIDX1〜IDX4に対してシーンの内容に合致したシーンラベルを付与することができる。
これによりBDレコーダ1の制御部20は、サムネイル画像SG4の画象中のテロップに惑わされることなく、シーンインデックスIDX1〜IDX4に対して表示されたシーンラベルのタイトルを介して、そのシーンの内容をユーザに対して正確に把握させることができる。
さらにBDレコーダ1の制御部20は、録画したテレビ番組中のシーンに対して、その内容を反映したシーンラベルを正確に付することができる。これによりBDレコーダ1の制御部20は、従来のように一定時間間隔にサムネイル画像を表示する場合に比べて、シーンインデックスIDX1〜IDX4の何れかを選択させるだけで、ユーザ所望のシーンだけをその最初から再生して瞬時に提示することができる。
さらにBDレコーダ1の制御部20は、録画したテレビ番組中のシーンに対して、その内容を反映した意味のあるシーンラベルを付することができるので、同一もしくは類似するシーンラベルを有するシーンを複数のテレビ番組を跨いで集めることができる。
これによりBDレコーダ1の制御部20は、シーンインデックスIDX11、IDX2及びIDX12により同一もしくは類似するシーンを一覧表示させるという図14に示したような新しい視聴形態を提供することができる。
以上の構成によれば、BDレコーダ1は、テレビ番組に含まれる複数のシーンに対して、その内容と合致したシーンラベルを付与したシーンインデックスIDX1〜IDX4を生成することができるので、ユーザ所望のシーンを容易に見つけ出させることができる。
<2.他の実施の形態>
なお上述した実施の形態においては、図14においてインデックスIDX1〜IDX4に対してシーンラベルのタイトル(「野球」、「サッカー」、「ゴルフ」、「相撲」)を文字として表示するようにした場合について述べた。しかしながら、本発明はこれに限らず、制御部20のCPU15は、図16に示すように、シーンラベルとして「野球」、「サッカー」、「ゴルフ」、「相撲」等をイメージさせるアイコンAC1〜AC4を表示するようにしても良い。
なお上述した実施の形態においては、図14においてインデックスIDX1〜IDX4に対してシーンラベルのタイトル(「野球」、「サッカー」、「ゴルフ」、「相撲」)を文字として表示するようにした場合について述べた。しかしながら、本発明はこれに限らず、制御部20のCPU15は、図16に示すように、シーンラベルとして「野球」、「サッカー」、「ゴルフ」、「相撲」等をイメージさせるアイコンAC1〜AC4を表示するようにしても良い。
また上述した実施の形態においては、図2に示したような構成の特徴量抽出部9を用いるようにした場合について述べた。しかしながら、本発明はこれに限らず、図17に示すように、ビデオストリームDV2を最初に縮小画像生成回路22によってサムネイル画像SG4Aに変換し、これを用いてフレームサンプリング回路21によりサンプリングし、かつショット区切検出回路27によるショット区切点を検出するようにしても良い。
この場合、制御部20のCPU15は、最初にサムネイル画像SG4Aに変換してデータ量を削減してしまうので、その後における処理負荷を大幅に軽減することができる。
さらに上述した実施の形態においては、BDレコーダ1においてシーンラベルを付与したシーンインデックスIDX1〜IDX4等を生成するようにした場合について述べた。しかしながら、本発明はこれに限らず、複数のテレビ番組をデータとして保持しているのであれば、例えばコンテンツ配信サーバにおいてBDレコーダ1と同様にシーンラベルを付与したシーンインデックスIDX1〜IDX4等を生成するようにしても良い。この場合、コンテンツ配信サーバとしては、基本的な構成はBDレコーダ1の回路構成と同じであり、便宜上ここでは説明を省略する。
さらに上述した実施の形態においては、フレームスコアFSCを算出する際、ブースティングアルゴリズムARG1、ARG2等を用いるようにした場合について述べた。しかしながら、本発明はこれに限らず、SVM(Support Vector Machine)と呼ばれる統計的学習理論を用いてフレームスコアFSCを算出するようにしても良い。SVMについては文献4「Bernhard E. Boser, Isabelle M.Guyon, Vladimir N. Vapnik “A Training Algorithm for Optimal Margin Classifiers “5th COLT, pp.144-152(1992) 」などに詳細が記されており、ここでは説明を省略する。
さらに上述した実施の形態においては、0.5秒間隔でビデオストリームDV2をサンプリングして画像特長量FSPを求めるようにした場合について述べた。しかしながら、本発明はこれに限らず、ショットSHT毎にその中心時刻に近い1枚の代表フレーム画像を選択し、ショット単位で画像特徴量FSPを求めるようにしても良い。
さらに上述した実施の形態においては、ビタビアルゴリズムを用いてショットSHT単位のショットラベルを判別するようにした場合について述べた。しかしながら、本発明はこれに限らず、ビタビアルゴリズムを用いずに、ヒューリスティックなルールベースベースの処理でショット単位のショットラベルを確定するようにしても良い。例えば、実際のテレビ番組で1つのスポーツ種目の映像が1ショットだけしか存在しないという事例は稀であることから、最大スコアのクラスラベルをショットラベルとして採用すると、1ショットだけ前後のフレーム画像F3と異なるクラスラベルとなるような場合、そのショットのショットラベルを前後のショットのショットラベルと揃えてしまうことができる。
さらに上述した実施の形態においては、ルーチンRT1のシーンインデックス生成処理手順(図5)において、CPU15が特徴量抽出部9を介してサムネイル画像SG4Aを生成したり、画像特徴量FSPを算出した後にショットスコアを算出し、シーンインデックスを生成するようにした場合について述べた。しかしながら、本発明はこれに限らず、ハードウェアである画像特徴量抽出部9により予めサムネイル画像SG4Aを生成し、画像特徴量FSPを算出した後、CPU15が画像特徴量抽出部9からの割り込みに処理完了を認識した後に、ショットスコアを算出し、シーンインデックスを生成するようにしても良い。
さらに上述した実施の形態においては、シーンラベルを付与したシーンインデックスIDX1〜IDX4等を生成する電子機器としてBDレコーダ1を用いるようにした場合について述べた。しかしながら、本発明はこれに限らず、テレビ番組等のビデオコンテンツを保持し得る録画機能付きのテレビジョン受像機、携帯電話機、ノートブック型パーソナルコンピュータ、ゲーム機等のその他種々の電子機器を用いるようにしても良い。
さらに上述した実施の形態においては、画像特徴量抽出手段としての制御部20及び特徴量抽出部9、フレームスコア算出手段、ショット区切点検出手段、ショットスコア算出手段及びシーンラベル生成手段としての制御部20によって、本発明のシーンラベル生成装置としてのBDレコーダ1を構成するようにした場合について述べた。しかしながら、本発明はこれに限らず、その他種々の構成でなる画像特徴量抽出手段、フレームスコア算出手段、ショット区切点検出手段、ショットスコア算出手段及びシーンラベル生成手段により本発明のシーンラベル生成装置を構成するようにしても良い。
本発明のシーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバは、映像コンテンツだけではなく、ゲームコンテンツのシーンに対してシーンラベルを生成する場合においても適用することができる。
1……BDレコーダ、2……アンテナ、3……フロントエンド、4、10……スイッチ、5……デマルチプレクサデコーダ、6……表示制御部、7……出力インタフェース、8……エンコーダマルチプレクサ、9……特徴量抽出部、11……記録再生制御部、12……ディスク状記録媒体、13……ハードディスクドライブ、14……ユーザインタフェース、15……CPU、16……ROM、17……RAM、19……バス、20……制御部、21……フレームサンプリング回路、22……縮小画像生成回路、23……色ヒストグラム生成回路、24……色モーメント生成回路、25……エッジ方向ヒストグラム生成回路、26……ローカルバイナリパターン生成回路、27……ショット区切検出回路。
Claims (7)
- 映像コンテンツを構成している複数のフレーム画像から選択した任意のフレーム画像の画像特徴量を抽出する画像特徴量抽出手段と、
上記画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出すると共に、当該フレーム画像のタイムコードを取得するフレームスコア算出手段と、
上記映像コンテンツを構成している上記複数のフレーム画像について隣接フレーム画像間の変化量が所定の閾値を超えたときに一つの映像単位であるショットのショット区切点を検出するショット区切点検出手段と、
上記ショット区切点までの上記フレームスコアに基づいてクラス毎の上記クラススコアのクラス平均値を上記ショットのショットスコアとして算出すると共に、上記ショット区切点のタイムコードを取得するショットスコア算出手段と、
単一もしくは複数の上記ショットスコアに基づいて上記ショットのショットラベルを生成するショットラベル生成手段と、
複数の上記ショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、当該シーン区切点までの複数のショットラベルに基づいてシーンラベルを生成するシーンラベル生成手段と
を具えるシーンラベル生成装置。 - 上記映像コンテンツを保持する記憶手段と、
上記映像コンテンツを再生対象としてそのタイトルを表示する際、当該映像コンテンツに含まれる複数のシーンに対する上記シーンラベルをそれぞれ用いて複数のシーンインデックスをGUI表示するシーンインデックス表示手段と
を具える請求項1に記載のシーンラベル生成装置。 - 上記記憶手段は、複数の上記映像コンテンツを保持し、
上記シーンインデックス表示手段は、ユーザにより指定された名称と同一または類似する上記シーンラベルを複数の上記映像コンテンツからそれぞれ抽出して一覧表示する
請求項2に記載のシーンラベル生成装置。 - 上記シーンラベル生成手段は、複数の上記ショットラベルが変化する時点を上記シーン区切点として検出し、当該シーン区切点までの範囲を上記シーンとして上記シーンラベルを生成する
請求項1に記載のシーンラベル生成装置。 - 上記シーンラベル生成手段は、所定のビタビアルゴリズムに従って最も確からしい上記シーンラベルを生成する
請求項1に記載のシーンラベル生成装置。 - 画像特徴量抽出手段により、映像コンテンツを構成している複数のフレーム画像から選択した任意のフレーム画像の画像特徴量を抽出する画像特徴量抽出ステップと、
フレームスコア算出手段により、上記画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出すると共に、当該フレーム画像のタイムコードを取得するフレームスコア算出ステップと、
ショット区切点検出手段により、上記映像コンテンツを構成している上記複数のフレーム画像について隣接フレーム画像間の変化量が所定の閾値を超えたときに一つの映像単位であるショットのショット区切点を検出するショット区切点検出ステップと、
ショットスコア算出手段により、上記ショット区切点までの上記フレームスコアに基づいてクラス毎の上記クラススコアのクラス平均値を上記ショットのショットスコアとして算出すると共に、上記ショット区切点のタイムコードを取得するショットスコア算出ステップと、
ショットラベル生成手段により、単一もしくは複数の上記ショットスコアに基づいて上記ショットのショットラベルを生成するショットラベル生成ステップと、
シーンラベル生成手段により、複数の上記ショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、当該シーン区切点までの複数のショットラベルに基づいてシーンラベルを生成するシーンラベル生成ステップと
を有するシーンラベル生成方法。 - 複数の映像コンテンツを保持する記憶手段と、
上記映像コンテンツを構成している複数のフレーム画像から選択した任意のフレーム画像の画像特徴量を抽出する画像特徴量抽出手段と、
上記画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出すると共に、当該フレーム画像のタイムコードを取得するフレームスコア算出手段と、
上記映像コンテンツを構成している上記複数のフレーム画像について隣接フレーム画像間の変化量が所定の閾値を超えたときに一つの映像単位であるショットのショット区切点を検出するショット区切点検出手段と、
上記ショット区切点までの上記フレームスコアに基づいてクラス毎の上記クラススコアのクラス平均値を上記ショットのショットスコアとして算出すると共に、上記ショット区切点のタイムコードを取得するショットスコア算出手段と、
単一もしくは複数の上記ショットスコアに基づいて上記ショットのショットラベルを生成するショットラベル生成手段と、
複数の上記ショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、当該シーン区切点までの複数のショットラベルに基づいてシーンラベルを生成するシーンラベル生成手段と
を具えるコンテンツ配信サーバ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009191222A JP2011044871A (ja) | 2009-08-20 | 2009-08-20 | シーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009191222A JP2011044871A (ja) | 2009-08-20 | 2009-08-20 | シーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバ |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011044871A true JP2011044871A (ja) | 2011-03-03 |
Family
ID=43831976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009191222A Abandoned JP2011044871A (ja) | 2009-08-20 | 2009-08-20 | シーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011044871A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017204757A (ja) * | 2016-05-12 | 2017-11-16 | 日本放送協会 | 被写体追跡装置及びそのプログラム |
JP2018112967A (ja) * | 2017-01-13 | 2018-07-19 | 株式会社ミクシィ | 動画管理システム |
CN115327562A (zh) * | 2022-10-16 | 2022-11-11 | 常州海图信息科技股份有限公司 | 一种手持可视激光测距仪器 |
-
2009
- 2009-08-20 JP JP2009191222A patent/JP2011044871A/ja not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017204757A (ja) * | 2016-05-12 | 2017-11-16 | 日本放送協会 | 被写体追跡装置及びそのプログラム |
JP2018112967A (ja) * | 2017-01-13 | 2018-07-19 | 株式会社ミクシィ | 動画管理システム |
CN115327562A (zh) * | 2022-10-16 | 2022-11-11 | 常州海图信息科技股份有限公司 | 一种手持可视激光测距仪器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6419306B2 (ja) | 要約コンテンツサービス方法及び放送受信装置 | |
JP4584250B2 (ja) | 映像処理装置、映像処理装置の集積回路、映像処理方法、及び映像処理プログラム | |
US8849093B2 (en) | Thumbnail generating apparatus and thumbnail generating method | |
CN100531352C (zh) | 一种检测足球比赛视频精彩片段的方法 | |
US8009232B2 (en) | Display control device, and associated method of identifying content | |
JP4559935B2 (ja) | 画像記憶装置及び方法 | |
JP4645707B2 (ja) | コンテンツデータ処理装置 | |
KR20030026529A (ko) | 키프레임 기반 비디오 요약 시스템 | |
US8630532B2 (en) | Video processing apparatus and video processing method | |
KR20090007177A (ko) | 얼굴 인식 기반의 실시간 선별 녹화 장치 및 방법 | |
US20110235859A1 (en) | Signal processor | |
US20050264703A1 (en) | Moving image processing apparatus and method | |
WO2010125757A1 (ja) | 映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法 | |
JP2011044871A (ja) | シーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバ | |
US20090158157A1 (en) | Previewing recorded programs using thumbnails | |
JP4667356B2 (ja) | 映像表示装置及びその制御方法、プログラム、記録媒体 | |
JP4721079B2 (ja) | コンテンツ処理装置および方法 | |
JP4879937B2 (ja) | 動画像記録装置、動画像再生装置、動画像削除装置、動画像記録方法、動画像再生方法、動画像削除方法及びそれら方法を実行可能なプログラム | |
JPH11265396A (ja) | 音楽映像分類方法、装置および音楽映像分類プログラムを記録した記録媒体 | |
JP2007074091A (ja) | テロップ検出装置及び方法並びにレコーダ | |
WO2007114241A1 (ja) | 映像処理装置 | |
JP5458163B2 (ja) | 画像処理装置、及び画像処理装置の制御方法 | |
KR100821023B1 (ko) | 영상 신호 기록 재생 장치, 영상 신호 기록 재생 방법, 및기록 매체 | |
JP2002010254A (ja) | 特徴点検出方法および記録再生装置 | |
JP2013105326A (ja) | 画像処理装置、及び画像処理装置の制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120810 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20130415 |