JP2011044871A

JP2011044871A - シーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバ

Info

Publication number: JP2011044871A
Application number: JP2009191222A
Authority: JP
Inventors: Shunji Yoshimura; 俊司吉村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-08-20
Filing date: 2009-08-20
Publication date: 2011-03-03

Abstract

【課題】本発明は、映像コンテンツにおけるシーンの内容に合致したラベルを生成して、ユーザに分かり易く提示できるようにする。
【解決手段】フレーム画像Ｆ３の画像特徴量ＦＳＰを用いて画像内容を表す各クラスのクラススコアＳＣ１〜ＳＣ６をフレームスコアＦＳＣとして算出し、ショット区切点までのフレームスコアＦＳＣに基づいてクラス毎のクラススコアのクラス平均値をショットＳＨＴのショットスコアＳＨＣとして算出し、単一もしくは複数のショットスコアＳＨＣに基づいてショットＳＨＴのショットラベルを生成し、複数のショットＳＨＴのショットラベルに基づいてシーンのシーン区切点を検出する共に、その複数のショットラベルに基づいてシーンラベルを生成することができるので、映像コンテンツにおけるシーンの内容に合致したシーンラベルを一段と正確に生成することができる。
【選択図】図５

Description

本発明は、シーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバに関し、例えばハードディスク内蔵のブルーレイディスクレコーダ及び映像コンテンツを配信するコンテンツ配信サーバに適用して好適なものである。

従来、ハードディスク内蔵のブルーレイディスクレコーダではテレビ番組をハードディスクに録画して再生する際、テレビ番組における画像の色信号に対するヒストグラムを用いて意味のある画像と無い画像とを判別し、意味のある画像をサムネイル表示するものがある（例えば特許文献１参照）。

また、ハードディスクドライブが内蔵されたテレビジョン受像機では、テレビ番組における一定時間間隔の画面をインデックス画像としてサムネイル表示するものがある（例えば特許文献２参照）。

さらに、記録再生装置としては、画像、音声を解析することにより番組の盛り上がり部分や、シーンチェンジ後の画像及びコマーシャルの直後の画像を抽出し、これらを基にサムネイル画像を生成してサムネイル表示するものがある（例えば特許文献３参照）。

特開2002-27400公報特開2007-209009公報特開2007-74207公報

ところで上述した特許文献１乃至３では、インデックスとして提示されたサムネイル画像の箇所が必ずしも内容に沿って適切に分割されているとは限らないので、サムネイル表示によりシーンの内容を正確に把握させることが出来ないという問題があった。

また上述した特許文献１乃至３では、サムネイル表示がシーンの内容別に分けられているのではなく、一定時間間隔（特許文献２）もしくは必ずしも内容を表していない比較的低レベルの特徴に基づく間隔（特許文献１及び３）に分けられているに過ぎないため、複数のテレビ番組から同種の内容のシーン（例えば野球のシーン）ばかりを集約して提示し得ないという問題があった。

本発明は以上の点を考慮してなされたもので、映像コンテンツにおけるシーンの内容に合致したラベルを生成して、ユーザに分かり易く提示し得るシーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバを提案しようとするものである。

かかる課題を解決するため本発明のシーンラベル生成装置においては、映像コンテンツを構成している複数のフレーム画像から選択した任意のフレーム画像の画像特徴量を抽出する画像特徴量抽出手段と、画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出すると共に、当該フレーム画像のタイムコードを取得するフレームスコア算出手段と、映像コンテンツを構成している複数のフレーム画像について隣接フレーム画像間の変化量が所定の閾値を超えたときに一つの映像単位であるショットのショット区切点を検出するショット区切点検出手段と、ショット区切点までのフレームスコアに基づいてクラス毎のクラススコアのクラス平均値をショットのショットスコアとして算出すると共に、ショット区切点のタイムコードを取得するショットスコア算出手段と、単一もしくは複数の上記ショットスコアに基づいて上記ショットのショットラベルを生成するショットラベル生成手段と、複数のショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、当該シーン区切点までの複数のショットラベルに基づいてシーンラベルを生成するシーンラベル生成手段とを設けるようにする。

これにより、フレーム画像の画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出し、ショット区切点までのフレームスコアに基づいてクラス毎のクラススコアのクラス平均値をショットのショットスコアとして算出し、単一もしくは複数のショットスコアに基づいてショットのショットラベルを生成し、複数のショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、その複数のショットラベルに基づいてシーンラベルを生成することができるので、映像コンテンツにおけるシーンの内容に合致したシーンラベルを一段と正確に生成することができる。

また本発明のシーンラベル生成方法においては、画像特徴量抽出手段により、映像コンテンツを構成している複数のフレーム画像から選択した任意のフレーム画像の画像特徴量を抽出する画像特徴量抽出ステップと、フレームスコア算出手段により、画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出すると共に、当該フレーム画像のタイムコードを取得するフレームスコア算出ステップと、ショット区切点検出手段により、映像コンテンツを構成している複数のフレーム画像について隣接フレーム画像間の変化量が所定の閾値を超えたときに一つの映像単位であるショットのショット区切点を検出するショット区切点検出ステップと、ショットスコア算出手段により、ショット区切点までのフレームスコアに基づいてクラス毎のクラススコアのクラス平均値をショットのショットスコアとして算出すると共に、ショット区切点のタイムコードを取得するショットスコア算出ステップと、ショットラベル生成手段により、単一もしくは複数のショットスコアに基づいてショットのショットラベルを生成するショットラベル生成ステップと、シーンラベル生成手段により、複数のショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、当該シーン区切点までの複数のショットラベルに基づいてシーンラベルを生成するシーンラベル生成ステップとを有するようにする。

さらに本発明のコンテンツ配信サーバにおいては、複数の映像コンテンツを保持する記憶手段と、映像コンテンツを構成している複数のフレーム画像から選択した任意のフレーム画像の画像特徴量を抽出する画像特徴量抽出手段と、画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出すると共に、当該フレーム画像のタイムコードを取得するフレームスコア算出手段と、映像コンテンツを構成している複数のフレーム画像について隣接フレーム画像間の変化量が所定の閾値を超えたときに一つの映像単位であるショットのショット区切点を検出するショット区切点検出手段と、ショット区切点までのフレームスコアに基づいてクラス毎のクラススコアのクラス平均値をショットのショットスコアとして算出すると共に、ショット区切点のタイムコードを取得するショットスコア算出手段と、単一もしくは複数のショットスコアに基づいてショットのショットラベルを生成するショットラベル生成手段と、複数のショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、当該シーン区切点までの複数のショットラベルに基づいてシーンラベルを生成するシーンラベル生成手段とを設けるようにする。

本発明によれば、フレーム画像の画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出し、ショット区切点までのフレームスコアに基づいてクラス毎のクラススコアのクラス平均値をショットのショットスコアとして算出し、単一もしくは複数のショットスコアに基づいてショットのショットラベルを生成し、複数のショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、その複数のショットラベルに基づいてシーンラベルを生成することができるので、映像コンテンツにおけるシーンの内容に合致したシーンラベルを一段と正確に生成することができ、かくして映像コンテンツにおけるシーンの内容に合致したラベルを生成して、ユーザに分かり易く提示し得るシーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバを実現することができる。

本発明の実施の形態におけるブルーレイディスクレコーダの回路構成を示す略線的ブロック図である。特徴量抽出部の構成を示す略線的ブロック図である。画像特徴量抽出の際の画面分割手法の説明に供する略線図である。色ヒストグラムの生成方法の説明に供する略線図である。シーンインデックス生成処理手順を示すフローチャートである。サムネイル画像生成処理手順のサブルーチンを示すフローチャートである。データ保存形式の説明に供する略線図である。フレームスコア算出処理手順のサブルーチンを示すフローチャートである。フレームスコア算出手法の説明に供する略線的ブロック図である。ショットスコア算出処理手順のサブルーチンを示すフローチャートである。シーンインデックス生成処理手順のサブルーチンを示すフローチャートである。最大スコアをクラスのショットラベルとする例の説明に供する略線図である。シーンインデックス生成過程の説明に供する略線図である。シーンインデックスを用いた画面遷移（１）の説明に供する略線図である。シーンインデックスを用いた画面遷移（２）の説明に供する略線図である。他の実施の形態におけるシーンインデックスを用いた画面遷移の説明に供する略線図である。他の実施の形態における特徴量抽出部の構成を示す略線的ブロック図である。

以下、発明を実施するための形態について説明する。なお、説明は以下の順序で行う。
１．実施の形態
２．他の実施の形態

＜１．実施の形態＞
［１−１．ブルーレイディスクレコーダの全体構成］
図１において、１は本発明の一実施の形態におけるハードディスク内蔵のブルーレイディスクレコーダ（以下、これをＢＤレコーダと呼ぶ。）を示す。

このＢＤレコーダ１において、システムバス１９に接続された制御部２０は、ＣＰＵ(Central Processing Unit)１５、ＲＯＭ(Read Only Memory)１６及びＲＡＭ(Random Access Memory)１７によって構成されている。

制御部２０のＣＰＵ１５は、ＲＯＭ１６から読み出してＲＡＭ１７に立ち上げた基本プログラム及び各種アプリケーションプログラムに従って当該ＢＤレコーダ１としての基本的なテレビ番組の録画再生処理等を実行すべく、各部を制御するようになされている。

実際上、制御部２０のＣＰＵ１５は、アンテナ２を介して放送局から送信されてくる地上デジタル放送波を受信し、これをフロントエンド３へ送出する。

フロントエンド３は、制御部２０の制御に従って地上デジタル放送波を復調することにより地上デジタル放送信号Ｄ１を生成し、これを、スイッチ４を介してデマルチプレクサデコーダ５へ送出すると共に、スイッチ１０経由で記録再生制御部１１へ送出する。

デマルチプレクサデコーダ５は、地上デジタル放送信号Ｄ１に対して例えばＭＰＥＧ(Moving Picture Experts Group)２−ＴＳ(Transport Stream)方式に従って分離・復号することによりビデオストリームＤＶ２とオーディオストリームＤＡ２とを得る。

そしてデマルチプレクサデコーダ５は、表示制御部６及び出力インタフェース７経由でビデオストリームＤＶ２を外部のテレビジョン受像機（図示せず）へ出力することにより、当該テレビジョン受像機に対して番組映像を表示する。

同時にデマルチプレクサデコーダ５は、出力インタフェース７を介して外部のテレビジョン受像機（図示せず）へオーディオストリームＤＡ２を出力することにより、当該テレビジョン受像機のスピーカから番組音声を出力する。

また制御部２０のＣＰＵ１５は、ユーザインタフェース１４を介して長時間録画モードによる番組録画の命令を受けた場合、デマルチプレクサデコーダ５からビデオストリームＤＶ２及びオーディオストリームＤＡ２をエンコーダマルチプレクサ８へ送出する。

エンコーダマルチプレクサ８は、ビデオストリームＤＶ２に対して例えばH264/AVC方式によって圧縮符号化することによりビデオ圧縮データＤＶ３を生成する。またエンコーダマルチプレクサ８は、オーディオストリームＤＡ２に対して例えばMPEG-2 AAC(Advanced Audio Coding)方式によって圧縮符号化することによりオーディオ圧縮データＤＡ３を生成する。さらに、エンコーダマルチプレクサ８はビデオ圧縮データＤＶ３及びオーディオ圧縮データＤＡ３を多重化し例えばＡＶＣＨＤ(Advanced Video Codec High Definition)形式のストリームＤ４を生成する。

その後、エンコーダマルチプレクサ８は、ストリームＤ４をスイッチ１０経由で記録再生制御部１１へ送出する。

記録再生制御部１１は、ストリームＤ４を例えばブルーレイディスク又はＤＶＤ(Digital Versatile Disc)等のディスク状記録媒体１２又はハードディスクドライブ１３に記録する。これにより制御部２０のＣＰＵ１５は、長時間録画モードによりテレビ番組を録画し得るようになされている。

一方、制御部２０のＣＰＵ１５は、ユーザインタフェース１４を介して標準録画モードによる番組録画の命令を受けた場合、フロントエンド３から供給された地上デジタル放送信号Ｄ１をスイッチ１０経由で記録再生制御部１１へ直接送出する。

記録再生制御部１１は、地上デジタル放送信号Ｄ１を例えばブルーレイディスク又はＤＶＤ等のディスク状記録媒体１２又はハードディスクドライブ１３に直接記録することにより、標準録画モードによりテレビ番組を録画し得るようになされている。

ところで制御部２０のＣＰＵ１５は、ディスク状記録媒体１２又はハードディスクドライブ１３にテレビ番組を録画する場合、ビデオストリームＤＶ２及びオーディオストリームＤＡ２をデマルチプレクサデコーダ５から特徴量抽出部９へ送出する。

特徴量抽出部９は、ビデオストリームＤＶ２に対して所定の特徴量抽出処理（図２において後述する）を実行することにより画像特徴量等を求め、それを制御部２０のＣＰＵ１５へ供給するようになされている。

なお特徴量抽出部９は、オーディオストリームＤＡ２に対しても所定の特徴量抽出処理を実行することが出来るが、ここでは特にビデオストリームＤＶ２に対する特徴量抽出処理についてのみ着目して説明する。

ここで、図２に示すように、特徴量抽出部９はビデオストリームＤＶ２をフレームサンプリング回路２１に入力すると共に、ショット区切検出回路２７に入力する。

フレームサンプリング回路２２は、ビデオストリームＤＶ２を例えば0.5秒間隔でサンプリングし、その結果得られるフレーム画像Ｆ３を縮小画像生成回路２２へ送出する。ここで、フレームサンプリング回路２２は、0.5秒のサンプリング間隔の限るものではなく、0.1秒や1.0秒等のその他種々のサンプリング間隔でサンプリングするようにしてもよい。

縮小画像生成回路２２は、フレーム画像Ｆ３に基づいて所定サイズのサムネイル画像ＳＧ４Ａを生成し、これを画像特徴量抽出ブロック２８へ送出するようになされている。

実際上、図３に示すように縮小画像生成回路２２は、例えばフレーム画像Ｆ３がアスペクト比16:9でなる1920×1080ピクセルである場合、そのフレーム画像Ｆ３を間引くことにより例えば128×96ピクセルのサムネイル画像ＳＧ４を生成する。なお、特徴量抽出部９では、縮小画像生成回路２２による間引処理の前に適切な帯域制限を行うための空間フィルタを設けてもよい。

このとき縮小画像生成回路２２は、128×96ピクセルのサムネイル画像ＳＧ４のうち、後述するアスペクト比4:3のフレーム画像のサムネイル画像と同じ領域を処理対象とするため、当該サムネイル画像ＳＧ４の両端部分をそれぞれ16ピクセル分だけ切り落としたサムネイル画像ＳＧ４Ａを生成する。

また縮小画像生成回路２２は、図３に示したように、例えばアスペクト比4:3でなる640×480ピクセルのフレーム画像Ｆ３Ａが供給された場合、そのフレーム画像Ｆ３Ａを間引くことにより例えば96×96ピクセルのサムネイル画像ＳＧ５Ａを生成する。

このときも縮小画像生成回路２２は、96×96ピクセルのサムネイル画像ＳＧ５Ａの両端部分にそれぞれ16ピクセル分だけ黒い画像領域を追加し、サムネイル画像ＳＧ４Ａと同じサイズの128×96ピクセルでなるサムネイル画像ＳＧ５についても生成する。

ここで特徴量抽出部９では、アスペクト比16:9の1920×1080ピクセルであるフレーム画像Ｆ３に基づき生成したサムネイル画像ＳＧ４Ａを対象として画像特徴量を算出する場合を想定して説明し、サムネイル画像ＳＧ５Ａを対象とした場合の説明については省略する。

画像特徴量抽出ブロック２８では、サムネイル画像ＳＧ４Ａのうち9分割した縦32×横32ピクセルの画像部分について順番に部分特徴量ＢＰ１、ＢＰ２、……、を抽出し、それらを全て連結することにより、サムネイル画像ＳＧ４Ａ全体の画像特徴量ＳＦＳＰを算出するようになされている。

ここで画像特徴量抽出ブロック２８は、フレーム画像Ｆ３の特徴を表すうえで十分な解像度を持つ領域に処理対象を限定することにより、処理負荷の軽減と算出時間の短縮化を図るようになされている。

実際上、画像特徴量抽出ブロック２８は、色ヒストグラム生成回路２３、色モーメント生成回路２４、エッジ方向ヒストグラム生成回路２５、ローカルバイナリパターン生成回路２６により構成され、縮小画像生成回路２２からのサムネイル画像ＳＧ４Ａをそれぞれ入力する。

色ヒストグラム生成回路２３は、図４に示すように、サムネイル画像ＳＧ４Ａのうち9分割した縦32×横32ピクセルの画像部分における例えばＲＧＢの各色チャンネルに対して、個々のピクセルにおける輝度値の頻度を求めることにより、各色チャンネルのそれぞれについて16ビンのＲヒストグラム、Ｇヒストグラム及びＢヒストグラムを生成する。

なお色ヒストグラム生成回路２３は、ＲＧＢの各色チャンネルに対してＲヒストグラム、Ｇヒストグラム及びＢヒストグラムを生成するのではなく、例えばＹ、Ｃｂ、Ｃｒの各色チャンネルに対して個々のピクセルにおける輝度値の頻度を求めることにより16ビンのＹヒストグラム、Ｃｂヒストグラム及びＣｒヒストグラムを生成するようにしても良い。

そして色ヒストグラム生成回路２３は、ＲＧＢの各色チャンネルに対する16ビンのＲヒストグラム、Ｇヒストグラム及びＢヒストグラムを連結することにより、サムネイル画像ＳＧ４Ａのうち縦32×横32ピクセルの画像部分に対する48次元（16×3＝48）の部分色ヒストグラムｃｈを生成する。

最後に色ヒストグラム生成回路２３は、サムネイル画像ＳＧ４Ａが縦32×横32ピクセルの画像部分が９個集合したものであるため、図３に示したように48次元の部分色ヒストグラムｃｈ（部分特徴量ＢＰ１、ＢＰ２、……、に相当する）を９個連結する。これにより色ヒストグラム生成回路２３は、最終的な432次元（48×9＝432）の色ヒストグラムＣＨを生成し、これを出力するようになされている。

なお、ここではサムネイル画像ＳＧ４が縦3個及び横3個の9領域に分割され、縦32×横32ピクセルの画像部分に対してそれぞれ部分色ヒストグラムｃｈが生成されているので、その部分色ヒストグラムｃｈのデータ自体には大まかな位置情報が反映されていることになる。

色モーメント生成回路２４は、ＲＧＢの各色チャンネルに対する値の平均、標準偏差、３次モーメントを求めるようになされている。ここで色モーメント生成回路２４は、１つの色チャンネルにつき３次元（平均、標準偏差、３次モーメント）であるため、縦32×横32ピクセルの画像部分に対しては全部で9次元（3×3＝9）の部分色モーメントｃｍ（図示せず）を生成する。

そして色モーメント生成回路２４は、サムネイル画像ＳＧ４Ａが縦32×横32ピクセルの画像部分が9個集合したものであるため、9次元の部分色モーメントｃｍ（部分特徴量ＢＰ１、ＢＰ２、……、に相当する）を９個連結することにより最終的な81次元（9×9＝81）の色モーメントＣＭを生成し、これを出力するようになされている。

この場合も、サムネイル画像ＳＧ４が縦3個及び横3個の9領域に分割され、縦32×横32ピクセルの画像部分に対してそれぞれ部分色モーメントｃｍが生成されているので、その部分色モーメントｃｍのデータ自体には大まかな位置情報が反映されていることになる。

なお色モーメントＣＭについては、Brief Descriptions of Visual Features for Baseline TRECVID Concept Detectors, Akira Yanagawa, Winston Hsu and Shih-Fu Chang, Columbia University ADVENT Technical Report#219-2006-5, July 25 2006(akira-Baseline-tr.pdf)に詳述されている。

エッジ方向ヒストグラム生成回路２５は、縦32×横32ピクセルの画像部分における画像内のエッジ部分を検出し、そのエッジ部分の輝度の勾配を求め、その勾配が最大となる方向を分解能１０度（３６方向）でヒストグラム化することにより部分エッジ方向ヒストグラムｅｄｈ（図示せず）を生成するようになされている。

このときエッジ方向ヒストグラム生成回路２５は、エッジ部分の頻度と、非エッジ部分の頻度とを合わせて３７ビンの部分エッジ方向ヒストグラムｅｄｈを得るようになされている。

ここでエッジ方向ヒストグラム生成回路２５は、サムネイル画像ＳＧ４Ａが縦32×横32ピクセルの画像部分が9個集合したものであるため、３７次元の部分エッジ方向ヒストグラムｅｄｈ（部分特徴量ＢＰ１、ＢＰ２、……、に相当する）を９個連結する。これによりエッジ方向ヒストグラム生成回路２５は、最終的な333次元（37×9＝333）のエッジ方向ヒストグラムＥＤＨを生成し、これを出力するようになされている。

この場合も、サムネイル画像ＳＧ４が縦3個及び横3個の9領域に分割され、縦32×横32ピクセルの画像部分に対してそれぞれ部分エッジ方向ヒストグラムｅｄｈが生成されているので、その部分エッジ方向ヒストグラムｅｄｈのデータ自体には大まかな位置情報が反映されていることになる。

ローカルバイナリパターン生成回路２６は、縦32×横32ピクセルの画像部分における画像内の対象ピクセルと、当該対象ピクセルと上下左右に隣接する8個の隣接ピクセルとの輝度の差分を２値化し、これをパターン分類して256種類のパターンを59種類に集約し、59次元の部分ローカルバイナリパターンｌｂｐ（図示せず）を生成するようになされている。

なお、詳しくは、Texture analysis with local binary patterns, Machine Vision Group, University of OULU.に詳述されている。

そしてローカルバイナリパターン生成回路２６は、サムネイル画像ＳＧ４Ａが縦32×横32ピクセルの画像部分が9個集合したものであるため、59次元の部分ローカルバイナリパターンｌｂｐ（部分特徴量ＢＰ１、ＢＰ２、……、に相当する）を９個連結する。これによりローカルバイナリパターン生成回路２６は、最終的な531次元（59×9＝531）のローカルバイナリパターンＬＢＰを生成し、これを出力するようになされている。

この場合も、サムネイル画像ＳＧ４が縦3個及び横3個の9領域に分割され、縦32×横32ピクセルの画像部分に対してそれぞれ部分ローカルバイナリパターンｌｂｐが生成されているので、その部分ローカルバイナリパターンｌｂｐのデータ自体には大まかな位置情報が反映されていることになる。

このように画像特徴量抽出ブロック２８では、サムネイル画像ＳＧ４Ａに対してそれぞれ求めた色ヒストグラムＣＨ、色モーメントＣＭ、エッジ方向ヒストグラムＥＤＨ及びローカルバイナリパターンＬＢＰを全て含め、当該フレーム画像Ｆ３に対する画像特徴量ＦＳＰとして出力し得るようになされている。

この場合、画像特徴量抽出ブロック２８では、フレーム画像Ｆ３を用いるのではなく、サムネイル画像ＳＧ４Ａに対して色ヒストグラムＣＨ、色モーメントＣＭ、エッジ方向ヒストグラムＥＤＨ及びローカルバイナリパターンＬＢＰを求めることにより、データ処理量を大幅に軽減し、処理負荷の低減するようになされている。

一方、ショット区切検出回路２７は、ビデオストリームＤＶ２を構成している全てのフレーム画像を対象として、隣接するフレーム画像間の輝度の差分値に基づいてショットの切り替わり点を意味するショット区切点ＳＣＰ（タイムコード）を検出するようになされている。

ここでショットとは、例えば撮影カメラがスイッチ（切り換えられた）されたときに映像の内容が大きく切り替わるが、そのように映像の内容が大きく切り替わるまでの一つの単位を示す。

このショット区切検出回路２７では、映像の内容が何時大きく切り替わるのか分からないために、ビデオストリームＤＶ２を構成している全てのフレーム画像を対象としてショット区切点ＳＣＰ（タイムコード）を検出して出力する。

従って特徴量抽出部９では、ショットに対するサムネイル画像ＳＧ４Ａ、画像特徴量ＦＳＰ及びショット区切点ＳＣＰを、ビデオストリームＤＶ２における特徴量として出力し得るようになされている。

これにより制御部２０のＣＰＵ１５は、ショットに対するサムネイル画像ＳＧ４Ａ、画像特徴量ＦＳＰ及びショット区切点ＳＣＰを用いてビデオストリームＤＶ２に含まれる複数のシーンに対して各シーンが何であるか（例えば、ジャンル、シーン内容等）を示すシーンラベルを確定し、それを用いてシーンインデックスを生成するようになされている。

このようにブルーレイディスクレコーダ１における制御部２０のＣＰＵ１５が、シーンインデックスを生成するまでの処理工程を、次に説明する。

［１−２．シーンインデックス生成処理手順］
ブルーレイディスクレコーダ１における制御部２０のＣＰＵ１５は、図５に示すように、ルーチンＲＴ１の開始ステップから入って次のステップＳＰ１へ移る。

ステップＳＰ１において制御部２０のＣＰＵ１５は、シーンインデックス生成過程においてデータを保持するハードディスクドライブ１３や、当該データを保持する際にバッファとして用いるＲＡＭ１７の所定領域を予め初期化し、次のステップＳＰ２へ移る。

ステップＳＰ２において制御部２０のＣＰＵ１５は、特徴量抽出部９により、ビデオストリームＤＶ２を構成しているフレーム画像Ｆ３を用いてサムネイル画像ＳＧ４Ａを生成し、ハードディスクドライブ１３に保存した後、次のステップＳＰ３へ移る。

ここで、図６におけるステップＳＰ２のサブルーチンに示すように、ステップＳＰ２１において制御部２０のＣＰＵ１５は、特徴量抽出部９のフレームサンプリング回路２１を介して、ビデオストリームＤＶ２から０．５秒間隔でサンプリングしたフレーム画像Ｆ３を取得し、次のステップＳＰ２２へ移る。

ステップＳＰ２２において制御部２０のＣＰＵ１５は、その取得したフレーム画像Ｆ３に基づいて所定サイズのサムネイル画像ＳＧ４Ａ（図３）を生成し、そのときのフレーム画像Ｆ３に付されているタイムコードを取得した後、次のステップＳＰ２３へ移る。

ステップＳＰ２３において制御部２０のＣＰＵ１５は、そのサムネイル画像ＳＧ４Ａ及びタイムコードをハードディスクドライブ１３の所定領域に保存した後、次のステップＳＰ３（図５）へ移る。

この場合、制御部２０のＣＰＵ１５は、図７（Ａ）に示すように、タイムコードＴＣと、サムネイル画像ＳＧ４Ａを構成するピクセルデータＰ_１、Ｐ_２、……、Ｐ_１０、Ｐ_１１、……、Ｐ_ｎ−１、Ｐ_ｎとを対応付けてハードディスクドライブ１３に保存する。

ステップＳＰ３（図５）において制御部２０のＣＰＵ１５は、フレーム画像Ｆ３のフレームスコアを算出し、次のステップＳＰ４へ移る。

ここでフレームスコアとは、そのフレーム画像Ｆ３の画像内容が例えば「野球」、「サッカー」、「ゴルフ」、「相撲」、「その他のスポーツ」、「非スポーツ」の何れのクラスであるかを示すクラスラベルの確からしさを表した値であり、確からしさが高い程、その値が大きくなり、確からしさが低い程、その値が小さくなる。

ここで、図８におけるステップＳＰ３のサブルーチンに示すように、ステップＳＰ３１において制御部２０のＣＰＵ１５は、サムネイル画像ＳＧ４Ａを用いて特徴量抽出部９の画像特徴量抽出ブロック２８によりフレーム画像Ｆ３の画像特徴量ＦＳＰを算出する。

また、このステップＳＰ３１において制御部２０のＣＰＵ１５は、画像特徴量ＦＳＰを算出すると共に、サムネイル画像ＳＧ４Ａの元となるフレーム画像Ｆ３のタイムコードＴＣを取得し、次のステップＳＰ３２へ移る。

ステップＳＰ３２において制御部２０のＣＰＵ１５は、画像特徴量ＦＳＰを基にフレームスコア（後述する）を算出し、次のステップＳＰ３３へ移る。

なお制御部２０のＣＰＵ１５は、ここで算出したフレームスコアがサムネイル画像ＳＧ４Ａから求めた画像特徴量ＦＳＰをベースにしているが、サムネイル画像ＳＧ４Ａがフレーム画像Ｆ３から生成されたものであるため、便宜上これをフレーム画像Ｆ３のフレームスコアとして用いるようになされている。

ステップＳＰ３３において制御部２０のＣＰＵ１５は、ステップＳＰ３２で算出したフレームスコアと、ステップＳＰ３１で取得したフレーム画像Ｆ３のタイムコードＴＣとをバッファとして用いられるＲＡＭ１７に一時的に保存し、次のステップＳＰ４へ移る。

ここで、フレームスコアを算出する際のフレームスコア算出手法を説明する。図９に示すように、制御部２０のＣＰＵ１５は、フレーム画像Ｆ３の画像内容が何であるかを示すクラスラベルを判別するため、予め想定される種類の例えば野球識別器ＤＢＢ、サッカー識別器ＤＳＣ、ゴルフ識別器ＤＧＦ、相撲識別器ＤＳＭ、その他のスポーツ識別器ＤＯＳＰ、非スポーツ識別器ＤＯＰ（以下、これらを各識別器Ｄと呼ぶ）を予め用意する。

このとき制御部２０のＣＰＵ１５は、画像特徴量ＦＳＰと、例えば野球クラスを正事例（野球：１）とし、野球以外クラスを負事例（野球以外：−１）とした正解ラベルＴＬ１との双方を予め与えておいたブースティングアルゴリズムＡＲＧ１を用いて学習させた野球識別器ＤＢＢを生成しておく。なお、ブースティングアルゴリズムについては、文献１「Y.Freund and R.E.Schapire,”Experiments with a New Boosting Algorithm”,Proc. Of The 13th Int’l Conf. on Machine Learning, pp.148-156(1996)」等に詳細が記されており、ここでは説明を省略する。

また、同様に制御部２０のＣＰＵ１５は、画像特徴量ＦＳＰと、例えばサッカークラスを正事例（サッカー：１）とし、サッカー以外クラスを負事例（サッカー以外：−１）とした正解ラベルＴＬ２との双方を予め与えておいたブースティングアルゴリズムＡＲＧ２を用いて学習させたサッカー識別器ＤＳＣを生成しておく。

なお、制御部１０のＣＰＵ１５は、野球識別器ＤＢＢ、サッカー識別器ＤＳＣと同様に、ブースティングアルゴリズム（図示せず）を用いて予め学習させることにより、ゴルフ識別器ＤＧＦ、相撲識別器ＤＳＭ、その他のスポーツ識別器ＤＯＳＰ、非スポーツ識別器ＤＯＰを生成しておくようになされている。

例えば野球識別器ＤＢＢであれば、画像特徴量ＦＳＰに基づいて、そのフレーム画像Ｆ３の画像内容が野球クラスを表す可能性が高ければ大きな値の野球スコアＳＣ１を出力し、野球以外クラスを表す可能性が高ければ小さな値の野球スコアＳＣ１を出力する。

同様にサッカー識別器ＤＳＣであれば、画像特徴量ＦＳＰに基づいて、そのフレーム画像Ｆ３の画像内容がサッカークラスを表す可能性が高ければ大きな値のサッカースコアＳＣ２を出力し、サッカー以外クラスを表す可能性が高ければ小さな値のサッカースコアＳＣ２を出力する。

なお、ゴルフ識別器ＤＧＦ、相撲識別器ＤＳＭ、その他のスポーツ識別器ＤＯＳＰ、非スポーツ識別器ＤＯＰについても同様であり、画像特徴量ＦＳＰに基づいてゴルフスコアＳＣ３、相撲スコアＳＣ４、その他のスポーツスコアＳＣ５及び非スポーツスコアＳＣ６を出力する。

これにより制御部２０のＣＰＵ１５は、野球識別器ＤＢＢ〜非スポーツ識別器ＤＯＰまでの各識別器に対して画像特徴量ＦＳＰを与えることにより、当該各識別器からそれぞれ野球スコアＳＣ１〜非スポーツスコアＳＣ６を出力することができる。

その結果、制御部２０のＣＰＵ１５は、各識別器から出力された野球スコアＳＣ１〜非スポーツスコアＳＣ６のうち最も値の大きなものが野球スコアＳＣ１であれば、そのフレーム画像Ｆ３の画像内容は野球クラスであると認識し得るようになされている。

なお、制御部２０のＣＰＵ１５は、ステップＳＰ３３でＲＡＭ１７に保存する際、野球スコアＳＣ１〜非スポーツスコアＳＣ６の全てをフレームスコアＦＳＣとして、フレーム画像Ｆ３のタイムコードＴＣと共に一時的に記憶するようになされている。

この場合、制御部２０のＣＰＵ１５は、図７（Ｂ）に示すように、タイムコードＴＣと、フレームスコアＦＳＣを構成している野球スコアＳＣ１〜非スポーツスコアＳＣ６とを対応付けてＲＡＭ１７に保存する。

ステップＳＰ４において制御部２０のＣＰＵ１５は、ステップＳＰ３で算出したフレームスコアＦＳＣに基づいてショットスコア（後述する）を算出し、次のステップＳＰ５（図５）へ移る。

ここで、図１０におけるステップＳＰ４のサブルーチンに示すように、ステップＳＰ４１において制御部２０のＣＰＵ１５は、特徴量抽出部９のショット区切検出回路２７により隣接するフレーム画像間の輝度の差分に基づいてショット区切点ＳＣＰを検出し、次のステップＳＰ４２へ移る。

ステップＳＰ４２において制御部２０のＣＰＵ１５は、ショット区切点ＳＣＰを検出したときのフレーム画像Ｆ３のタイムコードを取得し、次のステップＳＰ４３へ移る。

ステップＳＰ４３において制御部２０のＣＰＵ１５は、ＲＡＭ１７から一つ前のショット区切点〜ステップＳＰ４１で検出した現在のショット区切点ＳＣＰの間に存在する複数のフレーム画像Ｆ３に対するフレームスコアＦＳＣを読み出し、次のステップＳＰ４４へ移る。

ステップＳＰ４４において制御部２０のＣＰＵ１５は、複数のフレームスコアＦＳＣを用いて、野球クラス、サッカークラス、ゴルフクラス、相撲クラス、その他のスポーツクラス、非スポーツクラスのクラス毎にクラス平均値を算出し、これをショットスコアＳＨＣとして次のステップＳＰ４５へ移る。

ステップＳＰ４５において制御部２０のＣＰＵ１５は、ショット区切点ＳＣＰのタイムコードＴＣと、ステップＳＰ４４で求めたショットスコアＳＨＣとをＲＡＭ１７に保存した後、次のステップＳＰ５（図５）へ移る。

この場合、制御部２０のＣＰＵ１５は、図７（Ｃ）に示すように、タイムコードＴＣと、ショットスコアＳＨＣとを対応付けてＲＡＭ１７に保存する。

ステップＳＰ５（図５）において制御部２０のＣＰＵ１５は、ビデオストリームＤＶ２の終端までショットスコアＳＨＣを算出し終えたか否かを判定する。ここで否定結果が得られると、このことはビデオストリームＤＶ２の終端までショットスコアＳＨＣを算出し終えていないことを表しており、このとき制御部２０のＣＰＵ１５はステップＳＰ２に戻って上述した処理を繰り返す。

これに対してステップＳＰ５において肯定結果が得られると、このことはビデオストリームＤＶ２の終端までショットスコアＳＨＣを算出し終えたことを表しており、このとき制御部２０のＣＰＵ１５は次のステップＳＰ６へ移る。

ステップＳＰ６において制御部２０のＣＰＵ１５は、ビデオストリームＤＶ２の終端まで算出し終えたショットスコアＳＨＣに基づいてショットラベルを確定し、さらにシーン区切点とシーンラベルを確定することによりシーンインデックスを生成した後、次のステップＳＰ７へ移って処理を終了する。

ここで、図１１におけるステップＳＰ６のサブルーチンに示すように、ステップＳＰ６１において制御部２０のＣＰＵ１５は、ショット単位でそのショットの内容が何であるかを示すショットラベルを作成し、次のステップＳＰ６２へ移る。

ここで図１２に示すように、制御部２０のＣＰＵ１５は、例えばフレーム画像Ｆ３１〜Ｆ３５によって１つのショットＳＨＴが形成されている場合を考える。

ここでフレーム画像Ｆ３１は、野球スコアＳＣ１「８０」が最大スコアであるため、この画像内容についてはクラスラベル「野球」が相応しい。またフレーム画像Ｆ３２は、野球スコアＳＣ１「８５」が最大スコアであるため、この画像内容についてもクラスラベル「野球」が相応しい。

さらにフレーム画像Ｆ３３は、サッカースコアＳＣ２「９０」が最大スコアであるため、この画像内容についてはクラスラベル「サッカー」が相応しいということになる。

同様にして、フレーム画像Ｆ３４は、野球スコアＳＣ１「９０」が最大スコアであり、フレーム画像Ｆ３５は、野球スコアＳＣ１「７５」が最大スコアであるため、これらの画像内容については双方共にクラスラベル「野球」が相応しい。

このとき制御部２０のＣＰＵ１５は、ショットＳＨＴを構成する複数のフレーム画像Ｆ３１〜Ｆ３５のうち最大スコアであるサッカースコアＳＣ２「９０」を持つフレーム画像Ｆ３３のクラスラベル「サッカー」に基づいて、当該ショットＳＨＴがショットラベル「サッカー」であると判別した場合、誤りとなる可能性がある。

そこで制御部２０のＣＰＵ１５は、ショットＳＨＴを構成する複数のフレーム画像Ｆ３１〜Ｆ３５における野球スコアＳＣ１、サッカースコアＳＣ２、ゴルフスコアＳＣ３、相撲スコアＳＣ４、その他のスポーツスコアＳＣ５及び非スポーツスコアＳＣ６のクラス平均値をそれぞれ算出する。

そして制御部２０のＣＰＵ１５は、この場合、野球スコアＳＣ１が最大のクラス平均値を持つので、ショットＳＨＴの画像内容がショットラベル「野球」であると判別し確定するようになされている。

ステップＳＰ６２において制御部２０のＣＰＵ１５は、ステップＳＰ６１によりショットＳＨＴ単位のショットラベルを判別したので、複数のショットＳＨＴのショットラベルが切り替わる点をシーン区切点として検出し、次のステップＳＰ６３へ移る。

ステップＳＰ６３において制御部２０のＣＰＵ１５は、一つ前のシーン区切点から現在検出したシーン区切点まで共通しているショットＳＨＴのショットラベルをシーンラベルとする。そして制御部２０のＣＰＵ１５は、一つ前のシーン区切点に対応したフレーム画像に付されているタイムコードを取得し、シーンラベル及びタイムコードをシーンインデックスとしてハードディスクドライブ１３に保存し、次のステップＳＰ７へ移ってシーンインデックス生成処理手順を終了する。

ところで、上述したように制御部２０のＣＰＵ１５は、野球スコアＳＣ１〜ＳＣ６の最大のクラス平均値に基づいてショットＳＨＴ単位のショットラベルを判別するようにしたが、これでもショットラベルには誤りを含む可能性があるため、例えばビタビアルゴリズムを用いてショットＳＨＴ単位のショットラベルを判別することも可能である。

実際上、制御部２０のＣＰＵ１５は、ショットＳＨＴ毎に得られた各クラス（野球クラス〜非スポーツクラス）に対する各スコアＳＣ１〜ＳＣ６に加え、実際のテレビ番組の映像コンテンツでクラス間の遷移がどのように行われるかという知識を導入し、ショットＳＨＴ毎のショットラベルを確定するようになされている。

そのためのアルゴリズムとしては、例えば「Andrew J. Viterbi. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm, IEEE Transactions on information Theory 13(2):260-269, April 1967.」という文献２に詳述されているビタビアルゴリズムを制御部２０のＣＰＵ１５は応用することができる。

また、制御部２０のＣＰＵ１５は、例えば「G. D. Forney. The Viterbi algorithm. Proceedings of the IEEE61(3):268-278,March 1973」という文献３にも詳述されている文献２と同じビタビアルゴリズムを応用することもできる。

ここでビタビアルゴリズムについて文献３に基づき簡単に概略する。マルコフ過程によって与えられる有限状態系列と、その有限状態系列から生じる観測値系列を考えたとき、ある観測値系列が得られる確率は、当該有限状態系列に対応する状態値から一意に定まるものとする。

また、ある時刻の状態が定まったとき、次の時刻の状態がある状態値を取る条件付確率が求められているものとする。このような場合、実際の観測値系列が得られると、ビタビアルゴリズムによって最も確からしい状態系列を求めることができる。

本発明においては、有限状態系列の単位はショットＳＨＴ、観測値系列はショットＳＨＴを構成するフレーム画像Ｆ３の画像特徴量ＦＳＰ、状態値はショットＳＨＴのショットラベルに相当する。

さらに本発明においては、各ショットＳＨＴにおいてクラス毎のクラススコアが求められており、これを状態値と観測値系列の組み合わせの確率とに対応付けることができる。また、別途、実際のテレビ番組の映像コンテンツを用い、隣接するショットＳＨＴ間でのクラスの組み合わせを統計的に解析することによって、２つの時刻の状態に関する条件付確率を求めることができる。

以上に関する具体的なビタビアルゴリズムとしては、文献３から明らかである。すなわち本発明に当該ビタビアルゴリズムを適用し、ショットＳＨＴ毎のショットラベルの状態系列として最も確からしいものを得ることができることが分かる。

このようにして確定したショットＳＨＴ単位のショットラベルについて、制御部２０のＣＰＵ１５は、必要に応じてルール処理を実行し得るようにもなされている。

実際上、制御部２０のＣＰＵ１５は、例えば「非スポーツ」のショットラベルを挟んで「野球」のショットラベルが連続する場合、ルール処理により、これをまとめて一つの「野球」を表すシーンのシーンラベルとして確定するようになされている。

この場合、制御部２０のＣＰＵ１５は、最終的に確定したシーンの最初のシーン区切点に対応したフレーム画像に付されているタイムコードと、シーンラベルとをシーンインデックスとしてハードディスクドライブ１３に保存するようになされている。

このように制御部２０のＣＰＵ１５が上述したようにシーンインデックスを生成するまでの時系列の流れとして、ステップＳＰ２におけるサムネイル画像の保存処理、ステップＳＰ３におけるフレームスコアの算出処理、ステップＳＰ４におけるショットスコアの算出処理、ステップＳＰ６におけるシーンインデックスの生成処理のタイミングを図１３によって示す。

制御部２０のＣＰＵ１５は、フレームサンプリングにより０．５秒間隔でビデオストリームＶＤ２からサンプリングしたフレーム画像Ｆ３に基づいてサムネイル画像ＳＧ４Ａを生成してハードディスクドライブ１３に保存する。

そして制御部２０のＣＰＵ１５は、サムネイル画像ＳＧ４Ａに基づいて画像特徴量ＦＳＰを算出し、その画像特徴量ＦＳＰを構成する野球スコアＳＣ１〜非スポーツスコアＳＣ６をフレームスコアＦＳＣとして求めてＲＡＭ１７にバッファリングする。

そして制御部２０のＣＰＵ１５は、フレーム画像毎に監視していた結果、隣接フレーム画像間の差分に基づいてショット区切点を検出すると、ショット区切点を検出した時点までにバッファリングしていた複数のフレームスコアＦＳＣのうち最も高いクラス平均値を算出し、これをショットスコアＳＨＣとして算出する。

最後に制御部２０のＣＰＵ１５は、ビデオストリームＶＤ２の終端ＥＮＤまでショットスコアＳＨＣを算出してバッファリングした後で、シーン区切点まで複数のショットＳＨＴで構成される一つのシーンを示すシーンラベルに基づいてシーンインデックスＩＤＸを生成し、ハードディスクドライブ１３に保存して終了するようになされている。

このようにして制御部２０のＣＰＵ１５は、テレビ番組に含まれるシーンに対して正確なシーンラベルを付与したシーンインデックスＩＤＸを生成し得るようになされている。これにより制御部２０のＣＰＵ１５は、テレビ番組に含まれる複数のシーンに対してそれぞれ正確なシーンラベルを付与したシーンインデックスＩＤＸを生成し得ると共に、これをハードディスクドライブ１３に保持している複数のテレビ番組についてもシーンインデックスＩＤＸを生成し得るようになされている。

［１−３．シーンインデックスを用いた画面遷移］
次に、ＢＤレコーダ１において制御部２０のＣＰＵ１５が、シーンインデックスＩＤＸを用いてテレビ番組のシーンを切り換える画面遷移の流れについて具体的に説明する。

［１−３−１．一つのテレビ番組内におけるシーンインデックスを用いた画面遷移］
図１４に示すように制御部２０のＣＰＵ１５は、再生メニューが選択されると、予めハードディスクドライブ１３に録画した複数のテレビ番組のタイトルＴＬ１〜ＴＬ４をメニュー画面Ｇ１によって提示し、再生対象をユーザに対して選択させるようになされている。

制御部２０のＣＰＵ１５は、例えばタイトルＴＬ３によって示される「スポーツタイム」のテレビ番組が再生対象の映像コンテンツとして選択されたことを認識すると、そのコンテンツデータ（ＡＶＣＨＤ形式のストリームＤ４）をハードディスクドライブ１３から読み出す。

そして制御部２０のＣＰＵ１５は、そのコンテンツデータを、デマルチプレクサデコーダ５を介してデコードすることによりビデオストリームＤＶ２に復元し、表示制御部６及び出力インタフェース７経由でテレビジョン受像機に番組映像の再生画面Ｇ２を表示する。

このとき制御部２０のＣＰＵ１５は、再生画面Ｇ３において、このビデオストリームＤＶ２に対して予め「野球」、「サッカー」、「ゴルフ」、「相撲」のシーンラベルが付されたシーンインデックスＩＤＸ１〜ＩＤＸ４を、各シーンの最初のサムネイル画像ＳＧ４を用いてＧＵＩ表示する。

このとき制御部２０のＣＰＵ１５は、シーンインデックスＩＤＸ１〜ＩＤＸ４に対して各シーンの最初のサムネイル画像ＳＧ４をイメージとしてＧＵＩ表示するだけでなく、それぞれシーンラベルのタイトル（「野球」、「サッカー」、「ゴルフ」、「相撲」）を文字として表示するようになされている。

これによりユーザは、再生画面Ｇ３のＧＵＩ表示されたシーンインデックスＩＤＸ１〜ＩＤＸ４が示す各シーンの内容が具体的に何であるかを視覚的なイメージ及び文字の両方で正確に認識し得るようになされている。

更に制御部２０のＣＰＵ１５は、シーンインデックスＩＤＸ１〜ＩＤＸ４における各シーンの最初のサムネイル画像ＳＧ４に付されているタイムコードＴＣを用い、シーンインデックスＩＤＸ１〜ＩＤＸ４に対して、そのテレビ番組の中で、そのシーンの再生開始時刻（例えば、「野球」のシーンなら［０：０２］）を計算して表示する。

従ってユーザは、シーンインデックスＩＤＸ１〜ＩＤＸ４にそれぞれ表示された再生開示時刻に基づいて、「野球」のシーンなら番組開始から２分後に始まり、その再生時間が６分間であることについて瞬時に認識することができる。

同様にユーザは、「サッカー」のシーンなら番組開始から８分後に始まり、その再生時間が３分間であり、「ゴルフ」のシーンなら番組開始から１１分後に始まり、その再生時間が２分間であり、「相撲」のシーンなら番組開始から１３分後に始まり、その再生時間が２分間であることについても瞬時に認識することができる。

かくして制御部２０のＣＰＵ１５は、再生画面Ｇ３のＧＵＩ表示されたシーンインデックスＩＤＸ１〜ＩＤＸ４を介してユーザ所望の再生対象となるシーンを任意に選択させ、そのシーンの再生映像Ｇ４を表示し得るようになされている。

この場合、制御部２０のＣＰＵ１５は、シーンインデックスＩＤＸ２が選択され、当該シーンインデックスＩＤＸ２に対応した「サッカー」のシーンの再生映像Ｇ４を表示することができる。

［１−３−２．複数のテレビ番組に跨るシーンインデックスを用いた画面遷移］
図１５に示すように制御部２０のＣＰＵ１５は、再生メニューが選択されると、予めハードディスクドライブ１３に格納した複数のテレビ番組のタイトルＴＬ１〜ＴＬ４をメニュー画面Ｇ１によって提示し、再生対象をユーザに対して選択させるようになされている。

この場合、制御部２０のＣＰＵ１５は、ユーザの例えばサッカーに関するシーンだけを視聴したいという要求に応えるべく、ジャンル選択画面Ｇ１０を介して「野球」、「サッカー」、「ゴルフ」、「相撲」のうち「サッカー」をユーザに選択させる。

そして制御部２０のＣＰＵ１５は、ジャンル選択画面Ｇ１０を介して「サッカー」が選択された場合、タイトルＴＬ１〜ＴＬ４によって示されるテレビ番組の中で、「サッカー」と同一または類似するシーンラベルが付されたシーンインデックスＩＤＸ１１、ＩＤＸ２及びＩＤＸ１２をハードディスクドライブ１３から読み出して抽出する。

この場合、制御部２０のＣＰＵ１５は、タイトルＴＬ２〜ＴＬ４の枠を強調表示することにより、当該タイトルＴＬ２〜ＴＬ４によって示されるテレビ番組の中から、「サッカー」のシーンラベルが付されたシーンインデックスＩＤＸ１１、ＩＤＸ２及びＩＤＸ１２をそれぞれ抽出したことを黙示するようになされている。

それだけではなく制御部２０のＣＰＵ１５は、シーンインデックスＩＤＸ１１、ＩＤＸ２及びＩＤＸ１２に対して、それぞれタイトルＴＬ２、ＴＬ３及びＴＬ４のテレビ番組名、放送日時についても当該テレビ番組のメタデータから取得して表示し得るようになされている。

ここでシーンインデックスＩＤＸ１１、ＩＤＸ２及びＩＤＸ１２は、全て「サッカー」に関するシーンであり、ユーザにとっては、テレビ番組のタイトルＴＬ２〜ＴＬ４に拘わらず、ユーザ所望のシーンインデックスＩＤＸ１１、ＩＤＸ２及びＩＤＸ１２を好きな順番で選択し得るようになされている。

これにより制御部２０のＣＰＵ１５は、例えばシーンインデックスＩＤＸ２が選択された場合、当該シーンインデックスＩＤＸ２に対応した「サッカー」のシーンの再生映像Ｇ４を表示することができる。

このように制御部２０のＣＰＵ１５は、タイトルＴＬ２〜ＴＬ４によって示される複数のテレビ番組を跨いで、ユーザが希望するサッカーに関するシーンだけをシーンインデックスＩＤＸ１１、ＩＤＸ２及びＩＤＸ１２として提示し得るようになされている。

なお、この場合のシーンインデックスＩＤＸ１１、ＩＤＸ２及びＩＤＸ１２は、タイトルＴＬ１〜ＴＬ４によって示されるテレビ番組にそれぞれ対応しているので、シーンインデックスＩＤＸ１１のシーンの再生開始時刻が［０：１２］であり、シーンインデックスＩＤＸ２のシーンの再生開始時刻が［０：０８］であり、シーンインデックスＩＤＸ１２のシーンの再生開始時刻が［０：０９］であるように時系列にはなっていない。

このように制御部２０のＣＰＵ１５は、全て「サッカー」に関するシーンインデックスＩＤＸ１１、ＩＤＸ２及びＩＤＸ１２を提示することができるので、テレビ番組のタイトルＴＬ２〜ＴＬ４を選択させてから「サッカー」のシーンを選択させるというユーザの手間を省き、効率良く「サッカー」のシーンだけを連続して視聴させることができる。

［１−４．動作及び効果］
以上の構成において、ＢＤレコーダ１の制御部２０は、フレーム画像Ｆ３に対する画像特徴量ＦＳＰに基づいてフレームスコアＦＳＣを算出し、複数のフレームスコアＦＳＣに基づいてショットＳＨＴのショットスコアＳＨＣを算出し、その複数のショットスコアＳＨＣに基づいてそのシーンの内容に合致したシーンラベルを確定することによりシーンインデックスＩＤＸ１〜ＩＤＸ４等を生成する。

これによりＢＤレコーダ１の制御部２０は、テレビ番組に含まれる複数のシーンに対して、その内容に合致し、かつユーザにとって理解容易なシーンラベルを正確に付与したシーンインデックスＩＤＸ１〜ＩＤＸ４等を生成することができる。

かくしてＢＤレコーダ１の制御部２０は、テレビ番組の再生時、シーンの内容に沿って適切に分割されたシーン区切点で、見出しとして用いられるシーンインデックスＩＤＸ１〜ＩＤＸ４を提示することができる。

またＢＤレコーダ１の制御部２０は、シーンインデックスＩＤＸ１〜ＩＤＸ４に対してシーンラベルのタイトル（「野球」、「サッカー」、「ゴルフ」、「相撲」）を文字として表示することが出来る。

すなわち制御部２０は、シーンインデックスＩＤＸ１〜ＩＤＸ４に対して各シーンの最初のサムネイル画像ＳＧ４をイメージとしてＧＵＩ表示する際の画像中のテロップに対する表示箇所に制約されることなく、シーンインデックスＩＤＸ１〜ＩＤＸ４に対してシーンの内容に合致したシーンラベルを付与することができる。

これによりＢＤレコーダ１の制御部２０は、サムネイル画像ＳＧ４の画象中のテロップに惑わされることなく、シーンインデックスＩＤＸ１〜ＩＤＸ４に対して表示されたシーンラベルのタイトルを介して、そのシーンの内容をユーザに対して正確に把握させることができる。

さらにＢＤレコーダ１の制御部２０は、録画したテレビ番組中のシーンに対して、その内容を反映したシーンラベルを正確に付することができる。これによりＢＤレコーダ１の制御部２０は、従来のように一定時間間隔にサムネイル画像を表示する場合に比べて、シーンインデックスＩＤＸ１〜ＩＤＸ４の何れかを選択させるだけで、ユーザ所望のシーンだけをその最初から再生して瞬時に提示することができる。

さらにＢＤレコーダ１の制御部２０は、録画したテレビ番組中のシーンに対して、その内容を反映した意味のあるシーンラベルを付することができるので、同一もしくは類似するシーンラベルを有するシーンを複数のテレビ番組を跨いで集めることができる。

これによりＢＤレコーダ１の制御部２０は、シーンインデックスＩＤＸ１１、ＩＤＸ２及びＩＤＸ１２により同一もしくは類似するシーンを一覧表示させるという図１４に示したような新しい視聴形態を提供することができる。

以上の構成によれば、ＢＤレコーダ１は、テレビ番組に含まれる複数のシーンに対して、その内容と合致したシーンラベルを付与したシーンインデックスＩＤＸ１〜ＩＤＸ４を生成することができるので、ユーザ所望のシーンを容易に見つけ出させることができる。

＜２．他の実施の形態＞
なお上述した実施の形態においては、図１４においてインデックスＩＤＸ１〜ＩＤＸ４に対してシーンラベルのタイトル（「野球」、「サッカー」、「ゴルフ」、「相撲」）を文字として表示するようにした場合について述べた。しかしながら、本発明はこれに限らず、制御部２０のＣＰＵ１５は、図１６に示すように、シーンラベルとして「野球」、「サッカー」、「ゴルフ」、「相撲」等をイメージさせるアイコンＡＣ１〜ＡＣ４を表示するようにしても良い。

また上述した実施の形態においては、図２に示したような構成の特徴量抽出部９を用いるようにした場合について述べた。しかしながら、本発明はこれに限らず、図１７に示すように、ビデオストリームＤＶ２を最初に縮小画像生成回路２２によってサムネイル画像ＳＧ４Ａに変換し、これを用いてフレームサンプリング回路２１によりサンプリングし、かつショット区切検出回路２７によるショット区切点を検出するようにしても良い。

この場合、制御部２０のＣＰＵ１５は、最初にサムネイル画像ＳＧ４Ａに変換してデータ量を削減してしまうので、その後における処理負荷を大幅に軽減することができる。

さらに上述した実施の形態においては、ＢＤレコーダ１においてシーンラベルを付与したシーンインデックスＩＤＸ１〜ＩＤＸ４等を生成するようにした場合について述べた。しかしながら、本発明はこれに限らず、複数のテレビ番組をデータとして保持しているのであれば、例えばコンテンツ配信サーバにおいてＢＤレコーダ１と同様にシーンラベルを付与したシーンインデックスＩＤＸ１〜ＩＤＸ４等を生成するようにしても良い。この場合、コンテンツ配信サーバとしては、基本的な構成はＢＤレコーダ１の回路構成と同じであり、便宜上ここでは説明を省略する。

さらに上述した実施の形態においては、フレームスコアＦＳＣを算出する際、ブースティングアルゴリズムＡＲＧ１、ＡＲＧ２等を用いるようにした場合について述べた。しかしながら、本発明はこれに限らず、ＳＶＭ(Support Vector Machine)と呼ばれる統計的学習理論を用いてフレームスコアＦＳＣを算出するようにしても良い。ＳＶＭについては文献４「Bernhard E. Boser, Isabelle M.Guyon, Vladimir N. Vapnik “A Training Algorithm for Optimal Margin Classifiers “5th COLT, pp.144-152(1992) 」などに詳細が記されており、ここでは説明を省略する。

さらに上述した実施の形態においては、０．５秒間隔でビデオストリームＤＶ２をサンプリングして画像特長量ＦＳＰを求めるようにした場合について述べた。しかしながら、本発明はこれに限らず、ショットＳＨＴ毎にその中心時刻に近い１枚の代表フレーム画像を選択し、ショット単位で画像特徴量ＦＳＰを求めるようにしても良い。

さらに上述した実施の形態においては、ビタビアルゴリズムを用いてショットＳＨＴ単位のショットラベルを判別するようにした場合について述べた。しかしながら、本発明はこれに限らず、ビタビアルゴリズムを用いずに、ヒューリスティックなルールベースベースの処理でショット単位のショットラベルを確定するようにしても良い。例えば、実際のテレビ番組で１つのスポーツ種目の映像が１ショットだけしか存在しないという事例は稀であることから、最大スコアのクラスラベルをショットラベルとして採用すると、１ショットだけ前後のフレーム画像Ｆ３と異なるクラスラベルとなるような場合、そのショットのショットラベルを前後のショットのショットラベルと揃えてしまうことができる。

さらに上述した実施の形態においては、ルーチンＲＴ１のシーンインデックス生成処理手順（図５）において、ＣＰＵ１５が特徴量抽出部９を介してサムネイル画像ＳＧ４Ａを生成したり、画像特徴量ＦＳＰを算出した後にショットスコアを算出し、シーンインデックスを生成するようにした場合について述べた。しかしながら、本発明はこれに限らず、ハードウェアである画像特徴量抽出部９により予めサムネイル画像ＳＧ４Ａを生成し、画像特徴量ＦＳＰを算出した後、ＣＰＵ１５が画像特徴量抽出部９からの割り込みに処理完了を認識した後に、ショットスコアを算出し、シーンインデックスを生成するようにしても良い。

さらに上述した実施の形態においては、シーンラベルを付与したシーンインデックスＩＤＸ１〜ＩＤＸ４等を生成する電子機器としてＢＤレコーダ１を用いるようにした場合について述べた。しかしながら、本発明はこれに限らず、テレビ番組等のビデオコンテンツを保持し得る録画機能付きのテレビジョン受像機、携帯電話機、ノートブック型パーソナルコンピュータ、ゲーム機等のその他種々の電子機器を用いるようにしても良い。

さらに上述した実施の形態においては、画像特徴量抽出手段としての制御部２０及び特徴量抽出部９、フレームスコア算出手段、ショット区切点検出手段、ショットスコア算出手段及びシーンラベル生成手段としての制御部２０によって、本発明のシーンラベル生成装置としてのＢＤレコーダ１を構成するようにした場合について述べた。しかしながら、本発明はこれに限らず、その他種々の構成でなる画像特徴量抽出手段、フレームスコア算出手段、ショット区切点検出手段、ショットスコア算出手段及びシーンラベル生成手段により本発明のシーンラベル生成装置を構成するようにしても良い。

本発明のシーンラベル生成装置、シーンラベル生成方法及びコンテンツ配信サーバは、映像コンテンツだけではなく、ゲームコンテンツのシーンに対してシーンラベルを生成する場合においても適用することができる。

１……ＢＤレコーダ、２……アンテナ、３……フロントエンド、４、１０……スイッチ、５……デマルチプレクサデコーダ、６……表示制御部、７……出力インタフェース、８……エンコーダマルチプレクサ、９……特徴量抽出部、１１……記録再生制御部、１２……ディスク状記録媒体、１３……ハードディスクドライブ、１４……ユーザインタフェース、１５……ＣＰＵ、１６……ＲＯＭ、１７……ＲＡＭ、１９……バス、２０……制御部、２１……フレームサンプリング回路、２２……縮小画像生成回路、２３……色ヒストグラム生成回路、２４……色モーメント生成回路、２５……エッジ方向ヒストグラム生成回路、２６……ローカルバイナリパターン生成回路、２７……ショット区切検出回路。

Claims

映像コンテンツを構成している複数のフレーム画像から選択した任意のフレーム画像の画像特徴量を抽出する画像特徴量抽出手段と、
上記画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出すると共に、当該フレーム画像のタイムコードを取得するフレームスコア算出手段と、
上記映像コンテンツを構成している上記複数のフレーム画像について隣接フレーム画像間の変化量が所定の閾値を超えたときに一つの映像単位であるショットのショット区切点を検出するショット区切点検出手段と、
上記ショット区切点までの上記フレームスコアに基づいてクラス毎の上記クラススコアのクラス平均値を上記ショットのショットスコアとして算出すると共に、上記ショット区切点のタイムコードを取得するショットスコア算出手段と、
単一もしくは複数の上記ショットスコアに基づいて上記ショットのショットラベルを生成するショットラベル生成手段と、
複数の上記ショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、当該シーン区切点までの複数のショットラベルに基づいてシーンラベルを生成するシーンラベル生成手段と
を具えるシーンラベル生成装置。
上記映像コンテンツを保持する記憶手段と、
上記映像コンテンツを再生対象としてそのタイトルを表示する際、当該映像コンテンツに含まれる複数のシーンに対する上記シーンラベルをそれぞれ用いて複数のシーンインデックスをＧＵＩ表示するシーンインデックス表示手段と
を具える請求項１に記載のシーンラベル生成装置。
上記記憶手段は、複数の上記映像コンテンツを保持し、
上記シーンインデックス表示手段は、ユーザにより指定された名称と同一または類似する上記シーンラベルを複数の上記映像コンテンツからそれぞれ抽出して一覧表示する
請求項２に記載のシーンラベル生成装置。
上記シーンラベル生成手段は、複数の上記ショットラベルが変化する時点を上記シーン区切点として検出し、当該シーン区切点までの範囲を上記シーンとして上記シーンラベルを生成する
請求項１に記載のシーンラベル生成装置。
上記シーンラベル生成手段は、所定のビタビアルゴリズムに従って最も確からしい上記シーンラベルを生成する
請求項１に記載のシーンラベル生成装置。
画像特徴量抽出手段により、映像コンテンツを構成している複数のフレーム画像から選択した任意のフレーム画像の画像特徴量を抽出する画像特徴量抽出ステップと、
フレームスコア算出手段により、上記画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出すると共に、当該フレーム画像のタイムコードを取得するフレームスコア算出ステップと、
ショット区切点検出手段により、上記映像コンテンツを構成している上記複数のフレーム画像について隣接フレーム画像間の変化量が所定の閾値を超えたときに一つの映像単位であるショットのショット区切点を検出するショット区切点検出ステップと、
ショットスコア算出手段により、上記ショット区切点までの上記フレームスコアに基づいてクラス毎の上記クラススコアのクラス平均値を上記ショットのショットスコアとして算出すると共に、上記ショット区切点のタイムコードを取得するショットスコア算出ステップと、
ショットラベル生成手段により、単一もしくは複数の上記ショットスコアに基づいて上記ショットのショットラベルを生成するショットラベル生成ステップと、
シーンラベル生成手段により、複数の上記ショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、当該シーン区切点までの複数のショットラベルに基づいてシーンラベルを生成するシーンラベル生成ステップと
を有するシーンラベル生成方法。
複数の映像コンテンツを保持する記憶手段と、
上記映像コンテンツを構成している複数のフレーム画像から選択した任意のフレーム画像の画像特徴量を抽出する画像特徴量抽出手段と、
上記画像特徴量を用いて画像内容を表す各クラスのクラススコアをフレームスコアとして算出すると共に、当該フレーム画像のタイムコードを取得するフレームスコア算出手段と、
上記映像コンテンツを構成している上記複数のフレーム画像について隣接フレーム画像間の変化量が所定の閾値を超えたときに一つの映像単位であるショットのショット区切点を検出するショット区切点検出手段と、
上記ショット区切点までの上記フレームスコアに基づいてクラス毎の上記クラススコアのクラス平均値を上記ショットのショットスコアとして算出すると共に、上記ショット区切点のタイムコードを取得するショットスコア算出手段と、
単一もしくは複数の上記ショットスコアに基づいて上記ショットのショットラベルを生成するショットラベル生成手段と、
複数の上記ショットのショットラベルに基づいてシーンのシーン区切点を検出すると共に、当該シーン区切点までの複数のショットラベルに基づいてシーンラベルを生成するシーンラベル生成手段と
を具えるコンテンツ配信サーバ。