JP3891097B2

JP3891097B2 - インデックス生成方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Info

Publication number: JP3891097B2
Application number: JP2002323091A
Authority: JP
Inventors: 西尾　　卓; 幸紀南田; 尚也小谷; 行信谷口; 正仲西
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-11-06
Filing date: 2002-11-06
Publication date: 2007-03-07
Anticipated expiration: 2022-11-06
Also published as: JP2004159107A

Description

【０００１】
【発明の属する技術分野】
本発明は、インデックス生成方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、編集済みの映像とシナリオを対応付けることによって映像のインデックスを生成するためのインデックス生成方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
【０００２】
【従来の技術】
映像を制作するワークフローを考えると、通常まずどのようなシーンを組み合わせて映像を構成するかというシナリオを作り、そのシナリオに基づいて撮影、編集等を行うことによって最終的な映像（編集済み映像）を作るというフローになる。
【０００３】
ここで、シナリオとは、映像の企画構成をシーン毎に記述した文書で、例えば、シーンの時間長、タイトル、スケッチ、ナレーション、テロップ、ＢＧＭ、構図、カメラワーク、出演者、撮影場所等の情報が記述されているものである。これらすべての情報が記述されている必要はなく、また、記述するフォーマットも特に決まっているわけではない。手書きのものもあれば、ワードプロセッサや専用ソフトウェアで作成された電子ファイルや、それらを印刷したものもある。
【０００４】
一般に編集済み映像は、元のシナリオとの時間的な対応付けが曖昧である。シナリオに時間に関する記載がない場合もあれば、シーン毎の時間長が記載されている場合もあるが、編集過程で変更されることもあるため、シナリオの時間長と編集済み映像の時間長が必ずしも一致するとは限らない。このような現状では、シナリオの情報と編集済み映像の時間的な対応が曖昧なため、シナリオ記載のメタデータが映像のどの部分に対応するかわからず、シナリオに含まれている情報をシーン毎にメタデータとして付与することが難しい。
【０００５】
これを解決する手段の一つとして、映像制作時に構造中の位置を示す識別子を与えることによってシナリオと編集済み映像を時間的に対応付ける方法がある（例えば、特許文献１参照）。この方法によればシナリオと編集済み映像を時間的に対応付けることが可能となり、シナリオ情報をメタデータとして利用することが可能となる。
【０００６】
別のアプローチとして、編集済み映像からテロップ認識（例えば、特許文献２参照）や音声認識（例えば、特許文献３参照）等によって情報を抽出し、メタデータとして付与するという方法もある。
【０００７】
【特許文献１】
特開２０００−９２４１９「番組情報管理編集システムとそれに使用される階層化番組情報蓄積管理装置」
【特許文献２】
特開２００２−２７９４３３「映像中の文字検索方法及び装置」
【特許文献３】
特開２００２−１７５３０４「映像検索装置及びその方法」
【０００８】
【発明が解決しようとする課題】
しかしながら、上記の「番組情報管理編集システムとそれに使用される階層化番組情報蓄積管理装置」を用いて編集済み映像とシナリオを対応付けるには、映像制作時にカメラで一つのショットを撮影する度に識別子を与える必要があるので、映像完成後に対応付けを行う必要が生じたとしても、撮影段階で識別子を付与していなければシナリオ情報を関連付けることができないという問題がある。また、企画、撮影、編集のすべての段階において、識別子を与えたり記録したりするための機材が必要となり導入コストが高いという問題がある。
【０００９】
勿論、編集済み映像とシナリオを人手で対応付けることも考えられるが、映像に含まれる膨大なシーンすべてに手作業で対応付けを行うことは時間的コストが高いという問題がある。
【００１０】
さらに、編集済み映像からテロップ認識や音声認識により情報を抽出してメタデータとして付与する方法では、抽出可能な情報はシナリオに含まれる情報の一部でしかなく、認識精度も１００％とはいえない。
【００１１】
本発明は、上記の点に鑑みなされたもので、企画時のシナリオ文書を編集済み映像と対応付けて有効かつようするため、映像が完成した後に少ない作業量でシナリオと編集済み映像を時間的に対応付けるためのインデックス生成方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【００１２】
ここで、インデックスとは、シナリオ記述のシーン毎に、予測開始時間、予測終了時間、予測時間長、シーンのタイトル等のメタデータを記述したものである。
【００１３】
【課題を解決するための手段】
図１は、本発明の原理を説明するための図である。
【００１４】
本発明（請求項１）は、実時間長計測手段、予測時間長算出手段、時間長比較手段、予測時間長修正手段、インデックス生成手段と、を有し、編集済み映像とシナリオ文書を元に映像とシナリオを対応付ける映像に対するインデックスを生成するためのコンピュータであるインデックス生成装置が行うインデックス生成方法において、
実時間長計測手段が行う、編集済み映像から映像全体の実時間長を求める実時間長計測過程（ステップ１）と、
予測時間長算出手段が行う、機械可読である形式のシナリオが入力されると、該シナリオからシーン毎の予測時間長と映像全体の予測時間長を算出する予測時間算出過程（ステップ２）と、
時間長比較手段が行う、編集済み映像全体の実時間長とシナリオから算出した映像全体の予測時間長の比を求める時間長比較過程（ステップ３）と、
予測時間長修正手段が行う、比を用いてシナリオから算出したシーン毎の予測時間長を修正する予測時間長修正過程（ステップ４）と、
インデックス生成手段が行う、シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成過程（ステップ５）と、を行う。
【００１５】
本発明（請求項２）は、実時間長計測手段、文字数算出手段、文字数比算出手段、予測時間長算出手段、インデックス生成手段と、を有し、編集済み映像とシナリオ文書を元に映像とシナリオを対応付ける映像に対するインデックスを生成するためのコンピュータであるインデックス生成装置が行うインデックス生成方法において、
実時間長計測手段が行う、編集済み映像から映像全体の実時間長を求める実時間長計測過程と、
文字数算出手段が行う、機械可読である形式のシナリオが入力されると、該シナリオに記載されているシーン毎のナレーションやコメント、台詞の全部または一部の文字数を数え、シーン毎に含まれる文字数を算出する文字数算出過程と、
文字数比算出手段が行う、シーン毎の文字数の比を求める文字数比算出過程と、
予測時間長算出手段が行う、シーン毎の文字数比と映像全体の実時間長を対比させて、シーン毎の予測時間長を算出する予測時間長算出過程と、
インデックス生成手段が行う、シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成過程と、を行う。
【００１６】
また、本発明（請求項３）は、インデックス生成過程終了後に、
編集済み映像からカット点と該カット点の時間を検出し、
修正候補となる検出されたカット点の時間と予測時間長修正過程において算出されたシーン毎の予測開始時間を比較して該カット点のいずれかの時間を修正後の予測開始時間とし、
シナリオから算出されたシーン毎の予測開始時間と予測時間長を修正した時間情報を記述したインデックスを生成する過程を更に行う。
【００１７】
また、本発明（請求項４）は、インデックス生成過程終了後に、
シナリオからシーン毎にメタデータを抽出し、
抽出したメタデータをシーン毎に記述したインデックスを生成する過程を更に行う。
本発明（請求項５）は、編集済み映像とシナリオ文書を元に映像とシナリオを対応付ける映像に対するインデックスを生成するためのコンピュータによるインデックス生成装置において、
編集済み映像から映像全体の実時間長を求める実時間長計測手段と、
機械可読である形式のシナリオが入力されると、該シナリオからシーン毎の予測時間長と映像全体の予測時間長を算出する予測時間長算出手段と、
編集済み映像全体の実時間長とシナリオから算出した映像全体の予測時間長の比を求める時間長比較手段と、
比を用いてシナリオから算出したシーン毎の予測時間長を修正する予測時間長修正手段と、
シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成手段と、を有する。
本発明（請求項６）は、編集済み映像とシナリオ文書を元に映像とシナリオを対応付ける映像に対するインデックスを生成するためのコンピュータによるインデックス生成装置において、
編集済み映像から映像全体の実時間長を求める実時間長計測手段と、
機械可読である形式のシナリオが入力されると、該シナリオに記載されているシーン毎のナレーションやコメント、台詞の全部または一部の文字数を数え、シーン毎に含まれる文字数を算出する文字数算出手段と、
シーン毎の文字数の比を求める文字数比算出手段と、
シーン毎の文字数比と映像全体の実時間長を対比させて、シーン毎の予測時間長を算出する予測時間長算出手段と、
シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成手段と、を有する。
【００１８】
本発明（請求項７）は、請求項１乃至４のいずれか１項に記載のインデックス生成方法をコンピュータで実行するインデックス生成プログラムである。
【００１９】
本発明（請求項８）は、請求項７記載のプログラムを格納したコンピュータ読み取り可能な記録媒体である。
【００２０】
上記のように、本発明では、オペレータが編集済み映像を再生し、映像の全てに目を通してシーン毎の開始点にラベル付けを行う際に、本発明で生成されるインデックスにより開始点が存在する区間を絞り込むことが可能となるため、映像すべてに目を通す必要がなくなり、作業を省力化することができる。
【００２１】
また、本発明では、シナリオシーンの予定開始時間が記載されていない場合にもインデックスを生成することが可能となる。
【００２２】
さらに、インデックス生成の際に編集済みのカット点を用いることで、インデックス中のシーンの予定開始時間をより正確な情報に修正することが可能となる。
【００２３】
また、インデックスにシーンの開始時間の情報だけでなく、シナリオの情報をメタデータとして記述することで、キーワードによるシーン探索が可能となる。
【発明の実施の形態】
以下、図面と共に本発明の実施の形態を説明する。
【００２４】
［第１の実施の形態］
図２は、本発明の第１の実施の形態におけるインデックス生成のフローチャートである。
【００２５】
同図に示すフローチャートは、実時間長計測ステップ（ステップ１０１）、予測時間長算出ステップ（ステップ１０２）、時間長比較ステップ（ステップ１０３）、予測時間長修正ステップ（ステップ１０４）、インデックス生成ステップ（ステップ１０５）より構成される。
【００２６】
以下、図２に基づいてインデックス作成の動作を詳細に説明する。
【００２７】
本発明では、シナリオに記述されている完成予定の映像の時間長と、実際の編集済み映像の時間長にずれがあることから、そのずれをおおまかに修正したインデックスを生成することを目的とする。
【００２８】
まず、実時間長計測ステップ（ステップ１０１）の入力は、既に編集済みの映像となる。映像のジャンルや、内容、編集方法や記録媒体については、特に制限しない。
【００２９】
ステップ１０１では、この入力された編集済み映像から映像全体の実時間長Ｌ１を求める。例えば、編集済みの映像がＶＨＳ等のテープに録画されている場合には、再生デッキ等を用いてカウンタの開始値と終了値の差分により時間長を求める。また、ＭＰＥＧ等の電子フォーマットで録画されている場合には、ファイルのプロパティから映像の時間長を得ることができる。ここで、例えばステップ１０１の出力として編集済みの映像の実時間長Ｌ１＝２００（ｓ）が得られたとする。
【００３０】
次に、ステップ１０２の入力は、上記編集済み映像を制作するときに使用したシナリオとなる。コンピュータプログラムとして実施する場合には、シナリオが機械可読である形式になっているものとする。例えば、図３のように、シーン時間長２０１、タイトル２０２、スケッチ２０３、ナレーション２０４、テロップ２０５、ＢＧＭ２０６が記述されているシナリオが入力されたとする。
【００３１】
このシナリオから各シーン（１〜ｎ）の予測時間長Ｓ1 〜Ｓn を算出する。図３のシナリオのように、予め各シーンに時間長２０１が記載されている場合には、その値をそのまま編集済み映像の予測時間長Ｓ1 〜Ｓn とする。例えば、シナリオにシーンｉの時間長が“０：２０”と記載されていたら、シーンｉの予測時間長Ｓi を“Ｓi ＝２０（ｓ）”とする。ところでシナリオには、シーン毎の時間長を記載する代わりに、シーン毎の開始時間が記載されている場合がある。この場合には、シーンｉの予測時間長Ｓ1 〜Ｓn を、
Ｓi ＝Ｔi+1 −Ｔi
により求める。但し、Ｔi はシーンｉの開始時間とする。
【００３２】
さらに、全体の予測時間長Ｌ２を
Ｌ２＝Ｓ1 ＋Ｓ2 ＋…＋Ｓn
により算出する。
【００３３】
図３のシナリオの場合、各シーンの予測時間長は、
Ｓ1 ＝９０（ｓ），
Ｓ2 ＝５０（ｓ），
Ｓ3 ＝４０（ｓ）
であり、全体の予測時間長は、
Ｌ２＝Ｓ1 ＋Ｓ2 ＋Ｓ3 ＝１８０（ｓ）
となる。
【００３４】
ステップ１０３の入力は、ステップ１０１で得られた編集済み映像の実時間長Ｌ１とステップ１０２で得られた予測時間長Ｌ２となる。
【００３５】
ステップ１０３では、編集済み映像から算出された全体の実時間長Ｌ１とシナリオから算出された全体の予測時間長Ｌ２の比Ｒ＝Ｌ１／Ｌ２を求める。
【００３６】
図３のシナリオの場合
Ｒ＝Ｌ１／Ｌ２＝２００／１８０＝１０／９
となる。
【００３７】
ステップ１０４では、ステップ１０３で求めた比Ｒを用いて、ステップ１０２で得られた各シーンの予測時間長Ｓ1 〜Ｓn を修正する。修正後の予測時間長Ｓ’1 〜Ｓ’n を、
Ｓ’1 ＝Ｓ’1 ＊Ｒ，Ｓ’2 ＝Ｓ’2 ＊Ｒ，…, Ｓ’n ＝Ｓ’n ＊Ｒ
の計算式により得る。
【００３８】
図３のシナリオの場合、修正済みの各シーンの予測時間長は、
Ｓ’1 ＝Ｓ1 ＊Ｒ＝１００（ｓ），
Ｓ’2 ＝Ｓ2 ＊Ｒ≒５６（ｓ），
Ｓ’3 ＝Ｓ3 ＊Ｒ≒４４（ｓ）
となる。
【００３９】
ステップ１０５では、ステップ１０４で得られた修正済みのシーン毎の予測時間長Ｓ’1 〜Ｓ’n 及び映像の実時間長Ｌ１を用いて、図４のように各シーン番号３０１、予測開始時間３０２、予測終了時間３０３、予測時間長３０４、映像全体の開始時間３０５、終了時間３０６、時間長３０７を記述したインデックスを生成する。
【００４０】
ここでシーン１の予測開始時間３０２及び映像全体の開始時間３０５は必ず“０：００”とし、修正後の予測時間長３０４を加算していくことで、そのシーンの予測終了時間３０３及び次のシーンの予測開始時間３０２を順次算出する。
【００４１】
図４のインデックスはシーン１が０：００〜１：４０、シーン２が１：４０〜２：３６、シーン３が２：３６〜３：２０に存在することを示している。
【００４２】
ステップ１０５で生成されたインデックスのシーンの予測開始時間と予測時間長は必ずしも正確ではないが、シナリオに記述されているシーンの開始時間や時間長に比べ、実際の編集済み映像のシーン開始時間、時間長に近くなっている可能性が高い。
【００４３】
ここで生成されたインデックスの予測開始時間は、通常、編集済み映像の開始時間と比べ誤差が生じている。そこで、この誤差を考慮に入れて、シーンの実際の開始時間が存在する目安となる範囲を記述したインデックスを生成してもよい。例えば、予測時間長の修正前後の差程度の誤差があると考えると、図５のインデックスが生成される。例えば、シーンｉの修正前と修正後の予測時間長の差をｄi 、予測終了時間をＴi とすると、範囲表現した場合のシーンｉの予測終了時間は、（Ｔi −ｄi ）〜（Ｔi ＋ｄi ）と表すことができる。そして予測終了時間の範囲に合わせて、予測時間長、次シーンの予測開始時間の修正も行う。このとき予測終了時間の範囲を次シーンでの予測開始時間の範囲とし、予測時間長の範囲には、予測開始時間と予測終了時間の範囲で最小の値と最大の値を用いる。但し、最初のシーンの予測開始時間と最後のシーンの予測終了時間については、編集済み映像より算出した正確な値であるため範囲表示を行う必要がない。
【００４４】
例えば、シーン１の修正前の予測時間長は９０（ｓ）であり、修正後の予測時間長は１００（ｓ）であるから差分は１０（ｓ）となる。そしてシーン１の予測終了時間は、１：４０であるから、この値から±１０（ｓ）を計算して、１：３０〜１：５０が予測終了時間の目安の範囲となる。このとき、シーン１の開始時間は、０：００であるから、この区間の最小値と最大値を求めるとシーン１の予測時間長は、９０〜１１０ｓとなる。この手順を繰り返せば、図５のインデックスが作成される。
【００４５】
本実施の形態によって生成されたインデックスに記載されているシーンの開始時間情報は、編集済み映像のシーン毎の開始時間に近い値となっていることが期待できる。よって、編集済み映像から正確なシーン開始時間を得るためにオペレータが映像を全てを見なくても、本実施の形態により生成されたインデックスに記述されたシーン開始時間の前後、または記述されている範囲を中心に探せばよく、作業を省力化することができる。
【００４６】
また、インデックス生成のために映像撮影時の特殊な装置、手順が不要である。
【００４７】
［第２の実施の形態］
本実施の形態では、シナリオに時間に関する記述がない場合のインデックス生成方法について説明する。
【００４８】
図６は、本発明の第２の実施の形態におけるシナリオの例であり、シナリオに時間に関する記述がない例を示す。図７は、本発明の第２の実施の形態におけるインデックス生成のフローチャートである。
【００４９】
図７におけるステップ２０１及びステップ２０５は、前述の第１の実施の形態のステップ１０１及びステップ１０５と同様であるのでその説明を省略する。
【００５０】
例えば、図６のような時間に関する記述がないシナリオをステップ２０２に入力する。ステップ２０２では、このシナリオ中のシーン毎に記述されている文字数をカウントする。ここで、シーンｉの文字数をｒi とする。
【００５１】
図６のシナリオでは、シーン１に記述されているナレーションが８５６文字、シーン２に記述されているナレーションが６３２文字であるとする。本実施の形態では、シナリオに記載されているナレーション、コメント、台詞等のうち、ナレーションの文字数をカウントしｒi とするが、コメントや、台詞等の文字数をｒi としてもよいし、それらすべての合計の文字数をｒi としてもよい。シナリオにナレーションや、コメント、台詞等の文字が記載されていないシーンがある場合には、そのシーンが規定の文字数または、時間長を持つと仮定して、予め定めた適当な値ａをｒi とする。例えば、ａにはシーン毎の平均文字数を利用する。
【００５２】
ステップ２０３では、ステップ２０２で求められた文字数を元に、シーン毎の比ｒ1 ：ｒ2 ：…：ｒn を算出する。図６のシナリオの例では、ｒ1 ：ｒ2 ＝８５６：６３２となる。
【００５３】
ステップ２０４では、ステップ２０１で得られた編集済み映像の実時間長Ｌ１とステップ２０３で得られた比ｒ1 ：ｒ2 ：…：ｒn から各シーンの予測時間長Ｓ1 〜Ｓn を算出する。各シーンの予測時間長は次のようになる。
【００５４】
Ｓ1 ＝Ｌ１＊ｒ1 ／（ｒ1 ＋ｒ2 ＋…＋ｒn ）
Ｓ2 ＝Ｌ１＊ｒ2 ／（ｒ1 ＋ｒ2 ＋…＋ｒn ）
…
Ｓn ＝Ｌ１＊ｒn ／（ｒ1 ＋ｒ2 ＋…＋ｒn ）
ステップ２０１で得られた編集済み映像の実時間長が３００（ｓ）であるとき、図６の例では、シーン１、シーン２の予測時間長Ｓ1 ，Ｓ2 が、
Ｓ1 ＝３００＊８５６／（８５６＋６３２）≒１７３（ｓ），
Ｓ2 ＝３００＊６３２／（８５６＋６３２）≒１２７（ｓ），
と算出される。
【００５５】
本実施の形態では、シナリオに時間情報の記述がない場合についても、おおまかな時間を記述したインデックスの生成が可能になり、前述の第１の実施の形態と同様の効果が得られる。
【００５６】
また、本実施の形態では、文字数をカウントしたが、シーン毎に含まれるカット数を利用することもできる。
【００５７】
［第３の実施の形態］
本実施の形態では、編集済みの映像のカット点の時間情報を利用してシーンの予測開始時間の修正を行う方法について説明する。
【００５８】
図８は、本発明の第３の実施の形態におけるシーンの予測時間の修正方法のフローチャートである。
【００５９】
ここで、カット点とはショット（カメラで連続的に撮影された映像区間）のつなぎ目のことである。このカット点がシーンとシーンの切れ目の候補となる。但し、すべてのカット点がシーンとシーンの切れ目となるわけではない。図８において、ステップ３０１〜３０５は、前述の第１の実施の形態のステップ１０１〜ステップ１０５と同様であるので、その説明は省略する。ステップ３０１〜ステップ３０５の代わりに、第２の実施の形態のステップ２０１〜ステップ２０５の手順でも本実施の形態は実現できる。
【００６０】
ステップ３０６での入力は編集済みの映像となる。ステップ３０６では、この編集済み映像から、映像の特徴量によりカット点を求める。そのための方法としては、“特開２００２−２１８３７６「カット検出装置及びカット検出方法のプログラムを記録した記録媒体」”等の既存の技術を用いてカット点をその時間と共に検出する。
【００６１】
図９は、本発明の第３の実施の形態における映像からカット点を検出した状態を示している。同図は、映像フレームの時間的な並びを模式的に表したもの８０１があり、それから、それぞれ検出されたカット点におけるフレーム８０２、８０３、８０４が示されている。同図の例では、検出された３つのカット点の時間が、１：３３（フレーム８０２）、２：０５（フレーム８０３）、２：４０（フレーム８０４）となっている。
【００６２】
ステップ３０７では、ステップ３０６で検出したカット点と、ステップ３０５で生成されたインデックスのシーン毎の予測開始時間を比較する。
【００６３】
例えば、ステップ３０５で生成される図４のインデックスの例の場合、シーンの予測開始時間は“００：００，０１：４０，０２：３６”となっている。
【００６４】
シーンの正確な開始時間はステップ３０６で検出されたカット点のいずれかである可能性が高いため、このインデックスの予測開始時間とカット点の検出時間を比較し、予測開始時間の修正を行う。修正方法として、シーンの予測開始時間に最も近いカット点の検出時間を修正後のシーン予測開始時間とする。
【００６５】
図１０は、本発明の第３の実施の形態における予測開始時間の修正例を示す。同図では、シーンの予測開始時間と編集済み映像のカット点の時間との対応を示しており、編集済み映像をタイムラインで表したもの９０１、９０５、検出されたカット点９０２、９０３、９０４、シナリオから得られた予測開始時間９０６、９０７が示されている。それぞれ図１０のようにシーン予測開始時間を最も近いカット点を用いて、１：４４（９０６）が、１：３３（９０２）に、２：３６（９０７）が２：４０（９０４）のように修正される。
【００６６】
但し、カット点を検出する際に、検出漏れが発生している可能性もある。そこで、シーンの予測開始時間と最も近いカット点の時間との間隔が予め定められた時間長以上である場合には、修正を行わないようにしてもよい。
【００６７】
また、最も近いカット点が正しいシーンの開始点とは限らないため、予測開始時間の前後Ｄの範囲内に存在するカット点から、オペレータが目視により判断し、対応するカット点を選び出してもよい（Ｄは予め定められた時間長とする）。あるいは、予測開始時間の前後に存在するＭ個のカット点から同様に選び出してもよい（Ｍは予め定められた個数）。
【００６８】
ステップ３０８では、ステップ３０７で修正されたシーン毎の予測開始時間を用いてインデックスを生成する。生成されたインデックスは図１１のようになる。
【００６９】
本実施の形態によれば、編集済みの映像からカット点を検出し、前述の第１の実施の形態または、第２の実施の形態で生成されたインデックスのシーン毎の予測開始時間と比較し、修正することで、インデックス中の予測時間情報をより正確なものとすることが可能である。
【００７０】
［第４の実施の形態］
本実施の形態では、インデックス生成において、時間だけでなく、シナリオからシーン毎に出現頻度の高いキーワードや、タイトルに含まれるキーワード、人物の位置や、構図、ＢＧＭなどを抽出し、当該シーンに対するメタデータ（付属情報）を付与する例を説明する。
【００７１】
図１２は、本発明の第４の実施の形態におけるインデックス生成のフロチャートである。ステップ４０１〜４０５は、第１の実施の形態のステップ１０１〜ス１０５と同様であるため、その説明は省略する。また、本実施の形態では、ステップ４０１〜４０５の代わりに、第２の実施の形態におけるステップ２０１〜２０５、または、第３の実施の形態のステップ３０１〜３０５の手順を用いてもよい。
【００７２】
ステップ４０６では、シナリオよりメタデータを抽出する。メタデータとしては、例えば、タイトル、出演者名、出演者の数、ナレーションやコメントに含まれるキーワード、使用されているＢＧＭ、テロップ、構図等があげられる。
【００７３】
タイトル、出演者名、出演者数、使用されているＢＧＭ、テロップ、構造等の情報については、オペレータがシナリオに記述されている情報を項目毎にインデックスに転記する。シナリオに記載されていない項目は、インデックスでは空欄とする。インデックスの項目は、必要に応じて追加してもよいし、あるいは、一部だけを用いてもよい。
【００７４】
キーワードの抽出方法についえは、例えば、“特開１９９６−９５９８２「キーワード抽出装置」”等の既存技術により、ナレーションの文章を単語単位に切り分けて、すべての単語をそのままキーワードとして用いる。あるいは、各単語の出現頻度をカウントし、出現頻度の高いものから上位１０個を選択してもよい。または、オペレータが手作業でシナリオからキーワードを抽出してもよい。
【００７５】
ここで、インデックスに記述するキーワードはできるだけ他のシーンに含まれないことが望ましい。そのためには、シーン毎にシナリオに含まれる各単語の出現頻度をカウントし、異なるシーンの出現頻度上位１０個に同じ単語が含まれている場合には、その共通する単語をキーワードから除外する。あるいは、予め定められた数以上のシーンに同じ単語が含まれていれば、その単語をキーワードから除外する。このようにして、共通するキーワードを削除したり、キーワードとなりにくくしたりすることで、各シーンの特徴を表現したメタデータとなる。
【００７６】
例えば、ステップ４０６で、オペレータが図３のシナリオのシーン１から「姓名」、「４６億年」、シーン２から「進化」、シーン３から「人類」のキーワードを抽出し、タイトル、テロップ、ＢＧＭのシナリオ記載の情報を転記したとすると、ステップ４０７により生成されるインデックスは図１３のようになる。
【００７７】
このようなメタデータを付与したインデックスを生成すると、前述の第１、第２、第３の実施の形態における効果に加え、オペレータがキーワードを用いてシーン検索を行い、そのシーンの予測開始時間をもとに、対応する映像区間を見つけることが可能となる。
【００７８】
なお、上記の実施の形態における図２、図７、図８、図１２に示すフローチャートをプログラムとして構築し、インデックス生成装置として利用されるコンピュータにインストールし、ＣＰＵ等の制御手段により実行することが可能である。
【００７９】
また、構築されたプログラムを、インデックス生成装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、本発明を実施する際にコンピュータにインストールすることも可能である。
【００８０】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【００８１】
【発明の効果】
上述のように本発明によれば、生成されたインデックスに記載されているシーンの開始時間情報は、編集済み映像のシーン毎の開始時間に近い値となっていることが期待できる。よって編集済み映像から正確なシーン開始時間を得るためにオペレータが映像のすべてをみなくても、生成されたインデックスに記述されたシーン開始時間の前後だけを探せばよく、オペレータの作業を省力化することができる。
【００８２】
そして、本発明では、シナリオにシーン毎の時間に関する情報の記載がない場合においてもインデックスを生成することが可能となり、また、編集済みの映像のカット点の時間情報を利用することで、インデックスのシーン開始時間情報を正確な値に近づけることが可能となる。
【００８３】
さらに、オペレータがあるキーワードに関連するシーンを探したい場合には、検索キーワードが含まれるシーンの開始時間情報を生成されたインデックスより参照することで目的のシーンを容易に見つけることが可能となる。
【００８４】
本発明では、上記の手段を実現するために映像撮影時の特殊な装置や、手順が不要である。
【００８５】
また、画像や音声の信号特徴といった構成単位ではなく、シナリオに基づいて内容に意味のある構成単位（シーン）の開始点を記述したインデックスを生成しているため、シーンの開始点の映像を並べることで映像全体の構造や映像の概要を把握することが可能である。
【図面の簡単な説明】
【図１】本発明の原理を説明するための図である。
【図２】本発明の第１の実施の形態におけるインデックス生成のフローチャートである。
【図３】本発明の第１の実施の形態における入力されるシナリオの例である。
【図４】本発明の第１の実施の形態における生成されるインデックスの例である。
【図５】本発明の第１の実施の形態における誤差を考慮したインデックスの生成例である。
【図６】本発明の第２の実施の形態におけるシナリオの例である。
【図７】本発明の第２の実施の形態におけるインデックス生成のフローチャートである。
【図８】本発明の第２の実施の形態におけるシーン予測時間の修正方法のフローチャートである。
【図９】本発明の第３の実施の形態における映像からカット点を検出した状態を示す図である。
【図１０】本発明の第３の実施の形態における予想開始時間の修正例である。
【図１１】本発明の第３の実施の形態における生成されたインデックスの例である。
【図１２】本発明の第４の実施の形態におけるインデックス生成のフローチャートである。
【図１３】本発明の第４の実施の形態における生成されたインデックスの例である。
【符号の説明】
２０１シーンの時間長
２０２タイトル
２０３スケッチ
２０４ナレーション
２０５テロップ
２０６ＢＧＭ
３０１各シーン番号
３０２予測開始時間
３０３予測終了時間
３０４予測時間長
３０５映像全体の開始時間
３０６終了時間
３０７時間長
８０１映像フレームの時間的な並び
８０２，８０３，８０４検出されたカット点におけるフレーム

Claims

実時間長計測手段、予測時間長算出手段、時間長比較手段、予測時間長修正手段、インデックス生成手段と、を有し、編集済み映像とシナリオ文書を元に映像とシナリオを対応付ける映像に対するインデックスを生成するためのコンピュータであるインデックス生成装置が行うインデックス生成方法において、
前記実時間長計測手段が行う、前記編集済み映像から映像全体の実時間長を求める実時間長計測過程と、
前記予測時間長算出手段が行う、機械可読である形式のシナリオが入力されると、該シナリオからシーン毎の予測時間長と映像全体の予測時間長を算出する予測時間長算出過程と、
前記時間長比較手段が行う、前記編集済み映像全体の実時間長と前記シナリオから算出した映像全体の予測時間長の比を求める時間長比較過程と、
前記予測時間長修正手段が行う、前記比を用いて前記シナリオから算出したシーン毎の予測時間長を修正する予測時間長修正過程と、
前記インデックス生成手段が行う、シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成過程と、からなることを特徴とするインデックス生成方法。
実時間長計測手段、文字数算出手段、文字数比算出手段、予測時間長算出手段、インデックス生成手段と、を有し、編集済み映像とシナリオ文書を元に映像とシナリオを対応付ける映像に対するインデックスを生成するためのコンピュータであるインデックス生成装置が行うインデックス生成方法において、
前記実時間長計測手段が行う、前記編集済み映像から映像全体の実時間長を求める実時間長計測過程と、
前記文字数算出手段が行う、機械可読である形式のシナリオが入力されると、該シナリオに記載されているシーン毎のナレーションやコメント、台詞の全部または一部の文字数を数え、シーン毎に含まれる文字数を算出する文字数算出過程と、
前記文字数比算出手段が行う、前記シーン毎の文字数の比を求める文字数比算出過程と、
前記予測時間長算出手段が行う、前記シーン毎の文字数比と前記映像全体の実時間長を対比させて、前記シーン毎の予測時間長を算出する予測時間長算出過程と、
前記インデックス生成手段が行う、シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成過程と、
からなることを特徴とするインデックス生成方法。
前記インデックス生成過程終了後に、
前記編集済み映像からカット点と該カット点の時間を検出し、
修正候補となる検出されたカット点の時間と前記予測時間長修正過程において算出されたシーン毎の予測開始時間を比較して該カット点のいずれかの時間を修正後の予測開始時間とし、
前記シナリオから算出されたシーン毎の前記予測開始時間と前記予測時間長を修正した時間情報を記述したインデックスを生成する過程を更に行う請求項１乃至２記載のインデックス生成方法。
前記インデックス生成過程終了後に、
前記シナリオからシーン毎にメタデータを抽出し、
抽出したメタデータをシーン毎に記述したインデックスを生成する過程を更に行う請求項１乃至３記載のインデックス生成方法。
編集済み映像とシナリオ文書を元に映像とシナリオを対応付ける映像に対するインデックスを生成するためのコンピュータによるインデックス生成装置において、
前記編集済み映像から映像全体の実時間長を求める実時間長計測手段と、
機械可読である形式のシナリオが入力されると、該シナリオからシーン毎の予測時間長と映像全体の予測時間長を算出する予測時間長算出手段と、
前記編集済み映像全体の実時間長と前記シナリオから算出した映像全体の予測時間長の比を求める時間長比較手段と、
前記比を用いて前記シナリオから算出したシーン毎の予測時間長を修正する予測時間長修正手段と、
シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成手段と、
を有することを特徴とするインデックス生成装置。
編集済み映像とシナリオ文書を元に映像とシナリオを対応付ける映像に対するインデックスを生成するためのコンピュータによるインデックス生成装置において、
前記編集済み映像から映像全体の実時間長を求める実時間長計測手段と、
機械可読である形式のシナリオが入力されると、該シナリオに記載されているシーン毎のナレーションやコメント、台詞の全部または一部の文字数を数え、シーン毎に含まれる文字数を算出する文字数算出手段と、
前記シーン毎の文字数の比を求める文字数比算出手段と、
前記シーン毎の文字数比と前記映像全体の実時間長を対比させて、前記シーン毎の予測時間長を算出する予測時間長算出手段と、
シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成手段と、
を有することを特徴とするインデックス生成装置。
請求項１乃至４のいずれか１項に記載のインデックス生成方法をコンピュータで実行することを特徴とするインデックス生成プログラム。
請求項７記載のプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。