JP4192703B2 - Content processing apparatus, content processing method, and program - Google Patents
Content processing apparatus, content processing method, and program Download PDFInfo
- Publication number
- JP4192703B2 JP4192703B2 JP2003188908A JP2003188908A JP4192703B2 JP 4192703 B2 JP4192703 B2 JP 4192703B2 JP 2003188908 A JP2003188908 A JP 2003188908A JP 2003188908 A JP2003188908 A JP 2003188908A JP 4192703 B2 JP4192703 B2 JP 4192703B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- unit
- content
- time code
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、コンテンツ処理装置、コンテンツ処理方法及びプログラムに関する。
【0002】
【従来の技術】
近年、情報のマルチメディア化が進み、映像情報、音声情報およびテキスト情報等とを含むマルチメディアコンテンツの情報量は、急激に増大している。これらの情報を記憶しておき、後に必要に応じて再び呼び出すことにより、より有効に利用することができる。
【0003】
このため、このようなマルチメディアコンテンツを有効に利用できるようにしたコンテンツ処理装置がある。
このコンテンツ処理装置は、映像情報に付加されている音声情報に基づいて音声認識を行い、音声認識結果であるテキスト情報と映像情報とを構造化する。
【0004】
複数種類の情報を対応付けるシステムの一例として、原稿上の文字を文字認識して電子化した第1テキストと、音声情報を音声認識して電子化した第2テキストとから最適な第3テキストを生成して、デジタルデータのテキスト情報を得る電子化テキスト作成システムがある(例えば、特許文献1参照)。
【0005】
また、映像情報に付加されている音声情報にもとづいて音声認識を行い、音声認識結果であるテキスト情報と映像情報とを構造化するシステムがある(例えば、特許文献2参照)。
【0006】
さらに、映像情報、音声情報、テキスト情報等をデジタル化し、それらの情報と、それらの情報の時間的関連を示す時間情報とを保存するマルチメディア情報処理装置がある(例えば、特許文献3及び特許文献4参照)。
【0007】
【特許文献1】
特開2001−282779号公報(第3−8頁、図1)
【特許文献2】
特開2002−189728号公報(第3頁、図1)
【特許文献3】
特開平8−253209号公報(第3−8頁、図5)
【特許文献4】
特開2002−278974号報(第4頁−第6頁、1図)
【0008】
【発明が解決しようとする課題】
しかし、特許文献1に記載されている従来のコンテンツ処理装置では、原稿と音声認識処理結果のテキストとのマッチング処理を行うので、より正確なテキスト情報を自動的に作成することができる。しかし、特許文献1には、映像情報等の他の情報との対応付けに関する開示がないので、特許文献1に記載された技術を映像情報、音声情報およびテキスト情報の構造化処理に適用する場合には、人為的に構造化処理を行わなくてはならない。
【0009】
また、特許文献2に記載されている従来のコンテンツ処理装置では、映像情報と映像情報に付加されている音声情報とを構造化することができるが、特許文献2には、さらにテキスト情報を構造化することに関して何ら開示されていない。
【0010】
さらに、特許文献3に記載されている従来のコンテンツ処理装置では、映像情報、音声情報およびテキスト情報等の各情報間の構造化処理を、入力された時間における時間情報を用いて行っているが、時間情報は、映像情報、音声情報およびテキスト情報等を作成するときに付加されている必要がある。従って、時間情報が付加されていない場合には、テキスト情報、映像情報および音声情報を自動的に対応付けることはできず、対応付けのために人手を要することになる。
【0011】
特許文献4に記載されている従来のコンテンツ処理装置では、テキスト情報である映画やドラマ、演劇の台本に時間情報が記載されていることを想定し、映像情報の経過時間と比較することにより、テキスト情報と映像情報の対応付けを行っている。しかし、時間情報は台本に記載されていないことが多い。時間情報が記載されている場合でも、実際の撮影や編集によって台本と映像に時間的ズレがある場合が多い。特にテレビドラマのようにシーンが1秒以下で切り替わる場合には、これらのずれが大きく影響し、対応付けができなくなる可能性が高い。
【0012】
さらに何れの従来のコンテンツ処理装置でも、音声認識に大きく依存しているが、実際のテレビ番組では、人物が登場していても発言の無いシーンや、音声環境が悪く、音声認識が困難である場合が多い。また、出演者のアドリブにより発言内容が台本と大きく異なってしまい、音声情報とテキスト情報を対応付けられない場合がある。
【0013】
また、音声情報とテキスト情報との対応付けが困難であれば、利用可能なコンテンツを生成するには、時間を要することになり、コンテンツを利用するには、限界がある。
【0014】
本発明は、このような従来の問題点に鑑みてなされたもので、コンテンツを容易に利用することが可能なコンテンツ処理装置、コンテンツ処理方法及びプログラムを提供することを目的とする。
【0015】
【課題を解決するための手段】
この目的を達成するため、本発明の第1の観点に係るコンテンツ処理装置は、
映像情報及び音声情報を含むコンテンツと前記コンテンツの筋書きを文字データで表現した台本情報との対応付けを行うコンテンツ処理装置において、
前記コンテンツの認識処理を行って、前記コンテンツが含む各場面の特徴部分を文字データで表現した画像認識文字情報及び音声認識文字情報を生成する認識部と、
前記認識部が生成した画像認識文字情報及び音声認識文字情報の前記特徴部分をそれぞれ抽出して区切り、区切った各部分の開始時刻と終了時刻とを示すタイムコードを生成するタイムコード生成部と、
前記台本情報の特徴部分を取得して、取得した特徴部分に基づいて前記台本情報を各場面毎に区切り、前記認識部が生成した前記画像認識文字情報と前記音声認識文字情報とを、前記タイムコード生成部が生成したタイムコードが示す位置で分割し、分割した前記画像認識文字情報と前記音声認識文字情報とが一致しない場合でもそれぞれを正しいものと判断して、前記台本情報の各場面と分割した前記画像認識文字情報と前記音声認識文字情報との対応付けを行い、前記台本情報の各場面と分割した前記画像認識文字情報と前記音声認識文字情報との対応関係を示す対応情報を生成するマッピング部と、
前記マッピング部が生成した対応情報と前記タイムコード生成部が生成したタイムコードとに基づいて、前記台本情報の各場面と各場面のタイムコードとの関係を示す構造化情報を、必要なコンテンツを検索するための情報として生成する構造化処理部と、を備えたものである。
【0018】
前記台本情報の画面構成を予測して、予測した画面構成を前記台本情報に付加して前記マッピング部に出力するシーン予測部を備えてもよい。
【0019】
前記台本情報と、前記コンテンツと、前記タイムコード生成部が生成したタイムコードと、前記構造化処理部が生成した構造化情報と、を格納するためのデータ格納部を備えてもよい。
【0020】
前記データ格納部は、
前記コンテンツを格納するコンテンツ格納部と、
前記台本情報と前記構造化情報とを格納するテキストファイル格納部と、
前記タイムコードを格納するタイムコード格納部と、を備えたものであってもよい。
【0021】
前記構造化処理部は、前記テキストファイル格納部における前記台本情報を収納した台本情報ファイルと前記タイムコードを収納したタイムコードファイルとを生成し、前記台本情報ファイルの各区切りの開始アドレスと終了アドレスと、前記タイムコードファイルにおける各区切りのタイムコードの開始アドレスと終了アドレスとを示す管理情報を生成し、
前記データ格納部は、前記管理情報を格納する管理情報格納部を備えたものであってもよい。
【0022】
前記データ格納部は、
前記台本情報をマークアップアップランゲージファイルとして記憶するマークアップアップランゲージファイル格納部を備えたものであってもよい。
【0023】
前記データ格納部に格納された前記台本情報と前記コンテンツとを、入力された検索条件に基づいて同期させて出力する同期データ出力部を備えたものであってもよい。
【0024】
前記同期データ出力部は、
前記台本情報とコンテンツとから必要な場面を抽出するための検索条件を入力し、前記検索条件に対応する場面の台本情報とコンテンツとを出力する入出力部と、
前記入出力部に入力された検索条件に対応する台本情報における場面を特定し、特定した前記場面に対応するタイムコードを抽出する検索制御部と、
抽出された前記タイムコードに対応するコンテンツの場面を特定し、特定した場面のコンテンツと検索条件に対応する台本情報とを同期させる同期処理部と、
前記同期処理部が同期した当該場面に対応するコンテンツと台本情報とを前記入出力部に出力する同期処理部と、を備えたものであってもよい。
【0025】
本発明の第2の観点に係るコンテンツ処理方法は、
映像情報及び音声情報を含むコンテンツと前記コンテンツの筋書きを文字データで表現した台本情報との対応付けを行うコンテンツ処理方法であって、
前記コンテンツの認識処理を行って、前記コンテンツが含む各場面の特徴部分を文字データで表現した画像認識文字情報及び音声認識文字情報を生成するステップと、
前記生成された画像認識文字情報及び音声認識文字情報の前記特徴部分をそれぞれ抽出して区切り、区切った各部分の開始時刻と終了時刻とを示すタイムコードを生成するステップと、
前記台本情報の特徴部分を取得して、取得した特徴部分に基づいて前記台本情報を各場面毎に区切り、前記生成した前記画像認識文字情報と音声認識文字情報とを、生成した前記タイムコードが示す位置で分割し、分割した前記画像認識文字情報と前記音声認識文字情報とが一致しない場合でもそれぞれを正しいものと判断して、前記台本情報の各場面と分割した前記前記画像認識文字情報と前記音声認識文字情報との対応付けを行い、前記台本情報の各場面と分割した前記画像認識文字情報と前記音声認識文字情報との対応関係を示す対応情報を生成するステップと、
前記生成した対応情報と前記生成したタイムコードとに基づいて、前記台本情報の各場面と各場面のタイムコードとの関係を示す構造化情報を、必要なコンテンツを検索するための情報として生成するステップと、
前記台本情報、コンテンツ、タイムコード、構造化情報を記憶するステップと、を備えたものである。
【0026】
本発明の第3の観点に係るプログラムは、
コンピュータに、
前記コンテンツに含まれている映像情報及び音声情報の認識処理を行って、前記コンテンツが含む各場面の特徴部分を文字データで表現した画像認識文字情報及び音声認識文字情報を生成する手順、
前記生成された画像認識文字情報及び音声認識文字情報の前記特徴部分をそれぞれ抽出して区切り、区切った各部分の開始時刻と終了時刻とを示すタイムコードを生成する手順、
前記コンテンツの筋書きを文字データで表現した台本情報の特徴部分を取得して、取得した特徴部分に基づいて前記台本情報を各場面毎に区切り、前記生成した前記画像認識文字情報と前記音声認識文字情報とを、生成した前記タイムコードが示す位置で分割し、分割した前記画像認識文字情報と前記音声認識文字情報とが一致しない場合でもそれぞれを正しいものと判断して、前記台本情報の各場面と分割した前記前記画像認識文字情報と前記音声認識文字情報との対応付けを行い、前記台本情報の各場面と分割した前記画像認識文字情報と前記音声認識文字情報との対応関係を示す対応情報を生成するステップと、
前記生成した対応情報と前記生成したタイムコードとに基づいて、前記台本情報の各場面と各場面のタイムコードとの関係を示す構造化情報を、必要なコンテンツを検索するための情報として生成する手順、
前記台本情報、コンテンツ、タイムコード、構造化情報を記憶する手順、
を実行させるためのものである。
【0027】
【発明の実施の形態】
以下、本発明の実施の形態に係るコンテンツ処理装置を図面を参照して説明する。
本実施の形態に係るコンテンツ処理装置の構成を図1に示す。
コンテンツ処理装置は、同期データ生成部1と、データ格納部2と、同期データ出力部3と、からなる。
【0028】
尚、コンテンツホルダ4は、映像情報と音声情報とが記録された映像メディア5と、映像情報に関連する文書が記載されているテキストメディア6とを保有しているホルダである。
【0029】
映像メディア5、テキストメディア6は、外部記録媒体であって、磁気記録テープ、DVD(Digital Versatile Disk)が用いられる。また、記録容量は少ないものの、映像メディア5、テキストメディア6に、フレキシブルディスク、MD(Mini Disc;登録商標)、MO(Magneto-Optic)、CD−ROM(Compact Disk Read-Only Memory)等を用いることもできる。
【0030】
テレビ放送におけるドラマ番組の場合、テキストメディア6には、ドラマ番組の台本のデータがテキスト情報として記録される。このテキスト情報は、コンテンツの筋書きを文字データで表現したものである。また、映像メディア5には、ドラマ番組の映像情報と、台詞に従って発声した俳優の発声音等の音声情報と、が記録される。
【0031】
コンテンツホルダ4から取り出された映像メディア5、テキストメディア6に記録されたデータは、同期データ生成部1に入力される。
【0032】
同期データ生成部1は、映像メディア5とテキストメディア6とに記録されているデータを取り出してデータ処理を行い、同期したデータを生成するものである。
【0033】
同期データ生成部1は、テキスト入力部11と、シーン予測部12と、映像音声入力部13と、画像認識部14と、音声認識部15と、タイムコード生成部16と、マッピング部17と、構造化処理部18と、を備えて構成される。
【0034】
テキスト入力部11は、テキストメディア6からテキスト情報を読み出すものである。尚、テキストメディア6がアナログデータを記録した記録媒体である場合、テキスト入力部11は、このテキストメディア6からアナログデータを読み出すため、例えば、OCR(光学式文字読み取り)装置と、デジタル−アナログ変換器と、を備える(図示せず)。テキスト入力部11は、テキストメディア6から読み出したテキスト情報をシーン予測部12に出力する。
【0035】
シーン予測部12は、テキスト入力部11から出力されたテキスト情報に基づいて、各シーンの画面構成および音声構成を予測するものである。画面構成とは、画面内に映っている人物や物の名称や動きのことをいう。また、音声構成とは、シーン内の人物の声や物音、音楽や効果音のことをいう。
【0036】
シーン予測部12は、画面構成および音声構成を予測するため、ルール、例えば、台本内にカメラワークに対する指示が無い限り、台本記入の人物の顔が映っているといったルール、主語が省略されている場合は、前のシーンのト書きの主語を使うといったルールを予め蓄積する。
【0037】
そして、シーン予測部12は、蓄積したルールとテキスト入力部11から出力されたテキスト情報とに基づいて、台本に記述されている各シーンの画面構成および音声構成を予測する。各シーンの画面構成および音声構成の予測については、台本に記述してある内容をシーン毎に羅列するだけで十分である。
【0038】
記述があいまいな場合、例えば、テレビドラマの台本に、“人物Aが部屋から出て行く”という記述がある場合、画面内に人物Aがいなくなったと明記されていなくても、シーン予測部12は、現在の場面設定と人物の行動とから、この人物Aが画面から消えたと推測する。
シーン予測部12は、予測した各シーンの画面構成及び音声構成を、テキスト情報に付加してマッピング部17に出力する。
【0039】
映像音声入力部13は、映像メディア5から映像情報、音声トラックに記録されている音声情報を取り出すものである。尚、映像メディア5がアナログデータを記録した記録媒体の場合に映像メディア5からアナログデータを読み出すため、映像音声入力部13は、ビデオキャプチャ等を備える。そして、映像音声入力部13は、映像メディア5からアナログ映像情報、アナログ音声情報を読み出し、ビデオキャプチャ等を用いてAVI形式又はMPEG形式のデジタル映像情報、デジタル音声情報に変換する。
映像音声入力部13は、取り出した映像情報、音声情報を、それぞれ、画像認識部14、音声認識部15に出力する。
【0040】
画像認識部14は、映像音声入力部13から出力された映像情報について画像認識処理を行い、画像認識結果として、画像認識文字情報を生成するものである。この画像認識文字情報は、映像情報が含む各場面の特徴部分を文字データで表現したものである。例えば、映像に登場人物として刑事Aの顔が映っている場合、画像認識部14は、画像認識結果として、「刑事Aの顔」という画像認識文字情報を生成する。
【0041】
画像認識部14は、このような画像認識処理を行うため、映像情報から、カット、カメラワーク、照明環境、背景、登場人物、表情、顔の向き、年代、性別、髪型、化粧、人物の動作、画面内の物体、物体の動作について、全てのまたは一部の特徴部分を取り出す。そして、画像認識部14は、取り出した特徴部分に基づいて区切って分割し、画像認識処理を行う。
【0042】
また、画像認識部14は、映像情報をタイムコード生成部16に出力するとともに、映像情報の分割位置を示す情報をタイムコード生成部16に出力する。
【0043】
音声認識部15は、映像音声入力部13から出力された音声情報について音声認識処理を行い、音声認識結果として、音声認識文字情報を生成するものである。音声認識文字情報は、音声情報が含む各場面の特徴部分を文字データで表現したものである。例えば、音声に登場人物としての刑事Aの声が含まれている場合、音声認識部15は、音声認識結果として、「刑事Aの声」という音声認識文字情報を生成する。
【0044】
音声認識部15は、このような音声認識処理を行うため、発言の内容、話者、音楽、効果音、その他の非言語音声、無音区間について、全てのまたは一部の特徴部分を取り出す。
【0045】
また、音声認識部15は、生成した音声認識文字情報について、単語切り出し処理を行い、音声情報を各単語に分割する。そして、音声認識部15は、音声情報とともに、音声情報を各単語に分割したときの分割位置を示す情報をタイムコード生成部16に出力する。
【0046】
タイムコード生成部16は、画像認識部14、音声認識部15から出力された情報に基づいて、画像、音声に関するタイムコードを生成するものである。タイムコードは、映像情報、音声情報の分割位置の開始と終了の時刻情報を示すものである。
【0047】
タイムコード生成部16は、画像に含まれている特徴部分に基づいて、以下のようなタイムコードを生成する。
(1)カットタイムコード:画像情報におけるカットの開始時刻と終了時刻とを示す。
(2)カメラワークタイムコード:カメラワークの開始時刻と終了時刻とを示す。
(3)照明環境タイムコード:照明環境の開始時刻と終了時刻とを示す。
(4)背景タイムコード:背景の開始時刻と終了時刻とを示す。
(5)登場人物タイムコード:登場人物の登場開始時刻と終了時刻とを示す。
(6)顔特徴タイムコード:人物の顔の向きや表情、化粧といった顔特徴の開始時刻と終了時刻とを示す。
(7)人物特徴タイムコード:年代、性別、髪型、化粧、衣服、背格好といった人物特徴の開始時刻と終了時刻とを示す。
(8)人物動作タイムコード:人物の動作の開始時刻と終了時刻とを示す。
(9)物体タイムコード:物体の登場開始時刻と終了時刻とを示す。
(10)物体動作タイムコード:物体の動作の開始時刻と終了時刻とを示す。
【0048】
また、タイムコード生成部16は、音声に含まれている特徴部分に基づいて、以下のようなタイムコードを生成する。
(11)単語タイムコード:音声情報における各単語の開始時刻と終了時刻とを示す。
(12)話者タイムコード:音声情報における各話者の発言開始時刻と終了時刻とを示す。
(13)非言語音声タイムコード:叫び声や笑い声、ため息などの音声情報における、非言語音声の開始時刻と終了時刻とを示す。
(14)音楽タイムコード:音声情報における音楽の開始時刻と終了時刻とを示す。
(15)効果音タイムコード:効果音の開始時刻と終了時刻とを示す。
(16)無音区間タイムコード:無音区間の開始時刻と終了時刻とを示す。
【0049】
タイムコード生成部16は、生成した画像、音声に関するタイムコードのうち、これら全てのまたは一部のタイムコードを、それぞれ、画像認識部14、音声認識部15に出力する。
【0050】
前述の画像認識部14は、タイムコード生成部16が出力したタイムコードのうち、全部又は一部のタイムコードを画像認識文字情報に付加して、タイムコードを付加した画像認識文字情報を、映像情報とともにマッピング部17に出力する。
【0051】
また、音声認識部15は、タイムコード生成部16が出力した各タイムコードの割り付けを行う。即ち、音声認識部15は、単語タイムコードを各単語に割り付ける。音声認識部15は、話者タイムコードを各発話に、非言語音声タイムコードを非言語音声に、音楽タイムコードを音楽に、効果音タイムコードを効果音に、無音区間タイムコードを無音区間に割り付ける。
【0052】
そして、音声認識部15は、タイムコード生成部16が出力したタイムコードのうち、全部又は一部のタイムコードを音声認識文字情報に付加して、タイムコードを付加した音声認識文字情報を、音声情報とともにマッピング部17に出力する。
【0053】
マッピング部17は、シーン予測部12が出力したテキスト情報を予測したシーン(場面)毎に分割し、分割したテキスト情報と、画像認識部14、音声認識部15からそれぞれ出力された分割された画像認識文字情報、音声認識文字情報と、の対応付けを行うものである。
【0054】
具体的には、マッピング部17は、シーン予測部12が出力したテキスト情報から、例えば、改行、インデント、人物名、固有名、地名等によって、話者の切り替わり、空白行、改行箇所等を、台本の区切り位置として検出する。マッピング部17は、区切りを検出すると、検索しやすいように、その区切り位置でテキスト情報を区切る。
【0055】
次に、マッピング部17は、テキスト情報と、それぞれ、分割された画像認識文字情報、音声認識文字情報と、を比較する。
【0056】
尚、比較には、例えば、DPマッチングを用いる。DPマッチングは、DTW(Dynamic Time Warping)とも呼ばれるものであり、単語中の同じ音素同士が対応するように動的計画(Dymanic Programing)を用いて時間正規化を行い、単語と単語との類似距離を求める手法である。
【0057】
次に、マッピング部17は、これらの情報の対応付けを行い、対応情報を生成する。この対応情報は、図2に示すように、分割した画像認識文字情報及び音声認識文字情報と、テキスト情報と、の1対1の関係を示す情報である。
【0058】
尚、テキスト情報と、画像認識文字情報と、音声認識文字情報と、が一致しなくても、マッピング部17は、各々の認識結果は正しいと判断して対応付けを行う。
【0059】
そして、マッピング部17は、分割した画像認識文字情報、音声認識文字情報と、テキスト情報と、対応情報と、を構造化処理部18に出力する。
【0060】
構造化処理部18は、タイムコードと対応情報とに基づいて、テキスト情報の区分けされた各シーン(場面)と各タイムコードとの対応付けを行い、構造化情報を生成するものである。構造化情報は、図2に示すように、対応付けされたテキスト情報の各シーンと各タイムコードとの1対1の関係を示す情報である。
【0061】
構造化処理部18は、分割された画像認識文字情報及び分割音声認識文字情報に付加されている各タイムコードから、テキスト情報の各区切りの開始時刻と終了時刻である各タイムコードを算出する。
【0062】
具体的には、構造化処理部18は、分割された画像認識文字情報に付加された前述のタイムコード(1)〜(10)のうちの全て又は一部から、テキスト情報の各区切りに対応するタイムコードを算出する。構造化処理部18は、各区切りの最初の単語の開始時刻と最後の単語の終了時刻とから、テキスト情報におけるト書きや台詞と対応付けを行う。
【0063】
構造化処理部18は、いずれのタイムコードも、状況説明や撮影条件を指示した、テキスト情報のト書き部分との対応付けに用いる。話者毎の台詞との対応付けについても、構造化処理部18は、話者を示す人物タイムコードだけでなく、台詞の内容にある状況説明や固有名詞を利用することにより他のタイムコードとの対応付けを行う。
【0064】
また、構造化処理部18は、分割された音声認識文字情報に付加された前述のタイムコード(11)〜(16)の全て又は一部から、テキスト情報の各区切りに対応するタイムコードを算出する。
【0065】
即ち、構造化処理部18は、分割された音声認識文字情報に付加された話者タイムコードから、分割音声認識テキスト情報における話者の登場開始時刻と終了時刻であるタイムコードを算出し、台詞との対応付けを行う。また、構造化処理部18は、音楽タイムコードや効果音タイムコードから、ト書きにおける音楽や効果音の開始時刻及び終了時刻と対応付けを行う。また、構造化処理部18は、無音区間タイムコードから、テキスト情報内の話者の切り替わりやシーンの切り替わりとの対応付けを行う。
【0066】
また、構造化処理部18は、構造化情報に基づいてテキストメディアファイルおよびタイムコードファイルを、ト書きや話者毎の台詞に対応付けて生成する。テキストメディアファイルは、テキスト情報を保存するファイルであり、タイムコードファイルは、タイムコードを保存するファイルである。
【0067】
構造化処理部18は、各区切りに対応するタイムコードを、テキスト情報における登場順に、タイムコードファイルに格納する。尚、構造化処理部18は、それぞれが各区切りに対応した複数のテキストメディアファイルと、タイムコードファイルとを生成することもできる。
【0068】
データ格納部2は、映像メディア格納部21と、タイムコード格納部22と、テキストメディア格納部23と、からなる。
【0069】
映像メディア格納部21、タイムコード格納部22、テキストメディア格納部23は、それぞれ、映像メディアファイル、タイムコードファイル、テキストメディアファイルを格納するためのものである。尚、映像メディア格納部21、テキストメディア格納部23は、それぞれ、映像情報格納部、テキストファイル格納部に相当する。
【0070】
構造化処理部18は、映像メディア格納部21、タイムコード格納部22、テキストメディア格納部23に、それぞれ、映像メディアファイル、生成したタイムコードファイル、テキストメディアファイルを格納する。また、構造化処理部18は、図2に示す構造化情報をテキストメディア格納部23に格納する。
【0071】
同期データ出力部3は、データ格納部2に格納されたデータの中から検索対象のデータを検索し、該当するデータを出力するものであり、入出力部31と、検索制御部32と、同期処理部33と、を備えて構成される。
【0072】
入出力部31は、ユーザが要求する検索対象の入力を受け付けて、受け付けた検索対象の入力を検索情報として検索制御部32に供給するとともに、検索の結果、得られた検索結果情報を出力するものである。検索情報としては、例えば、日時、番組タイトル、発言者、俳優名等のキーワード等がある。
【0073】
検索制御部32は、入出力部31から供給された検索情報に従ってテキストメディア格納部23に格納されているデータを検索するものであり、検索情報に該当するテキスト情報のシーン部分を入出力部31に出力する。
【0074】
具体的には、検索制御部32は、検索情報に基づいて、ユーザによって選択された語句を含むテキスト情報をテキストメディア格納部23からシーン毎に取り出す。また、検索制御部32は、テキストメディア格納部23に格納されている構造化情報に基づいて、ユーザによって選択されたテキスト情報の区切りのタイムコードを、タイムコード格納部22から取り出し、取り出したタイムコードを同期処理部33に出力する。
【0075】
同期処理部33は、検索制御部32が出力したタイムコードが示す開始時刻、終了時刻を、それぞれ、映像情報出力の先頭時刻、最終時刻として、入出力部31に、先頭時刻から最終時刻までの映像情報を出力する。また、同期処理部33は、タイムコードに基づいてテキスト情報を加工し、加工したテキスト情報を入出力部31に出力する。このときの加工方法としては、例えば、テキスト情報をスクロールさせるなどの方法がある。
【0076】
次に、このようなコンテンツ処理装置を実現するハードウェア構成について説明する。
図1に示すコンテンツ処理装置は、図3に示すようなコンピュータシステムによって実現される。
【0077】
即ち、コンピュータシステムは、端末41、43と、記憶装置42と、を備える。端末41、43と、記憶装置42とは、通信線44を介して接続される。
【0078】
尚、このコンテンツ処理装置は、図3に示すようなコンピュータシステム上に構築されてもよいし、あるいは、同一の端末上に構築されてもよい。図3に示すようなコンピュータシステムの場合、通信線44には、LAN(Local Area Network)、インターネット等を用い、端末41,43、記憶装置42は、ネットワークで接続される。
【0079】
端末41,43はコンピュータであり、それぞれ、同期データ生成部1、同期データ出力部3の機能を備える。また、記憶装置42は、データ格納部2に対応し、磁気ディスク装置等によって構成される。
【0080】
端末41,43は、図4に示すように、CPU51と、ROM52と、RAM53と、表示装置54と、入力装置55と、HDD56と、ドライブ装置57と、を備える。
【0081】
ROM(Read Only Memory)52は、CPU51を同期データ生成部1、同期データ出力部3として機能させるためのプログラム(データ)を記憶するためのメモリである。
CPU(Central Processing Unit)51は、ROM52に記憶されたプログラムを実行するものである。
【0082】
RAM(Random Access Memory)53は、CPU51がプログラムを実行するのに必要なデータを記憶するためのメモリである。尚、端末41のRAM53は、シーン予測部12が出力するテキスト情報を記憶するためにも用いられる。
【0083】
表示装置54は、データを表示する液晶ディスプレイ等からなるものである。入力装置55は、データを入力するためのものであり、キーボード、マウス、マイク、イメージスキャナ、カメラ、ビデオキャプチャインターフェース等によって構成される。尚、端末43の表示装置54、入力装置55が、同期データ出力部3の入出力部31として機能する。
【0084】
HDD(Hard Disk Drive)56は、データを記憶するための記憶装置である。
ドライブ装置57は、映像メディア5,テキストメディア6のような外部記録媒体を装着し、外部記録媒体から、記録されているデータを読み出すためのものである。端末41のドライブ装置57は、同期データ生成部1のテキスト入力部11、映像音声入力部13として機能する。
【0085】
次に、本実施の形態に係るコンテンツ処理装置の動作を図5に示すフローチャートに基づいて説明する。
同期データ生成部1の映像音声入力部13、テキスト入力部11は、映像メディア5,テキストメディア6から、それぞれ、映像音声情報、テキスト情報を入力する(ステップS101)。
テキスト入力部11は、入力したテキスト情報がデジタルデータからなるものか否かを判定する(ステップS102)。
【0086】
テキスト情報がデジタルデータからなると判定した場合(ステップS102においてYes)、テキスト情報を、シーン予測部12に出力する。
【0087】
一方、テキスト情報がデジタルデータからなるものではない、即ち、アナログデータからなると判定した場合(ステップS102においてNo)、テキスト入力部11は、OCR等を用いてテキストメディア6に記録されているテキスト情報をデジタル化する(ステップS103)。そして、テキスト入力部11は、デジタル化したテキスト情報をシーン予測部12に出力する。
【0088】
シーン予測部12は、テキスト入力部11から出力されたテキスト情報に基づいて、各シーンの画面構成および音声構成を予測し、予測した各シーンの画面構成および音声構成をテキスト情報に付加してマッピング部17に出力する(ステップS104)。
【0089】
映像音声入力部13は、映像情報、音声情報を、映像メディア5から入力し、入力した映像情報、音声情報がデジタルデータからなるか否かを判定する(ステップS105)。
【0090】
映像情報、音声情報がデジタルデータからなると判定した場合(ステップS105においてYes)、映像音声入力部13は、映像情報、音声情報を、それぞれ、画像認識部14、音声認識部15に出力する。
【0091】
一方、映像情報、音声情報がデジタルデータからなるものではない、即ち、アナログデータからなるものと判定した場合(ステップS105においてNo)、映像音声入力部13は、アナログ映像情報、アナログ音声情報を、ビデオキャプチャ等を用いて、AVI形式又はMPEG形式のデジタルデータからなる情報に変換する(ステップS106)。そして、映像音声入力部13は、デジタル化した映像情報、音声情報を、それぞれ、画像認識部14、音声認識部15に出力する。
【0092】
画像認識部14は、映像音声入力部13から供給された映像情報について画像認識処理を行い、画像認識文字情報を生成する(ステップS107)。画像認識部14は、映像情報とともに映像情報の分割位置を示す情報をタイムコード生成部16に出力する。
【0093】
音声認識部15は、映像音声入力部13から出力された音声情報について音声認識処理を行い、音声認識処理の結果として、音声認識文字情報を生成する(ステップS108)。音声認識部15は、音声情報とともに音声情報の分割位置を示す情報をタイムコード生成部16に出力する。
【0094】
タイムコード生成部16は、画像認識部14、音声認識部15から出力された情報に基づいて、映像、音声に関する前述のタイムコード(1)〜(16)の全部又は一部を生成する(ステップS109)。タイムコード生成部16は、生成した映像、音声に関するタイムコードを、それぞれ、画像認識部14、音声認識部15に出力する。
【0095】
画像認識部14は、タイムコード生成部16から出力された映像に関するタイムコードを画像認識文字情報に付加する(ステップS110)。音声認識部15は、タイムコード生成部16から出力された音声に関するタイムコードを音声認識文字情報に付加する(ステップS110)。画像認識部14、音声認識部15は、タイムコードを付加して分割した画像認識文字情報、音声認識文字情報を、それぞれ、映像情報、音声情報とともにマッピング部17に出力する。
【0096】
マッピング部17は、シーン予測部12が出力するテキスト情報を一時格納し、テキスト情報をト書きや話者毎の台詞に従って区切る。
また、マッピング部17は、テキスト情報と分割した画像認識文字情報及び音声認識文字情報とを比較して、テキスト情報の段落区切り位置に基づいて、テキスト情報と分割した画像認識文字情報及び音声認識文字情報との対応付けを行う。
【0097】
さらに、マッピング部17は、テキスト情報の各段落と図2に示す対応情報とを生成し(ステップS111)、テキスト情報、分割した画像認識文字情報及び音声認識文字情報とともに、対応情報を構造化処理部18に出力する。
【0098】
構造化処理部18は、分割された画像認識文字情報、音声認識文字情報に付加されたタイムコードに基づいて、図2に示す構造化情報を生成する(ステップS112)。構造化処理部18は、構造化情報に基づいて、テキストメディアファイルとタイムコードファイルとを、ト書きや話者毎の台詞に対応付けて生成する。
【0099】
構造化処理部18は、生成したテキストメディアファイルをデータ格納部2のテキストメディア格納部23に格納し、タイムコードファイルをタイムコード格納部22に格納する、また、構造化処理部18は、映像メディアファイルを映像メディア格納部21に格納する(ステップS113)。
そして、同期データ生成部1は、この処理を終了させる。
【0100】
次に、ユーザが検索条件を入力すると、同期データ出力部3は、データの検索を行い、検索したデータを出力する。この同期データ出力部3の同期データ出力処理を図6に示すフローチャートに基づいて説明する。
【0101】
ユーザが検索情報を入力すると、入出力部31は、この入力操作に応答して、検索情報を検索制御部32に出力する(ステップS201)。
【0102】
検索制御部32は、入出力部31から出力された検索条件に基づいてデータ格納部2に格納されているデータを検索する(ステップS202)。
【0103】
検索制御部32は、検索条件に合致する該当データがあるか否かを判定する(ステップS203)。
該当データがないと判定した場合(ステップS203においてNo)、検索制御部32は、該当データがなかった旨を表示し、その旨の音声を出力する(ステップS206)。
【0104】
一方、該当データがあると判定した場合(ステップS203においてYes)、検索制御部32は、テキスト情報の段落を特定し、該当データをすべて取り出す(ステップS204)。
【0105】
検索制御部32は、テキストメディア格納部23に格納されている構造化情報に基づいて、ユーザによって選択されたテキスト情報の区切りのタイムコードを、タイムコード格納部22から取り出し、取り出したタイムコードを同期処理部33に出力する(ステップS204)。
【0106】
同期処理部33は、検索制御部32が出力したタイムコードの開始時刻、終了時刻を、それぞれ、テキスト情報の段落に対応する映像情報として、再生する先頭時刻、最終時刻とすることを入出力部31に通知し、選択された段落のテキスト情報と、映像情報、音声情報を入出力部31に供給する(ステップS205)。
【0107】
入出力部31は、供給された情報に基づいて台本と映像とを表示し、音声を出力する(ステップS206)。
このようにして、同期データ出力部3は、ユーザにデータを提供する。
【0108】
次に、具体的な動作をさらに詳しく説明する。
映像メディア5,テキストメディア6は、例えば、ドラマ番組の制作を担当する制作会社のコンテンツホルダ4に格納され、このコンテンツホルダ4から取り出される。
【0109】
同期データ生成部1のテキスト入力部11は、テキストメディア6から、コンテンツの筋書きを文字データで表現したテキスト情報を取り出す。テキスト入力部11は、台詞に関するテキスト情報をシーン予測部12に出力する。
【0110】
シーン予測部12は、予め蓄積されたルールに従って、図7に示すように、シーン1からシーン7まで、順に、刑事Aの顔、刑事Aの顔、刑事課全員の顔、刑事Bの顔、刑事Aと刑事Bの顔、顔なし、刑事Aの顔(後で課長Cの顔が加わる)といった画面構成を予測する(図5のステップS104の処理)。シーン予測部12は、この予測内容をテキスト情報に付加してマッピング部17に出力する。
【0111】
画像認識部14は、画像を認識し、音声認識部15は、音声を認識して、それぞれ、図7に示すような画像認識結果、音声認識結果を生成する(ステップS107,108の処理)。
【0112】
タイムコード生成部16は、例えば、画像認識部14が生成した画像認識結果「刑事Aの顔」のタイムコードとして、「00:00:02:13,00:00:02:26」を生成する(ステップS109の処理)。「00:00:02:13」、「00:00:02:26」は、それぞれ、画像認識結果「刑事Aの顔」の開始時刻、終了時刻を示す。
【0113】
また、タイムコード生成部16は、音声認識部15が生成した音声認識結果として、刑事Aの声「強盗」、「グレー」に、タイムコードとして、「00:00:02:15,00:00:02:26」を生成する(ステップS109の処理)。「00:00:02:15」、「00:00:02:26」は、それぞれ、音声認識結果、刑事Aの声「強盗」、「グレー」の開始時刻、終了時刻を示す。
【0114】
マッピング部17は、テキスト情報と、画像認識文字情報と、音声認識文字情報とを、DPマッチングの手法を用いて順次比較する。そして、マッピング部17は、図7に示すような対応付けを行う(ステップS111の処理)。
【0115】
例えば、図7に示すように、台本には、シーン1に、「刑事A電話を受けて〜」と記載され、画像認識結果のタイムコード「00:00:02:13〜00:00:02:26」の画像認識文字情報には、「刑事Aの顔」がある。また、音声認識結果のタイムコード「00:00:02:15〜00:00:02:26」の音声認識文字情報には、「刑事Aの声〜」がある。台本のシーン1とこの画像認識結果と音声認識結果とでは、「刑事A」が一致している。従って、マッピング部17は、DPマッチングを行うことにより、台本のシーン1とこの画像認識結果と音声認識結果との類似距離が近いと判定し、台本のシーン1とこの画像認識結果と音声認識結果との対応付けを行う。
【0116】
同様にして、マッピング部17は、台本のシーン2〜7と、画像認識結果と音声認識結果との対応付けを、順次、行う。
【0117】
この場合、同じシーンでありながら、画像認識結果と音声認識結果として、刑事Aの顔の出現時間と、刑事Aの音声の出現時間が異なる場合、マッピング部17は、シーンの時間が長くなるようにする。
【0118】
例えば、シーン1のように、出現開始時間が異なっている場合、マッピング部17は、出現が早い時刻「00:00:02:13」の方を採用する。また、シーン5のように、出現終了時間が異なっている場合、マッピング部17は、退出や消失が遅い時刻「00:00:02:38」の方を採用する。あるいは、マッピング部17は、図7に示すように、画像認識結果については、ト書き部分、音声認識結果については台詞部分のタイムコードとみなすという方法をとることもできる。また、マッピング部17は、同じシーンでも、シーン内の顔や物や声や物音といったシーン要素各々に対してタイムコードが存在するとみなすこともできる。
【0119】
登場人物については、マッピング部17は、音声認識処理による音声認識結果に基づいて話者の同定を行うこともできる。マッピング部17は、画像と音声とを同時に使うことによって、より頑強な人物同定を実現する。
【0120】
例えば、登場人物が無言であったり、音楽や周囲の雑音で音声認識が困難な状況でも、画像認識により、人物を同定することができる。反対に、逆光など照明条件が劣悪な場合や、登場人物が後ろ向きであったり下向きであったりして顔が見えない場合でも、音声認識により人物を同定することができる。
【0121】
また、画像情報と音声情報とテキスト情報とを比較してお互いに矛盾がある場合、マッピング部17は、各々の認識結果が正しいと判断して対応付けを行う。例えば、あるシーンにおいて、画像認識では人物AとBのみが検出され、音声認識では人物AとCが検出された場合、マッピング部17は、A、B、C3名とも存在しているものとして対応付けを行う。
【0122】
例えば、シーン5のように、刑事Aの顔が検出できなかった場合、マッピング部17は、顔の出現順番の前後関係から対応づけすることができるし、ほぼ同じ時刻に音声認識で、刑事Bの声で「怪我」「無茶」という語を検出すると、この語で対応付けを行う。このようにして、より高い信頼度で対応付けが行われる。
【0123】
一方、このシーンで音声認識ができなくても、刑事Aと刑事Bの顔が検出できていれば、マッピング部17は、台本と画像認識結果と音声認識結果との対応付けを行うこともできる。更にこのシーンで画像認識も音声認識もできなかった場合でも、マッピング部17は、前後シーンで顔や声の出現順番から対応付けできれば、認識できなかったシーンでも対応付けを行うことができる。
【0124】
但し、マッピング部17は、全ての組み合わせについて対応付けを行うこともできる。例えば、この場合、マッピング部17は、A、B、C3名とも存在すると仮定した対応づけと、A、Bの2名のみが存在すると仮定した対応付けと、A、Cの2名のみが存在すると仮定した対応付けと、Aのみが存在すると仮定した対応付けと、を行うこともできる。
【0125】
また、マッピング部17は、カットやカメラワーク、背景、人物の動作、フレーム内の物体、物体の動作、台詞内の単語、音楽、効果音についても同様に対応関係をとり、区切り位置を検出することができる。これらについてもお互いに矛盾がある場合は、各々の認識結果が全て正しいとして対応付けしてもよいし、全ての組み合わせについて対応付けを行ってもよい。
【0126】
対応付けを行う場合、マッピング部17は、単に順番だけでなく、台本の台詞の長さやト書きなどからシーンの長さを推定し、検出された顔の出現時間があらかじめ定めた範囲内(例えば推定したシーンの長さの0.5倍から1.5倍の範囲)にあるかどうかで、対応しているかどうかを判断することもできる。
【0127】
構造化処理部18は、テキスト情報とタイムコードとを、以下のように対応付けして、テキストメディアファイルと、タイムコードファイルとを生成する(ステップS112の処理)。
【0128】
即ち、構造化処理部18は、例えば、第1の台詞のテキストメディアファイルのファイル名を「台詞1.txt」、第1の台詞のタイムコードファイルのファイル名「時間1.txt」とする。
構造化処理部18は、第1の台詞のファイルは、拡張子を除いたファイル名の末尾が「1」という対応付けを行う。
【0129】
同様に、構造化処理部18は、第2の台詞同士をそれぞれ「台詞2.txt」と「時間2.txt」とすることで、第2段落のファイルを対応付けを行う。同様に、構造化処理部18は、第3、第4段落以降も対応付けを行う。尚、ト書きがあれば、構造化処理部18は、ト書きについても同様に対応付けを行う。
【0130】
そして、構造化処理部18は、テキストメディアファイル、タイムコードファイルおよび映像メディアファイルをデータ格納部2に格納する(ステップS113)。
【0131】
次に、ユーザが、端末43を操作して、格納したデータを検索する場合、端末43は、この操作に応答して図8に示すような検索画面を表示装置54に表示する。
【0132】
端末43の表示装置54は、この検索画面に、映像検索システムの検索条件入力画面として、日時と、番組タイトルと、発言者と、キーワードとの入力欄を表示する。また、端末43の表示装置54は、この検索画面に、検索実行を指定するための検索実行ボタンを表示する。
【0133】
ユーザが、表示された検索条件の入力画面に従って、例えば、キーワードとして「俳優D」を入力すると、端末43の表示装置54は、この操作に応答してキーワードの入力欄に「俳優D」を表示する。
【0134】
尚、検索する際に、全文一致検索や、各検索条件によるアンド検索といった一般的な検索処理を用いることができる。
【0135】
ユーザが、この検索実行ボタンをクリックすると、同期データ出力部3の入出力部31は、この操作に応答して、検索情報を検索制御部32に供給し(ステップS201の処理)、検索制御部32は、検索を開始する(ステップS202の処理)。
【0136】
検索制御部32は、入力された検索条件に基づいて、データ格納部2に格納されたデータの中から検索条件に合致するデータを有するテキスト情報の段落を特定する。
【0137】
検索制御部32は、キーワードの語句として入力された「俳優D」を、台本内の配役表から、「刑事B」に変換する。そして、検索制御部32は、「刑事B」に基づいてデータ格納部2に格納されたデータを検索する。
【0138】
「刑事B」に該当するデータが12件あると、検索制御部32は、該当する12件のデータを取り出して、検索結果としてテキスト情報のシーンを入出力部31に供給する(ステップS203,S204の処理)。
【0139】
また、同期処理部33は、映像情報を再生する先頭時刻、最終時刻を入出力部31に通知し、映像情報、音声情報を、選択された段落のテキスト情報と同期させて入出力部31に供給する(ステップS205の処理)。
【0140】
端末43の表示装置54は、入出力部31に供給された図9に示すような台本と映像とを表示し、音声を出力する(ステップS206の処理)。
【0141】
尚、映像情報を抽出する場合、端末43の表示装置54は、例えば、図8に示すように、テキスト情報とともに、代表的な画像をサムネイル画像として表示することもできる。また、表示装置54は、静止画によらず、段落の開始時刻から終了時刻までの動画を表示することもできる。
【0142】
同期処理部33は、例えば、図9に示すように、表示装置54に表示された巻戻し、再生、停止、一時停止、早送り等の各スイッチ部が操作されると、この操作情報に従って動作する。
【0143】
例えば、ユーザが、先頭から2分31秒の位置から映像メディア5を再生するように、端末43の入力装置55を操作すると、同期処理部33は、映像情報の再生のタイミングに合わせて、テキスト情報をスクロールする処理を実行する。
【0144】
端末43の表示装置54は、映像情報の再生のタイミングに合わせて、選択された段落のテキスト情報として、例えば、「怪我治って」を含むテキスト情報の部分のスクロール表示を行う。
【0145】
また、端末43の表示装置54は、テキスト情報の再生箇所を、再生箇所であることを示すために、図9に示すように、アンダーラインを施し、斜体文字で表示する。
【0146】
以上説明したように、本実施の形態によれば、テキスト情報と、分割された画像認識文字情報及び音声認識文字情報と、を対応付けるようにしたので、タイムコードを介してテキスト情報と映像情報、音声情報とを、容易に構造化することができる。
【0147】
また、ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定し、特定された分割部分に対応するタイムコードを抽出し、抽出されたタイムコードに対応する映像情報を特定して特定した映像情報をユーザに提供するようにした。このため、ユーザに、所望の映像情報を提供することができる。
【0148】
さらに画像情報と音声情報とを併用し、映像情報、音声情報のみで対応付けられなくても音声情報にて対応付けたり、映像情報にて対応付けたりすることで、テキスト情報と映像情報との構造化をより正確に行うことができる。
【0149】
尚、本発明を実施するにあたっては、種々の形態が考えられ、上記実施の形態に限られるものではない。
例えば、上記実施の形態では、映像情報を、映像音声入力部13から、画像認識部14、音声認識部15、マッピング部17および構造化処理部18を介してデータ格納部2に供給するように構成された。しかし、映像情報を映像音声入力部13から、直接、データ格納部2に供給するように構成されてもよい。
【0150】
また、構造化処理部18は、テキストメディアファイルにおけるテキスト情報の各区切りの開始アドレスと終了アドレスと、タイムコードファイルにおける各区切りのタイムコードの開始アドレスと終了アドレスとを、管理情報として生成するように構成されてもよい。
【0151】
このようにするには、コンテンツ処理装置は、図10に示すように、データ格納部2に、管理情報を格納する管理ファイル格納部24を備える。この管理ファイル格納部24は、管理情報格納部に相当するものである。そして、構造化処理部18は、管理情報を管理ファイル格納部24に格納する。
【0152】
また、コンテンツ処理装置は、図11に示すように、テキスト情報とタイムコードとを結合して、構造化結果を生成するように構成されることもできる。この場合、データ格納部2は、図12に示すように、映像メディア格納部21とテキストメディア格納部23と、を備える。構造化処理部18は、テキスト情報とタイムコードとを結合して、タイムコードを含む構造化されたテキストメディアファイルを生成し、テキストメディア格納部23に、生成したテキストメディアファイルを格納する。尚、データ格納部2は、タイムコード格納部22を備える必要はない。
【0153】
さらに、コンテンツ処理装置は、図13に示すようなXML(エクステンシブルマークアップランゲージ)ファイルを生成して、格納しておくように構成されることもできる。XMLファイルは、拡張マークアップ言語であるXML(エクステンシブルマークアップランゲージ)言語によるMPEG7(ムービングピクチャーエキスパートグループ7)形式の構造的記述によるXMLのファイルである。
【0154】
データ格納部2は、図14に示すように、XMLファイル格納部25を備える。この場合、データ格納部2は、タイムコード格納部22と、テキストメディア格納部23と、を備える必要はない。構造化処理部18は、XMLファイルを生成する。
【0155】
構造化処理部18は、図15に示すフローチャートに従って、XMLファイルを生成する。
【0156】
即ち、構造化処理部18は、タグを用いて、XMLテンプレートに、映像情報のコンピュータシステム内での格納位置(フォルダ位置)情報を挿入する(ステップS301)。
【0157】
構造化処理部18は、タグを用いて、XMLテンプレートに、テキストメディア6に記載されている番組タイトル情報を挿入する(ステップS302)。
【0158】
構造化処理部18は、タグを用いて、XMLテンプレートに、各段落の開始時間、終了時間情報を挿入する(ステップS303)。
【0159】
構造化処理部18は、タグを用いて、XMLテンプレートに、登場人物情報を挿入する(ステップS304)。
【0160】
構造化処理部18は、タグを用いて、XMLテンプレートに、テキスト情報を挿入する(ステップS305)。
【0161】
構造化処理部18は、挿入した台詞の終了時間が、タイムコードの最終時間に達したか否かを判定する(ステップS306)。
最終時間に達していないと判定した場合(ステップS306においてNo)、構造化処理部18は、XMLテンプレートに、再度、各段落の開始時間、終了時間情報、登場人物情報、テキスト情報を挿入する(ステップS303〜S305)。
【0162】
最終時間に達したと判定した場合(ステップS306においてYes)、構造化処理部18は、データ格納部2のXMLファイル格納部25に、XMLファイルを格納する(ステップS307)。
【0163】
図13に示すXMLファイルにおいて、<?xml>、<Mpeg7>は、予め、MPEG7規格として定められているXMLテンプレートである。
【0164】
<Media Locator>タグ、および<MediaUri>タグは、映像情報の格納位置(フォルダ位置)を示すタグである。「C:¥メタ情報¥映像データ¥ドラマ映像020913.mpg」は、構造化処理部18が挿入した映像情報を格納しようとする映像メディア格納部21における格納位置を示す(ステップS301の処理結果)。
【0165】
<CreationInformation>タグ内の<Title>タグは、番組タイトル情報挿入用のタグである。「ドラマ番組020913」は、構造化処理部18が挿入した番組タイトル情報を示す(ステップS302の処理結果)。
【0166】
<MediaTime>タグ、および<MediaRelTimePoint>タグ、および<MediaDuration>タグは、各段落の開始時間と終了時間の情報挿入用のタグである。構造化処理部18は、このタグを用いて各段落の開始時間と終了時間の情報を挿入する(ステップS303の処理結果)。
【0167】
<Name>タグ、および<GivenName>タグ、および<FamilyName>タグは、登場人物情報挿入用のタグである。「刑事A」は、構造化処理部18が挿入した登場人物情報である(ステップS304の処理結果)。
【0168】
<TextAnnotation>タグ、および<FreeTextAnnotation>タグは、テキスト情報挿入用のタグである。「×××1丁目1番地で強盗事件」を含む台詞は、構造化処理部18がこれらのタグを用いて挿入したテキスト情報である(ステップS305の処理結果)。
【0169】
挿入した台詞の終了時間が、タイムコードの最終時間に到達していなければ、構造化処理部18は、次の台詞の各情報の挿入を行う(ステップS306)。台詞の終了時間がタイムコードの最終時間に達したときは、構造化処理部18は、XMLファイルをデータ格納部2のXMLファイル格納部25にXMLファイルを格納する(ステップS307の処理)。
【0170】
構造化処理部18が、このようなXMLファイルをXMLファイル格納部25に格納した後、ユーザが、同期データ出力部3にキーワードとなる語句を入力して所望の映像情報およびテキスト情報を要求するものとする。
【0171】
入出力部31は、ユーザによって入力された語句を検索制御部32に出力する。検索制御部32は、その語句を含むテキスト情報の段落をXMLファイル格納部25に格納されているデータの中から検索し、該当するテキスト情報があれば、その段落部分を入出力部31に出力する。
【0172】
ユーザが、あるテキスト情報の特定の範囲を選択すれば、入出力部31は、ユーザが選択したテキスト情報と同期する映像情報を出力するように検索制御部32に要求する。
【0173】
以上が図13に示すようなXML(エクステンシブルマークアップランゲージ)ファイルを生成して格納するように構成されたコンテンツ処理装置の応用例である。
【0174】
同期データ出力部3の入出力部31は、ユーザが発話した音声を入力するように構成されることもできる。この場合、端末43の入力装置55に、ユーザの発話内容をテキストデータに変換する音声認識部を備える。音声認識部に対応する入出力部31は、ユーザの発話内容から変換されたテキスト情報を検索制御部32に出力する。
【0175】
また、同期データ出力部3は、検索対象となる人物の音声を入力することにより、話者を同定して、その人物名を検索制御部32に出力するように構成されることもできる。
【0176】
さらに、同期データ出力部3は、所望のシーンと同じようなカット割の動画像や、同じようなカメラワークの動画像、背景の画像、人物の画像、人物の動作の動画像、物体の画像、物体の動作の動画像、音楽、効果音、同じような無音区間配置の音声の何れかが入力されて、各々を認識し、認識結果の全部または一部を検索制御部32に出力するように構成されることもできる。
【0177】
本実施の形態では、タイムコード生成部16が、生成したタイムコードを画像認識部14及び音声認識部15にそれぞれ出力し、画像認識部14及び音声認識部15が、それぞれ生成した画像認識文字情報、音声認識文字情報にタイムコードを付加するようにした。しかし、これに限られるものではなく、図16に示すコンテンツ処理装置のように、タイムコード生成部16が、構造化処理部18に、生成したタイムコードを供給するようにしてもよい。
【0178】
このように構成された場合、画像認識部14及び音声認識部15が、それぞれ生成した画像認識文字情報及び音声認識文字情報にタイムコードを付加するのではなく、構造化処理部18が、画像認識文字情報及び音声認識文字情報と各タイムコードとの対応関係に基づいて、各タイムコードとテキスト情報との対応関係を確定させる。
【0179】
また、コンピュータを、再生装置の全部又は一部として動作させ、あるいは、上述の処理を実行させるためのプログラムを、フレキシブルディスク、MD、CD−ROM、DVDなどのコンピュータ読み取り可能な記録媒体に格納して配布し、これをコンピュータにインストールし、上述の手段として動作させ、あるいは、上述の工程を実行させてもよい。
【0180】
さらに、インターネット上のサーバ装置が有するディスク装置等にプログラムを格納しておき、例えば、搬送波に重畳させて、コンピュータにダウンロード等するものとしてもよい。
【0181】
【発明の効果】
以上説明したように、本発明によれば、コンテンツを容易に利用することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係るコンテンツ処理装置の構成を示すブロック図である。
【図2】図1のコンテンツ処理装置が処理する各情報の関係を示す説明図である。
【図3】図1に示すコンテンツ処理装置のハードウェア構成を示すブロック図である。
【図4】図3に示す端末の構成を示すブロック図である。
【図5】図1の同期データ生成部の動作を示すフローチャートである。
【図6】図1の同期データ出力部の動作を示すフローチャートである。
【図7】図1のマッピング部の処理内容を示す説明図である。
【図8】図4に示す表示装置に表示された検索画面を示す説明図である。
【図9】図4に示す表示装置に表示された検索結果画面を示す説明図である。
【図10】図1に示すデータ格納部の応用例(1)として、管理ファイル格納部を備えたデータ格納部の構成を示すブロック図である。
【図11】図1の構造化処理部が構造化したデータの応用例を示す説明図である。
【図12】図1に示すデータ格納部の応用例(2)として、映像メディア格納部とテキストメディア格納部とのみを備えた構成を示すブロック図である。
【図13】図1に示すコンテンツ処理装置の応用例として、同期データ生成部が処理するXMLファイルの記述例を示す説明図である。
【図14】図1に示すデータ格納部の応用例(3)として、XMLファイル格納部を備えた構成を示すブロック図である。
【図15】図1に示す同期データ生成部がXMLファイルを生成する動作を示すフローチャートである。
【図16】図1に示すコンテンツ処理装置を応用した構成を示すブロック図である。
【符号の説明】
1 同期データ生成部
2 データ格納部
3 同期データ出力部
16 タイムコード生成部
17 マッピング部
18 構造化処理部
31 入出力部
32 検索制御部
33 同期処理部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a content processing apparatus, a content processing method, and a program.
[0002]
[Prior art]
In recent years, information has been made multimedia, and the amount of information of multimedia contents including video information, audio information, text information, and the like has been rapidly increasing. By storing these pieces of information and recalling them later as necessary, they can be used more effectively.
[0003]
For this reason, there is a content processing apparatus that can effectively use such multimedia content.
This content processing apparatus performs voice recognition based on the voice information added to the video information, and structures the text information and the video information as a voice recognition result.
[0004]
As an example of a system for associating a plurality of types of information, an optimal third text is generated from a first text obtained by character recognition of characters on a manuscript and a second text obtained by voice recognition of voice information. There is an electronic text creation system that obtains text information of digital data (see, for example, Patent Document 1).
[0005]
In addition, there is a system that performs voice recognition based on voice information added to video information and structures text information and video information as a voice recognition result (see, for example, Patent Document 2).
[0006]
Furthermore, there is a multimedia information processing apparatus that digitizes video information, audio information, text information, etc., and stores the information and temporal information indicating the temporal relationship between the information (for example,
[0007]
[Patent Document 1]
Japanese Patent Laid-Open No. 2001-28279 (page 3-8, FIG. 1)
[Patent Document 2]
JP 2002-189728 A (
[Patent Document 3]
JP-A-8-253209 (page 3-8, FIG. 5)
[Patent Document 4]
JP 2002-278974 (page 4-
[0008]
[Problems to be solved by the invention]
However, since the conventional content processing apparatus described in Patent Document 1 performs matching processing between the manuscript and the text of the speech recognition processing result, more accurate text information can be automatically created. However, since Patent Literature 1 does not disclose the association with other information such as video information, the technique described in Patent Literature 1 is applied to the structuring processing of video information, audio information, and text information. In order to do this, an artificially structured process must be performed.
[0009]
Further, in the conventional content processing apparatus described in
[0010]
Furthermore, in the conventional content processing apparatus described in
[0011]
In the conventional content processing apparatus described in Patent Document 4, assuming that time information is described in a text, movie, drama, or play script, and comparing it with the elapsed time of video information, The text information and the video information are associated with each other. However, the time information is often not described in the script. Even when time information is described, there are many cases where the script and the video are shifted in time due to actual shooting or editing. In particular, when a scene is switched in one second or less as in a TV drama, there is a high possibility that these shifts greatly affect the association.
[0012]
In addition, any conventional content processing apparatus relies heavily on voice recognition, but in actual TV programs, even if a person appears, a scene without speech or a voice environment is bad and voice recognition is difficult. There are many cases. In addition, the content of the statement is greatly different from the script due to the ad lib of the performer, and the voice information and the text information may not be associated with each other.
[0013]
If it is difficult to associate audio information with text information, it takes time to generate usable content, and there is a limit to using the content.
[0014]
The present invention has been made in view of such conventional problems, and an object thereof is to provide a content processing apparatus, a content processing method, and a program that can easily use content.
[0015]
[Means for Solving the Problems]
In order to achieve this object, a content processing apparatus according to the first aspect of the present invention provides:
Video information and audio information News In a content processing apparatus for associating content to be included and script information expressing the content scenario with character data,
Recognizing the content, characterizing each scene included in the content with character data Image recognition character information and voice recognition characters A recognition unit that generates information;
Generated by the recognition unit Image recognition character information and voice recognition characters The characteristic part of the information Respectively A time code generation unit that generates a time code indicating a start time and an end time of each divided part,
Acquiring the characteristic part of the script information, dividing the script information for each scene based on the acquired characteristic part, The image recognition character information generated by the recognition unit and the voice recognition character information When The , Dividing at the position indicated by the time code generated by the time code generation unit, Even if the divided image recognition character information and the voice recognition character information do not match, it is determined that each is correct, Each scene of the script information Divided image recognition character information and voice recognition character information With each scene of the script information Divided image recognition character information and voice recognition character information A mapping unit for generating correspondence information indicating a correspondence relationship with
Based on the correspondence information generated by the mapping unit and the time code generated by the time code generation unit, structured information indicating the relationship between each scene of the script information and the time code of each scene is obtained as necessary content. And a structured processing unit that is generated as information for searching.
[0018]
A scene prediction unit that predicts the screen configuration of the script information, adds the predicted screen configuration to the script information, and outputs it to the mapping unit may be provided.
[0019]
You may provide the data storage part for storing the said script information, the said content, the time code which the said time code generation part produced | generated, and the structured information which the said structured process part produced | generated.
[0020]
The data storage unit
A content storage unit for storing the content;
A text file storage unit for storing the script information and the structured information;
A time code storage unit for storing the time code.
[0021]
The structuring processing unit generates a script information file storing the script information and a time code file storing the time code in the text file storage unit, and a start address and an end address of each segment of the script information file And generating management information indicating the start address and end address of each time code in the time code file,
The data storage unit may include a management information storage unit that stores the management information.
[0022]
The data storage unit
A markup language file storage unit that stores the script information as a markup language file may be provided.
[0023]
A synchronization data output unit may be provided that outputs the script information and the content stored in the data storage unit in synchronization based on an input search condition.
[0024]
The synchronous data output unit
An input / output unit that inputs search conditions for extracting necessary scenes from the script information and content, and outputs the script information and content of scenes corresponding to the search conditions;
A search control unit that identifies a scene in the script information corresponding to the search condition input to the input / output unit, and extracts a time code corresponding to the identified scene;
A synchronization processing unit that identifies the scene of the content corresponding to the extracted time code, and synchronizes the content of the identified scene and the script information corresponding to the search condition;
A synchronization processing unit that outputs content and script information corresponding to the scene synchronized by the synchronization processing unit to the input / output unit may be provided.
[0025]
A content processing method according to a second aspect of the present invention includes:
Video information and audio information News A content processing method for associating content to be included and script information in which a scenario of the content is expressed by character data,
Recognizing the content, the feature part of each scene included in the content is represented by character data Image recognition character information and voice recognition characters Generating information;
The generated Image recognition character information and voice recognition characters The characteristic part of the information Respectively Extracting and separating, generating a time code indicating a start time and an end time of each separated part;
Acquiring the characteristic part of the script information, dividing the script information for each scene based on the acquired characteristic part, Generated image recognition character information and voice recognition character information When The Generated Divide at the position indicated by the time code, Even if the divided image recognition character information and the voice recognition character information do not match, it is determined that each is correct, Each scene of the script information The divided image recognition character information and voice recognition character information With each scene of the script information Divided image recognition character information and voice recognition character information Generating correspondence information indicating a correspondence relationship with
Based on the generated correspondence information and the generated time code, structured information indicating a relationship between each scene of the script information and the time code of each scene is generated as information for searching for necessary content. Steps,
Storing the script information, content, time code, and structured information.
[0026]
The program according to the third aspect of the present invention is:
On the computer,
The content Information and audio information contained in The feature part of each scene included in the content is expressed as character data. Image recognition character information and voice recognition characters Procedures for generating information,
The generated Image recognition character information and voice recognition characters The characteristic part of the information Respectively A procedure to extract and delimit, and generate a time code indicating the start time and end time of each delimited part,
Above Representing the content scenario as text data Acquiring the characteristic part of the script information, dividing the script information for each scene based on the acquired characteristic part, The generated image recognition character information and the voice recognition character information When The Generated Divide at the position indicated by the time code, Even if the divided image recognition character information and the voice recognition character information do not match, it is determined that each is correct, Each scene of the script information The divided image recognition character information and voice recognition character information With each scene of the script information Divided image recognition character information and voice recognition character information Generating correspondence information indicating a correspondence relationship with
Based on the generated correspondence information and the generated time code, structured information indicating the relationship between each scene of the script information and the time code of each scene is generated as information for searching for necessary content. procedure,
A procedure for storing the script information, content, time code, structured information;
Is to execute.
[0027]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, a content processing apparatus according to an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 shows the configuration of the content processing apparatus according to the present embodiment.
The content processing apparatus includes a synchronization data generation unit 1, a
[0028]
Note that the content holder 4 is a holder that holds a
[0029]
The
[0030]
In the case of a drama program in television broadcasting, the
[0031]
Data recorded on the
[0032]
The synchronous data generation unit 1 extracts data recorded in the
[0033]
The synchronization data generation unit 1 includes a text input unit 11, a
[0034]
The text input unit 11 reads text information from the
[0035]
The
[0036]
In order to predict the screen configuration and the voice configuration, the
[0037]
Then, the
[0038]
When the description is ambiguous, for example, in the script of a TV drama, there is a description that “person A goes out of the room”, the
The
[0039]
The video /
The video /
[0040]
The
[0041]
In order to perform such image recognition processing, the
[0042]
Further, the
[0043]
The
[0044]
In order to perform such a speech recognition process, the
[0045]
Further, the
[0046]
The time
[0047]
The time
(1) Cut time code: Indicates the cut start time and end time in the image information.
(2) Camera work time code: Indicates the start time and end time of camera work.
(3) Lighting environment time code: Indicates the start time and end time of the lighting environment.
(4) Background time code: Indicates the start time and end time of the background.
(5) Character time code: Indicates the appearance start time and end time of the character.
(6) Facial feature time code: indicates the start time and end time of facial features such as the face direction, facial expression, and makeup of a person.
(7) Person feature time code: Indicates the start time and end time of person features such as age, gender, hairstyle, makeup, clothes, and appearance.
(8) Person action time code: Indicates the start time and end time of a person action.
(9) Object time code: Indicates the appearance start time and end time of an object.
(10) Object motion time code: Indicates the start time and end time of the motion of the object.
[0048]
Further, the time
(11) Word time code: indicates the start time and end time of each word in the audio information.
(12) Speaker time code: Indicates the start time and end time of each speaker in the voice information.
(13) Non-verbal voice time code: Indicates the start time and end time of non-language voice in voice information such as screams, laughter, and sighs.
(14) Music time code: Indicates the start time and end time of music in the audio information.
(15) Sound effect time code: Indicates the start time and end time of the sound effect.
(16) Silent section time code: Indicates the start time and end time of the silent section.
[0049]
The time
[0050]
The above-described
[0051]
The
[0052]
The
[0053]
The
[0054]
Specifically, the
[0055]
Next, the
[0056]
For comparison, for example, DP matching is used. DP matching is also called DTW (Dynamic Time Warping), and time normalization is performed using dynamic programming (Dymanic Programming) so that the same phonemes in a word correspond to each other. This is a method for obtaining.
[0057]
Next, the
[0058]
Even if the text information, the image recognition character information, and the voice recognition character information do not match, the
[0059]
Then, the
[0060]
The structured
[0061]
The
[0062]
Specifically, the
[0063]
The
[0064]
Further, the
[0065]
That is, the
[0066]
Further, the
[0067]
The
[0068]
The
[0069]
The video
[0070]
The structured
[0071]
The synchronous
[0072]
The input /
[0073]
The
[0074]
Specifically, the
[0075]
The
[0076]
Next, a hardware configuration for realizing such a content processing apparatus will be described.
The content processing apparatus shown in FIG. 1 is realized by a computer system as shown in FIG.
[0077]
That is, the computer system includes
[0078]
The content processing apparatus may be constructed on a computer system as shown in FIG. 3 or may be constructed on the same terminal. In the case of a computer system as shown in FIG. 3, a LAN (Local Area Network), the Internet, or the like is used for the
[0079]
[0080]
As shown in FIG. 4, the
[0081]
A ROM (Read Only Memory) 52 is a memory for storing a program (data) for causing the
A CPU (Central Processing Unit) 51 executes a program stored in the
[0082]
A RAM (Random Access Memory) 53 is a memory for storing data necessary for the
[0083]
The display device 54 includes a liquid crystal display that displays data. The
[0084]
An HDD (Hard Disk Drive) 56 is a storage device for storing data.
The
[0085]
Next, the operation of the content processing apparatus according to the present embodiment will be described based on the flowchart shown in FIG.
The video /
The text input unit 11 determines whether or not the input text information is digital data (step S102).
[0086]
If it is determined that the text information is composed of digital data (Yes in step S102), the text information is output to the
[0087]
On the other hand, when it is determined that the text information does not consist of digital data, ie, analog data (No in step S102), the text input unit 11 uses the OCR or the like to store the text information recorded on the
[0088]
The
[0089]
The video /
[0090]
When it is determined that the video information and the audio information are composed of digital data (Yes in step S105), the video /
[0091]
On the other hand, when it is determined that the video information and audio information are not composed of digital data, that is, are composed of analog data (No in step S105), the video and
[0092]
The
[0093]
The
[0094]
The time
[0095]
The
[0096]
The
The
[0097]
Further, the
[0098]
The structured
[0099]
The structured
And the synchronous data production | generation part 1 complete | finishes this process.
[0100]
Next, when the user inputs search conditions, the synchronous
[0101]
When the user inputs search information, the input /
[0102]
The
[0103]
The
If it is determined that there is no corresponding data (No in step S203), the
[0104]
On the other hand, when it is determined that the corresponding data is present (Yes in step S203), the
[0105]
Based on the structured information stored in the text
[0106]
The
[0107]
The input /
In this way, the synchronous
[0108]
Next, specific operations will be described in more detail.
For example, the
[0109]
The text input unit 11 of the synchronous data generation unit 1 takes out text information from the
[0110]
As shown in FIG. 7, the
[0111]
The
[0112]
For example, the time
[0113]
In addition, the time
[0114]
The
[0115]
For example, as shown in FIG. 7, in the script, “Receiving a criminal A call” is described in the scene 1, and the time code “00: 00: 02: 13 to 00:00:02” of the image recognition result is written. : 26 ”includes“ the face of criminal A ”. The voice recognition character information of the time code “00: 00: 02: 15 to 00: 00: 02: 26” of the voice recognition result includes “voice of criminal A”. In the script scene 1, the image recognition result, and the speech recognition result, “criminal A” matches. Therefore, the
[0116]
Similarly, the
[0117]
In this case, if the appearance time of the criminal A's face differs from the appearance time of the criminal A's voice as the image recognition result and the voice recognition result, the
[0118]
For example, when the appearance start times are different as in the case of the scene 1, the
[0119]
For the characters, the
[0120]
For example, a person can be identified by image recognition even when the character is silent or when voice recognition is difficult due to music or ambient noise. On the other hand, a person can be identified by voice recognition even when lighting conditions such as backlighting are poor, or even when a character is facing backward or downward and the face cannot be seen.
[0121]
If the image information, the sound information, and the text information are inconsistent with each other, the
[0122]
For example, when the face of the detective A cannot be detected as in the
[0123]
On the other hand, even if voice recognition cannot be performed in this scene, if the faces of detective A and detective B can be detected, the
[0124]
However, the
[0125]
In addition, the
[0126]
When the mapping is performed, the
[0127]
The structured
[0128]
That is, for example, the
The
[0129]
Similarly, the
[0130]
Then, the
[0131]
Next, when the user operates the terminal 43 to search the stored data, the terminal 43 displays a search screen as shown in FIG. 8 on the display device 54 in response to this operation.
[0132]
The display device 54 of the terminal 43 displays on this search screen input fields for date and time, program title, speaker, and keyword as a search condition input screen of the video search system. Further, the display device 54 of the terminal 43 displays a search execution button for designating search execution on this search screen.
[0133]
When the user inputs “actor D” as a keyword, for example, according to the displayed search condition input screen, the display device 54 of the terminal 43 displays “actor D” in the keyword input field in response to this operation. To do.
[0134]
When searching, general search processing such as full-text matching search and AND search based on each search condition can be used.
[0135]
When the user clicks the search execution button, the input /
[0136]
The
[0137]
The
[0138]
If there are 12 data corresponding to “criminal B”, the
[0139]
Further, the
[0140]
The display device 54 of the terminal 43 displays the script and video as shown in FIG. 9 supplied to the input /
[0141]
When extracting video information, the display device 54 of the terminal 43 can also display a representative image as a thumbnail image together with text information, as shown in FIG. 8, for example. Further, the display device 54 can also display a moving image from the start time to the end time of a paragraph, regardless of the still image.
[0142]
For example, as illustrated in FIG. 9, the
[0143]
For example, when the user operates the
[0144]
The display device 54 of the terminal 43 performs scroll display of the text information portion including, for example, “Healed by injury” as the text information of the selected paragraph in accordance with the reproduction timing of the video information.
[0145]
Further, the display device 54 of the terminal 43 displays an italic character with an underline, as shown in FIG. 9, in order to indicate that the text information is reproduced.
[0146]
As described above, according to the present embodiment, since the text information is associated with the divided image recognition character information and voice recognition character information, the text information and the video information through the time code, Audio information can be easily structured.
[0147]
In addition, the division part in the text information that matches the search condition input by the user is specified, the time code corresponding to the specified division part is extracted, and the video information corresponding to the extracted time code is specified and specified. Provided video information to users. Therefore, desired video information can be provided to the user.
[0148]
Furthermore, by using image information and audio information together, it is possible to associate text information and video information by associating with audio information or associating with video information even if it is not associated only with video information and audio information. Structuring can be performed more accurately.
[0149]
In carrying out the present invention, various forms are conceivable and the present invention is not limited to the above embodiment.
For example, in the above embodiment, the video information is supplied from the video /
[0150]
Further, the
[0151]
To do so, the content processing apparatus includes a management
[0152]
Further, as shown in FIG. 11, the content processing apparatus can be configured to combine text information and a time code to generate a structured result. In this case, the
[0153]
Further, the content processing apparatus may be configured to generate and store an XML (Extensible Markup Language) file as shown in FIG. The XML file is an XML file having a structural description in the MPEG7 (moving picture expert group 7) format in the XML (Extensible Markup Language) language which is an extended markup language.
[0154]
As shown in FIG. 14, the
[0155]
The
[0156]
That is, the
[0157]
The structured
[0158]
The
[0159]
The
[0160]
The structured
[0161]
The
When it is determined that the final time has not been reached (No in step S306), the
[0162]
If it is determined that the final time has been reached (Yes in step S306), the
[0163]
In the XML file shown in FIG. xml> and <Mpeg7> are XML templates defined in advance as the MPEG7 standard.
[0164]
The <Media Locator> tag and the <MediaUri> tag are tags indicating the storage location (folder location) of the video information. “C: ¥ meta information ¥ video data ¥ drama video 020913.mpg” indicates a storage position in the video
[0165]
The <Title> tag in the <CreationInformation> tag is a tag for inserting program title information. “
[0166]
A <MediaTime> tag, a <MediaRelTimePoint> tag, and a <MediaDuration> tag are tags for inserting information about the start time and end time of each paragraph. The
[0167]
The <Name> tag, <GivenName> tag, and <FamilyName> tag are characters information insertion tags. “Criminal A” is the character information inserted by the structuring unit 18 (processing result of step S304).
[0168]
The <TextAnnotation> tag and the <FreeTextAnnotation> tag are text information insertion tags. The dialogue including “XXX 1 robbery case at 1 chome” is text information inserted by the
[0169]
If the end time of the inserted dialogue has not reached the final time of the time code, the
[0170]
After the structured
[0171]
The input /
[0172]
If the user selects a specific range of certain text information, the input /
[0173]
The above is an application example of a content processing apparatus configured to generate and store an XML (Extensible Markup Language) file as shown in FIG.
[0174]
The input /
[0175]
The synchronization
[0176]
Furthermore, the synchronous
[0177]
In the present embodiment, the time
[0178]
In such a configuration, the
[0179]
In addition, a program for operating the computer as all or part of the playback apparatus or executing the above-described processing is stored in a computer-readable recording medium such as a flexible disk, MD, CD-ROM, or DVD. May be distributed and installed in a computer and operated as the above-mentioned means, or the above-described steps may be executed.
[0180]
Furthermore, the program may be stored in a disk device or the like included in a server device on the Internet, and may be downloaded onto a computer by being superimposed on a carrier wave, for example.
[0181]
【The invention's effect】
As described above, according to the present invention, content can be easily used.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a content processing apparatus according to a first embodiment of the present invention.
FIG. 2 is an explanatory diagram showing a relationship between pieces of information processed by the content processing apparatus of FIG. 1;
FIG. 3 is a block diagram showing a hardware configuration of the content processing apparatus shown in FIG. 1;
4 is a block diagram showing a configuration of a terminal shown in FIG. 3. FIG.
FIG. 5 is a flowchart showing an operation of the synchronous data generation unit of FIG. 1;
6 is a flowchart showing the operation of the synchronous data output unit of FIG.
7 is an explanatory diagram illustrating processing contents of a mapping unit in FIG. 1; FIG.
FIG. 8 is an explanatory diagram showing a search screen displayed on the display device shown in FIG. 4;
FIG. 9 is an explanatory diagram showing a search result screen displayed on the display device shown in FIG. 4;
10 is a block diagram illustrating a configuration of a data storage unit including a management file storage unit as an application example (1) of the data storage unit illustrated in FIG. 1;
11 is an explanatory diagram showing an application example of data structured by the structured processing unit of FIG. 1; FIG.
12 is a block diagram showing a configuration including only a video media storage unit and a text media storage unit as an application example (2) of the data storage unit shown in FIG. 1; FIG.
13 is an explanatory diagram showing a description example of an XML file processed by a synchronous data generation unit as an application example of the content processing apparatus shown in FIG. 1;
14 is a block diagram showing a configuration including an XML file storage unit as an application example (3) of the data storage unit shown in FIG. 1; FIG.
FIG. 15 is a flowchart showing an operation of generating an XML file by the synchronous data generation unit shown in FIG. 1;
16 is a block diagram showing a configuration to which the content processing apparatus shown in FIG. 1 is applied.
[Explanation of symbols]
1 Synchronization data generator
2 Data storage
3 Synchronous data output section
16 Time code generator
17 Mapping section
18 Structured processing unit
31 I / O section
32 Search control unit
33 Synchronization processor
Claims (10)
前記コンテンツの認識処理を行って、前記コンテンツが含む各場面の特徴部分を文字データで表現した画像認識文字情報及び音声認識文字情報を生成する認識部と、
前記認識部が生成した画像認識文字情報及び音声認識文字情報の前記特徴部分をそれぞれ抽出して区切り、区切った各部分の開始時刻と終了時刻とを示すタイムコードを生成するタイムコード生成部と、
前記台本情報の特徴部分を取得して、取得した特徴部分に基づいて前記台本情報を各場面毎に区切り、前記認識部が生成した前記画像認識文字情報と前記音声認識文字情報とを、前記タイムコード生成部が生成したタイムコードが示す位置で分割し、分割した前記画像認識文字情報と前記音声認識文字情報とが一致しない場合でもそれぞれを正しいものと判断して、前記台本情報の各場面と分割した前記画像認識文字情報と前記音声認識文字情報との対応付けを行い、前記台本情報の各場面と分割した前記画像認識文字情報と前記音声認識文字情報との対応関係を示す対応情報を生成するマッピング部と、
前記マッピング部が生成した対応情報と前記タイムコード生成部が生成したタイムコードとに基づいて、前記台本情報の各場面と各場面のタイムコードとの関係を示す構造化情報を、必要なコンテンツを検索するための情報として生成する構造化処理部と、を備えた、
ことを特徴とするコンテンツ処理装置。In the content processing apparatus for correspondence between the script information representing the plot of the content and the content including the video information and audio information in the character data,
A recognition unit that performs recognition processing of the content, and generates image recognition character information and voice recognition character information that represent characterizing data of each scene included in the content;
A time code generator for generating a time code indicating the said characteristic portion of the separator to extract each recognition unit generated image recognition character information and the voice recognition character information, separated by a start and end times of each part,
Acquires the characteristic portion of the script information, delimiting the script information for each scene based on the characteristic part acquired, the image recognition character information which the recognizer is generated and with said voice recognition character information, the time Dividing at the position indicated by the time code generated by the code generator, and even if the divided image recognition character information and the voice recognition character information do not match, each is determined to be correct, and each scene of the script information Associating the divided image recognition character information with the voice recognition character information, and generating correspondence information indicating a correspondence relationship between each scene of the script information and the divided image recognition character information and the voice recognition character information A mapping unit to
Based on the correspondence information generated by the mapping unit and the time code generated by the time code generation unit, structured information indicating the relationship between each scene of the script information and the time code of each scene is obtained as necessary content. A structured processing unit for generating information for searching,
A content processing apparatus.
ことを特徴とする請求項1に記載のコンテンツ処理装置。 A screen predicting unit configured to predict the screen configuration of the script information, and adding the predicted screen configuration to the script information to output to the mapping unit;
The content processing apparatus according to claim 1.
ことを特徴とする請求項1又は2に記載のコンテンツ処理装置。 A data storage unit for storing the script information, the content, the time code generated by the time code generation unit, and the structured information generated by the structured processing unit;
The content processing apparatus according to claim 1, wherein the content processing apparatus is a content processing apparatus.
前記コンテンツを格納するコンテンツ格納部と、
前記台本情報と前記構造化情報とを格納するテキストファイル格納部と、
前記タイムコードを格納するタイムコード格納部と、を備えた、
ことを特徴とする請求項3に記載のコンテンツ処理装置。 The data storage unit
A content storage unit for storing the content;
A text file storage unit for storing the script information and the structured information;
A time code storage unit for storing the time code,
The content processing apparatus according to claim 3 .
前記データ格納部は、前記管理情報を格納する管理情報格納部を備えた、
ことを特徴とする請求項4に記載のコンテンツ処理装置。 The structuring processing unit generates a script information file storing the script information and a time code file storing the time code in the text file storage unit, and a start address and an end address of each segment of the script information file And generating management information indicating the start address and end address of each time code in the time code file,
The data storage unit includes a management information storage unit that stores the management information.
The content processing apparatus according to claim 4 .
前記台本情報をマークアップアップランゲージファイルとして記憶するマークアップアップランゲージファイル格納部を備えた、
ことを特徴とする請求項5に記載のコンテンツ処理装置。 The data storage unit
A markup language file storage unit for storing the script information as a markup language file;
The content processing apparatus according to claim 5.
ことを特徴とする請求項3乃至6のいずれか1項に記載のコンテンツ処理装置。 A synchronization data output unit that outputs the script information and the content stored in the data storage unit in synchronization with each other based on an input search condition;
Content processing apparatus according to any one of claims 3 to 6, characterized in that.
前記台本情報とコンテンツとから必要な場面を抽出するための検索条件を入力し、前記検索条件に対応する場面の台本情報とコンテンツとを出力する入出力部と、
前記入出力部に入力された検索条件に対応する台本情報における場面を特定し、特定した前記場面に対応するタイムコードを抽出する検索制御部と、
抽出された前記タイムコードに対応するコンテンツの場面を特定し、特定した場面のコンテンツと検索条件に対応する台本情報とを同期させる同期処理部と、
前記同期処理部が同期した当該場面に対応するコンテンツと台本情報とを前記入出力部に出力する同期処理部と、を備えた、
ことを特徴とする請求項7に記載のコンテンツ処理装置。 The synchronous data output unit
An input / output unit that inputs search conditions for extracting necessary scenes from the script information and content, and outputs the script information and content of scenes corresponding to the search conditions;
A search control unit that identifies a scene in the script information corresponding to the search condition input to the input / output unit, and extracts a time code corresponding to the identified scene;
A synchronization processing unit that identifies the scene of the content corresponding to the extracted time code, and synchronizes the content of the identified scene and the script information corresponding to the search condition;
A synchronization processing unit that outputs content and script information corresponding to the scene synchronized by the synchronization processing unit to the input / output unit;
The content processing apparatus according to claim 7 .
前記コンテンツの認識処理を行って、前記コンテンツが含む各場面の特徴部分を文字データで表現した画像認識文字情報及び音声認識文字情報を生成するステップと、Performing recognition processing of the content, and generating image recognition character information and voice recognition character information expressing the characterizing portion of each scene included in the content with character data;
前記生成された画像認識文字情報及び音声認識文字情報の前記特徴部分をそれぞれ抽出して区切り、区切った各部分の開始時刻と終了時刻とを示すタイムコードを生成するステップと、Extracting and separating the characteristic portions of the generated image recognition character information and speech recognition character information, and generating a time code indicating a start time and an end time of each divided portion;
前記台本情報の特徴部分を取得して、取得した特徴部分に基づいて前記台本情報を各場面毎に区切り、前記生成した前記画像認識文字情報と音声認識文字情報とを、生成した前記タイムコードが示す位置で分割し、分割した前記画像認識文字情報と前記音声認識文字情報とが一致しない場合でもそれぞれを正しいものと判断して、前記台本情報の各場面と分割した前記前記画像認識文字情報と前記音声認識文字情報との対応付けを行い、前記台本情報の各場面と分割した前記画像認識文字情報と前記音声認識文字情報との対応関係を示す対応情報を生成するステップと、The feature information of the script information is acquired, the script information is divided for each scene based on the acquired feature portion, the generated image recognition character information and voice recognition character information are generated, and the generated time code is When the divided image recognition character information and the voice recognition character information do not match, it is determined that each is correct, and each scene of the script information and the image recognition character information divided Performing correspondence with the voice recognition character information and generating correspondence information indicating a correspondence relationship between the image recognition character information and the voice recognition character information divided from each scene of the script information;
前記生成した対応情報と前記生成したタイムコードとに基づいて、前記台本情報の各場面と各場面のタイムコードとの関係を示す構造化情報を、必要なコンテンツを検索するための情報として生成するステップと、Based on the generated correspondence information and the generated time code, structured information indicating the relationship between each scene of the script information and the time code of each scene is generated as information for searching for necessary content. Steps,
前記台本情報、コンテンツ、タイムコード、構造化情報を記憶するステップと、を備えた、Storing the script information, content, time code, and structured information,
ことを特徴とするコンテンツ処理方法。A content processing method characterized by the above.
前記コンテンツに含まれている映像情報及び音声情報の認識処理を行って、前記コンテンツが含む各場面の特徴部分を文字データで表現した画像認識文字情報及び音声認識文字情報を生成する手順、A procedure for performing recognition processing of video information and audio information included in the content, and generating image recognition character information and voice recognition character information in which the characterizing portion of each scene included in the content is represented by character data,
前記生成された画像認識文字情報及び音声認識文字情報の前記特徴部分をそれぞれ抽出して区切り、区切った各部分の開始時刻と終了時刻とを示すタイムコードを生成する手順、A procedure for extracting and separating the feature parts of the generated image recognition character information and voice recognition character information, and generating a time code indicating a start time and an end time of each divided part,
前記コンテンツの筋書きを文字データで表現した台本情報の特徴部分を取得して、取得した特徴部分に基づいて前記台本情報を各場面毎に区切り、前記生成した前記画像認識文字情報と前記音声認識文字情報とを、生成した前記タイムコードが示す位置で分割し、分割した前記画像認識文字情報と前記音声認識文字情報とが一致しない場合でもそれぞれを正しいものと判断して、前記台本情報の各場面と分割した前記前記画像認識文字情報と前記音声認識文字情報との対応付けを行い、前記台本情報の各場面と分割した前記画像認識文字情報と前記音声認識文字情報との対応関係を示す対応情報を生成する手順、Acquiring a feature portion of the script information in which the scenario of the content is expressed by character data, dividing the script information into each scene based on the acquired feature portion, and generating the generated image recognition character information and the voice recognition character Information is divided at the position indicated by the generated time code, and even if the divided image recognition character information and the voice recognition character information do not match, each of the scenes of the script information is determined to be correct. Correspondence information indicating the correspondence between each scene of the script information and the divided image recognition character information and the voice recognition character information. Steps to generate,
前記生成した対応情報と前記生成したタイムコードとに基づいて、前記台本情報の各場面と各場面のタイムコードとの関係を示す構造化情報を、必要なコンテンツを検索するための情報として生成する手順、Based on the generated correspondence information and the generated time code, structured information indicating the relationship between each scene of the script information and the time code of each scene is generated as information for searching for necessary content. procedure,
前記台本情報、コンテンツ、タイムコード、構造化情報を記憶する手順、A procedure for storing the script information, content, time code, structured information;
を実行させるためのプログラム。A program for running
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003188908A JP4192703B2 (en) | 2003-06-30 | 2003-06-30 | Content processing apparatus, content processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003188908A JP4192703B2 (en) | 2003-06-30 | 2003-06-30 | Content processing apparatus, content processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005025413A JP2005025413A (en) | 2005-01-27 |
JP4192703B2 true JP4192703B2 (en) | 2008-12-10 |
Family
ID=34187299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003188908A Expired - Fee Related JP4192703B2 (en) | 2003-06-30 | 2003-06-30 | Content processing apparatus, content processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4192703B2 (en) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4745726B2 (en) * | 2005-06-13 | 2011-08-10 | キヤノン株式会社 | File management apparatus, control method therefor, computer program, and computer-readable storage medium |
JP2007072520A (en) * | 2005-09-02 | 2007-03-22 | Sony Corp | Video processor |
JP4741406B2 (en) * | 2006-04-25 | 2011-08-03 | 日本放送協会 | Nonlinear editing apparatus and program thereof |
KR101648711B1 (en) | 2008-01-14 | 2016-08-24 | 삼성전자주식회사 | Apparatus for processing moving image ancillary information using script and method thereof |
KR100957244B1 (en) | 2008-02-20 | 2010-05-11 | (주)아이유노글로벌 | Method of processing subtitles data for edited video product using synchronizing video data and subtitles data |
JP2010185975A (en) * | 2009-02-10 | 2010-08-26 | Denso Corp | In-vehicle speech recognition device |
KR101009973B1 (en) * | 2010-04-07 | 2011-01-21 | 김덕훈 | Method for providing media contents, and apparatus for the same |
JP5528252B2 (en) * | 2010-08-05 | 2014-06-25 | 日本放送協会 | Time code assigning apparatus and program |
KR101412722B1 (en) | 2011-08-29 | 2014-07-01 | 차양현 | Caption management method and caption search method |
KR101384740B1 (en) | 2013-04-05 | 2014-04-14 | 구재환 | Subtitle processing system and method using image recognition technology |
US9607224B2 (en) * | 2015-05-14 | 2017-03-28 | Google Inc. | Entity based temporal segmentation of video streams |
US10235387B2 (en) * | 2016-03-01 | 2019-03-19 | Baidu Usa Llc | Method for selecting images for matching with content based on metadata of images and content in real-time in response to search queries |
US11494547B2 (en) | 2016-04-13 | 2022-11-08 | Microsoft Technology Licensing, Llc | Inputting images to electronic devices |
JP6809177B2 (en) * | 2016-12-02 | 2021-01-06 | ヤマハ株式会社 | Information processing system and information processing method |
CN111126201B (en) * | 2019-12-11 | 2023-06-30 | 上海众源网络有限公司 | Character recognition method and device in script |
JP7481894B2 (en) | 2020-05-11 | 2024-05-13 | 日本放送協会 | Speech text generation device, speech text generation program, and speech text generation method |
WO2021240644A1 (en) * | 2020-05-26 | 2021-12-02 | 富士通株式会社 | Information output program, device, and method |
CN113192516B (en) * | 2021-04-22 | 2024-05-07 | 平安科技(深圳)有限公司 | Voice character segmentation method, device, computer equipment and storage medium |
-
2003
- 2003-06-30 JP JP2003188908A patent/JP4192703B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005025413A (en) | 2005-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4192703B2 (en) | Content processing apparatus, content processing method, and program | |
JP4175390B2 (en) | Information processing apparatus, information processing method, and computer program | |
EP1692629B1 (en) | System & method for integrative analysis of intrinsic and extrinsic audio-visual data | |
JP4600828B2 (en) | Document association apparatus and document association method | |
JP4873018B2 (en) | Data processing apparatus, data processing method, and program | |
US20130006625A1 (en) | Extended videolens media engine for audio recognition | |
US20100299131A1 (en) | Transcript alignment | |
JP2004152063A (en) | Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof | |
CN110781328A (en) | Video generation method, system, device and storage medium based on voice recognition | |
JP2008533580A (en) | Summary of audio and / or visual data | |
KR20080114786A (en) | Method and device for automatic generation of summary of a plurality of images | |
JP2007041988A (en) | Information processing device, method and program | |
WO2008097051A1 (en) | Method for searching specific person included in digital data, and method and apparatus for producing copyright report for the specific person | |
JP2008234431A (en) | Comment accumulation device, comment creation browsing device, comment browsing system, and program | |
JP2008205745A (en) | Image reproducing device and method | |
US20170092277A1 (en) | Search and Access System for Media Content Files | |
JP3781715B2 (en) | Metadata production device and search device | |
JP2004289530A (en) | Recording and reproducing apparatus | |
JP2004023661A (en) | Recorded information processing method, recording medium, and recorded information processor | |
KR101783872B1 (en) | Video Search System and Method thereof | |
JP5088119B2 (en) | DATA GENERATION DEVICE, DATA GENERATION PROGRAM, AND INFORMATION PROCESSING DEVICE | |
JP2010044614A (en) | Key phrase extractor, scene division device, and program | |
JP2008141621A (en) | Device and program for extracting video-image | |
JP2002324071A (en) | System and method for contents searching | |
JP2005341138A (en) | Video summarizing method and program, and storage medium with the program stored therein |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050318 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080422 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080619 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080826 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080908 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4192703 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121003 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131003 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |