[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2007052626A - メタデータ入力装置およびコンテンツ処理装置 - Google Patents

メタデータ入力装置およびコンテンツ処理装置 Download PDF

Info

Publication number
JP2007052626A
JP2007052626A JP2005237154A JP2005237154A JP2007052626A JP 2007052626 A JP2007052626 A JP 2007052626A JP 2005237154 A JP2005237154 A JP 2005237154A JP 2005237154 A JP2005237154 A JP 2005237154A JP 2007052626 A JP2007052626 A JP 2007052626A
Authority
JP
Japan
Prior art keywords
metadata
input
content
video
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005237154A
Other languages
English (en)
Other versions
JP2007052626A5 (ja
Inventor
Yoshihiro Morioka
芳宏 森岡
Masazumi Yamada
山田  正純
Kenji Matsuura
賢司 松浦
Masaaki Kobayashi
正明 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2005237154A priority Critical patent/JP2007052626A/ja
Publication of JP2007052626A publication Critical patent/JP2007052626A/ja
Publication of JP2007052626A5 publication Critical patent/JP2007052626A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】画像や音声などのコンテンツの記録を行ったメディアに関して、所望のコンテンツ部分に簡単に短時間でアクセスして視聴や編集作業を行うためには、記録メディアのタイムレコードに沿ってアクセスを行うため、アクセスおよび読み出しに多くの時間と労力を要した。
【解決手段】画像データに関連のメタデータを入力する場合、編集作業中にキーボードでのテキスト入力など複雑な抽出をすることで、画像の検索も容易に行うことができる。
【選択図】図1

Description

本発明はカメラ撮影時に取得できるコンテンツ(映像、音声、データ)からメタデータを生成し、入力する方法と、検索と頭だしが高速化された編集システムに関して好適なものである。
従来、カメラ撮影されたコンテンツの編集作業はマスターとなる媒体(テープ、ディスクなど)上に記録されているオリジナルコンテンツ(映像、音声、データ)をコンテンツ制作者の意図に応じて選択、合成する作業であり、非常に多くの手間と時間を要する作業である。また編集作業に要する作業量及び作業時間は放送用や業務用、または家庭用などコンテンツの分野や内容に応じて大きく異なる。放送の分野におけるニュースやスポーツ番組の編集において、素材テープから数秒単位の映像コンテンツを抽出するのに多くの労力が必要である上、抽出したコンテンツが最もふさわしいシーンであるかどうかの信憑性に課題が残る。さらに、スポーツや運動会で特定の人物を追随して撮影する場合、撮影対象の動きが早かったり撮影者が撮影作業に集中できなくなると撮影対象が撮影ファインダーからフレームアウトしてしまうという課題がある。また、撮影場面(シーン)に関連したキーワードをタグとして自動で付加する方法や、簡単な動作でタグを付加する方法も確立されていないため、撮影コンテンツから求める場面にすぐにアクセスする、または、瞬時に頭出しして視聴することが困難である。視聴だけでなく、編集までの作業となると、撮影コンテンツの全貌を把握するのに、多くの作業を要し、結果として編集作業がコンテンツ制作に費用をかけることのできる放送など一部の分野に制限されてしまっている。
従来、メタデータ入力方法は特許文献1に記載されたものが知られている。収録される映像番組の各場面に関する番組付加データするため、入力フォームから対応場面を特定する情報を入力するものである。
また従来の編集支援システムは、特許文献2に記載されたものが知られている。これは、記録に関する各種の情報を示すメタデータであり、シリアル番号、カセット番号、コメントであるメタデータを用いて、記録した映像に関する文字情報を得、これにより、文字列を検索して、所望のシーンの映像を検索することにより編集作業を効率化するシステムである。
そこで、メタデータ入力方法と編集システムとして、特許文献3に記載されたものが知られている。まず、収録時に収録した画像に含まれる文字を検出し、検出された文字に文字認識を行い文字データを生成しメタデータとし、収録された画像データに付随させる。そして、収録時に自動的に生成されたメタデータを編集作業で活用することで、メタデータの入力に必要な労力と時間を必要としない。また、カチンコやメモに書かれている文字データでも認識を行えるため、編集に直接関連している情報をメタデータとして与えることが容易なので、メタデータを編集作業にそのまま活用できるという特徴を持つ。
特開2002−152694号公報 特開2001−292407号公報 特開2005−39534号公報
しかしながら上記した従来の方式ではメタデータを収録後に映像を見ながら、入力フォームにより人間の手で入力しなければならない。そのため、入力のための労力、時間を要する、と言う課題を有している。また、画像に付加されているメタデータがシリアル番号、カセット番号等から文字列信号を生成した場合、直接、編集に必要な情報をピンポイントで検出することは難しいと言う課題も有している。また、文字以外の情報、音声や人物や物体から直接メタデータを生成することができないという課題を有する。
収録時に収録したコンテンツ(映像、音声、データ)の映像に含まれる人物、物体を画像認識し、音声に含まれるキーワードなど音声の認識を行ない、それぞれの認識結果を文字データに変換してメタデータを生成する。そして、このメタデータを収録されたコンテンツと関連づける。収録時に自動的に生成されたメタデータや簡単な動作で生成したメタデータを頭だしや編集作業などで活用することにより、大幅な作業能率の向上を図ることができる。
以上の発明により、収録時に収録したコンテンツ(映像、音声、データ)の映像に含まれる人物、物体を画像認識し、音声に含まれるキーワードなど音声の認識を行ない、それぞれの認識結果を文字データに変換してメタデータを生成する。そして、このメタデータを収録されたコンテンツと関連付ける。収録時に自動生成したメタデータや、簡単な動作で生成したメタデータを、頭出しや編集作業で活用し、大幅な作業能率の向上を図ることができる。
さらに、画像認識手段で人を認識した場合、その人の着用している衣類やまた持っている鞄などを画像データベースに登録し、その人物と関連付けておくことより、視聴時の問い合わせに対して検索を簡単に実行できる。
また、音楽や人や人の動きなど著作権の発生するものを自動認識する手段を具備することにより、コンテンツ素材より編集を行った完パケを構成する各シーンの著作権関連項目を呼び出したり、表示したり、各著作権関連項目に著作権の管理元、連絡先、使用条件や著作権料などのメタデータを追記することにより、もし撮影コンテンツに著作権処理が必要な場合、編集素材や完パケに対して必要な著作権処理のリストを容易に作成できる。よって、コンテンツの再利用が促進される。
また、ユーザーは表示されたサムネイル画像を見て、自分の編集したい映像クリップを選び、各クリップ中で使用するシーンを選択し、順番を変えてプレイリストを生成することにより、ダイジェスト再生などが可能となる。
また、プレイリスト出力手段を持つことにより、プレイリストを外部に出力し、外部機器からプレイリストに従ったAVコンテンツだけを出力することができる。よて、リモートからのプレイリストによるダイジェスト再生が可能となる。
さらに、メタデータ時刻修正手段を追加することによりプレイリストによる再生で、プレイリストとAVコンテンツ間のフレームまたはフィールド誤差取り除くことができる。これにより、ムービー撮影者や撮影監督などのユーザーは考えたとおりにメタデータと映像の同期を取ることが可能となり、AV信号の編集効率をアップし、映像表現の高精度化、高度化を図ることができる。
(実施の形態1)
図1は本発明の説明図であり、カメラにおいて記録媒体(またはバッファメモリ)上に映像データと音声データとメタデータを作成するシステムのモデルを示している。101はカメラ、102はカメラのレンズ部、103はカメラのマイク、104はカメラの撮影対象(風景や人やペットなどの動物、車、建造物などの物)である。また、105はカメラで撮影したデータであり、映像データ106、音声データ107、メタデータ108により構成される。109はカメラで撮影されたデータシーケンスであり、時間軸上に映像、音声、メタデータが配置されている。メタデータはテキスト形式の文字データとして扱うが、バイナリィ形式のデータとしても良い。
ここでデータシーケンス109は、抽出されたシーン#1からシーン#5までを含んでいる。111は編集により、シーン#1からシーン#5までをつなぎ合わせたデータシーケンスである。ユーザはリモコン110によるリモート制御により、編集されたデータシーケンスの順番で各シーンをTV112に一覧表示することができる。
113はメタデータ入力用ボタンであり、3つのボタンにより構成されている。カメラで撮影中に重要な場面でメタデータ入力用ボタンを押すことにより、その重要な撮影場面(シーン)にマークをつけることができる(マーキング機能)。この重要シーンを指すマークもメタデータであり、撮影後にマーク検索によりマークを付けたシーンを呼び出すことができる。3つのボタンは、たとえば、1つ目のボタンは重要シーンの登録に、2つ目のボタンはボタン操作を有効にしたり文字入力モードに切替えるモード切替えに、3つ目のボタンは登録のキャンセルに、それぞれ使用する。また、1つ目のボタンを押している期間を重要シーンとして登録するモードに切替えることもできる。さらに、1つ目のボタンを押した時点の前後5秒、あるいは前5秒、後10秒の合計15秒を重要シーンとして登録するモードに切替えることもできる。ボタンが3つあれば、押すボタンの種類、タイミング、押す長さの組み合わせにより、多くの機能に利用することができる。
ここで、#1から#5までのシーンの時間長は任意である。ユーザーはカメラ撮影した撮影素材であるデータシーケンスから、各シーンの開始位置(時間)と終了位置(時間)、または長さを選択して、各シーンを並べ替えることができる。各シーンをTVモニターなどに表示する場合、そのシーンの先頭または先頭以降最後尾のフレーム(またはフィールド)映像をそのシーンを代表する映像として表わすことができる。
図2は、カメラ101における映像信号、音声信号、およびメタデータの取り扱いを説明する図である。201はカメラからの映像信号、音声信号の入力手段、202は音声と画像の認識ユニット手段、203は音声認識手段、204は画像認識手段、205はユーザーの声やユーザーが設定する重要さに関する情報の入力手段、206はカメラのセンサー情報入力手段、207はメタデータの生成ならびに映像音声との同期ならびにメタデータ管理を行うメタデータ生成・同期・管理手段である。
また、208はMPEG−2圧縮やH.264圧縮を行ない記録媒体に記録するフォーマットに変換し記録媒体に記録するAV信号圧縮記録制御手段である。209はバッファメモリとしても動作する記録媒体であり、AVデータファイルを含むAVデータファイルディレクトリ210、タイトルリスト/プレイリスト/ナビゲーションデータファイルを含むタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ211、ならびにメタデータファイルを含むメタデータファイルディレクトリ212を持つ。
213は辞書群であり、内部に複数の分野別辞書(辞書A、辞書B、辞書C)を含む。214は辞書登録データの追加削除管理手段、215は映像信号に含まれる画像に存在する人、物の特定を行う画像認識手段、216は画像認識のデータベース(人や動物や物の特徴を記述したデータベース)、217はAV信号再生管理手段、218は時計、219は管理制御手段、220はAV信号出力手段である。
図2の動作について説明する。図2において、カメラ101で撮影した映像信号、音声信号は、それぞれAV信号入力手段201に入力される。AV信号入力手段201に入力された映像信号および音声信号は、それぞれ複数の系統に分けられバッファ(一時保持)された後、それぞれ音声と画像の認識ユニット手段202およびAV信号圧縮記録制御手段208に出力される。
音声と画像の認識ユニット手段202は、音声認識手段203および画像の検出を行う画像認識手段204を内蔵しており、各々入力された音声の認識および映像に含まれる画像の検出を行う。
ここで、音声認識手段203はユーザーのボタン入力などにより辞書群213内の複数の辞書A、辞書B、辞書Cなどから任意の辞書を選択する、そして、選択された辞書に登録された単語群データを用いて音声認識を行う。なお辞書A、辞書B、辞書Cの例としては、野球、サッカー、バスケットボールなどの各スポーツ分野別、あるいは運動会、お誕生会、結婚式などのイベント別に設定して登録単語の語彙や単語数を書く分野にふさわしい内容に選択して絞り込んだ辞書とする。そこで、音声認識の実行前に認識を行う分野を選択すれば、音声認識動作における誤認識を削減し、認識率の向上を図ることができる。また、各辞書は、辞書登録データの追加削除管理手段214を介して、分野別辞書自体の追加と削除、また各分野別辞書内の登録単語の追加、削除ができる。たとえば、運動会の辞書に、親が自分の子供や知人の子供の名前を追加することが可能であり、子供の名前を音声認識でテキスト化してメタデータとして映像に関連付けて(紐付けてとも言う)記録することにより、再生時に子供の名前を指定(たとえば、再生時にTV画面上に表示された登録メタデータ一覧から選択)することにより、子供の映っている映像に素早くアクセス(クイックアクセス)できる。このように音声認識において、分野の選定と、分野別に絞った辞書でのキーワート゛登録の2段階で行うことにより、認識速度と精度を向上させることができる。
また、画像の検出を行う画像認識手段204は、映像信号が1枚の絵を構成する映像フレームまたは映像フィールド(映像と略する)内の意味のある画像を検出、認識する。本実施例における画像の意味として、映像信号が1枚の絵を構成する映像内における意味のあるオブジェクト画像のこととする。画像認識手段204は映像内の意味のあるオブジェクトとして人物、人の顔、動物(犬、猫などのペット)、車、電車、飛行機などの乗り物、家やビルなどの建造物、標識などを含んだ道路の景色、観光名所、田園、山岳、町の風景などがある。これら映像内の意味のあるオブジェクトに関する情報は、人や動物や物の特徴を記述した画像認識のデータベース216より入力される。たとえば、人の顔を認識する場合には、映像(映像フレームまたは映像フィールド)中の人の顔を認識して、映像において人の顔が存在する領域を例えば四角い領域や丸い領域として認識する。
ここで認識された人の顔が存在する領域を例えば四角い領域や丸い領域は、たとえば、「非特定人物ナンバー1」、「非特定人物ナンバー123」などのメタデータを付ける。なお、連続する映像内で同人物と認識される人の顔に関する認識領域は、同じ非特定人物ナンバーを付けることにより、非特定人物ナンバーを削減できる。また、1秒や3秒など一定時間以上に渡って検出した場合のみ非特定人物ナンバーを付ける付加機能を追加することにより、非特定人物ナンバーを削減できる。これにより、撮影者の意図に反して一部の時間だけチラリと見えた人物の認識を排除することができるまた、メタデータ生成するタイミングについては、メタデータ作成ボタンがユーザーにより押されたとき、としても良い。さらに、映像画面上の位置により特定の大きさ以上の場合のみ非特定人物ナンバーを付加する機能を追加することによりさらに非特定人物ナンバーを削減できる。たとえば、画素数がVGAサイズ(横640ピクセル、縦480ピクセル)の場合、画面の真ん中(横320ピクセル、縦240ピクセル)の領域では、顔領域が縦、横60ピクセル以上の場合のみ検出し、画面の端の領域では、顔領域が縦、横40ピクセル以上の場合に検出する方法がある。これにより画面の真ん中で認識される人物の検出速度(計算速度)と精度を上げることができる。
以上の様に、音声と画像の認識ユニット手段202は、音声認識および画像認識により得たテキスト情報をメタデータとしてメタデータ生成・同期・管理手段207に入力する。メタデータ生成・同期・管理手段207は時計218より時刻情報を受け取っており、AV信号圧縮記録制御手段208と連携して映像、音声、メタデータの時間管理(時刻同期)を行う。
メタデータ生成・同期・管理手段207に入力される情報は、音声と画像の認識ユニット手段202から入力されるメタデータだけでなく、カメラに付いた重要場面設定ボタンや静止画取得ボタンなどからのボタン入力情報を受け付けるユーザー情報入力手段205や、カメラの動作状態を表わす各種パラメータ入力を受け付けるセンサー情報入力手段206からのメタデータなどがある。ここで、カメラの動作状態を表わすパラメータの例としては、GPSや携帯電話の位置センサーや加速度センサーを用いた存在位置、カメラの向きや傾き(仰角)情報、カメラ101が使用しているレンズ102の種類、ズーズ倍率、絞りなどの露光情報などがある。
さて、AV信号圧縮記録制御手段208に入力された映像信号および音声信号および各種のメタデータは、それぞれに関連した映像信号、音声信号、メタデータ同士で紐付けを行う。この紐付けは、映像、音声、メタデータの発生した時間情報(タイムコード。精度としては、映像フレームや映像フィールドでよい。)を元に実行するが、ストリームやファイル中のデータ位置情報を用いて紐付け(関連付け)を行ってもよい。
AV信号圧縮記録制御手段208は、映像圧縮としてMPEG−2(または、ITU−T規格 H.262)およびH.264/AVC方式の圧縮エンジン、また、音声圧縮としてMPEG−2 AAC(Advanced Audio Coding)、MPEG−1 レイヤ3(MP3)の圧縮エンジンを内蔵している。なお、圧縮エンジンはこれらに限らず、DV(IEC 61834)方式、DVCPRO方式(SMPTE 314M)、DivX Video方式(www.divx.com)、XviD方式、WMV9(Windows(登録商標) Media Video 9)方式(www.microsoft.com))や他の形式の圧縮エンジンを選択することもできる。本実施例では、映像圧縮としてH.264/AVC方式(以下、AVCと略す)、音声圧縮としてMPEG−2 AAC(以下、AACと略す)を選択しているとする。
ここで、本実施例で選択したAVC方式およびAAC方式について説明する。図3は、図2のAV信号圧縮記録制御手段208内の映像と音声の圧縮エンジンとその周辺処理手段の構成をより詳細に説明する図である。図3における代表的な構成要素として、映像符号化部301、VCL(Video Coding Layer)−NAL(Network Abstraction Layer)ユニットバッファ302、AAC方式による音声符号化部303、PS(Parameter Set)バッファ304、VUI(Video Usability Information)バッファ(305)、SEI(Supplemental Enhancement Information)バッファ306、non−VCL−NALユニットバッファ307、MPEG−TSマッピング処理手段308などにより構成される。図3に示すように入力された映像信号をVCL NALユニット形式のデータに変換する。また、音声信号、メタデータ、外部入力PS(Parameter Set)データ、外部入力VUI(Video Usability Information)データ、外部入力SEI(Supplemental Enhancement Information)データをNon VCL NALユニット形式のデータに変換する。これらVCL NALユニット形式のデータと、Non VCL NALユニット形式のデータをMPEG−2 TS形式に変換して出力する。なお、 H.264/AVC方式についての解説は、たとえば、「H.264/AVC教科書」、大久保榮監修、株式会社インプレス発行などがある。また、MPEG−TS(Moving Picture Experts Group、Transport Stream)信号はIEC 61883−4で規定されている。MPEG−TSはMPEGトランスポートパケット(TSパケットと略す)が複数個集まったものである。TSパケットは188byteの固定長パケットで、その長さはATMのセル長(53バイト中、ATMペイロードは47バイト)との整合性、およびリードソロモン符号などの誤り訂正符号化を行なう場合の適用性を考慮して決定されている。
TSパケットは4byte固定長のパケットヘッダと可変長のアダプテーションフィールド(adaptation field)およびペイロード(payload)で構成される。パケットヘッダにはPID(パケット識別子)や各種フラグが定義されている。このPIDによりTSパケットの種類を識別する。adaptation_fieldとpayloadは、片方のみが存在する場合と両方が存在する場合とがあり、その有無はパケットヘッダ内のフラグ(adaptation_field_control)により識別できる。adaptation_fieldは、PCR(Program_Clock_Reference)等の情報伝送、および、TSパケットを188byte固定長にするためのTSパケット内でのスタッフィング機能を持つ。また、MPEG−2の場合、PCRは27MHzのタイムスタンプで、符号化時の基準時間を復号器のSTC(System Time Clock)で再現するためにPCR値が参照される。各TSパケットに付加するタイムスタンプのクロックは、たとえば、MPEGのシステムクロック周波数に等しく、パケット送信装置はさらに、TSパケットを受信し、受信したTSパケットに付加されたタイムスタンプより、MPEG−TSのネットワーク伝送によりProgram Clock Reference(PCR)に付加された伝送ジッターを除去して、MPEGシステムクロックの再生を行うクロック再生手段を備える。
MPEG−2のTSでは復号器のSTCはPCRによるPLL動機機能を持つ。このPLL同期の動作を安定させるためにPCRの送信間隔は、MPEG規格で100msec以内と決められている。映像や音声などの個別ストリームが収められたMPEG−PESパケットは同じPID番号を持つ複数のTSパケットのペイロードに分割して伝送する。ここで、PESパケットの先頭は、TSパケットの先頭から開始するように構成される。
トランスポートストリームは複数のプログラムを混合して伝送することができるため、ストリームに含まれているプログラムとそのプログラムを構成している映像や音声ストリームなどのプログラムの要素との関係を表すテーブル情報が用いられる。このテーブル情報はPSI(Program Specific Information)と呼ばれ、PAT (Program Association Table)、PMT(Program Map Table)などのテーブルを用いる。PAT、PMTなどのPSIはセクションと呼ばれる単位でTSパケット中のペイロードに配置されて伝送される。
PATにはプログラム番号に対応したPMTのPIDなどが指定されており、PMTには対応するプログラムに含まれる映像、音声、付加データおよびPCRのPIDが記述されるため、PATとPMTを参照することにより、ストリームの中から目的のプログラムを構成するTSパケットを取り出すことができる。TSに関する参考文献としては、例えば、CQ出版社、TECH I Vo.4、「画像&音声圧縮技術のすべて(インターネット/ディジタルテレビ、モバイル通信時代の必須技術)」、監修、藤原洋、第6章、「画像や音声を多重化するMPEGシステム」があり、同書にて解説されている。
PSIやSIに関する論理的な階層構造、処理手順の例、選局処理の例に関して、「ディジタル放送受信機における選局技術」、三宅他、三洋電機技報、VOL.36、JUNE 2004、第74号、31ページから44ページにて解説されている。
ところで、メタデータはSEIバッファ306に入力する。ここでは、メタデータはSEIのUser Data Unregistered SEIに格納する。メタデータの種類としては、前述したメタデータ以外にも、一般的なデータをメタデータ化したメタデータ、また、デジタル放送を受信してそのSI(Service Information; 番組配列情報)より得るメタデータ、EPG提供事業者より得たEPG情報などのメタデータ、Internetから得たEPGなどのメタデータ、また、個人でムービー撮影したAVコンテンツ(静止画、音声、クリップなどの動画)に関連付けたメタデータなどがある。メタデータの形式としては、たとえば、UPnPやUPnP−AVの標準仕様として、プロパティ(property)やアトリビュート(attribute)があり、http://upnp.orgで公開されており、XML(Extensible Markup Language)やBML(Broadcast Markup Language)などの記述言語で表現できる。http://upnp.orgにおいて、例えば、「Device Architecture V 1.0」、「ContentDirectory:1 Service Template Version 1.01」、「MediaServer V 1.0 and MediaRenderer V 1.0」に関して、「MediaServer V 1.0」、「MediaRenderer V 1.0」、「ConnectionManager V 1.0」、「ContentDirectory V 1.0」、「RenderingControl V 1.0」、「AVTransport V 1.0」、「UPnPTM AV Architecture V .83」などの仕様書が公開されている。また、メタデータ規格に関しては、EBUのP/Meta、SMPTEのKLV方式、TV Anytime、MPEG7などで決められたメタデータ形式があり、「映像情報メディア学会誌、55巻、3号、情報検索のためのメタデータの標準化動向」などで解説されている。
なお、ムービーなどの撮影者、コンテンツ制作者、またはコンテンツの著作権者が各メタデータに価値を付け、コンテンツを利用するユーザーの利用内容や頻度により利用料金を徴収するために、各メタデータに価値を与えるメタデータを関連づけることができる。この各メタデータに価値を与えるメタデータは該メタデータのアトリビュートで与えてもよいし、独立したプロパティとして与えてもよい。たとえば、録画機器と録画条件に関する情報、すなわち、ムービーの機器ID、ムービーなどの撮影者、コンテンツ制作者、またはコンテンツの著作権者が作成、登録するメタデータの価値が高くて使用許諾が必要と考える場合、該メタデータの利用には認証による使用許諾のプロセスを実行する構成を本発明に組み込んだ構成をとることもできる。
たとえば、自分で撮影した動画コンテンツを暗号化したファイルを作成し、Internet上のサーバーにその暗号化ファイルをアップロードする。その暗号化ファイルの説明や一部の画像などを公開して、気にいった人に購入してもらう構成をとることもできる。また、貴重なニュースソースが録画できた場合、複数の放送局のニュース部門間で競売(オークション)にかける構成をとることもできる。
これらメタデータを活用することにより、多くのAVコンテンツから所望のコンテンツを検索する、ライブラリに分類する、記録時間を長時間化する、自動表示を行う、コンテンツ販売するなどコンテンツの効率的な利用が可能となる。記録時間を長時間化するには、価値の低い動画コンテンツは解像度を低くするとか、音声と静止画(たとえば、MPEGのIピクチャーやH.264のIDRピクチャーを抜き出してもよい)だけにするとか、静止画だけにするなどの構成をとることにより実現できる。
さて、図2に戻って説明を行う。AV信号圧縮記録制御手段208で生成されたMPEG−TS信号は、記録媒体(または、バッファメモリ)209内のAVデータファイル用ディレクトリ210に記録(または、一時蓄積)される。なお、ここで、記録媒体(または、バッファメモリ)209として半導体メモリ、光ディスク(DVD−RAM、DVD−R、BDなど)、HDD(ハードディスクドライブ)を用いることによりクイックアクセスが可能となるし、一部のデータ、たとえば、メタデータを修正したり追加したりすることが容易に実行できる。また、このMPEG−TS信号のタイトルはAV信号圧縮記録制御手段208よりタイトルを記録媒体209内のタイトルリスト/プレイリスト/ナビゲーションデータファイル用ディレクトリ211に記録する。さらに、このMPEG−TS信号のメタデータはAV信号圧縮記録制御手段208より記録媒体209内のメタデータ用ディレクトリ212に記録する。
次に、記録媒体209に記録されたAVデータファイルの内、画像認識手段204で検出された画像、たとえば、人(人物)の顔が誰であるか人の識別を行う方法について説明する。メタデータファイル212には、画像認識手段204で検出された画像がAVデータファイルに記録されたどのAVデータファイルのどの映像(映像フレームまたは映像フィールド)のどの位置にあるものであるかのメタ情報が記録されている。AV信号再生制御手段217は、メタデータファイルより人の識別を行うデータ位置に関する情報を受け取りAVデータファイルより該当の画像データを呼び出す。そして、呼び出した画像データを人の特定を行う画像認識手段215に入力する。画像認識手段215は、画像認識のデータベース(人や動物や物の特徴を記述したデータベース)216を用いて、照会された人が誰であるかを判定して、判定結果をメタデータファイルに追加する。この人の判定結果は、元のメタデータが前述の「非特定人物ナンバー123」である場合、人物判定結果、たとえば「田中次郎」が追加される。なお後にユーザーが確認した人物名と人物の顔が間違っていた場合、ユーザーは、管理制御手段219のボタン入力を介して、正しい名前である「田中一郎」に修正できる。なお、ボタン入力でも、最近の携帯電話で一般化されているように文字入力が実現できる。また、一枚の映像(映像フレームまたは映像フィールド)における人物の人数は一人に制限されず、検知領域の最小サイズ以上であれば、何人でも検知できる。すなわち、一枚の映像に、「田中一郎」、「鈴木あゆこ」、「加藤奈津子」など複数の人物名が同時に存在できる。なお、メタデータ生成・同期・管理手段207の設定によって、特定のファイルやファイル中の場面に対して、一枚の映像(映像フレームまたは映像フィールド)における人物の人数を特定の数、たとえば、5人に制限することができる。これにより人物データのデータ容量削減と、処理負荷の削減を図ることができる。
なお、画像認識手段215において認識する対象が人の顔でなく、文字、動物、車など画像認識のデータベース(人や動物や物の特徴を記述したデータベース)216内のそれぞれのデータベースファイルを参照して画像の認識、特定を行い、メタデータファイルに追加記述する。
たとえば、人を認識した場合、その人の着用している服、ネクタイ、メガネ、帽子、時計、靴、また持っている鞄やバッグを画像データベースに登録し、その人物と関連付けておくことより、問い合わせに対応する検索を簡単に実行することができる。この場合、人物をUPnPのプロパティとし、その人物の着用している服、ネクタイ、メガネ、帽子、時計、靴、また持っている鞄やバッグを人物プロパティのアトリビュートと定義することもできる。
また、音楽や人や人の動きなど著作権の発生するものを自動認識する手段を具備することにより、コンテンツ素材より編集を行った完パケ(完成パケット、完成コンテンツ)を構成する各シーンの著作権関連項目を呼び出したり、表示したり、各著作権関連項目に著作権の管理元、連絡先、使用条件や著作権料などのメタデータを追記できる。これにより、もし撮影コンテンツに著作権処理が必要な場合、編集素材や完パケに対して必要な著作権処理のリストを用意に作成できる。よって、コンテンツの再利用が促進される。
さて、記録媒体209から映像を再生する場合、ユーザーは管理制御手段219よりAV信号再生制御手段217にアクセスし、記録されているファイルタイトルから再生ファイルを選ぶ。ユーザが複数のAVファイルの中から再生すべきファイルが特定できない場合には、ユーザーは管理制御手段219のユーザーインタフェース(ユーザーのボタン入力)より、検索キーワードを打ち込み、AV再生制御手段217に問い合わせる。AV再生制御手段217は、入力されたキーワードに全部または一部マッチングするメタデータをタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ211およびメタデータファイルディレクトリ212から検索して、その結果を、たとえばテキスト情報と該当映像のサムネイルをAV信号出力手段220の出力映像に重畳する。これによりユーザは検索結果を、テキストとサムネイルのペアとして、TV画面上で確認できる。なお、ここで、ユーザーへの検索結果の通知は、カメラに付いているファインダーなど一般の表示ディスプレイを用いてもよい。
さて、上記のタイトルリストやメタデータ検索結果などから、再生すべきAVデータを特定した後は、ユーザーは目的のAVファイルを呼び出し再生する。なお、このAVファイル中の特定の場面にすぐにアクセスする場合、ユーザーは管理制御手段219を介してAV信号と紐付けをしたメタデータを使用することによりアクセスしたい場面にすぐにアクセスして再生することができる。
(実施の形態2)
次に、本発明の第2の実施例について説明する。以下においては、実施の形態1と同じ部分は説明を省略し、異なる部分のみ説明する。図4は第2の実施例の説明図である。図4においては、プレイリスト生成・管理手段401を新たに追加する。
プレイリスト生成・管理手段401は、複数のAVファイルから任意のAV信号部を選択して自由に組み合わせて(編集して)、新たなAVファイルを生成する。この生成方法としては、管理制御手段219においてユーザーがボタン入力で指定したファイルに対して、メタデータで指定される場面と、メタデータで指定されないがユ−ザが重要と考える場面を時間軸に沿って、AV信号出力手段220の出力信号にサムネイル表示させる(図1の112参照)。なお、サムネイルはユーザーが指定した長さなど特定長の映像クリップの先頭画像(または、サムネイルの代表画像)である。ユーザーは表示されたサムネイル画像を見て、自分の編集したい映像クリップを選び、各クリップ中で使用するシーンを選択し、順番を変えて新たな映像ファイルを生成する。この作業で実際に生成しているのは、ファイルからのクリップ切り出し位置情報の組み合わせとしての、いわゆるプレイリストであり、このプレイリストをタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ211に登録する。この様にプレイリストを用いると、余分なAV信号のないコンパクトなファイルをバーチャルに生成できる。
さて、記録媒体209から映像を再生する場合、ユーザーは管理制御手段219よりAV信号再生制御手段217にアクセスし、記録されているファイルタイトルおよびプレイリストから再生ファイルを選ぶ。ユーザが複数のAVファイルの中から再生すべきファイルのタイトルまたはプレイリストが特定できない場合には、ユーザーは管理制御手段219のユーザーインタフェース(ユーザーのボタン入力)より、検索キーワードを打ち込み、AV再生制御手段217に問い合わせる。AV再生制御手段217は、入力されたキーワードに全部または一部マッチングするメタデータをタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ211およびメタデータファイルディレクトリ212から検索して、その結果を、たとえばテキスト情報と該当映像のサムネイルをAV信号出力手段220の出力映像に重畳する。これによりユーザは検索結果を、テキストとサムネイルのペアとして、TV画面上で確認できる。なお、ここで、ユーザーへの検索結果の通知は、カメラに付いているファインダーなど一般の表示ディスプレイを用いてもよい。
さて、上記のタイトルリスト、メタデータ検索結果に加えてプレイリストから、再生すべきAVデータを特定でき、特定後、目的のAVファイルを呼び出し再生する。なお、このAVファイル中の特定の場面にすぐにアクセスする場合、ユーザーは管理制御手段219を介してAV信号と関連付けしたメタデータを使用することにより、アクセスしたい場面にすぐにアクセスして再生できる。
(実施の形態3)
次に、本発明の第3の実施例について説明する。以下においては、実施の形態2と同じ部分は説明を省略し、異なる部分のみ説明する。図5は第3の実施例の説明図である。図5においては、プレイリスト出力手段501を新たに追加する。プレイリスト出力手段501は、第2の実施例で生成されタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ211に登録されたプレイリストを出力する。
記録媒体209から映像を再生する場合、ユーザーは管理制御手段219よりAV信号再生制御手段217にアクセスし、記録されているファイルタイトルおよびプレイリストから再生ファイルを選ぶ。ユーザが複数のAVファイルの中から再生すべきファイルのタイトルまたはプレイリストが特定できない場合には、ユーザーは管理制御手段219のユーザーインタフェース(ユーザーのボタン入力)より、検索キーワードを打ち込み、AV再生制御手段217に問い合わせる。AV再生制御手段217は、入力されたキーワードに全部または一部マッチングするメタデータをタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ211およびメタデータファイルディレクトリ212から検索して、その結果を、たとえばテキスト情報と該当映像のサムネイルをAV信号出力手段220の出力映像に重畳する。これによりユーザは検索結果を、テキストとサムネイルのペアとして、TV画面上で確認できる。なお、ここで、ユーザーへの検索結果の通知は、カメラに付いているファインダーなど一般の表示ディスプレイを用いてもよい。
さて、上記のタイトルリスト、プレイリストやメタデータ検索結果などから、再生すべきAVデータを特定した後は、ユーザーは目的のプレイリストをプレイリスト出力手段より出力する。
この様にプレイリストを出力するメリットを図6を用いて説明する。図6においてユーザー1とユーザー2がネットワークを介して接続されているとする。ネットワークの種類は問わず、IPベースのホームネットワークでもよいしインターネットでもよい。
ユーザー2がローカルのTV608のリモコン609から、ネットワークを介してリモートのムービー101にアクセスする場合を考える。ユーザー2がムービー101内の録画ファイルを遠隔から視聴する場合、ムービー101内のプレイリストに従ってAV信号を視聴できれば、プレイリストのファイルには編集前の余分なデータがない分、データ転送量が小さくなり、機器およびネットワークにかかる負荷を小さくできる。すなわち、ムービーでの生の撮影信号から不要な信号を削除して編集されたAV信号を、より効率的に視聴できる。
また、ユーザー1はAVファイル、AVファイルに関するメタデータおよびプレイリストをネットワーク605内のサーバー606や、ユーザー1ローカルのAVレコーダー602、ユーザー2ローカルのAVレコーダー602にアップロードできる。これにより、別のユーザー(たとえば、ユーザー3)がサーバー606や、AVレコーダー602、AVレコーダー602にアクセスしてプレイリストに従ったAV信号を効率的に送受信することができる。
ここで、もし、ユーザー2や別のユーザー(たとえば、ユーザー3)が視聴したプレイリストよりもっと別のプレイリストを考案した場合、ユーザー2や別のユーザー(たとえば、ユーザー3)は新たなプレイリストを生成し、サーバー606や、AVレコーダー602、AVレコーダー602にアップロードする。これにより、限られた数のAV信号(コンテンツ)から多くの編集タイトル(プレイリスト)を生成でき、AV信号(コンテンツ)を色々な観点から鑑賞することが可能となる。いわゆる、ネットワーク型の映像編集、制作をネットワークを介して共同で行うことも可能となる。
また、プレイリストを利用することにより別のアプリケーション(利用方法)も生まれる。たとえば、ムービー101からAV信号再生制御手段217で低解像度のAV信号に変換して、メタデータと共に携帯電話601に出力し、形態電話601でメタデータを用いて映像編集を行ない編集EDL(または、プレイリスト)をムービー101に送る。TV603はムービー101にアクセスし、プレイリストを選択し、ムービーでの生の撮影信号から不要な信号を削除してきれいに編集されたAV信号を視聴できる。
また、プレイリストに従ったAV信号をAVレコーダー602やサーバー605、AVレコーダー607にアップロード(または、ダウンロード)することにより、ネットワークに繋がったユーザーはネットワークを介して、より完成度が高く編集されたAVコンテンツ信号を効率的に視聴できる。
本発明は、プレイリストを利用したAVコンテンツ視聴に発展させることもできる。たとえば、図7においてネットワーク605をインターネットとした場合、ユーザー1はインターネット上のサーバー606にブログ(Blog、Weblogの別名)形式のサイトを公開し、そのブログサイトにアクセスして登録した複数のユーザーにRSS(RDF Site Summary)形式でAVコンテンツの追加、更新情報を知らせることができる。ここでユーザー1はAVコンテンツとそのAVコンテンツに対応した複数のプレイリストを公開する。個々のプレイリストには、たとえば、そのAVコンテンツのダイジェスト版、簡易版、完全版、編集前の生コンテンツなどの解説が付けられており、AVコンテンツを視聴するユーザーは好みのプレイリストを選びAVコンテンツを視聴することができる。これは、デジタル放送におけるEPG(Electronic Program Guide)配信をインターネット上の放送配信メディアに拡張したシステムと考えることができる。ダイジェスト版は1セグ放送や携帯電話での有料または無料のコンテンツ配信に有効であり、簡易版や完全版、編集前コンテンツはWEB上での有料または無料のコンテンツ配信に有効である。ユーザー1はインターネット上のを通じて多くのユーザーに知らせることができるので、小規模な企業体や個人でも音声や映像のインターネットベースの放送局を開局できる。また、ユーザーは、RSSフィードによるインターネット上のAVコンテンツを自動的に収集する仕組みである、いわゆる、Podcasting(ポッドキャスティング)を利用してインターネット上のAVコンテンツを視聴できる。
さらに、ムービー101にインターネットに接続してサーバーとして働く機能を持たせる(IPネットワーク接続機能付きムービーカメラ101)。この場合、ユーザー1は撮影中のコンテンツをメタデータと一緒にインターネットを介してライブ配信できる。すなわち、ユーザー1はライブ撮影の音声と映像を音声認識や画像認識やボタン入力ですばやくメタデータ化し、XML文書としてRSSでインターネットで公開することにより、メタデータによる解説付きの生中継を全世界に行うことができる。
(実施の形態4)
次に、本発明の第4の実施例について説明する。以下においては、実施の形態3と同じ部分は説明を省略し、異なる部分のみ説明する。図7は第4の実施例の説明図である。図7においては、メタデータ時刻修正手段701を新たに追加する。プレイリスト出力手段501は、第2の実施例で生成されタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ211に登録されたプレイリストを出力する。
記録媒体209から映像を再生する場合、ユーザーは管理制御手段219よりAV信号再生制御手段217にアクセスし、記録されているファイルタイトルおよびプレイリストから再生ファイルを選ぶ。ユーザが複数のAVファイルの中から再生すべきファイルのタイトルまたはプレイリストが特定できない場合には、ユーザーは管理制御手段219のユーザーインタフェース(ユーザーのボタン入力)より、検索キーワードを打ち込み、AV再生制御手段217に問い合わせる。AV再生制御手段217は、入力されたキーワードに全部または一部マッチングするメタデータをタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ211およびメタデータファイルディレクトリ212から検索して、その結果を、たとえばテキスト情報と該当映像のサムネイルをAV信号出力手段220の出力映像に重畳する。これによりユーザは検索結果を、テキストとサムネイルのペアとして、TV画面上で確認できるが、メタデータとサムネイルの間にムービー撮影者の意図しない時間ずれがあった場合、編集や視聴前にそのずれを修正する必要がある。そこでユーザーは、指定したメタデータに対するサムネイルを見ながら、管理制御手段219よりボタン入力によりメタデータとサムネイルの時間ずれを映像のフレームまたはフィールド単位で修正(トリミング)する。このとき、メタデータ時刻修正手段701がユーザーの指定した分だけメタデータに関連付けた映像信号の時間情報(タイムコードまたはデータ位置情報)を修正して新しい時間情報でメタデータと映像信号を関連付ける。これにより、ムービー撮影者や撮影監督などのユーザーは考えたとおりにメタデータと映像の同期を取ることが可能となる。よって、AV信号の編集効率をアップし、映像表現の高精度化、高度化を図ることができる。
また、本発明によればプレイリストの新たな利用方法として放送番組のプレイリスト配信を行うことができる。たとえば、ムービー101がTVチューナーを内蔵していて、TV放送を録画した場合、ユーザー1は録画したTV番組を前述の様に編集してそのプレイリストを生成する。この場合、ユーザー1は録画番組のタイトルとプレイリストだけをインターネット上のサーバーに公開する。他の一般ユーザ(たとえば、ユーザー123とする)もユーザー1と同じ番組を録画している場合、ユーザー123はユーザー1の生成したプレイリストをダウンロードすることにより、自分(ユーザー123)の録画したTV番組をユーザー1が生成したプレイリストに従った未知のストーリー仕立てで自分で録画した番組を視聴できる。たとえば、スポーツ番組ならばダイジェスト再生や、ニュースならばヘッドライン再生、CM(コマーシャル)だけを集めたプレイリストを生成できる。ここで、課題となるのは時刻同期であるが、ムービー、サーバーまたはAVレコーダーの時計精度を映像フレーム以内に合わせることは現在の技術で可能である。たとえば、日本のデジタル放送ではARIB規格で規定されたTOT(Time Offset Table)信号から共通の時刻情報を生成することができる。アナログ放送の場合には、標準電波や放送受信した映像フレームや音声の特徴より判別することができる。
また、本発明はテレビ録画だけでなく、映画やインターネット上での動画コンテンツ、携帯端末向けのコンテンツ作成にも応用できる。
メタデータはテキストデータとして前記コンテンツに付随させることもできるし、メタデータをバイナリデータとして前記コンテンツに付随させることもできる、また、メタデータをウォーターマークとして前記コンテンツに付随させることもできる。
また、メタデータはウォーターマークとして画像データの中に埋め込んだ形でコンコードし、記録再生、伝送受信した後、デコードして使うこともできる。なお、上記の説明では同一のメディアへの記録、蓄積を例としたが、関連付けの行ってある2つ以上のメディアにメタデータと映像データを別々に保存しても良い。また、関連付けの行ってあるメディアであればメタデータのみの保存、または映像データのみの保存、またはメタデータと映像データの2つを保存、のどれかを行っても良い。
本発明はカメラ撮影時に取得できるコンテンツ(映像、音声、データ)からメタデータを生成し、入力する方法と、検索と頭だしが高速化された編集システムに関して好適なものである。
本発明のカメラ撮影、撮影データとメタデータによる撮影データの編集システムのモデル図 本発明の第1の実施例の説明図 H.264圧縮におけるメタデータの取り扱いの説明図 本発明の第2の実施例の説明図 本発明の第3の実施例の説明図 本発明の編集システムをネットワークに適用した例を示すモデル図 本発明の第4の実施例の説明図
符号の説明
101 カメラ
102 カメラのレンズ部
103 カメラのマイク
104 カメラの撮影対象
105 カメラで撮影したデータ
106 映像データ
107 音声データ
108 メタデータ
109 カメラで撮影されたデータシーケンス
110 リモコン
111 編集により、シーン#1からシーン#5までをつなぎ合わせたデータシーケンス
112 テレビ(TV)
113 メタデータ入力用ボタン

Claims (20)

  1. 映像、音声またはデータのいずれかを含んだコンテンツの収録手段に対し、
    収録したコンテンツを分類する分野別タグを選択して付加する分野別辞書選択手段と、
    前記分野別辞書選択手段で選択される各分野の辞書と、
    前記辞書を参照した音声認識により前記コンテンツに含まれる音声を文字データに変換する音声認識手段または、前記辞書を参照した音声認識により外部入力音声を選択して文字データに変換する音声認識手段または、前記コンテンツに含まれる映像内の人物または物体を認識して文字データに変換する画像認識手段の少なくとも一つの手段と、
    前記文字データをメタデータとして前記コンテンツに関連付ける手段と、
    を備えることを特徴とするメタデータ入力装置。
  2. 前記分野別辞書選択手段は、前記分野を単語として含んだ辞書を参照する音声認識により前記分野を特定するか、または、ボタン入力またはキーボード入力からの入力または外部インタフェース入力により前記分野を特定することを特徴とする請求項1記載のメタデータ入力装置。
  3. 前記辞書に登録する単語は、ボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により、追加、置き換え修正、削除することを特徴とする請求項1記載のメタデータ入力装置。
  4. コンテンツの収録手段は、音声認識動作用ボタンを具備し、
    前記音声認識手段は、前記音声認識動作用ボタンを押した時に、前記音声選択手段の出力音声に識別フラグを付ける手段と、
    前記識別フラグが付いた位置を含んだ別途指定された時間範囲の音声に対して音声認識動作を行うことを特徴とする請求項1記載のメタデータ入力装置。
  5. 前記識別フラグが付いた位置を含む指定時間範囲の音声に対して行う音声認識動作は、前記コンテンツの収録手段が前記音声認識手段に割り当てることが可能なCPU演算能力に応じて、前記識別フラグが指し示す位置の音声に対して収録後に非同期実行することを特徴とする請求項4記載のメタデータ入力装置。
  6. 前記収録後に非同期実行され認識されたメタデータは、ボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により、追加、置き換え修正、削除することを特徴とする請求項5記載のメタデータ入力装置。
  7. 前記コンテンツの映像信号に含まれる人の顔または動物または物体の検出手段と、前記検出手段で検出された人の顔の特徴認識手段と、人の顔の特徴データの辞書と、人の顔の特徴データの辞書を参照して前記人の顔の特徴認識手段で抽出された人の顔の特徴より人物を特定し文字データに変換する手段と、前記文字データをメタデータとして前記コンテンツに関連付ける手段とを備えたことを特徴とする請求項1記載のメタデータ入力装置。
  8. 前記人の顔の検出手段は検出した人の顔それぞれに個別の識別フラグを付加することを特徴とする請求項8記載のメタデータ入力装置。
  9. 前記人の顔の検出手段は検出した人の顔を追尾し、同一人物には1つの識別フラグと識別時間の長さに関する情報を付加することを特徴とする請求項8記載のメタデータ入力装置。
  10. 前記人物を特定し文字データに変換する手段で人物が特定できない場合は、非特定人物としてメタデータを保持し、ボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により人物データを追加した後、特定の人物としてメタデータを登録することを特徴とする請求項7記載のメタデータ入力装置。
  11. 前記人の顔の特徴データの辞書に新たな人物データが入力された場合、前記非特定人物または前記新たな人物データの特徴に類似した特長を持つ人物の人物認識を行ない、新たな人物認識がなされた場合、人物情報を新たに認識された人物情報と設定することを特徴とする請求項7記載のメタデータ入力装置。
  12. コンテンツの収録手段は、顔認識動作用ボタンを具備し、
    前記人の顔の検出手段は、前記顔認識動作用ボタンを押した時に、前記映像に識別フラグを付ける手段と、
    前記識別フラグが付いた位置を含んだ別途指定された時間範囲の映像に含まれる顔認識動作を行うことを特徴とする請求項7記載のメタデータ入力装置。
  13. 前記識別フラグが付いた位置を含む指定時間範囲の映像に対して行う顔認識動作は、前記コンテンツの収録手段が前記顔認識手段に割り当てることが可能なCPU演算能力に応じて、前記識別フラグが指し示す位置の映像に含まれる顔に対して収録後に非同期実行することを特徴とする請求項12記載のメタデータ入力装置。
  14. 請求項1または請求項7記載のメタデータ入力装置により生成されたメタデータをボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により呼び出す手段と、前記メタデータに関連付けられた映像(フレームまたはフィールド)を呼び出す共に、前記メタデータを別の映像(フレームまたはフィールド)に新たに関連つける手段を具備することを特徴とするコンテンツ処理装置。
  15. 請求項1または請求項7記載のメタデータ入力装置により生成されるメタデータに優先度を付加し、別途指定された長さの各映像をそのメタデータの優先度の高い順に各々抽出して、ボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により指定される長さのコンテンツを生成する手段を具備することを特徴とするコンテンツ処理装置。
  16. 請求項1または請求項7記載のメタデータ入力装置により生成されるメタデータを用いて編集リストを生成する手段と、前記編集リストに従ってコンテンツを編集する手段を具備することを特徴とするコンテンツ処理装置。
  17. 前記メタデータに関連付けられた映像の長さは、ボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により指定されることを特徴とする請求項14記載のコンテンツ処理装置。
  18. 請求項15または請求項16または請求項17のコンテンツ処理装置において、
    生成コンテンツをファイル形式で出力する手段を具備することを特徴とするコンテンツ処理装置。
  19. 前記ファイル形式コンテンツの生成用の編集リストからコンテンツのタイトル、目次情報または包含メタデータ情報を生成する手段と、前記コンテンツのタイトル、目次情報、前記コンテンツに含まれるメタデータ、または前記コンテンツのプレイリストをネットワークを介して別のユーザに開示する手段を具備することを特徴とする請求項19記載のコンテンツ処理装置。
  20. 少なくとも前記プレイリストをインターネット上のサーバーで公開し、前記サーバーにアクセスするユーザにRSS(RDF Site Summary)形式でAVコンテンツの再生に関連する情報を知らせることを特徴とする請求項19記載のコンテンツ処理装置。
JP2005237154A 2005-08-18 2005-08-18 メタデータ入力装置およびコンテンツ処理装置 Pending JP2007052626A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005237154A JP2007052626A (ja) 2005-08-18 2005-08-18 メタデータ入力装置およびコンテンツ処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005237154A JP2007052626A (ja) 2005-08-18 2005-08-18 メタデータ入力装置およびコンテンツ処理装置

Publications (2)

Publication Number Publication Date
JP2007052626A true JP2007052626A (ja) 2007-03-01
JP2007052626A5 JP2007052626A5 (ja) 2008-09-18

Family

ID=37917036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005237154A Pending JP2007052626A (ja) 2005-08-18 2005-08-18 メタデータ入力装置およびコンテンツ処理装置

Country Status (1)

Country Link
JP (1) JP2007052626A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262461A (ja) * 2007-04-13 2008-10-30 Yahoo Japan Corp コンテンツの送信方法
JP2009060542A (ja) * 2007-09-03 2009-03-19 Sharp Corp データ送信装置、データ送信方法、視聴環境制御装置、視聴環境制御システム、及び視聴環境制御方法
JP2010081277A (ja) * 2008-09-26 2010-04-08 Nec Personal Products Co Ltd サムネイル表示装置、サムネイル表示方法、及び、プログラム
JP2010245607A (ja) * 2009-04-01 2010-10-28 Nikon Corp 画像記録装置および電子カメラ
JP2011150649A (ja) * 2010-01-25 2011-08-04 Canon Inc 情報処理システム及び情報処理方法
JP2012004901A (ja) * 2010-06-17 2012-01-05 Toshiba Corp 再生リストの作成/管理方法及びそれを実行する映像装置
JP2013534741A (ja) * 2010-06-02 2013-09-05 ナクソス ファイナンス エスエー 画像記録再生装置、及び画像記録再生方法
JP2013255289A (ja) * 2013-09-11 2013-12-19 Toshiba Corp 再生リストの作成及びそれを実行する電子機器
JP2020036243A (ja) * 2018-08-31 2020-03-05 株式会社日立国際電気 編集システム及び編集方法
US11386658B2 (en) 2018-04-20 2022-07-12 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1084525A (ja) * 1996-02-05 1998-03-31 Texas Instr Inc <Ti> ビデオに索引をつける方法
JPH10326278A (ja) * 1997-03-27 1998-12-08 Minolta Co Ltd 情報処理装置及び方法並びに情報処理プログラムを記録した記録媒体
JP2001004368A (ja) * 1999-06-16 2001-01-12 Honda Motor Co Ltd 物体認識装置
JP2001084274A (ja) * 1999-07-14 2001-03-30 Fuji Photo Film Co Ltd 画像検索方法および画像処理方法
JP2004153764A (ja) * 2002-11-01 2004-05-27 Matsushita Electric Ind Co Ltd メタデータ制作装置及び検索装置
JP2004171415A (ja) * 2002-11-21 2004-06-17 Nippon Telegr & Teleph Corp <Ntt> 記録映像活用方法及びその装置
JP2005101906A (ja) * 2003-09-25 2005-04-14 Fuji Photo Film Co Ltd 動画記録装置、動画記録方法、及びプログラム
JP2005115607A (ja) * 2003-10-07 2005-04-28 Matsushita Electric Ind Co Ltd 映像検索装置
JP2005210573A (ja) * 2004-01-26 2005-08-04 Mitsubishi Electric Corp 映像表示システム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1084525A (ja) * 1996-02-05 1998-03-31 Texas Instr Inc <Ti> ビデオに索引をつける方法
JPH10326278A (ja) * 1997-03-27 1998-12-08 Minolta Co Ltd 情報処理装置及び方法並びに情報処理プログラムを記録した記録媒体
JP2001004368A (ja) * 1999-06-16 2001-01-12 Honda Motor Co Ltd 物体認識装置
JP2001084274A (ja) * 1999-07-14 2001-03-30 Fuji Photo Film Co Ltd 画像検索方法および画像処理方法
JP2004153764A (ja) * 2002-11-01 2004-05-27 Matsushita Electric Ind Co Ltd メタデータ制作装置及び検索装置
JP2004171415A (ja) * 2002-11-21 2004-06-17 Nippon Telegr & Teleph Corp <Ntt> 記録映像活用方法及びその装置
JP2005101906A (ja) * 2003-09-25 2005-04-14 Fuji Photo Film Co Ltd 動画記録装置、動画記録方法、及びプログラム
JP2005115607A (ja) * 2003-10-07 2005-04-28 Matsushita Electric Ind Co Ltd 映像検索装置
JP2005210573A (ja) * 2004-01-26 2005-08-04 Mitsubishi Electric Corp 映像表示システム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262461A (ja) * 2007-04-13 2008-10-30 Yahoo Japan Corp コンテンツの送信方法
JP2009060542A (ja) * 2007-09-03 2009-03-19 Sharp Corp データ送信装置、データ送信方法、視聴環境制御装置、視聴環境制御システム、及び視聴環境制御方法
JP2010081277A (ja) * 2008-09-26 2010-04-08 Nec Personal Products Co Ltd サムネイル表示装置、サムネイル表示方法、及び、プログラム
JP2010245607A (ja) * 2009-04-01 2010-10-28 Nikon Corp 画像記録装置および電子カメラ
JP2011150649A (ja) * 2010-01-25 2011-08-04 Canon Inc 情報処理システム及び情報処理方法
JP2013534741A (ja) * 2010-06-02 2013-09-05 ナクソス ファイナンス エスエー 画像記録再生装置、及び画像記録再生方法
JP2012004901A (ja) * 2010-06-17 2012-01-05 Toshiba Corp 再生リストの作成/管理方法及びそれを実行する映像装置
JP2013255289A (ja) * 2013-09-11 2013-12-19 Toshiba Corp 再生リストの作成及びそれを実行する電子機器
US11386658B2 (en) 2018-04-20 2022-07-12 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium
JP2020036243A (ja) * 2018-08-31 2020-03-05 株式会社日立国際電気 編集システム及び編集方法
JP7074618B2 (ja) 2018-08-31 2022-05-24 株式会社日立国際電気 編集システム及び編集方法

Similar Documents

Publication Publication Date Title
US10482168B2 (en) Method and apparatus for annotating video content with metadata generated using speech recognition technology
CN1161984C (zh) 使音频/视频信号与数据之间的视频索引同步的方法和系统
JP2007082088A (ja) コンテンツとメタデータを記録、再生する装置、コンテンツ処理装置、プログラム
TWI362034B (ja)
JP2004357334A (ja) Avコンテンツ生成装置及びavプログラム生成方法
JP2004193871A (ja) メディアデータ視聴装置及びメタデータ共有システム
KR100686521B1 (ko) 비디오 및 메타데이터의 통합을 위한 비디오 멀티미디어응용 파일 형식의 인코딩/디코딩 방법 및 시스템
JP4257103B2 (ja) ディジタルビデオレコーダ及びディジタル記録方法
JP2007052626A (ja) メタデータ入力装置およびコンテンツ処理装置
JP5306550B2 (ja) 映像解析情報送信装置、映像解析情報配信システム及び配信方法、映像視聴システム及び映像視聴方法
JP2004173120A (ja) 動画像蓄積装置、動画像配信システム
JP2007251891A (ja) コンテンツの撮影装置
JP2002262225A (ja) コンテンツ仲介装置およびコンテンツ仲介処理方法
JP5198643B1 (ja) 映像解析情報アップロード装置及び映像視聴システム及び方法
US20110289085A1 (en) Recording method
JP2008072572A (ja) コンテンツ撮影装置
JP2005539406A (ja) 高解像度静止画像を使用するビデオインデックス付け方法
JP2004171053A (ja) データ処理装置
JP2008011235A (ja) 記録装置および方法、再生装置および方法、並びにプログラム
WO2006030995A9 (en) Index-based authoring and editing system for video contents
JP3774738B2 (ja) テジタル記録媒体への変換サービス方法
JP2006101155A (ja) 画像記録再生装置
JP5094907B2 (ja) 記録媒体及び再生装置
JP4826677B2 (ja) 記録媒体及び再生装置
JP4596080B2 (ja) 記録媒体及び再生装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080804

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091023

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20091126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100413