[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2011029795A - System and method for providing annotation information of video content - Google Patents

System and method for providing annotation information of video content Download PDF

Info

Publication number
JP2011029795A
JP2011029795A JP2009171668A JP2009171668A JP2011029795A JP 2011029795 A JP2011029795 A JP 2011029795A JP 2009171668 A JP2009171668 A JP 2009171668A JP 2009171668 A JP2009171668 A JP 2009171668A JP 2011029795 A JP2011029795 A JP 2011029795A
Authority
JP
Japan
Prior art keywords
term
video content
terms
annotation information
genre
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009171668A
Other languages
Japanese (ja)
Inventor
Katsumi Inoue
克己 井䞊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2009171668A priority Critical patent/JP2011029795A/en
Publication of JP2011029795A publication Critical patent/JP2011029795A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system for providing annotation information of scenes of a video content real-time edition by being aimed at all genres of video contents. <P>SOLUTION: Heading terms common for scenes of all genres of video contents and terms on a genre basis related to them are formed into a dictionary on a hierarchy basis; a graphic user interface part for displaying and selecting the dictionary is provided; an appropriate term is selected from the dictionary by an operation button operation of a remote control using it to provide character information and the like; a speech recognition function of limited terms is provided for performing a high-speed operation; and character information or the like can be provided by selecting an appropriate term from the dictionary by speech recognition. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、映像コンテンツの任意のシヌンにアノテヌション情報を付䞎するシステムで、攟送番組や自䜜ビデオなどの映像コンテンツの録画装眮、ビデオカメラ、線集装眮等の映像装眮に適甚されるものである。 The present invention is a system that adds annotation information to an arbitrary scene of video content, and is applied to video devices such as a video content recording device, a video camera, an editing device, etc., such as a broadcast program or a self-made video.

自䜜ビデオを含む、映像コンテンツをより快適に、より効率よく、より積極的に利甚するには、映像コンテンツの線集が䞍可欠であるがさたざたな芁因から手軜に実斜できない。
映像コンテンツの線集を行う䞊での最初のステップは目的のシヌン探しずその分類であり、これには倚くの時間的、肉䜓的、粟神的な負担が匷いられる。
䟋えばハむラむトシヌンやコマヌシャルメッセヌゞシヌン以䞋探しなどはその最たるものであり、これ以倖にも、映像コンテンツの長さを適切なものにするために、必芁シヌン䞍芁シヌンを区分けするなど、制䜜意図に沿っお粟床よく映像コンテンツを線集する堎合に費やす時間の倧半は、これらのシヌンを探し出す仕事ずその分類であるず蚀っおも過蚀でない。
は画像の倉化や音声のモヌドの倉化からこれを自動怜出する方法は以前より実甚化されおいる。
たた䞀方、音声のレベル怜出などを利甚しおハむラむトシヌンを自動怜出する技術も提案されおいるものの、ハむラむトシヌンずするシヌンは芖聎者の個人差のり゚ヌトが高く、特定映像コンテンツ以倖は自動化が困難である。
䟋えば、玀行番組で玠晎らしい眺めや景芳などは䞇人が胞を打぀シヌンであるが、凡庞な堎所でも昔䜏んでいた土地や蚪れたこずのある堎所はその人にずっお懐かしく貎重なハむラむトシヌンずなる。
高校野球の番組でも、孊校の運動䌚の自䜜ビデオでも、自分の子䟛が出堎するシヌンではどんな画像やその結果であろうが倧切なハむラむトシヌンである。
たたニュヌス番組においお政治経枈的な内容であればそれぞれの堎面で自分の意芋ずの賛成、反察もハむラむトシヌンずなる。
以䞊のようにハむラむトシヌンに察しおは䞊蚘のように個人が抱く懐かしいシヌン、感動したシヌン、怒りを感じるシヌンなど、さたざたなシヌンが存圚し、ひずくくりに自動化するこずは出来ない。
残しおおきたい映像コンテンツの䞭でも䞀郚のシヌンは、芋たくない、芋せたくないシヌンや、䞍芁なシヌン、無駄なシヌン等さたざたなシヌンが存圚する。
以䞊のようにさたざたな目的の映像コンテンツの線集においお、目的ずするシヌン䜍眮を芋぀け出し適切な分類をするためには人的刀断ず文字を䞭心ずした情報文字情報等ずするこずが䞍可欠であり時間的、肉䜓的、粟神的な負担が匷いられる。
このため䜜業性や効率改善など人的䜜業を支揎、぀たり線集シヌンぞの情報アノテヌション情報付䞎ための支揎方法が、特に攟送業界、映像コンテンツ業界等のプロナヌズにおいおさたざたな圢で提案されおいる。
Editing video content is indispensable in order to use video content, including self-made videos, more comfortably, efficiently, and more actively, but it cannot be easily implemented due to various factors.
The first step in editing video content is the search for the desired scene and its classification, which imposes many time, physical and mental burdens.
For example, searching for highlight scenes and commercial message scenes (hereinafter referred to as CMs) is the best one. Besides this, in order to make the length of video content appropriate, the necessary scenes / unnecessary scenes are classified, etc. It's no exaggeration to say that the majority of the time spent editing video content accurately according to the production intent is the task of finding these scenes and their classification.
For CM, a method of automatically detecting this from a change in image or a change in sound mode has been put into practical use.
On the other hand, although technology to automatically detect highlight scenes using audio level detection has also been proposed, the scenes used as highlight scenes have a high individual difference among viewers and are automated except for specific video content. Is difficult.
For example, a wonderful view and landscape in a travel show is a scene where everyone will hit the heart, but even in mediocre places, places that have lived in the past or places that have been visited become nostalgic and valuable highlight scenes for that person .
Whether it is a high school baseball program or a self-made video of a school athletic meet, it is an important highlight scene regardless of what image or result it is.
In addition, if it is political and economic content in a news program, the approval and disagreement with your opinion in each scene is also a highlight scene.
As described above, there are various scenes such as nostalgic scenes, impressed scenes, and angry scenes that individuals have for highlight scenes as described above, and cannot be automated all at once.
Among the video contents that are desired to remain, there are various scenes such as a scene that you do not want to see or want to see, an unnecessary scene, and a useless scene.
As described above, in editing video content for various purposes, it is indispensable to use human judgment and character-centered information (character information, etc.) in order to find the target scene position and classify it appropriately. There is a time, physical and mental burden.
For this reason, support methods for supporting human work such as improving workability and efficiency, that is, providing information (annotation information) to editing scenes have been proposed in various forms, particularly in the broadcast industry, video content industry, and other professional uses. .

このような映像コンテンツの任意のシヌンに文字情報等を䞎えるためのアノテヌション情報の入力手段ずしお、
遠隔操䜜装眮リモコンず衚瀺画面のグラフィックナヌザヌむンタヌフェヌスキヌボヌドにより、遠隔操䜜装眮のカヌ゜ルボタン操䜜でかな文字等を䞀文字ず぀遞択し、挢字倉換入力し甚語を登録する方法がある。
この方法は珟圚倚くの映像装眮に採甚されおいるものの習熟が必芁な䞊、慣れおも耇雑な操䜜ずなり文字入力の効率が悪いため、通垞はオフラむン非再生時で映像コンテンツのタむトルを線集する皋床が限界であり、オンラむン再生時では利甚できない。
倖郚キヌボヌドを甚いお、文字を䞀文字ず぀入力し甚語を登録する方法がある。
この方法は習熟すれば効率が良いが、付䞎する文字、甚語等、情報に統䞀性を持たすこずが困難であり、付䞎する情報が堎圓たり的になり埌の怜玢に負担がかかる。
音声認識を利甚しお、甚語を登録する方法がある。
䞀般的な音声認識は習熟も必芁であり、たた誀認識も避けお通れない、たたシステムの負担も倧きく、キヌボヌド同様付䞎する文字、甚語等、情報に統䞀性を持たすこずが困難である、たた耇数の芖聎者がいる堎合、発声が邪魔になる。
線集甚の蟞曞を利甚しおこれを利甚する方法がある。
この方法は付䞎する甚語に統䞀性を䞎えるこずができるためゞャンルごずの蟞曞をも぀方法も提案されおいるものの、単に音声認識のためのテンプレヌトであったり、登録されおいる甚語の効率的な怜玢方法、曎には遞択方法に぀いおが解決されない限り、特にオンラむンでの利甚は困難である。
As an input means of annotation information for giving character information etc. to an arbitrary scene of such video content,
There is a method in which a kana character or the like is selected one by one by a cursor button operation of the remote operation device using a remote operation device (remote control) and a GUI (graphic user interface) keyboard on the display screen, and Kanji characters are converted and input to register a term.
Although this method is currently used in many video devices, it is necessary to master it, and even if you get used to it, it becomes a complicated operation and character input is inefficient, so usually you can edit the title of video content offline (when not playing) The limit is to the extent that it is not available online (during playback).
There is a method of registering terms by inputting characters one by one using an external keyboard.
This method is efficient if it is mastered, but it is difficult to provide uniformity of information such as characters and terms to be added, and the information to be added becomes ad hoc and burdens on subsequent searches.
There is a method of registering terms using voice recognition.
General speech recognition requires proficiency, misrecognition is unavoidable, the burden on the system is large, and it is difficult to make the information, such as letters, terms, etc., uniform as well as the keyboard, When there are multiple viewers, the utterance gets in the way.
There is a method of using this using an editing dictionary.
Although this method can give uniformity to the terms to be assigned, a method having a dictionary for each genre has been proposed, but it is merely a template for speech recognition or an efficient search for registered terms. Unless the method and the selection method are solved, it is particularly difficult to use online.

音声認識ず蟞曞をも぀アノテヌション情報付䞎の先行技術文献の䞀䟋ずしお、特開−号公報ならびに特開−号公報は、コンテンツ制䜜におけるメタデヌタアノテヌション情報制䜜装眮及び怜玢装眮に関するものであり、いずれも音声認識の誀認率ず、邪魔な発声が課題ずなる、たた埌者は制䜜された映像・音声コンテンツを再生するこずによりメタデヌタずすべき情報を確認し、音声入力でコンンピュヌタ等に入力するこずにより前蚘メタデヌタを制䜜し、怜玢するシステムであるが、事前に制䜜された映像・音声コンテンツを確認する必芁があり、䟋えば攟送䞭の番組のハむラむトシヌンなど、リアルタむムで利甚するこずは難しい。
曎に特開−号公報では、映像・音声コンテンツに関連したメタデヌタを䜜成するメタデヌタアノテヌション情報䜜成装眮に関するものであり、音声認識の堎合キヌワヌドが誀っお付䞎されおしたう問題があり、重芁床をもずにしおキヌワヌドを䜜成するこずを目的ずしおいるので、オペレヌタの声を音声認識でキヌワヌド登録するので誀認率および、邪魔な発声は残されたたたであり、たた重芁床は機械的に事前登録する方法であり必ずしもそのシヌンに最適な重み付けずならない。
埓がっお䞊蚘同様攟送䞭の番組のハむラむトシヌンなど、リアルタむムで利甚するこずは難しい。
As an example of a prior art document of speech recognition and annotation information addition having a dictionary, Japanese Patent Application Laid-Open No. 2004-86124 and Japanese Patent Application Laid-Open No. 2004-153964 relate to a metadata (annotation information) production device and a search device in content production. In both cases, misrecognition rate of voice recognition and disturbing utterances are problems, and the latter confirms information that should be made metadata by playing the produced video and audio content, and the computer with voice input It is a system that creates and searches for the metadata by inputting it to the etc., but it is necessary to check the video / audio content produced in advance, for example, highlight scenes of broadcast programs, etc. Difficult to do.
Furthermore, Japanese Patent Application Laid-Open No. 2007-140198 relates to a metadata (annotation information) creation apparatus that creates metadata related to video / audio content, and there is a problem that keywords are erroneously assigned in the case of voice recognition. Because the purpose is to create keywords based on the importance, the operator's voice is registered as a keyword by voice recognition, so the misperception rate and disturbing utterance remain, and the importance is mechanical The pre-registration method is not necessarily an optimal weighting for the scene.
Therefore, it is difficult to use in real time such as a highlight scene of a program being broadcast as described above.

特開−号公報JP 2004-86124 A 特開−号公報JP 2004-153764 A 特開−号公報JP 2007-140198 A

以䞊のような技術的な背景を克服しお、熟緎したオペレヌタであったたり、事前にシヌンの抂芁を把握するこずを必芁ずせず、党おの映像コンテンツのゞャンルを察象ずしおオンラむン攟送䞭の映像コンテンツを芖聎しながら芖聎環境を配慮しリアルタむムで任意のシヌンを察象ずしお、特別の習熟を必芁ずせず、誰でも圓該シヌンにふさわしく、か぀線集の怜玢甚に集玄され、高粟床で、高速で、文字情報等を䞭心ずする情報を付䞎するためのアノテヌション情報付䞎システムを提䟛する。
たた本発明の䞻芁適甚装眮である家庭甚汎甚録画装眮等に広く実珟可胜なコストを目指すために、特別な、装眮、郚品、組立、の技術を甚いるこずなく、珟圚垂堎に広く流通しおいる、装眮、郚品、組立、の技術で実珟可胜なアノテヌション情報付䞎システムを提䟛する。
Overcoming the technical background as described above, it is not necessary to be a skilled operator or to grasp the outline of the scene in advance, and it is online (broadcasting) for all video content genres. Considering the viewing environment while viewing the video content, targeting any scene in real time, no special skill is required, anyone is suitable for the scene, and is aggregated for searching for editing, with high accuracy and high speed An annotation information providing system for providing information centered on character information and the like is provided.
Moreover, in order to aim at a cost that can be widely realized in a general-purpose video recording device for home use, which is a main application device of the present invention, it is currently widely distributed in the market without using any special device, component, or assembly technology. An annotation information providing system that can be realized by the technology of devices, parts, and assembly is provided.

以䞊の課題を解決するために
請求項では、
映像装眮ず、このナヌザヌむンタヌフェヌス装眮ず、で構成される自䜜ビデオを含む映像コンテンツの任意のシヌンにアノテヌション情報を付䞎するためのシステムであっお、
䞊蚘映像装眮は、
映像コンテンツの党おのゞャンルのシヌンに共通なシヌンを芖聎した印象を衚す甚語である印象甚語の芋出し甚語ず、映像コンテンツのゞャンル特有の甚語であるゞャンル甚語ず、を映像コンテンツのゞャンル別および階局別に関連付けし構成される線集甚語蟞曞ず、
䞊蚘ナヌザヌむンタヌフェヌス装眮は、
映像コンテンツの芖聎開始より順次アノテヌション情報を付䞎するシヌン䜍眮を指定し、この指定したシヌンに察しお䞊蚘線集甚語蟞曞の䞊蚘芋出し甚語ず䞊蚘ゞャンル甚語ずを順次遞択し、以䞊の指定および遞択した信号情報を映像装眮に送信する手段を備え、
曎に䞊蚘映像装眮は、
ナヌザヌむンタヌフェヌスより受信した信号情報にもずづき線集甚語蟞曞によるアノテヌション情報デヌタを䜜成するアノテヌション情報䜜成郚ず、
を具備するこずを特城ずする。
請求項では、
前蚘線集甚語蟞曞の前蚘芋出し甚語ならびに前蚘ゞャンル甚語はグルヌプ最倧の甚語ずするよう構成されるこずを特城ずする。
請求項では、
前蚘線集甚語蟞曞にはシヌンの印象の床合いの情報が登録され、この印象の床合いを遞択しアノテヌション情報ずするこずを特城ずする。
請求項では、
前蚘映像装眮はリモコン信号受信郚を備え、
前蚘ナヌザヌむンタヌフェヌス装眮は少なくおも個の操䜜ボタンを具備するリモコンであり、前蚘指定および遞択する信号情報はリモコン送信信号であっお、
このリモコンボタンを操䜜するこずにより、前蚘シヌン䜍眮を指定し、前蚘線集甚語蟞曞の前蚘芋出し甚語ならびに前蚘ゞャンル甚語を遞択し、
映像装眮は䞊蚘リモコン信号受信郚でこの信号情報を受信し、アノテヌション情報䜜成郚で前蚘線集甚語蟞曞の甚語による前蚘アノテヌション情報デヌタを䜜成するこずを特城ずする。
請求項では、
前蚘映像装眮は音声認識郚を備え、
前蚘ナヌザヌむンタヌフェヌス装眮は音声甚マむクロフォンであり、前蚘指定および遞択する信号情報はマむクロフォン音声信号であっお、
このマむクロフォンに倚くずも皮以内の音声を発するこずにより、前蚘シヌン䜍眮を指定し、前蚘線集甚語蟞曞の前蚘芋出し甚語ならびに前蚘ゞャンル甚語を遞択し、
映像装眮は䞊蚘音声認識郚でマむクロフォン音声信号を信号情報ずしお認識し、アノテヌション情報䜜成郚で前蚘線集甚語蟞曞の甚語による前蚘アノテヌション情報デヌタを䜜成するこずを特城ずする。
請求項では、
前蚘映像装眮は映像コンテンツのゞャンルを゚レクトロニクス プログラム ガむドゞャンルからゞャンルを自動遞択するゞャンル遞択手段を具備するこずを特城ずする。
請求項では、
前蚘映像装眮はタむムシフト再生远いかけ再生手段を具備し、アノテヌション情報の線集䞭、䞀時停止するこずを特城ずする。
請求項では、
前蚘アノテヌション情報に、アノテヌション情報付䞎者名を登録するこずを特城ずする。
請求項では、
前蚘映像装眮は、線集甚語蟞曞を通信回線よりダりンロヌドする蟞曞ダりンロヌド郚ず、甚語登録のための倖郚キヌボヌドのためのキヌボヌド入力郚ず、
を曎に具備するこず特城ずする。
請求項では、
前蚘映像装眮は、前蚘デヌタたたはむンタヌネットよりのダりンロヌドデヌタのいずれかによっお個別番組ごずの線集甚語蟞曞ずするこずを特城ずする。
請求項では、
映像コンテンツの党おのゞャンルに共通な芋出し甚語ず、
映像コンテンツのゞャンル特有の甚語であるゞャンル甚語ず、
を映像コンテンツのゞャンル別および階局別に関連付けし構成される線集甚語蟞曞より甚語を遞択しおアノテヌション情報デヌタを䜜成するこずを特城ずする。
請求項では、
前蚘党おのゞャンルに共通の芋出し甚語はシヌンを芖聎した印象を衚す甚語であるこずを特城ずする。
In order to solve the above problems, in claim 1,
A system for adding annotation information to an arbitrary scene of video content including a self-made video composed of a video device and the user interface device,
The video device
The heading term of impression terms, which is a term that expresses the impression of viewing a scene common to scenes of all genres of video content, and the genre terms, which are terms specific to the genre of video content, are classified by genre and hierarchy of video content. An associated editorial dictionary of terms,
The user interface device is
The scene position to which annotation information is added sequentially from the start of viewing video content is specified, the heading term and the genre term in the editing term dictionary are sequentially selected for the specified scene, and the above designation and selected signal Means for transmitting information to the video device;
Furthermore, the video device
An annotation information creation unit that creates annotation information data based on an edited term dictionary based on signal information received from the user interface;
It is characterized by comprising.
In claim 2,
The heading terms and the genre terms in the editing term dictionary are configured to have a maximum of 12 terms per group.
In claim 3,
Information on the degree of impression of a scene is registered in the editing term dictionary, and the degree of impression is selected and used as annotation information.
In claim 4,
The video device includes a remote control signal receiver,
The user interface device is a remote controller having at least 20 operation buttons, and the signal information to be specified and selected is a remote control transmission signal,
By operating this remote control button, specify the scene position, select the heading term and the genre term in the editing term dictionary,
In the video apparatus, the remote control signal receiving unit receives the signal information, and the annotation information creating unit creates the annotation information data based on the terms in the editing term dictionary.
In claim 5,
The video device includes a voice recognition unit,
The user interface device is a voice microphone, and the signal information to be specified and selected is a microphone voice signal,
By emitting at most 30 kinds of sounds to this microphone, the scene position is designated, the heading terms in the editing term dictionary and the genre terms are selected,
In the video apparatus, the voice recognition unit recognizes a microphone voice signal as signal information, and the annotation information creation unit creates the annotation information data based on the terms in the editing term dictionary.
In claim 6,
The video apparatus includes genre selection means for automatically selecting a genre of video content from an EPG (Electronic Program Guide) genre.
In claim 7,
The video apparatus includes a time-shift playback (chasing playback) means, and pauses during editing of annotation information.
In claim 8,
An annotation information assignor name is registered in the annotation information.
In claim 9,
The video device includes a dictionary download unit for downloading an edited term dictionary from a communication line, a keyboard input unit for an external keyboard for term registration,
Is further provided.
In claim 10,
The video device may be an edit term dictionary for each individual program based on either the EPG data or the data downloaded from the Internet.
In claim 11,
Headline terms common to all genres of video content,
Genre terms, which are terms specific to the genre of video content,
Annotation information data is created by selecting a term from an editing term dictionary constructed by associating video content with each genre and hierarchy.
In claim 12,
The headline term common to all the genres is a term representing an impression of viewing a scene.

党おの映像コンテンツのゞャンルのシヌンに共通な芋出し甚語ず、この芋出し甚語に関連するゞャンルごずの甚語を階局構造ずしお玐付けした蟞曞を開発するだけで特に倧きな技術開発負担を匷いるこずなく、録画装眮、ビデオカメラ、線集装眮等の映像装眮に適応可胜な、利甚し易く、実甚的で、リアルタむムで芖聎環境に配慮し運甚できる映像コンテンツのアノテヌション情報付䞎システムが実珟出来る。 A recording device that does not impose a particularly large technical development burden by developing a dictionary in which a headline term common to scenes of all video content genres and a term for each genre related to this headline term are linked as a hierarchical structure. Therefore, it is possible to realize a video content annotation information adding system that can be applied to video devices such as video cameras and editing devices, is easy to use, practical, and can be operated in consideration of the viewing environment in real time.

図は本発明のシステムの党䜓構成の䟋であるFIG. 1 shows an example of the overall configuration of the system of the present invention. 図は映像コンテンツのゞャンル区分の䟋であるFIG. 2 is an example of genre classification of video content 図は野球番組の蟞曞構成の䟋であるFIG. 3 shows an example of a dictionary structure for a baseball program. 図は料理番組の蟞曞構成の䟋であるFIG. 4 shows an example of a dictionary structure for a cooking program. 図はニュヌス番組の蟞曞構成の䟋であるFIG. 5 shows an example of a dictionary structure for news programs. 図は映画番組の蟞曞構成の䟋であるFIG. 6 shows an example of a dictionary structure for a movie program. 図は旅番組の蟞曞構成の䟋であるFIG. 7 shows an example of a dictionary structure for a travel program. 図はクラシック音楜番組の蟞曞構成の䟋であるFIG. 8 shows an example of a dictionary structure of a classical music program 図はお笑い番組の蟞曞構成の䟋であるFIG. 9 shows an example of a dictionary structure for a comedy program. 図は自䜜ビデオの結婚匏の蟞曞構成の䟋であるFIG. 10 is an example of a wedding dictionary structure of a self-made video. 図は特定シヌン登録、文字登録の䟋であるFIG. 11 shows an example of specific scene registration and character registration. 図はリモコンの䟋であるFIG. 12 shows an example of a remote control 図は操䜜フロヌの䟋であるFIG. 13 shows an example of the operation flow. 図はゞャンル遞択の䟋であるFIG. 14 shows an example of genre selection. 図は甚語遞択ファンクション操䜜の䟋であるFIG. 15 shows an example of the term selection function operation. 図はシヌン䜍眮指定の䟋であるFIG. 16 shows an example of scene position designation. 図は線集甚語蟞曞の第階局衚瀺の䟋であるFIG. 17 shows an example of the first level display of the edited term dictionary. 図は線集甚語蟞曞の第階局衚瀺の䟋であるFIG. 18 shows an example of the second hierarchy display of the editing term dictionary. 図は線集甚語蟞曞の第階局衚瀺の䟋であるFIG. 19 shows an example of the third hierarchy display of the editing term dictionary. 図は線集甚語蟞曞の第階局衚瀺の䟋であるFIG. 20 shows an example of the fourth hierarchy display of the editing term dictionary. 図は線集甚語蟞曞の第階局衚瀺の䟋であるFIG. 21 shows an example of the fifth hierarchy display of the editing term dictionary. 図は五感印象甚語の䟋であるFIG. 22 is an example of five sense impression terms 図はアノテヌション情報デヌタの䟋であるFIG. 23 is an example of annotation information data 図は芖聎埌線集の䟋であるFIG. 24 shows an example of editing after viewing. 図はデヌタベヌス怜玢の䟋であるFIG. 25 shows an example of database search.

図は本発明のシステムの党䜓構成の䟋である。
映像装眮は録画装眮、ビデオカメラ、線集装眮等であり、ナヌザヌむンタヌフェヌス装眮であるリモコンでリモコン送信信号ず、たたはマむクロフォンでマむクロフォン音声信号ず、のいずれかで操䜜可胜なシステム構成ずなっおいる。
映像装眮にはテレビゞョンたたは液晶衚瀺機などのディスプレヌであるメむンディスプレヌおよびサブディスプレヌが接続されおおり、映像コンテンツの録画、再生、衚瀺郚でアンテナ入力から攟送番組を受信し、倖郚映像入力から映像コンテンツを受信し、これらを録画再生するずずもに映像信号を出力しおメむンディスプレヌに衚瀺をさせる。
以䞊の映像コンテンツは映像コンテンツ蚘憶郚に映像コンテンツのタむトルごずに映像コンテンツが録画されおいる。
FIG. 1 shows an example of the overall configuration of the system of the present invention.
The video device 1 is a recording device, a video camera, an editing device, etc., and can be operated by either a remote control transmission signal 5 with a remote control 3 which is a UI (user interface) device 2 or a microphone audio signal 6 with a microphone 4. System configuration.
The video apparatus 1 is connected to a main display 9 and a sub-display 10 which are displays such as a television or a liquid crystal display, and receives a broadcast program from the antenna input 41 at the video recording / playback / display unit 14. Video contents are received from the external video input 42, recorded and reproduced, and a video signal 7 is output to be displayed on the main display 9.
The video content 33 is recorded in the video content storage unit 31 for each title 32 of the video content.

グラフィックナヌザヌむンタヌフェヌス郚の衚瀺郚はアノテヌション情報付䞎線集に係る衚瀺信号をディスプレヌに出力する。
この衚瀺信号はディスプレヌ切替スむッチによりメむンディスプレヌたたはサブディスプレヌに切替られる。
この構成図ではディスプレヌ切替スむッチは偎に遞択され線集のためのサブディスプレヌに衚瀺がなされ、映像コンテンツそのものの芖聎ず、線集を別々に独立しお行えるが、サブディスプレヌを䜿甚しない堎合にはディスプレヌ切替スむッチを偎にしおメむンディスプレヌの映像コンテンツの衚瀺に重ねおこの衚瀺信号を衚瀺する。
以降の説明ではサブディスプレヌを甚いず、メむンディスプレヌに映像コンテンツに衚瀺信号を重ねた堎合の䟋で説明する。
郚の制埡郚は、装眮情報認識郚の装眮のリモコンの信号情報はリモコン信号受信郚、マむクロフォンの信号情報は音声認識郚からの受信信号によっお線集に係る各皮の制埡を実行する。
郚のゞャンル遞択郚は映像コンテンツのゞャンルを゚レクトロニクス プログラム ガむドデヌタから取埗しお芖聎する映像コンテンツのゞャンル別の蟞曞甚語を遞択するものである。
The GUI display unit 13 of the GUI (graphic user interface) unit 11 outputs a GUI display signal 8 related to annotation information addition editing to the display.
The GUI display signal 8 is switched to the main display 9 or the sub display 10 by the display changeover switch 40.
In this configuration diagram, the display changeover switch 40 is selected on the B side and displayed on the sub-display 10 for editing, and viewing and editing of the video content itself can be performed independently, but the sub-display 10 is not used. The display changeover switch 40 is set to the A side, and the GUI display signal 8 is displayed so as to overlap the display of the video content on the main display 9.
In the following description, an example in which the GUI display signal 8 is superimposed on the video content on the main display 9 without using the sub display 10 will be described.
The GUI control unit 12 of the GUI unit 11 uses the remote control signal reception unit 21 for signal information of the remote control 3 of the UI device 2 of the UI device information recognition unit 22, and the UI reception signal 15 from the voice recognition unit 24 for signal information of the microphone 4. Various controls related to editing are executed.
The genre selection unit 23 of the GUI unit 11 acquires the genre of video content from EPG (Electronic Program Guide) data and selects dictionary terms for each genre of video content to be viewed.

線集甚語蟞曞は本発明の根幹をなすものであり、映像コンテンツのゞャンル別曎には番組別に先のリモコンの信号はリモコン信号受信郚ず、マむクロフォンのマむクロフォン音声信号は音声認識郚ず、のいずれかからの信号情報により蟞曞甚語遞択郚でこの線集甚語蟞曞より甚語を遞択し、遞択された甚語を出力し、この出力は衚瀺郚を通じおディスプレヌに衚瀺されるずずもに、遞択された甚語をアノテヌション情報䜜成郚で、装眮の操䜜にもずづきアノテヌション情報デヌタベヌス内のアノテヌション情報デヌタずしお蚘憶する。
アノテヌション情報デヌタベヌス内には映像コンテンツのタむトル別にアノテヌション情報デヌタが䜜成され、アノテヌション情報デヌタには時刻情報ならびに関連情報が関連付けされおいる。
The editing term dictionary 19 forms the basis of the present invention. The signal from the remote controller 3 is the remote controller signal receiver 21 for each genre of video content and the program, and the microphone audio signal 6 of the microphone 4 is the voice recognizer 24. The dictionary term selection unit 20 selects a term from the edited term dictionary 19 based on the signal information from any of the above, and outputs the selected term 29. This output is displayed on the display through the GUI display unit 13. The selected term 29 is stored in the annotation information creation unit 25 as annotation information data 37 in the annotation information database 34 based on the operation of the UI device 2.
Annotation information data 37 is created for each video content title 32 in the annotation information database 34, and time information 35 and related information 36 are associated with the annotation information data 37.

以䞊の構成のアノテヌション情報デヌタベヌスはアノテヌション情報デヌタ怜玢郚により怜玢が行われ遞択された甚語ずしおメむンディスプレヌたたはサブディスプレヌいずれかに衚瀺される。
線集甚語蟞曞は攟送番組映像コンテンツのデヌタよりタむトル情報ならびにゞャンル情報、番組情報、出挔者情報などの必芁な情報を蟞曞登録郚によっお取埗するずずもに、蟞曞甚語ダりンロヌド郚でむンタヌネット通信信号により随時最新版甚語デヌタがダりンロヌド可胜になっおいるずずもに、倖郚接続されたキヌボヌドの入力によるキヌボヌド信号を蟞曞甚語キヌボヌド入力郚により曞き蟌みも可胜な構成ずなっおいる。
以䞊が本発明のシステムの党䜓構成の䟋である。
The annotation information database 34 configured as described above is displayed on either the main display 9 or the sub display 10 as the term 29 selected by the search by the annotation information data search unit 30.
The edit term dictionary 19 acquires necessary information such as title information, genre information, program information, and performer information from the EPG data of the broadcast program video content by the dictionary registration unit 16, and the dictionary term download unit 17 uses the Internet communication signal 26. Therefore, the latest term data can be downloaded at any time, and the keyboard signal 27 by the input of an externally connected keyboard can be written by the dictionary term keyboard input unit 18.
The above is an example of the overall configuration of the system of the present invention.

図は映像コンテンツのゞャンル区分の䟋である。
珟圚のデゞタル攟送番組の映像コンテンツはデヌタでのゞャンルが芏定され曎にサブゞャンルが定矩付けされおいる。
これをそのたた利甚するこずも出来るが、本䟋では図に瀺すようにメむンゞャンルのアニメ特撮は映画に含め、自䜜のビデオを含め合蚈皮類の区分ずしおいる。
本䟋では以䞊のように自䜜ビデオ以倖は攟送芏栌にもずづくメむンゞャンルをそのたた甚いた構成ずしお、で自動遞択するこずも出来るようにしおいるが、別な方法で分類し、手動遞択する方法でもよい。
自䜜ビデオに぀いおは、䜜成されるビデオの皮類を適切にサブゞャンルに登録し遞択出来るよう構成する。
FIG. 2 shows an example of genre classification of video content.
The video content of the current digital broadcast program has 12 genres defined by EPG data and further sub-genres.
Although this can be used as it is, in this example, as shown in FIG. 2, the EPG main genre animation / special effects are included in the movie, and a total of 12 types including the self-made video are included.
In this example, as described above, the EPG main genre based on the broadcast standard other than the home-made video is used as it is, so that it can be automatically selected by the EPG. However, it is classified by another method and manually selected. But you can.
The self-made video is configured so that the type of video to be created can be appropriately registered and selected in a sub-genre.

以䞊のように倚岐にわたるゞャンルの映像コンテンツにおいお、事前にシヌンの抂芁を把握するこずを必芁ずせず、オンラむン攟送䞭の映像コンテンツを芖聎しながらでも任意のシヌンを察象ずしお、特別の習熟を必芁ずせず、圓該シヌンにふさわしく、か぀線集の怜玢甚に集玄され、高粟床で、高速で、文字情報等を付䞎するために、本発明は党おの映像コンテンツのゞャンルのシヌンに共通であるずずもに、䞇人に共通で理解し易いく、怜玢のためにも甚語の数が限定出来る芋出し甚語を探し出しこれを芋出し甚語ずした蟞曞を甚意し、この蟞曞から必芁な甚語を順次遞択しお行くこずにより課題を解決しおいる。 As described above, it is not necessary to grasp the outline of the scene in advance for a wide variety of video content, and special proficiency can be obtained for any scene while viewing online (broadcast) video content. The present invention is common to scenes of all video content genres, so that it is suitable for the scene and is aggregated for search for editing, and is provided with high accuracy, high speed, character information, etc. Find a heading term that is easy to understand for all and easy to understand and can limit the number of terms for searching. Prepare a dictionary using this as a heading term, and select the necessary terms from this dictionary in order. The problem is solved.

本発明の蟞曞構成の原理は次の通りである。
䜕の目的で芖聎者利甚者が、その映像および音声のシヌンをハむラむトシヌンを含む線集のためのシヌンずしお遞ぶのかの第䞀のステップはそのシヌンに察する、芖聎者それぞれの嗜奜、経隓、環境、境遇などにもずづく感情や五感、堎合によっおは䜓感をもずにしおいるものであり、このこずは党おの映像コンテンツのゞャンルのシヌンに共通である。
これらの生理孊的な分野は脳波、これを利甚する認識技術、認識制埡等の研究ずしお掻発におこなわれ、将来は映像コンテンツの線集のような高床な人的刀断にも利甚出来るよう期埅がかかるもの、脳波などを盎接利甚しお線集を行うには珟圚のずころ重装備の生䜓情報取埗のためのむンタヌフェヌスの䜿甚が䞍可欠ずなるためマスプロナヌズ察象の補品に適応するのは困難である。
しかしながら、これに代わっお、人の感情や五感、堎合によっおは䜓感にもずづく印象を衚する甚語を芋出し甚語ずする蟞曞を利甚しお意味付けする方法は、他の文字入力方法にない倧きなメリットをも぀。
その第のメリットは先に述べたように印象を衚珟する甚語は感じた印象そのものであり䞇人に理解し易く党おの映像コンテンツのゞャンルのシヌンに共通に利甚可胜であるこずである。
埓がっおこれを芋出し甚語ずしお甚いるこずにより、これたで困難であった映像コンテンツの任意のシヌンのアノテヌション線集に必芁な甚語の効率的な登録方法ず、登録された甚語の効率的な遞択方法ず、が解決出来る。
次に重芁なメリットは印象を衚す甚語、぀たり名詞を圢容する圢容詞やこれに類する圢容系の甚語を芋出し甚語ずするこずにより、必然的にこれに続く圢容の察象ずなる名詞甚語が欲しくなる。
具䜓的には印象を衚す甚語を芋出し甚語ずするこずにより、これに関連するゞャンル特有の名詞甚語を階局的に盎感的で、平易に、限定的に、玐付けし登録するこずが可胜になるずずもに、たた反察に利甚者は、芋出し甚語である印象を衚す甚語を遞択するこずにより、この甚語に関連玐付けされた、ゞャンル特有の線集のための名詞甚語を階局的に、案内衚瀺に誘導されるよう容易に遞択するこずが可胜ずなるこずである。
䟋えばアむり゚オ順や、その他の芋出し分類方法ではこのように以降に続く甚語を誘導するような効果は埗られない。
誘導効果以倖においおも専門甚語から先に意味付けする方法では、映像コンテンツのゞャンルごず別々に芋出し甚語が必芁になり、芋出しの共有化が困難であり、本実斜䟋のように党おの映像コンテンツに共通な芋出し甚語ずするような共通の階局構造ずする蟞曞構造ずはならない。
党ゞャンル共通の芋出し甚語をも぀こずは装眮、システム開発偎の負担を少なくするのみでなく、装眮、システムの利甚者偎の慣れや効率の面でも倧きな意味をも぀。
The principle of the dictionary structure of the present invention is as follows.
The first step of what purpose the viewer (user) selects the video and audio scene as the scene for editing including the highlight scene is the viewer's individual preference, experience, This is based on the emotions and the five senses based on the environment and circumstances, and in some cases, the bodily sensations, and this is common to all video content genre scenes.
These physiological fields are actively conducted as research on brain waves, recognition technology using them, recognition control, etc., and in the future it is expected to be used for advanced human judgments such as editing video contents. In order to edit directly by using brain waves or the like, it is currently difficult to adapt to mass-produced products because it is indispensable to use an interface for acquiring biological information of heavy equipment.
However, instead of this, using a dictionary that uses terms that represent impressions based on human emotions, the five senses, and, in some cases, bodily sensations as a headline term, has a significant advantage over other methods of character input. Have.
The first merit is that, as described above, the term for expressing an impression is the impression itself, which can be easily understood by everyone and can be used in common for all video content genre scenes.
Therefore, by using this as a heading term, an efficient registration method of terms necessary for annotation editing of an arbitrary scene of video content, which has been difficult until now, and an efficient selection method of registered terms Can be solved.
Next, the most important merit is to use the noun term that is the subject of the following adjectives by using the term representing the impression, that is, the adjective that describes the noun or the similar adjective system as the heading term.
Specifically, by using a term representing an impression as a headline term, it is possible to associate and register genre-specific noun terms related to this in a hierarchically intuitive, simple and limited manner. At the same time, the user selects a term representing an impression that is a heading term, and hierarchically guides a genre-specific noun term associated with this term to the guidance display. It is possible to select easily.
For example, the effect of inducing the following term cannot be obtained in the order of eye-were or other headline classification methods.
In addition to the inductive effect, the method of assigning meanings from the technical terms first requires heading terms separately for each genre of video content, and it is difficult to share the headings. It is not a dictionary structure with a common hierarchical structure such as a common heading term.
Having a headline term common to all genres not only reduces the burden on the device and system development side, but also has great significance in terms of habituation and efficiency on the user side of the device and system.

この印象を衚珟する甚語だけでもさたざたな映像シヌンの意味付けが可胜になり線集シヌンの倧方の分類ずするこずが出来るが、曎にこの印象を衚珟する甚語に映像コンテンツのゞャンルごずのゞャンル特有の甚語を階局状に玐付けし、これを利甚するこずによっお映像コンテンツのあらゆるシヌンを察象ずしお文字情報を䞭心ずした意味付けを可胜にする。
階局を深くするこずにより耇雑な文字情報の付䞎も可胜である、たた埒に階局を深くするこずなく、線集のためのお勧め甚語ずなるこずを期埅しお線集に䞍可欠なゞャンル甚語のみを蟞曞登録するこずも䞀぀の考え方である。
It is possible to define various video scenes with just the term that expresses this impression, and it can be classified into most of the editing scenes, but the term that expresses this impression is also a genre-specific term for each genre of video content Are linked in a hierarchical manner, and using this makes it possible to make meanings centered on character information for all scenes of video content.
It is possible to add complex character information by deepening the hierarchy, and dictionary only genre terms essential for editing in the hope that it will become a recommended term for editing without deepening the hierarchy. Registration is also one way of thinking.

本実斜䟋では党おの映像コンテンツのゞャンルに共通で、映像シヌンや音声シヌンにより人が抱く、喜怒哀楜などの感情や奜き嫌いなどの嗜奜などあらゆる皮類の印象を衚珟する圢容系の甚語を掗い出し、これを集玄しお印象甚語ずするずずもに、これを良い印象を感じるシヌンをプラス感情、悪い印象を感じるマむナス印象ずしお区分しおいる。
これは線集すべきシヌンはプラス印象かマむナス印象どちらかであるこずを利甚したものである。
In this example, it is common to all video content genres, and we find out the adjective terms that express all kinds of impressions such as emotions such as emotions and likes and dislikes that people hold by video scenes and audio scenes, These are combined into impression terms, and scenes that feel good are classified as positive emotions and negative impressions that feel bad.
This utilizes the fact that the scene to be edited is either a positive impression or a negative impression.

曎にプラスおよびマむナス印象それぞれ䟿宜䞊、人を察象ずする印象を人物系ずし、人物以倖のモノや事象を堎面系ずしお、合蚈皮以䞋の説明では印象区分ずする、の甚語を芋出し甚語ずしおいるが、曎に远加するこずも、倉曎するこずも可胜である。
この芋出し甚語以䞋の説明では印象甚語ずするをもずに映像コンテンツのさたざたなゞャンルの特有甚語以䞋の説明ではゞャンル甚語ずするを階局的に登録した蟞曞構造ずするこずにより圓初の目的を果たすものである。
喜怒哀楜などの感情や奜き嫌いなどの嗜奜などの芋出し甚語は党おの映像コンテンツのあらゆるゞャンル共通に利甚するこずが可胜であり、以䞋にこの芋出し甚語を甚いた代衚的な皮類の映像コンテンツのゞャンルにおける蟞曞の実斜䟋を瀺す。
In addition, for the sake of convenience, positive and negative impressions, each of which has a human impression of a person and a non-human thing or event as a scene, a total of 4 types (in the following description, impression categories) and 38 terms However, it can be added or changed.
Based on this headline term (impression term in the following description), a unique dictionary structure of various genres of video content (genre term in the following explanation) is registered in a hierarchical structure. It serves a purpose.
Heading terms such as emotions such as emotions and preferences such as likes and dislikes can be used in common for all genres of all video content. An example of a genre dictionary is shown.

図は野球番組の蟞曞構成の䟋である。
映像コンテンツのゞャンル別に構成される線集甚語蟞曞の階局の第階局は先に説明の印象区分がプラス印象、マむナス印象ず堎面系、人物系の皮に区分されおおり第階局にこれらの印象区分ごずに、本実斜䟋では圢容系の印象甚語が合蚈甚語登録されおいる。
蟞曞構造説明のために印象甚語を党ゞャンルの映像コンテンツに共通な喜怒哀楜などの感情や奜き嫌いなどの嗜奜などの印象甚語のみ瀺しおいるが、本方匏では第階局を適切な区分ずするこずにより第階局の印象甚語を最倧×たで登録可胜で、これ以倖の五感や䜓感など通垞人が感じる、ありずあらゆる印象の甚語を登録するこずが出来る。
理解し易い適切な印象区分ず映像コンテンツのゞャンル党䜓を考慮し割り付けする、詳现は埌述する。
ここたでの構成は党おのゞャンルに共通ずなる。
FIG. 3 shows an example of a dictionary structure for a baseball program.
In the first level of the hierarchy 103 of the editing term dictionary 19 configured according to the genre 101 of the video content, the impression category 104 described above is divided into four types: positive impression, negative impression, scene type, and person type. In this embodiment, a total of 38 terms of adjective impression terms 105 are registered for each of these impression categories 104 in the hierarchy.
For the purpose of explaining the dictionary structure, only impression terms such as emotions and emotions that are common to video content of all genres and preferences such as likes and dislikes are shown, but in this method, the first hierarchy is classified appropriately. Thus, it is possible to register up to 12 × 12 = 144 impression terms in the second hierarchy, and it is possible to register terms of any impression that a normal person feels, such as other five senses and bodily sensations.
The details will be described later, in which an appropriate impression category that is easy to understand and the entire genre of video content are considered.
The configuration so far is common to all genres.

第階局には第階局の印象甚語の䞭から野球番組に関連する印象甚語ごずに関連する野球番組特有の名詞甚語であるゞャンル甚語が登録され、曎に本䟋では、遞手、打撃、投球、送球、走塁、盗塁、の皮のゞャンル甚語に関しおは曎にこの詳现の名詞甚語が第階局に、第階局の野球番組ゞャンル甚語に関連する野球番組ゞャンル甚語ずしお登録されおいる。 In the third level, genre terms 106, which are noun terms specific to baseball programs, are registered for each impression term 105 related to the baseball program from among the impression terms 105 in the second level. , Throwing, throwing, running, stealing, and the noun terms of this detail are registered in the fourth layer as baseball program genre terms 106 related to the baseball program genre term 106 in the third layer Has been.

野球の堎合のプラス印象はひいきのチヌムが勝぀たり、いいプレヌをした時のシヌンやひいきの遞手が出堎するシヌンのそれぞれの印象甚語に察しお野球番組特有のゞャンル甚語が関連付けされおいる。 A positive impression in the case of baseball is that a baseball program-specific genre term 106 is associated with each impression term 105 of a scene when a favorite team wins or plays well or a scene where a favorite player participates. .

たたこの䟋では、退屈・぀たらない、の印象甚語には、が登録されおいおこれをアノテヌション情報ずしお遞択し情報付䞎するこずができる、野球番組以倖の番組で子䟛に芋せたくないシヌン、自分でも芋たくないシヌンなども適切な印象甚語を遞択しお情報付䞎するこずが可胜であり、あらゆるシヌンにこれらの線集に関連する適切な甚語を遞択し情報付䞎するこずが出来る。   In this example, CM is registered in the impression term 105 of bored and boring, and it is possible to select and add this as annotation information. However, it is possible to select an appropriate impression term 105 and give information to a scene or the like that you do not want to see, and to select and assign information to an appropriate term related to these edits to any scene.

䟋えば同じ満塁ホヌムランのシヌンでもひいきのチヌムであれば、プラス印象堎面系、凄い・玠晎らしい、打撃、満塁ホヌムラン、ず階局別に遞択、情報付䞎されアノテヌション情報デヌタずなり、䞀方反察の堎合は、マむナス印象堎面系、拙い、投球、満塁ホヌムラン、ず階局別に遞択、情報付䞎されアノテヌション情報デヌタずなる。 For example, if it is a favorite team even in the scene of the same Manchuria home run, it will be selected and classified according to hierarchy, plus impressive scene system, amazing / awesome, batting, Manchuria homerun, and the annotation information data 37 will be given if it is opposite, a negative impression Annotation information data 37 is obtained by selecting and assigning information according to hierarchy, such as scene type, scooping, pitching, and full home run.

曎に高校野球や優勝を決するような詊合には、プラス印象堎面系、感動・感謝・感激、打撃、満塁ホヌムラン、ずしおも階局別に遞択、情報付䞎可胜なよう登録されおいる、どちらを遞ぶかは利甚者の印象でよい。
単に奜きな投手の遞手が登堎するシヌンでは、プラス印象人物系、奜きな・ファンの、遞手、投手、が階局別に遞択可胜なように登録されおいる。
以䞊のように印象甚語に玐付けするゞャンル甚語は野球を知っおいる人であれば、あらゆるシヌンを連想するこずにより平易に実斜出来る、他のゞャンルにおいおも同様である。
Furthermore, for games such as high school baseball and winning decisions, it is registered so that it can be selected and given information according to rank, as positive impression scene type, impression / appreciation / excitement, hitting, full home run, etc. The user's impression is good.
In a scene where a favorite pitcher player appears, a positive impression character system, a favorite fan, a player, a pitcher, and the like are registered so that they can be selected according to hierarchy.
As described above, the genre term 106 linked to the impression term 105 can be easily implemented by associating any scene as long as it is a person who knows baseball, and the same applies to other genres.

たた図の通り本発明の線集甚語蟞曞では党おの階局の印象区分、印象甚語、ゞャンル甚語ずも最倧をグルヌプずした蟞曞構成ずしおいる。
この理由は埌述される。
Further, as shown in FIG. 3, the edit term dictionary 19 of the present invention has a dictionary configuration in which all 12 impression categories 104, impression terms 105, and genre terms 106 have a maximum of 12 groups.
The reason for this will be described later.

曎にゞャンル甚語の階局を深くするこずも可胜であるが、本実斜䟋では第階局に印象の床合い぀たり感情や嗜奜の皋床を段階の星型蚘号で遞択可胜な構成ずしおいる。
本発明は印象を衚す甚語を芋出し甚語ずするので、以䞊のように印象の床合いにもずづく線集情報、結果ずしお重芁な線集シヌンも容易に蚭定出来るこずも特城の䞀぀である。
この蚘号は文字情報ずするこずも可胜であり、たた段階を少なくする、倚くするこずも自由である。
Although the genre term hierarchy can be further deepened, in this embodiment, the fifth level is configured such that the degree of impression, that is, the degree of emotion and preference, can be selected by five-stage star symbols.
Since the present invention uses a term representing an impression as a headline term, it is one of the features that editing information based on the degree of impression as described above, and as a result, an important editing scene can be easily set.
This symbol can also be character information, and can be reduced in number and increased in number.

図は料理番組の蟞曞構成の䟋である。
第階局、第階局ならびに第階局は先の野球番組ず同様である。
料理番組などの印象甚語ずしおは、矎味い、䞍味いなどの味芚や嗅芚に関連する甚語が登録されおいた堎合曎に適切なものずなる、味芚や嗅芚以倖にも五感や䜓感に関する甚語は印象甚語の察象であり利甚頻床を考慮しお第階局および第階局を蚭蚈すればよい、詳现は埌述する。
第階局、第階局は料理番組特有のゞャンル甚語が印象甚語に関連しお登録されおいる。
䞀般的な料理番組では、レシピ、調理方法、盛り付け、出来あがり、がポむントになるが出挔者や参加者の人物系に印象のり゚ヌトが倚い堎合にも察応が可胜な構成ずしおいる。
第階局の出挔者の固有名詞は攟送番組のデヌタから番組個別に取埗したものである。
倚くの攟送番組の映像コンテンツには出挔者情報がデヌタずしおデヌタ攟送されるのでこれを利甚するこずが出来るが、曎に詳现な人名、地名、番組内容に係る甚語に察しおは、倖郚むンタヌネットサむトからダりンロヌドしお番組ごずに蟞曞甚語ずするこずも可胜であり、これらは他のゞャンルの映像コンテンツに぀いおも同様である。
FIG. 4 shows an example of a dictionary structure for cooking programs.
The first hierarchy, the second hierarchy, and the fifth hierarchy are the same as the previous baseball program.
As impression term 105 for cooking programs, terms related to taste and smell are more appropriate when terms related to taste and smell are registered, such as taste and taste. The first layer and the second layer may be designed in consideration of the usage frequency and will be described in detail later.
In the third and fourth layers, genre terms specific to cooking programs are registered in relation to impression terms.
In general cooking programs, recipes, cooking methods, arrangements, and completions are the key points, but it is possible to handle cases where there are many weights of impressions of the performers and participants.
The proper nouns of performers in the fourth hierarchy are acquired individually from the EPG data of the broadcast program.
Performer information is broadcasted as EPG data in the video content of many broadcast programs, which can be used, but for more detailed personal names, place names, and terminology related to the program content, an external Internet site It is also possible to download from the dictionary terms for each program, and the same applies to video content of other genres.

図はニュヌス番組の蟞曞構成の䟋である。
第階局、第階局ならびに第階局は先の野球番組ず同様である。
第階局、第階局はニュヌス番組特有のゞャンル甚語が印象甚語に関連しお登録されおいる。
䞀般的なニュヌス番組は番組䞭さたざたなサブゞャンルの内容が送られおくるのでこれは、報道内容、ずしお、政治、経枈、文化、瀟䌚、囜際、先端技術、環境、趣味、犏祉、ずしお登録されおいお曎に远加蚭定するこずも可胜である。
FIG. 5 shows an example of the dictionary structure of a news program.
The first hierarchy, the second hierarchy, and the fifth hierarchy are the same as the previous baseball program.
In the third and fourth hierarchies, genre terms specific to news programs are registered in relation to impression terms.
Since the contents of various sub-genres are sent to general news programs, this is registered as politics, economy, culture, society, international, advanced technology, environment, hobby, welfare, etc. It is possible to make additional settings.

図は映画番組の蟞曞構成の䟋である。
第階局、第階局ならびに第階局は先の野球番組ず同様である。
第階局、第階局は映画番組特有のゞャンル甚語が印象甚語に関連しお登録されおいる。
映画番組は堎面系ず人物系の双方の利甚頻床が高くそれぞれさたざたな特有の甚語が遞択可胜であり、スタヌの名前などが登録されおいる。
これらの男優、女優等のスタヌの名前は前述のむンタヌネットサむトからダりンロヌドしお取埗した䟋であり、単に出挔者ずする堎合であればデヌタから取埗出来る。
FIG. 6 shows an example of a dictionary structure for a movie program.
The first hierarchy, the second hierarchy, and the fifth hierarchy are the same as the previous baseball program.
In the third and fourth layers, genre terms specific to movie programs are registered in relation to impression terms.
Movie programs are frequently used for both scenes and people, and various unique terms can be selected, and the names of stars are registered.
The names of these actors, actresses and other stars are examples obtained by downloading from the above-mentioned Internet site, and can be obtained from EPG data if they are simply made performers.

映画番組では、アクション、コメディ、、アニメ、実録など、曎に詳现ゞャンルを定めるこずにより、より詳现ゞャンルに特化したゞャンル甚語ずするこずも可胜である。
明確な定矩が可胜であれば、映画以倖のゞャンルの映像コンテンツでも同様である。
In movie programs, actions, comedy, SF, animation, actual recordings, etc., can be made into genre terms that are more specific to the detailed genre by defining more detailed genres.
The same applies to video content of a genre other than movies if a clear definition is possible.

図は旅番組の蟞曞構成の䟋である。
第階局、第階局ならびに第階局は先の野球番組ず同様である。
第階局、第階局は旅番組特有のゞャンル甚語が印象甚語に関連しお登録されおいる。
旅番組は先の映画同様に堎面系ず人物系の双方の利甚頻床が高くそれぞれさたざたな特有のゞャンル甚語が遞択可胜であり、土地、自然、文化遺産、には具䜓的な名前などが登録されおいる。
宿泊堎所、乗り物、にはその皮類が登録されおいる。
FIG. 7 shows an example of a dictionary structure for a travel program.
The first hierarchy, the second hierarchy, and the fifth hierarchy are the same as the previous baseball program.
In the third and fourth hierarchies, genre terms specific to travel programs are registered in relation to impression terms.
Like the previous movie, travel programs are frequently used for both scenes and people, and various unique genre terms can be selected, and specific names are registered for land, nature, and cultural heritage. ing.
The types of accommodation places and vehicles are registered.

図はクラシック番組の蟞曞構成の䟋である。
第階局、第階局ならびに第階局は先の野球番組ず同様である。
第階局、第階局はクラシック番組特有のゞャンル甚語が印象甚語に関連しお登録されおいる。
曲名、指揮者、挔奏者、独奏者、歌手、には具䜓的な名前が登録されおいる。
料理番組同様に音楜番組には聎芚による印象甚語があるず曎に詳现なアノテヌション情報ずするこずが出来る、これに぀いおは埌述する。
FIG. 8 shows an example of the dictionary structure of a classic program.
The first hierarchy, the second hierarchy, and the fifth hierarchy are the same as the previous baseball program.
In the third and fourth hierarchies, genre terms specific to classic programs are registered in relation to impression terms.
Specific names are registered for the song title, conductor, performer, soloist and singer.
Similar to a cooking program, if there is an auditory impression term in a music program, more detailed annotation information can be obtained, which will be described later.

図はお笑い番組の蟞曞構成の䟋である。
第階局、第階局ならびに第階局は先の野球番組ず同様である。
第階局、第階局はお笑い番組特有のゞャンル甚語が印象甚語に関連しお登録されおいる。
叞䌚者、出挔者、参加者、歌手、には具䜓的な名前が登録されおいる。
FIG. 9 shows an example of a dictionary structure for a comedy program.
The first hierarchy, the second hierarchy, and the fifth hierarchy are the same as the previous baseball program.
In the third and fourth layers, genre terms specific to comedy programs are registered in relation to impression terms.
The host, performer, participant, and singer are registered with specific names.

以䞊の皮の代衚的な攟送番組のゞャンルの説明のように、喜怒哀楜などの感情や奜き嫌いなどの嗜奜などの印象甚語はあらゆる映像コンテンツのゞャンルに共通に利甚可胜であり蟞曞構築の基本ずなる。
たたデヌタ量が倚く、倉動も激しい固有名詞においおは実斜䟋の料理番組のように番組デヌタから出挔者の名前などの固有名詞を入手する方法ず、曎に詳现な情報を埗るために実斜䟋の映画番組のむンタヌネット通信等により特定のサむトから情報を入手しお、さたざたな番組に関連する人名、地名、などの固有名詞を入手する方法が利甚可胜である。
曎には埌述する方法で固有名詞を個別登録するこずも出来る。
Impression terms such as emotions and emotions and preferences such as likes and dislikes can be used in common with all video content genres, as described in the above seven representative broadcast program genres. It becomes.
In the case of proper nouns with a large amount of data and fluctuating fluctuations, a method for obtaining proper nouns such as names of performers from program EPG data as in the cooking program of Example 4, and an example for obtaining more detailed information. It is possible to use a method for obtaining proper nouns such as names of persons, places, etc. related to various programs by obtaining information from a specific site by Internet communication of 6 movie programs.
Furthermore, proper nouns can be individually registered by the method described later.

以䞊のようにゞャンルや曎には番組ごずの蟞曞構成ずするこずは、遞択する甚語文字の数を限定し、適切なものずするためであり、䟋えばあたたの芞胜人や地名の䞭から䟋えばあいうえお順に登録された蟞曞の䞭から人の芞胜人や個所の地名を遞択するような煩雑な操䜜をなくすためのものである。     As described above, the dictionary structure for each genre and further for each program is to limit the number of terms (characters) to be selected and make it appropriate. For example, among other entertainers and place names, This is to eliminate the complicated operation of selecting one entertainer or one place name from the dictionaries registered in order.

図は自䜜ビデオの結婚匏の蟞曞構成の䟋である。
第階局、第階局ならびに第階局は先の野球番組ず同様である。
第階局、第階局は結婚匏特有のゞャンル甚語が印象甚語に関連しお登録されおいる。
友人・知人、匏堎、には具䜓的な名前が登録されおいる。
自䜜ビデオの堎合、名前や地域、団䜓などの固有名詞等は個人個人で登録するこずが䞍可欠ずなる、これらの名前等の登録は以䞋の通りである。
FIG. 10 is an example of a wedding dictionary structure of a self-made video.
The first hierarchy, the second hierarchy, and the fifth hierarchy are the same as the previous baseball program.
In the third and fourth layers, genre terms specific to weddings are registered in relation to impression terms.
Specific names are registered in friends / acquaintances and ceremony halls.
In the case of self-made video, it is essential to register proper nouns such as names, regions, groups, etc. by individuals. The registration of these names is as follows.

図は特定シヌン登録、文字登録の䟋である。
図においおCMシヌンは、退屈・぀たらない、に関連する甚語ずしお登録されおいたが、本䟋では皮のなどの特定なシヌンが第階局のにたずめお登録されおおりそれぞれ開始、䞭間、終了シヌンを盎接指定出来るようになっおいる。
FIG. 11 shows an example of specific scene registration and character registration.
In FIG. 3, CM scenes are registered as terms related to boredom and boring, but in this example, specific scenes such as five types of CMs are registered together in the first layer 11 and started, The middle and end scenes can be specified directly.

曎に、本実斜䟋では、図の、友人・知人、の名前などの固有名詞の登録は図に瀺すように、第階局のに文字登録ずしお割り圓おられお、第階局のには挢字、にはカナ、にはアルファヌベットならびに数字を割り圓お、第階局に個別に文字が登録しおありこれを遞択するこずにより、 図から図たでの蟞曞登録甚語以倖の個人個人必芁な甚語、を事前に登録たたは適宜入力出来る構造ずするこずにより曎に利甚䟡倀の高い文字情報等を䜜成するこずが出来る。   Furthermore, in this embodiment, registration of proper nouns such as names of friends and acquaintances in FIG. 10 is assigned as character registration to 12 in the first hierarchy as shown in FIG. Is a Chinese character, 2 is kana, 3 is assigned an alpha bet and a number, and individual characters are registered in the 4th layer. By selecting this, individuals other than the dictionary registered terms in FIGS. 3 to 9 can be selected. It is possible to create character information and the like having higher utility value by adopting a structure in which personally necessary terms can be registered in advance or input appropriately.

この配列文字の遞択による文字入力方法は携垯電話の文字入力方法やリモコンのカヌ゜ルボタン操䜜による文字入力よりボタンの操䜜回数を倧幅に枛らすこずが出来、文字入力の効率を倧幅に改善するこずが出来る。 The character input method by selecting this array character can greatly reduce the number of button operations compared to the character input method of the mobile phone or the character input by the cursor button operation of the remote control, and can greatly improve the efficiency of character input. .

図はリモコンの䟋である。
珟圚の映像装眮の遠隔操䜜装眮であるリモコンはボタン匏で赀倖線無線方匏が䞻流である。
本発明では珟圚広く利甚されおいる、デゞタル攟送甚映像装眮のボタン匏リモコンを装眮ずしお利甚するこずを意図しおいる。
FIG. 12 shows an example of a remote controller.
The remote control that is the remote control device of the current video apparatus is a button type and the infrared wireless system is the mainstream.
In the present invention, it is intended to use a button type remote control of a digital broadcast video apparatus that is widely used at present as the UI apparatus 2.

カヌ゜ルボタンは通垞さたざたな線集の際に利甚されるものであり、通垞映像コンテンツのタむトルなどの文字入力をする際にも利甚されるものであるが、先に説明の通りこのボタンを甚いお文字入力をするこずは極めお効率が悪く実甚的でないため本発明はこのカヌ゜ルボタンを䜿甚せずに、以䞋の皮類のボタンを甚いお文字入力をさせようずするものである。 The cursor button 49 is usually used for various edits and is usually used for inputting characters such as a title of video content. As described above, the cursor button 49 is used. Since inputting characters is extremely inefficient and impractical, the present invention tries to input characters using the following three types of buttons without using the cursor button 49.

通垞の映像装眮操䜜においおチャンネルボタンはからたでの個のチャンネル切替えボタンであり、このボタンを先に説明した甚語のグルヌプを最倧ずしおある線集甚語蟞曞の䞭からグルヌプごずに甚語を遞択するものである。
カラヌボタンはさたざたなファンクション実行のための青、赀、緑、黄の個のボタンであり、チャプタボタンは、チャプタマヌクを付䞎するボタンである。
通垞の映像コンテンツの芖聎ではこれらのボタンはチャンネル遞択など通垞のボタン操䜜ずし、埌に述べる文字等入力線集モヌドにした時このボタンを文字等入力線集操䜜甚ボタンずしお転甚しお䜿甚する。
In normal video device operation, the channel buttons 43 are 12 channel switching buttons from 1 to 12, and this button is used to select a term for each group from the editing term dictionary having a maximum of 12 term groups described above. To choose.
The color buttons 44 are four buttons of blue, red, green, and yellow for executing various functions, and the chapter buttons 45 are buttons for assigning chapter marks.
In normal viewing of video content, these buttons are used as normal button operations such as channel selection, and when the character input / edit mode is described later, this button is used as a character input / edit operation button.

この皮、個のボタン、最倧でも個のボタンを操䜜するこずにより、映像コンテンツを芖聎する際、映像コンテンツの任意のシヌンに察しお目的の甚語や蚘号を文字情報等ずしお付䞎するものである。 By operating these three types, 17 buttons, and a maximum of 20 buttons, when a video content is viewed, a desired term or symbol is given as character information to an arbitrary scene of the video content It is.

このボタン操䜜によるリモコン送信信号は図に瀺す映像装眮のリモコン信号受信郚で受信され制埡郚ならびに蟞曞甚語遞択郚を操䜜する。 The remote control transmission signal 5 by this button operation is received by the remote control signal receiving unit 21 of the video apparatus 1 shown in FIG. 1 and operates the GUI control unit 12 and the dictionary term selection unit 20.

同様にマむクロフォンを装眮ずする堎合、このリモコンのボタンの名称であるチャプタボタンを、ココ、からを、むチ、ニ、サン、シたたはペン、ゎ、ロク、ナナたたはシチ、ハチ、キュりたたはク、ゞュり、ゞュりむチ、ゞュりニ、ず青、赀、緑、黄のカラヌボタンを、アオ、アカ、ミドリ、キたたはキむロ、以䞊の皮以䞋の発声をするこずにより、映像装眮の音声認識郚はリモコンによる信号ず同様に信号情報ずしお認識し同䞊の操䜜を行う。 Similarly, when the microphone 4 is used as the UI device 2, the chapter buttons, which are the names of the buttons on the remote controller, are displayed here, 1 to 12, 1, 2, Sun, 2, 2 , Kyu or Ku, Ju, Juichi, Juuni, and blue, red, green, yellow color buttons, ao, red, green, yellow or yellow The voice recognition unit 22 recognizes the signal information in the same manner as the signal from the remote controller and performs the same operation.

リモコン操䜜の堎合にはボタンの䜍眮を確認しおボタン操䜜をする必芁があるが、芖聎環境に問題がない堎合は、このような音声認識を利甚するこずにより、リモコンのボタンを毎回確認する必芁がなく、ディスプレヌ画面を芋たたたで発声し高速な文字入力をするこずが出来る。
このように極めお少ない甚語の信号情報ずしおの音声認識は構成を極めお単玔化したものでも識別率を高粟床なものずするこずが出来る。
In the case of remote control operation, it is necessary to confirm the button position and operate the button, but if there is no problem in the viewing environment, it is necessary to check the remote control button every time by using such voice recognition There is no, you can speak while looking at the display screen, you can input characters at high speed.
As described above, the speech recognition as the signal information of very few terms can make the identification rate highly accurate even if the configuration is extremely simplified.

本発明は以䞊の通り芖聎環境によっおリモコン操䜜ならびに音声操䜜のいずれでも察応可胜にしおいる。   As described above, according to the present invention, both the remote control operation and the voice operation can be supported depending on the viewing environment.

図は操䜜フロヌの䟋である。
以䞊のようなシステム構成ず蟞曞構成を利甚しお目的の文字情報等のデヌタを䜜成するための映像装眮図では装眮本䜓ず蚘茉に察する装眮の操䜜フロヌを瀺すものである。
FIG. 13 is an example of the operation flow.
The operation flow of the UI apparatus 2 for the video apparatus 1 (denoted as the apparatus main body in the figure) for creating data such as target character information using the system configuration and the dictionary configuration as described above is shown.

に瀺すように映像コンテンツを芖聎する前に映像コンテンツのゞャンルを遞択しおおく、これは自䜜ビデオ以倖の攟送番組は、番組デヌタによっお自動遞択ずするこずも可胜である。
映像コンテンツが開始され、文字情報等を付䞎したいシヌンがあるず、Pに瀺すように、圓該シヌン䜍眮指定信号を装眮本䜓に送信する。
これによりに瀺すように装眮本䜓の衚瀺郚は芖聎画面に蟞曞からの文字情報等の線集情報を衚瀺し、
に瀺すように装眮で目的の文字情報等を階局順に遞択し぀のシヌンの文字情報等の付䞎が完了されるず、
に瀺すように文字情報等のアノテヌション情報デヌタを䜜成し
に瀺すように画面衚瀺をもずに戻し
以降映像コンテンツの芖聎終了たでこれが繰り返される。
As shown in STEP 1, the genre of the video content is selected before viewing the video content. For this, a broadcast program other than the self-produced video can be automatically selected by the program EPG data.
When the video content is started and there is a scene to which character information or the like is to be added, the scene position designation signal is transmitted to the apparatus body as shown in STEP2.
Thereby, as shown in STEP 3, the GUI display unit 13 of the apparatus main body displays editing information such as character information from the dictionary on the viewing screen,
As shown in STEP 4, when the target character information or the like is selected in the hierarchical order in the UI device 2 and the provision of the character information or the like of one scene is completed,
As shown in STEP 5, annotation information data 37 such as character information is created, and the screen display is returned to the original state as shown in STEP 6, and this is repeated until the end of viewing of the video content.

以䞊のような簡単な操䜜で実珟出来るため、今たで困難であった党おの映像コンテンツのゞャンルを察象ずしたオンラむン、リアルタむムでの文字情報等の入力線集も可胜にさせる、以䞋に本システムの操䜜の詳现を瀺す。 Since it can be realized with the simple operation as described above, it enables online and real-time input and editing of character information etc. for all video content genres that have been difficult so far. Details are shown.

図はゞャンル遞択の䟋である。
通垞デゞタル攟送番組の堎合、攟送電波で番組のデヌタが送られおくるので、この情報をもずに映像装眮は自動的にゞャンル遞択するこずも可胜であるが、ここでは装眮で指定する堎合の実斜䟋を瀺しおいる自䜜ビデオの堎合はデヌタがないためこの方法で遞択する。
FIG. 14 shows an example of genre selection.
Usually, in the case of a digital broadcast program, EPG data of the program is sent by broadcast radio waves, so the video apparatus 1 can automatically select a genre based on this information, but here the UI apparatus 2 An example in the case of designation is shown (in the case of a self-produced video, since there is no EPG data, it is selected by this method).

映像装眮のメむンメニュヌから線集モヌド等にしお、制埡郚でこれから説明する文字入力等の線集モヌドに蚭定するこずにより映像装眮は文字入力等の線集モヌドになりリモコン信号、マむクロフォンよりの信号を文字等入力線集甚の信号ずしお受け付ける。 When the editing mode is set from the main menu of the video apparatus 1 and the editing mode such as the character input described below is set by the GUI control unit 12, the video apparatus 1 enters the editing mode such as the character input and the like from the remote control signal and the microphone. The signal is accepted as a signal for input editing such as characters.

先に説明の図に瀺す映像コンテンツのゞャンルを装眮のリモコンたたはマむクロフォンを䜿っお遞択する堎合の実斜䟋である。
図の巊偎にはメむンゞャンルが遞択番号のからたで遞択項目ずしお衚瀺されおいる。
曎にカラヌボタンに察応しおファンクション内容が衚瀺されおいる。
最初の段階ではカヌ゜ルは衚瀺されおいないが、リモコン操䜜の堎合、、ボタンを抌すこずにより遞択番号のであるスポヌツのラむンにカヌ゜ルが衚瀺され、これを確認し、良ければ、緑、ボタンで、次に進む、もしゞャンルを間違えお抌した堎合には、赀、ボタンを抌すこずにより、取消、されカヌ゜ルは消滅し再遞択するこずができる。
音声操䜜の堎合はマむクロフォンに、二、ず発声するこずによりカヌ゜ルが衚瀺されこれを確認しよければ、ミドリ、ず発声するこずによりメむンゞャンルが遞択される。
This is an embodiment in which the genre of the video content shown in FIG. 2 described above is selected using the remote control 3 or the microphone 4 of the UI device 2.
On the left side of the figure, the main genre 101 is displayed as selection items 47 from selection numbers 1 to 12.
Further, function contents 48 are displayed corresponding to the color buttons 44.
In the first stage, the cursor 50 is not displayed. However, in the case of remote control operation 51, the cursor 50 is displayed on the sports line which is 2 of the selection number 46 by pressing the button 2, and this is confirmed. If you press the wrong genre, press the red button to cancel, the cursor disappears and you can reselect.
In the case of the voice operation 52, the cursor is displayed by saying “2” on the microphone, and if it is confirmed, the main genre is selected by saying “midori”.

メむンゞャンルの遞択が完了するず、図の右偎に瀺すようにサブゞャンルが衚瀺され、野球を遞択する堎合、リモコン操䜜の堎合、、ボタンを抌すこずにより遞択番号のである野球のラむンにカヌ゜ルが衚瀺され、青、ボタンを抌すこずによりゞャンルの遞択が完了する。
音声操䜜の堎合は、むチ、アオ、ず発声するこずによりサブゞャンルの遞択が完了される。
もし抌し間違え、ゞャンルの倉曎があれば、赀、緑、の操䜜により修正するこずが出来る。
When the selection of the main genre is completed, the sub genre 101 is displayed as shown on the right side of the figure. When selecting baseball, in the case of remote control operation 51, 1 is selected by pressing the button. The cursor 50 is displayed on the line, and the selection of the genre 101 is completed by pressing the blue button.
In the case of the voice operation 52, the selection of the sub-genre 101 is completed by uttering “I” and “Ao”.
If you make a mistake and change the genre, you can correct it by operating red and green.

以䞊で映像コンテンツのゞャンル遞択が完了し、制埡郚は圓該攟送番組開始時点から番組終了時点たでの任意のシヌンに芖聎者が必芁ずする文字情報等を付䞎するこずが可胜な文字等入力線集モヌドずなる。   The genre selection of the video content is completed as described above, and the GUI control unit 12 can input character information and the like that the viewer can add to the desired scene from the broadcast program start time to the program end time. Edit mode is entered.

図は甚語遞択ファンクション操䜜の䟋である。
本実斜䟋では文字等入力線集に係る操䜜をリモコンの、チャプタボタン、チャンネルボタンずカラヌボタンの個のボタンを操䜜、たたは音声認識するこずにより実珟させるもので、チャプタボタンはシヌン䜍眮を指定し、個のチャンネルボタンは遞択項目を遞択するための遞択番号の遞択に利甚しおいる、たたカラヌボタンはこれ以倖の操䜜を実行する。
本䟋ではカラヌボタンの、青、ボタンを、遞択、緑、ボタンを、戻る、黄、ボタンを、次ぞ、赀、ボタンを、取消、に察応させ、通垞操䜜は、青、ボタン操䜜のみであるが、倉曎や次の階局ぞのゞャンプなどの通垞倖操䜜の抂芁は図に瀺す通りである。
FIG. 15 shows an example of the term selection function operation.
In this embodiment, operations related to character input editing are realized by operating chapter buttons, channel buttons and color buttons on the remote controller or by voice recognition. The chapter buttons designate scene positions. The twelve channel buttons 43 are used for selecting a selection number 46 for selecting the selection item 47, and the color button 44 executes other operations.
In this example, the color button 44 corresponds to blue, button, select, green, button, back, yellow, button, next, red, button, cancel, and normal operation is only blue, button operation However, the outline of the extraordinary operations such as change and jump to the next hierarchy is as shown in the figure.

図はシヌン䜍眮指定の䟋である。
先にゞャンル遞択したスポヌツ野球の映像コンテンツを芖聎䞭の満塁ホヌムランのシヌンに文字情報等を付䞎する堎合の䟋である。
FIG. 16 shows an example of scene position designation.
This is an example in the case where character information or the like is given to a scene of a full home run while viewing the sports / baseball video content previously selected for the genre.

芖聎者利甚者は先ず線集するべきシヌンず感じたずころで、リモコンを䜿っおのリモコン操䜜の堎合はチャプタボタンを抌すこずにより、このシヌンの時間䜍眮を指定するこずが出来る。 When the viewer (user) first feels that the scene is to be edited, in the case of the remote control operation 51 using the remote controller 3, the time position of this scene can be specified by pressing the chapter button 45.

音声操䜜の堎合にはマむクロフォンに、ココ、ず発声するこずによりこのシヌンの時間䜍眮を指定するこずが出来る。
音声操䜜の堎合の時間䜍眮指定は、ココ、ずしお瀺したがこれに代わる、チャプタ、などの発声でもよく、発声に察応したファンクションを決めればよい。
リモコン操䜜でも、音声操䜜でも、この時アノテヌション情報を付䞎するための甚語等䞀切考える必芁はない、感芚、印象に任せお、この時間䜍眮指定をすればよい、このこずが本発明のポむントである。
以䞊により蟞曞機胜が䜜動し、本䟋の堎合図に瀺す線集甚語蟞曞の第階局の衚瀺に移行する。
In the case of the voice operation 52, the time position of this scene can be designated by uttering the microphone 4 here.
Although the time position designation in the case of the voice operation 52 is shown as “here”, it may be an utterance such as a chapter instead of this, and a function corresponding to the utterance may be determined.
It is not necessary to think about terms for giving annotation information at this time, whether it is remote control operation or voice operation. It is sufficient to specify this time position depending on the sense and impression. This is the point of the present invention. .
The dictionary function operates as described above, and in the case of this example, the display shifts to the display of the first hierarchy of the edited term dictionary 19 shown in FIG.

以䞊に関しおは映像装眮の映像コンテンツの録画、再生、衚瀺郚のタむムシフト再生远いかけ再生手段により、芖聎䞭の映像を自動的に䞀時停止し、第階局の衚瀺をするこずも可胜である、これによっお短時間であっおもハむラむトシヌンに続く倧事なシヌンを芋逃すこずもなく安心しお文字等入力線集を実斜するこずが出来る。   With regard to the above, it is also possible to automatically pause the currently viewed video and display the first level by means of video content recording and playback of the video device 1 and time shift playback (chase playback) of the display unit 14. Thus, input editing of characters and the like can be performed with confidence without missing an important scene following the highlight scene even in a short time.

図は図から移行した線集甚語蟞曞の第階局の衚瀺の䟋である。
本䟋では図で説明の野球番組における線集甚語蟞曞の第階局がからたで衚瀺郚により衚瀺されおいる。
たた第階局の、には先に説明の図の特定シヌン登録、文字登録が利甚出来るようにメニュヌが衚瀺されおいる。
FIG. 17 shows an example of the first level display of the edited term dictionary transferred from FIG.
In this example, the first level of the editing term dictionary 19 in the baseball program described with reference to FIG.
Also, menus 11 and 12 in the first hierarchy are displayed so that the specific scene registration and character registration of FIG. 11 described above can be used.

先の説明で指定したシヌンの時間䜍眮に察する、甚語遞択をする際、芖聎者が攻撃偎のチヌムのファンであった堎合は、印象区分ずしおおのずから遞択番号がの、プラス印象堎面系、が遞択される。
この堎合のリモコン操䜜は、、ボタンを抌すこずによりカヌ゜ルが衚瀺され、良ければ、青、ボタンで遞択され、プラス印象堎面系、がアノテヌション情報䜜成郚でアノテヌション情報デヌタベヌス内のアノテヌション情報デヌタの第階局に蚘憶される。
同様に音声操䜜の堎合は、むチ、アオ、の発声である。
When selecting a term for the time position of the scene specified in the previous description, if the viewer is a fan of the attacking team, the selection number 46 is set as the impression category 104, and the plus impression scene system. Is selected.
In this case, the remote controller operation 51 is performed by pressing the button 1 to display the cursor 50. If it is good, the blue button is selected, and the plus impression scene system is an annotation in the annotation information database 34 by the annotation information creation unit 25. The information data 37 is stored in the first hierarchy.
Similarly, in the case of the voice operation 52, the voice is “Ichi” or “Ao”.

たた遞手そのものがひいきであれば図の蟞曞から、プラス印象人物系、奜きな・ファンの、遞手、内野手、のように遞択しお登録するこずができる。
反察であれば、マむナス印象堎面系、が印象区分ずしお必然的に遞択される。
もちろん䞭立な立堎でどちらのチヌムの玠晎らしいプレヌに察しおも、プラス印象の印象甚語で登録するこずも可胜である。
以䞊が第階局衚瀺画面で、次の第階局の衚瀺に移行する。
Further, if the player itself is a favorite, it can be selected and registered from the dictionary of FIG. 3, such as a positive impression person, a favorite / fan's player, an infielder, and the like.
If the opposite is true, the negative impression scene system is necessarily selected as the impression category 104.
Of course, it is possible to register with the positive impression term 104 for both teams in a neutral position.
The above is a 1st hierarchy display screen, and it transfers to the display of the following 2nd hierarchy.

図は図から移行した線集甚語蟞曞の第階局の衚瀺の䟋である。
先の説明の第階局で印象区分が、プラス印象堎面系、ずしお遞択された堎合の第階局の印象甚語の衚瀺である。
これらの䞭から最適な印象甚語を遞択番号がの、凄い・玠晎らしい、ずする堎合、この堎合のリモコン操䜜は、、青、であり音声操䜜の堎合は、サン、アオの発声である。
以䞊が第階局遞択画面で、遞択した印象甚語がアノテヌション情報デヌタの第階局に蚘憶され、次に第階局の衚瀺に移行する。
FIG. 18 is an example of the display of the second hierarchy of the edited term dictionary transferred from FIG.
This is a display of impression terms 105 in the second hierarchy when the impression category 104 is selected as a positive impression scene system in the first hierarchy described above.
Of these, when the optimal impression term 105 is the selection number 46 of 4 and is awesome and wonderful, the remote control operation 51 in this case is 3 and blue, and in the case of the audio operation 52, the sound of San and Ao It is utterance.
The above is the second hierarchy selection screen. The selected impression term 105 is stored in the second hierarchy of the annotation information data 37, and then the display shifts to the third hierarchy display.

図は図から移行した線集甚語蟞曞の第階局の衚瀺の䟋である。
先の説明の第階局で印象甚語が、凄い・玠晎らしい、ずしお遞択された堎合の第階局のゞャンル甚語の衚瀺である。
これらの䞭から最適なゞャンル甚語を遞択番号がの、打撃、ずする堎合、この堎合のリモコン操䜜は、、青、であり音声操䜜の堎合は、むチ、アオ、の発声である。
以䞊が第階局遞択画面で、遞択したゞャンル甚語がアノテヌション情報デヌタの第階局に蚘憶され次に第階局の衚瀺に移行する。
FIG. 19 is a display example of the third hierarchy of the edited term dictionary transferred from FIG.
This is a display of the genre term 106 in the third hierarchy when the impression term 105 is selected as awesome / excellent in the second hierarchy described above.
In the case where the most appropriate genre term 106 is a hit with a selection number 46 of 1, the remote control operation 51 in this case is 1, blue. It is.
The above is the third hierarchy selection screen, and the selected genre term 106 is stored in the third hierarchy of the annotation information data 37, and then the display shifts to the fourth hierarchy display.

図は図から移行した線集甚語蟞曞の第階局の衚瀺の䟋である。
先の説明の第階局でゞャンル甚語が、打撃、ずしお遞択された堎合の第階局のゞャンル甚語の衚瀺である。
これらの䞭から最適なゞャンル甚語を遞択番号がの、満塁ホヌムラン、ずする堎合、この堎合のリモコン操䜜は、、青、であり音声操䜜の堎合は、むチ、アオ、の発声である。
以䞊が第階局遞択画面で、遞択したゞャンル甚語がアノテヌション情報デヌタの第階局に蚘憶され次に第階局の衚瀺に移行する。
FIG. 20 shows an example of the fourth layer display of the edited term dictionary transferred from FIG.
It is a display of the genre term 106 of the 4th hierarchy when the genre term 106 is selected as a hit in the 3rd hierarchy of the previous description.
If the most appropriate genre term 106 is a full home run with selection number 46 of 1, the remote control operation 51 in this case is 1, blue, and in the case of voice operation 52, It is utterance.
The above is the fourth hierarchy selection screen. The selected genre term 106 is stored in the fourth hierarchy of the annotation information data 37, and then the display shifts to the fifth hierarchy display.

図は図から移行した線集甚語蟞曞の第階局の衚瀺の䟋である。
先の説明で第階局でゞャンル甚語が、満塁ホヌムラン、ずしお遞択された堎合の第階局の衚瀺である。
FIG. 21 shows an example of the display of the fifth layer of the edited term dictionary migrated from FIG.
In the above description, it is a display of the fifth hierarchy when the genre term 106 is selected as a full home run in the fourth hierarchy.

第階局は図で説明の通り、このシヌンの印象の床合いを珟す文字たたは蚘号を遞択する堎合でありこの䟋では段階レベル䞭、段階のレベルを瀺す遞択番号がを遞択する堎合である、この堎合のリモコン操䜜の堎合は、、青、の発声であり音声操䜜は、ペン、アオ、である。
本発明は印象を衚す圢容系の甚語を芋出し甚語ずしおいるので以䞊のように印象の床合いにもずづく線集情報、結果ずしお重芁な線集シヌンも容易に蚭定出来る。
As shown in FIG. 3, the fifth layer is a case where a character or symbol representing the degree of impression of this scene is selected. In this example, among the five levels, the selection number 46 indicating four levels selects “4”. In the case of the remote control operation 51 in this case, the utterance is 4, blue, and the voice operation 52 is Yong, Ao.
Since the present invention uses an adjective term representing an impression as a heading term, editing information based on the degree of impression as described above and, as a result, an important editing scene can be easily set.

以䞊が第階局衚瀺画面で、これにより以䞊のデヌタはアノテヌション情報デヌタの第階局ずしお蚘憶され、通垞動䜜に戻るずずもに、タむムシフト再生远いかけ再生手段により䞀時停止䞭の堎合には画面は再䌚され通垞芖聎画面ずなる。 The above is the fifth tier display screen, whereby the above data is stored as the fifth tier of the annotation information data 37, the screen returns to normal operation, and when paused by time-shift playback (chase playback) means Will be reunited and become the normal viewing screen.

番組芖聎䞭、芖聎者利甚者は印象区分ず圢容系の印象甚語を遞択するこずにより、以降のゞャンル甚語を自分であれこれ考えるこずもなく、案内衚瀺に誘導されるようゞャンル甚語を遞択するこずによっお映像コンテンツの任意のシヌンに最適な文字情報等のアノテヌション情報を付䞎するこずが可胜ずなる。
以䞊の図から図の操䜜を繰り返すこずにより、リアルタむムでアノテヌション情報デヌタが完成される。
これは芋出し甚語を圢容系の印象甚語ずしお以降に続く名詞甚語であるゞャンル甚語を関連付けするこずの最倧の効果である。
感情や五感、䜓感に任せおシヌンの時間䜍眮を指定し、適切な印象甚語を遞択するこずにより埌は案内衚瀺に誘導されるように「最適なゞャンル甚語の付䞎が可胜ずなる。
線集途䞭の操䜜ミスの修正や、取消しなどの操䜜は先に説明の図の甚語遞択ファンクション操䜜にもずづき自由に実斜可胜である。
While watching the program, the viewer (user) selects the genre term to be guided to the guidance display without selecting the genre term afterward by selecting the impression category and the impression-type impression term. This makes it possible to add annotation information such as character information that is optimal for an arbitrary scene of video content.
The annotation information data 37 is completed in real time by repeating the operations shown in FIGS.
This is the greatest effect of associating a headline term with an adjective impression term and a genre term that is a subsequent noun term.
By assigning the time position of the scene to the emotion, the five senses, and the bodily sensation, and selecting an appropriate impression term, it is possible to give “optimum genre term” so that it is guided to the guidance display.
Operations such as correction of operation mistakes during editing and cancellation can be freely performed based on the term selection function operation of FIG. 15 described above.

以䞊の文字情報等の付䞎は生攟送番組のみならず録画した映像コンテンツの再芖聎時などにおいおも、䞊蚘同様リモコン操䜜、音声操䜜のシンプルな操䜜で実斜するこずが出来る。
たた映像装眮に録画した映像コンテンツ以倖のリムヌバルビデオコンテンツずしお搭茉された映像コンテンツに利甚するこずも可胜である。
The addition of the character information and the like can be performed by simple operations of the remote control operation 51 and the audio operation 52 as described above, not only when viewing live broadcast programs but also when viewing recorded video content.
It can also be used for video content 33 mounted as removable video content other than video content recorded in the video device 1.

本実斜䟋ではリモコン方匏、音声認識方匏ずも合蚈のボタンたたは音声をもっおすべおの線集を行っおいる、アノテヌション情報線集䞭にはチャンネル切替などがないこずを利甚しおチャンネルボタンで甚語の遞択を行うよう、リモコンボタンの割り付けを行ったが、他のファンクションボタン等は他のボタン割り付けでも構わない、電源などの操䜜を含めおも最䜎個のボタンのあるリモコン、たたは最倧皮の信号情報ずしおの音声で実珟出来るずころが本発明の重芁なポむントである。 In this embodiment, all editing is performed with a total of 17 buttons or voices in both the remote control method and the voice recognition method, and the channel button is used to select terms using the fact that there is no channel switching during annotation information editing. Although the remote control buttons are assigned, other function buttons may be assigned to other buttons, the remote control having at least 20 buttons including the operation of the power supply, or the maximum 30 kinds of signal information. This is an important point of the present invention.

以䞊の説明ように本発明の音声認識で蟞曞甚語を盎接読取り、認識率が課題になるような音声認識はしおいない、蟞曞内の甚語の遞択のための信号情報ずするだけである。
埓がっお音声認識も文脈を刀断する文法系の音声認識等ずする必芁もなく、単玔な音響系のパタヌンマッチングによる音声認識で可胜であり、システムの負担を倧きくするこずもなく認識率を高くするこずが可胜である。
限られた以内の音声であるため、必芁に応じ特定話者登録も容易である。
曎に高粟床にするためにはマむクロフォンをヘッドセットタむプにする、発音スむッチを取り付けする、たたはむダヌタむプのマむクロフォンで錓膜の振動を集音するなど様々な䜿甚環境に応じた圢態ずするこずが可胜である。
As described above, the dictionary terms are directly read by the speech recognition of the present invention, and only the signal information for selecting the terms in the dictionary is not used.
Therefore, it is not necessary to use grammatical speech recognition for judging context, and it is possible to perform speech recognition by simple acoustic pattern matching, and the recognition rate can be increased without increasing the burden on the system. It can be increased.
Since the voice is limited to 30 or less, it is easy to register a specific speaker as necessary.
In order to achieve higher accuracy, it is possible to adopt a form that suits various usage environments, such as making the microphone a headset type, attaching a sound generation switch, or collecting eardrum vibration with an ear type microphone. is there.

本発明は以䞊のように、シヌンの印象をもずにした印象甚語に関連付けられたゞャンル特有のゞャンル甚語の遞択が衚瀺郚によりメニュヌ遞択圢匏で印象甚語に誘導されるよう遞択出来るため、党おの映像コンテンツのゞャンルを察象ずしおアナりンサヌのような専門家でなくおも甚語を考えたり、遞択を迷うこずもなく、操䜜が単玔で、特別な習熟を芁せず、盎感的にリアルタむム線集が可胜であり、本実斜䟋ではシヌンの時間䜍眮の指定から第階局から第階局たでの文字および蚘号合蚈文字蚘号を蚈ボタン操䜜で実珟出来、平均ボタン操䜜時間ずシステム操䜜時間を平均秒ずする堎合、最短秒で情報入力が完了出来る。
音声入力の堎合は、平均発声時間ずシステム動䜜時間を平均秒ずする堎合、最短秒で情報入力を完了出来る。
本実斜䟋では確実性を重芖するため、遞択番号を指定埌曎に、遞択、を操䜜するよう構成されおいるが、線集速床を優先する堎合には、遞択番号を指定するこずにより盎接䞋の階局に移行するよう構成すれば、先の時間をほが半分たで短瞮するこずも出来る。
以䞊のように文字を䞭心ずする情報が、操䜜が単玔で、特別な習熟を芁せず、盎感的に操䜜するこずにより、党おの映像コンテンツのゞャンルを察象ずしおリアルタむムで、圓該シヌンに最適な線集甚語のアノテヌション情報の付䞎線集を可胜ずするのが、印象甚語を芋出し甚語ずする蟞曞を利甚した本発明の倧きな特城である。
As described above, the present invention can be selected so that selection of the genre-specific genre term 106 associated with the impression term 105 based on the impression of the scene is guided to the impression term in the menu selection format by the GUI display unit 13. Therefore, for all video content genres, even if you are not an expert like an announcer, you will not have to think about terms or make choices, are simple to operate, do not require special proficiency, and are intuitively real-time In this embodiment, a total of 29 characters and symbols from the first layer to the fifth layer from the designation of the time position of the scene can be realized by a total of 11 button operations, and the average button operation time and system operation time can be realized. If the average is 1.0 seconds, information input can be completed in a minimum of 11.0 seconds.
In the case of voice input, if the average utterance time and system operation time are 0.5 seconds on average, information input can be completed in a minimum of 5.5 seconds.
In this embodiment, since the certainty is emphasized, the selection is performed after the selection number 46 is specified. However, when priority is given to the editing speed, the selection number 46 is directly specified. If it is configured to move to the next hierarchy, the previous time can be reduced to almost half.
As described above, information centered on characters is simple to operate, does not require special learning, and is intuitively operated, so that it is optimal for the scene in real time for all video content genres. The feature of the present invention using a dictionary that uses impression terms as heading terms is to enable the editing of annotation information of editing terms.

初回芖聎の映像コンテンツに察しおは䟋えばハむラむトシヌンの䜍眮ず第階局たでの印象甚語のみをアノテヌション情報ずしおリアルタむムで付䞎しおおき、次回再生時、線集時に以埌のゞャンル甚語を詳现に登録するこずでもよい。
通垞のチャプタマヌクのように時間䜍眮のみを指定する方法でマヌクを倚甚した堎合、埌でこのマヌクが䜕の意図のマヌクであったかを刀読するこずが難しい。
最䜎この印象甚語を付すだけでも圓該シヌンの意図が理解出来、以降の線集を迅速で効率的にするこずが可胜ずなる。
このような堎合には第階局の印象甚語の遞択完了埌、自動的に通垞芖聎画面に戻るよう蚭定しおおくこずも出来る。
For the first-time viewing video content, for example, only the position of the highlight scene and impression terms 105 up to the second hierarchy are assigned in real time as annotation information, and the subsequent genre terms are registered in detail during the next playback and editing. You may do it.
When a mark is frequently used by a method of specifying only the time position as in the case of a normal chapter mark, it is difficult to determine what the mark was intended later.
At least this impression term 105 can be added to understand the intention of the scene, and subsequent editing can be made quickly and efficiently.
In such a case, it is possible to automatically return to the normal viewing screen after the selection of the impression term 105 in the second hierarchy is completed.

図は五感印象甚語の䟋である。
これたでの説明の喜怒哀楜などの感情や奜き嫌いなどの嗜奜などによるプラス印象、マむナス印象の印象甚語は、党おの映像コンテンツのゞャンルに共通に利甚出来るものであるが、これに曎に芖芚、聎芚、味芚、嗅芚、觊芚の五感に関する圢容系の印象甚語をたずめたものが図であり、第階局のからの印象区分に割り付け登録されおいる。
映像コンテンツに察しおは圓然のこずながら芖芚的印象が最も倚く、これを圢状的印象、空間的印象、明暗色調的印象の぀に区分しお割り付けしおいる。
聎芚的印象では音楜番組にも察応できるよう甚語が登録されおいる。
嗅芚に関しおは味芚ず䞀緒に割り付けグルメや料理番組に察応出来るよう甚語が登録されおいる。
觊芚的印象は、アクション映画等自分が䞻人公になった぀もりで感じる印象甚語が登録されおいる。
FIG. 22 shows examples of five sense impression terms.
The positive impression and negative impression impression terms 105 based on emotions such as emotions and likes and dislikes in the explanation so far, can be used in common with all video content genres. FIG. 22 shows a summary of the adjective impression terms 105 relating to the five senses of hearing, taste, smell, and touch, which are assigned and registered in the impression categories 104 of 5 to 10 in the first hierarchy.
As a matter of course, the video content has the most visual impressions, which are divided into three parts: a shape impression, a spatial impression, and a light and dark tone impression.
In terms of auditory impressions, terms are registered so that music programs can be handled.
Regarding olfaction, terms are registered with the taste so that it can be assigned to gourmet and cooking programs.
As for tactile impressions, impression terms such as action movies that you feel as if you were the main character are registered.

プラス印象、マむナス印象の喜怒哀楜などの感情や奜き嫌いなどの嗜奜などの印象甚語ず、以䞊説明の五感に関する印象甚語ず、曎に必芁によっおは、眠い、疲れた、酔っぱらった、等の五感に含たれない䜓感的な印象甚語ず、を加えるず、映像コンテンツのシヌン画像、シヌン音声による刺激に察する人の反応ずしおのシヌンの印象は完党に満たされたものずなる。
これらの五感、䜓感等の印象甚語に映像コンテンツそれぞれのゞャンルに関係する甚語を圓おはめ、これに関連するゞャンル甚語を適切に登録するこずにより、どのようなシヌンの線集にでも適切な芋出し甚語が遞択可胜ずなる。
しかしながら、䟋えば野球番組の線集で味芚や嗅芚の印象甚語はほずんど利甚されなく、䞀方で料理番組では重芁になる、埓がっお五感や䜓感に関する印象甚語に関しおは必ずしも党おの映像コンテンツのゞャンルに察応させる必芁はなく、スポヌツ番組、料理番組、音楜番組、旅行番組、ドラマ、アクション映画などそのゞャンルに必芁な五感や䜓感に関する印象甚語をゞャンル別に利甚出来るようにすればよい。
たた、五感や䜓感の印象甚語の堎合にはこれ自䜓がそのシヌンから芖た、聎いた、味わった、嗅いだ、觊れた、䜓感した、等の印象の意味を持っおいるので第、階局に必ずしもゞャンル甚語を圓おはめる必芁もない、必芁なゞャンル甚語を適切に関連付けすればよい。
Impression terms such as positive impressions, negative impressions such as emotions and preferences such as likes and dislikes, impression terms related to the five senses described above, and, if necessary, included in the five senses such as sleepy, tired, drunk In addition, the impression of the scene as a human reaction to the stimulus by the scene image and scene sound of the video content is completely satisfied.
By applying the terms related to the genre of each video content to the impression terms 105 such as the five senses and the bodily sensations, and appropriately registering the genre terms 106 related thereto, appropriate heading terms for any scene editing Can be selected.
However, for example, taste and olfactory impression terms are rarely used in editing baseball programs, but on the other hand, they are important in cooking programs. Therefore, impression terms related to the five senses and bodily sensations do not necessarily correspond to all video content genres. Impression terms related to the five senses and bodily sensations necessary for the genre, such as sports programs, cooking programs, music programs, travel programs, dramas, and action movies, may be made available for each genre.
Also, in the case of impression term 105 of the five senses and bodily sensations, since this itself has the meaning of impressions seen from the scene, heard, tasted, smelled, touched, experienced, etc., the third, It is not always necessary to apply the genre terms 106 to the four layers, and the necessary genre terms 106 may be appropriately associated.

図はアノテヌション情報デヌタの䟋である。
これたでの䟋でアノテヌション情報が付䞎されたアノテヌション情報デヌタの䟋であり映像コンテンツのタむトル郚にはゞャンル、番組名、攟送局名、攟送開始時間、終了時間が蚘録されおおり、タむトルの䞋にはアノテヌション情報付䞎者名である線集者の名前が関連情報内に個人別情報ずしお登録されおいる、同䞀のタむトルを別な耇数の利甚者が文字情報等線集するこずも可胜である。
FIG. 23 is an example of annotation information data.
In this example, the annotation information data 37 to which annotation information is added is shown. The title part of the video content includes a genre, a program name, a broadcast station name, a broadcast start time, and an end time. The name of the editor who is the name of the annotation information assigner is registered as the individual information 108 in the related information 36, and the same title can be edited by a plurality of different users with text information and the like. .

以䞊の情報の䞋に攟送開始から攟送終了たでに指定し遞択した、時刻ずそれぞれの階局のアノテヌション情報文字、蚘号等が付䞎されおおり、印象区分ず印象甚語、ゞャンル甚語それぞれの甚語が階局別に遞択されおいる。
これを䞀芧するだけでも、おおよそのシヌンの時間䜍眮ずその内容を克明に理解するこずが出来る。
Under the above information, the time and annotation information (characters, symbols, etc.) of each layer specified and selected from the start of the broadcast to the end of the broadcast are given, and the impression category 104, the impression term 105, and the genre term 106, respectively. Terms are selected by hierarchy.
By just listing this, you can understand the approximate time position of the scene and its contents clearly.

順番はを、退屈・぀たらない、ずしお遞択した内容ずなっおいる、自䜜のビデオの線集などで䞍芁なシヌンも、退屈・぀たらない、を遞択するこずにより遞択するこずが可胜である。
先に説明の通りこのようなシヌンに察しおは、図䞊びに図で瀺した特定シヌンから遞択登録するこずも可胜である。
In order 3, it is possible to select a scene that is not selected for boring / boring, even for scenes that are unnecessary for editing a self-produced video, which is the content selected as boring / boring.
As described above, such a scene can be selectively registered from the specific scenes shown in FIGS.

図は芖聎埌線集の䟋である。
これたでの説明のように、以䞊のアノテヌション情報の付䞎は映像コンテンツを芖聎した結果にもずづくもので厳密な意味でのシヌン䜍眮指定のタむミングは埌ろにずれたものずなる。
埓がっお指定したシヌンより先行するシヌンに時間䜍眮を再蚭定すればよい、この際先行するシヌンにシヌン䜍眮指定を自動修正するこずも可胜である。
FIG. 24 shows an example of editing after viewing.
As described so far, the above annotation information is added based on the result of viewing the video content, and the timing of specifying the scene position in a strict sense is shifted backward.
Accordingly, it is only necessary to reset the time position to the scene preceding the designated scene. At this time, the scene position designation can be automatically corrected to the preceding scene.

この堎合映像コンテンツを芖聎しおいお、開始ずほが同時に時間䜍眮指定が可胜な䟋えばシヌン、数秒かからないず分からない䟋えば投手がボヌルを投げおから満塁ホヌムランずなるたでのシヌン、映画やドラマのハむラむトシヌンなどのように分皋床前からがハむラむトシヌンの導入郚になる堎合など映像コンテンツのゞャンルおよび遞択された甚語をもずに、時間䜍眮の自動詳现調敎をするこずも、範囲で指定するこずも可胜である。 In this case, you can watch the video content and specify the time position almost at the same time as the start, for example, the CM scene, which can only be seen in a few seconds, for example, the scene from the pitcher throwing the ball to the full home run, the movie or drama high Automatic range adjustment can also be specified within the range based on the genre of video content and the selected term, such as when a scene is introduced from about a minute ago, such as a light scene. It is also possible to do.

たた曎に線集効果を高めるためには、隣接する映像の線集点カット点を自動怜出しおこの線集点を時間䜍眮ずするずよい。
これらの線集点カット点の自動怜出はさたざたな文献で玹介されおいる。
たた線集されたアノテヌション甚語が適切であるか、印象の床合い、など映像コンテンツ党䜓を総合的に刀断しお修正するこずも可胜である。
In order to further enhance the editing effect, it is preferable to automatically detect an editing point (cut point) of an adjacent video and set this editing point as a time position.
Automatic detection of these edit points (cut points) has been introduced in various documents.
It is also possible to comprehensively judge and correct the entire video content such as whether the edited annotation term is appropriate or the degree of impression.

以䞊のような芖聎埌に二次線集を斜すこずにより粟床が高く高品䜍なアノテヌション情報デヌタずするこずが出来る。
このアノテヌション情報デヌタの時刻情報を利甚しお、カット、結合、線集はもちろんのこず、映像コンテンツをランダムアクセスしおプレヌリスト䜜成などの線集を自由に行い、映像コンテンツの利甚の幅を拡倧するこずが、本発明の最終目的であり以䞋にその䞀䟋を瀺す。
By performing secondary editing after viewing as described above, the annotation information data 37 with high accuracy and high quality can be obtained.
Using the time information 35 of the annotation information data 37, not only cutting, combining, and editing, but also random access to video contents and free editing such as creating playlists, etc., can be expanded. This is the final object of the present invention, and an example is shown below.

図はデヌタベヌス怜玢の䟋である。
本発明の最倧の特城は印象甚語を芋出し甚語ずしおこれに関連する映像コンテンツのゞャンル特有のゞャンル甚語を遞択し登録する方匏であるため、遞択の甚語が限定され、適切な甚語が遞定可胜である、あいたい怜玢等のような怜玢システムの負担も少ない。
FIG. 25 shows an example of database search.
The greatest feature of the present invention is a method of selecting and registering genre terms specific to the genre of video content related to impression terms as headline terms, so that selection terms are limited and appropriate terms can be selected. The burden of the search system such as fuzzy search is also small.

たた出来あがったアノテヌション情報デヌタは線集者の意図に沿った内容ずなり、利甚者に最適な個人ごずのパヌ゜ナルなものずするこずが出来る。
埓がっお、デヌタベヌス内に耇数の線集者によるアノテヌション情報デヌタがある堎合、アノテヌション情報付䞎者名であるこの個人別情報を遞択するこずにより、遞択した線集者の印象にもずづく怜玢が可胜であり怜玢の意図にそった映像コンテンツのシヌンの怜玢が可胜になる。
The completed annotation information data 37 has contents in line with the editor's intention, and can be personalized for each individual optimum for the user.
Therefore, when there is annotation information data 37 by a plurality of editors in the database, it is possible to perform a search based on the impression of the selected editor by selecting the individual information 108 which is the name of the annotation information assignor. Thus, it is possible to search for a scene of video content that matches the search intention.

たた映像コンテンツのタむトルごずにデヌタベヌス化されたアノテヌション情報デヌタベヌスはさたざたデヌタずしお加工するこずも出来、映像コンテンツのそれぞれのゞャンル、階局ごずの区分、甚語、蚘号などあらゆる条件で怜玢を行い、映像コンテンツの詳现な内容を怜玢するこずが可胜である。 In addition, the annotation information database 34 created as a database for each title of video content can be processed as various data, and the video content can be searched under various conditions such as each genre of video content, classification by hierarchy, term, symbol, etc. It is possible to search the detailed contents of.

図では線集者、映像コンテンツのゞャンル、第階局から第階局たで独立させお怜玢情報を入力し耇数の映像コンテンツの文字情報等付䞎シヌンの䞭から怜玢条件に合臎する映像コンテンツの文字情報等付䞎シヌンずしお怜出する堎合の抂芁を瀺しおいる。
独立させずに党䜓を䞀括しお線集甚語を怜玢させるこずも自由である。
以䞊のような怜玢結果はさたざたな皮類のハむラむトシヌンのプレヌリストに利甚するこずが出来る。
映像コンテンツ党䜓の印象甚語ごず、さらには印象の床合いごず、等のハむラむトダむゞェスト版、等さたざたな怜玢結果にもずづき、映像コンテンツの利甚範囲が拡倧される。
ハむラむトシヌン以倖の、䞍芁のシヌンや芋たくいないシヌンの線集にも有効であるこずは説明する必芁もない。
In FIG. 25, the editor, the genre of the video content, the search information is input independently from the first layer to the fifth layer, and the character of the video content that meets the search condition from the given scene 107 such as character information of a plurality of video content. The outline in the case of detecting the information etc. addition scene 107 is shown.
It is also free to search the edited terms collectively without being independent.
The above search results can be used for playlists of various types of highlight scenes.
The range of use of the video content is expanded on the basis of various search results such as the highlight digest version of each impression term of the entire video content, and also the degree of impression.
There is no need to explain that it is also effective for editing unnecessary scenes and scenes that you do not want to see other than highlight scenes.

本発明の展開方法ずしお図に瀺すように線集甚語蟞曞はむンタヌネット回線で最新デヌタを曎新するこずや、個別番組ごずのデヌタを番組開始前にデヌタ配信、たたはダりンロヌドするこずが考えられる。 As an expansion method 1 of the present invention, as shown in FIG. 1, the editing term dictionary 19 can update the latest data via the Internet line, or distribute or download data for each individual program before the program starts.

本発明の展開方法ずしお攟送番組のデヌタの階局構造を線集甚語蟞曞ず盎接連携出来る構造ずするこずが出来れば装眮構成が簡玠化され、曎に掻甚の範囲が拡倧される。 If the hierarchical structure of the EPG data of the broadcast program can be directly linked with the editing term dictionary 19 as the expansion method 2 of the present invention, the apparatus configuration is simplified and the range of utilization is further expanded.

これたでの説明を敎理するず、システム開発偎は、
蟞曞構成は、党おの映像コンテンツのゞャンルに共通にハむラむトシヌンを含むさたざたな線集シヌンに利甚出来る印象を衚す圢容系の甚語印象甚語を芋出し甚語にしお、この芋出し甚語に関連するゞャンル甚語を映像コンテンツのゞャンル別に登録するこずが出来るので、蟞曞の甚語はゞャンル別に限定的なものずなり、蟞曞構築の負担が少なく、ゞャンル甚語の利甚床に応じ远加、削陀も自由である。
To summarize the explanation so far, the system development side,
The dictionary structure uses common terms (impression terms) representing impressions that can be used in various editing scenes including highlight scenes as common to all video content genres, and genre terms related to this heading term. Can be registered by genre of video content, dictionary terms are limited by genre, the burden of dictionary construction is small, and additions and deletions are free according to the usage of genre terms.

映像コンテンツのゞャンルをデヌタのゞャンルを甚いるこずが出来るので蟞曞構成の暙準化がしやすい、たたデヌタにより番組ごずの甚語を持たすこずも可胜ずなる、蟞曞デヌタはむンタヌネット等の通信回線からダりンロヌドさせるこずが出来るため最新版の曎新も自由である。 The genre of EPG data can be used as the genre of video content, so it is easy to standardize the dictionary structure, and it is also possible to have terms for each program using EPG data. The dictionary data is downloaded from a communication line such as the Internet. It is possible to update the latest version.

蟞曞ずしお䜿甚される甚語が限定的ずなるこずにより、完成したアノテヌション情報デヌタの怜玢の際には、あいたい怜玢などの必芁もなく、装眮負担をかけるこずなく適確で効率的な怜玢をするこずが出来る。 Because the terms used as dictionaries are limited, when searching for completed annotation information data, there is no need for fuzzy searches, etc., and an accurate and efficient search without burdening the equipment I can do it.

垂堎に広く流通しおいるボタン匏のリモコンのボタン機胜をそのたた利甚出来るので装眮ハヌド開発が容易である。 Device hardware development is easy because the button function of the button-type remote control widely distributed in the market can be used as it is.

音声操䜜における音声認識も最倧の信号情報ずしおの音声を認識するこずでアノテヌション情報デヌタを䜜成するこずが出来るので、音声認識に぀いおも装眮負担が少ない。 Since voice information in voice operation can also generate annotation information data by recognizing voice as a maximum of 30 signal information, the apparatus burden is also low for voice recognition.

䞀方本発明のシステム利甚者偎におけるメリットずしお、
芖聎環境に圱響しない䜿い慣れたボタン匏のリモコンのボタン機胜をそのたた利甚しお、印象を衚す甚語を芋出し甚語ずしお文字情報等が入力出来るので操䜜の違和感がなく、党おの映像コンテンツのゞャンルを察象ずしおだれでも簡単に攟送に远埓しおリアルタむムでの利甚ができる。
On the other hand, as a merit on the system user side of the present invention,
By using the button functions of the familiar button-type remote control that does not affect the viewing environment as it is, you can enter text information etc. as a headline term that represents the impression, so there is no sense of incongruity in operation, and it targets all video content genres Anyone can follow the broadcast easily and use it in real time.

芖聎環境によっおマむクロフォンを接続し音声認識で文字情報等を入力するこずも可胜で、最倧皋床の発声により行われるので特別の習熟の必芁もなく誀認識も少ない。 It is also possible to connect a microphone depending on the viewing environment and input character information etc. by voice recognition. Since it is performed with a maximum of about 30 utterances, there is no need for special learning and there are few false recognitions.

芖聎時に感じた印象をもず操䜜するこずにより適切な線集のための甚語が案内されるので、誰でも最適なにアノテヌション情報を䜜成出来るずずもに、個人個人思い思いのプラむベヌトアノテヌション情報デヌタずするこずが出来るずずもに印象の床合いも簡単に登録出来るので、怜玢においおも個人個人の印象の皮類やその床合いをもずに最適な怜玢が可胜になる。 By operating based on the impression felt during viewing, the terms for appropriate editing are guided, so anyone can create annotation information optimally and can create private annotation information data that is personally personalized. At the same time, the degree of impression can be easily registered, so that an optimum search can be performed based on the type and degree of impression of an individual person.

芖聎時に付䞎したシヌンのアノテヌション情報を怜玢しお、圓該シヌンをダむレクトにランダムアクセスし耇数の映像コンテンツの䞭からお奜みのシヌンのみを連続しおダむゞェストで再生させるような応甚が可胜ずなる。 It is possible to search for annotation information of a scene given at the time of viewing, directly access the scene in a random manner, and continuously reproduce only a favorite scene from a plurality of video contents by digest.

タむムシフト远いかけ再生手段を䜿うこずにより、映像コンテンツの途䞭シヌンの芋逃しをなくすこずも出来る。 By using the time shift (chase playback) means, it is possible to eliminate missing scenes in the middle of the video content.

新しい情報などの甚語はゞャンル別たたは個別番組別に攟送デヌタや通信回線でダりンロヌドするこずにより圓該映像コンテンツに最適で、最新甚語によるアノテヌション情報を䜜成するこずが出来る。 Terminology such as new information is optimal for the video content by downloading it by broadcast data or communication line by genre or individual program, and annotation information by the latest term can be created.

以䞊の説明のように本発明は、特別な装眮、郚品、組立技術を甚いるこずなく、珟圚垂堎に広く流通しおいる、装眮、郚品、組立お、の技術で実珟可胜なアノテヌション情報付䞎システムであり、家庭甚汎甚録画装眮、ビデオカメラ、線集装眮はもずより専門映像装眮等に広く利甚するこずが出来る。 As described above, the present invention is an annotation information providing system that can be realized with the technology of devices, parts, and assemblies that are currently widely distributed in the market without using special devices, components, and assembly techniques. It can be widely used not only for home general-purpose recording devices, video cameras and editing devices but also for professional video devices.

 映像装眮
 ナヌザヌむンタヌフェヌス装眮
 リモコン
 マむクロフォン
 リモコン送信信号
 マむクロフォン音声信号
 映像信号
 グラフィックナヌザヌむンタヌフェヌス衚瀺信号
 メむンディスプレヌ
 サブディスプレヌ
 郚
 制埡郚
 衚瀺郚
 映像コンテンツの録画、再生、衚瀺郚
 受信信号
 蟞曞登録郚
 蟞曞甚語ダりンロヌド郚
 蟞曞甚語キヌボヌド入力郚
 線集甚語蟞曞
 蟞曞甚語遞択郚
 リモコン信号受信郚
 装眮情報認識郚
 ゞャンル遞択郚
 音声認識郚
 アノテヌション情報䜜成郚
 むンタヌネット通信信号
 キヌボヌド信号
 蟞曞デヌタ
 遞択された甚語
 アノテヌション情報デヌタ怜玢郚
 映像コンテンツ蚘憶郚たたは搭茉された映像コンテンツ
 タむトル
 映像コンテンツ
 アノテヌション情報デヌタベヌス
 時刻情報
 関連情報
 アノテヌション情報デヌタ
 ディスプレヌ遞択スむッチ
 アンテナ入力
 倖郚映像入力
 チャンネルボタン
 カラヌボタン
 チャプタボタン
 遞択番号
 遞択項目
 ファンクション内容
 カヌ゜ルボタン
 カヌ゜ル
 リモコン操䜜
 音声操䜜
 ゞャンル
 ゞャンル区分
 階局
 印象区分
 印象甚語
 ゞャンル甚語
 文字情報等付䞎シヌン
 個人別情報
1 Video device 2 UI (user interface) device 3 Remote control 4 Microphone 5 Remote control transmission signal 6 Microphone audio signal 7 Video signal 8 GUI (graphic user interface) display signal 9 Main display 10 Sub display 11 GUI unit 12 GUI control unit 13 GUI display Unit 14 video content recording / playback / display unit 15 UI reception signal 16 dictionary registration unit 17 dictionary term download unit 18 dictionary term keyboard input unit 19 editing term dictionary 20 dictionary term selection unit 21 remote control signal reception unit 22 UI device information recognition unit 23 Genre selection unit 24 Voice recognition unit 25 Annotation information creation unit 26 Internet communication signal 27 Keyboard signal 28 Dictionary data 29 Selected term 30 Annotation information data search unit 31 Content storage (or video content installed)
32 Title 33 Video content 34 Annotation information database 35 Time information 36 Related information 37 Annotation information data 40 Display selection switch 41 Antenna input 42 External video input 43 Channel button 44 Color button 45 Chapter button 46 Selection number 47 Selection item 48 Function content 49 Cursor Button 50 Cursor 51 Remote control operation 52 Voice operation 101 Genre 102 Genre category 103 Hierarchy 104 Impression category 105 Impression term 106 Genre term 107 Character information etc. addition scene 108 Individual information

Claims (12)

映像装眮ず、このナヌザヌむンタヌフェヌス装眮ず、で構成される自䜜ビデオを含む映像コンテンツの任意のシヌンにアノテヌション情報を付䞎するためのシステムであっお、
䞊蚘映像装眮は、
映像コンテンツの党おのゞャンルのシヌンに共通なシヌンを芖聎した印象を衚す甚語である印象甚語の芋出し甚語ず、映像コンテンツのゞャンル特有の甚語であるゞャンル甚語ず、を映像コンテンツのゞャンル別および階局別に関連付けし構成される線集甚語蟞曞ず、
䞊蚘ナヌザヌむンタヌフェヌス装眮は、
映像コンテンツの芖聎開始より順次アノテヌション情報を付䞎するシヌン䜍眮を指定し、この指定したシヌンに察しお䞊蚘線集甚語蟞曞の䞊蚘芋出し甚語ず䞊蚘ゞャンル甚語ずを順次遞択し、以䞊の指定および遞択した信号情報を映像装眮に送信する手段を備え、
曎に䞊蚘映像装眮は、
ナヌザヌむンタヌフェヌスより受信した信号情報にもずづき線集甚語蟞曞によるアノテヌション情報デヌタを䜜成するアノテヌション情報䜜成郚ず、
を具備するこずを特城ずする映像コンテンツのアノテヌション情報付䞎システム。
A system for adding annotation information to an arbitrary scene of video content including a self-made video composed of a video device and the user interface device,
The video device
The heading term of impression terms, which is a term that expresses the impression of viewing a scene common to scenes of all genres of video content, and the genre terms, which are terms specific to the genre of video content, are classified by genre and hierarchy of video content. An associated editorial dictionary of terms,
The user interface device is
The scene position to which annotation information is added sequentially from the start of viewing video content is specified, the heading term and the genre term in the editing term dictionary are sequentially selected for the specified scene, and the above designation and selected signal Means for transmitting information to the video device;
Furthermore, the video device
An annotation information creation unit that creates annotation information data based on an edited term dictionary based on signal information received from the user interface;
An annotation information adding system for video content, comprising:
前蚘線集甚語蟞曞の前蚘芋出し甚語ならびに前蚘ゞャンル甚語はグルヌプ最倧の甚語ずするよう構成されるこずを特城ずする請求項のアノテヌション情報付䞎システム。 2. The annotation information adding system according to claim 1, wherein the heading terms and the genre terms in the editing term dictionary are configured to have a maximum of 12 terms per group. 前蚘線集甚語蟞曞にはシヌンの印象の床合いの情報が登録され、この印象の床合いを遞択しアノテヌション情報ずするこずを特城ずする請求項蚘茉の映像コンテンツのアノテヌション情報付䞎システム。   2. The video content annotation information adding system according to claim 1, wherein information on the degree of impression of a scene is registered in the editing term dictionary, and the degree of impression is selected and used as annotation information. 前蚘映像装眮はリモコン信号受信郚を備え、
前蚘ナヌザヌむンタヌフェヌス装眮は少なくおも個の操䜜ボタンを具備するリモコンであり、前蚘指定および遞択する信号情報はリモコン送信信号であっお、
このリモコンボタンを操䜜するこずにより、前蚘シヌン䜍眮を指定し、前蚘線集甚語蟞曞の前蚘芋出し甚語ならびに前蚘ゞャンル甚語を遞択し、
映像装眮は䞊蚘リモコン信号受信郚でこの信号情報を受信し、アノテヌション情報䜜成郚で前蚘線集甚語蟞曞の甚語による前蚘アノテヌション情報デヌタを䜜成するこずを特城ずする請求項蚘茉の映像コンテンツのアノテヌション情報付䞎システム。
The video device includes a remote control signal receiver,
The user interface device is a remote controller having at least 20 operation buttons, and the signal information to be specified and selected is a remote control transmission signal,
By operating this remote control button, specify the scene position, select the heading term and the genre term in the editing term dictionary,
2. The video content annotation information according to claim 1, wherein the video device receives the signal information at the remote control signal reception unit, and the annotation information creation unit creates the annotation information data based on the terms in the editing term dictionary. Grant system.
前蚘映像装眮は音声認識郚を備え、
前蚘ナヌザヌむンタヌフェヌス装眮は音声甚マむクロフォンであり、前蚘指定および遞択する信号情報はマむクロフォン音声信号であっお、
このマむクロフォンに倚くずも皮以内の音声を発するこずにより、前蚘シヌン䜍眮を指定し、前蚘線集甚語蟞曞の前蚘芋出し甚語ならびに前蚘ゞャンル甚語を遞択し、
映像装眮は䞊蚘音声認識郚でマむクロフォン音声信号を信号情報ずしお認識し、アノテヌション情報䜜成郚で前蚘線集甚語蟞曞の甚語による前蚘アノテヌション情報デヌタを䜜成するこずを特城ずする請求項蚘茉の映像コンテンツのアノテヌション情報付䞎システム。
The video device includes a voice recognition unit,
The user interface device is a voice microphone, and the signal information to be specified and selected is a microphone voice signal,
By emitting at most 30 kinds of sounds to this microphone, the scene position is designated, the heading terms in the editing term dictionary and the genre terms are selected,
2. The video content according to claim 1, wherein the audio recognition unit recognizes a microphone audio signal as signal information in the audio recognition unit, and the annotation information generation unit generates the annotation information data based on terms in the editing term dictionary. Annotation information assignment system.
前蚘映像装眮は映像コンテンツのゞャンルを゚レクトロニクス プログラム ガむドゞャンルからゞャンルを自動遞択するゞャンル遞択手段を具備するこずを特城ずする請求項蚘茉の映像コンテンツのアノテヌション情報付䞎システム。   2. The video content annotation information adding system according to claim 1, wherein the video device comprises genre selection means for automatically selecting a genre of video content from an EPG (Electronic Program Guide) genre. 前蚘映像装眮はタむムシフト再生远いかけ再生手段を具備し、アノテヌション情報の線集䞭、䞀時停止するこずを特城ずする請求項蚘茉の映像コンテンツのアノテヌション情報付䞎システム。 2. The video content annotation information adding system according to claim 1, wherein the video device includes time shift playback (chasing playback) means, and pauses during editing of the annotation information. 前蚘アノテヌション情報に、アノテヌション情報付䞎者名を登録するこずを特城ずする請求項蚘茉の映像コンテンツのアノテヌション情報付䞎システム。   2. The video content annotation information adding system according to claim 1, wherein an annotation information assignor name is registered in the annotation information. 前蚘映像装眮は、線集甚語蟞曞を通信回線よりダりンロヌドする蟞曞ダりンロヌド郚ず、甚語登録のための倖郚キヌボヌドのためのキヌボヌド入力郚ず、
を曎に具備するこず特城ずする請求項蚘茉の映像コンテンツのアノテヌション情報付䞎システム。
The video device includes a dictionary download unit for downloading an edited term dictionary from a communication line, a keyboard input unit for an external keyboard for term registration,
The system for adding annotation information of video content according to claim 1, further comprising:
前蚘映像装眮は、前蚘デヌタたたはむンタヌネットよりのダりンロヌドデヌタのいずれかによっお個別番組ごずの線集甚語蟞曞ずするこずを特城ずする請求項蚘茉の映像コンテンツのアノテヌション情報付䞎システム。 2. The video content annotation information adding system according to claim 1, wherein the video device uses an edit term dictionary for each individual program based on either the EPG data or data downloaded from the Internet. 映像コンテンツの党おのゞャンルに共通な芋出し甚語ず、
映像コンテンツのゞャンル特有の甚語であるゞャンル甚語ず、
を映像コンテンツのゞャンル別および階局別に関連付けし構成される線集甚語蟞曞より甚語を遞択しおアノテヌション情報デヌタを䜜成するこずを特城ずする映像コンテンツのアノテヌション情報付䞎方法。
Headline terms common to all genres of video content,
Genre terms, which are terms specific to the genre of video content,
An annotation information adding method for video content, characterized in that an annotation information data is created by selecting a term from an editing term dictionary configured by associating a video content with each genre and hierarchy.
前蚘党おのゞャンルに共通な芋出し甚語はシヌンを芖聎した印象を衚す甚語であるこずを特城ずする請求項蚘茉の映像コンテンツのアノテヌション情報付䞎方法。 12. The method for adding annotation information of video content according to claim 11, wherein the headline term common to all the genres is a term representing an impression of viewing a scene.
JP2009171668A 2009-07-23 2009-07-23 System and method for providing annotation information of video content Pending JP2011029795A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009171668A JP2011029795A (en) 2009-07-23 2009-07-23 System and method for providing annotation information of video content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009171668A JP2011029795A (en) 2009-07-23 2009-07-23 System and method for providing annotation information of video content

Publications (1)

Publication Number Publication Date
JP2011029795A true JP2011029795A (en) 2011-02-10

Family

ID=43638061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009171668A Pending JP2011029795A (en) 2009-07-23 2009-07-23 System and method for providing annotation information of video content

Country Status (1)

Country Link
JP (1) JP2011029795A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019021088A1 (en) * 2017-07-24 2019-01-31 International Business Machines Corporation Navigating video scenes using cognitive insights
WO2021039129A1 (en) * 2019-08-29 2021-03-04 ゜ニヌ株匏䌚瀟 Information processing device, information processing method, and program
JP7697467B2 (en) 2020-07-15 2025-06-24 ゜ニヌグルヌプ株匏䌚瀟 Information processing device, information processing method, and program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019021088A1 (en) * 2017-07-24 2019-01-31 International Business Machines Corporation Navigating video scenes using cognitive insights
US10970334B2 (en) 2017-07-24 2021-04-06 International Business Machines Corporation Navigating video scenes using cognitive insights
WO2021039129A1 (en) * 2019-08-29 2021-03-04 ゜ニヌ株匏䌚瀟 Information processing device, information processing method, and program
US20220283700A1 (en) * 2019-08-29 2022-09-08 Sony Group Corporation Information processing device, information processing method, and program
JP7605113B2 (en) 2019-08-29 2024-12-24 ゜ニヌグルヌプ株匏䌚瀟 Information processing device, information processing method, and program
JP7697467B2 (en) 2020-07-15 2025-06-24 ゜ニヌグルヌプ株匏䌚瀟 Information processing device, information processing method, and program

Similar Documents

Publication Publication Date Title
JP7601938B2 (en) Intelligent Automated Assistants in the Media Environment
KR102581116B1 (en) Methods and systems for recommending content in the context of a conversation
US11860915B2 (en) Systems and methods for automatic program recommendations based on user interactions
KR102038809B1 (en) Intelligent automated assistant for media search and playback
US10659851B2 (en) Real-time digital assistant knowledge updates
JP2024056690A (en) Intelligent Automated Assistant for TV User Interaction - Patent application
JP4650552B2 (en) Electronic device, content recommendation method and program
KR20230130761A (en) Systems and methods for performing asr in the presence of heterograph
US12300274B2 (en) Content system with user-input based video content generation feature
JP2011029795A (en) System and method for providing annotation information of video content
JP2010250310A (en) Karaoke system, and method and program for controlling the same
JP2013003685A (en) Information processing device, information processing method and program
JP5350306B2 (en) Karaoke music selection device, method for controlling karaoke music selection device, control program for karaoke music selection device, and information recording medium thereof
JP5838937B2 (en) Data processing apparatus and data processing method
JP2013003684A (en) Information processing device, information processing system, information processing method and program
JP2006245970A (en) Digital broadcasting receiver