JP6857983B2 - Metadata generation system - Google Patents
Metadata generation system Download PDFInfo
- Publication number
- JP6857983B2 JP6857983B2 JP2016165100A JP2016165100A JP6857983B2 JP 6857983 B2 JP6857983 B2 JP 6857983B2 JP 2016165100 A JP2016165100 A JP 2016165100A JP 2016165100 A JP2016165100 A JP 2016165100A JP 6857983 B2 JP6857983 B2 JP 6857983B2
- Authority
- JP
- Japan
- Prior art keywords
- character information
- information
- video
- voice
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010191 image analysis Methods 0.000 claims description 97
- 238000004458 analytical method Methods 0.000 claims description 80
- 230000008921 facial expression Effects 0.000 claims description 71
- 238000000605 extraction Methods 0.000 claims description 70
- 239000000284 extract Substances 0.000 claims description 19
- 239000002131 composite material Substances 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本発明は、メタデータを生成するシステムに関し、特にテレビ放送番組又はインターネット配信動画に関するメタデータを生成するシステムに関するものである。 The present invention relates to a system that generates metadata, and more particularly to a system that generates metadata related to a television broadcast program or an Internet-distributed moving image.
従来より、テレビ放送番組又はインターネット配信動画に関するメタデータの重要性が高まってきている。メタデータとは、あるデータそのものではなく、そのデータに関連する情報のことである。データの作成日時や作成者、データ形式、タイトル、注釈などが考えられる。データを効率的に管理したり検索したりするために重要な情報である。
例えば、本件特許出願人は、過去において、テレビ放送局が放送するテレビ放送番組を録画する録画手段と、前記録画手段により録画された映像に対応させ番組内容を要約したメタデータを格納するメタデータ格納手段と、画面上に前記メタデータを表示させること
ができるディスプレイ手段とを備え、ユーザーが画面上に表示されたメタデータを視認して適宜選択することにより、当該メタデータに対応する映像を画面上に表示させて視認できるように構成された映像システムに関する発明を出願して特許を取得している(特許文献1)。
Traditionally, the importance of metadata related to television broadcast programs or Internet-distributed videos has increased. Metadata is not the data itself, but the information associated with that data. The date and time when the data was created, the creator, the data format, the title, the annotation, etc. can be considered. This is important information for efficient management and retrieval of data.
For example, the patent applicant has in the past a recording means for recording a TV broadcast program broadcast by a TV broadcasting station, and metadata for storing metadata summarizing the program contents corresponding to the video recorded by the recording means. A storage means and a display means capable of displaying the metadata on the screen are provided, and the user visually recognizes the metadata displayed on the screen and appropriately selects the metadata to obtain an image corresponding to the metadata. We have applied for and obtained a patent for an invention relating to a video system configured to be displayed on a screen so that it can be visually recognized (Patent Document 1).
しかしながら、テレビ放送番組に関するメタデータは、人間の手によって作成されることが一般的であり、時間とコストとがかかっていた。また、一度作成されたメタデータは、当該番組に限って利用されることが一般的であるため、同じような情報を繰り返し利用することも難しく、効率も良くないという不具合があった。
前記事情は、テレビ放送番組に限らず、急速に実用化が進んだインターネット配信動画に関しても存在するため、インターネット配信動画に関するメタデータについても同様の不具合があった。
However, metadata about television broadcast programs is generally created by humans, which is time consuming and costly. Further, since the metadata once created is generally used only for the program, it is difficult to repeatedly use the same information, and there is a problem that the efficiency is not good.
Since the above situation exists not only for TV broadcast programs but also for Internet-distributed videos that have been rapidly put into practical use, there is a similar problem with metadata related to Internet-distributed videos.
本発明は、以上のような従来の不具合を解決するためのものであって、その課題は、テレビ放送番組又はインターネット配信動画に関するメタデータを短時間で作成し、人的コストを削減することができるシステムを提供することにある。 The present invention is for solving the above-mentioned conventional problems, and the problem is to create metadata about a television broadcast program or an Internet-distributed video in a short time and reduce human costs. It is to provide a system that can do it.
前記課題を解決するために、請求項1に記載の発明にあっては、映像を録画する録画ファイルを有する録画手段と、前記録画ファイルに録画された映像に表示された文字情報を取得する文字情報取得手段と、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する文字情報文章化手段と、前記文字情報文章化手段によって文章化された前記文字情報を前記録画ファイルに録画された映像のメタデータとしてメタデータ格納ファイルに格納するメタデータ格納手段とを備え、 前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、
前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とを照合し、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情を文字情報として抽出する映像認識情報抽出手段と、
前記録画ファイルに録画された映像と共に録音された音声に対して音声解析を行い、前記音声から文字情報を抽出する音声情報抽出手段と、 前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報を互いに照合する複合情報照合手段とを有することを特徴とする。
In order to solve the above problem, in the invention according to claim 1, a recording means having a recording file for recording an image and a character for acquiring character information displayed on the image recorded in the recording file. The information acquisition means, the character information writing means for aggregating and writing the character information acquired by the character information acquisition means, and the character information written by the character information writing means in the recording file. It is provided with a metadata storage means for storing the metadata of the recorded video in a metadata storage file, and the character information acquisition means performs image analysis on the video recorded in the recording file and characters from the video. Character information extraction means for extracting information and
The person, logo, belongings of the person or the facial expression of the person included in the video are collated with the person information, logo information, physical information or facial expression information, and the person, logo, belongings of the person or the facial expression information included in the video are collated. A video recognition information extraction means that extracts the facial expression of the person as character information,
A voice information extraction means that performs voice analysis on the voice recorded together with the video recorded in the recording file and extracts character information from the voice, the character information extraction means, the video recognition information extraction means, and Each of the voice information extracting means has a compound information collating means for collating the extracted character information with each other.
ここで、文字情報とは、映像に表示され、映像に関連する単語、文章の情報であって、例えば、映像に表示されたテロップの文字列を含む概念である。
従って、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報取得手段によって、前記録画ファイルに録画された前記映像に表示された文字情報が取得され、前記文字情報文章化手段によって、取得された前記文字情報が文章化され、前記メタデータ格納手段によって、文章化された前記文字情報が前記映像のメタデータとして前記メタデータ格納ファイルに格納される。
また、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出され、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記複合情報照合手段によって、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報が互いに照合される。
Here, the character information is information on words and sentences displayed on the video and related to the video, and is a concept including, for example, a character string of the telop displayed on the video.
Therefore, when an image is recorded in the recorded file by the recording means, the character information displayed in the image recorded in the recording file is acquired by the character information acquisition means, and the character information text is obtained. The acquired character information is documented by the conversion means, and the documented character information is stored in the metadata storage file as metadata of the video by the metadata storage means.
When a video is recorded in the recorded file by the recording means, the text information extraction means extracts the text information from the video by image-analyzing the video recorded in the recording file. Then, the image recognition information extraction means collates the person, logo, belongings of the person or the facial expression of the person with the person information, logo information, object information or facial expression information included in the image, and includes the person, the logo information, the object information or the facial expression information. The person, logo, belongings of the person, or facial expression of the person are extracted as character information, and the voice recorded together with the video recorded in the recording file is voice-analyzed by the voice information extraction means. Character information is extracted from the voice, and the extracted character information is collated with each other by the compound information collating means, the character information extracting means, the video recognition information extracting means, and the voice information extracting means, respectively. ..
請求項2に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段によって抽出された前記文字情報を辞書ファイルと照合する辞書照合手段とを有することを特徴とする。
ここで、辞書ファイルには、各国の言語に関する文字、熟語を有する辞書データが照合可能に含まれている。
従って、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。
In the invention according to claim 2, the character information acquisition means includes a character information extraction means that performs image analysis on a video recorded in the recording file and extracts character information from the video, and the character information extraction means. It is characterized by having a dictionary collating means for collating the character information extracted by the character information extracting means with a dictionary file.
Here, the dictionary file includes dictionary data having characters and idioms related to each country's language so that they can be collated.
Therefore, the character information is extracted from the video by image-analyzing the video recorded in the recording file by the character information extracting means, and the character information extracted by the dictionary collating means is the dictionary file. Is matched with.
請求項3に記載に発明にあっては、前記文字情報抽出手段は、画像解析済みの映像と、
前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合して画像解析する画像解析手段を有することを特徴とする。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
従って、前記画像解析手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合されることにより、画像解析される。
In the invention described in claim 3, the character information extraction means includes an image that has been image-analyzed and an image.
It is characterized by having an image analysis means for collating with an image analysis storage file having character information extracted from the image-analyzed video and performing image analysis.
Here, the image-analyzed video means the video that has been image-analyzed so far, and the character information extracted from the image-analyzed video is correctly extracted from the video as a result of the image analysis. Means character information.
Therefore, the image analysis means collates the image recorded in the recorded file with the image analysis storage file having the image-analyzed image and the character information extracted from the image-analyzed image. Is image-analyzed.
請求項4に記載の発明にあっては、前記文字情報抽出手段は、前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて、前記画像解析蓄積ファイルを修正する画像解析学習手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記画像解析学習手段によって、前記画像解析蓄積ファイルが前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。
In the invention according to claim 4, the character information extracting means obtains the image analysis storage file based on the image analyzed by the image analysis means and the character information extracted from the image. It is characterized by further having an image analysis learning means for modifying.
Here, modification is a concept including addition and deletion.
Therefore, the image analysis learning means modifies the image analysis storage file based on the image analyzed by the image analysis means and the character information extracted from the image.
請求項5に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段によって抽出された前記文字情報をインターネットにより検索し取得された情報と照合するインターネット照合手段とを有することを特徴とする。
ここで、インターネットにより検索し取得された情報とは、大手新聞社、地方新聞社、ニュース配信会社、テレビ会社等のサイト、ニュース専門サイト、ニュースまとめサイト、その他一般のウェブサイトから取得される情報や、オンライン辞書等から取得される用語解説に関する情報を含む概念である。
従って、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記インターネット照合手段によって、抽出された前記文字情報がインターネットにより検索され取得された情報と照合される。
In the invention according to
Here, the information obtained by searching on the Internet is information obtained from sites such as major newspapers, local newspapers, news distribution companies, TV companies, news specialized sites, news summary sites, and other general websites. It is a concept that includes information on glossary obtained from online dictionaries and the like.
Therefore, the character information is extracted from the video by image analysis of the video recorded in the recording file by the character information extracting means, and the character information extracted by the Internet collation means is searched by the Internet. It is collated with the acquired information.
請求項6に記載の発明にあっては、前記文字情報取得手段は、前記文字情報抽出手段によって抽出された文字情報に基づいて、前記辞書ファイルを修正する辞書更新手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記辞書更新手段によって、前記辞書ファイルが前記文字情報抽出手段によって抽出された前記文字情報に基づいて修正される。
The invention according to claim 6 is characterized in that the character information acquisition means further includes a dictionary update means for modifying the dictionary file based on the character information extracted by the character information extraction means. To do.
Here, modification is a concept including addition and deletion.
Therefore, the dictionary updating means modifies the dictionary file based on the character information extracted by the character information extracting means.
請求項7に記載の発明にあっては、前記辞書ファイルは、辞書データと、前記辞書データの頻度パラメータとを有し、前記辞書照合手段は、前記頻度パラメータの大きい辞書データを照合対象として優先的に選択することを特徴とする。
ここで、頻度パラメータとは、辞書データに含まれる単語、熟語等が映像にどのような頻度で表示されているかを表すパラメータである。具体的には、前記辞書照合手段が、前記文字情報抽出手段によって映像から抽出された文字情報を辞書ファイルと照合する毎に前記頻度パラメータを更新する。
従って、前記辞書照合手段によって、前記頻度パラメータの大きい前記辞書データが照合対象として優先的に選択され、選択された前記辞書データと、前記文字情報抽出手段によって抽出された前記文字情報とが照合される。
In the invention according to claim 7, the dictionary file has dictionary data and a frequency parameter of the dictionary data, and the dictionary collating means gives priority to dictionary data having a large frequency parameter as a collation target. It is characterized by selecting the target.
Here, the frequency parameter is a parameter indicating how often words, idioms, etc. included in the dictionary data are displayed in the video. Specifically, the frequency parameter is updated every time the dictionary collating means collates the character information extracted from the video by the character information extracting means with the dictionary file.
Therefore, the dictionary collating means preferentially selects the dictionary data having a large frequency parameter as a collation target, and the selected dictionary data is collated with the character information extracted by the character information extracting means. To.
請求項8に記載の発明にあっては、前記文字情報文章化手段は、前記メタデータ格納ファイルを参照し、前記文字情報取得手段によって取得された前記文字情報に関連するメタ
データを前記文字情報の文章化に利用することを特徴とする。
従って、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記メタデータ格納ファイルを参照して、前記文字情報に関連する作成済のメタデータを前記文字情報の文章化に利用することができる。
In the invention according to claim 8, the character information writing means refers to the metadata storage file, and the metadata related to the character information acquired by the character information acquisition means is used as the character information. It is characterized by being used for writing.
Therefore, when the character information documenting means aggregates and documents the character information acquired by the character information acquisition means, the character information documenting means has been created in relation to the character information by referring to the metadata storage file. The metadata of the above can be used for writing the character information.
請求項9に記載の発明にあっては、前記文字情報文章化手段は、前記録画ファイルに録画された映像の電子番組表データを取得し、前記文字情報の文章化に利用することを特徴とする。
ここで、電子番組表データとは、テレビ放送局が放送する放送番組映像やインターネットによって配信される動画映像の放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれたデータである。
従って、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記映像の電子番組表データを取得して、前記文字情報の文章化に利用することができる。
The invention according to claim 9 is characterized in that the character information writing means acquires electronic program guide data of a video recorded in the recording file and uses it for writing the character information. To do.
Here, the electronic program guide data is data including information such as the broadcast date / time, distribution date / time, genre, title, performer, etc. of the broadcast program video broadcast by the television broadcasting station or the video video distributed via the Internet. ..
Therefore, when the character information documenting means aggregates and documents the character information acquired by the character information acquisition means, the character information documenting means acquires the electronic program guide data of the video and documents the character information. Can be used for.
請求項10に記載の発明にあっては、前記文字情報取得手段は、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とを照合し、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情を文字情報として抽出する映像認識情報抽出手段を有することを特徴とする。
従って、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出される。
In the invention according to
Therefore, the image recognition information extracting means collates the person, logo, belongings of the person, or the facial expression of the person with the person information, logo information, object information, or facial expression information, and includes the person, logo, object information, or facial expression information. The person, the logo, the belongings of the person, or the facial expression of the person are extracted as character information.
請求項11に記載に発明にあっては、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とにより構成されていることを特徴とする。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
従って、前記映像認識情報抽出手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報と照合されることにより、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出される。
In the invention according to claim 11, the person information, the logo information, the object information, or the facial expression information is based on an image-analyzed image and character information extracted from the image-analyzed image. It is characterized by being configured.
Here, the image-analyzed video means the video that has been image-analyzed so far, and the character information extracted from the image-analyzed video is correctly extracted from the video as a result of the image analysis. Means character information.
Therefore, the person information and the logo information in which the video recorded in the recording file by the video recognition information extracting means has an image-analyzed video and character information extracted from the image-analyzed video. By collating with the object information or the facial expression information, the person, the logo, the possession of the person, or the facial expression of the person included in the video is extracted as character information.
請求項12に記載の発明にあっては、前記文字情報取得手段は、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を修正する映像認識学習手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記映像認識学習手段によって、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報が、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。
In the invention according to
Here, modification is a concept including addition and deletion.
Therefore, the image recognition learning means has image-analyzed the person information, the logo information, the object information, or the facial expression information by the image recognition information extraction means, and the character information extracted from the image. It will be corrected based on.
請求項13に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像と共に録音された音声に対して音声解析を行い、前記音声から文字情報を抽出する音声情報抽出手段と、前記音声情報抽出手段によって抽出された前記文字情報を辞書ファイルと照合する辞書照合手段とを有することを特徴とする。
従って、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共
に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。
In the invention according to
Therefore, the voice information extraction means extracts character information from the voice by voice analysis of the voice recorded together with the video recorded in the recording file, and the extracted voice is extracted by the dictionary collation means. The character information is collated with the dictionary file.
請求項14に記載に発明にあっては、前記音声情報抽出手段は、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合して音声解析する音声解析手段を有することを特徴とする。
ここで、音声解析済みの音声とは、これまでに音声解析された音声を意味し、前記音声解析済みの音声から抽出された文字情報とは、音声解析された結果、正しく前記音声から抽出された文字情報を意味する。
従って、前記音声解析手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合されることにより、音声解析される。
In the invention described in
Here, the voice that has been voice-analyzed means the voice that has been voice-analyzed so far, and the character information extracted from the voice that has been voice-analyzed is correctly extracted from the voice as a result of voice analysis. Means textual information.
Therefore, the voice recorded by the voice analysis means together with the video recorded in the recording file has the voice analyzed voice and the character information extracted from the voice analyzed voice. Voice analysis is performed by collating with the file.
請求項15に記載の発明にあっては、前記文字情報取得手段は、前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、前記音声解析蓄積ファイルを修正する音声解析学習手段をさらに有することを特徴とする。
In the invention according to
ここで、修正は追加、削除を含む概念である。Here, modification is a concept including addition and deletion.
従って、前記音声解析学習手段によって、前記音声解析蓄積ファイルが前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて修正される。Therefore, the voice analysis learning means modifies the voice analysis storage file based on the voice analyzed by the voice analysis means and the character information extracted from the voice.
請求項16に記載の発明にあっては、前記映像は、テレビ放送局が放送する放送番組映像であることを特徴とする。The invention according to
請求項17に記載の発明にあっては、前記映像は、インターネットによって配信される動画映像であることを特徴とする。The invention according to
請求項1〜17に記載のメタデータ生成システムにあっては、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報取得手段によって、前記録
画ファイルに録画された前記映像に表示された文字情報が取得され、前記文字情報文章化手段によって、取得された前記文字情報が文章化され、前記メタデータ格納手段によって、文章化された前記文字情報が前記映像のメタデータとして前記メタデータ格納ファイルに格納されるので、前記映像に表示され、前記映像に関連する単語、文章の情報である前記文字情報から前記映像のメタデータを精度良く自動作成することができる。
その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを短時間で作成し、人的コストを削減することができるシステムを提供することができる。
In the metadata generation system according to claims 1 to 17 , when a video is recorded in the recording file by the recording means, the character information acquisition means records the video in the recording file. The character information displayed on the video is acquired, the acquired character information is documented by the character information documenting means, and the character information documented by the metadata storage means is the metadata of the image. Since it is stored in the metadata storage file, the metadata of the video can be accurately and automatically created from the character information which is displayed in the video and is information on words and sentences related to the video.
As a result, it is possible to provide a system capable of creating metadata about a television broadcast program or an Internet-distributed video in a short time and reducing human costs.
また、請求項1に記載のメタデータ生成システムにあっては、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出され、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記複合情報照合手段によって、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報が互いに照合される。Further, in the metadata generation system according to claim 1, when a video is recorded in the recording file by the recording means, the character information extraction means records the video in the recording file. Character information is extracted from the video by image analysis of the video, and the person, logo, belongings of the person or facial expression of the person, person information, logo information included in the video are extracted by the video recognition information extraction means. , Object information or facial expression information is collated, and the person, logo, personal belongings of the person or facial expression of the person included in the video are extracted as character information, and recorded in the recording file by the audio information extraction means. Character information is extracted from the voice by analyzing the voice recorded together with the video, and the character information extracting means, the video recognition information extracting means, and the voice information extraction by the composite information collating means. By means, the extracted character information is collated with each other.
従って、画像解析、音声解析、及び、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情から効率よく前記文字情報を抽出できる。Therefore, the character information can be efficiently extracted from image analysis, voice analysis, and the person, logo, belongings of the person, or facial expression of the person included in the video.
また、前記複合情報照合手段によって、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報が互いに照合されるので、例えば、前記文字情報抽出手段によって誤認識したり、完全に認識することが出来なかったりした文字や単語を、前記音声情報抽出手段によって抽出された文字情報に基づいて修正することができる。Further, since the extracted character information is collated with each other by the compound information collating means, the character information extracting means, the video recognition information extracting means, and the audio information extracting means, for example, the character information. Characters and words that are erroneously recognized by the extraction means or cannot be completely recognized can be corrected based on the character information extracted by the voice information extraction means.
その結果、テレビ放送番組又はインターネット配信動画に関するメタデータをより精度良く効率的に自動生成することが出来るシステムを提供することができる。As a result, it is possible to provide a system capable of automatically generating metadata related to a television broadcast program or an Internet-distributed moving image more accurately and efficiently.
請求項2に記載のメタデータ生成システムにあっては、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。In the metadata generation system according to claim 2, the character information extraction means extracts the character information from the video by image-analyzing the video recorded in the recording file, and collates the dictionary. By the means, the extracted character information is collated with the dictionary file.
従って、画像解析によって効率よく前記映像から前記文字情報を抽出できると共に、前記文字情報が前記辞書ファイルと照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を前記辞書ファイルに基づいて修正し、前記文字情報の精度を高めることができる。Therefore, the character information can be efficiently extracted from the video by image analysis, and the character information is collated with the dictionary file, so that, for example, it cannot be erroneously recognized or completely recognized by image analysis. It is possible to improve the accuracy of the character information by modifying the characters and words that have been lost based on the dictionary file.
請求項3に記載のメタデータ生成システムにあっては、前記画像解析手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合されることにより、画像解析される。In the metadata generation system according to claim 3, the video recorded in the recording file by the image analysis means is an image-analyzed video and characters extracted from the image-analyzed video. Image analysis is performed by collating with an image analysis storage file having information.
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、前記映像のメタデータを精度良く短時間で作成することができる。Therefore, it is possible to effectively perform image analysis using the image analysis results accumulated from the past, and as a result, it is possible to accurately create the metadata of the video in a short time.
請求項4に記載のメタデータ生成システムにあっては、前記画像解析学習手段によって、前記画像解析蓄積ファイルが前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。In the metadata generation system according to claim 4, the image analysis storage file is image-analyzed by the image analysis means by the image analysis learning means, and the character information extracted from the image is used. It will be corrected based on.
従って、今回行った画像解析結果を前記画像解析蓄積ファイルに追加したり、前記画像解析蓄積ファイルに含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、前記画像解析蓄積ファイルを更新して常に最新の状態で使用することができる。Therefore, the result of the image analysis performed this time can be added to the image analysis storage file, and the erroneous information contained in the image analysis storage file can be deleted based on the result of the image analysis performed this time. , The image analysis storage file can be updated and always used in the latest state.
また、請求項5に記載のメタデータ生成システムにあっては、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記インターネット照合手段によって、抽出された前記文字情報がインターネットにより検索され取得された情報と照合される。Further, in the metadata generation system according to
従って、画像解析によって効率よく前記映像から前記文字情報を抽出できると共に、前記文字情報がインターネットにより検索され取得された情報と照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語をインターネットにより検索され取得された前記情報に基づいて修正し、前記文字情報の精度を高めることができる。Therefore, the character information can be efficiently extracted from the video by image analysis, and the character information is collated with the information searched and acquired by the Internet, so that, for example, misrecognition or complete recognition is performed by image analysis. It is possible to improve the accuracy of the character information by correcting the characters and words that could not be performed based on the information obtained by searching on the Internet.
請求項6に記載のメタデータ生成システムにあっては、前記辞書更新手段によって、前記辞書ファイルが前記文字情報抽出手段によって抽出された前記文字情報に基づいて修正されるので、前記文字情報から得られる新たな単語、文章等の情報を前記辞書ファイルに追加したり、前記辞書ファイルに含まれる誤った情報を前記文字情報に基づいて削除したりすることができ、その結果、前記辞書ファイルを更新して常に最新の状態で使用することができる。In the metadata generation system according to claim 6, the dictionary update means modifies the dictionary file based on the character information extracted by the character information extraction means, and thus obtains from the character information. Information such as new words and sentences can be added to the dictionary file, and erroneous information contained in the dictionary file can be deleted based on the character information, and as a result, the dictionary file is updated. And you can always use it in the latest state.
請求項7に記載のメタデータ生成システムにあっては、前記辞書照合手段によって、前In the metadata generation system according to claim 7, the dictionary collation means is used in advance.
記頻度パラメータの大きい前記辞書データが照合対象として優先的に選択され、選択された前記辞書データと、前記文字情報抽出手段によって抽出された前記文字情報とが照合されるので、例えば、前記辞書ファイルに互いに類似した複数の文字や単語が存在する場合に、前記頻度パラメータの大きい前記辞書データが優先的に選択され、照合対象となる。The dictionary data having a large writing frequency parameter is preferentially selected as a collation target, and the selected dictionary data is collated with the character information extracted by the character information extraction means. Therefore, for example, the dictionary file When a plurality of characters or words similar to each other exist in the dictionary, the dictionary data having a large frequency parameter is preferentially selected and is a collation target.
その結果、前記頻度パラメータの大きい前記辞書データに基づいて修正することができ、前記文字情報の精度をより効率的に高めることができる。As a result, it is possible to make corrections based on the dictionary data having a large frequency parameter, and the accuracy of the character information can be improved more efficiently.
請求項8に記載のメタデータ生成システムにあっては、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記メタデータ格納ファイルを参照して、前記文字情報に関連する作成済のメタデータを前記文字情報の文章化に利用することができ、その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。 In the metadata generation system according to claim 8, when the character information documenting means aggregates and documents the character information acquired by the character information acquisition means, the metadata storage file The created metadata related to the character information can be used for writing the character information, and as a result, the metadata related to the television broadcast program or the Internet-distributed video can be accurately and more efficiently. Can be automatically generated.
請求項9に記載のメタデータ生成システムにあっては、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記映像の電子番組表データを取得して、放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれた前記電子番組表データを前記文字情報の文章化に利用することができる。その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。 In the metadata generation system according to claim 9, the character information documenting means is an electronic program of the video when the character information acquired by the character information acquisition means is aggregated and documented. It is possible to acquire the table data and use the electronic program table data including information such as broadcast date / time, distribution date / time, genre, title, performer, etc. for writing the character information. As a result, metadata related to a television broadcast program or an Internet-distributed moving image can be automatically generated with high accuracy and more efficiently.
請求項10に記載のメタデータ生成システムにあっては、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出されるので、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情から前記映像のメタデータを作成することができる。
In the metadata generation system according to
請求項11に記載のメタデータ生成システムにあっては、前記映像認識情報抽出手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報と照合されることにより、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、前記映像のメタデータを精度良く短時間で作成することができる。
In the metadata generation system according to claim 11, the image recorded in the recording file is extracted from the image-analyzed image and the image-analyzed image by the image recognition information extraction means. By collating with the person information, the logo information, the object information, or the facial expression information having the character information, the person, the logo, the person's belongings, or the facial expression of the person included in the video can be used as the character information. Be extracted.
Therefore, it is possible to effectively perform image analysis using the image analysis results accumulated from the past, and as a result, it is possible to accurately create the metadata of the video in a short time.
請求項12に記載のメタデータ生成システムにあっては、前記映像認識学習手段によって、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報が、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。
従って、今回行った画像解析結果を前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に追加したり、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を更新して常に最新の状態で使用することができる。
In the metadata generation system according to
Therefore, the result of the image analysis performed this time may be added to the person information, the logo information, the object information or the facial expression information, or erroneous information included in the person information, the logo information, the object information or the facial expression information. Can be deleted based on the result of the image analysis performed this time, and as a result, the person information, the logo information, the object information, or the facial expression information can be updated and always used in the latest state. ..
請求項13に記載のメタデータ生成システムにあっては、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。
従って、音声解析によって効率よく前記映像と共に録音された前記音声から前記文字情報
を抽出できると共に、前記文字情報が前記辞書ファイルと照合されることから、例えば、音声解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を前記辞書ファイルに基づいて修正し、前記文字情報の精度を高めることができる。
In the metadata generation system according to
Therefore, the character information can be efficiently extracted from the voice recorded together with the video by voice analysis, and the character information is collated with the dictionary file. Therefore, for example, misrecognition or completeness can be achieved by voice analysis. Characters and words that could not be recognized can be corrected based on the dictionary file, and the accuracy of the character information can be improved.
請求項14に記載に発明にあっては、前記音声解析手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合されることにより、音声解析される。
従って、過去から蓄積された音声解析結果を用いて効果的に音声解析を行うことができ、その結果、前記映像のメタデータを精度良く短時間で作成することができる。
In the invention described in
Therefore, it is possible to effectively perform voice analysis using the voice analysis results accumulated from the past, and as a result, it is possible to accurately create the metadata of the video in a short time.
請求項15に記載の発明にあっては、前記音声解析学習手段によって、前記音声解析蓄積ファイルが前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて修正される。
In the invention according to
従って、今回行った音声解析結果を前記音声解析蓄積ファイルに追加したり、前記音声解析蓄積ファイルに含まれる誤った情報を今回行った音声解析結果に基づいて削除したりすることができ、その結果、前記音声解析蓄積ファイルを更新して常に最新の状態で使用することができる。Therefore, the result of the voice analysis performed this time can be added to the voice analysis storage file, and the erroneous information contained in the voice analysis storage file can be deleted based on the result of the voice analysis stored this time. , The voice analysis storage file can be updated and always used in the latest state.
以下、添付図面に示す実施の形態に基づき、本発明を詳細に説明する。
(1)本実施の形態に係るメタデータ生成システム10の構成
図1及び図3に示すように、本発明の一実施の形態に係るメタデータ生成システム10は、テレビ放送局30が放送する放送番組映像Vを録画する録画ファイル11を有する録画手段12と、録画ファイル11に録画された映像Vから文字情報Cを取得する文字情報取得手段13と、文字情報取得手段13によって取得された文字情報Cを集約して文章化する文字情報文章化手段14と、文字情報文章化手段14によって文章化された文字情報を録画ファイル11に録画された映像VのメタデータMとしてメタデータ格納ファイル15に格納するメタデータ格納手段16とを備えている。
Hereinafter, the present invention will be described in detail based on the embodiments shown in the accompanying drawings.
(1) Configuration of
また、図1及び図3に示すように、本実施の形態に係る文字情報取得手段13は、録画ファイル11に録画された映像Vに対して画像解析を行い、映像Vから文字情報Cを抽出する文字情報抽出手段17と、文字情報抽出手段17によって抽出された文字情報Cを辞書ファイル18と照合する辞書照合手段19とを有している。
本実施の形態にかかる文字情報抽出手段17は、録画ファイル11に録画された映像Vに対して画像解析を行うことによって文字列を抽出する画像解析手段31と、抽出した前記文字列に対して形態素解析を行うことによって前記文字列に含まれる単語を抽出する単語解析手段32とを有している。
ここで、形態素解析とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。具体的には、「○×オープン決勝進出」という文字列から「○×」(大会名)、「○×オープン」、「決勝」、「進出」、「決勝進出」といった単語を抽出することができる。
Further, as shown in FIGS. 1 and 3, the character information acquisition means 13 according to the present embodiment performs image analysis on the video V recorded in the recording file 11 and extracts the character information C from the video V. It has a character
The character
Here, morphological analysis refers to morphological elements (roughly speaking) based on information such as the grammar of the target language and the part of speech of words called dictionaries, from text data (sentences) in natural language without notes of grammatical information. , The smallest unit that has meaning in the language), and the part of speech of each morpheme is discriminated. Specifically, it is possible to extract words such as "○ ×" (meeting name), "○ × open", "final", "advance", and "advance to the final" from the character string "○ × open final advance". it can.
図1に示すように、本実施の形態に係る画像解析手段31は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイル35と照合して画像解析するように構成されている。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
As shown in FIG. 1, the image analysis means 31 according to the present embodiment collates the image-analyzed image with the image
Here, the image-analyzed video means the video that has been image-analyzed so far, and the character information extracted from the image-analyzed video is correctly extracted from the video as a result of the image analysis. Means character information.
また、図1及び図3に示すように、本実施の形態に係る文字情報抽出手段17は、画像解析手段31によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて、画像解析蓄積ファイル35を修正する画像解析学習手段36をさらに有している。
Further, as shown in FIGS. 1 and 3, the character
また、図1及び図3に示すように、本実施の形態に係る文字情報取得手段13は、文字情報抽出手段17によって抽出された文字情報Cをインターネット20により検索し取得された情報と照合するインターネット照合手段21を有している。
Further, as shown in FIGS. 1 and 3, the character information acquisition means 13 according to the present embodiment searches the character information C extracted by the character information extraction means 17 on the
また、図1及び図3に示すように、本実施の形態に係る文字情報取得手段13は、文字情報抽出手段17によって抽出された文字情報Cに基づいて、辞書ファイル18を修正する辞書更新手段33をさらに有している。
Further, as shown in FIGS. 1 and 3, the character information acquisition means 13 according to the present embodiment is a dictionary update means for modifying the
また、図1及び図3に示すように、本実施の形態に係る辞書ファイル18は、各国の言語に関する文字、熟語を有する辞書データが照合可能に含まれている辞書データDと、辞書データDの頻度パラメータ34とを有し、辞書照合手段19は、頻度パラメータ34の大きい辞書データDを照合対象として優先的に選択するように構成されている。
Further, as shown in FIGS. 1 and 3, the
また、図1及び図3に示すように、本実施の形態に係る文字情報文章化手段14は、メ
タデータ格納ファイル15を参照し、文字情報取得手段13によって取得された文字情報Cに関連するメタデータMを文字情報Cの文章化に利用するように構成されている。
Further, as shown in FIGS. 1 and 3, the character
また、図1及び図3に示すように、本実施の形態に係る文字情報文章化手段14は、録画ファイル11に録画された映像Vの電子番組表データEを取得し、文字情報Cの文章化に利用するように構成されている。本実施の形態に係る電子番組表データEには、テレビ放送局30が放送する放送番組映像Vの放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれている。
Further, as shown in FIGS. 1 and 3, the character information writing means 14 according to the present embodiment acquires the electronic program guide data E of the video V recorded in the recording file 11, and the text of the character information C. It is configured to be used for conversion. The electronic program guide data E according to the present embodiment includes information such as the broadcast date / time, the distribution date / time, the genre, the title, and the performers of the broadcast program video V broadcast by the
また、図1及び図3に示すように、本実施の形態に係る文字情報取得手段13は、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fと、人物情報、ロゴ情報、物情報又は表情情報とを照合し、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fを文字情報Cとして抽出する映像認識情報抽出手段22を有している。 Further, as shown in FIGS. 1 and 3, the character information acquisition means 13 according to the present embodiment includes a person P, a logo L, a person P's belongings B or a person P's facial expression F included in the image V, and a person. Video recognition information extraction means 22 that collates information, logo information, object information, or facial information, and extracts the person P, logo L, personal belongings B of person P, or facial expression F of person P included in the image V as character information C. have.
本実施の形態に係る人物情報、ロゴ情報、物情報又は表情情報は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とにより構成されている。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
The person information, logo information, object information, or facial expression information according to the present embodiment is composed of an image-analyzed image and character information extracted from the image-analyzed image.
Here, the image-analyzed video means the video that has been image-analyzed so far, and the character information extracted from the image-analyzed video is correctly extracted from the video as a result of the image analysis. Means character information.
また、図1及び図3に示すように、本実施の形態に係る文字情報取得手段13は、映像認識情報抽出手段22によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて、人物情報、ロゴ情報、物情報又は表情情報を修正する映像認識学習手段37をさらに有することを特徴とする。
Further, as shown in FIGS. 1 and 3, the character information acquisition means 13 according to the present embodiment includes the image V image-analyzed by the image recognition
また、図1及び図3に示すように、本実施の形態に係る文字情報取得手段13は、録画ファイル11に録画された映像Vと共に録音された音声に対して音声解析を行い、前記音声から文字情報Cを抽出する音声情報抽出手段23を有している。 Further, as shown in FIGS. 1 and 3, the character information acquisition means 13 according to the present embodiment performs voice analysis on the voice recorded together with the video V recorded in the recording file 11, and from the voice. It has a voice information extraction means 23 for extracting character information C.
図1に示すように、本実施の形態に係る音声情報抽出手段23は、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイル38と照合して音声解析する音声解析手段39を有することを特徴とする。
ここで、音声解析済みの音声とは、これまでに音声解析された音声を意味し、前記音声解析済みの音声から抽出された文字情報とは、音声解析された結果、正しく前記音声から抽出された文字情報を意味する。
As shown in FIG. 1, the voice
Here, the voice that has been voice-analyzed means the voice that has been voice-analyzed so far, and the character information extracted from the voice that has been voice-analyzed is correctly extracted from the voice as a result of voice analysis. Means textual information.
また、図1及び図3に示すように、本実施の形態に係る音声情報抽出手段23は、音声解析手段39によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、音声解析蓄積ファイル38を修正する音声解析学習手段40をさらに有することを特徴とする。
Further, as shown in FIGS. 1 and 3, the voice
図1及び図3に示すように、本実施の形態に係る文字情報取得手段13にあっては、文字情報抽出手段17、映像認識情報抽出手段22、及び、音声情報抽出手段23によって、夫々、抽出された文字情報Cを互いに照合する複合情報照合手段24を備えている。 As shown in FIGS. 1 and 3, in the character information acquisition means 13 according to the present embodiment, the character information extraction means 17, the video recognition information extraction means 22, and the voice information extraction means 23 are used, respectively. The compound information collation means 24 for collating the extracted character information C with each other is provided.
図1及び図3に示すように、本実施の形態に係る録画手段12は、全ての放送局、例えば、我が国における全ての地上局及び衛星放送の放送局から放送された全ての放送番組の映像を、所定期間、例えば1ヶ月に亘って録画しうるように所定の容量のハードディスク型の記憶装置を有する大型の録画装置である。
本実施の形態において、録画手段12内に装備されたハードディスク内の録画ファイル11は、テレビ放送局30により放送された映像Vからなる番組コンテンツ25と、番組コンテンツ25が放送されたチャンネル名26と、番組コンテンツ25のタイムコード27に関する情報を有している。
この場合、番組コンテンツ25は、放送番組単位、当該放送番組を構成するコーナー単位、又は当該放送番組を構成する記事単位からなる。
As shown in FIGS. 1 and 3, the recording means 12 according to the present embodiment is a video of all broadcast programs broadcast from all broadcasting stations, for example, all terrestrial stations and satellite broadcasting broadcasting stations in Japan. Is a large-scale recording device having a hard disk-type storage device having a predetermined capacity so that the recording can be performed for a predetermined period, for example, one month.
In the present embodiment, the recording file 11 in the hard disk provided in the recording means 12 includes a
In this case, the
また、図1及び図3に示すように、本実施の形態において、メタデータ格納手段16のメタデータ格納ファイル15には、番組コンテンツ要約テキストデータ28と、番組コンテンツ25が放送されたチャンネル名29と、番組コンテンツ25のタイムコード27とが記録されており、いずれも本実施の形態におけるメタデータMを構成するデータである。
番組コンテンツ要約テキストデータ28とは、テレビ放送局30により放送されたテレビ番組の内容を文字化して要約したものである。番組コンテンツ要約テキストデータ28は、番組コンテンツ25と同様に、放送番組単位、当該放送番組を構成するコーナー単位、又は当該放送番組を構成する記事単位からなる。
また、番組コンテンツ要約テキストデータ28には、ニュアンスパラメータを含めることができる。ここで、「ニュアンスパラメータ」とは、前記検索キーワードに対応する語句が出現する前記サイト情報のニュアンス(印象)を人工知能等のような自動システムや人間の判断により、数値化したものである。
例えば、番組コンテンツが良い内容(good)であれば高く(プラス評価)、悪い内容(bad)であれば低く(マイナス評価)、事実を述べただけの中立的な内容(neutral)であれば0(ゼロ評価)とすることができる。
Further, as shown in FIGS. 1 and 3, in the present embodiment, the
The program content
In addition, the program content
For example, if the program content is good (good), it is high (positive evaluation), if it is bad (bad), it is low (negative evaluation), and if it is neutral content (neutral) that only states the facts, it is 0. (Zero evaluation) can be set.
(2)本実施の形態に係るメタデータ生成システム10の処理の流れ
図2に示すように、本実施の形態に係るメタデータ生成システム10は以下の工程に従って処理を行う。まず、録画手段12が、テレビ放送局30が放送する放送番組映像Vを録画ファイル11に録画する(S1)。
この際、録画手段12は、全ての放送局、例えば、我が国における全ての地上局及び衛星放送の放送局から放送された全ての放送番組の映像を、所定期間、例えば1ヶ月に亘って録画することもできる。
(2) Process flow of the
At this time, the recording means 12 records images of all broadcast programs broadcast from all broadcasting stations, for example, all terrestrial stations and satellite broadcasting broadcasting stations in Japan, for a predetermined period, for example, one month. You can also do it.
次いで、図2に示すように、文字情報取得手段13が、録画ファイル11に録画された映像Vに表示された文字情報Cを取得する。
この際、文字情報抽出手段17が、録画ファイル11に録画された映像Vに対して画像解析を行い、映像Vから文字情報Cを抽出する(S2a)。
特に、図1及び図3に示すように、本実施の形態にかかる文字情報抽出手段17にあっては、画像解析手段31が録画ファイル11に録画された映像Vに対して画像解析を行うことによって文字列を抽出し、単語解析手段32が抽出した前記文字列に対して形態素解析を行うことによって前記文字列に含まれる単語を抽出する。
具体的には、図3(a)に示すように、画像解析手段31が番組コンテンツ25の映像Vに対して画像解析を行うことによって、「××ニュース」、「速報○△選手○×オープン決勝進出」という文字列を抽出することができる。
続いて、単語解析手段32が抽出したこれらの文字列に対して形態素解析を行うことによって、「××」(番組名、チャンネル名)、「ニュース」、「××ニュース」、「速報」、「○△」(選手名)、「選手」、「○△選手」、「○×」(地域名、大会名)、「オープン」、「○×オープン」、「決勝」、「進出」といった単語を抽出することができる。
なお、図1及び図3に示すように、本実施の形態に係る文字情報抽出手段17にあっては、画像解析手段31が、録画ファイル11に録画された映像Vと、画像解析済みの映像及び前記画像解析済みの映像から抽出された文字情報を有する画像解析蓄積ファイル35
とを照合することにより、画像解析する。
Next, as shown in FIG. 2, the character information acquisition means 13 acquires the character information C displayed on the video V recorded in the recording file 11.
At this time, the character
In particular, as shown in FIGS. 1 and 3, in the character information extraction means 17 according to the present embodiment, the image analysis means 31 performs image analysis on the video V recorded in the recording file 11. The character string is extracted by the above, and the words included in the character string are extracted by performing morphological analysis on the character string extracted by the word analysis means 32.
Specifically, as shown in FIG. 3A, the image analysis means 31 performs image analysis on the video V of the
Subsequently, by performing morphological analysis on these character strings extracted by the word analysis means 32, "XX" (program name, channel name), "news", "XX news", "breaking news", Words such as "○ △" (player name), "player", "○ △ player", "○ ×" (region name, tournament name), "open", "○ × open", "final", "advance" Can be extracted.
As shown in FIGS. 1 and 3, in the character
Image analysis is performed by collating with.
また、図2に示すように、映像認識情報抽出手段22が、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fと、人物情報、ロゴ情報、物情報又は表情情報とを照合し、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fを文字情報Cとして抽出する(S2b)。
具体的には、図3(a)に示すように、映像認識情報抽出手段22が番組コンテンツ25の映像Vに含まれる人物P、ロゴL、人物Pの持ち物B、人物Pの表情Fに対して、人物情報、ロゴ情報、物情報、表情情報を照合することによって、人物Pが「○△選手」、ロゴLが「○×オープン」、人物Pの持ち物Bが「テニス(ラケット)」、人物Pの表情Fが「精一杯な表情」であることが照合され、夫々を文字情報Cとして抽出することができる。
なお、図1及び図3に示すように、本実施の形態にあっては、映像認識情報抽出手段22が、録画ファイル11に録画された映像Vと、画像解析済みの映像及び前記画像解析済みの映像から抽出された文字情報を有する人物情報、ロゴ情報、物情報又は表情情報とを照合することにより、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fを文字情報Cとして抽出する。
Further, as shown in FIG. 2, the image recognition
Specifically, as shown in FIG. 3A, the video recognition
As shown in FIGS. 1 and 3, in the present embodiment, the image recognition information extraction means 22 includes the image V recorded in the recording file 11, the image-analyzed image, and the image-analyzed image. By collating the person information, logo information, object information, or facial expression information having the character information extracted from the video, the person P, the logo L, the personal belongings B of the person P, or the facial expression F of the person P included in the video V. Is extracted as character information C.
また、図2に示すように、音声情報抽出手段23が、録画ファイル11に録画された映像Vと共に録音された音声に対して音声解析を行い、前記音声から文字情報Cを抽出する(S2c)。
なお、図1及び図3に示すように、本実施の形態に係る音声情報抽出手段23にあっては、音声解析手段39が、録画ファイル11に録画された映像Vと、画像解析済みの映像及び前記画像解析済みの映像から抽出された文字情報を有する音声解析蓄積ファイル38とを照合することにより、音声解析する。
Further, as shown in FIG. 2, the voice
As shown in FIGS. 1 and 3, in the voice information extraction means 23 according to the present embodiment, the voice analysis means 39 has the image V recorded in the recording file 11 and the image-analyzed image. And the voice analysis is performed by collating with the voice
続いて、図2に示すように、複合情報照合手段24が、文字情報抽出手段17、映像認識情報抽出手段22、及び、音声情報抽出手段23によって、夫々、抽出された文字情報を互いに照合する(S3)。
具体的には、図1及び図3に示すように、文字情報抽出手段17によって抽出された「○△選手」及び「○×オープン」が、映像認識情報抽出手段22によって抽出された「○△選手」(人物Pより抽出)及び「○×オープン」(ロゴLより抽出)と照合され、文字情報Cが正しく抽出されたことを確認し、文字情報Cの精度を高めることができる。
なお、処理速度を優先する場合には、複合情報照合手段24による照合工程S3を省略してもよい。
Subsequently, as shown in FIG. 2, the composite information collating means 24 collates the extracted character information with each other by the character
Specifically, as shown in FIGS. 1 and 3, the “○ △ player” and “○ × open” extracted by the character
If the processing speed is prioritized, the collation step S3 by the composite information collation means 24 may be omitted.
ここで、図1及び図3に示すように、画像解析学習手段36が、画像解析手段31によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて、画像解析蓄積ファイル35を修正することができる。
Here, as shown in FIGS. 1 and 3, the image analysis learning means 36 accumulates image analysis based on the image V image-analyzed by the image analysis means 31 and the character information C extracted from the
また、ここで、図1及び図3に示すように、映像認識学習手段37が、映像認識情報抽出手段22によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて、人物情報、ロゴ情報、物情報又は表情情報を修正することができる。 Further, as shown in FIGS. 1 and 3, the video recognition learning means 37 is based on the video V image-analyzed by the video recognition information extraction means 22 and the character information C extracted from the video V. , Person information, logo information, object information or facial expression information can be modified.
また、さらに、図1に示すように、音声解析学習手段40が、音声解析手段39によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、音声解析蓄積ファイル38を修正することができる。
Further, as shown in FIG. 1, the voice analysis learning means 40 modifies the voice
続いて、図2に示すように、辞書照合手段19が、文字情報抽出手段17、映像認識情報抽出手段22、又は、音声情報抽出手段23によって抽出された文字情報Cを辞書ファイル18と照合する(S4a)。照合した結果、文字情報Cが辞書ファイル18と一致しなかった場合は、文字情報Cを辞書ファイル18に基づいて修正する。一方、文字情報Cが辞書ファイル18と一致した場合には、そのまま照合処理を終了する。
ここで、図1に示すように、辞書照合手段19は、頻度パラメータ34の大きい辞書データDを照合対象として優先的に選択することができる。例えば、文字情報抽出手段17によって文字情報Cが「速報」ではなく誤って「連報」と抽出された場合において、辞書ファイル18と照合し、仮に「連報」という単語が登録されていたとしても、「速報」という単語の使用頻度が高く、当該単語の頻度パラメータが大きいことから、文字情報Cは「速報」であると判断して、文字情報Cを修正することができる。
Subsequently, as shown in FIG. 2, the dictionary collating means 19 collates the character information C extracted by the character
Here, as shown in FIG. 1, the dictionary collation means 19 can preferentially select dictionary data D having a
また、図1及び図3に示すように、辞書更新手段22が、文字情報抽出手段17によって抽出された文字情報Cに基づいて、辞書ファイル18を修正することができる。
例えば、文字情報抽出手段17によって「独壇場(どくだんじょう)」が抽出された場合に、辞書ファイル18に存在する「独擅場(どくせんじょう)」という正しい表現の他に、「独壇場(どくだんじょう)」という元々は誤りだが慣用的に使用されるようになった表現を辞書ファイル18に追加することができる。
Further, as shown in FIGS. 1 and 3, the dictionary updating means 22 can modify the
For example, when "Dokudanjo" is extracted by the character information extraction means 17, in addition to the correct expression "Dokusenjo" existing in the
また、図2に示すように、インターネット照合手段21が、文字情報抽出手段17、映像認識情報抽出手段22、又は、音声情報抽出手段23によって抽出された文字情報Cをインターネット20により検索し取得された情報Iと照合することもできる(S4b)。
照合した結果、文字情報Cが情報Iと一致しなかった場合は、文字情報Cを情報Iに基づいて修正する。一方、文字情報Cが情報Iと一致した場合には、そのまま照合処理を終了する。
処理速度を優先する場合には、辞書照合手段19による照合工程S4a、インターネット照合手段21による照合工程S4bのいずれか一方のみを実行すればよく、一方、文字情報Cの精度(正確さ)を優先する場合には、両方の工程を順序問わず実行することもできる。
Further, as shown in FIG. 2, the Internet collation means 21 searches and acquires the character information C extracted by the character information extraction means 17, the video recognition information extraction means 22, or the voice information extraction means 23 by the
If the character information C does not match the information I as a result of collation, the character information C is corrected based on the information I. On the other hand, when the character information C matches the information I, the collation process is terminated as it is.
When the processing speed is prioritized, only one of the collation step S4a by the dictionary collation means 19 and the collation step S4b by the Internet collation means 21 needs to be executed, while the accuracy (accuracy) of the character information C is prioritized. If so, both steps can be performed in any order.
次いで、図2に示すように、文字情報文章化手段14が、取得された文字情報Cを集約して文章化する(S5)。
具体的には、図3に示すように、取得された文字情報Cである「××ニュース」、「速報」、「○△選手」、「○×オープン」、「決勝」、「進出」、「テニス(ラケット)」を集約して、「[××ニュース]○×オープンに出場している日本のトップテニスプレーヤー○△選手が決勝に進出した」という文字情報へと文章化することができる。
この際、文字情報文章化手段14は、メタデータ格納ファイル15を参照し、文字情報取得手段13によって取得された文字情報Cに関連するメタデータMを文字情報Cの文章化に利用することができる。
例えば、前日に放送された映像に係るメタデータが「(02/28 12:00)[××ニュース]○×オープンに出場している日本のトップテニスプレーヤー○△選手が準決勝に進出した」というものであった場合に、「○×オープンに出場している」、「日本のトップテニスプレーヤー○△選手」、「準決勝に進出した」という文章を利用して、文字情報Cの文章化を迅速に処理し、精度を高めることができる。
Next, as shown in FIG. 2, the character information writing means 14 aggregates the acquired character information C and puts it into a sentence (S5).
Specifically, as shown in FIG. 3, the acquired character information C is "XX news", "breaking news", "○ △ player", "○ × open", "final", "advancement", "Tennis (racket)" can be aggregated and written into textual information such as "[XX News] XX Open Japanese top tennis player XX has advanced to the final." ..
At this time, the character information writing means 14 can refer to the
For example, the metadata related to the video broadcast the day before says "(02/28 12:00) [XX News] XX Japan's top tennis player XX has advanced to the semi-finals." If it is a thing, use the sentences "I participated in the ○ × open", "Japan's top tennis player ○ △ player", and "advanced to the semi-final" to quickly write the text information C. Can be processed to improve accuracy.
また、図1及び図3に示すように、文字情報文章化手段14は、録画ファイル11に録画された映像Vの電子番組表データEを取得し、文字情報Cの文章化に利用することもできる。例えば、電子番組表データEに「3月1日12時 ××ニュース」という情報が含まれていれば、メタデータMに「(03/01 12:00)[××ニュース]」という情報を追加し、文字情報Cの文章化を迅速に処理し、精度を高めることができる。 Further, as shown in FIGS. 1 and 3, the character information writing means 14 may acquire the electronic program guide data E of the video V recorded in the recording file 11 and use it for writing the character information C. it can. For example, if the electronic program guide data E contains the information "March 1, 12:00 XX news", the metadata M contains the information "(03/01 12:00) [XX news]". In addition, it is possible to quickly process the textualization of the character information C and improve the accuracy.
次いで、図2に示すように、メタデータ格納手段16が、文字情報文章化手段14によ
って文章化された文字情報を録画ファイル11に録画された映像VのメタデータMとしてメタデータ格納ファイル15に格納する(S6)。
具体的には、図3(b)に示すように、メタデータ格納手段16が、番組コンテンツ25の映像VのメタデータMとして「(03/01 12:00)[××ニュース]○×オープンに出場している日本のトップテニスプレーヤー○△選手が決勝に進出した」というメタデータをメタデータ格納ファイル15に格納することができる。
以上より、映像Vに表示され、映像Vに関連する単語、文章の情報である文字情報Cから映像VのメタデータMを作成することができる。
Next, as shown in FIG. 2, the metadata storage means 16 stores the character information documented by the character
Specifically, as shown in FIG. 3B, the metadata storage means 16 opens "(03/01 12:00) [XX news] XX news" as the metadata M of the video V of the
From the above, the metadata M of the video V can be created from the character information C which is displayed on the video V and is information on words and sentences related to the video V.
(3)本実施の形態に係るメタデータ生成システム10の効果
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、録画手段12によって、録画ファイル11に映像が録画された場合には、文字情報取得手段13によって、録画ファイル11に録画された映像Vに表示された文字情報Cが取得され、文字情報文章化手段14によって、取得された文字情報Cが文章化され、メタデータ格納手段16によって、文章化された文字情報が映像VのメタデータMとしてメタデータ格納ファイル15に格納されるので、映像Vに表示され、映像Vに関連する単語、文章の情報である文字情報Cから映像VのメタデータMを精度良く自動作成することができる。
その結果、テレビ放送番組に関するメタデータを短時間で作成し、人的コストを削減することができるシステムを提供することができる。
(3) Effect of
As a result, it is possible to provide a system capable of creating metadata about a television broadcast program in a short time and reducing human costs.
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、文字情報抽出手段17によって、録画ファイル11に録画された映像Vが画像解析されることにより映像Vから文字情報Cが抽出され、辞書照合手段19によって、抽出された文字情報Cが辞書ファイル18と照合される。
従って、画像解析によって効率よく映像Vから文字情報Cを抽出できると共に、文字情報Cが辞書ファイル18と照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を辞書ファイル18に基づいて修正し、文字情報Cの精度を高めることができる。
As shown in FIGS. 1 and 3, in the
Therefore, the character information C can be efficiently extracted from the video V by image analysis, and the character information C is collated with the
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、画像解析手段31によって、録画ファイル11に録画された映像Vが、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイル35と照合されることにより、画像解析される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、映像VのメタデータMを精度良く短時間で作成することができる。
As shown in FIGS. 1 and 3, in the
Therefore, it is possible to effectively perform image analysis using the image analysis results accumulated from the past, and as a result, it is possible to accurately create the metadata M of the image V in a short time.
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、画像解析学習手段36によって、画像解析蓄積ファイル35が画像解析手段31によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて修正される。
従って、今回行った画像解析結果を画像解析蓄積ファイル35に追加したり、画像解析蓄積ファイル35に含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、画像解析蓄積ファイル35を更新して常に最新の状態で使用することができる。
As shown in FIGS. 1 and 3, in the
Therefore, the result of the image analysis performed this time can be added to the image
また、図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、文字情報抽出手段17によって、録画ファイル11に録画された映像Vが画像解析されることにより映像Vから文字情報Cが抽出され、インターネット照合手段21によって、抽出された文字情報Cがインターネットにより検索され取得された情報Iと照合
される。
従って、画像解析によって効率よく映像Vから文字情報Cを抽出できると共に、文字情報Cがインターネットにより検索され取得された情報Iと照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語をインターネットにより検索され取得された情報Iに基づいて修正し、文字情報Cの精度を高めることができる。
Further, as shown in FIGS. 1 and 3, in the
Therefore, the character information C can be efficiently extracted from the video V by image analysis, and the character information C is collated with the information I searched and acquired by the Internet, so that, for example, it is erroneously recognized by image analysis or completely. Characters and words that could not be recognized can be corrected based on the information I obtained by searching on the Internet, and the accuracy of the character information C can be improved.
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、辞書更新手段33によって、辞書ファイル18が文字情報抽出手段17によって抽出された文字情報Cに基づいて修正されるので、文字情報Cから得られる新たな単語、文章等の情報を辞書ファイル18に追加したり、辞書ファイル18に含まれる誤った情報を文字情報Cに基づいて削除したりすることができ、その結果、辞書ファイル18を更新して常に最新の状態で使用することができる。
As shown in FIGS. 1 and 3, in the
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、辞書照合手段19によって、頻度パラメータ34の大きい辞書データDが照合対象として優先的に選択され、選択された辞書データDと、文字情報抽出手段17によって抽出された文字情報Cとが照合されるので、例えば、辞書ファイル18に互いに類似した複数の文字や単語が存在する場合に、頻度パラメータ34の大きい辞書データDが優先的に選択され、照合対象となる。
その結果、頻度パラメータ34の大きい辞書データに基づいて修正することができ、文字情報Cの精度をより効率的に高めることができる。
As shown in FIGS. 1 and 3, in the
As a result, the correction can be made based on the dictionary data having a
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、文字情報文章化手段14は、文字情報取得手段13によって取得された文字情報Cを集約して文章化する際に、メタデータ格納ファイル15を参照して、文字情報Cに関連する作成済のメタデータMを文字情報Cの文章化に利用することができ、その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。
As shown in FIGS. 1 and 3, in the
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、文字情報文章化手段14は、文字情報取得手段13によって取得された文字情報Cを集約して文章化する際に、映像Vの電子番組表データEを取得して、放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれた電子番組表データEを文字情報Cの文章化に利用することができる。その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。
As shown in FIGS. 1 and 3, in the
また、図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、映像認識情報抽出手段22によって、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fと、人物情報、ロゴ情報、物情報又は表情情報とが照合され、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fが文字情報Cとして抽出されるので、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fから映像VのメタデータMを作成することができる。
Further, as shown in FIGS. 1 and 3, in the
また、本実施の形態に係るメタデータ生成システム10にあっては、映像認識情報抽出手段22によって、録画ファイル11に録画された映像Vが、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報と照合されることにより、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fが文字情報Cとして抽出される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ
、その結果、映像VのメタデータMを精度良く短時間で作成することができる。
Further, in the
Therefore, it is possible to effectively perform image analysis using the image analysis results accumulated from the past, and as a result, it is possible to accurately create the metadata M of the image V in a short time.
また、本実施の形態に係るメタデータ生成システム10にあっては、映像認識学習手段37によって、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報が、映像認識情報抽出手段22によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて修正される。
従って、今回行った画像解析結果を前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に追加したり、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を更新して常に最新の状態で使用することができる。
Further, in the
Therefore, the result of the image analysis performed this time may be added to the person information, the logo information, the object information or the facial expression information, or erroneous information included in the person information, the logo information, the object information or the facial expression information. Can be deleted based on the result of the image analysis performed this time, and as a result, the person information, the logo information, the object information, or the facial expression information can be updated and always used in the latest state. ..
また、図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、音声情報抽出手段23によって、録画ファイル11に録画された映像Vと共に録音された音声が音声解析されることにより前記音声から文字情報Cが抽出され、辞書照合手段19によって、抽出された文字情報Cが辞書ファイル18と照合される。
従って、音声解析によって効率よく映像Vと共に録音された音声から文字情報Cを抽出できると共に、文字情報Cが辞書ファイル18と照合されることから、例えば、音声解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を辞書ファイル18に基づいて修正し、文字情報Cの精度を高めることができる。
Further, as shown in FIGS. 1 and 3, in the
Therefore, the character information C can be efficiently extracted from the voice recorded together with the video V by voice analysis, and the character information C is collated with the
本実施の形態に係るメタデータ生成システム10にあっては、音声解析手段39によって、録画ファイル11に録画された映像Vと共に録音された前記音声が、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイル38と照合されることにより、音声解析される。
従って、過去から蓄積された音声解析結果を用いて効果的に音声解析を行うことができ、その結果、映像VのメタデータMを精度良く短時間で作成することができる。
In the
Therefore, it is possible to effectively perform voice analysis using the voice analysis results accumulated from the past, and as a result, it is possible to accurately create the metadata M of the video V in a short time.
また、本実施の形態に係るメタデータ生成システム10にあっては、音声解析学習手段40によって、音声解析蓄積ファイル38が音声解析手段39によって音声解析された音声と、前記音声から抽出された文字情報Cとに基づいて修正される。
従って、今回行った音声解析結果を音声解析蓄積ファイル38に追加したり、音声解析蓄積ファイル38に含まれる誤った情報を今回行った音声解析結果に基づいて削除したりすることができ、その結果、音声解析蓄積ファイル38を更新して常に最新の状態で使用することができる。
Further, in the
Therefore, the result of the voice analysis performed this time can be added to the voice
また、図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、録画手段12によって、録画ファイル11に映像Vが録画された場合には、文字情報抽出手段17によって、録画ファイル11に録画された映像Vが画像解析されることにより映像Vから文字情報Cが抽出され、映像認識情報抽出手段22によって、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fと、人物情報、ロゴ情報、物情報又は表情情報とが照合され、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fが文字情報Cとして抽出され、音声情報抽出手段23によって、録画ファイル11に録画された映像Vと共に録音された音声が音声解析されることにより前記音声から文字情報Cが抽出され、複合情報照合手段24によって、文字情報抽出手段17、映像認識情報抽出手段22、及び、音声情報抽出手段23によって、夫々、抽出された文字情報Cが互いに照合される。
従って、画像解析、音声解析、及び、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fから効率よく文字情報Cを抽出できる。
また、複合情報照合手段24によって、文字情報抽出手段17、映像認識情報抽出手段
22、及び、音声情報抽出手段23によって、夫々、抽出された文字情報Cが互いに照合されるので、例えば、文字情報抽出手段17によって誤認識したり、完全に認識することが出来なかったりした文字や単語を、音声情報抽出手段23によって抽出された文字情報Cに基づいて修正することができる。
その結果、テレビ放送番組又はインターネット配信動画に関するメタデータをより精度良く効率的に自動生成することが出来るシステムを提供することができる。
Further, as shown in FIGS. 1 and 3, in the
Therefore, the character information C can be efficiently extracted from the image analysis, the voice analysis, and the person P, the logo L, the possession B of the person P, or the facial expression F of the person P included in the video V.
Further, the compound information collating means 24 collates the extracted character information C with each other by the character
As a result, it is possible to provide a system capable of automatically generating metadata related to a television broadcast program or an Internet-distributed moving image more accurately and efficiently.
本実施の形態にあっては、映像Vは、テレビ放送局30が放送する放送番組映像である場合を例に説明したが、前記構成に限定されず、映像Vは、インターネットによって配信される動画映像であってもよい。
In the present embodiment, the video V has been described as an example of a broadcast program video broadcast by the
本考案は、メタデータを生成するシステムに広く適用可能であり、産業上利用可能性を有している。 The present invention is widely applicable to systems that generate metadata and has industrial applicability.
10:メタデータ生成システム
11:録画ファイル
12:録画手段
13:文字情報取得手段
14:文字情報文章化手段
15:メタデータ格納ファイル
16:メタデータ格納手段
17:文字情報抽出手段
18:辞書ファイル
19:辞書照合手段
20:インターネット
21:インターネット照合手段
22:映像認識情報抽出手段
23:音声情報抽出手段
24:複合情報照合手段
25:番組コンテンツ
26:チャンネル名
27:タイムコード
28:番組コンテンツ要約テキストデータ
29:チャンネル名
30:テレビ放送局
31:画像解析手段
32:単語解析手段
33:辞書更新手段
34:頻度パラメータ
35:画像解析蓄積ファイル
36:画像解析学習手段
37:映像認識学習手段
38:音声解析蓄積ファイル
39:音声解析手段
40:音声解析学習手段
B:人物の持ち物
C:文字情報
D:辞書データ
E:電子番組表データ
F:人物の表情
L:ロゴ
M:メタデータ
P:人物
V:映像
10: Metadata generation system 11: Recorded file 12: Recording means 13: Character information acquisition means 14: Character information documenting means 15: Metadata storage file 16: Metadata storage means 17: Character information extraction means 18: Dictionary file 19 : Dictionary collation means 20: Internet 21: Internet collation means 22: Video recognition information extraction means 23: Audio information extraction means 24: Composite information collation means 25: Program content 26: Channel name 27: Time code 28: Program content summary text data 29: Channel name 30: Television broadcasting station 31: Image analysis means 32: Word analysis means 33: Dictionary update means 34: Frequency parameter 35: Image analysis storage file 36: Image analysis learning means 37: Video recognition learning means 38: Voice analysis Storage file 39: Voice analysis means 40: Voice analysis Learning means B: Person's belongings C: Character information D: Dictionary data E: Electronic program guide data F: Person's facial expression L: Logo M: Metadata P: Person V: Video
Claims (17)
前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、The character information acquisition means includes a character information extraction means that performs image analysis on the video recorded in the recording file and extracts character information from the video.
前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とを照合し、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情を文字情報として抽出する映像認識情報抽出手段と、The person, logo, belongings of the person or the facial expression of the person included in the video are collated with the person information, logo information, physical information or facial expression information, and the person, logo, belongings of the person or the facial expression information included in the video are collated. A video recognition information extraction means that extracts the facial expression of the person as character information,
前記録画ファイルに録画された映像と共に録音された音声に対して音声解析を行い、前記音声から文字情報を抽出する音声情報抽出手段と、A voice information extraction means that performs voice analysis on the voice recorded together with the video recorded in the recording file and extracts character information from the voice.
前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報を互いに照合する複合情報照合手段とを有することを特徴とするメタデータ生成システム。A metadata generation system comprising the character information extracting means, the video recognition information extracting means, and a composite information collating means for collating the character information extracted by the voice information extracting means with each other.
する請求項10記載のメタデータ生成システム。10. The metadata generation system according to claim 10.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016165100A JP6857983B2 (en) | 2016-08-25 | 2016-08-25 | Metadata generation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016165100A JP6857983B2 (en) | 2016-08-25 | 2016-08-25 | Metadata generation system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018033048A JP2018033048A (en) | 2018-03-01 |
JP6857983B2 true JP6857983B2 (en) | 2021-04-14 |
Family
ID=61305137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016165100A Active JP6857983B2 (en) | 2016-08-25 | 2016-08-25 | Metadata generation system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6857983B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019160071A (en) * | 2018-03-15 | 2019-09-19 | Jcc株式会社 | Summary creation system and summary creation method |
JP7137815B2 (en) * | 2018-04-19 | 2022-09-15 | Jcc株式会社 | Recording playback system |
US11373404B2 (en) * | 2018-05-18 | 2022-06-28 | Stats Llc | Machine learning for recognizing and interpreting embedded information card content |
JP7137825B2 (en) * | 2018-06-04 | 2022-09-15 | Jcc株式会社 | Video information provision system |
JP2020123228A (en) * | 2019-01-31 | 2020-08-13 | Jcc株式会社 | Data analysis system |
JP6811811B1 (en) * | 2019-07-04 | 2021-01-13 | Jcc株式会社 | Metadata generation system, video content management system and programs |
JP7274235B2 (en) * | 2021-09-16 | 2023-05-16 | Jcc株式会社 | video content management system |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06250687A (en) * | 1993-02-25 | 1994-09-09 | Nippondenso Co Ltd | Voice recognition device for unspecified speaker |
JP4770875B2 (en) * | 1999-09-27 | 2011-09-14 | 三菱電機株式会社 | Image feature data generation device, image feature determination device, and image search system |
JP3592194B2 (en) * | 2000-01-21 | 2004-11-24 | 株式会社リコー | Video content description generation method, video content description generation device, and recording medium |
JP3930466B2 (en) * | 2003-08-29 | 2007-06-13 | 株式会社東芝 | Character recognition device, character recognition program |
JP4413633B2 (en) * | 2004-01-29 | 2010-02-10 | 株式会社ゼータ・ブリッジ | Information search system, information search method, information search device, information search program, image recognition device, image recognition method and image recognition program, and sales system |
JP2006163285A (en) * | 2004-12-10 | 2006-06-22 | Matsushita Electric Ind Co Ltd | Device, method and program for speech recognition, and recording medium |
JP2007004281A (en) * | 2005-06-21 | 2007-01-11 | Mitsubishi Electric Corp | Voice mail input device |
US8112276B2 (en) * | 2005-12-14 | 2012-02-07 | Mitsubishi Electric Corporation | Voice recognition apparatus |
JP5029030B2 (en) * | 2007-01-22 | 2012-09-19 | 富士通株式会社 | Information grant program, information grant device, and information grant method |
JP2008226110A (en) * | 2007-03-15 | 2008-09-25 | Seiko Epson Corp | Information processor, information processing method and control program |
JP4987566B2 (en) * | 2007-05-22 | 2012-07-25 | 株式会社東芝 | Program reservation management apparatus and control method thereof |
JP5091708B2 (en) * | 2008-02-15 | 2012-12-05 | 日本放送協会 | Search information creation device, search information creation method, search information creation program |
JP2010108296A (en) * | 2008-10-30 | 2010-05-13 | Canon Inc | Information processor and information processing method |
JP2010239507A (en) * | 2009-03-31 | 2010-10-21 | Toshiba Corp | Moving image processing apparatus |
JP2011103525A (en) * | 2009-11-10 | 2011-05-26 | Sharp Corp | Av device and av system |
JP2011239141A (en) * | 2010-05-10 | 2011-11-24 | Sony Corp | Information processing method, information processor, scenery metadata extraction device, lack complementary information generating device and program |
JP2015102805A (en) * | 2013-11-27 | 2015-06-04 | アルパイン株式会社 | Voice recognition system, electronic device, server, voice recognition method and voice recognition program |
-
2016
- 2016-08-25 JP JP2016165100A patent/JP6857983B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018033048A (en) | 2018-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6857983B2 (en) | Metadata generation system | |
JP4580885B2 (en) | Scene information extraction method, scene extraction method, and extraction apparatus | |
US7640158B2 (en) | Automatic detection and application of editing patterns in draft documents | |
CN106534548B (en) | Voice error correction method and device | |
US8155969B2 (en) | Subtitle generation and retrieval combining document processing with voice processing | |
US7831423B2 (en) | Replacing text representing a concept with an alternate written form of the concept | |
CN106570180B (en) | Voice search method and device based on artificial intelligence | |
US20090113293A1 (en) | Document editing using anchors | |
CN105956053B (en) | A kind of searching method and device based on the network information | |
CN107608960B (en) | Method and device for linking named entities | |
CN108052630B (en) | Method for extracting expansion words based on Chinese education videos | |
CN112541095B (en) | Video title generation method and device, electronic equipment and storage medium | |
US10595098B2 (en) | Derivative media content systems and methods | |
US10499121B2 (en) | Derivative media content systems and methods | |
CN111259645A (en) | Referee document structuring method and device | |
CN112382295B (en) | Speech recognition method, device, equipment and readable storage medium | |
KR102170844B1 (en) | Lecture voice file text conversion system based on lecture-related keywords | |
CN114281979A (en) | Text processing method, device and equipment for generating text abstract and storage medium | |
JP4528705B2 (en) | Character recognition device and character recognition method | |
Koka | Automatic keyword detection for text summarization | |
CN111310457B (en) | Word mismatching recognition method and device, electronic equipment and storage medium | |
US11907284B2 (en) | Method and a system for processing an image and for generating a contextually coherent video based on images processed thereby | |
JP2018081390A (en) | Video recorder | |
JP5152857B2 (en) | Electronic device, display control method, and program | |
US20120209883A1 (en) | Content item search apparatus and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190823 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200901 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20201030 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210323 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6857983 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |