JP2010186307A - Moving image content identification apparatus and moving image content identification method - Google Patents
Moving image content identification apparatus and moving image content identification method Download PDFInfo
- Publication number
- JP2010186307A JP2010186307A JP2009029790A JP2009029790A JP2010186307A JP 2010186307 A JP2010186307 A JP 2010186307A JP 2009029790 A JP2009029790 A JP 2009029790A JP 2009029790 A JP2009029790 A JP 2009029790A JP 2010186307 A JP2010186307 A JP 2010186307A
- Authority
- JP
- Japan
- Prior art keywords
- moving image
- image content
- feature amount
- key frame
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、ハードディスクドライブやその他のメディア、ネットワークストレージ等に
保存されている動画コンテンツが、特定の動画コンテンツの一部を含むか否かを判定する
動画コンテンツ識別装置および動画コンテンツ識別方法に関する。
The present invention relates to a moving image content identification apparatus and a moving image content identification method for determining whether moving image content stored in a hard disk drive, other media, network storage, or the like includes a part of specific moving image content.
近年のブロードバンドの普及、およびHDD(Hard Disk Drive)、DVD(Digital Versatile Disk)、Blu-ray disc等のストレージの大容量化に伴って、デジタルコンテンツを著作権者やコンテンツプロバイダの許諾を得ずに、ネットワークを介して共有・公開することが容易になってきており、このような不正な共有・公開が問題となっている。このような問題に対して、デジタルコンテンツの指紋(特徴量)を利用して、複数のデジタルコンテンツの中から、著作権者が自由配布を許諾していない特定のコンテンツを自動的に検出する技術が提案されている。 With the spread of broadband in recent years and the increase in storage capacity of HDDs (Hard Disk Drives), DVDs (Digital Versatile Disks), Blu-ray discs, etc., digital content has not been approved by copyright holders or content providers. In addition, sharing and disclosing via a network has become easier, and such illegal sharing and disclosing has become a problem. Technology to automatically detect specific contents that the copyright holder has not permitted free distribution from among a plurality of digital contents by using fingerprints (features) of the digital contents for such problems. Has been proposed.
特許文献1では、三次元周波数解析と主成分分析を用いて、コンテンツの特徴量を記述している。この手法では、空間周波数解析(DCT)で得られた係数に時間軸方向への周波数解析(FFT)を加えた三次元周波数解析を行ない、さらに主成分分析により三次元周波数解析で得られた係数から特徴量を抽出している。特許文献2では、特許文献1で利用されている特徴量を用いて、流通コンテンツと類似している特定コンテンツを絞り込み、絞り込めない場合には、位相限定相関法を用いて流通コンテンツと最も類似している特定コンテンツを決定し、閾値によって同一コンテンツであるか否かを判定している。
In
非特許文献1では、映像の各フレーム全体からカラーレイアウトと呼ばれる特徴量を抽出し、複数のフレームをシーケンシャルにマッチングさせることで、映像の一部分が切り取られる等の時間的編集が行われた場合でも検出を可能にしている。
In Non-Patent
また、非特許文献2では、映像の各フレームからコーナーと呼ばれる特徴点を検出し、その周辺から特徴量を抽出し、各特徴点をマッチングさせることによって、切り取り等の編集が行なわれた場合であっても、不正流通コンテンツを検出できるようにしている。
Further, in
しかしながら、特許文献1および2で開示されている手法では、動画コンテンツ1つから1つの特徴量を抽出するため、例えば、動画コンテンツを2つに分割する等の時間軸方向の編集が行なわれると検出ができなくなるという問題がある。非特許文献1で開示されている手法では、画面全体から1つの特徴量のみを抽出しているため、テロップやロゴを挿入するような空間的編集が行われると検出ができなくなる問題がある。また、非特許文献2で開示されている手法では、1画面から数十個の特徴点を抽出し、それら全てをマッチングさせているため、特徴点の抽出およびマッチングに時間がかかりすぎるという問題がある。
However, in the methods disclosed in
本発明は、このような事情に鑑みてなされたものであり、参照動画コンテンツの時間軸上の一部分を切り出したり、参照動画コンテンツにテロップやロゴが挿入されたりしても、動画コンテンツの識別を可能とし、その処理を高速に行なうことができる動画コンテンツ識別装置および動画コンテンツ識別方法を提供することを目的とする。 The present invention has been made in view of such circumstances, and even if a part of the reference video content on the time axis is cut out or a telop or logo is inserted into the reference video content, the video content is identified. An object of the present invention is to provide a moving image content identification device and a moving image content identification method capable of performing the processing at high speed.
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明の動画コンテンツ識別装置は、識別対象である識別動画コンテンツが、識別基準である参照動画コンテンツの全部または一部を含むかどうかを判定する動画コンテンツ識別装置であって、前記動画コンテンツを入力する動画コンテンツ入力部と、前記入力された動画コンテンツを構成する複数のフレームからキーフレームを選択し、前記選択したキーフレームの特徴量を抽出する特徴量抽出部と、前記動画コンテンツ入力部から前記識別動画コンテンツが入力され、前記特徴量抽出部が前記識別動画コンテンツに含まれる前記キーフレームの特徴量を抽出した場合、前記抽出された特徴量毎に、データベースに格納されている前記参照動画コンテンツのキーフレームの特徴量を検索するデータベース検索部と、を備え、前記検索の結果、前記識別動画コンテンツの特徴量に対応する前記参照動画コンテンツの特徴量の個数に基づいて、前記識別動画コンテンツが前記参照動画コンテンツの全部または一部を含むかどうかの判定を行なうことを特徴としている。 (1) In order to achieve the above object, the present invention takes the following measures. That is, the moving image content identification device of the present invention is a moving image content identification device that determines whether or not the identified moving image content that is the identification target includes all or part of the reference moving image content that is the identification criterion. A video content input unit that selects a key frame from a plurality of frames constituting the input video content, and extracts a feature amount of the selected key frame; and the video content input unit When the identified moving image content is input from and the feature amount extraction unit extracts the feature amount of the key frame included in the identified moving image content, the reference stored in the database for each extracted feature amount A database search unit that searches for keyframe feature quantities of video content, and As a result of the search, based on the number of feature quantities of the reference video content corresponding to the feature quantity of the identified video content, it is determined whether or not the identified video content includes all or part of the reference video content. It is characterized by.
このように、識別動画コンテンツのキーフレームの特徴量を抽出し、抽出された特徴量毎に、データベースに格納されている参照動画コンテンツのキーフレームの特徴量を検索し、識別動画コンテンツの特徴量に対応する参照動画コンテンツの特徴量の個数に基づいて、識別動画コンテンツが参照動画コンテンツの全部または一部を含むかどうかの判定を行なうので、識別動画コンテンツの全部または一部が、参照動画コンテンツの時間軸上の一部分を切り出したり、参照動画コンテンツにテロップやロゴが挿入されたりした場合であっても、動画コンテンツの識別が可能となり、検索時間の短縮および検索の精度を高めることが可能となる。 In this way, the feature amount of the key frame of the identified moving image content is extracted, the feature amount of the key frame of the reference moving image content stored in the database is searched for each extracted feature amount, and the feature amount of the identified moving image content It is determined whether or not the identified video content includes all or part of the reference video content based on the number of feature quantities of the reference video content corresponding to the reference video content. Video content can be identified even when a part of the time axis is cut out or a telop or logo is inserted in the reference video content, which can reduce search time and improve search accuracy. Become.
(2)また、本発明の動画コンテンツ識別装置において、前記特徴量抽出部は、前記動画コンテンツ入力部から前記識別動画コンテンツが入力された場合、前記選択した識別動画コンテンツのキーフレームのタイムコードを取得し、前記データベース検索部は、前記識別動画コンテンツの特徴量におけるタイムコードと、前記識別動画コンテンツの特徴量に対応する前記参照動画コンテンツの特徴量におけるタイムコードとの差分値を、前記識別動画コンテンツの特徴量毎に算出し、同じ値の前記差分値の個数が、所定の閾値以上であった場合、前記識別動画コンテンツは前記参照動画コンテンツの全部または一部を含むと判定することを特徴としている。 (2) Further, in the moving image content identification device of the present invention, the feature amount extraction unit, when the identification moving image content is input from the moving image content input unit, displays a time code of a key frame of the selected identification moving image content. The database search unit obtains a difference value between a time code in the feature amount of the identified moving image content and a time code in the feature amount of the reference moving image content corresponding to the feature amount of the identified moving image content. It is calculated for each feature amount of content, and when the number of the difference values having the same value is equal to or greater than a predetermined threshold, it is determined that the identified moving image content includes all or part of the reference moving image content. It is said.
このように、識別動画コンテンツの特徴量におけるタイムコードと、識別動画コンテンツの特徴量に対応する参照動画コンテンツの特徴量におけるタイムコードとの差分値を、識別動画コンテンツの特徴量毎に算出し、同じ値の前記差分値の個数が、所定の閾値以上であった場合、識別動画コンテンツは参照動画コンテンツの全部または一部を含むと判定するので、識別動画コンテンツの全部または一部が、参照動画コンテンツの時間軸上の一部分を切り出したものである場合でも、動画コンテンツの識別が可能となる。 In this way, a difference value between the time code in the feature amount of the identified video content and the time code in the feature amount of the reference video content corresponding to the feature amount of the identified video content is calculated for each feature amount of the identified video content, If the number of the difference values having the same value is equal to or greater than a predetermined threshold value, it is determined that the identified video content includes all or part of the reference video content. Even when a part of the content on the time axis is cut out, the moving image content can be identified.
(3)また、本発明の動画コンテンツ識別装置は、前記動画コンテンツ入力部から前記参照動画コンテンツが入力され、前記特徴量抽出部で前記参照動画コンテンツに含まれる前記キーフレームの特徴量が抽出された場合、前記抽出された参照動画コンテンツに含まれる前記キーフレームの特徴量を蓄積する特徴量蓄積部をさらに備えることを特徴としている。 (3) In the moving image content identification device of the present invention, the reference moving image content is input from the moving image content input unit, and the feature amount of the key frame included in the reference moving image content is extracted by the feature amount extraction unit. A feature amount storage unit for storing the feature amount of the key frame included in the extracted reference moving image content.
このように、動画コンテンツ入力部から参照動画コンテンツが入力され、特徴量抽出部で参照動画コンテンツに含まれるキーフレームの特徴量が抽出された場合、抽出された参照動画コンテンツに含まれるキーフレームの特徴量を蓄積し、データベースを構築するので、識別基準となる参照動画コンテンツのデータベースを構築することが可能となる。 As described above, when the reference video content is input from the video content input unit, and the feature amount of the key frame included in the reference video content is extracted by the feature amount extraction unit, the key frame included in the extracted reference video content is extracted. Since the feature amount is accumulated and the database is constructed, it is possible to construct a database of reference moving image content serving as an identification standard.
(4)また、本発明の動画コンテンツ隙別装置において、前記特徴量抽出部は、予め設定された複数の領域に対して、独立にキーフレームを設定することを特徴としている。 (4) Further, in the moving image content gap identification device according to the present invention, the feature amount extraction unit sets key frames independently for a plurality of preset regions.
このように、予め設定された複数の領域に対して、独立にキーフレームを設定するので、参照動画コンテンツの時間軸上の一部分を切り出したり、参照動画コンテンツにテロップやロゴが挿入されたりしても、動画コンテンツの識別が可能となる。 In this way, since key frames are set independently for a plurality of preset areas, a part of the reference video content on the time axis may be cut out, or a telop or logo may be inserted into the reference video content In addition, it is possible to identify moving image content.
(5)また、本発明の動画コンテンツ識別装置において、前記特徴量抽出部は、前記キーフレームから予め設定された複数の領域から、それぞれ特徴量を抽出することを特徴としている。 (5) In the moving image content identification apparatus of the present invention, the feature amount extraction unit extracts feature amounts from a plurality of regions set in advance from the key frame.
このように、キーフレームから予め設定された複数の領域から、それぞれ特徴量を抽出するので、識別動画コンテンツのキーフレーム中にキャプションやロゴが挿入された場合であっても、高い検索精度を実現することが可能となる。 In this way, feature quantities are extracted from each of a plurality of preset areas from the key frame, so even if captions or logos are inserted into the key frame of the identification video content, high search accuracy is achieved. It becomes possible to do.
(6)また、本発明の動画コンテンツ識別装置において、前記特徴量蓄積部は、前記抽出した特徴量毎にインデックスを作成することを特徴としている。 (6) In the moving image content identification device according to the present invention, the feature amount storage unit creates an index for each extracted feature amount.
このように、抽出した特徴量毎にインデックスを作成するので、識別動画コンテンツの特徴量を用いて検索を行なう際に、処理の高速化を図ることが可能となる。 As described above, since an index is created for each extracted feature amount, it is possible to increase the processing speed when performing a search using the feature amount of the identified moving image content.
(7)また、本発明の動画コンテンツ識別装置において、前記データベース検索部は、前記特徴量抽出部で抽出された識別動画コンテンツのキーフレームおよび前記特徴量について、重要度を設定することを特徴としている。 (7) Further, in the moving image content identification device of the present invention, the database search unit sets importance for the key frame and the feature amount of the identified moving image content extracted by the feature amount extraction unit. Yes.
このように、特徴量抽出部で抽出された識別動画コンテンツのキーフレームおよび特徴量について、重要度を設定するので、この重要度の高い特徴量から検索を行なうことによって、一定時間で検索を打ち切った場合であっても、検索精度を高く維持することが可能となる。 In this way, since the importance level is set for the key frame and the feature amount of the identified moving image content extracted by the feature amount extraction unit, the search is terminated in a certain time by performing the search from the feature amount having the higher importance level. Even in such a case, it is possible to maintain high search accuracy.
(8)また、本発明の動画コンテンツ識別装置において、前記重要度は、キーフレームの時間的安定性および特徴量の特異性に基づいて設定されることを特徴としている。 (8) In the moving image content identification device of the present invention, the importance is set based on temporal stability of key frames and specificity of feature amounts.
このように、重要度は、キーフレームの時間的安定性および特徴量の特異性に基づいて設定されるので、検索を一定時間で打ち切ることができ、さらにその際の精度をなるべく高く維持することが可能となる。 In this way, since the importance is set based on the temporal stability of the key frame and the specificity of the feature amount, the search can be terminated in a certain time, and the accuracy at that time should be maintained as high as possible. Is possible.
(9)また、本発明の動画コンテンツ識別方法は、識別対象である識別動画コンテンツが、識別基準である参照動画コンテンツの全部または一部を含むかどうかを判定する動画コンテンツ識別方法であって、動画コンテンツ入力部から前記動画コンテンツを入力するステップと、特徴量抽出部において、前記入力された動画コンテンツを構成する複数のフレームからキーフレームを選択し、前記選択したキーフレームの特徴量を抽出するステップと、前記動画コンテンツ入力部から前記識別動画コンテンツが入力され、前記特徴量抽出部が前記識別動画コンテンツに含まれる前記キーフレームの特徴量を抽出した場合、データベース検索部において、前記抽出された特徴量毎に、データベースに格納されている前記参照動画コンテンツのキーフレームの特徴量を検索するステップと、前記検索の結果、前記識別動画コンテンツの特徴量に対応する前記参照動画コンテンツの特徴量の個数に基づいて、前記識別動画コンテンツが前記参照動画コンテンツの全部または一部を含むかどうかの判定を行なうステップと、を少なくとも含むことを特徴としている。 (9) Further, the moving image content identification method of the present invention is a moving image content identification method for determining whether or not the identified moving image content to be identified includes all or part of the reference moving image content that is the identification criterion, The step of inputting the moving image content from the moving image content input unit, and the feature amount extraction unit select a key frame from a plurality of frames constituting the input moving image content, and extract the feature amount of the selected key frame And when the identification video content is input from the video content input unit and the feature amount extraction unit extracts the feature amount of the key frame included in the identification video content, the database search unit extracts the extracted feature amount. The key of the reference video content stored in the database for each feature amount Searching for a feature amount of a frame; and, as a result of the search, based on the number of feature amounts of the reference moving image content corresponding to the feature amount of the identified moving image content, the identified moving image content includes all of the reference moving image content or And a step of determining whether or not a part is included.
このように、識別動画コンテンツのキーフレームの特徴量を抽出し、抽出された特徴量毎に、データベースに格納されている参照動画コンテンツのキーフレームの特徴量を検索し、識別動画コンテンツの特徴量に対応する参照動画コンテンツの特徴量の個数に基づいて、識別動画コンテンツが参照動画コンテンツの全部または一部を含むかどうかの判定を行なうので、識別動画コンテンツの全部または一部が、参照動画コンテンツの時間軸上の一部分を切り出したり、参照動画コンテンツにテロップやロゴが挿入されたりした場合であっても、動画コンテンツの識別が可能となり、検索時間の短縮および検索の精度を高めることが可能となる。 In this way, the feature amount of the key frame of the identified moving image content is extracted, the feature amount of the key frame of the reference moving image content stored in the database is searched for each extracted feature amount, and the feature amount of the identified moving image content It is determined whether or not the identified video content includes all or part of the reference video content based on the number of feature quantities of the reference video content corresponding to the reference video content. Video content can be identified even when a part of the time axis is cut out or a telop or logo is inserted in the reference video content, which can reduce search time and improve search accuracy. Become.
本発明によれば、識別動画コンテンツのキーフレームの特徴量を抽出し、抽出された特徴量毎に、データベースに格納されている参照動画コンテンツのキーフレームの特徴量を検索し、識別動画コンテンツの特徴量に対応する参照動画コンテンツの特徴量の個数に基づいて、識別動画コンテンツが参照動画コンテンツの全部または一部を含むかどうかの判定を行なうので、識別動画コンテンツの全部または一部が、参照動画コンテンツの時間軸上の一部分を切り出したり、参照動画コンテンツにテロップやロゴが挿入されたりした場合であっても、動画コンテンツの識別が可能となり、検索時間の短縮および検索の精度を高めることが可能となる。 According to the present invention, the feature amount of the key frame of the identified moving image content is extracted, the feature amount of the key frame of the reference moving image content stored in the database is searched for each extracted feature amount, and Since whether or not the identified video content includes all or part of the reference video content is determined based on the number of feature quantities of the reference video content corresponding to the feature amount, all or part of the identified video content is referred to Even if a part of the video content on the time axis is cut out or a telop or logo is inserted in the reference video content, it is possible to identify the video content, thereby shortening the search time and improving the search accuracy. It becomes possible.
以下、本発明の実施形態について図面を参照して説明する。本実施形態では、予め検出を行なおうとする著作権コンテンツを参照動画コンテンツとして入力し、特徴量を抽出しデータベースを構築しておく。その後、入力された識別動画コンテンツについて、参照動画コンテンツの一部が識別動画コンテンツに含まれているか否かを判定する。 Embodiments of the present invention will be described below with reference to the drawings. In the present embodiment, copyright content to be detected in advance is input as reference moving image content, feature quantities are extracted, and a database is constructed. Thereafter, for the input identified moving image content, it is determined whether or not a part of the reference moving image content is included in the identified moving image content.
図1は、本発明の実施形態に係る動画コンテンツ識別装置のブロック図である。図1に示すように、動画コンテンツ識別装置10は、動画コンテンツ入力部11、特徴量抽出部12、データベース13、データベース検索部14、および特徴量蓄積部15から構成されている。また、これらの構成要素は、制御バス16に接続され、相互に信号の送受信を行なうことができる。
FIG. 1 is a block diagram of a moving image content identification apparatus according to an embodiment of the present invention. As shown in FIG. 1, the moving image
動画コンテンツ識別装置10は、動画コンテンツ入力部11から参照動画コンテンツおよび識別動画コンテンツを入力する。動画コンテンツ入力部11は、著作権者やコンテンツプロバイダから提供された参照用の動画コンテンツを入力する。通常は、複数の参照動画コンテンツが入力されるが、本実施形態では、入力された参照動画コンテンツ全てを連結し、1つの動画が入力されたものとして取り扱う。また、動画コンテンツ入力部11は、識別すべき動画コンテンツ、例えば、動画共有サイトにアップロードされた動画コンテンツや、様々なストレージに蓄積された動画コンテンツを入力する。
The moving image
特徴量抽出部12において、参照動画コンテンツおよび識別動画コンテンツの特徴量を抽出する。特徴量抽出部12では、参照動画コンテンツおよび識別動画コンテンツから特徴量を抽出する。動画コンテンツ入力部11から入力された動画コンテンツ(の映像信号)が、MPEG−2、H.264等の圧縮方式で圧縮されている場合は、伸張を行なう。ここでは、予め決定しておいた矩形領域Riごとに次の処理を行なう。なお、Riの配置と数は任意である。
The feature
図2A〜図2Cは、矩形領域Riの設定の例を示す図である。図2Aは、画面全体を1つの矩形領域とした場合である。キャプションやロゴなどが挿入されることを想定しないのであれば、この矩形領域を利用する。図2Bは、画面下や画面右に字幕などの編集が想定される場合の矩形領域の設定である。どちらか片方に編集が行なわれても、他方の矩形領域に影響がない。図2Cは、編集が行なわれる場所を予め決めない場合の矩形領域の設定である。 Figure 2A~ 2C are diagrams showing an example of setting the rectangular region R i. FIG. 2A shows a case where the entire screen is a single rectangular area. If it is not assumed that captions or logos are inserted, this rectangular area is used. FIG. 2B shows the setting of a rectangular area when editing such as subtitles is assumed at the bottom or right of the screen. Even if editing is performed on either one, the other rectangular area is not affected. FIG. 2C shows the setting of a rectangular area when the location where editing is performed is not determined in advance.
以下、領域の個数をNRとする。図3は、いずれかのフレームを選択し、矩形領域Riの特徴量xi(t)を抽出する様子を示す図である。図3に示すように、動画コンテンツの各フレームの領域Ri(1≦ i≦NR)から、特徴量xi(t) = (xi 1(t), xi 2(t),・・・xi NDim(t))を抽出する。なお、tは、フレーム番号、NDimは特徴量の次元数である。ここで利用する特徴量は基本的に任意である。例えば、MPEG-7に規定されている、Dominant color、Scalable color、Color structure、Color layout、Edge histogram、Contour shape、Motion activity 等を利用することができる。 Hereinafter, the number of regions is N R. FIG. 3 is a diagram illustrating a state in which one of the frames is selected and the feature amount x i (t) of the rectangular region R i is extracted. As shown in FIG. 3, from the region R i (1 ≦ i ≦ N R ) of each frame of the moving image content, the feature amount x i (t) = (x i 1 (t), x i 2 (t),.・ ・ X i NDim (t)) is extracted. Note that t is the frame number and NDim is the number of dimensions of the feature quantity. The feature quantity used here is basically arbitrary. For example, Dominant color, Scalable color, Color structure, Color layout, Edge histogram, Contour shape, Motion activity, etc. defined in MPEG-7 can be used.
ここでは、特徴量としてMPEG-7に規定されているColor layout を利用した場合について説明する。図4は、Color layoutによる特徴量の抽出の方法を示す図である。まず、フレームtの領域Riを、8×8に縮小する。そして、必要であればYCbCr表色系に変換する。その後、離散コサイン変換(DCT)を行ない、得られた係数のうち、低周波からY成分なら6係数、CbCr成分なら3係数をジグザグスキャンの順序で選択し、特徴量とする。この場合NDim = 12である。また、Color layout で利用する特徴量をY成分に限定し、DC係数を利用しないとすることで、グレースケール化や輝度のシフトが行なわれても変化しない特徴量とすることもできる。さらにDCTを行なう前に、ヒストグラムの正規化を行なうことでガンマ補正やコントラスト調整にロバストな特徴量とすることもできる。 Here, the case where the color layout defined in MPEG-7 is used as a feature amount will be described. FIG. 4 is a diagram illustrating a method of extracting feature amounts by color layout. First, the region R i of frame t, is reduced to 8 × 8. If necessary, it is converted to the YCbCr color system. After that, discrete cosine transform (DCT) is performed, and among the obtained coefficients, 6 coefficients for the Y component and 3 coefficients for the CbCr component are selected from the low frequency in the zigzag scan order, and used as the feature amount. In this case, NDim = 12. Further, by limiting the feature quantity used in the color layout to the Y component and not using the DC coefficient, it is possible to obtain a feature quantity that does not change even when gray scale conversion or luminance shift is performed. Furthermore, by performing normalization of the histogram before performing DCT, it is possible to make the feature amount robust to gamma correction and contrast adjustment.
図6は、特徴量抽出部12の動作を示すフローチャートである。ここでtは動画コンテンツのフレーム番号、iは予め設定されている領域の番号である。図6に示すように、tを1に設定し(ステップS1)、iを1に設定し(ステップS2)、特徴量を抽出する(ステップS3)。次に、iに1を加算し(ステップS4)、iが領域の個数NRより大きくなったかどうかを判断する(ステップS5)。iが領域の個数NRより大きくなっていない場合は、ステップS3へ遷移する。一方、ステップS5において、iが領域の個数NRより大きくなった場合は、tに1を加算し(ステップS6)、tがNFよりも大きくなったかどうかを判断する(ステップS7)。なお、NFとは、入力動画コンテンツのフレーム数である。ステップS7において、tがNFよりも大きくなっていない場合は、ステップS2へ遷移する。一方、tがNFよりも大きくなった場合は、終了する。
FIG. 6 is a flowchart showing the operation of the feature
本発明では、各フレームの領域Riから特徴量xi(t)を抽出した後、全てのフレームの特徴量を利用する代わりに、特定のフレームをキーフレームとして選択し、そのフレームの特徴量のみを利用する。すなわち、特徴量抽出部12は、予め設定された複数の領域に対して、独立にキーフレームを設定する。そして、キーフレームから予め設定された複数の領域から、それぞれ特徴量を抽出する。
In the present invention, after extracting the feature value x i (t) from the region R i of each frame, instead of using the feature value of all the frames, a specific frame is selected as a key frame, and the feature value of the frame is selected. Use only. That is, the feature
図5は、キーフレーム候補を選択する概念を示す図である。キーフレームの選択では、まず特徴量の第kj成分(xi kj(t))が極値をとるtを候補とする(1≦kj≦NK)。ここでNKは利用する係数の数である。ノイズの影響を軽減するため、極値を求める前に、各xi kj(t)に時間方向の平滑化フィルタ(ガウシアン等)をかけてもよい。具体的な極値の求め方は、x'i kj(t) = 0となるtをゼロ交差法で求める。さらに、このtが、各kjに予め定められた正の整数Wjに対して、
x’i kj(t -Wj) < x’i kj(t -Wj + 1) <・・・< x’i kj(t) <・・・< x’i kj(t +Wj- 1) < x’i kj(t +Wj)
または
x’i kj(t -Wj) > x’i kj(t -Wj + 1) >・・・> x’i kj(t) >・・・> x’i kj(t +Wj- 1) > x’i kj(t +Wj)
を満たすとき、領域Riにおいてフレームtをキーフレームとする。
FIG. 5 is a diagram illustrating the concept of selecting key frame candidates. The selection of a key frame, starters k j component of the feature (x i kj (t)) is a candidate for t to an extreme value (1 ≦ k j ≦ N K ). Where N K is the number of coefficients to be used. In order to reduce the influence of noise, a smoothing filter (Gaussian or the like) in the time direction may be applied to each x i kj (t) before obtaining the extreme value. As a specific method for obtaining extreme values, t where x ′ i kj (t) = 0 is obtained by the zero crossing method. Furthermore, this t is a positive integer W j predetermined for each k j ,
x ' i kj (t -W j ) <x' i kj (t -W j + 1) <... <x ' i kj (t) <... <x' i kj (t + W j- 1) <x ' i kj (t + W j )
Or
x ' i kj (t -W j )>x' i kj (t -W j + 1)> ・ ・ ・> x ' i kj (t)> ・ ・ ・>x' i kj (t + W j- 1)> x ' i kj (t + W j )
When satisfying, the frame t keyframes in the region R i.
図7は、キーフレームを選択する動作を示すフローチャートである。ここでiは予め設定されている領域の番号であり、jは極値検出に利用する係数の番号である。図7に示すように、まず、iを1に設定し(ステップS11)、jを1に設定し(ステップS12)、x’i kj(t)が極値となるtをすべて抽出する(ステップS13)。次に、jに1を加算し(ステップS14)、jがNKより大きくなったかどうかを判断する(ステップS15)。jがNKより大きくなっていない場合は、ステップS13へ遷移する。一方、ステップS15において、jがNKより大きくなった場合は、iに1を加算し(ステップS16)、iが領域の個数NRよりも大きくなったかどうかを判断する(ステップS17)。ステップS17において、iがNRよりも大きくなっていない場合は、ステップS12へ遷移する。一方、iがNRよりも大きくなった場合は、終了する。
FIG. 7 is a flowchart showing an operation for selecting a key frame. Here, i is the number of a preset region, and j is the number of a coefficient used for extreme value detection. As shown in FIG. 7, first, i is set to 1 (step S11), j is set to 1 (step S12), and all t where x ' i kj (t) has an extreme value are extracted (step S12). S13). Then, 1 is added to j (step S14), j is determined whether or not greater than N K (step S15). j is If it is not greater than N K, a transition to step S13. On the other hand, in step S15, j is if it is greater than
なお、特徴量抽出部12は、参照動画コンテンツと同様に、識別動画コンテンツに対して、キーフレームを選択し、特徴量を抽出する。
The feature
特徴量蓄積部15は、特徴量抽出部12で抽出された特徴量を、検索が高速になるようにインデックス化し、データベース13に蓄積する。特徴量抽出部12で選択されたキーフレームおよびそのキーフレームのタイムコードをデータベース13に蓄積する。具体的には、特徴量xi(t)、タイムコードt、ビデオIDを、領域iおよびキーフレームの選択の基準となった特徴量の第kj成分ごとにデータベースDi jに蓄積する。
The feature
この際、検索(最近傍探索)を高速で行なうことができるように、木構造やハッシュを用いたインデックスを利用することができる。このような手法としては、R-tree、ANN(Approximate Nearest Neighbor)、LSH(Locality Sensitive Hashing)等が存在する。 At this time, an index using a tree structure or a hash can be used so that a search (nearest neighbor search) can be performed at high speed. Examples of such methods include R-tree, ANN (Approximate Nearest Neighbor), and LSH (Locality Sensitive Hashing).
データベース検索部14は、特徴量抽出部12で抽出された特徴量をデータベースから検索し、部分一致するコンテンツを検索する。データベース検索部14では、識別動画コンテンツの一部が、参照動画コンテンツの一部から構成されていると仮定し、共通する区間を推定する。その後共通する区間候補の類似度を計算し、閾値により本当に同一の区間であるかを判定する。特徴量抽出部12によって、領域iにおいて特徴量の第kj成分に基づいて選択されたキーフレームを、ti j(1),ti j(2),・・・,ti j(ni j)とする。ni jは、領域iにおいて特徴量の第kj成分に基づいて選択されたキーフレームの数である。データベース検索部14では、全てのi,jに対してキーフレームti j(1),ti j(2),・・・,ti j(ni j)の特徴量と、データベースDi j に蓄積されている特徴量を比較する。
The
この際に、検索を一定時間で打ち切ることができ、さらにその際の精度をなるべく保つために、データベースを検索するキーフレームに重要度を設定する。すなわち、重要度の高いキーフレームから検索を行ない、検索にかけられる時間が経過すると、そこで検索を打ち切ることとする。重要度Ii j(t)は、次の数式で定義する。
Ii j(t) =αPi j(t) + (1 -α)・Qij(t)
ここで、Pi j(t)は、キーフレームの時間的ずれに対するロバスト性を評価した項(キーフレームの時間的安定性)、Qi j(t)は、キーフレームの特徴量の特異性を評価した項である。それぞれ下記で定義する。
Pi j(t)=(min(xi kj(t)-xi kj(t-Wj),xi kj(t)-xi kj(t+Wj)))β
×(Σ1≦j≦NK(x'i kj(t))2)-γ
Qi j(t)=dM(xi(t))
dM(xi(t))は、予め参照動画コンテンツから求めておいた特徴量の分布に対するマハラノビス距離である。β、γは、チューニングによって定めるパラメータである。
At this time, the search can be terminated in a fixed time, and in order to keep the accuracy at that time as much as possible, the importance is set in the key frame for searching the database. That is, a search is performed from a key frame having a high importance level, and when the time required for the search elapses, the search is terminated there. The importance I i j (t) is defined by the following equation.
I i j (t) = αP i j (t) + (1 -α) ・ Q ij (t)
Here, P i j (t) is a term that evaluates robustness against temporal shift of key frames (temporal stability of key frames), and Q i j (t) is the peculiarity of key frame features. Is a term that evaluates. Each is defined below.
P i j (t) = (min (x i kj (t) -x i kj (tW j ), x i kj (t) -x i kj (t + W j ))) β
× (Σ 1 ≦ j ≦ NK (x ' i kj (t)) 2 ) -γ
Q i j (t) = d M (x i (t))
d M (x i (t)) is a Mahalanobis distance with respect to the distribution of the feature amount obtained in advance from the reference moving image content. β and γ are parameters determined by tuning.
各キーフレームの特徴量の重要度を算出すると、重要度の高いキーフレームの特徴量からデータベース検索を行なう。本発明では、識別動画コンテンツがいずれかの参照動画コンテンツの一部の複製であったと仮定し、複製が行なわれた先頭時刻を求める。具体的には下記の通りである。 When the importance of the feature amount of each key frame is calculated, a database search is performed from the feature amount of the key frame having a high importance. In the present invention, assuming that the identified moving image content is a copy of a part of any reference moving image content, the start time at which the copy was performed is obtained. Specifically, it is as follows.
領域iにおいて特徴量の第kj成分に基づいて選択されたキーフレームtのタイムコードをTCとする。このキーフレームtの特徴量xi(t) の最近傍となる特徴量を、データベースDi jから検索する。最近傍となった特徴量のタイムコードをTC'とする。この対応が正しければ識別動画コンテンツは時刻TC'-TCから複製されたことになるため、検索ごとにTC'-TCを推定し、投票によって、可能性の高いTC'-TCを複製候補とする。ロバスト性および速度向上のため時刻推定を固定パラメータT で量子化を行なうため、実際には[(TC'-TC)/T]に投票する。この投票は最近傍のみでなく、K近傍から投票を行なっても良い。その際には、計算時間は増加するが精度は向上する。最後に閾値Thより多くの投票が行なわれた時刻を検出結果として出力する。
Let TC be the time code of the key frame t selected based on the k j-th component of the feature quantity in the region i. A feature quantity that is the closest to the feature quantity x i (t) of the key frame t is searched from the database D i j . Let TC 'be the time code of the feature value that was closest. If this correspondence is correct, the identified video content has been copied from the time TC'-TC. Therefore, TC'-TC is estimated for each search, and the TC'-TC that has a high possibility is determined as a copy candidate by voting. . In order to quantize the time estimation with a fixed
図8は、データベース検索動作を示すフローチャートである。ここでcntは投票を行った特徴量の数のカウンタである。図8に示すように、まず、重要度を算出し(ステップS21)、最も重要度の高い特徴量で検索を行なう(ステップS22)。次に、上記の投票を行ない(ステップS23)、cntに1を加算する(ステップS24)。そして、cntが閾値Th2よりも大きくなったかどうかを判断する(ステップS25)。ステップS25において、cntが閾値Th2よりも大きくなっていない場合は、ステップS22へ遷移する。一方、cntが閾値Th2よりも大きくなった場合は、投票数がTh以上の時刻を全て出力して(ステップS26)、終了する。 FIG. 8 is a flowchart showing the database search operation. Here, cnt is a counter of the number of feature values that have been voted. As shown in FIG. 8, first, importance is calculated (step S21), and a search is performed with the feature quantity having the highest importance (step S22). Next, the voting is performed (step S23), and 1 is added to cnt (step S24). And it is judged whether cnt became larger than threshold value Th2 (step S25). If cnt is not greater than the threshold value Th2 in step S25, the process proceeds to step S22. On the other hand, when cnt is larger than the threshold value Th2, all times when the number of votes is Th or more are output (step S26), and the process is terminated.
10 動画コンテンツ識別装置
11 動画コンテンツ入力部
12 特徴量抽出部
13 データベース
14 データベース検索部
15 特徴量蓄積部
16 制御バス
DESCRIPTION OF
Claims (9)
前記動画コンテンツを入力する動画コンテンツ入力部と、
前記入力された動画コンテンツを構成する複数のフレームからキーフレームを選択し、前記選択したキーフレームの特徴量を抽出する特徴量抽出部と、
前記動画コンテンツ入力部から前記識別動画コンテンツが入力され、前記特徴量抽出部が前記識別動画コンテンツに含まれる前記キーフレームの特徴量を抽出した場合、前記抽出された特徴量毎に、データベースに格納されている前記参照動画コンテンツのキーフレームの特徴量を検索するデータベース検索部と、を備え、
前記検索の結果、前記識別動画コンテンツの特徴量に対応する前記参照動画コンテンツの特徴量の個数に基づいて、前記識別動画コンテンツが前記参照動画コンテンツの全部または一部を含むかどうかの判定を行なうことを特徴とする動画コンテンツ識別装置。 A video content identification device that determines whether or not the identified video content that is the identification target includes all or part of the reference video content that is the identification criterion,
A video content input unit for inputting the video content;
A feature amount extraction unit that selects a key frame from a plurality of frames constituting the input video content and extracts a feature amount of the selected key frame;
When the identified moving image content is input from the moving image content input unit and the feature amount extraction unit extracts the feature amount of the key frame included in the identified moving image content, the extracted feature amount is stored in a database. A database search unit for searching for a feature amount of a key frame of the reference video content,
As a result of the search, it is determined whether or not the identified moving image content includes all or part of the reference moving image content based on the number of feature amounts of the reference moving image content corresponding to the feature amount of the identified moving image content. A moving image content identification apparatus characterized by the above.
前記データベース検索部は、前記識別動画コンテンツの特徴量におけるタイムコードと、前記識別動画コンテンツの特徴量に対応する前記参照動画コンテンツの特徴量におけるタイムコードとの差分値を、前記識別動画コンテンツの特徴量毎に算出し、同じ値の前記差分値の個数が、所定の閾値以上であった場合、前記識別動画コンテンツは前記参照動画コンテンツの全部または一部を含むと判定することを特徴とする請求項1記載の動画コンテンツ識別装置。 The feature amount extraction unit acquires a time code of a key frame of the selected identification video content when the identification video content is input from the video content input unit;
The database search unit uses the difference value between the time code in the feature amount of the identified moving image content and the time code in the feature amount of the reference moving image content corresponding to the feature amount of the identified moving image content as a feature of the identified moving image content. The identification moving image content is determined to include all or a part of the reference moving image content when the number of the difference values calculated for each amount is equal to or greater than a predetermined threshold value. Item 2. The moving image content identification device according to Item 1.
動画コンテンツ入力部から前記動画コンテンツを入力するステップと、
特徴量抽出部において、前記入力された動画コンテンツを構成する複数のフレームからキーフレームを選択し、前記選択したキーフレームの特徴量を抽出するステップと、
前記動画コンテンツ入力部から前記識別動画コンテンツが入力され、前記特徴量抽出部が前記識別動画コンテンツに含まれる前記キーフレームの特徴量を抽出した場合、データベース検索部において、前記抽出された特徴量毎に、データベースに格納されている前記参照動画コンテンツのキーフレームの特徴量を検索するステップと、
前記検索の結果、前記識別動画コンテンツの特徴量に対応する前記参照動画コンテンツの特徴量の個数に基づいて、前記識別動画コンテンツが前記参照動画コンテンツの全部または一部を含むかどうかの判定を行なうステップと、を少なくとも含むことを特徴とする動画コンテンツ識別方法。 A video content identification method for determining whether or not the identified video content that is the identification target includes all or part of the reference video content that is the identification criterion,
Inputting the video content from a video content input unit;
In the feature amount extraction unit, selecting a key frame from a plurality of frames constituting the input video content, and extracting the feature amount of the selected key frame;
When the identified moving image content is input from the moving image content input unit, and the feature amount extraction unit extracts the feature amount of the key frame included in the identified moving image content, the database search unit extracts each feature amount And searching for a keyframe feature quantity of the reference video content stored in the database;
As a result of the search, it is determined whether or not the identified moving image content includes all or part of the reference moving image content based on the number of feature amounts of the reference moving image content corresponding to the feature amount of the identified moving image content. A moving image content identification method comprising at least a step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009029790A JP2010186307A (en) | 2009-02-12 | 2009-02-12 | Moving image content identification apparatus and moving image content identification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009029790A JP2010186307A (en) | 2009-02-12 | 2009-02-12 | Moving image content identification apparatus and moving image content identification method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010186307A true JP2010186307A (en) | 2010-08-26 |
Family
ID=42766931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009029790A Withdrawn JP2010186307A (en) | 2009-02-12 | 2009-02-12 | Moving image content identification apparatus and moving image content identification method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010186307A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013070158A (en) * | 2011-09-21 | 2013-04-18 | Kddi Corp | Video retrieval apparatus and program |
JP2014503095A (en) * | 2011-01-07 | 2014-02-06 | アルカテル−ルーセント | Method and apparatus for comparing pictures |
JP2017033169A (en) * | 2015-07-30 | 2017-02-09 | 日本電信電話株式会社 | Video identification device, method and program |
JP2019527444A (en) * | 2016-06-27 | 2019-09-26 | フェイスブック,インク. | System and method for identifying matching content |
WO2021099917A1 (en) * | 2019-11-20 | 2021-05-27 | International Business Machines Corporation | Method of searching images using rotational gesture input |
US11030462B2 (en) | 2016-06-27 | 2021-06-08 | Facebook, Inc. | Systems and methods for storing content |
-
2009
- 2009-02-12 JP JP2009029790A patent/JP2010186307A/en not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014503095A (en) * | 2011-01-07 | 2014-02-06 | アルカテル−ルーセント | Method and apparatus for comparing pictures |
JP2013070158A (en) * | 2011-09-21 | 2013-04-18 | Kddi Corp | Video retrieval apparatus and program |
JP2017033169A (en) * | 2015-07-30 | 2017-02-09 | 日本電信電話株式会社 | Video identification device, method and program |
JP2019527444A (en) * | 2016-06-27 | 2019-09-26 | フェイスブック,インク. | System and method for identifying matching content |
US11030462B2 (en) | 2016-06-27 | 2021-06-08 | Facebook, Inc. | Systems and methods for storing content |
WO2021099917A1 (en) * | 2019-11-20 | 2021-05-27 | International Business Machines Corporation | Method of searching images using rotational gesture input |
GB2605534A (en) * | 2019-11-20 | 2022-10-05 | Ibm | Method of searching images using rotational gesture input |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3477506B1 (en) | Video detection method, server and storage medium | |
US9087125B2 (en) | Robust video retrieval utilizing video data | |
Barrios et al. | Competitive content-based video copy detection using global descriptors | |
JP5005154B2 (en) | Apparatus for reproducing an information signal stored on a storage medium | |
CN106557545B (en) | Video retrieval method and device | |
EP2608107A2 (en) | System and method for fingerprinting video | |
US20090274364A1 (en) | Apparatus and methods for detecting adult videos | |
JP5097280B2 (en) | Method and apparatus for representing, comparing and retrieving images and image groups, program, and computer-readable storage medium | |
US8175392B2 (en) | Time segment representative feature vector generation device | |
JP2010186307A (en) | Moving image content identification apparatus and moving image content identification method | |
KR101634395B1 (en) | Video identification | |
JP2006092559A (en) | Method of representing at least one image and image group, representations of image or image group, method of comparing image and/or image group, method of encoding image or image group, method of decoding image or image sequence, use of encoded data, apparatus of representing image or image group, apparatus of comparing image and/or image group, computer program, system and computer readable storage medium | |
US20150304705A1 (en) | Synchronization of different versions of a multimedia content | |
Küçüktunç et al. | Video copy detection using multiple visual cues and MPEG-7 descriptors | |
JP5117670B2 (en) | Image and method for representing image group, method for comparing image or image group, method for retrieving image or image group, apparatus and system for executing each method, program, and computer-readable storage medium | |
JP5644505B2 (en) | Collation weight information extraction device | |
JP2011248671A (en) | Image retrieval device, program, and method for retrieving image among multiple reference images using image for retrieval key | |
Bekhet et al. | Video Matching Using DC-image and Local | |
JP2013070158A (en) | Video retrieval apparatus and program | |
Uchida et al. | Fast and accurate content-based video copy detection using bag-of-global visual features | |
Bhaumik et al. | Towards redundancy reduction in storyboard representation for static video summarization | |
JP5297297B2 (en) | Video content detection device | |
Wang et al. | Sequence-kernel based sparse representation for amateur video summarization | |
Pereira et al. | Robust video fingerprinting system | |
Pereira et al. | Evaluation of a practical video fingerprinting system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20120501 |