JPH1013832A - Moving picture recognizing method and moving picture recognizing and retrieving method - Google Patents
Moving picture recognizing method and moving picture recognizing and retrieving methodInfo
- Publication number
- JPH1013832A JPH1013832A JP16443096A JP16443096A JPH1013832A JP H1013832 A JPH1013832 A JP H1013832A JP 16443096 A JP16443096 A JP 16443096A JP 16443096 A JP16443096 A JP 16443096A JP H1013832 A JPH1013832 A JP H1013832A
- Authority
- JP
- Japan
- Prior art keywords
- screen
- feature vector
- image data
- compressed
- series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、動画像認識方法お
よび動画像認識検索方法に係わり、特に、一連の動画像
を表示する各画面の画像データの中から特定の動画像パ
ターンを認識・検索を行う動画像認識方法および動画像
認識検索方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a moving image recognizing method and a moving image recognizing and retrieving method, and more particularly, to recognizing and retrieving a specific moving image pattern from image data of each screen displaying a series of moving images. To a moving image recognition method and a moving image recognition search method.
【0002】[0002]
【従来の技術】動画像を対象としたパターン認識技術
は、近年多くの研究が行われており、その一つとして、
下記公報(イ)に記載されている手法が公知である。2. Description of the Related Art In recent years, a great deal of research has been conducted on pattern recognition technology for moving images.
The technique described in the following publication (a) is known.
【0003】(イ)特開平5−46583号公報 前記公報(イ)(特開平5−46583号公報)には、
動画像を表示する各画面の画像データから抽出した動物
体のメッシュ特徴をベクトル量子化によりシンボル化し
て、動画像系列をシンボル系列に変換し、当該シンボル
系列を学習・認識することにより、人間等の動物体の各
動作を認識する手法が記載されている。(A) Japanese Patent Application Laid-Open No. 5-46583 The above-mentioned Japanese Patent Application Publication (A) (Japanese Patent Application Laid-Open No. 5-46583) includes:
A mesh feature of a moving object extracted from image data of each screen displaying a moving image is symbolized by vector quantization, a moving image sequence is converted into a symbol sequence, and the symbol sequence is learned and recognized, thereby enabling a human or the like. A method for recognizing each motion of the moving object is described.
【0004】また、マルチメディアの中核技術を構成す
る、動画像データの蓄積あるいは伝送の際の情報圧縮技
術として、MEPG(Moving Picture E
xperts Group;メディア統合系動画像圧縮
の国際標準)、MEPG2といった国際標準符号化方式
が普及しつつある。[0004] In addition, as a data compression technology for storing or transmitting moving image data, which constitutes a core technology of multimedia, an MPEG (Moving Picture E) is used.
International standard encoding schemes such as xparts Group (international standard for media-integrated moving image compression) and MPEG2 are becoming widespread.
【0005】[0005]
【発明が解決しようとする課題】前記公報(イ)(特開
平5−46583号公報)に記載されている手法のよう
に、従来一連の動画像の中から、特定の動画像パターン
をその動画像パターン自体を検索キーとして検索する場
合は、大容量の画像データおよび特徴量データを取り扱
う必要があり、データ処理の処理時間が増大するという
問題点があった。As described in the above publication (A) (Japanese Patent Application Laid-Open No. 5-46583), a specific moving image pattern is selected from a conventional series of moving images by using the moving image. When a search is performed using the image pattern itself as a search key, it is necessary to handle a large amount of image data and feature amount data, and there is a problem in that the processing time of data processing increases.
【0006】また、MEPG、MEPG2等の標準符号
化方式が普及しつつあり、一連の動画像の中から、特定
の動画像パターンをその動画像パターン自体を検索キー
として検索する場合に、この標準符号化方式により圧縮
された動画像データを使用することにより、データ処理
の処理時間を短縮することが期待される。[0006] In addition, standard encoding methods such as MEPG and MEPG2 are becoming widespread, and when a specific moving image pattern is searched from a series of moving images using the moving image pattern itself as a search key, this standard coding method is used. By using moving image data compressed by the encoding method, it is expected that the processing time of data processing will be reduced.
【0007】しかしながら、標準符号化方式により圧縮
された動画像データを対象として、一連の動画像の中か
ら特定の動画像パターンを検索する最適な手法につい
て、従来何ら検討されていなかった。However, there has been no study on an optimal method for searching for a specific moving image pattern from a series of moving images by using moving image data compressed by the standard encoding method.
【0008】本発明は、前記問題点を解決するためにな
されたものであり、本発明の目的は、動画像認識方法に
おいて、標準符号化方式等により圧縮された動画像デー
タを使用し、データ処理時間を短縮することが可能とな
る技術を提供することにある。SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and an object of the present invention is to provide a method for recognizing a moving image using moving image data compressed by a standard encoding method or the like. An object of the present invention is to provide a technology capable of shortening a processing time.
【0009】本発明の他の目的は、動画像認識検索方法
において、標準符号化方式等により圧縮された動画像デ
ータを使用し、データ処理時間を短縮することが可能と
なる技術を提供することにある。[0009] Another object of the present invention is to provide a technique capable of shortening the data processing time by using moving picture data compressed by a standard coding method or the like in a moving picture recognition and retrieval method. It is in.
【0010】本発明の前記目的並びにその他の目的及び
新規な特徴は、本明細書の記載及び添付図面によって明
らかにする。The above and other objects and novel features of the present invention will become apparent from the description of the present specification and the accompanying drawings.
【0011】[0011]
【課題を解決するための手段】本願において開示される
発明のうち、代表的なものの概要を簡単に説明すれば、
下記の通りである。SUMMARY OF THE INVENTION Among the inventions disclosed in the present application, the outline of a representative one will be briefly described.
It is as follows.
【0012】(1)一連の動画像の動画像パターンを認
識する動画像認識方法において、一連の動画像を表示す
る各画面の画像データをM×Nのブロックに区切り、各
ブロックのDCT係数を抽出するステップと、前記DC
T係数の少なくとも1つを各画面の特徴ベクトルとして
抽出するステップと、特定の動画像パターンを表示する
各画面の特徴ベクトルで構成される時系列の特徴ベクト
ル列により、確率的な状態遷移モデルを、認識キーとな
る複数の特定の動画像パターン毎に学習するステップ
と、認識対象である一連の動画像を表示する各画面の画
像データから抽出された特徴ベクトルで構成される時系
列の特徴ベクトル列の、前記学習により得られた複数の
状態遷移モデルに対する尤度が最大となる状態遷移モデ
ルの動画像パターンを認識結果として出力するステップ
とを具備することを特徴とする。(1) In a moving image recognition method for recognizing a moving image pattern of a series of moving images, image data of each screen for displaying a series of moving images is divided into M × N blocks, and a DCT coefficient of each block is calculated. Extracting, said DC
A step of extracting at least one of the T coefficients as a feature vector of each screen, and a time-series feature vector sequence composed of feature vectors of each screen displaying a specific moving image pattern form a stochastic state transition model. Learning for each of a plurality of specific moving image patterns serving as a recognition key, and a time-series feature vector composed of feature vectors extracted from image data of each screen displaying a series of moving images to be recognized. Outputting, as a recognition result, a moving image pattern of a state transition model in which the likelihood of the sequence with respect to the plurality of state transition models obtained by the learning is maximized.
【0013】(2)前記(1)の手段において、前記認
識対象である一連の動画像を表示する各画面の画像デー
タが、標準符号化方式により圧縮されており、各画面の
特徴ベクトルとして、標準符号化方式により圧縮された
各画面の画像データ中に含まれるDCT係数の一部を使
用することを特徴とする。(2) In the means of (1), the image data of each screen displaying the series of moving images to be recognized is compressed by a standard encoding method, and the feature vector of each screen is It is characterized in that a part of the DCT coefficients included in the image data of each screen compressed by the standard encoding method is used.
【0014】(3)前記(1)の手段において、前記各
画面の特徴ベクトルとして、DCT係数とともに動きベ
クトルを使用することを特徴とする。(3) In the means of the above (1), a motion vector is used together with a DCT coefficient as a feature vector of each screen.
【0015】(4)前記(3)の手段において、前記認
識対象である一連の動画像を表示する各画面の画像デー
タが、標準符号化方式により圧縮されており、各画面の
特徴ベクトルとして、標準符号化方式により圧縮された
各画面の画像データ中に含まれるDCT係数の一部、お
よび、動き補償ベクトルを使用することを特徴とする。(4) In the means of (3), the image data of each screen displaying the series of moving images to be recognized is compressed by a standard encoding method, and the feature vector of each screen is It is characterized by using a part of DCT coefficients included in image data of each screen compressed by the standard encoding method and a motion compensation vector.
【0016】(5)一連の動画像の中から、特定の動画
像パターンを含む時間領域を抽出する動画像認識検索方
法において、一連の動画像を表示する各画面の画像デー
タをM×Nのブロックに区切り、各ブロックのDCT係
数を抽出するステップと、前記DCT係数の少なくとも
1つを各画面の特徴ベクトルとして抽出するステップ
と、検索キーとなる特定の動画像パターンを表示する各
画面の特徴ベクトルで構成される時系列の特徴ベクトル
列により、確率的な状態遷移モデルを学習するステップ
と、検索対象である一連の動画像を表示する各画面の画
像データから抽出された特徴ベクトルで構成される時系
列の特徴ベクトル列の中で、前記学習により得られた状
態遷移モデルに対する尤度が高い時間領域を検索結果と
して出力するステップとを具備することを特徴とする。(5) In a moving image recognition / retrieval method for extracting a time region including a specific moving image pattern from a series of moving images, image data of each screen displaying a series of moving images is M × N. Extracting a DCT coefficient of each block into blocks, extracting at least one of the DCT coefficients as a feature vector of each screen, and a feature of each screen displaying a specific moving image pattern serving as a search key. It consists of a step of learning a stochastic state transition model by a time-series feature vector sequence composed of vectors, and a feature vector extracted from image data of each screen displaying a series of moving images to be searched. A step of outputting, as a search result, a time domain having a high likelihood with respect to the state transition model obtained by the learning in the time-series feature vector sequence. Characterized by including and.
【0017】(6)前記(5)の手段において、前記検
索対象である一連の動画像を表示する各画面の画像デー
タが、標準符号化方式により圧縮されており、各画面の
特徴ベクトルとして、標準符号化方式により圧縮された
各画面の画像データ中に含まれるDCT係数の一部を使
用することを特徴とする。(6) In the means of (5), the image data of each screen displaying the series of moving images to be searched is compressed by a standard encoding method, and the feature vector of each screen is It is characterized in that a part of the DCT coefficients included in the image data of each screen compressed by the standard encoding method is used.
【0018】(7)前記(5)の手段において、前記各
画面の特徴ベクトルとして、DCT係数とともに動きベ
クトルを使用することを特徴とする。(7) In the means of the above (5), a motion vector is used together with a DCT coefficient as a feature vector of each screen.
【0019】(8)前記(7)の手段において、前記検
索対象である一連の動画像を表示する各画面の画像デー
タが、標準符号化方式により圧縮されており、各画面の
特徴ベクトルとして、標準符号化方式により圧縮された
各画面の画像データ中に含まれるDCT係数の一部、お
よび、動き補償ベクトルを使用することを特徴とする。(8) In the means of (7), the image data of each screen displaying the series of moving images to be searched is compressed by a standard encoding method, and the feature vector of each screen is It is characterized by using a part of DCT coefficients included in image data of each screen compressed by the standard encoding method and a motion compensation vector.
【0020】前記各手段によれば、特徴量としてDCT
係数、あるいはDCT係数および動き補償ベクトルを使
用し、MEPG,MEPG2等の標準符号化方式で圧縮
された少容量の動画像データから、特定の動画像パター
ンを直接認識・検索するようにしたので、データ処理の
処理時間を少なくすることが可能となる。According to each of the above-mentioned means, DCT is used as the characteristic amount.
A specific moving image pattern is directly recognized and searched from a small amount of moving image data compressed by a standard encoding method such as MEPG or MEPG2 using a coefficient or a DCT coefficient and a motion compensation vector. The processing time of data processing can be reduced.
【0021】[0021]
【発明の実施の形態】以下、本発明の発明の実施の形態
を図面を参照して詳細に説明する。Embodiments of the present invention will be described below in detail with reference to the drawings.
【0022】なお、発明の実施の形態を説明するための
全図において、同一機能を有するものは同一符号を付
け、その繰り返しの説明は省略する。In all the drawings for describing the embodiments of the present invention, components having the same function are denoted by the same reference numerals, and their repeated description will be omitted.
【0023】図1は、本発明の一発明の実施の形態であ
る動画像認識方法および動画像認識検索方法が適用され
る動画像認識検索装置の概略構成を示す機能ブロック図
である。FIG. 1 is a functional block diagram showing a schematic configuration of a moving image recognition and search apparatus to which a moving image recognition method and a moving image recognition and search method according to an embodiment of the present invention are applied.
【0024】図1において、1はMEPGデータ、2は
特徴抽出部、3は特徴格納用メモリ、4は量子化部、5
はシンボル格納メモリ、6はモデルパラメータ推定部、
7は認識用状態遷移モデル格納メモリ、8は尤度算出
部、9は認識結果用メモリである。In FIG. 1, 1 is MEPG data, 2 is a feature extraction unit, 3 is a feature storage memory, 4 is a quantization unit, 5
Is a symbol storage memory, 6 is a model parameter estimator,
7 is a memory for storing a state transition model for recognition, 8 is a likelihood calculator, and 9 is a memory for a recognition result.
【0025】ここで、前記認識用状態遷移モデル格納メ
モリ7および認識結果用メモリ9としては、例えば、外
部記憶装置を使用し、また、前記MEPGデータ1は、
例えば、外部記憶装置に格納されている。Here, for example, an external storage device is used as the recognition state transition model storage memory 7 and the recognition result memory 9, and the MEPG data 1 is
For example, it is stored in an external storage device.
【0026】本発明の実施の形態の基本的動作には、学
習と認識の3つの段階があり、学習時には、学習用のデ
ータから認識用状態遷移モデルのパラメータ推定を行い
認識カテゴリ(図1に示すカテゴリ1〜カテゴリ6)毎
に認識用状態遷移モデル格納メモリ7に格納する。The basic operation of the embodiment of the present invention has three stages of learning and recognition. At the time of learning, parameters of a state transition model for recognition are estimated from learning data, and a recognition category (see FIG. 1). Each of the categories 1 to 6 shown) is stored in the recognition state transition model storage memory 7.
【0027】また、認識時には、学習によって認識用状
態遷移モデル格納メモリ7に格納された、各カテゴリに
対応するモデルの尤度を算出し、最大の尤度を持つモデ
ルに対応するカテゴリを認識結果とする最尤推定を行
う。At the time of recognition, the likelihood of the model corresponding to each category stored in the recognition state transition model storage memory 7 by learning is calculated, and the category corresponding to the model having the maximum likelihood is determined. Is performed.
【0028】本発明の実施の形態の動画像認識方法およ
び動画像認識検索方法において、量子化までの処理は学
習時、認識時とも同一である。In the moving picture recognition method and the moving picture recognition and retrieval method according to the embodiment of the present invention, the processing up to quantization is the same at the time of learning and recognition.
【0029】以下、図1に沿って、本発明の実施の形態
動画像認識方法および動画像認識検索方法について説明
する。A moving image recognition method and a moving image recognition search method according to an embodiment of the present invention will be described below with reference to FIG.
【0030】まず、検索対象のMEPGデータ1から、
特徴抽出部2により、特徴ベクトルとして、DCT係数
を抽出する。First, from the MPEG data 1 to be searched,
The feature extraction unit 2 extracts a DCT coefficient as a feature vector.
【0031】ここで、MEPGデータ1について、簡単
に説明する。Here, the MEPG data 1 will be briefly described.
【0032】MEPG標準化符号化方式では、フレーム
内では8×8画素のブロック毎のDCT(離散コサイン
変換;Discrete Cosine Transfo
rm)係数と量子化により、また、フレーム間では動き
補償ベクトル情報を使用して、データを圧縮している。In the MPEG standardized coding system, DCT (Discrete Cosine Transform: Discrete Cosine Transform) for each block of 8 × 8 pixels in a frame.
rm) Data is compressed using coefficients and quantization, and using motion compensation vector information between frames.
【0033】また、通常のMEPGデータ1の各フレー
ムは、Iピクチャ,Pピクチャ,Bピクチャの3種類の
いずれかのタイプの符号化データで構成される。Each frame of normal MPEG data 1 is composed of coded data of any one of three types of I picture, P picture and B picture.
【0034】なお、Iピクチャはフレーム内符号化、P
ピクチャは順方向フレーム間予測符号化、Bピクチャは
双方向フレーム間予測符号化を意味する。It should be noted that the I picture is intra-frame coded,
A picture means forward inter-frame predictive coding, and a B picture means bidirectional inter-frame predictive coding.
【0035】通常のシーケンスでは、1つのGOP(G
roup of Picture)は、Iピクチャで始ま
り、画像の動きの激しさや要求画質等に応じて、適当な
間隔でPピクチャあるいはBピクチャを配置する。In a normal sequence, one GOP (G
(loop of Picture) starts with an I picture, and arranges a P picture or a B picture at an appropriate interval according to the intensity of motion of an image, required image quality, and the like.
【0036】本発明の実施の形態では、DCT係数を利
用するために、全てのフレームをIピクチャである画像
データに変換して使用する。In the embodiment of the present invention, in order to use the DCT coefficients, all the frames are converted into image data which is I pictures and used.
【0037】なお、I,P,Bピクチャから構成される
MEPGデータ1からIピクチャへのへの変換は、例え
ば、下記文献(ロ)に記載されているように、符号化デ
ータを直接操作することにより可能である。The conversion from the MPEG data 1 composed of I, P, and B pictures to an I picture is performed by directly operating the encoded data as described in, for example, the following document (b). This is possible.
【0038】(ロ)Shin-Fu Chang and David G. Messe
rchmitt:“A New Approach to Decoding and Compositi
ng Motion-Compensated DCT-Based Images”,Proceedin
gs ofICASSP'93(1993).図2は、MEPGデータ1およ
びMEPGデータ1のDCT係数の概略構成を示す図で
ある。(B) Shin-Fu Chang and David G. Messe
rchmitt: “A New Approach to Decoding and Compositi
ng Motion-Compensated DCT-Based Images ”, Proceedin
gs ofICASSP'93 (1993). FIG. 2 is a diagram showing a schematic configuration of the MEPG data 1 and the DCT coefficient of the MEPG data 1.
【0039】図2に示すように、MEPGデータ1で
は、1フレームの画像データを、1ブロックが8×8画
素で構成されるM×Nブロックに分割し、そのブロック
単位にDCT演算を行い、それにより、図2の最下段の
ブロック内の数字1〜64に示すDCT係数が得られ
る。As shown in FIG. 2, in the MPEG data 1, one frame of image data is divided into M × N blocks in which one block is composed of 8 × 8 pixels, and a DCT operation is performed for each block. As a result, DCT coefficients indicated by numerals 1 to 64 in the lowermost block in FIG. 2 are obtained.
【0040】本発明の実施の形態では、この8×8画素
のブロックのDCT係数の内、低周波成分のDCT係数
(図3に示すE1の領域のDCT係数)を適当な数を取
り出し、これを全ブロックに対して行い、取り出された
DCT係数全体を並べた数値列を、そのフレームの特徴
ベクトル(f)とする。In the embodiment of the present invention, an appropriate number of DCT coefficients of low frequency components (DCT coefficients in the area E1 shown in FIG. 3) are extracted from the DCT coefficients of the block of 8 × 8 pixels. Is performed on all the blocks, and a numerical sequence in which all the extracted DCT coefficients are arranged is set as a feature vector (f) of the frame.
【0041】仮に、32画素×32画素の画像を使用
し、各ブロックからi個のDCT係数を取り出すとする
と、全部で16個のブロックがあるので、この場合の特
徴ベクトルの次元は16iとなる。Assuming that an image of 32 pixels × 32 pixels is used and i DCT coefficients are extracted from each block, since there are 16 blocks in total, the dimension of the feature vector in this case is 16i. .
【0042】MPEGデータ1の1フレームの画像デー
タから1つの特徴ベクトル(f)が得られるので、一連
の動画像を表示する連続したフレーム(画面)の画像デ
ータから特徴ベクトル列(F)が得られ、この特徴ベク
トル列(F)は、特徴格納用メモリ3に記録される。Since one feature vector (f) is obtained from one frame of image data of the MPEG data 1, a feature vector sequence (F) is obtained from continuous frame (screen) image data for displaying a series of moving images. The feature vector sequence (F) is recorded in the feature storage memory 3.
【0043】なお、特徴ベクトル(f)として使用する
DCT係数は、低周波成分の適当な数のDCT係数以外
に、水平方向の1番目のライン上のDCT係数(図3に
示すE2の領域のDCT係数)、垂直方法の1番目のラ
イン上のDCT係数(図3に示すE3の領域のDCT係
数)、あるいは、直流成分を含む対角線上のDCT係数
(図3に示すE4の領域のDCT係数)を使用するよう
にしてもよい。The DCT coefficients used as the feature vector (f) are the DCT coefficients on the first line in the horizontal direction (in the region E2 shown in FIG. 3), in addition to the appropriate number of low frequency components. DCT coefficient), the DCT coefficient on the first line of the vertical method (the DCT coefficient in the area E3 shown in FIG. 3), or the DCT coefficient on the diagonal line including the DC component (the DCT coefficient in the area E4 shown in FIG. 3) ) May be used.
【0044】水平方向の1番目のライン上のDCT係数
(図3に示すE2の領域のDCT係数)を特徴ベクトル
として使用することにより、動画像の特定パターンが主
に水平方向の動きが支配的である場合に、少ないDCT
係数で精度よく動画像の特徴を抽出することが可能であ
る。By using the DCT coefficient on the first line in the horizontal direction (the DCT coefficient in the area E2 shown in FIG. 3) as a feature vector, a specific pattern of a moving image is mainly dominated by horizontal movement. , The less DCT
It is possible to accurately extract a feature of a moving image using a coefficient.
【0045】また、垂直方法の1番目のライン上のDC
T係数(図3に示すE3の領域のDCT係数)を特徴ベ
クトルとして使用することにより、動画像の特定パター
ンが主に垂直方向の動きが支配的である場合に、少ない
DCT係数で精度よく動画像の特徴を抽出することが可
能である。Also, the DC on the first line of the vertical method
By using a T coefficient (a DCT coefficient in an area E3 shown in FIG. 3) as a feature vector, when a specific pattern of a moving image is mainly dominated by vertical motion, a moving image can be accurately formed with a small number of DCT coefficients. It is possible to extract image features.
【0046】また、直流成分を含む対角線上のDCT係
数(図3に示すE4の領域のDCT係数)を特徴ベクト
ルとして使用することにより、動画像の特定パターンが
水平方法および垂直方向の動きの両方を含んでいる場合
に、少ないDCT係数で精度よく動画像の特徴を抽出す
ることが可能である。Further, by using a DCT coefficient on a diagonal line including a DC component (a DCT coefficient in an area E4 shown in FIG. 3) as a feature vector, a specific pattern of a moving image can be used both in a horizontal direction and in a vertical direction. , It is possible to accurately extract the feature of the moving image with a small number of DCT coefficients.
【0047】さらに、特徴ベクトル(f)としては、D
CT係数と動き補償ベクトルとを併用することも可能で
あり、これにより、より詳細に動画像の特徴を抽出する
ことが可能となる。Further, as the feature vector (f), D
It is also possible to use the CT coefficient and the motion compensation vector together, and thereby it is possible to extract the feature of the moving image in more detail.
【0048】この特徴ベクトル列(F)は、量子化部4
でベクトル量子化によって、シンボル列(O)へ変換さ
れ、シンボル格納メモリ5に記録される。This feature vector string (F) is
Is converted into a symbol sequence (O) by vector quantization and recorded in the symbol storage memory 5.
【0049】即ち、各特徴ベクトルはあらかじめ用意さ
れた量子化のための代表点の一覧に基づき、それらの内
で最も距離の近い代表点ベクトルに対応するシンボルに
変換される。That is, each feature vector is converted into a symbol corresponding to the closest representative point vector among the representative points based on a list of representative points prepared for quantization in advance.
【0050】この代表点群をコードブックと呼び、この
コードブックは、各種類の動作画像から抽出した特徴ベ
クトルの一部を利用して、下記文献(ハ)に記載されて
いるLBGアルゴリズムで作成した。This representative point group is called a codebook, and this codebook is created by using the LBG algorithm described in the following document (c) using a part of the feature vectors extracted from each type of motion image. did.
【0051】(ハ) Y.Linde, A.Buzo, R.M.Gray;“An
Algorithm for Vector Quantizer design”,IEEE Tra
ns.Commin. vol.COM-28(1980).なお、このコードブッ
クの作成には、下記文献(ニ)に記載されているk−m
ean(k−平均) アルゴリズムで作成してもよい。(C) Y. Linde, A. Buzo, RMGray;
Algorithm for Vector Quantizer design ”, IEEE Tra
ns.Commin. vol.COM-28 (1980). This codebook was created using km-m
It may be created by an ean (k-mean) algorithm.
【0052】(ニ)X.D.Huang,Y.Ariki,M.A.Jack;“Hi
dden Markov Model for Speech Recognition”,Edinbu
rg Univ.Press(1990).今、コードブックを下記
(1)式のように表現するとすると、特徴ベクトル
(f)は、下記式(2)に示すシンボル(Ot)に変換
される。(D) XDHuang, Y. Ariki, MAJack; “Hi
dden Markov Model for Speech Recognition ”, Edinbu
rg Univ. Press (1990). Now, assuming that the codebook is represented by the following equation (1), the feature vector (f) is converted into a symbol (O t ) shown in the following equation (2).
【0053】[0053]
【数1】 C=c1,c2,.....cN ・・・・・(1)## EQU1 ## C = c 1 , c 2 ,. . . . . c N ... (1)
【0054】[0054]
【数2】Ot=vk ・・・・・(2) k=argminjd(f,cj) 但し、d(x,y)はx,yの距離 ここまでの処理によって、特徴ベクトル列(F)がシン
ボル列(O)に変換され、このシンボル列(O)を、状
態遷移モデルにより、学習、認識を行う。[Number 2] O t = v k ····· (2 ) k = argmin j d (f, c j) where, d (x, y) is x, the processing of the distance y so far, the feature vector The sequence (F) is converted into a symbol sequence (O), and the symbol sequence (O) is learned and recognized by a state transition model.
【0055】なお、ここまでの動作については、認識
時、学習時ともに同一である。The operation up to this point is the same for both recognition and learning.
【0056】この状態遷移モデルとしては、前記文献
(ニ)、あるいは、下記文献(ホ)に記載されている隠
れマルコフ(以下、HMMと称す。)モデルを使用す
る。As this state transition model, a Hidden Markov (hereinafter, referred to as HMM) model described in the above reference (d) or the following reference (e) is used.
【0057】(ホ)中川聖一;“確率モデルによる音声
認識”,電子情報通信学会(1990) 学習時には、前記HMMモデルのパラメータの推定を行
い、また、認識時には、認識するカテゴリ数だけ用意さ
れ、認識用状態遷移モデル格納メモリ7に格納されたH
MMモデルの各々から、認識対象の特徴ベクトル列
(F)が生成される確率を尤度算出部8によって算出す
る。(E) Seiichi Nakagawa; "Speech Recognition by Stochastic Model", IEICE (1990). At the time of learning, the parameters of the HMM model are estimated. At the time of recognition, only the number of categories to be recognized is prepared. H stored in the recognition state transition model storage memory 7
From each of the MM models, the likelihood calculating unit 8 calculates the probability of generating the feature vector sequence (F) to be recognized.
【0058】以下、HMMモデルについて、簡単に説明
する。Hereinafter, the HMM model will be briefly described.
【0059】HMMモデルは、確率的な状態遷移モデル
であり、時系列現象の発生源のモデル化と見ることがで
きる。The HMM model is a stochastic state transition model, and can be regarded as modeling a source of a time series phenomenon.
【0060】図4は、HMMモデルの概念を示す概念図
である。FIG. 4 is a conceptual diagram showing the concept of the HMM model.
【0061】図4に示すように、HMMモデルには、複
数の状態(q1〜q5)が存在し、各状態(q1〜q5)か
ら他の状態へ遷移する確率(aij)が与えられている。As shown in FIG. 4, the HMM model has a plurality of states (q 1 to q 5 ), and the probability (a ij ) of transition from each state (q 1 to q 5 ) to another state. Is given.
【0062】時刻が進につれて状態遷移が確率的に発生
し、さらに、各状態から確率的にシンボル(O1〜Ot)
が出力される。State transitions occur stochastically as time advances, and symbols (O 1 to O t ) stochastically change from each state.
Is output.
【0063】観測可能なのはこの出力シンボル列(O=
O1,O2,...,Ot)であり、状態を直接観測する
ことができない。What can be observed is the output symbol sequence (O =
O 1 , O 2 ,. . . , O t ), and the state cannot be directly observed.
【0064】これが“隠れ”マルコフモデルの由来であ
る。This is the origin of the “hidden” Markov model.
【0065】動作認識への適用においては、動作中にお
ける各姿勢が状態に当たり、従って、状態数は、認識対
象動作の長さや複雑さに応じて適当な数を選択する必要
がある。In the application to the motion recognition, each posture during the motion corresponds to a state. Therefore, it is necessary to select an appropriate number of states according to the length and complexity of the motion to be recognized.
【0066】また、動作認識への適用においては、状態
遷移確率が姿勢変化の時系列パターン自身とその伸縮な
どの変化を、シンボル出力確率が、各姿勢の揺らぎや姿
勢の観測結果の揺らぎを記述する部分に当たると解釈で
きる。In the application to motion recognition, the state transition probability describes the time series pattern of the posture change itself and the change of expansion and contraction, and the symbol output probability describes the fluctuation of each posture and the fluctuation of the observation result of the posture. It can be interpreted that it corresponds to the part that does.
【0067】HMMモデルは、以下のパラメータで記述
される。The HMM model is described by the following parameters.
【0068】[0068]
【数3】S={st}:状態の集合。st はt番目の状
態(観測できない) O=O1 ,O2 ,... ,OT ;観測されたシンボル系列
(長さT) A={a ij|a ij=Pr(s t+1 =j|s t =i)}: 状態
遷移確率 a ijは状態(si)から状態(sj)へ遷移する確率 B={bj(Ot)|bj(Ot)=Pr(Ot|st=j)}: シ
ンボル出力確率 bj(k)は状態(sj)においてシンボル(υk)を出
力する確率 π={πi|πi=Pr(s1=i)}: 初期状態確率 次に、HMMモデルを使用した時系列パターン(シンボ
ル列(O))の学習と認識の手順について説明する。S = {s t }: set of states. s t is (not observable) t th state O = O 1, O 2, ..., O T; observed symbol sequence (length T) A = {a ij | a ij = Pr (s t + 1 = j | s t = i )}: state transition probability a ij probability transition from state (si) to state (sj) is B = {b j (O t ) | b j (O t) = Pr (O t | s t = j)}: Symbol output probability b j (k) is the probability of outputting a symbol (υ k ) in state (sj) π = {π i | π i = Pr (s 1 = i)}: Initial State Probability Next, a procedure for learning and recognizing a time-series pattern (symbol sequence (O)) using the HMM model will be described.
【0069】《学習時の手順》モデルパラメータ推定部
6は、各カテゴリ毎に複数与えられた学習用データから
得られたシンボル列(O)に対して、そのシンボル列
(O)を発生するような状態遷移モデルのパラメータを
推定し、認識用状態遷移モデル格納メモリ7に蓄える。<< Procedure at the time of learning >> The model parameter estimating unit 6 generates a symbol sequence (O) for a symbol sequence (O) obtained from a plurality of learning data provided for each category. The parameters of the appropriate state transition model are estimated and stored in the recognition state transition model storage memory 7.
【0070】HMMモデルによる認識系は、各カテゴリ
毎に1つのHMMモデルから構成される。The recognition system based on the HMM model includes one HMM model for each category.
【0071】いま、認識対象の各カテゴリ毎のHMMモ
デルをλi(={Ai,Bi,πi})とすると、このλi
の学習を各カテゴリ毎の学習パターンを用いて行う。Assuming that the HMM model for each category to be recognized is λ i (= {A i , B i , π i }), this λ i
Is performed using a learning pattern for each category.
【0072】ここで、学習とは、学習パターンを発生し
やすいようなHMMモデルのパラメータ、即ち、状態遷
移確率Ai、シンボル出力確率Biと初期状態確率πiを
推定することに他ならない。Here, learning is nothing less than estimating the parameters of the HMM model that are likely to generate a learning pattern, that is, the state transition probability A i , the symbol output probability B i, and the initial state probability π i .
【0073】学習パターンからHMMモデルのパラメー
タを推定するには、前記文献(ニ)、あるいは、文献
(ホ)に記載されているBaun−Welchアルゴリ
ズムを使用する。To estimate the parameters of the HMM model from the learning pattern, the Baun-Welch algorithm described in the above-mentioned reference (d) or (e) is used.
【0074】具体的には、ある初期値から順に、より尤
度の高いHMMモデルのパラメータを求めることを、尤
度の値、変化などから充分収束したと見なせるまで繰り
返す手続き、即ち、あるHMMモデルのパラメータをも
とに、それよりもより尤度の高いモデルパラメータを求
めることを繰り返していく手続きである。More specifically, a procedure of repeatedly obtaining the parameters of the HMM model with a higher likelihood in order from a certain initial value until it can be considered that the parameters have been sufficiently converged from the likelihood value, change, etc., ie, a certain HMM model Is a procedure for repeatedly obtaining a model parameter having a higher likelihood based on the above parameter.
【0075】繰り返し毎に、前記文献(ニ)に記載され
ているforwardアルゴリズムによって尤度の値を
確認することで収束の確認が可能である。At each repetition, the convergence can be confirmed by confirming the likelihood value by the forward algorithm described in the above reference (d).
【0076】数式で表現すると、When expressed by a mathematical formula,
【0077】[0077]
【数4】 (Equation 4)
【0078】[0078]
【数5】 (Equation 5)
【0079】[0079]
【数6】 (Equation 6)
【0080】[0080]
【数7】 (Equation 7)
【0081】但し、ここで、However, here,
【0082】[0082]
【数8】 (Equation 8)
【0083】[0083]
【数9】 (Equation 9)
【0084】前記各式の意味するところは、(3)式
は、HMMモデルλのもとでのaijの再評価であり、
(4)式は、HMMモデルλのもとでのbi(k)の再
評価である。The meaning of the above expressions is that expression (3) is a re-evaluation of a ij under the HMM model λ.
Equation (4) is a re-evaluation of b i (k) under the HMM model λ.
【0085】前記した手続きによって、学習データに対
応する認識用状態遷移モデルのパラメータを求めること
ができる。By the above-described procedure, the parameters of the state transition model for recognition corresponding to the learning data can be obtained.
【0086】こうして求めた各カテゴリ毎のモデルを認
識の際に使用する。The model for each category obtained in this way is used for recognition.
【0087】《認識時の手順》認識の手順は、各HMM
モデルの尤度計算と最大値の選択で行われる。<< Procedure for Recognition >> The procedure for recognition is as follows.
This is done by calculating the likelihood of the model and selecting the maximum value.
【0088】認識対象のパターンに対して、λiが、認
識対象パターンであるシンボル列(O=O1,
O2,....,Ot)を出力する確率(尤度)Pr(O
|λi)を計算する。For the pattern to be recognized, λ i is a symbol sequence (O = O 1 ,
O 2 ,. . . . , O t ), the probability (likelihood) Pr (O
| Λ i ).
【0089】尤度の計算は、前記文献(ニ)に記載され
ているforwardアルゴリズムによって再帰的に、
以下のようにして求めることができる。The calculation of the likelihood is performed recursively by the forward algorithm described in the above reference (d).
It can be obtained as follows.
【0090】即ち、あるモデルλ={A,B,π}がシ
ンボル系列(O=O1,O2,... ,Ot)を出力する確
率Pr(O|λi)は、That is, the probability Pr (O│λi) that a certain model λ = {A, B, π} outputs a symbol sequence (O = O 1 , O 2 ,..., O t ) is
【0091】[0091]
【数10】 (Equation 10)
【0092】ただし、ここで、SFは最終状態の集合、
αT(i)は、Here, S F is a set of final states,
α T (i) is
【0093】[0093]
【数11】 [Equation 11]
【0094】で定義される値で、HMMモデルλがシン
ボル系列(O=O1,O2,....,Ot)を発生し
て、時間tにおいて状態(St=i)である確率であ
る。The HMM model λ generates a symbol sequence (O = O 1 , O 2 ,..., O t ) and is in a state ( St = i) at time t. Probability.
【0095】これは、This is
【0096】[0096]
【数12】 (Equation 12)
【0097】の漸化式で求められる。[0097] It is obtained by the recurrence formula.
【0098】こうして求められた尤度が最大となるモデ
ル、即ち、式(1)から式(11)で求めたPr(O|
λi)から、尤度最大のλiに対するカテゴリ(Gk)
(k=argmaxiPr(O|λi))が認識結果とし
て選択され、認識結果用メモリ6に蓄えられる。The model with the maximum likelihood obtained in this way, that is, Pr (O |) obtained from Expressions (1) to (11)
λ i ), the category (G k ) for the maximum likelihood λ i
(K = argmax i Pr (O | λ i )) is selected as a recognition result and stored in the recognition result memory 6.
【0099】また、検索時には、検索対象となるMEP
Gデータ1のどの部分が、検索対象に対応するHMMモ
デルに対して尤度最大となるかを、MEPGデータ1の
中をスキャンして検索を行う。At the time of searching, the MEP to be searched is
A search is performed by scanning the MEPG data 1 to determine which part of the G data 1 has the maximum likelihood for the HMM model corresponding to the search target.
【0100】この場合、効率的にMEPGデータ1の中
の最大尤度部分を求めるには、前記文献(ホ)に記載さ
れているHMMスポッティングアルゴリズムを使用する
ことが可能である。In this case, in order to efficiently obtain the maximum likelihood portion in the MEPG data 1, it is possible to use the HMM spotting algorithm described in the above-mentioned document (e).
【0101】以上の処理フローから明らかなように、H
MMモデルによる認識は最尤推定により行われ、また、
学習は、学習用データからのHMMモデルのパラメータ
の推定という形で実現される。As is clear from the above processing flow, H
Recognition by the MM model is performed by maximum likelihood estimation.
The learning is realized in the form of estimating the parameters of the HMM model from the training data.
【0102】そして、シンボル系列全体から尤度計算が
行われるため、カテゴリに特有のシンボル列パターンが
現れていれば、時間軸方向の多少の移動、伸縮等に対し
て強いというメリットがある。Since the likelihood calculation is performed from the entire symbol sequence, if a symbol string pattern specific to the category appears, there is an advantage that it is resistant to some movement, expansion and contraction in the time axis direction.
【0103】また、動画像の時系列パターンの各時点ま
での尤度を求め、これに対して閾値処理等を施すことで
特定の時系列パターンの検索が可能となる。Further, the likelihood up to each time point of the time series pattern of the moving image is obtained, and a threshold processing or the like is performed on the likelihood, whereby a specific time series pattern can be searched.
【0104】次に、本発明の実施の形態に基づく実験結
果例として、テニス動作画像を対象とした2つの人物動
作確認実験結果について説明する。Next, as an example of an experimental result based on the embodiment of the present invention, a description will be given of an experimental result of confirming two persons' movements on a tennis movement image.
【0105】〔実験1〕本発明の実施の形態において、
実験1に使用したテニス動作画像の写真の一例を図5に
示す。[Experiment 1] In the embodiment of the present invention,
One example of a photograph of the tennis operation image used in Experiment 1 is shown in FIG.
【0106】図5の上段に示すテニス動作画像から、図
5の下段に示すように、背景差分により人物領域を抽出
し、この人物領域が抽出された画像例をもとに作成した
MEPGデータを認識対象とし、DCT計数を特徴量と
したときの認識性能を評価した。As shown in the lower part of FIG. 5, a person region is extracted from the tennis operation image shown in the upper part of FIG. 5 by background subtraction, and MEPG data created based on an image example in which the person region is extracted is extracted. The recognition performance was evaluated when the DCT count was used as a feature quantity, as a recognition target.
【0107】認識性能は、各ブロック(8×8画素)当
たりのDCT係数を、低次成分から順に1列づつ、即
ち、1、3、6、10、15、21、28個抽出して、
それぞれ実験を行い、認識率を求めた。The recognition performance is as follows. The DCT coefficients for each block (8 × 8 pixels) are extracted one by one from the low-order component, that is, 1, 3, 6, 10, 15, 21, and 28 DCT coefficients are extracted.
Each experiment was performed to determine the recognition rate.
【0108】なお、各ブロック当たりのDCT係数が1
のときは、DC成分のみとなる。The DCT coefficient for each block is 1
In the case of, there is only a DC component.
【0109】また、画像サイズは、16×16画素(マ
クロブロック単位で1×1ブロック)、32×32画素
(マクロブロック単位で2×2ブロック)の2種類とし
た。The image size was of two types, 16 × 16 pixels (1 × 1 block in macroblock units) and 32 × 32 pixels (2 × 2 blocks in macroblock units).
【0110】また、量子化のためのコードブックのサイ
ズは、各クラスサイズ8、6クラス合計で48とし、L
BGアルゴリズムにより作成し、HMMモデルの状態数
は12、シンボル数は48である。The size of the codebook for quantization is 48 in total for each class size of 8 and 6 classes.
The HMM model is created by the BG algorithm, and has 12 states and 48 symbols.
【0111】図6は、本発明の実施の形態の実験1で対
象とするテニス動作画像を示す写真である。FIG. 6 is a photograph showing a tennis operation image targeted in Experiment 1 of the embodiment of the present invention.
【0112】図6に示すように、対象としたテニス動作
は、バックハンドボレイ(back−volley)、
バックハンドストローク(back−stroke)、
フォアハンドボレイ(fore−volley)、フォ
アハンドストローク(fore−stroke)、スマ
ッシュ(smash)、サービス(service)の
6カテゴリである。As shown in FIG. 6, the target tennis operation includes back-hand volley, back-volley,
Back hand stroke (back-stroke),
There are six categories: fore-hand volley, fore-stroke, smash, and service.
【0113】6カテゴリの動作のそれぞれについて、1
0試行の動作画像データを収集し、このうちの5試行を
学習用データとして使用し、HMMモデルのパラメータ
の推定を行い、残りの5試行をテストデータとして、認
識実験を行った。For each of the six categories of operations, 1
The motion image data of 0 trials was collected, five trials among them were used as learning data, parameters of the HMM model were estimated, and a recognition experiment was performed using the remaining five trials as test data.
【0114】この場合に、10試行のうちから5試行を
選択する選択方法を10通りに変えて実験を行った。In this case, an experiment was conducted by changing the selection method for selecting 5 trials out of 10 trials into 10 different ones.
【0115】したがって、認識率は、5×10×6=3
00回の認識実験のうち何回成功したかで評価される。Therefore, the recognition rate is 5 × 10 × 6 = 3
It is evaluated based on how many of the 00 recognition experiments were successful.
【0116】この認識実験結果を、表1、表2に示す。Tables 1 and 2 show the results of this recognition experiment.
【0117】[0117]
【表1】 [Table 1]
【0118】[0118]
【表2】 [Table 2]
【0119】表1、表示2から理解できるように、特徴
量として使用するDCT係数を増やすことにより、認識
率が大きく向上しており、比較的低周波成分のDCT係
数が人物動作の画像認識のための特徴量として有効であ
ることがわかった。As can be understood from Table 1 and Display 2, the recognition rate is greatly improved by increasing the DCT coefficient used as the feature quantity, and the DCT coefficient of a relatively low frequency component is used for image recognition of human motion. It is found that it is effective as a feature value for
【0120】また、対象画像が比較的小さい場合でも、
DCT係数を高周波成分まで使用することにより、98
%以上の認識率が得られ、画像が大きい場合と遜色のな
い認識率を実現できることがわかった。Further, even when the target image is relatively small,
By using DCT coefficients up to high frequency components, 98
%, And it was found that a recognition rate comparable to that of a large image could be realized.
【0121】〔実験2〕本発明の実施の形態において、
複数種の動作を含む一連の動画像データを対象として、
動画像検索への適用実験を行った。[Experiment 2] In the embodiment of the present invention,
For a series of moving image data including multiple types of operations,
An experiment on application to moving image retrieval was performed.
【0122】各動作カテゴリの学習済HMMモデルによ
り、各時点まででの尤度最大のHMMモデルを選ぶこと
により、動作の検索が行えるかを検討した。It was examined whether or not an operation can be searched by selecting an HMM model having the maximum likelihood up to each time point based on the learned HMM models of each operation category.
【0123】画面サイズは32×32画素を使用し、特
徴量としてDCT係数は各ブロック当たり6とした。The screen size used was 32 × 32 pixels, and the DCT coefficient was set to 6 for each block as a feature value.
【0124】図7は、本発明の実施の形態における、実
験2の実験結果を示すグラフである。FIG. 7 is a graph showing the experimental result of Experiment 2 in the embodiment of the present invention.
【0125】図7は、各時点までの観測に基づいて、そ
れぞれ6カテゴリのHMMモデルの対数尤度をプロット
したグラフである。FIG. 7 is a graph in which the log likelihood of the HMM model of each of the six categories is plotted based on the observations up to each time point.
【0126】したがって、尤度は、動作の終了時に最大
となることが期待される。Therefore, the likelihood is expected to be maximum at the end of the operation.
【0127】図7に示すグラフから、各対象動作のHM
Mモデルが順に最大尤度となっていることが確認でき、
閾値処理により動作区間の切り出しが可能であることが
理解できる。From the graph shown in FIG. 7, the HM of each target operation is shown.
It can be confirmed that the M models have the maximum likelihood in order,
It can be understood that the operation section can be cut out by the threshold processing.
【0128】これにより、連続動画像データの中の特定
の動作パターンの検索が可能である。As a result, it is possible to search for a specific operation pattern in the continuous moving image data.
【0129】なお、前記本発明の実施の形態の説明にお
いては、MEPG、MEPG2等の標準符号化方式によ
り符号化されたMEPGデータを使用したが、これに限
定されるものではなく、例えば、motion−JPE
G等の標準符号化方式により符号化されたデータを使用
できることはいうまでもない。In the description of the embodiment of the present invention, the MPEG data encoded by the standard encoding method such as MEPG and MEPG2 is used. However, the present invention is not limited to this. -JPE
It goes without saying that data encoded by a standard encoding method such as G can be used.
【0130】以上、本発明を発明の実施の形態に基づい
て具体的に説明したが、本発明は、前記発明の実施の形
態に限定されるものではなく、その要旨を逸脱しない範
囲において種々変更し得ることはいうまでもない。Although the present invention has been specifically described based on the embodiments of the present invention, the present invention is not limited to the embodiments of the present invention, and various modifications may be made without departing from the gist of the present invention. It goes without saying that it can be done.
【0131】[0131]
【発明の効果】本願で開示される発明のうち、代表的な
ものによって得られる効果を簡単に説明すれば、下記の
通りである。The effects obtained by the representative inventions among the inventions disclosed in the present application will be briefly described as follows.
【0132】(1)本発明によれば、特徴量としてDC
T係数、あるいは、DCT係数および動き補償ベクトル
を使用するようにしたので、MEPG,MEPG2等の
標準符号化方式で圧縮された少容量の動画像データか
ら、特定の動画像パターンを直接認識・検索することが
可能となる。(1) According to the present invention, DC is used as the feature value.
Since the T coefficient or the DCT coefficient and the motion compensation vector are used, a specific moving image pattern is directly recognized and searched from a small amount of moving image data compressed by a standard coding method such as MEPG or MEPG2. It is possible to do.
【0133】これにより、データ処理の処理時間を少な
くすることが可能となる。As a result, the processing time of data processing can be reduced.
【0134】(2)本発明によれば、特徴ベクトル系列
全体から尤度計算が行われるため、カテゴリに特有の特
徴ベクトル列パターンが現れていれば、時間軸方向の多
少の移動、伸縮等があっても、特定の動画像パターンを
精度良く認識・検索することが可能となる。(2) According to the present invention, the likelihood calculation is performed from the entire feature vector sequence. Therefore, if a feature vector sequence pattern specific to a category appears, a slight movement, expansion and contraction in the time axis direction is performed. Even if there is, it becomes possible to recognize and search a specific moving image pattern with high accuracy.
【0135】(3)本発明によれば、特徴量として使用
するDCT係数を高周波成分まで使用することにより、
認識率を大幅に向上させることができ、また、対象画像
が比較的小さい場合であっても、特徴量として使用する
DCT係数を高周波成分まで使用することにより、認識
率を向上させることが可能である。(3) According to the present invention, by using the DCT coefficient used as the feature value up to the high frequency component,
The recognition rate can be greatly improved, and even when the target image is relatively small, the recognition rate can be improved by using DCT coefficients used as feature amounts up to high-frequency components. is there.
【0136】(4)本発明によれば、銀行や商店におけ
る不審行動監視、スポーツなどの動画から所望の動作部
分の切り出しなどに広く適用できる。(4) According to the present invention, the present invention can be widely applied to monitoring of suspicious behavior in a bank or a store, clipping of a desired operation portion from a moving image such as sports, and the like.
【図1】本発明の一発明の実施の形態である動画像認識
方法および動画像認識検索方法が適用される動画像認識
検索装置の概略構成を示す機能ブロック図である。FIG. 1 is a functional block diagram showing a schematic configuration of a moving image recognition / search apparatus to which a moving image recognition method and a moving image recognition / search method according to an embodiment of the present invention are applied.
【図2】MEPGデータ1およびMEPGデータ1のD
CT係数の概略構成を示す図である。FIG. 2 shows MEPG data 1 and D of MEPG data 1
FIG. 3 is a diagram illustrating a schematic configuration of a CT coefficient.
【図3】本発明の実施の形態形態における、DCT係数
の抽出方法を説明するための図である。FIG. 3 is a diagram for explaining a method of extracting DCT coefficients according to the embodiment of the present invention.
【図4】HMMモデル(隠れマルコフ)の概念を示す概
念図である。FIG. 4 is a conceptual diagram showing the concept of an HMM model (Hidden Markov).
【図5】本発明の実施の形態において、実験1に使用し
たテニス動作画像の例を示すディスプレイ上に表示した
中間調画像である。FIG. 5 is a halftone image displayed on a display showing an example of a tennis operation image used in Experiment 1 in the embodiment of the present invention.
【図6】本発明の実施の形態の実験1で対象とするテニ
ス動作画像を示すディスプレイ上に表示した中間調画像
である。FIG. 6 is a halftone image displayed on a display showing a tennis operation image targeted in Experiment 1 of the embodiment of the present invention.
【図7】本発明の実施の形態の実験2の実験結果を示す
グラフである。FIG. 7 is a graph showing experimental results of Experiment 2 according to the embodiment of the present invention.
2…特徴抽出部、3…特徴格納用メモリ、4…量子化
部、5…シンボル列格納用メモリ、6…モデルパラメー
タ推定部、7…認識用状態遷移モデル格納メモリ、8…
尤度算出部、9…認識結果用メモリ。2 ... Feature extraction unit, 3 ... Feature storage memory, 4 ... Quantization unit, 5 ... Symbol string storage memory, 6 ... Model parameter estimation unit, 7 ... Recognition state transition model storage memory, 8 ...
Likelihood calculating section 9, memory for recognition result.
─────────────────────────────────────────────────────
────────────────────────────────────────────────── ───
【手続補正書】[Procedure amendment]
【提出日】平成8年6月27日[Submission date] June 27, 1996
【手続補正1】[Procedure amendment 1]
【補正対象書類名】明細書[Document name to be amended] Statement
【補正対象項目名】特許請求の範囲[Correction target item name] Claims
【補正方法】変更[Correction method] Change
【補正内容】[Correction contents]
【特許請求の範囲】[Claims]
Claims (16)
る動画像認識方法において、一連の動画像を表示する各
画面の画像データをM×Nのブロックに区切り、各ブロ
ックのDCT係数を抽出するステップと、前記DCT係
数の少なくとも1つを各画面の特徴ベクトルとして抽出
するステップと、特定の動画像パターンを表示する各画
面の特徴ベクトルで構成される時系列の特徴ベクトル列
により、確率的な状態遷移モデルを、認識キーとなる複
数の特定の動画像パターン毎に学習するステップと、認
識対象である一連の動画像を表示する各画面の画像デー
タから抽出された特徴ベクトルで構成される時系列の特
徴ベクトル列の、前記学習により得られた複数の状態遷
移モデルに対する尤度が最大となる状態遷移モデルの動
画像パターンを認識結果として出力するステップとを具
備することを特徴とする動画像認識方法。In a moving image recognition method for recognizing a moving image pattern of a series of moving images, image data of each screen displaying a series of moving images is divided into M × N blocks, and a DCT coefficient of each block is extracted. , Extracting at least one of the DCT coefficients as a feature vector of each screen, and a time-series feature vector sequence composed of feature vectors of each screen displaying a specific moving image pattern. Learning a state transition model for each of a plurality of specific moving image patterns serving as a recognition key, and a feature vector extracted from image data of each screen displaying a series of moving images to be recognized. Recognize a moving image pattern of a state transition model in which the likelihood of a time-series feature vector sequence with respect to a plurality of state transition models obtained by the learning is maximized. Video recognition method characterized by comprising the step of outputting a result.
する各画面の画像データが、標準符号化方式により圧縮
されており、各画面の特徴ベクトルとして、標準符号化
方式により圧縮された各画面の画像データ中に含まれる
DCT係数の一部を使用することを特徴とする請求項1
に記載された動画像認識方法。2. The image data of each screen displaying a series of moving images to be recognized is compressed by a standard encoding method, and each of the image data compressed by the standard encoding method is used as a feature vector of each screen. 2. The method according to claim 1, wherein a part of DCT coefficients included in the image data of the screen is used.
The moving image recognition method described in 1.
T係数とともに動きベクトルを使用することを特徴とす
る請求項1に記載された動画像認識方法。3. A feature vector of each screen is DC
The moving image recognition method according to claim 1, wherein a motion vector is used together with the T coefficient.
する各画面の画像データが、標準符号化方式により圧縮
されており、各画面の特徴ベクトルとして、標準符号化
方式により圧縮された各画面の画像データ中に含まれる
DCT係数の一部、および、動き補償ベクトルを使用す
ることを特徴とする請求項3に記載された動画像認識方
法。4. The image data of each screen displaying a series of moving images to be recognized is compressed by a standard encoding method, and each of the image data compressed by the standard encoding method is used as a feature vector of each screen. 4. The moving image recognition method according to claim 3, wherein a part of DCT coefficients included in the image data of the screen and a motion compensation vector are used.
画面の画像データ中に含まれるDCT係数の内、3ない
し21個の低周波成分のDCT係数を特徴ベクトルして
使用することを特徴とする請求項2または請求項4に記
載された画像認識方法。5. The method according to claim 1, wherein 3 to 21 DCT coefficients of low frequency components among DCT coefficients included in image data of each screen compressed by the standard encoding method are used as feature vectors. The image recognition method according to claim 2 or 4, wherein
画面の画像データ中に含まれるDCT係数の内、水平方
向の1番目のライン上のDCT係数を特徴ベクトルして
使用することを特徴とする請求項2または請求項4に記
載された画像認識方法。6. A DCT coefficient on a first horizontal line among DCT coefficients included in image data of each screen compressed by the standard encoding method, is used as a feature vector. The image recognition method according to claim 2 or 4, wherein
画面の画像データ中に含まれるDCT係数の内、垂直方
法の1番目のライン上のDCT係数を特徴ベクトルして
使用することを特徴とする請求項2または請求項4に記
載された画像認識方法。7. A DCT coefficient on a first line of a vertical method among DCT coefficients included in image data of each screen compressed by the standard encoding method, is used as a feature vector. The image recognition method according to claim 2 or 4, wherein
画面の画像データ中に含まれるDCT係数の内、直流成
分を含む対角線上のDCT係数を特徴ベクトルして使用
することを特徴とする請求項2または請求項4に記載さ
れた画像認識方法。8. A DCT coefficient on a diagonal line including a DC component among DCT coefficients included in image data of each screen compressed by the standard encoding method, is used as a feature vector. The image recognition method according to claim 2 or 4.
ターンを含む時間領域を抽出する動画像認識検索方法に
おいて、一連の動画像を表示する各画面の画像データを
M×Nのブロックに区切り、各ブロックのDCT係数を
抽出するステップと、前記DCT係数の少なくとも1つ
を各画面の特徴ベクトルとして抽出するステップと、検
索キーとなる特定の動画像パターンを表示する各画面の
特徴ベクトルで構成される時系列の特徴ベクトル列によ
り、確率的な状態遷移モデルを学習するステップと、検
索対象である一連の動画像を表示する各画面の画像デー
タから抽出された特徴ベクトルで構成される時系列の特
徴ベクトル列の中で、前記学習により得られた状態遷移
モデルに対する尤度が高い時間領域を検索結果として出
力するステップとを具備することを特徴とする動画像認
識検索方法。9. A moving image recognition and retrieval method for extracting a time region including a specific moving image pattern from a series of moving images, wherein image data of each screen displaying a series of moving images is M × N blocks. Extracting a DCT coefficient of each block, extracting at least one of the DCT coefficients as a feature vector of each screen, and a feature vector of each screen displaying a specific moving image pattern serving as a search key. Learning a stochastic state transition model using a time-series feature vector sequence composed of: and a feature vector extracted from image data of each screen displaying a series of moving images to be searched. Outputting, as a search result, a time domain having a high likelihood for the state transition model obtained by the learning in the time-series feature vector sequence. Video recognition retrieval method characterized by Bei.
示する各画面の画像データが、標準符号化方式により圧
縮されており、各画面の特徴ベクトルとして、標準符号
化方式により圧縮された各画面の画像データ中に含まれ
るDCT係数の一部を使用することを特徴とする請求項
9に記載された動画像認識検索方法。10. The image data of each screen displaying a series of moving images to be searched is compressed by a standard encoding method, and each image compressed by the standard encoding method is used as a feature vector of each screen. The moving image recognition / retrieval method according to claim 9, wherein a part of DCT coefficients included in the image data of the screen is used.
CT係数とともに動きベクトルを使用することを特徴と
する請求項9に記載された動画像認識検索方法。11. A feature vector of each screen is D
The moving image recognition search method according to claim 9, wherein a motion vector is used together with the CT coefficient.
示する各画面の画像データが、標準符号化方式により圧
縮されており、各画面の特徴ベクトルとして、標準符号
化方式により圧縮された各画面の画像データ中に含まれ
るDCT係数の一部、および、動き補償ベクトルを使用
することを特徴とする請求項11に記載された動画像認
識検索方法。12. The image data of each screen displaying the series of moving images to be searched is compressed by a standard encoding method, and each image compressed by the standard encoding method as a feature vector of each screen. The moving image recognition search method according to claim 11, wherein a part of DCT coefficients included in the image data of the screen and a motion compensation vector are used.
各画面の画像データ中に含まれるDCT係数の内、3な
いし21個の低周波成分のDCT係数を特徴ベクトルし
て使用することを特徴とする請求項10または請求項1
2に記載された画像認識検索方法。13. A DCT coefficient of 3 to 21 low frequency components among DCT coefficients included in image data of each screen compressed by the standard encoding method, is used as a feature vector. Claim 10 or Claim 1
2. The image recognition search method described in 2.
各画面の画像データ中に含まれるDCT係数の内、水平
方向の1番目のライン上のDCT係数を特徴ベクトルし
て使用することを特徴とする請求項10または請求項1
2に記載された画像認識検索方法。14. A DCT coefficient on a first horizontal line, among DCT coefficients included in image data of each screen compressed by the standard encoding method, is used as a feature vector. Claim 10 or Claim 1
2. The image recognition search method described in 2.
各画面の画像データ中に含まれるDCT係数の内、垂直
方法の1番目のライン上のDCT係数を特徴ベクトルし
て使用することを特徴とする請求項10または請求項1
2に記載された画像認識検索方法。15. A DCT coefficient on a first line of a vertical method, among DCT coefficients included in image data of each screen compressed by the standard encoding method, is used as a feature vector. Claim 10 or Claim 1
2. The image recognition search method described in 2.
各画面の画像データ中に含まれるDCT係数の内、直流
成分を含む対角線上のDCT係数を特徴ベクトルして使
用することを特徴とする請求項10または請求項12に
記載された画像認識検索方法。16. A DCT coefficient on a diagonal line including a DC component among DCT coefficients included in image data of each screen compressed by the standard encoding method, is used as a feature vector. An image recognition and retrieval method according to claim 10 or 12.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16443096A JPH1013832A (en) | 1996-06-25 | 1996-06-25 | Moving picture recognizing method and moving picture recognizing and retrieving method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16443096A JPH1013832A (en) | 1996-06-25 | 1996-06-25 | Moving picture recognizing method and moving picture recognizing and retrieving method |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1013832A true JPH1013832A (en) | 1998-01-16 |
Family
ID=15793014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16443096A Pending JPH1013832A (en) | 1996-06-25 | 1996-06-25 | Moving picture recognizing method and moving picture recognizing and retrieving method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH1013832A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001086434A (en) * | 1999-07-08 | 2001-03-30 | Hyundai Electronics Ind Co Ltd | Method for indexing and retrieving moving image using motion degree description method |
WO2004006185A1 (en) * | 2002-07-09 | 2004-01-15 | Sony Corporation | Similarity calculation method and device |
JP2004348741A (en) * | 2003-05-20 | 2004-12-09 | Mitsubishi Electric Information Technology Centre Europa Bv | Image comparison method, computer readable storage medium for storing program for execution of the method, and device for execution of the method |
JP2006505875A (en) * | 2002-11-07 | 2006-02-16 | 本田技研工業株式会社 | Video-based face recognition using probabilistic appearance aggregates |
JP2006178974A (en) * | 2004-12-23 | 2006-07-06 | Ricoh Co Ltd | Information processing method, information processing device, and data processing device |
JP2007226349A (en) * | 2006-02-21 | 2007-09-06 | Nippon Telegr & Teleph Corp <Ntt> | Hidden markov model retrieval method, apparatus, program, and computer-readable recording medium |
US7356190B2 (en) | 2002-07-02 | 2008-04-08 | Canon Kabushiki Kaisha | Image area extraction method, image reconstruction method using the extraction result and apparatus thereof |
JP2008300943A (en) * | 2007-05-29 | 2008-12-11 | Sharp Corp | Image-decoding device and image-encoding device |
JP2011205693A (en) * | 2011-06-14 | 2011-10-13 | Sharp Corp | Image decoding apparatus and image encoding apparatus |
JP2014030164A (en) * | 2012-03-13 | 2014-02-13 | Canon Inc | Method and apparatus for processing moving image information, and method and apparatus for identifying moving image pattern |
-
1996
- 1996-06-25 JP JP16443096A patent/JPH1013832A/en active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001086434A (en) * | 1999-07-08 | 2001-03-30 | Hyundai Electronics Ind Co Ltd | Method for indexing and retrieving moving image using motion degree description method |
US7542615B2 (en) | 2002-07-02 | 2009-06-02 | Canon Kabushiki Kaisha | Image area extraction method, image reconstruction method using the extraction result and apparatus thereof |
US7356190B2 (en) | 2002-07-02 | 2008-04-08 | Canon Kabushiki Kaisha | Image area extraction method, image reconstruction method using the extraction result and apparatus thereof |
CN1324509C (en) * | 2002-07-09 | 2007-07-04 | 索尼株式会社 | Method and device for calculating similarity |
US7260488B2 (en) | 2002-07-09 | 2007-08-21 | Sony Corporation | Similarity calculation method and device |
JP2004046370A (en) * | 2002-07-09 | 2004-02-12 | Sony Corp | Method and device for calculating similarity, program and recording medium |
WO2004006185A1 (en) * | 2002-07-09 | 2004-01-15 | Sony Corporation | Similarity calculation method and device |
JP2006505875A (en) * | 2002-11-07 | 2006-02-16 | 本田技研工業株式会社 | Video-based face recognition using probabilistic appearance aggregates |
JP2004348741A (en) * | 2003-05-20 | 2004-12-09 | Mitsubishi Electric Information Technology Centre Europa Bv | Image comparison method, computer readable storage medium for storing program for execution of the method, and device for execution of the method |
JP2006178974A (en) * | 2004-12-23 | 2006-07-06 | Ricoh Co Ltd | Information processing method, information processing device, and data processing device |
JP2007226349A (en) * | 2006-02-21 | 2007-09-06 | Nippon Telegr & Teleph Corp <Ntt> | Hidden markov model retrieval method, apparatus, program, and computer-readable recording medium |
JP4567617B2 (en) * | 2006-02-21 | 2010-10-20 | 日本電信電話株式会社 | Hidden Markov Model Retrieval Method and Apparatus, Program, and Computer-Readable Recording Medium |
JP2008300943A (en) * | 2007-05-29 | 2008-12-11 | Sharp Corp | Image-decoding device and image-encoding device |
JP2011205693A (en) * | 2011-06-14 | 2011-10-13 | Sharp Corp | Image decoding apparatus and image encoding apparatus |
JP2014030164A (en) * | 2012-03-13 | 2014-02-13 | Canon Inc | Method and apparatus for processing moving image information, and method and apparatus for identifying moving image pattern |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3887178B2 (en) | Signal encoding method and apparatus, and decoding method and apparatus | |
US8472745B2 (en) | Image processing method, apparatus, program, and recording medium for the same | |
JP4514819B2 (en) | Video decoding device | |
KR100492437B1 (en) | Image retrieval system and image retrieval method | |
JP5680283B2 (en) | Moving picture encoding apparatus, moving picture decoding apparatus, moving picture encoding method, moving picture decoding method, moving picture encoding program, and moving picture decoding program | |
US20040131268A1 (en) | Image encoder, image decoder, image encoding method, and image decoding method | |
RU2335803C2 (en) | Method and device for frame-accurate encoding of residual movement based on superabundant basic transformation to increase video image condensation | |
JPH11509025A (en) | Video retrieval of compressed MPEG sequences using DC and motion symbols | |
JP2001160062A (en) | Device for retrieving image data | |
CN110177282B (en) | Interframe prediction method based on SRCNN | |
JPH1013832A (en) | Moving picture recognizing method and moving picture recognizing and retrieving method | |
CN111479110B (en) | Fast affine motion estimation method for H.266/VVC | |
JP4612797B2 (en) | Encoding device and encoding method | |
CN112001308A (en) | Lightweight behavior identification method adopting video compression technology and skeleton features | |
KR100378339B1 (en) | Method and apparatus for coding moving image and medium for recording program of coding moving image | |
JPH06251159A (en) | Operation recognizing device | |
Iwai et al. | Self texture transfer networks for low bitrate image compression | |
KR102072576B1 (en) | Apparatus and method for encoding and decoding of data | |
KR20010011348A (en) | Recording medium and method for constructing and retrieving a data base of a mpeg video sequence by using a object | |
KR100535338B1 (en) | The digital watch system which the high-speed search is possible | |
KR100855450B1 (en) | Method for transferring motion style of movie object and apparatus applied to the same | |
Wu et al. | Generative Memorize-Then-Recall framework for low bit-rate Surveillance Video Compression | |
Lin et al. | Multiple blocks matching pursuit update algorithm for low bit rate video coding | |
CN118042146A (en) | Image block coding decision method based on image vision important area | |
CN113556551A (en) | Encoding and decoding methods, devices and equipment |