JP4476078B2 - Time series data judgment program - Google Patents
Time series data judgment program Download PDFInfo
- Publication number
- JP4476078B2 JP4476078B2 JP2004254856A JP2004254856A JP4476078B2 JP 4476078 B2 JP4476078 B2 JP 4476078B2 JP 2004254856 A JP2004254856 A JP 2004254856A JP 2004254856 A JP2004254856 A JP 2004254856A JP 4476078 B2 JP4476078 B2 JP 4476078B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- series data
- time
- occurrence matrix
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、時系列データが所定の1以上のカテゴリに属するものであるか否かを判定する時系列データ判定用プログラムに関するものである。 The present invention relates to a time-series data determination program for determining whether or not time-series data belongs to one or more predetermined categories.
ユーザのパスワードを盗み出し、そのユーザになりすまして不正にコンピュータを使用する、いわゆる「なりすまし」を検出するためには、コンピュータに入力される時系列データに異常があるか否か(入力された時系列データが、なりすまし者によって作成された時系列データであるか否か)を異常検知システムで検知することが効果的である。公知の異常検知システムでは、最初にユーザの典型的な行動を示すプロファイル(ユーザが作成した時系列データに現れる特徴)を作成する。そしてテスト対象である入力データ(時系列データ)のプロファイルをそのユーザのプロファイルと比較することにより、正常なユーザが作成した時系列データであるか、なりすまし者が作成した異常な時系列データであるかを識別する。 In order to detect a so-called “spoofing” in which a user's password is stolen and a computer is impersonated by impersonating the user, whether or not there is an abnormality in the time series data input to the computer (the input time series It is effective to detect whether the data is time-series data created by an impersonator using an abnormality detection system. In a known anomaly detection system, a profile (features that appear in time-series data created by a user) is first created that shows typical user behavior. Then, by comparing the profile of the input data (time series data) to be tested with the profile of the user, it is time series data created by a normal user or abnormal time series data created by a spoofer. To identify.
典型的な検査対象となる入力データは、使用されたUNIX(登録商標)コマンド、アクセスされたファイル等の時系列データ等である。入力された時系列データが、正常か異常かを識別する過程は2つのステップに分けられる。まず第1ステップにおいて、時系列データの特徴抽出を行う。そして第2ステップにおいて、抽出された特徴が正常か異常かを識別する。 Typical input data to be inspected is UNIX (registered trademark) commands used, time-series data such as accessed files, and the like. The process of identifying whether the input time-series data is normal or abnormal is divided into two steps. First, in the first step, feature extraction of time series data is performed. In the second step, it is identified whether the extracted feature is normal or abnormal.
第1のステップの特徴抽出を行う代表的な従来手法には、ヒストグラム(Histogram)とエヌグラム(N-gram)とがある。ヒストグラム(Histogram)では、時系列データに現れる項目(イベント)の出現頻度ベクトルが抽出の対象となる特徴ベクトルとなる。また、エヌグラム(N-gram)では、連続するN個の項目を1つの特徴とする[非特許文献1乃至3]。
Typical conventional methods for performing feature extraction in the first step include a histogram and an n-gram. In the histogram, an appearance frequency vector of items (events) appearing in time series data is a feature vector to be extracted. Further, an N-gram has one feature of N consecutive items [
また第2ステップの抽出された特徴を正常か異常かを識別する手法としては、これまでに様々な手法が提案されている。それらの中で代表的な手法には、ルールベース[非特許文献4]、オートマトン[非特許文献5]、ベイジアンネットワーク[非特許文献6]、Naiveベーズ[非特許文献7]、ニューラルネットワーク[非特許文献8]、マルコフモデル[非特許文献9]、隠れマルコフモデル[非特許文献10]とがある。
しかしながらヒストグラム(Histogram)では、時系列データに現れる項目(イベント)の出現頻度ベクトルが特徴となる。また、エヌグラム(N-gram)では、連続するN個の項目を1つの特徴とする。しかしながらこれらの従来手法では、時系列データにおけるユーザの挙動の動的情報(時系列で見たユーザの挙動に関する情報即ちイベント時系列上に現れるイベントの種類とそれらの出現順で定まる各ユーザの特異的な特徴)が利用できない又は時系列データにおけるユーザの挙動の動的情報が失われるという問題や、単独もしくは隣接するイベントの特徴しか利用できない又は隣接するイベント間の特徴しか表現されないという問題がある。 However, the histogram (Histogram) is characterized by the appearance frequency vector of items (events) appearing in the time series data. In the N-gram, N consecutive items are one feature. However, in these conventional methods, dynamic information on user behavior in time series data (information on user behavior as seen in time series, that is, the types of events appearing in the event time series and the order of their appearance) Problems) that cannot be used, or that the dynamic information of user behavior in time series data is lost, or that only single or adjacent event features can be used, or only features between adjacent events can be represented. .
本発明の目的は、時系列データに含まれる動的情報をとらえて、時系列データが所定のカテゴリ(特徴)を含むものであるか否かを判定することができる時系列データ判定用プログラムを提供することにある。 An object of the present invention is to provide a time-series data determination program capable of determining whether time-series data includes a predetermined category (feature) by capturing dynamic information included in the time-series data. There is.
本発明の他の目的は、従来よりも判定精度の高い時系列データ判定方法を提供することにある。 Another object of the present invention is to provide a time-series data determination method with higher determination accuracy than in the past.
本発明の別の目的は、時系列データに異常があるか否かを判別することができる時系列データ異常判別方法を提供することにある。 Another object of the present invention is to provide a time-series data abnormality determination method capable of determining whether or not time-series data has an abnormality.
本発明は、Eigen Co-occurrence Matrix(ECM)手法を開発したことを基礎としてなされたものである。このECM手法は、まず時系列情報を考慮しながら、時系列データに含まれるイベント間の関連付けを行う。この関連付けは、二つのイベント間の関連に着目し、全ての二項間イベントの関連性をCo-occurrence Matrix(共起行列)として表現することにより行う。共起行列は時系列データに現れる項目(イベント)間全ての関係性が表現することができる。これは、ヒストグラム(Histogram)やエヌグラム(N-gram)では表現することができなかった時系列データの特徴である。具体的な発明では、共起行列に対し主成分分析を行い、直交する主成分ベクトル空間を生成する。それぞれの共起行列は、主成分ベクトル空間上のベクトルとして特徴が抽出される。特徴をベクトルとして抽出することにより、様々なベクトル識別関数を利用することも可能になる。 The present invention was made based on the development of the Eigen Co-occurrence Matrix (ECM) method. This ECM method first associates events included in time-series data while considering time-series information. This association is performed by paying attention to the relationship between two events and expressing the relationship of all the binomial events as a co-occurrence matrix. The co-occurrence matrix can express all relationships between items (events) appearing in the time series data. This is a feature of time series data that could not be expressed by a histogram or an N-gram. In a specific invention, principal component analysis is performed on the co-occurrence matrix to generate orthogonal principal component vector spaces. Features of each co-occurrence matrix are extracted as vectors in the principal component vector space. By extracting features as vectors, it is possible to use various vector discrimination functions.
本発明の時系列データ判定用プログラムは、複数種類のイベントを含んで構成される時系列データが所定の1以上のカテゴリに属するものであるか否かを特徴抽出方法と識別方法とを用いて判定する。本発明では、特に、前記特徴抽出方法として、複数の時系列入力データを複数種類のイベントに含まれる二種類のイベント間の関連性を共起行列で表した行列データに変換したものを用いる統計的特徴抽出方法を用いる。そして識別方法として統計的特徴抽出方法で抽出した特徴ベクトルを識別に利用するものを用いる。ここで複数種類のイベントとは、時系列データを構成する複数の項目を意味し、時系列データが複数のコマンドから構成されている場合には、その複数のコマンドがそれぞれイベントである。またカテゴリとは、上位概念で見れば時系列データの種別を意味する概念であって、下位の概念で見れば時系列データから得られる後述する特徴ベクトルの集合が属する種別である。例えば、ある時系列データがある正常であるか否かは、時系列データが予め定めた1以上のカテゴリに属するか否かにより判断することができる。なお特徴ベクトルとカテゴリとの関係で見れば、特徴ベクトルが存在する空間の部分領域に対応するものがカテゴリとなる。統計的特徴抽出方法としては、特徴ベクトルを抽出できるものであれば、どのようなものでよく、例えば主成分分析法を用いることができる。また特徴ベクトルを利用して時系列データがどのカテゴリに属するのかを判定する識別方法は任意である。従来技術の欄に記載した公知の各種の識別方法を用いることができるのは勿論である。 The time-series data determination program of the present invention uses a feature extraction method and an identification method to determine whether time-series data including a plurality of types of events belongs to one or more predetermined categories. judge. In the present invention, in particular, as the feature extraction method, a statistic using a plurality of time-series input data converted into matrix data representing a relationship between two types of events included in a plurality of types of events as a co-occurrence matrix. Use a feature extraction method. As the identification method, a method that uses the feature vector extracted by the statistical feature extraction method for identification is used. Here, the plurality of types of events mean a plurality of items constituting time-series data, and when the time-series data is composed of a plurality of commands, the plurality of commands are events. A category is a concept that means a type of time-series data when viewed from a higher concept, and a category to which a set of feature vectors described later obtained from time-series data belongs when viewed from a lower concept. For example, whether or not certain time series data is normal can be determined by whether or not the time series data belongs to one or more predetermined categories. In terms of the relationship between the feature vector and the category, the category corresponding to the partial region of the space where the feature vector exists is a category. Any statistical feature extraction method may be used as long as it can extract a feature vector. For example, a principal component analysis method can be used. An identification method for determining which category the time series data belongs to using the feature vector is arbitrary. It goes without saying that various known identification methods described in the prior art column can be used.
本発明のプログラムで採用する共起行列は、時系列データに現れる項目(イベント)間全ての関係性を表現することができる。言い替えると、共起行列は、全ての二項間の関連性の強さをその距離と出現頻度により表現する。したがって本発明によれば、時系列データに含まれる動的情報を利用して、時系列データが所定のカテゴリに属するか否かを従来よりも高い精度で判定することができる。 The co-occurrence matrix employed in the program of the present invention can express all relationships between items (events) appearing in time-series data. In other words, the co-occurrence matrix expresses the strength of relevance between all two terms by its distance and appearance frequency. Therefore, according to the present invention, it is possible to determine whether or not the time-series data belongs to a predetermined category with higher accuracy than before using the dynamic information included in the time-series data.
複数の時系列入力データを共起行列で表した行列データに変換する際には、ウィンドウ・データ取出ステップと、スコープ・データ抽出ステップと、共起行列変換ステップとを実施する。ウィンドウ・データ取出ステップでは、時系列入力データをそれぞれ予め定めたデータ長さのウィンドウで切り出して複数のウィンドウ・データを取り出す。ウィンドウのデータ長さは、時系列データの長さに応じて定めればよい。スコープ・データ抽出ステップでは、ウィンドウ・データからウィンドウ・データのデータ長よりも短いデータ長を有する複数のスコープ・データをデータ列上において時間的なずれを持って順次抽出する。具体的なスコープ・データ抽出ステップでは、複数種類のイベントから選択した1つの種類のイベントがウィンドウ・データに含まれる位置を基準位置として1つの種類のイベントに対する1以上のスコープ・データを抽出することができる。また共起行列変換ステップでは、複数のウィンドウ・データを複数のスコープ・データに基づいてウィンドウ・データに含まれる複数種類のイベント相互間の時系列で見た関連性の強さを示す複数の共起行列に変換する。具体的な、共起行列変換ステップでは、1つの種類のイベントについての1以上のスコープ・データに含まれるその1つの種類のイベントまたは他の種類のイベントの数の合計値を、1つの種類のイベントに対する一つの種類のイベントの頻度とし、この頻度を1つの種類のイベントに対する一つの種類のイベントの関連性の強さを表示する値とする変換を行ってウィンドウ・データを共起行列に変換する。このようにして共起行列の変換を行うと、時系列で見たイベント相互間の関連性をより適格に示す共起行列を得ることができる。 When converting a plurality of time-series input data into matrix data represented by a co-occurrence matrix, a window data extraction step, a scope data extraction step, and a co-occurrence matrix conversion step are performed. In the window data extraction step, a plurality of window data are extracted by cutting out the time-series input data with a window having a predetermined data length. The data length of the window may be determined according to the length of the time series data. In the scope data extraction step, a plurality of scope data having a data length shorter than the data length of the window data is sequentially extracted from the window data with a time lag. In the specific scope data extraction step, one or more scope data for one type of event is extracted with a position where one type of event selected from a plurality of types of events is included in the window data as a reference position. Can do. Further, in the co-occurrence matrix conversion step, a plurality of window data indicating the strength of the relevance of a plurality of window data based on a plurality of scope data and viewed in time series between a plurality of types of events included in the window data. Convert to a matrix. Specifically, in the co-occurrence matrix conversion step, the total value of the number of the one type of events or the other types of events included in the one or more scope data for one type of event is calculated as one type of event. Convert the window data into a co-occurrence matrix by converting the frequency of one type of event to an event and converting this frequency to a value that displays the strength of the relevance of one type of event to one type of event. To do. When the co-occurrence matrix is converted in this way, it is possible to obtain a co-occurrence matrix that more appropriately indicates the relationship between events viewed in time series.
正当なユーザとなりすまし者を本発明のプログラムをコンピュータシステムで実行して識別するには、さらに共起行列をパターンとして扱い、統計的パターン認識手法(識別方法)を適用することが妥当である。最も簡単なパターン認識手法(識別方法)は、パターン間のマッチングに基づく手法である。しかし共起行列そのものをパターンとして扱った場合、パターンの次元が膨大になってしまう。そのため、パターン間のマッチングでは、特徴を抽出し(情報圧縮にもなっている)、認識を行うことがより有効である。パターンから有効な特徴抽出を行うことにより、入力パターンの変動に対して頑健な認識結果が期待できる。そこで本発明のより具体的な方法では、特徴抽出方法として、主成分分析を用いて、共起行列からの特徴ベクトルの抽出に利用する。主成分分析はベクトル形式のデータを少数の特徴(主成分)で表すことを可能とする統計的特徴抽出方法である。なお主成分分析を用いた認識の成功例として、Turk等[M.Turk,A.Pentland,「Eigenfaces for Recogunition」Journal of Cognitive Neuroscience,vol3,No.1,1991]が提案したEigenface(固有顔)による顔画像の認識が広く知られている。本発明の具体的方法では、共起行列(Co−occurrence Matrix)を顔画像と見なしたところにユニークな着眼点がある。 In order to identify an impersonator as a legitimate user by executing the program of the present invention on a computer system, it is appropriate to treat the co-occurrence matrix as a pattern and apply a statistical pattern recognition method (identification method). The simplest pattern recognition method (identification method) is a method based on matching between patterns. However, when the co-occurrence matrix itself is treated as a pattern, the dimension of the pattern becomes enormous. Therefore, in matching between patterns, it is more effective to extract a feature (which is also information compression) and perform recognition. By performing effective feature extraction from the pattern, it is possible to expect a recognition result that is robust against fluctuations in the input pattern. Therefore, in a more specific method of the present invention, as a feature extraction method, principal component analysis is used to extract feature vectors from a co-occurrence matrix. Principal component analysis is a statistical feature extraction method that allows vector-format data to be represented by a small number of features (principal components). As an example of successful recognition using principal component analysis, Turk et al. [M. Turk, A.M. Pentland, “Eigenfaces for Recognition”, Journal of Cognitive Neuroscience, vol3, no. 1, 1991] has been widely known for recognition of face images by Eigenface (unique face). In the specific method of the present invention, there is a unique point of view where a co-occurrence matrix is considered as a face image.
そこで複数種類のイベントを含んで構成される時系列データが所定の1以上のカテゴリに属するものであるか否かを判定する本発明の具体的な時系列データ判定用プログラムでは、前述のウィンドウ・データ取出ステップと、前述のスコープ・データ抽出ステップと、前述の共起行列変換ステップに加えて、更に固有共起行列群決定ステップと、プロファイル用共起行列変換ステップと、判定用特徴ベクトル抽出ステップと、テスト用共起行列変換ステップと、テスト用特徴ベクトル抽出ステップと、判定ステップとをコンピュータシステムに実行させる。 Accordingly, in the specific time-series data determination program of the present invention for determining whether or not time-series data including a plurality of types of events belongs to one or more predetermined categories, the above-mentioned window In addition to the data extraction step, the scope data extraction step, and the co-occurrence matrix conversion step described above, an eigen co-occurrence matrix group determination step, a profile co-occurrence matrix conversion step, and a determination feature vector extraction step When a test for the co-occurrence matrix conversion step, and the test feature vector extraction step, to execute a determination step in the computer system.
固有共起行列群決定ステップでは、複数の共起行列を入力として主成分分析により特徴ベクトルを求めるための基礎となる固有共起行列群を決定する。またプロファイル用共起行列変換ステップでは、1以上のカテゴリを含む1以上のプロファイル学習用時系列データに対してウィンドウ・データ取出ステップ、スコープ・データ抽出ステップ及び共起行列変換ステップと同様のステップをそれぞれ実施して、1以上のプロファイル学習用時系列データを1以上のプロファイル用共起行列に変換する。また判定用特徴ベクトル抽出ステップでは、1以上のプロファイル用共起行列と固有共起行列群とに基づいて1以上のプロファイル学習用時系列データについての1以上の判定用特徴ベクトルを抽出する。更にテスト用共起行列変換ステップでは、テストの対象となるテスト時系列データに対してウィンドウ・データ取出ステップ、スコープ・データ抽出ステップ及び共起行列変換ステップと同様のステップを実施して、テスト時系列データをテスト用共起行列に変換する。またテスト用特徴ベクトル抽出ステップは、テスト用共起行列と固有共起行列群とに基づいてテスト用時系列データについてのテスト用特徴ベクトルを抽出する。そして判定ステップでは、1以上の判定用特徴ベクトルとテスト用特徴ベクトルとに基づいて、テスト時系列データが1以上のカテゴリを含むか否かを判定する。本発明の具体的な方法のように、主成分分析を介することにより、固有顔に対応する固有共起行列群(Eigen Co−occurrence Matrix)を作成すると、もとの共起行列を低次元で近似して表現することが可能になった。 In the eigen-cooccurrence matrix group determining step, an eigen-co-occurrence matrix group serving as a basis for obtaining a feature vector by principal component analysis with a plurality of co-occurrence matrices as input is determined. In the profile co-occurrence matrix conversion step, the same steps as the window data extraction step, the scope data extraction step, and the co-occurrence matrix conversion step are performed on one or more profile learning time series data including one or more categories. Each is implemented to convert one or more profile learning time-series data into one or more profile co-occurrence matrices. In the determination feature vector extraction step, one or more determination feature vectors for one or more profile learning time-series data are extracted based on one or more profile co-occurrence matrices and eigen co-occurrence matrix groups. Furthermore, in the test co-occurrence matrix conversion step, the same steps as the window data extraction step, scope data extraction step and co-occurrence matrix conversion step are performed on the test time series data to be tested. Convert series data to test co-occurrence matrix. The test feature vector extraction step extracts a test feature vector for the test time series data based on the test co-occurrence matrix and the eigen-co-occurrence matrix group. In the determination step, it is determined whether or not the test time-series data includes one or more categories based on the one or more determination feature vectors and the test feature vector. When the eigen co-occurrence matrix group (Eigen Co-ocurrence Matrix) corresponding to the eigenface is created through the principal component analysis as in the specific method of the present invention, the original co-occurrence matrix is reduced in a low dimension. It became possible to express in an approximate manner.
なお判定ステップでは、具体的には、所定のベクトル識別関数を用いてテスト用時系列データと判定用特徴ベクトルとのユークリッド距離が閾値以内であるか否かによりテスト時系列データが1以上のカテゴリを含むか否かを判定する。このようなベクトル識別関数を用いると、簡単により高い精度で判定を行える。 In the determination step, specifically, the test time-series data is one or more categories depending on whether or not the Euclidean distance between the test time-series data and the determination feature vector is within a threshold using a predetermined vector identification function. Whether or not is included. By using such a vector discriminant function, the determination can be easily performed with higher accuracy.
精度の良い異常検知システムを構築するためには、ユーザのプロファイルを、コンセンプチュアル・ドゥリフト(Conceptual Drift)に対応させて更新する必要がある。従来の方法においては、ユーザのプロファイルを更新する際は、識別関数における結果を利用して行う必要がある(フィードバック更新)。そのため、識別関数の結果が間違っていた場合、プロファイルが正しく更新されないという問題がある。そこで本発明では、学習用の複数の時系列データに、テスト時系列データを含めて、固有共起行列群を更新すると、識別関数の結果を利用せずプロファイルの更新が可能である(フィードフォーワード更新)。したがって更新を確実に行うことができる。 In order to construct a highly accurate anomaly detection system, it is necessary to update the user profile in accordance with the Conceptual Drift. In the conventional method, when updating the user profile, it is necessary to use the result in the discrimination function (feedback update). Therefore, there is a problem that the profile is not correctly updated when the result of the discrimination function is wrong. Therefore, in the present invention, when the eigencooccurrence matrix group is updated by including the test time series data in a plurality of time series data for learning, the profile can be updated without using the result of the discriminant function (feedfor Word update). Therefore, the update can be performed reliably.
また本発明の時系列データ判定方法を用いて、コンピュータシステムに入力される時系列データの異常を判別すると、従来よりも高い精度で異常な時系列データを判別することができる。 Further, when the abnormality of the time series data input to the computer system is determined using the time series data determination method of the present invention, the abnormal time series data can be determined with higher accuracy than before.
本発明によれば、時系列データに含まれる動的情報を利用して、時系列データが所定のカテゴリを含むものであるか否かを従来よりも高い精度で判定することができる。 According to the present invention, it is possible to determine whether time-series data includes a predetermined category with higher accuracy than before by using dynamic information included in the time-series data.
以下図面を参照して本発明の実施の形態を詳細に説明する。図1は、複数種類のイベントを含んで構成される時系列データが所定の1以上のカテゴリに属するものであるか否かを主成分分析法を用いて判定する本発明の時系列判定方法の実施の形態の一例を実施するためのプログラムの構成を示す図である。本実施の形態では、特徴ベクトルを得るために用いる固有共起行列群を得るための学習用の複数の時系列データと、プロファイル学習用の時系列データ(以下プロファイル学習用時系列データと言う)と、テストの対象となるテスト時系列データ(以下テスト用時系列データと言う)を共起行列に変換する。ここで共起行列とは、時系列データを構成する複数種類のイベントに含まれる二種類のイベント間の関連性を行列データに変換したものである。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 shows a time series determination method according to the present invention for determining whether or not time series data including a plurality of types of events belongs to one or more predetermined categories using a principal component analysis method. It is a figure which shows the structure of the program for implementing an example of embodiment. In the present embodiment, a plurality of time series data for learning to obtain a group of eigen co-occurrence matrices used for obtaining a feature vector and time series data for profile learning (hereinafter referred to as profile learning time series data). Then, test time series data (hereinafter referred to as test time series data) to be tested is converted into a co-occurrence matrix. Here, the co-occurrence matrix is obtained by converting the relationship between two types of events included in a plurality of types of events constituting time-series data into matrix data.
時系列データを共起行列に変換するステップについて説明する。図2は、複数の学習用時系列データ[この場合にはユーザ(コンピュータにアクセスして時系列データを送信してくる人または他のコンピュータ)1乃至ユーザ3からそれぞれ送られた3つの時系列データ]の構成の一例を示している。この例では、各ユーザからの時系列データは、20のコマンド(イベント)によってそれぞれ構成されている。後に説明するように、この実施の形態では、20のコマンドからなる時系列データを10のコマンド(データ長)を有するウィンドウで区切る(ウィンドウ・データ取出ステップ)。このウィンドウ・データ取出ステップでは、各時系列入力データをそれぞれ予め定めたデータ長(10個のコマンド分のデータ長)のウィンドウで切り出して2つのウィンドウ・データを取り出す。なおウィンドウのデータ長さは、時系列データの長さに応じて定めればよい。 The step of converting time series data into a co-occurrence matrix will be described. FIG. 2 shows a plurality of time series data for learning [in this case, three time series sent from the user (a person or other computer who accesses the computer and transmits the time series data) 1 to 3 respectively. 2 shows an example of the configuration of [DATA]. In this example, the time-series data from each user is composed of 20 commands (events). As will be described later, in this embodiment, time-series data composed of 20 commands is divided by a window having 10 commands (data length) (window data extraction step). In this window data extraction step, each time-series input data is cut out in a window having a predetermined data length (data length for 10 commands) to extract two window data. Note that the data length of the window may be determined according to the length of the time series data.
次に、ある区間の時系列データに現れる2つのイベント間の因果関係を表すために共起行列に変換する。共起行列のそれぞれの要素は、2つのイベント間の因果関係の強さを表すものである。共起行列を作成するために、ウィンドウサイズw、スコープサイズs、そしてイベントセットB={b1、b2、b3、・・,bm}を定義する.ここでmは、イベント数を示す。ウィンドウサイズwは、1つの特徴ベクトルを抽出するイベント時系列のサイズを決定し、スコープサイズsは、2つのイベントの因果関係を考慮する間隔幅を決定する。図2に示すデータ例では、wを10、sを6と定義した.また、Bは、3人全ての学習用の時系列データ(ドメインデータ)に現れるユニークな8つのコマンド(イベント)(m=8)とする。8つのコマンドは、cd, ls, less, emacs, gcc, gdb, mkdir, cpである。2つのイベント間の因果関係または関連性の強さは、イベント間の距離と、それらが現れる頻度により定義される。つまり、注目するイベントが、ウィンドウサイズ(10)の中で、スコープサイズ(6)以内に現れる頻度を数えることにより、イベント間の因果関係の強さを定義する。図2の例では、それぞれにユーザ一人について2つの共起行列が作られることになる。図3のウィンドウ1におけるイベントcd とイベントls の要素または頻度数7は、ウィンドウサイズ(10)で、スコープサイズ(6)以内に、lsがcdの後に7回現れたことを示している。イベントペア(cd ls)と{ls cd}が図3のウィンドウ1において最も大きな要素または頻度数を持つ。これはこの時系列において、これらのイベントは強い関係性があることを示している.共起行列は、時系列データに現れる全ての2つのイベント相互間の因果関係または関連性の強さを表現することになる。
Next, in order to represent a causal relationship between two events appearing in time series data of a certain section, it is converted into a co-occurrence matrix. Each element of the co-occurrence matrix represents the strength of the causal relationship between two events. To create a co-occurrence matrix, define window size w, scope size s, and event set B = {b1, b2, b3,..., Bm}. Here, m represents the number of events. The window size w determines the size of an event time series from which one feature vector is extracted, and the scope size s determines an interval width that considers the causal relationship between two events. In the data example shown in FIG. 2, w is defined as 10 and s is defined as 6. Further, B is assumed to be eight unique commands (events) (m = 8) appearing in the time series data (domain data) for learning for all three people. The eight commands are cd, ls, less, emacs, gcc, gdb, mkdir, and cp. The strength of the causal relationship or relationship between two events is defined by the distance between the events and the frequency with which they appear. That is, the frequency of the causal relationship between events is defined by counting the frequency at which the event of interest appears within the scope size (6) within the window size (10). In the example of FIG. 2, two co-occurrence matrices are created for each user. The element or
図3について、本発明との関係で、詳しく説明する。まず各ユーザの時系列データ毎に、図3に示すように、前述のウィンドウ・データから複数のスコープ・データを抽出する(スコープ・データ抽出ステップ)。このステップでは、ウィンドウ・データからウィンドウ・データのデータ長よりも短いデータ長を有する複数のスコープ・データをデータ上における時間的なずれを持って順次抽出する。この例では、6個のコマンド分のデータ長を有するスコープ・データを順次抽出している。具体的には、ウィンドウ・データを構成する10個のコマンドに含まれる複数種類のイベント(図3の場合には、cd,ls,less)から選択した1つの種類のイベント(例えばcd)が、ウィンドウ・データに含まれる位置を基準位置として1つの種類のイベントに対する1以上のスコープ・データを抽出する。図3の例で見れば、イベントcdに着目した場合、ウィンドウ1の先頭にあるイベントcdを含まずにこのcd(基準位置)より後の6個のコマンド(イベント)を第1のスコープ・データとして抽出し、次に先頭から6番目にあるイベントcdを含まずにこのcd(基準位置)より後の6個のコマンド(イベント)を第2のスコープ・データとして抽出する。なお図3の例のように、ウィンドウ1内に10個しかイベントが無い場合、第2のスコープ・データでは4個のイベントを抽出する。同様に、先頭から8番目及び第9番目のイベントcdを基準位置にして第3及び第4のスコープ・データを抽出する。
FIG. 3 will be described in detail in relation to the present invention. First, as shown in FIG. 3, for each user's time-series data, a plurality of scope data is extracted from the window data described above (scope data extraction step). In this step, a plurality of scope data having a data length shorter than the data length of the window data is sequentially extracted from the window data with a time lag in the data. In this example, scope data having a data length of six commands is sequentially extracted. Specifically, one type of event (for example, cd) selected from a plurality of types of events (in the case of FIG. 3, cd, ls, less) included in the 10 commands constituting the window data, One or more scope data for one type of event is extracted with a position included in the window data as a reference position. In the example of FIG. 3, when focusing on the event cd, the first scope data includes six commands (events) after the cd (reference position) without including the event cd at the top of the
次に、ウィンドウ・データから抽出した複数のスコープ・データに基づいてそのウィンドウ・データに含まれる複数種類のイベント相互間の時系列で見た関連性の強さ(二つのイベントの相互間の関連強さ)を、関連性を見る二つのイベントが現れる頻度と距離として表現する。例えば、1つの種類のイベントcdについての1以上(図3の場合には4つ)のスコープ・データに含まれる1つの種類のイベント(図3の場合には同じ種類のcd)の数の合計値を、1つの種類のイベントに対する一つの種類のイベントの頻度とする。そして、この頻度を1つの種類のイベントに対する一つの種類のイベントの関連性の強さを表示する値とする変換を行ってウィンドウ・データを共起行列に変換する。図3の例ににおいて、ウィンドウ1中のイベントcdとイベントcdとの間の関連性を頻度として見る。前述の第1のスコープ・データ中には、1つのcdが含まれており、第2のスコープ・データ中には2つのcdが含まれており、第3のスコープ・データ中には1つのcdが含まれており、第4のスコープ・データ中にはcdはふくまれない。したがってイベントcdに対するイベントcdの頻度は、1+2+1+0=4と計算できる。同様にしてイベントcdに対するイベントlsの関連性ついてみれば、前述の第1のスコープ・データ中には、3つのlsが含まれており、第2のスコープ・データ中には2つのlsが含まれており、第3のスコープ・データ中には1つのlsが含まれており、第4のスコープ・データ中には1つのlsが含まれている。したがってイベントcdに対するイベントlsの頻度は、3+2+1+1=7と計算できる。これらの頻度には、スコープ・データを設定することにより、時間または距離の関係即ち時系列データに含まれる動的情報が含まれることになる。図3の右側領域には、ウィンドウ1及び2をそれぞれ共起行列に変換した行列データが示されている。このように時系列データを共起行列で表現すると、人間の流動的な行動のモデル化が可能になる。
Next, based on the multiple scope data extracted from the window data, the strength of the relationship in the time series between the multiple types of events included in the window data (the relationship between the two events) (Strength) is expressed as the frequency and distance at which two events that look at the relationship appear. For example, the total number of one type of events (the same type of cd in the case of FIG. 3) included in one or more (four in the case of FIG. 3) scope data for one type of event cd Let the value be the frequency of one type of event for one type of event. Then, the window data is converted into a co-occurrence matrix by converting the frequency into a value indicating the strength of relevance of one type of event to one type of event. In the example of FIG. 3, the relationship between the event cd in the
正当なユーザとなりすまし者を本発明の方法を利用して識別するには、共起行列をパターンとして扱い、統計的特徴抽出方法として主成分分析を用いて特徴ベクトルを求め、その後特徴ベクトルを識別に利用して識別を実行する。主成分分析はベクトル形式のデータを少数の特徴(主成分)で表すことを可能とする統計的特徴抽出方法であり、主成分分析とは多変量で表されるデータの統計から、一次結合で表現される新たな変量を構成し、互いに無相関な「主成分」に要約する手法である。本実施の形態では、共起行列を先に述べたTurk等が提案したEigenface(固有顔)による顔画像と見なしている。そこで本出願においては、本発明の時系列データ判定方法をEigen Co-occurrence Matrix(ECM)手法と呼ぶ。 To identify a legitimate user impersonator using the method of the present invention, treat the co-occurrence matrix as a pattern, obtain a feature vector using principal component analysis as a statistical feature extraction method, and then identify the feature vector Use this for identification. Principal component analysis is a statistical feature extraction method that makes it possible to represent data in vector format with a small number of features (principal components). Principal component analysis is based on multivariate data statistics and linear combination. It is a technique that composes new variables to be expressed and summarizes them into "principal components" that are uncorrelated with each other. In this embodiment, the co-occurrence matrix is regarded as a face image by Eigenface (eigenface) proposed by Turk et al. Therefore, in the present application, the time-series data determination method of the present invention is called an Eigen Co-occurrence Matrix (ECM) method.
図1に示すように、時系列データから、固有共起行列群を作成する学習用の時系列データを選びこれをドメインデータとする。1つのウィンドウから変換した共起行列を前述のM.Turk等が発表したEigenface(固有顔)における顔画像と見なし、Eigenfaceに対応するEigen Co−occurrence Matrix(固有共起行列)を作成する。主成分分析により、固有値とそれに対応する固有ベクトルが得られる。そして固有値を降順に並べ、それと対応する固有ベクトルを上からN個選択し、行列化し固有共起行列群とする。 As shown in FIG. 1, learning time series data for creating an eigen co-occurrence matrix group is selected from the time series data and used as domain data. The co-occurrence matrix converted from one window is referred to as M.I. It is regarded as a face image in Eigenface (Eigenface) announced by Turk et al. Eigenvalues and corresponding eigenvectors are obtained by principal component analysis. Then, the eigenvalues are arranged in descending order, and N eigenvectors corresponding to the eigenvalues are selected from the top to form a matrix to form an eigencooccurrence matrix group.
共起行列からの主成分分析を用いた特徴ベクトル抽出は次に述べる手順で行う。まず学習用の時系列データから得たp枚の学習用の共起行列のうちi番目の共起行列を、各要素の値を並べたN次元のベクトルxiとして表現する。ここでpはサンプル数であり、Nはイベント数の2乗である。p枚の共起行列の平均ベクトルを平均共起行列として下記の式で求める。ここで平均共起行列は、イベントペア(2項間)の関係性を示す。
そして各共起行列から平均共起行列(平均ベクトル)を引いたベクトルを
で表す。この平均共起行列を引く意味は、座標軸を原点に設定するためである。そして各共起行列から平均共起行列(m×m行列)を引き、ベクトル化した(m×mの行列をm2次元の縦ベクトルにする)共起行列の集合を行列
で表す。この行列とその転置行列をかけた行列が図1における共分散行列(m2×m2行列)である。 Represented by A matrix obtained by multiplying this matrix and its transpose matrix is a covariance matrix (m 2 × m 2 matrix) in FIG.
次に、学習用の共起行列の集合を最適に近似する正規直交基底aを、[数3]で表した行列Xの共分散行列の固有ベクトルで構成する。そのために共分散行列から固有値及び固有ベクトルを計算する(m2×m2行列の固有ベクトルを計算)する。ここで固有値は、特徴の強さを表す。また固有ベクトルは、お互いに無相関な特徴の軸を表している。このとき、aの各固有ベクトルalを、固有共起行列(Eigen co−occurrence matrix)とし、その集合を固有共起行列群(主成分)と言う。 Next, an orthonormal basis a that optimally approximates the set of co-occurrence matrices for learning is configured by the eigenvectors of the covariance matrix of the matrix X expressed by [Equation 3]. Therefore, eigenvalues and eigenvectors are calculated from the covariance matrix (eigenvectors of m 2 × m 2 matrix are calculated). Here, the eigenvalue represents the strength of the feature. The eigenvectors represent feature axes that are uncorrelated with each other. At this time, each eigenvector al of a is an eigen co-occurrence matrix (Eigen co-ocurrence matrix), and the set is called an eigen co-occurrence matrix group (principal component).
具体的には、固有値を降順にソートし、それらに対応する固有ベクトルを得る(m2個の固有ベクトルのうちN個のみ選択する。固有値によって、固有ベクトルをソートすることにより、特徴の強い軸を上から順番に取り出すことができる。N個の固有ベクトルをそれぞれ行列化し(m2次元のベクトルをm×mの行列にする)、これを固有共起行列群とする。ここである共起行列xに対する特徴ベクトル(A)(または主成分スコアC)を縦ベクトル化した共起行列xと正規直交基底aの内積を計算することにより求める。特徴ベクトルの各成分c1,c2,...,cNは、共起行列xを表現するための各固有共起行列の貢献度を表すことになる。本実施の形態のように、特徴ベクトルを共起行列から抽出した場合、様々なベクトル空間手法を用いた特徴ベクトルの識別に使用することができる.
本発明の時系列データの判定方法と関係する部分について以下に説明する。判定方法では、前述の共起行列の変換で用いたウィンドウ・データ取出ステップと、前述のスコープ・データ抽出ステップと、前述の共起行列変換ステップに加えて、更に固有共起行列決定ステップと、プロファイル用共起行列変換ステップと、判定用特徴ベクトル抽出ステップと、テスト用共起行列変換ステップと、テスト用特徴ベクトル抽出ステップと、判定ステップとを実施する。
Specifically, the eigenvalues are sorted in descending order to obtain eigenvectors corresponding to them (m selects only N out of 2 eigenvectors. By sorting eigenvectors by eigenvalues, the axis with strong features is Each of N eigenvectors can be matrixed (m 2 dimensional vectors are converted into m × m matrices), and this is defined as an eigencooccurrence matrix group. The vector (A) (or principal component score C) is obtained by calculating the inner product of the co-occurrence matrix x obtained by converting the vertical vector into the orthonormal basis a, and each component c 1 , c 2 ,. N, like the. present embodiment will represent the contribution of each specific co-occurrence matrix for representing the co-occurrence matrix x, when extracting feature vectors from the co-occurrence matrix, various vectors empty It can be used to identify the feature vectors using techniques.
Portions relating to the time-series data determination method of the present invention will be described below. In the determination method, in addition to the window data extraction step used in the co-occurrence matrix conversion described above, the scope data extraction step described above, and the co-occurrence matrix conversion step described above, an eigen-co-occurrence matrix determination step, A profile co-occurrence matrix conversion step, a determination feature vector extraction step, a test co-occurrence matrix conversion step, a test feature vector extraction step, and a determination step are performed.
まず固有共起行列決定ステップでは、前述のようにして複数の共起行列(学習用の時系列データを共起行列に変換したもの)を入力として主成分分析により特徴ベクトルを求めるための基礎となる固有共起行列群(固有共起行列の集合即ち主成分)を決定する。 First, in the eigen-co-occurrence matrix determination step, as described above, a plurality of co-occurrence matrices (which are obtained by converting learning time-series data into co-occurrence matrices) are used as the basis for determining feature vectors by principal component analysis. Eigen-occurrence matrix group (set of eigen-co-occurrence matrices, ie, principal component)
そしてプロファイル用共起行列変換ステップでは、1以上のカテゴリを含む1以上のプロファイル学習用時系列データに対して先に説明したのと同様のウィンドウ・データ取出ステップ、スコープ・データ抽出ステップ及び共起行列変換ステップと同様のステップをそれぞれ実施して、1以上のプロファイル学習用時系列データを1以上のプロファイル用共起行列に変換する。ここでプロファイル学習用時系列データとしては、正常なユーザが作成したものであることが明確に判っている時系列データを用いる。学習用の時系列データからこのプロファイル学習用時系列データを選んでもよいのは勿論である。あるコンピュータにアクセスするユーザが100人いれば、その100人が作成した時系列データをプロファイル学習用時系列データとしてそれぞれプロファイル用共起行列に変換する。 In the profile co-occurrence matrix conversion step, the same window data extraction step, scope data extraction step, and co-occurrence as described above for one or more profile learning time-series data including one or more categories The same steps as the matrix conversion step are performed to convert one or more profile learning time-series data into one or more profile co-occurrence matrices. Here, as the time series data for profile learning, time series data clearly known to be created by a normal user is used. It goes without saying that the time series data for profile learning may be selected from the time series data for learning. If there are 100 users accessing a certain computer, the time series data created by the 100 users is converted into profile co-occurrence matrices as time series data for profile learning.
次に判定用特徴ベクトル抽出ステップでは、プロファイル用共起行列と固有共起行列群とに基づいて各プロファイル学習用時系列データについての判定用特徴ベクトルを抽出する。このようにして抽出した判定用特徴ベクトルは、事前にコンピュータのメモリに記憶しておく。なお図1には、特にプロファイル学習用時系列データについては記載していないが、テスト用時系列データと同じルートで共起行列に変換し、その特徴ベクトルを求める。 Next, in the determination feature vector extraction step, a determination feature vector for each profile learning time-series data is extracted based on the profile co-occurrence matrix and the eigen co-occurrence matrix group. The determination feature vector extracted in this way is stored in advance in a computer memory. FIG. 1 does not particularly describe the profile learning time series data, but converts it into a co-occurrence matrix by the same route as the test time series data, and obtains a feature vector thereof.
次に、テスト用共起行列変換ステップでは、テストの対象となるテスト時系列データに対してウィンドウ・データ取出ステップ、スコープ・データ抽出ステップ及び共起行列変換ステップと同様のステップを実施して、テスト時系列データをテスト用共起行列に変換する。また、テスト用特徴ベクトル抽出ステップは、テスト用共起行列と固有共起行列とに基づいてテスト用時系列データについてのテスト用特徴ベクトルを抽出する。なお、テスト用特徴ベクトルを抽出する際には、図1に示すようにテスト用共起行列から平均共起行列を引いたものをベクトル化したものと先に求めた固有共起行列群をベクトル化したものとの内積を求める。 Next, in the test co-occurrence matrix conversion step, the same steps as the window data extraction step, the scope data extraction step and the co-occurrence matrix conversion step are performed on the test time series data to be tested, Convert test time series data to test co-occurrence matrix. The test feature vector extraction step extracts a test feature vector for the test time-series data based on the test co-occurrence matrix and the eigen-co-occurrence matrix. When extracting the test feature vector, as shown in FIG. 1, a vector obtained by subtracting the average co-occurrence matrix from the test co-occurrence matrix and the previously obtained eigen co-occurrence matrix group are vectorized. Find the inner product of the product.
そして判定ステップでは、先に求めて記憶してある判定用特徴ベクトルとテスト用特徴ベクトルとに基づいて、テスト時系列データが1以上のカテゴリを含むか否かを判定する。なお判定ステップでは、具体的には、所定のベクトル識別関数を用いてテスト用時系列データと判定用特徴ベクトルとのユークリッド距離が閾値以内であるか否かによりテスト時系列データが1以上のカテゴリを含むか否か(ユーザが作成した時系列データであるか否か、すなわちユーザ以外のなりすまし者が作成した時系列データであるか否か)を判定する。 In the determination step, it is determined whether or not the test time-series data includes one or more categories based on the determination feature vector and the test feature vector obtained and stored in advance. In the determination step, specifically, the test time-series data is one or more categories depending on whether or not the Euclidean distance between the test time-series data and the determination feature vector is within a threshold using a predetermined vector identification function. Is included (whether it is time-series data created by the user, that is, whether it is time-series data created by an impersonator other than the user).
精度の良い異常検知システム(時系列データ異常判別方法)を構築するためには、ユーザのプロファイル(ユーザの判別用特徴ベクトル)を、コンセプチュアル・ドゥリフト(Conceptual Drift)に対応させて更新する必要がある。図4に示すような従来の方法においては、ユーザのプロファイル(ユーザの判別用特徴ベクトル)を更新する際は、識別関数における結果を利用して行う必要がある(フィードバック更新)。そのため、識別関数の結果が間違っていた場合、プロファイルが正しく更新されないという問題がある。これに対して、そこで本実施の形態では、図5に示すように、学習用の複数の時系列データ(ドメイン)に、テスト時系列データを含めて、固有共起行列群を更新する。このようにすると、識別関数の結果を利用せずプロファイルの更新が可能である(フィードフォーワード更新)。したがって更新を確実に行うことができる。 In order to build an accurate anomaly detection system (time series data anomaly discriminating method), it is necessary to update the user profile (user discriminating feature vector) to correspond to the Conceptual Drift. . In the conventional method as shown in FIG. 4, when updating the user profile (user discrimination feature vector), it is necessary to use the result in the discrimination function (feedback update). Therefore, there is a problem that the profile is not correctly updated when the result of the discrimination function is wrong. On the other hand, in this embodiment, as shown in FIG. 5, the eigencooccurrence matrix group is updated by including the test time-series data in the plurality of time-series data (domains) for learning. In this way, the profile can be updated without using the result of the identification function (feed forward update). Therefore, the update can be performed reliably.
また本発明の時系列データ判定用プログラムをコンピュータシステムで実行して、コンピュータシステムに入力される時系列データの異常を判別すると、従来よりも高い精度で異常な時系列データを判別することができる。 Further, when the time series data determination program of the present invention is executed on a computer system to determine abnormality of time series data input to the computer system, abnormal time series data can be determined with higher accuracy than before. .
Schonlau等(M.Schonlau,W.DuMouchel,W.-H.Ju,A.F.Karr,M.Theus及びY.Vardi著の「Computer intrusion Detecting masquerades」InStatlsticalScience,pp.16(1):58-74,2001)が提供するUNIX(登録商標)コマンドのデータを用いてなりすまし検知の実験を本実施の形態に関して行った。実験の目的は、学習用の時系列データ(ドメインデータ)のサイズの違いによる、なりすましの検知精度の違いを考察することにある。図6及び図7には、全ユーザの最初の50個のウィンドウをドメインデータとして実験した場合を実験1として示し、同様に、全ユーザの最初の75個のウィンドウを学習用の時系列データ(ドメインデータ)として実験した場合を実験2として示した。この実験結果からは、ドメインデータのサイズが大きい実験2の場合が、実験1よりも検知率が良いことが判った。
Schonlau et al. (M.Schonlau, W.DuMouchel, W.-H.Ju, AFKarr, M.Theus and Y.Vardi, "Computer intrusion Detecting masquerades", InStatlsticalScience, pp.16 (1): 58-74,2001. An experiment of impersonation detection using UNIX (registered trademark) command data provided by the company) was performed with respect to this embodiment. The purpose of the experiment is to consider the difference in detection accuracy of impersonation due to the difference in the size of time series data (domain data) for learning. FIG. 6 and FIG. 7 show the case where the first 50 windows of all users are experimented as domain data as
上記実施の形態では、統計的特徴抽出方法として主成分分析を用いたが、本発明の方法では主成分分析以外の他の統計的特徴抽出方法を利用できるのは勿論である。また本実施例では、識別方法として特徴ベクトルのユークリッド距離を用いたが、ユークリッド距離以外の様々なベクトル識別方法を利用できるもは勿論である。 In the above embodiment, principal component analysis is used as a statistical feature extraction method, but it is needless to say that other statistical feature extraction methods other than principal component analysis can be used in the method of the present invention. In this embodiment, the Euclidean distance of the feature vector is used as the identification method. However, it is needless to say that various vector identification methods other than the Euclidean distance can be used.
Claims (5)
予め学習用の複数の時系列データをそれぞれ予め定めたデータ長さのウィンドウで切り出して複数のウィンドウ・データを取り出すウィンドウ・データ取出ステップと、
前記ウィンドウ・データから前記データ長よりも短いデータ長を有する複数のスコープ・データを時間的なずれを持って順次抽出するスコープ・データ抽出ステップと、
前記複数のウィンドウ・データを複数の前記スコープ・データに基づいて前記ウィンドウ・データに含まれる前記複数種類のイベント相互間の時系列で見た関連性の強さを示す複数の共起行列に変換する共起行列変換ステップと、
前記複数の共起行列を入力として統計的特徴抽出方法により特徴ベクトルを求めるための基礎となる固有共起行列群を決定する固有共起行列群決定ステップと、
前記1以上のカテゴリを含む1以上のプロファイル学習用時系列データに対して前記ウィンドウ・データ取出ステップ、前記スコープ・データ抽出ステップ及び前記共起行列変換ステップと同様のステップをそれぞれ実施して、前記1以上のプロファイル学習用時系列データを1以上のプロファイル用共起行列に変換するプロファイル用共起行列変換ステップと、
前記1以上のプロファイル用共起行列と前記固有共起行列群とに基づいて前記1以上のプロファイル学習用時系列データについての1以上の判定用特徴ベクトルを抽出する判定用特徴ベクトル抽出ステップと、
テストの対象となるテスト時系列データに対して前記ウィンドウ・データ取出ステップ、前記スコープ・データ抽出ステップ及び前記共起行列変換ステップと同様のステップを実施して、前記テスト時系列データをテスト用共起行列に変換するテスト用共起行列変換ステップと、
前記テスト用共起行列と前記固有共起行列群とに基づいて前記テスト用時系列データについてのテスト用特徴ベクトルを抽出するテスト用特徴ベクトル抽出ステップと、
前記1以上の判定用特徴ベクトルと前記テスト用特徴ベクトルとに基づいて、前記テスト時系列データが前記1以上のカテゴリに属するか否かを判定する判定ステップとをコンピュータシステムに実行させて前記時系列データがなりすまし者によって作成された異常な時系列データであるか否かを判定するための時系列データ判定用プログラムであって、
前記学習用の複数の時系列データに、前記テスト時系列データを含めて、前記固有共起行列群を更新することを特徴とする時系列データ判定用プログラム。 Such commands and files that are input into the computer, time-series data includes a plurality kinds of events, it is determined whether or not belonging to a predetermined one or more categories, the time-series data To determine if it ’s anomalous time-series data created by an impersonator ,
A window data extraction step of extracting a plurality of window data by cutting out a plurality of time-series data for learning in advance with a window having a predetermined data length;
A scope data extraction step for sequentially extracting a plurality of scope data having a data length shorter than the data length from the window data with a time lag,
Converting the plurality of window data into a plurality of co-occurrence matrices indicating the strength of relevance of the plurality of types of events included in the window data as viewed in time series based on the plurality of scope data A co-occurrence matrix transformation step,
An eigencooccurrence matrix group determining step for determining an eigencooccurrence matrix group serving as a basis for obtaining a feature vector by a statistical feature extraction method using the plurality of co-occurrence matrices as input; and
Performing the same steps as the window data extraction step, the scope data extraction step and the co-occurrence matrix conversion step on one or more profile learning time-series data including the one or more categories, A profile co-occurrence matrix conversion step of converting one or more profile learning time-series data into one or more profile co-occurrence matrices;
A determination feature vector extraction step for extracting one or more determination feature vectors for the one or more profile learning time-series data based on the one or more profile co-occurrence matrices and the eigen co-occurrence matrix group;
The test time series data to be tested is subjected to the same steps as the window data extraction step, the scope data extraction step, and the co-occurrence matrix conversion step, and the test time series data is shared with the test time series data. A test co-occurrence matrix conversion step for converting to an occurrence matrix;
A test feature vector extracting step of extracting a test feature vector for the test time-series data based on the test co-occurrence matrix and the eigen co-occurrence matrix group;
On the basis of the one or the determination feature vector and the test feature vector, the time the test time-series data by executing a determination step of determining whether or not belonging to the one or more categories in the computer system A time-series data determination program for determining whether or not series data is abnormal time-series data created by an impersonator ,
A program for determining time series data, wherein the eigen co-occurrence matrix group is updated by including the test time series data in the plurality of time series data for learning.
前記共起行列変換ステップでは、前記1つの種類のイベントについての前記1以上のスコープ・データに含まれる他の1つの種類の前記イベントの数の合計値を、前記1つの種類のイベントに対する前記他の一つの種類のイベントの頻度とし、前記頻度を前記1つの種類のイベントに対する前記他の種類のイベントの前記関連性の強さを表示する値とする変換を行って前記ウィンドウ・データを前記共起行列に変換することを特徴とする請求項1に記載の時系列データ判定用プログラム。 In the scope data extraction step, one or more scope data for the one type of event is obtained using a position where the one type of the event selected from the plurality of types of events is included in the window data as a reference position. Extract and
In the co-occurrence matrix conversion step, a total value of the number of other one type of the events included in the one or more scope data for the one type of event is calculated as the other type for the one type of event. The window data is converted to the frequency of the one type of event, and the frequency is set to a value indicating the strength of the association of the other type of event with respect to the one type of event. The time series data determination program according to claim 1, wherein the time series data determination program is converted into a matrix.
前記テスト用特徴ベクトル抽出ステップでは、前記テスト用共起行列と前記固有共起行列群とをベクトル化した後にその内積を求めて前記テスト用特徴ベクトルを抽出することを特徴とする請求項1に記載の時系列データ判定用プログラム。 In the determination feature vector extraction step, the profile co-occurrence matrix and the eigen co-occurrence matrix group are vectorized and then the inner product is determined to determine the determination feature vector,
2. The test feature vector extracting step includes: vectorizing the test co-occurrence matrix and the eigen co-occurrence matrix group and then obtaining an inner product thereof to extract the test feature vector. Program for judging time-series data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004254856A JP4476078B2 (en) | 2004-09-01 | 2004-09-01 | Time series data judgment program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004254856A JP4476078B2 (en) | 2004-09-01 | 2004-09-01 | Time series data judgment program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006072666A JP2006072666A (en) | 2006-03-16 |
JP4476078B2 true JP4476078B2 (en) | 2010-06-09 |
Family
ID=36153236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004254856A Expired - Fee Related JP4476078B2 (en) | 2004-09-01 | 2004-09-01 | Time series data judgment program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4476078B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5088233B2 (en) | 2008-05-21 | 2012-12-05 | 富士通株式会社 | Operation management apparatus, display method, and program |
JP5928165B2 (en) * | 2012-06-01 | 2016-06-01 | 富士通株式会社 | Abnormal transition pattern detection method, program, and apparatus |
JP5936240B2 (en) | 2014-09-12 | 2016-06-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Data processing apparatus, data processing method, and program |
JP6743825B2 (en) * | 2015-09-29 | 2020-08-19 | 富士通株式会社 | Program, information processing method, and information processing apparatus |
CN113742883A (en) * | 2020-11-20 | 2021-12-03 | 国网河北省电力有限公司雄安新区供电公司 | Method for dividing service life cycle of alternating current contactor based on multivariate time sequence |
-
2004
- 2004-09-01 JP JP2004254856A patent/JP4476078B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006072666A (en) | 2006-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4484643B2 (en) | Time series data abnormality determination program and time series data abnormality determination method | |
Pusara et al. | User re-authentication via mouse movements | |
Khan et al. | Malicious insider attack detection in IoTs using data analytics | |
Wang et al. | Processing of massive audit data streams for real-time anomaly intrusion detection | |
US9870455B2 (en) | System level user behavior biometrics using feature extraction and modeling | |
Wang et al. | Identifying intrusions in computer networks with principal component analysis | |
EP2477136B1 (en) | Method for continuously verifying user identity via keystroke dynamics | |
Ibrahimi et al. | Management of intrusion detection systems based-KDD99: Analysis with LDA and PCA | |
JP2022141931A (en) | Method and device for training living body detection model, method and apparatus for living body detection, electronic apparatus, storage medium, and computer program | |
CN104869126A (en) | Network intrusion anomaly detection method | |
CN115643035A (en) | Network security situation assessment method based on multi-source log | |
CN112613599A (en) | Network intrusion detection method based on generation countermeasure network oversampling | |
CN114218998A (en) | Power system abnormal behavior analysis method based on hidden Markov model | |
CN111625789A (en) | Multi-core learning fusion mouse and keyboard behavior feature-based user identification method | |
Saunders et al. | Using automated comparisons to quantify handwriting individuality | |
CN117176433A (en) | Abnormal behavior detection system and method for network data | |
CN112733954A (en) | Abnormal traffic detection method based on generation countermeasure network | |
CN115277189B (en) | Unsupervised Intrusion Traffic Detection and Recognition Method Based on Generative Adversarial Network | |
JP4476078B2 (en) | Time series data judgment program | |
CN111464529A (en) | Network intrusion detection method and system based on cluster integration | |
CN113159181B (en) | Anomaly detection method and system for industrial control system based on improved deep forest | |
KR102470364B1 (en) | A method for generating security event traning data and an apparatus for generating security event traning data | |
Singh et al. | A hybrid approach for intrusion detection based on machine learning | |
Al Solami et al. | Continuous biometric authentication: Can it be more practical? | |
Singh et al. | Generalized discriminant analysis algorithm for feature reduction in cyber attack detection system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070612 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070810 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071002 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071108 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20071207 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080926 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100309 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130319 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130319 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140319 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |