JP5478229B2 - Data analysis system and method - Google Patents
Data analysis system and method Download PDFInfo
- Publication number
- JP5478229B2 JP5478229B2 JP2009280525A JP2009280525A JP5478229B2 JP 5478229 B2 JP5478229 B2 JP 5478229B2 JP 2009280525 A JP2009280525 A JP 2009280525A JP 2009280525 A JP2009280525 A JP 2009280525A JP 5478229 B2 JP5478229 B2 JP 5478229B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- time series
- time
- pattern
- repetitions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 114
- 238000007405 data analysis Methods 0.000 title claims description 43
- 238000012545 processing Methods 0.000 claims description 84
- 238000004458 analytical method Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 description 73
- 238000000605 extraction Methods 0.000 description 24
- 230000006399 behavior Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000007418 data mining Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000003252 repetitive effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、データ解析システム及び方法に関し、特にデータベースに含まれるデータの出現順序の規則性を明らかにするデータマイニング技術に関する。 The present invention relates to a data analysis system and method, and more particularly to a data mining technique for clarifying regularity of appearance order of data included in a database.
モバイル端末、ICカード、ICタグなどのデータ収集環境の普及により、時々刻々の人の行動や物の状態をデータとして獲得し、大量に蓄積することが可能となった。この大量に蓄積された人の行動や物の状態のデータを解析し、特徴的または典型的な行動パターンや状態パターンを抽出し、マーケティングやヘルスケアなどに応用したいというニーズがある。その解決手段として、大量に蓄積されたデータを解析し、その中に埋もれた有用な規則性やパターンを抽出するデータマイニングが知られている。特に、データの時間軸上の出現順序のパターンを解析する技術として時系列パターンマイニングがある。 With the widespread use of data collection environments such as mobile terminals, IC cards, and IC tags, it has become possible to acquire and store a large amount of human behavior and the state of things from time to time. There is a need to analyze this large amount of accumulated human behavior and object state data, extract characteristic or typical behavior patterns and state patterns, and apply them to marketing and healthcare. As a solution, data mining is known in which a large amount of data is analyzed and useful regularities and patterns buried in the data are extracted. In particular, there is time-series pattern mining as a technique for analyzing a pattern of appearance order on the time axis of data.
例えば、クレジットカードの利用データの時系列パターンマイニングを考えてみる。顧客が店舗でクレジットカードを利用した履歴がクレジットカードの利用データとして、利用日時、利用店舗、利用額が記録される。大量のクレジットカード利用データから、複数の顧客に共通して現れるパターンとして、順序を伴うパターンである時系列パターンを抽出することが出来る。「店舗Aで購買した顧客は、その後に店舗Bで高額の購買をする場合が多い」のような時系列パターンが抽出された場合、店舗Aと店舗Bに併買行動の関係があることがわかり、店舗の配置、販売戦略に役立てることが出来る。また、Webサイトのアクセスログからユーザの典型的なアクセスパターンを抽出ことが可能であり、抽出されたアクセスパターンに含まれないアクセスが起きていること、過去のデータでは抽出されなかったアクセスパターンが新たなデータで抽出されたことなどの判定により、異常なアクセスの検出に活用出来る。また、建設機械の稼働履歴と故障やメンテナンスの履歴から、故障が発生しやすい稼働状態パターンや通常の稼働パターンを抽出することが可能であり、故障を防ぐ稼働プランの設計や異常な稼働状態の検出に役立てることが出来る。 For example, consider time-series pattern mining of credit card usage data. The history of the use of the credit card at the store by the customer is recorded as the use data of the credit card, the use date, the use store, and the use amount. As a pattern that appears in common with a plurality of customers, a time-series pattern that is an order-related pattern can be extracted from a large amount of credit card usage data. If a time-series pattern such as “Customers who purchased at store A often make expensive purchases at store B” is extracted, it can be seen that store A and store B have a relationship with concurrent purchase behavior. , Can be used for store location and sales strategy. In addition, it is possible to extract a typical access pattern of the user from the access log of the website, that there is an access that is not included in the extracted access pattern, and an access pattern that has not been extracted from past data. It can be used to detect abnormal access by determining whether it has been extracted with new data. In addition, it is possible to extract operation status patterns and normal operation patterns that are likely to cause failures from the operation history of construction machinery and the history of failures and maintenance. It can be useful for detection.
大量のデータから時系列パターンを抽出する研究は、データマイニングの分野
で行われてきた。例えば、特許文献1、非特許文献1に記載の方法がある。特許文献1と非特許文献1の方法では、アイテム(データ項目、事象)の組合せとタイムスタンプ(時刻)又は出現順所を示す識別子からなるデータベースから、ユーザが予め設定した支持度(出現頻度の全データに対する割合を表す)の最小値以上となる時系列パターンを抽出する。時系列パターンはアイテムの組合せ(アイテムセット)の出現順序を含んだパターンであり、1以上のn個のアイテムセットからなる時系列パターンは、<(IS1)・・・(ISn)>で表現される。ここで、(IS1)、・・・、(ISn)はアイテムセットであり、アイテムセットは1以上のアイテムからなる。ある時系列パターンの支持度は、全時系列データの中でその時系列パターンを含む時系列データの割合である。最小支持度以上となる時系列パターンは頻出時系列パターンと呼ばれる。頻出時系列パターン抽出は、候補となる時系列パターン(候補時系列パターン)の作成とデータベースからのデータ読み出しによる時系列データ中に該候補時系列パターンが現れる頻度の数え上げと、支持度の最小値以上の頻度となる時系列パターンの選出によって行われる。
Research on extracting time-series patterns from a large amount of data has been conducted in the field of data mining. For example, there are methods described in Patent Document 1 and Non-Patent Document 1. In the methods of Patent Literature 1 and Non-Patent Literature 1, the support level (appearance frequency of the appearance frequency) set in advance by the user from a database including a combination of items (data items, events) and an identifier indicating a time stamp (time) or appearance order. A time series pattern that is equal to or greater than the minimum value (representing the ratio to all data) is extracted. A time-series pattern is a pattern including the order of appearance of a combination of items (item set), and a time-series pattern composed of one or more n item sets is represented by <(IS1)... (ISn)>. The Here, (IS1),..., (ISn) are item sets, and the item set includes one or more items. The support degree of a certain time series pattern is the ratio of the time series data including the time series pattern in all the time series data. A time series pattern that is equal to or greater than the minimum support is called a frequent time series pattern. Frequent time-series pattern extraction is performed by creating a candidate time-series pattern (candidate time-series pattern), counting the frequency at which the candidate time-series pattern appears in the time-series data by reading data from the database, and the minimum support level. This is performed by selecting a time-series pattern having the above frequency.
時系列パターンマイニングの別の問題として、1つの時系列データにおいて繰り返される時系列パターン(繰り返し時系列パターン)を抽出する問題もある。例えば、クレジットカードの利用データの繰り返し時系列パターン抽出を考えてみる。長期間に渡って利用された1利用者の利用データから、複数回繰り返される利用パターンである時系列パターンを抽出することが出来る。「店舗Cで購買し、次に店舗Dで購買したとき、その後に店舗Eで購買することが多い」のような時系列パターンが抽出された場合、店舗Cと店舗Dと店舗Eを決まった順序で定期的に利用していることが分かり、広告戦略、販売戦略に役立てることや、定期的な利用パターンの傾向から利用者のタイプを分類するセグメンテーションに役立てることが出来る。 As another problem of time series pattern mining, there is also a problem of extracting a time series pattern (repeated time series pattern) repeated in one time series data. For example, consider repeated time series pattern extraction of credit card usage data. A time-series pattern that is a usage pattern that is repeated a plurality of times can be extracted from usage data of one user that has been used for a long period of time. If a time-series pattern such as “Purchase at store C, then purchase at store D, then often at store E” is extracted, store C, store D, and store E are determined. It can be seen that it is regularly used in order, which can be useful for advertising strategy and sales strategy, and for segmentation that classifies user types based on the tendency of regular usage patterns.
繰り返し時系列パターンを抽出する研究はデータマイニングの分野、バイオインフォマティクスの分野で行われてきた。例えば、特許文献2、3に記載の方法がある。特許文献2に記載の方法では、一人の時系列データにおいて、所定の頻度以上繰り返される時系列パターンを抽出ことにより、定期的に行っているパターンを抽出出来る。また、特許文献3に記載の方法では、実際に繰り返される厳密な回数を数え上げず、統計的に繰り返されていると判断されたパターンを抽出する。特許文献2と異なり、繰り返されるパターンは意味の無い部分と考えられており、それらを除去することが特許文献3のようなバイオの分野での繰り返しパターン抽出の目的である。特許文献2では、繰り返されるパターンが意味のある部分と考えられており、それらを厳密な出現回数と共に見つけ出すことが目的である。
Research to extract repeated time series patterns has been conducted in the fields of data mining and bioinformatics. For example, there are methods described in
実際の解析あるいは分析では常に全データを分析対象とする訳ではない。例えば、人の行動分析においては、たまたま行われた行動はノイズとして除去し、ある程度の回数以上繰り返された行動のみを分析対象とする場合がある。多くのユーザが定期的に行った行動を有意な行動パターンとして抽出したいというニーズもある。購買分析においては、定期的に繰り返して購買してくれる顧客の購買パターンを知り、そのパターンでの購買を促進することにより、定期的に繰り返し購買をする顧客を生み出すことに役立てることが出来る。 In actual analysis or analysis, not all data is always analyzed. For example, in human behavior analysis, the behavior that happens to be performed may be removed as noise, and only behavior that has been repeated more than a certain number of times may be the analysis target. There is also a need to extract the actions that many users perform regularly as significant action patterns. In purchasing analysis, knowing the purchase pattern of customers who make regular and repeated purchases and promoting purchases in that pattern can help to create customers who make regular and repeated purchases.
このように、前述の特許文献1と非特許文献1、特許文献2と3はそれぞれ、多人数の時系列データにおいて複数の顧客に共通して現れる時系列パターンの抽出、一人の時系列データにおいて複数回繰り返される時系列パターンの抽出が可能である。しかし、この両者を共に考慮して時系列パターンを抽出することは考慮されていなかった。
As described above, Patent Document 1 and Non-Patent Document 1, and
単純には、まず個々の顧客の時系列データで繰り返しパターンを抽出し、それらの中から所定の数以上の顧客で抽出されたパターンを抽出することによって、両者の条件を満たすパターンを抽出出来る。しかし、顧客毎に繰り返す購買パターンは異なるため、単純に組み合わせた方法では不要なパターンの探索処理を膨大な時系列データに対して行うことになり、膨大な不要な処理が発生するため、現実的には困難である。 Simply, a pattern satisfying both conditions can be extracted by first extracting repeated patterns from the time-series data of individual customers and extracting patterns extracted by a predetermined number or more of them from them. However, since the purchase pattern to be repeated for each customer is different, the simple combination method performs an unnecessary pattern search process on a huge amount of time-series data, and a huge amount of unnecessary processing occurs. It is difficult.
本発明の目的は、各時系列データにおいて所定の回数以上繰り返される時系列パターンであり、所定の数以上の時系列データにおいて該繰り返し回数の条件を満たす時系列パターンである頻出繰り返し時系列パターンを抽出するデータ解析システム及び方法を提供することである。 An object of the present invention is a time series pattern that is repeated a predetermined number of times or more in each time series data, and a frequently repeated time series pattern that is a time series pattern that satisfies the condition of the number of repetitions in a time series data of a predetermined number or more. To provide a data analysis system and method for extraction.
本発明の他の目的は、チェックポイントの利用と繰り返し回数と出現回数の上限値の算出によって、探索処理量を低減するデータ解析システム及び方法を提供することである。 Another object of the present invention is to provide a data analysis system and method that reduce the amount of search processing by using checkpoints and calculating the upper limit of the number of repetitions and the number of appearances.
上記の目的を達成するため、本発明においては、処理部と記憶部とを備えた計算機を用い、事象と,事象の属するIDと,事象間の順序関係を示す情報の組が複数格納されたデータを、同じIDを有する事象をその順序関係に従って並べた時系列データとし,1以上の事象を順方向に並べた重複順列を時系列パターンとし,所定の数以上の時系列データにおいて,各時系列データにおける所定の回数以上繰り返される時系列パターンである頻出繰り返し時系列パターンを抽出するため,繰り返し回数が未知の時系列パターンについて,各時系列データにおける繰り返し回数を数え上げるステップと,この繰り返し回数が所定の繰り返し回数以上となる時系列データの数を数え上げるステップと,この数え上げた時系列データの数が所定の数以上となる時系列パターンを抽出するステップとを処理部で実行するデータ解析システム及び方法を構成する。 In order to achieve the above object, in the present invention, a computer including a processing unit and a storage unit is used, and a plurality of sets of information indicating an event, an ID to which the event belongs, and an order relationship between events are stored. The data is time-series data in which events having the same ID are arranged according to the order relationship, and a duplicate permutation in which one or more events are arranged in the forward direction is a time-series pattern. In order to extract a frequent repeating time series pattern that is a time series pattern that is repeated a predetermined number of times in series data, a step of counting the number of repetitions in each time series data for a time series pattern with an unknown number of repetitions, A step of counting the number of time-series data that is equal to or greater than a predetermined number of repetitions, and the number of time-series data counted is a predetermined number or more. Configuring the data analysis system and method for performing the steps in the processing unit for extracting time series pattern as a.
また、上記の目的を達成するため、本発明においては、処理部と記憶部とを備えた計算機を用い、事象と,事象の属するIDと,事象間の順序関係を示す情報の組が複数格納されたデータを,同じIDを有する事象をその順序関係に従って並べた時系列データとし,1以上の事象を順方向に並べた重複順列を時系列パターンとし,所定の数以上の時系列データにおいて,各時系列データにおける所定の回数以上繰り返される時系列パターンである頻出繰り返し時系列パターンを抽出するため,各時系列データに,所定の間隔でチェックポイントを設定する第1のステップと,各時系列データにおける繰り返し回数が未知の時系列パターンについて,各時系列データについてチェックポイントから次のチェックポイントまでの範囲で該時系列パターンが繰り返される回数を数え上げる第2のステップと,
該時系列データにおける該時系列パターンの繰り返し回数の上限値を,既に数え上げられたチェックポイントまででの繰り返し回数と,該チェックポイント以降に現れる各事象の繰り返し回数との和から算出する第3のステップと,該算出された上限値が所定の繰り返し回数以上となる時系列データの数を数え上げる第4のステップと,該時系列データの数が所定の数以上となる時系列パターンを抽出する第5のステップと,該抽出された時系列パターンについて前記第2から第5のステップを最後のチェックポイントまで繰り返す第6のステップを処理部で実行するデータ解析システム及び方法を構成する。
In order to achieve the above object, in the present invention, a computer including a processing unit and a storage unit is used to store a plurality of sets of events, IDs to which events belong, and information indicating the order relationship between events. The time-series data in which the events having the same ID are arranged according to the order relation, and the overlapping permutation in which one or more events are arranged in the forward direction are set as a time-series pattern. In order to extract a frequent repeated time series pattern that is a time series pattern repeated for a predetermined number of times in each time series data, a first step for setting checkpoints at predetermined intervals in each time series data, and each time series For a time-series pattern whose number of repetitions in the data is unknown, the time-series pattern of each time-series data is in the range from the check point to the next check point. A second step of counting the number of times the process is repeated;
The upper limit value of the number of repetitions of the time series pattern in the time series data is calculated from the sum of the number of repetitions up to the already counted check point and the number of repetitions of each event appearing after the check point. A fourth step of counting the number of time series data for which the calculated upper limit value is equal to or greater than a predetermined number of repetitions, and a time series pattern for extracting the time series pattern for which the number of time series data is equal to or greater than a predetermined number A data analysis system and method for executing the fifth step and the sixth step of repeating the second to fifth steps up to the last check point for the extracted time series pattern in the processing unit are configured.
本発明によると、個々の時系列データにおいて所定の回数以上繰り返される時系列パターンであって、かつ、所定の数以上の時系列データにおいて該繰り返し条件を満たす時系列パターンを抽出することが可能となる。 According to the present invention, it is possible to extract a time series pattern that is repeated a predetermined number of times or more in individual time series data and that satisfies the repetition condition in a predetermined number or more of time series data. Become.
また、本発明のデータの処理単位毎に各時系列データの繰り返し回数の数え上げ処理において繰り返し回数の上限値を算出し、所定の繰り返し回数未満となる場合に以降の繰り返し回数の数え上げを回避すること、出現頻度の数え上げをデータの処理単位毎に行うことによって解析処理量を低減することが可能となる。 Further, the upper limit value of the number of repetitions is calculated in the process of counting the number of repetitions of each time series data for each data processing unit of the present invention, and when the number of repetitions is less than the predetermined number of repetitions, the subsequent number of repetitions is avoided. The amount of analysis processing can be reduced by counting the appearance frequency for each data processing unit.
以下、図面を参照して本発明の実施の形態を説明する。 Embodiments of the present invention will be described below with reference to the drawings.
はじめに、種々の実施の形態において利用するデータの構成を説明する。データベースはレコードの集合からなり、レコードは事象(アイテム)の組合せ(アイテムセット)と、その事象の組合せが属する識別子(時系列データID)と、タイムスタンプ又は順序関係を示す識別子の組からなる。同一の時系列データIDを持つ1以上のレコードを、タイムスタンプ又は順序関係を示す識別子の順に配置したアイテムセットのリストの組で表現したデータを時系列データと呼ぶ。ここで、アイテムは離散値である。アイテムが連続値の場合、範囲分割などによって区分けし、各区分けに特定の離散値を割り当てることにより、連続値を離散値に対応付けることが可能である。また、離散値をグループに分類し、各グループを特定の離散値に対応付けることにより、アイテムに含まれない離散値に対応付けることも可能である。 First, the configuration of data used in various embodiments will be described. The database is composed of a set of records, and the record is composed of a combination of events (items) (an item set), an identifier to which the combination of the events belongs (time series data ID), and an identifier indicating a time stamp or an order relationship. Data expressing one or more records having the same time-series data ID as a set of item sets arranged in the order of time stamps or identifiers indicating order relations is called time-series data. Here, the item is a discrete value. When the item is a continuous value, it is possible to associate the continuous value with the discrete value by dividing the item by range division or the like and assigning a specific discrete value to each division. Further, by classifying discrete values into groups and associating each group with a specific discrete value, it is also possible to associate with discrete values not included in the item.
例えば、クレジットカードの利用データの場合の一例を表1と表2に示す。表1は表形式の表現であり、クレジットカードの利用データの場合、1レコードは、ある顧客の一回の利用を意味し、時系列データIDは「カードID」、タイムスタンプは「利用日」、事象は「利用内容」となる。また、表2は時系列データ形式の表現であり、1時系列データは、ある顧客の長期間に渡る利用の履歴(利用履歴)を意味し、事象のリストは、利用した順に並べられた利用内容となる。 For example, Tables 1 and 2 show examples of credit card usage data. Table 1 is a tabular representation. In the case of credit card usage data, one record means one use of a customer, the time series data ID is “card ID”, and the time stamp is “use date”. The event becomes “usage content”. Table 2 is a representation of time-series data format. One time-series data means a long-term usage history (usage history) of a customer, and a list of events is arranged in the order used. It becomes contents.
時系列パターンはアイテムセットの重複順列であり、1以上のn個のアイテムセット(IS1)、・・・、(ISn)から構成される時系列パターンは<(IS1)・・・(ISn)>と表現される。ある時系列パターンが1つの時系列データ中に現れる回数である繰り返し回数と呼ぶ。ある時系列パターンは、該時系列パターンが所定の繰り返し回数以上現れる時系列データの数である出現頻度と、該時系列データにおける繰り返し回数の統計値を評価値として持つ。ここで、時系列データの数は、異なる時系列データIDの種類数と等しい。 The time series pattern is an overlapping permutation of item sets, and the time series pattern composed of one or more n item sets (IS1),..., (ISn) is <(IS1) ... (ISn)>. It is expressed as This is called the number of repetitions, which is the number of times a certain time series pattern appears in one piece of time series data. A certain time series pattern has an appearance frequency, which is the number of time series data in which the time series pattern appears more than a predetermined number of repetitions, and a statistical value of the number of repetitions in the time series data as evaluation values. Here, the number of time-series data is equal to the number of types of different time-series data IDs.
表1、2に示したデータの例では、時系列データ数は3であり、例えば、時系列パターン<(店舗A)(店舗B)>のカードIDがcard01のデータにおける繰り返し回数は2である。また、例えば、時系列パターン<(店舗A)(店舗B)>は,カードIDがcard01で繰り返し回数が2,card02で1,card03で3であることから,所定の繰り返し回数を2以上と設定した場合の出現頻度は2であり、card01とcard03が該当する。また,繰り返し回数の統計値は平均2.5、最大3、最小2である。 In the example of data shown in Tables 1 and 2, the number of time-series data is 3, for example, the number of repetitions in the data with the card ID card01 of the time-series pattern <(store A) (store B)> is 2. . Also, for example, the time series pattern <(store A) (store B)> has a card ID of card01, the number of repetitions is 2, card02, 1 and card03 is 3, so the predetermined number of repetitions is set to 2 or more. In this case, the appearance frequency is 2, which corresponds to card01 and card03. The statistical value of the number of repetitions is 2.5 on average, 3 on the maximum, and 2 on the minimum.
図1は、第1の実施例のデータ解析システムの一構成例を示す図である。このシステムは、処理部であるプロセッサ101と、記憶部を構成するメモリ102と記憶装置103を有する。プロセッサ101とメモリ102はコンピュータ100を構成し、解析対象のデータは記憶装置103に格納されている。本実施例の時系列パターン抽出プログラムはメモリ102に格納されており、プロセッサ101によって実行されることによって、図4に示す処理が実行される。
FIG. 1 is a diagram illustrating a configuration example of the data analysis system according to the first embodiment. This system includes a
メモリ102には、図1に示すように、実行プログラム106に加え、設定値情報107〜チェックポイント情報111が記憶される。設定値情報107は、解析対象データと繰り返し回数の最小値と出現頻度の最小値と解析対象データの処理単位の設定値をデータあるいはファイルなどの形式で保持する。時系列データ情報108は、記憶装置103から読み出した時系列データについて時系列データIDと時系列データを、例えば、card01、<(店舗A)(店舗C)(店舗A)(店舗B、高額決済)(店舗C)>のように、表形式あるいはリスト形式などで保持する。
As shown in FIG. 1, the
アイテム情報109は、解析対象のデータに現れる各アイテムについて、例えば(店舗A、card01、3、0)のように、アイテムと時系列データIDと時系列データにおける繰り返し回数と探索する時系列パターンの数え上げに利用するための繰り返し回数(カウント値と呼ぶ)との組を表形式あるいはリスト形式などで保持する。探索時系列パターン情報110は、探索する時系列パターンについて、例えば、(<(店舗A)(店舗B、高額決済)>、card01、1、0)のように、探索時系列パターンと時系列データIDと数え上げ済みの繰り返し回数と数え上げ済みの時系列パターンのパターン位置との組を表形式あるいはリスト形式などで保持する。
For each item appearing in the data to be analyzed, the
また、メモリ102は、繰り返し回数の数え上げを行う時系列データの先頭位置をチェックポイント情報111として保持する。このチェックポイントについては後述する。更に、コンピュータ100には、キーボードやマウスなどを備える入力装置104、及びディスプレイやプリンタなどからなる出力装置105が接続されている。
Further, the
図2は、本実施例のユーザインタフェースの一例を示している。このユーザインタフェース200は、解析対象のデータを指定する解析データ指定部201、解析対象データの処理単位を指定するチェックポイント指定部202、抽出する時系列パターンの繰り返し回数の最小値(最小繰り返し回数)を指定する最小繰り返し回数入力部203と出現頻度の最小値(最小出現頻度)を指定する最小出現頻度入力部204、処理の実行を指令する実行ボタン205、抽出された時系列パターンとその評価値とを表示する結果表示部206からなる。
FIG. 2 shows an example of the user interface of this embodiment. The
ユーザは解析対象データを解析データ指定部201で指定し、処理単位をチェックポイント指定部202に、抽出する時系列パターンの繰り返し回数の最小値を最小繰り返し回数入力部203に、抽出する時系列パターンの出現頻度の最小値を最小出現頻度入力部204に、それぞれ入力する。そして、実行ボタン205によって、時系列パターン抽出処理を開始する。
The user designates the analysis target data with the analysis data designation unit 201, extracts the processing unit into the
抽出された時系列パターンは、時系列パターンを構成するアイテムセットのリストと、時系列パターンの評価値である繰り返し回数の統計値と出現頻度とが結果表示部206に表示される。なお、結果表示部206では表形式を用いて時系列パターンを表示したが、時系列パターンを構成するアイテムセットをノードとする遷移図によって表示しても構わない。
In the extracted time series pattern, a list of item sets constituting the time series pattern, a statistical value of the number of repetitions as an evaluation value of the time series pattern, and an appearance frequency are displayed on the
また、解析データ指定部201とチェックポイント指定部202と最小繰り返し回数入力部203と最小出現頻度入力部204とが入力装置104に、結果表示部206が出力装置105に対応している。なお、タッチパネルとして機能するディスプレイ等を用いることにより、この入力装置104と出力装置105を一体化構成として形成することができることは言うまでもない。
The analysis data specifying unit 201, the
図3は、本実施例の時系列パターン抽出処理におけるユーザによる操作とシステムによる操作のフローの一例を示した図である。 FIG. 3 is a diagram illustrating an example of a flow of an operation by the user and an operation by the system in the time-series pattern extraction process of the present embodiment.
はじめに、ユーザは入力装置104において、解析対象のデータを指定、解析対象データの処理単位を入力、抽出する時系列パターンの最小繰り返し回数と最小出現頻度を入力する(301)。次に、実行を指示する(302)ことによって、時系列パターン抽出処理を開始する。 First, the user designates the data to be analyzed, inputs the processing unit of the analysis target data, and inputs the minimum repetition frequency and minimum appearance frequency of the time series pattern to be extracted (301). Next, the execution of time series pattern extraction processing is started by instructing execution (302).
データ解析システムは実行指示と同時に解析データ、データの処理単位、最小繰り返し回数、最小出現頻度を取得してメモリ102に格納し、メモリ102に格納された実行プログラムをプロセッサ101で実行する(303)。実行プログラムは、記憶装置103からの時系列データの読み出し、繰り返し回数の計数処理、出現頻度の計数処理によって、頻出繰り返し時系列パターンを抽出する(304)。頻出繰り返し時系列パターンの抽出処理手順の詳細は後述する。最後に、抽出された時系列パターンを出力装置106に出力する(305)。ユーザは出力装置106に出力された時系列パターンをチェックすること(306)によって、時系列パターン抽出処理を終了する。
The data analysis system acquires the analysis data, the data processing unit, the minimum number of repetitions, and the minimum appearance frequency simultaneously with the execution instruction, stores the acquired data in the
図4は、本実施例における時系列パターン抽出処理の全体処理手順を説明するフローチャートである。 FIG. 4 is a flowchart for explaining the overall processing procedure of the time-series pattern extraction process in this embodiment.
はじめにユーザは、入力処理(301)に対応し、解析対象の解析データ、解析データの処理単位、最小繰り返し回数、最小出現頻度を入力装置104に入力する(401)。プロセッサ101は、入力された解析対象データ、解析処理単位、最小繰り返し回数、最小出現頻度をメモリ102に保持する。メモリ102では、解析対象のデータをデータベース名やファイル名として、データの処理単位と最小繰り返し回数と最小出現頻度を数値として、設定値情報107に保持し、チェックポイント情報111にデータ位置の先頭を示す0を設定する(401)。
First, in response to the input process (301), the user inputs the analysis data to be analyzed, the processing unit of the analysis data, the minimum number of repetitions, and the minimum appearance frequency to the input device 104 (401). The
次に、プロセッサ101は、実行プログラムの処理(304)に対応して、メモリ102に格納された実行プログラム106を実行し、頻出繰り返しアイテムの抽出処理402、探索する候補となる時系列パターンの設定403、記憶装置103からの時系列データの読み出し処理404、繰り返しパターン計数処理405、出現頻度の計数処理406によって頻出繰り返し時系列パターンを抽出する。また、抽出された時系列パターンを出力装置105に出力する(409)。
Next, in response to the execution program processing (304), the
図4の頻出繰り返しアイテム抽出処理402は、記憶装置103から時系列データを読み出し、時系列データ毎の各アイテムの繰り返し回数の数え上げ、出現頻度の数え上げを行うことによって、最小繰り返し回数と最小出現頻度の条件を共に満たす全てのアイテムを抽出する。
The frequent repeated
図5は、図4における頻出繰り返しアイテム抽出処理402の手順を詳細に説明するフローチャートである。はじめにアイテム情報109を初期化し、空にする(501)。アイテム情報109は探索するアイテムについて、アイテム、時系列データID、この時系列データIDの時系列データにおける繰り返し回数、カウント値の組を表形式あるいはリストで保持する。次に、記憶装置103から1つの時系列データを読み出し、時系列データ情報109に時系列データIDと時系列データを保持する(502)。次に、該時系列データに現れる各アイテムの繰り返し回数を数え上げ(503)、最小繰り返し回数以上となるアイテムについて、アイテム、該時系列データの時系列データID、該アイテムの該時系列データIDの時系列データにおける繰り返し回数、カウント値の初期値である0の組をアイテム情報に登録する(504)。全ての時系列データについて同様の処理を繰り返す(505)。
FIG. 5 is a flowchart for explaining in detail the procedure of the frequent repeated
全ての時系列データに対する処理が終了した時点で、アイテム情報109に登録された各アイテムについて、アイテム情報109に登録されている時系列データIDの数(出現頻度)を数え上げ(506)、該出現頻度が最小出現頻度未満となるアイテムのアイテムと時系列IDと繰り返し回数とカウント値の組をアイテム情報から削除する(507)。
When the processing for all the time series data is completed, the number (appearance frequency) of the time series data ID registered in the
図5で説明した頻出繰り返しアイテム抽出処理402が終了した時点で、最小繰り返し回数と最小出現頻度を共に満たす全てのアイテムについて、アイテムと時系列データIDと該時系列データにおける繰り返し回数とカウント値の初期値の組がメモリ102のアイテム情報109に格納される。ここで、繰り返し回数の数え上げが終了した時系列データIDについては、時系列データ情報108に時系列データを保持しておく必要はなく、時系列データIDのみ保持し、時系列データは削除しても構わない。
When the frequent repeated
図4に戻り、次に候補となる探索時系列パターンが設定(403)される。該候補となる探索時系列パターンは、2つ以上のアイテムから構成され、各時系列データにおける繰り返し回数と出現頻度が未知の時系列パターンである。探索時系列パターン情報110に時系列パターン、時系列データID、数え上げ済みの繰り返し回数の初期値、数え上げ済みの時系列パターンの位置の初期値の組が保持される。ここで、探索時系列パターン情報110は、探索する時系列パターンの各時系列データにおける繰り返し回数を数え上げるために利用される。なお、数え上げ済みの繰り返し回数の初期値と数え上げ済みの時系列パターンのパターン位置の初期値は共に0が設定される。
Returning to FIG. 4, the next candidate search time series pattern is set (403). The candidate search time-series pattern is composed of two or more items, and is a time-series pattern whose number of repetitions and appearance frequency are unknown in each time-series data. The search time
図4の時系列データ読み出し処理404は、記憶装置103から時系列データを読み出し、読み出した時系列データをメモリ102の時系列データ情報108に保持する。
4 reads time-series data from the
図6は、図4における時系列データ読み出し処理404の手順を詳細に説明するフローチャートである。はじめに、メモリ102の時系列データ情報108の各時系列データIDの時系列データが保持されている場合、時系列データIDのみ保持し、時系列データを削除する(601)。次に、チェックポイント情報111から現在の時系列データのデータ位置を読み出し(603)、時系列データ情報108に格納された各時系列データIDについて、現データ位置から設定値情報106の解析処理単位の分だけ後ろのデータ位置までの時系列データを記憶装置103から読み出し(604)、アイテム情報109に登録されているアイテムを選び出し、時系列データ情報108に該時系列データIDの時系列データとして保持し(605)、該時系列データに現れる各アイテムについてアイテム情報109のカウント値に該アイテムが現れる回数を加算する(606)。全ての時系列データについて同様の処理を繰り返す(607)。全ての時系列データに対する処理が終了した時点で、時系列データ情報108に設定情報106のデータの処理単位分の各時系列データIDの時系列データが保持される。
FIG. 6 is a flowchart for explaining in detail the procedure of the time-series
再び図4に戻り、次に繰り返しパターン計数処理405が行われる。繰り返しパターン計数処理405は、メモリ102の時系列データ情報108、アイテム情報109、探索時系列パターン情報110を利用し、探索時系列パターン情報110に保持された時系列パターンの各時系列データにおける繰り返し回数を数え上げる。
Returning to FIG. 4 again, the repeated
図7は、図4の1時系列データに対する繰り返しパターン計数処理405の手順を詳細に説明するフローチャートである。探索時系列パターン情報110に保持された各時系列パターンについて(701)、繰り返し回数の数え上げ処理を行い(702)、該探索時系列パターンの該時系列データにおける繰り返し回数を数え上げる。次に、該探索時系列パターンの該時系列データにおける繰り返し回数の上限値を算出する(703)。繰り返し回数の上限値は、該時系列データにおける数え上げ済みの繰り返し回数、該時系列パターンにおける数え上げ済みの位置、該探索時系列パターンを構成する各アイテムの該時系列データにおける繰り返し回数とカウント値から、次に示す式によって算出される。
数え上げ済みのパターン位置が時系列パターンの初期値の場合:
(繰り返し回数の上限値) = (数え上げ済み繰り返し回数) + min{アイテムaの
繰り返し回数 - アイテムaのカウント値}
ここで,aは探索時系列パターンを構成するアイテムである。
数え上げ済みのパターン位置が時系列パターンの初期値でない場合:
(繰り返し回数の上限値) = (数え上げ済み繰り返し回数) + min{アイテムaの
繰り返し回数 - アイテムaのカウント値} + 1
ここで,aは探索時系列パターンを構成するアイテムである。
FIG. 7 is a flowchart for explaining in detail the procedure of the repetitive
When the counted pattern position is the initial value of the time series pattern:
(Upper limit number of repetitions) = (Number of repeated repetitions) + min {Number of repetitions of item a-Count value of item a}
Here, a is an item constituting a search time series pattern.
When the counted pattern position is not the initial value of the time series pattern:
(Maximum number of repetitions) = (Number of repeated repetitions) + min {Number of repetitions of item a-Count value of item a} + 1
Here, a is an item constituting a search time series pattern.
時系列パターンの繰り返し回数の厳密な値は、現在までに繰り返し回数の数え上げ処理を完了した時系列データにおける繰り返し回数と、繰り返し回数の数え上げ処理が未処理の時系列データにおける繰り返し回数の和からなる。探索時系列パターンが数え上げ処理済みの時系列データと未処理の時系列データに跨る場合には、前述の和に1を加算する必要がある。繰り返し回数の数え上げが未処理の時系列データにおける探索時系列パターンの繰り返し回数の厳密な値は数え上げ処理を完了するまで未知である。 The exact value of the number of repetitions of the time series pattern is the sum of the number of repetitions in the time series data for which the process for counting the number of repetitions has been completed up to now and the number of repetitions in the time series data for which the process for counting the number of repetitions has not been processed. . When the search time series pattern spans time-series data that has been counted and unprocessed time-series data, it is necessary to add 1 to the above-mentioned sum. The exact value of the number of iterations of the search time series pattern in the time series data for which the number of iterations has not been processed is unknown until the counting process is completed.
しかし、時系列パターンの繰り返し回数には、ある時系列パターンの繰り返し回数は該時系列パターンを構成する各アイテムの繰り返し回数以上になることはないという性質がある。したがって、該未処理の時系列データにおける探索時系列パターンの繰り返し回数は該未処理の時系列データにおける該探索時系列パターンを構成するアイテムの繰り返し回数の最小値より高い値にはなり得ない。数1は上記の時系列パターンの繰り返し回数の性質を利用して、時系列データにおける繰り返し回数の上限値を、時系列データにおける数え上げ済みの繰り返し回数、数え上げ済みの位置、探索時系列パターンを構成する各アイテムの時系列データにおける繰り返し回数とカウント値から算出する数式である。 However, the number of repetitions of a time series pattern has a property that the number of repetitions of a certain time series pattern does not exceed the number of repetitions of each item constituting the time series pattern. Therefore, the number of repetitions of the search time series pattern in the unprocessed time series data cannot be higher than the minimum value of the number of repetitions of items constituting the search time series pattern in the unprocessed time series data. Formula 1 uses the above-mentioned property of the number of repetitions of the time-series pattern, and configures the upper limit value of the number of repetitions in the time-series data, the number of repetitions counted in the time-series data, the counted position, and the search time-series pattern It is a mathematical formula calculated from the number of repetitions and the count value in the time-series data of each item.
数1によって算出された値が最小繰り返し回数を満たさない場合、該探索時系列パターンについて該時系列データIDの未処理の時系列データを含めた末尾まで数え上げを行ったとしても、該探索時系列パターンは該時系列データにおいては最小繰り返し回数を満たすことがないことが分かるため、探索時系列パターン情報から該探索時系列パターンの該時系列データに対応する情報を削除し(705)、以降の該時系列データにおける該探索時系列パターンの数え上げ処理は省略する。 When the value calculated by Equation 1 does not satisfy the minimum number of repetitions, even if the search time series pattern is counted up to the end including the unprocessed time series data of the time series data ID, the search time series Since it can be seen that the pattern does not satisfy the minimum number of repetitions in the time series data, information corresponding to the time series data of the search time series pattern is deleted from the search time series pattern information (705). The counting process of the search time series pattern in the time series data is omitted.
図8は、図7の1つの探索時系列パターンに対する1つの時系列データにおける繰り返し回数数え上げ処理702の手順を詳細に説明するフローチャートである。
FIG. 8 is a flowchart for explaining in detail the procedure of the repeat
はじめに探索する時系列パターンの処理対象の時系列データIDにおける繰り返し回数数え上げ済みパターン位置を取得し、該取得したパターン位置が初期値でない場合には1つ後ろを現パターン位置に設定し,初期値の場合には現パターン位置に先頭のパターン位置を設定する(801)。繰り返し回数数え上げを開始する該時系列データのデータ位置を該時系列データの先頭に設定する(802)。以降、現データ位置のアイテムセットから順に(803)、該探索時系列パターンの現パターン位置のアイテムセットを含むデータ位置を探す(804)。 First, the pattern position that has been counted in the time-series data ID to be processed for the time-series pattern to be searched is acquired, and if the acquired pattern position is not the initial value, the next pattern position is set as the current pattern position, and the initial value In the case of (1), the head pattern position is set to the current pattern position (801). The data position of the time-series data at which the repetition count starts is set at the head of the time-series data (802). Thereafter, in order from the item set at the current data position (803), the data position including the item set at the current pattern position of the search time series pattern is searched (804).
該時系列データの現データ位置のアイテムセットが該探索時系列パターンの現パターン位置のアイテムセットを含まない場合、現データ位置が該時系列データの末尾かどうかを調べ(809)、末尾でない場合には、現データ位置を1つ後ろにずらし、該時系列データの現データ位置のアイテムセットが該時系列パターンの現パターン位置のアイテムセットを含むか調べる処理(804)以降を繰り返す。末尾の場合には、処理を終了する。 If the item set at the current data position of the time series data does not include the item set at the current pattern position of the search time series pattern, it is checked whether the current data position is the end of the time series data (809). The current data position is shifted backward by one, and the process (804) and subsequent steps for checking whether the item set at the current data position of the time series data includes the item set at the current pattern position of the time series pattern are repeated. In the case of the end, the process is terminated.
また、該時系列データの現データ位置のアイテムセットが該探索時系列パターンの現パターン位置のアイテムセットを含む場合、現パターン位置が該探索時系列パターンの末尾かどうかを調べる(805)。末尾の場合には、探索時系列パターン情報110の数え上げ済み繰り返し回数の値を1増加し(806)、数え上げ済みの時系列パターンのパターン位置に先頭のパターン位置を設定する(807)。末尾でない場合には、探索時系列パターン情報110の数え上げ済みの時系列パターンのパターン位置に現パターン位置を設定する(808)。現データ位置が該時系列データの末尾かどうかを調べ(809)、末尾でない場合には、現データ位置を1つ後ろにずらし(810)、該時系列データの現データ位置のアイテムセットが該時系列パターンの現パターン位置のアイテムセットを含むかを調べる処理(804)に戻る。末尾まで処理が完了した時点で、探索時系列パターン情報110の該時系列データIDの数え上げ済み時系列パターン位置に現パターン位置を設定し(811)、終了する。
If the item set at the current data position of the time series data includes the item set at the current pattern position of the search time series pattern, it is checked whether the current pattern position is the end of the search time series pattern (805). In the case of the end, the number of repeated iterations counted in the search time
再び図4に戻り、次に出現頻度計数処理406が行われる。出現頻度計数処理404は探索時系列パターンの出現回数を数え上げる。
Returning to FIG. 4 again, the appearance
図9は、この出現頻度計数処理404の手順を詳細に説明するフローチャートである。メモリ102の探索時系列パターン情報110に登録された各探索時系列パターンについて(901)、該探索時系列パターンの時系列データIDの種類の数を数え上げ(902)、設定値情報107の最小出現回数未満となる探索時系列パターンを探索時系列パターン情報110から削除する(904)。探索時系列パターン情報に登録された全探索時系列パターンに対する同様の処理が終了した時点で、探索時系列パターン情報110に最小繰り返し回数と最小出現頻度の条件を共に満たす可能性のある探索時系列パターンのみが登録される。
FIG. 9 is a flowchart for explaining the procedure of the appearance
再び図4に戻り、次に、探索時系列パターン情報110に含まれない時系列データIDを時系列データ情報から削除する(407)。
Returning to FIG. 4 again, next, the time series data ID not included in the search time
以上の処理を全時系列データの末尾まで終了した時点で、探索時系列パターン情報110に登録されている探索時系列パターンから抽出された時系列パターンとして繰り返し回数の統計値と出現頻度の統計値と共に出力する(409)。探索時系列パターン情報110には、各時系列パターンの各時系列データにおける繰り返し回数の厳密な値が格納されているため、繰り返し回数に関する統計値の算出が可能であり、各時系列パターンの出現頻度と全時系列データ数が既知
のため、出現頻度の統計値の算出が可能である。
When the above processing is completed up to the end of all time series data, the statistical value of the number of repetitions and the statistical value of the appearance frequency are extracted as the time series pattern extracted from the search time series pattern registered in the search time
なお、図1の出力装置105の図2の結果表示部206には、繰り返し回数の統計値として平均値と最大値と最小値、出現頻度の統計値として頻度と全時系列データ数に対する割合を一例として示した。
In the
図14は、本実施例の図4のフローチャートにおける、時系列データ読み出し処理404、繰り返しパターン計数処理405、出現頻度計数処理406に対する記憶装置103から読み出される時系列データのチェックポイントによる処理単位のイメージ図である。
FIG. 14 is an image diagram of processing units by checkpoints of time series data read from the
1時系列データを一本の直線で示しており、1回目の時系列データ読み出し処理で、はじめにデータ1の先頭から最初のチェックポイントまでの時系列データが読み出される。該読み出された時系列データに対して、繰り返しパターン計数処理が行われる。データ1の繰り返しパターン計数処理が終了した時点で、次の時系列データであるデータ2の先頭から最初のチェックポイントまでの時系列データが読み出され、繰り返しパターン計数処理が行われる。すべての時系列データに対して先頭から最初のチェックポイントまでの時系列データ読み出し処理と繰り返しパターン計数処理が終了した時点で、出現頻度計数処理が行われる。
One time-series data is indicated by a single straight line. In the first time-series data reading process, first, time-series data from the beginning of data 1 to the first check point is read. A repeated pattern counting process is performed on the read time-series data. When the repeated pattern counting process for data 1 is completed, the time series data from the beginning of
一回目の時系列データ読み出し処理では、各時系列データについて先頭から最初のチェックポイントまでの時系列データが読み出される。出現頻度計数処理の結果が最小出現頻度以上である場合、最初のチェックポイントまでの繰り返しパターン計数処理における繰り返し回数の上限値が最小繰り返し回数以上であった時系列データについて、最初のチェックポイントから2番目のチェックポイントまでに対して、時系列データの読み出し処理、繰り返しパターン計数処理が行われ、すべての時系列データについて終了した時点で、出現頻度計数処理が行われる。 In the first time-series data reading process, time-series data from the beginning to the first check point is read for each time-series data. If the result of the appearance frequency counting process is greater than or equal to the minimum appearance frequency, 2 times from the first checkpoint for time series data where the upper limit of the number of repetitions in the repeated pattern counting process up to the first checkpoint is greater than or equal to the minimum number of repetitions. Time series data reading processing and repetitive pattern counting processing are performed up to the first check point, and appearance frequency counting processing is performed when all time series data is completed.
出現頻度計数処理の結果が最小出現頻度以上である場合には、同様の処理が繰り返される。最後のチェックポイントまで終了した時点で、最小繰り返し回数以上となる時系列データにおける繰り返し回数、および、出現頻度を得ることができる。途中のチェックポイントまでの出現頻度計数処理の結果が最小出現頻度未満となる場合、その探索時系列パターンは最小出現頻度を満たさないことが分かるため、該途中のチェックポイント以降の時系列データについては処理を省略する。また、各時系列データについて、途中のチェックポイントまでの繰り返しパターン計数処理の結果の繰り返し回数の上限値が最小繰り返し回数未満となる場合、その探索時系列パターンは該時系列データにおいては最小繰り返し回数を満たさないことがわかるため、該途中のチェックポイント以降の時系列データについては処理を省略する。これらの結果、頻出繰り返し時系列パターンでない探索時系列パターンに対する処理を回避し、探索処理負荷を低減することが出来る。 If the result of the appearance frequency counting process is greater than or equal to the minimum appearance frequency, the same process is repeated. It is possible to obtain the number of repetitions and the appearance frequency in the time-series data that is equal to or greater than the minimum number of repetitions when the last checkpoint is completed. If the result of the appearance frequency counting process up to a checkpoint in the middle is less than the minimum appearance frequency, it can be seen that the search time series pattern does not satisfy the minimum appearance frequency. The process is omitted. Further, for each time series data, when the upper limit of the number of repetitions as a result of the repetition pattern counting process up to a checkpoint in the middle is less than the minimum number of repetitions, the search time series pattern is the minimum number of repetitions in the time series data. Therefore, the processing is omitted for the time series data after the checkpoint in the middle. As a result, it is possible to avoid processing for a search time series pattern that is not a frequently repeated time series pattern, and to reduce the search processing load.
以上のように、本実施例によると、各時系列データにおける繰り返し回数の最小値と、全時系列データにおける出現頻度の最小値の条件を共に満たす時系列パターンを得ることが出来る。また、本実施例においては、解析処理の途中経過において繰り返し回数の上限値を算出すること、及び算出した繰り返し回数の上限値を用いて出現頻度を数え上げることにより、最小繰り返し回数を満たし得ない探索時系列パターンと最小出現回数を満たし得ない探索時系列パターンの繰り返し回数の数え上げ処理を途中で打ち切ることにより、繰り返し回数の数え上げ処理対象となる時系列データの範囲を限定し、解析処理負荷を低減することが可能となる。 As described above, according to this embodiment, it is possible to obtain a time series pattern that satisfies both the minimum value of the number of repetitions in each time series data and the minimum value of the appearance frequency in all time series data. Further, in this embodiment, a search that cannot satisfy the minimum number of iterations by calculating the upper limit value of the number of iterations in the course of the analysis process and counting the appearance frequency using the calculated upper limit value of the number of iterations. By reducing the number of iterations of the search time series pattern that cannot satisfy the minimum number of occurrences of the time series pattern, the range of time series data subject to the number of iterations is reduced, reducing the analysis processing load. It becomes possible to do.
なお、以上で説明した実施例1では繰り返し回数、出現頻度を利用したが、繰り返し回数の各時系列データ長あるいは期間との商である繰り返し率、出現頻度の全時系列データ数との商である出現率(支持度)を利用することでも同様に解析処理を実施することが可能である。 In the first embodiment described above, the number of repetitions and the appearance frequency are used, but the repetition rate that is a quotient of each time series data length or period of the number of repetitions and the number of all time series data of the appearance frequency. The analysis process can be similarly performed by using a certain appearance rate (support level).
また,本実施例では時系列データの処理単位をチェックポイント指定部202に入力させたが,メモリ102の設定値情報107のチェックポイント情報に所定の値を予め設定しておくことによって,ユーザによる処理単位の入力を省略することも可能である。
In this embodiment, the processing unit of the time series data is input to the
次に、第2の実施例として、クレジットカードの利用データを例にとり、図1のデータ解析システムの実行プログラム106の処理と、メモリ102に格納される各種の情報を説明する。ここで、本実施例における解析対象のクレジットカードの利用データの一例を表3に示す。表3に明らかなように、時系列データ数20のデータが記憶装置103に格納されているものとする。また、入力装置104において、データの処理単位を5、最小繰り返し回数を3、最小出現頻度を5と入力されたとし、メモリ102の設定値情報107に格納されているとする。
Next, as a second embodiment, taking credit card usage data as an example, the processing of the
プロセッサ101はメモリ102に格納されている実行プログラム106を実行し、はじめに頻出繰り返しアイテム抽出処理402を行う。例えば、このアイテム抽出処理402により、card01の時系列データが記憶装置103から読み出され、各アイテムの繰り返し回数が数え上げられたとき、メモリ102のアイテム情報109に(店舗A、card01、3、0)、(店舗B、card01、4、0)、(店舗C、card01、3、0)、(店舗D、card01、1、0)、(店舗E、card01、1、0)、(高額決済、card01、3、0)が格納される。最小出現回数が3であることから、アイテム”店舗D”と”店舗E”がアイテム情報から削除され、メモリ102のアイテム情報109には(店舗A、card01、3、0)、(店舗B、card01、4、0)、(店舗C、card01、3、0)、(高額決済、card01、3、0)が保持される。
The
ここで、探索時系列パターン設定処理403において、候補となる繰り返し回数が未知の探索時系列パターンとして、<(店舗A)(店舗B、高額決済)>と<(店舗C)(店舗A)>と<(店舗C)(店舗B)>が設定されたとする。
Here, in the search time series
次に、プロセッサ101は実行プログラム106の時系列データ読み出し処理404において、記憶装置103に格納された時系列データが読み出され、メモリ102の時系列データ情報108に処理単位毎に格納される。
Next, in the time-series
読み出された時系列データから頻出繰り返しアイテム以外を削除し、時系列データ情報108に格納すると共に、各アイテムの繰り返し回数が数え上げられ、アイテム情報109の繰り返し回数情報が更新される。例えば、card01の時系列データでは、最初の時系列データ読み出し処理では時系列データとして<(店舗A)(店舗C)(店舗A)(店舗B、高額決済)(店舗E)(店舗C)>が読み出され、頻出繰り返しアイテム以外が削除され、card01、<(店舗A)(店舗C)(店舗A)(店舗B、高額決済)(店舗C)>が時系列データ情報108に保持される。また、アイテム情報109のカウント値を(店舗A、card01、3、2)、(店舗B、card01、4、1)、(店舗C、card01、3、2)(高額決済、card01、3、1)と更新する。
Other than the frequently repeated items are deleted from the read time-series data and stored in the time-
次に、繰り返しパターン計数処理405において、探索時系列パターンの各時系列データにおける繰り返し回数が数え上げられる。例えば、card01の時系列データについて説明する。まず、探索時系列パターン<(店舗A)(店舗B、高額決済)>が数え上げられる場合、メモリ102の探索時系列パターン情報110から、該探索パターンのcard01の情報として、数え上げ済みの繰り返し回数として0、数え上げ済みの時系列パターンのパターン位置として0が読み出される。
Next, in the repeated
その後、card01の時系列データについて、メモリ102の時系列データ情報108の先頭のデータ位置のアイテムセットから順に該探索パターンの1番目のパターン位置のアイテムセット(店舗A)が現れるデータ位置を探し、データ位置1番目に検出される。該探索パターンの1番目のデータ位置のアイテムセットは末尾でないため、探索パターン情報の数え上げ済み時系列パターンの位置を1に更新する。
Thereafter, for the time series data of card01, the data position where the item set (store A) of the first pattern position of the search pattern appears in order from the item set of the top data position of the time
次に、該探索パターンの2番目のパターン位置のアイテムセット(店舗B、高額決済)が現れるデータ位置を該時系列データのデータ位置2番目以降で探し、データ位置4番目で検出される。該探索パターンの2番目のパターン位置のアイテムセットは末尾のため、探索パターン情報の数え上げ済み回数を1増加させ、時系列パターンのパターン位置を0に更新する。再び、該探索パターンの1番目のアイテムセット(店舗A)が現れるデータ位置を該時系列データのデータ位置5番目以降で探すが、該時系列パターンの末尾であるデータ位置5番目まで探しても検出されないため、探索時系列パターン情報110の時系列パターン<(店舗A)(店舗B、高額決済)>の時系列データIDがcard01の数え上げ済み時系列パターンのパターン位置を1に更新し、繰り返し回数の数え上げ処理を終了する。
Next, the data position where the item set (store B, high-priced payment) at the second pattern position of the search pattern appears is searched for at the second and subsequent data positions of the time series data, and detected at the fourth data position. Since the item set at the second pattern position of the search pattern is the end, the number of times the search pattern information has been counted is incremented by 1, and the pattern position of the time series pattern is updated to 0. Again, the data position where the first item set (store A) of the search pattern appears is searched from the fifth data position of the time series data, but even if the data position is searched up to the fifth data position which is the end of the time series pattern. Since it is not detected, the pattern position of the counted time series pattern whose time series data ID of the time series pattern <(store A) (store B, expensive payment)> of the search time
また、探索パターン<(店舗C)(店舗A)>が数え上げられる場合、メモリ102の探索時系列パターン情報110から、該探索パターンのcard01の情報として、数え上げ済みの繰り返し回数が0、数え上げ済みのパターン位置0が読み出される。その後、card01の時系列データについて、メモリ102の時系列データ情報108の先頭のデータ位置のアイテムセットから順に該探索パターンの1番目のパターン位置のアイテムセット(店舗C)が現れるデータ位置を探し、データ位置2番目に検出される。該探索パターンの1番目のパターン位置のアイテムセット(店舗C)は末尾でないため、現パターン位置を2に更新する(図8の808)。
Further, when the search pattern <(store C) (store A)> is counted, the number of repeated iterations counted is 0 as the information of card01 of the search pattern from the search time
次に、該探索パターンの2番目のパターン位置のアイテムセット(店舗A)が現れるデータ位置を該時系列データのデータ位置3番目以降で探し、データ位置3番目で検出される。該探索パターンの2番目のパターン位置のアイテムセット(店舗A)は末尾のため、探索パターン情報の数え上げ済み回数を1増加させ(同806)、現パターンの位置を先頭に更新する(同807)。 Next, the data position where the item set (store A) at the second pattern position of the search pattern appears is searched after the third data position of the time series data and detected at the third data position. Since the item set (store A) at the second pattern position of the search pattern is the end, the number of times the search pattern information has been counted is incremented by 1 (same 806), and the current pattern position is updated to the top (same 807). .
再び、該探索パターンの1番目のパターン位置のアイテムセット(店舗C)が現れるデータ位置を該時系列データのデータ位置3番目以降で探し、データ位置5番目で検出される。該探索パターンの1番目のパターン位置のアイテムセットは末尾でないため、現パターン位置を2に更新する。また再び、該探索パターンの2番目のパターン位置のアイテムセット(店舗A)が現れるデータ位置を該時系列データのデータ位置5番目以降で探そうとするが、該時系列パターンのデータ位置5番目が末尾のため(同809)、探索パターン情報110の数え上げ済み時系列パターンのパターン位置を2に設定し(同811)、繰り返し回数の数え上げ処理702を終了する。
Again, the data position where the item set (store C) at the first pattern position of the search pattern appears is searched after the third data position of the time-series data and detected at the fifth data position. Since the item set at the first pattern position of the search pattern is not the end, the current pattern position is updated to 2. Again, an attempt is made to find the data position at which the item set (store A) at the second pattern position of the search pattern appears at the fifth and subsequent data positions of the time series data. Is the end (same as 809), the pattern position of the time-sequential pattern counted in the
次に、図7のフローにおいて、繰り返し回数の上限値の算出703が行われる。例えば、card01における探索パターン<(店舗A)(店舗B、高額決済)>について、探索時系列パターン情報110には(<(店舗A)(店舗B、高額決済)>、card01、1、0)、アイテム情報109には(店舗A、card01、3、2)、(店舗B、card01、4、1)、(高額決済、card01、3、1)が保持されていることから、数1により上限値が2(=1+1)と算出される。
Next,
該算出された上限値は最小繰り返し回数(本実施例では3)未満のため、該探索パターンが最小繰り返し回数以上となり得ないことが分かる。該探索パターンの情報を探索パターン情報110から削除することによって、プロセッサ010ではcard01の探索パターンの繰り返し回数数え上げ処理を打ち切り、2回目以降の時系列データ読み出し処理後の繰り返し数え上げ処理を省略する。
Since the calculated upper limit value is less than the minimum number of repetitions (3 in this embodiment), it can be seen that the search pattern cannot exceed the minimum number of repetitions. By deleting the search pattern information from the
また、探索パターン<(店舗C)(店舗A)>について、探索パターン情報には(<(店舗C)(店舗A)>、card01、1、1)、アイテム情報には(店舗A、card01、3、2)、(店舗C、card01、3、2)が保持されていることから、数1により上限値が3(=1+1+1)と算出される。該算出された上限値は最小繰り返し回数以上のため、該探索パターンが最小繰り返し回数以上の可能性があることから、2回目以降の時系列データ読み出し処理後の繰り返し数え上げ処理を省略することは出来ない。 For the search pattern <(store C) (store A)>, the search pattern information is (<(store C) (store A)>, card01, 1, 1), and the item information is (store A, card01, 3, 2) and (Store C, cards 01, 3, 2) are held, and therefore the upper limit value is calculated as 3 (= 1 + 1 + 1) according to Equation 1. Since the calculated upper limit value is equal to or greater than the minimum number of repetitions, the search pattern may be equal to or greater than the minimum number of repetitions. Therefore, it is possible to omit the repeat counting process after the second and subsequent time series data read processing. Absent.
次に、図4の繰り返し時系列パターン抽出処理の出現頻度の計数処理406が行われる。プロセッサ101はメモリ102の探索時系列パターン情報110に格納された時系列パターンと時系列データIDから、各時系列パターンの時系列データIDの種類数を数え上げ、最小出現頻度未満となる時系列パターンの情報を探索パターン情報から削除する。例えば、探索パターン<(店舗C)(店舗B)>について、探索時系列パターン情報110には(<(店舗C)(店舗B)>、card01、1、1)、(<(店舗C)(店舗B)>、card05、2、1)、(<(店舗C)(店舗B)>、card08、2、0)が格納されているとする。該探索パターンの出現頻度は3であり、最小出現頻度(本実施例においては5)を満たさないことが分かる。この場合、プロセッサ101は探索パターン情報110から該探索パターンを含む情報を削除する。探索パターン情報110から削除された時系列パターンは、2回目以降の時系列データ読み出し処理後の繰り返し数え上げ処理を省略できる。
Next, the appearance
出現頻度計数処理406の次に、時系列データ情報108の更新407が行われる。繰り返し回数数え上げ処理を行う必要のある時系列データIDは探索時系列パターン情報110に保持されている。探索時系列パターン情報110に保持されていない時系列データIDは繰り返し回数の数え上げ処理を行う必要がないため、2回目以降の時系列データ読み出し処理は不要である。探索時系列パターン情報110に保持されない時系列データIDがある場合、該時系列データIDを時系列データ情報108から削除する。例えば、card02、card04、card07が時系列データIDとして保持されていない場合、時系列データ情報108から削除する。
Following the appearance
以上の処理を各時系列データの末尾まで繰り返す。例えば、本実施例の2回目の時系列データ読み出し処理では、時系列データの順位位置6番目から10番目までが読み出され、card01について、<(店舗B)(店舗B、高額決済)(店舗A)(店舗C)(店舗B、高額決済)>が時系列データ情報108としてメモリ102に保持され、探索パターン<(店舗C)(店舗A)>を数え上げる場合、メモリ102の探索時系列パターン情報110から、該探索パターンのcard01の情報として、数え上げ済みの繰り返し回数が1、数え上げ済みの時系列パターンの位置が1が読み出される。その後、card01の時系列データについて、メモリ102の時系列データ情報108の先頭のアイテムセットから順に該探索パターンの2番目のアイテムセット(店舗A)が現れる順位位置を探す処理を開始する。
The above processing is repeated until the end of each time series data. For example, in the second time-series data reading process of the present embodiment, the 6th to 10th ranking positions of the time-series data are read, and for card01, <(store B) (store B, expensive payment) (store A) (Store C) (Store B, high-value payment)> is stored in the
以上詳述して本実施例の処理によって、最小繰り返し回数と最小出現頻度の条件を共に満たす時系列パターンを不要な繰り返し回数数え上げ処理を回避しつつ抽出することが出来る。 As described above in detail, according to the processing of the present embodiment, it is possible to extract a time series pattern that satisfies both the minimum number of repetitions and the minimum appearance frequency conditions while avoiding unnecessary repetition number counting processing.
本実施例の場合、例えば、card01における探索パターン<(店舗A)(店舗B、高額決済)>については2回目の時系列データ読み出し処理以降の繰り返し回数数え上げ処理を省略することができる。また、例えば、card02、card04、card07の時系列データは2回目以降の時系列データ読み出し処理を省略することができる。 In the case of the present embodiment, for example, for the search pattern <(store A) (store B, high-price payment)> in card01, the repeat count counting process after the second time-series data reading process can be omitted. Further, for example, the time-series data of card02, card04, and card07 can omit the second and subsequent time-series data read processing.
次に、第3の実施例として、データ解析システムが、各時系列データに区切れが存在するデータを解析対象とする場合を説明する。1つの時系列データにおいて所定の句切れをまたがる時系列パターンは該時系列データに含まれないとしたい場合がある。例えば、人の行動パターンの分析において1日単位での行動パターンを考える場合、日付をまたがる行動パターンを数え上げてはならない。 Next, as a third embodiment, a case will be described in which the data analysis system sets data to be analyzed in which each time-series data is separated. There may be a case where it is desired that a time series pattern extending over a predetermined phrase break in one time series data is not included in the time series data. For example, when an action pattern in a unit of one day is considered in the analysis of a person's action pattern, the action pattern across the date must not be counted.
図10は、第3の実施例のシステム構成例を示す図である。このシステムは、図1のシステム構成のメモリ102に、解析対象データにおける時系列データの区切れの条件を条件式などの形式で区切れ条件1001として保持する。
FIG. 10 is a diagram illustrating an example of a system configuration of the third embodiment. In this system, the
図11は、本実施例のユーザインタフェースの一例を示している。このユーザインタフェース1100は、図2のユーザインタフェース200に解析対象データにおける時系列データの区切れ条件を設定する区切れ条件設定部1101を加えた構成を取る。ユーザは解析対象データを解析データ指定部201で指定し、処理単位をチェックポイント指定部202に、抽出する時系列パターンの繰り返し回数の最小値を最小繰り返し回数入力部203に、抽出する時系列パターンの出現頻度の最小値を最小出現頻度入力部204に、時系列データの区切れ条件を区切れ条件設定部1101に、それぞれ入力する。実行ボタン205によって、時系列パターン抽出処理を開始する。抽出された時系列パターンは、時系列パターンを構成するアイテムセットのリストと、時系列パターンの評価値である繰り返し回数の統計値と出現頻度とが結果表示部206に表示される。
FIG. 11 shows an example of a user interface of this embodiment. The user interface 1100 has a configuration in which a delimiter condition setting unit 1101 for setting delimiter conditions for time-series data in analysis target data is added to the
図12は、本実施例の時系列パターン抽出処理におけるユーザによる操作とシステムによる操作のフローを示した図である。はじめに、ユーザは入力装置104において、解析対象のデータを指定、解析対象データの処理単位を入力、抽出する時系列パターンの最小繰り返し回数と最小出現頻度、および、時系列データの区切れ条件を設定部1101から入力する(1201)。以降の処理は、図3と同様である。
FIG. 12 is a diagram illustrating a flow of an operation by the user and an operation by the system in the time-series pattern extraction process of the present embodiment. First, the user designates data to be analyzed, inputs the processing unit of the analysis target data, sets the minimum number of repetitions and the minimum frequency of appearance of the time series pattern to be extracted, and the time series data delimitation conditions using the
解析対象の時系列データに区切れ条件が設定された場合の時系列パターン抽出の全体処理手順、頻出繰り返しアイテム抽出処理、候補とする探索時系列パターン設定処理、時系列データ読み出し処理、出現頻度計数処理は、前述の処理手順と同様である。この時系列データに区切れ条件が設定された場合の時系列パターン抽出処理では、繰り返しパターン計数処理における1つの探索時系列パターンに対する1つの時系列データにおける繰り返し回数数え上げ処理が前述の処理手順と異なる。 Overall processing sequence of time series pattern extraction when a condition is set for the time series data to be analyzed, frequent repeated item extraction processing, candidate search time series pattern setting processing, time series data reading processing, appearance frequency counting The processing is the same as the processing procedure described above. In the time-series pattern extraction process when the time-series data is divided and the condition is set, the repetition count counting process in one time-series data with respect to one search time-series pattern in the repetition pattern counting process is different from the above-described processing procedure. .
図13に1つの探索時系列パターンに対する1つの時系列データにおける繰り返し回数数え上げ処理702の解析対象の時系列データに、区切れ条件が設定された場合の手順を詳細に説明するフローチャートを示す。処理の内容は、前述の図8における繰り返し回数数え上げのパターン位置を設定する処理801から時系列データの末尾まで処理したか調べる処理809までは同様である。現データ位置が該時系列データの末尾かどうかを調べ(809)、末尾でない場合には、現データ位置の直後がメモリ102の設定値情報107の区切れ条件1001を満たすかどうかを調べる(1301)。
FIG. 13 is a flowchart for explaining in detail the procedure in the case where a delimiter condition is set in the time series data to be analyzed in the repetition
区切れ条件を満たす場合は現パターン位置を先頭のパターン位置に戻し(1302)、現データ位置を1つ後ろにずらし(810)、該時系列データの現データ位置のアイテムセットが該時系列パターンの現パターン位置のアイテムセットを含むか調べる処理(804)以降を繰り返す。区切れ条件を満たさない場合は現データ位置を1つ後ろにずらし(810)、該時系列データの現データ位置のアイテムセットが該時系列パターンの現パターン位置のアイテムセットを含むか調べる処理(804)以降を繰り返す。末尾の場合は前述と同様である。 If the division condition is satisfied, the current pattern position is returned to the first pattern position (1302), the current data position is shifted backward by one (810), and the item set at the current data position of the time series data is the time series pattern. The process of checking whether the item set at the current pattern position is included (804) and subsequent steps are repeated. If the delimiter condition is not satisfied, the current data position is shifted backward by one (810), and it is checked whether the item set at the current data position of the time series data includes the item set at the current pattern position of the time series pattern ( Step 804) and subsequent steps are repeated. The case of the end is the same as described above.
以上のように、本実施例によると、時系列パターンの区切れの条件を設定し、探索時系列パターンの繰り返し回数の数え上げ処理において、時系列データの句切れが存在する時点で、探索パターンの繰り返し回数を数え上げるパターン位置を先頭に戻すことによって、時系列パターンの句切れをまたがる場合の繰り返し回数の数え上げを回避することが出来る。これにより、時系列データに区切れを設定した場合にも時系列パターンを抽出することが出来る。 As described above, according to the present embodiment, the time-series pattern segmentation condition is set, and when the search time-series pattern repetition count is counted, the search pattern By returning the pattern position for counting up the number of repetitions to the top, it is possible to avoid counting up the number of repetitions when straddling the punctuation of the time series pattern. This makes it possible to extract a time series pattern even when a break is set in the time series data.
第4の実施例として、Webサイトのアクセスログデータを解析するデータ解析システムを説明する。すなわち、Webサイトのアクセスログデータを例にとり、上述したデータ解析システムにおける実行プログラム106において行われる、1つの探索時系列パターンに対する1つの時系列データにおける繰り返し回数数え上げ処理702を説明する。Webアクセスログデータの場合、1レコードはあるユーザの一回のアクセスを意味し、時系列データIDはユーザID、タイムスタンプはアクセス日時、事象はアクセスしたページのURLとなる。また、Webサイトのアクセスログは一連のアクセスの単位を表わすセッション番号を持ち、同一のセッション番号を持つレコードは同一のセッションでのアクセスであるとする。
As a fourth embodiment, a data analysis system for analyzing access log data of a website will be described. That is, taking the access log data of the Web site as an example, the repetition
例えば、表4のデータのuser01はセッション番号100、101、102の3つのセッションを持つ。セッション番号100では、最初にページAがアクセスされ、次にページBがアクセスされ、最後にページCがアクセスされたことを意味する。ここで、解析対象のアクセスログデータを表4に示すデータとし、記憶装置103に格納されているとする。また、入力装置104において、区切れ条件として“i番目のレコードのセッション番号≠(i+1)番目のレコードのセッション番号”が設定されたとし、メモリ102の設定情報に格納されているとする。
For example, user01 of the data in Table 4 has three sessions with
1つの探索時系列パターンに対する1つの時系列データにおける繰り返し回数数え上げ処理702として、user01の時系列データにおける探索パターン<(ページA)(ページB)>が数え上げられるとし、メモリ102の時系列データ情報108のuser01の時系列データにセッション番号とURLの組のリストとして(100、ページA)(100、ページB)(100、ページA)(101、ページA)(101、ページB)(101、ページD)(101、ページE)(101、ページD)(102、ページD)が保持されており、メモリ102の探索パターン情報110から、該探索パターンのuser01の情報として、数え上げ済み繰り返し回数が0、数え上げ済みの時系列パターンのパターン位置が0と読み出されたとする。本実施例では、探索パターンの先頭のパターン位置のアイテムセット(ページA)が含まれるデータ位置とメモリ102の時系列データ情報108の先頭のデータ位置から順に探索する(図13の803に対応)。
It is assumed that the search pattern <(page A) (page B)> in the time series data of user01 is counted as the repetition
はじめに、該探索パターンの先頭のパターン位置のアイテムセット(ページA)が該時系列データの先頭のデータ位置のアイテムセットに現れることが検出される。現パターン位置が該探索パターンの末尾でないため(同805のNo)、現パターン位置を次のパターン位置である2とする(同808)。 First, it is detected that the item set (page A) at the head pattern position of the search pattern appears in the item set at the head data position of the time-series data. Since the current pattern position is not the end of the search pattern (No in 805), the current pattern position is set to 2 which is the next pattern position (808).
次に、現データ位置が末尾であるか調べる(同809)が、現データ位置が末尾でないことから、現データ位置の直後が区切れであるかを調べる(同1301)。上述の通り、メモリ102の区切れ条件1001に句切れの条件としてセッション番号が異なること設定されているため、現データ位置のセッション番号と次のデータ位置のセッション番号を比較し、共に100と等しいセッション番号であるため、現データ位置を2とし(同810)、再び現パターン位置のアイテムセットが現データ位置に含まれるか調べる(同804)。本実施例の場合、現パターン位置が2のとき、現データ位置が2において現パターン位置のアイテムセット(ページB)が現データ位置に現れることが検出され、メモリ102の探索パターン情報110の数え上げ済み繰り返し回数を1に更新し(同806)、現パターン位置を先頭(同807)、現データ位置を3とする。
Next, it is checked whether the current data position is at the end (step 809). Since the current data position is not at the end, it is checked whether the current data position is immediately after (step 1301). As described above, since the session number is set to be different as the phrase break condition in the
次に、現パターン位置のアイテムセット(ページA)が現データ位置のアイテムセット(ページC)に含まれないため、現データ位置を次のデータ位置にずらそうとする。ここで、現データ位置のセッション番号が100、次のデータ位置のセッション番号が101であることから、区切れが存在することが検出され(同1301)、現データ位置を次のデータ位置にずらす前に、現パターン位置に先頭のパターン位置を設定する(同1302)。これよって、セッション番号100と101にまたがる時系列パターンの繰り返し回数の数え上げを回避することができる。以下、同様に繰り返し回数数え上げ処理が時系列データの末尾まで続行される。
Next, since the item set (page A) at the current pattern position is not included in the item set (page C) at the current data position, the current data position is shifted to the next data position. Here, since the session number of the current data position is 100 and the session number of the next data position is 101, it is detected that there is a partition (1301), and the current data position is shifted to the next data position. Before, the head pattern position is set to the current pattern position (1302). As a result, it is possible to avoid counting the number of repetitions of the time-series pattern across the
なお、本実施例では時系列データ情報にセッション番号とアイテムセットの組のリストを保持し、区切れの条件として条件式を設定したが、句切れの条件を所定の記号とし、時系列データの句切れに所定の記号を付加したデータを用いることでも同様に解析処理を実施することが可能である。例えば、表4のデータにおいて、セッション番号が異なる場合を区切れと設定し、句切れを表わす記号を“.”とした場合、表5の時系列データによって本実施例と同様に解析処理を実施することが可能となる。 In this embodiment, a list of session number and item set pairs is stored in the time series data information, and a conditional expression is set as a delimiter condition. However, the phrase break condition is a predetermined symbol, and the time series data The analysis process can be similarly performed by using data in which a predetermined symbol is added to a phrase break. For example, in the data of Table 4, if the session number is different and set as a break, and the symbol representing the phrase break is set to “.”, The analysis processing is performed in the same manner as the present embodiment using the time series data of Table 5 It becomes possible to do.
以上詳述した本発明は、データベース及びデータウェアハウスを対象としたデータ解析システム及び方法に関し、特にデータベースのレコードを解析してデータの出現順序の規則性を明らかにするデータマイニング技術として極めて有用である。 The present invention described above in detail relates to a data analysis system and method for databases and data warehouses, and is particularly useful as a data mining technique for clarifying regularity of the appearance order of data by analyzing records in the database. is there.
100…コンピュータ
101…プロセッサ
102…メモリ
103…記憶装置
104…入力装置
105…出力装置
106…実行プログラム
107…設定値情報
108…時系列データ情報
109…アイテム情報
110…探索パターン情報
111…チェックポイント情報
1001…区切れ条件
1101…区切れ条件設定部
200…ユーザインタフェース
201…解析データ指定部
202…チェックポイント指定部
203…最小繰り返し回数入力部
204…最小出現頻度入力部
205…実行ボタン
206…結果表示部。
DESCRIPTION OF
Claims (15)
前記コンピュータは、解析対象の前記データと、解析処理を行う実行プログラムを格納する記憶部と,前記実行プログラムを実行する処理部を有し,
前記処理部は、
同じIDを有する事象をその順序関係に従って並べた前記データを時系列データとして前記記憶部に格納する第1のステップと,
前記事象の重複順列からなる時系列パターンについて,前記時系列データ各々において繰り返される回数を数え上げる第2のステップと,
前記繰り返し回数が所定の回数以上となる前記時系列データの数を数え上げる第3のステップと,
数え上げた前記時系列データの数が所定の数以上となる時系列パターンを抽出する第4のステップと,
を実行することを特徴とするデータ解析システム。 A data analysis system for analyzing data consisting of a plurality of sets of an event, an ID to which the event belongs, and information indicating an order relation between events,
The computer includes the data to be analyzed, a storage unit that stores an execution program that performs analysis processing, and a processing unit that executes the execution program,
The processor is
A first step of storing the data in which events having the same ID are arranged according to the order relation in the storage unit as time-series data;
A second step of counting the number of repetitions in each of the time series data for a time series pattern comprising overlapping permutations of the events;
A third step of counting the number of the time series data in which the number of repetitions is equal to or greater than a predetermined number;
A fourth step of extracting a time series pattern in which the counted number of time series data is equal to or greater than a predetermined number;
A data analysis system characterized by executing
前記処理部は、
前記時系列データ各々に所定の間隔でチェックポイントを設け,前記第1のステップにおいて,前記時系列データ各々をチェックポイントから次のチェックポイントまでの範囲で前記記憶部に格納するステップと、
前記繰り返し回数が未知の時系列パターンの前記時系列データ各々における繰り返し回数について,前記第2のステップにおいて、前記記憶部に格納された範囲の前記時系列データから繰り返し回数を数え上げるステップと,
数え上げを実施した前記範囲における数え上げ回数と、数え上げが未実施の時系列データにおける該時系列パターンを構成する事象の繰り返し回数とを加算することによって,該時系列パターンの該時系列データにおける繰り返し回数の上限値を算出するステップと,
前記第3のステップにおいて、該繰り返し回数の上限値が所定の回数以上となる時系列パターンの時系列データの数を数え上げるステップと,
数え上げた前記時系列データの数が所定の数以上となる時系列パターンについて,前記ステップを繰り返すステップと,
を実行することを特徴とするデータ解析システム。 A data analysis system according to claim 1, wherein
The processor is
Providing check points at predetermined intervals in each of the time series data, and storing the time series data in the storage unit in a range from a check point to a next check point in the first step;
Counting the number of repetitions from the time-series data in the range stored in the storage unit in the second step for the number of repetitions in each of the time-series data of the time-series pattern with an unknown number of repetitions;
The number of repetitions of the time-series pattern in the time-series data is added by adding the number of times of counting in the range in which the counting is performed and the number of repetitions of the events constituting the time-series pattern in the time-series data that has not been counted. Calculating an upper limit value of
In the third step, counting up the number of time-series data of a time-series pattern in which the upper limit of the number of repetitions is a predetermined number or more;
Repeating the above steps for a time series pattern in which the counted number of time series data is greater than or equal to a predetermined number;
A data analysis system characterized by executing
前記時系列データは区切れを有するデータであり、
前記処理部は、
前記区切れ毎に、前記第2のステップと前記第3のステップと前記第4のステップを実行する、
ことを特徴とするデータ解析システム。 The data analysis system according to claim 1,
The time series data is data having a delimiter,
The processor is
Executing the second step, the third step, and the fourth step for each of the divisions;
A data analysis system characterized by this.
前記時系列データは、Webサイトへのアクセス単位を示すセッション番号を含むアクセスログデータであり、
前記処理部は、
同一の前記セッション番号を有する前記アクセスログデータ毎に、前記第2のステップと前記第3のステップと前記第4のステップを実行する、
ことを特徴とするデータ解析システム。 The data analysis system according to claim 1,
The time series data is access log data including a session number indicating an access unit to a website.
The processor is
Executing the second step, the third step, and the fourth step for each of the access log data having the same session number;
A data analysis system characterized by this.
前記コンピュータは出力部を更に備え、
前記処理部は、抽出した前記時系列パターンを、前記第2のステップで数え上げられた前記回数と前記第3のステップで数え上げられた前記数と共に前記出力部に出力する、
ことを特徴とするデータ解析システム。 The data analysis system according to claim 1,
The computer further includes an output unit,
The processing unit outputs the extracted time series pattern together with the number counted in the second step and the number counted in the third step to the output unit.
A data analysis system characterized by this.
前記コンピュータは前記所定の回数及び前記所定の数を入力可能な入力部を更に備える、
ことを特徴とするデータ解析システム。 The data analysis system according to claim 1,
The computer further includes an input unit capable of inputting the predetermined number of times and the predetermined number.
A data analysis system characterized by this.
前記コンピュータは前記区切れを前記時系列データに設定する条件を入力可能な入力部を更に備えた、
ことを特徴とするデータ解析システム。 A data analysis system according to claim 3, wherein
The computer further includes an input unit capable of inputting a condition for setting the break in the time series data.
A data analysis system characterized by this.
同じIDを有する前記事象をその順序関係に従って並べたデータを時系列データとし、1以上の前記事象を順方向に並べた重複順列を時系列パターンとし、
前記処理部は、
所定の数以上の前記時系列データにおいて、前記時系列データ各々における所定の回数以上繰り返される前記時系列パターンである頻出繰り返し時系列パターンを抽出するため、
繰り返し回数が未知の前記時系列パターンについて、前記時系列データ各々における繰り返し回数を数え上げるステップと、
前記繰り返し回数が所定の回数以上となる前記時系列データの数を出現頻度として数え上げるステップと、
前記出現頻度が所定の数以上となる前記時系列パターンを抽出するステップと、
を実行することを特徴とするデータ解析方法。 A data analysis method for analyzing data in which a plurality of sets of information indicating an event, an ID to which the event belongs, and an order relationship between the events is stored by a computer including a processing unit and a storage unit,
Data in which the events having the same ID are arranged according to the order relationship is time series data, and a duplicate permutation in which one or more of the events are arranged in a forward direction is a time series pattern,
The processor is
In order to extract a frequent repeated time series pattern that is the time series pattern repeated a predetermined number of times or more in each time series data in a predetermined number or more of the time series data,
For the time-series pattern whose number of repetitions is unknown, counting the number of repetitions in each of the time-series data;
Counting the number of the time-series data in which the number of repetitions is a predetermined number or more as an appearance frequency;
Extracting the time series pattern in which the appearance frequency is a predetermined number or more;
The data analysis method characterized by performing.
前記時系列データは区切れが存在するデータであり、
前記処理部は、前記区切れ毎の前記時系列データに対し、前記ステップ各々を実行する、
ことを特徴とするデータ解析方法。 A data analysis method according to claim 8, comprising:
The time series data is data in which a break exists,
The processing unit executes each of the steps for the time-series data for each of the divisions,
A data analysis method characterized by the above.
前記時系列データは、Webサイトへのアクセス単位を示すセッション番号を有するアクセスログデータであり、
前記処理部は、同一の前記セッション番号を有する前記アクセスログデータ毎に、前記ステップ各々を実行する、
ことを特徴とするデータ解析方法。 A data analysis method according to claim 8, comprising:
The time series data is access log data having a session number indicating an access unit to a website.
The processing unit executes each of the steps for each access log data having the same session number.
A data analysis method characterized by the above.
前記計算機は表示部を更に備え、
前記処理部は、抽出された前記時系列パターンと対応する前記繰り返し回数と前記出現頻度とを前記表示部に表示する、
ことを特徴とするデータ解析方法。 The data analysis method according to claim 8, comprising:
The calculator further includes a display unit,
The processing unit displays the number of repetitions and the appearance frequency corresponding to the extracted time-series pattern on the display unit.
A data analysis method characterized by the above.
前記処理部は、
同じIDを有する事象をその順序関係に従って並べたデータを時系列データとし、1以上の事象を順方向に並べた重複順列を時系列パターンとし、所定の数以上の前記時系列データにおいて、前記時系列データ各々における所定の回数以上繰り返される前記時系列パターンである頻出繰り返し時系列パターンを抽出するため、
前記時系列データ各々に、所定の間隔でチェックポイントを設定する第1のステップと、
前記時系列データ各々における繰り返し回数が未知の前記時系列パターンについて、前記時系列データ各々についてチェックポイントから次のチェックポイントまでの範囲で前記時系列パターンが繰り返される回数を数え上げる第2のステップと、
前記時系列データにおける前記時系列パターンの繰り返し回数の上限値を、既に数え上げられたチェックポイントまででの繰り返し回数と、当該チェックポイント以降に現れる各事象の繰り返し回数との和から算出する第3のステップと、
算出された前記上限値が所定の繰り返し回数以上となる時系列データの数を出現頻度として数え上げる第4のステップと、
数え上げた前記出現頻度が所定の数以上となる時系列パターンを抽出する第5のステップと、
抽出された前記時系列パターンについて、前記第2から第5のステップを最後のチェックポイントまで繰り返す第6のステップと、
を実行することを特徴とするデータ解析方法。 A data analysis method for performing analysis processing of data in which a plurality of sets of information indicating an event, an ID to which the event belongs, and an order relationship between the events is stored by a computer including a processing unit and a storage unit ,
The processor is
Data in which events having the same ID are arranged in accordance with the order relationship is time series data, and a duplicate permutation in which one or more events are arranged in the forward direction is a time series pattern. In order to extract a frequently repeated time series pattern that is the time series pattern repeated a predetermined number of times or more in each series data,
A first step of setting checkpoints at predetermined intervals in each of the time series data;
A second step of counting the number of times the time series pattern is repeated in a range from a check point to the next check point for each time series data for the time series pattern in which the number of repetitions in each time series data is unknown;
The upper limit value of the number of repetitions of the time series pattern in the time series data is calculated from the sum of the number of repetitions up to the already counted check point and the number of repetitions of each event appearing after the check point. Steps,
A fourth step of counting the number of time-series data for which the calculated upper limit value is equal to or greater than a predetermined number of repetitions as the appearance frequency;
A fifth step of extracting a time-series pattern in which the counted appearance frequency is a predetermined number or more;
A sixth step of repeating the second to fifth steps until the last checkpoint for the extracted time-series pattern;
The data analysis method characterized by performing.
前記計算機は出力部を更に備え、
前記処理部は、
最後のチェックポイントまで処理した時点で、抽出された前記時系列パターンと対応する前記繰り返し回数と前記出現頻度とを前記出力部に出力する、
ことを特徴とするデータ解析方法。 A data analysis method according to claim 12, comprising:
The calculator further includes an output unit,
The processor is
At the time of processing up to the last checkpoint, the number of repetitions corresponding to the extracted time-series pattern and the appearance frequency are output to the output unit.
A data analysis method characterized by the above.
前記時系列データは区切れが存在するデータであり、
前記処理部は、前記区切れ毎の前記時系列データに対し、前記ステップ各々を実行する、
ことを特徴とするデータ解析方法。 A data analysis method according to claim 12, comprising:
The time series data is data in which a break exists,
The processing unit executes each of the steps for the time-series data for each of the divisions,
A data analysis method characterized by the above.
前記時系列データは、Webサイトへのアクセス単位を示すセッション番号を含むアクセスログデータであり、
前記処理部は、同一の前記セッション番号を有する前記アクセスログデータ毎に、前記ステップ各々を実行する、
ことを特徴とするデータ解析方法。 A data analysis method according to claim 12, comprising:
The time series data is access log data including a session number indicating an access unit to a website.
The processing unit executes each of the steps for each access log data having the same session number.
A data analysis method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009280525A JP5478229B2 (en) | 2009-12-10 | 2009-12-10 | Data analysis system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009280525A JP5478229B2 (en) | 2009-12-10 | 2009-12-10 | Data analysis system and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011123652A JP2011123652A (en) | 2011-06-23 |
JP5478229B2 true JP5478229B2 (en) | 2014-04-23 |
Family
ID=44287490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009280525A Expired - Fee Related JP5478229B2 (en) | 2009-12-10 | 2009-12-10 | Data analysis system and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5478229B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5930407B2 (en) | 2013-09-02 | 2016-06-08 | 富士フイルム株式会社 | Medical data display control device, method and program |
WO2017168524A1 (en) * | 2016-03-28 | 2017-10-05 | 株式会社日立製作所 | Analysis server device, data analysis system, and data analysis method |
CN112783719B (en) * | 2020-12-31 | 2023-02-28 | 杭州趣链科技有限公司 | Monitoring data acquisition method, server, system and computer readable storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004110327A (en) * | 2002-09-18 | 2004-04-08 | Fujitsu Ltd | Time series correlation extraction device |
JP4202798B2 (en) * | 2003-03-20 | 2008-12-24 | 株式会社東芝 | Time series pattern extraction apparatus and time series pattern extraction program |
JP4953834B2 (en) * | 2007-01-17 | 2012-06-13 | 株式会社日立製作所 | Data analysis method and data analysis system |
-
2009
- 2009-12-10 JP JP2009280525A patent/JP5478229B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011123652A (en) | 2011-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697629B (en) | Product data pushing method and device, storage medium and computer equipment | |
WO2018188576A1 (en) | Resource pushing method and device | |
US9792388B2 (en) | Pattern extraction apparatus and control method therefor | |
US10366154B2 (en) | Information processing device, information processing method, and computer program product | |
JP6420524B2 (en) | Analysis server device, data analysis system, and data analysis method | |
JP7375861B2 (en) | Related score calculation systems, methods and programs | |
JP4953834B2 (en) | Data analysis method and data analysis system | |
JP2019082865A (en) | Sales promoting device, sales promoting method and sales promoting program | |
CN111310032A (en) | Resource recommendation method and device, computer equipment and readable storage medium | |
JP4970919B2 (en) | Browsing target information evaluation system, method, and program | |
JP6694901B2 (en) | Data management device and data management system | |
JP5478229B2 (en) | Data analysis system and method | |
WO2017203672A1 (en) | Item recommendation method, item recommendation program, and item recommendation apparatus | |
JP5528292B2 (en) | System, method and program for extracting meaningful frequent itemsets | |
JPWO2017158802A1 (en) | Data conversion system and data conversion method | |
CN103597485A (en) | Pattern extraction device and method | |
JP5669611B2 (en) | Grouping device and element extraction device | |
CN114942971A (en) | Extraction method and device of structured data | |
Lettner et al. | Mobile interaction analysis: towards a novel concept for interaction sequence mining | |
JP7278100B2 (en) | Post evaluation system and method | |
CN113434507A (en) | Data textualization method, device, equipment and storage medium | |
JP4827900B2 (en) | Questionnaire result analysis support apparatus and method | |
JP2013061733A (en) | Apparatus for finding interesting pattern from time-series data | |
JP6763967B2 (en) | Data conversion device and data conversion method | |
JP2018181121A (en) | Analyzer, analysis program and analysis method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5478229 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |