JP5281990B2 - Clustering apparatus, clustering method, and program - Google Patents
Clustering apparatus, clustering method, and program Download PDFInfo
- Publication number
- JP5281990B2 JP5281990B2 JP2009195882A JP2009195882A JP5281990B2 JP 5281990 B2 JP5281990 B2 JP 5281990B2 JP 2009195882 A JP2009195882 A JP 2009195882A JP 2009195882 A JP2009195882 A JP 2009195882A JP 5281990 B2 JP5281990 B2 JP 5281990B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- inter
- storage unit
- clustering
- change information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、複数のオブジェクトの間の関係の有無を示す関係データから、オブジェクトのクラスタの存在を推定し、クラスタの生成、隆盛、消滅等のクラスタの時間変化を推定する技術に関する。 The present invention relates to a technique for estimating the existence of a cluster of objects from relational data indicating the presence or absence of a relationship between a plurality of objects, and estimating a temporal change of the cluster such as generation, rise, and disappearance of clusters.
複数のオブジェクトの間の関係(例えば、人と人との関係やインターネットにおけるリンク関係等)の有無を示す関係データを用いて、オブジェクトのクラスタ(グループ)間の関係を表現し、そのクラスタ間の関係を最も良く表すオブジェクトのクラスタを求める技術として、非特許文献1に記載のStochastic Block Model(SBM)や、そのSBMを拡張した非特許文献2に記載のInfinite Relational Model(IRM)とが知られている。SBMがクラスタ数を予め設定してからクラスタリングを実行するのに対して、IRMは、クラスタ数を事前に決めることなく、関係データに基づいて最適なクラスタ数を自動的に推定することができる。 Express the relationship between clusters (groups) of objects using relationship data that indicates the presence or absence of relationships between multiple objects (for example, the relationship between people or the link relationship on the Internet). As a technique for obtaining a cluster of objects that best represents the relationship, Stochastic Block Model (SBM) described in Non-Patent Document 1 and Infinite Relational Model (IRM) described in Non-Patent Document 2 that extends the SBM are known. ing. The SBM executes clustering after setting the number of clusters in advance, whereas the IRM can automatically estimate the optimum number of clusters based on relational data without determining the number of clusters in advance.
IRMは、オブジェクトiとオブジェクトjとの関係データX={xi,j}に基づいて、各オブジェクトi,j間の関係を複数のクラスタに分類する。このクラスタの分類では、ノンパラメトリックベイズモデルの一つである非特許文献3に記載のDirichlet Process Mixture(DPM)を適用することによって、クラスタ数の推定が可能になっている。 The IRM classifies the relationship between the objects i and j into a plurality of clusters based on the relationship data X = {x i, j } between the object i and the object j. In this cluster classification, the number of clusters can be estimated by applying Dirichlet Process Mixture (DPM) described in Non-Patent Document 3, which is one of the nonparametric Bayes models.
しかしながら、SBMやIRMでは、それらのモデルの構成上、クラスタの時間変化を扱うことができない。すなわち、SBMやIRMは、ある一時刻のスナップショットの関係データだけを用いたり、または一定時間の平均的な関係を示すデータを用いたりすることしかできない。そのため、人と人との関係やインターネットにおけるリンク関係等のようにオブジェクト間の関係が時間的に変化するデータに対して、時間方向の情報を解析することができなかった。 However, SBM and IRM cannot handle the time change of the cluster because of the configuration of these models. In other words, SBM and IRM can only use related data of a snapshot at a certain time, or use data indicating an average relationship for a certain time. For this reason, information in the time direction cannot be analyzed for data in which the relationship between objects changes with time, such as the relationship between people and the link relationship on the Internet.
そこで、本発明の課題は、複数のオブジェクトの間の関係の有無を示す関係データの時系列から、オブジェクトのクラスタの存在を推定し、クラスタの時間変化を推定する技術を提供することを目的とする。 Accordingly, an object of the present invention is to provide a technique for estimating the existence of a cluster of objects from a time series of relational data indicating the presence / absence of a relationship between a plurality of objects and estimating a temporal change of the clusters. To do.
本発明は、複数のオブジェクトの間の関係の有無を表す関係データを用いて、オブジェクトのクラスタリングを実行するクラスタリング装置であって、前記クラスタリング装置が、前記関係データをクラスタリングする関数の一つである無限関係モデル(IRM、Infinite Relational Model)において算出される混合比βおよびクラスタkとクラスタlとの間の関係の強さを示すクラスタ間関連度ηk,lと、クラスタkとクラスタlとの間の関連の有無を示す関係データを所定の時間間隔で観測した関係データxt,k,l、時刻t−1においてクラスタkに所属していたオブジェクトが次の時刻tにどのクラスタに所属しやすいかを示す時間変化情報πt,k、および時刻tにおいてオブジェクトiが所属するクラスタを示す所属クラスタzt,iと、ハイパーパラメータα0,κと、クラスタ数Kとを記憶する記憶部と、前記記憶部から前記所属クラスタzt,i、前記時間変化情報πt,k、前記混合比β、前記ハイパーパラメータα0,κ、および前記クラスタ数Kとを取得し、所定期間t=1〜Tにおいて、zt−1,i=kかつzt,i=lとなるオブジェクトの数をmt,k,lとしたとき、ディリクレ分布Dirichlet(α0β1+mt,k,l,…,α0βk+mt,k,k +κ,…,α0βK+mt,k,K,α0(1−ΣK k=1βk))からサンプリングして前記時間変化情報πt,kを算出し、当該算出した時間変化情報πt,kによって前記記憶部に記憶してある時間変化情報πt,kを更新し記憶する時間変化情報推定部と、前記記憶部から前記所属クラスタzt,i、前記時間変化情報πt,k、前記クラスタ間関連度ηk,l、前記混合比β、所定期間t=1〜Tの前記関係データxt,k,l、および前記クラスタ数Kを取得し、取得した前記混合比β、前記時間変化情報πt,k、前記クラスタ間関連度ηk,l、前記関係データxt,k,l、およびクラスタ数Kを、式(1)、式(2)、式(3)、式(4)に適用して、式(1)からut,jをサンプリングし、メッセージ変数pt,i,kを式(3)で定義したとき、t=1からt=Tまで順番に式(2)を用いてメッセージ変数pt,i,kを算出し、当該算出したメッセージ変数pt,i,kに対して、t=Tからt=1まで順番に式(4)を用いてメッセージ変数pt,i,kを算出し、p(zt,i=k|zt−1,i=l)が0とならない場合の所属クラスタzt,iを算出し、当該算出した所属クラスタzt,iによって前記記憶部に記憶してある所属クラスタzt,iを更新し記憶する所属クラスタ推定部と、前記クラスタ間関連度ηk,lを前記無限関係モデルによって算出し、前記記憶部に記憶するクラスタ間関連度推定部と、前記混合比βを前記無限関係モデルによって算出し、前記記憶部に記憶する混合比推定部と、前記混合比推定部、前記クラスタ間関連度推定部、前記時間変化情報推定部、および前記所属クラスタ推定部における演算を任意の順番で実行する過程を、所定の終了条件を満足するまで繰り返す終了判定部と、を備えることを特徴とする。
また、本発明は、複数のオブジェクトの間の関係の有無を表す関係データを用いて、オブジェクトのクラスタリングを実行するクラスタリング装置において用いられるクラスタリング方法であって、前記クラスタリング装置が、前記関係データをクラスタリングする関数の一つである無限関係モデル(IRM、Infinite Relational Model)において算出される混合比βおよびクラスタkとクラスタlとの間の関係の強さを示すクラスタ間関連度ηk,lと、クラスタkとクラスタlとの間の関連の有無を示す関係データを所定の時間間隔で観測した関係データxt,k,l、時刻t−1においてクラスタkに所属していたオブジェクトが次の時刻tにどのクラスタに所属しやすいかを示す時間変化情報πt,k、および時刻tにおいてオブジェクトiが所属するクラスタを示す所属クラスタzt,iと、ハイパーパラメータα0,κと、クラスタ数Kとを記憶する記憶部と処理部とを備え、前記処理部が、前記記憶部から前記所属クラスタzt,i、前記時間変化情報πt,k、前記混合比β、前記ハイパーパラメータα0,κ、および前記クラスタ数Kとを取得し、所定期間t=1〜Tにおいて、zt−1,i=kかつzt,i=lとなるオブジェクトの数をmt,k,lとしたとき、ディリクレ分布Dirichlet(α0β1+mt,k,l,…,α0βk+mt,k,k +κ,…,α0βK+mt,k,K,α0(1−ΣK k=1βk))からサンプリングして前記時間変化情報πt,kを算出し、当該算出した時間変化情報πt,kによって前記記憶部に記憶してある時間変化情報πt,kを更新し記憶する時間変化情報推定ステップと、前記記憶部から前記所属クラスタzt,i、前記時間変化情報πt,k、前記クラスタ間関連度ηk,l、前記混合比β、所定期間t=1〜Tの前記関係データxt,k,l、および前記クラスタ数Kを取得し、取得した前記混合比β、前記時間変化情報πt,k、前記クラスタ間関連度ηk,l、前記関係データxt,k,l、およびクラスタ数Kを、式(1)、式(2)、式(3)、式(4)に適用して、式(1)からut,jをサンプリングし、メッセージ変数pt,i,kを式(3)で定義したとき、t=1からt=Tまで順番に式(2)を用いてメッセージ変数pt,i,kを算出し、当該算出したメッセージ変数pt,i,kに対して、t=Tからt=1まで順番に式(4)を用いてメッセージ変数pt,i,kを算出し、p(zt,i=k|zt−1,i=l)が0とならない場合の所属クラスタzt,iを算出し、当該算出した所属クラスタzt,iによって前記記憶部に記憶してある所属クラスタzt,iを更新し記憶する所属クラスタ推定ステップと、前記クラスタ間関連度ηk,lを前記無限関係モデルによって算出し、前記記憶部に記憶するクラスタ間関連度推定ステップと、前記混合比βを前記無限関係モデルによって算出し、前記記憶部に記憶する混合比推定ステップと、前記混合比推定ステップ、前記クラスタ間関連度推定ステップ、前記時間変化情報推定ステップ、および前記所属クラスタ推定ステップにおける演算を任意の順番で実行する過程を、所定の終了条件を満足するまで繰り返し演算させる終了判定ステップと、実行することを特徴とする。 The present invention is also a clustering method used in a clustering apparatus that performs clustering of objects using relational data indicating the presence or absence of relations between a plurality of objects, wherein the clustering apparatus clusters the relational data. A mixture ratio β calculated in an infinite relational model (IRM) which is one of the functions to be performed, and an intercluster relationship η k, l indicating the strength of the relationship between the cluster k and the cluster l, Relationship data x t, k, l obtained by observing relationship data indicating whether or not there is a relationship between cluster k and cluster l at a predetermined time interval, and an object belonging to cluster k at time t−1 is the next time object in time-varying information π t, k, and the time t indicating which cluster to easily belong to the t The Cluster membership but cluster membership z t indicating the clusters belonging, and i, with hyper parameter alpha 0, and kappa, and a processing unit storing section for storing the number of clusters K, the processing unit, from the storage unit z t, i , the time change information π t, k , the mixing ratio β, the hyperparameters α 0 , κ, and the number of clusters K are acquired, and z t−1 in a predetermined period t = 1 to T. , I = k and z t, i = l , where m t, k, l is the number of objects, Dirichlet distribution Dirichlet (α 0 β 1 + mt , k, l , ... , α 0 β k + m t , k, k + κ, ... , α 0 β K + m t, k, K, α 0 (1-Σ K k = 1 β k)) by sampling calculates the time change information [pi t, k from the there is stored in the storage unit by the calculated time change information [pi t, k And time change information estimating step of updating stored between change information π t, k, the cluster membership z t from the storage unit, i, the time change information π t, k, the cluster relevancy η k, l, The mixture ratio β, the relation data x t, k, l for a predetermined period t = 1 to T, and the number of clusters K are acquired, and the acquired mixture ratio β, the time change information π t, k , the cluster By applying the interrelationship η k, l , the relational data x t, k, l , and the number of clusters K to the equations (1), (2), (3), and (4), the equation ( When u t, j is sampled from 1) and the message variable p t, i, k is defined by equation (3), the message variable p t is sequentially used from equation (2) from t = 1 to t = T. , i, calculates k, message variables p t where the calculated, i, with respect to k, t from t = T Message variable p t using Equation (4) in order to 1, i, to calculate the k, p (z t, i = k | z t-1, i = l) in the case of does not become 0 belongs cluster z t, i is calculated, and the affiliated cluster estimation step of updating and storing the affiliated cluster z t, i stored in the storage unit by the computed affiliated cluster z t, i , and the inter-cluster relevance η k, l is calculated by the infinite relationship model and stored in the storage unit, the inter-cluster relevance estimation step; the mixing ratio β is calculated by the infinite relationship model and stored in the storage unit; and The process of executing the calculation in the mixing ratio estimation step, the inter-cluster relevance estimation step, the time change information estimation step, and the belonging cluster estimation step in an arbitrary order is performed according to a predetermined end condition. A termination determination step of repeatedly calculated until satisfied, and executes.
このような構成によれば、公知のIRMを拡張して、クラスタの時間変化を表す時間変化情報πt,kをパラメータとして導入し、所属クラスタzt,iの推定方法も時間に従って考慮可能なようにモデルを構成したことによって、クラスタの時間変化を推定することが可能となる。 According to such a configuration, the known IRM is expanded to introduce time change information π t, k representing the time change of the cluster as a parameter , and the estimation method of the belonging cluster z t, i can be considered according to the time. By configuring the model as described above, it is possible to estimate the time change of the cluster.
本発明は、前記クラスタリング装置が、さらに、ハイパーパラメータγ,ξ,Ψを記憶する前記記憶部を備え、前記クラスタ間関連度推定部は、前記記憶部から前記所属クラスタzt,i、前記クラスタ間関連度ηk,l、前記ハイパーパラメータξ,Ψ、前記クラスタ数K、および所定期間t=1〜Tの前記関係データxt,k,lを取得して、zt,i=kかつzt,j=lとなる(t,i,j)の組の数をNk,lとし、当該Nk,lの中の前記関係データxt,k,lが関係有りを示す数をnk,lとしたとき、ベータ分布Beta(ξ+ηk,l,Ψ+Nk,l−nk,l)からサンプリングして前記クラスタ間関連度ηk,lを算出し、当該算出したクラスタ間関連度ηk,lによって前記記憶部に記憶してあるクラスタ間関連度ηk,lを更新し記憶し、前記混合比推定部は、前記記憶部から前記所属クラスタzt,i、前記混合比β、および前記ハイパーパラメータγ,α0,κを取得し、取得した前記所属クラスタzt,i、前記混合比β、および前記ハイパーパラメータα0,κを、式(5)および式(6)に適用して、それぞれ補助変数Rt,k,lおよび補助変数Ot,kを算出し、前記算出した補助変数Rt,k,lおよび補助変数Ot,kを式(7)に適用して補助変数^Rt,k,lを算出し、ディリクレ分布Dirichlet(Σt,k^Rt,k,1,Σt,k^Rt,k,2,…,Σt,k^Rt,k,γ)からサンプリングして前記混合比βを算出し、当該算出した混合比βによって前記記憶部に記憶してある混合比βを更新し記憶することを特徴とする。
また、本発明は、前記クラスタリング装置が、さらに、ハイパーパラメータγ,ξ,Ψを記憶する前記記憶部を備え、前記処理部が、前記クラスタ間関連度推定ステップにおいて、前記記憶部から前記所属クラスタzt,i、前記クラスタ間関連度ηk,l、前記ハイパーパラメータξ,Ψ、前記クラスタ数K、および所定期間t=1〜Tの前記関係データxt,k,lを取得して、zt,i=kかつzt,j=lとなる(t,i,j)の組の数をNk,lとし、当該Nk,lの中の前記関係データxt,k,lが関係有りを示す数をnk,lとしたとき、ベータ分布Beta(ξ+ηk,l,Ψ+Nk,l−nk,l)からサンプリングして前記クラスタ間関連度ηk,lを算出し、当該算出したクラスタ間関連度ηk,lによって前記記憶部に記憶してあるクラスタ間関連度ηk,lを更新し記憶し、前記混合比推定ステップにおいて、前記記憶部から前記所属クラスタzt,i、前記混合比β、および前記ハイパーパラメータγ,α0,κを取得し、取得した前記所属クラスタzt,i、前記混合比β、および前記ハイパーパラメータα0,κを、式(5)および式(6)に適用して、それぞれ補助変数Rt,k,lおよび補助変数Ot,kを算出し、前記算出した補助変数Rt,k,lおよび補助変数Ot,kを式(7)に適用して補助変数^Rt,k,lを算出し、ディリクレ分布Dirichlet(Σt,k^Rt,k,1,Σt,k^Rt,k,2,…,Σt,k^Rt,k,γ)からサンプリングして前記混合比βを算出し、当該算出した混合比βによって前記記憶部に記憶してある混合比βを更新し記憶することを特徴とする。 Further, according to the present invention, the clustering device further includes the storage unit that stores hyperparameters γ, ξ, and Ψ, and the processing unit includes the cluster from the storage unit in the inter-cluster relevance estimation step. z t, i , the inter-cluster relevance η k, l , the hyper parameters ξ, Ψ, the number K of clusters, and the relation data x t, k, l for a predetermined period t = 1 to T are obtained, z t, i = k and z t, the j = l (t, i, j) and the number set of the N k, and l, the N k, the relationship data x t in l, k, l And n k, l, the number of relevance between the clusters is sampled from the beta distribution Beta (ξ + η k, l , Ψ + N k, l −n k, l ) and the inter-cluster relevance η k, l is calculated. the by between clusters and the calculated relevance eta k, l Cluster relevancy eta k, l which is stored updated and stored in憶部, the the mixing ratio estimating step, wherein the cluster membership z t from the storage unit, i, the mixing ratio beta, and the hyper parameters γ , Α 0 , κ are obtained, and the acquired cluster z t, i , the mixing ratio β, and the hyperparameters α 0 , κ are applied to the equations (5) and (6), respectively. The variable R t, k, l and the auxiliary variable O t, k are calculated, and the calculated auxiliary variable R t, k, l and auxiliary variable O t, k are applied to the equation (7) to apply the auxiliary variable R t , K, l are calculated, and the Dirichlet distribution Dirichlet (Σt , k ^ Rt, k, 1 , Σt , k ^ Rt, k, 2 , ... , Σt , k ^ Rt, k, γ ) The mixing ratio β is sampled from And updates and stores the mixing ratio β which is stored in the part.
このような構成によれば、時間期間に対応した混合比βおよびクラスタ間関連度ηk,lを用いて、時間変化情報πt,kおよび所属クラスタzt,iの推定方法を行うことが可能なようにモデルを構成したことによって、クラスタの時間変化を推定することが可能となる。 According to such a configuration, the estimation method of the time change information π t, k and the assigned cluster z t, i can be performed using the mixing ratio β corresponding to the time period and the inter-cluster relevance η k, l. By constructing the model as possible, it is possible to estimate the time change of the cluster.
本発明は、前記クラスタリング装置が、演算結果を表示する表示装置と接続され、前記終了判定部が、前記終了条件を満足した場合、前記混合比β、前記クラスタ間関連度ηk,l、前記時間変化情報πt,k、および前記所属クラスタzt,iのいずれか一つまたはいずれかの組み合わせを前記表示装置に出力することを特徴とする。 In the present invention, when the clustering device is connected to a display device that displays a calculation result, and the end determination unit satisfies the end condition, the mixture ratio β, the intercluster relevance η k, l , Any one or any combination of the time change information π t, k and the belonging cluster z t, i is output to the display device.
また、本発明は、前記クラスタリング装置は、演算結果を表示する表示装置と接続され、前記処理部が、前記終了条件を満足した場合、前記混合比β、前記クラスタ間関連度ηk,l、前記時間変化情報πt,k、および前記所属クラスタzt,iのいずれか一つまたはいずれかの組み合わせを前記表示装置に出力することを特徴とする Further, according to the present invention, the clustering device is connected to a display device that displays a calculation result, and when the processing unit satisfies the termination condition, the mixture ratio β, the intercluster relevance η k, l , Any one or any combination of the time change information π t, k and the belonging cluster z t, i is output to the display device.
このような構成によれば、時間変化情報πt,kと他のパラメータとを合わせて表示装置に出力することができる。 According to such a configuration, the time change information π t, k and other parameters can be output together to the display device.
本発明は、前記クラスタリング方法を、クラスタリング装置としてのコンピュータに実行させるためのプログラムとした。 The present invention is a program for causing a computer as a clustering apparatus to execute the clustering method.
このようなプログラムをインストールされたコンピュータは、このプログラムに基づいた機能を実現することができる。 A computer in which such a program is installed can realize functions based on this program.
本発明によれば、複数のオブジェクトの間の関係の有無を示す関係データの時系列から、オブジェクトのクラスタの存在を推定し、クラスタの時間変化を推定する技術を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the technique which estimates the presence of the cluster of an object from the time series of the relationship data which shows the presence or absence of the relationship between several objects, and estimates the time change of a cluster can be provided.
次に、本発明を実施するための形態(以降「本実施形態」と称す)について、適宜図面を参照しながら詳細に説明する。 Next, a mode for carrying out the present invention (hereinafter referred to as “the present embodiment”) will be described in detail with reference to the drawings as appropriate.
≪公知のIRMの概要≫
初めに、IRMの概要について、図8を用いて説明する。図8(a)は、N種類のオブジェクトからなるドメインD={1,2, ・・・, N}上の二値の二項関係(2つのオブジェクトの間の関係)を示す図である。縦方向には一方のオブジェクトのインデックスi(N=9)を表し、横方向には他方のオブジェクトのインデックスj(N=9)を表している。図8(a)では、2つのオブジェクト間に関連が有る場合には、その升目を黒く塗りつぶして示している。一般的に、コンピュータによってこの関係の有無を数値で表す場合、演算を行いやすくするために、オブジェクトのインデックスi,j 間に関係が無いときにはxi,j=0と表し、オブジェクトのインデックスi,j 間に関係が有る場合にはxi,j=1と表すものとする。このデータxi,jは、関係データと呼ばれる。
≪Overview of known IRM≫
First, an outline of the IRM will be described with reference to FIG. FIG. 8A is a diagram showing a binary binary relationship (relationship between two objects) on a domain D = {1, 2,..., N} composed of N types of objects. The vertical direction represents the index i (N = 9) of one object, and the horizontal direction represents the index j (N = 9) of the other object. In FIG. 8A, when there is a relationship between two objects, the cell is shown in black. In general, when the presence / absence of this relationship is expressed numerically by a computer, x i, j = 0 is represented when there is no relationship between the object indexes i and j in order to facilitate calculation, and the object index i, If there is a relationship between j, x i, j = 1. This data x i, j is called relational data.
そして、図8(a)に示す関係データをIRMに適用すると、図8(b)に示すように、オブジェクトのインデックスi,j間に関係の有るインデックスとそうでないインデックスとがそれぞれグループ化され、太い実線で区切られたクラスタが生成される。図8(b)では、クラスタ数が自動的に3つに決定され、クラスタを識別する変数(以降、クラスタ番号とも称す。)kが1〜3と設定される。このとき、オブジェクトのインデックスiが所属するクラスタをzi=kと表現する。 Then, when the relational data shown in FIG. 8A is applied to the IRM, as shown in FIG. 8B, an index related to the indexes i and j of the object and an index not so are grouped, respectively. Clusters separated by thick solid lines are generated. In FIG. 8B, the number of clusters is automatically determined to be 3, and a variable for identifying the cluster (hereinafter also referred to as a cluster number) k is set to 1 to 3. At this time, the cluster to which the index i of the object belongs is expressed as z i = k.
IRMの数学的モデルを、式(8)〜式(11)に示す。
ここで、β,zi,ηk,l,xi,jについては後記する。また、「〜」は確率分布からサンプリングすることを表す。Stick()は、DPMにおいて用いられる分布である。Multinomial()、Beta()、およびBernoulli()は、それぞれ、多項分布、ベータ分布、ベルヌイ分布を表す。また、γ,ξ,Ψは事前に設定するハイパーパラメータである。 Here, β, z i , η k, l , x i, j will be described later. “˜” represents sampling from a probability distribution. Stick () is a distribution used in DPM. Multinomial (), Beta (), and Bernoulli () represent a multinomial distribution, a beta distribution, and a Bernoulli distribution, respectively. Γ, ξ, and Ψ are hyper parameters set in advance.
まず、式(8)では、無限次元のクラスタ混合比ベクトルβ(以降、単に混合比と称する。)を生成する。式(8)は具体的には式(12)のように計算される。
ここで、式(12)における矢印⇔は、左辺のk番目のクラスタが右辺で表されることを示す記号である。そして、式(12)の右辺の混合比βkは、k番目のクラスタにデータが所属している確率を表している。定義によって、Σkβk=1であれば、βは無限個のクラスタの混合比として用いることができる。 Here, the arrow ⇔ in Expression (12) is a symbol indicating that the k-th cluster on the left side is represented by the right side. The mixing ratio β k on the right side of Expression (12) represents the probability that data belongs to the k-th cluster. By definition, if Σ k β k = 1, β can be used as a mixing ratio of an infinite number of clusters.
式(9)では、混合比βを用いて、オブジェクトのインデックスiが所属するクラスタzi=kを多項分布(Multinomial())からサンプリングする。式(10)および式(11)は、クラスタリング処理後のクラスタzi=kが与えられたのちに、実際に観測された関係データxi,jを生成する過程を表す。式(10)では、クラスタk,l間の関係の強さを示すクラスタ間関連度ηk,lをベータ分布(Beta())からサンプリングする。このサンプリングされた値は、図8(b)において、(k,l)で表されるクラスタ内の升目に黒(=1)を含む確率を表す。具体的には、クラスタ(k=1,l=3)のクラスタ間関連度η1,3は0.17(=1/6)となる。また、個別の関係データxi,jの値は、各オブジェクトi,jの所属する各クラスタzi,zjによって規定されるブロックの関係の強さを表すクラスタ間関連度ηzi,zjに基づいて、ベルヌイ分布(Bernoulli())からサンプリングされる。 In equation (9), the cluster z i = k to which the index i of the object belongs is sampled from the multinomial distribution (Multinomial ()) using the mixture ratio β. Equations (10) and (11) represent the process of generating the actually observed relational data x i, j after the clustered cluster z i = k is given. In Expression (10), the intercluster relevance η k, l indicating the strength of the relationship between the clusters k, l is sampled from the beta distribution (Beta ()). This sampled value represents the probability that black (= 1) is included in the cell in the cluster represented by (k, l) in FIG. 8B. Specifically, the inter-cluster relevance η 1,3 of the cluster (k = 1, l = 3) is 0.17 (= 1/6). In addition, the value of the individual relation data x i, j is represented by the inter-cluster relevance η zi, zj representing the strength of the block relation defined by each cluster z i , z j to which each object i, j belongs. Based on the Bernoulli distribution (Bernoulli ()).
≪時間を含む時系列関係データをIRMに適用する際の問題≫
次に、前記したIRMの数学的モデルに、時間を含む時系列関係データを適用する際の問題の一例を説明する。今、時刻データを含んだ関係データ時系列X={xt,i,j∈{0,1},1≦t≦T}が与えられたとする。ここで、xt,i,j=1は時刻tにおいてオブジェクトのインデックスi,j間に関係が有ることを示す。なお、xt,i,jは、時刻tと異なる時刻におけるオブジェクト間の関係を定義されないものとする。
≪Problems when applying time series related data including time to IRM≫
Next, an example of a problem when applying time-series related data including time to the mathematical model of IRM described above will be described. Assume that a relational data time series X = {x t, i, j ∈ {0, 1}, 1 ≦ t ≦ T} including time data is given. Here, x t, i, j = 1 indicates that there is a relationship between the indices i, j of the object at time t. Note that x t, i, j does not define the relationship between objects at a time different from time t.
まず、IRMの数学的モデルの式(8),式(9),式(10),式(11)には時刻インデックスtが含まれていないため、時刻を含んだ関係データを適用することはできない。この問題を解決するためには、いくつかの方法が考えられる。最も単純には、時刻データを含んだ関係データ時系列Xから時刻データを含まない関係データ~Xを生成して、前記したIRMの数学的モデルに適用する。例えば、関係データ~xi,jを、式(13)のように表す。 First, since the time index t is not included in the equations (8), (9), (10), and (11) of the mathematical model of the IRM, it is possible to apply the relational data including the time. Can not. There are several ways to solve this problem. Most simply, relational data ~ X not including time data are generated from the relational data time series X including time data and applied to the IRM mathematical model described above. For example, the relational data ˜xi, j is expressed as in equation (13).
ここで、σは例えばσ=0.5等、予め設定しておく閾値である。関係データ~xi,jにおいて、時間情報が欠落する以上当然ではあるが、クラスタリングの時間変化等は完全に無視されることになる。この場合、時刻のインデックスを含んだ関係データ~xi,jをIRMに適用しようとすると、例えば、式(14)〜式(17)の様に表される。 Here, σ is a threshold value set in advance, for example, σ = 0.5. In relational data ˜xi, j , it is natural that time information is lost, but the time change of clustering is completely ignored. In this case, when the relational data ˜xi , j including the time index is applied to the IRM, it is expressed as, for example, Expressions (14) to (17).
ここで、zt,i=kは時刻tにおけるオブジェクトのインデックスiの所属クラスタを表す。このzt,i=kは、IRMにおいて、オブジェクトの所属クラスタに時刻tのインデックスを追加しただけであるので、時間の情報が活かされていない。そして、前記式(14)〜式(17)に示す数学的モデルでは、どの時刻のどのオブジェクトの所属クラスタインデックスも独立に同じ分布からサンプリングされることになる。したがって、時刻t−1と時刻tではクラスタリングの結果に相関関係がある、といったクラスタリングの時間ダイナミクスを一切表現することができない。 Here, z t, i = k represents the cluster to which the index i of the object belongs at time t. Since this t t, i = k is only the index of the time t added to the cluster to which the object belongs in the IRM, the time information is not utilized. In the mathematical model shown in the equations (14) to (17), the cluster index of any object at any time is independently sampled from the same distribution. Therefore, the time dynamics of clustering such that there is a correlation between the clustering results at time t-1 and time t cannot be expressed at all.
≪本実施形態におけるクラスタリングモデル(dIRM)≫
次に、IRMを拡張して、時間変化する関係データを考慮可能とする、新しいクラスタリングモデルdynamic Infinite Relational Model(dIRM)について説明する。まず、時間変化を表すために、オブジェクトのクラスタリングに隠れマルコフモデル(HMM:Hidden Markov Model)に似た構造を導入し、時刻t−1でのクラスタリングと時刻tでのクラスタリングとの間に依存関係を持たせる。これによって、例えば、時刻t−1においてクラスタ1に所属したオブジェクトは次の時刻tにおいてクラスタ1とクラスタ2に所属しやすい、等のように、関係データ時系列の様々な側面をモデル化することが可能となる。HMMの詳細は、例えば、「L.R.Rabiner,“A Tutorial on Hidden Markov Models and Selected applications in Speech Recognition”, Proceedings of the IEEE, Vol.77, No.2, p. 257-286, 1989」に記載されている。
<< Clustering model (dIRM) in this embodiment >>
Next, a new clustering model dynamic Infinite Relational Model (dIRM) that extends IRM to allow consideration of time-varying relational data will be described. First, in order to represent the time change, a structure similar to a Hidden Markov Model (HMM) is introduced to the clustering of objects, and the dependency between clustering at time t-1 and clustering at time t. To have. Thus, for example, modeling various aspects of the relational data time series such that an object belonging to cluster 1 at time t-1 is likely to belong to cluster 1 and cluster 2 at the next time t. Is possible. Details of the HMM are described in, for example, “LRRabiner,“ A Tutorial on Hidden Markov Models and Selected applications in Speech Recognition ”, Proceedings of the IEEE, Vol. 77, No. 2, p. 257-286, 1989”. Yes.
HMMは、非常に幅広い分野で利用されている時系列モデルである。HMMでは、各時刻tにおいて、観測不能な隠れ状態stと観測データytとを定義する。HMMは、隠れ状態間の時間遷移確率p(st|st−1)と隠れ状態からの観測モデルp(yt|st)とで特徴付けられる。時間遷移確率p(st|st−1) は、時刻tにおける隠れ状態stの値が時刻t−1における隠れ状態の値st−1に依存して確率的に決定されることを表す。観測モデルp(yt|st)は、時刻tにおける観測データが同時刻の隠れ状態量に依存して決定されることを表す。 The HMM is a time series model used in a very wide range of fields. In HMM, at each time t, to define an unobservable hidden states s t and observed data y t. The HMM is characterized by a temporal transition probability p (s t | s t-1 ) between hidden states and an observation model p (y t | s t ) from the hidden states. Time transition probability p (s t | s t- 1) is that the value of the hidden state s t at time t is determined stochastically dependent on the value s t-1 of the hidden state at time t-1 Represent. The observation model p (y t | s t ) represents that the observation data at time t is determined depending on the hidden state quantity at the same time.
このように、dIRMでは、HMMを応用し、オブジェクトのインデックスiが時刻tにおいて所属するクラスタzt,iを隠れ状態量と定義することで、クラスタリングの時間ダイナミクスをモデル化している。 Thus, in dIRM, the time dynamics of clustering is modeled by applying HMM and defining the cluster z t, i to which the index i of the object belongs at time t as the hidden state quantity.
まず、公知のHMMと同様に、時刻t−1において、あるクラスタに所属していたオブジェクトが、次の時刻tにどのクラスタに所属しやすいか、という遷移確率を表すパラメータを用意する。また、時間ごとにクラスタ間の遷移確率自体が変化することも考えられることから、遷移確率パラメータは時刻ごとに分けて考える。なお、dIRMではクラスタ数、すなわちHMMの隠れ状態の取りうる値が不定(無限)であるため、単純なHMMは利用できない。そこで、dIRMでは、公知のinfinite HMMで示される隠れ状態数が各時刻で1つ(stのみ)であることを拡張して、隠れ状態数が各時刻でN個のzt,iとなるように設定する。具体的なモデルは次の様になる。 First, as in the known HMM, a parameter representing a transition probability indicating which cluster that an object belonging to a certain cluster easily belongs to at the next time t is prepared. In addition, since the transition probability itself between clusters may change with time, the transition probability parameter is considered separately for each time. In dIRM, since the number of clusters, that is, the value that the HMM hidden state can take is indefinite (infinite), a simple HMM cannot be used. Therefore, in dirm, extends the number of hidden states shown by known infinite HMM is one at each time (s t only), the number of hidden state is N number of z t, i at each time Set as follows. The specific model is as follows.
ここで、γ,α0,κ,ξ,Ψは事前に設定されるハイパーパラメータである。式(18)、式(21)、および 式(22)はIRMの場合の式(14)、式(16)、および式(17)と同じである。式(19)は、新たに導入されたパラメータであり、式(20)は、IRMの場合の式(15)と異なる。式(19)に示すπt,kは、時刻t−1においてクラスタkに所属していたオブジェクトが、時刻tにどのクラスタに所属しやすいかを表すパラメータであり時間変化情報と称する。この時間変化情報πt,kは、公知のHMMにおける状態間の遷移確率を時間依存で変化するよう拡張したことに対応する。また、式(20)はオブジェクトiの時刻tにおける状態zt,iが時刻t−1における状態に依存することを表している点で、公知のHMMモデルのアイデアを利用している。式(19)中のDP()はDirichlet Processを表している。このDP()は、直感的には無限次元のDirichlet分布と考えることができる。したがって、無限次元のパラメータα0βから無限次元のベクトルπを生成することになる。この演算を簡略化するために、有限次元Lで近似した場合は式(23)の様なDirichlet分布となる。 Here, γ, α 0 , κ, ξ, Ψ are hyper parameters set in advance. Expressions (18), (21), and (22) are the same as Expressions (14), (16), and (17) in the case of IRM. Equation (19) is a newly introduced parameter, and Equation (20) is different from Equation (15) in the case of IRM. Π t, k shown in Expression (19) is a parameter indicating which cluster the object belonging to cluster k at time t−1 is likely to belong to at time t, and is referred to as time change information. This time change information π t, k corresponds to the extension of the transition probability between states in a known HMM to change in a time-dependent manner. Further, Expression (20) uses the idea of a known HMM model in that it represents that the state z t, i at the time t of the object i depends on the state at the time t−1. DP () in Equation (19) represents Dirichlet Process. This DP () can be intuitively considered as an infinite dimensional Dirichlet distribution. Therefore, an infinite dimensional vector π is generated from the infinite dimensional parameter α 0 β. In order to simplify this calculation, when approximated by a finite dimension L, a Dirichlet distribution as shown in Expression (23) is obtained.
ここで、β(L)はL次元ベクトルである。また、式(23)中の矢印→は、近似を表す。より詳しい数学的解説は「上田修功,山田武士,“ノンパラメトリックベイズモデル”,応用数理, Vol.8, No.3, p.16-214, 2007」に記載されている。 Here, β (L) is an L-dimensional vector. Moreover, the arrow → in the equation (23) represents approximation. A more detailed mathematical explanation is described in "Usuda Nobuyoshi, Yamada Takeshi," Nonparametric Bayes Model ", Applied Mathematics, Vol.8, No.3, p.16-214, 2007".
また、式(19)のκ(ただし、κ>0)は、グローバルな混合比α0×βのk番目の要素にκを加えて、サンプリングされるπt,kのk番目の要素の値が大きくなりやすくするものである。なお、κについて詳細は、「E.B.Fox, E.B.Sudderth, M.I.Jordan and A.S.Willsky, “An HDPHMM for Systems with State Persistence”, Proceedings of the International Conference on Machine Learning (ICML), 2008」に記載されている。また、式(19)のδkは、クラスタ番号kのときに「1」の値となり、それ以外では「0」となるデルタ関数である。つまり、式(19)でのκの作用は、HMMによる隠れ状態st(ここではzt,i)の決定は確率的なので、例えばs1=s2=・・・=st=kという値が正しい場合にも、確率的に一部の値がk以外の値をとる可能性が高くなることを避けることである。 Also, κ (where κ> 0) in Equation (19) is the value of the kth element of π t, k sampled by adding κ to the kth element of the global mixing ratio α 0 × β. Is easy to grow. Details of κ are described in “EBFox, EBSudderth, MIJordan and ASWillsky,“ An HDPHMM for Systems with State Persistence ”, Proceedings of the International Conference on Machine Learning (ICML), 2008”. In addition, δ k in the equation (19) is a delta function having a value of “1” when the cluster number is k and “0” otherwise. That is, the action of κ in the equation (19) is that the determination of the hidden state s t (here, z t, i ) by the HMM is probabilistic, so that, for example, s 1 = s 2 = ... = s t = k Even when the values are correct, it is to avoid the possibility that a part of the values takes a value other than k stochastically.
≪dIRMの処理の流れ≫
図1を用いて、まず、dIRMの処理の大まかな流れを説明し、個々の処理の詳細については後記する。なお、図1に示す処理は、クラスタリング装置80(図2参照)が実行する。
≪dIRM processing flow≫
First, a rough flow of dIRM processing will be described with reference to FIG. 1, and details of each processing will be described later. 1 is executed by the clustering apparatus 80 (see FIG. 2).
ステップS101では、処理に用いるハイパーパラメータγ,α0,κ,ξ,Ψ、および観測値(関係データ時系列)X={xt,i,j}を取得する。ステップS102では、所属クラスタzt,i、時間変化情報πt,k、クラスタ間関連度ηk,l、混合比β、クラスタ数Kを初期化する。クラスタ数Kは、クラスタを表す変数kの取りうる数である。ステップS103では、繰り返し変数itr=1と設定する。そして、ステップS104〜S108まで繰り返し演算を実行する。 In step S101, hyperparameters γ, α 0 , κ, ξ, ψ used for the processing, and observed values (related data time series) X = {x t, i, j } are acquired. In step S102, the belonging cluster z t, i , time change information π t, k , inter-cluster relevance η k, l , mixing ratio β, and number of clusters K are initialized. The cluster number K is a number that can be taken by the variable k representing the cluster. In step S103, the iteration variable itr = 1 is set. Then, the calculation is repeatedly performed from step S104 to S108.
ステップS104では、所属クラスタ(z)推定部23の処理(図3参照)を用いて、、所属クラスタzt,iをサンプリングして、そのサンプリングした所属クラスタzt,iによって記憶部30(図6参照)に記憶されている所属クラスタzt,iを更新し保存(記憶)する。ステップS105では、時間変化情報(π)推定部24の処理(図4参照)を用いて、時間変化情報πt,kをサンプリングして、そのサンプリングした時間変化情報πt,kによって記憶部30に記憶されている時間変化情報πt,kを更新し保存(記憶)する。ステップS106では、クラスタ間関連度(η)推定部25の処理(図5参照)を用いて、クラスタ間関連度ηk,lをサンプリングして、そのサンプリングしたクラスタ間関連度ηk,lによって記憶部30に記憶されているクラスタ間関連度ηk,lを更新し保存(記憶)する。ステップS107では、混合比(β)推定部26の処理(図6参照)を用いて、混合比βをサンプリングして、そのサンプリングした混合比βによって記憶部30に記憶されている混合比βを更新し保存(記憶)する。ステップS108では、繰り返し変数itrを「1」加算してカウント数を増加する。 In step S104, the affiliation cluster z t, i is sampled using the process of the affiliation cluster (z) estimation unit 23 (see FIG. 3) , and the storage unit 30 (FIG. 6) and update (save) (store) the assigned cluster z t, i stored in (6). In step S105, the time change information π t, k is sampled by using the process of the time change information (π) estimation unit 24 (see FIG. 4) , and the storage unit 30 uses the sampled time change information π t, k . The time change information π t, k stored in is updated and saved (stored). In step S106, the intercluster relevance (η) estimation unit 25 (see FIG. 5) is used to sample the intercluster relevance η k, l, and the sampled intercluster relevance η k, l is used. The inter-cluster relevance η k, l stored in the storage unit 30 is updated and saved (stored). In step S107, the mixture ratio β is sampled by using the process of the mixture ratio (β) estimation unit 26 (see FIG. 6), and the mixture ratio β stored in the storage unit 30 is determined by the sampled mixture ratio β. Update and save (store). In step S108, the repetition variable itr is incremented by “1” to increase the count number.
ステップS109では、終了条件を満足したか否かを判定する。終了条件は、例えば、予め決めておいた所定の繰り返し回数になったことである。そして、終了条件を満足していない場合(ステップS109でNo)、処理はステップS104へ戻る。また、終了条件を満足する場合(ステップS109でYes)、ステップS110では、演算結果を出力し、処理を終了する。 In step S109, it is determined whether an end condition is satisfied. The termination condition is, for example, that a predetermined number of repetitions has been determined in advance. If the end condition is not satisfied (No in step S109), the process returns to step S104. If the end condition is satisfied (Yes in step S109), the calculation result is output in step S110, and the process ends.
なお、前記した終了条件の代わりとして、終了条件を、1つ前のサンプリング処理におけるパラメータの値との差分の絶対値が、予め設定しておいた所定の閾値以下になったこと、としても構わない。また、演算結果の出力においては、所属クラスタzt,i,時間変化情報πt,k,クラスタ間関連度ηk,l,混合比βのパラメータ中から、必要なパラメータのデータのみを出力する。また、ステップS101においてハイパーパラメータγ,κ,α0,ξ,Ψを事前に与える代わりに、繰り返し演算のループの中で、他のパラメータと同時に推定しても良い(例えば、「Y.W.Teh, M.I.Jordan, M.J.Beal and D.M.Blei,“Hierarchical Dirichlet Process”, Journal of the American Statistical Association, Vol.101, No.476, p.1566-1581, 2006」参照)。 In place of the above-described end condition, the end condition may be that the absolute value of the difference from the parameter value in the previous sampling process is equal to or less than a predetermined threshold value set in advance. Absent. Further, in the output of the calculation result, only necessary parameter data is output from the parameters of the belonging cluster z t, i , time change information π t, k , inter-cluster relevance η k, l , and mixture ratio β. . Further, instead of giving the hyper parameters γ, κ, α 0 , ξ, Ψ in advance in step S101, they may be estimated simultaneously with other parameters in a loop of repetitive calculation (for example, “YWTeh, MIJordan, MJ Beal and DMBlei, “Hierarchical Dirichlet Process”, Journal of the American Statistical Association, Vol. 101, No. 476, p.1566-1581, 2006).
次に、図1の各ステップの処理を実行する、クラスタリング装置80(後記する図2参照)の構成および処理の詳細について説明する。まず、処理の前提について、先に説明する。例えば、所属クラスタzt,i、時間変化情報πt,k、クラスタ間関連度ηk,l、混合比βを推定するために、beam samplingを用いる場合を示す。この理由は、beam samplingが、無限個存在するクラスタを有限個に打ち切って推定するので、無限次元ベクトルとして扱わなければならなかったβやπt,kを有限次元ベクトルで扱えるためである。そして、beam samplingでは、有限個に打ち切って推定したクラスタの数は、サンプリングを繰り返すことで、理論上無限次元ベクトルを正当に扱った場合と等価になる。なお、beam samplingの代わりにGibbsサンプリングによる方法を用いることもできるが、beam samplingは、前記したように有限個に打ち切って演算を実行するので、Gibbsサンプリングよりも高速に処理を行うことができるという利点がある。 Next, the configuration and processing details of the clustering apparatus 80 (see FIG. 2 described later) that executes the processing of each step in FIG. 1 will be described. First, the premise of a process is demonstrated previously. For example, a case of using beam sampling to estimate the belonging cluster z t, i , time change information π t, k , inter-cluster relevance η k, l , and mixing ratio β will be shown. This is because because beam sampling estimates the infinite number of clusters by cutting it into a finite number, β and π t, k that had to be handled as infinite dimensional vectors can be handled as finite dimensional vectors. In beam sampling, the number of clusters estimated by cutting into a finite number is equivalent to a case where an infinite dimensional vector is theoretically handled by repeating sampling. In addition, although the method by Gibbs sampling can also be used instead of beam sampling, it can be processed at higher speed than Gibbs sampling, because beam sampling cuts a finite number of operations as described above. There are advantages.
また、以下の説明では、2つのドメインのオブジェクトの数は同じ(インデックスi,jがどちらも1,2,・・・,N)ものとするが、これらは同じでなくても良い。また、本実施形態では、クラスタを表す変数kを正整数と仮定して説明を行うが、変数kはクラスタリングの各グループの名前を識別できることが目的であるため、変数kの値そのものには意味はなく、正整数のかわりにa,b,c等の記号(シンボル)や文字列で表現しても良い。 In the following description, the number of objects in the two domains is the same (indexes i and j are both 1, 2,..., N), but they may not be the same. In the present embodiment, the description is made assuming that the variable k representing the cluster is a positive integer. However, since the variable k is intended to identify the name of each group of clustering, the value of the variable k itself has no meaning. Instead, it may be expressed by a symbol such as a, b, c, or a character string instead of a positive integer.
≪クラスタリング装置の構成≫
次に、クラスタリング装置80の構成について、図2を用いて説明する。図2に示すように、クラスタリング装置80は、処理部20と記憶部30とを備え、処理部20がコンピュータにおけるCPU(Central Processing Unit)に相当し、記憶部30が主記憶装置やHDD(Hard Disc Drive)やUSB(Universal Serial Bus)メモリ等に相当する。また、クラスタリング装置80には、クラスタリング装置80へデータを入力する入力装置10、およびクラスタリング装置80の演算結果を表示する表示装置40が接続可能である。入力装置10は、例えば、キーボードやマウス等であり、ユーザによるデータ入力や処理操作の指示に用いられる。表示装置40は、例えば、ディスプレイ等であって、ユーザによる演算結果の確認に用いられる。なお、入力装置10および表示装置40は、必須ではなく、クラスタリング装置80に外部接続されるUSBメモリ等の記憶部(図示せず)を介して、該記憶部に記憶されているデータを入力とし、演算結果を該記憶部に出力するようにしても構わない。ただし、本実施形態では、クラスタリング装置80に入力装置10および表示装置40が接続されているケースについて説明する。
≪Configuration of clustering device≫
Next, the configuration of the clustering apparatus 80 will be described with reference to FIG. As shown in FIG. 2, the clustering device 80 includes a processing unit 20 and a storage unit 30, the processing unit 20 corresponds to a CPU (Central Processing Unit) in the computer, and the storage unit 30 is a main storage device or HDD (Hard (Hard Disk)). It corresponds to a disc drive (USB) or universal serial bus (USB) memory. Further, the input device 10 for inputting data to the clustering device 80 and the display device 40 for displaying the calculation result of the clustering device 80 can be connected to the clustering device 80. The input device 10 is, for example, a keyboard, a mouse, or the like, and is used for data input and processing operation instructions by a user. The display device 40 is, for example, a display or the like, and is used for checking a calculation result by a user. Note that the input device 10 and the display device 40 are not indispensable, and input data stored in the storage unit via a storage unit (not shown) such as a USB memory externally connected to the clustering device 80. The calculation result may be output to the storage unit. However, in the present embodiment, a case where the input device 10 and the display device 40 are connected to the clustering device 80 will be described.
クラスタリング装置80の処理部20は、入力データの初期化を実行する初期設定部21と、繰り返し演算を実行する推定演算部22とを備える。推定演算部22は、機能として、所属クラスタ(z)推定部23、時間変化情報(π)推定部24、クラスタ間関連度(η)推定部25、混合比(β)推定部26、および終了判定部28を備える。初期設定部21は、図1に示すステップS101およびS102を実行する。所属クラスタ(z)推定部23、時間変化情報(π)推定部24、クラスタ間関連度(η)推定部25、および混合比(β)推定部26は、それぞれ、図1に示すステップS104、S105、S106、およびS107を実行する。そして、終了判定部28は、図1に示すステップS109およびS110を実行する。なお、図2中に破線で示したハイパーパラメータ算出部27は、ハイパーパラメータを事前に与える代わりに、繰り返し演算のループの中で推定する場合に用いられる。また、各部23〜27の演算する順番は、図示している順に限られない。 The processing unit 20 of the clustering apparatus 80 includes an initial setting unit 21 that performs initialization of input data, and an estimation calculation unit 22 that performs repeated calculations. The estimation calculation unit 22 functions as a belonging cluster (z) estimation unit 23, a time change information (π) estimation unit 24, an intercluster relevance (η) estimation unit 25, a mixture ratio (β) estimation unit 26, and an end. A determination unit 28 is provided. The initial setting unit 21 executes steps S101 and S102 shown in FIG. The affiliation cluster (z) estimation unit 23, the time change information (π) estimation unit 24, the inter-cluster relevance (η) estimation unit 25, and the mixture ratio (β) estimation unit 26 are shown in FIG. S105, S106, and S107 are executed. Then, the end determination unit 28 executes steps S109 and S110 shown in FIG. Note that the hyper parameter calculation unit 27 indicated by a broken line in FIG. 2 is used when estimating in a loop of repetitive calculation instead of giving the hyper parameter in advance. Moreover, the order which each part 23-27 calculates is not restricted to the order shown.
記憶部30は、処理部20の演算に用いられる各変数として、推定値31、補助変数32、メッセージ変数33、カウント変数34、クラスタ数36、および観測値37を記憶する。また、記憶部30には、処理部20によって実行されるアプリケーションプログラムが記憶されている。 The storage unit 30 stores an estimated value 31, an auxiliary variable 32, a message variable 33, a count variable 34, a cluster number 36, and an observed value 37 as each variable used for the calculation of the processing unit 20. The storage unit 30 stores an application program executed by the processing unit 20.
次に、図2に示すクラスタリング装置80の処理部20の各部21〜28の処理の詳細について説明する。 Next, details of the processes of the respective units 21 to 28 of the processing unit 20 of the clustering apparatus 80 illustrated in FIG. 2 will be described.
(初期設定部)
初期設定部21は、入力装置10から、関係データ時系列X={xt,i,j}(t=1,2,・,T,i=1,2,・,N,j=1,2,・,N)とハイパーパラメータγ,α0,κ,ξ,Ψとを取得し(図1のステップS101)、それぞれ記憶部30の観測値37とハイパーパラメータ35として記憶する。また、初期設定部21は、式(18)〜式(22)において定義されたパラメータβ,zt,i,πt,k,ηk,lおよびクラスタ数Kの初期値を設定し、記憶部30の推定値31とクラスタ数36として記憶する(図1のS102)。初期値の設定は次の様に行う。クラスタ数Kの初期値は、ランダムな正整数を設定する。すべてのzt,iについては、1からクラスタ数Kのうちのいずれかの整数値を設定する。これは、完全ランダムに設定すれば良い。L次元のベクトルであるπt,kについては、ベクトルの要素の和が1であり、かつ、すべての要素が非負であるという条件を満たすように、ランダムな値を設定する。ηk,lについては、0≦ηk,l≦1なる実数値をランダムに割り当てる。L次元のベクトルであるβについては、ベクトルの要素の和が1であり、かつ、すべての要素が非負であるという条件を満たすように、ランダムな値を設定する。
(Initial setting part)
The initial setting unit 21 receives the relation data time series X = {x t, i, j } (t = 1, 2,..., T, i = 1, 2,..., N, j = 1, from the input device 10. 2,..., N) and hyperparameters γ, α 0 , κ, ξ, and Ψ are acquired (step S101 in FIG. 1), and stored as an observed value 37 and a hyperparameter 35 in the storage unit 30, respectively. The initial setting unit 21 sets and stores the initial values of the parameters β, z t, i , π t, k , η k, l and the number of clusters K defined in the equations (18) to (22). The estimated value 31 of the unit 30 and the number of clusters 36 are stored (S102 in FIG. 1). The initial value is set as follows. A random positive integer is set as the initial value of the number of clusters K. For all z t, i , any integer value from 1 to the number K of clusters is set. This may be set completely at random. For π t, k which is an L-dimensional vector, random values are set so as to satisfy the condition that the sum of vector elements is 1 and all elements are non-negative. For η k, l , real values of 0 ≦ η k, l ≦ 1 are randomly assigned. For β, which is an L-dimensional vector, a random value is set so that the condition that the sum of the elements of the vector is 1 and all the elements are non-negative is satisfied.
(所属クラスタ(z)推定部)
所属クラスタ(z)推定部23は、zt,iのサンプリングを行い、そのサンプリングした値によって記憶部30に保存してあるzt,iを更新し記憶する。所属クラスタ(z)推定部31の処理フローについて図3を用いて説明する。まず、ステップS301では、所属クラスタ(z)推定部31は、現在記憶部30に保存してあるzt,i,πt,k,ηk,l,β,K,X={x1,1,1,x1,1,2,・・・,xT,N,N}を取得する。次に、ステップS302では、t=1〜T,i=1〜Nについて、式(1)を用いて、補助変数ut,iを次のように算出する。
(Affiliation cluster (z) estimation part)
Cluster membership (z) estimation unit 23 samples the z t, i, z t that are stored in the storage unit 30 by the sampled value to update and store i. A processing flow of the affiliation cluster (z) estimation unit 31 will be described with reference to FIG. First, in step S301, the cluster (z) estimation unit 31 belongs to z t, i , π t, k , η k, l , β, K, X = {x 1, 1,1 , x1,1,2 , ..., xT , N, N }. Next, in step S302, auxiliary variables u t, i are calculated as follows using equation (1) for t = 1-T and i = 1-N.
ここで、Uniform()は、一様分布を表す。つまり、式(1)は、ut,i(t=1〜T,i=1〜N)が、一様分布からサンプリングされることを表す。 Here, Uniform () represents a uniform distribution. That is, Equation (1) represents that u t, i (t = 1 to T, i = 1 to N) is sampled from the uniform distribution.
続いて、ステップS303〜S309では、t=1からt=Tまですべてのi=1〜Nおよび必要なkについてメッセージ変数pt,i,kを算出する。このメッセージ変数の算出は、t=1からt=Tまで順番に行うので、forward filteringと呼ぶ。具体的には、ステップS303ではt=1と設定し、ステップS304ではi=1と設定し、ステップS305では式(2)を用いてメッセージ変数pt,i,kを算出し、ステップS306ではiを「1」増加し、ステップS307でi>Nの場合はステップS308でtを「1」増加し、ステップS309でt>Tの場合にステップS310へ処理を移行する。なお、ステップS307でi≦Nの場合はステップS305へ戻り、ステップS309でt≦Tの場合はステップS304へ戻る。 Subsequently, in steps S303 to S309, message variables p t, i, k are calculated for all i = 1 to N and necessary k from t = 1 to t = T. Since the calculation of the message variable is performed in order from t = 1 to t = T, it is called forward filtering. Specifically, t = 1 is set in step S303, i = 1 is set in step S304, message variables p t, i, k are calculated using equation (2) in step S305, and in step S306. i is increased by “1”. If i> N in step S307, t is increased by “1” in step S308, and if t> T in step S309, the process proceeds to step S310. If i ≦ N in step S307, the process returns to step S305. If t ≦ T in step S309, the process returns to step S304.
なお、ステップS305では、メッセージ変数pt,i,kは、式(2)によって算出される。ただし、メッセージ変数は式(3)を満たすような変数である。
ここで、式(2)は、zt,iに関するすべての時系列関係データの尤度を既存のメッセージ変数に乗算することを表す。なお、kに関してはut+1,i<πt+1,k,zt+1,iとなるk、すなわち有限個のkに関してのみ計算し、その他のkに関してはpt,i,k=0とする。つまり、zt,i=kのサンプリングにおいて、ut,i>πt,zt―1,i,kとなるクラスタを表すクラスタ番号kにはオブジェクトのインデックスiをアサイン(関連付け)できなくすることによって、zt,iの取りうるクラスタ番号の数を無限個から有限個に削減することができる。また、t=1の場合には、右辺最終項を無視して演算する。 Here, Equation (2) represents multiplying the existing message variable by the likelihood of all the time series relation data regarding z t, i . Note that k is calculated for k that satisfies u t + 1, i <π t + 1, k, zt + 1, i , that is, only a finite number of k, and pt , i, k = 0 for the other k. That is, in sampling at z t, i = k, the object index i cannot be assigned (associated) to the cluster number k representing the cluster where u t, i > π t, zt-1, i, k. Thus, the number of cluster numbers that z t, i can take can be reduced from infinite to finite. When t = 1, the calculation is performed while ignoring the last term on the right side.
また、式(3)において、x1:t,・,・は、xt´,i,jの全集合のうち、1≦t´≦t, 1≦i,j≦Nを満たすすべての値の集合を表す。つまり、x1:t,・,・は、時刻t=1〜tのすべての関係データである。u1:t,・は、u1:t´,iのうち、1≦t´≦t, 1≦i≦Nを満たす集合を表す。なお、「・」はすべてのインデックスを示す。 In Expression (3), x 1: t, ... Are all values satisfying 1 ≦ t ′ ≦ t, 1 ≦ i, j ≦ N among all sets of x t ′, i, j. Represents a set of That is, x 1: t, ... Is all relational data at times t = 1 to t . u 1: t, ... represents a set satisfying 1 ≦ t ′ ≦ t and 1 ≦ i ≦ N among u 1: t ′, i . “·” Indicates all indexes.
次に、ステップS310〜S316では、t=T,T−1,・,1,i=1〜Nについて、backward sampling によってzt,i=kの値を算出する。具体的には、ステップS310ではt=Tと設定し、ステップS311ではi=1と設定し、ステップS312では式(4)を用いてzt,iをサンプリングして更新保存し、ステップS313ではiを「1」増加し、ステップS314でi>Nの場合はステップS315でtから「1」減少し、ステップS316でt<1の場合はステップS317へ処理を移行する。なお、ステップS314でi≦Nの場合はステップS312へ戻り、ステップS316でt≧1の場合はステップS311へ戻る。 Next, in steps S310 to S316, for t = T, T-1,..., 1, i = 1 to N, the value of z t, i = k is calculated by backing sampling. Specifically, t = T is set in step S310, i = 1 is set in step S311, z t, i is sampled and updated using equation (4) in step S312, and in step S313. i is increased by “1”. If i> N in step S314, “1” is decreased from t in step S315. If t <1 in step S316, the process proceeds to step S317. If i ≦ N in step S314, the process returns to step S312. If t ≧ 1 in step S316, the process returns to step S311.
ステップS312では、メッセージ変数pt,i,kは、式(4)を用いて算出される。
ここで、右辺のI()は、カッコ内の条件式が満たされれば1、そうでなければ0の値をとる関数である。したがって、ここでもkに関してはut+1,i<πt+1,k,zt+1,iとなるk、すなわち有限個のkに関してのみ計算すれば良い。式(4)を、t=Tからt=1 まで、すべてのi,kについて演算してzt,i=kをサンプリングする。このとき、式(4)の右辺が0となる場合は、そのときのzt,i=kは無視される(サンプリングされない)。そして、そのサンプリングしたzt,iによって記憶部30に記憶されているzt,iを更新し保存する。その結果として、zt,iのクラスタ番号の取りうるクラスタ数K個の値だけが選択される。このように、dIRMでは、サンプリングによって選択されたzt,iのクラスタ番号がK個に限定されるが、一般性を失うことはない。 Here, I () on the right side is a function that takes a value of 1 if the conditional expression in parentheses is satisfied and 0 otherwise. Therefore, it is only necessary to calculate k for k that satisfies u t + 1, i <π t + 1, k, zt + 1, i , that is, a finite number of k. Equation (4) is calculated for all i, k from t = T to t = 1 to sample z t, i = k. At this time, if the right side of Equation (4) is 0, z t, i = k at that time is ignored (not sampled). Then, the sampled z t, z stored in the storage unit 30 by i t, stores and updates the i. As a result, only the value of K number of clusters that the cluster number of z t, i can take is selected. Thus, in dIRM, the cluster number of z t, i selected by sampling is limited to K, but generality is not lost.
ステップS317では、以上の処理によってサンプリングして保存されたすべてのzt,iのクラスタ番号の取りうるクラスタ数をKとして記憶部30のKを更新し保存する。次に、ステップS318では、記憶部30に保存されているすべての変数について、取りうるクラスタ番号を1〜Kに更新し、保存する。 In step S317, K in the storage unit 30 is updated and stored, where K is the number of clusters that can be taken by all z t, i cluster numbers sampled and stored by the above processing. Next, in step S318, for all variables stored in the storage unit 30, the possible cluster numbers are updated to 1 to K and stored.
このステップS318の処理の具体例を、以下に示す。いま、時間ステップ数t=1でオブジェクトの数N=5の場合に、記憶されているz1,iが次のようになっていたとする。
z1,1=1
z1,2=3
z1,3=4
z1,4=6
z1,5=6
A specific example of the process in step S318 is shown below. Assume that the stored z 1, i is as follows when the number of time steps t = 1 and the number of objects N = 5.
z 1,1 = 1
z 1, 2 = 3
z 1,3 = 4
z 1,4 = 6
z 1,5 = 6
この場合、使用されているクラスタ番号は1,3,4,6の4種類であるためK=4となる。上記のクラスタ番号の範囲1〜6のうち、クラスタ番号2と5は使用されていないので、クラスタ番号のインデックス「3」を「2」に、「4」を「3」に、「6」を「4」に置き換えることにより、無駄な(使用されていない)クラスタの番号がないようにする。
z1,1=1 (更新しない)
z1,2=3 → 2
z1,3=4 → 3
z1,4=6 → 4
z1,5=6 → 4
In this case, since there are four types of cluster numbers 1, 3, 4, and 6, K = 4. Since the cluster numbers 2 and 5 are not used in the cluster number ranges 1 to 6, the cluster number index “3” is set to “2”, “4” is set to “3”, and “6” is set. By replacing with “4”, there is no useless (unused) cluster number.
z 1,1 = 1 (do not update)
z 1, 2 = 3 → 2
z 1,3 = 4 → 3
z 1,4 = 6 → 4
z 1,5 = 6 → 4
これにより、すべての変数zt,iについて、とりうるクラスタの番号が1〜4のいずれかになるように更新される。そして、このようにzt,iを書き換えると、他のパラメータπ、η、βや補助変数のインデックスk,lにも影響を及ぼすので、これらのすべての変数について上記zt,iと同様にインデックスの書き換え処理(ステップS318)を行う。 As a result, all the variables z t, i are updated so that the possible cluster numbers are any one of 1-4. And if z t, i is rewritten in this way, it also affects the other parameters π, η, β and the indices k, l of the auxiliary variables, so that all these variables are the same as z t, i above. An index rewriting process is performed (step S318).
(時間変化情報(π)推定部)
図2に示す時間変化情報(π)推定部24は、πt,kのサンプリングを行い、そのサンプリングしたπt,kによって記憶部30に保存してあるπt,kを更新し記憶する。時間変化情報(π)推定部24の処理フローについて図4を用いて説明する。
(Time change information (π) estimation unit)
Time change information shown in FIG. 2 ([pi) estimation unit 24 samples the [pi t, k, is updated to store the [pi t, k that are stored in the storage unit 30 by the sampled [pi t, k. The processing flow of the time change information (π) estimation unit 24 will be described with reference to FIG.
まず、ステップS401では、記憶部30に現在保存してあるzt,i,πt,k,β,Kとハイパーパラメータα0,κとを取得する。ここで、tを固定したときにzt−1,i=kかつzt,i=lとなるオブジェクトの数をmt,k,lと表し、そのmt,k,lをカウント変数とする。ステップS402では、すべてのt=1〜T、k=1〜K、l=1〜Kについて、mt,k,l=0に初期化(設定)する。 First, in step S401, z t, i , π t, k , β, K and hyper parameters α 0 , κ currently stored in the storage unit 30 are acquired. Here, when t is fixed , the number of objects with z t−1, i = k and z t, i = l is represented as m t, k, l, and m t, k, l is defined as a count variable. To do. In step S402, all t = 1 to T, k = 1 to K, and l = 1 to K are initialized (set) to m t, k, l = 0.
次に、ステップS403〜S411によって、t=1〜T、i=1〜Nについてmt,k,lを算出する。具体的には、ステップS403ではt=1と設定し、ステップS404ではi=1と設定し、ステップS405ではk=zt−1,iと設定し、ステップS406ではl=zt,iと設定し、ステップS407ではmt,k,lを「1」増加し、ステップS408ではiを「1」増加し、ステップS409ではi>Nの場合はステップS410でtを「1」増加し、ステップS411ではt>Tの場合にステップS412へ処理を移行する。なお、ステップS409でi≦Nの場合はステップS405へ戻り、ステップS411でt≦Tの場合はステップS404へ戻る。 Next, in steps S403 to S411, mt , k, and l are calculated for t = 1 to T and i = 1 to N. Specifically, t = 1 is set in step S403, i = 1 is set in step S404, k = z t-1, i is set in step S405, and l = z t, i is set in step S406. In step S407, m t, k, l is increased by “1”, i is increased by “1” in step S408, and in step S409, if i> N, t is increased by “1” in step S410, In step S411, if t> T, the process proceeds to step S412. If i ≦ N in step S409, the process returns to step S405. If t ≦ T in step S411, the process returns to step S404.
次に、ステップS412では、t=1〜T、k=1〜Kに対して、式(24)を用いてπt,kをサンプリングし、記憶部30のπt,kを更新し保存する。
ここで、κは式(19)で使用されるκと同じであり、また、βu=1−ΣK k=1βkである。
Next, at step S412, t = 1 to T, with respect to k = 1 to K, to sample the [pi t, k using Equation (24), stores and updates the [pi t, k of the storage section 30 .
Here, κ is the same as κ used in Equation (19), and β u = 1−Σ K k = 1 β k .
(クラスタ間関連度(η)推定部)
図2に示すクラスタ間関連度(η)推定部25は、ηk,lのサンプリングを行い、そのサンプリングした値によって記憶部30に保存してあるηk,lを更新し記憶する。クラスタ間関連度(η)推定部25の処理フローについて図5を用いて説明する。まず、ステップS501では、記憶部30に現在保存してあるzt,i,ηk,l,Kとハイパーパラメータξ,Ψと関係データ時系列Xとを取得する。
(Inter-cluster relevance (η) estimation part)
Cluster relevancy shown in FIG. 2 (eta) estimator 25, eta k, samples the l, updates and stores the eta k, l that are stored in the storage unit 30 by the sampled value. A processing flow of the inter-cluster relevance (η) estimation unit 25 will be described with reference to FIG. First, in step S501, z t, i , η k, l , K, hyper parameters ξ, Ψ, and relational data time series X currently stored in the storage unit 30 are acquired.
ここで、zt,i=k,zt,j=lとなる(t,i,j)の組の数をNk,l、そのうちxt,i,j=1となった観測値の数をnk,lとし、それらのNk,lおよびnk,lをカウント変数とする。ステップS502では、各Nk,lおよび各nk,lの初期値は「0」に初期化(設定)する。 Here, the number of sets of (t, i, j) where z t, i = k, z t, j = l is N k, l , of which the observed values are x t, i, j = 1. Let n k, l be a number, and let N k, l and n k, l be count variables. In step S502, the initial values of each N k, l and each n k, l are initialized (set) to “0”.
次に、ステップS503〜S514によって、t=1〜T、i=1〜NについてNk,lおよびnk,lを算出する。具体的には、ステップS503ではt=1と設定し、ステップS504ではi=1と設定し、ステップS505ではk=zt,iと設定し、ステップS506ではj=1と設定し、ステップS507ではl=zt,iと設定し、ステップS508ではNk,lを「1」増加するとともにnk,lにxt,i,jを加算し、ステップS509ではjを「1」増加し、ステップS510ではj>Nの場合はステップS511でiを「1」増加し、ステップS512ではi>Nの場合はステップS513でtを「1」増加し、ステップS514ではt>Tの場合にステップS515へ処理を移行する。なお、ステップS510でj≦Nの場合はステップS507へ戻り、ステップS512でi≦Nの場合はステップS505へ戻り、ステップS514でt≦Tの場合はステップS504へ戻る。 Next, in steps S503 to S514, N k, l and n k, l are calculated for t = 1 to T and i = 1 to N. Specifically, t = 1 is set in step S503, i = 1 is set in step S504, k = z t, i is set in step S505, j = 1 is set in step S506, and step S507 is set. in setting l = z t, i and adds the x t, i, j in step S508 n k, with increasing "1" l n k, the l, a j in step S509, "1" increased In step S510, if j> N, i is increased by “1” in step S511. If i> N in step S512, t is increased by “1” in step S513. If t> T in step S514, The process proceeds to step S515. If j ≦ N in step S510, the process returns to step S507. If i ≦ N in step S512, the process returns to step S505. If t ≦ T in step S514, the process returns to step S504.
次に、ステップS515では、k=1〜K、l=1〜Kに対して、式(25)を用いてηk,lをサンプリングし、記憶部30のηk,lを更新し保存する。
(混合比(β)推定部)
図2に示す混合比(β)推定部26は、βのサンプリングを行い、そのサンプリングした値によって記憶部30に保存してあるβを更新し記憶する。混合比(β)推定部26の処理フローについて図6を用いて説明する。まず、ステップS601では、記憶部30に現在保存してあるzt,i,β,Kとハイパーパラメータγ,α0,κとカウント変数mt,k,lとを取得する。
(Mixing ratio (β) estimation part)
The mixing ratio (β) estimation unit 26 shown in FIG. 2 samples β, and updates and stores β stored in the storage unit 30 with the sampled value. The processing flow of the mixture ratio (β) estimation unit 26 will be described with reference to FIG. First, in step S601, z t, i , β, K, hyper parameters γ, α 0 , κ, and count variables m t, k, l currently stored in the storage unit 30 are acquired.
βのサンプリングにおいては、3つの補助変数が必要となる。まず、ステップS602では、すべてのt=1,〜T、k=1〜K、l=1〜Kに対して、式(5)を用いて補助変数Rt,k,l=r, r∈{1,2,・・・,mt,k,l}をサンプリングする。
ここで、s(x,a)は第1種スターリング数(unsigned stirling number of the first kind)とよばれる関数であり、n≧a≧0に対してx(x+1)(x+2)・・・(x+n−1)のxaの係数をs(x,a)の値とする関数である。以下の漸化式で与えられる。
s(n,k)=s(n−1,k−1)+(n−1)s(n−1,k)
Here, s (x, a) is a function called an unsigned stirling number of the first kind, and for n ≧ a ≧ 0, x (x + 1) (x + 2). x + n−1) is a function having the coefficient of xa as the value of s (x, a). It is given by the following recurrence formula.
s (n, k) = s (n-1, k-1) + (n-1) s (n-1, k)
次に、ステップS603では、t=1〜T、k=1〜Kに対し、式(6)を用いて補助変数Ot,kをサンプリングする。
ここで、Binomial()は、二項分布を表す。
Next, in step S603, the auxiliary variable O t, k is sampled using Equation (6) for t = 1 to T and k = 1 to K.
Here, Binomial () represents a binomial distribution.
次に、ステップS604では、t=1〜T、k=1〜K、l=1〜Kに対して、式(7)を用いて補助変数^Rt,k,lをサンプリングする。
最後に、ステップS605では、式(26)を用いてβをサンプリングし、記憶部30のβを更新し保存する。
(ハイパーパラメータ算出部)
図2に示すハイパーパラメータ算出部27は、ハイパーパラメータを事前に与えない場合に用いられる。ハイパーパラメータ算出部27におけるハイパーパラメータの推定演算は、「J.Van Gael, Y.Saatci, Y.W.Teh and Z.Ghahramani,“Beam Sampling for the Infinite Hidden Markov Model”, Proceedings of the 25th International Conference on Machine Learning (ICML), 2008」に記載の技術を用いて実行することが可能である。
(Hyper parameter calculation part)
The hyper parameter calculation unit 27 shown in FIG. 2 is used when hyper parameters are not given in advance. The hyperparameter estimation operation in the hyperparameter calculator 27 is described in “J. Van Gael, Y. Saatci, YWTeh and Z. Ghahramani,“ Beam Sampling for the Infinite Hidden Markov Model ”, Proceedings of the 25th International Conference on Machine Learning ( ICML), 2008 "can be used for the execution.
(終了判定部)
図2に示す終了判定部28は、所定の終了条件を満足しているか否かを判定し、その終了条件を満足している場合、演算結果を出力する。終了条件は、例えば、予め決めておいた所定の繰り返し回数になったことである。また、他の終了条件の例として、1つ前のサンプリング処理におけるパラメータの値との差分の絶対値が、予め設定しておいた所定の閾値以下になったこと、としても構わない。また、終了判定部28は、演算結果の出力においては、所属クラスタzt,i,クラスタ時間変化πt,k,クラスタ間関連度ηk,l,混合比βの中から、入力装置10を介してユーザによって出力するように指示された、必要な演算結果のみを表示装置40に出力する。
(End determination part)
The end determination unit 28 shown in FIG. 2 determines whether or not a predetermined end condition is satisfied, and outputs a calculation result when the end condition is satisfied. The termination condition is, for example, that a predetermined number of repetitions has been determined in advance. As another example of the end condition, the absolute value of the difference from the parameter value in the previous sampling process may be equal to or less than a predetermined threshold value set in advance. In addition, in the output of the calculation result, the end determination unit 28 selects the input device 10 from the belonging cluster z t, i , cluster time change π t, k , inter-cluster relevance η k, l , and mixture ratio β. Only a necessary calculation result instructed to be output by the user is output to the display device 40.
(dIRMの性能評価例)
本実施形態におけるdIRMの性能について、シミュレーションによって確認した結果を以下に示す。
(Example of performance evaluation of dIRM)
The result confirmed by simulation about the performance of dIRM in this embodiment is shown below.
クラスタリングの正解の分かっている人工データを作成して、その人工データを用いてdIRMの定量的な評価を行った。人工データは、全体の時間ステップはT=5、オブジェクト数はN=16、クラスタ数はK=4とした。オブジェクトのインデックスi=1〜4はほぼ常にクラスタ1に所属し、オブジェクトのインデックスi=5〜8はほぼ常にクラスタ2、オブジェクトのインデックスi=9〜12はほぼ常にクラスタ3に所属し、オブジェクトのインデックスi=13〜16はほぼ常にクラスタ4に所属するように設定する。ただし、一部のオブジェクトは時間に応じてクラスタ間を遷移させた。クラスタ間関連度ηk,lは、positiveなクラスタ間ではη=0.9、negativeなクラスタ間ではη=0.1の2種類を用いた。クラスタ間関連度ηがpositiveかnegativeかも事前に設定し、与えられたηに従って各時刻の関係データxt,i,jを生成した。 Artificial data for which the correct answer of clustering was known was created, and quantitative evaluation of dIRM was performed using the artificial data. In the artificial data, the total time step is T = 5, the number of objects is N = 16, and the number of clusters is K = 4. The object index i = 1 to 4 almost always belongs to cluster 1, the object index i = 5 to 8 almost always belongs to cluster 2, and the object index i = 9 to 12 almost always belongs to cluster 3. The index i = 13 to 16 is set so as to almost always belong to the cluster 4. However, some objects have transitioned between clusters according to time. Two types of inter-cluster relevance η k, l were used: η = 0.9 between positive clusters and η = 0.1 between negative clusters. Whether the inter-cluster relevance η is positive or negative is set in advance, and the relationship data x t, i, j at each time is generated according to the given η.
シミュレーションでは、dIRMおよび公知のIRMに対して、前記の手続きに従って生成した関係データ時系列Xを用いて、オブジェクトのクラスタリングを実行した。IRMでは、式(13)においてσ=0.5としてクラスタリングしたのち、IRMでのオブジェクトのインデックスiのクラスタリング結果ziを、各時刻tでのオブジェクトのインデックスiのクラスタリングzt,iとみなした。 In the simulation, object clustering was performed on the dIRM and the known IRM using the relational data time series X generated according to the above procedure. In the IRM, after clustering with σ = 0.5 in the equation (13), the clustering result z i of the object index i in the IRM is regarded as the clustering z t, i of the object index i at each time t. .
シミュレーションでは、クラスタリングの評価尺度の一つである、rand indexを利用した定量的評価を行った。rand indexとは、あるデータに対して2つのクラスタリング結果が与えられた時、2つのクラスタリング結果の類似度を測る指標である。rand indexの最大値は1で、このとき2つのクラスタリング結果は完全に一致していることを表す。シミュレーションでは、観測データ生成時に利用した正しいクラスタリング結果と、各モデルでの推定結果から得られたクラスタリング結果とのrand indexを計算した。 In the simulation, quantitative evaluation using a rand index, which is one of evaluation scales for clustering, was performed. The rand index is an index that measures the degree of similarity between two clustering results when two clustering results are given to certain data. The maximum value of the rand index is 1, indicating that the two clustering results are completely coincident. In the simulation, a random index between the correct clustering result used at the time of observation data generation and the clustering result obtained from the estimation result of each model was calculated.
rand indexの計算結果を図7(a)および図7(b)に示す。図7(a)は、本実施形態のdIRMに対するrand indexの結果を示し、(b)は、公知のIRMに対するrand indexの結果を示している。図7(a)と図7(b)とを比較すると、dIRMの場合は、繰り返し回数を増加するにしたがってrand indexがほぼ1となった。それに対して、IRMの場合は、繰り返し回数を増加しても、rand indexが1になることは無かった。結論として、dIRMは、時間変化する関係データに対して、IRMに比較して、より良くモデル化できることが確認された。 FIG. 7A and FIG. 7B show the calculation results of the rand index. FIG. 7A shows the result of the rand index for the dIRM of this embodiment, and FIG. 7B shows the result of the rand index for the known IRM. Comparing FIG. 7A and FIG. 7B, in the case of dIRM, the rand index becomes almost 1 as the number of repetitions is increased. On the other hand, in the case of IRM, even if the number of repetitions was increased, the rand index did not become 1. In conclusion, it was confirmed that dIRM can be modeled better with respect to time-varying relational data compared to IRM.
以上、本実施形態のクラスタリング装置80によれば、公知のIRMを拡張して、クラスタの時間変化を表すパラメータπを導入し、所属クラスタzの推定方法も時間に従って考慮可能なように改造したことによって、クラスタの時間変化を推定することが可能となった。 As described above, according to the clustering apparatus 80 of the present embodiment, the publicly known IRM is expanded to introduce the parameter π representing the time change of the cluster, and has been modified so that the estimation method of the belonging cluster z can also be considered according to the time. This makes it possible to estimate the time change of the cluster.
なお、本実施形態は、これに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、図1のステップS104〜S107の演算の順番は、任意の順番で構わない。また、図2の所属クラスタ(z)推定部23、時間変化情報(π)推定部24、クラスタ間関連度(η)推定部25、混合比(β)推定部26の処理の順番は、任意の順番で構わない。 In addition, this embodiment is not limited to this, It can implement in the range which does not change the meaning. For example, the calculation order of steps S104 to S107 in FIG. 1 may be any order. Further, the order of processing of the belonging cluster (z) estimation unit 23, the time change information (π) estimation unit 24, the inter-cluster relevance (η) estimation unit 25, and the mixture ratio (β) estimation unit 26 in FIG. 2 is arbitrary. It doesn't matter in the order.
また、本実施形態において、クラスタリング装置80(図2参照)の各部23〜26の処理は、クラスタリング装置80をコンピュータで実現したときに搭載されるプログラムによって実現されてもよい。このプログラムは、通信回線を介して提供することもできるし、CD−ROM等のコンピュータ読み取り可能な記録媒体に書き込んで配布することも可能である。 In the present embodiment, the processing of the units 23 to 26 of the clustering device 80 (see FIG. 2) may be realized by a program installed when the clustering device 80 is realized by a computer. This program can be provided via a communication line, or can be distributed by writing in a computer-readable recording medium such as a CD-ROM.
10 入力装置
20 処理部
21 初期設定部
22 推定演算部
23 所属クラスタ(z)推定部
24 時間変化情報(π)推定部
25 クラスタ間関連度(η)推定部
26 混合比(β)推定部
28 終了判定部
30 記憶部
40 表示装置
80 クラスタリング装置
90 クラスタリングシステム
DESCRIPTION OF SYMBOLS 10 Input device 20 Processing part 21 Initial setting part 22 Estimation calculation part 23 Affiliation cluster (z) estimation part 24 Time change information ((pi)) estimation part 25 Inter-cluster relevance ((eta)) estimation part 26 Mixing ratio ((beta)) estimation part 28 End determination unit 30 Storage unit 40 Display device 80 Clustering device 90 Clustering system
Claims (7)
前記クラスタリング装置は、
前記関係データをクラスタリングする関数の一つである無限関係モデル(IRM、Infinite Relational Model)において算出される混合比βおよびクラスタkとクラスタlとの間の関係の強さを示すクラスタ間関連度ηk,lと、クラスタkとクラスタlとの間の関連の有無を示す関係データを所定の時間間隔で観測した関係データxt,k,l、時刻t−1においてクラスタkに所属していたオブジェクトが次の時刻tにどのクラスタに所属しやすいかを示す時間変化情報πt,k、および時刻tにおいてオブジェクトiが所属するクラスタを示す所属クラスタzt,iと、ハイパーパラメータα0,κと、クラスタ数Kとを記憶する記憶部と、
前記記憶部から前記所属クラスタzt,i、前記時間変化情報πt,k、前記混合比β、前記ハイパーパラメータα0,κ、および前記クラスタ数Kとを取得し、所定期間t=1〜Tにおいて、zt−1,i=kかつzt,i=lとなるオブジェクトの数をmt,k,lとしたとき、ディリクレ分布Dirichlet(α0β1+mt,k,l,…,α0βk+mt,k,k +κ,…,α0βK+mt,k,K,α0(1−ΣK k=1βk))からサンプリングして前記時間変化情報πt,kを算出し、当該算出した時間変化情報πt,kによって前記記憶部に記憶してある時間変化情報πt,kを更新し記憶する時間変化情報推定部と、
前記記憶部から前記所属クラスタzt,i、前記時間変化情報πt,k、前記クラスタ間関連度ηk,l、前記混合比β、所定期間t=1〜Tの前記関係データxt,k,l、および前記クラスタ数Kを取得し、取得した前記混合比β、前記時間変化情報πt,k、前記クラスタ間関連度ηk,l、前記関係データxt,k,l、およびクラスタ数Kを、式(1)、式(2)、式(3)、式(4)に適用して、式(1)からut,jをサンプリングし、メッセージ変数pt,i,kを式(3)で定義したとき、t=1からt=Tまで順番に式(2)を用いてメッセージ変数pt,i,kを算出し、当該算出したメッセージ変数pt,i,kに対して、t=Tからt=1まで順番に式(4)を用いてメッセージ変数pt,i,kを算出し、p(zt,i=k|zt−1,i=l)が0とならない場合の所属クラスタzt,iを算出し、当該算出した所属クラスタzt,iによって前記記憶部に記憶してある所属クラスタzt,iを更新し記憶する所属クラスタ推定部と、
前記クラスタ間関連度ηk,lを前記無限関係モデルによって算出し、前記記憶部に記憶するクラスタ間関連度推定部と、
前記混合比βを前記無限関係モデルによって算出し、前記記憶部に記憶する混合比推定部と、
前記混合比推定部、前記クラスタ間関連度推定部、前記時間変化情報推定部、および前記所属クラスタ推定部における演算を任意の順番で実行する過程を、所定の終了条件を満足するまで繰り返す終了判定部と、
を備えることを特徴とするクラスタリング装置。
The clustering apparatus includes:
The inter-cluster relation η indicating the mixture ratio β calculated in an infinite relational model (IRM) which is one of the functions for clustering the relational data and the strength of the relation between the cluster k and the cluster l k, l, and relation data x t, k, l , which is obtained by observing relation data indicating whether or not there is a relation between cluster k and cluster l at a predetermined time interval, belonged to cluster k at time t−1. Time change information π t, k indicating which cluster the object is likely to belong to at the next time t, belonging cluster z t, i indicating the cluster to which the object i belongs at time t, and hyper parameters α 0 , κ And a storage unit for storing the number K of clusters,
The assigned cluster z t, i , the time change information π t, k , the mixing ratio β, the hyper parameters α 0 , κ, and the number of clusters K are acquired from the storage unit, and a predetermined period t = 1 to 1 In T, when the number of objects with z t−1, i = k and z t, i = l is m t, k, l , the Dirichlet distribution Dirichlet (α 0 β 1 + m t, k, l , ... , α 0 β k + m t , k, k + κ, ..., α 0 β K + m t, k, K, α 0 (1-Σ K k = 1 β k)) said sampled from time change information [pi t , K, and the time change information estimation unit that updates and stores the time change information π t, k stored in the storage unit with the calculated time change information π t, k ,
From the storage unit, the belonging cluster z t, i , the time change information π t, k , the inter-cluster relevance η k, l , the mixing ratio β, and the relation data x t, for a predetermined period t = 1 to T k, l and the number of clusters K are acquired, the acquired mixing ratio β, the time change information π t, k , the inter-cluster relevance η k, l , the relationship data x t, k, l , and The number of clusters K is applied to Equation (1), Equation (2), Equation (3), and Equation (4), u t, j is sampled from Equation (1), and the message variable p t, i, k when defined in formula (3), t = message variables p t using equation (2) in order from 1 to t = T, i, calculates k, message variables p t where the calculated, i, k relative, calculated message variables p t, i, the k using equation (4) in order from t = T to t = 1 , P (z t, i = k | z t-1, i = l) in the case where does not become 0 cluster membership z t, calculates a i, the calculated cluster membership z t, stored in the storage unit by i An affiliated cluster estimation unit for updating and storing the affiliated cluster z t, i ,
An inter-cluster relevance estimation unit that calculates the inter-cluster relevance η k, l using the infinite relationship model and stores it in the storage unit;
The mixing ratio β calculated by the infinite relation model and stored in the storage unit; and
End determination that repeats the process of executing the operations in the mixture ratio estimation unit, the inter-cluster relevance estimation unit, the time change information estimation unit, and the belonging cluster estimation unit in an arbitrary order until a predetermined end condition is satisfied And
A clustering apparatus comprising:
さらに、ハイパーパラメータγ,ξ,Ψを記憶する前記記憶部を備え、
前記クラスタ間関連度推定部は、前記記憶部から前記所属クラスタzt,i、前記クラスタ間関連度ηk,l、前記ハイパーパラメータξ,Ψ、前記クラスタ数K、および所定期間t=1〜Tの前記関係データxt,k,lを取得して、zt,i=kかつzt,j=lとなる(t,i,j)の組の数をNk,lとし、当該Nk,lの中の前記関係データxt,k,lが関係有りを示す数をnk,lとしたとき、ベータ分布Beta(ξ+ηk,l,Ψ+Nk,l−nk,l)からサンプリングして前記クラスタ間関連度ηk,lを算出し、当該算出したクラスタ間関連度ηk,lによって前記記憶部に記憶してあるクラスタ間関連度ηk,lを更新し記憶し、
前記混合比推定部は、前記記憶部から前記所属クラスタzt,i、前記混合比β、および前記ハイパーパラメータγ,α0,κを取得し、取得した前記所属クラスタzt,i、前記混合比β、および前記ハイパーパラメータα0,κを、式(5)および式(6)に適用して、それぞれ補助変数Rt,k,lおよび補助変数Ot,kを算出し、前記算出した補助変数Rt,k,lおよび補助変数Ot,kを式(7)に適用して補助変数^Rt,k,lを算出し、ディリクレ分布Dirichlet(Σt,k^Rt,k,1,Σt,k^Rt,k,2,…,Σt,k^Rt,k,γ)からサンプリングして前記混合比βを算出し、当該算出した混合比βによって前記記憶部に記憶してある混合比βを更新し記憶する
ことを特徴とする請求項1に記載のクラスタリング装置。
Furthermore, the storage unit for storing hyperparameters γ, ξ, Ψ is provided,
The inter-cluster relevance estimation unit receives the belonging cluster z t, i , the inter-cluster relevance η k, l , the hyper parameters ξ, Ψ, the number of clusters K, and a predetermined period t = 1 to 1 from the storage unit. The relational data x t, k, l of T is acquired, and the number of sets of (t, i, j) where z t, i = k and z t, j = l is N k, l , when n k, the relationship data x t in l, k, the number indicating the presence l relationship n k, and l, beta distribution beta (ξ + η k, l , Ψ + n k, l -n k, l) The inter-cluster relevance η k, l is sampled from the data, and the inter-cluster relevance η k, l stored in the storage unit is updated and stored with the calculated inter-cluster relevance η k, l. ,
The mixture ratio estimation unit acquires the belonging cluster z t, i , the mixing ratio β, and the hyperparameters γ, α 0 , κ from the storage unit, and acquires the acquired cluster z t, i , the mixture The ratio β and the hyper parameters α 0 and κ are applied to the equations (5) and (6) to calculate auxiliary variables R t, k, l and auxiliary variables O t, k , respectively. The auxiliary variable R t, k, l and the auxiliary variable O t, k are applied to the equation (7) to calculate the auxiliary variable ^ R t, k, l and the Dirichlet distribution Dirichlet (Σ t, k ^ R t, k , 1 , Σt , k ^ Rt, k, 2 , ... , Σt , k ^ Rt, k, γ ) to calculate the mixing ratio β, and the storage by the calculated mixing ratio β The mixture ratio β stored in the unit is updated and stored. Clustering equipment.
前記終了判定部は、前記終了条件を満足した場合、前記混合比β、前記クラスタ間関連度ηk,l、前記時間変化情報πt,k、および前記所属クラスタzt,iのいずれか一つまたはいずれかの組み合わせを前記表示装置に出力する
ことを特徴とする請求項1または請求項2に記載のクラスタリング装置。 The clustering device is connected to a display device that displays a calculation result,
When the termination condition is satisfied, the termination determination unit is any one of the mixture ratio β, the inter-cluster relevance η k, l , the time change information π t, k , and the belonging cluster z t, i. The clustering apparatus according to claim 1, wherein one or any combination is output to the display device.
前記クラスタリング装置は、
前記関係データをクラスタリングする関数の一つである無限関係モデル(IRM、Infinite Relational Model)において算出される混合比βおよびクラスタkとクラスタlとの間の関係の強さを示すクラスタ間関連度ηk,lと、クラスタkとクラスタlとの間の関連の有無を示す関係データを所定の時間間隔で観測した関係データxt,k,l、時刻t−1においてクラスタkに所属していたオブジェクトが次の時刻tにどのクラスタに所属しやすいかを示す時間変化情報πt,k、および時刻tにおいてオブジェクトiが所属するクラスタを示す所属クラスタzt,iと、ハイパーパラメータα0,κと、クラスタ数Kとを記憶する記憶部と処理部とを備え、
前記処理部は、
前記記憶部から前記所属クラスタzt,i、前記時間変化情報πt,k、前記混合比β、前記ハイパーパラメータα0,κ、および前記クラスタ数Kとを取得し、所定期間t=1〜Tにおいて、zt−1,i=kかつzt,i=lとなるオブジェクトの数をmt,k,lとしたとき、ディリクレ分布Dirichlet(α0β1+mt,k,l,…,α0βk+mt,k,k +κ,…,α0βK+mt,k,K,α0(1−ΣK k=1βk))からサンプリングして前記時間変化情報πt,kを算出し、当該算出した時間変化情報πt,kによって前記記憶部に記憶してある時間変化情報πt,kを更新し記憶する時間変化情報推定ステップと、
前記記憶部から前記所属クラスタzt,i、前記時間変化情報πt,k、前記クラスタ間関連度ηk,l、前記混合比β、所定期間t=1〜Tの前記関係データxt,k,l、および前記クラスタ数Kを取得し、取得した前記混合比β、前記時間変化情報πt,k、前記クラスタ間関連度ηk,l、前記関係データxt,k,l、およびクラスタ数Kを、式(1)、式(2)、式(3)、式(4)に適用して、式(1)からut,jをサンプリングし、メッセージ変数pt,i,kを式(3)で定義したとき、t=1からt=Tまで順番に式(2)を用いてメッセージ変数pt,i,kを算出し、当該算出したメッセージ変数pt,i,kに対して、t=Tからt=1まで順番に式(4)を用いてメッセージ変数pt,i,kを算出し、p(zt,i=k|zt−1,i=l)が0とならない場合の所属クラスタzt,iを算出し、当該算出した所属クラスタzt,iによって前記記憶部に記憶してある所属クラスタzt,iを更新し記憶する所属クラスタ推定ステップと、
前記クラスタ間関連度ηk,lを前記無限関係モデルによって算出し、前記記憶部に記憶するクラスタ間関連度推定ステップと、
前記混合比βを前記無限関係モデルによって算出し、前記記憶部に記憶する混合比推定ステップと、
前記混合比推定ステップ、前記クラスタ間関連度推定ステップ、前記時間変化情報推定ステップ、および前記所属クラスタ推定ステップにおける演算を任意の順番で実行する過程を、所定の終了条件を満足するまで繰り返し演算させる終了判定ステップと、
を実行することを特徴とするクラスタリング方法。
The clustering apparatus includes:
The inter-cluster relation η indicating the mixture ratio β calculated in an infinite relational model (IRM) which is one of the functions for clustering the relational data and the strength of the relation between the cluster k and the cluster l k, l, and relation data x t, k, l , which is obtained by observing relation data indicating whether or not there is a relation between cluster k and cluster l at a predetermined time interval, belonged to cluster k at time t−1. Time change information π t, k indicating which cluster the object is likely to belong to at the next time t, belonging cluster z t, i indicating the cluster to which the object i belongs at time t, and hyper parameters α 0 , κ And a storage unit for storing the number K of clusters and a processing unit,
The processor is
The assigned cluster z t, i , the time change information π t, k , the mixing ratio β, the hyper parameters α 0 , κ, and the number of clusters K are acquired from the storage unit, and a predetermined period t = 1 to 1 In T, when the number of objects with z t−1, i = k and z t, i = l is m t, k, l , the Dirichlet distribution Dirichlet (α 0 β 1 + m t, k, l , ... , α 0 β k + m t , k, k + κ, ..., α 0 β K + m t, k, K, α 0 (1-Σ K k = 1 β k)) said sampled from time change information [pi t , K, and the time change information estimation step for updating and storing the time change information π t, k stored in the storage unit with the calculated time change information π t, k ,
From the storage unit, the belonging cluster z t, i , the time change information π t, k , the inter-cluster relevance η k, l , the mixing ratio β, and the relation data x t, for a predetermined period t = 1 to T k, l and the number of clusters K are acquired, the acquired mixing ratio β, the time change information π t, k , the inter-cluster relevance η k, l , the relationship data x t, k, l , and The number of clusters K is applied to Equation (1), Equation (2), Equation (3), and Equation (4), u t, j is sampled from Equation (1), and the message variable p t, i, k when defined in formula (3), t = message variables p t using equation (2) in order from 1 to t = T, i, calculates k, message variables p t where the calculated, i, k relative, calculated message variables p t, i, the k using equation (4) in order from t = T to t = 1 , P (z t, i = k | z t-1, i = l) in the case where does not become 0 cluster membership z t, calculates a i, the calculated cluster membership z t, stored in the storage unit by i An affiliated cluster estimation step of updating and storing the affiliated cluster z t, i ,
Calculating the inter-cluster relevance η k, l by the infinite relationship model and storing it in the storage unit;
Calculating the mixture ratio β by the infinite relation model and storing it in the storage unit; and
The process of executing the operations in the mixing ratio estimation step, the inter-cluster relevance estimation step, the time change information estimation step, and the belonging cluster estimation step in an arbitrary order is repeatedly performed until a predetermined end condition is satisfied. An end determination step;
The clustering method characterized by performing.
さらに、ハイパーパラメータγ,ξ,Ψを記憶する前記記憶部を備え、
前記処理部は、
前記クラスタ間関連度推定ステップにおいて、前記記憶部から前記所属クラスタzt,i、前記クラスタ間関連度ηk,l、前記ハイパーパラメータξ,Ψ、前記クラスタ数K、および所定期間t=1〜Tの前記関係データxt,k,lを取得して、zt,i=kかつzt,j=lとなる(t,i,j)の組の数をNk,lとし、当該Nk,lの中の前記関係データxt,k,lが関係有りを示す数をnk,lとしたとき、ベータ分布Beta(ξ+ηk,l,Ψ+Nk,l−nk,l)からサンプリングして前記クラスタ間関連度ηk,lを算出し、当該算出したクラスタ間関連度ηk,lによって前記記憶部に記憶してあるクラスタ間関連度ηk,lを更新し記憶し、
前記混合比推定ステップにおいて、前記記憶部から前記所属クラスタzt,i、前記混合比β、および前記ハイパーパラメータγ,α0,κを取得し、取得した前記所属クラスタzt,i、前記混合比β、および前記ハイパーパラメータα0,κを、式(5)および式(6)に適用して、それぞれ補助変数Rt,k,lおよび補助変数Ot,kを算出し、前記算出した補助変数Rt,k,lおよび補助変数Ot,kを式(7)に適用して補助変数^Rt,k,lを算出し、ディリクレ分布Dirichlet(Σt,k^Rt,k,1,Σt,k^Rt,k,2,…,Σt,k^Rt,k,γ)からサンプリングして前記混合比βを算出し、当該算出した混合比βによって前記記憶部に記憶してある混合比βを更新し記憶する
ことを特徴とする請求項4に記載のクラスタリング方法。
Furthermore, the storage unit for storing hyperparameters γ, ξ, Ψ is provided,
The processor is
In the inter-cluster relevance estimation step, the storage cluster z t, i , the inter-cluster relevance η k, l , the hyper parameters ξ, Ψ, the number of clusters K, and a predetermined period t = 1 to The relational data x t, k, l of T is acquired, and the number of sets of (t, i, j) where z t, i = k and z t, j = l is N k, l , when n k, the relationship data x t in l, k, the number indicating the presence l relationship n k, and l, beta distribution beta (ξ + η k, l , Ψ + n k, l -n k, l) The inter-cluster relevance η k, l is sampled from the data, and the inter-cluster relevance η k, l stored in the storage unit is updated and stored with the calculated inter-cluster relevance η k, l. ,
In the mixing ratio estimation step, the belonging cluster z t, i , the mixing ratio β, and the hyperparameters γ, α 0 , κ are acquired from the storage unit, and the acquired belonging cluster z t, i , the mixing The ratio β and the hyper parameters α 0 and κ are applied to the equations (5) and (6) to calculate auxiliary variables R t, k, l and auxiliary variables O t, k , respectively. The auxiliary variable R t, k, l and the auxiliary variable O t, k are applied to the equation (7) to calculate the auxiliary variable ^ R t, k, l and the Dirichlet distribution Dirichlet (Σ t, k ^ R t, k , 1 , Σt , k ^ Rt, k, 2 , ... , Σt , k ^ Rt, k, γ ) to calculate the mixing ratio β, and the storage by the calculated mixing ratio β The mixture ratio β stored in the unit is updated and stored. The clustering method according to claim 4.
前記処理部は、
前記終了条件を満足した場合、前記混合比β、前記クラスタ間関連度ηk,l、前記時間変化情報πt,k、および前記所属クラスタzt,iのいずれか一つまたはいずれかの組み合わせを前記表示装置に出力する
ことを特徴とする請求項4または請求項5に記載のクラスタリング方法。 The clustering device is connected to a display device that displays a calculation result,
The processor is
When the termination condition is satisfied, any one or any combination of the mixing ratio β, the intercluster relevance η k, l , the time change information π t, k , and the assigned cluster z t, i The clustering method according to claim 4, wherein: is output to the display device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009195882A JP5281990B2 (en) | 2009-08-26 | 2009-08-26 | Clustering apparatus, clustering method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009195882A JP5281990B2 (en) | 2009-08-26 | 2009-08-26 | Clustering apparatus, clustering method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011048583A JP2011048583A (en) | 2011-03-10 |
JP5281990B2 true JP5281990B2 (en) | 2013-09-04 |
Family
ID=43834842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009195882A Active JP5281990B2 (en) | 2009-08-26 | 2009-08-26 | Clustering apparatus, clustering method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5281990B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5591772B2 (en) * | 2011-08-25 | 2014-09-17 | 日本電信電話株式会社 | Context-dependent estimation device, utterance clustering device, method, and program |
JP5851205B2 (en) * | 2011-11-01 | 2016-02-03 | 日本電信電話株式会社 | Clustering apparatus, method, and program |
JP6358051B2 (en) * | 2014-11-14 | 2018-07-18 | 株式会社デンソー | Transition prediction data generation device and transition prediction device |
JP6737768B2 (en) | 2017-12-18 | 2020-08-12 | ファナック株式会社 | Data collection device |
JP7006403B2 (en) * | 2018-03-14 | 2022-01-24 | 富士通株式会社 | Clustering program, clustering method and clustering device |
CN109784665A (en) * | 2018-12-20 | 2019-05-21 | 国网北京市电力公司 | The determination method and device of electrical demand, storage medium, electronic device |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3673859B2 (en) * | 2002-05-02 | 2005-07-20 | 国立大学法人 東京大学 | Web page group development process presentation system |
JP4934058B2 (en) * | 2008-01-09 | 2012-05-16 | 日本電信電話株式会社 | Co-clustering apparatus, co-clustering method, co-clustering program, and recording medium recording the program |
-
2009
- 2009-08-26 JP JP2009195882A patent/JP5281990B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011048583A (en) | 2011-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Andradóttir | An overview of simulation optimization via random search | |
Schliep et al. | Analyzing gene expression time-courses | |
JP5281990B2 (en) | Clustering apparatus, clustering method, and program | |
Wager | Asymptotic theory for random forests | |
Lähdesmäki et al. | Learning the structure of dynamic Bayesian networks from time series and steady state measurements | |
Tavaré | The linear birth‒death process: an inferential retrospective | |
Song et al. | Bayesian analysis of two‐level nonlinear structural equation models with continuous and polytomous data | |
Valera et al. | Infinite factorial unbounded-state hidden Markov model | |
Lin et al. | Exploring generative neural temporal point process | |
Sugasawa | Grouped heterogeneous mixture modeling for clustered data | |
Ling et al. | An intelligent sampling framework for multi-objective optimization in high dimensional design space | |
Vengatesan et al. | Improved T-Cluster based scheme for combination gene scale expression data | |
CN116304205A (en) | Propagation network structure reconstruction method, device, equipment and storage medium | |
Scutari et al. | Introduction to graphical modelling | |
Kong et al. | Nimblelearn: A scalable and fast batch-mode active learning approach | |
Linzner et al. | Scalable structure learning of continuous-time Bayesian networks from incomplete data | |
Purwani et al. | Using Simple Fixed-Point Iterations to Estimate Generalized Pareto Distribution Parameters | |
Taşdemir et al. | A particle-based approach for topology estimation of gene networks | |
Xing-Chen et al. | Research on structure learning of dynamic Bayesian networks by particle swarm optimization | |
Turnbull et al. | Latent space representations of Hypergraphs | |
Pirenne et al. | Parametric programming-based approximate selective inference for adaptive lasso, adaptive elastic net and group lasso | |
da Silva et al. | Clustering distributed short time series with dense patterns | |
Kupresanin et al. | Comparison of sequential designs of computer experiments in high dimensions | |
Striebel | Towards a Systematic Evaluation of Generative Network Models | |
Kumar et al. | Surrogate model-driven bio-inspired optimization algorithms for large-scale and high-dimensional problems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110822 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130201 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130405 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130527 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5281990 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |