[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2017219929A - 生成装置、生成方法、及び生成プログラム - Google Patents

生成装置、生成方法、及び生成プログラム Download PDF

Info

Publication number
JP2017219929A
JP2017219929A JP2016112022A JP2016112022A JP2017219929A JP 2017219929 A JP2017219929 A JP 2017219929A JP 2016112022 A JP2016112022 A JP 2016112022A JP 2016112022 A JP2016112022 A JP 2016112022A JP 2017219929 A JP2017219929 A JP 2017219929A
Authority
JP
Japan
Prior art keywords
nodes
information
classification
generation
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016112022A
Other languages
English (en)
Other versions
JP6338618B2 (ja
Inventor
英行 前田
Hideyuki Maeda
英行 前田
アヌプ ナイク
Anup Naik
アヌプ ナイク
ヴィボル カノジア
Zia Viboru Kano
ヴィボル カノジア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016112022A priority Critical patent/JP6338618B2/ja
Publication of JP2017219929A publication Critical patent/JP2017219929A/ja
Application granted granted Critical
Publication of JP6338618B2 publication Critical patent/JP6338618B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】グラフに含まれるノードを適切に分類する分類情報を生成すること。
【解決手段】本願に係る生成装置は、取得部と、第1生成部と、第2生成部とを有する。取得部は、ネットワーク上における主体の各々に対応する複数のノードと、所定の対応関係を有するノード間を連結するエッジとを含むグラフ情報を取得する。第1生成部は、取得部により取得された前記グラフ情報における複数のノード間のエッジの連結に基づいてノードを分類する第1分類情報を生成する。第2生成部は、第1生成部により生成された第1分類情報と、所定の対応関係に関する分類とに基づいて、ノードを分類する第2分類情報を生成する。
【選択図】図4

Description

本発明は、生成装置、生成方法、及び生成プログラムに関する。
現在、リアルタイムの情報共有サービスが多く利用されている。また、従来、ネットワーク上における主体(ユーザ)の相関関係を示すグラフ(ソーシャルグラフ)におけるノード間のエッジ(連結)の有無に基づいて、分類(以下、「クラスタ」ともいう)を行う技術が提供されている。例えば、グラフ中のあるノードおよびそのノードに接続したノードの集合に基づいて、クラスタ構造を抽出する技術が提供されている。また、例えば、グラフ中のあるノードに接続したノードの集合と他のノードに接続したノードの集合とにおいて共通するノードの数に基づいて、分類する技術が提供されている。
特開2015−156163号公報
Xiaowei Xu, Nurcan Yuruk, Zhidan Feng, Thomas A. J. Schweiger, "SCAN: A Structural Clustering Algorithm for Networks," SIGKDD’07, August 12-15, 2007, San Jose, CA, US. H. Shiokawa, Y. Fujiwara, and M. Onizuka, "Scan++: effecient algorithm for finding clusters, hubs and outliers on large-scale graphs," Proceedings of the VLDB Endowment, vol. 8, no. 11, pp. 1178-1189, 2015. M. E. Newman and M. Girvan, "Finding and evaluating community structure in networks," Physical review E, vol. 69, no. 2, p. 026113, 2004. L. Page, S. Brin, R. Motwani, and T. Winograd, "The pagerank citation ranking: bringing order to the web."1999.
しかしながら、上記の従来技術では、グラフに含まれるノードを適切に分類することができるとは限らない。例えば、グラフにおけるノード間の構造的な関係に基づくのみでは、グラフに含まれるノードを適切に分類することができるとは限らない。具体的には、あるノードに接続したノードの集合と他のノードに接続したノードの集合とにおいて共通するノードの数に基づいて分類するだけでは、グラフに含まれるノードを適切に分類することが難しい場合がある。
本願は、上記に鑑みてなされたものであって、グラフに含まれるノードを適切に分類する分類情報を生成する生成装置、生成方法、及び生成プログラムを提供することを目的とする。
本願に係る生成装置は、ネットワーク上における主体の各々に対応する複数のノードと、所定の対応関係を有するノード間を連結するエッジとを含むグラフ情報を取得する取得部と、前記取得部により取得された前記グラフ情報における前記複数のノード間のエッジの連結に基づいてノードを分類する第1分類情報を生成する第1生成部と、前記第1生成部により生成された第1分類情報と、前記所定の対応関係に関する分類とに基づいて、ノードを分類する第2分類情報を生成する第2生成部と、を備えたことを特徴とする。
実施形態の一態様によれば、グラフに含まれるノードを適切に分類する分類情報を生成することができるという効果を奏する。
図1は、実施形態に係る生成処理の一例を示す図である。 図2は、実施形態に係る生成処理の一例を示す図である。 図3は、実施形態に係る生成処理の一例を示す図である。 図4は、実施形態に係る生成装置の構成例を示す図である。 図5は、実施形態に係る通信回数情報記憶部の一例を示す図である。 図6は、実施形態に係る通信内容情報記憶部の一例を示す図である。 図7は、実施形態に係るトピック記憶部の一例を示す図である。 図8は、実施形態に係るスコア情報記憶部の一例を示す図である。 図9は、実施形態に係る生成処理手順を示すフローチャートである。 図10は、実施形態に係る第1クラスタリングの処理手順を示すフローチャートである。 図11は、実施形態に係る第2クラスタリングの処理手順を示すフローチャートである。 図12は、実施形態に係る第3クラスタリングの処理手順を示すフローチャートである。 図13は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る生成装置、生成方法、及び生成プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法、及び生成プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
(実施形態)
〔1−1.生成処理(第1クラスタリング)〕
図1〜図3では、ソーシャルネットワーキングサービス(以下、「SNS」と記載する場合がある)におけるユーザ間の情報通信に基づくグラフ(ソーシャルグラフ)に関する情報(以下、「グラフ情報」ともいう)を対象に分類する場合を示す。なお、グラフ情報の取得元となるSNSは、どのようなソーシャルネットワーキングサービスであってもよく、例えば、Twitter(登録商標)やFacebook(登録商標)等、どのようなサービスであってもよい。また、以下では、ノードを分類することをクラスタリングと称する場合がある。
まず、図1を用いて、実施形態に係る生成処理の一例について説明する。図1は、実施形態に係る生成処理の一例を示す図である。図1では、生成装置100(図4参照)が、所定のSNSにおけるグラフ情報を用いて、グラフに含まれるノード(ユーザ)をグラフ構造に基づいて分類する。具体的には、図1は、生成装置100が、第1クラスタリングの処理により第1分類情報を生成する場合を示す。
図1に示すように、生成装置100は、所定のSNSにおけるグラフ情報G11を取得する。グラフ情報G11は、ネットワーク上における主体(ユーザ)の各々に対応する複数のノードと、ネットワーク上における情報通信に関する対応関係を有するノード間を連結するエッジとを含むグラフ情報である。すなわち、ノードは、ネットワーク上における主体(ユーザ)と読み替えてもよい。また、ここでいう対応関係は、SNSにおけるあるノードから他のノードへの投稿であってもよい。また、以下でいう通信回数は、SNSにおけるあるノードから他のノードへの投稿回数や、あるノードと他のノードとの間の投稿回数であってもよい。すなわち、通信回数は、投稿回数と読み替えてもよい。
例えば、グラフ情報G11は、通信一覧表IN11に示すような通信回数に関する情報のうち、各ノードが交差する領域に1以上の数値が割り当てられたノード間をエッジで連結する。以下、通信一覧表IN11に示す通信回数に関する情報等の通信に関する情報を通信情報とする場合がある。例えば、通信一覧表IN11において、ノードN1の行と、ノードN2の列が交差する領域には、「5」が割り当てられる。そのため、グラフ情報G11では、ノードN1のユーザ、ノードN2のユーザとは、ネットワーク上における通信を行ったユーザ同士であるとして、ノードN1とノードN2は、エッジで連結される。なお、生成装置100は、通信一覧表IN11に示す通信情報からグラフ情報G11を生成してもよい。
ここで、通信一覧表IN11について説明する。例えば、通信一覧表IN11は、図5に示す通信回数情報記憶部121に対応する。例えば、通信一覧表IN11における行に示すノードは、情報の送信元となるノードに対応する。また、例えば、通信一覧表IN11における列に示すノードは、情報の送信先となるノードに対応する。なお、図1〜図3に示す例において、説明を簡単にするために25個のノードN1〜N25のみを図示するが、ノード数は、広く用いられているSNSのユーザ数のように多数(例えば100万ユーザや1000万ユーザ等)であってもよい。
通信一覧表IN11において、縦の行に示すノードN1〜N4等と、横の列に示すノードN1〜N4との各々が交差する領域の数値は、縦の行に示すノードから横の列に示すノードへ情報通信を行った回数を示す。例えば、縦の行のノードN2と横の列のノードN1とが交差する領域の数値「10」は、ノードN2のユーザがノードN1のユーザに対して情報を10回送信したことを示す。また、例えば、縦の行のノードN1と横の列のノードN2とが交差する領域の数値「5」は、ノードN1のユーザがノードN2のユーザに対して情報を5回送信したことを示す。このように、図1に示す例では、通信一覧表IN11には、情報の送信元と送信先を区別して各ノード間の通信情報が割り当てられる。なお、送信元から送信先への情報通信は、SNSに応じてどのような内容であってもよい。例えば、送信元から送信先への情報通信は、送信元から送信先へのメールの送信であってもよいし、送信元から送信先のタイムラインへの情報投稿であってもよいし、送信元から送信先へのリツイート等種々の内容であってもよい。また、情報通信の方向を考慮しない場合、通信一覧表IN11には、交差する領域には同じ数値が割り当てられてもよいし、片方の領域にのみ数値が割り当てられてもよい。
また、図1に示す例においては、グラフ情報G11は、2つのノード間における通信回数が1回以上であるノード間をエッジで連結した場合を示す。図1の例では、いずれのノードが送信元であるかを問わず1回以上通信回数がある2つのノード間をエッジで連結した場合を示す。なお、グラフ情報G11は、2つのノード間の通信回数が所定の閾値以上である場合、2つのノード間をエッジで連結したグラフ情報であってもよい。
ここで、生成装置100は、グラフ情報G11における複数のノード間のエッジの連結に基づいてノードを分類する第1分類情報G12を生成する(ステップS11)。具体的には、生成装置100は、ノード間の構造的類似度に基づいて、第1分類情報G12を生成する。なお、図1に示す例では、第1分類情報G12にグラフ情報G11が含まれる場合を示すが、第1分類情報G12は、第1クラスタリングの結果を示す情報であれば、どのような情報であってもよい。例えば、第1分類情報G12は、各第1分類D11〜D15の各々に含まれるノードを示す情報が含まれれば、どのような情報であってもよい。
ここで、第1クラスタリングにおいては、生成装置100は、例えば、クラスタリング手法SCAN(非特許文献1参照)を用いてもよい。なお、生成装置100は、クラスタリング手法SCANに限らず、グラフ中のノードを構造的な類似度に基づいてクラスタリングを行う手法であれば、どのような手法を用いてもよい。例えば、クラスタリング手法SCAN++(非特許文献2参照)や他のクラスタリング手法(非特許文献3参照)等、種々の手法を適宜用いてもよい。
以下では、グラフ情報は、「G=(V,E)」で示される。ここで、「G」は、グラフ情報に対応し、「V」はグラフ情報に含まれるノードを示し、「E」はグラフ情報に含まれるエッジを示す。例えば、「|V|」はグラフ情報に含まれるノードの数を示し、「|E|」はグラフ情報に含まれるエッジの数を示す。また、例えば、生成装置100は、クラスタリング手法SCANを用いる場合、以下の式(1)を用いて各ノード間の構造的類似度を算出する。
Figure 2017219929
上記式(1)において、「u」及び「v」は、類似度を算出する対象となるノードを示し、σ(u,v)は、ノードu、v間の構造的類似度を示す。|Γ(v)|は、ノードvの隣接ノードの数を示し、以下の式(2)により算出される。
Figure 2017219929
上記式(2)において、「v∈V」とするとき、ノードvの隣接ノード集合はノードvとエッジで接続されるノードとノードv自身が含まれる。すなわち、上記式(2)の左辺「Γ(v)」は、ノードvの隣接ノード集合を示す。
上記式(1)の右辺の分母は、ノードuの隣接ノードの数とノードvの隣接ノードの数とを乗算して、ルート(平方根)をとった値に対応する。また、上記式(1)の右辺の分子は、ノードuの隣接ノード集合とノードvの隣接ノード集合との間に共通して含まれるノードの数(値)に対応する。
また、上記式(1)及び(2)により、ノードu、v間の構造的類似度を示すσ(u,v)は、ノードu、v間に共通の隣接ノードがない場合に「0」となる。また、σ(u,v)は、ノードuの隣接ノードと、ノードvの隣接ノードとが互いに全て共有する場合に「1」となる。すなわち、σ(u,v)は、0〜1の値となる。
生成装置100は、上記式(1)により算出されるノード間の構造的類似度σに基づいて、グラフ情報G11中のノードにおけるコアノードを抽出する。例えば、生成装置100は、以下の式(3)及び式(4)を用いて、コアノードを抽出する。また、生成装置100は、コアノードを抽出する際に、以下の2つのパラメータ「ε」、「μ」を用いる。
Figure 2017219929
Figure 2017219929
(パラメータ1) 「ε」:クラスタを構成するための構造的類似度の閾値
(パラメータ2) 「μ」:クラスタに含まれる最小ノード数
上記式(3)の左辺「Nε[u]」は、ノードuの間の構造的類似度σが閾値「ε」以上であるノードの集合に対応する。以下では、「Nε[u]」をノードuのε隣接ノードと称する場合がある。また、上記式(4)の左辺「|Nε[u]|」は、ノードuのε隣接ノードの数を示す。そして、上記式(4)の右辺「μ」は、クラスタを構成するための構造的類似度の閾値に対応する。すなわち、生成装置100は、上記式(4)を満たすノードをコアノードとして、第1クラスタリングを行う。例えば、生成装置100は、クラスタリング手法SCAN(非特許文献1参照)により、グラフ情報G11中のノードN1〜N25を構造的に分類する。
上述した処理により、生成装置100は、第1分類D11にノードN1、N2、N3が含まれることや、第1分類D12にノードN6、N7、N8、N9が含まれること等を示す第1分類情報G12を生成する。例えば、生成装置100は、上記2つのパラメータ「ε」、「μ」を適宜設定することにより適切なコアノードを抽出し、第1クラスタリングを行う。また、図1では、生成装置100は、ノードN4、N12、N17等をハブ(以下、「ハブノード」ともいう)として抽出する。例えば、ハブノードは、グラフ構造において、複数のクラスタ(分類)間を連結するノードであり、周辺のクラスタに影響力のあるノードとされる場合がある。例えば、ノードN12は、第1分類D11(ノードN3)と第1分類D13(ノードN13)とを連結するハブノードである。また、生成装置100は、ノードN5、N10、N11、N25等をアウトライアー(以下、「外れノード」ともいう)として抽出する。例えば、外れノードは、ノイズとして扱われる場合がある。
なお、生成装置100は、上記に限らず、種々の手法を適宜用いて、構造的にグラフ中のノードをクラスタリング(分類)する第1分類情報を生成してもよい。例えば、生成装置100は、ノード間の通信回数に基づく重みを用いて、ノード間の構造的類似度を算出してもよい。例えば、生成装置100は、以下の式(5)を用いて各ノード間の構造的類似度を算出してもよい。
Figure 2017219929
上記式(5)において、「u」及び「v」は、類似度を算出する対象となるノードを示し、σ(u,v)は、ノードu、v間の通信回数に基づく重みを用いた構造的類似度を示す。ω(u,v)は、ノードu、v間の通信回数を示す。例えば、図1に示す例において、ノードuをノードN1とし、ノードvをノードN2とした場合、ω(N1,N2)は、ノードN1からノードN2への通信回数「5」と、ノードN2からノードN1への通信回数「10」とを合計した通信回数「15」であってもよい。なお、上記式(5)において分母を「ω(u,v)+1」とすることにより、通信回数が多い程、重みが大きくなり、通信回数が多くなる程、通信回数が少ない場合に比べて、二つの値はほとんど近似することになる。例えば、通信回数が「1000」と「1001」とを比較する場合、通信回数が「1」と「2」とを比較する場合に比べて、二つの値はほとんど近似することになる。
〔1−2.生成処理(第2クラスタリング)〕
次に、図2を用いて、実施形態に係る生成処理の一例について説明する。図2は、実施形態に係る生成処理の一例を示す図である。図2では、生成装置100が、第1分類情報G12を用いて、第1分類D11〜D15等を通信内容に基づいて分類する。具体的には、図2は、生成装置100が第2クラスタリングの処理により第2分類情報を生成する場合を示す。
生成装置100は、第1分類情報G12と、通信内容に関する分類とに基づいて、ノードを分類する第2分類情報G13を生成する(ステップS12)。具体的には、生成装置100は、通信内容に関するトピックの類似性に基づいて、第1分類D11〜D15等を分類する第2分類情報G13を生成する。なお、図2に示す例では、第2分類情報G13にグラフ情報G11が含まれる場合を示すが、第2分類情報G13は、第2クラスタリングの結果を示す情報であれば、どのような情報であってもよい。例えば、第2分類情報G13は、各第2分類C11、C12等の各々に含まれるノードを示す情報が含まれれば、どのような情報であってもよい。
例えば、生成装置100は、各第1分類D11〜D15に含まれるノード間の通信における情報の内容を解析することにより、各第1分類D11〜D15に含まれるノード間での通信内容のトピックを推定(抽出)してもよい。例えば、生成装置100は、第1分類D11に含まれるノードN1、N2、N3との間で通信される文字情報や画像情報等に基づいて、第1分類D11内における通信のトピックを抽出してもよい。なお、生成装置100は、トピック分析(解析)等の種々の従来手法を適宜用いて、各第1分類D11〜D15に含まれるノード間での通信内容からトピックを抽出してもよい。例えば、生成装置100は、各第1分類D11〜D15に含まれるノード間で通信される文字情報を形態素解析等の自然言語処理技術を適宜用いて解析することにより、その文字情報から重要なキーワードを対応する第1分類におけるトピックとして抽出してもよい。
また、生成装置100は、各第1分類D11〜D15における通信内容に関するコサイン類似度に基づいて、第1分類D11〜D15等を分類する第2分類情報G13を生成してもよい。例えば、生成装置100は、各第1分類D11〜D15におけるトピック間のコサイン類似度に基づいて、第1分類D11〜D15等を分類する第2分類情報G13を生成する。例えば、生成装置100は、ある第1分類と他の第1分類とのコサイン類似度が所定の閾値以上である場合、ある第1分類と他の第1分類とを同じクラスタ(第2分類)としてもよい。
なお、所定のSNSがTwitter(登録商標)である場合、生成装置100は、ハッシュタグの類似性に基づいて、第2分類情報G13を生成してもよい。例えば、生成装置100は、各第1分類D11〜D15に含まれるノード間の通信において用いられたハッシュタグのうち、最も頻度の高いハッシュタグに関するトピックの類似性に基づいて、第1分類D11〜D15等を分類することにより、第2分類情報G13を生成してもよい。例えば、生成装置100は、各第1分類D11〜D15に含まれるノード間の通信において用いられたハッシュタグのうち、最も頻度の高いハッシュタグに関するトピックの類似性に基づいて、第1分類D11〜D15等を分類することにより、第2分類情報G13を生成してもよい。
また、例えば、生成装置100は、各第1分類D11〜D15に含まれるノード間の通信において用いられたハッシュタグをトピックとし、その分布の類似性に基づいて、第1分類D11〜D15等を分類することにより、第2分類情報G13を生成してもよい。例えば、生成装置100は、各第1分類D11〜D15に含まれるノード間の通信において用いられたハッシュタグ(トピック)の回数に基づく割合の類似性に基づいて、第1分類D11〜D15等を分類することにより、第2分類情報G13を生成してもよい。例えば、図2の例の場合、第1分類D11に含まれるノード間の通信においては、トピックAのスコアが「0.8」であり、トピックCのスコアが「0.5」であるため、トピックAがハッシュタグとして用いられた回数が、トピックCがハッシュタグとして用いられた回数よりも多いことを示す。すなわち、図2の例の場合、トピックAがトピックCよりも、第1分類D11に含まれるノード間の通信の内容が反映されたトピックであることを示す。また、例えば、図2の例の場合、第1分類D11に含まれるノード間の通信においては、トピックBのスコアが「0」であるため、トピックBがハッシュタグとして用いられていないことを示す。例えば、生成装置100の通信内容情報記憶部122(図5参照)に記憶された通信内容情報から抽出されたトピックAは「歌手A」であってもよく、通信内容情報記憶部122に記憶された通信内容情報から抽出されたトピックBは「グループB」であってもよい。
ここで、図2に示す例では、トピック一覧IN12に示すように、各第1分類D11〜D15に含まれるノード間の通信におけるトピックをスコアとして算出した場合を示す。例えば、トピック一覧IN12は、図7に示すトピック記憶部123に対応する。例えば、スコアが大きいトピック程、対応する第1分類に含まれるノード間で通信された情報の内容に関する通信が多いことを示すものとする。例えば、トピック一覧IN12では、クラスタD12(第1分類D12)に含まれるノード間では、トピックBのスコアが最大の値「1.1」であり、第1分類D12ではトピックBの内容に関する通信が多いことを示す。また、例えば、トピック一覧IN12では、クラスタD14(第1分類D14)に含まれるノード間では、トピックBのスコアが最大の値「0.8」であり、第1分類D14ではトピックBの内容に関する通信が多いことを示す。そのため、生成装置100は、第1分類D12及び第1分類D14を、同じ第2分類C12に分類する。
上述した処理により、生成装置100は、第2分類C11に第1分類D11、D13が含まれることや、第2分類C12に第1分類D12、D14、D15が含まれること等を示す第2分類情報G13を生成する。なお、生成装置100は、上記に限らず、種々の手法を適宜用いて、通信の内容に基づいてグラフ中のノードをクラスタリング(分類)する第2分類情報を生成してもよい。
〔1−3.生成処理(第3クラスタリング)〕
次に、図3を用いて、実施形態に係る生成処理の一例について説明する。図3は、実施形態に係る生成処理の一例を示す図である。図2では、生成装置100が、第2分類情報G13を用いて、ノードN1〜N25等を分類する。具体的には、図3は、生成装置100が第3クラスタリングの処理により第3分類情報を生成する場合を示す。
生成装置100は、第2分類情報G13と、ノード間のエッジ(接続関係)を示す情報(例えばグラフ情報G11)とにより算出されるスコアに基づいて、ノードを分類する第3分類情報G14を生成する(ステップS13)。例えば、第3クラスタリングにおいては、生成装置100は、例えば、ページランク(非特許文献3参照)に関する技術を用いてもよい。なお、生成装置100は、第3クラスタリングにおいては、ページランク(非特許文献3参照)に限らず、種々の手法を適宜用いてもよい。例えば、生成装置100は、以下の式(6)〜(8)を用いて、第2分類ごとに各ノードのスコアを算出する。
Figure 2017219929
上記式(6)における左辺「Pi,j」は、行列Pにおける各要素に対応する。例えば、行列Pはグラフ情報G11におけるノード数が「m(=|V|)」である場合、m行m列の行列であってもよい。すなわち、上記式(6)は、行列P(例えば、下記の式(8)中の行列「P」)における各要素の値を算出するために用いられる。例えば、上記式(6)における左辺「Pi,j」は、下記の式(8)中の行列「P」中のi行j列の要素であってもよい。
また、右辺「Ai,j」は、行列Aにおける各要素に対応する。ここで、行列Aは、各行と列に対応するノード間での通信回数を示す。例えば、行列Aはグラフ情報G11におけるノード数が「m(=|V|)」である場合、m行m列の行列であってもよい。例えば、行列Aにおける各行は、送信元となるノードに対応し、行列Aにおける各列は、通信先となるノードに対応してもよい。
例えば、図1に示す例において、ノードN1が行列Aのi行に対応し、ノードN2が行列Aのj列に対応する場合、「Ai,j」の値は、ノードN1からノードN2への通信回数「5」であってもよい。また、例えば、図1に示す例において、ノードN2が行列Aのi行に対応し、ノードN1が行列Aのj列に対応する場合、「Ai,j」の値は、ノードN2からノードN1への通信回数「10」であってもよい。
また、右辺中の分母「Σi,j」は、行列Aのi行に対応するノードから他のノードへの通信回数を合計した値であってもよい。この場合、上記式(6)における左辺「Pi,j」は、行列Aのi行に対応するノードを送信元とする全通信回数に対する、行列Aのi行に対応するノードを送信元とし、j列に対応するノードを送信先とする通信回数の割合を示す。
Figure 2017219929
上記式(7)における「S」は、ノード集合Vの部分集合であり、シードノード(ユーザ)の集合を示す。また、上記式(7)における左辺「s」は、ノード数が「m(=|V|)」である場合、m次元のベクトルのi列目の要素であってもよい。また、上記式(7)における左辺「s」は、下記の式(8)中の行列「s」のi列目の要素であってもよい。例えば、「s」に対応するノード「V」が、部分集合Sに含まれる場合、「s」の値は、「1」を部分集合Sの数で除した値「1/|S|」となる。また、例えば、「s」に対応するノード「V」が、部分集合Sに含まれない場合、「s」の値は、「0」となる。
Figure 2017219929
例えば、上記式(8)中の左辺「m(t)」は、時刻tにおける各ノードのスコア(確率値)に対応する。例えば、上記式(8)中の左辺「m(t)」は、ある第2分類に含まれるノードをシードノードとした場合における、時刻tにおける各ノードのスコア(確率値)に対応する。
また、「α」は0〜1の値を取る確率値に対応する。例えば、生成装置100は、上記式(8)が収束するまで計算を繰り返す。例えば、生成装置100は、所定の値を超えた全時刻tに対して「m(t)=m(t−1)」となるまで計算を繰り返す。
図3の例においては、生成装置100は、上記式(6)〜(8)を用いて、各第2分類C11、C12等における各ノードのスコアを算出する。このように算出された各第2分類に対応する各ノードのスコアは、グラフ内のノードをランダムウォークした場合における、各ノードに位置する確率を示す。すなわち、各第2分類に対応する各ノードのスコアが高い程、グラフ内のノードをランダムウォークした場合において、そのノードに位置する確率が高いことを示す。そのため、例えば、各第2分類に対応する各ノードのスコアは、その第2分類における各ユーザの重要度を示す指標となる。例えば、各第2分類に対応する各ノードのスコアが大きい程、そのユーザは第2分類において重要なユーザとなる。
ここで、図3に示す例では、スコア一覧IN13に示すように、各第2分類C11、C12等の各々における各ノードN1〜N25等のスコアを算出した場合を示す。例えば、スコア一覧IN13は、図8に示すスコア情報記憶部124に対応する。また、スコア一覧IN13は、各第2分類C11、C12等の各々において、各ノードをスコアが高い方から順にランキングした状態を示す。そして、生成装置100は、各第2分類C11、C12等の各々において、順位が高いほうから所定数のノードを各第2分類C11、C12に分類するノードとする。例えば、生成装置100は、各第2分類C11、C12等の各々において、順位が高いほうから100個のノードを各第2分類C11、C12に分類するノードとしてもよい。
図3に示す例において、生成装置100は、各第2分類C11に対応する順位が高いノードN13、N2、N12、N1等を第2分類C11に分類するノードとする。このように、第3クラスタリングにおいて、第2クラスタリングでは第2分類C11に含まれていなかったノードN12(ハブノードN12)が第2分類C11に分類される。
図3に示す例において、生成装置100は、各第2分類C12に対応する順位が高いノードN19、N7、N17、N11等を第2分類C12に分類するノードとする。このように、第3クラスタリングにおいて、第2クラスタリングでは第2分類C12に含まれていなかったノードN17(ハブノードN17)やノードN11(外れノードN11)が第2分類C12に分類される。なお、各ノードは、第3クラスタリング後において、複数の第2分類C11、C12等に含まれてもよい。例えば、図3に示す例において、ノードN4は、2つの第2分類C11、C12の両方に分類されてもよい。
このように、生成装置100は、第2分類C11にノードN13、N2、N12、N1等が含まれることや、第2分類C12にノードN19、N7、N17、N11が含まれること等を示す第3分類情報G14を生成する。これにより、生成装置100は、グラフにおけるノード間の接続構造およびノード間において通信された情報の内容の両方に基づいて、グラフに含まれるノードを適切に分類する分類情報を生成することができる。
〔2.生成装置の構成〕
次に、図4を用いて、実施形態に係る生成装置100の構成について説明する。図4は、実施形態に係る生成装置の構成例を示す図である。生成装置100は、第1分類情報や第2分類情報や第3分類情報を生成する情報処理装置である。図4に示すように、生成装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、生成装置100は、各種の情報を表示する表示部や、各種の情報を入力する入力部を有してもよい。
(通信部110)
通信部110は、例えば、NIC等によって実現される。そして、通信部110は、所定のネットワークと有線または無線で接続され、外部の情報処理装置との間で情報の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図4に示すように、通信内容情報記憶部122と、通信回数情報記憶部121と、トピック記憶部123と、スコア情報記憶部124とを有する。
(通信回数情報記憶部121)
実施形態に係る通信回数情報記憶部121は、所定のSNSにおける通信回数に関する情報(「通信回数情報」ともいう)を記憶する。図5は、実施形態に係る通信回数情報記憶部の一例を示す図である。例えば、通信回数情報記憶部121は、所定のSNSにおける各ノード間の通信回数を記憶する。また、例えば、通信回数情報記憶部121は、グラフ情報G11等を生成するために用いる情報を記憶する。図5に示すように、通信回数情報記憶部121は、通信回数情報として、ノードIDにより識別されるノード間の通信回数を記憶する。
例えば、図5に示す例において、ノードID「N1」の行とノードID「N2」の列とが交差する領域の数値「5」は、ノードN1のユーザがノードN2のユーザに対して情報を5回送信したことを示す。ノードID「N2」の行とノードID「N1」の列とが交差する領域の数値「10」は、ノードN2のユーザがノードN1のユーザに対して情報を10回送信したことを示す。また、ノードIDは、図1〜図3に示す各ノードの符号に対応する。例えば、ノードID「N1」により識別されるユーザは、図1〜図3に示すノードN1に対応する。すなわち、ノードID「N1」により識別されるノードと、図1〜図3中のノードN1とは同じノードを示し、図1〜図3に示す他のノードについても同様である。また、図6や図8に示す例においても同様である。
なお、通信回数情報記憶部121は、通信方向を問わず通信回数の合計を記憶する場合、ノードID「N1」の行とノードID「N2」の列とが交差する領域かノードID「N2」の行とノードID「N1」の列とが交差する領域かのいずれか一方のみを記憶してもよい。また、図5に示す例においては、ノードIDとノードIDとの行列(マトリクス)の形状で記憶される場合を一例として図示したが、通信回数情報を記憶できれば、どのように記憶されてもよい。例えば、通信回数情報記憶部121は、各ノードIDのユーザが通信を行ったノードID及びその通信回数をリスト形式で記憶してもよい。例えば、通信回数情報記憶部121に記憶される通信回数情報は、各ノードIDのユーザと通信したことがあるユーザのノードID及びその通信回数のリストを保存する辞書の形状で記憶されてもよい。
(通信内容情報記憶部122)
実施形態に係る通信内容情報記憶部122は、所定のSNSにおける通信内容に関する情報(「通信内容情報」ともいう)を記憶する。図6は、実施形態に係る通信内容情報記憶部の一例を示す図である。図6に示す例においては、通信内容情報として、所定のSNSにおける各ノード間における通信の履歴情報が記憶される。例えば、通信内容情報記憶部122に記憶された通信内容情報は、第2クラスタリングの際に用いるトピックの抽出に用いられる。図6に示すように、通信内容情報記憶部122は、取引情報として、「通信ID」、「送信元ID(ノードID)」、「送信先ID(ノードID)」、「日時」、「内容」等の項目を有する。
「通信ID」は、所定のSNSにおける各ノード間における通信を識別するための識別情報を示す。「送信元ID(ノードID)」は、対応する通信IDにより識別される通信における送信元である主体(ユーザ)を識別するための識別情報を示す。また、「送信先ID(ノードID)」は、対応する通信IDにより識別される通信における送信先である主体(ユーザ)を識別するための識別情報を示す。また、「日時」は、対応する通信IDにより識別される通信が行われた日時を示す。また、「内容」は、対応する通信IDにより識別される通信において送受信された文字情報を示す。
例えば、図6に示す例において、通信ID「T11」により識別される取引は、送信元ID(ノードID)「N1」により識別されるノードに対応するユーザが、送信先ID「N2」により識別されるユーザへ、文字情報「歌手Aのライブ…」を、日時「2016/5/1 13:05」に送信したことを示す。
なお、通信内容情報記憶部122は、上記に限らず、所定のSNSにおける各ノード間における通信に関する項目であれば、目的に応じて種々の項目を有してもよい。また、例えば、一斉送信等のように送信先が複数である場合は、1つの「通信ID」に対応する「送信先(ノードID)」が複数であってもよい。また、「内容」には、対応する通信IDにより識別される通信において送受信された文字情報に限らず、通信に関する情報であればどのような情報が含まれてもよい。例えば、「内容」には、画像情報や動画情報や位置情報や送信元のユーザのコンテキストに関する情報や送信先のユーザのコンテキストに関する情報等が含まれてもよい。
(トピック記憶部123)
実施形態に係るトピック記憶部123は、各第1分類(クラスタ)に含まれるノード間の通信におけるトピックに関する情報(「トピック情報」ともいう)を記憶する。図7は、実施形態に係るトピック記憶部の一例を示す図である。図7に示す例においては、トピック記憶部123には、各第1分類D11〜D15に含まれるノード間の通信におけるトピックごとに算出されるスコアがトピック情報として記憶される。図7に示すように、トピック記憶部123は、トピック情報として、「クラスタ」、「トピックA」、「トピックB」、「トピックC」等の項目を有する。
例えば、図7に示す例においては、クラスタ「D11」により識別されるクラスタ(第1分類D11)は、「トピックA」のスコアが「0.8」であり、「トピックB」のスコアが「0」であり、「トピックC」のスコアが「0.5」であることを示す。すなわち、第1分類D11〜D15に含まれるノード間の通信における内容としては、3つのトピックA〜Cの中では、スコアが最大であるトピックAが適切であることを示す。
例えば、通信内容情報記憶部122に記憶された通信内容情報から抽出されたトピックAは「歌手A」であってもよく、通信内容情報記憶部122に記憶された通信内容情報から抽出されたトピックBは「グループB」であってもよい。なお、トピック記憶部123は、項目は上記に限らず、各第1分類に含まれるノード間の通信に関するトピック情報であれば、目的に応じて種々の項目を有してもよい。
(スコア情報記憶部124)
実施形態に係るスコア情報記憶部124は、第2分類ごとに算出された各ノードのスコアに関する情報(「スコア情報」ともいう)と、スコア情報に基づくランキング(順位)に関する情報(「ランキング情報」ともいう)を記憶する。図8は、実施形態に係るスコア情報記憶部の一例を示す図である。図8に示す例においては、各第2分類C11、C12等の各々について、各ノードN1〜N25をスコアに基づいてランキングした情報が記憶される。図8に示すように、スコア情報記憶部124は、「順位」、「C11」、「C12」の項目を有する。
「順位」は、第2分類ごとの各ノードの順位を示す。また、項目「C11」及び「C12」は、第2分類C11、C12に各々対応し、「ノードID」、「スコア」といった項目が含まれる。なお、項目は上記に限らず、スコア情報記憶部124は、目的に応じて種々の項目を有してもよい。
例えば、図8に示す例においては、第2分類C11については、ノードN13のスコアが最大の「0.09」であり、ノードN13の順位が1位である、すなわち最も順位が高いことを示す。また、例えば、図8に示す例においては、第2分類C12については、ノードN19のスコアが最大の「0.085」であり、ノードN19の順位が1位であることを示す。
(制御部130)
図4の説明に戻って、制御部130は、例えば、コントローラ(Controller)であり、CPUやMPU等によって、生成装置100内部の記憶装置に記憶されている各種プログラム(生成プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、コントローラ(Controller)であり、ASICやFPGA等の集積回路により実現される。
図4に示すように、制御部130は、取得部131と、第1生成部132と、第2生成部133と、第3生成部134と、送信部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。
(取得部131)
取得部131は、各種情報を取得する。例えば、取得部131は、ネットワーク上における主体の各々に対応する複数のノードと、所定の対応関係を有するノード間を連結するエッジとを含むグラフ情報を取得する。例えば、取得部131は、ネットワーク上におけるユーザの各々に対応する複数のノードと、ネットワーク上における情報通信に関する対応関係を有するノード間を連結するエッジとを含むグラフ情報を取得する。例えば、取得部131は、所定のSNSにおける通信情報を取得する。例えば、取得部131は、所定のSNSにおける通信回数情報や通信内容情報を取得する。例えば、取得部131は、グラフ情報や第1分類情報や第2分類情報を取得してもよい。
(第1生成部132)
第1生成部132は、第1分類情報を生成する。例えば、第1生成部132は、取得部131により取得されたグラフ情報における複数のノード間のエッジの連結に基づいてノードを分類する第1分類情報を生成する。例えば、第1生成部132は、ノード間における情報通信の回数に基づいて、第1分類情報を生成する。例えば、第1生成部132は、図1に示す第1クラスタリングに関する処理を行う。
図1の例では、第1生成部132は、グラフ情報G11から第1分類情報G12を生成する。例えば、第1生成部132は、ノード間の構造的類似度に基づいて、第1分類情報G12を生成する。例えば、第1生成部132は、クラスタリング手法SCAN(非特許文献1参照)を用いて第1クラスタリングに関する処理を行ってもよい。
また、図1の例では、第1生成部132は、上記式(1)により算出されるノード間の構造的類似度σに基づいて、グラフ情報G11中のノードにおけるコアノードを抽出する。例えば、第1生成部132は、上記式(3)及び式(4)を用いて、コアノードを抽出する。第1生成部132は、上記式(4)を満たすノードをコアノードとして、第1クラスタリングを行う。例えば、第1生成部132は、クラスタリング手法SCAN(非特許文献1参照)により、グラフ情報G11中のノードN1〜N25を構造的に分類する。
また、図1の例では、第1生成部132は、第1分類D11にノードN1、N2、N3が含まれることや、第1分類D12にノードN6、N7、N8、N9が含まれること等を示す第1分類情報G12を生成する。例えば、第1生成部132は、上記2つのパラメータ「ε」、「μ」を適宜設定することにより適切なコアノードを抽出し、第1クラスタリングを行う。
なお、第1生成部132は、上記に限らず、種々の手法を適宜用いて、構造的にグラフ中のノードをクラスタリング(分類)する第1分類情報を生成してもよい。例えば、第1生成部132は、ノード間の通信回数に基づく重みを用いて、ノード間の構造的類似度を算出してもよい。例えば、第1生成部132は、以下の式(5)を用いて各ノード間の構造的類似度を算出してもよい。
(第2生成部133)
第2生成部133は、第2分類情報を生成する。例えば、第2生成部133は、第1生成部132により生成された第1分類情報と、所定の対応関係に関する分類とに基づいて、ノードを分類する第2分類情報を生成する。また、例えば、第2生成部133は、取得部131により取得された第1分類情報と、所定の対応関係に関する分類とに基づいて、ノードを分類する第2分類情報を生成する。例えば、第2生成部133は、ノード間における情報通信の内容に基づいて、第2分類情報を生成する。また、例えば、第2生成部133は、ノード間の情報通信に含まれる内容に関する分類に基づいて、第2分類情報を生成する。例えば、第2生成部133は、ノード間の情報通信の内容から推定(抽出)されるトピックを分類として、第2分類情報を生成する。例えば、第2生成部133は、図2に示す第2クラスタリングに関する処理を行う。
図2の例では、第2生成部133は、第1分類情報G12と、通信内容に関する分類とに基づいて、ノードを分類する第2分類情報G13を生成する。例えば、第2生成部133は、通信内容に関するトピックの類似性に基づいて、第1分類D11〜D15等を分類する第2分類情報G13を生成する。
例えば、第2生成部133は、各第1分類D11〜D15に含まれるノード間の通信における情報の内容を解析することにより、各第1分類D11〜D15に含まれるノード間での通信内容のトピックを抽出してもよい。例えば、第2生成部133は、第1分類D11に含まれるノードN1、N2、N3との間で通信される文字情報や画像情報等に基づいて、第1分類D11内における通信のトピックを抽出してもよい。なお、第2生成部133は、トピック分析(解析)等の種々の従来手法を適宜用いて、各第1分類D11〜D15に含まれるノード間での通信内容からトピックを抽出してもよい。例えば、第2生成部133は、各第1分類D11〜D15に含まれるノード間で通信される文字情報を形態素解析等の自然言語処理技術を適宜用いて解析することにより、その文字情報から重要なキーワードを対応する第1分類におけるトピックとして抽出してもよい。
また、第2生成部133は、各第1分類D11〜D15における通信内容に関するコサイン類似度に基づいて、第1分類D11〜D15等を分類する第2分類情報G13を生成してもよい。例えば、第2生成部133は、各第1分類D11〜D15におけるトピック間のコサイン類似度に基づいて、第1分類D11〜D15等を分類する第2分類情報G13を生成する。例えば、第2生成部133は、ある第1分類と他の第1分類とのコサイン類似度が所定の閾値以上である場合、ある第1分類と他の第1分類とを同じクラスタ(第2分類)としてもよい。
なお、所定のSNSがTwitter(登録商標)である場合、第2生成部133は、ハッシュタグの類似性に基づいて、第2分類情報G13を生成してもよい。例えば、第2生成部133は、各第1分類D11〜D15に含まれるノード間の通信において用いられたハッシュタグのうち、最も頻度の高いハッシュタグに関するトピックの類似性に基づいて、第1分類D11〜D15等を分類することにより、第2分類情報G13を生成してもよい。例えば、第2生成部133は、各第1分類D11〜D15に含まれるノード間の通信において用いられたハッシュタグのうち、最も頻度の高いハッシュタグに関するトピックの類似性に基づいて、第1分類D11〜D15等を分類することにより、第2分類情報G13を生成してもよい。
また、例えば、第2生成部133は、各第1分類D11〜D15に含まれるノード間の通信において用いられたハッシュタグをトピックとし、その分布の類似性に基づいて、第1分類D11〜D15等を分類することにより、第2分類情報G13を生成してもよい。例えば、第2生成部133は、各第1分類D11〜D15に含まれるノード間の通信において用いられたハッシュタグ(トピック)の回数に基づく割合の類似性に基づいて、第1分類D11〜D15等を分類することにより、第2分類情報G13を生成してもよい。
図2の例では、第2生成部133は、第2分類C11に第1分類D11、D13が含まれることや、第2分類C12に第1分類D12、D14、D15が含まれること等を示す第2分類情報G13を生成する。なお、第2生成部133は、上記に限らず、種々の手法を適宜用いて、通信の内容に基づいてグラフ中のノードをクラスタリング(分類)する第2分類情報を生成してもよい。
(第3生成部134)
第3生成部134は、第3分類情報を生成する。例えば、第3生成部134は、第2生成部133により生成された第2分類情報と、ノード間のエッジとにより算出されるスコアに基づいて、ノードを分類する第3分類情報G14を生成する。例えば、第3生成部134は、スコアを算出してもよい。また、例えば、第3生成部134は、取得部131により取得された第2分類情報により第3分類情報を生成してもよい。例えば、第3生成部134は、第2分類情報に含まれるクラスタ毎に算出されるスコアに基づいて、スコアが所定の条件を満たすノードが各クラスタに含まれる第3分類情報を生成する。例えば、第3生成部134は、第2分類情報に含まれるクラスタ毎に算出されるスコアに基づいて、スコアに基づく順位が所定の閾値以上のノードが各クラスタに含まれる第3分類情報を生成する。なお、第3生成部134は、上記に限らず、種々の基準に基づいて第3分類情報を生成してもよい。例えば、第3生成部134は、スコアが所定の閾値以上であるノードが各クラスタに含まれる第3分類情報を生成してもよい。また、例えば、第3生成部134は、スコアが所定の閾値以下であるノードが各クラスタに含まれる第3分類情報を生成してもよい。また、第3生成部134は、複数の閾値を用いて第3分類情報を生成してもよい。例えば、第3生成部134は、第1閾値以上かつ第2閾値以下であるノードが各クラスタに含まれる第3分類情報を生成してもよい。第3生成部134は、確率値や尤度をスコアとして算出し、算出したスコアが所定の条件を満たすノードが各クラスタに含まれる第3分類情報を生成してもよい。このように、第3生成部134は、種々の情報をスコアとして算出してもよい。また、例えば、第3生成部134は、ノードから選択されたシードノードからのエッジの連結に基づいて、第3分類情報を生成する。例えば、第3生成部134は、図3に示す第3クラスタリングに関する処理を行う。
図3の例では、第3生成部134は、第2分類情報G13と、ノード間のエッジ(接続関係)を示す情報(例えばグラフ情報G11)とにより算出されるスコアに基づいて、ノードを分類する第3分類情報を生成する。例えば、第3生成部134は、第3クラスタリングにおいては、ページランク(非特許文献3参照)に関する技術を用いてもよい。なお、第3生成部134は、第3クラスタリングにおいては、ページランク(非特許文献3参照)に限らず、種々の手法を適宜用いてもよい。例えば、第3生成部134は、上記式(6)〜(8)を用いて、第2分類ごとに各ノードのスコアを算出する。例えば、第3生成部134は、上記式(6)〜(8)を用いて、各第2分類C11、C12等における各ノードのスコアを算出する。例えば、第3生成部134は、上記式(8)が収束するまで計算を繰り返すことにより、第2分類ごとに各ノードのスコアを算出する。
図3の例では、第3生成部134は、各第2分類C11に対応する順位が高いノードN13、N2、N12、N1等を第2分類C11に分類するノードとする。また、第3生成部134は、各第2分類C12に対応する順位が高いノードN19、N7、N17、N11等を第2分類C12に分類するノードとする。このように、図3の例では、第3生成部134は、第2分類C11にノードN13、N2、N12、N1等が含まれることや、第2分類C12にノードN19、N7、N17、N11が含まれること等を示す第3分類情報G14を生成する。
(送信部135)
送信部135は、各種情報を外部装置へ送信する。例えば、送信部135は、外部の情報処理装置に第3生成部134により生成された第3分類情報を送信してもよい。
〔3.生成処理のフロー〕
次に、図9を用いて、実施形態に係る生成装置100による生成処理の手順について説明する。図9は、実施形態に係る生成装置100による生成処理手順を示すフローチャートである。
図9に示すように、生成装置100の取得部131は、通信情報を取得する(ステップS101)。例えば、取得部131は、所定のSNSにおける通信情報を取得する。その後、生成装置100の第1生成部132は、第1クラスタリングの処理を行う(ステップS102)。例えば、第1生成部132は、第1クラスタリングの処理により第1分類情報を生成するが、詳細は図10において説明する。
その後、生成装置100の第2生成部133は、第2クラスタリングの処理を行う(ステップS103)。例えば、第2生成部133は、第2クラスタリングの処理により第2分類情報を生成するが、詳細は図11において説明する。その後、生成装置100の第3生成部134は、第3クラスタリングの処理を行う(ステップS104)。例えば、第3生成部134は、第3クラスタリングの処理により第3分類情報を生成するが、詳細は図12において説明する。
〔3−1.第1クラスタリング〕
次に、図10を用いて、実施形態に係る生成装置100による第1クラスタリングの処理の手順について説明する。図10は、実施形態に係る第1クラスタリングの処理手順を示すフローチャートである。
図10に示すように、生成装置100の取得部131は、グラフの構造に関する情報を取得する(ステップS201)。例えば、取得部131は、グラフ情報や通信回数情報を取得する。例えば、取得部131は、通信回数情報記憶部121から通信回数情報を取得する。
そして、生成装置100の第1生成部132は、グラフの構造に基づいてノードを分類する(ステップS202)。例えば、第1生成部132は、取得部131により取得されたグラフ情報G11や通信回数情報に基づいてノードを分類する。
そして、第1生成部132は、第1分類情報を生成する(ステップS203)。例えば、第1生成部132は、第1分類情報G12を生成する。
〔3−2.第2クラスタリング〕
次に、図11を用いて、実施形態に係る生成装置100による第2クラスタリングの処理の手順について説明する。図11は、実施形態に係る第2クラスタリングの処理手順を示すフローチャートである。
図11に示すように、生成装置100の取得部131は、第1分類情報を取得する(ステップS301)。例えば、取得部131は、第1生成部132から第1分類情報G12を取得する。また、取得部131は、ノード間の通信内容に関する情報を取得する(ステップS302)。例えば、取得部131は、通信内容情報記憶部122から通信内容情報を取得する。
そして、生成装置100の第2生成部133は、ノード間の通信内容に基づいてノードを分類する(ステップS303)。第2生成部133は、ノード間の通信内容に基づいて推定される第1分類ごとのトピックに基づいてノードを分類する。
そして、第2生成部133は、第2分類情報を生成する(ステップS304)。例えば、第2生成部133は、第2分類情報G13を生成する。
〔3−3.第3クラスタリング〕
次に、図12を用いて、実施形態に係る生成装置100による第3クラスタリングの処理の手順について説明する。図12は、実施形態に係る第3クラスタリングの処理手順を示すフローチャートである。
図12に示すように、生成装置100の取得部131は、第2分類情報を取得する(ステップS401)。例えば、取得部131は、第2生成部133から第2分類情報G13を取得する。また、取得部131は、グラフの構造に関する情報を取得する(ステップS402)。例えば、取得部131は、グラフ情報G11を取得する。
そして、生成装置100の第3生成部134は、第2分類ごとに各ノードのスコアを算出する(ステップS403)。例えば、第3生成部134は、各第2分類C11、C12等の各々における各ノードN1〜N25等のスコアを算出する。
そして、第3生成部134は、第3分類情報を生成する(ステップS404)。例えば、第3生成部134は、第3分類情報G14を生成する。
〔4.通信情報について〕
なお、生成装置100は、情報の種別に基づいて、通信される情報を分類して、上記の処理を行ってもよい。例えば、生成装置100は、情報の種別に応じて割り当てられる各種別の重みと、各種別の通信回数とに基づいて上記の処理を行ってもよい。
例えば、生成装置100は、情報の種別に基づいて、第1種別通信と第2種別通信とに通信を分類し、上記の処理を行ってもよい。例えば、通信が電子メールである場合、生成装置100は、宛先が1つ(送信先は一のユーザのみ)である場合を第1種別通信とし、宛先が複数である場合(例えば一斉送信等の場合)を第2種別通信として、上記の処理を行ってもよい。例えば、対象とするSNSがTwitter(登録商標)である場合、リプとリツイートとを別の種別の通信に分類して、上記の処理を行ってもよい。また、生成装置100は、3種類以上ある場合は、その通信内容に応じて第1種別通信〜第N種別通信に通信を分類して、上記の処理を行ってもよい。
〔5.効果〕
上述してきたように、実施形態に係る生成装置100は、取得部131と、第1生成部132と、第2生成部133とを有する。取得部131は、ネットワーク上における主体の各々に対応する複数のノードと、所定の対応関係を有するノード間を連結するエッジとを含むグラフ情報(図1では「グラフ情報G11」。以下同じ)を取得する。第1生成部132は、取得部131により取得されたグラフ情報における複数のノード間のエッジの連結に基づいてノードを分類する第1分類情報(図1では「第1分類情報G12」。以下同じ)を生成する。第2生成部133は、第1生成部132により生成された第1分類情報と、所定の対応関係に関する分類とに基づいて、ノードを分類する第2分類情報(図2では「第2分類情報G13」。以下同じ)を生成する。
これにより、実施形態に係る生成装置100は、グラフにおけるノード間の接続構造およびノード間において通信された情報の内容の両方に基づいて、グラフに含まれるノードを適切に分類する分類情報を生成することができる。
また、実施形態に係る生成装置100は、第3生成部134を有する。第3生成部134は、第2分類情報と、ノード間のエッジとにより算出されるスコアに基づいて、ノードを分類する第3分類情報(図3では「第3分類情報G14」。以下同じ)を生成する。
これにより、実施形態に係る生成装置100は、グラフにおけるノード間の接続構造およびノード間において通信された情報の内容の両方に基づく第2分類情報と、ノード間のエッジとにより算出されるスコアを用いて、さらにノードを分類することにより、グラフに含まれるノードを適切に分類する分類情報を生成することができる。
また、実施形態に係る生成装置100において、第3生成部134は、第2分類情報に含まれるクラスタ毎に算出されるスコアに基づいて、スコアが所定の条件を満たすノードが各クラスタに含まれる第3分類情報を生成する。
これにより、実施形態に係る生成装置100は、第2分類に基づいて算出された第2分類ごとの各ノードのスコアに基づく順位(ランキング)が上位のノードをその第2分類に含まれるノードとして分類することにより、グラフに含まれるノードを適切に分類する分類情報を生成することができる。
また、実施形態に係る生成装置100において、第3生成部134は、ノードから選択されたシードノードからのエッジの連結に基づいて、第3分類情報を生成する。
これにより、実施形態に係る生成装置100は、ノードから選択されたシードノードからのエッジの連結に基づいて、ノードを分類することにより、グラフに含まれるノードを適切に分類する分類情報を生成することができる。
また、実施形態に係る生成装置100において、取得部131は、ネットワーク上におけるユーザの各々に対応する複数のノードと、ネットワーク上における情報通信に関する対応関係を有するノード間を連結するエッジとを含むグラフ情報を取得する。
これにより、実施形態に係る生成装置100は、ネットワーク上におけるユーザの各々に対応する複数のノードと、ネットワーク上における情報通信に関する対応関係を有するノード間を連結するエッジとを含むグラフ情報に基づいて、グラフに含まれるノードを適切に分類する分類情報を生成することができる。
また、実施形態に係る生成装置100において、第1生成部132は、ノード間の構造的類似度に基づいて、第1分類情報を生成する。
これにより、実施形態に係る生成装置100は、グラフにおけるノード間の構造的類似度に基づいて、グラフに含まれるノードを適切に分類する分類情報を生成することができる。
また、実施形態に係る生成装置100において、第1生成部132は、ノード間における情報通信の回数に基づいて、第1分類情報を生成する。
これにより、実施形態に係る生成装置100は、グラフにおけるノード間の通信回数に基づくグラフの構造的情報に基づいて、グラフに含まれるノードを適切に分類する分類情報を生成することができる。
また、実施形態に係る生成装置100において、第2生成部133は、ノード間の情報通信に含まれる内容に関する分類に基づいて、第2分類情報を生成する。
これにより、実施形態に係る生成装置100は、グラフにおけるノード間において通信された情報の内容に関する分類に基づいて、グラフに含まれるノードを適切に分類する分類情報を生成することができる。
また、実施形態に係る生成装置100において、第2生成部133は、ノード間の情報通信の内容から推定されるトピックを分類として、第2分類情報を生成する。
これにより、実施形態に係る生成装置100は、グラフにおけるノード間において通信された情報の内容から推定されたトピックによりノードを分類することにより、グラフに含まれるノードを適切に分類する分類情報を生成することができる。
〔6.ハードウェア構成〕
上述してきた実施形態に係る生成装置100は、例えば図13に示すような構成のコンピュータ1000によって実現される。図13は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定のネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定のネットワークNを介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る生成装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定のネットワークNを介してこれらのプログラムを取得してもよい。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
〔7.その他〕
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、第1分類情報を生成する装置と、第2分類情報を生成する装置と、第3分類情報を生成する装置とは別体であってもよい。
また、上述してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
100 生成装置
121 通信回数情報記憶部
122 通信内容情報記憶部
123 トピック記憶部
124 スコア情報記憶部
130 制御部
131 取得部
132 第1生成部
133 第2生成部
134 第3生成部
135 送信部

Claims (11)

  1. ネットワーク上における主体の各々に対応する複数のノードと、所定の対応関係を有するノード間を連結するエッジとを含むグラフ情報を取得する取得部と、
    前記取得部により取得された前記グラフ情報における前記複数のノード間のエッジの連結に基づいてノードを分類する第1分類情報を生成する第1生成部と、
    前記第1生成部により生成された第1分類情報と、前記所定の対応関係に関する分類とに基づいて、ノードを分類する第2分類情報を生成する第2生成部と、
    を備えたことを特徴とする生成装置。
  2. 前記第2分類情報と、前記ノード間のエッジとにより算出されるスコアに基づいて、ノードを分類する第3分類情報を生成する第3生成部、
    をさらに備えることを特徴とする請求項1に記載の生成装置。
  3. 前記第3生成部は、
    前記第2分類情報に含まれるクラスタ毎に算出される前記スコアに基づいて、前記スコアが所定の条件を満たすノードが各クラスタに含まれる前記第3分類情報を生成する
    ことを特徴とする請求項2に記載の生成装置。
  4. 前記第3生成部は、
    前記ノードから選択されたシードノードからのエッジの連結に基づいて、前記第3分類情報を生成する
    ことを特徴とする請求項2または請求項3に記載の生成装置。
  5. 前記取得部は、
    ネットワーク上におけるユーザの各々に対応する複数のノードと、前記ネットワーク上における情報通信に関する対応関係を有するノード間を連結するエッジとを含むグラフ情報を取得する
    ことを特徴とする請求項1〜4のいずれか1項に記載の生成装置。
  6. 前記第1生成部は、
    前記ノード間の構造的類似度に基づいて、前記第1分類情報を生成する
    ことを特徴とする請求項5に記載の生成装置。
  7. 前記第1生成部は、
    前記ノード間における前記情報通信の回数に基づいて、前記第1分類情報を生成する
    ことを特徴とする請求項5または請求項6に記載の生成装置。
  8. 前記第2生成部は、
    前記ノード間の情報通信に含まれる内容に関する分類に基づいて、前記第2分類情報を生成する
    ことを特徴とする請求項5〜7のいずれか1項に記載の生成装置。
  9. 前記第2生成部は、
    前記ノード間の情報通信の内容から推定されるトピックを分類として、前記第2分類情報を生成する
    ことを特徴とする請求項8に記載の生成装置。
  10. コンピュータが実行する生成方法であって、
    ネットワーク上における主体の各々に対応する複数のノードと、所定の対応関係を有するノード間を連結するエッジとを含むグラフ情報を取得する取得工程と、
    前記取得工程により取得された前記グラフ情報における前記複数のノード間のエッジの連結に基づいてノードを分類する第1分類情報を生成する第1生成工程と、
    前記第1生成工程により生成された第1分類情報と、前記所定の対応関係に関する分類とに基づいて、ノードを分類する第2分類情報を生成する第2生成工程と、
    を含むことを特徴とする生成方法。
  11. ネットワーク上における主体の各々に対応する複数のノードと、所定の対応関係を有するノード間を連結するエッジとを含むグラフ情報を取得する取得手順と、
    前記取得手順により取得された前記グラフ情報における前記複数のノード間のエッジの連結に基づいてノードを分類する第1分類情報を生成する第1生成手順と、
    前記第1生成手順により生成された第1分類情報と、前記所定の対応関係に関する分類とに基づいて、ノードを分類する第2分類情報を生成する第2生成手順と、
    をコンピュータに実行させることを特徴とする生成プログラム。
JP2016112022A 2016-06-03 2016-06-03 生成装置、生成方法、及び生成プログラム Active JP6338618B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016112022A JP6338618B2 (ja) 2016-06-03 2016-06-03 生成装置、生成方法、及び生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016112022A JP6338618B2 (ja) 2016-06-03 2016-06-03 生成装置、生成方法、及び生成プログラム

Publications (2)

Publication Number Publication Date
JP2017219929A true JP2017219929A (ja) 2017-12-14
JP6338618B2 JP6338618B2 (ja) 2018-06-06

Family

ID=60658014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016112022A Active JP6338618B2 (ja) 2016-06-03 2016-06-03 生成装置、生成方法、及び生成プログラム

Country Status (1)

Country Link
JP (1) JP6338618B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020187419A (ja) * 2019-05-10 2020-11-19 富士通株式会社 エンティティリンキング方法、情報処理装置およびエンティティリンキングプログラム
JP2023013869A (ja) * 2021-07-16 2023-01-26 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP2023013868A (ja) * 2021-07-16 2023-01-26 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008107867A (ja) * 2006-10-23 2008-05-08 Hitachi Ltd コミュニティ抽出方法、コミュニティ抽出処理装置
JP2009205289A (ja) * 2008-02-26 2009-09-10 Nippon Telegr & Teleph Corp <Ntt> 興味体系グラフ形成装置、興味体系グラフ形成方法、および、興味体系グラフ形成プログラム
US20140280143A1 (en) * 2013-03-15 2014-09-18 Oracle International Corporation Partitioning a graph by iteratively excluding edges

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008107867A (ja) * 2006-10-23 2008-05-08 Hitachi Ltd コミュニティ抽出方法、コミュニティ抽出処理装置
JP2009205289A (ja) * 2008-02-26 2009-09-10 Nippon Telegr & Teleph Corp <Ntt> 興味体系グラフ形成装置、興味体系グラフ形成方法、および、興味体系グラフ形成プログラム
US20140280143A1 (en) * 2013-03-15 2014-09-18 Oracle International Corporation Partitioning a graph by iteratively excluding edges

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020187419A (ja) * 2019-05-10 2020-11-19 富士通株式会社 エンティティリンキング方法、情報処理装置およびエンティティリンキングプログラム
JP2023013869A (ja) * 2021-07-16 2023-01-26 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP2023013868A (ja) * 2021-07-16 2023-01-26 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7469262B2 (ja) 2021-07-16 2024-04-16 Lineヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7471264B2 (ja) 2021-07-16 2024-04-19 Lineヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Also Published As

Publication number Publication date
JP6338618B2 (ja) 2018-06-06

Similar Documents

Publication Publication Date Title
Balaanand et al. An enhanced graph-based semi-supervised learning algorithm to detect fake users on Twitter
Subrahmanian et al. The DARPA Twitter bot challenge
US20150081725A1 (en) System and method for actively obtaining social data
US9110985B2 (en) Generating a conceptual association graph from large-scale loosely-grouped content
Cao et al. Mashup service clustering based on an integration of service content and network via exploiting a two-level topic model
US9286379B2 (en) Document quality measurement
US8949237B2 (en) Detecting overlapping clusters
Wachs et al. Why do men get more attention? Exploring factors behind success in an online design community
JP6767342B2 (ja) 検索装置、検索方法および検索プログラム
JP6338618B2 (ja) 生成装置、生成方法、及び生成プログラム
JP7166116B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Chen et al. Predicting user retweeting behavior in social networks with a novel ensemble learning approach
Menaria et al. Tweet sentiment classification by semantic and frequency base features using hybrid classifier
Weng et al. Topic-based clusters in egocentric networks on Facebook
JP6434954B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN106575418B (zh) 建议的关键词
Said et al. Clustering posts in online discussion forum threads
Deng et al. Credit distribution for influence maximization in online social networks with node features 1
Iram et al. Anatomy of Sentiment Analysis of Tweets Using Machine Learning Approach: Anatomy of Sentiment Analysis of Tweets
US20200210760A1 (en) System and method for cascading image clustering using distribution over auto-generated labels
CN109271491B (zh) 基于非结构化文本信息的云服务推荐方法
US12038961B2 (en) Determining topics for taxonomies
US8886651B1 (en) Thematic clustering
Chen et al. Ensemble of diverse sparsifications for link prediction in large-scale networks
Chung et al. Finding and visualizing graph clusters using PageRank optimization

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180508

R150 Certificate of patent or registration of utility model

Ref document number: 6338618

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250