[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN102195899B - 通信网络的信息挖掘方法与系统 - Google Patents

通信网络的信息挖掘方法与系统 Download PDF

Info

Publication number
CN102195899B
CN102195899B CN201110141987.5A CN201110141987A CN102195899B CN 102195899 B CN102195899 B CN 102195899B CN 201110141987 A CN201110141987 A CN 201110141987A CN 102195899 B CN102195899 B CN 102195899B
Authority
CN
China
Prior art keywords
communication
nodes
node
mrow
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110141987.5A
Other languages
English (en)
Other versions
CN102195899A (zh
Inventor
郭世泽
陈哲
王小娟
陆哲明
赵建鹏
康广玉
张乐天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
No54 Inst Headquarters Of General Staff P L A
Original Assignee
No54 Inst Headquarters Of General Staff P L A
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by No54 Inst Headquarters Of General Staff P L A filed Critical No54 Inst Headquarters Of General Staff P L A
Priority to CN201110141987.5A priority Critical patent/CN102195899B/zh
Publication of CN102195899A publication Critical patent/CN102195899A/zh
Application granted granted Critical
Publication of CN102195899B publication Critical patent/CN102195899B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种通信网络的信息挖掘方法,包括:对通信数据进行预处理,获取包括通信数据ID、发送方信息、接收方信息、通信时间、通信内容在内的关于通信数据的信息;根据预处理结果创建用于反映通信网络结构的通联关系网络,由通联关系网络得到用于表示通信网络中的通信发送方、通信接收方的节点,以及用于表示通信发送方、通信接收方间通信关系的边;根据用户提供的查询词构造需求文本向量与通信文本向量;计算通联关系网络中各个节点的节点中心度;节点中心度包括节点中介度、节点紧密度以及节点联系度;计算通联关系网络中存在通联关系的各个节点之间的通联关系强度、各个节点间的边之间的相似度以及用户对节点间的边的满意度。

Description

通信网络的信息挖掘方法与系统
技术领域
本发明涉及数据挖掘领域,特别涉及一种通信网络的信息挖掘方法与系统。
背景技术
随着通信技术的不断发展,飞信、邮件、MSN、QQ等多种类型的通信工具逐渐成为人们进行信息交流的重要手段,使用这些通信工具的众多用户所形成的网络被称为通信网络,通信网络是社交关系在互联网上的体现。通信网络中的数据被称为通信数据,通信数据为社交规律的发现提供了研究样本。
通常情况下,通信网络上用户众多、规模巨大,因此通信数据属于典型的海量数据,要通过通信数据来发现其中所蕴含的社交规律需要做信息挖掘。在信息挖掘的过程中,挖掘何种信息以及如何进行信息挖掘十分重要,这涉及到之后所提取的社交规律是否准确、全面,能否反映社会的客观现实。
现有的信息挖掘方法在挖掘信息时有不同的关注点,主要分为两种:
一种关注的是通信网络的拓扑结构,主要将通信数据抽象成节点集、边集和通信权值,其中的节点集反映了通信网络中的各个节点,边集反映了通信网络中的节点间的通信关系,而通信权值则反映了节点间的通信频率。在提取这些信息时,重点关注的是节点间的拓扑关系,忽略了节点的其它通信特征,如通信时间,节点拓扑特征等。此类信息挖掘方法的缺点是没有考虑通信文本,从而在该模型上进行信息挖掘得到的结果在某些情况下并不是用户需要的。例如,一用户节点频繁地向通信网络中的另一节点发送垃圾信息,采用此类信息挖掘方法,该用户节点很可能会被挖掘出并作为所述另一节点的“朋友”,但实际上这一结果并不是用户真正想要的。
另一种关注的是垃圾信息的筛选和通信主题的发现,所以此类信息挖掘方法并不考虑拓扑信息。该类信息挖掘方法主要提取通信文本的语义信息,通过机器学习、贝叶斯分类器等方法进行分类,然后筛选出垃圾信息和通信主题。该类信息挖掘方法的缺点是复杂度较高,并且得到的结果是基于通信文本的,没有关注网络的拓扑结构和节点的重要程度。
发明内容
本发明的目的是克服现有的通信网络的信息挖掘方法所挖掘的信息较为单一,无法全面体现通信网络实际情况的缺陷,从而提供一种全面、准确的信息挖掘方法。
为了实现上述目的,本发明提供了一种通信网络的信息挖掘方法,包括:
步骤1)、对通信数据进行预处理,获取包括通信数据ID、发送方信息、接收方信息、通信时间、通信内容在内的关于通信数据的信息;
步骤2)、根据步骤1)所得到的预处理结果创建用于反映所述通信网络结构的通联关系网络,由所述通联关系网络得到用于表示所述通信网络中的通信发送方、通信接收方的节点,以及用于表示所述通信发送方、通信接收方间通信关系的边;
步骤3)、由用户提供的查询词以及所述查询词所占的权重创建需求文本向量,由用户提供的查询词以及所述查询词在通信数据中出现的频率创建通信文本向量;
步骤4)、计算所述通联关系网络中各个节点的节点中心度;所述节点中心度包括中介度系数、紧密度系数以及联系度系数,其中,将通过节点的最短路径数的平均值称为该节点的中介度系数,将节点和网络中所有节点之间的最短路径之和的平均值称为该节点的紧密度系数,将与节点直接相连的节点数的平均值称为该节点的联系度系数;
步骤5)、计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度、各个节点间的边之间的相似度以及用户对所述节点间的边的满意度。
上述技术方案中,所述的步骤3)包括:
步骤3-1)、在步骤1)所得到的通信内容经过分词所得到的分词结果的基础上,利用索引字典以及停用词表构建倒排索引;
步骤3-2)、由用户提供的查询词以及所述查询词所占的权重创建需求文本向量;
步骤3-3)、将与所述需求文本向量中的查询词具有一定关联度的词语添加到所述需求文本向量中,以扩展所述需求文本向量。
上述技术方案中,所述的步骤3-3)包括:
步骤3-3-1)、计算与所述查询词在一文本中的词项的共现频度;
步骤3-3-2)、在计算出所述共现频度后,计算所述词项与所述查询词间的关联度;
步骤3-3-3)、由所述关联度计算评估函数,由所述评估函数的计算结果判定是否要将所述词项扩展到所述需求文本向量中。
上述技术方案中,在所述的步骤4)中,
所述节点中介度的计算包括:
将通过节点k的最短路径数的平均值称为节点k的中介度系数,记为CA(k),则:
C A ( k ) = Σ i n Σ j n g ij ( k ) ( n - 1 ) 2
其中,gij(k)是一个二值变量,表示节点i、j之间的最短路径是否通过节点k,通过k则为1,否则为0;
所述节点联系度的计算包括:
将与节点k直接相连的节点数的平均值称为节点k的联系度系数,记为CB(k),则:
C B ( k ) = Σ i = 1 n a ( i , k ) ( n - 1 )
其中n是一个网络的节点数,a(i,k)是一个二值变量,为1说明节点i,k之间直接相连,为0说明不直接相连;
所述节点紧密度的计算包括:
将节点k和网络中所有节点之间的最短路径之和的平均值称为k的紧密度系数,记为CC(k),则:
C C ( k ) = Σ i k l ( i , k ) ( n - 1 ) 2
其中l(i,k)为节点i、k之间的最短路径长度。
所述节点k的中心度向量C(k)=(CA(k),CB(k),CC(k))。
上述技术方案中,在所述的步骤5)中,
所述的计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度包括:
步骤5-1-1)、计算节点间的通信次数comm_numij
步骤5-1-2)、计算节点间的通信时间跨度dur_dayij
步骤5-1-3)、计算节点间的最短路径长度shortest_lenij
步骤5-1-4)、计算节点间的共享邻居数sharenode_numij
步骤5-1-5)、计算用于评估两个节点通联关系强度的函数closeness(i,j);所述函数closeness(i,j)的计算公式为:
closeness ( i , j ) = k 1 × comm _ num ij Max _ num + k 2 × dur _ day ij Max _ day + k 3 × sharenode _ num ij Max _ node + k 4 × ( 1 - shortest _ len ij Max _ len )
其中,Max_num为所有节点间交互的最大通信次数;Max_day为所有节点间交互的最大时间跨度;Max_node为所有节点间交互的最大共享邻居数;Max_len为所有节点间交互的最长的最短路径;ki为权重系数。
上述技术方案中,在所述的步骤5)中,
所述的计算所述通联关系网络中存在通联关系的各个节点之间的边之间的相似度包括:
步骤5-2-1)、将任意两个节点间的边的向量定义为这两个节点之间所有通信文本向量的平均值;
步骤5-2-2)、利用余弦公式计算任意两边的向量之间的相似度。
上述技术方案中,在所述的步骤5)中,
所述的计算用户对所述节点间的边的满意度包括:
步骤5-3-1)、计算需求文本向量的权重;
步骤5-3_2)、计算步骤5-3-1)所得到的通信文本的向量与所述通信文本的需求文本向量之间的相似值,得到用户对所述通信文本的满意度;
步骤5-3-3)、计算两个节点间所有通信文本满意度的平均值,得到节点间的边的用户满意度。
上述技术方案中,所述的步骤5-3-1)包括:
步骤5-3-1-1)、构造一个初始查询向量;
步骤5-3-1-2)、根据用户指定的满足需求的文本对其逐步修改,直到达到一个理想的结果;
Q → opt = α × q → initial + β × Σ d j ∈ R d → j | d → j | - γ × Σ d j ∈ C - R d → j | d → j |
α、β、γ是用于调整的三个常量;表示初始查询向量;表示对应的向量的第j维,表示对应的向量的第j维的值。
本发明还提供了一种通信网络的信息挖掘系统,其特征在于,包括数据预处理模块、通联关系网络创建模块、文本向量构造模块、节点中心度计算模块、边属性计算模块;其中,所述的数据预处理模块对通信数据进行预处理,获取包括通信数据ID、发送方信息、接收方信息、通信时间、通信内容在内的关于通信数据的信息;所述的通联关系网络创建模块根据所述数据预处理模块所得到的预处理结果创建用于反映所述通信网络结构的通联关系网络,由所述通联关系网络得到用于表示所述通信网络中的通信发送方、通信接收方的节点,以及用于表示所述通信发送方、通信接收方间通信关系的边;所述的文本向量构造模块由用户提供的查询词以及所述查询词所占的权重创建需求文本向量,由用户提供的查询词以及所述查询词在通信数据中出现的频率创建通信文本向量;所述的节点中心度计算模块计算所述通联关系网络中各个节点的节点中心度;所述节点中心度包括中介度系数、紧密度系数以及联系度系数,其中,该节点的中介度系数为通过节点的最短路径数的平均值,该节点的紧密度系数为节点和网络中所有节点之间的最短路径之和的平均值,该节点的联系度系数为与节点直接相连的节点数的平均值;所述的边属性计算模块计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度、各个节点间的边之间的相似度以及用户对所述节点间的边的满意度,其中,计算两个节点间的所述通信文本向量与所述需求文本向量之间的相似值,作为用户对所述通信文本的满意度,并且,计算两个节点间所有通信文本的满意度的平均值,作为所述节点间的边的用户满意度。
本发明的优点在于:
本发明的方法与系统从通信网络中提取了包括用于表示所述通信网络中的通信发送方、通信接收方的节点,用于表示所述通信发送方、通信接收方间通信关系的边,节点中心度,各个节点间的通联关系强度,各个节点间的边之间的相似度以及用户对所述节点间的边的满意度在内的较为丰富的信息,为后续的通信数据的挖掘和分析提供了技术支持。
附图说明
图1为本发明的通信网络的信息挖掘方法在一个实施例中的流程图;
图2为在一个实施例中所涉及的用于存储经过预处理的表格的示意图;
图3为本发明的通信网络的信息挖掘系统在一个实施例中的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行说明。
在对本发明的实施方式做详细说明前,首先对本发明中与所要挖掘的信息相关的概念进行说明。
1、节点集N
节点集N是通信网络中各个通信节点的集合。
2、边集E
边集E用来记录通信过程中作为发送方的通信节点与作为接收方的通信节点之间的通信关系,通常表示为一个0、1矩阵,其中eij=1表示节点i和节点j之间有边连接,eij=0表示节点i和节点j之间没有边连接。
3、用户需求Q
考虑到通信网络的规模十分庞大,为了提高准确率,用户需要提供需求文本来锁定目标范围。例如,一用户想锁定关于“证券”的信息,则该用户需要提供如“证券”、“股票”等关键词作为需求文本来进行查询,所有讨论过这些词的人将被锁定。所述的用户需求通常是以词的形式出现。需要说明的是,即使用户需求明确,也会由于用词的不一致而导致歧义,如“人大”既可能是人民大学,也可能是人民代表大会,所以还要对需求文本进行扩展,从而构建用户查询向量Q。
4、节点属性集LN
对于节点i的属性集LN包含以下三项:
1)、通信账号:
记录节点和通信账号之间的映射关系。
2)、邻居节点信息表:
如果节点i和节点j之间有边连接,则节点i称为节点j的邻居,各个节点有自身的邻居节点信息表。一节点的邻居节点的信息保存在该节点的邻居节点信息表中。
3)、节点中心度C:
在通信网络中每个节点由于其拓扑结构上的不同而具有不同的地位。节点中心度C是综合考虑节点紧密度、中介度和联系度的一个用于指示通信节点重要程度的指标,通常用一个矩阵加以表示。
5、边属性集LE
对于边eij的属性集LE包含以下三项:
1)、通联强度矩阵W
在通信网络中,需要评估节点之间的通信通联强度(简称通联强度)。如果节点之间有直接通信行为,则通联强度反映的是其在现实中联络强度;如果没有直接通信行为,则通联强度反映的是其在现实中产生信息交流的可能性。可综合考虑通信时间、通信频率、拓扑结构等信息来构建通联强度矩阵W。
2)、相似度矩阵S
将边表示为具有语义的向量,根据向量计算边之间的相似度。相似度矩阵S为聚类分析提供支持。
3)、用户满意度CE
根据用户需求文本可以将每条边赋予一个用户满意度CE,用户满意度用来判定此边是否在用户的兴趣范围内。
以上是对本发明的相关概念的说明,在下面的实施例中,将以邮件网络为例,对如何挖掘邮件网络中的信息的过程进行说明。在其他实施例中,参照相关过程也可以建立对诸如固定电话、移动终端等通信网络的信息挖掘。
在对邮件网络进行分析之前,必然要求有邮件通信的相关数据。这些数据可以利用现有技术从诸如互联网的通信网络上获取,在此不再重复。下面参考图1,对如何根据邮件通信数据由通信网络挖掘信息的过程进行说明。
步骤10、对邮件通信数据的预处理。
对邮件通信数据的预处理主要是要获取以下多个方面的信息:
1)、通信数据ID
对通信数据进行编号,ID是区分通信数据的唯一标识。在本实施例中,通常为一封邮件赋予一个ID。而在其他实施例中,如在MSN和QQ等即时通信中,为一次对话赋予一个ID。
2)、发送方信息
通信数据中发送方的信息。在本实施例中,发送方信息可以是发送方的电子邮件地址,在其他实施例中,也可以是发送方的账号、IP地址等,只要能够唯一标识发送方即可。
3)、接收方信息
通信数据中接收方的信息。在本实施例中,接收方信息可以是接收方的电子邮件地址,在其他实施例中,也可以是接收方的账号、IP地址等,只要能够唯一标识接收方即可。
4)、通信时间
通信数据的发生时间。在本实施例中,通信时间可以是发送方发送邮件的时间,或者是接收方接收到邮件的时间。在其他实施例中,如即时通信过程中,也可以有其他的通信时间标识方法,如以一次网络聊天的聊天开始时间作为通信时间。
5)、通信内容
通信内容就是通信数据的文本内容,如电子邮件的主题与正文,在本实施例中,不将邮件附件中的信息作为通信内容。在其他实施例中,也可以通过相关软件读取附件中的文本信息,并将其作为通信内容。由于在中文中,词与词之间并没有明显的分界线,因此,作为一种优选实现方式,需要对通信数据中的文本内容做分词处理,得到由多个词语组成的通信内容。
通信网络中的一次通信过程都可以获得上述五个方面的信息,将整个通信网络在一段时间内的所有或部分通信过程的信息集中起来就能够形成用于建立邮件通信模型的基础数据。可以对这些基础数据加以分类,并将分类结果用多个表分别加以存储。
在本实施例中,参考图2,经过分类后的数据存储在下面几个表格中:
A、映射表:该表格为一映射表,通过查询该表可以找到通信账号所对应的节点姓名信息;
B、邮件信息:该表格为通信内容表,“邮件编号”为该表的主键,对于每次通信都有唯一的“邮件编号”作为标识,如果为邮件则该表主要记录了通信的主题及正文,如果为其他通信格式则为聊天记录;
C、接收方信息表:该表格为通信内容接收信息表,在该表中,通过字段“邮件编号”可以在“邮件信息”表中查询到基本信息;
D、关联信息表:该表格为联络表,在该表格中记录了通信账号之间的收发信息;
E、权重表:该表格为通信账号联系的权重信息表;
F、交互信息表:该表为通信账号之间的交互信息表,包括文本信息向量和用户满意度。
步骤20、根据前一步骤所得到的预处理结果创建通联关系网络。
在之前的步骤中,从实际的邮件通信中获取了相应的数据,这些数据本身并不能直观地反映邮件网络的整体状况,因此需要在本步骤中根据邮件数据建立通联关系网络。
在建立通联关系网络的过程中,为每个通信账号创建一个通信节点,然后根据预处理后所得到的表格中的内容决定在通信节点间是否需要创建边。如果两个通信账号之间存在通信关系,那么这两个通信账号所对应的通信节点之间有边存在,否则,就不存在相应的边。
根据邮件通信数据建立通联关系网络的同时,可以得到节点集N和边集E。节点集N和边集E的组成与数据结构在前文中已经有相应的说明,因此不在此处重复。
步骤30、构造通信文本向量和需求文本向量。
在步骤10的预处理过程中已经提到,由预处理过程可得到通信过程中的文本信息(即通信内容),且已经对这些文本信息做了分词处理,下面通过下列操作对这些文本信息做如下处理。
步骤31、构建倒排索引
在分词结果的基础上,利用索引字典以及停用词表构建倒排索引。索引字典、停用词表以及利用索引字典与停用词表构建倒排索引的过程为本领域的公知常识,因此不在此处重复。
步骤32、创建需求文本向量与通信文本向量
在通信文本中包含有多种方面的内容,其中包括有由用户提供的、通常以查询词的形式表示的用户需求。这些与用户需求有关的文本被称为需求文本,由需求文本所创建的向量被称为需求文本向量。需求文本向量Q的形式如下:
{(t1,tw1),(t2,tw2),...,(tm,twm)}
其中,t1,t2,...,tm为查询词项,这些词都按照升序排列;tw1,tw2,...,twm为查询词项在用户心目中所占的权重。
通过需求文本的查询词项可以构建通信文本向量{(t1,tw1),(t2,tw2),...,(tm,twm)},而查询词项的权重可通过下列公式加以计算,计算邮件j中的特征词ti的权重twji
tw ji = f ij × log N f i
其中fij是通信文本集合中的邮件j中包含词ti的数目,N是通信文本集合的数目。
通过上述公式计算出权重twji后,经过加权计算就可以算出各个查询词项t1,t2,...,tm在整个通信文本集合中的权重tw1,tw2,...,twm。需要说明的是,虽然在上文中,在需求文本向量与特征文本向量中,查询词项的权重都用诸如tw的形式表示,但该权重在需求文本向量中反映的是对应的查询词项在用户心中的重要程度,而通信文本向量中则与查询词项在通信文本中出现的频率相关。
步骤33、扩展需求文本
考虑到用户所使用的查询词的多样性,如在一个查询关于电脑信息的实例中,有的用户会将电脑称为“计算机”,为了使得查询结果更加准确、完整,需要扩展需求文本。
在扩展需求文本时,需要通过一定的策略加入相关词项,使扩展后的文本能完整地描述隐含的概念或主题。
扩展需求文本的操作可以包括以下步骤:
步骤33-1、首先计算一词项t和查询词项q在文本j中的共现频度:
cof(t,q|j)=log(tf(t,j)+1.0)×log(tf(q,j)+1.0)
其中,tf(t,j)或tf(q,j)表示词t或q在文本j中的出现次数。
步骤33-2、在得到一词项与查询词项的共现频度后,可进一步计算该词项与查询词项间的关联度。
假设初始需求文本Q中的每个词之间相互独立,可以根据词项t与Q中每个词在局部文本集S中的共现频度的乘积来度量词项t与Q的关联度。词项t与Q在S中的关联度定义为:
cohd ( t , Q | S ) = Π q ∈ Q ( cood ( t , q | S ) + 1.0 ) idf ( q | C ) odf ( t | C )
其中idf(|C)定义为:
idf ( | C ) = log ( N ) log ( df ( | C ) + μ )
df(|C)表示语料集C中出现某个词项的文本数目,μ为一个大于0的可调参数,缺省值为100。
步骤33-3、由关联度计算评估函数,由所述评估函数的计算结果判定是否要将所述词项t扩展到需求文本中。
在前述关联度计算公式的基础上,两边取对数,得到评估函数score(t)的计算公式如下:
score ( t ) = Σ q ∈ Q iodf ( q | C ) idf ( t | C ) log ( cood ( t , q | S ) + 1.0 )
下面定义loddQ,C(t,q|S)为给定全局文本集C和用户需求文本向量Q的条件下,词项t与查询词q在局部文档集合S中的局部依赖度(LocalDependence Degree),其计算公式如下:
loddQ,C(t,q|S)=idf(q|C)idf(t|C)log(cood(t,q|S)+1.0)
则之前的评估函数可简化为:
score ( t ) = Σ q ∈ Q lodd Q , C ( t , q | S )
在得到评估函数的评分值以后,就可以选择评分值较高的词项进行需求文本扩展,一方面对那些在局部文本集S中与查询向量Q中的词频繁共现的词项赋予较高的评分值,另一方面对那些在全局邮件集中具有较高频度的词项则进行一定程度的惩罚(通过idf计算公式中的参数μ来调节惩罚的程度),使得最终选取的评分值最高的词项与用户需求文本的主题具有较高的相关性。
步骤40、计算节点中心度。
在前文的定义部分已经提到,节点中心度包括节点中介度、节点紧密度以及节点联系度三个指标,下面分别就如何计算这些指标进行说明。
步骤41、计算节点中介度
通过节点k的最短路径数的平均值称为节点k的中介度系数,记为CA(k),则:
C A ( k ) = Σ i n Σ j n g ij ( k ) ( n - 1 ) 2
其中,gij(k)是一个二值变量,表示节点i、j之间的最短路径是否通过节点k,通过k则为1,否则为0。
步骤42、计算节点联系度
将与节点k直接相连的节点数的平均值称为节点k的联系度系数,记为CB(k),则:
C B ( k ) = Σ i = 1 n a ( i , k ) ( n - 1 )
其中n是一个网络的节点数,a(i,k)是一个二值变量,为1说明节点i,k之间直接相连,为0说明不直接相连。
步骤43、节点紧密度
节点k和网络中所有节点之间的最短路径之和的平均值称为k的紧密度系数,记为CC(k),则:
C C ( k ) = Σ i k l ( i , k ) ( n - 1 ) 2
其中l(i,k)为节点i、k之间的最短路径长度。
在得到节点中介度、节点紧密度以及节点联系度后就可以计算节点k的中心度向量C(k)=(CA(k),CB(k),CC(k))。
步骤50、计算通联强度矩阵W
对节点i,j之间的通联关系强度评估包括四个指标:通信次数、通信时间跨度、最短路径长度、共享邻居数。下面分别对这些指标的计算过程进行说明。
步骤51、计算通信次数
节点间通信次数越多,表明其交往频繁,关系越紧密。节点i、j的通信次数计算如下:
comm_numij=sendij+receiveij
其中,sendij表示节点i向节点j发起通信的次数,receiveij表示节点i接收到节点j发起的通信次数。
步骤52、计算通信时间跨度
节点间通信时间跨度越长,表明相关节点交往历史越久,关系越紧密,节点i、j的通信时间跨度为:
dur_dayij=latest_dayij-earliest_dayij
其中,latest_dayij是最近监测到的节点i、j间的通信时间,earliest_dayij是节点i、j间的初始通信时间。
步骤53、计算最短路径长度
节点间的最短路径长度越短,表明其交往的直接性越强,关系越紧密。节点i,j间的最短路径长度用shortest_lenij表示,它是指节点i到j的所有路径中具有最少边数的路径所包含的边数。
步骤54、共享邻居数
节点间共享邻居节点越多,表明其同处一交往圈的可能性越大,关系越紧密。扫描节点i和j的邻居节点集合得到共享邻居数为:
sharenode-numij=|neighbori∩neighborj
步骤55、在计算得到通信次数、通信时间跨度、最短路径长度、共享邻居数后,就可以计算用于评估两个节点通联关系强度的函数closeness(i,j),多个维度上的函数closeness(i,j)值组成了所述的通联强度矩阵W。所述函数closeness(i,j)的计算公式为:
closeness ( i , j ) = k 1 × comm _ num ij Max _ num + k 2 × dur _ day ij Max _ day + k 3 × sharenode _ num ij Max _ node + k 4 × ( 1 - shortest _ len ij Max _ len )
其中,Max_num为所有节点间交互的最大通信次数;Max_day为所有节点间交互的最大时间跨度;Max_node为所有节点间交互的最大共享邻居数;Max_len为所有节点间交互的最长的最短路径;ki为权重系数。
步骤60、计算相似度矩阵S
步骤61、利用向量空间模型对节点i和节点j之间的边向量进行统一表示,每条边为一个向量。节点i和节点j之间的边向量定义为节点i和节点j之间所有通信文本向量的平均值。即:
e i = ( a 1 i , a 2 i · · · · · · , a n i )
其中, a j i = Σ k = 1 r E w - ID w ( m k , t j ) r , 1 ≤ j ≤ n
其中,Ew-IDw(mk,tj)表示特征词tj在通信文本mk中的权重步骤62、计算任意两边之间的相似度
利用余弦公式计算任意两边的向量
Figure GSB0000120186930000143
Figure GSB0000120186930000144
之间的相似度,其计算公式为:
s ij = cos ( e i , e j ) = e i · e j ( e i ) 2 × ( e j ) 2 = Σ k = 1 n ( a k i × a k j ) Σ k = 1 n ( a k i ) 2 × Σ k = 1 n ( a k j ) 2
sij其值越大,夹角越小,相似度越高。如果sij
Figure GSB0000120186930000147
,则认为ei和ej相似,否则不相似。其中,
Figure GSB0000120186930000148
为相似度阈值。
步骤63、构造相似度矩阵S
根据前述步骤对边进行两两相似度计算的基础上,得到相似度矩阵S:
给定阈值
Figure GSB0000120186930000149
,若sij
Figure GSB00001201869300001410
则相似,否则不相似,据此可以得过滤后的矩阵S,其中 s ij = 1 s ij &GreaterEqual; &PartialD; 0 s ij < &PartialD;
步骤70、计算用户满意度CE
通过对用户需求文本进行扩展,可以将通信内容引入到模型中。具体过程如下:
步骤71、计算需求文本的权重
为了得到用户满意程度首先需要确定各个查询词项在用户心目中的权重,在计算需求文本的权重之前首先做如下定义:
R表示满足用户需求的文本集合;
C表示全体的文本集合;
N_C表示集合中所有文本数目
N_sim表示集合中所有满足用户需求的文本数目。
计算需求文本的权重可以采用现有技术的相关方法,在本实施例中,可根据Rocchio的相关反馈实验,将需求文本作为查询向量,把满足需求的文本与不满足需求的文本都区分开来的理想查询向量
Figure GSB0000120186930000151
在每个维度上的值作为需求文本的权重。所述理想查询向量的计算公式为:
Q &RightArrow; opt = 1 N _ sim &Sigma; d j &Element; R d &RightArrow; j | d &RightArrow; j | - 1 N _ C - N _ sim &Sigma; d j &Element; C - R d &RightArrow; j | d &RightArrow; j |
其中,dj表示对应的向量的第j维,
Figure GSB0000120186930000153
表示对应的向量的第j维的值;
实际情况中,由于满足需求的文本个数是无法预先知道的,因此在实际计算时首先构造一个初始查询向量,然后根据用户指定的满足需求的文本对其逐步修改,直到达到一个理想的结果。Rocchio提出的经典算法如下:
Q &RightArrow; opt = &alpha; &times; q &RightArrow; initial + &beta; &times; &Sigma; d j &Element; R d &RightArrow; j | d &RightArrow; j | - &gamma; &times; &Sigma; d j &Element; C - R d &RightArrow; j | d &RightArrow; j |
其中α、β、γ是用于调整的三个常量,如α=0.2,β=0.5,γ=0.3;
Figure GSB0000120186930000155
表示初始查询向量。
步骤72、计算文本m的用户满意度
文本m的满意度sm表示为文本m的向量Tm与用户需求文本向量TQ之间的相似值。
s m = cos ( T m , T Q ) = T m &CenterDot; T Q ( T m ) 2 &times; ( T Q ) 2 = &Sigma; k = 1 n ( t k m &times; t k Q ) &Sigma; k = 1 n ( t k m ) 2 &times; &Sigma; k = 1 n ( t k Q ) 2
步骤73、计算边用户满意度
节点i和节点j通信的所有文本满意度的平均值称为边用户满意度CE:
CE = 1 N k &Sigma; i = 1 N k s i
其中,Nk为节点i和节点j通信的文本数量。
本发明还提供了一种通信网络的信息挖掘系统,参考图3,包括数据预处理模块、通联关系网络创建模块、文本向量构造模块、节点中心度计算模块、边属性计算模块;其中,
所述的数据预处理模块对通信数据进行预处理,获取包括通信数据ID、发送方信息、接收方信息、通信时间、通信内容在内的关于通信数据的信息;
所述的通联关系网络创建模块根据所述数据预处理模块所得到的预处理结果创建用于反映所述通信网络结构的通联关系网络,由所述通联关系网络得到用于表示所述通信网络中的通信发送方、通信接收方的节点,以及用于表示所述通信发送方、通信接收方间通信关系的边;
所述的文本向量构造模块根据用户提供的查询词构造需求文本向量与通信文本向量;
所述的节点中心度计算模块计算所述通联关系网络中各个节点的节点中心度;所述节点中心度包括节点中介度、节点紧密度以及节点联系度;
所述的边属性计算模块计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度、各个节点间的边之间的相似度以及用户对所述节点间的边的满意度。
通过上述的方法与系统,可以得到诸如节点中心度、通联关系强度、边之间的相似度以及用户对边的满意度等信息,有了这些信息以后,就可以利用这些信息做相关的应用,如对通信网络进行社区划分,找出一邮件通信网络中有密切联系的用户群体等。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种通信网络的信息挖掘方法,包括: 
步骤1)、对通信数据进行预处理,获取包括通信数据ID、发送方信息、接收方信息、通信时间、通信内容在内的关于通信数据的信息; 
步骤2)、根据在步骤1)所得到的预处理结果创建用于反映所述通信网络结构的通联关系网络,由所述通联关系网络得到用于表示所述通信网络中的通信发送方、通信接收方的节点,以及用于表示所述通信发送方、通信接收方间通信关系的边; 
步骤3)、由用户提供的查询词以及所述查询词所占的权重创建需求文本向量,由用户提供的查询词以及所述查询词在通信数据中出现的频率创建通信文本向量; 
步骤4)、计算所述通联关系网络中各个节点的节点中心度;所述节点中心度包括中介度系数、紧密度系数以及联系度系数, 
其中,该节点的中介度系数为通过节点的最短路径数的平均值, 
该节点的紧密度系数为节点和网络中所有节点之间的最短路径之和的平均值, 
该节点的联系度系数为与节点直接相连的节点数的平均值; 
步骤5)、计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度、各个节点间的边之间的相似度以及用户对所述节点间的边的满意度, 
其中,计算两个节点间的所述通信文本向量与所述需求文本向量之间的相似值,作为用户对所述通信文本的满意度,并且,计算两个节点间所有通信文本的满意度的平均值,作为所述节点间的边的用户满意度。 
2.根据权利要求1所述的通信网络的信息挖掘方法,其特征在于,所述的步骤3)包括: 
步骤3-1)、在步骤1)所得到的通信内容经过分词所得到的分词结果的基础上,利用索引字典以及停用词表构建倒排索引; 
步骤3-2)、由用户提供的查询词以及所述查询词所占的权重创建需求文本向量; 
步骤3-3)、将与所述需求文本向量中的查询词具有一定关联度的词语添加到所述需求文本向量中,以扩展所述需求文本向量。 
3.根据权利要求2所述的通信网络的信息挖掘方法,其特征在于,所述的步骤3-3)包括: 
步骤3-3-1)、计算与所述查询词在一文本中的词项共现频度; 
步骤3-3-2)、在计算出所述共现频度后,计算所述词项与所述查询词间的关联度; 
步骤3-3-3)、由所述关联度计算评估函数,由所述评估函数的计算结果判定是否要将所述词项扩展到所述需求文本向量中。 
4.根据权利要求1所述的通信网络的信息挖掘方法,其特征在于,在所述的步骤4)中, 
所述中介度系数的计算包括:将通过节点k的最短路径数的平均值称为节点k的中介度系数,记为CA(k),则: 
Figure FSB0000120186920000021
其中,n是所述通联关系网络中的节点数,gij(k)是一个二值变量,表示节点i、j之间的最短路径是否通过节点k,通过k则为1,否则为0; 
所述联系度系数的计算包括: 
将与节点k直接相连的节点数的平均值称为节点k的联系度系数,记为CB(k),则: 
Figure FSB0000120186920000022
其中,a(i,k)是一个二值变量,为1说明节点i,k之间直接相连,为0说明不直接相连; 
所述紧密度系数的计算包括: 
将节点k和网络中所有节点之间的最短路径之和的平均值称为k的紧密度系数,记为CC(k),则: 
Figure FSB0000120186920000023
其中,l(i,k)为节点i、k之间的最短路径长度, 
所述节点k的中心度向量C(k)=(CA(k),CB(k),CC(k))。 
5.根据权利要求1所述的通信网络的信息挖掘方法,其特征在于,在所述的步骤5)中, 
所述的计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度包括: 
步骤5-1-1)、计算节点间的通信次数comm_numij; 
步骤5-1-2)、计算节点间的通信时间跨度dur_dayij; 
步骤5-1-3)、计算节点间的最短路径长度shortest_lenij; 
步骤5-1-4)、计算节点间的共享邻居数sharenode_numij; 
步骤5-1-5)、计算用于评估两个节点通联关系强度的函数closeness(i,j);所述函数closeness(i,j)的计算公式为: 
Figure FSB0000120186920000031
其中,Max_num为所有节点间交互的最大通信次数;Max_day为所有节点间交互的最大时间跨度;Max_node为所有节点间交互的最大共享邻居数;Max_len为所有节点间交互的最长的最短路径;ki为权重系数。 
6.根据权利要求1所述的通信网络的信息挖掘方法,其特征在于,在所述的步骤5)中, 
所述的计算所述通联关系网络中存在通联关系的各个节点之间的边之间的相似度包括: 
步骤5-2-1)、将任意两个节点间的边的向量定义为这两个节点之间所有通信文本向量的平均值; 
步骤5-2-2)、利用余弦公式计算任意两边的向量之间的相似度。 
7.一种通信网络的信息挖掘系统,其特征在于,包括数据预处理模块、通联关系网络创建模块、文本向量构造模块、节点中心度计算模块、边属性计算模块;其中, 
所述的数据预处理模块对通信数据进行预处理,获取包括通信数据ID、发送方信息、接收方信息、通信时间、通信内容在内的关于通信数据的信息; 
所述的通联关系网络创建模块根据所述数据预处理模块所得到的预处 理结果创建用于反映所述通信网络结构的通联关系网络,由所述通联关系网络得到用于表示所述通信网络中的通信发送方、通信接收方的节点,以及用于表示所述通信发送方、通信接收方间通信关系的边; 
所述的文本向量构造模块由用户提供的查询词以及所述查询词所占的权重创建需求文本向量,由用户提供的查询词以及所述查询词在通信数据中出现的频率创建通信文本向量;所述的节点中心度计算模块计算所述通联关系网络中各个节点的节点中心度,所述节点中心度包括中介度系数、紧密度系数以及联系度系数, 
其中,该节点的中介度系数为通过节点的最短路径数的平均值, 
该节点的紧密度系数为节点和网络中所有节点之间的最短路径之和的平均值, 
该节点的联系度系数为与节点直接相连的节点数的平均值;
所述的边属性计算模块计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度、各个节点间的边之间的相似度以及用户对所述节点间的边的满意度, 
其中,计算两个节点间的所述通信文本向量与所述需求文本向量之间的相似值,作为用户对所述通信文本的满意度,并且,计算两个节点间所有通信文本的满意度的平均值,作为所述节点间的边的用户满意度。 
CN201110141987.5A 2011-05-30 2011-05-30 通信网络的信息挖掘方法与系统 Expired - Fee Related CN102195899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110141987.5A CN102195899B (zh) 2011-05-30 2011-05-30 通信网络的信息挖掘方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110141987.5A CN102195899B (zh) 2011-05-30 2011-05-30 通信网络的信息挖掘方法与系统

Publications (2)

Publication Number Publication Date
CN102195899A CN102195899A (zh) 2011-09-21
CN102195899B true CN102195899B (zh) 2014-05-07

Family

ID=44603305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110141987.5A Expired - Fee Related CN102195899B (zh) 2011-05-30 2011-05-30 通信网络的信息挖掘方法与系统

Country Status (1)

Country Link
CN (1) CN102195899B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8804929B2 (en) * 2012-10-30 2014-08-12 Alcatel Lucent System and method for generating subscriber churn predictions
CN103338460B (zh) * 2013-06-17 2016-03-30 北京邮电大学 用于动态网络环境的节点中心度的计算方法
CN104216933A (zh) * 2013-09-29 2014-12-17 北大方正集团有限公司 一种知识点隐性关系获取方法及其系统
CN104809132B (zh) * 2014-01-27 2018-07-31 阿里巴巴集团控股有限公司 一种获取网络主体社交关系类型的方法及装置
CN104915879B (zh) * 2014-03-10 2019-08-13 华为技术有限公司 基于金融数据的社会关系挖掘的方法及装置
CN106921504B (zh) * 2015-12-24 2020-07-07 阿里巴巴集团控股有限公司 一种确定不同用户的关联路径的方法和设备
CN107168943B (zh) 2017-04-07 2018-07-03 平安科技(深圳)有限公司 话题预警的方法和装置
CN109102111A (zh) * 2018-07-26 2018-12-28 北京工商大学 一种度量导演与演员合作可能性的方法
CN112565060B (zh) * 2020-12-04 2022-06-10 南京中新赛克科技有限责任公司 基于qq文本流量分析目标通联对端的系统及其方法
CN112887923B (zh) * 2021-01-22 2022-02-15 中国科学院自动化研究所 基于动态通信网络的无监督异常短文本监测方法及系统
CN116109121B (zh) * 2023-04-17 2023-06-30 西昌学院 基于大数据分析的用户需求挖掘方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079072A (zh) * 2007-06-22 2007-11-28 中国科学院研究生院 一种文本聚类元学习方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL160731A0 (en) * 2001-09-04 2004-08-31 Ibm A sampling approach for data mining of association rules
JP2008529168A (ja) * 2005-01-28 2008-07-31 ユナイテッド パーセル サービス オブ アメリカ インコーポレイテッド 地域内の各サービス地点の住所データの登録および維持
US8412646B2 (en) * 2008-10-03 2013-04-02 Benefitfocus.Com, Inc. Systems and methods for automatic creation of agent-based systems

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079072A (zh) * 2007-06-22 2007-11-28 中国科学院研究生院 一种文本聚类元学习方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Discovering Important Nodes through Comprehensive》;Huijie Yang;《2010 3rd International Conference on Biomedical Engineering and Informatics》;20101231;全文 *
Huijie Yang.《Discovering Important Nodes through Comprehensive》.《2010 3rd International Conference on Biomedical Engineering and Informatics》.2010,

Also Published As

Publication number Publication date
CN102195899A (zh) 2011-09-21

Similar Documents

Publication Publication Date Title
CN102195899B (zh) 通信网络的信息挖掘方法与系统
Sharma et al. A novel method for detecting spam email using KNN classification with spearman correlation as distance measure
US8527436B2 (en) Automated parsing of e-mail messages
US10565233B2 (en) Suffix tree similarity measure for document clustering
CN101119326B (zh) 一种即时通信会话记录的管理方法及装置
US9324112B2 (en) Ranking authors in social media systems
US9292493B2 (en) Systems and methods for automatically detecting deception in human communications expressed in digital form
Basavaraju et al. A novel method of spam mail detection using text based clustering approach
CA2475267C (en) A method and apparatus for sociological data mining
US20130132481A1 (en) Method, apparatus and system for providing social network service using social activities
CN104933113A (zh) 一种基于语义理解的表情输入方法和装置
CN108415953A (zh) 一种基于自然语言处理技术的不良资产经营知识管理方法
Sharaff et al. Email thread identification using latent Dirichlet allocation and non-negative matrix factorization based clustering techniques
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
Tajbakhsh et al. Semantic knowledge LDA with topic vector for recommending hashtags: Twitter use case
CN110008306A (zh) 一种数据关系分析方法、装置及数据服务系统
CN106204297A (zh) 一种封闭社交传播意见领袖的识别方法及装置
CN106294418A (zh) 检索方法和检索系统
CN103580919A (zh) 一种利用邮件服务器日志进行邮件用户标记的方法与系统
Roy et al. Spam detection using hybrid model of rough set and decorate ensemble
Hadi et al. Trigonometric words ranking model for spam message classification
Avigdor-Elgrabli et al. Structural clustering of machine-generated mail
Arif et al. Social network extraction: a review of automatic techniques
Liang et al. Personalized recommender systems integrating social tags and item taxonomy
Akhtar et al. A mechanism to detect Urdu spam emails

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140507

Termination date: 20160530