CN108460499B - 一种融合用户时间信息的微博客用户影响力排名方法 - Google Patents
一种融合用户时间信息的微博客用户影响力排名方法 Download PDFInfo
- Publication number
- CN108460499B CN108460499B CN201810281738.8A CN201810281738A CN108460499B CN 108460499 B CN108460499 B CN 108460499B CN 201810281738 A CN201810281738 A CN 201810281738A CN 108460499 B CN108460499 B CN 108460499B
- Authority
- CN
- China
- Prior art keywords
- user
- influence
- users
- tensor
- follows
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 27
- 238000012512 characterization method Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000009792 diffusion process Methods 0.000 claims description 14
- 239000013256 coordination polymer Substances 0.000 claims description 11
- 238000012552 review Methods 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 4
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 2
- 238000012353 t test Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种融合用户时间信息的微博客用户影响力排名方法,包括步骤:(1)对微博客用户进行特征化处理;(2)根据微博客用户特征对所有用户集进行聚类,得到微博客中的潜在有影响力用户集;(3)对潜在有影响力用户集构建特定话题领域下的张量影响力模型;(4)利用张量分解重构新的张量影响力模型;(5)根据重构的张量影响力模型预测用户的影响力得分;(6)根据用户的影响力得分从高到低排序,得到用户的影响力排名结果并输出。本发明方法可提高特定话题领域下用户影响力预测精度。
Description
技术领域
本发明涉及用户影响力分析技术领域,尤其涉及一种融合用户时间信息的微博客用户影响力排名方法。
背景技术
当前,有很多技术方法可用于用户影响力分析。传统的用户影响力分析方法主要基于统计用户的特征数据度量用户的影响力。在一般的微博客中,系统都会记录用户不同的特征数据,这些特征数据包括了粉丝数、关注者数、发表文章数、评论数、转发数等。通过分析和挖掘隐藏在此类特征数据之后的分布和规律,就能够获得用户潜在的影响力指标。该类方法统计方法直观,计算过程较为简单,有较好的普适性,但由于选取的多为用户的直观特征,并不能挖掘潜藏在网络结构或用户交互信息背后的影响力信息。
当前,存在着一些基于网络结构的影响力分析方法。在社交媒介尤其是微博客媒介中存在大量用户间的交互行为,研究者们通常根据这些交互行为构建社交网络。在这个社交网络中,节点表示一个独立的用户或一群同类用户,网络中的边则表示用户间的交互关系,如相互评论的关系、粉丝与被粉者的关系等。研究者通过衡量节点与边的网络重要程度获得节点用户的社会影响力值。这类方法相比基于用户特征数据的影响力分析方法能够较好的反应用户在网络中的特定信息。
当前,还存在着一些基于交互话题信息的的影响力分析方法。近年来研究表明,在用户的社交活动中,信息多以话题的形式产生和传播,从话题角度能够更加细致的度量用户的影响力。该类方法多利用LDA模型等话题模型计算所有推文的所属话题,并利推文的话题信息构建用户的话题特征,在特定话题下计算用户影响力排名。
然而,目前特定话题下的影响力模型研究往往忽略了隐藏在用户行为中的时间特征,而这些时间特征通常与用户的信息扩散能力密切相关,用户信息扩散能力的大小直接影响用户在社交媒介中的影响力。因此,人们希望找到一种更加高效、细致的以及能够融合用户时间等特征的张量影响力分析方法,进而提高用户影响力排序预测精度和减少预测的时间消耗。
发明内容
针对上述现有技术不足,本发明提供一种融合用户时间信息的微博客用户影响力排名方法,通过聚类得到潜在的有影响力用户,以这些潜在有影响力用户的特征为基础构建张量模型,最后,利用融合时间特征的张量影响力分析方法计算用户影响力排名,以进一步提高特定话题领域下用户影响力预测精度。
为实现上述目的,本发明的技术方案是:一种融合用户时间信息的微博客用户影响力排名方法,包括以下步骤:
步骤S1:对微博客用户进行特征化处理;
步骤S2:根据微博客用户特征对所有用户集进行聚类,得到微博客中的潜在有影响力用户集;
步骤S3:对潜在有影响力用户集构建特定话题领域下的张量影响力模型;
步骤S4:对张量影响力模型进行分解,在张量分解的过程中加入考虑与用户信息扩散能力相关的时间特征约束,重构新的张量影响力模型;
步骤S5:根据重构的张量影响力模型预测用户的影响力得分;
步骤S6:根据用户的影响力得分从高到低排序,得到用户的影响力排名结果并输出。
进一步地,所述步骤S1中特征化处理指根据微博客信息将用户特征化,包括以下特征:粉丝评论反应率特征、粉丝评论观点倾向特征、粉丝活跃度特征和用户网络中心度特征;
D={(d1,t1),(d2,t2),…,(dq,tq)}表示,其中q表示数据集中包含的文章总数,每篇文章的评论内容与时间的二元组集合为di={(c1,t1),(c2,t2),…,(cr,tw)},其中w表示文章di所包含的评论个数,对应的,在所有发布文章的n个用户的q篇文章上进行评论的粉丝用户集合用表示,其中m表示所有进行过评论的粉丝用户数,每个粉丝用户关联着他们的一些特征属性集,其中粉丝用户的粉丝数集合定义为F={f1,f2,…,fm},粉丝用户发表的文章数集合为
P={P1,P2,…,Pm};
其中,t为给定的时间窗口,表示粉丝用户对用户的评论的时延,pu为发表文章的用户,cu为发表评论的用户,δ(x=y)是一个指示函数,当x=y时,为1,反之为0;每个用户发表文章的时间及其粉丝对该文章进行评论的时间从文档集D中获得;
进一步地,所述步骤S2具体包括:
定义聚类模块的每个聚类输入样本为ya=[ya1,ya2,ya3,ya4],其中,ya1、ya2、ya3和ya4分别表示Il(upi)和Ic(upi),指定聚类模型的聚类中心Cf,其中f是所有聚类中心的个数,每个聚类中心也对应四个特征,Cs=[cs1,cs2,cs3,cs4],对于聚类模型,有如下损失函数:
其中,Y为输入样本集合,Y={y1,y2,...,ye},e表示输入样本的个数,下标i表示样本中的特征位置,下标j表示权重所在网络的层序,wij是网络聚类模型中不同层间的链接权,Cs是输入样例ya当前所属的聚类中心,在聚类过程中采用随机梯度下降法对每一个连接权wij的权值进行更新,更新过程如下:
则wij (t+1)=wij (t)-η(wij (t)yei2-yeicsi)
在每一轮权值更新结束时,对每一个聚类中心进行更新,更新规则如下:
进一步地,所述步骤S3具体包括:
在聚类后的每一个类簇被标记为一个指定的潜在有影响力用户集,选择包含最多的潜在有影响力的用户簇作为张量影响力模型的用户来源,定义这个用户子集为U′P,其中,U′P∈UP,定义一个三阶张量X∈RI×J×K表示用户影响力模型,它的rank-R CP分解表示为:
其中,A∈RI×R,B∈RJ×R,C∈RK×R是张量潜在因子矩阵,张量的每个元素Xijk分别表示用户upi与其粉丝用户ucj在第k个方面的影响力值大小,I表示U′P中包含的用户个数,J表示进行评论的粉丝用户的个数,K表示张量中考虑的用户影响力特征的个数,即张量的片数。
进一步地,所述张量的片数为3,即粉丝评论观点倾向张量片,粉丝活跃度张量片和用户网络中心度张量片,计算过程如下:
Xij1=O(ucj)δ(cu=ucj)δ(pu=upi)
ucj∈Uc,upi∈U′P。
进一步地,所述步骤S4具体包括:
基于随机梯度下降法对三阶张量X∈RI×J×K进行分解,对于三阶张量
X∈RI×J×K,其加入时间特征约束后的CP分解损失函数为:
对应的CP分解最优化目标函数为:
minλ,A,B,C Lρ(X;A,B,C)
在张量模型X∈RI×J×K分解过程中的用户潜在特征矩阵A中加入时间特征约束矩阵Q,用户的时间特征约束矩阵Q为一个对角矩阵,其每个元素计算公式如下:
对A求导,有
T(B,C)和Y(.,B,C)计算方法如下:
T(B,C)=BTBCTC 公式(4-17)
Y(.,B,C)=X(1)Z1 公式(4-18)
其中,X(1)为张量X的一模展开,Z1=C⊙B,同理可求得T(A,C)、T(A,B)、Y(A,.,C)、Y(A,B,.),符号⊙表示矩阵的Khatri–Rao积,
对A有以下更新规则:
其中,η表示更新速率;I为单位矩阵;上标t表明时刻;
对B有以下更新规则:
C的更新规则与B相同。
进一步地,所述步骤S5具体包括:
其中,r表示所有对upi进行评论的用户总数;
计算用户粉丝活跃度Il:对于用户upi,其粉丝活跃度影响力得分为:
计算用户的网络中心度Iv:对于用户upi,其网络中心度影响力得分为:
其中,为预测出的新的张量,采用min-max对用户每个影响力得分在各自的影响力因子内进行归一化处理,聚合三个统一量纲的影响力因子与话题相似性指标Si,得到用户的最终的影响力值I,对于用户upi,其最终影响力为:
所述话题相似性指标Si计算如下:
(1)给定所有用户的文档集合,在确定要生成的话题个数后和每个话题包含的词的个数后,通过LDA模型计算出话题的潜在词向量
G=[g1,g2,...,gn];
(2)以潜在词向量为基础,将每个用户发表过的相关话题的所有文章看作一篇总文章,计算G中每个词是否在这篇总文章中出现,对于每个用户,得到一个包含|T|个特征的用户特征向量E(e1,e2,…,eT),采用向量的余弦相似度公式计算用户间的相似性,具体计算公式如下:
其中,|T|表示词向量的大小;e1k表示用户1的用户特征向量里的第k个元素,e2k表示用户2的用户特征向量里的第k个元素。
(3)用户ui的话题相似性指标Si,计算公式如下:
其中,n是需要计算影响力的用户数,δ(x)是一个指示函数,当x大于设定阈值时,δ(x)的值为1,反之为0。
进一步地,所述设定阈值为0.25。
与现有技术相比,本发明具有有益效果:
(1)在聚类过程中,可以过滤发表大量广告而影响能力较低的营销号,得到潜在有影响力的用户簇;
(2)在张量分解过程中,引入用户时间特征矩阵的约束,进一步提高信息扩散能力较强的用户的影响力。
附图说明
图1是本发明工作流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,一种融合用户时间信息的微博客用户影响力排名方法,包括以下步骤:
步骤S1:对微博客用户进行特征化处理;
步骤S2:根据微博客用户特征对所有用户集进行聚类,得到微博客中的潜在有影响力用户集;
步骤S3:对潜在有影响力用户集构建特定话题领域下的张量影响力模型;
步骤S4:对张量影响力模型进行分解,在张量分解的过程中加入考虑与用户信息扩散能力相关的时间特征约束,重构新的张量影响力模型;
步骤S5:根据重构的张量影响力模型预测用户的影响力得分;
步骤S6:根据用户的影响力得分从高到低排序,得到用户的影响力排名结果并输出。
所述步骤S1中特征化处理指根据微博客信息将用户特征化,包括以下特征:粉丝评论反应率特征、粉丝评论观点倾向特征、粉丝活跃度特征和用户网络中心度特征;
D={(d1,t1),(d2,t2),…,(dq,tq)}表示,其中q表示数据集中包含的文章总数,每篇文章的评论内容与时间的二元组集合为di={(c1,t1),(c2,t2),…,(cr,tw)},其中w表示文章di所包含的评论个数,对应的,在所有发布文章的n个用户的q篇文章上进行评论的粉丝用户集合用表示,其中m表示所有进行过评论的粉丝用户数,每个粉丝用户关联着他们的一些特征属性集,其中粉丝用户的粉丝数集合定义为F={f1,f2,…,fm},粉丝用户发表的文章数集合为P={P1,P2,…,Pm};
其中,t为给定的时间窗口,表示粉丝用户对用户的评论的时延,pu为发表文章的用户,cu为发表评论的用户,δ(x=y)是一个指示函数,当x=y时,为1,反之为0;每个用户发表文章的时间及其粉丝对该文章进行评论的时间从文档集D中获得;
每位粉丝用户在对用户发表的文章进行评论时,会展现出一定的评论观点极性,利用情感词典的方法计算的每条评论的评论观点极性,然后,通过聚合用户所有评论的观点极性,可以计算得到用户在网络中的全局观点倾向,用户的粉丝评论观点倾向计算如下:
的值为1,其余情况为-1;每个粉丝具体的评论倾向性从文档集D中获得;将基础用户的一个评论用户所发表的文章数作为该评论用户的活跃度指数,聚合所有评论用户的活跃度可以得到的粉丝活跃度,用户的粉丝活跃度计算如下:
用户的影响力分析可以表示为:给定话题a,找到一个映射关系Infa(Up,Uc,Fc,Pc,D)→(Ip,Io,Il,Iv),通过聚合Ip,Io,Il,Iv这四个用户特征值得到用户总体影响力值并在此影响力估计值的基础上对用户进行排序得到最终的影响力排名。
所述步骤S2具体包括:
定义聚类模块的每个聚类输入样本为ya=[ya1,ya2,ya3,ya4],其中,ya1、ya2、ya3和ya4分别表示Il(upi)和Ic(upi),指定聚类模型的聚类中心Cf,其中f是所有聚类中心的个数,每个聚类中心也对应四个特征,Cs=[cs1,cs2,cs3,cs4],对于聚类模型,有如下损失函数:
其中,Y为输入样本集合,Y={y1,y2,...,ye},e表示输入样本的个数,下标i表示样本中的特征位置,下标j表示权重所在网络的层序,wij是网络聚类模型中不同层间的链接权,Cs是输入样例ya当前所属的聚类中心,在聚类过程中采用随机梯度下降法对每一个连接权wij的权值进行更新,更新过程如下:
则wij (t+1)=wij (t)-η(wij (t)yei 2-yeicsi)
在每一轮权值更新结束时,对每一个聚类中心进行更新,更新规则如下:
所述步骤S3具体包括:
在聚类后的每一个类簇被标记为一个指定的潜在有影响力用户集,选择包含最多的潜在有影响力的用户簇作为张量影响力模型的用户来源,定义这个用户子集为U′P,其中,U′P∈UP,定义一个三阶张量X∈RI×J×K表示用户影响力模型,它的rank-R CP分解表示为:
其中,A∈RI×R,B∈RJ×R,C∈RK×R是张量潜在因子矩阵,张量的每个元素Xijk分别表示用户upi与其粉丝用户ucj在第k个方面的影响力值大小,I表示U′P中包含的用户个数,J表示进行评论的粉丝用户的个数,K表示张量中考虑的用户影响力特征的个数,即张量的片数。
进一步地,所述张量的片数为3,即粉丝评论观点倾向张量片,粉丝活跃度张量片和用户网络中心度张量片,计算过程如下:
Xij1=O(ucj)δ(cu=ucj)δ(pu=upi)
用户网络中心度张量片表示粉丝用户的粉丝数的情况,在微博客社交媒介中,用户间的相互关注关系构成了一个庞大的社交网络,在这个网络中,节点表示用户,关注关系构成节点间的有向边。在该网络中,网络中心度通常以节点在网络中扩散能力衡量[1]。通常情况下,影响力高的用户在网络中拥有较高的中心度,其在网络中潜在的扩散能力也较强。该张量片中的每一个元素计算如下:
ucj∈Uc,upi∈U′P。
所述步骤S4具体包括:
基于随机梯度下降法对三阶张量X∈RI×J×K进行分解,对于三阶张量X∈RI×J×K,其加入时间特征约束后的CP分解损失函数为:
对应的CP分解最优化目标函数为:
minλ,A,B,C Lρ(X;A,B,C)
在张量模型X∈RI×J×K分解过程中的用户潜在特征矩阵A中加入时间特征约束矩阵Q,在张量分解重构的过程中,利用该约束条件,提高信息扩散能力较大的用户的影响力值,而降低发表大量文章但其文章扩散能力较小的营销号等用户的影响力值。用户的时间特征约束矩阵Q为一个对角矩阵,其每个元素计算公式如下:
对A求导,有
T(B,C)和Y(.,B,C)计算方法如下:
T(B,C)=BTBCTC 公式(4-17)
Y(.,B,C)=X(1)Z1 公式(4-18)
其中,X(1)为张量X的一模展开,Z1=C⊙B,同理可求得T(A,C)、T(A,B)、Y(A,.,C)、Y(A,B,.),符号⊙表示矩阵的Khatri–Rao积,
对A有以下更新规则:
其中,η表示更新速率;I为单位矩阵;上标t表明时刻;
对B有以下更新规则:
C的更新规则与B相同。
所述步骤S5具体包括:
其中,r表示所有对upi进行评论的用户总数;
计算用户粉丝活跃度Il:对于用户upi,其粉丝活跃度影响力得分为:
计算用户的网络中心度Iv:对于用户upi,其网络中心度影响力得分为:
其中,为预测出的新的张量,采用min-max对用户每个影响力得分在各自的影响力因子内进行归一化处理,聚合三个统一量纲的影响力因子与话题相似性指标Si,得到用户的最终的影响力值I,对于用户upi,其最终影响力为:
所述话题相似性指标Si计算如下:
(1)给定所有用户的文档集合,在确定要生成的话题个数后和每个话题包含的词的个数后,通过LDA模型计算出话题的潜在词向量G=[g1,g2,...,gn];以话题“法律”为例,选取508个相关用户2016-10-31至2016-12-01期间共6992篇文档,利用LDA模型计算得到这508个用户的话题潜在词向量T,向量中包含的词共计170个,部分话题词如表1所示:
表1
法律 | 律师 | 法院 | 司法 | 规定 | 社会 | 案件 | 发布 |
管理 | 合同 | 咨询 | 责任 | 法治 | 诉讼 | 制度 | 案例 |
法官 | 依法 | 纠纷 | 犯罪 | 赔偿 | 意见 | 事件 | 刑事 |
行政 | 离婚 | 警方 | 财产 | 违法 | 事故 | 法学 | 判决 |
风险 | 法庭 | 认定 | 政法 | 普法 | 审理 | 审判 | … |
(2)以潜在词向量为基础,将每个用户发表过的相关话题的所有文章看作一篇总文章,计算G中每个词是否在这篇总文章中出现,对于每个用户,得到一个包含|T|个特征的用户特征向量E(e1,e2,…,e|T|),采用向量的余弦相似度公式计算用户间的相似性,具体计算公式如下:
其中,|T|表示词向量的大小;e1k表示用户1的用户特征向量里的第k个元素,e2k表示用户2的用户特征向量里的第k个元素。
(3)用户ui的话题相似性指标Si,计算公式如下:
其中,n是需要计算影响力的用户数,δ(x)是一个指示函数,当x大于设定阈值时,δ(x)的值为1,反之为0。设定阈值通常设置为0.25。
本发明实验在新浪微博数据集的四个话题上利用基于用户簇的张量用户影响力分析方法预测用户的影响力得分并得到其最终的影响力排名。实验结果表明,基于用户簇的张量影响力分析模型不仅能够较好的预测高影响力的用户,预测准确率相比基准实验有一定的提升,同时,该模型在所有话题上的平均预测准确率也要高于基准实验,证明其预测效果要好于基准实验。
为保证实验结果的稳定性,所有实验都独立进行10次,并使用t检验比较实验结果的差异性,具体的p-value将在实验中给出,同时,为了更好的体现本发明所提出的方法在度量用户社会影响力上的有效性,本发明设置的基准实验如下:
(1)TwitterRank:TwitterRank以用户间通过评论与被评论形成交互关系,并以此交互关系与用户发表的文章为基础,计算特定话题下的用户影响力得分。
(2)OOLAM:与TwitterRank类似,用户间通过评论与被评论形成交互关系。
(3)HF_CP_ALS:该方法在张量观点影响力模型的分解过程中考虑了话题的约束性问题,并且其张量元素始终保持非负约束。
本发明方法实验在进行张量分解前,首先需要确定张量潜在因子矩阵的维数R,R越大,分解重构出的张量对原始张量的拟合效果越好,即分解精度指标RN越小,然而过大的R值将导致分解的时空复杂度无法接受,因此,根据已有文献的经验,将R定为10。另一方面,本发明实验采用固定学习率η=0.1的方法进行随机梯度下降。同时,对于所有采用张量分解的方法,当迭代过程中RN的变化值小于1×10-5的量级时,即结束迭代过程。
采用用户影响力排序准确率指标P@k、单一话题下用户影响力平均排序准确率指标AP、所有话题下用户影响力平均排序准确率均值指标MAP三个指标度量用户社会影响力排序准确率,
其中,Ak为人工标注排序后的用户影响力top-k用户集,Bk为实验排序后的用户影响力top-k用户集。该指标表明两个排序集合的吻合程度,值越大,表明越吻合。
其中,i表示不同准确率的选取位置,n表示用户的总数,该指标反映了单一话题下模型预测的性能。
其中a表示某一话题,ca表示话题总数。由MAP计算公式可知,MAP指的是多个查询的平均准确率(AP)的平均值,反映了模型在多个话题下的总体预测性能。可以看出,MAP值越高,模型预测出来的用户影响力排名精度越高,说明预测效果越好,反之,MAP值越低,说明预测效果越差。
实验结果如表2、表3所示。
表2
表3
表2给出了本发明提出的基于用户簇的张量影响力分析方法与基准实验方法在P@k上的对比值,利用t检验方法计算得到各方法独立10次实验的p-value值均小于0.05,由此可知,各方法的实验结果是显著的。
实验结果可知,本发明方法相比TwitterRank方法提升明显,说明活跃度越高、在越短时间内能够聚集越多评论的用户的影响力越高,该结论更加符合真实的影响力评价;本发明方法相比OOLAM方法,在P@k预测精度上至少提升10%,这也反应了拥有较高信息扩散能力和高话题相似性的用户,其拥有更大的可能获得更高的影响力值。HF_CP_ALS在张量分解过程中未考虑用户的时间特征,因此,拥有较高信息扩散能力的用户未能通过该方法充分获取较高的影响力值。
由表3可知,本发明方法的单一话题下用户影响力平均排序准确率指标AP值除了在话题“篮球”上略低于方法OOLAM外,其余均好于基准实验方法。总体上,本发明方法的所有话题下的用户影响力平均排序准确率均值指标MAP相比所有基准实验,至少提升3.4%。
综上所述,本发明提出的方法在用户影响力预测性能上要好于基准实验方法。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (7)
1.一种融合用户时间信息的微博客用户影响力排名方法,其特征在于,包括以下步骤:
步骤S1:对微博客用户进行特征化处理;
步骤S2:根据微博客用户特征对所有用户集进行聚类,得到微博客中的潜在有影响力用户集;
步骤S3:对潜在有影响力用户集构建特定话题领域下的张量影响力模型;
步骤S4:对张量影响力模型进行分解,在张量分解的过程中加入考虑与用户信息扩散能力相关的时间特征约束,重构新的张量影响力模型;
步骤S5:根据重构的张量影响力模型预测用户的影响力得分;
步骤S6:根据用户的影响力得分从高到低排序,得到用户的影响力排名结果并输出;
其中,所述步骤S2具体包括:
定义聚类模块的每个聚类输入样本为ya=[ya1,ya2,ya3,ya4],其中,ya1、ya2、ya3和ya4分别表示Il(upi)和Ic(upi),指定聚类模型的聚类中心Cf,其中f是所有聚类中心的个数,每个聚类中心也对应四个特征,Cs=[cs1,cs2,cs3,cs4],对于聚类模型,有如下损失函数:
其中,Y为输入样本集合,Y={y1,y2,...,ye},e表示输入样本的个数,下标i表示样本中的特征位置,下标j表示权重所在网络的层序,wij是网络聚类模型中不同层间的链接权,Cs是输入样例ya当前所属的聚类中心,在聚类过程中采用随机梯度下降法对每一个连接权wij的权值进行更新,更新过程如下:
则wij (t+1)=wij (t)-η(wij (t)yei 2-yeicsi)
在每一轮权值更新结束时,对每一个聚类中心进行更新,更新规则如下:
2.根据权利要求1所述的微博客用户影响力排名方法,其特征在于,所述步骤S1中特征化处理指根据微博客信息将用户特征化,包括以下特征:粉丝评论反应率特征、粉丝评论观点倾向特征、粉丝活跃度特征和用户网络中心度特征;定义为微博中发布文章的用户集合,其中n表示发布文章的用户数,所有n个用户发布的文章与时间的二元组集合用D={(d1,t1),(d2,t2),…,(dq,tq)}表示,其中q表示数据集中包含的文章总数,每篇文章的评论内容与时间的二元组集合为di={(c1,t1),(c2,t2),…,(cr,tw)},其中w表示文章di所包含的评论个数,对应的,在所有发布文章的n个用户的q篇文章上进行评论的粉丝用户集合用表示,其中m表示所有进行过评论的粉丝用户数,每个粉丝用户关联着他们的一些特征属性集,其中粉丝用户的粉丝数集合定义为F={f1,f2,…,fm},粉丝用户发表的文章数集合为P={P1,P2,…,Pm};
其中,t为给定的时间窗口,表示粉丝用户对用户的评论的时延,pu为发表文章的用户,cu为发表评论的用户,δ(x=y)是一个指示函数,当x=y时,为1,反之为0;每个用户发表文章的时间及其粉丝对该文章进行评论的时间从文档集D中获得;
3.根据权利要求2所述的微博客用户影响力排名方法,其特征在于,所述步骤S3具体包括:
在聚类后的每一个类簇被标记为一个指定的潜在有影响力用户集,选择包含最多的潜在有影响力的用户簇作为张量影响力模型的用户来源,定义这个用户子集为U′P,其中,U′P∈UP,定义一个三阶张量X∈RI×J×K表示用户影响力模型,它的rank-R CP分解表示为:
其中,A∈RI×R,B∈RJ×R,C∈RK×R是张量潜在因子矩阵,张量的每个元素Xijk分别表示用户upi与其粉丝用户ucj在第k个方面的影响力值大小,I表示U′P中包含的用户个数,J表示进行评论的粉丝用户的个数,K表示张量中考虑的用户影响力特征的个数,即张量的片数。
5.根据权利要求3所述的微博客用户影响力排名方法,其特征在于,所述步骤S4具体包括:
基于随机梯度下降法对三阶张量X∈RI×J×K进行分解,对于三阶张量X∈RI×J×K,其加入时间特征约束后的CP分解损失函数为:
对应的CP分解最优化目标函数为:
minλ,A,B,CLρ(X;A,B,C)
在张量模型X∈RI×J×K分解过程中的用户潜在特征矩阵A中加入时间特征约束矩阵Q,用户的时间特征约束矩阵Q为一个对角矩阵,其每个元素计算公式如下:
对A求导,有
T(B,C)和Y(.,B,C)计算方法如下:
T(B,C)=BTBCTC
Y(.,B,C)=X(1)Z1
其中,X(1)为张量X的一模展开,Z1=C⊙B,同理可求得T(A,C)、T(A,B)、Y(A,.,C)、Y(A,B,.),符号⊙表示矩阵的Khatri–Rao积,
对A有以下更新规则:
其中,η表示更新速率;I为单位矩阵;上标t表明时刻;
对B有以下更新规则:
C的更新规则与B相同。
6.根据权利要求4所述的微博客用户影响力排名方法,其特征在于,所述步骤S5具体包括:
其中,r表示所有对upi进行评论的用户总数;
计算用户粉丝活跃度Il:对于用户upi,其粉丝活跃度影响力得分为:
计算用户的网络中心度Iv:对于用户upi,其网络中心度影响力得分为:
其中,为预测出的新的张量,采用min-max对用户每个影响力得分在各自的影响力因子内进行归一化处理,聚合三个统一量纲的影响力因子与话题相似性指标Si,得到用户的最终的影响力值I,对于用户upi,其最终影响力为:
所述话题相似性指标Si计算如下:
(1)给定所有用户的文档集合,在确定要生成的话题个数后和每个话题包含的词的个数后,通过LDA模型计算出话题的潜在词向量G=[g1,g2,...,gn];
(2)以潜在词向量为基础,将每个用户发表过的相关话题的所有文章看作一篇总文章,计算G中每个词是否在这篇总文章中出现,对于每个用户,得到一个包含|T|个特征的用户特征向量E(e1,e2,…,e|T|),采用向量的余弦相似度公式计算用户间的相似性,具体计算公式如下:
其中,|T|表示词向量的大小;e1k表示用户1的用户特征向量里的第k个元素,e2k表示用户2的用户特征向量里的第k个元素;
(3)用户ui的话题相似性指标Si,计算公式如下:
其中,n是需要计算影响力的用户数,δ(x)是一个指示函数,当x大于设定阈值时,δ(x)的值为1,反之为0。
7.根据权利要求6所述的微博客用户影响力排名方法,其特征在于,所述设定阈值为0.25。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810281738.8A CN108460499B (zh) | 2018-04-02 | 2018-04-02 | 一种融合用户时间信息的微博客用户影响力排名方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810281738.8A CN108460499B (zh) | 2018-04-02 | 2018-04-02 | 一种融合用户时间信息的微博客用户影响力排名方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108460499A CN108460499A (zh) | 2018-08-28 |
CN108460499B true CN108460499B (zh) | 2022-03-08 |
Family
ID=63237112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810281738.8A Active CN108460499B (zh) | 2018-04-02 | 2018-04-02 | 一种融合用户时间信息的微博客用户影响力排名方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108460499B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109451332B (zh) * | 2018-11-16 | 2021-11-09 | 武汉斗鱼网络科技有限公司 | 一种用户属性标记方法、装置、计算机设备及介质 |
CN110059240A (zh) * | 2019-03-20 | 2019-07-26 | 重庆邮电大学 | 一种基于影响等级的网络用户责任指数计算方法 |
CN110110013B (zh) * | 2019-05-10 | 2020-03-24 | 成都信息工程大学 | 一种基于时空属性的实体竞争关系数据挖掘方法 |
CN112182395B (zh) * | 2020-10-10 | 2023-08-29 | 深圳市万佳安物联科技股份有限公司 | 一种基于时间序列的金融服务个性化推荐装置和方法 |
CN114580427B (zh) * | 2021-12-29 | 2024-06-14 | 北京邮电大学 | 自媒体用户选择方法及相关设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872343A (zh) * | 2009-04-24 | 2010-10-27 | 罗彤 | 半监督式的海量数据层次分类方法 |
CN104123352A (zh) * | 2014-07-10 | 2014-10-29 | 西安理工大学 | 面向微博的话题层次用户影响力度量方法 |
CN104598565A (zh) * | 2015-01-09 | 2015-05-06 | 国家电网公司 | 一种基于随机梯度下降算法的k均值大规模数据聚类方法 |
CN105260474A (zh) * | 2015-10-29 | 2016-01-20 | 俞定国 | 一种基于信息交互网络的微博用户影响力计算方法 |
CN106022865A (zh) * | 2016-05-10 | 2016-10-12 | 江苏大学 | 一种基于评分和用户行为的商品推荐方法 |
CN106782511A (zh) * | 2016-12-22 | 2017-05-31 | 太原理工大学 | 修正线性深度自编码网络语音识别方法 |
CN107358576A (zh) * | 2017-06-24 | 2017-11-17 | 天津大学 | 基于卷积神经网络的深度图超分辨率重建方法 |
CN107578392A (zh) * | 2017-09-25 | 2018-01-12 | 华北电力大学 | 一种基于残余插值的卷积神经网络去马赛克算法 |
-
2018
- 2018-04-02 CN CN201810281738.8A patent/CN108460499B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872343A (zh) * | 2009-04-24 | 2010-10-27 | 罗彤 | 半监督式的海量数据层次分类方法 |
CN104123352A (zh) * | 2014-07-10 | 2014-10-29 | 西安理工大学 | 面向微博的话题层次用户影响力度量方法 |
CN104598565A (zh) * | 2015-01-09 | 2015-05-06 | 国家电网公司 | 一种基于随机梯度下降算法的k均值大规模数据聚类方法 |
CN105260474A (zh) * | 2015-10-29 | 2016-01-20 | 俞定国 | 一种基于信息交互网络的微博用户影响力计算方法 |
CN106022865A (zh) * | 2016-05-10 | 2016-10-12 | 江苏大学 | 一种基于评分和用户行为的商品推荐方法 |
CN106782511A (zh) * | 2016-12-22 | 2017-05-31 | 太原理工大学 | 修正线性深度自编码网络语音识别方法 |
CN107358576A (zh) * | 2017-06-24 | 2017-11-17 | 天津大学 | 基于卷积神经网络的深度图超分辨率重建方法 |
CN107578392A (zh) * | 2017-09-25 | 2018-01-12 | 华北电力大学 | 一种基于残余插值的卷积神经网络去马赛克算法 |
Non-Patent Citations (3)
Title |
---|
some properties relating to stochastic gradient desent methods;wang baobin .etc;《数学杂志》;20110131;第1-4页 * |
廖祥文等.融合时间特征的社交媒介用户影响力分析.《山东大学学报(理学版)》.2018,第53卷(第3期),第1-12页. * |
融合时间特征的社交媒介用户影响力分析;廖祥文等;《山东大学学报(理学版)》;20180125;第53卷(第3期);第1-12页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108460499A (zh) | 2018-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460499B (zh) | 一种融合用户时间信息的微博客用户影响力排名方法 | |
Lai et al. | Content analysis of social media: A grounded theory approach | |
CN106294677B (zh) | 一种面向英文文献中中国作者的姓名消歧方法 | |
CN107016068A (zh) | 知识图谱构建方法及装置 | |
CN105719191B (zh) | 多尺度空间下不确定行为语义的社交群体发现方法 | |
Gustafsson et al. | Comparison and validation of community structures in complex networks | |
CN106557558B (zh) | 一种数据分析方法及装置 | |
Bauman et al. | Discovering Contextual Information from User Reviews for Recommendation Purposes. | |
CN102955813B (zh) | 一种信息搜索方法和系统 | |
KR20200007713A (ko) | 감성 분석에 의한 토픽 결정 방법 및 장치 | |
Song et al. | Rt^ 2m: Real-time twitter trend mining system | |
CN103218368B (zh) | 一种挖掘热词的方法与装置 | |
Sanguri et al. | A semantic similarity adjusted document co-citation analysis: a case of tourism supply chain | |
Hidayatillah et al. | Levels of political participation based on naive bayes classifier | |
Tseng et al. | Comparison of sentiment analysis of review comments by unsupervised clustering of features using LSA and LDA | |
Hao et al. | Sentiment diffusion of public opinions about hot events: based on complex network | |
CN107256461A (zh) | 一种充电设施建设地址评价方法及系统 | |
CN104572623B (zh) | 一种在线lda模型的高效数据总结分析方法 | |
Subramani et al. | Text mining and real-time analytics of twitter data: A case study of australian hay fever prediction | |
Yamamoto et al. | Two phase extraction method for extracting real life tweets using lda | |
CN111598645A (zh) | 一种融合随机森林与协同过滤二手房推荐方法 | |
CN107480222B (zh) | 基于微博数据的城市群空间联系强度测度系统 | |
Zaini et al. | Analysis of Public Sentiment Related To the Failure of Indonesia To Host U-20 Using Multinomial Naïve Bayes Classifier | |
Maulana et al. | Tourism Trend Mapping Based on Social Media Using SAW Algorithm | |
CN116128275A (zh) | 一种事件推演预测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |