[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN105138572A - 获取用户标签的关联度权值的方法和装置 - Google Patents

获取用户标签的关联度权值的方法和装置 Download PDF

Info

Publication number
CN105138572A
CN105138572A CN201510446007.0A CN201510446007A CN105138572A CN 105138572 A CN105138572 A CN 105138572A CN 201510446007 A CN201510446007 A CN 201510446007A CN 105138572 A CN105138572 A CN 105138572A
Authority
CN
China
Prior art keywords
described user
user
users
user behavior
media content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510446007.0A
Other languages
English (en)
Other versions
CN105138572B (zh
Inventor
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510446007.0A priority Critical patent/CN105138572B/zh
Publication of CN105138572A publication Critical patent/CN105138572A/zh
Application granted granted Critical
Publication of CN105138572B publication Critical patent/CN105138572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种获取用户标签的关联度权值的方法和装置。其中,获取用户标签的关联度权值方法包括:建立标签数据库,标签数据库包括标签和与标签对应的类别信息;统计用户行为并提取用户行为事件,其中,用户行为事件包括用户标签,用户标签为标签数据库中与用户行为相关联的标签;以及基于用户行为事件确定用户标签的关联度权值。按照本申请的方案,能够准确获得与用户行为相关联的用户标签和与该用户标签相应的权值。

Description

获取用户标签的关联度权值的方法和装置
技术领域
本公开一般涉及数据分析技术,具体涉及基于用户行为的数据分析技术,尤其涉及获取用户标签的关联度权值的方法和装置。
背景技术
在互联网中,用户行为往往与其感兴趣的内容相关联。例如,当用户对某些特定品牌、机构、商家感兴趣时,其可能会关注这些品牌、机构或商家的微博、向自己的好友转发这些品牌、机构、商家发布的内容,或者当品牌、机构、商家发布微博时,对微博内容发表评论。
目前,准确获取用户的上述行为偏好通常有如下三种:
a)基于机器学习的方法,收集用户样本或者用户组样本,然后对样本用户行为进行特征提取和机器学习,再利用模型得到用户行为兴趣标签。
b)基于文本的关键词提取技术进行用户行为兴趣标签建立,然后利用用户交互关系建立用户关系图,再利用类似网页排名(PageRank)等方法进行用户行为兴趣的发现。
c)基于主题模型的算法(LatentDirichletAllocation,LDA)进行用户行为兴趣发现,这种方法利用用户关系信息和用户标签信息进行用户行为兴趣挖掘。
然而,如上所述的现有技术存在以下缺陷:
针对上述方案a),其局限在于难于进行具有商业标签的样本用户收集样本。
针对上述方案b),尽管该方案不需要收集样本,对于挖掘用户在广泛的兴趣爱好上面准确率尚可,但是在对于本身不具备很强的传递效应的标签,该方法准确率比较低,容易造成误判。
针对上述方案c),对于主题性较弱的用户行为而言,其不便于进行主题的种子词归类。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种获取用户标签的关联度权值的方法和装置,其可以通过统计用户行为准确获得与用户行为相关联的用户标签。
第一方面,本申请实施例提供了一种获取用户标签的关联度权值方法,包括:建立标签数据库,标签数据库包括标签和与标签对应的类别信息;统计用户行为并提取用户行为事件,其中,用户行为事件包括用户标签,用户标签为标签数据库中与用户行为相关联的标签;以及基于用户行为事件确定用户标签的关联度权值。
第二方面,本申请实施例还提供了一种获取用户标签的关联度权值的装置,包括:创建模块,配置用于建立标签数据库,标签数据库包括标签和与标签对应的类别信息;提取模块,配置用于统计用户行为并提取用户行为事件,其中,用户行为事件包括用户标签,用户标签为标签数据库中与用户行为相关联的标签;以及确定模块,配置用于基于用户行为事件确定用户标签的关联度权值。
本申请实施例提供的的方案,可以准确获得与用户行为相关联的用户标签和与该用户标签相应的权值。
在本申请的一些实现方式中,还可对不同类别的用户行为分别计算与之相应的用户标签的权值,再将与各用户行为相应的权值叠加,得到该用户标签的权值。
在本申请的一些实现方式中,还可以基于先验数据对得到的用户行为的权值进行校正,从而使得最终得到的用户标签的权值与用户的实际偏好更加统一。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了根据本申请一个实施例的获取用户标签的关联度权值方法的示意性流程图;
图2示出了图1中基于用户行为事件确定用户标签的关联度权值的示意性结构图;
图3示出了根据本申请一个实施例的获取用户标签的关联度权值装置的示意性结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
参见图1所示,为根据本申请一个实施例的获取用户标签的关联度权值方法的示意性流程图。
具体而言,在步骤110中,建立标签数据库,标签数据库包括标签和与标签对应的类别信息。
在一些实现方式中,可以从各自媒体平台获取符合预设条件的标签,并将这些标签添加到标签数据库中。自媒体平台例如可以包括微博、微信公众平台、微信朋友圈、各网站的论坛等。在获取标签时,例如,可以将这些自媒体平台中,经过认证的代表各品牌、机构或商家的官方账号作为标签,加入至标签数据库中。
此外,由于各标签的名称有可能重合,例如,“高尔夫”这一标签,有可能代表一种汽车的型号,还有可能代表高尔夫球这一球类运动。因此,在一些实现方式中,在建立标签数据库中,可以为各标签添加相应的类别信息,从而明确该标签的类别,以消除标签的歧义、避免各标签之间的混淆。
接着,在步骤120中,统计用户行为并提取用户行为事件。
在一些实现方式中,用户行为事件例如可以包括用户标签,用户标签为标签数据库中与用户行为相关联的标签。
在另一些实现方式中,用户行为事件除了包含用户标签之外,还可以包括用户名、行为发生时间、用户行为类别中的至少一项。
例如,用户U在时间T1时产生了一与标签数据库中的标签A相关联的行为C1,针对该用户行为的用户行为事件可以用(U,T1,C1,A)这样的四元组来进行描述。
接着,在步骤130中,基于用户行为事件确定用户标签的关联度权值。
例如,可以根据用户行为的类别、用户行为发生的时间、用户行为发生的次数等中的至少一者,来确定用户标签的关联度权值。
在一些实现方式中,用户行为类别例如可以包括以下至少一项:
用户关注自媒体平台的其他用户。例如,用户U关注的自媒体平台的其他用户为某品牌的官方账号,那么用户U的这种“关注”的行为,可被认为与该品牌对应的标签产生了关联,从而,该标签成为了用户U的用户标签。
用户关注的其他用户发表的自媒体内容。例如,用户U关注的另一用户K发表的自媒体内容中,包含了与标签数据库中某一标签g相关的内容,那么用户U也可被认为与该标签产生了关联,从而,该标签成为了用户U的用户标签。
用户发表自媒体内容。例如,用户U发表的自媒体内容中提到了某品牌,那么,用户U也可被认为与和该品牌对应的标签产生了关联,从而,该标签成为了用户U的用户标签。
用户针对自媒体平台的其他用户发布的自媒体内容发表评论。例如,用户U在对其他用户发表的自媒体内容进行评论时,提到了某品牌,那么,用户U也可被认为与和该品牌对应的标签产生了关联,从而,该标签成为了用户U的用户标签。
用户转发自媒体平台的其他用户发布的自媒体内容。例如,用户在对其他用户发表的自媒体内容进行转发时,提到了某品牌,那么,用户U也可被认为与和该品牌对应的标签产生了关联,从而,该标签成为了用户U的用户标签。
在一些实现方式中,基于用户行为事件确定用户标签的关联度权值例如可以包括步骤131,将与用户标签相关联的各用户行为的权值的叠加作为用户标签的关联度权值。
参见图2所示,为图1中步骤130即基于用户行为事件确定用户标签的关联度权值的示意性结构图200。
在图2中示出了通过将与用户标签相关联的各用户行为的权值的叠加作为用户标签的关联度权值。
例如,在201中,用户关注自媒体平台的其他用户为某品牌的官方账号,可基于用户的该行为计算出用户和与该品牌相应的标签之间的关联度f1(211)。
类似地,在202中,用户U关注的其他用户发表的自媒体内容中,包含了与标签数据库中某一标签g相关的内容,那么,可以基于用户的该行为计算出该用户U与标签g之间的关联度f2(212)。
类似地,在203中,用户发表的自媒体内容中提到了某品牌,那么,可以基于用户的该行为计算出该用户和与该品牌相应的标签之间的关联度f3(213)。
类似地,在204中,用户针对自媒体平台的其他用户发布的自媒体内容发表的评论中提到了某品牌,那么,可以基于用户的该行为计算出该用户和与该品牌相应的标签之间的关联度f4(214)。
类似地,在205中,用户转发自媒体平台的其他用户发布的自媒体内容中提到了某品牌,那么,可以基于用户的该行为计算出该用户和与该品牌相应的标签之间的关联度f5(215)。
在得到与某一用户标签相关联的各类用户行为的关联度f1~f5后,可以通过对f1~f5的累加(220)来得到最终的该用户标签与该用户的关联度权值(230)。
在一些实现方式中,当用户行为包括用户关注自媒体平台的其他用户时,该用户行为的权值f1可通过由公式(1)计算得到:
f1(g)=(Cg+TFIDFg)×Tg/2(1)
其中,Cg为分级权重,Cg的取值为非负实数,且当用户为其关注的自媒体平台的其他用户设置了类别信息时Cg的取值大于当用户未为其关注的自媒体平台的其他用户设置类别信息时Cg的取值。
例如,用户U为其关注的某品牌的官方账号设置了类别信息时,Cg的取值可以设为1,若未为该官方账号设置任何类别信息,Cg的取值可以为0。
在这里,可以不对类别信息进行具体的限定,只要用户U为该官方账号设置了类别信息,便可认为用户U对该官方账号的关注度相较于未设置类别信息的其他关注对象的关注度高,进而与该官方账号相应的标签与该用户的关联度权值也较高。
TFIDFg表征了样本中全部用户对标签g的关注关系。在一些实现方式中,TFIDFg可以通过以下公式(2)计算得出:
TFIDFg=countUser(g)/lg(totalUser+0.01)(2)
其中,totalUser为样本的用户数量,countUser为样本中与用户标签相关联的用户数量,运算符lg表示以10为底的对数运算。
Tg为时间权重,在一些实现方式中,可以通过以下公式(3)计算得出:
Tg=(Tc-T0)/(Tnow-T0)(3)
其中,Tc为用户行为发生日,T0为预设的初始日期,Tnow为当前日期。
例如,用户关注与标签g对应的官方账号的日期为2014年5月8日,预先设定的初始日期为2009年1月1日,当前日期为2015年7月20日。那么,在一些实现方式中,T0=20090101,Tc=20140508,Tnow=20150720。
在一些实现方式中,当用户行为包括用户关注的其他用户发表的自媒体内容时,用户行为的权值f2可以通过以下公式(4)计算得到:
f2(g)=close_f2(g)×credibility_f2(g)(4)
其中,close_f2(g)为用户与其关注的其他用户之间的亲密度。例如,若用户A与用户B之间的关联行为的数量和/或频率超过一预设值时,可认为用户A与用户B之间具有较高亲密度。此时,当其中一个用户(例如用户B)发表了包含标签g的自媒体内容时,可以认为用户A也与该标签g产生了关联性的用户行为。
例如,若用户A与用户B之间的关联行为的数量和/或频率超过一预设值时,可认为用户B为用户A的密友,即用户B属于用户A的密友集合CO。此时,可以基于以下公式(5)来得到close_f2(g)的取值:
credibility_f2(g)为其他用户的可信度。例如,当用户B的行为中的某一个或某几个特定参数超过阈值时,可认为该用户B的可信度较高。在一些实现方式中,例如,当用户B的行为满足以下至少一个条件时,可以认为用户B的可信度较高:若用户B发布的自媒体内容的数量超过预定数量,用户B关注的自媒体平台的其他用户的数量超过预定的用户数量,关注用户B的自媒体平台的其他用户的数量超过预定的用户数量,与用户B互相关注的自媒体平台的其他用户的数量超过预定的用户数量等等。
在这些实现方式中,credibility_f2(g)可以通过以下公式(6)来计算得到:
在这里,b可以是预先设定的用户B行为的某行为参数,max为与该行为参数相应的预定阈值。
在一些实现方式中,当用户行为包括用户发表自媒体内容时,用户行为的权值可以通过以下公式(7)计算得到:
f3(g)=(Lg×Tg+Atg)/2(7)
其中,Lg为情感倾向标识。例如,当用户发表的自媒体内容具有正向情感倾向时,Lg取值为1,用户发表的自媒体内容具有负向情感倾向时,Lg取值为-1。在一些实现方式中,例如可以采用现有的情感倾向挖掘算法来获取用户发表的自媒体内容的情感倾向。
Tg为时间权重,可以采用如上所述的公式(3)来计算Tg的数值。
Atg为重点关注标识,当用户发表的自媒体内容中对用户标签的重点关注时,Atg取值为1,否则Atg取值为0。在一些实现方式中,例如,在用户发表的自媒体内容中包含了代表重点关注的符号(例如,用户在微博平台发布的自媒体内容中,包含了“”这一符号,且“”符号后紧跟着与标签g相应的官方账号)时,可以将Atg的取值设定为1;反之,在用户发表的自媒体内容中不包含代表重点关注的符号时,可以将Atg的取值设定为0。
在一些实现方式中,当用户行为包括用户针对自媒体平台的其他用户发布的自媒体内容发表评论时,用户行为的权值可以通过以下公式(8)计算得到:
f4(g)=Lg×IRg×(Tg+Atg)/2(8)
Lg为情感倾向标识,当用户发表的自媒体内容具有正向情感倾向时,Lg取值为1,用户发表的自媒体内容具有负向情感倾向时,Lg取值为-1。
IRg原文指向标识,当用户针对自媒体平台的其他用户发布的自媒体内容发表评论和/或用户转发自媒体平台的其他用户发布的自媒体内容的内容直接指向其他用户发布的自媒体内容时,IRg为1,否则为0。在一些实现方式中,例如,若该评论和/或转发中存在原文中出现词的同义词时,可认为该评论和/或转发为指向原文的评论和/或转发,此时,IRg=1。
Tg为时间权重,可以采用如上所述的公式(3)计算得到。
Atg为重点关注标识,当用户发表的自媒体内容中对用户标签的重点关注时,Atg取值为1,否则Atg取值为0。
在一些实现方式中,当用户行为包括用户转发自媒体平台的其他用户发布的自媒体内容时,用户行为的权值f5(g)可以采用上述公式(8)来进行计算,即:f5(g)=Lg×IRg×(Tg+Atg)/2。
在一些实现方式中,基于用户行为事件确定用户标签的关联度权值还可以包括步骤132,基于预定可信度因子校正用户行为的权值。在这里,预定可信度因子可以与用户行为的可信度相关联。在一些实现方式中,可以对不同类别的用户行为配置不同的可信度因子。例如,可以通过以下公式(9)来确定可信度因子A的取值:
也即是说,当用户行为为用户关注自媒体平台的其他用户、用户关注的其他用户发表自媒体内容或用户发表自媒体内容时,可信度因子A的取值为0.4,而当用户行为为用户针对自媒体平台的其他用户发布的自媒体内容发表评论和/或转发时,可信度因子A的取值为0.6。
在一些实现方式中,基于用户行为事件确定用户标签的关联度权值还可以包括步骤133,基于预定准确度因子校正用户行为的权值。
例如,可以在样本中选取一部分数量的用户,并基于统计得到每一类用户行为和计算出的与之对应的权值确定每一类用户行为的权值的准确度。
在一些实现方式中,用户U对于用户标签g的关联度权值例如可以用以下公式(10)来表达:
其中,fi为每类用户行为的权值,Ai为与用户行为的类别相应的可信度因子,Zi为与用户行为的类别相应的准确度因子。
参见图3所示,为本申请实施例的获取用户标签的关联度权值的装置的示意性结构图300。
如图3所示,获取用户标签的关联度权值的装置包括创建模块310、提取模块320和确定模块330。
其中,创建模块310可配置用于建立标签数据库,标签数据库包括标签和与标签对应的类别信息。
提取模块320可配置用于统计用户行为并提取用户行为事件,其中,在一些实现方式中,用户行为事件例如可以包括用户标签,用户标签为标签数据库中与用户行为相关联的标签。或者,在另一些实现方式中,用户行为事件除了可包括用户标签之外,还可以包括用户名、行为发生时间、用户行为类别中的至少一项。
确定模块330可配置用于基于用户行为事件确定用户标签的关联度权值。
在一些实现方式中,用户行为类别例如可以包括用户关注自媒体平台的其他用户、用户关注的其他用户发表自媒体内容、用户发表自媒体内容、用户针对自媒体平台的其他用户发布的自媒体内容发表评论、用户转发自媒体平台的其他用户发布的自媒体内容中的至少一项。
在一些实现方式中,确定模块330可进一步配置用于将与用户标签相关联的各用户行为的权值的叠加作为用户标签的关联度权值。
在一些实现方式中,当用户行为包括用户关注自媒体平台的其他用户时,确定模块330可进一步配置用于基于f1(g)=(Cg+TFIDFg)×Tg/2确定用户行为的权值。
其中,Cg为分级权重,Cg的取值为非负实数,且当用户为其关注的自媒体平台的其他用户设置了类别信息时Cg的取值大于当用户未为其关注的自媒体平台的其他用户设置类别信息时Cg的取值。
TFIDFg=countUser(g)/lg(totalUser+0.01),其中,countUser为样本中与用户标签相关联的用户数量,totalUser为样本的用户数量。
Tg为时间权重,Tg=(Tc-T0/Tnow-T0),其中,Tc为用户行为发生日,T0为预设的初始日期,Tnow为当前日期。
在一些实现方式中,当用户行为包括用户关注的其他用户发表的自媒体内容时,确定模块330可进一步配置用于基于f2(g)=close_f2(g)×credibility_f2(g)确定用户行为的权值。
其中,close_f2(g)为用户与其关注的其他用户之间的亲密度。credibility_f2(g)为其他用户的可信度。
在一些实现方式中,当用户行为包括用户发表自媒体内容时,确定模块330可进一步配置用于基于f3(g)=(Lg×Tg+Atg)/2确定用户行为的权值。
其中,Lg为情感倾向标识,当用户发表的自媒体内容具有正向情感倾向时,Lg取值为1,用户发表的自媒体内容具有负向情感倾向时,Lg取值为-1。
Tg为时间权重,Tg=(Tc-T0)/(Tnow-T0),其中,Tc为用户行为发生日,T0为预设的初始日期,Tnow为当前日期。
Atg为重点关注标识,当用户发表的自媒体内容中对用户标签的重点关注时,Atg取值为1,否则Atg取值为0。
在一些实现方式中,当用户行为包括用户针对自媒体平台的其他用户发布的自媒体内容发表评论和/或用户转发自媒体平台的其他用户发布的自媒体内容时,确定模块330可进一步配置用于基于f4(g)=Lg×IRg×(Tg+Atg)/2确定用户行为的权值。
其中,Lg为情感倾向标识,当用户发表的自媒体内容具有正向情感倾向时,Lg取值为1,用户发表的自媒体内容具有负向情感倾向时,Lg取值为-1。
IRg原文指向标识,当用户针对自媒体平台的其他用户发布的自媒体内容发表评论和/或用户转发自媒体平台的其他用户发布的自媒体内容的内容直接指向其他用户发布的自媒体内容时,IRg为1,否则为0。
Tg为时间权重,Tg=(Tc-T0)/(Tnow-T0),其中,Tc为用户行为发生日,T0为预设的初始日期,Tnow为当前日期。
Atg为重点关注标识,当用户发表的自媒体内容中对用户标签的重点关注时,Atg取值为1,否则Atg取值为0。
在一些实现方式中,确定模块330还可以进一步配置用于基于预定可信度因子校正用户行为的权值。在这里,预定可信度因子例如可以与用户行为的可信度相关联。
在一些实现方式中,当用户行为包括用户转发自媒体平台的其他用户发布的自媒体内容时,用户行为的权值f5(g)可以采用与计算f4(g)类似的方式来进行,即:f5(g)=Lg×IRg×(Tg+Atg)/2。
在一些实现方式中,确定模块330还可以进一步配置用于基于预定准确度因子校正用户行为的权值。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括创建模块、提取模块和确定模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,创建模块还可以被描述为“用于建立标签数据库的模块”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的公式输入方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (20)

1.一种获取用户标签的关联度权值方法,其特征在于,包括:
建立标签数据库,所述标签数据库包括标签和与所述标签对应的类别信息;
统计用户行为并提取用户行为事件,其中,所述用户行为事件包括用户标签,所述用户标签为所述标签数据库中与所述用户行为相关联的标签;以及
基于所述用户行为事件确定用户标签的关联度权值。
2.根据权利要求1所述的方法,其特征在于,所述用户行为事件还包括以下至少一项:
用户名、行为发生时间以及用户行为类别。
3.根据权利要求2所述的方法,其特征在于,所述用户行为类别包括以下至少一项:
所述用户关注自媒体平台的其他用户;
所述用户关注的其他用户发表自媒体内容;
所述用户发表自媒体内容;
所述用户针对自媒体平台的其他用户发布的自媒体内容发表评论;以及
所述用户转发自媒体平台的其他用户发布的自媒体内容。
4.根据权利要求1所述的方法,其特征在于,所述基于所述用户行为事件确定用户标签的关联度权值包括:
将与所述用户标签相关联的各所述用户行为的权值的叠加作为所述用户标签的关联度权值。
5.根据权利要求3所述的方法,其特征在于,当所述用户行为包括所述用户关注自媒体平台的其他用户时,所述用户行为的权值为:
f1(g)=(Cg+TFIDFg)×Tg/2;
其中,Cg为分级权重,Cg的取值为非负实数,且当所述用户为其关注的自媒体平台的其他用户设置了类别信息时Cg的取值大于当所述用户未为其关注的自媒体平台的其他用户设置类别信息时Cg的取值;
TFIDFg为样本中全部用户对标签g的关注关系,TFIDFg=countUser(g)/lg(totalUser+0.01),其中,totalUser为所述样本的用户数量,countUser为所述样本中与所述用户标签相关联的用户数量;
Tg为时间权重,Tg=(Tc-T0)/(Tnow-T0),其中,Tc为用户行为发生日,T0为预设的初始日期,Tnow为当前日期。
6.根据权利要求3所述的方法,其特征在于,当所述用户行为包括所述用户关注的其他用户发表的自媒体内容时,所述用户行为的权值为:
f2(g)=close_f2(g)×credibility_f2(g);
其中,close_f2(g)为所述用户与其关注的所述其他用户之间的亲密度;
credibility_f2(g)为所述其他用户的可信度。
7.根据权利要求3所述的方法,其特征在于,当所述用户行为包括所述用户发表自媒体内容时,所述用户行为的权值为:
f3(g)=(Lg×Tg+Atg)/2;
Lg为情感倾向标识,当所述用户发表的自媒体内容具有正向情感倾向时,Lg取值为1,所述用户发表的自媒体内容具有负向情感倾向时,Lg取值为-1;
Tg为时间权重,Tg=(Tc-T0)/(Tnow-T0),其中,Tc为用户行为发生日,T0为预设的初始日期,Tnow为当前日期;
Atg为重点关注标识,当所述用户发表的自媒体内容中对所述用户标签的重点关注时,Atg取值为1,否则Atg取值为0。
8.根据权利要求3所述的方法,其特征在于,当所述用户行为包括所述用户针对自媒体平台的其他用户发布的自媒体内容发表评论和/或所述用户转发自媒体平台的其他用户发布的自媒体内容时,所述用户行为的权值为:
f4(g)=Lg×IRg×(Tg+Atg)/2;
Lg为情感倾向标识,当所述用户发表的自媒体内容具有正向情感倾向时,Lg取值为1,所述用户发表的自媒体内容具有负向情感倾向时,Lg取值为-1;
IRg为原文指向标识,当所述用户针对自媒体平台的其他用户发布的自媒体内容发表评论和/或所述用户转发自媒体平台的其他用户发布的自媒体内容的内容直接指向所述其他用户发布的自媒体内容时,IRg为1,否则为0;
Tg为时间权重,Tg=(Tc-T0)/(Tnow-T0),其中,Tc为用户行为发生日,T0为预设的初始日期,Tnow为当前日期;
Atg为重点关注标识,当所述用户发表的自媒体内容中对所述用户标签的重点关注时,Atg取值为1,否则Atg取值为0。
9.根据权利要求1-8任意一项所述的方法,其特征在于,所述基于所述用户行为事件确定用户标签的关联度权值还包括:
基于预定可信度因子校正所述用户行为的权值;
其中,所述预定可信度因子与所述用户行为的可信度相关联。
10.根据权利要求9所述的方法,其特征在于,所述基于所述用户行为事件确定用户标签的关联度权值还包括:
基于预定准确度因子校正所述用户行为的权值。
11.一种获取用户标签的关联度权值的装置,其特征在于,包括:
创建模块,配置用于建立标签数据库,所述标签数据库包括标签和与所述标签对应的类别信息;
提取模块,配置用于统计用户行为并提取用户行为事件,其中,所述用户行为事件包括用户标签,所述用户标签为所述标签数据库中与所述用户行为相关联的标签;以及
确定模块,配置用于基于所述用户行为事件确定用户标签的关联度权值。
12.根据权利要求11所述的装置,其特征在于,所述用户行为事件还包括以下至少一项:
用户名、行为发生时间以及用户行为类别。
13.根据权利要求12所述的装置,其特征在于,所述用户行为类别包括以下至少一项:
所述用户关注自媒体平台的其他用户;
所述用户关注的其他用户发表自媒体内容;
所述用户发表自媒体内容;
所述用户针对自媒体平台的其他用户发布的自媒体内容发表评论;以及
所述用户转发自媒体平台的其他用户发布的自媒体内容。
14.根据权利要求11所述的装置,其特征在于,所述确定模块进一步配置用于:
将与所述用户标签相关联的各所述用户行为的权值的叠加作为所述用户标签的关联度权值。
15.根据权利要求13所述的装置,其特征在于,所述确定模块进一步配置用于当所述用户行为包括所述用户关注自媒体平台的其他用户时,基于f1(g)=(Cg+TFIDFg)×Tg/2确定所述用户行为的权值;
其中,Cg为分级权重,Cg的取值为非负实数,且当所述用户为其关注的自媒体平台的其他用户设置了类别信息时Cg的取值大于当所述用户未为其关注的自媒体平台的其他用户设置类别信息时Cg的取值;
TFIDFg为样本中全部用户对标签g的关注关系,TFIDFg=countUser(g)/lg(totalUser+0.01),其中,countUser为所述样本中与所述用户标签相关联的用户数量,totalUser为所述样本的用户数量;
Tg为时间权重,Tg=(Tc-T0)/(Tnow-T0),其中,Tc为用户行为发生日,T0为预设的初始日期,Tnow为当前日期。
16.根据权利要求13所述的装置,其特征在于,所述确定模块进一步配置用于当所述用户行为包括所述用户关注的其他用户发表的自媒体内容时,基于f2(g)=close_f2(g)×credibility_f2(g)确定所述用户行为的权值;
其中,close_f2(g)为所述用户与其关注的所述其他用户之间的亲密度;
credibility_f2(g)为所述其他用户的可信度。
17.根据权利要求13所述的装置,其特征在于,所述确定模块进一步配置用于当所述用户行为包括所述用户发表自媒体内容时,基于f3(g)=(Lg×Tg+Atg)/2确定所述用户行为的权值;
其中,Lg为情感倾向标识,当所述用户发表的自媒体内容具有正向情感倾向时,Lg取值为1,所述用户发表的自媒体内容具有负向情感倾向时,Lg取值为-1;
Tg为时间权重,Tg=(Tc-T0)/(Tnow-T0),其中,Tc为用户行为发生日,T0为预设的初始日期,Tnow为当前日期;
Atg为重点关注标识,当所述用户发表的自媒体内容中对所述用户标签的重点关注时,Atg取值为1,否则Atg取值为0。
18.根据权利要求13所述的装置,其特征在于,所述确定模块进一步配置用于当所述用户行为包括所述用户针对自媒体平台的其他用户发布的自媒体内容发表评论和/或所述用户转发自媒体平台的其他用户发布的自媒体内容时,基于f4(g)=Lg×IRg×(Tg+Atg)/2确定所述用户行为的权值;
其中,Lg为情感倾向标识,当所述用户发表的自媒体内容具有正向情感倾向时,Lg取值为1,所述用户发表的自媒体内容具有负向情感倾向时,Lg取值为-1;
IRg为原文指向标识,当所述用户针对自媒体平台的其他用户发布的自媒体内容发表评论和/或所述用户转发自媒体平台的其他用户发布的自媒体内容的内容直接指向所述其他用户发布的自媒体内容时,IRg为1,否则为0;
Tg为时间权重,Tg=(Tc-T0)/(Tnow-T0),其中,Tc为用户行为发生日,T0为预设的初始日期,Tnow为当前日期;
Atg为重点关注标识,当所述用户发表的自媒体内容中对所述用户标签的重点关注时,Atg取值为1,否则Atg取值为0。
19.根据权利要求11-18任意一项所述的装置,其特征在于,所述确定模块进一步配置用于:
基于预定可信度因子校正所述用户行为的权值;
其中,所述预定可信度因子与所述用户行为的可信度相关联。
20.根据权利要求19所述的装置,其特征在于,所述确定模块进一步配置用于:
基于预定准确度因子校正所述用户行为的权值。
CN201510446007.0A 2015-07-27 2015-07-27 获取用户标签的关联度权值的方法和装置 Active CN105138572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510446007.0A CN105138572B (zh) 2015-07-27 2015-07-27 获取用户标签的关联度权值的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510446007.0A CN105138572B (zh) 2015-07-27 2015-07-27 获取用户标签的关联度权值的方法和装置

Publications (2)

Publication Number Publication Date
CN105138572A true CN105138572A (zh) 2015-12-09
CN105138572B CN105138572B (zh) 2019-12-10

Family

ID=54723921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510446007.0A Active CN105138572B (zh) 2015-07-27 2015-07-27 获取用户标签的关联度权值的方法和装置

Country Status (1)

Country Link
CN (1) CN105138572B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105872593A (zh) * 2016-03-21 2016-08-17 乐视网信息技术(北京)股份有限公司 弹幕推送方法及装置
CN108512674A (zh) * 2017-02-24 2018-09-07 百度在线网络技术(北京)有限公司 用于输出信息的方法、装置和设备
CN111768213A (zh) * 2020-09-03 2020-10-13 耀方信息技术(上海)有限公司 一种用户标签权重评估方法
CN112650931A (zh) * 2021-01-04 2021-04-13 杭州情咖网络技术有限公司 一种内容推荐方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654860A (zh) * 2011-03-01 2012-09-05 北京彩云在线技术开发有限公司 一种个性化音乐推荐方法及系统
CN102760163A (zh) * 2012-06-12 2012-10-31 奇智软件(北京)有限公司 一种特征信息的个性化推荐方法及装置
CN102867016A (zh) * 2012-07-18 2013-01-09 北京开心人信息技术有限公司 一种基于标签的社交网络用户兴趣挖掘方法与装置
CN103279533A (zh) * 2013-05-31 2013-09-04 北京华悦博智科技有限责任公司 一种社交关系推荐方法及系统
CN104035957A (zh) * 2014-04-14 2014-09-10 百度在线网络技术(北京)有限公司 搜索方法和装置
WO2015021937A1 (zh) * 2013-08-14 2015-02-19 腾讯科技(深圳)有限公司 用户推荐方法和装置
CN104750789A (zh) * 2015-03-12 2015-07-01 百度在线网络技术(北京)有限公司 标签的推荐方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654860A (zh) * 2011-03-01 2012-09-05 北京彩云在线技术开发有限公司 一种个性化音乐推荐方法及系统
CN102760163A (zh) * 2012-06-12 2012-10-31 奇智软件(北京)有限公司 一种特征信息的个性化推荐方法及装置
CN102867016A (zh) * 2012-07-18 2013-01-09 北京开心人信息技术有限公司 一种基于标签的社交网络用户兴趣挖掘方法与装置
CN103279533A (zh) * 2013-05-31 2013-09-04 北京华悦博智科技有限责任公司 一种社交关系推荐方法及系统
WO2015021937A1 (zh) * 2013-08-14 2015-02-19 腾讯科技(深圳)有限公司 用户推荐方法和装置
CN104035957A (zh) * 2014-04-14 2014-09-10 百度在线网络技术(北京)有限公司 搜索方法和装置
CN104750789A (zh) * 2015-03-12 2015-07-01 百度在线网络技术(北京)有限公司 标签的推荐方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105872593A (zh) * 2016-03-21 2016-08-17 乐视网信息技术(北京)股份有限公司 弹幕推送方法及装置
CN108512674A (zh) * 2017-02-24 2018-09-07 百度在线网络技术(北京)有限公司 用于输出信息的方法、装置和设备
CN111768213A (zh) * 2020-09-03 2020-10-13 耀方信息技术(上海)有限公司 一种用户标签权重评估方法
CN112650931A (zh) * 2021-01-04 2021-04-13 杭州情咖网络技术有限公司 一种内容推荐方法

Also Published As

Publication number Publication date
CN105138572B (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN109145216B (zh) 网络舆情监控方法、装置及存储介质
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
McKenzie et al. Weighted multi-attribute matching of user-generated points of interest
CN105045901B (zh) 搜索关键词的推送方法和装置
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN109145215A (zh) 网络舆情分析方法、装置及存储介质
US9798820B1 (en) Classification of keywords
US20220405801A1 (en) Expert Search Thread Invitation Engine
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN104572797A (zh) 基于主题模型的个性化服务推荐系统和方法
CN105095187A (zh) 一种搜索意图识别方法及装置
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN104978665A (zh) 一种品牌评估方法和装置
CN104008186A (zh) 从目标文本中确定关键词的方法和装置
CN104361102A (zh) 一种基于群组匹配的专家推荐方法及系统
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN101770482A (zh) 一种广告投放的方法及系统
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN102428467A (zh) 用于分类的基于相似度的特征集补充
Bing et al. Using query log and social tagging to refine queries based on latent topics
CN105138572A (zh) 获取用户标签的关联度权值的方法和装置
CN108363784A (zh) 一种基于文本机器学习的舆情走向预测方法
CN108710654A (zh) 一种舆情数据可视化方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant