CN106874435B - 用户画像构建方法和装置 - Google Patents
用户画像构建方法和装置 Download PDFInfo
- Publication number
- CN106874435B CN106874435B CN201710061313.1A CN201710061313A CN106874435B CN 106874435 B CN106874435 B CN 106874435B CN 201710061313 A CN201710061313 A CN 201710061313A CN 106874435 B CN106874435 B CN 106874435B
- Authority
- CN
- China
- Prior art keywords
- user
- information
- word
- tag
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 51
- 230000011218 segmentation Effects 0.000 claims description 84
- 230000000694 effects Effects 0.000 claims description 48
- 238000000034 method Methods 0.000 claims description 36
- 230000035945 sensitivity Effects 0.000 claims description 19
- 230000002996 emotional effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Library & Information Science (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种用户画像构建方法和装置。本发明提供的用户画像构建方法,包括:获取用户在社交平台上发布的网络信息,所述网络信息包括用户的注册信息和第一预设时长内用户发布的网络内容;根据所述注册信息,确定所述用户的人口属性信息;根据所述网络内容和预设的多个标签词库,确定所述用户的兴趣标签;根据所述人口属性信息和所述用户的兴趣标签,生成所述用户的用户画像。本发明提供的用户画像构建方法和装置,解决了现有技术中的用户画像构建方法所构建出的用户画像不能充分体现用户的特征,从而使得平台无法充分的了解用户,进而无法为用户提供精细化的服务,用户体验度不高的问题。
Description
技术领域
本发明涉及数据处理技术,尤其涉及一种用户画像构建方法和装置。
背景技术
随着网络和信息技术的不断发展,各类社交平台应用而生,为改善社交平台的各项功能,以使社交平台更好地为用户服务,需要了解、分析社交平台内用户的各项信息。目前,常通过构建用户画像的方式来了解用户的属性信息。其中,用户画像是真实用户的虚拟代表,其能够展示用户的属性信息。
现有的用户画像构建方法,包括:获取用户的人口属性信息;根据用户的人口属性信息生成用户画像。其中,用户的人口属性信息包括用户的姓名、性别、地域、职业等。
通过现有的用户画像构建方法所构建出的用户画像仅展示用户的人口属性信息,不能充分体现用户的特征,从而使得平台无法为用户提供精细化的服务,用户体验度不高。
发明内容
本发明提供一种用户画像构建方法和装置,以解决现有技术中的用户画像构建方法所构建出的用户画像不能充分体现用户的特征,从而使得平台无法充分的了解用户,进而无法为用户提供精细化的服务,用户体验度不高的问题。
本发明第一方面提供一种用户画像构建方法,包括:
获取用户在社交平台上发布的网络信息,所述网络信息包括用户的注册信息和第一预设时长内用户发布的网络内容,所述用户的注册信息用于表征所述用户的基本属性;
根据所述注册信息,确定所述用户的人口属性信息;
根据所述网络内容和预设的多个标签词库,确定所述用户的兴趣标签;其中,不同的标签词库表征不同的兴趣类别;
根据所述人口属性信息和所述用户的兴趣标签,生成所述用户的用户画像。
进一步地,所述根据所述网络内容和预设的多个标签词库,确定所述用户的兴趣标签,具体包括:
对所述网络内容进行分词处理,得到所述网络内容对应的至少一个切分词;
确定每个所述切分词在每个标签词库中出现的次数;
根据每个所述切分词在每个标签词库中出现的次数,确定所述用户的兴趣标签。
进一步地,所述根据每个所述切分词在每个标签词库中出现的次数,确定所述用户的兴趣标签,具体包括:
根据所有切分词在同一个标签词库中的出现次数之和,确定所述用户的兴趣标签为所述出现次数之和最大的标签词库对应的标签。
进一步地,所述根据每个所述切分词在每个标签词库中出现的次数,确定所述用户的兴趣标签,具体包括:
根据每个所述切分词在每个标签词库中出现的次数、切分词的个数以及每个所述切分词的预设权重,确定所述网络内容与每个所述标签词库的匹配度;
根据所述网络内容与每个所述标签词库的匹配度,确定所述用户的兴趣标签。
进一步地,所述切分词包括直接切分词和所述直接切分词的同义词,所述直接切分词为所述网络内容中的原词。
进一步地,所述网络信息还包括所述网络内容的转发信息,所述转发信息包括转发对象,所述方法还包括,
根据所述网络内容的转发信息,确定所述用户的好友信息;
将所述好友信息添加到所述用户的用户画像上。
进一步地,在本发明一种可能的实现方式中,所述方法还包括:
根据所述用户在第二预设时长内发布的网络内容的数量和第一预设阈值,确定所述用户在所述第二预设时长内的活跃度信息;所述第一预设阈值为所述第二预设时长内样本用户发布的网络内容的平均数量;
将所述活跃度信息添加到所述用户画像上。
进一步地,所述网络信息还包括所述用户的活跃度信息,所述方法还包括:
根据所述活跃度信息、所述用户的活跃等级信息和第二预设阈值,确定所述用户的影响力信息;所述第二预设阈值为样本用户的活跃等级信息的平均值;
将所述影响力信息添加到所述用户画像上。
进一步地,在本发明一种可能的实现方式中,所述方法还包括:
根据所述网络内容、预设的热点词、预设的热点词的个数和每个所述热点词的预设权重,确定用户的敏感度信息;
将所述敏感度信息添加到所述用户画像上。
本发明第二方面提供一种用户画像构建装置,包括:获取模块和处理模块,其中,
所述获取模块,用于获取用户在社交平台上发布的网络信息,所述网络信息包括用户的注册信息和第一预设时长内用户发布的网络内容,所述用户的注册信息用于表征所述用户的基本属性;
所述处理模块,用于根据所述注册信息,确定所述用户的人口属性信息,并根据所述网络内容和预设的多个标签词库,确定所述用户的兴趣标签,以及根据所述人口属性信息和所述用户的兴趣标签,生成所述用户的用户画像;其中,不同的标签词库表征不同的兴趣类别。
进一步地,所述处理模块,具体用于对所述网络内容进行分词处理,得到所述网络内容对应的至少一个切分词;确定每个所述切分词在每个标签词库中出现的次数;并根据每个所述切分词在每个标签词库中出现的次数,确定所述用户的兴趣标签。
进一步地,所述处理模块,还具体用于根据所有切分词在同一个标签词库中的出现次数之和,确定所述用户的兴趣标签为所述出现次数之和最大的标签词库对应的标签。
进一步地,所述处理模块,还具体用于根据每个所述切分词在每个标签词库中出现的次数、切分词的个数以及每个所述切分词的预设权重,确定所述网络内容与每个所述标签词库的匹配度,并根据所述网络内容与每个所述标签词库的匹配度,确定所述用户的兴趣标签。
进一步地,在本发明一种可能的实现方式中,所述网络信息还包括所述网络内容的转发信息,所述转发信息包括转发对象,所述处理模块,还具体用于根据所述网络内容的转发信息,确定所述用户的好友信息,并将所述好友信息添加到所述用户的用户画像上。
进一步地,所述处理模块,还具体用于根据所述用户在第二预设时长内发布的网络内容的数量和第一预设阈值,确定所述用户在所述第二预设时长内的活跃度信息,并将所述活跃度信息添加到所述用户画像上;其中,所述第一预设阈值为所述第二预设时长内样本用户发布的网络内容的平均数量。
进一步地,在本发明一种可能的实现方式中,所述网络信息还包括所述用户的活跃等级信息,所述处理模块,还具体用于根据所述活跃度信息、所述用户的活跃等级信息和第二预设阈值,确定所述用户的影响力信息,并将所述影响力信息添加到所述用户画像上;其中,所述第二预设阈值为样本用户的活跃等级信息的平均值。
进一步地,所述处理模块200,还具体用于根据所述网络内容、预设的热点词、预设的热点词的个数和每个所述热点词的预设权重,确定用户的敏感度信息,并将所述敏感度信息添加到所述用户画像上。
本发明提供的用户画像构建方法和装置,通过获取用户在社交平台上发布的网络信息,其中,所述网络信息包括用户的注册信息和第一预设时长内用户发布的网络内容,所述用户的注册信息用于表征所述用户的基本属性,进而根据所述注册信息,确定所述用户的人口属性信息,并根据所述网络内容和预设的多个标签词库,确定所述用户的兴趣标签;其中,不同的标签词库表征不同的兴趣类别,从而根据所述人口属性信息和所述用户的兴趣标签,生成所述用户的用户画像。这样,使得构建的用户画像不仅能够反映用户的人口属性信息,还能够反映用户的兴趣,从而使得平台能够充分了解用户,进而为用户提供更精细化的服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的用户画像构建方法的流程图;
图2为本发明实施例二提供的用户画像构建方法的流程图;
图3为本发明实施例三提供的用户画像构建方法的流程图;
图4为本发明实施例四提供的用户画像构建方法的流程图;
图5为本发明实施例五提供的用户画像构建方法的流程图;
图6为本发明实施例六提供的用户画像构建方法的流程图;
图7为本发明实施例七提供的用户画像构建方法的流程图;
图8为本发明实施例八提供的用户画像构建装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种用户画像构建方法和装置,以解决现有技术中的用户画像构建方法所构建出的用户画像不能充分体现用户的特征,从而使得平台无法为用户提供精细化的服务,用户体验度不高的问题。
本发明提供的用户画像构建方法,可应用于各种社交平台,具体地,可应用本发明提供的用户画像构建方法构建用户画像,以使社交平台更好的了解用户,从而为用户提供更精细化的服务,以提高用户的体验度。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明实施例一提供的用户画像构建方法的流程图。本发明实施例的执行主体可以是单独的用户画像构建装置,还可以是集成了用户画像构建装置的其他设备,例如,可以是集成了用户画像构建装置的计算机。本发明实施例以执行主体为集成了用户画像构建装置的计算机为例来进行说明。请参照图1,本实施例提供的用户画像构建方法,包括:
S101、获取用户在社交平台上发布的网络信息,所述网络信息包括用户的注册信息和第一预设时长内用户发布的网络内容,所述用户的注册信息用于表征所述用户的基本属性。
具体地,可以通过爬虫的方式获取用户在社交平台上发布的网络信息。此外,用户的注册信息是用户在社交平台上注册时,用户输入的信息,例如,可以包括用户的姓名、性别、年龄、邮箱、电话号码等。进一步地,第一预设时长是根据实际需要设定的,例如,可以是一年、半年等,本实施例中,不对第一预设时长的具体值进行限定。
S102、根据所述注册信息,确定所述用户的人口属性信息。
具体地,人口属性信息包括自然属性信息和社会属性信息,其中,自然属性信息可以包括性别、地域、血型等信息,社会属性信息可以包括职业、婚姻状态等信息。本步骤中,可以根据注册信息,提取出用户的人口属性信息。
S103、根据所述网络内容和预设的多个标签词库,确定所述用户的兴趣标签;其中,不同的标签词库表征不同的兴趣类别。
具体地,预设的多个标签词库是根据实际需要设定的,例如,当需要确定用户的兴趣标签时,可以建立5个标签词库,这5个标签词库分别是:标签词库1(时尚)、标签词库2(电影电视)、标签词库3(音乐)、标签词库4(动漫)、标签词库5(游戏)。需要说明的是,不同的标签词库表征不同的兴趣类别,每个标签词库中包括多个能够反映该兴趣标签词库表征的兴趣类别对应的词语。例如,标签词库3表征的兴趣标签为音乐,该标签词库中可以包括如下词语:薛之谦、传奇等。
进一步地,本实施例中,在根据网络内容和预设的多个标签词库,确定用户的兴趣标签词,可以根据每个标签词库中的词语在网络内容中出现的总次数来确定。具体地,例如,标签词库1中包括3个词语,统计这3个词语在网络内容中出现的总次数,标签词库2中包括有8个词语,统计这8个词语在网络内容中出现的总次数。按照上面的方法,统计每个标签词库中的词语在网络内容中出现的总次数,进而将出现的总次数最多的那个标签词库对应的标签确定为用户的兴趣标签。例如,经过统计,确定上述5个标签词库中的词语在网络内容中出现的总次数依次为20、30、50、10、13,这样,确定用户的兴趣标签为音乐。
需要说明的是,还可以采用其他方法来确定用户的兴趣标签,本实施例中,不对确定用户标签的具体方法进行限定。进一步地,在本发明一种可能的实现方式中,还可以根据标签词库确定用户的特长信息。此时,不同的标签词库表征不同的特长类别。根据多个标签词库,采用与确定兴趣标签相同的方法,可以确定该用户的特长标签。
S104、根据所述人口属性信息和所述用户的兴趣标签,生成所述用户的用户画像。
具体地,当确定了用户的人口属性信息和用户的兴趣标签后,本步骤中,根据用户的人口属性信息和用户的兴趣标签,生成用户的用户画像。这样,生成的用户画像中,既包括用户的人口属性信息,也包括用户的兴趣标签,能够充分反映用户的特征。
本实施例提供的用户画像构建方法,通过获取用户在社交平台上发布的网络信息,其中,所述网络信息包括用户的注册信息和第一预设时长内用户发布的网络内容,所述用户的注册信息用于表征所述用户的基本属性,进而根据所述注册信息,确定所述用户的人口属性信息,并根据所述网络内容和预设的多个标签词库,确定所述用户的兴趣标签;其中,不同的标签词库表征不同的兴趣类别,从而根据所述人口属性信息和所述用户的兴趣标签,生成所述用户的用户画像。这样,使得构建的用户画像不仅能够反映用户的人口属性信息,还能够反映用户的兴趣,从而能够使平台充分了解用户,进而为用户提供更精细化的服务。
图2为本发明实施例二提供的用户画像构建方法的流程图。本实施例涉及的是如何确定用户的兴趣标签的具体过程。在上述实施例的基础上,本实施例提供的用户画像构建方法,步骤S103具体包括:
S201、对所述网络内容进行分词处理,得到所述网络内容对应的至少一个切分词。
具体地,本步骤中,可以根据语法规则对网络内容进行分词处理,也可以采用其他的分词方法对网络内容进行分词处理。本实施例中,不对分词处理的具体方法进行限定,可以采用现有技术中的任何一种分词方法对网络内容进行分词处理。进一步地,本步骤中,例如,进过分词处理,得到上述网络内容对应的3个切分词A、B、C。
S202、确定每个所述切分词在每个标签词库中出现的次数。
具体地,本实施例中,当通过步骤S201得到网络内容对应的切分词后,本步骤中,就将每个切分词与每个标签词库中的词语进行匹配,确定每个切分词在每个标签词库中出现的次数。例如,表1给出了一种可能的结果。参照表1,即确定切分词A在标签词库1中出现的次数为3次等。
表1每个切分词在每个标签词库中出现的次数
S203、根据每个所述切分词在每个标签词库中出现的次数,确定所述用户的兴趣标签。
可选地,本步骤中,可以根据所有切分词在同一个标签词库中的出现次数之和,确定所述用户的兴趣标签为所述出现次数之和最大的标签词库对应的标签。
具体地,结合表1,可知,所有切分词A、B、C在标签词库1中的出现次数之和为12(其中,12=3+4+5);所有切分词A、B、C在标签词库2中的出现次数之和为3;所有切分词A、B、C在标签词库3中的出现次数之和为27;所有切分词A、B、C在标签词库2中的出现次数之和为4;所有切分词A、B、C在标签词库2中的出现次数之和为3。这样,确定用户的兴趣标签为音乐。
本实施例提供的用户画像构建方法,在根据网络内容和预设的多个标签词库确定所述用户的兴趣标签时,通过对所述网络内容进行分词处理,得到所述网络内容对应的至少一个切分词,并确定每个所述切分词在每个标签词库中出现的次数,进而根据每个所述切分词在每个标签词库中出现的次数,确定所述用户的兴趣标签。这样,可准确地确定出用户的兴趣标签。
图3为本发明实施例三提供的用户画像构建方法的流程图。本实施例涉及的是如何根据每个切分词在每个兴趣标签词库中出现的次数,确定用户的兴趣标签的具体过程。在上述实施例的基础上,步骤S203具体包括:
S301、根据每个所述切分词在每个标签词库中出现的次数、切分词的个数以及每个所述切分词的预设权重,确定所述网络内容与每个所述标签词库的匹配度。
具体地,网络内容与标签词库1的匹配度=(∑切分词i在标签词库1出现的次数*切分词i的预设权重)/切分词的个数。例如,如果有n个切分词,则i等于1、……、n。结合上面的例子,网络内容与标签词库1的匹配度=(A在标签词库1出现的次数*A的预设权重+B在标签词库1出现的次数*B的预设权重+C在标签词库1出现的次数*C的预设权重)/3。需要说明的是,每个切分词的预设权重是根据实际情况确定,本实施例中,不对预设权重的具体值进行限定。这样,采用上述方法,便可以确定出网络内容与每个所述标签词库的匹配度。
S302、根据所述网络内容与每个所述标签词库的匹配度,确定所述用户的兴趣标签。
具体的,本步骤中,当经过步骤S301确定出网络内容与每个标签词库的匹配度后,本步骤中,将匹配度最大的标签词库对应的标签确定为用户的兴趣标签。例如,确定出网络内容与上述5个标签词库的匹配度分别为4、1、9、4/3、1;这样,确定网络内容与标签词库3的匹配度最大,确定用户的兴趣标签为音乐。
本实施例提供的用户画像构建方法,在根据每个切分词在每个标签词库中出现的次数确定用户的兴趣标签时,根据每个所述切分词在每个标签词库中出现的次数、切分词的个数以及每个所述切分词的预设权重,确定所述网络内容与每个所述标签词库的匹配度,进而根据所述网络内容与每个所述标签词库的匹配度,确定所述用户的兴趣标签。这样,可准确地确定出用户的兴趣标签。
进一步地,在本发明一种可能的实现方式中,切分词包括直接切分词和所述直接切分词的同义词,所述直接切分词为所述网络内容中的原词。
具体地,当对网络内容进行分词处理,得到直接切分词后,可利用word2vec引用工具对上述直接切分词进行扩充,得到上述直接切分词的同义词。
本实施例提供的用户画像构建方法,切分词包括直接切分词和所述直接切分词的同义词,所述直接切分词为所述网络内容中的原词。这样,在利用切分词确定用户的兴趣标签时,可准确地确定用户的兴趣标签。
图4为本发明实施例四提供的用户画像构建方法的流程图。本实施例涉及的是确定用户的好友信息的具体过程。在上述实施例的基础上,本实施例提供的用户画像构建方法,所述网络信息还包括所述网络内容的转发信息,所述转发信息包括转发对象,所述方法还包括:
S401、根据所述网络内容的转发信息,确定所述用户的好友信息。
具体的,在一种可能的实现方式中,可直接将网络内容的转发对象确定为用户的好友,得到用户的好友信息。例如,若上述网络内容被a用户、b用户、c用户转发过,则直接确定用户a、b用户、c用户为上述用户的好友,得到该用户的好友信息。
再例如,在本发明另一种可能的实现方式中,可根据所述网络内容的转发信息,进一步获取每条网络内容的两层转发关系,进而将用户抽象成点,用户之间的转发关系抽象成边,得到一个两层用户关系图,然后利用转发数量统计每条边的权重,基于每条边的权重,利用社区聚类算法确定用户的好友。需要说明的是,关于社区聚类算法的具体原理可以参见现有技术中的描述,此处不再赘述。
S402、将所述用户的好友信息添加到所述用户的用户画像上。
具体地,当经过步骤S401确定出用户的好友信息后,本步骤中,将用户的好友信息添加到所述用户的用户画像上。这样,该用户的用户画像上就能够展示该用户的好友信息,通过该用户画像便可以更加充分的了解用户,以为用户提供更精细化的服务。
本实施例提供的用户画像构建方法,当网络信息包括网络内容的转发信息时,且转发信息包括转发对象时,通过网络内容的转发信息,可确定所述用户的好友信息,进而可将用户的好友信息添加到用户的用户画像上。这样,使构建的用户画像能够展示用户的好友信息,进而使平台能够更充分的了解用户,以为用户提供更精细化的服务。
图5为本发明实施例五提供的用户画像构建方法的流程图。在上述实施例的基础上,本实施例提供的用户画像构建方法,还包括:
S501、根据所述用户在第二预设时长内发布的网络内容的数量和第一预设阈值,确定所述用户在所述第二预设时长内的活跃度信息;所述第一预设阈值为所述第二预设时长内样本用户发布的网络内容的平均数量。
需要说明的是,第二预设时长小于或等于第一预设时长;结合上面的例子,例如,当第一预设时长为一年时,第二预设时长可以为一周、两周等。此外,第一预设阈值为第二预设时长内样本用户发布的网络内容的平均数量,其中,样本用户是通过随机抽样的方式确定地,当确定出样本用户后,获取样本用户在第二预设时长内发布的网络内容的数量,进而计算所有样本用户在第二预设时长内发布的网络内容的平均数量,得到第一预设阈值。
进一步地,用户在第二预设时长内的活跃度信息等于用户在第二预设时长内发布的网络内容的数量除以第一预设阈值。需要说明的是,用户的活跃度信息的具体值越大,表明该用户在第二预设时长内越活跃。
S502、将所述活跃度信息添加到所述用户画像上。
具体地,当经过步骤S501确定出用户的活跃度信息后,本步骤中,将用户的活跃度信息添加到该用户的用户画像上。这样,通过本实施例提供的用户画像构建方法构建的用户画像上,将展示用户在第二预设时长内的活跃度信息,通过该用户画像,平台可以更充分的了解用户,以为用户提供更精细化的服务。
本实施例提供的用户画像构建方法,根据所述用户在第二预设时长内发布的网络内容的数量和第一预设阈值,确定所述用户在所述第二预设时长内的活跃度信息;进而将所述活跃度信息添加到所述用户画像上。这样,通过本实施例提供的用户画像构建方法构建的用户画像,将展示用户在第二预设时长内的活跃度信息,通过该用户画像,平台可以更充分的了解用户,以为用户提供更精细化的服务。
图6为本发明实施例六提供的用户画像构建方法。在上述实施例的基础上,当网络信息还包括用户的活跃等级信息时,本实施例提供的用户画像构建方法,还包括:
S601、根据所述活跃度信息、所述用户的活跃等级信息和第二预设阈值,确定所述用户的影响力信息;所述第二预设阈值为样本用户的活跃等级信息的平均值。
需要说明的是,用户的活跃等级信息可以为用户的粉丝数,关注该用户的人数等。第二预设阈值为样本用户的活跃等级信息平均值,其中,样本用户是通过随机抽样的方式确定地,当确定出样本用户后,获取样本用户的活跃等级信息,进而计算所有样本用户的活跃等级信息的平均值,得到第二预设阈值。
进一步的,用户的影响力信息=0.5*用户的活跃度信息+0.5*(用户的活跃等级信息/第二预设阈值)。例如,当活跃等级信息为粉丝数时,用户的影响力信息=0.5*用户的活跃度信息+0.5*(用户的粉丝数/第二预设阈值)。
S602、将所述影响力信息添加到所述用户画像上。
具体地,当经过步骤S601确定出用户的影响力信息后,本步骤中,将用户的影响力信息添加到该用户的用户画像上。这样,通过本实施例提供的用户画像构建方法构建的用户画像,将展示用户的影响力信息,通过该用户画像,平台可以更充分的了解用户,以为用户提供更精细化的服务。
图7为本发明实施例七提供的用户画像构建方法的流程图。在上述实施例的基础上,本实施例提供的用户画像构建方法,还包括:
S701、根据所述网络内容、预设的热点词、预设的热点词的个数和每个所述热点词的预设权重,确定用户的敏感度信息。
具体的,首先,可以根据所述网络内容和所述预设的热点词,确定每个所述热点词在所述网络内容中出现的次数;然后根据所述预设的热点词的个数、每个所述热点词在所述网络内容中出现的次数和每个所述热点词的预设权重,确定用户的敏感度信息。需要说明的是,用户的敏感度信息=(∑热点词i在网络内容中出现的次数*热点词i的预设权重)/热点词的个数。例如,有5个热点词时,上式中,i等于1到5,热点词的个数等于5。
下面举例来详细说明本步骤的具体实现过程,例如,在本发明一种可能的实现方式中,预设的热点词有5个,分别为X、Y、Z、M、N,此时,将上述5个热点次与网络内容进行匹配,以确定上述5个热点词在网络内容中出现的次数,例如,确定上述5个热点词在网络内容中出现的次数分别为5、6、7、8、9。这样,得到用户的敏感度信息=(X在网络内容中出现的次数*X的预设权重+Y在网络内容中出现的次数*Y的预设权重+Z在网络内容中出现的次数*Z的预设权重+M在网络内容中出现的次数*M的预设权重+N在网络内容中出现的次数*N的预设权重)/5,这样,便可计算获得用户的敏感度信息。
S702、将所述敏感度信息添加到所述用户画像上。
具体地,当经过步骤S701确定出用户的敏感度信息后,本步骤中,将用户的敏感度信息添加到该用户的用户画像上。这样,通过本实施例提供的用户画像构建方法构建的用户画像,将展示用户的敏感度信息,通过该用户画像,平台可以更充分的了解用户,以为用户提供更精细化的服务。
可选地,本发明提供的用户画像构建方法,还可以根据所述网络内容,确定用户的情感色彩信息,进而将用户的情感色彩信息添加到所述用户画像上。
具体地,在根据网络内容,确定用户的情感色彩信息时,可以首先对网络内容进行分词处理,得到上述网络内容对应的至少一个直接切分词,然后根据所述直接切分词的语义,确定每个切分词为正向词还是负向词,最后根据正向词和负向词的个数,确定用户的感情色彩信息。具体地,当正向切分词的个数大于等于负向切分词的个数时,确定用户的感情色彩信息为积极;当正向切分词的个数小于负向切分词的个数时,确定用户的感情色彩信息为消极。
图8为本发明实施例八提供的用户画像构建装置的结构示意图。该装置可以通过软件、硬件或者软硬结合的方式实现,且该装置可以是单独的用户画像构建装置,也可以是集成了用户画像构建装置的其他设备,例如,可以是集成了用户画像构建装置的计算机。如图8所示,本实施例提供的用户画像构建装置,包括:获取模块100和处理模块200,其中,
获取模块100,用于获取用户在社交平台上发布的网络信息,所述网络信息包括用户的注册信息和第一预设时长内用户发布的网络内容,所述用户的注册信息用于表征所述用户的基本属性;
处理模块200,用于根据所述注册信息,确定所述用户的人口属性信息,并根据所述网络内容和预设的多个标签词库,确定所述用户的兴趣标签,以及根据所述人口属性信息和所述用户的兴趣标签,生成所述用户的用户画像;其中,不同的标签词库表征不同的兴趣类别。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,处理模块200,具体用于对所述网络内容进行分词处理,得到所述网络内容对应的至少一个切分词;确定每个所述切分词在每个标签词库中出现的次数;并根据每个所述切分词在每个标签词库中出现的次数,确定所述用户的兴趣标签。
本实施例的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,处理模块200,还具体用于根据所有切分词在同一个标签词库中的出现次数之和,确定所述用户的兴趣标签为所述出现次数之和最大的标签词库对应的标签。
进一步地,处理模块200,还具体用于根据每个所述切分词在每个标签词库中出现的次数、切分词的个数以及每个所述切分词的预设权重,确定所述网络内容与每个所述标签词库的匹配度,并根据所述网络内容与每个所述标签词库的匹配度,确定所述用户的兴趣标签。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,在本发明一种可能的实现方式中,所述网络信息还包括所述网络内容的转发信息,所述转发信息包括转发对象,处理模块200,还具体用于根据所述网络内容的转发信息,确定所述用户的好友信息,并将所述好友信息添加到所述用户的用户画像上。
本实施例的装置,可以用于执行图4所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,处理模块200,还具体用于根据所述用户在第二预设时长内发布的网络内容的数量和第一预设阈值,确定所述用户在所述第二预设时长内的活跃度信息,并将所述活跃度信息添加到所述用户画像上;其中,所述第一预设阈值为所述第二预设时长内样本用户发布的网络内容的平均数量。
本实施例的装置,可以用于执行图5所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,在本发明一种可能的实现方式中,所述网络信息还包括所述用户的活跃等级信息,处理模块200,还具体用于根据所述活跃度信息、所述用户的活跃等级信息和第二预设阈值,确定所述用户的影响力信息,并将所述影响力信息添加到所述用户画像上;其中,所述第二预设阈值为样本用户的活跃等级信息的平均值。
本实施例的装置,可以用于执行图6所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,在本发明一种可能的实现方式中,处理模块200,还具体用于根据所述网络内容、预设的热点词、预设的热点词的个数和每个所述热点词的预设权重,确定用户的敏感度信息,并将所述敏感度信息添加到所述用户画像上。
本实施例的装置,可以用于执行图7所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (5)
1.一种用户画像构建方法,其特征在于,包括:
获取用户在社交平台上发布的网络信息,所述网络信息包括用户的注册信息和第一预设时长内用户发布的网络内容,所述用户的注册信息用于表征所述用户的基本属性;
根据所述注册信息,确定所述用户的人口属性信息;
根据所述网络内容和预设的多个标签词库,确定所述用户的兴趣标签;其中,不同的标签词库表征不同的兴趣类别;
根据所述人口属性信息和所述用户的兴趣标签,生成所述用户的用户画像;
其中,
所述根据所述网络内容和预设的多个标签词库,确定所述用户的兴趣标签,具体包括:
对所述网络内容进行分词处理,得到所述网络内容对应的至少一个切分词;
确定每个所述切分词在每个标签词库中出现的次数;
根据每个所述切分词在每个标签词库中出现的次数,确定所述用户的兴趣标签;
其中,
所述网络信息还包括所述网络内容的转发信息,所述转发信息包括转发对象,所述方法还包括,
根据所述网络内容的转发信息,确定所述用户的好友信息;
将所述好友信息添加到所述用户的用户画像上;
其中,
所述方法还包括:
根据所述用户在第二预设时长内发布的网络内容的数量和第一预设阈值,确定所述用户在所述第二预设时长内的活跃度信息;所述第一预设阈值为所述第二预设时长内样本用户发布的网络内容的平均数量;
将所述活跃度信息添加到所述用户画像上;
其中,
所述网络信息还包括所述用户的活跃等级信息,所述方法还包括:
根据所述活跃度信息、所述用户的活跃等级信息和第二预设阈值,确定所述用户的影响力信息;所述第二预设阈值为样本用户的活跃等级信息的平均值;
将所述影响力信息添加到所述用户画像上;
其中,
所述方法还包括:
根据所述网络内容、预设的热点词、预设的热点词的个数和每个所述热点词的预设权重,确定用户的敏感度信息;
将所述敏感度信息添加到所述用户画像上。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述切分词在每个标签词库中出现的次数,确定所述用户的兴趣标签,具体包括:
根据所有切分词在同一个标签词库中的出现次数之和,确定所述用户的兴趣标签为所述出现次数之和最大的标签词库对应的标签。
3.根据权利要求1所述的方法,其特征在于,所述根据每个所述切分词在每个标签词库中出现的次数,确定所述用户的兴趣标签,具体包括:
根据每个所述切分词在每个标签词库中出现的次数、切分词的个数以及每个所述切分词的预设权重,确定所述网络内容与每个所述标签词库的匹配度;
根据所述网络内容与每个所述标签词库的匹配度,确定所述用户的兴趣标签。
4.根据权利要求2或3所述的方法,其特征在于,所述切分词包括直接切分词和所述直接切分词的同义词,所述直接切分词为所述网络内容中的原词。
5.一种用户画像构建装置,其特征在于,包括:获取模块和处理模块,其中,
所述获取模块,用于获取用户在社交平台上发布的网络信息,所述网络信息包括用户的注册信息和第一预设时长内用户发布的网络内容,所述用户的注册信息用于表征所述用户的基本属性;
所述处理模块,用于根据所述注册信息,确定所述用户的人口属性信息,并根据所述网络内容和预设的多个标签词库,确定所述用户的兴趣标签,以及根据所述人口属性信息和所述用户的兴趣标签,生成所述用户的用户画像;其中,不同的标签词库表征不同的兴趣类别;
其中,所述处理模块,具体还用于对所述网络内容进行分词处理,得到所述网络内容对应的至少一个切分词;确定每个所述切分词在每个标签词库中出现的次数;根据每个所述切分词在每个标签词库中出现的次数,确定所述用户的兴趣标签;
其中,所述处理模块,具体还用于根据所述网络内容的转发信息,确定所述用户的好友信息;将所述好友信息添加到所述用户的用户画像上;
其中,所述处理模块,具体还用于根据所述用户在第二预设时长内发布的网络内容的数量和第一预设阈值,确定所述用户在所述第二预设时长内的活跃度信息;所述第一预设阈值为所述第二预设时长内样本用户发布的网络内容的平均数量;将所述活跃度信息添加到所述用户画像上;
其中,所述处理模块,具体还用于根据所述活跃度信息、所述用户的活跃等级信息和第二预设阈值,确定所述用户的影响力信息;述第二预设阈值为样本用户的活跃等级信息的平均值;将所述影响力信息添加到所述用户画像上;
其中,所述处理模块,具体还用于根据所述网络内容、预设的热点词、预设的热点词的个数和每个所述热点词的预设权重,确定用户的敏感度信息;
将所述敏感度信息添加到所述用户画像上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710061313.1A CN106874435B (zh) | 2017-01-25 | 2017-01-25 | 用户画像构建方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710061313.1A CN106874435B (zh) | 2017-01-25 | 2017-01-25 | 用户画像构建方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106874435A CN106874435A (zh) | 2017-06-20 |
CN106874435B true CN106874435B (zh) | 2020-02-14 |
Family
ID=59158888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710061313.1A Active CN106874435B (zh) | 2017-01-25 | 2017-01-25 | 用户画像构建方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106874435B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729469A (zh) * | 2017-10-12 | 2018-02-23 | 北京小度信息科技有限公司 | 用户挖掘方法、装置、电子设备及计算机可读存储介质 |
CN108830735B (zh) * | 2017-12-27 | 2021-09-03 | 广州市云润大数据服务有限公司 | 一种线上人际关系分析方法与系统 |
CN108269128B (zh) * | 2018-01-22 | 2022-03-08 | 北京小米移动软件有限公司 | 广告的投放方法、装置、设备及存储介质 |
CN108615199A (zh) * | 2018-05-11 | 2018-10-02 | 国家计算机网络与信息安全管理中心 | 基于互联网公开论坛注册情况的用户活动轨迹挖掘方法 |
CN108769159A (zh) * | 2018-05-16 | 2018-11-06 | 北京豆果信息技术有限公司 | 一种电子菜谱智能推荐方法 |
CN108804701A (zh) * | 2018-06-19 | 2018-11-13 | 苏州大学 | 基于社交网络大数据的人物画像模型构建方法 |
CN109284932B (zh) * | 2018-10-08 | 2020-08-04 | 杭州飞弛网络科技有限公司 | 一种基于大数据的陌生人社交用户评价方法与系统 |
CN109815386B (zh) * | 2018-12-21 | 2022-04-29 | 厦门市美亚柏科信息股份有限公司 | 一种基于用户画像的构建方法、装置及存储介质 |
CN110046303B (zh) * | 2019-04-09 | 2022-05-17 | 有光创新(北京)信息技术有限公司 | 一种基于需求匹配平台实现的信息推荐方法及装置 |
CN111182018B (zh) * | 2019-07-02 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 一种用户识别方法、装置、设备及介质 |
CN112749323B (zh) * | 2019-10-31 | 2024-07-23 | 北京沃东天骏信息技术有限公司 | 一种构建用户画像的方法和装置 |
CN111311463A (zh) * | 2020-01-15 | 2020-06-19 | 深圳市华傲数据技术有限公司 | 基于数据标签建立人口画像的数据处理方法及系统 |
CN111597453B (zh) * | 2020-03-31 | 2024-05-07 | 平安科技(深圳)有限公司 | 用户画像方法、装置、计算机设备及计算机可读存储介质 |
CN111552865A (zh) * | 2020-03-31 | 2020-08-18 | 深圳壹账通智能科技有限公司 | 用户兴趣画像方法及相关设备 |
CN112417315A (zh) * | 2020-12-15 | 2021-02-26 | 深圳壹账通智能科技有限公司 | 基于网站注册的用户画像生成方法、装置、设备和介质 |
CN113486041B (zh) * | 2021-08-02 | 2022-04-15 | 南京邮电大学 | 一种基于区块链的客户画像管理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005587A (zh) * | 2015-06-26 | 2015-10-28 | 深圳市腾讯计算机系统有限公司 | 一种用户画像的更新方法、装置和系统 |
CN105205699A (zh) * | 2015-09-17 | 2015-12-30 | 北京众荟信息技术有限公司 | 基于酒店点评的用户标签和酒店标签匹配方法及装置 |
CN106126582A (zh) * | 2016-06-20 | 2016-11-16 | 乐视控股(北京)有限公司 | 推荐方法及装置 |
CN106126592A (zh) * | 2016-06-20 | 2016-11-16 | 北京小米移动软件有限公司 | 搜索数据的处理方法及装置 |
-
2017
- 2017-01-25 CN CN201710061313.1A patent/CN106874435B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005587A (zh) * | 2015-06-26 | 2015-10-28 | 深圳市腾讯计算机系统有限公司 | 一种用户画像的更新方法、装置和系统 |
CN105205699A (zh) * | 2015-09-17 | 2015-12-30 | 北京众荟信息技术有限公司 | 基于酒店点评的用户标签和酒店标签匹配方法及装置 |
CN106126582A (zh) * | 2016-06-20 | 2016-11-16 | 乐视控股(北京)有限公司 | 推荐方法及装置 |
CN106126592A (zh) * | 2016-06-20 | 2016-11-16 | 北京小米移动软件有限公司 | 搜索数据的处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106874435A (zh) | 2017-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106874435B (zh) | 用户画像构建方法和装置 | |
CN108170692B (zh) | 一种热点事件信息处理方法和装置 | |
US20180285700A1 (en) | Training Image-Recognition Systems Using a Joint Embedding Model on Online Social Networks | |
CN105389722B (zh) | 恶意订单识别方法及装置 | |
CN111602147A (zh) | 基于非局部神经网络的机器学习模型 | |
US10083379B2 (en) | Training image-recognition systems based on search queries on online social networks | |
CN110069784A (zh) | 一种语音质检评分方法、装置、终端及可存储介质 | |
CN108304377B (zh) | 一种长尾词的提取方法及相关装置 | |
CN108287875B (zh) | 人物共现关系确定方法、专家推荐方法、装置及设备 | |
WO2021104097A1 (zh) | 表情包生成方法、装置及终端设备 | |
CN108269122B (zh) | 广告的相似度处理方法和装置 | |
CN111683274B (zh) | 弹幕广告展示方法、装置、设备及计算机可读存储介质 | |
CN109062914A (zh) | 用户推荐方法和装置,存储介质和服务器 | |
JP5730741B2 (ja) | 話題推薦装置及び方法及びプログラム | |
KR101652433B1 (ko) | Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법 | |
CN110070410A (zh) | 一种基于大数据的人口社交分析方法及系统 | |
CN109885831B (zh) | 关键术语抽取方法、装置、设备及计算机可读存储介质 | |
CN113688310A (zh) | 一种内容推荐方法、装置、设备及存储介质 | |
CN110019948B (zh) | 用于输出信息的方法和装置 | |
KR20180078022A (ko) | 패션 분야의 트렌드 분석방법 및 이를 포함하는 저장매체 | |
CN112417845B (zh) | 一种文本评价方法、装置、电子设备及存储介质 | |
CN107665222B (zh) | 关键词的拓展方法和装置 | |
CN112541069A (zh) | 一种结合关键词的文本匹配方法、系统、终端及存储介质 | |
Amrullah et al. | The effect of using Emoji and Hashtag in sentiment analysis on Twitter case study: Indonesian online travel agent | |
CN111274384A (zh) | 一种文本标注方法及其设备、计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |