CN108829822B - 媒体内容的推荐方法和装置、存储介质、电子装置 - Google Patents
媒体内容的推荐方法和装置、存储介质、电子装置 Download PDFInfo
- Publication number
- CN108829822B CN108829822B CN201810603143.XA CN201810603143A CN108829822B CN 108829822 B CN108829822 B CN 108829822B CN 201810603143 A CN201810603143 A CN 201810603143A CN 108829822 B CN108829822 B CN 108829822B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- content
- candidate
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 239000013598 vector Substances 0.000 claims abstract description 240
- 238000012549 training Methods 0.000 claims description 29
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 11
- 238000012217 deletion Methods 0.000 claims description 9
- 230000037430 deletion Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000013016 damping Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种媒体内容的推荐方法和装置、存储介质、电子装置。其中,该方法包括:获取到推荐请求,其中,推荐请求用于请求向目标对象推荐媒体内容;响应于推荐请求,从第一内容的词语中获取主题词,主题词的词向量与第一内容的语义向量的第一相似度大于或等于第二相似度,第一内容的语义向量为根据多个关键词中每个关键词的词向量和每个关键词的权重确定的,多个关键词为第一内容的词语中的关键词;从候选媒体内容中选取与主题词匹配的第二内容,并向目标对象推荐第二内容。本发明解决了相关技术中推荐的媒体内容的准确率较低的技术问题。
Description
技术领域
本发明涉及互联网领域,具体而言,涉及一种媒体内容的推荐方法和装置、存储介质、电子装置。
背景技术
随着社会化媒体的飞速发展,人们每时每刻都接收和处理来自于物理世界和信息世界的大量信息。但是,这些信息数量大、结构复杂以及无意义信息多等特点,导致人们不可能对每一条接收到的信息都进行加工和处理,识别其中有价值的部分。因此,如何从文本中获取有用的信息是实现快速、准确地处理信息的关键。
在现实世界中,关键词是对有用信息最直观的表示,所以如何从文本中获取人们关注的关键词成为当前迫切需要解决的问题。从文本中获取人们关注的关键词,一方面可以帮助人们快速地理解信息的内容,另一方面还可以为文本挖掘、自然语言处理、知识工程等领域提供重要的技术支持,具有非常广泛的应用。例如,在营销领域,通过关键词可以揭示顾客所关注的方面,从而为用户推荐更为符合其习惯的内容。但是,由于对关键词的定位不准确等原因,从而导致不能准确为用户推送内容,因为为用户推荐的内容不满足其喜好,从而导致用户对所推荐的内容的点击率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种媒体内容的推荐方法和装置、存储介质、电子装置,以至少解决相关技术中推荐的媒体内容的准确率较低的技术问题。
根据本发明实施例的一个方面,提供了一种媒体内容的推荐方法,包括:获取到推荐请求,其中,推荐请求用于请求向目标对象推荐媒体内容;响应于推荐请求,从第一内容的词语中获取主题词,主题词的词向量与第一内容的语义向量的第一相似度大于或等于第二相似度,第一内容的语义向量为根据多个关键词中每个关键词的词向量和每个关键词的权重确定的,多个关键词为第一内容的词语中的关键词;从候选媒体内容中选取与主题词匹配的第二内容,并向目标对象推荐第二内容。
根据本发明实施例的一个方面,提供了一种筛选媒体内容主题词的方法,包括:获取媒体内容;获取媒体内容中各关键词的词向量;根据媒体内容中各关键词的词向量和各关键词的权重,计算得到媒体内容的语义向量,其中,关键词为媒体内容的词语中的关键词;计算媒体内容中各词语的词向量与媒体内容的语义向量之间的相似度,当相似度大于或等于一阈值时,将对应的词语确认为媒体内容的主题词。
根据本发明实施例的另一方面,还提供了一种媒体内容的推荐装置,包括:第一获取单元,用于获取到推荐请求,其中,推荐请求用于请求向目标对象推荐媒体内容;第二获取单元,用于响应于推荐请求,从第一内容的词语中获取主题词,主题词的词向量与第一内容的语义向量的第一相似度大于或等于第二相似度,第一内容的语义向量为根据多个关键词中每个关键词的词向量和每个关键词的权重确定的,多个关键词为第一内容的词语中的关键词;推荐单元,用于从候选媒体内容中选取与主题词匹配的第二内容,并向目标对象推荐第二内容。
根据本发明实施例的一个方面,提供了一种筛选媒体内容主题词的装置,包括:第三获取单元,用于获取媒体内容;第四获取单元,用于获取媒体内容中词语的词向量;第一计算单元,用于根据媒体内容中各关键词的词向量和各关键词的权重,计算得到媒体内容的语义向量,其中,关键词为媒体内容的词语中的关键词;第二计算单元,用于计算媒体内容中词语的词向量与媒体内容的语义向量的相似度,当相似度大于第一阈值时,将对应的词语确认为媒体内容的主题词。
根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器通过计算机程序执行上述的方法。
在本发明实施例中,在获取到推荐请求时,获取用于表示目标对象的主题词,主题词为从第一内容的词语中选取出的,第一内容的语义向量为根据多个关键词中每个关键词的词向量和为多个关键词中每个关键词配置的权重确定的,多个关键词为第一内容的词语中的关键词;从候选媒体内容中选取与主题词匹配的第二内容,并向目标对象推荐第二内容,关键词更能够体现内容的主要内容,故通过关键词来确定第一内容的语义向量能够使所确定的语义向量更为准确,进而能够更为准确的确定用于描述目标对象习惯的主题词,便于更为准确地利用主题词进行内容推荐,可以解决相关技术中推荐的媒体内容的准确率较低的技术问题,进而达到准确进行内容推荐的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的媒体内容的推荐方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的媒体内容的推荐方法的流程图;
图3是根据本发明实施例的一种可选的媒体内容的推荐方法的流程图;
图4是根据本发明实施例的一种可选的用户界面的示意图;
图5是根据本发明实施例的一种可选的用户界面的示意图;
图6是根据本发明实施例的一种可选的用户界面的示意图;
图7是根据本发明实施例的一种可选的终端与服务器交互的示意图;
图8是根据本发明实施例的一种可选的权重迭代的示意图;
图9是根据本发明实施例的一种可选的媒体内容的推荐装置的示意图;
以及
图10是根据本发明实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一方面,提供了一种媒体内容的推荐方法的方法实施例。
可选地,在本实施例中,上述媒体内容的推荐方法可以应用于如图1所示的由服务器101和终端103所构成的硬件环境中。如图1所示,服务器101通过网络与终端103进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端103并不限定于PC、手机、平板电脑等。本发明实施例的媒体内容的推荐方法可以由服务器101来执行。
图2是根据本发明实施例的一种可选的媒体内容的推荐方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,服务器获取到推荐请求,推荐请求用于请求向目标对象推荐媒体内容。
上述媒体内容为可用于推广、宣传的内容,可以为文本、语音、视频、音频、图片、动图等类型的内容中的一种,也可是其中多种的结合。
步骤S204,响应于推荐请求,服务器从第一内容的词语中获取主题词,主题词的词向量与第一内容的语义向量的第一相似度大于或等于第二相似度,第一内容的语义向量为根据多个关键词中每个关键词的词向量和每个关键词的权重确定的,多个关键词为第一内容的词语中的关键词。本实施例中,第一内容指用户观看过的媒体内容。
可选地,主题词的词向量与第一内容的语义向量的第一相似度大于第二相似度,第二相似度为预设的阈值,或为第一内容的词语中除主题词以外的词语的词向量与第一内容的语义向量的相似度,如第二相似度为第一内容的词语中除主题词以外的词语的词向量与第一内容的语义向量的相似度。目标对象可以为阅览媒体内容的对象,如用户。
在从第一内容等媒体内容中提取词语时,可根据媒体内容所包括的内容类型(如文本、图片、视频、音频等)采用相应的方式提取,若媒体内容中包括文本,则媒体内容中的词语可以为文本中的词语,若媒体内容没有包括文本,则可按照如下方式提取词语,如从视频的字幕中提取出媒体内容中的词语、通过语音转文字的转换工具从视频的语音或直接从音频中提取出媒体内容中的词语、从图片或动图上的文字中或标签中提取出媒体内容中的词语。
上述主题词又称叙词,是在标引和检索中用以表达如媒体内容等文献的主题的语言,具有概念化和规范化的特征,主题词的选取可依据主题词表实现,如按照主题词表中的词语逐个在媒体内容中索引,若索引到则将该词语作为媒体内容的主题词之一。可选地,上述主题词可以作为目标对象(或者用于标识目标对象的目标帐号)的主题词,这些主题词可以是用于表示目标对象的兴趣、爱好、习惯等的词语,如娱乐明星的名字“王某”,故事类型“惊悚”、“民间怪事”,手机品牌“XX”等。
若要将自然语言交给机器学习中的算法来处理,可将语言数学化,词向量(英文表述方式为Distributed Representation)是一种用来将语言中的词进行数学化的一种方式,可以通过训练将某种语言中的每一个词映射成一个固定长度的向量,将所有这些向量放在一起就可形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(如词法、语义上的)相似性了。
可选地,可利用word2vec模型在新闻等媒体语料上训练词语语义向量。
在相关技术中,第一内容的语义为第一内容中所有词语所表示的词义的综合,如将媒体内容中的文本进行切分,文本可切分为n个词语,这n个词语所对应的词语义向量进行权值为1/n的加权求和,就可得到新闻等媒体内容的语义向量。
求取词语(包括第一内容中主题词和主题词以外的词语)的词向量与第一内容的语义向量的相似度度时,可根据每个候选词的向量与新闻语义向量的cosin相似度(或称为余弦相似度)作为每个候选词与新闻语义相关性的衡量。
需要说明的是,相关技术在计算语义向量时,只是简单的进行了词语语义向量的加和平均,然而,媒体内容(如新闻文本)中可能存在废词、与主题无关的词语,当这些词语在向量空间中的位置往往距离其它词语较远,媒体内容的真实语义往往取决于重要的一些词,而与废词等无关,所以相关技术中最后得到的媒体内容的语义向量不能很好的反应新闻文本的真实语义。
在本申请实施例所提出的技术方案中,可以利用概率图模型textrank,得到了媒体内容中词的重要度得分,根据重要度得分对词向量进行加权求和得到媒体内容的语义向量,也即确定媒体内容的语义向量时仅仅考虑关键词的词向量,因此改进了原有语义向量计算的缺陷。
步骤S206,服务器从候选媒体内容中选取与主题词匹配的第二内容,并向目标对象推荐第二内容,采用本申请的技术方案,所计算出的语义向量更能够清楚的表达原媒体内容的核心信息,进而可以更为准确地确认用户的主题词,更为精确地为其推荐符合其习惯的内容。
上述实施例以本发明实施例的媒体内容的推荐方法由服务器101来执行为例进行说明,本发明实施例的媒体内容的推荐方法也可以由终端103来执行,即上述步骤的执行主体由服务器换为了终端,还可以是由服务器101和终端103共同执行。其中,终端103执行本发明实施例的媒体内容的推荐方法也可以是由安装在其上的客户端来执行。
通过上述步骤S202至步骤S206,在获取到推荐请求时,获取用于表示目标对象的主题词,主题词为从第一内容的词语中选取出的,第一内容的语义向量为根据多个关键词中每个关键词的词向量和为多个关键词中每个关键词配置的权重确定的,多个关键词为第一内容的词语中的关键词;从候选媒体内容中选取与主题词匹配的第二内容,并向目标对象推荐第二内容,关键词更能够体现内容的主要内容,故通过关键词来确定第一内容的语义向量能够使所确定的语义向量更为准确,进而能够更为准确的确定用于描述目标对象习惯的主题词,便于更为准确地利用主题词进行内容推荐,可以解决相关技术中推荐的媒体内容的准确率较低的技术问题,进而达到准确进行内容推荐的技术效果。
下面结合图2所示的步骤,进一步详述本申请的技术方案:
主题词的提取可用在快报、新闻、娱乐等产品的线上推荐系统,以用户点击过的文章等作为输入,通过基于语义图模型的主题词提取方法,提取出与新闻主题语义相近的一组词语,即主题词,提取的结果作为用户画像的输入,从而刻画出用户的兴趣。在需要进行推荐时,如用户启动上述产品的客户端、在客户端进行刷新等情况下,可触发本申请的技术方案的执行,此时,如步骤S202提供的技术方案,服务器会获取到推荐请求,推荐请求用于请求向目标对象推荐媒体内容,推荐系统再根据用户的画像兴趣,召回相应的文章,推荐给用户。
在步骤S204提供的技术方案中,响应于推荐请求,服务器获取用于表示目标对象的主题词,主题词为从第一内容的词语中选取出的,主题词的词向量与第一内容的语义向量的第一相似度大于第二相似度,第二相似度可以为第一内容的词语中除主题词以外的词语的词向量与第一内容的语义向量的相似度,第一内容的语义向量为根据第一内容的词语中的关键词确定的。
在本申请的实施例中,获取用于表示目标对象的主题词可包括如下步骤1-步骤5:
步骤1,通过对第一内容进行分词得到多个候选词,候选词为第一内容中的词语。
中文分词(Chinese Word Segmentation)是将一个汉字序列切分成一个一个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,可以采用的分词方法包括但不局限:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
在通过对第一内容进行分词得到多个候选词时,可以直接采用上述分词方法进行分词;也可对第一内容进行去噪处理后,再对去噪处理后的第一内容进行分词得到多个词语,上述去噪处理用于消除第一内容中的干扰词语,即不必要的信息,如“XX报道”等;按照词性对多个词语进行过滤,如过滤掉“副词”,并对过滤后的词语进行合并处理,得到多个候选词,即对细粒度的分词进行回捞,如“智能”和“设备”回捞成“智能设备”,将“智能设备”作为一个候选词。
在上述实施例中,对第一内容进行去噪处理包括:
步骤11,获取第一内容中的词语的被删除概率:
P(wi)表示第i个词语wi的被删除概率,f(wi)表示词语wi在第一内容中出现频率,t为参数,表示一个阈值;
步骤12,在第i个词语的被删除概率大于第二阈值的情况下,如大于50%,确定第i个词语为干扰词语;
步骤13,删除第一内容中的干扰词语。
可选地,也可根据被删除概率随机触发是否被删除,如第i个词语的被删除概率为10%,那么每次出现该词语时被触发删除的概率均为10%。
步骤2,根据多个候选词中的关键词的词向量确定第一内容的语义向量。
可选地,可以在确定第一内容的语义向量时,训练好用于进行语义向量识别的模型,也可在确定第一内容的语义向量之前,预先训练好用于进行语义向量识别的模型。下面结合本申请实施例详述如何进行模型训练:
在训练模型时,即在将候选词作为第一模型(如word2vec模型)的输入之前,通过对第三内容进行分词来得到训练集,训练集中保存的词语为对第三内容进行分词得到的词语;将训练集中属于第三内容中同一语句的词语按照在语句中的序列位置作为第二模型的输入,以对第二模型进行训练,训练后的第二模型作为第一模型,从而得到第一模型。
可选地,在训练时,可通过负采样方法“negative samping”来优化目标函数,这样会减少大量的计算,因为每个训练样本的训练只需要更新一小部分的模型权重,从而降低了计算负担。
在上述实施例中,在根据多个候选词中的关键词的词向量确定第一内容的语义向量之前,可将候选词作为第一模型的输入,并获取第一模型输出的候选词的词向量,从而就确定了每个候选词的词向量,由于候选词包括关键词,自然也就确认了关键词的词向量。
步骤3,根据多个候选词中的关键词的词向量确定第一内容的语义向量。
在本申请的实施例中,根据多个候选词中的关键词的词向量确定第一内容的语义向量可包括:
步骤31,根据候选词在第一内容中的序列位置确定多个候选词中的关键词。
在步骤31的实施例中,根据候选词在第一内容中的序列位置确定多个候选词中的至少一个关键词可包括:
构建包括多个候选词的词图,其中,每个候选词作为词图中的一个节点,属于第一内容中同一语句的候选词所在的节点在词图中按照在语句中的序列位置相连接,例如,一个语句为“王二坐公交车去市中心”,对该语句进行处理得到的候选词包括:王二、坐、公交车、去、市中心,那么词“王二”、“坐”、“公交车”、“去”、“市中心”将分别作为词图中的一个节点,且“王二”、“坐”、“公交车”、“去”、“市中心”这几个节点顺序连接,“王二”与“坐”之间相连接而成的边(即词图中的一条边)的指向关系可以为节点“王二”指向节点“坐”,“公交车”与“坐”之间相连接而成的边(即词图中的一条边)的指向关系可以为节点“坐”指向节点“公交车”,其余节点以此类推;
按照如下公式对词图中每个候选词的权重参数执行迭代运算:
其中,S(Vi)表示本轮迭代运算中第i个候选词的权重参数,S(Vj)表示前一轮迭代运算中第j个候选词的权重参数,d表示阻尼系数,In(Vi)表示指向第j个候选词的候选词的集合,Out(Vj)表示第j个候选词的边的个数;
在任意一轮的迭代运算中,若本轮迭代运算中候选词的权重参数与前一轮迭代运算中候选词的权重参数之间的差值不在目标范围内的情况下,继续执行下一轮迭代运算,否则停止迭代运算;
在停止迭代运算之后,按照权重参数获取多个候选词中的关键词,其中,关键词的权重参数大于多个候选词中除关键词外的词语的权重参数。
步骤32,对所有关键词的中间向量进行求和,得到第一内容的语义向量,关键词的中间向量为关键词的词向量与为关键词设置的权重之间的乘积。
可选地,第m个关键词的词向量可以行向量或列向量用所有候选词的权重km之和为1,中间向量可以表示为/>
在步骤32所示的实施例中,对所有关键词的中间向量进行求和,得到第一内容的语义向量可包括:
通过对所有关键词的权重参数进行归一化处理,确定为每个关键词设置的权重,对于每个关键词的权重参数计算方式:获取所有关键词的权重参数(即初始时为其分配的权重)之后,在将该关键词的权重与上述求取的和之间的比值作为新的归一化处理后的权重;获取关键词的词向量与为关键词设置的权重之间的乘积为关键词的中间向量;对所有关键词的中间向量进行求和,得到第一内容的语义向量。
步骤4,获取每个候选词的词向量与第一内容的语义向量的相似度,可选地,根据每个候选词的向量与新闻语义向量的余弦相似度作为每个候选词与新闻语义相关性的衡量。
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小,相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上的差异。
其中,θ表示余弦角度,p和q为上述两个向量的角标,均不大于n。
与欧几里德距离类似,基于余弦相似度的计算方法可把用户的喜好作为n维坐标系中的一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个向量之间的相似度值就是两条直线(向量)间夹角的余弦值,夹角越小代表该候选词与内容属性越相似,夹角越大代表相似度越小。同时在三角系数中,角的余弦值是在[-1,1]之间的,0度角的余弦值是1,180角的余弦值是-1。
步骤5,将与第一内容的语义向量的相似度大于第一阈值的候选词作为主题词。第一阈值可以根据需求进行设置,如设置为0.8、0.9。
在步骤S206提供的技术方案中,服务器从候选媒体内容中选取与主题词匹配的第二内容,并向目标对象推荐第二内容。
从候选媒体内容中选取与主题词匹配的第二内容选取的方式与上述方式类似,可以计算用户的主题词与每个候选内容的语义向量之间的相似度,选择其中相似度最大的一个或多个。
根据本发明实施例的一方面,提供了一种筛选媒体内容主题词的方法实施例。该方法可以包括以下步骤:
步骤1,获取媒体内容。
步骤2,获取媒体内容中各关键词的词向量。
步骤3,根据媒体内容中各关键词的词向量和各关键词的权重,计算得到媒体内容的语义向量,其中,关键词为媒体内容的词语中的关键词。
可选地,根据媒体内容中各关键词的词向量和各关键词的权重计算得到媒体内容的语义向量包括:通过对所有关键词的权重参数进行归一化处理,确定为每个关键词设置的权重;获取关键词的词向量与为关键词设置的权重之间的乘积为关键词的中间向量;对所有关键词的中间向量进行求和,得到媒体内容的语义向量。
步骤4,计算媒体内容中各词语的词向量与媒体内容的语义向量之间的相似度,当相似度大于或等于一阈值(如第二相似度)时,将对应的词语确认为媒体内容的主题词。
具体的主题词的筛选方式可以参见前述实施例。
作为一种可选的实施例,下面以将本申请的技术方案应用于新闻媒体推荐为例进一步详述本申请的技术方案。
在提取与新闻表达主题语义最相近的一组词语时,将概率图模型textrank(用来做关键词提取的算法,也可以用于提取短语和自动摘要)和词向量模型word2vec相结合,最终得到词语和新闻文本的语义相关性的衡量。利用概率图模型textrank,根据新闻文本中词语出现的位置信息对每个新闻中的词进行重要度排序,并给出重要度得分;利用词向量模型word2vec在新闻语料上训练词语语义向量;对textrank得分靠前(如前20个)的词根据重要度得分对词向量进行加权求和得到新闻文本的语义向量;根据每个候选词的向量与新闻语义向量的cosin相似度作为每个候选词与新闻语义相关性的衡量,设定语义相关度阈值,大于该阈值的词认为是新闻的主题词
一种基于上述媒体内容的推荐方法的基于语义图模型的主题词提取方法具体实现流程如图3所示。
文本语义向量(即内容的语义向量)的计算需要textrank模型计算出的词语的重要度权重和提前训练好的词语的语义向量作为输入。
textrank模型计算词语的重要度权重的步骤如图3所示:
步骤S302,服务器接收线上触发的获取一篇新闻的请求。
如图4所示,当用户启动应用(如“快报”应用)时,会触发上述请求,以请求推送符合该用户的习惯的新闻,如图5所示;如图6所示,当用户已经处于新闻浏览界面时,当拉倒新闻推荐列表底部或者点击“刷新”按钮时,也会触发上述的请求,以便更新所推荐的新闻。
可选地,如图7所示,当用户启动快报或者点击更新之后,用户终端会生成上述请求,并通过网络传送给服务器。
步骤S304,对新闻文本进行去噪处理,主要是过滤掉一些不必要的信息,如“XX报道”,“XX讯”等等。
步骤S306,通过分词系统对新闻文本进行分词。
召回候选词:对细粒度的分词进行回捞,如将“智能”和“冰箱”回捞成智能冰箱,以及通过词性进行过滤等等。
生成的候选词及文本分词上下文作为textrank模型的输入,进行词语重要度的计算。
textrank的实现过程如下,主要是计算文本语义向量所需要的权重:
1)将新闻文本进行分割,即T=[S1,S2,...,Sm],其中Si是每个句子,句子中的词语是过滤后保留下来的候选词。
2)根据每句话中的候选词构建候选词图G=(V,E),其中V是图中节点个数,E是候选词间的边,两个节点是否构建边,是根据在每句话中的词汇的共现长度来确定的,如可将共现窗口设置为2,线上代码也可设置为2。
3)根据公式迭代计算候选的textrank值,直到收敛,计算公式如下:
其中S(Vi)代表该候选词i在新闻文本中的重要度,d为阻尼系数,如设置为0.85、0.88等,线上代码也可设置为0.85、0.88等。In(Vi)表示指向候选词i的候选词集合,|Out(Vj)|表示候选词j的边的个数,此处的边表示一个候选词指向候选词j的边,或从候选词j指向另一候选词的边,候选词j的边的个数即指向候选词j和候选词j指向另一候选词的边的个数,S(Vj)表示上一次迭代中候选词j在文本中的重要度。
4)将候选词的重要度进行归一化处理,然后对其进行倒序排序,得到靠前(如重要度最大的20个)的候选词及其在文本中相应的重要度。
word2vec模型训练词语的语义向量的步骤如下:
步骤S308,对历史数据进行去噪处理,如选取距离当前时间半年内的新闻历史数据。
步骤S310,对文章进行分词处理,通过优质词表对细粒度的分词进行回捞,例如“新闻哥”一词是一个媒体名,而单独的“新闻”和“哥”中的任意单个单词都不能表达这样的含义,所以只要有分词分成“新闻”和“哥”,那么就可回捞成“新闻哥”,用以后面生成“新闻哥”的语义向量。
步骤S312,生成训练语料。
1)将训练语料作为word2vec模型的输入,得到模型参数,也就是需要的词向量。
词语是人类智慧的抽象结晶,可转化为计算机可以识别的数值形式,这就是词嵌入(word embedding),即将词语嵌入到一个词空间中,word2vec模型主要是通过拟合一个词作为输入来得到这个词上下文中的词概率(如采用Skip-gram模型结构得到的结果)或者是通过拟合一个词的上下文作为输入来得到这个词的词概率(如采用CBOW模型结构得到的结果),如图8所示,采用Skip-gram模型结构来进行训练,得到以新闻历史数据为语料的词向量。
2)当模型训练完成以后,会得到神经网络中的权重,比如输入词语是“新闻哥”,用一位有效编码(英文名称为one-hot encoder)表示为[1,0,0....0],那么在隐藏层的权重里,只有在对应1那个位置的权重被激活,而权重的个数就是设置的隐藏层的个数(即超参数),从而得到了“新闻哥”的语义向量就是这些权重的向量表示,而词汇表中每个词汇用one-hot encoder里面的1是唯一的,所以每个词语就得到了相应的唯一表示。
在训练时需要注意的点除了将常见的单词组合作为单个词来处理外,还可对高频词进行抽样。
例如文本为“外媒这样评价张三摔倒”,在训练中设置的窗口大小为2,那么就会有如下的训练样本:“外媒”、“这样”,词“这样”的训练样本不会提供更多关于“外媒”的语义信息,因为词“这样”会在很多单词的上下文中出现,还有就是词“这样”与另一个词“XX”这种训练样本数量远远超出了学习“这样”这个词向量所需的样本数。
因此,对于每个词,可以根据词的频率来计算每个词被删除的概率大小,公式如下:
P(wi)表示单词i被删除的概率大小,f(wi)表示wi的出现频率,t表示一个阈值,一般是1e-3到1e-5,例如这里取的是1e-5。
通过负采样方法“negative samping”来进行目标函数的优化,这样会减少大量的计算,因为每个训练样本的训练只需要更新一小部分的模型权重,从而降低计算负担,除了已知的目标词(positive word)以外,非目标词(nagetive words)的获取也是单词出现的频次有关,频次越高,越容易被选为nagetive words,公式实现如下:
P(wi)是单词i被选为negetive words的概率,f(wi)表示单词i的频率。
步骤S314,文本语义向量的计算。
1)根据textrank计算,得到文本候选词中每个候选词的权重,迭代计算公式如下:
其中Oi表示未归一化的候选词i的重要度(或称权重参数),S(Vi)代表在语义图中候选词i在新闻文本中的重要度(或称权重),d为阻尼系数,如设置为0.85,线上代码也可设置为0.85。In(Vi)表示指向候选词i的候选词集合,|Out(Vj)|表示候选词j的边的个数,S(Vj)表示上一次迭代语义图中候选词j在新闻文本中的重要度。
2)根据得到的Oi,再进行归一化处理,得到归一化后的每个候选词i的重要度Hi,计算公式如下:
其中Oi代表该候选词i归一化前在新闻文本中的重要度,Hi代表候选词i在语义图中归一化后的重要度,是一个标量。
3)根据候选词归一化后的重要度Hi从大到小排序,选取排序前20的候选词i(i>=1并且i<=20)。
4)由word2vec模型会得到训练语料词的向量表示,表示形式如下所示:
Wi=(x1,x2,x3,...,xn-2,xn-1,xn)
若在线上将n设置为100,即每个词是维度为100维的向量表示,xi是标量。
前二十个的候选词中的每个候选词的归一化权重乘以相应的候选词的向量表示,然后加权求和,得到文本语义向量,计算公式如下:
其中,i表示候选top20中的第i个词语,P(i|graph)表示词语i在文本中归一化后的重要度,Wi是已经训练好的词向量,S表示文本语义向量,可用一个100维的向量表示。
步骤S316,计算相关度(或称相似度)。
将每个候选词语义向量与新闻文本语义向量的cosin相似度Ri作为每个候选词与新闻语义相关性的衡量,计算公式如下:
其中S表示文本语义向量,如为一个维度为100的向量,Wi表示候选前20个词语中第i个词语的word2vec向量表示,也可是一个维度为100的向量,Ri是一个标量值。
设定语义相关度阈值,大于该阈值的词认为是新闻的主题词。
相关的技术在计算新闻文本的语义向量时,只是简单的进行了词语语义向量的加和平均,所以最后得到的新闻文本语义向量不能很好的反应新闻文本的真实语义,而文本的真实语义取决于文本中重要的一些词,在本申请所提出的技术方案中,利用概率图模型textrank,得到了文本中词的重要度得分,根据重要度得分对词向量进行加权求和得到新闻文本的语义向量,因此改进了原有新闻文本语义计算的缺陷。
通过离线测评对比发现,运用所提出的技术方案进行主题词的提取比相关技术方案进行主题词提取的ndcg指标(用来衡量排序质量的指标)提高了30%以上,上线后通过观察主题词推荐策略的线上效果,用户的点击率提高了20%以上。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述媒体内容的推荐方法的媒体内容的推荐装置。图9是根据本发明实施例的一种可选的媒体内容的推荐装置的示意图,如图9所示,该装置可以包括:
第一获取单元901,用于获取到推荐请求,其中,推荐请求用于请求向目标对象推荐媒体内容。
第二获取单元903,用于响应于推荐请求,从第一内容的词语中获取主题词,主题词的词向量与第一内容的语义向量的第一相似度大于或等于第二相似度,第一内容的语义向量为根据多个关键词中每个关键词的词向量和每个关键词的权重确定的,多个关键词为第一内容的词语中的关键词。
在从第一内容、第二内容等媒体内容中提取词语时,可根据媒体内容所包括的内容类型(如文本、图片、视频、音频等)采用相应的方式提取,若媒体内容中包括文本,则媒体内容中的词语可以为文本中的词语,若媒体内容没有包括文本,则可按照如下方式提取词语,如从视频的字幕中提取出媒体内容中的词语、通过语音转文字的转换工具从视频的语音或直接从音频中提取出媒体内容中的词语、从图片或动图上的文字中或标签中提取出媒体内容中的词语。
上述主题词又称叙词,是在标引和检索中用以表达如媒体内容等献的主题的语言,具有概念化和规范化的特征,主题词的选取可依据主题词表实现,如按照主题词表中的词语逐个在媒体内容中索引,若索引到则将该词语作为媒体内容的主题词之一。可选地,上述主题词可以作为目标对象(或者用于标识目标对象的目标帐号)的主题词,这些主题词可以用于表示目标对象的兴趣、爱好、习惯等的词语,如娱乐明星的名字“王某”,故事类型“惊悚”、“民间怪事”,手机品牌“XX”等。
若要将自然语言交给机器学习中的算法来处理,可将语言数学化,词向量(英文表述方式为Distributed Representation)是一种用来将语言中的词进行数学化的一种方式,可以通过训练将某种语言中的每一个词映射成一个固定长度的向量,将所有这些向量放在一起就可形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(如词法、语义上的)相似性了。
可选地,可利用word2vec模型在新闻等媒体语料上训练词语语义向量。
在相关技术中,第一内容的语义为第一内容中所有词语所表示的词义的综合,如将媒体内容中的文本进行切分,文本可切分为n个词语,这n个词语所对应的词语义向量进行权值为1/n的加权求和,就可得到新闻等媒体内容的语义向量。
求取词语(包括第一内容中主题词和主题词以外的词语)的词向量与第一内容的语义向量的相似度度时,可根据每个候选词的向量与新闻语义向量的cosin相似度(或称为余弦相似度)作为每个候选词与新闻语义相关性的衡量。
需要说明的是,相关技术在计算语义向量时,只是简单的进行了词语语义向量的加和平均,然而,媒体内容(如新闻文本)中可能存在废词、与主题无关的词语,当这些词语在向量空间中的位置往往距离其它词语较远,媒体内容的真实语义往往取决于重要的一些词,而与废词等无关,所以相关技术中最后得到的媒体内容的语义向量不能很好的反应新闻文本的真实语义。
在本申请实施例所提出的技术方案中,可以利用概率图模型textrank,得到了媒体内容中词的重要度得分,根据重要度得分对词向量进行加权求和得到媒体内容的语义向量,也即确定媒体内容的语义向量时仅仅考虑关键词的词向量,因此改进了原有语义向量计算的缺陷。
推荐单元905,用于从候选媒体内容中选取与主题词匹配的第二内容,并向目标对象推荐第二内容。
需要说明的是,该实施例中的第一获取单元901可以用于执行本申请实施例中的步骤S202,该实施例中的第二获取单元903可以用于执行本申请实施例中的步骤S204,该实施例中的推荐单元905可以用于执行本申请实施例中的步骤S206。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
通过上述模块,在获取到推荐请求时,获取用于表示目标对象的主题词,主题词为从第一内容的词语中选取出的,第一内容的语义向量为根据多个关键词中每个关键词的词向量和为多个关键词中每个关键词配置的权重确定的,多个关键词为第一内容的词语中的关键词;从候选媒体内容中选取与主题词匹配的第二内容,并向目标对象推荐第二内容,关键词更能够体现内容的主要内容,故通过关键词来确定第一内容的语义向量能够使所确定的语义向量更为准确,进而能够更为准确的确定用于描述目标对象习惯的主题词,便于更为准确地利用主题词进行内容推荐,可以解决相关技术中推荐的媒体内容的准确率较低的技术问题,进而达到准确进行内容推荐的技术效果。
可选地,第二获取单元可包括:分词模块,用于通过对第一内容进行分词得到多个候选词,其中,候选词为第一内容中的词语;第一确定模块,用于根据多个候选词中的关键词的词向量确定第一内容的语义向量;获取模块,用于获取每个候选词的词向量与第一内容的语义向量的相似度;第二确定模块,用于将与第一内容的语义向量的相似度大于或等于第二相似度的候选词作为主题词。
上述的第一确定模块可包括:确定子模块,用于根据候选词在第一内容中的序列位置确定多个候选词中的关键词;运算子模块,用于对所有关键词的中间向量进行求和,得到第一内容的语义向量,其中,关键词的中间向量为关键词的词向量与为关键词设置的权重之间的乘积。
可选地,确定子模块还可用于:
构建包括多个候选词的词图,其中,每个候选词作为词图中的一个节点,属于第一内容中同一语句的候选词所在的节点在词图中按照在语句中的序列位置相连接;
按照如下公式对词图中每个候选词的权重参数执行迭代运算:
其中,S(Vi)表示本轮迭代运算中第i个候选词的权重参数,S(Vj)表示前一轮迭代运算中第j个候选词的权重参数,d表示阻尼系数,In(Vi)表示指向第j个候选词的候选词的集合,Out(Vj)表示第j个候选词的边的个数;
在任意一轮的迭代运算中,若本轮迭代运算中候选词的权重参数与前一轮迭代运算中候选词的权重参数之间的差值不在目标范围内的情况下,继续执行下一轮迭代运算,否则停止迭代运算;
在停止迭代运算之后,按照权重参数获取多个候选词中的关键词,其中,关键词的权重参数大于多个候选词中除关键词外的词语的权重参数。
上述的运算子模块还可用于:
通过对所有关键词的权重参数进行归一化处理,确定为每个关键词设置的权重;
获取关键词的词向量与为关键词设置的权重之间的乘积为关键词的中间向量;
对所有关键词的中间向量进行求和,得到第一内容的语义向量。
可选地,本申请的分词模块可包括:去噪模块,用于对第一内容进行去噪处理,并对去噪处理后的第一内容进行分词得到多个词语,其中,去噪处理用于消除第一内容中的干扰词语;过滤模块,用于按照词性对多个词语进行过滤,并对过滤后的词语进行合并处理,得到多个候选词。
可选地,第一确定模块还用于在根据多个候选词中的关键词的词向量确定第一内容的语义向量之前,将候选词作为第一模型的输入,并获取第一模型输出的候选词的词向量。
在一个可选的实施例中,本申请的装置还可包括:训练单元,用于:在将候选词作为第一模型的输入之前,通过对第三内容进行分词来得到训练集,其中,训练集中保存的词语为对第三内容进行分词得到的词语;将训练集中属于第三内容中同一语句的词语按照在语句中的序列位置作为第二模型的输入,以对第二模型进行训练,得到第一模型。
上述的去噪模块还可用于:
获取第一内容中的词语的被删除概率:
其中,P(wi)表示第i个词语wi的被删除概率,f(wi)表示词语wi的出现频率,t为参数;
在第i个词语的被删除概率大于第二阈值的情况下,确定第i个词语为干扰词语;
删除第一内容中的干扰词语。
根据本发明实施例的另一个方面,还提供了一种用于实施上述筛选媒体内容主题词的方法的筛选媒体内容主题词的装置。该装置可以包括:
第三获取单元,用于获取媒体内容;
第四获取单元,用于获取媒体内容中词语的词向量;
第一计算单元,用于根据媒体内容中各关键词的词向量和各关键词的权重,计算得到媒体内容的语义向量,其中,关键词为媒体内容的词语中的关键词;
第二计算单元,用于计算媒体内容中词语的词向量与媒体内容的语义向量的相似度,当相似度大于第一阈值时,将对应的词语确认为媒体内容的主题词。
在本申请的技术方案中,在提取与新闻表达主题语义最相近的一组词语时,将概率图模型textrank(用来做关键词提取的算法,也可以用于提取短语和自动摘要)和词向量模型word2vec相结合,最终得到词语和新闻文本的语义相关性的衡量。利用概率图模型textrank,根据新闻文本中词语出现的位置信息对每个新闻中的词进行重要度排序,并给出重要度得分;利用词向量模型word2vec在新闻语料上训练词语语义向量;对textrank得分靠前(如前20个)的词根据重要度得分对词向量进行加权求和得到新闻文本的语义向量;根据每个候选词的向量与新闻语义向量的cosin相似度作为每个候选词与新闻语义相关性的衡量,设定语义相关度阈值,大于该阈值的词认为是新闻的主题词
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本发明实施例的另一个方面,还提供了一种用于实施上述媒体内容的推荐方法的服务器或终端。
图10是根据本发明实施例的一种终端的结构框图,如图10所示,该终端可以包括:一个或多个(图10中仅示出一个)处理器1001、存储器1003、以及传输装置1005(如上述实施例中的发送装置),如图10所示,该终端还可以包括输入输出设备1007。
其中,存储器1003可用于存储软件程序以及模块,如本发明实施例中的媒体内容的推荐方法和装置对应的程序指令/模块,处理器1001通过运行存储在存储器1003内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的媒体内容的推荐方法。存储器1003可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1003可进一步包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置1005用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1005包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1005为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器1003用于存储应用程序。
处理器1001可以通过传输装置1005调用存储器1003存储的应用程序,以执行下述步骤:
获取到推荐请求,其中,推荐请求用于请求向目标对象推荐媒体内容;
响应于推荐请求,从第一内容的词语中获取主题词,主题词的词向量与第一内容的语义向量的第一相似度大于或等于第二相似度,第一内容的语义向量为根据多个关键词中每个关键词的词向量和每个关键词的权重确定的,多个关键词为第一内容的词语中的关键词;
从候选媒体内容中选取与主题词匹配的第二内容,并向目标对象推荐第二内容。
处理器1001还用于执行下述步骤:
构建包括多个候选词的词图,其中,每个候选词作为词图中的一个节点,属于第一内容中同一语句的候选词所在的节点在词图中按照在语句中的位置相连接;
结合阻尼系数对词图中每个候选词的权重参数执行迭代运算;
在任意一轮的迭代运算中,若本轮迭代运算中候选词的权重参数与前一轮迭代运算中候选词的权重参数之间的差值不在目标范围内的情况下,继续执行下一轮迭代运算,否则停止迭代运算;
在停止迭代运算之后,按照权重参数获取多个候选词中的关键词,其中,关键词的权重参数大于多个候选词中除关键词外的词语的权重参数。
采用本发明实施例,在获取到推荐请求时,获取用于表示目标对象的主题词,主题词为从第一内容的词语中选取出的,主题词的词向量与第一内容的语义向量的第一相似度大于第二相似度,第二相似度为第一内容的词语中除主题词以外的词语的词向量与第一内容的语义向量的相似度,第一内容的语义向量为根据第一内容的词语中的关键词确定的;从候选媒体内容中选取与主题词匹配的第二内容,并向目标对象推荐第二内容,关键词更能够体现内容的主要内容,故通过关键词来确定第一内容的语义向量能够使所确定的语义向量更为准确,进而能够更为准确的确定用于描述目标对象习惯的主题词,便于更为准确地利用主题词进行内容推荐,可以解决相关技术中推荐的媒体内容的准确率较低的技术问题,进而达到准确进行内容推荐的技术效果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图10所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,终端还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行媒体内容的推荐方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S12,获取到推荐请求,其中,推荐请求用于请求向目标对象推荐媒体内容;
S14,响应于推荐请求,从第一内容的词语中获取主题词,主题词的词向量与第一内容的语义向量的第一相似度大于或等于第二相似度,第一内容的语义向量为根据多个关键词中每个关键词的词向量和每个关键词的权重确定的,多个关键词为第一内容的词语中的关键词;
S16,从候选媒体内容中选取与主题词匹配的第二内容,并向目标对象推荐第二内容。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
S22,构建包括多个候选词的词图,其中,每个候选词作为词图中的一个节点,属于第一内容中同一语句的候选词所在的节点在词图中按照在语句中的位置相连接;
S24,结合阻尼系数对词图中每个候选词的权重参数执行迭代运算;
S26,在任意一轮的迭代运算中,若本轮迭代运算中候选词的权重参数与前一轮迭代运算中候选词的权重参数之间的差值不在目标范围内的情况下,继续执行下一轮迭代运算,否则停止迭代运算;
S28,在停止迭代运算之后,按照权重参数获取多个候选词中的关键词,其中,关键词的权重参数大于多个候选词中除关键词外的词语的权重参数。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种媒体内容的推荐方法,其特征在于,包括:
获取到推荐请求,其中,所述推荐请求用于请求向目标对象推荐媒体内容,所述媒体内容包括文本和音视频;
响应于所述推荐请求,根据所述媒体内容的类型对第一内容进行分割得到多个语句,并从每一个语句中提取词语,得到所述多个语句关联的多个候选词,其中,所述第一内容是用户观看过的媒体内容;
对所述多个候选词的权重参数进行归一化处理,确定所述多个候选词的归一化后的权重参数,并将所述归一化后的权重参数最大的N个候选词确定为候选主题词,其中,所述权重参数用于指示所述多个候选词的重要度得分,N为正整数;
根据各个所述候选主题词在所述第一内容中的序列位置确定所有所述候选主题词中的关键词;
对所有所述关键词的中间向量进行求和,得到所述所述第一内容的语义向量,其中,所述关键词的中间向量为所述关键词的词向量与为所述关键词设置的权重之间的乘积;
将与所述第一内容的语义向量的相似度大于或等于第二相似度的所述候选词作为所述主题词;
从候选媒体内容中选取与所述主题词匹配的第二内容,并向所述目标对象推荐所述第二内容。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
构建包括所述多个候选词的词图,其中,每个所述候选词作为所述词图中的一个节点,属于所述第一内容中同一语句的所述候选词所在的节点在所述词图中按照在语句中的序列位置相连接;
根据前一轮迭代运算中所述候选词的权重参数,结合阻尼系数对所述词图中每个所述候选词的权重参数执行迭代运算;
在任意一轮的迭代运算中,当本轮迭代运算中所述候选词的权重参数与前一轮迭代运算中所述候选词的权重参数之间的差值超出目标范围内时,继续执行下一轮迭代运算,当本轮迭代运算中所述候选词的权重参数与前一轮迭代运算中所述候选词的权重参数之间的差值在目标范围内时,停止迭代运算;
在停止迭代运算之后,按照权重参数获取所述多个候选词中的所述关键词,其中,所述关键词的权重参数大于所述多个候选词中除所述关键词外的词语的权重参数。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过对所有所述候选主题词的权重参数进行归一化处理,确定为每个所述候选主题词设置的权重;
获取所述候选主题词的词向量与为所述候选主题词设置的权重之间的乘积为所述候选主题词的中间向量;
对所有所述候选主题词的中间向量进行求和,得到所述第一内容的语义向量。
4.根据权利要求2所述的方法,其特征在于,从每一个语句中提取词语,得到多个语句关联的多个候选词包括:
对所述第一内容进行去噪处理,并对去噪处理后的所述第一内容进行分词得到多个词语;
按照词性对所述多个词语进行过滤,并对过滤后的词语进行合并处理,得到所述多个候选词。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述候选词作为第一模型的输入,并获取所述第一模型输出的所述候选词的词向量,其中,所述第一模型用于获取词语的词向量。
6.根据权利要求5所述的方法,其特征在于,在将所述候选词作为第一模型的输入之前,所述方法还包括:
通过对第三内容进行分词来得到训练集;
将所述训练集中属于所述第三内容中同一语句的词语按照在语句中的序列位置作为第二模型的输入,以对所述第二模型进行训练,得到所述第一模型。
7.根据权利要求5所述的方法,其特征在于,对所述第一内容进行去噪处理包括:
根据所述第一内容中的词语的出现频率确定所述第一内容中的词语的被删除概率;
在第i个词语的被删除概率大于第二阈值的情况下,确定第i个词语为干扰词语;
删除所述第一内容中的干扰词语。
8.根据权利要求1所述的方法,其特征在于,所述第二相似度为预设的阈值,或为所述第一内容的词语中除所述主题词以外的词语的词向量与所述第一内容的语义向量的相似度。
9.一种媒体内容的推荐装置,其特征在于,包括:
第一获取单元,用于获取到推荐请求,其中,所述推荐请求用于请求向目标对象推荐媒体内容,所述媒体内容包括文本和音视频;
第二获取单元,用于响应于所述推荐请求,根据所述媒体内容的类型对第一内容进行分割得到多个语句,并从每一个语句中提取词语,得到所述多个语句关联的多个候选词,其中,所述第一内容是用户观看过的媒体内容;
所述装置还用于对所述多个候选词的权重参数进行归一化处理,确定所述多个候选词的归一化后的权重参数,并将所述归一化后的权重参数最大的N个候选词确定为候选主题词,其中,所述权重参数用于指示所述多个候选词的重要度得分,N为正整数;
所述装置,还用于根据各个所述候选主题词在所述第一内容中的序列位置确定所有所述候选主题词中的关键词;对所有所述关键词的中间向量进行求和,得到所述所述第一内容的语义向量,其中,所述关键词的中间向量为所述关键词的词向量与为所述关键词设置的权重之间的乘积;将与所述第一内容的语义向量的相似度大于或等于第二相似度的所述候选词作为所述主题词;
推荐单元,用于从候选媒体内容中选取与所述主题词匹配的第二内容,并向所述目标对象推荐所述第二内容。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至8任一项中所述的方法。
11.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行上述权利要求1至8任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810603143.XA CN108829822B (zh) | 2018-06-12 | 2018-06-12 | 媒体内容的推荐方法和装置、存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810603143.XA CN108829822B (zh) | 2018-06-12 | 2018-06-12 | 媒体内容的推荐方法和装置、存储介质、电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108829822A CN108829822A (zh) | 2018-11-16 |
CN108829822B true CN108829822B (zh) | 2023-10-27 |
Family
ID=64143877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810603143.XA Active CN108829822B (zh) | 2018-06-12 | 2018-06-12 | 媒体内容的推荐方法和装置、存储介质、电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108829822B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684458A (zh) * | 2018-12-26 | 2019-04-26 | 北京壹捌零数字技术有限公司 | 一种语句向量的计算方法及装置 |
CN110033851B (zh) * | 2019-04-02 | 2022-07-26 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、存储介质及服务器 |
CN111866610B (zh) * | 2019-04-08 | 2022-09-30 | 百度时代网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN110147499B (zh) * | 2019-05-21 | 2021-09-14 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN112307281B (zh) * | 2019-07-25 | 2024-10-29 | 北京搜狗科技发展有限公司 | 一种实体推荐方法及装置 |
CN110795936B (zh) * | 2019-08-14 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 词向量的获取方法和装置、存储介质及电子装置 |
CN110750640B (zh) * | 2019-09-17 | 2022-11-04 | 平安科技(深圳)有限公司 | 基于神经网络模型的文本数据分类方法、装置及存储介质 |
CN110909550B (zh) * | 2019-11-13 | 2023-11-03 | 北京环境特性研究所 | 文本处理方法、装置、电子设备和可读存储介质 |
CN110895879A (zh) * | 2019-11-26 | 2020-03-20 | 浙江大华技术股份有限公司 | 同行车的检测方法及装置、存储介质、电子装置 |
CN111259232B (zh) * | 2019-12-03 | 2022-08-12 | 江苏艾佳家居用品有限公司 | 一种基于个性化召回的推荐系统优化方法 |
CN111180086B (zh) * | 2019-12-12 | 2023-04-25 | 平安医疗健康管理股份有限公司 | 数据匹配方法、装置、计算机设备和存储介质 |
CN111079010B (zh) * | 2019-12-12 | 2023-03-31 | 国网四川省电力公司 | 一种数据处理方法、装置及系统 |
CN111090741B (zh) * | 2019-12-13 | 2023-04-07 | 国网四川省电力公司 | 一种数据处理方法、装置及系统 |
CN111191119B (zh) * | 2019-12-16 | 2023-12-12 | 绍兴市上虞区理工高等研究院 | 一种基于神经网络的科技成果自学习方法及装置 |
CN111191126B (zh) * | 2019-12-24 | 2023-11-03 | 绍兴市上虞区理工高等研究院 | 一种基于关键词的科技成果精准推送方法及装置 |
CN111274785B (zh) * | 2020-01-21 | 2023-06-20 | 北京字节跳动网络技术有限公司 | 一种文本纠错方法、装置、设备及介质 |
CN111476029A (zh) * | 2020-04-13 | 2020-07-31 | 武汉联影医疗科技有限公司 | 资源推荐方法和装置 |
CN111914564B (zh) * | 2020-07-13 | 2023-03-14 | 北京邮电大学 | 一种文本关键词确定方法及装置 |
CN112580824A (zh) * | 2020-12-18 | 2021-03-30 | 北京嘀嘀无限科技发展有限公司 | 信息处理方法、装置、设备和存储介质 |
CN113326385B (zh) * | 2021-08-04 | 2021-12-07 | 北京达佳互联信息技术有限公司 | 目标多媒体资源的获取方法、装置、电子设备和存储介质 |
CN113792131B (zh) * | 2021-09-23 | 2024-02-09 | 深圳平安智慧医健科技有限公司 | 一种关键词的提取方法、装置、电子设备及存储介质 |
CN114417021B (zh) * | 2022-01-24 | 2023-08-25 | 中国电子科技集团公司第五十四研究所 | 一种基于时、空、义多约束融合的语义信息精准分发方法 |
CN115344787B (zh) * | 2022-08-23 | 2023-07-04 | 华南师范大学 | 一种多粒度推荐方法、系统、装置及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069143A (zh) * | 2015-08-19 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 提取文档中关键词的方法及装置 |
WO2017084267A1 (zh) * | 2015-11-18 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种关键词提取方法和装置 |
CN106951420A (zh) * | 2016-01-06 | 2017-07-14 | 富士通株式会社 | 文献搜索方法及设备、作者搜索方法及设备 |
CN107133315A (zh) * | 2017-05-03 | 2017-09-05 | 有米科技股份有限公司 | 一种基于语义分析的智能媒介推荐方法 |
CN107193803A (zh) * | 2017-05-26 | 2017-09-22 | 北京东方科诺科技发展有限公司 | 一种基于语义的特定任务文本关键词提取方法 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
-
2018
- 2018-06-12 CN CN201810603143.XA patent/CN108829822B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069143A (zh) * | 2015-08-19 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 提取文档中关键词的方法及装置 |
WO2017084267A1 (zh) * | 2015-11-18 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种关键词提取方法和装置 |
CN106951420A (zh) * | 2016-01-06 | 2017-07-14 | 富士通株式会社 | 文献搜索方法及设备、作者搜索方法及设备 |
CN107133315A (zh) * | 2017-05-03 | 2017-09-05 | 有米科技股份有限公司 | 一种基于语义分析的智能媒介推荐方法 |
CN107193803A (zh) * | 2017-05-26 | 2017-09-22 | 北京东方科诺科技发展有限公司 | 一种基于语义的特定任务文本关键词提取方法 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108829822A (zh) | 2018-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN109992646B (zh) | 文本标签的提取方法和装置 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN108073568B (zh) | 关键词提取方法和装置 | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN110909145B (zh) | 针对多任务模型的训练方法及装置 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN109388743B (zh) | 语言模型的确定方法和装置 | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
AU2018226420B2 (en) | Voice assisted intelligent searching in mobile documents | |
CN113342958B (zh) | 问答匹配方法、文本匹配模型的训练方法和相关设备 | |
CN114783421A (zh) | 智能推荐方法和装置、设备、介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
CN110851560A (zh) | 信息检索方法、装置及设备 | |
CN115794898B (zh) | 一种金融资讯推荐方法、装置、电子设备及存储介质 | |
KR102422844B1 (ko) | 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 | |
CN113157892B (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
Ali et al. | Identifying and Profiling User Interest over time using Social Data | |
CN115827990A (zh) | 搜索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |