[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114491268A - 一种基于热度排序的降采样方法 - Google Patents

一种基于热度排序的降采样方法 Download PDF

Info

Publication number
CN114491268A
CN114491268A CN202210115896.2A CN202210115896A CN114491268A CN 114491268 A CN114491268 A CN 114491268A CN 202210115896 A CN202210115896 A CN 202210115896A CN 114491268 A CN114491268 A CN 114491268A
Authority
CN
China
Prior art keywords
heat
sampling
preset condition
sample set
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210115896.2A
Other languages
English (en)
Other versions
CN114491268B (zh
Inventor
陈将浩
黄山山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Juhaokan Technology Co Ltd
Original Assignee
Juhaokan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Juhaokan Technology Co Ltd filed Critical Juhaokan Technology Co Ltd
Priority to CN202210115896.2A priority Critical patent/CN114491268B/zh
Publication of CN114491268A publication Critical patent/CN114491268A/zh
Application granted granted Critical
Publication of CN114491268B publication Critical patent/CN114491268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请示出一种基于热度排序的降采样方法。解决了推荐业务推荐的媒资集中在少量热门媒资的问题。其中,基于热度排序的降采样方法包括:获取符合第一预设条件的第一负样本集合,根据热度提升函数,将第一负样本集合进行热度提升采样;第一预设条件用于表征曝光的个体在第一预设时间内未被点击;获取符合第二预设条件的第二负样本集合,对第二负样本集合进行随机降采样;第二预设条件用于表征个体符合第一预设条件且在第二预设时间内被连续曝光;获取符合第三预设条件的正样本集合,根据热度打压函数,对正样本集合进行热度打压采样;合并第一负样本集合、第二负样本集合以及正样本集合。

Description

一种基于热度排序的降采样方法
技术领域
本申请涉及数据处理领域,尤其涉及一种基于热度排序的降采样方法。
背景技术
终端设备在提供推荐业务时,依赖于预先训练好的推荐模型,而推荐模型的训练依赖于训练样本的构造。一定程度上,样本质量决定了排序模型的上限,因此训练样本需要小心选择。样本选择的过程我们称之为“降采样”。
目前,降采样方式主要围绕热门打压来实现,主流的方法来自于word2vec的降采样的启发——词频表示一个单词的热度,根据词频计算该词的采样率。在自然语言中,词汇量一般是百万级别,每个词出现的频数没有明显的长尾分布,因此,“根据词频计算该词的采样率”虽然在自然语言处理(natural language processing,NLP)领域是适用的。
然而,对于推荐业务来说,用户对样本的行为普遍存在长尾效应,即少量的热门样本贡献了大部分的点击,会造成推荐业务推荐的媒资集中在少量热门媒资中,推荐业务不能发挥其有效性。
发明内容
本申请提供一种基于热度排序的降采样方法,解决了推荐业务推荐的媒资集中在少量热门媒资的问题。
第一方面,本申请提供一种基于热度排序的降采样方法,方法包括:获取符合第一预设条件的第一负样本集合,根据热度提升函数,将第一负样本集合进行热度提升采样;第一预设条件用于表征曝光的个体在第一预设时间内未被点击;获取符合第二预设条件的第二负样本集合,对第二负样本集合进行随机降采样;第二预设条件用于表征个体符合第一预设条件且在第二预设时间内被连续曝光;获取符合第三预设条件的正样本集合,根据热度打压函数,对正样本集合进行热度打压采样;合并第一负样本集合、第二负样本集合以及正样本集合。
在一些实施例中,热度提升函数和热度打压函数的输入为个体的热度,热度为个体在总体点击量由小到大排序后对应的排序位次;随着热度的增大,热度提升函数输出的采样概率越大;随着热度的增大,热度打压函数输出的采样概率越小。
在一些实施例中,热度提升函数为:
Figure BDA0003496248130000011
其中,ranki表示为itemi的采样概率;itemi表示为在总体中的各个个体按照点击量由小到大排序后,第i个排序位次对应的个体,则ranki=i。
在一些实施例中,热度打压函数为:
Figure BDA0003496248130000021
其中,n是指总体中包含个体的个数。
在一些实施例中,f=xα,α∈(0,1),则:
Figure BDA0003496248130000022
Figure BDA0003496248130000023
在一些实施例中,根据热度打压函数加上随机扰动random(),对正样本倒序,取topN。
在一些实施例中,根据热度提升函数加上随机扰动random(),对负样本倒序,取topN。
第二方面,本申请提供一种基于推荐模型的推荐方法,推荐方法包括:推荐模型的生成应用前述基于热度排序的降采样方法;接收用户点击数据,用户点击数据是指终端设备收集的用户对媒资的点击数据;根据点击数据,计算媒资热度;根据媒资热度,基于前述基于热度的降采样方法对样本采样,用以完成样本工程动作;根据样本工程和特征工程生成推荐模型;当接收到引擎发送的用户请求时,请求推荐模型将媒资排序后,并将排序后的媒资信息发送至终端设备。
在一些实施例中,接受用户点击推荐媒资的行为数据,根据行为数据,更新样本工程中的样本数据。
第三方面,本申请提供一种显示设备,显示设备包括推荐业务,推荐业务应用前述基于热度排序的降采样方法。
由以上实施例可知,本申请提供的基于热度排序的降采样方法,通过将个体基于热度排序,根据排序结果输入热度打压函数或热度提升函数,将排序后的样本进行选择;通过优先对热门项目进行选择得到负样本,优先对非热门项目进行选择得到正样本,使得推荐模型的构建更加准确,推荐业务能发挥其有效性。本申请无需监督模型对样本进行重采样,具有技术进步性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了显示设备推荐服务的显示界面;
图2示出了目前word2vec的降采样概率函数;
图3示出了根据一些实施例的一种基于热度排序的降采样方法的流程示意图;
图4示出了根据一些实施例的一种基于热度排序的降采样方法的流程示意图;
图5示出了根据一些实施例的基于热度排序的热度打压函数示意图;
图6示出了根据一些实施例的基于热度排序的热度提升函数示意图;
图7示出了根据一些实施例的基于热度排序的采样概率对应的样本量和总体的数量示意图;
图8示出了根据一些实施例的一种基于推荐模型的推荐方法的流程示意图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
图1示出了显示设备推荐服务的显示界面。如图1所示,当用户打开显示设备时,在显示设备的显示界面上,会展示一个具体的场景,该场景中包括一些可以通过用户点击触发的控件,例如“推荐”和“猜你喜欢”,当用户依次选择“推荐”和“猜你喜欢”后,显示设备会向服务器请求对应的媒资数据,并将从服务器返回的媒资数据显示在场景中,例如返回“哪吒某某记”、“封某榜”、“封神某某榜”、“西某某后传”、“宝某某前传”以及“西某某续集”的媒资,并将前述媒资的链接以图文方式展示在显示界面上供用户选择。
那么,当用户依次选择“推荐”和“猜你喜欢”后,如何确定显示设备应该请求哪些媒资数据成为显示设备提供推荐服务需要解决的技术问题。通常,通过训练推荐模型,进而通过推荐模型确认用户个性化的推荐媒资数据。
前述推荐模型的训练依赖于训练样本的构造。一定程度上,样本质量决定了排序模型的上限,因此,要进行样本选择,样本选择的过程我们称之为“降采样”。显示设备的“降采样”,通常是通过显示设备在后台记录用户的行为,围绕热门打压,从而获得训练的样本。现有的“降采样”来自于word2vec的降采样的启发,根据词频计算该词的采样概率,其中,词频表示一个单词的热度,从而根据词频来确定推荐媒资数据。具体计算方法如下:对于单词wi,它在整个语料库中的出现概率为z(wi),定义这个单词的采样概率:
Figure BDA0003496248130000041
其中,P(wi)在(0,1]上是一个无界函数。P(wi)在0附近波动非常的大;P(wi)在靠近1的这一端,P(wi)几乎不再发生变化。在这种情况下,为了使P(wi)的取值在[0,1],对P(wi)作截断,这使得采样函数不再是光滑的。
图2示出了目前word2vec的降采样概率函数。如图2所示,降采样概率函数中间的突起部分叫“头”;两边相对平缓的部分叫“尾”。从人们需求的角度来看,大多数的需求会集中在头部,这部分我们可以称之为流行,而分布在尾部的需求是个性化的,零散的小量的需求。而这部分差异化的、少量的需求会在需求曲线上面形成一条长长的“尾巴”,而所谓长尾效应就在于它的数量上,将所有非流行的市场累加起来就会形成一个比流行市场还大的市场。采用前述的采样概率函数,热门的采样概率大,头部效应会造成推荐集中在其中少量的热门的媒资信息,前述长尾效应和头部效应会造成推荐业务的失败。
为解决前述推荐场景中,热门数据的长尾效应造成推荐集中在其中少量的热门的媒资信息的问题,本申请通过改变训练样本的构造方法,使得推荐业务更加合理。
为便于描述,现将“总体”、“个体”、“样本”以及“样本容量”的定义进行说明:“总体”(population)是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成,如由多个单词构成的集合;“个体”一般指一个生物个体或是一个群体中的特定主体,如前述集合中的每一单词都是个体;“样本”(specimen)是观测或调查的一部分个体;“样本容量”是指一个样本中所包含的单位数,一般用n表示。
图3示出了根据一些实施例的一种基于热度排序的降采样方法的流程示意图。如图3所示,本申请提供一种基于热度排序的降采样方法,方法包括:获取符合第一预设条件的第一负样本集合,根据热度提升函数,将第一负样本集合进行热度提升采样;第一预设条件用于表征曝光的个体在第一预设时间内未被点击;获取符合第二预设条件的第二负样本集合,对第二负样本集合进行随机降采样;第二预设条件用于表征个体符合第一预设条件且在第二预设时间内被连续曝光;获取符合第三预设条件的正样本集合,根据热度打压函数,对正样本集合进行热度打压采样;合并第一负样本集合、第二负样本集合以及正样本集合。
示例性的,如图4所示,获取已经曝光的媒资数据,将这些已经曝光的媒资数据组成的集合记作集合S,当第一预设条件是指“过去90天内该已经曝光的媒资数据未被点击”时,判断集合S中每一个媒资数据在过去90天是否未被点击,若未被点击,则该媒资数据符合第一预设条件,将该媒资数据归入第一负样本集合;若被点击,则该媒资数据不符合第一预设条件,将该媒资数据丢弃,即不将该媒资数据归入第一负样本集合。集合S中所有的媒资数据判断完成后,一方面,对第一负样本集合中的媒资数据进行热度提升采样;另一方面,判断第一负样本集合中的媒资数据是否满足第二预设条件,当第二预设条件是指“过去15天中该媒资数据的曝光天数超过7天”时,判断第一负样本集合中每一个媒资数据在过去15天中的曝光天数是否超过7天,若超过7天,则将该媒资数据归入第二负样本集合;若曝光天数未超过7天,则将该媒资数据,即不将该媒资数据归入第二负样本集合。对第二负样本集合的媒资数据进行随机降采样。合并经过热度提升采样的第一负样本集合和经过随机降采样的第二负样本集合,记作集合P。获取被点击的媒资数据,将这些被点击的媒资数据组成的集合记作集合Q,当第三预设条件是指“被观看时长大于5s”时,判断集合Q中的媒资数据被观看时长是否大于5s,若被观看时长大于5s,则该媒资数据归入正样本集合;若被观看时长小于等于5s,将该媒资数据丢弃,即该媒资数据不归入正样本集合;根据热度打压函数,对正样本集合进行热度打压采样,经过热度打压采样的正样本集合,记作集合R。合并集合P和集合R。
在一些实施例中,本申请提供一种基于热度排序的降采样方法,其中,“根据热度提升函数,将第一负样本集合进行热度提升采样”以及“根据热度打压函数,对正样本集合进行热度打压采样”中,构造了一个关于热度的采样概率:与现有技术不同的是,本申请并不基于词频计算该词的采样率,而是将单词的点击率排序作为个体item的热度。热度提升函数和热度打压函数的输入为个体的热度,热度为个体在总体点击量由小到大排序后对应的排序位次;随着热度的增大,热度提升函数输出的采样概率越大;随着热度的增大,热度打压函数输出的采样概率越小。
在一些实施例中,热度提升函数为:
Figure BDA0003496248130000051
其中,ranki表示为itemi的采样概率;itemi表示为在总体中的各个个体按照点击量由小到大排序后,第i个排序位次对应的个体,则ranki=i。
在一些实施例中,热度打压函数为:
Figure BDA0003496248130000052
其中,n是指总体中包含个体的个数。
示例性的,总体为由n个单词构成的集合;获取每个单词对应的当天点击数据;将各个单词的点击量以倒序的排序方式进行排序,例如:c1>c2>…>cn,第i个点击量Ci对应的单词itemi定义其采样概率ranki=i。
在一些实施例中,f=xα,α∈(0,1),则:
Figure BDA0003496248130000053
Figure BDA0003496248130000054
若α>1,则lift和down对于排序值下降(上升)更快。在终端设备的推荐业务中,通常α∈(0,1),此时,使用lift对负样本进行热度提升:对于曝光未点击的item,item越热门,采样率越大;使用down对正样本进行热度打压:对于点击的item,越不热门的item采样率越大。对于正样本来说,越热门的item采样率应该越低,因为越热门的item不是好的样本;对于负样本来说,越热门的样本越不点击的样本越好,因为这样能够说明用户确实不喜欢该item。
在一些实施例中,根据热度打压函数加上随机扰动random(),对正样本倒序,取topN,作为正样本采样结果。
在一些实施例中,根据热度提升函数加上随机扰动random(),对负样本倒序,取topN,这是根据热度提升的采样,记结果为negl;另一部分负样本来自规则:多次曝光未点击的曝光属于负样本,这部分数据量也很大,这时采用随机抽样的方式,取topN,记结果为neg2;取negl与neg2的并集作为最终的负样本采样结果。
在一些实施例中,根据热度打压函数和热度提升函数,控制采样的记录数,加入松弛因子,则可以获得指定数量的样本。
由以上实施例可知,本申请将个体基于热度排序,根据排序结果输入热度打压函数或热度提升函数,将排序后的样本进行选择;通过优先对热门项目进行选择得到负样本,优先对非热门项目进行选择得到正样本,使得推荐模型的构建更加准确,推荐业务能发挥其有效性。本申请无需监督模型对样本进行重采样,具有技术进步性。
下面结合附图以正样本热度打压为例说明采样率对样本量的影响。
如图5和图6所示,根据采样率的定义,对于点击量为{ci}的点击日志,ci倒序排列。取α=1,则样本量为
Figure BDA0003496248130000061
其中,
Figure BDA0003496248130000062
为{ci}的升序排列。使用数值模拟,若{ci}服从[1,N](N是最大的item点击量)的均匀分布,则
Figure BDA0003496248130000063
图7示出了根据一些实施例的基于热度排序的采样概率对应的样本量和总体的数量示意图。如图7所示,样本量是总体的对数级别,这就是基于热度排序的降采样对样本量的影响。
基于上述实施例所述的基于热度排序的采样方法,获取样本,用样本训练出对应的推荐模型,当样本为“用户点击媒资的数据”时,对应的推荐模型可以用于提供媒资推荐业务。
图8示出了根据一些实施例的一种基于推荐模型的推荐方法的流程示意图。如图8所示,本申请提供一种基于媒资推荐方法,所述方法包括:接收用户点击数据,用户点击数据是指终端设备收集的用户对媒资的点击数据;根据点击数据,计算媒资热度;根据媒资热度,基于前述基于热度的降采样方法对样本采样,用以完成样本工程动作;;根据样本工程和特征工程生成推荐模型;当接收到引擎发送的用户请求时,请求推荐模型将媒资排序后,并将排序后的媒资信息发送至终端设备。
对于新启用的终端设备,在该终端设备的后台,还没有记录过用户操作的数据,因此,缺少推荐模型生成的必要样本信息,对于终端设备的启动动作称为冷启动,冷启动时,终端设备推荐的信息可以是预设的推荐内容,这些预设的推荐内容可以根据终端设备服务的地域而定,本申请不作限定。用户在启动后的终端设备上的点击行为,被终端设备记录在后台,作为样本信息被终端设备发送给推荐系统。其中,样本信息可以包括媒资数据的被点击信息、媒资数据的被观看信息以及媒资数据在一定时间阈值内被曝光的数据信息。推荐系统接收这些样本信息,这些样本信息作为生成推荐模型的依据,记作总体A,作为样本工程。一方面,推荐系统将总体A中各个样本按照在总体点击量由小到大排序后,将样本对应的排序位次作为该样本的热度,作为特征工程。另一方面,获取符合第一预设条件的第一负样本集合,根据热度提升函数,将第一负样本集合进行热度提升采样;第一预设条件用于表征曝光的个体在第一预设时间内未被点击;获取符合第二预设条件的第二负样本集合,对第二负样本集合进行随机降采样;第二预设条件用于表征个体符合第一预设条件且在第二预设时间内被连续曝光;获取符合第三预设条件的正样本集合,根据热度打压函数,对正样本集合进行热度打压采样。其中,“根据热度提升函数,将第一负样本集合进行热度提升采样”是指;将第一负样本集合中的各个样本对应的热度(即样本对应的点击量排序位次)输入热度提升函数,得到样本对应的采样概率;“根据热度打压函数,对正样本集合进行热度打压采样”是指;将正样本集合中的各个样本对应的热度(即样本对应的点击量排序位次)输入热度打压函数,得到样本对应的采样概率。
上述示例中,第一预设条件、热度提升函数、第二预设条件以及热度打压函数,可参见前述实施例,在此不做赘述。
进一步,合并经过热度提升采样的第一负样本集合和经过随机降采样的第二负样本集合,记作集合P;经过热度打压采样的正样本集合,记作集合R;合并集合P和集合R。将合并后的集合P和集合R作为推荐模型的训练样本,本申请通过将个体基于热度排序,根据排序结果输入热度打压函数或热度提升函数,将排序后的样本进行选择;通过优先对热门项目进行选择得到负样本,优先对非热门项目进行选择得到正样本,使得推荐模型的构建更加准确,推荐业务能发挥其有效性。
这样,在生成推荐模型后,用户发出请求时,终端设备的后台发出请求给推荐系统,推荐系统接收到请求后,其召回层根据推荐模型发送用户感兴趣的媒资给终端设备,供用户选择。推荐系统通常需要从上百万异质物品中进行推荐。直接在百万候选集上使用复杂的推荐算法,往往会引入难以承受的时间成本。因此,工业级综合推荐系统一般由召回(matching)和排序(ranking)两个模块组成。召回模块负责快速从百万级数据中检索出推荐媒资信息的候选,排序模块负责准确对这些召回来的媒资信息排序,得到最后的推荐结果。
在一些实施例中,接受用户点击推荐媒资的行为数据,根据行为数据,更新样本工程中的样本数据。示例性的,根据更新后的各个样本的点击率重新排序,根据排序结果,更新各个样本对应的热度,另一方面,重新获取符合第一预设条件的第一负样本集合,根据热度提升函数,将第一负样本集合进行热度提升采样;第一预设条件用于表征曝光的个体在第一预设时间内未被点击;获取符合第二预设条件的第二负样本集合,对第二负样本集合进行随机降采样;第二预设条件用于表征个体符合第一预设条件且在第二预设时间内被连续曝光;获取符合第三预设条件的正样本集合,根据热度打压函数,对正样本集合进行热度打压采样。其中,“根据热度提升函数,将第一负样本集合进行热度提升采样”是指;将第一负样本集合中的各个样本对应的热度(即样本对应的点击量排序位次)输入热度提升函数,得到样本对应的采样概率;“根据热度打压函数,对正样本集合进行热度打压采样”是指;将正样本集合中的各个样本对应的热度(即样本对应的点击量排序位次)输入热度打压函数,得到样本对应的采样概率。
本申请提供一种显示设备,显示设备包括推荐业务,推荐业务应用前述基于热度排序的降采样方法。推荐业务的具体实现方式可参见前述实施例,在此,不作赘述。
本申请实施例还提供一种芯片,与存储器相连或者包括存储器,用于读取并执行所述存储器中存储的软件程序,本申请实施例提供的方法。
本申请实施例还提供一种计算机程序产品,计算机程序产品包括一个或多个计算机程序指令。在计算机加载和执行计算机程序指令时,全部或部分地产生按照本申请上述各个实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。当其在计算机上运行时,使得计算机执行本申请实施例提供的方法。
在本实施例还提供一种计算机可读存储介质,该计算机可读存储介质计算机存储介质可存储有计算机程序指令,当程序指令被执行时,可实现本申请上述各实施例的图像处理方法的全部步骤。计算机可读存储介质包括磁盘、光盘、只读存储记忆体ROM或随机存储记忆体RAM等。
在上述实施例中,可以全部或部分通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现,本实施例不予限制。
本领域技术任何还可以了解到本申请列出的各种说明性逻辑块(illustrativelogical block)和步骤(step)可以通过电子硬件、电脑软件,或两者的结合进行实现。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现的功能,但这种实现不应被理解为超出本申请保护的范围。
本申请中所描述的各种说明性的逻辑单元和电路可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列(FPGA)或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本申请中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件单元、或者这两者的结合。软件单元可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,AS工C可以设置于UE中。可选地,处理器和存储媒介也可以设置于UE中的不同的部件中。
应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施过程构成任何限定。
另外,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于网络设备/节点或装置设备而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上的本申请实施方式并不构成对本申请保护范围的限定。

Claims (10)

1.一种基于热度排序的降采样方法,其特征在于,包括:
获取符合第一预设条件的第一负样本集合,根据热度提升函数,将所述第一负样本集合进行热度提升采样;所述第一预设条件用于表征曝光的个体在第一预设时间内未被点击;
获取符合第二预设条件的第二负样本集合,对所述第二负样本集合进行随机降采样;所述第二预设条件用于表征个体符合所述第一预设条件且在第二预设时间内被连续曝光;
获取符合第三预设条件的正样本集合,根据热度打压函数,对所述正样本集合进行热度打压采样;
合并所述第一负样本集合、所述第二负样本集合以及所述正样本集合。
2.根据权利要求1所述的基于热度排序的降采样方法,其特征在于,所述热度提升函数和所述热度打压函数的输入为个体的热度,所述热度为所述个体在总体点击量由小到大排序后对应的排序位次;
随着所述热度的增大,所述热度提升函数输出的采样概率越大;
随着所述热度的增大,所述热度打压函数输出的采样概率越小。
3.根据权利要求2所述的基于热度排序的降采样方法,其特征在于,所述热度提升函数为:
Figure FDA0003496248120000011
其中,ranki表示为itemi的采样概率;itemi表示为在总体中的各个个体按照点击量由小到大排序后,第i个排序位次对应的个体,则ranki=i。
4.根据权利要求3所述的基于热度排序的降采样方法,其特征在于,所述热度打压函数为:
Figure FDA0003496248120000012
其中,n是指总体中包含个体的个数。
5.根据权利要求3所述的基于热度排序的降采样方法,其特征在于,f=xα,α∈(0,1),则:
Figure FDA0003496248120000013
Figure FDA0003496248120000021
6.根据权利要求1所述的基于热度排序的降采样方法,其特征在于,根据所述热度打压函数加上随机扰动random(),对正样本倒序,取topN。
7.根据权利要求1所述的基于热度排序的降采样方法,其特征在于,根据所述热度提升函数加上随机扰动random0,对负样本倒序,取topN。
8.一种媒资推荐方法,其特征在于,所述推荐模型的生成应用前述权利要求1-7任意一项所述的基于热度排序的降采样方法,包括:
接收用户点击数据,用户点击数据是指终端设备收集的用户对媒资的点击数据;根据点击数据,计算媒资热度;根据媒资热度,基于前述基于热度的降采样方法对样本采样,用以完成样本工程动作;根据样本工程和特征工程生成推荐模型;当接收到引擎发送的用户请求时,请求推荐模型将媒资排序后,并将排序后的媒资信息发送至终端设备。
9.一种媒资推荐方法,其特征在于,还包括:接受用户点击所述推荐媒资的行为数据,根据所述行为数据,更新所述样本工程中的样本数据。
10.一种显示设备,其特征在于,包括推荐业务,所述推荐业务应用前述权利要求1-7任意一项所述的基于热度排序的降采样方法。
CN202210115896.2A 2022-02-07 2022-02-07 一种基于热度排序的降采样方法 Active CN114491268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210115896.2A CN114491268B (zh) 2022-02-07 2022-02-07 一种基于热度排序的降采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210115896.2A CN114491268B (zh) 2022-02-07 2022-02-07 一种基于热度排序的降采样方法

Publications (2)

Publication Number Publication Date
CN114491268A true CN114491268A (zh) 2022-05-13
CN114491268B CN114491268B (zh) 2024-08-23

Family

ID=81478792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210115896.2A Active CN114491268B (zh) 2022-02-07 2022-02-07 一种基于热度排序的降采样方法

Country Status (1)

Country Link
CN (1) CN114491268B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101287082A (zh) * 2008-05-16 2008-10-15 华东师范大学 一种引入节目热门度权重的协作过滤推荐方法
CN110046952A (zh) * 2019-01-30 2019-07-23 阿里巴巴集团控股有限公司 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN110175998A (zh) * 2019-05-30 2019-08-27 沈闯 基于多尺度深度学习的乳腺癌图像识别方法、装置及介质
CN110457580A (zh) * 2019-07-31 2019-11-15 百度时代网络技术(北京)有限公司 基于搜索的热点推荐方法及装置
CN110472137A (zh) * 2019-07-05 2019-11-19 中国平安人寿保险股份有限公司 识别模型的负样本构建方法、装置和系统
CN113901327A (zh) * 2021-10-28 2022-01-07 北京达佳互联信息技术有限公司 一种目标推荐模型训练方法、推荐方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101287082A (zh) * 2008-05-16 2008-10-15 华东师范大学 一种引入节目热门度权重的协作过滤推荐方法
CN110046952A (zh) * 2019-01-30 2019-07-23 阿里巴巴集团控股有限公司 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN110175998A (zh) * 2019-05-30 2019-08-27 沈闯 基于多尺度深度学习的乳腺癌图像识别方法、装置及介质
CN110472137A (zh) * 2019-07-05 2019-11-19 中国平安人寿保险股份有限公司 识别模型的负样本构建方法、装置和系统
CN110457580A (zh) * 2019-07-31 2019-11-15 百度时代网络技术(北京)有限公司 基于搜索的热点推荐方法及装置
CN113901327A (zh) * 2021-10-28 2022-01-07 北京达佳互联信息技术有限公司 一种目标推荐模型训练方法、推荐方法、装置及电子设备

Also Published As

Publication number Publication date
CN114491268B (zh) 2024-08-23

Similar Documents

Publication Publication Date Title
Pazzani A framework for collaborative, content-based and demographic filtering
US10692017B2 (en) Systems and methods for predictive document coding using continuous active machine learning
CN109948023A (zh) 推荐对象获取方法、装置及存储介质
CN108510402A (zh) 险种信息推荐方法、装置、计算机设备及存储介质
Mittal et al. DFR-HL: Diabetic Food Recommendation Using Hybrid Learning Methods
EP3867830A1 (en) Adapting prediction models
CN114282054A (zh) 一种视频推荐方法、装置、计算机设备和存储介质
CN111737576B (zh) 应用功能个性化推荐方法和装置
JP2023109253A (ja) 情報処理装置、指数構築方法及びプログラム
Uddin et al. Machine learning based diabetes detection model for false negative reduction
CN114822855B (zh) 基于ftrl模型的认知训练任务推送方法、系统及构建方法
CN115885297A (zh) 可区分用户-项目协同聚类
CN108665148A (zh) 一种电子资源质量评价方法、装置和存储介质
CN114610865B (zh) 召回文本推荐方法、装置、设备及存储介质
CN113609337A (zh) 图神经网络的预训练方法、训练方法、装置、设备及介质
Wang et al. Modeling uncertainty to improve personalized recommendations via Bayesian deep learning
CN108804564A (zh) 金融产品的组合推荐方法及终端设备
Vairale et al. Classification of hypothyroid disorder using optimized SVM method
CN117522519A (zh) 产品推荐方法、装置、设备、存储介质和程序产品
Abdulrahman et al. Simplifying the algorithm selection using reduction of rankings of classification algorithms
US11984226B2 (en) Systems and methods for selecting an intervention based on effective age
CN114491268A (zh) 一种基于热度排序的降采样方法
CN115114467B (zh) 图片神经网络模型的训练方法以及装置
CN116994764A (zh) 一种健康行为模型构建方法、装置及电子设备及存储介质
CN114491296A (zh) 提案联名人推荐方法、系统、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant