CN109299976B - 点击率预测方法、电子装置及计算机可读存储介质 - Google Patents
点击率预测方法、电子装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109299976B CN109299976B CN201811041640.1A CN201811041640A CN109299976B CN 109299976 B CN109299976 B CN 109299976B CN 201811041640 A CN201811041640 A CN 201811041640A CN 109299976 B CN109299976 B CN 109299976B
- Authority
- CN
- China
- Prior art keywords
- model
- sample
- output result
- inputting
- factorization machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000003062 neural network model Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 19
- 239000011159 matrix material Substances 0.000 description 19
- 230000008569 process Effects 0.000 description 13
- 238000013135 deep learning Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000002537 cosmetic Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种点击率预测方法、电子装置及计算机可读存储介质,其中,该点击率预测方法包括:将样本数据输入至树模型中进行训练,获得所述样本数据对应的叶节点编码;所述样本数据为具有点击率相关特征的样本数据;将所述叶节点编码与所述样本数据进行特征拼接,获得样本混合特征;将所述样本混合特征输入至嵌入层进行数据处理,将所述样本混合特征中稀疏离散的特征向量变成连续的特征向量;将嵌入层处理后的样本混合特征,分别输入至因子分解机模型和深度神经网络模型中进行训练,将因子分解机输出结果和深度网络隐含层输出结果进行拼接,输出预测结果。
Description
技术领域
本申请涉及电子技术领域,尤其涉及一种点击率预测方法、电子装置及计算机可读存储介质。
背景技术
在信息时代的背景下,互联网快速发展,由此带来的信息激增,信息超载问题成为人们亟待解决的问题。例如,淘宝、京东、等电商中眼花缭乱的商品数据,腾讯、爱奇艺等数以亿计的视频信息。企业如何有效地从海量的信息中挖掘出真正的有用的信息、充分利用信息产生的价值、快速定位出用户的兴趣偏好、提高用户体验,是他们提高竞争力的有效途径和产生更高收益的有效方法。与其对应,消费者如何能快速地在如此庞大的信息库中找到自己感兴趣的目标物,是他们提出的个性化的需求,同时也是身处信息时代的需求。因此,立足于为用户提供建议的个性化推荐系统便应运而生了。点击率预估方法在推荐系统发挥着重要作用,现有的点击率预估方法大多用于推荐系统的排序阶段,一个良好的点击率预估方法在排序阶段能准确把握住用户的兴趣,为用户推荐排名前几位可能感兴趣的物品,为企业挖掘大量隐藏的商业价值。所以说,点击率预估方法的好坏将直接影响最后的推荐效果,也就直接影响能否充分挖掘出商业价值。
传统的点击率预估方法有GBDT+LR(Gradient Boosting Decision Tree+Logistic Regression)、基于因子分解机(Factorization Machines,FM)、基于深度学习(Deep Neural Network,DNN)、融合FM和DNN的DeepFM(Factorization-Machines basedNeural Network)等点击率预估方法,这些方法都尝试去组合特征,并挖掘出高阶组合特征,一般称二阶及二阶以上的特征为高阶特征,这些高阶组合特征被证明对点击率预估有积极的效果。众所周知,DNN能在网络中自动学习出高阶组合特征,省去人工构造特征的时间,节省资源,提高效益。GBDT树模型的叶节点是从根节点依据特征信息一步一步分裂而成,所以叶节点可认为是分裂特征之间组合的结果。FM能使特征之间两两组合,提取出二阶组合特征。
GBDT+LR优点在于先利用GBDT生成的叶节点信息表示组合特征,这些叶节点经过编码作为LR模型的输入,模型简单,缺点在于叶节点编码后的特征维度巨大,且高度稀疏,不利于模型学习。FM模型优点克服了在数据稀疏性导致特征组合项系数的训练很困难的问题,特征分量Xi与Xj的组合项系数就等于Xi对应的隐向量与Xj对应的隐向量的内积,这是FM模型的核心,缺点在于模型只能学习到二阶组合特征,超越二阶的高阶组合特征的学习将会大大增加模型的复杂度。DNN优点在于网络能自动学习出高阶组合特征,省去人工构造特征的时间,节省资源,缺点在于模型最后的输出并没有考虑低阶特征,损失原始特征的信息。DeepFM优点在于综合解决了FM无法学习更高阶组合特征和DNN的输出没有考虑低阶特征的问题,利用FM模型学习低阶及二阶组合特征,DNN学习高阶组合特征,最后融合两个模型的输出,缺点在于FM部分基于假设:“两两组合的特征对最后的输出贡献度一致”,这是FM模型固有的缺点,这种假设显然是不合理的,两两组合的特征不一定都对最后的输出有利,若组合的特征是一个噪声,这将会影响模型的输出效果。
发明内容
本申请实施例提供一种点击率预测方法、电子装置及计算机可读存储介质,用于,提供一种准确率更高、训练机制更便捷的点击率预测方法。
本申请实施例第一方面提供一种点击率预测方法,包括:
将样本数据输入至树模型中进行训练,获得所述样本数据对应的叶节点编码;所述样本数据为具有点击率相关特征的样本数据;
将所述叶节点编码与所述样本数据进行特征拼接,获得样本混合特征;
将所述样本混合特征输入至嵌入层进行数据处理,将所述样本混合特征中稀疏离散的特征向量变成连续的特征向量;
将嵌入层处理后的样本混合特征,分别输入至因子分解机模型和深度神经网络模型中进行训练,分别获得因子分解机输出结果和深度网络隐含层输出结果;
将所述因子分解机输出结果输入至注意力机制模型中进行训练,获得权重划分后的因子分解机输出结果;
将所述权重划分后的因子分解机输出结果和所述深度网络隐含层输出结果进行拼接,输出预测结果。
可选的,所述树模型包括:梯度提升决策树GBDT模型。
可选的,所述将所述样本混合特征输入至嵌入层进行数据处理之前,包括:
将所述样本混合特征先输入至预处理层进行数据预处理,所述预处理包括:将所述样本混合特征中连续型特征进行归一化处理,将所述样本混合特征中离散型特征进行one-hot编码。
可选的,所述将嵌入层处理后的样本混合特征,分别输入至因子分解机模型和深度神经网络模型中进行训练,分别获得因子分解机输出结果和深度网络隐含层输出结果,包括:
以以下函数作为因子分解机模型;
其中,ω0、ωi为因子分解机模型的参数,vi和vj是嵌入层的隐向量;
将嵌入层处理后的样本混合特征输入至上述因子分解机模型中进行训练。
可选的,所述将嵌入层处理后的样本混合特征,分别输入至因子分解机模型和深度神经网络模型中进行训练,分别获得因子分解机输出结果和深度网络隐含层输出结果,包括:
所述嵌入层处理后的样本混合特征作为所述深度神经网络模型中全连接层神经网络的输入。
可选的,所述将所述因子分解机输出结果和所述深度网络隐含层输出结果进行拼接,包括:
将所述因子分解机输出结果和所述深度网络隐含层输出结果的拼接结果,输入至sigmoid激活函数进行处理,获得预测结果。
本申请实施例第二方面提供一种电子装置,包括:
编码获取单元,用于将样本数据输入至树模型中进行训练,获得所述样本数据对应的叶节点编码;所述样本数据为具有点击率相关特征的样本数据;
特征组合单元,用于将所述叶节点编码与所述样本数据进行特征拼接,获得样本混合特征;
嵌入处理单元,用于将所述样本混合特征输入至嵌入层进行数据处理,将所述样本混合特征中稀疏离散的特征向量变成连续的特征向量;
特征获取单元,用于将嵌入层处理后的样本混合特征,分别输入至因子分解机模型和深度神经网络模型中进行训练,分别获得因子分解机输出结果和深度网络隐含层输出结果;
预测输出单元,用于将所述因子分解机输出结果和所述深度网络隐含层输出结果进行拼接,输出预测结果。
本申请实施例第三方面提供另一种电子装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述本申请实施例第一方面提供的点击率预测方法。
本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述本申请实施例第一方面提供的点击率预测方法。
由上可见,本申请方案的样本数据先通过树模型中进行训练,获得样本数据对应的叶节点编码,在将叶节点编码与样本数据进行特征拼接,获得样本混合特征;由于在树模型训练的过程中,叶子节点的生成过程即是组合特征的生成过程,因此叶子节点作为高阶特征加入到样本数据的特征中,使得后续因子分解机模型在不增加模型复杂度的情况下学习到了高阶特征,节省了人工构造高阶组合特征的时间,也提高了后续模型训练结果的准确率。
附图说明
图1-a为本申请实施例提供的点击率预测方法的实现流程示意图;
图1-b为本申请实施例提供的树模型的应用示例图;
图1-c为本申请实施例提供的树模型的抽象示例图;
图1-d为本申请实施例提供的FM模型的矩阵算法示例图;
图1-e为本申请实施例提供的点击率预测方法的应用示意图;
图1-f为本申请实施例提供的多个树模型的的抽象示例图;
图2为本申请一实施例提供的电子装置结构示意图;
图3为本申请另一实施例提供的电子装置硬件结构示意图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本申请实施例提供一种点击率预测方法、电子装置及计算机可读存储介质,用于,提供一种准确率更高、训练机制更便捷的点击率预测方法,请参阅图1-a,该点击率预测方法主要包括以下步骤:
101、将样本数据输入至树模型中进行训练,获得所述样本数据对应的叶节点编码;
将样本数据输入至树模型中进行训练,获得所述样本数据对应的叶节点编码;所述样本数据为具有点击率相关特征的样本数据。
示例性的,所述样本数据具有多个原始特征的数据组,如:[id feature1feature2…feature n label],其中,id为样本的索引,feature为原始特征,label为样本的标签。
所述树模型为基于树的学习算法模型。在实际应用中,基于树的学习算法被认为是非监督学习方法或监督学习方法中最好的并且是最常用的方法之一。基于树的方法使得模型的精确率很高,很稳定和容易解释。与线性模型不同,基于树的模型能够很好地表达非线性关系,它适合用来解决分类和回归问题。本申请所针对的点击率预测问题为二分类问题,因此,引入树模型作为训练机制之一。
示例性的,本申请实施例中的树模型可以为:梯度提升决策树(GBDT,GradientBoosting Decision Tree)模型。
以图1-b所示的决策树为例,图1-b展示了树模型的分支过程,其中,本申请实施例会对树模型中的各个节点进行编码(如图1-c所示),图1-c中出节点1之外,皆为叶子节点,假设样本数据经树模型训练后,训练结果为“4”节点,则所述样本数据对应的叶节点编码就是“4”。
进一步的,在本申请实施例中,样本数据输入至多个树模型中进行训练,得到样本数据分别在多个树模型中对应的叶节点编码,获得的叶节点编码越多,则越能够表达所述样本数据的高阶特征。
102、将所述叶节点编码与所述样本数据进行特征拼接,获得样本混合特征;
示例性的,若样本数据为[id feature1feature 2…feature n label],其中,id为样本的索引,feature为原始特征,label为样本的标签,且样本数据经树模型训练后,获得的叶节点编码是“4”,则拼接得到的样本混合特征为[id feature1feature 2…feature ntree_4]。
103、将所述样本混合特征输入至嵌入层进行数据处理;
将所述样本混合特征输入至Embedding(嵌入)层进行数据处理,将所述样本混合特征中稀疏离散的特征向量变成连续的特征向量。
示例性的,输入至Embedding层进行数据处理之前,可以将所述样本混合特征先输入至预处理层进行数据预处理(如,将所述样本混合特征中连续型特征进行归一化处理,将所述样本混合特征中离散型特征进行one-hot编码)。
示例性的,Embedding层实际上是一个初始化的矩阵,它将稀疏离散的特征向量变成稠密连续的向量,实质上是一种矩阵乘法如图1-d所示,等号左边由one-hot编码后的稀疏向量和Embedding层初始化的矩阵两部分组成。稀疏向量和Embedding矩阵相乘,变成一个矩阵下标选择,而初始化的矩阵会在训练过程中不断被更新,所以相乘的结果是不断被更新的。一维连续型特征对应矩阵特定的一行,输出为该连续值乘上矩阵对应行的向量。
104、将嵌入层处理后的样本混合特征,分别输入至因子分解机模型和深度神经网络模型中进行训练;
将嵌入层处理后的样本混合特征,分别输入至因子分解机模型和深度神经网络模型中进行训练,分别获得因子分解机输出结果和深度网络隐含层输出结果。
在本申请实施例中,经过因子分解机模型的处理,能获取二阶组合特征,若想获取二阶以上的特征,可以借助辅助手段(就是经过树模型预先处理过的特征),这就是本申请实施例引入树模型的意义。
在实际应用中,通过观察大量的样本数据可以发现,某些特征经过关联之后,与label之间的相关性就会提高。例如“USA”与“Thanksgiving”,“China”与“Chinese NewYear”这样的关联特征,对用户的点击有着正向的影响。换句话说,来自“China”的用户很可能会在“Chinese New Year”有大量的浏览、购买行为,而在“Thanksgiving”却不会有特别的消费行为。这种关联特征与label的正向相关性在实际问题中是普遍存在的,如“化妆品”类商品与“女”性,“球类运动配件”的商品与“男”性,“电影票”的商品与“电影”品类偏好等。因此,引入两个特征的组合是非常有意义的。通常FM模型只考虑二阶组合特征,定义如下:
其中,ω0、ωi为因子分解机模型的参数,vi和vj是嵌入层的隐向量,即图1-d所示的矩阵乘法可以表示为xivi,xi和xj分别对应第i个特征的值和第j个特征的值,那么实际上就是Embedding层的输出两两做内积再求和的结果。
进一步的,在将嵌入层处理后的样本混合特征输入至因子分解机模型进行训练,获得因子分解机输出结果之后,可以将所述因子分解机输出结果输入至注意力机制模型中进行训练,获得权重划分后的因子分解机输出结果。
由于FM模型是两两组合所有的特征,那如“USA”与“Chinese New Year”也难免会组合到,这种组合特征对预测结果并没有相关性,甚至会引入噪声。为了解决这样的问题,需要引入一个注意力机制模型能够自动学到每一个组合特征的贡献度,也就是权重。
示例性的,另一个训练的分支,在嵌入层处理后的样本混合特征之后,Embedding层输出后做reshape(重塑)操作后,作为深度神经网络模型中全连接层神经网络的输入。
105、将所述因子分解机输出结果和所述深度网络隐含层输出结果进行拼接,输出预测结果。
示例性的,可以采用sigmoid激活函数作为输出拼接层将所述因子分解机输出结果和所述深度网络隐含层输出结果进行拼接。
由上可见,本申请方案的样本数据先通过树模型中进行训练,获得样本数据对应的叶节点编码,在将叶节点编码与样本数据进行特征拼接,获得样本混合特征;由于在树模型训练的过程中,叶子节点的生成过程即是组合特征的生成过程,因此叶子节点作为高阶特征加入到样本数据的特征中,使得后续因子分解机模型在不增加模型复杂度的情况下学习到了高阶特征,节省了人工构造高阶组合特征的时间,也提高了后续模型训练结果的准确率。
实施例二
为了更加直观的理解本申请实施例中的点击率预测方法,本申请提供了一个实际的应用例进行说明,请参阅图1-e,具体包括:
1)取数据集中的一小部分数据集,用于训练GBDT模型,数据集中的其余为测试集。其中,训练集中样本的数据类型如[id feature1feature 2…feature n label]。其中,id为样本的索引,feature为原始特征,label为样本的标签。假设测试集中某条样本数据如[idfeature1feature 2…feature n],经过训练好的GBDT模型如图1-f所示,图中显示了三个树模型,图中左侧的树模型训练结构为编号为4的叶节点,记为tree_4,同理图中中间的树模型预测的记为tree_7,右边记为tree_6。得到叶节点的编码输出[tree_4tree_7tree_6],则测试集中数据将拼接为[id feature1feature 2…feature n tree_4tree_7tree_6],其中新增三个维度的特征,可称为高阶组合特征,图1-b中从根节点到叶节点体现了特征组合的过程,如左边叶节点的生成,实际上从分裂的路径上可以看出是三个特征作用的结果,所以这个叶节点可以表示三个组合特征的结果。GBDT中基本树模型的数量就是新增的维度数量,图1-f中有三棵基础树模型,所以可以扩展三个维度的特征。为防止过拟合,训练集在训练完GBDT后,不能像测试集那样预测得到叶节点编码并加入原始特征,应直接丢弃。
2)Embedding层。将步骤1)获得的数据中连续型特征进行归一化、离散型特征进行one-hot编码。Embedding层实际上是一个初始化的矩阵,它将稀疏离散的特征向量变成稠密连续的向量,实质上是一种矩阵乘法如图1-d所示,等号左边由one-hot编码后的稀疏向量和Embedding层初始化的矩阵两部分组成。稀疏向量和Embedding矩阵相乘,变成一个矩阵下标选择,而初始化的矩阵会在训练过程中不断被更新,所以相乘的结果是不断被更新的。一维连续型特征对应矩阵特定的一行,输出为该连续值乘上矩阵对应行的向量。所以这种下标选择的方法将稀疏离散的特征向量变成稠密连续的特征向量,是Eebedding的核心思想。
3)FM模型。实践中通过观察大量的样本数据可以发现,某些特征经过关联之后,与label之间的相关性就会提高。例如“USA”与“Thanksgiving”,“China”与“Chinese NewYear”这样的关联特征,对用户的点击有着正向的影响。换句话说,来自“China”的用户很可能会在“Chinese New Year”有大量的浏览、购买行为,而在“Thanksgiving”却不会有特别的消费行为。这种关联特征与label的正向相关性在实际问题中是普遍存在的,如“化妆品”类商品与“女”性,“球类运动配件”的商品与“男”性,“电影票”的商品与“电影”品类偏好等。因此,引入两个特征的组合是非常有意义的。通常FM模型只考虑二阶组合特征,定义如下:
其中ω0、ωi为模型的参数,vi和vj是Embedding层隐向量,即图1-d的矩阵乘法可以表示为xivi,xi和xj分别对应第i个特征的值和第j个特征的值,那么实际上就是Embedding层的输出两两做内积再求和的结果。从上式可以看,模型前半部分就是普通的LR线性组合,后半部分的组合项即特征的组合。单从模型表达能力上来看,FM的表达能力是强于LR的,至少不会比LR弱,当组合项参数全为0时即退化为普通的LR模型。如果上式组合项不化简,复杂度是O(kn2),化简之后复杂度是O(kn),化简过程如以下所示,对于二阶组合项可以化简,减少复杂度,但是FM理论上可以组合更高阶的项,但因无法化简、计算复杂度高等问题,学者们研究的FM模型组合项一般指二阶组合项。本申请在步骤1)利用GBDT生成高阶组合特征与原始特征拼接一起,FM模型不仅可以学到二阶组合特征,还可以学到高阶组合特征,因为FM模型是在两两组合GBDT生成的高阶组合特征,所以FM模型并不会增加计算复杂度,依旧为O(kn)。FM组合项化简过程如以下所示:
4)注意力机制模型。步骤3)举例说到“USA”与“Thanksgiving”特征组合,对预测的结果有正相关性,由于FM模型是两两组合所有的特征,那“USA”与“Chinese New Year”也难免会组合到,这种组合特征对预测结果并没有相关性,甚至会引入噪声。为了解决这样的问题,需要引入一个注意力机制模型能够自动学到每一个组合特征的贡献度,也就是权重。注意力机制模型实际上是一个浅层的神经网络,每一个组合特征当成神经网络的输入,假如该网络隐含层的激活函数是relu,那么每一个隐含层的输出为公式一所示,输出层的激活函数为softmax,定义每一个组合特征的权重为aij,那么注意力注意力机制模型的输出如公式二所示,得到每一个组合特征的权重后,FM最后的输出定义为公式三所示。
5)DNN模型。步骤2)Embedding层输出后做reshape(重塑)操作后,作为全连接层神经网络的输入,假如该网络隐含层的激活函数是relu,即第一层隐含层的输出为公式四所示,其他隐含层的输出如公式五所示。
其中为n为输入特征维度,n′为隐含层神经元个数。
6)融合基于注意力机制FM输出和DNN神经网络的输出。因为点击率任务是二分类任务,所以输出拼接层采用sigmoid激活函数。
实施例三
请参阅图2,为本申请实施例提供一种电子装置。该电子装置可用于实现上述图1-a所示实施例提供的点击率预测方法。如图2所示,该电子装置主要包括:
编码获取单元201,用于将样本数据输入至树模型中进行训练,获得所述样本数据对应的叶节点编码;所述样本数据为具有点击率相关特征的样本数据;
特征组合单元202,用于将所述叶节点编码与所述样本数据进行特征拼接,获得样本混合特征;
嵌入处理单元203,用于将所述样本混合特征输入至嵌入层进行数据处理,将所述样本混合特征中稀疏离散的特征向量变成连续的特征向量;
特征获取单元204,用于将嵌入层处理后的样本混合特征,分别输入至因子分解机模型和深度神经网络模型中进行训练,分别获得因子分解机输出结果和深度网络隐含层输出结果;
预测输出单元205,用于将所述因子分解机输出结果和所述深度网络隐含层输出结果进行拼接,输出预测结果。
需要说明的是,以上图2示例的电子装置的实施方式中,各功能模块的划分仅是举例说明,实际应用中可以根据需要,例如相应硬件的配置要求或者软件的实现的便利考虑,而将上述功能分配由不同的功能模块完成,即将电子装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。而且,在实际应用中,本实施例中的相应的功能模块可以是由相应的硬件实现,也可以由相应的硬件执行相应的软件完成。本说明书提供的各个实施例都可应用上述描述原则,以下不再赘述。
本实施例提供的电子装置中各功能模块实现各自功能的具体过程,请参见上述图1-a所示实施例中描述的具体内容,此处不再赘述。
实施例四
本申请实施例提供一种电子装置,请参阅图3,该电子装置包括:
存储器301、处理器302及存储在存储器301上并可在处理器302上运行的计算机程序,处理器302执行该计算机程序时,实现前述图1-a所示实施例中描述的点击率预测方法。
进一步的,该电子装置还包括:
至少一个输入设备303以及至少一个输出设备304。
上述存储器301、处理器302、输入设备303以及输出设备304,通过总线305连接。
其中,输入设备303具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备304具体可为显示屏。
存储器301可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器301用于存储一组可执行程序代码,处理器302与存储器301耦合。
进一步的,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的电子装置中,该计算机可读存储介质可以是前述图3所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1-a所示实施例中描述的点击率预测方法。进一步的,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的点击率预测方法、电子装置及计算机可读存储介质的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (9)
1.一种点击率预测方法,其特征在于,包括:
将样本数据输入至树模型中进行训练,获得所述样本数据对应的叶节点编码;所述样本数据为具有点击率相关特征的样本数据;
将所述叶节点编码与所述样本数据进行特征拼接,获得样本混合特征;
将所述样本混合特征输入至嵌入层进行数据处理,将所述样本混合特征中稀疏离散的特征向量变成连续的特征向量;
将嵌入层处理后的样本混合特征,分别输入至因子分解机模型和深度神经网络模型中进行训练,分别获得因子分解机输出结果和深度网络隐含层输出结果;
将所述因子分解机输出结果输入至注意力机制模型中进行训练,获得权重划分后的因子分解机输出结果;
将所述权重划分后的因子分解机输出结果和所述深度网络隐含层输出结果进行拼接,输出预测结果。
2.根据权利要求1所述的方法,其特征在于,
所述树模型包括:梯度提升决策树GBDT模型。
3.根据权利要求1所述的方法,其特征在于,
所述将所述样本混合特征输入至嵌入层进行数据处理之前,包括:
将所述样本混合特征先输入至预处理层进行数据预处理,所述预处理包括:将所述样本混合特征中连续型特征进行归一化处理,将所述样本混合特征中离散型特征进行one-hot编码。
5.根据权利要求1所述的方法,其特征在于,
所述将嵌入层处理后的样本混合特征,分别输入至因子分解机模型和深度神经网络模型中进行训练,分别获得因子分解机输出结果和深度网络隐含层输出结果,包括:
所述嵌入层处理后的样本混合特征作为所述深度神经网络模型中全连接层神经网络的输入。
6.根据权利要求1所述的方法,其特征在于,
所述将所述因子分解机输出结果和所述深度网络隐含层输出结果进行拼接之后,包括:
将所述因子分解机输出结果和所述深度网络隐含层输出结果的拼接结果,输入至sigmoid激活函数进行处理,获得预测结果。
7.一种电子装置,其特征在于,包括:
编码获取单元,用于将样本数据输入至树模型中进行训练,获得所述样本数据对应的叶节点编码;所述样本数据为具有点击率相关特征的样本数据;
特征组合单元,用于将所述叶节点编码与所述样本数据进行特征拼接,获得样本混合特征;
嵌入处理单元,用于将所述样本混合特征输入至嵌入层进行数据处理,将所述样本混合特征中稀疏离散的特征向量变成连续的特征向量;
特征获取单元,用于将嵌入层处理后的样本混合特征,分别输入至因子分解机模型和深度神经网络模型中进行训练,分别获得因子分解机输出结果和深度网络隐含层输出结果;
预测输出单元,用于将所述因子分解机输出结果和所述深度网络隐含层输出结果进行拼接,输出预测结果。
8.一种电子装置,包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至6中的任意一项所述方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至6中的任意一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811041640.1A CN109299976B (zh) | 2018-09-07 | 2018-09-07 | 点击率预测方法、电子装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811041640.1A CN109299976B (zh) | 2018-09-07 | 2018-09-07 | 点击率预测方法、电子装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109299976A CN109299976A (zh) | 2019-02-01 |
CN109299976B true CN109299976B (zh) | 2021-03-23 |
Family
ID=65166384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811041640.1A Expired - Fee Related CN109299976B (zh) | 2018-09-07 | 2018-09-07 | 点击率预测方法、电子装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109299976B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245310B (zh) * | 2019-03-06 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 一种对象的行为分析方法、装置及存储介质 |
CN109960759B (zh) * | 2019-03-22 | 2022-07-12 | 中山大学 | 基于深度神经网络的推荐系统点击率预测方法 |
CN110175857B (zh) * | 2019-03-25 | 2023-06-02 | 创新先进技术有限公司 | 优选业务确定方法及装置 |
CN110609948B (zh) * | 2019-04-03 | 2021-03-30 | 华南理工大学 | 一种基于多层次注意力机制和场感知分解机的推荐方法 |
CN110059219A (zh) * | 2019-05-24 | 2019-07-26 | 广东工业大学 | 一种视频偏好预测方法、装置、设备及可读存储介质 |
WO2020252634A1 (zh) * | 2019-06-17 | 2020-12-24 | 深圳大学 | 一种基于现场可编程门阵列的点击率预估的系统及方法 |
CN110472049B (zh) * | 2019-07-19 | 2023-01-24 | 上海联影智能医疗科技有限公司 | 疾病筛查文本分类方法、计算机设备和可读存储介质 |
CN110727855A (zh) * | 2019-08-28 | 2020-01-24 | 广东工业大学 | 一种基于改进因子分解机的个性化推荐方法 |
CN110689376A (zh) * | 2019-09-27 | 2020-01-14 | 支付宝(杭州)信息技术有限公司 | 一种点击率的预测方法、装置及电子设备 |
CN110807693A (zh) * | 2019-11-04 | 2020-02-18 | 上海喜马拉雅科技有限公司 | 专辑的推荐方法、装置、设备和存储介质 |
EP4014484A4 (en) | 2019-12-27 | 2022-10-12 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND ITS CONTROL METHOD |
CN111274473B (zh) * | 2020-01-13 | 2021-03-12 | 腾讯科技(深圳)有限公司 | 基于人工智能的推荐模型的训练方法、装置及存储介质 |
CN111431849B (zh) * | 2020-02-18 | 2021-04-16 | 北京邮电大学 | 一种网络入侵检测方法及装置 |
CN111461898A (zh) * | 2020-02-28 | 2020-07-28 | 上海商汤智能科技有限公司 | 一种获取核保结果的方法及相关装置 |
CN111506811A (zh) * | 2020-03-19 | 2020-08-07 | 上海理工大学 | 一种基于深度残差网络的点击率预测方法 |
CN113495986A (zh) * | 2020-03-20 | 2021-10-12 | 华为技术有限公司 | 数据处理的方法与装置 |
CN113722578A (zh) * | 2020-05-25 | 2021-11-30 | 北京沃东天骏信息技术有限公司 | 数据处理方法和装置 |
CN111639714B (zh) * | 2020-06-01 | 2021-07-23 | 贝壳找房(北京)科技有限公司 | 确定用户的属性的方法、装置和设备 |
CN115699058A (zh) * | 2020-07-14 | 2023-02-03 | 阿里巴巴集团控股有限公司 | 通过边缘搜索的特征交互 |
CN111950806B (zh) * | 2020-08-26 | 2021-06-15 | 上海数鸣人工智能科技有限公司 | 一种基于因子分解机的营销活动预测模型结构和预测方法 |
CN114202350A (zh) * | 2020-08-31 | 2022-03-18 | 中移动信息技术有限公司 | 用户消费行为分类方法、装置、设备及计算机存储介质 |
CN112328844B (zh) * | 2020-11-18 | 2024-07-02 | 恩亿科(北京)数据科技有限公司 | 一种处理多类型数据的方法及系统 |
CN113837517B (zh) * | 2020-12-01 | 2024-08-20 | 北京沃东天骏信息技术有限公司 | 事件的触发方法及装置、介质及电子设备 |
CN112508609B (zh) * | 2020-12-07 | 2024-04-30 | 深圳市欢太科技有限公司 | 人群扩量的预测方法、装置、设备及存储介质 |
CN112990270B (zh) * | 2021-02-10 | 2023-04-07 | 华东师范大学 | 一种传统特征与深度特征的自动融合方法 |
CN113190749B (zh) * | 2021-05-06 | 2023-10-31 | 北京百度网讯科技有限公司 | 用于确定对象属性的方法及装置、电子设备和介质 |
CN113344615B (zh) * | 2021-05-27 | 2023-12-05 | 上海数鸣人工智能科技有限公司 | 一种基于gbdt和dl融合模型的营销活动预测方法 |
CN113595770B (zh) * | 2021-07-09 | 2023-10-10 | 北京百度网讯科技有限公司 | 群组点击率预估方法、装置、电子设备和存储介质 |
CN113595874B (zh) * | 2021-07-09 | 2023-03-24 | 北京百度网讯科技有限公司 | 即时通讯群组的搜索方法、装置、电子设备和存储介质 |
CN113407579B (zh) * | 2021-07-15 | 2024-01-19 | 北京百度网讯科技有限公司 | 群组查询方法、装置、电子设备及可读存储介质 |
CN114004263B (zh) * | 2021-12-29 | 2022-05-03 | 四川大学 | 一种特征融合转换的大型设备工况诊断预测方法 |
CN114334159B (zh) * | 2022-03-16 | 2022-06-17 | 四川大学华西医院 | 一种术后风险预测自然语言数据增强模型及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022350A (zh) * | 2015-03-30 | 2016-10-12 | 尼尔森(美国)有限公司 | 用于改进决策树执行的方法和设备 |
CN106529721A (zh) * | 2016-11-08 | 2017-03-22 | 安徽大学 | 一种深度特征提取的广告点击率预测系统及其预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100306161A1 (en) * | 2009-05-29 | 2010-12-02 | Yahoo! Inc. | Click through rate prediction using a probabilistic latent variable model |
CN105095625B (zh) * | 2014-05-14 | 2018-12-25 | 阿里巴巴集团控股有限公司 | 点击率预估模型建立方法、装置及信息提供方法、系统 |
-
2018
- 2018-09-07 CN CN201811041640.1A patent/CN109299976B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022350A (zh) * | 2015-03-30 | 2016-10-12 | 尼尔森(美国)有限公司 | 用于改进决策树执行的方法和设备 |
CN106529721A (zh) * | 2016-11-08 | 2017-03-22 | 安徽大学 | 一种深度特征提取的广告点击率预测系统及其预测方法 |
Non-Patent Citations (4)
Title |
---|
"A Novel Ensemble Strategy Combining Gradient Boosted Decision Trees and Factorization Machine Based Neural Network for Clicks Prediction";Feng Zhou et al.;《2018 International Conference on Big Data and Artificial Intelligence》;20180624;29-33页 * |
"Feature Selection in Click-Through Rate Prediction Based on Gradient Boosting";Zheng Wang et al.;《 Intelligent Data Engineering and Automated Learning-IDEAL 2016》;20160913;134-142页 * |
"基于深度学习的推荐系统研究综述";黄立威 等;《计算机学报》;20180305;第41卷(第7期);1619-1642页 * |
"展示广告点击率预估平台的设计与实现";徐田;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215;I138-681 * |
Also Published As
Publication number | Publication date |
---|---|
CN109299976A (zh) | 2019-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299976B (zh) | 点击率预测方法、电子装置及计算机可读存储介质 | |
Khan et al. | CNN with depthwise separable convolutions and combined kernels for rating prediction | |
CN111382309B (zh) | 一种基于图模型的短视频推荐方法、和智能终端和存储介质 | |
CN109241424B (zh) | 一种推荐方法 | |
Zhou et al. | SVD-based incremental approaches for recommender systems | |
CN110263265A (zh) | 用户标签生成方法、装置、存储介质和计算机设备 | |
CN111881363B (zh) | 一种基于图交互网络的推荐方法 | |
CN111914185B (zh) | 一种基于图注意力网络的社交网络中文本情感分析方法 | |
US11640634B2 (en) | Deep learning based visual compatibility prediction for bundle recommendations | |
Dezfouli et al. | Deep neural review text interaction for recommendation systems | |
CN116561446B (zh) | 多模态项目推荐方法、系统及设备和存储介质 | |
Wang et al. | Joint representation learning with ratings and reviews for recommendation | |
CN112257841A (zh) | 图神经网络中的数据处理方法、装置、设备及存储介质 | |
Xia et al. | A regularized optimization framework for tag completion and image retrieval | |
Wang et al. | Stacked Noise Reduction Auto Encoder–OCEAN: A Novel Personalized Recommendation Model Enhanced | |
CN110321473A (zh) | 基于多模态注意力的多样性偏好信息推送方法、系统、介质及设备 | |
Zhang et al. | Applying probabilistic latent semantic analysis to multi-criteria recommender system | |
Wang et al. | TDR: Two-stage deep recommendation model based on mSDA and DNN | |
CN110085292A (zh) | 药品推荐方法、装置及计算机可读存储介质 | |
WO2020047819A1 (zh) | 点击率预测方法、电子装置及计算机可读存储介质 | |
Alrashidi et al. | Hybrid CNN-based Recommendation System | |
CN117252665B (zh) | 业务推荐方法、装置、电子设备及存储介质 | |
George et al. | Hy-MOM: Hybrid recommender system framework using memory-based and model-based collaborative filtering framework | |
Shen et al. | A deep embedding model for co-occurrence learning | |
CN114090848A (zh) | 数据推荐及分类方法、特征融合模型及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210323 |
|
CF01 | Termination of patent right due to non-payment of annual fee |