[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109272165B - 注册概率预估方法、装置、存储介质及电子设备 - Google Patents

注册概率预估方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN109272165B
CN109272165B CN201811156192.XA CN201811156192A CN109272165B CN 109272165 B CN109272165 B CN 109272165B CN 201811156192 A CN201811156192 A CN 201811156192A CN 109272165 B CN109272165 B CN 109272165B
Authority
CN
China
Prior art keywords
user behavior
behavior data
data
user
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811156192.XA
Other languages
English (en)
Other versions
CN109272165A (zh
Inventor
沙韬伟
邓金秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Manbang Information Technology Co ltd
Original Assignee
Man Bang Information Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Man Bang Information Consulting Co ltd filed Critical Man Bang Information Consulting Co ltd
Priority to CN201811156192.XA priority Critical patent/CN109272165B/zh
Publication of CN109272165A publication Critical patent/CN109272165A/zh
Application granted granted Critical
Publication of CN109272165B publication Critical patent/CN109272165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种注册概率预估方法、装置、存储介质及电子设备。所述注册概率预估方法包括:根据用户操作日志流获取第一用户行为数据;将所述第一用户行为数据输入一经训练的第一预测模型,并获取所述第一预测模型的多个隐含层的数据作为第二用户行为数据;对部分所述第一用户行为数据按所计算的重要性值进行交叉构造获得第三用户行为数据;将所述第二用户行为数据与所述第三用户行为数据进行拼接以得到第四用户行为数据。本发明使用循环神经网络与传统特征提取相结合的技术,根据用户操作日志流实时采集用户的行为数据、并保证高效的结果反馈速度,在兼备算法框架良好的延拓性能的前提下对用户行为建模,可有效预测用户注册、购买、点击等行为的概率。

Description

注册概率预估方法、装置、存储介质及电子设备
技术领域
本发明涉及计算机领域,尤其涉及一种基于行为信息的注册概率预估方法、装置、存储介质及电子设备。
背景技术
在信息类应用,例如车货匹配台、购物平台等内容聚合类APP中,根据历史上大量的用户行为数据并基于特定的算法分析可以估算出用户对于某一类商品或货物的偏好。就APP的注册而言,用户第一次与最后一次登陆APP这段时间相对暂短,如何压缩用户每一步操作下的模型计算时间,提高反馈频率是需要考虑的重要问题,而传统模型在这方面的表现比较平庸,难以准确预测用户对某一APP的喜好程度,无法得知用户对该APP的注册概率。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种注册概率预估方法、装置、存储介质及电子设备,以有效预测用户的注册、购买、点击等行为的概率。
根据本发明的一方面,提供一种注册概率预估方法,所述注册概率预估方法包括:
根据用户操作日志流获取第一用户行为数据;
将所述第一用户行为数据输入一经训练的第一预测模型,并获取所述第一预测模型的多个隐含层的数据作为第二用户行为数据;
对部分所述第一用户行为数据按所计算的重要性值进行交叉构造获得第三用户行为数据;
将所述第二用户行为数据与所述第三用户行为数据进行拼接以得到第四用户行为数据;
将所述第四用户行为数据输入第二预测模型,将所述第二预测模型的输出作为用户的注册概率的预估值,
所述对部分所述第一用户行为数据按所计算的重要性值进行交叉构造获得第三用户行为数据的步骤进一步包括:
将所述第一用户行为数据按所计算的重要性值区分为第一特征数据和第二特征数据;
将所述第二特征数据进行交叉构造,以形成第三特征数据;
所述第一特征数据与所述第三特征数据构成所述第三用户行为数据;
所述第一预测模型为RNN模型,所述RNN模型包括一输入层、多个隐含层及一输出层,每一所述隐含层为一GRU单元;所述第二预测模型为逻辑回归模型。。
在本发明的一实施方式中,所述用户操作日志流包含用户基本信息、用户行为信息及用户的设备信息。
在本发明的一实施方式中,所述第一预测模型及所述第二预测模型根据样本数据进行训练,所述样本数据包括用户行为数据及用户注册状态。
在本发明的一实施方式中,通过方差估计计算所述第一用户行为数据的重要性值以将所述第一用户行为数据区分为第一特征数据和第二特征数据。
在本发明的一实施方式中,通过xgboost算法计算所述第一用户行为数据的重要性值以将所述第一用户行为数据区分为第一特征数据和第二特征数据。
在本发明的一实施方式中,通过交叉熵计算所述第一用户行为数据的重要性值以将所述第一用户行为数据区分为第一特征数据和第二特征数据。
根据本发明的另一方面,提供一种注册概率预估装置,所述注册概率预估装置包括:
获取模块,用于根据用户操作日志流获取第一用户行为数据;
第一预测模型模块,用于将所述第一用户行为数据输入一经训练的第一预测模型,并获取所述第一预测模型的多个隐含层的数据作为第二用户行为数据,所述第一预测模型为RNN模型,所述RNN模型包括一输入层、多个隐含层及一输出层,每一所述隐含层为一GRU单元;
数据构造模块,用于对部分所述第一用户行为数据按所计算的重要性值进行交叉构造获得第三用户行为数据;
数据处理模块,用于拼接所述第二用户行为数据及第三行为数据以得到第四用户行为数据;
第二预测模型模块,用于将所述第四用户行为数据输入第二预测模型,将所述第二预测模型的输出作为用户的注册概率的预估值,;所述第二预测模型为逻辑回归模型;
所述注册概率预估装置还用于:
所述对部分所述第一用户行为数据按所计算的重要性值进行交叉构造获得第三用户行为数据的步骤进一步包括:
将所述第一用户行为数据按所计算的重要性值区分为第一特征数据和第二特征数据;
将所述第二特征数据进行交叉构造,以形成第三特征数据;
所述第一特征数据与所述第三特征数据构成所述第三用户行为数据。
根据本发明的又一方面,提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的方法。
根据本发明的又一方面,提供一种电子设备。所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的方法。
本发明所提出的注册概率预估方法使用循环神经网络与传统特征提取相结合的技术,根据用户操作日志流实时采集用户的行为数据、并保证高效的结果反馈速度,在兼备算法框架良好的延拓性能的前提下对用户行为建模,可以有效预测用户的注册、购买、点击等行为的概率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例中注册概率预估方法的流程图。
图2是本发明另一实施例中注册概率预估方法的流程图。
图3是本发明一实施例中注册概率预估装置的结构示意图。
图4是本发明另一实施例中注册概率预估装置的结构示意图。
图5是本发明一实施例中计算机可读存储介质的结构示意图。以及
图6是本发明一实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
为了解决现有技术的不足,本发明提供一种注册概率预估方法、装置、存储介质及电子设备,以有效预测用户的注册、购买、点击等行为的概率,所述注册概率反映用户对对某一APP的喜好程度。图1是本发明一实施例中注册概率预估方法的流程图。图2是本发明另一实施例中注册概率预估方法的流程图。图3是本发明一实施例中注册概率预估装置的结构示意图。图4是本发明另一实施例中注册概率预估装置的结构示意图。图5是本发明一实施例中计算机可读存储介质的结构示意图。以及图6是本发明一实施例中电子设备的结构示意图。
根据本发明的一方面,提供一种注册概率预估方法,如图1所示,所述注册概率预估方法包括:
S110、根据用户操作日志流获取第一用户行为数据。
具体地,用户操作日志流中记载着诸多原始特征数据,这些原始特征数据通常由历史用户行为信息、用户基本信息、用户设备信息等汇总得来,所述第一用户行为数据通常由所述原始特征数据(具体可以包括用户设备类型、用户近七天浏览次数、用户常登录地点等等)预处理后得到。
S120、将所述第一用户行为数据输入一经训练的第一预测模型,并获取所述第一预测模型的多个隐含层的数据作为第二用户行为数据。
具体地,此时所述第一用户行为数据已经过预处理而可以直接输入所述第一预测模型。在本发明的一实施方式中,所述第一预测模型为RNN模型,所述RNN模型包括一输入层、多个隐含层及一输出层,每一所述隐含层为一GRU单元。所述RNN模型即循环神经网络模型,RNN模型的原理是将神经网络模型加入时序的特征。将隐含层加反馈边,每个隐层的输入既包括当前样本特征又包含上一个时序所带来的信息。每个GRU单元包含两个门,一个重置门和一个更新门。这两个门的结果经过了一个sigmoid函数,值域为[0,1]。候选隐含状态使用了重置门来控制包含过去时刻信息的上一个隐含状态的流入。如果重置门近似0,上一个隐含状态将被丢弃。因此,重置门提供了丢弃与未来无关的过去隐含状态的机制,也就是说,重置门决定了过去有多少信息被遗忘。隐含状态Ht使用更新门Zt来对上一个隐含状态Ht-1和候选隐含状态进行更新。更新门可以控制过去的隐含状态在当前时刻的重要性。如果更新门一直近似1,过去的隐含状态将一直通过时间保存并传递至当前时刻。这个设计可以应对循环神经网络中的梯度衰减问题,并更好地捕捉时序数据中间隔较大的依赖关系。重置门有助于捕捉时序数据中短期的依赖关系。更新门有助于捕捉时序数据中长期的依赖关系。根据离线存储在HDFS中的用户操作数据、用户点击流数据和用户是否真实注册的结果离线更新循环网络GRU及LR模型参数,所述HDFS即Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。
S130、对部分所述第一用户行为数据按所计算的重要性值进行交叉构造获得第三用户行为数据。
由于所述第一用户行为数据中包含了多种信息,因此有必要对所述多种信息的重要性予以区分。具体地,可以通过方差估计、xgboost算法及交叉熵等方式计算对所述第一用户行为数据中各类型数据的重要性值予以区分。
S140、将所述第二用户行为数据与所述第三用户行为数据进行拼接以得到第四用户行为数据。
具体而言,若所述第二用户行为数据为[1,0,1,0,0],所述第三用户行为数据为[0,0,0,1,1],将[1,0,1,0,0]与[0,0,0,1,1]进行拼接即得到所述第四用户行为数据:[1,0,1,0,0,0,0,0,1,1]。当然,所述第四用户行为数据还可以由所述第二用户行为数据与所述第三用户行为数据以其他方式计算得到,本发明并不对此做出限制。
S150、将所述第四用户行为数据输入第二预测模型,将所述第二预测模型的输出作为用户的注册概率的预估值。
在本发明的一实施方式中,所述第二预测模型为逻辑回归模型。所述第一预测模型及所述第二预测模型根据样本数据进行训练,所述样本数据包括用户行为数据及用户注册状态。其中,所述逻辑回归模型是机器学习中常见的的分类模型,主要被用于二分类问题,它将特征空间映射成一种可能性,在逻辑回归模型中,y是一个定性变量{0,1},逻辑回归模型主要用于研究某些事发生的概率。
本发明所提出的注册概率预估方法使用循环神经网络与传统特征提取相结合的技术,根据用户操作日志流实时采集用户的行为数据、并保证高效的结果反馈速度,在兼备算法框架良好的延拓性能的前提下对用户行为建模,可以有效预测用户的注册、购买、点击等行为的概率。
由于所述第一用户行为数据中包含了多种信息,因此有必要对所述多种信息的重要性予以区分。图2是本发明另一实施例中注册概率预估方法的流程图。如图2所示,在本发明的另一实施例中,步骤S130进一步包括:
S1310、将所述第一用户行为数据按所计算的重要性值区分为第一特征数据和第二特征数据。
S1320、将重要性值符合预设要求的所述第二特征数据进行交叉构造,以形成第三特征数据,同时,保持重要性值未达到预设要求的所述第一特征数据不变。比如存在两类重要性值符合预设要求的所述第二特征数据:年龄(分为大于20岁、小于20岁两组)和性别(分为男、女两组),通过前述两类所述第二特征数据交叉构造可以得到4组第三特征数据,即年龄大于20岁且性别为男、年龄大于20岁且性别为女、年龄小于20岁且性别为男,以及年龄小于20岁且性别为女。
S1330、以所述第一特征数据与所述第三特征数据构成所述第三用户行为数据。由此可以避免大量用户信息不能获取完整。
进一步而言,可以通过方差估计计算所述第一用户行为数据的重要性值以将所述第一用户行为数据区分为第一特征数据和第二特征数据。
可选地,通过xgboost算法计算所述第一用户行为数据的重要性值以将所述第一用户行为数据区分为第一特征数据和第二特征数据。其中,xgboost对损失函数做了二阶的泰勒展开,并在目标函数之外加入了正则项整体求最优解,用以权衡目标函数的下降和模型的复杂程度,避免过拟合。本发明通过xgboost中的重要性值算法(importance)来实现第一用户行为数据的重要性值的计算。
可选地,通过交叉熵计算所述第一用户行为数据的重要性值以将所述第一用户行为数据区分为第一特征数据和第二特征数据。其中,交叉熵可在神经网络(机器学习)中作为损失函数,假设现在有一个样本集中两个概率分布p,q。其中,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。由此,通过计算第一用户行为数据之间的相似性以对第一用户行为数据进行二分类,并根据分类结果确定各第一用户行为数据的重要性值为最大或最小。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间。
根据本发明的另一方面,提供一种注册概率预估装置,图3是本发明一实施例中注册概率预估装置结构示意图。如图3所示,所述注册概率预估装置200包括:获取模块201、第一预测模型模块202、数据构造模块203、数据处理模块204及第二预测模型模块205。所述获取模块201用于根据用户操作日志流获取第一用户行为数据。第一预测模型模块202用于将所述第一用户行为数据输入一经训练的第一预测模型,并获取所述第一预测模型的多个隐含层的数据作为第二用户行为数据。所述数据构造模块203用于对部分所述第一用户行为数据按所计算的重要性值进行交叉构造获得第三用户行为数据。所述数据处理模块204用于拼接所述第二用户行为数据及第三行为数据以得到第四用户行为数据。所述第二预测模型模块205用于将所述第四用户行为数据输入第二预测模型,将所述第二预测模型的输出作为用户的注册概率的预估值。本实施例中所述注册概率预估装置中各模块的作用,以及从获取模块201获取第一用户行为数据至通过所述第二预测模型模块205得到用户的注册概率的预估值的具体步骤以及原理已在上述实施例中有所阐述,因此不再赘述。本发明使用循环神经网络与传统特征提取相结合的技术,根据用户操作日志流实时采集用户的行为数据、并保证高效的结果反馈速度,在兼备算法框架良好的延拓性能的前提下对用户行为建模,可以有效预测用户的注册、购买、点击等行为的概率。
图4是本发明另一实施例中注册概率预估装置的结构示意图。如图4所示,该注册概率预估装置200的同样包括获取模块201、第一预测模型模块202、数据构造模块203、数据处理模块204及第二预测模型模块205。此外,所述数据构造模块203还进一步包括:区分模块2031、交叉构造模块2032及数据整合模块2033。所述获取模块201用于根据用户操作日志流获取第一用户行为数据。第一预测模型模块202用于将所述第一用户行为数据输入一经训练的第一预测模型,并获取所述第一预测模型的多个隐含层的数据作为第二用户行为数据。所述数据构造模块203用于对部分所述第一用户行为数据按所计算的重要性值进行交叉构造获得第三用户行为数据。所述数据处理模块204用于拼接所述第二用户行为数据及第三行为数据以得到第四用户行为数据。所述第二预测模型模块205用于将所述第四用户行为数据输入第二预测模型,将所述第二预测模型的输出作为用户的注册概率的预估值。所述区分模块用于将所述第一用户行为数据按所计算的重要性值区分为第一特征数据和第二特征数据。所述交叉构造模块用于将重要性值符合预设要求的所述第二特征数据进行交叉构造,以形成第三特征数据。所述数据整合模块用于以所述第一特征数据与所述第三特征数据构成所述第三用户行为数据。本发明使用循环神经网络与传统特征提取相结合的技术,根据用户操作日志流实时采集用户的行为数据、并保证高效的结果反馈速度,在兼备算法框架良好的延拓性能的前提下对用户行为建模,可以有效预测用户的注册、购买、点击等行为的概率。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述注册概率预估方法。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述注册概率预估方法描述的根据本发明各种示例性实施方式的方法。
图5是本发明一实施例中计算机可读存储介质的结构示意图。图5描述了根据本发明的实施方式的用于实现上述方法的程序产品300,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本发明使用循环神经网络与传统特征提取相结合的技术,根据用户操作日志流实时采集用户的行为数据、并保证高效的结果反馈速度,在兼备算法框架良好的延拓性能的前提下对用户行为建模,可以有效预测用户的注册、购买、点击等行为的概率。
在本发明的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述注册概率预估方法。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图6来描述根据本发明的这种实施方式的电子设备400。图6显示的电子设备400仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于:至少一个处理单元410、至少一个存储单元420、连接不同系统组件(包括存储单元420和处理单元410)的总线430、显示单元440等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元410执行,使得所述处理单元410执行本说明书上述注册概率预估方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元410可以执行如图1中所示的步骤。
所述存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。
所述存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备400也可以与一个或多个外部设备500(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备400交互的设备通信,和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。并且,电子设备400还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器460可以通过总线430与电子设备400的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述注册概率预估方法。
本发明使用循环神经网络与传统特征提取相结合的技术,根据用户操作日志流实时采集用户的行为数据、并保证高效的结果反馈速度,在兼备算法框架良好的延拓性能的前提下对用户行为建模,可以有效预测用户的注册、购买、点击等行为的概率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (9)

1.一种注册概率预估方法,其特征在于,包括:
根据用户操作日志流获取第一用户行为数据;
将所述第一用户行为数据输入一经训练的第一预测模型,并获取所述第一预测模型的多个隐含层的数据作为第二用户行为数据;
对部分所述第一用户行为数据按所计算的重要性值进行交叉构造获得第三用户行为数据;
将所述第二用户行为数据与所述第三用户行为数据进行拼接以得到第四用户行为数据;
将所述第四用户行为数据输入第二预测模型,将所述第二预测模型的输出作为用户的注册概率的预估值;
所述对部分所述第一用户行为数据按所计算的重要性值进行交叉构造获得第三用户行为数据的步骤进一步包括:
将所述第一用户行为数据按所计算的重要性值区分为第一特征数据和第二特征数据;
将所述第二特征数据进行交叉构造,以形成第三特征数据;
所述第一特征数据与所述第三特征数据构成所述第三用户行为数据;
所述第一预测模型为RNN模型,所述RNN模型包括一输入层、多个隐含层及一输出层,每一所述隐含层为一GRU单元;所述第二预测模型为逻辑回归模型。
2.根据权利要求1所述的注册概率预估方法,其特征在于,所述用户操作日志流包含用户基本信息、用户行为信息及用户的设备信息。
3.根据权利要求1所述的注册概率预估方法,其特征在于,所述第一预测模型及所述第二预测模型根据样本数据进行训练,所述样本数据包括用户行为数据及用户注册状态。
4.根据权利要求1所述的注册概率预估方法,其特征在于,通过方差估计计算所述第一用户行为数据的重要性值以将所述第一用户行为数据区分为第一特征数据和第二特征数据。
5.根据权利要求1所述的注册概率预估方法,其特征在于,通过xgboost算法计算所述第一用户行为数据的重要性值以将所述第一用户行为数据区分为第一特征数据和第二特征数据。
6.根据权利要求1所述的注册概率预估方法,其特征在于,通过交叉熵计算所述第一用户行为数据的重要性值以将所述第一用户行为数据区分为第一特征数据和第二特征数据。
7.一种注册概率预估装置,其特征在于,包括:
获取模块,用于根据用户操作日志流获取第一用户行为数据;
第一预测模型模块,用于将所述第一用户行为数据输入一经训练的第一预测模型,并获取所述第一预测模型的多个隐含层的数据作为第二用户行为数据,所述第一预测模型为RNN模型,所述RNN模型包括一输入层、多个隐含层及一输出层,每一所述隐含层为一GRU单元;
数据构造模块,用于对部分所述第一用户行为数据按所计算的重要性值进行交叉构造获得第三用户行为数据;
数据处理模块,用于拼接所述第二用户行为数据及第三行为数据以得到第四用户行为数据;
第二预测模型模块,用于将所述第四用户行为数据输入第二预测模型,将所述第二预测模型的输出作为用户的注册概率的预估值;所述第二预测模型为逻辑回归模型;
所述注册概率预估装置还用于:
所述对部分所述第一用户行为数据按所计算的重要性值进行交叉构造获得第三用户行为数据的步骤进一步包括:
将所述第一用户行为数据按所计算的重要性值区分为第一特征数据和第二特征数据;
将所述第二特征数据进行交叉构造,以形成第三特征数据;
所述第一特征数据与所述第三特征数据构成所述第三用户行为数据。
8.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一项所述的方法。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至6任一项所述的方法。
CN201811156192.XA 2018-09-30 2018-09-30 注册概率预估方法、装置、存储介质及电子设备 Active CN109272165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811156192.XA CN109272165B (zh) 2018-09-30 2018-09-30 注册概率预估方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811156192.XA CN109272165B (zh) 2018-09-30 2018-09-30 注册概率预估方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN109272165A CN109272165A (zh) 2019-01-25
CN109272165B true CN109272165B (zh) 2021-04-20

Family

ID=65195482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811156192.XA Active CN109272165B (zh) 2018-09-30 2018-09-30 注册概率预估方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109272165B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288096B (zh) * 2019-06-28 2021-06-08 满帮信息咨询有限公司 预测模型训练及预测方法、装置、电子设备、存储介质
CN110674188A (zh) * 2019-09-27 2020-01-10 支付宝(杭州)信息技术有限公司 一种特征提取方法、装置及设备
CN112950353B (zh) * 2021-02-08 2024-11-08 北京淇瑀信息科技有限公司 基于7日动支模型的用户策略生成方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407694A (zh) * 2016-09-28 2017-02-15 湖南老码信息科技有限责任公司 一种基于增量式神经网络模型的神经衰弱预测方法和预测系统
CN107168945A (zh) * 2017-04-13 2017-09-15 广东工业大学 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107180284A (zh) * 2017-07-07 2017-09-19 北京航空航天大学 一种基于学习行为特征的spoc学生每周表现预测方法及装置
CN107330445A (zh) * 2017-05-31 2017-11-07 北京京东尚科信息技术有限公司 用户属性的预测方法和装置
CN108090607A (zh) * 2017-12-13 2018-05-29 中山大学 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法
CN108121795A (zh) * 2017-12-20 2018-06-05 北京奇虎科技有限公司 用户行为预测方法及装置
CN108256757A (zh) * 2018-01-10 2018-07-06 链家网(北京)科技有限公司 一种基于xgboost的房源成交预估方法及预估平台

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7593906B2 (en) * 2006-07-31 2009-09-22 Microsoft Corporation Bayesian probability accuracy improvements for web traffic predictions
CN106503805B (zh) * 2016-11-14 2019-01-29 合肥工业大学 一种基于机器学习的双模态人人对话情感分析方法
CN107153887A (zh) * 2017-04-14 2017-09-12 华南理工大学 一种基于卷积神经网络的移动用户行为预测方法
CN107222787A (zh) * 2017-06-02 2017-09-29 中国科学技术大学 视频资源流行度预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407694A (zh) * 2016-09-28 2017-02-15 湖南老码信息科技有限责任公司 一种基于增量式神经网络模型的神经衰弱预测方法和预测系统
CN107168945A (zh) * 2017-04-13 2017-09-15 广东工业大学 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107330445A (zh) * 2017-05-31 2017-11-07 北京京东尚科信息技术有限公司 用户属性的预测方法和装置
CN107180284A (zh) * 2017-07-07 2017-09-19 北京航空航天大学 一种基于学习行为特征的spoc学生每周表现预测方法及装置
CN108090607A (zh) * 2017-12-13 2018-05-29 中山大学 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法
CN108121795A (zh) * 2017-12-20 2018-06-05 北京奇虎科技有限公司 用户行为预测方法及装置
CN108256757A (zh) * 2018-01-10 2018-07-06 链家网(北京)科技有限公司 一种基于xgboost的房源成交预估方法及预估平台

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
利用数据挖掘技术提高电力客户的满意度;谢敏敏;《电力讯息》;20150125(第2期);全文 *
基于兴趣偏好的微博用户性别推断研究;宋巍,等;《电子学报》;20161031;第44卷(第10期);全文 *

Also Published As

Publication number Publication date
CN109272165A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
US11416772B2 (en) Integrated bottom-up segmentation for semi-supervised image segmentation
US11100399B2 (en) Feature extraction using multi-task learning
CN110674880A (zh) 用于知识蒸馏的网络训练方法、装置、介质与电子设备
CN111523640B (zh) 神经网络模型的训练方法和装置
CN109636047B (zh) 用户活跃度预测模型训练方法、系统、设备及存储介质
CN109272165B (zh) 注册概率预估方法、装置、存储介质及电子设备
US12050971B2 (en) Transaction composition graph node embedding
CN111898675A (zh) 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
CN114298050A (zh) 模型的训练方法、实体关系抽取方法、装置、介质、设备
US11645500B2 (en) Method and system for enhancing training data and improving performance for neural network models
CN113826113A (zh) 用于人工智能的对罕见训练数据计数
US20220350690A1 (en) Training method and apparatus for fault recognition model, fault recognition method and apparatus, and electronic device
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN116684330A (zh) 基于人工智能的流量预测方法、装置、设备及存储介质
US20220309292A1 (en) Growing labels from semi-supervised learning
US20210081800A1 (en) Method, device and medium for diagnosing and optimizing data analysis system
CN111949867A (zh) 跨app的用户行为分析模型训练方法、分析方法及相关设备
CN110059743B (zh) 确定预测的可靠性度量的方法、设备和存储介质
US20210149793A1 (en) Weighted code coverage
US20170154279A1 (en) Characterizing subpopulations by exposure response
CN117234844A (zh) 云服务器异常管理方法、装置、计算机设备及存储介质
US20230206114A1 (en) Fair selective classification via a variational mutual information upper bound for imposing sufficiency
US20230229944A1 (en) Auto-enriching climate-aware supply chain management
US20230022253A1 (en) Fast and accurate prediction methods and systems based on analytical models
CN109934348A (zh) 机器学习模型超参数推断方法及装置、介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210401

Address after: No.123, Kaifa Avenue, Guiyang Economic and Technological Development Zone, 550000, Guizhou Province

Applicant after: Man Bang Information Consulting Co.,Ltd.

Address before: 210012 3-5 / F, building 4, 170-1 software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Applicant before: JIANGSU MANYUN SOFTWARE TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: No.123, Kaifa Avenue, Guiyang Economic and Technological Development Zone, 550000, Guizhou Province

Patentee after: Manbang Information Technology Co.,Ltd.

Address before: No.123, Kaifa Avenue, Guiyang Economic and Technological Development Zone, 550000, Guizhou Province

Patentee before: Man Bang Information Consulting Co.,Ltd.