CN112801693B - 基于高价值用户的广告特征分析方法及系统 - Google Patents
基于高价值用户的广告特征分析方法及系统 Download PDFInfo
- Publication number
- CN112801693B CN112801693B CN202110063979.7A CN202110063979A CN112801693B CN 112801693 B CN112801693 B CN 112801693B CN 202110063979 A CN202110063979 A CN 202110063979A CN 112801693 B CN112801693 B CN 112801693B
- Authority
- CN
- China
- Prior art keywords
- advertisement
- value
- feature
- user
- value user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 73
- 238000011156 evaluation Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012417 linear regression Methods 0.000 claims abstract description 21
- 238000003066 decision tree Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000000694 effects Effects 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 239000000463 material Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 11
- 230000008901 benefit Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000014759 maintenance of location Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
- G06Q30/0244—Optimization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
- G06Q30/0245—Surveys
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种基于高价值用户的广告特征分析方法及系统。本申请实施例提供的技术方案,通过获取用户数据,使用预定义指标从用户数据中确定对应的高价值用户,进而提取对应高价值用户的广告侧数据,基于广告侧数据计算各个广告特征对获取高价值用户的平均贡献率,确定确定特征评估结果达到设定阈值的广告特征作为关键特征。之后,基于线性回归模型计算各个关键特征对获取高价值用户的正负相关性系数,归一化处理正负相关性系数输出对应的特征分析结果。采用上述技术手段,基于分析结果可有效辅助广告的针对性投放决策,降低广告投放过程中获取高价值用户的投入成本,有效提升短视频app的收益。
Description
技术领域
本申请实施例涉及大数据技术领域,尤其涉及一种基于高价值用户的广告特征分析方法及系统。
背景技术
目前,短视频app获取新用户的方式主要通过在广告平台付费投放广告,推广短视频产品,以此吸引用户下载。在各类短视频用户中,高价值拍客对短视频app的用户增长而言较为重要。高价值拍客指的是进入短视频app内活跃度高、付费能力较强的视频生产用户,这部分用户从用户留存、收益和app推荐传播等方面都提供了正向作用。通过精准投放广告获取高价值拍客,对于短视频app用户增长和收益而言,都具有重要意义。
但是,现有的广告投放方式对于高价值拍客的获取缺乏针对性,无法明确获取高价值拍客的关键广告特征,导致高价值拍客的获取成本相对较高。
发明内容
本申请实施例提供一种基于高价值用户的广告特征分析方法及系统,能够分析确定影响高价值用户获取的广告特征,以辅助广告投放决策的制定,针对性地获取高价值用户,并降低高价值用户获取的投入成本,有效提升短视频app的收益。
在第一方面,本申请实施例提供了一种基于高价值用户的广告特征分析方法,包括:
获取用户数据,使用预定义指标从所述用户数据中确定对应的高价值用户;
提取对应所述高价值用户的广告侧数据,基于所述广告侧数据计算各个广告特征对获取所述高价值用户的平均贡献率,根据所述平均贡献率计算对应广告特征的特征评估结果,并确定特征评估结果达到设定阈值的广告特征作为关键特征;
基于线性回归模型计算各个所述关键特征对获取所述高价值用户的正负相关性系数,归一化处理所述正负相关性系数输出对应的特征分析结果。
进一步的,基于线性回归模型计算各个所述关键特征对获取所述高价值用户的正负相关性系数,包括:
对应所述关键特征建立线性回归模型,根据所述线性回归模型的损失函数确定所述关键特征对获取所述高价值用户的正负相关性系数。
进一步的,在基于线性回归模型计算各个所述关键特征对获取所述高价值用户的正负相关性系数之后,还包括:
根据各个所述关键特征构建特征组合,计算所述特征组合对获取所述高价值用户的正负相关性系数。
进一步的,根据各个所述关键特征构建特征组合,计算所述特征组合对获取所述高价值用户的正负相关性系数,包括:
选取两个所述关键特征构建特征组合,根据多项式回归模型的损失函数确定所述特征组合对获取所述高价值用户的正负相关性系数。
进一步的,选取两个所述关键特征构建特征组合,包括:
使用因子分解机模型选取两个所述关键特征构建特征组合。
进一步的,归一化处理所述正负相关性系数输出对应的特征分析结果,包括:
归一化处理所述正负相关性系数得到对应的特征影响程度值,以所述特征影响程度值作为特征分析结果并可视化输出。
进一步的,所述预定义指标包括付费率阈值、投资回报率阈值和设定时段平均付费金额阈值。
进一步的,使用预定义指标从所述用户数据中确定对应的高价值用户,包括:
基于所述用户数据的属性数据和行为数据计算对应各个用户的付费率、投资回报率和设定时段平均付费金额;
基于预定义指标比对各个用户的付费率、投资回报率和设定时段平均付费金额,从各个用户中确定对应的高价值用户。
进一步的,提取对应所述高价值用户的广告侧数据,包括:
确定所述高价值用户在广告端的身份标识,从所述广告端获取对应所述身份标识的广告侧数据,并对所述广告侧数据进行规范化处理。
进一步的,基于所述广告侧数据计算各个广告特征对获取所述高价值用户的平均贡献率,包括:
基于随机森林模型选取广告测数据构建决策树,计算所述决策树各个节点的贡献值,基于所述贡献值确定所述决策树中各个广告特征对获取所述高价值用户的贡献率;
根据设定数量的所述决策树确定的所述贡献率计算各个广告特征对获取所述高价值用户的平均贡献率。
进一步的,计算所述决策树各个节点的贡献值,包括:
基于不纯度函数计算所述决策树各个节点的不纯度,基于所述不纯度计算对应节点的贡献值。
在第二方面,本申请实施例提供了一种基于高价值用户的广告特征分析系统,包括:
确定模块,用于获取用户数据,使用预定义指标从所述用户数据中确定对应的高价值用户;
第一计算模块,用于提取对应所述高价值用户的广告侧数据,基于所述广告侧数据计算各个广告特征对获取所述高价值用户的平均贡献率,根据所述平均贡献率计算对应广告特征的特征评估结果,并确定特征评估结果达到设定阈值的广告特征作为关键特征;
第二计算模块,用于基于线性回归模型计算各个所述关键特征对获取所述高价值用户的正负相关性系数,归一化处理所述正负相关性系数输出对应的特征分析结果。
在第三方面,本申请实施例提供了一种电子设备,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的基于高价值用户的广告特征分析方法。
在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的基于高价值用户的广告特征分析方法。
本申请实施例通过获取用户数据,使用预定义指标从用户数据中确定对应的高价值用户,进而提取对应高价值用户的广告侧数据,基于广告侧数据计算各个广告特征对获取高价值用户的平均贡献率,根据平均贡献率计算对应广告特征的特征评估结果,并确定特征评估结果达到设定阈值的广告特征作为关键特征。之后,基于线性回归模型计算各个关键特征对获取高价值用户的正负相关性系数,归一化处理正负相关性系数输出对应的特征分析结果。采用上述技术手段,通过关键特征对获取高价值用户的正负相关性系数计算能够准确地分析各个关键特征对获取高价值用户的影响程度,基于分析结果可有效辅助广告的针对性投放决策,降低广告投放过程中获取高价值用户的投入成本,有效提升短视频app的收益。
此外,本申请实施例通过构建预定义指标,可以根据高价值用户的特征准确地分类高价值用户,以此可提升特征分析的精准度,进一步优化特征分析结果。
附图说明
图1是本申请实施例一提供的一种基于高价值用户的广告特征分析方法的流程图;
图2是本申请实施例一中高价值用户的确定流程图;
图3是本申请实施例一中平均贡献率的计算流程图;
图4是本申请实施例一中单关键特征的特征影响程度示意图;
图5是本申请实施例一中特征组合的特征影响程度示意图;
图6是本申请实施例二提供的一种基于高价值用户的广告特征分析系统的结构示意图;
图7是本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请实施例提供的基于高价值用户的广告特征分析方法,旨在通过高价值用户分类确定高价值用户,并进一步基于高价值用户的广告侧数据分析影响高价值用户获取的广告特征,以此来确定各个广告特征对获取高价值用户的影响程度,进而较好地辅助广告的针对性投放决策。对于传统的短视频app的广告投放方式,其为了增长用户量,需要通过广告投放的方式吸引高价值拍客(即高价值用户)。高价值拍客可以为短视频app提供较高的活跃度和付费收益。从用户留存来看,这部分用户不仅在进入短视频app后的粘性较高,且会提供较多优质短视频内容,可以为短视频app贡献日活跃量,对提升其他用户的留存也有正向作用。此外,从收益来看,由于这部分用户的付费能力较强,因此付费率和付费金额均优于其他用户,可以为短视频app贡献较高收入,并且也会带动其他用户的付费热情。另一方面,从app推荐传播来看,高价值拍客的社交关系链辐射到的较多用户也同为高价值拍客,因此对短视频app的端内生态有正向循环的作用。但是,短视频app广告主在进行广告投放时,一方面由于没有明确高价值拍客的用户特征,其在投放广告的时候不能做到针对性地投放。另一方面,由于当前广告平台的黑盒性质,短视频app广告主无法明确哪种投放形式(即广告特征)的广告才能更好的获取高价值拍客。基于此,提供本申请实施例的一种基于高价值用户的广告特征分析方法,以解决现有短视频app广告对于获取高价值用户的针对性投放问题。
实施例一:
图1给出了本申请实施例一提供的一种基于高价值用户的广告特征分析方法的流程图,本实施例中提供的基于高价值用户的广告特征分析方法可以由基于高价值用户的广告特征分析设备执行,该基于高价值用户的广告特征分析设备可以通过软件和/或硬件的方式实现,该基于高价值用户的广告特征分析设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。一般而言,该基于高价值用户的广告特征分析设备可以是服务器主机等计算设备。
下述以该基于高价值用户的广告特征分析设备为执行基于高价值用户的广告特征分析方法的主体为例,进行描述。参照图1,该基于高价值用户的广告特征分析方法具体包括:
S110、获取用户数据,使用预定义指标从所述用户数据中确定对应的高价值用户。
具体的,为了较好地辅助广告投放方案的制定,使广告精准地面向高价值用户投放,则需要确定哪些广告特征对获取高价值用户存在较为重要的影响。通过分析量化各个广告特征对获取高价值用户的影响程度,以直观地展示各个广告特征的重要性,进而准确地辅助广告投放方案的制定,降低获取高价值用户的成本。
在此之前,首先需要确定哪些用户为高价值用户,以便于后续根据高价值用户的广告侧数据对应进行广告特征分析。以短视频app为例,其通过一个高价值用户(即高价值拍客)分类系统来确定高价值用户。其中高价值用户分类系统是一个运行于hadoop(分布式系统基础架构)集群上的Spark(计算引擎)程序,它的输入为短视频客户端内最近30天的全量用户数据。用户数据包括用户侧的性别、年龄等属性数据,以及用户在短视频客户端内的短视频观看时长、短视频内容生产、打赏充值等行为数据,其输出为从这些用户中确定的高价值用户。
具体的,参照图2,高价值用户的确定流程包括:
S1101、基于所述用户数据的属性数据和行为数据计算对应各个用户的付费率、投资回报率和设定时段平均付费金额;
S1102、基于预定义指标比对各个用户的付费率、投资回报率和设定时段平均付费金额,从各个用户中确定对应的高价值用户。
其中,短视频客户端通过埋点的方式获取用户对应的行为数据和属性数据,用户数据存储到hive(数据仓库工具),从hive即可获取对应的用户数据。在获取到用户数据之后,对其进行清洗,剔除无效数据,聚合同一用户id的数据,最终整理为以用户id为粒度的宽表存储。进一步的,根据这一宽表,通过分析用户属性维度和用户行为维度下的各个指标。用户属性维度包括用户主动上传的性别、年龄、城市、语言等数据;用户行为维度包括用户在短视频客户端内的短视频观看时长、短视频内容生产、打赏充值等行为数据;指标主要为收入导向的付费率、投资回报率、设定时段平均付费金额等。基于上述分析结果,确定对应各个用户id在使用短视频客户端时的付费率、投资回报率和设定时段平均付费金额信息。可以理解的是,高价值用户为客户端内活跃度较高、付费能力较强的视频生产用户,则其对应的付费率、投资回报率和设定时段平均付费金额也相对较高。因此,本申请实施例根据实际的高价值用户分类需求,设置一个预定义指标,所述预定义指标包括付费率阈值、投资回报率阈值和设定时段平均付费金额阈值。当某一用户i d对应的付费率、投资回报率和设定时段平均付费金额达到该预订指标时,即该用户i d的付费率大于付费率阈值,投资回报率大于投资回报率阈值,设定时段平均付费金额大于设定时段平均付费金额阈值,则认为其是高价值用户。以此即可完成高价值用户的分类,通过高价值用户分类系统输出高价值用户id信息。
S120、提取对应所述高价值用户的广告侧数据,基于所述广告侧数据计算各个广告特征对获取所述高价值用户的平均贡献率,根据所述平均贡献率计算对应广告特征的特征评估结果,并确定特征评估结果达到设定阈值的广告特征作为关键特征。
进一步的,基于上述步骤S110确定的高价值用户,本申请进一步分析此前获取这部分高价值用户时各个广告特征的影响程度,进而确定获取高价值用户所具备的广告特征。
具体的,通过提取这部分高价值用户的广告侧数据以确定影响高价值用户的关键特征。在提取广告侧数据时,通过确定所述高价值用户在广告端的身份标识,从所述广告端获取对应所述身份标识的广告侧数据,并对所述广告侧数据进行规范化处理。其中,基于已确定的高价值用户,利用实时归因工具通过安装sdk(软件开发工具包)来获取广告端处高价值用户的身份标识,用此身份标识去请求广告侧的点击、安装等广告特征,以这些广告特征信息作为广告侧数据。本申请实施例中,广告特征主要分为投放渠道、广告位、创意素材、投放时间、区域、预算、广告效果指标。其中,投放渠道主要指具体的广告投放平台;广告位指广告平台可提供的展示位置,包括信息流、搜索结果栏、视频播放页等;创意素材包括素材展示方式、素材内容标签、素材来源等;投放区域指的是广告覆盖的国家、城市;时间依据具体广告投放时间、是否节假日等来进行衡量;广告效果指标主要是平台侧的广告点击、曝光、转化等数据。
基于上述确定的高价值用户的广告侧数据,对该部分广告侧数据进行规范化处理,其中,数据的规范化处理主要包括缺失值填充、异常值与冗余数据的去除、文本数据编码等。以此可使广告侧数据符合后续的模型分析需求,保障后续特征分析结果的合理性和准确性。
更进一步的,基于上述获取到的对应高价值用户的广告侧数据,本申请实施例进一步对应广告侧数据中的各个广告特征进行关键特征识别。可以理解的是,关键特征即为影响获取高价值用户较为重要的因素,通过确定这些关键特征,在广告投放时对上述关键特征进行适应性控制,即可实现广告的针对性投放,优化高价值用户的获取效果。
本申请实施例通过量化各个广告特征对获取高价值用户的平均贡献率,基于平均贡献率以合理、准确地从各个广告特征中确定关键特征。其中,参照图3,平均贡献率的计算流程包括:
S1201、基于随机森林模型选取广告测数据构建决策树,计算所述决策树各个节点的贡献值,基于所述贡献值确定所述决策树中各个广告特征对获取所述高价值用户的贡献率;
S1202、根据设定数量的所述决策树确定的所述贡献率计算各个广告特征对获取所述高价值用户的平均贡献率。
具体的,通过使用随机森林模型回归来进行特征选择,随机森林模型是一种基于树模型的bagging(Bootstrap aggregating,引导聚集)集成算法,能同时处理连续和分类型的数据,且对异常值不敏感,适用于本本申请实施例的业务场景。随机森林模型以各个高价值用户的广告侧数据为样本集,每个高价值用户的广告侧数据为一个样本,采用重复有放回的抽样方法(bootstrap,Web框架)从样本集中选取N个样本作为一个训练集。进一步使用抽样得到的训练集生成一棵决策树。基于不纯度函数计算所述决策树各个节点的不纯度,基于所述不纯度计算对应节点的贡献值。通过生成决策树的每一个节点,随机不重复地选择d个特征,利用这d个特征分别对训练集进行划分,遍历每个特征和每个特征的所有取值,最后从中找出切分后不纯度最低的切分变量和切分点。切分后节点的不纯度即为各个子节点不纯度的加权和,其中不纯度函数使用均方误差MSE,不纯度函数为:
其中,H(Xin)为不纯度函数,N指训练集总样本量,yi指样本的第i个标签值,Nm指第m个节点的样本量,ym指第m个节点的标签均值,m指第m个节点。
加权和公式表示为:
其中,G(Xi,Vi)表示加权和,Nleft指左节点的样本量Nright指右节点的样本量,Ns指第s个节点的样本量,H(Xleft)为左节点不纯度,H(Xright)为右节点不纯度。
进一步的,以每个节点减少的不纯度来计算第k个节点的贡献值,贡献值计算公式为:
nk=wk*Gk-wleft*Gleft-wright*Gright
其中,nk为第k个节点的贡献值,wk为节点k的样本比例,wleft左节点的样本比例,wright为右节点的样本比例,Gk为节点k的不纯度,Gleft左节点的不纯度,Gright为右节点的不纯度。
基于上述公式确定每个节点的贡献值之后,即可依此计算各个广告特征的特征贡献率。特征贡献率计算公式为:
其中,fj为特征贡献率,nk为第k个节点的贡献值,Nj指第j个节点的样本量。
重复以上步骤共l次,l即为随机森林中决策树的个数。在多个模型中,对各个特征的贡献率取平均,以减少估计方差。最后将特征贡献率进行归一化,得到最终的特征评估结果。特征评估结果计算公式为:
其中,为第i个特征的平均贡献率,fni为特征评估结果。
基于上述特征评估结果,通过比对设定阈值α,提取特征评估结果fni>α的广告特征作为关键特征。需要说明的是,设定阈值根据实际关键特征提取需求设置,本申请实施例对设定阈值的具体设置值不做固定限制。
S130、基于线性回归模型计算各个所述关键特征对获取所述高价值用户的正负相关性系数,归一化处理所述正负相关性系数输出对应的特征分析结果。
在识别了关键特征之后,需要知道这些关键特征对获取高价值用户这一目标是正向影响还是负向影响。通过建立线性回归模型,得到每个广告特征的正负相关性系数,以此来判别特征关键特征与高价值用户获取的正负相关性。
其中,对应所述关键特征建立线性回归模型,根据所述线性回归模型的损失函数确定所述关键特征对获取所述高价值用户的正负相关性系数。并且,考虑到输入变量间可能存在多重共线性,在目标函数求解时,加入L2惩罚项,通过参数来进行系数收缩,降低参数估计方差,以提高模型稳定性。损失函数计算公式为:
其中,m代表总样本量,指模型的预测输出,λ为收缩参数,θ为待估计的参数,y(i)指第i个样本的真实输出,为惩罚项。线性回归模型的目标是最小化损失函数,通过估计参数使用梯度下降法进行求解。基于上述方式即可确定对应的正负相关性系数。
此外,在一个实施例中,还根据各个所述关键特征构建特征组合,计算所述特征组合对获取所述高价值用户的正负相关性系数。可以理解的是,广告投放过程中,各个关键特征之间不一定是独立的,有时候多个关键特征具有交互效应,比如在A平台上投放视频类广告,或者在B平台上投放搜索类广告,对降低高价值用户获取成本的作用都不是很显著,但是在A平台上投放搜索广告就起到显著效果,所以需要评判这些特征组合对获取高价值用户的影响,
基于此,本申请实施例通过选取两个所述关键特征构建特征组合,根据多项式回归模型的损失函数确定所述特征组合对获取所述高价值用户的正负相关性系数。其中,使用因子分解机模型选取两个所述关键特征构建特征组合。这里使用FM(因子分解机)模型进行关键特征的组合。FM(因子分解机)模型通过对关键特征两两组合,并引入二阶交叉项特征,以提高模型准确率。进一步通过对参数矩阵进行矩阵分解,减少未知参数量级,来降低高维特征带来的计算复杂度。其中,模型公式为:
其中,xi代表第i个特征的值,wi是模型权重参数,vi是第i维特征的隐向量,wo是多项式回归中的二项参数矩阵W的Cholesky分解(平方根法)。其中wij=<vi,vj>。
进一步的,将模型公式推导化简为:
其中,xi代表第i个特征的值,wi是模型权重参数,vi是第i维特征的隐向量,wo是多项式回归中的二项参数矩阵W的Cholesky分解(平方根法)。
基于上述公式,将样本数据划分训练集和测试集,损失函数采用均方误差(MSE),运用随机梯度下降法进行参数迭代,迭代到损失下降幅度小于设定阈值后结束。输出效果最优的参数矩阵W,排序输出二阶组合特征系数,以此得到对应特征组合的正负相关性系数。
进一步的,对应上述单个关键特征的正负相关性系数以及特征组合的正负相关性系数,本申请实施例通过归一化处理所述正负相关性系数得到对应的特征影响程度值,以所述特征影响程度值作为特征分析结果并可视化输出。其中,参照图4,提供单关键特征的特征影响程度示意图,基于该示意图,即可直观的获知各个关键特征对获取高价值用户的影响。参照图5,提供特征组合的特征影响程度示意图,基于该示意图,即可直观的获知各个特征组合对获取高价值用户的影响。本申请实施例通过可视化输出显示各个关键特征、特征组合对高价值用户获取的影响,可以便于广告主直观了解各个关键特征对降低获取高价值用户的投放成本的正向影响和负向影响,依此控制广告投放的广告特征,即可实现精准、高效的针对性广告投放。
上述,通过获取用户数据,使用预定义指标从用户数据中确定对应的高价值用户,进而提取对应高价值用户的广告侧数据,基于广告侧数据计算各个广告特征对获取高价值用户的平均贡献率,根据平均贡献率计算对应广告特征的特征评估结果,并确定特征评估结果达到设定阈值的广告特征作为关键特征。之后,基于线性回归模型计算各个关键特征对获取高价值用户的正负相关性系数,归一化处理正负相关性系数输出对应的特征分析结果。采用上述技术手段,通过关键特征对获取高价值用户的正负相关性系数计算能够准确地分析各个关键特征对获取高价值用户的影响程度,基于分析结果可有效辅助广告的针对性投放决策,降低广告投放过程中获取高价值用户的投入成本,有效提升短视频app的收益。此外,本申请实施例通过构建预定义指标,可以根据高价值用户的特征准确地分类高价值用户,以此可提升特征分析的精准度,进一步优化特征分析结果。
实施例二:
在上述实施例的基础上,图6为本申请实施例二提供的一种基于高价值用户的广告特征分析系统的结构示意图。参考图6,本实施例提供的基于高价值用户的广告特征分析系统具体包括:确定模块31、第一计算模块32和第二计算模块33。
其中,确定模块31用于获取用户数据,使用预定义指标从所述用户数据中确定对应的高价值用户;
第一计算模块32用于提取对应所述高价值用户的广告侧数据,基于所述广告侧数据计算各个广告特征对获取所述高价值用户的平均贡献率,根据所述平均贡献率计算对应广告特征的特征评估结果,并确定特征评估结果达到设定阈值的广告特征作为关键特征;
第二计算模块33用于基于线性回归模型计算各个所述关键特征对获取所述高价值用户的正负相关性系数,归一化处理所述正负相关性系数输出对应的特征分析结果。
上述,通过获取用户数据,使用预定义指标从用户数据中确定对应的高价值用户,进而提取对应高价值用户的广告侧数据,基于广告侧数据计算各个广告特征对获取高价值用户的平均贡献率,根据平均贡献率计算对应广告特征的特征评估结果,并确定特征评估结果达到设定阈值的广告特征作为关键特征。之后,基于线性回归模型计算各个关键特征对获取高价值用户的正负相关性系数,归一化处理正负相关性系数输出对应的特征分析结果。采用上述技术手段,通过关键特征对获取高价值用户的正负相关性系数计算能够准确地分析各个关键特征对获取高价值用户的影响程度,基于分析结果可有效辅助广告的针对性投放决策,降低广告投放过程中获取高价值用户的投入成本,有效提升短视频app的收益。此外,本申请实施例通过构建预定义指标,可以根据高价值用户的特征准确地分类高价值用户,以此可提升特征分析的精准度,进一步优化特征分析结果。
本申请实施例二提供的基于高价值用户的广告特征分析系统可以用于执行上述实施例一提供的基于高价值用户的广告特征分析方法,具备相应的功能和有益效果。
实施例三:
本申请实施例三提供了一种电子设备,参照图7,该电子设备包括:处理器31、存储器32、通信模块33、输入装置34及输出装置35。存储器32作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的基于高价值用户的广告特征分析方法对应的程序指令/模块(例如,基于高价值用户的广告特征分析系统的确定模块、第一计算模块和第二计算模块)。通信模块33用于进行数据传输。处理器31通过运行存储在存储器中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的基于高价值用户的广告特征分析方法。输入装置34可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。上述提供的电子设备可用于执行上述实施例一提供的基于高价值用户的广告特征分析方法,具备相应的功能和有益效果。
实施例四:
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述一种基于高价值用户的广告特征分析方法,存储介质可以是任何的各种类型的存储器设备或存储设备。当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的基于高价值用户的广告特征分析方法,还可以执行本申请任意实施例所提供的基于高价值用户的广告特征分析方法中的相关操作。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。
Claims (11)
1.一种基于高价值用户的广告特征分析方法,其特征在于,包括:
获取用户数据,使用预定义指标从所述用户数据中确定对应的高价值用户;
提取对应所述高价值用户的广告侧数据,基于随机森林模型选取广告测数据构建决策树,基于不纯度函数计算所述决策树各个节点的不纯度,基于所述不纯度计算对应节点的贡献值,基于所述贡献值确定所述决策树中各个广告特征对获取所述高价值用户的贡献率;根据设定数量的所述决策树确定的所述贡献率计算各个广告特征对获取所述高价值用户的平均贡献率,根据所述平均贡献率计算对应广告特征的特征评估结果,并确定特征评估结果达到设定阈值的广告特征作为关键特征,所述广告特征包括投放渠道、广告位、创意素材、投放时间、区域、预算或者广告效果指标;
对应所述关键特征建立线性回归模型,根据所述线性回归模型的损失函数确定所述关键特征对获取所述高价值用户的正负相关性系数,归一化处理所述正负相关性系数输出对应的特征分析结果。
2.根据权利要求1所述的基于高价值用户的广告特征分析方法,其特征在于,在基于线性回归模型计算各个所述关键特征对获取所述高价值用户的正负相关性系数之后,还包括:
根据各个所述关键特征构建特征组合,计算所述特征组合对获取所述高价值用户的正负相关性系数。
3.根据权利要求2所述的基于高价值用户的广告特征分析方法,其特征在于,根据各个所述关键特征构建特征组合,计算所述特征组合对获取所述高价值用户的正负相关性系数,包括:
选取两个所述关键特征构建特征组合,根据多项式回归模型的损失函数确定所述特征组合对获取所述高价值用户的正负相关性系数。
4.根据权利要求3所述的基于高价值用户的广告特征分析方法,其特征在于,选取两个所述关键特征构建特征组合,包括:
使用因子分解机模型选取两个所述关键特征构建特征组合。
5.根据权利要求1所述的基于高价值用户的广告特征分析方法,其特征在于,归一化处理所述正负相关性系数输出对应的特征分析结果,包括:
归一化处理所述正负相关性系数得到对应的特征影响程度值,以所述特征影响程度值作为特征分析结果并可视化输出。
6.根据权利要求1所述的基于高价值用户的广告特征分析方法,其特征在于,所述预定义指标包括付费率阈值、投资回报率阈值和设定时段平均付费金额阈值。
7.根据权利要求6所述的基于高价值用户的广告特征分析方法,其特征在于,使用预定义指标从所述用户数据中确定对应的高价值用户,包括:
基于所述用户数据的属性数据和行为数据计算对应各个用户的付费率、投资回报率和设定时段平均付费金额;
基于预定义指标比对各个用户的付费率、投资回报率和设定时段平均付费金额,从各个用户中确定对应的高价值用户。
8.根据权利要求1所述的基于高价值用户的广告特征分析方法,其特征在于,提取对应所述高价值用户的广告侧数据,包括:
确定所述高价值用户在广告端的身份标识,从所述广告端获取对应所述身份标识的广告侧数据,并对所述广告侧数据进行规范化处理。
9.一种基于高价值用户的广告特征分析系统,其特征在于,包括:
确定模块,用于获取用户数据,使用预定义指标从所述用户数据中确定对应的高价值用户;
第一计算模块,用于提取对应所述高价值用户的广告侧数据,基于随机森林模型选取广告测数据构建决策树,基于不纯度函数计算所述决策树各个节点的不纯度,基于所述不纯度计算对应节点的贡献值,基于所述贡献值确定所述决策树中各个广告特征对获取所述高价值用户的贡献率;根据设定数量的所述决策树确定的所述贡献率计算各个广告特征对获取所述高价值用户的平均贡献率,根据所述平均贡献率计算对应广告特征的特征评估结果,并确定特征评估结果达到设定阈值的广告特征作为关键特征,所述广告特征包括投放渠道、广告位、创意素材、投放时间、区域、预算或者广告效果指标;
第二计算模块,用于对应所述关键特征建立线性回归模型,根据所述线性回归模型的损失函数确定所述关键特征对获取所述高价值用户的正负相关性系数,归一化处理所述正负相关性系数输出对应的特征分析结果。
10.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8任一所述的基于高价值用户的广告特征分析方法。
11.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8任一所述的基于高价值用户的广告特征分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110063979.7A CN112801693B (zh) | 2021-01-18 | 2021-01-18 | 基于高价值用户的广告特征分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110063979.7A CN112801693B (zh) | 2021-01-18 | 2021-01-18 | 基于高价值用户的广告特征分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801693A CN112801693A (zh) | 2021-05-14 |
CN112801693B true CN112801693B (zh) | 2024-06-28 |
Family
ID=75810212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110063979.7A Active CN112801693B (zh) | 2021-01-18 | 2021-01-18 | 基于高价值用户的广告特征分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801693B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113282857B (zh) * | 2021-07-22 | 2021-12-07 | 北京明略软件系统有限公司 | 一种投放点位贡献度的确定方法、装置及可读存储介质 |
CN113592557A (zh) * | 2021-08-03 | 2021-11-02 | 北京有竹居网络技术有限公司 | 广告投放结果的归因方法、装置、存储介质及电子设备 |
CN114022183A (zh) * | 2021-10-08 | 2022-02-08 | 百果园技术(新加坡)有限公司 | 广告信息归因方法、系统、设备和存储介质 |
CN116364178B (zh) * | 2023-04-18 | 2024-01-30 | 哈尔滨星云生物信息技术开发有限公司 | 一种体细胞序列数据分类方法及相关设备 |
CN118014661B (zh) * | 2024-02-02 | 2024-07-02 | 广州多游信息技术有限公司 | 一种基于大数据的广告投放管理系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222894A (zh) * | 2019-06-06 | 2019-09-10 | 阿里巴巴集团控股有限公司 | 广告投放方法、装置及设备 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120310728A1 (en) * | 2011-06-02 | 2012-12-06 | Jeremy Kagan | Buy-side advertising factors optimization |
CN102663616A (zh) * | 2012-03-19 | 2012-09-12 | 北京国双科技有限公司 | 一种基于多触点归因模型的网络广告效果衡量方法和系统 |
JP5475829B2 (ja) * | 2012-05-18 | 2014-04-16 | ヤフー株式会社 | 情報処理装置、貢献度算出方法及び貢献度算出プログラム |
US20130325584A1 (en) * | 2012-06-04 | 2013-12-05 | David Taylor Bogaty | Methods and systems for attributing changes in an advertising metric of interest to other advertising metrics |
US20140236705A1 (en) * | 2013-02-15 | 2014-08-21 | Turn Inc. | Method and apparatus for data-driven multi-touch attribution determination in multichannel advertising campaigns |
US10672035B1 (en) * | 2013-03-15 | 2020-06-02 | Verizon Media Inc. | Systems and methods for optimizing advertising spending using a user influenced advertisement policy |
WO2015079460A1 (en) * | 2013-11-28 | 2015-06-04 | Gupta Lucky | System for computing contribution and providing appropriate incentives |
US20150161659A1 (en) * | 2013-12-05 | 2015-06-11 | Optimine Software, Inc. | Systems and methods for assessing the cross-channel value of media advertising |
WO2017210786A1 (en) * | 2016-06-06 | 2017-12-14 | B3Intelligence Ltd. | Method and system for predictive modelling in advertising campaigns |
JP6502445B2 (ja) * | 2017-09-07 | 2019-04-17 | ヤフー株式会社 | 決定装置、決定方法及び決定プログラム |
CN107657486A (zh) * | 2017-10-19 | 2018-02-02 | 厦门美柚信息科技有限公司 | 一种广告投放方法及装置 |
CN107657488A (zh) * | 2017-10-19 | 2018-02-02 | 厦门美柚信息科技有限公司 | 基于广告匹配的广告投放处理方法及装置 |
CN108388974A (zh) * | 2018-01-11 | 2018-08-10 | 国网山东省电力公司 | 基于随机森林和决策树的优质客户优化识别方法及装置 |
CN109615411A (zh) * | 2018-10-29 | 2019-04-12 | 中国平安人寿保险股份有限公司 | 基于算法模型的广告投放方法及装置、电子设备 |
CN109784978A (zh) * | 2018-12-19 | 2019-05-21 | 平安科技(深圳)有限公司 | 基于大数据的广告竞争力计算方法、装置、介质及设备 |
CN110097395B (zh) * | 2019-03-27 | 2023-05-26 | 平安科技(深圳)有限公司 | 定向广告投放方法、装置及计算机可读存储介质 |
CN110163683B (zh) * | 2019-05-24 | 2020-04-14 | 北京乐信圣文科技有限责任公司 | 价值用户关键指标确定方法、广告投放方法及装置 |
CN110570232B (zh) * | 2019-08-05 | 2023-07-28 | 科大讯飞股份有限公司 | 互联网广告投放方法、装置、服务器及存储介质 |
CN111242687A (zh) * | 2020-01-13 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 一种广告数据分析方法、装置、电子设备及存储介质 |
CN111242700A (zh) * | 2020-02-15 | 2020-06-05 | 晓推(武汉)信息科技有限公司 | 广告的预测点击率获取方法、装置、电子设备和存储介质 |
CN112070564B (zh) * | 2020-11-10 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 广告拉取方法、装置、系统与电子设备 |
-
2021
- 2021-01-18 CN CN202110063979.7A patent/CN112801693B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222894A (zh) * | 2019-06-06 | 2019-09-10 | 阿里巴巴集团控股有限公司 | 广告投放方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112801693A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112801693B (zh) | 基于高价值用户的广告特征分析方法及系统 | |
CN113626719B (zh) | 信息推荐方法、装置、设备、存储介质及计算机程序产品 | |
CN109190043B (zh) | 推荐方法及装置,存储介质,电子设备及推荐系统 | |
CN111797321B (zh) | 一种面向不同场景的个性化知识推荐方法及系统 | |
WO2019029046A1 (zh) | 一种视频推荐方法及系统 | |
CN109543840B (zh) | 一种基于多维分类强化学习的动态推荐系统设计方法 | |
CN111859149A (zh) | 资讯信息推荐方法、装置、电子设备及存储介质 | |
CN104778173A (zh) | 目标用户确定方法、装置及设备 | |
CN112417294B (zh) | 一种基于神经网络挖掘模型的业务智能推荐方法 | |
CN111177559B (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
CN114418035A (zh) | 决策树模型生成方法、基于决策树模型的数据推荐方法 | |
CN108804577B (zh) | 一种资讯标签兴趣度的预估方法 | |
CN111737418A (zh) | 搜索词和商品的相关性预测方法、设备和存储介质 | |
CN107633257A (zh) | 数据质量评估方法及装置、计算机可读存储介质、终端 | |
US20160086086A1 (en) | Multi-media content-recommender system that learns how to elicit user preferences | |
CN113469752A (zh) | 内容推荐方法、装置、存储介质及电子设备 | |
EP4116884A2 (en) | Method and apparatus for training tag recommendation model, and method and apparatus for obtaining tag | |
CN113420165B (zh) | 二分类模型的训练、多媒体数据的分类方法及装置 | |
CN115858911A (zh) | 信息推荐方法、装置、电子设备及计算机可读存储介质 | |
Hwang et al. | Data imputation using a trust network for recommendation | |
CN112541010A (zh) | 一种基于逻辑回归的用户性别预测方法 | |
CN113095084B (zh) | 一种物联网中语义服务匹配方法、装置及存储介质 | |
CN114298118B (zh) | 一种基于深度学习的数据处理方法、相关设备及存储介质 | |
CN109933741A (zh) | 用户网络行为特征提取方法、装置及存储介质 | |
CN114328992A (zh) | 多媒体信息推荐方法、装置、程序产品、设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |