CN111325353A - 训练数据集的贡献度计算方法、装置、设备及存储介质 - Google Patents
训练数据集的贡献度计算方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111325353A CN111325353A CN202010123970.6A CN202010123970A CN111325353A CN 111325353 A CN111325353 A CN 111325353A CN 202010123970 A CN202010123970 A CN 202010123970A CN 111325353 A CN111325353 A CN 111325353A
- Authority
- CN
- China
- Prior art keywords
- training data
- data set
- shap
- calculating
- contribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种训练数据集的贡献度计算方法、装置、设备及存储介质,涉及金融科技领域,该方法包括步骤:获取训练机器学习模型的各训练数据集;计算所述训练数据集中各个特征的沙普利可加性模型解释方法SHAP目标值;根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度。本发明实现了通过训练数据集中各个特征的SHAP目标值对应计算得到各训练数据集的贡献度,以通过各训练数据集的贡献度来评价各训练数据集在训练机器学习模型过程中的重要度,以便于更准确地选择训练机器学习模型的训练数据集,从而提高训练所得机器学习模型对数据预测的准确率。
Description
技术领域
本发明涉及金融科技(Fintech)的数据处理技术领域,尤其涉及一种训练数据集的贡献度计算方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,数据处理技术也不例外,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。
数据对于机器学习建模非常重要,一份高质量的数据,有助于提升机器学习模型的性能,进而提升业务收益或者降低运营成本。在机器学习的大规模实践部署过程中,越来越凸显出数据的价值,数据逐渐演变成一种资产。随着信息技术、互联网和大数据等技术的发展普及,各行各业都积累了很多数据,为机器学习建模提供更多的数据选择空间。在实际建模过程中,业务人员经常会用到来自不同供应商、不同类别的数据,各方数据集中包含的特征有差别,对机器学习模型性能的贡献度也不一样。数据集的贡献程度不仅有利于理解模型,在数据集交易时,也可以作为数据定价的一种参考指标。甲方愿意为贡献度高的数据集花更多的成本,乙方也会对高贡献度的数据索要更高的价格。
当前有训练数据集中单个特征的重要性的计算方法,但是没有对于多方数据建模时,评价各方训练数据集重要程度的方法。因此,如何计算各方训练数据集的贡献度是亟待解决的问题。
发明内容
本发明的主要目的在于提供一种训练数据集的贡献度计算方法、装置、设备及存储介质,旨在解决现有的如何计算各方训练数据集的贡献度的技术问题。
为实现上述目的,本发明提供一种训练数据集的贡献度计算方法,所述训练数据集的贡献度计算方法包括步骤:
获取训练机器学习模型的各训练数据集;
计算所述训练数据集中各个特征的沙普利可加性模型解释方法SHAP目标值;
根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度。
优选地,所述计算所述训练数据集中各个特征的SHAP目标值的步骤包括:
计算所述训练数据集中各个特征对应的SHAP值,计算各个特征对应的SHAP值的绝对值,得到各个特征对应的SHAP绝对值;
将所述训练数据集中各个特征确定为目标特征,根据所述目标特征在不同训练数据集中的SHAP绝对值得到所述目标特征对应的SHAP目标值。
优选地,所述根据所述目标特征在不同训练数据集中的SHAP绝对值得到所述目标特征对应的SHAP目标值的步骤包括:
确定所述目标特征在不同训练数据集中的SHAP绝对值,计算所述目标特征在不同训练数据集中SHAP绝对值对应的SHAP平均值;
将所述SHAP平均值确定为所述目标特征对应的SHAP目标值。
优选地,所述计算所述训练数据集中各个特征对应的SHAP值的步骤包括:
计算所述训练数据集中各个特征对应的边际收益期望;
根据所述边际收益期望计算各所述边际收益期望对应特征的SHAP值,以得到所述训练数据集中各个特征对应的SHAP值。
优选地,所述根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度的步骤包括:
确定所述训练数据集中各个特征的SHAP目标值,以及确定各个特征所在训练数据集的数据集个数;
根据所述训练数据集中各个特征对应的所述SHAP目标值和所述数据集个数,计算所述训练数据集的贡献度。
优选地,所述根据所述训练数据集中各个特征对应的所述SHAP目标值和所述数据集个数,计算所述训练数据集的贡献度的步骤包括:
计算所述训练数据集中各个特征对应的所述SHAP目标值与所述数据集个数之间的商值;
将所述训练数据集中各个特征对应商值相加,得到所述训练数据集的贡献度。
优先地,所述根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度的步骤之后,还包括:
根据各训练数据集的贡献度选择训练所述机器学习模型的目标训练数据集;
将所述目标训练数据集输入所述机器学习模型中,以训练所述机器学习模型。
此外,为实现上述目的,本发明还提供一种训练数据集的贡献度计算装置,所述训练数据集的贡献度计算装置包括:
获取模块,用于获取训练机器学习模型的各训练数据集;
计算模块,用于计算所述训练数据集中各个特征的沙普利可加性模型解释方法SHAP目标值;根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度。
此外,为实现上述目的,本发明还提供一种训练数据集的贡献度计算设备,所述训练数据集的贡献度计算设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的训练数据集的贡献度计算程序,所述训练数据集的贡献度计算程序被所述处理器执行时实现如联邦学习服务器对应的训练数据集的贡献度计算方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有训练数据集的贡献度计算程序,所述训练数据集的贡献度计算程序被处理器执行时实现如上所述的训练数据集的贡献度计算方法的步骤。
本发明通过在获取到训练机器学习模型的各个训练数据集后,计算训练数据集中各个特征的SHAP目标值,根据训练数据集中各个特征的SHAP目标值对应计算各训练数据集的贡献度,实现了通过训练数据集中各个特征的SHAP目标值对应计算得到各训练数据集的贡献度,以通过各训练数据集的贡献度来评价各训练数据集在训练机器学习模型过程中的重要度,以便于更准确地选择训练机器学习模型的训练数据集,从而提高训练所得机器学习模型对数据预测的准确率。
附图说明
图1是本发明训练数据集的贡献度计算方法第一实施例的流程示意图;
图2是本发明训练数据集的贡献度计算方法第二实施例的流程示意图;
图3是本发明训练数据集的贡献度计算装置较佳实施例的功能示意图模块图;
图4是本发明实施例方案涉及的硬件运行环境的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种训练数据集的贡献度计算方法,参照图1,图1为本发明训练数据集的贡献度计算方法第一实施例的流程示意图。
本发明实施例提供了训练数据集的贡献度计算方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
训练数据集的贡献度计算方法应用于服务器或者终端中,终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)等移动终端,以及诸如数字TV、台式计算机等固定终端。在训练数据集的贡献度计算方法的各个实施例中,为了便于描述,省略执行主体进行阐述各个实施例。训练数据集的贡献度计算方法包括:
步骤S10,获取训练机器学习模型的各训练数据集。
获取训练机器学习模型的各训练数据集。在本实施例中,可在接收到训练机器学习模型的训练指令时获取各训练数据集,该训练指令可为用户根据需要而触发的,也可为预先设置好的定时任务定时触发的,其中,定时任务对应的时长可根据具体需要而设置。机器学习模型包括但不限于线性回归模型、逻辑回归模型、树模型和随机森林模型,用户可根据具体需要选择何种具体的机器学习模型。线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。线性回归能够用一个直线较为精确地描述数据之间的关系,这样当出现新的数据的时候,就能够预测出一个简单的值。随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。
在本实施例中,训练数据集是从不同终端中获取的,该不同终端可为同一类型终端,也可为不同类型终端,如可为银行终端,也可为购物终端等。本实施例不限制所获取的训练数据集的个数,如可5个,10个或者16个等。一个训练数据集可对应一种类型终端,也可为多个训练数据集对应一种类型终端。在各个训练数据集中,所包括的样本数据的数量可能相同,也可能不相同,每一样本数据对应至少一个特征。如某个样本数据包括年龄、性别和收入3个特征。同一个特征可存在多个训练数据集中,也可只存在一个训练数据集中。
进一步地,所需获取的各个训练数据集可预先存储在数据库中,当需要获取时,可从数据库中获取。也可以在需要获取时,从生成该训练数据集的终端中获取。
步骤S20,计算所述训练数据集中各个特征的沙普利可加性模型解释方法SHAP目标值。
当获取到训练机器学习模型的各个训练数据集后,计算训练数据集中各个特征的SHAP(SHapley Additive exPlanations,沙普利可加性模型解释方法)目标值。需要说明的是,在训练数据集中,每个特征都存在对应的SHAP目标值。
进一步地,步骤S20包括:
步骤a,计算所述训练数据集中各个特征对应的SHAP值,计算各个特征对应的SHAP值的绝对值,得到各个特征对应的SHAP绝对值。
在得到各个训练数据集后,计算训练数据集中各个特征对应的SHAP值。需要说明的是,由于某些特征对应的SHAP值为负值,因此为了降低负值对后续计算各个训练数据集贡献度的影响,在得到各个特征对应的SHAP值后,计算各个特征对应SHAP值的绝对值,得到各个特征对应的SHAP绝对值,即将各个特征对应SHAP值的绝对值确定为SHAP绝对值。
进一步地,所述计算所述训练数据集中各个特征对应的SHAP值的步骤包括:
步骤a1,计算所述训练数据集中各个特征对应的边际收益期望。
进一步地,计算训练数据集中各个特征对应的SHAP值的过程为:计算训练数据集中各个特征对应的边际收益期望,需要说明的是,在计算边际收益期望过程,是以1个训练数据集为单位。具体地,计算边际收益期望对应的公式如下所示:
其中,φi为边际收益期望,F为各个训练数据集中所有特征的集合,即F为某个训练数据集中所有特征的集合,F\{i}为F中剔除第i个特征后的剔除数据集,S为剔除数据集的一个子集,fs∪{i}(xs∪{i})为机器学习模型在S集合上的输出值,fs(xs)为S集并上特征i后在机器学习模型上的输出值,fs∪{i}(xs∪{i})和fs(xs)相减即可得到对应特征在当前情况下的边际效益,剔除的特征为第i个特征且剔除数据集为S占所有情况的概率,该概率为预设边际收益期望计算公式中带有阶乘符号的分式系数,即分式系数表示当前计算SHAP值的特征所在当前情况占所有情况的概率。
步骤a2,根据所述边际收益期望计算各所述边际收益期望对应特征的SHAP值,以得到所述训练数据集中各个特征对应的SHAP值。
当计算得到训练数据集中各个特征对应的边际收益期望后,根据边际收益期望计算各边际收益期望对应特征的SHAP值,以得到训练数据集中各个特征对应的SHAP值。需要说明的是,SHAP的目标是通过计算每个特性对预测的贡献来解释实例x的预测,理论基础为联盟博弈理论中计算Shapley值(SHAP值),样本实例的每个特征充当联盟中的参与者,Shapley值告诉我们如何在特性之间公平地分配“收益”(即对最终预测结果的贡献),参与分配的可以是样本的单个特征值,比如样本数据中的某个特征;也可以是一组特征值,例如,为了解释一幅图像,单个像素的SHAP值不能说明什么,但是眼部整体像素集的SHAP值可以解释模型的输出。在SHAP算法中,Shapley值解释被表示为一种加性特征属性方法,一种线性模型。
具体地,计算SHAP值的公式为:
其中,z’∈{0,1}表示样本特征是否参与到机器学习模型的建模,M表示训练数据集中特征的数量,如某个训练数据集中有15个特征,则M为15,Φ0表示机器学习模型偏置,Φj表示特征对机器学习模型预测结果的贡献度,也即,Φj为边际收益期望,g(z’)为SHAP值。
步骤b,将所述训练数据集中各个特征确定为目标特征,根据所述目标特征在不同训练数据集中的SHAP绝对值得到所述目标特征对应的SHAP目标值。
当得到各个训练数据集中,各个特征对应的SHAP绝对值后,将训练数据集中各个特征依次确定为目标特征。需要说明的是,某个特征可能存在多个训练数据集中,如若本实施例中获取了10个训练数据集,收入这个特征可能存在其中6个训练数据集中。在确定目标特征后,根据目标特征在不同训练数据集中的SHAP绝对值得到目标特征对应的SHAP目标值。需要说明的是,若某个目标特征存在7个训练数据集中,则在这7个训练数据集中,该目标特征都会存在对应的SHAP绝对值。
进一步地,所述根据所述目标特征在不同训练数据集中的SHAP绝对值得到所述目标特征对应的SHAP目标值的步骤包括:
步骤c,确定所述目标特征在不同训练数据集中的SHAP绝对值,计算所述目标特征在不同训练数据集中SHAP绝对值对应的SHAP平均值。
步骤d,将所述SHAP平均值确定为所述目标特征对应的SHAP目标值。
当确定目标特征后,确定目标特征在不同训练数据集中的SHAP绝对值。需要说明的是,同一个目标特征,在不同训练数据集中的SHAP绝对值可能相同,也可能不相同。在本实施例中,当目标特征存在某个训练数据集中时,该目标特征在该训练数据集中的SHAP绝对值不为零;当目标特征不存在某个训练数据集中时,该目标特征在该训练数据集中的SHAP绝对值为零。
当确定目标特征在不同训练数据集中的SHAP绝对值后,将该目标特征在不同训练数据集中的各个SHAP绝对值相加,得到目标特征对应的SHAP和值,然后计算目标特征对应SHAP绝对值不为零的SHAP绝对值个数,将SHAP和值除以SHAP绝对值个数,得到目标特征在不同训练数据集中SHAP绝对值对应的SHAP平均值,并将SHAP平均值确定为目标特征对应的SHAP目标值。
进一步地,在计算SHAP平均值过程中,可去掉SHAP绝对值中的最大值和最小值,计算去掉最大值和最下值的SHAP绝对值的平均值,得到目标特征在不同训练数据集中SHAP绝对值对应的SHAP平均值。
步骤S30,根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度。
当得到目标特征对应的SHAP目标值后,根据训练数据集中各个特征的SHAP目标值计算训练数据集的贡献度。
进一步地,步骤S30包括:
步骤e,确定所述训练数据集中各个特征的SHAP目标值,以及确定各个特征所在训练数据集的数据集个数。
步骤f,根据所述训练数据集中各个特征对应的所述SHAP目标值和所述数据集个数,计算所述训练数据集的贡献度。
进一步地,确定训练数据集中各个特征的SHAP目标值,以及确定各个特征所在训练数据集的数据集个数。如若A特征存在8个训练数据集中,则A特征对应的数据集个数为8。当得到各个特征对应数据集个数后,根据训练数据集中各个特征对应的SHAP目标值和数据集个数,计算各个特征对训练数据集的贡献度,然后将各个特征对训练数据集的贡献度总和确定为训练数据集的贡献度。如当某个训练数据集中有5个特征,根据这5个特征对应的SHAP目标值和所在的训练数据集的数据集个数计算得到对该训练数据集的贡献度分别为A1,A2,A3,A4和A5,则该训练数据集的贡献度为:A1+A2+A3+A4+A5。
进一步地,步骤f包括:
步骤f1,计算所述训练数据集中各个特征对应的所述SHAP目标值与所述数据集个数之间的商值。
步骤f2,将所述训练数据集中各个特征对应商值相加,得到所述训练数据集的贡献度。
具体地,计算训练数据集中各个特征对应的SHAP目标值与数据集个数之间的商值,将训练数据集中各个特征对应商值相加,得到训练数据集的贡献度。具体地,计算训练数据集的贡献度的公式如下所示:
其中,QSet-j表示某个训练数据集的贡献度,即表示某个训练数据集的整体贡献度;Qfi表示某个特征对应的SHAP目标值;Mfi表示该特征在多个训练数据集中出现过,即特征对应数据集个数;I(Qfi∈QSet-j)表示某个特征是否出现在Set-j训练数据集中,如果该特征出现在Set-j训练数据集,I(Qfi∈QSet-j)取值为1;如果该特征未出现在Set-j训练数据集,I(Qfi∈QSet-j)取值为0。
需要说明的是,当某个特征只出现在一个训练数据集中时,该训练数据集独享该特征的SHAP目标值;当某个特征出现在至少两个训练数据集中时,则这至少两个训练数据集需要共享该特征的SHAP目标值。
本实施例通过在获取到训练机器学习模型的各个训练数据集后,计算训练数据集中各个特征的SHAP目标值,根据训练数据集中各个特征的SHAP目标值对应计算各训练数据集的贡献度,实现了通过训练数据集中各个特征的SHAP目标值对应计算得到各训练数据集的贡献度,以通过各训练数据集的贡献度来评价各训练数据集在训练机器学习模型过程中的重要度,以便于更准确地选择训练机器学习模型的训练数据集,从而提高训练所得机器学习模型对数据预测的准确率。
进一步地,提出本发明训练数据集的贡献度计算方法第二实施例。所述训练数据集的贡献度计算方法第二实施例与所述训练数据集的贡献度计算方法第一实施例的区别在于,参照图2,所述训练数据集的贡献度计算方法还包括:
步骤S40,根据各训练数据集的贡献度选择训练所述机器学习模型的目标训练数据集。
当得到各个训练数据集的贡献度后,根据各个训练数据集的贡献度选择机器学习模型的目标训练数据集。具体地,可对比各个训练数据集的贡献度,选择贡献度最大的训练数据集作为目标训练数据集,也可选择贡献度排在前3的3个训练数据集作为目标训练数据集,或者在贡献度最大的训练数据集中,以及在贡献度排第二的训练数据集中各选取一部分数据构成目标训练数据集。具体如何根据各个训练数据集的贡献度,用户可以根据具体需要而设置。
步骤S50,将所述目标训练数据集输入所述机器学习模型中,以训练所述机器学习模型。
当确定目标训练数据集后,将目标训练数据集输入到机器学习模型中,以训练机器学习模型。进一步地,在确定各个训练数据集的贡献度后,也可将各个训练数据集的贡献度发送给业务人员对应终端。当该终端接收到各个训练数据集的贡献度后,终端输出各个训练数据集的贡献度,以便于业务人员根据各个训练数据集的贡献度挑选训练数据集的供应商,且便于业务人员在数据交易时评估各个训练数据集所能带来的效益价值。如优先挑选贡献度大的训练数据集,将贡献度大的训练数据集定价高一些,贡献度小的训练数据集定价低一点。
本实施例通过根据训练数据集的贡献度训练机器学习模型的目标训练数据集,将目标训练数据集输入机器学习模型中,以训练机器学习模型,从而提高了训练所得的机器学习模型对数据预测的准确率。
此外,本发明还提供一种训练数据集的贡献度计算装置,参照图3,所述训练数据集的贡献度计算装置包括:
获取模块10,用于获取训练机器学习模型的各训练数据集;
计算模块20,用于计算所述训练数据集中各个特征的沙普利可加性模型解释方法SHAP目标值;根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度。
进一步地,所述计算模块20包括:
第一计算单元,用于计算所述训练数据集中各个特征对应的SHAP值,计算各个特征对应的SHAP值的绝对值,得到各个特征对应的SHAP绝对值;
第一确定单元,用于将所述训练数据集中各个特征确定为目标特征,根据所述目标特征在不同训练数据集中的SHAP绝对值得到所述目标特征对应的SHAP目标值。
进一步地,所述第一确定单元包括:
确定子单元,用于确定所述目标特征在不同训练数据集中的SHAP绝对值;
计算子单元,用于计算所述目标特征在不同训练数据集中SHAP绝对值对应的SHAP平均值;
所述确定子单元还用于将所述SHAP平均值确定为所述目标特征对应的SHAP目标值。
进一步地,所述第一计算单元还用于计算所述训练数据集中各个特征对应的边际收益期望;根据所述边际收益期望计算各所述边际收益期望对应特征的SHAP值,以得到所述训练数据集中各个特征对应的SHAP值。
进一步地,所述计算模块20还包括:
第二确定单元,用于确定所述训练数据集中各个特征的SHAP目标值,以及确定各个特征所在训练数据集的数据集个数;
第二计算单元,用于根据所述训练数据集中各个特征对应的所述SHAP目标值和所述数据集个数,计算所述训练数据集的贡献度。
进一步地,所述第二计算单元还用于计算所述训练数据集中各个特征对应的所述SHAP目标值与所述数据集个数之间的商值;将所述训练数据集中各个特征对应商值相加,得到所述训练数据集的贡献度。
进一步地,所述训练数据集的贡献度计算装置还包括:
选择模块,用于根据各训练数据集的贡献度选择训练所述机器学习模型的目标训练数据集;
输入模块,用于将所述目标训练数据集输入所述机器学习模型中,以训练所述机器学习模型。
本发明训练数据集的贡献度计算装置具体实施方式与上述训练数据集的贡献度计算方法各实施例基本相同,在此不再赘述。
此外,本发明还提供一种训练数据集的贡献度计算设备。如图4所示,图4是本发明实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图4即可为训练数据集的贡献度计算设备的硬件运行环境的结构示意图。本发明实施例训练数据集的贡献度计算设备可以是PC,便携计算机等终端设备。
如图4所示,该训练数据集的贡献度计算设备可以包括:处理器1001,例如CPU,存储器1005,用户接口1003,网络接口1004,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图4中示出的训练数据集的贡献度计算设备结构并不构成对训练数据集的贡献度计算设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及训练数据集的贡献度计算程序。其中,操作系统是管理和控制训练数据集的贡献度计算设备硬件和软件资源的程序,支持训练数据集的贡献度计算程序以及其它软件或程序的运行。
在图4所示的训练数据集的贡献度计算设备中,用户接口1003主要用于连接其它终端,与其它终端进行数据通信,如从其他终端获取训练数据集;网络接口1004主要用于后台服务器,与后台服务器进行数据通信;处理器1001可以用于调用存储器1005中存储的训练数据集的贡献度计算程序,并执行如上所述的训练数据集的贡献度计算方法的步骤。
本发明训练数据集的贡献度计算设备具体实施方式与上述训练数据集的贡献度计算方法各实施例基本相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有训练数据集的贡献度计算程序,所述训练数据集的贡献度计算程序被处理器执行时实现如上所述的训练数据集的贡献度计算方法的步骤。
本发明计算机可读存储介质具体实施方式与上述训练数据集的贡献度计算方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种训练数据集的贡献度计算方法,其特征在于,所述训练数据集的贡献度计算方法包括以下步骤:
获取训练机器学习模型的各训练数据集;
计算所述训练数据集中各个特征的沙普利可加性模型解释方法SHAP目标值;
根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度。
2.如权利要求1所述的训练数据集的贡献度计算方法,其特征在于,所述计算所述训练数据集中各个特征的SHAP目标值的步骤包括:
计算所述训练数据集中各个特征对应的SHAP值,计算各个特征对应的SHAP值的绝对值,得到各个特征对应的SHAP绝对值;
将所述训练数据集中各个特征确定为目标特征,根据所述目标特征在不同训练数据集中的SHAP绝对值得到所述目标特征对应的SHAP目标值。
3.如权利要求2所述的训练数据集的贡献度计算方法,其特征在于,所述根据所述目标特征在不同训练数据集中的SHAP绝对值得到所述目标特征对应的SHAP目标值的步骤包括:
确定所述目标特征在不同训练数据集中的SHAP绝对值,计算所述目标特征在不同训练数据集中SHAP绝对值对应的SHAP平均值;
将所述SHAP平均值确定为所述目标特征对应的SHAP目标值。
4.如权利要求2所述的训练数据集的贡献度计算方法,其特征在于,所述计算所述训练数据集中各个特征对应的SHAP值的步骤包括:
计算所述训练数据集中各个特征对应的边际收益期望;
根据所述边际收益期望计算各所述边际收益期望对应特征的SHAP值,以得到所述训练数据集中各个特征对应的SHAP值。
5.如权利要求1所述的训练数据集的贡献度计算方法,其特征在于,所述根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度的步骤包括:
确定所述训练数据集中各个特征的SHAP目标值,以及确定各个特征所在训练数据集的数据集个数;
根据所述训练数据集中各个特征对应的所述SHAP目标值和所述数据集个数,计算所述训练数据集的贡献度。
6.如权利要求5所述的训练数据集的贡献度计算方法,其特征在于,所述根据所述训练数据集中各个特征对应的所述SHAP目标值和所述数据集个数,计算所述训练数据集的贡献度的步骤包括:
计算所述训练数据集中各个特征对应的所述SHAP目标值与所述数据集个数之间的商值;
将所述训练数据集中各个特征对应商值相加,得到所述训练数据集的贡献度。
7.如权利要求1至6任一项所述的训练数据集的贡献度计算方法,其特征在于,所述根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度的步骤之后,还包括:
根据各训练数据集的贡献度选择训练所述机器学习模型的目标训练数据集;
将所述目标训练数据集输入所述机器学习模型中,以训练所述机器学习模型。
8.一种训练数据集的贡献度计算装置,其特征在于,所述训练数据集的贡献度计算装置包括:
获取模块,用于获取训练机器学习模型的各训练数据集;
计算模块,用于计算所述训练数据集中各个特征的沙普利可加性模型解释方法SHAP目标值;根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度。
9.一种训练数据集的贡献度计算设备,其特征在于,所述训练数据集的贡献度计算设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的训练数据集的贡献度计算程序,所述训练数据集的贡献度计算程序被所述处理器执行时实现如权利要求1至7任一项中所述的训练数据集的贡献度计算方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有训练数据集的贡献度计算程序,所述训练数据集的贡献度计算程序被处理器执行时实现如权利要求1至7任一项所述的训练数据集的贡献度计算方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010123970.6A CN111325353A (zh) | 2020-02-28 | 2020-02-28 | 训练数据集的贡献度计算方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010123970.6A CN111325353A (zh) | 2020-02-28 | 2020-02-28 | 训练数据集的贡献度计算方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111325353A true CN111325353A (zh) | 2020-06-23 |
Family
ID=71172957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010123970.6A Pending CN111325353A (zh) | 2020-02-28 | 2020-02-28 | 训练数据集的贡献度计算方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325353A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111784506A (zh) * | 2020-07-01 | 2020-10-16 | 深圳前海微众银行股份有限公司 | 逾期风险控制方法、设备及可读存储介质 |
CN111932018A (zh) * | 2020-08-13 | 2020-11-13 | 中国工商银行股份有限公司 | 银行业务绩效贡献信息预测方法及装置 |
CN111959518A (zh) * | 2020-08-14 | 2020-11-20 | 北京嘀嘀无限科技发展有限公司 | 数据处理方法、装置及设备 |
CN112101528A (zh) * | 2020-09-17 | 2020-12-18 | 上海交通大学 | 基于反向传播的终端贡献度量方法 |
CN112784986A (zh) * | 2021-02-08 | 2021-05-11 | 中国工商银行股份有限公司 | 深度学习计算结果的特征解释方法、装置、设备及介质 |
CN113111977A (zh) * | 2021-05-20 | 2021-07-13 | 润联软件系统(深圳)有限公司 | 训练样本的贡献度评价方法、装置及相关设备 |
CN113240527A (zh) * | 2021-06-03 | 2021-08-10 | 厦门太也网络科技有限公司 | 基于可解释机器学习的债券市场违约风险预警方法 |
CN113297593A (zh) * | 2021-05-14 | 2021-08-24 | 同盾控股有限公司 | 基于隐私计算的贡献度计算方法及装置、设备、介质 |
CN113592557A (zh) * | 2021-08-03 | 2021-11-02 | 北京有竹居网络技术有限公司 | 广告投放结果的归因方法、装置、存储介质及电子设备 |
CN113657996A (zh) * | 2021-08-26 | 2021-11-16 | 深圳市洞见智慧科技有限公司 | 一种联邦学习中特征贡献度的确定方法、装置及电子设备 |
CN114021918A (zh) * | 2021-10-26 | 2022-02-08 | 江苏苏宁银行股份有限公司 | 一种基于模型的理由代码实时模型解释方法 |
CN114418132A (zh) * | 2021-12-27 | 2022-04-29 | 海信集团控股股份有限公司 | 家庭健康管理模型的使用与训练方法 |
CN114664382A (zh) * | 2022-04-28 | 2022-06-24 | 中国人民解放军总医院 | 多组学联合分析方法、装置及计算设备 |
CN115099540A (zh) * | 2022-08-25 | 2022-09-23 | 中国工业互联网研究院 | 基于人工智能的碳中和处理方法 |
CN115358348A (zh) * | 2022-10-19 | 2022-11-18 | 成都数之联科技股份有限公司 | 一种车辆直通率影响特征确定方法、装置、设备及介质 |
WO2023082969A1 (zh) * | 2021-11-11 | 2023-05-19 | 重庆邮电大学 | 基于夏普利值的数据特征组合定价方法、系统及电子设备 |
CN117273670A (zh) * | 2023-11-23 | 2023-12-22 | 深圳市云图华祥科技有限公司 | 一种具有学习功能的工程资料管理系统 |
CN117435580A (zh) * | 2023-12-21 | 2024-01-23 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种数据库参数筛选方法及相关设备 |
-
2020
- 2020-02-28 CN CN202010123970.6A patent/CN111325353A/zh active Pending
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111784506A (zh) * | 2020-07-01 | 2020-10-16 | 深圳前海微众银行股份有限公司 | 逾期风险控制方法、设备及可读存储介质 |
CN111932018B (zh) * | 2020-08-13 | 2023-09-19 | 中国工商银行股份有限公司 | 银行业务绩效贡献信息预测方法及装置 |
CN111932018A (zh) * | 2020-08-13 | 2020-11-13 | 中国工商银行股份有限公司 | 银行业务绩效贡献信息预测方法及装置 |
CN111959518A (zh) * | 2020-08-14 | 2020-11-20 | 北京嘀嘀无限科技发展有限公司 | 数据处理方法、装置及设备 |
CN112101528A (zh) * | 2020-09-17 | 2020-12-18 | 上海交通大学 | 基于反向传播的终端贡献度量方法 |
CN112101528B (zh) * | 2020-09-17 | 2023-10-24 | 上海交通大学 | 基于反向传播的终端贡献度量方法 |
CN112784986A (zh) * | 2021-02-08 | 2021-05-11 | 中国工商银行股份有限公司 | 深度学习计算结果的特征解释方法、装置、设备及介质 |
CN113297593A (zh) * | 2021-05-14 | 2021-08-24 | 同盾控股有限公司 | 基于隐私计算的贡献度计算方法及装置、设备、介质 |
CN113111977A (zh) * | 2021-05-20 | 2021-07-13 | 润联软件系统(深圳)有限公司 | 训练样本的贡献度评价方法、装置及相关设备 |
CN113240527A (zh) * | 2021-06-03 | 2021-08-10 | 厦门太也网络科技有限公司 | 基于可解释机器学习的债券市场违约风险预警方法 |
CN113592557A (zh) * | 2021-08-03 | 2021-11-02 | 北京有竹居网络技术有限公司 | 广告投放结果的归因方法、装置、存储介质及电子设备 |
CN113657996A (zh) * | 2021-08-26 | 2021-11-16 | 深圳市洞见智慧科技有限公司 | 一种联邦学习中特征贡献度的确定方法、装置及电子设备 |
CN114021918A (zh) * | 2021-10-26 | 2022-02-08 | 江苏苏宁银行股份有限公司 | 一种基于模型的理由代码实时模型解释方法 |
WO2023082969A1 (zh) * | 2021-11-11 | 2023-05-19 | 重庆邮电大学 | 基于夏普利值的数据特征组合定价方法、系统及电子设备 |
CN114418132A (zh) * | 2021-12-27 | 2022-04-29 | 海信集团控股股份有限公司 | 家庭健康管理模型的使用与训练方法 |
CN114664382B (zh) * | 2022-04-28 | 2023-01-31 | 中国人民解放军总医院 | 多组学联合分析方法、装置及计算设备 |
CN114664382A (zh) * | 2022-04-28 | 2022-06-24 | 中国人民解放军总医院 | 多组学联合分析方法、装置及计算设备 |
CN115099540B (zh) * | 2022-08-25 | 2022-11-08 | 中国工业互联网研究院 | 基于人工智能的碳中和处理方法 |
CN115099540A (zh) * | 2022-08-25 | 2022-09-23 | 中国工业互联网研究院 | 基于人工智能的碳中和处理方法 |
CN115358348A (zh) * | 2022-10-19 | 2022-11-18 | 成都数之联科技股份有限公司 | 一种车辆直通率影响特征确定方法、装置、设备及介质 |
CN117273670A (zh) * | 2023-11-23 | 2023-12-22 | 深圳市云图华祥科技有限公司 | 一种具有学习功能的工程资料管理系统 |
CN117273670B (zh) * | 2023-11-23 | 2024-03-12 | 深圳市云图华祥科技有限公司 | 一种具有学习功能的工程资料管理系统 |
CN117435580A (zh) * | 2023-12-21 | 2024-01-23 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种数据库参数筛选方法及相关设备 |
CN117435580B (zh) * | 2023-12-21 | 2024-03-22 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种数据库参数筛选方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325353A (zh) | 训练数据集的贡献度计算方法、装置、设备及存储介质 | |
US12067060B2 (en) | Automatic document negotiation | |
WO2020253357A1 (zh) | 数据产品推荐方法、装置、计算机设备和存储介质 | |
CN111552870A (zh) | 对象推荐方法、电子装置及存储介质 | |
US20150178134A1 (en) | Hybrid Crowdsourcing Platform | |
US11748452B2 (en) | Method for data processing by performing different non-linear combination processing | |
WO2018184548A1 (zh) | 保单的试报价方法、装置、终端设备及介质 | |
CN113947336A (zh) | 评估投标企业风险的方法、装置、存储介质及计算机设备 | |
CN115311676A (zh) | 审图方法、装置、计算机设备和存储介质 | |
CN113052246A (zh) | 用于训练分类模型及图像分类的方法和相关装置 | |
CN112785418B (zh) | 信贷风险建模方法、装置、设备及计算机可读存储介质 | |
CN108876422B (zh) | 用于信息推广的方法、装置、电子设备及计算机可读介质 | |
CN113327132A (zh) | 多媒体推荐方法、装置、设备及存储介质 | |
JP6489340B1 (ja) | 比較対象企業選定システム | |
CN114897607A (zh) | 产品资源的数据处理方法及装置、电子设备、存储介质 | |
CN113515701A (zh) | 信息推荐方法及装置 | |
CN113610385A (zh) | 能源企业商品评价结果获取方法、系统和计算机设备 | |
CN112307334A (zh) | 信息推荐方法、信息推荐装置、存储介质与电子设备 | |
CN111343265A (zh) | 信息推送方法、装置、设备及可读存储介质 | |
CN112949670B (zh) | 用于联邦学习模型的数据集切换方法和装置 | |
CN111897910A (zh) | 信息推送方法和装置 | |
US11972358B1 (en) | Contextually relevant content sharing in high-dimensional conceptual content mapping | |
US20240220902A1 (en) | Systems and methods for automatic handling of score revision requests | |
US20230042156A1 (en) | Systems and methods for valuation of a vehicle | |
JP7256669B2 (ja) | 情報処理装置、推定装置、分析装置、情報処理方法及びコンピュータープログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |