[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN115935817A - 一种基于扩散模型的快速模型生成方法 - Google Patents

一种基于扩散模型的快速模型生成方法 Download PDF

Info

Publication number
CN115935817A
CN115935817A CN202211550536.1A CN202211550536A CN115935817A CN 115935817 A CN115935817 A CN 115935817A CN 202211550536 A CN202211550536 A CN 202211550536A CN 115935817 A CN115935817 A CN 115935817A
Authority
CN
China
Prior art keywords
model
diffusion
target
gradient
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211550536.1A
Other languages
English (en)
Inventor
陈晋音
赵晓明
郭海峰
郑海斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202211550536.1A priority Critical patent/CN115935817A/zh
Publication of CN115935817A publication Critical patent/CN115935817A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

一种基于扩散模型的快速模型生成方法,包括:S1、确定目标模型;S2、训练扩散模型,通过扩散模型生成执行目标模型的输入查询,将扩散模型生成的数据输入目标模型中,对目标模型进行迭代查询;S3、使用零阶梯度估计不断更新扩散模型的梯度,优化扩散模型的参数,使生成数据拟合目标决策边界;S4、通过生成数据构建输入输出预测对,拟合目标模型决策边界,通过决策边界根据样本在特征空间的位置对该样本的类型进行预测,获取数据集的数据分布,构建虚拟数据集,训练快速生成模型。本发明不需要访问目标模型数据集以及目标模型的结构等,同时保证了模型生成的速度以及准确性。

Description

一种基于扩散模型的快速模型生成方法
技术领域
本发明涉及一种快速模型生成方法,尤其涉及一种基于扩散模型的快速模型生成方法。
背景技术
深度神经网络(DNN)在各种具有挑战性的计算机视觉任务中实现最先进性能的能力促使公司广泛采用这些模型,以实现各种产品和服务,如自动驾驶汽车、车牌读取、医学图像疾病诊断、图像和视频活动分类以及智能摄像头。
随着ML模型的性能随着训练数据的增长而增长,公司在收集大量数据以训练高性能ML模型方面投入了大量资金。保护这些模型的机密性对于公司保持竞争优势和防止被盗模型被对手滥用以损害安全和隐私至关重要。例如,攻击者可以使用窃取的模型来制作对抗性示例,通过成员身份推断攻击来危害用户成员身份隐私,并通过模型反转攻击来泄漏用于训练模型的敏感用户数据。因此,ML模型被认为是所有者的宝贵知识产权,并受到严密保护,防止被盗和数据泄露。随着近年来互联网的迅速发展,机器学习即服务(machinelearning as a service)也渐渐地流行起来,也把云服务提升到了一个新的水平。部署在云上的机器学习模型可以通过应用程序编程接口(API)为用户提供服务,提高生产率。这些云模型是密集劳动和金钱努力的产物,因此模型是有价值的知识产权。大厂为了训练模型,需要花费大量的时间、金钱、人力去收集处理数据,然后花费大量精力训练模型。针对云上的机器学习模型,用户可以通过提高的公共API访问经过良好训练的机器学习模型,通过MLaaS提供者,而无需从零开始构建模型。但是,目前还没有一个机器学习模型平台可以,快速生成所需目标模型,通过API进行访问,使用各种机器学习模型。针对目前还未有基于深度学习的快速生成机器学习模型的方法,因此急需一种新的快速模型生成方法,该方法通过克隆云上的机器学习模型,快速生成目标机器学习模型。
发明内容
针对现有技术不足,本发明提出了一种基于扩散模型的快速模型生成方法。
为解决上述技术问题,本发明的技术方案为:
本发明实施例的第一方面提供了基于扩散模型的快速模型生成方法,所述方法包括以下步骤:
S1、确定目标模型(分类模型)。
S2、训练扩散模型,通过扩散模型生成执行目标模型的输入查询(虚拟数据集),将扩散模型生成的数据输入目标模型中,对目标模型进行迭代查询;
S3、使用零阶梯度估计不断更新扩散模型的梯度,优化扩散模型的参数,使生成数据拟合目标决策边界;
S4、通过生成数据构建输入输出预测对,拟合目标模型决策边界,通过决策边界根据样本在特征空间的位置对该样本的类型进行预测,获取数据集的数据分布,构建虚拟数据集,训练快速生成模型。
本发明提出了一种基于扩散模型的快速模型生成方法,该方法首先选定目标模型,然后通过依靠扩散模型强大的生成能力不断生成数据,通过生成数据对目标模型进行输入查询获得输出概率,通过使用零阶梯度估计不断更新扩散模型的梯度,优化扩散模型的参数,实现拟合目标模型的决策边界,最大可能获得目标模型的数据分布,最后快速训练出目标模型。其主要思想就是利用扩散模型强大的生成能力的同时,通过不断迭代查询目标模型,获取其输出预测,拟合目标模型决策边界,得到其数据分布,最后生成模型。
本发明的有益效果为:对于现有生成模型方法需要花费大量时间与金钱,提出了一种基于扩散模型的快速模型生成方法。通过扩散模型强大的生成能力,将扩散模型生成的数据输入到目标模型中,将目标模型的输出预测与输入构建输入输出预测对,实现拟合目标模型决策边界,获取数据分布达到快速生成模型的效果。该方法不需要访问目标模型数据集以及目标模型的结构等,同时保证了模型生成的速度以及准确性。
附图说明
图1本发明方法的流程图;
图2是本发明的基于扩散模型生成数据模型。
具体实施方式
下面结合附图,对本发明进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
本发明的技术构思为:现有的生成模型方法需要花费大量的时间、金钱、人力去收集处理数据,然后花费大量精力训练模型,目前还没有一种快速生成模型的方法。因此本发明提出了一种基于扩散模型的快速模型生成方法,首先,通过扩散模型强大的生成能力,将生成的数据作为输入,对目标模型进行迭代查询。然后,将目标模型的输出预测与输入构建输入输出对,拟合目标模型的边界决策。通过决策边界对数据样本进行预测,获取其数据分布,最后训练快速模型。其主要思想就是依靠扩散模型的生成能力,通过输出预测的方式,拟合目标模型的决策边界,获取数据分布,达到快速生成模型的效果。
应用本发明提供一种基于扩散模型的快速模型生成方法的用户图像分类模型推荐方法,请参考图1和图2,所述方法包括以下步骤:
S1、确定目标模型。
具体为:在一种图像推荐的应用场景下,以图像分类模型平台EasyDL为例,生成模型的任务为目标用户图像喜好的进行分类,从而推荐对应类型的图像。各客户端以各种方式获取EasyDL图像分类平台相关数据,输入图像信息,创建图像分类模型,最后快速生成图像分类模型,将图像推荐给用户。本发明提供的方法是通过扩散模型生成样本数据,通过不断迭代查询目标模型得到模型的输出预测,通过拟合模型的决策边界获得其数据分布,因此要求目标模型是进行图像分类任务的机器学习模型。
S2、训练扩散模型生成输入查询。
扩散模型前向过程由于每个时刻t只与t-1时刻有关,所以可以看作马尔科夫过程,在马尔科夫链的前向采样过程中,也就是扩散过程中可以将数据转换为高斯分布。即扩散过程通过T次累积对输入数据xi添加高斯噪声,将这个跟马尔可夫假设相结合,于是可以对扩散过程表达成:
Figure BDA0003980829260000051
其中β1,…,βT是高斯分布方差的超参数。在扩散过程中,随着t的增大,xt越来越接近纯噪声。当T足够大的时候,xT可以收敛为标准高斯噪声N(0,I)。
在训练时候,模型学习逆扩散过程的概率分布,以生成新数据。
从纯高斯噪声
Figure BDA0003980829260000057
开始,模型将学习联合概率分布pθ(xT:0):
Figure BDA0003980829260000052
根据马尔可夫规则表示,逆扩散过程当前时间步t只取决于上一个时间步t-1,所以有:
Figure BDA0003980829260000053
训练扩散模型生成输入查询通过最大化
Figure BDA0003980829260000054
Figure BDA0003980829260000055
之间的KL差异,用于训练扩散模型的损失函数由以下方程确定:
Figure BDA0003980829260000056
在这个损失函数上训练扩散模型G可以最大限度地消除目标预测和生成模型之间的不一致。因为生成模型S和扩散模型G具有相反的目标,所以将这两个模型训练在一起会产生一个双人游戏,类似于生成对抗网络,从而产生最大化生成模型学习的输入。通过训练生成模型S匹配目标模型M对扩散模型G生成的查询的预测,可以进行知识蒸馏,得到一个高度精确的生成模型。
使用上式中的损失函数训练扩散模型G,需要通过目标模型M的预测进行反向传播,但是只有对目标模型M的黑盒访问,无法直接执行反向传播,从而阻止训练扩散模型G并执行生成模型。为了解决这个问题,使用零阶梯度估计来近似损失函数
Figure BDA0003980829260000061
的梯度。零阶梯度估计所需的黑盒查询的数量随着被优化的参数的位数而缩放,直接估计
Figure BDA0003980829260000062
相对于生成器参数θG的梯度是昂贵的,因为扩散模型有数百万个参数。因此,本发明选择对扩散模型产生的生成输入x的梯度进行估计,它的维数要低得多,并使用这个估计值对扩散模型G进行反向传播。这种修改允许本发明以查询高效的方式计算梯度估计来更新扩散模型。
S3、零阶梯度估计更新扩散模型参数。
零阶梯度估计是在黑盒设置下进行优化的常用技术。使用这种技术来训练扩散模型G。目标是使用梯度下降来更新扩散模型参数θG,以最小化损失函数
Figure BDA0003980829260000063
Figure BDA0003980829260000064
更新θG要求计算损失函数
Figure BDA0003980829260000071
通过使用链式法则,
Figure BDA0003980829260000072
可以分解成两个分量:
Figure BDA0003980829260000079
通过G执行反向传播来计算第二项,然而计算第一项x需要访问目标模型的模型参数,但是因为是黑盒设置,无法访问目标模型的模型参数。
通过利用零阶梯度估计来使用梯度的近似,考虑由G生成的输入向量x用于查询目标模型M。我们可以使用正向差分的方法来估计
Figure BDA0003980829260000073
Figure BDA0003980829260000074
其中ui是从d维单位球中提取的具有均匀概率的随机变量,x是一个叫做平滑因子的小正常数。
随机梯度估计,如上式所示,往往具有较高的方差。为了减少方差,使用随机梯度估计的平均值,通过使用m个随机方向u1,…,um计算前向差。
Figure BDA0003980829260000075
其中,
Figure BDA0003980829260000076
是对真实梯度
Figure BDA0003980829260000077
的估计,然后可以计算扩散模型G损失函数梯度的近似值。通过这种方法计算的梯度估计
Figure BDA0003980829260000078
可以更新扩散模型G的参数来进行梯度下降。通过更新扩散模型G,可以训练G执行生成模型所需的输入示例。
S4、训练生成模型。
生成模型使用扩散模型生成的输入查询进行训练。扩散模型G接受一个从随机正态分布中采样的低维潜在向量z,并生成一个与目标分类器的输入维数匹配的输入查询x。
然后用x得到目标模型
Figure BDA0003980829260000081
的输出概率,并在x上生成模型
Figure BDA0003980829260000082
Figure BDA0003980829260000083
θMSG分别代表目标、生成和扩散模型的参数。生成模型使用以下方程中的损失函数进行训练以最小化
Figure BDA0003980829260000084
Figure BDA0003980829260000085
之间的KL散度(相对熵)。
Figure BDA0003980829260000086
通过损失函数最小化目标模型和生成模型之间的KL散度。KL散度是用来衡量两个概率分布的相似性的一个度量指标,近似估计的概率分布和数据整体真实的概率分布的相似度,或者说差异程度。其定义如下所示:
Figure BDA0003980829260000087
利用KL散度,可以精确地计算出近似目标模型分布与生成模型分布时损失了多少信息,从而最大化对其目标模型,实现高精度生成模型。
不同数据集下不同方法下EasyDL图像分类模型平台上生成模型准确率如下表所示:
Figure BDA0003980829260000091
从结果可以看出,本发明提供的快速生成模型方法,对于不同数据集,以及与其他不同模型生成方法比较,对数据要求最低的场景下,能够为用户提高更精确地生成模型,从而实现为用户精准地生成图像分类模型。
S5、输入用户图像特征至模型,实现图像推荐。
当图像分类模型平台获取新的用户网络或是在原有网络的基础上增加新的图像特征时,根据用户需求,构建新的图像分类模型,进而快速生成图像分类模型,将图像推荐给用户。

Claims (5)

1.一种基于扩散模型的快速模型生成方法,包括如下步骤:
S1、确定目标模型(分类模型);
S2、训练扩散模型,通过扩散模型生成执行目标模型的输入查询(虚拟数据集),将扩散模型生成的数据输入目标模型中,对目标模型进行迭代查询;
S3、使用零阶梯度估计不断更新扩散模型的梯度,优化扩散模型的参数,使生成数据拟合目标决策边界;
S4、通过生成数据构建输入输出预测对,拟合目标模型决策边界,通过决策边界根据样本在特征空间的位置对该样本的类型进行预测,获取数据集的数据分布,构建虚拟数据集,训练快速生成模型。
2.如权利要求1所述的一种基于扩散模型的快速模型生成方法,其特征在于:步骤S1具体包括:
各客户端以各种方式获取EasyDL图像分类平台相关数据,输入图像信息,创建图像分类模型,最后快速生成图像分类模型,将图像推荐给用户;通过扩散模型生成样本数据,通过不断迭代查询目标模型得到模型的输出预测,通过拟合模型的决策边界获得其数据分布,因此目标模型是进行图像分类任务的机器学习模型。
3.如权利要求1所述的一种基于扩散模型的快速模型生成方法,其特征在于:步骤S2具体包括:
扩散模型前向过程由于每个时刻t只与t-1时刻有关,所以可以看作马尔科夫过程,在马尔科夫链的前向采样过程中,也就是扩散过程中可以将数据转换为高斯分布;即扩散过程通过T次累积对输入数据xi添加高斯噪声,将这个跟马尔可夫假设相结合,于是可以对扩散过程表达成:
Figure FDA0003980829250000021
其中β1,…,βT是高斯分布方差的超参数;在扩散过程中,随着t的增大,xt越来越接近纯噪声;当T足够大的时候,xT可以收敛为标准高斯噪声N(0,I);
在训练时候,模型学习逆扩散过程的概率分布,以生成新数据;
从纯高斯噪声p(xT):=N(xT;0,I)开始,模型将学习联合概率分布pθ(xT:0):
Figure FDA0003980829250000022
根据马尔可夫规则表示,逆扩散过程当前时间步t只取决于上一个时间步t-1,所以有:
pθ(xt-1|xt):=Ν(xt-1;μθ(xt,t),∑θ(xt,t)) (3)
训练扩散模型生成输入查询通过最大化
Figure FDA0003980829250000023
Figure FDA0003980829250000024
之间的KL差异,用于训练扩散模型的损失函数由以下方程确定:
Figure FDA0003980829250000025
在这个损失函数上训练扩散模型G可以最大限度地消除目标预测和生成模型之间的不一致;因为生成模型S和扩散模型G具有相反的目标,所以将这两个模型训练在一起会产生一个双人游戏,类似于生成对抗网络,从而产生最大化生成模型学习的输入;通过训练生成模型S匹配目标模型M对扩散模型G生成的查询的预测,可以进行知识蒸馏,得到一个高度精确的生成模型;
使用上式中的损失函数训练扩散模型G,需要通过目标模型M的预测进行反向传播,但是只有对目标模型M的黑盒访问,无法直接执行反向传播,从而阻止训练扩散模型G并执行生成模型;为了解决这个问题,使用零阶梯度估计来近似损失函数
Figure FDA0003980829250000031
的梯度;零阶梯度估计所需的黑盒查询的数量随着被优化的参数的位数而缩放,直接估计
Figure FDA0003980829250000032
相对于生成器参数θG的梯度是昂贵的,因为扩散模型有数百万个参数;因此,选择对扩散模型产生的生成输入x的梯度进行估计,它的维数要低得多,并使用这个估计值对扩散模型G进行反向传播。
4.如权利要求1所述的一种基于扩散模型的快速模型生成方法,其特征在于:步骤S3具体包括:
使用零阶梯度估计训练扩散模型G,目标是使用梯度下降来更新扩散模型参数θG,以最小化损失函数
Figure FDA0003980829250000033
Figure FDA0003980829250000034
更新θG要求计算损失函数
Figure FDA0003980829250000035
通过使用链式法则,
Figure FDA0003980829250000036
可以分解成两个分量:
Figure FDA0003980829250000037
通过G执行反向传播来计算第二项,然而计算第一项x需要访问目标模型的模型参数,但是因为是黑盒设置,无法访问目标模型的模型参数;
通过利用零阶梯度估计来使用梯度的近似,考虑由G生成的输入向量x用于查询目标模型M;我们可以使用正向差分的方法来估计
Figure FDA0003980829250000041
Figure FDA0003980829250000042
其中ui是从d维单位球中提取的具有均匀概率的随机变量,x是一个叫做平滑因子的小正常数;
随机梯度估计,如上式所示,往往具有较高的方差;为了减少方差,使用随机梯度估计的平均值,通过使用m个随机方向u1,…,um计算前向差;
Figure FDA0003980829250000043
其中,
Figure FDA0003980829250000044
是对真实梯度
Figure FDA0003980829250000045
的估计,然后可以计算扩散模型G损失函数梯度的近似值;通过这种方法计算的梯度估计
Figure FDA0003980829250000046
可以更新扩散模型G的参数来进行梯度下降;通过更新扩散模型G,可以训练G执行生成模型所需的输入示例。
5.如权利要求1所述的一种基于扩散模型的快速模型生成方法,其特征在于:步骤S4具体包括:
生成模型使用扩散模型生成的输入查询进行训练;扩散模型G接受一个从随机正态分布中采样的低维潜在向量z,并生成一个与目标分类器的输入维数匹配的输入查询x;
然后用x得到目标模型
Figure FDA0003980829250000051
的输出概率,并在x上生成模型
Figure FDA0003980829250000052
Figure FDA0003980829250000053
θMSG分别代表目标、生成和扩散模型的参数;生成模型使用以下方程中的损失函数进行训练以最小化
Figure FDA0003980829250000054
Figure FDA0003980829250000055
之间的KL散度(相对熵);
Figure FDA0003980829250000056
通过损失函数最小化目标模型和生成模型之间的KL散度;KL散度是用来衡量两个概率分布的相似性的一个度量指标,近似估计的概率分布和数据整体真实的概率分布的相似度,或者说差异程度;其定义如下所示:
Figure FDA0003980829250000057
利用KL散度,可以精确地计算出近似目标模型分布与生成模型分布时损失了多少信息,从而最大化对其目标模型,实现高精度生成模型。
CN202211550536.1A 2022-12-05 2022-12-05 一种基于扩散模型的快速模型生成方法 Withdrawn CN115935817A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211550536.1A CN115935817A (zh) 2022-12-05 2022-12-05 一种基于扩散模型的快速模型生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211550536.1A CN115935817A (zh) 2022-12-05 2022-12-05 一种基于扩散模型的快速模型生成方法

Publications (1)

Publication Number Publication Date
CN115935817A true CN115935817A (zh) 2023-04-07

Family

ID=86551641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211550536.1A Withdrawn CN115935817A (zh) 2022-12-05 2022-12-05 一种基于扩散模型的快速模型生成方法

Country Status (1)

Country Link
CN (1) CN115935817A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274732A (zh) * 2023-09-18 2023-12-22 广东石油化工学院 一种基于情景记忆驱动构建优化扩散模型的方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274732A (zh) * 2023-09-18 2023-12-22 广东石油化工学院 一种基于情景记忆驱动构建优化扩散模型的方法和系统

Similar Documents

Publication Publication Date Title
US11875488B2 (en) Method and device for parallel processing of retinal images
CN111127364B (zh) 图像数据增强策略选择方法及人脸识别图像数据增强方法
CN103262118A (zh) 属性值估计装置、属性值估计方法、程序和记录介质
Ganguly et al. An introduction to variational inference
US20200082154A1 (en) Computer vision neural network system
Chen et al. Generative inverse deep reinforcement learning for online recommendation
Nijkamp et al. Mcmc should mix: Learning energy-based model with neural transport latent space mcmc
Zhang et al. Variational Bayesian inference for robust streaming tensor factorization and completion
WO2022193469A1 (en) System and method for ai model watermarking
Nababan et al. Implementation of K-Nearest Neighbors (KNN) algorithm in classification of data water quality
Shu et al. Perf-al: Performance prediction for configurable software through adversarial learning
Wild et al. Connections and equivalences between the Nyström method and sparse variational Gaussian processes
Dunn et al. Parisian camera placement for vision metrology
CN115935817A (zh) 一种基于扩散模型的快速模型生成方法
Ankam et al. Generalized Dirichlet Regression and other Compositional Models with Application to Market-share Data Mining of Information Technology Companies.
CN108428226B (zh) 一种基于ica稀疏表示与som的失真图像质量评价方法
CN116644439B (zh) 一种基于去噪扩散模型的模型安全性评估方法
CN117455687A (zh) 金融产品的推荐方法、装置、存储介质及电子设备
CN117371541A (zh) 一种零知识、免真实数据的模型推理攻击方法
CN117671261A (zh) 面向遥感图像的无源域噪声感知域自适应分割方法
Celestine et al. Investigations on adaptive connectivity and shape prior based fuzzy graph‐cut colour image segmentation
CN116978100A (zh) 人脸识别模型训练方法、人脸识别方法、装置及存储介质
CN115759297A (zh) 一种联邦学习方法、装置、介质及计算机设备
Chamand et al. Fine-tune your classifier: Finding correlations with temperature
CN113409351A (zh) 基于最优传输的无监督领域自适应遥感图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20230407

WW01 Invention patent application withdrawn after publication