CN116341004B - 一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法 - Google Patents
一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法 Download PDFInfo
- Publication number
- CN116341004B CN116341004B CN202310304542.7A CN202310304542A CN116341004B CN 116341004 B CN116341004 B CN 116341004B CN 202310304542 A CN202310304542 A CN 202310304542A CN 116341004 B CN116341004 B CN 116341004B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- shadow
- feature
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 108
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000008569 process Effects 0.000 claims abstract description 30
- 238000009499 grossing Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 9
- 238000010367 cloning Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012038 vulnerability analysis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 241001671553 Calophyllum antillanum Species 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioethics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法。该方法包括:检测者在纵向联邦学习的训练过程中嵌入影子数据;获取影子数据和纵向联邦学习的目标参与者的私有训练数据在底部模型上的特征嵌入数据,对特征嵌入数据进行平滑处理;利用影子数据和影子数据平滑处理后的特征嵌入数据克隆底部模型的代理模型;利用代理模型通过特征嵌入匹配重构目标参与者的私有训练数据,对纵向联邦学习进行原始数据泄露检测。本发明方法在不破坏VFL效用的条件下,同时实现了对模型泄露、原始数据泄露以及数据特征泄露的脆弱性分析。
Description
技术领域
本发明涉及网络安全技术与隐私技术领域,尤其涉及一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法。
背景技术
FL(Federated Learning,联邦学习)允许参与者定期交换中间结果而不是明确地共享训练数据,以达到模型训练的收敛性,已成为一种有前途的隐私友好的机器学习机制。VFL(Vertical Federated Learning,纵向联邦学习)的参与者持有相同的训练数据集,但拥有不同的特征子集,即垂直划分的训练数据。在实践中,VFL适用于潜在竞争公司之间的异构和机密特征源的知识融合,以驱动强大的预测分析。例如,一家保险公司可能希望将同一主体的贷款信用与不同金融机构提供的银行交易记录合并,以预测该主体的未来金融风险。
在VFL系统中,本地参与者共享相同的样本空间但分割数据的特征空间,而服务器拥有训练数据的标签。其中,本地参与者托管自己的底部模型用于数据的特征提取,并将对应的特征嵌入传递给服务器。服务器通过拼接来自不同参与者上传的特征嵌入作为输入来训练一个顶部模型。数据的特征嵌入是对私有训练实例的压缩表示,因此可以作为估计目标训练实例的信息源。本发明提出,一个检测者可以在不干扰VFL效用的前提下,仅利用部分影子数据以及分析本地参与者向服务器提交的中间结果(即本地数据的特征嵌入),即可实现对底部模型的克隆、推断原始的训练数据及数据属性,进而用来检测VFL场景的隐私泄露。
尽管VFL为保护隐私而设计,但已经有许多工作证明,VFL仍然存在各种隐私泄露的风险。在之前的工作中,有方案提出一个恶意服务器通过主动操纵发送给目标参与者的特征嵌入的梯度来推断本地参与者的训练数据,即劫持VFL训练过程。特征劫持攻击用一个精心制作的模型取代了由目标参与者托管的正常底部模型,便于重建私有的训练数据。然而,特征劫持攻击会导致VFL训练的分类器的巨大效用损失,从而不适用于现实场景。
在现有技术的一种VFL隐私泄露检测方案中,服务器可以通过主动操纵发送给目标参与者的特征嵌入的梯度来推断目标参与者的训练数据,即劫持VFL训练过程。
第一步:服务器选定一个新的学习任务以代替客户端选择的原始学习任务。
第二步:服务器利用其对客户端训练过程的控制来劫持客户端的底部模型,并将其引导到一个所选定的目标特征空间。
第三步:服务器利用被劫持后的目标特征空间来逆向恢复私有的训练实例。
上述现有技术的一种VFL隐私泄露检测方案的缺点包括:该方法会导致VFL训练的分类器的巨大效用损失,从而限制了在真实环境下的使用。
发明内容
本发明的实施例提供了一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法,以实现有效地保证VFL的效用。
为了实现上述目的,本发明采取了如下技术方案。
一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法,包括:
检测者在纵向联邦学习的训练过程中嵌入影子数据;
获取所述影子数据和纵向联邦学习的目标参与者的私有训练数据在底部模型上的特征嵌入数据,对特征嵌入数据进行平滑处理;
利用所述影子数据和影子数据平滑处理后的特征嵌入数据克隆所述底部模型的代理模型;
利用所述代理模型通过特征嵌入匹配重构目标参与者的私有训练数据,对纵向联邦学习进行原始数据泄露检测。
优选地,所述的检测者在纵向联邦学习的训练过程中嵌入影子数据,包括:
采用服务器作为检测者,检测者选取影子用户,将所述影子用户注册到纵向联邦学习的训练过程中,所述阴影用户的影子数据的原始属性与纵向联邦学习中目标参与者的私有训练数据的属性具有相同的分布,使所述影子数据参与纵向联邦学习的训练流程。
优选地,所述的获取所述影子数据和纵向联邦学习的目标参与者的私有训练数据在底部模型上的特征嵌入数据,对特征嵌入数据进行平滑处理,包括:
在纵向联邦学习的训练过程中,检测者记录所嵌入的影子数据、以及影子数据和目标参与者的私有训练数据在底部模型上的特征嵌入,并对连续T时刻的特征嵌入进行平滑;
特征嵌入的平滑机制如下:令fB为目标参与者的底部模型,假设检测者在第t轮发起检测,记录目标参与者的私有训练数据xv在底部模型上连续T时刻下的特征嵌入记录影子数据xs,以及xs在底部模型上连续T时刻下的特征嵌入对/>和/>分别进行平滑处理,得到平滑处理后的特征嵌入数据/>和/>
优选地,所述的利用所述影子数据和影子数据平滑处理后的特征嵌入数据克隆所述底部模型的代理模型,包括:
检测者利用记录的多个映射对学习一个代理模型/>利用代理模型/>近似原始特征空间与底部模型fB嵌入空间之间的映射;
所述代理模型的学习过程为:最小化代理模型生成的特征嵌入/>和真实的底部模型生成的特征嵌入/>之间的l2距离来实现:
其中表示代理模型/>的模型参数,/>表示影子数据xs在代理模型上的输出。
优选地,所述的利用所述代理模型通过特征嵌入匹配重构目标参与者的私有训练数据,对纵向联邦学习进行原始数据泄露检测,包括:
所述代理模型通过特征嵌入匹配重构目标参与者的私有训练数据,通过生成器fG来实现所述特征嵌入匹配的回归问题,所述生成器fG是一个解码器模型,以随机噪声xn作为输入,输出重构图像fG(xn),将重构图像fG(xn)输入代理模型获得特征嵌入检测者通过最小化由代理模型提供的重建图像的特征嵌入/>与私有训练数据对应的目标图像的真实特征嵌入之间的l2距离,寻找生成器fG的最优参数,使重构的图像fG(xn)产生尽可能接近目标图像的嵌入,优化公式如下:
其中,LR()是嵌入匹配函数的基于均方误差的损失函数;
得到生成器fG的最优参数后,通过对比由该生成器得到的重构图像fG(xn)与目标参与者的私有训练数据xv之间的相似度,得到检测纵向联邦学习对原始数据的保护程度。
优选地,所述的方法还包括:
检测者将影子数据的离散属性值作为分类任务中的类标签,将影子数据的平均特征嵌入作为输入,训练一个属性解码器,利用所述属性解码器推理目标参与者的私有训练数据的属性;
将私有训练数据的属性推理模型定义为一个多类分类器fC,每个属性的唯一类别有一个类标签,令yP:=[yi,y2,...,yP]表示训练数据对应的p个属性,检测者使用记录的特征嵌入属性值训练多类分类器fC,其中/>表示分类器的p类输出,多类分类器fC的优化问题的目的是最小化分类器fC对所收集的影子数据的经验分类损失:
其中,LC是交叉熵损失,为影子数据的平均特征嵌入在分类器上的输出,/>为影子数据xs对应的属性标签;
当多类分类器fc训练完成后,检测者根据目标参与者的私有训练数据的平滑嵌入来预测xx的属性,即/>
训练时所述多类分类器fC的输入为影子数据的平滑特征嵌入输出为影子数据xs对应的属性标签/>推理时所述多类分类器fC的输入为目标参与者的私有训练数据的平滑特征嵌入/>输出为目标参与者的私有训练数据xv对应的属性标签/>通过对比所预测的私有训练数据xv对应的属性标签/>和私有训练数据xv的真实属性标签/>的一致性,来检测纵向联邦学习模型对用户数据的保护能力。
由上述本发明的实施例提供的技术方案可以看出,本发明提出了一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法。以往基于特征劫持的检测方法,不涉及模型泄露分析,且破坏了VFL的效用。本发明在不破坏VFL效用的条件下,同时实现了对模型泄露、原始数据泄露以及数据特征泄露的脆弱性分析。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法的实现原理图;
图2为本发明实施例提供的一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法的处理流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例设计了一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法。该方法可以进行底部模型泄露检测、原始数据泄露检测和数据属性泄露检测。在模型训练之前,检测者可以应用少量的影子用户,并将他们的数据注册到VFL训练过程中。遵循现有隐私泄露检测的标准设置,我们假设影子用户的原始数据属性与私有训练数据的属性分布相同。在训练过程中,检测者需要记录完整的影子数据、数据特征、以及所有训练数据的特征嵌入,以便后续的隐私泄露分析。
实施隐私泄露检测的第一步是对接收到的特征嵌入执行平滑增强技术,以抑制训练过程中由于底部模型的更新而引起的特征嵌入波动。基于上述收集到的原始影子数据和相应的平滑特征嵌入,可以训练一个代理模型来近似原始数据到特征嵌入之间的转换,从而实现对底部模型的克隆。基于克隆后的代理模型,检测者可以进一步将目标参与用户的私有训练数据在底部模型上的特征嵌入与重构数据在代理模型中的特征嵌入进行匹配,进而优化重构数据无限接近真实目标数据。此外,检测者可以将影子数据的离散属性值和对应的平均特征嵌入作为分类任务中的类标签和特征,训练一个属性解码器。从而利用该属性解码器上推理目标数据的属性。
数据的特征嵌入及对应的梯度是VFL系统中本地参与者和服务器在协同训练过程中唯一的交互信息。服务器可以通过主动操纵发送给目标参与者的特征嵌入的梯度来推断本地参与者的训练数据,以评估VFL系统中的数据泄露脆弱性。然而,该方法伪造了返回给目标参与者的梯度,以迫使参与者产生的特征嵌入收敛到攻击者期望的特征空间,这损害了VFL的效用。
本发明实施例提供的一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法的实现原理图如图1所示,具体处理流程如图2所示,包括如下的处理步骤:
步骤S1:检测者在VFL训练过程中嵌入影子数据,使影子数据参与VFL的训练流程;
本发明中,检测者可以为诚实但好奇的服务器,
步骤S2:记录影子数据、影子数据的特征、以及所有数据在底部模型上的特征嵌入,并对连续T时刻的特征嵌入进行平滑。
步骤S3:利用影子数据和目标参与者的私有训练数据平滑后的特征嵌入克隆的代理模型;
步骤S4:基于所克隆的代理模型和私有训练数据的平滑后的特征嵌入重构私有训练数据;
步骤S5:利用影子数据的特征和其对应的平滑特征嵌入训练属性解码器,并应用在私有训练数据的特征嵌入上,以推理私有训练数据的敏感属性。
具体的,上述步骤S1包括:检测者可以雇佣少量的影子用户,并将这些影子用户注册到VFL训练过程中。假设阴影用户的影子数据的原始属性与VFL中目标参与者的私有训练数据的属性具有相同的分布。在VFL训练开始之前,影子用户的属性将被提供给每个本地参与者所拥有的本地特性集。
具体的,上述步骤S2包括:记录影子数据及特征嵌入,并对特征嵌入进行平滑。
在VFL的训练过程中,检测者需要记录所嵌入的影子数据、以及所有数据在底部模型上的特征嵌入,并对连续T时刻的特征嵌入进行平滑。具体的平滑机制如下:令fB为目标参与者的底部模型。假设检测者在第t轮发起检测,记录目标参与者的私有训练数据xv在底部模型上连续T时刻下的特征嵌入记录影子数据xs,以及xs在底部模型上连续T时刻下的特征嵌入/>对/>和/>分别进行平滑处理,得到平滑处理后的特征嵌入数据/>和/>
平滑后特征嵌入有助于抑制训练过程中由底部模型更新引起的嵌入波动,以便后续用于隐私泄露检测时的结果稳定性。
具体的,上述步骤S3包括:基于底部模型的窃取攻击,分析底部模型的泄露脆弱性。
基于上述步骤S2所记录的影子数据xs和xs相应的平滑处理后的特征嵌入数据检查者可以训练一个代理模型来近似训练数据到特征嵌入的转换,从而实现对底部模型的克隆。检测者就可以利用这些记录的多个/>映射对学习一个代理模型/>利用代理模型/>近似原始特征空间与底部模型fB嵌入空间之间的映射;
所述代理模型的学习过程为:最小化代理模型生成的特征嵌入/>和真实的底部模型生成的特征嵌入/>之间的l2距离来实现:
其中表示代理模型/>的模型参数,/>表示影子数据xs在代理模型上的输出。
通过优化上式,给定一个数据实例的原始特征,学习到的代理模型就可以产生与真实的底部模型fB近似相同的特征嵌入。
具体的,上述步骤S4包括:基于数据重构攻击,分析数据泄露脆弱性。
基于上述步骤S3学习到的代理模型,检测者可以进一步通过特征嵌入匹配,恢复目标参与者的私有训练数据。这个嵌入匹配过程可以表述为一个回归问题。攻击者的目标是找到真实原始属性值的估计值,这些估计值可以产生与真实属性生成的属性进行最佳匹配的特征嵌入。
为了恢复图像数据,本发明引入了一个生成器fG来帮助解决回归问题。生成器fG是一个解码器模型,它以随机噪声xn作为输入,并输出重构图像fG(xn)。一幅图像通常包含数百或数千个像素,通过直接估计每个像素的值,很难获得稳定的重建结果,因为解决高维回归任务容易受到维数的诅咒。将重建的图像输入代理模型,以获得特征嵌入检测者可以通过最小化由代理模型提供的重建图像的特征嵌入与目标图像的真实特征嵌入之间的l2距离,寻找生成器fG的最优参数ωG,从而使重构的图像fG(xn)产生尽可能接近目标图像的嵌入。优化公式如下:
其中,LR()是嵌入匹配函数的损失函数,即基于均方误差(MSE)的损失。
在这个优化问题中,我们考虑估计ωG作为变量。这背后的原因是:如果代理模型能够准确地近似底部模型的特征嵌入变换,那么执行特征嵌入匹配可以驱动估计fG(xn)接近真实xv。对于恢复图像数据,我们进一步添加了总方差(TV)正则化Rtv(),以提高重建图像的平滑性。对于重构表格数据的数值特征,我们去掉了Rtv(),因为数值属性不一定像在图像中那样遵循平滑度约束。此外,由于数值特征的数量通常比图像中的像素的数量要小得多,因此我们可以直接估计属性xv,t,而不需要引入生成器模块fG。因此,在表格数据中重构数值属性,其优化方程进行简化为:
其中,LR()是嵌入匹配函数的基于均方误差的损失函数;
得到生成器fG的最优参数后,通过对比由该生成器得到的重构图像fG(xn)与目标参与者的私有训练数据xv之间的相似度,得到检测纵向联邦学习对原始数据的保护程度。
具体的,上述步骤S5包括:基于属性推理攻击,分析数据属性泄露脆弱性。
给定训练影子数据的目标属性,我们将影子数据的离散属性值作为分类任务中的类标签。我们将属性推理模型定义为一个多类分类器,每个属性的唯一类别有一个类标签。令yP:=[y1,y2,...,yP]表示训练数据对应的p个属性。检测者可以使用记录的特征嵌入属性值训练多类分类器fC,其中/>表示分类器的p类输出。该优化问题的目的是最小化分类器fC对所收集的影子数据的经验分类损失:
其中,LC是交叉熵损失,为影子数据的平均特征嵌入在分类器上的输出,/>为影子数据xs对应的属性标签;
当多类分类器fC训练完成后,检测者根据目标参与者的私有训练数据的平滑嵌入来预测xv的属性,即/>
训练时所述多类分类器fC的输入为影子数据的平滑特征嵌入输出为影子数据xs对应的属性标签/>推理时所述多类分类器fC的输入为目标参与者的私有训练数据的平滑特征嵌入/>输出为目标参与者的私有训练数据xv对应的属性标签/>通过对比所预测的私有训练数据xv对应的属性标签/>和私有训练数据xv的真实属性标签/>的一致性,来检测纵向联邦学习模型对用户数据的保护能力。
本发明实施例的基于特征嵌入分析的面向纵向联邦学习隐私泄露检测方法。我们分别在三种不同复杂度的模型(FCNN、Lenet和ResNet)和五种不同像素大小的数据集(BankMarketing、Credit、Census、UTKFace、CalabA)上评估了该方法的有效性。实验结果表明,与现有的方法相比基于特征嵌入分析的面向纵向联邦学习隐私泄露检测方法能够在不破坏VFL效用的同时,实现对模型、原始数据以及数据特征的隐私泄露分析。
因此我们表示,用户上传的梯度仍然携带了训练数据的重要信息,并且通过设计正确的攻击方法,即使在没有辅助数据且恢复数据复杂的情况下,也可以稳定有效的重构高精确的原始图像。我们希望这项工作能够激励人们重新思考VFL对模型和数据隐私保护的作用,进一步加强对现有隐私保护框架的设计和发展。
综上所述,本发明实施例提供的基于特征嵌入分析的面向纵向联邦学习隐私泄露检测方法不干扰VFL的训练过程,从而保证了VFL的效用。其次,该方法同时实现了对模型、原始数据、以及数据特征三者的隐私泄露分析。
本发明提供的基于特征嵌入分析的面向纵向联邦学习隐私泄露检测方法效实现对VFL中隐私泄露脆弱性的全方位检测分析,所提检测方法不对VFL效用产生负面影响;所提的平滑策略可以有效抵御训练过程中的噪声干扰。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法,其特征在于,包括:
检测者在纵向联邦学习的训练过程中嵌入影子数据;
获取所述影子数据和纵向联邦学习的目标参与者的私有训练数据在底部模型上的特征嵌入数据,对特征嵌入数据进行平滑处理;
利用所述影子数据和影子数据平滑处理后的特征嵌入数据克隆所述底部模型的代理模型;
利用所述代理模型通过特征嵌入匹配重构目标参与者的私有训练数据,对纵向联邦学习进行原始数据泄露检测;
所述的获取所述影子数据和纵向联邦学习的目标参与者的私有训练数据在底部模型上的特征嵌入数据,对特征嵌入数据进行平滑处理,包括:
在纵向联邦学习的训练过程中,检测者记录所嵌入的影子数据、以及影子数据和目标参与者的私有训练数据在底部模型上的特征嵌入,并对连续T时刻的特征嵌入进行平滑;
特征嵌入的平滑机制如下:令为目标参与者的底部模型,假设检测者在第/>轮发起检测,记录目标参与者的私有训练数据/>在底部模型上连续T时刻下的特征嵌入,记录影子数据/>,以及/>在底部模型上连续T时刻下的特征嵌入,对/>和/>分别进行平滑处理,得到平滑处理后的特征嵌入数据/>和/>:
;
检测者将影子数据的离散属性值作为分类任务中的类标签,将影子数据的平均特征嵌入作为输入,训练一个属性解码器,利用所述属性解码器推理目标参与者的私有训练数据的属性;
将私有训练数据的属性推理模型定义为一个多类分类器,每个属性的唯一类别有一个类标签,令/>表示训练数据对应的p个属性,检测者使用记录的特征嵌入属性值/>,/>训练多类分类器/>,其中/>表示分类器的p类输出,多类分类器/>的优化问题的目的是最小化分类器/>对所收集的影子数据的经验分类损失:/>;
其中,是交叉熵损失,/>为影子数据的平均特征嵌入在分类器上的输出,/>为影子数据/>对应的属性标签;
当多类分类器训练完成后,检测者根据目标参与者的私有训练数据的平滑嵌入/>来预测/>的属性,即/> ;
训练时所述多类分类器的输入为影子数据的平滑特征嵌入/>,输出为影子数据对应的属性标签/>,推理时所述多类分类器/>的输入为目标参与者的私有训练数据的平滑特征嵌入/>,输出为目标参与者的私有训练数据/>对应的属性标签/>,通过对比所预测的私有训练数据/>对应的属性标签/>和私有训练数据/>的真实属性标签/>的一致性,来检测纵向联邦学习模型对用户数据的保护能力。
2.根据权利要求1所述的方法,其特征在于,所述的检测者在纵向联邦学习的训练过程中嵌入影子数据,包括:
采用服务器作为检测者,检测者选取影子用户,将所述影子用户注册到纵向联邦学习的训练过程中,所述影子用户的影子数据的原始属性与纵向联邦学习中目标参与者的私有训练数据的属性具有相同的
分布,使所述影子数据参与纵向联邦学习的训练流程。
3.根据权利要求1所述的方法,其特征在于,所述的利用所述影子数据和影子数据平滑处理后的特征嵌入数据克隆所述底部模型的代理模型,包括:
检测者利用记录的多个映射对学习一个代理模型/>,利用代理模型/>近似原始特征空间与底部模型/>嵌入空间之间的映射;
所述代理模型的学习过程为:最小化代理模型生成的特征嵌入/>和真实的底部模型生成的特征嵌入/>之间的ℓ2距离来实现:/>;
其中表示代理模型/>的模型参数,/>表示影子数据/>在代理模型/>上的输出。
4.根据权利要求3所述的方法,其特征在于,所述的利用所述代理模型通过特征嵌入匹配重构目标参与者的私有训练数据,对纵向联邦学习进行原始数据泄露检测,包括:
所述代理模型通过特征嵌入匹配重构目标参与者的私有训练数据,通过生成器来实现所述特征嵌入匹配的回归问题,所述生成器/>是一个解码器模型,以随机噪声/>作为输入,输出重构图像/>,将重构图像/>输入代理模型获得特征嵌入/>,检测者通过最小化由代理模型提供的重建图像的特征嵌入/>与私有训练数据对应的目标图像的真实特征嵌入之间的ℓ2距离,寻找生成器/>的最优参数,使重构的图像/>产生尽可能接近目标图像的嵌入,优化公式如下:/>;
其中,是嵌入匹配函数的基于均方误差的损失函数;
得到生成器的最优参数后,通过对比由该生成器得到的重构图像/>与目标参与者的私有训练数据/>之间的相似度,得到检测纵向联邦学习对原始数据的保护程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310304542.7A CN116341004B (zh) | 2023-03-27 | 2023-03-27 | 一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310304542.7A CN116341004B (zh) | 2023-03-27 | 2023-03-27 | 一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116341004A CN116341004A (zh) | 2023-06-27 |
CN116341004B true CN116341004B (zh) | 2023-09-08 |
Family
ID=86881870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310304542.7A Active CN116341004B (zh) | 2023-03-27 | 2023-03-27 | 一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116341004B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117592042B (zh) * | 2024-01-17 | 2024-04-05 | 杭州海康威视数字技术股份有限公司 | 面向联邦推荐系统的隐私泄露检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094758A (zh) * | 2021-06-08 | 2021-07-09 | 华中科技大学 | 一种基于梯度扰动的联邦学习数据隐私保护方法及系统 |
CN114936372A (zh) * | 2022-04-06 | 2022-08-23 | 湘潭大学 | 一种基于三方同态加密纵向联邦学习的模型保护方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220222539A1 (en) * | 2021-01-12 | 2022-07-14 | Sap Se | Adversarial learning of privacy preserving representations |
-
2023
- 2023-03-27 CN CN202310304542.7A patent/CN116341004B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094758A (zh) * | 2021-06-08 | 2021-07-09 | 华中科技大学 | 一种基于梯度扰动的联邦学习数据隐私保护方法及系统 |
CN114936372A (zh) * | 2022-04-06 | 2022-08-23 | 湘潭大学 | 一种基于三方同态加密纵向联邦学习的模型保护方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116341004A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiao et al. | Improving transferability of adversarial patches on face recognition with generative models | |
Li et al. | Auditing privacy defenses in federated learning via generative gradient leakage | |
Yuan et al. | Robust visual tracking with correlation filters and metric learning | |
Wu et al. | Federated unlearning: Guarantee the right of clients to forget | |
CN106295694B (zh) | 一种迭代重约束组稀疏表示分类的人脸识别方法 | |
Subbiah Parvathy et al. | A novel approach in multimodality medical image fusion using optimal shearlet and deep learning | |
Li et al. | Privacy-preserving lightweight face recognition | |
WO2021137946A1 (en) | Forgery detection of face image | |
Xia et al. | Towards deepfake video forensics based on facial textural disparities in multi-color channels | |
CN106295501A (zh) | 基于唇部运动的深度学习身份识别方法 | |
Huang et al. | Robust zero-watermarking scheme based on a depthwise overparameterized VGG network in healthcare information security | |
CN116341004B (zh) | 一种基于特征嵌入分析的纵向联邦学习隐私泄露检测方法 | |
Li et al. | High-capacity coverless image steganographic scheme based on image synthesis | |
Xu et al. | FLPM: A property modification scheme for data protection in federated learning | |
CN111726472B (zh) | 一种基于加密算法的图像抗干扰方法 | |
Zhang et al. | Effective presentation attack detection driven by face related task | |
Zhou et al. | Neural encoding and decoding with a flow-based invertible generative model | |
Wang et al. | Cross-view representation learning for multi-view logo classification with information bottleneck | |
Ye et al. | Privacy-preserving age estimation for content rating | |
Huda et al. | Fake-checker: A fusion of texture features and deep learning for deepfakes detection | |
Tian et al. | Fakepoi: A large-scale fake person of interest video detection benchmark and a strong baseline | |
Chaitra et al. | Digital image forgery: taxonomy, techniques, and tools–a comprehensive study | |
Inoue et al. | Amplitude based keyless optical encryption system using deep neural network | |
Yang et al. | Fast Generation-Based Gradient Leakage Attacks: An Approach to Generate Training Data Directly From the Gradient | |
Li et al. | Video image moving target recognition method based on generated countermeasure network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |