CN116566650B - 一种基于松散本地差分隐私模型的键值数据收集方法 - Google Patents
一种基于松散本地差分隐私模型的键值数据收集方法 Download PDFInfo
- Publication number
- CN116566650B CN116566650B CN202310354580.3A CN202310354580A CN116566650B CN 116566650 B CN116566650 B CN 116566650B CN 202310354580 A CN202310354580 A CN 202310354580A CN 116566650 B CN116566650 B CN 116566650B
- Authority
- CN
- China
- Prior art keywords
- key
- value
- data
- privacy
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013480 data collection Methods 0.000 title claims abstract description 20
- 230000007246 mechanism Effects 0.000 claims abstract description 37
- 230000008569 process Effects 0.000 claims abstract description 10
- 230000004044 response Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims description 30
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 4
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 claims 1
- 238000004220 aggregation Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/462—Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4667—Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于松散本地差分隐私模型的键值数据收集方法,该方法包括对键值对数据类型的本地差分隐私模型进行了定义,将对在广义随机响应机制下的松散本地差分隐私下隐私预算进行公开并对其进行最优分配。问题解决了如下应用场景:存在多个用户,每个用户报告多个属性的值组成键值对,对隐私预算分配和扰动进行概率计算,随后用户根据服务器端提供的隐私预算取值,并在用户本地端中对数据键值对的值进行数据扰动,将扰动后的噪声值提交给数据收集方。服务器收集用户的扰动后数据,分析计算出原始数据键的频率估计结果和键值对应的均值估计结果。本发明可以使得保护过程全部在客户端,可抵抗不可信的第三方服务器攻击。
Description
技术领域
本发明属于信息安全技术,涉及种基于松散本地差分隐私模型的键值数据收集方法。
背景技术
随着新一轮的科技革命与信息时代的发展,网络数据的产生为企业和政府带来了重大的发展和进步,通过数据的收集及分析为后续的政策及举措提供重要科学基础,实现更好的经济效应。数据对是现实生活中一种常见的数据形式,有着非常广发的应用场景。通过分析数据之间的关系,可以挖掘大数据的信息,进而更好的为管理者提供数据支持,更好的为用户提供服务。例如在购物或观看电影时,分析用户的偏好并收集大量用户对影视的偏好,根据新老用户习惯推荐新产品或高分电影。同时大数据也是双刃剑,随着大数据的发展,安全问题也愈演愈烈,日益威胁着个人权利、公共利益乃至国家利益,用户对个人隐私保护的重视度越来越高,但在收集过程中存在大量隐私信息泄露风险。因此,如何在保护隐私的前提下,对关联数据是一个亟待解决的问题。
隐私计算是一系列技术的合集,交叉融合了密码学、统计学、人工智能、计算机硬件等众多学科。它在本质上满足了在不暴露原始数据的前提下,能够对数据进行计算、流通、价值可管、可控。针对层出不穷的隐私攻击和隐私保护机制的缺陷,Dwork于2006年提出差分隐私模型(differential privacy,简称DP)[Cynthia Dwork.DifferentialPrivacy.ICALP(2)2006:1-12],这项技术是密码学中的一种数据处理手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。差分隐私不仅严格定义了攻击者的背景知识,并且拥有严谨的统计学模型,这已经成为隐私数据发布的一个标准。随着技术的发展,现实生活中存在第三方不可信问题,本地差分隐私(local differential privacy,简称LDP)应运而生,该模型继承了差分隐私的优点,在本地差分隐私中,每个用户使用机制M对输入x进行扰动处理,并上传y=M(x)到不可信的服务器上进行数据分析,这种机制下,只有用户拥有自己的原始数据,而服务器端只能收到y=M(x)而无法直接访问原始数据,可以抵抗不可信的第三方共计。本地差分隐私的形式化定义如下:对于给定的ε∈R+,随机机制M满足(ε,δ)-LDP当且仅当对于任意一对输入x,x'和任意一对输出y,输出相同y的概率关系式为:Pr(M(x)=y)≤eε·Pr(M(x')=y)+δ,其中ε≥0,δ∈[0,1]。ε为隐私预算,是衡量用户隐私暴露程度的参数,也能反映出用户将隐私交付给第三方的程度,该参数可以用来控制隐私保护的强度,ε越大,隐私暴露的程度越大,而ε越小,表示隐私保护越强。当ε很小时,攻击者在试图区分任何一对输入x,x'时,需要保证完全正确的信息是处于一个较低状态。δ为松散程度,是衡量算法无法保证满足本地差分隐私程度的参数,δ越小,算法保证满足ε-LDP的可能性越高,但一定的松散程度可以换来更大的适用性。当δ=0时为严格化本地差异隐私,当δ>0时为松散本地差异隐私。现有的LDP主要集中在在简单的统计查询,例如分类数据的频率和直方图估计。
然而,现实应用通常都涉及到很多不同的数据类型,键值数据就是一种在很多应用中常见的数据类型。例如对一个电影分级系统,每个用户拥有多个电影的观看记录(键)并对相应的电影观看记录进行评分(值),即每个用户拥有一组键值对<k,v>。数据收集器可以所有用户的评级记录聚合在一起,并统计分析某部电影的相关属性,例如观看该电影的人次和对该电影打分的平均值。经过数据的统计分析后,服务器可以通过选择高频率和大均分的手段提供电影建议,其中键的频率和每个键下的值的平均值都必须要同时估计。对于使用键值对数据收集隐私保护,Xiaolan Gu等人[Xiaolan Gu,Ming Li,YueqiangCheng,Li Xiong,Yang Cao.PCKV:Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility.USENIX Security Symposium,2020:967-984]提出了基于广义随机响应的本地差分隐私下的键值数据(PCKV-GRR)来实现键值对数据的收集框架,该框架利用相关扰动机制来增强隐私保护效果。但这仅仅是针对严格本地差分隐私的特殊情况,并未拓展至松散本地差分隐私下的键值数据机制。在本发明中,目标是在(ε,δ)-LDP模型的隐私约束下,设计高精度的键值数据采集和分析机制。
发明内容
发明目的:本发明提供一种基于松散本地差分隐私模型的键值数据收集方法,将现有的严格本地差分隐私键值对数据机制进行延伸,以便于之后更广泛的应用。
本发明所述的一种基于松散本地差分隐私模型的键值数据收集方法,包括以下步骤:
S1、在广义随机响应机制下的服务器设置,包括设置模型的总体隐私预算ε和总体松散程度δ,通过分解,将隐私预算ε分配为键扰动涉及的因隐私预算ε1和键扰动的松散程度δ1,设置值扰动所涉及的隐私预算ε2和值扰动的松散程度δ2,同时将ε、ε1、δ1、ε2和δ2公布给用户,推导出元素中键和值转换的最优概率;
S2、每个用户从本地将原始数据<k,v>进行数据集预处理,设置原始数据为S并进行填充,设填充的长度为l;对于整个机制,原始所有键的数量为d,设置协议中总长d'=d+l;随后对键值对进行采样,将采样后的数据根据/>的大小进行离散化;
S3、用户根据采样中的数据键值对进行键和值的扰动,并把扰动后的数据/>发送给服务器;
S4、服务器根据用户发送的扰动数据进行统计分析,估算出原始数据的频率分布结果和均值估计大小。
在步骤(S1)中,键值数据收集机制的隐私预算最优分配方式如下过程:
S11、对于广义随机响应机制(简称GRR)下的松散本地差分隐私的键值对数据收集方法中,假设键和值扰动的隐私预算分别为ε1和ε2,键扰动的松散程度δ1,值扰动的松散程度δ2。根据(ε,δ)-LDP的定义式Pr(M(x)=y)≤eε·Pr(M(x')=y),即推导出键值对中键转化的情况,1→1的概率为a,0→1的概率为b。分别对键中a,b的扰动概率进行计算:
S12、针对键值对中的值扰动阶段应该满足(ε,δ)-LDP的定义式,即键值对中值1→1的概率为而1→-1的概率为1-p。
S13、针对键值对整体扰动的的概率计算。针对离散后的键值对数据<k,v>经过PCKV机制扰动成<k',v'>,根据k值和Pr(y'|S)的边界值,当k∈{d+1,…d′}时v* k=0,推导出隐私预算是需要进行分界线进行讨论。情况1:当 时,隐私预算 情况2:当/>时,隐私预算
S14、为了充分利用隐私预算需要对其进行优化处理。所述方法采用评估机制效用的方法,使用均方误差(MSE)进行评估,即均方误差越小,效用越好。估计量的均方误差可以通过方差及其偏差的平方和来计算,即/>根据函数分析需对/>取最小值。最后可得到扰动概率与隐私的关系式。其健值中的健转化概率a=(l(eε-1)+2+2lδ(d'-1)/(l(eε-1)+2d');键转化概率b=2(1-lδ)/(l(eε-1)+2d')。键值对中值的转化概率p=(l(eε-1)+1+lδ(2d'-1))/(l(eε-1)+2+2lδ(d'-1))。
在步骤(S2)中,用户端原始真实数据的填充和采样方法包括如下过程:
S21、对于原始数据S进行填充和采样,设置填充的长度为l,当用户数据集为空时,将填充l个数据。对于整个机制,原始所有键的数量为d,设置d'=d+l,其中d'表示填充后键域的大小。键域K'={1,2,···,d'}。
S22、针对非伪键值对进行采样概率η计算,η=|S|/[max{|S|,l}],该参数将作为二项随机分布的参数使用。当采样的键是真实存在的数据则采样的值进行保留,若对一个伪键进行采样,将分配一个假值v*=0,以此来保证采样到伪键时不会对均值估计产生影响。
S23、将采样后的数据根据/>的大小进行离散化。此时,将采样后的数据根据/>的大小进行离散化。其中值转为1的概率为/>转化为-1的概率为
在步骤(S4)中,服务器端收到扰动后对数据的频率和均值进行估计的过程如下:
S41、对于所有的用户将其值输出上传至服务器后,服务器将统计所输出的1和-1的数量,分别表示为n1和n2,其中n1=num(y'=<k,1>)和n2=num(y'=<k,-1>)。然后,对n1和n2进行校准,以此来估计键k∈K的频率和平均值。
S42、对于频率估计,采用基线估计法并使用频率估计器,当每个用户的数据集的大小不超过l时,该估计器是无偏的。由于n1+n2是观察到的拥有键的用户数,该方法有以下等效频率估计器
S43、服务器中生成的假值-1或1概率分别为0.5(即假值的期望值为零),所以在过程中无参考意义,但可通过将总和除以真实键的计数来估计平均值。被报告为拥有的真实键的计数可以用来近似,因为采样率为1/l,真实键被报告为拥有的概率为a。因此,相应的平均估计量/>
有益效果:本发明在本地针对广义随机响应机制下的松散本地差分隐私进行了隐私保护优化,通过计算对隐私参数ε和δ实行最优分配以实现最小方差,保证了在该模型中,全敏感的数据隐私保护程度没有降低,保障了频率估计与均值估计结果的准确度;本发明在收集过程中对数据键值对进行填充和采样,保护了同质数数据之间的关联性,同时保障了数据的无偏性,在原始方案的基础上提高了整体的数据效用。
附图说明
图1为本发明的整体流程图;
图2为本发明实例的用户端流程示意图;
图3为本发明实例的用户端流程示意图。
具体实施方式
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。基于本发明的实施例,本领域普通技术人员在么有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
为详细的说明本发明所公开的技术方案,下面结合说明书附图及具体实施例做进一步的阐述。首先,本发明结合现有本地差分隐私(LDP)应用中针对同质数数据不能同时对键值数据的频率和每个键值下的平均值计算的问题,此外,阻止了攻击者窃取用户提交的数据,阻止了攻击者可能从可信第三方服务器中获取到用户的数据,使得用户存在数据隐私侵犯的风险,如位置数据,购物记录,电影评分等数据。本发明利用松散本地差分隐私数据键值对模型进行隐私预算分配,其次根据定义的模型优化隐私预算进行数据扰动机制,最后将数据上传至服务器端,从而保障了原始数据的安全性。即无论通过任何手段,攻击者无法获取单个用户键值中的任何数据。
具体的,本发明所述的松散本地差分隐私键值对数据采集方法实施步骤如下:
S1、设置好总体隐私预算ε和总体松散程度δ。通过分解,将隐私预算ε分配为键扰动涉及的因隐私预算ε1和键扰动的松散程度δ1,设置值扰动所涉及的隐私预算ε2和值扰动的松散程度δ2,同时将ε、ε1、δ1、ε2和δ2公布给用户,将推导出元素中键和值转换的最优概率。
S2、每个用户从本地将原始数据<k,v>进行数据集预处理:设置原始数据为S并进行填充,设填充的长度为l。对于整个机制,原始所有键的数量为d,设置协议中总长d'=d+l。对键值对进行采样,将采样后的数据根据/>的大小进行离散化。
S3、用户根据采样中的数据键值对进行键和值的扰动,并把扰动后的数据/>发送给服务器;
S4、服务器根据用户发送的扰动数据进行统计分析,估算出原始数据的频率分布结果和均值估计大小。
在步骤S1中,键值数据收集机制的隐私预算最优分配方式如下过程:
S11、对于松散本地差分隐私下的键值对数据收集机制中的广义随机响应机制(简称GRR),假设键和值扰动的隐私预算分别为ε1和ε2,键扰动的松散程度δ1,值扰动的松散程度δ2。根据(ε,δ)-LDP的定义式Pr(M(x)=y)≤eε·Pr(M(x')=y),即推导出键值对中键中1→1的概率为a,0→1的概率为b。分别对键中a,b的扰动概率进行计算:
S12、针对键值对中的值扰动阶段应该满足(ε,δ)-LDP的定义式,即键值对中值1→1的概率为
S13、针对键值对整体扰动的的概率计算。针对离散后的键值对数据<k,v>经过PCKV机制扰动成<k',v'>,根据k值和Pr(y'|S)的边界值,当k∈{d+1,…d′}时v* k=0,推导出隐私预算是需要进行分界线进行讨论。情况1:当 时,隐私预算 情况2:当/>时,隐私预算
S14、为了充分利用隐私预算,需要紧凑的使用,接下来将对其进行优化处理。所述方法采用评估机制效用的方法,是使用均方误差(MSE),即均方误差越小,效用越好。估计量的均方误差可以通过方差及其偏差的平方和来计算,即/> 根据函数分析需对/>取最小值。最后可得到扰动概率与隐私的关系式。其健值中的健转化概率a=(l(eε-1)+2+2lδ(d'-1)/(l(eε-1)+2d');键转化概率b=2(1-lδ)/(l(eε-1)+2d')。键值对中值的转化概率p=(l(eε-1)+1+lδ(2d'-1))/(l(eε-1)+2+2lδ(d′-1))。
在步骤S2中,用户端原始真实数据的填充和采样方法包括如下过程:
S21、对于原始数据S进行填充和采样,设置填充的长度为l,当用户数据集为空时,将填充l个数据。对于整个机制,原始所有键的数量为d,设置d'=d+l,其中d'表示填充后键域的大小,键域K'={1,2,···,d'}。
S22、针对非伪键值对进行采样概率η计算,η=|S|/[max{|S|,l}],该参数在实验模拟中会作为二项随机分布的参数使用。当采样的键是真实存在的时候,采样的值进行保留,并根据值域的大小将其转化,若对一个伪键进行采样,将分配一个假值v*=0,以此来保证采样到伪键时不会对均值估计产生影响。
S23、采样数据离散化:将采样后的数据根据/>的大小进行离散化。当采样的键是真实存在的时候,采样的值进行保留,并根据值域的大小将其转化,当对一个伪键进行采样时,将分配一个假值v*=0,以此保证采样到伪键时不会对均值估计产生影响。此时,将采样后的数据/>根据/>的大小进行离散化。其中值转为1的概率为/>转化为-1的概率为/>
在步骤S4中,服务器端收到扰动后的值,对数据的频率和均值进行估计的过程如下:
S41、对于所有的用户将其值输出上传至服务器后,服务器将统计所输出的1和-1的数量,分别表示为n1和n2,其中n1=num(y'=<k,1>)和n2=num(y'=<k,-1>)。然后,对n1和n2进行校准。
S42、采对于频率估计,采用基线估计法并使用频率估计器,当每个用户的数据集的大小不超过l时,该估计器是无偏的。由于n1+n2是观察到的拥有键的用户数,有以下等效频率估计器
S43、服务器中生成的假值-1或1概率分别为0.5(即假值的期望值为零),所以在过程中无参考意义,但可通过将总和除以真实键的计数来估计平均值。被报告为拥有的真实键的计数可以用来近似,因为采样率为1/l,真实键被报告为拥有的概率为a。因此,相应的平均估计量/>
结合图1,松散本地差分隐私键值对数据采集方法中用户端具体流程步骤如下:
步骤一:对于用于拥有的原始数据集S进行填充和采样,设置填充的长度为l,当用户数据集为空时,将填充l个数据。对于整个机制,原始所有键的数量为d,设置d'=d+l,键域K'={1,2,···,d'}。
步骤二:针对非伪键值对进行采样概率η计算,η=|S|/[max{|S|,l}],该参数会作为二项随机分布的参数使用。并对采样的键值是否真实存在过,若存在,执行步骤三;若不存在,执行步骤四。
步骤三:当采样的键是真实存在的时候,采样的值进行保留,并根据值域的大小将其转化,执行步骤五。
步骤四:若对一个伪键进行采样,将分配一个假值v*=0,保证采样到伪键时不会对均值估计产生影响,执行步骤五。
步骤五:将采样后的数据根据/>的大小进行离散化。其中值转为1的概率为/> 转化为-1的概率为/>
步骤六:户将扰动结果发送给服务器。
结合图2,松散本地差分隐私键值对数据采集方法中服务器端具体流程步骤如下:
步骤一:设置好总体隐私预算ε和总体松散程度δ。通过分解,将隐私预算ε分配为键扰动涉及的因隐私预算ε1和键扰动的松散程度δ1,设置值扰动所涉及的隐私预算ε2和值扰动的松散程度δ2,同时将ε、ε1、δ1、ε2和δ2公布给用户。
步骤二:服务器收集到全部n个用户发送的扰动数据结果,根据用户发送的扰动后的键值对数据,服务器将统计1和-1的数量,分别表示为n1和n2,其中n1=num(y'=<k,1>)和n2=num(y'=<k,-1>)。
步骤三:计算频率估计,当每个用户的数据集的大小不超过l时,该估计器是无偏的。由于n1+n2是观察到的拥有键的用户数,则频率估计器计算为:
步骤四:通过将总和除以真实键的计数来估计平均值,被报告为拥有的真实键的计数可以用来近似,真实键被报告为拥有的概率为a。根据机制中生成的假值-1或1概率分别为0.5,证明在统计时,对值的总和没有变化,则可获得均值估计/>
步骤五:服务器得到所有键的频率估计结果和对应值的均值估计结果。
根据推导,可以得出松散本地差分隐私模型下的键值数据收集机制的最优化隐私分配,此外,也总结了严格本地化和松散本地化下的随机响应方案扰动概率,可见表格1。此外,本发明通过均方误差(MSE)来评估效用机制。提高机制在使用过程中的科学可信性。
表1严格本地化和松散本地化下的随机响应方案扰动概率
下面是本发明的实验结果。实验中采用的数据集是Clothing,这是Kaggle上的一个数据集,里面记录了105508个用户对5850个事物的评分,每条评分都是一条记录,共有192544条记录。本发明将每位用户评分的记录进行约束,将填充数大小l设置在10到10000左右,针对松散程度δ进行范围规定,δ=[10-7,10-2]。在实验中划分了7个隐私级别,隐私预算分别为0.1,1.0,2.0,3.0,4.0,5.0,6.0。在实验中每个用户在本地扰动自己的数据,并将结果发送给服务器,因为对MSE的影响很小,所以本次服务器统计均值结果MSEmean。
表2均方误差受参数l的影响
表3均方误差受参数δ的影响
表4均方误差受参数ε的影响
通过表2可以看出,对于本次实验所使用的数据集,将填充大小设置在l=100左右,可以使得整体性能较好。通过表3,将δ固定在一个与0接近的小值上,可以看到频率的均方误差曲线与不含δ时的曲线基本相同,说明较小的松散程度δ,对整个方案性能的影响不大;将δ固定在一个更大的值上,可以看到频率的均方误差曲线与表3相比,吻合程度变小了,说明松散程度δ越大,对整个方案性能的影响越大,并且在该参数下,整个机制的性能有了大的提升。通过表4可以看出,隐私预算最优分配中均值估计的均方误差基本小于简单分配。可以得出,δ作为松散本地差分隐私中松散程度的参数,对算法整体的影响是当δ越大时,算法性能好坏的稳定性降低。
本发明在可以保护用户的原始数据不被攻击者获取,抵抗具有任意背景知识的攻击者和防止来自不可信第三方的隐私攻击,同时解决了现有本地差分隐私键值数据采集方法对二维数据无考虑这一问题,实现了更细粒度的保护,并且在保证隐私数据安全的基础上合理保护敏感数据,提高估计隐私数据的效用。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于松散本地差分隐私模型的键值数据收集方法,其特征在于,包括以下步骤:
S1、在广义随机响应机制下的服务器设置,包括设置模型的总体隐私预算ε和总体松散程度δ,通过分解,将隐私预算ε分配为键扰动涉及的隐私预算ε1和键扰动的松散程度δ1,设置值扰动所涉及的隐私预算ε2和值扰动的松散程度δ2,同时将ε、ε1、δ1、ε2和δ2公布给用户,推导出元素中键和值转换的最优概率;
步骤(S1)中服务器让隐私分配达到最优,推导出元素中键和值转换的最优概率包括如下过程:
S11、基于广义随机响应机制,所述方法假设键和值扰动的隐私预算分别为ε1和ε2,键扰动的松散程度δ1,值扰动的松散程度δ2,根据(ε,δ)-LDP的定义式Pr(M(x)=y)≤eε·Pr(M(x′)=y),即推导出键值对中键转化的情况:1→1的概率为a,0→1的概率为b,之后分别对键中a,b的扰动概率进行计算:
S12、针对键值对中的值扰动阶段应该满足(ε,δ)-LDP的定义式,即键值对中值1→1的概率为而1→-1的概率为1-p;
S13、针对键值对整体扰动的概率计算,针对离散后的键值对数据<k,v>经过扰动后为<k′,v′>,根据k值和Pr(y′|S)的边界值,当k∈{d+1,...d′}时v* k=0,推导出隐私预算是需要进行分界线进行讨论;
情况1:当时,隐私预算/>
情况2:当时,隐私预算/>
S14、通过评估机制效用的方式对隐私预算进行优化处理,使其利用率最大,本步骤使用均方误差进行评估,估计量的均方误差通过方差及其偏差的平方和来计算,即,/> 然后根据函数分析需对/>取最小值,最后可得到扰动概率与隐私的关系式;
其健值中的健转化概率a=(l(eε-1)+2+2lδ(d′-1)/(l(eε-1)+2d′);
键转化概率b=2(1-lδ)/(l(eε-1)+2d′);
键值对中值的转化概率p=(l(eε-1)+1+lδ(2d′-1))/(l(eε-1)+2+2lδ(d′-1));
S2、每个用户从本地将原始数据<k,v>进行数据集预处理,设置原始数据为S并进行填充,设填充的长度为l;对于整个机制,原始所有键的数量为d,设置协议中总长d′=d+l;随后对键值对进行采样,将采样后的数据根据/>的大小进行离散化;
S3、用户根据采样中的数据键值对进行键和值的扰动,并把扰动后的数据发送给服务器;
S4、服务器根据用户发送的扰动数据进行统计分析,估算出原始数据的频率分布结果和均值估计大小。
2.根据权利要求1所述的基于松散本地差分隐私模型的键值数据收集方法,其特征在于:在步骤(S2)中的数据集预处理还包括用户端对于原始真实数据的填充和采样,包括如下过程:
S21、对于原始数据S进行填充和采样,设置填充的长度为l,当用户数据集为空时,将填充l个数据;对于整个机制,原始所有键的数量为d,设置d′=d+l,其中d′表示填充后键域的大小;键域K′={1,2,…,d′};
S22、针对非伪键值对进行采样概率η计算,η=|S|/[max{|S|,l}],该参数将作为二项随机分布的参数使用;当采样的键是真实存在的数据则采样的值进行保留,若对一个伪键进行采样,将分配一个假值v*=0,以此来保证采样到伪键时不会对均值估计产生影响;
S23、将采样后的数据根据/>的大小进行离散化;此时,将采样后的数据根据/>的大小进行离散化;其中值转为1的概率为/>转化为-1的概率为
3.根据权利要求1所述的基于松散本地差分隐私模型的键值数据收集方法,其特征在于,步骤(S4)中,服务器端在收到扰动后对数据的频率和均值进行估计的过程如下:
S41、对于所有的用户将其值输出上传至服务器后,服务器将统计输出的1和-1的数量,分别表示为n1和n2,其中n1=num(y′=<k,1>)和n2=num(y′=<k,-1>);然后,对n1和n2进行校准;
S42、对于频率估计,采用基线估计法并使用频率估计器,当每个用户的数据集的大小不超过l时,该估计器是无偏的;
由于n1+n2是观察到的拥有键的用户数,所以存在以下等效频率估计器
S43、服务器中生成的假值-1或1概率分别为0.5,所以在过程中无参考意义,但可通过将总和除以真实键的计数来估计平均值;
被报告为拥有的真实键的计数用来近似,因为采样率为1/l,真实键被报告为拥有的概率为a;因此,相应的平均估计量
4.根据权利要求1所述的基于松散本地差分隐私模型的键值数据收集方法,其特征在于:该方法中,用户在本地端对自身原始数据进行扰动,并将扰动后的结果发送给服务器,服务器再聚合计算得到所有用户数据估计值。
5.根据权利要求1所述的基于松散本地差分隐私模型的键值数据收集方法,其特征在于:通过实现较好的机制性能来反推出优化的隐私预算分配,所述方法通过使用均方误差来计算出隐私预算,其中估计量的均方误差可以通过方差及其偏差的平方和来计算;随后经过频率估计和均值估计的均方误差推导出扰动概率与隐私的关系式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310354580.3A CN116566650B (zh) | 2023-04-06 | 2023-04-06 | 一种基于松散本地差分隐私模型的键值数据收集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310354580.3A CN116566650B (zh) | 2023-04-06 | 2023-04-06 | 一种基于松散本地差分隐私模型的键值数据收集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116566650A CN116566650A (zh) | 2023-08-08 |
CN116566650B true CN116566650B (zh) | 2024-01-26 |
Family
ID=87499082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310354580.3A Active CN116566650B (zh) | 2023-04-06 | 2023-04-06 | 一种基于松散本地差分隐私模型的键值数据收集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116566650B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113206831A (zh) * | 2021-03-31 | 2021-08-03 | 南京邮电大学 | 一种面向边缘计算的数据采集隐私保护方法 |
CN114462032A (zh) * | 2022-04-13 | 2022-05-10 | 北京理工大学 | 一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法 |
CN114884682A (zh) * | 2022-07-07 | 2022-08-09 | 湖南工商大学 | 基于自适应本地差分隐私的群智感知数据流隐私保护方法 |
CN115718927A (zh) * | 2022-10-21 | 2023-02-28 | 桂林电子科技大学 | 一种基于不可信服务器的差分隐私混合推荐方法 |
CN115906164A (zh) * | 2022-11-22 | 2023-04-04 | 南京航空航天大学 | 基于本地差分隐私的效用优化键值数据保护方法、装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11328084B2 (en) * | 2020-02-11 | 2022-05-10 | LeapYear Technologies, Inc. | Adaptive differentially private count |
-
2023
- 2023-04-06 CN CN202310354580.3A patent/CN116566650B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113206831A (zh) * | 2021-03-31 | 2021-08-03 | 南京邮电大学 | 一种面向边缘计算的数据采集隐私保护方法 |
CN114462032A (zh) * | 2022-04-13 | 2022-05-10 | 北京理工大学 | 一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法 |
CN114884682A (zh) * | 2022-07-07 | 2022-08-09 | 湖南工商大学 | 基于自适应本地差分隐私的群智感知数据流隐私保护方法 |
CN115718927A (zh) * | 2022-10-21 | 2023-02-28 | 桂林电子科技大学 | 一种基于不可信服务器的差分隐私混合推荐方法 |
CN115906164A (zh) * | 2022-11-22 | 2023-04-04 | 南京航空航天大学 | 基于本地差分隐私的效用优化键值数据保护方法、装置 |
Non-Patent Citations (3)
Title |
---|
《PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility》;Gu, XL;《29th USENIX Security Symposium》;967-984 * |
基于本地差分隐私的键-值数据精确收集方法;张啸剑;付楠;孟小峰;;计算机学报(第08期);97-110 * |
本地化差分隐私研究综述;叶青青;孟小峰;朱敏杰;霍峥;;软件学报(第07期);159-183 * |
Also Published As
Publication number | Publication date |
---|---|
CN116566650A (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Privacy preservation in big data from the communication perspective—A survey | |
Sun et al. | LDP-FL: Practical private aggregation in federated learning with local differential privacy | |
KR100595786B1 (ko) | 네트워크 상에서의 상호작용의 유효성 결정을 위한 시스템 및 방법 | |
US8069210B2 (en) | Graph based bot-user detection | |
Wang et al. | Privset: Set-valued data analyses with locale differential privacy | |
KR20150115772A (ko) | 미스매칭된 프라이어에 대한 간섭 공격에 대한 프라이버시 | |
Kotsogiannis et al. | One-sided differential privacy | |
CN110866263B (zh) | 一种可对抗纵向攻击的用户隐私信息保护方法及系统 | |
Ozturk et al. | From existing trends to future trends in privacy‐preserving collaborative filtering | |
Huang et al. | An improved federated learning approach enhanced internet of health things framework for private decentralized distributed data | |
Fu et al. | GC-NLDP: A graph clustering algorithm with local differential privacy | |
CN115130119B (zh) | 一种基于本地差分隐私的效用优化集合数据保护方法 | |
Kleiner et al. | A general bootstrap performance diagnostic | |
Li et al. | Differential privacy location protection method based on the Markov model | |
CN116566650B (zh) | 一种基于松散本地差分隐私模型的键值数据收集方法 | |
CN112968873B (zh) | 一种用于隐私数据传输的加密方法和装置 | |
Ioannidis et al. | Privacy tradeoffs in predictive analytics | |
Giordano et al. | Uprise-iot: User-centric privacy & security in the iot | |
Venkatasubramanian | Measures of anonymity | |
Pon et al. | Data quality inference | |
Zhu et al. | Multimedia fusion privacy protection algorithm based on iot data security under network regulations | |
Boenisch | Differential privacy: general survey and analysis of practicability in the context of machine learning | |
Fu et al. | DP-HORUS: Differentially Private Hierarchical Count Histograms under Untrusted Server | |
Narule et al. | Privacy preservation using optimized Federated Learning: A critical survey | |
Cheng et al. | Universal interactive verification framework for federated learning protocol |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |