CN112613068B

CN112613068B - 一种多重数据混淆隐私保护方法及系统、存储介质

Info

Publication number: CN112613068B
Application number: CN202011489800.6A
Authority: CN
Inventors: 齐富民; 冯圣中; 方子森
Original assignee: NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER)
Current assignee: NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER)
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2024-03-08
Anticipated expiration: 2040-12-15
Also published as: CN112613068A

Abstract

本发明公开了一种多重数据混淆隐私保护方法及系统、存储介质，方法包括：对无类别数据集，计算数据集中样本的每一个特征的信息增益，依据特征的信息增益统计数据热点分布，依据热点分布对样本进行分组聚类以得到多个子类；对于每一个子类，从附近的子类中挑选样本作为多重扰动因子，并利用挑选出的多重扰动因子对该子类中的样本进行扰动，如此实现城市地下基础设施数据混淆隐私保护。

Description

一种多重数据混淆隐私保护方法及系统、存储介质

技术领域

本发明涉及高效存储系统中的数据安全和隐私保护，尤其涉及一种多重数据混淆隐私保护方法及系统、存储介质。

背景技术

城市地下基础设施环境具有设备种类多、传感数据量大、结构复杂等特点，传感器及巡检机器人将数据实时传回到控制中心，如何确保这些数据不被恶意利用是一个值得深入探讨的问题。我们常采用一些数据隐私保持方法在保护数据的隐私性同时，确保数据的可用性。

经典的随机移动跨类隐私保护方法被广泛用于隐私保护中。随机移动跨类隐私保护法主要思想是采用最近不相关近邻的数据来混淆目标实体，该算法能起到一定的隐私保护的效果，但是主要不足点在于计算效率不高，同时处理后数据的有效性降低明显，这主要是因为其选取的边界扰动因子过大以及没有指导原则所致。认识到随机移动跨类隐私保护算法的不足，为进一步对随机移动跨类隐私保护算法予以改进，有研究者提出了剪枝随机移动跨类隐私保护方法，主要创新点事将剪枝策略融入算法以加速计算。

在城市地下基础业务场景中，随机移动跨类隐私保护算法主要不足点不仅仅是以上提到的可用性降低以及计算效率不高的问题，而是数据类别不足以支撑算法的运行。而其他常见的隐私保持技术包括基于泛化和限制的匿名技术、基于交换的匿名技术等，也都只考虑单一数据类型的隐私保护。

虽然在其他领域已经有了一些关于隐私保护的研究工作，然而这些方法并不能直接被用于城市地下基础设施数据隐私保持中，因为城市地下基础设施数据具有独特的特点，首先数据种类多，这意味着里面既有连续的值又有离散的值，加重了数据处理的复杂度；其次，大多数隐私方法多基于有类别的数据，而城市地下基础设施数据大多没有具体类别，因此给基于类别隐私保护方法的应用带来了困难。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于数据热点子类划分的多重数据混淆隐私保护方法及系统、存储介质。

本发明解决其技术问题所采用的技术方案是：构造一种多重数据混淆隐私保护方法，所述方法包括：

对无类别数据集，计算数据集中样本的每一个特征的信息增益，依据特征的信息增益统计数据热点分布，依据热点分布对样本进行分组聚类以得到多个子类；

对于每一个子类，从附近的子类中挑选样本作为多重扰动因子，并利用挑选出的多重扰动因子对该子类中的样本进行扰动。

优选地，所述的计算数据集中样本的每一个特征的信息增益，包括：依据数据集中的所有样本的各个特征的具体数据，计算每一个特征的信息熵和条件熵，再根据每一个特征的信息熵和条件熵，计算每一个特征的信息增益。

优选地，所述方法中：

依据如下计算式(1)计算每一个特征的信息熵：

H(X)＝-∑p(x)logp(x) (1)；

依据如下计算式(2)计算每一个特征的条件熵：

H(Y|X)＝-∑(p(x)∑p(y|x)log p(y|x)) (2)；

依据如下计算式(3)计算每一个特征的信息增益：

IG(X)＝H(X)-H(Y|X) (3)；

以上计算式中，H(X)、H(Y|X)和IG(X)分别表示信息熵、条件熵和信息增益，p(x)表示在数据集中数据属性x在当前特征中出现的概率，p(y|x)表示数据属性x存在时符合条件y的条件概率。

优选地，所述的依据特征的信息增益统计数据热点分布，包括：

依据各个特征的信息增益的大小进行排序，选取出排序靠前的若干个特征；

依据选取的特征，计算数据集中的各个样本之间的欧氏距离以形成数据热点分布。

优选地，所述的依据热点分布对样本进行分组聚类，包括：

针对每一个样本，为其选取与其欧氏距离最小的样本作为聚类基准；

将具有相同的聚类基准的样本划分到一个分组；

将各个分组中的作为其他分组的聚类基准的样本从分组中删除；

并将各个分组中的样本以及对应的聚类基准共同作为一个子类。

优选地，所述的对于每一个子类，从附近的子类中挑选样本作为多重扰动因子，包括：

将子类排序；

对于非首尾的子类，以该子类为目标子类，将目标子类向前的n个子类以作为挑选对象，如果目标子类向前的子类数量不满n，则将目标子类向前的全部子类全部作为挑选对象，从所有的挑选对象中挑选出与目标子类的聚类基准的欧氏距离最小的样本作为目标子类的第一个多重扰动因子；以及，将目标子类向后的n个子类以作为挑选对象，如果目标子类向后的子类数量不满n，则将目标子类向后的全部子类全部作为挑选对象，从所有的挑选对象中挑选出与目标子类的聚类基准的欧氏距离最小的样本作为目标子类的第二个多重扰动因子；

对于为首的子类，以该子类为目标子类，将目标子类向后的n个子类作为挑选对象，从所有的挑选对象中挑选出与目标子类的聚类基准的欧氏距离最小的样本作为目标子类的多重扰动因子；

对于末尾的子类，以该子类为目标子类，将目标子类向前的n个子类作为挑选对象，从所有的挑选对象中挑选出与目标子类的聚类基准的欧氏距离最小的样本作为目标子类的多重扰动因子。

优选地，所述的利用挑选出的多重扰动因子对该子类中的样本进行扰动，包括：

对于非首尾的子类，基于计算式(4)对进行扰动：

y_i＝x_i+α*(x_i-h_i-n)+β*(x_i-h_i+n) (4)；

对于为首的子类，基于计算式(5)进行扰动：

y_i＝x_i+β*(x_i-h_i+n) (5)；

对于末尾的子类，基于计算式(6)进行扰动：

y_i＝x_i+α*(x_i-h_i-n) (6)；

以上计算式中，y_i表示扰动后的样本，x_i表示扰动前的样本，h_i+n表示从向后的子类中挑选出的多重扰动因子，h_i-n表示从向前的子类中挑选出的多重扰动因子，α、β是系数，α、β同为正或者同为负。

本发明还公开了一种多重数据混淆隐私保护系统，所述系统包括：

无类别数据子类划分模块，用于对无类别数据集，计算数据集中样本的每一个特征的信息增益，依据特征的信息增益统计数据热点分布，依据热点分布对样本进行分组聚类以得到多个子类；

扰动模块，用于对于每一个子类，从附近的子类中挑选样本作为多重扰动因子，并利用挑选出的多重扰动因子对该子类中的样本进行扰动。

优选地，所述无类别数据子类划分模块包括：

信息增益计算子模块，用于依据数据集中的所有样本的各个特征的具体数据，计算每一个特征的信息熵和条件熵，再根据每一个特征的信息熵和条件熵，计算每一个特征的信息增益；

数据热点分布分析子模块，用于依据各个特征的信息增益的大小进行排序，选取出排序靠前的若干个特征，以及依据选取的特征，计算数据集中的各个样本之间的欧氏距离以形成数据热点分布；

子类划分子模块，用于针对每一个样本，为其选取与其欧氏距离最小的样本作为聚类基准，将具有相同的聚类基准的样本划分到一个分组，将各个分组中的作为其他分组的聚类基准的样本从分组中删除，并将各个分组中的样本以及对应的聚类基准共同作为一个子类。

本发明还公开了一种多重数据混淆隐私保护系统，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如前任一项所述的方法的步骤。

本发明还公开了一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现如前任一项所述的方法的步骤。

本发明的多重数据混淆隐私保护方法及系统、存储介质，具有以下有益效果：本发明针对城市地下基础设施数据特性，对无类别数据集，计算数据集中样本的每一个特征的信息增益，依据特征的信息增益统计数据热点分布，依据热点分布对样本进行分组聚类以得到多个子类，对于每一个子类，从附近的子类中挑选样本作为多重扰动因子，并利用挑选出的多重扰动因子对该子类中的样本进行扰动，如此实现城市地下基础设施数据混淆隐私保护。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图：

图1是本发明多重数据混淆隐私保护方法的流程图；

图2是实施例一中的多重数据混淆隐私保护方法的过程示意图；

图3是子类划分的过程示意图；

图4是子类划分结果示意图；

图5是多重混淆结构示意图；

图6是本发明多重数据混淆隐私保护系统的结构示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本说明书中使用的“第一”、“第二”等包含序数的术语可用于说明各种构成要素，但是这些构成要素不受这些术语的限定。使用这些术语的目的仅在于将一个构成要素区别于其他构成要素。例如，在不脱离本发明的权利范围的前提下，第一构成要素可被命名为第二构成要素，类似地，第二构成要素也可以被命名为第一构成要素。

参考图1，本发明总的思路是：考虑到城市地下基础设施中数据大多没有类别的概念，如温度数据、湿度数据、传感器位置数据、机器人巡检图像语义数据、巡检位置数据等，在城市地下基础设施中，传感器回传的信息夹带设备的位置等信息，这些信息较敏感，往往不便被外界获知，但是传感器数据以及位置信息在数据综合利用中又非常重要。我们在利用大数据进行分析时，仅想让第三方帮忙分析出特定粒度区域的数据趋势，并不想暴露传感器的敏感信息，此时数据的隐私保护显得异常关键，为此，构造一种多重数据混淆隐私保护方法，包括：

S101：对无类别数据集，计算数据集中样本的每一个特征的信息增益，依据特征的信息增益统计数据热点分布，依据热点分布对样本进行分组聚类以得到多个子类；

S102：对于每一个子类，从附近的子类中挑选样本作为多重扰动因子，并利用挑选出的多重扰动因子对该子类中的样本进行扰动。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

实施例一

结合图1，参考图2，多重数据混淆隐私保护方法包括：

S101：对无类别数据集，计算数据集中样本的每一个特征的信息增益，依据特征的信息增益统计数据热点分布，依据热点分布对样本进行分组聚类以得到多个子类，如图2中得到子类1-M；

需要说明的是，本发明是对输入的数据集进行混淆，而输入的数据集包括有类别的数据和无类别的数据，针对无类别的数据，需要执行本步骤S101，对于有类别的数据已经不需要划分类别，所以直接将这些有类别的数据分别作为具体的子类即可，不需要执行本步骤。待步骤S101执行完毕，可以将所有的子类(包括根据有类别的数据直接确定的子类和依据步骤S101所划分的子类)按照步骤S102处理。

参考图3，本实施例中，该步骤S101具体分为如下几个子步骤：

S101a)对无类别数据集，依据数据集中的所有样本的各个特征的具体数据，计算每一个特征的信息熵和条件熵，再根据每一个特征的信息熵和条件熵，计算每一个特征的信息增益。

例如，可以是依据如下计算式(1)计算每一个特征的信息熵：

H(X)＝-∑p(x)logp(x) (1)；

例如，可以是依据如下计算式(2)计算每一个特征的条件熵：

H(Y|X)＝-∑(p(x)∑p(y|x)log p(y|x)) (2)；

例如，可以是依据如下计算式(3)计算每一个特征的信息增益：

IG(X)＝H(X)-H(Y|X) (3)；

以上计算式计算式中(1)-(3)中，H(X)、H(Y|X)和IG(X)分别表示信息熵、条件熵和信息增益。

p(x)表示在数据集中数据属性x在当前特征中出现的概率，比如说假设数据集有P个样本，假设是P＝9，即9个样本，分别是样本1、样本2、…、样本9，每个样本都有s个特征，分别是特征1、特征2、…、特征s。以特征1为例，假设特征1是温度，9个样本的特征1的具体数据分别是：3、8、7、4、6、11、12、13、9度，假设我们把温度以5度为基准划分属性，比如0-5的划分为一个属性，温度在5-10的划分为一个属性，以此类推。则该9个样本的特征1的数据具有3个属性D¹、D²、D³。其中，D¹(∈[0,5))包含{3,4}，因此D¹出现的概率p(D¹)是2/9,D²(∈[5,10))包含{6,7,8,9}，依次D²出现的概率p(D²)是4/9,D³(∈[10,15])包含{11,12,13}，因此D³出现的概率p(D³)是3/9。因此，根据计算式(1)，可以计算得到特征1的信息熵是：

p(y|x)表示数据属性x存在时符合条件y的条件概率。设上面的数据采集自3个传感器A、B和C，即y包含A、B和C，其中{3,8,7}来自于传感器A；{4,6,11}来自于传感器B；{12,13,9}来自于传感器C。则D¹(∈[0,5))包含{3,4}，分别来自传感器A和B，因此p(A|D¹)是p(B|D¹)是/>p(C|D¹)是0。D²(∈[5,10))包含{6,7,8,9}，其中2个数据来自于传感器A，1个数据来自于传感器B，一个数据来自于传感器C，因此p(A|D²)是/>p(B|D²)是/>p(C|D²)是D³(∈[10,15])包含{11,12,13}，其中1个数据来自于传感器B，2个数据来自于传感器C，因此p(A|D³)是0，p(B|D³)是/>p(C|D³)是/>因此，根据计算式(2)，可以计算得到特征1的条件熵是：

S101b)依据各个特征的信息增益的大小进行排序，选取出排序靠前的若干个特征，依据选取的特征，计算数据集中的各个样本之间的欧氏距离以形成数据热点分布；

比如说，假设已经有9个样本构成的数据集X，X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉}，表示样本x_i由s个特征组成，根据步骤S101a，已经计算了s个特征的信息增益，我们设s为12，设得到12个特征按照其信息增益降序排序依次为{x⁴,x⁷,x¹²,x⁶,x⁸,x³,...,x¹}，我们可以选取靠前的6个特征作为计算数据热点分布的依据，即实际上我们将对每条数据进行特征减少，仅取第4、7、12、6、8、3个特征。可以理解的是，具体选择靠前的多个个特征可以根据情况设置。

S101c)针对每一个样本，为其选取与其欧氏距离最小的样本作为聚类基准；

延续上述例子，样本两两之间的欧式距离，是以所选取的第4、7、12、6、8、3个特征来计算的，具体的，欧式距离是所选取的第4、7、12、6、8、3个特征的误差的平方和再开根号，即样本i和样本j之间的欧式距离L_i,j是：

参考图3，经过步骤S101c的处理，样本1至9找到的聚类基准依次是：2，3，2，2，4，4，3，3，3。

S101d)将具有相同的聚类基准的样本划分到一个分组；

参考图3，经过步骤S101d的处理，作为聚类基准的样本是样本2、3、4，样本1、3、4、9都是以样本2为聚类基准，因此样本1、3、4、9为一个分组，而且该分组的聚类基准是样本2。同理，样本2、7、8为一个分组，而且该分组的聚类基准是样本3。同理，样本5、6为一个分组，而且该分组的聚类基准是样本4。

S101e)将各个分组中的作为其他分组的聚类基准的样本从分组中删除，并将各个分组中的样本以及对应的聚类基准共同作为一个子类。

参考图3，经过步骤S101e，发现以样本2作为聚类基准的分组中的样本1、3、4、9中的样本3、4是另外两个分组的聚类基准，因此将样本3、4从此分组中删除，剩下样本1、9，因此，样本1、9和样本2组成为一个分组。其他两个分组同理进行去重处理，最终形成图3、4所示的子类划分结果。

该步骤具体分为如下几个子步骤：

S102a)将子类排序。

具体的排序方式不做限制。本实施例中，是按照各个子类的欧式距离进行排序。其中，子类的欧氏距离是指的该子类的聚类基准与其他子类的聚类基准的欧式距离之和，例如前面已经得到3个子类，他们的聚类基准分别是样本2、3、4，则第一个子类与另外两个子类的欧式距离即是样本2与样本3、样本4的欧式距离之和，其他子类的欧式距离以此类推。

S102b)对于非首尾的子类，以该子类为目标子类，将目标子类向前的n个子类以作为挑选对象，如果目标子类向前的子类数量不满n，则将目标子类向前的全部子类全部作为挑选对象，从所有的挑选对象中挑选出与目标子类的聚类基准的欧氏距离最小的样本作为目标子类的第一个多重扰动因子；以及，将目标子类向后的n个子类以作为挑选对象，如果目标子类向后的子类数量不满n，则将目标子类向后的全部子类全部作为挑选对象，从所有的挑选对象中挑选出与目标子类的聚类基准的欧氏距离最小的样本作为目标子类的第二个多重扰动因子，基于计算式(4)对进行扰动：

y_i＝x_i+α*(x_i-h_i-n)+β*(x_i-h_i+n) (4)；

S102c)对于为首的子类，以该子类为目标子类，将目标子类向后的n个子类作为挑选对象，从所有的挑选对象中挑选出与目标子类的聚类基准的欧氏距离最小的样本作为目标子类的多重扰动因子，基于计算式(5)进行扰动：

y_i＝x_i+β*(x_i-h_i+n) (5)；

S102d)对于末尾的子类，以该子类为目标子类，将目标子类向前的n个子类作为挑选对象，从所有的挑选对象中挑选出与目标子类的聚类基准的欧氏距离最小的样本作为目标子类的多重扰动因子，基于计算式(6)进行扰动：

y_i＝x_i+α*(x_i-h_i-n) (6)；

以上计算式中(4)-(6)，y_i表示扰动后的样本，x_i表示扰动前的样本，h_i+n表示从向后的子类中挑选出的多重扰动因子，h_i-n表示从向前的子类中挑选出的多重扰动因子，n是正整数，α、β是系数，α、β同为正或者同为负。α、β是需要依据数据的规模和大小进行调节，默认值分别为0.001。

参考图5，假设n取2，即从向前两个子类、向后两个子类分别获取样本作为扰动因子，我们假设最终的子类数量有100个。则：

对于第1个子类，只能从向后的第2、3个子类中挑选样本作为h_i-n，然后基于计算式(5)进行扰动。

对于第2个子类，则向前的子类仅有第1个子类，则只能从第1个子类中挑选h_i-n，但是可以从向后的第3、4个子类中挑选样本作为h_i+n，然后基于计算式(4)进行扰动。

对于第3-98个子类，他们都可以从向前、向后各两个子类中挑选出对应的h_i-n、h_i+n，然后基于计算式(4)进行扰动。

对于第99个子类，即倒数第2个子类，可以从向前的第97、98个子类中挑选样本作为h_i-n，但是其向后的子类仅有第100个子类，所以只能从第100个子类中挑选h_i+n，然后基于计算式(4)进行扰动。

对于第100个子类，即倒数第1个子类，只能从向前的第98、99个子类中挑选样本作为h_i+n，然后基于计算式(6)进行扰动。

实施例二

基于同一发明构思，参考图6，本实施例公开了一种多重数据混淆隐私保护系统，所述系统包括：

无类别数据子类划分模块201，用于对无类别数据集，计算数据集中样本的每一个特征的信息增益，依据特征的信息增益统计数据热点分布，依据热点分布对样本进行分组聚类以得到多个子类；

扰动模块202，用于对于每一个子类，从附近的子类中挑选样本作为多重扰动因子，并利用挑选出的多重扰动因子对该子类中的样本进行扰动。

其中，所述无类别数据子类划分模块201包括：

信息增益计算子模块2011，用于依据数据集中的所有样本的各个特征的具体数据，计算每一个特征的信息熵和条件熵，再根据每一个特征的信息熵和条件熵，计算每一个特征的信息增益；

数据热点分布分析子模块2012，用于依据各个特征的信息增益的大小进行排序，选取出排序靠前的若干个特征，以及依据选取的特征，计算数据集中的各个样本之间的欧氏距离以形成数据热点分布；

子类划分子模块2013，用于针对每一个样本，为其选取与其欧氏距离最小的样本作为聚类基准，将具有相同的聚类基准的样本划分到一个分组，将各个分组中的作为其他分组的聚类基准的样本从分组中删除，并将各个分组中的样本以及对应的聚类基准共同作为一个子类。

本发明实施例的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

上述描述涉及各种模块，这些模块通常包括硬件和/或硬件与软件的组合(例如固化软件)。这些模块还可以包括包含指令(例如，软件指令)的计算机可读介质(例如，永久性介质)，当处理器执行这些指令时，就可以执行本发明的各种功能性特点。相应地，除非明确要求，本发明的范围不受实施例中明确提到的模块中的特定硬件和/或软件特性的限制。作为非限制性例子，本发明在实施例中可以由一种或多种处理器执行软件指令。需要指出的是，上文对各种模块的描述中，分割成这些模块，是为了说明清楚。然而，在实际实施中，各种模块的界限可以是模糊的。例如，本文中的任意或所有功能性模块可以共享各种硬件和/或软件元件。又例如，本文中的任何和/或所有功能模块可以由共有的处理器执行软件指令来全部或部分实施。另外，由一个或多个处理器执行的各种软件子模块可以在各种软件模块间共享。相应地，除非明确要求，本发明的范围不受各种硬件和/或软件元件间强制性界限的限制。

实施例三

基于同一发明构思，本实施例公开了一种多重数据混淆隐私保护系统，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如上实施例所述方法的步骤，具体实现过程可参阅上述方法实施例的描述，此处不再赘述。

实施例四

基于同一发明构思，本实施例公开了一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现如上实施例所述方法的步骤，具体实现过程可参阅上述方法实施例的描述，此处不再赘述。

综上所述，本发明的多重数据混淆隐私保护方法及系统、存储介质，具有以下有益效果：本发明针对城市地下基础设施数据特性，对无类别数据集，计算数据集中样本的每一个特征的信息增益，依据特征的信息增益统计数据热点分布，依据热点分布对样本进行分组聚类以得到多个子类，对于每一个子类，从附近的子类中挑选样本作为多重扰动因子，并利用挑选出的多重扰动因子对该子类中的样本进行扰动，如此实现城市地下基础设施数据混淆隐私保护。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种多重数据混淆隐私保护方法，其特征在于，所述方法包括：

对于每一个子类，从附近的子类中挑选样本作为多重扰动因子，并利用挑选出的多重扰动因子对该子类中的样本进行扰动；

其中，所述的依据热点分布对样本进行分组聚类，包括：针对每一个样本，为其选取与其欧氏距离最小的样本作为聚类基准；将具有相同的聚类基准的样本划分到一个分组；将各个分组中的作为其他分组的聚类基准的样本从分组中删除；并将各个分组中的样本以及对应的聚类基准共同作为一个子类；

其中，所述的对于每一个子类，从附近的子类中挑选样本作为多重扰动因子，包括：

将子类排序；

对于末尾的子类，以该子类为目标子类，将目标子类向前的n个子类作为挑选对象，从所有的挑选对象中挑选出与目标子类的聚类基准的欧氏距离最小的样本作为目标子类的多重扰动因子；

所述的利用挑选出的多重扰动因子对该子类中的样本进行扰动，包括：

对于非首尾的子类，基于计算式(4)对进行扰动：

y_i＝x_i+α*(x_i-h_i-n)+β*(x_i-h_i+n) (4)；

对于为首的子类，基于计算式(5)进行扰动：

y_i＝x_i+β*(x_i-h_i+n) (5)；

对于末尾的子类，基于计算式(6)进行扰动：

y_i＝x_i+α*(x_i-h_i-n) (6)；

以上计算式中，y_i表示扰动后的样本，x_i表示扰动前的样本，h_i+n表示从向后的子类中挑选出的多重扰动因子，h_i-n表示从向前的子类中挑选出的多重扰动因子，n是正整数，α、β是系数，α、β同为正或者同为负。

2.根据权利要求1所述的多重数据混淆隐私保护方法，其特征在于，所述的计算数据集中样本的每一个特征的信息增益，包括：依据数据集中的所有样本的各个特征的具体数据，计算每一个特征的信息熵和条件熵，再根据每一个特征的信息熵和条件熵，计算每一个特征的信息增益。

3.根据权利要求2所述的多重数据混淆隐私保护方法，其特征在于，所述方法中：

依据如下计算式(1)计算每一个特征的信息熵：

H(X)＝-∑p(x)log p(x) (1)；

依据如下计算式(2)计算每一个特征的条件熵：

H(Y|X)＝-∑(p(x)∑p(y|x)log p(y|x)) (2)；

依据如下计算式(3)计算每一个特征的信息增益：

IG(X)＝H(X)-H(Y|X) (3)；

4.根据权利要求1所述的多重数据混淆隐私保护方法，其特征在于，所述的依据特征的信息增益统计数据热点分布，包括：

5.一种多重数据混淆隐私保护系统，其特征在于，所述系统包括：

扰动模块，用于对于每一个子类，从附近的子类中挑选样本作为多重扰动因子，并利用挑选出的多重扰动因子对该子类中的样本进行扰动；

其中，所述无类别数据子类划分模块包括子类划分子模块，用于针对每一个样本，为其选取与其欧氏距离最小的样本作为聚类基准，将具有相同的聚类基准的样本划分到一个分组，将各个分组中的作为其他分组的聚类基准的样本从分组中删除，并将各个分组中的样本以及对应的聚类基准共同作为一个子类；

将子类排序；

对于非首尾的子类，基于计算式(4)对进行扰动：

y_i＝x_i+α*(x_i-h_i-n)+β*(x_i-h_i+n) (4)；

对于为首的子类，基于计算式(5)进行扰动：

y_i＝x_i+β*(x_i-h_i+n) (5)；

对于末尾的子类，基于计算式(6)进行扰动：

y_i＝x_i+α*(x_i-h_i-n) (6)；

6.根据权利要求5所述的多重数据混淆隐私保护系统，其特征在于，所述无类别数据子类划分模块包括：

数据热点分布分析子模块，用于依据各个特征的信息增益的大小进行排序，选取出排序靠前的若干个特征，以及依据选取的特征，计算数据集中的各个样本之间的欧氏距离以形成数据热点分布。

7.一种多重数据混淆隐私保护系统，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的方法的步骤。

8.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的方法的步骤。