CN109543424A

CN109543424A - 数据隐私保护方法、装置、系统及存储介质

Info

Publication number: CN109543424A
Application number: CN201811308408.XA
Authority: CN
Inventors: 孟健; 程万军; 何光宇; 赵赫
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2019-03-29

Abstract

本发明提供一种数据隐私保护方法、装置、系统及存储介质，该方法，包括：通过获取物联网设备发送的原始数据；对所述原始数据进行隐私检测，若所述原始数据中包含有隐私数据，则将所述原始数据标记为机密数据；对所述机密数据进行隐私保护处理，得到处理后的目标数据；将所述目标数据发送给对应的目标接收端。从而实现了在靠近数据源头侧对物联网设备发送的原始数据，采用机器学习的方法进行隐私检测和隐私保护处理，将隐私处理后的数据发送给对应的目标接收端的目的，从而解决数据远距离传输数据过程中的安全问题，提高了隐私保护处理效率，节省了人力物力。

Description

数据隐私保护方法、装置、系统及存储介质

技术领域

本发明涉及物联网技术领域，尤其涉及一种数据隐私保护方法、装置、系统及存储介质。

背景技术

随着物联网技术的发展，各种物联网设备每天都会产生巨大的数据量。在物联网设备产生的数据中，经常会包含一些用户的隐私数据，如果不对这些隐私数据进行防护，则在网络传播中会造成隐私数据的泄露。

现有技术中，物联网设备生成的数据会被统一发送到后台数据中心/云服务器，然后由后台服务器进行数据隐私性检测。而在进行隐私数据判别时，一般采用人工筛查，或者关键词匹配的方式。

但是，人工筛查的方式会耗费大量人力物力，并且很难覆盖所有的数据。而关键词匹配的方式非常依赖于已经收录的关键词库，若收录的关键词库中的关键词不全面，则会造成隐私数据的漏检。另外，由于物联网设备与后台数据中心/云服务器距离很远，数据传输需要经过多跳网络，因此很容易在传输过程中泄露隐私数据。

发明内容

本发明提供一种数据隐私保护方法、装置、系统及存储介质，以实现在靠近数据源头侧对物联网设备发送的原始数据，采用机器学习的方法进行隐私检测和隐私保护处理，将隐私处理后的数据发送给对应的目标接收端的目的，从而解决数据远距离传输数据过程中的安全问题，提高了隐私保护处理效率，节省了人力物力。

第一方面，本发明实施例提供一种数据隐私保护方法，包括：

获取物联网设备发送的原始数据；

对所述原始数据进行隐私检测，若所述原始数据中包含有隐私数据，则将所述原始数据标记为机密数据；

对所述机密数据进行隐私保护处理，得到处理后的目标数据；

将所述目标数据发送给对应的目标接收端。

可选地，对所述原始数据进行隐私检测，包括：

确定所述原始数据的数据类型；其中，所述数据类型包括：文本数据、数字数据；

根据所述原始数据的数据类型，进行不同形式的特征提取，得到所述原始数据对应的向量矩阵；

将所述向量矩阵输入预设的机器学习模型中，由所述预设的机器学习模型输出所述原始数据的检测结果。

可选地，根据所述原始数据的数据类型，进行不同形式的特征提取，得到所述原始数据对应的向量矩阵，包括：

若所述原始数据的数据类型为文本数据，则对所述原始数据进行分词处理，得到对应的文本特征集；其中，分词处理后的文本特征包括：单词、二元词组；

获取所述文本特征集中各个文本特征所对应的特征值；

根据所述特征值，构建所述原始数据对应的向量矩阵。

可选地，获取所述文本特征集中各个文本特征所对应的特征值，包括：

分别获取所述文本特征的文本频率值和逆文本频率值；

计算所述文本频率值和逆文本频率值的乘积，得到所述文本特征的特征值。

可选地，分别获取所述文本特征的文本频率值和逆文本频率值，包括：

将所述文本特征在文本特征集中出现的频率定义为文本频率值S1，S1的计算公式如下：

其中，n为文本特征在文本特征集中出现的次数，N为所有文本特征在文本特征集中出现的次数总和；

所述逆文本频率值S2的计算公式如下：

其中：D为知识库中总文件数目，C为包含对应文本特征的文件的数目。

若所述原始数据的数据类型为数字数据，则将所述数字数据中的数字按照预设的格式，组成对应的向量矩阵。

可选地，所述预设的机器学习模型采用训练好的支持向量机模型。

可选地，在对所述原始数据进行隐私检测之后，还包括：

若所述原始数据中未包含有隐私数据，则直接将所述原始数据发送给对应的目标接收端。

可选地，对所述机密数据进行隐私保护处理，得到处理后的目标数据，包括：

对所述机密数据中的隐私数据进行去隐私化处理，去隐私化处理方式包括：K-匿名化，I-多样性、差分隐私。

第二方面，本发明实施例提供一种数据隐私保护装置，包括：

获取模块，用于获取物联网设备发送的原始数据；

隐私检测模块，用于对所述原始数据进行隐私检测，若所述原始数据中包含有隐私数据，则将所述原始数据标记为机密数据；

处理模块，用于对所述机密数据进行隐私保护处理，得到处理后的目标数据；

转发模块，用于将所述目标数据发送给对应的目标接收端。

可选地，隐私检测模块，具体用于：

获取所述文本特征集中各个文本特征所对应的特征值；

根据所述特征值，构建所述原始数据对应的向量矩阵。

分别获取所述文本特征的文本频率值和逆文本频率值；

所述逆文本频率值S2的计算公式如下：

可选地，还包括：

分流模块，用于在对所述原始数据进行隐私检测之后，若所述原始数据中未包含有隐私数据，则直接将所述原始数据发送给对应的目标接收端。

可选地，处理模块，具体用于：

第三方面，本发明实施例提供一种数据隐私保护系统，包括：存储器和处理器，存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的数据隐私保护方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一项所述的数据隐私保护方法。

本发明提供一种数据隐私保护方法、装置、系统及存储介质，通过获取物联网设备发送的原始数据；对所述原始数据进行隐私检测，若所述原始数据中包含有隐私数据，则将所述原始数据标记为机密数据；对所述机密数据进行隐私保护处理，得到处理后的目标数据；将所述目标数据发送给对应的目标接收端。从而实现了在靠近数据源头侧对物联网设备发送的原始数据，采用机器学习的方法进行隐私检测和隐私保护处理，将隐私处理后的数据发送给对应的目标接收端的目的，从而解决数据远距离传输数据过程中的安全问题，提高了隐私保护处理效率，节省了人力物力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一应用场景的原理示意图；

图2为本发明实施例一提供的数据隐私保护方法的流程图；

图3为本发明实施例二提供的数据隐私保护方法的流程图；

图4为本发明实施例三提供的数据隐私保护装置的结构示意图；

图5为本发明实施例四提供的数据隐私保护装置的结构示意图；

图6为本发明实施例五提供的数据隐私保护系统的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明一应用场景的原理示意图，如图1所示，本发明提供的数据隐私保护装置部署在靠近数据源头侧的物联网设备，物联网设备包括各种传感器以及能够采集并生成数据的计算机设备，例如亮度、湿度、温度传感器，能够采集人体身体状况的智能手环设备，采集位置信息以及行动轨迹的行车记录仪和手机，以及企业中各员工的办公电脑等。对于物联网设备的任何需要外发的数据，首先需要先经过数据隐私保护装置的处理。这些数据包括：物联网传感器，智能手环等设备的数据、企业办公电脑对外发送的邮件，文档以及需要发送后台数据中心备份和分析的数据。数据隐私保护装置通过获取模块获取物联网设备发送的原始数据，隐私检测模块对原始数据进行隐私检测。通过分流模块对数据进行分流处理：若原始数据中包含有隐私数据，则通过处理模块对原始数据进行隐私保护处理，最后通过转发模块根据其目的地址，对外发送给对应的目标接收端；若原始数据中未包含有隐私数据，则直接将原始数据通过转发模块根据其目的地址，对外发送给对应的目标接收端。其中，目标接收端包括后台数据中心、云服务器等。

从而实现了在靠近数据源头侧对物联网设备发送的原始数据，采用机器学习的方法进行隐私检测和隐私保护处理，将隐私处理后的数据发送给对应的目标接收端的目的，从而解决数据远距离传输数据过程中的安全问题，提高了隐私保护处理效率，节省了人力物力。

应用上述方法可以实现在靠近数据源头侧对物联网设备发送的原始数据，采用机器学习的方法进行隐私检测和隐私保护处理，将隐私处理后的数据发送给对应的目标接收端的目的，从而解决数据远距离传输数据过程中的安全问题，提高了隐私保护处理效率，节省了人力物力。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为本发明实施例一提供的数据隐私保护方法的流程图，如图2所示，本实施例中的方法可以包括：

S101、获取物联网设备发送的原始数据。

本实施例中，物联网设备包括各种传感器以及能够采集并生成数据的计算机设备，例如亮度、湿度、温度传感器，能够采集人体身体状况的智能手环设备，采集位置信息以及行动轨迹的行车记录仪和手机，以及企业中各员工的办公电脑等。获取的物联网设备发送的原始数据是指物联网设备的任何需要外发的数据，包括：物联网传感器，智能手环等设备对外发送的位置信息，心电数据、年龄信息等个人隐私信息，运动数据等、企业办公电脑对外发送的邮件，文档、机密邮件，体检报告，信用报告等以及需要发送后台数据中心备份和分析的数据。

S102、对原始数据进行隐私检测，若原始数据中包含有隐私数据，则将原始数据标记为机密数据。

本实施例中，确定原始数据的数据类型；其中，数据类型包括：文本数据、数字数据；根据原始数据的数据类型，进行不同形式的特征提取，得到原始数据对应的向量矩阵；将向量矩阵输入预设的机器学习模型中，由预设的机器学习模型输出原始数据的检测结果。

在一种可能的设计中，若原始数据的数据类型为文本数据，则对原始数据进行分词处理，得到对应的文本特征集；获取文本特征集中各个文本特征所对应的特征值；根据特征值，构建原始数据对应的向量矩阵。可选地，获取文本特征集中各个文本特征所对应的特征值，包括：分别获取文本特征的文本频率值和逆文本频率值；计算文本频率值和逆文本频率值的乘积，得到文本特征的特征值。其中，将文本特征在文本特征集中出现的频率定义为文本频率值S1，S1的计算公式如下：

逆文本频率值S2的计算公式如下：

具体地，通过数据后缀或者特定格式来区分等方式确定为文本数据的原始数据，首先对原始数据进行分词，形成词集。例如“张三，住在北京市海淀区安宁庄西路9号院，年龄33”这条原始数据，进行分词处理得到分词结果为：张三、住、在、北京市、海淀区、安宁庄、西路、9、号院、年龄、33、岁。然后，提取文本特征，形成特征集，采用单词+二元词组的方式。上述例子特征集为：张三、住、在、北京市、海淀区、安宁庄、西路、9、号院、年龄、33、岁、张三住、住在、在北京市、北京市海淀区、海淀区安宁庄、安宁庄西路、西路9、9号院、号院年龄、年龄33、33岁。再然后，计算每个文本的特征值，形成一个列表。然后，计算上述各特征的文本频率值S1和逆文本频率值S2，获取文本特征集中各个文本特征所对应的特征值，计算文本频率值S1和逆文本频率值S2的乘积，得到文本特征的特征值T。例如，上述例子特征值分别为T1,T2,T3,T4,T5,T6……。最后，构建特征值向量矩阵{T1,T2,T3,T4,T5,T6……}，这样知识库中的所有样例文本均形成这种向量矩阵，并带有是隐私数据，还是非隐私数据的标签。将这些向量矩阵输入预设的机器学习模型，获得原始数据的检测结果。可选地，预设的机器学习模型采用训练好的支持向量机模型。

在另一种可能的设计中，若原始数据的数据类型为数字数据，则将数字数据中的数字按照预设的格式，组成对应的向量矩阵。

具体地，对于原始数据的数据类型为数字数据，则按照统一格式，将数据组织成向量{A1,A2,A3,..}，比如GPS定位的一组数据，就是这样一个12维向量，多组数据组成向量矩阵，输入预设的机器学习模型，获得原始数据的检测结果。

S103、对机密数据进行隐私保护处理，得到处理后的目标数据。

本实施例中，对机密数据中的隐私数据进行去隐私化处理，去隐私化处理方式包括：K-匿名化，I-多样性、差分隐私。这些去隐私处理方式都是现有的成熟的去隐私处理方法，此处不再赘述。隐私保护处理后获得的数据为去除隐私后的目标数据，可以对外发送。

S104、将目标数据发送给对应的目标接收端。

本实施例中，根据其目的地址，将目标数据对外发送给对应的目标接收端；其中，目标接收端包括后台数据中心、云服务器等。

需要说明的是，本实施例不限定目标接收端的类型，本领域的技术人员可以根据实际情况增加或者减少目标接收端的类型。

本实施例，通过获取物联网设备发送的原始数据；对原始数据进行隐私检测，若原始数据中包含有隐私数据，则将原始数据标记为机密数据；对机密数据进行隐私保护处理，得到处理后的目标数据；将目标数据发送给对应的目标接收端。从而实现了在靠近数据源头侧对物联网设备发送的原始数据，采用机器学习的方法进行隐私检测和隐私保护处理，将隐私处理后的数据发送给对应的目标接收端的目的，从而解决数据远距离传输数据过程中的安全问题，提高了隐私保护处理效率，节省了人力物力。

图3为本发明实施例二提供的数据隐私保护方法的流程图，如图3所示，本实施例中的方法可以包括：

S201、获取物联网设备发送的原始数据。

S202、对原始数据进行隐私检测，若原始数据中包含有隐私数据，则将原始数据标记为机密数据。

S203、对机密数据进行隐私保护处理，得到处理后的目标数据。

S204、将目标数据发送给对应的目标接收端。

本实施例中，步骤S201～步骤S204的具体实现过程和技术原理请参见图2所示的方法中步骤S101～步骤S104中的相关描述，此处不再赘述。

S205、若原始数据中未包含有隐私数据，则直接将原始数据发送给对应的目标接收端。

本实施例中，对于原始数据中未包含有隐私数据，则通过分流模块直接将原始数据发送给对应的目标接收端，不需要进行隐私保护处理。

另外，本实施例对于原始数据中未包含有隐私数据，则通过分流模块直接将原始数据发送给对应的目标接收端，不需要进行隐私保护处理，提高了处理效率。

图4为本发明实施例三提供的数据隐私保护装置的结构示意图，如图4所示，本实施例的数据隐私保护装置可以包括：

获取模块31，用于获取物联网设备发送的原始数据；

隐私检测模块32，用于对原始数据进行隐私检测，若原始数据中包含有隐私数据，则将原始数据标记为机密数据；

处理模块33，用于对机密数据进行隐私保护处理，得到处理后的目标数据；

转发模块34，用于将目标数据发送给对应的目标接收端。

在一种可能的设计中，隐私检测模块32，具体用于：

确定原始数据的数据类型；其中，数据类型包括：文本数据、数字数据；

根据原始数据的数据类型，进行不同形式的特征提取，得到原始数据对应的向量矩阵；

将向量矩阵输入预设的机器学习模型中，由预设的机器学习模型输出原始数据的检测结果。

在一种可能的设计中，根据原始数据的数据类型，进行不同形式的特征提取，得到原始数据对应的向量矩阵，包括：

若原始数据的数据类型为文本数据，则对原始数据进行分词处理，得到对应的文本特征集；

获取文本特征集中各个文本特征所对应的特征值；

根据特征值，构建原始数据对应的向量矩阵。

在一种可能的设计中，获取文本特征集中各个文本特征所对应的特征值，包括：

分别获取文本特征的文本频率值和逆文本频率值；

计算文本频率值和逆文本频率值的乘积，得到文本特征的特征值。

在一种可能的设计中，分别获取文本特征的文本频率值和逆文本频率值，包括：

将文本特征在文本特征集中出现的频率定义为文本频率值S1，S1的计算公式如下：

逆文本频率值S2的计算公式如下：

若原始数据的数据类型为数字数据，则将数字数据中的数字按照预设的格式，组成对应的向量矩阵。

在一种可能的设计中，预设的机器学习模型采用训练好的支持向量机模型。

在一种可能的设计中，处理模块33，具体用于：

对机密数据中的隐私数据进行去隐私化处理，去隐私化处理方式包括：K-匿名化，I-多样性、差分隐私。

本实施例的数据隐私保护装置，可以执行图2所示方法中的技术方案，其具体实现过程和技术原理参见图2所示方法中的相关描述，此处不再赘述。

图5为本发明实施例四提供的数据隐私保护装置的结构示意图，如图5所示，本实施例的数据隐私保护装置在图4所示装置的基础上，还可以包括：

分流模块35，用于在对原始数据进行隐私检测之后，若原始数据中未包含有隐私数据，则直接将原始数据发送给对应的目标接收端。

本实施例的数据隐私保护装置，可以执行图2、图3所示方法中的技术方案，其具体实现过程和技术原理参见图2、图3所示方法中的相关描述，此处不再赘述。

图6为本发明实施例五提供的数据隐私保护系统的结构示意图，如图6所示，本实施例的数据隐私保护系统40可以包括：处理器41和存储器42。

存储器42，用于存储计算机程序(如实现上述数据隐私保护方法的应用程序、功能模块等)、计算机指令等；

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器42中。并且上述的计算机程序、计算机指令、数据等可以被处理器41调用。

处理器41，用于执行存储器42存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器41和存储器42可以是独立结构，也可以是集成在一起的集成结构。当处理器41和存储器42是独立结构时，存储器42、处理器41可以通过总线43耦合连接。

本实施例的服务器可以执行图2、图3所示方法中的技术方案，其具体实现过程和技术原理参见图2、图3所示方法中的相关描述，此处不再赘述。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当用户设备的至少一个处理器执行该计算机执行指令时，用户设备执行上述各种可能的方法。

其中，计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

本申请还提供一种程序产品，程序产品包括计算机程序，计算机程序存储在可读存储介质中，服务器的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得服务器实施上述本发明实施例任一的数据隐私保护方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据隐私保护方法，其特征在于，包括：

获取物联网设备发送的原始数据；

将所述目标数据发送给对应的目标接收端。

2.根据权利要求1所述的方法，其特征在于，对所述原始数据进行隐私检测，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述原始数据的数据类型，进行不同形式的特征提取，得到所述原始数据对应的向量矩阵，包括：

若所述原始数据的数据类型为文本数据，则对所述原始数据进行分词处理，得到对应的文本特征集；

获取所述文本特征集中各个文本特征所对应的特征值；

根据所述特征值，构建所述原始数据对应的向量矩阵。

4.根据权利要求3所述的方法，其特征在于，获取所述文本特征集中各个文本特征所对应的特征值，包括：

分别获取所述文本特征的文本频率值和逆文本频率值；

5.根据权利要求4所述的方法，其特征在于，分别获取所述文本特征的文本频率值和逆文本频率值，包括：

所述逆文本频率值S2的计算公式如下：

6.根据权利要求2所述的方法，其特征在于，根据所述原始数据的数据类型，进行不同形式的特征提取，得到所述原始数据对应的向量矩阵，包括：

7.一种数据隐私保护装置，其特征在于，包括：

获取模块，用于获取物联网设备发送的原始数据；

转发模块，用于将所述目标数据发送给对应的目标接收端。

8.根据权利要求7所述的装置，其特征在于，隐私检测模块，具体用于：

9.一种数据隐私保护系统，其特征在于，包括：存储器和处理器，存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-6中任一项所述的数据隐私保护方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述的数据隐私保护方法。