CN114722137A

CN114722137A - 基于敏感数据识别的安全策略配置方法、装置及电子设备

Info

Publication number: CN114722137A
Application number: CN202110005330.XA
Authority: CN
Inventors: 张秀蕾; 粟栗; 刘芳; 徐世权; 米婧; 杨亭亭
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2022-07-08

Abstract

本申请实施例提供一种基于敏感数据识别的安全策略配置方法、装置及电子设备，属于数据安全技术领域。该方法包括：基于历史的敏感识别规则和历史敏感数据，利用机器学习模型，生成当前的敏感识别规则；其中，敏感识别规则用于识别敏感数据；基于当前的敏感识别规则，从源数据中识别第一敏感数据和第二敏感数据；其中，第一敏感数据和第二敏感数据具有相同的敏感标签；从安全策略库中，获取第一敏感数据的第一安全策略；根据所述第一安全策略，确定所述第二敏感数据的第二安全策略。本申请能够解决敏感数据识别效率低、准确率低以及安全策略更新不及时的问题。

Description

基于敏感数据识别的安全策略配置方法、装置及电子设备

技术领域

本申请实施例涉及数据安全技术领域，具体涉及一种基于敏感数据识别的安全策略配置方法、装置及电子设备。

背景技术

随着越来越多的业务基于大数据等新兴技术开展，数据已经成为一种全新的生产要素，是数字经济发展的动力。随着数据价值凸显，敏感的数据吸引了大量的攻击者，做好数据安全防护是国家的要求、企业的责任。为保障数据安全，通常需要数据脱敏、数据访问控制、数据审计等多种安全策略对敏感数据进行防护。这些数据防护能力建立的基础是对数据的敏感程度、存储位置等有充分的了解，即能够高效准确地识别敏感数据。敏感数据资产不清晰、数据安全管理策略更新不及时是数据安全治理中常见问题。

在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请实施例的目的是提供一种基于敏感数据识别的安全策略配置方法、装置及电子设备，能够解决现有技术中敏感数据识别效率低、准确率低以及安全策略更新不及时的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种基于敏感数据识别的安全策略配置方法，包括：

基于历史的敏感识别规则和历史敏感数据，利用机器学习模型，生成当前的敏感识别规则；其中，敏感识别规则用于识别敏感数据；

基于当前的敏感识别规则，从源数据中识别第一敏感数据和第二敏感数据；其中，所述第一敏感数据和所述第二敏感数据具有相同的敏感标签；

从安全策略库中，获取第一敏感数据的第一安全策略；其中，所述第一安全策略包括：第一访问策略、第一脱敏策略、第一审计策略；

根据所述第一安全策略，确定所述第二敏感数据的第二安全策略；其中，所述第二安全策略包括：第二访问策略、第二脱敏策略、第二审计策略。

在本申请的一种示例性实施例中，所述根据所述第一安全策略，确定所述第二敏感数据的第二安全策略，包括：

若所述安全策略库中不存在所述第二敏感数据的所述第二安全策略，则配置所述第二敏感数据的第二安全策略为所述第一敏感数据的第一安全策略；或，

若所述安全策略库中存在所述第二敏感数据的第二安全策略，则根据所述第一敏感数据的第一安全策略，优化所述第二敏感数据的第二安全策略。

在本申请的一种示例性实施例中，所述根据所述第一敏感数据的第一安全策略，优化所述第二敏感数据的第二安全策略，包括：

根据所述第一敏感数据的第一访问策略，修改所述第二敏感数据的第二访问策略；或，

在所述第二敏感数据的第二脱敏策略中增加所述第一敏感数据的第一脱敏策略；或，

在所述第二敏感数据的第二审计策略中增加所述第一敏感数据的第一审计策略。

在本申请的一种示例性实施例中，所述根据所述第一敏感数据的第一访问策略，修改所述第二敏感数据的第二访问策略，包括：

若所述第二敏感数据中存在与所述第一敏感数据中相同的第一用户，则设置所述第二敏感数据中所述第一用户的访问权限，与所述第一敏感数据中所述第一用户的访问权限一致；和/或，

若第二敏感数据中存在与第一敏感数据中不相同的第二用户，则设置所述第二敏感数据中所述第二用户的访问权限保持不变。

在本申请的一种示例性实施例中，所述基于历史的敏感识别规则和历史敏感数据，利用机器学习模型，生成当前的敏感识别规则，包括：

利用机器学习模型，训练所述历史敏感数据，生成新的敏感识别规则；

在所述历史的敏感识别规则中增加所述新的敏感识别规则，生成所述当前的敏感识别规则。

在本申请的一种示例性实施例中，所述利用机器学习模型，训练所述历史敏感数据，生成新的敏感识别规则，包括：

获取所述历史敏感数据；

利用机器学习模型，从所述历史敏感数据中提取关键词；

将提取出的关键词转化为词向量并构建语义空间；其中，所述语义空间中的词向量之间具有语义关系；

将所述词向量中语义关系相近的词向量聚类，生成子语义空间；

基于所述子语义空间，获取频繁项集；

根据所述频繁项集，获取潜在关联规则；

将分析出的潜在关联规则作为新的敏感识别规则。

在本申请的一种示例性实施例中，所述利用机器学习模型，从所述历史敏感数据中提取关键词，包括：

预设敏感词；

利用机器学习模型，从所述历史敏感数据中提取所述预设敏感词的关联词；

若所述关联词满足预设条件，则确定所述关联词为所述关键词。

在本申请的一种示例性实施例中，所述若所述关联词满足预设条件，则所述关联词为所述关键词，包括：

若所述关联词的数量大于或等于预设数量，则确定所述关联词为所述关键词；或，

若所述关联词的比例大于或等于预设比例，则确定所述关联词为所述关键词。

在本申请的一种示例性实施例中，所述基于当前的敏感识别规则，从源数据中识别第一敏感数据和第二敏感数据，包括：

获取源数据；

为所述源数据创建数据索引；

查询所述数据索引中与所述当前的敏感识别规则匹配的数据索引；

基于匹配成功的数据索引，生成敏感数据；其中，所述敏感数据包括所述第一敏感数据和第二敏感数据。

在本申请的一种示例性实施例中，所述方法还包括：

获取所述第一敏感数据的标签属性；其中，所述标签属性包括标签类别属性、标签级别属性；

根据所述第一敏感数据的标签属性，生成所述第一敏感数据的敏感标签；

获取所述第二敏感数据的标签属性；

根据所述第二敏感数据的标签属性，生成所述第二敏感数据的敏感标签。

在本申请的一种示例性实施例中，所述基于匹配成功的数据索引，生成敏感数据，包括：

预设匹配度阈值；

基于匹配度阈值，筛选匹配成功的数据索引；

根据筛选出的数据索引，生成敏感数据。

第二方面，本申请实施例提供了一种基于敏感数据识别的安全策略配置装置，包括：

第一生成模块，用于基于历史的敏感识别规则和历史敏感数据，利用机器学习模型，生成当前的敏感识别规则；其中，敏感识别规则用于识别敏感数据；

识别模块，用于基于当前的敏感识别规则，从源数据中识别第一敏感数据和第二敏感数据；其中，所述第一敏感数据和所述第二敏感数据具有相同的敏感标签；

第一获取模块，用于从安全策略库中，获取所述第一敏感数据的第一安全策略；其中，所述第一安全策略包括：第一访问策略、第一脱敏策略、第一审计策略；

确定模块，用于根据所述第一安全策略，确定所述第二敏感数据的第二安全策略；其中，所述第二安全策略包括：第二访问策略、第二脱敏策略、第二审计策略。

在本申请的一种示例性实施例中，所述确定模块，包括：

配置子模块，用于若所述安全策略库中不存在所述第二敏感数据的第二安全策略，则配置所述第二敏感数据的第二安全策略为所述第一敏感数据的第一安全策略；或，

优化子模块，用于若所述安全策略库中存在所述第二敏感数据的第二安全策略，则根据所述第一敏感数据的第一安全策略，优化所述第二敏感数据的第二安全策略。

在本申请的一种示例性实施例中，所述优化子模块，包括：

修改单元，用于根据所述第一敏感数据的第一访问策略，修改所述第二敏感数据的第二访问策略；或，

第一增加单元，用于在所述第二敏感数据的第二脱敏策略中增加所述第一敏感数据的第一脱敏策略；或，

第二增加单元，用于在所述第二敏感数据的第二审计策略中增加所述第一敏感数据的第一审计策略。

在本申请的一种示例性实施例中，所述修改单元包括：

同步子单元，用于若所述第二敏感数据中存在与所述第一敏感数据中相同的第一用户，则设置所述第二敏感数据中所述第一用户的访问权限，与所述第一敏感数据中所述第一用户的访问权限一致；和/或，

保持子单元，用于若第二敏感数据中存在与第一敏感数据中不相同的第二用户，则设置所述第二敏感数据中所述第二用户的访问权限保持不变。

在本申请的一种示例性实施例中，所述第一生成模块，包括：

训练子模块，用于利用机器学习模型，训练所述历史敏感数据，生成新的敏感识别规则；

第一生成子模块，用于在所述历史的敏感识别规则中增加所述新的敏感识别规则，生成所述当前的敏感识别规则。

在本申请的一种示例性实施例中，训练子模块包括：

第一获取单元，用于获取所述历史敏感数据；

提取单元，用于利用机器学习模型，从所述历史敏感数据中提取关键词；

构建单元，用于将提取出的关键词转化为词向量并构建语义空间；其中，所述语义空间中的词向量之间具有语义关系；

第一生成单元，用于将所述词向量中语义关系相近的词向量聚类，生成子语义空间；

第二获取单元，用于基于所述子语义空间，获取频繁项集；

第三获取单元，用于根据所述频繁项集，获取潜在关联规则；

第二生成单元，用于将分析出的潜在关联规则作为新的敏感识别规则。

在本申请的一种示例性实施例中，所述提取单元包括：

预设子单元，用于预设敏感词；

提取子单元，用于利用机器学习模型，从所述历史敏感数据中提取所述预设敏感词的关联词；

生成子单元，用于若所述关联词满足预设条件，则确定所述关联词为所述关键词。

在本申请的一种示例性实施例中，所述提取单元还用于：

在本申请的一种示例性实施例中，所述识别模块包括：

获取子模块，用于获取源数据；

创建子模块，用于为所述源数据创建数据索引；

查询子模块，用于查询所述数据索引中与所述当前的敏感识别规则匹配的数据索引；

第二生成子模块，用于基于匹配成功的数据索引，生成敏感数据；其中，所述敏感数据包括所述第一敏感数据和第二敏感数据。

在本申请的一种示例性实施例中，所述装置还包括：

第二获取模块，用于获取所述第一敏感数据的标签属性；其中，所述标签属性包括标签类别属性、标签级别属性；

第二生成模块，用于根据所述第一敏感数据的标签属性，生成所述第一敏感数据的敏感标签；

第三获取模块，用于获取所述第二敏感数据的标签属性；

第三生成模块，用于根据所述第二敏感数据的标签属性，生成所述第二敏感数据的敏感标签。

在本申请的一种示例性实施例中，所述第二生成子模块包括：

设置单元，用于预设匹配度阈值；

筛选单元，用于基于匹配度阈值，筛选匹配成功的数据索引；

第三生成单元，用于根据筛选出的数据索引，生成敏感数据。

第三方面，本申请实施例提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的基于敏感数据识别的安全策略配置方法中的步骤。

第四方面，本申请实施例提供了一种可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被处理器执行时实现如上所述的基于敏感数据识别的安全策略配置方法中的步骤。

本申请的上述技术方案的有益效果如下：

本申请实施例，通过敏感数据自动识别和敏感规则扩充技术，弥补敏感数据安全策略的遗漏和不足，实现敏感数据安全策略同步。通过机器学习扩充敏感识别规则库，提高敏感数据识别的准确率，实现敏感数据识别的良性循环。

附图说明

通过参照附图详细描述其示例实施例，本申请的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的流程图。

图2是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的当前的敏感识别规则生成示意图。

图3是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的敏感数据识别示意图。

图4是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的敏感识别规则库的结构示意图。

图5是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的敏感数据库的结构示意图。

图6是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的安全策略库的结构示意图。

图7是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的安全策略优化流程示意图。

图8是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的安全策略优化结果示意图。

图9是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置装置的框图。

图10是根据一示例性实施例示出的另一种基于敏感数据识别的安全策略配置装置的框图。

图11是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请的发明人发现，现有技术在敏感数据识别以及敏感数据的安全策略优化方面存在两方面问题：(1)数据保护主要是通过自动发现敏感数据，根据预先定义的安全措施和分类分级规则对敏感数据进行保护和监控，没有涉及针对敏感数据安全策略的不完善进行优化和同步；(2)提出了基于自然语言分析实现自动发现敏感数据，但没有考虑在敏感数据识别实施过程中，通常会面对数据量巨大且数据源来源于重要生产环境以及敏感识别规则不完善等实际情况，现存技术可能会产生系统开销大、识别效率及准确率低等问题。

有鉴于现有技术中存在的种种困境，本方案提出了一种基于敏感数据识别的安全策略配置方法，能够通过敏感数据自动识别和敏感规则扩充技术，弥补敏感数据安全策略的遗漏和不足，实现敏感数据安全策略同步。通过机器学习扩充敏感识别规则库，提高敏感数据识别的准确率，实现敏感数据识别的良性循环。

图1是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的流程图；基于敏感数据识别的安全策略配置方法至少包括：

S102：基于历史的敏感识别规则和历史敏感数据，利用机器学习模型，生成当前的敏感识别规则。

其中，所述敏感识别规则用于识别敏感数据。

可选地，步骤S102至少包括：

其中，利用机器学习模型，训练所述历史敏感数据，生成新的敏感识别规则，进一步可以包括：

获取所述历史敏感数据；

利用机器学习模型，从所述历史敏感数据中提取关键词；

基于所述子语义空间，获取频繁项集；

根据所述频繁项集，获取潜在关联规则；

将分析出的潜在关联规则作为新的敏感识别规则。

其中，所述利用机器学习模型，从所述历史敏感数据中提取关键词，进一步可以包括：

预设敏感词；

其中，所述若所述关联词满足预设条件，则确定所述关联词为所述关键词，进一步可以包括：

S104：基于当前的敏感识别规则，从源数据中识别第一敏感数据和第二敏感数据。

其中，所述第一敏感数据和所述第二敏感数据具有相同的敏感标签。

可选地，步骤S104至少包括：

获取源数据；

为所述源数据创建数据索引；

其中，所述方法还可以包括：

获取所述第二敏感数据的标签属性；

其中，所述基于匹配成功的数据索引，生成敏感数据，进一步可以包括：

预设匹配度阈值；

基于匹配度阈值，筛选匹配成功的数据索引；

根据筛选出的数据索引，生成敏感数据。

S106：从安全策略库中，获取第一敏感数据的第一安全策略。

其中，所述第一安全策略包括：第一访问策略、第一脱敏策略、第一审计策略。

S108：根据所述第一安全策略，确定所述第二敏感数据的第二安全策略。

其中，所述第二安全策略包括：第二访问策略、第二脱敏策略、第二审计策略。

其中，所述根据所述第一安全策略，确定所述第二敏感数据的第二安全策略，进一步可以包括：

若所述安全策略库中不存在所述第二敏感数据的第二安全策略，则配置所述第二敏感数据的第二安全策略为所述第一敏感数据的第一安全策略；或，

其中，所述根据所述第一敏感数据的第一安全策略，优化所述第二敏感数据的第二安全策略，进一步可以包括：

其中，所述根据所述第一敏感数据的第一访问策略，修改所述第二敏感数据的第二访问策略，进一步可以包括：

作为示例，对本申请的基于敏感数据识别的安全策略配置方法作进一步详细描述。

由于敏感数据库中的敏感数据中存在未被识别的敏感词，进而未被识别的敏感词与其关联词语之间也未建立关联关系，没有相应的敏感识别规则可用于识别这些未被识别的敏感词。

因此需要对敏感数据库中的敏感数据进行训练以识别出更多的目标敏感词，并且根据识别出的目标敏感词建立新的敏感识别规则，并且将这些新的敏感识别规则增加到历史的敏感识别规则以对其进行扩充。

参考图2，敏感规则的扩充流程如下：

敏感规则扩充模块利用机器学习训练敏感数据库中的敏感数据内容的文本信息，挖掘出其他可以识别出更多目标的短文本(即敏感词)，并通过关联规则提高敏感数据识别准确率。扩充的规则可以再次用于敏感数据识别，实现良性循环的敏感识别，使敏感数据的识别范围更全面。敏感规则扩充模块包括提取关键词，扩充敏感词库以及挖掘规则关联。

进一步地，对获取的敏感数据文本信息进行预处理，提取关键词。

文本信息预处理的主要是对针对敏感数据文本信息中的干扰项进行统一处理，包括数字、特殊符号，繁简体等。提取关键词首先通过分词工具进行分词，同时删除无用词和停用词。此外如电话号码、银行卡号等类型的数字可通过正则识别并使用统一的词语替换处理。然后可利用TF-IDF可计算词汇权重，依据权重可自定义设置关键词个数或者设置阈值获得指定的关键词。

进一步地，基于语义空间聚类生成子语义空间，扩充敏感词库。

利用字到矢量(word to vector，Word2Vec)思想将提取出的关键词转化为词向量并构建语义空间，基于敏感标签属性和规则信息，采取切割语义空间的思想，实现针对敏感标签规则的敏感词库扩充。即利用聚类算法划分语义空间，将语义上相近的词向量聚类生成子语义空间，并将子语义空间内相似度不小于阈值(如0.97)的词汇生成“或”关系(如A1|A2|A3…|An)即自动生成近义词词典。其中，表1为敏感词库扩充的子语义空间部分词汇表。

表1

进一步地，使用关联规则算法，扩充敏感识别规则。

敏感识别规则组成可包括N个敏感词以及敏感词之间的关联关系，其中关联关系可以为“与(&)”、“或(|)”、“非(！)”的一种或者多种组合，表现形式为：

(A1|A2)&(B1|B2|B3)&…！(F1|F2|F3)

利用关联规则算法(如频繁模式(Frequent Pattern，FP-Growth算法)，基于子语义空间并行挖掘频繁项集，发现敏感词间的潜在关联规则。生成的规则可针对敏感数据库的训练语料进行测试评估，进而删除其中敏感词个数过多和过少的策略，同时针对规则的包含、重复以及交叉关系进一步筛选，更精简的实现敏感识别规则扩充。

敏感识别规则库扩充后，可利用其中的敏感识别规则识别敏感数据。

图3是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的敏感数据识别示意图。图4是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的敏感识别规则库的结构示意图。图5是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的敏感数据库的结构示意图。

参考图3、图4和图5，对敏感数据识别的流程进行详细描述。

敏感识别规则库包含敏感标签的属性以及敏感识别规则。敏感识别规则主要是从数据类型入手，为不同的数据设置不同的检测规则，如为电子邮件(e-mail)检测设置正则表达式，为中文检测设置敏感词，基于规范的数据字典配置列名规则。敏感标签属性即参照分类分级相关规范以及敏感数据识别需求，配置敏感标签的类别与级别，即该标签匹配的数据应属于何种类别、级别，作为标记敏感数据的依据。

敏感数据识别模块通过索引技术，如全文搜索引擎(Lucene)实现敏感数据识别，并为索引增加属性，提高敏感数据识别效率和准确率，主要包括创建索引、查询索引以及标记敏感数据。

基于Lucene框架为敏感识别的源数据创建数据索引，包括为每一个数据创建文档对象(Document)并添加属性，包括但不限于位置属性(如数据库中数据所在的库、表、列等)、内容属性(即当前数据值)以及数量属性(如数据库的某列包含的数据量)；分析文档，将词汇分为一个个可理解的单词；对所有文档分析得出的语汇单元进行索引，最终实现只搜索被索引的语汇单元即可找到对应的Document以及相关的属性。

基于索引进行敏感识别规则匹配，即依据敏感识别规则库的具体规则查询是否有索引内容命中。基于Lucene框架可以使用查询(Query)抽象类定义查询对象，支持条件之间且、或以及非的关联查询。Lucene搜索结果可通过顶级文档(TopDocs)遍历，对敏感数据识别结果可以设置一个匹配度阈值，匹配的数量/当前数据的数量属性超过阈值即为匹配成功，可将信息标记为敏感信息。

标记敏感数据根据与识别规则成功匹配的索引获取数据的相关属性，并依据敏感标签属性标记敏感数据的级别类别，同时将标记信息保存到敏感数据库。若同一数据存在多次成功匹配，则依据敏感标签属性的级别进行比较，当后一次匹配的标签级别高于已存结果的标签级别时，更新标记信息。

敏感数据库包含敏感数据内容、敏感数据位置(唯一标识)以及敏感数据命中的标签、数据级别和类别。

通过敏感数据识别模块对源数据中的敏感数据进行识别，获取到1，2……i组敏感数据，并且获取到敏感数据内容和敏感数据位置，并且根据敏感数据的数据类别和数据级别为敏感数据设置敏感标签，可例如，敏感标签为S和S1等。

获取到敏感数据后，对敏感数据的安全策略进行分析与同步。

策略分析与同步主要基于敏感数据库和已配置的安全策略库实现数据安全策略的分析优化与同步。

安全策略库包含数据的唯一标识(位置)，数据类别级别以及数据相关的安全策略。图6是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的安全策略库的结构示意图。

基于数据位置作为数据的唯一标识，通过敏感数据库和安全策略库分析对比命中同一敏感标签的数据是否配置了安全策略或者安全策略是否完善。策略分析与优化的具体示例流程如下，请参考图7，图7是根据一示例性实施例示出的一种基于敏感数据识别的安全策略配置方法的安全策略优化流程示意图。

如图7所示，当数据B已存在安全策略时，不同类型安全策略优化可参考如下标准：

访问策略：获取安全策略库中的数据A相关的访问策略与数据B已有的访问策略，对于相同用户的访问权限以数据A的访问策略作为数据B的优化访问策略进行推荐，策略中保留数据B已有的其他用户访问权限；

脱敏策略：获取安全策略库中数据A和数据B的脱敏策略并集，作为数据B的优化脱敏策略进行推荐；

审计策略：获取安全策略库中数据A和数据B的审计策略并集，作为数据B的优化审计策略进行推荐。

当前安全策略库中数据A代表数据库表A中第N列，敏感级别为4级，类别为用户身份信息，敏感标签为标签S；数据B代表数据库表B中第M列，敏感级别为3级，类别为用户服务信息，敏感标签为S1；数据A和B的相关安全策略信息如图8所示。敏感词库扩充后再次进行敏感数据识别，数据B被敏感标签S命中，则按照以上策略分析与优化方法，数据B的策略结果集优化为：访问策略用户1和用户2参照数据A的访问权限进行修改，审计策略增加数据A的审计策略，脱敏策略增加数据A的脱敏策略。

策略配置是涉及数据安全的重要环节，因此在策略同步模块，需要管理员进行调整和核实，确保将合适的策略配置到安全策略库。

策略推荐提供将策略分析与优化得到的策略优化结果集推送给管理员的功能，推荐内容包括但不限于：数据存储位置、数据级别、类别、数据未配置的或需要更新的安全策略；

策略配置提供策略配置功能，使管理员可结合推荐的策略以及数据的级别类给具体位置的数据同步更全面的策略，提升策略同步模块的效果。

本申请的基于敏感数据识别的安全策略配置方法，具有如下有益效果：

根据本申请的基于敏感数据识别的安全策略配置方法，通过敏感数据自动识别和敏感规则扩充技术，弥补敏感数据安全策略的遗漏和不足，实现敏感数据安全策略同步。

根据本申请的基于敏感数据识别的安全策略配置方法，基于索引文件进行敏感数据识别，应对敏感数据识别过程中因数据量较大导致识别效率降低的问题，利用索引搜索的特性提高敏感数据识别效率；无需每次识别都与数据源产生直接交互，缓解识别过程中对数据源生产环境造成的高负荷，进而避免造成严重的不良影响。

根据本申请的基于敏感数据识别的安全策略配置方法，通过机器学习扩充敏感识别规则库，提高敏感数据识别的准确率，实现敏感数据识别的良性循环。

应清楚地理解，本申请描述了如何形成和使用特定示例，但本申请的原理不限于这些示例的任何细节。相反，基于本申请公开的内容的教导，这些原理能够应用于许多其它实施例。

需要说明的是，本申请实施例提供的基于敏感数据识别的安全策略配置方法，执行主体可以为基于敏感数据识别的安全策略配置装置，或者该基于敏感数据识别的安全策略配置装置中的用于执行基于敏感数据识别的安全策略配置方法的控制模块。本申请实施例中以基于敏感数据识别的安全策略配置装置执行基于敏感数据识别的安全策略配置方法为例，说明本申请实施例提供的基于敏感数据识别的安全策略配置装置。

所述装置900包括：

第一生成模块910，用于基于历史的敏感识别规则和历史敏感数据，利用机器学习模型，生成当前的敏感识别规则；其中，敏感识别规则用于识别敏感数据；

识别模块920，用于基于当前的敏感识别规则，从源数据中识别第一敏感数据和第二敏感数据；其中，所述第一敏感数据和所述第二敏感数据具有相同的敏感标签；

第一获取模块930，用于从安全策略库中，获取所述第一敏感数据的第一安全策略；其中，所述第一安全策略包括：第一访问策略、第一脱敏策略、第一审计策略；

确定模块940，用于根据所述第一安全策略，确定所述第二敏感数据的第二安全策略；其中，所述第二安全策略包括：第二访问策略、第二脱敏策略、第二审计策略。

可选地，所述确定模块940，包括：

可选地，所述优化子模块，包括：

可选地，所述修改单元包括：

可选地，所述第一生成模块910，包括：

可选地，训练子模块包括：

第一获取单元，用于获取所述历史敏感数据；

第二获取单元，用于基于所述子语义空间，获取频繁项集；

可选地，所述提取单元包括：

预设子单元，用于预设敏感词；

可选地，所述提取单元还用于：

可选地，所述识别模块920包括：

获取子模块，用于获取源数据；

创建子模块，用于为所述源数据创建数据索引；

可选地，所述装置900还包括：

第三获取模块，用于获取所述第二敏感数据的标签属性；

可选地，所述第二生成子模块包括：

设置单元，用于预设匹配度阈值；

本发明实施例的终端1000能够实现上述终端侧基于终端能力的处理方法的各个过程，并能达到相同的技术效果，为避免重复，这里不再赘述。

如图10所示，该基于敏感数据识别的安全策略配置装置主要包括以下功能模块：敏感识别规则库，敏感数据识别模块，敏感数据库，敏感规则扩充模块，策略分析模块，优化策略结果集，策略同步模块，安全策略库。

敏感数据识别模块，通过创建索引文件，根据敏感识别规则库进行敏感数据识别，实现敏感数据定位。

敏感规则扩充模块，基于识别出的敏感数据，通过机器学习实现敏感规则扩充，扩充的规则可以再次配置用于敏感数据识别，实现敏感数据识别与规则扩充的良性循环。

策略分析模块，基于已有的敏感数据安全策略库和识别的敏感数据库对安全策略策略进行分析和优化。

策略同步模块，将策略分析后的优化策略结果集推荐给管理员，由管理员调整结果并同步配置到安全策略库。

下面参照图11来描述根据本申请的这种实施方式的电子设备1100。图11显示的电子设备1100仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于：至少一个处理单元1110、至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130、显示单元1140等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1110执行，使得所述处理单元1110执行本说明书中描述的根据本申请各种示例性实施方式的步骤。例如，所述处理单元1110可以执行如图1中所示的步骤。

所述存储单元1120可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)11201和/或高速缓存存储单元11202，还可以进一步包括只读存储单元(ROM)11203。

所述存储单元1120还可以包括具有一组(至少一个)程序模块11205的程序/实用工具11204，这样的程序模块11205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1130可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1100也可以与一个或多个外部设备1100’(例如键盘、指向设备、蓝牙设备等)通信，使得用户能与该电子设备1100交互的设备通信，和/或该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且，电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器1160可以通过总线1130与电子设备1100的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、R机器学习D系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本申请实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：

基于历史的敏感识别规则和历史敏感数据，利用机器学习模型，生成当前的敏感识别规则；其中，所述敏感识别规则用于识别敏感数据；

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种基于敏感数据识别的安全策略配置方法，其特征在于，包括：

基于所述当前的敏感识别规则，从源数据中识别第一敏感数据和第二敏感数据；其中，所述第一敏感数据和所述第二敏感数据具有相同的敏感标签；

从安全策略库中，获取所述第一敏感数据的第一安全策略；其中，所述第一安全策略包括：第一访问策略、第一脱敏策略、第一审计策略；

2.如权利要求1所述的基于敏感数据识别的安全策略配置方法，其特征在于，所述根据所述第一安全策略，确定所述第二敏感数据的第二安全策略，包括：

若所述安全策略库中不存在所述第二敏感数据的第二安全策略，则配置所述第二敏感数据的第二安全策略为所述第一敏感数据的第一安全策略；或

3.如权利要求2所述的基于敏感数据识别的安全策略配置方法，其特征在于，所述根据所述第一敏感数据的第一安全策略，优化所述第二敏感数据的第二安全策略，包括：

4.如权利要求3所述的基于敏感数据识别的安全策略配置方法，其特征在于，所述根据所述第一敏感数据的第一访问策略，修改所述第二敏感数据的第二访问策略，包括：

5.如权利要求1所述的基于敏感数据识别的安全策略配置方法，其特征在于，所述基于历史的敏感识别规则和历史敏感数据，利用机器学习模型，生成当前的敏感识别规则，包括：

6.如权利要求5所述的基于敏感数据识别的安全策略配置方法，其特征在于，所述利用机器学习模型，训练所述历史敏感数据，生成新的敏感识别规则，包括：

获取所述历史敏感数据；

利用机器学习模型，从所述历史敏感数据中提取关键词；

基于所述子语义空间，获取频繁项集；

根据所述频繁项集，获取潜在关联规则；

将分析出的潜在关联规则作为新的敏感识别规则。

7.如权利要求6所述的基于敏感数据识别的安全策略配置方法，其特征在于，所述利用机器学习模型，从所述历史敏感数据中提取关键词，包括：

预设敏感词；

8.如权利要求7所述的基于敏感数据识别的安全策略配置方法，其特征在于，所述若所述关联词满足预设条件，则确定所述关联词为所述关键词，包括：

若所述关联词的数量大于或等于预设数量，则确定所述关联词为所述关键词；或

9.如权利要求1所述的基于敏感数据识别的安全策略配置方法，其特征在于，所述基于当前的敏感识别规则，从源数据中识别第一敏感数据和第二敏感数据，包括：

获取源数据；

为所述源数据创建数据索引；

10.如权利要求9所述的基于敏感数据识别的安全策略配置方法，其特征在于，还包括：

获取所述第二敏感数据的标签属性；

11.如权利要求9所述的基于敏感数据识别的安全策略配置方法，其特征在于，所述基于匹配成功的数据索引，生成敏感数据，包括：

预设匹配度阈值；

基于匹配度阈值，筛选匹配成功的数据索引；

根据筛选出的数据索引，生成敏感数据。

12.一种基于敏感数据识别的安全策略配置装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至11中任一所述的基于敏感数据识别的安全策略配置方法中的步骤。

14.一种可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被处理器执行时实现如权利要求1至11中任一项所述的基于敏感数据识别的安全策略配置方法中的步骤。