CN114169004B - 数据处理方法、装置、电子设备和计算机可读存储介质 - Google Patents
数据处理方法、装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN114169004B CN114169004B CN202111505742.6A CN202111505742A CN114169004B CN 114169004 B CN114169004 B CN 114169004B CN 202111505742 A CN202111505742 A CN 202111505742A CN 114169004 B CN114169004 B CN 114169004B
- Authority
- CN
- China
- Prior art keywords
- data table
- sampling
- record
- target
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 33
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000005070 sampling Methods 0.000 claims abstract description 192
- 238000012545 processing Methods 0.000 claims abstract description 53
- 239000012634 fragment Substances 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 61
- 238000000586 desensitisation Methods 0.000 claims description 37
- 230000035945 sensitivity Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 description 23
- 238000004590 computer program Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000011835 investigation Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000009960 carding Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种数据处理方法、装置以及电子设备和计算机可读存储介质,包括:获取目标数据表,目标数据表中包括多条记录;根据时间戳将多条记录进行划分以确定多条第一记录和多条第二记录;确定针对目标数据表的目标抽样记录数,并根据目标抽样记录数确定针对多条第一记录的第一抽样记录数和针对第二记录的第二抽样记录数;根据第一抽样记录数对第一记录进行分片抽样处理,以获得第一抽样记录;根据第二抽样记录数对第二记录进行分片抽样处理,以获得第二抽样记录;对第一抽样记录和第二抽样记录进行敏感字段检索以确定第一敏感字段,以便通过第一敏感字段对目标数据表进行去敏处理。本公开提供的方案能够快速且高效的对目标数据表进行去敏处理。
Description
技术领域
本公开涉及计算机与互联网技术领域,尤其涉及一种数据处理方法及装置、电子设备和计算机可读存储介质。
背景技术
在互联网业务场景中,客户敏感信息多且杂,敏感信息存储范围太大,数据库数量多,变化快,数据量巨大。因此如何对敏感信息在有限时间内进行准确的自动化监测则是一个棘手的问题。
相关技术中,对存储在数据库中的数据进行去敏主要采用的方式有两种:
第一种,预先定义模型表字段去敏策略,去敏时匹配预先配置的模型字段,获取对应字段的去敏策略完成去敏。该方式需要梳理所有表及字段,并分别为需要去敏的敏感字段配置去敏策略。
第二种,将已知的敏感字段定义为通用的业务数据域,再为每个业务数据域定义相应去敏策略,去敏时匹配上业务数据域的字段,按照设置的去敏策略完成去敏。该方式也需要梳理所有表及字段,并将敏感字段提取定义为公共的业务数据域。
不论是预先定义模型表字段去敏策略还是定义通用的业务数据域去敏策略为依据进行数据去敏,都需要人工参与,梳理表和敏感字段以及为其配置去敏策略需要花费大量的时间;实际生产中表较多,每个表字段也可能很多,很难确保梳理配置彻底;并且一旦已有表字段改动或新增表,需要人工对其重新梳理、配置,费时费力;并且很可能不能及时进行,为敏感数据的泄露留下了安全隐患。
发明内容
本公开的目的在于提供一种数据处理方法、装置、电子设备以及计算机可读存储介质,对目标数据库中的目标数据表进行自动化脱敏处理,无需人工梳理,既提高了去敏效率,也提高了去敏准确率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供了一种数据处理方法,包括:获取目标数据表,所述目标数据表中包括多条记录;根据时间戳将所述多条记录进行划分以确定多条第一记录和多条第二记录,其中各个第一记录的时间戳均早于各个第二记录的时间戳;确定针对所述目标数据表的目标抽样记录数,并根据所述目标抽样记录数确定针对所述多条第一记录的第一抽样记录数和针对所述第二记录的第二抽样记录数,所述第一抽样记录数小于所述第二抽样记录数;根据所述第一抽样记录数对所述第一记录进行分片抽样处理,以获得第一抽样记录;根据所述第二抽样记录数对所述第二记录进行分片抽样处理,以获得第二抽样记录;对所述第一抽样记录和所述第二抽样记录进行敏感字段检索以确定第一敏感字段,以便通过所述第一敏感字段对所述目标数据表进行去敏处理。
在一些实施例中,所述第一敏感字段包括目标敏感字段,所述第一抽样记录或所述第一抽样记录包括目标抽样记录,所述目标敏感字段是在所述目标抽样记录中检索到的敏感字段;其中,通过所述第一敏感字段对所述目标数据表进行去敏处理,包括:确定所述第一敏感字段在所述目标抽样记录中的目标位置信息;根据所述目标位置信息对所述多条记录中目标位置处的字段进行去敏处理。
在一些实施例中,所述数据处理方法还包括:确定所述目标数据表中的记录不携带时间戳;根据所述目标抽样记录数对所述目标数据表中的多条记录进行分片抽样处理,以获得第三抽样记录;对第三抽样记录进行敏感字段检索以确定第二敏感字段,以便通过所述第二敏感字段对所述目标数据表进行去敏处理。
在一些实施例中,确定针对所述目标数据表的目标抽样记录数,包括:确定针对所述目标数据表的抽样置信度、抽样容忍误差以及抽样偏差概率;根据所述抽样置信度、所述抽样容忍误差以及所述抽样偏差概率确定针对所述目标数据表的所述目标抽样记录数。
在一些实施例中,数据表类型包括有特征数据表类型和无特征数据表类型;其中,根据所述抽样置信度、所述抽样容忍误差以及所述抽样偏差概率确定针对所述目标数据表的所述目标抽样记录数,包括:根据所述抽样置信度、所述抽样容忍误差以及所述抽样偏差概率确定针对所述目标数据表的候选抽样记录数;确定所述目标数据表的数据表类型;根据所述目标数据表的数据表类型和所述候选抽样记录数确定所述目标数据表的目标抽样记录数,以使得有特征数据表类型的目标数据表的抽样记录数小于无特征数据表类型的目标数据表的抽样记录数。
在一些实施例中,根据所述目标数据表的数据表类型和所述候选抽样记录数确定所述目标数据表的目标抽样记录数,以使得有特征数据表类型的目标数据表的抽样记录数小于无特征数据表类型的目标数据表的抽样记录数,包括:若所述数据表类型指示所述目标数据表是有特征数据表,则令所述候选抽样记录数减去第一值,以作为所述有特征数据表的目标抽样记录数;若所述数据表类型指示所述目标数据表是无特征数据表,则令所述候选抽样记录数加上第二值,以作为所述无特征数据表的目标抽样记录数。
在一些实施例中,根据所述第一抽样记录数对所述第一记录进行分片抽样处理,以获得第一抽样记录,包括:确定针对所述第一记录的抽样分片数;根据所述第一抽样记录数和所述抽样分片数将所述多条记录划分为多个分片数据组;根据所述第一抽样记录数在各个分片数据组中分别进行抽样,以获得所述第一抽样记录。
本公开实施例提供了一种数据处理装置,包括:数据表获取模块、记录分组模块、抽样记录数确定模块、第一抽样模块、第二抽样模块以及检索模块。
其中,所述数据表获取模块用于获取目标数据表,所述目标数据表中包括多条记录;所述记录分组模块可以用于根据时间戳将所述多条记录进行划分以确定多条第一记录和多条第二记录,其中各个第一记录的时间戳均早于各个第二记录的时间戳;所述抽样记录数确定模块可以用于确定针对所述目标数据表的目标抽样记录数,并根据所述目标抽样记录数确定针对所述多条第一记录的第一抽样记录数和针对所述第二记录的第二抽样记录数,所述第一抽样记录数小于所述第二抽样记录数;所述第一抽样模块可以用于根据所述第一抽样记录数对所述第一记录进行分片抽样处理,以获得第一抽样记录;所述第二抽样模块可以用于根据所述第二抽样记录数对所述第二记录进行分片抽样处理,以获得第二抽样记录;所述检索模块可以用于对所述第一抽样记录和所述第二抽样记录进行敏感字段检索以确定第一敏感字段,以便通过所述第一敏感字段对所述目标数据表进行去敏处理。
本公开实施例提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项所述的数据处理方法。
本公开实施例提出一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述任一项所述的数据处理方法。
本公开实施例提出一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据处理方法。
本公开实施例提供的数据处理方法、装置及电子设备和计算机可读存储介质,一方面通过时间戳对目标数据表中的多条记录进行分层,然后针对时间较早且已经检索过的旧数据(第一记录)的抽样个数相对较少,而针对时间较晚且没有检索过的新数据(第二记录)的抽样个数相对较多,那么既提高了去敏检索抽样的准确度,还提高了抽样效率;另一方面,本实施例提供的技术方案采用分片抽样处理,提高了抽样的随机性。总而言之,本公开实施例提供的技术方案,可以通过抽样检索在目标数据表的多条记录中确定第一敏感字段,然后根据第一敏感字段对目标数据表中的所有记录进行去敏处理,使得整个去敏过程全自动,无需人工参与,既提高了去敏效率,也提高了去敏准确率;还可以通过时间戳进行分层处理、分片抽样处理,提高抽样效率和抽样随机性,从而提高抽样结果的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了应用于本公开实施例的数据处理方法或数据处理装置的示例性系统架构的示意图。
图2是根据一示例性实施例示出的一种数据处理方法的流程图。
图3是根据一示例性实施例示出的一种目标抽样记录数确定方法的流程图。
图4是根据一示例性实施例示出的一种分片抽样处理方法流程图。
图5是根据一示例性实施例示出的一种数据处理装置的框图。
图6示出了适于用来实现本公开实施例的的电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本说明书中,用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在一个或多个要素/组成部分/等;用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”、“第二”和“第三”等仅作为标记使用,不是对其对象的数量限制。
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
下面结合附图对本公开示例实施方式进行详细说明。
图1示出了可以应用于本公开实施例的数据处理方法或数据处理装置的示例性系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。其中,终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器等,本公开对此不做限制。
服务器105可例如获取目标数据表,目标数据表中包括多条记录;服务器105可例如根据时间戳将多条记录进行划分以确定多条第一记录和多条第二记录,其中各个第一记录的时间戳均早于各个第二记录的时间戳;服务器105可例如确定针对目标数据表的目标抽样记录数,并根据目标抽样记录数确定针对多条第一记录的第一抽样记录数和针对第二记录的第二抽样记录数,第一抽样记录数小于第二抽样记录数;服务器105可例如根据第一抽样记录数对第一记录进行分片抽样处理,以获得第一抽样记录;服务器105可例如根据第二抽样记录数对第二记录进行分片抽样处理,以获得第二抽样记录;服务器105可例如对第一抽样记录和第二抽样记录进行敏感字段检索以确定第一敏感字段,以便通过第一敏感字段对目标数据表进行去敏处理。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,服务器105可以是一个实体的服务器,还可以为多个服务器组成,根据实际需要,可以具有任意数目的终端设备、网络和服务器。
下面将结合保险业务领域对本公开实施例的应用场景进行举例说明,但可以理解的是本公开并不限于该应用场景。
(1)业务场景。
在互联网保险业务流程中,客户敏感信息来自于客户购买保险产品及客户发起理赔的环节。在这些环节,客户需要填写完整的个人信息,这些信息都是保险合同的必要信息,然后这些信息存储在不同环节的数据库中。
由于购买保险的流程众多,并且不同的模式下系统实现方法各不相同,承保、理赔端有大量的数据库存储客户敏感信息。
(2)敏感信息。
客户的身份证号码、联系电话、地址、电子邮件地址、银行账号等均可以认为是“敏感信息”。这些信息具有很高的价值,按照《网络安全法》要求,需要给予保密。
(3)业务痛点。
<1>敏感信息存储范围太大。互联网保险系统涉及的数据库数量超过300个,每个数据库包含几十到几百个表不等,一个表最多数据量达几千万条记录,每条记录包含几十个字段不等,每个字段都可能储存有客户敏感信息。
<2>敏感信息涉及人员范围太大。凡是上一步的数据库,都有DBA(Data BaseAdministrator,数据库管理员)、开发人员、个人人员、数据治理人员等若干人员查看,存在数据泄露风险。
<3>敏感信息没有自动化手段发现。以往敏感信息发现,靠人工检查的方式,包括稽核人员检查、安全人员巡检,这些人工抽样手段发现率低,问题重复出现率高。
本申请提出的数据处理方法可以解决上述技术问题。
下面,将结合具体实施例对本公开提出的数据处理方法进行解释说明。
图2是根据一示例性实施例示出的一种数据处理方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备来执行,例如该方法可以由上述图1实施例中的服务器或终端设备来执行,也可以由服务器和终端设备共同执行,在下面的实施例中,以服务器为执行主体为例进行举例说明,但本公开并不限定于此。
参照图2,本公开实施例提供的数据处理方法可以包括以下步骤。
步骤S202,获取目标数据表,目标数据表中包括多条记录。
需要注意的是,上述多条记录之间的相似度可以很高(即字段重合度很高),例如目标数据表的在一条记录中可能包括姓名、性别、电话号码以及保险号,而该数据表的另外一条记录可能包括姓名、电话号码以及保险号,二者虽然有所差距,但是差距不大。
还需要注意的是,在目标数据表中的多条记录中,相同的字段存储在相同的位置。
例如在某一表中,一行代表一条记录,一列代表一个字段,如果确定一条记录中的第二列记载的是性别字段,那么目标数据表中的其他记录的第二列记载的也应该是性别字段(如果某一记录中没有性别字段,记录第二列位置处可以空置)。
本公开考虑使用统计学的“抽样调查”理论对该目标数据表的多条记录可以采用采样的方式进行抽样,然后再进行敏感字段检索,从而确定目标数据表中存在哪些字段是涉敏字段,进而对目标数据表中所有的涉敏字段进行去敏处理。
传统的线下抽样调查理论,样本选取占调查成本较高,单个调查存在一定误差。而计算机进行抽样“调查”,理论上具有相同点,在具体设计上又有单独的特点。
1)计算机样本抽样成本较低。
如果将数据库中一个表视为调查对象,那么每一条数据可以视为一个抽样样本。按照目前计算机运行速度,单个表数据少于5000条,获取所有数据仅是秒级,成本很低。
2)计算机抽样调查误差率很低。
线下调查,误差来自于被访者不准确回答;生产线生产的螺丝合格检测误差,来自于测量本身误差。而本发明中,计算机判断信息是否是客户敏感信息,一旦程序经过充分验证,“产生误差”的情况仅来自于“未考虑到”的情况,比如将某个字段中的ID误认为手机号等,并且即使被“误认”也可以认为是成功的结果,因为被认为是客户敏感信息的结果,整改确认的过程中还会经过人工判断。
因此,本公开使用计算机对目标数据表中的记录进行抽样调查,以确定该目标数据表中所有可能涉敏的字段。
在一些实施例中,如果目标数据表中的记录不携带时间戳;则确定针对目标数据表的目标抽样记录数,并根据目标抽样记录数对目标数据表中的多条记录进行分片抽样处理,以获得第三抽样记录;然后对第三抽样记录进行敏感字段检索以确定第二敏感字段;最后通过第二敏感字段对目标数据表进行去敏处理。
其中,上述时间戳可以指的是记录修改或者生成时对应的时间戳,本公开对此不做说明。
另外,具体分片抽样处理方法会通过图4所示实施例进行说明,本实施例不再赘述。
在另外一些实施例中,如果目标数据表中的记录携带时间戳,可以采用步骤S204~步骤S212进行去敏处理。
步骤S204,根据时间戳将多条记录进行划分以确定多条第一记录和多条第二记录,其中各个第一记录的时间戳均早于各个第二记录的时间戳。如前面所论证,全量检索判断所有数据是不可行的。
时间戳指数据插入及更改时间,如果所抽样的数据表有字段记录时间戳,那么新产生的数据(新数据)和已经抽样过的数据(旧数据)可以分层处理,其中旧数据已经抽样过,可以适当减少抽样样本量以提高抽样效率。
在一些实施例中,可以设置一时间节点以将目标数据表中的多条记录划分为第一记录和第二记录,从而实现对记录的分层。例如,可以设置一时间节点,使得早于该时间节点的记录可以作为第一记录,不早于该时间节点的记录可以作为第二记录。
步骤S206,确定针对目标数据表的目标抽样记录数,并根据目标抽样记录数确定针对多条第一记录的第一抽样记录数和针对第二记录的第二抽样记录数,第一抽样记录数小于第二抽样记录数。
在一些实施例中,可以根据经验值确定针对目标数据表的目标抽样记录数;还可以确定针对目标数据表的抽样置信度、抽样容忍误差以及抽样偏差概率,然后根据抽样置信度、抽样容忍误差以及抽样偏差概率确定针对目标数据表的目标抽样记录数,本公开对此不做限制。
在一些实施例中,可以根据第一记录和第二记录的占比与目标抽样记录数的乘积确定第一抽样记录数和第二抽样记录数(例如,第一抽样记录数=目标抽样记录数*第一记录/(第一记录+第二记录),第二记录数=目标抽样记录数-第一抽样记录数)。
在另外一些实施例中,还可以按照经验值将目标抽样记录数进行拆分,以使得第一抽样记录数小于第二抽样记录数。
当然,还可以根据其他方法确定第一抽样记录数和第二抽样记录数,本公开对此不做限制。
步骤S208,根据第一抽样记录数对第一记录进行分片抽样处理,以获得第一抽样记录。
本实施例涉及的分片抽样处理方法可以参考图4所示实施例,本实施例不再赘述。
步骤S210,根据第二抽样记录数对第二记录进行分片抽样处理,以获得第二抽样记录。
步骤S212,对第一抽样记录和第二抽样记录进行敏感字段检索以确定第一敏感字段,以便通过第一敏感字段对目标数据表进行去敏处理。
在一些实施例中,可以对第一抽样记录和第二抽样记录中的所有字段进行敏感字段搜索,并将搜索出来可能涉敏的字段作为第一敏感字段。
在一些实施例中,在确定第一敏感字段后,可以根据第一敏感字段的名称、位置等对目标数据表中所有的记录进行取敏处理。
例如,可以根据第一敏感字段的名称对目标数据表中的所有记录进行检索,然后将与第一敏感字段具有相同字段名的所有字段进行取敏。
再例如,可以根据以下方法对目标数据表中的所有字段进行取敏。
假设,第一敏感字段包括目标敏感字段,第一抽样记录或第一抽样记录包括目标抽样记录,目标敏感字段是在目标抽样记录中检索到的敏感字段;那么上述去敏方法可以包括:确定第一敏感字段在目标抽样记录中的目标位置信息(例如第二列);根据目标位置信息对多条记录中目标位置处的字段进行去敏处理(例如将目标数据表中所有记录的第二列均进行去敏处理)。
当然,本领域技术人员常用的其他去敏方法也在本公开的保护范围内,本公开对此不做限制。
需要说明的是,可以通过本公开提出的数据处理方法对目标数据库中的所有数据表进行去敏处理。
在一些实施例中,在采用本公开提供的技术方案对目标数据库中的所有数据表进行去敏处理时,需要对该目标数据库中所有的表、所有字段进行查询。本公开可以利用关系型数据库的“描述表”,先取得所有表,再根据表名取得所有字段名和数据类型定义,再查询表的数据。
下面举两个实例:
本发明对于Oracle数据库(一种关系型数据库),可以先通过all_tab_comments系统视图select table_name from all_tab_comments where owner not in('SYS','SYSTEM')and table_type='TABLE'and table_name=upper(table_name)取得所有表名称。这个语句中select*from代表从某个地方(all_tab_comments)选择满足某些条件的内容(例如table_name,where owner not in('SYS','SYSTEM')and table_type='TABLE'and table_name=upper(table_name)),not in('SYS','SYSTEM')的作用是过滤掉系统用户,table_name=upper(table_name)的作用是过滤掉小写字母建的表,这些表往往都是不规范的表,一扫描即出错。
在获得目标数据库中的所有表之后,可以从中选择出目标数据表,并在通过以下语句搜索目标数据表中所有字段的信息:select column_name,data_type from USER_TAB_COLUMNS where table_name=$,column_name就是字段名,data_type就是字段类型,$代表名;下一步select*from表名就可以取出表中所有数据。以上实现手段,all_tab_comments和USER_TAB_COLUMNS就是“描述表”。
对于MySQL数据库(一种关系型数据库),也有类似描述表。Mysql数据库建立后,自动产生一个information_schema数据库,该数据库中包含了tables表和columns表,分别存储所有表名和表中所有字段名及类型。通过这两个“描述表”可以取得数据库所有表的数据。
对于其他种类数据库,例如DB2(IBM DB2,一套关系型数据库管理系统),也采用类似的实现机制,通过取得“描述表”进行所有表和字段的分析与遍历,本公开对如何从数据库中获取表名,又如何从表中获取字段(或者记录)信息不做限制。
本公开实施例提供的技术方案具有以下有益效果:
1)自动化。在针对目标数据库新增数据表、更改表结构、添加删除数据各种情况下,本公开提供的技术方案都无需人工参与,完全可以对目标数据库进行自动化去敏处理。
2)速度快。1个数据库中的数据项可能会达到1000(表)*100000(条)*200(字段)=200亿项。其中任何1项都有可能是身份证号码、也有可能是邮箱。如果没有一定技术手段,如果逐个判断200亿个数据项那些字段是涉敏字段,常用的服务器无论如何也满足不了时间要求的。采用了本公开提供的技术方案,利用测试数据库测试,测试数据库有1000多张表,其中有几张几千万行的大表,仅用时10分钟即完成扫描,发现敏感信息字段几百个,说明本公开提供的技术方案通过抽样、既提高了涉敏字段的判断效率,又提高了去敏效率。
3)通用化。本公开提供的技术方案,不依赖于数据登记等外部条件,并且能够适应多种类型数据库。
综上所述,本实施例提供的技术方案,一方面可以通过抽样对目标数据表中的涉敏字段进行敏感字段检索,便于根据检索出来的敏感字段对目标数据表中的所有进行去敏处理,在本实施例中敏感字段的确定无需人工参与,既提高了敏感字段的确定效率,又提高了目标数据表的去敏效率;另一方面,在敏感字段检索节点,通过时间戳对目标数据表中的多条记录进行分层,然后针对时间较早且已经检索过的旧数据(第一记录)的抽样个数相对较少,而针对时间较晚且没有检索过的新数据(第二记录)的抽样个数相对较多,既提高了检索抽样的准确度,还提高了了抽样效率;另外,本实施例提供的技术方案采用分片抽样处理,提高了抽样的随机性。总而言之,本公开实施例提供的技术方案,可以通过抽样检索在目标数据表的多条记录中确定第一敏感字段,然后根据第一敏感字段对目标数据表中的所有记录进行去敏处理,使得整个去敏过程全自动,无需人工参与,既提高了去敏效率,也提高了去敏准确率;还可以通过时间戳进行分层处理、分片抽样处理,提高抽样效率和抽样随机性,从而提高抽样结果的准确度。
图3是根据一示例性实施例示出的一种目标抽样记录数确定方法的流程图。
在一些实施例中,数据表类型可以包括有特征数据表类型和无特征数据表类型。
其中,有特征数据表可以指的是那些敏感度较高的数据表,例如在保险场景中,已知其属性是存储保单、客户、账户信息的专用表。无特征数据表可以指的是那些属性不明、或者敏感度不高的数据表。
参考图3,上述目标抽样记录数确定方法可以包括以下步骤。
步骤S302,根据抽样置信度、抽样容忍误差以及抽样偏差概率确定针对目标数据表的候选抽样记录数。
在一些实施例中,可以使用以下方法根据抽样置信度、抽样容忍误差以及抽样偏差概率确定针对目标数据表的候选抽样记录数:
按照统计学样本计算公式公式中参数解释如下:Zα/2表示正态分布条件下与置信度相联系的系数,当置信度为95%时,该值为1.96,置信度为99%时,该值为2.58;P表示偏差概率,△表示可容忍误差,N表示抽样的样本值。如果置信度(t)为95%和99%外的其他值,可根据NORMINV((0.5+t/2),0,1)函数计算,该函数为Excel内置公式。假设普通的抽样调查,置信度选择95%,偏差概率20%,容忍误差为5%的情况,根据以上公式计算样本量为245个,即抽样245个样本即可满足调查要求;而本发明面对的场景,计算机进行抽取和判断,置信度可以大幅度提高,选择99%,偏差概率即误判敏感信息的概率可以选择1%,容忍误差也可以大幅度降低到1%,公式计算出样本量为657,而计算机处理从一个表中抽取657条数据需要时间非常少,非常轻松。按照统计学理论,如果被抽样对象达到几千万乃至上亿,单纯增大抽样的样本量并不能显著减少误差,所以在计算出的样本量基础上稍作提升即可满足误差要求。
在一些实施例中,可以将抽样置信度设置为99%,将抽样容忍误差设置为1%,将抽样偏差概率设置为1%,那么根据统计学公式 确定的抽样记录数可以为654。
综合考虑计算机处理能力,本公开可以将候选抽样记录数设置为5000,是654的八倍还多。如此,在保证了抽样覆盖率的同时,还考虑了计算机处理能力,保证了抽样处理效率。
步骤S304,确定目标数据表的数据表类型。
在一些实施例中,可以根据目标数据表的属性确定目标数据表的数据表类型,例如,如果目标数据表的属性指示该目标数据表是保险数据表、银行卡注册数据表等敏感程度较高的数据表,则确定该目标数据表是有特征数据表;如果没法确定该目标数据表是有特征数据表则将该目标数据表作为无特征数据表。
步骤S306,根据目标数据表的数据表类型和候选抽样记录数确定目标数据表的目标抽样记录数,以使得有特征数据表类型的目标数据表的抽样记录数小于无特征数据表类型的目标数据表的抽样记录数。
可以理解的是,上述有特征数据表是一中涉敏程度较高的数据表,在抽样时可以适当增加一些抽样样本,上述无特征数据表涉敏程度较低,在抽样时可以适当减少一些抽样样本。由此,既能保证抽样效果,又能提高抽样速度。
例如,若数据表类型指示目标数据表是有特征数据表,则令候选抽样记录数减去第一值,以作为有特征数据表的目标抽样记录数;若数据表类型指示目标数据表是无特征数据表,则令候选抽样记录数加上第二值,以作为无特征数据表的目标抽样记录数。
下面,可以结合图2所示实施例和图3所示实施例给出一记录抽样方法。
如下表所示,如果已知针对目标数据表的目标抽样记录数是5000条,可以采用下表所示方法对目标数据表进行抽样。
本发明的抽样模型
下面对本模型样本量进行说明:
①少于5000条数据的表去全量数据。因为该数据量对查询扫描工作性能不会造成任何影响。
②这种场景是该模型设计的特点。有特征指数据表具有明显的特征,例如在保险场景中已知其属于存储保单、客户、账号信息的专用表,数据量往往很大,特征比较明显,包含敏感信息概率较大,可以适当减少数据量;时间戳指数据插入及更改时间,如果所抽样的数据表有字段记录时间戳,那么新产生的数据(新数据)和已经抽样过的数据(旧数据)可以分层处理,旧数据已经抽样过,可以适当减少抽样样本量。综合起来设计,新数据适当多取一些,取2000条,旧数据取1000条。加起来3000条,少于5000,因为这些类型表具有敏感信息概率大,可以比5000少一些。
特征表的区分,提供了缩短数据扫描时间的一种方法。
③该场景是一个数据库中除去场景②外的数据表。表的特征不明显,所以取总计5000条,分为4000、1000两层。
④确定具有较高概率的敏感信息的表,而没有时间戳,可以采用本抽样方案,减少一定数据量,以加快扫描速度。
⑤无特征,也无时间戳,抽样5000条。
本方案对于表数据量非常多的数据库,例如核心数据库,作用非常大。核心数据库为Oracle,表超过4000个,总数据量达到4T以上,并且表数量增加很快,具有很大的敏感信息泄露隐患。使用了本方案,扫描仅用时30分钟,达到良好效果。
图4是根据一示例性实施例示出的一种分片抽样处理方法流程图。
参考图4,上述分片抽样处理方法可以包括以下步骤。
步骤S402,确定针对第一记录的抽样分片数。
在一些实施例中,上述抽样分片数据可以根据经验进行设定,例如可以为数据量较大的数据库设置较大的抽样分片数(里50),可以为数据量较小的数据库设置较小的抽样分片数(例如10)。
步骤S404,根据第一抽样记录数和抽样分片数将多条记录划分为多个分片数据组。
如果只从一个表头上或者尾部取5000条数据,这些数据可能是最早或者最晚写入表中的,不具备随机性。因此本实施例可以采用“平均分片”的方法对目标数据表中的记录进行分片处理,然后再分片中再进行抽样。下面讲述分片具体方法:
假设目标数据表的记录的数据量为T,抽样数据量为S(第一抽样记录数),抽样分片数M,T>=S,T和S均为大于0的整数。先计算每片数据量INT(T/M)和INT(S/M),INT表示取整数。假设N为大于1且小于M的整数,那么每组数据的开始为(N-1)*INT(T/10),结束的数据为(N-1)*INT(T/10)+INT(S/10)。如此便完成了对目标数据表的分片处理,确定了多个分片数据组。
假设数据表有T=12345,有12345行数据,要抽S=100个,要分成10片。那么INT(T/10)=1234,INT(S/10)=10。这代表总数据分为10片,一片1234条,从其中抽10条。下面描述过程:
从以上结果看,抽取的数据从表中取了10段数据。每段10条。如果下次抽样,表中的总数据有了小范围改变,例如变成了12500,那么N=1,数据范围不变,但N=2,就变为1250至1260,与之前的数据完全不同了,从而达到了“随机”的效果。
上述分片处理方法的优点有这些:
(1)数据分片不太多,执行速度快。如果数据分片过多,随机性强了,但每片数据取得都要建立数据库连接,这是消耗比较大的环节,不利后果是执行速度慢。
(2)抽样随机性较好。表中的数据稍有变化,从第二片数据开始的范围就有了很大变化,达到了随机性要求。
步骤S406,根据第一抽样记录数在各个分片数据组中分别进行抽样,以获得第一抽样记录。
在一些实施例中,在完成对目标数据表中的记录的分片后,可以再对各个分片数据组中的记录分别进行抽样。例如,假设将目标数据表中的记录分为10个分片数据组后,可以第一抽样记录数除以10以获得每个分组中的抽样个数,然后对每个分片分组进行抽样,以获得第一抽样记录。
可以理解的是,本公开涉及的分片抽样方法均可以参考本实施例提供的方法,本公开对此不再赘述。
图5是根据一示例性实施例示出的一种数据处理装置的框图。参照图5,本公开实施例提供的数据处理装置500可以包括:数据表获取模块501、记录分组模块502、抽样记录数确定模块503、第一抽样模块504、第二抽样模块505、检索模块506。
其中,数据表获取模块501可以用于获取目标数据表,目标数据表中包括多条记录;记录分组模块502可以用于根据时间戳将多条记录进行划分以确定多条第一记录和多条第二记录,其中各个第一记录的时间戳均早于各个第二记录的时间戳;抽样记录数确定模块503可以用于确定针对目标数据表的目标抽样记录数,并根据目标抽样记录数确定针对多条第一记录的第一抽样记录数和针对第二记录的第二抽样记录数,第一抽样记录数小于第二抽样记录数;第一抽样模块504可以用于根据第一抽样记录数对第一记录进行分片抽样处理,以获得第一抽样记录;第二抽样模块505可以用于根据第二抽样记录数对第二记录进行分片抽样处理,以获得第二抽样记录;检索模块506可以用于对第一抽样记录和第二抽样记录进行敏感字段检索以确定第一敏感字段,以便通过第一敏感字段对目标数据表进行去敏处理。
在一些实施例中,第一敏感字段包括目标敏感字段,第一抽样记录或第一抽样记录包括目标抽样记录,目标敏感字段是在目标抽样记录中检索到的敏感字段;其中,检索模块506可以包括:目标位置确定单元、去敏单元。
其中,目标位置确定单元可以用于确定第一敏感字段在目标抽样记录中的目标位置信息;去敏单元可以用于根据目标位置信息对多条记录中目标位置处的字段进行去敏处理。
在一些实施例中,数据处理装置还可以包括:时间戳确定模块、第三抽样记录获取模块以及字段去敏模块。
其中,时间戳确定模块可以用于确定目标数据表中的记录不携带时间戳;第三抽样记录获取模块可以用于根据目标抽样记录数对目标数据表中的多条记录进行分片抽样处理,以获得第三抽样记录;字段去敏模块可以用于对第三抽样记录进行敏感字段检索以确定第二敏感字段,以便通过第二敏感字段对目标数据表进行去敏处理。
在一些实施例中,抽样记录数确定模块503可以包括:误差确定单元和目标抽样记录数确定单元。
其中,抽样置信度确定单元可以用于确定针对目标数据表的抽样置信度、抽样容忍误差以及抽样偏差概率;目标抽样记录数确定单元可以用于根据抽样置信度、抽样容忍误差以及抽样偏差概率确定针对目标数据表的目标抽样记录数。
在一些实施例中,数据表类型包括有特征数据表类型和无特征数据表类型;其中,目标抽样记录数确定单元包括:候选抽样记录数确定子单元、数据表类型确定子单元、和目标抽样记录数确定子单元。
其中,候选抽样记录数确定子单元可以用于根据抽样置信度、抽样容忍误差以及抽样偏差概率确定针对目标数据表的候选抽样记录数;数据表类型确定子单元可以用于确定目标数据表的数据表类型;目标抽样记录数确定子单元可以用于根据目标数据表的数据表类型和候选抽样记录数确定目标数据表的目标抽样记录数,以使得有特征数据表类型的目标数据表的抽样记录数小于无特征数据表类型的目标数据表的抽样记录数。
在一些实施例中,目标抽样记录数确定子单元可以包括:降值孙子单元和增值孙子单元。
其中,降值孙子单元可以用于若数据表类型指示目标数据表是有特征数据表,则令候选抽样记录数减去第一值,以作为有特征数据表的目标抽样记录数;增值孙子单元可以用于若数据表类型指示目标数据表是无特征数据表,则令候选抽样记录数加上第二值,以作为无特征数据表的目标抽样记录数。
在一些实施例中,第一抽样模块504可以包括:抽样分片数确定单元、分片数据组确定单元以及分片抽样单元。
其中,抽样分片数确定单元可以用于确定针对第一记录的抽样分片数;分片数据组确定单元可以用于根据第一抽样记录数和抽样分片数将多条记录划分为多个分片数据组;分片抽样单元可以用于根据第一抽样记录数在各个分片数据组中分别进行抽样,以获得第一抽样记录。
由于装置500的各功能已在其对应的方法实施例中予以详细说明,本公开于此不再赘述。
描述于本申请实施例中所涉及到的模块和/或单元和/或子单元和/或孙子单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元和/或子单元和/或孙子单元也可以设置在处理器中。其中,这些模块和/或单元和/或子单元和/或孙子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元和/或孙子单元本身的限定。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
图6示出了适于用来实现本公开实施例的的电子设备的结构示意图。需要说明的是,图6示出的电子设备600仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从储存部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的储存部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入储存部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备可实现功能包括:获取目标数据表,目标数据表中包括多条记录;根据时间戳将多条记录进行划分以确定多条第一记录和多条第二记录,其中各个第一记录的时间戳均早于各个第二记录的时间戳;确定针对目标数据表的目标抽样记录数,并根据目标抽样记录数确定针对多条第一记录的第一抽样记录数和针对第二记录的第二抽样记录数,第一抽样记录数小于第二抽样记录数;根据第一抽样记录数对第一记录进行分片抽样处理,以获得第一抽样记录;根据第二抽样记录数对第二记录进行分片抽样处理,以获得第二抽样记录;对第一抽样记录和第二抽样记录进行敏感字段检索以确定第一敏感字段,以便通过第一敏感字段对目标数据表进行去敏处理。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者智能设备等)执行根据本公开实施例的方法,例如图2、图3、或图4的一个或多个所示的步骤。
本领域技术人员在考虑说明书及实践在这里公开的公开后,将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不限于这里已经示出的详细结构、附图方式或实现方法,相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (8)
1.一种数据处理方法,其特征在于,包括:
获取目标数据表,所述目标数据表中包括多条记录;
根据时间戳将所述多条记录进行划分以确定多条第一记录和多条第二记录,其中各个第一记录的时间戳均早于各个第二记录的时间戳;
确定针对所述目标数据表的目标抽样记录数,并根据所述目标抽样记录数确定针对所述多条第一记录的第一抽样记录数和针对所述第二记录的第二抽样记录数,所述第一抽样记录数小于所述第二抽样记录数;
根据所述第一抽样记录数对所述第一记录进行分片抽样处理,以获得第一抽样记录;
根据所述第二抽样记录数对所述第二记录进行分片抽样处理,以获得第二抽样记录;
对所述第一抽样记录和所述第二抽样记录进行敏感字段检索以确定第一敏感字段,以便通过所述第一敏感字段对所述目标数据表进行去敏处理;
其中,数据表类型包括有特征数据表类型和无特征数据表类型,其中所述有特征数据表指的是敏感度较高的数据表,所述无特征数据表指的是属性不明或者敏感度不高的数据表;
其中,确定针对所述目标数据表的目标抽样记录数,包括:
确定针对所述目标数据表的抽样置信度、抽样容忍误差以及抽样偏差概率;
根据所述抽样置信度、所述抽样容忍误差以及所述抽样偏差概率确定针对所述目标数据表的候选抽样记录数;
确定所述目标数据表的数据表类型;
根据所述目标数据表的数据表类型和所述候选抽样记录数确定所述目标数据表的目标抽样记录数,以使得有特征数据表类型的目标数据表的抽样记录数小于无特征数据表类型的目标数据表的抽样记录数。
2.根据权利要求1所述方法,其特征在于,所述第一敏感字段包括目标敏感字段,所述第一抽样记录或所述第二抽样记录包括目标抽样记录,所述目标敏感字段是在所述目标抽样记录中检索到的敏感字段;其中,通过所述第一敏感字段对所述目标数据表进行去敏处理,包括:
确定所述第一敏感字段在所述目标抽样记录中的目标位置信息;
根据所述目标位置信息对所述多条记录中目标位置处的字段进行去敏处理。
3.根据权利要求1所述方法,其特征在于,所述数据处理方法还包括:
确定所述目标数据表中的记录不携带时间戳;
根据所述目标抽样记录数对所述目标数据表中的多条记录进行分片抽样处理,以获得第三抽样记录;
对第三抽样记录进行敏感字段检索以确定第二敏感字段,以便通过所述第二敏感字段对所述目标数据表进行去敏处理。
4.根据权利要求3所述方法,其特征在于,根据所述目标数据表的数据表类型和所述候选抽样记录数确定所述目标数据表的目标抽样记录数,以使得有特征数据表类型的目标数据表的抽样记录数小于无特征数据表类型的目标数据表的抽样记录数,包括:
若所述数据表类型指示所述目标数据表是有特征数据表,则令所述候选抽样记录数减去第一值,以作为所述有特征数据表的目标抽样记录数;
若所述数据表类型指示所述目标数据表是无特征数据表,则令所述候选抽样记录数加上第二值,以作为所述无特征数据表的目标抽样记录数。
5.根据权利要求1所述方法,其特征在于,根据所述第一抽样记录数对所述第一记录进行分片抽样处理,以获得第一抽样记录,包括:
确定针对所述第一记录的抽样分片数;
根据所述第一抽样记录数和所述抽样分片数将所述多条记录划分为多个分片数据组;
根据所述第一抽样记录数在各个分片数据组中分别进行抽样,以获得所述第一抽样记录。
6.一种数据处理装置,其特征在于,包括:
数据表获取模块,用于获取目标数据表,所述目标数据表中包括多条记录;
记录分组模块,用于根据时间戳将所述多条记录进行划分以确定多条第一记录和多条第二记录,其中各个第一记录的时间戳均早于各个第二记录的时间戳;
抽样记录数确定模块,用于确定针对所述目标数据表的目标抽样记录数,并根据所述目标抽样记录数确定针对所述多条第一记录的第一抽样记录数和针对所述第二记录的第二抽样记录数,所述第一抽样记录数小于所述第二抽样记录数;
第一抽样模块,用于根据所述第一抽样记录数对所述第一记录进行分片抽样处理,以获得第一抽样记录;
第二抽样模块,用于根据所述第二抽样记录数对所述第二记录进行分片抽样处理,以获得第二抽样记录;
检索模块,用于对所述第一抽样记录和所述第二抽样记录进行敏感字段检索以确定第一敏感字段,以便通过所述第一敏感字段对所述目标数据表进行去敏处理;
其中,数据表类型包括有特征数据表类型和无特征数据表类型,其中所述有特征数据表指的是敏感度较高的数据表,所述无特征数据表指的是属性不明或者敏感度不高的数据表;
其中,确定针对所述目标数据表的目标抽样记录数,包括:
确定针对所述目标数据表的抽样置信度、抽样容忍误差以及抽样偏差概率;
根据所述抽样置信度、所述抽样容忍误差以及所述抽样偏差概率确定针对所述目标数据表的候选抽样记录数;
确定所述目标数据表的数据表类型;
根据所述目标数据表的数据表类型和所述候选抽样记录数确定所述目标数据表的目标抽样记录数,以使得有特征数据表类型的目标数据表的抽样记录数小于无特征数据表类型的目标数据表的抽样记录数。
7.一种电子设备,其特征在于,包括:
存储器;以及耦合到所述存储器的处理器,所述处理器被用于基于存储在所述存储器中的指令,执行如权利要求1-5任一项所述的数据处理方法。
8.一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如权利要求1-5任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111505742.6A CN114169004B (zh) | 2021-12-10 | 2021-12-10 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111505742.6A CN114169004B (zh) | 2021-12-10 | 2021-12-10 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114169004A CN114169004A (zh) | 2022-03-11 |
CN114169004B true CN114169004B (zh) | 2024-08-20 |
Family
ID=80485311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111505742.6A Active CN114169004B (zh) | 2021-12-10 | 2021-12-10 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114169004B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471862A (zh) * | 2018-11-12 | 2019-03-15 | 北京懿医云科技有限公司 | 数据处理方法及装置、电子设备、存储介质 |
CN112132238A (zh) * | 2020-11-23 | 2020-12-25 | 支付宝(杭州)信息技术有限公司 | 一种识别隐私数据的方法、装置、设备和可读介质 |
CN113094262A (zh) * | 2021-03-29 | 2021-07-09 | 四川新网银行股份有限公司 | 一种基于数据库分库分表的生产数据进行测试的方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7797341B2 (en) * | 2007-04-30 | 2010-09-14 | Hewlett-Packard Development Company, L.P. | Desensitizing database information |
JP5655764B2 (ja) * | 2011-11-09 | 2015-01-21 | トヨタ自動車株式会社 | サンプリング装置、サンプリングプログラム、およびその方法 |
CN102915336B (zh) * | 2012-09-18 | 2015-07-15 | 北京金和软件股份有限公司 | 一种基于时间戳和日志的增量数据捕获和抽取方法 |
CN104794204B (zh) * | 2015-04-23 | 2018-11-09 | 上海新炬网络技术有限公司 | 一种数据库敏感数据自动识别方法 |
CN110427362B (zh) * | 2018-04-27 | 2022-03-08 | 杭州海康威视数字技术股份有限公司 | 一种获取数据库类型的方法及装置 |
CN109271808A (zh) * | 2018-09-07 | 2019-01-25 | 北明软件有限公司 | 一种基于数据库敏感发现的数据静态脱敏系统和方法 |
CN113826349A (zh) * | 2019-05-15 | 2021-12-21 | 皇家飞利浦有限公司 | 对数据集中的敏感数据字段进行归类 |
US11941135B2 (en) * | 2019-08-23 | 2024-03-26 | International Business Machines Corporation | Automated sensitive data classification in computerized databases |
CN113094415B (zh) * | 2019-12-23 | 2024-03-29 | 北京懿医云科技有限公司 | 数据抽取方法、装置、计算机可读介质及电子设备 |
CN111274149A (zh) * | 2020-02-06 | 2020-06-12 | 中国建设银行股份有限公司 | 测试数据的处理方法及装置 |
CN111709052B (zh) * | 2020-06-01 | 2021-05-25 | 支付宝(杭州)信息技术有限公司 | 一种隐私数据识别和处理方法、装置、设备和可读介质 |
CN113761000A (zh) * | 2020-06-05 | 2021-12-07 | 华为技术有限公司 | 数据处理的方法、装置、计算设备和存储介质 |
US11188576B1 (en) * | 2020-06-13 | 2021-11-30 | International Business Machines Corporation | Sensitive data evaluation |
CN113032834A (zh) * | 2021-04-20 | 2021-06-25 | 江苏保旺达软件技术有限公司 | 一种数据库表格处理方法、装置、设备及存储介质 |
-
2021
- 2021-12-10 CN CN202111505742.6A patent/CN114169004B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471862A (zh) * | 2018-11-12 | 2019-03-15 | 北京懿医云科技有限公司 | 数据处理方法及装置、电子设备、存储介质 |
CN112132238A (zh) * | 2020-11-23 | 2020-12-25 | 支付宝(杭州)信息技术有限公司 | 一种识别隐私数据的方法、装置、设备和可读介质 |
CN113094262A (zh) * | 2021-03-29 | 2021-07-09 | 四川新网银行股份有限公司 | 一种基于数据库分库分表的生产数据进行测试的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114169004A (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200286014A1 (en) | Information updating method and device | |
EP3937022B1 (en) | Method and apparatus of monitoring interface performance of distributed application, device and storage medium | |
CN113326247B (zh) | 云端数据的迁移方法、装置及电子设备 | |
CN110019367B (zh) | 一种统计数据特征的方法和装置 | |
CN112506925A (zh) | 一种基于区块链的数据检索系统及方法 | |
CN114461644A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
CN107357794B (zh) | 优化键值数据库的数据存储结构的方法和装置 | |
CN110879808A (zh) | 一种信息处理方法和装置 | |
CN110866031B (zh) | 数据库访问路径的优化方法、装置、计算设备以及介质 | |
CN115757150A (zh) | 一种生产环境测试方法、装置、设备及存储介质 | |
CN112825165A (zh) | 项目质量管理的方法和装置 | |
CN114169004B (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN113094415B (zh) | 数据抽取方法、装置、计算机可读介质及电子设备 | |
CN112052248A (zh) | 一种审计大数据处理方法及系统 | |
CN112433757A (zh) | 一种确定接口调用关系的方法和装置 | |
CN114564501B (zh) | 一种数据库数据存储、查询方法、装置、设备及介质 | |
CN111831534B (zh) | 一种对数据报表进行准确性验证的方法和装置 | |
CN109617734B (zh) | 网络运营能力分析方法及装置 | |
CN114443653A (zh) | 基于数据库数据字段枚举统一存取方法、系统、终端设备及存储介质 | |
CN117009430A (zh) | 数据管理方法、装置和存储介质及电子设备 | |
US20240370485A1 (en) | Method and apparatus for vector retrieval, electronic device, and storage medium | |
CN114490663B (zh) | 数据处理方法及装置 | |
CN115905243A (zh) | 数据表的更新方法、电子设备和存储介质 | |
CN117951138A (zh) | 分布式数据库索引方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |