CN112149404A - 一种用户隐私数据的风险内容识别方法、装置及系统 - Google Patents
一种用户隐私数据的风险内容识别方法、装置及系统 Download PDFInfo
- Publication number
- CN112149404A CN112149404A CN202010987464.1A CN202010987464A CN112149404A CN 112149404 A CN112149404 A CN 112149404A CN 202010987464 A CN202010987464 A CN 202010987464A CN 112149404 A CN112149404 A CN 112149404A
- Authority
- CN
- China
- Prior art keywords
- risk
- semantic
- feature vector
- preset
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 120
- 239000013598 vector Substances 0.000 claims abstract description 219
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 32
- 230000000875 corresponding effect Effects 0.000 claims description 83
- 238000012545 processing Methods 0.000 claims description 45
- 238000012544 monitoring process Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 14
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 230000002596 correlated effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 238000009877 rendering Methods 0.000 description 6
- 230000001276 controlling effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 235000006887 Alpinia galanga Nutrition 0.000 description 1
- 240000002768 Alpinia galanga Species 0.000 description 1
- 229920002799 BoPET Polymers 0.000 description 1
- 239000005041 Mylar™ Substances 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本说明书一个或多个实施例提供了一种用户隐私数据的风险内容识别方法、装置及系统,其中,该方法应用于客户端,该方法包括:监测用户使用客户端中的目标应用所产生的用户隐私数据。利用预设语义表征模型,对上述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,该预设语义表征模型是利用预设知识蒸馏方法处理后部署于客户端的语义表征模型。若上述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送该第一语义特征向量,以使服务端基于该第一语义特征向量对用户隐私数据进行风险内容识别。
Description
技术领域
本文件涉及互联网技术领域,尤其涉及一种用户隐私数据的风险内容识别方法、装置及系统。
背景技术
目前,随着互联网时代的到来,互联网在人们日常的学习、工作和生活中得到广泛的应用。人们日常的各种事务都可以通过互联网来处理和呈现。同时,随着移动互联网的快速发展,各互联网服务提供方通过开发各自的应用程序为用户提供相应的业务服务,用户可以根据各自的实际需求在智能手机中安装相应的应用程序,例如,资讯应用、视频应用、聊天应用、购物应用、支付应用等等。
然而,应用程序向用户展示的页面浏览信息可能添加有风险内容,尤其在大量正常浏览信息中添加少量风险信息,导致风险信息被隐没;以及,由于考虑到用户的页面浏览信息可能属于用户隐私数据,在用户无感知的情况下,客户端直接将用户隐私数据(如用户在某一网页页面上的浏览内容)上传至服务端,以使服务端对用户隐私数据中是否存在风险信息进行识别,从而导致存在侵犯用户隐私的问题,因此,无法同时兼顾用户隐私保护和内容风险内容识别。
由此可知,需要提供一种在确保用户隐私保护的前提下对用户隐私数据进行风险内容识别的技术方案。
发明内容
本说明书一个或多个实施例的目的是提供一种用户隐私数据的风险内容识别方法。应用于客户端,该用户隐私数据的风险内容识别方法包括:
监测用户使用所述客户端中的目标应用所产生的用户隐私数据。利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型。若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。
本说明书一个或多个实施例的目的是提供一种用户隐私数据的风险内容识别装置。设置于客户端,该用户隐私数据的风险内容识别装置包括:
用户隐私数据监测模块,其监测用户使用所述客户端中的目标应用所产生的用户隐私数据。隐私数据语义识别模块,其利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型。语义特征向量上传模块,其若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。
本说明书一个或多个实施例的目的是提供一种用户隐私数据的风险内容识别设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器。
所述计算机可执行指令在被执行时使所述处理器监测用户使用所述客户端中的目标应用所产生的用户隐私数据。利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型。若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。
本说明书一个或多个实施例的目的是提供一种存储介质,用于存储计算机可执行指令。所述可执行指令在被处理器执行时监测用户使用所述客户端中的目标应用所产生的用户隐私数据。利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型。若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别系统的应用场景示意图;
图2为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第一种流程示意图;
图3为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第二种流程示意图;
图4为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第三种流程示意图;
图5为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第四种流程示意图;
图6为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第五种流程示意图;
图7为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第六种流程示意图;
图8为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第七种流程示意图;
图9为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别装置的模块组成示意图;
图10为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别装置的系统结构示意图;
图11为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一个或多个一部分实施例,而不是全部的实施例。基于本说明书一个或多个中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
需要说明的是,在不冲突的情况下,本说明书中的一个或多个实施例以及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本说明书一个或多个实施例。
本说明书一个或多个实施例提供了一种用户隐私数据的风险内容识别方法、装置及系统,在客户端侧实时监测用户使用目标应用所产生的用户隐私数据,利用预设语义表征模型,对该用户隐私数据进行语义特征向量转换以及可疑风险内容语句初步识别,并且将生成的用于表征可疑风险内容语句的语义特征向量发送至服务端,即由客户端以语义特征向量的形式向服务端上传初步筛选出的可疑隐私数据,以使服务端基于该语义特征向量对用户隐私数据进行最终风险内容识别,这样能够避免因直接将用户隐私数据上传给服务端所带来的用户隐私泄露的问题,从而实现在保护用户隐私的情况下,对用户隐私数据进行风险内容识别,进而及时对风险内容信息或风险内容信息的载体进行管控。
图1为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别系统的应用场景示意图,如图1所示,该系统包括:客户端、业务处理服务端和风险识别服务端,其中,该客户端可以是智能手机、平板电脑等客户端,该客户端还可以是个人计算机等终端设备,该业务处理服务端可以是为使用目标应用的客户端提供相应业务服务的服务端,该风险识别服务端可以是独立的服务器,也可以是由多个服务器组成的服务器集群。
其中,上述用户隐私数据的风险内容识别的具体过程为:
上述客户端,基于用户针对目标应用的触发操作,向业务处理服务端发送业务请求;
上述业务处理服务端,响应于客户端的业务请求,向客户端发送与业务请求对应的应用操作页面的页面渲染数据,其中,该页面渲染数据包括:操作页面显示信息;
上述客户端,基于接收到的上述页面渲染数据进行页面渲染,并将该页面渲染数据中的操作页面显示信息确定为用户使用客户端中的目标应用所产生的用户隐私数据;
上述客户端,利用预设语义表征模型,对上述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,该预设语义表征模型是利用预设知识蒸馏方法处理后部署于客户端的语义表征模型;
若上述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则上述客户端,向风险识别服务端发送该第一语义特征向量;
上述风险识别服务端,接收客户端发送的第一语义特征向量,并基于该第一语义特征向量对上述用户隐私数据进行风险内容识别。
在上述应用场景中,针对客户端基于用户针对目标应用的触发操作向业务处理服务端发送业务处理请求,并由业务处理服务端向客户端返回相应的页面显示信息的过程中,在客户端侧实时监测用户使用目标应用所产生的用户隐私数据,利用预设语义表征模型,对该用户隐私数据进行语义特征向量转换以及可疑风险内容语句初步识别,并且将生成的用于表征可疑风险内容语句的语义特征向量发送至服务端,即由客户端以语义特征向量的形式向服务端上传初步筛选出的可疑隐私数据,以使服务端基于该语义特征向量对用户隐私数据进行最终风险内容识别,这样能够避免因直接将用户隐私数据上传给服务端所带来的用户隐私泄露的问题,从而实现在保护用户隐私的情况下,对用户隐私数据进行风险内容识别,进而及时对风险内容信息或风险内容信息的载体进行管控。
图2为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第一种流程示意图,图2中的方法能够由图1中的客户端执行,如图2所示,该方法至少包括以下步骤:
S202,监测用户使用客户端中的目标应用所产生的用户隐私数据;其中,该目标应用可以是独立安装的应用程序,也可以是接入指定宿主应用的小程序或Html5网页;该用户隐私数据可以是上述业务处理服务端返回的页面渲染数据中的操作页面显示信息。
S204,利用预设语义表征模型,对上述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,该预设语义表征模型是利用预设知识蒸馏方法处理后部署于客户端的语义表征模型;该预设语义表征模型可以是BERT模型,也可以是其他语义识别模型,例如,Word2vec模型。其中,该语义表征信息可以包括:操作页面显示信息中的多个文本语句的语义特征向量和用于表征各文本语句为风险语句的概率的风险权重;
具体的,上述预设语义表征模型是服务端利用预设知识蒸馏方法并基于正常语料样本训练得到的,以及通过知识蒸馏方法对预设语义识别模型进行知识蒸馏,将预设语义识别模型的大小压缩至预设值,以减小客户端的数据处理和模型存储压力,确保在客户端利用预设语义表征模型进行风险初步筛选的可行性;具体的,预先在服务端侧利用预设知识蒸馏方法并基于正常语料样本,训练得到预设语义表征模型,并将该预设语义表征模型部署于客户端。
S206,若上述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送该第一语义特征向量,以使服务端基于该第一语义特征向量对上述用户隐私数据进行风险内容识别;其中,该服务端可以是上述风险识别服务端;
若上述语义表征信息不包括用于表征可疑风险内容语句的第一语义特征向量,则继续执行上述S202,监测用户使用客户端中的目标应用所产生的用户隐私数据。
在具体实施时,针对在客户端侧识别出用户隐私数据中包含可疑风险内容语句的情况,可以仅向服务端上传用于表征可疑风险内容语句的第一语义特征向量,这样能够减少用户隐私数据的上传量,还可以同时上传用于表征可疑风险内容语句的第一语义特征向量和用于表征无风险内容语句的第二语义特征向量,具体采用哪种方式可以根据实际情况进行设定。
具体的,在客户端侧利用预设语义表征模型对用户隐私数据进行语义识别,基于语义识别结果对用户隐私数据中的可疑内容进行初步筛选,并将筛选出的可疑内容以特征向量的形式上传至服务端,再由服务端对用户隐私数据进行最终的风险内容识别,这样能够减少上传至服务端的用户隐私数据的数据量,以及,向服务端上传的是用户隐私数据的语义隐私表征向量,而非明文的用户隐私数据,同时实现了风险内容识别和用户隐私保护。
本说明书一个或多个实施例中,在客户端侧实时监测用户使用目标应用所产生的用户隐私数据,利用预设语义表征模型,对该用户隐私数据进行语义特征向量转换以及可疑风险内容语句初步识别,并且将生成的用于表征可疑风险内容语句的语义特征向量发送至服务端,即由客户端以语义特征向量的形式向服务端上传初步筛选出的可疑隐私数据,以使服务端基于该语义特征向量对用户隐私数据进行最终风险内容识别,这样能够避免因直接将用户隐私数据上传给服务端所带来的用户隐私泄露的问题,从而实现在保护用户隐私的情况下,对用户隐私数据进行风险内容识别,进而及时对风险内容信息或风险内容信息的载体进行管控。
其中,如图3所示,上述S202,监测用户使用客户端中的目标应用所产生的用户隐私数据,具体包括:
S2022,在监听到用户针对客户端中的目标应用的触发操作后,获取用户在目标应用下的操作页面显示信息;其中,该触发操作可以是页面访问触发操作,对应的,该操作页面显示信息为基于该页面访问触发操作向业务处理服务端请求返回的访问页面信息;
其中,上述操作页面显示信息包括:终端界面所展示的多媒体信息、文本类信息、图片类信息中至少一项。
S2024,基于获取到的操作页面显示信息,确定用户使用目标应用所产生的用户隐私数据。
具体的,考虑到预设语义表征模型的输入信息为文本类信息,因此,针对操作页面显示信息中的非文本类显示信息,将该非文本类信息转换为文本类显示信息;例如,针对多媒体信息中的语音信息,可以该语音信息进行文本转换,得到该语义信息对应的文本类信息;又如,针对图片类信息,可以从该图片类信息中提取文本类信息。
其中,考虑到客户端中安装的独立的宿主应用程序下可能接入多个寄宿应用,该寄宿应用来自于第三方服务平台,该第三方服务平台可能存在通过目标应用向用户展示的大量正常页面信息中掺杂少量风险页面信息的情况,从而达到向用户传递风险内容信息的目的,因此,为了提高使用该宿主应用程序的用户所浏览的页面信息的安全性,需要对第三方服务平台通过寄宿应用向用户展示的页面信息进行风险监控,基于此,上述目标应用包括:接入指定宿主应用的小程序或Html5网页;
对应的,上述S2022,在监听到用户针对客户端中的目标应用的触发操作后,获取用户在目标应用下的操作页面显示信息,具体包括:
在监听到用户针对指定宿主应用的触发操作后,获取用户在小程序或Html5网页下所浏览的页面文本信息;
将获取到的页面文本信息确定为用户在目标应用下的操作页面显示信息。
例如,用户在小程序或Html5网页下所浏览的页面文本信息为“根据央行公布的数据,截至2019年6月末,存款类金融机构住户部门短期消费贷款规模为9.11万亿元,好看的女亻尤的视频,请联系xxx,登录www。XxNx。tv,2019年上半年该项净增3293.19亿元,上半年增量看起来并不乐观。”其中,该页面文本信息中包含的风险内容语句为“好看的女亻尤的视频,请联系xxx,登录www。XxNx。tv,”即大量正常页面信息中掺杂的少量风险页面信息。
其中,上述用户隐私数据包括:用户在上述目标应用下所浏览的页面文本信息;
对应的,如图4所示,上述S202,监测用户使用客户端中的目标应用所产生的用户隐私数据,具体包括:
S2026,在监听到用户针对客户端中的目标应用的触发操作后,获取用户在目标应用下所浏览的页面文本信息;
对应的,上述S204,利用预设语义表征模型,对上述用户隐私数据进行语义识别,得到相应的语义表征信息,具体包括:
S2042,对用户在目标应用下所浏览的页面文本信息进行拆分处理,得到多个待识别文本内容语句;
S2044,利用预设语义表征模型,对各待识别的文本内容语句进行语义识别,得到各文本内容语句的语义特征向量和风险权重;其中,该预设语义表征模型是利用预设知识蒸馏方法处理后部署于客户端的语义表征模型;
其中,该风险权重用于表征文本内容语句为可疑风险内容语句的概率,该风险权重是基于在针对该文本内容语句进行语义识别生成语义特征向量时所得到的文本内容语句中各目标分词与相邻分词的相关程度所确定的;
其中,预设语义表征模型可以是BERT模型,且BERT模型为利用知识蒸馏方法并基于正常语料样本训练得到的,对应的,在对文本内容语句进行语义识别过程中,可以采用BERT模型中Basic Tokenizer进行切分词,再识别每个切分词是否为正常内容语料,若不为正常内容语料,则确定为可疑风险词,增加该文本内容语句对应的风险权重。
S2046,根据拆分得到的各文本内容语句的语义特征向量和风险权重,确定所述用户隐私数据的语义表征信息;其中,该语义表征信息包括:各文本内容语句的语义特征向量和风险权重。
本说明书一个或多个实施例中,先通过将页面文本信息拆分为多个页面文本语句,即将长句拆分为多个短句,再利用预设语义表征模型对每个页面文本语句进行语义识别,其中,预设语义表征模型可以是BERT模型,对应的,可以采用BERT模型中BasicTokenizer进行切分词,这样能够更容易识别出风险对抗词(如集外词即为OOV词),从而避免少量有风险内容被大量无风险内容淹没的情况,同时通过预设语义表征模型对页面文本信息进行语义识别也能够保留上下文语义信息,进行风险对抗的语义隐私表征为向量,同时保护了用户隐私泄露。
其中,针对各文本内容语句的语义特征向量和风险权重的确定过程,上述S2044,利用预设语义表征模型,对各待识别的文本内容语句进行语义识别,得到各文本内容语句的语义特征向量和风险权重,具体包括:
步骤一,将各待识别的文本内容语句输入至预设语义表征模型,得到各文本内容语句的语义特征向量;以及,
步骤二,利用预设语义表征模型,针对每个文本内容语句,根据在针对该文本内容语句进行语义识别生成语义特征向量时所得到的各目标分词的风险预估值,确定该文本内容语句中包含的可疑风险词的数量;其中,该可疑风险词包括:风险关键词和集外词中至少一项;该目标分词的风险预估值包括:各目标分词与相邻分词的相关程度和/或目标分词与正常内容语料的匹配程度;
具体的,上述集外词即为OOV词,out of vocabulary,即超出词表外的词,例如,针对上述页面文本语句“好看的女亻尤的视频,请联系xxx,登录www。XxNx。tv”,该页面文本语句中包含OOV词“女亻尤”。具体的,由于预设语义表征模型是基于正常语料样本训练得到的,可以将文本内容语句中除正常内容语料之外的分词确定为可疑风险词,即目标分词与正常内容语料的匹配程度越小,该目标分词为风险词的概率越大。
又如,上述页面文本语句“好看的女亻尤的视频,请联系xxx,登录www。XxNx。tv”,该页面文本语句还包含风险关键词XxNx。
步骤三,根据确定出的可疑风险词的数量,确定该文本内容语句的风险权重;其中,该风险权重与当前识别的文本内容语句中包含的可疑风险词的数量正相关;也就是说,文本内容语句中的可疑风险词的数量越多,则该文本内容语句在页面文本信息中的风险权重越大,即该文本内容语句为风险内容语句的概率越大,这样能够避免正常页面文本信息中包含的OOV词被淹没的情况。
例如,针对预设语义表征模型的模型训练样本为正常语料样本的情况,在利用该预设语义表征模型对各待识别的文本内容语句中的各分词进行语义识别时,针对每个文本内容语句,确定该文本内容语句中的每个目标分词与正常语料样本的匹配程度;该匹配程度越小,说明目标分词不属于正常内容语料的概率越大,因此,可以根据文本内容语句中的各分词与正常语料样本的匹配程度,确定相应的分词是否为风险词,具体的,若匹配程度小于预设阈值,则确定分词为风险词。
又如,在利用该预设语义表征模型对各待识别的文本内容语句中的各分词进行语义识别时,针对每个文本内容语句,确定针对该文本内容语句中的每个目标分词所赋予的注意力权重(即attention取值),其中,该attention取值能够表征当前识别的目标分词对其相邻分词的重要程度,即attention取值越大,说明目标分词对其相邻分词的重要程度越高,即目标分词与相邻分词的相关程度也越高,因此,可以将attention取值作为识别文本内容语句中的风险词的依据,即根据文本内容语句中的各分词的attention取值的大小,确定相应的分词是否为风险词,具体的,若attention取值小于预设阈值,则确定分词为风险词。
在具体实施时,还可以针对每个文本内容语句,基于文本内容语句中的风险词的位置信息,对该文本内容语句对应的语义特征向量进行风险词标注;
将标注后的语义特征向量确定为该文本内容语句对应的语义特征向量,以便于服务端快速锁定文本内容语句对应的语义特征向量中风险词所在位置。
进一步的,上述语义表征信息还包括:用于表征无风险内容语句的第二语义特征向量;
上述第二语义特征向量对应的风险权重小于上述第一语义特征向量对应的风险权重。
具体的,上述第二语义特征向量为分词均为正常内容语料的文本内容语句对应的语义特征向量;对应的,上述第一语义特征向量为包含非正常内容语料的文本内容语句对应的语义特征向量,即文本内容语句包括非正常内容语料和正常内容语料。
其中,针对页面文本信息的拆分过程,上述S2042,对用户在目标应用下所浏览的页面文本信息进行拆分处理,得到多个待识别文本内容语句,具体包括:
判断用户在目标应用下所浏览的页面文本信息的字符长度是否大于预设的最大字符长度;
若是,则按照预设的最大字符长度,对用户在目标应用下所浏览的页面文本信息进行拆分处理,得到多个待识别的文本内容语句。
在具体实施时,针对页面文本信息的拆分过程,还可以按照预设的标点符号,对用户在目标应用下所浏览的页面文本信息进行拆分处理,得到多个待识别的文本内容语句。
进一步的,针对基于各文本内容语句的风险权重,确定表征可疑风险内容语句的第一语义特征向量的过程,在图4的基础上,如图5所示,在上述S2046,根据拆分得到的各文本内容语句的语义特征向量和风险权重,确定所述用户隐私数据的语义表征信息之后,还包括:
S2048,根据各文本内容语句的风险权重,确定获取到的页面文本信息是否包含可疑的文本内容语句;
若包含,则执行S2050,确定上述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量;
具体的,将从用户隐私数据中识别出的可疑的文本内容语句的语义特征向量,确定为用于表征可疑风险内容语句的第一语义特征向量。
其中,针对可疑的文本内容语句的识别过程,若将可疑风险词的数量为零的文本内容语句的风险权重设置为零;对应的,上述S2048,根据各文本内容语句的风险权重,确定获取到的页面文本信息是否包含可疑的文本内容语句,具体包括:
若存在至少一个风险权重不为零,则确定页面文本信息包含可疑的文本内容语句。
进一步的,根据各文本内容语句的风险权重,确定用于表征可疑风险内容语句的第一语义特征向量;
具体的,按照风险权重由高到低的顺序,将排序靠前的预设数量的风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量;
或者,将多个风险权重中大于预设风险阈值的风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量。
其中,上述目标应用包括:接入指定宿主应用的小程序或Html5网页;对应的,针对指定宿主应用对应的服务端与目标应用对应的服务端不同的情况,上述风险识别服务端可以是为使用指定宿主应用的客户端提供业务服务的服务端,即由指定宿主应用对应的服务端对接入该指定宿主应用的小程序或Html5网页进行风险监测;
对应的,如图6所示,上述S206,若上述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送该第一语义特征向量,以使服务端基于该第一语义特征向量对上述用户隐私数据进行风险内容识别,具体包括:
S2062,若上述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向目标应用所接入的指定宿主应用对应的服务端发送上述第一语义特征向量,以使服务端基于该第一语义特征向量对上述用户隐私数据进行风险内容识别。
具体的,在客户端侧利用预设语义表征模型对使用目标应用所产生的用户隐私数据进行语义识别,将初步筛选出的用于表征可疑风险内容语句的第一语义特征向量发送至目标应用所接入的指定宿主应用对应的服务端,从而实现某一宿主应用对接入该宿主应用的小程序或Html5网页进行风险管控,进而确保接入该宿主应用的小程序或Html5网页的安全性。
进一步的,针对服务端最终确定目标应用下的操作页面显示信息中包含风险内容信息的情况,需要对目标应用进行管控,基于此,如图7所示,上述S206,若上述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送该第一语义特征向量,以使服务端基于该第一语义特征向量对上述用户隐私数据进行风险内容识别,具体包括:
S2064,若上述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,将确定出的第一语义特征向量和目标应用的标识信息上传至服务端,以使该服务端基于第一语义特征向量对页面文本信息中的可疑风险内容语句进行风险内容识别、若确定该可疑风险内容语句为风险内容语句,则对目标应用进行预设处理;其中,该预设处理包括:拦截、管控、下架中任一项。
具体的,考虑到在服务端直接对目标应用进行预设处理,将导致客户端不能访问目标应用,因此,为了提高用户使用体验,在服务端对目标应用进行预设处理后,向客户端返回相应的异常提示信息,以便用户获知客户端无法正常访问目标应用的原因,基于此,在上述S2064,将确定出的第一语义特征向量和目标应用的标识信息上传至服务端,以使该服务端基于第一语义特征向量对页面文本信息中的可疑风险内容语句进行风险内容识别、若确定该可疑风险内容语句为风险内容语句,则对目标应用进行预设处理之后,还包括:
接收服务端返回的针对目标应用的预设处理结果,其中,该预设处理结果为在服务端确定可疑风险内容语句为风险内容语句时所生成的;
根据针对目标应用的预设处理结果,向用户展示相应的异常提示信息。
进一步的,考虑到通常训练好的预设语义表征模型均比较大,如果部署在客户端将给客户端的计算和存储带来一定压力,导致客户端针对用户的响应速度变慢,从而影响用户使用体验,基于此,如图8所示,在S202,监测用户使用客户端中的目标应用所产生的用户隐私数据之前,还包括:
S208,接收服务端下发的预设语义表征模型的文件包信息;其中,该预设语义表征模型是利用知识蒸馏方法并基于预设语料样本训练得到的;该预设语料样本包括:正常语料样本;在具体实施时,该预设语料样本还可以包括:风险关键词、集外词;其中,该知识蒸馏方法可以是ALBERT、Q8BERT、DistillBERT、TinyBERT中任一项,以便得到知识蒸馏压缩后的语义表征模型;
其中,在服务端基于预设语料样本对预设语义表征模型进行训练时,引入知识蒸馏方法,利用知识蒸馏方法将预设语义表征模型的大小压缩至预设值,例如,可以将预设语义表征模型的大小压缩至10M左右,从实现在客户端轻量级地部署预设语义表征模型,即在预设语义表征模型的训练过程利用知识蒸馏方法,体现模型部署轻量化,有助于边缘计算的实现,以便在客户端侧利用该预设语义表征模型对用户隐私数据进行语义识别,支持在客户端对用户隐私数据进行风险内容初步筛选,无需全量将用户隐私数据上传至云端。
具体的,预先服务端从指定资料提供方处抽取正常内容语料,将该正常内容语料作为预设语义表征模型的训练样本,例如,指定资料提供方可以是无违规内容的官方网站,如,人民日报、人民网等等;又如,指定资料提供方还可以是无违规内容的第三方网站,如,百科、新闻、互动社区等等。
S210,基于接收到的文件包信息,在本地存储训练好的预设语义表征模型。
其中,考虑到由于风险关键词、集外词等无法穷举的问题,导致通过文本关键词和文本变形对抗策略无法完全覆盖风险词,而正常语料的数量是有限的,为了提高利用预设语义表征模型对页面文本信息进行风险词识别的准确度,在对预设语义表征模型进行训练的过程中,将正常语料样本(即无风险内容的语料样本)作为预设语义表征模型的模型训练语料样本集,从而实现准确地在页面文本信息中识别出风险对抗词,达到风险内容对抗的目的,避免风险信息被大量正常信息所淹没。
本说明书一个或多个实施例中的用户隐私数据的风险内容识别方法,在客户端侧实时监测用户使用目标应用所产生的用户隐私数据,利用预设语义表征模型,对该用户隐私数据进行语义特征向量转换以及可疑风险内容语句初步识别,并且将生成的用于表征可疑风险内容语句的语义特征向量发送至服务端,即由客户端以语义特征向量的形式向服务端上传初步筛选出的可疑隐私数据,以使服务端基于该语义特征向量对用户隐私数据进行最终风险内容识别,这样能够避免因直接将用户隐私数据上传给服务端所带来的用户隐私泄露的问题,从而实现在保护用户隐私的情况下,对用户隐私数据进行风险内容识别,进而及时对风险内容信息或风险内容信息的载体进行管控。
对应上述图2至图8描述的用户隐私数据的风险内容识别方法,基于相同的技术构思,本说明书一个或多个实施例还提供了一种用户隐私数据的风险内容识别装置,图9为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别装置的模块组成示意图,该装置设置于客户端,用于执行图2至图8描述的用户隐私数据的风险内容识别方法,如图9所示,该装置包括:
用户隐私数据监测模块902,其监测用户使用所述客户端中的目标应用所产生的用户隐私数据;
隐私数据语义识别模块904,其利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型;
语义特征向量上传模块906,其若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。
本说明书一个或多个实施例中,在客户端侧实时监测用户使用目标应用所产生的用户隐私数据,利用预设语义表征模型,对该用户隐私数据进行语义特征向量转换以及可疑风险内容语句初步识别,并且将生成的用于表征可疑风险内容语句的语义特征向量发送至服务端,即由客户端以语义特征向量的形式向服务端上传初步筛选出的可疑隐私数据,以使服务端基于该语义特征向量对用户隐私数据进行最终风险内容识别,这样能够避免因直接将用户隐私数据上传给服务端所带来的用户隐私泄露的问题,从而实现在保护用户隐私的情况下,对用户隐私数据进行风险内容识别,进而及时对风险内容信息或风险内容信息的载体进行管控。
可选地,所述用户隐私数据监测模块902,其:
在监听到用户针对所述客户端中的目标应用的触发操作后,获取所述用户在所述目标应用下的操作页面显示信息;
基于所述操作页面显示信息,确定所述用户使用所述目标应用所产生的用户隐私数据。
可选地,所述目标应用包括:接入指定宿主应用的小程序或Html5网页;所述用户隐私数据监测模块902,其:
在监听到用户针对所述指定宿主应用的触发操作后,获取所述用户在所述小程序或Html5网页下所浏览的页面文本信息;
将所述页面文本信息确定为所述用户在所述目标应用下的操作页面显示信息。
可选地,所述用户隐私数据包括:用户在所述目标应用下所浏览的页面文本信息;所述隐私数据语义识别模块904,其:
对所述页面文本信息进行拆分处理,得到多个待识别文本内容语句;
利用预设语义表征模型,对各所述文本内容语句进行语义识别,得到各所述文本内容语句的语义特征向量和风险权重;
根据各所述文本内容语句的所述语义特征向量和所述风险权重,确定相应的语义表征信息。
可选地,所述隐私数据语义识别模块904,其:
将各所述文本内容语句输入至所述预设语义表征模型,得到各所述文本内容语句的语义特征向量;以及,
利用所述预设语义表征模型,针对每个所述文本内容语句,确定该文本内容语句中包含的可疑风险词的数量;
根据所述可疑风险词的数量,确定所述文本内容语句的风险权重;其中,所述风险权重与所述可疑风险词的数量正相关。
可选地,所述语义表征信息还包括:用于表征无风险内容语句的第二语义特征向量,
所述第二语义特征向量对应的所述风险权重小于所述第一语义特征向量对应的所述风险权重。
可选地,所述隐私数据语义识别模块904,其:
判断所述页面文本信息的字符长度是否大于最大字符长度;
若是,则按照所述最大字符长度,对所述页面文本信息进行拆分处理,得到多个待识别的文本内容语句。
可选地,所述装置还包括:可疑风险内容判断模块,其:
根据各所述文本内容语句的所述风险权重,确定所述页面文本信息是否包含可疑的文本内容语句;
若包含,则确定所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量。
可选地,若所述可疑风险词的数量为零的所述文本内容语句对应的风险权重为零;
所述可疑风险内容判断模块,其:
若存在至少一个风险权重不为零,则确定页面文本信息包含可疑的文本内容语句;以及,
按照风险权重由高到低的顺序,将排序靠前的预设数量的所述风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量;或者,将多个所述风险权重中大于预设风险阈值的风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量。
可选地,所述目标应用包括:接入指定宿主应用的小程序或Html5网页;所述语义特征向量上传模块906,其:
向所述指定宿主应用对应的服务端发送所述第一语义特征向量。
可选地,所述语义特征向量上传模块906,其:
将所述第一语义特征向量和所述目标应用的标识信息上传至服务端,以使所述服务端基于所述第一语义特征向量对所述可疑风险内容语句进行风险内容识别、若确定所述可疑风险内容语句为风险内容语句,则对所述目标应用进行预设处理。
可选地,所述装置还包括:应用处理结果提示模块,其:
接收所述服务端返回的针对所述目标应用的预设处理结果,其中,所述预设处理结果为在所述服务端确定所述可疑风险内容语句为风险内容语句时所生成的;
根据针对所述目标应用的所述预设处理结果,向所述用户展示相应的异常提示信息。
可选地,所述装置还包括:语义表征模型部署模块,其:
接收服务端下发的预设语义表征模型的文件包信息;其中,所述预设语义表征模型是利用知识蒸馏方法并基于预设语料样本训练得到的;所述预设语料样本包括:正常语料样本、风险关键词、集外词;
基于所述文件包信息,在本地存储所述预设语义表征模型。
可选地,所述预设语义表征模型包括:BERT模型。
本说明书一个或多个实施例中的用户隐私数据的风险内容识别装置,在客户端侧实时监测用户使用目标应用所产生的用户隐私数据,利用预设语义表征模型,对该用户隐私数据进行语义特征向量转换以及可疑风险内容语句初步识别,并且将生成的用于表征可疑风险内容语句的语义特征向量发送至服务端,即由客户端以语义特征向量的形式向服务端上传初步筛选出的可疑隐私数据,以使服务端基于该语义特征向量对用户隐私数据进行最终风险内容识别,这样能够避免因直接将用户隐私数据上传给服务端所带来的用户隐私泄露的问题,从而实现在保护用户隐私的情况下,对用户隐私数据进行风险内容识别,进而及时对风险内容信息或风险内容信息的载体进行管控。
需要说明的是,本说明书中关于用户隐私数据的风险内容识别装置的实施例与本说明书中关于用户隐私数据的风险内容识别方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的用户隐私数据的风险内容识别方法的实施,重复之处不再赘述。
对应上述图2至图8描述的用户隐私数据的风险内容识别方法,基于相同的技术构思,本说明书一个或多个实施例还提供了一种用户隐私数据的风险内容识别系统,图10为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别系统的结构组成示意图,该系统用于执行图2至图8描述的用户隐私数据的风险内容识别方法,如图10所示,该系统包括:客户端和风险识别服务端;
上述客户端,监测用户使用客户端中的目标应用所产生的用户隐私数据;利用预设语义表征模型,对产生的用户隐私数据进行语义识别,得到相应的语义表征信息;其中,该预设语义表征模型是利用预设知识蒸馏方法处理后部署于客户端的语义表征模型;若得到的语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向风险识别服务端发送该第一语义特征向量;
上述风险识别服务端,接收客户端上传的用于表征可疑风险内容语句的第一语义特征向量;基于该第一语义特征向量对所述用户隐私数据进行风险内容识别。
具体的,风险识别服务端基于客户端上传的第一语义特征向量对可疑风险内容语句进行风险内容识别,若确定该可疑风险内容语句为风险内容语句,则对目标应用进行预设处理;其中,该包括:拦截、管控、下架中任一项。
进一步的,风险识别服务端在确定该可疑风险内容语句为风险内容语句后,生成针对目标应用的预设处理结果,并将该预设处理结果返回至客户端,以使该客户端根据针对目标应用的预设处理结果,向用户展示相应的异常提示信息。
本说明书一个或多个实施例中的用户隐私数据的风险内容识别系统,在客户端侧实时监测用户使用目标应用所产生的用户隐私数据,利用预设语义表征模型,对该用户隐私数据进行语义特征向量转换以及可疑风险内容语句初步识别,并且将生成的用于表征可疑风险内容语句的语义特征向量发送至服务端,即由客户端以语义特征向量的形式向服务端上传初步筛选出的可疑隐私数据,以使服务端基于该语义特征向量对用户隐私数据进行最终风险内容识别,这样能够避免因直接将用户隐私数据上传给服务端所带来的用户隐私泄露的问题,从而实现在保护用户隐私的情况下,对用户隐私数据进行风险内容识别,进而及时对风险内容信息或风险内容信息的载体进行管控。
需要说明的是,本说明书中关于用户隐私数据的风险内容识别系统的实施例与本说明书中关于用户隐私数据的风险内容识别方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的用户隐私数据的风险内容识别方法的实施,重复之处不再赘述。
进一步地,对应上述图2至图8所示的方法,基于相同的技术构思,本说明书一个或多个实施例还提供了一种用户隐私数据的风险内容识别设备,该设备用于执行上述的用户隐私数据的风险内容识别方法,如图11所示。
用户隐私数据的风险内容识别设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器1101和存储器1102,存储器1102中可以存储有一个或一个以上存储应用程序或数据。其中,存储器1102可以是短暂存储或持久存储。存储在存储器1102的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对用户隐私数据的风险内容识别设备中的一系列计算机可执行指令。更进一步地,处理器1101可以设置为与存储器1102通信,在用户隐私数据的风险内容识别设备上执行存储器1102中的一系列计算机可执行指令。用户隐私数据的风险内容识别设备还可以包括一个或一个以上电源1103,一个或一个以上有线或无线网络接口1104,一个或一个以上输入输出接口1105,一个或一个以上键盘1106等。
在一个具体的实施例中,用户隐私数据的风险内容识别设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对用户隐私数据的风险内容识别设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
监测用户使用客户端中的目标应用所产生的用户隐私数据;
利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型;
若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。
本说明书一个或多个实施例中,在客户端侧实时监测用户使用目标应用所产生的用户隐私数据,利用预设语义表征模型,对该用户隐私数据进行语义特征向量转换以及可疑风险内容语句初步识别,并且将生成的用于表征可疑风险内容语句的语义特征向量发送至服务端,即由客户端以语义特征向量的形式向服务端上传初步筛选出的可疑隐私数据,以使服务端基于该语义特征向量对用户隐私数据进行最终风险内容识别,这样能够避免因直接将用户隐私数据上传给服务端所带来的用户隐私泄露的问题,从而实现在保护用户隐私的情况下,对用户隐私数据进行风险内容识别,进而及时对风险内容信息或风险内容信息的载体进行管控。
可选地,计算机可执行指令在被执行时,所述监测用户使用所述客户端中的目标应用所产生的用户隐私数据,包括:
在监听到用户针对所述客户端中的目标应用的触发操作后,获取所述用户在所述目标应用下的操作页面显示信息;
基于所述操作页面显示信息,确定所述用户使用所述目标应用所产生的用户隐私数据。
可选地,计算机可执行指令在被执行时,所述目标应用包括:接入指定宿主应用的小程序或Html5网页;
所述在监听到用户针对所述客户端中的目标应用的触发操作后,获取所述用户在所述目标应用下的操作页面显示信息,包括:
在监听到用户针对所述指定宿主应用的触发操作后,获取所述用户在所述小程序或Html5网页下所浏览的页面文本信息;
将所述页面文本信息确定为所述用户在所述目标应用下的操作页面显示信息。
可选地,计算机可执行指令在被执行时,所述用户隐私数据包括:用户在所述目标应用下所浏览的页面文本信息;
所述利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息,包括:
对所述页面文本信息进行拆分处理,得到多个待识别文本内容语句;
利用预设语义表征模型,对各所述文本内容语句进行语义识别,得到各所述文本内容语句的语义特征向量和风险权重;
根据各所述文本内容语句的所述语义特征向量和所述风险权重,确定相应的语义表征信息。
可选地,计算机可执行指令在被执行时,所述利用预设语义表征模型,对各所述文本内容语句进行语义识别,得到各所述文本内容语句的语义特征向量和风险权重,包括:
将各所述文本内容语句输入至所述预设语义表征模型,得到各所述文本内容语句的语义特征向量;以及,
利用所述预设语义表征模型,针对每个所述文本内容语句,确定该文本内容语句中包含的可疑风险词的数量;
根据所述可疑风险词的数量,确定所述文本内容语句的风险权重;其中,所述风险权重与所述可疑风险词的数量正相关。
可选地,计算机可执行指令在被执行时,所述语义表征信息还包括:用于表征无风险内容语句的第二语义特征向量,
所述第二语义特征向量对应的所述风险权重小于所述第一语义特征向量对应的所述风险权重。
可选地,计算机可执行指令在被执行时,所述对所述页面文本信息进行拆分处理,得到多个待识别文本内容语句,包括:
判断所述页面文本信息的字符长度是否大于最大字符长度;
若是,则按照所述最大字符长度,对所述页面文本信息进行拆分处理,得到多个待识别的文本内容语句。
可选地,计算机可执行指令在被执行时,在利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息之后,还包括:
根据各所述文本内容语句的所述风险权重,确定所述页面文本信息是否包含可疑的文本内容语句;
若包含,则确定所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量。
可选地,计算机可执行指令在被执行时,若所述可疑风险词的数量为零的所述文本内容语句对应的风险权重为零;所述根据各所述文本内容语句的所述风险权重,确定所述页面文本信息是否包含可疑的文本内容语句,包括:
若存在至少一个风险权重不为零,则确定页面文本信息包含可疑的文本内容语句;以及,
按照风险权重由高到低的顺序,将排序靠前的预设数量的所述风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量;或者,将多个所述风险权重中大于预设风险阈值的风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量。
可选地,计算机可执行指令在被执行时,所述目标应用包括:接入指定宿主应用的小程序或Html5网页;
所述向服务端发送所述第一语义特征向量,包括:
向所述指定宿主应用对应的服务端发送所述第一语义特征向量。
可选地,计算机可执行指令在被执行时,所述向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别,包括:
将所述第一语义特征向量和所述目标应用的标识信息上传至服务端,以使所述服务端基于所述第一语义特征向量对所述可疑风险内容语句进行风险内容识别、若确定所述可疑风险内容语句为风险内容语句,则对所述目标应用进行预设处理。
可选地,计算机可执行指令在被执行时,在将所述第一语义特征向量和所述目标应用的标识信息上传至服务端,以使所述服务端基于所述第一语义特征向量对所述可疑风险内容语句进行风险内容识别、若确定所述可疑风险内容语句为风险内容语句,则对所述目标应用进行预设处理之后,还包括:
接收所述服务端返回的针对所述目标应用的预设处理结果,其中,所述预设处理结果为在所述服务端确定所述可疑风险内容语句为风险内容语句时所生成的;
根据针对所述目标应用的所述预设处理结果,向所述用户展示相应的异常提示信息。
可选地,计算机可执行指令在被执行时,在监测用户使用所述客户端中的目标应用所产生的用户隐私数据之前,还包括:
接收服务端下发的预设语义表征模型的文件包信息;其中,所述预设语义表征模型是利用知识蒸馏方法并基于预设语料样本训练得到的;所述预设语料样本包括:正常语料样本、风险关键词、集外词;
基于所述文件包信息,在本地存储所述预设语义表征模型。
可选地,计算机可执行指令在被执行时,所述预设语义表征模型包括:BERT模型。
本说明书一个或多个实施例中的用户隐私数据的风险内容识别设备,在客户端侧实时监测用户使用目标应用所产生的用户隐私数据,利用预设语义表征模型,对该用户隐私数据进行语义特征向量转换以及可疑风险内容语句初步识别,并且将生成的用于表征可疑风险内容语句的语义特征向量发送至服务端,即由客户端以语义特征向量的形式向服务端上传初步筛选出的可疑隐私数据,以使服务端基于该语义特征向量对用户隐私数据进行最终风险内容识别,这样能够避免因直接将用户隐私数据上传给服务端所带来的用户隐私泄露的问题,从而实现在保护用户隐私的情况下,对用户隐私数据进行风险内容识别,进而及时对风险内容信息或风险内容信息的载体进行管控。
需要说明的是,本说明书中关于用户隐私数据的风险内容识别设备的实施例与本说明书中关于用户隐私数据的风险内容识别方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的用户隐私数据的风险内容识别方法的实施,重复之处不再赘述。
进一步地,对应上述图2至图8所示的方法,基于相同的技术构思,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
监测用户使用客户端中的目标应用所产生的用户隐私数据;
利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型;
若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。
本说明书一个或多个实施例中的存储介质存储的计算机可执行指令在被处理器执行时,在客户端侧实时监测用户使用目标应用所产生的用户隐私数据,利用预设语义表征模型,对该用户隐私数据进行语义特征向量转换以及可疑风险内容语句初步识别,并且将生成的用于表征可疑风险内容语句的语义特征向量发送至服务端,即由客户端以语义特征向量的形式向服务端上传初步筛选出的可疑隐私数据,以使服务端基于该语义特征向量对用户隐私数据进行最终风险内容识别,这样能够避免因直接将用户隐私数据上传给服务端所带来的用户隐私泄露的问题,从而实现在保护用户隐私的情况下,对用户隐私数据进行风险内容识别,进而及时对风险内容信息或风险内容信息的载体进行管控。
需要说明的是,本说明书中关于存储介质的实施例与本说明书中关于用户隐私数据的风险内容识别方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的用户隐私数据的风险内容识别方法的实施,重复之处不再赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HD Cal、JHDL(Java Hardware Description Language)、Lava、Lola、My HDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个是参照根据本说明书一个或多个实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书一个或多个的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书一个或多个的实施例而已,并不用于限制本说明书一个或多个。对于本领域技术人员来说,本说明书一个或多个可以有各种更改和变化。凡在本说明书一个或多个的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个的权利要求范围之内。
Claims (31)
1.一种用户隐私数据的风险内容识别方法,应用于客户端,包括:
监测用户使用所述客户端中的目标应用所产生的用户隐私数据;
利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型;
若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。
2.根据权利要求1所述的方法,其中,所述监测用户使用所述客户端中的目标应用所产生的用户隐私数据,包括:
在监听到用户针对所述客户端中的目标应用的触发操作后,获取所述用户在所述目标应用下的操作页面显示信息;
基于所述操作页面显示信息,确定所述用户使用所述目标应用所产生的用户隐私数据。
3.根据权利要求2所述的方法,其中,所述目标应用包括:接入指定宿主应用的小程序或Html5网页;
所述在监听到用户针对所述客户端中的目标应用的触发操作后,获取所述用户在所述目标应用下的操作页面显示信息,包括:
在监听到用户针对所述指定宿主应用的触发操作后,获取所述用户在所述小程序或Html5网页下所浏览的页面文本信息;
将所述页面文本信息确定为所述用户在所述目标应用下的操作页面显示信息。
4.根据权利要求1所述的方法,其中,所述用户隐私数据包括:用户在所述目标应用下所浏览的页面文本信息;
所述利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息,包括:
对所述页面文本信息进行拆分处理,得到多个待识别文本内容语句;
利用预设语义表征模型,对各所述文本内容语句进行语义识别,得到各所述文本内容语句的语义特征向量和风险权重;
根据各所述文本内容语句的所述语义特征向量和所述风险权重,确定相应的语义表征信息。
5.根据权利要求4所述的方法,其中,所述利用预设语义表征模型,对各所述文本内容语句进行语义识别,得到各所述文本内容语句的语义特征向量和风险权重,包括:
将各所述文本内容语句输入至所述预设语义表征模型,得到各所述文本内容语句的语义特征向量;以及,
利用所述预设语义表征模型,针对每个所述文本内容语句,确定该文本内容语句中包含的可疑风险词的数量;
根据所述可疑风险词的数量,确定所述文本内容语句的风险权重;其中,所述风险权重与所述可疑风险词的数量正相关。
6.根据权利要求4所述的方法,其中,所述语义表征信息还包括:用于表征无风险内容语句的第二语义特征向量;
所述第二语义特征向量对应的所述风险权重小于所述第一语义特征向量对应的所述风险权重。
7.根据权利要求4所述的方法,其中,所述对所述页面文本信息进行拆分处理,得到多个待识别文本内容语句,包括:
判断所述页面文本信息的字符长度是否大于最大字符长度;
若是,则按照所述最大字符长度,对所述页面文本信息进行拆分处理,得到多个待识别的文本内容语句。
8.根据权利要求4所述的方法,其中,在利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息之后,还包括:
根据各所述文本内容语句的所述风险权重,确定所述页面文本信息是否包含可疑的文本内容语句;
若包含,则确定所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量。
9.根据权利要求8所述的方法,其中,若所述可疑风险词的数量为零的所述文本内容语句对应的风险权重为零;
所述根据各所述文本内容语句的所述风险权重,确定所述页面文本信息是否包含可疑的文本内容语句,包括:
若存在至少一个风险权重不为零,则确定页面文本信息包含可疑的文本内容语句;以及,
按照风险权重由高到低的顺序,将排序靠前的预设数量的所述风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量;或者,将多个所述风险权重中大于预设风险阈值的风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量。
10.根据权利要求1所述的方法,其中,所述目标应用包括:接入指定宿主应用的小程序或Html5网页;
所述向服务端发送所述第一语义特征向量,包括:
向所述指定宿主应用对应的服务端发送所述第一语义特征向量。
11.根据权利要求1所述的方法,其中,所述向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别,包括:
将所述第一语义特征向量和所述目标应用的标识信息上传至服务端,以使所述服务端基于所述第一语义特征向量对所述可疑风险内容语句进行风险内容识别、若确定所述可疑风险内容语句为风险内容语句,则对所述目标应用进行预设处理。
12.根据权利要求11所述的方法,其中,在将所述第一语义特征向量和所述目标应用的标识信息上传至服务端,以使所述服务端基于所述第一语义特征向量对所述可疑风险内容语句进行风险内容识别、若确定所述可疑风险内容语句为风险内容语句,则对所述目标应用进行预设处理之后,还包括:
接收所述服务端返回的针对所述目标应用的预设处理结果,其中,所述预设处理结果为在所述服务端确定所述可疑风险内容语句为风险内容语句时所生成的;
根据针对所述目标应用的所述预设处理结果,向所述用户展示相应的异常提示信息。
13.根据权利要求1至12任一项所述的方法,其中,在监测用户使用所述客户端中的目标应用所产生的用户隐私数据之前,还包括:
接收服务端下发的预设语义表征模型的文件包信息;其中,所述预设语义表征模型是利用知识蒸馏方法并基于预设语料样本训练得到的;所述预设语料样本包括:正常语料样本;
基于所述文件包信息,在本地存储所述预设语义表征模型。
14.根据权利要求1至12任一项所述的方法,其中,所述预设语义表征模型包括:BERT模型。
15.一种用户隐私数据的风险内容识别装置,设置于客户端,包括:
用户隐私数据监测模块,其监测用户使用所述客户端中的目标应用所产生的用户隐私数据;
隐私数据语义识别模块,其利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型;
语义特征向量上传模块,其若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。
16.根据权利要求15所述的装置,其中,所述用户隐私数据监测模块,其:
在监听到用户针对所述客户端中的目标应用的触发操作后,获取所述用户在所述目标应用下的操作页面显示信息;
基于所述操作页面显示信息,确定所述用户使用所述目标应用所产生的用户隐私数据。
17.根据权利要求16所述的装置,其中,所述目标应用包括:接入指定宿主应用的小程序或Html5网页;所述用户隐私数据监测模块,其:
在监听到用户针对所述指定宿主应用的触发操作后,获取所述用户在所述小程序或Html5网页下所浏览的页面文本信息;
将所述页面文本信息确定为所述用户在所述目标应用下的操作页面显示信息。
18.根据权利要求15所述的装置,其中,所述用户隐私数据包括:用户在所述目标应用下所浏览的页面文本信息;所述隐私数据语义识别模块,其:
对所述页面文本信息进行拆分处理,得到多个待识别文本内容语句;
利用预设语义表征模型,对各所述文本内容语句进行语义识别,得到各所述文本内容语句的语义特征向量和风险权重;
根据各所述文本内容语句的所述语义特征向量和所述风险权重,确定相应的语义表征信息。
19.根据权利要求18所述的装置,其中,所述隐私数据语义识别模块,其:
将各所述文本内容语句输入至所述预设语义表征模型,得到各所述文本内容语句的语义特征向量;以及,
利用所述预设语义表征模型,针对每个所述文本内容语句,确定该文本内容语句中包含的可疑风险词的数量;
根据所述可疑风险词的数量,确定所述文本内容语句的风险权重;其中,所述风险权重与所述可疑风险词的数量正相关。
20.根据权利要求18所述的装置,其中,所述语义表征信息还包括:用于表征无风险内容语句的第二语义特征向量,
所述第二语义特征向量对应的所述风险权重小于所述第一语义特征向量对应的所述风险权重。
21.根据权利要求18所述的装置,其中,所述隐私数据语义识别模块,其:
判断所述页面文本信息的字符长度是否大于最大字符长度;
若是,则按照所述最大字符长度,对所述页面文本信息进行拆分处理,得到多个待识别的文本内容语句。
22.根据权利要求18所述的装置,其中,所述装置还包括:可疑风险内容判断模块,其:
根据各所述文本内容语句的所述风险权重,确定所述页面文本信息是否包含可疑的文本内容语句;
若包含,则确定所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量。
23.根据权利要求22所述的装置,其中,若所述可疑风险词的数量为零的所述文本内容语句对应的风险权重为零;所述可疑风险内容判断模块,其:
若存在至少一个风险权重不为零,则确定页面文本信息包含可疑的文本内容语句;以及,
按照风险权重由高到低的顺序,将排序靠前的预设数量的所述风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量;或者,将多个所述风险权重中大于预设风险阈值的风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量。
24.根据权利要求15所述的装置,其中,所述目标应用包括:接入指定宿主应用的小程序或Html5网页;所述语义特征向量上传模块,其:
向所述指定宿主应用对应的服务端发送所述第一语义特征向量。
25.根据权利要求15所述的装置,其中,所述语义特征向量上传模块,其:
将所述第一语义特征向量和所述目标应用的标识信息上传至服务端,以使所述服务端基于所述第一语义特征向量对所述可疑风险内容语句进行风险内容识别、若确定所述可疑风险内容语句为风险内容语句,则对所述目标应用进行预设处理。
26.根据权利要求25所述的装置,其中,所述装置还包括:应用处理结果提示模块,其:
接收所述服务端返回的针对所述目标应用的预设处理结果,其中,所述预设处理结果为在所述服务端确定所述可疑风险内容语句为风险内容语句时所生成的;
根据针对所述目标应用的所述预设处理结果,向所述用户展示相应的异常提示信息。
27.根据权利要求15至26任一项所述的装置,其中,所述装置还包括:语义表征模型部署模块,其:
接收服务端下发的预设语义表征模型的文件包信息;其中,所述预设语义表征模型是利用知识蒸馏方法并基于预设语料样本训练得到的;所述预设语料样本包括:正常语料样本、风险关键词、集外词;
基于所述文件包信息,在本地存储所述预设语义表征模型。
28.根据权利要求15至26任一项所述的装置,其中,所述预设语义表征模型包括:BERT模型。
29.一种用户隐私数据的风险内容识别系统,包括:客户端和服务端;
所述客户端,监测用户使用所述客户端中的目标应用所产生的用户隐私数据;利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型;若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量;
所述服务端,接收所述客户端上传的所述第一语义特征向量;基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。
30.一种用户隐私数据的风险内容识别设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
监测用户使用客户端中的目标应用所产生的用户隐私数据;
利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型;
若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。
31.一种存储介质,用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下方法:
监测用户使用客户端中的目标应用所产生的用户隐私数据;
利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型;
若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010987464.1A CN112149404A (zh) | 2020-09-18 | 2020-09-18 | 一种用户隐私数据的风险内容识别方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010987464.1A CN112149404A (zh) | 2020-09-18 | 2020-09-18 | 一种用户隐私数据的风险内容识别方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112149404A true CN112149404A (zh) | 2020-12-29 |
Family
ID=73892436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010987464.1A Pending CN112149404A (zh) | 2020-09-18 | 2020-09-18 | 一种用户隐私数据的风险内容识别方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149404A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948835A (zh) * | 2021-03-26 | 2021-06-11 | 支付宝(杭州)信息技术有限公司 | 小程序风险检测方法和装置 |
CN114398675A (zh) * | 2022-01-11 | 2022-04-26 | 深圳前海浩方科技有限公司 | 用于电商平台的信息优化显示方法、装置、设备及介质 |
CN114444511A (zh) * | 2022-01-17 | 2022-05-06 | 空地互联网络科技股份有限公司 | 一种风险数据识别方法及系统 |
CN115664799A (zh) * | 2022-10-25 | 2023-01-31 | 江苏海洋大学 | 一种应用于信息技术安全的数据交换方法和系统 |
CN115733858A (zh) * | 2022-11-04 | 2023-03-03 | 广州懿豪科技有限公司 | 基于大数据和物联网通信的数据处理方法及系统 |
CN118013053A (zh) * | 2024-04-08 | 2024-05-10 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种改进的三维文本分析系统 |
CN118504972A (zh) * | 2024-05-14 | 2024-08-16 | 易筑网络科技(苏州)有限公司 | 企业经营数据的风险处理方法、装置和计算机设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104301300A (zh) * | 2014-08-04 | 2015-01-21 | 北京奇虎科技有限公司 | 一种检测网络钓鱼欺诈风险的方法、客户端和系统 |
CN104980404A (zh) * | 2014-04-10 | 2015-10-14 | 腾讯科技(深圳)有限公司 | 保护账号信息安全的方法和系统 |
CN108959960A (zh) * | 2018-06-19 | 2018-12-07 | 努比亚技术有限公司 | 防止隐私泄露的方法、装置及计算机可读存储介质 |
CN109905359A (zh) * | 2018-12-24 | 2019-06-18 | 深圳市珍爱捷云信息技术有限公司 | 通信消息处理方法、装置、计算机设备及可读存取介质 |
WO2019223390A1 (zh) * | 2018-05-21 | 2019-11-28 | 阿里巴巴集团控股有限公司 | 一种授权引导的数据处理方法、装置、处理设备及系统 |
CN111027870A (zh) * | 2019-12-14 | 2020-04-17 | 支付宝(杭州)信息技术有限公司 | 用户风险评估方法及装置、电子设备、存储介质 |
CN111080123A (zh) * | 2019-12-14 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 用户风险评估方法及装置、电子设备、存储介质 |
CN111401062A (zh) * | 2020-03-25 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 文本的风险识别方法、装置及设备 |
CN111400705A (zh) * | 2020-03-04 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 一种应用程序的检测方法、装置及设备 |
-
2020
- 2020-09-18 CN CN202010987464.1A patent/CN112149404A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104980404A (zh) * | 2014-04-10 | 2015-10-14 | 腾讯科技(深圳)有限公司 | 保护账号信息安全的方法和系统 |
CN104301300A (zh) * | 2014-08-04 | 2015-01-21 | 北京奇虎科技有限公司 | 一种检测网络钓鱼欺诈风险的方法、客户端和系统 |
WO2019223390A1 (zh) * | 2018-05-21 | 2019-11-28 | 阿里巴巴集团控股有限公司 | 一种授权引导的数据处理方法、装置、处理设备及系统 |
CN108959960A (zh) * | 2018-06-19 | 2018-12-07 | 努比亚技术有限公司 | 防止隐私泄露的方法、装置及计算机可读存储介质 |
CN109905359A (zh) * | 2018-12-24 | 2019-06-18 | 深圳市珍爱捷云信息技术有限公司 | 通信消息处理方法、装置、计算机设备及可读存取介质 |
CN111027870A (zh) * | 2019-12-14 | 2020-04-17 | 支付宝(杭州)信息技术有限公司 | 用户风险评估方法及装置、电子设备、存储介质 |
CN111080123A (zh) * | 2019-12-14 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 用户风险评估方法及装置、电子设备、存储介质 |
CN111400705A (zh) * | 2020-03-04 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 一种应用程序的检测方法、装置及设备 |
CN111401062A (zh) * | 2020-03-25 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 文本的风险识别方法、装置及设备 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948835A (zh) * | 2021-03-26 | 2021-06-11 | 支付宝(杭州)信息技术有限公司 | 小程序风险检测方法和装置 |
CN112948835B (zh) * | 2021-03-26 | 2022-07-19 | 支付宝(杭州)信息技术有限公司 | 小程序风险检测方法和装置 |
CN114398675A (zh) * | 2022-01-11 | 2022-04-26 | 深圳前海浩方科技有限公司 | 用于电商平台的信息优化显示方法、装置、设备及介质 |
CN114444511A (zh) * | 2022-01-17 | 2022-05-06 | 空地互联网络科技股份有限公司 | 一种风险数据识别方法及系统 |
CN114444511B (zh) * | 2022-01-17 | 2024-11-08 | 空地互联网络科技股份有限公司 | 一种风险数据识别方法及系统 |
CN115664799A (zh) * | 2022-10-25 | 2023-01-31 | 江苏海洋大学 | 一种应用于信息技术安全的数据交换方法和系统 |
CN115733858A (zh) * | 2022-11-04 | 2023-03-03 | 广州懿豪科技有限公司 | 基于大数据和物联网通信的数据处理方法及系统 |
CN118013053A (zh) * | 2024-04-08 | 2024-05-10 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种改进的三维文本分析系统 |
CN118013053B (zh) * | 2024-04-08 | 2024-08-06 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种改进的三维文本分析系统 |
CN118504972A (zh) * | 2024-05-14 | 2024-08-16 | 易筑网络科技(苏州)有限公司 | 企业经营数据的风险处理方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149404A (zh) | 一种用户隐私数据的风险内容识别方法、装置及系统 | |
US9923860B2 (en) | Annotating content with contextually relevant comments | |
US9310879B2 (en) | Methods and systems for displaying web pages based on a user-specific browser history analysis | |
US10387936B2 (en) | Method and apparatus for improving experiences of online visitors to a website | |
US20180196871A1 (en) | System and method for metadata correlation using natural language processing | |
US20230386238A1 (en) | Data processing method and apparatus, computer device, and storage medium | |
CN108304412B (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN108932320B (zh) | 文章搜索方法、装置及电子设备 | |
US20190259058A1 (en) | Method and apparatus for selecting treatment for visitors to online enterprise channels | |
CN112149179B (zh) | 基于隐私保护的风险识别方法及装置 | |
US11687711B2 (en) | Method and apparatus for generating commentary | |
US20220300573A1 (en) | Method for presenting information, electronic device, and storage medium | |
US20210142803A1 (en) | Information processing system, method, device and equipment | |
CN114386408A (zh) | 政务敏感信息识别方法、装置、设备、介质和程序产品 | |
US10762895B2 (en) | Linguistic profiling for digital customization and personalization | |
CN115620726A (zh) | 语音文本生成方法、语音文本生成模型的训练方法、装置 | |
KR102230055B1 (ko) | 키워드 감지에 기반한 키보드 영역 내 광고 제공 방법 | |
CN113935334A (zh) | 文本信息处理方法、装置、设备和介质 | |
US20210073335A1 (en) | Methods and systems for semantic analysis of table content | |
US20220027558A1 (en) | Method and system for extracting keywords from text | |
CN109145084B (zh) | 数据处理方法、数据处理装置和服务器 | |
CN117093715B (zh) | 词库扩充方法、系统、计算机设备及存储介质 | |
US20230177077A1 (en) | Enhancing input to conversational agents through feedback | |
CN116127098A (zh) | 知识图谱的构建方法、装置 | |
CN108509058B (zh) | 输入方法与相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40043791 Country of ref document: HK |
|
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201229 |