CN112106049A - 生成隐私数据隔离和报告的系统和方法 - Google Patents
生成隐私数据隔离和报告的系统和方法 Download PDFInfo
- Publication number
- CN112106049A CN112106049A CN201980031613.2A CN201980031613A CN112106049A CN 112106049 A CN112106049 A CN 112106049A CN 201980031613 A CN201980031613 A CN 201980031613A CN 112106049 A CN112106049 A CN 112106049A
- Authority
- CN
- China
- Prior art keywords
- data
- privacy
- user information
- reporting
- container
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000002955 isolation Methods 0.000 title abstract description 13
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 15
- 238000013136 deep learning model Methods 0.000 abstract description 6
- 238000013075 data extraction Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 32
- 230000008569 process Effects 0.000 description 17
- 230000033228 biological regulation Effects 0.000 description 14
- 238000012549 training Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 4
- 235000014510 cooky Nutrition 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/52—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
- G06F21/53—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2149—Restricted operating environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开的各方面涉及一种可自定义的系统和基础架构,其可以从变化的数据源接收隐私数据以进行隐私扫描、隔离和报告。在一个实施例中,使用各种数据连接器和解密技术对接收到的数据进行扫描以进行隐私数据提取。在另一实施例中,将提取出的数据转移到隐私扫描容器,在该隐私扫描容器中通过各种深度学习模型对数据进行分析,以对数据进行正确分类。在某些实例中,提取出的数据可以是从电子邮件、案例备忘录、信息反馈、社交媒体帖子等派生出来的非结构化数据。一旦对数据进行了分类,就可以根据数据的分类来存储或隔离数据。在又一实施例中,可以由分析容器来检索已分类的数据以用于报告。
Description
相关申请的交叉引用
本申请是2018年6月29日提交的美国专利申请No.16/023,819的继续,并要求其优先权,本申请要求于2018年5月11日提交的印度临时专利申请No.201841017790的优先权,所有这些申请的全部内容通过引用并入本文。
技术领域
本公开总体涉及隐私数据系统,并且更具体地涉及用于数据隔离(containment)和报告的隐私数据系统。
背景技术
如今,每天都有数以百万计的电子交易发生。因此,大量的数据在设备和系统之间传输。在某些情况下,私有用户数据包括在传输的数据中。因此,重要的是要确保正确处理和操控私有用户数据。此外,必须遵守条例(regulation)和用户同意。但是,在某些情况下,私有用户数据可能会与第三方有意或甚至无意间共享。然而,这是不能接受的,并且可能会导致用户资金、信用、商誉的损失,并使用户受挫。因此,创建一种能够用适当的规则、存储和报告来处理隐私数据的系统或方法将是有益的,以保护用户。
附图说明
图1示出了适用于通用数据保护条例的示例性数据类别。
图2示出了可插拔的隐私数据容器的图示。
图3示出了非结构化隐私数据容器的示例性实现方式。
图4示出了非结构化隐私数据系统架构的示例性实现方式。
图5A示出了说明样本源数据的图表。
图5B示出了说明样本非结构化数据提取和分类的图表。
图6示出了说明用于隐私数据隔离和报告的操作的流程图。
图7示出了说明隐私数据同意分析的样本模型运行(model run)。
图8示出了说明隐私数据扫描分析的另一样本模型运行。
图9示出了说明隐私数据映射分析的又一样本模型运行。
图10示出了适合于实现图1-图9的通信系统的一个或多个设备的计算机系统的示例性框图。
通过参考下面的详细描述,可以最好地理解本公开的实施例及其优点。应当理解的是,相同的附图标记用于标识在一幅或多幅附图中示出的相同的元件,而其中所示是出于说明本公开的实施例的目的,而不是为了限制本公开的实施例。
具体实施方式
在以下描述中,阐述了描述与本公开一致的一些实施例的具体细节。然而,对本领域技术人员而言显而易见的是,可以在没有一些或所有这些具体细节的情况下实践一些实施例。本文所公开的具体实施例旨在进行说明而非进行限制。本领域技术人员可以认识到此处没有具体描述的其他元件也在本公开的范围和精神内。另外,为了避免不必要的重复,除非另外特别说明或者如果一个或多个特征会使实施例不起作用,否则与一个实施例相关联地示出和描述的一个或多个特征可以并入其他实施例中。
本公开的各方面涉及一种可自定义的系统和基础架构,其可以从变化的数据源接收隐私数据以进行隐私扫描、隔离和报告。具体地,介绍了一种系统,该系统可以通过放置被设计为使用深度学习模型以保护信息的容器系统来保护用户的隐私数据,该模型遵循通用数据保护条例来保护私有数据的安全移动。接收到的信息在为可携性和部署而设计的一系列容器之间转移。在一个实施例中,使用各种数据连接器和解密技术对接收到的数据进行扫描以进行隐私数据提取。在另一实施例中,将提取出的数据转移到隐私扫描容器,在该隐私扫描容器中通过各种深度学习模型对数据进行分析,以对数据进行正确分类。在某些实例中,提取出的数据可以是从电子邮件、案例备忘录(case memo)、信息反馈(survey)、社交媒体帖子等派生出来的非结构化数据。一旦对数据进行了分类,就可以根据数据的分类来存储或隔离数据。在又一实施例中,可以由分析容器来检索已分类的数据以用于报告。数据报告可以包括使用数据隐私驾驶舱(cockpit)设计来提供用户界面,以使用众多度量(metric)、热图(heatmap)和谱系图表(lineage chart)在各种系统上查看和访问个人数据。仪表板和报告系统可以进一步用于示出跨各种平台的用户同意报告。
金融机构经常参与到确保客户账户的安全和风险最小化的工作中来。为了保护客户帐户和用户隐私信息,机构可能依赖于使用具有适当保护措施的系统来保护用户信息。但是,常规系统通常不具备存储、保护和报告用户隐私信息的能力。这样一来,用户的信息就可能会遭到泄露,未经同意即被发布,或在未采取适当措施的情况下被出售。因此,引入一种可以用于利用全面的规则进行隐私数据隔离和报告以确保敏感信息是安全的系统和方法,将是有益的。
敏感信息可以包括与用户、偏好和条例有关的各种类型的信息。例如,隐私数据可以包括通用数据保护条例(GDPR)下的信息以及处理个人数据的合法方式。引入图1,其中示出了示例性数据类别100以及处理适用于通用数据保护条例的个人数据的方式。在一个实施例中,通用数据保护条例可以包括个人数据102。个人数据可以包括与自然人或数据主题(data subject)有关的任何信息。另外,个人数据可以包括可以直接或间接用于识别个人的数据。例如,个人数据可以包括个人的名字、标识号、在线标识符(例如,互联网协议(IP)地址)、位置号,和/或其他描述性因素,包括但不限于个人的身体、生理、遗传、心理、经济、文化和社会身份。
在另一实施例中,隐私数据类别100可以包括用户同意和偏好104。同意和偏好数据104可以包括来自最终用户对个人数据保留和用户的同意。另外,同意和偏好数据104可以包括用户的联络人偏好。例如,同意和偏好可以包括同意使用来自Web表单、移动应用、电子邮件、电话、纸质表单、当面(in person)、通过视频等方式的用户的个人数据。
数据移动106是又一种隐私数据类别100和处理数据的形式,其可以包括跟踪个人数据如何在系统之间移动以及如何在公司内和/或跨区域进行处理。例如,这可以包括在首先创建了帐户并随后对交易进行处理时在组之间进行数据转移。
另一隐私数据类别还可以包括访问权108过程,其确保消费者或用户的个人数据在消费者/用户想要访问时可供查看和使用。事件管理(Incident management)110是另一类别,其中事件被跟踪并用于了解系统中的漏洞(gap)。事件管理110在为事件准备后续可用修复计划时也很有用。
经常被认可(特别是在一些国家)的另一类别包括被遗忘的权利112。该类别包括适当的数据和规则,以确保根据需要和消费者的请求在各种系统上擦除个人数据。数据也可以在第三方之间移动,并且因此如通用数据保护条例所示,遵循第三方数据交换114类别。
又一类别可以包括雇员数据116,其中对雇员数据进行适当的控制和处理,以确保雇员的个人数据是安全的。
需要注意的是,除了GDPR指示的条例之外,还可以制定其他条例、规则和程序来保护、处理和隔离用户隐私数据。例如,消费者金融保护局(CFPB)可以包括一些指南和合规性条例,这些指南和合规性条例可以在当前系统中实施,以保护消费者的隐私数据。
为了确保遵循以上结合图1提出的各种数据类别100和进程,引入了图2所示的系统200。在一个实施例中,隐私系统200被呈现为用于隐私数据隔离和报告的系统和方法。隐私系统200包括容器和可选插件的组合,使得能够为数据隐私保护提供灵活且可自定义的系统和基础架构。因此,与常规系统不同,隐私系统200提供了用于保护隐私系统的模块化且可插拔的容器系统。一般而言,隐私系统200可以包括从众多数据源202接收用户信息。这种信息接收可以发生在帐户注册、网站访问、社交媒体发布、案例备忘录通信、应用交互、第三方或辅助设备等中。数据源可以包括可以以各种方式显示和格式化的信息。例如,数据源202可以提供结构化数据210、半结构化数据212、数据湖(data lake)等形式的数据。此外,隐私系统200还可以扫描和接收非结构化数据214、文档和图像216等,这是常规系统通常无法做到的。
因此,隐私系统200通过首先将接收到的信息转移到提取容器204中来启动保护进程。提取容器204可以是用于分析接收到的信息并从该信息中提取隐私数据的容器。如图所示,提取容器204可以包括连接器218以及用于提取相关信息的解密模型和算法220。在某些实例中,提取容器204可以是隐私系统200的部分,而在其他实例中,提取容器204可以是使用隐私系统200的实体提供的外部可插拔容器。此外,提取容器204可以被设计和定制为提取与组织、公司或其他实体最相关的信息和特定于组织、公司或其他实体的信息。
一旦已经提取出隐私数据,就可以将隐私数据转移到隐私扫描容器206。隐私扫描容器206可以是子系统,其被设计为扫描提取出的隐私数据并且隔离潜在的敏感数据。因此,隐私扫描容器206可以包括可以分析数据的各种模块、组件、处理器等。出于示例性目的,在隐私扫描容器206中示出了机器学习组件、发布器(publisher)和监测组件。机器学习组件例如可以包括用于扫描接收到的各种数据类型的各种深度学习模型。例如,可以在分类222-228和标识可以在图像、文档、文本等中找到的隐私数据的识别中使用深度学习和机器学习模型。这些模型可以包括学习算法,例如,包括关系分类222、文本分类224、支持向量机、word2vec的那些算法。另外,还可以使用其他学习技术,包括自然语言处理、回归分析、聚类、决策树分析、图像识别226、OCR 228等。
隐私系统200中示出了机器学习训练环境208,其可以与隐私扫描容器206结合使用,以进行数据分析和分类。机器学习环境可以包括训练数据集、标记服务,以及与机器学习组件和模型一起使用的其他有用信息。此外,机器训练环境可以从生物创新成长巨型集群(BIG-C集群)派生出来,因为它与欧洲的工业集群重合,并且适用于根据通用数据保护条例(GDPR)进行隐私数据处理。替代地,机器训练环境可以包括适用于与数据并且特别是隐私数据的分类相关的适当的其他条例、进程的训练序列和标记服务。
为了对当前数据、提取出的附加数据和/或到下一容器的输出数据进行数据监测,监测组件230可以包括在隐私扫描组件206中。另外,如图所示,隐私扫描容器206还可以包括被设计为有助于数据报告的发布器模块232。例如,在一个实例中,发布器可以用于向外部的可插拔或其他模块化组件提供数据馈送,以用于自定义报告。这可以包括被扫描并用于构建与实体最相关的可自定义的报告的选择隐私数据。在另一实例中,一旦对数据进行了扫描,就可以将数据(根据需要)转移到分析容器208,在该容器中可以对数据进行存储234、分析和报告,以用于进一步分析。例如,分析容器208可以用于报告关于所提供的用户同意的信息,提供交易的谱系(lineage)/来源、关于所扫描的数据的详细信息等。
由分析容器执行的数据报告还可以包括使用数据隐私驾驶舱设计来提供用户界面,以使用众多度量、热图和谱系图表在各种系统上查看和访问个人数据。仪表板和报告系统236可以进一步用于示出所示的跨各种平台的用户同意报告。因此,除了报告之外,应用编程接口(API)238、工作流240、以及质量中心(QC)报告242机件也可以是集成到分析中心208中的组件和/或软件平台。下面的图7-9提供了使用分析容器208的可能的示例性报告。
如图所示,隐私系统200提供了模块化且可自定义的容器系统,其可以与其他应用和/或系统和/或与更多、更少或升级的容器结合使用。因此,转向图3,呈现并配置了隐私系统300,其用于非结构化数据实现方式。如图所示,与隐私系统200一样,数据源、扫描容器、ML训练和报告在该实现方式中持续存在。但是,这种自定义的实现方式不包括先前在隐私系统200中实现的可选扫描容器。在用于非结构化数据隔离和报告的隐私系统300的实现方式中,数据源再次提供了所使用的隐私数据。需要注意的是,对于用于非结构化数据隔离和报告的隐私系统300,针对非结构化数据,可以在案例备忘录310、电子邮件312、文档和图像314、语音记录316、社交媒体帖子318等中找到数据。数据到达隐私扫描容器304(其可以是可插拔容器),在该容器中可以对数据进行分析、分类和隔离。另外,需要注意的是,在该实例中,由于未使用扫描容器,因此可以将连接器组件320用作用于提取和解密接收到的数据的扫描机件。此外,数据分析、分类和隔离也可以在隐私扫描模块304上发生,该隐私扫描模块304可以将各种机器学习和其他深度学习模型用于文本、图像和其他非结构化数据分类。
此外,ML训练模型308可以与ML组件使用的机器学习和学习算法协作。ML训练模型308可以包括但不限于提供训练数据序列、标记服务和评分。一旦数据被扫描和分类(例如,针对敏感性),就可以将数据隔离和/或存储在数据库306中,并且然后使用发布器232来提取数据,以进行报告236、242。另外,在隐私扫描容器304内,还可以包括GPS代理器322和连续关键绩效指标(KPI)模块324,以与数据的分析、监测和分类一起使用。附加地或可替代地,还可以检索数据,以用于质量保证测量和分析。
转向图4,呈现了用于非结构化数据的自定义的非结构化隐私系统400的实现方式的架构图。如上所述,与常规系统不同,隐私系统200是一种能够对其进行修改/自定义以满足用户的需求,并且能够对非结构化数据进行扫描、模块化和报告的模块化系统。因此,图4示出了示例性的非结构化隐私数据系统架构400。作为示例,所示出的非结构化数据包括对案例备忘录402和电子邮件412的接收,这些案例备忘录402和电子邮件412源自各种数据库以及用于数据隐私分类和保护的其他来源。
然后,非结构化数据可以到达数据管理系统404,数据可以存储在该系统中,以用于后续访问,并且可以确保数据管控和合规性。除了数据管理系统之外,数据还可以到达隐私数据集群406,在该集群中可以对前述数据进行扫描、分类和隔离。另外,机器学习训练模型可以用于训练分类中使用的模型。在某些实例中,机器学习训练模型可以包括用于分阶段并存储在临时存储装置410中的临时数据,这些数据可以馈送到隐私数据集群406,以与已训练的模型并结合有助于隐私数据提取的解密库一起使用。在数据分类之后,然后可以将隐私数据用于报告。在一个实施例中,非结构化隐私数据可以被存储在报告数据库408中,该报告数据库408可以被拉取,以用于个人数据报告、编目,并与结构化分类器一起使用。如前所述,可以使用报告驾驶舱进行报告,以经由系统仪表板在用户界面上显示。
需要注意的是,除了使用隐私数据集群406之外,还可以根据用户偏好来添加和自定义其他可插拔容器。此外,除了图4中未示出的其他模块之外,还可以使用加密和密钥生成器组件。
为了示出非结构化隐私系统400如何捕获非结构化数据,引入图5A-图5B进行说明。呈现图5A是为了示出隐私系统可以如何接收电子邮件。如图所示,接收到的数据是带有文本,混合了超链接和其他数据类型的非结构化数据。图5B示出了使用隐私系统来提取并分类的数据。如图所示,数据被提取,用于训练,并使用已训练的分类模型进行分类,以提供至少基于源、数据类型和标识类别来组织的隔离数据。
转向图6,呈现了整个进程隐私数据保护。具体地,图6示出了说明用于隐私数据隔离和报告的操作的流程图。根据一些实施例,进程600可以包括操作602-618中的一个或多个,它们可以至少部分地以存储在非暂态有形机器可读介质上的可执行代码的形式来实现,可执行代码在一个或多个硬件处理器上运行时可以使得系统执行操作602-618中的一个或多个。
进程600可以从操作602开始,在操作602中数据被检索。检索到的数据可以是结构化数据、非结构化数据、数据湖、文档、图像等形式。在某些实例中,从用户帖子、图像、电子邮件、案例备忘录和其他源检索数据。在检索数据之后,然后可以在操作604处对检索到和/或接收到的数据进行预处理,在操作604中,使用各种连接器和解密技术来提取数据。可以对数据进行解密,以识别在操作602处接收到的数据中找到的敏感信息或个人信息。
在提取数据之后,在操作606处,可以将数据转移到隐私扫描容器。隐私扫描容器可以充当隐私系统的大脑,在其中可以使用机器学习分析和深度学习模型来分析提取出的隐私数据,以便在操作608处对私有数据进行分类和隔离。
一旦对数据进行了隔离,就可以将数据用于报告。在操作610处,确定所需的报告类型。如果实体(内部或外部实体)需要自定义报告,则在操作612处,将数据进行馈送以用于外部自定义报告。可替换地,报告在内部保存或与隐私系统报告驾驶舱结合使用,然后数据可以继续到操作614。在操作614处,可以将数据转移到分析容器,在该分析容器中可以经由操作618来确定所需的报告类型。
为了示出可能的报告表格、热图和谱系,呈现了图7-图9。具体地,图7-图9示出了样本报告模型运行,其说明了隐私数据分析。图7从样本报告开始,该样本报告可以呈现给用户,其示出了一个或多个用户提供的同意的概要。例如,同意报告700可以以接收到的同意的类型(例如,个性化的、第三方的、基于兴趣的等)、一个或多个消费者设置的营销偏好、cookie同意等的概要开头。
图8提供了公开数据扫描的示例性样本报告。例如,样本报告可以包括扫描的隐私数据的类型以及获取数据的来源。在图8中,扫描报告800还示出了所获得的私有数据和来源的分布。例如,所示的水平条形图呈现了数据的类型和来源。在该实例中,从电子邮件以及类似地从案例备忘录中检索到了出生日期、姓名、电子邮件、IP地址以及其他详细信息。
转向图9,示出了又一示例性报告。具体地,在图9中,示出了提供数据的谱系的映射报告900,其包括遇到的域、功能性区域、以及进程。作为另一示例,映射报告900可以包括解释所提供的进程的谱系/来源。例如,映射报告900可以用于说明金融实体(例如,PayPal(贝宝))处理了投诉并呈交给监管者。
需要注意的是,附加参数和用途还可以与进程600中呈现的双因素特征方法提取方法一起使用,并且出于说明目的,呈现了图6-图9。此外,可以使用一个或多个系统来实现进程600。因此,在适用的情况下,可以使用硬件、软件或硬件和软件的组合来实现由本公开提供的各种实施例。例如,图10以框图形式示出了适于实现用于隐私数据隔离和报告的系统的计算环境的示例实施例。如图所示,计算环境1000可以包括或实现用于执行根据所述实施例的各种方法的多个服务器和/或软件组件。服务器可以包括例如运行服务器操作系统(OS)(例如OS、OS、OS或其他合适的基于服务器的OS)的独立的企业级服务器。可以理解,图6所示的服务器可以以其他方式部署,并且对于给定的实现方式,由这种服务器执行的操作和/或由这种服务器提供的服务可以被组合、分布和/或分离,并且可以由数量更多或更少的服务器来执行。一个或多个服务器可以由相同或不同的实体来操作和/或维护。
在各种实现方式中,包括计算机系统1000的设备可以包括个人计算设备(例如,智能或移动设备、计算平板电脑、个人计算机、膝上型计算机、可穿戴设备、PDA、服务器系统等),其能够与网络1026进行通信。服务提供商和/或内容提供商可以利用能够与网络进行通信的网络计算设备(例如,网络服务器)。应当理解的是,可以以如下方式将用户、服务提供商、以及内容提供商所利用的每个设备实现为计算机系统1000。
另外,随着越来越多的设备变得具有通信功能,例如,使用无线通信来报告、跟踪、传送、中继信息等等的新智能设备,这些设备可以成为计算机系统1000的部分。例如,窗户、墙壁以及其他物体可以兼作触摸屏设备,以便用户与之进行交互。这种设备可以与本文讨论的系统合并。
计算机系统1000可以包括总线1010或用于在计算机系统1000的各个组件之间传递信息数据、信号以及信息的其他通信机件。这些组件包括处理用户动作(例如,从小键盘/键盘选择键,选择一个或多个按钮、链路、可致动元件等,以及向总线1010发送相应信号)的输入/输出(I/O)组件1004。I/O组件1004还可以包括输出组件,例如,显示器1002和光标控件1008(例如,键盘、小键盘、鼠标、触摸屏等)。在一些示例中,I/O组件1004经由网络来与其他设备(例如,另一用户设备、商业服务器、电子邮件服务器、应用服务提供商、网络服务器、支付提供商服务器、和/或其他服务器)进行通信。在各种实施例中,例如,对于许多蜂窝电话以及其他移动设备实施例,这种传输可以是无线的,但是其他传输介质和方法也可能是合适的。处理器1018可以是微控制器、数字信号处理器(DSP)或其他处理组件,其处理这些各种信号,例如,用于在计算机系统1000上显示或经由通信链路1024通过网络1026传输到其他设备。同样,在一些实施例中,通信链路1024可以是无线通信。处理器1018还可以控制诸如cookie、IP地址、图像、交易信息、学习模型信息、SQL支持查询等之类信息向其他设备的传输。
计算机系统1000的组件还包括系统存储器组件1012(例如,RAM)、静态存储组件1014(例如,ROM)、和/或磁盘驱动器1016。计算机系统1000由处理器1018和其组件通过执行包含在系统存储器组件1012中的一个或多个指令序列来执行特定的操作(例如,用于约定级确定(engagement level determination))。逻辑可以被编码在计算机可读介质中,该计算机可读介质可以指代参与向处理器1018提供指令以供执行的任何介质。这样的介质可以采取多种形式,包括但不限于非易失性介质、易失性介质、和/或传输介质。在各种实现方式中,非易失性介质包括光盘或磁盘,易失性介质包括动态存储器,例如,系统存储器组件1012,并且传输介质包括同轴电缆、铜线、以及光纤,其包括含有总线1010的电线。在一个实施例中,逻辑被编码在非暂态机器可读介质中。在一个示例中,传输介质可以采取声波或光波的形式,例如,在无线电波、光学和红外数据通信期间生成的那些声波或光波。
计算机可读介质的一些常见形式包括例如硬盘、磁带、任何其他磁性介质、CD-ROM、任何其他光学介质、RAM、PROM、EPROM、FLASH-EPROM、任何其他存储器芯片或盒式磁带、或适于计算机读取的任何其他介质。
计算机系统1000的组件还可以包括短程通信接口1020。在各种实施例中,短程通信接口1020可以包括收发器电路、天线,和/或波导。短程通信接口1020可以使用一种或多种短程无线通信技术、协议、和/或标准(例如,WiFi、低功耗蓝牙(BLE)、红外线、NFC等)。
在各种实施例中,短程通信接口1020可以被配置为检测计算机系统1000附近的具有短程通信技术的其他设备(例如,用户设备等)。短程通信接口1020可以创建用于检测具有短程通信功能的其他设备的通信区域。当具有短程通信功能的其他设备被放置在短程通信接口1020的通信区域中时,短程通信接口1020可以检测其他设备并且与其他设备交换数据。当距离足够近时,短程通信接口1020可以从其他设备接收标识符数据分组。标识符数据分组可以包括一个或多个标识符,这些标识符可以是操作系统注册条目、与应用相关联的cookie、与其他设备的硬件相关联的标识符、和/或各种其他适当的标识符。
在一些实施例中,短程通信接口1020可以使用诸如WiFi之类的短程通信协议来识别局域网,并加入局域网。在一些示例中,计算机系统1000可以使用短程通信接口1020来发现作为局域网的部分的其他设备和/或与其他设备进行通信。在一些实施例中,短程通信接口1020可以进一步与和短程通信接口1020进行通信耦合的其他设备交换数据和信息。
在本公开的各个实施例中,可以通过计算机系统1000来执行用于实践本公开的指令序列的执行。在本公开的各个其他实施例中,通过通信链路1024耦合到网络(例如,诸如,LAN、WLAN、PTSN,和/或各种其他有线或无线网络,包括电信、移动和蜂窝电话网络)的多个计算机系统1000可以执行指令序列以相互协作地实践本公开。本文描述的模块可以包含在一个或多个计算机可读介质中,或者与一个或多个处理器进行通信,以执行或处理本文描述的技术和算法。
计算机系统可以通过通信链路1024和通信接口来发送和接收消息、数据、信息和指令,包括一个或多个程序(即,应用代码)。接收到的程序代码可以在被接收到和/或存储在磁盘驱动器组件或一些其他非易失性存储组件中以供执行时由处理器执行。
在适用的情况下,可以使用硬件、软件或硬件和软件的组合来实现本公开所提供的各种实施例。此外,在适用的情况下,在不脱离本公开的精神的情况下,可以将本文阐述的各种硬件组件和/或软件组件组合为包括软件、硬件和/或两者的复合组件。在适用的情况下,在不脱离本公开的范围的情况下,可以将本文阐述的各种硬件组件和/或软件组件分为包括软件、硬件或两者的子组件。此外,在适用的情况下,可以预期,软件组件可以被实现为硬件组件,反之亦然。
根据本公开的软件(例如,程序代码和/或数据)可以被存储在一个或多个计算机可读介质上。还可以预期,可以使用联网和/或以其他方式的一台或多台计算机和/或计算机系统来实现本文中标识的软件。在适用的情况下,本文描述的各个步骤的顺序可以改变,组合为复合步骤,和/或分为子步骤,以提供本文描述的特征。
前述公开内容并非旨在将本公开内容限制为所公开的精确形式或特定的使用领域。因此,可以预期,根据本公开,无论是否在本文中明确描述或暗示,对本公开的各种替代实施例和/或修改都是可能的。例如,以上实施例的重点集中于用户和用户设备,但是,可以以其他方式向消费者、商家、服务或支付提供商呈现定制信息。因此,本文所使用的“用户”还可以包括慈善机构、个人、以及接收信息的任何其他实体或个人。因此,描述了本公开的实施例,本领域普通技术人员将认识到,可以在不背离本公开的范围的情况下在形式和细节上进行更改。因此,本公开仅由权利要求书限定。
Claims (20)
1.一种系统,包括:
非暂态存储器,用于存储指令;以及
处理器,被配置为执行指令以使得所述系统执行以下操作:
从多个来源接收用户信息;
针对隐私数据扫描和解密接收到的用户信息;
基于所扫描的隐私数据,确定与所述隐私数据相关联的数据的类型;
部分地基于所述数据的类型和所述数据的内容来对所述隐私数据进行分类,其中,所述分类包括机器学习模型;
基于所述分类来隔离所述隐私数据;以及
检索隔离的隐私数据以用于报告。
2.根据权利要求1所述的系统,其中,所述报告包括生成图表,所述图表指示由多个用户在一段时间内接收到的同意的数量。
3.根据权利要求1所述的系统,其中,所述接收到的用户信息包括非结构化数据。
4.根据权利要求1所述的系统,其中,所述用户信息的所述扫描和所述解密包括提取所述用户信息以识别所述隐私数据。
5.根据权利要求1所述的系统,其中,所述扫描和所述分类发生在隐私扫描容器中,并且其中,所述隐私扫描容器是所述用户信息数据被分析、分类和隔离的可插拔容器。
6.根据权利要求5所述的系统,其中,位于所述隐私扫描容器中的发布器模块将所述隐私数据转移到外部组件以进行自定义报告。
7.根据权利要求1所述的系统,其中,所述机器学习模型包括关系分类、文本分类以及图像处理中的至少一者。
8.一种方法,包括:
从多个来源接收用户信息;
针对隐私数据扫描和解密接收到的用户信息;
基于所扫描的隐私数据,确定与所述隐私数据相关联的数据的类型;
部分地基于所述数据的类型和所述数据的内容来对所述隐私数据进行分类,其中,所述分类包括机器学习模型;
基于所述分类来隔离所述隐私数据;以及
检索隔离的隐私数据以用于报告。
9.根据权利要求8所述的方法,其中,所述报告包括生成图表,所述图表指示由多个用户在一段时间内接收到的同意的数量。
10.根据权利要求8所述的方法,其中,所述接收到的用户信息包括非结构化数据。
11.根据权利要求8所述的方法,其中,所述用户信息的所述扫描和所述解密包括提取所述用户信息以识别所述隐私数据。
12.根据权利要求8所述的方法,其中,所述扫描和所述分类发生在隐私扫描容器中,并且其中,所述隐私扫描容器是所述用户信息数据被分析、分类和隔离的可插拔容器。
13.根据权利要求12所述的方法,其中,位于所述隐私扫描容器中的发布器模块将所述隐私数据转移到外部组件以进行自定义报告。
14.根据权利要求8所述的方法,其中,所述机器学习模型包括关系分类、文本分类以及图像处理中的至少一者。
15.一种非暂态机器可读介质,其上存储有机器可读指令,所述机器可读指令可执行以使得机器执行包括以下各项的操作:
从多个来源接收用户信息;
针对隐私数据扫描和解密接收到的用户信息;
基于所扫描的隐私数据,确定与所述隐私数据相关联的数据的类型;
部分地基于所述数据的类型和所述数据的内容来对所述隐私数据进行分类,其中,所述分类包括机器学习模型;
基于所述分类来隔离所述隐私数据;以及
检索隔离的隐私数据以用于报告。
16.根据权利要求15所述的非暂态介质,其中,所述报告包括生成图表,所述图表指示由多个用户在一段时间内接收到的同意的数量。
17.根据权利要求15所述的非暂态介质,其中,所述接收到的用户信息包括非结构化数据。
18.根据权利要求15所述的非暂态介质,其中,所述用户信息的所述扫描和所述解密包括提取所述用户信息以识别所述隐私数据。
19.根据权利要求15所述的非暂态介质,其中,所述扫描和所述分类发生在隐私扫描容器中,并且其中,所述隐私扫描容器是所述用户信息数据被分析、分类和隔离的可插拔容器。
20.根据权利要求19所述的非暂态介质,其中,位于所述隐私扫描容器中的发布器模块将所述隐私数据转移到外部组件以进行自定义报告。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201841017790 | 2018-05-11 | ||
IN201841017790 | 2018-05-11 | ||
US16/023,819 | 2018-06-29 | ||
US16/023,819 US11062036B2 (en) | 2018-05-11 | 2018-06-29 | System and method for generating privacy data containment and reporting |
PCT/US2019/031611 WO2019217743A1 (en) | 2018-05-11 | 2019-05-09 | System and method for generating privacy data containment and reporting |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112106049A true CN112106049A (zh) | 2020-12-18 |
CN112106049B CN112106049B (zh) | 2024-08-02 |
Family
ID=68463686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980031613.2A Active CN112106049B (zh) | 2018-05-11 | 2019-05-09 | 生成隐私数据隔离和报告的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11062036B2 (zh) |
EP (1) | EP3791303A4 (zh) |
CN (1) | CN112106049B (zh) |
WO (1) | WO2019217743A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818390A (zh) * | 2021-01-26 | 2021-05-18 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私保护的数据信息发布方法、装置及设备 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11062036B2 (en) | 2018-05-11 | 2021-07-13 | Paypal, Inc. | System and method for generating privacy data containment and reporting |
US11520900B2 (en) * | 2018-08-22 | 2022-12-06 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for a text mining approach for predicting exploitation of vulnerabilities |
US11861036B1 (en) * | 2018-09-18 | 2024-01-02 | United Services Automobile Association (Usaa) | Systems and methods for managing private information |
WO2020232137A1 (en) * | 2019-05-14 | 2020-11-19 | Equifax Inc. | Data protection via attributes-based aggregation |
CN111079946A (zh) * | 2019-12-20 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 模型训练方法、成员探测装置的训练方法及其系统 |
US11954186B2 (en) * | 2019-12-20 | 2024-04-09 | Cambrian Designs, Inc. | System and method for effectuating data countermeasures |
US11789983B2 (en) * | 2020-09-14 | 2023-10-17 | Accenture Global Solutions Limited | Enhanced data driven intelligent cloud advisor system |
US20230153457A1 (en) * | 2021-11-12 | 2023-05-18 | Microsoft Technology Licensing, Llc | Privacy data management in distributed computing systems |
CN116467731A (zh) * | 2023-06-19 | 2023-07-21 | 北京好心情互联网医院有限公司 | 敏感信息处理方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750465A (zh) * | 2011-03-21 | 2012-10-24 | 微软公司 | 信息隐私系统和方法 |
US20140181888A1 (en) * | 2012-12-20 | 2014-06-26 | Hong C. Li | Secure local web application data manager |
US20170230387A1 (en) * | 2016-02-04 | 2017-08-10 | Adobe Systems Incorporated | Monitoring Social Media for Breach of Organizational Privacy |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9105034B2 (en) | 2011-03-23 | 2015-08-11 | International Business Machines Corporation | Implementing computer interaction response tests |
US9031886B2 (en) * | 2012-09-20 | 2015-05-12 | Sap Se | Pluggable modules in a cascading learning system |
US10296843B2 (en) * | 2014-09-24 | 2019-05-21 | C3 Iot, Inc. | Systems and methods for utilizing machine learning to identify non-technical loss |
EP3021274A1 (en) * | 2014-11-11 | 2016-05-18 | Tata Consultancy Services Limited | Data privacy management |
US11301771B2 (en) * | 2014-11-21 | 2022-04-12 | C3.Ai, Inc. | Systems and methods for determining disaggregated energy consumption based on limited energy billing data |
US10395180B2 (en) | 2015-03-24 | 2019-08-27 | International Business Machines Corporation | Privacy and modeling preserved data sharing |
US9923915B2 (en) * | 2015-06-02 | 2018-03-20 | C3 Iot, Inc. | Systems and methods for providing cybersecurity analysis based on operational technologies and information technologies |
CA3001304C (en) * | 2015-06-05 | 2021-10-19 | C3 Iot, Inc. | Systems, methods, and devices for an enterprise internet-of-things application development platform |
EP3449414B1 (en) | 2016-04-29 | 2021-12-08 | Privitar Limited | Computer-implemented privacy engineering system and method |
US10747898B2 (en) | 2016-10-20 | 2020-08-18 | International Business Machines Corporation | Determining privacy for a user and a product in a particular context |
US11062036B2 (en) * | 2018-05-11 | 2021-07-13 | Paypal, Inc. | System and method for generating privacy data containment and reporting |
-
2018
- 2018-06-29 US US16/023,819 patent/US11062036B2/en active Active
-
2019
- 2019-05-09 WO PCT/US2019/031611 patent/WO2019217743A1/en active Application Filing
- 2019-05-09 CN CN201980031613.2A patent/CN112106049B/zh active Active
- 2019-05-09 EP EP19799722.4A patent/EP3791303A4/en active Pending
-
2021
- 2021-07-01 US US17/364,880 patent/US12056247B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750465A (zh) * | 2011-03-21 | 2012-10-24 | 微软公司 | 信息隐私系统和方法 |
US20140181888A1 (en) * | 2012-12-20 | 2014-06-26 | Hong C. Li | Secure local web application data manager |
US20170230387A1 (en) * | 2016-02-04 | 2017-08-10 | Adobe Systems Incorporated | Monitoring Social Media for Breach of Organizational Privacy |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818390A (zh) * | 2021-01-26 | 2021-05-18 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私保护的数据信息发布方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
US11062036B2 (en) | 2021-07-13 |
WO2019217743A1 (en) | 2019-11-14 |
CN112106049B (zh) | 2024-08-02 |
US20190347428A1 (en) | 2019-11-14 |
US20210326457A1 (en) | 2021-10-21 |
US12056247B2 (en) | 2024-08-06 |
EP3791303A4 (en) | 2022-01-19 |
EP3791303A1 (en) | 2021-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112106049B (zh) | 生成隐私数据隔离和报告的系统和方法 | |
US11516248B2 (en) | Security system for detection and mitigation of malicious communications | |
US11470108B2 (en) | Detection and prevention of external fraud | |
US10862843B2 (en) | Computerized system and method for modifying a message to apply security features to the message's content | |
US10593004B2 (en) | System and methods for identifying compromised personally identifiable information on the internet | |
US20180196694A1 (en) | Transaction analyzer using graph-oriented data structures | |
US11341266B2 (en) | Detecting and preventing storage of unsolicited sensitive personal information | |
US12038984B2 (en) | Using a machine learning system to process a corpus of documents associated with a user to determine a user-specific and/or process-specific consequence index | |
US20190347441A1 (en) | Patient privacy de-identification in firewall switches forming VLAN segregation | |
US20220027428A1 (en) | Security system for adaptive targeted multi-attribute based identification of online malicious electronic content | |
US20170249685A1 (en) | System and method for communicating with retail customers with a sustainability standard | |
US20180365687A1 (en) | Fraud detection | |
Cahyani et al. | An evidence‐based forensic taxonomy of Windows phone dating apps | |
CN110709870A (zh) | 智能成员管理 | |
Almuqren et al. | A Systematic Literature Review on Digital Forensic Investigation on Android Devices | |
US20240111892A1 (en) | Systems and methods for facilitating on-demand artificial intelligence models for sanitizing sensitive data | |
US20190340350A1 (en) | Verification system | |
Rai et al. | Security and Auditing of Smart Devices: Managing Proliferation of Confidential Data on Corporate and BYOD Devices | |
Ariyadasa et al. | PhishRepo: a seamless collection of phishing data to fill a research gap in the phishing domain | |
CN110647767A (zh) | 数据查看方法、电子设备和计算机可读存储介质 | |
US11797589B2 (en) | Reducing overcollection of unstructured data | |
US12149558B1 (en) | Cybersecurity architectures for multi-contextual risk quantification | |
EP3662402B1 (en) | A system, method, computer program and data signal for identifying software capable of capturing personally identifiable information | |
Zimba et al. | On emergent mobile phone-based social engineering cyberattacks in developing countries: The case of the Zambian ICT sector | |
Nalini et al. | Bot‐Based Process Triggering by Incoming E‐mails and Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |