CN116305285A - 结合人工智能的病患信息脱敏处理方法及系统 - Google Patents
结合人工智能的病患信息脱敏处理方法及系统 Download PDFInfo
- Publication number
- CN116305285A CN116305285A CN202310328830.6A CN202310328830A CN116305285A CN 116305285 A CN116305285 A CN 116305285A CN 202310328830 A CN202310328830 A CN 202310328830A CN 116305285 A CN116305285 A CN 116305285A
- Authority
- CN
- China
- Prior art keywords
- text
- medical record
- patient medical
- desensitized
- privacy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 291
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 15
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims description 52
- 238000012545 processing Methods 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 26
- 238000010801 machine learning Methods 0.000 claims description 14
- 238000005065 mining Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 34
- 238000001514 detection method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000012502 risk assessment Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101001135619 Homo sapiens Tyrosine-protein phosphatase non-receptor type 5 Proteins 0.000 description 1
- 102100033259 Tyrosine-protein phosphatase non-receptor type 5 Human genes 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及人工智能与信息处理技术领域,特别涉及一种结合人工智能的病患信息脱敏处理方法及系统。本发明实施例提供的结合人工智能的病患信息脱敏处理方法及系统,不仅可以保障目标脱敏文本与待脱敏病患病历文本在整体层面的文本布局类似性,还可以保障目标脱敏文本与待脱敏病患病历文本中的隐私段落信息类似性,提高了目标脱敏文本与待脱敏病患病历文本之间的匹配性,以便在基于目标脱敏文本对待脱敏病患病历文本进行数据匿名/脱敏时,提高待脱敏病患病历文本的数据匿名/脱敏质量和效率。
Description
技术领域
本发明涉及人工智能与信息处理技术领域,特别涉及一种结合人工智能的病患信息脱敏处理方法及系统。
背景技术
信息脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及安全数据或者一些敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供一定的使用。在智慧医疗领域,病患信息通常携带一些病患隐私,因此对病患信息进行信息脱敏是非常有必要的。
发明内容
为改善相关技术中存在的技术问题,本发明提供了一种结合人工智能的病患信息脱敏处理方法及系统。
第一方面,本发明实施例提供了一种结合人工智能的病患信息脱敏处理方法,应用于AI脱敏处理系统,所述方法包括:获取待脱敏病患病历文本和病患病历脱敏文本;
获取所述待脱敏病患病历文本中的隐私段落解析结果和所述病患病历脱敏文本中的隐私段落解析结果;
基于所述待脱敏病患病历文本中的隐私段落解析结果和所述病患病历脱敏文本中的隐私段落解析结果,确定所述待脱敏病患病历文本和所述病患病历脱敏文本的隐私段落共性评分;
确定所述待脱敏病患病历文本的文本语义特征和所述病患病历脱敏文本的文本语义特征;
基于所述待脱敏病患病历文本的文本语义特征和所述病患病历脱敏文本的文本语义特征,确定所述待脱敏病患病历文本和所述病患病历脱敏文本的第一语义共性评分;
基于所述待脱敏病患病历文本和所述病患病历脱敏文本的隐私段落共性评分和所述第一语义共性评分,确定所述待脱敏病患病历文本和所述病患病历脱敏文本之间的文本共性评分;
基于所述待脱敏病患病历文本和所述病患病历脱敏文本之间的文本共性评分,从所述病患病历脱敏文本中确定目标脱敏文本,以便基于所述目标脱敏文本对所述待脱敏病患病历文本进行隐私脱敏保护。
在一些实施例中,所述待脱敏病患病历文本中的隐私段落解析结果包括从所述待脱敏病患病历文本中挖掘的第一隐私段落文本,所述病患病历脱敏文本中的隐私段落解析结果包括从所述病患病历脱敏文本中挖掘的第二隐私段落文本;其中,基于所述待脱敏病患病历文本中的隐私段落解析结果和所述病患病历脱敏文本中的隐私段落解析结果,确定所述待脱敏病患病历文本和所述病患病历脱敏文本的隐私段落共性评分,包括:
基于所述第一隐私段落文本确定所述待脱敏病患病历文本中目标隐私段落的第一统计数据;
基于所述第二隐私段落文本确定所述病患病历脱敏文本中所述目标隐私段落的第二统计数据;
基于所述第一统计数据和所述第二统计数据,确定所述待脱敏病患病历文本和所述病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果;
基于所述待脱敏病患病历文本和所述病患病历脱敏文本中所述目标隐私段落的数目求和结果与数目求差结果,确定所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落数目共性评分;
基于所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落数目共性评分,确定所述待脱敏病患病历文本和所述病患病历脱敏文本的所述隐私段落共性评分。
在一些实施例中,获取所述待脱敏病患病历文本中的隐私段落解析结果和所述病患病历脱敏文本中的隐私段落解析结果,包括:
对所述待脱敏病患病历文本和所述病患病历脱敏文本分别进行隐私段落挖掘处理,以确定所述待脱敏病患病历文本中包括的第一隐私段落文本和所述病患病历脱敏文本中包括的第二隐私段落文本;
基于所述第一隐私段落文本和所述第二隐私段落文本,确定所述待脱敏病患病历文本中各个文本单元所属的隐私段落标识和所述病患病历脱敏文本中各个文本单元所属的隐私段落标识;
将所述待脱敏病患病历文本拆解为X个第一文本集,并将所述病患病历脱敏文本拆解为X个第二文本集,所述X个第一文本集与所述X个第二文本集一一对应,X为不小于1的整数;
基于所述待脱敏病患病历文本中各个文本单元所属的隐私段落标识确定各个第一文本集中各个文本单元所属的第一隐私段落标识,作为所述待脱敏病患病历文本中的隐私段落解析结果;
基于所述病患病历脱敏文本中各个文本单元所属的隐私段落标识确定各个第二文本集中各个文本单元所属的第二隐私段落标识,作为所述病患病历脱敏文本中的隐私段落解析结果。
在一些实施例中,基于所述待脱敏病患病历文本中的隐私段落解析结果和所述病患病历脱敏文本中的隐私段落解析结果,确定所述待脱敏病患病历文本和所述病患病历脱敏文本的隐私段落共性评分,包括:
基于各个第一文本集中各个文本单元所属的第一隐私段落标识和各个第二文本集中各个文本单元所属的第二隐私段落标识,确定各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分;
基于各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分,确定所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落主题共性评分;
基于所述待脱敏病患病历文本和所述病患病历脱敏文本的隐私段落主题共性评分,确定所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落共性评分。
在一些实施例中,所述第一隐私段落标识包括第一目标隐私段落标识,所述第二隐私段落标识包括第二目标隐私段落标识,所述第一文本集包括第一目标文本集,所述第二文本集包括第二目标文本集,所述第一目标文本集与所述第二目标文本集对应,所述第一目标文本集中的文本单元属于所述第一目标隐私段落标识,所述第二目标文本集中的文本单元属于所述第二目标隐私段落标识;其中,确定各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分,包括:
确定所述第一目标隐私段落标识与所述第二目标隐私段落标识的相同隐私段落标识数量;
确定所述第一目标隐私段落标识与所述第二目标隐私段落标识的隐私段落标识统计值;
基于第一目标隐私段落标识与所述第二目标隐私段落标识的相同隐私段落标识数量、以及所述第一目标隐私段落标识与所述第二目标隐私段落标识的隐私段落标识统计值确定所述第一目标文本集与所述第二目标文本集的隐私段落标识共性评分。
在一些实施例中,所述第一隐私段落文本包括所述待脱敏病患病历文本中包括的目标隐私段落的第一统计数据,所述第二隐私段落文本包括所述待脱敏病患病历文本中包括的所述目标隐私段落的第二统计数据;其中,基于所述待脱敏病患病历文本和所述病患病历脱敏文本的隐私段落主题共性评分,确定所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落共性评分,包括:
基于所述第一统计数据和所述第二统计数据,确定所述待脱敏病患病历文本和所述病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果;
基于所述待脱敏病患病历文本和所述病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果,确定所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落数目共性评分;
基于所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落数目共性评分和隐私段落主题共性评分,确定所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落共性评分。
在一些实施例中,所述待脱敏病患病历文本包括第一待脱敏病患病历文本和第二待脱敏病患病历文本,所述第一待脱敏病患病历文本与所述病患病历脱敏文本之间的文本共性评分为第一文本共性评分,所述第二待脱敏病患病历文本与所述病患病历脱敏文本之间的文本共性评分为第二文本共性评分;其中,基于所述待脱敏病患病历文本和所述病患病历脱敏文本之间的文本共性评分,从所述病患病历脱敏文本中确定目标脱敏文本,包括:
分别获取所述第一待脱敏病患病历文本和所述第二待脱敏病患病历文本的文本语义特征;
基于所述第一待脱敏病患病历文本与所述第二待脱敏病患病历文本的文本语义特征,确定所述第一待脱敏病患病历文本与所述第二待脱敏病患病历文本之间的第二语义共性评分;
基于所述第一文本共性评分、所述第二文本共性评分以及所述第二语义共性评分,从所述病患病历脱敏文本中确定所述第一待脱敏病患病历文本的目标脱敏文本。
在一些实施例中,基于所述第一文本共性评分、所述第二文本共性评分以及所述第二语义共性评分,从所述病患病历脱敏文本中确定所述第一待脱敏病患病历文本的目标脱敏文本,包括:
基于所述第二文本共性评分和所述第二语义共性评分确定所述第二待脱敏病患病历文本对所述第一待脱敏病患病历文本的贡献信息;
基于所述第二待脱敏病患病历文本对所述第一待脱敏病患病历文本的贡献信息、以及所述第一文本共性评分,确定所述第一待脱敏病患病历文本与所述病患病历脱敏文本的相关性;
基于所述第一待脱敏病患病历文本与所述病患病历脱敏文本的相关性,从所述病患病历脱敏文本中确定所述第一待脱敏病患病历文本的目标脱敏文本。
在一些实施例中,基于所述目标脱敏文本对所述待脱敏病患病历文本进行隐私脱敏保护,包括:
将所述目标脱敏文本与所述待脱敏病患病历文本进行文本匹配处理,以获得文本匹配结果;
结合所述文本匹配结果,通过所述目标脱敏文本对所述待脱敏病患病历文本进行隐私脱敏保护,以获得基础脱敏文本;
通过文本匿名算法对所述基础脱敏文本进行文本优化,以进行对所述待脱敏病患病历文本的隐私脱敏保护。
在一些实施例中,在通过文本匿名算法对所述基础脱敏文本进行文本优化,以进行对所述待脱敏病患病历文本的隐私脱敏保护之前,还包括:
获取目标已匿名文本示例;
对所述目标已匿名文本示例进行隐私段落去匿名处理,以获得去匿名文本示例;
将所述去匿名文本示例加载到目标机器学习算法,以获得匿名预测文本;
确定所述匿名预测文本与所述目标已匿名文本示例之间的目标调试代价;
通过所述目标调试代价对所述目标机器学习算法的算法变量进行改进,以将所述目标机器学习算法调试为所述文本匿名算法。
第二方面,本发明还提供了一种AI脱敏处理系统,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述的方法。
第三方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的方法。
本发明实施例提供的结合人工智能的病患信息脱敏处理方法及系统,在为待脱敏病患病历文本确定目标脱敏文本时,不仅通过待脱敏病患病历文本与病患病历脱敏文本的文本语义特征确保了目标脱敏文本与待脱敏病患病历文本之间的全局共性程度;还通过待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分确保了目标脱敏文本中的隐私段落与待脱敏病患病历文本中的隐私段落共性程度,即确保了目标脱敏文本与待脱敏病患病历文本中的文本信息的类似性。这样,本发明实施例不仅可以保障目标脱敏文本与待脱敏病患病历文本在整体层面的文本布局类似性,还可以保障目标脱敏文本与待脱敏病患病历文本中的隐私段落信息类似性,提高了目标脱敏文本与待脱敏病患病历文本之间的匹配性,以便在基于目标脱敏文本对待脱敏病患病历文本进行数据匿名/脱敏时,提高待脱敏病患病历文本的数据匿名/脱敏质量和效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是本发明实施例提供的一种结合人工智能的病患信息脱敏处理方法的流程示意图。
实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本发明实施例所提供的方法实施例可以在AI脱敏处理系统、计算机设备或者类似的运算装置中执行。以运行在AI脱敏处理系统上为例,AI脱敏处理系统可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器,可选地,上述AI脱敏处理系统还可以包括用于通信功能的传输装置。本领域普通技术人员可以理解,上述结构仅为示意,其并不对上述AI脱敏处理系统的结构造成限定。例如,AI脱敏处理系统还可包括比上述所示更多或者更少的组件,或者具有与上述所示不同的配置。
存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种结合人工智能的病患信息脱敏处理方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至AI脱敏处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括AI脱敏处理系统的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于此,请参阅图1,图1是本发明实施例所提供的一种结合人工智能的病患信息脱敏处理方法的流程示意图,该方法应用于AI脱敏处理系统,进一步可以包括STEP11-STEP17。
STEP11,获取待脱敏病患病历文本和病患病历脱敏文本。
在本发明实施例中,待脱敏病患病历文本可以是需要进行隐私脱敏保护的病患病历文本,该待脱敏病患病历文本可以是门诊病患病历文本,也可以是住院病患病历文本,甚至可以是手术病患病历文本。待脱敏病患病历文本中记录了与病患相关的隐私信息,若后期为了研究需求,对病患病历文本进行共享的时候需要保护这些隐私信息。因此本发明实施例可以实现待脱敏病患病历文本的隐私脱敏保护处理。
此外,病患病历脱敏文本可以是已完成隐私信息匿名/脱敏处理的病患病历文本,该病患病历脱敏文本是基于K匿名算法得到的,还可以是基于其他匿名算法得到的。
进一步地,该待脱敏病患病历文本可以为至少一个,病患病历脱敏文本可以为至少一个。
STEP12,获取待脱敏病患病历文本中的隐私段落解析结果和病患病历脱敏文本中的隐私段落解析结果。
在一种可能的设计思路下,待脱敏病患病历文本中的隐私段落解析结果可以包括在待脱敏病患病历文本中挖掘的目标隐私段落、目标隐私段落的标识信息、该目标隐私段落在待脱敏病患病历文本中的分布特征(位置)和统计数据等任意可以从待脱敏病患病历文本中挖掘出的与目标隐私段落相关的信息。其中,该目标隐私段落可以是一种也可以是多种。
STEP13,基于待脱敏病患病历文本中的隐私段落解析结果和病患病历脱敏文本中的隐私段落解析结果,确定待脱敏病患病历文本和病患病历脱敏文本的隐私段落共性评分。
在一种可能的设计思路下,待脱敏病患病历文本和病患病历脱敏文本的隐私段落共性评分可以指的是待脱敏病患病历文本和病患病历脱敏文本中包括的目标隐私段落的共性评分,该隐私段落共性评分可以包括目标隐私段落的数目共性评分、主题共性评分、分布特征共性评分或者隐私等级共性评分等中的至少一种。其中,共性评分可以理解为相似度或者相似性。
STEP14,确定待脱敏病患病历文本的文本语义特征和病患病历脱敏文本的文本语义特征。
在一种可能的设计思路下,可以通过目标机器学习算法对待脱敏病患病历文本和病患病历脱敏文本进行文本向量挖掘处理,以获取一个可表征待脱敏病患病历文本整体情况的文本语义特征、一个可表征病患病历脱敏文本整体情况的文本语义特征。目标机器学习算法可以是深度学习模型DNN、残差网络等。
STEP15,基于待脱敏病患病历文本的文本语义特征和病患病历脱敏文本的文本语义特征,确定待脱敏病患病历文本和病患病历脱敏文本的第一语义共性评分。
在一种可能的设计思路下,可以确定待脱敏病患病历文本的文本语义特征与病患病历脱敏文本的文本语义特征之间的语义共性评分,并将该语义共性评分作为该第一语义共性评分。第一语义共性评分越大,待脱敏病患病历文本与病患病历脱敏文本的语义特征匹配性(语义特征相关度)越大。
其中,可以但不限于通过余弦相似度确定待脱敏病患病历文本的文本语义特征与病患病历脱敏文本的文本语义特征之间的共性评分。
比如待脱敏病患病历文本的文本语义特征为feature_u,病患病历脱敏文本的文本语义特征为feature_v,那么可以通过feature_u和feature_v的点积结果确定待脱敏病患病历文本的文本语义特征与病患病历脱敏文本的文本语义特征之间的语义共性评分,获得评分越大,待脱敏病患病历文本与病患病历脱敏文本的宏观共性评分越高,i为不小于1、小于或者等于待脱敏病患病历文本个数的整数。
STEP16,基于待脱敏病患病历文本和病患病历脱敏文本的隐私段落共性评分和第一语义共性评分,确定待脱敏病患病历文本和病患病历脱敏文本之间的文本共性评分。
在一种可能的设计思路下,可以将待脱敏病患病历文本和病患病历脱敏文本的隐私段落共性评分与第一语义共性评分整合,以作为待脱敏病患病历文本和病患病历脱敏文本之间的文本共性评分,也可以将待脱敏病患病历文本与病患病历脱敏文本的隐私段落共性评分与第一语义共性评分进行乘法运算,以作为待脱敏病患病历文本与病患病历脱敏文本之间的文本共性评分。
基于上述方法确定的文本共性评分,不仅通过第一语义共性评分引入了待脱敏病患病历文本与病患病历脱敏文本整体之间的共性评分关系,还通过隐私段落共性评分引入了待脱敏病患病历文本与病患病历脱敏文本中的局部文本信息类似性。
STEP17,基于待脱敏病患病历文本和病患病历脱敏文本之间的文本共性评分,从病患病历脱敏文本中确定目标脱敏文本,以便基于目标脱敏文本对待脱敏病患病历文本进行隐私脱敏保护。
在一种可能的设计思路下,可以基于待脱敏病患病历文本与各个病患病历脱敏文本的文本共性评分,从各个病患病历脱敏文本中确定目标脱敏文本,比如可以在文本共性评分列表中确定文本共性评分最大值对应的病患病历脱敏文本作为待脱敏病患病历文本的目标脱敏文本。
比如,若待脱敏病患病历文本为两个,则可以将待脱敏病患病历文本与各个病患病历脱敏文本的隐私段落共性评分列表List1、待脱敏病患病历文本与各个病患病历脱敏文本的语义共性评分列表List2由1维变换成2维,将隐私段落共性评分列表List1和语义共性评分列表List2点乘之后,就可以确定两个待脱敏病患病历文本分别与各个病患病历脱敏文本的文本共性评分,进而就可以分别为该两个待脱敏病患病历文本分别确定目标脱敏文本了。
本发明实施例,在为待脱敏病患病历文本确定目标脱敏文本时,不仅通过待脱敏病患病历文本与病患病历脱敏文本的文本语义特征确保了目标脱敏文本与待脱敏病患病历文本全局类似性;还通过待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分确保了目标脱敏文本中的隐私段落与待脱敏病患病历文本中的隐私段落文本类似性,即确保了目标脱敏文本与待脱敏病患病历文本中的文本信息(比如隐私段落数目、隐私段落分布等)类似性。这样,本发明实施例不仅可以保障目标脱敏文本与待脱敏病患病历文本在整体层面的文本布局类似性,还可以保障目标脱敏文本与待脱敏病患病历文本中的隐私段落信息类似性,显著提升了目标脱敏文本与待脱敏病患病历文本之间的匹配性,以便在基于目标脱敏文本对待脱敏病患病历文本进行数据匿名/脱敏时,提高待脱敏病患病历文本的数据匿名/脱敏质量和效率。
在一种可能的设计思路下,当确定了待脱敏病患病历文本的目标脱敏文本后,可通过如下方式完成对待脱敏病患病历文本的隐私脱敏保护。
将目标脱敏文本与待脱敏病患病历文本进行文本匹配处理,以获得文本匹配结果。其中,文本匹配处理可以将各个隐私段落的词句进行匹配。比如,若目标脱敏文本与待脱敏病患病历文本皆具有存在对应关系的两个隐私段落,通过文本匹配处理,可以将目标脱敏文本中隐私段落的人名、家庭住址、工作单位、患病前后的日常生活习惯等词句与待脱敏病患病历文本中隐私段落的人名、家庭住址、工作单位、患病前后的日常生活习惯等词句一一进行匹配。
结合文本匹配结果,可以通过目标脱敏文本对待脱敏病患病历文本进行隐私脱敏保护,以获得基础脱敏文本。该基础脱敏文本是经过初步匿名脱敏处理的文本。在获得基础脱敏文本后,可以通过调试完成的文本匿名算法对基础脱敏文本进行文本优化(进一步的隐私脱敏处理),以完成对待脱敏病患病历文本的隐私脱敏保护。这样一来,通过2轮的脱敏处理,能够实现隐私匿名的平滑性,避免匿名过度造成相关文本信息过于泛化而难以被后期的医学研究所使用,也即本发明实施例在保障用户隐私的同时还可以尽量提高脱敏后的病患病历文本的可用性。
在通过调试完成的文本匿名算法对基础脱敏文本进行文本优化,以完成对待脱敏病患病历文本的隐私脱敏保护之前可以如下思路完成文本匿名算法的调试:获取目标已匿名文本示例;对目标已匿名文本示例进行隐私段落去匿名处理,以获得去匿名文本示例;将去匿名文本示例加载到目标机器学习算法,以获得匿名预测文本;确定匿名预测文本与目标已匿名文本示例之间的目标调试代价;通过目标调试代价对目标机器学习算法的算法变量进行改进,以将目标机器学习算法调试为文本匿名算法。
其中,上述的文本示例可以理解为训练文本,调试代价可以理解为算法的训练损失。
在本发明实施例中,待脱敏病患病历文本中的隐私段落解析结果可以包括从待脱敏病患病历文本中挖掘的第一隐私段落文本,病患病历脱敏文本中的隐私段落解析结果可以包括从病患病历脱敏文本中挖掘的第二隐私段落文本。
其中,第一隐私段落文本可以包括待脱敏病患病历文本中目标隐私段落的统计数据,第二隐私段落文本可以包括病患病历脱敏文本中目标隐私段落的统计数据。
在一种可能的设计思路下,可以通过目标隐私段落挖掘网络对待脱敏病患病历文本或病患病历脱敏文本进行病患病历文本挖掘,以从待脱敏病患病历文本或者病患病历脱敏文本中确定该第一隐私段落文本或第二隐私段落文本。
基于此,上述隐私段落共性评分的确定包括以下步骤。
STEP21,基于第一隐私段落文本确定待脱敏病患病历文本中目标隐私段落的第一统计数据。
STEP22,基于第二隐私段落文本确定病患病历脱敏文本中目标隐私段落的第二统计数据。
STEP23,基于第一统计数据和第二统计数据,确定待脱敏病患病历文本和病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果。
其中,统计数据可以理解为数量或者数目。
STEP24,基于待脱敏病患病历文本和病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果,确定待脱敏病患病历文本与病患病历脱敏文本的隐私段落数目共性评分。
在一种可能的设计思路下,可以基于数目求和结果与数目求差结果的加权平均结果来确定待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落数目共性评分。其中,加权平均的具体参数可以由本领域技术人员根据实际需求进行调整。
STEP25,基于待脱敏病患病历文本与病患病历脱敏文本的隐私段落数目共性评分,确定待脱敏病患病历文本和病患病历脱敏文本的隐私段落共性评分。
在一种可能的设计思路下,可以将该待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落数目共性评分作为待脱敏病患病历文本与病患病历脱敏文本之间的文本共性评分。比如,将待脱敏病患病历文本与病患病历脱敏文本的隐私段落数目共性评分列表作为待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分列表。
可见,通过本发明实施例,不仅可以通过病患病历文本的语义共性评分保障目标脱敏文本与待脱敏病患病历文本全局类似性,还可以保障目标脱敏文本与待脱敏病患病历文本中的目标隐私段落数目一致,以使得通过目标脱敏文本对待脱敏病患病历文本进行数据匿名/脱敏时,待脱敏病患病历文本中的目标隐私段落在目标脱敏文本中皆具有对应的隐私段落,进而可以保障各个待脱敏病患病历文本中各个目标隐私段落的数据匿名/脱敏质量和效率。
在另一些设计思路下,上述隐私段落解析结果的确定可包括如下内容。
STEP31,对待脱敏病患病历文本和病患病历脱敏文本分别进行隐私段落挖掘处理,以确定待脱敏病患病历文本中包括的第一隐私段落文本和病患病历脱敏文本中包括的第二隐私段落文本。
其中,第一隐私段落文本可以包括待脱敏病患病历文本中存在的目标隐私段落以及各个目标隐私段落在待脱敏病患病历文本中的分布特征。第二隐私段落文本可以包括病患病历脱敏文本中存在的目标隐私段落以及各个目标隐私段落在病患病历脱敏文本中的分布特征。
在本发明实施例中,一个待脱敏病患病历文本或者病患病历脱敏文本中可能会存在多个目标隐私段落,每个目标隐私段落又可以归属于不同的隐私段落标识。
在一种可能的设计思路下,可以通过调试完成的隐私段落挖掘机器学习算法对待脱敏病患病历文本进行挖掘,以从待脱敏病患病历文本或者病患病历脱敏文本中挖掘出各个目标隐私段落以及各个目标隐私段落的分布特征。
STEP32,基于第一隐私段落文本和第二隐私段落文本,确定待脱敏病患病历文本中各个文本单元所属的隐私段落标识和病患病历脱敏文本中各个文本单元所属的隐私段落标识。
在一些示例下,当在待脱敏病患病历文本或者病患病历脱敏文本中挖掘出各个目标隐私段落的分布特征后,那么待脱敏病患病历文本或者病患病历脱敏文本中的各个文本单元也相当于匹配了各自的标识字段。
比如,在待脱敏病患病历文本中挖掘出Q、W、E等三种不同隐私段落标识的目标隐私段落,那么待脱敏病患病历文本中的某一个文本单元要么属于Q隐私段落标识、要么属于W隐私段落标识、要么属于E隐私段落标识,当然还可能属于其他标识。
STEP33,将待脱敏病患病历文本拆解为X个第一文本集,并将病患病历脱敏文本拆解为X个第二文本集,X个第一文本集与X个第二文本集一一对应,X为不小于1的整数。
在一种可能的设计思路下,可以按照一定的拆解规则对待脱敏病患病历文本或者病患病历脱敏文本拆解为X个文本集。本发明实施例对上述拆解方法以及拆解获得的病患病历文本文本集个数不做限制,但是要保障待脱敏病患病历文本的拆解方法与病患病历脱敏文本的拆解方法一致,以保障待脱敏病患病历文本中的各个病患病历文本文本集与病患病历脱敏文本中的病患病历文本文本集可以一一对应。
STEP34,基于待脱敏病患病历文本中各个文本单元所属的隐私段落标识确定各个第一文本集中各个文本单元所属的第一隐私段落标识,作为待脱敏病患病历文本中的隐私段落解析结果。
STEP35,基于病患病历脱敏文本中各个文本单元所属的隐私段落标识确定各个第二文本集中各个文本单元所属的第二隐私段落标识,作为病患病历脱敏文本中的隐私段落解析结果。
在一种可能的设计思路下,在获得各个第一文本集中各个文本单元所属的第一隐私段落标识和各个第二文本集中各个文本单元所属的第二隐私段落标识后,可以基于各个第一文本集中的第一隐私段落标识和各个第二文本集中的第二隐私段落标识确定待脱敏病患病历文本与病患病历脱敏文本中的隐私段落解析结果。
在一种可能的设计思路下,可以基于各个第一文本集中的第一隐私段落标识和各个第二文本集中的第二隐私段落标识统计各个第一文本集与对应的第二文本集之间的文本单元状态标识共性评分,然后基于各个第一文本集对应的文本单元状态标识共性评分确定待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分。比如可以将各个第一文本集与其对应的第二文本集的文本单元状态标识共性评分进行平均化处理等,确定待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分。
其中,第一文本集与其对应的第二文本集的文本单元状态标识(即该文本单元对应的隐私段落标识字段)共性评分可通过如下方式确定:确定第一文本集与第二文本集状态相同的文本单元个数;通过第一文本集与第二文本集状态相同的文本单元个数与第一文本集(或第二文本集)文本单元统计值确定比例值,并将该比例值作为第一文本集与其对应的第二文本集的文本单元状态标识共性评分。
在另一些可能的设计思路下,上述隐私段落共性评分的确定可包括如下内容。
STEP41,基于各个第一文本集中各个文本单元所属的第一隐私段落标识和各个第二文本集中各个文本单元所属的第二隐私段落标识,确定各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分。
在一种可能的设计思路下,如果知晓各个第一文本集中各个文本单元所属的第一隐私段落标识,则能够统计各个第一文本集中包括的隐私段落标识数量。类似地,如果知晓各个第二文本集中各个文本单元所属的第二隐私段落标识,则能够统计各个第二文本集中包括的隐私段落标识数量。
通常,鉴于第u个待脱敏病患病历文本的拆解方法与第v个待脱敏病患病历文本的拆解方法相同,所以第u个待脱敏病患病历文本的第一文本集与第v个待脱敏病患病历文本的第二文本集是存在一一对应关系的,所以第u个待脱敏病患病历文本的第p个第一文本集与第v个病患病历脱敏文本的第p个第二文本集是对应的。
在一些情况下,可通过如下方式确定第一目标文本集与第二目标文本集的隐私段落标识共性评分:确定第一目标隐私段落标识与第二目标隐私段落标识的相同隐私段落标识数量;确定第一目标隐私段落标识与第二目标隐私段落标识的隐私段落标识统计值;基于第一目标隐私段落标识与第二目标隐私段落标识的相同隐私段落标识数量、第一目标隐私段落标识与第二目标隐私段落标识的隐私段落标识统计值确定第一目标文本集与第二目标文本集的隐私段落标识共性评分。
在一种可能的设计思路下,可以基于第一目标文本集与第二目标文本集的隐私段落标识共性评分确定方法,确定各个第一文本集与对应的第二文本集的隐私段落标识共性评分。
STEP42,基于各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分,确定待脱敏病患病历文本与病患病历脱敏文本的隐私段落主题共性评分。
在一种可能的设计思路下,可以对各个第一文本集与对应的第二文本集的隐私段落标识共性评分进行一系列运算处理来确定待脱敏病患病历文本与病患病历脱敏文本的隐私段落主题共性评分。
STEP43,基于待脱敏病患病历文本和病患病历脱敏文本的隐私段落主题共性评分,确定待脱敏病患病历文本与病患病历脱敏文本的隐私段落共性评分。
在一种可能的设计思路下,可以将待脱敏病患病历文本与病患病历脱敏文本的隐私段落主题共性评分,作为待脱敏病患病历文本与病患病历脱敏文本的隐私段落共性评分。比如,将待脱敏病患病历文本与病患病历脱敏文本的隐私段落主题共性评分作为待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分列表。
在一种可能的设计思路下,从待脱敏病患病历文本中挖掘的第一隐私段落文本可以包括待脱敏病患病历文本中包括的目标隐私段落的第一统计数据,从病患病历脱敏文本中挖掘处理的第二隐私段落文本可以包括待脱敏病患病历文本中包括的目标隐私段落的第二统计数据。
在另一些设计思路下,上述隐私段落共性评分的确定可包含如下内容。
STEP51,基于各个第一文本集中各个文本单元所属的第一隐私段落标识和各个第二文本集中各个文本单元所属的第二隐私段落标识,确定各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分。
STEP52,基于各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分,确定待脱敏病患病历文本与病患病历脱敏文本的隐私段落主题共性评分。
STEP53,基于第一统计数据和第二统计数据,确定待脱敏病患病历文本和病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果。
STEP54,基于待脱敏病患病历文本和病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果,确定待脱敏病患病历文本与病患病历脱敏文本的隐私段落数目共性评分。
STEP55,基于待脱敏病患病历文本与病患病历脱敏文本的隐私段落数目共性评分和隐私段落主题共性评分,确定待脱敏病患病历文本与病患病历脱敏文本的隐私段落共性评分。
在一种可能的设计思路下,可以将待脱敏病患病历文本与病患病历脱敏文本的隐私段落主题共性评分、隐私段落数目共性评分进行乘法运算或者求和运算,以确定待脱敏病患病历文本与病患病历脱敏文本的隐私段落共性评分。比如,可以将待脱敏病患病历文本与病患病历脱敏文本的隐私段落主题共性评分列表与隐私段落数目共性评分列表进行乘法运算或者求和运算获得待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分列表等。
本发明实施例既能通过病患病历文本的语义共性评分保障目标脱敏文本与待脱敏病患病历文本全局类似性;又能保障目标脱敏文本与待脱敏病患病历文本中的目标隐私段落数目一致,以使得通过目标脱敏文本对待脱敏病患病历文本进行数据匿名/脱敏时,可以保障目标隐私段落的数据匿名/脱敏质量和效率;还可以通过隐私段落主题共性评分保障目标脱敏文本在与第一文本集对应的分布区域,存在与第一文本集类似的隐私段落主题。
通过本发明实施例,既能通过病患病历文本的语义共性评分保障目标脱敏文本与待脱敏病患病历文本全局类似性,又能保障目标脱敏文本与待脱敏病患病历文本中的目标隐私段落数目一致;还可以保障目标脱敏文本与目标隐私段落中的隐私段落分布一致性,即确保了目标脱敏文本与待脱敏病患病历文本在对应分布区域中的隐私段落主题的一致性。
在一种可能的设计思路下,待脱敏病患病历文本包括第一待脱敏病患病历文本和第二待脱敏病患病历文本,其中第一待脱敏病患病历文本与病患病历脱敏文本之间的文本共性评分可以为第一文本共性评分score1v,第二待脱敏病患病历文本与病患病历脱敏文本之间的文本共性评分可以为第二文本共性评分score2v其中,v为大于或等于1、且小于或者等于病患病历脱敏文本个数的整数。
进一步地,上述目标脱敏文本的确定可包括如下内容。
STEP61,分别获取第一待脱敏病患病历文本和第二待脱敏病患病历文本的文本语义特征。
在一种可能的设计思路下,可以通过一些目标机器学习算法对第一待脱敏病患病历文本和第二待脱敏病患病历文本进行文本向量挖掘处理,以获取一个可表征第一待脱敏病患病历文本整体情况的文本语义特征、一个可表征第二待脱敏病患病历文本整体情况的文本语义特征。
其中,所述目标机器学习算法可以是深度学习模型DNN、残差网络等。
STEP62,基于第一待脱敏病患病历文本与第二待脱敏病患病历文本的文本语义特征,确定第一待脱敏病患病历文本与第二待脱敏病患病历文本之间的第二语义共性评分。
在一种可能的设计思路下,可以确定第一待脱敏病患病历文本的文本语义特征与第二待脱敏病患病历文本的文本语义特征之间的共性评分作为该第二语义共性评分。
其中,可以通过余弦相似度计算第一待脱敏病患病历文本的文本语义特征与第二待脱敏病患病历文本的文本语义特征之间的共性评分。
在一种可能的设计思路下,在获得第一待脱敏病患病历文本与第二待脱敏病患病历文本的语义共性评分之后,可以基于第一文本共性评分、第二文本共性评分以及第二语义共性评分,从病患病历脱敏文本中确定第一待脱敏病患病历文本的目标脱敏文本。
在一种可能的设计思路下,可以采用STEP63-STEP65所示方法,以便基于第一文本共性评分、第二文本共性评分以及第二语义共性评分,从病患病历脱敏文本中确定第一待脱敏病患病历文本的目标脱敏文本。
STEP63,基于第二文本共性评分和第二语义共性评分确定第二待脱敏病患病历文本对第一待脱敏病患病历文本的贡献信息。
在一种可能的设计思路下,可以将第二待脱敏病患病历文本与第一待脱敏病患病历文本的第二语义共性评分与第二待脱敏病患病历文本与病患病历脱敏文本的第二文本共性评分进行乘法运算或者相加,以确定第二待脱敏病患病历文本相对于第一待脱敏病患病历文本的贡献信息。
STEP64,基于第二待脱敏病患病历文本对第一待脱敏病患病历文本的贡献信息、第一文本共性评分,确定第一待脱敏病患病历文本与病患病历脱敏文本的相关性。
在一种可能的设计思路下,可以将第二待脱敏病患病历文本对第一待脱敏病患病历文本的贡献信息与第一待脱敏病患病历文本与病患病历脱敏文本的第一文本共性评分求和,以确定第一待脱敏病患病历文本与病患病历脱敏文本的相关性。
STEP65,基于第一待脱敏病患病历文本与病患病历脱敏文本的相关性,从病患病历脱敏文本中确定第一待脱敏病患病历文本的目标脱敏文本。
在一种可能的设计思路下,可以通过本发明实施例方法确定第一待脱敏病患病历文本与多个病患病历脱敏文本的相关性,然后从多个相关性中确定最大相关性对应的病患病历脱敏文本为第一待脱敏病患病历文本的目标脱敏文本。
其中,该第一待脱敏病患病历文本与病患病历脱敏文本的相关性,不仅引入了第一待脱敏病患病历文本与病患病历脱敏文本中的病患病历文本特征,还引入了第二待脱敏病患病历文本对第一待脱敏病患病历文本的共性程度影响。
在一种可能的设计思路下,当通过上述方法确定了待脱敏病患病历文本与各个病患病历脱敏文本的病患病历文本相关性之后,可以将病患病历文本相关性最大值对应的病患病历脱敏文本作为待脱敏病患病历文本的目标脱敏文本。
本发明实施例所提供的另一种结合人工智能的病患信息脱敏处理方法可包含如下内容。
STEP71,获取第一待脱敏病患病历文本、第二待脱敏病患病历文本和病患病历脱敏文本。
STEP72,获取第一待脱敏病患病历文本与病患病历脱敏文本之间的第一文本共性评分。
第一文本共性评分可以是第一待脱敏病患病历文本与病患病历脱敏文本之间的语义共性评分,也可以是基于第一待脱敏病患病历文本与病患病历脱敏文本之间的语义共性评分确定的其它与病患病历文本内容相关的共性评分,比如可以是基于第一待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分和语义共性评分确定的共性评分。
可通过如下方式确定第一待脱敏病患病历文本与病患病历脱敏文本之间的语义共性评分:确定第一待脱敏病患病历文本的文本语义特征和病患病历脱敏文本的文本语义特征;基于第一待脱敏病患病历文本的文本语义特征和病患病历脱敏文本的文本语义特征,确定第一待脱敏病患病历文本和病患病历脱敏文本的语义共性评分。
可通过如下方式确定第一待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分:从第一待脱敏病患病历文本中挖掘第一隐私段落文本,从病患病历脱敏文本中挖掘出第二隐私段落文本;基于第一隐私段落文本确定第一待脱敏病患病历文本中目标隐私段落的第一统计数据;基于第二隐私段落文本确定病患病历脱敏文本中目标隐私段落的第二统计数据;基于第一统计数据和第二统计数据,确定第一待脱敏病患病历文本和病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果;基于第一待脱敏病患病历文本和病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果,确定第一待脱敏病患病历文本与病患病历脱敏文本的隐私段落数目共性评分;基于第一待脱敏病患病历文本与病患病历脱敏文本的隐私段落数目共性评分,确定第一待脱敏病患病历文本和病患病历脱敏文本的隐私段落共性评分。
还可通过如下方式确定第一待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分:基于各个第一文本集中各个文本单元所属的第一隐私段落标识和各个第二文本集中各个文本单元所属的第二隐私段落标识,确定各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分;基于各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分,确定第一待脱敏病患病历文本与病患病历脱敏文本的隐私段落主题共性评分;基于第一待脱敏病患病历文本和病患病历脱敏文本的隐私段落主题共性评分,确定第一待脱敏病患病历文本与病患病历脱敏文本的隐私段落共性评分。
还可通过如下方式确定第一待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分:基于各个第一文本集中各个文本单元所属的第一隐私段落标识和各个第二文本集中各个文本单元所属的第二隐私段落标识,确定各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分;基于各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分,确定第一待脱敏病患病历文本与病患病历脱敏文本的隐私段落主题共性评分;基于第一统计数据和第二统计数据,确定第一待脱敏病患病历文本和病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果;基于第一待脱敏病患病历文本和病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果,确定第一待脱敏病患病历文本与病患病历脱敏文本的隐私段落数目共性评分;基于第一待脱敏病患病历文本与病患病历脱敏文本的隐私段落数目共性评分和隐私段落主题共性评分,确定第一待脱敏病患病历文本与病患病历脱敏文本的隐私段落共性评分。
STEP73,获取第二待脱敏病患病历文本与病患病历脱敏文本之间的第二文本共性评分。
第二文本共性评分可以是第二待脱敏病患病历文本与病患病历脱敏文本之间的语义共性评分,也可以是基于第二待脱敏病患病历文本与病患病历脱敏文本之间的语义共性评分确定的其它与病患病历文本内容相关的共性评分,比如可以是基于第二待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分和语义共性评分确定的共性评分。
第二待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分和语义共性评分确定方法与第一待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分和语义共性评分确定方法类似。
STEP74,分别获取第一待脱敏病患病历文本和第二待脱敏的文本语义特征。
STEP75,基于第一待脱敏病患病历文本、第二待脱敏的文本语义特征,确定第一待脱敏病患病历文本与第二待脱敏病患病历文本之间的第二语义共性评分。
STEP76,基于第一文本共性评分、第二文本共性评分以及第二语义共性评分,从病患病历脱敏文本中确定第一待脱敏病患病历文本的目标脱敏文本,以便基于目标脱敏文本对第一待脱敏病患病历文本进行隐私脱敏保护。
本发明实施例,不仅通过待脱敏病患病历文本与病患病历脱敏文本的文本语义特征确保了目标脱敏文本与待脱敏病患病历文本全局类似性;还通过待脱敏病患病历文本与病患病历脱敏文本之间的隐私段落共性评分确保了目标脱敏文本中的隐私段落与待脱敏病患病历文本中的隐私段落相似,即使得了目标脱敏文本与待脱敏病患病历文本中的隐私段落数目、隐私段落分布、隐私段落主题等相似。这样,本发明实施例不仅可以保障目标脱敏文本与待脱敏病患病历文本在整体层面的文本布局类似性,还可以保障目标脱敏文本与待脱敏病患病历文本中的隐私段落信息类似性,显著提升了目标脱敏文本与待脱敏病患病历文本之间的匹配性。
在一些可独立的设计思路下,在所述基于所述待脱敏病患病历文本和所述病患病历脱敏文本之间的文本共性评分,从所述病患病历脱敏文本中确定目标脱敏文本,以便基于所述目标脱敏文本对所述待脱敏病患病历文本进行隐私脱敏保护之后,所述方法还包括STEP18。
STEP18,响应于针对所述待脱敏病患病历文本的已脱敏病患病历文本的共享请求,对目标数字化医疗服务器进行风险检测,在所述目标数字化医疗服务器通过所述风险检测的基础上,将所述已脱敏病患病历文本共享给所述目标数字化医疗服务器。
可见,在共享已脱敏病患病历文本之前,还会对目标数字化医疗服务器进行针对性的风险检测,从而保障已脱敏病患病历文本共享的安全性。
在一些可独立的设计思路下,上述对目标数字化医疗服务器进行风险检测,包括如下内容。
STEP181,获取所述目标数字化医疗服务器的数据风险检测日志,将所述数据风险检测日志加载到风险评估策略,在所述风险评估策略中提取所述数据风险检测日志的风险检测描述向量。
其中,风险评估策略可以是用于进行风险识别的决策树模型。
STEP182,将所述风险检测描述向量分别输入至所述风险评估策略中的风险决策模块和状态推演模块中。所述风险决策模块包含偏向风险类别决策的第一执行配置数据,所述状态推演模块中包含偏向会话状态推演的第二执行配置数据。
其中,执行配置数据可以指导相关的模块进行特征处理。
STEP183,在所述风险决策模块中,通过所述第一执行配置数据对所述风险检测描述向量进行处理,得到类别决策向量关系网。
STEP184,在所述状态推演模块中,通过所述第二执行配置数据对所述风险检测描述向量进行处理,得到状态推演向量关系网。
STEP185,根据所述类别决策向量关系网和所述状态推演向量关系网确定所述目标数字化医疗服务器的风险检测指数;在所述风险检测指数不超过设定检测指数的基础上,判定所述目标数字化医疗服务器通过所述风险检测;否则,判定所述目标数字化医疗服务器没有通过所述风险检测。
在本发明实施例中,通过对类别决策向量关系网和状态推演向量关系网进行特征运算(比如加权处理),可以从风险类别和风险状态两个层面准确计算得到目标数字化医疗服务器的风险检测指数。从而基于风险检测指数进行准确的风险检测量化判断。
进一步地,还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的方法。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种结合人工智能的病患信息脱敏处理方法,其特征在于,应用于AI脱敏处理系统,所述方法包括:
获取待脱敏病患病历文本和病患病历脱敏文本;
获取所述待脱敏病患病历文本中的隐私段落解析结果和所述病患病历脱敏文本中的隐私段落解析结果;
基于所述待脱敏病患病历文本中的隐私段落解析结果和所述病患病历脱敏文本中的隐私段落解析结果,确定所述待脱敏病患病历文本和所述病患病历脱敏文本的隐私段落共性评分;
确定所述待脱敏病患病历文本的文本语义特征和所述病患病历脱敏文本的文本语义特征;
基于所述待脱敏病患病历文本的文本语义特征和所述病患病历脱敏文本的文本语义特征,确定所述待脱敏病患病历文本和所述病患病历脱敏文本的第一语义共性评分;
基于所述待脱敏病患病历文本和所述病患病历脱敏文本的隐私段落共性评分和所述第一语义共性评分,确定所述待脱敏病患病历文本和所述病患病历脱敏文本之间的文本共性评分;
基于所述待脱敏病患病历文本和所述病患病历脱敏文本之间的文本共性评分,从所述病患病历脱敏文本中确定目标脱敏文本,以便基于所述目标脱敏文本对所述待脱敏病患病历文本进行隐私脱敏保护。
2.如权利要求1所述方法,其特征在于,所述待脱敏病患病历文本中的隐私段落解析结果包括从所述待脱敏病患病历文本中挖掘的第一隐私段落文本,所述病患病历脱敏文本中的隐私段落解析结果包括从所述病患病历脱敏文本中挖掘的第二隐私段落文本;其中,基于所述待脱敏病患病历文本中的隐私段落解析结果和所述病患病历脱敏文本中的隐私段落解析结果,确定所述待脱敏病患病历文本和所述病患病历脱敏文本的隐私段落共性评分,包括:
基于所述第一隐私段落文本确定所述待脱敏病患病历文本中目标隐私段落的第一统计数据;
基于所述第二隐私段落文本确定所述病患病历脱敏文本中所述目标隐私段落的第二统计数据;
基于所述第一统计数据和所述第二统计数据,确定所述待脱敏病患病历文本和所述病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果;
基于所述待脱敏病患病历文本和所述病患病历脱敏文本中所述目标隐私段落的数目求和结果与数目求差结果,确定所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落数目共性评分;
基于所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落数目共性评分,确定所述待脱敏病患病历文本和所述病患病历脱敏文本的所述隐私段落共性评分。
3.如权利要求1所述方法,其特征在于,获取所述待脱敏病患病历文本中的隐私段落解析结果和所述病患病历脱敏文本中的隐私段落解析结果,包括:
对所述待脱敏病患病历文本和所述病患病历脱敏文本分别进行隐私段落挖掘处理,以确定所述待脱敏病患病历文本中包括的第一隐私段落文本和所述病患病历脱敏文本中包括的第二隐私段落文本;
基于所述第一隐私段落文本和所述第二隐私段落文本,确定所述待脱敏病患病历文本中各个文本单元所属的隐私段落标识和所述病患病历脱敏文本中各个文本单元所属的隐私段落标识;
将所述待脱敏病患病历文本拆解为X个第一文本集,并将所述病患病历脱敏文本拆解为X个第二文本集,所述X个第一文本集与所述X个第二文本集一一对应,X为不小于1的整数;
基于所述待脱敏病患病历文本中各个文本单元所属的隐私段落标识确定各个第一文本集中各个文本单元所属的第一隐私段落标识,作为所述待脱敏病患病历文本中的隐私段落解析结果;
基于所述病患病历脱敏文本中各个文本单元所属的隐私段落标识确定各个第二文本集中各个文本单元所属的第二隐私段落标识,作为所述病患病历脱敏文本中的隐私段落解析结果。
4.如权利要求3所述方法,其特征在于,基于所述待脱敏病患病历文本中的隐私段落解析结果和所述病患病历脱敏文本中的隐私段落解析结果,确定所述待脱敏病患病历文本和所述病患病历脱敏文本的隐私段落共性评分,包括:
基于各个第一文本集中各个文本单元所属的第一隐私段落标识和各个第二文本集中各个文本单元所属的第二隐私段落标识,确定各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分;
基于各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分,确定所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落主题共性评分;
基于所述待脱敏病患病历文本和所述病患病历脱敏文本的隐私段落主题共性评分,确定所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落共性评分。
5.如权利要求4所述方法,其特征在于,所述第一隐私段落标识包括第一目标隐私段落标识,所述第二隐私段落标识包括第二目标隐私段落标识,所述第一文本集包括第一目标文本集,所述第二文本集包括第二目标文本集,所述第一目标文本集与所述第二目标文本集对应,所述第一目标文本集中的文本单元属于所述第一目标隐私段落标识,所述第二目标文本集中的文本单元属于所述第二目标隐私段落标识;其中,确定各个第一文本集与对应的第二文本集之间的隐私段落标识共性评分,包括:
确定所述第一目标隐私段落标识与所述第二目标隐私段落标识的相同隐私段落标识数量;
确定所述第一目标隐私段落标识与所述第二目标隐私段落标识的隐私段落标识统计值;
基于第一目标隐私段落标识与所述第二目标隐私段落标识的相同隐私段落标识数量、以及所述第一目标隐私段落标识与所述第二目标隐私段落标识的隐私段落标识统计值确定所述第一目标文本集与所述第二目标文本集的隐私段落标识共性评分。
6.如权利要求4所述方法,其特征在于,所述第一隐私段落文本包括所述待脱敏病患病历文本中包括的目标隐私段落的第一统计数据,所述第二隐私段落文本包括所述待脱敏病患病历文本中包括的所述目标隐私段落的第二统计数据;其中,基于所述待脱敏病患病历文本和所述病患病历脱敏文本的隐私段落主题共性评分,确定所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落共性评分,包括:
基于所述第一统计数据和所述第二统计数据,确定所述待脱敏病患病历文本和所述病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果;
基于所述待脱敏病患病历文本和所述病患病历脱敏文本中目标隐私段落的数目求和结果与数目求差结果,确定所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落数目共性评分;
基于所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落数目共性评分和隐私段落主题共性评分,确定所述待脱敏病患病历文本与所述病患病历脱敏文本的隐私段落共性评分。
7.如权利要求1所述方法,其特征在于,所述待脱敏病患病历文本包括第一待脱敏病患病历文本和第二待脱敏病患病历文本,所述第一待脱敏病患病历文本与所述病患病历脱敏文本之间的文本共性评分为第一文本共性评分,所述第二待脱敏病患病历文本与所述病患病历脱敏文本之间的文本共性评分为第二文本共性评分;其中,基于所述待脱敏病患病历文本和所述病患病历脱敏文本之间的文本共性评分,从所述病患病历脱敏文本中确定目标脱敏文本,包括:
分别获取所述第一待脱敏病患病历文本和所述第二待脱敏病患病历文本的文本语义特征;
基于所述第一待脱敏病患病历文本与所述第二待脱敏病患病历文本的文本语义特征,确定所述第一待脱敏病患病历文本与所述第二待脱敏病患病历文本之间的第二语义共性评分;
基于所述第一文本共性评分、所述第二文本共性评分以及所述第二语义共性评分,从所述病患病历脱敏文本中确定所述第一待脱敏病患病历文本的目标脱敏文本。
8.如权利要求7所述方法,其特征在于,基于所述第一文本共性评分、所述第二文本共性评分以及所述第二语义共性评分,从所述病患病历脱敏文本中确定所述第一待脱敏病患病历文本的目标脱敏文本,包括:
基于所述第二文本共性评分和所述第二语义共性评分确定所述第二待脱敏病患病历文本对所述第一待脱敏病患病历文本的贡献信息;
基于所述第二待脱敏病患病历文本对所述第一待脱敏病患病历文本的贡献信息、以及所述第一文本共性评分,确定所述第一待脱敏病患病历文本与所述病患病历脱敏文本的相关性;
基于所述第一待脱敏病患病历文本与所述病患病历脱敏文本的相关性,从所述病患病历脱敏文本中确定所述第一待脱敏病患病历文本的目标脱敏文本;
其中,基于所述目标脱敏文本对所述待脱敏病患病历文本进行隐私脱敏保护,包括:
将所述目标脱敏文本与所述待脱敏病患病历文本进行文本匹配处理,以获得文本匹配结果;
结合所述文本匹配结果,通过所述目标脱敏文本对所述待脱敏病患病历文本进行隐私脱敏保护,以获得基础脱敏文本;
通过文本匿名算法对所述基础脱敏文本进行文本优化,以进行对所述待脱敏病患病历文本的隐私脱敏保护;
其中,在通过文本匿名算法对所述基础脱敏文本进行文本优化,以进行对所述待脱敏病患病历文本的隐私脱敏保护之前,还包括:
获取目标已匿名文本示例;
对所述目标已匿名文本示例进行隐私段落去匿名处理,以获得去匿名文本示例;
将所述去匿名文本示例加载到目标机器学习算法,以获得匿名预测文本;
确定所述匿名预测文本与所述目标已匿名文本示例之间的目标调试代价;
通过所述目标调试代价对所述目标机器学习算法的算法变量进行改进,以将所述目标机器学习算法调试为所述文本匿名算法。
9.一种AI脱敏处理系统,其特征在于,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时实现权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310328830.6A CN116305285B (zh) | 2023-03-30 | 2023-03-30 | 结合人工智能的病患信息脱敏处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310328830.6A CN116305285B (zh) | 2023-03-30 | 2023-03-30 | 结合人工智能的病患信息脱敏处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116305285A true CN116305285A (zh) | 2023-06-23 |
CN116305285B CN116305285B (zh) | 2024-04-05 |
Family
ID=86788565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310328830.6A Active CN116305285B (zh) | 2023-03-30 | 2023-03-30 | 结合人工智能的病患信息脱敏处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116305285B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216800A (zh) * | 2023-10-31 | 2023-12-12 | 中国人民解放军总医院 | 面向大批量病历数据的去隐私处理方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845265A (zh) * | 2016-12-01 | 2017-06-13 | 北京计算机技术及应用研究所 | 一种文档密级自动识别方法 |
CN108519983A (zh) * | 2018-02-05 | 2018-09-11 | 中国科学院信息工程研究所 | 一种基于潜层语义分析的安全的文档相似性计算方法和系统 |
CN110135189A (zh) * | 2019-04-28 | 2019-08-16 | 上海市第六人民医院 | 一种面向医疗文本的患者隐私信息脱敏方法 |
EP3528150A1 (en) * | 2018-02-14 | 2019-08-21 | OneSpan NV | A system, apparatus and method for privacy preserving contextual authentication |
CN110287314A (zh) * | 2019-05-20 | 2019-09-27 | 中国科学院计算技术研究所 | 基于无监督聚类的长文本可信度评估方法及系统 |
CN111209373A (zh) * | 2020-01-07 | 2020-05-29 | 北京启明星辰信息安全技术有限公司 | 基于自然语义的敏感文本识别方法和装置 |
CN112308048A (zh) * | 2020-12-03 | 2021-02-02 | 云知声智能科技股份有限公司 | 基于少量标注数据的病历完整性判别的方法、装置及系统 |
WO2021119175A1 (en) * | 2019-12-11 | 2021-06-17 | Servicenow, Inc. | Determining semantic content of textual clusters |
CN113811866A (zh) * | 2019-05-23 | 2021-12-17 | 国际商业机器公司 | 敏感数据管理 |
CN114580354A (zh) * | 2022-05-05 | 2022-06-03 | 阿里巴巴达摩院(杭州)科技有限公司 | 基于同义词的信息编码方法、装置、设备和存储介质 |
CN115688166A (zh) * | 2022-10-10 | 2023-02-03 | 北京肿瘤医院(北京大学肿瘤医院) | 信息脱敏处理方法、装置、计算机设备及可读存储介质 |
US20230061906A1 (en) * | 2021-08-09 | 2023-03-02 | Samsung Electronics Co., Ltd. | Dynamic question generation for information-gathering |
-
2023
- 2023-03-30 CN CN202310328830.6A patent/CN116305285B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845265A (zh) * | 2016-12-01 | 2017-06-13 | 北京计算机技术及应用研究所 | 一种文档密级自动识别方法 |
CN108519983A (zh) * | 2018-02-05 | 2018-09-11 | 中国科学院信息工程研究所 | 一种基于潜层语义分析的安全的文档相似性计算方法和系统 |
EP3528150A1 (en) * | 2018-02-14 | 2019-08-21 | OneSpan NV | A system, apparatus and method for privacy preserving contextual authentication |
CN110135189A (zh) * | 2019-04-28 | 2019-08-16 | 上海市第六人民医院 | 一种面向医疗文本的患者隐私信息脱敏方法 |
CN110287314A (zh) * | 2019-05-20 | 2019-09-27 | 中国科学院计算技术研究所 | 基于无监督聚类的长文本可信度评估方法及系统 |
CN113811866A (zh) * | 2019-05-23 | 2021-12-17 | 国际商业机器公司 | 敏感数据管理 |
WO2021119175A1 (en) * | 2019-12-11 | 2021-06-17 | Servicenow, Inc. | Determining semantic content of textual clusters |
CN111209373A (zh) * | 2020-01-07 | 2020-05-29 | 北京启明星辰信息安全技术有限公司 | 基于自然语义的敏感文本识别方法和装置 |
CN112308048A (zh) * | 2020-12-03 | 2021-02-02 | 云知声智能科技股份有限公司 | 基于少量标注数据的病历完整性判别的方法、装置及系统 |
US20230061906A1 (en) * | 2021-08-09 | 2023-03-02 | Samsung Electronics Co., Ltd. | Dynamic question generation for information-gathering |
CN114580354A (zh) * | 2022-05-05 | 2022-06-03 | 阿里巴巴达摩院(杭州)科技有限公司 | 基于同义词的信息编码方法、装置、设备和存储介质 |
CN115688166A (zh) * | 2022-10-10 | 2023-02-03 | 北京肿瘤医院(北京大学肿瘤医院) | 信息脱敏处理方法、装置、计算机设备及可读存储介质 |
Non-Patent Citations (3)
Title |
---|
MONTSERRAT BATET 等: "Semantic disclosure control:semantics meets data privacy", ONLINE INFORMATION REVIEW, vol. 42, no. 3, pages 1 - 14 * |
STEFANOS GRITZALIS 等: "现代电子医疗环境中加强隐私和数据保护技术指南", 电子制作, no. 13, pages 199 - 206 * |
刘刚 等: "基于风格特征融合的文档分割方法", 计算机应用与软件, vol. 37, no. 10, pages 200 - 207 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216800A (zh) * | 2023-10-31 | 2023-12-12 | 中国人民解放军总医院 | 面向大批量病历数据的去隐私处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116305285B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695033B (zh) | 企业舆情分析方法、装置、电子设备及介质 | |
CN116305285B (zh) | 结合人工智能的病患信息脱敏处理方法及系统 | |
US20150334198A1 (en) | Method for providing a set of services of a first subset of a social network to a user of a second subset of said social network | |
CN110474899B (zh) | 一种业务数据处理方法、装置、设备及介质 | |
CN118069803A (zh) | 知识库隐私保护方法、装置、终端设备以及存储介质 | |
CN112669187A (zh) | 身份识别方法、装置、电子设备及相关产品 | |
Rahman et al. | A survey of data mining techniques in the field of cyborg mining | |
CN110362668A (zh) | 针对用户问句的分类方法和装置 | |
CN114416929A (zh) | 实体召回模型的样本生成方法、装置、设备及存储介质 | |
CN117634506B (zh) | 一种目标语言模型的训练方法、装置和电子设备 | |
Henriksen-Bulmer et al. | Implementing GDPR in the charity sector: A case study | |
CN110929526B (zh) | 样本生成方法、装置以及电子设备 | |
CN112685551A (zh) | 语料库构建方法、聊天机器人会话方法及相关装置 | |
CN117633166A (zh) | 医疗语言模型训练方法、医疗问答方法及医疗对话系统 | |
WO2024020238A1 (en) | Method and system utilizing machine learning to develop and improve care models for patients in an electronic patient system | |
KR102472393B1 (ko) | 하이브리드 온라인 교육 정보 제공 시스템 및 그 방법 | |
CN113742495B (zh) | 基于预测模型的评级特征权重确定方法及装置、电子设备 | |
CN110162614B (zh) | 问题信息提取方法、装置、电子设备和存储介质 | |
CN110688469B (zh) | 一种自动分析相似行为特征的方法和装置 | |
RU2745362C1 (ru) | Система и способ формирования индивидуального содержимого для пользователя сервиса | |
EP3751500B1 (en) | System and method for technology recommendations | |
Thanganadar et al. | 6G Wireless Communication Cyber Physical System Based Smart Healthcare Using Quantum Optimization with Machine Learning | |
CN118051949B (zh) | 基于ai的平台内容安全巡检方法、装置及存储介质 | |
CN113486056B (zh) | 基于知识图谱的学习情况获取方法、装置及相关设备 | |
CN115006841B (zh) | 一种基于云游戏的场景渲染互动方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |