CN115424741B - 基于因果发现的药物不良反应信号发现方法及系统 - Google Patents
基于因果发现的药物不良反应信号发现方法及系统 Download PDFInfo
- Publication number
- CN115424741B CN115424741B CN202211361950.8A CN202211361950A CN115424741B CN 115424741 B CN115424741 B CN 115424741B CN 202211361950 A CN202211361950 A CN 202211361950A CN 115424741 B CN115424741 B CN 115424741B
- Authority
- CN
- China
- Prior art keywords
- adverse
- node
- event
- causal
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 title claims abstract description 51
- 206010061623 Adverse drug reaction Diseases 0.000 title claims abstract description 40
- 230000000694 effects Effects 0.000 title claims abstract description 18
- 230000001364 causal effect Effects 0.000 claims abstract description 50
- 239000003814 drug Substances 0.000 claims abstract description 48
- 229940079593 drug Drugs 0.000 claims abstract description 42
- 206010067484 Adverse reaction Diseases 0.000 claims abstract description 29
- 230000006838 adverse reaction Effects 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000002474 experimental method Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000003745 diagnosis Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000009533 lab test Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 5
- 239000003550 marker Substances 0.000 claims description 5
- 238000010276 construction Methods 0.000 abstract description 5
- 239000000523 sample Substances 0.000 description 14
- 238000012360 testing method Methods 0.000 description 6
- BCEHBSKCWLPMDN-MGPLVRAMSA-N voriconazole Chemical compound C1([C@H](C)[C@](O)(CN2N=CN=C2)C=2C(=CC(F)=CC=2)F)=NC=NC=C1F BCEHBSKCWLPMDN-MGPLVRAMSA-N 0.000 description 6
- 229960004740 voriconazole Drugs 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000002411 adverse Effects 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 230000003908 liver function Effects 0.000 description 4
- 230000002269 spontaneous effect Effects 0.000 description 4
- 206010020751 Hypersensitivity Diseases 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 3
- 208000026935 allergic disease Diseases 0.000 description 3
- 230000007815 allergy Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000004185 liver Anatomy 0.000 description 3
- 238000002054 transplantation Methods 0.000 description 3
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 description 2
- 108010082126 Alanine transaminase Proteins 0.000 description 2
- 206010019851 Hepatotoxicity Diseases 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 231100000304 hepatotoxicity Toxicity 0.000 description 2
- 230000007686 hepatotoxicity Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 101150050759 outI gene Proteins 0.000 description 2
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 1
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 1
- 208000020084 Bone disease Diseases 0.000 description 1
- 208000008964 Chemical and Drug Induced Liver Injury Diseases 0.000 description 1
- 206010072268 Drug-induced liver injury Diseases 0.000 description 1
- 108020004206 Gamma-glutamyltransferase Proteins 0.000 description 1
- 238000008050 Total Bilirubin Reagent Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 102000006640 gamma-Glutamyltransferase Human genes 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 229940043263 traditional drug Drugs 0.000 description 1
- 230000010415 tropism Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Toxicology (AREA)
- Pharmacology & Pharmacy (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于因果发现的药物不良反应信号发现方法及系统。本发明利用电子病历数据发现药物不良反应信号的过程中引入因果关系,最大化的保留真实世界电子病历数据中的数据维度,构建包含因果效应的贝叶斯网络结构,以及同时对用药干预和不良事件发生产生作用的混杂因素集。混杂因素集构建方法从数据出发,无需人工接入和先验知识,最大程度保留真实世界中存在的混杂因素,基于这些混杂因素构建用药干预组与对照组,模拟随机对照实验,使得组间不良反应发生情况的对比具有因果意义,进而生成具有因果关系的药物不良反应信号,在临床指导中具有重要价值。
Description
技术领域
本发明属于医疗信息技术领域,尤其涉及一种基于因果发现的药物不良反应信号发现方法及系统。
背景技术
药物不良反应 (Adverse drug reactions,ADR) 可以定义为“与使用药物相关的干预措施导致的明显有害或令人不快的反应”。该定义包括由于错误、误用或滥用而发生的反应,对未经许可或在标签外使用的药物的可疑反应,以及正常剂量的药品的使用产生的反应。在过去的半个世纪里,检测潜在ADR的主要手段是自发报告系统,它们在世界范围内被广泛应用,并在不良事件罕见且不常见(少于接受治疗的患者的 1%)以及该事件是典型的药物诱发病症时非常有效,但自发报告系统依然存在漏报、选择性报告、重复报告等情况。
目前我国已经基本建立了药物不良反应监测体系。授权公告号为CN104765947B的发明专利《一种面向大数据的潜在药物不良反应数据挖掘方法》和授权公告号为CN111402971B的发明专利《一种基于大数据的药物不良反应快速识别方法及系统》都公开了基于自发报告的药物不良事件大数据挖掘潜在药物不良反应的方法。随着医疗信息化水平的不断发展,越来越多的数据被积累在电子病历等医疗信息系统当中,这些数据将为基于自发报告系统的药物不良反应发现带来新的补充证据。基于电子病历数据的ADR挖掘方法根据基本原理可以分为以下几类:基于比值失衡的方法、传统药物流行病学设计方法、处方序列对称分析、序贯统计检验、时序关联规则、有监督机器学习和树状扫描统计量等。授权公告号为CN110322944B的发明专利《药物不良反应智能检测方法、装置、系统和计算机装备》公开了一种利用多来源动态患者诊疗数据进行ADR发现的方法,以明确的药物不良反应发生规则作为推理依据,重点在于面向患者个体的药物不良反应发生判定。
真实世界中的临床场景较临床试验更为复杂,医生根据医学知识和经验给药,比如经常根据患者特征存在个性化给药的情况,因而药物在临床过程中产生的作用往往会与上市前的临床试验体现出不同的特征。无论是基于药物不良反应自发报告系统的数据还是基于电子病历数据,现有的药物不良反应发现方法主要可以分为两类:一类是基于已经确定的药物和不良反应相关知识进行显式的推理和判断;一类是基于数据分析或数据挖掘的方法。前者只是对现有知识进行临床应用,而后者只能在一定程度上发现药物和不良反应之间的相关性,相关性并不意味着存在因果关系,这会大大降低发现的潜在信号成为新的临床证据的可能性。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于因果发现的药物不良反应信号发现方法及系统。本发明利用电子病历数据发现药物不良反应信号的过程中引入因果关系,最大化的保留真实世界电子病历数据中的数据维度,构建包含因果效应的贝叶斯网络结构,以及同时对用药干预和不良事件发生产生作用的混杂因素集,并基于该混杂因素集构建用药干预组与对照组,模拟随机对照实验,使得组间不良反应发生情况的对比具有因果意义,进而生成具有因果关系的药物不良反应信号。
本发明的目的是通过以下技术方案来实现的:
根据本说明书的第一方面,提供一种基于因果发现的药物不良反应信号发现方法,该方法包括以下步骤:
采集并清洗真实世界电子病历数据;
选定目标药物和不良事件,将使用目标药物记为索引事件,将出现目标不良事件记为标志事件,根据发生索引事件或标志事件的患者人群构建患者队列;
通过构建含有因果特性的贝叶斯网络,生成同时影响药物干预与不良反应发生的混杂因素集;
基于混杂因素集构建干预组和对照组队列,模拟随机对照实验,评价干预组和对照组之间不良反应发生差异,生成具有因果关系的药物不良反应信号。
进一步地,所述目标药物为单一药物,或者具有相同疗效的一类药物,或者具备相同性质的一类药物;
所述不良事件使用诊断,或者一类特定的实验室检验结果,或者同时使用诊断和一类特定的实验室检验结果来定义。
进一步地,将发生索引事件或标志事件的患者人群定义为入组人群,定义入排标准筛选所述入组人群,筛选后的入组人群构成患者队列,患者队列中的患者数据构成入组患者数据集。
进一步地,所述混杂因素集的生成方法包括:
通过单因素逻辑回归方法,保留对索引事件或对标志事件的发生会产生影响的特征,形成初筛后特征集;
将初筛后特征集中的特征作为贝叶斯网络的节点,根据K2算法从入组患者数据集
中学习到一个贝叶斯网络结构,在贝叶斯网络结构学习过程中引入因果关系,经过多轮迭
代得到每个节点的父节点集合,将特征和共同的父节点认为是同时对索引
事件和标志事件是否发生产生作用的因素,生成混杂因素集。
进一步地,对K2算法的节点优先次序进行优化,具体为:采用带有惩罚项的互信息计算公式计算初筛后特征集中特征的信息量,将所有特征按照信息量进行降序排序,按排序分配节点优先度。
进一步地,对K2算法的每个节点的最大父节点个数进行优化,具体为:计算初筛后特征集中每个特征与其他所有特征互信息和平均互信息,每个特征与其他特征的互信息值大于平均互信息值的次数记为该特征对应节点的最大父节点个数。
进一步地,对于贝叶斯网络中的每个节点,初始化时父节点集合为空集,计
算网络评分,其中为评分函数,然后进入搜索节点的父节点的循
环;循环内,当集合中节点的个数小于最大父节点个数时,将满足节点优先次序在之
前且不在内的节点作为候选节点,在候选节点中选择网络评分最大的节
点z,将其网络评分记为,若,将的值赋给,并
令,进入下一轮迭代,直到的时候停止循环,从而得到
每个节点的父节点集合。
其中,为集合中的节点个数,为的所有可能取值的个数,为中所有节点的可能取值的个数;代表入组患者数据集D中特征取第k种取值的
数据实例数量;代表入组患者数据集D中特征取第k种取值并且的特征取第 j
种取值的数据实例数量,为的特征取第 j种取值的数据实例数量;为时间因果效
应强度。
进一步地,将索引事件是否发生作为干预,将标志事件是否发生作为结局,根据混杂因素集,采用倾向性评分匹配方法控制进入干预组和对照组的入组人群,对比两组人群间结局事件发生情况,当平均不良反应发生增益大于零时,认为当前干预和结局之间有因果关系,即当前选定药物会引发不良反应。
根据本说明书的第二方面,提供一种基于因果发现的药物不良反应信号发现系统,该系统包括:用于采集并清洗真实世界电子病历数据的数据采集模块;用于发现具有因果关系的药物不良反应信号的药物不良反应发现模块;用于呈现信号发现结果的信号结果显示模块;所述药物不良反应发现模块利用上述基于因果发现的药物不良反应信号发现方法,构建患者队列,构建含有因果特性的贝叶斯网络,生成混杂因素集,基于混杂因素集构建干预组和对照组,评价干预组和对照组之间不良反应发生差异,生成具有因果关系的药物不良反应信号。
本发明的有益效果是:本发明提出的基于贝叶斯网络的混杂因素集构建方法从数据出发,无需人工接入和先验知识,最大程度保留真实世界中存在的混杂因素,基于这些混杂因素来构建观察性研究中的对照组和干预组入组人群,以此得到的药物-不良反应之间的关系可以被认为是具备因果效应的,在临床指导中是更加有价值的。
附图说明
图1为一示例性实施例提供的基于因果发现的药物不良反应信号发现方法流程图;
图2为一示例性实施例提供的包括3维特征的贝叶斯网络结构示意图;
图3为一示例性实施例提供的贝叶斯网络学习流程图;
图4为一示例性实施例提供的基于因果发现的药物不良反应信号发现系统结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
如图1所示,本发明实施例提供一种基于因果发现的药物不良反应信号发现方法,包括以下步骤:
步骤1:数据采集和清洗
在电子病历数据中获取真实世界患者数据、用药数据、诊断数据、手术数据、实验室检验结果等,数据发生时间不做处理,保留原始日期和时间,具体来说获取的信息包括:①人口统计学信息:性别、年龄、民族;②医疗基本信息:过敏史、家族病史、血型;③诊疗信息:诊断记录、化验结果、用药记录、手术记录。
首先统一数据编码:性别、年龄、民族、过敏史、血型、化验结果、用药信息使用编码为自设编码,编码形式不限,诊断、家族病史使用ICD-10编码,手术信息使用ICD-9-CM编码。
统一数据编码后对数据进行规整合并和转化:性别、民族、过敏史、血型数据根据自然情况填充为分类变量数据;诊断相关特征、手术信息根据编码填充为二分类变量,即发生过记为1,反之为0;化验结果根据实际情况填充为多分类变量,即超过相应指标正常值上限的记为“偏高”,低于正常值下限的记为“偏低”,在正常值范围内的记为“正常”;对年龄数据进行分箱,分为4组,分别为“小于18岁”、“18至44岁”、“45岁至59岁”以及“60岁以上”。对于缺失数据,性别、民族、年龄、血型缺失的情况下,剔除整个样本;诊断相关数据、手术信息缺失视作未发生,记为0;化验结果数据缺失视作结果正常。
综上,将采集到的电子病历数据清洗转化成后续可以用于药物不良反应发现的形式。
步骤2:构建患者队列
首先选定要分析的目标药物和不良事件。例如,选定目标药物为“伏立康唑”,不良事件为“肝毒性”。
目标药物可以是单一药物也可以是具有相同疗效或具备相同性质的一类药物,当选定一类药物为目标药物后,选定的多种药物视作同种药物。
不良事件可以使用诊断或一类特定的实验室检验结果或同时使用诊断和一类特定的实验室检验结果来定义。例如,“肝毒性”的定义可以根据临床实际或临床指南,使用诊断“药物性肝损伤”或者以下由诊断与实验室检验结果组成的复合规则来定义:
谷丙转氨酶 ≥ 5 × 正常值上限(ULN);
谷丙转氨酶 ≥ 3 × ULN伴 总胆红素 >2 × ULN;
碱性磷酸酶 ≥ 2 × ULN,不伴骨病且有谷氨酰转肽酶升高;
满足上述规则其中一条,即可认为发生目标不良事件。
本发明中,将首次使用目标药物和首次使用目标药物后首次出现目标不良事件定义为主要事件发生节点,首次使用目标药物的日期记为索引日期,使用目标药物记为索引事件;首次出现目标不良事件记为标志事件,相应日期记为标志日期。发生索引事件或标志事件的患者人群定义为入组人群,在此基础上可进一步定义一系列具体的入排标准(排除标准),用于进一步筛选入组人群,也可以不定义。筛选后的入组人群构成患者队列,患者队列中的患者数据记为入组患者数据集。
步骤3:基于因果发现的药物不良反应信号发现
3.1基于贝叶斯网络的混杂因素集构建
定义入组患者数据集为,包含n个特征,
其中为表示索引事件是否发生的特征,为表示标志事件是否发生的特征,为入组患者从电子病历数据中提取出来的其他特征。特征的值被存储在特征
集Va中,特征发生的时间被存储在时间集T中。构建混杂因素集的步骤如下(若无特别说明,
以下步骤中所属特征X的值均取自Va):
1)特征相关性初筛。将分别与和进行单因素逻辑回
归,剔除与和对应的显著性水平均大于设定阈值的特征,保留下来的特征
均为对索引事件或对标志事件的发生会产生影响的特征,新的特征集包含个特征,记为
初筛后特征集。
2)特征信息量计算。计算初筛后特征集S中个特征的信息量,采用带有惩罚项的
互信息计算公式完成,强调与之间的关系,同时弱化中特征之间的相互关系。设为集合去掉特征后剩余
特征的集合,则特征 的信息量计算公式如下:
3)贝叶斯网络结构学习。本发明将因果特性引入混杂因素筛选的过程,改进传统的K2算法从入组患者数据集中学习到一个贝叶斯网络结构,尽可能精准的表示数据集中各特征之间的关系。K2算法是一种基于评分的贝叶斯网络结构学习算法,为缩小搜索空间,需要向算法提供先验的节点优先次序以及每个节点的最大父节点个数。本发明根据入组患者数据集的特点,对上述两个关键参数的确定过程提出改进,具体如下。
首先,优化的节点优先次序计算。将所有特征按照上一步骤中的特征信息量进行
降序排序,排名第一的特征分配节点优先度1,排名第二的特征分配节点优先度2,以此类
推。若多个特征信息量相等,记为并列,分配的节点优先度相同。若m个节点优先度相同时,
分别计算这些特征与之间的互信息之和,即
最后,贝叶斯网络结构的学习。在贝叶斯网络结构的学习过程中,本发明引入了因
果关系的必备性质之一,即“因”的发生在“果”之前。所以,本发明要学习到的网络是一个
维贝叶斯网络,记为,其中,是维特征向量;是一个有向无环图,是有向无环图的节点,是有向无环图的边,代表特征之
间的依赖关系是网络的参数,其中,代表在图G中所有父节点的集合,代表中所
有节点的可能取值,为的所有可能取值的个数,是特征的第k种取值,是的
第j种取值,就是在特征所有父节点取值为的条件下,取值为的概率。
通过一个示例来解释的含义,图2为一个贝叶斯网络
结构示意,共包含3维特征,即。令特征,对于“肝功能异常”节点,它具有“肝移植术后”和“伏立康唑”两个父节
点,即。父节点可能的取值包含4种状况,即“非肝移植术后、
未服用伏立康唑” “肝移植术后、非服用伏立康唑” “非肝移植术后、服用伏立康唑”和“肝
移植术后、服用伏立康唑”,对应的数据可表示为有4种取值,,;“肝功能异常”节点本身具有2种可能性,即
“肝功能正常”“肝功能异常”,对应的数据表示为有2种取值:0和1,。
如图3所示,对N中的每一个节点,初始化时设它的父节点集合为空集,计算
集合的网络评分,然后进入搜索节点的父节点的循环。循
环内,当集合中节点的个数小于最大父节点个数时,对满足节点优先次序在之前且
不在内的节点z,计算,取的节点z,比较与的大小,若,将的值赋给,并令,进入下一轮迭代,直到的时候停止循环,
从而得到每个节点的父节点集合。
上述计算过程中的评分函数采用改进的带有惩罚项的贝叶斯信息标准
评分。由于本发明前序优化估计的最大父节点个数可能大于实际父节点个数,这会为网络
带来多余的因果关系,因此本发明使用的评分函数按以下公式计算:
其中,为集合中的节点个数,代表数据集D中特征取第k种取值的数据实例数量代表数据集D中特征取第k种取值并且的特征取第 j种取
值的数据实例数量,为的特征取第 j种取值的数据实例数量;代
表中所有节点的可能取值的个数;为时间因果效应强度,它的大小反应了“因”发生在
“果”之前这一因果效应的强弱,对中的每一个特征s,计算发生时间的实例比
例,当这一比例大于设定阈值(本实施例中)时,记,反之。的计算方
法为:
3.2基于倾向性评分匹配的药物-不良反应信号因果关系评估
倾向性评分匹配是临床观察性研究中经常使用的一种控制混杂偏移的技巧,是具
有特定特征的个体被分配去干预组(相对于对照组)的可能性,即,其中,Z为干预,所有干预组数据Z=1,对照组数据Z=0,X为给定
条件。真实世界观察性研究中,倾向性评分匹配的方法可以使构建的干预组与对照组队列
样本的混淆因素被良好的控制,从而达到模拟随机对照实验的目的,得到具有因果关系的
临床结论。
本发明中我们认为索引事件是否发生为干预Z,标志事件是否发生为结局Y。根据基于贝叶斯网络构建的混杂因素集,采用倾向性评分匹配的方法控制进入干预组和对照组的入组人群,对比两组人群间结局事件发生的情况,即可以得到具有因果效应的药物-不良反应信号结果,具体方法如下:
第三,基于患者相似性的分层倾向性评分匹配。将干预组倾向性评分降序排序,以 为间隔分为个倾向性评分区间。对照组按相同方法分为若干倾向性评分
区间。对每一个干预组中的样本case,在对照组样本对应倾向性评分区间中选择与case本
身距离最小的样本作为匹配,即选择与case样本对应的患者最相似的患者样本作为匹配,
由匹配得到的样本,重新组成对照组样本。假设干预组/对照组混杂因素数据集包含c个混
杂因素特征,样本i和j之间的距离采用如下距离计算公式:
其中,如果样本i或j没有第f个特征的度量值,则指示项(本发明在数据清
洗的过程中完成数据填补,故不存在上述情况);否则,指示项。为第f个特征对i
和j之间的相异度的贡献。对于二分类特征,只有两种状态,且两种状态具有同等价值和相
同的权重。当样本i和样本j的对应二分类特征值相同时,被置为0;反之被置为1。对
于多分类特征,是二元特征的推广,可以取多于两个状态值。类似于二元特征,本发明定义,
当样本i和样本j的第f个属性特征值相同时,被置为0;反之被置为1。
第四,计算平均不良反应发生增益ASG,计算公式如下:
其中,E表示求期望,和分别代表对照组和干预组中患者人数,对于患者i,
表示标志事件发生情况,当发生标志事件时,,反之。本实施例中,所
以ASG的计算结果即为干预组中发生标志事件(不良反应)的患者人数减去对照组中发生标
志事件(不良反应)的患者人数,再除以干预组人数。当ASG>0时,认为当前干预和结局之间
有因果关系,即当前选定药物会引发不良反应。
如图4所示,本发明还提供一种基于因果发现的药物不良反应信号发现系统实施例,该系统包括:
用于采集并清洗真实世界电子病历数据的数据采集模块;
用于发现具有因果关系的药物不良反应信号的药物不良反应发现模块;
用于呈现信号发现结果的信号结果显示模块;
其中,药物不良反应发现模块为本发明核心模块,利用上述基于因果发现的药物不良反应信号发现方法,构建患者队列,构建含有因果特性的贝叶斯网络,生成混杂因素集,基于混杂因素集构建干预组和对照组,评价干预组和对照组之间不良反应发生差异,生成具有因果关系的药物不良反应信号。
本发明不局限于已经存在的药物-不良反应关系,利用真实世界电子病历数据发现药物-不良反应信号,可以识别在临床试验阶段没有表现出来的药物不良反应,对临床活动安全开展具有重要意义。
本发明不局限于发现药物-不良反应之间的相关性关系,通过将因果特性引入贝叶斯网络构建过程,生成最全面的混杂因素集,并通过控制这些混杂因素达到模拟随机对照试验的效果,实现对药物-不良反应因果关系的评估和验证。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
Claims (7)
1.一种基于因果发现的药物不良反应信号发现方法,其特征在于,包括以下步骤:
采集并清洗真实世界电子病历数据;
选定目标药物和不良事件,将使用目标药物记为索引事件,将出现目标不良事件记为标志事件,根据发生索引事件或标志事件的患者人群构建患者队列;
通过构建含有因果特性的贝叶斯网络,生成同时影响药物干预与不良反应发生的混杂因素集;所述混杂因素集的生成方法包括:
通过单因素逻辑回归方法,保留对索引事件或对标志事件的发生会产生影响的特征,形成初筛后特征集;
将初筛后特征集中的特征作为贝叶斯网络的节点,根据K2算法从入组患者数据集中学习到一个贝叶斯网络结构,在贝叶斯网络结构学习过程中引入因果关系,经过多轮迭代得到每个节点的父节点集合,将特征和共同的父节点认为是同时对索引事件和标志事件是否发生产生作用的因素,生成混杂因素集;
对K2算法的节点优先次序进行优化,具体为:采用带有惩罚项的互信息计算公式计算初筛后特征集中特征的信息量,将所有特征按照信息量进行降序排序,按排序分配节点优先度;
对K2算法的每个节点的最大父节点个数进行优化,具体为:计算初筛后特征集中每个特征与其他所有特征互信息和平均互信息,每个特征与其他特征的互信息值大于平均互信息值的次数记为该特征对应节点的最大父节点个数;
基于混杂因素集构建干预组和对照组队列,模拟随机对照实验,评价干预组和对照组之间不良反应发生差异,生成具有因果关系的药物不良反应信号。
2.根据权利要求1所述的基于因果发现的药物不良反应信号发现方法,其特征在于,所述目标药物为单一药物,或者具有相同疗效的一类药物,或者具备相同性质的一类药物;
所述不良事件使用诊断,或者一类特定的实验室检验结果,或者同时使用诊断和一类特定的实验室检验结果来定义。
3.根据权利要求1所述的基于因果发现的药物不良反应信号发现方法,其特征在于,将发生索引事件或标志事件的患者人群定义为入组人群,定义入排标准筛选所述入组人群,筛选后的入组人群构成患者队列,患者队列中的患者数据构成入组患者数据集。
6.根据权利要求1所述的基于因果发现的药物不良反应信号发现方法,其特征在于,将索引事件是否发生作为干预,将标志事件是否发生作为结局,根据混杂因素集,采用倾向性评分匹配方法控制进入干预组和对照组的入组人群,对比两组人群间结局事件发生情况,当平均不良反应发生增益大于零时,认为当前干预和结局之间有因果关系,即当前选定药物会引发不良反应。
7.一种基于因果发现的药物不良反应信号发现系统,其特征在于,该系统包括:用于采集并清洗真实世界电子病历数据的数据采集模块;用于发现具有因果关系的药物不良反应信号的药物不良反应发现模块;用于呈现信号发现结果的信号结果显示模块;所述药物不良反应发现模块利用权利要求1-6中任一项所述方法,构建患者队列,构建含有因果特性的贝叶斯网络,生成混杂因素集,基于混杂因素集构建干预组和对照组,评价干预组和对照组之间不良反应发生差异,生成具有因果关系的药物不良反应信号。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211361950.8A CN115424741B (zh) | 2022-11-02 | 2022-11-02 | 基于因果发现的药物不良反应信号发现方法及系统 |
US18/364,470 US20240145059A1 (en) | 2022-11-02 | 2023-08-02 | Method and system for discovering adverse drug reaction signal based on causal discovery |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211361950.8A CN115424741B (zh) | 2022-11-02 | 2022-11-02 | 基于因果发现的药物不良反应信号发现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115424741A CN115424741A (zh) | 2022-12-02 |
CN115424741B true CN115424741B (zh) | 2023-03-24 |
Family
ID=84207511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211361950.8A Active CN115424741B (zh) | 2022-11-02 | 2022-11-02 | 基于因果发现的药物不良反应信号发现方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240145059A1 (zh) |
CN (1) | CN115424741B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690547A (zh) * | 2023-12-19 | 2024-03-12 | 北京遥领医疗科技有限公司 | 基于药物真实世界疗效多维度逆向挖掘数据的方法 |
CN118366672A (zh) * | 2024-04-23 | 2024-07-19 | 首都医科大学附属北京天坛医院 | 用于真实世界研究数据的混杂偏倚与缺失处理集成平台 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480895A (zh) * | 2017-08-19 | 2017-12-15 | 中国标准化研究院 | 一种基于Bayes增强学习的可靠消费品风险评估方法 |
CN111986819A (zh) * | 2020-09-01 | 2020-11-24 | 四川大学华西第二医院 | 药物不良反应监测方法、装置、电子设备及可读存储介质 |
CN112309585A (zh) * | 2020-08-26 | 2021-02-02 | 国家药品监督管理局药品评价中心(国家药品不良反应监测中心) | 一种不良反应信号检测方法和装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003290537A1 (en) * | 2002-10-24 | 2004-05-13 | Duke University | Binary prediction tree modeling with many predictors and its uses in clinical and genomic applications |
WO2006047491A2 (en) * | 2004-10-25 | 2006-05-04 | Prosanos Corporation | Method, system, and software for analyzing pharmacovigilance data |
CN102207990A (zh) * | 2010-03-31 | 2011-10-05 | 国际商业机器公司 | 提供药品不良作用信息的方法和装置 |
US20130226616A1 (en) * | 2011-10-13 | 2013-08-29 | The Board of Trustees for the Leland Stanford, Junior, University | Method and System for Examining Practice-based Evidence |
US20130096947A1 (en) * | 2011-10-13 | 2013-04-18 | The Board of Trustees of the Leland Stanford Junior, University | Method and System for Ontology Based Analytics |
US9305267B2 (en) * | 2012-01-10 | 2016-04-05 | The Board Of Trustees Of The Leland Stanford Junior University | Signal detection algorithms to identify drug effects and drug interactions |
EP2852839A4 (en) * | 2012-05-22 | 2016-05-11 | Berg Llc | INTERROGATORY CELL-BASED TESTS FOR IDENTIFYING MARKERS FOR DRUG-INDICATED TOXICITY |
NZ730197A (en) * | 2014-09-11 | 2022-07-01 | Berg Llc | Bayesian causal relationship network models for healthcare diagnosis and treatment based on patient data |
US11120913B2 (en) * | 2018-01-24 | 2021-09-14 | International Business Machines Corporation | Evaluating drug-adverse event causality based on an integration of heterogeneous drug safety causality models |
US11164678B2 (en) * | 2018-03-06 | 2021-11-02 | International Business Machines Corporation | Finding precise causal multi-drug-drug interactions for adverse drug reaction analysis |
WO2020102043A1 (en) * | 2018-11-15 | 2020-05-22 | Ampel Biosolutions, Llc | Machine learning disease prediction and treatment prioritization |
CN111863281B (zh) * | 2020-07-29 | 2021-08-06 | 山东大学 | 一种个性化药物不良反应预测系统、设备及介质 |
CN114822872A (zh) * | 2022-04-14 | 2022-07-29 | 北京左医科技有限公司 | 风险信号识别模型的训练、药物风险信号挖掘方法、装置 |
CN115148375B (zh) * | 2022-08-31 | 2022-11-15 | 之江实验室 | 一种高通量真实世界药物有效性与安全性评价方法及系统 |
-
2022
- 2022-11-02 CN CN202211361950.8A patent/CN115424741B/zh active Active
-
2023
- 2023-08-02 US US18/364,470 patent/US20240145059A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480895A (zh) * | 2017-08-19 | 2017-12-15 | 中国标准化研究院 | 一种基于Bayes增强学习的可靠消费品风险评估方法 |
CN112309585A (zh) * | 2020-08-26 | 2021-02-02 | 国家药品监督管理局药品评价中心(国家药品不良反应监测中心) | 一种不良反应信号检测方法和装置 |
CN111986819A (zh) * | 2020-09-01 | 2020-11-24 | 四川大学华西第二医院 | 药物不良反应监测方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115424741A (zh) | 2022-12-02 |
US20240145059A1 (en) | 2024-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tripathi et al. | Early prediction of diabetes mellitus using machine learning | |
Wiens et al. | Patient risk stratification with time-varying parameters: a multitask learning approach | |
CN115424741B (zh) | 基于因果发现的药物不良反应信号发现方法及系统 | |
Pokharel et al. | Temporal tree representation for similarity computation between medical patients | |
Mortazavi et al. | Prediction of adverse events in patients undergoing major cardiovascular procedures | |
CN113657548A (zh) | 医保异常检测方法、装置、计算机设备及存储介质 | |
Pang et al. | ZERO++: Harnessing the power of zero appearances to detect anomalies in large-scale data sets | |
Pishgar et al. | Process mining model to predict mortality in paralytic ileus patients | |
Zhang et al. | Time-aware adversarial networks for adapting disease progression modeling | |
Paul | Hybrid decision tree-based machine learning models for diabetes prediction | |
CN117438090A (zh) | 一种药源性免疫性血小板减少毒性预测模型、方法及系统 | |
Khater et al. | Interpretable models for ml-based classification of obesity | |
Gancheva et al. | X-Ray Images Analytics Algorithm based on Machine Learning | |
Jonathan et al. | Visual analytics of tuberculosis detection rat performance | |
Johnson | Mortality prediction and acuity assessment in critical care | |
Cheng et al. | Improving personalized clinical risk prediction based on causality-based association rules | |
Oliveira et al. | Towards an intelligent systems to predict nosocomial infections in intensive care | |
Al-Hameli et al. | Classification Algorithms and Feature Selection Techniques for a Hybrid Diabetes Detection System | |
US20240321465A1 (en) | Machine Learning Platform for Predictive Malady Treatment | |
Jacobson et al. | A Machine Learning-Based Statistical Analysis of Predictors for Spinal Cord Stimulation Success | |
Biddinika et al. | Machine Learning Techniques for Heart Disease Prediction Using a Multi-Algorithm Approach | |
Banu et al. | CHRONIC DISEASE DIAGNOSIS USING MACHINE LEARNING ALGORITHM | |
CN118711731A (zh) | 基于ai的临床患者招募方法及系统 | |
Hu | Incorporating Knowledge from Authoritative Medical Ontologies in Causal Bayesian Networks Learned from Observational Patient Data | |
Wojtusiak et al. | Discussion on Comparing Machine Learning Models for Health Outcome Prediction. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |