CN111710420B - 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质 - Google Patents
一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质 Download PDFInfo
- Publication number
- CN111710420B CN111710420B CN202010422117.4A CN202010422117A CN111710420B CN 111710420 B CN111710420 B CN 111710420B CN 202010422117 A CN202010422117 A CN 202010422117A CN 111710420 B CN111710420 B CN 111710420B
- Authority
- CN
- China
- Prior art keywords
- medical record
- electronic medical
- features
- data
- primary disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 208000037920 primary disease Diseases 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000007689 inspection Methods 0.000 claims abstract description 14
- 238000013058 risk prediction model Methods 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims description 28
- 239000003814 drug Substances 0.000 claims description 16
- 238000003745 diagnosis Methods 0.000 claims description 13
- 238000003066 decision tree Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 10
- 229940079593 drug Drugs 0.000 claims description 9
- 238000013139 quantization Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 claims description 5
- 238000000692 Student's t-test Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000013501 data transformation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012353 t test Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 231100000957 no side effect Toxicity 0.000 abstract description 3
- 208000029078 coronary artery disease Diseases 0.000 description 21
- 206010020772 Hypertension Diseases 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 10
- 201000010099 disease Diseases 0.000 description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 9
- 238000005065 mining Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 206010012601 diabetes mellitus Diseases 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 230000035487 diastolic blood pressure Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001631 hypertensive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000035488 systolic blood pressure Effects 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000032928 Dyslipidaemia Diseases 0.000 description 1
- 206010017815 Gastric perforation Diseases 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 208000032843 Hemorrhage Diseases 0.000 description 1
- 206010020850 Hyperthyroidism Diseases 0.000 description 1
- 101150068122 LGB1 gene Proteins 0.000 description 1
- 101150011519 LGB2 gene Proteins 0.000 description 1
- 208000017170 Lipid metabolism disease Diseases 0.000 description 1
- 208000008469 Peptic Ulcer Diseases 0.000 description 1
- 201000000660 Pyloric Stenosis Diseases 0.000 description 1
- 238000002583 angiography Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- -1 clinic times Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 208000011906 peptic ulcer disease Diseases 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质。包括:采集同一种原发性疾病人群的电子病历数据;其中,所述原发性疾病人群包括存在相关并发症的原发性疾病人群和不存在并发症的原发性疾病人群;从所述电子病历数据中提取与所述原发性疾病的并发症发病存在相关性的特征,并采用正态分布检验从所述提取的特征中挑选出存在显著差异的特征;对所述存在显著差异的特征进行分类,形成用于构建模型的数据集;根据所述数据集构建所述原发性疾病的并发症发病风险预测模型。本申请对病人无任何副作用,具有一定的技术集约性,能够大大提高机器处理速度,提高医生的工作效率,并可节约医疗成本。
Description
技术领域
本申请属于医疗大数据的挖掘及应用技术领域,特别涉及一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质。
背景技术
并发症是一个复杂的临床医学概念。学者对并发症的定义有以下几种:一种是指一种疾病在发展过程中引起另一种疾病或症状的发生,后者即为前者的并发症,如消化性溃疡可能有幽门梗阻、胃穿孔或大出血等并发症。另一种并发症是指在诊疗护理过程中,病人由患一种疾病合并发生了与这种疾病有关的另一种或几种疾病。以冠心病为例,在一些流行病学研究中,典型的不可改变的冠心病风险因素包括年龄、性别和家族史,高血压、血脂异常和糖尿病是典型的可改变的危险因素。没有得到及时治疗与控制的冠心病病人可能有心脑血管以及糖尿病等各种并发症,这不仅严重影响了冠心病病人的生活质量,也为家庭和社会带来了沉重的负担。因此,预防和控制并发症的发生,对于节约医疗资源、降低医疗支出具有重要战略意义。
目前,病人的问诊记录都会以电子记录形式保存在医院。典型的电子健康记录(EHR)数据集包括病人的个人基本信息、疾病随访信息、门诊记录、住院记录和生化检查等医疗数据。从这个庞大数据库提取到有用的信息,是冗长乏味的过程。
以冠心病为例,目前有些学者结合所获得的医疗数据对给定的数据属性集合进行发病风险和因素的分析。然而经典的冠心病危险因素与文本信息的结合很少被研究。临床上,医生通常采用血管造影确定病人是否患有冠心病,该方法价格昂贵,并具有一定的副作用。
发明内容
本申请提供了一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种基于电子病历大数据的并发症发病风险预测方法,包括以下步骤:
步骤a:采集同一种原发性疾病人群的电子病历数据;其中,所述原发性疾病人群包括存在相关并发症的原发性疾病人群和不存在并发症的原发性疾病人群;
步骤b:从所述电子病历数据中提取与所述原发性疾病的并发症发病存在相关性的特征,并采用正态分布检验从所述提取的特征中挑选出存在显著差异的特征;
步骤c:对所述存在显著差异的特征进行分类,形成用于构建模型的数据集;
步骤d:根据所述数据集构建所述原发性疾病的并发症发病风险预测模型。
本申请实施例采取的技术方案还包括:所述步骤a中,所述采集同一种原发性疾病人群的电子病历数据还包括:
根据病历ID将同一病人的电子病历数据进行整合,形成一个完整的数据样本;以及
对所述整合后的电子病历数据进行预处理。
本申请实施例采取的技术方案还包括:所述电子病历数据预处理包括:
对所述电子病历数据中缺失的特征信息进行填补,对异常数据进行删除操作;以及
对所述电子病历数据进行数据变换和数据规约。
本申请实施例采取的技术方案还包括:在所述步骤b中,所述提取与所述原发性疾病的并发症发病存在相关性的特征还包括:
对所述提取的特征进行量化处理,将所述同一ID的电子病历数据中是否存在并发症作为标签列,并分别赋值。
本申请实施例采取的技术方案还包括:所述提取与所述原发性疾病的并发症发病存在相关性的特征至少包括病人的随访记录、诊断信息、药品名称;所述对提取的特征进行量化处理包括:
采用变异系数表示所述同一病历ID的多条随访记录;
提取所述诊断信息中的关键字,对所述关键字进行文本向量化;
建立影响所述原发性疾病、对应并发症的药品数据库,根据所述数据库匹配每个病人所服用的药品名称,对所述药品名称进行文本向量化。
本申请实施例采取的技术方案还包括:在所述步骤b中,所述采用正态分布检验从所述提取的特征中挑选出存在显著差异的特征包括:
对每一列分别进行正态分布检验:若P值小于第一设定阈值,表示该列不服从正态分布;
不服从正态分布检验时,利用每一列的特征与标签列分别进行相关性检验;以及
利用每一列的特征与标签列分别进行秩和差异性检验:若P值小于第一设定阈值,表示该列存在显著差异;
服从正态分布检验时,利用每一列的特征与标签列分别进行相关性检验;以及
利用每一列的特征与标签列分别进行t检验:若P值小于第一设定阈值,表示该列存在显著差异;
将所述相关检验中相关系数大于第二设定阈值且所述差异性检验中P值小于第一设定阈值的特征纳入第一特征集合,其他被删除的特征形成第二特征集合。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述对所述存在显著差异的特征进行分类包括:
将所述第一特征集合中的特征放入模型进行分类,得到AUC值;
将所述第二特征集合中的特征逐步加入模型进行分类,并不断更新AUC值,得到用于构建模型的最优组合特征集合。
本申请实施例采取的技术方案还包括:在所述步骤d中,所述并发症发病风险预测模型为梯度提升决策树模型,所述模型包括第一层Xgboost_1、第二层LightGBM_1层和LightGBM_2、第三层Xgboost_2;
假设所述组合特征集合中包括特征组合F1、F2、F3、F4、F5;
使用所述XGBoost_1层对所述特征组合F1进行学习,得到XGBoost_1的预测结果,将该结果作为新特征加入所述特征组合F2、F3中,分别作为所述第二层LightGBM_1和LightGBM_2的输入特征;
将所述第二层中LightGBM_1的预测结果作为新特征,加入所述特征组合F4中,作为所述第三层XGBoost_2的输入特征;
所述第三层XGBoost_2还包括梯度提升决策树模型,所述梯度提升决策树模型使用所述特征组合F5训练,所述第二层LightGBM_2的预测结果与所述第三层XGBoost_2的预测结果进行加权融合作为最终的预测结果。
本申请实施例采取的另一技术方案为:一种基于原发性疾病人群的电子病历大数据进行并发症发病风险预测的系统,包括:
病历数据获取模块:用于采集同一种原发性疾病人群的电子病历数据;其中,所述原发性疾病人群包括存在相关并发症的原发性疾病人群和不存在并发症的原发性疾病人群;
特征提取模块:用于从所述电子病历数据中提取与所述原发性疾病的并发症发病存在相关性的特征;
差异特征选择模块:用于采用正态分布检验从所述提取的特征中挑选出存在显著差异的特征;
特征分类模块:用于对所述存在显著差异的特征进行分类,形成用于构建模型的数据集;
模型构建模块:用于根据所述数据集构建所述原发性疾病的并发症发病风险预测模型。
本申请实施例采取的又一技术方案为:一种终端,所述终端包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现所述基于电子病历大数据的并发症发病风险预测方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以控制进行所述原发性疾病病人的并发症发病风险预测。
本申请实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行所述基于电子病历大数据的并发症发病风险预测方法。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质使用临床数据结合机器学习方法,通过文本挖掘等方法自动挖掘和提取到有用的特征,并通过自然语言工具进行量化处理,实现原发性疾病相关的并发症发病风险预测。本申请对病人无任何副作用,具有一定的技术集约性,能够大大提高机器处理速度,提高医生的工作效率,并可节约医疗成本。
附图说明
图1是本申请第一实施例的基于电子病历大数据的并发症发病风险预测方法的流程图;
图2是本申请第二实施例的基于电子病历大数据的并发症发病风险预测方法的流程图;
图3为本申请实施例从医院导出的高血压人群数量示意图;
图4为本申请实施例的电子病历数据预处理示意图;
图5为本申请实施例的预测模型整体结构示意图;
图6是本申请实施例的基于原发性疾病人群的电子病历大数据进行并发症发病风险预测的系统的结构示意图;
图7为本申请实施例的终端结构示意图;
图8为本申请实施例的存储介质的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
请参阅图1,是本申请第一实施例的基于电子病历大数据的并发症发病风险预测方法的流程图。本申请第一实施例的基于电子病历大数据的并发症发病风险预测方法包括以下步骤:
步骤100:采集同一种原发性疾病人群的电子病历数据,将电子病历数据进行预处理,得到可用的电子病历数据;
步骤100中,采集的电子病历数据包括存在相关并发症的原发性疾病人群和不存在并发症的原发性疾病人群两类人群的电子病历数据。
步骤110:从电子病历数据中提取与原发性疾病的对应并发症发病存在相关性的特征,并对提取的特征进行量化处理;其中,将是否存在并发症作为标签列(CHD_FLAG);
步骤120:采用正态分布检验从提取的特征中挑选出与标签列(CHD_FLAG)高度相关,且存在显著差异的特征;
步骤120中,将挑选的特征纳入第一特征集合,其他被删除的特征形成第二特征集合。
步骤130:对第一特征集合和第二特征集合放入模型进行分类及合并,得到用于构建模型的数据集;
步骤130中,数据集包括用于训练模型的训练集和用于测试模型的测试集。
步骤140:将数据集导入模型进行训练预测,得到最终的并发症发病风险预测模型。
可以理解,本申请可适用于任意类型的原发性疾病可能引发的并发症发病风险预测,例如,糖尿病可能引起的一系列眼底病变、甲亢可能引发的心脏病、高血压可能引发的冠心病等。为了更加清楚的描述本申请的技术方案,以下实施例仅以高血压引发的冠心病发病风险预测为例进行具体描述。
请参阅图2,是本申请第二实施例的基于电子病历大数据的高血压人群冠心病发病风险预测方法的流程图。本申请实施例的基于电子病历大数据的高血压人群冠心病发病风险预测方法包括以下步骤:
步骤200:采集高血压人群的电子病历数据,将电子病历数据进行预处理,得到可用的电子病历数据;
步骤200中,采集的电子病历数据包括无冠心病的高血压人群以及有冠心病的高血压人群的电子病历数据,具体如图3所示,为本申请实施例从医院导出的高血压人群数量示意图。
请一并参阅图4,为本申请实施例的电子病历数据预处理示意图。其具体包括以下步骤:
步骤201:电子病历数据的采集;
本步骤中,采集的电子病历数据具体包括:
1、从居民信息表中提取性别、出生日期、高血压确诊日期、冠心病标识、冠心病确诊日期等信息;
2、从高血压随访表中提取随访日期、症状名称、收缩压、舒张压、心率、空腹血糖、身高、体重、体质系数等信息;
3、从门诊记录表中提取门诊日期、门诊流水号(门诊次数)、诊断名称、诊断编码等信息;
4、从门诊处方中提取门诊流水号、处方流水号(处方次数)、药品名称等信息;
5、从住院记录表中提取住院流水号、住院次数、(入院时间、出院时间)、诊断名称、诊断编码等信息;
6、从住院医嘱中提取住院流水号(医嘱次数)、医嘱名称等信息。
步骤202:电子病历数据的整合;根据唯一的病历ID将同一病人的电子病历数据进行整合,形成一个完整的数据样本;
本步骤中,经过整合的数据样本还存在相似或重复的特征,例如电子病历中的病患姓名和病历ID作用相似,又由于病历ID的唯一性以及姓名的可能重复性,本申请选择保留病历ID,去掉电子病历中的病患姓名。
步骤203:电子病历数据预处理:对缺失的主要特征信息进行填补,对异常数据进行删除操作;
本步骤中,对于个别特征值的缺失,本申请采取使用空值/null/0或均值插值的方法进行填补。在原始数据中,会存在错误或者偏离期望值的异常数据(噪声数据),本申请对该异常数据进行删除或作为缺失值处理。
步骤204:数据变换:包括数据的归一化和数据的离散化;
步骤205:数据规约:包括数据的归一化,本申请采用最大最小归一化。
步骤210:对电子病历数据进行分析,确定冠心病的若干个危险因素,提取与冠心病发病存在相关性的特征,并对提取的特征进行量化处理;
步骤210中,提取的与冠心病发病存在相关性的特征包括高血压确诊年龄、性别、症状名称、身高、体重、体质指数、收缩压、舒张压、心率、空腹血糖、门诊次数、用药次数、住院次数、医嘱次数、药品名称、医嘱名称、门诊诊断名称、住院诊断名称等多类特征,并对不同类型的特征分别进行处理,将电子病历中是否患有冠心病作为标签列(CHD_FLAG),其中如果高血压人群3年期患冠心病,则赋值为1,否则为0。具体特征处理方式如表1所示:
表1 本发明中提取的特征及处理方式
上述中,病人的随访记录是多条的,采用变异系数来衡量特征,是个连续性特征,体现出病人的病情变化情况,是个强特征。高血压病人具有多样的诊断,提取其中的关键信息,并利用word2vec进行文本向量化。高血压病人服用的药品包括多种,因人而异,本申请自动形成影响高血压、冠心病的药品数据库,继而利用word2vec对药品名称进行向量化,以便更好地预测高血压人群3年期冠心病发病风险。
步骤220:采用正态分布检验从提取的特征中挑选出与标签列(CHD_FLAG)高度相关,且组间存在显著差异的特征,将挑选出的特征作为用于模型分类的第一特征集合,将其他被删除的特征作为更新模型的第二特征集合;
步骤220中,挑选方式具体包括:
(1)对每一列先做正态分布检验:若P值(P值即在原假设为真的前提下出现观察样本以及更极端情况的概率)小于第一设定阈值(本申请实施例设定该值为0.05,具体可根据实际应用进行设置),表示该列不服从正态分布。
(2.1)不服从正态分布检验时,利用每一列的特征与标签列分别进行Spearman相关性检验。
(2.2)服从正态分布检验时,利用每一列的特征与标签列分别进行Pearson相关性检验。
(3.1)不服从正态分布检验时,利用每一列的特征与标签列分别进行Wilcoxon秩和差异性检验:若P值小于第一设定阈值,表示该列存在显著差异。
(3.2)服从正态分布检验时,利用每一列的特征与标签列分别进行t检验:若P值小于第一设定阈值,表示该列存在显著差异。
(4)将相关检验中相关系数大于第二设定阈值(本申请实施例设定该值为0.00,具体可根据实际应用进行设置)且差异性检验中P值小于第一设定阈值的特征纳入第一特征集合,其他被删除的特征形成第二特征集合。
步骤230:将第一特征集合中的特征放入模型进行分类,得到AUC(area undercurve,药时曲线下面积)值;然后逐步加入第二特征集合中的特征进行分类,并不断更新AUC值,最终得到用于发病风险预测的最优的组合特征集合;
步骤230中,组合特征集合中包括多组特征组合,每组特征组合分别输入预测模型对应的层。以下实施例仅以五组为例,五组特征组合分别为F1、F2、F3、F4、F5。
步骤240:将分类得到的组合特征集合导入到预测模型中进行训练及测试,构建发病风险预测模型;
步骤240中,本申请实施例构建的发病风险预测模型为改进版的梯度提升决策树模型(LightGBM),模型整体结构如图5所示,其包括第一层XGBoost_1(即图5中的XGB1)、第二层LightGBM_1层(即图5中的LGB1)和LightGBM_2(即图5中的LGB2)、第三层XGBoost_2(即图5中的XGB2)。模型预测过程具体为:
1、使用XGBoost_1层对特征组合F1进行学习,得到XGBoost_1的预测结果(包括对于训练集和测试集的预测结果),将该结果作为新特征加入特征组合F2、F3中,分别作为第二层LightGBM_1和LightGBM_2的输入特征;
2、LightGBM_1的预测结果再次作为新特征,加入特征组合F4中,作为第三层XGBoost_2的输入特征;
3、第三层包含一个梯度提升决策树模型(GBDT),该模型使用特征组合F5训练,第二层LightGBM_2的预测结果则与第三层XGBoost_2的预测结果进行加权融合作为最终的预测结果。
为了验证本申请的可行性和有效性,分别采用改进版的梯度提升决策树模型(LightGBM)、随机森林(RF)、梯度提升决策树模型(GBDT)、极限梯度提升决策树模型(XGBoost)等多个模型进行训练预测,并对多个模型的预测结果进行了对比,预测结果对比如下表2所示:
表2不同算法的预测结果对比
通过预测结果的对比以及模型的评估标准发现,本申请实施例的LightGBM模型在训练集以及验证集上都取得了最好的效果,能够满足预期及要求,提高了模型的预测准确度。
可以理解,本申请实施例的基于电子病历大数据的并发症发病风险预测方法以电子病历中的相关数据为基础,并非以活体的人进行或者以治疗为目的,相关模型建立均是基于数据分析比较进行的,最终得到的模型也是服务于数据的比对,整个技术方案是能够有效实施的,且具有一定的技术集约性,能够大大提高机器处理速度。
请参阅图6,是本申请实施例的基于原发性疾病人群的电子病历大数据进行并发症发病风险预测的系统的结构示意图。本申请实施例的基于原发性疾病人群的电子病历大数据进行并发症发病风险预测的系统包括:
病历数据获取模块:用于采集病人的电子病历数据,将电子病历数据进行预处理,得到可用的电子病历数据;其中,采集的电子病历数据包括存在相关并发症的病人和不存在并发症的病人两类人群的电子病历数据。
特征提取模块:用于从电子病历数据中提取与对应并发症存在相关性的特征,并对提取的特征进行量化处理;其中,将是否存在并发症作为标签列(CHD_FLAG);
差异特征选择模块:用于采用正态分布检验从提取的特征中挑选出与标签列(CHD_FLAG)高度相关,且存在显著差异的特征;其中,将挑选的特征纳入第一特征集合,其他被删除的特征形成第二特征集合。
特征分类模块:用于对第一特征集合和第二特征集合放入模型进行分类及合并,得到用于构建模型的数据集;其中,数据集包括用于训练模型的训练集和用于测试模型的测试集。
模型构建模块:用于将数据集导入模型进行训练预测,得到最终的并发症发病风险预测模型。
请参阅图7,为本申请实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。
存储器52存储有用于实现上述基于电子病历大数据的并发症发病风险预测方法的程序指令。
处理器51用于执行存储器52存储的程序指令以控制进行所述原发性疾病的并发症发病风险预测。
其中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参阅图8,为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现上述所有方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
本申请实施例的基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质使用临床数据结合机器学习方法,通过文本挖掘等方法自动挖掘和提取到有用的特征,并通过自然语言工具进行量化处理,实现原发性疾病相关的并发症发病风险预测。本申请对病人无任何副作用,具有一定的技术集约性,能够大大提高机器处理速度,提高医生的工作效率,并可节约医疗成本。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的这些实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种基于电子病历大数据的并发症发病风险预测方法,其特征在于,包括以下步骤:
步骤a:采集同一种原发性疾病人群的电子病历数据;其中,所述原发性疾病人群包括存在相关并发症的原发性疾病人群和不存在并发症的原发性疾病人群;
步骤b:从所述电子病历数据中提取与所述原发性疾病的并发症发病存在相关性的特征,并采用正态分布检验从提取的特征中挑选出存在显著差异的特征;
步骤c:对所述存在显著差异的特征进行分类,形成用于构建模型的数据集;
步骤d:根据所述数据集构建所述原发性疾病的并发症发病风险预测模型;
在所述步骤b中,所述提取与所述原发性疾病的并发症发病存在相关性的特征还包括:
对所述提取的特征进行量化处理,将同一ID的电子病历数据中是否存在并发症作为标签列,并分别赋值;
所述提取与所述原发性疾病的并发症发病存在相关性的特征至少包括病人的随访记录、诊断信息、药品名称;对提取的特征进行量化处理包括:
采用变异系数表示同一病历ID的多条随访记录;
提取所述诊断信息中的关键字,对所述关键字进行文本向量化;
建立影响所述原发性疾病、对应并发症的药品数据库,根据所述数据库匹配每个病人所服用的药品名称,对所述药品名称进行文本向量化;
在所述步骤b中,所述采用正态分布检验从所述提取的特征中挑选出存在显著差异的特征包括:
对每一列分别进行正态分布检验:若P值小于第一设定阈值,表示该列不服从正态分布;
不服从正态分布检验时,利用每一列的特征与标签列分别进行相关性检验;以及
利用每一列的特征与标签列分别进行秩和差异性检验:若P值小于第一设定阈值,表示该列存在显著差异;
服从正态分布检验时,利用每一列的特征与标签列分别进行相关性检验;以及
利用每一列的特征与标签列分别进行t检验:若P值小于第一设定阈值,表示该列存在显著差异;
将所述相关性检验中相关系数大于第二设定阈值且所述差异性检验中P值小于第一设定阈值的特征纳入第一特征集合,其他被删除的特征形成第二特征集合;
在所述步骤c中,所述对所述存在显著差异的特征进行分类包括:
将所述第一特征集合中的特征放入模型进行分类,得到AUC值;
将所述第二特征集合中的特征逐步加入模型进行分类,并不断更新AUC值,得到用于构建模型的最优组合特征集合;
在所述步骤d中,所述并发症发病风险预测模型为梯度提升决策树模型,所述模型包括第一层XGBoost_1、第二层LightGBM_1层和LightGBM_2、第三层XGBoost_2;
假设所述组合特征集合中包括特征组合F1、F2、F3、F4、F5;
使用所述XGBoost_1层对所述特征组合F1进行学习,得到XGBoost_1的预测结果,将该结果作为新特征加入所述特征组合F2、F3中,分别作为所述第二层LightGBM_1和LightGBM_2的输入特征;
将所述第二层中LightGBM_1的预测结果作为新特征,加入所述特征组合F4中,作为所述第三层XGBoost_2的输入特征;
所述第三层XGBoost_2还包括梯度提升决策树模型,所述梯度提升决策树模型使用所述特征组合F5训练,所述第二层LightGBM_2的预测结果与所述第三层XGBoost_2的预测结果进行加权融合作为最终的预测结果。
2.根据权利要求1所述的基于电子病历大数据的并发症发病风险预测方法,其特征在于,所述步骤a中,所述采集同一种原发性疾病人群的电子病历数据还包括:
根据病历ID将同一病人的电子病历数据进行整合,形成一个完整的数据样本;以及
对整合后的电子病历数据进行预处理。
3.根据权利要求2所述的基于电子病历大数据的并发症发病风险预测方法,其特征在于,所述电子病历数据预处理包括:
对所述电子病历数据中缺失的特征信息进行填补,对异常数据进行删除操作;以及
对所述电子病历数据进行数据变换和数据规约。
4.一种利用权利要求1所述的基于电子病历大数据的并发症发病风险预测方法的基于原发性疾病人群的电子病历大数据进行并发症发病风险预测的系统,其特征在于,包括:
病历数据获取模块:用于采集同一种原发性疾病人群的电子病历数据;其中,所述原发性疾病人群包括存在相关并发症的原发性疾病人群和不存在并发症的原发性疾病人群;
特征提取模块:用于从所述电子病历数据中提取与所述原发性疾病的并发症发病存在相关性的特征;
差异特征选择模块:用于采用正态分布检验从提取的特征中挑选出存在显著差异的特征;
特征分类模块:用于对所述存在显著差异的特征进行分类,形成用于构建模型的数据集;
模型构建模块:用于根据所述数据集构建所述原发性疾病的并发症发病风险预测模型。
5.一种终端,其特征在于,所述终端包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现权利要求1-3任一项所述的基于电子病历大数据的并发症发病风险预测方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以控制进行所述原发性疾病病人的并发症发病风险预测。
6.一种存储介质,其特征在于,存储有处理器可运行的程序指令,所述程序指令用于执行权利要求1至3任一项所述基于电子病历大数据的并发症发病风险预测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010422117.4A CN111710420B (zh) | 2020-05-15 | 2020-05-15 | 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质 |
PCT/CN2020/139688 WO2021227511A1 (zh) | 2020-05-15 | 2020-12-25 | 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010422117.4A CN111710420B (zh) | 2020-05-15 | 2020-05-15 | 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111710420A CN111710420A (zh) | 2020-09-25 |
CN111710420B true CN111710420B (zh) | 2024-03-19 |
Family
ID=72538171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010422117.4A Active CN111710420B (zh) | 2020-05-15 | 2020-05-15 | 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111710420B (zh) |
WO (1) | WO2021227511A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111710420B (zh) * | 2020-05-15 | 2024-03-19 | 深圳先进技术研究院 | 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质 |
CN111933284B (zh) * | 2020-09-27 | 2021-01-05 | 平安科技(深圳)有限公司 | 一种并发症风险预测系统、方法、装置、设备及介质 |
CN111899883B (zh) * | 2020-09-29 | 2020-12-15 | 平安科技(深圳)有限公司 | 少样本或零样本的疾病预测设备、方法、装置及存储介质 |
CN112967817B (zh) * | 2021-02-02 | 2022-06-10 | 武汉大学 | 基于医疗大数据的流行病学研究人群筛选方法及存储介质 |
CN112505199A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 基于代谢组学数据的稳定型冠心病预警方法及装置 |
CN112951432A (zh) * | 2021-03-30 | 2021-06-11 | 太原理工大学 | 基于cnn及电子病历预测心衰并发症的方法、系统及预警设备、存储介质 |
CN114067935B (zh) * | 2021-11-03 | 2022-05-20 | 广西壮族自治区通信产业服务有限公司技术服务分公司 | 一种流行病调查方法、系统、电子设备及存储介质 |
CN114550913A (zh) * | 2022-02-22 | 2022-05-27 | 深圳市裕辰医疗科技有限公司 | 一种血液透析低血压并发症的辅助诊断方法 |
CN114999659A (zh) * | 2022-04-26 | 2022-09-02 | 北京市农林科学院信息技术研究中心 | 并发症风险预警方法、装置、电子设备及存储介质 |
CN116779190B (zh) * | 2023-06-25 | 2024-02-13 | 急尼优医药科技(上海)有限公司 | 一种基于物联网的医疗平台用户随访管理系统及方法 |
CN116936134B (zh) * | 2023-09-18 | 2023-11-24 | 四川互慧软件有限公司 | 一种基于护理晨交班数据的并发症监测方法和系统 |
CN118039157B (zh) * | 2024-03-01 | 2024-10-01 | 重庆邮电大学 | 一种基于图神经网络的ii型糖尿病并发症协同预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992058A (zh) * | 2015-06-25 | 2015-10-21 | 成都厚立信息技术有限公司 | 疾病风险调整模型建立方法 |
CN107680676A (zh) * | 2017-09-26 | 2018-02-09 | 电子科技大学 | 一种基于电子病历数据驱动的妊娠期糖尿病预测方法 |
CN109616168A (zh) * | 2018-12-14 | 2019-04-12 | 北京工业大学 | 一种基于电子病历的医疗领域智能管理模型构建方法 |
CN109920547A (zh) * | 2019-03-05 | 2019-06-21 | 北京工业大学 | 一种基于电子病历数据挖掘的糖尿病预测模型构建方法 |
CN110197728A (zh) * | 2019-03-12 | 2019-09-03 | 平安科技(深圳)有限公司 | 糖尿病的预测方法、装置及计算机设备 |
CN110197720A (zh) * | 2019-03-12 | 2019-09-03 | 平安科技(深圳)有限公司 | 糖尿病的预测方法及装置、存储介质、计算机设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5551436A (en) * | 1993-06-10 | 1996-09-03 | Hardy Co., Ltd. | Medical diagnosis system |
CN107506579B (zh) * | 2017-08-14 | 2020-03-10 | 西南大学 | 基于集成学习的脑出血预测模型建立方法及系统 |
CN107871536A (zh) * | 2017-09-30 | 2018-04-03 | 平安科技(深圳)有限公司 | 糖尿病分析方法及应用服务器 |
CN109036577B (zh) * | 2018-07-27 | 2021-10-22 | 合肥工业大学 | 糖尿病并发症分析方法及装置 |
CN109637663A (zh) * | 2018-11-14 | 2019-04-16 | 浙江大学山东工业技术研究院 | 一种基于机器学习的经皮冠状动脉介入治疗心血管不良事件的预测装置 |
CN111710420B (zh) * | 2020-05-15 | 2024-03-19 | 深圳先进技术研究院 | 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质 |
-
2020
- 2020-05-15 CN CN202010422117.4A patent/CN111710420B/zh active Active
- 2020-12-25 WO PCT/CN2020/139688 patent/WO2021227511A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992058A (zh) * | 2015-06-25 | 2015-10-21 | 成都厚立信息技术有限公司 | 疾病风险调整模型建立方法 |
CN107680676A (zh) * | 2017-09-26 | 2018-02-09 | 电子科技大学 | 一种基于电子病历数据驱动的妊娠期糖尿病预测方法 |
CN109616168A (zh) * | 2018-12-14 | 2019-04-12 | 北京工业大学 | 一种基于电子病历的医疗领域智能管理模型构建方法 |
CN109920547A (zh) * | 2019-03-05 | 2019-06-21 | 北京工业大学 | 一种基于电子病历数据挖掘的糖尿病预测模型构建方法 |
CN110197728A (zh) * | 2019-03-12 | 2019-09-03 | 平安科技(深圳)有限公司 | 糖尿病的预测方法、装置及计算机设备 |
CN110197720A (zh) * | 2019-03-12 | 2019-09-03 | 平安科技(深圳)有限公司 | 糖尿病的预测方法及装置、存储介质、计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2021227511A1 (zh) | 2021-11-18 |
CN111710420A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111710420B (zh) | 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质 | |
Chang et al. | Pima Indians diabetes mellitus classification based on machine learning (ML) algorithms | |
Yadav et al. | Mining electronic health records (EHRs) A survey | |
Cramer et al. | Predicting the incidence of pressure ulcers in the intensive care unit using machine learning | |
Martins et al. | Data mining for cardiovascular disease prediction | |
Glicksberg et al. | Automated disease cohort selection using word embeddings from Electronic Health Records | |
Huddar et al. | Predicting complications in critical care using heterogeneous clinical data | |
JP2020516997A (ja) | モデル支援コホート選択を行うシステム及び方法 | |
JP2018060529A (ja) | コンテキストベースの患者類似性の方法及び装置 | |
Mortazavi et al. | Prediction of adverse events in patients undergoing major cardiovascular procedures | |
CN108231146B (zh) | 一种基于深度学习的医疗记录模型构建方法、系统及装置 | |
Chen et al. | Heterogeneous postsurgical data analytics for predictive modeling of mortality risks in intensive care units | |
Al-Mualemi et al. | A deep learning-based sepsis estimation scheme | |
Hossain et al. | Cardiovascular disease identification using a hybrid CNN-LSTM model with explainable AI | |
Rabie et al. | A decision support system for diagnosing diabetes using deep neural network | |
Chinnasamy et al. | Machine learning based cardiovascular disease prediction | |
Venkatesan et al. | NFU-Net: an automated framework for the detection of neurotrophic foot ulcer using deep convolutional neural network | |
Mandava | MDensNet201-IDRSRNet: Efficient cardiovascular disease prediction system using hybrid deep learning | |
Dankwa‐Mullan et al. | Applications of big data science and analytic techniques for health disparities research | |
Kanwal et al. | Optimized Classification of Cardiovascular Disease Using Machine Learning Paradigms | |
Mainenti et al. | Machine Learning Approaches for Diabetes Classification: Perspectives to Artificial Intelligence Methods Updating. | |
Osuwa et al. | Importance of continuous improvement of machine learning algorithms from a health care management and management information systems perspective | |
Uddin et al. | A Voice assistive mobile application tool to detect cardiovascular disease using machine learning approach | |
Patel et al. | Predicting Heart Disease Using Machine Learning Algorithms | |
Zaman et al. | A review on the significance of body temperature interpretation for early infectious disease diagnosis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |