临床监护设备
技术领域
本申请涉及临床医疗辅助技术领域,具体而言,涉及一种评估心脏骤停的临床决策支持系统。
背景技术
目前,院内心跳骤停(in-hospital cardiac arrest)是住院死亡的一大重要因素,极易引起医疗纠纷,加重医患矛盾。在美国住院患者信息库中,从2003到2013十年间,有超过100万的成人住院患者发生了心跳骤停,其存活率小于30%。心脏骤停是指心脏射血功能的突然终止,大动脉搏动与心音消失,重要器官(如脑)严重缺血、缺氧,导致生命终止。这种出乎意料的突然死亡,医学上又称猝死。引起心跳骤停最常见的是心室纤维颤动。若呼唤病人无回应,压迫眶上、眶下无反应,即可确定病人已处于昏迷状态。再注意观察病人胸腹部有无起伏呼吸运动。如触颈动脉和股动脉无搏动,心前区听不到心跳,可判定病人已有心跳骤停。
院内心跳骤停高病死率的重要原因在于早期对病情估计不足,导致患者得不到有效的救治。因此早期预测和提前干预院内心跳骤停对患者至少有以下几个方面的积极意义。首先,早期预测评估院内心跳骤停能帮助识别高危患者,从而进行综合干预措施,以避免心跳骤停的发生。一项纳入450万住院患者的研究表明,对于院内心跳骤停高危患者采取综合干预措施能显著降低心跳骤停发生率。其次,对于不可避免发生心跳骤停的患者,早期充分准备好抢救设备和措施,有利于心跳骤停事件发生后给予及时有效的抢救。例如有研究表明,早期电除颤和肾上腺素使用能明显提高院内心跳骤停患者预后,而在国内许多医院病房,床边除颤仪和抢救药物准备并不充分,这与医生对患者病情评估预测不到位有关,如能准确预测患者发生心跳骤停的风险,事先准备好抢救药物,则能明显提高抢救的效果。第三,对于院内心跳骤停特高危患者,如果患者本身为疾病终末期(如癌症晚期、脏器衰竭终末期),可以早期与家属进行积极沟通,减少不必要的抢救措施,减少患者痛苦及医疗资源的浪费。
然而例如外伤、心脏骤停或呼吸停止的治疗,医护人员的决策速度是关键的,医护人员必须先前就争分夺秒进行临床处理。据现有的数据证实,每分钟均可能导致成活率下降10%,如为心脏骤停的情况下,医护人员如果能早期介入治疗护理,将大大减少心跳骤停发生的死亡率。本发明因此而来。
发明内容
本申请旨在提供一种临床监护设备,以解决现有技术中的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种临床监护设备,其特征在于,所述设备包括:
信息采集模块,用于实时采集患者的临床或者非临床数据;
信息处理模块,分别与信息采集模块、输入输出模块电连接,用于根据输入输出模块的输入指令,切换信息采集模块中若干种输入单元获取患者的临床或者非临床数据;将患者的临床或者非临床数据传递给信息处理模块的探测器,所述探测器识别并标记患者数据,并将患者数据映射到本地或者远程存储单元中的结构化数据;利用患者的电子健康记录对结构化数据进行数据清洗;基于遗传算法构建神经网络模型,对神经网络模型进行前瞻性队列验证;基于已有的院内心跳骤停训练数据训练,对实时采集的患者数据进行评估,向输入输出模块输出预警信息;
输入输出模块,用于用户提供用户接口,接收用户的指令或向用户显示内容。
所述信息处理模块识别并标记患者的临床或者非临床数据,并将患者数据映射到本地或者远程存储单元中的结构化数据按照如下步骤进行:
S1)识别患者的临床或者非临床数据中的主题,构建与主题相关的临床事件;
S2)对患者的临床或者非临床数据中的动态语句进行分类和句法分析,基于句法分析树进行语义模式挖掘;
S3)基于标准临床文档架构模板对患者的临床或者非临床数据中的动态语句进行标注,形成语义角色的半结构化电子病历;
S4)将语义角色的半结构化电子病历采用XML映射成结构化数据。
假设患者的临床或者非临床数据设置有N
feature个主题,患者的第i个主题为w
i,对应的主题向量记为vector
i,第i个主题的主题数目为x
i,则
则每个患者为N
feature个主题的独热码的集合;
则患者的第i个主题的语境为前后各j个主题组成的滑窗,则在语境中出现各个主题的对数概率定义为:
logp(wi-l,…wi-1,…wi+k|wi)=∑-l≤j≤klogp(wi+j|wt);
其中条件概率为
将整个文本框滑窗应用于患者的所有临床或者非临床数据,模型训练的目标为最大化平均对数似然函数;其中d<<Nconcept;
取n=主题数量N
feature/2,从N
feature个主题中随机选择4×n个主题作为当前主题的语境,利用t-SNE非线性降维方法,对分布在
向量空间中的主题向量描述降维,降维后的数据点分布在
空间;将投影空间中的点绘制在二维平面上,通过散点图上医学相关的各类主题的分布及聚集情况,借助临床专家的知识,对医学主题进行趋势分析。
其中,主题为患者的所有临床或者非临床数据中分离出来用来表征疾病、治疗、诊断、手术等概念的名词。这些概念可以采用现有的国际标准,如国际疾病分类ICD-10编码表示疾病概念,ICD-9-CM编码表示手术概念,解剖-治疗-化学ATC编码表示药品概念,用LONIC编码表示检验概念,用DICOM编码表示检查概念。连续型指标按照分位数或正常值范围离散化为分类型变量,所有分类型变量的每个类别为一个主题。
患者的临床或者非临床数据中包含大量诊疗记录、出院小结、用药记录,检查结果等描述性自由叙述临床文本,它们提供了临床症状、治疗过程等重要但又无法包含在结构化特征中的预测院内心脏骤停的关键特征信息。但这些叙述文本既无法直接被现有的临床决策系统直接利用,也无法以一种程序化,准确且灵活的方式用于支持临床决策。
总体来说,主题从非结构化的临床或者非临床数据中清洗,抽取和转换数据,为神经网络模型的构建、训练提供了神经网络模型学习所需的结构化数据集。具体的,首先结合领域专业知识,通过将语义角色的半结构化电子病历采用XML映射成结构化数据等一系列医学语言处理过程,从住院首诊记录、出院小结、病程记录、影像学和各种检查结果报告等电子病历中提取有意义的临床特征主题(体征、症状、影像学征象、药物等),形成结构化数据子集。其次,再将从文本中提取的特征与电子病历中的原有结构化特征数据(人口统计学、实验室检验等)适当拼接,形成反映心脏骤停患者特征的完整的、多角度的原始数据集。总之,首先,通过医学语言方法,提取电子病历中叙述文本的临床主题(如,表征疾病、治疗、诊断、手术等概念的名词);其次,再与原有结构化数据拼接,利用基于Skip-gram模型的编码器学习词和编码的向量表示,一方面获得文本间或编码间的相似语义,另一方面获得文本与编码之间的相似语义;然后,将向量化的患者主题特征集提供给后续遗传算法学习。
进一步的技术方案是,所述结构化数据为本地数据库或者云端数据库。
进一步的技术方案是,所述电子健康记录包括:患者人口学信息、联系方式、访问医护专业人员信息、过敏史、医疗保险信息、家族遗传病史、免疫状况、身体状况或疾病信息、服用药物清单、住院记录、手术信息;优选的,患者电子健康记录包括性别、年龄、神志评分GCS、既往合并症、本次入院主要诊断、次要诊断、疾病严重程度评分SOFA及APACHEII评分。
进一步的技术方案是,所述患者的临床或者非临床数据包括患者实验室检查信息、临床检查信息、实时图像信息;优选的,所述患者的临床或者非临床数据包括患者的运动系统、神经系统、消化系统、呼吸系统、循环系统、内分泌系统、泌尿系统、免疫系统、生殖系统数据和患者实时图像数据;更优选的,所述患者的临床或者非临床数据包括息包括患者实时图像、体温、血液电解质钾钠氯钙、血乳酸、白细胞、红细胞、谷丙转氨酶、谷草转氨酶、总胆红素、血肌酐、尿素氮、脑钠肽、心肌酶谱、肌钙蛋白、血氧饱和度、二氧化碳分压、心电图、脑电图、血压、心率、心脏CT。
进一步的技术方案是,所述信息采集模块选自ECG传感器、SpO2传感器、NIR组织灌注传感器、NIRpH传感器、通气流量传感器、EtCO2传感器、侵入式血压传感器、非侵入式血压传感器、血糖监视器、影像传感器和气道氧气传感器中的一个或多个。
进一步的技术方案是,所述设备包括智能移动设备,所述信息处理模块作为智能移动设备的一部分;优选的,所述智能移动设备选自智能手机、平板电脑或者触摸监视器。
进一步的技术方案是,所述设备进一步包括去纤颤器,所述去纤颤器作为输入输出模块的一部分。
进一步的技术方案是,所述信息采集模块用于监测病人的心音或者呼吸音,所述信息处理模块用于鉴别判断呼吸音为哮鸣、爆裂音、罗音和喘鸣呼吸音。
进一步的技术方案是,所述信息采集模块为ECG传感器,用于获取患者的心电图。
本发明的另一目的在于提供一种提供院内心跳骤停预警信息的方法,其特征在于,包括:
(1)采集步骤:实时采集患者的临床或者非临床数据;患者的临床或者非临床数据包括影像信息和生理信息;
(2)感知映射步骤:识别并标记患者的临床或者非临床数据,并将患者数据映射到本地或者远程存储单元中的结构化数据;
(3)数据清洗步骤:利用患者的电子健康记录对结构化数据进行数据清洗;
(4)构建模型步骤:基于遗传算法构建神经网络模型,对神经网络模型进行前瞻性队列验证;
(5)评估预警步骤:基于已有的院内心跳骤停训练数据训练,对实时采集的患者数据进行评估,向医护人员展示预警信息。
进一步的技术方案是,所述方法步骤(1)中采用信息采集模块实时采集患者的临床或者非临床信号,并将患者的临床或者非临床信号转换成计算机可读取的患者数据。
进一步的技术方案是,所述方法步骤(2)中患者的临床或者非临床数据采集后,通过对患者的临床或者非临床数据进行分解,识别出患者临床数据的特征属性,标记后按照结构化数据的预定格式进行格式化处理。
进一步的技术方案是,所述方法步骤(3)中数据清洗包括根据每个变量的合理取值范围和相互关系对患者的数据进行一致性检查,删除重复的患者数据,利用患者的电子健康记录和多次采集的患者数据对错误的数据和缺失的数据进行补正的步骤。
进一步的技术方案是,所述方法步骤(4)中遗传算法以一个临床变量代表一个基因,而若干个临床变量的集合对应一条染色体,通过染色体构建反向传播神经网络训练模型,评估染色体预测院内心跳骤停的预警精度;迭代确定预警精度大于80~90%的染色体。优选的,迭代确定预警精度大于80%或者81%或者82%或者83%或者84%或者85%或者86%或者87%或者88%或者89%或者90%的染色体。
进一步的技术方案是,所述方法步骤(4)中反向传播神经网络训练模型预先进行正向传播,输入信息通过输入层、经隐含层,由输出层输出,输出的信息及预测值跟实际观察值进行比较;如果误差较大,则信号反向传播,进行负反馈调整变量系数权重,使神经网络训练朝着误差变小的方向进行;如此反复迭代,直到全网络误差收敛到规定值为止。
进一步的技术方案是,所述方法步骤(4)中反向传播神经网络训练模型神经网络中的神经元O的输出函数为:
其中f()为神经元Oj的作用函数;wji为上一层神经元oi与本层神经元Oi的连接权重,可规定wj0=-1,o′i输出为上一层第i个神经元输出,N′为上一层神经元的个数。
进一步的技术方案是,所述方法步骤(5)中采用反向传播(back propagation,BP)网络训练模型,预测结局与观察结局进行比对,通过反向传播信号调整纳入模型临床变量的权重;
进一步的技术方案是,所述方法步骤(5)中采集与训练队列相同的变量,用该临床监护设备提供预测其发生心跳骤停事件的评估风险,并与实际观察到的事件发生情况进行对照,计算临床监护设备提供的受试者工作特征曲线下面积(AUC)。
心脏骤停的常见原因总结为:①缺O2。②低钾血症/高钾血症及其他的电解质异常。③低温/体温过高。④低血容量。⑤低血糖/高血糖。⑥药物。⑦心包填塞。⑧肺栓塞。⑨冠状血管栓塞。⑩气胸,哮喘。根据这些常见原因,选择临床变量。临床变量包括全部命名实体识识别出的变量,可以根据相关程度进行选择。可以选择的变量如:1、血氧饱和度;2、电解质指标(如,钾、钙,钠,血清磷,镁,铁、氯);3、体温;3、血容量(血细胞容量与血浆容量的总和);4、血中的葡萄糖;5、瞳孔大小;6、呼吸频次;7、血管栓塞;8、下颌角间宽度;9、心包填塞;10、哮喘;11、下颚角角度;12、上唇咬诊试验得分;13、改良的Mallampati分级;14、颈围;15、颏甲距离等;16、血乳酸;17、白细胞等;18、心脏CT影像。
将问题的解(因变量)表示成“染色体”,一般是以二进制向量的形式给出。一个染色体对应上面的一个参数。本发明临床监护设备采用遗传算法选择相关危险因素,该算法能同时处理大量变量,避免陷入局部最优解,从而有效提高预警精度,可以为救护人员提供以更有效和准确地执行鉴别诊断的辅助工具,可以集成至在ICU等情况下救护人员的现有工作流程中。本发明还可以向救护人员自动提供显示来自病人的生理数据以及治疗、病历和检查。
本发明临床监护设备采用神经网络模型构建预测模型,该方法的优势在于能拟合变量之间的交互及非线性关系,且为非参数建模,不需要事先假定一种分布函数,这样充分利用现有的计算机计算计算,得到的预警信息快速迅捷。本发明采用电子病历大数据为数据来源,这些数据为平时诊疗工作中产生的数据,属于真实世界模拟研究,结果具有较好的代表性和外推性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请一种典型实施方式提出的临床监护设备的结构示意图。
图2示出了本申请一种典型实施方式提出的向用户提供院内心跳骤停的预警方法中感知映射步骤的流程图。
图3示出了本申请又一种典型实施方式提出的向用户提供院内心跳骤停的预警方法中遗传算法获得变量筛选的流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施方式例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个部件或者模块或特征与其他部件或者模块或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了部件或者模块在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的部件或者模块被倒置,则描述为“在其他部件或者模块或构造上方”或“在其他部件或者模块或构造之上”的部件或者模块之后将被定位为“在其他部件或者模块或构造下方”或“在其他部件或者模块或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该部件或者模块也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。
本发明的具体实施方式提供了一种临床监护设备,其特征在于,所述设备包括:
信息采集模块,用于实时采集患者的临床或者非临床数据;
输入输出模块,用于用户提供用户接口,接收用户的指令或向用户显示内容;
信息处理模块,分别与信息采集模块、输入输出模块电连接,用于根据输入输出模块的输入指令,切换信息采集模块中若干种输入单元获取患者的临床或者非临床数据;
用于将患者的临床或者非临床数据传递给信息处理模块的探测器,所述探测器识别并标记患者数据,并将患者数据映射到本地或者远程存储单元中的结构化数据;
用于利用患者的电子健康记录对结构化数据进行数据清洗;
用于基于遗传算法构建神经网络模型,对神经网络模型进行前瞻性队列验证;
用于基于已有的院内心跳骤停训练数据训练,对实时采集的患者数据进行评估,向输入输出模块输出预警信息。
心音测量和检测可以合并到用于心音的检测的监视装置中。使用来检测心音的相同的传感器也可被使用来检测呼吸音和分析它们的质量。特定的算法可使用来检测喘息声、湿啰音、罗音或喘鸣,其每个均可以指示或者警示可能存在特定疾病。例如流量传感器和氧气传感器的传感器可以检测与呼吸困难的有关的例如测定体积的二氧化碳、测定体积的氧气和呼吸量测定法等额外的生理测量。氧气传感器可以位于患者的气道中,其可有助于计算患者的代谢需要。
除颤器然后被配置用于潜在地激活特定生理传感器并以此方式显示该传感器数据,以最佳方式展示给护理人员相应的预警信息。
本发明的另一目的在于提供一种提供院内心跳骤停预警信息的方法,其特征在于,包括:
(1)采集步骤:实时采集患者的临床或者非临床数据;患者的临床或者非临床数据包括影像信息和生理信息;
(2)感知映射步骤:识别并标记患者的临床或者非临床数据,并将患者数据映射到本地或者远程存储单元中的结构化数据;
(3)数据清洗步骤:利用患者的电子健康记录对结构化数据进行数据清洗;
(4)构建模型步骤:基于遗传算法构建神经网络模型,对神经网络模型进行前瞻性队列验证;
(5)评估预警步骤:基于已有的院内心跳骤停训练数据训练,对实时采集的患者数据进行评估,向医护人员展示预警信息。
本发明技术方案中通过数据清洗建立高质量的标准化数据库,充分利用医院电子病历系统的患者人口学特征和实验室检查指标。2)基于遗传算法构建神经网络模型,充分考虑各变量间的交互和非线性关系,避免局部最优解。3)对模型进行前瞻性队列验证,必要时对模型进行调整。根据构建的模型,存储可存储于本地标准数据库,可以存储于云平台,其均是固定化的结构化数据,将其整合进远程会诊平台,对基层医院的患者进行实时监控,并通过人工智能算法对未来出现心跳骤停高危患者进行报警监测。本发明中标准数据库的建立是后续构建精准预测模型的基础。遗传算法为筛选有效变量提供了强有力的保证。用神经网络模型构建预测模型,能有效处理交互及非线性问题,是提高模型预测准确度的关键。模型的前瞻性外部验证对模型能有效应用于临床实践进行有效验证,减少试错的成本。
实施例
本实施例以某医院为研究现场,以最近5年入住该医院的住院患者为研究对象,根据纳入排除标准建立标准研究数据库,以住院期间是否发生心跳骤停作为研究结局。潜在的预测因素包括基本人口学特征、医嘱、实验室检查、放射影像和电子病历系统等几大系统信息。基于遗传算法构建神经网络模型,获得的模型在前瞻性队列中加以验证。具体的方法如图1所示。
1.1基于感知映射队列数据库的建立
根据纳入排除标准建立包含1000例患者的研究队列,提取信息后将患者的数据映射到结构化数据中,结构化数据可以选择标准的数据库。然后进行数据清洗,其内容包括对数据进行重新审查和校验,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。其主要内容包括:1)一致性检查(consistency check):是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。2)无效值和缺失值的处理:在电子病历数据中,由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。处理方法有包括估算,整例删除,变量删除和成对删除。
入选标准(符合三条及以上的患者):1)年龄>60岁;2)合并有肾功能不全;3)心梗/心肌缺血表现;4)合并有脏器功能衰竭的(之一):肾衰、呼衰、心衰、循环衰竭、肝衰竭或其他器官衰竭。5)脑血管意外。排除标准:1)已经发生过心跳骤停的患者;2)进行ECMO治疗的患者;3)植物状态;4)疾病终末期。
队列识别后,每个患者可产生多个方面的信息,包括医嘱信息(去甲肾上腺素、多巴胺、异丙肾上腺素、糖皮质激素、呼吸机使用、抗生素、)、实验室检查(电解质钾钠氯钙、血乳酸、白细胞、红细胞、谷丙转氨酶、谷草转氨酶、总胆红素、血肌酐、尿素氮、脑钠肽、心肌酶谱、肌钙蛋白)、床边监护(指测氧饱和度、心电图、脑电图、血压、心率)、放射影像(心脏CT)和电子病历(性别、年龄、神志评分GCS、既往合并症、本次入院主要诊断、次要诊断、疾病严重程度评分SOFA及APACHEII评分)等,这些信息随着时间的积累不断增加,收集患者入院后24小时的上述指标信息,如果同一指标重复测量,则取最大和最小值。
心跳骤停定义为心电图检查可发现PQRS波消失而出现粗细不等的室颤波形,或心电图呈缓慢畸形的QRS波,但不产生有效的心肌机械性收缩,心室停搏心电图呈直线或仅有房波。其工作定义为符合下面一条:1)经过院内抢救小组参与,对患者进行了体外电除颤和/或胸外按压;2)发现时处于无脉搏。
患者的临床或者非临床数据根据其来源进行区分,如来自彩色多普勒超声设备、CT设备、X线设备等,则其采集的数据为图像数据;如其来自血液采集分析设备,则获取的是相应的血液分析结果;如其来自心电图等设备,则获取的获取的心电图曲线;将这些数据根据来源采集的结果,以患者的专属属性来串联获取的所有数据,并将其映射到结构化数据中。
结构化数据可以是采用国际疾病分类ICD-10编码表示疾病主题,ICD-9-CM编码表示手术主题,解剖-治疗-化学ATC编码表示药品主题,用LONIC编码表示检验主题,用DICOM编码表示检查,连续型指标按照分位数或正常值范围离散化为分类型变量,所有分类型变量的每个类别为一个主题。
患者的既有数据可能存在一些非结构化临床文本,需要和已经形成的结构化数据进行整合,这些非结构化临床文本可以采用图像获取或者文字识别技术识别,然后对非结构化临床文本进行分解,句法分析或者语义挖掘、语义分析,获取未形成结构化的数据。
主题从非结构化的临床或者非临床数据中清洗,抽取和转换数据,为神经网络模型的构建、训练提供了神经网络模型学习所需的结构化数据集。首先结合领域专业知识,通过将语义角色的半结构化电子病历采用XML映射成结构化数据等一系列医学语言处理过程,从住院首诊记录、出院小结、病程记录、影像学和各种检查结果报告等电子病历中提取有意义的临床特征主题(体征、症状、影像学征象、药物等),形成结构化数据子集。其次,再将从文本中提取的特征与电子病历中的原有结构化特征数据(人口统计学、实验室检验等)适当拼接,形成反映心脏骤停患者特征的完整的、多角度的原始数据集。总之,首先,通过医学语言方法,提取电子病历中叙述文本的临床主题(如,表征疾病、治疗、诊断、手术等概念的名词);其次,再与原有结构化数据拼接,利用基于Skip-gram模型的编码器学习词和编码的向量表示,一方面获得文本间或编码间的相似语义,另一方面获得文本与编码之间的相似语义;然后,将向量化的患者主题特征集提供给后续遗传算法学习。
如图2所示,这种非结构化临床文本可以利用与电子病历结构原生对齐的知识表达实现关键特征抽取。具体步骤如下:先进行关键命名实体识别,识别出包括:体征、检验、药物等的主题;然后基于命名实体和时间约束构建临床事件,对非结构化临床文本进行动态语句分类和句法分析,基于句法分析树的语义模式挖掘;最后进行语义模式聚类和网络本体构建,利用HL7 CDA模板和原型的“二层建模”原则,对医疗信息叙述语句段进行基于上述本体定义的标签标注,从而产生半结构化的电子病历语句级,粗粒度健康信息语境表达特征,即语义角色。利用HL7 FHIR XML模板映射机制,将半结构化标签数据转换为结构化数据。在这个过程中,语义角色是指语义参数名或语法成分与谓词之间的关系。语义参数的例子则包括:对象实体、位置、时间、方式、原因等事实因素。在第一层次对应一个语义参数:临床事件。该语义参数又可以进一步分解为更细粒度的信息结构;在第二层次,临床事件又被分解为三个子语义参数:时间修饰词、空间修饰词、干预名称及描述;这些参数又可以进一步更细粒度的递归分析;这些语义参数构成了电子病历中临床实施的整体语境特征模式。
具体的,将非结构化临床文本中获得的结构化特征合并到结构化数据中,得到整合后的结构化原始数据,并采用one-hot的形式加以表示。如按照人口统计学学特征、疾病、手术、药物、检验、影像学、其他体征和症状的顺序,将每个主题的独热码均扩展为长度为N
concept的独热码(设患者最多共有N
feature个特征,第i个特征的主题数目为x
i,则
则每个患者就是N
feature个主题的独热码的集合。
采用无监督Skip-gram模型将患者的原始特征表示为低维实数向量,然后分别将主题向量作为有监督的深度神经网络模型的预训练层,构造深度机器学习RNN和CNN,学习具有动态时间属性和静态不具有时间属性的患者健康状态主题的表示。
初始模型:将每个特征主题看做非结构化临床文本中的词,则患者状态描述就是由Nfeature个词组成的句子,利用标准Skip-gram算法将Nconcept主题映射到y维(d<<Nconcept)实数向量空间上。
设患者的第i个主题为wi(对应的主题向量记为vectori),其语境为前后各j个主题组成的滑窗,则在语境中出现各个主题的对数概率定义为:
logp(wi-l,…wi-1,…wi+k|wi)=∑-l≤j≤klogp(wi+j|wt);
其中条件概率:
将整个文本框滑窗应用于整份非结构化临床文本,模型训练的目标就是最大化平均对数似然函数。采用随机梯度下降函数训练模型。由于输出层神经元个数Nconcept可能到达104甚至更高数量级,导致式(2)的计算量巨大,因此将采用负采样技术每次仅更新部分神经元的权重,从而降低计算量。
对标准Skip-gram模型进行改进:在原始Skip-gram算法中,组成句子的词是有序序列的,故而可以利用某词前后的各n个词组成语境。但是,描述患者健康状态的主题是无序的,因此需要对原模型进行一下调整:
1)将句子中的所有主题作为当前主题的模数,即取n=特征数量Nfeature/2;
2)从Nfeature个主题中随机选择4×n个主题,作为当前主题的语境。
然后对主题进行向量可视化:利用t-SNE非线性降维方法,对分布在
向量空间中的主题向量描述降维,降维后的数据点分布在
空间。将投影空间中的点绘制在二维平面上,通过散点图观察医学相关的各类主题的分布及聚集情况,借助临床专家的知识,对医学主题进行探索性分析。对Skip-gram模型的结构、算法、样本预处理等做进一步调整、修改和完善。最终的结果是分析后的主题及其信息逐渐逼近真实的临床使用文本和使用语境。
这样患者的健康状态可以通过这种方法进行全维度描述,设目标领域
与源领域
的健康状态特征集分别为
和
患者健康状态结构化样本集分别为
和
分别采用基于特征和基于结构化实例的迁移学习,在
和
不完全相同以及
和
分布不同的情况下的患者健康状态主题和实例迁移。
将源领域与目标领域的数据合并,由来自两个领域数据(结构化数据和非结构化数据)的所有特征构成新的特征空间
采用前述学习患者健康状态只是的流程,利用Skip-gram方法将
映射到一个低维实数向量空间,使两个领域的数据在该空间下拥有相同的特征。然后利用源领域数据基于神经网络学习患者表示及建立预测模型,然后对目标领域数据进行模型的应用测试。
计算
和
中样本之间的相似性,在源领域
中寻找与目标领域样本相似性高的样本,并由这些样本组成新的源领域样本
对
学习患者健康状态表示及建立预测模型,然后对
进行模型的应用测试。
对于图像数据,如心脏CT影像数据预处理。即针对影像数据,进行图像去噪、图像增强等预处理操作,消除图像中明显的噪点,增强图像特征,达到图像预处理的预期。具体包括:
图像翻转:将图像水平翻转,在几乎不改变图像数据分布的情况下,使样本量直接翻倍。
图像裁剪:图像中的目标可能出现在图像中的任意位置,为了弱化神经网络对目标位置的敏感,可以在正常组织的拍摄区域之内,从原图中随机的截取一块图像,若源图像过小,导致没有太多空间进行随机裁剪,可先将其放大,再进行裁剪,这样可以增加数倍的样本量。
图像旋转:将图像旋转一个微小的角度,可以增加深度神经网络的泛化性能,使其对目标的位置不那么敏感。
灰度变换、噪声扰动:在原始图像上首先得到灰度直方图,进一步根据统计数据进行灰度变换,以及在源图像上随机加入椒盐噪声或高斯噪声,可增加样本数据量。这两种方式虽然改变了数据的分布,但是其强迫深度神经网络对目标的灰度分布不敏感,更专注于形状和纹理等信息。
获取切割心脏图像边缘:此环节拟使用活动轮廓线模型,也被称作蛇形模型,能够提供一种边缘分界技术用来对心脏CT形象进行分割。
插值和标准化:根据深度神经网络对于输入的特定要求,对切割后的医学图像插值得到标准尺寸的输入,具体使用了使用双线性二次插值算法进行插值。
经过预处理后的CT心脏图像数据会被送入残差网络模型进行训练并提取特征。这些特征是心脏CT影像中的异常信息,诸如病变的对比度,针刺样式和边界清晰度等特征。图像特征计算即寻找出各类心脏异常在灰度图像中的分布规律,并将这种规律通过数学计算描述出来。针对每一种心脏异常信息转化为一组特征向量。
给定一个分成多个区域的心脏CT异常概率图,使用CNN来学习这些补丁的视觉特征。将之前的得到的视觉特征向量输入到多标签分类网络中以预测相关病变标签。在标签词汇表中,每个标签由一个词向量表示。给定特定图像的预测标签,检索它们的词向量即是该图像的语义特征。多标签分类任务有多种实现途径,考虑到数据的分布情况,具体使用“把含有N个标签的训练转化为N个二分类训练”的方法完成这个任务。产生的词向量作为后续遗传算法的重要输入特征之一。
1.2数据清洗实施方案
1)解决不完整数据(即值缺失)的方法
大多数情况下,缺失的值必须手工填入(即手工清理)。当然,某些缺失值可以从本数据源或其它数据源推导出来,本发明针对缺失数据形成的原因进行单纯插补和多重插补,单纯插补包括用平均值、最大值、最小值或代替缺失的值,对于分类变量,可使用频率出现最高的那类进行插补。而多重插补先以待插补变量为应变量,其它为预测变量构建模型,再根据模型对缺失值进行预测,插补后出现多个并行数据集。
2)错误值的检测及解决方法
用统计分析的方法识别可能的错误值或异常值(如某些检验结果不可能超过检验上限),如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库(常识性规则、业务特定规则等)检查数据值,如年龄大于150岁的需进行进一步核对。或使用不同属性间的约束、外部的数据来检测和清理数据。
3)重复记录的检测及消除方法
数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除)。合并/清除是消重的基本方法。如患者生命体征可同时在护理记录单和医生的体格检查中重复记录。
4)不一致性的检测及解决方法
对每个连续变量用R语言的summary函数进行监测,观察其最大、最小、平均值,还可以用histogram函数观察数据的分布,发现异常值,进行手工核对。对于分类变量采用table函数可观察各个类别的分布,检查纠正一些不可能出现的类别。如性别栏目中出现除“男”“女”之外的字符串或数字,可以通过调用原始病历资料对这些进行纠正。
1.3遗传算法方案
遗传算法是从代表问题可能潜在的解集的一个种群(population)开始的,而一个种群则由经过基因(gene)编码的一定数目的个体(individual)组成。每个个体实际上是带有特征的染色体(chromosome)。染色体作为遗传物质的主要载体,即多个基因的集合,其内部表现(即基因型)是某种基因组合,它决定了个体的形状的外部表现,如黑头发的特征是由染色体中控制这一特征的某种基因组合决定的。本发明中一个临床变量代表一个基因,而若干个临床变量的集合对应一条染色体,染色体的功能为院内心跳骤停的预测,预警精度越高该染色体的适应度越高。进化过程反复随机进行,从而获得最优变量组合。
本发明遗传算法可进行大量的随机进化,为寻求全局最优解提供了有效的手段,从而提高预测精准度。
初代种群产生之后,按照适者生存和优胜劣汰的原理,逐代(generation)演化产生出越来越好的近似解,在每一代,根据问题域中个体的适应度(fitness,通过构建神经网络模型适应函数来实现)大小选择(selection)个体,并借助于自然遗传学的遗传算子(genetic operators)进行组合交叉(crossover)和变异(mutation),产生出代表新的解集的种群。这个过程将导致种群像自然进化一样的后生代种群比前代更加适应于环境,末代种群中的最优个体经过解码(decoding),可以作为问题近似最优解。
如图3所示,作为遗传算法的初代种群的具体步骤如下:
设置初始解规模A;
(1)对于临床事件对应的每一个临床特征ki,查找所有与特征ki有关联的变量,将所述变量列入可用变量的变量值集合F3;剩余变量变量值集合F4;
(2)若变量值集合F4非空,则查找F4,从中随机抽取一个变量分配给所述当前临床特征ki;若F4为空集,则查找所述可用变量变量值集合F3,从中随机抽取一个可用的变量分配给当前临床特征ki;若F3也为空集,则从临床专家提供的所有变量中随机抽取一个分配给当前临床特征,如此循环直至分配完所有临床特征,可得到一个临床特征初始解;
重复步骤(1)和(2),直到所得变量的初始解数量满足所述初始解规模A;
所述多个变量的变量值集合初始解作为初始解种群。
所述运用遗传算法对所述初始解种群进行遗传运算的具体步骤如下:
(1)设定遗传算法目标函数;
(2)以初始解种群作为当代种群;
(3)通过遗传算法目标函数计算当代种群的个体适应度,判断是否符合遗传算法终止条件,若符合则终止计算;否则进行选择、交叉、变异操作得到初级子代种群,然后执行步骤(4);
(4)从所述初级子代种群取出90%的个体,与父代种群中最优秀的10%的个体合并作为子代种群作为当代种群,执行步骤(3)。
在步骤(3)中,所述算法终止条件如下:
1)所述遗传算法的当代种群中个体适应度最大值超过目标函数的适应度预设值,或;
2)所述遗传算法世代数超过60,或;
3)所述遗传算法的连续20代种群的个体适应度的最大值变化没有超过阈值。
在步骤(3)中,所述遗传算法的目标函数根据目标特征变量的在各个环境下变异情况进行设计。
1.4神经网络模型构建方案
神经网络(Neural Networks,NN)模型是用计算机模拟人类的大脑神经元信号处理的一种计算方式,神经网络模型是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,是一个高度复杂的非线性动力学习系统,具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。本发明拟采用反向传播(back propagation,BP)网络训练模型,预测结局与观察结局进行比对,通过反向传播信号调整纳入模型临床变量的权重。反向传播算法主要由两个环节(激励传播、权重更新)反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。
BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中,输入信息通过输入层经隐含层,逐层处理并传向输出层。如果在输出层得不到期望的输出值,则取输出与期望的误差的平方和作为目标函数,转入反向传播,逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯量,作为修改权值的依据,网络的学习在权值修改过程中完成。误差达到所期望值时,网络学习结束。本发明预期训练出一个能准确预测院内心跳骤停发生风险的神经网络模型,其在前瞻性队列的预期准确率达到80%以上。
住院患者产生的数据信息之间存在复杂的交互作用,本发明采用神经网络模型来处理这些复杂交互,从而提高模型预测精准度。本发明中将使用BP(back propagation)网络进行训练,输入层可能包括的变量有年龄、性别、神志、实验室指标等,中间为隐含层,主要用于构建为某个变量构建合适的权重及相互间的关系,最右边的为输出结果,在本发明中将输出某患者发生心跳骤停的概率。本模型建立在梯度下降算法的基础上,训练过程由正向和反向传播构成。正向传播过程中,输入信息通过输入层、经隐含层,由输出层输出,输出的信息及预测值跟实际观察值进行比较,如果误差较大,则信号反向传播,进行负反馈调整变量系数权重,使该网络朝着误差变小的方向进行。此过程反复进行,直到全网络误差收敛到规定值为止。BP网络代表了从输入到输出层的高度非线性映射,能处理非线性变量及复杂的交互作用。输入和输出之间存在某种映射函数,训练的目的及在于映射函数的估计。神经元O的输出函数可用下面公式描述:
其中f()为神经元Oj的作用函数,采用sigmoid型作用函数。wji为上一层神经元o′i与本层神经元o′i的连接权重,可规定wj0=-1,o′i输出为上一层第i个神经元输出,N′为上一层神经元的个数。
本实施例采用计算机数据模拟的方法证明,利用遗传算法能有效地从海量变量中筛查出与结局变量明显相关的变量,而排除一些噪音变量(无价值变量)。前瞻性纳入550例符合纳入标准的患者,采集与训练队列相同的变量,用该模型预测其发生心跳骤停事件的风险,并与实际观察到的事件发生情况进行对照,计算模型预测的受试者工作特征曲线下面积(AUC)。
在该模拟过程中,假定xcat、xcont1和xcont2为与结局相关的信号变量,其它包含1000个噪音变量,结果发现,遗传算法能够快速有效地识别出信号变量。在50条染色体中,xcat、xcont1和xcont2出现的频率最高,而且很容易在子代染色体中得到稳定遗传。本实施例利用小规模样本进行了预实验,把研究人群集中在急性呼吸窘迫综合症患者,利用遗传算法构建神经网络模型来预测院内心跳骤停死亡,与传统的医疗监护设备相比,遗传算法构建的神经网络模型能显著提高预警精度(表1)。如表1所示,本发明的医疗监护设备采用遗传算法构建神经网络模型,在外部验证队列中,其曲线下面积(AUC)为82.3%,明显高于基于传统的医疗监护设备BeneVision N设备和comen设备。
表1本实施例的预警精度
其中AUC:受试者工作曲线下面积;CI:置信区间。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
本发明的临床监护设备可以整合进入电子病历系统,临床测试结果明显优于现有技术的BeneVision N设备和comen设备,能够提高心跳骤停的预警精度,可以为早期诊断心跳骤停提供预警信息,从而早期采取干预措施,改善患者病死率,从而减轻患者家庭及社会的经济负担。按照82.3%的预警精度来计算,预计每位心跳骤停患者可以节省费用3-5万。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。