CN116779166A - 数据处理方法及装置、健康评估方法及装置、电子设备和可读存储介质 - Google Patents
数据处理方法及装置、健康评估方法及装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN116779166A CN116779166A CN202310752854.4A CN202310752854A CN116779166A CN 116779166 A CN116779166 A CN 116779166A CN 202310752854 A CN202310752854 A CN 202310752854A CN 116779166 A CN116779166 A CN 116779166A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- monitoring
- target object
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000036541 health Effects 0.000 title claims abstract description 69
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 title claims description 60
- 238000012544 monitoring process Methods 0.000 claims abstract description 150
- 238000011835 investigation Methods 0.000 claims abstract description 24
- 208000024891 symptom Diseases 0.000 claims abstract description 19
- 238000011156 evaluation Methods 0.000 claims abstract description 15
- 201000010099 disease Diseases 0.000 claims description 53
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 27
- 230000000295 complement effect Effects 0.000 claims description 21
- 238000013210 evaluation model Methods 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 8
- 238000012952 Resampling Methods 0.000 claims description 6
- 230000000737 periodic effect Effects 0.000 claims description 6
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 claims description 5
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 claims description 4
- 239000008280 blood Substances 0.000 description 10
- 210000004369 blood Anatomy 0.000 description 10
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 8
- 229910052760 oxygen Inorganic materials 0.000 description 8
- 239000001301 oxygen Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 208000001797 obstructive sleep apnea Diseases 0.000 description 2
- 201000002859 sleep apnea Diseases 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 208000011623 Obstructive Lung disease Diseases 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 206010041235 Snoring Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012888 cubic function Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 235000006694 eating habits Nutrition 0.000 description 1
- 238000002565 electrocardiography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 230000009325 pulmonary function Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000005586 smoking cessation Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Landscapes
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本公开提供一种数据处理方法及装置、健康评估方法及装置、电子设备和可读存储介质。数据处理方法,包括以下步骤:获取目标对象的体征数据,其中,所述体征数据包括对所述目标对象的体征进行监测获得的监测数据以及根据所述监测数据对所述体征数据进行补全的补全数据;采集所述目标对象的多模态数据,其中,所述多模态数据包括目标对象的影像数据和针对预设症状的调研数据中的至少一项;根据所述体征数据和所述多模态数据生成所述目标对象的身体状态数据。
Description
技术领域
本公开实施例涉及疾病诊断技术领域,尤其涉及一种数据处理方法及装置、健康评估方法及装置、电子设备和可读存储介质。
背景技术
随着计算机技术的发展,相关技术中,可以通过对用户的身体数据进行采集,并根据采集的结果对用户的患病状态或患病概率进行分析预测。
发明内容
本公开实施例提供一种数据处理方法及装置、健康评估方法及装置、电子设备和可读存储介质。
第一方面,本公开实施例提供了一种数据处理方法,包括以下步骤:
获取目标对象的体征数据,其中,所述体征数据包括对所述目标对象的体征进行监测获得的监测数据以及根据所述监测数据对所述体征数据进行补全的补全数据;
采集所述目标对象的多模态数据,其中,所述多模态数据包括目标对象的影像数据和针对预设症状的调研数据中的至少一项;
根据所述体征数据和所述多模态数据生成所述目标对象的身体状态数据。
在一些实施例中,所述获取目标对象的体征数据,包括:
获取对所述目标对象的体征进行监测获得的监测数据;
对所述监测数据分箱;
按照预设的监测周期将分箱后的所述监测数据分组;
生成补全每一监测周期内缺失的所述监测数据的补全数据;
将所述监测数据和所述补全数据作为所述目标对象的体征数据。
在一些实施例中,所述对所述监测数据分箱,包括:
根据监测数据对所述目标疾病的影响程度对所述监测数据进行分箱。
在一些实施例中,所述对所述监测数据分箱,包括:
通过最小熵分箱法将所述监测数据分箱。
在一些实施例中,所述按照预设的监测周期将分箱后的所述监测数据分组之后,所述方法还包括:
检测所述监测周期中第一周期的数量,其中,所述第一周期为目标时刻的监测数据缺失的监测周期;
在所述第一周期的数量大于预设数量阈值的情况下,根据第二周期的目标时刻的监测数据确定所述第一周期的目标时刻的监测数据,其中,所述第二周期为目标时刻的监测数据未缺失的监测周期。
在一些实施例中,所述生成补全每一监测周期内缺失的所述监测数据的补全数据,包括:
通过三次样条插值生成所述监测数据的补全数据。
在一些实施例中,所述采集所述目标对象的多模态数据,包括:
向所述目标对象推送针对所述预设症状的调查问卷;
接收所述目标对象针对所述调查问卷输入的调研数据,其中,所述调研数据包括对于所述预设症状设置的各问题的多个选项中的至少一个选项的选择输入;
将所述调研数据按照预设规则标准化形成多模态数据,其中,标准化的所述调研数据用于作为健康评估模型的外部变量。
第二方面,本公开实施例还提供一种健康评估方法,包括以下步骤:
获取目标对象的身体状态数据,其中,所述身体状态数据是通过第一方面中任一项所述的数据处理方法得到的;
将所述身体状态数据输入健康评估模型获得对所述目标对象患目标疾病的健康评估结果,其中,所述健康评估模型是预训练的,以身体状态数据为输入,以目标疾病的患病概率为输出的模型。
在一些实施例中,所述健康评估模型包括集成的第一模型、第二模型和第三模型,其中,所述第一模型为ARIMA模型,所述第二模型为Informer模型,所述第三模型为N-BeatXs模型。
在一些实施例中,所述第一模型和所述第二模型的输入数据包括所述体征数据;
所述第三模型的输入数据包括所述体征数据和所述多模态数据。
在一些实施例中,所述健康评估模型还包括第四模型,所述第四模型是以重采样的所述体征数据为输入,以目标疾病的患病概率为输出的模型。
在一些实施例中,所述第四模型为Informer模型。
在一些实施例中,所述将所述健康评估模型获得对所述目标对象患目标疾病的健康评估结果,包括:
将所述体征数据重采样为高频数据和低频数据,其中,所述高频数据的采样频率大于所述低频数据的采样频率,所述低频数据的采样频率在每一监测周期内不少于两次;
将所述低频数据按所述高频数据的采样频率进行差值处理;
分别将所述高频数据和经过差值处理的所述低频数据输入所述第四模型获对所述体征数据的周期性趋势的预测结果。
在一些实施例中,将所述身体状态数据输入健康评估模型获得对所述目标对象患目标疾病的健康评估结果,包括:
将所述第一模型、所述第二模型、所述第三模型和所述第三模型的输出结果按照时间拼接后,输入第五模型进行集成训练获得所述健康评估模型。
在一些实施例中,所述第五模型为LightGBM模型。
在一些实施例中,所述目标疾病为慢性阻塞性肺疾病。
第三方面,本公开实施例还提供一种数据处理装置,包括:
体征数据获取模块,用于获取目标对象的体征数据,其中,所述体征数据包括对所述目标对象的体征进行监测获得的监测数据以及根据所述监测数据对所述体征数据进行补全的补全数据;
多模态数据采集模块,用于采集所述目标对象的多模态数据,其中,所述多模态数据包括目标对象的影像数据和针对预设症状的调研数据中的至少一项;
身体状态数据生成模块,用于根据所述体征数据和所述多模态数据生成所述目标对象的身体状态数据。
第四方面,本公开实施例还提供一种健康评估装置,包括:
身体状态数据获取模块,用于获取目标对象的身体状态数据,其中,所述身体状态数据是通过第一方面中任一项所述的数据处理方法得到的;
健康评估模块,用于将所述身体状态数据输入健康评估模型获得对所述目标对象患目标疾病的健康评估结果,其中,所述健康评估模型是预训练的,以身体状态数据为输入,以目标疾病的患病概率为输出的模型。
第五方面,本公开实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现如第一方面中任一项所述的方法中的步骤;
或者实现如第二方面中任一项所述的方法中的步骤。
第六方面,本公开实施例还提供一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如第一方面中任一项所述的方法中的步骤;
或者实现如第二方面中任一项所述的方法中的步骤。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的数据处理方法的流程示意图;
图2A是本公开实施例提供的一调查问卷示意图;
图2B是本公开实施例提供的又一调查问卷示意图;
图2C是本公开实施例提供的又一调查问卷示意图;
图3是本公开实施例提供的健康评估的流程示意图;
图4是本公开实施例提供的模型架构的示意图;
图5是本公开实施例提供的又一模型架构的示意图;
图6是本公开实施例提供的又一模型架构的示意图;
图7是本公开实施例提供的数据处理装置的结构示意图;
图8是本公开实施提供的电子设备的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开实施例中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,本申请中使用“和/或”表示所连接对象的至少其中之一,例如A和/或B和/或C,表示包含单独A,单独B,单独C,以及A和B都存在,B和C都存在,A和C都存在,以及A、B和C都存在的7种情况。
本公开实施例提供了一种数据处理方法。
在其中一些实施例中,该数据处理方法用于对采集到的用户的身体状态数据进行采集和处理,以获得更加全面和完整的数据。
以慢性阻塞性肺疾病(简称慢阻肺)患者做示例性说明,理论上来说,如果需要获得患者完整的身体状态数据,需要连续24小时对患者的身体状态进行持续多天的监测,所需监测的数据包括动态心电、连续血糖、血氧饱和度等各种不同的数据,然而这种连续多天的持续监测实现难度较大,因此,实际操作过程中,通常在特定时间段进行体征的监测。
示例性的,测量血氧饱和度可能在早晨八点测量十分钟,在下午三点测量半小时,并在夜间连续监测4~5小时,如果以一分钟间隔进行数据采样,则能够在早晨八点获得10条数据,在下午三点获得30条数据,在夜间获得240~300条数据。然而当患者感觉不舒服的时候,可能需要随时测量身体状态的变化,这些不规律的间断数据无法直接使用。
如图1所示,在本公开的一个实施例中,数据处理方法包括以下步骤:
步骤101:获取目标对象的体征数据。
本实施例的技术方案中,体征数据包括监测数据和补全数据两部分,其中,监测数据指的是按照一定的测量条件对目标对象(例如可以是患者)的体征数据进行监测。示例性的,可以设定监控时间,在每天的指定时间或时间段对患者的身体状态进行监测,例如,可以在每天早上8点测量10分钟血氧饱和度,在下午三点测量30分钟血氧饱和度,在夜间连续监测4至5小时血氧饱和度。监测数据的具体项目可以包括血氧饱和度、心率、动态心电、连续血糖等,实施时,具体可以根据希望检测或预测的疾病类型,由专业的医生等专业人士确定检测的具体项目。
实施时,可以在目标对象处于质量和平时呼吸睡眠监测时,利用检测仪器,例如呼吸机、肺功能仪、血氧仪、呼吸检测仪等采集目标对象的监测数据,然后收集处理形成目标对象的监测数据。
在获得了通过监测目标对象得到的监测数据之后,对获得的监测数据进行补全,获得补全数据,以提高获得的体征数据的完整性。需要理解的是,持续的对于目标对象的体征进行监测在实际实施中具有较高的实施难度,本实施例中通过对监测数据进行补全获得补全数据,并以监测数据和监测数据作为目标对象的体征数据,能够通过有限的监测手段和监测时间,获得目标对象较为准确和全面的身体数据,提高了数据采集效果。
在一些实施例中,补全数据的步骤还包括:
获取对所述目标对象的体征进行监测获得的监测数据;
对所述监测数据分箱;
按照预设的监测周期将分箱后的所述监测数据分组;
生成补全每一监测周期内缺失的所述监测数据的补全数据;
将所述监测数据和所述补全数据作为所述目标对象的体征数据。
本实施例中,通过对监测数据进行分箱,然后按照监测周期进行分组,进一步对分箱后的各监测周期内的监测数据进行补全,能够确保数据补全时,每一分箱内的数据具有较高的关联性,提高了补全数据的准确性。
本实施例中,首先对监测数据进行分箱,在其中一些实施例中对监测数据进行分箱的步骤具体包括:
根据监测数据对所述目标疾病的影响程度对所述监测数据进行分箱。
本实施例的技术方案中,监测数据是对目标对象的体征进行监测获得的,而不同的监测结果,可能反应目标对象的患目标疾病的可能性不同。示例性的,以慢肺阻为例,在其他条件相同的情况下,目标对象的血氧浓度越低,心率越高,则患病的可能性越高,且症状等级越高。
为了区分这种影响,本实施例中通过不同的监测数据对于目标疾病的影响程度的区间大小对于监测数据进行分箱,可以理解的是,在其他条件相同的情况下,如果两个目标对象的心率的差值为1,则可能属于正常波动,没有医学或临床上的参考意义,如果差值达到了5或者10,则可能存在一定的医学或临床上的参考意义,因此,为了区分不同的监测数据,本实施例中可以根据监测结果的差异对于患目标疾病的影响程度在医学或临床上的参考意义,对监测数据进行分箱。可以理解为,如果心率对应的某一个区间对于患该目标疾病的等级相同,则将这些监测数据划分为一个分箱内的数据。
这样,通过根据监测数据对所述目标疾病的影响程度对所述监测数据进行分箱,能够精确的对监测数据进行划分,后续进一步针对分箱后的数据进行补全,能够提高获得的数据精度,提高对面目标疾病的诊断效果。
进一步的,在其中一个实施例中,具体可以通过最小熵分箱法将所述监测数据分箱。
本实施例中,最小熵分箱法的分箱结果需要满足:
其中,因变量为分类变量,可取值1,2,3……J,pij为为第i个分箱内,因变量取值为j的观测的比例,其中,i=1,2,3,……K,j=1,2,3,……J。
实施时,首先将监测数据的数据集排序并统计,接下来,将监测数据一分为二,并计算获得的两个子集的熵,然后求和。接下来,选择条件熵之和最小的划分点,然后针对获得的每一个子集,重复上述排序、划分、求条件熵之和的步骤,不断进行划分,直至满足迭代停止的条件。
本实施例中,迭代停止的条件可以根据医生等专业人士的建议确定,示例性的,如果医生表示心率差在5次以内具有临床意义,则可以将迭代停止条件设置为获得的子集的区间长度小于或等于5。这样,本实施例通过采用最小熵分箱法对监测数据进行分箱,能够更加准确的提取监测数据之间的区别,从而能够获得对于监测数据更加精确的分箱结果,有助于提高后续的数据补全精度。
在将数据分箱之后,将数据按照一定的监测周期划分为多组,一般来说,监测周期的选取需要具有一定的实际意义,因此,本实施例中,以每一天作为一个监测周期,这样,正常情况下,在每一监测周期内,目标对象的体征是按照一定的规律从早到晚变化的。
在一些实施例中,所述按照预设的监测周期将分箱后的所述监测数据分组之后,所述方法还包括:
检测所述监测周期中第一周期的数量,其中,所述第一周期为目标时刻的监测数据缺失的监测周期;
在所述第一周期的数量大于预设数量阈值的情况下,根据第二周期的目标时刻的监测数据确定所述第一周期的目标时刻的监测数据,其中,所述第二周期为目标时刻的监测数据未缺失的监测周期。
本实施例中,进一步检测存在数据缺失的监测周期的数量。示例性的,如果在获得的多个监测周期中,大部分监测周期中均包括8点钟的心率数据,而其中的若干个检测周期中,8点钟的心率数据缺失,则将8点钟的心率数据缺失的监测周期定义为第一周期,将8点钟的心率数据未缺失的监测周期定义为第二周期。
接下来,确定第一周期的数量,如果第一周期的数量小于预设的数量阈值,示例性的,仅存在一个第一周期,则认为该第一周期的8点钟的心率数据的缺失为偶然现象,如果第一周期的数量较多,则认为第一周期的数量存在异常,此时,需要对第一周期中的目标时刻的监测数据进行补偿,实施时,可以根据第二周期中该目标时刻的监测数据,通过加权平均的方式,对第一周期中目标时刻的监测数据进行补偿。
在一些实施例中,所述生成补全每一监测周期内缺失的所述监测数据的补全数据,包括:
通过三次样条插值生成所述监测数据的补全数据。
本实施例中对缺失的数据记性补全,需要理解的是,人体体征数据的变化是平滑的,因此,正常情况下,人体的体征数据不会出现突变,即体现在曲线上时,相应的人体体征数据曲线不会出现尖锐的拐点,因此,本实施例中不使用线性插值进行数据补全。
多项式插值在阶数变高的过程中,计算量大大增加,同时可能会在端点附近出现震荡现象(Runge现象),因此,本实施例中采用分段低次插值法,具体的,采用三次样条插值,将原始的监测数据序列中的若干个段构造多个三次函数,使得每个分段衔接处具有二阶导数连续的性质,能够光滑的衔接,平衡了计算量,同时提高了补全数据的准确性。
需要理解的是,数据补全之前,所获得的监测数据可能是长时间累积的数据,示例性的,可能是在数月或者数年内的多段数据,每段数据之间以相同时间段(例如为1分钟)为间隔。因此,本实施例中,补全之后的数据将相邻两段之间的数据也以此时间段为间隔,形成没有间断的曲线。
实施时,可以将每个目标对象的监控数据作为样本,以血氧饱和度的值等待监控指标的值作为标签,形成与各目标对象对应的体征数据的数据集。
步骤102:采集所述目标对象的多模态数据。
接下来,本实施例中提取目标对象的多模态数据,在其中一个实施例中,多模态数据包括目标对象的影像数据和针对预设症状的调研数据中的至少一项。
本实施例中,影像数据指的是CT(Computed Tomography,电子计算机断层扫描)、X光、磁共振等各种影像检测方式获得的检测图像的分析结果。
以影像数据为CT图像的分析结果做示例性说明,临床上,一般将慢阻肺分为四个级别,因此,本实施例中将CT图像的分析结果设置为五种,即对应阴性(未患病)和四个不同级别的病症,在一个示例性的实施例中,可以利用比较成熟的ResNet151模型对获得的CT图像进行识别处理,其输出范围定义为0至4,其中0对应阴性,1至4分别对应四个不同级别的病症。这样,就能够获得目标对象的影像数据。
调研数据则可以针对不同的目标疾病设置对应的调查问卷,示例性的,如图2A至图2C所示,本实施例中,针对慢阻肺分别设置了如图2A所示的慢阻肺筛查问卷、用于判断阻塞性睡眠呼吸障碍的危险因素的STOP-Bang问卷,以及用于判断阻塞性睡眠呼吸暂停综合征的危险因素的OSAS症状采集表。实施时,可以由医生等专业人士针对不同的预设症状设置相应的调查问卷,以生成针对预设症状的调研数据。
如图2A至图2C所示,本实施例中,可以向目标对象的账号推送调查问卷,由目标对象在手机、个人电脑等移动终端,或者医院、保健场所等的诊疗终端上登录自己的账号后,填写相应的问卷。在另外一些实施例中,也可以设置相应的设备采集相应的数据,例如通过声音传感器对打鼾音量进行监测。此外,还可以由护士或监护任何等,通过在目标对象睡眠时对其睡眠状态进行监测,并填写相应的数据。
对于目标对象的调查问卷的填写结果按照一定规则进行标准化处理后,发送至主机端,作为与目标对象对应的多模态数据。
实施时,根据目标对象填写的调查问卷的调查结果的量化指标作为调研数据。
步骤103:根据所述体征数据和所述多模态数据生成所述目标对象的身体状态数据。
在确定了体征数据和多模态数据之后,将获得的体征数据和多模态数据作为目标对象的身体状态数据。
本公开实施例还提供一种健康评估方法。
如图3所示,在一个实施例中,该健康评估方法包括以下步骤:
步骤301:获取目标对象的身体状态数据。
本实施例中,首先获取目标对象的身体状态数据,其中,身体状态数据是通过上述的数据处理方法得到的,此处不再赘述。
步骤302:将所述身体状态数据输入健康评估模型获得对所述目标对象患目标疾病的健康评估结果,其中,所述健康评估模型是预训练的,以身体状态数据为输入,以目标疾病的患病概率为输出的模型。
本实施例中,通过设置预训练的健康评估模型,能够方便快捷的根据输入的身体数据获得对于目标对象患病的预测结果,减少了人工参与,节约了人力资源,能够准确快捷的生成目标对象患病的初步预测结果,能够为目标对象就医或医生诊断提供重要的参考信息。
如图4所示,在一些实施例中,健康评估模型包括集成的第一模型、第二模型和第三模型。在一些实施例中,第一模型为ARIMA模型,第二模型为Informer模型,第三模型为N-BeatXs模型。本实施例中,第一模型和第二模型的输入数据包括体征数据,如图5所示,第三模型的输入数据包括体征数据和多模态数据,进一步的,多模态数据包括影像数据和调研数据。
需要理解的是,ARIMA模型是传统机器学习中的时间序列模型,对短时的弱平稳序列预测效果较好,Informer模型对长时间的预测结果比较好,它是针对时序序列的特点,在Transformer模型基础上增加了self-attention蒸馏机制和生成式的Decoder等优化方案,使时序预测的复杂度和效率得到了很大的改进。此外,本实施例中将量化指标的数据输入到N-BeatsX模型中,N-BeatsX模型能够同时输入时序数据和外部变量,因为从医学角度来说外部特征对疾病的影响非常重要,通过N-BeatXs模型能够捕捉到其他因素的影响。
本实施例的技术方案中,设置了集成的多个模型对目标对象的身体状态数据进行处理,利用不同模型的不同特性,以获取对于目标疾病更加准确的健康评估结果。
如图4所示,在一些实施例中,健康评估模型还包括第四模型,第四模型是以重采样的体征数据为输入,以目标疾病的患病概率为输出的模型。在一些实施例中,第四模型为Informer模型。
在一些实施例中,所述将所述健康评估模型获得对所述目标对象患目标疾病的健康评估结果,包括:
将所述体征数据重采样为高频数据和低频数据,其中,所述高频数据的采样频率大于所述低频数据的采样频率,所述低频数据的采样频率在每一监测周期内不少于两次;
将所述低频数据按所述高频数据的采样频率进行差值处理;
分别将所述高频数据和经过差值处理的所述低频数据输入所述第四模型获对所述体征数据的周期性趋势的预测结果。
本实施例中,对监测数据进行重采样,将监测数据重采样为低频数据和高频数据,并将重采样后的监测数据分别输入第四模型中。
如图6所示,本实施例中,第四模型具体包括处理低频数据的第四模型A和处理高频数据的第四模型B。
为使低频数据模型能够分析到周期性变化,根据香农定理,低频采样数据若想获取到周期性的变化,应以不小于每天两次的采样频率进行采样。在下采样获得低频数据后,为了与高频数据相加,使用与高频数据同样的频率对低频数据进行插值,本实施例中,具体选择了分段线性插值。
本实施例中,第四模型的输出均为五个类别的分类概率,即对应上述0至4,将低频数据和高频数据分别通过模型进行相加后再计算,使用交叉熵损失函数计算loss,优化时将损失同时回传到低频数据对应的第四模型A和高频数据对应的第四模型B中。
在一些实施例中,将所述身体状态数据输入健康评估模型获得对所述目标对象患目标疾病的健康评估结果,包括:
将所述第一模型、所述第二模型、所述第三模型和所述第四模型的输出结果按照时间拼接后,输入第五模型进行集成训练获得所述健康评估模型。
在其中一些实施例中,第五模型为LightGBM模型,本实施例中,最后对第一模型、第二模型、第三模型和第四模型的输出结果输入第五模型,进行集成训练,将训练获得的模型整体作为健康评估模型。
在其中一些实施例中,集成训练过程中,将第一模型、第二模型、第三模型和第四模型的参数冻结,使之不再改变,然后将原始数据分批次输入,将这几个模型的输出数据拼接后给到LightGBM模型,输出为上述0至4共计五个类别的概率,使用交叉熵作为损失函数,SGD随机梯度下降法作为优化方法进行集成训练,获得健康评估模型。
本实施例的技术方案中,生成的健康评估模型的输出结果可以是0至4共计五个级别的健康评估结果,其中,0代表阴性,未患病,1至4分别代表不同的患病严重等级。
实施时,可以以检查结果、诊断单等形式向用户推送上述患病等级,为了便于用户了解其患病等级,还可以在推送结果中增加对于该患病等级的详细介绍或描述,同时推送相应的医嘱,例如增加饮食习惯、生活习惯、戒烟建议等各种附加信息。
在另外一些实施例中,也可以将预测结果发送给专业人员,例如医生,由医生参考该预测结果形成医嘱或诊疗结果,并结合相应的治疗手段等附加信息,一起推送给目标对象。
本公开实施例还提供一种数据处理装置。
如图7所示,在一个实施例中,该数据处理装置700包括:
体征数据获取模块701,用于获取目标对象的体征数据,其中,所述体征数据包括对所述目标对象的体征进行监测获得的监测数据以及根据所述监测数据对所述体征数据进行补全的补全数据;
多模态数据采集模块702,用于采集所述目标对象的多模态数据,其中,所述多模态数据包括目标对象的影像数据和针对预设症状的调研数据中的至少一项;
身体状态数据生成模块703,用于根据所述体征数据和所述多模态数据生成所述目标对象的身体状态数据。
在一些实施例中,所述体征数据获取模块701包括:
获取子模块,用于获取对所述目标对象的体征进行监测获得的监测数据;
分箱子模块,用于对所述监测数据分箱;
分组子模块,用于按照预设的监测周期将分箱后的所述监测数据分组;
补全子模块,用于生成补全每一监测周期内缺失的所述监测数据的补全数据;
体征数据确认子模块,用于将所述监测数据和所述补全数据作为所述目标对象的体征数据。
在一些实施例中,所述分箱子模块,具体用于根据监测数据对所述目标疾病的影响程度对所述监测数据进行分箱。
在一些实施例中,所述分箱子模块,具体用于通过最小熵分箱法将所述监测数据分箱。
在一些实施例中,还包括:
监测周期检测模块,用于检测所述监测周期中第一周期的数量,其中,所述第一周期为目标时刻的监测数据缺失的监测周期;
监测数据确定模块,用于在所述第一周期的数量大于预设数量阈值的情况下,根据第二周期的目标时刻的监测数据确定所述第一周期的目标时刻的监测数据,其中,所述第二周期为目标时刻的监测数据未缺失的监测周期。
在一些实施例中,所述补全子模块,具体用于通过三次样条插值生成所述监测数据的补全数据。
在一些实施例中,所述多模态数据采集模块702包括:
问卷推送子模块,用于向所述目标对象推送针对所述预设症状的调查问卷;
调研数据接收子模块,用于接收所述目标对象针对所述调查问卷输入的调研数据,其中,所述调研数据包括对于所述预设症状设置的各问题的多个选项中的至少一个选项的选择输入;
多模态数据生成子模块,用于将所述调研数据按照预设规则标准化形成多模态数据,其中,标准化的所述调研数据用于作为健康评估模型的外部变量。
本实施例的数据处理装置700能够实现上述数据处理方法实施例的各个步骤,并能实现基本相同的技术效果,此处不再赘述。
本公开实施例还提供一种健康评估装置,包括:
身体状态数据获取模块,用于获取目标对象的身体状态数据,其中,所述身体状态数据是通过第一方面中任一项所述的数据处理方法得到的;
健康评估模块,用于将所述身体状态数据输入健康评估模型获得对所述目标对象患目标疾病的健康评估结果,其中,所述健康评估模型是预训练的,以身体状态数据为输入,以目标疾病的患病概率为输出的模型。
在一些实施例中,所述健康评估模型包括集成的第一模型、第二模型和第三模型,其中,所述第一模型为ARIMA模型,所述第二模型为Informer模型,所述第三模型为N-BeatXs模型。
在一些实施例中,所述第一模型和所述第二模型的输入数据包括所述体征数据;
所述第三模型的输入数据包括所述体征数据和所述多模态数据。
在一些实施例中,所述健康评估模型还包括第四模型,所述第四模型是以重采样的所述体征数据为输入,以目标疾病的患病概率为输出的模型。
在一些实施例中,所述第四模型为Informer模型。
在一些实施例中,所述健康评估模块,包括:
重采样子模块,用于将所述体征数据重采样为高频数据和低频数据,其中,所述高频数据的采样频率大于所述低频数据的采样频率,所述低频数据的采样频率在每一监测周期内不少于两次;
差值处理子模块,用于将所述低频数据按所述高频数据的采样频率进行差值处理;
输入子模块,用于分别将所述高频数据和经过差值处理的所述低频数据输入所述第四模型获对所述体征数据的周期性趋势的预测结果。
在一些实施例中,所述健康评估模块,具体用于将所述第一模型、所述第二模型、所述第三模型和所述第三模型的输出结果按照时间拼接后,输入第五模型进行集成训练获得所述健康评估模型。
在一些实施例中,所述第五模型为LightGBM模型。
在一些实施例中,所述目标疾病为慢性阻塞性肺疾病。
本实施例的健康评估装置能够实现上述健康评估方法实施例的各个步骤,并能实现基本相同的技术效果,此处不再赘述。
本公开实施例还提供一种电子设备。请参见图8,电子设备可以包括处理器801、存储器802及存储在存储器802上并可在处理器801上运行的程序8021。
程序8021被处理器801执行时可实现上述方法实施例中的任意步骤及达到相同的有益效果,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法的全部或者部分步骤是可以通过程序指令相关的硬件来完成,所述的程序可以存储于一可读取介质中。
本公开实施例还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时可实现上述方法实施例中的任意步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
所述的存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
需要说明的是,应理解以上各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,确定模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,各个模块、单元、子单元或子模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific IntegratedCircuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
以上所述是本公开实施例的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本公开所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本公开的保护范围。
Claims (20)
1.一种数据处理方法,包括以下步骤:
获取目标对象的体征数据,其中,所述体征数据包括对所述目标对象的体征进行监测获得的监测数据以及根据所述监测数据对所述体征数据进行补全的补全数据;
采集所述目标对象的多模态数据,其中,所述多模态数据包括目标对象的影像数据和针对预设症状的调研数据中的至少一项;
根据所述体征数据和所述多模态数据生成所述目标对象的身体状态数据。
2.如权利要求1所述的方法,其中,所述获取目标对象的体征数据,包括:
获取对所述目标对象的体征进行监测获得的监测数据;
对所述监测数据分箱;
按照预设的监测周期将分箱后的所述监测数据分组;
生成补全每一监测周期内缺失的所述监测数据的补全数据;
将所述监测数据和所述补全数据作为所述目标对象的体征数据。
3.如权利要求2所述的方法,其中,所述对所述监测数据分箱,包括:
根据监测数据对所述目标疾病的影响程度对所述监测数据进行分箱。
4.如权利要求3所述的方法,其中,所述对所述监测数据分箱,包括:
通过最小熵分箱法将所述监测数据分箱。
5.如权利要求2至4中任一项所述的方法,其中,所述按照预设的监测周期将分箱后的所述监测数据分组之后,所述方法还包括:
检测所述监测周期中第一周期的数量,其中,所述第一周期为目标时刻的监测数据缺失的监测周期;
在所述第一周期的数量大于预设数量阈值的情况下,根据第二周期的目标时刻的监测数据确定所述第一周期的目标时刻的监测数据,其中,所述第二周期为目标时刻的监测数据未缺失的监测周期。
6.如权利要求2所述的方法,其中,所述生成补全每一监测周期内缺失的所述监测数据的补全数据,包括:
通过三次样条插值生成所述监测数据的补全数据。
7.如权利要求1所述的方法,其中,所述采集所述目标对象的多模态数据,包括:
向所述目标对象推送针对所述预设症状的调查问卷;
接收所述目标对象针对所述调查问卷输入的调研数据,其中,所述调研数据包括对于所述预设症状设置的各问题的多个选项中的至少一个选项的选择输入;
将所述调研数据按照预设规则标准化形成多模态数据,其中,标准化的所述调研数据用于作为健康评估模型的外部变量。
8.一种健康评估方法,包括以下步骤:
获取目标对象的身体状态数据,其中,所述身体状态数据是通过权利要求1至7中任一项所述的数据处理方法得到的;
将所述身体状态数据输入健康评估模型获得对所述目标对象患目标疾病的健康评估结果,其中,所述健康评估模型是预训练的,以身体状态数据为输入,以目标疾病的患病概率为输出的模型。
9.如权利要求8所述的方法,其中,所述健康评估模型包括集成的第一模型、第二模型和第三模型,其中,所述第一模型为ARIMA模型,所述第二模型为Informer模型,所述第三模型为N-BeatXs模型。
10.如权利要求9所述的方法,其中,所述第一模型和所述第二模型的输入数据包括所述体征数据;
所述第三模型的输入数据包括所述体征数据和所述多模态数据。
11.如权利要求9所述的方法,其中,所述健康评估模型还包括第四模型,所述第四模型是以重采样的所述体征数据为输入,以目标疾病的患病概率为输出的模型。
12.如权利要求11所述的方法,其中,所述第四模型为Informer模型。
13.如权利要求11或12所述的方法,其中,所述将所述健康评估模型获得对所述目标对象患目标疾病的健康评估结果,包括:
将所述体征数据重采样为高频数据和低频数据,其中,所述高频数据的采样频率大于所述低频数据的采样频率,所述低频数据的采样频率在每一监测周期内不少于两次;
将所述低频数据按所述高频数据的采样频率进行差值处理;
分别将所述高频数据和经过差值处理的所述低频数据输入所述第四模型获对所述体征数据的周期性趋势的预测结果。
14.如权利要求11或12所述的方法,其中,将所述身体状态数据输入健康评估模型获得对所述目标对象患目标疾病的健康评估结果,包括:
将所述第一模型、所述第二模型、所述第三模型和所述第三模型的输出结果按照时间拼接后,输入第五模型进行集成训练获得所述健康评估模型。
15.如权利要求14所述的方法,其中,所述第五模型为LightGBM模型。
16.如权利要求8至12中任一项所述的方法,其中,所述目标疾病为慢性阻塞性肺疾病。
17.一种数据处理装置,包括:
体征数据获取模块,用于获取目标对象的体征数据,其中,所述体征数据包括对所述目标对象的体征进行监测获得的监测数据以及根据所述监测数据对所述体征数据进行补全的补全数据;
多模态数据采集模块,用于采集所述目标对象的多模态数据,其中,所述多模态数据包括目标对象的影像数据和针对预设症状的调研数据中的至少一项;
身体状态数据生成模块,用于根据所述体征数据和所述多模态数据生成所述目标对象的身体状态数据。
18.一种健康评估装置,包括:
身体状态数据获取模块,用于获取目标对象的身体状态数据,其中,所述身体状态数据是通过权利要求1至7中任一项所述的数据处理方法得到的;
健康评估模块,用于将所述身体状态数据输入健康评估模型获得对所述目标对象患目标疾病的健康评估结果,其中,所述健康评估模型是预训练的,以身体状态数据为输入,以目标疾病的患病概率为输出的模型。
19.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现如权利要求1至7中任一项所述的方法中的步骤;
或者实现如权利要求8至16中任一项所述的方法中的步骤。
20.一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法中的步骤;
或者实现如权利要求8至16中任一项所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310752854.4A CN116779166A (zh) | 2023-06-25 | 2023-06-25 | 数据处理方法及装置、健康评估方法及装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310752854.4A CN116779166A (zh) | 2023-06-25 | 2023-06-25 | 数据处理方法及装置、健康评估方法及装置、电子设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116779166A true CN116779166A (zh) | 2023-09-19 |
Family
ID=87987532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310752854.4A Pending CN116779166A (zh) | 2023-06-25 | 2023-06-25 | 数据处理方法及装置、健康评估方法及装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116779166A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118070849A (zh) * | 2024-02-07 | 2024-05-24 | 湖南工程学院 | 基于健康评估的Informer风电功率预测模型的优化方法 |
-
2023
- 2023-06-25 CN CN202310752854.4A patent/CN116779166A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118070849A (zh) * | 2024-02-07 | 2024-05-24 | 湖南工程学院 | 基于健康评估的Informer风电功率预测模型的优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Föll et al. | FLIRT: A feature generation toolkit for wearable data | |
US20240221948A1 (en) | Systems and methods of analyte measurement analysis | |
US11139048B2 (en) | Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions | |
US20220093215A1 (en) | Discovering genomes to use in machine learning techniques | |
Tjahjadi et al. | Noninvasive blood pressure classification based on photoplethysmography using k-nearest neighbors algorithm: a feasibility study | |
US20180107798A1 (en) | Method for aiding a diagnosis, program and apparatus | |
Rogers et al. | Influence of artefact correction and recording device type on the practical application of a non-linear heart rate variability biomarker for aerobic threshold determination | |
KR20090024808A (ko) | 치매 및 치매성 장애의 평가 | |
CN108601566B (zh) | 一种精神压力评测方法和装置 | |
Nuuttila et al. | Validity of the wrist-worn polar vantage V2 to measure heart rate and heart rate variability at rest | |
CN107595249B (zh) | 基于脉搏波的怀孕女性筛查方法 | |
Elgendi | TERMA framework for biomedical signal analysis: An economic-inspired approach | |
Neshitov et al. | Wavelet analysis and self-similarity of photoplethysmography signals for HRV estimation and quality assessment | |
Desquins et al. | A survey of photoplethysmography and imaging photoplethysmography quality assessment methods | |
Wang et al. | Machine learning assisted wearable wireless device for sleep apnea syndrome diagnosis | |
Giorgio et al. | FPGA-based decision support system for ECG analysis | |
CN116779166A (zh) | 数据处理方法及装置、健康评估方法及装置、电子设备和可读存储介质 | |
Fuadah et al. | Classification of blood pressure levels based on photoplethysmogram and electrocardiogram signals with a concatenated convolutional neural network | |
CN116019429B (zh) | 基于生理指标的健康监测方法、装置、设备及存储介质 | |
GB2555381A (en) | Method for aiding a diagnosis, program and apparatus | |
CN117423423B (zh) | 一种基于卷积神经网络的健康档案整合方法、设备及介质 | |
Kulin et al. | Preclinical, multi-aspect assessment of the reliability of a photoplethysmography-based telemonitoring system to track cardiovascular status | |
Saleena | Analysis of machine learning and deep learning prediction models for sepsis and neonatal sepsis: A systematic review | |
Konnova et al. | Application of machine learning algorithms for SCG signal classification | |
CN118680528B (zh) | 一种新生儿吸吮能力评估方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |