CN109447183B

CN109447183B - 预测模型训练方法、装置、设备以及介质

Info

Publication number: CN109447183B
Application number: CN201811428739.7A
Authority: CN
Inventors: 王希; 何光宇; 平安
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-10-16
Anticipated expiration: 2038-11-27
Also published as: CN109447183A

Abstract

本申请公开了一种模型训练方法，包括：获取第一样本数据集，所述第一样本数据集中的每个样本数据包括被测者的三维脑部图像、非影像信息及第一标注标签，所述第一标注标签用于标识该被测者患有神经系统变性疾病或者正常；利用所述第一样本数据集对神经网络模型进行训练，生成端到端的分类模型，所述分类模型以第一指定被测者的三维脑部图像和非影像信息为输入，并以第一指定被测者的分类标签为输出，所述第一指定被测者的分类标签用于标识所述第一指定被测者患有所述神经系统变性疾病或者正常。该方法具有较高的准确率，能够为临床医生提供参考意见，以提高临床医生的工作效率。本申请还公开了一种模型训练装置、设备以及计算机存储介质。

Description

预测模型训练方法、装置、设备以及介质

技术领域

本申请涉及图像处理技术领域，具体涉及一种预测模型训练方法、装置、设备以及介质。

背景技术

神经系统变性疾病为一类缓慢起病、病程呈进行性、预后不良的疾病，迄今为止尚未有效的根治方法，临床常见的神经变性疾病有帕金森病(Parkinson's disease，PD)、肌萎缩侧索硬化(amyotrophic lateral sclerosis，ALS)、亨廷顿舞蹈病(Huntington'sdisease，HD)和阿尔茨海默病(Alzheimer's disease，AD)等，这些疾病虽病因各异但在病理上均有中枢神经不同部位及不同程度的神经元脱失和功能异常。

目前在临床中，常常利用人工智能的方法，通过患者的脑部图像对神经系统变性疾病进行计算机辅助识别以及预测，从而为临床医生提供参考意见，以提高临床医生的工作效率。

目前应用比较广泛的方案是，先对脑部图像进行预处理以确定局部区域，然后再基于传统机器学习方法训练所得的神经网络模型对脑部图像中局部区域进行分析，以得出识别或者预测结果，在实际应用中这种方案的效果并不理想，其所提供的参考数据可靠性并不高。

发明内容

本申请实施例提供了一种模型训练方法，通过以包括三维脑部图像、非影像信息在内的多模态样本数据训练三维神经网络模型，基于该三维神经网络模型对被测者患有神经系统变性疾病或者正常进行预测，提高了预测准确率。另外，本申请实施例为了保证上述方法在实际中的应用和实现，还提供了一种模型训练装置、设备以及计算机存储介质。

有鉴于此，本申请第一方面提供了一种模型训练方法，所述方法包括：

获取第一样本数据集，所述第一样本数据集中的每个样本数据包括被测者的三维脑部图像、非影像信息及第一标注标签，所述第一标注标签用于标识该被测者患有神经系统变性疾病或者正常；

利用所述第一样本数据集对神经网络模型进行训练，生成端到端的分类模型，所述分类模型以第一指定被测者的三维脑部图像和非影像信息为输入，并以第一指定被测者的分类标签为输出，所述第一指定被测者的分类标签用于标识所述第一指定被测者患有所述神经系统变性疾病或者正常。

可选的，所述获取第一样本数据集，包括：

从第一数据库中采集被测者的三维脑部图像及被测者的第一标注标签；

从第二数据库中采集被测者的非影像信息；

根据被测者的标识将被测者的三维脑部图像、非影像信息以及被测者的第一标注标签进行关联，生成一个样本数据；

根据多个样本数据生成第一样本数据集。

可选的，所述第一数据库中被测者的三维脑部图像是通过以下方式生成的：

获取针对被测者的脑部进行间隔扫描所得的多幅图像；

对所述多幅图像进行时间校正和头部校正，得到校正后的多幅图像；

将所述校正后的多幅图像进行空间标准化处理，得到符合标准脑模板的多幅图像；

针对所述符合标准脑模板的多幅图像，从各个图像中剔除非脑组织部分，得到被测者的三维脑部图像。

可选的，所述利用所述第一样本数据集对神经网络模型进行训练，生成端到端的分类模型，包括：

将所述第一样本数据集中样本数据输入至神经网络模型，获得所述神经网络模型输出被测者的分类标签；

根据被测者的分类标签与被测者的第一标注标签，确定所述神经网络模型的损失函数；

根据所述损失函数，更新所述神经网络模型的模型参数；

当所述神经网络模型的损失函数满足预设条件，则将具有当前模型参数的所述神经网络模型作为端到端的分类模型。

可选的，所述非影像信息包括以下信息中的至少一种：

年龄、性别、病史、基因信息、脑脊液检测信息、简易精神状态检查信息以及蒙特利尔认知评估量表。

可选的，所述第一样本数据集中的每个样本数据包括被测者的三维脑部图像、非影像信息及标注标签；则所述第一标注标签用于标识被测者为正常人，或者，用于标识被测者为阿尔茨海默病(AD)患者，或者，用于标识被测者为轻度认知障碍(MCI)患者；

则所述端到端的分类模型为三分类模型。

可选的，所述第一样本数据集中的每个样本数据包括被测者的三维脑部图像、非影像信息及第一标注标签；则所述第一标注标签用于标识被测者为正常人，或者，用于标识被测者为阿尔茨海默病(AD)患者；

则所述端到端的分类模型为二分类模型。

可选的，所述方法还包括：

获取第二样本数据集，所述第二样本数据集中的每个样本数据包括轻度认知障碍者在N年前拍摄的三维脑部图像及对应的第二标注标签，所述第二标注标签用于标识该轻度认知障碍者在N年后病情转化为阿尔茨海默病或者正常；所述N为正数；

利用所述第二样本数据集对所述二分类模型进行迁移学习，生成端到端的预测模型，所述预测模型以第二指定被测者的三维脑部图像为输入，并以第二指定被测者的病情转化标签为输出，所述病情转化标签用于标识所述第二指定被测者的病情转化为阿尔茨海默病或者正常。

可选的，所述三维脑部图像为脑磁共振(MRI)图像。

可选的，所述神经网络模型包括级联的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一全连接层以及第二全连接层。

本申请第二方面提供了一种模型训练装置，所述装置包括：

第一获取模块，用于获取第一样本数据集，所述第一样本数据集中的每个样本数据包括被测者的三维脑部图像、临床非影像信息及对应的第一标注标签，所述第一标注标签用于标识该被测者患有神经系统变性疾病或者正常；

第一训练模块，用于利用所述第一样本数据集对神经网络模型进行训练，生成端到端的分类模型，所述分类模型以第一指定被测者的三维脑部图像和临床非影像信息为输入，并以第一指定被测者的分类标签为输出；所述第一指定被测者的分类标签用于标识所述第一指定被测者患有所述神经系统变性疾病或者正常。

可选的，所述第一获取模块包括：

第一采集子模块，用于从第一数据库中采集被测者的三维脑部图像及被测者的第一标注标签；

第二采集子模块，用于从第二数据库中采集被测者的非影像信息；

关联子模块，用于根据被测者的标识将被测者的三维脑部图像、非影像信息以及被测者的第一标注标签进行关联，生成一个样本数据；

生成子模块，用于根据多个样本数据生成第一样本数据集。

可选的，所述第一采集子模块在从第一数据库中采集被测者的三维脑部图像时，具体用于：

获取针对被测者的脑部进行间隔扫描所得的多幅图像；

可选的，所述第一训练模块包括：

输入子模块，用于将所述第一样本数据集中样本数据输入至神经网络模型，获得所述神经网络模型输出被测者的分类标签；

第一确定子模块，用于根据被测者的分类标签与被测者的第一标注标签，确定所述神经网络模型的损失函数；

更新子模块，用于根据所述损失函数，更新所述神经网络模型的模型参数；

第二确定子模块，用于当所述神经网络模型的损失函数满足预设条件，则将具有当前模型参数的所述神经网络模型作为端到端的分类模型。

可选的，所述非影像信息包括以下信息中的至少一种：

则所述端到端的分类模型为三分类模型。

则所述端到端的分类模型为二分类模型。

可选的，所述装置还包括：

第二获取模块，用于获取第二样本数据集，所述第二样本数据集中的每个样本数据包括轻度认知障碍者在N年前拍摄的三维脑部图像及对应的第二标注标签，所述第二标注标签用于标识该轻度认知障碍者在N年后病情转化为阿尔茨海默病或者正常；所述N为正数；

第二训练模块，用于利用所述第二样本数据集对所述二分类模型进行迁移学习，生成端到端的预测模型，所述预测模型以第二指定被测者的三维脑部图像为输入，并以第二指定被测者的病情转化标签为输出，所述病情转化标签用于标识所述第二指定被测者的病情转化为阿尔茨海默病或者正常。

可选的，所述三维脑部图像为脑磁共振(MRI)图像。

本申请第三方面提供了一种设备，所述设备包括存储器和处理器；

所述存储器，用于存储端到端的分类模型，所述分类模型是基于本申请第一方面所述的模型训练方法训练得到的；

所述处理器，用于调用所述存储器中的所述分类模型，通过所述分类模型对第一指定被测者的三维脑部图像和临床非影像信息进行分析，以输出第一指定被测者的分类标签。

本申请第四方面提供了一种设备，所述设备包括存储器和处理器；

所述存储器，用于存储端到端的预测模型，所述预测模型是基于本申请第一方面所述的模型训练方法训练得到的；

所述处理器，用于调用所述存储器中的所述预测模型，通过所述预测模型对第二指定被测者的三维脑部图像进行分析，以输出第二指定被测者的病情转化标签。

本申请第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在设备上运行时，使得所述终端设备执行本申请第一方面所述模型训练方法。

本申请第五方面提供了一种计算机程序产品，所述计算机程序产品在设备上运行时，使得所述设备执行本申请第一方面所述模型训练方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种模型训练方法，该方法以包括被测者的三维脑部图像、非影像信息及标识被测者患有神经系统变性疾病或者正常的第一标注标签在内的信息作为样本数据，利用该样本数据直接对神经网络模型进行训练，由于训练过程是以三维脑部图像整体为输入，而不是以图像的局部区域作为输入，一方面可以从全局角度对脑部进行分析，避免横跨脑部不同区域的信息遗漏，而且，引入了非影像信息，基于三维脑部图像以及非影像信息在内的多模态信息进行训练，可以提高分类的准确率，另一方面，无需对输入图像进行预处理以确定局部区域，可以生成端到端的分类模型，简化了训练过程。基于该方法训练得到的分类模型能够根据第一指定被测者的三维脑部图像和非影像信息，对第一指定被测者是患有神经系统变性疾病或者正常进行预测，其预测结果具有较高的可靠性，能够为临床医生提供参考意见，以提高临床医生的工作效率。

附图说明

图1为本申请实施例中一种模型训练方法的场景架构图；

图2为本申请实施例中一种模型训练方法的流程图；

图3为本申请实施例中一种模型训练方法的流程图；

图4为本申请实施例中神经网络模型的一个结构示意图；

图5为本申请实施例中一种模型训练方法的应用场景示意图；

图6为本申请实施例中一种模型训练装置的结构示意图；

图7为本申请实施例中一种模型训练设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对传统机器学习方法训练所得的神经网络模型对脑部图像中局部数据进行分析以得出预测结果，在实际应用中的效果不理想，其所提供的参考数据可靠性不高的技术问题，本申请提供了一种模型训练方法，该方法以包括被测者的三维脑部图像、非影像信息及标识被测者患有神经系统变性疾病或者正常的第一标注标签在内的信息作为样本数据，利用该样本数据直接对神经网络模型进行训练，由于训练过程是以三维脑部图像整体为输入，而不是以图像的局部区域作为输入，一方面可以从全局角度对脑部进行分析，避免横跨脑部不同区域的信息遗漏，而且，引入了非影像信息，基于三维脑部图像以及非影像信息在内的多模态信息进行训练，可以提高分类的准确率，另一方面，无需对输入图像进行预处理以确定局部区域，可以生成端到端的分类模型，简化了训练过程。基于该方法训练得到的分类模型能够根据第一指定被测者的三维脑部图像和非影像信息，对第一指定被测者是患有神经系统变性疾病或者正常进行预测，其预测结果具有较高的可靠性，能够为临床医生提供参考意见，以提高临床医生的工作效率。

可以理解，本申请提供的模型训练方法可以应用于具有图像处理能力的数据处理设备。该数据处理设备可以是终端设备，包括但不限于：现有的、正在研发的或将来研发的智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机等。该数据处理设备还可以是服务器。需要说明的是，该数据处理设备可以是独立的终端设备或者服务器，也可以是多个终端设备或者多个服务器形成的集群。

本申请提供的模型训练方法以应用程序的形式存储于数据处理设备，数据处理设备通过执行上述应用程序，以实现本申请提供的模型训练方法。为了方便介绍，后文均以服务器作为数据处理设备，对本申请提供的模型训练方法进行介绍。

为了使得本申请的技术方案更加清楚、易于理解，下面将结合具体场景对本申请模型训练方法进行介绍。参见图1所示的模型训练方法的场景架构图，该应用场景中包括服务器10，服务器10中部署有神经网络模型。在具体实现时，服务器10获取第一样本数据集，第一样本数据集中的每个样本数据包括被测者的三维脑部图像、非影像信息及第一标注标签，然后服务器10利用第一样本数据集对神经网络模型进行训练，具体为基于第一样本数据集中的样本数据更新神经网络模型的模型参数，从而生成端到端的分类模型，该分类模型以第一指定被测者的三维脑部图像和非影像信息为输入，以第一指定被测者的分类标签为输出。

接下来，从服务器的角度，对本申请实施例提供的模型训练方法进行详细介绍。

参见图2所示的模型训练方法的流程图，该方法包括：

S201：获取第一样本数据集。

其中，所述第一样本数据集中的每个样本数据包括被测者的三维脑部图像、非影像信息及第一标注标签，所述第一标注标签用于标识该被测者患有神经系统变性疾病或者正常。

在本实施例中，服务器采用深度学习方法进行模型训练，而深度学习是基于对大量的样本数据进行学习而实现的，因此，服务器需要获取包括大量样本数据的第一样本数据集，以用于模型训练。

本实施例所要解决的问题实质上属于分类问题，即对被测者是患有神经系统变性疾病还是正常进行分类，因此，服务器采用预先标注有第一标注标签的样本数据进行离线训练。在具体实现时，每个样本数据不仅包括被测者的三维脑部图像及第一标注标签，还包括非影像信息，如此，可以通过包含多模态信息的样本数据进行模型训练，以提高模型分类准确率。

针对第一样本数据集，标识被测者患有神经系统变性疾病的样本数据和标识被测者正常的样本数据的比例可以根据实际需求而设定，其中，标识被测者患有神经系统变性疾病的样本数据的比例一般高于标识被测者正常的样本数据的比例。在一些可能的实现方式中，可以根据经验值将其比例设置为80％:20％。

S202：利用所述第一样本数据集对神经网络模型进行训练，生成端到端的分类模型。

具体地，服务器利用第一样本数据集，结合深度学习算法对神经网络模型进行训练，可以优化神经网络模型的模型参数，根据优化后的模型参数可以生成端到端的分类模型。

其中，所述分类模型以第一指定被测者的三维脑部图像和非影像信息为输入，并以第一指定被测者的分类标签为输出，所述第一指定被测者的分类标签用于标识所述第一指定被测者患有所述神经系统变性疾病或者正常。

第一指定被测者是指需要对其当前患有神经系统变性疾病或者处于正常状况进行预测的被测者。将第一指定被测者的三维脑部图像和非影像信息输入至分类模型，分类模型可以输出该第一指定被测者的分类标签，该分类标签即表征对该第一指定被测者是患有神经系统变性疾病还是正常的预测结果。

由上可知，本申请实施例提供了一种模型训练方法，该方法以包括被测者的三维脑部图像、非影像信息及标识被测者患有神经系统变性疾病或者正常的第一标注标签在内的信息作为样本数据，利用该样本数据直接对神经网络模型进行训练，由于训练过程是以三维脑部图像整体为输入，而不是以图像的局部区域作为输入，一方面可以从全局角度对脑部进行分析，避免横跨脑部不同区域的信息遗漏，而且，引入了非影像信息，基于三维脑部图像以及非影像信息在内的多模态信息进行训练，可以提高分类的准确率，另一方面，无需对输入图像进行预处理以确定局部区域，可以生成端到端的分类模型，简化了训练过程。基于该方法训练得到的分类模型能够根据第一指定被测者的三维脑部图像和非影像信息，对第一指定被测者是患有神经系统变性疾病或者正常进行预测，其预测结果具有较高的可靠性，能够为临床医生提供参考意见，以提高临床医生的工作效率。

针对图2所示实施例中的S201，本申请实施例还提供了获取第一样本数据集的具体实现方式，其具体包括如下步骤：

S2011：从第一数据库中采集被测者的三维脑部图像及被测者的第一标注标签。

可以理解，三维脑部图像一般是采用医学影像仪对被测者的脑部进行扫描生成的图像，一般以数字格式存在，因此可以通过数据库对被测者的三维脑部图像进行存储。应用到临床医学，医生可以根据被测者的三维脑部图像，结合其他非影像信息给出被测者患有神经系统变性疾病或者正常的诊断结论。为了方便管理，可以将被测者的三维脑部图像以及被测者的第一标注标签存储在数据库中，该数据库即为第一数据库。

在具体实现时，服务器可以从第一数据库中采集被测者的三维脑部图像，并采集被测者的诊断结论，将诊断结论作为被测者的第一标注标签，以便根据包括三维脑部图像和第一标注标签在内的信息生成样本数据。

其中，第一数据库中被测者的三维脑部图像可以通过以下方式生成：首先，获取针对被测者的脑部进行间隔扫描所得的多幅图像；然后对所述多幅图像进行时间校正和头部校正，得到校正后的多幅图像；将所述校正后的多幅图像进行空间标准化处理，得到符合标准脑模板的多幅图像；针对所述符合标准脑模板的多幅图像，从各个图像中剔除非脑组织部分，得到被测者的三维脑部图像。

其中，通过进行时间校正，可以避免多幅图像的时间差影响数据的准确性，通过头动校正，可以避免在扫描过程中因头动导致的误差。头动校正具体可以通过以第一幅图像为基准图像，通过旋转或平移等刚性变换将时间序列上的其它图像与第一幅图像的位置匹配，然后用内插值算法对这系列的图像重新采样实现。由于每个人的大脑的形状和大小均有差异，通过对图像进行空间标准化处理，可以实现对大量被测者的数据进行统一处理和统计分析。空间标准化具体有两种实现方式，一种实现方式为，将图像直接匹配到标准脑模板，另一种实现方式为将图像匹配到其结构像中，再进行标准化。再从标准化的图像中剔除包括头骨、头皮和硬脑膜等部分的非脑组织，如此，可以大幅度减小图像的规模，降低模型的计算量，减少训练模型所花费的时间。

可选的，在上述空间标准化处理之后，考虑到图像中往往携带有噪声，为了减少噪声对模型训练的影响，还可以采用空间平滑的方式对所述多幅图像进行平滑处理，将图像中的高频成分消除或抑制，从而减小图像的噪声。

在本实施例中，可以通过不同的医学影像技术扫描生成三维脑部图像。例如，可以通过核磁共振技术、计算机断层扫描技术等扫描生成三维脑部图像。基于此，三维脑部图像可以是脑磁共振(Magnetic Resonance Imaging，MRI)图像。当然，在本申请实施例其他可能的实现方式中，三维脑部图像也可以是电子计算机断层扫描(Computed Tomography，CT)图像。在实际应用中，由于MRI在识别神经系统病变方面独具优势，其具有高度的软组织分辨能力，可敏感地检测出组织成份中水含量的变化，不需使用对比剂即可显示血管结果，因而，采集被测者的MRI图像有利于神经系统变性疾病的诊断。

S2012：从第二数据库中采集被测者的非影像信息。

在被测者就诊过程中，还会生成被测者的非影像信息。非影像信息具体是指确定被测者患有神经系统变性疾病或者正常所需的、除影像格式以外的信息。非影像信息具体可以包括年龄、性别、病史、基因信息、脑脊液(Cerebro-Spinal Fluid，CSF)检测信息、简易精神状态检查信息(Mini-mental State Examination，MMSE)以及蒙特利尔认知评估量表(MoCA，Montreal cognitive assessment scale)中的至少一种。为了方便管理，常常将非影像信息存储在数据库中，其中，存储非影像信息的数据库即为第二数据库。

在具体实现时，服务器可以从第二数据库中采集被测者的非影像信息，如年龄、性别、病史等等，如此，服务器可以根据包括该非影像信息在内的信息生成样本数据。

其中，S1011和S1012的执行顺序并不影响本申请的具体实现，在一些可能的实现方式中，服务器可以根据实际需求同时执行S1011、S1012，或者按照设定的先后顺序执行S1011、S1012。

S2013：根据被测者的标识将被测者的三维脑部图像、非影像信息以及被测者的第一标注标签进行关联，生成一个样本数据。

可以理解，被测者的三维脑部图像、非影像信息以及第一标注标签是基于被测者的标识进行存储的，因此，服务器可以根据被测者的标识将三维脑部图像、非影像信息以及被测者的第一标注标签进行关联，从而生成样本数据。

其中，被测者的标识是指能够唯一表征被测者身份的标识。被测者的标识可以是被测者在就诊时所使用的编号、条形码或者二维码等等，在有些情况下，被测者的标识还可以是被测者的姓名等。以被测者的标识为姓名作为示例，服务器可以根据被测者的姓名在第一数据库中查找与该姓名相对应的三维脑部图像和第一标注标签，然后根据被测者的姓名在第二数据库中查找与该姓名相对应的非影像信息，服务器将根据被测者的姓名查找到的三维脑部图像、第一标注标签以及非影像信息进行关联，可以生成一个样本数据。

S2014：根据多个样本数据生成第一样本数据集。

具体地，针对每一三维脑部图像，可以根据被测者的标识将其与对应的非影像信息、第一标注标签关联生成样本数据，如此，服务器可以生成多个样本数据，根据多个样本数据可以生成第一样本数据集。

需要说明的是，第一样本数据集中的样本数据的数量、比例可以根据实际需求而设定。在具体实现时，服务器可以根据样本数据的数量以及比例，确定标识被测者患有神经系统变性疾病的样本数据的数量以及标识被测者正常的样本数据的数量，然后，从第一数据库中获取对应数量的第一标注标签，并基于各个第一标注标签对应的被测者的标识确定对应的三维脑部图像和非影像信息，然后基于被测者的标识对三维脑部图像、非影像信息以及第一标注标签进行关联，从而生成指定数量以及指定比例的样本数据。

针对图2所示实施例中的S202，本申请实施例还提供了利用所述第一样本数据集对神经网络模型进行训练，生成端到端的分类模型的具体实现方式，其具体包括如下步骤：

S2021：将所述第一样本数据集中样本数据输入至神经网络模型，获得所述神经网络模型输出被测者的分类标签。

具体地，服务器中部署有神经网络模型，服务器将第一样本数据集中的样本数据输入神经网络模型，该神经网络模型可以基于样本数据中的三维脑部图像以及非影像信息对被测者是患有神经系统变性疾病或者正常进行分类，输出被测者的分类标签。

S2022：根据被测者的分类标签与被测者的第一标注标签，确定所述神经网络模型的损失函数。

在机器学习中，损失函数常用于估量模型的预测值与真实值的不一致程度。具体到本实施例，分类标签即为预测值，第一标注标签即为真实值，根据被测者的分类标签和第一标注标签，可以计算神经网络模型的损失函数。

S2023：根据所述损失函数，更新所述神经网络模型的模型参数。

可以理解，损失函数越小，模型的鲁棒性越好。基于此，服务器可以根据损失函数，沿着使得损失函数减小的方向更新神经网络模型的模型参数。在具体实现时，服务器可以根据损失函数，结合梯度下降法或者反向传播算法等更新神经网络模型的模型参数。

S2024：当所述神经网络模型的损失函数满足预设条件，则将具有当前模型参数的所述神经网络模型作为端到端的分类模型。

当神经网络模型的损失函数满足预设条件时，可以停止模型训练，并将具有当前模型参数的神经网络模型作为端到端的分类模型。其中，预设条件可以根据实际需求而设置，例如，预设条件可以为损失函数处于收敛状态，在有些情况下，预设条件也可以是损失函数小于预设阈值。

以上为本申请实施例提供的利用所述第一样本数据集对神经网络模型进行训练，生成端到端的分类模型的具体实现方式。为了使得本申请的技术方案更加易于理解，下面针对阿尔茨海默病(Alzheimer disease，AD)的识别对本申请提供的模型训练方法进行介绍。

AD也称老年性痴呆，属于一种中枢神经系统变性疾病，与正常人相比，AD患者表现为渐进性记忆障碍、认知功能障碍、人格改变及语言障碍等神经精神症状，严重影响社交、职业与生活功能。需要说明的是，在正常衰老与老年性痴呆之间还具有一种中间状态，即轻度认知障碍(mild cognitive impairment，MCI)。MCI是一种认知障碍症候群。与年龄和教育程度匹配的正常老人相比，MCI患者存在轻度认知功能减退，但日常能力没有受到明显影响。无论是AD还是MCI，其均属于神经系统变性疾病，通过三维脑部图像可以对AD或者MCI等进行区分。

在实际应用中，由于MRI图像在识别神经系统病变方面具有的优势，采用MRI图像生成样本数据，进而生成样本数据集，对于训练模型更为有利。接下来，以MRI图像作为三维脑部图像的一个示例，对本申请的模型训练方法进行介绍，需要说明，其并不构成对本申请技术方案的限定，在本申请实施例其他可能的实现方式中，服务器还可以根据CT图像等三维脑部图像生成样本数据，并基于该样本数据进行模型训练。

在一些可能的实现实现方式中，第一样本数据集中的每个样本数据包括被测者的MRI图像、非影像信息及第一标注标签；若第一标注标签用于标识被测者为正常人，或者，用于标识被测者为AD患者，则基于该样本数据训练所得端到端的分类模型为二分类模型，该二分类模型可以根据被测者的MRI图像和非影像信息，预测被测者是正常人，还是患有AD。

在另一些可能的实现实现方式中，第一样本数据集中的每个样本数据包括被测者的MRI图像、非影像信息及第一标注标签；若第一标注标签用于标识被测者为正常人，或者，用于标识被测者为AD患者，或者用于标识被测者为MCI，则基于该样本数据训练所得端到端的分类模型为三分类模型，该三分类模型可以根据被测者的三维脑部图像和非影像信息，预测被测者是正常人，AD患者，或者是MCI患者。

针对MCI患者，服务器还可以基于预测模型对其在一段时间后病情加重转化为AD，或者病情减轻转化为正常进行预测。具体地，服务器可以基于二分类模型进行迁移学习得到预测模型，用于对病情转化情况进行预测。

接下来对本申请实施例提供的通过迁移学习得到预测模型的方法进行介绍，参见图3所示的模型训练方法的流程图，该实施例是在图2所示实施例训练得到的二分类模型进行改进得到的，本实施例仅就其与前述实施例的区别之处进行说明，该方法包括：

S301：获取第二样本数据集。

其中，所述第二样本数据集中的每个样本数据包括轻度认知障碍者在N年前拍摄的三维脑部图像及对应的第二标注标签，所述第二标注标签用于标识该轻度认知障碍者在N年后病情转化为阿尔茨海默病或者正常。

在具体实现时，服务器可以从数据库中查找N年前为MCI患者，且如今为AD患者的三维脑部图像，其对应的第二标注标签用于标识MCI患者在N年后病情转化为AD；以及从数据库中查找N年前为MCI患者，且如今为正常人的三维脑部图像，其对应的第二标注标签用于标识MCI患者在N年后病情转化为正常。

针对每一MCI患者，服务器根据其三维脑部图像以及对应的第二标注标签生成一个样本数据，如此，服务器可以生成多个样本数据，进而生成第二样本数据集。第二样本数据集中样本数据的数量以及比例可以根据实际需求而设置，本申请实施例对此不作限定。

需要说明的是，N为正数，其可以根据实际需求而设置，作为本申请的一个具体示例，N的取值可以为2.5或者3。

S302：利用所述第二样本数据集对所述二分类模型进行迁移学习，生成端到端的预测模型。

具体地，服务器将训练二分类模型时所学习的权重也即模型参数保留在神经网络模型中，然后利用第二样本数据集中的数据对神经网络模型进行微调，从而生成端到端的预测模型。

其中，所述预测模型以第二指定被测者的三维脑部图像为输入，并以第二指定被测者的病情转化标签为输出，所述病情转化标签用于标识所述第二指定被测者的病情转化为阿尔茨海默病或者正常。

由上可知，本申请提供了一种模型训练方法，该方法在二分类模型的基础上，利用第二样本数据集中的样本数据对模型进行微调，其中，第二样本数据集中的每个样本数据包括MCI患者在N年前拍摄的三维脑部图像及对应的第二标注标签，第二标注标签用于标识该MCI患者在N年后病情转化为AD或者正常，如此，服务器可以将二分类模型迁移到预测模型，实现了对MCI患者在N年后病情转化为AD或者正常的预测。相较于直接训练预测模型，该方法以已有模型为基础，达到缩减了预测模型的训练时间，提高了预测模型的训练效率。并且，该方法降低了预测模型训练的复杂度，降低了过拟合的风险，使得预测模型具有较高的准确率。

在图2和图3所示实施例中，样本数据中包括被测者的三维脑部图像，因此，利用样本数据训练的神经网络模型也是三维的。图4示出了本申请实施例中神经网络模型的一个结构示意图，该神经网络模型包括级联的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一全连接层以及第二全连接层，分别参见图4所示的L1至L8。由于样本数据是三维的，因此，卷积层的卷积核和池化层的池化核也是三维的，卷积核的大小、数量以及池化核的大小可以根据经验值进行设置，本实施例对此不作限定。

为了便于理解本申请的技术方案，下面结合具体应用场景对本申请实施例提供的模型训练方法进行介绍。

参见图5所示的模型训练方法的应用场景示意图，在该应用场景中包括服务器100、医学影像仪200、第一数据库300以及第二数据库400，服务器100中部署有神经网络模型，医学影像仪200可以对被测者的脑部进行扫描生成三维脑部图像，如MRI图像，第一数据库300存储被测者的MRI图像，以及标识被测者患有AD或正常的第一标注标签，第二数据库存储被测者的非影像信息，包括年龄、性别、病史、基因信息、脑脊液检测信息、简易精神状态检查信息以及蒙特利尔认知评估量表等。

服务器100中部署的神经网络模型包括8层，记作L1至L8。其中，L1、L3、L5为卷积层，L2、L4、L6为池化层，L7、L8为全连接层，最后采用整流线性单元(Rectified LinearUnit，ReLU)进行激活。其中，L1卷积层使用73大小的卷积核、64个卷积核；L2最大池化层使用3³大小的池化核；L3卷积层使用7³大小的卷积核、128个卷积核；L4最大池化层使用3³大小的池化核；L5卷积层使用5³大小的卷积核、256个卷积核；L7全连接层具有512个节点，L8全连接层具有1024个节点。被测者的年龄和性别作为第一个全连接层即L7的两个附加特征。该神经网络模型采用交叉熵成本函数作为损失函数，采用Adam优化器进行优化。

服务器100从第一数据库300中获取被测者的MRI图像以及对应的第一标注标签，从第二数据库400中获取被测者的非影像信息，然后针对每一被测者，根据其MRI图像、非影像信息以及第一标注标签生成一个样本数据，如此可以生成多个样本数据形成第一样本数据集。

在训练时，将第一样本数据集按照80％：10％：10％的比例分成训练集、验证集和测试集三个子集。服务器将训练集中的样本数据按照批大小batchsize分批输入至神经网络模型进行训练，在训练过程中除了学习率和卷积层中的通道数量即卷积核数量，本申请还引入了包括L1正则化系数、dropout概率和批大小等在内的超参数对模型进行优化。

其中，引入L1正则化和dropout均可以避免过拟合现象发生。L1正则化具体是通过L1范数实现的，L1范数又称为稀疏规则算子，其由各个参数的绝对值相加得到，在损失函数中加入稀疏规则算子可以完成特征自动选择，去掉没有信息或者包含信息量较小的特征。dropout则是在神经网络传播过程中，随机地删除隐藏层的部分单元。具体地，服务器100随机删除神经网络中的一些隐藏神经元，保持输入输出神经元不变；将输入通过修改后的网络进行前向传播，然后将误差通过修改后的网络进行反向传播。

本实施例对训练过程中的dropout策略进行试验，确定在卷积层之后加入dropout层可以大幅度提升试验效果，并且，dropout的参数从{0.1,0.3,0.5,0.7,0.9}中进行试验，最后确定dropout概率设置为0.5时，训练效果较好。针对学习率，本实施例采用渐进式递减的方式，其调整幅度为{0.0001，0.00001}。

在本实施例中，服务器100获取神经网络模型输出的、被测者的分类标签，根据被测者的分类标签与被测者的第一标注标签确定神经网络模型的损失函数，根据该损失函数更新神经网络模型的模型参数，在训练集中的每个样本均使用一次，也即完成一个epoch后，利用验证集的样本数据测试模型的准确率，基于验证集的测试结果，可以进行人工调参，具体为调整网络层数、网络节点数、迭代次数、学习率等超参数。

当神经网络模型的损失函数处于收敛状态时，可以停止训练，将具有当前模型参数的神经网络模型作为端到端的分类模型，基于测试集中的样本数据可以计算该分类模型的准确率。

上述分类模型可以用于对被测者是患有AD还是正常进行预测。具体地，医学影像仪200对第一指定被测者脑部进行扫描，生成第一指定被测者的三维脑部图像，将第一指定被测者的三维脑部图像以及非影像信息输入至分类模型，服务器100获取分类模型输出的分类标签，该分类标签即表征分类模型针对第一指定被测者患有AD还是正常的分类结果。

在本实施例中，服务器100还获取MCI患者在3年前拍摄的MRI图像，并确定对应的第二标注标签，具体地，若MCI患者当前为AD患者，则第二标注标签标识该MCI患者在3年后病情转化为AD，若该MCI患者当前正常，则第二标注标签标识该MCI患者在3年后病情转化为正常。然后，服务器100根据MRI图像以及第二标注标签生成样本数据，基于多个样本数据可以生成第二样本数据集。

接着，服务器100利用第二样本数据集对二分类模型进行迁移学习，具体地，服务器100保留二分类模型的权重，利用第二样本数据集中的数据对模型进行微调。需要说明的是，在对模型进行微调时，可以参照分类模型的训练过程，例如，将第二样本数据集也分为三个子集，分别用于训练、验证以及测试，以及微调过程中引入L1正则化以及dropout策略等等。在本实施例中，采用early stop方式防止模型过拟合，具体地，服务器100在训练集上进行训练，每隔一个epoch在验证集上获取测试结果，随着epoch的增加，如果在验证集上发现测试误差上升，则停止训练，将停止之后的权重作为神经网络模型的最终参数，并将具有该参数的模型作为端到端的预测模型。

针对任意一个MCI患者，其可以作为第二指定被测者，医疗影像仪200扫描该第二指定被测者的脑部，得到MRI图像，将该MRI图像输入预测模型，服务器100可以获取预测模型输出的病情转化标签，该病情转化标签用于标识第二指定被测者的病情在3年后转化为阿尔茨海默病或者正常。

以上为本申请实施例提供的模型训练方法的具体实现方式，基于此，本申请实施例还提供了对应的模型训练装置，接下来，从功能模块化的角度对本申请实施例提供的模型训练装置进行介绍。

参见图6所示的模型训练装置的结构示意图，该装置包括：

第一获取模块610，用于获取第一样本数据集，所述第一样本数据集中的每个样本数据包括被测者的三维脑部图像、临床非影像信息及对应的第一标注标签，所述第一标注标签用于标识该被测者患有神经系统变性疾病或者正常；

第一训练模块620，用于利用所述第一样本数据集对神经网络模型进行训练，生成端到端的分类模型，所述分类模型以第一指定被测者的三维脑部图像和临床非影像信息为输入，并以第一指定被测者的分类标签为输出；所述第一指定被测者的分类标签用于标识所述第一指定被测者患有所述神经系统变性疾病或者正常。

可选的，所述第一获取模块610包括：

生成子模块，用于根据多个样本数据生成第一样本数据集。

获取针对被测者的脑部进行间隔扫描所得的多幅图像；

可选的，所述第一训练模块620包括：

可选的，所述非影像信息包括以下信息中的至少一种：

则所述端到端的分类模型为三分类模型。

则所述端到端的分类模型为二分类模型。

可选的，所述装置还包括：

第二获取模块，用于获取第二样本数据集，所述第二样本数据集中的每个样本数据包括轻度认知障碍者在N年前拍摄的三维脑部图像及对应的第二标注标签，所述第二标注标签用于标识该轻度认知障碍者在N年后病情转化为阿尔茨海默病或者正常；

可选的，所述三维脑部图像为脑磁共振(MRI)图像。

由上可知，本申请实施例提供了一种模型训练装置，该装置以包括被测者的三维脑部图像、非影像信息及标识被测者患有神经系统变性疾病或者正常的第一标注标签在内的信息作为样本数据，利用该样本数据直接对神经网络模型进行训练，由于训练过程是以三维脑部图像整体为输入，而不是以图像的局部区域作为输入，一方面可以从全局角度对脑部进行分析，避免横跨脑部不同区域的信息遗漏，而且，引入了非影像信息，基于三维脑部图像以及非影像信息在内的多模态信息进行训练，可以提高分类的准确率，另一方面，无需对输入图像进行预处理以确定局部区域，可以生成端到端的分类模型，简化了训练过程。基于该装置训练得到的分类模型能够根据第一指定被测者的三维脑部图像和非影像信息，对第一指定被测者是患有神经系统变性疾病或者正常进行预测，其预测结果具有较高的可靠性，能够为临床医生提供参考意见，以提高临床医生的工作效率。

图6所示实施例从功能模块化的角度对本申请实施例提供的模型训练装置进行介绍，为了便于理解，接下来将从硬件实体化的角度对本申请实施例提供的模型训练设备进行介绍。

图7是本申请实施例提供的一种用于模型训练的设备的结构示意图，该设备可以是服务器，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。

其中，存储器732，用于存储端到端的分类模型，所述分类模型是基于本申所述的模型训练方法训练得到的；

CPU 722用于执行如下步骤：

调用所述存储器732中的所述分类模型，通过所述分类模型对第一指定被测者的三维脑部图像和临床非影像信息进行分析，以输出第一指定被测者的分类标签。

可选的，本申请还提供了另一种用于模型训练的设备，该设备用于基于迁移学习的方式训练预测模型，该设备的结构与与图7相同，其中：

存储器732，用于存储端到端的预测模型，所述预测模型是基于本申请所述的模型训练方法训练得到的；

CPU722，还用于调用所述存储器732中的所述预测模型，通过所述预测模型对第二指定被测者的三维脑部图像进行分析，以输出第二指定被测者的病情转化标签。

可选的，所述CPU722执行本申请实施例提供的模型训练方法中任意一种实施方式的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在设备上运行时，使得所述终端设备执行前述各个实施例所述的一种模型训练方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在设备上运行时，使得所述设备执行前述各个实施例所述的一种模型训练方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种预测模型训练方法，其特征在于，包括：

获取第一样本数据集，所述第一样本数据集中的每个样本数据包括被测者的三维脑部图像、非影像信息及第一标注标签，所述第一标注标签用于标识被测者为正常人，或者，用于标识被测者为阿尔茨海默病患者；利用所述第一样本数据集对神经网络模型进行训练，生成端到端的分类模型，所述分类模型以第一指定被测者的三维脑部图像和非影像信息为输入，并以第一指定被测者的分类标签为输出，所述第一指定被测者的分类标签用于标识所述第一指定被测者患有阿尔茨海默病或者正常，所述端到端的分类模型为二分类模型；

2.根据权利要求1所述方法，其特征在于，所述获取第一样本数据集，包括：

从第二数据库中采集被测者的非影像信息；

根据多个样本数据生成第一样本数据集。

3.根据权利要求2所述方法，其特征在于，所述第一数据库中被测者的三维脑部图像是通过以下方式生成的：

获取针对被测者的脑部进行间隔扫描所得的多幅图像；

4.根据权利要求1所述方法，其特征在于，所述利用所述第一样本数据集对神经网络模型进行训练，生成端到端的分类模型，包括：

根据所述损失函数，更新所述神经网络模型的模型参数；

5.一种预测模型训练装置，其特征在于，包括：

第一获取模块，用于获取第一样本数据集，所述第一样本数据集中的每个样本数据包括被测者的三维脑部图像、临床非影像信息及对应的第一标注标签，所述第一标注标签用于标识被测者为正常人，或者，用于标识被测者为阿尔茨海默病患者；

第一训练模块，用于利用所述第一样本数据集对神经网络模型进行训练，生成端到端的分类模型，所述分类模型以第一指定被测者的三维脑部图像和临床非影像信息为输入，并以第一指定被测者的分类标签为输出；所述第一指定被测者的分类标签用于标识所述第一指定被测者患有阿尔茨海默病或者正常，所述端到端的分类模型为二分类模型；

6.一种设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储端到端的预测模型，所述预测模型是基于上述权利要求1-4任一项所述的预测模型训练方法训练得到的；

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在设备上运行时，使得所述设备执行权利要求1-4任一项所述预测模型训练方法。