CN111931931B

CN111931931B - 一种针对病理全场图像的深度神经网络训练方法、装置

Info

Publication number: CN111931931B
Application number: CN202011046038.4A
Authority: CN
Inventors: 崔灿; 惠文丽; 杜家文; 杨林
Original assignee: Hangzhou Diyingjia Technology Co ltd
Current assignee: Hangzhou Diyingjia Technology Co ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-03-30
Anticipated expiration: 2040-09-29
Also published as: CN111931931A

Abstract

本申请涉及一种针对病理全场图像的深度神经网络训练方法、装置。所述方法包括：对多个具有全片级标注的病理全场图像分别进行裁切，获得由多个小图片的特征数据构成第一样本集；将所述第一样本集输入初始神经网络模型，得到所述第一样本集中每个所述小图片的输出概率向量；在所述病理全场图像中最大的所述输出概率向量大于预设值时，根据最大的所述输出概率向量对应的所述小图片构建弱监督数据集；将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集对所述初始神经网络模型进行训练，获得用于对病理全场图像分类的最终神经网络模型。采用本案可解决病理全场图像的分类模型像素级标注样本少的问题。

Description

一种针对病理全场图像的深度神经网络训练方法、装置

技术领域

本申请涉及图像处理技术领域，特别是涉及一种针对病理全场图像的深度神经网络训练方法、装置。

背景技术

随着近些年的技术发展，基于机器学习的病理全场图像辅助诊断分析已经变得越来越重要。人工诊断病理全场图像是一个十分繁琐和耗时的过程，一张病理全场图像通常包含数十万个细胞，病理医生在诊断过程中需要从这些细胞中寻找病变细胞才能对该病例做出最终诊断，这一过程不仅耗时而且容易造成漏检。在我国病理医生的缺口达数十万，人工智能辅助诊断不仅可以节省病理医生的时间、提升医生们的工作效率，而且可以降低人工诊断过程中漏检以及主观性带来的负面影响。

病理全场图像是一种超大格式的图像文件，往往包含数以十亿计的像素。受限于现有的硬件水平限制，这样的大图像是无法输入到神经网络中做端到端预测的，目前较为主流的做法是将病理全场图像切裁成若干相同大小的小图片，然后再根据这些局部ROI(region of interest，感兴趣区域)的特征进行融合，最终做出对全片的诊断。这种做法需要医生进行两阶段的标注：首先，医生需要对裁切的小图片进行标注(像素级别标注)；其次，医生还需要给出全场图的判读结果。以宫颈液基细胞筛查诊断为例，标注一张这样的全场图，首先医生需要在每张裁切过的小图片上标出阳性癌变细胞作为像素级别标注，除此之外医生还需要给出这张全场图的最终判读结论。值得注意的是，不是病理全场图上存在阳性癌变细胞就可以判病理全场图为阳性，病理全场图往往需要根据阳性癌变细胞的严重程度，以及阳性癌变细胞占总体细胞的比例来判读确定是否为阳性。

尽管，近年来人工智能辅助病理全场图像分析取得了突破性的发展，然而，目前国内几乎还没有可以大规模落地的相关产品。究其原因，主要是因为标注数据的稀缺导致训练出的模型缺乏泛化性和鲁棒性，无法适应不同来源的病理全场图像。传统的有监督学习方法需要大量良好标注的数据进行训练，然而病理图像的标注是极其困难的，首先病理图像需要病理领域的专家进行标注，这是一个非常昂贵且耗时的过程。此外，在临床诊断中是不需要标注像素级别的数据的，医生只会对全场图像给出一个总的诊断意见，这样的标签是无法用来训练端到端输出的神经网络模型的。

总之，现有的基于机器学习的病理全场图像辅助诊断分析由于缺乏像素级别的标注，而无法训练出能够进行有效病理判断的神经网络模型。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决标注级样本少的一种针对病理全场图像的深度神经网络训练方法、装置。

一种针对病理全场图像的深度神经网络训练方法，所述方法包括：

对多个具有全片级标注的病理全场图像分别进行裁切，获得多个大小相同的小图片，所述小图片的特征数据构成第一样本集；

将所述第一样本集输入初始神经网络模型，并将所述初始神经网络模型的输出通过Softmax函数计算，得到所述第一样本集中每个所述小图片的输出概率向量；其中，所述初始神经网络模型通过像素级别标注的病理图像样本集训练得到；

在所述病理全场图像中最大的所述输出概率向量大于预设值时，根据最大的所述输出概率向量对应的所述小图片构建弱监督数据集；

将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集对所述初始神经网络模型进行训练，获得用于对病理全场图像上ROI进行分类的最终神经网络模型。

在其中一个实施例中，在对多个具有全片级标注的病理全场图像分别进行裁切，获得多个大小相同的小图片，所述小图片的特征数据构成第一样本集之前，包括：将像素级别标注的病理图像样本集分为训练样本集和验证样本集；将所述训练样本集输入原始神经网络模型进行训练，获得训练神经网络模型；在验证样本集输入所述训练神经网络模型中，计算得到的损失值不再变化时，将所述训练神经网络模型确定为初始神经网络模型。

在其中一个实施例中，所述将所述第一样本集输入初始神经网络模型，并将所述初始神经网络模型的输出通过Softmax函数计算，得到所述第一样本集中每个所述小图片的输出概率向量，包括：将所述第一样本集输入初始神经网络模型预存分类，获得模型输出结果；将所述模型输出结果经过Softmax函数计算，得到所述第一样本集中每个所述小图片的输出概率向量。

在其中一个实施例中，所述针对病理全场图像的深度神经网络训练方法，还包括：根据预设样本集的每个所述小图片的输出概率向量计算梯度模长和梯度密度，并根据所述梯度模长和梯度密度计算损失函数；所述将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集对所述初始神经网络模型进行训练，获得用于对病理全场图像上ROI进行分类的最终神经网络模型，包括：将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集和所述损失函数对所述初始神经网络模型进行训练，获得用于对病理全场图像上ROI进行分类的最终神经网络模型。

在其中一个实施例中，所述根据预设样本集的每个所述小图片的输出概率向量计算梯度模长和梯度密度，并根据所述梯度模长和梯度密度计算损失函数，包括：根据所述第一样本集的每个所述小图片的输出概率向量计算多分类任务的交叉熵损失函数；对所述交叉熵损失函数进行求导，计算得到所述小图片的梯度模长；计算所述第一样本集的每个所述小图片的梯度模长的统计分布；将所述梯度模长的取值均分为多个区域，并统计每个区域内的样本个数；计算所述样本个数与所述区域的长度之比，得到所述小图片的梯度密度；计算所述梯度密度的倒数和所述第一样本集的样本个数之积，得到所述小图片的第一加权因子；根据所述小图片的梯度模长计算所述小图片的第二加权因子；根据所述第一加权因子、第二加权因子、交叉熵损失函数和所述样本个数，构建损失函数。

在其中一个实施例中，所述将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集对所述初始神经网络模型进行训练，获得用于对病理全场图像进行分类的最终神经网络模型，包括：将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集；根据所述混合训练集对所述初始神经网络模型进行训练，获得待优化神经网络模型；重复根据所述混合训练集输入所述待优化神经网络模型，并将所述待优化神经网络模型的输出通过Softmax函数计算，得到所述混合训练集中每个所述小图片的输出概率向量，在所述病理全场图像中最大的所述输出概率向量大于预设值时，根据最大的所述输出概率向量对应的所述小图片构建弱监督数据集，将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，根据所述混合训练集对所述待优化神经网络模型进行训练，获得下一待优化神经网络模型的步骤，直到所述弱监督数据集的前后两次标签不再明显变化，将所述待优化神经网络模型确定为用于对病理全场图像上ROI进行分类的最终神经网络模型。

在其中一个实施例中，所述弱监督数据集的前后两次标签不再明显变化，包括：根据上一混合训练集中每个所述小图片的输出概率向量与当前混合训练集中每个所述小图片的输出概率向量之差的绝对值的平均值，获得当前的平均绝对误差；判断当前的平均绝对误差是否大于或等于上一迭代训练的平均迭代误差；如果当前的平均绝对误差大于或等于上一迭代训练的平均迭代误差，则表示所述弱监督数据集的前后两次标签不再明显变化。

一种针对病理全场图像的深度神经网络训练装置，所述装置包括：

裁切模块，用于对多个具有全片级标注的病理全场图像分别进行裁切，获得多个大小相同的小图片，所述小图片的特征数据构成第一样本集；

输出概率向量计算模块，用于将所述第一样本集输入初始神经网络模型，并将所述初始神经网络模型的输出通过Softmax函数计算，得到所述第一样本集中每个所述小图片的输出概率向量；其中，所述初始神经网络模型通过像素级别标注的病理图像样本集训练得到；

弱监督数据集构建模块，用于在所述病理全场图像中最大的所述输出概率向量大于预设值时，根据最大的所述输出概率向量对应的所述小图片构建弱监督数据集；

训练模块，用于将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集对所述初始神经网络模型进行训练，获得用于对病理全场图像上ROI进行分类的最终神经网络模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集对所述初始神经网络模型进行训练，获得用于对病理全场图像上ROI进行分类最终神经网络模型。

上述针对病理全场图像的深度神经网络训练方法、装置、计算机设备和存储介质，通过具有全片级标注的病理全场图像进行裁切和对小图片进行输出概率向量处理，在得到所述的从病理全场图裁切下来的所有小图片的输出概率向量后，保留其中输出概率向量中最大值大于预设值的样本，使用小图片对应的全场图标签对保留下的输出概率向量进行加权得到最终的概率向量，根据所述的概率向量作为伪标签，其对应的所述小图片作为输入样本，构建弱监督数据集，通过弱监督数据集和像素级别标注的病理图像样本集混合获得混合训练集，实现像素级别标注的用于训练模型的图像数量要求，保证了训练样本的数量，以实现用于对病理全场图像上ROI进行分类的最终神经网络模型的训练，使得最终神经网络模型具有鲁棒性和泛化性。

附图说明

图1为一个实施例中针对病理全场图像的深度神经网络训练方法的应用环境图；

图2为一个实施例中针对病理全场图像的深度神经网络训练方法的流程示意图；

图3为一个具体实施例中病理全场图像的深度神经网络训练方法的流程示意图；

图4为一个实施例中梯度模长的统计分布图；

图5为一个实施例中针对病理全场图像的深度神经网络训练装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的针对病理全场图像的深度神经网络训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102输入具有全片级标注的病理全场图像，服务器104从终端获取具有全片级标注的病理全场图像，服务器104对多个具有全片级标注的病理全场图像分别进行裁切，获得多个大小相同的小图片，所述小图片的特征数据构成第一样本集；将所述第一样本集输入初始神经网络模型，并将所述初始神经网络模型的输出通过Softmax函数计算，得到所述第一样本集中每个所述小图片的输出概率向量；其中，所述初始神经网络模型通过像素级别标注的病理图像样本集训练得到；在所述病理全场图像中最大的所述输出概率向量大于预设值时，根据最大的所述输出概率向量对应的所述小图片构建弱监督数据集；根据预设样本集的每个所述小图片的输出概率向量计算梯度模长和梯度密度，并根据所述梯度模长和梯度密度计算损失函数；将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集和所述损失函数对所述初始神经网络模型进行训练，获得用于对病理全场图像上的ROI(Region of Interest，感兴趣区域)进行分类的最终神经网络模型。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种针对病理全场图像的深度神经网络训练方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S110，对多个具有全片级标注的病理全场图像分别进行裁切，获得多个大小相同的小图片，所述小图片的特征数据构成第一样本集。

其中，全片级标注为病理医生对病理全场图像整体做的标注，虽然病理全场图像上像素级别的标注是十分稀少且珍贵的，但是病理全场图像和全片级标注(即病理全场图像的总的诊断结论)是相对容易取得的。对病理全场图像采用均匀裁切的方式，获得的小图片的大小相同，小图片的特征数据包括亮度、灰度、饱和度以及图片中细胞或组织的形状、结构和纹理形态等。例如，全场图的第一样本集包括N个具有全片级标注的病理全场图像，全场图的第一样本集包括病理全场图像的编号和标签，表示为

其中，X_i为病理全场图像的编号，Y_i为病理全场图像的标签，N为正整数，N的大小根据样本数量的需要确定，病理全场图像的标签由病理医生确定。将所有的全场图样本进行裁切，切分成M(M为正整数)个大小相同的小图片，这些小图片构成了无标签的第一样本集

S120，将所述第一样本集输入初始神经网络模型，并将所述初始神经网络模型的输出通过Softmax函数计算，得到所述第一样本集中每个所述小图片的输出概率向量；其中，所述初始神经网络模型通过像素级别标注的病理图像样本集训练得到。

其中，第一样本集中的图像数据输入初始神经网络模型获得预测分类数据，将预设分类数据通过Softmax函数激活，得到所述第一样本集中每个所述小图片x_i的输出概率向量。例如，将无标签的第一样本集中第i个样本x_i输入到神经网络模型f(x，Θ₀)中进行分类，其中，x表示输入到神经网络模型的样本总体，Θ₀代表神经网络模型f(x，Θ₀)的参数，将模型的输出经过Softmax函数的激活，可以得到对于样本x_i，模型对其的输出概率向量为

其中，Θ₁代表神经网络模型f(x_i，Θ₁)的参数，Softmax函数的公式为：

其中，p_i表示样本x_i的预测概率，a_i、a_j表示神经网络的原始输出，比如神经网络输出是[1.1，0.3，2]，那么a₀＝1.1，a₁＝0.3，a₂＝2，则p₀＝e^a0/(e^a0+e^a1+e^a2)＝0.2558，p₁＝e^a1/(e^a0+e^a1+e^a2)＝0.1149，p₂＝e^a2/(e^a0+e^a1+e^a2)＝0.6292，最后p₀+p₁+p₂＝1，然后p_i的值是在0～1之间，C表示多分类任务的类别，对于多分类任务，对于样本x_i，其输出概率向量为

每个样本x_i都有对应的输出概率向量，输出概率向量中的每一项代表该样本为各个类别的概率，由此得到了无标签的第一样本集

中所有样本对应的输出概率向量

S130，在所述病理全场图像中最大的所述输出概率向量大于预设值时，根据最大的所述输出概率向量对应的所述小图片构建弱监督数据集。

其中，每个所述病理全场图像裁切成多个小图片，每个小图片具有对应的输出概率向量，所述的输出概率向量是一个长度为C的向量，包含C个类别的输出概率，选出其中最大的概率值，并判断最大的输出概率值是否大于预设值，在最大的输出概率大于预设值时，将样本x_i作为输入图像，输出概率向量

作为真标签加入到弱监督数据集。

其中，在得到所述的从病理全场图裁切下来的所有小图片的输出概率向量后，保留其中输出概率向量中最大值大于预设值的样本，使用小图片对应的全场图标签对保留下的输出概率向量进行加权得到最终的概率向量，根据所述的概率向量作为伪标签，其对应的所述小图片作为输入样本，构建弱监督数据集。

例如，病理全场图像划分M个小图像，M为正整数，计算得到每个小图片的输出概率向量

在所述输出概率向量中最大值大于预设值时，将该输出概率向量作为标签与其相应的小图片作为输入样本加入到弱监督数据集中，即：

其中，pick_threshold为预设值，根据模型的精度需要确定，输出概率向量中最大值大于预设值时，将该输出概率向量作为标签，其相应的小图片作为输入样本加入到弱监督数据集中，假设有m个满足上述条件的样本，则自动构建的弱监督数据集为

基于阳性全场图切片上阳性细胞多，阴性全场图切片上阳性细胞少，阴性细胞多等先验知识，对所述自动构建的弱监督训练集

的标签按全场图的标签进一步进行加权，加权的公式为:

其中α表示加权的权重，公式表示小图片x_i是从全场图X_j上截取的，所以其标签由模型的输出概率矩阵以及全场图X_j的标签Y_j经加权计算得到，于是最终得到的弱监督数据集为

S140，将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集和所述损失函数对所述初始神经网络模型进行训练，获得用于对病理全场图像上ROI(Region of Interest，感兴趣区域)进行分类的最终神经网络模型。

其中，混合训练集不仅包括像素级别标注的病理图像样本集，还包括弱监督数据集，弱监督数据集是大量从病理全场图数据集中切裁出来的没有人工标注标签的小图片，其弱监督标签根据神经网络预测的概率向量矩阵和全场图的标签进行加权计算得到的。最终神经网络模型可用于对病理全场图像上ROI进行准确的分类。

上述针对病理全场图像的深度神经网络训练方法中，通过具有全片级标注的病理全场图像进行裁切和对小图片进行输出概率向量处理，在得到所述的从病理全场图裁切下来的所有小图片的输出概率向量后，保留其中输出概率向量中最大值大于预设值的样本。使用小图片对应的全场图标签对保留下的输出概率向量进行加权得到最终的概率向量，根据所述的概率向量作为伪标签，其对应的所述小图片作为输入样本，构建弱监督数据集，通过弱监督数据集和像素级别标注的病理图像样本集混合获得混合训练集，实现像素级别标注的用于训练模型的图像数量要求，保证了训练样本的数量，以实现用于对病理全场图像中ROI进行分类的最终神经网络模型的训练，使得最终神经网络模型具有鲁棒性和泛化性。

其中，N个像素级别标注的病理图像样本集

训练原始神经网络模型f(x，Θ)，首先将病理图像样本集划分为训练集和验证集，神经网络和损失函数的可以根据具体项目需要来进行选择和定义。拿宫颈液基细胞分类为例，由于涉及到细胞类内差异较大，类间差异较小以及样本类别极度不均衡等情况，使用ResNeSt-50(Split-AttentionNetworks，多分支注意力机制网络)作为原始神经网络模型，使用Focal Loss作为损失函数可以较为有效地训练针对宫颈液细胞的分类器。使用训练集对原始神经网络模型进行训练，待神经网络在验证集上的损失值不再明显降低，即可停止训练过程。

其中，模型输出结果为模型的分类结果，将分类结果输入经过Softmax函数计算，得到所述第一样本集中每个所述小图片的输出概率向量。其中Softmax函数的公式为：

其中，C表示多分类任务的类别，对于多分类任务，对于样本x_i，其输出概率向量为

每个样本x_i都有对应的输出概率向量。

在其中一个实施例中，所述针对病理全场图像的深度神经网络训练方法，还包括：根据预设样本集的每个所述小图片的输出概率向量计算梯度模长和梯度密度，并根据所述梯度模长和梯度密度计算损失函数。所述将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集对所述初始神经网络模型进行训练，获得用于对病理全场图像进行分类的最终神经网络模型，包括：将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集和所述损失函数对所述初始神经网络模型进行训练，获得用于对病理全场图像进行分类的最终神经网络模型。

其中，所述预设样本集从所述第一样本集，所述预设样本集可包括第一样本集全部样本，所述预设样本集也可为所述第一样本集中的部分样本组成。

其中，对应M类标签的多分类任务，首先定义带有标签噪声的预设样本集一共有N个样本，样本集由

来表示；其中x_i表示数据集中第i个病理全场图像样本，而y_i表示第i个病理全场图像样本的标签；其中，M为正整数。对样本x_i计算对应的输出概率向量

并根据输出概率向量计算交叉熵损失函数，对交叉熵损失函数求导得到梯度模长；所述梯度密度为对所述梯度模长划分的多个区域的每个区域的样本密度，所述区域中样本数量越多，梯度密度越大。

具体的，对应M类标签的多分类任务，首先定义带有标签噪声的预设样本集一共有N个样本，样本集由

来表示，其中x_i表示数据集中第i个病理全场图像样本，而y_i∈{1，2，...M}表示第i个病理全场图像样本的标签，定义本实施例中的初始神经网络模型为f(x，Θ)，将样本x_i输入到初始神经网络模型f(x，Θ)中可以得到预测概率为

由于涉及到多分类任务，输出概率

对于多分类任务的交叉熵损失函数为：

其中，k表示标签的值；

求l_CE对f(x_i，Θ₁)的梯度(导数)可得：

根据

可以推算第j个输出对第i个输入的偏导数可以定义为：

其中当i＝j时可得：

于是有：

而当i≠j时可得：

于是有：

将上述结果带入：

由此可以定义一个梯度模长为

由于

且y＝0或1，故而g∈(0,1)。梯度模长越小，表示该样本越是易分的，相反的，如果梯度模长约接近于1，说明该样本越可能是标签错误的样本。对于一个已经训练收敛的初始神经网络模型，将含有标签噪声的数据集输入到深度神经网络模型f(x,Θ)可以得到梯度模长的分布如图4所示。由图可见，绝大多数的样本位于图像的左侧且这些样本为易分样本，在绝对数量的优势之下，这些样本产生的梯度会对模型训练产生显著的影响；而位于图标右侧也有大量的样本，这些样本的梯度模长较大，这些样本可能存在大量的标签噪声，本身的噪声就大的梯度模长在数量的加持下，会对模型训练产生非常负面的影响，基于上述观察，本实施例中的损失函数会尽量弱化样本数量对梯度的干扰且减弱梯度模长很小(易分样本)和梯度模长很大(噪声标签样本)对训练的影响。首先，引入梯度密度的概念，将梯度模长的取值范围划分为ε个区域，接着分别统计落于各个区域内的样本个数，对于一个梯度模长为g的样本，它的梯度密度就定义为落于它的梯度模长所在区域的总样本数量R_ind(g)除以区域的长度

梯度模长可表示为：GD(g)＝R_ind(g)ε。

对于某一区域有大量的样本，则其梯度密度较大，而在有较少样本的区域，其梯度密度则较小，为了弱化某一区域大量样本对模型训练的干扰，本发明使用梯度密度的倒数对样本产生的损失值进行加权，加权因子为：

其中，N为本批次训练样本中的样本数量。其次为了进一步降低位于图表左侧和右侧易分样本和标签噪声样本所产生的梯度，这里定义第二个加权因子：

其中，μ为梯度学习中心，g_i为样本的梯度模长，如果g_i越接近μ，则其梯度对模型训练影响越大，相反的，如果g_i越远离μ，则其对模型训练影响越小。σ为标准差，其计算公式为：

其中，N为当前训练批次的样本数。

综合上述定义的两个加权因子，可以得到损失函数的计算公式为：

将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集D_mix以及损失函数l训练初始神经网络模型f(x，Θ₀)，其中，Θ₀代表初始神经网络模型f(x，Θ₀)的参数，迭代训练所有数据后最终的神经网络模型记为f(x,Θ_e)，其中，Θ_e代表最终的神经网络模型f(x,Θ_e)的参数。

在其中一个实施例中，所述在所述病理全场图像中最大的所述输出概率向量大于预设值时，根据最大的所述输出概率向量对应的所述小图片构建弱监督数据集，包括：将从病理全场图上截取的小图片输入到神经网络模型，其中输出概率向量中最大值大于预设值时，将该输出概率向量作为标签，其相应的小图片作为输入样本加入到弱监督数据集中来构建弱监督数据集；其中，所述最大的所述输出概率向量为所述初始弱监督数据集的标签；对所述初始弱监督数据的标签按照所述病理全场图像的标签进行加权，获得弱监督数据集的标签，并根据所述弱监督数据集的标签构建弱监督数据集。

具体的，小图片构成了无标签的样本集

将模型的输出经过Softmax函数的激活，可以得到对于样本x_i，模型对其的输出概率向量为

中所有样本对应的输出概率向量

在所述输出概率向量中最大值大于预设值时，将该输出概率向量作为标签，其相应的小图片作为输入样本加入到弱监督数据集中，假设有m个满足上述条件的样本，则自动构建的弱监督数据集为

其中，m个样本满足上述条件，m为正整数。定义标签而不使用独热(one-hot encoding)标签的原因是为了降低模型对生成标签的过度置信以及提升模型的泛化性。尽管样本集

中的样本均是无像素级别标注的，其来源的全场图标签是已知的，基于阳性切片上阳性细胞多，阴性切片上阳性细胞少，阴性细胞多等假设，对自动构建的初始监督数据集

的标签进一步按全场图标签进行加权，加权的公式为：

其中，α表示加权的比例，加权的公式表示小图片样本x_i是从全场图X_j上截取的，所以其标签由输出概率向量

与病理全场图的标签Y_j经加权计算得到，于是得到的弱监督数据集为

在其中一个实施例中，如图3所示，所述将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集对所述初始神经网络模型进行训练，获得用于对病理全场图像进行分类的最终神经网络模型，包括：将所述弱监督数据集D_g和所述像素级别标注的病理图像样本集D_m(人工标注样本)混合获得混合训练集D_mix；根据所述混合训练集D_mix对所述初始神经网络模型进行训练，获得待优化神经网络模型；重复根据所述混合训练集D_mix输入所述待优化神经网络模型，并将所述待优化神经网络模型的输出通过Softmax函数计算，得到所述混合训练集中每个所述小图片的输出概率向量，在所述病理全场图像中最大的所述输出概率向量大于预设值时，根据最大的所述输出概率向量对应的所述小图片构建弱监督数据集D_g，将所述弱监督数据集D_g和所述像素级别标注的病理图像样本集D_m(人工标注样本)混合获得混合训练集D_mix，根据所述混合训练集D_mix对所述待优化神经网络模型进行训练，获得下一待优化神经网络模型的步骤，直到所述弱监督数据集的前后两次标签不再明显变化，将所述待优化神经网络模型确定为用于对病理全场图像进行分类的最终神经网络模型。

在其中一个实施例中，所述将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集对所述初始神经网络模型进行训练，获得用于对病理全场图像进行分类的最终神经网络模型，包括：将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集；根据所述混合训练集和所述损失函数对所述初始神经网络模型进行训练，获得待优化神经网络模型；重复根据所述混合训练集输入所述待优化神经网络模型，并将所述待优化神经网络模型的输出通过Softmax函数计算，得到所述混合训练集中每个所述小图片的输出概率向量，在所述病理全场图像中最大的所述输出概率向量大于预设值时，根据最大的所述输出概率向量对应的所述小图片构建弱监督数据集，并根据所述混合训练集的每个所述小图片的输出概率向量计算梯度模长和梯度密度，并根据所述梯度模长和梯度密度计算损失函数，将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，根据所述混合训练集和所述损失函数对所述待优化神经网络模型进行训练，获得下一待优化神经网络模型的步骤，直到所述弱监督数据集的前后两次标签不再明显变化，将所述待优化神经网络模型确定为用于对病理全场图像进行分类的最终神经网络模型。

具体的，定义此次迭代的次数为e，使用上一次迭代出的待优化神经网络模型f(x，Θ_e-1)，其中，Θ_e-1代表待优化神经网络模型f(x，Θ_e-1)的参数，对步骤S120中小图片构成了无标签的样本集

进行预测，计算得到每个小图片的输出概率向量

病理全场图像的预测概率向量

在所述病理全场图像中最大的所述输出概率向量大于预设值时，根据每个样本的最大输出概率向量生成新的弱监督训练集

再混入像素级别标注的病理图像样本集D_m形成新的混合训练集D_{mix_e}，对待优化神经网络模型进行训练，生成本次迭代的新待优化神经网络模型模型f(x，Θ_e)，其中，Θ_e代表新待优化神经网络模型模型f(x，Θ_e)的参数。重复上述标签生成，以及待优化神经网络模型训练步骤，直到生成的弱监督训练集前后两次标签不再明显变化。观察标签变化程度是通过求L1范数来实现的，其公式为：

其中，

此公式表示前后两次迭代生成的弱监督数据集的标签分布的平均绝对误差。如果此误差不再减小，说明模型前后两次迭代训练的效果以及趋于稳定，训练已经完成。

应该理解的是，虽然图2流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种针对病理全场图像的深度神经网络训练装置，包括：裁切模块210、输出概率向量计算模块220、弱监督数据集构建模块230和训练模块240，其中：

裁切模块210，用于对多个具有全片级标注的病理全场图像分别进行裁切，获得多个大小相同的小图片，所述小图片的特征数据构成第一样本集。

输出概率向量计算模块220，用于将所述第一样本集输入初始神经网络模型，并将所述初始神经网络模型的输出通过Softmax函数计算，得到所述第一样本集中每个所述小图片的输出概率向量；其中，所述初始神经网络模型通过像素级别标注的病理图像样本集训练得到。

弱监督数据集构建模块230，用于

在所述病理全场图像中最大的所述输出概率向量大于预设值时，根据最大的所述输出概率向量对应的所述小图片构建弱监督数据集。训练模块240，用于将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集对所述初始神经网络模型进行训练，获得用于对病理全场图像上ROI进行分类的最终神经网络模型。

在其中一个实施例中，所述针对病理全场图像的深度神经网络训练装置，还包括：样本分类模块，用于将像素级别标注的病理图像样本集分为训练样本集和验证样本集；所述训练模块240，还用于将所述训练样本集输入原始神经网络模型进行训练，获得训练神经网络模型；损失值计算模块，用于在验证样本集输入所述训练神经网络模型中，计算得到的损失值不再变化时，将所述训练神经网络模型确定为初始神经网络模型。

在其中一个实施例中，所述输出概率向量计算包括：输入单元，用于将所述第一样本集输入初始神经网络模型预存分类，获得模型输出结果；函数计算单元，用于将所述模型输出结果经过Softmax函数计算，得到所述第一样本集中每个所述小图片的输出概率向量。

在其中一个实施例中，所述针对病理全场图像的深度神经网络训练装置，还包括：损失函数计算模块，用于根据预设样本集的每个所述小图片的输出概率向量计算梯度模长和梯度密度，并根据所述梯度模长和梯度密度计算损失函数。所述训练模块，还用于将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集和所述损失函数对所述初始神经网络模型进行训练，获得用于对病理全场图像上ROI进行分类的最终神经网络模型。

在其中一个实施例中，所述损失函数计算模块，包括：交叉熵损失函数计算单元，用于根据所述第一样本集的每个所述小图片的输出概率向量计算多分类任务的交叉熵损失函数；求导单元，用于对所述交叉熵损失函数进行求导，计算得到所述小图片的梯度模长；统计分布计算单元，用于计算所述第一样本集的每个所述小图片的梯度模长的统计分布；区域划分单元，用于将所述梯度模长的取值均分为多个区域，并统计每个区域内的样本个数；梯度密度计算单元，用于计算所述样本个数与所述区域的长度之比，得到所述小图片的梯度密度；第一加权因子计算单元，用于计算所述梯度密度的倒数和所述第一样本集的样本个数之积，得到所述小图片的第一加权因子；第二加权因子计算单元，用于根据所述小图片的梯度模长计算所述小图片的第二加权因子；损失函数构建单元，用于根据所述第一加权因子、第二加权因子、交叉熵损失函数和所述样本个数，构建损失函数。

在其中一个实施例中，所述训练模块包括：混合单元，用于将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集；待优化神经网络模型获取单元，用于根据所述混合训练集对所述初始神经网络模型进行训练，获得待优化神经网络模型；循环单元，用于重复根据所述混合训练集输入所述待优化神经网络模型，并将所述待优化神经网络模型的输出通过Softmax函数计算，得到所述混合训练集中每个所述小图片的输出概率向量，在所述病理全场图像中最大的所述输出概率向量大于预设值时，根据最大的所述输出概率向量对应的所述小图片构建弱监督数据集，将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，根据所述混合训练集对所述待优化神经网络模型进行训练，获得下一待优化神经网络模型的步骤，直到所述弱监督数据集的前后两次标签不再明显变化，将所述待优化神经网络模型确定为用于对病理全场图像上ROI进行分类的最终神经网络模型。

在其中一个实施例中，述弱监督数据集的前后两次标签不再明显变化，包括：根据上一混合训练集中每个所述小图片的输出概率向量与当前混合训练集中每个所述小图片的输出概率向量之差的绝对值的平均值，获得当前的平均绝对误差；判断当前的平均绝对误差是否大于或等于上一迭代训练的平均迭代误差；如果当前的平均绝对误差大于或等于上一迭代训练的平均迭代误差，则表示所述弱监督数据集的前后两次标签不再明显变化。

关于针对病理全场图像的深度神经网络训练装置的具体限定可以参见上文中对于针对病理全场图像的深度神经网络训练方法的限定，在此不再赘述。上述针对病理全场图像的深度神经网络训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种针对病理全场图像的深度神经网络训练方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种针对病理全场图像的深度神经网络训练方法，其特征在于，所述方法包括：

根据所述第一样本集的每个所述小图片的输出概率向量计算多分类任务的交叉熵损失函数；

对所述交叉熵损失函数进行求导，计算得到所述小图片的梯度模长；

计算所述第一样本集的每个所述小图片的梯度模长的统计分布；

将所述梯度模长的取值均分为多个区域，并统计每个区域内的样本个数；

计算所述样本个数与所述区域的长度之比，得到所述小图片的梯度密度；

计算所述梯度密度的倒数和所述第一样本集的样本个数之积，得到所述小图片的第一加权因子；

根据所述小图片的梯度模长计算所述小图片的第二加权因子；

根据所述第一加权因子、第二加权因子、交叉熵损失函数和所述样本个数，构建损失函数；

将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集和所述损失函数对所述初始神经网络模型进行训练，获得用于对病理全场图像上ROI进行分类的最终神经网络模型。

2.根据权利要求1所述的方法，其特征在于，在对多个具有全片级标注的病理全场图像分别进行裁切，获得多个大小相同的小图片，所述小图片的特征数据构成第一样本集之前，包括：

将像素级别标注的病理图像样本集分为训练样本集和验证样本集；

将所述训练样本集输入原始神经网络模型进行训练，获得训练神经网络模型；

在验证样本集输入所述训练神经网络模型中，计算得到的损失值不再变化时，将所述训练神经网络模型确定为初始神经网络模型。

3.根据权利要求1所述的方法，其特征在于，所述将所述第一样本集输入初始神经网络模型，并将所述初始神经网络模型的输出通过Softmax函数计算，得到所述第一样本集中每个所述小图片的输出概率向量，包括：

将所述第一样本集输入初始神经网络模型预存分类，获得模型输出结果；

将所述模型输出结果经过Softmax函数计算，得到所述第一样本集中每个所述小图片的输出概率向量。

4.根据权利要求1所述的方法，其特征在于，所述将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集对所述初始神经网络模型进行训练，获得用于对病理全场图像上ROI进行分类的最终神经网络模型，包括：

将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集；

根据所述混合训练集对所述初始神经网络模型进行训练，获得待优化神经网络模型；

重复根据所述混合训练集输入所述待优化神经网络模型，并将所述待优化神经网络模型的输出通过Softmax函数计算，得到所述混合训练集中每个所述小图片的输出概率向量，在所述病理全场图像中最大的所述输出概率向量大于预设值时，根据最大的所述输出概率向量对应的所述小图片构建弱监督数据集，将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，根据所述混合训练集对所述待优化神经网络模型进行训练，获得下一待优化神经网络模型的步骤，直到所述弱监督数据集的前后两次标签不再明显变化，将所述待优化神经网络模型确定为用于对病理全场图像上ROI进行分类的最终神经网络模型。

5.根据权利要求4所述的方法，其特征在于，所述弱监督数据集的前后两次标签不再明显变化，包括：

根据上一混合训练集中每个所述小图片的输出概率向量与当前混合训练集中每个所述小图片的输出概率向量之差的绝对值的平均值，获得当前的平均绝对误差；

判断当前的平均绝对误差是否大于或等于上一迭代训练的平均迭代误差；

如果当前的平均绝对误差大于或等于上一迭代训练的平均迭代误差，则表示所述弱监督数据集的前后两次标签不再明显变化。

6.一种针对病理全场图像的深度神经网络训练装置，其特征在于，所述装置包括：

损失函数计算模块，用于根据预设样本集的每个所述小图片的输出概率向量计算梯度模长和梯度密度，并根据所述梯度模长和梯度密度计算损失函数；

训练模块，用于将所述弱监督数据集和所述像素级别标注的病理图像样本集混合获得混合训练集，并根据所述混合训练集对所述初始神经网络模型进行训练，获得用于对病理全场图像上ROI进行分类的最终神经网络模型；

其中，所述损失函数计算模块，包括：交叉熵损失函数计算单元，用于根据所述第一样本集的每个所述小图片的输出概率向量计算多分类任务的交叉熵损失函数；求导单元，用于对所述交叉熵损失函数进行求导，计算得到所述小图片的梯度模长；统计分布计算单元，用于计算所述第一样本集的每个所述小图片的梯度模长的统计分布；区域划分单元，用于将所述梯度模长的取值均分为多个区域，并统计每个区域内的样本个数；梯度密度计算单元，用于计算所述样本个数与所述区域的长度之比，得到所述小图片的梯度密度；第一加权因子计算单元，用于计算所述梯度密度的倒数和所述第一样本集的样本个数之积，得到所述小图片的第一加权因子；第二加权因子计算单元，用于根据所述小图片的梯度模长计算所述小图片的第二加权因子；损失函数构建单元，用于根据所述第一加权因子、第二加权因子、交叉熵损失函数和所述样本个数，构建损失函数。

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。