CN114078137A

CN114078137A - 一种基于深度学习的阴道镜图像筛选方法、装置和电子设备

Info

Publication number: CN114078137A
Application number: CN202111396135.0A
Authority: CN
Inventors: 赵帅; 袁莎; 曹岗; 赵健
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-02-22

Abstract

本发明公开了一种基于深度学习的阴道镜图像筛选方法、装置和电子设备。该方法包括：采集患者阴道镜图像，对阴道镜图像进行分割得到宫颈口图像；提取宫颈口图像的底层图像特征和高层语义特征，以及患者信息的文本特征；将底层图像特征、高层语义特征以及文本特征进行融合得到融合特征；基于融合特征，在预设阴道镜图像库中检索，筛选出与宫颈口图像相关联的目标图像。本发明的技术方案基于单张阴道镜图像的识别，融入多模态特征并采用基于三元组损失的分类模型，减少了阴道镜图像判读的复杂性，同时提升了图像检索精准性。

Description

一种基于深度学习的阴道镜图像筛选方法、装置和电子设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于深度学习的阴道镜图像筛选方法、装置和电子设备。

本发明是国家重点研发计划资助(2020AAA0105200)的研究成果。

背景技术

宫颈癌是女性特异性癌症相关死亡的重要原因，如果患者在癌前病变阶段或更早期被诊断，治愈率可高达98％，死亡率会显著降低。近年来使用计算机图像处理、人工智能等技术的医学显微图像处理技术正在迅速发展中。当前，我国宫颈癌诊断一般采用“三阶梯”过程，首先进行HPV检测或宫颈脱落细胞学初筛(TCT或巴氏涂片)；对于初筛为阳性的患者再进行阴道镜检查与活检；最后进行宫颈病理确诊。三个阶段逐步推进。可见，阴道镜在诊断中起到至关重要的作用，通常作为诊断宫颈上皮内瘤变(CIN)的重要工具之一。

然而，在现有阴道镜诊断流程中，阴道镜医师一般需要依次结合采集的生理盐水、醋酸后1分钟、2分钟以及碘溶液等多个时段采集的图像信息进行综合判断，甚至需要反复对比图像之间的变化信息。阴道镜诊断结果很大程度依赖于操作者的主观经验，只有少数经验丰富的阴道镜医生才可以根据宫颈口区域醋酸白上皮颜色的微弱变化分析得出相对精准的结论。因此阴道镜病理识别的准确性和可重复性是受限制的。

另外，在将人工智能技术应用于阴道镜图像的活检区域识别时，通常需要将生理盐水图像、醋酸图像和碘图像等多个时段采集的图像信息输入模型以识别活检区域。但是阴道镜采集图像之间存在较长的时间间隔，期间由于患者调整姿态或是采集器械移动都将造成图像存在较大的不一致，使得人工智能方法对于特定区域的变化程度分析变得难以实现，而且一般情况下宫颈病变区域占据阴道镜图像较小区域，进一步制约了上述方式的识别效果。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案。

本发明一方面提供了一种基于深度学习的阴道镜图像筛选方法，包括：

S101、采集患者阴道镜图像，并对所述图像进行分割，得到宫颈口图像；

S102、提取所述宫颈口图像的底层图像特征和高层语义特征，并提取所述患者信息的文本特征；

S103、将所述底层图像特征、高层语义特征以及文本特征进行融合得到融合特征；

S104、基于所述融合特征，在预设的阴道镜图像库中进行检索，筛选出与所述宫颈口图像相关联的目标图像。

优选地，所述对所述图像进行分割，得到宫颈口图像，包括：

通过预设目标检测模型检测所述阴道镜图像的宫颈口区域；

通过在U-Net分割架构的跳跃连接之间添加通道注意力模块，从所述阴道镜图像中分割得到宫颈口区域的宫颈口图像。

优选地，所述提取所述宫颈口图像的底层图像特征，进一步包括：

提取所述宫颈口图像的多个底层图像特征，并将多个底层图像特征融合为所述宫颈口图像的局部描述符。

优选地，所述底层图像特征包括SIFT特征、SURF特征、LBP特征和/或直方图信息。

优选地，所述提取所述宫颈口图像的高层语义特征，进一步包括：

利用基于三元组损失的深度学习模型对所述宫颈口图像进行特征提取，得到高维特征向量，作为所述高层语义特征。

优选地，在所述深度学习模型训练过程中，一次读入P×K个训练图像，所述P为随机选择的训练图像的类别数，K为每个类别随机选择的训练图像的张数。

优选地，所述三元组损失的表达式为：

其中，margin是边界超参数，

表示第i个类别中的第a张图像，

表示第p个类别中的第n张图像，

表示第i个类别中的第j张图像；D表示两个图像之间的距离。

优选地，所述提取所述患者信息的文本特征，进一步包括：

将所述患者的基本信息和检查结果中包含的文本信息通过One-Hot编码，形成一维特征向量，输入包括多个隐含层的全连接神经网络，将最后一个隐含层的输出作为所述患者的文本特征向量。

优选地，其中所述将所述底层图像特征、高层语义特征以及文本特征进行融合得到融合特征包括：

对所述底层图像特征、高层语义特征以及文本特征分别进行归一化处理；

将归一化处理后的上述特征串联得到所述融合特征。

本发明另一方面提供了一种基于深度学习的阴道镜图像筛选装置，包括：

图像预处理模块，用于采集患者阴道镜图像，并对所述图像进行分割，得到宫颈口图像；

特征提取模块，用于提取所述宫颈口图像的底层图像特征和高层语义特征，并提取所述患者信息的文本特征；

特征融合模块，用于将将所述底层图像特征、高层语义特征以及文本特征进行融合得到融合特征；

检索筛选模块，用于基于所述融合特征，在预设的阴道镜图像库中进行检索，筛选出与所述宫颈口图像相关联的目标图像。

本发明的第三方面提供了一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如上述第一方面所述的宫颈异常细胞识别方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如上述第一方面所述的宫颈异常细胞识别方法。

本发明的有益效果是：基于阴道镜的筛选只需要根据单张阴道镜图像进行识别，减少了阴道镜图像判读过程的复杂性。通过融入多模态特征，并采用基于三元组损失的分类模型，更好地表达阴道镜图像的本质，提升了图像检索精准性。

附图说明

图1为根据本发明实施例的基于深度学习的阴道镜图像筛选方法的概要流程图。

图2为根据本发明实施例的阴道镜图像筛选方法功能框架示意图。

图3为根据本发明实施例的带有注意力机制的图像分割架构示意图。

图4为根据本发明所述的基于深度学习的阴道镜图像筛选装置的模块图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

为了克服现有技术的上述缺陷，本发明提供了一种基于深度学习的阴道镜图像筛选方法，仅结合生理盐水后的第一张阴道镜图像和患者临床诊断信息，能够在标准阴道镜图像数据库中准确找出与其结果最为相近的图像，从而为阴道镜医师提供辅助诊断的参考信息。

实施例一

如图1所示，本发明实施例提供了一种基于深度学习的阴道镜图像筛选方法，包括：

对应地，如图2所示，本发明主要算法功能框架包含图像预处理阶段、多模态特征提取阶段、特征融合阶段以及相似性检索阶段。

在步骤S101即图像预处理阶段中，受拍摄环境和人体姿态等因素的影响，通过阴道镜拍摄的图像容易存在图像扭曲、宫颈位置偏移等问题，会对后续算法的分析与处理过程造成困难。因此本发明在预处理阶段需要完成两项任务。包括宫颈口位置的检测和宫颈口区域的分割。

在步骤S101中对所述图像进行分割，得到宫颈口图像，可以包括：通过预设目标检测模型检测所述阴道镜图像的宫颈口区域；通过在U-Net分割架构的跳跃连接之间添加通道注意力模块，从阴道镜图像中分割得到宫颈口区域的宫颈口图像。

宫颈口可被认为是整个宫颈中心位置，宫颈口区域也是大多数病变发生位置。因此本发明专门训练一个目标检测模型对该区域进行检测，便于后续步骤提取该位置的深度学习特征和底层图像特征，为进一步阴道镜图像检索提供特征信息。在一个优选的实施例中，本发明采用了基于YOLOV5模型架构，在由医生人工标注的训练数据集上进行网络训练学习，找到阴道镜宫颈中心范围大小200*200的方形框作为宫颈中心。

一般情况下，阴道镜电子设备采集的原始阴道镜图像包含大量窥阴器内容，这部分内容对于医学诊断没有任何作用，因此本发明通过采用改进的图像分割算法自动地将阴道镜图像中宫颈口区域分割出来。具体地，考虑到阴道镜图像中宫颈口区域所固有的尺度不均衡，颜色、形状变化多样的特点，本发明基于U-Net分割架构的分割网络，引入注意力机制，通过在U-Net跳跃连接之间添加通道注意力模块SE，从而获得理想的宫颈口区域分割效果。参见图3，Bottom左侧ERes为编码器模块，右侧DRes为解码器模块，每个ERes经过一个SE模块跳接到对应的DRes，从而有选择地将ERes的特征图(feature map)传递到DRes，能够获得理想的宫颈区域分割效果。经上述分割处理后的阴道镜图像，能够排除上述人体皮肤、毛发及医疗器械等无关因素的干扰，从而使得后续图像检索更具有针对性。

实验表明，相比于传统U-Net模型，本模型在分割精度上(IoU指标)提升了3.2％，准确度提升了4.1％。

在步骤S102即多模态特征提取阶段中，需要提取以下三部分的特征：

1)宫颈口图像的底层图像特征描述符；

2)基于深度神经网络的高层语义特征信息；以及

3)由患者常规检查生成的文本特征信息。

对于底层图像特征的提取，基于步骤S101图像预处理过程中确定出的200*200宫颈中心范围的图像，可以提取所述宫颈口图像的多个底层特征，并将多个底层图像特征融合为所述宫颈口图像的局部描述符，即描述向量。所述底层图像特征可以包括SIFT特征、SURF特征、LBP特征和/或直方图信息中的一个或多个。为便于说明，在本发明以下实施例中将底层图像特征描述为SIFT特征，并通过使用VLAD将多个SIFT特征聚合为宫颈口的局部描述向量。

对于宫颈口图像的高层语义特征的提取，本发明利用基于三元组损失的深度学习模型对所述宫颈口图像进行特征提取，得到高维特征向量，作为所述高层语义特征。

为了使深度神经网络能够捕捉到阴道镜图像特征信息，本发明设计了一种基于三元组损失的多任务深度学习模型，以通过三元组损失的计算，使相似图像之间的距离更近，特征表示可以体现阴道镜图像之间的区别。

三元组损失是一种被广泛应用的度量学习损失，它相比其它损失(分类损失，对比损失)具备端到端、带有聚类属性、特征高度嵌入等优势。在训练三元组损失时训练数据每组需要三张输入图像。例如，三张图像分别命名为固定图像(Anchor)a、正样本图像(Positive)p和负样本图像(Negative)n。图像a和图像p是一对正样本对，图像a和图像n是一对负样本对。则三元组损失表示为：

L_t＝(D(a，p)-D(a，n)+margin)₊

其中，margin是边界超参数，D(a，p)表示图像a和p之间的距离，D(a，n)表示图像a和n之间的距离。在阴道镜图像中，通过三元组损失使相似图像之间的距离更近，使无关类别图像之间的距离更远。其中，公式末尾“+”的含义是前面括号内的值大于0时，取该值为损失，而当小于0时，损失为0。

鉴于三元组损失网络在训练的过程中，可以组合生成大量的负样本对，可能导致正负样本对的数量不均衡，出现训练堵塞，收敛结果不佳。因此本发明在训练的过程中，训练的Batch size(一次读入图像的数量)设置为P×K，即每次随机选择P个类别的图像，每个类别随机选择K张图像用于训练网络。P为随机选择的训练图像的类别数，K为每个类别随机选择的训练图像的个数。通过以下公式计算每个Batch size内三元组损失：

其中，margin是边界超参数，

表示第i个类别中的第a张图像，

表示第p个类别中的第n张图像，

表示第i个类别中的第j张图像；D()表示括号中两个图像之间的距离。对于第i个类别中的第a张图像，通过计算

得到不同类别的图像的距离最大值，通过计算

得到同一类别的图像的距离最小值。其中，公式末尾“+”的含义是前面括号内的值大于0时，取该值为损失，而当小于0时，损失为0。

通过上述训练方式，选择每个Batch size中最不相似的正样本对和最相似的负样本对来计算损失，使得网络学习到的特征表示能力更强。

在本发明进一步实施例中，具体地，可以采用VGG-19作为主干网络，保留其中底层图像特征Conv4_3，Conv7到Conv11_2，对上述特征层采用Global max pooling形成一维向量，与最后的分类向量进行拼接，再经过softmax函数进行分类，目的是使得最终分类结果充分考虑阴道镜高维和底层图像特征信息。

需要说明的是，上述VGG-19主干网络仅为举例。本领域技术人员应当理解，还可以选择使用其他深度学习特征提取方式，例如FPN架构的主干网络等。

最后，损失函数采用交叉熵损失与三元组损失相结合：

L_total＝L_BH+αL_cross

其中L_total，L_BH，L_cross分别表示总的损失、三元组损失和交叉熵损失，α为L_cross的权重。优选地，将α设置为0.2。

在实验中，本发明获得了医院标注的阴道镜图像总计3500张，分为疑似宫颈癌、赘生物、出血、带有红色特征区域以及正常五大类(分别为399张、280张、312张、1200张、1309张)。利用NVIDIA TITAN XP GPU和64G内存的Ubuntu 18.04系统作为训练平台，训练次数为200轮，批处理大小为8，输入图像大小为224*224。使用随机梯度下降(SGD)优化器，设置动量为0.9，学习率为0.001。训练数据-测试数据采用8-2划分方式。最终训练测试准确率分别为0.92和0.855。最后，将softmax前一层即融合了底部维度特征和高维度特征的全连接层维度为1024的特征向量，作为本发明所需要分析的高维特征向量。

对于宫颈口图像的患者信息的文本特征提取，具体可以将所述患者的基本信息和检查结果中包含的文本信息通过One-Hot编码，形成一维特征向量，输入包括多个隐含层的全连接神经网络，将最后一个隐含层的输出作为所述患者的文本特征向量。

举例而言，其中患者信息的文本可以包括但不限于，年龄、液基细胞学检测结果(TCT)、HPV结果，是否绝经等，其中TCT信息主要分为11类：信息缺失、无上皮内病变及恶性病变、低度鳞状上皮病变(LSIL)、非典型鳞状上皮细胞意义不明确(ASCUS)、非典型鳞状上皮细胞不除外高级别鳞状上皮内病变(ASC-H)、高级别鳞状上皮内病变、鳞状细胞癌(SCC)、非典型细胞癌(AGC)、非典型腺细胞倾向瘤变、子宫颈管原位腺癌(AIS)、腺癌(Adca)。

将HPV结果分为5类：信息缺失类、正常类、低危阳性、一般阳性、高危阳性(HPV 16和HPV 18型)或(HPV 12种非16/18高危阳性)。将患者年龄分为6个阶段：小于20岁，20～30岁，30～40岁、40～50岁、50～60岁、大于60岁。绝经分为是与否两类。

最终，本发明将以上文本信息通过One-Hot编码，形成一维特征向量，然后输入一个全连接神经网络。例如将上述向量输入包含5个隐含层的全连接神经网络，输入节点为23，隐含层节点为64-128-256-128-64，最终输出层为阳性与阴性两类。最终，将最后一个隐含层64个节点的输出作为文本特征向量信息。

在步骤S103即特征融合阶段，将底层图像特征、高层语义特征以及文本特征进行融合之前，需要分别进行归一化处理，然后将归一化处理后的上述特征串联得到所述融合特征。

据临床统计，阴道镜病变有相当一部分存在于宫颈口附近，因此本发明将SIFT特征与利用三元组学习得到的深度特征融合，使得检索系统对于阴道镜图像局部信息尤其是宫颈口附近特征信息具有更强表达能力，上述文本信息旨在帮助阴道镜医师在检索时候可以检索出年龄、TCT、HPV检测结果更为相似的病例。具体地，本发明先将底层SIFT特征、高层深度学习特征和文本特征进行归一化处理，表示为F_i＝N(F_l)，F_l表示归一化之前的SIFT特征、深度学习特征和文本特征，N表示归一化运算，F_i表示归一化后的SIFT特征、深度学习特征和文本特征。然后，采用级联的方式将其进行合并，如下：

F_total＝[F_sift，F_cnn，F_text]

其中，F_sift，F_cnn，F_text分别表示归一化之后的SIFT特征、深度学习特征和文本特征，F_total表示融合后的特征空间，即宫颈样本特征空间。

在步骤S104的相似性检索阶段，为在预设的阴道镜图像库中检索与所述宫颈口图像最接近的目标图像，需要计算宫颈口图像与图像库中的每个目标图像的相似度。其中相似度的计算选择余弦距离衡量特征之间的相似度表达，公式如下：

上式中，f_i表示宫颈样本特征空间中的特征向量，f_i∈F_total，m_i表示待检索图像的特征空间中的特征向量，n表示特征空间的维度。然后按相似度值的大小对结果进行排序，选择预设的前G个值对应的图像作为最终结果进行呈现。

在优选的实施例中，对于上述特征空间，本发明使用步骤S103的基于多模态特征融合的特征向量，即上文所述的归一化后的SIFT特征、深度学习特征和文本特征的融合特征F_i进行检索。

在可选的实施例中，与基于多模态融合特征的检索不同，可以对单一模态信息进行相似性检索，然后将检索结果进行加权融合。例如，可以分别使用SIFT特征进行相似性度量，得到检索结果S_sift，使用深度学习特征进行检索得到检索结果S_cnn以及使用文本特征进行检索得到检索结果S_text，然后对三种检索结果进行加权：

Similarity＝w₁S_sift+w₂S_text+w₃S_cnn

其中w_i(i＝1，2，3)为每个相似类别的权重。

在进一步的实施例中，每个相似类别的权重可以根据用户需求来设置和调整。例如，如果希望阴道镜图像检索结果满足宫颈口区域更加相似，可以设置w_1，w_2，w₃＝(1，0，0)。如果希望使得阴道镜图像检索结果完全按照深度学习特征相似性进行排序，则可以设置w_1，w_2，w₃＝(0，0，1)。

可以看出，本发明的上述基于深度学习的阴道镜图像筛选方法，与现有技术的细胞识别方法相比，具备以下优点：

1)只需要生理盐水后单张阴道镜图像，大大加快了传统阴道镜采集速度，可以有效辅助阴道镜医生完成初步筛选。

2)通过融入底层SIFT特征以及患者病历文本特征等多模态特征，使得不同特征之间相互补充，而不单纯依赖深度神经网络的单一特征，提升了阴道镜图像检索精准性。

3)在图像识别阶段，采用基于三元组损失的多任务分类模型，使得神经网络能够高效地学习到阴道镜相似类别之间的共性、不同类别之间的差异，并且通过高维特征更好地表达阴道镜图像的本质信息。

实施例二

如图4所示，本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构，即本发明实施例还提供了一种基于深度学习的阴道镜图像筛选装置，包括：

图像预处理模块201，用于采集患者阴道镜图像，并对所述图像进行分割，得到宫颈口图像；

特征提取模块202，用于提取所述宫颈口图像的底层图像特征和高层语义特征，并提取所述患者信息的文本特征；

特征融合模块203，用于将将所述底层图像特征、高层语义特征以及文本特征进行融合得到融合特征；

检索筛选模块204，用于基于所述融合特征，在预设的阴道镜图像库中进行检索，筛选出与所述宫颈口图像相关联的目标图像。

该装置可通过上述实施例一提供的基于深度学习的阴道镜图像筛选方法实现，具体的实现方法可参见实施例一中的描述，在此不再赘述。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一所述的方法。

本发明还提供了一种计算机可读存储介质，存储有多条指令，所述指令用于实现如实施例一所述的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。