[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN117710760B - 残差的注意神经网络用于胸部x线病灶检测的方法 - Google Patents

残差的注意神经网络用于胸部x线病灶检测的方法 Download PDF

Info

Publication number
CN117710760B
CN117710760B CN202410167332.2A CN202410167332A CN117710760B CN 117710760 B CN117710760 B CN 117710760B CN 202410167332 A CN202410167332 A CN 202410167332A CN 117710760 B CN117710760 B CN 117710760B
Authority
CN
China
Prior art keywords
feature
convolution
features
branch
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410167332.2A
Other languages
English (en)
Other versions
CN117710760A (zh
Inventor
彭祥
肖秀春
宋思阳
朱衡德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ocean University
Original Assignee
Guangdong Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ocean University filed Critical Guangdong Ocean University
Priority to CN202410167332.2A priority Critical patent/CN117710760B/zh
Publication of CN117710760A publication Critical patent/CN117710760A/zh
Application granted granted Critical
Publication of CN117710760B publication Critical patent/CN117710760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/72Data preparation, e.g. statistical preprocessing of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10116X-ray image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30061Lung
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本发明提供一种残差的注意神经网络用于胸部X线病灶检测的方法,所述方法在获取医疗场景胸部X光图像数据后,构建包括编码器RAMNet、多分支特征融合模块MFFM和收缩与扩张模块CAEB的CXR图像病灶检测模型,利用编码器RAMNet对胸部X光图像提取特征信息,将提取后的特征经过多分支特征融合模块MFFM得到多分支融合的多尺度特征,将深层CAEB输出的集成上下文信息的特征,通过上采样与多尺度特征进行融合,对最终输出的特征图进行进一步检测,并预测病灶的类别信息,所述方法在参数量适中的情况下,具备较高的准确率,满足临床中帮助放射科医生进行肺部疾病诊断的需求,有效缓解当前CXR病灶检测中检测精度低,资源消耗大的问题。

Description

残差的注意神经网络用于胸部X线病灶检测的方法
技术领域
本发明涉及呼吸系统影像诊断技术领域,尤其涉及一种残差的注意神经网络用于胸部X线病灶检测的方法。
背景技术
在综合性医院,计算机断层扫描(CT)对肺部疾病的诊断有着较高的敏感性,并被用于肺部疾病诊断,但其对设备和使用成本要求较高,在一些经济欠发达地区无法配备。相比计算机断层扫描,胸部X光片(CXR)因其更快速,更经济,使用更低剂量的辐射而被更广泛用于临床。但CXR影像学特征表现不明显,成像原理复杂,需要专业的放射科医生花大量的时间仔细观察,且存在主观性。因此,通过相关技术更快且更准确的辅助放射科医生进行CXR诊断至关重要。计算机辅助系统(CAD)可以起到一定的辅助作用,但其准确率和诊断速度并不能很好的满足临床要求。因此,开发更高准确率和更高效率的诊断技术仍是急需解决的问题。
近年来,随着人工智能的快速发展,使用深度学习方法进行医学图像的诊断和病变的检测越来越流行。目前深度学习在医学图像领域的应用主要是分类和分割两大任务。Mohammad Farukh Hashmi等人提出了一种基于加权分类器的X光肺炎诊断模型,该方法以最优方式结合了多个深度学习模型的加权预测,并通过迁移学习进行微调。但网络对X光图像的特征提取并不彻底。Wei Shen等人提出了分层学习框架MCNN进行肺结节分类,在交替堆叠的层中提取鉴别特征来捕捉结核的异质性。但该算法较为脆弱且鲁棒性差。以上算法虽能达到较高的分类准确率,但无法给医生提供精确的病变位置。
分割由于能给医生提供精细的病变区域位置,更贴合实际需求而成为研究热点。Olaf Ronneberger等人提出了一种从有限的医学图像标注中进行端到端训练的分割网络U-Net,大力推动了医学图像分割领域的发展。但UNet对于一些边缘位置分割可能不精确,例如病变周围细微的毛刺图案可能表明病变良性恶性。为了进一步提高医学图像分割准确性,Zhou等人在UNet的基础上提出了UNet++,通过深度监督和重新设计UNet中跳跃连接路径,减少编码器和解码器中子网络特征图间的语义差异。
虽然医学图像分割领域研究火热,但在实际应用中,肺部病变边缘模糊,分割模型对于病灶边缘部分难以准确区分,可能造成漏检和误检,这并不符合使用计算机辅助医生进行诊断的初衷。而区别于图像分割,目标检测任务提供一个病灶的候选框,这将帮助医生进行快速的病灶区域定位,而不是关注于像素级别的分割区域,从而大幅度提升医生的工作效率。
上述方法虽然准确率逐步提高,但仍存在一些明显的不足:(1)大多为分类和分割方法,无法给出精确的边界框用于确定病变区域,算法效率低。(2)精度较高的工作通常为多个模型的融合或增加神经网络层数的堆叠,模型参数多且占用内存较大,在临床部署中并不现实。(3)大多算法所用的数据集可用带标注的数据量较少且类别单一,算法泛化性和鲁棒性差。
发明内容
鉴于此,本发明的目的在于提供一种残差的注意神经网络用于胸部X线病灶检测的方法,在参数量适中的情况下,具备较高的准确率,满足临床中帮助放射科医生进行肺部疾病诊断的需求,有效缓解当前CXR病灶检测中检测精度低,资源消耗大的问题。
为实现上述发明目的,本发明提供一种残差的注意神经网络用于胸部X线病灶检测的方法,所述方法包括以下步骤:
S1、获取医疗场景胸部X光图像数据,对胸部X光图像数据进行数据清洗和预处理,然后将经过预处理的胸部X光图像数据划分为训练数据、验证数据和待检测数据;
S2、构建CXR图像病灶检测模型;
S3、将训练数据分批量输入CXR图像病灶检测模型中进行训练,在训练过程中使用验证数据对CXR图像病灶检测模型进行评估,基于梯度下降算法对CXR图像病灶检测模型参数进行迭代优化,得到训练好的CXR图像病灶检测模型;
S4、将待检测数据输入训练好的CXR图像病灶检测模型中进行病灶识别,输出病灶检测结果、病灶类别和病灶区域的精确位置。
进一步的,步骤S2中,构建CXR图像病灶检测模型具体为:构建包括编码器RAMNet、多分支特征融合模块MFFM和收缩与扩张模块CAEB的CXR图像病灶检测模型,利用编码器RAMNet对胸部X光图像提取特征信息,将提取后的特征层经过多分支特征融合模块MFFM得到多分支融合的多尺度特征图,将浅层CAEB输出的集成上下文信息的特征,通过上采样与多尺度特征图进行融合,对最终输出的特征图进行进一步检测,并预测病灶的类别信息。
进一步的,输入CXR图像病灶检测模型的胸部X光图像首先经过编码器RAMNet进行病灶特征提取,得到至少4个有效特征层,然后将得到的有效特征层分别输入多分支特征融合模块MFFM和收缩与扩张模块CAEB中,对深层CAEB输出的特征图进行上采样,并与浅层MFFM输出的特征图进行融合,得到最终的4个有效特征层,在4个有效特征层上做检测并预测出病灶的类别信息。
进一步的,编码器RAMNet由卷积核大小为7×7的卷积层、基于残差的注意力模块RAM和最大池化层Maxpooling组成,采用VGG的直筒式堆叠方式。
进一步的,基于残差的注意力模块RAM在残差模块中引入预设注意力处理算法,将预设注意力处理算法串联在残差卷积神经网络ResNet的两个3×3卷积之后、跳跃连接shortcut之前,经过残差模块后输出的特征图依次经过预设注意力处理算法的通道注意力和空间注意力,通道注意力分别采用全局最大池化和全局平均池化得到权重向量,大小为1×1×C,并对权重向量进行相加,然后经过sigmoid函数得到通道注意力部分输出的权重向量,将该权重向量与残差模块的特征图相乘得到输入空间注意力的特征图,大小为H×W×C,其中H为特征图的高,W为特征图的宽,C为通道数。
进一步的,空间注意力采用全局最大池化和全局平均池化学习特征间的相关性,得到大小为H×W×1的特征图,接着通过三种不同大小的空洞卷积得到大小为H×W×2不同感受野的特征图,将得到的特征图进行融合然后进行过sigmoid函数处理,然后与输入空间注意力的特征图相乘,得到和原始输入特征图相同大小H×W×C的特征图,并与原始输入特征图进行融合,最终得到基于残差的注意力模块输出的特征图。
进一步的,所述收缩与扩张模块CAEB由一条收缩路径和一条扩张路径组成,收缩路径提取图像的高级特征,扩张路径恢复图像的细节信息。
进一步的,所述收缩与扩张模块CAEB对输入特征图首先通过卷积块Convblock和最大池化下采样Maxpooling处理,收缩路径采用两次下采样,扩张路径对其上采样恢复特征分辨率,与收缩路径中相同尺寸的特征进行Concat拼接,并再次通过卷积块Convblock和上采样处理,输出特征图保留大量的特征通道和丰富的上下文信息,其中,卷积块Convblock由两个连续的3×3卷积和ReLU激活函数组成。
进一步的,多分支特征融合模块MFFM通过多分支不同感受野的卷积进行融合捕捉多尺度的特征,多分支融合提取多尺度融合的病变特征,将三个不同大小的普通卷积用空洞卷积代替,并对不同感受野的信息进行融合,将得到的不同感受野的特征图以对应元素逐位相加的方式得到最终多尺度特征图。
进一步的,多分支特征融合模块MFFM对于输入特征首先使用1×1大小的卷积核来压缩每个分支的输入,然后在第二个分支的1×1卷积后使用两个3×3大小的卷积核,并在第四个分支的1×1卷积后中使用两个连续的1×3卷积和3×1卷积,接着对于除跳跃连接shortcut以外的分支使用卷积核大小为3×3的空洞卷积得到各分支不同感受野的特征,最后将不同感受野的特征与原始特征进行聚合。
与现有技术相比,本发明的有益效果是:
本发明提供的方法针对CXR图像中病灶检测算法精度不高的问题,提出了一个高精度的、鲁棒的胸部X光病变检测模型,所述方法利用目标检测在胸部X光图像中识别和定位疾病,大幅度提升了放射科医生的工作效率,病灶检测准确率高,优于现有主流深度学习模型。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的优选实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种残差的注意神经网络用于胸部X线病灶检测的方法整体流程示意图。
图2是本发明实施例提供的CXR图像病灶检测模型LungXDet整体架构示意图。
图3是本发明实施例提供的基于残差的注意力模块RAM的组成示意图。
图4是本发明实施例提供的收缩与扩张模块CAEB的原理图。
图5是本发明实施例提供的多分支特征融合模块MFFM的示意图。
图6是本发明实施例提供的不同算法的病灶检测结果示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所列举实施例只用于解释本发明,并非用于限定本发明的范围。
参照图1,本实施例提供一种残差的注意神经网络用于胸部X线病灶检测的方法,所述方法包括以下步骤:
S1、基于计算机辅助诊断系统,在临床医疗中,获取医疗场景胸部X光图像数据,对胸部X光图像数据进行数据清洗和预处理,然后将经过预处理的胸部X光图像数据划分为训练数据、验证数据和待检测数据。
S2、构建CXR图像病灶检测模型。
S3、将训练数据分批量输入CXR图像病灶检测模型中进行训练,在训练过程中至少每5轮使用验证数据对CXR图像病灶检测模型进行评估,基于梯度下降算法对CXR图像病灶检测模型参数进行迭代优化,得到训练好的CXR图像病灶检测模型。
S4、将待检测数据输入训练好的CXR图像病灶检测模型中进行病灶识别,输出病灶检测结果、病灶类别和病灶区域的精确位置。
作为一种优选的示例,步骤S2中,构建CXR图像病灶检测模型具体为:构建包括编码器RAMNet、多分支特征融合模块MFFM和收缩与扩张模块CAEB的CXR图像病灶检测模型,利用编码器RAMNet对胸部X光图像提取特征信息,将提取后的特征经过多分支特征融合模块MFFM得到多分支融合的多尺度特征,将深层CAEB输出的集成上下文信息的特征,通过上采样与多尺度特征进行融合,对最终输出的至少四个不同大小的特征图进行进一步检测,并预测病灶的类别信息。
具体的,输入CXR图像病灶检测模型的胸部X光图像首先经过编码器RAMNet进行病灶特征提取,得到至少4个有效特征层,然后将得到的有效特征层分别输入多分支特征融合模块MFFM和收缩与扩张模块CAEB中,对深层CAEB输出的特征图进行上采样,并与浅层MFFM输出的特征图进行融合,得到最终的4个有效特征层,最后在这四个有效特征层上做进一步检测并预测出病灶的类别信息。CXR图像病灶检测模型的整体架构如图2所示。
本实施例中,编码器RAMNet由卷积核大小为7×7的卷积层、基于残差的注意力模块RAM和最大池化层Maxpooling组成,基于RAM模块的优越性,编码器层数较少即可达到主流的层数更多的编码器的效果。同时编码器采用VGG的直筒式堆叠方式,主要作用在于:
(1)编码器RAMNet基于RAM构建,在对胸部X光图像进行特征提取时,能在保持梯度稳定的同时更关注病变区域的特征映射。与ResNet-18相比,所设计的编码器层数更少,但病灶检测精度比ResNet-18高10.52%,与其他编码器相比,RAMNet的精度也更高。
(2)直筒式的堆叠方式可以提高模型的可嵌入性,可以很容易地迁移到其他深度学习模型中,实现即插即用。
基于残差的注意力模块RAM在残差模块中引入预设注意力处理算法,将预设注意力处理算法串联在残差卷积神经网络ResNet的两个3×3卷积之后、跳跃连接shortcut之前,在不影响原ResNet结构的前提下对提取的特征映射在通道维度和空间维度重新进行权重分配,并通过通道和空间两个维度的注意力权重与原特征图相乘,对不同区域和不同通道的特征进行自适应调整,从而提高CXR图像病灶检测模型对重要特征的关注度。基于残差的注意力模块在保持梯度稳定性的同时结合注意力机制,使CXR图像病灶检测模型更加关注病变区域的特征,进而有效地提高神经网络对X光图像的特征提取能力。所述编码器在有效避免梯度消失和梯度爆炸的同时引入通道和空间注意力处理方法,在通道和空间维度上重新处理特征映射。
本实施例中,深度残差结构使用更深的卷积神经网络来提取更深层次的图像特征,并在网络中加入跳跃连接加强网络前后层之间的信息交换,网络的浅卷积提取灰度、纹理等低级语义特征,通过对多尺度空间特征图进行细化,融合不同感受野的信息,残差结构可以加强网络各层之间的信息交互,神经网络可以构建的很深,从而显著加强特征提取能力。
上述网络的浅卷积负责提取灰度、纹理等低级语义特征,这种低级语义特征的信息直接决定了高级语义特征在后续卷积层中的有效性。预设注意力处理算法对不同区域和不同通道的特征进行自适应调整,从而提高模型对重要特征的关注度。
参照图3,所述预设注意力处理算法包括通道注意力和空间注意力两部分,对于原始输入特征图大小H×W×C,经过残差模块后,输出的特征图依次经过通道注意力和空间注意力。具体的,通道注意力分别采用全局最大池化和全局平均池化得到大小为1×1×C的权重向量,并对权重向量进行相加然后经过sigmoid函数得到通道注意力部分输出的权重向量,将该权重向量与残差模块输出的特征图相乘得到输入空间注意力的大小为H×W×C的特征图。空间注意力也采用全局最大池化和全局平均池化学习特征间的相关性,得到大小为H×W×1的特征图,接着通过三种不同大小的空洞卷积(3×3,5×5,7×7)得到大小为H×W×2的不同感受野的特征图,将得到的特征图进行融合然后经过sigmoid函数处理,然后与输入空间注意力的特征图相乘,得到和原始输入特征图相同大小H×W×C的特征图,并与原始特征图进行融合得到最终基于残差的注意力模块输出的特征图。其中H为特征图的高,W为特征图的宽,C为通道数。
收缩与扩张模块CAEB如图4所示,由一条收缩路径和一条扩张路径组成,收缩路径提取图像的高级特征,扩张路径恢复图像的细节信息。
所述收缩与扩张模块CAEB首先通过卷积块Convblock和最大池化下采样Maxpooling处理,收缩路径采用两次下采样,扩张路径对其上采样恢复特征分辨率,与收缩路径中相同尺寸的特征进行Concat拼接,并再次通过卷积块Convblock和上采样处理,输出特征图保留大量的特征通道和丰富的上下文信息,其中,卷积块Convblock由两个连续的3×3卷积和ReLU激活函数组成。
上述在扩张路径中,保存大量的特征通道,这允许上下文信息被传播到更高分辨率的层。目的是,X光图像中,病变的上下文信息如病变周围的组织结构,血管分布可以帮助我们准确定位病变区域。通过保留更多的上下文信息,可以有效提升LungXDet模型对X光图像病变的敏感性。在扩张路径中,也有大量的特征通道,这允许模型将上下文信息传播到更高分辨率的层。
由于与自然图像相比,X光图像更加复杂,单一尺度上提供的特征信息量较少。一般卷积神经网络CNN产生的方形感受野覆盖了更多的背景,这可能会影响复杂环境下病变特征的提取。考虑到这些特性,本实施例采用如图5所示的多分支特征融合模块MFFM。
本实施例中,多分支特征融合模块MFFM通过多分支不同感受野的卷积进行融合捕捉多尺度的特征,多分支融合提取多尺度融合的病变特征,将三个不同大小的普通卷积用空洞卷积代替,并对不同感受野的信息进行融合,将得到的不同感受野的特征图以对应元素逐位相加的方式得到最终多尺度特征图。
上述实施例的目的是为进一步使CXR图像病灶检测模型LungXDet能更精确的定位肺部边缘位置的病变,并且进一步提高小目标检测效果。值得注意的是这并没有增加参数和计算量,保证了模型的高效率。与原始输入特征图相比,多尺度空间特征图进行了细化,并对不同感受野的信息进行了融合,这显著提高了模型对边缘病变和小的病变区域特征的敏感性。
作为一种优选的示例,多分支特征融合模块MFFM对于输入特征首先使用1×1大小的卷积核来压缩每个分支的输入,然后在第二个分支的1×1卷积后使用两个3×3大小的卷积核,并在第四个分支的1×1卷积后中使用两个连续的1×3卷积和3×1卷积,接着对于除跳跃连接shortcut的分支使用卷积核大小为3×3的空洞卷积得到各分支不同感受野的特征,最后将不同感受野的特征与原始特征进行聚合。多分支特征融合模块通过扩张卷积层来获得更大的感受野,而无需太多额外参数。
上述实施例的作用1:1×1卷积压缩每个分支的输入可以大幅减少参数量,而1×3和3×1的卷积可以在减少参数量的同时增加更多的非线性。空洞卷积可以进一步增大感受野,使模型在保持一定轻量化的同时进一步加强对小目标病灶的检测性能。
作用2:上述实施例所提出的结构的感受野更接近病变目标的纵横比,可以有效避免背景对模型检测结果的影响。此外,改进后的结构增加了网络的层数和深度,进一步提高了模型特征提取能力。
上述实施例的目的在于:首先在节省内存且没有增加太多额外参数的情况下,通过堆叠卷积层和扩张卷积层来获得更大的感受野,其次,MFFM的感受野更接近病变目标的宽高比,可以有效地避免背景对模型检测结果的影响。此外,改进后的结构增加了网络的层数和深度,进一步提高了特征提取能力。
作为一种优选的示例,CXR图像病灶检测模型在PyTorch深度学习框架上进行训练和测试,采用从头开始训练的方法,并设置如下超参数:初始学习率为1e-3,批量大小设置为4,采用SGD优化器更新模型的参数,并设置0.0005和0.9权重衰减和动量。且所有卷积层参数都使用xavier初始化方法进行初始化,学习率采用余弦退火策略进行衰减,同时采用训练轮数自适应调整机制,当训练超过150轮后精度连续5轮不超过最高精度时停止训练。
CXR图像病灶检测模型训练时涉及到的损失函数L由和/>两部分组成。其中/>对应返回图像中病灶的位置和大小的阶段,/>根据返回判断病灶所属的类别。/>和/>分别是ARM和ODM中的锚框正样本的数量。其中i是每个锚框的索引,Ls是 smooth L1损失函数,si是判断预测的类别是否与ground truth标签一致,匹配为1否则为0。最后用/>表示真实标签。
在损失函数中,pi和xi分别是ARM部分预测锚框i中有目标的概率和对应的位置坐标,Lb是二分类交叉熵损失函数。
在损失函数中,ci和ti分别是ODM部分预测锚框i的类别以及对应的边界框位置坐标,而li是锚框的真实类别,Lm作为多类别分类损失,使用softmax损失函数。
将上述两个损失函数的值相加,得到模型整体损失函数L:
本发明针对CXR图像中病灶检测算法精度不高的问题,提出了一个高精度的、鲁棒的胸部X光病变检测模型LungXDet。该系统利用目标检测在胸部X光图像中识别和定位疾病,大幅度提升了放射科医生的工作效率。具体来说,提出的一种新的功能强大的编码器RAMNet,用于对X光图像进行特征提取,设计了收缩与扩张模块(CAEB)用于捕获病变区域的上下文信息并传递到深度网络中,设计了多分支特征融合模块(MFFM)通过融合多分支不同感受野的卷积捕捉多尺度特征。同时这两个模块可以即插即用地添加到其他网络中,以增强网络的特征表征能力。设计的编码器RAMNet和CAEB、MFFM两个模块,极大地提高了模型的病灶检测性能。模型在Vingroup大数据研究所(VinBigdata)发布的全球最大的公开可用胸部X光数据集VinDr-CXR上进行了大量实验。平均精度(mAP)从11.41%提高到23.45%,明显优于现有主流深度学习模型。在IoU设置为0.5时,模型的meanAP比基准网络高了12.04%,尽管不同IoU下(0.5,0.6,0.7,0.8)的meanAP也明显优于当前主流的深度学习模型。上述方案为临床应用提供了能够提高CXR图像病灶检测的精度和效率,且优于当前主流深度学习模型的胸部X光病灶检测模型LungXDet,可以很好的满足临床帮助放射科医生诊断肺部疾病的需求。
为了证明本发明提出的编码器RAMNet的有效性,本发明做了多个编码器的对比实验,实验结果如表1所示,RefineDet中的VGG-16的精度为11.41%,ResNet-18和ResNet-34的精度分别为12.93%、12.91%。本发明的编码器获得了23.45%的mAP,明显高于其他编码器,证明了本发明的编码器处理CXR图像的有效性。
表1:不同编码器的性能比较
为了证明本发明的CXR图像病灶检测模型LungXDet的优越性,本发明与当前主流的目标检测模型进行对比实验。所使用PASCAL VOC 2010标且设置IoU>0.4(0.5、0.6、0.7和0.8)。实验结果如图6所示。可以看出,本发明的CXR病灶检测模型LungXDet在不同的IoU标准下检测能力均优于主流目标检测算法,达到了23.45%。Yolov5在此任务中也表现出出众的检测能力,达到了18.14%,在不同IoU下现有技术依然低于本发明的CXR图像病灶检测模型LungXDet。而SSD在此任务上的检测效果较差,甚至低于10%。在IoU为0.8时,大部分算法检测精度为1%, Refinedet甚至小于0,而本发明的算法仍可以达到4.39%的精度,这表明LungXDet在极为苛刻的条件下性能依旧优于主流目标检测模型。LungXDet在精度上相比基准模型RefineDet提升了12.04%,且优于主流目标检测算法。这对于辅助放射科医生确定病变位置是至关重要的,证明了本发明的CXR病灶检测模型LungXDet在医学图像目标检测领域的有效性。
值得注意的是,对于肺纤维化和胸膜增厚这两种病变类型,病变区域形状不规则,边缘区域模糊,基准网络无法对其进行精确定位,而本发明的模型检测框的宽度和高度可以高度拟合这两种病变区域。在极端情况下,病变区域交叉甚至重叠时,模型也能准确地识别出病变区域。同时在参数量适中的情况下,LungXDet有着较高的准确率,可以很好的满足临床中帮助放射科医生进行肺部疾病诊断的需求,有效缓解了当前肺部病变检测中检测精度低,资源消耗大的问题。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种残差的注意神经网络用于胸部X线病灶检测的方法,其特征在于,所述方法包括以下步骤:
S1、获取医疗场景胸部X光图像数据,对胸部X光图像数据进行数据清洗和预处理,然后将经过预处理的胸部X光图像数据划分为训练数据、验证数据和待检测数据;
S2、构建CXR图像病灶检测模型;
S3、将训练数据分批量输入CXR图像病灶检测模型中进行训练,在训练过程中使用验证数据对CXR图像病灶检测模型进行评估,基于梯度下降算法对CXR图像病灶检测模型参数进行迭代优化,得到训练好的CXR图像病灶检测模型;
S4、将待检测数据输入训练好的CXR图像病灶检测模型中进行病灶识别,输出病灶检测结果、病灶类别和病灶区域的精确位置;
步骤S2中,构建CXR图像病灶检测模型具体为:构建包括编码器RAMNet、多分支特征融合模块MFFM和收缩与扩张模块CAEB的CXR图像病灶检测模型,利用编码器RAMNet对胸部X光图像提取特征信息,将提取后的特征经过多分支特征融合模块MFFM得到多分支融合的多尺度特征,将深层CAEB输出的集成上下文信息的特征,通过上采样与多尺度特征进行融合,对最终输出的特征图进行进一步检测,并预测病灶的类别信息;
编码器RAMNet由卷积核大小为7×7的卷积层、基于残差的注意力模块RAM和最大池化层Maxpooling组成,采用VGG的直筒式堆叠方式;
基于残差的注意力模块RAM在残差模块中引入预设注意力处理算法,将预设注意力处理算法串联在残差卷积神经网络ResNet的两个3×3卷积之后、跳跃连接shortcut之前,经过残差模块后输出的特征图依次经过预设注意力处理算法的通道注意力和空间注意力,通道注意力分别采用全局最大池化和全局平均池化得到权重向量,大小为1×1×C,并对权重向量进行相加,然后经过sigmoid函数得到通道注意力部分输出的权重向量,将该权重向量与残差模块输出的特征图相乘得到输入空间注意力的特征图,大小为H×W×C,其中H为特征图的高,W为特征图的宽,C为通道数。
2.根据权利要求1所述的一种残差的注意神经网络用于胸部X线病灶检测的方法,其特征在于,输入CXR图像病灶检测模型的胸部X光图像首先经过编码器RAMNet进行病灶特征提取,得到至少4个有效特征层,然后将得到的有效特征层分别输入多分支特征融合模块MFFM和收缩与扩张模块CAEB中,对深层CAEB输出的特征图进行上采样,并与浅层MFFM输出的特征图进行融合,得到最终的4个有效特征层,在4个有效特征层上做检测并预测出病灶的类别信息。
3.根据权利要求1所述的一种残差的注意神经网络用于胸部X线病灶检测的方法,其特征在于,空间注意力采用全局最大池化和全局平均池化学习特征间的相关性,得到大小为H×W×1的特征图,接着通过三种不同大小的空洞卷积得到大小为H×W×2不同感受野的特征图,将得到的特征图进行融合然后经过sigmoid函数处理,然后与输入空间注意力的特征图相乘,得到和原始输入特征图相同大小H×W×C的特征图,并与原始输入特征图进行融合,最终得到基于残差的注意力模块输出的特征图。
4.根据权利要求1所述的一种残差的注意神经网络用于胸部X线病灶检测的方法,其特征在于,所述收缩与扩张模块CAEB由一条收缩路径和一条扩张路径组成,收缩路径提取图像的高级特征,扩张路径恢复图像的细节信息。
5.根据权利要求4所述的一种残差的注意神经网络用于胸部X线病灶检测的方法,其特征在于,所述收缩与扩张模块CAEB对输入特征图首先通过卷积块Convblock和最大池化下采样Maxpooling处理,收缩路径采用两次下采样,扩张路径对其上采样恢复特征分辨率,与收缩路径中相同尺寸的特征进行Concat拼接,并再次通过卷积块Convblock和上采样处理,输出特征图保留大量的特征通道和丰富的上下文信息,其中,卷积块Convblock由两个连续的3×3卷积和ReLU激活函数组成。
6.根据权利要求1所述的一种残差的注意神经网络用于胸部X线病灶检测的方法,其特征在于,多分支特征融合模块MFFM通过多分支不同感受野的卷积进行融合捕捉多尺度的特征,多分支融合提取多尺度融合的病变特征,将三个不同大小的普通卷积用空洞卷积代替,并对不同感受野的信息进行融合,将得到的不同感受野的特征图以对应元素逐位相加的方式得到最终多尺度特征图。
7.根据权利要求6所述的一种残差的注意神经网络用于胸部X线病灶检测的方法,其特征在于,多分支特征融合模块MFFM对于输入特征首先使用1×1大小的卷积核来压缩每个分支的输入,然后在第二个分支的1×1卷积后使用两个3×3大小的卷积核,并在第四个分支的1×1卷积后中使用两个连续的1×3卷积和3×1卷积,接着对于除跳跃连接shortcut以外的分支使用卷积核大小为3×3的空洞卷积得到各分支不同感受野的特征,最后将不同感受野的特征与原始特征进行聚合。
CN202410167332.2A 2024-02-06 2024-02-06 残差的注意神经网络用于胸部x线病灶检测的方法 Active CN117710760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410167332.2A CN117710760B (zh) 2024-02-06 2024-02-06 残差的注意神经网络用于胸部x线病灶检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410167332.2A CN117710760B (zh) 2024-02-06 2024-02-06 残差的注意神经网络用于胸部x线病灶检测的方法

Publications (2)

Publication Number Publication Date
CN117710760A CN117710760A (zh) 2024-03-15
CN117710760B true CN117710760B (zh) 2024-05-17

Family

ID=90161111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410167332.2A Active CN117710760B (zh) 2024-02-06 2024-02-06 残差的注意神经网络用于胸部x线病灶检测的方法

Country Status (1)

Country Link
CN (1) CN117710760B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117911418B (zh) * 2024-03-20 2024-06-21 常熟理工学院 基于改进yolo算法的病灶检测方法、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667468A (zh) * 2020-05-28 2020-09-15 平安科技(深圳)有限公司 基于神经网络的oct图像病灶检测方法、装置及介质
CN115359035A (zh) * 2022-09-05 2022-11-18 中国矿业大学 基于可变形多尺度卷积的肺部x光病灶检测系统与方法
CN115995015A (zh) * 2022-07-28 2023-04-21 安徽理工大学 基于残差卷积与多头自注意力的cxr图像分类方法及系统
CN116228785A (zh) * 2023-03-17 2023-06-06 张欣卓 一种基于改进的Unet网络的肺炎CT影像分割方法
CN116563204A (zh) * 2023-03-08 2023-08-08 江苏科技大学 一种融合多尺度残差注意力的医学图像分割方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12039724B2 (en) * 2020-12-09 2024-07-16 Imidex, Inc. Methods of assessing lung disease in chest x-rays
US20220309661A1 (en) * 2021-03-26 2022-09-29 Korea Advanced Institute Of Science And Technology Severity quantification and lesion localization method of infectious disease on cxr using vision transformer and apparatus therefor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667468A (zh) * 2020-05-28 2020-09-15 平安科技(深圳)有限公司 基于神经网络的oct图像病灶检测方法、装置及介质
CN115995015A (zh) * 2022-07-28 2023-04-21 安徽理工大学 基于残差卷积与多头自注意力的cxr图像分类方法及系统
CN115359035A (zh) * 2022-09-05 2022-11-18 中国矿业大学 基于可变形多尺度卷积的肺部x光病灶检测系统与方法
CN116563204A (zh) * 2023-03-08 2023-08-08 江苏科技大学 一种融合多尺度残差注意力的医学图像分割方法
CN116228785A (zh) * 2023-03-17 2023-06-06 张欣卓 一种基于改进的Unet网络的肺炎CT影像分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于梯度下降法的Chebyshev前向神经网络;肖秀春 等;安徽工业大学学报;20180630;第35卷(第2期);第153-159页 *

Also Published As

Publication number Publication date
CN117710760A (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
EP3961500B1 (en) Medical image detection method based on deep learning, and related device
Lin et al. Automatic retinal vessel segmentation via deeply supervised and smoothly regularized network
CN110766051A (zh) 一种基于神经网络的肺结节形态学分类方法
Zheng et al. Deep convolutional neural networks for multiplanar lung nodule detection: Improvement in small nodule identification
Zhang et al. Liver tumor segmentation using 2.5 D UV-Net with multi-scale convolution
Ashwin et al. Efficient and reliable lung nodule detection using a neural network based computer aided diagnosis system
CN112329871B (zh) 一种基于自校正卷积与通道注意力机制的肺结节检测方法
CN111667459B (zh) 一种基于3d可变卷积和时序特征融合的医学征象检测方法、系统、终端及存储介质
Zhao et al. D2a u-net: Automatic segmentation of covid-19 lesions from ct slices with dilated convolution and dual attention mechanism
Zhang et al. LungSeek: 3D Selective Kernel residual network for pulmonary nodule diagnosis
CN110570394A (zh) 医学图像分割方法、装置、设备及存储介质
CN113592769B (zh) 异常图像的检测、模型的训练方法、装置、设备及介质
Dong et al. Learning from dermoscopic images in association with clinical metadata for skin lesion segmentation and classification
CN117710760B (zh) 残差的注意神经网络用于胸部x线病灶检测的方法
CN111798424A (zh) 一种基于医学图像的结节检测方法、装置及电子设备
Park et al. X-ray image segmentation using multi-task learning
Sangeetha et al. Diagnosis of pneumonia using image recognition techniques
CN116883341A (zh) 一种基于深度学习的肝脏肿瘤ct图像自动分割方法
CN116563285A (zh) 一种基于全神经网络的病灶特征识别与分割方法及系统
Khachnaoui et al. Deep learning for automatic pulmonary embolism identification using CTA images
Wang et al. False positive reduction in pulmonary nodule classification using 3D texture and edge feature in CT images
CN113554656A (zh) 基于图神经网络的光学遥感图像实例分割方法及装置
Li et al. Deformation and refined features based lesion detection on chest X-ray
CN112750110A (zh) 基于神经网络对肺部病灶区进行评估的评估系统和相关产品
Xiao et al. Multi-scale Perception and Feature Refinement Network for multi-class segmentation of intracerebral hemorrhage in CT images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant