CN113822855A - 一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法 - Google Patents
一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法 Download PDFInfo
- Publication number
- CN113822855A CN113822855A CN202110933152.7A CN202110933152A CN113822855A CN 113822855 A CN113822855 A CN 113822855A CN 202110933152 A CN202110933152 A CN 202110933152A CN 113822855 A CN113822855 A CN 113822855A
- Authority
- CN
- China
- Prior art keywords
- rgb
- thermal
- decoding
- feature
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000002708 enhancing effect Effects 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims description 45
- 238000010606 normalization Methods 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000014413 Maternally-inherited diabetes and deafness Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种RGB‑T图像显著目标检测方法,包括以下步骤:从RGB‑T图像中提取RGB特征和Thermal特征,产生对应初始显著图,利用初始显著图增强所述RGB特征和Thermal特征后,实施独立解码,产生RGB和Thermal独立解码特征、独立解码显著图;融合所述RGB和Thermal独立解码特征,形成RGB‑T融合特征后,实施联合解码,产生联合解码显著图;利用显著图真值监督独立解码显著图、联合解码显著图,通过训练数据集的训练,形成RGB‑T图像显著目标检测模型,所述模型检测任意一张RGB‑T图像,输出联合解码显著图。所述方法通过独立解码兼顾RGB颜色图像和Thermal热红外图像各自的独特性,通过联合编码减少RGB颜色图像和Thermal热红外图像二者之间的差异,提高检测性能。
Description
技术领域
本发明涉及计算机视觉领域,特别是涉及一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法。
背景技术
RGB-T图像是由RGB颜色图像和Thermal热红外图像组成。当RGB颜色图像的光线不足或者背景噪声太多,图像显著目标检测的效果往往不尽人意。然而热红外摄像机可以捕捉任何温度超过绝对零度的物体发出的红外辐射,因此Thermal热红外图像对光照条件不敏感,具有较强的抗噪声干扰能力。结合RGB颜色图像和Thermal热红外图像的优势,RGB-T图像显著目标检测逐渐成为研究的热点。
Transformer依靠多头自注意力及前向传播网络在自然语言处理、计算机视觉领域取得了突破性的进展,其在特征的远距离依赖特性提取方面的表现优异。最近SegFormer提出的使用重叠融合来保持切块周围的局部连续性,采用按比例缩减分辨率来减少多头自注意力的计算复杂度,并使用深度卷积来提供位置信息和减少参数量,因此,它可以方便地作为RGB-T图像显著目标检测的编码模型。
RGB-T图像显著目标检测的关键是有效挖掘颜色图像和热红外图像两种模式的信息并实现其融合,双流编码、联合解码是目前已有的RGB-T图像显著目标检测模型采用的主要方式,它偏向于考虑RGB颜色图像和Thermal热红外图像的融合,并没有考虑RGB颜色图像和Thermal热红外图像各自的独特性。
发明内容
本发明所需要解决的技术问题是提供一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,通过独立解码兼顾RGB颜色图像和Thermal热红外图像各自的独特性,并通过联合编码减少RGB颜色图像和Thermal热红外图像二者之间的差异,以提高检测性能。
本发明一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,包括以下步骤:
S1、从RGB-T图像中提取RGB特征和Thermal特征,产生RGB初始显著图及Thermal初始显著图;
S2、通过RGB初始显著图及Thermal初始显著图分别对所述RGB特征和Thermal特征进行增强,形成RGB增强特征和Thermal增强特征;
S3、分别对RGB增强特征和Thermal增强特征进行独立解码,产生RGB独立解码特征和Thermal独立解码特征及独立解码显著图Sc和St;
S4、对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征;
S5、对RGB-T融合特征进行联合解码,形成联合解码显著图S;
S6、利用显著图真值监督所述独立解码显著图Sc和St、所述联合解码显著图S,通过训练数据集的训练,形成RGB-T图像显著目标检测模型;
S7、利用所述RGB-T图像显著目标检测模型检测任意一张RGB-T图像,经过步骤S1-S5,输出联合解码显著图为检测结果。
进一步地,在所述步骤S1中,提取RGB特征和Thermal特征的方法是分别使用两个在ImageNet上预训练的SegFormer神经网络模型提取RGB特征及Thermal特征其中i表示层数,对应于SegFormer的层数,i取值为1至4的自然数;接着,分别对所述第四层RGB特征和Thermal特征进行1×1卷积、Sigmoid激活函数处理得到RGB初始显著图及Thermal初始显著图具体描述为:
所述l∈{c,t},表示RGB或者Thermal,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数;
进一步地,在所述步骤S2中,将RGB初始显著图及Thermal初始显著图上采样到与一样大小,然后与各层特征进行逐元素相乘、逐元素相加,形成RGB增强特征和Thermal增强特征同时,第四层RGB增强特征和Thermal增强特征即为第四层RGB特征和Thermal特征具体描述为:
所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
进一步地,在步骤S3中,使用传统的U-Net解码结构,分别对RGB增强特征和Thermal增强特征进行独立解码,具体操作是:第四层RGB独立解码特征和Thermal独立解码特征即为第四层RGB增强特征和Thermal增强特征其余各层RGB独立解码特征和Thermal独立解码特征为相邻高一层RGB独立解码特征和Thermal独立解码特征经过上采样后与本层RGB增强特征和Thermal增强特征进行级联,再经过3×3卷积、批归一化、ReLU操作产生,具体描述为:
所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,Concat(·)表示级联操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;
所述l∈{c,t},表示RGB或者Thermal,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数,up(·)表示上采样操作;
进一步地,在步骤S4中,对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征,具体步骤如下:所述RGB独立解码特征和Thermal独立解码特征先进行逐元素相乘,产生共同特征Qi,同时,RGB独立解码特征使用通道注意力得到RGB注意力特征Thermal独立解码特征使用空间注意力得到Thermal注意力特征然后将共同特征Qi与RGB注意力特征Thermal注意力特征进行级联操作,再进行3×3卷积,最后再与所述RGB独立解码特征进行逐元素相加,形成RGB-T融合特征FFi,具体描述为:
所述“×”是指逐元素相乘操作,CA(·)操作是指论文《Coordinate Attentionfor Efficient Mobile Network Design》中所提出的通道注意力模块,SA(·)是指论文《CBAM:Convolutional Block Attention Module》中所提出的空间注意力模块,Concat(·)表示级联操作,Conv3(·)表示3×3卷积,“+”是指逐元素相加操作;
进一步地,在步骤S5中,对RGB-T融合特征进行联合解码,形成联合解码显著图S,如图4所示,具体步骤如下:第四层RGB-T融合特征FF4即为增强融合特征JF4,其余每层RGB-T融合特征FFi(i=1,2,3)要与比它层数高的RGB-T融合特征进行逐元素相乘来加强本层特征,形成增强融合特征JFi(i=1,2,3);为了确保分辨率大小一致,高层RGB-T融合特征要进行上采样、卷积、批归一化、ReLU处理,具体描述为:
所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,“×”是指逐元素相乘操作;
增强融合特征JFi(i=1,…,4)使用传统的U-Net解码结构进行解码,具体操作如下:第四层联合解码特征P4即为增强融合特征JF4,其余每层联合解码特征Pi(i=1,2,3)为相邻高一层联合解码特征Pi+1(i=1,2,3)经上采样后,与本层增强融合特征JFi(i=1,2,3)进行级联,再经过3×3卷积、批归一化、ReLU操作产生,具体描述为:
所述Concat(·)表示级联操作,up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;
接着,通过上采样、3×3卷积、批归一化、ReLU操作、上采样、1×1卷积和Sigmoid激活函数产生联合解码显著图S,具体描述为:
S=Sig(Conv1(up(BConv3(up(P1)))))
所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数;
与已有技术相比,本发明有益效果体现在:
本发明提出一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,通过独立解码兼顾RGB颜色图像和Thermal热红外图像各自的独特性,并通过联合编码减少RGB颜色图像和Thermal热红外图像二者之间的差异,以提高检测性能。
附图说明
图1为本发明一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法的流程图;
图2为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法中所述独立解码过程;
图3为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法中所述独立解码特征形成RGB-T融合特征的过程;
图4为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法中所述联合解码过程;
图5为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测模型图。
以下通过具体实施方式,并结合附图对本发明做进一步说明,但本发明的实施方式不限于此。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,如图1所示,包括以下步骤:
S1、从RGB-T图像中提取RGB特征和Thermal特征,产生RGB初始显著图及Thermal初始显著图;
S2、通过RGB初始显著图及Thermal初始显著图分别对所述RGB特征和Thermal特征进行增强,形成RGB增强特征和Thermal增强特征;
S3、分别对RGB增强特征和Thermal增强特征进行独立解码,产生RGB独立解码特征和Thermal独立解码特征及独立解码显著图Sc和St;
S4、对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征;
S5、对RGB-T融合特征进行联合解码,形成联合解码显著图S;
S6、利用显著图真值监督所述独立解码显著图Sc和St、所述联合解码显著图S,通过训练数据集的训练,形成RGB-T图像显著目标检测模型;
S7、利用所述RGB-T图像显著目标检测模型检测任意一张RGB-T图像,经过步骤S1-S5,输出联合解码显著图为检测结果。
进一步地,在所述步骤S1中,提取RGB特征和Thermal特征的方法是分别使用两个在ImageNet上预训练的SegFormer神经网络模型提取RGB特征及Thermal特征其中i表示层数,对应于SegFormer的层数,i取值为1至4的自然数;接着,分别对所述第四层RGB特征和Thermal特征进行1×1卷积、Sigmoid激活函数处理得到RGB初始显著图及Thermal初始显著图具体描述为:
所述l∈{c,t},表示RGB或者Thermal,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数;
进一步地,在所述步骤S2中,将RGB初始显著图及Thermal初始显著图上采样到与一样大小,然后与各层特征进行逐元素相乘、逐元素相加,形成RGB增强特征和Thermal增强特征同时,第四层RGB增强特征和Thermal增强特征即为第四层RGB特征和Thermal特征具体描述为:
所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
进一步地,在步骤S3中,使用传统的U-Net解码结构,分别对RGB增强特征和Thermal增强特征进行独立解码,如图2所示,具体操作是:第四层RGB独立解码特征和Thermal独立解码特征即为第四层RGB增强特征和Thermal增强特征其余各层RGB独立解码特征和Thermal独立解码特征为相邻高一层RGB独立解码特征和Thermal独立解码特征经过上采样后与本层RGB增强特征和Thermal增强特征进行级联,再经过3×3卷积、批归一化、ReLU操作产生,具体描述为:
所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,Concat(·)表示级联操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;
所述l∈{c,t},表示RGB或者Thermal,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数,up(·)表示上采样操作;
进一步地,在步骤S4中,对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征,如图3所示,具体步骤如下:所述RGB独立解码特征和Thermal独立解码特征先进行逐元素相乘,产生共同特征Qi,同时,RGB独立解码特征使用通道注意力得到RGB注意力特征Thermal独立解码特征使用空间注意力得到Thermal注意力特征然后将共同特征Qi与RGB注意力特征Thermal注意力特征进行级联操作,再进行3×3卷积,最后再与所述RGB独立解码特征进行逐元素相加,形成RGB-T融合特征FFi,具体描述为:
所述“×”是指逐元素相乘操作,CA(·)操作是指论文《Coordinate Attentionfor Efficient Mobile Network Design》中所提出的通道注意力模块,SA(·)是指论文《CBAM:Convolutional Block Attention Module》中所提出的空间注意力模块,Concat(·)表示级联操作,Conv3(·)表示3×3卷积,“+”是指逐元素相加操作;
进一步地,在步骤S5中,对RGB-T融合特征进行联合解码,形成联合解码显著图S,如图4所示,具体步骤如下:第四层RGB-T融合特征FF4即为增强融合特征JF4,其余每层RGB-T融合特征FFi(i=1,2,3)要与比它层数高的RGB-T融合特征进行逐元素相乘来加强本层特征,形成增强融合特征JFi(i=1,2,3);为了确保分辨率大小一致,高层RGB-T融合特征要进行上采样、卷积、批归一化、ReLU处理,具体描述为:
所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,“×”是指逐元素相乘操作;
增强融合特征JFi(i=1,…,4)使用传统的U-Net解码结构进行解码,具体操作如下:第四层联合解码特征P4即为增强融合特征JF4,其余每层联合解码特征Pi(i=1,2,3)为相邻高一层联合解码特征Pi+1(i=1,2,3)经上采样后,与本层增强融合特征JFi(i=1,2,3)进行级联,再经过3×3卷积、批归一化、ReLU操作产生,具体描述为:
所述Concat(·)表示级联操作,up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;
接着,通过上采样、3×3卷积、批归一化、ReLU操作、上采样、1×1卷积和Sigmoid激活函数产生联合解码显著图S,具体描述为:
S=Sig(Conv1(up(BConv3(up(P1)))))
所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数;
进一步地,在步骤S6中,利用显著图真值监督所述独立解码显著图Sc和St、所述联合解码显著图S,三个交叉熵损失的权重设置为0.25、0.25和1。本实施例采用的训练数据集为VT5000数据集上选取的2500张图片。训练集进行了随机翻转、旋转、边界裁剪等数据增强操作。形成的RGB-T图像显著目标检测模型图如图5所示,所述模型训练选取Adam优化器,初始学习率为6e-5,批处理大小为7,采用Mit-B4预训练参数及PyTorch默认设置,使用的显卡是NVIDIA GTX 1080Ti GPU,模型训练100代后收敛。
进一步地,在步骤S7中,本实施例采用的测试数据集为VT5000数据集上除训练数据集之外的剩余图片及整个的VT821和VT1000数据集。
所述独立解码和联合解码相结合的RGB-T图像显著目标检测方法与7种RGB-T图像显著目标检测方法MTMR[1],M3S-NIR[2],SGDL[3],ADF[4],ECFFNet[5],MIDD[6],MMNet[7]进行对比,结果见表1。
表1实验结果
[1]G.Wang,C.Li,Y.Ma,A.Zheng,J.Tang,and B.Luo,“RGB-T saliencydetection benchmark:Dataset,baselines,analysis and a novel approach,”inChinese Conference on Image and Graphics Technologies.Springer,2018,pp.359–369.
[2]Z.Tu,T.Xia,C.Li,Y.Lu,and J.Tang,“M3S-NIR:Multi-modal multi-scalenoise-insensitive ranking for RGB-T saliency detection,”in 2019 IEEEConference on Multimedia Information Processing and Retrieval(MIPR).IEEE,2019,pp.141–146.
[3]Z.Tu,T.Xia,C.Li,X.Wang,Y.Ma,and J.Tang,“RGB-T image saliencydetection via collaborative graph learning,”IEEE Transactions on Multimedia,vol.22,no.1,pp.160–173,2019.
[4]Z.Tu,Y.Ma,Z.Li,C.Li,J.Xu,and Y.Liu,“RGBT salient object detection:A large-scale dataset and benchmark,”arXiv preprint arXiv:2007.03262,2020.
[5]W.Zhou,Q.Guo,J.Lei,L.Yu,and J.-N.Hwang,“ECFFNet:effective andconsistent feature fusion network for RGB-T salient object detection,”IEEETransactions on Circuits and Systems for Video Technology,2021.
[6]Z.Tu,Z.Li,C.Li,Y.Lang,and J.Tang,“Multi-Interactive Dual-Decoderfor RGB-Thermal Salient Object Detection,”IEEE Transactions on ImageProcessing,vol.30,pp.5678–5691,2021.
[7]W.Gao,G.Liao,S.Ma,G.Li,Y.Liang,and W.Lin,“Unifified InformationFusion Network for Multi-Modal RGB-D and RGB-T Salient Object Detection,”IEEETransactions on Circuits and Systems for Video Technology,2021.
如表1所示可知,本实施例一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法在S-measure、自适应F-measure、自适应E-measure及MAE评价指标上均取得最优的结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.本发明一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,其特征在于,所述方法包括以下步骤:
S1、从RGB-T图像中提取RGB特征和Thermal特征,产生RGB初始显著图及Thermal初始显著图;
S2、通过RGB初始显著图及Thermal初始显著图分别对所述RGB特征和Thermal特征进行增强,形成RGB增强特征和Thermal增强特征;
S3、分别对RGB增强特征和Thermal增强特征进行独立解码,产生RGB独立解码特征和Thermal独立解码特征及独立解码显著图Sc和St;
S4、对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征;
S5、对RGB-T融合特征进行联合解码,形成联合解码显著图S;
S6、利用显著图真值监督所述独立解码显著图Sc和St、所述联合解码显著图S,通过训练数据集的训练,形成RGB-T图像显著目标检测模型;
S7、利用所述RGB-T图像显著目标检测模型检测任意一张RGB-T图像,经过步骤S1-S5,输出联合解码显著图为检测结果。
4.根据权利要求1所述的一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,其特征在于,所述步骤S3的具体过程为:使用传统的U-Net解码结构,分别对RGB增强特征和Thermal增强特征进行独立解码,具体操作是:第四层RGB独立解码特征和Thermal独立解码特征即为第四层RGB增强特征和Thermal增强特征其余各层RGB独立解码特征和Thermal独立解码特征为相邻高一层RGB独立解码特征和Thermal独立解码特征经过上采样后与本层RGB增强特征和Thermal增强特征进行级联,再经过3×3卷积、批归一化、ReLU操作产生,具体描述为:
所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,Concat(·)表示级联操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;
所述l∈{c,t},表示RGB或者Thermal,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数,up(·)表示上采样操作。
5.根据权利要求1所述的一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,其特征在于,所述步骤S4的具体过程为:所述RGB独立解码特征和Thermal独立解码特征先进行逐元素相乘,产生共同特征Qi,同时,RGB独立解码特征使用通道注意力得到RGB注意力特征Thermal独立解码特征使用空间注意力得到Thermal注意力特征然后将共同特征Qi与RGB注意力特征Thermal注意力特征进行级联操作,再进行3×3卷积,最后再与所述RGB独立解码特征进行逐元素相加,形成RGB-T融合特征FFi,具体描述为:
所述“×”是指逐元素相乘操作,CA(·)操作是指论文《Coordinate Attention forEfficient Mobile Network Design》中所提出的通道注意力模块,SA(·)是指论文《CBAM:Convolutional Block Attention Module》中所提出的空间注意力模块,Concat(·)表示级联操作,Conv3(·)表示3×3卷积,“+”是指逐元素相加操作。
6.根据权利要求1所述的一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,其特征在于,所述步骤S5的具体过程为:第四层RGB-T融合特征FF4即为增强融合特征JF4,其余每层RGB-T融合特征FFi(i=1,2,3)要与比它层数高的RGB-T融合特征进行逐元素相乘来加强本层特征,形成增强融合特征JFi(i=1,2,3);为了确保分辨率大小一致,高层RGB-T融合特征要进行上采样、卷积、批归一化、ReLU处理,具体描述为:
所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,“×”是指逐元素相乘操作;
增强融合特征JFi(i=1,…,4)使用传统的U-Net解码结构进行解码,具体操作如下:第四层联合解码特征P4即为增强融合特征JF4,其余每层联合解码特征Pi(i=1,2,3)为相邻高一层联合解码特征Pi+1(i=1,2,3)经上采样后,与本层增强融合特征JFi(i=1,2,3)进行级联,再经过3×3卷积、批归一化、ReLU操作产生,具体描述为:
所述Concat(·)表示级联操作,up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;
接着,通过上采样、3×3卷积、批归一化、ReLU操作、上采样、1×1卷积和Sigmoid激活函数产生联合解码显著图S,具体描述为:
S=Sig(Conv1(up(BConv3(up(P1)))))
所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110933152.7A CN113822855B (zh) | 2021-08-11 | 2021-08-11 | 一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110933152.7A CN113822855B (zh) | 2021-08-11 | 2021-08-11 | 一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113822855A true CN113822855A (zh) | 2021-12-21 |
CN113822855B CN113822855B (zh) | 2024-10-15 |
Family
ID=78922937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110933152.7A Active CN113822855B (zh) | 2021-08-11 | 2021-08-11 | 一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822855B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346436A (zh) * | 2017-06-29 | 2017-11-14 | 北京以萨技术股份有限公司 | 一种融合图像分类的视觉显著性检测方法 |
CN109598268A (zh) * | 2018-11-23 | 2019-04-09 | 安徽大学 | 一种基于单流深度网络的rgb-d显著目标检测方法 |
WO2019136591A1 (zh) * | 2018-01-09 | 2019-07-18 | 深圳大学 | 基于弱监督时空级联神经网络的显著目标检测方法及系统 |
CN110210539A (zh) * | 2019-05-22 | 2019-09-06 | 西安电子科技大学 | 多级深度特征融合的rgb-t图像显著性目标检测方法 |
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
-
2021
- 2021-08-11 CN CN202110933152.7A patent/CN113822855B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346436A (zh) * | 2017-06-29 | 2017-11-14 | 北京以萨技术股份有限公司 | 一种融合图像分类的视觉显著性检测方法 |
WO2019136591A1 (zh) * | 2018-01-09 | 2019-07-18 | 深圳大学 | 基于弱监督时空级联神经网络的显著目标检测方法及系统 |
CN109598268A (zh) * | 2018-11-23 | 2019-04-09 | 安徽大学 | 一种基于单流深度网络的rgb-d显著目标检测方法 |
CN110210539A (zh) * | 2019-05-22 | 2019-09-06 | 西安电子科技大学 | 多级深度特征融合的rgb-t图像显著性目标检测方法 |
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
Non-Patent Citations (2)
Title |
---|
刘政怡;段群涛;石松;赵鹏;: "基于多模态特征融合监督的RGB-D图像显著性检测", 电子与信息学报, no. 04, 30 April 2020 (2020-04-30) * |
黄小玉;李光林;马驰;杨士航;: "基于改进判别区域特征融合算法的近色背景绿色桃子识别", 农业工程学报, no. 23, 30 November 2018 (2018-11-30) * |
Also Published As
Publication number | Publication date |
---|---|
CN113822855B (zh) | 2024-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | TSNet: Three-stream self-attention network for RGB-D indoor semantic segmentation | |
Hu et al. | Learning supervised scoring ensemble for emotion recognition in the wild | |
Yang et al. | Bi-directional progressive guidance network for RGB-D salient object detection | |
Patrick et al. | Space-time crop & attend: Improving cross-modal video representation learning | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN114092774B (zh) | 基于信息流融合的rgb-t图像显著性检测系统及检测方法 | |
CN112651459A (zh) | 深度学习图像对抗样本防御方法、装置、设备及存储介质 | |
CN114627269A (zh) | 一种基于深度学习目标检测的虚拟现实安防监控平台 | |
Wang et al. | NTSDCN: New three-stage deep convolutional image demosaicking network | |
Zhao et al. | SVCNet: Scribble-based video colorization network with temporal aggregation | |
Zhou et al. | CMPFFNet: Cross-modal and progressive feature fusion network for RGB-D indoor scene semantic segmentation | |
Wang et al. | Lightweight feedback convolution neural network for remote sensing images super-resolution | |
Yang et al. | MCFD: A hardware-efficient noniterative multicue fusion demosaicing algorithm | |
Pramanick et al. | X-CAUNET: Cross-Color Channel Attention with Underwater Image-Enhancing Transformer | |
Li et al. | Mambadfuse: A mamba-based dual-phase model for multi-modality image fusion | |
Diao et al. | Av-maskenhancer: Enhancing video representations through audio-visual masked autoencoder | |
Yan et al. | Video-text pre-training with learned regions for retrieval | |
Tian et al. | Heterogeneous window transformer for image denoising | |
CN114359626A (zh) | 基于条件生成对抗网络的可见光-热红外显著目标检测方法 | |
CN113822855A (zh) | 一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法 | |
Ma et al. | MSFNET: multi-stage fusion network for semantic segmentation of fine-resolution remote sensing data | |
CN113362307A (zh) | 一种rgb-d图像显著性检测方法 | |
Chen et al. | Rethinking lightweight: multiple angle strategy for efficient video action recognition | |
CN113298154B (zh) | 一种rgb-d图像显著目标检测方法 | |
CN104008527A (zh) | 一种单幅图像去雾方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |