[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113822855A - 一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法 - Google Patents

一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法 Download PDF

Info

Publication number
CN113822855A
CN113822855A CN202110933152.7A CN202110933152A CN113822855A CN 113822855 A CN113822855 A CN 113822855A CN 202110933152 A CN202110933152 A CN 202110933152A CN 113822855 A CN113822855 A CN 113822855A
Authority
CN
China
Prior art keywords
rgb
thermal
decoding
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110933152.7A
Other languages
English (en)
Other versions
CN113822855B (zh
Inventor
刘政怡
张志立
谭亚诚
唐彬
姚晟
李炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202110933152.7A priority Critical patent/CN113822855B/zh
Publication of CN113822855A publication Critical patent/CN113822855A/zh
Application granted granted Critical
Publication of CN113822855B publication Critical patent/CN113822855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种RGB‑T图像显著目标检测方法,包括以下步骤:从RGB‑T图像中提取RGB特征和Thermal特征,产生对应初始显著图,利用初始显著图增强所述RGB特征和Thermal特征后,实施独立解码,产生RGB和Thermal独立解码特征、独立解码显著图;融合所述RGB和Thermal独立解码特征,形成RGB‑T融合特征后,实施联合解码,产生联合解码显著图;利用显著图真值监督独立解码显著图、联合解码显著图,通过训练数据集的训练,形成RGB‑T图像显著目标检测模型,所述模型检测任意一张RGB‑T图像,输出联合解码显著图。所述方法通过独立解码兼顾RGB颜色图像和Thermal热红外图像各自的独特性,通过联合编码减少RGB颜色图像和Thermal热红外图像二者之间的差异,提高检测性能。

Description

一种独立解码和联合解码相结合的RGB-T图像显著目标检测 方法
技术领域
本发明涉及计算机视觉领域,特别是涉及一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法。
背景技术
RGB-T图像是由RGB颜色图像和Thermal热红外图像组成。当RGB颜色图像的光线不足或者背景噪声太多,图像显著目标检测的效果往往不尽人意。然而热红外摄像机可以捕捉任何温度超过绝对零度的物体发出的红外辐射,因此Thermal热红外图像对光照条件不敏感,具有较强的抗噪声干扰能力。结合RGB颜色图像和Thermal热红外图像的优势,RGB-T图像显著目标检测逐渐成为研究的热点。
Transformer依靠多头自注意力及前向传播网络在自然语言处理、计算机视觉领域取得了突破性的进展,其在特征的远距离依赖特性提取方面的表现优异。最近SegFormer提出的使用重叠融合来保持切块周围的局部连续性,采用按比例缩减分辨率来减少多头自注意力的计算复杂度,并使用深度卷积来提供位置信息和减少参数量,因此,它可以方便地作为RGB-T图像显著目标检测的编码模型。
RGB-T图像显著目标检测的关键是有效挖掘颜色图像和热红外图像两种模式的信息并实现其融合,双流编码、联合解码是目前已有的RGB-T图像显著目标检测模型采用的主要方式,它偏向于考虑RGB颜色图像和Thermal热红外图像的融合,并没有考虑RGB颜色图像和Thermal热红外图像各自的独特性。
发明内容
本发明所需要解决的技术问题是提供一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,通过独立解码兼顾RGB颜色图像和Thermal热红外图像各自的独特性,并通过联合编码减少RGB颜色图像和Thermal热红外图像二者之间的差异,以提高检测性能。
本发明一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,包括以下步骤:
S1、从RGB-T图像中提取RGB特征和Thermal特征,产生RGB初始显著图及Thermal初始显著图;
S2、通过RGB初始显著图及Thermal初始显著图分别对所述RGB特征和Thermal特征进行增强,形成RGB增强特征和Thermal增强特征;
S3、分别对RGB增强特征和Thermal增强特征进行独立解码,产生RGB独立解码特征和Thermal独立解码特征及独立解码显著图Sc和St
S4、对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征;
S5、对RGB-T融合特征进行联合解码,形成联合解码显著图S;
S6、利用显著图真值监督所述独立解码显著图Sc和St、所述联合解码显著图S,通过训练数据集的训练,形成RGB-T图像显著目标检测模型;
S7、利用所述RGB-T图像显著目标检测模型检测任意一张RGB-T图像,经过步骤S1-S5,输出联合解码显著图为检测结果。
进一步地,在所述步骤S1中,提取RGB特征和Thermal特征的方法是分别使用两个在ImageNet上预训练的SegFormer神经网络模型提取RGB特征
Figure BDA0003207185230000021
及Thermal特征
Figure BDA0003207185230000022
其中i表示层数,对应于SegFormer的层数,i取值为1至4的自然数;接着,分别对所述第四层RGB特征
Figure BDA0003207185230000023
和Thermal特征
Figure BDA0003207185230000024
进行1×1卷积、Sigmoid激活函数处理得到RGB初始显著图
Figure BDA0003207185230000025
及Thermal初始显著图
Figure BDA0003207185230000026
具体描述为:
Figure BDA0003207185230000027
所述l∈{c,t},表示RGB或者Thermal,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数;
进一步地,在所述步骤S2中,将RGB初始显著图及Thermal初始显著图
Figure BDA0003207185230000028
上采样到与
Figure BDA0003207185230000029
一样大小,然后与各层特征
Figure BDA00032071852300000210
进行逐元素相乘、逐元素相加,形成RGB增强特征
Figure BDA00032071852300000211
和Thermal增强特征
Figure BDA00032071852300000212
同时,第四层RGB增强特征
Figure BDA00032071852300000213
和Thermal增强特征
Figure BDA00032071852300000214
即为第四层RGB特征
Figure BDA00032071852300000215
和Thermal特征
Figure BDA00032071852300000216
具体描述为:
Figure BDA00032071852300000217
所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
进一步地,在步骤S3中,使用传统的U-Net解码结构,分别对RGB增强特征和Thermal增强特征进行独立解码,具体操作是:第四层RGB独立解码特征和Thermal独立解码特征
Figure BDA00032071852300000218
即为第四层RGB增强特征和Thermal增强特征
Figure BDA00032071852300000219
其余各层RGB独立解码特征和Thermal独立解码特征
Figure BDA00032071852300000220
为相邻高一层RGB独立解码特征和Thermal独立解码特征
Figure BDA0003207185230000031
经过上采样后与本层RGB增强特征和Thermal增强特征
Figure BDA0003207185230000032
进行级联,再经过3×3卷积、批归一化、ReLU操作产生,具体描述为:
Figure BDA0003207185230000033
所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,Concat(·)表示级联操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;
接着,使用第一层RGB独立解码特征
Figure BDA0003207185230000034
和Thermal独立解码特征
Figure BDA0003207185230000035
产生独立解码显著图Sc和St,具体描述为:
Figure BDA0003207185230000036
所述l∈{c,t},表示RGB或者Thermal,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数,up(·)表示上采样操作;
进一步地,在步骤S4中,对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征,具体步骤如下:所述RGB独立解码特征
Figure BDA0003207185230000037
和Thermal独立解码特征
Figure BDA0003207185230000038
先进行逐元素相乘,产生共同特征Qi,同时,RGB独立解码特征
Figure BDA0003207185230000039
使用通道注意力得到RGB注意力特征
Figure BDA00032071852300000310
Thermal独立解码特征
Figure BDA00032071852300000311
使用空间注意力得到Thermal注意力特征
Figure BDA00032071852300000312
然后将共同特征Qi与RGB注意力特征
Figure BDA00032071852300000313
Thermal注意力特征
Figure BDA00032071852300000314
进行级联操作,再进行3×3卷积,最后再与所述RGB独立解码特征
Figure BDA00032071852300000315
进行逐元素相加,形成RGB-T融合特征FFi,具体描述为:
Figure BDA00032071852300000316
Figure BDA00032071852300000317
Figure BDA00032071852300000318
Figure BDA00032071852300000319
所述“×”是指逐元素相乘操作,CA(·)操作是指论文《Coordinate Attentionfor Efficient Mobile Network Design》中所提出的通道注意力模块,SA(·)是指论文《CBAM:Convolutional Block Attention Module》中所提出的空间注意力模块,Concat(·)表示级联操作,Conv3(·)表示3×3卷积,“+”是指逐元素相加操作;
进一步地,在步骤S5中,对RGB-T融合特征进行联合解码,形成联合解码显著图S,如图4所示,具体步骤如下:第四层RGB-T融合特征FF4即为增强融合特征JF4,其余每层RGB-T融合特征FFi(i=1,2,3)要与比它层数高的RGB-T融合特征进行逐元素相乘来加强本层特征,形成增强融合特征JFi(i=1,2,3);为了确保分辨率大小一致,高层RGB-T融合特征要进行上采样、卷积、批归一化、ReLU处理,具体描述为:
Figure BDA0003207185230000041
所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,“×”是指逐元素相乘操作;
增强融合特征JFi(i=1,…,4)使用传统的U-Net解码结构进行解码,具体操作如下:第四层联合解码特征P4即为增强融合特征JF4,其余每层联合解码特征Pi(i=1,2,3)为相邻高一层联合解码特征Pi+1(i=1,2,3)经上采样后,与本层增强融合特征JFi(i=1,2,3)进行级联,再经过3×3卷积、批归一化、ReLU操作产生,具体描述为:
Figure BDA0003207185230000042
所述Concat(·)表示级联操作,up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;
接着,通过上采样、3×3卷积、批归一化、ReLU操作、上采样、1×1卷积和Sigmoid激活函数产生联合解码显著图S,具体描述为:
S=Sig(Conv1(up(BConv3(up(P1)))))
所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数;
与已有技术相比,本发明有益效果体现在:
本发明提出一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,通过独立解码兼顾RGB颜色图像和Thermal热红外图像各自的独特性,并通过联合编码减少RGB颜色图像和Thermal热红外图像二者之间的差异,以提高检测性能。
附图说明
图1为本发明一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法的流程图;
图2为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法中所述独立解码过程;
图3为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法中所述独立解码特征形成RGB-T融合特征的过程;
图4为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法中所述联合解码过程;
图5为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测模型图。
以下通过具体实施方式,并结合附图对本发明做进一步说明,但本发明的实施方式不限于此。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,如图1所示,包括以下步骤:
S1、从RGB-T图像中提取RGB特征和Thermal特征,产生RGB初始显著图及Thermal初始显著图;
S2、通过RGB初始显著图及Thermal初始显著图分别对所述RGB特征和Thermal特征进行增强,形成RGB增强特征和Thermal增强特征;
S3、分别对RGB增强特征和Thermal增强特征进行独立解码,产生RGB独立解码特征和Thermal独立解码特征及独立解码显著图Sc和St
S4、对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征;
S5、对RGB-T融合特征进行联合解码,形成联合解码显著图S;
S6、利用显著图真值监督所述独立解码显著图Sc和St、所述联合解码显著图S,通过训练数据集的训练,形成RGB-T图像显著目标检测模型;
S7、利用所述RGB-T图像显著目标检测模型检测任意一张RGB-T图像,经过步骤S1-S5,输出联合解码显著图为检测结果。
进一步地,在所述步骤S1中,提取RGB特征和Thermal特征的方法是分别使用两个在ImageNet上预训练的SegFormer神经网络模型提取RGB特征
Figure BDA0003207185230000051
及Thermal特征
Figure BDA0003207185230000052
其中i表示层数,对应于SegFormer的层数,i取值为1至4的自然数;接着,分别对所述第四层RGB特征
Figure BDA0003207185230000053
和Thermal特征
Figure BDA0003207185230000054
进行1×1卷积、Sigmoid激活函数处理得到RGB初始显著图
Figure BDA0003207185230000055
及Thermal初始显著图
Figure BDA0003207185230000056
具体描述为:
Figure BDA0003207185230000057
所述l∈{c,t},表示RGB或者Thermal,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数;
进一步地,在所述步骤S2中,将RGB初始显著图及Thermal初始显著图
Figure BDA0003207185230000058
上采样到与
Figure BDA0003207185230000061
一样大小,然后与各层特征
Figure BDA0003207185230000062
进行逐元素相乘、逐元素相加,形成RGB增强特征
Figure BDA0003207185230000063
和Thermal增强特征
Figure BDA0003207185230000064
同时,第四层RGB增强特征
Figure BDA0003207185230000065
和Thermal增强特征
Figure BDA0003207185230000066
即为第四层RGB特征
Figure BDA0003207185230000067
和Thermal特征
Figure BDA0003207185230000068
具体描述为:
Figure BDA0003207185230000069
所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;
进一步地,在步骤S3中,使用传统的U-Net解码结构,分别对RGB增强特征和Thermal增强特征进行独立解码,如图2所示,具体操作是:第四层RGB独立解码特征和Thermal独立解码特征
Figure BDA00032071852300000610
即为第四层RGB增强特征和Thermal增强特征
Figure BDA00032071852300000611
其余各层RGB独立解码特征和Thermal独立解码特征
Figure BDA00032071852300000612
为相邻高一层RGB独立解码特征和Thermal独立解码特征
Figure BDA00032071852300000613
经过上采样后与本层RGB增强特征和Thermal增强特征
Figure BDA00032071852300000614
进行级联,再经过3×3卷积、批归一化、ReLU操作产生,具体描述为:
Figure BDA00032071852300000615
所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,Concat(·)表示级联操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;
接着,使用第一层RGB独立解码特征
Figure BDA00032071852300000616
和Thermal独立解码特征
Figure BDA00032071852300000617
产生独立解码显著图Sc和St,具体描述为:
Figure BDA00032071852300000618
所述l∈{c,t},表示RGB或者Thermal,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数,up(·)表示上采样操作;
进一步地,在步骤S4中,对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征,如图3所示,具体步骤如下:所述RGB独立解码特征
Figure BDA00032071852300000619
和Thermal独立解码特征
Figure BDA00032071852300000620
先进行逐元素相乘,产生共同特征Qi,同时,RGB独立解码特征
Figure BDA00032071852300000621
使用通道注意力得到RGB注意力特征
Figure BDA00032071852300000622
Thermal独立解码特征
Figure BDA00032071852300000623
使用空间注意力得到Thermal注意力特征
Figure BDA00032071852300000624
然后将共同特征Qi与RGB注意力特征
Figure BDA00032071852300000625
Thermal注意力特征
Figure BDA00032071852300000626
进行级联操作,再进行3×3卷积,最后再与所述RGB独立解码特征
Figure BDA00032071852300000627
进行逐元素相加,形成RGB-T融合特征FFi,具体描述为:
Figure BDA0003207185230000071
Figure BDA0003207185230000072
Figure BDA0003207185230000073
Figure BDA0003207185230000074
所述“×”是指逐元素相乘操作,CA(·)操作是指论文《Coordinate Attentionfor Efficient Mobile Network Design》中所提出的通道注意力模块,SA(·)是指论文《CBAM:Convolutional Block Attention Module》中所提出的空间注意力模块,Concat(·)表示级联操作,Conv3(·)表示3×3卷积,“+”是指逐元素相加操作;
进一步地,在步骤S5中,对RGB-T融合特征进行联合解码,形成联合解码显著图S,如图4所示,具体步骤如下:第四层RGB-T融合特征FF4即为增强融合特征JF4,其余每层RGB-T融合特征FFi(i=1,2,3)要与比它层数高的RGB-T融合特征进行逐元素相乘来加强本层特征,形成增强融合特征JFi(i=1,2,3);为了确保分辨率大小一致,高层RGB-T融合特征要进行上采样、卷积、批归一化、ReLU处理,具体描述为:
Figure BDA0003207185230000075
所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,“×”是指逐元素相乘操作;
增强融合特征JFi(i=1,…,4)使用传统的U-Net解码结构进行解码,具体操作如下:第四层联合解码特征P4即为增强融合特征JF4,其余每层联合解码特征Pi(i=1,2,3)为相邻高一层联合解码特征Pi+1(i=1,2,3)经上采样后,与本层增强融合特征JFi(i=1,2,3)进行级联,再经过3×3卷积、批归一化、ReLU操作产生,具体描述为:
Figure BDA0003207185230000076
所述Concat(·)表示级联操作,up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;
接着,通过上采样、3×3卷积、批归一化、ReLU操作、上采样、1×1卷积和Sigmoid激活函数产生联合解码显著图S,具体描述为:
S=Sig(Conv1(up(BConv3(up(P1)))))
所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数;
进一步地,在步骤S6中,利用显著图真值监督所述独立解码显著图Sc和St、所述联合解码显著图S,三个交叉熵损失的权重设置为0.25、0.25和1。本实施例采用的训练数据集为VT5000数据集上选取的2500张图片。训练集进行了随机翻转、旋转、边界裁剪等数据增强操作。形成的RGB-T图像显著目标检测模型图如图5所示,所述模型训练选取Adam优化器,初始学习率为6e-5,批处理大小为7,采用Mit-B4预训练参数及PyTorch默认设置,使用的显卡是NVIDIA GTX 1080Ti GPU,模型训练100代后收敛。
进一步地,在步骤S7中,本实施例采用的测试数据集为VT5000数据集上除训练数据集之外的剩余图片及整个的VT821和VT1000数据集。
所述独立解码和联合解码相结合的RGB-T图像显著目标检测方法与7种RGB-T图像显著目标检测方法MTMR[1],M3S-NIR[2],SGDL[3],ADF[4],ECFFNet[5],MIDD[6],MMNet[7]进行对比,结果见表1。
表1实验结果
Figure BDA0003207185230000081
[1]G.Wang,C.Li,Y.Ma,A.Zheng,J.Tang,and B.Luo,“RGB-T saliencydetection benchmark:Dataset,baselines,analysis and a novel approach,”inChinese Conference on Image and Graphics Technologies.Springer,2018,pp.359–369.
[2]Z.Tu,T.Xia,C.Li,Y.Lu,and J.Tang,“M3S-NIR:Multi-modal multi-scalenoise-insensitive ranking for RGB-T saliency detection,”in 2019 IEEEConference on Multimedia Information Processing and Retrieval(MIPR).IEEE,2019,pp.141–146.
[3]Z.Tu,T.Xia,C.Li,X.Wang,Y.Ma,and J.Tang,“RGB-T image saliencydetection via collaborative graph learning,”IEEE Transactions on Multimedia,vol.22,no.1,pp.160–173,2019.
[4]Z.Tu,Y.Ma,Z.Li,C.Li,J.Xu,and Y.Liu,“RGBT salient object detection:A large-scale dataset and benchmark,”arXiv preprint arXiv:2007.03262,2020.
[5]W.Zhou,Q.Guo,J.Lei,L.Yu,and J.-N.Hwang,“ECFFNet:effective andconsistent feature fusion network for RGB-T salient object detection,”IEEETransactions on Circuits and Systems for Video Technology,2021.
[6]Z.Tu,Z.Li,C.Li,Y.Lang,and J.Tang,“Multi-Interactive Dual-Decoderfor RGB-Thermal Salient Object Detection,”IEEE Transactions on ImageProcessing,vol.30,pp.5678–5691,2021.
[7]W.Gao,G.Liao,S.Ma,G.Li,Y.Liang,and W.Lin,“Unifified InformationFusion Network for Multi-Modal RGB-D and RGB-T Salient Object Detection,”IEEETransactions on Circuits and Systems for Video Technology,2021.
如表1所示可知,本实施例一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法在S-measure、自适应F-measure、自适应E-measure及MAE评价指标上均取得最优的结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.本发明一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,其特征在于,所述方法包括以下步骤:
S1、从RGB-T图像中提取RGB特征和Thermal特征,产生RGB初始显著图及Thermal初始显著图;
S2、通过RGB初始显著图及Thermal初始显著图分别对所述RGB特征和Thermal特征进行增强,形成RGB增强特征和Thermal增强特征;
S3、分别对RGB增强特征和Thermal增强特征进行独立解码,产生RGB独立解码特征和Thermal独立解码特征及独立解码显著图Sc和St
S4、对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征;
S5、对RGB-T融合特征进行联合解码,形成联合解码显著图S;
S6、利用显著图真值监督所述独立解码显著图Sc和St、所述联合解码显著图S,通过训练数据集的训练,形成RGB-T图像显著目标检测模型;
S7、利用所述RGB-T图像显著目标检测模型检测任意一张RGB-T图像,经过步骤S1-S5,输出联合解码显著图为检测结果。
2.根据权利要求1所述的一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,其特征在于,所述步骤S1的具体过程为:分别使用两个在ImageNet上预训练的SegFormer神经网络模型提取RGB特征
Figure FDA0003207185220000011
及Thermal特征
Figure FDA0003207185220000012
其中i表示层数,对应于SegFormer的层数,i取值为1至4的自然数;接着,分别对所述第四层RGB特征
Figure FDA0003207185220000013
和Thermal特征
Figure FDA0003207185220000014
进行1×1卷积、Sigmoid激活函数处理得到RGB初始显著图
Figure FDA0003207185220000015
及Thermal初始显著图
Figure FDA0003207185220000016
具体描述为:
Figure FDA0003207185220000017
所述l∈{c,t},表示RGB或者Thermal,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数。
3.根据权利要求1所述的一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,其特征在于,所述步骤S2的具体过程为:将RGB初始显著图及Thermal初始显著图
Figure FDA0003207185220000018
上采样到与
Figure FDA0003207185220000019
一样大小,然后与各层特征
Figure FDA00032071852200000110
进行逐元素相乘、逐元素相加,形成RGB增强特征
Figure FDA00032071852200000111
和Thermal增强特征
Figure FDA00032071852200000112
同时,第四层RGB增强特征
Figure FDA00032071852200000113
和Thermal增强特征
Figure FDA00032071852200000114
即为第四层RGB特征
Figure FDA00032071852200000115
和Thermal特征
Figure FDA00032071852200000116
具体描述为:
Figure FDA0003207185220000021
所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,“×”是指逐元素相乘操作,“+”是指逐元素相加操作。
4.根据权利要求1所述的一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,其特征在于,所述步骤S3的具体过程为:使用传统的U-Net解码结构,分别对RGB增强特征和Thermal增强特征进行独立解码,具体操作是:第四层RGB独立解码特征和Thermal独立解码特征
Figure FDA0003207185220000022
即为第四层RGB增强特征和Thermal增强特征
Figure FDA0003207185220000023
其余各层RGB独立解码特征和Thermal独立解码特征
Figure FDA0003207185220000024
为相邻高一层RGB独立解码特征和Thermal独立解码特征
Figure FDA0003207185220000025
经过上采样后与本层RGB增强特征和Thermal增强特征
Figure FDA0003207185220000026
进行级联,再经过3×3卷积、批归一化、ReLU操作产生,具体描述为:
Figure FDA0003207185220000027
所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,Concat(·)表示级联操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;
接着,使用第一层RGB独立解码特征
Figure FDA0003207185220000028
和Thermal独立解码特征
Figure FDA0003207185220000029
产生独立解码显著图Sc和St,具体描述为:
Figure FDA00032071852200000210
所述l∈{c,t},表示RGB或者Thermal,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数,up(·)表示上采样操作。
5.根据权利要求1所述的一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,其特征在于,所述步骤S4的具体过程为:所述RGB独立解码特征
Figure FDA00032071852200000211
和Thermal独立解码特征
Figure FDA00032071852200000212
先进行逐元素相乘,产生共同特征Qi,同时,RGB独立解码特征
Figure FDA00032071852200000213
使用通道注意力得到RGB注意力特征
Figure FDA00032071852200000214
Thermal独立解码特征
Figure FDA00032071852200000215
使用空间注意力得到Thermal注意力特征
Figure FDA00032071852200000216
然后将共同特征Qi与RGB注意力特征
Figure FDA00032071852200000217
Thermal注意力特征
Figure FDA00032071852200000218
进行级联操作,再进行3×3卷积,最后再与所述RGB独立解码特征
Figure FDA00032071852200000219
进行逐元素相加,形成RGB-T融合特征FFi,具体描述为:
Figure FDA00032071852200000220
Figure FDA00032071852200000221
Figure FDA00032071852200000222
Figure FDA0003207185220000031
所述“×”是指逐元素相乘操作,CA(·)操作是指论文《Coordinate Attention forEfficient Mobile Network Design》中所提出的通道注意力模块,SA(·)是指论文《CBAM:Convolutional Block Attention Module》中所提出的空间注意力模块,Concat(·)表示级联操作,Conv3(·)表示3×3卷积,“+”是指逐元素相加操作。
6.根据权利要求1所述的一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,其特征在于,所述步骤S5的具体过程为:第四层RGB-T融合特征FF4即为增强融合特征JF4,其余每层RGB-T融合特征FFi(i=1,2,3)要与比它层数高的RGB-T融合特征进行逐元素相乘来加强本层特征,形成增强融合特征JFi(i=1,2,3);为了确保分辨率大小一致,高层RGB-T融合特征要进行上采样、卷积、批归一化、ReLU处理,具体描述为:
Figure FDA0003207185220000032
所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,“×”是指逐元素相乘操作;
增强融合特征JFi(i=1,…,4)使用传统的U-Net解码结构进行解码,具体操作如下:第四层联合解码特征P4即为增强融合特征JF4,其余每层联合解码特征Pi(i=1,2,3)为相邻高一层联合解码特征Pi+1(i=1,2,3)经上采样后,与本层增强融合特征JFi(i=1,2,3)进行级联,再经过3×3卷积、批归一化、ReLU操作产生,具体描述为:
Figure FDA0003207185220000033
所述Concat(·)表示级联操作,up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;
接着,通过上采样、3×3卷积、批归一化、ReLU操作、上采样、1×1卷积和Sigmoid激活函数产生联合解码显著图S,具体描述为:
S=Sig(Conv1(up(BConv3(up(P1)))))
所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,Conv1(·)表示1×1卷积操作,Sig(·)表示Sigmoid激活函数。
CN202110933152.7A 2021-08-11 2021-08-11 一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法 Active CN113822855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110933152.7A CN113822855B (zh) 2021-08-11 2021-08-11 一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110933152.7A CN113822855B (zh) 2021-08-11 2021-08-11 一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法

Publications (2)

Publication Number Publication Date
CN113822855A true CN113822855A (zh) 2021-12-21
CN113822855B CN113822855B (zh) 2024-10-15

Family

ID=78922937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110933152.7A Active CN113822855B (zh) 2021-08-11 2021-08-11 一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法

Country Status (1)

Country Link
CN (1) CN113822855B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346436A (zh) * 2017-06-29 2017-11-14 北京以萨技术股份有限公司 一种融合图像分类的视觉显著性检测方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
WO2019136591A1 (zh) * 2018-01-09 2019-07-18 深圳大学 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN110210539A (zh) * 2019-05-22 2019-09-06 西安电子科技大学 多级深度特征融合的rgb-t图像显著性目标检测方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346436A (zh) * 2017-06-29 2017-11-14 北京以萨技术股份有限公司 一种融合图像分类的视觉显著性检测方法
WO2019136591A1 (zh) * 2018-01-09 2019-07-18 深圳大学 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN110210539A (zh) * 2019-05-22 2019-09-06 西安电子科技大学 多级深度特征融合的rgb-t图像显著性目标检测方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘政怡;段群涛;石松;赵鹏;: "基于多模态特征融合监督的RGB-D图像显著性检测", 电子与信息学报, no. 04, 30 April 2020 (2020-04-30) *
黄小玉;李光林;马驰;杨士航;: "基于改进判别区域特征融合算法的近色背景绿色桃子识别", 农业工程学报, no. 23, 30 November 2018 (2018-11-30) *

Also Published As

Publication number Publication date
CN113822855B (zh) 2024-10-15

Similar Documents

Publication Publication Date Title
Zhou et al. TSNet: Three-stream self-attention network for RGB-D indoor semantic segmentation
Hu et al. Learning supervised scoring ensemble for emotion recognition in the wild
Yang et al. Bi-directional progressive guidance network for RGB-D salient object detection
Patrick et al. Space-time crop & attend: Improving cross-modal video representation learning
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN114092774B (zh) 基于信息流融合的rgb-t图像显著性检测系统及检测方法
CN112651459A (zh) 深度学习图像对抗样本防御方法、装置、设备及存储介质
CN114627269A (zh) 一种基于深度学习目标检测的虚拟现实安防监控平台
Wang et al. NTSDCN: New three-stage deep convolutional image demosaicking network
Zhao et al. SVCNet: Scribble-based video colorization network with temporal aggregation
Zhou et al. CMPFFNet: Cross-modal and progressive feature fusion network for RGB-D indoor scene semantic segmentation
Wang et al. Lightweight feedback convolution neural network for remote sensing images super-resolution
Yang et al. MCFD: A hardware-efficient noniterative multicue fusion demosaicing algorithm
Pramanick et al. X-CAUNET: Cross-Color Channel Attention with Underwater Image-Enhancing Transformer
Li et al. Mambadfuse: A mamba-based dual-phase model for multi-modality image fusion
Diao et al. Av-maskenhancer: Enhancing video representations through audio-visual masked autoencoder
Yan et al. Video-text pre-training with learned regions for retrieval
Tian et al. Heterogeneous window transformer for image denoising
CN114359626A (zh) 基于条件生成对抗网络的可见光-热红外显著目标检测方法
CN113822855A (zh) 一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法
Ma et al. MSFNET: multi-stage fusion network for semantic segmentation of fine-resolution remote sensing data
CN113362307A (zh) 一种rgb-d图像显著性检测方法
Chen et al. Rethinking lightweight: multiple angle strategy for efficient video action recognition
CN113298154B (zh) 一种rgb-d图像显著目标检测方法
CN104008527A (zh) 一种单幅图像去雾方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant