CN114022392A

CN114022392A - 用于单幅图像去雾的串行注意增强UNet++去雾网络

Info

Publication number: CN114022392A
Application number: CN202111373753.3A
Authority: CN
Inventors: 赵亚琴; 赵文轩; 冯丽琦; 唐佳希
Original assignee: Nanjing Forestry University
Current assignee: Nanjing Forestry University
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-08

Abstract

本发明提出了一种用于单幅图像去雾的串行注意增强UNet++去雾网络，它采用基于残差结构的两个剪枝的UNet++块的串行策略。与简单的编解码结构相比，UNet++模块能够更好地利用编码器提取的特征，促进不同分辨率的上下文信息融合。串行UNet++结构可以学习深层特征，同时保留浅层特征，以便更好地处理浓密的烟雾，生成更逼真的图像，同时减少颜色失真。此外，还引入了在空间域和通道域学习权重的注意力机制来处理不均匀分布的烟雾。实验在两个具有代表性的公共数据集上进行，即大规模合成数据集RESIDE和小规模真实数据集I‑HAZY、O‑HAZY。对于RESIDE合成数据集，所提出的方法可以实现最先进的性能，对于I‑HAZY和O‑HAZY真实世界数据集，所提出的方法大大超过了以前最先进的去雾方法。

Description

用于单幅图像去雾的串行注意增强UNet++去雾网络

技术领域

本技术方案属于图像处理领域，具体是一种用于单幅图像去雾的串行注意增强UNet++去雾网络。

背景技术

当光线在浓密的悬浮颗粒(如雾、霾、烟、灰尘等)中传播时，由于颗粒的散射作用，成像传感器采集的图像信息严重退化，从而丢失了大量有用信息，极大地限制了后续的高级视觉任务[1，2]。图像去雾的目的是消除大气环境对图像质量的影响，提高图像的可见度，并为后续视觉任务(如分类、定位和自动驾驶系统)提供支持。在过去的几十年中，单幅图像去雾作为一项基础性的低层视觉任务，越来越受到世界各国计算机视觉界和人工智能公司的重视。

为了解决这一难题，人们提出了多种方法，图像去雾算法大体上可分为传统方法和基于学习的方法。传统的图像去雾算法大多基于假设模型，其中[3]中介绍的大气散射模型是最成功的图像去雾模型。它被广泛用于描述朦胧图像的形成，公式如下：

I(z)＝J(z)t(z)+A(1-t(z)) (1)

其中I(z)是模糊图像,J(z)去雾后图像,t(z)转移图,A是全球大气光组成。当大气光成分一致的时候，转移图可以被描述为：

t(z)＝e^-βd(z) (2)

其中β是大气散射系数，而d(z)代表景深。在单幅图像去雾任务中，有了一个模糊图像后，可以根据上式获得去雾后图像。

但是，简单的应用大气散射模型在估计转移图和全球大气光时可能导致不可避免的错误。因此恢复图像的质量不够理想。许多随大气环境变化的先验知识被用来改进大气散射模型的性能。He等人[4]根据统计定律发现了DCP(暗通道先验)，以计算转移图。但DCP在高亮度区域会变得失效。Zhu等人[5]引入了CAP(颜色衰减先验)来描述亮度、饱和度和烟雾密度之间的关系。Berman等人[6]提出了一种非局部先验知识。它的意思是无雾图像的颜色可以在RGB空间中形成紧密的非局部簇，并且在有雾的情况下，它们的不同距离可以转化为不同的透射系数。He等人从局部线性模型推导而来，进一步提出了一种导向滤波方法[7]，该方法在去除雾霾方面非常有效，无需使用复杂的大气模型。随着[8,9]等方法的提出，该模型取得了很大的成功，但在处理更复杂的现实场景时也显示出鲁棒性不足的问题。

近年来，基于卷积神经网络(CNN)的深度学习在一些高级视觉应用中取得了优异的效果[10-12]。同时，它在处理一些低级视觉任务(如超分辨率)时也表现出了出色的性能[13,14]。借助神经网络强大的学习能力，可以简单地估计转移图或直接预测去雾后图像。与传统方法相比，基于学习的图像去雾算法显示出更有效、更显著和更稳健的可视化改进。相对早期的基于深度学习的算法也利用了大气散射模型。Cai等人[15]介绍了一种基于CNN的单一去雾网络，称为DehazeNet。 DehazeNet是一个可训练的端到端网络，通过自学习转移图向其输入模糊输入时，可生成无雾输出。Li等人[16]提出了一种称为AODNet的一体化去雾网络，用于在一个框架内联合估计转移图和全球大气光。此外，Zhang等人[17]提出了一个密集连接的金字塔去雾网络，也称为DCPDN，通过金字塔形网络分支预测转移图，并通过另一个平行的基于UNet[18]的分支估计大气光。

尽管人们已经做出了许多努力来提高传统方法或基于学习的方法的性能，但仍然存在一些因素限制了这些方法的应用。这是由于大气散射模型只是对实际大气环境的模拟。在计算转移图和大气光时，误差很难避免，这直接导致恢复图像时的颜色失真。基于这一考虑，一些端到端去雾网络直接预测去雾图像，而不是利用大气散射模型。其中大多数是数据驱动的，难以处理分布不均匀的烟雾，这更接近现实世界的情况。同时，缺乏大量的真实数据集进行训练也降低和限制了去雾图像的性能。

发明内容

为了解决现有技术中存在的问题，本发明提出了一种完全端到端卷积神经网络(CNN)，称为串行注意增强UNet++(AESUNet)去雾网络，用于单图像去雾。该方法可以在输入模糊图像时直接生成去雾后图像，无需中间参数的估计。

由于特征提取对于端到端的图像恢复任务至关重要，在本发明中，所设计的模型利用基于UNet的体系结构来捕获不同层之间的上下文信息，并增加每个像素的感受野。具体来说：

本发明使用增强的UNet模型，称为UNet++[19]作为特征提取器。尽管UNet的结构已经应用于图像去雾算法[17,20,21,22]，但尚无为单个图像去雾引入UNet++结构。本发明保留UNet在同时处理低度和深度上下文信息方面的出色性能的同时，通过长连接和复制裁剪策略减少下采样造成的信息损失，同时，UNet++增加了更密集的短连接和更多的跳过路径，这提高了使用不同分辨率特征的效率。考虑到模型参数的数量，本发明对模型进行了适当的修剪，并在本发明的方法中采用了两个 UNet++模块的串行策略。此外，还引入了注意机制来处理图片上不均匀分布的雾霾。

本发明的一种用于单幅图像去雾的串行注意增强UNet++去雾网络，首先建立串行注意增强UNet++去雾网络AESUNet；然后对AESUNet进行训练；建立AESUNet 是采用两个UNet++模块的串行策略；在两个UNet++模块之间建立了残差连接；在 AESUNet中引入了注意力机制；对于输入的原始模糊图像，两个串行的UNet++模块分别完全提取不同分辨率的特征，并在不同尺度上重建它们；当第一个UNet++模块的输出特征映射传递到第二个UNet++模块时，它也同时与第二个UNet++模块的输出特征残差连接，得到级联的特征映射；然后，使用注意力模块来处理它们，经两个卷积层得到最终提取的特征；最后，将原始模糊图像加入到最终提取的特征通道中，得到去雾图像。

本发明的技术效果说明如下：

本发明的串行注意增强UNet++去雾网络是一种完全端到端卷积神经网络，用于单幅图像去雾。该网络无需计算中间参数即可直接生成去雾图像。通过UNet++模块学习的上下文信息，本发明的方法能够以较少的颜色失真生成更真实的去雾图像。

该网络采用两个UNet++模块的串行策略，充分提取不同分辨率的特征，促进信息融合。为了避免浅层特征的丢失，本发明在两个UNet++模块之间建立了残差连接。在所提出的网络中使用适当的剪枝来减少参数的数量。

为了解决雾霾分布不均匀的问题，在网络中引入了注意力机制。通过学习不同通道和不同像素的不同权重，该模型能够处理不均匀烟雾，并在合成数据集和真实图像中实现理想的性能。

附图说明

图1是串行注意增强UNet++去雾网络AESUNet结构图，AESUNet包含两个 UNet++模块、一个注意力模块、两个卷积层和一些跳跃连接。

图2是UNet++模块的体系结构图。

图3是UNet++模块中编码器和解码器的详细结构图。

图4是注意模块的结构图。

图5是通道注意模块和空间注意模块的结构图。

图6是SOTS数据集的比较图。

图7是I-HAZY和O-HAZY数据集的比较图。

图8是消融研究中不同模型的比较图。

具体实施方式

下面结合附图与具体实施方式对本发明进一步说明：

1.概述

图像去雾的目的是减少悬浮颗粒造成的图像退化以支持高级视觉任务。传统的图像去雾算法可以处理一些简单的去雾问题，但在面对复杂的现实场景时鲁棒性不足。近年来，卷积神经网络(CNN)在图像去雾方面取得了良好的效果。然而，烟雾在真实场景中的不均匀分布以及缺乏大规模真实数据集限制了CNN的性能。在本发明中提出了一种完全端到端卷积神经网络，即串行注意增强UNet++去雾网络 (AESUNet)，用于单幅图像去雾。与简单的编解码结构相比，UNet++模块能够更好地利用编码器提取的特征，促进不同分辨率的上下文信息融合。

AESUNet采用基于残差结构的两个剪枝的UNet++块的串行策略。串行UNet++ 结构可以学习深层特征，同时保留浅层特征，以便更好地处理浓密的烟雾，生成更逼真的图像，同时减少颜色失真。此外，还引入了在空间域和通道域学习权重的注意力机制来处理不均匀分布的烟雾。实验在两个具有代表性的数据集上进行，即大规模合成数据集RESIDE和小规模真实数据集I-HAZY、O-HAZY。对于RESIDE合成数据集，所提出的方法可以实现最先进的性能，对于I-HAZY和O-HAZY真实世界数据集，所提出的方法大大超过了以前最先进的去雾方法。

2.相关技术简介

端到端单幅图像去雾

由于图像去雾是一个高度不适定的问题，现有的方法通常使用强先验或假设作为附加约束来恢复转移图、全球大气光和场景辐射。然而，最新的方法已经放弃了大气散射模型，选择了完全端到端的模型直接生成去雾图像，从而跳过了一些会带来不可避免误差的中间参数的估计。Surez等人[24]采用了三重生成对抗网络(GAN) [25]来独立去除每个颜色通道上的烟雾。Qu等人[26]使用了一种基于GAN的增强型 pix2pix去雾网络(EPDN)。EPDN设计为具有多分辨率生成器和多尺度鉴别器，然后是金字塔增强器模块。Dong等人[27]还借用GAN的结构进行图像去雾。他们将频域信息作为先验知识引入到发生器网络中，以处理颜色失真问题。受知识提炼的启发，Wu等人[20]设计了一个双流去雾网络KTDN，用于传输从大量无雾图像中学习到的知识。上述方法显著提高了去雾图像的性能，但这些通用方法存在模型复杂、雾度分布不均匀、重建后去雾程度不足等问题。

UNet和UNet++结构.UNet模型最初被提出应用于生物医学图像分割，并很快扩展到各种视觉任务。由于其上下镜像采样结构，UNet结构可以更加关注一幅图像中的上下文信息，并将特征的比例恢复到原始图像的大小，这对于端到端任务具有重要意义。此外，网络中还使用了长连接，以将前一个下采样部分提取的特征融合到具有相同分辨率的后一个上采样部分。UNet++通过在不同分辨率之间添加更多跳过路径和短连接来重新设计网络。因此，这样的操作可以提高特征利用的效率，避免引入过多的参数。

3.算法实现

3.1体系架构

以下详细介绍AESUNet，内容包括整个网络的结构、基于UNet++的编码器-解码器结构以及带有局部残差学习的注意力模块。

3.1.1算法概述

网络的主体部分如图1所示，由两个串行连接的UNet++模块组成。这个网络的输入是模糊图像。两个串行UNet++模块负责完全提取不同分辨率的特征，并在不同尺度上重建它们。当第一个UNet++模块的输出特征映射被传递到第二个模块时，它也同时与第二个模块的输出特征残差连接。通过这种残差连接，浅层上下文信息可以再次使用。此外，它允许将浅层的原始信息直接传输到后续的更深层，以便更深层可以专注于残差学习，避免模型退化。在得到级联的特征映射后，本发明使用注意力模块来帮助更好地处理它们，并采用两个卷积层将通道减少到三个。最后，将原始模糊图像加入到最终提取的特征通道中，得到去雾图像。

3.1.2基于UNet++的编解码器

为了尽可能地消除模糊并恢复图像，特征提取程序必须充分利用图像中的信息。受以前几种使用编码器-解码器结构作为特征提取器并获得良好性能的去雾网络的启发，本发明也采用了这种结构。本发明使用了原始UNet模型的一个变体，称为 UNet++，它添加了更多的短连接和跳跃路径，以促进信息的联系和融合。如图2所示，与最初的UNet++不同，本发明对模型进行了一些修剪。具体地说，由于输入层的大小调整为256*256像素，本发明将UNet++最深的一层剪切下来，只保留三层，以将分辨率降低到输入图像的1/8。此外，在编码过程中，使用具有ResNet[28]结构的卷积模块来替换简单卷积层。如图3所示，编码器包含三个卷积层，紧跟在每个卷积层之后的是批量归一化(BN)[29]和ReLU[30]层。为了防止梯度弥散，引入了残差学习策略。从上部编码器传输的输入特征被下采样到一半大小，并同时传送到前两个卷积层。然后，将由两组连续的卷积、批量归一化(BN)和ReLU层提取的进一步信息添加到输入中，并一起发送到下一个卷积层。除了池化操作被插值替换以将特征大小恢复到原始分辨率之外，解码器的结构类似于编码器的结构，如图3 所示。在解码器底部引入注意模块通过给不同的空间和通道分配不同的权重，可以帮助理解烟雾的不均匀分布。

参考图2，与原始的UNet++模型相比，考虑到参数数量和输入分辨率，本发明将网络层从4层减少到3层。

参考图3，与原网络相比，本发明将卷积层替换为残差卷积层。编码器和解码器分别采用下采样操作和上采样操作。解码器底部增加了一个注意模块，以便于理解雾霾在不同空间或通道中的分布。

3.1.3注意力机制

在大多数情况下，烟雾的分布是不均匀的，尤其是当烟雾较厚时。这使得传统的去雾神经网络很难应用到实际场景中。同时，不同的特征通道对雾霾的敏感性也不同。因此，为相应的通道分配不同的权重也会对去雾产生影响。受[23,31,32]中工作的启发，本发明将注意力机制引入到本发明的网络中，使其能够更多地关注浓雾区域。如图4所示，在保持输入特征传回的过程中，通道注意和空间注意依次相乘，得到细化的特征作为特征模块的输出。

参考图4，在传输输入特征的过程中，通道注意和空间注意依次被添加进来。因此，该网络能够对重要信息赋予更大的权重，并具有更大的灵活性来处理图像中分布不均匀的雾霾。

在通道注意模块(见图5)中，本发明首先采用自适应平均池操作来获得每个通道的原始权重。通过自适应均值池运算，对于H*W*C的特征图，本发明提取一个大小为1*1*C的特征矩阵，其中每个值是对应特征图中所有像素值的权重。然后，将原始权重发送到由卷积层、ReLU激活函数、另一卷积层和Sigmoid激活函数组成的学习模块。最后，将学习到的特征权重按通道相乘到输入特征中，以便不同通道对烟雾有不同程度的关注。

在通道注意模块之后，使用空间注意模块(见图5)来测量对特征地图不同位置的注意程度。本发明首先在融合了通道注意的特征图上沿通道轴执行最大池化和平均池化操作。这样，从H*W*C的原始特征图中获得两个H*W*1的空间注意图。在连接它们之后，立即使用卷积层和Sigmoid激活函数来学习整个图像中的雾度分布。最后，将空间注意图按像素级乘以输入特征。注意力特征计算如下：

F′＝F*CA*SA ＝ F*δ(conv(σ(conv(AMP(F)))))* δ(conv(conv(CAT[Max(F)；Mean(F)]))) (3)

其中F注意力模块的输入特征，F′是融合了空间注意力和通道注意力的输出特征。δ(·)是Sigmoid激活函数，σ(·)是ReLU激活函数。AMP(·)自适应平均池化， CAT(·)代表通道维度的拼接。Max和Mean分别代表最大池化操作和平均池化操作。

3.2损失函数

本发明使用重建损失函数L_r和感知损失函数L_p组成损失函数L_total，它被定义为：

L_total＝αL_r+βL_p (4)

重建损失函数.重建损失测量真实参考图像和对应图像之间的平均绝对误差(MAE)，也称为L₁损失，公式如下：

其中I_i是输入模糊图像，G(·)代表去雾网络的操作，J_i代表真实参考图像，也就是对应的无雾图像.

感知损失函数[33]中提出的感知损失用于测量特征空间中的感知相似性并计算均方误差，也称为L₂损失。vgg(·)指预训练VGG16[34]网络。它被定义为：

最后，本发明将使用上述损失的权重组合作为损失函数。实验中，参数α、β被相应地设置为1、1。

4.实验

在本节中，将介绍用于网络训练和测试的数据集。同时给出了训练过程的详细参数。最后，在相同的目标度量下，本发明将网络的结果与几种有代表性的方法进行了比较。

4.1数据集和指标

数据集.与现有的基于学习的去雾方法[15,17,18,19,29]类似，本发明使用了两种最常用的去雾数据集，RESIDE数据集[35]和I-HAZY和O-HAZY图像去雾数据集 [36,37]，用于训练本发明的模型。

RESIDE.RESIDE数据集是一个大型基准数据集，由真实图像和合成模糊图像组成。它分为五个子集，每个子集用于不同的训练或评估目的。在本发明的实验中，本发明使用室内数据集(ITS)和室外数据集(OTS)作为训练数据集，并使用综合目标测试集(SOTS)进行评估。在ITS中，有10000个不同的室内模糊图像，每个图像有10个相应的合成模糊图像。在OTS中，有8970个不同的室外模糊图像，每个图像有35个相应的合成模糊图像。因此，ITS中总共有100000个图像，OTS中有 313950个图像。在SOTS中，有500幅模糊图像及其对应的真实无雾参考图像用于部分计算度量。

I-HAZY and O-HAZY.与RESIDE数据集相比，I-HAZY和O-HAZY数据集是所谓的真实数据集。I-HAZY和O-HAZY数据集旨在解决目前方法的局限性，这是因为目前方法所用于评估和训练的数据集完全依赖合成图像来训练。I-HAZY和O- HAZY数据集由真实的有雾图像和相应的无雾图像组成。真实的雾霾图像均由专业雾霾仪生成，并与相应的无雾霾图像在相同的光照参数下拍摄，更接近实际应用。I- HAZY数据集有30幅图像，其中25幅用于训练，5幅用于评估。O-HAZY数据集共有45幅图像，其中40幅用于训练，其余用于评估。

Quality Metric.为了评估本发明的方法的性能，本发明采用了在图像去雾任务中广泛使用的两个指标：峰值信噪比(PSNR)和结构相似性(SSIM)。峰值信噪比 (PSNR)是最常用、应用最广泛的图像客观评价指标，它是基于对应像素之间的误差，即所谓的基于误差敏感的图像质量评价矩阵。SSIM也是一个完全参考的图像质量评价指标，它从亮度、对比度和结构三个方面衡量图像的相似性。通过这两个广泛使用的指标和公共数据集，本发明可以客观地将本发明的方法与现有方法进行比较。

4.2实施细节

本发明实验所使用的Pytorch版本为1.7.1[38]，训练所使用的电脑配置为RTX2080Ti的GPU。本发明使用ADAM[39]优化基准学习率，其中β₁和β₂被设置为 0.9和0.999.初始的学习率被设置为0.0001.为了更好的调整学习率，本发明在基准学习率上采用CosineAnnealingLR[40]策略周期性进一步调整学习率.

每一送入网络的图片被随即旋转0°,90°,180°或270°并以0.5的概率水平翻转,这点将保证网络的鲁棒性、防止过拟合.batch size设置为2，CPU线程数是16.其他的超参数随着训练数据集相应改变.在训练RESIDE数据集时,本发明从数据集中随机取出一对有雾图像和无雾参考图像，随即执行1,000,000次.所有的图片都裁剪出256*256的像素块。在I-HAZY和O-HAZY数据集,所有的图像尺寸都被调整为 512*512,而传输进入网络训练的patches尺寸是256*256.在这两个小数据集上本发明只训练10,000次遍历整个数据集。

4.3实验结果

本发明将本发明的模型与这几个具有代表性的模型进行对：DCP[4],AODNet[16],DCPDN[17],FD-GAN[22],GCANet[21].

Experiment on synthetic RESIDE datasets.图6和表1显示了本发明的方法AESUNet和其他比较方法在RESIDE数据集上的实验结果。如表1所示，本发明的方法可以在PSNR和SSIM方面实现最先进的性能。AESUNet在室内数据集上的性能与GCANet相当。此外，当涉及到室外数据集时，与其他比较方法相比， AESUNet可以取得显著的改进。

具体来说，如图6所示，DCP方法可以实现相对较差的视觉效果，但在面对天空(第一行图像)和墙壁(第六行图像)等亮度较高的区域时，它会导致与真实参考图像相比有严重颜色失真。AODNet的去雾表现不够彻底，使得图像仍然呈现出朦胧感。虽然DCPDN在一些图像中取得了良好的效果，但仍然存在一些不可忽略的颜色失真，并且在一些具有高密度灰霾的区域中仍然存在大量灰霾，例如第三行图像的右下部分。FDGAN和GCANet在室内数据集中表现良好，但在室外数据集中，尤其是在梯度变化明显的区域，如物体与天空的交界处，去雾效果并不理想。

相比之下，本发明的方法生成的去雾图像不仅在视觉上更加逼真，更接近地面真实情况，而且即使在烟雾稠密的区域也能更平滑地改变颜色。

Experiment on real-world I-HAZY and O-HAZY datasets.与RESIDE数据集相比，本发明的方法在更具挑战性的I-HAZY和O-HAZY数据集上的优势更为明显。如表2所示，本发明达到了最佳性能，并以非常大的幅度超过了第二名，PSNR为 4.425dB，SSIM为0.028dB。

从图7中可以看出，以前的一些方法，如DCP、AODNet和DCPDN，在实际数据集的这项不复杂的任务中完全失败。FDGAN和GCANet在处理分布不均匀的雾霾时有一定的效果，但伴随着严重的退化。如图7中用红色框标记的，由于某些物体表面附着着浓密的薄雾，FDGAN和GCANet的物体表面上无法清楚地看到轮廓和纹理细节，结果出现第2行和第4行。此外，值得一提的是，FDGAN和GCANet不足以完全恢复第1行和第4行被浓雾覆盖的图像的原始颜色。与这些方法相比，本发明的模型不仅能够最大程度地自适应地去除低密度和高密度区域的雾，但也恢复更多的轮廓和纹理细节同时只有较少的颜色失真。

Table 1.Metrics(PSNR/SSIM)comparisons of the dehazing results on SOTSdataset.

Table 2.Metrics(PSNR/SSIM)comparisons of the dehazing results on I-HAZY and O-HAZY dataset.

5.消融研究

为了分析所提出网络中每个模块的有效性，本发明通过考虑两个主要因素进行了消融研究：

1)模型1：带注意力模块的UNet型网络结构。

2)模型2：不带注意力模块的UNet++结构。为了避免参数叠加带来的正向影响，本发明在消融研究中调整了三个模型(模型1、模型2和AESUNet)的卷积层，使他们的计算量和参数几乎相同。在计算浮点数计算量和参数时，输入的大小设置为1×3×256×256。本发明在RESIDE室外数据集中训练模型，并在SOTS室外数据集中测试。其他超参数设置也保持一致。

如表3所示，UNet++结构和注意力模块都可以显著改善网络。这种提高来自这两个因素的机制，而不是参数的堆叠。特别是，注意模块的引入可以带来比UNet++ 结构更明显的性能改进。结果也反映在图8中。由于在UNet++结构中缺少短连接和更多的跳过路径，尽管添加了更多的卷积层来提取特征，但与AESUNet相比， Model1在某些区域的性能也较差。在图8(b)的红色框中，围绕太阳的天空区域的颜色明显分为三层，而在图8(d)中，颜色变化更自然、更平滑。相比之下，如图 8中红色方框所示，由AESUNet生成的图像更接近真实参考情况。对于Model2，由于缺少注意力模块，高密度区域的烟雾留在了图像上(图8(c)中用绿色框标记)，这严重降低了视觉性能，而AESUNet可以更好地发挥作用(图8(d)中用绿色框标记)。

Table 3.Ablation study results.

6.结论

本发明提出了一种完全端到端卷积神经网络，称为串行注意增强Unet++去雾网络(AESUNet)，用于单幅图像去雾。

为了充分利用提取的特征，本发明采用两个UNet++块的串行结构来代替简单的编解码结构。此外，还引入了注意力模块，帮助网络了解不均匀烟雾的分布情况。与现有的去雾方法相比，AESUNet能更好地去除图像中的浓雾，且颜色失真较小。在合成数据集和真实数据集上的实验表明，本发明的方法在图像去雾任务中可以达到最先进的性能，并产生更好的视觉效果。本发明的网络还可能解决其他低级视觉任务，如去雨和去噪。

参考

[1]Christos Sakaridis,Dengxin Dai,and Luc Van Gool.Semantic foggyscene understanding with synthetic data. International Journal of ComputerVision,pages 1–20,2018.

[2]Boyi Li,Xiulian Peng,Zhangyang Wang,Jizheng Xu,and Dan Feng.End-to-end united video dehazing and detection. In Thirty-Second AAAI Conferenceon Artificial Intelligence,pages 7016–7023,2018.

[3]Mccartney,E.J.1977.Scattering phenomena.(book reviews:Optics ofthe atmosphere.scattering by molecules and particles).Science 196:1084–1085.

[4]Kaiming He,Jian Sun,and Xiaoou Tang.Single image haze removalusing dark channel prior.IEEE transactions on pattern analysis and machineintelligence,33(12):2341–2353,2010.

[5]Qingsong Zhu,Jiaming Mai,and Ling Shao.Single image dehazing usingcolor attenuation prior.In BMVC.Citeseer, 2014.

[6]Dana Berman,Shai Avidan,et al.Non-local image dehazing.InProceedings of the IEEE conference on computer vision and patternrecognition,pages 1674–1682,2016.

[7]He K,Sun J,Tang X.Guided image filtering[C]//European conferenceon computer vision.Springer,Berlin, Heidelberg,2010:1-14.

[8]Fattal,R.2008.Single image dehazing.ACM transactions on graphics(TOG)27(3):72.

[9]Fattal,R.2014.Dehazing using color-lines.ACM transactions ongraphics(TOG)34(1):13.

[10]Jin X,Che J,Chen Y.Weed Identification Using Deep Learning andImage Processing in Vegetable Plantation[J]. IEEE Access,2021,9:10940-10950.

[11]Khan,Muhammad Attique,et al."Attributes based skin lesiondetection and recognition:A mask RCNN and transfer learning-based deeplearning framework."Pattern Recognition Letters 143(2021):58-66.

[12]Gao,Jinfeng,et al."Detection of Specific Building in RemoteSensing Images Using a Novel YOLO-S-CIOU Model. Case:Gas StationIdentification."Sensors 21.4(2021):1375.

[13]Dong C,Loy C C,He K,et al.Learning a deep convolutional networkfor image super-resolution[C]//European conference on computervision.Springer,Cham,2014:184-199.

[14]Xie C.,Liu Y.,Zeng W.,Lu X.An improved method for single imagesuper-resolution based on deep learning[J]. Signal Image and VideoProcessing,2019,13(3):557-565.

[15]Bolun Cai,Xiangmin Xu,Kui Jia,Chunmei Qing,and DachengTao.Dehazenet:An end-to-end system for single image haze removal.IEEETransactions on Image Processing,25(11):5187–5198,2016.

[16]Boyi Li,Xiulian Peng,Zhangyang Wang,Jizheng Xu,and Dan Feng.Aod-net:All-in-one dehazing network.In Proceedings of the IEEE InternationalConference on Computer Vision,pages 4770–4778,2017.

[17]Zhang,H.；Patel,V.M.；Patel,V.M.；and Patel,V.M.2018a.Denselyconnected pyramid dehazing network.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,3194–3203.

[18]O.Ronneberger,P.Fischer,and T.Brox.U-net:Convolutional networksfor biomedical image segmentation.In International Conference on MedicalImage Computing and Computer-Assisted Intervention,pages 234–241.Springer,2015.

[19]Zhou Z,Siddiquee M M R,Tajbakhsh N,et al.Unet++:A nested u-netarchitecture for medical image segmentation[M]//Deep learning in medicalimage analysis and multimodal learning for clinical decisionsupport.Springer, Cham,2018:3-11.

[20]Wu H,Liu J,Xie Y,et al.Knowledge transfer dehazing network fornonhomogeneous dehazing[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition Workshops.2020:478-479.

[21]Chen D,He M,Fan Q,et al.Gated context aggregation network forimage dehazing and deraining[C]//2019 IEEE winter conference on applicationsof computer vision(WACV).IEEE,2019:1375-1383.

[22]Dong Y,Liu Y,Zhang H,et al.FD-GAN:Generative adversarial networkswith fusion-discriminator for single image dehazing[C]//Proceedings of theAAAI Conference on Artificial Intelligence.2020,34(07):10729-10736.

[23]Woo S,Park J,Lee J Y,et al.Cbam:Convolutional block attentionmodule[C]//Proceedings of the European conference on computer vision(ECCV).2018:3-19.

[24]Surez,P.L.；Sappa,A.D.；Vintimilla,B.X.；

Hammoud,R.I.2018.Deep learning based single image dehazing.In 2018IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW),1250–12507.

[25]Goodfellow I J,Pouget-Abadie J,Mirza M,et al.Generativeadversarial networks[J].arXiv preprint arXiv:1406.2661, 2014.

[26]Qu Y,Chen Y,Huang J,et al.Enhanced pix2pix dehazing network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2019:8160-8168.

[27]Dong Y,Liu Y,Zhang H,et al.FD-GAN:Generative adversarial networkswith fusion-discriminator for single image dehazing[C]//Proceedings of theAAAI Conference on Artificial Intelligence.2020,34(07):10729-10736.

[28]He K,Zhang X,Ren S,et al.Deep residual learning for imagerecognition[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2016:770-778.

[29]Ioffe S,Szegedy C.Batch normalization:Accelerating deep networktraining by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167,2015.

[30]Glorot X,Bordes A,Bengio Y.Deep sparse rectifier neural networks[C]//Proceedings of the fourteenth international conference on artificialintelligence and statistics.2011:315-323.

[31]Qin X,Wang Z,Bai Y,et al.Ffa-net:Feature fusion attention networkfor single image dehazing[C]//Proceedings of the AAAI Conference onArtificial Intelligence.2020,34(07):11908-11915.

[32]Zhang,Y.；Li,K.；Li,K.；Wang,L.；Zhong,B.；and Fu,Y.2018.Image super-resolution using very deep residual channel attention networks.In Proceedingsof the European Conference on Computer Vision(ECCV),286–301

[33]Johnson J,Alahi A,Fei-Fei L.Perceptual losses for real-time styletransfer and super-resolution[C]//European conference on computervision.Springer,Cham,2016:694-711.

[34]Simonyan K,Zisserman A.Very deep convolutional networks forlarge-scale image recognition[J].arXiv preprint arXiv:1409.1556,2014.

[35]Li B,Ren W,Fu D,et al.Reside:A benchmark for single imagedehazing[J].arXiv preprint arXiv:1712.04143,2017, 1.

[36]Ancuti C,Ancuti C O,Timofte R,et al.I-HAZE:a dehazing benchmarkwith real hazy and haze-free indoor images[C]//International Conference onAdvanced Concepts for Intelligent Vision Systems.Springer,Cham,2018:620- 631.

[37]Ancuti C O,Ancuti C,Timofte R,et al.O-haze:a dehazing benchmarkwith real hazy and haze-free outdoor images[C]//Proceedings of the IEEEconference on computer vision and pattern recognition workshops.2018:754-762.

[38]Ko Nishino,Louis Kratz,and Stephen Lombardi.Bayesiandefogging.International Journal of Computer Vision, 2012.2,6

[39]Diederik P Kingma and Jimmy Ba.Adam:A method for stochasticoptimization.arXiv,2014.6

[40]Loshchilov I,Hutter F.Sgdr:Stochastic gradient descent with warmrestarts[J].arXiv preprint arXiv:1608.03983, 2016。

Claims

1.一种用于单幅图像去雾的串行注意增强UNet++去雾网络，首先建立串行注意增强UNet++去雾网络AESUNet；然后对AESUNet进行训练，其特征是建立的AESUNet采用两个UNet++模块的串行策略；在两个UNet++模块之间建立了残差连接；在AESUNet中引入了注意力机制；

对于输入的原始模糊图像，两个串行的UNet++模块分别完全提取不同分辨率的特征，并在不同尺度上重建它们；当第一个UNet++模块的输出特征映射传递到第二个UNet++模块时，它也同时与第二个UNet++模块的输出特征残差连接，得到级联的特征映射；接着，引入注意力模块，通过学习不同通道和不同像素的不同权重，进而处理不均匀烟雾；然后，经两个卷积层将通道减少到三个，得到最终提取的特征；最后，将原始模糊图像加入到最终提取的特征通道中，得到去雾图像。

2.根据权利要求1所述的用于单幅图像去雾的串行注意增强UNet++去雾网络，其特征是所述UNet++模块中，编码器包含三组卷积层Conv及其后紧邻的批量归一化BN和ReLU激活层；解码器的结构与编码器的结构相对应；

在第二个UNet++模块的解码器输出端连接注意力模块；

在编码器中：

1.1)输入特征被下采样到一半大小；

1.2)依次经第一组和第二组的卷积层Conv、批量归一化BN和ReLU激活层提取特征；

1.3)将步骤1.1)的下采样结果添加到步骤1.2)提取特征中，交第三组卷积层Conv、批量归一化BN和ReLU激活层提取特征；

在解码器中的过程与步骤1.1)～1.3)的步骤

2.1)编码器输出特征经上采样到2倍大小；

2.2)依次经第一组和第二组的卷积层Conv、批量归一化BN和ReLU层提取特征；

2.3)将步骤2.1)的上采样结果添加到步骤2.2)提取特征中，交第三组卷积层Conv、批量归一化BN和ReLU激活层提取特征。

3.根据权利要求1所述的用于单幅图像去雾的串行注意增强UNet++去雾网络，其特征是所述注意力模块包括通道注意模块和空间注意模块；

在通道注意模块中：

首先，采用自适应平均池操作来获得每个通道的原始权重；通过自适应均值池运算，对于H*W*C的特征图，提取一个大小为1*1*C的特征向量，该特征向量每个值是对应特征图中所有像素值的平均值；

然后，将原始权重发送到由卷积层、ReLU激活函数、另一卷积层和Sigmoid激活函数组成的学习模块；

最后，将学习到的特征权重按通道相乘到输入特征中，得到融合了通道注意的特征图，使不同通道对烟雾有不同程度的关注；

在通道注意模块之后，使用空间注意模块来测量对特征图不同位置的注意程度；

在空间注意模块中：

首先，在融合了通道注意的特征图上沿通道轴执行最大池化和平均池化操作；从H*W*C的原始特征图中获得两个H*W*1的空间注意图；

接着，使用卷积层和Sigmoid激活函数来学习整个图像中的雾度分布；

最后，将空间注意图按像素级乘以输入特征。

4.根据权利要求1所述的用于单幅图像去雾的串行注意增强UNet++去雾网络，其特征是在对AESUNet进行训练中，损失函数L_total是由重建损失函数L_r和感知损失函数L_p组成：

L_total＝αL_r+βL_p

参数α、β是相应损失函数的损失权重；

重建损失函数L_r测量真实参考图像和对应图像之间的平均绝对误差MAE即L₁损失；重建损失函数L_r：

其中I_i是输入模糊图像；G(·)代表去雾网络的操作；J_i代表真实参考图像，也就是对应的无雾图像；

感知损失函数L_p用于测量特征空间中的感知相似性并计算均方误差，即L₂损失；感知损失函数L_p：

vgg(·)指预训练VGG16网络。