WO2018045602A1

WO2018045602A1 - 一种基于深度学习的模糊核尺寸估计方法与系统

Info

Publication number: WO2018045602A1
Application number: PCT/CN2016/099335
Authority: WO
Inventors: 桑农; 李乐仁瀚; 颜露新; 高常鑫; 邵远杰; 彭军才; 张士伟; 王金
Original assignee: 华中科技大学
Priority date: 2016-09-07
Filing date: 2016-09-19
Publication date: 2018-03-15
Also published as: CN106447626A; CN106447626B

Abstract

本发明公开了一种基于深度学习的模糊核尺寸估计方法，属于模式识别技术领域。该方法首先根据模糊图样属性选择采用降采样或尺寸截取进行预处理，得到尺寸满足需求的输入图像；之后，将图像输入至已完成训练的多分类卷积神经网络中，通过不同层的权值计算，得到一个概率分布向量；最后，通过比较向量中各元素的大小，取值最大的元素所对应图像类别代表的模糊核尺寸即为模糊图像尺寸大小的估计结果。本发明还实现了一种基于深度学习的模糊核尺寸估计系统。本发明为现有图像去模糊算法提供了更具科学依据的模糊核尺寸作为输入参数，有效解决了现有方法中存在的尺寸盲目输入以及无法提供直接的输入值等问题。

Description

一种基于深度学习的模糊核尺寸估计方法与系统

【技术领域】

本发明属于模式识别技术领域，更具体地，涉及一种基于深度学习的模糊图像模糊核尺寸估计方法与系统。

【背景技术】

当成像设备处于一个不理想的成像环境时，往往会产生模糊的图像，对后续的视觉处理，如：识别、跟踪等造成一定的干扰。造成图像模糊的原因有很多，包括光学因素、大气因素、人工因素、技术因素等，日常生产生活中对图像进行去模糊操作有其重要意义。

模糊图像B通常由一个清晰图像I与模糊核k(也称点扩散函数)卷积操作得来，如公式(1)所示：

其中,N表示图像噪声，

表示二维卷积操作。图像模糊的类型主要分为高斯模糊、运动模糊以及失焦模糊三类，其区别体现在模糊核k表现形式上。根据上述退化模型，图像去模糊实际上是一个反卷积的过程，当模糊核k与清晰图像I均未知时称为盲目反卷积，当模糊核k已知时称为非盲目反卷积。实际情况下，模糊图像的模糊核k与清晰图像I均未知，所以通过公式(1)一个方程要得到两个未知参数，这个问题是不适定的。对于不适定的病态问题，目前的研究大多采用最大后验概率估计的方法对模糊核k与清晰图像I进行估计，如公式(2)所示，

其中

称为数据逼近项，保证了估计出的清晰图像

满足退化模型；R(k)与R(I)分别为模糊核与清晰图像的约束，也称为正则化项，通过不同的正则化项使模糊核与清晰图像更符合实际的先验信息约束。许多研究围绕公式(2)展开，通过对模糊核与清晰图像的先验信息的深入研究，以提高图像去模糊的效果。在上述基于最大后验概率的图像去模糊算法中，模糊核尺寸是一个非常重要的输入参数。模糊核尺寸，主要由模糊轨迹以及模糊核支撑域所决定，反映了模糊的程度，即尺寸大的模糊核产生的模糊图像比尺寸小的模糊核产生的模糊图像的模糊程度更大。在图像去模糊的过程中，输入的模糊核尺寸越接近真实情况，图像复原效果则越理想。输入过大或过小模糊核尺寸复原出的图像通常无法达到预期的效果。

现有的模糊图像模糊核尺寸估计的方法主要包括两类：(1)试错法，按照经验在固定其他输入参数的情况下输入常见的模糊核尺寸，通过复原效果对比，选取效果最好的尺寸作为输入；(2)根据图像内容提取边缘信息，通过相应的滤波计算出图像模糊程度，从而估计出模糊和尺寸。以上两种方法的缺陷在于：前者存在很大的盲目性，单凭经验通过试错法复原的成功率低，并且估计出的模糊核尺寸无实际根据，不具有说服力；后者仅对模糊的程度，即模糊的轨迹做出相应的估计，但是模糊核尺寸既包含模糊轨迹信息，又包含模糊核支撑域信息，所以估计的结果无法直接作为输入参数。

【发明内容】

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度学习的模糊核尺寸估计方法，其目的在于通过深度学习的方法，将模糊核估计问题建立为一种多分类问题，通过多分类卷积神经网络的离线训练，对任何输入的模糊图像模糊核尺寸进行较为准确的估计，由此解决现有技术方法中存在的模糊核盲目估计及估计结果无法直接作为优化算法的输入参数等的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习的模糊核尺寸估计方法，该方法包括以下按步骤：

(1)对模糊图像B进行预处理得到图像B₀，使图像B₀的尺寸满足多分类卷积神经网络的图像输入尺寸；

(2)将图像B₀输入至已完成训练的多分类卷积神经网络中，得到一个模糊核尺寸概率分布向量；

(3)比较模糊核尺寸概率分布向量中每个元素的大小，最大的元素所对应的模糊核尺寸即为模糊图像B的模糊核尺寸大小的估计结果。

进一步地，将图像B₀输入进多分类卷积神经网络，得到一个模糊核尺寸概率分布向量

其中，ω_i ^soft-max表示软最大化(Soft-max)层的权值，x_full-connect()表示全连接层的输出值，T表示矩阵转置，m代表模糊核尺寸类别数，所得到的模糊核尺寸概率分布向量中每一个元素分别代表该元素所对应模糊核尺寸为输入图像B的模糊核尺寸的概率值。

进一步地，所述多分类卷积神经网络的训练包括以下步骤：

(31)选择分类卷积神经网络的训练集

T＝{t₁,...,t_n},n＝u×v×m，

其中，T是先由u张随机搜集的自然场景图像与v×m个随机生成的模糊核进行二维卷积操作，u为图像数量，m为模糊核尺寸种类，v为每一尺寸种类的模糊核个数，相同尺寸种类的模糊核产生的模糊图像标记为一个图像类别；之后将二维卷积操作后得到的训练图像进行预处理使其尺寸满足多分类卷积神经网络的图像输入尺寸；

(32)多分类卷积神经网络中输入一张标记为s_l的模糊核尺寸类别的训练图像t₁，得到每一种模糊核尺寸类别的概率分布序列向量P(B_size＝(s₁,...,s_l,...,s_m)|t₁)，调整各层网络的权值，使训练图像t₁的模糊核尺寸类别s_l对应的元素为分布序列向量中最大元素；

(33)依次输入训练集T＝{t₁,...,t_n},n＝u×v×m中所有图像的重复步骤(32)，完成多分类卷积神经网络的训练。

进一步地，所述图像预处理为，当待处理模糊图像的尺寸小于N倍多分类卷积神经网络的图像输入尺寸M时，则使用降采样法得到输入图像；否则使用尺寸截取法截取包含模糊信息的图像得到输入图像，其中，依据实验经验5≤N≤15,25≤M≤100,优选N＝15,M＝50。

进一步地，所述降采样法优选双线性插值降采样法。

按照本发明的另一方面，提供了一种基于深度学习的模糊核尺寸估计系统，该系统包括以下模块：

图像预处理模块，用于对模糊图像进行预处理，当模糊图像的尺寸小于N倍多分类卷积神经网络输入图像尺寸M时，则采用降采样得到输入图像，否则采用尺寸截取的方法截取包含模糊信息的图像得到输入图像，其中，依据实验经验5≤N≤15,25≤M≤100,优选N＝15,M＝50；

训练集合成模块，用于产生训练需要的训练图像集

T＝{t₁,...,t_n},n＝u×v×m，

其中，T是先由u张随机搜集的自然场景图像与v×m个随机生成的模糊核进行二维卷积操作，u为图像数量，m为模糊核尺寸种类，v为每一尺寸种类的模糊核个数，相同尺寸种类的模糊核产生的模糊图像标记为一个图像类别；之后将二维卷积操作后得到的训练图像输入到图像预处理模块得到输入图像，使输入图像的尺寸满足多分类卷积神经网络的输入图像尺寸；

多分类卷积神经网络模块，用于进行训练时依次输入训练图像集T＝{t₁,...,t_n},n＝u×v×m进入多分类卷积神经网络，得到每一种模糊核尺寸类别的概率分布序列向量P(B_size＝(s₁,...,s_l,...,s_m)|T)，调整各层网络权值，使训练图像T的模糊核尺寸类别s_l对应的元素为分布序列向量中最大元素；

完成训练后，输入图像B₀进入多分类卷积神经网络，得到一个概率分布向量

模糊核尺寸估计模块，用于模糊核尺寸估计，比较概率分布向量中每个元素的大小，最大的元素所对应的模糊核尺寸即为模糊图像B模糊核尺寸大小的估计结果。

进一步地，所述降采样法优选双线性插值降采法

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下技术特征及有益效果：

(1)该发明技术方案提供的模糊图像模糊核尺寸估计结果能够直接用于大多数现有的图像去模糊算法，克服了现有技术盲目试错及无法提供直接输入参数的缺陷；

(2)本发明技术方案中多分类卷积神经网络训练集的合成采用随机搜集大量清晰图片以及随机生成大量模糊核的方法，使训练集更具有普适性，采用此训练集训练得到的分类卷积神经网络估计出的模糊核尺寸更准确。

【附图说明】

图1是本发明的模糊核尺寸估计方法流程图；

图2是本发明的模糊核尺寸估计系统结构图；

图3是本发明设计的一种多分类卷积神经网络结构示意图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先对本发明用到的术语进行解释和说明。

模糊核：也称为点扩散函数，图像模糊退化模型通常如公式(1)中表述，模糊图像由清晰图像与一个退化函数卷积操作得来，此退化函数则称为模糊核，也可称为点扩散函数、退化函数。现有的图像去模糊算法大多基于此退化模型，通过添加相应的先验约束信息，对模糊核以及清晰图像进行估计。

模糊核尺寸：模糊核通常被设定为一个奇数尺寸的正方形矩阵，通常在模糊轨迹四周添加适量的“零值”构成其支撑域。不同尺寸的模糊核与同一清晰图像卷积得来的图像模糊程度也不同，即模糊核尺寸大小在很大程度上影响了图像模糊程度。模糊核尺寸在图像去模糊过程中，作为一个重要的输入参数，在很大程度上影响了图像复原的结果。输入尺寸参数如小于实际尺寸，恢复结果会出现大量“振铃”现象；输入尺寸参数如大于实际尺寸，恢复结果会过度平滑而失去细节信息；当且仅当输入尺寸参数与实际尺寸接近的时候，才会得到令人满意的恢复结果。

卷积神经网络：卷积神经网络是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统分类算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。

如图1所示，为本发明模糊图像模糊核尺寸估计方法的总流程图，本发明方法具体包括以下步骤：

(1)对模糊图像B进行预处理，通过降采样得到图像尺寸满足需求的输入图像B₀，对于尺寸偏大的图像B，亦可根据需求输入尺寸截取包含模糊信息(如大尺度结构信息)的输入图像B₀，经过实验，在既不减弱图像中的有效信息，又不增加训练过程的计算负担的情况下，将输入图像的尺寸设定为50×50；

(2)将图像B₀输入至已完成训练的20类多分类卷积神经网络中，其模糊核尺寸候选集合为S＝{11×11,15×15,...,95×95}，通过不同层的权值计算，得到一个概率分布向量；

(3)根据步骤(2)得到的向量P，通过比较个元素的大小，取值最大的元素p_i,i∈{1,K,20}，其所对应类别所代表的模糊核尺寸s_k即为模糊图像B尺寸大小的估计结果。

如图5所示，本发明根据上述实施实例提供了一种卷积神经网络的结构示意图。该网络总共包含9层，由“C1—C2—C3—C4—M5—C6—M7—F8—S9”组成。C1为卷积层，由96个尺寸为11×1×1的滤波器以及一个非线性激活函数sigmoid函数组成，尺寸为50×50输入图像B₀通过C1层的计算后，将得到一个尺寸为40×50×96的图像序列X₁；C2层为卷积层，由96个尺寸为1×11×96的滤波器以及一个非线性激活函数sigmoid函数组成，尺寸为40×50×96图像序列X₁通过C2层的计算后，将得到一个尺寸为40×40×96的图像序列X₂；C3层为卷积层，由128个尺寸为9×1×96的滤波器以及一个非线性激活函数sigmoid函数组成，尺寸为40×40×96图像序列X₂通过C3层的计算后，将得到一个尺寸为32×40×128的图像序列X₃；C4层为卷积层，由128个尺寸为1×9×128的滤波器以及一个非线性激活函数ReLU函数组成，尺寸为32×40×128图像序列X₃通过C4层的计算后，将得到一个尺寸为32×32×128的图像序列X₄；M5层为最大化池化层(Max- pooling)，将每一图像四个相邻像素点中取灰度值最大的点替代这四个像素点，尺寸为32×32×128的图像序列X₄通过M5层后，将得到一个尺寸为16×16×128的图像序列X₅；C6层为卷积层，由256个尺寸为7×7×128的滤波器以及一个非线性激活函数ReLU函数组成，尺寸为16×16×128图像序列X₅通过C6层的计算后，将得到一个尺寸为10×10×256的图像序列X₆；M7层为最大化池化层(Max-pooling)，将每一图像四个相邻像素点中取灰度值最大的点替代这四个像素点，尺寸为10×10×256的图像序列X₆通过M7层后，将得到一个尺寸为5×5×256的图像序列X₇；F8、S9分别为全连接层、Soft-max损失层，序列X₇通过此两层网络后，将得到一概率分布序列

向量中每一元素的取值代表了该类别对应的模糊核尺寸的概率值，概率最大的元素对应图像类别代表的模糊核尺寸即为模糊图像B模糊核尺寸大小的估计结果。

上述神经网络的训练过程如下：

(1)随机搜集清晰自然场景图像，与随机生成的模糊核进行卷积操作得到模糊图像，并对模糊图像所对应的模糊核尺寸进行标记；

(2)以一张标记为s_l并降采样至网络需求尺寸的模糊图像B_e为例，当模糊图像B_e通过上述神经网络计算后，会得到其对应每一个尺寸的概率分布序列向量P(B_size＝(s₁,...,s_l,...,s₂₀)|B_e)，通过调整各层网络的权值参数，使模糊图像B_e所对应的真实模糊核尺寸s_l代表类别的概率值为序列中最大。

(3)通过反向传播、随机梯度下降的优化算法，进行多次训练迭代后，则可完成上述训过程。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种基于深度学习的模糊核尺寸估计方法，其特征在于，该方法包括以下步骤：

(1)对模糊图像B进行预处理得到图像B₀，使图像B₀的尺寸满足多分类卷积神经网络的图像输入尺寸；

(2)将图像B₀输入至已完成训练的多分类卷积神经网络中，得到一个模糊核尺寸概率分布向量；

(3)比较模糊核尺寸概率分布向量中每个元素的大小，最大的元素所对应的模糊核尺寸即为模糊图像B的模糊核尺寸大小的估计结果。
根据权利要求1所述的一种基于深度学习的模糊核尺寸估计方

法，其特征在于，将图像B₀输入进多分类卷积神经网络，得到一个模糊核尺寸概率分布向量

其中，ω_i ^soft-max表示软最大化(Soft-max)层的权值，x_full-connect()表示全连接层的输出值，T表示矩阵转置，m代表模糊核尺寸类别数，所得到的模糊核尺寸概率分布向量中每一个元素分别代表该元素所对应模糊核尺寸为输入图像B的模糊核尺寸的概率值。
根据权利要求1所述的一种基于深度学习的模糊核尺寸估计方法，其特征在于，所述多分类卷积神经网络的训练包括以下步骤：

(31)选择分类卷积神经网络的训练集

T＝{t₁,...,t_n},n＝u×v×m，

其中，T是先由u张随机搜集的自然场景图像与v×m个随机生成的模糊核进行二维卷积操作，u为图像数量，m为模糊核尺寸种类，v为每一尺寸种类的模糊核个数，相同尺寸种类的模糊核产生的模糊图像标记为一个图像类别；之后将二维卷积操作后得到的训练图像进行预处理使其尺寸满足多分类卷积神经网络的图像输入尺寸；

(32)多分类卷积神经网络中输入一张标记为s_l的模糊核尺寸类别的训练图像t₁，得到每一种模糊核尺寸类别的概率分布序列向量P(B_size＝(s₁,...,s_l,...,s_m)|t₁)，调整各层网络的权值，使训练图像t₁的模糊核尺寸类别s_l对应的元素为分布序列向量中最大元素；

(33)依次输入训练集T＝{t₁,...,t_n},n＝u×v×m中所有图像的重复步骤(32)，完成多分类卷积神经网络的训练。
根据权利要求1或3所述的一种基于深度学习的模糊核尺寸估计方法，其特征在于，所述图像预处理为，当待处理模糊图像的尺寸小于N倍多分类卷积神经网络的图像输入尺寸M时，则使用降采样法得到输入图像；否则使用尺寸截取法截取包含模糊信息的图像得到输入图像。
根据权利要求4所述的一种基于深度学习的模糊核尺寸估计方法，其特征在于，所述降采样法优选双线性插值降采样法。
一种基于深度学习的模糊核尺寸估计系统，其特征在于，该系统包括以下模块：

图像预处理模块，用于对模糊图像进行预处理，当模糊图像的尺寸小于N倍多分类卷积神经网络输入图像尺寸M时，则采用降采样得到输入图像，否则采用尺寸截取的方法截取包含模糊信息的图像得到输入图像；

训练集合成模块，用于产生训练需要的训练图像集

T＝{t₁,...,t_n},n＝u×v×m，

其中，T是先由u张随机搜集的自然场景图像与v×m个随机生成的模糊核进行二维卷积操作，u为图像数量，m为模糊核尺寸种类，v为每一尺寸种类的模糊核个数，相同尺寸种类的模糊核产生的模糊图像标记为一个图像类别；之后将二维卷积操作后得到的训练图像输入到图像预处理模块得到输入图像，使输入图像的尺寸满足多分类卷积神经网络的输入图像尺寸；

多分类卷积神经网络模块，用于进行训练时依次输入训练图像集T＝{t₁,...,t_n},n＝u×v×m进入多分类卷积神经网络，得到每一种模糊核尺寸类别的概率分布序列向量P(B_size＝(s₁,...,s_l,...,s_m)|T)，调整各层网络权值，使训练图像T的模糊核尺寸类别s_l对应的元素为分布序列向量中最大元素；

完成训练后，输入图像B₀进入多分类卷积神经网络，得到一个概率分布向量

其中，ω_i ^soft-max表示软最大化(Soft-max)层的权值，x_full-connect()表示全连接层的输出值，T表示矩阵转置，m代表模糊核尺寸类别数，所得到的模糊核尺寸概率分布向量中每一个元素分别代表该元素所对应模糊核尺寸为输入图像B的模糊核尺寸的概率值。

模糊核尺寸估计模块，用于模糊核尺寸估计，比较概率分布向量中每个元素的大小，最大的元素所对应的模糊核尺寸即为模糊图像B模糊核尺寸大小的估计结果。
根据权利要求6所述的一种基于深度学习的模糊核尺寸估计系统，其特征在于，所述降采样法优选双线性插值降采样法。