[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2018045602A1 - 一种基于深度学习的模糊核尺寸估计方法与系统 - Google Patents

一种基于深度学习的模糊核尺寸估计方法与系统 Download PDF

Info

Publication number
WO2018045602A1
WO2018045602A1 PCT/CN2016/099335 CN2016099335W WO2018045602A1 WO 2018045602 A1 WO2018045602 A1 WO 2018045602A1 CN 2016099335 W CN2016099335 W CN 2016099335W WO 2018045602 A1 WO2018045602 A1 WO 2018045602A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
size
fuzzy kernel
kernel size
fuzzy
Prior art date
Application number
PCT/CN2016/099335
Other languages
English (en)
French (fr)
Inventor
桑农
李乐仁瀚
颜露新
高常鑫
邵远杰
彭军才
张士伟
王金
Original Assignee
华中科技大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华中科技大学 filed Critical 华中科技大学
Priority to US15/709,454 priority Critical patent/US10311560B2/en
Publication of WO2018045602A1 publication Critical patent/WO2018045602A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the invention belongs to the field of pattern recognition technology, and more particularly to a method and system for estimating a fuzzy image blur kernel size based on deep learning.
  • the blurred image B is usually obtained by convolving a clear image I with a blur kernel k (also called a point spread function), as shown in equation (1):
  • N represents image noise
  • the types of image blur are mainly divided into three categories: Gaussian blur, motion blur and defocus blur.
  • the difference is reflected in the representation of fuzzy kernel k.
  • image deblurring is actually a process of deconvolution.
  • the fuzzy kernel k and the clear image I are both unknown, it is called blind deconvolution.
  • the fuzzy kernel k is known, it is called non-blind deconvolution.
  • both the blurred kernel k and the clear image I of the blurred image are unknown, so it is ill-posed to obtain two unknown parameters by an equation (1).
  • most of the current research uses the method of maximum posterior probability estimation to estimate the fuzzy kernel k and the clear image I, as shown in formula (2).
  • R(k) and R(I) are the constraints of the fuzzy kernel and the clear image, respectively, which are also called regularization terms.
  • the fuzzy regular kernel and the clear image are more consistent with the actual prior information constraints through different regularization terms.
  • Many studies have been developed around the formula (2) to improve the deblurring effect of the image through in-depth study of the a priori information of the blurred kernel and the clear image.
  • the fuzzy kernel size is a very important input parameter.
  • the fuzzy kernel size is mainly determined by the fuzzy trajectory and the fuzzy kernel support domain, reflecting the degree of blurring, that is, the blurred image generated by the large-sized fuzzy kernel is more blurred than the blurred image generated by the small-sized fuzzy kernel.
  • the existing fuzzy image blur kernel size estimation methods mainly include two types: (1) trial and error method, according to experience, input common blur kernel size while fixing other input parameters, and compare the recovery effect to select the best effect.
  • the size is used as an input; (2) the edge information is extracted according to the image content, and the degree of image blur is calculated by corresponding filtering to estimate the blur and size.
  • the shortcomings of the above two methods are: the former has great blindness, the success rate of trial and error recovery by experience alone is low, and the estimated fuzzy kernel size has no actual basis and is not convincing; the latter is only fuzzy.
  • the degree, that is, the fuzzy trajectory makes a corresponding estimate, but the fuzzy kernel size contains both the fuzzy trajectory information and the fuzzy kernel support domain information, so the estimated result cannot be directly used as an input parameter.
  • the present invention provides a fuzzy kernel size estimation method based on deep learning, which aims to establish a fuzzy kernel estimation problem as a multi-classification problem through a deep learning method.
  • Offline training of multi-class convolutional neural networks which can accurately estimate the fuzzy kernel size of any input fuzzy image, thus solving the fuzzy kernel blind estimation and estimation results existing in the prior art methods cannot be directly used as input parameters of the optimization algorithm.
  • Technical issues such as.
  • a depth learning-based fuzzy kernel size estimation method comprising the following steps:
  • the fuzzy kernel size corresponding to the largest element is the estimation result of the fuzzy kernel size of the blurred image B.
  • the image B 0 is input into the multi-class convolutional neural network to obtain a fuzzy kernel size probability distribution vector.
  • ⁇ i soft-max represents the weight of the Soft-max layer
  • x full-connect () represents the output value of the fully connected layer
  • T represents matrix transposition
  • m represents the number of fuzzy kernel size categories.
  • Each element in the obtained fuzzy kernel size probability distribution vector represents a probability value that the fuzzy kernel size corresponding to the element is the fuzzy kernel size of the input image B.
  • the training of the multi-class convolutional neural network includes the following steps:
  • T is a two-dimensional convolution operation of a natural scene image randomly collected by u sheets and v ⁇ m randomly generated blur kernels
  • u is the number of images
  • m is a fuzzy kernel size type
  • v is a size of each size type.
  • the fuzzy kernel number, the fuzzy image generated by the same size type of fuzzy kernel is marked as an image category; then the training image obtained after the two-dimensional convolution operation is preprocessed to meet the image input size of the multi-class convolutional neural network. ;
  • the downsampling method is preferably a bilinear interpolation downsampling method.
  • a depth learning based fuzzy kernel size estimation system comprising the following modules:
  • the image preprocessing module is configured to preprocess the blurred image.
  • the size of the blurred image is less than N times the input image size M of the multi-class convolutional neural network, the input image is obtained by downsampling, otherwise the method of size interception is used to intercept the inclusion image.
  • T is a two-dimensional convolution operation of a natural scene image randomly collected by u sheets and v ⁇ m randomly generated blur kernels
  • u is the number of images
  • m is a fuzzy kernel size type
  • v is a size of each size type.
  • the fuzzy kernel number, the blurred image generated by the same size type of fuzzy kernel is marked as an image category; then the training image obtained after the two-dimensional convolution operation is input to the image preprocessing module to obtain an input image, so that the size of the input image is satisfied.
  • Input image size of the classification convolutional neural network
  • the probability distribution sequence vector P(B size (s 1 ,...,s l ,...,s m )
  • T) of the fuzzy kernel size category adjusts the weight of each layer network to blur the training image T
  • the element corresponding to the kernel size category s l is the largest element in the distribution sequence vector;
  • the input image B 0 After completing the training, the input image B 0 enters the multi-class convolutional neural network to obtain a probability distribution vector.
  • ⁇ i soft-max represents the weight of the Soft-max layer
  • x full-connect () represents the output value of the fully connected layer
  • T represents matrix transposition
  • m represents the number of fuzzy kernel size categories.
  • Each element in the obtained fuzzy kernel size probability distribution vector represents a probability value that the fuzzy kernel size corresponding to the element is the fuzzy kernel size of the input image B.
  • the fuzzy kernel size estimation module is used for fuzzy kernel size estimation, and compares the size of each element in the probability distribution vector.
  • the fuzzy kernel size corresponding to the largest element is the estimation result of the fuzzy image B fuzzy kernel size.
  • the downsampling method is preferably a bilinear interpolation method
  • the synthesis of the multi-class convolutional neural network training set in the technical solution of the present invention adopts a method of randomly collecting a large number of clear pictures and randomly generating a large number of fuzzy cores, so that the training set is more universal, and the classification obtained by training the training set is adopted.
  • the fuzzy kernel size estimated by the convolutional neural network is more accurate.
  • 1 is a flow chart of a fuzzy kernel size estimation method of the present invention
  • FIG. 2 is a structural diagram of a fuzzy kernel size estimation system of the present invention
  • FIG. 3 is a schematic diagram showing the structure of a multi-class convolutional neural network designed by the present invention.
  • Fuzzy kernel also known as point spread function
  • the image blur degradation model is usually expressed in formula (1).
  • the blurred image is obtained by convolution operation of a clear image and a degenerate function.
  • This degenerate function is called a fuzzy kernel. It is a point spread function and a degenerate function.
  • the existing image deblurring algorithms are mostly based on this degenerate model, and the fuzzy kernel and the clear image are estimated by adding corresponding a priori constraint information.
  • Fuzzy kernel size The fuzzy kernel is usually set to an odd-sized square matrix. Usually, an appropriate amount of “zero value” is added around the fuzzy track to form its support domain.
  • the degree of image blurring of different sizes of fuzzy kernels and convolution of the same clear image is also different, that is, the size of the fuzzy kernel greatly affects the degree of image blur.
  • the fuzzy kernel size as an important input parameter in the image deblurring process, greatly affects the result of image restoration.
  • the input size parameter is smaller than the actual size, a large number of “ringing” phenomenon will occur in the recovery result; if the input size parameter is larger than the actual size, the recovery result will be excessively smooth and lose the detailed information; if and only if the input size parameter is close to the actual size Will get a satisfactory recovery result.
  • Convolutional neural network is a kind of artificial neural network, which has become a research hotspot in the field of speech analysis and image recognition. Its weight-sharing network structure makes it more similar to biological neural networks, reducing the complexity of the network model and reducing the number of weights. This advantage is more obvious when the input of the network is an image, so that the image can be directly used as an input of the network, and the complicated feature extraction and data reconstruction process in the traditional classification algorithm is avoided.
  • a convolutional network is a multi-layer perceptron specially designed to recognize two-dimensional shapes. This network structure is highly invariant to translation, scaling, tilting, or common forms of deformation.
  • FIG. 1 is a general flowchart of a fuzzy image blur kernel size estimation method according to the present invention.
  • the inventive method specifically includes the following steps:
  • the fuzzy information (such as large-scale structural information) can also be intercepted according to the required input size.
  • the input image B 0 after experiment, in the case of neither reducing the effective information in the image, without increasing the computational burden of the training process, the size of the input image is set to 50 ⁇ 50;
  • the present invention provides a schematic structural diagram of a convolutional neural network according to the above embodiment.
  • the network consists of a total of 9 layers, consisting of "C1 - C2 - C3 - C4 - M5 - C6 - M7 - F8 - S9".
  • C1 is a convolutional layer composed of 96 filters of size 11 ⁇ 1 ⁇ 1 and a nonlinear activation function sigmoid function.
  • the size of 50 ⁇ 50 input image B 0 is calculated by C1 layer, and a size is obtained.
  • C2 layer is a convolution layer, consisting of 96 filters of size 1 ⁇ 11 ⁇ 96 and a nonlinear activation function sigmoid function, size 40 ⁇ 50 ⁇ 96 image sequence
  • C3 layer is a convolution layer, and 128 filters of size 9 ⁇ 1 ⁇ 96 and a nonlinear activation are obtained.
  • the function sigmoid function consists of a size of 40 ⁇ 40 ⁇ 96 image sequence X 2 through the calculation of the C3 layer, will get an image sequence X 3 size 32 ⁇ 40 ⁇ 128;
  • C4 layer is a convolution layer, by 128 sizes Consisting of a 1 ⁇ 9 ⁇ 128 filter and a nonlinear activation function ReLU function, a 32 ⁇ 40 ⁇ 128 image sequence X 3 is calculated by the C4 layer, and an image sequence of size 32 ⁇ 32 ⁇ 128 is obtained.
  • M5 layer is to maximize the pooling layer (Max-pooling), taking grayscale among four adjacent pixels of each image The point with the largest value replaces the four pixels.
  • an image sequence X 5 with a size of 16 ⁇ 16 ⁇ 128 is obtained;
  • the C6 layer is a convolution layer. It consists of 256 filters of size 7 ⁇ 7 ⁇ 128 and a nonlinear activation function ReLU function.
  • the size of 16 ⁇ 16 ⁇ 128 image sequence X 5 is calculated by C6 layer, and a size of 10 ⁇ 10 is obtained.
  • the training process of the above neural network is as follows:

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的模糊核尺寸估计方法,属于模式识别技术领域。该方法首先根据模糊图样属性选择采用降采样或尺寸截取进行预处理,得到尺寸满足需求的输入图像;之后,将图像输入至已完成训练的多分类卷积神经网络中,通过不同层的权值计算,得到一个概率分布向量;最后,通过比较向量中各元素的大小,取值最大的元素所对应图像类别代表的模糊核尺寸即为模糊图像尺寸大小的估计结果。本发明还实现了一种基于深度学习的模糊核尺寸估计系统。本发明为现有图像去模糊算法提供了更具科学依据的模糊核尺寸作为输入参数,有效解决了现有方法中存在的尺寸盲目输入以及无法提供直接的输入值等问题。

Description

一种基于深度学习的模糊核尺寸估计方法与系统 【技术领域】
本发明属于模式识别技术领域,更具体地,涉及一种基于深度学习的模糊图像模糊核尺寸估计方法与系统。
【背景技术】
当成像设备处于一个不理想的成像环境时,往往会产生模糊的图像,对后续的视觉处理,如:识别、跟踪等造成一定的干扰。造成图像模糊的原因有很多,包括光学因素、大气因素、人工因素、技术因素等,日常生产生活中对图像进行去模糊操作有其重要意义。
模糊图像B通常由一个清晰图像I与模糊核k(也称点扩散函数)卷积操作得来,如公式(1)所示:
Figure PCTCN2016099335-appb-000001
其中,N表示图像噪声,
Figure PCTCN2016099335-appb-000002
表示二维卷积操作。图像模糊的类型主要分为高斯模糊、运动模糊以及失焦模糊三类,其区别体现在模糊核k表现形式上。根据上述退化模型,图像去模糊实际上是一个反卷积的过程,当模糊核k与清晰图像I均未知时称为盲目反卷积,当模糊核k已知时称为非盲目反卷积。实际情况下,模糊图像的模糊核k与清晰图像I均未知,所以通过公式(1)一个方程要得到两个未知参数,这个问题是不适定的。对于不适定的病态问题,目前的研究大多采用最大后验概率估计的方法对模糊核k与清晰图像I进行估计,如公式(2)所示,
Figure PCTCN2016099335-appb-000003
其中
Figure PCTCN2016099335-appb-000004
称为数据逼近项,保证了估计出的清晰图像
Figure PCTCN2016099335-appb-000005
满足退化模型;R(k)与R(I)分别为模糊核与清晰图像的约束,也称为正则化项,通过不同的正则化项使模糊核与清晰图像更符合实际的先验信息约束。许多研 究围绕公式(2)展开,通过对模糊核与清晰图像的先验信息的深入研究,以提高图像去模糊的效果。在上述基于最大后验概率的图像去模糊算法中,模糊核尺寸是一个非常重要的输入参数。模糊核尺寸,主要由模糊轨迹以及模糊核支撑域所决定,反映了模糊的程度,即尺寸大的模糊核产生的模糊图像比尺寸小的模糊核产生的模糊图像的模糊程度更大。在图像去模糊的过程中,输入的模糊核尺寸越接近真实情况,图像复原效果则越理想。输入过大或过小模糊核尺寸复原出的图像通常无法达到预期的效果。
现有的模糊图像模糊核尺寸估计的方法主要包括两类:(1)试错法,按照经验在固定其他输入参数的情况下输入常见的模糊核尺寸,通过复原效果对比,选取效果最好的尺寸作为输入;(2)根据图像内容提取边缘信息,通过相应的滤波计算出图像模糊程度,从而估计出模糊和尺寸。以上两种方法的缺陷在于:前者存在很大的盲目性,单凭经验通过试错法复原的成功率低,并且估计出的模糊核尺寸无实际根据,不具有说服力;后者仅对模糊的程度,即模糊的轨迹做出相应的估计,但是模糊核尺寸既包含模糊轨迹信息,又包含模糊核支撑域信息,所以估计的结果无法直接作为输入参数。
【发明内容】
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习的模糊核尺寸估计方法,其目的在于通过深度学习的方法,将模糊核估计问题建立为一种多分类问题,通过多分类卷积神经网络的离线训练,对任何输入的模糊图像模糊核尺寸进行较为准确的估计,由此解决现有技术方法中存在的模糊核盲目估计及估计结果无法直接作为优化算法的输入参数等的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于深度学习的模糊核尺寸估计方法,该方法包括以下按步骤:
(1)对模糊图像B进行预处理得到图像B0,使图像B0的尺寸满足多分类卷积神经网络的图像输入尺寸;
(2)将图像B0输入至已完成训练的多分类卷积神经网络中,得到一个模糊核尺寸概率分布向量;
(3)比较模糊核尺寸概率分布向量中每个元素的大小,最大的元素所对应的模糊核尺寸即为模糊图像B的模糊核尺寸大小的估计结果。
进一步地,将图像B0输入进多分类卷积神经网络,得到一个模糊核尺寸概率分布向量
Figure PCTCN2016099335-appb-000006
其中,ωi soft-max表示软最大化(Soft-max)层的权值,xfull-connect()表示全连接层的输出值,T表示矩阵转置,m代表模糊核尺寸类别数,所得到的模糊核尺寸概率分布向量中每一个元素分别代表该元素所对应模糊核尺寸为输入图像B的模糊核尺寸的概率值。
进一步地,所述多分类卷积神经网络的训练包括以下步骤:
(31)选择分类卷积神经网络的训练集
T={t1,...,tn},n=u×v×m,
其中,T是先由u张随机搜集的自然场景图像与v×m个随机生成的模糊核进行二维卷积操作,u为图像数量,m为模糊核尺寸种类,v为每一尺寸种类的模糊核个数,相同尺寸种类的模糊核产生的模糊图像标记为一个图像类别;之后将二维卷积操作后得到的训练图像进行预处理使其尺寸满足多分类卷积神经网络的图像输入尺寸;
(32)多分类卷积神经网络中输入一张标记为sl的模糊核尺寸类别的训练图像t1,得到每一种模糊核尺寸类别的概率分布序列向量P(Bsize=(s1,...,sl,...,sm)|t1),调整各层网络的权值,使训练图像t1的模糊核尺寸类别sl对应的元素为分布序列向量中最大元素;
(33)依次输入训练集T={t1,...,tn},n=u×v×m中所有图像的重复步骤(32),完成多分类卷积神经网络的训练。
进一步地,所述图像预处理为,当待处理模糊图像的尺寸小于N倍多分类卷积神经网络的图像输入尺寸M时,则使用降采样法得到输入图像;否则使用尺寸截取法截取包含模糊信息的图像得到输入图像,其中,依据实验经验5≤N≤15,25≤M≤100,优选N=15,M=50。
进一步地,所述降采样法优选双线性插值降采样法。
按照本发明的另一方面,提供了一种基于深度学习的模糊核尺寸估计系统,该系统包括以下模块:
图像预处理模块,用于对模糊图像进行预处理,当模糊图像的尺寸小于N倍多分类卷积神经网络输入图像尺寸M时,则采用降采样得到输入图像,否则采用尺寸截取的方法截取包含模糊信息的图像得到输入图像,其中,依据实验经验5≤N≤15,25≤M≤100,优选N=15,M=50;
训练集合成模块,用于产生训练需要的训练图像集
T={t1,...,tn},n=u×v×m,
其中,T是先由u张随机搜集的自然场景图像与v×m个随机生成的模糊核进行二维卷积操作,u为图像数量,m为模糊核尺寸种类,v为每一尺寸种类的模糊核个数,相同尺寸种类的模糊核产生的模糊图像标记为一个图像类别;之后将二维卷积操作后得到的训练图像输入到图像预处理模块得到输入图像,使输入图像的尺寸满足多分类卷积神经网络的输入图像尺寸;
多分类卷积神经网络模块,用于进行训练时依次输入训练图像集T={t1,...,tn},n=u×v×m进入多分类卷积神经网络,得到每一种模糊核尺寸类别的概率分布序列向量P(Bsize=(s1,...,sl,...,sm)|T),调整各层网络权值,使训练图像T的模糊核尺寸类别sl对应的元素为分布序列向量中最大元素;
完成训练后,输入图像B0进入多分类卷积神经网络,得到一个概率分 布向量
Figure PCTCN2016099335-appb-000007
其中,ωi soft-max表示软最大化(Soft-max)层的权值,xfull-connect()表示全连接层的输出值,T表示矩阵转置,m代表模糊核尺寸类别数,所得到的模糊核尺寸概率分布向量中每一个元素分别代表该元素所对应模糊核尺寸为输入图像B的模糊核尺寸的概率值。
模糊核尺寸估计模块,用于模糊核尺寸估计,比较概率分布向量中每个元素的大小,最大的元素所对应的模糊核尺寸即为模糊图像B模糊核尺寸大小的估计结果。
进一步地,所述降采样法优选双线性插值降采法
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下技术特征及有益效果:
(1)该发明技术方案提供的模糊图像模糊核尺寸估计结果能够直接用于大多数现有的图像去模糊算法,克服了现有技术盲目试错及无法提供直接输入参数的缺陷;
(2)本发明技术方案中多分类卷积神经网络训练集的合成采用随机搜集大量清晰图片以及随机生成大量模糊核的方法,使训练集更具有普适性,采用此训练集训练得到的分类卷积神经网络估计出的模糊核尺寸更准确。
【附图说明】
图1是本发明的模糊核尺寸估计方法流程图;
图2是本发明的模糊核尺寸估计系统结构图;
图3是本发明设计的一种多分类卷积神经网络结构示意图。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及 实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先对本发明用到的术语进行解释和说明。
模糊核:也称为点扩散函数,图像模糊退化模型通常如公式(1)中表述,模糊图像由清晰图像与一个退化函数卷积操作得来,此退化函数则称为模糊核,也可称为点扩散函数、退化函数。现有的图像去模糊算法大多基于此退化模型,通过添加相应的先验约束信息,对模糊核以及清晰图像进行估计。
模糊核尺寸:模糊核通常被设定为一个奇数尺寸的正方形矩阵,通常在模糊轨迹四周添加适量的“零值”构成其支撑域。不同尺寸的模糊核与同一清晰图像卷积得来的图像模糊程度也不同,即模糊核尺寸大小在很大程度上影响了图像模糊程度。模糊核尺寸在图像去模糊过程中,作为一个重要的输入参数,在很大程度上影响了图像复原的结果。输入尺寸参数如小于实际尺寸,恢复结果会出现大量“振铃”现象;输入尺寸参数如大于实际尺寸,恢复结果会过度平滑而失去细节信息;当且仅当输入尺寸参数与实际尺寸接近的时候,才会得到令人满意的恢复结果。
卷积神经网络:卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统分类算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。
如图1所示,为本发明模糊图像模糊核尺寸估计方法的总流程图,本 发明方法具体包括以下步骤:
(1)对模糊图像B进行预处理,通过降采样得到图像尺寸满足需求的输入图像B0,对于尺寸偏大的图像B,亦可根据需求输入尺寸截取包含模糊信息(如大尺度结构信息)的输入图像B0,经过实验,在既不减弱图像中的有效信息,又不增加训练过程的计算负担的情况下,将输入图像的尺寸设定为50×50;
(2)将图像B0输入至已完成训练的20类多分类卷积神经网络中,其模糊核尺寸候选集合为S={11×11,15×15,...,95×95},通过不同层的权值计算,得到一个概率分布向量;
(3)根据步骤(2)得到的向量P,通过比较个元素的大小,取值最大的元素pi,i∈{1,K,20},其所对应类别所代表的模糊核尺寸sk即为模糊图像B尺寸大小的估计结果。
如图5所示,本发明根据上述实施实例提供了一种卷积神经网络的结构示意图。该网络总共包含9层,由“C1—C2—C3—C4—M5—C6—M7—F8—S9”组成。C1为卷积层,由96个尺寸为11×1×1的滤波器以及一个非线性激活函数sigmoid函数组成,尺寸为50×50输入图像B0通过C1层的计算后,将得到一个尺寸为40×50×96的图像序列X1;C2层为卷积层,由96个尺寸为1×11×96的滤波器以及一个非线性激活函数sigmoid函数组成,尺寸为40×50×96图像序列X1通过C2层的计算后,将得到一个尺寸为40×40×96的图像序列X2;C3层为卷积层,由128个尺寸为9×1×96的滤波器以及一个非线性激活函数sigmoid函数组成,尺寸为40×40×96图像序列X2通过C3层的计算后,将得到一个尺寸为32×40×128的图像序列X3;C4层为卷积层,由128个尺寸为1×9×128的滤波器以及一个非线性激活函数ReLU函数组成,尺寸为32×40×128图像序列X3通过C4层的计算后,将得到一个尺寸为32×32×128的图像序列X4;M5层为最大化池化层(Max- pooling),将每一图像四个相邻像素点中取灰度值最大的点替代这四个像素点,尺寸为32×32×128的图像序列X4通过M5层后,将得到一个尺寸为16×16×128的图像序列X5;C6层为卷积层,由256个尺寸为7×7×128的滤波器以及一个非线性激活函数ReLU函数组成,尺寸为16×16×128图像序列X5通过C6层的计算后,将得到一个尺寸为10×10×256的图像序列X6;M7层为最大化池化层(Max-pooling),将每一图像四个相邻像素点中取灰度值最大的点替代这四个像素点,尺寸为10×10×256的图像序列X6通过M7层后,将得到一个尺寸为5×5×256的图像序列X7;F8、S9分别为全连接层、Soft-max损失层,序列X7通过此两层网络后,将得到一概率分布序列
Figure PCTCN2016099335-appb-000008
向量中每一元素的取值代表了该类别对应的模糊核尺寸的概率值,概率最大的元素对应图像类别代表的模糊核尺寸即为模糊图像B模糊核尺寸大小的估计结果。
上述神经网络的训练过程如下:
(1)随机搜集清晰自然场景图像,与随机生成的模糊核进行卷积操作得到模糊图像,并对模糊图像所对应的模糊核尺寸进行标记;
(2)以一张标记为sl并降采样至网络需求尺寸的模糊图像Be为例,当模糊图像Be通过上述神经网络计算后,会得到其对应每一个尺寸的概率分布序列向量P(Bsize=(s1,...,sl,...,s20)|Be),通过调整各层网络的权值参数,使模糊图像Be所对应的真实模糊核尺寸sl代表类别的概率值为序列中最大。
(3)通过反向传播、随机梯度下降的优化算法,进行多次训练迭代后,则可完成上述训过程。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

  1. 一种基于深度学习的模糊核尺寸估计方法,其特征在于,该方法包括以下步骤:
    (1)对模糊图像B进行预处理得到图像B0,使图像B0的尺寸满足多分类卷积神经网络的图像输入尺寸;
    (2)将图像B0输入至已完成训练的多分类卷积神经网络中,得到一个模糊核尺寸概率分布向量;
    (3)比较模糊核尺寸概率分布向量中每个元素的大小,最大的元素所对应的模糊核尺寸即为模糊图像B的模糊核尺寸大小的估计结果。
  2. 根据权利要求1所述的一种基于深度学习的模糊核尺寸估计方
    法,其特征在于,将图像B0输入进多分类卷积神经网络,得到一个模糊核尺寸概率分布向量
    Figure PCTCN2016099335-appb-100001
    其中,ωi soft-max表示软最大化(Soft-max)层的权值,xfull-connect()表示全连接层的输出值,T表示矩阵转置,m代表模糊核尺寸类别数,所得到的模糊核尺寸概率分布向量中每一个元素分别代表该元素所对应模糊核尺寸为输入图像B的模糊核尺寸的概率值。
  3. 根据权利要求1所述的一种基于深度学习的模糊核尺寸估计方法,其特征在于,所述多分类卷积神经网络的训练包括以下步骤:
    (31)选择分类卷积神经网络的训练集
    T={t1,...,tn},n=u×v×m,
    其中,T是先由u张随机搜集的自然场景图像与v×m个随机生成的模糊核进行二维卷积操作,u为图像数量,m为模糊核尺寸种类,v为每一尺寸种 类的模糊核个数,相同尺寸种类的模糊核产生的模糊图像标记为一个图像类别;之后将二维卷积操作后得到的训练图像进行预处理使其尺寸满足多分类卷积神经网络的图像输入尺寸;
    (32)多分类卷积神经网络中输入一张标记为sl的模糊核尺寸类别的训练图像t1,得到每一种模糊核尺寸类别的概率分布序列向量P(Bsize=(s1,...,sl,...,sm)|t1),调整各层网络的权值,使训练图像t1的模糊核尺寸类别sl对应的元素为分布序列向量中最大元素;
    (33)依次输入训练集T={t1,...,tn},n=u×v×m中所有图像的重复步骤(32),完成多分类卷积神经网络的训练。
  4. 根据权利要求1或3所述的一种基于深度学习的模糊核尺寸估计方法,其特征在于,所述图像预处理为,当待处理模糊图像的尺寸小于N倍多分类卷积神经网络的图像输入尺寸M时,则使用降采样法得到输入图像;否则使用尺寸截取法截取包含模糊信息的图像得到输入图像。
  5. 根据权利要求4所述的一种基于深度学习的模糊核尺寸估计方法,其特征在于,所述降采样法优选双线性插值降采样法。
  6. 一种基于深度学习的模糊核尺寸估计系统,其特征在于,该系统包括以下模块:
    图像预处理模块,用于对模糊图像进行预处理,当模糊图像的尺寸小于N倍多分类卷积神经网络输入图像尺寸M时,则采用降采样得到输入图像,否则采用尺寸截取的方法截取包含模糊信息的图像得到输入图像;
    训练集合成模块,用于产生训练需要的训练图像集
    T={t1,...,tn},n=u×v×m,
    其中,T是先由u张随机搜集的自然场景图像与v×m个随机生成的模糊核进行二维卷积操作,u为图像数量,m为模糊核尺寸种类,v为每一尺寸种类的模糊核个数,相同尺寸种类的模糊核产生的模糊图像标记为一个图像 类别;之后将二维卷积操作后得到的训练图像输入到图像预处理模块得到输入图像,使输入图像的尺寸满足多分类卷积神经网络的输入图像尺寸;
    多分类卷积神经网络模块,用于进行训练时依次输入训练图像集T={t1,...,tn},n=u×v×m进入多分类卷积神经网络,得到每一种模糊核尺寸类别的概率分布序列向量P(Bsize=(s1,...,sl,...,sm)|T),调整各层网络权值,使训练图像T的模糊核尺寸类别sl对应的元素为分布序列向量中最大元素;
    完成训练后,输入图像B0进入多分类卷积神经网络,得到一个概率分布向量
    Figure PCTCN2016099335-appb-100002
    其中,ωi soft-max表示软最大化(Soft-max)层的权值,xfull-connect()表示全连接层的输出值,T表示矩阵转置,m代表模糊核尺寸类别数,所得到的模糊核尺寸概率分布向量中每一个元素分别代表该元素所对应模糊核尺寸为输入图像B的模糊核尺寸的概率值。
    模糊核尺寸估计模块,用于模糊核尺寸估计,比较概率分布向量中每个元素的大小,最大的元素所对应的模糊核尺寸即为模糊图像B模糊核尺寸大小的估计结果。
  7. 根据权利要求6所述的一种基于深度学习的模糊核尺寸估计系统,其特征在于,所述降采样法优选双线性插值降采样法。
PCT/CN2016/099335 2016-09-07 2016-09-19 一种基于深度学习的模糊核尺寸估计方法与系统 WO2018045602A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/709,454 US10311560B2 (en) 2016-09-07 2017-09-19 Method and system for estimating blur kernel size

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2016108060724 2016-09-07
CN201610806072.4A CN106447626B (zh) 2016-09-07 2016-09-07 一种基于深度学习的模糊核尺寸估计方法与系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/709,454 Continuation-In-Part US10311560B2 (en) 2016-09-07 2017-09-19 Method and system for estimating blur kernel size

Publications (1)

Publication Number Publication Date
WO2018045602A1 true WO2018045602A1 (zh) 2018-03-15

Family

ID=58164764

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/099335 WO2018045602A1 (zh) 2016-09-07 2016-09-19 一种基于深度学习的模糊核尺寸估计方法与系统

Country Status (2)

Country Link
CN (1) CN106447626B (zh)
WO (1) WO2018045602A1 (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685863A (zh) * 2018-12-11 2019-04-26 帝工(杭州)科技产业有限公司 一种重建医学乳房图像的方法
CN109800682A (zh) * 2018-12-29 2019-05-24 桂林电子科技大学 驾驶员属性识别方法及相关产品
CN110738201A (zh) * 2019-04-25 2020-01-31 上海海事大学 基于融合形态特征的自适应多卷积神经网络文字识别方法
CN111028177A (zh) * 2019-12-12 2020-04-17 武汉大学 一种基于边缘的深度学习图像去运动模糊方法
CN111223062A (zh) * 2020-01-08 2020-06-02 西安电子科技大学 基于生成对抗网络的图像去模糊方法
CN111275625A (zh) * 2018-12-04 2020-06-12 杭州海康机器人技术有限公司 一种图像去模糊方法、装置及电子设备
CN111723662A (zh) * 2020-05-18 2020-09-29 南京师范大学 一种基于卷积神经网络的人体姿态识别方法
CN111862262A (zh) * 2020-08-05 2020-10-30 深圳高性能医疗器械国家研究院有限公司 一种图像重建方法及其应用
CN111882035A (zh) * 2020-07-21 2020-11-03 北京百度网讯科技有限公司 基于卷积核的超网络搜索方法、装置、设备和介质
CN112102185A (zh) * 2020-09-04 2020-12-18 腾讯科技(深圳)有限公司 基于深度学习的图像去模糊方法及装置、电子设备
CN112330549A (zh) * 2020-10-16 2021-02-05 西安工业大学 一种基于盲解卷积网络的模糊图像盲复原方法及系统
CN112837245A (zh) * 2021-03-16 2021-05-25 西北工业大学 一种基于多模态融合的动态场景去模糊方法
CN112949669A (zh) * 2019-12-10 2021-06-11 中国科学院深圳先进技术研究院 估计数字图像中高斯低通滤波参数的方法
CN113034386A (zh) * 2021-03-03 2021-06-25 西安工业大学 一种基于深度神经网络的图像处理方法、系统和介质
CN113191984A (zh) * 2021-05-24 2021-07-30 清华大学深圳国际研究生院 基于深度学习的运动模糊图像联合复原与分类方法和系统
CN113191413A (zh) * 2021-04-25 2021-07-30 华中科技大学 基于中央凹残差网络的前列腺多模mr图像分类方法和系统
CN114967121A (zh) * 2022-05-13 2022-08-30 哈尔滨工业大学 一种端到端的单透镜成像系统设计方法
US11549358B2 (en) * 2020-10-22 2023-01-10 Halliburton Energy Services, Inc. Deep learning methods for enhancing borehole images
CN117058038A (zh) * 2023-08-28 2023-11-14 北京航空航天大学 一种基于偶数卷积深度学习的衍射模糊图像修复方法
CN117058039A (zh) * 2023-08-28 2023-11-14 北京航空航天大学 一种基于随机退化的模糊图像修复方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665417B (zh) * 2017-03-30 2021-03-12 杭州海康威视数字技术股份有限公司 一种车牌图像去模糊方法、装置及系统
CN108810319B (zh) * 2017-04-26 2020-10-23 富士通株式会社 图像处理装置和图像处理方法
CN107392882A (zh) * 2017-07-30 2017-11-24 湖南鸣腾智能科技有限公司 一种基于角点检测的简单透镜psf迭代优化初始值的方法
CN107680053A (zh) * 2017-09-20 2018-02-09 长沙全度影像科技有限公司 一种基于深度学习分类的模糊核优化迭代初始值估计方法
CN107833193A (zh) * 2017-11-20 2018-03-23 长沙全度影像科技有限公司 一种基于refinement‑network深度学习模型的单透镜全局图像复原方法
CN108528395A (zh) * 2018-04-08 2018-09-14 广州大学 一种基于图像识别的车辆智能雨刮控制方法及系统
CN108550125B (zh) * 2018-04-17 2021-07-30 南京大学 一种基于深度学习的光学畸变修正方法
CN110545373B (zh) * 2018-05-28 2021-12-28 中兴通讯股份有限公司 空间环境的感知方法及装置
CN109086770B (zh) * 2018-07-25 2021-12-17 成都快眼科技有限公司 一种基于精准尺度预测的图像语义分割方法及模型
CN109712183A (zh) * 2018-11-28 2019-05-03 天津大学 基于深度学习的电子散斑干涉智能信息提取方法
CN109741253A (zh) * 2018-12-12 2019-05-10 深圳慧源创新科技有限公司 无人机图传视频近景远景切换技术
CN109949234B (zh) * 2019-02-25 2020-10-02 华中科技大学 基于深度网络的视频复原模型训练方法及视频复原方法
CN110264415B (zh) * 2019-05-24 2020-06-12 北京爱诺斯科技有限公司 一种消除抖动模糊的图像处理方法
CN110874826B (zh) * 2019-11-18 2020-07-31 北京邮电大学 应用于离子束精准镀膜的工件图像去雾化方法及装置
CN114355907B (zh) * 2021-12-22 2024-01-19 东风汽车集团股份有限公司 一种基于云端的智能化垃圾识别和清扫方法、系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101511011A (zh) * 2009-02-19 2009-08-19 浙江大学 图像降采样快速解码显示方法和装置
CN104091340A (zh) * 2014-07-18 2014-10-08 厦门美图之家科技有限公司 一种模糊图像的快速检测方法
US20150139485A1 (en) * 2013-11-15 2015-05-21 Facebook, Inc. Pose-aligned networks for deep attribute modeling

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091341B (zh) * 2014-07-18 2018-03-30 厦门美图之家科技有限公司 一种基于显著性检测的图像模糊检测方法
US10713022B2 (en) * 2014-10-29 2020-07-14 Reservoir Labs, Inc. Systems and methods for stencil amplification
CN104408692A (zh) * 2014-11-25 2015-03-11 南京信息工程大学 一种基于深度学习的图像模糊模型参数分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101511011A (zh) * 2009-02-19 2009-08-19 浙江大学 图像降采样快速解码显示方法和装置
US20150139485A1 (en) * 2013-11-15 2015-05-21 Facebook, Inc. Pose-aligned networks for deep attribute modeling
CN104091340A (zh) * 2014-07-18 2014-10-08 厦门美图之家科技有限公司 一种模糊图像的快速检测方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275625A (zh) * 2018-12-04 2020-06-12 杭州海康机器人技术有限公司 一种图像去模糊方法、装置及电子设备
CN111275625B (zh) * 2018-12-04 2023-08-04 杭州海康机器人股份有限公司 一种图像去模糊方法、装置及电子设备
CN109685863A (zh) * 2018-12-11 2019-04-26 帝工(杭州)科技产业有限公司 一种重建医学乳房图像的方法
CN109800682A (zh) * 2018-12-29 2019-05-24 桂林电子科技大学 驾驶员属性识别方法及相关产品
CN110738201B (zh) * 2019-04-25 2024-04-19 上海海事大学 基于融合形态特征的自适应多卷积神经网络文字识别方法
CN110738201A (zh) * 2019-04-25 2020-01-31 上海海事大学 基于融合形态特征的自适应多卷积神经网络文字识别方法
CN112949669A (zh) * 2019-12-10 2021-06-11 中国科学院深圳先进技术研究院 估计数字图像中高斯低通滤波参数的方法
CN111028177A (zh) * 2019-12-12 2020-04-17 武汉大学 一种基于边缘的深度学习图像去运动模糊方法
CN111028177B (zh) * 2019-12-12 2023-07-21 武汉大学 一种基于边缘的深度学习图像去运动模糊方法
CN111223062A (zh) * 2020-01-08 2020-06-02 西安电子科技大学 基于生成对抗网络的图像去模糊方法
CN111723662A (zh) * 2020-05-18 2020-09-29 南京师范大学 一种基于卷积神经网络的人体姿态识别方法
CN111723662B (zh) * 2020-05-18 2023-07-11 南京师范大学 一种基于卷积神经网络的人体姿态识别方法
CN111882035A (zh) * 2020-07-21 2020-11-03 北京百度网讯科技有限公司 基于卷积核的超网络搜索方法、装置、设备和介质
CN111862262B (zh) * 2020-08-05 2023-12-19 国创育成医疗器械发展(深圳)有限公司 一种图像重建方法及其应用
CN111862262A (zh) * 2020-08-05 2020-10-30 深圳高性能医疗器械国家研究院有限公司 一种图像重建方法及其应用
CN112102185A (zh) * 2020-09-04 2020-12-18 腾讯科技(深圳)有限公司 基于深度学习的图像去模糊方法及装置、电子设备
CN112102185B (zh) * 2020-09-04 2023-04-18 腾讯医疗健康(深圳)有限公司 基于深度学习的图像去模糊方法及装置、电子设备
CN112330549B (zh) * 2020-10-16 2023-08-08 西安工业大学 一种基于盲解卷积网络的模糊图像盲复原方法及系统
CN112330549A (zh) * 2020-10-16 2021-02-05 西安工业大学 一种基于盲解卷积网络的模糊图像盲复原方法及系统
US11549358B2 (en) * 2020-10-22 2023-01-10 Halliburton Energy Services, Inc. Deep learning methods for enhancing borehole images
CN113034386A (zh) * 2021-03-03 2021-06-25 西安工业大学 一种基于深度神经网络的图像处理方法、系统和介质
CN113034386B (zh) * 2021-03-03 2024-01-23 西安工业大学 一种基于深度神经网络的图像处理方法、系统和介质
CN112837245A (zh) * 2021-03-16 2021-05-25 西北工业大学 一种基于多模态融合的动态场景去模糊方法
CN112837245B (zh) * 2021-03-16 2024-05-31 西北工业大学 一种基于多模态融合的动态场景去模糊方法
CN113191413A (zh) * 2021-04-25 2021-07-30 华中科技大学 基于中央凹残差网络的前列腺多模mr图像分类方法和系统
CN113191413B (zh) * 2021-04-25 2022-06-21 华中科技大学 基于中央凹残差网络的前列腺多模mr图像分类方法和系统
CN113191984A (zh) * 2021-05-24 2021-07-30 清华大学深圳国际研究生院 基于深度学习的运动模糊图像联合复原与分类方法和系统
CN114967121A (zh) * 2022-05-13 2022-08-30 哈尔滨工业大学 一种端到端的单透镜成像系统设计方法
CN114967121B (zh) * 2022-05-13 2023-02-03 哈尔滨工业大学 一种端到端的单透镜成像系统设计方法
CN117058038A (zh) * 2023-08-28 2023-11-14 北京航空航天大学 一种基于偶数卷积深度学习的衍射模糊图像修复方法
CN117058039A (zh) * 2023-08-28 2023-11-14 北京航空航天大学 一种基于随机退化的模糊图像修复方法
CN117058038B (zh) * 2023-08-28 2024-04-30 北京航空航天大学 一种基于偶数卷积深度学习的衍射模糊图像修复方法

Also Published As

Publication number Publication date
CN106447626A (zh) 2017-02-22
CN106447626B (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
WO2018045602A1 (zh) 一种基于深度学习的模糊核尺寸估计方法与系统
US10311560B2 (en) Method and system for estimating blur kernel size
Tian et al. Deep learning on image denoising: An overview
CN112233038B (zh) 基于多尺度融合及边缘增强的真实图像去噪方法
Li et al. Blind image deblurring via deep discriminative priors
CN105657402B (zh) 一种深度图恢复方法
CN111275643B (zh) 基于通道和空间注意力的真实噪声盲去噪网络系统及方法
CN106548159A (zh) 基于全卷积神经网络的网纹人脸图像识别方法与装置
CN111275637A (zh) 一种基于注意力模型的非均匀运动模糊图像自适应复原方法
CN111209952A (zh) 基于改进ssd和迁移学习的水下目标检测方法
CN110766632A (zh) 基于通道注意力机制和特征金字塔的图像去噪方法
CN106228512A (zh) 基于学习率自适应的卷积神经网络图像超分辨率重建方法
CN107154023A (zh) 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法
CN111815665B (zh) 基于深度信息与尺度感知信息的单张图像人群计数方法
CN106952228A (zh) 基于图像非局部自相似性的单幅图像的超分辨率重建方法
CN110796616A (zh) 基于分数阶微分算子的l0范数约束和自适应加权梯度的湍流退化图像恢复方法
Wali et al. Recent progress in digital image restoration techniques: a review
CN113066025A (zh) 一种基于增量学习与特征、注意力传递的图像去雾方法
Tripathi Facial image noise classification and denoising using neural network
Hua et al. Dynamic scene deblurring with continuous cross-layer attention transmission
Yang et al. Deblurring and super-resolution using deep gated fusion attention networks for face images
CN117593187A (zh) 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法
CN113688783B (zh) 人脸特征提取方法、低分辨率人脸识别方法及设备
KM et al. QSRNet: towards quaternion-based single image super-resolution
CN115880175A (zh) 一种基于改进生成对抗网络的模糊图像复原方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16915536

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16915536

Country of ref document: EP

Kind code of ref document: A1