CN114764868A - 图像处理方法、装置、电子设备及计算机可读存储介质 - Google Patents
图像处理方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114764868A CN114764868A CN202110875207.3A CN202110875207A CN114764868A CN 114764868 A CN114764868 A CN 114764868A CN 202110875207 A CN202110875207 A CN 202110875207A CN 114764868 A CN114764868 A CN 114764868A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- features
- recovery
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 185
- 238000003672 processing method Methods 0.000 title claims abstract description 37
- 238000011084 recovery Methods 0.000 claims abstract description 233
- 238000000034 method Methods 0.000 claims abstract description 100
- 238000001514 detection method Methods 0.000 claims abstract description 89
- 239000011159 matrix material Substances 0.000 claims description 144
- 238000000605 extraction Methods 0.000 claims description 143
- 230000009467 reduction Effects 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 22
- 230000000694 effects Effects 0.000 abstract description 21
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 112
- 230000008569 process Effects 0.000 description 48
- 238000005070 sampling Methods 0.000 description 48
- 238000004422 calculation algorithm Methods 0.000 description 44
- 239000013598 vector Substances 0.000 description 43
- 230000001976 improved effect Effects 0.000 description 38
- 238000013528 artificial neural network Methods 0.000 description 35
- 238000013527 convolutional neural network Methods 0.000 description 30
- 230000006870 function Effects 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 17
- 230000003044 adaptive effect Effects 0.000 description 14
- 230000001965 increasing effect Effects 0.000 description 11
- 230000004913 activation Effects 0.000 description 9
- 238000009826 distribution Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 9
- 238000003384 imaging method Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 8
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 238000007635 classification algorithm Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 230000004931 aggregating effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000011800 void material Substances 0.000 description 3
- 101150064138 MAP1 gene Proteins 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种图像处理方法、装置、电子设备及计算机可读存储介质,涉及图像处理技术领域。一种方法包括:对待处理图像的像素进行模糊分类,得到分类掩码图;基于所述分类掩码图确定所述图像的模糊检测结果;该图像处理方法可以提高模糊检测结果的准确率。另一种方法包括:对图像进行去模糊处理,得到第一恢复图;提取图像中清晰区域的清晰像素;将第一恢复图中对应清晰区域位置的像素替换为清晰像素,得到第二恢复图;该图像处理方法可以提高去模糊处理的效果。同时,由电子设备执行的上述方法可以使用人工智能模型来执行。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,本申请涉及一种图像处理方法、装置、电子设备及计算机可读存储介质。
背景技术
随着数码相机等大众化的成像设备的普及,在我们身边出现了越来越多的数字图像,普通用户个人电子相册里的图像已经数以万计,其中很多图像是存在多种失真的,模糊失真是其中重要的一类。模糊图像检测是近年来新产生的技术需求,可以应用于多种场景中,例如,可以在大量的图像库中自动识别出模糊图像,从而去除低质量的图像;还可以进行模糊图像检测后,引导用户进行正确拍照,或者对图像进行恢复。
目前可以采用梯度的传统算法和基于深度卷积神经网络的分类算法进行图像模糊检测,这种方式更适用于全局模糊的图像,因此,有必要对现有的图像模糊检测方式进行优化。
发明内容
本申请提供了一种图像处理方法、装置、电子设备及计算机可读存储介质,该技术方案如下所示:
第一方面,提供了一种图像处理方法,该方法包括:
对待处理图像的像素进行模糊分类,得到分类掩码图;
基于分类掩码图确定所述图像的模糊检测结果。
可选地,所述对待处理图像的像素进行模糊分类,得到分类掩码图,包括:
经由级联的若干第一特征提取单元对所述待处理图像进行特征提取,得到对应的至少一个第一特征图;
针对至少一个第一特征图,经由第二特征提取单元进行特征提取,得到对应的第二特征图;所述第二特征图是基于第一特征图上的不同像素点之间的关系确定的;
基于至少一个第二特征图生成所述分类掩码图。
可选地,所述第二特征提取单元为图卷积网络;
针对至少一个第一特征图,经由第二特征提取单元进行特征提取,包括:
针对至少一个第一特征图,构建对应的亲密度图,所述亲密度图包括多个节点以及多条连边,所述多个节点中的每个节点表示第一特征图的像素点,所述多条连边中的每条连边表示连边所连接的两个像素点之间的相似性;
根据构建的亲密度图,使用图卷积网络来进行特征提取,得到对应的第二特征图。
可选地,根据构建的亲密度图,使用图卷积网络来进行特征提取,得到对应的第二特征图,包括:
将所述亲密度图中的至少一个节点作为中心节点,聚合该中心节点的邻居节点的特征得到聚合特征;
将所述聚合特征与所述中心节点的特征进行融合,得到第一融合特征;
将第一特征图上的中心节点的特征更新为对应的第一融合特征,生成第二特征图。
可选地,针对至少一个第一特征图,进行特征提取,得到对应的第二特征图,包括:
将所述第一特征图划分为至少两个图像块;
使用图卷积网络,提取每一图像块的局部特征以及相邻图像块之间的全局特征;
将所述局部特征与全局特征进行融合,得到第二融合特征;
基于所述第二融合特征生成第二特征图。
可选地,所述将所述第一特征图划分为至少两个图像块,包括:
将所述第一特征图划分为至少两个图像块,并确定每一图像块的置信度;所述置信度用于表征图像块的清晰程度;
继续划分所述置信度处于预设区间范围内的图像块,直至划分所得的任一图像块对应的置信度处于预设区间范围外。
可选地,所述将所述第一特征图划分为至少两个图像块,还包括:
将所述图像块的尺寸与预设尺寸进行比对;
基于比对结果,将图像块基于所述预设尺寸进行划分。
可选地,划分得到的至少两个图像块中的每个图像块仅包含模糊像素或仅包含清晰像素。
可选地,使用图卷积网络,提取相邻图像块之间的全局特征,包括:
将每个图像块的特征进行降维处理;
基于每个图像块降维处理后的特征,使用图卷积网络,提取相邻的图像块之间的全局特征。
可选地,针对至少一个第一特征图,进行特征提取,得到对应的第二特征图,包括:
确定所述第一特征图上的像素点之间的连接关系,基于所确定的连接关系生成与所述第一特征图对应的邻接矩阵;
基于所述邻接矩阵和所述第一特征图确定所述第二特征图。
可选地,所述确定所述第一特征图上的像素点之间的连接关系,基于所确定的连接关系生成与所述第一特征图对应的邻接矩阵,包括:
对所述第一特征图进行通道降维,得到降维特征图;
对所述降维特征图进行不同的维度调整得到第四特征图和第五特征图;所述第四特征图和所述第五特征图互为转置矩阵;
对所述第四特征图和所述第五特征图进行矩阵相乘得到所述邻接矩阵。
可选地,所述基于所述邻接矩阵和所述第一特征图确定所述第二特征图,包括:
调整所述第一特征图的维度得到第三特征图;
基于所述邻接矩阵和所述第三特征图确定所述第二特征图。
可选地,所述基于所述邻接矩阵和所述第三特征图确定所述第二特征图,包括:
将所述邻接矩阵和所述第三特征图进行矩阵相乘得到第六特征图;
将所述第三特征图与所述第六特征图在通道维度进行拼接,得到拼接特征图;
基于所述拼接特征图生成所述第二特征图。
可选地,还包括:
若所述模糊检测结果为所述图像为模糊图像,对所述图像进行去模糊处理,得到第一恢复图;
基于所述分类掩码图,提取所述图像中清晰区域的清晰像素;
将所述第一恢复图中对应清晰区域位置的像素替换为所述清晰像素,得到第二恢复图。
可选地,所述对所述图像进行去模糊处理,得到第一恢复图,包括:
对所述图像进行特征提取,得到第一提取特征;
基于所述第一提取特征,通过至少一个恢复处理模块进行恢复处理,得到第一恢复图。
可选地,若包含至少两个恢复处理模块,则通过至少一个恢复处理模块进行恢复处理,得到第一恢复图,包括:
使用级联的至少两个恢复处理模块进行恢复处理,得到第一恢复图。
可选地,任一恢复处理模块进行恢复处理,包括:
基于恢复处理模块的输入特征,在预设的各尺度中进行尺度选择;
基于所述输入特征,按照所选择的尺度进行特征提取,得到对应的尺度特征;
基于所述尺度特征确定并输出对应的恢复特征。
可选地,基于所述尺度特征确定并输出对应的恢复特征,包括:
在尺度特征的各通道中进行通道选择;
基于选择出的通道对应的通道特征确定并输出对应的恢复特征。
可选地,通过至少一个恢复处理模块进行恢复处理,得到第一恢复图,包括:
对最后一个恢复处理模块输出的恢复特征进行升维操作,得到第一恢复图。
可选地,还包括:
基于第一提取特征中像素点之间的相似性,确定相似矩阵;
基于所述分类掩码图中清晰像素与模糊像素,确定对应的掩码矩阵;
基于所述相似矩阵和掩码矩阵,确定掩码特征,将所述掩码特征输入到恢复处理模块中进行恢复处理。
可选地,基于所述相似矩阵和掩码矩阵,确定掩码特征,包括:
将所述相似矩阵和掩码矩阵进行相乘,得到掩码相似矩阵;
将所述掩码相似矩阵和所述第一提取特征进行相乘,得到所述掩码特征。
可选地,所述掩码矩阵中的任一值表征分类掩码图中的第一像素点和第二像素点之间的关系,当所述第一像素点为清晰像素,且第二像素点为模糊像素时,所述掩码矩阵中对应的值为0。
可选地,所述对所述图像进行去模糊处理,得到第一恢复图,包括:
获取所述图像的孪生图像;
基于孪生网络对所述图像和所述孪生图像分别进行特征提取,得到第一提取特征和第二提取特征;
将第一提取特征和第二提取特征进行特征对齐,得到对齐后特征;
基于对齐后的特征进行去模糊处理,得到所述第一恢复图。
可选地,所述将第一提取特征和第二提取特征进行特征对齐,得到对齐后特征,包括:
将所述第一提取特征和第二提取特征中的任一特征设为查询特征,另一特征设为键值特征;
将查询特征融合到键值特征中,得到所述对齐后的特征。
可选地,所述将查询特征融合到键值特征中,得到所述对齐后的特征,包括:
从查询特征中查询与所述键值特征相似的近似特征,将所述近似特征与所述键值特征融合得到融合特征;
将所述查询特征中的所述近似特征替换为所述融合特征,获取所述对齐后的特征。
可选地,对所述图像进行特征提取,得到第一提取特征,包括:
确定所述图像对应的至少两个特征块;
采用一维向量表示各特征块的特征,得到各特征块对应的特征向量;
在由至少两个特征向量组成的特征矩阵中进行特征提取,得到提取向量特征;
对所述提取向量特征进行特征重建,得到第一提取特征。
可选地,所述在由多个特征向量组成的特征矩阵中进行特征提取,得到提取向量特征,包括:
基于由至少两个特征向量组成的特征矩阵中各特征向量之间的相似性,确定向量相似矩阵;
基于所述向量相似矩阵针对特征向量进行融合、前馈以及归一化处理,得到提取向量特征。
第二方面,提供了一种图像处理方法,包括:对图像进行去模糊处理,得到第一恢复图;
提取所述图像中清晰区域的清晰像素;
将所述第一恢复图中对应清晰区域位置的像素替换为所述清晰像素,得到第二恢复图。
可选地,对图像进行去模糊处理,得到第一恢复图,包括:
对图像进行特征提取,得到第一提取特征;
基于所述第一提取特征,通过至少一个恢复处理块进行恢复处理,得到第一恢复图。
可选地,若包含至少两个恢复处理模块,则通过至少一个恢复处理模块进行恢复处理,得到第一恢复图,包括:
使用级联的至少两个恢复处理模块进行恢复处理,得到第一恢复图。
可选地,任一恢复处理模块进行恢复处理,包括:
基于恢复处理模块的输入特征,在预设的各尺度中进行尺度选择;
基于所述输入特征,按照所选择的尺度进行特征提取,得到对应的尺度特征;
基于所述尺度特征确定并输出对应的恢复特征。
可选地,基于所述尺度特征确定并输出对应的恢复特征,包括:
在尺度特征的各通道中进行通道选择;
基于选择出的通道对应的通道特征确定并输出对应的恢复特征。
可选地,通过至少一个恢复处理模块进行恢复处理,得到第一恢复图,包括:
对最后一个恢复处理模块输出的恢复特征进行升维操作,得到第一恢复图。
第三方面,提供了一种图像处理装置,该装置包括:
获取模块,用于对待处理图像的像素进行模糊分类,得到分类掩码图;
确定模块,用于基于分类掩码图确定图像的模糊检测结果。
第四方面,提供了一种图像处理装置,该装置包括:
去模糊模块,用于对图像进行去模糊处理,得到第一恢复图;
提取模块,用于提取所述图像中清晰区域的清晰像素;
替换模块,用于将所述第一恢复图中对应清晰区域位置的像素替换为所述清晰像素,得到第二恢复图。
第五方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面或第二方面所示的图像处理方法所对应的操作。
第六方面,提供了一种计算机可读存储介质,存储介质存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面或第二方面所示的图像处理方法。
本申请提供的技术方案带来的有益效果是:
一方面,本申请提供了一种图像处理方法、装置、电子设备及计算机可读存储介质,与现有技术相比,本申请通过对待处理图形中的像素进行模糊分类,确定图像中的像素为清晰像素或模糊像素,根据像素的模糊分类结果生成分类掩码图,再基于分类掩码图确定图像为清晰图像还是模糊图像,从像素级别进行分类,可以提高模糊检测结果的准确率。
另一方面,本申请提供的一种图像处理方法,与现有技术相比,通过对图像进行去模糊处理得到第一恢复图,提取图像中清晰区域的清晰像素,进而将第一恢复图中对应清晰区域位置的像素替换为清晰像素,得到第二恢复图;本申请的实施可以将图像中的模糊区域恢复至清晰的状态,且有利于提高去模糊处理的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请一个示例中的清晰图像;
图2为本申请一个示例中的失焦模糊图像;
图3为本申请一个示例中的运动模糊图像;
图4为失焦模糊图像成像原理示意图;
图5为本申请一个示例中的部分失焦模糊图像;
图6为图5中图像的模糊检测的结果;
图7为图5中去模糊后的图像;
图8为本申请一个示例中的部分模糊图像;
图9为本申请一个示例中的部分模糊图像;
图10为本申请一个示例中的部分模糊图像;
图11为现有方法不能确定模糊区域的位置的示意图;
图12为现有方法识别精度低的示意图;
图13为现有方法难以确定模糊边界的示意图;
图14为本申请实施例提供的一种图像处理方法流程示意图;
图15为本申请一个示例中待处理图像的示意图;
图16为基于图15得到的分类掩码图;
图17为本申请一个示例中待处理图像的示意图;
图18为对图17中的图像进行尺寸调整后的示意图;
图19为对图18中的图像进行裁剪操作后的示意图;
图20为欧式空间构建图的示意图;
图21为本申请实施例提供的一种图像处理方法流程示意图;
图22为本申请一个示例中待处理图像的示意图;
图23为本申请一个示例中待处理图像的示意图;
图24为本申请一个示例中自适应分块策略流程图;
图25为本申请一个示例中提取局部特征和全局特征的示意图;
图26为相关技术与本申请关于特征提取的对比示意图;
图27为本申请实施例提供的一种图像处理方法流程示意图;
图28为本申请一个示例中获取分类掩码图的流程示意图;
图29为本申请一个示例中获取分类掩码图的流程示意图;
图30为本申请一个示例中空洞卷积示意图;
图31为本申请一个示例多尺度图像感受野的示意图;
图32为本申请实施例提供的图嵌入模块结构图;
图33a为本申请一个示例中模糊检测和去模糊处理的流程示意图;
图33b为本申请一个示例中去模糊处理的流程示意图;
图34为本申请一个示例中基于掩码的注意力机制示意图;
图35为本申请一个示例中基于掩码的注意力模块结构示意图;
图36为本申请另一个示例中基于掩码的注意力模块结构示意图;
图37为本申请一个示例中重建模块的结构示意图;
图38为本申请一个示例中多尺度残差组模块的结构示意图;
图39为相关技术与本申请去模糊的效果对比图;
图40为本申请一个示例中不包含自适应特征选择模块的多尺度残差组模块的结构示意图;
图41为本申请一个示例中动态多尺度残差组模块的结构示意图;
图42为本申请一个示例中不包含自适应特征选择模块的动态多尺度残差组模块的结构示意图;
图43为本申请一个示例中重建模块的结构示意图;
图44a为本申请一个示例中残差组模块的结构示意图;
图44b为本申请一个示例中残差块模块的结构示意图;
图45为本申请一个示例中用于进行特征对齐的网络的结构示意图;
图46和47为本申请一个示例中图像和第二恢复图像的对比示意图;
图48为本申请一个示例中基于transformer的图像去模糊神经网络架构示意图;
图49为本申请一个示例中transformer的架构示意图;
图50为本申请另一个示例中transformer的架构示意图;
图51a为本申请一个示例中模糊检测结果示意图;
图51b为本申请一个示例中第四恢复图像的示意图;
图52a为本申请一个示例中进行去模糊处理的方案的示意图;
图52b为本申请一个示例中进行去模糊处理的方案的示意图;
图53为本申请一个示例提供的一种图像处理方法流程示意图;
图54本申请一个示例提供的一种图像处理方法流程示意图;
图55为本申请实施例提供的一种图像处理装置结构示意图;
图56为本申请实施例提供的一种图像处理装置结构示意图;
图57为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
模糊检测算法是通过计算机技术、图像处理和分析技术将图像中模糊的区域检测出来的一种算法。图像是否模糊是评价图像质量好坏的重要方式之一,常用在照片管理、图像质量评价等领域。
在人们使用单反相机或者手机拍照时,期望拍摄一种清晰的高质量的图像,如图1所示。但是如果拍摄的物体在焦距之外,则拍摄的照片往往会是模糊,这种现象称为图像失焦模糊,如图2所示。同时由于相机抖动或者被拍摄物体运动经常会造成拍摄的图像出现运动模糊,如图3所示。
现实场景中的物体通过相机的凸透镜将物体聚焦到相机的成像平面,如果物体在相机的焦距的焦点上,则在成像平面可以产生清晰的照片;但是如果物体在焦距外或者焦距内,则物体的光线会被聚焦的成像平面的前面或者后面出现,导致在成像平面生成的图像出现失焦模糊,影响成像质量,带来非常不好的拍摄体验。如图4上半部分表示聚焦状态,下半部分表示出现失焦模糊的状态。
图像模糊检测应用场景十分广泛,也是图像质量评价最常用的指标之一。例如,(1)人们在拍照时经常由于相机抖动或者实现导致拍摄的照片出现运动或者失焦模糊,而在大量的照片中去筛选掉这些模糊的照片是非常耗时耗力的,因此使用人工智能技术自动筛选掉这些模糊的照片会节省大量的时间,实现自动化的相册和照片管理功能。(2)在人们拍照时,如果相机内的画面出现模糊现象,相机会自动提示用户该照片是否是模糊的,并引导用户去进行正确的拍照,提高照片成像质量,提高用户拍摄体验。(3)为了拍摄质量较高的图像,相机的焦距可能被设计的很长,在这种情况下拍着近处的物体很有可能导致近处的物体被聚焦,而远处的物体出现失焦模糊的现象。大量的工作研究了如何恢复图像模糊的区域,但是在恢复之前需要知道模糊的区域在图像中的位置。因此模糊检测是图像恢复的前提条件。
如图5中所示,树干在相机的焦距上,因此拍摄的树干非常清晰。而后面的人物和建筑由于不在相机的焦距上,因此出现失焦模糊。为了使图像中的模糊区域变得清晰,首先需要定位模糊区域在图像中的位置。如图6表示对图5进行模糊检测的结果,其中黑色区域表示图5中失焦模糊的区域,白色区域表示清晰的区域。最后利用去模糊算法得到图7的结果。
模糊的照片非常影响观赏者的视觉体验,因此对拍摄的照片进行模糊判断,剔除拍摄质量较差的模糊照片,提高拍摄者和观看者的体验。现有的模糊判断主要包括全局模糊判断和局部模糊判断两种方式。全局模糊判断表示整个图像都是模糊的,判断该图像是模糊还是清晰的,例如上述提到的图2和图3所示,图2表示整个图像处于失焦模糊状态,图3表示整个图像都处于运动模糊状态。但是在现实场景中往往是局部模糊的。局部模糊检测表示该图像中只有部分是模糊的,其余部分是清晰的。如图8所示,图像中的主要物体是清晰,而背景是模糊的,属于(局部)部分模糊。
现有的模糊判断算法包括基于梯度的传统算法、基于深度卷积神经网络的分类算法和基于深度卷积神经网络的分割算法。
(1)基于拉普拉斯变换的图像模糊检测算法
基于拉普拉斯变换的图像模糊检测算法是常用的传统模糊检测算法之一。实现模糊检测的是基于一种假设,即:清晰的图像具有比较清楚的纹理,模糊的图像纹理信息不明显。也就是说清晰的图像相邻像素之间的梯度值较大,模糊图像的两个像素值之间的梯度特别小。而拉普拉斯算法是对图像求二阶导数,能够强调图像中密度快速变化的区域。在清晰图片中纹理比较清晰和丰富,因此方差会比较大;而在模糊图片中包含的边界和纹理信息很少,所以方差会较小。
基于拉普拉斯变换的图像模糊检测算法具有与较快的计算速度,但是性能受外界因素影响非常大(比如光照,反光等),导致算法鲁棒性差,存在识别率非常低的情况。同时对于图像中包含模糊区域的图像的会出现误判的情况。如图9所示,该图像中前景物体非常清晰,背景出现失焦模糊。但是在人类感知中,图9属于清晰的图像,但是基于拉普拉斯变换的图像模糊检测算法由于受到模糊区域的影响会将该图像判断为模糊,因此该算法具有较低的识别率,尤其对这种部分模糊的图像,判断结果会出现歧义性。
(2)基于深度卷积神经网络的分类算法
卷积神经网络(Convolution Neural Network,CNN)在各个领域都取得非常好的效果,性能超过传统算法。因此,现有方案利用卷积神经网络对模糊图像进行判断,通过卷积神经网络预为每张输入图像进行打分,如果分数大于0.5则认为该图像为清晰图像,如果分数小于0.5则认为该图像为模糊图像。
基于卷积神经网络的模糊检测算法比基于梯度的传统算法鲁棒性更强,识别的准确率更高。在图8中,如果该输入图像为全局模糊,具有较高的准确率,而且对于部分模糊的图像也具有较高的识别率。但是对于像图10这样模糊区域较少的情况,识别结果可能出现错误。
(3)基于深度卷积神经网络的分割算法
一方面无论是基于梯度的传统算法还是基于深度卷积神经网络的分类算法只适用于全局模糊的图像,而对于部分模糊的图像,识别结果往往不尽人意。另一方面,上述两种方法对于部分模糊的图像并不能确定模糊区域的大小和模糊区域在图像中的位置。例如在图像去模糊任务中,不仅需要判断图像是否是模糊的,而且还需要知道模糊区域在图像中的位置。针对模糊的区域进行去模糊处理,恢复出质量更好的图像。而如果不知道模糊区域的位置,对整幅图像进行处理,可能会导致原本清晰的区域出现质量下降的问题。
因为基于梯度的传统算法和基于深度卷积神经网络的分类算法不能定位模糊的区域在图像中的位置,因此现有工作将模糊检测问题转换为图像分割问题。图像分割算法,不仅可以判断图像模糊区域的大小,而且还可以判断模糊区域在图像中的位置。
在现实场景中,模糊图像的背景较为复杂给模糊检测任务带来非常大的挑战,同时尺度敏感性和模糊区域边界信息的缺失也给模糊检测算法带来困难。
DeFusionNET为了解决上述问题,提出一种循环融合和调整多尺度特征的模块(feature fusing and refining module,FFRM)来提高模糊检测的准确率。DeFusionNET认为浅层特征包含细节信息,高层特征包含语义信息,可以通过将浅层特征融合到高层特征中用来精细化模糊区域的细节信息,将高层特征融合到浅层特征中用来辅助更好的定位模糊区域。
现有技术问题或要改善的地方:
(1)基于梯度的传统算法和基于深度卷积神经网络的分类算法只适用于全局模糊的图像,而对于部分模糊的图像,识别结果往往不尽人意;
(2)基于梯度的传统算法和基于深度卷积神经网络的分类算法对于部分模糊的图像并不能确定模糊区域的大小和模糊区域在图像中的位置;
(3)当图像有空洞时,DeFusionNET不能确定模糊区域的位置。
如图11所示,当图11中左边输入的图像中有空洞时,图11中的标签示出了图像的模糊与否的真实的分类情况,DeFusionNET不能确定模糊区域的位置,但本申请可以确定模糊区域的位置。
如图12所示,对于图12中输入的图像,图12中的标签示出了图像的模糊与否的真实的分类情况,DeFusionNET存在识别精度低的问题,本申请可以更加准确的识别出图像中的模糊区域。
如图13所示,对于图13中输入的图像,图13中的标签示出了图像的模糊与否的真实的分类情况,DeFusionNET存在难以确定模糊边界的问题,而本申请可以更准确的确定出模糊边界。
模糊检测是一个非常具有挑战性的任务,不仅需要判断图像是否是模糊的,还需要检测出模糊区域在图像中的位置和面积的大小。而且传统算法受外界环境的影响也非常大,往往会出现误判的现象。基于深度学习分类模型的模糊检测算法相比于传统算法在一定程度上性能所有提升,但是并不能定位模糊区域在图像中的位置,导致应用场景非常受限。现有的基于分割模型的模糊检测算法解决上述方案存在的问题,但是其识别的准确率有待改善,而且不能检测出空洞中的模糊区域,对于模糊边界也非常难以确定。
基于上述存在的问题,本申请提出一种基于图卷积神经网络模糊检测算法,该方案不仅可以准确定位模糊区域在图像中位置和面积大小,而且具有较高的识别率,可以更为准确的分割模糊边界,提高算法的鲁棒性和准确率。本申请的核心工作是:(1)提出一种基于图卷积的模糊检测模型,在不同尺度的特征上对所有像素点建立隐式的图结构,将感受野扩大至全局感受野,从全局的角度判断该像素区域是否是模糊的。(2)本申请提出的图卷积神经网络模块是一种基于注意力机制的图卷积神经模块。在本申请中使用像素特征的之间的余弦距离表示两个像素之间的连接权重,在图卷积传播过程中,特征聚合时更多的考虑与自身相关性较大的像素的特征。上述过程也是一种隐式聚类过程,使相同类别的特征之间的差异越来越小,不同类的特征差异越来越大,提高模糊检测准确率。(3)本申请提出的图卷积神经网络是一种基于归纳学习的方法,具有较高的泛化能力。(4)随着卷积神经网络层数加深和降采样操作,深层的特征具有较大的感受野,但是同时会丢失非常多的细节信息。例如较小的空洞随着降采样会逐渐消失,导致模糊检测准确率下降。因此本申请并没有对输入图像进行多次的降采样,以此来保留更丰富的细节的特征。与此同时为了实现更大的感受野,本申请采用空洞卷积扩大卷积核的感受野,提高模糊检测准确率。(5)本申请的神经网络采用U形的设计。深层的特征包含更丰富的语义特征,浅层的特征包含更丰富的细节信息。采用U形设计实现高层语义特征和浅层细节特征之间的信息交流和融合,提高特征的表达能力。
本申请提出一种基于图卷积神经网络的模糊检测算法,该算法将模糊检测问题转化为图像语义分割问题,不仅可以准确判断图像是否是模糊的,而且还可以确定模糊区域在图像中的面积和位置。与此同时,通过图卷积神经网络提高每个像素的特征表达,提高了模糊检测的准确率。
(1)提出一种基于图卷积神经网络的模糊检测算法,相对比现有模糊检测算法,本申请的准确率更高;
(2)提出的算法不仅可以准确判断图像是否是模糊的,而且还可以确定模糊区域在图像中的面积和位置;
(3)本申请提出的方案可以有效解决图像中空洞内模糊区域的检测;
(4)本申请提出的方案相比于现有的方案对模糊边界的判断更加准确。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例中提供了一种可能的实现方式,如图14所示,提供了一种图像处理方法,可以包括以下步骤:
步骤S1401,对待处理图像的像素进行模糊分类,得到分类掩码图。
其中,待处理图像中可以包括清晰像素和模糊像素,对应的分类掩码图中不同的颜色区域表示不同类型的像素,以区分模糊像素和清晰像素。
将图15所示的图像转化为图16所示的分类掩码图,分类掩码图可以是由0和1组成的一个二进制图像,图16中,黑色部分表示模糊区域,白色部分表示清晰区域。
具体的,步骤S1401中的对待处理图像的像素进行模糊分类,得到分类掩码图可以包括:
(1)对待处理图像的像素进行分类,确定图像中的清晰像素和模糊像素;
(2)基于所确定的清晰像素和模糊像素生成分类掩码图。
具体的,对待处理图像的像素进行分类,得到分类掩码图的方式可以有多种,可以对图像中的每个像素进行分类,判断待处理图像中的每一个像素是否模糊,若模糊则将该像素转化为预设的颜色,例如转化为黑色;若该像素清晰,则将该像素转化为另一种预设的颜色,例如白色。
在具体实施过程中,可以将待处理图像输入到训练后的神经网络中得到分类掩码图;训练后的神经网络可以是图卷积网络,下文将对图卷积网络进行详细说明;还可以对图卷积网络的结构进行改进,利用改进后的图卷积网络生成分类掩码图,具体的生成分类掩码图的过程将在下文进行详细阐述。
步骤S1402,基于分类掩码图确定图像的模糊检测结果。
其中,模糊检测结果包括图像为模糊图像或图像为清晰图像。
具体的,可以根据分类掩码图统计图像的模糊区域的面积,根据模糊区域的面积在图像中的占比确定图像是否为模糊图像,例如,占比大于预设阈值则为模糊图像,占比小于或等于预设阈值则为清晰图像,具体确定模糊检测结果的过程将在下文进行详细阐述。
上述实施例中,通过对待处理图形中的像素进行分类,确定图像中的像素为清晰像素或模糊像素,根据像素的分类结果生成分类掩码图,再基于分类掩码图确定图像为清晰图像还是模糊图像,从像素级别进行分类,可以提高模糊检测结果的准确率。
本申请实施例的一种可能的实现方式,步骤S1401中的对待处理图像的像素进行分类,得到分类掩码图,可以包括:
(1)获取待处理图像,对待处理图像进行预处理得到第一图像;预处理包括尺寸调节操作或裁减操作中的至少一种;
(2)对第一图像的像素进行模糊分类,得到分类掩码图。
具体的,待处理图像可能数据量较大,例如,原始图像可能是2K或者4K的高清图片,直接输入的神经网络中会耗费大量的时间,可以先进行尺寸调节减小数据量,从而提高对图像的处理速度;此外,图像的边缘区域可能不需要参与模糊检测的过程,例如,在用户拍摄照片,往往更关注照片的中心位置,而不关注照片的边缘区域,可以先对图像进行裁剪,可以裁剪图像的边缘区域,保留图像的中心区域,例如,可以先确定图像的中心位置,基于中心位置确定预设范围的中心区域,对中心区域以外的边缘区域进行裁剪。
以图17-图19所示为例,图17为待处理图像,可以先将待处理图像进行尺寸调整,得到图18所示的图像;将图18所示的图像再进行裁剪,可以得到图19所示的第一图像。
上述实施例中,通过对图像先进行尺寸调节操作或裁减操作,可以提高对图像的处理速度。
GCN(Graph Convolutional Network,图卷积神经网络)对于非欧式空间的数据具有非常的好建模能力,而欧式空间数据可以视为其一种特殊的情况,同样可以使用图卷积神经网络对其进行建模。如图20所示,本申请将图像中每个像素视为图的节点。将每个像素特征之间的相似度作为边的权重,即图的邻接矩阵的值。
以下将结合附图和实施例进一步详细阐述获取分类掩码图的具体过程。
本申请实施例的一种可能的实现方式,如图21所示,S1801对待处理图像的像素进行模糊分类,得到分类掩码图,可以包括:
步骤S1810a,经由级联的若干第一特征提取单元对待处理图像进行特征提取,得到对应的至少一个第一特征图。
其中,第一特征提取单元是用于对待处理图像进行特征提取,例如,可以进行降采样或是空洞卷积,提取待处理图像中的特征得到第一特征图。
在一种实施方式中,第一特征提取单元可以用于对待处理图像进行降采样,得到至少一个第一特征图。
在另一种实施方式中,至少一个第一特征图包括降采样特征图和卷积特征图。
步骤S1810a的经由级联的若干第一特征提取单元对待处理图像进行特征提取,得到对应的至少一个第一特征图,可以包括:
(1)经由至少一个特征提取单元对输入的待处理图像或特征图进行降采样处理,输出得到的降采样特征图;
(2)经由至少一个特征提取单元对输入的降采样特征图进行空洞卷积处理,并输出得到的卷积特征图。
步骤S1820a,针对至少一个第一特征图,经由第二特征提取单元进行特征提取,得到对应的第二特征图。
其中,第二特征图是基于第一特征图上的不同像素点之间的关系确定的。
具体的,第二特征提取单元可以为图卷积网络;步骤S1820a的针对至少一个第一特征图,经由第二特征提取单元进行特征提取,可以包括:
(1)针对至少一个第一特征图,构建对应的亲密度图;
其中,亲密度图包括多个节点以及多条连边,多个节点中的每个节点表示第一特征图的像素点,多条连边中的每条连边表示连边所连接的两个像素点之间的相似性。
(2)根据构建的亲密度图,使用图卷积网络来进行特征提取,得到对应的第二特征图。
具体的,根据构建的亲密度图,使用图卷积网络来进行特征提取,得到对应的第二特征图,可以包括A1-C1:
A1、将亲密度图中的至少一个节点作为中心节点,聚合该中心节点的邻居节点的特征得到聚合特征;
B1、将聚合特征与中心节点的特征进行融合,得到第一融合特征;
C1、将第一特征图上的中心节点的特征更新为对应的第一融合特征,生成第二特征图。
在本申请实施例中,考虑到上述构建的亲密度图和图卷积网络是在整幅图像上进行的,具有较大的计算量,在一些对实时性要求较高的场景中适应性较低。因此本申请实施例针对模糊图像的分布特性设计了更轻量的自适应分块的图卷积网络(Adaptive GridGraph Convolution Network,AGGCN)来提高神经网络的运行速度。
卷积是一个局部操作,它的感受野非常小,因此对模糊边界不能进行准确的判断。如图22中,B是一个模糊边界,包含清晰像素和模糊像素;而A包含全部是模糊像素,C包含全部是清晰像素。但是从局部的角度观察,会将B判断为模糊区域,导致模糊检测错误发生。因此本申请实施例考虑从更大的视角去判断该区域是否模糊,以做出准确的判断,如图22中H所示。
下面针对模糊图像存在的特点进行说明:
(1)卷积是一个局部操作,可以对整幅图像是清晰或者模糊的图像做出正确的判断,但是不能对模糊边界做出的准确的判断。例如在图22中,B是一个模糊边界,其对应的区域中包含清晰像素和模糊像素,但是基于卷积会被认为是模糊图像;
(2)模糊区域都是成块出现的。例如在图22中,H和E是模糊的区域,F和G是清晰的区域;
(3)不同的图像的模糊分布是不一样的。例如图22和23的模糊分布是不一样的。
根据上述模糊图像可能存在的现象,本申请实施例提出了自适应图卷积网络,其中包括:
(1)根据图像中模糊的分布,提出了一种自适应分块策略来扩大感受野;
(2)在每个块中使用图卷积网络(GCN)从更大的角度判断像素是清晰还是模糊,提高模糊检测的准确率。
具体地,针对至少一个第一特征图,进行特征提取,得到对应的第二特征图,可以包括A2-C2:
A2、将第一特征图划分为至少两个图像块。
B2、使用图卷积网络,提取每一图像块的局部特征以及相邻图像块之间的全局特征。
C2、将局部特征与全局特征进行融合,得到第二融合特征。
D2、基于所述第二融合特征生成第二特征图。
可选地,A2中采用如图24所示的自适应分块策略(Adaptive PartitioningStrategy)进行处理;其中,将第一特征图划分为至少两个图像块,包括A21-A22:
A21、将第一特征图划分为至少两个图像块,并确定每一图像块的置信度;置信度用于表征图像块的清晰程度。
具体地,可以将第一特征图划分为4或者其他数值个图像块,为了便于对本申请实施例进行说明,下面以划分为4个图像块进行阐述。
具体地,将输入特征(模糊图像,也即第一特征图)划分成4块,并计算每一图像块中特征的置信度C,该置信度C越大表明所对应的图像块越清晰。
A22、继续划分置信度处于预设区间范围内的图像块,直至划分所得的任一图像块对应的置信度处于预设区间范围外。
具体地,执行判断步骤,判断各图像块对应的置信度是否处于预设区间范围内,若是则表征该图像块中同时包含模糊像素和清晰像素,此时需要将该图像块继续划分成4块,直至划分得到的图像块对应的置信度处于预设区间范围外。
可选地,以预设区间为[0.4,0.8]进行说明,如果置信度介于0.4和0.8之间,则将该图像块继续划分成4块,并继续执行判断步骤。如图24所示,置信度C为0.77和0.75的图像块被继续划分成4个图像块,进而继续执行A22时,将置信度C为0.65的图像块继续划分成4个图像块,如此类推进行循环处理。
具体地,划分得到的至少两个图像块中的每个图像块仅包含模糊像素或仅包含清晰像素;其中,置信度大于预设区间最大值的图像块仅包含清晰像素,置信度小于预设区间最小值的图像块仅包含模糊像素。
可选地,A2中将第一特征图划分为至少两个图像块,还包括:
将图像块的尺寸与预设尺寸进行比对;基于比对结果,将图像块基于预设尺寸进行划分。
结合上述例子继续说明,也即针对置信度大于0.8或者小于0.4的图像块进行处理,如果该图像块的尺寸大于预设尺寸(设定的最小尺寸)的多倍以上,则将该图像块按设定的最小尺寸进行划分。
下面结合图25针对B2-C2中局部特征和全局特征提取的具体过程进行说明:
具体地,将模糊图像(第一特征图)进行自适应分块以后,可以在每个块中使用图卷积神经网络判断像素是否是模糊的。因为分块后的图像相比卷积操作拥有更大的感受野,因此模糊检测更加准确。
首先,针对每个图像块使用图卷积神经网络提取得到局部特征,如图25中①区域所示。由于局部特征并没有考虑块与块之间的关系,因此本申请通过池化的方式使用一个特征向量表示该块区域,然后在块之间使用图卷积神经网络学习块与块之间的关系,进而提取图像的全局特征,如图25中②和③区域所示(该过程中可以包括下采样和上采样的过程)。最后将局部和全局特征进行融合来提高特征的表达能力,如图25中④区域所示。
其中,如图25中①区域所示,针对各图像块使用GCN学习本申请实施例中命名为局部特征的每个图像块中的特征;②区域所示为用一个向量来表示每个图像块,然后用GCN学习图像块之间的关系并提取全局特征;③区域所示为将提取的全局特征恢复到原始大小;④区域所示为融合局部特征和全局特征,以提高特征的表征能力。在②区域中,每个图像块为一个网格,在①区域中,每个图像块包含多个网络,每个网格表示一个像素点。
在一可行的实施例中,在步骤B2中,使用图卷积网络,提取相邻图像块之间的全局特征,包括:
将每个图像块的特征进行降维处理;
基于每个图像块降维处理后的特征,使用图卷积网络,提取相邻的图像块之间的全局特征。
具体地,如图25中②区域所示,在进行全局特征的提取之前,可以先对每个图像块进行降维处理(如池化),以有效降低数据量,简化图卷积网络计算时的复杂度,进而提高使用图卷积网络提取全局特征的效率。
下面针对本申请实施例提出的AGGCN的复杂度进行分析,具体可以参考如下公式(3)-(5)。
O(GCN)=4hwC2+2(hw)2C (3)
O(AGGCN)=4hwC2+2M2hwC (4)
公式(3)为GCN的复杂度计算公式,公式(4)为本申请实施例提出的自适应分块的GCN的复杂度计算公式,公式(5)为两者的比值。其中h表示图像的高,w表示图像的宽,C表示图像的通道数量,M表示本申请实施例中指定的分块的尺寸大小(可以为预设尺寸)。因为M远远小于h和w,因此通过公式(5)可知,本申请实施例提出的方法在时间上的消耗远远小于GCN方案在时间上的消耗。
在本申请实施例中,提出的一种基于自适应分块的图卷积网络(AGGCN)的图嵌入模块。它计算每个图像块中所有实例(像素)的相关性,并将具有相似属性的实例聚类,增加了模糊像素和清晰像素之间的差异,提高了模糊检测的准确性。如图26所示,图26的上半部分为采用GCN方案,空洞的像素被同化,将导致模糊检测发生错误;而图26的下半部分为采用本申请实施例的AGGCN方案的示意图,空洞中的像素仍存在对应的特征,可以使得模糊检测更加准确。其中,图26中灰色填充的区域表征模糊像素;邻接矩阵中的值表示每个像素之间的相似度,其中0表示不相似,1表示相似。
步骤S1830a,基于至少一个第二特征图生成分类掩码图。
具体的,步骤S1830a的基于至少一个第二特征图生成分类掩码图,可以包括:
经由级联的若干解码单元,对至少一个第二特征图进行解码处理,得到分类掩码图,其中,解码单元对输入的特征图进行特征变换处理,并将特征变换后的特征图和相同维度的第二特征图进行融合后输出。
若第一特征提取单元对图像进行降采样处理,得到不同尺度的第一特征图,对不同尺度的第一特征图分别进行特征提取,得到对应的第二特征图,可以经由解码单元对第二特征图进行上采样处理,并将相同维度的第二特征图进行融合生成融合特征图。
若第一特征提取单元对图像进行降采样和空洞卷积处理处理,得到第一特征图,对第一特征图分别进行特征提取,得到对应的第二特征图,可以经由解码单元对第二特征图进行上采样和resize(尺寸恢复)处理,将相同维度的第二特征图进行融合生成融合特征图,具体基于第二特征图生成分类掩码图的过程将在下文进行详细阐述。
上述实施例中,通过图卷积网络提取第二特征图的过程中,将聚合特征与中心节点的特征进行融合,可以保证的中心节点特征保持有原始信息,使其尽可能的减少被同化,从而提高模糊检测结果的准确率。
本申请实施例的一种可能的实现方式,如图27所示,步骤S1801的对待处理图像的像素进行模糊分类,得到分类掩码图,可以包括:
步骤S1810b,对待处理图像进行至少一次特征提取,得到对应的至少一个特征图。
具体的,可以将图像通过多层神经网络进行多倍降采样处理,得到不同尺度上的第一特征图。
例如,可以进行三次降采样,先将尺寸为w×h×3的图像经过两次降采样得到1/4w×1/4h×c的特征图;再将1/4w×1/4h×c的特征图进行降采样得到1/8w×1/8h×c1的特征图,降采样三次之后不再进行降采样,可以保留图像的更多细节特征。
步骤S1820b,分别对至少一个第一特征图进行特征提取,得到对应的至少一个第二特征图。
其中,第二特征图是基于第一特征图上的不同像素点之间的关系确定的。
在具体实施过程中,将所有特征图的像素看作图的节点,通过图卷积神经网络使同类的节点之间的特征更加相近,不同类别之间的特征更加疏远,在一定程度上是一种隐式的像素级别的聚类,从而可以有效的提高的识别的准确率。
具体获取第二特征图的过程将在下文进行详细阐述。
步骤S1830b,基于至少一个第二特征图生成分类掩码图。
具体的,可以将不同的第二特征图进行融合,生成分类掩码图。
本申请实施例的一种可能的实现方式,步骤S1830b的基于至少一个第二特征图生成分类掩码图,可以包括:
(1)基于至少一个第二特征图获取对应的至少一个融合特征图。
具体的,基于至少一个第二特征图获取对应的至少一个融合特征图,可以包括:
a、针对任一的第一特征图,将该第一特征图进行降采样或空洞卷积后的第一特征图设为该特征图的下一级特征图;
b、针对任一尺度的第一特征图,若该特征图不存在下一级特征图,将该第一特征图对应的第二特征图设为该特征图的融合特征图;
c、若该第一特征图存在下一级特征图,则将下一级特征图的融合特征图与该第一特征图的第二特征图进行融合,得到该第一特征图的融合特征图。
(2)将最大尺度的融合特征图上采样得到分类掩码图;分类掩码图的尺寸与待处理图像的尺寸相同。
在一种实施方式中,对图像进行降采样处理,得到不同尺度的第一特征图,对不同尺度的第一特征图分别进行特征提取,得到对应的第二特征图;再将不同尺度的第二特征图进行融合生成融合特征图。
如图28所示,可以对图像(如图中所示的w×h×3的图像)进行降采样(如图中所示的卷积神经网络+降采样*1/4)得到1/4w×1/4h×c1的第一特征图,对1/4w×1/4h×c1的第一特征图进行降采样(如图中所示的降采样*1/2)得到1/8w×1/8h×c2的第一特征图,将1/4w×1/4h×c1的第一特征图进行特征提取生成1/4w×1/4h×c1的第二特征图,即图中所示的将1/4w×1/4h×c1的第一特征图输入到图嵌入模型;将1/8w×1/8h×c2的第一特征图进行特征提取生成1/8w×1/8h×c2的第二特征图,即图中所示的将1/8w×1/8h×c2的第一特征图输入到图嵌入模型生成1/8w×1/8h×c2的第二特征图;将1/8w×1/8h×c2的第二特征图上采样(对应图中的上采样*2)到1/4w×1/4h×c1尺寸,并与1/4w×1/4h×c1的第二特征图进行融合,即图中所示的逐像素相加,得到1/4w×1/4h×c1的融合特征图,再将1/4w×1/4h×c1的融合特征图进行上采样至原始图像大小,可以生成分类掩码图。
在另一种实施方式中,对图像进行降采样处理,得到不同尺度的降采样特征图,对最小尺度的降采样特征图进行至少一次空洞卷积,得到至少一个卷积特征图;对降采样特征图和卷积特征图分别进行特征提取,得到对应的第二特征图;再将不同的第二特征图进行融合生成融合特征图。
如图29所示,可以对图像(如图中所示的w×h×3的图像)进行降采样(如图中所示的卷积神经网络+降采样*1/4)得到1/4w×1/4h×c1的降采样特征图(也称为第一特征图),对1/4w×1/4h×c1的第一特征图进行降采样(如图中所示的降采样*1/2)得到1/8w×1/8h×c2的降采样特征图(也称为第一特征图),对1/8w×1/8h×c2的降采样特征图进行空洞卷积(如图中所示的空洞卷积Conv+BN+RELU),得到第一空洞卷积图(也称为第一特征图);对第一空洞卷积图再进行一次空洞卷积(如图中所示的空洞卷积Conv+BN+RELU),得到第二空洞卷积图(也称为第一特征图);对1/4w×1/4h×c1的第一特征图进行特征提取生成1/4w×1/4h×c1的第二特征图,即图中所示的将1/4w×1/4h×c1的第一特征图输入到图嵌入模型;将1/8w×1/8h×c2的第一特征图进行特征提取生成1/8w×1/8h×c2的第二特征图,即图中所示的将1/8w×1/8h×c2的第一特征图输入到图嵌入模型;将第一空洞卷积图进行特征提取,得到对应的第二特征图,同样的,将第一空洞卷积图输入到图嵌入模型;对第二空洞卷积图进行特征提取得到对应的第二特征图,将第二空洞卷积图输入到图嵌入模型得到对应的第二特征图;对第二空洞卷积图对应的第二特征图进行resize(对应图中的Conv+BN+RELU),并将resize后的第二特征图与第一空洞卷积图对应的第二特征图进行融合,即图中所示的逐像素相加,得到与第一空洞卷积图对应的融合特征图;将与第一空洞卷积图对应的融合特征图进行resize(对应图中的Conv+BN+RELU)后与1/8w×1/8h×c2的第二特征图进行融合,即图中所示的逐像素相加,得到与1/8w×1/8h×c2的第一特征图对应的融合特征图;将1/8w×1/8h×c2的融合特征图进行上采样(如图中所示的上采样*2),并与1/4w×1/4h×c1的第二特征图进行融合,即图中所示的逐像素相加,得到1/4w×1/4h×c1的融合特征图;将1/4w×1/4h×c1的融合特征图进行上采样到原始图像大小,得到分类掩码图。
图28和图29中的图嵌入模型,为改进后的图卷积网络,具体对于图嵌入模型将在下文进行详细阐述。
上述实施例中,通过进行至少一次降采样,可以将不同尺度的特征进行融合,提高特征的表达能力,此外,采用多阶段融合的方式,低尺度特征的计算量要比高尺度特征的计算量小很多,不仅可以融合多尺度的特征,而且计算量更小。
上述实施例中,通过对图像进行降采样得到降采样特征图,再对降采样特征图进行分类得到分类特征图,基于不同尺度的分类特征图生成分类掩码图,在其他实施方式中,对图像进行降采样之后,还可以进行空洞卷积。
本申请实施例的一种可能的实现方式,至少一个尺度的特征图包括降采样特征图和卷积特征图;步骤S1810b的对待处理图像进行至少一次降采样,得到对应的至少一个尺度的特征图,可以包括:
(1)对待处理图像进行至少一次降采样,得到至少一个降采样特征图;
(2)对尺寸最小的降采样特征图进行至少一次空洞卷积,得到至少一个卷积特征图。
其中,空洞卷积(Dilated/Atrous Convolution),广泛应用于语义分割与目标检测等任务中,多次降采样会导致深层的特征丢失丰富的细节信息,尤其对于原始图像中孔洞造成的影响更大。因此本申请在对原始图像进行至少一次降采样后可以不再进行降采样操作,固定特征图的尺寸,可以保留特征更多的细节特征。本申请对深层的特征图使用空间卷积以此来获得更大的感受野。图30(a)-(c)为空洞卷积示意图。
其中,图30(a)表示常规的3×3卷积,其感受野为3×3的区域,图30(b)表示空洞为1的3×3空洞卷积,由图30(b)可知,虽然卷积核的大小为3×3,但是感受野为7×7,由此可知空洞卷积可以增大卷积感受野。图30(c)采用空洞为3的空洞卷积,其感受野范围会更大。
本实施例中,采用空洞卷积可以在不进行降采样损失细节信息的前提下增大感受野,提取的特征更加丰富。
如图31所示,不同尺度的特征感受野不同,尺度越小的特征感受野越大。图31中conv1一个像素映射到原始图像raw image中对应的是9个像素,如果conv1中使用3×3的卷积,也就是9个像素值,则对应到原始图像中区域是7×7的大小;如果conv2中使用3×3的卷积,也就是9个像素值,则对应到原始图像中区域是15×15的大小。由此可知,随着神经网络层数的加深和降采样的操作,提取到的特征的感受野也越来越大,可以从更大的视角去判断某个像素是否是模糊的。
虽然随着网络层数的加深,特征的感受野随着增大,但是其3×3的卷积核毕竟还是局部的感受野,对于图像中的孔洞问题从局部的视角去判断,可能会出现判断错误的清楚发生。还有模糊边界是一种由清晰到模糊平缓过度的过程,而不是断崖式的边界问题,因此局部的感受野对于模糊边界的准确判断显得力不从心。因此本申请提出一种基于图卷积神经网络的图嵌入模型,对图像的每个像素根据特征的相似度建立全局图结构,从全局的角度去某个像素是否是模糊像素。在每个特征图如果使用较小的卷积核,则感受野非常小,如图31中图像内的方框所示,通过局部的感受野很难判断该像素是否是模糊像素类别。而使用基于图的全局感受野,通过像素之间的特征相似度可以提高识别的准确率,可以一方面有效解决孔洞内的模糊区域不能被识别的问题,另一方面可以更为准确地判断模糊边界。
本申请对现有的图卷积网络进行改进,以下将结合实施例进一步阐述基于改进后的图卷积网络生成分类特征图的具体过程。
本申请实施例的一种可能的实现方式,针对至少一个第一特征图,进行特征提取,得到对应的第二特征图,可以包括:
(1)确定第一特征图上的像素点之间的连接关系,基于所确定的连接关系生成与第一特征图对应的邻接矩阵。
具体的,确定第一特征图上的像素点之间的连接关系,基于所确定的连接关系生成与第一特征图对应的邻接矩阵,可以包括:
a、对第一特征图进行通道降维,得到降维特征图;
b、对降维特征图进行不同的维度调整得到第四特征图和第五特征图;第四特征图和第五特征图互为转置矩阵;
c、对第四特征图和第五特征图进行矩阵相乘得到邻接矩阵。
具体的,可以对输入特征进行1×1卷积操作实现通道降维,从而减少模型参数和计算量。
(2)基于邻接矩阵和第一特征图确定第二特征图。
具体的,基于邻接矩阵和第一特征图确定第二特征图,可以包括:
e、调整第一特征图的维度得到第三特征图;
f、基于邻接矩阵和第三特征图确定第二特征图。
例如,针对尺寸为w×h×c的第一特征图,可以将维度调整为(w*h)×c,其中,(w*h)可以看作一个整体维度。
具体的,基于邻接矩阵和第三特征图确定第二特征图,可以包括:
f1、将邻接矩阵和第三特征图进行矩阵相乘得到第六特征图;
f2、将第三特征图与第六特征图在通道维度进行拼接,得到拼接特征图;
f3、基于拼接特征图生成第二特征图。
具体的,基于拼接特征图生成第二特征图,可以包括:
对拼接特征图乘以预设权重并进行偏置,得到第二特征图。
以下将结合具体示例对上述的改进后的图卷积网络进行进一步阐述。
在一个示例中,改进后的图卷积网络可以称为图嵌入模块,图嵌入模块的结构如图32所示,将不同尺度的特征作为图嵌入模块的输入计算当前尺度特征图的分类特征图,即包含特征图的全局信息,并作为输出传递到一层神经网络中。其中w表示特征图的宽度,h表示特征图的高度,c表示特征图的通道数,w×h×c表示该输入是宽为w,高为h,通道数为c的特征图。表示矩阵乘法,表示在通道为将两个特征进行拼接,表示特征图与权重w和偏置b的计算过程,其具体公式为:
y=x*w+b (1)
在图嵌入模块中,首先对输入特征进行1x1卷积操作实现通道降维,从而减少模型参数和计算量。变换后的特征进行矩阵相乘得到邻接矩阵A,其中邻接矩阵A中的每一个元素表示每两个像素特征之间的相似度,该邻接矩阵是一种带权重邻接矩阵。然后通过邻接矩阵A与变换后的输入特征进行图卷积计算。具体的,输入w×h×c的第一特征图,进行调整维度后得到(w*h)×c的第三特征图;并基于1×1×c×c/2的卷积进行通道降维得到w×h×c/2的降维特征图;对降维特征图分别进行维度调整,得到互为转置矩阵的(w*h)×c/2的第四特征图和c/2×(w*h)的第五特征图;基于第四特征图和第五特征图生成(w*h)×(w*h)的邻接矩阵A,再将(w*h)×(w*h)的邻接矩阵A和(w*h)×c的第三特征图相乘得到(w*h)×c的第六特征图;再将(w*h)×c的第三特征图和(w*h)×c的第六特征图在通道维度进行拼接,得到(w*h)×c的拼接特征图;基于拼接特征图生成第二特征图。
转导学习在训练GCN网络模型过程中,训练数据和测试数据是已知的,也就是说,训练数据中包含测试数据。因为在训练过程中测试数据是已知的,因此其不能推广至未知的数据,也就是说其在未知的数据集上表现效果较差。本申请不直接学习特征嵌入表示,而是通过学习一种特征聚合方式,使其在未知的数据集上同样具有较好的性能。计算公式如下:
其中,表示输入特征的特征矩阵,对于第一层输入特征矩阵为Nf,表示下一层的特征表示,N=w*h表示节点的数量,Din/Dout表示输入/输出的特征维度。是聚合邻居节点后的特征表示。g(A,X(l))=Λ(-1/2)AΛ(-1/2)·X(l),其中g(·)是关于A和X(l)的聚合函数,其中A是图的邻接矩阵。||表示将聚类的邻居节点和自身节点在特征维度上做concatenation。W(l)和b(l)分别表示第l层的权重和偏置。σ是非线性激活函数,在本申请中可以使用ReLU(Rectified Linear Unit,线性整流函数)激活函数。
上述实施例阐述了本申请中改进后的图卷积模型的结构和获取分类特征图的具体过程,以下将结合附图和具体实施例阐述确定模糊检测结果的具体过程。
本申请实施例的一种可能的实现方式,步骤S1802的基于分类掩码图确定图像的模糊检测结果,可以包括:
(1)基于分类掩码图确定图像中的模糊区域在图像中的占比。
具体的,基于分类掩码图确定图像中的模糊区域在图像中的占比,可以包括:
将分类掩码图中模糊像素的数量与图像中像素的总数量的比值确定为模糊区域在图像中的占比。
具体的,可以采用像素统计法统计模糊像素的数量,得到模糊区域的面积,将图像中像素的总数量作为图像的面积,将模糊像素的数量除以图像中像素的总数量,得到模糊区域在图像中的占比。
(2)若占比大于预设阈值,则模糊检测结果为图像为模糊图像。
具体的,若占比大于预设阈值,可以认为图像中模糊区域较多,则图像为模糊图像;若占比小于或等于预设阈值,可以认为图像中模糊区域较少,则图像为清晰图像。
上述实施例阐述了确定模糊检测结果的具体过程,以下将阐述图像处理方法的具体应用场景。
本申请实施例的一种可能的实现方式,还包括:
若模糊检测结果为图像为模糊图像,基于分类掩码图确定图像的模糊区域的位置。
具体的,分类掩码图中包含有清晰像素和模糊像素的具体位置,可以根据分类掩码图中不同类型像素的分布确定图像的模糊区域的位置。
在实际应用中,确定出模糊区域的位置后,可以对模糊区域进行恢复,使模糊像素变清晰,得到清晰图像。
以下将结合附图和实施例进一步阐述针对图像的模糊区域进行恢复得到清晰图像的过程。
现阶段手机等移动式设备的主摄像头均采用长焦摄像头,则会存在拍摄近处的物体时,远处的物体处于失焦状态;拍摄远处的物体时,近处的物体处于失焦模糊问题。为了将模糊区域恢复至清晰的状态,本申请在上述模糊检测的基础上,对原始图像进行去模糊处理。
本申请实施例的一种可能的实现方式,检测到图像的模糊区域的位置后,还可以包括:
(1)对所述图像进行去模糊处理,得到第一恢复图。
其中,第一恢复图是针对整个图像进行去模糊处理得到的图像,不仅对图像中的模糊区域进行了去模糊处理,对图像中的清晰区域也可能进行了去模糊处理,但针对清晰区域进行去模糊处理后得到的像素可能并不如原来的清晰程度,因此,还需要对第一恢复图进行处理得到最终处理后的图像,具体去模糊的过程将在下文进行详细阐述。
(2)基于分类掩码图,提取所述图像中清晰区域的清晰像素。
具体的,可以基于分类掩码图确定图像的模糊区域的位置,进而基于模糊区域的位置确定清晰区域的位置,从而提取清晰区域的清晰像素。
(3)将所述第一恢复图中对应清晰区域位置的像素替换为所述清晰像素,得到第二恢复图。
本申请实施例的一种可能的实现方式,在不依赖于模糊检测的基础上,可以包括:
(1)对图像进行去模糊处理,得到第一恢复图。
(2)提取图像中清晰区域的清晰像素。
(3)将第一恢复图中对应清晰区域位置的像素替换为清晰像素,得到第二恢复图。
具体的,第一恢复图中的清晰区域位置的像素进行去模糊后,得到的像素的清晰度可能不如图像中的清晰像素,将第一恢复图中对应清晰区域位置的像素替换为所述清晰像素,得到最终处理后的第二恢复图,其中,第二恢复图中的清晰区域的像素为图像中的清晰区域的像素,第二恢复图中的模糊区域的像素为图像中的模糊区域进行去模糊处理后的像素。
以下将结合附图和具体实施例阐述对图像进行去模糊处理的过程。
在一可行的实施例中,对图像进行去模糊处理得到第一恢复图,包括:
对图像进行特征提取,得到第一提取特征;
基于第一提取特征,通过至少一个恢复处理模块进行恢复处理,得到第一恢复图。
下面结合图37对包含至少一个恢复处理模块的重建模块进行说明。
具体的,重建模块中可以包含多个恢复处理模块,恢复处理模块也可以称为多尺度特征提取模块或多尺度残差组模块(Multi-Scale Residual Group Module,MSRGM),排序在后的模块对排序在前的模块提取的特征和去模糊的结果(即恢复特征)进行更精细化的调整,逐渐提高去模糊的效果。
在一可行的实施例中,若包含至少两个恢复处理模块,则通过至少一个恢复处理模块进行恢复处理,得到第一恢复图,包括:
使用级联的至少两个恢复处理模块进行恢复处理,得到第一恢复图。
如图37所示,多个多尺度特征提取模块级联设置,后面的MSRGM是对前面的MSRGM提取的特征进行重新学习和更精细化的调整。
在一可行的实施例中,任一恢复处理模块进行恢复处理,包括:
基于恢复处理模块的输入特征,在预设的各尺度中进行尺度选择;
基于输入特征,按照所选择的尺度进行特征提取,得到对应的尺度特征;
基于尺度特征确定并输出对应的恢复特征。
在一个示例中,结合图38对各多尺度残差组模块进行恢复处理的具体过程进行说明。
其中,MSRGM主要是由残差组模块(Residual Group Module,RGM)和多尺度特征注意力模块(Feature Map Attention Module)构成。MSRGM主要包括三个尺度的特征信息,因为对图像特征进行更小尺度的将采用会导致特征丢失更多的信息,对去模糊效果有负面影响。在每个尺度上都采用残差组模块(RGM)提取特征,并对提取的多尺度特征进行融合。融合方式有两种,一种是在通道维度上进行拼接(concatenation),另外一种方式是对应位置像素相加(element-wise addition)。如图38所示,输入MSRGMDE输入特征大小为H/4*W/4*C,其经由第一个RGM提取特征,此外,对输入特征进行两种尺度的下采样后可以得到H/8*W/8*C的特征以及H/16*W/16*C的特征,分别经过第二个RGM和第三个RGM进行特征提取,提取出的特征进行上采样处理后,再和第一个RGM提取的特征以及输入特征进行融合得到H/4*W/4*4C的特征(可以称为尺度特征),将该尺度特征输入到多尺度特征注意力模块。
融合后的特征中,有的特征中包含非常少的信息或者包含噪声信息,会导致去模糊的效果不理想。如图39所示,特征1是噪声特征,特征2和3是含有丰富的有用的特征。如果使用噪声特征来对图像进行去模糊(基于相关技术中的数字预失真网络DPDNet去模糊),去模糊的性能将会下降。因此本申请提出了自适应特征选择模块(即多尺度特征注意力模块),如果多尺度特征中包含噪声信息,则针对多尺度特征进行通道选择处理,剔除掉噪声信息,获得恢复特征,以实现更好的去模糊效果。
具体地,基于尺度特征确定并输出对应的恢复特征,包括:在尺度特征的各通道中进行通道选择;基于选择出的通道对应的通道特征确定并输出对应的恢复特征。
如图38所示,多尺度特征注意力模块通过平均池化(AvgPoll)、1*1卷积以及非线性变换操作(对应图中的该操作是激活函数)来进行通道注意力处理,再与上述尺度特征进行相乘,从而在尺度特征的各通道中进行了通道选择,多尺度特征注意力模块输出的特征可以再经过一个1*1的卷积操作得到恢复特征。
在某些计算资源有限的平台中,本申请也会考虑省掉自适应特征选择模块来提高网络的运行速度,虽然会牺牲一些性能。如图40所示,不包含自适应特征选择模块的多尺度残差组模块。
考虑到不同图像的模糊区域分布不同。如果在不同分布的模糊图像中使用相同的多尺度特征提取模块,模型的鲁棒性会很差,导致结果是对于某种模糊分布的去模糊效果非常好,而对另外一种模糊分布的效果非常差。因此,本申请还提出一种自适应多尺度残差组模块(即动态多尺度残差组模块,Dynamic Multi-Scale Residual Group Module,DMSRGM),如图41所示。本申请设置三个可学习参数(A、B、C),根据输入图像自适应地选择特定的一个或多个尺度来进行去模糊处理,以提高去模糊性能。
而在考虑省掉自适应特征选择模块来提高网络的运行速度时,可以应用如图42所示,不包含自适应特征选择模块的动态多尺度残差组模块。
在具体应用中,如图43(a)所示,对于未知输入,先在第二尺度(Scale)上执行去模糊处理。由于去模糊图像包含了大量的细节信息(来自第一个DMSRGM的去模糊图像),因此本申请可以选择小尺度的图像进行恢复。通过后面的模块对前面模块提取的特征和去模糊的结果进行更精细化的调整,去模糊图像会随着网络的加深变得越来越清晰。而为了恢复高质量的图像,可以在最后一个模块中使用大的尺度以保留和恢复更清晰的图像。另,考虑到一些特征通道对去模糊有不良影响,本申请还通过多尺度特征注意力模块减少噪声通过对去模糊的影响,如图43(b)所示。
下面结合图44a和图44b对多尺度残差组模块的结构进行说明。
如图44a所示,残差组模块(Residual Group Module,RGM)是多尺度残差组模块的基本构成单元,其主要由多个残差块模块(Residual Block Module,RBM)组成。残差块模块(Residual Block Module,RBM)是由多个残差模块构成。如图44b所示,残差模块包含两个卷积操作(如卷积核大小为3x3的卷积操作,对应图中的3x3)和一个激活函数(ReLU)构成一个子模块。
本申请提出采用多尺度残差组模块(MSRGM)来融合不同尺度的特征,以提高模型的表达能力和鲁棒性。但是,不同尺度和不同通道的特征对去模糊结果的影响不同,有些通道特征对去模糊结果有不利影响。本申请利用多尺度特征注意力网络关注信息更丰富的特征,而忽略那些效率较低的特征。
在一可行的实施例中,通过至少一个恢复处理模块进行恢复处理,得到第一恢复图,包括:
对最后一个恢复处理模块输出的恢复特征进行升维操作,得到第一恢复图。
如图33a和图33b所示,在基于重建模块(恢复处理模块)进行恢复处理获得恢复特征后,还可以采用上采样模块对恢复特征进行升维操作,得到输出的第一恢复图。
在一可行的实施例中,如图33a和图33b所示,还包括:
基于第一提取特征中像素点之间的相似性,确定相似矩阵;
基于分类掩码图中清晰像素与模糊像素,确定对应的掩码矩阵;
基于相似矩阵和掩码矩阵,确定掩码特征,将掩码特征输入到恢复处理模块中进行恢复处理。
具体地,如图33a和图33b所示,在将第一提取特征输入重建模块进行处理之前,还可以将第一提取特征先输入基于掩码的注意力模块进行处理得到掩码特征后,将掩码特征作为重建模块的输入。
下面结合图33b对本申请实施例对图像进行去模糊处理所采用的去模糊神经网络结构进行说明:
去模糊神经网络结构主要由4部分内容构成:特征提取模块(还可以称为降采样模块),基于掩码的注意力模块,重建模块和上采样模块。
其中,特征提取模块可以提取输入图像的多尺度特征和降采样以加快神经网络的速度。具体的,可以对图像进行设定倍数(如可以为16倍)的降采样,上述降采样可以通过设定步长(如步长为2)的卷积操作或者池化操作进行,通过降采样加快网络推理速度。同时降采样会损失大量的细节信息,因此本申请对降采样后的特征进行设定倍数(如4倍)上采样。一方面保护输入特征更多的细节信息,另一方面可以加快网络的速度。
基于掩码的注意力模块可以是使用清晰区域的像素来增强模糊区域的像素,同时清晰区域的像素不被模糊区域的像素破坏,以此来提高去模糊的效果。
重建模块可以是有多个多尺度特征提取模块组成,排序在后面的模块对排序在前面的模块提取的特征和去模糊的结果进行更精细化的调整,逐渐提高去模糊的效果。
上采样模块主要可以是将对去模糊后的图像恢复至原始输入尺寸。
下面结合图34对去模糊神经网络结构中基于掩码的注意力模块的具体实施方案进行说明(具体应用于对第一提取特征进行掩码处理,得到掩码特征)。
如图34所示,模糊图像中包含清晰区域和模糊区域,在有的区域具有相似的属性,例如在(a)右边的四个方框内是清晰的树干,相应左边的一个方框内是模糊的树干,因为其语义属性都表示树干,因此可以使用清晰的树干来增强模糊的树干从而可以提高去模糊的效果。但是这种作用是相互的,即清晰的像素可以增强模糊的像素,但是模糊的像素同样会破坏清晰的像素。如图(b)中,右边方框表示清晰的树干,但是被模糊的像素破坏掉了。因此本申请提出了一种基于掩码的注意力模块,该模块可以使用清晰的像素来增强模糊的像素,但是清晰的像素不会被模糊的清晰破坏掉。其中,模糊掩码图是由模糊检测网络产生,可以为上述的分类掩码图;如图34中(c)所示,模糊检测产生的模糊掩码图(c)用于删除图像中的模糊区域,以避免模糊区域对清晰区域的影响。
具体地,基于相似矩阵和掩码矩阵,确定掩码特征,包括:
将相似矩阵和掩码矩阵进行相乘,得到掩码相似矩阵;
将掩码相似矩阵和第一提取特征进行相乘,得到掩码特征。
具体地,如图35所示,①中针对特征图(第一提取特征)通过计算像素之间的相似度确定相似矩阵。该操作的处理可以实现通过清晰像素增强模糊像素,但模糊像素将损害清晰像素。②中为了用清晰像素增强模糊像素,同时又不被模糊像素破坏,提出了一种掩码矩阵。
其中,掩码矩阵中的任一值表征分类掩码图中的第一像素点和第二像素点之间的关系,当第一像素点为清晰像素,且第二像素点为模糊像素时,掩码矩阵中对应的值为0。
在掩码矩阵中,本申请使用(i,j)=1表示i和j之间存在关系(第一像素点和第二像素点之间的关系)。因此,本申请根据模糊掩码设置清晰像素与模糊像素之间的关系:(blur,clear)=1,(clear,blur)=0。其中,(blur,clear)=1表示可以使用清晰像素来增强模糊像素(第一像素点为模糊像素,第二像素点为清晰像素),(clear,blur)=0表示模糊像素不会破坏清晰像素(第一像素点为清晰像素,第二像素点为模糊像素)。图35的③中利用掩码矩阵删除相似矩阵中清晰像素和模糊像素之间的关系,得到掩码相似矩阵。图35的④中通过掩码相似矩阵与第一提取特征的相乘处理,可以使清晰像素来增强模糊像素,而清晰像素不被模糊像素破坏,并最终输出掩码特征。
下面结合图36对基于掩码的注意力模块的具体处理操作进行说明:如图36所示,可以将查询特征输入至卷积操作(如卷积核大小为1x1的卷积操作,对应图中的1x1conv)中进行降维,并通过改变尺寸(resize)操作变成(h*w)x(c/2)的矩阵,其中w表示特征图(对应上述实施例中的第一提取特征)的宽度,h表示特征图的高度,c表示特征图的通道数;键值特征分别通过两个卷积操作(如卷积核大小为1x1的卷积操作,对应图中的1x1conv),分别得到键值特征(c/2)x(h*w)和值特征(h*w)x c;计算查询特征和键值特征之间的相似度,得到两个特征在像素维度的相似矩阵,如图36所示,将(h*w)x(c/2)的矩阵与(c/2)x(h*w)的矩阵进行矩阵乘法操作,图中的表示矩阵乘法,再经过激活函数(如softmax函数)得到相似矩阵(w*h)x(w*h),图中的表示激活函数。
相似矩阵中既包含了清晰像素增强模糊像素的关系,也包含了清晰像素被模糊像素破坏的关系。因此,本申请根据模糊掩码图像(掩码图,对应上述实施例中的对图像进行模糊检测得到的分类掩码图)将清晰像素与模糊像素之间的关系设置为0,也就说明清晰像素不会受到模糊像素的影响。在掩码矩阵中,将(clear,blur)=0表示模糊的像素不会破坏清晰的像素,将其他的关系设置为1。利用掩码矩阵删除相似矩阵中清晰像素和模糊像素之间的关系,得到掩码相似矩阵。将掩码相似矩阵与(h*w)x c的矩阵进行矩阵乘法操作,再进行resize操作得到w x h x c的特征图,最后通过一个卷积操作(对应图中1x1conv)得到对融合后的特征(掩码特征),该特征中的模糊像素可以被清晰的像素增强,而清晰的像素不会被破坏掉,从而提高了去模糊的效果。
在本申请实施例中,去模糊处理的算法流程可以单独实施,也即直接针对输入图像进行去模糊处理,如图33b所示;可选地,去模糊处理的算法流程还可以结合模糊检测算法进行实施,也即先进行模糊检测后进行去模糊处理,如图33a所示。
下面,结合图33a,针对本申请所采用模糊检测和去模糊的算法的整体流程进行说明。
1.将图像输入至图像模糊检测网络,获取模糊检测的分类掩码图;
2.判断该输入图像是否模糊,如果图像是清晰,则直接输出;否则,将图像输入至去模糊模块;
3.去模糊模块(也叫MRNet,Multi-refinement Net)将输入的模糊图像恢复至清晰状态。其中,MRNet主要由降采样模块、基于掩码的注意力机制模块、重建模块和上采样模块组成。
3.1.降采样模块通过多次降采样操作来加速神经网络的运行速度,另一方面用来提取输出的模糊图像的上下文信息增强特征的表达能力;
3.2.基于掩码的注意力机制模块通过模糊检测产生的掩码图像来使清晰的像素增强模糊的像素,而不会被模糊的像素所破坏,从而提高去模糊的质量;
3.3.重建模块主要是由多个多尺度特征提取模块构成,目的是恢复模糊图像至清晰状态,其中后面的模块是对前面恢复的特征进行更精细化的调整以逐步恢复图像。
3.4.上采样模块是将重建后的特征恢复至原始维度输出去模糊的图像。
具体地,在本申请中,仅针对一张图像进行去模糊的方案可以称为Single-MRNet(Single-Multi-refinement Net,单一输入的多次精细化调整网络)。
本申请实施例的一种可能的实现方式,对所述图像进行去模糊处理,得到第一恢复图,可以包括:
a、获取所述图像的孪生图像;所述孪生图像的像素与所述图像的像素在空间位置上的偏差小于预设偏差值。
其中,孪生图像可以是和图像完全相同的图像,也可以是和图像不同的图像。
在一种实施方式中,可以根据同一摄像头模组得到图像和孪生图像,目前的摄像头模组中接收光的传感器可能由左右两个光电二极管组成,因此会拍摄相对应的两张图像,即拍摄得到图像和孪生图像。左右传感器存在位置上的偏差,会导致拍摄的图像和孪生图像的像素在空间位置上存在较小的偏差。
b、基于孪生网络对所述图像和所述孪生图像分别进行特征提取,得到第一提取特征和第二提取特征。
具体的,孪生网络对图像和孪生图像进行特征提取的过程中,孪生网络的权值共享。
c、将第一提取特征和第二提取特征进行特征对齐,得到对齐后特征。
具体的,可以通过降采样和池化操作进行特征对齐,也可以进行全局特征对齐。
在一种实施方式中,将第一提取特征和第二提取特征进行特征对齐,得到对齐后特征,可以包括:
对所述第一提取特征和第二提取特征分别进行降采样,可以通过池化操作或卷积操作进行降采样,以进行特征对齐,得到所述对齐后的特征。
具体的,可以对图像和孪生图像进行设定倍数(如可以为16倍)的降采样,上述降采样可以通过设定步长(如步长为2)的卷积操作或者池化操作进行,通过降采样可以消除偏差,对左右两张图像进行对齐。同时降采样会损失大量的细节信息,因此本申请对降采样后的特征进行设定倍数(如4倍)上采样。一方面保护输入的特征的更多的细节信息,另一方面可以加快网络的速度。
在另一种实施方式中,将第一提取特征和第二提取特征进行特征对齐,得到对齐后特征,可以包括:
c1、将所述第一提取特征和第二提取特征中的任一特征设为查询特征,另一特征设为键值特征。
具体的,可以将第一提取特征设为查询特征,将第二提取特征设为键值特征;也可以将第二提取特征设为查询特征,将第一提取特征设为键值特征。
c2、将查询特征融合到键值特征中,得到所述对齐后的特征。
具体的,将查询特征融合到键值特征中,得到所述对齐后的特征可以包括:
①从查询特征中查询与所述键值特征相似的近似特征,将所述近似特征与所述键值特征融合得到融合特征;
②将所述查询特征中的所述近似特征替换为所述融合特征,获取所述对齐后的特征。
如图45所示,可以将查询特征输入至卷积操作(如卷积核大小为1x1的卷积操作,对应图中的1x1conv)中进行降维,并通过改变尺寸(resize)操作变成(h*w)x(c/2)的矩阵,其中w表示特征图的宽度,h表示特征图的高度,c表示特征图的通道数;键值特征分别通过两个卷积操作(如卷积核大小为1x1的卷积操作,对应图中的1x1conv),分别得到键特征(c/2)x(h*w)和值特征(h*w)x c;计算查询特征和键值特征之间的相似度,得到两个特征在像素维度的相似度矩阵,如图28所示,将(h*w)x(c/2)的矩阵与(c/2)x(h*w)的矩阵进行矩阵乘法操作,图中的表示矩阵乘法,再经过激活函数(如softmax函数)得到相似度矩阵(w*h)x(w*h),图中的表示激活函数;最后通过相似度矩阵将查询特征融合到键值特征中,一方面对特征提取模块提取的左右特征进行对齐,另一方面提高了特征的表达能力。如图45所示,将相似度矩阵与(h*w)x c的矩阵进行矩阵乘法操作,再进行resize操作得到w x hx c的特征图,最后通过一个卷积操作(对应图中1x1conv)得到对齐后的特征。
d、基于对齐后的特征进行去模糊处理,得到所述第一恢复图。
其中,去模糊处理可以采用上述实施例所提供的方法,如一种方法是对对齐后的特征进行特征重建,得到第一恢复图;进一步地,可以在特征重建后输出恢复特征,并对恢复特征进行升维操作,得到第一恢复图;另,还可以将对齐后的特征先输入基于掩码的注意力模块进行掩码处理,得到掩码特征后,将掩码特征输入重建模块(如图33a或图33b所示方法流程)。
具体的,可以基于重建模块对特征进行重建,重建模块用于对对齐后的特征进行重建使其恢复至清晰的状态,重建模块可以由多个子模块构成,每一子模块可以包括卷积层和激活函数,如图44b所示,两个卷积操作(如卷积核大小为3x3的卷积操作,对应图中的3x3)和一个激活函数(ReLU)构成一个子模块,例如每个子模块包括一个3x3的卷积操作,一个激活函数(ReLU)和一个3x3的卷积操作,再由多个子模块构成重建模块。
本申请实施例的一种可能的实现方式,所述对所述图像和所述孪生图像分别进行特征提取,得到第一提取特征和第二提取特征,包括:
对所述图像和所述孪生图像分别降维操作后进行特征提取,得到第一提取特征和第二提取特征。
具体的,在特征提取之前,可以先进行降维操作,以加快网络的推理速度。
所述对所述对齐后特征进行特征重建,得到所述第一恢复图,可以包括:
d1、对所述对齐后特征进行特征重建,得到重建特征;
d2、对所述重建特征进行升维操作,得到所述第一恢复图。
具体的,升维操作可以包括上采样操作、反卷积、最近邻插值等多种方式,使重建特征的维度与图像的维度相同。
由于去模糊算法的鲁棒性问题会导致图像中本来清晰的区域受到模糊区域的影响,导致原本清晰的区域变的模糊。如图46所示,图46中左边为图像,右边为图像中的清晰区域;图47为对图46进行去模糊后的图像,可以看到对图像进行去模糊后,原本清晰的区域反而变得更加模糊。
因此,本申请可以采用先将图像进行去模糊得到第一恢复图,再根据第一恢复图和图像中的清晰区域得到最终的第二恢复图;还可以将图像的模糊区域和清晰区域分割开,只对模糊区域进行去模糊操作。
上述实施例是对图像进行去模糊处理,再结合图像中的清晰像素得到第二恢复图像,在另一种实施方式中,还可以仅对图像中的模糊区域进行去模糊处理。
具体地,在本申请中,针对孪生网络对应的双输入进行去模糊的方案可以称为Dual-MRNet(Dual-Multi-refinement Net,双输入的多次精细化调整网络)。
在一可行的实施例中,本申请提出另外一种特征提取的实现方式。将基于卷积神经网络的特征提取模块替换成transformer的架构来提升模型的表达能力。Transformer相比卷积神经网络具有全局的感受野,可以提取输入图像的全局特征。同时具有非常的强的特征表达能力。但是Transformer需要大量的数据来训练,如果数据量较小则训练效果并不如卷积神经网络。而卷积神经网络具有较强的归纳偏置特性,即使在小的数据集上也有较强的拟合能力。因此,在本申请中将transformer和CNN进行结合来提高图像去模糊的性能。如图48所示,基于transformer的图像去模糊神经网络架构。本申请提出的架构既可以利用transformer强大的特征提取能力的优势,又可以利用CNN较强的拟合能力,从而进一步提高去模糊效果。
如图49所示,基于transformer的图像去模糊神经网络架构可以是由基于transformer的特征提取模块和现有的基于多尺度的特征重建模块组成。Transformer被用来提取更为丰富的特征,而重建模块则使用更好的特征来将模糊图像恢复至清晰状态。
具体地,对所述图像进行特征提取,得到第一提取特征,包括:
(1)确定所述图像对应的至少两个特征块(patch);具体可以将图像等分成多个特征块。
(2)采用一维向量表示各特征块的特征,得到各特征块对应的特征向量(又称为token);
(3)在由多个特征向量组成的特征矩阵中进行特征提取,得到提取向量特征;
(4)对提取向量特征进行特征重建,得到第一提取特征。
具体地,将多个token组成的特征矩阵通过transformer模块提取特征。
其中,transformer模块是由多个子transformer块组成。Transformer可以是由多头注意力模块(Multi-Head Attention)、层归一化(Layer Normalization)、前馈神经网络(Feed Forward Network)组成。
可选地,在由多个特征向量组成的特征矩阵中进行特征提取,得到提取向量特征,包括:
基于由至少两个特征向量组成的特征矩阵中各特征向量之间的相似性,确定向量相似矩阵;
基于向量相似矩阵针对特征向量进行融合、前馈以及归一化处理,得到提取向量特征。
其中,如图49所示,输入的嵌入特征(特征向量)先通过多头注意力模块计算每个token之间的相似性,再通过向量相似矩阵对不同嵌入特征进行信息融合;融合后的特征经过层归一化后与输入的嵌入特征相加;再通过前馈神经网络和层归一化完成特征提取。
而相关技术的transformer中计算量最大的部分是多头注意力模块(Multi-HeadAttention),因此本申请对相关技术中的多头注意力模块(Multi-Head Attention)进行改进,提出一种基于窗口的多头注意力模块(Window Multi-Head Attention)。其具体实现是将每个特征进行分块处理,在每个块中进行多头注意力计算。但是这种分块策略会导致每个窗口之间的信息没有进行交流,因此本申请在下一个transformer block中先对特征进行降采样(即patch merging),然后采用相同的基于窗口的多头注意力模块提取特征。在降采样后本申请虽然使用相同大小的窗口,但是其感受野会变得更大,这样原本没有进行交流的信息也会得到交流。最后将上一个transformer block提取的特征和patch merging后的信息进行融合。
可选地,图49中的transformer是后归一化,但上述实施例的方案也可以使用图50中的先归一化方式。
其中,基于上述实施例提供的重建模块进行特征重建,而重建模块采用上述提到的多尺度特征提取模块的任何一种形式均可以。
本申请实施例的一种可能的实现方式,确定图像中的模糊区域的位置后,还可以包括:
(1)基于所确定的模糊区域的位置将所述图像分割为模糊区域和清晰区域;
(2)对所述模糊区域进行去模糊处理,得到第三恢复图;
(3)基于所述清晰区域和所述第三恢复图获取第四恢复图。
具体的对模糊区域进行去模糊处理的过程,可以与上述实施例中对图像进行去模糊处理的过程相同,在此不作赘述。
具体的,可以将模糊区域和第三恢复图进行拼接,得到最终与图像对应的去模糊后的第四恢复图。
如图51a-图51b所示,图51a为模糊检测结果示意图;图51b为采用上述去模糊方法得到的第二恢复图或第四恢复图的示意图,可以看出先确定模糊区域的位置,然后采用本申请的去模糊的处理方法后,得到的最终的恢复图中模糊区域变得清晰,原来清晰区域也维持原有的清晰度。
为了更清楚的阐述上述的去模糊过程,以下将结合附图和示例进行进一步说明。
如图52a所示,在一个示例中,可以采用去失焦模糊神经网络进行图像去模糊,去失焦模糊神经网络可以由4个模块组成:特征提取模块,注意力模块;重建模块和上采样模块。
本申请的图像去模糊的过程,可以包括如下步骤:
1)获取图像的孪生图像,图像对应图中所示的“左”图像;孪生图像对应图中所示的“右”图像;
2)基于特征提取模块对图像和孪生图像分别进行特征提取,即分别对左图像和右图像进行特征提取;
3)基于注意力模块对提取的特征进行特征对齐得到对齐后的特征;注意力模块的神经网络结构可以如上述的图45所示;
4)基于重建模块对对齐后的特征进行重建得到重建特征,重建模块的结构可以如图38、40、41、42或44b所示;
5)基于上采样模块对重建特征进行升维操作,得到第二恢复图像。
上述实施例中,通过先将图像进行去模糊得到第一恢复图,再根据第一恢复图和图像中的清晰区域得到最终的第二恢复图;或将图像的模糊区域和清晰区域分割开,只对模糊区域进行去模糊操作,使得得到的最终的恢复图中模糊区域变得清晰,原来清晰区域也维持原有的清晰度。
此外,本申请提出,由于图像和孪生图像之间的偏差不大,通过特征提取模块可以实现特征对齐,因此去失焦模糊神经网可以不包括注意力模块,如图52b所示,从而能够节省时间,并降低空间的复杂度。
本申请实施例的一种可能的实现方式,步骤S1801对待处理图像的像素进行分类,得到分类掩码图,可以包括:
(1)确定用于获取待处理图像的终端的状态;
(2)若终端处于静止状态,则获取分类掩码图。
具体的,可以通过图像在预设时间段内特征点的变化情况,确定用于采集图像的终端是否在运动;若判断终端是处于运动状态,则采集的图像必然是模糊图像;若判断终端是处于静止状态,则需要进一步判断所获取到的图像是否为模糊图像,执行获取分类掩码图的步骤,对图像进行模糊检测。
以下将结合具体示例对本申请的图像处理方法的具体应用场景进行说明。
在一个示例中,本申请的图像处理方法,可以应用于相机实时模糊检测方案中。
移动端集成方法需要较低的计算资源消耗,在网络模型设计方面采用低通道、低维度和低输入方案。与此同时,在近距离场景下往往出现失焦模糊,如图53所示,根据其特征设计的算法流程如下:
S1:首先判断相机是在运动;
具体的,可以根据角点检测和光流跟踪,判断相机连续10帧内采集到的图像的特征点的变化情况,根据特征点的变化数判断相机是否运动;如果相机处于运动状态,拍摄的照片必然会出现运动模糊;当相机处于静止状态时,开始判断拍摄的照片是否是模糊的;
S2:对原始图像进行预处理;原始图像分辨率较高,为了加速计算,需要对原始图像进行重新调整大小和剪裁;
S3:使用训练好的模糊检测模型进行图像的模糊检测;
S4:计算模糊区域的面积占整个图像的比例;
S5:如果比值大于设定阈值,则认为该图像是模糊的,否则是清晰的。
在一个示例中,如图54所示,本申请的图像处理方法,可以包括如下步骤:
S1:对原始图像进行预处理;
S2:将上述预处理后的图像输入到已经训练好的神经网络模型中,得到模糊检测后的分类掩码图;
S3:计算模糊区域在图像中的面积;其具体实现是统计模糊像素的个数即为模糊区域的面积;
S4:计算模糊区域的面积占整个图像的面积的比例;
S5:如果上述比例大于设定阈值,则认为该图像是模糊;否则认为该图像是清晰的。
以下将结合附图对本申请的图像处理方法的效果进行说明。
本申请提出的模糊检测方案不仅具有较高的识别率,而且可以准确识别图像中包含孔洞时的模糊区域。与此同时,对于模糊与不模糊的边界可以更加准确地进行区分。
上述的图像处理方法,通过对待处理图形中的像素进行模糊分类,确定图像中的像素为清晰像素或模糊像素,根据像素的模糊分类结果生成分类掩码图,再基于分类掩码图确定图像为清晰图像还是模糊图像,从像素级别进行分类,可以提高模糊检测结果的准确率。
进一步的,通过对图像先进行尺寸调节操作或裁减操作,可以提高对图像的处理速度。
进一步的,通过进行至少一次降采样,可以将不同尺度的特征进行融合,提高特征的表达能力;此外,采用多阶段融合的方式,低尺度特征的计算量要比高尺度特征的计算量小很多,不仅可以融合多尺度的特征,而且计算量更小。
进一步的,通过图卷积网络提取第二特征图的过程中,将聚合特征与中心节点的特征进行融合,可以保证的中心节点特征保持有原始信息,使其尽可能的减少被同化,从而提高模糊检测结果的准确率。
进一步的,采用空洞卷积可以在不进行降采样损失细节信息的前提下增大感受野,提取的特征更加丰富。
进一步的,本申请提出的改进后的图卷积网络对图像的每个像素根据特征的相似度建立全局图结构,从全局的角度去某个像素是否是模糊像素,通过像素之间的特征相似度可以提高识别的准确率,可以一方面有效解决孔洞内的模糊区域不能被识别的问题,另一方面可以更为准确地判断模糊边界。
更进一步的,通过先将图像进行去模糊得到第一恢复图,再根据第一恢复图和图像中的清晰区域得到最终的第二恢复图;或将图像的模糊区域和清晰区域分割开,只对模糊区域进行去模糊操作,使得得到的最终的恢复图中模糊区域变得清晰,原来清晰区域也维持原有的清晰度。
上述实施例通过方法流程的角度介绍图像处理方法,下述通过虚拟模块的角度进行介绍,具体如下所示:
本申请实施例提供了一种图像处理装置360,如图55所示,该装置360可以包括获取模块3601和确定模块3602,其中:
获取模块3601,用于对待处理图像的像素进行模糊分类,得到分类掩码图;
确定模块3602,用于基于分类掩码图确定图像的模糊检测结果。
本申请实施例的一种可能的实现方式,获取模块3601在对待处理图像的像素进行模糊分类,得到分类掩码图时,具体用于:
经由级联的若干第一特征提取单元对待处理图像进行特征提取,得到对应的至少一个第一特征图;
针对至少一个第一特征图,经由第二特征提取单元进行特征提取,得到对应的第二特征图;第二特征图是基于第一特征图上的不同像素点之间的关系确定的;
基于至少一个第二特征图生成分类掩码图。
本申请实施例的一种可能的实现方式,第二特征提取单元为图卷积网络;获取模块3601在针对至少一个第一特征图,经由第二特征提取单元进行特征提取时,具体用于:
针对至少一个第一特征图,构建对应的亲密度图,亲密度图包括多个节点以及多条连边,多个节点中的每个节点表示第一特征图的像素点,多条连边中的每条连边表示连边所连接的两个像素点之间的相似性;
根据构建的亲密度图,使用图卷积网络来进行特征提取,得到对应的第二特征图。
本申请实施例的一种可能的实现方式,获取模块3601在根据构建的亲密度图,使用图卷积网络来进行特征提取,得到对应的第二特征图时,具体用于:
将亲密度图中的至少一个节点作为中心节点,聚合该中心节点的邻居节点的特征得到聚合特征;
将聚合特征与中心节点的特征进行融合,得到第一融合特征;
将第一特征图上的中心节点的特征更新为对应的第一融合特征,生成第二特征图。
可选地,获取模块3601在针对至少一个第一特征图,进行特征提取,得到对应的第二特征图时,具体用于:
将第一特征图划分为至少两个图像块;
提取每一图像块的局部特征以及相邻图像块之间的全局特征;
将局部特征与全局特征进行融合,得到第二融合特征;
基于第二融合特征生成第二特征图。
可选地,获取模块3601在将第一特征图划分为至少两个图像块时,具体用于:
将第一特征图划分为至少两个图像块,并确定每一图像块的置信度;置信度用于表征图像块的清晰程度;
继续划分置信度处于预设区间范围内的图像块,直至划分所得的任一图像块对应的置信度处于预设区间范围外。
可选地,获取模块3601在将第一特征图划分为至少两个图像块,还包括:
将图像块的尺寸与预设尺寸进行比对;
基于比对结果,将该图像块基于预设尺寸进行划分。
可选地,划分得到的至少两个图像块中的每个图像块仅包括模糊像素后仅包括清晰像素。
可选地,获取模块3601在使用图卷积网络,提取相邻图像块之间的全局特征时,具体用于:
将每个图像块的特征进行降维处理;
基于每个图像块降维处理后的特征,使用图卷积网络,提取相邻的图像块之间的全局特征。
本申请实施例的一种可能的实现方式,获取模块3601在针对至少一个第一特征图,进行特征提取,得到对应的第二特征图时,具体用于:
确定第一特征图上的像素点之间的连接关系,基于所确定的连接关系生成与第一特征图对应的邻接矩阵;
基于邻接矩阵和第一特征图确定第二特征图。
本申请实施例的一种可能的实现方式,获取模块3601在确定第一特征图上的像素点之间的连接关系,基于所确定的连接关系生成与第一特征图对应的邻接矩阵时,具体用于:
对第一特征图进行通道降维,得到降维特征图;
对降维特征图进行不同的维度调整得到第四特征图和第五特征图;第四特征图和第五特征图互为转置矩阵;
对第四特征图和第五特征图进行矩阵相乘得到邻接矩阵。
本申请实施例的一种可能的实现方式,获取模块3601在基于邻接矩阵和第一特征图确定第二特征图时,具体用于:
调整第一特征图的维度得到第三特征图;
基于邻接矩阵和第三特征图确定第二特征图。
本申请实施例的一种可能的实现方式,获取模块3601在基于邻接矩阵和第三特征图确定第二特征图时,具体用于:
将邻接矩阵和第三特征图进行矩阵相乘得到第六特征图;
将第三特征图与第六特征图在通道维度进行拼接,得到拼接特征图;
基于拼接特征图生成第二特征图。
本申请实施例的一种可能的实现方式,还包括位置确定模块,用于:
若模糊检测结果为图像为模糊图像,基于分类掩码图确定图像的模糊区域的位置。
本申请实施例的一种可能的实现方式,还包括去模糊模块,用于:
对图像进行去模糊处理,得到第一恢复图;
基于分类掩码图,提取图像中清晰区域的清晰像素;
将第一恢复图中对应清晰区域位置的像素替换为清晰像素,得到第二恢复图。
可选地,去模糊模块在对图像进行去模糊处理,得到第一恢复图时,具体用于:
对图像进行特征提取,得到第一提取特征;
基于第一提取特征,通过至少一个恢复处理模块进行恢复处理,得到第一恢复图。
可选地,若包含至少两个恢复处理模块,则去模糊模块在通过至少一个恢复处理模块进行恢复处理,得到第一恢复图时,具体用于:
使用级联的至少两个恢复处理模块进行恢复处理,得到第一恢复图。
可选地,去模糊模块在基于任一恢复处理模块进行恢复处理时,具体用于:
基于恢复处理模块的输入特征,在预设的各尺度中进行尺度选择;
基于输入特征,按照所选择的尺度进行特征提取,得到对应的尺度特征;
基于尺度特征确定并输出对应的恢复特征。
可选地,去模糊模块在基于尺度特征确定并输出对应的恢复特征,包括:
在尺度特征的各通道中进行通道选择;
基于选择出的通道对应的通道特征确定并输出对应的恢复特征。
可选地,去模糊模块在通过至少一个恢复处理模块进行恢复处理,得到第一恢复图时,具体用于:
对最后一个恢复处理模块输出的恢复特征进行升维操作,得到第一恢复图。
可选地,去模糊模块还具体用于:
基于第一提取特征中像素点之间的相似性,确定相似矩阵;
基于分类掩码图中清晰像素与模糊像素,确定对应的掩码矩阵;
基于相似矩阵和掩码矩阵,确定掩码特征,将掩码特征输入到恢复处理模块中进行恢复处理。
可选地,去模糊模块在基于相似矩阵和掩码矩阵,确定掩码特征时,具体用于:
将相似矩阵和掩码矩阵进行相乘,得到掩码相似矩阵;
将掩码相似矩阵和第一提取特征进行相乘,得到掩码特征。
可选地,掩码矩阵中的任一值表征分类掩码图中的第一像素点和第二像素点之间的关系,当第一像素点为清晰像素,且第二像素点为模糊像素时,掩码矩阵中对应的值为0。
本申请实施例的一种可能的实现方式,去模糊模块在对图像进行去模糊处理,得到第一恢复图时,具体用于:
获取图像的孪生图像;
基于孪生网络对图像和孪生图像分别进行特征提取,得到第一提取特征和第二提取特征;
将第一提取特征和第二提取特征进行特征对齐,得到对齐后特征;
基于对齐后的特征进行去模糊处理,得到第一恢复图。
本申请实施例的一种可能的实现方式,去模糊模块在将第一提取特征和第二提取特征进行特征对齐,得到对齐后特征时,具体用于:
将第一提取特征和第二提取特征中的任一特征设为查询特征,另一特征设为键值特征;
将查询特征融合到键值特征中,得到对齐后的特征。
本申请实施例的一种可能的实现方式,去模糊模块在将查询特征融合到键值特征中,得到对齐后的特征时,具体用于:
从查询特征中查询与键值特征相似的近似特征,将近似特征与键值特征融合得到融合特征;
将查询特征中的近似特征替换为融合特征,获取对齐后的特征。
可选地,去模糊模块在对图像进行特征提取,得到第一提取特征时,具体用于:
确定图像对应的至少两个特征块;
采用一维向量表示各特征块的特征,得到各特征块对应的特征向量;
在由至少两个特征向量组成的特征矩阵中进行特征提取,得到提取向量特征;
对提取向量特征进行特征重建,得到第一提取特征。
可选地,去模糊模块在在由多个特征向量组成的特征矩阵中进行特征提取,得到提取向量特征时,具体用于:
基于由至少两个特征向量组成的特征矩阵中各特征向量之间的相似性,确定向量相似矩阵;
基于向量相似矩阵针对特征向量进行融合、前馈以及归一化处理,得到提取向量特征。
上述的图像处理装置,通过对待处理图形中的像素进行模糊分类,确定图像中的像素为清晰像素或模糊像素,根据像素的模糊分类结果生成分类掩码图,再基于分类掩码图确定图像为清晰图像还是模糊图像,从像素级别进行分类,可以提高模糊检测结果的准确率。
进一步的,通过对图像先进行尺寸调节操作或裁减操作,可以提高对图像的处理速度。
进一步的,通过进行至少一次降采样,可以将不同尺度的特征进行融合,提高特征的表达能力;此外,采用多阶段融合的方式,低尺度特征的计算量要比高尺度特征的计算量小很多,不仅可以融合多尺度的特征,而且计算量更小。
进一步的,通过图卷积网络提取第二特征图的过程中,将聚合特征与所述中心节点的特征进行融合,可以保证的中心节点特征保持有原始信息,使其尽可能的减少被同化,从而提高模糊检测结果的准确率。
进一步的,采用空洞卷积可以在不进行降采样损失细节信息的前提下增大感受野,提取的特征更加丰富。
进一步的,本申请提出的改进后的图卷积网络对图像的每个像素根据特征的相似度建立全局图结构,从全局的角度去某个像素是否是模糊像素,通过像素之间的特征相似度可以提高识别的准确率,可以一方面有效解决孔洞内的模糊区域不能被识别的问题,另一方面可以更为准确地判断模糊边界。
更进一步的,通过先将图像进行去模糊得到第一恢复图,再根据第一恢复图和图像中的清晰区域得到最终的第二恢复图;或将图像的模糊区域和清晰区域分割开,只对模糊区域进行去模糊操作,使得得到的最终的恢复图中模糊区域变得清晰,原来清晰区域也维持原有的清晰度。
本申请实施例还提供一种图像处理装置560,如图56所示,包括去模糊模块561,提取模块562和替换模块563。
其中,去模糊模块561用于对图像进行去模糊处理,得到第一恢复图;提取模块562用于提取所述图像中清晰区域的清晰像素;替换模块563用于将所述第一恢复图中对应清晰区域位置的像素替换为所述清晰像素,得到第二恢复图。
可选地,去模糊模块561在对图像进行去模糊处理,得到第一恢复图时,具体用于:
对图像进行特征提取,得到第一提取特征;
基于所述第一提取特征,通过至少一个恢复处理块进行恢复处理,得到第一恢复图。
可选地,若包含至少两个恢复处理模块,则去模糊模块561在通过至少一个恢复处理模块进行恢复处理,得到第一恢复图时,具体用于:
使用级联的至少两个恢复处理模块进行恢复处理,得到第一恢复图。
可选地,去模糊模块561在任一恢复处理模块进行恢复处理时,具体用于:
基于恢复处理模块的输入特征,在预设的各尺度中进行尺度选择;
基于所述输入特征,按照所选择的尺度进行特征提取,得到对应的尺度特征;
基于所述尺度特征确定并输出对应的恢复特征。
可选地,去模糊模块561在基于所述尺度特征确定并输出对应的恢复特征时,具体用于:
在尺度特征的各通道中进行通道选择;
基于选择出的通道对应的通道特征确定并输出对应的恢复特征。
可选地,去模糊模块561在通过至少一个恢复处理模块进行恢复处理,得到第一恢复图,包括:
对最后一个恢复处理模块输出的恢复特征进行升维操作,得到第一恢复图。
本公开实施例的图像处理装置可执行本公开的实施例所提供的一种图像处理方法,其实现原理相类似,本公开各实施例中的图像处理装置中的各模块所执行的动作是与本公开各实施例中的图像处理方法中的步骤相对应的,对于图像处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的图像处理方法中的描述,此处不再赘述。
本申请实施例中所提供的装置,可以通过AI(Artificial Intelligence,人工智能)模型来实现多个模块中的至少一个模块。可以通过非易失性存储器、易失性存储器和处理器来执行与AI相关联的功能。
该处理器可以包括一个或多个处理器。此时,该一个或多个处理器可以是通用处理器,例如中央处理单元(CPU)、应用处理器(AP)等、或者是纯图形处理单元,例如,图形处理单元(GPU)、视觉处理单元(VPU)、和/或AI专用处理器,例如神经处理单元(NPU)。
该一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义的操作规则或人工智能(AI)模型来控制对输入数据的处理。通过训练或学习来提供预定义的操作规则或人工智能模型。
这里,通过学习来提供指的是通过将学习算法应用于多个学习数据来得到预定义的操作规则或具有期望特性的AI模型。该学习可以在其中执行根据实施例的AI的装置本身中执行,和/或可以通过单独的服务器/系统来实现。
该AI模型可以包含多个神经网络层。每一层具有多个权重值,一个层的计算是通过前一层的计算结果和当前层的多个权重来执行的。神经网络的示例包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)、生成对抗网络(GAN)、以及深度Q网络。
学习算法是一种使用多个学习数据训练预定目标装置(例如,机器人)以使得、允许或控制目标装置进行确定或预测的方法。该学习算法的示例包括但不限于监督学习、无监督学习、半监督学习、或强化学习。
上面从功能模块化的角度对本申请实施例提供的图像处理装置进行介绍,接下来,将从硬件实体化的角度对本申请实施例提供的电子设备进行介绍,并同时对电子设备的计算系统进行介绍。
基于与本公开的实施例中所示的方法相同的原理,本公开的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机操作指令;处理器,用于通过调用计算机操作指令执行实施例所示的图像处理方法。与现有技术相比,本申请中的图像处理方法可以提高模糊检测结果的准确率。
在一个可选实施例中提供了一种电子设备,如图57所示,图57所示的电子设备1000包括:处理器1001和存储器1003。其中,处理器1001和存储器1003相连,如通过总线1002相连。可选地,电子设备1000还可以包括收发器1004。需要说明的是,实际应用中收发器1004不限于一个,该电子设备1000的结构并不构成对本申请实施例的限定。
处理器1001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线1002可包括一通路,在上述组件之间传送信息。总线1002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线1002可以分为地址总线、数据总线、控制总线等。为便于表示,图57中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器1003用于存储执行本申请方案的应用程序代码,并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图57示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请中的图像处理方法可以提高模糊检测结果的准确率。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取分类掩码图的模块”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (24)
1.一种图像处理方法,其特征在于,包括:
对待处理图像的像素进行模糊分类,得到分类掩码图;
基于所述分类掩码图确定所述图像的模糊检测结果。
2.根据权利要求1所述的方法,其特征在于,所述对待处理图像的像素进行模糊分类,得到分类掩码图,包括:
经由级联的若干第一特征提取单元对所述待处理图像进行特征提取,得到对应的至少一个第一特征图;
针对至少一个第一特征图,经由第二特征提取单元进行特征提取,得到对应的第二特征图;所述第二特征图是基于第一特征图上的不同像素点之间的关系确定的;
基于至少一个第二特征图生成所述分类掩码图。
3.根据权利要求2所述的方法,其特征在于,针对至少一个第一特征图,进行特征提取,得到对应的第二特征图,包括:
将所述第一特征图划分为至少两个图像块;
使用图卷积网络,提取每一图像块的局部特征以及相邻图像块之间的全局特征;
将所述局部特征与全局特征进行融合,得到第二融合特征;
基于所述第二融合特征生成第二特征图。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一特征图划分为至少两个图像块,包括:
将所述第一特征图划分为至少两个图像块,并确定每一图像块的置信度;所述置信度用于表征图像块的清晰程度;
继续划分所述置信度处于预设区间范围内的图像块,直至划分所得的任一图像块对应的置信度处于预设区间范围外。
5.根据权利要求3所述的方法,其特征在于,划分得到的至少两个图像块中的每个图像块仅包含模糊像素或仅包含清晰像素。
6.根据权利要求3所述的方法,其特征在于,使用图卷积网络,提取相邻图像块之间的全局特征,包括:
将每个图像块的特征进行降维处理;
基于每个图像块降维处理后的特征,使用图卷积网络,提取相邻的图像块之间的全局特征。
7.根据权利要求1至6任一项所述的方法,其特征在于,还包括:
若所述模糊检测结果为所述图像为模糊图像,对所述图像进行去模糊处理,得到第一恢复图;
基于所述分类掩码图,提取所述图像中清晰区域的清晰像素;
将所述第一恢复图中对应清晰区域位置的像素替换为所述清晰像素,得到第二恢复图。
8.根据权利要求7所述的方法,其特征在于,所述对所述图像进行去模糊处理,得到第一恢复图,包括:
对所述图像进行特征提取,得到第一提取特征;
基于所述第一提取特征,通过至少一个恢复处理模块进行恢复处理,得到第一恢复图。
9.根据权利要求8所述的方法,其特征在于,任一恢复处理模块进行恢复处理,包括:
基于恢复处理模块的输入特征,在预设的各尺度中进行尺度选择;
基于所述输入特征,按照所选择的尺度进行特征提取,得到对应的尺度特征;
基于所述尺度特征确定并输出对应的恢复特征。
10.根据权利要求9所述的方法,其特征在于,基于所述尺度特征确定并输出对应的恢复特征,包括:
在尺度特征的各通道中进行通道选择;
基于选择出的通道对应的通道特征确定并输出对应的恢复特征。
11.根据权利要求8所述的方法,其特征在于,通过至少一个恢复处理模块进行恢复处理,得到第一恢复图,包括:
对最后一个恢复处理模块输出的恢复特征进行升维操作,得到第一恢复图。
12.根据权利要求8所述的方法,其特征在于,还包括:
基于第一提取特征中像素点之间的相似性,确定相似矩阵;
基于所述分类掩码图中清晰像素与模糊像素,确定对应的掩码矩阵;
基于所述相似矩阵和掩码矩阵,确定掩码特征,将所述掩码特征输入到恢复处理模块中进行恢复处理。
13.根据权利要求12所述的方法,其特征在于,所述掩码矩阵中的任一值表征分类掩码图中的第一像素点和第二像素点之间的关系,当所述第一像素点为清晰像素,且第二像素点为模糊像素时,所述掩码矩阵中对应的值为0。
14.根据权利要求7所述的方法,其特征在于,所述对所述图像进行去模糊处理,得到第一恢复图,包括:
获取所述图像的孪生图像;
基于孪生网络对所述图像和所述孪生图像分别进行特征提取,得到第一提取特征和第二提取特征;
将第一提取特征和第二提取特征进行特征对齐,得到对齐后特征;
基于对齐后的特征进行去模糊处理,得到所述第一恢复图。
15.根据权利要求14所述的方法,其特征在于,所述将第一提取特征和第二提取特征进行特征对齐,得到对齐后特征,包括:
将所述第一提取特征和第二提取特征中的任一特征设为查询特征,另一特征设为键值特征;
将查询特征融合到键值特征中,得到所述对齐后的特征。
16.一种图像处理方法,其特征在于,包括:
对图像进行去模糊处理,得到第一恢复图;
提取所述图像中清晰区域的清晰像素;
将所述第一恢复图中对应清晰区域位置的像素替换为所述清晰像素,得到第二恢复图。
17.根据权利要求16所述的方法,其特征在于,对图像进行去模糊处理,得到第一恢复图,包括:
对图像进行特征提取,得到第一提取特征;
基于所述第一提取特征,通过至少一个恢复处理块进行恢复处理,得到第一恢复图。
18.根据权利要求17所述的方法,其特征在于,任一恢复处理模块进行恢复处理,包括:
基于恢复处理模块的输入特征,在预设的各尺度中进行尺度选择;
基于所述输入特征,按照所选择的尺度进行特征提取,得到对应的尺度特征;
基于所述尺度特征确定并输出对应的恢复特征。
19.根据权利要求18所述的方法,其特征在于,基于所述尺度特征确定并输出对应的恢复特征,包括:
在尺度特征的各通道中进行通道选择;
基于选择出的通道对应的通道特征确定并输出对应的恢复特征。
20.根据权利要求17所述的方法,其特征在于,通过至少一个恢复处理模块进行恢复处理,得到第一恢复图,包括:
对最后一个恢复处理模块输出的恢复特征进行升维操作,得到第一恢复图。
21.一种图像处理装置,其特征在于,包括:
获取模块,用于对待处理图像的像素进行模糊分类,得到分类掩码图;
确定模块,用于基于所述分类掩码图确定所述图像的模糊检测结果。
22.一种图像处理装置,其特征在于,包括:
去模糊模块,用于对图像进行去模糊处理,得到第一恢复图;
提取模块,用于提取所述图像中清晰区域的清晰像素;
替换模块,用于将所述第一恢复图中对应清晰区域位置的像素替换为所述清晰像素,得到第二恢复图。
23.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至20任一项所述的图像处理方法。
24.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至20任一项所述的图像处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/KR2022/000550 WO2022154471A1 (en) | 2021-01-12 | 2022-01-12 | Image processing method, image processing apparatus, electronic device and computer-readable storage medium |
US17/582,211 US20220230282A1 (en) | 2021-01-12 | 2022-01-24 | Image processing method, image processing apparatus, electronic device and computer-readable storage medium |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110036289 | 2021-01-12 | ||
CN2021100362892 | 2021-01-12 | ||
CN2021102723363 | 2021-03-12 | ||
CN202110272336 | 2021-03-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114764868A true CN114764868A (zh) | 2022-07-19 |
Family
ID=82364915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110875207.3A Pending CN114764868A (zh) | 2021-01-12 | 2021-07-30 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114764868A (zh) |
WO (1) | WO2022154471A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115272250A (zh) * | 2022-08-01 | 2022-11-01 | 深圳技术大学 | 确定病灶位置方法、装置、计算机设备和存储介质 |
CN115358392A (zh) * | 2022-10-21 | 2022-11-18 | 北京百度网讯科技有限公司 | 深度学习网络的训练方法、文本检测方法及装置 |
CN115375589A (zh) * | 2022-10-25 | 2022-11-22 | 城云科技(中国)有限公司 | 一种去除图像阴影模型及其构建方法、装置及应用 |
CN115511728A (zh) * | 2022-08-31 | 2022-12-23 | 北京空间机电研究所 | 一种多参量图像局部模糊自主辨识与恢复方法 |
CN116704363A (zh) * | 2023-05-22 | 2023-09-05 | 中国地质大学(武汉) | 一种深度学习模型、土地覆盖分类方法及装置 |
CN117764762A (zh) * | 2024-02-22 | 2024-03-26 | 山西余得水农牧有限公司 | 用于提高玉米种植中氮肥利用率的方法 |
CN118247583A (zh) * | 2024-05-28 | 2024-06-25 | 杭州像素元科技有限公司 | 一种高速夜间图像清晰度增强模型的构建方法及构建装置 |
CN118351217A (zh) * | 2024-04-15 | 2024-07-16 | 烟台工程职业技术学院(烟台市技师学院) | 一种ai绘画模型定向出图方法、介质及系统 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051390B (zh) * | 2022-08-15 | 2024-04-09 | 荣耀终端有限公司 | 运动模糊程度检测方法和设备 |
CN116612076B (zh) * | 2023-04-28 | 2024-01-30 | 成都瑞贝英特信息技术有限公司 | 基于联合孪生神经网络的机舱微小划痕检测方法 |
CN117058190B (zh) * | 2023-07-07 | 2024-09-03 | 国网江苏省电力有限公司南京供电分公司 | 基于三重注意力机制的孪生网络目标跟踪方法和系统 |
CN117156442B (zh) * | 2023-10-31 | 2024-03-12 | 深圳市中科鼎创科技股份有限公司 | 基于5g网络的云数据安全保护方法及系统 |
CN118450130A (zh) * | 2023-12-08 | 2024-08-06 | 荣耀终端有限公司 | 图像处理方法及相关装置 |
CN118072289B (zh) * | 2024-04-18 | 2024-07-02 | 智联信通科技股份有限公司 | 用于智能驾驶的图像采集优化方法 |
CN118379848B (zh) * | 2024-06-21 | 2024-08-20 | 珠海华熠电子有限公司 | 基于双目摄像机的人员安全监测系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101631953B1 (ko) * | 2014-12-09 | 2016-06-20 | 삼성전자주식회사 | 블러 영역 검출을 위한 영상 처리 방법 및 이를 수행하기 위한 영상 처리 장치 |
US10593021B1 (en) * | 2019-09-11 | 2020-03-17 | Inception Institute of Artificial Intelligence, Ltd. | Motion deblurring using neural network architectures |
-
2021
- 2021-07-30 CN CN202110875207.3A patent/CN114764868A/zh active Pending
-
2022
- 2022-01-12 WO PCT/KR2022/000550 patent/WO2022154471A1/en active Application Filing
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115272250A (zh) * | 2022-08-01 | 2022-11-01 | 深圳技术大学 | 确定病灶位置方法、装置、计算机设备和存储介质 |
CN115272250B (zh) * | 2022-08-01 | 2024-06-04 | 深圳技术大学 | 确定病灶位置方法、装置、计算机设备和存储介质 |
CN115511728A (zh) * | 2022-08-31 | 2022-12-23 | 北京空间机电研究所 | 一种多参量图像局部模糊自主辨识与恢复方法 |
CN115358392A (zh) * | 2022-10-21 | 2022-11-18 | 北京百度网讯科技有限公司 | 深度学习网络的训练方法、文本检测方法及装置 |
CN115358392B (zh) * | 2022-10-21 | 2023-05-05 | 北京百度网讯科技有限公司 | 深度学习网络的训练方法、文本检测方法及装置 |
CN115375589A (zh) * | 2022-10-25 | 2022-11-22 | 城云科技(中国)有限公司 | 一种去除图像阴影模型及其构建方法、装置及应用 |
CN116704363A (zh) * | 2023-05-22 | 2023-09-05 | 中国地质大学(武汉) | 一种深度学习模型、土地覆盖分类方法及装置 |
CN116704363B (zh) * | 2023-05-22 | 2024-01-26 | 中国地质大学(武汉) | 一种基于深度学习模型的土地覆盖分类方法及装置 |
CN117764762A (zh) * | 2024-02-22 | 2024-03-26 | 山西余得水农牧有限公司 | 用于提高玉米种植中氮肥利用率的方法 |
CN117764762B (zh) * | 2024-02-22 | 2024-05-10 | 山西余得水农牧有限公司 | 用于提高玉米种植中氮肥利用率的方法 |
CN118351217A (zh) * | 2024-04-15 | 2024-07-16 | 烟台工程职业技术学院(烟台市技师学院) | 一种ai绘画模型定向出图方法、介质及系统 |
CN118247583A (zh) * | 2024-05-28 | 2024-06-25 | 杭州像素元科技有限公司 | 一种高速夜间图像清晰度增强模型的构建方法及构建装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2022154471A1 (en) | 2022-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114764868A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
US20220230282A1 (en) | Image processing method, image processing apparatus, electronic device and computer-readable storage medium | |
CN112233038B (zh) | 基于多尺度融合及边缘增强的真实图像去噪方法 | |
Wan et al. | CoRRN: Cooperative reflection removal network | |
WO2020238560A1 (zh) | 视频目标跟踪方法、装置、计算机设备及存储介质 | |
US11276177B1 (en) | Segmentation for image effects | |
Jinno et al. | Multiple exposure fusion for high dynamic range image acquisition | |
US20190362199A1 (en) | Joint blur map estimation and blur desirability classification from an image | |
US20210004962A1 (en) | Generating effects on images using disparity guided salient object detection | |
CN112446380A (zh) | 图像处理方法和装置 | |
Cun et al. | Defocus blur detection via depth distillation | |
Anwar et al. | Deblur and deep depth from single defocus image | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
CN112784750B (zh) | 基于像素和区域特征匹配的快速视频物体分割方法和装置 | |
CN113673545A (zh) | 光流估计方法、相关装置、设备及计算机可读存储介质 | |
KR20210029692A (ko) | 비디오 영상에 보케 효과를 적용하는 방법 및 기록매체 | |
Zhang et al. | Deep motion blur removal using noisy/blurry image pairs | |
CN116977200A (zh) | 视频去噪模型的处理方法、装置、计算机设备和存储介质 | |
Zhang et al. | Rethinking the defocus blur detection problem and a real-time deep DBD model | |
CN113240023A (zh) | 基于变化图像分类和特征差值先验的变化检测方法及装置 | |
CN115311149A (zh) | 图像去噪方法、模型、计算机可读存储介质及终端设备 | |
Wang et al. | A encoder-decoder deblurring network combined with high-frequency a priori | |
CN117197438A (zh) | 一种基于视觉显著性的目标检测方法 | |
Zhao et al. | End‐to‐End Retinex‐Based Illumination Attention Low‐Light Enhancement Network for Autonomous Driving at Night | |
Li et al. | L0 structure-prior assisted blur-intensity aware efficient video deblurring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |