[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110222716B - 基于全分辨率深度卷积神经网络的图像分类方法 - Google Patents

基于全分辨率深度卷积神经网络的图像分类方法 Download PDF

Info

Publication number
CN110222716B
CN110222716B CN201910379525.3A CN201910379525A CN110222716B CN 110222716 B CN110222716 B CN 110222716B CN 201910379525 A CN201910379525 A CN 201910379525A CN 110222716 B CN110222716 B CN 110222716B
Authority
CN
China
Prior art keywords
layer
resolution
full
convolution
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910379525.3A
Other languages
English (en)
Other versions
CN110222716A (zh
Inventor
庞彦伟
李亚钊
谢今
汪天才
张志杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910379525.3A priority Critical patent/CN110222716B/zh
Publication of CN110222716A publication Critical patent/CN110222716A/zh
Application granted granted Critical
Publication of CN110222716B publication Critical patent/CN110222716B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于全分辨率深度卷积神经网络的图像分类方法,包括下列步骤:准备训练图像集合及集合中每幅图像的类别标签;设定全分辨率卷积神经网络的层数;对输入图像先进行跨度卷积,然后将未经跨度卷积计算过的元素由1×1卷积进行计算,从而得到第一个全分辨率特征层,然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络,该网络最后一层称为HHF层;将HHF层划分成若干个区域,然后通过平均池化提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量,将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算;设定训练的损失函数;训练。

Description

基于全分辨率深度卷积神经网络的图像分类方法
技术领域
本发明涉及生物特征识别、人机交互、视频监控、无人驾驶等计算机视觉领域中图像分类方法,主要涉及基于深度卷积神经网络的图像分类方法。
背景技术
图像分类是将给定的图像分成若干预先定义好的类别的过程。例如,在人脸识别中,将一张人脸图像分类成不同身份的人脸;在场景分类中,将一幅图像分类成室内场景或室外场景。
由于具备强大的层次化特征表达能力,深度卷积神经网络已经成为最先进的图像识别框架。最具代表性的深度卷积神经网络方法是AlexNet[1]、VggNet[2]、ResNet[3]、DenseNet[4]等。对于输入图像,现有基于深度卷积神经网络的方法根据分辨率大小将神经网络分成若干块(block),每块内部的若干特征层(layer)具有相同的分辨率,第一块分辨率最高,其后面的块的分辨率逐渐降低(一般成倍降低)。例如第一块、第二块、第三块、第四块、第五块的分辨率分别是128×128、64×64、32×32、16×16、8×8。图1显示了一个现有神经网络结构,其中第一块内的各个层的分辨率和输入图像的分辨率都是w×h。但第二块和第三块的分辨率分别降低为(w/2)×(h/2)和(w/4)×(h/4)。
参考文献:
[1]A.Krizhevsky,I.Sutskever,andG.E.Hinton,“Imagenetclassificationwithdeep convolutionalneuralnetworks,”Proc.Advances inNeuralInformationProcessingSystems,2012.
[2]K.SimonyanandA.Zisserman,“Verydeepconvolutionalnetworks forlarge-scale image recognition,”CoRR,vol.abs/1409.1556,2014.[Online].Available:http://arxiv.org/abs/1409.1556
[3]K.He,X.Zhang,S.Ren andJ.Sun,“Deep ResidualLearning forImageRecognition,”in Proc.IEEE ConferenceonComputerVisionandPatternRecognition,pp.770-778,2016.
[4]G.Huang,Z.Liu,and K.Q.Weinberger,“Densely Connected CovolutionalNetworks,”inProc.IEEE InternationalConferenceonComputerVisionandPatternRecognition,2017.
发明内容
本发明主要解决的技术问题是如何避免现有深度卷积神经网络因为逐渐降低分辨率带来的信息损失。为了解决该问题,本发明提出一种全分辨率深度卷积神经网络方法,在不显著增加计算量的情况下提高图像分类的正确率。技术方案如下:
一种基于全分辨率深度卷积神经网络的图像分类方法,包括下列步骤:
步骤1:准备训练图像集合及集合中每幅图像的类别标签;
步骤2:设定全分辨率卷积神经网络的层数;
步骤3:设定第i层全分辨率卷积的跨度卷积的跨度di、核大小mi×mi,di≥2、mi≥2,且di+1≥di、mi+1≥mi,由跨度卷积和1×1卷积构成全分辨率卷积;
步骤4:对输入图像先进行跨度为d1、核大小为m1×m1的跨度卷积,然后将未经跨度卷积计算过的元素由1×1卷积进行计算,从而得到第一个全分辨率特征层,然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络,该网络最后一层称为HHF层;
步骤5:将HHF层划分成若干个区域,然后通过平均池化提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量,将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算;
步骤6:设定训练的损失函数,该损失函数主要衡量神经网络预测分类标签和图像真实标签之间的差别;
步骤7:通过反向传播算法,不断更新网络的权重参数,当迭代次数结束时,所学习的权重参数为最终的网络参数;
步骤8:给定待分类的图像,将其输入给全分辨率神经网络,输出的类别向量即是最终分类结果。
优选地,步骤2设定每个特征层的分辨率都与输入图像的分辨率一样大。步骤3用膨胀卷积作为跨度卷积。
附图说明
图1:现有卷积神经网络结构图示意。最左侧是分辨率为w×h的输入图像,其后的特征层的分辨率成倍降低。
图2.本发明所提卷积神经网络结构图示意。最左侧是分辨率为w×h的输入图像,其后的特征层的分辨率均是w×h。
图3.针对全分辨率网络层的卷积运算。标有’s’符号的元素由跨度为d=2的跨度卷积运算得到,而未经跨度卷积计算过的元素均由1×1卷积得到。
图4.一个用于图像分类的16层全分辨率神经网络架构。最后一层L16是HHF层。L17层是特征向量层。L18层是类别向量层。
具体实施方式
图2给出了本发明的主要思想。在本发明的卷积神经网络中,所特征层的分辨率都和输入图像的分辨率一样大。由于全分辨率的保持,使网络能够提取更多的细节信息,称之谓全分辨率网络(full-resolution network)。传统方法由于使用了一系列池化(pooling)、跨度为2的卷积等下采样操作,使分辨率严重下降,损失了大量细节信息。本发明所提方法丢弃了下采样操作,使分辨率及细节信息得以保持。
需要指出的是,如果直接将现有方法的下采样操作去掉,那么会由于分辨率太大而导致网络的卷积运算量很大。因此,如何在去掉下采样的情况下,减少卷积运算的计算量是关键。为了解决该问题,本发明提出如图3所示的针对全分辨率特征层的高效卷积运算方法。其核心思想是在空间域层面交替进行跨度为d、核大小为m×m的卷积(其中d≥2、m≥2,简称跨度卷积)和无跨度的、核大小为1×1的卷积(简称1×1卷积)。在图3中,标有’s’符号的元素由跨度为d=2的跨度卷积运算得到,而未经跨度卷积计算过的元素均由1×1卷积得到。由于1×1卷积计算量很小且大部分元素都是经过1×1卷积运算得到的,所以该方法计算量较少,适合于针对全分辨率特征层进行卷积运算。
如图4所示,若干个由全分辨率特征层构成全分辨率神经网络架构。最后一个全分辨率特征层不仅具有高分辨率的特点还具备高语义的特点,所以称之为高分辨率高语义特征层(High resolution andHigh-level Semantic Feature layer),简称HHF。图4所示的全分辨率神经网络架构包含16个全分辨率特征层:L1、L2、…、L16,其中最后一层L16是HHF层(即HHF layer)。
最终的图像分类基于HHF层进行。方法是将HHF层划分成若干个相交或不相交的区域(在图4中,HHF层被划分成4个不相交的区域);通过平均池化或其它方法提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量(对应图4的L17层)。设图像的类别数目是C,则类别向量b就是C维向量。将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算,完成最终的图像分类。
所提方法可以经过如下几个步骤进行实施:
步骤1:准备训练图像集合及集合中每幅图像的类别标签。设类别标签的个数为C。
步骤2:设定全分辨率卷积神经网络的层数。设定每个特征层的分辨率都与输入图像的分辨率一样大。
步骤3:设定第i层全分辨率卷积的跨度卷积的跨度di、核大小mi×mi,要求di≥2、mi≥2,且一般di+1≥di、mi+1≥mi。由跨度卷积和1×1卷积构成全分辨率卷积。为了提高效率,可以用膨胀卷积作为跨度卷积。
步骤4:对输入图像先进行跨度为d1、核大小为m1×m1的跨度卷积,然后将未经跨度卷积计算过的元素由1×1卷积进行计算,从而得到第一个全分辨率特征层。然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络。该网络最后一层称为HHF层。
步骤5:将HHF层划分成若干个区域,然后通过平均池化(或其它方法)提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量。将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算。
步骤6:设定训练的损失函数,该损失函数主要衡量神经网络预测分类标签和图像真实标签之间的差别。
步骤7:通过反向传播算法,不断更新网络的权重参数(即全卷积滤波器(滤波器又称为核)的参数)。当迭代次数结束时,所学习的权重参数为最终的网络参数。
步骤8:给定待分类的图像,将其输入给全分辨率神经网络,输出的类别向量即是最终分类结果。

Claims (3)

1.一种基于全分辨率深度卷积神经网络的图像分类方法,包括下列步骤:
步骤1:准备训练图像集合及集合中每幅图像的类别标签;
步骤2:设定全分辨率卷积神经网络的层数;
步骤3:设定第i层全分辨率卷积的跨度卷积的跨度di、核大小mi×mi,di≥2、mi≥2,且di+1≥di、mi+1≥mi,由跨度卷积和1×1卷积构成全分辨率卷积;
步骤4:对输入图像先进行跨度为d1、核大小为m1×m1的跨度卷积,然后将未经跨度卷积计算过的元素由1×1卷积进行计算,从而得到第一个全分辨率特征层,然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络,该网络最后一层称为HHF层;
步骤5:将HHF层划分成若干个区域,然后通过平均池化提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量,将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算;
步骤6:设定训练的损失函数,该损失函数主要衡量神经网络预测分类标签和图像真实标签之间的差别;
步骤7:通过反向传播算法,不断更新网络的权重参数,当迭代次数结束时,所学习的权重参数为最终的网络参数;
步骤8:给定待分类的图像,将其输入给全分辨率神经网络,输出的类别向量即是最终分类结果。
2.根据权利要求1所述的方法,其特征在于,步骤2设定每个特征层的分辨率都与输入图像的分辨率一样大。
3.根据权利要求1所述的方法,其特征在于,步骤3用膨胀卷积作为跨度卷积。
CN201910379525.3A 2019-05-08 2019-05-08 基于全分辨率深度卷积神经网络的图像分类方法 Expired - Fee Related CN110222716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910379525.3A CN110222716B (zh) 2019-05-08 2019-05-08 基于全分辨率深度卷积神经网络的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910379525.3A CN110222716B (zh) 2019-05-08 2019-05-08 基于全分辨率深度卷积神经网络的图像分类方法

Publications (2)

Publication Number Publication Date
CN110222716A CN110222716A (zh) 2019-09-10
CN110222716B true CN110222716B (zh) 2023-07-25

Family

ID=67820871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910379525.3A Expired - Fee Related CN110222716B (zh) 2019-05-08 2019-05-08 基于全分辨率深度卷积神经网络的图像分类方法

Country Status (1)

Country Link
CN (1) CN110222716B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11610129B2 (en) * 2020-06-08 2023-03-21 Robert Bosch Gmbh System and method for multiscale deep equilibrium models
CN115735224A (zh) * 2021-06-25 2023-03-03 京东方科技集团股份有限公司 非抽取的图像处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358576A (zh) * 2017-06-24 2017-11-17 天津大学 基于卷积神经网络的深度图超分辨率重建方法
CN107967484A (zh) * 2017-11-14 2018-04-27 中国计量大学 一种基于多分辨率的图像分类方法
CA2948499A1 (en) * 2016-11-16 2018-05-16 The Governing Council Of The University Of Toronto System and method for classifying and segmenting microscopy images with deep multiple instance learning
WO2019001209A1 (zh) * 2017-06-28 2019-01-03 苏州比格威医疗科技有限公司 基于三维卷积神经网络的视网膜oct图像的分类算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2948499A1 (en) * 2016-11-16 2018-05-16 The Governing Council Of The University Of Toronto System and method for classifying and segmenting microscopy images with deep multiple instance learning
CN107358576A (zh) * 2017-06-24 2017-11-17 天津大学 基于卷积神经网络的深度图超分辨率重建方法
WO2019001209A1 (zh) * 2017-06-28 2019-01-03 苏州比格威医疗科技有限公司 基于三维卷积神经网络的视网膜oct图像的分类算法
CN107967484A (zh) * 2017-11-14 2018-04-27 中国计量大学 一种基于多分辨率的图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multimodal Learning for Multi-label Image Classification;Pang,YW;18th IEEE International Conference on Image Processing;1797-1800 *
一种融合小波变换与卷积神经网络的高相似度图像识别与分类算法;姜文超;刘海波;杨宇杰;陈佳峰;孙傲冰;计算机工程与科学(009);1646-1652 *

Also Published As

Publication number Publication date
CN110222716A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN113807355B (zh) 一种基于编解码结构的图像语义分割方法
CN109858390B (zh) 基于端到端时空图学习神经网络的人体骨架行为识别方法
CN113516133B (zh) 一种多模态图像分类方法及系统
CN114119975B (zh) 一种语言引导的跨模态实例分割方法
CN109919032B (zh) 一种基于动作预测的视频异常行为检测方法
CN107330355B (zh) 一种基于正样本平衡约束的深度行人再标识方法
CN107832787A (zh) 基于双谱自编码特征的雷达辐射源识别方法
Cai et al. Multiscale attentive image de-raining networks via neural architecture search
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN113628201A (zh) 基于深度学习的病理切片分析方法、电子设备及可读存储介质
CN113688783B (zh) 人脸特征提取方法、低分辨率人脸识别方法及设备
CN115131558B (zh) 一种少样本环境下的语义分割方法
CN109949217B (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN115953630A (zh) 一种基于全局-局部知识蒸馏的跨域小样本图像分类方法
CN112418235A (zh) 一种基于膨胀最近邻特征增强的点云语义分割方法
CN114565628A (zh) 一种基于边界感知注意的图像分割方法及系统
Dong et al. Research on image classification based on capsnet
CN110222716B (zh) 基于全分辨率深度卷积神经网络的图像分类方法
CN116091764A (zh) 一种基于融合变换网络的云图像分割方法
CN114299382A (zh) 高光谱遥感图像分类方法及系统
CN116740480A (zh) 多模态图像融合目标跟踪方法
Xia et al. Combination of multi‐scale and residual learning in deep CNN for image denoising
CN113792809B (zh) 基于随机半监督特征提取模型的遥感图片分类方法
CN118470545B (zh) 一种基于图掩码自编码器的遥感图像自监督学习方法
CN115512693B (zh) 音频识别方法、声学模型训练方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20230725

CF01 Termination of patent right due to non-payment of annual fee