[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111368850A - 图像的特征提取、目标检测方法及装置、卷积装置、cnn网络装置、终端 - Google Patents

图像的特征提取、目标检测方法及装置、卷积装置、cnn网络装置、终端 Download PDF

Info

Publication number
CN111368850A
CN111368850A CN201811589348.3A CN201811589348A CN111368850A CN 111368850 A CN111368850 A CN 111368850A CN 201811589348 A CN201811589348 A CN 201811589348A CN 111368850 A CN111368850 A CN 111368850A
Authority
CN
China
Prior art keywords
convolution
feature
module
feature mapping
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811589348.3A
Other languages
English (en)
Other versions
CN111368850B (zh
Inventor
刘阳
罗小伟
林福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Tianjin Co Ltd
Original Assignee
Spreadtrum Communications Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Tianjin Co Ltd filed Critical Spreadtrum Communications Tianjin Co Ltd
Priority to CN201811589348.3A priority Critical patent/CN111368850B/zh
Publication of CN111368850A publication Critical patent/CN111368850A/zh
Application granted granted Critical
Publication of CN111368850B publication Critical patent/CN111368850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种图像的特征提取、目标检测方法及装置、卷积装置、CNN网络装置、终端,所述卷积装置包括:通道扩充模块,用于对图像数据的特征映射进行卷积运算,并扩充卷积得到的特征映射的通道数量,以得到第一特征映射;深度分离卷积模块,用于对所述通道扩充模块输出的第一特征映射进行深度分离卷积,以得到第二特征映射;通道压缩模块,接收所述深度分离卷积模块输出的第二特征映射,并对所述第二特征映射进行卷积运算,压缩卷积运算后的数据的通道数量,以得到第三特征映射,所述第三特征映射的通道数量小于所述第一特征映射的通道数量。通过本发明提供的技术方案,可以降低图像卷积计算复杂度,提高计算效率,有利于降低特征提取难度。

Description

图像的特征提取、目标检测方法及装置、卷积装置、CNN网络装 置、终端
技术领域
本发明涉及目标检测技术领域,具体地涉及一种图像的特征提取、目标检测方法及装置、卷积装置、CNN网络装置、终端。
背景技术
目标检测是计算机视觉领域的核心问题,主要目的是对图像或视频信息进行分析,判定是否存在某些物体(如人脸,行人,汽车等)。如果存在,则确定各个物体的具体位置。目标检测技术可广泛应用于安防监控、自动驾驶、人机交互等领域,是进行行为分析、语义解析等高阶任务的前提。
目标检测方法有很多,传统方法中影响力最大的是基于部件的变形模型(Deformable Part-based Model,简称DPM)和自提升级联模型(AdaBoost CascadedModel)。前者主要应用于行人检测领域,后者主要适用于人脸检测领域。但两者检测精度和适应性已被基于卷积神经网络(Convolutional Neural Network,简称CNN)的深度学习方法超越。基于CNN的深度学习方法主要应用在目标检测领域。基于CNN进行目标检测的方法可以分为两类:其中一类是基于目标候选窗口的方法,典型代表是更快速基于区域的卷积神经网络 (Faster Regions with CNN,简称Faster R-CNN)检测方法。另一类是候选窗口无关(Proposal Free)检测方法,典型候选窗口无关方法包括单次多窗口检测(SingleShot multi-box Detector,简称SSD)检测方法和实时目标(You Only Look Once,简称YOLO)检测方法。
然而,目标检测精度很大程度上依赖于图像数据的特征提取。图像数据的特征提取方法依靠图像卷积提取显著特征。现有的图像卷积方法提取图像特征计算复杂度较高,耗时较长。
发明内容
本发明解决的技术问题是如何优化卷积装置降低卷积计算复杂度,提高计算效率,以利于保持较高特征提取精度的同时,降低特征提取复杂度。
为解决上述技术问题,本发明实施例提供一种图像的卷积装置,包括:通道扩充模块,用于对图像数据的特征映射进行卷积运算,并扩充卷积得到的特征映射的通道数量,以得到第一特征映射;深度分离卷积模块,用于对所述通道扩充模块输出的第一特征映射进行深度分离卷积,以得到第二特征映射;通道压缩模块,接收所述深度分离卷积模块输出的第二特征映射,并对所述第二特征映射进行卷积运算,压缩卷积运算后的数据的通道数量,以得到第三特征映射,所述第三特征映射的通道数量小于所述第一特征映射的通道数量。
可选的,所述通道扩充模块包括:第一卷积层子模块,用于将(e·Min) 确定为所述第一卷积层子模块的输出通道数量,并对输入至所述通道扩充模块的特征映射进行(e·Min)次M×M卷积,M、Min为正整数,e表示预设扩充系数,e>1,且e为正整数,Min表示所述特征映射的通道数量;第一批处理归一化层子模块,用于对所述第一卷积层子模块的输出结果进行批处理归一化;第一受限线性单元层子模块,用于对所述第一批处理归一化层子模块输出的数据进行受限线性处理,以得到所述第一特征映射。
可选的,所述深度分离卷积模块包括:深度分离卷积层子模块,用于对所述第一特征映射进行N×N深度分离卷积,其中,N>M,且N为正整数;第二批处理归一化层子模块,用于对所述深度分离卷积层子模块得到的卷积结果进行批处理归一化;第二受限线性单元层子模块,用于对所述第二批处理归一化层子模块得到的数据进行受限线性处理,以得到所述第二特征映射。
可选的,所述通道压缩模块包括:第二卷积层子模块,用于将(e·Min) 确定为所述第二卷积层子模块的输入通道数量,并对所述第二特征映射进行 Mout次M×M卷积,Mout为正整数,Mout表示所述通道压缩模块的输出通道数量;第三批处理归一化层子模块,用于对所述第二卷积层子模块输出的卷积结果进行批处理归一化。
可选的,所述通道扩充模块包括:第一卷积批处理层子模块,用于将 (e·Min)确定为所述第一卷积批处理层子模块的输出通道数量,并采用如下公式对输入至所述通道扩充模块的特征映射进行(e·Min)次M×M卷积并进行批处理归一化,M为正整数,e表示预设扩充系数,e>1,且e、Min为正整数,Min表示所述特征映射的通道数量,
Figure RE-RE-GDA0002016850790000031
第一受限线性单元层子模块,用于对所述第一卷积批处理层子模块的输出数据进行受限线性处理,以得到所述第一特征映射;其中,z为所述第一卷积批处理层子模块的输出数据,w为基于所述特征映射对应的第一卷积批处理层子模块的权重参数,b为基于所述特征映射对应的第一卷积批处理层子模块的偏置参数,x为所述图像数据的特征映射,m为所述基于所述特征映射对应的第一卷积批处理层子模块的预设均值参数,δ为基于所述特征映射对应的第一卷积批处理层子模块的预设标准差参数,s为基于所述特征映射对应的第一卷积批处理层子模块的预设尺度参数,t为基于所述特征映射对应的第一卷积批处理层子模块的预设偏移参数。
可选的,所述深度分离卷积模块包括:深度分离卷积批处理层子模块,用于采用如下公式对输入至所述深度分离卷积模块的数据进行N×N深度分离卷积并进行批处理归一化,其中,N>M,且N为正整数;
Figure RE-RE-GDA0002016850790000032
第二受限线性单元层子模块,用于对所述深度分离卷积批处理层子模块的输出数据进行受限线性处理,以得到所述第二特征映射;其中,z1为所述第二特征映射,w1为基于所述第一特征映射确定的深度分离卷积批处理层子模块的权重参数,x1为所述第一特征映射,b1为基于所述第一特征映射确定的深度分离卷积批处理层子模块的偏置参数,m1为基于所述第一特征映射确定的深度分离卷积批处理层子模块的预设均值参数,δ1为基于所述第一特征映射确定的深度分离卷积批处理层子模块的预设标准差参数,s1为所述基于所述第一特征映射确定的深度分离卷积批处理层子模块的预设尺度参数,t1为基于所述第一特征映射确定的深度分离卷积批处理层子模块的预设偏移参数。
可选的,所述通道压缩模块包括:第二卷积批处理层子模块,用于将 (e·Min)确定为所述第二卷积批处理层子模块的输入通道数量,并采用如下公式对输入至所述通道压缩模块的数据进行Mout次M×M卷积并进行批处理归一化,Mout为正整数,表示所述通道压缩模块的输出通道数量,
Figure RE-RE-GDA0002016850790000041
其中,z2为所述第三特征映射,w2为基于所述第二特征映射确定的第二卷积批处理层子模块的权重参数,x2为所述第二特征映射,b2为基于所述第二特征映射确定的第二卷积批处理层子模块的偏置参数,m2为基于所述第二特征映射确定的第二卷积批处理层子模块的预设均值参数,δ2为基于所述第二特征映射确定的第二卷积批处理层子模块的预设标准差参数,s2为基于所述第二特征映射确定的第二卷积批处理层子模块的预设尺度参数,t2为基于所述第二特征映射确定的第二卷积批处理层子模块的预设偏移参数。
可选的,M=1,N=3。
可选的,所述卷积装置还包括:残差模块,用于当输入至所述通道扩充模块的特征映射的通道数量等于所述通道压缩模块的输出数据的通道数量时,计算所述特征映射的各个数据元素与所述输出数据的各个数据元素之和。
可选的,所述卷积装置还包括:逐点卷积模块,适于对输入至所述逐点卷积模块的数据进行逐点卷积。
为解决上述技术问题,本发明实施例还提供一种CNN网络装置,包括输入层模块、连接所述输入层模块的第一卷积层模块,所述CNN网络装置还包括:卷积装置,用于对所述第一卷积层模块输出的图像数据的特征映射进行卷积运算,所述卷积装置为上述卷积装置。
可选的,所述CNN网络装置还包括:第二卷积层模块,用于接收所述卷积装置输出的第三特征映射,并对所述第三特征映射进行逐点卷积。
可选的,所述CNN网络装置还包括:连接所述第二卷积层模块的第三卷积层模块,所述第三卷积层模块包括多个级联的第三卷积层子模块,每一第三卷积层子模块用于进行滑动步长为P的N×N卷积或M×M卷积,P为大于1的正整数,M、N为正整数。
可选的,所述CNN网络装置还包括:提取特征层模块,包括多个级联提取特征层子模块,每一提取特征层子模块各自用于接收所述第二卷积层模块以及每一第三卷积层子模块输出的卷积结果,并对每一卷积结果进行N×N 卷积,以提取所述图像数据的特征信息。
为解决上述技术问题,本发明实施例还提供一种图像的目标检测装置,包括:特征提取模块,适于基于上述CNN网络装置提取图像数据的特征信息;预测模块,适于基于所述特征信息对预设锚点窗口进行预测,以得到预测结果;抑制模块,适于对所述预测结果进行非极值抑制处理,以得到各个检测目标。
为解决上述技术问题,本发明实施例还提供一种图像的特征提取方法,包括:对图像数据的特征映射进行卷积运算,并扩充卷积得到的特征映射的通道数量,以得到第一特征映射;对所述第一特征映射进行深度分离卷积,以得到第二特征映射;对所述第二特征映射进行卷积运算,并压缩卷积运算后的数据的通道数量,以得到第三特征映射,使得所述第三特征映射的通道数量小于所述第一特征映射的通道数量。
可选的,所述对图像数据的特征映射进行卷积运算,并扩充卷积得到的特征映射的通道数量,以得到第一特征映射包括:将(e·Min)确定为所述第一特征映射的通道数量,e表示预设扩充系数,e>1,且e、Min为正整数, Min表示所述特征映射的通道数量;对所述特征映射进行(e·Min)次M×M 卷积,以得到第一卷积结果,M为正整数;对所述第一卷积结果进行批处理归一化,以得到第一归一化结果;对所述第一归一化结果进行受限线性处理,以得到所述第一特征映射。
可选的,所述对所述第一特征映射进行深度分离卷积,以得到第二特征映射包括:对所述第一特征映射进行N×N深度分离卷积,以得到第二卷积结果,其中,N>M,且N为正整数;对所述第二卷积结果进行批处理归一化,以得到第二归一化结果;将所述第二归一化结果进行受限线性处理,以得到所述第二特征映射。
可选的,所述对所述第二特征映射进行卷积运算,并压缩卷积运算后的数据的输出通道数量包括:将Mout确定为所述第三特征映射的通道数量, Mout为正整数;对所述第二特征映射进行Mout次M×M卷积,以得到第三卷积结果;对所述第三卷积结果进行批处理归一化,以得到所述第三特征映射。
可选的,所述对图像数据的特征映射进行卷积运算,并扩充卷积得到的特征映射的通道数量,以得到第一特征映射包括:将(e·Min)确定为所述第一特征映射的通道数量,e表示预设扩充系数,e>1,且e、Min为正整数, Min表示所述特征映射的通道数量;采用如下公式对所述特征映射进行 (e·Min)次M×M卷积并进行批处理归一化,M为正整数;
Figure RE-RE-GDA0002016850790000061
对批处理归一化后的输出数据进行受限线性处理,以得到所述第一特征映射;其中,z为所述第一特征映射,w为所述特征映射确定的权重参数,b为所述特征数据对应的偏置参数,x为所述图像数据的特征映射,m为预设均值参数,δ为预设标准差参数,s为预设尺度参数,t为预设偏移参数。
可选的,所述对所述第一特征映射进行深度分离卷积,以得到第二特征映射包括:采用如下公式对所述第一特征映射进行N×N深度分离卷积并进行批处理归一化,其中,N>M,且N为正整数;
Figure RE-RE-GDA0002016850790000062
对批处理归一化后的输出数据进行受限线性处理,以得到所述第二特征映射;其中,z1为所述第二特征映射,w1为基于所述第一特征映射对应的权重参数, x1为所述第一特征映射,b1为基于所述第一特征映射对应的偏置参数,m1为所述预设均值参数,δ1为预设标准差参数,s1为预设尺度参数,t1为预设偏移参数。
可选的,所述对所述第二特征映射进行卷积运算,并压缩卷积运算后的数据的输出通道数量包括:将Mout确定为所述第三特征映射的通道数量, Mout为正整数,Mout表示所述通道压缩模块的输出通道数量;采用如下公式对所述第二特征映射进行Mout次M×M卷积并进行批处理归一化,
Figure RE-RE-GDA0002016850790000071
其中,z2为所述第三特征映射,w2为基于所述第二特征映射确定的权重参数,x2为所述第二特征映射,b2为基于所述第二特征映射确定的偏置参数,m2为预设均值参数,δ2为预设标准差参数,s2为预设尺度参数,t2为预设偏移参数。
可选的,M=1,N=3。
可选的,所述特征提取方法还包括:当所述特征映射的通道数量等于所述第三特征映射的通道数量时,计算所述特征映射的各个数据元素与所述第三特征映射的各个数据元素之和,以得到第四特征映射。
可选的,所述特征提取方法还包括:对所述第四特征映射进行逐点卷积,以得到第五特征映射。
可选的,所述特征提取方法还包括:对所述第三特征映射进行逐点卷积,以得到第六特征映射。
为解决上述技术问题,本发明实施例还提供一种图像的目标检测方法,包括:基于上述图像的特征提取方法提取所述图像数据的特征信息;基于所述特征信息对预设锚点窗口进行预测,以得到预测结果;对所述预测结果进行非极值抑制处理,以得到各个检测目标。
为解决上述技术问题,本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例提供一种图像的卷积装置,包括:通道扩充模块,用于对图像数据的特征映射进行卷积运算,并扩充卷积得到的特征映射的通道数量,以得到第一特征映射;深度分离卷积模块,用于对所述通道扩充模块输出的第一特征映射进行深度分离卷积,以得到第二特征映射;通道压缩模块,接收所述深度分离卷积模块输出的第二特征映射,并对所述第二特征映射进行卷积运算,压缩卷积运算后的数据的通道数量,以得到第三特征映射,所述第三特征映射的通道数量小于所述第一特征映射的通道数量。本发明实施例提供的技术方案可以对图像数据的特征映射进行卷积处理,在通道扩充模块扩充数据的通道数量后,基于深度分离卷积模块进行深度分离卷积运算,有利于提取更多特征信息,并对运算后得到的第三特征映射的通道数量进行压缩,可以在保持较高检测精度的条件下,缩小卷积运算规模,降低卷积运算复杂度,为实现在移动终端上进行轻量级的特征提取提供可能。
进一步,本发明实施例提供一种CNN网络装置,包括输入层模块、连接所述输入层模块的第一卷积层模块,还包括:卷积装置,用于对所述第一卷积层模块输出的图像数据的特征映射进行卷积运算,所述卷积装置为上述卷积装置。对比现有技术方案,本发明实施例提供的CNN网络装置中的卷积运算规模较小,易于在移动终端上实现轻量级的特征提取,且运算规模较小可以降低CNN网络前向推理的计算复杂度。
进一步,本发明实施例提供一种图像的目标检测装置,包括:特征提取模块,适于基于上述CNN网络装置提取图像数据的特征信息;预测模块,适于基于所述特征信息对预设锚点窗口进行预测,以得到预测结果;抑制模块,适于对所述预测结果进行非极值抑制处理,以得到各个检测目标。本发明实施例提供的目标检测装置因采用了计算复杂度较低的卷积装置作为CNN基础网络,因而可以在保持较高检测精度的前提下,降低所述目标检测复杂度,有利于应用于移动终端设备。
进一步,将(e·Min)确定为所述第一特征映射的通道数量,e表示预设扩充系数,e>1,且e、Min为正整数,Min表示所述特征映射的通道数量;采用如下公式对所述特征映射进行(e·Min)次M×M卷积并进行批处理归一化,M为正整数,e表示预设扩充系数,e>1,且e为正整数,Min表示所述特征映射的通道数量;
Figure RE-RE-GDA0002016850790000091
对批处理归一化后的输出数据进行受限线性处理,以得到所述第一特征映射;其中,z为所述第一特征映射,w为所述特征映射的权重参数,b为所述图像数据的偏置参数,x为所述图像数据的特征映射,m为预设均值参数,δ为预设标准差参数,s为预设尺度参数,t为预设偏移参数。通过本发明实施例提供的技术方案,可以在采用CNN网络进行图像处理时,对批处理归一化层和与之关联的卷积层进行合并处理,进而可以减少乘、除操作,降低特征提取的计算复杂度,缩小计算规模。
附图说明
图1是现有技术的一种移动互联网络深度可分离卷积模组的示意图;
图2是本发明实施例的一种卷积装置的结构示意图;
图3是图2所示卷积装置的一种具体结构示意图;
图4是图3所示卷积装置的一种功能分解结构示意图;
图5是图2所示卷积装置的又一种具体结构示意图;
图6是本发明实施例的一种CNN网络的结构示意图;
图7是本发明实施例的一种图像的目标检测装置的结构示意图;
图8是本发明实施例的一种分类网络的结构示意图;
图9是本发明实施例的一种图像的特征提取方法的流程示意图;
图10是本发明实施例的一种图像的目标检测方法的流程示意图。
具体实施方式
如背景技术所言,现有技术仍存在各种缺点,需对图像的卷积处理及目标检测方法进行优化。
具体而言,基于卷积神经网络(Convolutional Neural Network,简称CNN) 的深度学习方法可以应用在目标检测领域。其中一类是基于目标候选窗口的检测方法,典型表示是更快速基于区域的卷积神经网络(Faster Regions with CNN,简称Faster R-CNN)检测方法。其主要原理是在共享的图像上,采用区域候选窗口网络(Region ProposalNetwork,简称RPN)计算出若干目标候选窗口,之后对目标候选窗口内的特征信息进行分类和回归,获取目标类别信息和位置信息,从而完成目标检测任务。
基于Faster R-CNN的检测方法可以获得较高的检测精度。但由于依赖于区域候选窗口网络(Region Proposal Network,简称RPN)获取目标候选窗口,会因而检测时间较长,不适用于实时性要求高的场合。
另一类是候选窗口无关(Proposal Free)的检测方法,典型候选窗口无关方法主要包括单次多窗口检测(Single Shot multi-box Detector,简称SSD)检测方法和实时目标(You Only Look Once,简称YOLO)检测方法。SSD检测方法和YOLO检测方法不需要额外计算出目标候选窗口,且没有相应特征重采样过程。进行目标检测时,SSD和YOLO可以直接在全图区域预设若干个不同尺度和纵横比的锚点窗口(Anchor Box),检测时只需前向传播整个CNN 网络,之后针对每个锚点窗口计算出目标类别的置信度,同时在锚点窗口基础上调整偏移量以获取准确的目标位置。SSD相比YOLO,主要差异在于SSD 会提取更完备的多尺度图像信息进行预测,因此SSD具备更高的检测精度。
在现有技术中,基于YOLO的检测方法依赖于少量的图像进行分类和回归,丧失较多可用信息,对小目标的检测效果不好,此外对目标的定位精度也较低。
基于SSD的检测方法使用多个图像进行分类和回归,相比YOLO而言,对小目标的检测效果较好,目标的定位精度也有所提高。具体而言,采用SSD 检测器对目标进行检测时,可以在前向传播的卷积神经网络基础上,选取多个图像的信息对预设的锚点窗口进行预测,并进行如非极值抑制(Non Maximum Suppression,简称NMS)等后处理得到最终的检测结果。其中,预测的变量可以包括目标类别的置信度和目标位置的偏移量。经典SSD检测器使用牛津大学的视觉几何组(Visual Geometry Group 16,简称VGG16)分类网络作为基础CNN网络,计算复杂度较高,并不适用于移动端或嵌入式设备。
进一步,业界提出改进的SSD检测器。所述改进的SSD检测器基于移动网络(MobileNet)作为基本网络(Base Network)。MobileNet网络使用如图1 所示的深度可分离卷积模组。所述深度可分离卷积模组100包括一个深度分离卷积模块101和一个1×1卷积模块102。其中,所述深度分离卷积模块101 由3×3的深度分离卷积层、批处理归一化层和受限线性单元层组成;1×1卷积模块102由1×1的卷积层,批处理归一化层和受限线性单元层组成。相比标准卷积层,深度可分离卷积模组100的计算复杂度通常可以降低一个数量级,且由深度可分离卷积模组100构建的卷积网络,仍然可以保持较高的精度,详细描述可以参见参考文献[1]。其中,参考文献[1]:Andrew G.Howard, Menglong Zhu,Bo Chen,etal.MobileNets:Efficient Convolutional Neural Networks for Mobile VisionApplications.Arxiv2017。然而,该深度可分离卷积模组100的复杂度仍有简化空间。
本发明实施例提供一种图像的卷积装置,包括:通道扩充模块,用于对图像数据的特征映射进行卷积运算,并扩充卷积得到的特征映射的通道数量,以得到第一特征映射;深度分离卷积模块,用于对所述通道扩充模块输出的第一特征映射进行深度分离卷积,以得到第二特征映射;通道压缩模块,接收所述深度分离卷积模块输出的第二特征映射,并对所述第二特征映射进行卷积运算,压缩卷积运算后的数据的通道数量,以得到第三特征映射,所述第三特征映射的通道数量小于所述第一特征映射的通道数量。
本发明实施例提供的技术方案可以对图像数据的特征映射进行卷积处理,在通道扩充模块扩充数据的通道数量后,基于深度分离卷积模块进行深度分离卷积运算,有利于提取更多特征信息,并对运算后得到的第三特征映射的通道数量进行压缩,可以在保持较高检测精度的条件下,缩小卷积运算规模,降低卷积运算复杂度,为实现在移动终端上进行轻量级的特征提取提供可能。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图2是本发明实施例的一种卷积装置的结构示意图。所述卷积装置200 可以用于CNN网络,作为CNN网络的卷积层,并对输入数据进行卷积运算。所述卷积装置200可以包括通道扩充模块201、深度分离卷积模块202和通道压缩模块203。
在具体实施中,所述通道扩充模块201可以用于对输入至卷积装置200 图像数据的特征映射(feature map,亦称特征图、特征图谱)进行卷积运算。所述特征映射是对原始的图像数据进行卷积得到的,特征映射的维度为[高度宽度通道数量]。通常情况下,特征映射的通道数量远高于所述图像数据的通道数量。
本领域技术人员理解,对于CNN网络,卷积层参数包括卷积核数量、步长和填充(padding),三者共同决定了卷积层输出的特征图的尺寸,是CNN 网络重要的超参数。其中卷积核数量可以指定为小于输入图像尺寸的任意值,卷积核数量越大,可提取的输入特征越复杂。增大第一特征映射的通道数量,有利于提取到图像更多的特征信息。为提取所述图像数据的较多特征信息,所述通道扩充模块201可以扩充卷积得到的数据(即第一特征映射)的通道数量,以得到特征信息较多的第一特征映射。
所述深度分离卷积模块202可以从所述通道扩充模块201接收所述第一特征映射,并对所述通道扩充模块201输出的第一特征映射进行深度分离卷积,以得到第二特征映射。所述深度分离卷积的具体卷积运算步骤可以继续参考参考文献[1],这里不再详述。
所述通道压缩模块203可以接收所述深度分离卷积模块202输出的第二特征映射,并对所述第二特征映射继续进行卷积运算,并压缩卷积运算后的数据的输出通道数量,以得到第三特征映射,使得所述第三特征映射的通道数量小于所述特征映射的通道数量,以提取显著的特征信息,减少特征(即第三特征映射)的维度,以减少计算量。
作为一个非限制性的例子,参考图3,所述通道扩充模块201可以包括:第一卷积层子模2011、第一批处理归一化层子模块2012和第一受限线性单元层子模块2013。
具体而言,所述第一卷积层子模块2011可以对输入至所述通道扩充模块 201的特征映射进行(e·Min)次M×M卷积,M为正整数,e表示预设扩充系数,e>1,且e、Min为正整数,Min表示所述图像数据的特征映射的通道数量。通常情况下,M=1,对所述特征映射进行逐点卷积,有利于降低计算复杂度。而且,所述第一卷积层子模块2011可以将(e·Min)确定为所述第一卷积层子模块2011的输出通道数量。之后,所述第一卷积层子模块2011的输出结果输入至所述第一批处理归一化层子模块2012,以对所述第一卷积层子模块2011的输出结果进行批处理归一化(Batch Normalization,简称BN)。所述第一受限线性单元层子模块2013可以用于对所述第一批处理归一化层子模块2012输出的数据进行受限线性处理,以得到所述第一特征映射,所述第一特征映射的通道数量为(e·Min)。
在具体实施中,所述深度分离卷积模块202可以包括:深度分离卷积层子模块2021、第二批处理归一化层子模块2022和第二受限线性单元层子模块 2023。具体而言,所述深度分离卷积层子模块2021可以用于对所述第一特征映射进行N×N深度分离卷积,其中,N>M,且N为正整数,例如N=3。所述第二批处理归一化层子模块2022可以用于对所述深度分离卷积层子模块 2021得到的卷积结果进行批处理归一化;所述第二受限线性单元层子模块 2023可以用于对所述第二批处理归一化层子模块2022得到的数据进行受限线性处理,以得到所述第二特征映射。所述深度分离卷积模块202可以在保持较高精度的同时,降低所述卷积装置200的计算复杂度。
在具体实施中,所述通道压缩模块203可以包括:第二卷积层子模块2031 和第三批处理归一化层子模块2032。具体而言,所述第二卷积层子模块2031 可以用于将(e·Min)确定为所述第二卷积层子模块2031的输入通道数量,并对所述第二特征映射进行Mout次M×M卷积。优选地,M=1。所述第三批处理归一化层子模块2032可以用于对所述第二卷积层子模块2031输出的卷积结果进行批处理归一化,以得到第三特征映射,所述第三特征映射的通道数量Mout小于所述第一特征映射的通道数量(e·Min)。
进一步,所述卷积装置200还可以包括:残差模块204。在具体实施中,当输入至所述通道扩充模块201的图像数据的特征映射的通道数量等于所述通道压缩模块203输出的第三特征映射的通道数量时,所述残差模块204可以用于计算所述特征映射的各个数据元素与所述第三特征映射的各个数据元素之和。作为一个变化例,当输入至所述通道扩充模块201的特征映射的通道数量不等于所述通道压缩模块203输出的第三特征映射的通道数量时,所述卷积模块200不包括所述残差模块204。本领域技术人员理解,所述残差模块204可以降低CNN网络训练难度,同时提高模型的泛化能力,可以提高深度神经网络在反向传播时的效率,有效避免梯度消失(Gradient Vanishing)。
作为一个优选实施例,M=1,N=3。此时,所述卷积装置200中的每一模块和/或子模块的功能可以如图4所示。参考图4,所述通道扩充模块201可以用于进行1×1卷积、批处理归一化和受限线性处理;所述深度分离卷积模块202可以用于进行3×3深度分离卷积、批处理归一化和受限线性处理;所述通道压缩模块203可以用于进行1×1卷积和批处理归一化。当所述图像数据的特征映射的通道数量与所述第三特征映射的通道数量相等时,所述卷积装置200可以包括所述残差模块204。所述残差模块204可以对所述特征映射的各个数据元素与所述通道压缩模块203输出的第三特征映射的数据元素进行相加,以得到所述卷积装置200的输出结果。
在具体实施中,输入至所述卷积装置200的图像数据的特征映射的数据维度可以为三维数据[Fh,Fw,Min]。Fh表示所述特征映射的高度、Fw表示所述特征映射的宽度、Min表示所述特征映射的通道数量,Fh、Fw、Min均为正整数。如果扩充系数为e,e>1,且输入至所述卷积装置200的图像数据的特征映射的数据维度为[Fh,Fw,Min],那么意味着所述通道扩充模块201中的第一卷积层子模块2011的维度可以表示为[1,1,Min,e×Min]。结合图4,对所述图像数据的特征映射进行1×1卷积得到的第一特征映射的数据维度为 [Fh,Fw,e×Min],扩充系数扩充了输入至所述第一卷积层子模块2011的通道数量。所述通道压缩模块203中的第二卷积层子模块2031的维度为[1,1, e×Min,Mout],Mout为正整数,此时,对所述深度分离卷积模块202输出的第二特征映射进行1×1卷积后得到的第三特征映射的数据维度为[Fh,Fw,Mout],压缩了输出通道数量。此外,所述通道压缩模块203省略了受限线性单元层子模块,因为不进行受限线性处理,可以使用线性映射保留更多的特征信息。
进一步,还可以设定乘性系数β,β>0。利用乘性参数β可以调整所述卷积装置200的数据维度。具体而言,所述卷积装置200的所有模块(包括子模块)的输入通道数和输出通道数均可以乘以所述乘性系数,即某一模块的输出图像数据维度为[Fh,Fw,Mout×β]。β=1时,可视为标准情况。β变化时,所述卷积装置200的参数数量也会随之变化,对应的计算量也会变化。在具体实施中,β值可以根据卷积装置200以及其所在的CNN网络装置的模型规模、计算复杂度和识别精度进行权衡(trade-off)、确定。
进一步,所述卷积装置200中包含许多的卷积运算以及对所述卷积运算结果进行批处理归一化操作,实现时需要进行乘法、除法操作,较为耗时。考虑到卷积装置200完成训练后,各个批处理归一化层子模块的参数是固定的,可以采用如下公式表示:
Figure RE-RE-GDA0002016850790000151
其中,w为进行卷积运算使用的子模块的权重参数,b为进行卷积运算使用的子模块的偏置参数,m为训练后的各个批处理归一化层子模块的均值参数,δ为训练后的各个批处理归一化层子模块的标准差参数,s为训练后的各个批处理归一化层子模块的尺度参数,t为训练后的各个批处理归一化层子模块的偏移参数。因而,为简化运算复杂度,可以对卷积运算、批处理归一化操作进行合并。具体地,式(1)为卷积运算公式,其中,x为所述图像数据, y为进行卷积运算后的子模块的输出结果。式(2)为批处理归一化公式,合并结果如式(3)所示,其中,z为所述第一卷积批处理层子模块的输出数据,是合并卷积运算和批处理归一化得到的子模块的输出。采用式(3),可以在离线情况下,完成参数计算,即:
y=w·x+b (1)
Figure RE-RE-GDA0002016850790000152
Figure RE-RE-GDA0002016850790000153
其中,在具体实施中,采用式(3)进行卷积和批处理归一化时,w表示每一模块或子模块对应的权重参数,z表示所述合并结果,b表示所述特征映射确定的偏置参数,m、δ、s、t均为固定值,可以表示每一模块或子模块的预设参数。m表示预设均值参数,δ表示预设标准差参数,s表示预设尺度参数,t表示预设偏移参数。
基于上述优化方法,可以简化所述卷积装置200。具体而言,参考图5,所述通道扩充模块201可以包括:第一卷积批处理层子模块2011’和第一受限线性单元层子模块2012’。
在具体实施中,所述第一卷积批处理层子模块2011’采用如下公式对输入至所述通道扩充模块的图像数据进行(e·Min)次M×M卷积并进行批处理归一化,M为正整数,e表示预设扩充系数,e>1,且e、Min为正整数,Min 表示所述特征映射的通道数量,之后,可以将(e·Min)确定为所述第一卷积批处理层子模块的输出通道数量:
Figure RE-RE-GDA0002016850790000161
在具体实施中,z为所述第一卷积批处理层子模块2011’的输出数据,w 为基于所述特征映射对应的第一卷积批处理层子模块的权重参数,b为基于所述特征映射对应的第一卷积批处理层子模块2011’的偏置参数,x为所述图像数据的特征映射,m为所述通道扩充模块201的预设均值参数,δ为所述通道扩充模块201的预设标准差参数,s为所述通道扩充模块201的预设尺度参数, t为所述通道扩充模块201的预设偏移参数。
所述第一受限线性单元层子模块2012’可以用于对所述第一卷积批处理层子模块2011’的输出数据进行受限线性处理,以得到所述第一特征映射。
在具体实施中,所述深度分离卷积模块202可以包括:深度分离卷积批处理层子模块2021’和第二受限线性单元层子模块2022’。
具体而言,所述深度分离卷积批处理层子模块2021’可以用于采用如下公式对输入至所述深度分离卷积模块的数据进行N×N深度分离卷积并进行批处理归一化,其中,N>M,且N为正整数:
Figure RE-RE-GDA0002016850790000162
其中,z1为所述第二特征映射,w1为基于所述第一特征映射确定的深度分离卷积批处理层子模块的权重参数,x1为所述第一特征映射,b1为基于所述第一特征映射确定的深度分离卷积批处理层子模块的偏置参数,m1为所述深度分离卷积模块的预设均值参数,δ1为所述深度分离卷积模块的预设标准差参数,s1为所述深度分离卷积模块的预设尺度参数,t1为所述深度分离卷积模块的预设偏移参数。所述第二受限线性单元层子模块2022’可以用于对所述深度分离卷积批处理层子模块的输出数据进行受限线性处理,以得到所述第二特征映射。
在具体实施中,所述通道压缩模块203可以包括:第二卷积批处理层子模块2031’。具体而言,所述第二卷积批处理层子模块2031’可以用于将(e·Min) 确定为所述第二卷积批处理层子模块的输入通道数量,并采用如下公式对输入至所述通道压缩模块的数据进行Mout次M×M卷积并进行批处理归一化, Mout为正整数,表示所述通道压缩模块的输出通道数量,
Figure RE-RE-GDA0002016850790000171
其中,z2为所述第三特征映射,w2为基于所述第二特征映射确定的第二卷积批处理层子模块的权重参数,x2为所述第二特征映射,b2为基于所述第二特征映射确定的第二卷积批处理层子模块的偏置参数,m2为基于所述第二特征映射确定的第二卷积批处理层子模块的预设均值参数,δ2为基于所述第二特征映射确定的第二卷积批处理层子模块的预设标准差参数,s2为基于所述第二特征映射确定的第二卷积批处理层子模块的预设尺度参数,t2为基于所述第二特征映射确定的第二卷积批处理层子模块的预设偏移参数。当M为1时,M×M卷积即为逐点卷积,可以降维减少运算量。
在具体实施中,所述卷积装置200还可以包括:残差模块204。具体地,当输入至所述通道扩充模块201的特征映射的通道数量等于所述通道压缩模块203的输出数据的通道数量时,所述残差模块204可以计算所述特征映射的各个数据元素与所述输出数据的各个数据元素之和。
作为一个优选实施例,M为1,N为3,具体可以参考图4所示实施例,这里不再赘述。
进一步,当所述卷积装置200不包括残差模块204时,所述卷积装置200 还可以包括逐点卷积模块(图未示出)。所述逐点卷积模块可以位于通道压缩模块203之后,对所述通道压缩模块203输出的数据进行逐点卷积。作为一个变化例,当所述卷积装置200包括残差模块204时,所述卷积装置200还可以包括位于残差模块204之后的逐点卷积模块(图未示出)。所述逐点卷积模块可以对所述残差模块204输出的数据进行逐点卷积,以对输出数据进一步降维,降低计算复杂度。
图6是本发明实施例的一种CNN网络装置的结构示意图。参考图6,所述CNN网络装置300可以包括输入层模块301、连接所述输入层模块301的第一卷积层模块302以及图2至图5所示的卷积装置200。所述卷积装置200 可以对所述第一卷积层模块302输出的图像数据进行卷积运算,以提取特征信息,减少数据维度。
在具体实施中,所述CNN网络装置300还可以包括第二卷积层模块303。所述第二卷积层模块303可以接收所述卷积装置输出的图像数据,并对所述图像数据进行逐点卷积。
在具体实施例中,所述第二卷积层模块303还可以连接第三卷积层模块 304。所述第三卷积层模块304可以包括多个级联的第三卷积层子模块3041,每一第三卷积层子模块3041可以用于进行滑动步长为P的N×N卷积或M× M卷积,P为大于1的正整数,M、N为正整数。例如,所述第三卷积层子模块3041可以进行滑动步长为2的3×3卷积。所述滑动步长指的是卷积核相邻两次卷积扫描特征图时的位置的距离,滑动步长为1时,卷积核会逐个扫描特征图的元素,滑动步长为n时会在下一次扫描跳过(n-1)个像素。
进一步,所述CNN网络装置300还可以包括提取特征层模块305。所述提取特征层模块305可以包括多个级联提取特征层子模块3051,每一提取特征层子模块3051可以用于接收所述第二卷积层模块303以及每一第三卷积层子模块3041输出的卷积结果,并对每一卷积结果进行N×N卷积,以提取所述图像数据的特征信息,例如,N=3。
本领域技术人员理解,在所述CNN网络装置300中,也可以利用上述优化方法对卷积运算及批处理归一化进行合并,以降低计算复杂度,这里不再详述。
图7是本发明实施例的一种图像的目标检测装置的结构示意图。基于所述目标检测装置400,可以基于移动终端进行多目标检测。
具体而言,所述目标检测装置400可以包括特征提取模块401,适于基于图6所示的CNN网络装置300提取图像数据的特征信息;预测模块402,适于基于所述特征信息对预设锚点窗口进行预测,以得到预测结果;抑制模块 403,适于对所述预测结果进行非极值抑制(Non Maximum Suppression,简称 NMS)处理,以得到各个检测目标。
本领域技术人员理解,基于CNN网络装置的目标检测装置400,通常会基于分类网络裁剪出基础CNN网络作为特征提取模块401,以用于特征提取。具体地,目标检测可以在前向传播的基础CNN网络上,选取多个提取特征子模块的信息来对预设的锚点窗口进行预测,预测变量包括目标类别的置信度和目标位置的偏移量,之后进行非极值抑制来获取最终的检测结果。
图8是本发明实施例的一种分类网络的结构示意图。如图8所示,所述分类网络500用于对基础CNN网络501进行训练。作为一个非限制性的例子,所述基础CNN网络501可以包括3×3卷积层模块5011、多个级联的卷积装置 5012和1×1卷积层模块5013。需要说明的是,在具体实施中,级联的卷积装置5012中的深度分离卷积模块,在进行N×N深度分离卷积时,滑动步长可以为1,也可以为2。滑动步长大于1,可以缩减深度分离卷积结果的空域尺度。
对所述基础CNN网络501进行训练可以在图像网数据库(ImageNet)数据集上进行预训练,具体可以参考现有技术,这里不再详述。
在预训练所述分类网络之后,可以将所述基础CNN网络501裁减出来用于检测装置中。所述基础CNN网络501中的卷积装置5012的个数可以根据具体任务调整。需要说明的是,为了得到高分辨率卷积特征结果,可以将其中部分级联的卷积装置5012的输出数据作为高分辨率卷积特征层用于后续处理模块(图未示)中。
本领域技术人员理解,在完成预训练之后,得到基础CNN网络501之后,可以添加其他模块,得到目标检测装置。之后,可以对所述目标检测装置进行训练。
所述目标检测装置的训练目标函数可以包括多个目标类别,实现同时检测多个类别的目标。具体而言,可以设定
Figure RE-RE-GDA0002016850790000201
为指示器,作为第i个锚点窗口和第j个目标类别为p的标注窗口的匹配结果。若两窗口的重叠率高于阈值T0,则
Figure RE-RE-GDA0002016850790000202
为1,否则为0。匹配策略允许
Figure RE-RE-GDA0002016850790000203
以使得多个锚点窗口可以匹配同一个标注窗口。训练的整体目标损失函数是置信度损失函数和定位损失函数的加权和,如式(4)所示:
Figure RE-RE-GDA0002016850790000204
其中,N是匹配的锚点窗口数量。若N为0,则目标损失为0。α是定位损失的权重系数。f表示指示器矢量,c表示置信度矢量,t表示预测窗口位置矢量,g表示目标标注窗口矢量,Lconf(f,c)表示置信度损失函数,Lloc(f,t,g)表示定位损失函数。
在具体实施中,置信度损失函数是对多个类别的置信度计算柔性最大值传输函数(Softmax)损失,如式(5)、(6)所示:
Figure RE-RE-GDA0002016850790000205
Figure RE-RE-GDA0002016850790000206
其中,log表示对数函数,exp表示指数函数,
Figure RE-RE-GDA0002016850790000207
是第i个预测窗口属于目标类别p的置信度。Pos表示正样本集,Neg表示负样本集。当锚点窗口与所有目标标注窗口的重叠率小于T0时,即为负样本。P=0表示背景类别,即负样本类别。
在具体实施中,定位损失函数是对预测窗口和目标标注窗口之间差异的量化估计。计算定位损失函数之前,先使用锚点窗口对目标标注窗口进行编码,如式(7)所示:
Figure RE-RE-GDA0002016850790000211
其中,
Figure RE-RE-GDA0002016850790000212
是第i个锚点窗口的中心位置的横坐标、纵坐标、宽度、高度;
Figure RE-RE-GDA0002016850790000213
是第j个目标标注窗口的中心位置的横坐标、纵坐标、宽度、高度;
Figure RE-RE-GDA0002016850790000214
是第j个目标标注窗口编码后的中心位置的横坐标、纵坐标、宽度、高度。
之后,可以使用平滑的一阶范数计算所述定位损失函数,如式(8)所示:
Figure RE-RE-GDA0002016850790000215
其中,mε(cx,cy,w,h)即为窗口位置参数,分别是中心位置的横坐标、纵坐标、宽度、高度。
Figure RE-RE-GDA0002016850790000216
是第i个预测窗口的第m个位置参数,
Figure RE-RE-GDA0002016850790000217
是第j个目标标注窗口编码后的第m个位置参数。平滑一阶范数HL1如式(9)所示:
Figure RE-RE-GDA0002016850790000218
本领域技术人员理解,对所述目标检测装置进行训练时,可以使用训练数据作为输入,对整个网络进行前向传播,并根据式(4)计算损失值。再反向传播,更新整个网络的模型参数。具体实施时,可以采用随机梯度下降 (Stochastic Gradient Descent,简称SGD)方法来进行迭代优化,进而得到各个模型参数。进一步,在完成训练后,可以使用训练得到的模型参数对新的图像进行目标检测。
在具体实施中,结合图6和图7,所述第三卷积层模块304中的每一第三卷积层子模块3041可以用于进行滑动步长为2的3×3卷积以及逐点卷积,因而所述第三卷积层子模块3041的数据维度逐步减小,其输出结果对应着不同数据维度。相应地,与之连接的提取特征层子模块3051用于进行3×3卷积,从而可以生成所述预测模块402中的预测数据。所述预测数据包括目标类别的置信度和目标位置的偏移量。
例如,以图6为例,某一第三卷积层子模块3041的输出数据Xi,数据维度是[Hi,Wi,Ci],维度数值分别表示输出数据Xi的高度、宽度和通道数量;对应的特征提取子模块3051的数据为Fi,数据维度是[Kh,Kw,Ci,p+4],Kh、Kw、Ci分别表示所述特征提取子模块3051的高度、宽度、输入通道数和输出通道数,其中p表示目标类别数量,4表示目标的四个位置参数。对Xi与Fi进行卷积,可以生成预测数据Yi,数据维度是[Hi,Wi,p+4]。
由于实际场景中的目标具有不同的尺度和横纵比,对于选定的第三卷积特征层子模块3041的任一位置,均可以生成若干锚点窗口。因而,可以根据选定的第三卷积特征层子模块3041的索引k计算该目标的专属尺度参数sk,如式(11)所示:
Figure RE-RE-GDA0002016850790000221
其中,smin是最小尺度,smax是最大尺度,m表示选定的第三卷积特征层子模块3041的数量,sk是所述选定的第三卷积特征层子模块中第k层的目标尺度。
此外,还可以设定横纵比的序列ar∈{1,2,3,1/2,1/3},此时,第k层第三卷积特征层子模块3041的任一锚点窗口的宽为
Figure RE-RE-GDA0002016850790000222
高为
Figure RE-RE-GDA0002016850790000223
图9是本发明实施例的一种图像的特征提取方法的流程示意图。所述特征提取方法可以采用图6所示的CNN网络装置执行。具体地,所述特征提取方法可以包括以下步骤:
步骤S101,对图像数据的特征映射进行卷积运算,并扩充卷积得到的特征映射的通道数量,以得到第一特征映射;
步骤S102,对所述第一特征映射进行深度分离卷积,以得到第二特征映射;
步骤S103,对所述第二特征映射进行卷积运算,并压缩卷积运算后的数据的通道数量,以得到第三特征映射,使得所述第三特征映射的通道数量小于所述第一特征映射的通道数量。
具体而言,在步骤S101中,可以对图像数据进行卷积,得到所述图像的特征映射,之后对输入至卷积装置的特征映射进行卷积运算,并扩充卷积得到的特征映射的通道数量,以得到第一特征映射。
在具体实施时,可以将(e·Min)确定为所述第一特征映射的通道数量, e表示预设扩充系数,e>1,且e、Min为正整数,Min表示所述图像数据的通道数量;对所述图像数据进行(e·Min)次M×M卷积,以得到第一卷积结果, M为正整数;之后对所述第一卷积结果进行批处理归一化,以得到第一归一化结果;进一步地,对所述第一归一化结果进行受限线性处理,以得到所述第一特征映射。
作为一个变化实施例,可以将(e·Min)确定为所述第一特征映射的通道数量,e表示预设扩充系数,e>1,且e为正整数,Min表示所述图像数据的通道数量;采用如下公式对所述图像数据进行(e·Min)次M×M卷积并进行批处理归一化,M为正整数,e表示预设扩充系数,e>1,且e、Min为正整数,Min表示所述特征映射的通道数量;
Figure RE-RE-GDA0002016850790000231
对批处理归一化后的输出数据进行受限线性处理,以得到所述第一特征映射;其中,z为所述第一特征映射,w为所述第一特征映射对应的权重参数,b为所述第一特征映射对应的偏置参数,x为所述图像数据的特征映射,m为预设均值参数,δ为预设标准差参数,s为预设尺度参数,t为预设偏移参数。
在步骤S102中,可以对所述第一特征映射进行深度分离卷积,以得到第二特征映射。具体而言,可以对所述第一特征映射进行N×N深度分离卷积,以得到第二卷积结果,其中,N>M,且N为正整数;对所述第二卷积结果进行批处理归一化,以得到第二归一化结果;将所述第二归一化结果进行受限线性处理,以得到所述第二特征映射。
作为一个变化例,可以采用如下公式对所述第一特征映射进行N×N深度分离卷积并进行批处理归一化,其中,N>M,且N为正整数;
Figure RE-RE-GDA0002016850790000232
对批处理归一化后的输出数据进行受限线性处理,以得到所述第二特征映射;其中,z1为所述第二特征映射,w1为基于所述第一特征映射确定的权重参数, x1为所述第一特征映射,b1为基于所述第一特征映射确定的偏置参数,m1为所述预设均值参数,δ1为预设标准差参数,s1为预设尺度参数,t1为预设偏移参数。
在步骤S103中,可以对所述第二特征映射进行卷积运算,并压缩卷积运算后的数据的通道数量,以得到第三特征映射,使得所述第三特征映射的通道数量小于所述第一特征映射的通道数量。
具体而言,可以将Mout确定为所述第三特征映射的通道数量;对所述第二特征映射进行Mout次M×M卷积,以得到第三卷积结果;对所述第三卷积结果进行批处理归一化,以得到所述第三特征映射。
作为一个变化实施例,可以将Mout确定为所述第三特征映射的通道数量,采用如下公式对所述第二特征映射进行Mout次M×M卷积并进行批处理归一化,
Figure RE-RE-GDA0002016850790000241
其中,z2为所述第三特征映射,w2为基于所述第二特征映射确定的权重参数, x2为所述第二特征映射,b2为基于所述第二特征映射确定的偏置参数,δ2为预设标准差参数,s2为预设尺度参数,t2为预设偏移参数。
作为一个优选实施例,M=1,N=3。
进一步,当所述图像数据的特征映射的通道数量等于所述第三特征映射的通道数量时,计算所述特征映射的各个数据元素与所述第三特征映射的各个数据元素之和,以得到第四特征映射。
进一步,可以对所述第四特征映射进行逐点卷积,以得到第五特征映射。
进一步,可以对所述第三特征映射进行逐点卷积,以得到第六特征映射。
图10是本发明实施例的一种图像的目标检测方法的流程示意图。所述目标检测方法可以用于图像数据的多目标检测,且可以应用于移动终端。具体地,所述目标检测方法可以包括:
步骤S201,基于图9所示的图像的特征提取方法提取所述图像数据的特征信息;
步骤S202,基于所述特征信息对预设锚点窗口进行预测,以得到预测结果;
步骤S203,对所述预测结果进行非极值抑制处理,以得到各个检测目标。
在具体实施中,可以执行步骤S201,即根据图9所示的图像的特征提取方法提取所述图像数据的特征信息。
在步骤S202中,可以基于所述特征信息对预设锚点窗口进行预测,以得到预测结果。
在步骤S203中,可以对所述预测结果进行非极值抑制处理,以得到各个检测目标。
为了进行性能对比,本发明实施例提供的目标检测装置在计算机视觉标准数据集(PASCAL VOC)数据集上进行了训练和测试。具体实施时,采用数据集VOC2012trainval和数据集VOC2007trainval作为训练集;并采用数据集VOC2007test作为测试集。输入的图像数据为300像素,且所述基础CNN 网络中使用17个卷积装置,其扩充系数e=6,乘性系数β=[1,0.75]进行实验仿真。需要说明的是,对所述基础CNN网络进行训练是在单块图像处理器(Graphic Processing Unit,简称GPU)Titan X GPU上进行的。
具体实施时,VOC数据集有20类目标,评估检测性能的指标是平均精度均值(meanAverage Precision,简称mAP),如式(12)所示:
Figure RE-RE-GDA0002016850790000251
其中,r表示召回率(Recall),p(r)表示对应于某一召回率的精度(Precision),pinterp(r)表示召回率大于r时的最大精度,AP是在召回率为{0,0.1,……,1.0} 时计算精度均值,mAP表示对多类目标计算精度均值的平均结果,检测目标 Q=20。
表1
Figure RE-RE-GDA0002016850790000252
Figure RE-RE-GDA0002016850790000261
表1给出了本发明实施例提供的目标检测转置和现有MobileNet-SSD检测器的性能对比。其中,本发明第一实施例中,乘性系数β=1,本发明第二实施例中,乘性系数β=0.75。从表中可以发现,本发明第一实施例提供的目标检测装置的平均精度均值虽然略低于MobileNet-SSD检测器,但模型大小 (单位,兆字节,简称MB)约为MobileNet-SSD检测器的二分之一。本发明第二实施例的平均精度均值会再下降一些,但模型大小约为MobileNet-SSD 检测器的三分之一。本发明实施例分别在处理器(Central ProcessingUnit,简称CPU)型号为i7 5930K的CPU和Titan X GPU上测试了运行速度(单位为帧每秒(frames per second,简称fps)),均快于MobileNet-SSD检测器。实验证明,调整乘性系数可以进行模型规模和识别精度的权衡。
由上,本发明实施例可以提供计算复杂度较低的卷积装置,基于所述卷积装置可以获得计算复杂度较低的卷积神经网络和目标检测装置,所述目标检测装置易于在移动终端进行图像数据的目标检测,检测效率高。
进一步地,本发明实施例还公开一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述图9和图10所示实施例中所述的方法技术方案。优选地,所述存储介质可以包括诸如非挥发性(Non-Volatile)存储器或者非瞬态(Non-Transitory)存储器等计算机可读存储介质。所述存储介质可以包括ROM、RAM、磁盘或光盘等。
进一步地,本发明实施例还公开一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述图1至图5所示实施例中所述的方法技术方案。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (28)

1.一种图像的卷积装置,其特征在于,包括:
通道扩充模块,用于对图像数据的特征映射进行卷积运算,并扩充卷积得到的特征映射的通道数量,以得到第一特征映射;
深度分离卷积模块,用于对所述通道扩充模块输出的第一特征映射进行深度分离卷积,以得到第二特征映射;
通道压缩模块,接收所述深度分离卷积模块输出的第二特征映射,并对所述第二特征映射进行卷积运算,压缩卷积运算后的数据的通道数量,以得到第三特征映射,所述第三特征映射的通道数量小于所述第一特征映射的通道数量。
2.根据权利要求1所述的卷积装置,其特征在于,所述通道扩充模块包括:第一卷积层子模块,用于将(e·Min)确定为所述第一卷积层子模块的输出通道数量,并对输入至所述通道扩充模块的特征映射进行(e·Min)次M×M卷积,M、Min为正整数,e表示预设扩充系数,e>1,且e为正整数,Min表示所述特征映射的通道数量;
第一批处理归一化层子模块,用于对所述第一卷积层子模块的输出结果进行批处理归一化;
第一受限线性单元层子模块,用于对所述第一批处理归一化层子模块输出的数据进行受限线性处理,以得到所述第一特征映射。
3.根据权利要求2所述的卷积装置,其特征在于,所述深度分离卷积模块包括:
深度分离卷积层子模块,用于对所述第一特征映射进行N×N深度分离卷积,其中,N>M,且N为正整数;
第二批处理归一化层子模块,用于对所述深度分离卷积层子模块得到的卷积结果进行批处理归一化;
第二受限线性单元层子模块,用于对所述第二批处理归一化层子模块得到的数据进行受限线性处理,以得到所述第二特征映射。
4.根据权利要求3所述的卷积装置,其特征在于,所述通道压缩模块包括:
第二卷积层子模块,用于将(e·Min)确定为所述第二卷积层子模块的输入通道数量,并对所述第二特征映射进行Mout次M×M卷积,Mout为正整数,Mout表示所述通道压缩模块的输出通道数量;
第三批处理归一化层子模块,用于对所述第二卷积层子模块输出的卷积结果进行批处理归一化。
5.根据权利要求1所述的卷积装置,其特征在于,所述通道扩充模块包括:第一卷积批处理层子模块,用于将(e·Min)确定为所述第一卷积批处理层子模块的输出通道数量,并采用如下公式对输入至所述通道扩充模块的特征映射进行(e·Min)次M×M卷积并进行批处理归一化,M为正整数,e表示预设扩充系数,e>1,且e、Min为正整数,Min表示所述特征映射的通道数量,
Figure FDA0001919863450000021
第一受限线性单元层子模块,用于对所述第一卷积批处理层子模块的输出数据进行受限线性处理,以得到所述第一特征映射;
其中,z为所述第一卷积批处理层子模块的输出数据,w为基于所述特征映射对应的第一卷积批处理层子模块的权重参数,b为基于所述特征映射对应的第一卷积批处理层子模块的偏置参数,x为所述图像数据的特征映射,m为所述基于所述特征映射对应的第一卷积批处理层子模块的预设均值参数,δ为基于所述特征映射对应的第一卷积批处理层子模块的预设标准差参数,s为基于所述特征映射对应的第一卷积批处理层子模块的预设尺度参数,t为基于所述特征映射对应的第一卷积批处理层子模块的预设偏移参数。
6.根据权利要求5所述的卷积装置,其特征在于,所述深度分离卷积模块包括:
深度分离卷积批处理层子模块,用于采用如下公式对输入至所述深度分离卷积模块的数据进行N×N深度分离卷积并进行批处理归一化,其中,N>M,且N为正整数,
Figure FDA0001919863450000031
第二受限线性单元层子模块,用于对所述深度分离卷积批处理层子模块的输出数据进行受限线性处理,以得到所述第二特征映射;
其中,z1为所述第二特征映射,w1为基于所述第一特征映射确定的深度分离卷积批处理层子模块的权重参数,x1为所述第一特征映射,b1为基于所述第一特征映射确定的深度分离卷积批处理层子模块的偏置参数,m1为基于所述第一特征映射确定的深度分离卷积批处理层子模块的预设均值参数,δ1为基于所述第一特征映射确定的深度分离卷积批处理层子模块的预设标准差参数,s1为基于所述第一特征映射确定的深度分离卷积批处理层子模块的预设尺度参数,t1为基于所述第一特征映射确定的深度分离卷积批处理层子模块的预设偏移参数。
7.根据权利要求6所述的卷积装置,其特征在于,所述通道压缩模块包括:第二卷积批处理层子模块,用于将(e·Min)确定为所述第二卷积批处理层子模块的输入通道数量,并采用如下公式对输入至所述通道压缩模块的数据进行Mout次M×M卷积并进行批处理归一化,Mout为正整数,表示所述通道压缩模块的输出通道数量,
Figure FDA0001919863450000032
其中,z2为所述第三特征映射,w2为基于所述第二特征映射确定的第二卷积批处理层子模块的权重参数,x2为所述第二特征映射,b2为基于所述第二特征映射确定的第二卷积批处理层子模块的偏置参数,m2为基于所述第二特征映射确定的第二卷积批处理层子模块的预设均值参数,δ2为基于所述第二特征映射确定的第二卷积批处理层子模块的预设标准差参数,s2为基于所述第二特征映射确定的第二卷积批处理层子模块的预设尺度参数,t2为基于所述第二特征映射确定的第二卷积批处理层子模块的预设偏移参数。
8.根据权利要求3或4或6或7所述的卷积装置,其特征在于,M=1,N=3。
9.根据权利要求1所述的卷积装置,其特征在于,还包括:
残差模块,用于当输入至所述通道扩充模块的特征映射的通道数量等于所述通道压缩模块的输出数据的通道数量时,计算所述特征映射的各个数据元素与所述输出数据的各个数据元素之和。
10.根据权利要求1至7、9任一项所述的卷积装置,其特征在于,还包括:
逐点卷积模块,适于对输入至所述逐点卷积模块的数据进行逐点卷积。
11.一种CNN网络装置,包括输入层模块、连接所述输入层模块的第一卷积层模块,其特征在于,还包括:
卷积装置,用于对所述第一卷积层模块输出的图像数据的特征映射进行卷积运算,所述卷积装置为权利要求1至10任一项所述的卷积装置。
12.根据权利要求11所述的CNN网络装置,其特征在于,还包括:
第二卷积层模块,用于接收所述卷积装置输出的第三特征映射,并对所述第三特征映射进行逐点卷积。
13.根据权利要求12所述的CNN网络装置,其特征在于,还包括:
连接所述第二卷积层模块的第三卷积层模块,所述第三卷积层模块包括多个级联的第三卷积层子模块,每一第三卷积层子模块用于进行滑动步长为P的N×N卷积或M×M卷积,P为大于1的正整数,M、N为正整数。
14.根据权利要求13所述的CNN网络装置,其特征在于,还包括:
提取特征层模块,包括多个级联提取特征层子模块,每一提取特征层子模块各自用于接收所述第二卷积层模块以及每一第三卷积层子模块输出的卷积结果,并对每一卷积结果进行N×N卷积,以提取所述图像数据的特征信息。
15.一种图像的目标检测装置,其特征在于,包括:
特征提取模块,适于基于权利要求11至14任一项所述的CNN网络装置提取图像数据的特征信息;
预测模块,适于基于所述特征信息对预设锚点窗口进行预测,以得到预测结果;
抑制模块,适于对所述预测结果进行非极值抑制处理,以得到各个检测目标。
16.一种图像的特征提取方法,其特征在于,包括:
对图像数据的特征映射进行卷积运算,并扩充卷积得到的特征映射的通道数量,以得到第一特征映射;
对所述第一特征映射进行深度分离卷积,以得到第二特征映射;
对所述第二特征映射进行卷积运算,并压缩卷积运算后的数据的通道数量,以得到第三特征映射,使得所述第三特征映射的通道数量小于所述第一特征映射的通道数量。
17.根据权利要求16所述的特征提取方法,其特征在于,所述对图像数据的特征映射进行卷积运算,并扩充卷积得到的特征映射的通道数量,以得到第一特征映射包括:
将(e·Min)确定为所述第一特征映射的通道数量,e表示预设扩充系数,e>1,且e、Min为正整数,Min表示所述特征映射的通道数量;
对所述特征映射进行(e·Min)次M×M卷积,以得到第一卷积结果,M为正整数;
对所述第一卷积结果进行批处理归一化,以得到第一归一化结果;
对所述第一归一化结果进行受限线性处理,以得到所述第一特征映射。
18.根据权利要求17所述的特征提取方法,其特征在于,所述对所述第一特征映射进行深度分离卷积,以得到第二特征映射包括:
对所述第一特征映射进行N×N深度分离卷积,以得到第二卷积结果,其中,N>M,且N为正整数;
对所述第二卷积结果进行批处理归一化,以得到第二归一化结果;
将所述第二归一化结果进行受限线性处理,以得到所述第二特征映射。
19.根据权利要求18所述的特征提取方法,其特征在于,所述对所述第二特征映射进行卷积运算,并压缩卷积运算后的数据的输出通道数量包括:
将Mout确定为所述第三特征映射的通道数量,Mout为正整数;
对所述第二特征映射进行Mout次M×M卷积,以得到第三卷积结果;
对所述第三卷积结果进行批处理归一化,以得到所述第三特征映射。
20.根据权利要求16所述的特征提取方法,其特征在于,所述对图像数据的特征映射进行卷积运算,并扩充卷积得到的特征映射的通道数量,以得到第一特征映射包括:
将(e·Min)确定为所述第一特征映射的通道数量,e表示预设扩充系数,e>1,且e、Min为正整数,Min表示所述特征映射的通道数量;
采用如下公式对所述特征映射进行(e·Min)次M×M卷积并进行批处理归一化,M为正整数;
Figure FDA0001919863450000061
对批处理归一化后的输出数据进行受限线性处理,以得到所述第一特征映射;
其中,z为所述第一特征映射,w为所述特征映射确定的权重参数,b为所述特征数据对应的偏置参数,x为所述图像数据的特征映射,m为预设均值参数,δ为预设标准差参数,s为预设尺度参数,t为预设偏移参数。
21.根据权利要求20所述的特征提取方法,其特征在于,所述对所述第一特征映射进行深度分离卷积,以得到第二特征映射包括:
采用如下公式对所述第一特征映射进行N×N深度分离卷积并进行批处理归一化,其中,N>M,且N为正整数;
Figure FDA0001919863450000062
对批处理归一化后的输出数据进行受限线性处理,以得到所述第二特征映射;
其中,z1为所述第二特征映射,w1为基于所述第一特征映射对应的权重参数,x1为所述第一特征映射,b1为基于所述第一特征映射对应的偏置参数,m1为所述预设均值参数,δ1为预设标准差参数,s1为预设尺度参数,t1为预设偏移参数。
22.根据权利要求21所述的特征提取方法,其特征在于,所述对所述第二特征映射进行卷积运算,并压缩卷积运算后的数据的输出通道数量包括:
将Mout确定为所述第三特征映射的通道数量,Mout为正整数,Mout表示所述通道压缩模块的输出通道数量;
采用如下公式对所述第二特征映射进行Mout次M×M卷积并进行批处理归一化,
Figure FDA0001919863450000071
其中,z2为所述第三特征映射,w2为基于所述第二特征映射确定的权重参数,x2为所述第二特征映射,b2为基于所述第二特征映射确定的偏置参数,m2为预设均值参数,δ2为预设标准差参数,s2为预设尺度参数,t2为预设偏移参数。
23.根据权利要求18或19或21或22所述的特征提取方法,其特征在于,M=1,N=3。
24.根据权利要求16所述的特征提取方法,其特征在于,还包括:
当所述特征映射的通道数量等于所述第三特征映射的通道数量时,计算所述特征映射的各个数据元素与所述第三特征映射的各个数据元素之和,以得到第四特征映射。
25.根据权利要求24所述的特征提取方法,其特征在于,还包括:
对所述第四特征映射进行逐点卷积,以得到第五特征映射。
26.根据权利要求16至22任一项所述的特征提取方法,其特征在于,还包括:
对所述第三特征映射进行逐点卷积,以得到第六特征映射。
27.一种图像的目标检测方法,其特征在于,包括:
基于权利要求16至26任一项所述的图像的特征提取方法提取所述图像数据的特征信息;
基于所述特征信息对预设锚点窗口进行预测,以得到预测结果;
对所述预测结果进行非极值抑制处理,以得到各个检测目标。
28.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求16至26任一项或权利要求27所述的方法的步骤。
CN201811589348.3A 2018-12-25 2018-12-25 图像的特征提取、目标检测方法及装置、卷积装置、cnn网络装置、终端 Active CN111368850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811589348.3A CN111368850B (zh) 2018-12-25 2018-12-25 图像的特征提取、目标检测方法及装置、卷积装置、cnn网络装置、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811589348.3A CN111368850B (zh) 2018-12-25 2018-12-25 图像的特征提取、目标检测方法及装置、卷积装置、cnn网络装置、终端

Publications (2)

Publication Number Publication Date
CN111368850A true CN111368850A (zh) 2020-07-03
CN111368850B CN111368850B (zh) 2022-11-25

Family

ID=71205952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811589348.3A Active CN111368850B (zh) 2018-12-25 2018-12-25 图像的特征提取、目标检测方法及装置、卷积装置、cnn网络装置、终端

Country Status (1)

Country Link
CN (1) CN111368850B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507861A (zh) * 2020-12-04 2021-03-16 江苏科技大学 一种多层卷积特征融合的行人检测方法
CN112867010A (zh) * 2021-01-14 2021-05-28 中国科学院国家空间科学中心 基于卷积神经网络的射频指纹嵌入式实时识别方法及系统
CN113205131A (zh) * 2021-04-28 2021-08-03 阿波罗智联(北京)科技有限公司 图像数据的处理方法、装置、路侧设备和云控平台
WO2023097423A1 (en) * 2021-11-30 2023-06-08 Intel Corporation Apparatus and method for dynamic quadruple convolution in 3d cnn
WO2024012143A1 (zh) * 2022-07-15 2024-01-18 华为技术有限公司 图像数据处理方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137406A1 (en) * 2016-11-15 2018-05-17 Google Inc. Efficient Convolutional Neural Networks and Techniques to Reduce Associated Computational Costs
CN108446694A (zh) * 2017-02-16 2018-08-24 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
CN108510473A (zh) * 2018-03-09 2018-09-07 天津工业大学 结合深度可分离卷积与通道加权的fcn视网膜图像血管分割
CN108898112A (zh) * 2018-07-03 2018-11-27 东北大学 一种近红外人脸活体检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137406A1 (en) * 2016-11-15 2018-05-17 Google Inc. Efficient Convolutional Neural Networks and Techniques to Reduce Associated Computational Costs
CN108446694A (zh) * 2017-02-16 2018-08-24 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
CN108510473A (zh) * 2018-03-09 2018-09-07 天津工业大学 结合深度可分离卷积与通道加权的fcn视网膜图像血管分割
CN108898112A (zh) * 2018-07-03 2018-11-27 东北大学 一种近红外人脸活体检测方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507861A (zh) * 2020-12-04 2021-03-16 江苏科技大学 一种多层卷积特征融合的行人检测方法
CN112867010A (zh) * 2021-01-14 2021-05-28 中国科学院国家空间科学中心 基于卷积神经网络的射频指纹嵌入式实时识别方法及系统
CN112867010B (zh) * 2021-01-14 2023-04-18 中国科学院国家空间科学中心 基于卷积神经网络的射频指纹嵌入式实时识别方法及系统
CN113205131A (zh) * 2021-04-28 2021-08-03 阿波罗智联(北京)科技有限公司 图像数据的处理方法、装置、路侧设备和云控平台
WO2023097423A1 (en) * 2021-11-30 2023-06-08 Intel Corporation Apparatus and method for dynamic quadruple convolution in 3d cnn
WO2024012143A1 (zh) * 2022-07-15 2024-01-18 华为技术有限公司 图像数据处理方法、装置和存储介质

Also Published As

Publication number Publication date
CN111368850B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN111126258B (zh) 图像识别方法及相关装置
CN111368850B (zh) 图像的特征提取、目标检测方法及装置、卷积装置、cnn网络装置、终端
EP3971772B1 (en) Model training method and apparatus, and terminal and storage medium
CN107766894B (zh) 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
CN111310598B (zh) 一种基于3维和2维混合卷积的高光谱遥感图像分类方法
CN109902697B (zh) 多目标检测方法、装置及移动终端
CN118314353B (zh) 一种基于双分支多尺度特征融合的遥感图像分割方法
CN114663798B (zh) 一种基于强化学习的单步视频内容识别方法
CN110555405A (zh) 目标跟踪方法及装置、存储介质和电子设备
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN115311550B (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
CN116630850A (zh) 基于多注意力任务融合与边界框编码的孪生目标跟踪方法
CN116229323A (zh) 一种基于改进的深度残差网络的人体行为识别方法
Pan et al. Distill-then-prune: An efficient compression framework for real-time stereo matching network on edge devices
CN112348011A (zh) 一种车辆定损方法、装置及存储介质
CN114549591B (zh) 时空域行为的检测和跟踪方法、装置、存储介质及设备
CN111061774B (zh) 搜索结果准确性判断方法、装置、电子设备及存储介质
CN111382761B (zh) 一种基于cnn的检测器、图像检测方法及终端
CN116977859A (zh) 基于多尺度图像切割和实例困难度的弱监督目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant