CN109376591B - 深度学习特征与视觉特征联合训练的船只目标检测方法 - Google Patents
深度学习特征与视觉特征联合训练的船只目标检测方法 Download PDFInfo
- Publication number
- CN109376591B CN109376591B CN201811050911.XA CN201811050911A CN109376591B CN 109376591 B CN109376591 B CN 109376591B CN 201811050911 A CN201811050911 A CN 201811050911A CN 109376591 B CN109376591 B CN 109376591B
- Authority
- CN
- China
- Prior art keywords
- feature
- layer
- multiplied
- size
- traditional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 title claims abstract description 32
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 230000000007 visual effect Effects 0.000 title claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000012544 monitoring process Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 31
- 238000005286 illumination Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 5
- 238000000513 principal component analysis Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 24
- 230000008569 process Effects 0.000 abstract description 12
- 230000000694 effects Effects 0.000 abstract description 3
- 230000000295 complement effect Effects 0.000 abstract description 2
- 239000003086 colorant Substances 0.000 abstract 1
- 238000010276 construction Methods 0.000 abstract 1
- 238000013480 data collection Methods 0.000 abstract 1
- 230000004913 activation Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种深度学习特征与视觉特征联合训练的船只目标检测方法,包括以下步骤:样本数据采集、CNN特征提取、传统不变矩特征及LOMO特征提取、特征降维、特征融合网络FCNN构建,最后利用样本数据对网络进行训练,利用测试数据对模型进行测试。对比现有技术,本发明的视觉特征提取过程综合考虑了船只形状、颜色和纹理的特点,使得检测过程具有可解释性,可以规范CNN反向传播过程学习到传统特征以外的其他特征。本方法快速高效、准确度高,对于复杂场景如云雾、阴天、下雨等情况依然具有较好的检测结果,鲁棒性高。可以提取到与传统特征互补的特征,并且速度极快,可以达到实时监测的效果。
Description
技术领域
本发明属于船只检测计算机视觉领域,具体涉及一种深度学习特征与视觉特征联合训练的船只目标检测方法。
背景技术
我国拥有广阔的海岸线、海域以及丰富的海洋资源,随着经济不断发展,海上船只数量越来越多,船只检测有着迫切的实际需求。船只目标检测就是利用计算机视觉和图像处理技术,从图像中检测出感兴趣的船只目标,进一步可以提取大量的有用信息,在军事和民用领域都有着广泛的应用前景。例如在民用领域,通过获取船只的位置、大小、行驶方向、行驶速度等信息,可以对特定海域、海湾港口进行监测,对海洋水运交通、非法捕鱼、非法走私、非法倾倒油污等进行监测等,对于经济发展、环境保护、海域使用管理、海洋权益维护都具有重要意义。
现今社会中,视频监控摄像头无处不在,而在监控中心的电视墙上也会同时显示多路监控画面,如果只是依靠人眼观察检测,很容易错过视频中的异常事件。随着计算机网络的迅速发展,人们越来越青睐于利用计算机视觉代替人眼对传感器得到的视频图像进行分析,获取图像中的目标信息。图片目标检测一般分为两个步骤:特征提取和分类器分类定位,针对船只检测使用的特征主要有两大类:视觉特征和卷积神经网络(CNN)提取的特征。
(一)视觉特征。视觉特征使用较多的是颜色、形状和纹理。
(1)颜色特征。由于颜色往往和目标或场景十分相关,因此颜色特征是应用最为广泛的视觉特征。此外,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,具有较高的鲁棒性。较常用的颜色特征有:颜色直方图和信息熵。
(2)形状特征。形状特征描述了目标局部的性质,其所反映的目标形状信息与人的直观感受不完全一致。较常用的形状特征有:面积、长宽比和不变矩等。其中,不变矩是目标经过平移、旋转、缩放以及比例变换后仍保持不变的矩特征量,可以选择7个几何不变矩(Hu) 来表征目标区域的形状特性。
(3)纹理特征。纹理特征描述了图像或图像区域所对应目标的表面性质。作为一种统计特征,纹理特征具有旋转不变性,并且对噪声有较强的抵抗能力。但是当图像的分辨率变化的时候,所计算出来的纹理可能会有较大偏差。另外,由于有可能受到光照、反射情况的影响,从2-D图像中反映出来的纹理不一定是3-D物体表面真实的纹理。灰度共生矩阵是最为常用的纹理特征,具有较强的适应能力和鲁棒性。
(二)CNN特征
自然图像有其固有特性,即对于图像的某一部分,其统计特性与其他部分相同。这意味着在这一部分学习到的特征也能用在另一部分上,因此对于图像上的所有位置,可以使用同样的学习特征。换句话说,对于大尺寸的图像r×c(r为行数,c为列数)识别问题,首先从图像中随机选取一小块区域a×b(a为行数,b为列数)作为训练样本,从该小块样本中学习到一些特征,然后将这些特征作为滤波器,与原始整个图像作卷积运算,从而得到原始图像中任意位置上卷积后的特征映射图。该方法能够对多种目标进行特征的自动学习,获得船只的高维特征,检测结果精度相比传统方法有了大幅度提升。
然而,传统特征和CNN特征应用于船只检测存在以下局限性:
(1)传统特征具有优秀的可解释性和可控性,在平静海面下的检测结果良好。但是当有云影、海浪等干扰时,误检率较高。且人工选取特征的速度较慢,不利于实际应用。
(2)卷积神经网络可以自动地学习船只的高维特征,检测速度也较快。但是黑匣子式的特征理解性差,且不同大小地船只在经过卷积之后,特征保留程度不同,也会导致不同船只检测效果的不一致。
发明内容
本发明解决的技术问题是:克服上述现有技术的不足,提供一种深度学习特征与视觉特征联合训练的船只目标检测方法。
本发明技术方案提供一种深度学习特征与传统特征联合训练的船只目标检测方法,包括以下步骤:
步骤①,样本数据采集,包括采集可见光下的沿海区域监控视频帧数据,提取图像,对包含船只目标的图像进行标注;
步骤②,CNN特征提取,包括将得到的样本输入到卷积神经网络中进行训练,得到船只目标的训练结果模型,卷积神经网络输出CNN特征;
步骤③,传统特征提取,包括提取得到的船只目标区域的不变矩特征以及LOMO特征;
步骤④,特征降维,包括将不变矩形状特征和LOMO特征进行连接,采用主成分分析算法,将连接后的传统特征降维;
步骤⑤,构建特征融合网络FCNN,实现将CNN特征和传统特征映射到统一的特征空间;
步骤⑥,利用样本数据训练特征融合网络FCNN,利用测试数据对训练所得特征融合网络FCNN进行验证和测试。
而且,步骤①中,根据PASCAL VOC数据集的标准,对包含船只目标的图像进行标注,产生的标注文件为每张图像上船只目标的最小包围矩形的四个顶点坐标和对应影像,从而构建船只图像样本库。
而且,步骤②中,采用基于区域的卷积神经网络,由多个交替的卷积层、池化层和全连接层组成,采用反向传播算法进行更新。
而且,步骤②中,采用的基于区域的卷积神经网络,结构包括如下,
1)第一层:卷积核大小为11×11,max pooling的卷积大小为2×2,再连接一个BN层,输出的特征图feature map大小为55×55;
2)第二层:卷积核大小为5×5,max pooling的卷积大小为2×2,再连接一个BN层,输出的特征图feature map大小为27×27;
3)第三层:卷积核大小为3×3,max pooling的卷积大小为2×2,再连接一个BN层,输出的特征图feature map大小为13×13;
4)第四层:卷积核大小为3×3,输出的特征图feature map大小为13×13;
5)第五层:卷积核大小为3×3,输出的特征图feature map大小为13×13;
6)两个全连接层FC7和FC8。
而且,步骤③中,LOMO特征综合考虑了光照和视角变化对图像的影响,首先采用Retinex 算法对输入的图像进行预处理,减少光照带来的影响;其次针对Retinex算法预处理过后的图像,应用HSV颜色直方图提取颜色特征;此外,还应用了SILTP描述子提取图像的光照不变纹理特征。
而且,步骤⑤中,特征融合网络FCNN中设置融合层和回归层,融合层的输入为CNN特征和传统特征,设目标检测的船只类别数目为T,回归层的输出为T×1的向量,每一行的值的大小范围为0到1,代表了样本属于每个类的概率。
对比现有技术,本发明具有下列优点和积极效果:
传统特征提取过程综合考虑了船只形状、颜色和纹理的特点,使得检测过程具有可解释性,可以规范CNN反向传播过程学习到传统特征以外的其他特征。此外,Hu不变矩特征只有7个,局部最大化触发(LOMO,Local Maximal Occurrence)特征中使用的颜色直方图特征HSV和尺度不变性纹理特征(SILTP,scale iivariant local ternary pattern)计算也较简单,因此总体计算速度不会减慢。
CNN特征提取部分采用基于区域的卷积神经网络,该方法快速高效、准确度高。对于复杂场景如云雾、阴天、下雨等情况依然具有较好的检测结果,鲁棒性高。可以提取到与传统特征互补的特征,并且速度极快,可以达到实时监测的效果。
深度学习特征与传统特征联合训练,一方面能够利用经典的船只检测算子,让检测过程简单化,更利于理解;另一方面,联合训练,特征互补,可以让检测过程全自动化,不需要人机交互,利用实际应用。
附图说明
图1为本发明实施例的总体流程图。
图2为本发明实施例步骤③-a中Hu不变矩提取的流程图。
图3为本发明实施例步骤③-b中LOMO特征提取的流程图。
图4是本发明实施例步骤⑤中融合网络的结构图。
具体实施方式
为了更好地理解本发明的技术方案,下面结合附图和实施例对本发明做进一步的详细说明。
参见图1,本发明实施例所提供方法包括以下步骤:
①样本数据采集。
本发明所需采集的数据主要为可见光下的沿海区域监控视频帧数据。对于采集到的视频数据,具体实施时可通过解码提取获得每帧图像,大小为1920×1080像素。根据帕斯卡数据集(PASCAL VOC)的标准,对包含船只目标的图像进行标注,产生的标注文件为每张图片上船只目标的最小包围矩形的四个顶点坐标和对应影像,从而构建船只图像样本库。
②CNN特征提取。
将步骤①得到的样本统一尺寸到224×224大小,然后输入到卷积神经网络中进行训练,得到船只目标的训练结果模型。本发明实施例所使用的基于区域的卷积神经网络包括如下层结构:
7)第一层:卷积核大小为11×11,max pooling的卷积大小为2×2,再连接一个BN层,输出的特征图feature map大小为55×55
8)第二层:卷积核大小为5×5,max pooling的卷积大小为2×2,再连接一个BN层,输出的特征图feature map大小为27×27
9)第三层:卷积核大小为3×3,max pooling的卷积大小为2×2,再连接一个BN层,输出的特征图feature map大小为13×13
10)第四层:卷积核大小为3×3,输出的特征图feature map大小为13×13
11)第五层:卷积核大小为3×3,输出的特征图feature map大小为13×13
6)两个全连接层FC7和FC8
5个卷积层、3个池化层(max pooling)、3个归一化层(BN层)和2个全连接层,最终一个全连接层FC8的输出为一个4096维的向量,即为CNN特征。
具体实施时,深度学习网络由多个交替的卷积层,池化层,全连接层组成,主要采用反向传播算法(BP算法)更新网络参数,由一个输入层,多个隐藏层和一个输出层组层。层与层之间通过不同的卷积方式连接。对于普通卷积层,上一层的特征层被一个可学习的卷积核进行卷积,然后通过一个激活函数,就可以得到输出特征层。每一个输出层可能是组合卷积多个输入层的值:
其中,Mj表示选择的输入层的集合,i是输入层单元的索引值,j是输出层单元的索引值,表示输入层与输出层之间的权重,即卷积核每个位置上面的数值,表示各层之间的加性偏置,f()表示该输出层的激活函数,表示l层的第j个输出层,表示l-1层的第i个输入层,l用于标识第l层卷积层,*表示卷积。
对于池化层来说,有N个输入层,就有N个输出层,只是每个输出层都变小了。
其中,down()表示一个下采样函数。一般是对输入图像的不同n×n区域内所有像素进行求和。这样输出图像在两个维度上都缩小了n倍,具体实施时用户可预设n的取值。每个输出层都对应一个属于自己的乘性偏置β和一个加性偏置b,表示第l层的第j个输出层的乘性偏置量,表示第l层的第j个输出层的加性偏置量,表示l层的第j个输出层,表示l-1层的第j个输入层。
对于输出的全连接层来说,卷积输入多个特征层,再对这些卷积值求和得到一个输出层,这样的效果往往是比较好的。实施例用αij表示在得到第j个输出特征层中第i个输入层的权值或者贡献。这样,第j个输出层可以表示为:
③传统特征提取。
提取步骤①得到的船只目标区域的传统特征,本发明使用的视觉特征包括:Hu不变矩特征以及LOMO特征,实施例的实现具体如下:
a不变矩,属于形状特征,是图像中具有平移、缩放和旋转不变性的数字特征。图2是 Hu不变矩的提取流程图。首先对输入图像进行预处理,实施例中预处理包括中值滤波平滑和二值化两个操作,然后利用SLIC(simple linear iterative clustering,简单的线性迭代聚类)分割算法进行区域分割,最后计算每个船只区域的7个Hu不变矩特征。平滑和二值化、分割为现有技术,本发明不予赘述。假设输入图像在预处理阶段被离散为M×N大小的数字图像 f(x,y),(x,y)表示图像上像素点的坐标,其几何矩定义为:
其中,p为图像x方向的阶数,q为图像y方向的阶数。集合{mpq}由f(x,y)唯一确定,反之f(x,y)也由{mpq}唯一确定。
图像f(x,y)的中心矩upq定义为:
其中,x0、y0为图像的中心坐标,其计算公式为:
其中,m10、m01是图像的1阶几何矩,m00是图像的0阶几何矩。由此可以得到图像的不大于3阶的中心矩分别为u00、u01、u10、u11、u20、u02、u12、u21、u30、u03。
对于一般的灰度图像而言,中心矩有以下规律:
1)u20和u02是区域灰度分别围绕通过灰度中心的垂直轴线和水平轴线的惯性矩。若 u20>u02,则说明图像在水平方向上拉长;反之,则说明图像在垂直方向上拉长。
2)u30和u03的幅值可以用来度量物体分别对于垂直轴线和水平轴线的对称性。若u30=0,则物体对于垂直轴线是对称的;若u03=0,则物体对于水平轴线是对称的。对于旋转和尺度敏感,可通过归一化得到尺度不变性,归一化中心矩ηpq定义为:
其中,r为中间变量,p大于等于0,q大于等于0,且p+q大于等于2。
利用2阶和3阶中心矩可以导出7个具有平移、缩放和旋转不变性的特征集合Φ1~Φ7:
Φ1=η20+η02
Φ3=(η30-3η12)2+(3η21-η03)2
Φ4=(η30+η12)2+(η21-η03)2
Φ5=(η30-3η12)(η30+η12)[(η30+η12)2-(3η21+η03)2]+(3η21 +η03)(η03+η21)[3(η30+η12)2-(η21+η03)2]
Φ6=(η20-η02)2[(η30+η12)2-(η21+η03)2]+4η11(η30+η12)(η21+η03)
b LOMO特征即Local Maximal Occurrence Feature,是颜色特征和纹理特征的综合,该特征从颜色和摄像机视角两个方面来描述图片中的船只。
图3是LOMO特征的提取流程图,首先采用图像增强Retinex算法对输入的图像进行预处理,减少光照带来的影响。Retinex算法考虑了图片的颜色信息,旨在输出一幅接近人类感知、色彩丰富的彩色图像,尤其可以增强阴影区域的细节信息。
其次将经过预处理的影像均分成5个垂直条带,在每个垂直条带内,使用20×20大小(Size) 的子窗口,以10个像素的重叠度(Strip)来定位船只区域的局部块。即先将图像均分成5个垂直条带,然后再在每个条带内,使用20×20的子窗口大小,strip=10进行滑动,n即为子窗口的个数。以船只大小为1280×480为例,每一个垂直条带的大小为256×480,每个垂直条带内20×20大小的子窗口个数为n=25×47=1175,则一共有子窗口1175×5=5875,具体的个数需要根据船只目标的大小来定。
在每个子窗口内,提取两种SILTP直方图(即SILTP0.3 4,3和SILTP0.3 4,5,一共34个)和一个8×8×8的联合HSV直方图,每一个直方图代表了子窗口内一种模式的发生概率。 SILTP通过引入尺度不变局部对比容差来改善LBP描述子,实现了对图像尺度变化的不变性以及对噪声的鲁棒性。假设子窗口内像素点的位置为(xc,yc),SILTP的计算方式为:
其中,Ic是子窗口中心像素点的灰度值,Iq是半径为R的Q邻域所对应的像素点的灰度值,是将所有邻域的二进制值连成字符串,t为阈值范围,st(Ic,Iq)表示某一像素位置的二进制值。参见图3,两个方向的SILTP中,SILTP0.3 4,3表示在半径为3的4邻域内,以0.3为阈值提取纹理特征。同理,SILTP0.3 4,5表示在半径为5的4邻域内,以0.3为阈值提取纹理特征。
然后比较处于同一垂直位置上的所有子窗口,选取这些子窗口中每一类直方图中的最大值,作为最终的直方图。得到的直方图实现了对视角变化的不变性,同时也捕捉了船只目标的局部区域特征。
实施例中,具体实现如下:
1)颜色是描述可见光影像的重要特征。但是,由于安置在沿海区域的摄像机光照情况不可控制,相机的设置也不同。因此,图片之间的颜色在不同的相机视图中会有所不同。本发明:
首先采用Retinex算法对输入的图像进行预处理,减少光照带来的影响。Retinex算法考虑了图片的颜色信息,旨在输出一幅接近人类感知、色彩丰富的彩色图像,尤其可以增强阴影区域的细节信息。
其次针对Retinex算法预处理过后的图片,应用HSV颜色直方图提取颜色特征;除此之外,还应用了SILTP(Scale Invariant Local Ternary Pattern)描述子提取图片的光照不变纹理特征。SILTP通过引入尺度不变局部对比容差来改善LBP描述子,实现了对图像尺度变化的不变性以及对噪声的鲁棒性。
2)不同摄像头下的船只通常会以不同的视角出现,这也会给船只检测带来困难。因此,
本发明使用滑动窗口来描述船只区域的局部细节。具体地:
首先使用20×20大小的子窗口,以10个像素的重叠度来定位船只区域的局部块。在每个子窗口内,提取两种SILTP直方图(34个)和一个8×8×8的联合HSV直方图,每一个直方图代表了子窗口内一种模式的发生概率。
然后比较处于同一垂直位置上的所有子窗口,选取这些子窗口中每一类直方图中的最大值,作为最终的直方图。得到的直方图实现了对视角变化的不变性,同时也捕捉了船只目标的局部区域特征。
本发明以船只目标大小1280×480为例,缩放后还将得到640×240和320×120大小的目标。通过连接全部特征,得到的最终特征拥有(8×8×8个颜色直方图+34×2个SILTP直方图)× (127+63+31个垂直条带)=694×221=153,374个维度。
④特征降维。
将步骤③得到的不变矩形状特征和LOMO特征进行连接,维度会非常大,本发明实施例采用主成分分析PCA算法,将连接后的传统特征降维到4096维度。主成分分析算法为现有技术,本发明不予赘述。
⑤构建特征融合网络。
为将CNN特征和传统特征映射到统一的特征空间,本发明提出了一种特征融合网络 FCNN。图4是融合网络的结构图,该网络在反向传播过程中,深度学习超参数会受传统特征的影响进行更新。融合后的特征会比单独的CNN特征和传统特征更具有区别性。
实施例具体实现如下,
FC7、FC8层为卷积神经网络的输出层,传统特征的输出也为4096维的特征向量,融合层(fusion层,即FC9层)的输入为CNN特征和传统特征:
x=[LOMO+Gu,CNNfeatures]
其中,x是fusion层的输入,LOMO是局部最大化特征,Hu是不变矩特征,CNNfeatures是卷积神经网络特征。融合层的输出(4096维)ZFusion(x)为:
假设目标检测的船只类别数目为T,则FC9层的输出为4096×1维的向量,softmax层(回归层)的输出为T×1的向量,每一行的值的大小范围为0到1,代表了这个样本属于每个类的概率。FC9层到Softmax层的计算过程即为网络训练,寻找最佳的T×4096矩阵,使得softmax 层损失最小的过程。计算过程根据BP算法,迭代后第l层的超参数为:
其中,
W(l)表示迭代前第l层的权重,b(l)表示迭代前第l层的偏移量;
ΔW(l)表示迭代后第l层的权重梯度,Δb(l)表示迭代后第l层的偏移量梯度;
α表示第L层的激活率,λ表示第l层的学习率,m表示样本的个数。
损失函数p(y=j|x;θ)的计算公式为:
其中,
y表示网络的一个输出节点;
j表示输出的值即类别编号;
;表示输入向量;
θ表示全部模型参数,大小是k*(n+1);
e表示自然对数;
n表示类别总数;
k表示第k个类别。
网络最后一层使用交叉熵损失:
其中,
Pk为最后一层的输出,J为将每个类别的概率输出做运算之后得到的交叉熵损失。
⑥训练特征融合网络FCNN。
利用样本数据训练特征融合网络FCNN,利用测试数据对训练所得特征融合网络FCNN进行验证和测试。
实施例采用了训练图片3500张,测试图片3500张,在利用训练图片完成融合网络训练后,利用测试图片进行测试。将检测图片输入训练完成的模型即可得到结果。
至此,本专利所使用的一种深度学习特征与传统特征联合训练的船只目标检测方法具体实施过程介绍完毕。具体实施时,本发明技术方案所提供流程可由本领域技术人员采用计算机软件技术实现自动运行。
本文中所描述的具体实例仅仅是对本发明作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (6)
1.一种深度学习特征与传统特征联合训练的船只目标检测方法,其特征在于,包括以下步骤:
步骤①,样本数据采集,包括采集可见光下的沿海区域监控视频帧数据,提取图像,对包含船只目标的图像进行标注;
步骤②,CNN特征提取,包括将得到的样本输入到卷积神经网络中进行训练,得到船只目标的训练结果模型,卷积神经网络输出CNN特征;
步骤③,传统特征提取,包括提取得到的船只目标区域的不变矩特征以及LOMO特征;
步骤④,特征降维,包括将不变矩形状特征和LOMO特征进行连接,采用主成分分析算法,将连接后的传统特征降维;
步骤⑤,构建特征融合网络FCNN,实现将CNN特征和传统特征映射到统一的特征空间;
步骤⑥,利用样本数据训练特征融合网络FCNN,利用测试数据对训练所得特征融合网络FCNN进行验证和测试。
2.根据权利要求1所述的一种深度学习特征与传统特征联合训练的船只目标检测方法,其特征在于:步骤①中,根据PASCAL VOC数据集的标准,对包含船只目标的图像进行标注,产生的标注文件为每张图像上船只目标的最小包围矩形的四个顶点坐标和对应影像,从而构建船只图像样本库。
3.根据权利要求1所述的一种深度学习特征与传统特征联合训练的船只目标检测方法,其特征在于:步骤②中,采用基于区域的卷积神经网络,由多个交替的卷积层、池化层和全连接层组成,采用反向传播算法进行更新。
4.根据权利要求3所述的一种深度学习特征与传统特征联合训练的船只目标检测方法,其特征在于:步骤②中,采用的基于区域的卷积神经网络,结构包括如下,
1)第一层:卷积核大小为11×11,max pooling的卷积大小为2×2,再连接一个BN层,输出的特征图feature map大小为55×55;
2)第二层:卷积核大小为5×5,max pooling的卷积大小为2×2,再连接一个BN层,输出的特征图feature map大小为27×27;
3)第三层:卷积核大小为3×3,max pooling的卷积大小为2×2,再连接一个BN层,输出的特征图feature map大小为13×13;
4)第四层:卷积核大小为3×3,输出的特征图feature map大小为13×13;
5)第五层:卷积核大小为3×3,输出的特征图feature map大小为13×13;
6)两个全连接层FC7和FC8。
5.根据权利要求1所述的一种深度学习特征与传统特征联合训练的船只目标检测方法,其特征在于:步骤③中,LOMO特征综合考虑了光照和视角变化对图像的影响,首先采用Retinex算法对输入的图像进行预处理,减少光照带来的影响;其次针对Retinex算法预处理过后的图像,应用HSV颜色直方图提取颜色特征;此外,还应用了SILTP描述子提取图像的光照不变纹理特征。
6.根据权利要求1或2或3或4或5所述的一种深度学习特征与传统特征联合训练的船只目标检测方法,其特征在于:步骤⑤中,特征融合网络FCNN中设置融合层和回归层,融合层的输入为CNN特征和传统特征,设目标检测的船只类别数目为T,回归层的输出为T×1的向量,每一行的值的大小范围为0到1,代表了样本属于每个类的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811050911.XA CN109376591B (zh) | 2018-09-10 | 2018-09-10 | 深度学习特征与视觉特征联合训练的船只目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811050911.XA CN109376591B (zh) | 2018-09-10 | 2018-09-10 | 深度学习特征与视觉特征联合训练的船只目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109376591A CN109376591A (zh) | 2019-02-22 |
CN109376591B true CN109376591B (zh) | 2021-04-16 |
Family
ID=65405386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811050911.XA Active CN109376591B (zh) | 2018-09-10 | 2018-09-10 | 深度学习特征与视觉特征联合训练的船只目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109376591B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298271A (zh) * | 2019-06-17 | 2019-10-01 | 上海大学 | 基于关键点检测网络和空间约束混合模型的海水区域检测方法 |
CN110555465B (zh) * | 2019-08-13 | 2022-03-11 | 成都信息工程大学 | 一种基于cnn与多特征融合的天气图像识别方法 |
CN111639513A (zh) * | 2019-12-10 | 2020-09-08 | 珠海大横琴科技发展有限公司 | 一种船只遮挡识别方法、装置及电子设备 |
CN111178165B (zh) * | 2019-12-12 | 2023-07-18 | 河南省润通路空一体交通发展有限公司 | 一种基于小样本训练视频空对地目标情报自动提取方法 |
CN111612028A (zh) * | 2019-12-13 | 2020-09-01 | 珠海大横琴科技发展有限公司 | 一种基于深度学习的船只特征优化方法、装置和电子设备 |
CN111368690B (zh) * | 2020-02-28 | 2021-03-02 | 珠海大横琴科技发展有限公司 | 基于深度学习的海浪影响下视频图像船只检测方法及系统 |
CN114419122A (zh) * | 2020-10-12 | 2022-04-29 | 中国科学院微电子研究所 | 一种图像分割模型的超参数获取方法及装置 |
CN112491854B (zh) * | 2020-11-19 | 2022-12-09 | 郑州迪维勒普科技有限公司 | 一种基于fcnn的多方位安全入侵检测方法及系统 |
CN113691940B (zh) * | 2021-08-13 | 2022-09-27 | 天津大学 | 一种基于csi图像的增量式智能室内定位方法 |
TWI771250B (zh) * | 2021-12-16 | 2022-07-11 | 國立陽明交通大學 | 用於降低資料維度的裝置及方法、用於轉換資料維度的裝置的操作方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292259A (zh) * | 2017-06-15 | 2017-10-24 | 国家新闻出版广电总局广播科学研究院 | 基于AdaRank的深度特征和传统特征的集成方法 |
CN107563303A (zh) * | 2017-08-09 | 2018-01-09 | 中国科学院大学 | 一种基于深度学习的鲁棒性舰船目标检测方法 |
WO2018067080A1 (en) * | 2016-10-07 | 2018-04-12 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | A marine vessel identification method |
CN108388904A (zh) * | 2018-03-13 | 2018-08-10 | 中国海洋大学 | 一种基于卷积神经网络和协方差张量矩阵的降维方法 |
-
2018
- 2018-09-10 CN CN201811050911.XA patent/CN109376591B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018067080A1 (en) * | 2016-10-07 | 2018-04-12 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | A marine vessel identification method |
CN107292259A (zh) * | 2017-06-15 | 2017-10-24 | 国家新闻出版广电总局广播科学研究院 | 基于AdaRank的深度特征和传统特征的集成方法 |
CN107563303A (zh) * | 2017-08-09 | 2018-01-09 | 中国科学院大学 | 一种基于深度学习的鲁棒性舰船目标检测方法 |
CN108388904A (zh) * | 2018-03-13 | 2018-08-10 | 中国海洋大学 | 一种基于卷积神经网络和协方差张量矩阵的降维方法 |
Non-Patent Citations (3)
Title |
---|
《S-CNN-BASED SHIP DETECTION FROM HIGH-RESOLUTION REMOTE SENSING IMAGES》;Ruiqian Zhang,et al;《The International Archives of the Photogrammetry,Remote Sensing and Spatial Information Sciences》;20161231;第XLI-B7卷;第423-430页 * |
《基于多特征融合和深度学习的图像分类算法》;李爽;《基于多特征融合和深度学习的图像分类算法》;20180831;第46卷(第4期);第50-56页 * |
《面向目标识别的多特征融合研究与实现》;张建虎;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180615(第6期);第I138-1311页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109376591A (zh) | 2019-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376591B (zh) | 深度学习特征与视觉特征联合训练的船只目标检测方法 | |
He et al. | A fully convolutional neural network for wood defect location and identification | |
CN111553929B (zh) | 基于融合网络的手机屏幕缺陷分割方法、装置及设备 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
Li et al. | SAR image change detection using PCANet guided by saliency detection | |
Yin et al. | Hot region selection based on selective search and modified fuzzy C-means in remote sensing images | |
CN109684922B (zh) | 一种基于卷积神经网络的多模型对成品菜的识别方法 | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN109871902B (zh) | 一种基于超分辨率对抗生成级联网络的sar小样本识别方法 | |
CN109740665A (zh) | 基于专家知识约束的遮挡图像船只目标检测方法及系统 | |
CN111626993A (zh) | 一种基于嵌入式FEFnet网络的图像自动检测计数方法及系统 | |
CN110796009A (zh) | 基于多尺度卷积神经网络模型的海上船只检测方法及系统 | |
CN110633708A (zh) | 一种基于全局模型和局部优化的深度网络显著性检测方法 | |
CN109919223B (zh) | 基于深度神经网络的目标检测方法及装置 | |
CN109635726B (zh) | 一种基于对称式深度网络结合多尺度池化的滑坡识别方法 | |
CN111598098A (zh) | 一种基于全卷积神经网络的水尺水位线检测及有效性识别方法 | |
CN111368742B (zh) | 基于视频分析的双黄交通标线的重建识别方法及系统 | |
CN109977834B (zh) | 从深度图像中分割人手与交互物体的方法和装置 | |
CN114241194A (zh) | 一种基于轻量级网络的仪表识别及读数方法 | |
CN109726660A (zh) | 一种遥感图像船舶识别方法 | |
CN110910497B (zh) | 实现增强现实地图的方法和系统 | |
CN112330639A (zh) | 一种用于彩色-热红外图像的显著性检测方法 | |
Wang et al. | Scattering Information Fusion Network for Oriented Ship Detection in SAR Images | |
Li et al. | Evaluation the performance of fully convolutional networks for building extraction compared with shallow models | |
Li et al. | Surface Defect Detection of Seals Based on K‐Means Clustering Algorithm and Particle Swarm Optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |