CN116597275A - 一种基于数据增强的高速移动目标识别方法 - Google Patents
一种基于数据增强的高速移动目标识别方法 Download PDFInfo
- Publication number
- CN116597275A CN116597275A CN202310573773.8A CN202310573773A CN116597275A CN 116597275 A CN116597275 A CN 116597275A CN 202310573773 A CN202310573773 A CN 202310573773A CN 116597275 A CN116597275 A CN 116597275A
- Authority
- CN
- China
- Prior art keywords
- target
- data set
- representing
- micro
- speed moving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 6
- 230000033001 locomotion Effects 0.000 claims description 81
- 230000006870 function Effects 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 9
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 12
- 238000013135 deep learning Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000137 annealing Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于数据增强的高速移动目标识别方法,属于目标识别领域。本发明引入高速移动目标背景数据集,将经过可微生成对抗网络生成的伪目标经过分类网络得到伪目标的置信度,将置信度大于设定阈值的目标和初始数据集中的目标实例分割对象一同增强到高速移动目标背景数据集中,解决了样本不足的问题和高速移动目标训练背景和工作环境不一致的问题。在对可微生成对抗网络生成的伪目标进行训练时,将伪目标的置信度与正样本边界框和真实框的CIoU值进行加权求和,形成新的YOLOv7目标检测算法中的置信度损失函数,改进的损失函数能够更加准确的衡量目标的真实性。本方法能够在小样本下,实现对特定类型的高速移动目标的准确识别。
Description
技术领域
本发明属于图片数据增强、目标检测和深度学习领域,具体涉及高速移动目标的数据增强和目标识别领域,具体提供一种高速移动目标识别方法。
背景技术
2012年以前,由于算力低、深度学习理论不成熟等问题,目标检测主要以传统算法为主。随着算力的提升、相关理论的发展、各种开源数据集的丰富,2012年后,大量的深度学习模型开始涌现。最开始的模型主要是以R-CNN为首的两阶段目标检测模型。由于对目标检测实时性要求的提高,2016年之后,目标检测模型开始转向以YOLO系列为首的one-stage模型。2017年底,谷歌推出了Transformers模型,随后开始应用于视觉领域,在2020年时Facebook AI团队基于Transformers提出了一种端到端的目标检测模型,开启了目标检测新的研究浪潮。
目前,基于深度学习的目标识别算法大体分为两类:一类是基于区域建议的两阶段目标检测算法,包括R-CNN、SPP-NET、Fast R-CNN、Faster R-CNN、R-FCN、Mask R-CNN等,这些算法有一个共同的缺点为网络实时性较差;另一类是基于回归分析的单阶段目标检测算法,包括YOLO系列各种识别算法、SSD、FPN、RetinaNet等。基于回归的目标识别算法不仅在识别的实时性方面优于基于候选区域的识别算法,而且在识别准确度方面也优于基于候选区域的识别算法。
目前,将现有的目标识别技术直接用于高速移动目标的识别存在以下四点困难:(1)拍摄到的高速移动目标图像通常存在不同程度的运动模糊,这极大的影响了识别的准确度。(2)训练样本较少,目前大多数的目标识别方法都是基于公开的大型数据集,比如,COCO数据集等,但由于收集到的高速移动目标的训练样本较少,所以需要对样本进行扩充和增强。(3)收集到的高速移动目标图片多来自一些展览活动等,这存在训练时所用数据集的背景和实际工作背景不一致的问题,导致在实际工作时对高速移动目标的识别准确率降低。上述问题是目前亟待解决的核心问题。
发明内容
针对上述问题,本发明提出了一种新的方法用于产生多级运动模糊核,获得更加贴近高速移动目标实际运动模糊情况的运动模糊图像,用于数据增强;同时引入高速移动目标背景数据集,将经过可微生成对抗网络生成的伪目标经过分类网络得到伪目标的置信度,将置信度大于设定阈值的目标和初始数据集中的目标的实例分割对象一同增强到高速移动目标背景数据集中。在对可微生成对抗网络生成的伪目标进行训练时,将伪目标的置信度与正样本边界框和真实框的CIoU值进行加权求和,形成新的YOLOv7目标检测算法中的置信度损失函数,改进的损失函数能够更加准确的衡量目标的真实性。本方法能够在少量训练图片的条件下,仍然能够准确的对高速移动目标进行识别。
本发明的技术方案为一种基于数据增强的高速移动目标识别方法,该方法包括:
步骤1:利用特定类型的高速移动目标和与目标类型相似的其余对象一同构建初始数据集,对初始数据集中的图像进行标注,得到带有标注文件的初始数据集;
步骤2:收集特定类型的高速移动目标的工作环境图片,构成高速移动目标的背景数据集;
步骤3:根据初始数据集的标注文件裁剪出初始数据集中每一张图像目标的实例分割对象,形成初始crop数据集;
步骤4:使用可微生成对抗网络对步骤3得到的初始crop数据集进行训练,得到增强crop数据集,所述可微生成对抗网络包括可微鉴别器网络D和可微生成器网络G,具体步骤如下:
步骤4.1:构建可微鉴别器网络D;
步骤4.2:构建可微生成器网络G,G的输入来自隐空间的随机变量z,生成特定目标类型的高速移动目标;
步骤4.3:随机噪声经过可微生成器网络G不断生成目标类型的伪样本,组成增强crop数据集,达到扩充数据集的目的;
步骤4.4:对可微鉴别器网络D的损失LD和可微生成器网络G的损失LG进行交替循环优化;LG和LD公式分别如下所示:
其中,表示数学期望,x代表真实图像,z表示随机变量,pdata(x)代表真实样本分布,pz(z)代表生成的样本分布,G(z)是随机变量z经过生成器G之后生成的高速移动目标伪图像,D(·)是图像经过可微鉴别器网络G得到的概率,它是一个0~1范围的实数,T(·)代表一种可微的数据增强手段,fD,fG分别为可微鉴别器D和可微生成器G对应使用的损失函数;
步骤5:基于LeNet,训练一个分类网络,筛选经过步骤4得到的增强crop数据集;具体步骤如下:
步骤5.1:将步骤3得到的初始crop数据集按8:2分为训练集和验证集;
步骤5.2:将训练集输入到分类网络进行训练,共训练100轮,使用验证集得到的准确率作为评价指标,保存准确率最高的模型;
步骤5.3:使用保存的分类网络模型对增强crop数据集中的伪图片进行测试,保存置信度大于或等于设定阈值conf的图片,置信度作为可微生成对抗网络产生的伪图片和真实图片之间的相似度衡量的标准,存储该图片对应的置信度,小于阈值conf的图片从增强crop数据集中移除;
步骤6:将步骤3得到的初始crop数据集和步骤5得到的增强crop数据集中的图片增强到背景数据集中,获得工作数据集;
步骤7:对步骤1获得的初始数据集中的每一张图像以概率p做如下的数据增强技术:图像旋转、图像缩放、随机裁剪、色彩变换、仿射变换、运动模糊,获得初始增强数据集;
步骤8:整合步骤1得到的初始数据集、步骤6得到的工作数据集和步骤7得到的初始增强数据集形成用于目标识别的高速移动目标数据集;
步骤9:将高速移动目标数据集按8:1:1分为训练集、验证集和测试集;
步骤10:构建YOLOv7网络模型;
步骤11:设置置信度损失函数Lconf,分类损失函数Lclass,位置损失函数Lloc,总损失函数Loss,计算方法分别如下所示:
置信度损失函数Lconf计算方法如下:
其中,表示第i个网格的第j个边界框内是否存在目标,如果存在,则为1,否则为0;/>表示第i个网格的第j个边界框内的目标是否来自步骤5得到的增强crop数据集,如果是,则为1,否则为0;/>表示第i个网格的第j个边界框内是否是背景,如果是,则为1,否则为0;Ci表示真实目标的置信度;/>表示预测目标的置信度;Cgan表示经过步骤5得到的伪图像的置信度;λobj表示目标置信度正则化系数;λnoobj表示背景置信度正则化系数,因为不包含目标中心位置的边界框数量远多于包含目标中心位置的边界框数量,这里取λnoobj=0.4;s2表示图片最终被划分成的单元格总数;B表示每个单元格产生的边界框数量;
分类损失函数Lclass计算方法如下:
其中,λclass表示类别正则化系数;表示第i个网格内是否存在目标,如果存在,则为1,否则为0;pi(c)表示第i个网格中实际存在类别c的概率;/>表示第i个网格中预测为类别c的概率;
位置损失函数Lloc计算方法如下:
其中,λiou为正则化系数;LCIoU计算公式如下:
其中,bgt表示真实框的中心点坐标,b表示边界框的中心点坐标,ρ2(b,bgt)表示边界框与真实框之间的欧氏距离;c表示覆盖边界框和真实框的最小矩形框的对角线长度;IoU表示边界框和真实框的重叠程度;v用于度量长宽比一致性;α为一个权重系数,计算公式分别如下:
其中,A和B分别表示预测框和真实框;w和h分别表示预测框的宽和高;wgt和hgt分别表示真实框的宽和高;
总损失函数Loss计算方法如下:
Loss=Lconf+Lclass+Lloc
步骤12:使用训练集对YOLOv7网络进行训练,使用验证集对模型进行评估,以mAP作为评价指标,保存mAP值最大的模型;
步骤13:使用测试集对保存的YOLOv7模型进行测试。
进一步的,所述步骤7的具体方法为:
步骤7.1:创建多级运动模糊核,通过以下四个参数控制创建的多级运动模糊核形状;模糊核大小kernel_size,其作为多级运动模糊核的一个整体控制参数,其值越大,代表运动模糊程度越大,图像越模糊;强度intensity,其作为运动模糊核的一个整体控制参数,用于描述运动路径方向变化的快慢,其值越大,运动方向变化越剧烈,运动模糊路径越曲折,代表了运动模糊更加的复杂和难以理解;步长step,其代表运动方向保持的长度;每步对应的角度大小step_angle,其代表当前运动方向和下一次运动方向之间的夹角大小;首先,根据参数kernel_size创建空白矩阵,其次,根据kernel_size、intensity、step和step_angle四个参数确定运动模糊路径,最后,将运动模糊路径绘制在空白矩阵中形成多级运动模糊核;
步骤7.2:图像和多级运动模糊核进行卷积操作,获得运动模糊图像;其图像模糊模型可由下式表示:
Y=K*X+N
其中,X表示需要进行运动模糊的图像,K表示多级运动模糊核,N表示加性噪声,*代表卷积操作,Y表示获得的运动模糊图像;
步骤7.3:以概率sigma(0≤sigma≤1)决定运动模糊增强后,是否需要进行如下的数据增操作:图像旋转、图像缩放、随机裁剪、色彩变换、仿射变换。
与现有技术相比,本发明具有如下的有益效果:
1.本发明在进行常规数据增强的同时,提出一种新的方法用于生成多级运动模糊核,获得更加贴近高速移动目标实际运动模糊情况的运动模糊图像,用于数据增强,能够在一定程度上解决目标由于高速运动产生运动模糊从而降低识别准确率的问题。
2.本发明引入高速移动目标背景数据集,将经过可微生成对抗网络生成的伪目标经过分类网络得到伪目标置信度,将置信度大于设定阈值的目标和初始高速移动目标的实例分割对象一同增强到高速移动目标背景数据集中,一方面实现样本扩充,另一方面解决高速移动目标训练背景和工作环境不一致的问题。
3.本发明对可微生成对抗网络生成的伪目标进行训练时,将伪目标的置信度与正样本边界框和真实框的CIoU值进行加权求和,形成新的YOLOv7目标检测算法中的置信度损失函数,改进的损失函数能够更加准确的衡量目标的真实性。
附图说明
图1是可微生成对抗网络流程示意图;
图2是本发明提出的多级运动模糊核部分参数含义图;
图3是本发明生成的多级运动模糊核部分示意图;
图4是本发明方法的流程图;
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明实施例提供了一种用于高速移动目标的目标识别方法,参照图4所示,包括如下步骤:
步骤1:利用高速移动目标和与高速移动目标相似的其余对象一同构建初始数据集,对初始数据集中的图像进行标注,得到带有标注文件的初始数据集。
步骤2:收集特定类型的高速移动目标的工作环境图片,构成高速移动目标的背景数据集。
步骤3:根据初始数据集的标注文件裁剪出初始数据集中每一张图像的高速移动目标实例分割对象,形成初始crop数据集。每一张图片的具体步骤如下:
步骤3.1:使用高速移动目标的最小外接矩形裁剪图像,获得A。
步骤3.2:创建与A同形状的掩膜图像mask,并将高速移动目标所在区域置1,其余区域置0。
步骤3.3:将A与mask进行与运算得到结果图像resultI,获得高速移动目标所在区域,同时目标背景为纯黑色。
步骤3.4:将resultI的背景设置为灰色。
其中,xp表示像素值。
经过以上处理,保留了前景信息,去除了背景信息,减少了背景信息对可微生成对抗网络的干扰,降低了网络生成高速移动目标的难度。
步骤4:使用可微生成对抗网络对步骤3得到的初始crop数据集进行训练,得到增强crop数据集,具体步骤如下:
步骤4.1:构建可微鉴别器网络D。图片做可微的数据增强之后输入到可微鉴别器网络D,判断输入图片的真假,可微鉴别器网络D用6层二维卷积层构成,卷积层之间添加Batch Nomal层,并用LeakyReLu作为激活函数,最后一层用Sigmoid函数输出。
步骤4.2:构建可微生成器网络G,G的输入来自隐空间的随机变量z,生成高速移动目标。生成器网络G由6层转置卷积组成,转置卷积层之间添加Batch Nomal层,并用ReLu作为激活函数,最后一层用Tanh函数输出。
步骤4.3:随机噪声经过可微生成器网络G不断生成高速移动目标伪样本,组成增强crop数据集,达到扩充数据集的目的。
步骤4.4:使用随机梯度下降法对可微鉴别器网络D的损失LD和可微生成器网络G的损失LG进行交替循环优化;LG和LD公式分别如下所示:
其中,表示数学期望,x代表真实图像,z表示随机变量,pdata(x)代表真实样本分布,pz(z)代表生成的样本分布,G(z)是随机变量z经过生成器G之后生成的高速移动目标伪图像,D(·)是图像经过可微鉴别器网络G得到的概率,它是一个0~1范围的实数,T(·)代表一种可微的数据增强手段,fD,fG分别为可微鉴别器D和可微生成器G对应使用的损失函数。
步骤5:基于LeNet,训练一个分类网络,筛选经过步骤4得到的增强crop数据集。具体步骤如下:
步骤5.1:将步骤3得到的初始crop数据集按8:2分为训练集和验证集。
步骤5.2:将训练集输入到分类网络进行训练,共训练100轮,使用验证集得到的准确率作为评价指标,保存准确率最高的模型。
步骤5.3:使用保存的分类网络模型对增强crop数据集中的伪图片进行测试,保存置信度大于或等于设定阈值conf的图片,置信度作为可微生成对抗网络产生的伪图片和真实图片之间的相似度衡量的标准,存储该图片对应的置信度,小于阈值conf的图片从增强crop数据集中移除。
步骤6:将步骤3得到的初始crop数据集和步骤5得到的增强crop数据集中的图片增强到背景数据集中,获得工作数据集。
步骤7:对步骤1获得的初始数据集中的每一张图像以概率p(0≤p≤1)做如下的数据增强技术:图像旋转、图像缩放、随机裁剪、色彩变换、仿射变换、运动模糊,获得初始增强数据集。提出一种新的方法来产生多级运动模糊核,进而获得更加贴近高速移动目标实际运动模糊情况的运动模糊图像,其具体步骤如下:
步骤7.1:创建多级运动模糊核,通过以下四个参数控制创建的多级运动模糊核形状。模糊核大小kernel_size,其作为多级运动模糊核的一个整体控制参数,其值越大,代表运动模糊程度越大,图像越模糊;强度intensity,其作为运动模糊核的一个整体控制参数,用于描述运动路径方向变化的快慢,其值越大,运动方向变化越剧烈,运动模糊路径越曲折,代表了运动模糊更加的复杂和难以理解;步长step,其代表运动方向保持的长度;每步对应的角度大小step_angle,其代表当前运动方向和下一次运动方向之间的夹角大小。首先,根据参数kernel_size创建空白矩阵,其次,根据kernel_size、intensity、step和step_angle四个参数确定运动模糊路径,最后,将运动模糊路径绘制在空白矩阵中形成多级运动模糊核。
步骤7.2:图像和多级运动模糊核进行卷积操作,获得运动模糊图像。其图像模糊模型可由下式表示:
Y=K*X+N
其中,X表示需要进行运动模糊的图像,K表示多级运动模糊核,N表示加性噪声,*代表卷积操作,Y表示获得的运动模糊图像。
步骤7.3:以概率sigma(0≤sigma≤1)决定运动模糊增强后,是否需要进行如下之一的数据增操作:图像旋转、图像缩放、随机裁剪、色彩变换、仿射变换。
步骤8:整合步骤1得到的初始数据集、步骤6得到的工作数据集和步骤7得到的初始增强数据集形成用于目标识别的高速移动目标数据集。
步骤9:将高速移动目标数据集按8:1:1分为训练集、验证集和测试集;
步骤10:构建YOLOv7网络模型。
步骤11:设置置信度损失函数Lconf,分类损失函数Lclass,位置损失函数Lloc,总损失函数Loss,计算方法分别如下所示:
置信度损失函数Lconf计算方法如下:
其中,表示第i个网格的第j个边界框内是否存在目标,如果存在,则为1,否则为0;/>表示第i个网格的第j个边界框内的目标是否来自步骤5得到的增强crop数据集,如果是,则为1,否则为0;/>表示第i个网格的第j个边界框内是否是背景,如果是,则为1,否则为0;Ci表示真实目标的置信度;/>表示预测目标的置信度;Cgan表示经过步骤5得到的伪图像的置信度;λobj表示目标置信度正则化系数;λnoobj表示背景置信度正则化系数,因为不包含目标中心位置的边界框数量远多于包含目标中心位置的边界框数量,这里取λnoobj=0.4;s2表示图片最终被划分成的单元格总数;B表示每个单元格产生的边界框数量。
分类损失函数Lclass计算方法如下:
其中,λclass表示类别正则化系数;表示第i个网格内是否存在目标,如果存在,则为1,否则为0;pi(c)表示第i个网格中实际存在类别c的概率;/>表示第i个网格中预测为类别c的概率。
位置损失函数Lloc计算方法如下:
其中,λiou为正则化系数;LCIoU计算公式如下:
其中,bgt表示真实框的中心点坐标,b表示边界框的中心点坐标,ρ2(b,bgt)表示边界框与真实框之间的欧氏距离;c表示覆盖边界框和真实框的最小矩形框的对角线长度;IoU表示边界框和真实框的重叠程度;v用于度量长宽比一致性;α为一个权重系数,计算公式分别如下:
其中,A和B分别表示预测框和真实框;w和h分别表示预测框的宽和高;wgt和hgt分别表示真实框的宽和高。
总损失函数Loss计算方法如下:
Loss=Lconf+Lclass+Lloc
步骤12:使用训练集对YOLOv7网络进行训练,其参数设置如下:使用SGD优化器,初始学习率为0.01,学习率更新策略采用余弦退火方法,训练轮数为300轮。使用验证集对模型进行评估,以mAP作为评价指标,保存mAP值最大的模型。
步骤13:使用测试集对保存的YOLOv7模型进行测试。
本发明实施例提供了一种用于高速移动目标的识别方法,本发明首先对高速移动目标进行数据增强,然后构建YOLOv7网络模型,修改其置信度损失函数,经过评估,其mAP值达到93.33%。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (2)
1.一种基于数据增强的高速移动目标识别方法,该方法包括:
步骤1:利用特定类型的高速移动目标和与目标类型相似的其余对象一同构建初始数据集,对初始数据集中的图像进行标注,得到带有标注文件的初始数据集;
步骤2:收集特定类型的高速移动目标的工作环境图片,构成高速移动目标的背景数据集;
步骤3:根据初始数据集的标注文件裁剪出初始数据集中每一张图像目标的实例分割对象,形成初始crop数据集;
步骤4:使用可微生成对抗网络对步骤3得到的初始crop数据集进行训练,得到增强crop数据集,所述可微生成对抗网络包括可微鉴别器网络D和可微生成器网络G,具体步骤如下:
步骤4.1:构建可微鉴别器网络D;
步骤4.2:构建可微生成器网络G,G的输入来自隐空间的随机变量z,生成特定目标类型的高速移动目标;
步骤4.3:随机噪声经过可微生成器网络G不断生成目标类型的伪样本,组成增强crop数据集,达到扩充数据集的目的;
步骤4.4:对可微鉴别器网络D的损失LD和可微生成器网络G的损失LG进行交替循环优化;LG和LD公式分别如下所示:
其中,表示数学期望,x代表真实图像,z表示随机变量,pdata(x)代表真实样本分布,pz(z)代表生成的样本分布,G(z)是随机变量z经过生成器G之后生成的高速移动目标伪图像,D(·)是图像经过可微鉴别器网络G得到的概率,它是一个0~1范围的实数,T(·)代表一种可微的数据增强手段,fD,fG分别为可微鉴别器D和可微生成器G对应使用的损失函数;
步骤5:基于LeNet,训练一个分类网络,筛选经过步骤4得到的增强crop数据集;具体步骤如下:
步骤5.1:将步骤3得到的初始crop数据集按8:2分为训练集和验证集;
步骤5.2:将训练集输入到分类网络进行训练,共训练100轮,使用验证集得到的准确率作为评价指标,保存准确率最高的模型;
步骤5.3:使用保存的分类网络模型对增强crop数据集中的伪图片进行测试,保存置信度大于或等于设定阈值conf的图片,置信度作为可微生成对抗网络产生的伪图片和真实图片之间的相似度衡量的标准,存储该图片对应的置信度,小于阈值conf的图片从增强crop数据集中移除;
步骤6:将步骤3得到的初始crop数据集和步骤5得到的增强crop数据集中的图片增强到背景数据集中,获得工作数据集;
步骤7:对步骤1获得的初始数据集中的每一张图像以概率p做如下的数据增强技术:图像旋转、图像缩放、随机裁剪、色彩变换、仿射变换、运动模糊,获得初始增强数据集;
步骤8:整合步骤1得到的初始数据集、步骤6得到的工作数据集和步骤7得到的初始增强数据集形成用于目标识别的高速移动目标数据集;
步骤9:将高速移动目标数据集按8:1:1分为训练集、验证集和测试集;
步骤10:构建YOLOv7网络模型;
步骤11:设置置信度损失函数Lconf,分类损失函数Lclass,位置损失函数Lloc,总损失函数Loss,计算方法分别如下所示:
置信度损失函数Lconf计算方法如下:
其中,表示第i个网格的第j个边界框内是否存在目标,如果存在,则为1,否则为0;表示第i个网格的第j个边界框内的目标是否来自步骤5得到的增强crop数据集,如果是,则为1,否则为0;/>表示第i个网格的第j个边界框内是否是背景,如果是,则为1,否则为0;Ci表示真实目标的置信度;/>表示预测目标的置信度;Cgan表示经过步骤5得到的伪图像的置信度;λobj表示目标置信度正则化系数;λnoobj表示背景置信度正则化系数,因为不包含目标中心位置的边界框数量远多于包含目标中心位置的边界框数量,这里取λnoobj=0.4;s2表示图片最终被划分成的单元格总数;B表示每个单元格产生的边界框数量;
分类损失函数Lclass计算方法如下:
其中,λclass表示类别正则化系数;表示第i个网格内是否存在目标,如果存在,则为1,否则为0;pi(c)表示第i个网格中实际存在类别c的概率;/>表示第i个网格中预测为类别c的概率;
位置损失函数Lloc计算方法如下:
其中,λiou为正则化系数;LCIoU计算公式如下:
其中,bgt表示真实框的中心点坐标,b表示边界框的中心点坐标,表示边界框与真实框之间的欧氏距离;c表示覆盖边界框和真实框的最小矩形框的对角线长度;IoU表示边界框和真实框的重叠程度;v用于度量长宽比一致性;α为一个权重系数,计算公式分别如下:
其中,A和B分别表示预测框和真实框;w和h分别表示预测框的宽和高;wgt和hgt分别表示真实框的宽和高;
总损失函数Loss计算方法如下:
Loss=Lconf+Lclass+Lloc
步骤12:使用训练集对YOLOv7网络进行训练,使用验证集对模型进行评估,以mAP作为评价指标,保存mAP值最大的模型;
步骤13:使用测试集对保存的YOLOv7模型进行测试。
2.如权利要求1所述的一种基于数据增强的高速移动目标识别方法,其特征在于,所述步骤7的具体方法为:
步骤7.1:创建多级运动模糊核,通过以下四个参数控制创建的多级运动模糊核形状;模糊核大小kernel_size,其作为多级运动模糊核的一个整体控制参数,其值越大,代表运动模糊程度越大,图像越模糊;强度intensity,其作为运动模糊核的一个整体控制参数,用于描述运动路径方向变化的快慢,其值越大,运动方向变化越剧烈,运动模糊路径越曲折,代表了运动模糊更加的复杂和难以理解;步长step,其代表运动方向保持的长度;每步对应的角度大小step_angle,其代表当前运动方向和下一次运动方向之间的夹角大小;首先,根据参数kernel_size创建空白矩阵,其次,根据kernel_size、intensity、step和step_angle四个参数确定运动模糊路径,最后,将运动模糊路径绘制在空白矩阵中形成多级运动模糊核;
步骤7.2:图像和多级运动模糊核进行卷积操作,获得运动模糊图像;其图像模糊模型可由下式表示:
Y=K*X+N
其中,X表示需要进行运动模糊的图像,K表示多级运动模糊核,N表示加性噪声,*代表卷积操作,Y表示获得的运动模糊图像;
步骤7.3:以概率sigma(0≤sigma≤1)决定运动模糊增强后,是否需要进行如下的数据增操作:图像旋转、图像缩放、随机裁剪、色彩变换、仿射变换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310573773.8A CN116597275A (zh) | 2023-05-19 | 2023-05-19 | 一种基于数据增强的高速移动目标识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310573773.8A CN116597275A (zh) | 2023-05-19 | 2023-05-19 | 一种基于数据增强的高速移动目标识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116597275A true CN116597275A (zh) | 2023-08-15 |
Family
ID=87600368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310573773.8A Pending CN116597275A (zh) | 2023-05-19 | 2023-05-19 | 一种基于数据增强的高速移动目标识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116597275A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809138A (zh) * | 2024-02-23 | 2024-04-02 | 中国电子科技集团公司第二十九研究所 | 一种多余物检测图像数据集增强方法及系统 |
-
2023
- 2023-05-19 CN CN202310573773.8A patent/CN116597275A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809138A (zh) * | 2024-02-23 | 2024-04-02 | 中国电子科技集团公司第二十九研究所 | 一种多余物检测图像数据集增强方法及系统 |
CN117809138B (zh) * | 2024-02-23 | 2024-05-14 | 中国电子科技集团公司第二十九研究所 | 一种多余物检测图像数据集增强方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN108830285B (zh) | 一种基于Faster-RCNN的加强学习的目标检测方法 | |
CN110532920B (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
CN111062885B (zh) | 基于多阶段迁移学习的标志检测模型训练及标志检测方法 | |
CN111723860A (zh) | 一种目标检测方法及装置 | |
CN110569738B (zh) | 基于密集连接网络的自然场景文本检测方法、设备和介质 | |
CN112364931B (zh) | 一种基于元特征和权重调整的少样本目标检测方法及网络系统 | |
CN111738055B (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
CN110930387A (zh) | 基于深度可分离卷积神经网络的织物疵点检测方法 | |
CN107808138B (zh) | 一种基于FasterR-CNN的通信信号识别方法 | |
CN104036284A (zh) | 基于Adaboost算法的多尺度行人检测方法 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN104866868A (zh) | 基于深度神经网络的金属币识别方法和装置 | |
CN114627052A (zh) | 一种基于深度学习的红外图像漏气漏液检测方法及系统 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN113496480A (zh) | 一种焊缝图像缺陷的检测方法 | |
CN112329771B (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN106919950A (zh) | 概率密度加权测地距离的脑部mr图像分割方法 | |
CN116258877A (zh) | 土地利用场景相似度变化检测方法、装置、介质及设备 | |
Yang et al. | An improved algorithm for the detection of fastening targets based on machine vision | |
CN116597275A (zh) | 一种基于数据增强的高速移动目标识别方法 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
CN108257148A (zh) | 特定对象的目标建议窗口生成方法及其在目标跟踪的应用 | |
CN108241869A (zh) | 一种基于快速可变形模型和机器学习的图像目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |