CN117671452A - 轻量化上采样yolox的断栅检测模型构建方法及系统 - Google Patents
轻量化上采样yolox的断栅检测模型构建方法及系统 Download PDFInfo
- Publication number
- CN117671452A CN117671452A CN202311598249.2A CN202311598249A CN117671452A CN 117671452 A CN117671452 A CN 117671452A CN 202311598249 A CN202311598249 A CN 202311598249A CN 117671452 A CN117671452 A CN 117671452A
- Authority
- CN
- China
- Prior art keywords
- broken
- detection model
- yolox
- network
- broken gate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 147
- 238000005070 sampling Methods 0.000 title claims abstract description 29
- 238000010276 construction Methods 0.000 title claims description 15
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000012360 testing method Methods 0.000 claims abstract description 47
- 238000012795 verification Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims description 28
- 238000011176 pooling Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 20
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 230000007547 defect Effects 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007650 screen-printing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种轻量化上采样YOLOX的断栅检测模型构建方法及系统。包括以下步骤:获取电池片断栅图像,构建电池片断栅图像数据集,电池片断栅图像数据集包括断栅训练集、断栅验证集和断栅测试集;搭建基于DALU‑YOLOX的断栅检测模型;断栅检测模型包括input网络、主干网络、Neck网络和Head网络,断栅检测模型采用SIoU作为边界框回归损失;主干网络基于CBAM‑Resunit结构,Neck网络基于具有轻量化上采样CARAFE结构;将断栅训练集输入基于DALU‑YOLOX的断栅检测模型中进行训练,经断栅验证集验证后利用断栅测试集测试,生成目标断栅检测模型。本申请用于提升电池片断栅检测模型的检测精度和速度。
Description
技术领域
本发明涉及电池片断栅缺陷智能检测领域,特别涉及一种轻量化上采样YOLOX的断栅检测模型构建方法及系统。
背景技术
丝网印刷断栅过多过少都会影响电池电阻,即会影响整个电路的电动势从而影响电池的效率。因此对电池片进行检测,对于保障工厂产量以及质量有着十分重要的意义。随着技术的飞速发展,现在对电池片进行检测主要采用计算机视觉进行自动检测,其中通过目标检测模型对EL所拍摄的图像进行自动定位与识别,是提高生产准确率和效率的重要环节。由于电池片断栅检测面临缺陷目标较小、纵横比高等问题,基于深度学习的检测模型的检测精度和速度还有待进一步提升。
发明内容
本发明提供一种轻量化上采样YOLOX的断栅检测模型构建方法及系统,用以由于缺陷目标较小、纵横比高,而导致的电池片断栅检测精度和速度不高的情况。
一方面,一种轻量化上采样YOLOX的断栅检测模型构建方法,包括以下步骤:
获取电池片断栅图像,构建电池片断栅图像数据集,其中,电池片断栅图像数据集包括断栅训练集、断栅验证集和断栅测试集;
搭建基于DALU-YOLOX的断栅检测模型;其中,
断栅检测模型包括input网络、主干网络、Neck网络和Head网络,断栅检测模型采用SIoU作为边界框回归损失;
主干网络基于CBAM-Resunit结构,Neck网络基于具有轻量化上采样CARAFE结构;
将断栅训练集输入基于DALU-YOLOX的断栅检测模型中进行训练,经断栅验证集验证后利用断栅测试集测试,生成目标断栅检测模型。
进一步地,所述断栅检测模型是以轻量的YOLOX-s模型为基础;
所述主干网络还包括Focus结构、CBL结构和SPP结构;
CBAM-Resunit结构是在基础模型的残差块中插入通道和空间结合的注意力机制CBAM;
所述Neck网络采用FPN+PAN结构对特征信息进行融合;
所述Head网络包括三个检测器。
进一步地,所述input网络用于对输入的电池片断栅图像数据集进行Mosaic数据增强、自适应锚框计算和自适应图片缩放处理。
进一步地,所述边界框回归损失函数SIoU公式如下:
其中,IoU为IoU损失,Δ为距离损失,Ω为形状损失。
进一步地,所述CBAM是由2个独立的子模块的串行连接,其包括通道注意力模块和空间注意力模块,
通道的注意力和空间的注意力机制公式如下:
其中,F表示输入特征图,τ表激活函数,MLP代表多层感知机,WO,W1为共享感知机的两层参数,和/>分别表示通道注意力机制的全局平均池化和最大平均池化,c表示通道;
其中,f7×7表示7×7大小的卷积核操作,和/>分别表示空间注意力机制的全局平均池化和最大平均池化,s表示空间。
进一步地,所述构建电池片断栅图像数据集的步骤具体包括:
获取多张电池片断栅图像,并通过数据增强方式扩充电池片断栅图像的数量,得到电池片断栅图像样本集;
对电池片断栅图像样本集中各样本内的电池片和断栅的位置进行标注,并标注类别为电池片或断栅,得到电池片断栅图像数据集;
其中,
所述断栅训练集、断栅验证集和断栅测试集的比例为6:2:2。
进一步地,所述数据增强方法为旋转、裁剪、平移、CutMix、加噪、自适应亮度校正中的一种或多种。
进一步地,所述断栅检测模型的训练参数:批量大小为16,训练轮数为300,学习率为0.01,预训练轮数为10,每次由BN层进行正则化,更新模型参数。
进一步地,所述生成目标断栅检测模型后,还包括步骤:
在训练每一轮后将得到的断栅检测模型的权重文件保存;利用断栅验证集对断栅检测模型性能进行评价,保存最优断栅检测模型,同时利用断栅测试集测试最优断栅检测模型的性能。
另一方面,本发明还提供一种轻量化上采样YOLOX的电池片断栅检测模型构建系统,包括数据构建模块、网络搭建模块、网络训练模块和测试验证模块,其中:
所述数据构建模块用于获取电池片断栅图像,并构建电池片断栅图像数据集,其中,电池片断栅图像数据集包括断栅训练集、断栅验证集和断栅测试集;
所述网络构建模块用于搭建基于DALU-YOLOX的断栅检测模型;其中,断栅检测模型包括input网络、主干网络、Neck网络和Head网络,断栅检测模型采用SIoU作为边界框回归损失;主干网络基于CBAM-Resunit结构,Neck网络基于具有轻量化上采样CARAFE结构;
所述网络训练模块用于利用断栅训练集对基于DALU-YOLOX的断栅检测模型中进行训练;
所述测试验证模块用于利用断栅验证集验证所述断栅检测模型后利用断栅测试集对其测试,生成目标断栅检测模型。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的申请文件中特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种轻量化上采样YOLOX的断栅检测模型构建方法的流程示意图;
图2为本发明实施例中CARAFE结构的示意图;
图3为本发明实施例中基于DALU-YOLOX的断栅检测模型的结构示意图;
图4为本发明实施例中原始YOLOX模型和改进后的模型DALU-YOLOX的检测结果对比图;
图5为本发明实施例中基于DALU-YOLOX的断栅检测模型的检测系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
由于现有的电池片断栅检测方法存在缺陷目标较小、纵横比高的问题,其检测精度和速度还有待进一步提升,为此本发明实施例提供了一种轻量化上采样YOLOX的断栅检测模型构建方法及系统。
本申请存在以下技术名词,DALU-YOLOX是基于现有的YOLOX-s模型作出改进,YOLOX-s模型是轻量化的旷视开源的高性能检测器,用于物体的检测;input网络为输入网络,用于电池片断栅图像数据集的输入;Backbone为主干网络;Neck网络为脖子网络,用于对主干网络提取的特征进行进一步地处理;Head为检测头,用于输出目标检测结果;SIoU为边界框回归损失;CBAM-Resunit结构为引入通道和空间结合的注意力机制的残差单元;CARAFE为轻量级通用上采样算子;Focus结构的主要操作是对输入图像进行切片,在实现特征图降维的同时,保证了数据的完整性;CBL是卷积、批量化和SiLu激活函数的操作组合;SPP是一个空间金字塔,采用最大池化方式进行多尺度的特征融合;FPN是把深层的语义特征传到浅层,从而增强多个尺度上的语义表达,PAN则相反把浅层的定位信息传导到深层,增强多个尺度上的定位能力;Mosaic是数据增强,是把4张图片,通过随机缩放、随机裁减、随机排布的方式进行拼接;CutMix也是数据增强,是将一部分区域cut掉但不填充0像素而是随机填充训练集中的其他数据的区域像素值,分类结果按一定的比例分配;CSPLayer是采用CSPnet结构(跨阶段局部网络)网络层数更深的模块;Concat是合并连接;Downsample是下采样;YoloHead是检测器。
参见图1和图3,电池片断栅检测模型构建方法包括以下步骤:
S1:获取电池片断栅图像,构建电池片断栅图像数据集,其中,电池片断栅图像数据集包括断栅训练集、断栅验证集和断栅测试集;
其中,电池片断栅图像数据集的构建步骤包括:先由生产线采集电池片断栅图像,并通过镜像、旋转和添加噪声等数据增强方法来扩充后得到电池片断栅图像样本集,后经由标注工具进行标注后得到的。电池片断栅图像数据集被按比例分为断栅训练集、断栅验证集和断栅测试集。在对电池片断栅图像样本进行标注时,在使用矩形框标注电池片及其断栅的位置,并标注类别为电池片或断栅。数据集采用VOC格式,图片标注使用的是LabelImg,标注后的文件以.xml作为后缀,文件名称和图片名称一致。
S2:搭建基于DALU-YOLOX的断栅检测模型,断栅检测模型包括input网络、主干网络、Neck网络和Head网络,断栅检测模型采用SIoU作为边界框回归损失;主干网络基于CBAM-Resunit结构,Neck网络基于具有轻量化上采样CARAFE结构;
其中,基于DALU-YOLOX的断栅检测模型是在对原始的YOLOX网络经过改进后得到的检测模型,具体地是对主干网络、Neck网络和Head网络的结构做了部分改进。
S3:将断栅训练集输入基于DALU-YOLOX的断栅检测模型中进行训练,经断栅验证集验证后利用断栅测试集测试,生成目标断栅检测模型。
其中,在输入时,将训练集统一缩放至指定大小后再输入,并根据设置的训练参数进行训练,通过反向过程的梯度下降更新模型参数。
上述技术方案的工作原理为:构建电池片断栅图像数据集,将其分为断栅训练集、断栅验证集和断栅测试集;并搭建基于DALU-YOLOX的断栅检测模型,将断栅训练集输入基于DALU-YOLOX的断栅检测模型中进行训练,经断栅验证集验证后利用断栅测试集测试断栅检测模型。断栅检测模型的结构包括输入网络、主干网络、Neck网络以及Head网络,其中骨干网络的残差块中添加有通道和空间注意力机制CBAM、Neck网络中用轻量化上采样CARAFE替代最邻近插值上采样的方式,并且使用采用像素计数的方式来计算交并比的SIoU函数作为边界框的回归损失函数,上述三处改进使目标定位更加准确,其共同提高了电池片断栅检测精度,极大程度的改善了漏检的问题。
上述技术方案的有益效果为:本申请中的基于DALU-YOLOX的检测模型是在YOLOX网络的基础上进行改进后得到的模型,其经训练后,得到的目标断栅检测模型可以提高电池片断栅检测缺陷的精度,降低漏检率和误检率,有助于电池片断栅的智能诊断水平提高,能够满足在生产时判断电池片断栅的实时性要求。
在一个实施例中,断栅检测模型以轻量的YOLOX模型为基础。主干网络包括Focus结构、CBL结构、CBAM-Resunit结构和SPP结构,CBAM-Resunit结构是在基础模型的残差块中插入通道和空间结合的注意力机制CBAM,改进后的残差块包括两个串联的CBL结构和一个CBAM结构;Neck网络采用FPN+PAN结构对特征信息进行融合,并采用轻量化的上采样CARAFE替换基础模型中的最邻近插值上采样;Head网络包括三个检测器。
轻量的YOLOX的Neck采用FPN+PAN结构对特征信息进行融合,充分获取高层的语义信息和低层的位置信息;FPN是自顶向下的,将高层的语义信息通过上采样的方式进行传递融合,它的感受野较大,提取的特征抽象,有利于物体的分类,但会丢失细节信息,不利于精确分类。而PAN则自底向上,使用下采样的方式传达强定位特征,使用FPN+PAN从不同的主干层对不同的检测层进行参数聚合。
如图2所示,轻量化上采样CARAFE首先将尺寸为的特征图进行压缩处理,随后得到尺寸大小为Cm×W×H的特征图,进行这一步操作是为了降低后续的计算量,加快推理速度。然后使用大小为ken×ken的卷积核对刚刚压缩好的特征图进行内容编码,进而得到大小为的特征图,将其在通道维上展开,此时特征图的尺寸变为/>其中ken×ken为内容编码的卷积核尺寸,kup×kup为预测上采样核尺寸,C为特征图通道数,Cm为压缩后的通道数,H和W分别为特征图的高和宽,σ为上采样步长。最后使用Softmax函数对其进行归一化处理,使得上采样核的权重之和为1并将输入特征与预测的上采样核进行卷积运算得到最终的上采样结果。
Head中的主体部分就是三个YoloHead检测器。作为YOLOX的回归器和分类器,检测头主要是通过特征点来判断是否有物体与之对应。与以前YOLO系列不同的是,YOLOX的解耦头被分为两部分,分别实现分类和回归,然后在预测的时候再整合在一起。相较于非解耦方式,YOLOX的预测分支极大的改善了收敛速度。
上述技术方案的有益效果为:本申请基于轻量的YOLOX模型在其主干网络中残差单元中引入通道和空间结合的注意力机制CBAM,通过对不同重要的特征采用不同的加权方式进一步提升网络的特征表达能力;然后将使用轻量化上采样CARAFE替换颈部网络的最邻近插值上采样,减少上采样过程中的特征损失;最后针对YOLOX检测头使用SIoU作为边框回归损失,提升了电池片断栅检测框回归定位精度。本发明不仅可以提高电池片断栅检测的精度,还能避免漏检的电池片。
在一个实施例中,input网络用于对输入的电池片断栅图像数据集进行Mosaic数据增强、自适应锚框计算、自适应图片缩放处理。
其中,Mosaic数据增强是采用4张图像,随机缩放、随机裁剪、随机排布的方式进行拼接,丰富了数据集,尤其是随机缩放增加了小目标,让网络的鲁棒性更好。由于是直接计算4张图像的数据,加少了GPU的使用,提高了算法的运行速度。
自适应锚框计算在每次训练将会自适应的计算不同训练集中的最佳锚框值。网络会先在初始锚框的基础上输出预测框,进而和真实框进行比对,计算两者差距,再反向更新,迭代网络参数。
自适应图片缩放将原始图片统一缩放到640×640,再送入检测网络中。图片的长宽比不同,因此缩放填充后,两端的黑边大小都不同。因此自适应图片缩放在对原始图像自适应的添加最少的黑边,减少推理时间。
上述技术方案的有益效果为:本申请采用Mosaic数据增强、自适应锚框计算、自适应图片缩放处理,不仅能提高算法的运行速度,还能减少推理时间。
在一个实施例中,边界框回归损失函数SIoU公式如下:
其中,IoU为IoU损失,Δ为距离损失,Ω为形状损失。
其中,SIoU进一步考虑了真实框和预测框之间的向量角度,重新定义相关损失函数,具体包含四个部分:角度损失、距离损失、形状损失、IoU损失。角度损失的公式如下:
其中,k为真实框和预测框中心点的距离,ch为真实框和预测框中心点的高度差。为真实框的中心坐标,bcx,bcy为预测框的中心点坐标,h表示高度,cy表示锚框中心点的Y轴坐标,cx表示锚框中心点的X轴坐标,gt表示真实框,α表示角度。
距离损失与真实框和预测框的最小外接矩形有关,公式如下:
γ=2-Λ
其中,cw为真实框和预测框最小外接矩形的宽,ch为真实框和预测框最小外接矩形的高,px表示真实框和预测框中心点X轴的距离与最小外接矩形的宽的比值的平方,py是真实框与预测框中心点Y轴的距离的最小外接矩形的高的比值的平方,Pt是py与px的结合。
形状损失公式如下:
其中,w,h,wgt,hgt分别为预测框和真实框的宽和高,θ控制对形状损失的关注程度,为了避免过于关注形状损失而降低对预测框的移动,本申请θ取4。
IoU损失,公式如下:
其中,B是预测框,BGT是真实框。
上述技术方案的有益效果为:使用SIoU作为边框回归损失,提升电池片断栅检测框回归定位精度。采用SIoU损失函数采用像素计数的方式来计算IoU,使该损失对标注框的大小、位置和旋转角度都是敏感的,很好的解决了因断栅尺寸小导致的定位低的问题。
在一个实施例中,CBAM是由2个独立的子模块的串行连接,其包括通道注意力模块和空间注意力模块,
通道的注意力和空间的注意力机制公式如下:
其中,F表示输入特征图,τ表激活函数,MLP代表多层感知机,WO,W1为共享感知机的两层参数,和/>分别表示通道注意力机制的全局平均池化和最大平均池化,c表示通道;
其中f7×7表示7×7大小的卷积核操作,和/>分别表示空间注意力机制的全局平均池化和最大平均池化,s表示空间。
其中,通道注意力机制着重关注“目标是什么”,使用平均池化和最大池化对特征图降维实现聚合特征图的空间信息,然后由多层感知机为每个通道的权重重新进行分配。空间注意力机制着重关注的信息部分则是“目标在哪里”,采用最大池化和平均池化操作将通道数为C的特征图压缩至1,从而充分学习空间注意力的特征。
上述技术方案的有益效果为:在残差单元中引入通道和空间注意力机制CBAM,通过对不同重要的特征采用不同的加权方式进一步提升网络的特征表达能力,在极大程度上改善电池片断栅检测精度低和漏检的问题。
在一个实施例中,构建电池片断栅图像数据集的步骤具体包括:
获取多张电池片断栅图像,并通过数据增强方式扩充电池片断栅图像的数量,得到电池片断栅图像样本集;其中,数据增强方法为旋转、裁剪、平移、CutMix、加噪、自适应亮度校正中的一种或多种;
对电池片断栅图像样本集中各样本内的电池片和断栅的位置进行标注,并标注类别为电池片或断栅,得到电池片断栅图像数据集;
将电池片断栅图像数据集按6:2:2的比例分配,得到断栅训练集、断栅验证集和断栅测试集。
上述技术方案的有益效果为:对数据进行扩充,可扩大样本集的数量,以便得到更优的缺陷检模型。
在一个实施例中,断栅检测模型的训练参数:批量大小为16,训练轮数为300,学习率为0.01,预训练轮数为10,每次由BN层进行正则化,更新模型参数。
在一个实施例中,方法还包括步骤:在训练每一轮后将得到的断栅检测模型的权重文件保存;利用断栅验证集对断栅检测模型性能进行评价,保存最优断栅检测模型,同时利用断栅测试集测试最优断栅检测模型的性能。
在一个实施例中,一种轻量化上采样YOLOX的电池片断栅检测模型构建系统,包括数据构建模块、网络搭建模块、网络训练模块和测试验证模块,其中:
数据构建模块用于获取电池片断栅图像,并构建电池片断栅图像数据集,其中,电池片断栅图像数据集包括断栅训练集、断栅验证集和断栅测试集;
网络构建模块用于搭建基于DALU-YOLOX的断栅检测模型;其中,断栅检测模型包括input网络、主干网络、Neck网络和Head网络,断栅检测模型采用SIoU作为边界框回归损失;主干网络基于CBAM-Resunit结构,Neck网络基于具有轻量化上采样CARAFE结构;
网络训练模块用于利用断栅训练集对基于DALU-YOLOX的断栅检测模型中进行训练;
测试验证模块用于利用断栅验证集验证所述断栅检测模型后利用断栅测试集对其测试,生成目标断栅检测模型。
上述技术方案的有益效果为:本申请中的DALU-YOLOX的检测模型是对YOLOX网络经过改进后得到的检测模型,其经训练后,得到的缺陷检测模型可以提高电池片断栅检测缺陷的精度,降低漏检率和误检率,有助于电池片断栅的智能诊断水平提高,能够满足生产时判断电池片断栅实时性要求。
实施例1:基于双注意力轻量化上采样YOLOX的电池片断栅检测模型构建方法,包括以下步骤:
S1:构建电池片断栅图像数据集。
S11:通过车间离线EL采集多张电池片断栅图像。针对数据不足的问题,考虑到检测场景的特点,采用旋转、裁剪、平移、CutMix、加噪、自适应亮度校正对上述图像进行扩充;
S12:使用数据标注工具LabelImg对上述图像进行标注,用矩形框标注电池片及断栅的位置,并标注图像类别为电池片或断栅。标注完成后会生成一个.xml文件的标签,其中保存了图像中的标注信息,得到电池片断栅图像数据集;
S13:电池片断栅图像数据集的总量为1100张图像,按照6:2:2把数据集划分为训练集、验证集和测试集。
S2:基于轻量化上采样CARAFE、注意力机制CBAM和YOLOX构建用于电池片断栅图像的检测模型DALU-YOLOX。该基于DALU-YOLOX的检测模型用于但不限于电池片断栅的检测。如图3所示,断栅检测模型以轻量的YOLOX-s模型为基础,其包括Input、Backbone、Neck、Head四部分。其中,S2包括如下步骤:
S21:构建模型Input部分。Input主要是对输入模型的数据的一些操作,包括Mosaic数据增强、自适应锚框计算、自适应图片缩放;
S22:构建模型Backbone部分。Bacbone主要使用了Focus、CBL、CBAM-Resunit和SPP结构;
其中,Focus的主要操作是对输入图像进行切片,在实现特征图降维的同时,保证了数据的完整性;CBL是卷积、批量化和SiLu激活函数的操作组合;CBAM-Resunit是在残差块中插入通道和空间结合的注意力机制CBAM后提出了新的结构;SPP是一个空间金字塔,采用1×1、5×5和9×9的最大池化方式进行多尺度的特征融合。通道的注意力和空间的注意力机制公式如下:
其中,F表示输入特征图,τ表激活函数,MLP代表多层感知机,WO,W1为共享感知机的两层参数,和/>分别表示通道注意力机制的全局平均池化和最大平均池化,c表示通道;
其中f7×7表示7×7大小的卷积核操作,和/>分别表示空间注意力机制的全局平均池化和最大平均池化,s表示空间。
S23:构建模型Neck部分。YOLOX的Neck采用FPN+PAN结构对特征信息进行融合,充分获取高层的语义信息和低层的位置信息;将Neck中的最邻近插值上采样替换成轻量化上采样CARAFE。
其中轻量化上采样CARAFE如图2所示。轻量化上采样CARAFE首先将尺寸为C×H×W的特征图进行通道压缩处理,随后得到尺寸大小为Cm×W×H的特征图,进行这一步操作是为了降低后续的计算量,加快推理速度。然后使用大小为ken×ken的卷积核对刚刚压缩好的特征图进行内容编码,进而得到大小为的特征图,将其在通道维上展开,此时特征图的尺寸变为/>其中ken×ken为内容编码的卷积核尺寸,kup×kup为预测上采样核尺寸,C为特征图通道数,Cm为压缩后的通道数,H和W分别为特征图的高和宽,σ为上采样步长。最后使用Softmax函数对其进行归一化处理,使得上采样核的权重之和为1并将输入特征与预测的上采样核进行卷积运算得到最终的上采样结果。
S24:构建模型Head部分。Head中的主体部分就是三个检测器。
S3:构建模型边界框回归损失函数,采用SIoU作为模型训练过程中的边界框回归损失。该损失函数采用像素计数的方式来计算IoU,使该损失对标注框的大小、位置和旋转角度都是敏感的,很好的解决了因断栅尺寸小导致的定位低的问题。角度损失、距离损失和形状损失的计算公式已在前序部分做了说明,这里不过多解释。
其中SIoU的公式如下:
其中,IoU为IoU损失,Δ为距离损失,Ω为形状损失。
S4:使用构建的电池片断栅数据集对断栅检测模型进行训练,经验证数据集验证后保存最优模型,同时测试最优模型性能。其具体包括:
S41:将训练数据集统一缩放到640×640大小,传入到基于DALU-YOLOX的断栅检测模型进行训练;
S42:设置训练参数:批量大小为16,训练轮数为300,学习率为0.01,预训练轮数为10,开始进行训练,通过反向过程的梯度下降更新模型参数;
S43:训练每一轮后将得到的模型的权重文件保存,利用验证集对模型性能进行评价,保存最优模型,同时测试最优断栅检测模的性能。
S5:将待测试的电池片图像输入最优的模型,输出电池片图像的检测结果。
实施例2:对基于DALU-YOLOX的检测模型进行测试。
1、选用YOLOX、YOLOX+CBAM、YOLOX+CBAM+CARAFA作对照,并选择平均准确率(mAP)、推理速度(FPS)、参数量(Parame)作为模型的评价指标,测试基于DALU-YOLOX的检测模型对电池片及断栅的检测性能。其中,YOLOX+CBAM模型是在YOLOX网络的基础上在残差块中插入通道和空间结合的注意力机制CBAM;YOLOX+CBAM+CARAFA在YOLOX的基础上不但在残差块中插入通道和空间结合的注意力机制CBAM,并且采用轻量化的上采样CARAFE替换YOLOX模型中的最邻近插值上采样;评价指标如表1所示,mAP是平均准确率,指精确率-召回率曲线(PR曲线)与坐标围成的区域面积,可以得到不同召回率所对应的精确率。
表1不同模型在YOLOX上的检测指标
根据上述测试结果可知:YOLOX模型的mAP为90.1%,在基于DALU-YOLOX的检测模型中平均mAP为96.6%,检测准确率比原始YOLOX算法提高了6.5%,由此证明了本发明的改进策略能够有效地提高检测的准确率;在YOLOX中使用了CBAM之后平均mAP提高了2.5%,因此CBAM-Resunit模块可以提取更多的特征;在YOLOX中使用了CBAM和CARAFE之后,平均mAP又提高了1.8%,说明CARAFE减少了上采样过程中的特征损失;DALU-YOLOX在使用CBAM和CARAFE的基础上把损失函数IoU替换成了SIoU,最终实验的平均mAP达到了96.6%,证明了SIoU损失可以更好的解决细长物体和倾斜物体的回归损失,使检测精度更高。
2、为了进一步验证CBAM策略的有效性,在本申请DALU-YOLOX模型的基础上使用通道注意力SE(Squeeze-and-Excitation)模块替换CBAM模块,在测试集上进行测试,模型的性能如表2所示:
表2不同注意力模块改进策略的对比效果
从上述表格中可知:使用CBAM注意力机制的模型检测效果更好,平均准确率mAP比使用了SE高了0.9%,验证了本发明使用的通道和空间结合的注意力机制CBAM比只使用通道的SE效果更好。
3、为了进一步说明SIoU损失更适合计算长宽比高的物体,分别使用GIoU、DIoU、CIoU替换DALU-YOLOX中的SIoU作为边界框的回归损失,训练过程中各模型的回归损失函数的结果如表3所示,从表中可知SIoU的mAP最高,说明该模型定位更准确。
表3不同回归损失函数的缺陷检测模型性能对比效果
从上述表格中可知:使用了SIoU的模型检测精度最高,达到了96.6%。使用了原始YOLOX模型的GIoU检测精度为96.1%,而使用DIoU的模型的检测精度为95.8%和CIoU的模型的检测精度为96.3%。因此可知,SIoU更适合目标较小的断栅的检测。
4、分别将待检测片图像输入到原始YOLOX模型和DALU-YOLOX模型,对检测结果进行比较。如图4所示,其中,(a)对电池片断栅的检测,YOLOX模型的置信度是0.92,DALU-YOLOX模型的置信度为0.96,置信度提升了0.04,对电池片的检测,YOLOX模型的置信度是0.94,DALU-YOLOX模型的置信度为0.97,置信度提升了0.03;(b)中YOLOX模型电池片断栅出现了漏检,DALU-YOLOX模型检测到了原始模型漏检的电池片断栅,对电池片断栅的检测,YOLOX模型的置信度是0.95,DALU-YOLOX模型的置信度为0.98,置信度提升了0.03。
综上,本申请中的基于DALU-YOLOX的检测模型的检测精度更高,定位更准确,更适合目标较小的断栅的检测。
实施例3,一种实施例的电池片断栅检测系统,如图5所示,该电池片断栅检测系统包括:模型的线下训练和在线应用,其中,线下训练是使用上述的电池片断栅数据集训练DALU-YOLOX模型,线上应用部分是采用线下训练好的断栅检测模型对测试的电池片断栅的检测。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种轻量化上采样YOLOX的断栅检测模型构建方法,其特征在于,包括以下步骤:
获取电池片断栅图像,构建电池片断栅图像数据集,其中,电池片断栅图像数据集包括断栅训练集、断栅验证集和断栅测试集;
搭建基于DALU-YOLOX的断栅检测模型;其中,
断栅检测模型包括input网络、主干网络、Neck网络和Head网络,断栅检测模型采用SIoU作为边界框回归损失;
主干网络基于CBAM-Resunit结构,Neck网络基于具有轻量化上采样CARAFE结构;
将断栅训练集输入基于DALU-YOLOX的断栅检测模型中进行训练,经断栅验证集验证后利用断栅测试集测试,生成目标断栅检测模型。
2.如权利要求1所述的一种轻量化上采样YOLOX的断栅检测模型构建方法,其特征在于,所述断栅检测模型是以轻量的YOLOX-s模型为基础;
所述主干网络还包括Focus结构、CBL结构和SPP结构;
CBAM-Resunit结构是在基础模型的残差块中插入通道和空间结合的注意力机制CBAM;
所述Neck网络采用FPN+PAN结构对特征信息进行融合;
所述Head网络包括三个检测器。
3.如权利要求2所述的一种轻量化上采样YOLOX的断栅检测模型构建方法,其特征在于,所述input网络用于对输入的电池片断栅图像数据集进行Mosaic数据增强、自适应锚框计算和自适应图片缩放处理。
4.如权利要求2所述的一种轻量化上采样YOLOX的断栅检测模型构建方法,其特征在于,所述边界框回归损失的函数SIoU公式如下:
其中,IoU为IoU损失,Δ为距离损失,Ω为形状损失。
5.如权利要求2所述的一种轻量化上采样YOLOX的断栅检测模型构建方法,其特征在于,所述注意力机制CBAM是由2个独立的子模块的串行连接,其包括通道注意力模块和空间注意力模块,
通道的注意力和空间的注意力机制公式如下:
其中,F表示输入特征图,τ表激活函数,MLP代表多层感知机,WO,W1为共享感知机的两层参数,和/>分别表示通道注意力机制的全局平均池化和最大平均池化,c表示通道;
其中,f7×7表示7×7大小的卷积核操作,和/>分别表示空间注意力机制的全局平均池化和最大平均池化,s表示空间。
6.如权利要求1所述的一种轻量化上采样YOLOX的断栅检测模型构建方法,其特征在于,所述构建电池片断栅图像数据集的步骤具体包括:
获取多张电池片断栅图像,并通过数据增强方式扩充电池片断栅图像的数量,得到电池片断栅图像样本集;
对电池片断栅图像样本集中各样本内的电池片和断栅的位置进行标注,并标注类别为电池片或断栅,得到电池片断栅图像数据集;其中,
所述断栅训练集、断栅验证集和断栅测试集的比例为6:2:2。
7.如权利要求6所述的一种轻量化上采样YOLOX的断栅检测模型构建方法,其特征在于,所述数据增强方法为旋转、裁剪、平移、CutMix、加噪、自适应亮度校正中的一种或多种。
8.如权利要求2所述的一种轻量化上采样YOLOX的断栅检测模型构建方法,其特征在于,所述断栅检测模型的训练参数:批量大小为16,训练轮数为300,学习率为0.01,预训练轮数为10,每次由BN层进行正则化,更新模型参数。
9.如权利要求8所述的一种轻量化上采样YOLOX的断栅检测模型构建方法,其特征在于,所述生成目标断栅检测模型后,还包括如下步骤:
在训练每一轮后将得到的断栅检测模型的权重文件保存;利用断栅验证集对断栅检测模型性能进行评价,保存最优断栅检测模型,同时利用断栅测试集测试最优断栅检测模型的性能。
10.一种轻量化上采样YOLOX的断栅检测模型构建系统,其特征在于,包括数据构建模块、网络搭建模块、网络训练模块和测试验证模块,其中:
所述数据构建模块用于获取电池片断栅图像,并构建电池片断栅图像数据集,其中,电池片断栅图像数据集包括断栅训练集、断栅验证集和断栅测试集;
所述网络构建模块用于搭建基于DALU-YOLOX的断栅检测模型;其中,断栅检测模型包括input网络、主干网络、Neck网络和Head网络,断栅检测模型采用SIoU作为边界框回归损失;主干网络基于CBAM-Resunit结构,Neck网络基于具有轻量化上采样CARAFE结构;
所述网络训练模块用于利用断栅训练集对基于DALU-YOLOX的断栅检测模型中进行训练;
所述测试验证模块用于利用断栅验证集验证所述断栅检测模型后利用断栅测试集对其测试,生成目标断栅检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311598249.2A CN117671452A (zh) | 2023-11-28 | 2023-11-28 | 轻量化上采样yolox的断栅检测模型构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311598249.2A CN117671452A (zh) | 2023-11-28 | 2023-11-28 | 轻量化上采样yolox的断栅检测模型构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117671452A true CN117671452A (zh) | 2024-03-08 |
Family
ID=90080031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311598249.2A Pending CN117671452A (zh) | 2023-11-28 | 2023-11-28 | 轻量化上采样yolox的断栅检测模型构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117671452A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118486042A (zh) * | 2024-07-16 | 2024-08-13 | 天翼视联科技有限公司 | 证件盗拍识别方法、装置、计算机设备及存储介质 |
-
2023
- 2023-11-28 CN CN202311598249.2A patent/CN117671452A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118486042A (zh) * | 2024-07-16 | 2024-08-13 | 天翼视联科技有限公司 | 证件盗拍识别方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114897779B (zh) | 基于融合注意力的宫颈细胞学图像异常区域定位方法及装置 | |
CN110765865B (zh) | 基于改进的yolo算法的水下目标检测方法 | |
CN113920107A (zh) | 一种基于改进yolov5算法的绝缘子破损检测方法 | |
CN113920468B (zh) | 一种基于跨尺度特征增强的多分支行人检测方法 | |
CN117690128B (zh) | 胚胎细胞多核目标检测系统、方法和计算机可读存储介质 | |
CN114399672A (zh) | 一种基于深度学习的铁路货车闸瓦故障检测方法 | |
CN111209858B (zh) | 一种基于深度卷积神经网络的实时车牌检测方法 | |
CN112861635A (zh) | 一种基于深度学习的火灾及烟雾实时检测方法 | |
CN109671071A (zh) | 一种基于深度学习的地下管道缺陷定位及等级判定方法 | |
CN115063648A (zh) | 一种绝缘子缺陷检测模型构建方法及系统 | |
CN116863274A (zh) | 一种基于半监督学习的钢板表面缺陷检测方法及系统 | |
CN112258470B (zh) | 基于缺陷检测的工业图像临界压缩率智能分析系统及方法 | |
CN115830004A (zh) | 表面缺陷检测方法、装置、计算机设备和存储介质 | |
CN117037004B (zh) | 基于多尺度特征融合和上下文增强的无人机影像检测方法 | |
CN113971764A (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
CN114972316A (zh) | 基于改进YOLOv5的电池壳端面缺陷实时检测方法 | |
CN117671452A (zh) | 轻量化上采样yolox的断栅检测模型构建方法及系统 | |
CN116342536A (zh) | 基于轻量化模型的铝带材表面缺陷检测方法、系统及设备 | |
CN115147418A (zh) | 缺陷检测模型的压缩训练方法和装置 | |
CN115330729A (zh) | 一种多尺度特征融合注意力的轻量带钢表面缺陷检测方法 | |
CN114494250A (zh) | 基于神经网络模型的地板缺陷检测方法 | |
CN117853498A (zh) | 一种低粒度矿石的图像分割方法 | |
CN117037052A (zh) | 一种多尺度特征融合和注意力机制的水面死鱼检测方法 | |
CN116363610A (zh) | 一种基于改进YOLOv5的航拍车辆旋转目标检测方法 | |
CN117078591A (zh) | 道路缺陷实时检测方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |