CN112949572A

CN112949572A - 基于Slim-YOLOv3的口罩佩戴情况检测方法

Info

Publication number: CN112949572A
Application number: CN202110330611.2A
Authority: CN
Inventors: 姜小明; 向富贵; 张中华; 吕明鸿; 王添; 赖春红; 王伟; 李章勇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-11
Anticipated expiration: 2041-03-26
Also published as: CN112949572B

Abstract

本发明属于深度学习目标检测和计算机视觉技术领域，具体涉及一种基于Slim‑YOLOv3的口罩佩戴情况检测方法，该方法包括：实时获取人脸视频数据，对人脸视频数据进行预处理；将预处理后的人脸图像输入到训练好的Slim‑YOLOv3模型中，判断该用户是否正确佩戴口罩；本发明通过一种基于Slim‑YOLOv3的口罩佩戴情况视频检测方法，加上采用改进的无监督自分类方法对不规范佩戴口罩的数据进行子类划分，使得口罩佩戴视频检测任务可以更加精确快速的实现。且提出的网络更加简洁，使得应用成本进一步降低。

Description

基于Slim-YOLOv3的口罩佩戴情况检测方法

技术领域

本发明属于深度学习目标检测和计算机视觉技术领域，具体涉及一种基于Slim-YOLOv3的口罩佩戴情况检测方法。

背景技术

由于有害的气体、气味、飞沫、病毒等均是通过空气侵入人体，通过规范佩戴口罩可以有效的防范该物质侵入人体。规范佩戴口罩的作用不仅仅是防止病毒从无症状者身上传播给他人，降低二次传播的概率以保护其他人，同时也可以保护佩戴者，减少佩戴者所接触的病毒的接种量，使得病毒感染风险更低。

近年来，深度学习在目标检测、图像分类、语义分割等领域取得了巨大的进展。结合卷积神经网络的各类算法，无论是精度还是运算速度都取得了巨大的进展。口罩佩戴情况视频检测任务是一个目标检测问题，目标检测是结合目标分类和目标定位的多任务深度学习问题。

目前，根据实际检测任务的需求，视频检测需要解决两大关键技术：

(1).实时性；现场视频检测需要保证实时，才能有效的捕捉当前任务对象口罩佩戴情况；

(2).高精度；只有精确的得出当前对象口罩佩戴情况，才能起到有效的辅助作用。

目前，虽然在实际应用中已经出现很多口罩佩戴情况视频检测的设备，但往往高检测精度的设备消耗的计算资源较贵，廉价的检测器无法达到高精度。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于Slim-YOLOv3的口罩佩戴情况检测方法，该方法包括：实时获取人脸视频数据，对人脸视频数据进行预处理；将预处理后的人脸图像输入到训练好的改进Slim-YOLOv3模型中，判断该用户是否正确佩戴口罩；所述改进的Slim-YOLOv3模型包括骨干网络Darknet-53、特征增强及预测网络以及解码网络；

训练改进的Slim-YOLOv3模型的过程包括：

S1：获取原始数据集，对原始数据集进行预处理，得到训练样本集和测试样本集；

S2：对训练样本集和测试样本集中的数据进行分类和重新标注处理；

S3：将分类后的训练样本集输入到骨干网络Darknet-53中进行多尺度变换，提取多个尺度特征；

S4：将多个尺度特征输入到特征增强及预测网络中，得到分类预测结果；

S5：将分类预测结果输入到解码网络中进行解码；

S6：根据解码结果计算模型的损失函数；

S7：将测试集中的数据输入到模型进行预测，根据预测结果对模型的损失函数进行优化，当损失函数变化较小或达到迭代次数时，完成模型的训练。

优选的，对原始数据集进行预处理包括：将原始数据集中的数据进行压缩、翻转以及改变图像的明暗程度，得到增强的图像数据；对增强后的图像数据进行分割，得到训练样本集和测试样本集。

优选的，对训练样本集和测试样本集中的数据进行分类的过程包括：根据原始数据集的图像人脸佩戴口罩情况划分为三类，包括规范佩戴口罩图、不规范佩戴口罩图以及不佩戴口罩图；采用改进的图像无监督自分类方法SCAN对不规范佩戴口罩图进行再次分类，得到了多个子类。

进一步的，采用改进的图像无监督自分类方法SCAN对不规范佩戴口罩图进行再次分类的过程包括：

步骤1：提取口罩数据集中不规范佩戴口罩的人脸区域作为训练集；

步骤2：采用ECAResnet50网络对口罩佩戴情况数据集人脸区域数据进行分类训练，得到预训练权重；

步骤3：将预训练权重导入ECAResnet50的对抗网络中，提取图像的高级语义特征；

步骤4：计算各个高级语义特征的cosine相似度，并将相似度较大的语义特征对应的图像划分为邻居；

步骤5：将最近邻居作为先验进行聚类学习；

步骤6：采用self-labeling标签对聚类学习的图像进行微调标记处理，得到四个类别的伪标签。

进一步的，计算高级语义特征的cosine相似度的公式为：

优选的，采用骨干网络ECADarknet-53提取分类后的训练样本集中图像的多尺度特征的过程包括：将图像输入到数据增强模块中，将图像调整为416*416*3大小；将调整后的图像输入到ECADarknet53网络中，采用一个卷积快对图像进行一次卷积升维，得到一个batch_size*416*416*32大小的图像；采用引入注意力机制ECANet模块的五个残差卷积块对卷积升维后的图形进行特征提取，每经过一个残差卷积块，所提取的特征尺度变大，最终输出第四残差卷积块和第五残差卷积块得到的两个特征层；其中，batch_size表示每次输入网络的图像数量。

进一步的，注意力机制ECANet模块对特征进行处理的过程包括：采用不降低维数的通道级对特征层进行全局平均池化操作；每个通道选取k个近邻通道的数据对全局平均池化操作后的数据进行1×1的卷积，并通过一个sigmod激活函数；将激活后的数据扩展到输入特征大小并与输入特征相乘，得到含有多个通道信息的增强特征。ECANet模块被添加到ECADarknet-53中五个残差卷积块中的每个残差卷积单元中，每个残差卷积单元由两次卷积跟一个ECA模块的输出和输入叠加得到卷积单元的输出。

优选的，采用特征增强及预测网络对多个尺度特征进行处理的过程包括：

步骤1：将ECADarknet53网络中的第五残差卷积块得到的特征进行五次卷积处理；

步骤2：将进行卷积处理后的特征再次进行一次3×3卷积和一次1×1的卷积处理，将该处理的结果作为第五残差卷积块对应尺度特征层的预测结果；

步骤3：对五次卷积处理后的特征进行反卷积UmSampling2d操作后与第四残差卷积块得到的特征层进行堆叠处理，融合增强两个尺度特征的信息；

步骤4：对融合特征图进行五次卷积处理，将进行五次卷积的特征图进行一次3×3卷积和一次1×1的卷积，得到第四残差卷积后块对应尺度特征层的预测结果；

步骤5：输出两个尺度的特征层的预测结果，每个尺度的预测结果包括两个先验框每个网格点对应的预测框及其种类，即两个特征层分别对应着图片被分为不同大小的网格后，每个网格点上三个先验框对应的位置、置信度及其种类。

优选的，将分类预测结果输入到解码网络中进行解码的过程包括：

步骤1：将每个网格点加上对应的x_offset和y_offset，得到预测框的中心；

步骤2：将先验框和h、w结合，并计算出预测框的长和宽；

步骤3：通过位置信息与实际标注信息计算定位损失，通过预测类别信息和实际标注类别信息计算分类损失；

步骤5：判断真实框在图片中的位置，判断其属于哪一个网格点去检测；

步骤6：计算真实框与先验框重合程度，并选取重合度最高的先验框进行验证；

步骤7：获得网络应该有的预测结果，将其与实际的预测结果对比。

优选的，模型的损失函数的表达式为：

优选的，模型在对数据的种类进行分类过程中导入预训练权重，先冻结主干网后续网络层的参数进行50次迭代训练，然后解冻迭代训练100次，取其中分类损失和总损失较低的权重作为最终的训练结果。

本发明的有益效果：

本发明通过一种基于YOLOv3的口罩佩戴情况视频检测方法，使得口罩佩戴视频检测任务可以更加精确快速的实现。且提出的网络更加简洁，使得应用成本进一步降低。通过对数据集进一步进行子类划分和在主干网中添加ECANet注意力机制模块，提升了网络的检测精度；通过删除YOLOv3中对最小尺度的网络特征层，使得网络更加专注于大中尺度的目标，网络检测速度进一步提升。

附图说明

图1为本发明中数据集三个大类的划分示例图；

图2为本发明中不规范佩戴口罩的子类划分示例图；

图3为本发明中的原始YOLOv3的主要网络结构图；

图4为本发明中的ECANet的网络结构图；

图5为本发明提出的口罩佩戴视频检测任务的主要网络结构图；

图6为本发明的视频传输和显示设备图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于Slim-YOLOv3的口罩佩戴情况检测方法，该方法包括：实时获取人脸视频数据，对人脸视频数据进行预处理；将预处理后的人脸图像输入到训练好的改进Slim-YOLOv3模型中，判断该用户是否正确佩戴口罩。所述改进的Slim-YOLOv3模型包括骨干网络Darknet-53、特征增强及预测网络以及解码网络。

训练改进的Slim-YOLOv3模型的过程包括：

S2：对训练样本集中的数据进行初始分类；

S3：将分类后的训练样本集中的图像输入到骨干网络Darknet-53中进行多尺度变换，提取多个尺度特征；

S5：将分类预测结果输入到解码网络中进行解码；

S6：根据解码结果计算模型的损失函数；

S7：将测试集中的数据输入到模型进行测量，根据测量结果对模型的损失函数进行优化，当损失函数最小时，完成模型的训练。

一种训练改进的Slim-YOLOv3模型的具体实施方式，包括：

S1：获取原始数据集，并对原始数据集进行分类，分类的结果包括：规范佩戴口罩图、不规范佩戴口罩图以及不佩戴口罩图三类；

S2：将分类的数据集进行划分，得到训练样本集和测试样本集；对训练样本集进行数据增强处理；

S3：将增强后的训练样本集中的图像输入到骨干网络Darknet-53的YOLOv3网络模型中进行多尺度变换，提取多尺度分类特征和定位特征；

S4：需要输出两个特征层，两个特征层位于主干部分darknet53的不同位置，分别位于中下层，底层，两个特征层的大小分别为(26,26,512)和(13,13,1024)，然后对两个特征层进行5次卷积处理；

S5：处理完后大小为13×13的特征层一部分用于输出该特征层对应的预测结果，一部分用于进行反卷积UmSampling2d后与大小为26×26的特征层进行结合，之后对两个尺度的特征图进行一次3×3和1×1的卷积处理；

S6：对于一张图片，若初始将其划分为K×K的网格，K表示截取的图片网格数量，越大表示截取的网格尺度越小；需要两个尺度，预测C个类别，那么最终每个规模得到的张量为K×K×[2×(4+1+C)]。其中4和1分别表示预测位置的x，y坐标偏移量x_offset和y_offset，预测目标的宽h和高w，以及目标的预测类别。网络使用多个独立的逻辑回归分类器进行分类，每个分类器对于目标边框中出现的物体只判断其是否属于当前标签，即简单的二分类，这样便实现了多标签分类。

S7：解码过程。通过将每个网格点加上它对应的x_offset和y_offset，加完后的结果就是预测框的中心，然后再利用先验框和h、w结合，计算出预测框的长和宽，然后通过位置信息与实际标注信息计算定位损失，通过预测类别信息和实际标注类别信息计算分类损失，过程如下：

1.判断真实框在图片中的位置，判断其属于哪一个网格点去检测；

2.判断真实框和哪个先验框重合程度最高；

3.计算该网格点应该有怎么样的预测结果才能获得真实框；

4.对所有真实框进行如上处理；

5.获得网络应该有的预测结果，将其与实际的预测结果对比。

S8：根据分类损失和定位损失，当损失收敛到一定程度，不在下降或者达到一定的迭代次数时，完成模型的训练。

如图1所示，将获取的数据根据口罩的实际佩戴情况划分为三个大类，即即不戴口罩(non-wearing mask)、不规范戴口罩(Wrong way wearing mask)和规范戴口罩(Standard wearing mask)。标签分别为Nomask，Wrmask和Swmask。

进一步的，不规范佩戴口罩存在较大的类间差距，会影响该类的检测精度，从而影响整体检测精度。将不规范戴口罩这一类数据集再重新分成四个子类，标签分别为Notnorm1、Notnorm2、Notnorm3和Notnorm4。

采用改进的图像无监督自分类方法SCAN对不规范佩戴口罩图进行分类的过程包括：

步骤2：通过自监督方法提取图像的高级语义特征，消除当前的端到端学习方法中的低级特征；

步骤3：采用ECAResnet50网络对口罩佩戴情况数据集人脸区域数据进行分类训练，得到预训练权重；

步骤4：将预训练权重导入ECAResnet50加一个多层感知器构成的对抗网络，通过ECAResnet50网络提取的图像高级语义特征，计算各个高级语义特征的cosine相似度，并根据相似度的大小将相似度较大的语义特征对应的图像划分为邻居；

步骤5：将最近邻居作为先验进行聚类学习。通过学习一个聚类的函数Φ_η，它表示目标对应的预测类别，η表示神经网络权重参数，对数据集D中的一个样本X和它的邻居集合N_X一起进行伪标签分配，在C个类别上的阈值分配，样本X被分配为第c个类的概率表示为

通过目标函数Λ学习函数Φ_η的权重参数。目标函数Λ如下：

其中，D为数据集，X表示样本，Φ_η(X)表示聚类函数，η表示神经网络权重参数，<·>为点乘，λ表示，

表示所有样本所属类别概率

的均值，C表示目标对应类的置信度。为了让样本X_i和它的邻居

产生一致的预测结果，只有它们都预测为同一个类，且都为one-hot结果时，点乘的结果最大。为了避免将所以的样本都归为同一类，又加了一个惩罚项，使得预测结果均匀分布到所有的类。具体实施中，对于K近邻中K的取值，当K＝0，仅仅用样本和它们的增强图像，K＞1时考虑到了类内样本的不同，但是也引入了惩罚项，因为并不是所有的邻居都属于同一个类。

步骤6：通过self-labeling进行微调。就是选择高置信度预测(p_max≈1)的样本，需要定义一个阈值，选择置信度大于阈值的样本，这样就获得了伪标签，然后就可以计算交叉熵损失来更新参数，为了避免过拟合，这里用了强增强的样本作为输入，然后不断地添加超过阈值的样本为高置信度的样本，迭代有限次后结束，分类结果得到四个类别的伪标签。

改进的YOLOv3使用Darknet-53的骨干网络对全图像进行多尺度训练。利用骨干网引入特征金字塔思想提取多尺度特征。提取三层不同尺度的特征，用于预测盒子检测不同大小的物体。对较小尺度的特征层进行上采样，通过反褶积变换到与前一特征层相同的尺寸，然后进行拼接，得到三个不同尺度的特征层之间的信息。

如图2所示，原有的YOLOv3模型的结构具体结构包括：

1.骨干网络Darknet-53。将增强后的训练样本集中的图像输入到骨干网络Darknet-53的YOLOv3网络模型中进行多尺度变换，通过骨干网Darknet-53提取多个尺度的特征；

2.特征增强及预测网络。需要Darknet-53输出的三个特征层作为输入，三个特征层位于主干部分darknet53的不同位置，分别位于中层，中下层，底层，三个特征层的大小分别为(52,52,256)，(26,26,512)和(13,13,1024)，然后对三个特征层进行5次卷积处理；理完后的特征层一部分用于输出该特征层对应的预测结果，一部分用于进行反卷积UmSampling2d后与上一层进行结合，之后每层特征进行一次3×3和1×1的卷积处理；对于一张图片，若初始将其划分为K×K的网格，K表示截取的图片网格数量，越大表示截取的网格尺度越小；需要三个尺度，预测C个类别，那么最终每个规模得到的张量为K×K×[3×(4+1+C)]。其中4和1分别表示预测位置的x，y坐标偏移量x_offset和y_offset，预测目标的宽h和高w，以及目标的预测类别。网络使用多个独立的逻辑回归分类器进行分类，每个分类器对于目标边框中出现的物体只判断其是否属于当前标签，即简单的二分类，这样便实现了多标签分类。

3.解码部分。通过将每个网格点加上它对应的x_offset和y_offset，加完后的结果就是预测框的中心，然后再利用先验框和h、w结合，计算出预测框的长和宽，然后通过位置信息与实际标注信息计算定位损失，通过预测类别信息和实际标注类别信息计算分类损失，过程如下：

2.判断真实框和哪个先验框重合程度最高；

3.计算该网格点应该有怎么样的预测结果才能获得真实框；

4.对所有真实框进行如上处理；

根据分类损失和定位损失，当损失收敛到一定程度，不在下降或者达到一定的迭代次数时，完成模型的训练。

名为Darknet-53的骨干网络对全图像进行多尺度训练。Darknet-53包括五个大的残差卷积块，分别包含1、2、8、8和4个小的残差卷积单元，Darknet-53使用了残差网络Residual，darknet53中的残差卷积就是进行一次3X3、步长为2的卷积，然后保存该卷积layer，再进行一次1X1的卷积和一次3X3的卷积，并把这个结果加上layer作为最后的结果，残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率，其内部的残差单元使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。darknet53的每一个卷积部分使用了特有的DarknetConv2D结构，每一次卷积的时候进行l2正则化，完成卷积后进行BatchNormalization标准化与LeakyReLU。普通的ReLU是将所有的负值都设为零，Leaky ReLU则是给所有负值赋予一个非零斜率。以数学的方式可以表示为：

其中，x_i表示输入的标准化数据，a_i是一个自定义的尺度放缩值，它可以将数据调整到接近0的值，y_i表示激活函数的输出。

利用骨干网Darknet-53引入特征金字塔思想提取多尺度特征；提取三层不同尺度的特征，用于预测盒子和检测不同大小的物体；对较小尺度的特征层进行上采样，通过反卷积变换到与前一特征层相同的尺寸，然后进行拼接。这样，三个不同尺度的特征层之间的信息就可以被获取。

如图3所示，ECANet模块在不降维的情况下利用全局平均池化聚集卷积特性后，首先自适应确定卷积核的大小K，然后进行一维卷积，再通过sigmoid函数学习通道注意力。由于采用可视化通道特征不能高效的捕获所有通道之间的依赖关系，因此，ECANet只考虑当前信道与其k邻域通道之间的信息交换。每个通道的参数为C，则参数为k×C。各通道的参数的公式为：

其中，ω_i表示第i个通道的参数数量，

表示y_i的k个近邻通道的集合，σ表示激活函数，w^j表示第j个近邻通道的权重参数，

表第i个通道特征的第j个近邻，k表示近邻通道个数。

该策略可以通过一维卷积的方式简洁快速地实现，其核大小为k，处理的公式为：

ω＝σ(C1D_k(y)),

其中，C1D表示一维卷积，ECANet模块通过调用上述公式，使最终的参数数为k。

通过在Darknet-53残差卷积块的末尾添加轻量级注意力机制ECANet模块，得到提取两个尺度细粒度特征的ECA_Darknet-53主干。因为只需要在实际应用场景中检测大、中尺度的人脸，所以提取ECA_Darknet-53最后两个尺度的特征，然后进行进一步的特征处理。同时更大的物体可以被进一步处理以完成新的任务。

如图3所示，ECANet注意力机制模块中，一个大小为W×H×C的卷积块，给定使用全局平均池(GAP)的聚合特性，通过执行大小为k的快速一维卷积来生成通道权值，其中k通过通道维C的函数自适应地确定。

如图4所示，本发明提出的口罩佩戴视频检测任务的主要网络结构包括：数据增强网络，对训练数据集进行数据增强；ECADarknet-53通过在Darknet-53每个小的残差卷积单元的末尾加入一个ECANet注意力机制模块得到，引入ECANet注意力机制模块的骨干网ECADarknet-53可以更好的提升网络提取对任务更相关的特征的能力；删减后续原有YOLOv3网络中提取的三个不同尺度特征层中最小尺度的特征层，使得网络更加专注大中尺度的目标，同时网络更加精简，提升检测速度，如图4的two layers of features部分所示，在通过主干网后三个大的残差快提取特征后，只输出最后的两个大的残差快提取的特征，两个特征层的shape分别为(26,26,512)、(13,13,1024)，它们包含了更大尺度的特征；最后一个特征层进行5次卷积处理后一部分用于输出该特征层对应的预测结果，一部分用于进行反卷积UmSampling2d后与上一个特征层进行结合，进行5次卷积处理输出对应的预测结果。

在一个实施例中，通过改进的SCAN图像无监督自分类方法对不规范佩戴口罩数据集标签重新标注，进行子类划分，得到最终的训练和测试数据集，基于改进的YOLOv3的口罩佩戴情况视频检测方法，通过YOLOv3自带的数据增强方法，结合迁移学习进行训练，得到最终的检测模型。硬件设备采用海康威视人体测温双光筒机(DS-2TD2637B-10)作为图像采集设备，布控采用三脚架配合简易安装；结合一台显卡为GeForce GTX 1060Ti的台式电脑。如图5所示，视频采集配有一个硬盘录像机，并通过一个交换机连接，实现数据传输。

模型的损失函数的表达式为：

其中，λ_coord和λ_noobj为对应项的权重，S²表示网格个数，B表示每个网格产生候选框的个数，

表示第i个网格的第j个深度学习目标检查算法的锚框anchor box是否负责预测这个对象，

表示第i个网格的第j个anchor box不负责预测这个对象，x_i表示第i个网格实际中心点的横坐标，y_i表示第i个网格实际中心点的纵坐标，

第i个网格的第j个anchor box预测并解码后的中心点横坐标，

表示第i个网格的第j个anchor box预测并解码后的中心点纵坐标，ω、h分别表示目标的宽和高，

分别表示解码后目标的宽和高，C表示目标预测框内含有目标物体的置信度，

表示解码后目标预测框内含有目标物体的置信度，classes表示数据集的所有类别，P表示目标属于类别c的概率，

表示解释目标属于类别c的概率。

最终的实施例可以实现快速准确的大、中尺度人脸口罩佩戴情况识别和体温监控。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Slim-YOLOv3的口罩佩戴情况检测方法，其特征在于，包括：实时获取人脸视频数据，对人脸视频数据进行预处理；将预处理后的人脸图像输入到训练好的改进Slim-YOLOv3模型中，判断该用户是否正确佩戴口罩；所述改进的Slim-YOLOv3模型包括骨干网络ECADarknet-53、特征增强及预测网络以及解码网络；

训练改进的Slim-YOLOv3模型的过程包括：

S5：将分类预测结果输入到解码网络中进行解码；

S6：根据解码结果计算模型的损失函数；

2.根据权利要求1所述的一种基于Slim-YOLOv3的口罩佩戴情况检测方法，其特征在于，对原始数据集进行预处理包括：将原始数据集中的数据进行压缩、翻转以及改变图像的明暗程度，得到增强的图像数据；对增强后的图像数据进行分割，得到训练样本集和测试样本集。

3.根据权利要求1所述的一种基于Slim-YOLOv3的口罩佩戴情况检测方法，其特征在于，对训练样本集和测试样本集中的数据进行分类的过程包括：根据原始数据集的图像人脸佩戴口罩情况划分为三类，包括规范佩戴口罩图、不规范佩戴口罩图以及不佩戴口罩图；采用改进的图像无监督自分类方法SCAN对不规范佩戴口罩图进行再次分类，得到了多个子类。

4.根据权利要求3所述的一种基于Slim-YOLOv3的口罩佩戴情况检测方法，其特征在于，采用改进的图像无监督自分类方法SCAN对不规范佩戴口罩图进行分类的过程包括：

步骤5：将最近邻居作为先验进行聚类学习；

5.根据权利要求4所述的一种基于Slim-YOLOv3的口罩佩戴情况检测方法，其特征在于，计算高级语义特征的cosine相似度的公式为：

其中，x_i和y_i分别表示两个语义特征的向量中的第i维，n表示向量的总维数。

6.根据权利要求5所述的一种基于Slim-YOLOv3的口罩佩戴情况检测方法，其特征在于，采用骨干网络ECADarknet-53提取分类后的训练样本集中图像的多尺度特征的过程包括：将图像输入到数据增强模块中，将图像调整为416*416*3大小；将调整后的图像输入到ECADarknet53网络中，采用一个卷积快对图像进行一次卷积升维，得到一个batch_size*416*416*32大小的图像；采用引入注意力机制ECANet模块的五个残差卷积块对卷积升维后的图形进行特征提取，每经过一个残差卷积块，所提取的特征尺度变大，最终输出第四残差卷积块和第五残差卷积块得到的两个特征层；其中，batch_size表示每次输入网络的图像数量。

7.根据权利要求6所述的一种基于Slim-YOLOv3的口罩佩戴情况检测方法，其特征在于，注意力机制ECANet模块对特征进行处理的过程包括：采用不降低维数的通道级对特征层进行全局平均池化操作；每个通道选取k个近邻通道的数据对全局平均池化操作后的数据进行1×1的卷积，并通过一个sigmod激活函数；将激活后的数据扩展到输入特征大小并与输入特征相乘，得到含有多个通道信息的增强特征。

8.根据权利要求1所述的一种基于Slim-YOLOv3的口罩佩戴情况检测方法，其特征在于，采用特征增强及预测网络对多个尺度特征进行处理的过程包括：

9.根据权利要求1所述的一种基于Slim-YOLOv3的口罩佩戴情况检测方法，其特征在于，将分类预测结果输入到解码网络中进行解码的过程包括：

步骤1：将每个网格点加上对应的x_offset和y_offset，得到预测框的中心；其中x_offset和y_offset分别表示网格左上角坐标(x,y)和实际预测的点x和y方向上的偏移量；

步骤2：将先验框和h、w结合，并计算出预测框的长和宽；其中h，w分别表示预测框的尺度缩放值；

步骤7：获得网络应该有的预测结果，将其与实际的标注结果对比。

10.根据权利要求1所述的一种基于Slim-YOLOv3的口罩佩戴情况检测方法，其特征在于，模型的损失函数的表达式为：

第i个网格的第j个anchorbox预测并解码后的中心点横坐标，

表示解释目标属于类别c的概率。