CN110852214A

CN110852214A - 面向边缘计算的轻量级面部识别方法

Info

Publication number: CN110852214A
Application number: CN201911043719.2A
Authority: CN
Inventors: 龚征; 杨顺志; 叶开; 魏运根
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-28

Abstract

本发明公开了一种面向边缘计算的轻量级语面部别方法，包括下述步骤：S1、构建面向边缘计算设备的轻量级面部识别网络模型AntCNN，所述AntCNN的网络结构包括：第一卷积层、第一池化层、第一密集块、第二池化层、第二密集块、第三池化层、第三密集块以及第三池化层；S2、捕获面部图像，并将面部图像压缩为小尺寸像素，作为AntCNN的输入，并利用AntCNN进行特征提取和分类，S3、将获取的多维特征图经过全连接层得到各个类别的具体得分，最大的得分表示该图片的具体分类。本发明使用了传统机器学习的dlib库去寻找人脸的部分，并成功地运行在树莓派的边缘计算设备上，寻找人脸的视频非常流畅，完全满足了实时的要求。

Description

面向边缘计算的轻量级面部识别方法

技术领域

本发明属于深度学习的技术领域，具体涉及一种面向边缘计算的轻量级面部识别方法。

背景技术

深度学习对目标的多样性变化具有较好的鲁棒性。因此，在边缘计算设备上直接运行深度学习网络模型被视为最有前景的方法，并得到广泛的研究和应用。但是，深度学习是计算密集型的。而边缘计算设备的计算量和储存空间都是有限的。这意味着设计面向边缘计算的深度学习网络模型需要考虑准确率的同时，还需要注意网络需要的计算量和参数量。为了能够在边缘计算设备上运行深度学习网络模型，已经提出了诸如MobileNet和ShuffleNet等的轻量级网络模型。但是，这些网络都是作为一个通用的网络模型出现，主要应用于多目标的识别，所以网络模型输入图片的尺寸都很大。这导致了在相同情况下需要更多的计算量(floating-point operations per second，FLOPs)和更多的参数量。目标识别需要找到目标的具体位置并进行分类，目标分类只需要对已知具体位置的目标进行分类。在一些特定的场合，只需要对目标进行分类。那些通用的轻量级网络模型输入尺寸一般为224×224，里面包含着多个目标和相关背景。如果这些网络应用于目标分类，这会造成资源浪费和性能不佳。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种面向边缘计算的轻量级面部识别方法，大大提高了面部识别的准确性。

为了达到上述目的，本发明采用以下技术方案：

本发明面向边缘计算的轻量级面部识别方法，包括下述步骤：

S1、构建面向边缘计算设备的轻量级面部识别网络模型AntCNN，所述AntCNN的网络结构包括：第一卷积层、第一池化层、第一密集块、第二池化层、第二密集块、第三池化层、第三密集块以及第三池化层；

S2、捕获面部图像，并将面部图像压缩为小尺寸像素，作为AntCNN的输入，并利用AntCNN进行特征提取和分类，具体为：

S21、提取输入图像的底层特征，通过第一卷积层来获取图像的底层特征；

S22、利用第一池化层将网络模型长和宽都减少一半；

S23、利用第一密集块将经过第一池化层处理后的网络模型的维特征增加32；

S24、利用第二池化层将经过第一密集块处理的网络模型长和宽都减少一半；

S25、利用第二密集块将经过第二池化层处理后的网络模型的维特征增加32；

S25、利用第三池化层将经过第二密集块处理的网络模型长和宽都减少一半；

S26、利用第三密集块将经过第三池化层处理后的网络模型的维特征增加56；

S27、利用第四池化层将经过第三密集块处理的网络模型长和宽都减少五分之一；

S28、得到网络模型长和宽为1的多维特征图；

S3、将获取的多维特征图经过全连接层得到各个类别的具体得分，最大的得分表示该图片的具体分类。

作为优选的技术方案，步骤S1中，使用dlib库来捕获面部图像，dlib库捕获的面部图像被压缩为44×44像素的统一大小，获取到的网络模型输入维度为(44，44，3)，44表示图片的长和宽，3表示图片是彩色。

3、根据权利要求1所述面向边缘计算的轻量级面部识别方法，其特征在于，步骤S1中，所述第一卷积层为3×3卷积层，pad＝1,bias＝True；

所述第一池化层为3×3最大池化层，stride 2；

所述第一密集块为

所述第二池化层为2×2平均池化层,stride 2；

所述第二密集块为

所述第三池化层为2×2平均池化层,stride 2；

所述第三密集块为

所述第四池化层为5×5全局平均池化层。

作为优选的技术方案，采取一次3×3的卷积层来获取图片底层特征，底层特征提取之后的维度为(44，44，32)，44表示网络的长和宽，32表示32维的特征。

作为优选的技术方案，所述第一密集块、第二密集块和第三密集块均采用两个连续的3×3可学习组卷积。

作为优选的技术方案，密集块的构成顺序为步长为1的3×3的可学习分组卷积层，输出4倍增长率的特征图；批标准化层；激活层(Relu)；步长为1的3×3的可学习分组卷积层，输出1倍增长率的特征图；以及批标准化层。

作为优选的技术方案，将AntCNN成功运行在树莓派3B+上，运行的速度为0.87FPS，在情绪分类的FER-2013和RAF-DB数据集中的准确率都高于其他流行的轻量级特征提取网络，并且参数量为0.4MB，计算量为2.7MFLOPs。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明采用了蚂蚁搬食物的原理，把目标识别分为目标定位和目标分类这两个独立的部分。目标定位这一部分使用传统的机器学习方法，目标分类使用深度学习的方法。传统的机器学习的计算复杂度远远小于深度学习的方法，由于传统的机器学习对目标变化的多样性并没有很好识别的鲁棒性，因此无法目标识别的全过程无法使用传统的机器学习方法。但是，传统的机器学习方法用于寻找目标的位置的性能是非常优越的，如计算量少和准确率高。因而本发明使用了传统机器学习的dlib库去寻找人脸的部分，并成功地运行在树莓派的边缘计算设备上，寻找人脸的视频非常流畅，完全满足了实时的要求。

2、目标分类的部分只能使用深度学习的方法。先前的网络都是大网络(224×224)，其中包括了很多目标和背景的信息。因为已经使用dlib库就已经知道目标位置了，那接下来就剩下分类了。因而网络可以设置为44×44，只要网络设计合理，AntCNN的分类就不会因为输入少而导致准确性降低。另外，由于学习特征相对较大，因此完全连接的层仅需要几个尺寸特征。这不仅降低了复杂性，而且使网络可以专注于学习相对较大的特征。

3、在AntCNN网络设计中，我们充分地利用了特征重用的原理去设计了这个轻量级网络模型，另外设计了一款新的密集块。本发明在脸部识别任务上充分地展现了本方法的高效性。

附图说明

图1是本发明的方法流程图。

图2是本发明深度学习卷积网络中全连接层的形象图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例面向边缘计算的轻量级面部识别方法，设计了一款具有小尺寸输入的面向边缘计算的轻量级卷积神经网络分类模型，命名为AntCNN，如图1所示，本发明的方法包括下述步骤：

S2、捕获面部图像，并将面部图像压缩为小尺寸像素，作为AntCNN的输入；

本实施例首先使用dlib库来捕获面部图像，它以0.6到3秒的随机时间捕获一张脸。从视频中捕捉面部非常流畅且不会卡住。在本实施例中，dlib库捕获的面部图像被压缩为44×44像素的统一大小。这是因为dlib人脸检测器可以非常准确地识别面部。此外，dlib库比深度卷积网络模型消耗更少的计算能力。44×44像素的面部图像也能被充分地分类。如果网络的输入大小减小，则相对于具有大输入的网络来说，学习特性将很粗糙。

进一步的，目前的深度学习分类或识别网络最后一层都是全连接层。现在以识别图片中的目标是不是“人”为例，如图2所示，其中的“头”、“身体”等表示最后一层所学习到的特征图。如果说AntCNN最后一层网络中学习到的是“头”、“身体”等相对大的特征图，那么224×224的大网络中的最后一层网络学习的是“头”部中的耳朵、眼睛等特征。很明显224×224的大网络需要的计算量是很多的，而这些大网络都是面向大尺寸输入的网络设计的，因而在小尺寸输入的网络中发现性能不佳。

虽然小尺寸输入的AntCNN网络会存在学习的特征相对于大尺寸网络来说是粗糙的，但是识别目标是不是“人”是以学习各个特征的相似度来综合给分的。这意味着只要网络设计得当，AntCNN的识别不因网络输入尺寸过小而导致准确率低下。

获取好小输入的人脸图片之后，接下来就是CNN模型用于特征提取和分类。这相当于将多目标识别问题转换为单目标分类问题。因此，它减小了网络输入的大小，减少了参数的数量并降低了计算能力。获取到的网络模型输入维度为(44,44,3)，44表示图片的长和宽，3表示图片是彩色。具体为：

AntCNN开始的地方，如表1中的卷积层1所示，提取输入图片的底层特征，这部分网络包含着很多的细节信息，需要尽可能地提取多的特征。因为前部分学习的特征不够，后面很难提取到有效的高级的特征，当然不是越大越好，这会浪费内存和时间。本发明采用加大的卷积核，卷积核的尺寸越大就意味着更大的感受野，可以学到更加充分的信息，当然随之而来的是更多的参数。在DenseNet中采用的是7×7的卷积层，这个计算量非常大。本发明采取一次3×3的卷积层来获取图片底层特征，并且这对于本文输入的44×44的图片尺寸也已足够。底层特征的提取之后的维度为(44,44,32),44表示网络的长和宽，32表示32维的特征。

表1 AntCNN的网络结构

S3、池化层

池化层的作用是减少模型的计算量和清除特征中的噪音，本发明一共使用了四次池化层。第一次在底层特征提取之后，使用的是步长为2的3×3的最大池化层，处理之后的特征维度为(22,22,32)，即网络的长和宽都减少了一半，32表示的是维度。

第二次在第一次密集块之后，使用的是步长为2的2×2的平均池化层，处理之后的特征维度为(11,11,64)，即网络的长和宽都又减少了一半，64表示的是维度。

第三次在第二次密集块之后，使用的是步长为2的2×2的平均池化层，处理之后的特征维度为(5,5,96)，即网络的长和宽都再一次减少了一半，96表示的是维度。

第四次在第三次密集块之后，使用的是5×5的全局平均池化层，处理之后的特征维度为(1,1,152)，即网络的长和宽都减少了五分之一，152表示的是维度。

S4、密集块；

本实施例的密集块采用的是传统的后激活模式，即先卷积层，然后批标准化层，最后是激活层，如表2所示。在每一个密集块的卷积块2中都取消了激活层，主要是防止非线性破坏最后的特征信息。

表1，表2中的可学习组卷积都用L-conv表示，其中参数groups是分组的个数，condense_factor是浓缩因子。浓缩因子表示每一组的仅连接

的输入特征通道。

如表2所示，本发明在密集块中采用两个连续的3×3可学习组卷积，因为更大的感受野可以学到更丰富的特征。另外，本文取消了1×1的卷积层，因为1×1的卷积层会增加额外的内存消耗，并且在本文的实验中表现的性能不佳。本发明使用的包括可学习组卷积在内的所有卷积层都设置bias＝True。这是为了让网络能够增加非线性特性来更好地拟合数据。我们消除了密集块第二个卷积块中的激活层。这样可以防止非线性破坏过多的信息。此外，它减少了元素级的操作。

密集块的卷积块1中的可学习组卷积层输出4倍增长率的特征图，如表2所示。然而在卷积块2中的可学习组卷积层只输出1倍增长率的特征图。这意味着每经过一次密集块，网络可以增加1倍增长率维特征图。本发明的AntCNN选定的增长率为8，虽然每经过一个密集块只增加8维的特征图，但是经过多次之后AntCNN的最后一层网络就拥有152维的特征图。

综上，如表2所示，一个密集块的构成顺序为：步长为1的3×3的可学习分组卷积层(输出4倍增长率的特征图)，批标准化层，激活层(Relu)，步长为1的3×3的可学习分组卷积层(输出1倍增长率的特征图)，批标准化层。其中的增长率为8。

本发明中一共使用了三次密集块，第一次在第一次池化层之后，原来输入的是(22,22,32)，32代表32维特征，22代表网络的长和宽。经过4次密集块之后，网络的输出为(22,22,64),64表示32+4×8＝64维特征。

第二次在第二次池化层之后，原来输入的是(11,11,64)，64代表64维特征，11代表网络的长和宽。经过4次密集块之后，网络的输出为(11,11,96),96表示64+4×8＝96维特征。

第三次在第三次池化层之后，原来输入的是(5,5,96)，96代表96维特征，5代表网络的长和宽。经过7次密集块之后，网络的输出为(5,5,152),152表示96+7×8＝152维特征。

表2：密集块的细节图(L-Conv表示可学习组卷积，groups是分组的个数，condense_factor是浓缩因子)

S5、分类层；

AntCNN完整的网络结构如表1所示，获取到的网络大小(1,1,152)，152表示的是152维特征图。这152维的特征图经过全连接层得到各个类别的具体得分，最大的得分表示该图片的具体分类。

本发明将AntCNN成功运行在树莓派3B+上，运行的速度为0.87FPS(frames persecond)。在情绪分类的FER-2013[1]和RAF-DB[2]数据集中的准确率都高于其他流行的轻量级特征提取网络，并且参数量为0.4MB，计算量为2.7MFLOPs。

AntCNN与其他轻量级网络模型的性能对比如表3所示，其中IGCV1和Pelee在树莓派3B+上运行的速度和消耗的内存百分比为Null表示IGCV1和Pelee的模型太大以至于在树莓派3B+上运行不了。因此，本发明的AntCNN模型在准确率、参数量和计算量上面是很有优势的。虽然计算量无法和速度画等号，但是如果边缘计算设备需要执行多个任务时，模型需要的计算量就特别重要了。

表3在树莓派3B+上和其他轻量级网络的对比

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.面向边缘计算的轻量级面部识别方法，其特征在于，包括下述步骤：

S22、利用第一池化层将网络模型长和宽都减少一半；

S28、得到网络模型长和宽为1的多维特征图；

2.根据权利要求1所述面向边缘计算的轻量级面部识别方法，其特征在于，步骤S1中，使用dlib库来捕获面部图像，dlib库捕获的面部图像被压缩为44×44像素的统一大小，获取到的网络模型输入维度为(44，44，3)，44表示图片的长和宽，3表示图片是彩色。

3.根据权利要求1所述面向边缘计算的轻量级面部识别方法，其特征在于，步骤S1中，所述第一卷积层为3×3卷积层，pad＝1,bias＝True；

所述第一池化层为3×3最大池化层，stride 2；

所述第一密集块为

所述第二池化层为2×2平均池化层,stride 2；

所述第二密集块为

所述第三池化层为2×2平均池化层,stride 2；

所述第三密集块为

所述第四池化层为5×5全局平均池化层。

4.根据权利要求3所述面向边缘计算的轻量级面部识别方法，其特征在于，采取一次3×3的卷积层来获取图片底层特征，底层特征提取之后的维度为(44，44，32)，44表示网络的长和宽，32表示32维的特征。

5.根据权利要求3所述面向边缘计算的轻量级面部识别方法，其特征在于，所述第一密集块、第二密集块和第三密集块均采用两个连续的3×3可学习组卷积。

6.根据权利要求1所述面向边缘计算的轻量级面部识别方法，其特征在于，密集块的构成顺序为步长为1的3×3的可学习分组卷积层，输出4倍增长率的特征图；批标准化层；激活层(Relu)；步长为1的3×3的可学习分组卷积层，输出1倍增长率的特征图；以及批标准化层。

7.根据权利要求1所述面向边缘计算的轻量级面部识别方法，其特征在于，将AntCNN成功运行在树莓派3B+上，运行的速度为0.87FPS，在情绪分类的FER-2013和RAF-DB数据集中的准确率都高于其他流行的轻量级特征提取网络，并且参数量为0.4MB，计算量为2.7MFLOPs。