CN108875602A

CN108875602A - 监控环境下基于深度学习的人脸识别方法

Info

Publication number: CN108875602A
Application number: CN201810549188.3A
Authority: CN
Inventors: 殷绪成; 施耐尔; 杨博闻; 杨春
Original assignee: Zhuhai Wisdom Electronic Technology Co Ltd
Current assignee: Zhuhai Wisdom Electronic Technology Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-11-23

Abstract

本发明涉及计算机视觉领域，提出了一种监控环境下基于深度学习的人脸识别方法。该方法包括建立人脸特征数据库与对录像中的人脸做特征提取和特征比对两部分，分别基于MTCNN网络和Sphereface网络实现了人脸检测和人脸识别；并且通过加入仿射变换、增加数据集的多样性、网络的裁剪、网络的稀疏化与逐层量化，主要解决了传统人脸识别方法识别准确率低、对东西方人脸的识别准确率存在差异及基于深度学习的人脸识别技术所需带宽过大等问题。实验表明，本发明提出的人脸识别方法可用于监控环境下且具有较高的识别准确率。

Description

监控环境下基于深度学习的人脸识别方法

技术领域

本发明涉及计算机视觉领域，特别是指一种监控环境下基于MTCNN和Sphereface的人脸识别方法。

背景技术

人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术，即用摄像机或摄像头采集含有人脸的图像或视频流并且自动在图像中检测和跟踪人脸，进而对检测到的人脸进行特征提取实现人脸识别。人脸与人体的其他生物特征一样与生俱来，它的唯一性和不易被复制的良好特性为身份鉴别提供了必要的前提，此外与其他类型的生物识别比较人脸识别还具有非强制性、并发性等特点，因此人脸识别技术被广泛应用在各个方面，比如户籍查重，视频监控等。

传统的人脸识别技术主要是基于可见光图像的人脸识别，这也是人们熟悉的识别方式，已有30多年的研发历史，但是这种方式有着难以克服的缺陷，尤其是在环境光照发生变化时，识别效果会急剧下降，无法满足实际系统的需要。相较于传统方法实现的人脸识别，基于深度学习的人脸识别能更准确地提取人脸特征具有更强的鲁棒性和更高的准确率，目前在现实应用中取得了不错的效果。文献1（IEEE Signal Processing Letters,2016, 23(10):1499-1503.）提出了多级神经网络MTCNN，该算法原理见附图1，是三阶级联，第一步：在构建图像金字塔的基础上，利用全卷积网络来进行检测，同时利用Bounding boxregression和非极大抑制（NMS）进行修正。由于这一步使用的网络只有卷积层因此可以接受任意尺寸的输入，靠网络stride来自动完成滑窗。第二步：将通过P-Net的候选窗输入R-Net中作进一步判断，同时利用Bounding box regression和NMS来进行修正。第三步：使用O-Net输出最终的人脸框和特征点位置，和第二步相似，只不过增加了更强的约束：5个人脸关键点。文献2（IEEE Computer Society, 2017:6738-6746.）提出了归一化权值和角度间距，基于这两点对传统的softmax进行了改进，从而实现了最大类间距离和最小类间距离的识别标准。

上述方法虽然在人脸检测和特征提取的均取得了不错的效果，但是由于存在人脸倾斜等情况，如果直接将人脸检测的结果直接用于特征提取，会使特征提取的准确性大幅降低，因此无法直接形成一个可用的人脸识别方法；其次，上述方法的研究对象大多为西方人脸，尤其是特征提取的时候，对东方人脸的提取效果并不是特别的理想；再其次，上述方法在使用时带宽较大，并不能将之应用于一些对存储空间要求严格的设备中，比如监控摄像头。

发明内容

本发明要解决的技术问题是提供监控环境下的基于深度学习的人脸识别方法，通过提取检测地点的录像的视频帧图像，进而对这些视频帧图像中的人脸进行检测与识别，实现多个人脸的检测识别。特别的，本发明在现有的人脸检测与识别技术的基础上，主要解决了传统人脸识别方法识别准确率低、基于深度学习的人脸识别技术所需带宽过大、对东西方人脸的识别准确率存在差异的问题。

本发明的技术方案为：

监控环境下基于深度学习的人脸识别方法主要包括两个部分：建立人脸特征数据库、对录像中的人脸做特征提取和特征比对。

较佳地，作为一种可实施方式，所述建立人脸特征数据库包括以下步骤：

尽可能多的收集不同的仅包含单张人脸的图像，作为建立人脸特征数据库的基础；

将上述图像直接输入到人脸检测网络中进行人脸检测，检测出图像中人脸所在的区域及人脸上包括左眼、右眼、鼻子、左嘴角和右嘴角五个关键点的坐标；

根据人脸检测结果中人脸所在的区域，截取出仅有单个人脸的图像，并且根据五个关键点坐标进行仿射变换，实现人脸校正的目的；

对经过仿射变换的单人脸图像进行预处理；

将上一步所得的单人脸图像输入到人脸识别网络中进行人脸识别，得到该单人脸图像所对应的人脸特征；

将所有图像所对应的人脸特征以及图像对应的相关信息如人名等以合适的方式存储起来，形成人脸特征数据库。

较佳地，作为一种可实施方式，所述人脸检测网络为MTCNN网络，该网络由三个小网络级联而成，分别为P-Net（网络结构见附图2）、R-Net（网络结构见附图3）和O-Net（网络结构见附图4），其中P-Net可以得到视频帧图像中的人脸候选框，且由于该网络只包含卷积层，所以接受任意大小的输入，以便于应用到不同分辨率的监控设备中；R-Net和O-Net均是对P-Net得到的人脸候选框进行进一步筛选，两者的不同在于O-Net增加了更强的约束：5个关键点。可见此时，MTCNN网络的输入为任意大小仅包含单个人脸的图像，MTCNN网络的输出为图像中人脸所在的区域及人脸上包括左眼、右眼、鼻子、左嘴角和右嘴角五个关键点的坐标；

MTCNN网络需要通过训练所得，训练数据集为WIDER FACE和CelebA数据集，训练使用Caffe深度学习框架；同时为了确保MTCNN网络能够应用于监控设备中，需要对MTCNN网络进行稀疏化和逐层量化；稀疏化的中心思想是按一定的比例将网络模型中一些接近于0的权重参数置为0，减少存储所需的空间，而逐层量化的中心思想则是将权重参数根据计算公式由浮点数转化成若干位的定点数，其中定点数包括两个部分：浮点和指数；同时将数值相近的权重参数共用同一个定点数，实现权重共享，其中网络中每一层的计算公式均不相同，即逐层的概念。

较佳地，作为一种可实施方式，所述对MTCNN网络进行稀疏化和逐层量化包括以下步骤：

对训练完成后的MTCNN网络模型进行稀疏化，通过多次实验，在确保网络模型性能不下降的情况下，尽可能多的将接近于0的权重参数置为0；

对于稀疏化后的网络模型进行逐层量化，按照网络模型的结构，在确保网络模型性能不下降的情况下，一层层地调试将权重参数由浮点数转化成定点数的计算公式，从而确定定点数中浮点和指数最合适的位数。

较佳地，作为一种可实施方式，所述对经过仿射变换的单人脸图像进行预处理包括以下步骤：

通过下面的公式对经过仿射变换的单人脸图像进行归一化：

Img_new(x , y) = (Img_old(x , y) - 127.5) / 128，其中Img_new和Img_old为单人脸图像中的像素点；

将单人脸图像的大小统一至112*96。

较佳地，作为一种可实施方式，所述人脸识别网络为Sphereface网络，该网络结构图见附图5，该网络的输入为112*96的单人脸图像，输出为该图像对应的人脸特征（512维），即一个1*512的向量；

Sphereface网络需要通过训练所得，训练数据集为Webface数据集，训练使用Caffe深度学习框架；考虑到原网络所需带宽较大，因此需要对原网络进行裁剪，主要针对网络的层数和每层的输出维度进行裁剪，裁剪后的网络结构图见附图6；同时，为了避免东西方人脸识别准确率的差异，对训练数据集进行了补充，在原有Webface数据集中按一定比例混入了OFD东方人脸数据集，并根据不同人脸重新生成了训练标签；此外，为了进一步确保Sphereface网络能够应用于监控设备中，还需要对Sphereface网络进行稀疏化和逐层量化。

较佳地，作为一种可实施方式，所述将该单人脸图像所对应的人脸特征以及该单人脸图像的相关信息如姓名等以合适的方式存储起来包括以下步骤：

将图像对应的人脸识别结果，即人脸特征向量，以bin文件的形式存储起来，并且用该图像所对应的人名作为文件名的一部分，并且用不同的标号来区分同一个人的不同人脸图像，最终形成一个完整的人脸特征数据库。

较佳地，作为一种可实施方式，所述对录像中的人脸做特征提取和特征比对包括以下步骤：

从监控录像中按帧提取出视频帧图像；

将上一步提取得到的视频帧图像直接输入到人脸检测网络中进行人脸检测，检测出包含人脸的视频帧图像，并且可以得到视频帧图像中若干个人脸所在的区域及人脸上包括左眼、右眼、鼻子、左嘴角和右嘴角五个关键点的坐标；

根据人脸检测结果中人脸所在的区域，截取出若干张仅有单个人脸的图像，并且根据每个图像对应的五个关键点坐标进行仿射变换，实现人脸校正的目的；

对经过仿射变换的单人脸图像进行预处理；

将上一步所得单人脸图像的人脸特征与人脸特征数据库中的所有人脸特征进行比对，得到人脸识别结果，并最终将人脸识别结果传送到终端显示。

较佳地，作为一种可实施方式，所述人脸检测网络为MTCNN网络；可见此时，MTCNN网络的输入为任意大小的视频帧图像，MTCNN网络的输出为视频帧图像中若干个人脸所在的区域及人脸上包括左眼、右眼、鼻子、左嘴角和右嘴角五个关键点的坐标；若该视频帧图像中人脸个数为零时，结束人脸识别，返回读取下一帧要进行人脸检测与识别的视频帧图像；

MTCNN网络需要通过训练所得，训练数据集为WIDER FACE和CelebA数据集，训练使用Caffe深度学习框架；同时为了确保MTCNN网络能够应用于监控设备中，需要对MTCNN网络进行稀疏化和逐层量化。

通过下面的公式对经过仿射变换的单人脸图像进行归一化：

将单人脸图像的大小统一至112*96。

Sphereface网络需要通过训练所得，训练数据集为Webface数据集，训练使用Caffe深度学习框架；考虑到原网络所需带宽较大，因此需要对原网络进行裁剪，主要针对网络的层数和每层的输出维度进行裁剪，裁剪后的网络结构图见附图6；同时，为了避免东西方人脸识别准确率的差异，对训练数据集进行了补充，在原有Webface数据集中按一定比例混入了OFD东方人脸数据集，并根据不同人脸重新生成了训练标签；此外为了进一步确保Sphereface网络能够应用于监控设备中，还需要对Sphereface网络进行稀疏化和逐层量化。

较佳地，作为一种可实施方式，所述将上一步所得单人脸图像的人脸特征与人脸特征数据库中的所有人脸特征进行比对包括以下步骤：

通过下面公式计算单人脸图像的人脸特征与人脸特征数据库中某个人脸特征的余弦相似度：

，

其中A = (A₁，A₂，…，A_n)，B = (B₁，B₂，...，B_n)；

对计算所得的余弦相似度进行判断，若所得余弦相似度大于所设定的阈值，则初步认为两个人脸为同一张人脸，将人脸特征数据库中的某个人脸设为候选人脸；

计算该单人脸图像的人脸特征与人脸特征数据库中的所有人脸特征的余弦相似度，并根据所设定的阈值生成候选人脸集；

从候选人脸集中选择余弦相似度最大，也就是最接近1的人脸，作为该单人脸图像的最终人脸识别的结果；

最后将视频帧图像中所有检测到的单人脸图像均进行人脸特征比对，并将识别结果实时输出到终端上。

本发明和现有技术相比所具有的有益效果在于：

（1）本发明由于将人脸检测的结果进行了仿射变换，解决了人脸倾斜的问题，避免了人脸倾斜对特征提取所造成的负面影响，使得人脸检测的结果可以更好地用于特征提取；

（2）本发明由于对人脸检测和特征提取的网络进行了重新训练，并在原有训练数据集中加入了东方人脸库，尤其提高了特征提取网络对东方人脸的提取效果，最终提高了对东方人脸的识别准确率，更加有利于我国监控环境下人脸识别的应用；

（3）本发明在原网络的基础上进行了网络裁剪，一定程度上降低了网络使用过程中所需的带宽，进一步确保本发明能够应用于监控环境；

（4）本发明对训练好的网络进行了稀疏化和逐层量化，特别是逐层量化中引入了逐层的思想，在确保网络性能不下降的情况下对网络中的权重参数进行了量化，进一步降低了网络使用过程中所需的带宽，更加确保本发明能够应用于监控环境；

（5）本发明在存储人脸特征向量的过程中，以bin文件的形式存储，加快了人脸特征比对时，从人脸特征数据库中读取原先存储的人脸特征向量的速度，进一步确保本发明能够实现实时识别人脸；

（6）本发明在特征比对的过程中，采用余弦相似度来判断两张图像中的人脸是否为同一个人，该方法相比于传统的softmax在最大化分类任务的判别能力上更优。

附图说明

图1为MTCNN算法原理图；

图2为P-Net结构图；

图3为R-Net结构图；

图4为O-Net结构图；

图5为Sphereface原网络结构图；

图6为Sphereface裁剪后的网络结构图；

图7为建立人脸特征数据库流程图；

图8为对录像中的人脸做特征提取与特征比对流程图；

图9为网络量化与稀疏化中的权重量化及权重共享理论图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下将对本发明实施例的监控环境下基于MTCNN和Sphereface的人脸识别方法的具体实施方式进行说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例包含两个部分：建立人脸特征数据库和对录像中的人脸做特征提取与特征比对。

其中，建立人脸特征数据库，如图7所示，包括以下步骤：

S101，尽可能多的收集不同的仅包含单张人脸的图像，作为建立人脸特征数据库的基础；

S102，将上述图像直接输入到人脸检测网络中进行人脸检测，检测出图像中人脸所在的区域及人脸上包括左眼、右眼、鼻子、左嘴角和右嘴角五个关键点的坐标；

S103，根据人脸检测结果中人脸所在的区域，截取出仅有单个人脸的图像，并且根据五个关键点坐标进行仿射变换，实现人脸校正的目的；

S104，对经过仿射变换的单人脸图像进行预处理；

S105，将上一步所得的单人脸图像输入到人脸识别网络中进行人脸识别，得到该单人脸图像所对应的人脸特征；

S106，将所有图像所对应的人脸特征以及图像对应的相关信息如人名等以合适的方式存储起来，形成人脸特征数据库。

其中，对录像中的人脸做特征提取与特征比对，如图8所示，包括以下步骤：

S201，从监控录像中按帧提取出视频帧图像；

S202，将上一步提取得到的视频帧图像直接输入到人脸检测网络中进行人脸检测，检测出包含人脸的视频帧图像，并且可以得到视频帧图像中若干个人脸所在的区域及人脸上包括左眼、右眼、鼻子、左嘴角和右嘴角五个关键点的坐标；若该视频帧图像中人脸个数为零时，结束人脸识别，返回读取下一帧要进行人脸检测与识别的视频帧图像；

S203，根据人脸检测结果中人脸所在的区域，截取出若干张仅有单个人脸的图像，并且根据每个图像对应的五个关键点坐标进行仿射变换，实现人脸校正的目的；

S204，对经过仿射变换的单人脸图像进行预处理；

S205，将上一步所得的单人脸图像输入到人脸识别网络中进行人脸识别，得到该单人脸图像所对应的人脸特征；

S206，将上一步所得单人脸图像的人脸特征与人脸特征数据库中的所有人脸特征进行比对，得到人脸识别结果，并最终将人脸识别结果传送到终端显示。

下面对上述步骤做详细具体的说明：

所述S101，可以针对监控环境的不同，收集尽可能多的人脸图像，同一个人可以根据不同的角度、光照、遮挡等因素收集多张不同环境的人脸图像，一般可以是5张左右，其中不同的角度可以是正对、向左30度、向右30度等；不同的光照可以是正常、偏亮、偏暗等；不同遮挡可以是戴眼镜、戴帽子、不戴眼镜、不戴帽子等。

所述S102，需要对MTCNN网络进行训练，训练采用Caffe深度学习框架，训练过程主要包括两部分：数据处理和网络训练。

较佳地，作为一种可实施方式，所述数据处理包括以下步骤：

下载WIDER FACE和CelebA数据集；

为了实现MTCNN网络的训练，将数据分成4类，使用不同的注释，分别是：Negatives、Positives、Part faces和Landmark faces，其中前三类根据IoU的不同进行分类（IoU是产生的候选框与原标记框的交叠率，即它们的交集与并集的比值），若IoU区域小于0.3，则标记为Negatives，若IoU区域大于0.65，则标记为Positives，若IoU区域在0.4和0.65之间，则标记为Part faces；而Landmark faces为标有5个关键点（左眼、右眼、鼻子、左嘴角和右嘴角）的数据；

采用上述处理后的数据对MTCNN网络进行训练，由于MTCNN网络有3个小网络级联而成，因此在训练过程中需要先训练P-Net、再训练R-Net、最后训练O-Net，并且进行微调，确保MTCNN网络的检测准确率；

训练完成后，为了进一步确保MTCNN网络能够应用于监控设备中，需要对MTCNN网络进行稀疏化和逐层量化；较佳地，作为一种可实施方式，MTCNN网络的稀疏化按照一定的比例（本实施例中分别采用5%、10%、15%、20%等不同的比例）将接近于0的权重置为0，测试按照不同比例稀疏化后的网络的性能，在确保性能不下降的情况下，选择最大的比例对网络进行稀疏化，减少存储所需的空间大小；而MTCNN网络的逐层量化主要指的是权重量化和权重共享见附图9，即对于某一个权重参数将32位的浮点数根据计算公式转化成八位定点数，其中定点数包括两个部分：浮点和指数，其中浮点和指数的位数之和为8；与此同时将数值相近的权重参数用同一个定点数表示，实现权重共享；此外，为了确保量化后的MTCNN网络的性能和之前基本保持一致，不同于一般的权重量化，可以采用逐层量化的思想，即不同层（层的名称不同）的浮点数转化成定点数的计算公式都不同，但考虑到逐层量化的方法较为繁琐，故可以根据量化后网络的性能不断调试自发地找到最合适的定点参数即定点数中浮点和指数的位数；

此时，我们即可将任意大小的图像输入到最终的MTCNN网络中，得到该图像中人脸所在的区域（4个点的坐标）及人脸中5个关键点的坐标，并且以txt文件形式保存。

所述S103，首先根据图像中人脸所在的区域进行截取，然后基于以下公式并且根据5个关键点的坐标进行仿射变换，实现人脸校正的目的：

，

其中(x，y)为校正前的关键点坐标、(x’，y’)为校正后的关键点坐标，为仿射变换矩阵。

所述S104，先通过下面的公式对经过仿射变换的单人脸图像进行归一化：

Img_new(x , y) = (Img_old(x , y) - 127.5) / 128，其中Img_new和Img_old为单人脸图像中的像素点；然后将单人脸图像的大小统一至112*96。

所述S105，需要对Sphereface网络进行训练，训练采用Caffe深度学习框架，训练过程主要包括两部分：数据处理和网络训练。

下载Webface和OFD数据集；

对Webface和OFD数据集中所有数据均按照S103和S104的过程进行处理；

按照一定比例，将Webface和OFD数据集进行合并，形成新的数据集；

采用上述处理后的数据对裁剪后的Sphereface网络进行训练；

同样的，训练完成后，为了进一步确保Sphereface网络能够应用于监控设备中，需要对Sphereface网络进行稀疏化和逐层量化；Sphereface网络的稀疏化和逐层量化方法与MTCNN网络的稀疏化和逐层量化方法一致；

此时，我们即可将图像输入到最终的Sphereface网络中，得到该图像对应的人脸特征向量。

所述S106，采用特定的程序，将人脸特征向量以bin文件的形式存储下来，文件的名称具有统一的格式，比如：A某某的若干张不同环境下的图像可以以A某某_1、A某某_2……的形式命名；此外，还可以建立一个txt文档，存储人脸特征数据库中所有图像的文件名及该图像对应的相关信息。

所述S201，监控录像可以是公司内、学校宿舍内的监控录像；且在不影响人脸检测和识别的前提下，监控录像中的视频帧可以每2帧读取一次。

所述S202与S102基本一致、所述S203与S103基本一致、所述S204与S104基本一致、所述S205与S105基本一致。

所述S206，首先根据下面公式计算单人脸图像的人脸特征与人脸特征数据库中某个人脸特征的余弦相似度：

，

其中A = (A1，A2，…，An)，B = (B1，B2，...，Bn)；

然后对计算所得的余弦相似度进行判断，若所得余弦相似度大于所设定的阈值，则初步认为两个人脸为同一张人脸，将人脸特征数据库中的某个人脸设为候选人脸；

接着计算该单人脸图像的人脸特征与人脸特征数据库中的所有人脸特征的余弦相似度，并根据所设定的阈值（本实施例为0.27）生成候选人脸集；

最后从候选人脸集中选择余弦相似度最大，也就是最接近1的人脸，作为该单人脸图像的最终人脸识别的结果；

最终将图像中所有能检测到的人脸所在区域用矩形框标明，并且将识别结果（如人名）在矩形框左上角标明，达到终端显示的目的。

通过实验发现，使用本实施例所得人脸检测与人脸识别网络在LFW测试数据集上的识别准确率能够达到99%以上；并且通过裁剪、稀疏化及逐层量化后的网络所需的带宽相比于原网络减少了将近50%，基本能够确保本实施例提出的人脸识别方法能够应用于监控环境中；另外，在东西方人脸的识别准确率上从原先的相差3%到现在已经基本持平，均能够达到99%以上。

以上所述实施例仅表达了本发明的某种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种监控环境下基于MTCNN和Sphereface的人脸识别方法，其特征在于，包括以下两个部分：

建立人脸特征数据库；

对录像中的人脸做特征提取和特征比对。

2.根据权利要求1所述的监控环境下基于MTCNN和Sphereface的人脸识别方法，其特征在于，所述建立人脸特征数据库包括以下步骤：

对经过仿射变换的单人脸图像进行预处理；

将所有图像所对应的人脸特征以及图像所对应的相关信息以合适的方式存储起来，形成人脸特征数据库。

3.根据权利要求1所述的监控环境下基于MTCNN和Sphereface的人脸识别方法，其特征在于，所述对录像中的人脸做特征提取和特征比对包括以下步骤：

从监控录像中按帧提取出视频图像；

对经过仿射变换的单人脸图像进行预处理；

4.根据权利要求2所述的建立人脸特征数据库，其特征在于，所述人脸检测网络为MTCNN网络，该网络的输入为任意大小的图像，输出为图像中人脸所在的区域及人脸上包括左眼、右眼、鼻子、左嘴角和右嘴角五个关键点的坐标；MTCNN网络需要通过训练所得，训练数据集为WIDER FACE和CelebA数据集，训练使用Caffe深度学习框架；在训练过程中，为了确保MTCNN网络能够应用于监控设备中，对MTCNN网络进行稀疏化和逐层量化。

5.根据权利要求2所述的建立人脸特征数据库，其特征在于，所述对经过仿射变换的单人脸图像进行预处理包括以下步骤：

通过下面的公式对经过仿射变换的单人脸图像进行归一化：

将单人脸图像的大小统一至112*96；

根据权利要求2所述的建立人脸特征数据库，其特征在于，所述人脸识别网络为Sphereface网络，该网络的输入为112*96的单人脸图像，输出为该图像对应的人脸特征（512维），即一个1*512的向量；Sphereface网络需要通过训练所得，训练数据集为Webface数据集，训练使用Caffe深度学习框架；训练过程中，主要针对网络的层数和每层的输出维度对原网络进行了裁剪；在原有Webface数据集中按一定比例混入了OFD东方人脸数据集，并根据不同人脸重新生成了训练标签；为了确保Sphereface网络能够应用于监控设备中，对Sphereface网络进行了稀疏化和逐层量化。

6.根据权利要求2所述的建立人脸特征数据库，其特征在于，所述将该单人脸图像所对应的人脸特征以及该单人脸图像的相关信息如姓名等以合适的方式存储起来包括以下步骤：

将图像对应的人脸特征向量，以bin文件的形式存储起来，并且用该图像所对应的人名作为文件名的一部分，并且用不同标号来区分同一个人的不同人脸图像，最终形成一个完整的人脸特征数据库。

7.根据权利要求3所述的对录像中的人脸做特征提取和特征比对，其特征在于，所述人脸检测网络为MTCNN网络，该网络的输入为任意大小的视频帧图像，输出为视频帧图像中若干个人脸所在的区域及人脸上包括左眼、右眼、鼻子、左嘴角和右嘴角五个关键点的坐标；若该视频帧图像中人脸个数为零时，结束人脸识别，返回读取下一帧要进行人脸检测与识别的视频帧图像；MTCNN网络需要通过训练所得，训练数据集为WIDER FACE和CelebA数据集，训练使用Caffe深度学习框架；在训练过程中，为了确保MTCNN网络能够应用于监控设备中，对MTCNN网络进行稀疏化和逐层量化。

8.根据权利要求3所述的对录像中的人脸做特征提取和特征比对，其特征在于，所述对经过仿射变换的单人脸图像进行预处理包括以下步骤：

通过下面的公式对经过仿射变换的单人脸图像进行归一化：

将单人脸图像的大小统一至112*96。

9.根据权利要求3所述的对录像中的人脸做特征提取和特征比对，其特征在于，所述人脸识别网络为Sphereface网络，该网络的输入为112*96的单人脸图像，输出为该图像对应的人脸特征（512维），即一个1*512的向量；Sphereface网络需要通过训练所得，训练数据集为Webface数据集，训练使用Caffe深度学习框架；训练过程中，主要针对网络的层数和每层的输出维度对原网络进行了裁剪；在原有Webface数据集中按一定比例混入了OFD东方人脸数据集，并根据不同人脸重新生成了训练标签；为了确保Sphereface网络能够应用于监控设备中，对Sphereface网络进行了稀疏化和逐层量化。

10.根据权利要求3所述的对录像中的人脸做特征提取和特征比对，其特征在于，所述将上一步所得单人脸图像的人脸特征与人脸特征数据库中的所有人脸特征进行比对包括以下步骤：

，

其中A = (A₁，A₂，…，A_n)，B = (B₁，B₂，...，B_n)；