WO2019114036A1

WO2019114036A1 - 人脸检测方法及装置、计算机装置和计算机可读存储介质

Info

Publication number: WO2019114036A1
Application number: PCT/CN2017/119043
Authority: WO
Inventors: 张兆丰; 牟永强
Original assignee: 深圳云天励飞技术有限公司
Priority date: 2017-12-12
Filing date: 2017-12-27
Publication date: 2019-06-20
Also published as: CN109918969B; CN109918969A

Abstract

一种人脸检测方法、人脸检测装置、计算机装置及可读存储介质，所述方法包括：对待检测图像构造图像金字塔；提取图像金字塔的各层图像的聚合通道特征，得到待检测图像的特征金字塔；利用第一滑动窗口获得待检测图像的多个第一检测框，对第一检测框进行分类，获得多个候选人脸框；对候选人脸框进行合并；利用第二滑动窗口获得待检测图像的多个第二检测框，对第二检测框进行分类，得到多个候选头-肩框；对候选头-肩框进行合并；从合并后的候选头-肩框中预测人脸，得到预测人脸框；对合并后的候选人脸框和预测人脸框进行合并，得到目标人脸框。本方法可以实现快速高检出率的人脸检测。

Description

人脸检测方法及装置、计算机装置和计算机可读存储介质

本申请要求于2017年12月12日提交中国专利局，申请号为201711319416.X、发明名称为“人脸检测方法及装置、计算机装置和计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种人脸检测方法及装置、计算机装置和计算机可读存储介质。

背景技术

行人抓拍常用的方式有人脸检测、头-肩检测、行人检测。因人脸特征明显且稳定，人脸检测是3种检测方法中检出率最高，错检率最低的。但实际应用场景较复杂，人脸角度的变化(仰头，低头，侧脸)，光照的变化(逆光，阴影)，遮挡(墨镜、口罩、帽子)等都会降低人脸的检出率。头-肩检测是将头和肩部作为一个整体检测出来，因头、肩不如人脸特征明显和独特，检测效果较人脸稍差。另外，头-肩检测一般使用边缘特征(HOG)或纹理特征(LBP)，这些特征较复杂，计算耗时。行人检测一般要求检测全身，行人必须全部出现在画面中才能被检出，而实际场景中经常不能满足。

发明内容

鉴于以上内容，有必要提出一种人脸检测方法及装置、计算机装置和计算机可读存储介质，其可以实现快速高检出率的人脸检测。

本申请的第一方面提供一种人脸检测方法，所述方法包括：

对待检测图像构造图像金字塔；

提取所述图像金字塔的各层图像的聚合通道特征，得到所述待检测图像的特征金字塔；

利用第一滑动窗口按照第一预设步长在所述图像金字塔的各层图像上滑动，获得多个第一检测框，利用训练好的人脸检测模型根据所述特征金字塔对所述第一检测框进行分类，获得多个候选人脸框；

对所述候选人脸框进行合并，得到合并后的候选人脸框；

利用第二滑动窗口按照第二预设步长在所述图像金字塔的各层上滑动，获得多个第二检测框，利用训练好的头-肩检测模型根据所述特征金字塔对所述第二检测框进行分类，得到多个候选头-肩框；

对所述候选头-肩框进行合并，得到合并后的候选头-肩框；

利用训练好的人脸框预测模型从所述合并后的候选头-肩框中预测人脸，得到预测人脸框；

对所述合并后的候选人脸框和所述预测人脸框进行合并，得到目标人脸框。

另一种可能的实现方式中，所述图像金字塔的层数由如下公式确定：

其中，n表示待检测图像的图像金字塔的层数，k _up表示待检测图像上采样的倍数，w _img、h _img分别表示待检测图像的宽度和高度，w _m、h _m分别表示所述人脸检测模型接收的输入图像的宽度和高度，n _octave表示图像金字塔中每两倍尺寸之间的图像的层数。

另一种可能的实现方式中，所述提取所述图像金字塔的各层图像的聚合通道特征包括：

计算所述图像金字塔中部分图像的聚合通道特征，由所述部分图像的聚合通道特征插值得到所述图像金字塔中其他图像的聚合通道特征。

另一种可能的实现方式中，所述人脸检测模型和所述头-肩检测模型是由多个决策树级联形成的分类器。

另一种可能的实现方式中，所述方法还包括：获取所述头-肩检测模型的训练样本，具体方法如下：

将所述训练好的人脸检测模型减少若干个决策树，得到新的人脸检测模型；

将所述训练好的人脸检测模型和所述新的人脸检测模型在预设图像上检测人脸，所述新的人脸检测模型检出的人脸多于所述训练好的人脸检测模型检出的人脸；

针对所述新的人脸检测模型比所述训练好的人脸检测模型多检出的人脸，标出人脸框在所述预设图像中的位置，扩展该人脸框得到头-肩框，标注所述头-肩框在所述预设图像中的位置；

从所述预设图像中截取头-肩框图像，将截取的头-肩框图像缩放为预定大小作为训练所述头-肩检测模型的正样本，从所述预设图像中截取非头-肩框图像，将截取的非头-肩框图像缩放为预定大小作为训练所述头-肩检测模型的负样本。

本申请的第二方面提供一种人脸检测装置，所述装置包括：

构造单元，用于对待检测图像构造图像金字塔；

提取单元，用于提取所述图像金字塔的各层图像的聚合通道特征，得到所述待检测图像的特征金字塔；

第一检测单元，用于利用第一滑动窗口按照第一预设步长在所述图像金字塔的各层图像上滑动，获得多个第一检测框，利用训练好的人脸检测模型根据所述特征金字塔对所述第一检测框进行分类，获得多个候选人脸框；

第一合并单元，用于对所述候选人脸框进行合并，得到合并后的候选人脸框；

第二检测单元，用于利用第二滑动窗口按照第二预设步长在所述图像金字塔的各层上滑动，获得多个第二检测框，利用训练好的头-肩检测模型根据所述特征金字塔对所述第二检测框进行分类，得到多个候选头-肩框；

第二合并单元，用于对所述候选头-肩框进行合并，得到合并后的候选头-肩框；

预测单元，用于利用训练好的人脸框预测模型从所述合并后的候选头-肩框中预测人脸，得到预测人脸框；

第三合并单元，用于对所述合并后的候选人脸框和所述预测人脸框进行合并，得到目标人脸框。

另一种可能的实现方式中，所述构造单元根据如下公式确定所述图像金字塔的层数：

本申请的第三方面提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述人脸检测方法。

本申请的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述人脸检测方法。

本发明对待检测图像构造图像金字塔；提取所述图像金字塔的各层图像的聚合通道特征，得到所述待检测图像的特征金字塔；利用第一滑动窗口按照第一预设步长在所述图像金字塔的各层图像上滑动，获得多个第一检测框，利用训练好的人脸检测模型根据所述特征金字塔对所述第一检测框进行分类，获得多个候选人脸框；对所述候选人脸框进行合并，得到合并后的候选人脸框；利用第二滑动窗口按照第二预设步长在所述图像金字塔的各层上滑动，获得多个第二检测框，利用训练好的头-肩检测模型根据所述特征金字塔对所述第二检测框进行分类，得到多个候选头-肩框；对所述候选头-肩框进行合并，得到合并后的候选头-肩框；利用训练好的人脸框预测模型从所述合并后的候选头-肩框中预测人脸，得到预测人脸框；对所述合并后的候选人脸框和所述预测人脸框进行合并，得到目标人脸框。

通常的人脸检测(即通过人脸检测模型进行人脸检测)检出率高，误检率较低，本发明以通常的人脸检测作为主要检测方案。但通常的人脸检测对角度的变化(仰头，低头，侧脸)，光照的变化(逆光，阴影)，遮挡(墨镜、口罩、帽子)等情况较敏感，容易出现漏检。针对通常的人脸检测的缺陷，本发明采用头-肩检测作为辅助检测方案，检测到头-肩区域后，再提取人脸框。最后，将通常的人脸检测和头-肩检测得到的人脸框合并，形成最终的人脸框输出。因此，本发明联合使用人脸检测与头-肩检测，提高了人脸检出率。同时，本发明在人脸检测和头-肩检测时采用相同的特征(即聚合通道特征)，减少了特征提取的时间，加快了检测过程。因此，本发明可以实现快速高检出率的人脸检测。

附图说明

图1是本发明实施例一提供的人脸检测方法的流程图。

图2是人脸框预测模型为卷积神经网络的示意图。

图3是本发明实施例二提供的人脸检测装置的结构图。

图4是本发明实施例三提供的计算机装置的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

优选地，本发明的人脸检测方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本发明实施例一提供的人脸检测方法的流程图。所述人脸检测方法应用于计算机装置。所述人脸检测方法可以应用于各种视频监控场景，如智能交通、门禁系统、城市安防安保等。在智能交通中，可以利用本发明对行人或司机进行人脸检测。

本发明从待检测图像中检测出人脸区域，以便进行基于人脸的处理，例如人脸识别、表情分析等。本发明用于行人检测时，道路上斑马线附近的摄像头拍摄到的监控图像为待检测图像，本发明从监控图像中检测出人脸区域，以便进行行人识别。

如图1所示，所述人脸检测方法具体包括以下步骤：

101：对待检测图像构造图像金字塔。

待检测图像是包含人脸的图像，通常为监控图像。待检测图像可以包含一个人脸，也可以包含多个人脸。

待检测图像可以是从外部接收的图像、所述计算机装置拍摄的图像、从所述计算机装置的存储器中读取的图像等。

待检测图像可以是灰度图像，也可以是彩色图像，例如RGB图像、LUV图像或HSV图像。

对待检测图像构造图像金字塔是对待检测图像进行不同比例的缩放(可以放大也可以缩小)，得到不同大小的缩放图像，待检测图像及其缩放图像组成待检测图像的图像金字塔。例如，对待检测图像缩放75％得到第一缩放图像，对待检测图像缩放50％得到第二缩放图像，对待检测图像缩放25％得到第三缩放图像，待检测图像和第一缩放图像、第二缩放图像、第三缩放图像组成图像金字塔。

可以根据待检测图像的尺寸和本发明所用的人脸检测模型(见步骤103)的尺寸(即人脸检测模型接收的输入图像的尺寸)确定待检测图像的图像金字塔的层数。例如，可以由如下公式确定待检测图像的图像金字塔的层数：

其中，n表示待检测图像的图像金字塔的层数，k _up表示待检测图像上采样的倍数(即待检测图像放大的倍数)，w _img、h _img分别表示待检测图像的宽度和高度，w _m、h _m分别表示人脸检测模型的宽度和高度(即人脸检测模型接收的输入图像的宽度和高度)，n _octave表示图像金字塔中每两倍尺寸之间的图像的层数。其中，待检测图像的宽度和高度为已知量，人脸检测模型的宽度和高度也为已知量。k _up可由用户根据需要设定，或者系统默认(例如默认为2)。n _octave可由用户根据需要设定，或者系统默认(例如默认为8)。

102：提取所述图像金字塔的各层图像的聚合通道特征，得到所述待检测图像的特征金字塔。

所述聚合通道特征可以包括颜色特征、梯度幅值特征和梯度方向直方图特征。所述颜色特征可以包括RGB颜色特征、LUV颜色特征、HSV颜色特征、灰度特征等。

可以直接从待检测图像获得所述颜色特征。例如，若待检测图像是RGB图像，可以直接得到RGB颜色特征；若待检测图像是LUV图像，可以直接得到LUV颜色特征；若待检测图像是HSV图像，可以直接得到HSV颜色特征；若待检测图像是灰度图像，可以直接得到灰度特征。

或者，可以对待检测图像进行转换，获得所述颜色特征。例如，若待检测图像是RGB图像，可以将该RGB图像转换为灰度图像(即根据每个像素点的灰度值计算对应的RGB值)，得到待检测图像的灰度特征。

为了得到图像的梯度幅值特征和梯度方向直方图特征，需要计算图像中各个像素点的梯度。梯度有多种计算方法，例如利用Sobel、Prewitt或Roberts算子计算各个像素点的梯度(包括水平方向梯度值和垂直方向梯度值)。根据各个像素点的梯度确定各个像素点的梯度幅值和梯度方向。图像的各个像素点的梯度幅值即为图像的梯度幅值特征。

根据图像中各个像素点的梯度幅值和梯度方向，可以求解图像的梯度方向直方图，即图像的梯度方向直方图特征。在本实施例中，可以将图像分成多个大小相等的区块(例如4×4的区块)，分别求取各个区块的梯度方向直方图，根据各个区块的梯度方向直方图获得图像的梯度方向直方图。

每个区块的梯度方向直方图可以计算如下：根据区块中各个像素点的梯度方向，将区块中的各个像素点划分进多个不同的角度范围(例如6个角度范围)；统计区块中各个角度范围内的像素点的梯度幅值，得到区块中各个角度范围的梯度幅值；根据区块中各个角度范围的梯度幅值，得到各个区块的梯度方向直方图。

可以由图像中各个区块的梯度方向直方图，得到图像的梯度方向直方图。例如，可以将该图像中各个区块的梯度方向直方图向量串联起来构成梯度方向直方图串联向量，该梯度方向直方图串联向量即为图像的梯度方向直方图特征。

在一较佳实施例中，为了加快特征金字塔的计算速度，可以计算图像金字塔中部分图像(称作实特征层)的聚合通道特征(称为实特征)，图像金字塔中其他图像(称作近似特征层)的聚合通道特征由实特征插值得到，例如由与其距离最近的实特征层对应的实特征插值得到。图像金字塔中的实特征层可以由用户按照需要指定，也可以系统默认。

在根据实特征层的聚合通道特征插值得到近似特征层的聚合通道特征时，将实特征层的聚合通道特征乘以系数k _s，可以按照如下公式计算k _s：

其中，s表示近似特征层相对于实特征层的比例。λ _Ω对一种特征来说为常数，可以采用以下方式估计λ _Ω的值。估计时，由k _μs来代替k _s，

其中，

表示对图像I ⁱ按比例s进行缩放，f _μΩ(I)表示对图像I求特征Ω，并将这些特征取平均，N表示参与估计的图像数目。在一具体实施例中，将s取值为

N取50000，利用最小二乘法求得λ _Ω。

103：利用第一滑动窗口按照第一预设步长在所述图像金字塔的各层图像上滑动，获得多个第一检测框，利用训练好的人脸检测模型根据所述特征金字塔对所述第一检测框进行分类，获得多个候选人脸框。所述候选人脸框是分类为人脸的第一检测框。

所述第一滑动窗口的大小等于人脸检测模型接收的输入图像的大小。在一具体实施例中，所述第一滑动窗口的大小为32×32，所述第一预设步长为2(即2个像素)。在其他的实施例中，所述第一滑动窗口和所述第一预设步长可以是其他大小。

第一滑动窗口在图像金字塔的各层图像上按照预设方向(例如从上到下、从左到右)滑动，每个位置获得一个第一检测框，利用训练好的人脸检测模型对所述第一检测框进行分类，确定所述第一检测框是否为候选人脸框。

所述人脸检测模型可以是由多个(例如512个)决策树(Decision Tree)级联形成的分类器，即由多个弱分类器级联形成的强分类器。决策树又称判定树，是运用于分类的一种树结构。决策树中的每个内部结点代表对某个属性的一次测试，每条边代表一个测试结果，叶结点代表某个类或者类的分布，最上面的结点是根结点。构成人脸检测模型的决策树的深度可以为8，也可以是其他值。

可以使用adboost方法(例如Gentle adboost方法)对由多个决策树形成的人脸检测模型进行训练。

训练人脸检测模型需要的训练样本包括正样本和负样本。训练人脸检测模型的正样本为人脸框图像，负样本为非人脸框图像。

在一具体实施例中，可以从监控图像中截取人脸框图像，将截取的人脸框图像缩放为第一预定大小(例如32×32)作为训练人脸检测模型的正样本；从监控图像中截取非人脸框图像，将截取的非人脸框图像缩放为第一预定大小(例如32×32)作为训练人脸检测模型的负样本。截取的非人脸框图像是从人脸框所在区域之外的图像区域中截取的图像。

对人脸检测模型进行训练可以参考现有技术，此处不再赘述。

104：对所述候选人脸框进行合并，得到合并后的候选人脸框。

对所述候选人脸框进行合并是对所述候选人脸框进行去重。合并后的候选人脸框可以是一个也可以是多个。若待检测图像包含一个人脸，则可以得到一个合并后的候选人脸框；若待检测图像包含多个人脸，则对应每个人脸可以得到一个合并后的候选人脸框。

可以通过非极大值抑制(Non-maximum suppression，NMS)算法对候选人脸框进行合并，即根据候选人脸框属于人脸的概率和候选人脸框的重叠面积比例(Intersection over Union，IOU)对候选人脸框进行合并。

在一具体实施例中，通过NMS算法对候选人脸框进行合并可以包括：将所有候选人脸框按照属于人脸的概率进行排序；选择概率最高的候选人脸框，分别判断其他的候选人脸框与选择的候选人脸框的重叠面积比例是否大于第一预设阈值(例如0.25)；若重叠面积比例大于第一预设阈值，则删除该其他的候选人脸框，并将选择的候选人脸框作为合并后的候选人脸框；从剩余的候选人脸框中选择概率最高的候选人脸框，重复上述过程，直至得到所有合并后的候选人脸框。其中，剩余的候选人脸框是指除去删除的候选人脸框和合并后的候选人脸框所剩下的候选人脸框。

举例来说，假设有6个候选人脸框，按照属于人脸的概率由低到高排序分别为A、B、C、D、E、F。选择概率最高的候选人脸框F，分别判断A～E与F的重叠面积比例是否大于第一预设阈值。假设B、D与F的重叠面积比例超过第一预设阈值，则删除B、D，并标记F是第一个得到的合并后的候选人脸框。从剩下的候选人脸框A、C、E中，选择概率最高的候选人脸框E，判断A、C与E的重叠面积比例是否大于第一预设阈值。假设A、C与E的重叠面积比例大于第一预设阈值，则删除A、C，并标记E是第二个得到的合并后的候选人脸框。因此，通过NMS算法得到合并后的候选人脸框F、E。

105：利用第二滑动窗口按照第二预设步长在所述图像金字塔的各层上滑动，获得多个第二检测框，利用训练好的头-肩检测模型根据所述特征金字塔对所述第二检测框进行分类，得到多个候选头-肩框。所述候选头-肩框是分类为头-肩框的第二检测框。

所述第二滑动窗口的大小等于头-肩检测模型接收的输入图像的大小。在一具体实施例中，所述第二滑动窗口的大小可以是64×64，所述第二预设步长可以是2。在其他的实施例中，所述第二滑动窗口和所述第二预设步长可以是其他大小。

所述第二预设步长可以等于第一预设步长。所述第二预设步长也可以不等于所述第一预设步长，例如，所述第一预设步长为2，所述第二预设步长为4。

第二滑动窗口在图像金字塔的各层图像上按照预设方向(例如从上到下、从左到右)滑动，每个位置获得一个第二检测框，利用训练好的人脸检测模型对所述第二检测框进行分类，确定所述第二检测框是否为候选头-肩框。

所述头-肩检测模型可以是由多个(例如512个)决策树级联形成的分类器。头-肩检测模型包含的决策树的数量与人脸检测模型包含的决策树的数量可以相同，也可以不同。构成头-肩检测模型的决策树的深度可以为8，也可以是其他值。

可以由训练好的人脸检测模型获得头-肩检测模型的训练样本。例如，可以将训练好的由决策树级联得到的人脸检测模型减少若干个决策树，得到新的人脸检测模型。将训练好的人脸检测模型和新的人脸检测模型在监控图像上检测人脸，新的人脸检测模型检出的人脸多于训练好的人脸检测模型检出的人脸。针对新的人脸检测模型多检出的人脸，标出人脸框在监控图像中的位置，扩展该人脸框得到头-肩框，标注头-肩框在监控图像中的位置。例如，将头-肩框的位置标注为[x',y',w',h']，x',y'表示头-肩框的左上角坐标，w'表示头-肩框的宽度，h'表示头-肩框的高度。可以从监控图像中截取头-肩框图像，将截取的头-肩框图像缩放为第二预定大小(例如64×64)作为训练头-肩检测模型的正样本；从监控图像中截取非头-肩框图像，将截取的非头-肩框图像缩放为第二预定大小作为训练头-肩检测模型的负样本。截取的非头-肩框图像是从头-肩框所在区域之外的图像区域中截取的图像。

由训练好的人脸检测模型可以方便地获得头-肩检测模型需要的训练样本，并且得到的训练样本是从监控图像中得到的，因而更符合实际的监控场景。

可以使用adboost方法(例如Gentle adboost方法)对由多个决策树形成的头-肩检测模型进行训练。

对头-肩检测模型的训练过程可以参考现有技术，此处不再赘述。

现有的头-肩检测一般使用边缘特征(HOG)或纹理特征(LBP)，这些特征较复杂，计算耗时。本发明根据待检测图像的特征金字塔进行头-肩检测，不需要进行额外的特征提取，省却了头-肩检测过程中特征提取的时间，加快了头-肩检测的速度，从而提高了本发明人脸检测方法的效率。

106：对所述候选头-肩框进行合并，得到合并后的候选头-肩框。

对所述候选人脸框进行合并是对所述候选头-肩框进行去重。合并后的候选头-肩框可以是一个也可以是多个。若待检测图像包含一个头-肩，则可以得到一个合并后的候选头-肩框；若待检测图像包含多个头-肩，则对应每个头-肩可以得到一个合并后的候选头-肩框。

可以通过非极大值抑制算法对候选头-肩框进行合并，即根据候选头-肩框属于头-肩的概率和候选头-肩框的重叠面积比例对候选头-肩框进行合并。

在一具体实施例中，通过非极大值抑制算法对候选头-肩框进行合并可以包括：将所有候选头-肩框按照属于头-肩的概率进行排序；选择概率最高的候选头-肩框，分别判断其他的候选头-肩框与选择的候选头-肩框的重叠面积比例是否大于第二预设阈值(例如0.30)；若重叠面积比例大于第二预设阈值，则删除该其他的候选头-肩框，并将选择的候选头-肩框作为合并后的候选头-肩框；从剩余的候选头-肩框中选择概率最高的候选头-肩框，重复上述过程，直至得到所有合并后的候选头-肩框。其中，剩余的候选头-肩框是指除去删除的候选头-肩框和合并后的候选头-肩框所剩下的候选头-肩框。

举例来说，假设有6个候选头-肩框，按照属于头-肩的概率由低到高排序分别为A'、B'、C'、D'、E'、F'。选择概率最高的候选头-肩框F'，分别判断A'～E'与F'的重叠面积比例是否大于第二预设阈值。假设B'、D'与F的重叠面积比例超过第二预设阈值，则删除B'、D'，并标记F'是第一个得到的合并后的候选头-肩框。从剩下的候选头-肩框A'、C'、E'中，选择概率最高的候选头-肩框E'，判断A'、C'与E'的重叠面积比例是否大于第二预设阈值。假设A'、C'与E'的重叠面积比例大于第二预设阈值，则删除A'、C'，并标记E'是第二个得到的合并后的候选头-肩框。

107：利用训练好的人脸框预测模型从所述合并后的候选头-肩框中预测人脸，得到预测人脸框。

在本实施例中，人脸框预测模型可以是卷积神经网络。例如，人脸框预测模型可以是图2所示的卷积神经网络，该卷积神经网络包含2个3X3的卷积层、1个2X2的卷积层、1个全连接层，前2个卷积层使用3X3的最大池化。对卷积神经网络进行训练时，回归的目标是人脸框的位置[x,y,w,h]。

对头-肩检测人脸框预测模型(例如卷积神经网络)的训练过程可以参考现有技术，此处不再赘述。

108：对所述合并后的候选人脸框和所述预测人脸框进行合并，得到目标人脸框。

可以通过非极大值抑制算法对合并后的候选人脸框和预测人脸框进行合并，即根据合并后的候选人脸框和预测人脸框属于头-肩的概率和合并后的候选人脸框和预测人脸框的重叠面积比例对候选头-肩框进行合并。

在一具体实施例中，通过非极大值抑制算法对合并后的候选人脸框和预测人脸框进行合并可以包括：将所有合并后的候选人脸框和预测人脸框按照属于人脸的概率由高到低排序；选择概率最高的人脸框(可以是合并后的候选人脸框或预测人脸框)，分别判断其他的人脸框与选择的人脸框的重叠面积比例是否大于第三预设阈值(例如0.30)；若重叠面积比例大于第三预设阈值，则删除该其他的人脸框，并将选择的人脸框作为目标人脸框；从剩余的人脸框中选择概率最高的人脸框，重复上述过程，直至得到所有目标人脸框。其中，剩余的人脸框是指除去删除的人脸框和目标人脸框所剩下的人脸框。

第一预设阈值、第二预设阈值、第三预设阈值可以相同，也可以不同。

实施例一的人脸检测方法对待检测图像构造图像金字塔；提取所述图像金字塔的各层图像的聚合通道特征，得到所述待检测图像的特征金字塔；利用第一滑动窗口按照第一预设步长在所述图像金字塔的各层图像上滑动，获得多个第一检测框，利用训练好的人脸检测模型根据所述特征金字塔对所述第一检测框进行分类，获得多个候选人脸框；对所述候选人脸框进行合并，得到合并后的候选人脸框；利用第二滑动窗口按照第二预设步长在所述图像金字塔的各层上滑动，获得多个第二检测框，利用训练好的头-肩检测模型根据所述特征金字塔对所述第二检测框进行分类，得到多个候选头-肩框；对所述候选头-肩框进行合并，得到合并后的候选头-肩框；利用训练好的人脸框预测模型从所述合并后的候选头-肩框中预测人脸，得到预测人脸框；对所述合并后的候选人脸框和所述预测人脸框进行合并，得到目标人脸框。

通常的人脸检测(即通过人脸检测模型进行人脸检测)检出率高，误检率较低，实施例一的人脸检测方法以通常的人脸检测作为主要检测方案。但通常的人脸检测对角度的变化(仰头，低头，侧脸)，光照的变化(逆光，阴影)，遮挡(墨镜、口罩、帽子)等情况较敏感，容易出现漏检。针对通常的人脸检测的缺陷，实施例一的人脸检测方法采用头-肩检测作为辅助检测方案，检测到头-肩区域后，再提取人脸框。最后，将通常的人脸检测和头-肩检测得到的人脸框合并，形成最终的人脸框输出。因此，实施例一的人脸检测方法联合使用人脸检测与头-肩检测，提高了人脸检出率。同时，实施例一的人脸检测方法在人脸检测和头-肩检测时采用相同的特征(即聚合通道特征，也就是特征金字塔)，减少了特征提取的时间，加快了检测过程。因此，实施例一的人脸检测方法可以实现快速高检出率的人脸检测。

实施例二

图3为本发明实施例二提供的人脸检测装置的结构图。如图3所示，所述人脸检测装置10可以包括：构造单元301、提取单元302、第一检测单元303、第一合并单元304、第二检测单元305、第二合并单元306、预测单元307、第三合并单元308。

构造单元301，用于对待检测图像构造图像金字塔。

对待检测图像构造图像金字塔是对待检测图像进行不同比例的缩放(可以放大或缩小)，得到不同大小的缩放图像，待检测图像及其缩放图像组成待检测图像的图像金字塔。例如，对待检测图像缩放75％得到第一缩放图像，对待检测图像缩放50％得到第二缩放图像，对待检测图像缩放25％得到第三缩放图像，待检测图像和第一缩放图像、第二缩放图像、第三缩放图像组成图像金字塔。

提取单元302，用于提取所述图像金字塔的各层图像的聚合通道特征，得到所述待检测图像的特征金字塔。

其中，

N取50000，利用最小二乘法求得λ _Ω。

第一检测单元303，用于利用第一滑动窗口按照第一预设步长在所述图像金字塔的各层图像上滑动，获得多个第一检测框，利用训练好的人脸检测模型根据所述特征金字塔对所述第一检测框进行分类，获得多个候选人脸框。所述候选人脸框是分类为人脸的第一检测框。

第一合并单元304，用于对所述候选人脸框进行合并，得到合并后的候选人脸框。

第二检测单元305，用于利用第二滑动窗口按照第二预设步长在所述图像金字塔的各层上滑动，获得多个第二检测框，利用训练好的头-肩检测模型根据所述特征金字塔对所述第二检测框进行分类，得到多个候选头-肩框。所述候选头-肩框是分类为头-肩框的第二检测框。

可以由训练好的人脸检测模型获得头-肩检测模型的训练样本。例如，可以将训练好的由决策树级联得到的人脸检测模型减少若干个决策树，得到新的人脸检测模型。将训练好的人脸检测模型和新的人脸检测模型在监控图像上检测人脸，新的人脸检测模型检出的人脸多于训练好的人脸检测模型检出的人脸。针对新的人脸检测模型多检出的人脸，标出人脸框在监控图像中的位置，扩展该人脸框得到头-肩框，标注头-肩框在监控图像中的位置。例如，将头-肩框的位置标注为[x',y',w',h']，x',y'表示头-肩框的左上角坐标，w'表示头-肩框的宽度，h'表示头-肩框的高度。可以从监控图像中截取头-肩框图像；将截取的头-肩框图像缩放为第二预定大小(例如64×64)作为训练头-肩检测模型的正样本；从监控图像中截取非头-肩框图像，将截取的非头-肩框图像缩放为第二预定大小作为训练头-肩检测模型的负样本。截取的非头-肩框图像是从头-肩框所在区域之外的图像区域中截取的图像。

第二合并单元306，用于对所述候选头-肩框进行合并，得到合并后的候选头-肩框。

对所述候选头-肩框进行合并是对所述候选头-肩框进行去重。合并后的候选头-肩框可以是一个也可以是多个。若待检测图像包含一个头-肩，则可以得到一个合并后的候选头-肩框；若待检测图像包含多个头-肩，则对应每个头-肩可以得到一个合并后的候选头-肩框。

预测单元307，用于利用训练好的人脸框预测模型从所述合并后的候选头-肩框中预测人脸，得到预测人脸框。

第三合并单元308，用于对所述合并后的候选人脸框和所述预测人脸框进行合并，得到目标人脸框。

实施例二的人脸检测装置对待检测图像构造图像金字塔；提取所述图像金字塔的各层图像的聚合通道特征，得到所述待检测图像的特征金字塔；利用第一滑动窗口按照第一预设步长在所述图像金字塔的各层图像上滑动，获得多个第一检测框，利用训练好的人脸检测模型根据所述特征金字塔对所述第一检测框进行分类，获得多个候选人脸框；对所述候选人脸框进行合并，得到合并后的候选人脸框；利用第二滑动窗口按照第二预设步长在所述图像金字塔的各层上滑动，获得多个第二检测框，利用训练好的头-肩检测模型根据所述特征金字塔对所述第二检测框进行分类，得到多个候选头-肩框；对所述候选头-肩框进行合并，得到合并后的候选头-肩框；利用训练好的人脸框预测模型从所述合并后的候选头-肩框中预测人脸，得到预测人脸框；对所述合并后的候选人脸框和所述预测人脸框进行合并，得到目标人脸框。

通常的人脸检测(即通过人脸检测模型进行人脸检测)检出率高，误检率较低，实施例二的人脸检测装置以通常的人脸检测作为主要检测方案。但通常的人脸检测对角度的变化(仰头，低头，侧脸)，光照的变化(逆光，阴影)，遮挡(墨镜、口罩、帽子)等情况较敏感，容易出现漏检。针对通常的人脸检测的缺陷，实施例二的人脸检测装置采用头-肩检测作为辅助检测方案，检测到头-肩区域后，再提取人脸框。最后，将通常的人脸检测和头-肩检测得到的人脸框合并，形成最终的人脸框输出。因此，实施例二的人脸检测装置联合使用人脸检测与头-肩检测，提高了人脸检出率。同时，实施例二的人脸检测装置在人脸检测和头-肩检测时采用相同的特征(即聚合通道特征)，减少了特征提取的时间，加快了检测过程。因此，实施例二的人脸检测装置可以实现快速高检出率的人脸检测。

实施例三

图3为本发明实施例三提供的计算机装置的示意图。所述计算机装置1包括存储器20、处理器30以及存储在所述存储器20中并可在所述处理器30上运行的计算机程序40，例如人脸检测程序。所述处理器30执行所述计算机程序40时实现上述人脸检测方法实施例中的步骤，例如图1所示的步骤101～108。或者，所述处理器30执行所述计算机程序40时实现上述装置实施例中各模块/单元的功能，例如图3中的单元301～308。

示例性的，所述计算机程序40可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器30执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序40在所述计算机装置1中的执行过程。例如，所述计算机程序40可以被分割成图3中的构造单元301、提取单元302、第一检测单元303、第一合并单元304、第二检测单元305、第二合并单元306、预测单元307、第三合并单元308，各单元具体功能参见实施例二。

所述计算机装置1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图4仅仅是计算机装置1的示例，并不构成对计算机装置1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机装置1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器30也可以是任何常规的处理器等，所述处理器30是所述计算机装置1的控制中心，利用各种接口和线路连接整个计算机装置1的各个部分。

所述存储器20可用于存储所述计算机程序40和/或模块/单元，所述处理器30通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元，以及调用存储在存储器20内的数据，实现所述计算机装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机装置1的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器20可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中，应该理解到，所揭露的计算机装置和方法，可以通过其它的方式实现。例如，以上所描述的计算机装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能单元可以集成在相同处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。计算机装置权利要求中陈述的多个单元或计算机装置也可以由同一个单元或计算机装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

一种人脸检测方法，其特征在于，所述方法包括：

对待检测图像构造图像金字塔；

提取所述图像金字塔的各层图像的聚合通道特征，得到所述待检测图像的特征金字塔；

利用第一滑动窗口按照第一预设步长在所述图像金字塔的各层图像上滑动，获得多个第一检测框，利用训练好的人脸检测模型根据所述特征金字塔对所述第一检测框进行分类，获得多个候选人脸框；

对所述候选人脸框进行合并，得到合并后的候选人脸框；

利用第二滑动窗口按照第二预设步长在所述图像金字塔的各层上滑动，获得多个第二检测框，利用训练好的头-肩检测模型根据所述特征金字塔对所述第二检测框进行分类，得到多个候选头-肩框；

对所述候选头-肩框进行合并，得到合并后的候选头-肩框；

利用训练好的人脸框预测模型从所述合并后的候选头-肩框中预测人脸，得到预测人脸框；

对所述合并后的候选人脸框和所述预测人脸框进行合并，得到目标人脸框。
如权利要求1所述的方法，其特征在于，所述图像金字塔的层数由如下公式确定：

其中，n表示待检测图像的图像金字塔的层数，k _up表示待检测图像上采样的倍数，w _img、h _img分别表示待检测图像的宽度和高度，w _m、h _m分别表示所述人脸检测模型接收的输入图像的宽度和高度，n _octave表示图像金字塔中每两倍尺寸之间的图像的层数。
如权利要求1所述的方法，其特征在于，所述提取所述图像金字塔的各层图像的聚合通道特征包括：

计算所述图像金字塔中部分图像的聚合通道特征，由所述部分图像的聚合通道特征插值得到所述图像金字塔中其他图像的聚合通道特征。
如权利要求1至3中任一项所述的方法，其特征在于，所述人脸检测模型和所述头-肩检测模型是由多个决策树级联形成的分类器。
如权利要求4所述的方法，其特征在于，所述方法还包括：获取所述头- 肩检测模型的训练样本，具体方法如下：

将所述训练好的人脸检测模型减少若干个决策树，得到新的人脸检测模型；

将所述训练好的人脸检测模型和所述新的人脸检测模型在预设图像上检测人脸，所述新的人脸检测模型检出的人脸多于所述训练好的人脸检测模型检出的人脸；

针对所述新的人脸检测模型比所述训练好的人脸检测模型多检出的人脸，标出人脸框在所述预设图像中的位置，扩展该人脸框得到头-肩框，标注所述头-肩框在所述预设图像中的位置；

从所述预设图像中截取头-肩框图像，将截取的头-肩框图像缩放为预定大小作为训练所述头-肩检测模型的正样本，从所述预设图像中截取非头-肩框图像，将截取的非头-肩框图像缩放为预定大小作为训练所述头-肩检测模型的负样本。
一种人脸检测装置，其特征在于，所述装置包括：

构造单元，用于对待检测图像构造图像金字塔；

提取单元，用于提取所述图像金字塔的各层图像的聚合通道特征，得到所述待检测图像的特征金字塔；

第一检测单元，用于利用第一滑动窗口按照第一预设步长在所述图像金字塔的各层图像上滑动，获得多个第一检测框，利用训练好的人脸检测模型根据所述特征金字塔对所述第一检测框进行分类，获得多个候选人脸框；

第一合并单元，用于对所述候选人脸框进行合并，得到合并后的候选人脸框；

第二检测单元，用于利用第二滑动窗口按照第二预设步长在所述图像金字塔的各层上滑动，获得多个第二检测框，利用训练好的头-肩检测模型根据所述特征金字塔对所述第二检测框进行分类，得到多个候选头-肩框；

第二合并单元，用于对所述候选头-肩框进行合并，得到合并后的候选头-肩框；

预测单元，用于利用训练好的人脸框预测模型从所述合并后的候选头-肩框中预测人脸，得到预测人脸框；

第三合并单元，用于对所述合并后的候选人脸框和所述预测人脸框进行合并，得到目标人脸框。
如权利要求6所述的装置，其特征在于，所述构造单元根据如下公式确定所述图像金字塔的层数：

其中，n表示待检测图像的图像金字塔的层数，k _up表示待检测图像上采样的倍数，w _img、h _img分别表示待检测图像的宽度和高度，w _m、h _m分别表示所述人脸检测模型接收的输入图像的宽度和高度，n _octave表示图像金字塔中每两倍尺寸之间的图像的层数。
如权利要求6所述的装置，其特征在于，所述人脸检测模型和所述头-肩检测模型是由多个决策树级联形成的分类器。
一种计算机装置，其特征在于：所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-5中任一项所述人脸检测方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述人脸检测方法。