CN109241871A

CN109241871A - 一种基于视频数据的公共区域人流跟踪方法

Info

Publication number: CN109241871A
Application number: CN201810937135.9A
Authority: CN
Inventors: 李林洋; 周思远; 豆泽阳
Original assignee: Beijing Information Technology Co Ltd
Current assignee: Beijing Information Technology Co Ltd
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2019-01-18

Abstract

本发明公开了一种基于视频数据的公共区域人流跟踪方法，包括：获取在公共场所安置监控摄像头所传来的视频和视频信息，其中，视频信息包括：监控摄像头编号和拍摄时间；将视频按照帧拆分成一系列的图像；将图像输入到预先训练好的预测模型中，并输出边框信息，所述边框信息为框住人头的边框在图像中的坐标信息；将相邻帧的图像中的边框信息做比对，并输出人的位置坐标与运动轨迹。

Description

一种基于视频数据的公共区域人流跟踪方法

技术领域

本发明属于一种基于视频数据的公共区域人流跟踪方法，涉及深度学习、大数据学习。

背景技术

随着社会物质财富的日益增长和人民生活水平的提高，各种大型场所的兴建，人流量对于依赖于客流量的产业来说意义重大。

顾客是货币的携带者，又是商品的潜在购买者，研究流量规律，可以增加销售机会，将观看者转变为购物者，最大限度地挖掘商场的销售潜力，增加利润。人流量是重要的衡量工具，通过这一准确的量化的数据，不但可以获得商场、购物中心、博物馆或者飞机场等公共场所完整的正在运行的状况，而且还可以利用这些高精度的数据，进行有效的组织运营工作。

其中，人流量统计的重要性主要可以表现在以下这些方面：通过统计出入口的人流量，可以了解出入口设置的合理程度；通过统计出入口的人流量前进的方向，可以了解出入通道设置的合理程度；通过统计主要楼层人流量状态，从而进行店面的合理分布；统计各个区域的吸收率和繁忙度；有效评估所举行的营销和促销投资的回报；根据人流量的变化，更有效分配物业管理、维护人员；通过人流量人群转化率，提高商场服务质量；通过人流量人群购买率，提高营销和促销的效率；计算人流量人群的平均消费能力；客观决定租金价位水平；评估和优化宣传广告和促销预算；根据来访人流量的多少来决定回馈顾客资金的使用；可以知道什么时间是开关店的最佳时间；显示当前人流量状态和变化趋势，管理人员可以对流量比较大的区域采取预防突发事件的措施，并可实施观察商场当前的实际人数等等。

目前，主要有几下几种方法：

(1)WIFI、蓝牙探针人流检测方法:当移动设备的WIFI、蓝牙开启后，WIFI、蓝牙探针会自动接检测到附近的移动设备，并记录设备的MAC地址与当前时间。由于MAC地址唯一性，WIFI、蓝牙探针获取到的数据就可以直接用来做当前时段内的人流统计，但是，这种方法要求必须设备开启蓝牙或WIFI功能，而如今在公共区域链接WiFi的顾客越来越少，会导致探测精度严重下降。

(2)基于传统机器视觉的人流统计方法：该方法主要通过将视频分割成图像后输入特征提取器提取角点、直线等特征信息，然后将提取的特征输入如SVM、集成学习器等传统机器学习模型中获得当前画面的人数。另外有光流法等探测视频中的运动物体，由此来判断人流。但是，受限于算法表达能力，实际的准确度也相对不高，一般能达到80％左右，在光线变化的情况下会低到60％或更低。光流法运算量大，而且对静止的人无法探测。

(3)基于双目视觉的人群数量统计方法：主要通过使用两个相同的摄像头，类似人的双眼，两个摄像头取得的图像，经过一系列的计算，得到3D的图像。在双目人群数量中，最大的优势是获取了实际场中的第三维信息，就是人的高度信息，由此，只用检测高度在1米到2米之间高度图像，使用两个相同的摄像头，类似人的双眼，两个摄像头取得的图像，经过一系列的计算，得到3D的图像。由人的头部在最高位置，很容易就可以得到人的位置信息，而且可以排除灯光，阳光等干扰。但是，双目视觉的人群数量统计对像头安装要求较高，要求像头必须垂直于地面安放，当公共区域露天时，很难安装。

发明内容

为了解决这一问题，本专利提供了一种基于视频数据的公共区域人流跟踪方法。

本发明解决上述技术问题所采取的技术方案如下：

一种基于视频数据的公共区域人流跟踪方法，包括：

获取在公共场所安置监控摄像头所传来的视频和视频信息，其中，视频信息包括：监控摄像头编号和拍摄时间；

将视频按照帧拆分成一系列的图像；

将图像输入到预先训练好的预测模型中，并输出边框信息，所述边框信息为框住人头的边框在图像中的坐标信息；

将相邻帧的图像中的边框信息做比对，并根据对比结果输出人的位置坐标与运动轨迹信息。

优选的是，所述预测模型通过下列的方法训练而成：

步骤1)获取在公共场所安置监控摄像头所传来的视频和视频信息，其中，视频信息包括：监控摄像头编号和拍摄时间；

将视频按照帧拆分成图像，并用边框标出图像中人的头部，标注的边框信息为边框在图中的坐标信息，并以此作为训练样本中的训练标签信息；

对标注的边框信息进行聚类，得出不同大小的边框模板；

步骤2)根据训练样本和边框模板，构建训练样本集合，其中，该样本集合中包括：人头正样本和背景负样本；

步骤3)对上述训练样本集合进行采样，其中，采样过程中保留人头样本周围的全部信息作为正样本，最后使用随机采样来构建正负样本；

步骤4)将获得的训练样本输入区域定位网络中进行训练，并根据训练情况更新网络参数；

步骤5)将训练好的区域定位网络进行非极大值抑制处理，最终形成预测模型。

优选的是，步骤1)中，使用MATLAB为标注工具，聚类算法使用Kmeans算法；步骤4)区域定位网络选择VGG16网络；

视频图片的分辨率应在1280×720以上，边框的坐标分为边框左上角与右下角的横纵坐标；

步骤1)中，还包括：将图像做上采样、下采样操作，对应的边框坐标也相应乘以、除以对应的采样系数。

优选的是，步骤1)中，将边框输入Kmeans算法中做聚类操作，输出边框模板，边框模板为一个四个坐标的向量，前两个坐标代表框的左上角点的坐标，后两个坐标代表框的右下角点的坐标，算法流程具体如下：给定样本集D＝x1,x2,…,xm,假设有k个类，则：

子步骤11)根据事先选择好的k，随机在原始样本中选择初值，这些初值就当做是k个中心；

子步骤12)对所有的点x1,x2,…,xm，计算每个点跟这k个中心的距离；

子步骤13)每个点计算得到k个距离，选取最近的那个距离，把这个点归到该类别；

子步骤14)重新计算每个类别的中心点，然后更新一下这些k个类别的中心；

子步骤15)当类别中心不再变化时，算法终止，输出每个类的中心点，即聚类后的边框模板，否则从子步骤12)开始重复。

优选的是，步骤2)，还包括：

将边框在正样本附近扰动，通过计算扰动后的边框与原边框的交并比来判断扰动边框是否是新的正样本，其中，交并比为扰动后的边框与原边框的相交面积与相并面积的比值；

其中，当交并比大于0.7时，作为样本；

当交并比小于0.3时作为负样本，交并比在0.7到0.3之间的不作为训练样本。

优选的是，步骤3)中，使用随机采样来构建正负样本，具体包括：

按照预设的采样比例为p，从训练图像样本中随机选取p个正样本与4p个负样本。

优选的是，步骤4)中，将获得的训练样本输入区域定位网络中进行训练，并根据训练情况更新网络参数，包括：

得到训练数据与对应的边框信息后，将数据和边框标签一起输入VGG16网络中提取图像的特征，网络经过前向传播计算后，输出人头的得分热力图与人头的边框信息。

优选的是，步骤5)中，将训练好的区域定位网络的输出边框进行非极大值抑制处理，最终形成预测模型，非极大值抑制操作的处理流程如下：

子步骤51)将所有框的得分排序，选中最高分及其对应的框；

子步骤52)遍历其余的框，如果和当前最高分框的重叠面积大于一定阈值，就将框删除；

子步骤53)从未处理的框中继续选一个得分最高的，重复上述过程，直到未处理的框为空集。

优选的是，步骤6)中，将相邻帧的图像中的边框信息做比对，并输出人的位置坐标与运动轨迹，包括：

计算相邻帧每个边框信息的交并比，得到属于同一个人的两个框，将框计数；

当相邻帧情况下两个人出现遮挡或目标框丢失时，使用卡尔曼滤波预测被遮挡人下一帧会出现的位置：

其中为第k步的位置估计值，K为卡尔曼增量，Z为上一帧的边框中心坐标；综合两个信息，给出每个人的位置坐标与行进轨迹。

优选的是，步骤1)中，还包括：

提前制作一个感兴趣区域(opencv ROI)掩码矩阵；

若当前像素值属于感兴趣区域，则掩码的值为1，否则为0，将图像乘以对应的掩码，将待处理图像乘以感兴趣区域掩码矩阵后，进行步骤1操作。

本专利基于深度学习对视频数据进行建模学习，使得模型对视频每一帧都进行人头检测，再使用卡尔曼滤波结合每一帧的边框信息来跟踪人流中的每一个人，达到最终的人流处理目的。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

下面结合附图对本发明进行详细的描述，以使得本发明的上述优点更加明确。其中，

图1是本发明基于视频数据的公共区域人流跟踪方法的流程示意图；

图2是本发明基于视频数据的公共区域人流跟踪方法的流程示意图；

图3是本发明基于视频数据的公共区域人流跟踪方法的卷织神经网络的处理示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为解决以上问题，本方法采用深度学习技术，使用卷积神经网络来提取图像的人头有关特征，进入网络进行运算，得到边框信息。通过比较相邻帧的边框信息，配合卡尔曼滤波来对人流进行跟踪。

具体思路如下：将监控像头拍到的图片/视频流存储在数据库，作为模型的输入等待随时调用。如果像头拍摄图片尺寸过大，则需要对图片事先进行裁剪。将图片输入模型中，模型提取与人头相关的特征，并进入两个回归器中。一个回归器用来检测特定位置是否存在人头，另一个回归器用来检测人头的具体位置。得到具体位置后，比对相邻帧的边框信息，配合卡尔曼滤波进行处理，得到人流中每个人的运动轨迹。

一种基于视频数据的公共区域人流跟踪方法，包括：

将视频按照帧拆分成一系列的图像；

优选的是，所述预测模型通过下列的方法训练而成：

对标注的边框信息进行聚类，得出不同大小的边框模板；

具体来说，本发明基于视频数据的公共区域人群数量统计流程如下：

1)首先在公共区域安置监控摄像头，返回拍摄的视频与对应的信息。对应的信息包括监控像头编号、时间。

将视频拆分成图像进行收集，然后对图像进行人工标注，标出图像中人的头部，以此为训练标签信息。对标注的边框信息进行聚类，得出不同大小的边框模板。

2)根据上一步所提取的训练样本及边框，构建原始的训练样本集合，该样本集合包含得到人头正样本与背景负样本。由于正常情况中，人在图中所占比例较少，本步骤所构建的样本集分布为非常不均衡集合。

3)针对不均衡分布的原始训练样本集进行采样。

由于人头为少量样本，采样过程中保留人头样本周围的全部信息作为正样本。按照预设的采样比例为p，从训练图像样本中随机选取p个正样本与4p个负样本。

4)将获得的训练样本输入区域定位网络训练，更新网络参数。

5)将训练好的网络后端接非极大值抑制层。

6)将图像一起进入网络进行预测，输出边框信息。

7)将相邻帧的边框信息做比对，配合卡尔曼滤波输出人的位置坐标与运动轨迹。

实施例一：

以空旷广场为例，对本专利进行实例描述。

其中，使用MATLAB为标注工具，聚类算法使用Kmeans算法。区域定位网络可以采用常用的网络结构，如VGG16网络。

该方法详细包括下列的步骤：

步骤1)对获得的视频拆分成图像，对每一张图像做人为标注，标注信息为边框在图中的坐标。其中，视频图片的分辨率应在1280×720以上，边框的坐标分为边框左上角与右下角的横纵坐标。

随后，将图像做上采样、下采样操作，对应的边框坐标也相应乘以、除以对应的采样系数。

最后，将边框输入Kmeans算法中做聚类操作，输出边框模板。至此完成训练数据预处理。

其中，Kmeans算法流程如下：给定样本集D＝x1,x2,…,xm,假设有k个类，则：

1、根据事先选择好的k，随机在原始样本中选择初值，这些初值就当做是k个中心；

2、对所有的点x1,x2,…,xm，计算每个点跟这k个中心的距离；

3、每个点计算得到k个距离，选取最近的那个距离，把这个点归到该类别；

4、重新计算每个类别的中心点，然后更新一下这些k个类别的中心；

5、当类别中心不再变化时，算法终止，否则从第2步继续重复。

步骤2)根据上一步所提取的训练样本及边框，构建原始的训练样本集合，该样本集合包含得到人头正样本与背景负样本。

将边框在正样本附近扰动，通过计算扰动后的边框与原边框的相交面积与相并面积的比值(交并比)来决定扰动边框是否是新的正样本。

当交并比大于0.7时，作为样本，当交并比小于0.3时作为负样本，交并比在0.7到0.3之间的不作为训练样本。由于正常情况中，人在图中所占比例较少，本步骤所构建的样本集分布为非常不均衡集合。

步骤3)针对不均衡分布的原始训练样本集进行采样。

由于人头为少量样本，采样过程中保留人头样本周围的全部信息作为正样本。使用随机采样来构建正负样本。按照预设的采样比例为p，从训练图像样本中随机选取p个正样本与4p个负样本。

步骤4)得到训练数据与对应的边框后，将数据和边框标签输入VGG16网络。VGG16网络为一个卷积神经网络，用来提取图像的特征。

以下介绍卷积神经网络的一层卷积层与池化层，VGG16网络为这两种基础结构的堆叠。

卷积层结构：

假设实施方案中输入的训练图像为X、输出特征为Y，卷积核为W。卷积过程可以理解为卷积核W覆盖在输入图像X的一个局部的面上，W对应位置的权重乘于X对应神经元的输出，对各项乘积求和，经过非线性变换(如sigmoid函数或线性修正单元Relu)，最终赋值到Y矩阵的对应位置。卷积核在X图中从左向右，从上至下每次移动一个位置，完成整张X的卷积过程。以sigmoid函数，整个流程的数学表达式为：

Y＝W*X+b

其中*为卷积算子，b为偏置权重信息。

池化层：

池化层有两种结构，一种是均值池化，一种是最大值池化。两种子采样看成特殊的卷积过程。

若池化为均值池化，卷积核的权重为0.25，卷积核在输入图像X上的滑动的步长为2，则均值子采样将特征图压缩至原来的1/4。

若池化为最大值池化，则最大值采样的卷积核中各权重值中只有一个为1，其余均为0，卷积核中为1的位置对应X被卷积核覆盖部分值最大的位置。若卷积核的滑动步长为2，则最大值采样把特征图缩减至原来的1/4，并保留局部特征的最强点。

另外，在卷积神经网络的卷积层，卷积核本质是神经元之间相互连接的权重，而且该权重被属于同一特征图的神经元所共享。在实际的网络训练过程中，输入神经元组成的特征图被交叠切割成卷积核大小的小图。每个小图通过卷积核与后层特征图的一个神经元连接。一个特征图上的所有小图和后层特征图中某个神经元的连接使用的是相同的卷积核，也就是同特征图的神经元共享了连接权重。训练过程采用后向传播算法进行，用来更新每一层的W和b。以第l层为例，后向传播计算如下所示：

其中J为网络的损失函数，z为网络每一层的特征图，a为经过激活函数后的特征图，δ为每一层的后向传播误差。rot180表示将特征图旋转180度。

最终模型输出为物体是人头的得分与人头的边框信息，如图3。

5)由于模型预测出的边框有非常多重叠的部分，因此使用非极大值抑制算法对网络输出的边框进行筛选。非极大值抑制的算法流程为：

(1).将所有框的得分排序，选中最高分及其对应的框；

(2)遍历其余的框，如果和当前最高分框的重叠面积大于一定阈值，就将框删除；

(3)从未处理的框中继续选一个得分最高的，重复上述过程。直到未处理的框为空集；

步骤6)整个模型训练完成后，将测试图像输入网络中，得到输出的边框信息。

步骤7)计算相邻帧每个边框信息的交并比，得到属于同一个人的两个框，将框计数。当相邻帧情况下两个人出现遮挡或目标框丢失时，使用卡尔曼滤波预测被遮挡人下一帧会出现的位置：

其中为第k步的位置估计值，K为卡尔曼增量，Z为上一帧的边框中心坐标。综合两个信息，给出每个人的位置坐标与行进轨迹。

实施例二：

下以狭长空间为例，对本专利进行实例描述。对于狭长空间来说，监控像头会拍摄到多余的场景，因此需要将多余的场景去除。

去除方法为提前制作一个感兴趣区域(opencv ROI)掩码矩阵，若当前像素值属于感兴趣区域，则掩码矩阵对应的值为1，否则为0。将图像乘以对应的掩码矩阵后，执行与实例1相同的操作即可。

需要说明的是，对于上述方法实施例而言，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频数据的公共区域人流跟踪方法，包括：

将视频按照帧拆分成一系列的图像；

2.根据权利要求1所述的基于视频数据的公共区域人流跟踪方法，其特征在于，所述预测模型通过下列的方法训练而成：

对标注的边框信息进行聚类，得出不同大小的边框模板；

步骤6)将相邻帧的边框计算边框交与并的比值，根据比值输出人的位置坐标与运动轨迹信息。

3.根据权利要求2所述的基于视频数据的公共区域人流跟踪方法，其特征在于，步骤1)中，使用MATLAB为标注工具，聚类算法使用Kmeans算法；步骤4)区域定位网络选择VGG16网络；

4.根据权利要求3所述的基于视频数据的公共区域人流跟踪方法，其特征在于，步骤1)中，将边框输入Kmeans算法中做聚类操作，输出边框模板，边框模板为一个四个坐标的向量，前两个坐标代表框的左上角点的坐标，后两个坐标代表框的右下角点的坐标，算法流程具体如下：给定样本集D＝x1,x2,…,xm,假设有k个类，则：

5.根据权利要求2所述的基于视频数据的公共区域人流跟踪方法，其特征在于，步骤2)，还包括：

其中，当交并比大于0.7时，作为样本；

6.根据权利要求2所述的基于视频数据的公共区域人流跟踪方法，其特征在于，步骤3)中，使用随机采样来构建正负样本，具体包括：

7.根据权利要求3所述的基于视频数据的公共区域人流跟踪方法，其特征在于，步骤4)中，将获得的训练样本输入区域定位网络中进行训练，并根据训练情况更新网络参数，包括：

8.根据权利要求2所述的基于视频数据的公共区域人流跟踪方法，其特征在于，步骤5)中，将训练好的区域定位网络的输出边框进行非极大值抑制处理，最终形成预测模型，非极大值抑制操作的处理流程如下：

子步骤51)将所有框的得分排序，选中最高分及其对应的框；

9.根据权利要求2所述的基于视频数据的公共区域人流跟踪方法，其特征在于，步骤6)中，将相邻帧的图像中的边框信息做比对，并输出人的位置坐标与运动轨迹，包括：

10.根据权利要求2所述的基于视频数据的公共区域人流跟踪方法，其特征在于，步骤1)中，还包括：

提前制作一个感兴趣区域(opencv ROI)掩码矩阵；