CN108600701A

CN108600701A - 一种基于深度学习判断视频行为的监控系统和方法

Info

Publication number: CN108600701A
Application number: CN201810411723.9A
Authority: CN
Inventors: 陈劲全; 田菁; 余卫宇; 林俊科
Original assignee: Guangzhou Feiyu Intelligent Technology Co Ltd
Current assignee: Guangzhou Feiyu Intelligent Technology Co Ltd
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2018-09-28
Anticipated expiration: 2038-05-02
Also published as: CN108600701B

Abstract

本发明的基于深度学习判断视频行为的监控系统，包括监控端和服务端；监控端包括摄像头和前端报警模块；服务端包括云平台视频数据库、离线视频数据库、深度学习判断模块和异常事件报警模块；摄像头用于实时采集视频信息；云平台视频数据库存储摄像头发送的视频信息；离线视频数据库存储视频信息供深度学习判断模块构建行为判断模型；深度学习判断模块根据离线视频数据库内的视频构建行为判断模型，根据行为判断模型对接收到的视频进行行为判断；前端报警模块是报警灯或者喇叭；异常事件报警模是报警灯或者喇叭；深度学习判断模块包括特征提取模块、特征融合拼接模块、语义编码确定模块、特征解码模块和分类报警模块。

Description

一种基于深度学习判断视频行为的监控系统和方法

技术领域

本发明涉及视频监控技术领域，具体涉及一种基于深度学习判断视频行为的监控系统和方法。

背景技术

传统的视频监控系统的镜头的只可以在一定角度范围内进行转动，其图像采集的范围仅仅限定于一个较小的范围内；对于需要进行大范围图像采集或者进行全方位的视频监控的情况下，传统的视频监控系统已经不适用；

传统的视频监控系统只是完成了视频信息采集，并不能对采集到的视频信息进行准确分析，不能对视频内容进行有效判断。

互联网多媒体数据如图片、视频呈爆发式增长中，计算机视觉已成为当今的热门研究领域，以往完全依赖人工对图片、视频进行标注和描述的任务效率十分低，几乎不可能完成。因此，对于视频自动描述方法的研究具有十分高的应用价值和现实意义。

让机器能够高效自动地对视频做出描述在视频检索、人机交互、智能安防、虚拟现实等领域也有着广泛的应用前景。

因此，需要提供一种视频采集范围大，且可以对采集到的视频进行准确分析的监控系统。

发明内容

本发明的目的在于提供一种基于深度学习判断视频行为的监控系统和方法，用以解决现有视频监控设备视频采集范围小，视频行为分析能力较差的问题。

为实现上述目的，本发明的技术方案为

一种基于深度学习判断视频行为的监控系统，包括监控端和服务端；所述监控端包括摄像头和前端报警模块；所述服务端包括云平台视频数据库、离线视频数据库、深度学习判断模块和异常事件报警模块；

所述摄像头用于实时采集视频信息并发送到所述云平台视频数据库进行存储；所述云平台视频数据库用于存储所述摄像头发送的视频信息并转发深度学习判断模块进行行为分析；所述离线视频数据库用于存储视频信息供所述深度学习判断模块构建行为判断模型；所述深度学习判断模块用于根据所述离线视频数据库内的视频构建行为判断模型，根据所述行为判断模型对接收到的视频进行行为判断，根据判断结果发送报警命令到所述前端报警模块和所述异常事件报警模块；所述前端报警模块是报警灯或者喇叭；所述异常事件报警模是报警灯或者喇叭；所述前端报警模块和所述异常事件报警模块根据接收到所述报警命令进行报警；所述深度学习判断模块包括特征提取模块、特征融合拼接模块、语义编码确定模块、特征解码模块和分类报警模块。

其中，所述摄像头包括底座，于所述底座的上部的中间处凹设有旋转槽，于所述底座的上部的两端处穿设有导向孔；于所述导向孔内转动的穿设有圆杆状的第二传动轴，于所述第二传动轴的一端螺纹旋接有第二电机；于所述第二传动轴的中部螺纹旋接有圆筒状的旋转筒，所述旋转筒处于所述旋转槽内；于所述旋转筒的外壁上卡接有外壁为椭球面的连接座，沿着所述连接座的径向于其上部螺纹旋接有圆杆状的连接杆；于所述连接杆的另一端卡接有安装箱，于所述安装箱内用螺栓固定有第一电机；于所述第一电机上螺纹旋接有圆杆状的第一传动轴，于所述第一传动轴的另一端螺纹旋接有DSP控制器，于所述DSP控制器上电连接有图像采集件；于所述旋转筒上卡接有第一角度传感器，于所述图像采集件上卡接有第二角度传感器；所述第一角度传感器和所述第二角度传感器均与所述DSP控制器电连接。

其中，所述图像采集件包括横板，于所述横板的边缘处设有与其垂直的竖板；于所述竖板的远离所述横板的一端的侧壁内凹设有第一滑槽，所述第一滑槽沿着所述竖板的长度方向延伸；于所述横板的远离所述竖板的一端的侧壁内凹设有第二滑槽，所述第二滑槽沿着所述横板的长度方向延伸；于所述第二滑槽内滑动设有第二滑块，于所述第二滑块的上端卡接有斜板，于所述斜板的上端卡接有第一滑块，所述第一滑块滑动设于所述第一滑槽内；于所述斜板的中部卡接有半球状的固定座，沿着所述固定座的径向于其内螺纹旋接有镜头，于所述斜板的侧壁上卡接有位移传感器；于所述横板的上侧卡接有第一直线电机，所述第一直线电机处于所述竖板、所述横板和所述斜板围成的空间内；于所述第一直线电机的端部螺纹旋接有第三传动轴，于所述第三传动轴的另一端卡接有三棱柱状的调节座，所述调节座卡接于所述斜板的下部；于所述第一直线电机电连接有第一电机驱动器；所述位移传感器和所述第一电机驱动器均与所述DSP控制器电连接。

其中，所述特征提取模块用于对待描述视频分别提取物体、场景、行为动作以及光流特征；所述特征提取模块包括物体场景行为动作特征提取子模块、3D卷积特征提取子模块和光流特征提取子模块；所述物体场景行为动作特征提取子模块包括分帧图像抽取单元和特征向量生成单元；所述分帧图像抽取单元用于对待描述视频按照指定的帧频fps进行分帧，并随机抽取其中的80帧图像用于下一步作特征提取；所述特征向量生成单元用于将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征，最终得到三个1024维的特征向量；所述3D卷积特征提取子模块包括中间模型的参数保存单元和512维特征向量生成单元；所述中间模型的参数保存单元用于将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能较好的中间模型的参数；所述512维特征向量生成单元用于将待描述视频输入所述中间模型中提取网络结构中pool5层的特征用于表示3D卷积特征，得到一个512维的特征向量；所述光流特征提取子模块包括光流特征值计算单元、光流图合成单元和光流特征向量生成单元；所述光流特征值计算单元用于分别计算视频每相邻两帧的x方向和y方向上的光流特征值，并归一化到[0,255]的像素范围；所述光流图合成单元用于计算光流的幅度值，并结合所述光流特征值组合成一张光流图；

所述光流特征向量生成单元用于利用所述光流图训练一个卷积神经网络GoogleNet，并提取pool5层的特征作为光流特征向量,得到一个1024维的特征向量。

其中，所述特征融合拼接模块用于将物体、场景、动作以及光流特征和3D卷积特征融合拼接成一个特征向量；所述特征融合拼接模块包括融合特征生成单元和特征向量主成分分析PCA降维单元；所述融合特征生成单元用于对物体、场景、动作以及光流特征和3D卷积特征进行直接拼接，用F表示特征，拼接M种模型提取的特征，对于每种模型生成的特征用F_i表示，选取特征的组合直接拼接得到的融合特征为V_fusion；所述特征向量主成分分析PCA降维单元用于对拼接起来的4608维度的特征向量进行主成分分析PCA降维得到1024维特征向量。

其中，所述语义编码确定模块用于采用时空注意力机制加权确定视频的语义编码表达；所述语义编码确定模块包括时空顺序单元、时间注意力单元和空间注意力单元；所述时空顺序单元用于确定空间注意力机制和时间注意力机制引入的顺序；所述时间注意力单元用于让解码器在一次生成单词中能够仅聚焦在一小集合的视频帧，避免由于视频流持续时间较长时生成的描述单词之间语义重复或冲突的；所述空间注意力单元用于让解码器在生成当前时刻的单词时能够让关注的图像区域部分受到强调，分配更大的权重，让模型的注意力更集中在该区域的内容。

其中，所述特征解码模块用于将所述语义编码输入到基于双向的长短时记忆网络模型进行特征解码，生成与视频对应的自然语言描述句子；所述基于双向的长短时记忆网络模型的基本单元是LSTM神经单元；所述双向的长短时记忆网络通过过去时刻的上下文信息和未来的上下文信息共同进行输出预测；所述特征解码模块包括前向传播过子模块、网络优化子模块和描述语句生成子模块；所述前向传播过子模块用于计算所述LSTM神经单元在前向传播过程特定时刻的隐藏层变量，通过正向计算和反向计算分别得到两个隐藏层变量值；所述网络优化子模块用于在解码阶段根据隐藏层变量和上一时刻的输出预测最大化整个输出预测语句的对数似然函数；所述描述语句生成子模块包括单词出现概率计算单元和取单词单元；所述单词出现概率计算单元用于采用softmax激活函数计算每个单词在词汇表V中的出现概率；所述取单词单元用于在解码阶段取softmax激活函数输出值中概率最大的单词组成对应的视频描述语句。

其中，所述分类报警模块用于根据所述视频描述语句的内容发出相应的报警命令；所述分类报警模块包括刷脸门禁报警单元、体征状态实时监测报警单元、跌倒异常行为报警单元、人员进出提醒单元、泳池溺水报警单元、破坏行为报警单元、火灾监控报警单元和暴力行为报警单元。

一种监控方法，用于所述基于深度学习判断视频行为的监控系统，包括步骤：

步骤1：所述DSP控制器预设第一目标旋转角度a、第二目标旋转角度b和目标移动距离c；

步骤2：所述DSP控制器发送拍摄命令到所述图像采集件采集视频，所述图像采集件将采集的视频发送DSP控制器；

步骤3：所述DSP控制器将接收到的视频发送云平台视频数据库进行存储并转发所述深度学习判断模块；

步骤4：所述深度学习判断模块对接收到的视频进行行为判断，并根据判断结果发送相应的报警命令到所述前端报警模块和所述异常事件报警模块；

步骤5：所述DSP控制器发送旋转命令到所述第二电机，所述第二电机转动并带动所述图像采集件绕所述第二传动轴；

步骤6：所述第一角度传感器实时采集第二传动轴的旋转角度a1并发送所述DSP控制器；如果所述a1大于等于a，则所述DSP控制器发送停止命令到所述第二电机，否则发送继续旋转命令；

步骤7：所述DSP控制器发送旋转命令到所述第一电机，所述第一电机旋转并带动所述图像采集件绕所述第一传动轴旋转；所述第二角度传感器实时采集所述图像采集件的旋转角度b1并发送所述DSP控制器；如果所述b1大于等于b，则所述DSP控制器发送停止命令到所述第一电机，否则发送继续旋转命令；

步骤8：所述DSP控制器发送旋转命令到所述第一直线电机，所述第一直线电机移动所述第三传动轴，所述第三传动轴带动所述调节座，所述调节座拉动或者推动所述斜板；所述斜板沿着所述横板和所述竖板滑动；所述位移传感器实时检测所述斜板在竖直方向上移动的距离c1并发送所述DSP控制器；如果所述c1大于等于c，则所述DSP控制器发送停止移动命令到所述第一电机驱动器，否则发送继续移动命令到所述第一电机驱动器；

步骤9：返回步骤2。

本发明具有如下优点：

本发明的基于深度学习判断视频行为的监控系统，包括监控端和服务端；所述监控端包括摄像头和前端报警模块；所述服务端包括云平台视频数据库、离线视频数据库、深度学习判断模块和异常事件报警模块；

所述摄像头用于实时采集视频信息并发送到所述云平台视频数据库进行存储；所述云平台视频数据库用于存储所述摄像头发送的视频信息并转发深度学习判断模块进行行为分析；所述离线视频数据库用于存储视频信息供所述深度学习判断模块构建行为判断模型；

所述深度学习判断模块用于根据所述离线视频数据库内的视频构建行为判断模型，根据所述行为判断模型对接收到的视频进行行为判断，根据判断结果发送报警命令到所述前端报警模块和所述异常事件报警模块；所述前端报警模块是报警灯或者喇叭；所述异常事件报警模是报警灯或者喇叭；所述前端报警模块和所述异常事件报警模块根据接收到所述报警命令进行报警；所述深度学习判断模块包括特征提取模块、特征融合拼接模块、语义编码确定模块、特征解码模块和分类报警模块；

所述摄像头可以进行全方位，多角度的进行视频采集，其视频采集范围大，可以进行全方位的视频监控；

所述深度学习判断模块可以根据所述离线视频数据库内的视频构建行为判断模型，根据所述行为判断模型对接收到的视频进行准确的行为判断，提高监控系统的视频行为分析能力，从而确保视频监控的准确性。

附图说明

图1是本发明的基于深度学习判断视频行为的监控系统的功能模块图。

图2是本发明的摄像头的结构示意图。

图3是本发明的图像采集件的结构示意图。

1-DSP控制器；2-图像采集件；21-竖板；22-第一滑槽；23-第一滑块；24-固定座；25-镜头；26-斜板；27-第二滑块；28-第二滑槽；29-调节座；210-第三传动轴；211-第一直线电机；212-横板；213-位移传感器；3-第一传动轴；4-第一电机；5-安装箱；6-连接杆；7-第二电机；8-底座；9-连接座；10-旋转筒；11-第二传动轴；12-第一角度传感器；13-第二角度传感器。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

本实施例1的基于深度学习判断视频行为的监控系统，包括监控端和服务端；所述监控端包括摄像头和前端报警模块；所述服务端包括云平台视频数据库、离线视频数据库、深度学习判断模块和异常事件报警模块；

所述摄像头包括底座8，于所述底座8的上部的中间处凹设有旋转槽，于所述底座8的上部的两端处穿设有导向孔；于所述导向孔内转动的穿设有圆杆状的第二传动轴11，于所述第二传动轴11的一端螺纹旋接有第二电机7；于所述第二传动轴11的中部螺纹旋接有圆筒状的旋转筒10，所述旋转筒10处于所述旋转槽内；

于所述旋转筒10的外壁上卡接有外壁为椭球面的连接座9，沿着所述连接座9的径向于其上部螺纹旋接有圆杆状的连接杆6；于所述连接杆6的另一端卡接有安装箱5，于所述安装箱5内用螺栓固定有第一电机4；

于所述第一电机4上螺纹旋接有圆杆状的第一传动轴3，于所述第一传动轴3的另一端螺纹旋接有DSP控制器1，于所述DSP控制器1上电连接有图像采集件2；

于所述旋转筒10上卡接有第一角度传感器12，于所述图像采集件2上卡接有第二角度传感器13；所述第一角度传感器12和所述第二角度传感器13均与所述DSP控制器1电连接。

所述图像采集件2包括横板212，于所述横板212的边缘处设有与其垂直的竖板21；于所述竖板21的远离所述横板212的一端的侧壁内凹设有第一滑槽22，所述第一滑槽22沿着所述竖板21的长度方向延伸；于所述横板212的远离所述竖板21的一端的侧壁内凹设有第二滑槽28，所述第二滑槽28沿着所述横板212的长度方向延伸；

于所述第二滑槽28内滑动设有第二滑块27，于所述第二滑块27的上端卡接有斜板26，于所述斜板26的上端卡接有第一滑块23，所述第一滑块23滑动设于所述第一滑槽22内；于所述斜板26的中部卡接有半球状的固定座24，沿着所述固定座24的径向于其内螺纹旋接有镜头25，于所述斜板26的侧壁上卡接有位移传感器213；

于所述横板212的上侧卡接有第一直线电机211，所述第一直线电机211处于所述竖板21、所述横板212和所述斜板26围成的空间内；于所述第一直线电机211的端部螺纹旋接有第三传动轴210，于所述第三传动轴210的另一端卡接有三棱柱状的调节座29，所述调节座29卡接于所述斜板26的下部；于所述第一直线电机211电连接有第一电机驱动器；所述位移传感器213和所述第一电机驱动器均与所述DSP控制器1电连接。

实施例2

进一步，在实施例1的基础上：

所述特征提取模块用于对待描述视频分别提取物体、场景、行为动作以及光流特征；所述特征提取模块包括物体场景行为动作特征提取子模块、3D卷积特征提取子模块和光流特征提取子模块；所述物体场景行为动作特征提取子模块包括分帧图像抽取单元和特征向量生成单元；所述分帧图像抽取单元用于对待描述视频按照指定的帧频fps进行分帧，并随机抽取其中的80帧图像用于下一步作特征提取；所述特征向量生成单元用于将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征，最终得到三个1024维的特征向量；所述3D卷积特征提取子模块包括中间模型的参数保存单元和512维特征向量生成单元；所述中间模型的参数保存单元用于将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能较好的中间模型的参数；所述512维特征向量生成单元用于将待描述视频输入所述中间模型中提取网络结构中pool5层的特征用于表示3D卷积特征，得到一个512维的特征向量；所述光流特征提取子模块包括光流特征值计算单元、光流图合成单元和光流特征向量生成单元；所述光流特征值计算单元用于分别计算视频每相邻两帧的x方向和y方向上的光流特征值，并归一化到[0,255]的像素范围；所述光流图合成单元用于计算光流的幅度值，并结合所述光流特征值组合成一张光流图；所述光流特征向量生成单元用于利用所述光流图训练一个卷积神经网络GoogleNet，并提取pool5层的特征作为光流特征向量,得到一个1024维的特征向量。

所述特征融合拼接模块用于将物体、场景、动作以及光流特征和3D卷积特征融合拼接成一个特征向量；所述特征融合拼接模块包括融合特征生成单元和特征向量主成分分析PCA降维单元；所述融合特征生成单元用于对物体、场景、动作以及光流特征和3D卷积特征进行直接拼接，用F表示特征，拼接M种模型提取的特征，对于每种模型生成的特征用F_i表示，选取特征的组合直接拼接得到的融合特征为V_fusion；则融合特征可表示为公式(1-1):

V_fusion＝(F₁，F₂，...，F_m) (1-1)

所述特征向量主成分分析PCA降维单元用于对拼接起来的4608维度的特征向量进行主成分分析PCA降维得到1024维特征向量。

由于通过网络的非线性映射关系生成对应的物体、场景、动作以及光流特征的向量维度为1024，3D卷积特征向量维度为512，因此将这些特征直接拼接起来特征向量维度为4608＝1024*4+512，若直接输入到语言生成模型中计算量较大，故对这4608维特征向量进行主成分分析PCA降维，最终保留1024维特征向量。

所述语义编码确定模块用于采用时空注意力机制加权确定视频的语义编码表达；所述语义编码确定模块包括时空顺序单元、时间注意力单元和空间注意力单元；所述时间注意力单元用于让解码器在一次生成单词中能够仅聚焦在一小集合的视频帧，避免由于视频流持续时间较长时生成的描述单词之间语义重复或冲突的；引入时间注意力机制是为了让解码器在一次生成单词中能够仅聚焦在一小集合的视频帧，避免由于视频流持续时间较长时生成的描述单词之间语义重复或冲突的情况。注意力机制本质上是动态地对特征向量进行加权求和，实现为关键特征分配更大的权重，让模型的注意力更集中在这部分内容上。用V表示特征向量，V＝{v1,v2,…,vn}。具体地，时间注意力权重α可由公式(1-2)计算得到：

在公式(1-2)中，h_t-1表示t-1时刻的lstm隐层变量，c表示时间注意力模型，其定义如公式(1-3)(1-4)所示：

α^(t)＝softmax(W_ia+b_i) (1-4)

其中，W_c，W_hc，W_i分别表示视觉特征，视觉特征与隐层特征向量，及其非线性变换特征的权重转移矩阵，符号表示矩阵的每一列与向量对应相加。b_c，b_i表示模型的偏置向量。

所述空间注意力单元用于让解码器在生成当前时刻的单词时能够让关注的图像区域部分受到强调，分配更大的权重，让模型的注意力更集中在该区域的内容；

引入空间注意力机制是为了让解码器在生成当前时刻的单词时能够让关注的图像区域部分受到强调，分配更大的权重，让模型的注意力更集中在该区域的内容。用V表示特征向量，V＝{v1,v2,…,vn}。具体地，空间注意力权重β可由公式(1-5)计算得到：

在公式(1-5)中，h_t-1表示t-1时刻的lstm隐层变量，s表示空间注意力模型，其定义如公式(1-6)(1-7)所示：

β^(t)＝softmax(W′_ib+b′_i) (1-7)

其中，W_s，W_hs，W′_i

分别表示视觉特征，视觉特征与隐层特征向量，及其非线性变换特征的权重转移矩阵，符号表示矩阵的每一列与向量对应相加。b_s，b_i′表示模型的偏置向量。

所述时空顺序单元用于确定空间注意力机制和时间注意力机制引入的顺序。

引入时空注意力机制可以有两种形式，分别是S-T(Spatial-Temporal)和T-S(Temporal-Spatial)。第一种形式S-T表示先引入空间注意力机制，而第二种形式T-S表示先引入时间注意力机制。具体为：S-T形式的计算过程可表示为公式(1-8)：

X＝f(V，α，β) (1-8)

同理，T-S形式的计算过程可表示为公式(1-9)：

X＝f(V，α，β) (1-9)

其中，f_s，f_c分别表示空间注意力机制作用于特征向量的函数输出和时间注意力机制作用于特征向量的函数输出。X表示引入时空注意力机制后最终得到的语义编码表达。

所述特征解码模块用于将所述语义编码输入到基于双向的长短时记忆网络模型进行特征解码，生成与视频对应的自然语言描述句子；所述基于双向的长短时记忆网络模型的基本单元是LSTM神经单元；所述双向的长短时记忆网络通过过去时刻的上下文信息和未来的上下文信息共同进行输出预测；所述特征解码模块包括前向传播过子模块、网络优化子模块和描述语句生成子模块；

所述前向传播过子模块用于计算所述LSTM神经单元在前向传播过程特定时刻的隐藏层变量，通过正向计算和反向计算分别得到两个隐藏层变量值；

每个LSTM神经单元的前向传播过程可表示为：

i_t＝σ(W_xix_t+W_uiu_t+W_hih_t-1+b_i) (1-10)

f_t＝σ(W_xfx_t+W_ufu_t+W_hfh_t-1+b_f) (1-11)

o_t＝σ(W_xox_t+W_uou_t+W_hoh_t-1+b_o) (1-12)

c_t＝f_t*c_t-1+i_t*g_t (1-14)

其中i_t，f_t，o_t，c_t分别表示t时刻下的视觉特征输入，t时刻前生成的上下文信息输入，和t-1时刻的lstm隐层变量；

是sigmoid激活函数，

是双曲正切激活函数，

i_t，f_t，o_t，c_t依次表示t时刻下输入门，记忆门，输出门和核心门对应的状态量；对于每个逻辑门，

W_xi，W_xf，W_xo，W_xg依次表示输入门，记忆门，输出门和核心门与特征输入x_t对应的权重转移矩阵；

W_ui，W_uf，W_uo，W_ug依次表示输入门，记忆门，输出门和核心门与上下文输入u_t对应的权重转移矩阵；

W_hi，W_hf，W_ho，W_hg依次表示输入门，记忆门，输出门和核心门在t-1时刻隐藏层变量h_t-1对应的权重转移矩阵；

b_i，b_f，b_o，b_g依次表示输入门，记忆门，输出门和核心门对应的偏置向量。

对比一般的长短时记忆网络，双向的长短时记忆网络不仅能够学习到过去时刻的上下文信息，还能利用未来的上下文信息，共同用来预测输出。

其计算过程的不同之处在于：计算隐藏层变量时有正向计算和反向计算两个过程，因此隐藏层变量需要保存两个值。

正向计算时，t时刻的隐藏层变量ht与t-1时刻下隐藏层变量ht-1和当前输入xt有关；反向计算时，t时刻的隐藏层变量ht与t+1时刻下隐藏层变量ht+1和当前输入xt有关，具体计算过程可表示为：

o_t＝g(Vh_t+V′h_t′) (1-16)

h_t＝f(Ux_t+Wh_t-1) (1-17)

h_t′＝f(U′x_t+W′h′_t+1) (1-18)

所述网络优化子模块用于在解码阶段根据隐藏层变量和上一时刻的输出预测最大化整个输出预测语句的对数似然函数；在解码的阶段，网络会有信息的损失，因此模型参数训练和学习的目标是在给定隐层表达和上一时刻的输出预测的前提下，最大化整个输出预测语句的对数似然函数；对于用参数θ和输出语句Y＝(y1,y2,…,ym)表示的模型，参数优化目标可表示为：

其中，θ为参数，Y代表输出的预测语句，h为隐层表达，使用随机梯度下降法对目标函数进行优化，整个网络的误差通过反向传播算法在时间维度上累积传递。

所述描述语句生成子模块包括单词出现概率计算单元和取单词单元；

所述单词出现概率计算单元用于采用softmax激活函数计算每个单词在词汇表V中的出现概率；

采用softmax激活函数计算每个单词在词汇表V中的出现概率，可用公式(1-20)表示：

其中，y表示输出预测的单词，z_t表示长短时记忆网络在t时刻的输出值，W_y表示该单词在词汇表中的权重值。

所述取单词单元用于在解码阶段取softmax激活函数输出值中概率最大的单词组成对应的视频描述语句。

实施例3

进一步，在实施例2的基础上：

本实施例3的监控方法用于基于深度学习判断视频行为的监控系统，包括步骤：

步骤1：所述DSP控制器1预设第一目标旋转角度a、第二目标旋转角度b和目标移动距离c；

步骤2：所述DSP控制器1发送拍摄命令到所述图像采集件2采集视频，所述图像采集件2将采集的视频发送DSP控制器1；

步骤3：所述DSP控制器1将接收到的视频发送云平台视频数据库进行存储并转发所述深度学习判断模块；

步骤5：所述DSP控制器1发送旋转命令到所述第二电机7，所述第二电机7转动并带动所述图像采集件2绕所述第二传动轴11；

步骤6：所述第一角度传感器12实时采集第二传动轴11的旋转角度a1并发送所述DSP控制器1；如果所述a1大于等于a，则所述DSP控制器1发送停止命令到所述第二电机7，否则发送继续旋转命令；

步骤7：所述DSP控制器1发送旋转命令到所述第一电机4，所述第一电机4旋转并带动所述图像采集件2绕所述第一传动轴3旋转；所述第二角度传感器13实时采集所述图像采集件2的旋转角度b1并发送所述DSP控制器1；如果所述b1大于等于b，则所述DSP控制器1发送停止命令到所述第一电机4，否则发送继续旋转命令；

步骤8：所述DSP控制器1发送旋转命令到所述第一直线电机211，所述第一直线电机211移动所述第三传动轴210，所述第三传动轴210带动所述调节座29，所述调节座29拉动或者推动所述斜板26；所述斜板26沿着所述横板212和所述竖板21滑动；

所述位移传感器213实时检测所述斜板26在竖直方向上移动的距离c1并发送所述DSP控制器1；如果所述c1大于等于c，则所述DSP控制器1发送停止移动命令到所述第一电机驱动器，否则发送继续移动命令到所述第一电机驱动器；

步骤9：返回步骤2。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于深度学习判断视频行为的监控系统，其特征在于，包括监控端和服务端；所述监控端包括摄像头和前端报警模块；所述服务端包括云平台视频数据库、离线视频数据库、深度学习判断模块和异常事件报警模块；

所述摄像头用于实时采集视频信息并发送到所述云平台视频数据库进行存储；

所述云平台视频数据库用于存储所述摄像头发送的视频信息并转发深度学习判断模块进行行为分析；

所述离线视频数据库用于存储视频信息供所述深度学习判断模块构建行为判断模型；

所述深度学习判断模块用于根据所述离线视频数据库内的视频构建行为判断模型，根据所述行为判断模型对接收到的视频进行行为判断，根据判断结果发送报警命令到所述前端报警模块和所述异常事件报警模块；所述前端报警模块是报警灯或者喇叭；所述异常事件报警模是报警灯或者喇叭；

所述前端报警模块和所述异常事件报警模块根据接收到所述报警命令进行报警；

所述深度学习判断模块包括特征提取模块、特征融合拼接模块、语义编码确定模块、特征解码模块和分类报警模块。

2.根据权利要求1所述基于深度学习判断视频行为的监控系统，其特征在于，所述摄像头包括底座(8)，于所述底座(8)的上部的中间处凹设有旋转槽，于所述底座(8)的上部的两端处穿设有导向孔；

于所述导向孔内转动的穿设有圆杆状的第二传动轴(11)，于所述第二传动轴(11)的一端螺纹旋接有第二电机(7)；于所述第二传动轴(11)的中部螺纹旋接有圆筒状的旋转筒(10)，所述旋转筒(10)处于所述旋转槽内；

于所述旋转筒(10)的外壁上卡接有外壁为椭球面的连接座(9)，沿着所述连接座(9)的径向于其上部螺纹旋接有圆杆状的连接杆(6)；于所述连接杆(6)的另一端卡接有安装箱(5)，于所述安装箱(5)内用螺栓固定有第一电机(4)；

于所述第一电机(4)上螺纹旋接有圆杆状的第一传动轴(3)，于所述第一传动轴(3)的另一端螺纹旋接有DSP控制器(1)，于所述DSP控制器(1)上电连接有图像采集件(2)；

于所述旋转筒(10)上卡接有第一角度传感器(12)，于所述图像采集件(2)上卡接有第二角度传感器(13)；所述第一角度传感器(12)和所述第二角度传感器(13)均与所述DSP控制器(1)电连接。

3.根据权利要求2所述基于深度学习判断视频行为的监控系统，其特征在于，所述图像采集件(2)包括横板(212)，于所述横板(212)的边缘处设有与其垂直的竖板(21)；

于所述竖板(21)的远离所述横板(212)的一端的侧壁内凹设有第一滑槽(22)，所述第一滑槽(22)沿着所述竖板(21)的长度方向延伸；于所述横板(212)的远离所述竖板(21)的一端的侧壁内凹设有第二滑槽(28)，所述第二滑槽(28)沿着所述横板(212)的长度方向延伸；

于所述第二滑槽(28)内滑动设有第二滑块(27)，于所述第二滑块(27)的上端卡接有斜板(26)，于所述斜板(26)的上端卡接有第一滑块(23)，所述第一滑块(23)滑动设于所述第一滑槽(22)内；于所述斜板(26)的中部卡接有半球状的固定座(24)，沿着所述固定座(24)的径向于其内螺纹旋接有镜头(25)，于所述斜板(26)的侧壁上卡接有位移传感器(213)；

于所述横板(212)的上侧卡接有第一直线电机(211)，所述第一直线电机(211)处于所述竖板(21)、所述横板(212)和所述斜板(26)围成的空间内；于所述第一直线电机(211)的端部螺纹旋接有第三传动轴(210)，于所述第三传动轴(210)的另一端卡接有三棱柱状的调节座(29)，所述调节座(29)卡接于所述斜板(26)的下部；于所述第一直线电机(211)电连接有第一电机驱动器；所述位移传感器(213)和所述第一电机驱动器均与所述DSP控制器(1)电连接。

4.根据权利要求3所述基于深度学习判断视频行为的监控系统，其特征在于，所述特征提取模块用于对待描述视频分别提取物体、场景、行为动作以及光流特征；

所述特征提取模块包括物体场景行为动作特征提取子模块、3D卷积特征提取子模块和光流特征提取子模块；

所述物体场景行为动作特征提取子模块包括分帧图像抽取单元和特征向量生成单元；

所述分帧图像抽取单元用于对待描述视频按照指定的帧频fps进行分帧，并随机抽取其中的80帧图像用于下一步作特征提取；

所述特征向量生成单元用于将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征，最终得到三个1024维的特征向量；

所述3D卷积特征提取子模块包括中间模型的参数保存单元和512维特征向量生成单元；

所述中间模型的参数保存单元用于将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能较好的中间模型的参数；

所述512维特征向量生成单元用于将待描述视频输入所述中间模型中提取网络结构中pool5层的特征用于表示3D卷积特征，得到一个512维的特征向量；

所述光流特征提取子模块包括光流特征值计算单元、光流图合成单元和光流特征向量生成单元；

所述光流特征值计算单元用于分别计算视频每相邻两帧的x方向和y方向上的光流特征值，并归一化到[0,255]的像素范围；

所述光流图合成单元用于计算光流的幅度值，并结合所述光流特征值组合成一张光流图；

5.根据权利要求4所述基于深度学习判断视频行为的监控系统，其特征在于，所述特征融合拼接模块用于将物体、场景、动作以及光流特征和3D卷积特征融合拼接成一个特征向量；

所述特征融合拼接模块包括融合特征生成单元和特征向量主成分分析PCA降维单元；

所述融合特征生成单元用于对物体、场景、动作以及光流特征和3D卷积特征进行直接拼接，用F表示特征，拼接M种模型提取的特征，对于每种模型生成的特征用F_i表示，选取特征的组合直接拼接得到的融合特征为V_fusion；

6.根据权利要求5所述基于深度学习判断视频行为的监控系统，其特征在于，所述语义编码确定模块用于采用时空注意力机制加权确定视频的语义编码表达；

所述语义编码确定模块包括时空顺序单元、时间注意力单元和空间注意力单元；

所述时空顺序单元用于确定空间注意力机制和时间注意力机制引入的顺序；

所述时间注意力单元用于让解码器在一次生成单词中能够仅聚焦在一小集合的视频帧，避免由于视频流持续时间较长时生成的描述单词之间语义重复或冲突的；

所述空间注意力单元用于让解码器在生成当前时刻的单词时能够让关注的图像区域部分受到强调，分配更大的权重，让模型的注意力更集中在该区域的内容。

7.根据权利要求6所述基于深度学习判断视频行为的监控系统，其特征在于，所述特征解码模块用于将所述语义编码输入到基于双向的长短时记忆网络模型进行特征解码，生成与视频对应的自然语言描述句子；所述基于双向的长短时记忆网络模型的基本单元是LSTM神经单元；所述双向的长短时记忆网络通过过去时刻的上下文信息和未来的上下文信息共同进行输出预测；

所述特征解码模块包括前向传播过子模块、网络优化子模块和描述语句生成子模块；

所述网络优化子模块用于在解码阶段根据隐藏层变量和上一时刻的输出预测最大化整个输出预测语句的对数似然函数；

8.根据权利要求7所述基于深度学习判断视频行为的监控系统，其特征在于，所述分类报警模块用于根据所述视频描述语句的内容发出相应的报警命令；

所述分类报警模块包括刷脸门禁报警单元、体征状态实时监测报警单元、跌倒异常行为报警单元、人员进出提醒单元、泳池溺水报警单元、破坏行为报警单元、火灾监控报警单元和暴力行为报警单元。

9.一种监控方法，用于权利要求8所述基于深度学习判断视频行为的监控系统，其特征在于，包括步骤：

步骤1：所述DSP控制器(1)预设第一目标旋转角度a、第二目标旋转角度b和目标移动距离c；

步骤2：所述DSP控制器(1)发送拍摄命令到所述图像采集件(2)采集视频，所述图像采集件(2)将采集的视频发送DSP控制器(1)；

步骤3：所述DSP控制器(1)将接收到的视频发送云平台视频数据库进行存储并转发所述深度学习判断模块；

步骤5：所述DSP控制器(1)发送旋转命令到所述第二电机(7)，所述第二电机(7)转动并带动所述图像采集件(2)绕所述第二传动轴(11)；

步骤6：所述第一角度传感器(12)实时采集第二传动轴(11)的旋转角度a1并发送所述DSP控制器(1)；如果所述a1大于等于a，则所述DSP控制器(1)发送停止命令到所述第二电机(7)，否则发送继续旋转命令；

步骤7：所述DSP控制器(1)发送旋转命令到所述第一电机(4)，所述第一电机(4)旋转并带动所述图像采集件(2)绕所述第一传动轴(3)旋转；所述第二角度传感器(13)实时采集所述图像采集件(2)的旋转角度b1并发送所述DSP控制器(1)；如果所述b1大于等于b，则所述DSP控制器(1)发送停止命令到所述第一电机(4)，否则发送继续旋转命令；

步骤8：所述DSP控制器(1)发送旋转命令到所述第一直线电机(211)，所述第一直线电机(211)移动所述第三传动轴(210)，所述第三传动轴(210)带动所述调节座(29)，所述调节座(29)拉动或者推动所述斜板(26)；所述斜板(26)沿着所述横板(212)和所述竖板(21)滑动；

所述位移传感器(213)实时检测所述斜板(26)在竖直方向上移动的距离c1并发送所述DSP控制器(1)；如果所述c1大于等于c，则所述DSP控制器(1)发送停止移动命令到所述第一电机驱动器，否则发送继续移动命令到所述第一电机驱动器；

步骤9：返回步骤2。