[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN108600701A - 一种基于深度学习判断视频行为的监控系统和方法 - Google Patents

一种基于深度学习判断视频行为的监控系统和方法 Download PDF

Info

Publication number
CN108600701A
CN108600701A CN201810411723.9A CN201810411723A CN108600701A CN 108600701 A CN108600701 A CN 108600701A CN 201810411723 A CN201810411723 A CN 201810411723A CN 108600701 A CN108600701 A CN 108600701A
Authority
CN
China
Prior art keywords
video
module
feature
deep learning
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810411723.9A
Other languages
English (en)
Other versions
CN108600701B (zh
Inventor
陈劲全
田菁
余卫宇
林俊科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Feiyu Intelligent Technology Co Ltd
Original Assignee
Guangzhou Feiyu Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Feiyu Intelligent Technology Co Ltd filed Critical Guangzhou Feiyu Intelligent Technology Co Ltd
Priority to CN201810411723.9A priority Critical patent/CN108600701B/zh
Publication of CN108600701A publication Critical patent/CN108600701A/zh
Application granted granted Critical
Publication of CN108600701B publication Critical patent/CN108600701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19602Image analysis to detect motion of the intruder, e.g. by frame subtraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明的基于深度学习判断视频行为的监控系统,包括监控端和服务端;监控端包括摄像头和前端报警模块;服务端包括云平台视频数据库、离线视频数据库、深度学习判断模块和异常事件报警模块;摄像头用于实时采集视频信息;云平台视频数据库存储摄像头发送的视频信息;离线视频数据库存储视频信息供深度学习判断模块构建行为判断模型;深度学习判断模块根据离线视频数据库内的视频构建行为判断模型,根据行为判断模型对接收到的视频进行行为判断;前端报警模块是报警灯或者喇叭;异常事件报警模是报警灯或者喇叭;深度学习判断模块包括特征提取模块、特征融合拼接模块、语义编码确定模块、特征解码模块和分类报警模块。

Description

一种基于深度学习判断视频行为的监控系统和方法
技术领域
本发明涉及视频监控技术领域,具体涉及一种基于深度学习判断视频行为的监控系统和方法。
背景技术
传统的视频监控系统的镜头的只可以在一定角度范围内进行转动,其图像采集的范围仅仅限定于一个较小的范围内;对于需要进行大范围图像采集或者进行全方位的视频监控的情况下,传统的视频监控系统已经不适用;
传统的视频监控系统只是完成了视频信息采集,并不能对采集到的视频信息进行准确分析,不能对视频内容进行有效判断。
互联网多媒体数据如图片、视频呈爆发式增长中,计算机视觉已成为当今的热门研究领域,以往完全依赖人工对图片、视频进行标注和描述的任务效率十分低,几乎不可能完成。因此,对于视频自动描述方法的研究具有十分高的应用价值和现实意义。
让机器能够高效自动地对视频做出描述在视频检索、人机交互、智能安防、虚拟现实等领域也有着广泛的应用前景。
因此,需要提供一种视频采集范围大,且可以对采集到的视频进行准确分析的监控系统。
发明内容
本发明的目的在于提供一种基于深度学习判断视频行为的监控系统和方法,用以解决现有视频监控设备视频采集范围小,视频行为分析能力较差的问题。
为实现上述目的,本发明的技术方案为
一种基于深度学习判断视频行为的监控系统,包括监控端和服务端;所述监控端包括摄像头和前端报警模块;所述服务端包括云平台视频数据库、离线视频数据库、深度学习判断模块和异常事件报警模块;
所述摄像头用于实时采集视频信息并发送到所述云平台视频数据库进行存储;所述云平台视频数据库用于存储所述摄像头发送的视频信息并转发深度学习判断模块进行行为分析;所述离线视频数据库用于存储视频信息供所述深度学习判断模块构建行为判断模型;所述深度学习判断模块用于根据所述离线视频数据库内的视频构建行为判断模型,根据所述行为判断模型对接收到的视频进行行为判断,根据判断结果发送报警命令到所述前端报警模块和所述异常事件报警模块;所述前端报警模块是报警灯或者喇叭;所述异常事件报警模是报警灯或者喇叭;所述前端报警模块和所述异常事件报警模块根据接收到所述报警命令进行报警;所述深度学习判断模块包括特征提取模块、特征融合拼接模块、语义编码确定模块、特征解码模块和分类报警模块。
其中,所述摄像头包括底座,于所述底座的上部的中间处凹设有旋转槽,于所述底座的上部的两端处穿设有导向孔;于所述导向孔内转动的穿设有圆杆状的第二传动轴,于所述第二传动轴的一端螺纹旋接有第二电机;于所述第二传动轴的中部螺纹旋接有圆筒状的旋转筒,所述旋转筒处于所述旋转槽内;于所述旋转筒的外壁上卡接有外壁为椭球面的连接座,沿着所述连接座的径向于其上部螺纹旋接有圆杆状的连接杆;于所述连接杆的另一端卡接有安装箱,于所述安装箱内用螺栓固定有第一电机;于所述第一电机上螺纹旋接有圆杆状的第一传动轴,于所述第一传动轴的另一端螺纹旋接有DSP控制器,于所述DSP控制器上电连接有图像采集件;于所述旋转筒上卡接有第一角度传感器,于所述图像采集件上卡接有第二角度传感器;所述第一角度传感器和所述第二角度传感器均与所述DSP控制器电连接。
其中,所述图像采集件包括横板,于所述横板的边缘处设有与其垂直的竖板;于所述竖板的远离所述横板的一端的侧壁内凹设有第一滑槽,所述第一滑槽沿着所述竖板的长度方向延伸;于所述横板的远离所述竖板的一端的侧壁内凹设有第二滑槽,所述第二滑槽沿着所述横板的长度方向延伸;于所述第二滑槽内滑动设有第二滑块,于所述第二滑块的上端卡接有斜板,于所述斜板的上端卡接有第一滑块,所述第一滑块滑动设于所述第一滑槽内;于所述斜板的中部卡接有半球状的固定座,沿着所述固定座的径向于其内螺纹旋接有镜头,于所述斜板的侧壁上卡接有位移传感器;于所述横板的上侧卡接有第一直线电机,所述第一直线电机处于所述竖板、所述横板和所述斜板围成的空间内;于所述第一直线电机的端部螺纹旋接有第三传动轴,于所述第三传动轴的另一端卡接有三棱柱状的调节座,所述调节座卡接于所述斜板的下部;于所述第一直线电机电连接有第一电机驱动器;所述位移传感器和所述第一电机驱动器均与所述DSP控制器电连接。
其中,所述特征提取模块用于对待描述视频分别提取物体、场景、行为动作以及光流特征;所述特征提取模块包括物体场景行为动作特征提取子模块、3D卷积特征提取子模块和光流特征提取子模块;所述物体场景行为动作特征提取子模块包括分帧图像抽取单元和特征向量生成单元;所述分帧图像抽取单元用于对待描述视频按照指定的帧频fps进行分帧,并随机抽取其中的80帧图像用于下一步作特征提取;所述特征向量生成单元用于将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征,最终得到三个1024维的特征向量;所述3D卷积特征提取子模块包括中间模型的参数保存单元和512维特征向量生成单元;所述中间模型的参数保存单元用于将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能较好的中间模型的参数;所述512维特征向量生成单元用于将待描述视频输入所述中间模型中提取网络结构中pool5层的特征用于表示3D卷积特征,得到一个512维的特征向量;所述光流特征提取子模块包括光流特征值计算单元、光流图合成单元和光流特征向量生成单元;所述光流特征值计算单元用于分别计算视频每相邻两帧的x方向和y方向上的光流特征值,并归一化到[0,255]的像素范围;所述光流图合成单元用于计算光流的幅度值,并结合所述光流特征值组合成一张光流图;
所述光流特征向量生成单元用于利用所述光流图训练一个卷积神经网络GoogleNet,并提取pool5层的特征作为光流特征向量,得到一个1024维的特征向量。
其中,所述特征融合拼接模块用于将物体、场景、动作以及光流特征和3D卷积特征融合拼接成一个特征向量;所述特征融合拼接模块包括融合特征生成单元和特征向量主成分分析PCA降维单元;所述融合特征生成单元用于对物体、场景、动作以及光流特征和3D卷积特征进行直接拼接,用F表示特征,拼接M种模型提取的特征,对于每种模型生成的特征用Fi表示,选取特征的组合直接拼接得到的融合特征为Vfusion;所述特征向量主成分分析PCA降维单元用于对拼接起来的4608维度的特征向量进行主成分分析PCA降维得到1024维特征向量。
其中,所述语义编码确定模块用于采用时空注意力机制加权确定视频的语义编码表达;所述语义编码确定模块包括时空顺序单元、时间注意力单元和空间注意力单元;所述时空顺序单元用于确定空间注意力机制和时间注意力机制引入的顺序;所述时间注意力单元用于让解码器在一次生成单词中能够仅聚焦在一小集合的视频帧,避免由于视频流持续时间较长时生成的描述单词之间语义重复或冲突的;所述空间注意力单元用于让解码器在生成当前时刻的单词时能够让关注的图像区域部分受到强调,分配更大的权重,让模型的注意力更集中在该区域的内容。
其中,所述特征解码模块用于将所述语义编码输入到基于双向的长短时记忆网络模型进行特征解码,生成与视频对应的自然语言描述句子;所述基于双向的长短时记忆网络模型的基本单元是LSTM神经单元;所述双向的长短时记忆网络通过过去时刻的上下文信息和未来的上下文信息共同进行输出预测;所述特征解码模块包括前向传播过子模块、网络优化子模块和描述语句生成子模块;所述前向传播过子模块用于计算所述LSTM神经单元在前向传播过程特定时刻的隐藏层变量,通过正向计算和反向计算分别得到两个隐藏层变量值;所述网络优化子模块用于在解码阶段根据隐藏层变量和上一时刻的输出预测最大化整个输出预测语句的对数似然函数;所述描述语句生成子模块包括单词出现概率计算单元和取单词单元;所述单词出现概率计算单元用于采用softmax激活函数计算每个单词在词汇表V中的出现概率;所述取单词单元用于在解码阶段取softmax激活函数输出值中概率最大的单词组成对应的视频描述语句。
其中,所述分类报警模块用于根据所述视频描述语句的内容发出相应的报警命令;所述分类报警模块包括刷脸门禁报警单元、体征状态实时监测报警单元、跌倒异常行为报警单元、人员进出提醒单元、泳池溺水报警单元、破坏行为报警单元、火灾监控报警单元和暴力行为报警单元。
一种监控方法,用于所述基于深度学习判断视频行为的监控系统,包括步骤:
步骤1:所述DSP控制器预设第一目标旋转角度a、第二目标旋转角度b和目标移动距离c;
步骤2:所述DSP控制器发送拍摄命令到所述图像采集件采集视频,所述图像采集件将采集的视频发送DSP控制器;
步骤3:所述DSP控制器将接收到的视频发送云平台视频数据库进行存储并转发所述深度学习判断模块;
步骤4:所述深度学习判断模块对接收到的视频进行行为判断,并根据判断结果发送相应的报警命令到所述前端报警模块和所述异常事件报警模块;
步骤5:所述DSP控制器发送旋转命令到所述第二电机,所述第二电机转动并带动所述图像采集件绕所述第二传动轴;
步骤6:所述第一角度传感器实时采集第二传动轴的旋转角度a1并发送所述DSP控制器;如果所述a1大于等于a,则所述DSP控制器发送停止命令到所述第二电机,否则发送继续旋转命令;
步骤7:所述DSP控制器发送旋转命令到所述第一电机,所述第一电机旋转并带动所述图像采集件绕所述第一传动轴旋转;所述第二角度传感器实时采集所述图像采集件的旋转角度b1并发送所述DSP控制器;如果所述b1大于等于b,则所述DSP控制器发送停止命令到所述第一电机,否则发送继续旋转命令;
步骤8:所述DSP控制器发送旋转命令到所述第一直线电机,所述第一直线电机移动所述第三传动轴,所述第三传动轴带动所述调节座,所述调节座拉动或者推动所述斜板;所述斜板沿着所述横板和所述竖板滑动;所述位移传感器实时检测所述斜板在竖直方向上移动的距离c1并发送所述DSP控制器;如果所述c1大于等于c,则所述DSP控制器发送停止移动命令到所述第一电机驱动器,否则发送继续移动命令到所述第一电机驱动器;
步骤9:返回步骤2。
本发明具有如下优点:
本发明的基于深度学习判断视频行为的监控系统,包括监控端和服务端;所述监控端包括摄像头和前端报警模块;所述服务端包括云平台视频数据库、离线视频数据库、深度学习判断模块和异常事件报警模块;
所述摄像头用于实时采集视频信息并发送到所述云平台视频数据库进行存储;所述云平台视频数据库用于存储所述摄像头发送的视频信息并转发深度学习判断模块进行行为分析;所述离线视频数据库用于存储视频信息供所述深度学习判断模块构建行为判断模型;
所述深度学习判断模块用于根据所述离线视频数据库内的视频构建行为判断模型,根据所述行为判断模型对接收到的视频进行行为判断,根据判断结果发送报警命令到所述前端报警模块和所述异常事件报警模块;所述前端报警模块是报警灯或者喇叭;所述异常事件报警模是报警灯或者喇叭;所述前端报警模块和所述异常事件报警模块根据接收到所述报警命令进行报警;所述深度学习判断模块包括特征提取模块、特征融合拼接模块、语义编码确定模块、特征解码模块和分类报警模块;
所述摄像头可以进行全方位,多角度的进行视频采集,其视频采集范围大,可以进行全方位的视频监控;
所述深度学习判断模块可以根据所述离线视频数据库内的视频构建行为判断模型,根据所述行为判断模型对接收到的视频进行准确的行为判断,提高监控系统的视频行为分析能力,从而确保视频监控的准确性。
附图说明
图1是本发明的基于深度学习判断视频行为的监控系统的功能模块图。
图2是本发明的摄像头的结构示意图。
图3是本发明的图像采集件的结构示意图。
1-DSP控制器;2-图像采集件;21-竖板;22-第一滑槽;23-第一滑块;24-固定座;25-镜头;26-斜板;27-第二滑块;28-第二滑槽;29-调节座;210-第三传动轴;211-第一直线电机;212-横板;213-位移传感器;3-第一传动轴;4-第一电机;5-安装箱;6-连接杆;7-第二电机;8-底座;9-连接座;10-旋转筒;11-第二传动轴;12-第一角度传感器;13-第二角度传感器。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1
本实施例1的基于深度学习判断视频行为的监控系统,包括监控端和服务端;所述监控端包括摄像头和前端报警模块;所述服务端包括云平台视频数据库、离线视频数据库、深度学习判断模块和异常事件报警模块;
所述摄像头用于实时采集视频信息并发送到所述云平台视频数据库进行存储;所述云平台视频数据库用于存储所述摄像头发送的视频信息并转发深度学习判断模块进行行为分析;所述离线视频数据库用于存储视频信息供所述深度学习判断模块构建行为判断模型;所述深度学习判断模块用于根据所述离线视频数据库内的视频构建行为判断模型,根据所述行为判断模型对接收到的视频进行行为判断,根据判断结果发送报警命令到所述前端报警模块和所述异常事件报警模块;所述前端报警模块是报警灯或者喇叭;所述异常事件报警模是报警灯或者喇叭;所述前端报警模块和所述异常事件报警模块根据接收到所述报警命令进行报警;所述深度学习判断模块包括特征提取模块、特征融合拼接模块、语义编码确定模块、特征解码模块和分类报警模块。
所述摄像头包括底座8,于所述底座8的上部的中间处凹设有旋转槽,于所述底座8的上部的两端处穿设有导向孔;于所述导向孔内转动的穿设有圆杆状的第二传动轴11,于所述第二传动轴11的一端螺纹旋接有第二电机7;于所述第二传动轴11的中部螺纹旋接有圆筒状的旋转筒10,所述旋转筒10处于所述旋转槽内;
于所述旋转筒10的外壁上卡接有外壁为椭球面的连接座9,沿着所述连接座9的径向于其上部螺纹旋接有圆杆状的连接杆6;于所述连接杆6的另一端卡接有安装箱5,于所述安装箱5内用螺栓固定有第一电机4;
于所述第一电机4上螺纹旋接有圆杆状的第一传动轴3,于所述第一传动轴3的另一端螺纹旋接有DSP控制器1,于所述DSP控制器1上电连接有图像采集件2;
于所述旋转筒10上卡接有第一角度传感器12,于所述图像采集件2上卡接有第二角度传感器13;所述第一角度传感器12和所述第二角度传感器13均与所述DSP控制器1电连接。
所述图像采集件2包括横板212,于所述横板212的边缘处设有与其垂直的竖板21;于所述竖板21的远离所述横板212的一端的侧壁内凹设有第一滑槽22,所述第一滑槽22沿着所述竖板21的长度方向延伸;于所述横板212的远离所述竖板21的一端的侧壁内凹设有第二滑槽28,所述第二滑槽28沿着所述横板212的长度方向延伸;
于所述第二滑槽28内滑动设有第二滑块27,于所述第二滑块27的上端卡接有斜板26,于所述斜板26的上端卡接有第一滑块23,所述第一滑块23滑动设于所述第一滑槽22内;于所述斜板26的中部卡接有半球状的固定座24,沿着所述固定座24的径向于其内螺纹旋接有镜头25,于所述斜板26的侧壁上卡接有位移传感器213;
于所述横板212的上侧卡接有第一直线电机211,所述第一直线电机211处于所述竖板21、所述横板212和所述斜板26围成的空间内;于所述第一直线电机211的端部螺纹旋接有第三传动轴210,于所述第三传动轴210的另一端卡接有三棱柱状的调节座29,所述调节座29卡接于所述斜板26的下部;于所述第一直线电机211电连接有第一电机驱动器;所述位移传感器213和所述第一电机驱动器均与所述DSP控制器1电连接。
所述摄像头可以进行全方位,多角度的进行视频采集,其视频采集范围大,可以进行全方位的视频监控;
所述深度学习判断模块可以根据所述离线视频数据库内的视频构建行为判断模型,根据所述行为判断模型对接收到的视频进行准确的行为判断,提高监控系统的视频行为分析能力,从而确保视频监控的准确性。
实施例2
进一步,在实施例1的基础上:
所述特征提取模块用于对待描述视频分别提取物体、场景、行为动作以及光流特征;所述特征提取模块包括物体场景行为动作特征提取子模块、3D卷积特征提取子模块和光流特征提取子模块;所述物体场景行为动作特征提取子模块包括分帧图像抽取单元和特征向量生成单元;所述分帧图像抽取单元用于对待描述视频按照指定的帧频fps进行分帧,并随机抽取其中的80帧图像用于下一步作特征提取;所述特征向量生成单元用于将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征,最终得到三个1024维的特征向量;所述3D卷积特征提取子模块包括中间模型的参数保存单元和512维特征向量生成单元;所述中间模型的参数保存单元用于将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能较好的中间模型的参数;所述512维特征向量生成单元用于将待描述视频输入所述中间模型中提取网络结构中pool5层的特征用于表示3D卷积特征,得到一个512维的特征向量;所述光流特征提取子模块包括光流特征值计算单元、光流图合成单元和光流特征向量生成单元;所述光流特征值计算单元用于分别计算视频每相邻两帧的x方向和y方向上的光流特征值,并归一化到[0,255]的像素范围;所述光流图合成单元用于计算光流的幅度值,并结合所述光流特征值组合成一张光流图;所述光流特征向量生成单元用于利用所述光流图训练一个卷积神经网络GoogleNet,并提取pool5层的特征作为光流特征向量,得到一个1024维的特征向量。
所述特征融合拼接模块用于将物体、场景、动作以及光流特征和3D卷积特征融合拼接成一个特征向量;所述特征融合拼接模块包括融合特征生成单元和特征向量主成分分析PCA降维单元;所述融合特征生成单元用于对物体、场景、动作以及光流特征和3D卷积特征进行直接拼接,用F表示特征,拼接M种模型提取的特征,对于每种模型生成的特征用Fi表示,选取特征的组合直接拼接得到的融合特征为Vfusion;则融合特征可表示为公式(1-1):
Vfusion=(F1,F2,...,Fm) (1-1)
所述特征向量主成分分析PCA降维单元用于对拼接起来的4608维度的特征向量进行主成分分析PCA降维得到1024维特征向量。
由于通过网络的非线性映射关系生成对应的物体、场景、动作以及光流特征的向量维度为1024,3D卷积特征向量维度为512,因此将这些特征直接拼接起来特征向量维度为4608=1024*4+512,若直接输入到语言生成模型中计算量较大,故对这4608维特征向量进行主成分分析PCA降维,最终保留1024维特征向量。
所述语义编码确定模块用于采用时空注意力机制加权确定视频的语义编码表达;所述语义编码确定模块包括时空顺序单元、时间注意力单元和空间注意力单元;所述时间注意力单元用于让解码器在一次生成单词中能够仅聚焦在一小集合的视频帧,避免由于视频流持续时间较长时生成的描述单词之间语义重复或冲突的;引入时间注意力机制是为了让解码器在一次生成单词中能够仅聚焦在一小集合的视频帧,避免由于视频流持续时间较长时生成的描述单词之间语义重复或冲突的情况。注意力机制本质上是动态地对特征向量进行加权求和,实现为关键特征分配更大的权重,让模型的注意力更集中在这部分内容上。用V表示特征向量,V={v1,v2,…,vn}。具体地,时间注意力权重α可由公式(1-2)计算得到:
在公式(1-2)中,ht-1表示t-1时刻的lstm隐层变量,c表示时间注意力模型,其定义如公式(1-3)(1-4)所示:
α(t)=softmax(Wia+bi) (1-4)
其中,Wc,Whc,Wi分别表示视觉特征,视觉特征与隐层特征向量,及其非线性变换特征的权重转移矩阵,符号表示矩阵的每一列与向量对应相加。bc,bi表示模型的偏置向量。
所述空间注意力单元用于让解码器在生成当前时刻的单词时能够让关注的图像区域部分受到强调,分配更大的权重,让模型的注意力更集中在该区域的内容;
引入空间注意力机制是为了让解码器在生成当前时刻的单词时能够让关注的图像区域部分受到强调,分配更大的权重,让模型的注意力更集中在该区域的内容。用V表示特征向量,V={v1,v2,…,vn}。具体地,空间注意力权重β可由公式(1-5)计算得到:
在公式(1-5)中,ht-1表示t-1时刻的lstm隐层变量,s表示空间注意力模型,其定义如公式(1-6)(1-7)所示:
β(t)=softmax(W′ib+b′i) (1-7)
其中,Ws,Whs,W′i
分别表示视觉特征,视觉特征与隐层特征向量,及其非线性变换特征的权重转移矩阵,符号表示矩阵的每一列与向量对应相加。bs,bi′表示模型的偏置向量。
所述时空顺序单元用于确定空间注意力机制和时间注意力机制引入的顺序。
引入时空注意力机制可以有两种形式,分别是S-T(Spatial-Temporal)和T-S(Temporal-Spatial)。第一种形式S-T表示先引入空间注意力机制,而第二种形式T-S表示先引入时间注意力机制。具体为:S-T形式的计算过程可表示为公式(1-8):
X=f(V,α,β) (1-8)
同理,T-S形式的计算过程可表示为公式(1-9):
X=f(V,α,β) (1-9)
其中,fs,fc分别表示空间注意力机制作用于特征向量的函数输出和时间注意力机制作用于特征向量的函数输出。X表示引入时空注意力机制后最终得到的语义编码表达。
所述特征解码模块用于将所述语义编码输入到基于双向的长短时记忆网络模型进行特征解码,生成与视频对应的自然语言描述句子;所述基于双向的长短时记忆网络模型的基本单元是LSTM神经单元;所述双向的长短时记忆网络通过过去时刻的上下文信息和未来的上下文信息共同进行输出预测;所述特征解码模块包括前向传播过子模块、网络优化子模块和描述语句生成子模块;
所述前向传播过子模块用于计算所述LSTM神经单元在前向传播过程特定时刻的隐藏层变量,通过正向计算和反向计算分别得到两个隐藏层变量值;
每个LSTM神经单元的前向传播过程可表示为:
it=σ(Wxixt+Wuiut+Whiht-1+bi) (1-10)
ft=σ(Wxfxt+Wufut+Whfht-1+bf) (1-11)
ot=σ(Wxoxt+Wuout+Whoht-1+bo) (1-12)
ct=ft*ct-1+it*gt (1-14)
其中it,ft,ot,ct分别表示t时刻下的视觉特征输入,t时刻前生成的上下文信息输入,和t-1时刻的lstm隐层变量;
是sigmoid激活函数,
是双曲正切激活函数,
it,ft,ot,ct依次表示t时刻下输入门,记忆门,输出门和核心门对应的状态量;对于每个逻辑门,
Wxi,Wxf,Wxo,Wxg依次表示输入门,记忆门,输出门和核心门与特征输入xt对应的权重转移矩阵;
Wui,Wuf,Wuo,Wug依次表示输入门,记忆门,输出门和核心门与上下文输入ut对应的权重转移矩阵;
Whi,Whf,Who,Whg依次表示输入门,记忆门,输出门和核心门在t-1时刻隐藏层变量ht-1对应的权重转移矩阵;
bi,bf,bo,bg依次表示输入门,记忆门,输出门和核心门对应的偏置向量。
对比一般的长短时记忆网络,双向的长短时记忆网络不仅能够学习到过去时刻的上下文信息,还能利用未来的上下文信息,共同用来预测输出。
其计算过程的不同之处在于:计算隐藏层变量时有正向计算和反向计算两个过程,因此隐藏层变量需要保存两个值。
正向计算时,t时刻的隐藏层变量ht与t-1时刻下隐藏层变量ht-1和当前输入xt有关;反向计算时,t时刻的隐藏层变量ht与t+1时刻下隐藏层变量ht+1和当前输入xt有关,具体计算过程可表示为:
ot=g(Vht+V′ht′) (1-16)
ht=f(Uxt+Wht-1) (1-17)
ht′=f(U′xt+W′h′t+1) (1-18)
所述网络优化子模块用于在解码阶段根据隐藏层变量和上一时刻的输出预测最大化整个输出预测语句的对数似然函数;在解码的阶段,网络会有信息的损失,因此模型参数训练和学习的目标是在给定隐层表达和上一时刻的输出预测的前提下,最大化整个输出预测语句的对数似然函数;对于用参数θ和输出语句Y=(y1,y2,…,ym)表示的模型,参数优化目标可表示为:
其中,θ为参数,Y代表输出的预测语句,h为隐层表达,使用随机梯度下降法对目标函数进行优化,整个网络的误差通过反向传播算法在时间维度上累积传递。
所述描述语句生成子模块包括单词出现概率计算单元和取单词单元;
所述单词出现概率计算单元用于采用softmax激活函数计算每个单词在词汇表V中的出现概率;
采用softmax激活函数计算每个单词在词汇表V中的出现概率,可用公式(1-20)表示:
其中,y表示输出预测的单词,zt表示长短时记忆网络在t时刻的输出值,Wy表示该单词在词汇表中的权重值。
所述取单词单元用于在解码阶段取softmax激活函数输出值中概率最大的单词组成对应的视频描述语句。
实施例3
进一步,在实施例2的基础上:
本实施例3的监控方法用于基于深度学习判断视频行为的监控系统,包括步骤:
步骤1:所述DSP控制器1预设第一目标旋转角度a、第二目标旋转角度b和目标移动距离c;
步骤2:所述DSP控制器1发送拍摄命令到所述图像采集件2采集视频,所述图像采集件2将采集的视频发送DSP控制器1;
步骤3:所述DSP控制器1将接收到的视频发送云平台视频数据库进行存储并转发所述深度学习判断模块;
步骤4:所述深度学习判断模块对接收到的视频进行行为判断,并根据判断结果发送相应的报警命令到所述前端报警模块和所述异常事件报警模块;
步骤5:所述DSP控制器1发送旋转命令到所述第二电机7,所述第二电机7转动并带动所述图像采集件2绕所述第二传动轴11;
步骤6:所述第一角度传感器12实时采集第二传动轴11的旋转角度a1并发送所述DSP控制器1;如果所述a1大于等于a,则所述DSP控制器1发送停止命令到所述第二电机7,否则发送继续旋转命令;
步骤7:所述DSP控制器1发送旋转命令到所述第一电机4,所述第一电机4旋转并带动所述图像采集件2绕所述第一传动轴3旋转;所述第二角度传感器13实时采集所述图像采集件2的旋转角度b1并发送所述DSP控制器1;如果所述b1大于等于b,则所述DSP控制器1发送停止命令到所述第一电机4,否则发送继续旋转命令;
步骤8:所述DSP控制器1发送旋转命令到所述第一直线电机211,所述第一直线电机211移动所述第三传动轴210,所述第三传动轴210带动所述调节座29,所述调节座29拉动或者推动所述斜板26;所述斜板26沿着所述横板212和所述竖板21滑动;
所述位移传感器213实时检测所述斜板26在竖直方向上移动的距离c1并发送所述DSP控制器1;如果所述c1大于等于c,则所述DSP控制器1发送停止移动命令到所述第一电机驱动器,否则发送继续移动命令到所述第一电机驱动器;
步骤9:返回步骤2。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (9)

1.一种基于深度学习判断视频行为的监控系统,其特征在于,包括监控端和服务端;所述监控端包括摄像头和前端报警模块;所述服务端包括云平台视频数据库、离线视频数据库、深度学习判断模块和异常事件报警模块;
所述摄像头用于实时采集视频信息并发送到所述云平台视频数据库进行存储;
所述云平台视频数据库用于存储所述摄像头发送的视频信息并转发深度学习判断模块进行行为分析;
所述离线视频数据库用于存储视频信息供所述深度学习判断模块构建行为判断模型;
所述深度学习判断模块用于根据所述离线视频数据库内的视频构建行为判断模型,根据所述行为判断模型对接收到的视频进行行为判断,根据判断结果发送报警命令到所述前端报警模块和所述异常事件报警模块;所述前端报警模块是报警灯或者喇叭;所述异常事件报警模是报警灯或者喇叭;
所述前端报警模块和所述异常事件报警模块根据接收到所述报警命令进行报警;
所述深度学习判断模块包括特征提取模块、特征融合拼接模块、语义编码确定模块、特征解码模块和分类报警模块。
2.根据权利要求1所述基于深度学习判断视频行为的监控系统,其特征在于,所述摄像头包括底座(8),于所述底座(8)的上部的中间处凹设有旋转槽,于所述底座(8)的上部的两端处穿设有导向孔;
于所述导向孔内转动的穿设有圆杆状的第二传动轴(11),于所述第二传动轴(11)的一端螺纹旋接有第二电机(7);于所述第二传动轴(11)的中部螺纹旋接有圆筒状的旋转筒(10),所述旋转筒(10)处于所述旋转槽内;
于所述旋转筒(10)的外壁上卡接有外壁为椭球面的连接座(9),沿着所述连接座(9)的径向于其上部螺纹旋接有圆杆状的连接杆(6);于所述连接杆(6)的另一端卡接有安装箱(5),于所述安装箱(5)内用螺栓固定有第一电机(4);
于所述第一电机(4)上螺纹旋接有圆杆状的第一传动轴(3),于所述第一传动轴(3)的另一端螺纹旋接有DSP控制器(1),于所述DSP控制器(1)上电连接有图像采集件(2);
于所述旋转筒(10)上卡接有第一角度传感器(12),于所述图像采集件(2)上卡接有第二角度传感器(13);所述第一角度传感器(12)和所述第二角度传感器(13)均与所述DSP控制器(1)电连接。
3.根据权利要求2所述基于深度学习判断视频行为的监控系统,其特征在于,所述图像采集件(2)包括横板(212),于所述横板(212)的边缘处设有与其垂直的竖板(21);
于所述竖板(21)的远离所述横板(212)的一端的侧壁内凹设有第一滑槽(22),所述第一滑槽(22)沿着所述竖板(21)的长度方向延伸;于所述横板(212)的远离所述竖板(21)的一端的侧壁内凹设有第二滑槽(28),所述第二滑槽(28)沿着所述横板(212)的长度方向延伸;
于所述第二滑槽(28)内滑动设有第二滑块(27),于所述第二滑块(27)的上端卡接有斜板(26),于所述斜板(26)的上端卡接有第一滑块(23),所述第一滑块(23)滑动设于所述第一滑槽(22)内;于所述斜板(26)的中部卡接有半球状的固定座(24),沿着所述固定座(24)的径向于其内螺纹旋接有镜头(25),于所述斜板(26)的侧壁上卡接有位移传感器(213);
于所述横板(212)的上侧卡接有第一直线电机(211),所述第一直线电机(211)处于所述竖板(21)、所述横板(212)和所述斜板(26)围成的空间内;于所述第一直线电机(211)的端部螺纹旋接有第三传动轴(210),于所述第三传动轴(210)的另一端卡接有三棱柱状的调节座(29),所述调节座(29)卡接于所述斜板(26)的下部;于所述第一直线电机(211)电连接有第一电机驱动器;所述位移传感器(213)和所述第一电机驱动器均与所述DSP控制器(1)电连接。
4.根据权利要求3所述基于深度学习判断视频行为的监控系统,其特征在于,所述特征提取模块用于对待描述视频分别提取物体、场景、行为动作以及光流特征;
所述特征提取模块包括物体场景行为动作特征提取子模块、3D卷积特征提取子模块和光流特征提取子模块;
所述物体场景行为动作特征提取子模块包括分帧图像抽取单元和特征向量生成单元;
所述分帧图像抽取单元用于对待描述视频按照指定的帧频fps进行分帧,并随机抽取其中的80帧图像用于下一步作特征提取;
所述特征向量生成单元用于将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征,最终得到三个1024维的特征向量;
所述3D卷积特征提取子模块包括中间模型的参数保存单元和512维特征向量生成单元;
所述中间模型的参数保存单元用于将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能较好的中间模型的参数;
所述512维特征向量生成单元用于将待描述视频输入所述中间模型中提取网络结构中pool5层的特征用于表示3D卷积特征,得到一个512维的特征向量;
所述光流特征提取子模块包括光流特征值计算单元、光流图合成单元和光流特征向量生成单元;
所述光流特征值计算单元用于分别计算视频每相邻两帧的x方向和y方向上的光流特征值,并归一化到[0,255]的像素范围;
所述光流图合成单元用于计算光流的幅度值,并结合所述光流特征值组合成一张光流图;
所述光流特征向量生成单元用于利用所述光流图训练一个卷积神经网络GoogleNet,并提取pool5层的特征作为光流特征向量,得到一个1024维的特征向量。
5.根据权利要求4所述基于深度学习判断视频行为的监控系统,其特征在于,所述特征融合拼接模块用于将物体、场景、动作以及光流特征和3D卷积特征融合拼接成一个特征向量;
所述特征融合拼接模块包括融合特征生成单元和特征向量主成分分析PCA降维单元;
所述融合特征生成单元用于对物体、场景、动作以及光流特征和3D卷积特征进行直接拼接,用F表示特征,拼接M种模型提取的特征,对于每种模型生成的特征用Fi表示,选取特征的组合直接拼接得到的融合特征为Vfusion
所述特征向量主成分分析PCA降维单元用于对拼接起来的4608维度的特征向量进行主成分分析PCA降维得到1024维特征向量。
6.根据权利要求5所述基于深度学习判断视频行为的监控系统,其特征在于,所述语义编码确定模块用于采用时空注意力机制加权确定视频的语义编码表达;
所述语义编码确定模块包括时空顺序单元、时间注意力单元和空间注意力单元;
所述时空顺序单元用于确定空间注意力机制和时间注意力机制引入的顺序;
所述时间注意力单元用于让解码器在一次生成单词中能够仅聚焦在一小集合的视频帧,避免由于视频流持续时间较长时生成的描述单词之间语义重复或冲突的;
所述空间注意力单元用于让解码器在生成当前时刻的单词时能够让关注的图像区域部分受到强调,分配更大的权重,让模型的注意力更集中在该区域的内容。
7.根据权利要求6所述基于深度学习判断视频行为的监控系统,其特征在于,所述特征解码模块用于将所述语义编码输入到基于双向的长短时记忆网络模型进行特征解码,生成与视频对应的自然语言描述句子;所述基于双向的长短时记忆网络模型的基本单元是LSTM神经单元;所述双向的长短时记忆网络通过过去时刻的上下文信息和未来的上下文信息共同进行输出预测;
所述特征解码模块包括前向传播过子模块、网络优化子模块和描述语句生成子模块;
所述前向传播过子模块用于计算所述LSTM神经单元在前向传播过程特定时刻的隐藏层变量,通过正向计算和反向计算分别得到两个隐藏层变量值;
所述网络优化子模块用于在解码阶段根据隐藏层变量和上一时刻的输出预测最大化整个输出预测语句的对数似然函数;
所述描述语句生成子模块包括单词出现概率计算单元和取单词单元;
所述单词出现概率计算单元用于采用softmax激活函数计算每个单词在词汇表V中的出现概率;
所述取单词单元用于在解码阶段取softmax激活函数输出值中概率最大的单词组成对应的视频描述语句。
8.根据权利要求7所述基于深度学习判断视频行为的监控系统,其特征在于,所述分类报警模块用于根据所述视频描述语句的内容发出相应的报警命令;
所述分类报警模块包括刷脸门禁报警单元、体征状态实时监测报警单元、跌倒异常行为报警单元、人员进出提醒单元、泳池溺水报警单元、破坏行为报警单元、火灾监控报警单元和暴力行为报警单元。
9.一种监控方法,用于权利要求8所述基于深度学习判断视频行为的监控系统,其特征在于,包括步骤:
步骤1:所述DSP控制器(1)预设第一目标旋转角度a、第二目标旋转角度b和目标移动距离c;
步骤2:所述DSP控制器(1)发送拍摄命令到所述图像采集件(2)采集视频,所述图像采集件(2)将采集的视频发送DSP控制器(1);
步骤3:所述DSP控制器(1)将接收到的视频发送云平台视频数据库进行存储并转发所述深度学习判断模块;
步骤4:所述深度学习判断模块对接收到的视频进行行为判断,并根据判断结果发送相应的报警命令到所述前端报警模块和所述异常事件报警模块;
步骤5:所述DSP控制器(1)发送旋转命令到所述第二电机(7),所述第二电机(7)转动并带动所述图像采集件(2)绕所述第二传动轴(11);
步骤6:所述第一角度传感器(12)实时采集第二传动轴(11)的旋转角度a1并发送所述DSP控制器(1);如果所述a1大于等于a,则所述DSP控制器(1)发送停止命令到所述第二电机(7),否则发送继续旋转命令;
步骤7:所述DSP控制器(1)发送旋转命令到所述第一电机(4),所述第一电机(4)旋转并带动所述图像采集件(2)绕所述第一传动轴(3)旋转;所述第二角度传感器(13)实时采集所述图像采集件(2)的旋转角度b1并发送所述DSP控制器(1);如果所述b1大于等于b,则所述DSP控制器(1)发送停止命令到所述第一电机(4),否则发送继续旋转命令;
步骤8:所述DSP控制器(1)发送旋转命令到所述第一直线电机(211),所述第一直线电机(211)移动所述第三传动轴(210),所述第三传动轴(210)带动所述调节座(29),所述调节座(29)拉动或者推动所述斜板(26);所述斜板(26)沿着所述横板(212)和所述竖板(21)滑动;
所述位移传感器(213)实时检测所述斜板(26)在竖直方向上移动的距离c1并发送所述DSP控制器(1);如果所述c1大于等于c,则所述DSP控制器(1)发送停止移动命令到所述第一电机驱动器,否则发送继续移动命令到所述第一电机驱动器;
步骤9:返回步骤2。
CN201810411723.9A 2018-05-02 2018-05-02 一种基于深度学习判断视频行为的监控系统和方法 Active CN108600701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810411723.9A CN108600701B (zh) 2018-05-02 2018-05-02 一种基于深度学习判断视频行为的监控系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810411723.9A CN108600701B (zh) 2018-05-02 2018-05-02 一种基于深度学习判断视频行为的监控系统和方法

Publications (2)

Publication Number Publication Date
CN108600701A true CN108600701A (zh) 2018-09-28
CN108600701B CN108600701B (zh) 2020-11-24

Family

ID=63619736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810411723.9A Active CN108600701B (zh) 2018-05-02 2018-05-02 一种基于深度学习判断视频行为的监控系统和方法

Country Status (1)

Country Link
CN (1) CN108600701B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214309A (zh) * 2018-08-15 2019-01-15 南京信息工程大学 一种基于深度学习的茶山采摘人员异常行为监控方法
CN109410496A (zh) * 2018-10-25 2019-03-01 北京交通大学 入侵预警方法、装置及电子设备
CN109614882A (zh) * 2018-11-19 2019-04-12 浙江大学 一种基于人体姿态估计的暴力行为检测系统及方法
CN109858514A (zh) * 2018-12-20 2019-06-07 北京以萨技术股份有限公司 一种基于神经网络的视频行为分类方法
CN109872483A (zh) * 2019-02-22 2019-06-11 华中光电技术研究所(中国船舶重工集团有限公司第七一七研究所) 一种入侵警戒光电监测系统及方法
CN109903522A (zh) * 2019-01-24 2019-06-18 珠海格力电器股份有限公司 一种监控方法、装置、存储介质及家用电器
CN109919358A (zh) * 2019-01-31 2019-06-21 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN110059587A (zh) * 2019-03-29 2019-07-26 西安交通大学 基于时空注意力的人体行为识别方法
CN110119718A (zh) * 2019-05-15 2019-08-13 燕山大学 一种基于深度学习的落水检测及救援控制系统
CN110135249A (zh) * 2019-04-04 2019-08-16 华南理工大学 基于时间注意力机制和lstm的人体行为识别方法
CN110363153A (zh) * 2019-07-16 2019-10-22 广州图普网络科技有限公司 涉水检测方法、装置、服务器及计算机可读存储介质
CN110516536A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN111428769A (zh) * 2020-03-18 2020-07-17 周升志 一种软件设计宠物行为语言的人工智能翻译系统
CN111444861A (zh) * 2020-03-30 2020-07-24 西安交通大学 一种基于监控视频的车辆偷盗行为识别方法
CN111464790A (zh) * 2020-04-21 2020-07-28 济南浪潮高新科技投资发展有限公司 一种基于深度学习的工业环境监控视频处理方法及系统
CN111640282A (zh) * 2020-05-29 2020-09-08 北京潞电电气设备有限公司 一种配电室内人员安全距离监测方法、系统及装置
CN111881739A (zh) * 2020-06-19 2020-11-03 安徽清新互联信息科技有限公司 一种汽车尾灯状态识别方法
CN112364850A (zh) * 2021-01-13 2021-02-12 北京远鉴信息技术有限公司 一种视频质检方法、装置、电子设备及存储介质
CN112597975A (zh) * 2021-02-26 2021-04-02 上海闪马智能科技有限公司 一种基于视频的火灾烟雾和抛洒物检测方法及系统
CN112830359A (zh) * 2021-01-08 2021-05-25 燕山大学 一种基于深度学习的电梯轿厢内乘客异常行为检测系统
CN113347387A (zh) * 2020-02-18 2021-09-03 株式会社日立制作所 影像监视系统和影像监视方法
CN113392314A (zh) * 2020-03-13 2021-09-14 北京京东尚科信息技术有限公司 用于对象推荐的预测方法、装置、存储介质与电子设备
CN117156107A (zh) * 2023-10-31 2023-12-01 天津市城市规划设计研究总院有限公司 一种社区监控语义描述方法及系统
CN117275156A (zh) * 2023-09-13 2023-12-22 武汉卓讯互动信息科技有限公司 无人值守共享棋牌室预定系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102811343A (zh) * 2011-06-03 2012-12-05 南京理工大学 一种基于行为识别的智能视频监控系统
CN105095866A (zh) * 2015-07-17 2015-11-25 重庆邮电大学 一种快速行为识别方法和系统
US20160132754A1 (en) * 2012-05-25 2016-05-12 The Johns Hopkins University Integrated real-time tracking system for normal and anomaly tracking and the methods therefor
CN206341323U (zh) * 2016-12-28 2017-07-18 天津怡通科技有限公司 一种基于avr的集成化智能视频监控系统
CN106981063A (zh) * 2017-03-14 2017-07-25 东北大学 一种基于深度学习的电网设备状态监测装置
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107909014A (zh) * 2017-10-31 2018-04-13 天津大学 一种基于深度学习的视频理解方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102811343A (zh) * 2011-06-03 2012-12-05 南京理工大学 一种基于行为识别的智能视频监控系统
US20160132754A1 (en) * 2012-05-25 2016-05-12 The Johns Hopkins University Integrated real-time tracking system for normal and anomaly tracking and the methods therefor
CN105095866A (zh) * 2015-07-17 2015-11-25 重庆邮电大学 一种快速行为识别方法和系统
CN206341323U (zh) * 2016-12-28 2017-07-18 天津怡通科技有限公司 一种基于avr的集成化智能视频监控系统
CN106981063A (zh) * 2017-03-14 2017-07-25 东北大学 一种基于深度学习的电网设备状态监测装置
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN107909014A (zh) * 2017-10-31 2018-04-13 天津大学 一种基于深度学习的视频理解方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214309A (zh) * 2018-08-15 2019-01-15 南京信息工程大学 一种基于深度学习的茶山采摘人员异常行为监控方法
CN109410496A (zh) * 2018-10-25 2019-03-01 北京交通大学 入侵预警方法、装置及电子设备
CN109614882A (zh) * 2018-11-19 2019-04-12 浙江大学 一种基于人体姿态估计的暴力行为检测系统及方法
CN109858514A (zh) * 2018-12-20 2019-06-07 北京以萨技术股份有限公司 一种基于神经网络的视频行为分类方法
CN109903522A (zh) * 2019-01-24 2019-06-18 珠海格力电器股份有限公司 一种监控方法、装置、存储介质及家用电器
CN109919358A (zh) * 2019-01-31 2019-06-21 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN109919358B (zh) * 2019-01-31 2021-03-02 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN109872483A (zh) * 2019-02-22 2019-06-11 华中光电技术研究所(中国船舶重工集团有限公司第七一七研究所) 一种入侵警戒光电监测系统及方法
CN110059587A (zh) * 2019-03-29 2019-07-26 西安交通大学 基于时空注意力的人体行为识别方法
CN110135249B (zh) * 2019-04-04 2021-07-20 华南理工大学 基于时间注意力机制和lstm的人体行为识别方法
CN110135249A (zh) * 2019-04-04 2019-08-16 华南理工大学 基于时间注意力机制和lstm的人体行为识别方法
CN110119718A (zh) * 2019-05-15 2019-08-13 燕山大学 一种基于深度学习的落水检测及救援控制系统
CN110516536A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN110516536B (zh) * 2019-07-12 2022-03-18 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN110363153A (zh) * 2019-07-16 2019-10-22 广州图普网络科技有限公司 涉水检测方法、装置、服务器及计算机可读存储介质
CN113347387A (zh) * 2020-02-18 2021-09-03 株式会社日立制作所 影像监视系统和影像监视方法
CN113392314A (zh) * 2020-03-13 2021-09-14 北京京东尚科信息技术有限公司 用于对象推荐的预测方法、装置、存储介质与电子设备
CN111428769A (zh) * 2020-03-18 2020-07-17 周升志 一种软件设计宠物行为语言的人工智能翻译系统
CN111444861A (zh) * 2020-03-30 2020-07-24 西安交通大学 一种基于监控视频的车辆偷盗行为识别方法
CN111464790A (zh) * 2020-04-21 2020-07-28 济南浪潮高新科技投资发展有限公司 一种基于深度学习的工业环境监控视频处理方法及系统
CN111640282A (zh) * 2020-05-29 2020-09-08 北京潞电电气设备有限公司 一种配电室内人员安全距离监测方法、系统及装置
CN111881739A (zh) * 2020-06-19 2020-11-03 安徽清新互联信息科技有限公司 一种汽车尾灯状态识别方法
CN112830359A (zh) * 2021-01-08 2021-05-25 燕山大学 一种基于深度学习的电梯轿厢内乘客异常行为检测系统
CN112830359B (zh) * 2021-01-08 2022-04-15 燕山大学 一种基于深度学习的电梯轿厢内乘客异常行为检测系统
CN112364850B (zh) * 2021-01-13 2021-04-06 北京远鉴信息技术有限公司 一种视频质检方法、装置、电子设备及存储介质
CN112364850A (zh) * 2021-01-13 2021-02-12 北京远鉴信息技术有限公司 一种视频质检方法、装置、电子设备及存储介质
CN112597975B (zh) * 2021-02-26 2021-06-08 上海闪马智能科技有限公司 一种基于视频的火灾烟雾和抛洒物检测方法及系统
CN112597975A (zh) * 2021-02-26 2021-04-02 上海闪马智能科技有限公司 一种基于视频的火灾烟雾和抛洒物检测方法及系统
CN117275156A (zh) * 2023-09-13 2023-12-22 武汉卓讯互动信息科技有限公司 无人值守共享棋牌室预定系统
CN117156107A (zh) * 2023-10-31 2023-12-01 天津市城市规划设计研究总院有限公司 一种社区监控语义描述方法及系统

Also Published As

Publication number Publication date
CN108600701B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN108600701A (zh) 一种基于深度学习判断视频行为的监控系统和方法
CN108648746B (zh) 一种基于多模态特征融合的开放域视频自然语言描述生成方法
Huang et al. Transferable representation learning in vision-and-language navigation
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN109711463B (zh) 基于注意力的重要对象检测方法
Liao et al. Understand scene categories by objects: A semantic regularized scene classifier using convolutional neural networks
Chennupati et al. Auxnet: Auxiliary tasks enhanced semantic segmentation for automated driving
WO2019205562A1 (zh) 基于注意力回归的视频时序句子定位方法及装置
CN108829667A (zh) 一种基于记忆网络的多轮对话下的意图识别方法
CN111368993A (zh) 一种数据处理方法及相关设备
US20180137360A1 (en) Unified embedding with metric learning for zero-exemplar event detection
CN111985205A (zh) 一种方面级情感分类模型
CN114913546B (zh) 一种人物交互关系检测方法及系统
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN113792594B (zh) 一种基于对比学习的视频中语言片段定位方法及装置
CN114491258A (zh) 基于多模态内容的关键词推荐系统及方法
CN114881042A (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
CN113870160A (zh) 一种基于变换器神经网络的点云数据处理方法
CN114003770A (zh) 一种受阅读策略启发的跨模态视频检索方法
Chen et al. Enhancing visual question answering through ranking-based hybrid training and multimodal fusion
Xie et al. Vision–language navigation with beam-constrained global normalization
Huang et al. Knowledge distilled pre-training model for vision-language-navigation
Luo et al. Detection of loop closure in visual SLAM: A stacked assorted auto-encoder based approach
CN116863241A (zh) 一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant