CN114743264B

CN114743264B - 拍摄行为检测方法、装置、设备及存储介质

Info

Publication number: CN114743264B
Application number: CN202210371875.7A
Authority: CN
Inventors: 朱禹萌; 陆进; 刘玉宇; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Filing date: 2022-04-11
Publication date: 2024-11-15
Anticipated expiration: 2042-04-11

Abstract

本发明涉及人工智能技术领域，公开了一种拍摄行为检测方法、装置、设备及存储介质，用于提高人体行为识别的准确度。拍摄行为检测方法包括：通过预置的监控设备获取目标人员的单帧视频图像；通过目标检测网络对单帧视频图像进行标志物识别；若单帧视频图像中存在图像采集设备，则根据交并比函数对图像采集设备、目标人员的手部、侧脸和耳部进行位置关联检测；若图像采集设备处于候选状态，则对图像采集设备的摄像头进行透视变换，生成对应的摄像头透视变换平面；若摄像头透视变换平面和单帧视频图像的平面之间的夹角小于或等于预置夹角，则确定图像采集设备处于拍摄状态，并生成预警信息，将预警信息发送至预警终端。

Description

拍摄行为检测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种拍摄行为检测方法、装置、设备及存储介质。

背景技术

随着计算机视觉技术的高速发展，生物识别技术已经由人脸识别拓展到人体行为识别，通过摄像头采集的大量视频、图像数据，用于判别人体行为，用于监控公共场合的一些非法行为，或者应用于家庭防范老人或小孩的危险行为。

目前，主流的行为识别方式多是以人体为单位，首先利用人体检测定位识别区域，再定位人体关键点，根据关键点判断人体姿态与预定义的行为模板是否匹配来完成行为识别；区别于模板匹配的方式，另有一种识别方式，是结合视频序列中的时序特征，对定位出的人体区域进行时空编码，直接进行行为分类。

利用关键点匹配虽然可以大致判断人体动作，但识别粒度较为粗糙，注意力集中在人体信息而忽略了环境中的其他物体，导致在应用过程中产生较多误判；而视频分析会带来较多的资源消耗，会导致设备卡顿，影响正常使用。

发明内容

本发明提供了一种拍摄行为检测方法、装置、设备及存储介质，用于提高人体行为识别的准确度。

本发明第一方面提供了一种拍摄行为检测方法，包括：当目标人员处于预置的检测区域时，通过预置的监控设备获取所述目标人员的单帧视频图像，其中，所述监控设备用于检测所述检测区域，所述检测区域为所述监控设备所拍摄的区域；通过目标检测网络对所述单帧视频图像进行标志物识别，得到标志物识别结果，其中，所述标志物用于指示图像采集设备；若所述标志物识别结果为所述单帧视频图像中存在图像采集设备，则根据交并比函数对所述图像采集设备、所述目标人员的手部、侧脸和耳部进行位置关联检测，得到位置关联检测结果；若所述位置关联检测结果为所述图像采集设备处于候选状态，则对所述图像采集设备的摄像头进行透视变换，生成所述图像采集设备对应的摄像头透视变换平面，其中，所述候选状态用于指示所述图像采集设备与所述手部存在位置关联，且与所述侧脸和/或所述耳部未存在位置关联；若所述摄像头透视变换平面和所述单帧视频图像的平面之间的夹角小于或等于预置夹角，则确定所述图像采集设备处于拍摄状态，并生成预警信息，将所述预警信息发送至预警终端，其中，所述拍摄状态用于指示所述目标人员存在拍摄行为。

在一种可行的实施方式中，所述通过目标检测网络对所述单帧视频图像进行标志物识别，得到标志物识别结果，包括：通过目标检测网络的主干特征提取网络对所述单帧视频图像进行特征提取，生成三个有效特征层，其中，所述三个有效特征层包括第一有效特征层、第二有效特征层和第三有效特征层；通过所述目标检测网络的加强特征提取网络对所述三个有效特征层进行特征增强，生成对应的三个强化特征层；通过所述目标检测网络的预测网络对所述三个强化特征层进行标志物预测，得到标志物预测概率；若所述标志物预测概率大于或等于预置的图像采集设备预测概率，则确定标志物识别结果为所述单帧视频图像中存在图像采集设备；若所述标志物预测概率小于预置的图像采集设备预测概率，则确定标志物识别结果为所述单帧视频图像中未存在图像采集设备。

在一种可行的实施方式中，所述通过目标检测网络的主干特征提取网络对所述单帧视频图像进行特征提取，生成三个有效特征层，包括：通过目标检测网络的主干特征提取网络对所述单帧视频图像进行聚焦处理，生成十二通道的单帧视频图像；将所述十二通道的单帧视频图像通过三个不同的卷积核进行特征提取，生成对应的三个有效特征层，其中，所述三个有效特征层包括第一有效特征层、第二有效特征层和第三有效特征层。

在一种可行的实施方式中，所述通过所述目标检测网络的加强特征提取网络对所述三个有效特征层进行特征增强，生成对应的三个强化特征层，包括：通过所述目标检测网络的加强特征提取网络对所述三个有效特征层中的第三有效特征层进行卷积和上采样，并与所述第二有效特征层进行结合和特征提取，得到上采样特征图；将所述上采样特征图进行卷积和上采样，并与所述第一有效特征层进行结合和特征提取，得到第一强化特征层；将所述第一强化特征层进行卷积、下采样和特征提取，得到第二强化特征层；将所述第二强化特征层进行卷积、下采样和特征提取，得到第三强化特征层。

在一种可行的实施方式中，所述通过所述目标检测网络的预测网络对所述三个强化特征层进行标志物预测，得到标志物预测概率，包括：通过所述目标检测网络的预测网络对所述三个强化特征层中的每个强化特征层进行标志物预测，得到所述每个强化特征层对应的三个标志物预测结果；在所述每个强化特征层中将对应的三个标志物预测结果进行堆叠，生成所述每个强化特征层的标志物候选结果；根据所述每个强化特征层的标志物候选结果，生成标志物预测概率。

在一种可行的实施方式中，所述若所述标志物识别结果为所述单帧视频图像中存在图像采集设备，则根据交并比函数对所述图像采集设备、所述目标人员的手部、侧脸和耳部进行位置关联检测，得到位置关联检测结果，包括：若所述标志物识别结果为存在图像采集设备，则通过目标检测网络对所述图像采集设备、所述目标人员的手部、侧脸和耳部进行位置框检测，生成对应的图像采集设备位置框、手部位置框、侧脸位置框和耳部位置框；根据交并比函数、所述图像采集设备位置框和所述手部位置框，得到第一交并比值，其中，所述第一交并比值用于指示所述图像采集设备和所述目标人员的手部的位置关联程度；根据所述交并比函数、所述图像采集设备位置框、所述手部位置框和所述侧脸位置框，得到第二交并比值，其中，所述第二交并比值用于指示所述图像采集设备与所述目标人员的手部和侧脸的位置关联程度；根据所述交并比函数、所述图像采集设备位置框、所述手部位置框、所述侧脸位置框和所述耳部位置框，得到第三交并比值，其中，所述第三交并比值用于指示所述图像采集设备与所述目标人员的手部、侧脸和耳部的位置关联程度；若所述第一交并比值大于或等于阈值，且所述第二交并比值小于阈值和/或所述第三交并比值小于阈值，则确定所述图像采集设备与所述手部存在位置关联，且与所述侧脸和/或所述耳部未存在位置关联，并确定位置关联检测结果为所述图像采集设备处于候选状态；若所述第一交并比值大于或等于阈值，且所述第二交并比值大于或等于阈值和/或所述第三交并比值大于或等于阈值，则确定所述图像采集设备与所述手部、所述侧脸和/或所述耳部存在位置关联，并确定位置关联检测结果为所述图像采集设备处于听语音状态；若所述第一交并比值小于阈值，则确定所述图像采集设备与所述手部未存在位置关联，并确定位置关联检测结果为所述图像采集设备处于单独状态。

在一种可行的实施方式中，所述若所述位置关联检测结果为所述图像采集设备处于候选状态，则对所述图像采集设备的摄像头进行透视变换，生成所述图像采集设备对应的摄像头透视变换平面，包括：若所述位置关联检测结果为所述图像采集设备处于候选状态，则对所述单帧视频图像进行摄像头检测，若所述单帧视频图像中存在所述图像采集设备对应的摄像头，则对所述单帧视频图像进行分割，得到所述图像采集设备的摄像头图像；对所述摄像头图像进行边缘检测，生成对应的摄像头边缘图像；对所述摄像头边缘图像进行透视变换，得到摄像头透视变换平面。

本发明第二方面提供了一种拍摄行为检测装置，包括：获取模块，用于当目标人员处于预置的检测区域时，通过预置的监控设备获取所述目标人员的单帧视频图像，其中，所述监控设备用于检测所述检测区域，所述检测区域为所述监控设备所拍摄的区域；识别模块，用于通过目标检测网络对所述单帧视频图像进行标志物识别，得到标志物识别结果，其中，所述标志物用于指示图像采集设备；检测模块，用于若所述标志物识别结果为所述单帧视频图像中存在图像采集设备，则根据交并比函数对所述图像采集设备、所述目标人员的手部、侧脸和耳部进行位置关联检测，得到位置关联检测结果；变换模块，用于若所述位置关联检测结果为所述图像采集设备处于候选状态，则对所述图像采集设备的摄像头进行透视变换，生成所述图像采集设备对应的摄像头透视变换平面，其中，所述候选状态用于指示所述图像采集设备与所述手部存在位置关联，且与所述侧脸和/或所述耳部未存在位置关联；确定模块，用于若所述摄像头透视变换平面和所述单帧视频图像的平面之间的夹角小于或等于预置夹角，则确定所述图像采集设备处于拍摄状态，并生成预警信息，将所述预警信息发送至预警终端，其中，所述拍摄状态用于指示所述目标人员存在拍摄行为。

在一种可行的实施方式中，所述识别模块包括：特征提取单元，用于通过目标检测网络的主干特征提取网络对所述单帧视频图像进行特征提取，生成三个有效特征层，其中，所述三个有效特征层包括第一有效特征层、第二有效特征层和第三有效特征层；特征增强单元，用于通过所述目标检测网络的加强特征提取网络对所述三个有效特征层进行特征增强，生成对应的三个强化特征层；标志物预测单元，用于通过所述目标检测网络的预测网络对所述三个强化特征层进行标志物预测，得到标志物预测概率；第一确定单元，用于若所述标志物预测概率大于或等于预置的图像采集设备预测概率，则确定标志物识别结果为所述单帧视频图像中存在图像采集设备；第二确定单元，用于若所述标志物预测概率小于预置的图像采集设备预测概率，则确定标志物识别结果为所述单帧视频图像中未存在图像采集设备。

在一种可行的实施方式中，所述特征提取单元具体用于：通过目标检测网络的主干特征提取网络对所述单帧视频图像进行聚焦处理，生成十二通道的单帧视频图像；将所述十二通道的单帧视频图像通过三个不同的卷积核进行特征提取，生成对应的三个有效特征层，其中，所述三个有效特征层包括第一有效特征层、第二有效特征层和第三有效特征层。

在一种可行的实施方式中，所述特征增强单元具体用于：通过所述目标检测网络的加强特征提取网络对所述三个有效特征层中的第三有效特征层进行卷积和上采样，并与所述第二有效特征层进行结合和特征提取，得到上采样特征图；将所述上采样特征图进行卷积和上采样，并与所述第一有效特征层进行结合和特征提取，得到第一强化特征层；将所述第一强化特征层进行卷积、下采样和特征提取，得到第二强化特征层；将所述第二强化特征层进行卷积、下采样和特征提取，得到第三强化特征层。

在一种可行的实施方式中，所述标志物预测单元具体用于：通过所述目标检测网络的预测网络对所述三个强化特征层中的每个强化特征层进行标志物预测，得到所述每个强化特征层对应的三个标志物预测结果；在所述每个强化特征层中将对应的三个标志物预测结果进行堆叠，生成所述每个强化特征层的标志物候选结果；根据所述每个强化特征层的标志物候选结果，生成标志物预测概率。

在一种可行的实施方式中，所述检测模块具体用于：若所述标志物识别结果为存在图像采集设备，则通过目标检测网络对所述图像采集设备、所述目标人员的手部、侧脸和耳部进行位置框检测，生成对应的图像采集设备位置框、手部位置框、侧脸位置框和耳部位置框；根据交并比函数、所述图像采集设备位置框和所述手部位置框，得到第一交并比值，其中，所述第一交并比值用于指示所述图像采集设备和所述目标人员的手部的位置关联程度；根据所述交并比函数、所述图像采集设备位置框、所述手部位置框和所述侧脸位置框，得到第二交并比值，其中，所述第二交并比值用于指示所述图像采集设备与所述目标人员的手部和侧脸的位置关联程度；根据所述交并比函数、所述图像采集设备位置框、所述手部位置框、所述侧脸位置框和所述耳部位置框，得到第三交并比值，其中，所述第三交并比值用于指示所述图像采集设备与所述目标人员的手部、侧脸和耳部的位置关联程度；若所述第一交并比值大于或等于阈值，且所述第二交并比值小于阈值和/或所述第三交并比值小于阈值，则确定所述图像采集设备与所述手部存在位置关联，且与所述侧脸和/或所述耳部未存在位置关联，并确定位置关联检测结果为所述图像采集设备处于候选状态；若所述第一交并比值大于或等于阈值，且所述第二交并比值大于或等于阈值和/或所述第三交并比值大于或等于阈值，则确定所述图像采集设备与所述手部、所述侧脸和/或所述耳部存在位置关联，并确定位置关联检测结果为所述图像采集设备处于听语音状态；若所述第一交并比值小于阈值，则确定所述图像采集设备与所述手部未存在位置关联，并确定位置关联检测结果为所述图像采集设备处于单独状态。

在一种可行的实施方式中，所述变换模块具体用于：若所述位置关联检测结果为所述图像采集设备处于候选状态，则对所述单帧视频图像进行摄像头检测，若所述单帧视频图像中存在所述图像采集设备对应的摄像头，则对所述单帧视频图像进行分割，得到所述图像采集设备的摄像头图像；对所述摄像头图像进行边缘检测，生成对应的摄像头边缘图像；对所述摄像头边缘图像进行透视变换，得到摄像头透视变换平面。

本发明第三方面提供了一种拍摄行为检测设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述拍摄行为检测设备执行上述的拍摄行为检测方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的拍摄行为检测方法。

本发明提供的技术方案中，当目标人员处于预置的检测区域时，通过预置的监控设备获取目标人员的单帧视频图像，其中，监控设备用于检测检测区域，检测区域为监控设备所拍摄的区域；通过目标检测网络对单帧视频图像进行标志物识别，得到标志物识别结果，其中，标志物用于指示图像采集设备；若标志物识别结果为单帧视频图像中存在图像采集设备，则根据交并比函数对图像采集设备、目标人员的手部、侧脸和耳部进行位置关联检测，得到位置关联检测结果；若位置关联检测结果为图像采集设备处于候选状态，则对图像采集设备的摄像头进行透视变换，生成图像采集设备对应的摄像头透视变换平面，其中，候选状态用于指示图像采集设备与手部存在位置关联，且与侧脸和/或耳部未存在位置关联；若摄像头透视变换平面和单帧视频图像的平面之间的夹角小于或等于预置夹角，则确定图像采集设备处于拍摄状态，并生成预警信息，将预警信息发送至预警终端，其中，拍摄状态用于指示目标人员存在拍摄行为。本发明实施例中，通过获取目标人员的单帧视频图像，特征提取与多目标检测的网络结构中进行标志物识别与位置信息关联，标志物用于指示图像采集设备，根据标志物的不同关联度排除较为相似的标志物状态，得到标志物的候选状态，再根据边缘检测和透视变换原理，计算标志物和单帧视频图像之间的平面夹角，若平面夹角小于或等于预置夹角，则确定标志物处于拍摄状态，即目标人员存在拍摄行为，提高了人体行为识别的准确度。

附图说明

图1为本发明实施例中拍摄行为检测方法的一个实施例示意图；

图2为本发明实施例中拍摄行为检测方法的另一个实施例示意图；

图3为本发明实施例中拍摄行为检测装置的一个实施例示意图；

图4为本发明实施例中拍摄行为检测装置的另一个实施例示意图；

图5为本发明实施例中拍摄行为检测设备的一个实施例示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中拍摄行为检测方法的一个实施例包括：

101、当目标人员处于预置的检测区域时，通过预置的监控设备获取目标人员的单帧视频图像，其中，监控设备用于检测检测区域，检测区域为监控设备所拍摄的区域；

可以理解的是，本发明的执行主体可以为拍摄行为检测装置，还可以是终端，具体此处不做限定。本发明实施例以拍摄行为检测装置为执行主体为例进行说明。

需要说明的是，视频图像的采集是经过被采集人员确认授权后进行的。当被采集人员进入检测区域时，拍摄行为检测装置对被采集人员进行拍摄行为检测。

102、通过目标检测网络对单帧视频图像进行标志物识别，得到标志物识别结果，其中，标志物用于指示图像采集设备；

目标检测网络包括多种目标检测网络，例如，Yolo系列的Yolov1、Yolov2、Yolov3、Yolov4、Yolov5、Yolo X，R-CNN和SSD等等目标检测网络。本实施例选取Yolo X作为目标检测网络，目标检测网络Yolo X包括主干特征提取网络CSPDarknet、加强特征提取网络FPN和预测网络Yolo Head，其中，主干特征提取网络CSPDarknet用于拍摄行为检测装置对单帧视频图像进行特征提取，得到三个有效特征层；加强特征提取网络FPN用于对三个有效特征层进行特征融合，从而强化特征；预测网络Yolo Head用于预测单帧视频图像中的标志物。

图像采集设备包括多种图像采集设备，例如，手机、平板、照相机、摄像机和其他可以进行图像采集的设备。

103、若标志物识别结果为单帧视频图像中存在图像采集设备，则根据交并比函数对图像采集设备、目标人员的手部、侧脸和耳部进行位置关联检测，得到位置关联检测结果；

拍摄行为检测装置通过目标检测网络Yolo X生成图像采集设备位置框、目标人员的手部位置框、侧脸位置框和耳部位置框，再通过交并比函数(Intersection-over-Union，IoU)计算这些位置框之间的交集与并集之比，得到交并比值，从而根据交并比值判断图像采集设备、目标人员的手部、侧脸和耳部之间的位置关联程度，进而确定图像采集设备所处的状态。

例如，图像采集设备对应的图像采集设备位置框为A，目标人员的手部对应的手部位置框为B，若图像采集设备位置框和手部位置框之间存在相交，则根据交并比函数公式IOU＝(A∩B)/(A∪B)，得到交并比值，若该交并比值大于或等于阈值，则确定图像采集设备与目标人员的手部存在位置关联。

104、若位置关联检测结果为图像采集设备处于候选状态，则对图像采集设备的摄像头进行透视变换，生成图像采集设备对应的摄像头透视变换平面，其中，候选状态用于指示图像采集设备与手部存在位置关联，且与侧脸和/或耳部未存在位置关联；

拍摄行为检测装置可以对图像采集设备的摄像头进行透视变换(perspectivetransform)，生成对应的摄像头透视变换平面，也可以对图像采集设备的摄像头进行仿射变换(affine transform)，生成对应的摄像头仿射变换平面，摄像头透视变换平面和摄像头仿射变换平面都可以用于计算与单帧视频图像的平面之间的夹角大小。其中，透视变换是将图像从一个视平面投影到另外一个视平面的过程，所以透视变换也被称为投影映射(Projection Mapping)。透视变换是空间立体三维变换，根据其次坐标方差，要把三维坐标投影到另外一个视平面。例如，将三维的正方体进行透视变换，得到二维的正方体视平面。

105、若摄像头透视变换平面和单帧视频图像的平面之间的夹角小于或等于预置夹角，则确定图像采集设备处于拍摄状态，并生成预警信息，将预警信息发送至预警终端，其中，拍摄状态用于指示目标人员存在拍摄行为。

若图像采集设备处于拍摄状态，则确定目标人员存在拍摄行为，拍摄行为检测装置生成预警信息，预警信息包括多种预警信息，例如，“请注意！有人员在偷拍。”的语音预警信息、“警示灯闪烁”的灯光预警信息、语音和灯光结合的声光预警信息等等预警信息。

本发明实施例中，当目标人员处于预置的检测区域时，通过预置的监控设备获取目标人员的单帧视频图像，其中，监控设备用于检测检测区域，检测区域为监控设备所拍摄的区域；通过目标检测网络对单帧视频图像进行标志物识别，得到标志物识别结果，其中，标志物用于指示图像采集设备；若标志物识别结果为单帧视频图像中存在图像采集设备，则根据交并比函数对图像采集设备、目标人员的手部、侧脸和耳部进行位置关联检测，得到位置关联检测结果；若位置关联检测结果为图像采集设备处于候选状态，则对图像采集设备的摄像头进行透视变换，生成图像采集设备对应的摄像头透视变换平面，其中，候选状态用于指示图像采集设备与手部存在位置关联，且与侧脸和/或耳部未存在位置关联；若摄像头透视变换平面和单帧视频图像的平面之间的夹角小于或等于预置夹角，则确定图像采集设备处于拍摄状态，并生成预警信息，将预警信息发送至预警终端，其中，拍摄状态用于指示目标人员存在拍摄行为，提高了人体行为识别的准确度。

请参阅图2，本发明实施例中拍摄行为检测方法的另一个实施例包括：

201、当目标人员处于预置的检测区域时，通过预置的监控设备获取目标人员的单帧视频图像，其中，监控设备用于检测检测区域，检测区域为监控设备所拍摄的区域；

监控设备包括多种监控设备，例如，监控摄像机、普通摄像机和智能摄像机等等监控设备。本实施例选取监控设备所拍摄的视频流中的单帧视频图像，并通过拍摄行为检测装置进行检测，可以减少视频流分析所带来的资源消耗。

202、通过目标检测网络的主干特征提取网络对单帧视频图像进行特征提取，生成三个有效特征层，其中，三个有效特征层包括第一有效特征层、第二有效特征层和第三有效特征层；

具体的，(1)拍摄行为检测装置通过目标检测网络的主干特征提取网络对单帧视频图像进行聚焦处理，生成十二通道的单帧视频图像；(2)将十二通道的单帧视频图像通过三个不同的卷积核进行特征提取，生成对应的三个有效特征层，其中，三个有效特征层包括第一有效特征层、第二有效特征层和第三有效特征层。

例如，单帧视频图像为(640，640，3)，其中，单帧视频图像的图像尺寸为640*640，通道数为3。拍摄行为检测装置通过目标检测网络Yolo X的主干特征提取网络CSPDarknet对单帧视频图像进行聚焦处理，即在单帧视频图像中每隔一个像素赋予一个值，包括1、2、3、4，生成四个独立特征层并进行堆叠，将三通道转换为十二通道，生成十二通道的单帧视频图像(320，320，12)；将十二通道的单帧视频图像(320，320，12)通过三个不同的卷积核进行特征提取，生成对应的三个有效特征层，三个有效特征层包括第一有效特征层feat1＝(80，80，256)，第二有效特征层feat2＝(40，40，512)，第三有效特征层feat3＝(20，20，1024)。

203、通过目标检测网络的加强特征提取网络对三个有效特征层进行特征增强，生成对应的三个强化特征层；

(1)拍摄行为检测装置通过目标检测网络的加强特征提取网络对三个有效特征层中的第三有效特征层进行卷积和上采样，并与第二有效特征层进行结合和特征提取，得到上采样特征图；(2)将上采样特征图进行卷积和上采样，并与第一有效特征层进行结合和特征提取，得到第一强化特征层；(3)将第一强化特征层进行卷积、下采样和特征提取，得到第二强化特征层；(4)将第二强化特征层进行卷积、下采样和特征提取，得到第三强化特征层。

例如，拍摄行为检测装置通过目标检测网络Yolo X的加强特征提取网络FPN对三个有效特征层中的第三有效特征层feat3＝(20，20，1024)进行1次1*1卷积调整通道后获得P5，P5进行上采样UmSampling2d后与第二有效特征层feat2＝(40，40，512)进行结合，然后使用CSPLayer进行特征提取，得到P5_upsample＝(40，40，512)的特征层；将P5_upsample＝(40，40，512)的特征层进行1次1*1卷积调整通道后获得P4，P4进行上采样UmSampling2d后与第一有效特征层feat1＝(80，80，256)进行结合，然后使用CSPLayer进行特征提取，得到第一强化特征层P3_out＝(80，80，256)；将第一强化特征层P3_out＝(80，80，256)进行1次3*3卷积下采样，下采样后与P4堆叠，然后使用CSPLayer进行特征提取，得到第二强化特征层P4_out＝(40，40，512)；将第二强化特征层P4_out＝(40，40，512)进行1次3*3卷积下采样，下采样后与P5堆叠，然后使用CSPLayer进行特征提取，得到第三强化特征层P5_out＝(20，20，1024)。

204、通过目标检测网络的预测网络对三个强化特征层进行标志物预测，得到标志物预测概率；

(1)拍摄行为检测装置通过目标检测网络的预测网络对三个强化特征层中的每个强化特征层进行标志物预测，得到每个强化特征层对应的三个标志物预测结果；(2)在每个强化特征层中将对应的三个标志物预测结果进行堆叠，生成每个强化特征层的标志物候选结果；(3)根据每个强化特征层的标志物候选结果，生成标志物预测概率。

例如，拍摄行为检测装置通过目标检测网络Yolo X的预测网络Yolo Head对三个强化特征层中的第三强化特征层(20，20，1024)进行标志物预测，得到对应的三个标志物预测结果，三个标志物预测结果包括Reg(20，20，4)、Obj(20，20，1)和Cls(20，20，num_classes)，其中，Reg(20，20，4)中的4可以分为两个2，第一个2是预测框的中心点相较于该特征点的偏移情况，第二个2是预测框的宽高相较于对数指数的参数，Obj(20，20，1)用于指示每一个特征点预测框内部包含物体的概率，Cls(20，20，num_classes)用于指示每一个特征点对应某类物体的概率，最后一维度num_classes中的预测值代表属于每一个类的概率，将三个标志物预测结果进行堆叠，生成第三强化特征层的标志物候选结果，对第一强化特征层和第二强化特征层进行标志物预测的步骤与以上步骤相同，即生成第一强化特征层的标志物候选结果和第二强化特征层的标志物候选结果；根据每个强化特征层的标志物候选结果，生成标志物预测概率。

205、若标志物预测概率大于或等于预置的图像采集设备预测概率，则确定标志物识别结果为单帧视频图像中存在图像采集设备；

例如，预置的图像采集设备预测概率为0.7，若标志物预测概率为0.8，则标志物预测概率大于预置的图像采集设备预测概率，即确定标志物识别结果为单帧视频图像中存在图像采集设备；或者若标志物预测概率为0.7，则标志物预测概率等于预置的图像采集设备预测概率，则确定标志物识别结果为单帧视频图像中存在图像采集设备。

206、若标志物预测概率小于预置的图像采集设备预测概率，则确定标志物识别结果为单帧视频图像中未存在图像采集设备；

例如，预置的图像采集设备预测概率为0.7，若标志物预测概率为0.5，则标志物预测概率小于预置的图像采集设备预测概率，则确定标志物识别结果为单帧视频图像中未存在图像采集设备；或者若标志物预测概率为0.3，则标志物预测概率小于预置的图像采集设备预测概率，则确定标志物识别结果为单帧视频图像中未存在图像采集设备。

207、若标志物识别结果为单帧视频图像中存在图像采集设备，则根据交并比函数对图像采集设备、目标人员的手部、侧脸和耳部进行位置关联检测，得到位置关联检测结果；

具体的，(1)若标志物识别结果为存在图像采集设备，则拍摄行为检测装置通过目标检测网络对图像采集设备、目标人员的手部、侧脸和耳部进行位置框检测，生成对应的图像采集设备位置框、手部位置框、侧脸位置框和耳部位置框；

(2)根据交并比函数、图像采集设备位置框和手部位置框，得到第一交并比值，其中，第一交并比值用于指示图像采集设备和目标人员的手部的位置关联程度；

(3)根据交并比函数、图像采集设备位置框、手部位置框和侧脸位置框，得到第二交并比值，其中，第二交并比值用于指示图像采集设备与目标人员的手部和侧脸的位置关联程度；

(4)根据交并比函数、图像采集设备位置框、手部位置框、侧脸位置框和耳部位置框，得到第三交并比值，其中，第三交并比值用于指示图像采集设备与目标人员的手部、侧脸和耳部的位置关联程度；

(5)若第一交并比值大于或等于阈值，且第二交并比值小于阈值和/或第三交并比值小于阈值，则确定图像采集设备与手部存在位置关联，且与侧脸和/或耳部未存在位置关联，并确定位置关联检测结果为图像采集设备处于候选状态；

(6)若第一交并比值大于或等于阈值，且第二交并比值大于或等于阈值和/或第三交并比值大于或等于阈值，则确定图像采集设备与手部、侧脸和/或耳部存在位置关联，并确定位置关联检测结果为图像采集设备处于听语音状态；

(7)若第一交并比值小于阈值，则确定图像采集设备与手部未存在位置关联，并确定位置关联检测结果为图像采集设备处于单独状态。

例如，若标志物识别结果为存在图像采集设备，则拍摄行为检测装置通过目标检测网络Yolo X对图像采集设备、目标人员的手部、侧脸和耳部进行位置框检测，生成对应的图像采集设备位置框A(c_A，x_A，y_A，w_A，h_A)、手部位置框B(c_B，x_B，y_B，w_B，h_B)、侧脸位置框C(c_C，x_C，y_C，w_C，h_C)和耳部位置框D(c_D，x_D，y_D，w_D，h_D)，其中，“c”用于指示标志物类型，“x”为位置框的中心点横坐标，“y”为位置框的中心点纵坐标，“w”为位置框的宽度，“h”为位置框的高度。

根据交并比函数IoU、图像采集设备位置框A(c_A，x_A，y_A，w_A，h_A)和手部位置框B(c_B，x_B，y_B，w_B，h_B)，得到第一交并比值，其中，第一交并比值用于指示图像采集设备和目标人员的手部的位置关联程度；

根据交并比函数IoU、图像采集设备位置框A(c_A，x_A，y_A，w_A，h_A)、手部位置框B(c_B，x_B，y_B，w_B，h_B)和侧脸位置框C(c_C，x_C，y_C，w_C，h_C)，得到第二交并比值，其中，第二交并比值用于指示图像采集设备与目标人员的手部和侧脸的位置关联程度；

根据交并比函数IoU、图像采集设备位置框A(c_A，x_A，y_A，w_A，h_A)、手部位置框B(c_B，x_B，y_B，w_B，h_B)、侧脸位置框C(c_C，x_C，y_C，w_C，h_C)和耳部位置框D(c_D，x_D，y_D，w_D，h_D)，得到第三交并比值，其中，第三交并比值用于指示图像采集设备与目标人员的手部、侧脸和耳部的位置关联程度；

若第一交并比值为0.8，第二交并比值为0.6，第三交并比值为0.5，阈值为0.7，则第一交并比值0.8大于阈值0.7，且第二交并比值0.6小于阈值0.7和/或第三交并比值0.5小于阈值0.7，即确定图像采集设备与手部存在位置关联，且与侧脸和/或耳部未存在位置关联，并确定位置关联检测结果为图像采集设备处于候选状态；

若第一交并比值为0.8，第二交并比值为0.7，第三交并比值为0.8，阈值为0.7，则第一交并比值0.8大于阈值0.7，且第二交并比值为0.7等于阈值0.7和/或第三交并比值0.8大于阈值0.7，即确定图像采集设备与手部、侧脸和/或耳部存在位置关联，并确定位置关联检测结果为图像采集设备处于听语音状态；

若第一交并比值为0.5，阈值为0.7，则第一交并比值0.5小于阈值0.7，即确定图像采集设备与手部未存在位置关联，并确定位置关联检测结果为图像采集设备处于单独状态。

208、若位置关联检测结果为图像采集设备处于候选状态，则对图像采集设备的摄像头进行透视变换，生成图像采集设备对应的摄像头透视变换平面，其中，候选状态用于指示图像采集设备与手部存在位置关联，且与侧脸和/或耳部未存在位置关联；

具体的，(1)若位置关联检测结果为图像采集设备处于候选状态，则拍摄行为检测装置对单帧视频图像进行摄像头检测，若单帧视频图像中存在图像采集设备对应的摄像头，则对单帧视频图像进行分割，得到图像采集设备的摄像头图像；(2)对摄像头图像进行边缘检测，生成对应的摄像头边缘图像；(3)对摄像头边缘图像进行透视变换，得到摄像头透视变换平面。

例如，若位置关联检测结果为图像采集设备处于候选状态，则拍摄行为检测装置对单帧视频图像进行摄像头检测，若单帧视频图像中存在图像采集设备对应的摄像头，则对单帧视频图像进行分割，得到图像采集设备的摄像头图像；对摄像头图像进行边缘检测，生成对应的摄像头边缘图像；根据透视变换公式和摄像头边缘图像，得到摄像头透视变换平面，其中，摄像头透视变换平面的横坐标纵坐标用于指示线性变换，[a₃₁ a₃₂]用于指示平移，[a₁₃ a₂₃]^T用于产生透视。

209、若摄像头透视变换平面和单帧视频图像的平面之间的夹角小于或等于预置夹角，则确定图像采集设备处于拍摄状态，并生成预警信息，将预警信息发送至预警终端，其中，拍摄状态用于指示目标人员存在拍摄行为。

拍摄行为检测装置通过预警终端进行预警的方式包括多种预警方式，例如，通过预警终端播放“请注意！有人员在偷拍。”的语音进行预警、通过控制预警终端的警示灯闪烁进行预警、通过预警终端播放“请注意！有人员在偷拍。”的语音且控制预警终端的警示灯闪烁进行预警等等预警方式。

上面对本发明实施例中拍摄行为检测方法进行了描述，下面对本发明实施例中拍摄行为检测装置进行描述，请参阅图3，本发明实施例中拍摄行为检测装置一个实施例包括：

获取模块301，用于当目标人员处于预置的检测区域时，通过预置的监控设备获取目标人员的单帧视频图像，其中，监控设备用于检测检测区域，检测区域为监控设备所拍摄的区域；

识别模块302，用于通过目标检测网络对单帧视频图像进行标志物识别，得到标志物识别结果，其中，标志物用于指示图像采集设备；

检测模块303，用于若标志物识别结果为单帧视频图像中存在图像采集设备，则根据交并比函数对图像采集设备、目标人员的手部、侧脸和耳部进行位置关联检测，得到位置关联检测结果；

变换模块304，用于若位置关联检测结果为图像采集设备处于候选状态，则对图像采集设备的摄像头进行透视变换，生成图像采集设备对应的摄像头透视变换平面，其中，候选状态用于指示图像采集设备与手部存在位置关联，且与侧脸和/或耳部未存在位置关联；

确定模块305，用于若摄像头透视变换平面和单帧视频图像的平面之间的夹角小于或等于预置夹角，则确定图像采集设备处于拍摄状态，并生成预警信息，将预警信息发送至预警终端，其中，拍摄状态用于指示目标人员存在拍摄行为。

请参阅图4，本发明实施例中拍摄行为检测装置的另一个实施例包括：

可选的，识别模块302包括：

特征提取单元3021，用于通过目标检测网络的主干特征提取网络对单帧视频图像进行特征提取，生成三个有效特征层，其中，三个有效特征层包括第一有效特征层、第二有效特征层和第三有效特征层；

特征增强单元3022，用于通过目标检测网络的加强特征提取网络对三个有效特征层进行特征增强，生成对应的三个强化特征层；

标志物预测单元3023，用于通过目标检测网络的预测网络对三个强化特征层进行标志物预测，得到标志物预测概率；

第一确定单元3024，用于若标志物预测概率大于或等于预置的图像采集设备预测概率，则确定标志物识别结果为单帧视频图像中存在图像采集设备；

第二确定单元3025，用于若标志物预测概率小于预置的图像采集设备预测概率，则确定标志物识别结果为单帧视频图像中未存在图像采集设备。

可选的，特征提取单元3021还可以具体用于：

通过目标检测网络的主干特征提取网络对单帧视频图像进行聚焦处理，生成十二通道的单帧视频图像；

将十二通道的单帧视频图像通过三个不同的卷积核进行特征提取，生成对应的三个有效特征层，其中，三个有效特征层包括第一有效特征层、第二有效特征层和第三有效特征层。

可选的，特征增强单元3022还可以具体用于：

通过目标检测网络的加强特征提取网络对三个有效特征层中的第三有效特征层进行卷积和上采样，并与第二有效特征层进行结合和特征提取，得到上采样特征图；

将上采样特征图进行卷积和上采样，并与第一有效特征层进行结合和特征提取，得到第一强化特征层；

将第一强化特征层进行卷积、下采样和特征提取，得到第二强化特征层；

将第二强化特征层进行卷积、下采样和特征提取，得到第三强化特征层。

可选的，标志物预测单元3023还可以具体用于：

通过目标检测网络的预测网络对三个强化特征层中的每个强化特征层进行标志物预测，得到每个强化特征层对应的三个标志物预测结果；

在每个强化特征层中将对应的三个标志物预测结果进行堆叠，生成每个强化特征层的标志物候选结果；

根据每个强化特征层的标志物候选结果，生成标志物预测概率。

可选的，检测模块303还可以具体用于：

若标志物识别结果为存在图像采集设备，则通过目标检测网络对图像采集设备、目标人员的手部、侧脸和耳部进行位置框检测，生成对应的图像采集设备位置框、手部位置框、侧脸位置框和耳部位置框；

根据交并比函数、图像采集设备位置框和手部位置框，得到第一交并比值，其中，第一交并比值用于指示图像采集设备和目标人员的手部的位置关联程度；

根据交并比函数、图像采集设备位置框、手部位置框和侧脸位置框，得到第二交并比值，其中，第二交并比值用于指示图像采集设备与目标人员的手部和侧脸的位置关联程度；

根据交并比函数、图像采集设备位置框、手部位置框、侧脸位置框和耳部位置框，得到第三交并比值，其中，第三交并比值用于指示图像采集设备与目标人员的手部、侧脸和耳部的位置关联程度；

若第一交并比值大于或等于阈值，且第二交并比值小于阈值和/或第三交并比值小于阈值，则确定图像采集设备与手部存在位置关联，且与侧脸和/或耳部未存在位置关联，并确定位置关联检测结果为图像采集设备处于候选状态；

若第一交并比值大于或等于阈值，且第二交并比值大于或等于阈值和/或第三交并比值大于或等于阈值，则确定图像采集设备与手部、侧脸和/或耳部存在位置关联，并确定位置关联检测结果为图像采集设备处于听语音状态；

若第一交并比值小于阈值，则确定图像采集设备与手部未存在位置关联，并确定位置关联检测结果为图像采集设备处于单独状态。

可选的，变换模块304还可以具体用于：

若位置关联检测结果为图像采集设备处于候选状态，则对单帧视频图像进行摄像头检测，若单帧视频图像中存在图像采集设备对应的摄像头，则对单帧视频图像进行分割，得到图像采集设备的摄像头图像；

对摄像头图像进行边缘检测，生成对应的摄像头边缘图像；

对摄像头边缘图像进行透视变换，得到摄像头透视变换平面。

上面图3和图4从模块化功能实体的角度对本发明实施例中的拍摄行为检测装置进行详细描述，下面从硬件处理的角度对本发明实施例中拍摄行为检测设备进行详细描述。

图5是本发明实施例提供的一种拍摄行为检测设备的结构示意图，该拍摄行为检测设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对拍摄行为检测设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在拍摄行为检测设备500上执行存储介质530中的一系列指令操作。

拍摄行为检测设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的拍摄行为检测设备结构并不构成对拍摄行为检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种拍摄行为检测设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述拍摄行为检测方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述拍摄行为检测方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种拍摄行为检测方法，其特征在于，所述拍摄行为检测方法包括：

当目标人员处于预置的检测区域时，通过预置的监控设备获取所述目标人员的单帧视频图像，其中，所述监控设备用于检测所述检测区域，所述检测区域为所述监控设备所拍摄的区域；

通过目标检测网络对所述单帧视频图像进行标志物识别，得到标志物识别结果，其中，所述标志物用于指示图像采集设备；

若所述标志物识别结果为所述单帧视频图像中存在图像采集设备，则根据交并比函数对所述图像采集设备、所述目标人员的手部、侧脸和耳部进行位置关联检测，得到位置关联检测结果；

若所述位置关联检测结果为所述图像采集设备处于候选状态，则对所述图像采集设备的摄像头进行透视变换，生成所述图像采集设备对应的摄像头透视变换平面，其中，所述候选状态用于指示所述图像采集设备与所述手部存在位置关联，且与所述侧脸和/或所述耳部未存在位置关联；

若所述摄像头透视变换平面和所述单帧视频图像的平面之间的夹角小于或等于预置夹角，则确定所述图像采集设备处于拍摄状态，并生成预警信息，将所述预警信息发送至预警终端，其中，所述拍摄状态用于指示所述目标人员存在拍摄行为。

2.根据权利要求1所述的拍摄行为检测方法，其特征在于，所述通过目标检测网络对所述单帧视频图像进行标志物识别，得到标志物识别结果，包括：

通过目标检测网络的主干特征提取网络对所述单帧视频图像进行特征提取，生成三个有效特征层，其中，所述三个有效特征层包括第一有效特征层、第二有效特征层和第三有效特征层；

通过所述目标检测网络的加强特征提取网络对所述三个有效特征层进行特征增强，生成对应的三个强化特征层；

通过所述目标检测网络的预测网络对所述三个强化特征层进行标志物预测，得到标志物预测概率；

若所述标志物预测概率大于或等于预置的图像采集设备预测概率，则确定标志物识别结果为所述单帧视频图像中存在图像采集设备；

若所述标志物预测概率小于预置的图像采集设备预测概率，则确定标志物识别结果为所述单帧视频图像中未存在图像采集设备。

3.根据权利要求2所述的拍摄行为检测方法，其特征在于，所述通过目标检测网络的主干特征提取网络对所述单帧视频图像进行特征提取，生成三个有效特征层，包括：

通过目标检测网络的主干特征提取网络对所述单帧视频图像进行聚焦处理，生成十二通道的单帧视频图像；

将所述十二通道的单帧视频图像通过三个不同的卷积核进行特征提取，生成对应的三个有效特征层，其中，所述三个有效特征层包括第一有效特征层、第二有效特征层和第三有效特征层。

4.根据权利要求2所述的拍摄行为检测方法，其特征在于，所述通过所述目标检测网络的加强特征提取网络对所述三个有效特征层进行特征增强，生成对应的三个强化特征层，包括：

通过所述目标检测网络的加强特征提取网络对所述三个有效特征层中的第三有效特征层进行卷积和上采样，并与所述第二有效特征层进行结合和特征提取，得到上采样特征图；

将所述上采样特征图进行卷积和上采样，并与所述第一有效特征层进行结合和特征提取，得到第一强化特征层；

将所述第一强化特征层进行卷积、下采样和特征提取，得到第二强化特征层；

将所述第二强化特征层进行卷积、下采样和特征提取，得到第三强化特征层。

5.根据权利要求2所述的拍摄行为检测方法，其特征在于，所述通过所述目标检测网络的预测网络对所述三个强化特征层进行标志物预测，得到标志物预测概率，包括：

通过所述目标检测网络的预测网络对所述三个强化特征层中的每个强化特征层进行标志物预测，得到所述每个强化特征层对应的三个标志物预测结果；

在所述每个强化特征层中将对应的三个标志物预测结果进行堆叠，生成所述每个强化特征层的标志物候选结果；

根据所述每个强化特征层的标志物候选结果，生成标志物预测概率。

6.根据权利要求1所述的拍摄行为检测方法，其特征在于，所述若所述标志物识别结果为所述单帧视频图像中存在图像采集设备，则根据交并比函数对所述图像采集设备、所述目标人员的手部、侧脸和耳部进行位置关联检测，得到位置关联检测结果，包括：

若所述标志物识别结果为存在图像采集设备，则通过目标检测网络对所述图像采集设备、所述目标人员的手部、侧脸和耳部进行位置框检测，生成对应的图像采集设备位置框、手部位置框、侧脸位置框和耳部位置框；

根据交并比函数、所述图像采集设备位置框和所述手部位置框，得到第一交并比值，其中，所述第一交并比值用于指示所述图像采集设备和所述目标人员的手部的位置关联程度；

根据所述交并比函数、所述图像采集设备位置框、所述手部位置框和所述侧脸位置框，得到第二交并比值，其中，所述第二交并比值用于指示所述图像采集设备与所述目标人员的手部和侧脸的位置关联程度；

根据所述交并比函数、所述图像采集设备位置框、所述手部位置框、所述侧脸位置框和所述耳部位置框，得到第三交并比值，其中，所述第三交并比值用于指示所述图像采集设备与所述目标人员的手部、侧脸和耳部的位置关联程度；

若所述第一交并比值大于或等于阈值，且所述第二交并比值小于阈值和/或所述第三交并比值小于阈值，则确定所述图像采集设备与所述手部存在位置关联，且与所述侧脸和/或所述耳部未存在位置关联，并确定位置关联检测结果为所述图像采集设备处于候选状态；

若所述第一交并比值大于或等于阈值，且所述第二交并比值大于或等于阈值和/或所述第三交并比值大于或等于阈值，则确定所述图像采集设备与所述手部、所述侧脸和/或所述耳部存在位置关联，并确定位置关联检测结果为所述图像采集设备处于听语音状态；

若所述第一交并比值小于阈值，则确定所述图像采集设备与所述手部未存在位置关联，并确定位置关联检测结果为所述图像采集设备处于单独状态。

7.根据权利要求1-6中任一项所述的拍摄行为检测方法，其特征在于，所述若所述位置关联检测结果为所述图像采集设备处于候选状态，则对所述图像采集设备的摄像头进行透视变换，生成所述图像采集设备对应的摄像头透视变换平面，包括：

若所述位置关联检测结果为所述图像采集设备处于候选状态，则对所述单帧视频图像进行摄像头检测，若所述单帧视频图像中存在所述图像采集设备对应的摄像头，则对所述单帧视频图像进行分割，得到所述图像采集设备的摄像头图像；

对所述摄像头图像进行边缘检测，生成对应的摄像头边缘图像；

对所述摄像头边缘图像进行透视变换，得到摄像头透视变换平面。

8.一种拍摄行为检测装置，其特征在于，所述拍摄行为检测装置包括：

获取模块，用于当目标人员处于预置的检测区域时，通过预置的监控设备获取所述目标人员的单帧视频图像，其中，所述监控设备用于检测所述检测区域，所述检测区域为所述监控设备所拍摄的区域；

识别模块，用于通过目标检测网络对所述单帧视频图像进行标志物识别，得到标志物识别结果，其中，所述标志物用于指示图像采集设备；

检测模块，用于若所述标志物识别结果为所述单帧视频图像中存在图像采集设备，则根据交并比函数对所述图像采集设备、所述目标人员的手部、侧脸和耳部进行位置关联检测，得到位置关联检测结果；

变换模块，用于若所述位置关联检测结果为所述图像采集设备处于候选状态，则对所述图像采集设备的摄像头进行透视变换，生成所述图像采集设备对应的摄像头透视变换平面，其中，所述候选状态用于指示所述图像采集设备与所述手部存在位置关联，且与所述侧脸和/或所述耳部未存在位置关联；

确定模块，用于若所述摄像头透视变换平面和所述单帧视频图像的平面之间的夹角小于或等于预置夹角，则确定所述图像采集设备处于拍摄状态，并生成预警信息，将所述预警信息发送至预警终端，其中，所述拍摄状态用于指示所述目标人员存在拍摄行为。

9.一种拍摄行为检测设备，其特征在于，所述拍摄行为检测设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述拍摄行为检测设备执行如权利要求1-7中任一项所述的拍摄行为检测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述拍摄行为检测方法。