CN115457447B

CN115457447B - 运动物体识别的方法、装置、系统及电子设备、存储介质

Info

Publication number: CN115457447B
Application number: CN202211387815.0A
Authority: CN
Inventors: 陆韶琦; 冯雪涛
Original assignee: Zhejiang Lianhe Technology Co ltd
Current assignee: Zhejiang Shenxiang Intelligent Technology Co ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-03-28
Anticipated expiration: 2042-11-07
Also published as: CN115457447A

Abstract

本申请公开一种运动物体识别方法、装置、系统及电子设备、存储介质，包括：使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度；使用与目标视频帧在时间上相隔预定时间长度获得的辅助视频帧，与目标视频帧进行比较，获得具有运动前景的第二检出区域；将第一检出区域与第二检出区域以其所在图像为依据进行图像融合；逐个计算融合视频帧中，第二检出区域在第一检出区域中的占比；根据占比r，确定第一检出区域的目标置信度阈值t；判断第一检出区域的置信度大于t，则判断第一检出区域包含待识别物。解决现有技术无法在监测区域敏感并准确发现待识别物的问题。

Description

运动物体识别的方法、装置、系统及电子设备、存储介质

技术领域

本申请涉及计算机图像识别技术领域，具体涉及一种运动物体识别的方法、装置、系统及电子设备、计算机可读取存储介质。

背景技术

随着人们生活水平的逐步提升，卫生安全变得越来越重要。而对于餐饮行业来说，保证食品卫生和安全问题是企业的命脉和立足之本。因此，一般餐饮行业后厨或门店都安装有视频监测设备用于管控工作人员着装和操作规范，发现老鼠等虫害异常闯入以及留存现场记录等。针对日常产生的大量视频数据，人工查看发现异常不仅费时费力，而且也难以及时快速的发现问题。特别是针对大部分发生在夜间的鼠类、大型昆虫等闯入的罕见异常事件，人工排查难度大，且容易遗漏。

为了节省人工并提高检测效率，在现有技术中使用机器检测并识别的方法，不单纯依赖于人工排查，可以利用机器训练好的识别模型来识别视频图像中的鼠类、大型昆虫等异常事件，但是它们都只依赖于单帧图像进行监测，在实际应用中，鼠类、大型昆虫等较为隐秘且多出现在夜间，仅对单帧图像进行检测敏感度不高，容易造成漏检。另外，现有技术中还可以通过外观特征并进一步结合运动特征的方法，通过比对连续图像中的变化发现移动物体，进而识别出异常物体。但实际使用场景中，针对图像中外观变化的情况，包括晃动的树叶、灯光的闪烁等干扰都容易被误识别为鼠类、大型昆虫等。

因此，如何在各种环境下敏感并准确地发现闯入的鼠类、大型昆虫等异常物体成为亟待解决的问题。

发明内容

本申请实施例提供一种运动物体识别的方法、装置、电子设备、计算机可读存储介质，以解决现有技术中存在的无法在各种环境下准确发现并识别异常物体的问题。

本申请实施例提供一种运动物体识别的方法，该方法包括：

使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度；

使用与所述目标视频帧在时间上相隔预定时间长度获得的辅助视频帧，与所述目标视频帧进行比较，根据两者图像差异，获得具有运动前景的第二检出区域；

将第一检出区域与第二检出区域以其所在图像为依据进行图像融合，获得标识了第一检出区域和第二检出区域的融合视频帧；

逐个计算所述融合视频帧中，所述第二检出区域在第一检出区域中的占比；

根据所述占比r，以预定的置信度阈值确定方法，确定第一检出区域的目标置信度阈值t；

判断第一检出区域的置信度是否大于所述目标置信度阈值t，若是，则判断所述第一检出区域包含待识别物。

可选的，所述方法还包括：

在所述判断第一检出区域中置信度是否大于所述目标置信度阈值t的判断中，若判断结果为否，则将所述第一检出区域提供给用于区分高难度样本的第一分类模型；

所述第一分类模型对所述第一检出区域进行识别判断，确定所述第一检出区域是否包含待识别物。

可选的，所述方法还包括：

在所述第二检出区域中，找出未与所述第一检出区域关联的非关联区域；

将所述非关联区域分别提供给预先训练的识别高难度样本的第二分类模型；

所述第二分类模型对所述非关联区域进行识别判断，确定所述非关联区域是否包含待识别物。

可选的，所述根据所述占比r，以预定的置信度阈值确定方法，确定第一检出区域的目标置信度阈值t，包括：

在所述占比r的预定区间内，根据所述占比r和所述目标置信度阈值t之间的单调递减函数t=f（r），确定所述目标置信度阈值t。

可选的，使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度，包括：

所述检测模型为数据驱动的深度学习模型，所述检测模型使用监测场景下收集、模拟、合成的数据训练得到。

可选的，所述第一分类模型、所述第二分类模型可以是同一个分类模型，或者是两个分别训练的分类模型，所述分类模型为数据驱动的深度学习模型，所述分类模型使用监测场景下收集、模拟、合成的数据训练得到；

所述分类模型训练使用的样本数据包括标注好的正样本和负样本；其中，所述正样本为包含所述待识别物的帧图片，所述负样本为不包含所述待识别物的帧图片，以及包含其他运动物体的帧图片。

可选的，使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度之前，所述方法还包括：

利用图像采集设备采集视频图像，对所采集的视频图像根据预定的切分时长进行切分；

对采集的视频图像进行抽帧检测，选取目标视频帧。

可选的，使用与所述目标视频帧在时间上相隔预定时间长度获得的辅助视频帧，与所述目标视频帧进行比较，根据两者图像差异，获得具有运动前景的第二检出区域，包括：

所述与所述目标视频帧在时间上相隔预定时间长度获得的辅助视频帧为目标视频帧的上一帧视频。

可选的，所述方法布置于智能边缘服务器或具有计算能力的采集设备，并针对实时采集的现场监测视频执行。

可选的，所述待识别物为人、鼠类、蛇类、牲畜、昆虫中的一种或多种。

本申请实施例还提供一种对现场运动物体进行监测的系统，包括：视频采集设备、边缘计算设备、服务器；

所述视频采集设备布置于监测现场，用于实时采集现场视频；

所述边缘计算设备，布置于所述监测现场或者监测现场附近，也可以与所述视频采集设备一体设置，其中布置有所述运动物体识别方法的程序；所述边缘计算设备获得所述视频采集设备所采集的现场视频，从中选取目标视频帧，并执行如下步骤：使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度；使用与所述目标视频帧在时间上视频帧相隔预定时间长度获得的辅助视频帧，与所述目标视频帧进行比较，根据两者图像差异，获得具有运动前景的第二检出区域；将第一检出区域与第二检出区域以其所在图像为依据进行图像融合，获得标识了第一检出区域和第二检出区域的融合视频帧；逐个计算所述融合视频帧中，所述第二检出区域在第一检出区域中的占比；根据所述占比r，以预定的置信度阈值确定方法，确定第一检出区域的目标置信度阈值t；判断第一检出区域的置信度是否大于所述目标置信度阈值t，若是，则判断所述第一检出区域包含待识别物；若检出了包含待识别物的第一检出区域，则将标识了第一检出区域的视频帧截取发出；

所述服务器，接收所述标识了第一检出区域的视频帧，并进行确认和/或报警。

本申请实施例还提供一种运动物体识别的装置，包括：

第一识别单元，用于使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度；

第二识别单元，用于使用与所述目标视频帧在时间上相隔预定时间长度获得的辅助视频帧，与所述目标视频帧进行比较，根据两者图像差异，获得具有运动前景的第二检出区域；

融合单元，用于将第一检出区域与第二检出区域以其所在图像为依据进行图像融合，获得标识了第一检出区域和第二检出区域的融合视频帧；

计算单元，用于逐个计算所述融合视频帧中，所述第二检出区域在第一检出区域中的占比；

确定单元，用于根据所述占比r，与预定的置信度阈值确定方法，确定第一检出区域的目标置信度阈值t；

判断单元，用于判断第一检出区域的置信度是否大于所述目标置信度阈值t，若是，则判断所述第一检出区域包含待识别物。

本申请实施例还提供了一种电子设备，该电子设备包括：

处理器；

存储器；

存储器用于存储运动物体识别的方法的程序，该程序在被处理器读取执行时，执行如下操作：

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时，执行如下操作：

与现有技术相比，本申请实施例具有以下优点：

本申请实施例提供的运动物体识别的方法，使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度；使用与所述目标视频帧在时间上相隔预定时间长度获得的辅助视频帧，与所述目标视频帧进行比较，根据两者图像差异，获得具有运动前景的第二检出区域；将第一检出区域与第二检出区域以其所在图像为依据进行图像融合，获得标识了第一检出区域和第二检出区域的融合视频帧；逐个计算所述融合视频帧中，所述第二检出区域在第一检出区域中的占比；根据所述占比r，以预定的置信度阈值确定方法，确定第一检出区域的目标置信度阈值t；判断第一检出区域的置信度是否大于所述目标置信度阈值t，若是，则判断所述第一检出区域包含待识别物。这样，融合对单帧目标视频帧进行的图像识别以及该目标视频帧和辅助视频帧获得的运动特征，能够在各种环境下敏感并准确地发现待识别物，提高待识别物的检出率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的运动物体识别方法的应用场景示意图。

图2是本申请实施例提供的运动物体识别方法的流程图。

图3是本申请实施例提供的一种第一检出区域以及相应的置信度的示意图。

图4是本申请实施例提供的占比r与目标值信服阈值之间的关系示意图。

图5是本申请实施例提供的一种运动物体识别的装置的单元框图。

图6是本申请实施例提供的对现场物体进行监测的系统的单元框图。

图7是本申请实施例提供的电子设备的逻辑结构示意图。

具体实施方式

本申请实施例提供了一种运动物体识别的方法、系统、装置、电子设备及计算机存储介质，更有利于在各种环境下敏感并准确地发现待识别物，提高待识别物的检出率。

为了使本领域的技术人员能够更好的理解本申请的技术方案，下面结合本申请实施例中的附图，对本申请进行清楚、完整地描述。但本申请能够以很多不同于下述描述的其他方式进行实施，因此，基于本申请提供的实施例，本领域普通技术人员在不经过创造性劳动的情况下，所获得的所有其他实施例，都应属于本申请保护的范围。

需要说明的是，本申请的权利要求书、说明书及附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，并不用于描述特定的顺序或先后次序。这样使用的数据在适当情况下是可以互换的，以便于本文所描述的本申请的实施例，能够以除了在本文图示或描述的内容以外的顺序实施。此外，术语“包括”、“具有”以及他们的变形形式，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请涉及的部分技术术语进行解释说明：

视频帧：也称为视频帧率（Frame rate），是用于测量显示帧数的量度。所述测量单位为每秒显示帧数（Frames per Second，即FPS）或“赫兹”（Hz）。

置信度：也称为可靠度、或者置信水平、置信系数，在本申请中，所述置信度为待识别物落入第一检出区域的可能性的大小，用置信度分数

进行表示，

。

检出区域：所述检出区域为根据算法模型获得的目标区域。在本申请中，所述检出区域为矩形，可以利用

表示矩形的左上点坐标的横纵值和矩形的宽高，即检出区域可以表示为

。

运动前景：是在数帧视频帧图像中，像素值发生大的变化的区域。一般来讲，是视频中运动较为突出的目标区域。

为了便于理解本申请实施例提供的方法，在介绍本申请实施例之前，先对本申请实施例的背景进行介绍。

餐饮行业的食品卫生和安全问题对于企业来说是重中之重，为了保障餐饮行业的规范，一般在后厨或门店都安装有视频监测设备，可以用来发现老鼠等虫害异常闯入以及留存现场记录。但是针对日常产生的大量视频数据，人工排查异常费时费力，而且也并不能及时发现并解决问题。特别是针对大部分发生在夜间的鼠类、大型昆虫等异常物体闯入的异常事件，人工排查难度大，且容易遗漏。

在现有技术中，对视频帧进行抽帧检测，使用提前训练好的检测模型来检测视频帧图像中是否包含异常物体。但该种方式是对单帧图像的检测，在实际使用中，对于鼠类、大型昆虫等频繁出没的夜间，识别率并不高，容易造成异常物体的漏检，并不能很好的保障餐饮行业的食品安全。除此之外，现有技术中还可以利用外观特征结合运动特征的方法，通过比对连续图像中的变化发现移动物体，进而是被出异常物体。但是该种使用运动特征的方式，容易将晃动的树叶、灯光的闪烁，哪怕是夜间的影子，都容易被误识别为鼠类、大型昆虫等，所以识别率也不高，容易造成误检。

针对现有技术中存在的上述问题，本申请提供了一种运动物体识别的方法，使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度；使用与所述目标视频帧在时间上相隔预定时间长度获得的辅助视频帧，与所述目标视频帧进行比较，根据两者图像差异，获得具有运动前景的第二检出区域；将第一检出区域与第二检出区域以其所在图像为依据进行图像融合，获得标识了第一检出区域和第二检出区域的融合视频帧；逐个计算所述融合视频帧中，所述第二检出区域在第一检出区域中的占比；根据所述占比r，以预定的置信度阈值确定方法，确定第一检出区域的目标置信度阈值t；判断第一检出区域的置信度是否大于所述目标置信度阈值t，若是，则判断所述第一检出区域包含待识别物。这样，融合对单帧目标视频帧进行的图像识别以及该目标视频帧和辅助视频帧获得的运动特征，能够在各种环境下敏感并准确地发现待识别物，提高待识别物的检出率。

经过上述内容的背景介绍，本领域技术人员可以了解现有技术存在的问题，接下来对本申请提供的运动物体识别的方法的应用场景进行详细说明。本申请实施例提供的运动物体识别的方法可以应用于计算机图像识别技术领域，或者其他具有计算机图像识别需求的相关技术领域。

以下，首先对本申请实施例提供的运动物体识别的方法的应用场景进行示例说明。

图1为本申请第一实施例提供的运动物体识别方法的应用场景示意图。

如图1所示，本应用场景中，包括图像采集设备101、边缘计算设备102、应用后台103、移动终端104。其中，图像采集设备101、边缘计算设备102、应用后台103和移动终端104之间均通过网络通信连接。

需要说明的是，图1是本申请实施例提供的一种运动物体识别方法的应用场景示意图，本申请实施例不对图1中包括的设备进行限定，不对图像采集设备101、边缘计算设备102、应用后台103、移动终端104的数量进行限定。例如，满足图1所示的应用场景中，图像采集设备101可以是安装在餐饮店内的本身就存在的图像采集设备。边缘计算设备102可以是智能边缘服务器，也可以是本身具有计算能力的图像采集设备101。即图像采集设备101可以是集成图像采集功能和图像计算功能的一体式图像采集计算设备。应用后台103可以包括任务中心和用户控制台，将边缘计算设备102中异常事件进行截图上报，将每次上报的图片形成待整改的记录保存至应用后台103中的任务中心，将具有风险的图片附以醒目矩形区域标记推送至相关责任人的移动终端进行处理，用户确认后在应用后台103的用户控制台注明是否是真实的风险事件，用于进行整改或其他后续动作。在本申请一些实施例中，应用后台103也可以省略，可以以声光提示等操作来提示相关人员进行处理。移动终端104可以为智能手机、智能手环、平板电脑、可穿戴设备、多媒体播放器、电子阅读器等多种具备通信功能的设备。

在本申请的实施例中，图1中的图像采集设备101、边缘计算设备102、应用后台103、移动终端104的设备数量可以有所变化。上述应用场景具体的实现过程可以参见以下各实施例的方案描述。

下面结合具体实施例及附图对本申请所述的方法、装置、电子设备以及计算机可读存储介质做进一步详细说明。应理解的是，此处所描述的具体实施例仅仅用于解释本申请，并不用于限定本申请。

下面结合图2，介绍本申请一实施例提供的一种运动物体识别的方法进行详细说明。图2为本申请实施例提供的运动物体识别的方法的流程示意图。需要说明的是，该流程示意图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，同时，在某些情况下，可以以不同于该流程示意图中示出的逻辑顺序执行所示出的步骤。

本申请提出的运动物体识别的方法布置于智能边缘服务器或具有计算能力的采集设备，并针对实时采集的现场监测视频执行。

如图2所示，本申请一实施例提供的运动物体识别的方法包括以下步骤：

步骤S201，使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度；

本步骤用于使用待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度。

在进行本步骤之前，需要先获取目标视频帧，获取目标视频帧的方法可以是：利用图像采集设备采集视频图像，对所采集的视频图像根据预定的切分时长进行切分；对采集的视频图像进行抽帧检测，选取目标视频帧。

该步骤中利用的图像采集设备可以是复用安装在餐饮店内的本身存在的图像采集设备。

所述针对待识别物的检测模型为数据驱动的深度学习模型，所述检测模型使用监测场景下收集、模拟、合成的数据训练得到。

所述待识别物可以是人、鼠类、蛇类、牲畜、昆虫中的一种或多种。当预设的待识别物为鼠类时，则进行模型训练的正样本则为包含鼠类的帧图片；负样本则为不包含鼠类的帧图片，或者包含昆虫、蛇类等其他运动物体的帧图片。当训练的检测模型越准确，在使用针对待识别物的检测模型时，对选取的目标视频帧中包含的待识别物进行检测得到的结果越准确，即获得的包含待识别物的第一检出区域越准确，相应的置信度也越高。

如图3所示，为一目标视频帧中包含待识别物的第一检出区域以及相应的置信度的示意图。从图3中可以看出，利用检测模型检测得到该目标视频帧中包含三处第一检出区域，在每一检出区域的上方标记有置信度的置信度分数值。其中，通过对抽帧采样的图像进行识别后，得到的第一检出区域以及相应的置信度可以表示为

。其中，

表示一个第一检出区域矩形的左上点的坐标，

表示同一个第一检出区域矩形的宽度，

表示该第一检出区域矩形的高度，通过这四个数值可以定位检出的矩形区域在图像上的准确位置。置信度分数用来表示该第一检出区域中包含待识别物的可能性。图3中示出的第一检出区域的置信度分数依次为0.3、0.8、0.1。

通过使用待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度。对视频帧图像进行待识别物的检测处理，为后续将该检测结果与运动特征结合起来，获得更准确的检测结果提供基础依据。

步骤S202，使用与所述目标视频帧在时间上相隔预定时间长度获得的辅助视频帧，与所述目标视频帧进行比较，根据两者图像差异，获得具有运动前景的第二检出区域；

本步骤用于使用与所述目标视频帧在时间上相隔预定时间长度获得的辅助视频帧，与所述目标视频帧进行比较，根据两者图像差异，获得具有运动前景的第二检出区域。

为了提高获得的具有运动前景的第二检出区域的准确率，由于待识别物运动速度均较快，所以选取的辅助视频帧与目标视频帧间的时间长度尽可能小。优选的，所述目标视频帧在时间上相隔预定时间长度获得的辅助视频帧为目标视频帧的上一帧视频。

通过时间间隔较小的两帧视频的图像差异，对目标视频帧和辅助视频帧的图像进行运动前景提取，获得具有运动前景的第二检出区域。所述第二检出区域中，主要是运动范围较大、图像像素值变化较大的区域。

根据目标视频帧和辅助视频帧之间的图像差异，得到的具有运动前景的第二检出区域可以表示为

。与第一检出区域相同，其中，

表示一个第二检出区域矩形的左上点的坐标，

表示同一个第二检出区域矩形的宽度，

表示该第二检出区域矩形的高度，通过这四个数值可以定位第二检出的矩形区域在图像上的准确位置。

在运动前景的提取过程中，视频帧图像中晃动的树叶、闪烁的灯光甚至是月光映出的倒影都可能被检测为第二检出区域。

本步骤通过使用与所述目标视频帧在时间上间隔预定时间长度获得的辅助视频帧，与目标视频帧进行比较，根据两者图像之间的差异，获得具有运动前景的第二检出区域。将具有运动特征的区域识别出来，为进一步将目标检测识别出的区域与具有运动特征的区域结合起来，获得更准确的识别结果提供基础依据。

步骤S203，将第一检出区域与第二检出区域以其所在图像为依据进行图像融合，获得标识了第一检出区域和第二检出区域的融合视频帧；

本步骤用于将第一检出区域与第二检出区域以其所在图像为依据进行图像融合，获得标识了第一检出区域和第二检出区域的融合视频帧。

将通过步骤S201获得的第一检出区域和通过步骤S202获得的第二检出区域所在的帧图像为依据，对所述帧图像进行图像融合，在融合后的融合视频帧中包含标识第一检出区域和第二检出区域。本步骤为后续计算融合视频帧中检出区域之间的相互关系提供依据。

步骤S204，逐个计算所述融合视频帧中，所述第二检出区域在第一检出区域中的占比；

本步骤用于逐个计算在所述融合视频帧中，第二检出区域在第一检出区域中的占比。

第一检出区域表示为

，第二检出区域表示为

，逐个计算

在

中所占的比值，即

。

如果在第一检出区域中包含三个检出区域，第二检出区域中包含两个检出区域，那么针对于所述目标视频帧，需要计算出每个第二检出区域在第一检出区域中的占比，即在此情况下需要计算出3*2，即6个占比数值。

本步骤用于计算针对于每一个目标视频帧中每个第二检出区域在每个第一检出区域中的占比。可以理解的，有些第一检出区域和第二检出区域间并不存在交叠关系，相互间的占比为0；有些第二检出区域完全包含在第一检出区域内，第二检出区域在第一检出区域中的占比为1。

步骤S205，根据所述占比r，以预定的置信度阈值确定方法，确定第一检出区域的目标置信度阈值t；

本步骤用于根据步骤S204获得的占比，根据所述占比r，以预定的置信度阈值确定方法，确定第一检出区域的目标置信度阈值t。

预定的置信度阈值确定方法，即当所述占比r的预定区间内，根据所述占比r和所述目标置信度阈值t之间的单调递减函数t=f（r），确定所述目标置信度阈值t。即在占比r的预定区间内，占比r和目标置信度阈值t之间为单调递减函数。占比r越大，目标置信度阈值t越小。

如图4所示，为占比r与目标置信度阈值t之间的关系示意图。

在本步骤中不限定占比r与目标置信度阈值t之间的具体函数关系，t=f（r）在预定区间内满足单调递减即可，该单调递减函数可以是线性的，可以是非线性的，其中，图4中的（a）为占比r与目标置信度阈值t之间的线性关系示意图，图4中的（b）为占比r与目标置信度阈值之间的非线性关系示意图。图4只是一种简单的示意，并不用来对r与t之间关系的限定。

本步骤根据预定的置信度阈值确定方法，根据第一检出区域在第二检出区域中的占比r，确定第一检出区域的目标置信度阈值t。本步骤用于提供根据占比r确定的不同置信度阈值t，更能够适应于不同的环境。

步骤S206，判断第一检出区域的置信度是否大于所述目标置信度阈值t，若是，则判断所述第一检出区域包含待识别物。

本步骤用于根据第一检出区域的置信度数值s与上步骤中确定的目标置信度阈值t进行比较，若第一检出区域的置信度数值s大于目标置信度阈值t，则判断出该区域为高置信度目标区域，判定该区域中包含待识别物，可以将此识别结果输出。

至此，本申请一实施例提供了一种运动物体识别的方法，使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度；使用与所述目标视频帧在时间上相隔预定时间长度获得的辅助视频帧，与所述目标视频帧进行比较，根据两者图像差异，获得具有运动前景的第二检出区域；将第一检出区域与第二检出区域以其所在图像为依据进行图像融合，获得标识了第一检出区域和第二检出区域的融合视频帧；逐个计算所述融合视频帧中，所述第二检出区域在第一检出区域中的占比；根据所述占比r，以预定的置信度阈值确定方法，确定第一检出区域的目标置信度阈值t；判断第一检出区域的置信度是否大于所述目标置信度阈值t，若是，则判断所述第一检出区域包含待识别物。这样，融合对单帧目标视频帧进行的图像识别以及该目标视频帧和辅助视频帧获得的运动特征，能够在各种环境下敏感并准确地发现待识别物，提高待识别物的检出率。

除上述步骤之外，本申请一实施例还提供了在所述判断第一检出区域中置信度是否大于所述目标置信度阈值t的判断中，若判断结果为否，则将所述第一检出区域提供给用于区分高难度样本的第一分类模型；

本步骤用于若第一检出区域中置信度小于或者等于目标置信度阈值t时，并不直接将相关区域舍弃，而是将所述第一检出区域作为低置信度目标，并将其提供给训练好的专门用于区分高难度样本的第一分类模型。通过第一分类模型对所述低置信度目标进行再次识别判断，确定该低置信度目标中是否包含待识别物。

本步骤将第一检出区域中的低置信度目标部分的区域进行进一步处理，通过训练好的第一分类模型对该低置信度目标进行识别判断，判断在该低置信度目标中是否包含待识别物，如果有，找出低置信度目标中包含待识别物的区域，防止造成漏检。

除上述步骤之外，本申请一实施例还提供了在所述第二检出区域中，找出未与所述第一检出区域关联的非关联区域；

本步骤用于将第二检出区域中与第一检出区域非关联的其他区域进行处理，具体的，识别出未与第一检出区域关联的非关联区域，将该非关联区域分别提供给预先训练好的识别高难度样本的第二分类模型，进一步利用第二分类模型对非关联区域进行识别判断，确定该非关联区域是否包含待识别物。

本步骤用于对与第一检出区域非关联的第二检出区域进行第二分类模型的识别判断，防止造成漏检。

在上述步骤中，所述第一分类模型、所述第二分类模型可以是同一个分类模型，或者是两个分别训练的分类模型，所述分类模型为数据驱动的深度学习模型，所述分类模型使用监测场景下收集、模拟、合成的数据训练得到；

在上述两个步骤中，将置信度小于等于目标置信度阈值t的第一检出区域和与第一检出区域非关联的第二检出区域进行进一步处理，通过专门的训练好的第一分类模型和第二分类模型分别对两种低置信度目标进行识别处理，本申请一实施例将两种低置信度目标中包含待识别物的区域和在第一检出区域中包含待识别物的区域一并作为运动物体的识别结果。

上述第二实施例提供了一种运动物体识别的方法，与之相对应的，本申请第三实施例还提供了一种运动物体识别的装置，由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，下述对装置实施例的描述仅仅是示意性的。如图5所示，为本实施例提供的运动物体识别的装置的单元框图，包括：

第一识别单元501，用于使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度；

第二识别单元502，用于使用与所述目标视频帧在时间上相隔预定时间长度获得的辅助视频帧，与所述目标视频帧进行比较，根据两者图像差异，获得具有运动前景的第二检出区域；

融合单元503，用于将第一检出区域与第二检出区域以其所在图像为依据进行图像融合，获得标识了第一检出区域和第二检出区域的融合视频帧；

计算单元504，用于逐个计算所述融合视频帧中，所述第二检出区域在第一检出区域中的占比；

确定单元505，用于根据所述占比r，与预定的置信度阈值确定方法，确定第一检出区域的目标置信度阈值t；

判断单元506，用于判断第一检出区域的置信度是否大于所述目标置信度阈值t，若是，则判断所述第一检出区域包含待识别物。

可选的，所述判断单元还用于:

可选的，所述确定单元还用于：

可选的，所述第一识别单元还用于：

对采集的视频图像进行抽帧检测，选取目标视频帧。

可选的，所述第二识别单元还用于：

可选的，所述装置布置于智能边缘服务器或具有计算能力的采集设备，并针对实时采集的现场监测视频执行。

可选的，所述装置中的待识别物为人、鼠类、蛇类、牲畜、昆虫中的一种或多种。

本申请第四实施例还提供了一种对现场运动物体进行监测的系统，如图6所示，为本实施例提供的对现场运动物体进行监测的系统，包括视频采集设备601、边缘计算设备602、服务器603；

所述视频采集设备601布置于监测现场，用于实时采集现场视频；

所述边缘计算设备602，布置于所述监测现场或者监测现场附近，也可以与所述视频采集设备一体设置，其中布置有所述运动物体识别方法的程序；所述边缘计算设备获得所述视频采集设备所采集的现场视频，从中选取目标视频帧，并执行如下步骤：使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度；使用与所述目标视频帧在时间上视频帧相隔预定时间长度获得的辅助视频帧，与所述目标视频帧进行比较，根据两者图像差异，获得具有运动前景的第二检出区域；将第一检出区域与第二检出区域以其所在图像为依据进行图像融合，获得标识了第一检出区域和第二检出区域的融合视频帧；逐个计算所述融合视频帧中，所述第二检出区域在第一检出区域中的占比；根据所述占比r，以预定的置信度阈值确定方法，确定第一检出区域的目标置信度阈值t；判断第一检出区域的置信度是否大于所述目标置信度阈值t，若是，则判断所述第一检出区域包含待识别物；若检出了包含待识别物的第一检出区域，则将标识了第一检出区域的视频帧截取发出；

所述服务器603，接收所述标识了第一检出区域的视频帧，并进行确认和/或报警。

其中，布置有所述运动物体识别方法的程序与本申请第二实施例提供的运动物体识别的方法相对应，所以关于该对现场运动物体进行监测的系统描述的比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，上述对系统的描述仅仅是示意性的。

此外，本申请实施例还提供电子设备，由于电子设备实施例基本相似于方法实施例，所以描述得比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，下述对电子设备实施例的描述仅仅是示意性的。该电子设备实施例如下：请参考图7理解本实施例，图7为本实施例提供的电子设备的示意图。

如图7所示，本实施例提供的电子设备包括：处理器701和存储器702、通信总线703和通信接口704。

所述处理器701，用于执行所述一条或多条计算机指令，以实现上述各方法实施例的各步骤。

所述存储器702用于存储运动物体识别的方法的程序，该程序在被处理器读取执行时，执行如下操作：

所述通信总线703，用于连接挂载在其上的处理器701、存储器702。

所述通信接口704，用于为处理器701、存储器702提供连接接口。

在上述各实施例中，提供了运动物体识别的方法以及上述方法对应的装置和电子设备，此外，本申请实施例还提供了用于实现上述运动物体识别的方法的计算机可读存储介质。本申请提供的计算机可读存储介质实施例描述得比较简单，相关部分请参见上述方法实施例的对应说明即可，下述描述的实施例仅仅是示意性的。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims

1.一种运动物体识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述占比r，以预定的置信度阈值确定方法，确定第一检出区域的目标置信度阈值t，包括：

在所述占比r的预定区间内，根据所述占比r和所述目标置信度阈值t之间的单调递减函数t＝f(r)，确定所述目标置信度阈值t。

5.根据权利要求1所述的方法，其特征在于，使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度，包括：

6.根据权利要求3所述的方法，其特征在于，所述第一分类模型、所述第二分类模型可以是同一个分类模型，或者是两个分别训练的分类模型，所述分类模型为数据驱动的深度学习模型，所述分类模型使用监测场景下收集、模拟、合成的数据训练得到；

7.根据权利要求1所述的方法，其特征在于，使用针对待识别物的检测模型，对选取的目标视频帧中包含的待识别物进行检测，获得包含待识别物的第一检出区域以及相应的置信度之前，所述方法还包括：

对采集的视频图像进行抽帧检测，选取目标视频帧。

8.根据权利要求1所述的方法，其特征在于，使用与所述目标视频帧在时间上相隔预定时间长度获得的辅助视频帧，与所述目标视频帧进行比较，根据两者图像差异，获得具有运动前景的第二检出区域，包括：

9.根据权利要求1所述的方法，其特征在于，所述方法布置于智能边缘服务器或具有计算能力的采集设备，并针对实时采集的现场监测视频执行。

10.根据权利要求1所述的方法，其特征在于，所述待识别物为人、鼠类、蛇类、牲畜、昆虫中的一种或多种。

11.一种对现场运动物体进行监测的系统，其特征在于，包括视频采集设备、边缘计算设备、服务器；

12.一种运动物体识别的装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括处理器和存储器以及存储在所述存储器上并可在处理器上运行的计算机程序指令；所述处理器执行所述计算机程序指令时实现如上述权利要求1-10任一项所述的运动物体识别的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有一条或多条计算机指令，所述计算机执行指令被处理器执行用于实现如权利要求1-10中任一项所述的运动物体识别的方法。