CN114973057B

CN114973057B - 基于人工智能的视频图像检测方法及相关设备

Info

Publication number: CN114973057B
Application number: CN202210370128.1A
Authority: CN
Inventors: 雷田子
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2024-07-05
Anticipated expiration: 2042-04-08
Also published as: CN114973057A

Abstract

本申请提出一种基于人工智能的视频图像检测方法、装置、电子设备及存储介质，基于人工智能的视频图像检测方法包括：采集视频图像获取初始图像数据集；根据图像特征筛选所述初始图像数据集以获取显著图像数据集；计算所述待测图像数据集中各图像的特征指标，并将所述特征指标输入预设的多模态计算模型获取各图像的显著图像评分值；计算所有显著图像评分值的平均值以作为评分阈值，并将大于所述评分阈值的所有显著图像评分值对应的图像作为有效图像数据集；使用所述有效图像数据集训练网络检测模型，并依据训练好的网络检测模型对视频图像进行检测以获取检测结果。本申请可以有效去除大量冗余视频图像，提高视频图像的检测效率。

Description

基于人工智能的视频图像检测方法及相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于人工智能的视频图像检测方法、装置、电子设备及存储介质。

背景技术

在5G时代下物联网蓬勃发展之际，各种智能监控系统应运而生，如主要路口、商场、餐厅等场所都架设有监控摄像头。监控技术的广泛应用，带来海量的视频图像处理数据，以及极大的存储需求，对视频图像处理平台的要求也越来越高。

现有的视频图像处理平台往往采用云计算视频处理系统，集中式云计算在处理广泛分布的视频原始数据时，需要快速、实时的响应，然而海量视频数据传输延迟的不确定性，给通信网络带宽带来巨大的压力和延迟，同时，云计算模型需要存储和管理大量的冗余视频数据，这相应的增加了存储节点的能耗，从而降低了云计算系统处理视频图像的效率。

发明内容

鉴于以上内容，有必要提出一种基于人工智能的视频图像检测方法及相关设备，以解决如何提高云计算系统处理视频图像的效率这一技术问题，其中，相关设备包括基于人工智能的视频图像检测装置、电子设备及存储介质。

本申请提供一种基于人工智能的视频图像检测方法，所述方法包括：

采集视频图像获取初始图像数据集，所述初始图像数据集包括采集到的所有图像；

根据图像特征筛选所述初始图像数据集以获取显著图像数据集；

计算所述显著图像数据集中各图像的特征指标，并将所述特征指标输入预设的多模态计算模型获取所述显著图像数据集中各图像的显著图像评分值；

计算所有显著图像评分值的平均值以作为评分阈值，并将大于所述评分阈值的所有显著图像评分值对应的图像作为有效图像数据集；

使用所述有效图像数据集训练预设的网络检测模型，并依据训练好的网络检测模型对视频图像进行检测以获取检测结果。

如此，通过对采集的视频图像进行初步筛选，并依据特征指标对筛选后获得的图像进行计算来进一步获得更为有效的图像数据用于视频图像检测，从而可以有效去除大量冗余视频图像，提高视频图像的检测效率。

在一些实施例中，根据图像特征筛选所述初始图像数据集以获取显著图像数据集包括：

依据特征提取算法提取所述初始图像数据集中各图像的时空兴趣点，并将所有提取了时空兴趣点的图像作为图像感兴趣点集合，所述时空兴趣点包括静态兴趣点和非静态兴趣点；

依据尺度选择算法滤除所述图像感兴趣点集合中的静态兴趣点，并将滤除后保留的图像作为显著图像数据集。

如此，可将视频图像中大量的冗余图像和无效的图像背景区域进行去除和抑制，优化视频图像的质量，从而提高视频图像的检测效率和检测结果。

在一些实施例中，所述计算所述显著图像数据集中各图像的特征指标，并将所述特征指标输入预设的多模态计算模型获取所述显著图像数据集中各图像的显著图像评分值包括：

对所述显著图像数据集中的图像进行预处理，并将预处理后的所有图像作为待测图像数据集；

计算所述待测图像数据集中各图像的特征指标，所述特征指标包括区域对比评分值、清晰度评分值、色彩饱和度评分值和注意力评分值；

将所述特征指标输入预设的多模态计算模型中进行计算获取所述显著图像数据集中各图像的显著图像评分值。

如此，可通过多项特征指标对得到的显著图像进行评估，从而获得各显著图像的评分值，有利于后续过程据此进行进一步的图像筛选，获得更为有效的视频图像用于检测，进一步提高视频图像的检测效率。

在一些实施例中，所述对所述显著图像数据集中的图像进行预处理，并将预处理后的所有图像作为待测图像数据集包括：

将所述显著图像数据集中的图像转换为灰度图像后获取灰度图像数据集；

对所述灰度图像数据集进行低通滤波后获取滤波图像数据集；

对所述滤波图像数据集进行重采样后获取所述待测图像数据集。

如此，通过对显著图像数据集中的图像进行一系列预处理，可以在一定程度上进一步有效抑制图像中的噪声数据和冗余部分，提高视频图像检测的准确性。

在一些实施例中，所述多模态计算模型满足关系式：

其中，为所述显著图像评分值，C、E、S、A分别表示所述区域对比评分值、清晰度评分值、色彩饱和度评分值和注意力评分值，和为预设的超参数，，。

如此，可通过多模态计算模型综合计算各项特征指标从而获得相应的显著图像评分数据，更为全面准确的评估出显著图像的图像质量，从而有利于后续步骤在此基础上进一步筛选出质量更好的视频图像进行检测。

在一些实施例中，所述计算所有显著图像评分值的平均值以作为评分阈值，并将大于所述评分阈值的所有显著图像评分值对应的图像作为有效图像数据集包括：

计算所有显著图像评分值的平均值以作为评分阈值；

对比所述评分阈值和所述显著图像评分值，并将大于评分阈值的所有显著图像评分值对应的图像作为有效图像数据集。

如此，可通过计算所述显著图像评分值的平均值作为阈值，进一步筛选获得更为有效的视频图像用于检测，提高检测结果的准确性。

在一些实施例中，所述使用所述有效图像数据集训练预设的网络检测模型，并依据训练好的网络检测模型对视频图像进行检测以获取检测结果包括：

将预设的网络检测模型部署至边缘节点，使用所述有效图像数据集进行训练，并将训练好的网络检测模型作为边缘检测模型；

基于所述边缘检测模型对实时获取到的有效图像数据集中的图像进行检测获取图像检测结果。

如此，可通过在边缘节点设置网络检测模型来对得到的有效图像数据集进行检测，缓解云计算中心的性能瓶颈，降低网络带宽负载和延迟。

本申请实施例还提供一种基于人工智能的视频图像检测装置，所述装置包括：

采集单元，用于采集视频图像获取初始图像数据集，所述初始图像数据集包括采集到的所有图像；

筛选单元，用于根据图像特征筛选所述初始图像数据集以获取显著图像数据集；

获取单元，用于计算所述显著图像数据集中各图像的特征指标，并将所述特征指标输入预设的多模态计算模型获取所述显著图像数据集中各图像的显著图像评分值；

计算单元，用于计算所有显著图像评分值的平均值以作为评分阈值，并将大于所述评分阈值的所有显著图像评分值对应的图像作为有效图像数据集；

检测单元，用于使用所述有效图像数据集训练预设的网络检测模型，并依据训练好的网络检测模型对视频图像进行检测以获取检测结果。

本申请实施例还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；

处理器，执行所述存储器中存储的指令以实现所述的基于人工智能的视频图像检测方法。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现所述的基于人工智能的视频图像检测方法。

本申请通过对采集的视频图像进行初步筛选，并依据特征指标对筛选后获得的图像进行计算来进一步获得更为有效的图像数据用于视频图像检测，从而可以有效去除大量冗余视频图像，提高视频图像的检测效率。

附图说明

图1是本申请所涉及的基于人工智能的视频图像检测方法的较佳实施例的流程图。

图2是本申请所涉及的计算所述显著图像数据集中各图像的特征指标，并将所述特征指标输入预设的多模态计算模型获取所述显著图像数据集中各图像的显著图像评分值的较佳实施例的流程图。

图3是本申请所涉及的基于人工智能的视频图像检测装置的较佳实施例的功能模块图。

图4是本申请所涉及的基于人工智能的视频图像检测方法的较佳实施例的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本申请的目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。在下面的描述中阐述了很多具体细节以便于充分理解本申请，所述描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本申请实施例提供一种基于人工智能的视频图像检测方法，可应用于一个或者多个电子设备中，电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

电子设备可以是任何一种可与客户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理（Personal Digital Assistant，PDA）、游戏机、交互式网络电视（Internet Protocol Television，IPTV）、智能式穿戴式设备等。

电子设备还可以包括网络设备和/或客户设备。其中，所述网络设备包括，但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。

电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络（Virtual Private Network，VPN）等。

如图1所示，是本申请基于人工智能的视频图像检测方法的较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

S10，采集视频图像获取初始图像数据集，所述初始图像数据集包括采集到的所有图像。

在一个可选的实施例中，本方案通过边缘计算与视频监控结合的方式来采集视频图像并进行视频图像的检测处理。其中，边缘计算，是指在靠近物或数据源头的一侧，采用网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务。

该可选的实施例中，边缘计算的计算过程从一个集中的云计算中心迁移到边缘靠近用户终端和移动设备。边缘计算的目的不是取代云，而是补充云，为移动计算、物联网等提供更好的计算平台。终端执行部分或全部计算的优势可以减少延迟，提供实时响应，降低网络带宽负载，削弱隐私泄露的风险，提高数据安全性，缓解云计算中心性能瓶颈。而视频分析是一个复杂的问题，通常逻辑上由多个步骤组成，包括运动检测、关键帧提取、目标对象检测和识别等。

该可选的实施例中，可通过RGB相机作为监控摄像头，作为边缘计算的边缘节点，所述边缘节点指在靠近用户的网络边缘侧构建的业务平台，提供存储、计算、网络等资源，将部分关键业务应用下沉到接入网络边缘，以减少网络传输和多级转发带来的宽度和时延损耗，边缘节点位置介于用户和云计算中心之间，相比与传统的云计算中心边缘节点更接近用户。

该可选的实施例中，监控摄像头可部署在各个饭店的后厨中，用于后厨食品卫生的视频图像数据采集，每个监控摄像头在视频传输中一般可以产生25-30帧/秒的帧数，而低帧率(1.25Hz)的移动图像序列每秒产生超过100M的数据。

该可选的实施例中，所述监控摄像头不仅用于视频图像的采集工作，还嵌有高效嵌入式处理器，用于对获取到的视频图像进行综合分析处理，具备可扩展性，用户可动态添加或删除边缘计算应用，根据应用场景需求加载所需要的算法已进行图像特征分析、图像识别及跟踪、图像分类等图像处理步骤。

该可选的实施例中，相比于传统视频监控，采用边缘计算和视频监控结合的方式，最主要的变化是把被动监控变为主动分析与预警，因而解决了需要人工处理海量监控数据的问题。从本质上看，边缘计算通过对视频图像进行预处理，去除冗余信息，使部分或全部视频分析迁移到边缘处，由此降低对云计算中心计算、存储和网络带宽需求，提高视频分析速度。此外，边缘预处理还可以采用软件优化、硬件加速等方法，提高视频图像分析效率。

示例性的，以人脸识别摄像头为例，强化摄像头终端运算处理能力可让其人脸识别功能不再依赖云端服务器，直接在本地设备上完成辨别，避免耗费时间上传图像，节省带宽资源。

该可选的实施例中，本方案将监控摄像头实时采集到的监控视频所包括的所有图像帧作为所述初始图像数据集。

如此，可通过多种终端设备采集大量的视频图像用于检测，并由作为边缘计算的基础，为后续过程的图像处理过程提供数据支撑。

S11，根据图像特征筛选所述初始图像数据集以获取显著图像数据集。

在一个可选的实施例中，所述根据图像特征筛选所述初始图像数据集以获取显著图像数据集包括：

S111，依据特征提取算法提取所述初始图像数据集中各图像的时空兴趣点，并将所有提取了时空兴趣点的图像作为图像感兴趣点集合，所述时空兴趣点包括静态兴趣点和非静态兴趣点。

该可选的实施例中，所述特征提取算法可使用基于时空兴趣点（On space-timeinterest points，STIP）的特征提取算法，该算法是将Harris角点检测思想扩展到时空域得到时空兴趣点的检测方法，通过兴趣点构成的点集来表示动作。

该可选的实施例中，通过计算所述初始图像数据集中图像的HOG特征和HOF特征来获取对应的时空兴趣点，其中HOG（Histogram of Oriented Gradient）又称为梯度方向直方图，它通过对一张图片进行分割，然后计算分割的各个区域的梯度方向直方图来构成特征，可以较好的描述人体边缘，而HOF（Histogram of Oriented Optical Flow）与HOG类似，只不过是对图像的光流方向进行加权统计，从而得到光流方向信息直方图，通常用于人体的动作识别中。

该可选的实施例中，本方案将所述初始图像数据集中所有提取了时空兴趣点的图像作为所述图像感兴趣点集合。

S112，依据尺度选择算法滤除所述图像感兴趣点集合中的静态兴趣点，并将滤除后保留的图像作为显著图像数据集。

该可选的实施例中，所述尺度选择算法可采用Lindeberg尺度选择算法，所述Lindeberg尺度选择算法可用于自动选择图像的特征尺度，这样就可以使用每一副图像自有的特征尺度来检测对应的时空兴趣点，并根据每帧图像的尺度信息和每一帧STIP的数量和位置的变化情况，将时空兴趣点分为静态兴趣点和非静态兴趣点。其中，首先判断前后帧之间的特征尺度是否一致，若一致，则静态兴趣点为视频图像中位置不发生变化的时空兴趣点，并将剩余的所有时空兴趣点作为非静态兴趣点；若不一致，则将前后帧图像的特征尺度统一为一种后，再将时空兴趣点分为静态兴趣点和非静态兴趣点，并在分类后，将特征尺度变化的时空兴趣点还原为原始的特征尺度，如此，可以更为准确的判断时空兴趣点是否发生了变化。

该可选的实施例中，可通过静态兴趣点的抑制计算公式将视频图像中的静态兴趣点进行筛选滤除，从而消除冗余的时空兴趣点、抑制背景对空间和时间的约束，静态兴趣点的抑制计算公式为：

其中，表示𝑡帧的非静态兴趣点集合，表示𝑡帧的所有时空兴趣点集合，β代表t帧到t-1帧的静态兴趣点集合，本方案中将所有滤除静态兴趣点后保留的视频图像作为所述显著图像数据集。

S12，计算所述显著图像数据集中各图像的特征指标，并将所述特征指标输入预设的多模态计算模型获取所述显著图像数据集中各图像的显著图像评分值。

如图2所示，在一个可选的实施例中，所述计算所述显著图像数据集中各图像的特征指标，并将所述特征指标输入预设的多模态计算模型获取所述显著图像数据集中各图像的显著图像评分值包括：

S121，对所述显著图像数据集中的图像进行预处理，并将预处理后的所有图像作为待测图像数据集。

该可选的实施例中，对所述显著图像数据集中的图像进行预处理，首先将所述显著图像数据集中的图像转换为灰度图像以获取灰度图像数据集，然后对所述灰度图像数据集进行低通滤波来进一步去除噪声以获取滤波图像数据集，最后对所述滤波图像数据集进行重采样以获取所述待测图像数据集。

S122，计算所述待测图像数据集中各图像的特征指标，所述特征指标包括区域对比评分值、清晰度评分值、色彩饱和度评分值和注意力评分值。

该可选的实施例中，首先根据相邻像素的灰度差值计算所述待测图像数据集中各帧图像的区域对比评分值C，计算式为：

其中，，表示第δ个相邻像素间灰度值的差值；表示第δ个相邻灰度像素差的高斯概率分布。

该可选的实施例中，清晰度是评价视频画面质量的重要指标，因此需根据像素灰度值计算清晰度评分值E，计算式为：

其中，为以像素坐标为中心的区域内同源像素的灰度值，D(f)为对应区域的计算结果，其中最大值为所述清晰度评分值E，即E=max 。

该可选的实施例中，空间关系会影响视觉的显著性，相邻区域对比突出的区域更有可能付出更多的视觉观察，因此类似于区域对比得分，需根据像素灰度值计算视频图像的色彩饱和度评分值S，计算式为：

其中，EMD指的是Earth Mover’s Distance经验模态分解算法，是一种衡量两个对象分布在同一区间的距离方法，为图像中两个像素点的灰度值，为这两个像素点的相邻灰度像素差值的概率分布。

该可选的实施例中，可利用基于时间梯度的动态视觉显著性，收集可能引起视觉注意的视频图像帧，因此还需根据前后图像帧中非静态兴趣点移动的距离计算相应的注意力评分值A，计算式为：

其中，M为待测图像数据集中前后图像帧中非静态兴趣点移动的平均值，通过计算待测图像数据集中前后图像帧中所有非静态兴趣点移动距离的平均值获得，为待测图像数据集中前后图像帧中非静态兴趣点移动的方差，通过计算待测图像数据集中前后图像帧中所有非静态兴趣点移动距离的方差获得，的取值范围为[0,1]。

S123，将所述特征指标输入预设的多模态计算模型中进行计算获取所述显著图像数据集中各图像的显著图像评分值。

该可选的实施例中，所述多模态计算模型的计算式为：

S13，计算所有显著图像评分值的平均值以作为评分阈值，并将大于所述评分阈值的所有显著图像评分值对应的图像作为有效图像数据集。

在一个可选的实施例中，所述依据评分阈值评估所述显著图像评分值以获取有效图像数据集包括：

S131，计算所有显著图像评分值的平均值以作为评分阈值。

S132，对比所述评分阈值和所述显著图像评分值，并将大于评分阈值的所有显著图像评分值对应的图像作为有效图像数据集。

该可选的实施例中，通过所述评分阈值对所述显著图像评分值中的显著图像评分的判断，可以对所述显著图像数据集中的图像进行进一步的筛选，并将大于评分阈值的所有显著图像评分值对应的图像作为所述有效图像数据集。

S14，使用所述有效图像数据集训练预设的网络检测模型，并依据训练好的网络检测模型对视频图像进行检测以获取检测结果。

在一个可选的实施例中，使用所述有效图像数据集训练预设的网络检测模型，并依据训练好的网络检测模型对视频图像进行检测以获取检测结果包括：

S141，将预设的网络检测模型部署至边缘节点，使用所述有效图像数据集进行训练，并将训练好的网络检测模型作为边缘检测模型。

该可选的实施例中，所述网络检测模型可使用YOLOv3网络检测模型，依据边缘计算的特点，将所述网络检测模型部署到边缘节点，并将各边缘节点获得的有效图像数据集作为训练数据集对YOLOv3网络检测模型进行训练得到边缘检测模型。由于所述有效图像数据集将对于初始图像数据集含有更高质量的视频图像，从而可以实现更加准确的视频图像检测。

S142，基于所述边缘检测模型对实时获取到的有效图像数据集中的图像进行检测获取图像检测结果。

该可选的实施例中，通过上述过程中得到的实时视频图像进行筛选从而获得实时的有效图像数据集，并在各边缘节点根据训练好的YOLOv3网络检测模型对获取到的实时的有效图像数据集中的图像进行检测，并输出所述图像检测结果。

请参见图3，图3是本申请基于人工智能的视频图像检测装置的较佳实施例的功能模块图。基于人工智能的视频图像检测装置11包括采集单元110、筛选单元111、获取单元112、计算单元113、检测单元114。本申请所称的模块/单元是指一种能够被处理器13所执行，并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器12中。在本实施例中，关于各模块/单元的功能将在后续的实施例中详述。

在一个可选的实施例中，采集单元110用于采集视频图像获取初始图像数据集，所述初始图像数据集包括采集到的所有图像。

在一个可选的实施例中，筛选单元111用于根据图像特征筛选所述初始图像数据集以获取显著图像数据集。

在一个可选的实施例中，获取单元112用于计算所述显著图像数据集中各图像的特征指标，并将所述特征指标输入预设的多模态计算模型获取所述显著图像数据集中各图像的显著图像评分值。

该可选的实施例中，所述多模态计算模型的计算式为：

在一个可选的实施例中，计算单元113用于计算所有显著图像评分值的平均值以作为评分阈值，并将大于所述评分阈值的所有显著图像评分值对应的图像作为有效图像数据集。

在一个可选的实施例中，所述计算所有显著图像评分值的平均值以作为评分阈值，并将大于所述评分阈值的所有显著图像评分值对应的图像作为有效图像数据集包括：

计算所有显著图像评分值的平均值以作为评分阈值；

在一个可选的实施例中，检测单元114用于使用所述有效图像数据集训练预设的网络检测模型，并依据训练好的网络检测模型对视频图像进行检测以获取检测结果。

在一个可选的实施例中，所述使用所述有效图像数据集训练预设的网络检测模型，并依据训练好的网络检测模型对视频图像进行检测以获取检测结果包括：

由以上技术方案可以看出，本申请能够通过对采集的视频图像进行初步筛选，并依据特征指标对筛选后获得的图像进行计算来进一步获得更为有效的图像数据用于视频图像检测，从而可以有效去除大量冗余视频图像，提高视频图像的检测效率。

请参见图4，是本申请实施例提供的一种电子设备的结构示意图。电子设备1包括存储器12和处理器13。存储器12用于存储计算机可读指令，处理器13用执行所述储器中存储的计算机可读指令以实现上述任一实施例所述的基于人工智能的视频图像检测方法。

在一个可选的实施例中，电子设备1还包括总线、存储在所述存储器12中并可在所述处理器13上运行的计算机程序，例如基于人工智能的视频图像检测程序。

图4仅示出了具有存储器12和处理器13的电子设备1，本领域技术人员可以理解的是，图4示出的结构并不构成对电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

结合图1，电子设备1中的所述存储器12存储多个计算机可读指令以实现一种基于人工智能的视频图像检测方法，所述处理器13可执行所述多个指令从而实现：

具体地，所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，电子设备1可以是总线型结构，也可以是星形结构，电子设备1还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置，例如电子设备1还可以包括输入输出设备、网络接入设备等。

需要说明的是，电子设备1仅为举例，其他现有的或今后可能出现的电子产品如可适应于本申请，也应包含在本申请的保护范围以内，并以引用方式包含于此。

其中，存储器12至少包括一种类型的可读存储介质，所述可读存储介质可以是非易失性的，也可以是易失性的。所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡（Smart Media Card, SMC）、安全数字（Secure Digital, SD）卡、闪存卡（Flash Card）等。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如基于人工智能的视频图像检测程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器13在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是电子设备1的控制核心（Control Unit），利用各种接口和线路连接整个电子设备1的各个部件，通过运行或执行存储在所述存储器12内的程序或者模块（例如执行基于人工智能的视频图像检测程序等），以及调用存储在所述存储器12内的数据，以执行电子设备1的各种功能和处理数据。

所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个基于人工智能的视频图像检测方法实施例中的步骤，例如图1至图2所示的步骤。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机程序在电子设备1中的执行过程。例如，所述计算机程序可以被分割成采集单元110、筛选单元111、获取单元112、计算单元113、检测单元114。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、计算机设备，或者网络设备等）或处理器（processor）执行本申请各个实施例所述的基于人工智能的视频图像检测方法的部分。

电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指示相关的硬件设备来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。

其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存储器及其他存储器等。

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

总线可以是外设部件互连标准（peripheral component interconnect，简称PCI）总线或扩展工业标准结构（extended industry standard architecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，在图4中仅用一根箭头表示，但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。

本申请实施例还提供一种计算机可读存储介质（图未示），计算机可读存储介质中存储有计算机可读指令，计算机可读指令被电子设备中的处理器执行以实现上述任一实施例所述的基于人工智能的视频图像检测方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。说明书陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种基于人工智能的视频图像检测方法，其特征在于，所述方法包括：

根据图像特征筛选所述初始图像数据集以获取显著图像数据集，包括：依据特征提取算法提取所述初始图像数据集中各图像的时空兴趣点，并将所有提取了时空兴趣点的图像作为图像感兴趣点集合，所述时空兴趣点包括静态兴趣点和非静态兴趣点；依据尺度选择算法滤除所述图像感兴趣点集合中的静态兴趣点，并将滤除后保留的图像作为显著图像数据集；

计算所述显著图像数据集中各图像的特征指标，并将所述特征指标输入预设的多模态计算模型获取所述显著图像数据集中各图像的显著图像评分值，包括：对所述显著图像数据集中的图像进行预处理，并将预处理后的所有图像作为待测图像数据集；计算所述待测图像数据集中各图像的特征指标，所述特征指标包括区域对比评分值、清晰度评分值、色彩饱和度评分值和注意力评分值；将所述特征指标输入预设的多模态计算模型中进行计算获取所述显著图像数据集中各图像的显著图像评分值，其中，所述多模态计算模型满足关系式：

其中，为所述显著图像评分值，C、E、S、A分别表示所述区域对比评分值、清晰度评分值、色彩饱和度评分值和注意力评分值，和为预设的超参数，，；

2.如权利要求1所述的基于人工智能的视频图像检测方法，其特征在于，所述对所述显著图像数据集中的图像进行预处理，并将预处理后的所有图像作为待测图像数据集包括：

3.如权利要求1所述的基于人工智能的视频图像检测方法，其特征在于，所述计算所有显著图像评分值的平均值以作为评分阈值，并将大于所述评分阈值的所有显著图像评分值对应的图像作为有效图像数据集包括：

计算所有显著图像评分值的平均值以作为评分阈值；

4.如权利要求1所述的基于人工智能的视频图像检测方法，其特征在于，所述使用所述有效图像数据集训练预设的网络检测模型，并依据训练好的网络检测模型对视频图像进行检测以获取检测结果包括：

5.一种用于实现如权利要求1所述的基于人工智能的视频图像检测方法的基于人工智能的视频图像检测装置，其特征在于，所述装置包括：

6. 一种电子设备，其特征在于，所述电子设备包括：

存储器，存储有计算机可读指令；及

处理器，执行所述存储器中存储的计算机可读指令以实现如权利要求1至4中任意一项所述的基于人工智能的视频图像检测方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的基于人工智能的视频图像检测方法。