CN112818737A

CN112818737A - 视频识别方法、装置、存储介质及终端

Info

Publication number: CN112818737A
Application number: CN202011507838.1A
Authority: CN
Inventors: 朱帅
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-05-18
Anticipated expiration: 2040-12-18
Also published as: CN112818737B

Abstract

本申请实施例公开了一种视频识别方法、装置、存储介质及终端，其中，方法包括：获取待处理的视频，确定所述视频中的至少一帧图像；确定每帧所述图像的清晰度得分，根据各所述清晰度得分计算所述视频的目标清晰度得分；根据所述目标清晰度得分与预设清晰度阈值的比较结果，对所述视频进行清晰识别。采用本申请实施例，可以通过计算清晰度得分进行客观评判，而不需要依赖人工判断，为教学视频的观感质量评估，提出了一种全新的客观评估标准，同时，可以节省时间成本，提高审查效率。

Description

视频识别方法、装置、存储介质及终端

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频识别方法、装置、存储介质及终端。

背景技术

在教育信息化的今天，教师通过将课程内容录制成视频形式，传输供学生学习使用越发的普遍；网络直播课、录播课的教学形式也愈发普遍，高质量的视频画面质量尤其重要。视频画面观感质量的高低直接影响教学质量，优质的画面有助于学生更有效的从视频课程中汲取知识。

此前线上学习平台(如希沃学院)的教学视频画面清晰度高低都是依赖人工去主观判断的，这一判断依赖审核员的背景经验，不同个人对画质清晰度的把握有差异，主观审核的结果可能导致不同人评估的视频画质观感无法放在统一标准下评判，同时，依赖人工审查也会增加时间成本，审查效率低。

发明内容

本申请实施例提供了一种视频识别方法、装置、存储介质及终端，可以通过计算清晰度得分进行客观评判，而不需要依赖人工判断，为教学视频的观感质量评估，提出了一种全新的客观评估标准并可以提高审查效率。技术方案如下：

第一方面，本申请实施例提供了一种视频识别方法，所述方法包括：

获取待处理的视频，确定所述视频中的至少一帧图像；

确定每帧所述图像的清晰度得分，根据各所述清晰度得分计算所述视频的目标清晰度得分；

根据所述目标清晰度得分与预设清晰度阈值的比较结果，对所述视频进行清晰识别。

第二方面，本申请实施例提供了一种视频识别装置，所述装置包括：

图像确定模块，用于获取待处理的视频，确定所述视频中的至少一帧图像；

得分计算模块，用于确定每帧所述图像的清晰度得分，根据各所述清晰度得分计算所述视频的目标清晰度得分；

视频识别模块，用于根据所述目标清晰度得分与预设清晰度阈值的比较结果，对所述视频进行清晰识别。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种终端，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

获取待处理的视频，确定所述视频中的至少一帧图像，并确定每帧所述图像的清晰度得分，根据各所述清晰度得分计算所述视频的目标清晰度得分，再根据所述目标清晰度得分与预设清晰度阈值的比较结果，对所述视频进行清晰识别。可以通过计算清晰度得分进行客观评判，而不需要依赖人工判断，为教学视频的观感质量评估，提出了一种全新的客观评估标准，同时，可以节省时间成本，提高审查效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的终端的结构示意图；

图2是本申请实施例提供的操作系统和用户空间的结构示意图；

图3是图1中安卓操作系统的架构图；

图4是本申请实施例提供的一种视频识别方法的流程示意图；

图5是本申请实施例提供的一种清晰度阈值设置方式的举例示意图；

图6是本申请实施例提供的另一种视频识别方法的流程示意图；

图7是本申请实施例提供的另一种视频识别方法的流程示意图；

图8是本申请实施例提供的一种视频识别装置的结构示意图；

图9是本申请实施例提供的一种得分计算模块的结构示意图；

图10是本申请实施例提供的一种信息计算单元的结构示意图；

图11是本申请实施例提供的一种视频识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在 B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参考图1，其示出了本申请一个示例性实施例提供的终端的结构方框图。所述终端可以为交互智能平板、手机、电脑、平板等终端设备。本申请中的终端可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140 之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行终端100 的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户页面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(random Access Memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统，包括基于Android系统深度开发的系统、苹果公司开发的IOS系统，包括基于IOS系统深度开发的系统或其它系统。存储数据区还可以存储终端在使用中所创建的数据比如电话本、音视频数据、聊天记录数据，等。

参见图2所示，存储器120可分为操作系统空间和用户空间，操作系统即运行于操作系统空间，原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果，操作系统针对不同第三方应用程序为其分配相应的系统资源。然而，同一第三方应用程序中不同应用场景对系统资源的需求也存在差异，比如，在本地资源加载场景下，第三方应用程序对磁盘读取速度的要求较高；在动画渲染场景下，第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立，操作系统往往不能及时感知第三方应用程序当前的应用场景，导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。

为了使操作系统能够区分第三方应用程序的具体应用场景，需要打通第三方应用程序与操作系统之间的数据通信，使得操作系统能够随时获取第三方应用程序当前的场景信息，进而基于当前场景进行针对性的系统资源适配。

以操作系统为Android系统为例，存储器120中存储的程序和数据如图3 所示，存储器120中可存储有Linux内核层320、系统运行时库层340、应用框架层360和应用层380，其中，Linux内核层320、系统运行库层340和应用框架层360属于操作系统空间，应用层380属于用户空间。Linux内核层320为终端的各种硬件提供了底层的驱动，如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。系统运行库层340通过一些C/C++库来为Android 系统提供了主要的特性支持。如SQLite库提供了数据库的支持，OpenGL/ES库提供了3D绘图的支持，Webkit库提供了浏览器内核的支持等。在系统运行时库层340中还提供有安卓运行时库(Android runtime)，它主要提供了一些核心库，能够允许开发者使用Java语言来编写Android应用。应用框架层360提供了构建应用程序时可能用到的各种API，开发者也可以通过使用这些API来构建自己的应用程序，比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序，这些应用程序可以是操作系统自带的原生应用程序，比如联系人程序、短信程序、时钟程序、相机应用等；也可以是第三方开发者所开发的第三方应用程序，比如游戏类应用程序、即时通信程序、相片美化程序、文字翻译程序等。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在一个示例中，输入装置130和输出装置140可以合设，输入装置130和输出装置140为触摸显示屏。

所述触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的终端的结构并不构成对终端的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、无线保真(wirelessfidelity，WiFi)模块、电源、蓝牙模块等部件，在此不再赘述。

在本申请实施例中，各步骤的执行主体可以是上文介绍的终端。可选地，各步骤的执行主体为终端的操作系统。操作系统可以是安卓系统，也可以是IOS 系统，或者其它操作系统，本申请实施例对此不作限定。

在图1所示的终端中，处理器110可以用于调用存储器120中存储的应用程序，并具体执行本申请实施例的视频识别方法。

下面结合具体的实施例对本申请进行详细介绍。

在一个实施例中，如图4所示，特提出了一种视频识别方法，该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的视频识别装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

具体的，该视频识别方法包括：

S101，获取待处理的视频，确定所述视频中的至少一帧图像；

可以理解的是，所述待处理的视频可以为任意内容的视频，如录制的教学视频、网站的电影视频、即时通信接收的聊天视频、播放器中的MV等视频。

可以从网络下载、采用录像设备录制、接收其他用户传输、或用户自己制作等方式获取待处理的视频。

该待处理的视频包括多帧图像，至少一帧图像可以为该视频的全部图像帧，也可以为部分图像帧，如关键帧。关键帧相当于二维动画中的原画，指角色或者物体运动或变化中的关键动作所处的那一帧。

需要说明的是，通常，连续的多帧图像其图像内容差异较小，而当视频较大时，需要处理的图像帧较多，从而降低了处理效率，因此，通常会选取差异较大的部分图像帧进行处理。

在可行的实现方式中，按照设定的帧数对视频进行抽帧处理，得到至少一帧图像；或者，按照处理器的处理效率以及处理时长的需求，计算得到处理帧数，然后按照预设规则进行抽取，得到至少一帧图像；或者，按照设定的间隔帧数进行抽取，得到至少一帧图像。

S102，确定每帧所述图像的清晰度得分，根据各所述清晰度得分计算所述视频的目标清晰度得分；

清晰度是指人眼宏观看到的图像的清晰程度，是由系统和设备的客观性能的综合结果造成的人们对图像的主观感觉。

对于获取的每帧图像，都分别计算清晰度得分，然后计算各帧图像的清晰度得分的平均值，从而得到视频的目标清晰度得分。

其中，对于图像的清晰度的计算，常用的方式有均差法与峰值信噪比，HVS，点锐度算法，空域参数方差，频域调制传递函数MTF等。还可以基于sobel算子的梯度像素以及高斯噪声计算图像的清晰度得分，也可以直接使用sobel算子的梯度得分粗略估计视频画面清晰度。

在可行的实现方式中，计算各帧清晰度得分的平均值，将该平均值作为视频的目标清晰度得分；或者确定所述清晰度得分中排列在前的部分得分，计算这些部分得分的平均值，并将该平均值作为视频的目标清晰度得分；还可以为计算清晰度得分中的最高得分和最低得分，并计算两者的平均值作为视频的目标清晰度得分，等。

S103，根据所述目标清晰度得分与预设清晰度阈值的比较结果，对所述视频进行清晰识别。

将视频的目标清晰度得分与人工预先设定的审核阈值作比较，来判定视频画质是否属于清晰范畴，具体的，当所述目标清晰度得分大于或者等于所述预设清晰度阈值时，确定所述视频为清晰视频，当所述目标清晰度得分小于所述预设清晰度阈值时，确定所述视频为模糊视频。

所述预设清晰度阈值可以理解为用户可正常观看的最低清晰度，为人工预先设定的审核阈值，可根据不同场景使用的实际情况进行修改，以适应不同场景需求。

其中，清晰度阈值的设置可采用以下两种方案：

其一，由人工根据经验直接设定。通过本方案所得的清晰度在实数区间[0,1] 取值，值越高代表画面纹理质量越清晰。例如，对于日常生活场景视频清晰度要求较低，那么该阈值一般相对较低；而对于部分医疗行业、制造业等精度要求较高的场景，对于视频清晰度要求较高，可根据需求取更高的数值作为清晰度阈值。人们对清晰度的主观感觉会受到不同业务场景的影响，对于某些专业领域场景的算法应用，参考人工经验设置清晰度阈值是合理的。

其二，由现有视频数据得分的分布设定。在已有视频样本且样本数量足够的情况下(样本数目太少则统计分布所得的结果不具有一般性，本方案要求正负样本都至少大于或等于30个)，可以采用数据分布曲线来确定阈值。其中，已有的视频数据样本已被人工审核过，划分为清晰样本与不清晰样本。本算法对已有的所有样本计算清晰度，并分别绘制清晰样本得分与不清晰样本得分的分布曲线，取两个分布曲线的交汇处为清晰度阈值，如图5所示。

在本申请实施例中，获取待处理的视频，确定所述视频中的至少一帧图像，并确定每帧所述图像的清晰度得分，根据各所述清晰度得分计算所述视频的目标清晰度得分，再根据所述目标清晰度得分与预设清晰度阈值的比较结果，对所述视频进行清晰识别。可以通过计算清晰度得分进行客观评判，而不需要依赖人工判断，为教学视频的观感质量评估，提出了一种全新的客观评估标准，同时，可以节省时间成本，提高审查效率。

请参见图6，图6是本申请提出的一种视频识别方法的另一实施例的流程示意图。具体的：

S201，获取待处理的视频，根据设定帧数对所述视频进行抽帧处理，得到至少一帧图像；

可以理解的是，所述待处理的视频可以为任意内容的视频，在本申请实施例中，以所述待处理的视频为录制的教学视频为例进行说明。

为了减少计算量以提高效率，需要对该教学视频进行抽帧处理，即抽取部分帧用于计算。具体的，可根据设定帧数每间隔相同的帧数进行抽取，或者根据设定帧数每间隔不同的帧数进行抽取。不同的帧数可以为随机帧数，也可以为递进(递增或递减)帧数，此处不作具体限定。

例如，该视频包括10000帧，需要抽取1000帧，则每间隔10帧抽取一帧，那么将抽取的这1000帧图像确定为所得到的至少一帧图像。

当然，如果抽取的帧数过多，可以提高清晰度计算的准确度，但相应的会降低效率，如果抽取的帧数过少，可以提高清晰度计算的准确度，当会引入无效信息，也会影响到清晰度的准确，因此，优选范围可以为25-400帧。

S202，获取所述图像中的目标图像，计算所述目标图像的像素梯度以及高斯噪声；

对于所抽取的每帧图像都采用相同的处理方式，因此，此处以其中的一帧目标图像为例进行说明。

索伯算子(Sobel operator)是一种计算机视觉计算及图像处理中的特征算子，有时又称为索伯滤波器，常被用来在图像领域处理边缘检测等问题。索伯算子最早是由美国计算机科学家Irwin Sobel于1968年所提出。一帧图像的清晰程度可以由固定窗口大小内像素点展现的边缘梯度强度来量化，而索伯算子可以检测水平方向以及垂直方向的边缘梯度强度，本申请实施例中正是运用了索伯算子的该特性，来达到量化计算图像的像素梯度的目的。

其中，索伯算子的水平像素检测算子矩阵如表1所示，以及垂直像素检测算子矩阵如表2所示：

表1

+1	0	-1
			+2	0	-2
+1	0	-1

表2

+1	+2	+1
			0	0	0
-1	+2	-1

如果以A代表原始图像，将矩阵分别与原始图像作卷积，分别得到水平边缘检测的图像方向梯度Gx及垂直边缘检测的图像方向梯度Gy，其公式如下：

那么索伯算子梯度为

G即为目标图像的像素梯度。

高斯噪声可通过高斯模糊算子进行计算。高斯模糊算子是图像处理中常见的一种平滑算子，其作用是可以将图片进行平滑模糊化处理。

所谓“模糊”，可以理解成每一个像素点都取周边像素的加权平均值，从而减少与周边像素点的差异。由于计算机中的图像都是二维矩阵表示，因此本申请实施例中采用二维高斯函数来计算权重矩阵。二维高斯函数如下：

其中，x和y为所选取的窗口的各个像素点的坐标，σ为标准差，为一常数。例如，取σ＝1.5，使用宽、高都为3个像素点宽度的窗口对图像做高斯模糊处理，中心点坐标为(0,0)，那么窗口内其它点的坐标如表3所示，而对应的权重如表4所示：

表3

(-1,1)	(0,1)	(1,1)
			(-1,0)	(0,0)	(1,0)
(-1,-1)	(0,-1)	(1,-1)

表4

0.09474	0.1183	0.09474
			0.1183	0.1478	0.1183
0.09474	0.1183	0.09474

根据这个高斯权重分布图，即可对每一个像素点进行高斯模糊计算，即模糊后的像素点为原来像素点及周边8个像素点分别乘以对应位置的权重而得，如果是图片边缘的像素，则对边界外的点做补0处理

其中，表4对应的权重矩阵为Filter

假设高斯模糊之前的像素值为a，高斯模糊之后的像素值为a’，那么：

其中a₁～a₈为中心点a的周围8个像素点值，如果没有则取0。对于整张视频帧而言，如果以A代表原始图像，以A’代表模糊后图像，则有：

A’＝Filter*A。

可以理解的是，对于A中的每个像素点都按照上述方式进行计算，从而得到模糊后图像，即得到目标图像的高斯噪声。

S203，根据所述像素梯度以及所述高斯噪声计算所述目标图像的清晰度得分；

SSIM(Structural SIMilarity)即结构相似性，是一种衡量两帧图像相似度的指标。本实施例中采用该指标特性来标准化图像的清晰度得分。

对于每一帧图像，分别计算其区域sobel梯度得分G_i和区域高斯模糊A′_i。

定义区域sobel梯度得分G_i的均值为

，方差为

，区域高斯模糊A′_i的均值为

方差为

G_i与A′_i的协方差为γ_GA，用于维持稳定的常数参量为c₁和c₂，则对于该目标图像的SSIM计算公式为：

即SSIM为目标图像的清晰度得分Score。

S204，根据各所述图像的清晰度得分计算所述视频的目标清晰度得分；

计算所抽取的各帧图像的清晰度得分Score的平均值

将该

确定为视频的目标清晰度得分。

S205，当所述目标清晰度得分大于或者等于所述预设清晰度阈值时，确定所述视频为清晰视频；

视频审核员根据自己以往的经验或者在已有的视频样本上运行本方案，来调试并确定一个视频清晰度的判定阈值Threshold∈[0,1]，从而按照下表中的规则自动化对视频进行画质清晰度审核：

在实际场景的应用中Threshold可以根据业务需求变动随时进行调整。

S206，当所述目标清晰度得分小于所述预设清晰度阈值时，确定所述视频为模糊视频；

S207，将所述清晰视频保存至资源库中。

所述资源库可以为教学视频资源库，将清晰视频自动存放至该资源库中，以便后续可以直接从该资源库中调取相关视频进行播放。

在本申请实施例中，可以通过计算清晰度得分进行客观评判，而不需要依赖人工判断，为教学视频的观感质量评估，提出了一种全新的客观评估标准，同时，可以节省时间成本，提高审查效率。以整帧图像为单位计算像素梯度以及高斯噪声，可以节省分块处理的步骤，此外，可以自动将所识别的清晰视频保存至资源库中，增加了后续读取视频及播放视频的便利性。

请参见图7，图7是本申请提出的一种视频识别方法的另一实施例的流程示意图。具体的：

S301，获取待处理的视频，根据设定帧数对所述视频进行抽帧处理，得到至少一帧图像；

具体可参见S201，此处不再赘述。

S302，获取所述图像中的目标图像，将所述目标图像分割为至少一个图像块；

目标图像为所抽取的至少一帧图像中的任一帧图像，对于每帧图像的处理方式相同，因此，此处仅对其中的一帧目标图像进行说明。

将目标图像按照宽、高等分为多份(如分别10等分)，划分为多个(100 个)一样大小的区域，即多个图像块Region_i。

S303，计算所述图像块中各图像块的交叉熵；

为了减少计算量以及提高计算效率，可选取部分图像块进行处理。因此，可分别计算目标图像中各个图像块对应的交叉熵，根据交叉熵确定进行后续处理的图像块。交叉熵是信息论中的一个重要概念，在信息论中，基于相同事件测度的两个概率分布p和q的交叉熵是指，当基于一个“非自然”的概率分布进行编码时，在事件集合中唯一标识一个事件所需要的平均比特数，常用来定义分部之间的信息差异性。

基于概率分布p和q的交叉熵定义为：H(p，q)＝E_p[-log q]＝H(p)+D_KL(p||q)

其中H(p)是p的熵，D_KL(p||q)是从p到q的KL散度(也被称为p相对于q 的相对熵)。

在本实施例中利用熵的特性定义一定区域内像素值分布的差异程度，而这种差异越大越能表示该区域包含的内容信息越丰富。

对于每一个图像块，定义图像块中的像素点值a_x∈{图像块的所有像素点集合N}，下标x标识不同的像素点，像素点取值范围为[0，255]。整个图像块的交叉熵为Entropy，则计算公式为：

对于每个图像块，都需要计算交叉熵。

S304，按照所述交叉熵的高低顺序进行排列，获取所述交叉熵中排列在前的预设个数的目标交叉熵；

可以理解的是，交叉熵越大，一定区域内像素值分布的差异程度越大，像素信息越丰富。

具体的，按照由高到低的顺序对各Entropy进行排列，然后取出Entropy最大的预设个数(如10个)图像块Region_i,i∈[1,10]。

S305，确定各所述目标交叉熵分别对应的目标图像块；

图像块与交叉熵一一对应，从而确定各个目标交叉熵对应的目标图像块。

S306，计算各所述目标图像块分别对应的像素梯度以及高斯噪声；

对于每个目标图像块，分别计算像素梯度以及高斯噪声。

其中，采用Sobel算子计算各所述目标图像块分别对应的像素梯度，并采用高斯模糊算法计算各所述目标图像块分别对应的高斯噪声。具体计算过程详见上述S202，此处不再赘述。

S307，根据各所述目标图像块分别对应的像素梯度以及高斯噪声计算结构相似性；

每个图像块的SSIM计算方式与S203中一帧图像的计算方式相同，此处不再赘述。

S308，将各所述结构相似性的第一平均值确定为所述目标图像的清晰度得分；

对这多个图像块的SSIM计算平均值，从而得到这多个图像块对应的目标图像的清晰度得分Score＝average(SSIM_i)。

S309，计算各所述清晰度得分的第二平均值，将所述第二平均值确定为所述视频的目标清晰度得分；

按照上述方式，得到每帧图像的清晰度Score，再对这多个Score计算平均值，从而得到视频的目标清晰度得分

例如，目前在应用场景中对于每份视频，随机抽取9帧图像，作为清晰度的评判素材。即对于这9帧图像的清晰度得分Score，计算其平均值

作为该份教学视频的画质清晰度得分。

S310，当所述目标清晰度得分大于或者等于所述预设清晰度阈值时，确定所述视频为清晰视频；

S311，当所述目标清晰度得分小于所述预设清晰度阈值时，确定所述视频为模糊视频；

S312，将所述清晰视频保存至资源库中。

S310-S312具体可参见S205-S207，此处不再赘述。

可选的，一种具体的应用场景为评估上百份老师录制的课程教学视频。在此前的传统流程中，每当老师上传一份教学视频，审核人员需要首先打开教学视频，然后观看该视频，整个过程可能花费几分钟到数十分钟不等，最后根据自己观看感受给出一个视频清晰度的判断。如果判断清晰度合格，则通过审核加入资源库；如果判断视频过于模糊不适宜观看使用，则淘汰该视频。通过应用本方案，每当老师上传一份教学视频，会自动对这份教学视频进行切帧，并且对每一帧都计算画面质量清晰度，最后取均值作为该份视频的量化画质清晰度。依据这个量化的结果，审核员可以根据自己的需求或经验，设置一个阈值对视频课程进行自动化的筛选，也即不再需要对所有未审核的视频一份一份的观看然后人工评估；此外本方案计算一份视频的清晰度只需要7.5秒，效率上也远高于人工审核，为未来的业务量增长带来的审核视频增加做了预先的准备。因此本方案极大的减轻了教学视频课程审核员的负担，给了该业务场景有力的支持。

可选的，也可以直接使用sobel算子的梯度得分粗略估计视频画面清晰度。

在本申请实施例中，可以通过计算清晰度得分进行客观评判，而不需要依赖人工判断，为教学视频的观感质量评估，提出了一种全新的客观评估标准，还可以节省时间成本，提高审查效率。借助熵的概念以及结构相似度原理，优化了单纯使用sobel算子计算清晰度的方案对比人工审核视频的不确定时间，同时，计算每个视频清晰度的时间只需要几秒钟，相比人工效率上有了极大的优化。此外，可以自动将所识别的清晰视频保存至资源库中，增加了后续读取视频及播放视频的便利性。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图8，其示出了本申请一个示例性实施例提供的视频识别装置的结构示意图。该视频识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括图像确定模块10、得分计算模块20和视频识别模块30。

图像确定模块10，用于获取待处理的视频，确定所述视频中的至少一帧图像；

得分计算模块20，用于确定每帧所述图像的清晰度得分，根据各所述清晰度得分计算所述视频的目标清晰度得分；

视频识别模块30，用于根据所述目标清晰度得分与预设清晰度阈值的比较结果，对所述视频进行清晰识别。

可选的，所述图像确定模块10，具体用于：

根据设定帧数对所述视频进行抽帧处理，得到至少一帧图像。

可选的，如图9所示，所述得分计算模块20，包括：

信息计算单元21，用于获取所述图像中的目标图像，计算所述目标图像的像素梯度以及高斯噪声；

得分计算单元22，用于根据所述像素梯度以及所述高斯噪声计算所述目标图像的清晰度得分。

可选的，如图10所示，所述信息计算单元21，包括：

图像分割子单元211，用于将所述目标图像分割为至少一个图像块；

交叉熵计算子单元212，用于计算所述图像块中各图像块的交叉熵；

信息计算子单元213，用于根据各所述交叉熵计算所述目标图像的像素梯度以及高斯噪声。

可选的，所述信息计算子单元21，具体用于：

按照所述交叉熵的高低顺序进行排列，获取所述交叉熵中排列在前的预设个数的目标交叉熵；

确定各所述目标交叉熵分别对应的目标图像块；

计算各所述目标图像块分别对应的像素梯度以及高斯噪声。

可选的，所述得分计算模块20，具体用于：

根据各所述目标图像块分别对应的像素梯度以及高斯噪声计算结构相似性；

将各所述结构相似性的第一平均值确定为所述目标图像的清晰度得分。

可选的，所述信息计算子单元213，具体用于：

采用Sobel算子计算各所述目标图像块分别对应的像素梯度；

采用高斯模糊算法计算各所述目标图像块分别对应的高斯噪声。

可选的，所述得分计算模块20，具体用于：

计算各所述清晰度得分的第二平均值，将所述第二平均值确定为所述视频的目标清晰度得分。

可选的，所述视频识别模块30，具体用于：

当所述目标清晰度得分大于或者等于所述预设清晰度阈值时，确定所述视频为清晰视频；

当所述目标清晰度得分小于所述预设清晰度阈值时，确定所述视频为模糊视频。

可选的，如图11所示，所述装置还包括视频保存模块40，用于：

将所述清晰视频保存至资源库中。

需要说明的是，上述实施例提供的视频识别装置在执行视频识别方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频识别装置与视频识别方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图4-图7所示实施例的方法步骤，具体执行过程可以参见图4-图7所示实施例的具体说明，在此不进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频识别方法，其特征在于，所述方法包括：

获取待处理的视频，确定所述视频中的至少一帧图像；

2.根据权利要求1所述的方法，其特征在于，所述确定所述视频中的至少一帧图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定每帧所述图像的清晰度得分，包括：

获取所述图像中的目标图像，计算所述目标图像的像素梯度以及高斯噪声；

根据所述像素梯度以及所述高斯噪声计算所述目标图像的清晰度得分。

4.根据权利要求3所述的方法，其特征在于，

所述目标图像的像素梯度

G_x为水平方向梯度，G_x＝水平像素检测算子矩阵*目标图像，G_y为垂直方向梯度，G_y＝垂直像素检测算子矩阵*目标图像。

5.根据权利要求3所述的方法，其特征在于，

所述目标图像的高斯噪声A’Filter*A，其中，A代表模糊前的目标图像，A’代表模糊后的目标图像，Filter为所选取的窗口对应的高斯模糊权重矩阵；

所述Filter基于二维高斯函数

计算得到，其中，x和y为所选取的窗口的各个像素点的坐标，σ为标准差。

6.根据权利要求3所述的方法，其特征在于，所述计算所述目标图像的像素梯度以及高斯噪声，包括：

将所述目标图像分割为至少一个图像块；

计算所述图像块中各图像块的交叉熵；

根据各所述交叉熵计算所述目标图像的像素梯度以及高斯噪声。

7.根据权利要求6所述的方法，其特征在于，

所述图像块的交叉熵

其中，a_x为图像块中的像素点值，x标识不同的像素点。

8.根据权利要求6所述的方法，其特征在于，所述根据各所述交叉熵计算所述目标图像的像素梯度以及高斯噪声，包括：

确定各所述目标交叉熵分别对应的目标图像块；

计算各所述目标图像块分别对应的像素梯度以及高斯噪声。

9.根据权利要求8所述的方法，其特征在于，所述根据所述像素梯度以及所述高斯噪声计算所述目标图像的清晰度得分，包括：

10.根据权利要求9所述的方法，其特征在于，

所述结构相似性

其中，区域sobel梯度得分G_i的均值为

方差为

区域高斯模糊A′_i的均值为

方差为

G_i与A′_i的协方差为γ_GA，用于维持稳定的常数参量为c₁和c₂。

11.根据权利要求9所述的方法，其特征在于，所述计算各所述目标图像块分别对应的像素梯度以及高斯噪声，包括：

采用Sobel算子计算各所述目标图像块分别对应的像素梯度；

12.根据权利要求1所述的方法，其特征在于，所述根据各所述清晰度得分计算所述视频的目标清晰度得分，包括：

13.根据权利要求1所述的方法，其特征在于，所述根据所述目标清晰度得分与预设清晰度阈值的比较结果，对所述视频进行清晰识别，包括：

14.根据权利要求9所述的方法，其特征在于，所述方法还包括：

将所述清晰视频保存至资源库中。

15.一种视频识别装置，其特征在于，所述装置包括：

16.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～14任意一项的方法步骤。

17.一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～14任意一项的方法步骤。