CN110796098B

CN110796098B - 内容审核模型的训练及审核方法、装置、设备和存储介质

Info

Publication number: CN110796098B
Application number: CN201911051711.0A
Authority: CN
Inventors: 石峰; 刘振强
Original assignee: Guangzhou Wangxing Information Technology Co Ltd
Current assignee: Guangzhou Wangxing Information Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-07-27
Anticipated expiration: 2039-10-31
Also published as: US20220377421A1; CN110796098A; WO2021082589A1; EP4053733A4; EP4053733A1

Abstract

本发明实施例公开了一种内容审核模型的训练及审核方法、装置、设备和存储介质，内容审核模型的训练方法包括：接收样本视频文件；提取样本视频文件中的部分图像数据，作为样本图像数据；若所述样本图像数据的内容违规，则定位所述样本图像数据在所述样本视频文件中所处的时间点；从围绕所述时间点的图像数据中提取具备显著性的图像区域数据；根据所述图像区域数据与所述样本图像数据训练内容审核模型。在时间上定位内容违规的样本图像数据，在空间上定位具备显著性的图像区域数据，可快速从样本视频文件中抽样表征内容违规的特征，并在时间和空间的维度上加大特征的质量，以此训练内容审核模型，可保证内容审核模型的性能。

Description

内容审核模型的训练及审核方法、装置、设备和存储介质

技术领域

本发明实施例涉及视频审核的技术，尤其涉及内容审核模型的训练及审核方法、装置、设备和存储介质。

背景技术

随着互联网技术的发展，互联网视频的流量在近几年大量增加，短视频、直播等各种新型UGC(用户原创内容，User Generated Content)促使互联网视频越来越丰富。

与此同时，大量内容违规的视频，如内容涉及恐怖、涉及暴力、涉及色情、涉及赌博等的视频，也被生产并意图在互联网上传播。

因此，在视频发布之前或发布之后，一般需要对该视频的内容进行审核，滤除内容违规的视频。

早期，一般依靠人工来审核上传至互联网的视频资源是否包含违规内容，然而随着互联网上的视频资源量越来越大，依靠人工对视频内容进行审核需要消耗大量人力成本，并且效率较低。因而目前对视频进行审核方式，经常考虑采用机器学习的方式，在这种方案中，需要首先对训练视频中的图像数据(图像帧)是否违规及其违规类别进行人工标注，然后将这些图像数据及相应的违规类别输入到机器学习的模型中进行训练，并利用训练得到的模型对其他视频内容进行鉴别。

但是，对每个待训练视频中的图像数据进行标注，图像数据的数据量大、标注操作繁琐，导致模型训练、应用模型对视频进行审核的效率较低，而且，由于人工标注，导致模型训练的成本高。

发明内容

本发明实施例提供一种内容审核模型的训练及审核方法、装置、设备和存储介质，以解决人工对图像数据进行标注，导致模型训练、应用模型对视频进行审核的效率较低，模型训练的成本高的问题。

第一方面，本发明实施例提供了一种内容审核模型的训练方法，包括：

提取样本视频文件的部分图像数据，作为样本图像数据；

若所述样本图像数据的内容违规，则定位所述样本图像数据在所述样本视频文件中所处的时间点；

从围绕所述时间点的图像数据中提取具备显著性的图像区域数据；

根据所述图像区域数据与所述样本图像数据训练内容审核模型。

第二方面，本发明实施例还提供了一种视频内容的审核方法，包括：

提取目标视频文件的部分图像数据，作为目标图像数据；

若所述目标图像数据的内容违规，则定位所述目标图像数据在所述目标视频文件中所处的时间点；

将所述图像区域数据与所述目标图像数据输入至预设的内容审核模型中，以对所述目标视频文件的内容进行审核。

第三方面，本发明实施例还提供了一种内容审核模型的训练装置，包括：

样本图像数据提取模块，用于提取样本视频文件的部分图像数据，作为样本图像数据；

时间点定位模块，用于若所述样本图像数据的内容违规，则定位所述样本图像数据在所述样本视频文件中所处的时间点；

图像区域数据提取模块，用于从围绕所述时间点的图像数据中提取具备显著性的图像区域数据；

模型训练模块，用于根据所述图像区域数据与所述样本图像数据训练内容审核模型。

第四方面，本发明实施例还提供了一种视频内容的审核装置，包括：

目标图像数据提取模块，用于提取目标视频文件的部分图像数据，作为目标图像数据；

时间点定位模块，用于若所述目标图像数据的内容违规，则定位所述目标图像数据在所述目标视频文件中所处的时间点；

视频审核模块，用于将所述图像区域数据与所述目标图像数据输入至预设的内容审核模型中，以对所述目标视频文件的内容进行审核。

第五方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的内容审核模型的训练方法或者如第二方面所述的视频内容的审核方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的内容审核模型的训练方法或者如第二方面所述的视频内容的审核方法。

在本实施例中，接收样本视频文件，该样本视频文件具有多帧图像数据，提取部分图像数据，作为样本图像数据，若样本图像数据的内容违规，则定位样本图像数据在样本视频文件中所处的时间点，从围绕时间点的图像数据中提取具备显著性的图像区域数据，根据图像区域数据与样本图像数据训练内容审核模型，在时间上定位内容违规的样本图像数据，在空间上定位具备显著性的图像区域数据，实现了对样本视频文件的时空定位，即对样本视频文件中违规(标签)的内容在时间和空间维度上进行自定定位，可快速从样本视频文件中抽样表征内容违规的特征，并在时间和空间的维度上加大特征的质量，以此训练内容审核模型，可保证内容审核模型的性能，并且，定位内容违规的样本图像数据及图像区域数据，在不增加标注工作量的前提下，实现了对样本图像数据的自动标注，操作简便，无需人工标注，提高了训练内容审核模型的效率，降低了训练内容审核模型的成本。

附图说明

图1为本发明实施例一提供的一种内容审核模型的训练方法的流程图；

图2为本发明实施例一提供的一种内容审核模型的训练示例图；

图3是本发明实施例二提供的一种内容审核模型的训练方法的流程图；

图4是本发明实施例三提供的一种视频内容的审核方法的流程图；

图5是本发明实施例三提供的一种视频内容的审核示例图；

图6是本发明实施例四提供的一种视频内容的审核方法的流程图；

图7为本发明实施例五提供的一种内容审核模型的训练装置的结构示意图；

图8为本发明实施例六提供的一种视频内容的审核装置的结构示意图；

图9为本发明实施例七提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合

实施例一

图1为本发明实施例一提供的一种内容审核模型的训练方法的流程图，本实施例可适用于通过时间、空间自动对视频数据进行标注的情况，该方法可以由内容审核模型的训练装置来执行，该内容审核模型的训练装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑，等等，该方法具体包括如下步骤：

S101、接收样本视频文件。

样本视频文件，属于视频(vedio)，其具有多帧连续的图像数据，连续的图像数据变化每秒超过24帧(frame)时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果。

在本实施例中，可预先通过从网络抓取视频文件、累积用户上传的视频文件、从公开的数据库中下载视频文件等方式，获取视频文件作为训练内容审核模型的样本，称之为样本视频文件。

针对不同的业务场景，该样本视频文件的格式、形式有所不同，本实施例对此不加以限制。

进一步而言，该样本视频文件的格式可以包括MPEG(Moving Picture ExpertsGroup，动态图像专家组))、RMVB(RealMedia Variable Bitrate，可变比特率)、AVI(AudioVideo Interleaved，音频视频交错格式)、FLV(Flash Video，流媒体格式)，等等。

该样本视频文件的形式可以包括短视频、直播视频、电影、电视剧，等等。

S102、提取样本视频文件中的部分图像数据，作为样本图像数据。

在本实施例中，可以从样本视频文件的所有图像数据中，选择部分图像数据，作为样本图像数据。

S103、若所述样本图像数据的内容违规，则定位所述样本图像数据在所述样本视频文件中所处的时间点。

在本实施例中，可对样本图像数据的内容进行识别，确定该样本图像数据的内容是否违法规定，若内容涉及恐怖、涉及暴力、涉及色情、涉及赌博等，则可以确定该样本图像数据的内容违规，若内容涉及风景、建筑等，则可以确定该样本图像数据的内容合法。

针对内容违规的样本图像数据，可进一步定位该样本图像数据在样本视频文件的时间轴中所处的时间点。

S104、从围绕所述时间点的图像数据中提取具备显著性的图像区域数据。

显著性，属于图像中的视觉特征，体现了人眼对图像的某些区域的重视程度。

对于一帧图像来说，用户对图像中的部分区域感兴趣，这部分感兴趣的区域代表了用户的意图，而多数剩余的不感兴趣区域则与用户的意图无关，即具备显著性的区域是图像中最能引起用户兴趣、最能表现图像内容的区域。

事实上，显著性的选择是比较主观的，由于用户任务和知识背景的不同，对于同一帧图像，不同的用户可能会选择不同的区域作为具备显著性的区域。

目前，多利用人的注意力机制为基础计算图像的显著度，认知心理学的研究表明，图像中有些区域能显著的吸引人的注意，这些区域含有较大的信息量，因此，可根据数学模型来模拟人的注意力机制，由于利用了图像认知过程中的一般规律，这样提取的具备显著性的区域比较符合人的主观评价。

在样本视频文件的时间轴上，围绕样本图像数据的时间点存在多帧图像数据，在本实施例中，可从该图像数据中提取具备显著性的区域，作为图像区域数据。

对于样本视频文件，短时间内一般不会转换场景，即围绕样本图像数据的其他图像数据与样本图像数据的内容大致相同，在样本图像数据内容违规的情况下，该图像数据内容违规的概率是比较大的，可认为该图像数据内容也违规，因此，基于用户对涉及恐怖、涉及暴力、涉及色情、涉及赌博等违规内容的敏感性，该图像数据中具备显著性的图像区域数据主要集中涉及恐怖、涉及暴力、涉及色情等违规内容。

S105、根据所述图像区域数据与所述样本图像数据训练内容审核模型。

在本实施例中，可预先对样本视频文件标记表征内容违规的违规类别，以不同样本视频文件的图像区域数据与样本图像数据作为训练样本、该违规类别作为标签，通过预设的网络进行训练，在训练完成时，获得内容审核模型。

在具体实现中，该网络既可以包括SVM(Support Vector Machine，支持向量机)、随机森林、Xgboost等机器模型，也可以包括CNN(Convolutional Neural Network，卷积神经网络)、DNN(Deep Neural Networks，深度神经网络)、RNN(Recurrent Neural Network，循环神经网络)等神经网络，本实施例对此不加以限制。

为使本领域技术人员更好地理解本实施例，在本实施例中，将DNN作为内容审核模型的一种示例进行说明。

在本示例中，确定对样本视频文件标记的、表征内容违规的违规类别，如恐怖、暴力、色情等。

获取深度神经网络与预训练模型(pre-trained model)，其中，预训练模型是深度学习架构，已经过训练以执行大量数据上的特定任务(如识别图片中的分类问题)，包括VGG、Inception、ResNet、MobileNet、NasNet等。

使用预训练模型初始化深度神经网络，即通过使用之前在大数据集上经过训练的预训练模型，可以直接使用相应的结构和权重，将它们应用到深度神经网络上，实现迁移学习。

基于反向传播，采用图像区域数据、样本图像数据与违规类别将深度神经网络训练为内容审核模型。

进一步而言，将图像区域数据、样本图像数据输入深度神经网络，通过神经元之间的非线性映射将原始的像素信息融合在一起，并通过一个Softmax回归层得到不同违规类别的得分，作为违规分数，通过和训练样本的标签求交叉熵得到整个深度神经网络的分类损失。

需要说明的是，若样本视频文件属于不同的违规类别，则该内容审核模型可以用于识别不同的违规类别，若样本视频文件属于同一个的违规类别，则该内容审核模型可以用于识别该违规类别。

为使本领域技术人员更好地理解本实施例，以下通过具体的示例来说明本实施例中内容审核模型的训练方法。

例如，如图2所示，对于一个内容为拳击比赛的样本视频文件201，从中提取六帧图像数据，作为样本图像数据202，确定其中四帧内容违规的样本图像数据203，该内容违规的样本图像数据203涉及暴力，在样本视频文件201的时间轴204上定位内容违规的样本图像数据203的时间点，在围绕该时间点的图像数据205中提取具备显著性的图像区域数据(方框部分)，以样本图像数据202、图像数据205中具备显著性的图像区域数据作为训练样本，以该样本视频文件201的违规类别206作为标签，训练内容审核模型207，使得该内容审核模型207可用于对图像数据进行分类，分类的维度与违规类别206保持一致。

实施例二

图3为本发明实施例二提供的一种内容审核模型的训练方法的流程图，本实施例以前述实施例为基础，进一步细化提取样本图像数据、定位时间点、提取图像区域数据的处理操作。该方法具体包括如下步骤：

S301、接收样本视频文件。

其中，样本视频文件具有多帧图像数据。

S302、将所述样本视频文件切分为至少两个样本视频片段。

S303、在每个所述样本视频片段中提取部分图像数据，作为样本图像数据。

在具体实现中，可以按照一定的时间间隔t对样本视频文件进行分段，即将样本视频文件切分为至少两个样本视频片段。

对其中每段样本视频片段分别随机抽取n帧图像数据，作为样本图像数据，从而形成带处理的视频帧序列。

其中，t与n均为可调节的参数。

当然，除了均分样本视频文件、随机抽取图像之外，本领域技术人员还可以根据实际情况设置其他方式抽取样本图像数据，例如，针对具有弹幕的样本视频文件，弹幕可在一定程度上反应用户对样本视频文件内容的兴趣程度，在切分时参考弹幕切分样本视频文件，使得每段样本视频片段中弹幕的密度(单位时间内的数量)在设定的范围内；或者，在每段样本视频片段中抽取图像数据，使得每两帧图像数据之间的时间间隔相等，等等，本实施例对此不加以限制。

此外，可将样本图像数据缩放至预设的尺寸，亦可按照时间顺序对样本图像数据进行排序，方便训练内容审核模型。

S304、查找违规判别模型。

在本实施例中，也预先使用内容违规的图像数据作为训练样本，以违规类别作为标签，对某个网络(如CNN)进行训练，当完成训练时，可获得违规判别模型，即改违规判别模型可用于识别图像数据中内容的图像违规分数。

在一种情况中，可针对不同的违规类别训练不同的违规判别模型，即一个违规判别模型可用于识别图像数据中内容属于某种违规类别的图像违规分数。

一般情况下，样本视频文件与样本图像数据的违规类别保持一致，因此，可确定对样本视频文件标记的、表征内容违规的违规类别，查找违规类别对应的违规判别模型，违规判别模型用于识别图像数据中内容属于违规类别的图像违规分数。

当然，也可以针对不同的违规类别训练一个通用的违规判别模型，即一个违规判别模型可用于识别图像数据中内容属于不同违规类别的图像违规分数，本实施例对此不加以限制。

S305、将所述样本图像数据输入至所述违规判别模型中，以识别所述样本图像数据中内容的图像违规分数。

在确定违规判别模型之后，可依次将样本视频文件中的样本图像数据输入至该违规判别模型中进行处理，该违规判别模型依次输出该样本图像数据的图像违规分数。

S306、选择所述图像违规分数符合预设的违规条件的样本图像数据。

应用本实施例，可预先设置违规条件，该违规条件用于确定内容违规的样本图像数据。

在确定样本图像数据的图像违规分数之后，则可确定图像违规分数符合该违规条件的样本图像数据。

在一种违规条件的示例中，该违规条件为图像违规分数超过图像分数阈值，或者，图像违规分数的值最大。

在此示例中，针对所述样本图像数据，可判定是否具有超过预设的图像分数阈值的图像违规分数。

若是，则确定该图像违规分数符合预设的违规条件。

若否，则确定值最大的图像违规分数符合预设的违规条件。

当然，上述违规条件只是作为示例，在实施本实施例时，可以根据实际情况设置其他违规条件，例如，图像违规分数的值最高的前m个，等等，本发明实施例对此不加以限制。另外，除了上述违规条件外，本领域技术人员还可以根据实际需要采用其它违规条件，本发明实施例对此也不加以限制。

S307、确定符合所述违规条件的样本图像数据在所述样本视频文件中所处的时间点。

在确定某帧样本图像数据符合违规条件时，可确定样本图像数据在样本视频文件的时间轴中所处的时间点。

S308、确定包含所述时间点的时间范围。

在样本视频文件的时间轴上，以该时间点作为基点，生成包含该时间点的时间范围。

在一个示例中，假设时间点为T，则可生成时长为F的时间范围[T-F/2,T+F/2]，其中F为可调节的参数。

当然，上述生成时间范围的方式只是作为示例，在实施本实施例时，可以根据实际情况设置其他生成时间范围的方式，例如，[T-F/3,T+2F/3]、[T-3F/4,T+F/4]，等等，本发明实施例对此不加以限制。另外，除了上述生成时间范围的方式外，本领域技术人员还可以根据实际需要采用其它生成时间范围的方式，本发明实施例对此也不加以限制。

S309、查找显著区域检测模型。

在本实施例中，也预先设置显著区域检测模型，该显著区域检测模型可用于识别图像数据中具备显著性的图像区域。

在具体实现中，显著区域检测模型可应用如下三类算法：

第一类，基于低层视觉特征的显著性分析算法，如Itti算法，这是一种模拟生物体视觉注意机制的选择性注意算法，比较适合处理自然图像。

第二类，不基于任何生物视觉原理的纯数学计算方法，如全分辨率的算法(AC算法)、基于空间频域分析的剩余谱算法(SR算法)。

第三类，将前两类融合的方法，如基于图论的算法(GBVS算法)，这种算法在特征提取的过程中类似Itti算法去模拟视觉原理，但在显著图生成的过程引入马尔可夫连，用纯数学计算的来得到显著值。

S310、将所述时间范围内的图像数据输入至所述显著区域检测模型中，以识别所述图像数据中具备显著性的图像区域数据。

从样本视频文件中提取在该时间范围内的图像数据，依次将该图像数据输入至显著区域检测模型中进行处理，该显著区域检测模型依次输出图像数据中具备显著性的图像区域数据。

S311、根据所述图像区域数据与所述样本图像数据训练内容审核模型。

在本实施例中，对于内容违规的样本图像数据，以其时间点确定时间范围内，在该时间范围内的图像数据内容违规的概率较大，提取其具备显著性的图像区域数据，可快速扩大具备可靠性的训练样本，以此训练内容审核模型，可提高内容审核模型的性能。

实施例三

图4为本发明实施例三提供的一种视频内容的审核方法的流程图，本实施例可适用于通过时间、空间对视频数据进行审核的情况，该方法可以由视频内容的审核装置来执行，该视频内容的审核装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑，等等，该方法具体包括如下步骤：

S401、接收目标视频文件。

目标视频文件，属于视频(vedio)，其具有多帧连续的图像数据，连续的图像数据变化每秒超过24帧(frame)时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果。

针对不同的业务场景，该目标视频文件的格式、形式有所不同，本实施例对此不加以限制。

进一步而言，该目标视频文件的格式可以包括MPEG、RMVB、AVI、FLV，等等。

该目标视频文件的格式可以包括短视频、直播视频、电影、电视剧，等等。

用户将目标视频文件上传至计算机设备，意图发布该目标视频文件，让公众传阅、浏览。

不同的计算机设备可按照业务、法律等因素制定审核标准，在发布目标视频文件之前，按照该审核标准对该目标视频文件的内容进行审核，过滤掉一些不符合审核标准的目标视频文件，如内容涉及恐怖、涉及暴力、涉及色情、涉及赌博等的目标视频文件，从而发布一些符合审核标准的目标视频文件。

对于短视频、直播视频等对于实时性要求较高的目标视频文件，可设置流式实时系统，用户通过客户端实时将目标视频文件上传至该流式实时系统，该流式实时系统可将该目标视频文件传输至计算机设备进行审核。

对于电影、电视剧等对于实时性要求较低的目标视频文件，可设置数据库，如分布式数据库等，用户通过客户端将计算机设备上传至该数据库，计算机设备可从该数据库读取该目标视频文件进行审核。

S402、提取目标视频文件的部分图像数据，作为目标图像数据。

在本实施例中，可以从目标视频文件的所有图像数据中，选择部分图像数据，作为目标图像数据。

S403、若所述目标图像数据的内容违规，则定位所述目标图像数据在所述目标视频文件中所处的时间点。

在本实施例中，可对目标图像数据的内容进行识别，确定该目标图像数据的内容是否违法规定，若内容涉及恐怖、涉及暴力、涉及色情、涉及赌博等，则可以确定该目标图像数据的内容违规，若内容涉及风景、建筑等，则可以确定该目标图像数据的内容合法。

针对内容违规的目标图像数据，可进一步定位该目标图像数据在目标视频文件的时间轴中所处的时间点。

S404、从围绕所述时间点的图像数据中提取具备显著性的图像区域数据。

目前，多利用人的注意力机制为基础计算图像的显著度，认知心理学的研究表明，图像中有些区域能显著的吸引人的注意，这些区域含有较大的信息量，因此，可提出数学模型来模拟人的注意力机制，由于利用了图像认知过程中的一般规律，这样提取的具备显著性的区域比较符合人的主观评价。

在目标视频文件的时间轴上，围绕目标图像数据的时间点存在多帧图像数据，在本实施例中，可从该图像数据中提取具备显著性的区域，作为图像区域数据。

对于目标视频文件，短时间内一般不会转换场景，即围绕目标图像数据的其他图像数据与目标图像数据的内容大致相同，在目标图像数据内容违规的情况下，该图像数据内容违规的概率是比较大的，可认为该图像数据内容也违规，因此，基于用户对涉及恐怖、涉及暴力、涉及色情、涉及赌博等违规内容的敏感性，该图像数据中具备显著性的图像区域数据主要集中涉及恐怖、涉及暴力、涉及色情等违规内容。

S405、将所述图像区域数据与所述目标图像数据输入至预设的内容审核模型中，以对所述目标视频文件的内容进行审核。

在本实施例中，可预先训练内容审核模型，该内容审核模型可用于识别目标视频文件的内容属于预设的违规类别时的文件违规分数。

由于内容审核模型的训练方式与实施例一、二的应用基本相似，所以描述的比较简单，相关之处参见实施例一、二的部分说明即可，本实施例在此不加以详述。

对于目标视频文件，可将图像区域数据与目标图像数据输入至该内容审核模型中进行处理，可基于该内容审核模型输出的结果对目标视频文件的内容进行审核，确定该目标视频文件的内容是否违规。

在具体实现中，将图像区域数据与目标图像数据输入预设的内容审核模型中，以确定目标视频文件的内容属于预设的违规类别时的文件违规分数。

确定文件分数阈值。

将该文件违规分数与该文件分数阈值进行比较。

若文件违规分数小于或等于文件分数阈值，表示目标视频文件内容违规的概率较低，则可确定目标视频文件的内容合法。

若文件违规分数大于文件分数阈值，表示目标视频文件内容违规的概率较高，则可将目标视频文件作为审核任务，分发至指定的客户端，该客户端由专门的审核人员进行管理。

客户端接收到该审核任务之后，该审核人员可以浏览相应的目标视频文件，人工判定该目标视频文件的内容是否违规。

当接收到客户端发送的第一审核信息时，确定目标视频文件的内容合法。

当接收到客户端发送的第二审核信息时，确定目标视频文件的内容违规。

在一种文件分数阈值的确定方式中，可确定在先的一时间段(如在先一天)内，目标视频文件的总数量，当然，该目标视频文件已确定文件违规分数。

生成文件分数阈值，以使审核数量与总数量之间的比值与预设的推送比(SIPR)匹配，其中，审核数量为文件违规分数超过文件分数阈值的目标视频文件的数量。

一般情况下，内容违规的目标视频文件的数量占所有目标视频文件的数量的占比是比较低的，如1％，在此确定方式中，可设置高于该占比的推送比，如10％，以保证尽可能人工审核内容违规的目标视频文件。

假设在先一时间段内所有目标视频文件的数量为100000，推送比为10％，则可按照文件违规分数(从小到大)对目标视频文件进行排序，将第10000个目标视频文件的文件违规分数设置为分数阈值。

当然，上述文件分数阈值的确定方式只是作为示例，在实施本实施例时，可以根据实际情况设置其他文件分数阈值的确定方式，例如，设置一个默认的值作为文件分数阈值，等等，本发明实施例对此不加以限制。另外，除了上述违规条件外，本领域技术人员还可以根据实际需要采用其它文件分数阈值的确定方式，本发明实施例对此也不加以限制。

为使本领域技术人员更好地理解本实施例，以下通过具体的示例来说明本实施例中视频内容的审核方法。

例如，如图5所示，对于一个内容为拳击比赛的目标视频文件501，从中提取六帧图像数据，作为目标图像数据502，确定其中四帧内容违规的目标图像数据503，该内容违规的目标图像数据503涉及暴力，在目标视频文件501的时间轴504上定位内容违规的目标图像数据503的时间点，在围绕该时间点的图像数据505中提取具备显著性的图像区域数据(方框部分)，将目标图像数据502、图像数据505中具备显著性的图像区域数据输入至内容审核模型506，基于内容审核模型506输出的结果识别目标视频文件501的标签507，即合法或违规类别。

在本实施例中，接收目标视频文件，目标视频文件具有多帧图像数据，提取部分图像数据，作为目标图像数据，若目标图像数据的内容违规，则定位目标图像数据在目标视频文件中所处的时间点，从围绕时间点的图像数据中提取具备显著性的图像区域数据，将图像区域数据与目标图像数据输入至预设的内容审核模型中，以对目标视频文件的内容进行审核，在时间上定位内容违规的目标图像数据，在空间上定位具备显著性的图像区域数据，实现了对目标视频文件的时空定位，即对目标视频文件中违规(标签)的内容在时间和空间维度上进行自定定位，可快速从目标视频文件中抽样表征内容违规的特征，并在时间和空间的维度上加大特征的质量，以此进行审核，可保证内容审核的质量，降低误审率，从而提高视频内容审核的效率。

实施例四

图6为本发明实施例四提供的一种视频内容的审核方法的流程图，本实施例以前述实施例为基础，进一步细化提取目标图像数据、定位时间点、提取图像区域数据的处理操作。该方法具体包括如下步骤：

S601、接收目标视频文件。

其中，目标视频文件具有多帧图像数据。

S602、将所述目标视频文件切分为至少两个目标视频片段。

S603、在每个所述目标视频片段中，提取部分图像数据，作为目标图像数据。

在具体实现中，可以按照一定的时间间隔t对目标视频文件进行分段，即将目标视频文件切分为至少两个目标视频片段。

对其中每段目标视频片段分别随机抽取n帧图像数据，作为目标图像数据，从而形成带处理的视频帧序列。

其中，t与n均为可调节的参数。

当然，除了均分目标视频文件、随机抽取图像之外，本领域技术人员还可以根据实际情况设置其他方式抽取目标图像数据，例如，在切分目标视频文件时，两端的目标视频片段的时长较长,中间的目标视频片段的时长较短；或者，在每段目标视频片段中抽取图像数据，使得每两帧图像数据之间的时间间隔相等，等等，本实施例对此不加以限制。

此外，可将目标图像数据缩放至预设的尺寸，亦可按照时间顺序对目标图像数据进行排序，方便内容审核模型进行识别。

S604、查找违规判别模型。

S605、将所述目标图像数据输入至所述违规判别模型中，以识别所述目标图像数据中内容的图像违规分数。

在确定违规判别模型之后，可依次将目标视频文件中的目标图像数据输入至该违规判别模型中进行处理，该违规判别模型依次输出该目标图像数据的图像违规分数。

S606、选择所述图像违规分数符合预设的违规条件的目标图像数据。

应用本实施例，可预先设置违规条件，该违规条件用于确定内容违规的目标图像数据。

在确定目标图像数据的图像违规分数之后，则可确定图像违规分数符合该违规条件的目标图像数据。

在此示例中，针对所述目标图像数据，可判定是否具有超过预设的图像分数阈值的图像违规分数。

若是，则确定该图像违规分数符合预设的违规条件。

若否，则确定值最大的图像违规分数符合预设的违规条件。

S607、确定符合所述违规条件的目标图像数据在所述目标视频文件中所处的时间点。

在确定某帧目标图像数据符合违规条件时，可确定目标图像数据在目标视频文件的时间轴中所处的时间点。

S608、确定包含所述时间点的时间范围。

在目标视频文件的时间轴上，以该时间点作为基点，生成包含该时间点的时间范围。

S609、查找显著区域检测模型。

在具体实现中，显著区域检测模型可应用如下三类算法：

S610、将所述时间范围内的图像数据输入至所述显著区域检测模型中，以识别所述图像数据中具备显著性的图像区域数据。

从目标视频文件中提取在该时间范围内的图像数据，依次将该图像数据输入至显著区域检测模型中进行处理，该显著区域检测模型依次输出图像数据中具备显著性的图像区域数据。

S611、将所述图像区域数据与所述目标图像数据输入至预设的内容审核模型中，以对所述目标视频文件的内容进行审核。

在本实施例中，对于内容违规的目标图像数据，以其时间点确定时间范围内，在该时间范围内的图像数据内容违规的概率较大，提取其具备显著性的图像区域数据，可快速扩大具备可靠性的特征，以此输入内容审核模型进行处理，可提高识别违规内容的准确度。

实施例五

图7为本发明实施例五提供的一种内容审核模型的训练装置的结构示意图，该装置具体可以包括如下模块：

样本视频文件接收模块701，用于接收样本视频文件，所述样本视频文件具有多帧图像数据；

样本图像数据提取模块702，用于提取样本视频文件的部分图像数据，作为样本图像数据；

时间点定位模块703，用于若所述样本图像数据的内容违规，则定位所述样本图像数据在所述样本视频文件中所处的时间点；

图像区域数据提取模块704，用于从围绕所述时间点的图像数据中提取具备显著性的图像区域数据；

模型训练模块705，用于根据所述图像区域数据与所述样本图像数据训练内容审核模型。

在本发明的一个实施例中，所述样本图像数据提取模块702包括：

样本视频文件切分子模块，用于将样本视频文件切分为至少两个样本视频片段；

样本视频片段提取子模块，用于在每个所述样本视频片段中提取部分图像数据，作为样本图像数据。

在本发明的一个实施例中，所述样本图像数据提取模块702还包括：

排序子模块，用于按照时间顺序对所述样本图像数据进行排序；

和/或，

缩放子模块，用于将所述样本图像数据缩放至预设的尺寸。

在本发明的一个实施例中，所述时间点定位模块703包括：

违规判别模型查找子模块，用于查找违规判别模型，所述违规判别模型用于识别图像数据中内容的图像违规分数；

违规判别模型处理子模块，用于将所述样本图像数据输入至所述违规判别模型中，以识别所述样本图像数据中内容的图像违规分数；

样本图像数据选择子模块，用于选择所述图像违规分数符合预设的违规条件的样本图像数据；

时间点确定子模块，用于确定符合所述违规条件的样本图像数据在所述样本视频文件中所处的时间点。

在本发明的一个实施例中，所述违规判别模型查找子模块包括：

违规类别确定单元，用于确定对所述样本视频文件标记的、表征内容违规的违规类别；

违规类别查找单元，用于查找所述违规类别对应的违规判别模型，所述违规判别模型用于识别图像数据中内容属于所述违规类别的图像违规分数。

在本发明的一个实施例中，所述样本图像数据选择子模块包括：

图像分数阈值判断单元，用于针对所述样本图像数据，判定是否具有超过预设的图像分数阈值的图像违规分数；若是，则调用第一条件确定单元，若否，则调用第二条件确定单元；

第一条件确定单元，用于确定所述图像违规分数符合预设的违规条件；

第二条件确定单元，用于确定值最大的图像违规分数符合预设的违规条件。

在本发明的一个实施例中，所述图像区域数据提取模块704包括：

时间范围确定子模块，用于确定包含所述时间点的时间范围；

显著区域检测模型查找子模块，用于查找显著区域检测模型，所述显著区域检测模型用于识别图像数据中具备显著性的图像区域；

显著区域检测模型处理子模块，用于将所述时间范围内的图像数据输入至所述显著区域检测模型中，以识别所述图像数据中具备显著性的图像区域数据。

在本发明的一个实施例中，所述模型训练模块705包括：

标签确定子模块，用于确定对所述样本视频文件标记的、表征内容违规的违规类别；

网络获取子模块，用于获取深度神经网络与预训练模型；

网络初始化子模块，用于使用所述预训练模型初始化所述深度神经网络；

网络训练子模块，用于基于反向传播，采用所述图像区域数据、所述样本图像数据与所述违规类别将所述深度神经网络训练为内容审核模型。

本发明实施例所提供的内容审核模型的训练装置可执行本发明任意实施例所提供的内容审核模型的训练方法，具备执行方法相应的功能模块和有益效果。

实施例六

图8为本发明实施例六提供的一种视频内容的审核装置的结构示意图，该装置具体可以包括如下模块：

目标视频文件接收模块801，用于接收目标视频文件，所述目标视频文件具有多帧图像数据；

目标图像数据提取模块802，用于提取目标视频文件的部分图像数据，作为目标图像数据；

时间点定位模块803，用于若所述目标图像数据的内容违规，则定位所述目标图像数据在所述目标视频文件中所处的时间点；

图像区域数据提取模块804，用于从围绕所述时间点的图像数据中提取具备显著性的图像区域数据；

视频审核模块805，用于将所述图像区域数据与所述目标图像数据输入至预设的内容审核模型中，以对所述目标视频文件的内容进行审核。

在本发明的一个实施例中，所述视频审核模块805包括：

文件违规分数确定子模块，用于将所述图像区域数据与所述目标图像数据输入预设的内容审核模型中，以确定所述目标视频文件的内容属于预设的违规类别时的文件违规分数；

文件分数阈值确定子模块，用于确定文件分数阈值；

第一合法确定子模块，用于若所述文件违规分数小于或等于所述文件分数阈值，则确定所述目标视频文件的内容合法。

在本发明的一个实施例中，所述视频审核模块805还包括：

目标视频文件分发子模块，用于若所述文件违规分数大于所述文件分数阈值，则将所述目标视频文件分发至指定的客户端；

第二合法确定子模块，用于当接收到所述客户端发送的第一审核信息时，确定所述目标视频文件的内容合法；

违规确定子模块，用于当接收到所述客户端发送的第二审核信息时，确定所述目标视频文件的内容违规。

在本发明的一个实施例中，所述文件分数阈值确定子模块包括：

总数量确定单元，用于确定在先的一时间段内，所述目标视频文件的总数量，所述目标视频文件已确定文件违规分数；

文件分数阈值生成单元，用于生成文件分数阈值，以使审核数量与所述总数量之间的比值与预设的推送比匹配，所述审核数量为文件违规分数超过所述文件分数阈值的目标视频文件的数量。

在本发明的一个实施例中，所述目标图像数据提取模块802包括：

目标视频文件切分子模块，用于将目标视频文件切分为至少两个目标视频片段；

目标视频片段提取子模块，用于在每个所述目标视频片段中提取部分图像数据，作为目标图像数据。

在本发明的一个实施例中，所述目标图像数据提取模块802还包括：

排序子模块，用于按照时间顺序对所述目标图像数据进行排序；

和/或，

缩放子模块，用于将所述目标图像数据缩放至预设的尺寸。

在本发明的一个实施例中，所述时间点定位模块803包括：

违规判别模型处理子模块，用于将所述目标图像数据输入至所述违规判别模型中，以识别所述目标图像数据中内容的图像违规分数；

目标图像数据选择子模块，用于选择所述图像违规分数符合预设的违规条件的目标图像数据；

时间点确定子模块，用于确定符合所述违规条件的目标图像数据在所述目标视频文件中所处的时间点。

违规类别确定单元，用于确定对所述目标视频文件标记的、表征内容违规的违规类别；

在本发明的一个实施例中，所述目标图像数据选择子模块包括：

图像分数阈值判断单元，用于针对所述目标图像数据，判定是否具有超过预设的图像分数阈值的图像违规分数；若是，则调用第一条件确定单元，若否，则调用第二条件确定单元；

在本发明的一个实施例中，所述图像区域数据提取模块804包括：

本发明实施例所提供种视频内容的审核装置可执行本发明任意实施例所提供的视频内容的审核方法，具备执行方法相应的功能模块和有益效果。

实施例七

图9为本发明实施例七提供的一种计算机设备的结构示意图。如图9所示，该计算机设备包括处理器900、存储器901、通信模块902、输入装置903和输出装置904；计算机设备中处理器900的数量可以是一个或多个，图9中以一个处理器900为例；计算机设备中的处理器900、存储器901、通信模块902、输入装置903和输出装置904可以通过总线或其他方式连接，图9中以通过总线连接为例。

存储器901作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本实施例中的内容审核模型的训练方法对应的模块(例如，如图7所示的内容审核模型的训练装置中的样本视频文件接收模块701、样本图像数据提取模块702、时间点定位模块703、图像区域数据提取模块704和模型训练模块705)，或者，如本实施例中的视频内容的审核方法对应的模块(例如，如图8所示的视频内容的审核装置中的目标视频文件接收模块801、目标图像数据提取模块802、时间点定位模块803、图像区域数据提取模块804和视频审核模块805)。处理器900通过运行存储在存储器901中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的内容审核模型的训练方法或视频内容的审核方法。

存储器901可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器901可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器901可进一步包括相对于处理器900远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块902，用于与显示屏建立连接，并实现与显示屏的数据交互。输入装置903可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。

本实施例提供的计算机设备，可执行本发明任一实施例提供的内容审核模型的训练方法或视频内容的审核方法，具体相应的功能和有益效果。

实施例八

本发明实施例八还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现一种内容审核模型的训练方法或一种视频内容的审核方法。

该内容审核模型的训练方法包括：

接收样本视频文件，所述样本视频文件具有多帧图像数据；

提取部分所述图像数据，作为样本图像数据；

该视频内容的审核包括：

接收目标视频文件，所述目标视频文件具有多帧图像数据；

提取部分所述图像数据，作为目标图像数据；

当然,本发明实施例所提供的计算机可读存储介质,其计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的内容审核模型的训练方法或视频内容的审核方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述内容审核模型的训练装置或视频内容的审核装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种内容审核模型的训练方法，其特征在于，包括：

提取样本视频文件的部分图像数据，作为样本图像数据；

根据所述图像区域数据与所述样本图像数据训练内容审核模型；

所述从围绕所述时间点的图像数据中提取具备显著性的图像区域数据，包括：

确定包含所述时间点的时间范围；

查找显著区域检测模型，所述显著区域检测模型用于识别图像数据中具备显著性的图像区域；

将所述时间范围内的图像数据输入至所述显著区域检测模型中，以识别所述图像数据中具备显著性的图像区域数据。

2.根据权利要求1所述的方法，其特征在于，所述提取样本视频文件的部分图像数据，作为样本图像数据，包括：

将样本视频文件切分为至少两个样本视频片段；

在每个所述样本视频片段中提取部分图像数据，作为样本图像数据。

3.根据权利要求2所述的方法，其特征在于，从所述样本视频文件中提取部分图像数据，作为样本图像数据，还包括：

按照时间顺序对所述样本图像数据进行排序；

和/或，

将所述样本图像数据缩放至预设的尺寸。

4.根据权利要求1所述的方法，其特征在于，所述若所述样本图像数据的内容违规，则定位所述样本图像数据在所述样本视频文件中所处的时间点，包括：

查找违规判别模型，所述违规判别模型用于识别图像数据中内容的图像违规分数；

将所述样本图像数据输入至所述违规判别模型中，以识别所述样本图像数据中内容的图像违规分数；

选择所述图像违规分数符合预设的违规条件的样本图像数据；

确定符合所述违规条件的样本图像数据在所述样本视频文件中所处的时间点。

5.根据权利要求4所述的方法，其特征在于，所述查找违规判别模型，包括：

确定对所述样本视频文件标记的、表征内容违规的违规类别；

查找所述违规类别对应的违规判别模型，所述违规判别模型用于识别图像数据中内容属于所述违规类别的图像违规分数。

6.根据权利要求4所述的方法，其特征在于，所述选择所述图像违规分数符合预设的违规条件的样本图像数据，包括：

针对所述样本图像数据，判定是否具有超过预设的图像分数阈值的图像违规分数；

若是，则确定所述图像违规分数符合预设的违规条件；

若否，则确定值最大的图像违规分数符合预设的违规条件。

7.根据权利要求1-6任一所述的方法，其特征在于，所述根据所述图像区域数据与所述样本图像数据训练内容审核模型，包括：

获取深度神经网络与预训练模型；

使用所述预训练模型初始化所述深度神经网络；

基于反向传播，采用所述图像区域数据、所述样本图像数据与所述违规类别将所述深度神经网络训练为内容审核模型。

8.一种视频内容的审核方法，其特征在于，包括：

提取目标视频文件的部分图像数据，作为目标图像数据；

将所述图像区域数据与所述目标图像数据输入至预设的内容审核模型中，以对所述目标视频文件的内容进行审核；

确定包含所述时间点的时间范围；

9.根据权利要求8所述的方法，其特征在于，所述将所述图像区域数据与所述目标图像数据输入预设的内容审核模型中，以对所述目标视频文件的内容进行审核，包括：

将所述图像区域数据与所述目标图像数据输入预设的内容审核模型中，以确定所述目标视频文件的内容属于预设的违规类别时的文件违规分数；

确定文件分数阈值；

若所述文件违规分数小于或等于所述文件分数阈值，则确定所述目标视频文件的内容合法。

10.根据权利要求9所述的方法，其特征在于，所述将所述图像区域数据与所述目标图像数据输入预设的内容审核模型中，以对所述目标视频文件的内容进行审核，还包括：

若所述文件违规分数大于所述文件分数阈值，则将所述目标视频文件分发至指定的客户端；

当接收到所述客户端发送的第一审核信息时，确定所述目标视频文件的内容合法；

当接收到所述客户端发送的第二审核信息时，确定所述目标视频文件的内容违规。

11.根据权利要求9或10所述的方法，其特征在于，所述确定文件分数阈值，包括：

确定在先的一时间段内，所述目标视频文件的总数量，所述目标视频文件已确定文件违规分数；

生成文件分数阈值，以使审核数量与所述总数量之间的比值与预设的推送比匹配，所述审核数量为文件违规分数超过所述文件分数阈值的目标视频文件的数量。

12.一种内容审核模型的训练装置，其特征在于，包括：

样本图像数据提取模块，用于提取样本视频文件中的部分图像数据，作为样本图像数据；

模型训练模块，用于根据所述图像区域数据与所述样本图像数据训练内容审核模型；

所述图像区域数据提取模块包括：

13.一种视频内容的审核装置，其特征在于，包括：

目标图像数据提取模块，用于提取目标视频文件中的部分图像数据，作为目标图像数据；

视频审核模块，用于将所述图像区域数据与所述目标图像数据输入至预设的内容审核模型中，以对所述目标视频文件的内容进行审核；

所述图像区域数据提取模块包括：

14.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的内容审核模型的训练方法或者如权利要求8-11中任一所述的视频内容的审核方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一所述的内容审核模型的训练方法或者如权利要求8-11中任一所述的视频内容的审核方法。