CN115439333A

CN115439333A - 视频处理方法、装置、计算机设备及存储介质

Info

Publication number: CN115439333A
Application number: CN202110614190.6A
Authority: CN
Inventors: 黄海鹏
Original assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Current assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2022-12-06

Abstract

本申请提供一种视频处理方法、装置、计算机设备及存储介质，方法包括：获取待处理视频；调用已训练的视频增强模型，并将待处理视频输入至已训练的视频增强模型中进行处理，输出目标结果；基于引导滤波算法，对目标结果进行增强处理，得到待处理视频对应的目标视频。采用本方法不仅使得视频增强时长得到有效缩减，还确保了视频增强效果，满足了用户对终端侧视频实时性增强的需求。

Description

视频处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种视频处理方法、装置、计算机设备及存储介质。

背景技术

视频增强，也称视频画质增强或视频分辨率增强，其主要源于人们生活水平的不断提高及科技水平的不断进步，使得超高清晰度的视频观看效果被越来越多的人所追求。

传统的视频增强方法，虽然也提出采用卷积神经网络(Convolutional NeuralNetworks，CNN)实现对图像画质的有效去噪，但总是因追求图像效果而不得不牺牲去噪时长，又或是因追求去噪时长而不得不降低图像画质要求。

因此，现有的视频增强方法存在增长时长与增强效果无法平衡的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种视频处理方法、装置、计算机设备及存储介质，用以提升视频增强效果。

第一方面，本申请提供一种视频处理方法，包括：

获取待处理视频；

调用已训练的视频增强模型，并将待处理视频输入至已训练的视频增强模型中进行处理，输出目标结果；

基于引导滤波算法，对目标结果进行增强处理，得到待处理视频对应的目标视频。

第二方面，本申请提供一种模型训练方法，包括：

构建初始的视频增强模型，初始的视频增强模型包括建立有长短跳跃连接的卷积模块、残差模块、采样模块以及上采样模块；

获取至少两组视频帧序列，并将至少两组视频帧序列划分为训练集和测试集；

使用训练集，对初始的视频增强模型进行初步训练，得到初步训练后的视频增强模型；

使用测试集，对初步训练后的视频增强模型进行测试调整，得到已训练的视频增强模型；

获取并根据已训练的视频增强模型的模型参数，生成模型配置文件，模型配置文件用于发送至终端，以使终端调用已训练的视频增强模型。

第三方面，本申请提供一种视频处理装置，包括：

视频获取模块，用于获取待处理视频；

第一增强模块，用于调用已训练的视频增强模型，并将待处理视频输入至已训练的视频增强模型中进行处理，输出目标结果；

第二增强模块，用于基于引导滤波算法，对目标结果进行增强处理，得到待处理视频对应的目标视频。

第四方面，本申请提供一种模型训练装置，包括：

模型构建模块，用于构建初始的视频增强模型，初始的视频增强模型包括建立有长短跳跃连接的卷积模块、残差模块、采样模块以及上采样模块；

序列获取模块，用于获取至少两组视频帧序列，并将至少两组视频帧序列划分为训练集和测试集；

初步训练模块，用于使用训练集，对初始的视频增强模型进行初步训练，得到初步训练后的视频增强模型；

测试调整模块，用于使用测试集，对初步训练后的视频增强模型进行测试调整，得到已训练的视频增强模型；

文件生成模块，用于获取并根据已训练的视频增强模型的模型参数，生成模型配置文件，模型配置文件用于发送至终端，以使终端调用已训练的视频增强模型。

第五方面，本申请还提供一种计算机设备，计算机设备包括存储器、处理器以及存储于存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述第一方面或第二方面提供的方法中的步骤。

第六方面，本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面或第二方面提供的方法中的步骤。

第七方面，本申请实施例提供一种计算机程序产品，该计算机程序产品包括计算机指令，计算机设备的处理器读取该计算机指令，并执行该计算机指令，使得该计算机设备执行上述第一方面或第二方面提供的方法中的步骤。

上述视频处理方法、装置、计算机设备及存储介质，终端通过获取待处理视频，并调用已训练的视频增强模型，可将待处理视频输入至已训练的视频增强模型获取目标结果，进而基于引导滤波算法对目标结果进行增强处理，得到最终所需的高清晰度目标视频。由于本申请采用的视频增强模型是轻量化模型，相比现有其他模型计算流程大幅缩减，因而也针对性的将视频增强时长进行了有效缩减，但为了确保视频增强效果，故还叠加了引导滤波算法对目标结果进一步加强，使得最终所得目标视频不仅具有高清晰度效果，还无需花费太多处理时间，有效满足了用户对终端视频实时性增强的需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中视频处理方法的场景示意图；

图2是本申请实施例中视频处理方法的流程示意图；

图3是本申请实施例中视频增强模型的结构示意图；

图4是本申请实施例中注意力模块的结构示意图；

图5是本申请实施例中残差模块的结构示意图；

图6是本申请实施例中视频处理方法的效果示意图；

图7是本申请实施例中一种模型训练方法的流程示意图；

图8是本申请实施例中视频增强模型的训练流程示意图；

图9是本申请实施例中视频处理装置的结构示意图；

图10是本申请实施例中一种模型训练装置的结构示意图；

图11是本申请实施例中计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，本申请提供的视频处理方法由于是在计算机设备中执行，各计算机设备的处理对象均以数据或信息的形式存在，例如特征，实质为特征信息。可以理解的是，后续实施例中若提及颜色特征、纹理特征、形状特征和空间关系特征等，均为对应的数据存在，以便计算机设备进行处理，具体此处不作赘述。

在本申请实施例中，本申请所应用的计算机视觉技术(Computer Vision，CV)，是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在本申请实施例中，本申请所运用的机器学习技术(Machine Learning，ML)，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

利用上述计算机视觉技术与机器学习技术，能够有效提高视频增强技术的鲁棒性。因此，本申请提出结合计算机视觉技术与机器学习技术，设计一种性能优良的视频增强模型，基于该视频增强模型的应用，可大大提高视频增强技术的鲁棒性，详细方案参阅下文说明。

本申请实施例提供一种视频处理方法、装置、计算机设备及存储介质，以下分别进行详细说明。

参阅图1，图1为本申请提供的视频处理方法的场景示意图，该视频处理方法可应用于视频处理系统。其中，视频处理系统包括终端100和服务器200。终端100可以是既包括接收和发射硬件的设备，即具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。终端100具体可以是台式终端或移动终端，终端100具体还可以是手机、平板电脑、笔记本电脑等中的一种。

其中，服务器200可以是独立的服务器，也可以是服务器组成的服务器网络或服务器集群，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中，云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成；网络包含但不限于是：广域网、城域网或局域网。

本领域技术人员应该理解，图1中示出的应用环境，仅仅是适用于本申请方案的一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的计算机设备，例如图1中仅示出一个服务器200，可以理解的是，该视频处理系统还可以包括一个或多个其他服务器，或者一个或多个其他终端，具体此处不作限定。

本领域技术人员应该理解，图1所示的视频处理系统的场景示意图仅仅是一个示例，本发明实施例描述的视频处理系统以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着视频处理系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

参阅图2，本申请实施例提供了一种视频处理方法，主要以该方法应用于上述图1中的终端100来举例说明，该方法包括步骤S201至S203，具体如下：

S201，获取待处理视频。

其中，待处理视频可以是终端100实时采集到的视频，也可以是一个被标记的视频，还可以是存储于终端视频池中的某个候选视频。此外，待处理视频包括但不局限于是短视频、长视频等格式，短视频可以是长度小于15秒的视频，长视频可以是长度大于15秒的视频，时长选取可以根据实际业务需求确定。

具体地，若待处理视频被预设须是终端100实时采集到的视频，则终端100可响应用户的视频拍摄指令，拍摄用户指定场景内容的同时，将当前拍摄所得视频确定为待处理视频，以此获取后续可增强的待处理视频。若待处理视频被预设须是一个被标记的视频，则终端100可响应用户的视频标记指令，将被标记的新闻事件、文艺演出、影视片段等视频，转为待处理视频。若待处理视频被预设须是存储于终端视频池中的某个候选视频，则终端100可按照预定时间周期性提取终端视频池中的视频，转为待处理视频。

例如，上述预定时间可以是终端100用户的休息时间，因其在休息时间内使用终端的频次相对较少，终端100释放了大量内存，故可在此时段内完成视频池中一个或多个视频的增强处理。

S202，调用已训练的视频增强模型，并将待处理视频输入至已训练的视频增强模型中进行处理，输出目标结果。

其中，本实施例中涉及的视频增强模型是调用之前就已完成训练的模型，称为已训练的视频增强模型，该视频增强模型是基于现有技术问题而构造的轻量型模型，“轻量型”主要体现在模型所含模块数量较少，使得模型计算流程较少，如此，即可通过该模型实现对视频增强时长的有效缩减。

具体地，终端100获取到待处理视频之后，即可调用已训练的视频增强模型以待使用，但由于模型在终端难以装载运行，因此该模型的构建以及训练是通过服务器200来完成的，服务器200构建了初始的视频增强模型，并对其训练调整完毕之后，将会生成一个模型配置文件，如PB文件，进而向终端100反馈该模型配置文件，以便终端100利用PB文件完成模型配置，便于终端100调用。已训练的视频增强模型被调用后，终端100可将待处理视频输入至该模型中进行处理，以待模型基于前序训练步骤学习到的视频增强能力，对待处理视频进行增强处理，进而向终端100反馈其目标结果。本实施例中涉及的模型构建步骤以及模型训练步骤，将在下文详细说明。

在一个实施例中，已训练的视频增强模型包括建立有长短跳跃连接的卷积模块、残差模块、注意力模块以及上采样模块；

将待处理视频输入至已训练的视频增强模型中进行处理，输出目标结果，包括：

将待处理视频输入至已训练的视频增强模型，通过卷积模块对待处理视频进行图像特征提取，得到视频特征图；

通过残差模块对视频特征图进行特征增强处理，得到处理后的视频特征图；

通过注意力模块对处理后的视频特征图进行特征选取处理，得到选取后的视频特征图；

将选取后的视频特征图和视频特征图叠加，并通过上采样模块进行采样处理，得到目标结果。

其中，卷积模块可以是由普通卷积层和激活层构成的模块，例如“conv+relu”。

其中，残差模块可以由至少两个残差块构成，残差块是为更好的训练而设计的，也是构成残差神经网络(ResNet)的基础模块。

其中，注意力模块(Attention module)可以是引入注意力机制的模块，注意力机制是人类视觉所特有的大脑信号处理机制，核心目标是从众多信息中选择出对当前任务目标更关键的信息。例如，如图4所示，本实施例中涉及的注意力模块是由采用长短跳跃连接“Short skip connection”的平均池化层(AvgPool)和普通卷积层(conv)构成，作用过程中需要用到激活函数(relu)以及S型函数(Sigmoid)。

其中，上采样模块(Upsample module)通常用于放大原图像，从而可以显示在更高分辨率的显示设备上，本实施例提出视频增强模型中设置有上采样模块，是因为该模型中存在下采样通道，下采样通道将会对图像进行缩小，为了还原待处理视频其视频帧的实际尺寸，故此设置上采样模块恢复。

具体地，如图3所示，是本申请所采用的视频增强模型的结构示意图，通过该示意图进行模型结构展示，可知视频增强模型包括建立有长短跳跃连接的卷积模块、残差模块、注意力模块以及上采样模块。其中，卷积模块可提取待处理视频的图像特征，如颜色特征、纹理特征、形状特征和空间关系特征等，又如包括多个维度对应的每个像素的亮度值，如每个像素的RGB亮度值等。进而基于其中的一个或多个特征分析得到视频特征图；残差模块对图像整体细节有较好的恢复作用，可对视频特征图进行特征增强处理，得到处理后的视频特征图；注意力模块可对处理后的视频特征图进行特征选取处理，选取出其后续需注意的特征或图像区域，得到选取后的视频特征图；再引入长连接，充分保留原始图像信息，避免通道下采样过程中对细节的损失；最后将选取后的视频特征图和视频特征图叠加，并通过上采样模块进行采样处理，得到目标结果。

在一个实施例中，残差模块包括至少两个残差块。

具体地，如图5所示，残差块(Resblock)是由采用长短跳跃连接“Short skipconnection”的两个普通卷积层(conv)叠加构成，作用过程中需使用激活函数(relu)。

在一个实施例中，已训练的视频增强模型的损失函数包括结构相似性损失和光流损失，其中：

结构相似性损失，用于表征待处理视频帧与目标视频帧之间的相似性损失；

光流损失，用于表征各目标视频帧之间的差异损失；

其中，待处理视频帧为待处理视频的视频帧，目标视频帧为目标视频中的视频帧。

其中，结构相似性损失可以表示为“SSIM_loss”，主要用于表征待处理视频帧与目标视频帧之间的相似性损失，结构相似性损失(SSIM_loss)与结构相似值(StructuralSimilarity Index Measurement，SSIM)的和值为“1”，“SSIM”是用于衡量两幅图像结构相似度的指标，其值越大越好，最大为1，因此可通过计算“SSIM”计算“SSIM_loss”。

其中，光流可以是画面移动过程中图像上每个像素的x，y位移量，例如，第t帧的时候A点的位置是(x₁,y₁)，第t+1帧的时候A点的位置是(x₂,y₂)，则A点的运动为：(u,v)＝(x₂，y₂)-(x₁，y₁)，光流损失可以表示为“flow_loss”，主要用于表征各目标视频帧之间的差异损失，解决视频增强后的帧间闪烁问题。

具体地，假设输入的两张图像分别是x和y，则结构相似性损失“SSIM_loss”的计算公式如下：

SSIM_LOSS＝1-SSIM

其中，μ_x和μ_y分别代表x和y的平均值，σ_x和σ_y分别代表x和y的标准差，σ_xy代表x和y的方差，c₁、c₂、c₃分别为常数，则x和y相似性取值为“SSIM(x,y)”。

更具体地，“flow_loss”的计算公式如下：

其中，N表示图像的像素数量，i表示第i个像素，y_i表示第t+1帧图像的第i个像素，x_i表示第t帧图像的第i个像素，h_θ(xi)表示第t帧图像的光流预测值。

更具体地，本实施例还提出采用混合损失函数“L”参与模型训练及增强：

L＝W₁*SSIM_LOSS+W₂*J

其中，W₁和W₂分别表示常数，可根据实际应用需求设置W₁的取值为“0.8”，W₂的取值为“0.2”，J表示光流损失“flow_loss”。

S203，基于引导滤波算法，对目标结果进行增强处理，得到待处理视频对应的目标视频。

其中，引导滤波算法是一种保持边缘的滤波算法，因滤波时需要一幅引导图像得名，而引导图像可以是输入图像本身，也可以是另外的图像。当引导图为输入图像本身时，引导滤波就成为一个保持边缘的滤波操作。本实施例中引入引导滤波算法，目的在于用其对待处理图像的数据结果进行降噪、细节平滑、高动态范围图像(High-Dynamic Range，HDR)压缩、抠图、去雾等。

具体地，终端100获取到目标结果后，即可调用配置有引导滤波算法的引导滤波器，将目标结果输入至该具有引导图像的引导滤波器中，使其参考引导图像的参数要求，增加目标结果中各视频帧画面的亮度和对比度，丰富画面的细节，提高图像清晰度和物体辨识度，从而得到相较于待处理视频画质提升显著的目标视频。

如此，终端100通过显示目标视频来取代显示待处理视频，即可在确保视频内容稳定不变的情况下，有效改善终端侧视频画面的显示效果。如图6所示，即为终端100实时对待处理视频进行增强所得结果，图6中左图为待处理视频的指定帧图像、右图为目标视频的指定帧图像。

上述实施例的视频处理方法，提出了一种使用轻量化视频增强模型实现对终端所得视频的实时增强技术，其所涉及的模型相比现有其他模型所含模块数量较少，致使计算流程大幅缩减，故视频增强时长也得到了有效缩减。同时，还提出了两种损失函数用以解决视频增强过程中存在的帧间闪烁问题，并叠加了引导滤波算法有效改善了视频去噪效果，使得最终所得目标视频不仅具有高清晰度效果，还无需花费太多处理时间，满足了用户对终端视频实时性增强的需求。

参阅图7，本申请实施例提供了一种模型训练方法，主要以该方法应用于上述图1中的服务器200来举例说明，该方法包括步骤S701至S705，具体如下：

S701，构建初始的视频增强模型，初始的视频增强模型包括建立有长短跳跃连接的卷积模块、残差模块、采样模块以及上采样模块。

具体地，服务器200需先进行模型训练，以便终端100调用，因此服务器200首先需构建初始的视频增强模型，其结构如上文提及的已训练的视频增强模型，可参阅图3，因此本实施例中不再赘述。

S702，获取至少两组视频帧序列，并将至少两组视频帧序列划分为训练集和测试集。

其中，视频帧可以是指待处理视频中的各帧图像，则视频帧序列可以是指至少两个的视频帧(如包含有450帧图像的视频帧序列)，则至少两组视频帧序列可以是指至少两组的视频帧序列(如上述包含有450帧图像的视频帧序列，总计50组)。

具体地，本实施例中涉及的至少两组视频帧序列，实际是指多段独立的视频，每段视频时长基本统一，则每段视频包含的视频帧数量也应该一致，例如上文提及的每段视频包含有450帧图像，视频时长约为15秒。可以理解的是，虽然本实施例已强调用于模型训练的视频数量及视频时长，但不排除在其他实施例中存在其他设定。

更具体地，服务器200获取到多段视频之后，即可按实际业务需求将这些视频划分为训练集和测试集，训练集和测试集各自所含视频数量本申请不做具体限定。但可以明确的是，训练集所含视频数量要多于测试集所含视频数量，例如按9：1的比例划分，但若是视频基数不够，则可通过旋转视频帧来扩展更多视频以供模型训练及测试。

在一个实施例中，将至少两组视频帧序列划分为训练集和测试集，包括：

对至少两组视频帧序列进行初步增强处理，得到处理后的视频帧序列；

基于预设的集合数量，对处理后的视频帧序列进行划分，得到训练集和测试集。

具体地，如图8所示，本实施例提出在服务器200划分训练集与测试集之前，需利用“3D Lut(Look-Up-Table)”初步实现图像增强，如用于精确的颜色校准工作，得到处理后的视频帧序列，再将该处理后的视频帧序列按预设的集合数量划分，得到最终所需数量的训练集和测试集。此外，还可在构建训练集之前对处理后的视频帧序列进行预处理，如视频帧的尺寸调整、分辨率调整等。

需要说明的是，虽然本申请实施例提出需构建测试集进行模型参数调整，但不排除其他实施例不构造测试集，即仅用训练集训练模型即可得到已训练的视频增强模型。

在一个实施例中，获取至少两组视频帧序列，包括：

获取样本视频；

基于预设的场景类型，对样本视频进行抽帧处理，得到至少两个视频帧；

将至少两个视频帧按照预设帧量分组，得到至少两组视频帧序列。

其中，样本视频可以是针对不同场景所采集到的视频。采集方式可以通过终端100，也可以通过摄影机，又或是通过网络查询；场景类型包括但不限于是交通、医院、学校、商场等；样本视频的视频时长可以是上文提及的短视频时长，也可以是上文提及的长视频时长，又或是其他；样本视频的数量取决于实际业务需求，即实际用于训练模型所需的训练数量，以及用于测试模型所需的测试数量。

具体地，本实施例提出可针对某一种或多种指定场景，对视频进行实时增强处理，例如需要使用到高清视频作业的安防场景，可预先设定基于该场景类型，对某个样本视频进行抽帧，抽取所得的视频帧必然包含违反安全属性的人或物。又例如需要使用到高清视频作业的学校场景，可预先设定基于该场景类型，对某个样本视频进行抽帧，抽取所得的视频帧可以是指定时间段内的图像，如学生考试时间段的考场图像。最终，将抽取所得的至少两个视频帧按一定量分组，即可得到至少两组视频帧序列，每组视频帧量相同。

S703，使用训练集，对初始的视频增强模型进行初步训练，得到初步训练后的视频增强模型。

具体地，如图8所示，服务器200获取到训练集之后，即可利用训练集对初始的视频增强模型进行初步训练，得到初步训练后的视频增强模型，直至模型基本收敛后停止迭代训练。

例如，停止模型迭代训练的收敛条件可以包括：1、误差小于某个预先设定的较小的值。2、两次迭代之间的权值变化已经很小，可设定一个阈值，当小于这个阈值后，就停止训练。3、设定最大迭代次数，当迭代超过最大次数就停止训练。4、识别准确率达到某个预先设定的较大的值。

更进一步地，本实施例提出在显卡配置为“GTX1080Ti”的服务器200中进行训练，参数初始化选用Xavier初始化方式，初始化学习速率为“1e-4”，优化器选择为Adam，学习率采用多项式衰减方式，迭代次数为100个epoch(当一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一次epoch)，batchsize(一次训练所选取的样本数)大小为“1”，直至模型收敛。

S704，使用测试集，对初步训练后的视频增强模型进行测试调整，得到已训练的视频增强模型。

具体地，如图8所示，模型初步训练完之后，服务器200可用视频含量较少的测试集对初步训练后的视频增强模型进行测试调整，以便获取已训练的视频增强模型。在测试调整过程中，服务器200可采用颜色损失“color loss”对模型微调1000个epoch，学习率固定为“1e-6”，其余设置均保持上文提及的参数情况，直至模型微调完成。该测试步骤能够有效减少视频去噪过程中出现的色块，以及构建可调用模型出现的过度不自然问题。

S705，获取并根据已训练的视频增强模型的模型参数，生成模型配置文件，模型配置文件用于发送至终端，以使终端调用已训练的视频增强模型。

其中，模型参数是模型内部的配置变量，其值可以根据数据进行估计，模型在进行预测时需要它们，且它们的值定义了可使用的模型。

其中，模型配置文件可以是用于在终端装载模型所需的配置文件，例如，PB文件，即文件后缀为“.pb”的数据。

具体地，如图8所示，服务器200完成模型训练任务和测试任务之后，即可得到已训练的视频增强模型的模型参数。为了将已训练的视频增强模型移植到终端100，即需要使用TensorFlow框架实现上述模型参数的冻结保存，转换为模型配置文件，然后使用MACE框架将PB文件反馈至终端100，以便终端100利用该文件完成模型装载运行，进而实现对待处理视频的视频去噪。

更具体地，TensorFlow是一个端到端开源机器学习平台；MACE框架是移动端深度学习框架“Mobile AI Compute Engine”。

上述实施例中的视频处理方法，服务器通过构建轻量化的视频增强模型，并获取模型训练及测试所需的视频帧序列，即可利用视频帧序列实现模型训练及模型测试，进而得到终端可调用的模型，但考虑到模型在终端难部署的问题，故提出生成该模型的模型配置文件以反馈至终端，便于终端利用该模型配置文件实现模型部署，实现对当前所采集视频的实时性增强处理。

为了更好实施本申请实施例中的视频处理方法，在视频处理方法基础之上，本申请实施例中还提供一种视频处理装置，如图9所示，视频处理装置900包括：

视频获取模块910，用于获取待处理视频；

第一增强模块920，用于调用已训练的视频增强模型，并将待处理视频输入至已训练的视频增强模型中进行处理，输出目标结果；

第二增强模块930，用于基于引导滤波算法，对目标结果进行增强处理，得到待处理视频对应的目标视频。

在本申请一些实施例中，已训练的视频增强模型包括建立有长短跳跃连接的卷积模块、残差模块、注意力模块以及上采样模块；

第一增强模块920，还用于将待处理视频输入至已训练的视频增强模型，通过卷积模块对待处理视频进行图像特征提取，得到视频特征图；通过残差模块对视频特征图进行特征增强处理，得到处理后的视频特征图；通过注意力模块对处理后的视频特征图进行特征选取处理，得到选取后的视频特征图；将选取后的视频特征图和视频特征图叠加，并通过上采样模块进行采样处理，得到目标结果。

在本申请一些实施例中，残差模块至少两个残差块。

在本申请一些实施例中，已训练的视频增强模型的损失函数包括结构相似性损失和光流损失，其中：

光流损失，用于表征各目标视频帧之间的差异损失。

上述实施例中，提出了一种使用轻量化视频增强模型实现对终端所得视频的实时增强技术，其所涉及的模型相比现有其他模型所含模块数量较少，致使计算流程大幅缩减，故视频增强时长也得到了有效缩减。同时，还提出了两种损失函数用以解决视频增强过程中存在的帧间闪烁问题，并叠加了引导滤波算法有效改善了视频去噪效果，使得最终所得目标视频不仅具有高清晰度效果，还无需花费太多处理时间，满足了用户对终端视频实时性增强的需求。

为了更好实施本申请实施例中的视频处理方法，在模型训练方法基础之上，本申请实施例中还提供一种模型训练装置，如图10所示，模型训练装置1000包括：

模型构建模块1010，用于构建初始的视频增强模型，初始的视频增强模型包括建立有长短跳跃连接的卷积模块、残差模块、采样模块以及上采样模块；

序列获取模块1020，用于获取至少两组视频帧序列，并将至少两组视频帧序列划分为训练集和测试集；

初步训练模块1030，用于使用训练集，对初始的视频增强模型进行初步训练，得到初步训练后的视频增强模型；

测试调整模块1040，用于使用测试集，对初步训练后的视频增强模型进行测试调整，得到已训练的视频增强模型；

文件生成模块1050，用于获取并根据已训练的视频增强模型的模型参数，生成模型配置文件，模型配置文件用于发送至终端，以使终端调用已训练的视频增强模型。

在本申请一些实施例中，序列获取模块1020，还用于对至少两组视频帧序列进行初步增强处理，得到处理后的视频帧序列；基于预设的集合数量，对处理后的视频帧序列进行划分，得到训练集和测试集。

在本申请一些实施例中，序列获取模块1020，还用于获取样本视频；基于预设的场景类型，对样本视频进行抽帧处理，得到至少两个视频帧；将至少两个视频帧按照预设帧量分组，得到至少两组视频帧序列。

上述实施例中，服务器通过构建轻量化的视频增强模型，并获取模型训练及测试所需的视频帧序列，即可利用视频帧序列实现模型训练及模型测试，进而得到终端可调用的模型，但考虑到模型在终端难部署的问题，故提出生成该模型的模型配置文件以反馈至终端，便于终端利用该模型配置文件实现模型部署，实现对当前所采集视频的实时性增强处理。

在本申请一些实施例中，视频处理装置900可以实现为一种计算机程序的形式，计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该视频处理装置900的各个程序模块，比如，图9所示的视频获取模块910、第一增强模块920以及第二增强模块930。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的视频处理方法中的步骤。

例如，图11所示的计算机设备可以通过如图9所示的视频处理装置900中的视频获取模块910执行步骤S201。计算机设备可通过第一增强模块920执行步骤S202。计算机设备可通过第二增强模块930执行步骤S203。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。

其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WI-FI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请一些实施例中，提供了一种计算机设备，计算机设备包括存储器、处理器以及存储于存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述各个实施例的方法中的步骤。

在本申请一些实施例中，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述视频处理方法或者模型训练方法中的步骤。此处视频处理方法的步骤可以是上述各个实施例的视频处理方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(RandomAccess Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上对本申请实施例所提供的一种视频处理方法、装置、计算机设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频；

调用已训练的视频增强模型，并将所述待处理视频输入至所述已训练的视频增强模型中进行处理，输出目标结果；

基于引导滤波算法，对所述目标结果进行增强处理，得到所述待处理视频对应的目标视频。

2.如权利要求1所述的方法，其特征在于，所述已训练的视频增强模型包括建立有长短跳跃连接的卷积模块、残差模块、注意力模块以及上采样模块；

所述将所述待处理视频输入至所述已训练的视频增强模型中进行处理，输出目标结果，包括：

将所述待处理视频输入至所述已训练的视频增强模型，通过所述卷积模块对所述待处理视频进行图像特征提取，得到视频特征图；

通过所述残差模块对所述视频特征图进行特征增强处理，得到处理后的视频特征图；

通过所述注意力模块对所述处理后的视频特征图进行特征选取处理，得到选取后的视频特征图；

将所述选取后的视频特征图和所述视频特征图叠加，并通过所述上采样模块进行采样处理，得到目标结果。

3.如权利要求2所述的方法，其特征在于，所述残差模块包括至少两个残差块。

4.如权利要求1所述的方法，其特征在于，所述已训练的视频增强模型的损失函数包括结构相似性损失和光流损失，其中：

所述结构相似性损失，用于表征待处理视频帧与目标视频帧之间的相似性损失；

所述光流损失，用于表征各目标视频帧之间的差异损失；

其中，所述待处理视频帧为所述待处理视频的视频帧，所述目标视频帧为所述目标视频中的视频帧。

5.一种模型训练方法，其特征在于，包括：

构建初始的视频增强模型，所述初始的视频增强模型包括建立有长短跳跃连接的卷积模块、残差模块、采样模块以及上采样模块；

获取至少两组视频帧序列，并将所述至少两组视频帧序列划分为训练集和测试集；

使用所述训练集，对所述初始的视频增强模型进行初步训练，得到初步训练后的视频增强模型；

使用所述测试集，对所述初步训练后的视频增强模型进行测试调整，得到已训练的视频增强模型；

获取并根据所述已训练的视频增强模型的模型参数，生成模型配置文件，所述模型配置文件用于发送至终端，以使所述终端调用所述已训练的视频增强模型。

6.如权利要求5所述的方法，其特征在于，所述将所述至少两组视频帧序列划分为训练集和测试集，包括：

对所述至少两组视频帧序列进行初步增强处理，得到处理后的视频帧序列；

基于预设的集合数量，对所述处理后的视频帧序列进行划分，得到训练集和测试集。

7.如权利要求5或6所述的方法，其特征在于，所述获取至少两组视频帧序列，包括：

获取样本视频；

基于预设的场景类型，对所述样本视频进行抽帧处理，得到至少两个视频帧；

将所述至少两个视频帧按照预设帧量分组，得到至少两组视频帧序列。

8.一种视频处理装置，其特征在于，包括：

视频获取模块，用于获取待处理视频；

第一增强模块，用于调用已训练的视频增强模型，并将所述待处理视频输入至所述已训练的视频增强模型中进行处理，输出目标结果；

第二增强模块，用于基于引导滤波算法，对所述目标结果进行增强处理，得到所述待处理视频对应的目标视频。

9.一种模型训练装置，其特征在于，包括：

模型构建模块，用于构建初始的视频增强模型，所述初始的视频增强模型包括建立有长短跳跃连接的卷积模块、残差模块、采样模块以及上采样模块；

序列获取模块，用于获取至少两组视频帧序列，并将所述至少两组视频帧序列划分为训练集和测试集；

初步训练模块，用于使用所述训练集，对所述初始的视频增强模型进行初步训练，得到初步训练后的视频增强模型；

测试调整模块，用于使用所述测试集，对所述初步训练后的视频增强模型进行测试调整，得到已训练的视频增强模型；

文件生成模块，用于获取并根据所述已训练的视频增强模型的模型参数，生成模型配置文件，所述模型配置文件用于发送至终端，以使所述终端调用所述已训练的视频增强模型。

10.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储于所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述方法，或者权利要求5至7任一项所述方法中的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至4任一项所述方法，或者权利要求5至7任一项所述方法中的步骤。