[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114640885A - 视频插帧方法、训练方法、装置和电子设备 - Google Patents

视频插帧方法、训练方法、装置和电子设备 Download PDF

Info

Publication number
CN114640885A
CN114640885A CN202210171767.5A CN202210171767A CN114640885A CN 114640885 A CN114640885 A CN 114640885A CN 202210171767 A CN202210171767 A CN 202210171767A CN 114640885 A CN114640885 A CN 114640885A
Authority
CN
China
Prior art keywords
optical flow
training
map
fusion
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210171767.5A
Other languages
English (en)
Other versions
CN114640885B (zh
Inventor
吕朋伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Insta360 Innovation Technology Co Ltd
Original Assignee
Insta360 Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Insta360 Innovation Technology Co Ltd filed Critical Insta360 Innovation Technology Co Ltd
Priority to CN202210171767.5A priority Critical patent/CN114640885B/zh
Publication of CN114640885A publication Critical patent/CN114640885A/zh
Priority to PCT/CN2023/075807 priority patent/WO2023160426A1/zh
Application granted granted Critical
Publication of CN114640885B publication Critical patent/CN114640885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Television Systems (AREA)

Abstract

本申请实施例提供一种视频插帧方法、训练方法、装置和电子设备,涉及图像处理技术领域,可以提高插帧结果精度。视频插帧方法包括:获取视频中相邻的两个视频帧,两个视频帧包括前一个视频帧和后一个视频帧;计算两个视频帧之间的光流;将两个视频帧之间的光流基于预设比例变换为初始光流;通过初始光流对两个视频帧进行映射得到初始映射图;基于初始映射图对两个视频帧之间的光流进行修正,得到修正后光流;根据修正后光流得到两个视频帧之间的目标插帧。

Description

视频插帧方法、训练方法、装置和电子设备
技术领域
本申请涉及图像处理技术领域,特别涉及一种视频插帧方法、训练方法、装置和电子设备。
背景技术
视频插帧(video frame interpolation)是指利用算法生成视频中间帧,用于提高视频帧率或生成慢动作特效视频。然而,传统的视频插帧方法所得到的插帧结果精度较低。
发明内容
一种视频插帧方法、训练方法、装置和电子设备,可以提高插帧结果精度。
第一方面,提供一种视频插帧方法,包括:获取视频中相邻的两个视频帧,两个视频帧包括前一个视频帧和后一个视频帧;计算两个视频帧之间的光流;将两个视频帧之间的光流基于预设比例变换为初始光流;通过初始光流对两个视频帧进行映射得到初始映射图;基于初始映射图对两个视频帧之间的光流进行修正,得到修正后光流;根据修正后光流得到两个视频帧之间的目标插帧。
第二方面,提供一种用于视频插帧的神经网络训练方法,包括:获取一组训练数据,一组训练数据包括三个连续的视频帧,三个连续的视频帧依次为第一训练视频帧、第二训练视频帧和第三训练视频帧;获取第一参考反向光流,第一参考反向光流为从第一训练视频帧到第二训练视频帧的反向光流;获取第二参考反向光流,第二参考反向光流为从第三训练视频帧到第二训练视频帧的反向光流;计算第一训练反向光流,第一训练反向光流为从第一训练视频帧到第三训练视频帧的反向光流;计算第二训练反向光流,第二训练反向光流为从第三训练视频帧到第一训练视频帧的反向光流;将第一训练反向光流基于预设比例变换为第一初始训练光流;将第二训练反向光流基于预设比例变换为第二初始训练光流;通过第一初始训练光流对第一训练视频帧进行映射得到第一训练映射图;通过第二初始训练光流对第三训练视频帧进行映射得到第二训练映射图;将第一训练视频帧、第三训练视频帧、第一初始训练光流、第二初始训练光流、第一训练映射图和第二训练映射图输入至光流修正神经网络,得到光流修正神经网络输出的第三训练反向光流和第四训练反向光流,第三训练反向光流为修正后的从第一训练视频帧到第二训练视频帧的反向光流,第四训练反向光流为修正后的从第三训练视频帧到第二训练视频帧的反向光流;通过第三训练反向光流对第一训练视频帧进行映射得到第三训练映射图;通过第四训练反向光流对第三训练视频帧进行映射得到第四训练映射图;将第一训练视频帧、第三训练视频帧、第三训练反向光流、第四训练反向光流、第三训练映射图和第四训练映射图输入融合神经网络,得到融合神经网络输出的融合参数图;基于融合参数图,将第三训练映射图和第四训练映射图进行融合计算,得到目标插帧;基于目标插帧与第二训练视频帧之间的差异、第三训练反向光流与第一参考反向光流之间的差异、第四训练反向光流与第二参考反向光流之间的差异调整光流修正神经网络以及融合神经网络的网络参数。
第三方面,提供一种视频插帧装置,包括:获取模块,用于获取视频中相邻的两个视频帧;获取模块还用于,计算两个视频帧之间的光流;获取模块还用于,将两个视频帧之间的光流基于预设比例变换为初始光流;获取模块还用于,通过初始光流对两个视频帧进行映射得到初始映射图;修正模块,用于基于初始映射图对两个视频帧之间的光流进行修正,得到修正后光流;插帧模块,用于根据修正后光流得到两个视频帧之间的目标插帧。
第四方面,提供一种电子设备,包括:处理器和存储器,存储器用于存储至少一条指令,指令由处理器加载并执行时以实现上述的方法。
第五方面,提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的方法。
本申请实施例的视频插帧方法、训练方法、装置和电子设备,先计算视频中相邻的两个视频帧之间的光流,再对光流进行修正,然后基于修正后光流得到插帧,其中,光流是指空间运动物体在观察成像平面上的像素运动的瞬时速度,光流包含了目标运动的信息,表达了图像的变化,因此,利用视频中相邻两个视频帧之间的光流,可以得到两个视频帧之间的插帧;另外,根据比例将光流进行转换,可以得到两个视频帧之间位置所对应的初始光流,并根据转换后的初始光流对视频帧进行映射,得到对应两个视频帧之间所对应位置的初始映射图,基于初始映射图对对光流进行修正,可以使光流更加准确地反映两个视频帧之间的变化,从而提高了插帧结果的精度。
附图说明
图1为本申请实施例中一种视频插帧方法的流程示意图;
图2为本申请实施例中另一种视频插帧方法的流程示意图;
图3为本申请实施例中另一种视频插帧方法的流程示意图;
图4为本申请实施例中一种光流修正神经网络的模型结构示意图;
图5为本申请实施例中一种融合神经网络的模型结构示意图;
图6为本申请实施例中一种视频插帧装置的结构框图;
图7为本申请实施例中一种神经网络训练装置的结构框图;
图8为本申请实施例中一种电子设备的结构框图。
具体实施方式
本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
需要说明的是,附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
如图1所示,本申请实施例提供一种视频插帧方法,包括:
步骤101、获取视频中相邻的两个视频帧;
其中,视频为待插帧的视频,两个视频帧可以为任意相邻的两个视频帧,两个视频帧包括前一个视频帧I1和后一个视频帧I3
步骤102、计算两个视频帧之间的光流;
步骤103、将两个视频帧之间的光流基于预设比例变换为初始光流,两个视频帧之间的光流是基于两个视频帧计算得到的,这里根据预设比例,可以将光流转换为两个视频帧之间预设位置的光流,即初始光流;
步骤104、通过初始光流对两个视频帧进行映射得到初始映射图;
步骤105、基于初始映射图对两个视频帧之间的光流进行修正,得到修正后光流。
步骤106、根据修正后光流得到两个视频帧之间的目标插帧。
在经过步骤106得到这两个视频帧之间的目标插帧之后,可以继续按照步骤101至步骤106的过程获取另外的两个视频帧之间的目标插帧,例如,在获取到视频中第一帧和第二帧之间的目标插帧之后,可以循环该方法在预设帧间隔后继续获取之后相邻两帧之间的目标插帧,依次类推,可以实现整个视频的插帧。
本申请实施例的视频插帧方法,先计算视频中相邻的两个视频帧之间的光流,再对光流进行修正,然后基于修正后光流得到插帧,其中,光流(optical flow)是指空间运动物体在观察成像平面上的像素运动的瞬时速度,光流包含了目标运动的信息,表达了图像的变化,因此,利用视频中相邻两个视频帧之间的光流,可以得到两个视频帧之间的插帧;另外,根据比例将光流进行转换,可以得到两个视频帧之间位置所对应的初始光流,并根据转换后的初始光流对视频帧进行映射,得到对应两个视频帧之间所对应位置的初始映射图,基于初始映射图对对光流进行修正,可以使光流更加准确地反映两个视频帧之间的变化,从而提高了插帧结果的精度。
在一种可能的实施方式中,步骤102、计算两个视频帧之间的光流包括:基于计算机视觉算法计算两个视频帧之间的光流,这里的计算机视觉算法是指传统的图像处理方法,而非基于神经网络预测的方法;步骤105、基于初始映射图对两个视频帧之间的光流进行修正包括:基于神经网络,将初始映射图作为输入对两个视频帧之间的光流进行修正。在步骤105中,基于预先训练好的神经网络对在步骤102中计算得到的光流进行修正。在该步骤中,由于已经通过计算机视觉算法计算得到了一个大致准确的光流,该神经网络只需要对该光流进行修正,因此该神经网络的计算量较小。
传统的视频插帧方法是通过计算机视觉算法计算光流,然后再利用计算得到的光流进行光流映射得到目标插帧。但是基于这种方式得到的光流进行插帧,插帧结果的精度较低,因此为了提高精度,可以利用神经网络来预测得到光流,进而得到目标插帧的方法,但是这种方法的计算量大。
本申请实施例的视频插帧方法,先基于计算机视觉算法计算光流,再基于神经网络对光流进行修正,然后基于修正后光流得到插帧,由于借助神经网络的预测来对光流进行修正,因此基于这种方式得到的光流进行插帧,插帧结果的精度较高,例如可以减少物体轮廓边缘伪影,提高慢动作视频下的用户体验;又由于该神经网络只需要对已经得到的光流进行修正,因此降低了神经网络的计算量。即在提高插帧结果精度的前提下降低了计算量。
在一种可能的实施方式中,如图2所示,步骤105、基于初始映射图对两个视频帧之间的光流进行修正,得到修正后光流的过程包括:将两个视频帧、初始光流和初始映射图输入至光流修正神经网络,通过光流修正神经网络对初始光流进行修正,得到光流修正神经网络输出的修正后光流。
在一种可能的实施方式中,步骤106、根据修正后光流得到两个视频帧之间的目标插帧包括:
步骤1061、通过修正后光流对两个视频帧进行映射得到修正后映射图;
步骤1062、将两个视频帧、修正后光流以及修正后映射图输入至融合神经网络,得到融合神经网络输出的融合参数图;
步骤1063、基于融合参数图,将修正后映射图进行融合计算,得到目标插帧。
在一种可能的实施方式中,如图3所示,两个视频帧之间的光流包括第一反向光流F3-1和第二反向光流F1-3,第一反向光流F3-1为从前一个视频帧I1到后一个视频帧I3的反向光流,第二反向光流F1-3为从后一个视频帧I3到前一个视频帧I1的反向光流,即步骤101为获取视频中相邻的前一个视频帧I1和后一个视频帧I3。即步骤102包括:
步骤1021、基于计算机视觉算法计算第一反向光流F3-1,即从前一个视频帧I1到后一个视频帧I3的反向光流;
步骤1022、基于计算机视觉算法计算第二反向光流F1-3,即从后一个视频帧I3到前一个视频帧I1的反向光流。
其中,反向光流也称后向光流,本申请实施例中的光流可以表达为光流图,例如对于A和B两帧图像,光流图和A图以及B图的分辨率完全一致,光流图记载了一张图上每个像素点的“偏移量”,这里的“偏移量”有两个方向,一个是左右方向的偏移量x,一个是上下方向的偏移量y,这个偏移量的数值可以简单理解为将要移动的距离(像素数),“将光流应用到A图上”,或者说“通过光流对A图进行映射”都是指A图上的每个像素点按照其在光流图上对应位置上的偏移数值(上下方向+左右方向)做一个移位操作,在这个光流映射完成之后,会得到一个新的图像,称为映射图。从A图到B图计算出来的光流,对于A图来说,是A图的前向光流,对B图来说,就是B图的反向光流。因此对于A和B两帧图像,需要从A图通过前向光流进行映射或通过反向光流进行映射得到B图,那么前向光流是指从A图到B图计算得到的光流,后向光流/反向光流是指从B图到A图计算得到的光流。
步骤103、将两个视频帧之间的光流基于预设比例变换为初始光流包括:
步骤1031、将第一反向光流F3-1基于预设比例变换为第一初始光流FCV2-1,第一初始光流FCV2-1作为从前一个视频帧I1到目标插帧IN2的反向光流,由于目标插帧IN2位于I1和I3两个视频帧之间的位置,因此通过基于预设比例的变换,可以近似得到两个视频帧之间的光流,例如设置预设比例为0.5,通过使F3-1×0.5,可以近似得到两个视频帧二分之一处中间帧的光流;
步骤1032、将第二反向光流F1-3基于预设比例变换为第二初始光流FCV2-3,第二初始光流FCV2-3作为从后一个视频帧I3到目标插帧IN2的反向光流;
步骤104、将两个视频帧经过初始光流映射得到初始映射图包括:
步骤1041、通过第一初始光流FCV2-1对前一个视频帧I1进行映射得到第一映射图WF1-2
其中,即在I1图像上使用第一初始光流FCV2-1做光流映射backward warp,通过映射可以得到映射图WarpMask或者称为光流映射图WarpFlow,即第一映射图WF1-2。
步骤1042、通过第二初始光流FCV2-3对后一个视频帧I3进行映射得到第二映射图WF3-2,即上述步骤1052中的初始映射图包括第一映射图WF1-2和第二映射图WF3-2
步骤105、基于两个视频帧、初始光流和初始映射图,通过光流修正神经网络对初始光流进行修正,得到修正后光流的过程包括:
将前一个视频帧I1、后一个视频帧I3、第一初始光流FCV2-1、第二初始光流FCV2-3、第一映射图WF1-2和第二映射图WF3-2输入至光流修正神经网络,得到光流修正神经网络输出的第三反向光流FCVU2-1和第四反向光流FCVU2-3,第三反向光流FCVU2-1为修正后的从前一个视频帧I1到目标插帧IN2的反向光流,第四反向光流FCVU2-3为修正后的从后一个视频帧I3到目标插帧IN2的反向光流,即第三反向光流FCVU2-1和第四反向光流FCVU2-3属于步骤105中修正后光流。
其中,光流修正神经网络的神经网络模型结构可以如图4所示,该神经网络模型可以包括卷积Conv+激活函数Relu下采样模块、卷积Conv+激活函数Relu特征提取模块、反卷积ConvTranspose+激活函数Relu上采样模块。其中,该神经网络模型输入的是上述的I1、I3、FCV2-1、FCV2-3、WF1-2和WF3-2;下采样模块用于把输入的尺寸缩小,从而加快预测推理的速度,同时也用于提取网络特征;特征提取模块用于网络内部特征的提取和转换,提取的是卷积网络中经过卷积层运算后的特征,这些特征有可能是帧图片中边缘、轮廓、明暗等这些特征在网络内的表示;上采样模块用于把缩小的特征再重新放大回原始的输入大小;该神经网络模型输出的是第三反向光流FCVU2-1和第四反向光流FCVU2-3,即修正后的从前一个视频帧I1到目标插帧IN2的反向光流以及修正后的从后一个视频帧I3到目标插帧IN2的反向光流。也就是说,该神经网络用于将第一初始光流FCV2-1修正为第三反向光流FCVU2-1,将第二初始光流FCV2-3修正为第四反向光流FCVU2-3。图中相关的模块是指模块的复用,例如该神经网络模型中,复用了同样的特征提取模块,降低了网络结构的复杂度,增强了网络特征提取的表征能力。该神经网络模型的训练过程会在后续内容中说明。
在一种可能的实施方式中,如图3所示,步骤1061、根据修正后光流得到两个视频帧之间的目标插帧包括:
步骤10611、通过第三反向光流FCVU2-1对前一个视频帧I1进行映射得到第三映射图WM1-2
步骤10612、通过第四反向光流FCVU2-3对后一个视频帧I3进行映射得到第四映射图WM3-2
步骤1062、将前一个视频帧I1、后一个视频帧I3、第三反向光流FCVU2-1、第四反向光流FCVU2-3、第三映射图WM1-2和第四映射图WM3-2输入融合神经网络,得到融合神经网络输出的融合参数图m;
其中,融合神经网络的神经网络模型结构可以如图5所示,该神经网络模型可以包括卷积Conv+激活函数Relu下采样模块和反卷积ConvTranspose+激活函数Relu上采样模块。其中,该神经网络模型输入的是上述的I1、I3、FCVU2-1、FCVU2-3、WM1-2和WM3-2;该神经网络模型输出的是融合参数图m,融合参数图m用于在后续过程中参与计算得到目标插帧IN2。该神经网络模型的训练过程会在后续内容中说明。
步骤1063、基于融合参数图m、将第三映射图WM1-2和第四映射图WM3-2进行融合计算,得到目标插帧IN2
在一种可能的实施方式中,步骤1063、基于融合参数图m、将第三映射图WM1-2和第四映射图WM3-2进行融合计算,得到目标插帧IN2的过程包括:将第三映射图WM1-2和融合参数图m中各像素值分别对应相乘得到第一融合图WM1-2×m,其中,融合参数图m的分辨率与任意视频帧的分辨率相同,融合参数图m的多个像素值与第三映射图WM1-2的多个像素值一一对应,融合参数图m的每个像素值范围为0~1,第一融合图的多个像素值与第三映射图WM1-2的多个像素值一一对应,第三映射图WM1-2的多个像素值和融合参数图m的多个像素值一一对应相乘得到的多个乘积值分别为第一融合图WM1-2×m的多个像素值;将1与融合参数图m相减得到差值融合参数图(1-m),差值融合参数图(1-m)的多个像素值与融合参数图m的多个像素值一一对应,1与融合参数图m的多个像素值分别相减后得到的多个差值分别为差值融合参数图(1-m)的多个像素值;将第四映射图WM3-2和差值融合参数图(1-m)相乘得到第二融合图WM3-2×(1-m),第四映射图WM3-2的多个像素值和差值融合参数图(1-m)的多个像素值一一对应相乘得到的多个乘积值分别为第二融合图的多个像素值;将第一融合图WM1-2×m和第二融合图WM3-2×(1-m)相加得到目标插帧IN2,第一融合图的多个像素值和第二融合图的多个像素值一一对应相加得到的多个值分别为目标插帧IN2的多个像素值,用公式表示目标插帧IN2=WM1-2×m+WM3-2×(1-m),可见,第三映射图WM1-2和第四映射图WM3-2用于基于融合参数图m进行融合计算,以得到目标插帧IN2。目标插帧IN2的就算公式实际上是将第三映射图WM1-2和融合参数图m逐点相乘得到一个中间结果,将第四映射图WM3-2和(1与融合参数图m逐点相减后的结果)逐点相乘得到另一个中间结果,再将两个中间结果逐点相加。例如下方表1示意了目标插帧IN2、第三映射图WM1-2、第四映射图WM3-2和融合参数图m的对照表。
表1
Figure BDA0003518445500000061
Figure BDA0003518445500000071
假设第三映射图WM1-2、第四映射图WM3-2和融合参数图m均为2×2分辨率的图像,表1中的数值为像素值。在三个示例中,第三映射图WM1-2的像素值均为2,第四映射图WM3-2的像素值均为4。区别在于,在示例1中,融合参数图m的像素值均为0,根据公式WM1-2×m+WM3-2×(1-m)计算每个像素值后得到的目标插帧IN2的每个像素值均为4,其中,目标插帧IN2的每个像素值=2×0+4×(1-0)=4。在示例2中,融合参数图m的像素值均为1,根据公式WM1-2×m+WM3-2×(1-m)计算每个像素值后得到的目标插帧IN2的每个像素值均为2,其中,目标插帧IN2的每个像素值=2×1+4×(1-1)=2。在示例3中,融合参数图m的像素值均为0.5,根据公式WM1-2×m+WM3-2×(1-m)计算每个像素值后得到的目标插帧IN2的每个像素值均为3,其中,目标插帧IN2的每个像素值=2×0.5+4×(1-0.5)=3。
在一种可能的实施方式中,步骤1031、将第一反向光流F3-1基于预设比例变换为第一初始光流FCV2-1包括:将第一反向光流F3-1乘以预设比例值t,得到第一初始光流FCV2-1,即基于公式FCV2-1=t×F3-1将F3-1变换FCV2-1,预设比例值的范围为0.4~0.6;步骤1032、将第二反向光流F1-3基于预设比例变换为第二初始光流FCV2-3包括:将第二反向光流F1-3乘以预设比例值t,得到第二初始光流FCV2-3,即基于公式FCV2-3=t×F1-3将F1-3变换为FCV2-3。即根据预设比例对光流进行变换,可以得到两个视频帧对应位置处中间帧的光流,以利于后续计算过程中基于该光流来确定目标插帧IN2。其中预设比例值t可以为0.5,如果预设比例值t为0.5,则变换后所得到的光流为两个视频帧之间二分之一处的光流。
本申请实施例还提供一种用于视频插帧的神经网络训练方法,该神经网络训练方法可以用于训练上述的光流修正神经网络和融合神经网络,在进行神经网络训练之前,可以预先从涵盖多种场景和运动形态的1000个视频片段中提取出约100000组数据作为训练数据,例如从每个视频片段中取100组数据,1000个视频共可提取100000组训练数据,每组训练数据包括三个连续的视频帧,所有的数据通过剪裁或缩放方法归一化到统一的分辨率尺寸,例如统一为768×768分辨率。神经网络训练方法包括:
步骤201、获取一组训练数据,一组训练数据包括三个连续的视频帧,三个连续的视频帧依次为第一训练视频帧i1、第二训练视频帧i2和第三训练视频帧i3,在该步骤中,可以从训练数据中随机选取一组训练数据;
步骤202、获取第一参考反向光流fg2-1,第一参考反向光流fg2-1为从第一训练视频帧i1到第二训练视频帧i2的反向光流;
步骤203、获取第二参考反向光流fg2-3,第二参考反向光流fg2-3为从第三训练视频帧i3到第二训练视频帧i2的反向光流;
在步骤202和步骤203中,第一参考反向光流fg2-1和第二参考反向光流fg2-3可以通过第三方的最先进的光流获取方法来获取,fg2-1和fg2-3用于作为参考光流,便于后续与神经网络输出的结果之间比较差异,进而对网络参数进行调整。
步骤204、计算第一训练反向光流f3-1,第一训练反向光流f3-1为从第一训练视频帧i1到第三训练视频帧i3的反向光流;
步骤205、计算第二训练反向光流f1-3,第二训练反向光流f1-3为从第三训练视频帧i3到第一训练视频帧i1的反向光流;
步骤206、将第一训练反向光流f3-1基于预设比例变换为第一初始训练光流fcv2-1,第一初始训练光流fcv2-1作为从第一训练视频帧i1到第二训练视频帧i2的反向光流;
例如,步骤206、将第一训练反向光流f3-1基于预设比例变换为第一初始训练光流fcv2-1包括:基于公式fcv2-1=t×f3-1将f3-1变换fcv2-1,t=0.5;
步骤207、将第二训练反向光流f1-3基于预设比例变换为第二初始训练光流fcv2-3,第二初始训练光流fcv2-3作为从第三训练视频帧i3到第二训练视频帧i2的反向光流fcv2-3
例如,步骤207、将从第二训练反向光流f1-3基于预设比例变换第二初始训练光流为fcv2-3包括:基于公式fcv2-3=t×f1-3将f1-3变换为fcv2-3,t=0.5。
步骤208、通过第一初始训练光流fcv2-1对第一训练视频帧i1进行映射得到第一训练映射图wf1-2
步骤209、通过第二初始训练光流fcv2-3对第三训练视频帧i3进行映射得到第二训练映射图wf3-2
步骤210、将第一训练视频帧i1、第三训练视频帧i3、第一初始训练光流fcv2-1、第二初始训练光流fcv2-3、第一训练映射图wf1-2和第二训练映射图wf3-2输入至光流修正神经网络,得到光流修正神经网络输出的第三训练反向光流fcvu2-1和第四训练反向光流fcvu2-3,第三训练反向光流fcvu2-1为修正后的从第一训练视频帧i1到第二训练视频帧i2的反向光流,第四训练反向光流fcvu2-3为修正后的从第三训练视频帧i3到第二训练视频帧i2的反向光流;
步骤211、通过第三训练反向光流fcvu2-1对第一训练视频帧i1进行映射得到第三训练映射图wm1-2
步骤212、通过第四训练反向光流fcvu2-3对第三训练视频帧i3进行映射得到第四训练映射图wm3-2
步骤213、将第一训练视频帧i1、第三训练视频帧i3、第三训练反向光流fcvu2-1、第四训练反向光流fcvu2-3、第一训练映射图wm1-2和第二训练映射图wm3-2输入融合神经网络,得到融合神经网络输出的融合参数图m;
步骤214、基于融合参数图m,将第三训练映射图wm1-2和第四训练映射图wm3-2进行融合计算,得到目标插帧in2
例如,融合参数图m的分辨率与任意视频帧的分辨率相同,融合参数图m的每个像素值范围为0~1,目标插帧in2=wm1-2×m+wm3-2×(1-m)。
步骤215、基于目标插帧in2与第二训练视频帧i2之间的差异、第三训练反向光流fcvu2-1与第一参考反向光流fg2-1之间的差异、第四训练反向光流fcvu2-3与第二参考反向光流fg2-3之间的差异调整光流修正神经网络以及融合神经网络的网络参数。
其中,在神经网络训练的过程中,第二训练视频帧i2是已知的,而目标插帧in2是基于神经网络预测得到的,因此,可以基于in2与i2之间的差异来调整网络参数,以使神经网络的预测更加准确,类似的原因,可以基于fcvu2-1与fg2-1之间的差异以及fcvu2-3与fg2-3之间的差异来调整网络参数。从上述步骤201至步骤515是一轮训练的过程,神经网络可以基于训练数据进行多轮训练。在步骤215中,具体例如计算in2与i2之间的L1损失L1 loss、fcvu2-1与fg2-1之间L1 loss、fcvu2-3与fg2-3之间的L1 loss,并反向传播迭代至光流修正神经网络以及融合神经网络收敛,即在多轮的网络训练过程中,根据这些L1 loss调整光流修正神经网络和融合神经网络的网络参数,使网络参数不断优化,直到L1 loss不再下降,表示网络训练完成,此时神经网络的预测效果最好。在网络训练完成之后,即可以基于训练好的光流修正神经网络和融合神经网络,利用上述的视频插帧方法来实现视频插帧。
在一种可能的实施方式中,步骤204、计算第一训练反向光流f3-1包括:基于计算机视觉算法计算第一训练反向光流f3-1;步骤205、计算第三训练反向光流f1-3包括:基于计算机视觉算法计算第三训练反向光流f1-3
在一种可能的实施方式中,步骤214、基于融合参数图m,将第三训练映射图wm1-2和第四训练映射图wm3-2进行融合计算,得到目标插帧in2的过程包括:将第三训练映射图wm1-2和融合参数图m中各像素值分别对应相乘得到第一融合图wm1-2×m,其中,融合参数图m的分辨率与任意视频帧的分辨率相同,融合参数图m的多个像素值与第三训练映射图wm1-2的多个像素值一一对应,融合参数图m的每个像素值范围为0~1,第一融合图m的多个像素值与第三训练映射图wm1-2的多个像素值一一对应,第三训练映射图wm1-2的多个像素值和融合参数图m的多个像素值一一对应相乘得到的多个乘积值分别为第一融合图的多个像素值;将1与融合参数图m相减得到差值融合参数图(1-m),差值融合参数图的多个像素值与融合参数图m的多个像素值一一对应,1与融合参数图m的多个像素值分别相减后得到的多个差值分别为差值融合参数图的多个像素值;将第四训练映射图wm3-2和差值融合参数图(1-m)相乘得到第二融合图wm3-2×(1-m),第四训练映射图wm3-2的多个像素值和差值融合参数图的多个像素值一一对应相乘得到的多个乘积值分别为第二融合图的多个像素值;将第一融合图wm1-2×m和第二融合图wm3-2×(1-m)相加得到目标插帧in2,第一融合图的多个像素值和第二融合图的多个像素值一一对应相加得到的多个值分别为目标插帧in2的多个像素值,用公式表示目标插帧in2=wm1-2×m+wm3-2×(1-m)。
在一种可能的实施方式中,步骤206、将第一训练反向光流f3-1基于预设比例变换为第一初始训练光流fcv2-1包括:将第一训练反向光流f3-1乘以预设比例值t,得到第一初始训练光流fcv2-1,即基于公式fcv2-1=t×f3-1将f3-1变换fcv2-1,预设比例值的范围为0.4~0.6;
步骤207、将第二训练反向光流f1-3基于预设比例变换为第二初始训练光流fcv2-3包括:将从第二训练反向光流f1-3乘以预设比例值t,得到第二初始训练光流fcv2-3,即基于公式fcv2-3=t×f1-3将f1-3变换为fcv2-3,其中预设比例值t可以为0.5。
如图6所示,本申请实施例还提供一种视频插帧装置3,包括:获取模块31,用于获取视频中相邻的两个视频帧,两个视频帧包括前一个视频帧I1和后一个视频帧I3;获取模块31还用于,计算两个视频帧之间的光流;获取模块31还用于,将两个视频帧之间的光流基于预设比例变换为初始光流;获取模块31还用于,通过初始光流对两个视频帧进行映射得到初始映射图;修正模块32,用于基于初始映射图对两个视频帧之间的光流进行修正,得到修正后光流;插帧模块33,用于根据修正后光流得到两个视频帧之间的目标插帧。该视频插帧装置可以应用上述任意实施例中的视频插帧方法,具体过程和原理在此不再赘述。
在一种可能的实施方式中,计算两个视频帧之间的光流包括:基于计算机视觉算法计算两个视频帧之间的光流;基于初始映射图对两个视频帧之间的光流进行修正包括:基于神经网络,将初始映射图作为输入对两个视频帧之间的光流进行修正。
在一种可能的实施方式中,基于初始映射图对两个视频帧之间的光流进行修正,得到修正后光流的过程包括:将两个视频帧、初始光流和初始映射图输入至光流修正神经网络,通过光流修正神经网络对初始光流进行修正,得到光流修正神经网络输出的修正后光流。
在一种可能的实施方式中,将两个视频帧之间的光流基于预设比例变换为初始光流包括:将第一反向光流F3-1基于预设比例变换为第一初始光流FCV2-1,第一反向光流F3-1属于两个视频帧之间的光流,第一反向光流F3-1为从前一个视频帧I1到后一个视频帧I3的反向光流;将第二反向光流F1-3基于预设比例变换为第二初始光流FCV2-3,第二反向光流F1-3属于两个视频帧之间的光流,第二反向光流F1-3为从后一个视频帧I3到前一个视频帧I1的反向光流;将两个视频帧经过初始光流映射得到初始映射图包括:通过第一初始光流FCV2-1对前一个视频帧I1进行映射得到第一映射图WF1-2,第一映射图WF1-2属于初始映射图;通过第二初始光流FCV2-3对后一个视频帧I3进行映射得到第二映射图WF3-2,第二映射图WF3-2属于初始映射图;将基于两个视频帧、初始光流和初始映射图输入至光流修正神经网络,通过光流修正神经网络对初始光流进行修正,得到光流修正神经网络输出的修正后光流的过程包括:将前一个视频帧I1、后一个视频帧I3、第一初始光流FCV2-1、第二初始光流FCV2-3、第一映射图WF1-2和第二映射图WF3-2输入至光流修正神经网络,得到光流修正神经网络输出的第三反向光流FCVU2-1和第四反向光流FCVU2-3,其中,第三反向光流FCVU2-1和第四反向光流FCVU2-3属于修正后光流,第三反向光流FCVU2-1为修正后的从前一个视频帧I1到目标插帧IN2的反向光流,第四反向光流FCVU2-3为修正后的从后一个视频帧I3到目标插帧IN2的反向光流。
在一种可能的实施方式中,根据修正后光流得到两个视频帧之间的目标插帧包括:经过修正后光流对两个视频帧进行映射得到修正后映射图;将两个视频帧、修正后光流以及修正后映射图输入至融合神经网络,得到融合神经网络输出的融合参数图;基于融合参数图,将第三映射图和第四映射图进行融合计算,得到目标插帧。
在一种可能的实施方式中,根据修正后光流得到两个视频帧之间的目标插帧包括:通过第三反向光流FCVU2-1对前一个视频帧I1进行映射得到第三映射图WM1-2;通过第四反向光流FCVU2-3对后一个视频帧I3进行映射得到第四映射图WM3-2;将前一个视频帧I1、后一个视频帧I3、第三反向光流FCVU2-1、第四反向光流FCVU2-3、第三映射图WM1-2和第四映射图WM3-2输入至融合神经网络,得到融合神经网络输出的融合参数图m;基于融合参数图m,将第三映射图WM1-2和第四映射图WM3-2进行融合计算,得到目标插帧IN2
在一种可能的实施方式中,基于融合参数图,将第三映射图和第四映射图进行融合计算,得到目标插帧的过程包括:将第三映射图和融合参数图相乘得到第一融合图,其中,融合参数图的多个像素值与第三映射图的多个像素值一一对应,融合参数图的每个像素值范围为0~1,第一融合图的多个像素值与第三映射图的多个像素值一一对应,第三映射图的多个像素值和融合参数图的多个像素值一一对应相乘得到的多个乘积值分别为第一融合图的多个像素值;将1与融合参数图相减得到差值融合参数图,差值融合参数图的多个像素值与融合参数图的多个像素值一一对应,1与融合参数图的多个像素值分别相减后得到的多个差值分别为差值融合参数图的多个像素值;将第四映射图和差值融合参数图相乘得到第二融合图,第四映射图的多个像素值和差值融合参数图的多个像素值一一对应相乘得到的多个乘积值分别为第二融合图的多个像素值;将第一融合图和第二融合图相加得到目标插帧,第一融合图的多个像素值和第二融合图的多个像素值一一对应相加得到的多个值分别为目标插帧的多个像素值。
在一种可能的实施方式中,将第一反向光流基于预设比例变换为第一初始光流包括:将第一反向光流乘以预设比例值,得到第一初始光流,预设比例值的范围为0.4~0.6;将第二反向光流基于预设比例变换为第二初始光流包括:将第二反向光流乘以预设比例值,得到第二初始光流。
在一种可能的实施方式中,预设比例值为0.5。
如图7所示,本申请实施例还提供一种神经网络训练装置4,包括:获取模块41,用于:获取一组训练数据,一组训练数据包括三个连续的视频帧,三个连续的视频帧依次为第一训练视频帧i1、第二训练视频帧i2和第三训练视频帧i3;获取第一参考反向光流fg2-1,第一参考反向光流fg2-1为从第一训练视频帧i1到第二训练视频帧i2的参考反向光流;获取第二参考反向光流fg2-3,第二参考反向光流fg2-3为从第三训练视频帧i3到第二训练视频帧i2的参考反向光流;计算第一训练反向光流f3-1,第一训练反向光流f3-1为从第一训练视频帧i1到第三训练视频帧i3的反向光流;计算第二训练反向光流f1-3,第二训练反向光流f1-3为从第三训练视频帧i3到第一训练视频帧i1的反向光流;将第一训练反向光流f3-1基于预设比例变换为第一初始训练光流fcv2-1;将第二训练反向光流f1-3基于预设比例变换为第二初始训练光流fcv2-3;通过第一初始训练光流fcv2-1对第一训练视频帧i1进行映射得到第一训练映射图wf1-2;通过第二初始训练光流fcv2-3对第三训练视频帧i3进行映射得到第二训练映射图wf3-2;修正模块42,用于:将第一训练视频帧i1、第三训练视频帧i3、第一初始训练光流fcv2-1、第二初始训练光流fcv2-3、第一训练映射图wf1-2和第二训练映射图wf3-2输入至光流修正神经网络,得到光流修正神经网络输出的第三训练反向光流fcvu2-1和第四训练反向光流fcvu2-3,第三训练反向光流fcvu2-1为修正后的从第一训练视频帧i1到第二训练视频帧i2的反向光流,第四训练反向光流fcvu2-3为修正后的从第三训练视频帧i3到第二训练视频帧i2的反向光流;插帧模块43,用于:通过第三训练反向光流fcvu2-1对第一训练视频帧i1进行映射得到第三训练映射图wm1-2;通过第四训练反向光流fcvu2-3对第三训练视频帧i3进行映射得到第四训练映射图wm3-2;将第一训练视频帧i1、第三训练视频帧i3、第三训练反向光流fcvu2-1、第四训练反向光流fcvu2-3、第三训练映射图wm1-2和第四训练映射图wm3-2输入融合神经网络,得到融合神经网络输出的融合参数图m;插帧模块43,还用于基于融合参数图m,将第三训练映射图wm1-2和第四训练映射图wm3-2进行融合计算,得到目标插帧in2;调整模块44,用于基于目标插帧in2与第二训练视频帧i2之间的差异、第三训练反向光流fcvu2-1与第一参考反向光流fg2-1之间的差异、第四训练反向光流fcvu2-3与第二参考反向光流fg2-3之间的差异调整光流修正神经网络以及融合神经网络的网络参数。神经网络训练装置可以应用上述任意实施例中的用于视频插帧的神经网络训练方法,具体过程和原理与上述实施例相同,在此不再赘述。
在一种可能的实施方式中,计算第一训练反向光流f3-1包括:基于计算机视觉算法计算第一训练反向光流f3-1;计算从第二训练反向光流f1-3包括:基于计算机视觉算法计算第二训练反向光流f1-3
在一种可能的实施方式中,基于融合参数图,将第三训练映射图和第四训练映射图进行融合计算,得到目标插帧的过程包括:将第三训练映射图和融合参数图相乘得到第一融合图,其中,融合参数图的多个像素值与第三训练映射图的多个像素值一一对应,融合参数图每个像素值范围为0~1,第一融合图的多个像素值与第三训练映射图的多个像素值一一对应,第三训练映射图的多个像素值和融合参数图的多个像素值一一对应相乘得到的多个乘积值分别为第一融合图的多个像素值;将1与融合参数图相减得到差值融合参数图,差值融合参数图的多个像素值与融合参数图的多个像素值一一对应,1与融合参数图的多个像素值分别相减后得到的多个差值分别为差值融合参数图的多个像素值;将第四训练映射图和差值融合参数图相乘得到第二融合图,第四训练映射图的多个像素值和差值融合参数图的多个像素值一一对应相乘得到的多个乘积值分别为第二融合图的多个像素值;将第一融合图和第二融合图相加得到目标插帧,第一融合图的多个像素值和第二融合图的多个像素值一一对应相加得到的多个值分别为目标插帧的多个像素值。
在一种可能的实施方式中,将第一训练反向光流基于预设比例变换为第一初始训练光流包括:将第一训练反向光流乘以预设比例值,得到第一初始训练光流,预设比例值的范围为0.4~0.6;将第二初始训练光流基于预设比例变换为第二初始训练光流包括:将第二初始训练光流乘以预设比例值,得到第二初始训练光流。
在一种可能的实施方式中,预设比例值为0.5。
应理解以上视频插帧装置或神经网络训练装置的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块以软件通过处理元件调用的形式实现,部分模块通过硬件的形式实现。例如,获取模块、修正模块和插帧模块中的任意一者可以为单独设立的处理元件,也可以集成在视频插帧装置中,例如集成在视频插帧装置的某一个芯片中实现,此外,也可以以程序的形式存储于视频插帧装置的存储器中,由视频插帧装置的某一个处理元件调用并执行以上各个模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。另外,上述视频插帧装置和神经网络训练装置可以为同一个装置,也可以为不同的装置。
例如,视频插帧装置或神经网络训练装置可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific IntegratedCircuit,ASIC),或,一个或多个微处理器(digital singnal processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,CPU)或其它可以调用程序的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
如图8所示,本申请实施例还提供一种电子设备,包括:处理器51和存储器52,存储器52用于存储至少一条指令,指令由处理器51加载并执行时以实现上述任意实施例中的方法,包括视频插帧方法或用于视频插帧的神经网络训练方法。视频插帧方法或用于视频插帧的神经网络训练方法的具体过程和原理与上述实施例相同,在此不再赘述。
处理器51的数量可以为一个或多个,处理器51和存储器52可以通过总线53或者其他方式连接。存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的数据处理装置对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行各种功能应用以及数据处理,即实现上述任意方法实施例中的方法。存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;以及必要数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。电子设备例如可以为服务器、电脑、手机等电子产品。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述任意实施例中的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid StateDisk)等。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (17)

1.一种视频插帧方法,其特征在于,包括:
获取视频中相邻的两个视频帧,所述两个视频帧包括前一个视频帧和后一个视频帧;
计算所述两个视频帧之间的光流;
将所述两个视频帧之间的光流基于预设比例变换为初始光流;
通过所述初始光流对所述两个视频帧进行映射得到初始映射图;
基于所述初始映射图对所述两个视频帧之间的光流进行修正,得到修正后光流;
根据所述修正后光流得到所述两个视频帧之间的目标插帧。
2.根据权利要求1所述的方法,其特征在于,
所述计算所述两个视频帧之间的光流包括:基于计算机视觉算法计算所述两个视频帧之间的光流;
所述基于所述初始映射图对所述两个视频帧之间的光流进行修正包括:基于神经网络,将所述初始映射图作为输入对所述两个视频帧之间的光流进行修正。
3.根据权利要求1所述的方法,其特征在于,所述基于所述初始映射图对所述两个视频帧之间的光流进行修正,得到修正后光流的过程包括:
将所述两个视频帧、所述初始光流和所述初始映射图输入至光流修正神经网络,通过所述光流修正神经网络对所述初始光流进行修正,得到所述光流修正神经网络输出的所述修正后光流。
4.根据权利要求3所述的方法,其特征在于,
所述将所述两个视频帧之间的光流基于预设比例变换为初始光流包括:
将第一反向光流基于预设比例变换为第一初始光流,所述第一反向光流属于所述两个视频帧之间的光流,所述第一反向光流为从所述前一个视频帧到所述后一个视频帧的反向光流;
将第二反向光流基于预设比例变换为第二初始光流,所述第二反向光流属于所述两个视频帧之间的光流,所述第二反向光流为从所述后一个视频帧到所述前一个视频帧的反向光流;
所述将所述两个视频帧经过所述初始光流映射得到初始映射图包括:
通过所述第一初始光流对所述前一个视频帧进行映射得到第一映射图,所述第一映射图属于所述初始映射图;
通过所述第二初始光流对所述后一个视频帧进行映射得到第二映射图,所述第二映射图属于所述初始映射图;
所述将所述两个视频帧、所述初始光流和所述初始映射图输入至光流修正神经网络,通过光流修正神经网络对所述初始光流进行修正,得到所述光流修正神经网络输出的所述修正后光流的过程包括:
将所述前一个视频帧、所述后一个视频帧、所述第一初始光流、所述第二初始光流、所述第一映射图和所述第二映射图输入至光流修正神经网络,得到光流修正神经网络输出的第三反向光流和第四反向光流,其中,所述第三反向光流和所述第四反向光流属于所述修正后光流,所述第三反向光流为修正后的从所述前一个视频帧到所述目标插帧的反向光流,所述第四反向光流为修正后的从所述后一个视频帧到所述目标插帧的反向光流。
5.根据权利要求1所述的方法,其特征在于,
所述根据所述修正后光流得到所述两个视频帧之间的目标插帧包括:
通过所述修正后光流对所述两个视频帧进行映射得到修正后映射图;
将所述两个视频帧、所述修正后光流以及所述修正后映射图输入至融合神经网络,得到所述融合神经网络输出的融合参数图;
基于所述融合参数图,将所述修正后映射图进行融合计算,得到所述目标插帧。
6.根据权利要求4所述的方法,其特征在于,
所述根据所述修正后光流得到所述两个视频帧之间的目标插帧包括:
通过所述第三反向光流对所述前一个视频帧进行映射得到第三映射图;
通过所述第四反向光流对所述后一个视频帧进行映射得到第四映射图;
将所述前一个视频帧、所述后一个视频帧、所述第三反向光流、所述第四反向光流、所述第三映射图和所述第四映射图输入至融合神经网络,得到所述融合神经网络输出的融合参数图;
基于所述融合参数图,将所述第三映射图和所述第四映射图进行融合计算,得到所述目标插帧。
7.根据权利要求6所述的方法,其特征在于,
所述基于所述融合参数图,将所述第三映射图和所述第四映射图进行融合计算,得到所述目标插帧的过程包括:
将所述第三映射图和所述融合参数图相乘得到第一融合图,其中,所述融合参数图的多个像素值与所述第三映射图的多个像素值一一对应,所述融合参数图的每个像素值范围为0~1,所述第一融合图的多个像素值与所述第三映射图的多个像素值一一对应,所述第三映射图的多个像素值和所述融合参数图的多个像素值一一对应相乘得到的多个乘积值分别为所述第一融合图的多个像素值;
将1与所述融合参数图相减得到差值融合参数图,所述差值融合参数图的多个像素值与所述融合参数图的多个像素值一一对应,1与所述融合参数图的多个像素值分别相减后得到的多个差值分别为所述差值融合参数图的多个像素值;
将所述第四映射图和所述差值融合参数图相乘得到第二融合图,所述第四映射图的多个像素值和所述差值融合参数图的多个像素值一一对应相乘得到的多个乘积值分别为所述第二融合图的多个像素值;
将所述第一融合图和所述第二融合图相加得到所述目标插帧,所述第一融合图的多个像素值和所述第二融合图的多个像素值一一对应相加得到的多个值分别为所述目标插帧的多个像素值。
8.根据权利要求4或6或7所述的方法,其特征在于,
所述将所述第一反向光流基于预设比例变换为第一初始光流包括:
将所述第一反向光流乘以预设比例值,得到所述第一初始光流,所述预设比例值的范围为0.4~0.6;
所述将第二反向光流基于预设比例变换为第二初始光流包括:
将所述第二反向光流乘以所述预设比例值,得到所述第二初始光流。
9.根据权利要求8所述的方法,其特征在于,
所述预设比例值为0.5。
10.一种用于视频插帧的神经网络训练方法,其特征在于,包括:
获取一组训练数据,所述一组训练数据包括三个连续的视频帧,所述三个连续的视频帧依次为第一训练视频帧、第二训练视频帧和第三训练视频帧;
获取第一参考反向光流,所述第一参考反向光流为从所述第一训练视频帧到所述第二训练视频帧的反向光流;
获取第二参考反向光流,所述第二参考反向光流为从所述第三训练视频帧到所述第二训练视频帧的反向光流;
计算第一训练反向光流,所述第一训练反向光流为从所述第一训练视频帧到所述第三训练视频帧的反向光流;
计算第二训练反向光流,所述第二训练反向光流为从所述第三训练视频帧到所述第一训练视频帧的反向光流;
将所述第一训练反向光流基于预设比例变换为第一初始训练光流;
将所述第二训练反向光流基于所述预设比例变换为第二初始训练光流;
通过所述第一初始训练光流对所述第一训练视频帧进行映射得到第一训练映射图;
通过所述第二初始训练光流对所述第三训练视频帧进行映射得到第二训练映射图;
将所述第一训练视频帧、所述第三训练视频帧、所述第一初始训练光流、所述第二初始训练光流、所述第一训练映射图和所述第二训练映射图输入至光流修正神经网络,得到光流修正神经网络输出的第三训练反向光流和第四训练反向光流,所述第三训练反向光流为修正后的从所述第一训练视频帧到所述第二训练视频帧的反向光流,所述第四训练反向光流为修正后的从所述第三训练视频帧到所述第二训练视频帧的反向光流;
通过所述第三训练反向光流对所述第一训练视频帧进行映射得到第三训练映射图;
通过所述第四训练反向光流对所述第三训练视频帧进行映射得到第四训练映射图;
将所述第一训练视频帧、所述第三训练视频帧、所述第三训练反向光流、所述第四训练反向光流、所述第三训练映射图和所述第四训练映射图输入融合神经网络,得到融合神经网络输出的融合参数图;
基于所述融合参数图,将所述第三训练映射图和所述第四训练映射图进行融合计算,得到所述目标插帧;
基于所述目标插帧与所述第二训练视频帧之间的差异、所述第三训练反向光流与所述第一参考反向光流之间的差异、所述第四训练反向光流与所述第二参考反向光流之间的差异调整所述光流修正神经网络以及所述融合神经网络的网络参数。
11.根据权利要求10所述的方法,其特征在于,
所述计算第一训练反向光流包括:基于计算机视觉算法计算所述第一训练反向光流;
所述计算第二训练反向光流包括:基于计算机视觉算法计算所述第二训练反向光流。
12.根据权利要求10所述的方法,其特征在于,
所述基于所述融合参数图,将所述第三训练映射图和所述第四训练映射图进行融合计算,得到所述目标插帧的过程包括:
将所述第三训练映射图和所述融合参数图相乘得到第一融合图,其中,所述融合参数图的多个像素值与所述第三训练映射图的多个像素值一一对应,所述融合参数图每个像素值范围为0~1,所述第一融合图的多个像素值与所述第三训练映射图的多个像素值一一对应,所述第三训练映射图的多个像素值和所述融合参数图的多个像素值一一对应相乘得到的多个乘积值分别为所述第一融合图的多个像素值;
将1与所述融合参数图相减得到差值融合参数图,所述差值融合参数图的多个像素值与所述融合参数图的多个像素值一一对应,1与所述融合参数图的多个像素值分别相减后得到的多个差值分别为所述差值融合参数图的多个像素值;
将所述第四训练映射图和所述差值融合参数图相乘得到第二融合图,所述第四训练映射图的多个像素值和所述差值融合参数图的多个像素值一一对应相乘得到的多个乘积值分别为所述第二融合图的多个像素值;
将所述第一融合图和所述第二融合图相加得到所述目标插帧,所述第一融合图的多个像素值和所述第二融合图的多个像素值一一对应相加得到的多个值分别为所述目标插帧的多个像素值。
13.根据权利要求10所述的方法,其特征在于,
所述将所述第一训练反向光流基于预设比例变换为第一初始训练光流包括:
将所述第一训练反向光流乘以预设比例值,得到所述第一初始训练光流,所述预设比例值的范围为0.4~0.6;
所述将所述第二初始训练光流基于预设比例变换为第二初始训练光流包括:
将所述第二初始训练光流乘以所述预设比例值,得到所述第二初始训练光流。
14.根据权利要求10所述的方法,其特征在于,
所述预设比例值为0.5。
15.一种视频插帧装置,其特征在于,包括:
获取模块,用于获取视频中相邻的两个视频帧;
所述获取模块还用于,计算所述两个视频帧之间的光流;
所述获取模块还用于,将所述两个视频帧之间的光流基于预设比例变换为初始光流;
所述获取模块还用于,通过所述初始光流对所述两个视频帧进行映射得到初始映射图;
修正模块,用于基于所述初始映射图对所述两个视频帧之间的光流进行修正,得到修正后光流;
插帧模块,用于根据所述修正后光流得到所述两个视频帧之间的目标插帧。
16.一种电子设备,其特征在于,包括:
处理器和存储器,所述存储器用于存储至少一条指令,所述指令由所述处理器加载并执行时以实现如权利要求1至14中任意一项所述的方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1至14中任意一项所述的方法。
CN202210171767.5A 2022-02-24 2022-02-24 视频插帧方法、训练方法、装置和电子设备 Active CN114640885B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210171767.5A CN114640885B (zh) 2022-02-24 2022-02-24 视频插帧方法、训练方法、装置和电子设备
PCT/CN2023/075807 WO2023160426A1 (zh) 2022-02-24 2023-02-14 视频插帧方法、训练方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210171767.5A CN114640885B (zh) 2022-02-24 2022-02-24 视频插帧方法、训练方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN114640885A true CN114640885A (zh) 2022-06-17
CN114640885B CN114640885B (zh) 2023-12-22

Family

ID=81948635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210171767.5A Active CN114640885B (zh) 2022-02-24 2022-02-24 视频插帧方法、训练方法、装置和电子设备

Country Status (2)

Country Link
CN (1) CN114640885B (zh)
WO (1) WO2023160426A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023160426A1 (zh) * 2022-02-24 2023-08-31 影石创新科技股份有限公司 视频插帧方法、训练方法、装置和电子设备
CN117115210A (zh) * 2023-10-23 2023-11-24 黑龙江省农业科学院农业遥感与信息研究所 基于物联网的智慧农业监控调节方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978728A (zh) * 2014-04-08 2015-10-14 南京理工大学 一种光流法的图像匹配系统
WO2016187776A1 (zh) * 2015-05-25 2016-12-01 北京大学深圳研究生院 一种基于光流法的视频插帧方法及系统
CN112104830A (zh) * 2020-08-13 2020-12-18 北京迈格威科技有限公司 视频插帧方法、模型训练方法及对应装置
CN113365110A (zh) * 2021-07-14 2021-09-07 北京百度网讯科技有限公司 模型训练、视频插帧方法,装置,设备以及存储介质
CN114007135A (zh) * 2021-10-29 2022-02-01 广州华多网络科技有限公司 视频插帧方法及其装置、设备、介质、产品

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776688B2 (en) * 2017-11-06 2020-09-15 Nvidia Corporation Multi-frame video interpolation using optical flow
CN109949221B (zh) * 2019-01-30 2022-05-17 深圳大学 一种图像处理方法及电子设备
CN110191299B (zh) * 2019-04-15 2020-08-04 浙江大学 一种基于卷积神经网络的多重帧插值方法
CN113727141B (zh) * 2020-05-20 2023-05-12 富士通株式会社 视频帧的插值装置以及方法
CN113949926B (zh) * 2020-07-17 2024-07-30 武汉Tcl集团工业研究院有限公司 一种视频插帧方法、存储介质及终端设备
CN112995715B (zh) * 2021-04-20 2021-09-03 腾讯科技(深圳)有限公司 视频插帧处理方法、装置、电子设备及存储介质
CN114066730B (zh) * 2021-11-04 2022-10-28 西北工业大学 一种基于无监督对偶学习的视频插帧方法
CN114640885B (zh) * 2022-02-24 2023-12-22 影石创新科技股份有限公司 视频插帧方法、训练方法、装置和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978728A (zh) * 2014-04-08 2015-10-14 南京理工大学 一种光流法的图像匹配系统
WO2016187776A1 (zh) * 2015-05-25 2016-12-01 北京大学深圳研究生院 一种基于光流法的视频插帧方法及系统
US20180176574A1 (en) * 2015-05-25 2018-06-21 Peking University Shenzhen Graduate School Method and system for video frame interpolation based on optical flow method
CN112104830A (zh) * 2020-08-13 2020-12-18 北京迈格威科技有限公司 视频插帧方法、模型训练方法及对应装置
CN113365110A (zh) * 2021-07-14 2021-09-07 北京百度网讯科技有限公司 模型训练、视频插帧方法,装置,设备以及存储介质
CN114007135A (zh) * 2021-10-29 2022-02-01 广州华多网络科技有限公司 视频插帧方法及其装置、设备、介质、产品

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023160426A1 (zh) * 2022-02-24 2023-08-31 影石创新科技股份有限公司 视频插帧方法、训练方法、装置和电子设备
CN117115210A (zh) * 2023-10-23 2023-11-24 黑龙江省农业科学院农业遥感与信息研究所 基于物联网的智慧农业监控调节方法
CN117115210B (zh) * 2023-10-23 2024-01-26 黑龙江省农业科学院农业遥感与信息研究所 基于物联网的智慧农业监控调节方法

Also Published As

Publication number Publication date
CN114640885B (zh) 2023-12-22
WO2023160426A1 (zh) 2023-08-31

Similar Documents

Publication Publication Date Title
Zeng et al. Learning image-adaptive 3d lookup tables for high performance photo enhancement in real-time
US10970600B2 (en) Method and apparatus for training neural network model used for image processing, and storage medium
WO2021088473A1 (en) Image super-resolution reconstruction method, image super-resolution reconstruction apparatus, and computer-readable storage medium
CN106127688B (zh) 一种超分辨率图像重建方法及其系统
US20230316456A1 (en) Panoramic video frame interpolation method and apparatus, and corresponding storage medium
WO2023160426A1 (zh) 视频插帧方法、训练方法、装置和电子设备
CN106780336B (zh) 一种图像缩小方法及装置
US20230196721A1 (en) Low-light video processing method, device and storage medium
CN108271022A (zh) 一种运动估计的方法及装置
CN111093045B (zh) 一种缩放视频序列分辨率的方法及装置
JP2015179426A (ja) 情報処理装置、パラメータの決定方法、及びプログラム
JP2015197818A (ja) 画像処理装置およびその方法
JP2018106316A (ja) 画像補正処理方法、および、画像補正処理装置
WO2020215263A1 (zh) 一种图像处理方法及装置
CN110830848B (zh) 图像插值方法、装置、计算机设备和存储介质
CN115564655A (zh) 基于深度学习的视频超分辨率重建方法、系统及介质
CN103618904A (zh) 基于像素的运动估计方法及装置
CN115239559A (zh) 一种融合视图合成的深度图超分辨率方法及系统
CN114387183A (zh) 一种车辆环视系统的图像处理方法及系统
CN115809959A (zh) 一种图像处理方法及装置
CN113469880A (zh) 图像拼接方法及装置、存储介质及电子设备
CN112802079A (zh) 一种视差图获取方法、装置、终端和存储介质
CN114596349A (zh) 深度估计方法、装置、电子设备及计算机可读存储介质
CN113658321B (zh) 三维重建方法、系统及相关设备
RU2576490C1 (ru) Способ гибридного ретуширования фона для преобразования 2d в 3d

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant