CN110191299B - 一种基于卷积神经网络的多重帧插值方法 - Google Patents
一种基于卷积神经网络的多重帧插值方法 Download PDFInfo
- Publication number
- CN110191299B CN110191299B CN201910300915.7A CN201910300915A CN110191299B CN 110191299 B CN110191299 B CN 110191299B CN 201910300915 A CN201910300915 A CN 201910300915A CN 110191299 B CN110191299 B CN 110191299B
- Authority
- CN
- China
- Prior art keywords
- frame
- network
- image
- optical flow
- flow field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 45
- 230000003287 optical effect Effects 0.000 claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000010586 diagram Methods 0.000 claims abstract description 12
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 239000002131 composite material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000009827 uniform distribution Methods 0.000 claims description 2
- 230000009191 jumping Effects 0.000 claims 1
- 230000008859 change Effects 0.000 abstract description 10
- 238000005286 illumination Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 abstract description 4
- 238000012952 Resampling Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/144—Movement detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0135—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络的多重帧插值方法,包括:(1)截取连续n帧为一个训练样本组成训练集,(2)对训练样本进行数据增强;(3)构建深度卷积神经网络,包括用于提取尾帧相对于首帧的相位差的相位子网络,用于提取尾帧相对于首帧的运动特征的编码子网络,用于根据相位差和运动特征生成光流场图的多端解码网络,以及对多端解码网络的输出与首帧和尾帧进行融合输出插值图像的合成子网络;(4)设计损失函数;(5)利用训练样本对深度卷积神经网络进行训练,获得多重帧插值模型;(6)输入连续的两帧图像至多重帧插值模型,经计算输出两帧图像之间的插值帧图像。该多重帧插值方法可以处理光照变化较大的场景。
Description
技术领域
本发明涉及视频增强领域,具体涉及一种基于卷积神经网络的多重帧插值方法。
背景技术
视频帧插值是图像视频处理领域中的一个重要问题,在许多应用中扮演重要角色,例如,帧率提升,电影制作,慢动作视频,视频编码压缩等等。帧插值属于图像合成的一个分支,典型的帧插值方法是基于光流的图像合成方法。首先估计出光流或者光流的变体形式,从而对物体运动进行建模,然后对输入图像进行扭曲变换和合成,得到新的视频帧。
传统的光流估计方法往往通过目标函数最优化的方法,在输入的两帧图像上寻找相同像素点的精确匹配,匹配像素点之间的距离就是该点的光流。由于这种方法需要在所有像素点上,对目标函数作全局最优化,计算复杂度很高,而且难以并行化计算。尽管过去的二十年中,光流法得到的长足的发展,但是在光照变化以及大运动场景下,挑战依然存在。
与显示寻找像素点匹配不同,一些基于相位的方法隐式地对运动进行建模,将物体的运动表现在单个点的像素值变化。这一类方法又被称为“欧拉方法”(参见论文S.Meyer,O.Wang,H.Zimmer,et al.,“Phase-based frame interpolation for video,”inProceeding of CVPR,1410-1418,2015)。基于相位的方法往往对与处理光照变化问题表现很好。然而,相位法由于其有限的相位变化方法,对于大运动的处理表现较差。
随着深度学习技术的发展,基于神经网络的光流估计方法的精度越来越高,同时具备较低的计算复杂度。基于神经网络的光流法分为有监督和无监督两类。前者需要大量人工标注的标签,后者只需要收集普通的视频序列,无需人工标注。无监督的光流估计实际上是将光流估计作为一个中间步骤,然后合成中间帧图像。从图像合成的角度看,这种无监督的光流估计方法同时包含光流计算和图像合成,为帧插值问题提供了一个端到端的解决方案(参见论文Z.Liu,R.A.Yeh,X.Tang,et al.,“Video Frame Synthesis Using DeepVoxel Flow.,”in Proceeding of ICCV,4473-4481,2017)。
然而,现有的基于神经网络的帧插值算法基于三元组(三个连续帧)训练,在一次前向计算中,只输出一个中间帧。考虑两个输入帧之间的连续区间,可以对多个连续中间帧统一建模,从而加强时域一致性,提高精度。另外,引入相位特征也可以处理较大亮度变化的场景。
发明内容
本发明提供了一种基于卷积神经网络的多重帧插值方法,可以同时输出多个连续的中间帧,而且引入相位特征,可以处理光照变化较大的场景。
本发明的技术方案为:
一种基于卷积神经网络的多重帧插值方法,包括以下步骤:
(1)收集连续的视频帧,截取连续n帧为一个训练样本组成训练集,其中,训练样本中的首帧和尾帧作为输入,剩下中间帧作为起监督作用的输出,n为大于等于5的自然数;
(2)对训练样本进行水平垂直翻转、旋转、随机截取方形区域、时域重采样以及图像全局亮度线性调整处理,以实现对训练集的数据增强;
(3)构建深度卷积神经网络,包括用于提取尾帧相对于首帧的相位差的相位子网络,用于提取尾帧相对于首帧的运动特征的编码子网络,用于根据相位差和运动特征生成光流场图的多端解码网络,以及对多端解码网络的输出与首帧和尾帧进行融合输出插值图像的合成子网络;
(4)根据深度卷积神经网络的预测输出的插值图像与训练样本中的中间帧的差异设计损失函数;
(5)利用步骤(1)和步骤(2)获得的训练样本对所述深度卷积神经网络进行训练,当网络参数确定时获得多重帧插值模型;
(6)应用时,输入连续的两帧图像至多重帧插值模型,经计算输出两帧图像之间的插值帧图像。
本发明的有益新效果表现为:
本发明通过对多重中间帧的时域关系显式建模,在一次前向计算中,同时输出多帧插值结果。通过相位子网络提取相位特征,结合子编码网络提取的运动特征,增加了运动表示能力。合成子网络进一步提升了插值结果的图像质量。
本发明考虑光照变化的问题,并且能够同时输出多帧插值,更加高效地实现了时域一致性强的插值结果,而且适应特殊光照条件的场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明提供的基于卷积神经网络的多重帧插值方法的流程图;
图2为本发明提供的深度卷积神经网络的结构示意图;
图3为本发明提供的相位子网络的结构示意图;
图4为Middlebury数据集上,不同亮度调整下的图像质量对比;
图5为实际光照变化场景下的主观质量对比;
图6为UCF101数据集上的主观质量对比;
图7为动画场景Sintel序列不同运动强度下客观性能对比;
图8为随机选取的场景下多帧插值结果的主观对比。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
如图1所示,本发明提供的基于卷积神经网络的多重帧插值方法包括以下步骤:
S101,收集连续的视频帧,构建训练样本集。
为了满足图像内物体的运动近似线性的条件,即相同时间间隔的物体运动,其位移相等,选择合适的样本,具体地,可以截取连续n帧为一个训练样本,其中,训练样本中的首帧和尾帧作为输入,剩下中间帧作为起监督作用的输出,n为大于等于5的自然数。
举例说明,可以截取连续5帧作为一个训练样本,该连续5帧组成一个五元组,其中首帧和尾帧作为输入,剩下的三个中间帧作为真实数据,用于监督深度卷积神经网络训练。
S102,对样本集进行数据增强。
为了增强训练样本的多样性,对训练样本进行水平垂直翻转、旋转、随机截取方形区域、时域重采样以及图像全局亮度线性调整处理,以实现对训练集的数据增强。
具体地,采用在线数据增强的方式对训练集的数据增强,包括:
以一定的概率(例如1/2)随机水平垂直翻转帧图像、随机90度旋转帧图像;
随机在每帧图像上截取方形小区域作为深度卷积神经网络的输入图像;
随机反置每个训练样本中连续n帧图像的顺序,以实现对训练样本的时域重采样,这样可以消除训练集在时空域上的分布偏差;
以小于0.3的概率(例如0.2)对每个训练样本进行线性亮度调整,针对需要进行线性亮度调整的训练样本,在一定范围内按照均匀分布选取两个调整率,应用于首帧、尾帧的亮度调整,在首帧和尾帧对应的调整率之间按照均匀的线性比例选取调整率对相应的中间帧进行亮度调整。这样模拟了亮度的均匀变化。
例如对于连续5帧(首帧、第二帧、第三帧、第四帧以及尾帧)组成的训练样本,首帧的调整率为1/5,尾帧的调整率为1,则中间帧的调整率分别为2/5、3/5、4/5,利用这三个调整率分别对第二帧、第三帧、第四帧进行亮度调整。
S103,构建深度卷积神经网络。
如图2所示,构建的深度卷积神经网络包括用于提取尾帧相对于首帧的相位差的相位子网络A,用于提取尾帧相对于首帧的运动特征的编码子网络B,用于根据相位差和运动特征生成光流场图的多端解码网络C,以及对多端解码网络的输出与首帧和尾帧进行融合输出插值图像的合成子网络D。相位子网络A、编码子网络B以及多端解码网络C组成预测阶段,合成子网络D作为融合阶段。
其中,相位子网络主要用于提取相位特征,使深度卷积神经网络能够更好的处理亮度变化场景,如图3所示,相位子网络A包括:
特征提取模块,其包括若干个依次连接的卷积层、非线性层以及平均池化层,其输入为3通道数据,用于提取并输出尺寸为输入图像的1/4的特征图;
具体地,特征提取模块包含以卷积层、非线性层以及平均池化层为单个特征提取单元的多个特征提取单元,输入为相邻两帧(即首帧和尾帧)3通道RGB图像,首帧和尾帧通过若干卷积层、非线性层,得到特征图,然后进过一层平均池化层,将特征尺寸减小到1/4。
四层金字塔结构,其输入端与特征提取模块的输出连接,且下采样采用平均池化层,用于对特征图再进行特征提取;
本发明中,为了网络结构的一致性,金字塔结构的下采样采用平均池化层。
复数Gabor滤波器,其作用于金字塔的每层,用于提取每层特征图的相位信息;
具体地,针对金字塔的每一层,使用复数Gabor滤波器提取相位信息,复数Gabor滤波器的公式如下:
其中,fω,θ=(ωcos(θ),ωsin(θ))为复数Gabor滤波器中心频率,ω与θ分别为频率值和方向,参数σ和中心频率fω,θ决定了滤波器的空域窗大小,i表示虚数单位,x表示空域坐标向量,记滤波后的复数响应的相位为由于Gabor滤波器的自相似性,本发明选用一个尺度四个方向的滤波器组,对不同的金字塔层进行滤波,得到复数值响应。从一个复数可以得到幅值和相位,将每个点的相位值记为
相位差计算模块,根据复数Gabor滤波器输出的首帧对应的相位信息和尾帧对应的相位信息,计算尾帧相对于首帧的相位差;
具体地,相位差计算模块中,根据公式(2)获得相位差:
第一解码模块,其为以卷积层、非线性层以及双线性上采样层为单个尺度的四个尺度的网络,以金字塔四层上的相位差作为分别作为解码子模块四个尺度对应的输入,用于输出相位差特征图。
也就是,将四层相位差金字塔按照相同尺度与解码网络跳跃连接,这样可以将相位差金字塔每层上的相位差输入至解码网络中对应的卷积层上。
其中,编码子网络B主要用于提取输入图像的运动特征。由于物体运动信息体现在空间位置上的变化,编码子网络B通过将空间大小不断减小,通道数不断增加的方式对运动信息进行重新编码。
具体地,编码子网络为以卷积层、非线性层以及平均池化层为单个尺度的五个尺度的网络,其输入为6通道数据,用于提取输入图像的运动特征图。输入图像(首帧与尾帧)组成6通道数据输入至编码子网络中,经一个若干卷积层、非线性层的组合,以增加通道数,再通过一个平均池化层,以减小空间大小,依此重复,总共通过五个尺度(四次池化)的层叠。
其中,多端解码网络C主要用于根据相位差和运动特征生成光流场图的多端解码网络。
具体地,多端解码网络C包括:
第二解码模块,其结构与编码子网络结构对称,在相同尺寸下,采用跳跃连接(skip connect)方式连接编码子网络和第二解码模块,用于对编码子网络输出的运动特征图进行前四个尺度的复原得到运动特征图;
多端解码模块,其包含卷积层和非线性层,输入为相位子网络输出的相位差图和第二解码模块输出的运动特征图按照通道数排布形成的6通道数据,输出包括n个分支,第一个分支与最后一分支输出首帧和尾帧对应时刻的光流程图,剩下的中间分支输出中间时刻的光流场图、图像融合权重图以及光流场融合权重图。
多端解码模块主要负责最后一个尺度特征图的复原,对针对五个连续帧组成的样本,多端解码模块的输出共有5个分支,五个时刻分别为t=t0=0,t=t1=0.25,t=t2=0.5,t=t3=0.75,t=t4=1。每个分支都输出对应时刻的光流场图,并且在t1,t2,t3时刻将额外输出图像融合权重图和光流场融合权重图。这些输出在合成子网络D中均会被用到。
其中,合成子网络D主要用于对多重中间帧的运动显式建模,最后合成图像。具体地,合成子网络包括:
图像变换模块,用于针对每个中间时刻,根据光流场融合权重图和光流场图合成新光流场图,再根据光流场图、新光流场图以及图像融合权重图进行图像变换,生成2个候选帧;
具体地,利用公式(3)获得新光流场图:
利用公式(4)进行图像变换,生成2个候选帧:
其中,为变换函数(参见文献M.Jaderberg,K.Simonyan,A.Zisserman,etal.,“Spatial Transformer Networks,”in Proceeding of NIPS,2015),为ti时刻的图像融合权重图,I0为首帧,I1为尾帧,与由公式(5)和公式(6)得到:
合成模块,其包含卷积层和非线性层,针对每个中间时刻,其输入为图像变换模块输出的2个候选帧,输出的残差信号加回输入,得到中间时刻的插值图像。
根据公式(7)获得中间时刻的插值图像:
S104,设计损失函数。
具体地,根据深度卷积神经网络的预测输出的插值图像与训练样本中的中间帧的差异设计损失函数,损失函数loss为:
S105,训练深度卷积神经网络。
具体地,利用步骤(1)和步骤(2)获得的训练样本对所述深度卷积神经网络进行训练,当网络参数确定时获得多重帧插值模型。针对五元组的训练样本,以首帧和尾帧作为输入,以中间连续三帧作为输出的真实数据,端到端地训练网络,以获得多重帧插值模型。
S106,应用时,输入连续的两帧图像至多重帧插值模型,经计算输出两帧图像之间的插值帧图像。
总体而言,本发明通过对多重中间帧的时域关系显式建模,在一次前向计算中,同时输出多帧插值结果。通过相位子网络提取相位特征,结合编码网络提取的运动特征,增加了运动表示能力。合成子网络进一步提升了插值结果的图像质量。
图4-8给出了本发明的实验效果:评价指标有峰值信噪比(PSNR),结构相似度(SSIM),以及主观质量评估。对比的方法包括本发明方法(Ours),慢动作级联网络(SloMo)、分离卷积网络(SepConv)、深度体素流(DVF)、基于相位方法(PhaseBased)、相位网络(PhaseNet)、运动细节保留光流估计方法(MDP-Flow2)。
图4-8为本发明在不同的数据集上与其他先进方法的对比。如图4所示,在Middlebury数据集上,本发明在多个亮度调整率下都优于其他对比方法,表明本发明具有更好的针对亮度变化场景的处理能力;如图5所示,本发明在实际光照变化场景下的主观质量更好,在闪电导致的光照剧烈变化的场景下,本发明合成的插值图具有更清晰完整的前景和背景,在各个对比方法中主观质量最好;如图6所示,本发明在UCF101数据集上的主观质量更好;如图7所示,本发明在合成的动画场景Sintel序列中,本发明在多种运动强度下均优于其他方法,而且增大运动强度时,质量的下降程度小于其他方法;如图8所示,本发明在随机选取的视频场景中,评估多帧插值的主观质量,具有比其他对比方法更好的表现,这表明本发明的网络的泛化性能较好。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于卷积神经网络的多重帧插值方法,包括以下步骤:
(1)收集连续的视频帧,截取连续n帧为一个训练样本组成训练集,其中,训练样本中的首帧和尾帧作为输入,剩下中间帧作为起监督作用的输出,n为大于等于5的自然数;
(2)对训练样本进行水平垂直翻转、旋转、随机截取方形区域、随机反置时域帧顺序以及图像全局亮度线性调整处理,以实现对训练集的数据增强;
(3)构建深度卷积神经网络,包括用于提取尾帧相对于首帧的相位差的相位子网络,用于提取尾帧相对于首帧的运动特征的编码子网络,用于根据相位差和运动特征生成光流场图的多端解码网络,以及对多端解码网络的输出与首帧和尾帧进行融合输出插值图像的合成子网络,其中,所述相位子网络包括:
特征提取模块,其包括若干个依次连接的卷积层、非线性层以及平均池化层,其输入为3通道数据,用于提取并输出尺寸为输入图像的1/4的特征图;
四层金字塔结构,其输入端与特征提取模块的输出连接,且下采样采用平均池化层,用于对特征图再进行特征提取;
复数Gabor滤波器,其作用于金字塔的每层,用于提取每层特征图的相位信息;
相位差计算模块,根据复数Gabor滤波器输出的首帧对应的相位信息和尾帧对应的相位信息,计算尾帧相对于首帧的相位差;
第一解码模块,其为以卷积层、非线性层以及双线性上采样层为单个尺度的四个尺度的网络,以金字塔四层上的相位差分别作为第一解码模块四个尺度对应的输入,用于输出相位差特征图;
编码子网络为以卷积层、非线性层以及平均池化层为单个尺度的五个尺度的网络,其输入为6通道数据,用于提取输入图像的运动特征图;
多端解码网络包括:
第二解码模块,其结构与编码子网络结构对称,在相同尺寸下,采用跳跃连接方式连接编码子网络和第二解码模块,用于对编码子网络输出的运动特征图进行前四个尺度的复原得到运动特征图;
多端解码模块,其包含卷积层和非线性层,输入为相位子网络输出的相位差图和第二解码模块输出的运动特征图按照通道数排布形成的6通道数据,输出包括n个分支,第一个分支与最后一分支输出首帧和尾帧对应时刻的光流场图,剩下的中间分支输出中间时刻的光流场图、图像融合权重图以及光流场融合权重图;
合成子网络包括:
图像变换模块,用于针对每个中间时刻,根据光流场融合权重图和光流场图合成新光流场图,再根据光流场图、新光流场图以及图像融合权重图进行图像变换,生成2个候选帧;
合成模块,其包含卷积层和非线性层,针对每个中间时刻,其输入为图像变换模块输出的2个候选帧,输出的残差信号加回输入,得到中间时刻的插值图像;
(4)根据深度卷积神经网络的预测输出的插值图像与训练样本中的中间帧的差异设计损失函数;
(5)利用步骤(1)和步骤(2)获得的训练样本对所述深度卷积神经网络进行训练,当网络参数确定时获得多重帧插值模型;
(6)应用时,输入连续的两帧图像至多重帧插值模型,经计算输出两帧图像之间的插值帧图像。
2.如权利要求1所述的基于卷积神经网络的多重帧插值方法,其特征在于,步骤(2)中,采用在线数据增强的方式对训练集的数据增强,包括:
以一定的概率随机水平垂直翻转帧图像、随机90度旋转帧图像;
随机在每帧图像上截取方形小区域作为深度卷积神经网络的输入图像;
随机反置每个训练样本中连续n帧图像的顺序,以实现对训练样本在运动方向上的数据平衡;
针对需要进行线性亮度调整的训练样本,在一定范围内按照均匀分布选取两个调整率,应用于首帧、尾帧的亮度调整,在首帧和尾帧对应的调整率之间按照均匀的线性比例选取调整率对相应的中间帧进行亮度调整。
4.如权利要求1所述的基于卷积神经网络的多重帧插值方法,其特征在于,利用公式(3)获得新光流场图:
利用公式(4)进行图像变换,生成2个候选帧:
合成模块中,根据公式(7)获得中间时刻的插值图像:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910300915.7A CN110191299B (zh) | 2019-04-15 | 2019-04-15 | 一种基于卷积神经网络的多重帧插值方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910300915.7A CN110191299B (zh) | 2019-04-15 | 2019-04-15 | 一种基于卷积神经网络的多重帧插值方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110191299A CN110191299A (zh) | 2019-08-30 |
CN110191299B true CN110191299B (zh) | 2020-08-04 |
Family
ID=67714536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910300915.7A Active CN110191299B (zh) | 2019-04-15 | 2019-04-15 | 一种基于卷积神经网络的多重帧插值方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110191299B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110677651A (zh) * | 2019-09-02 | 2020-01-10 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法 |
CN110798630B (zh) * | 2019-10-30 | 2020-12-29 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN110753225A (zh) * | 2019-11-01 | 2020-02-04 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法、装置及终端设备 |
CN111292369B (zh) * | 2020-03-10 | 2023-04-28 | 中车青岛四方车辆研究所有限公司 | 激光雷达的伪点云数据生成方法 |
WO2021217653A1 (zh) * | 2020-04-30 | 2021-11-04 | 京东方科技集团股份有限公司 | 视频插帧方法及装置、计算机可读存储介质 |
CN111898701B (zh) * | 2020-08-13 | 2023-07-25 | 网易(杭州)网络有限公司 | 模型训练、帧图像生成、插帧方法、装置、设备及介质 |
RU2764395C1 (ru) | 2020-11-23 | 2022-01-17 | Самсунг Электроникс Ко., Лтд. | Способ и устройство для совместного выполнения дебайеризации и устранения шумов изображения с помощью нейронной сети |
CN113034380B (zh) * | 2021-02-09 | 2022-06-10 | 浙江大学 | 基于改进可变形卷积校正的视频时空超分辨率方法和装置 |
CN113205148B (zh) * | 2021-05-20 | 2022-10-11 | 山东财经大学 | 一种迭代层间信息融合的医学图像帧插值方法及终端机 |
CN113382247B (zh) * | 2021-06-09 | 2022-10-18 | 西安电子科技大学 | 基于间隔观测的视频压缩感知系统及方法、设备及存储介质 |
CN113469337B (zh) * | 2021-06-29 | 2024-04-05 | 上海寒武纪信息科技有限公司 | 用于优化神经网络模型的编译方法及其相关产品 |
CN113709483B (zh) * | 2021-07-08 | 2024-04-19 | 杭州微帧信息科技有限公司 | 一种插值滤波器系数自适应生成方法及装置 |
CN113935537A (zh) * | 2021-10-22 | 2022-01-14 | 北京华云星地通科技有限公司 | 一种基于深度学习的云图内插预测方法及系统 |
CN113870422B (zh) * | 2021-11-30 | 2022-02-08 | 华中科技大学 | 一种点云重建方法、装置、设备及介质 |
CN114640885B (zh) * | 2022-02-24 | 2023-12-22 | 影石创新科技股份有限公司 | 视频插帧方法、训练方法、装置和电子设备 |
CN115118974A (zh) * | 2022-06-22 | 2022-09-27 | 清华大学 | 视频生成方法、装置、系统、电子设备以及可读存储介质 |
CN115661724B (zh) * | 2022-12-12 | 2023-03-28 | 内江师范学院 | 一种适用于连续帧序列单应性变换的网络模型及训练方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109064507A (zh) * | 2018-08-21 | 2018-12-21 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101780057B1 (ko) * | 2016-08-02 | 2017-09-19 | 한양대학교 에리카산학협력단 | 고해상도 영상 복원 방법 및 장치 |
CN108830812B (zh) * | 2018-06-12 | 2021-08-31 | 福建帝视信息科技有限公司 | 一种基于网格结构深度学习的视频高帧率重制方法 |
CN109151474B (zh) * | 2018-08-23 | 2020-10-30 | 复旦大学 | 一种生成新视频帧的方法 |
CN109068174B (zh) * | 2018-09-12 | 2019-12-27 | 上海交通大学 | 基于循环卷积神经网络的视频帧率上变换方法及系统 |
CN109379550B (zh) * | 2018-09-12 | 2020-04-17 | 上海交通大学 | 基于卷积神经网络的视频帧率上变换方法及系统 |
-
2019
- 2019-04-15 CN CN201910300915.7A patent/CN110191299B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109064507A (zh) * | 2018-08-21 | 2018-12-21 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110191299A (zh) | 2019-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110191299B (zh) | 一种基于卷积神经网络的多重帧插值方法 | |
Liu et al. | A spectral grouping and attention-driven residual dense network for hyperspectral image super-resolution | |
Wang et al. | Deep learning for image super-resolution: A survey | |
Shi et al. | Video frame interpolation via generalized deformable convolution | |
Wang et al. | Esrgan: Enhanced super-resolution generative adversarial networks | |
Li et al. | Dual-stage approach toward hyperspectral image super-resolution | |
Liu et al. | Learning temporal dynamics for video super-resolution: A deep learning approach | |
CN109151474B (zh) | 一种生成新视频帧的方法 | |
Liu et al. | Robust video super-resolution with learned temporal dynamics | |
Zhang et al. | CCR: Clustering and collaborative representation for fast single image super-resolution | |
CN110197468A (zh) | 一种基于多尺度残差学习网络的单图像超分辨重建算法 | |
Guo et al. | Isdnet: Integrating shallow and deep networks for efficient ultra-high resolution segmentation | |
Singla et al. | A review on Single Image Super Resolution techniques using generative adversarial network | |
CN112837224A (zh) | 一种基于卷积神经网络的超分辨率图像重建方法 | |
CN108171656A (zh) | 基于稀疏表示的自适应全局字典遥感图像超分辨方法 | |
CN114187214A (zh) | 一种红外与可见光图像融合系统及方法 | |
Lin et al. | Smnet: Synchronous multi-scale low light enhancement network with local and global concern | |
Pu et al. | Removing rain based on a cycle generative adversarial network | |
Zhang et al. | Learning stacking regressors for single image super-resolution | |
Li et al. | D2c-sr: A divergence to convergence approach for real-world image super-resolution | |
Hong et al. | Image interpolation using interpolative classified vector quantization | |
CN116895037B (zh) | 基于边缘信息和多尺度交叉融合网络的帧插入方法及系统 | |
CN109087247A (zh) | 一种对立体图像进行超分的方法 | |
CN116958451B (zh) | 模型处理、图像生成方法、装置、计算机设备和存储介质 | |
Din et al. | RETRACTED ARTICLE: Lightweight deep dense Demosaicking and Denoising using convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |