CN109996056B - 一种2d视频转3d视频的方法、装置及电子设备 - Google Patents
一种2d视频转3d视频的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN109996056B CN109996056B CN201910381407.6A CN201910381407A CN109996056B CN 109996056 B CN109996056 B CN 109996056B CN 201910381407 A CN201910381407 A CN 201910381407A CN 109996056 B CN109996056 B CN 109996056B
- Authority
- CN
- China
- Prior art keywords
- image
- processing
- disparity map
- view
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000012545 processing Methods 0.000 claims abstract description 337
- 238000005070 sampling Methods 0.000 claims description 216
- 230000006870 function Effects 0.000 claims description 91
- 238000011176 pooling Methods 0.000 claims description 58
- 238000012549 training Methods 0.000 claims description 50
- 230000004913 activation Effects 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 description 17
- 238000012937 correction Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
Abstract
本发明实施例提供了一种2D视频转3D视频的方法、装置及电子设备,其中,方法包括:获取待转换2D视频数据的视频图像,将所述视频图像作为用于转换为3D视频的第一单目视图,其中,所述第一单目视图为左目视图或右目视图;将所述第一单目视图输入到预先构建的目标网络模型中,通过所述目标网络模型进行处理,得到所述第一单目视图对应的视差图;根据所述第一单目视图及所述视差图得到所述待转换2D视频数据的第二单目视图;通过预设图像处理方式对所述第一单目视图及所述第二单目视图进行处理,得到所述待转换2D视频数据对应的3D视频,本发明实现了2D视频转换为3D视频。
Description
技术领域
本发明涉及计算机技术领域,特别是一种2D视频转3D视频的方法、装置及电子设备。
背景技术
视频源从视觉感官上分为2D和3D两种,2D视频由一张2D图片组成,3D视频由第一单目视图和第二单目视图通过图像处理软件形成。其中,第一单目视图为左眼单目看到的图像,第二单目视图为右眼单目看到的图像。因3D视频在成像时具有景深和立体感,故更符合人的主观视觉,深受人们喜爱。在某些场景下,3D视频的观影体验要明显优于2D视频,但是,3D视频主要来源于3D电影的大制作,其制作和拍摄极其困难和昂贵,因此除开这些3D电影,人们在日常观影时几乎无法体验3D视频的立体感。
目前,2D视频到3D视频的转化技术主要通过人工实现,最经典的是泰坦尼克号2D版本到3D版本的制作,其制作不仅耗资巨大,而且还漫长,这明显不满足现实生活的需求。随着计算机视觉的发展,让计算机视觉实现2D视频到3D视频的转换变为一种可能。Deep3D通过3D电影源的视差估计,实现2D视频到3D视频的生成,但该方法最多只能估计出32个单位像素视差。可见,现有技术中,2D视频转3D视频的方法较为局限。因此,如何实现2D视频转换为3D视频仍然是亟待解决的技术问题。
发明内容
本发明实施例的目的在于提供一种2D视频转3D视频的方法、装置及电子设备,以实现2D视频转换为3D视频。具体技术方案如下:
第一方面,本发明实施例公开了一种2D视频转3D视频的方法,所述方法包括:
获取待转换2D视频数据的视频图像,将所述视频图像作为用于转换为3D视频的第一单目视图;其中,所述第一单目视图为左目视图或右目视图;
将所述第一单目视图输入到预先构建的目标网络模型中,通过所述目标网络模型进行处理,得到所述第一单目视图对应的视差图;
根据所述第一单目视图及所述视差图得到所述待转换2D视频数据的第二单目视图;其中,所述第二单目视图为与所述第一单目视图对应的右目视图或左目视图;
通过预设图像处理方式对所述第一单目视图及所述第二单目视图进行处理,得到所述待转换2D视频数据对应的3D视频。
可选地,所述通过所述目标网络模型进行处理包括编码处理和解码处理;
通过如下步骤进行编码处理:将所述第一单目视图输入到预先构建的目标网络模型中,通过所述目标网络模型对所述第一单目视图进行多次下采样处理,并对每次下采样处理后的视图进行第一预设处理,依次得到尺寸由大到小的多个下采样图像;
通过如下步骤对所述下采样图像进行解码处理:对于所述多个下采样图像,按照尺寸由小到大的顺序进行排列;通过所述目标网络模型依次对排列后的各所述下采样图像进行上采样处理,并对每次上采样处理后的图像进行第二预设处理,得到所述第一单目视图对应的视差图;其中,所述视差图的尺寸与所述第一单目视图的尺寸相同。
可选地,当所述目标网络模型中包括第一级联下采样网络、第二级联下采样网络、第三级联下采样网络、第四级联下采样网络及第五级联下采样网络,且所述第一预设处理为卷积池化处理时,则通过如下步骤对所述第一单目视图进行编码处理:
将所述第一单目视图输入所述第一级联下采样网络,通过所述第一级联下采样网络对所述第一单目视图进行下采样及卷积池化处理,得到第一下采样图像;
通过所述第二级联下采样网络对所述第一下采样图像进行下采样及卷积池化处理,得到第二下采样图像;
通过所述第三级联下采样网络对所述第二下采样图像进行下采样及卷积池化处理,得到第三下采样图像;
通过所述第四级联下采样网络对所述第三下采样图像进行下采样及卷积池化处理,得到第四下采样图像;
通过所述第五级联下采样网络对所述第四下采样图像进行下采样及卷积池化处理,得到第五下采样图像。
可选地,当所述目标网络模型中包括第一级联上采样网络、第二级联上采样网络、第三级联上采样网络、第四级联上采样网络及第五级联上采样网络,且所述视差图为目标右视差图,所述第二预设处理为反卷积处理或双线性插值处理时,则通过如下步骤对所述下采样图像进行解码处理:
通过所述第一级联上采样网络对所述第五下采样图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第一上采样图像;其中,所述第一上采样图像的尺寸与所述第四下采样图像的尺寸相同;
对所述第一上采样图像进行卷积处理,得到第一右视差图;
将所述第一上采样图像、所述第一右视差图及所述第四下采样图像合并,得到第一目标图像;其中,所述第一目标图像的尺寸与所述第四下采样图像的尺寸相同;
通过所述第二级联上采样网络对所述第一目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第二上采样图像;其中,所述第二上采样图像的尺寸与所述第三下采样图像的尺寸相同;
对所述第二上采样图像进行卷积处理,得到第二右视差图;
将所述第二上采样图像、所述第二右视差图及所述第三下采样图像合并,得到第二目标图像;其中,所述第二目标图像的尺寸与所述第三下采样图像的尺寸相同;
通过所述第三级联上采样网络对所述第二目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第三上采样图像;其中,所述第三上采样图像的尺寸与所述第二下采样图像的尺寸相同;
对所述第三上采样图像进行卷积处理,得到第三右视差图;
将所述第三上采样图像、所述第三右视差图及所述第二下采样图像合并,得到第三目标图像;其中,所述第三目标图像的尺寸与所述第三下采样图像的尺寸相同;
通过所述第四级联上采样网络对所述第三目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第四上采样图像;其中,所述第四上采样图像的尺寸与所述第一下采样图像的尺寸相同;
对所述第四上采样图像进行卷积处理,得到第四右视差图;
将所述第四上采样图像、所述第四右视差图及所述第一下采样图像合并,得到第四目标图像;其中,所述第四目标图像的尺寸与所述第一下采样图像的尺寸相同;
通过所述第五级联上采样网络对所述第四目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第五上采样图像;其中,所述第五上采样图像的尺寸与所述第一单目视图的尺寸相同;
对所述第五上采样图像进行卷积处理,得到所述第一单目视图对应的目标右视差图。
可选地,预先构建并训练所述目标网络模型的过程,包括:
获取预设数量不同类型的3D片源作为训练样本;其中,每个训练样本包含第一单目视图及与所述第一单目视图对应的第二单目视图;
分别标定各第一单目视图对应的第二单目视图,得到所述训练样本中的各视图对;
分别将所述训练样本中的各所述视图对输入到预设网络模型中进行训练,得到所述目标网络模型。
可选地,所述分别将各所述视图对输入到预设网络模型中进行训练,得到所述目标网络模型,包括:
步骤A,在各所述视图对中选取一个视图对,将该视图对的第一单目视图输入到预设网络模型中,得到预测的左视差图和右视差图;
步骤B,根据已选取的视图对的第一单目视图、左视差图、第二单目视图及右视差图,计算预设损失函数的当前数值;
步骤C,按照所述预设损失函数的当前数值,调整所述预设网络模型中用于预测所述左视差图和右视差图的各参数值;
步骤D,重复执行步骤A到步骤C,直至所述预设损失函数满足预设输出条件时得到所述目标网络模型。
可选地,所述目标网络模型中还包括激活函数;所述方法还包括:获取拍摄所述3D片源的相机设备参数;根据所述相机设备参数,按照预设函数取值规则,确定所述激活函数的取值;
所述通过所述目标网络模型进行处理,得到所述第一单目视图对应的视差图,包括:
利用所述激活函数通过所述目标网络模型进行处理,得到所述第一单目视图对应的视差图;
其中,所述激活函数为双曲正切函数tanh,所述激活函数tanh的取值范围为[-1,1]。
第二方面,本发明实施例还公开了一种2D视频转3D视频的装置,所述装置包括:
第一单目视图获取模块,用于获取待转换2D视频数据的视频图像,将所述视频图像作为用于转换为3D视频的第一单目视图;其中,所述第一单目视图为左目视图或右目视图;
视差图确定模块,用于将所述第一单目视图输入到预先构建的目标网络模型中,通过所述目标网络模型进行处理,得到所述第一单目视图对应的视差图;
第二单目视图确定模块,用于根据所述第一单目视图及所述视差图得到所述待转换2D视频数据的第二单目视图;其中,所述第二单目视图为与所述第一单目视图对应的右目视图或左目视图;
3D视频确定模块,用于通过预设图像处理方式对所述第一单目视图及所述第二单目视图进行处理,得到所述待转换2D视频数据对应的3D视频。
可选地,所述通过所述目标网络模型进行处理包括编码处理和解码处理;所述视差图确定模块,包括:
编码处理子模块,用于将所述第一单目视图输入到预先构建的目标网络模型中,通过所述目标网络模型对所述第一单目视图进行多次下采样处理,并对每次下采样处理后的视图进行第一预设处理,依次得到尺寸由大到小的多个下采样图像;
解码处理子模块,用于对于所述多个下采样图像,按照尺寸由小到大的顺序进行排列;通过所述目标网络模型依次对排列后的各所述下采样图像进行上采样处理,并对每次上采样处理后的图像进行第二预设处理,得到所述第一单目视图对应的视差图;其中,所述视差图的尺寸与所述第一单目视图的尺寸相同。
可选地,所述目标网络模型中包括第一级联下采样网络、第二级联下采样网络、第三级联下采样网络、第四级联下采样网络及第五级联下采样网络;且所述第一预设处理为卷积池化处理时,所述编码处理子模块,包括:
第一下采样图像确定单元,用于将所述第一单目视图输入所述第一级联下采样网络,通过所述第一级联下采样网络对所述第一单目视图进行下采样及卷积池化处理,得到第一下采样图像;
第二下采样图像确定单元,用于通过所述第二级联下采样网络对所述第一下采样图像进行下采样及卷积池化处理,得到第二下采样图像;
第三下采样图像确定单元,用于通过所述第三级联下采样网络对所述第二下采样图像进行下采样及卷积池化处理,得到第三下采样图像;
第四下采样图像确定单元,用于通过所述第四级联下采样网络对所述第三下采样图像进行下采样及卷积池化处理,得到第四下采样图像;
第五下采样图像确定单元,用于通过所述第五级联下采样网络对所述第四下采样图像进行下采样及卷积池化处理,得到第五下采样图像。
可选地,所述目标网络模型中包括第一级联上采样网络、第二级联上采样网络、第三级联上采样网络、第四级联上采样网络及第五级联上采样网络,所述视差图为目标右视差图;所述第二预设处理为预设处理;所述第二预设为反卷积处理或双线性插值处理时,所述解码处理子模块,包括:
第一上采样图像确定单元,用于通过所述第一级联上采样网络对所述第五下采样图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第一上采样图像;其中,所述第一上采样图像的尺寸与所述第四下采样图像的尺寸相同;
第一右视差图确定单元,用于对所述第一上采样图像进行卷积处理,得到第一右视差图;
第一目标图像确定单元,用于将所述第一上采样图像、所述第一右视差图及所述第四下采样图像合并,得到第一目标图像;其中,所述第一目标图像的尺寸与所述第四下采样图像的尺寸相同;
第二上采样图像确定单元,用于通过所述第二级联上采样网络对所述第一目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第二上采样图像;其中,所述第二上采样图像的尺寸与所述第三下采样图像的尺寸相同;
第二右视差图确定单元,用于对所述第二上采样图像进行卷积处理,得到第二右视差图;
第二目标图像确定单元,用于将所述第二上采样图像、所述第二右视差图及所述第三下采样图像合并,得到第二目标图像;其中,所述第二目标图像的尺寸与所述第三下采样图像的尺寸相同;
第三上采样图像确定单元,用于通过所述第三级联上采样网络对所述第二目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第三上采样图像;其中,所述第三上采样图像的尺寸与所述第二下采样图像的尺寸相同;
第三右视差图确定单元,用于对所述第三上采样图像进行卷积处理,得到第三右视差图;
第三目标图像确定单元,用于将所述第三上采样图像、所述第三右视差图及所述第二下采样图像合并,得到第三目标图像;其中,所述第三目标图像的尺寸与所述第三下采样图像的尺寸相同;
第四上采样图像确定单元,用于通过所述第四级联上采样网络对所述第三目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第四上采样图像;其中,所述第四上采样图像的尺寸与所述第一下采样图像的尺寸相同;
第四右视差图确定单元,用于对所述第四上采样图像进行卷积处理,得到第四右视差图;
第四目标图像确定单元,用于将所述第四上采样图像、所述第四右视差图及所述第一下采样图像合并,得到第四目标图像;其中,所述第四目标图像的尺寸与所述第一下采样图像的尺寸相同;
第五上采样图像确定单元,用于通过所述第五级联上采样网络对所述第四目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第五上采样图像;其中,所述第五上采样图像的尺寸与所述第一单目视图的尺寸相同;
目标右视差图确定单元,用于对所述第五上采样图像进行卷积处理,得到所述第一单目视图对应的目标右视差图。
可选地,所述装置还包括:
训练样本获取模块,用于获取预设数量不同类型的3D片源作为训练样本;其中,每个训练样本包含第一单目视图及与所述第一单目视图对应的第二单目视图;
视图对标定模块,用于分别标定各第一单目视图对应的第二单目视图,得到各视图对;
目标网络模型确定模块,用于分别将各所述视图对输入到预设网络模型中进行训练,得到所述目标网络模型。
可选地,所述目标网络模型确定模块,包括:
视差图确定单元,用于在各所述视图对中选取一个视图对,将该视图对的第一单目视图输入到预设网络模型中,得到预测的左视差图和右视差图;
损失函数值确定单元,用于根据已选取的视图对的第一单目视图、左视差图、第二单目视图及右视差图,计算预设损失函数的当前数值;
参数值调整单元,用于按照所述预设损失函数的当前数值,调整所述预设网络模型中用于预测所述左视差图和右视差图的各参数值;
目标网络模型确定单元,用于返回所述视差图确定子模块继续执行,直至所述预设损失函数满足预设输出条件时得到所述目标网络模型。
可选地,所述目标网络模型还包括激活函数,所述装置还包括:激活函数确定模块,用于获取拍摄所述3D片源的相机设备参数;根据所述相机设备参数,按照预设函数取值规则,确定所述激活函数的取值;
所述视差图确定模块,具体用于利用所述激活函数通过所述目标网络模型进行处理,得到所述第一单目视图对应的视差图;
其中,所述激活函数为双曲正切函数tanh,所述激活函数tanh的取值范围为[-1,1]。
又一方面,本发明实施例还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述2D视频转3D视频的方法中任一所述的方法步骤。
又一方面,本发明实施例还公开了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述2D视频转3D视频的方法中任一所述的方法步骤。
又一方面,本发明实施例还公开了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实现上述2D视频转3D视频的方法中任一所述的方法步骤。
本发明实施例公开了一种2D视频转3D视频的方法、装置及电子设备,以实现2D视频转换为3D视频。具体为,将第一单目视图输入到预先构建的目标网络模型中,通过目标网络模型进行处理,得到第一单目视图对应的视差图;根据第一单目视图及视差图得到所述待转换2D视频数据的第二单目视图;通过预设图像处理方式对第一单目视图及所述第二单目视图进行处理,得到待转换2D视频数据对应的3D视频。本发明实施例中通过预先构建的目标网络模型,能够对输入的第一单目视图进行处理,自动输出第一单目视图对应的视差图,使得通过第一单目视图和视差图得到第二单目视图,通过第一单目视图及第二单目视图可得到3D视频。通过本发明实施例,能够对任意场景的第一单目视图得到对应的第二单目视图,实现了方便有效的对不同场景的2D视频转换为3D视频的效果,提高了本发明实施例的实用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例的一种2D视频转3D视频的方法流程图;
图2为本发明实施例的一种2D视频转3D视频的方法中确定视差图的方法流程图;
图3为本发明实施例的一种2D视频转3D视频的方法中编码部分流程图;
图4为本发明实施例的一种2D视频转3D视频的方法中解码部分流程图;
图5为本发明实施例的一种装置2D视频转3D视频的装置结构图;
图6为本发明实施例的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为达到上述发明目的,本发明实施例公开了一种2D视频转3D视频的方法,如图1所示。图1为本发明实施例的一种2D视频转3D视频的方法流程图,方法包括:
S101,获取待转换2D视频数据的视频图像,将视频图像作为用于转换为3D视频的第一单目视图;其中,第一单目视图为左目视图或右目视图。
本发明实施例的2D视频转3D视频的方法,可以通过电子设备实现。具体的,该电子设备可以为服务器、个人电脑或智能手机等设备。
本步骤中获取待转换2D视频帧的视频图像,将该视频图像作为该2D视频帧的第一单目视图。该第一单目视图可为使用现有2D视频介质进行单目图像采集的视频图像,具体可为,左眼单目看到的图像或右眼单目看到的图像。本申请中将此时获得的单目图像作为第一单目视图,后面通过目标网络模型得到的视差图确定的图像作为第二单目视图。
例如,本步骤中获取的第一单目视图为左目视图。
S102,将上述第一单目视图输入到预先构建的目标网络模型中,通过上述目标网络模型进行处理,得到上述第一单目视图对应的视差图。
本发明实施例中预先构建目标网络模型,该目标网络模型能够将输入的第一单目视图通过特征提取、卷积池化处理,得到待转换2D视频数据的第一单目视图对应的视差图。该处实现的网络结构为:在VGG(Visual Geometry Group,视觉几何组)的基础上实现U型神经网络模型U-Net的编解码网络。本发明实施例中当获取的第一单目视图为左目视图时,可通过目标网络模型得到与该左目视图对应的右目视图;当获取的第一单目视图为右目视图时,可通过目标网络模型得到与该右目视图对应的左目视图。即为训练时,可将左目视图作为模型训练的输入,得到预测右目视图的视差图;也可将右目视图作为模型训练的输入,得到预测左目视图的视差图。以下实施例中详细说明该目标网络模型的构建过程。
可选地,通过目标网络模型进行处理包括编码处理和解码处理;S102中将上述第一单目视图输入到预先构建的目标网络模型中,通过上述目标网络模型进行处理,得到上述第一单目视图对应的视差图,可参见图2。图2为本发明实施例的一种2D视频转3D视频的方法中确定视差图的方法流程图,包括:
S201,通过如下步骤进行编码处理:将第一单目视图输入到预先构建的目标网络模型中,通过目标网络模型对第一单目视图进行多次下采样处理,并对每次下采样处理后的视图进行第一预设处理,依次得到尺寸由大到小的多个下采样图像。
本发明实施例的目标网络模型处理包括第一部分的下采样的编码处理,及第二部分的上采样的解码处理。通过编码及解码处理对第一单目视图进行多层深度学习,得到视差图。
本步骤中,将第一单目视图输入到预先构建的目标网络模型中,通过编码处理对第一单目视图进行多次降低尺寸的下采样,并对每次下采样处理后的视图进行第一预设处理。本步骤中,上述第一预设处理可以为多种处理方式,即本步骤的目的为了得到预设尺寸的下采样图像,只要能够实现以上目的图像处理方式均在本实施例的范围内,举例来说:在本发明实施例中,该第一预设处理为增加通道的卷积处理,以及池化处理。
对图片进行降低尺寸的下采样处理阶段数可根据实施人员的具体要求设置,保证能够从最小尺寸的下采样图像提取到满足要求的特征即可。下采样次数可以按照实际情况进行设定,例如设定为三次、四次或五次等。
在一种可能的实施方式中,目标网络模型的编码处理每次下采样过程可将前一次下采样得到的图片尺寸缩小一半,通过卷积操作增加下采样图片的通道。具体可以包括:
步骤a,将第一单目视图进行降低尺寸的下采样处理,得到初始下采样图像,其中,初始下采样图像的尺寸为第一单目视图尺寸的一半(初始下采样图像的宽为第一单目视图宽的一半,且初始下采样图像的高为第一单目视图高的一半)。
步骤b,将初始下采样图像进行卷积处理,增加该初始下采样图像的通道数,并对图像进行池化处理,得到目标下采样图像。
步骤c,将目标下采样图像作为初始下采样图像,返回上述步骤a继续执行,直至达到设定的次数。
下面以三个阶段的下采样为例进行举例说明:将尺寸为512*256*3的第一单目视图输入到目标网络模型中,其中,512表示第一单目视图的宽,256表示第一单目视图的高,3表示该第一单目视图的通道数。将512*256*3的第一单目视图经过第一次下采样卷积池化处理,得到256*128*32的特征图;将256*128*32的特征图经过第二次的下采样卷积池化处理,得到128*64*64的特征图;将128*64*64的特征图经过第三次的下采样卷积池化处理,得到64*32*128的特征图。
S202,通过如下步骤对下采样图像进行解码处理:对于多个下采样图像,按照尺寸由小到大的顺序进行排列;通过目标网络模型依次对排列后的各下采样图像进行上采样处理,并对每次上采样处理后的图像进行第二预设处理,得到第一单目视图对应的视差图;其中,视差图的尺寸与第一单目视图的尺寸相同。本步骤中,上述第二预设处理可以为多种图像处理方式,例如:反卷积处理或者双线性插值处理。
本发明实施例中为了让特征图同时具有图像深层信息和图像浅层信息,解码过程中在将图像增加到与编码过程的尺寸相同的图片后,将相同尺寸的编码图像与该解码图像进行合并,得到该尺寸的特征图。具体为,从最小尺寸的下采样图像开始上采样处理,并对将上采样后的特征图进行反卷积或者双线性插值,使得图像的尺寸变为原来图像尺寸的两倍,直至最后输出第一单目视图对应的视差图。对图片进行增加尺寸的上采样处理阶段数与对图片进行降低尺寸的下采样处理阶段数对应。本步骤中,解码处理按照尺寸由小到大的顺序,依次对各下采样图像进行上采样及双线性插值处理,得到第一单目视图对应的视差图。具体可以包括:
步骤1,解码部分按照尺寸由小到大的顺序,选取尺寸最小的下采样图像进行上采样及双线性插值处理,得到图像尺寸增加一半(宽及高均增加一半)、的初始上采样图像。
步骤2,对初始上采样图像进行卷积处理得到初始上采样图像的右视差图;
步骤3,选取尺寸与初始上采样图像尺寸相同的下采样图像,合并该下采样图像、初始上采样图像及初始上采样图像的右视差图,得到目标图像,其中,目标图像的尺寸与初始上采样图像尺寸相同。
步骤4,将目标图像进行上采样及双线性插值处理,得到图像尺寸增加一半的目标上采样图像。
步骤5,将目标上采样图像作为初始上采样图像,返回上述步骤2继续执行,直至得到尺寸与第一单目视图尺寸相同的目标上采样图像。
步骤6,对尺寸与第一单目视图尺寸相同的目标上采样图像进行卷积处理,得到右视差图,即第一单目视图对应的视差图。
S103,根据上述第一单目视图及上述视差图得到上述待转换2D视频数据的第二单目视图。
通过任意相关的视图转换算法,按照第一单目视图及视差图得到第二单目视图,即待转换2D视频数据的第二单目视图。
可选的,在上述根据上述第一单目视图及上述视差图得到上述待转换2D视频数据的第二单目视图之后,上述方法还包括:
通过超分辨率卷积神经网络对上述第二单目视图中的全部像素或部分像素进行像素值修正。
具体为,将上述第二单目视图输入到超分辨率卷积神经网络中,通过该超分辨率卷积神经网络卷积处理,修正上述第二单目视图中的像素值,经过若干次卷积处理后,得到较高分辨率的第二单目视图。
该修正可为将第二单目视图中的全部像素值进行修正,或部分像素值进行修正。
具体为,从修正的整体考虑,在训练过程中训练模型对输入图像每个部分都做相同权重比例像素的修正处理,使得最终得到对目标网络模型得到的第二单目视图全部像素值进行修正。
另外,从修正的效率考虑,鉴于第一单目视图与第二单目视图的视场范围会存在一些差距,在第二单目视图中一些可见区域在第一单目视图中不可见,因此上述目标网络模型得到的第二单目视图中,对于在第二单目视图中可见在第一区域不可见的区域预测会存在误差。因此,在训练过程中训练模型对输入图像的第二单目视图中可见在第一区域不可见的区域增加权重比例,对该部分重点修正处理,使得最终得到对目标网络模型得到的第二单目视图部分像素值进行修正。
本申请的超分辨率卷积神经网络训练过程可为,获取预设数量的3D片源作为训练样本;其中,每个训练样本包含第一单目视图及与第一单目视图对应的第二单目视图;将上述第一单目视图输入到目标网络模型,最终得到第一预测第二单目视图。将该第一预测第二单目视图输入到超分辨率卷积神经网络中,通过超分辨率卷积神经网络进行处理,输出与真实第二单目视图尺寸相同的第二预测第二单目视图,将第二预测第二单目视图与真实的第二单目视图对比,调整超分辨率卷积神经网络的参数,可设置训练次数,每次输出第二预测第二单目视图时调整网络参数,直至得到训练次数时得到训练好的超分辨率卷积神经网络。进而通过该训练好的超分辨率卷积神经网络对上述目标网络模型进行修正。
需要说明的是,本发明对目标网络模型得到的第二单目视图进行修正的模型不做限定,在实施过程中也可使用GAN(Generative Adversarial Network,生成对抗网络)对目标网络模型得到的第二单目视图进行修正。
通过超分辨率卷积神经网络可对得到的第二单目视图中低分辨的像素点进行卷积操作,得到高分辨率的第二单目视图。
S104,通过预设图像处理方式对上述第一单目视图及上述第二单目视图进行处理,得到上述待转换2D视频数据对应的3D视频。
当获取的第一单目视图为左目视图时,得到的第二单目视图即为与该左目视图对应的右目视图;当获取的第一单目视图为右目视图时,得到的第二单目视图即为与该右目视图对应的左目视图。将该第一单目视图和第二单目视图分别作为左、右目视图,通过现有的3D设备观看该第一单目视图及第二单目视图,得到待转换2D视频数据对应的3D视频。或者通过现有对第一单目视图及第二单目视图进行处理得到3D视频的方式,处理该第一单目视图及第二单目视图,得到待转换2D视频数据对应的3D视频。本发明实施例中具体不做限定。
在本发明实施例公开的一种2D视频转3D视频的方法中,将第一单目视图输入到预先构建的目标网络模型中,通过目标网络模型进行处理,得到第一单目视图对应的视差图;根据第一单目视图及视差图得到待转换2D视频数据的第二单目视图;通过预设图像处理方式对第一单目视图及第二单目视图进行处理,得到待转换2D视频数据对应的3D视频。本发明实施例中通过预先构建的目标网络模型,能够对输入的第一单目视图进行处理,自动输出第一单目视图对应的视差图,使得通过第一单目视图和视差图得到第二单目视图,通过第一单目视图及第二单目视图可得到3D视频。通过本发明实施例,能够对任意场景的第一单目视图得到对应的第二单目视图,实现了方便有效的对不同场景的2D视频转换为3D视频的效果,提高了本发明实施例的实用性。
可选地,在本发明2D视频转3D视频的方法的一种实施例中,目标网络模型中还包括激活函数;方法还包括:获取拍摄3D片源的相机设备参数;根据相机设备参数,按照预设函数取值规则,确定激活函数的取值。
上述通过目标网络模型进行处理,得到第一单目视图对应的视差图,包括:
利用激活函数通过目标网络模型进行处理,得到第一单目视图对应的视差图;
其中,激活函数为双曲正切函数tanh,激活函数tanh的取值范围为[-1,1]。
在拍摄3D片源得到第一单目视图时,可采用会聚相机获得单目图像,本实施例中可获取会聚相机的参数,根据会聚相机的参数,选取能够使得视差图中视差小于图片宽度的激活函数,作为调整视差图中视差范围的调整函数。因此本申请中选取双曲正切函数tanh作为激活函数。其中,激活函数tanh的取值范围为[-1,1]。
这是因为tanh出来的值在±1之间,3D电影拍摄使用会聚相机,这样会导致真实的视差图中的会出现有正有负的数值。所以使用tanh对进行合理修正,最终采用tanh激活后的特征图就是本申请的视差图,并且使得视差图中视差范围在[-0.5W,0.5W],其中,W为原始左目视图图片的宽。
通过本发明实施例采用的激活函数能够有效对视差图进行修正,使得得到的视差图中的视差能够控制在合理范围内。
可选地,在本发明2D视频转3D视频的方法的一种实施例中,上述目标网络模型包括第一级联下采样网络、第二级联下采样网络、第三级联下采样网络、第四级联下采样网络及第五级联下采样网络;且第一预设处理为卷积池化处理时,可通过如下步骤对第一单目视图进行编码处理,可参见图3所示的方法流程图。图3为本发明实施例的一种2D视频转3D视频的方法中编码部分流程图,包括:
S301,将上述第一单目视图输入上述第一级联下采样网络,通过上述第一级联下采样网络对上述第一单目视图进行下采样及卷积池化处理,得到第一下采样图像。
本发明实施例的编码部分包括多个级联下采样网络,每个级联下采样网络包括多个卷积层的卷积处理过程及池化处理过程。前一个级联下采样网络的输出作为下一个级联下采样网络的输入。本发明实施例的编码处理可包括第一级联下采样网络、第二级联下采样网络、第三级联下采样网络、第四级联下采样网络及第五级联下采样网络。
本步骤中,将第一单目视图输入第一级联下采样网络,通过第一级联下采样网络包含的多个卷积层及池化层对第一单目视图进行下采样及卷积池化处理。该处实现的网络结构为:在VGG(Visual Geometry Group,视觉几何组)的基础上实现U-Net的编解码网络。该第一级联下采样网络包括多个卷积层和池化层max_pooing,通过多个卷积层对输入的第一单目视图进行卷积处理,通过池化层对第一单目视图进行下采样。
例如,将尺寸为265*512*3的第一单目视图输入到第一级联下采样网络中,其中,265可表示第一单目视图的宽;512可表示第一单目视图的高;3可表示该第一单目视图的通道数。通过第一级联下采样网络对第一单目视图进行下采样及增加通道的卷积池化处理,得到128*256*32的第一下采样图像。
S302,通过上述第二级联下采样网络对上述第一下采样图像进行下采样及卷积池化处理,得到第二下采样图像。
例如,将128*256*32的第一下采样图像输入到第二级联下采样网络中,通过第二级联下采样网络对该第一下采样图像进行下采样处理、增加通道的卷积处理及池化处理,得到64*128*64的第二下采样图像。
S303,通过上述第三级联下采样网络对上述第二下采样图像进行下采样及卷积池化处理,得到第三下采样图像。
例如,将64*128*64的第二下采样图像输入到第三级联下采样网络中,通过第三级联下采样网络对该第二下采样图像进行下采样处理、增加通道的卷积处理及池化处理,得到32*64*128的第三下采样图像。
S304,通过上述第四级联下采样网络对上述第三下采样图像进行下采样及卷积池化处理,得到第四下采样图像。
例如,将32*64*128的第三下采样图像输入到第四级联下采样网络中,通过第四级联下采样网络对该第三下采样图像进行下采样处理、增加通道的卷积处理及池化处理,得到16*32*256的第四下采样图像。
S305,通过上述第五级联下采样网络对上述第四下采样图像进行下采样及卷积池化处理,得到第五下采样图像。
例如,将16*32*256的第四下采样图像输入到第五级联下采样网络中,通过第五级联下采样网络对该第四下采样图像进行下采样处理、增加通道的卷积处理及池化处理,得到8*16*512的第五下采样图像。
可参见表1所示的本发明实施例的一种2D视频转3D视频的方法中编码部分的编码表。
表1
Input | Shape | Ops | Output |
image | [256,512,3] | convs&max_pooling | pool1 |
pool1 | [128,256,32] | convs&max_pooling | pool2 |
pool2 | [64,128,64] | convs&max_pooling | pool3 |
pool3 | [32,64,128] | convs&max_pooling | pool4 |
pool4 | [16,32,256] | convs&max_pooling | pool5 |
pool5 | [8,16,512] | -- | -- |
其中,Input表示输入,Shape表示输入图像的尺寸及通道特征,Ops表示级联下采样网络的操作,Output表示对应该级联下采样网络处理后的输出结果,image表示输入的第一单目视图;pool1表示第一下采样图像;pool2表示第二下采样图像;pool3表示第三下采样图像;pool4表示第四下采样图像;pool5表示第五下采样图像。
表2
Name | Encoder Name |
pool1 | encoder1 |
pool2 | encoder2 |
pool3 | encoder3 |
pool4 | encoder4 |
pool5 | encoder5 |
可将pool1表示的第一下采样图像,作为第一级联下采样网络对应的编码器encoder1的输出特征图;可将pool2表示的第二下采样图像,作为第二级联下采样网络对应的编码器encoder2的输出特征图;可将pool3表示的第三下采样图像,作为第三级联下采样网络对应的编码器encoder3的输出特征图;可将pool3表示的第三下采样图像,作为第三级联下采样网络对应的编码器encoder3的输出特征图;可将pool4表示的第四下采样图像,作为第四级联下采样网络对应的编码器encoder4的输出特征图;可将pool5表示的第五下采样图像,作为第五级联下采样网络对应的编码器encoder5的输出特征图。
需要说明的是,本发明实施例中设置了五个级联上采样网络,在实际实施过程中,可按照实施人员的具体需求设置多于五个或少于五个的级联上采样网络。
可见,通过本发明实施例,可实现对第一单目视图进行多极化的下采样处理,得到不同尺寸的特征图,便于后期在解码过程中,对相同尺寸的深层特征图及浅层特征图进行合并处理,使得最后得到的第二单目视图效果更佳。
可选地,在本发明2D视频转3D视频的方法的一种实施例中,上述目标网络模型包括第一级联上采样网络、第二级联上采样网络、第三级联上采样网络、第四级联上采样网络及第五级联上采样网络;且视差图为目标右视差图,第二预设处理为反卷积处理或双线性插值处理时,则通过如下步骤对下采样图像进行解码处理,可见参见图4所示的方法流程图。图4为本发明实施例的一种2D视频转3D视频的方法中解码部分流程图,包括:
S401,通过上述第一级联上采样网络对上述第五下采样图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第一上采样图像;其中,上述第一上采样图像的尺寸与上述第四下采样图像的尺寸相同。
本发明实施例的解码部分对应上述实施例的编码部分,上述实施例的解码部分通过五个级联上采样网络对输入的第一单目视图进行下采样的编码,本实施例通过五个级联上采样网络对编码部分最后的编码特征图进行解码,得到与第一单目视图尺寸对应的第二单目视图。
本步骤中,通过第一级联上采样网络对第五下采样图像进行上采样,并对上采样后的图像进行反卷积或双线程差值处理,得到第一上采样图像,该第一上采样图像的尺寸与第四下采样图像的尺寸相同。
例如,第一级联上采样网络对8*16*512的第五下采样图像进行上采样及双线程差值的卷积池化处理,得到16*32*256的第一上采样图像。
S402,对上述第一上采样图像进行卷积处理,得到第一右视差图。
例如,可以通过第一级联上采样网络中的卷积神经网络,对第一上采样图像进行卷积处理,得到第一右视差图。
S403,将上述第一上采样图像、上述第一右视差图及上述第四下采样图像合并,得到第一目标图像;其中,上述第一目标图像的尺寸与上述第四下采样图像的尺寸相同。
可以合并第一上采样图像及第一右视差图,得到第一上采样图像对应的预测第二单目视图,其中,第一上采样图像对应的预测第二单目视图与第一上采样图像的尺寸相同。第四下采样图像与第一上采样图像的尺寸相同,合并第一上采样图像对应的预测第二单目视图与第四下采样图像,得到第一目标图像。
S404,通过上述第二级联上采样网络对上述第一目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第二上采样图像;其中,上述第二上采样图像的尺寸与上述第三下采样图像的尺寸相同。
通过第二级联上采样网络对第一目标图像进行上采样,并对上采样后的图像进行反卷积或双线性插值处理,得到第二上采样图像,该第二上采样图像的尺寸与第三下采样图像的尺寸相同。
S405,对上述第二上采样图像进行卷积处理,得到第二右视差图。
例如,可以通过第二级联上采样网络中的卷积神经网络,对第二上采样图像进行卷积处理,得到第二右视差图。在一种可能的实施方式中,可以通过第二级联上采样网络中的两层卷积神经网络,对第二上采样图像进行卷积处理,得到第二右视差图。
S406,将上述第二上采样图像、上述第二右视差图及上述第三下采样图像合并,得到第二目标图像;其中,上述第二目标图像的尺寸与上述第三下采样图像的尺寸相同。
可以合并第二上采样图像及第二右视差图,得到第二上采样图像对应的预测第二单目视图,其中,第二上采样图像对应的预测第二单目视图与第二上采样图像的尺寸相同。第三下采样图像与第二上采样图像的尺寸相同,合并第二上采样图像对应的预测第二单目视图与第三下采样图像,得到第二目标图像。
S407,通过上述第三级联上采样网络对上述第二目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第三上采样图像;其中,上述第三上采样图像的尺寸与上述第二下采样图像的尺寸相同。
通过第三级联上采样网络对第二目标图像进行上采样,并对上采样后的图像进行反卷积或双线性插值处理,得到第三上采样图像,该第三上采样图像的尺寸与第二下采样图像的尺寸相同。
S408,对上述第三上采样图像进行卷积处理,得到第三右视差图。
例如,可以通过第三级联上采样网络中的卷积神经网络,对第三上采样图像进行卷积处理,得到第三右视差图。在一种可能的实施方式中,可以通过第三级联上采样网络中的两层卷积神经网络,对第三上采样图像进行卷积处理,得到第三右视差图。
S409,将上述第三上采样图像、上述第三右视差图及上述第二下采样图像合并,得到第三目标图像;其中,上述第三目标图像的尺寸与上述第二下采样图像的尺寸相同。
可以合并第三上采样图像及第三右视差图,得到第三上采样图像对应的预测第二单目视图,其中,第三上采样图像对应的预测第二单目视图与第三上采样图像的尺寸相同。第二下采样图像与第三上采样图像的尺寸相同,合并第三上采样图像对应的预测第二单目视图与第二下采样图像,得到第三目标图像。
S410,通过上述第四级联上采样网络对上述第三目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第四上采样图像;其中,上述第四上采样图像的尺寸与上述第一下采样图像的尺寸相同。
通过第四级联上采样网络对第三目标图像进行上采样,并对上采样后的图像进行反卷积或双线性插值处理,得到第四上采样图像,该第四上采样图像的尺寸与第一下采样图像的尺寸相同。
S411,对上述第四上采样图像进行卷积处理,得到第四右视差图。
例如,可以通过第四级联上采样网络中的卷积神经网络,对第四上采样图像进行卷积处理,得到第四右视差图。在一种可能的实施方式中,可以通过第四级联上采样网络中的两层卷积神经网络,对第四上采样图像进行卷积处理,得到第四右视差图。
S412,将上述第四上采样图像、上述第四右视差图及上述第一下采样图像合并,得到第四目标图像;其中,上述第四目标图像的尺寸与上述第一下采样图像的尺寸相同。
可以合并第四上采样图像及第四右视差图,得到第四上采样图像对应的预测第二单目视图,其中,第四上采样图像对应的预测第二单目视图与第四上采样图像的尺寸相同。第一下采样图像与第四上采样图像的尺寸相同,合并第四上采样图像对应的预测第二单目视图与第一下采样图像,得到第四目标图像。
S413,通过上述第五级联上采样网络对上述第四目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第五上采样图像;其中,上述第五上采样图像的尺寸与上述第一单目视图的尺寸相同。
通过第五级联上采样网络对第四目标图像进行上采样,并对上采样后的图像进行反卷积或双线性插值处理,得到第五上采样图像,该第五上采样图像的尺寸与第一单目视图的尺寸相同。
S414,对上述第五上采样图像进行卷积处理,得到上述第一单目视图对应的目标右视差图。
例如,可以通过第五级联上采样网络中的卷积神经网络,对第五上采样图像进行卷积处理,得到右视差图,即第一单目视图对应的视差图。在一种可能的实施方式中,可以通过第五级联上采样网络中的两层卷积神经网络,对第五上采样图像进行卷积处理,得到右视差图。
可参见表3所示的本发明实施例的一种2D视频转3D视频的方法中解码部分的解码表。
表3
其中,Input表示输入,Ops表示级联上采样网络的操作,其中,convs表示卷积操作,deconvs表示反卷积操作;tanh表示级联上采样网络的激活函数;Output表示对应该级联上采样网络处理后的输出结果;shape表示从该级联上采样网络得到的特征图的尺寸,disps1表示第一级联上采样网络的输出的第一右视差图;disps2表示第二级联上采样网络的输出的第二右视差图;disps3表示第三级联上采样网络的输出的第三右视差图;disps4表示第四级联上采样网络输出的第四右视差图;disps5表示第五级联上采样网络的输出的第一单目视图对应的目标右视差图。每个阶段的解码是先进行上采样及降低通道的convs与增大尺寸的deconvs;在进行两次卷积convs以及采用激活函数激活tanh得到视差图,encoder&decoder&disps表示将本次级联上采样网络处理得到的上采样图像、与本次级联上采样网络的上采样图像尺寸相同的下采样图像、及本次级联上采样网络得到的视差图进行合并,作为下一级联上采样网络的输入。
在本发明实施例中,通过五个级联上采样网络对编码后的图像进行解码,最终得到第一单目视图对应的视差图,能够增加得到的视差图的准确度。
在本发明另一实施例中,还具体包括一种预先构建并训练上述目标网络模型的过程,具体为:
步骤一,获取预设数量不同类型的3D片源作为训练样本;其中,每个训练样本包含第一单目视图及与第一单目视图对应的第二单目视图。
获取预设数量不同类型的3D片源作为训练样本,并使用现有3D视频介质进行单目图像采集第一单目视图及与第一单目视图对应的第二单目视图。其中,第一单目视可为左眼单目看到的图像;第二单目视图可为右眼单目看到的图像,要求第一单目视图和第二单目视图需要相互对应。本发明实施例将第一单目视图作为采集训练的样本,第二单目视图作为通过第一单目视图得到的预测图像的对比样本。
可以获取人工挑选的各类场景下的视频源作为训练数据,并将这些场景分为科幻、陆地战争、海洋、星空、动画风格、室内场景、自然场景、室外场景、其他等9类。在实际训练时可以采用例如OHEM(Online Hard Example Mining,在线难例挖掘算法)、Focal Loss(焦点损失)等算法来解决场景类别不平衡的问题。
步骤二,分别标定各第一单目视图对应的第二单目视图,得到各视图对。
将同一2D视频图像采集到的第一单目视图及第二单目视图,标记为一个视图对。
步骤三,分别将各上述视图对输入到预设网络模型中进行训练,得到上述目标网络模型。
在一种可能的实施方式中,上述分别将各上述视图对输入到预设网络模型中进行训练,得到预先构建的目标网络模型,包括:
步骤A,在各视图对中选取一个视图对,将该视图对的第一单目视图输入到预设网络模型中,得到预测的左视差图和右视差图;
通过各视图对训练预设网络模型,从而得到目标网络模型。具体可以为将第一单目视图作为训练样本,输出预测的左视差图及右视差图。
本发明实施例中,对级联上采样网络进行上采样及预设处理后得到的上采样图像,进行第一次卷积操作得到的图像为左视差图,第二次卷积操作得到的视差图为右视差图。即为预设网络模型的最后一层级联上采样网络对上一层级联上采样网络输入的特征图进行处理,得到与输入的视图对的第一单目视图尺寸相同的上采样图像后,在对该上采样图像进行第一次卷积处理,可得到该视图对的左视差图;对该上采样图像进行第二次卷积处理,可得到该视图对的右视差图。
通过视差图与单目视图的对应关系,得到预测的单目视图。
其中,第一单目视图+右视差图=第二单目视图,第二单目视图+左视差图=第一单目视图。
步骤B,根据各已选取的视图对的第一单目视图、左视差图、第二单目视图及右视差图,计算预设损失函数的当前数值。
本申请的预设损失函数包括梯度损失函数、感知损失函数及SSIM+L1(structuralsimilarity,结构相似性,L1表示预测第二单目视图与真实第二单目视图的绝对值误差)。
其中,梯度损失函数的表达式为:
其中,表示梯度函数;N表示该图片中像素点个数;i表示任一像素点的横坐标;j表示该像素点的纵坐标;l表示第一单目视图;e表示无理常数;表示图像在x方向的一阶导数;表示预测第二单目视图:表示坐标在(i,j)处的视差值;图像在y方向的一阶导数。
其中,感知损失函数的表达式为:
其中,表示预测第二单目视图和真实第二单目视图的感知函数;表示矩阵c与之转置后的矩阵c′的乘积函数;j表示第j张图片;Cj表示第j张图片的通道数;Hj表示第j张图片的高;Wj表示第j张图片的宽;φj(x)h,w,c表示第i张特征图,h表示图像的高,w表示图像的宽;c表示图像的通道;φj(x)h,w,c′表示第i张特征图的转置;表示预测第二单目视图;y表示真实第二单目视图;表示预测第二单目视图的感知值;表示真实第二单目视图的感知值;表示2范数,与点到点的欧氏距离的计算方法一致。
SSIM+L1的表达式为:
其中,表示SSIM+L1整体的损失函数;N表示图片个数,l表示第一单目视图;α表示SSIM损失的权重占比,取值为0.85;表示真实第二单目视图;表示预测第二单目视图;表示预测第二单目视图与真实第二单目视图的结构相似性;表示预测第二单目视图与真实第二单目视图的绝对值误差L1。
将当前视图对中的第一单目视图、左视差图、第二单目视图及右视差图及已输入到模型中训练过的样本的第一单目视图、左视差图、第二单目视图及右视差图带入上述公式中,分别计算每种损失函数的当前数值,并求和得到最后的损失值。
步骤C,按照预设损失函数的当前数值,调整预设网络模型中用于预测左视差图和右视差图的各参数值。
本发明实施例中,通过设置的损失函数,来反向调节预设网络模型中确定视差图的各参数值,各参数值包括该预设网络模型的各层卷积函数的参数值,池化函数的参数值、双线性插值的参数值或反卷积函数的参数值。
具体的,梯度损失函数和生成的视差图的比例设置可以通过多次单一变量的实验得出,设置比例从0.01为起点,10为终点,每次比例设置为上次比例设置的5倍。
步骤D,重复执行步骤A到步骤C,直至预设损失函数满足预设输出条件时得到目标网络模型。
本发明实施例的预设输出条件可为迭代次数,即为调整完参数后,后一次在前一次调整的基础上训练,使得参数回传调整了预设次数或者训练了预设次数后,可得到目标网络模型。以使通过目标网络模型得到预测的视差图,通过该视差图得到的第二单目视图趋近于真实的第二单目视图。
第二方面,本发明实施例公开了一种2D视频转3D视频的装置,如图5所示。图5为本发明实施例的一种装置2D视频转3D视频的装置结构图,包括:
第一单目视图确定模块501,用于获取待转换2D视频数据的视频图像,将视频图像作为用于转换为3D视频的第一单目视图;其中,第一单目视图为左目视图或右目视图;
视差图确定模块502,用于将第一单目视图输入到预先构建的目标网络模型中,通过目标网络模型进行处理,得到第一单目视图对应的视差图;
第二单目视图确定模块503,用于根据第一单目视图及视差图得到待转换2D视频数据的第二单目视图;其中,第二单目视图为与第一单目视图对应的右目视图或左目视图;
3D视频确定模块504,用于通过预设图像处理方式对第一单目视图及第二单目视图进行处理,得到待转换2D视频数据对应的3D视频。
在本发明实施例公开的一种2D视频转3D视频的装置中,将第一单目视图输入到预先构建的目标网络模型中,通过目标网络模型进行处理,得到第一单目视图对应的视差图;根据第一单目视图及视差图得到待转换2D视频数据的第二单目视图;通过预设图像处理方式对第一单目视图及第二单目视图进行处理,得到待转换2D视频数据对应的3D视频。本发明实施例中通过预先构建的目标网络模型,能够对输入的第一单目视图进行处理,自动输出第一单目视图对应的视差图,使得通过第一单目视图和视差图得到第二单目视图,通过第一单目视图及第二单目视图可得到3D视频。通过本发明实施例,能够对任意场景的第一单目视图得到对应的第二单目视图,实现了方便有效的对不同场景的2D视频转换为3D视频的效果,提高了本发明实施例的实用性。
可选地,在本发明2D视频转3D视频的装置的一种实施例中,通过目标网络模型进行处理包括编码处理和解码处理;视差图确定模块502,包括:
编码处理子模块,用于将第一单目视图输入到预先构建的目标网络模型中,通过目标网络模型对第一单目视图进行多次下采样处理,并对每次下采样处理后的视图进行第一预设处理,依次得到尺寸由大到小的多个下采样图像;
解码处理子模块,用于对于多个下采样图像,按照尺寸由小到大的顺序进行排列;通过目标网络模型依次对排列后的各下采样图像进行上采样处理,并对每次上采样处理后的图像进行第二预设处理,得到第一单目视图对应的视差图;其中,视差图的尺寸与第一单目视图的尺寸相同。
可选地,在本发明2D视频转3D视频的装置的一种实施例中,目标网络模型中包括第一级联下采样网络、第二级联下采样网络、第三级联下采样网络、第四级联下采样网络及第五级联下采样网络;且第一预设处理为卷积池化处理时,编码处理子模块,包括:
第一下采样图像确定单元,用于将第一单目视图输入第一级联下采样网络,通过第一级联下采样网络对第一单目视图进行下采样及卷积池化处理,得到第一下采样图像;
第二下采样图像确定单元,用于通过第二级联下采样网络对第一下采样图像进行下采样及卷积池化处理,得到第二下采样图像;
第三下采样图像确定单元,用于通过第三级联下采样网络对第二下采样图像进行下采样及卷积池化处理,得到第三下采样图像;
第四下采样图像确定单元,用于通过第四级联下采样网络对第三下采样图像进行下采样及卷积池化处理,得到第四下采样图像;
第五下采样图像确定单元,用于通过第五级联下采样网络对第四下采样图像进行下采样及卷积池化处理,得到第五下采样图像。
可选地,在本发明2D视频转3D视频的装置的一种实施例中,目标网络模型中包括第一级联上采样网络、第二级联上采样网络、第三级联上采样网络、第四级联上采样网络及第五级联上采样网络,视差图为目标右视差图;第二预设处理为预设处理;第二预设为反卷积处理或双线性插值处理时,解码处理子模块,包括:
第一上采样图像确定单元,用于通过第一级联上采样网络对第五下采样图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第一上采样图像;其中,第一上采样图像的尺寸与第四下采样图像的尺寸相同;
第一右视差图确定单元,用于对第一上采样图像进行卷积处理,得到第一右视差图;
第一目标图像确定单元,用于将第一上采样图像、第一右视差图及第四下采样图像合并,得到第一目标图像;其中,第一目标图像的尺寸与第四下采样图像的尺寸相同;
第二上采样图像确定单元,用于通过第二级联上采样网络对第一目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第二上采样图像;其中,第二上采样图像的尺寸与第三下采样图像的尺寸相同;
第二右视差图确定单元,用于对第二上采样图像进行卷积处理,得到第二右视差图;
第二目标图像确定单元,用于将第二上采样图像、第二右视差图及第三下采样图像合并,得到第二目标图像;其中,第二目标图像的尺寸与第三下采样图像的尺寸相同;
第三上采样图像确定单元,用于通过第三级联上采样网络对第二目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第三上采样图像;其中,第三上采样图像的尺寸与第二下采样图像的尺寸相同;
第三右视差图确定单元,用于对第三上采样图像进行卷积处理,得到第三右视差图;
第三目标图像确定单元,用于将第三上采样图像、第三右视差图及第二下采样图像合并,得到第三目标图像;其中,第三目标图像的尺寸与第三下采样图像的尺寸相同;
第四上采样图像确定单元,用于通过第四级联上采样网络对第三目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第四上采样图像;其中,第四上采样图像的尺寸与第一下采样图像的尺寸相同;
第四右视差图确定单元,用于对第四上采样图像进行卷积处理,得到第四右视差图;
第四目标图像确定单元,用于将第四上采样图像、第四右视差图及第一下采样图像合并,得到第四目标图像;其中,第四目标图像的尺寸与第一下采样图像的尺寸相同;
第五上采样图像确定单元,用于通过第五级联上采样网络对第四目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第五上采样图像;其中,第五上采样图像的尺寸与第一单目视图的尺寸相同;
目标右视差图确定单元,用于对第五上采样图像进行卷积处理,得到第一单目视图对应的目标右视差图。
可选地,在本发明2D视频转3D视频的装置的一种实施例中,装置还包括:
训练样本获取模块,用于获取预设数量不同类型的3D片源作为训练样本;其中,每个训练样本包含第一单目视图及与第一单目视图对应的第二单目视图;
视图对标定模块,用于分别标定各第一单目视图对应的第二单目视图,得到各视图对;
目标网络模型确定模块,用于分别将各视图对输入到预设网络模型中进行训练,得到目标网络模型。
可选地,在本发明2D视频转3D视频的装置的一种实施例中,目标网络模型确定模块,包括:
视差图确定单元,用于在各视图对中选取一个视图对,将该视图对的第一单目视图输入到预设网络模型中,得到预测的左视差图和右视差图;
损失函数值确定单元,用于根据已选取的视图对的第一单目视图、左视差图、第二单目视图及右视差图,计算预设损失函数的当前数值;
参数值调整单元,用于按照预设损失函数的当前数值,调整预设网络模型中用于预测左视差图和右视差图的各参数值;
目标网络模型确定单元,用于返回视差图确定子模块继续执行,直至预设损失函数满足预设输出条件时得到目标网络模型。
可选地,目标网络模型还包括激活函数,装置还包括:激活函数确定模块,用于获取拍摄3D片源的相机设备参数;根据相机设备参数,按照预设函数取值规则,确定激活函数的取值;
视差图确定模块,具体用于利用激活函数通过目标网络模型进行处理,得到第一单目视图对应的视差图;
其中,激活函数为双曲正切函数tanh,激活函数tanh的取值范围为[-1,1]。
为达到上述发明目的,本发明实施例还公开了一种电子设备,如图6所示。图6为本发明实施例的一种电子设备结构示意图,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信;
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现上述2D视频转3D视频的方法中任一的方法步骤。
上述电子设备提到的通信总线604可以是外设部件互连标准(PeripheralComponent Interconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线604可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口602用于上述电子设备与其他设备之间的通信。
存储器603可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器603还可以是至少一个位于远离前述处理器601的存储装置。
上述的处理器601可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明实施例公开了一种电子设备中,将第一单目视图输入到预先构建的目标网络模型中,通过目标网络模型进行处理,得到第一单目视图对应的视差图;根据第一单目视图及视差图得到待转换2D视频数据的第二单目视图;通过预设图像处理方式对第一单目视图及第二单目视图进行处理,得到待转换2D视频数据对应的3D视频。本发明实施例中通过预先构建的目标网络模型,能够对输入的第一单目视图进行处理,自动输出第一单目视图对应的视差图,使得通过第一单目视图和视差图得到第二单目视图,通过第一单目视图及第二单目视图可得到3D视频。通过本发明实施例,能够对任意场景的第一单目视图得到对应的第二单目视图,实现了方便有效的对不同场景的2D视频转换为3D视频的效果,提高了本发明实施例的实用性。
又一方面,本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述2D视频转3D视频的方法中任一所述的方法步骤。
在本发明实施例的一种计算机可读存储介质中,将第一单目视图输入到预先构建的目标网络模型中,通过目标网络模型进行处理,得到第一单目视图对应的视差图;根据第一单目视图及视差图得到所述待转换2D视频数据的第二单目视图;通过预设图像处理方式对第一单目视图及所述第二单目视图进行处理,得到待转换2D视频数据对应的3D视频。本发明实施例中通过预先构建的目标网络模型,能够对输入的第一单目视图进行处理,自动输出第一单目视图对应的视差图,使得通过第一单目视图和视差图得到第二单目视图,通过第一单目视图及第二单目视图可得到3D视频。通过本发明实施例,能够对任意场景的第一单目视图得到对应的第二单目视图,实现了方便有效的对不同场景的2D视频转换为3D视频的效果,提高了本发明实施例的实用性。
又一方面,本发明实施例还公开了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实现上述2D视频转3D视频的方法中任一所述的方法步骤。
在本发明实施例的一种包含指令的计算机程序产品中,将第一单目视图输入到预先构建的目标网络模型中,通过目标网络模型进行处理,得到第一单目视图对应的视差图;根据第一单目视图及视差图得到所述待转换2D视频数据的第二单目视图;通过预设图像处理方式对第一单目视图及所述第二单目视图进行处理,得到待转换2D视频数据对应的3D视频。本发明实施例中通过预先构建的目标网络模型,能够对输入的第一单目视图进行处理,自动输出第一单目视图对应的视差图,使得通过第一单目视图和视差图得到第二单目视图,通过第一单目视图及第二单目视图可得到3D视频。通过本发明实施例,能够对任意场景的第一单目视图得到对应的第二单目视图,实现了方便有效的对不同场景的2D视频转换为3D视频的效果,提高了本发明实施例的实用性。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (11)
1.一种2D视频转3D视频的方法,其特征在于,所述方法包括:
获取待转换2D视频数据的视频图像,将所述视频图像作为用于转换为3D视频的第一单目视图;其中,所述第一单目视图为左目视图或右目视图;
将所述第一单目视图输入到预先构建的目标网络模型中,通过所述目标网络模型进行处理,得到所述第一单目视图对应的视差图;
根据所述第一单目视图及所述视差图得到所述待转换2D视频数据的第二单目视图;其中,所述第二单目视图为与所述第一单目视图对应的右目视图或左目视图;
通过预设图像处理方式对所述第一单目视图及所述第二单目视图进行处理,得到所述待转换2D视频数据对应的3D视频;
所述通过所述目标网络模型进行处理包括编码处理和解码处理;
通过如下步骤进行编码处理:将所述第一单目视图输入到预先构建的目标网络模型中,通过所述目标网络模型对所述第一单目视图进行多次下采样处理,并对每次下采样处理后的视图进行第一预设处理,依次得到尺寸由大到小的多个下采样图像;
通过如下步骤对所述下采样图像进行解码处理:对于所述多个下采样图像,按照尺寸由小到大的顺序进行排列;通过所述目标网络模型依次对排列后的各所述下采样图像进行上采样处理,并对每次上采样处理后的图像进行第二预设处理,得到所述第一单目视图对应的视差图;其中,所述视差图的尺寸与所述第一单目视图的尺寸相同;
当所述目标网络模型中包括第一级联上采样网络、第二级联上采样网络、第三级联上采样网络、第四级联上采样网络及第五级联上采样网络,且所述视差图为目标右视差图,所述第二预设处理为反卷积处理或双线性插值处理时,则通过如下步骤对所述下采样图像进行解码处理:
通过所述第一级联上采样网络对第五下采样图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第一上采样图像;其中,所述第一上采样图像的尺寸与第四下采样图像的尺寸相同;
对所述第一上采样图像进行卷积处理,得到第一右视差图;
将所述第一上采样图像、所述第一右视差图及所述第四下采样图像合并,得到第一目标图像;其中,所述第一目标图像的尺寸与所述第四下采样图像的尺寸相同;
通过所述第二级联上采样网络对所述第一目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第二上采样图像;其中,所述第二上采样图像的尺寸与第三下采样图像的尺寸相同;
对所述第二上采样图像进行卷积处理,得到第二右视差图;
将所述第二上采样图像、所述第二右视差图及所述第三下采样图像合并,得到第二目标图像;其中,所述第二目标图像的尺寸与所述第三下采样图像的尺寸相同;
通过所述第三级联上采样网络对所述第二目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第三上采样图像;其中,所述第三上采样图像的尺寸与第二下采样图像的尺寸相同;
对所述第三上采样图像进行卷积处理,得到第三右视差图;
将所述第三上采样图像、所述第三右视差图及所述第二下采样图像合并,得到第三目标图像;其中,所述第三目标图像的尺寸与所述第二下采样图像的尺寸相同;
通过所述第四级联上采样网络对所述第三目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第四上采样图像;其中,所述第四上采样图像的尺寸与第一下采样图像的尺寸相同;
对所述第四上采样图像进行卷积处理,得到第四右视差图;
将所述第四上采样图像、所述第四右视差图及所述第一下采样图像合并,得到第四目标图像;其中,所述第四目标图像的尺寸与所述第一下采样图像的尺寸相同;
通过所述第五级联上采样网络对所述第四目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第五上采样图像;其中,所述第五上采样图像的尺寸与所述第一单目视图的尺寸相同;
对所述第五上采样图像进行卷积处理,得到所述第一单目视图对应的目标右视差图。
2.根据权利要求1所述的方法,其特征在于,当所述目标网络模型中包括第一级联下采样网络、第二级联下采样网络、第三级联下采样网络、第四级联下采样网络及第五级联下采样网络,且所述第一预设处理为卷积池化处理时,则通过如下步骤对所述第一单目视图进行编码处理:
将所述第一单目视图输入所述第一级联下采样网络,通过所述第一级联下采样网络对所述第一单目视图进行下采样及卷积池化处理,得到第一下采样图像;
通过所述第二级联下采样网络对所述第一下采样图像进行下采样及卷积池化处理,得到第二下采样图像;
通过所述第三级联下采样网络对所述第二下采样图像进行下采样及卷积池化处理,得到第三下采样图像;
通过所述第四级联下采样网络对所述第三下采样图像进行下采样及卷积池化处理,得到第四下采样图像;
通过所述第五级联下采样网络对所述第四下采样图像进行下采样及卷积池化处理,得到第五下采样图像。
3.根据权利要求1所述的方法,其特征在于,预先构建并训练所述目标网络模型的过程,包括:
获取预设数量不同类型的3D片源作为训练样本;其中,每个训练样本包含第一单目视图及与所述第一单目视图对应的第二单目视图;
分别标定各第一单目视图对应的第二单目视图,得到所述训练样本中的各视图对;
分别将所述训练样本中的各所述视图对输入到预设网络模型中进行训练,得到所述目标网络模型。
4.根据权利要求3所述的方法,其特征在于,所述分别将各所述视图对输入到预设网络模型中进行训练,得到所述目标网络模型,包括:
步骤A,在各所述视图对中选取一个视图对,将该视图对的第一单目视图输入到预设网络模型中,得到预测的左视差图和右视差图;
步骤B,根据已选取的视图对的第一单目视图、左视差图、第二单目视图及右视差图,计算预设损失函数的当前数值;
步骤C,按照所述预设损失函数的当前数值,调整所述预设网络模型中用于预测所述左视差图和右视差图的各参数值;
步骤D,重复执行步骤A到步骤C,直至所述预设损失函数满足预设输出条件时得到所述目标网络模型。
5.根据权利要求1所述的方法,其特征在于,所述目标网络模型中还包括激活函数;所述方法还包括:获取拍摄所述3D片源的相机设备参数;根据所述相机设备参数,按照预设函数取值规则,确定所述激活函数的取值;
所述通过所述目标网络模型进行处理,得到所述第一单目视图对应的视差图,包括:
利用所述激活函数通过所述目标网络模型进行处理,得到所述第一单目视图对应的视差图;
其中,所述激活函数为双曲正切函数tanh,所述激活函数tanh的取值范围为[-1,1]。
6.一种2D视频转3D视频的装置,其特征在于,所述装置包括:
第一单目视图获取模块,用于获取待转换2D视频数据的视频图像,将所述视频图像作为用于转换为3D视频的第一单目视图;其中,所述第一单目视图为左目视图或右目视图;
视差图确定模块,用于将所述第一单目视图输入到预先构建的目标网络模型中,通过所述目标网络模型进行处理,得到所述第一单目视图对应的视差图;
第二单目视图确定模块,用于根据所述第一单目视图及所述视差图得到所述待转换2D视频数据的第二单目视图;其中,所述第二单目视图为与所述第一单目视图对应的右目视图或左目视图;
3D视频确定模块,用于通过预设图像处理方式对所述第一单目视图及所述第二单目视图进行处理,得到所述待转换2D视频数据对应的3D视频;
所述通过所述目标网络模型进行处理包括编码处理和解码处理;所述视差图确定模块包括:
编码处理子模块,用于将所述第一单目视图输入到预先构建的目标网络模型中,通过所述目标网络模型对所述第一单目视图进行多次下采样处理,并对每次下采样处理后的视图进行第一预设处理,依次得到尺寸由大到小的多个下采样图像;
解码处理子模块,用于对于所述多个下采样图像,按照尺寸由小到大的顺序进行排列;通过所述目标网络模型依次对排列后的各所述下采样图像进行上采样处理,并对每次上采样处理后的图像进行第二预设处理,得到所述第一单目视图对应的视差图;其中,所述视差图的尺寸与所述第一单目视图的尺寸相同;
所述目标网络模型中包括第一级联上采样网络、第二级联上采样网络、第三级联上采样网络、第四级联上采样网络及第五级联上采样网络,所述视差图为目标右视差图;所述第二预设处理为预设处理;所述第二预设处理为反卷积处理或双线性插值处理时,所述解码处理子模块,包括:
第一上采样图像确定单元,用于通过所述第一级联上采样网络对第五下采样图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第一上采样图像;其中,所述第一上采样图像的尺寸与第四下采样图像的尺寸相同;
第一右视差图确定单元,用于对所述第一上采样图像进行卷积处理,得到第一右视差图;
第一目标图像确定单元,用于将所述第一上采样图像、所述第一右视差图及所述第四下采样图像合并,得到第一目标图像;其中,所述第一目标图像的尺寸与所述第四下采样图像的尺寸相同;
第二上采样图像确定单元,用于通过所述第二级联上采样网络对所述第一目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第二上采样图像;其中,所述第二上采样图像的尺寸与第三下采样图像的尺寸相同;
第二右视差图确定单元,用于对所述第二上采样图像进行卷积处理,得到第二右视差图;
第二目标图像确定单元,用于将所述第二上采样图像、所述第二右视差图及所述第三下采样图像合并,得到第二目标图像;其中,所述第二目标图像的尺寸与所述第三下采样图像的尺寸相同;
第三上采样图像确定单元,用于通过所述第三级联上采样网络对所述第二目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第三上采样图像;其中,所述第三上采样图像的尺寸与第二下采样图像的尺寸相同;
第三右视差图确定单元,用于对所述第三上采样图像进行卷积处理,得到第三右视差图;
第三目标图像确定单元,用于将所述第三上采样图像、所述第三右视差图及所述第二下采样图像合并,得到第三目标图像;其中,所述第三目标图像的尺寸与所述第二下采样图像的尺寸相同;
第四上采样图像确定单元,用于通过所述第四级联上采样网络对所述第三目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第四上采样图像;其中,所述第四上采样图像的尺寸与第一下采样图像的尺寸相同;
第四右视差图确定单元,用于对所述第四上采样图像进行卷积处理,得到第四右视差图;
第四目标图像确定单元,用于将所述第四上采样图像、所述第四右视差图及所述第一下采样图像合并,得到第四目标图像;其中,所述第四目标图像的尺寸与所述第一下采样图像的尺寸相同;
第五上采样图像确定单元,用于通过所述第五级联上采样网络对所述第四目标图像进行上采样处理,并对本次上采样处理后的图像进行反卷积处理或双线性插值处理,得到第五上采样图像;其中,所述第五上采样图像的尺寸与所述第一单目视图的尺寸相同;
目标右视差图确定单元,用于对所述第五上采样图像进行卷积处理,得到所述第一单目视图对应的目标右视差图。
7.根据权利要求6所述的装置,其特征在于,所述目标网络模型中包括第一级联下采样网络、第二级联下采样网络、第三级联下采样网络、第四级联下采样网络及第五级联下采样网络;且所述第一预设处理为卷积池化处理时,所述编码处理子模块,包括:
第一下采样图像确定单元,用于将所述第一单目视图输入所述第一级联下采样网络,通过所述第一级联下采样网络对所述第一单目视图进行下采样及卷积池化处理,得到第一下采样图像;
第二下采样图像确定单元,用于通过所述第二级联下采样网络对所述第一下采样图像进行下采样及卷积池化处理,得到第二下采样图像;
第三下采样图像确定单元,用于通过所述第三级联下采样网络对所述第二下采样图像进行下采样及卷积池化处理,得到第三下采样图像;
第四下采样图像确定单元,用于通过所述第四级联下采样网络对所述第三下采样图像进行下采样及卷积池化处理,得到第四下采样图像;
第五下采样图像确定单元,用于通过所述第五级联下采样网络对所述第四下采样图像进行下采样及卷积池化处理,得到第五下采样图像。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
训练样本获取模块,用于获取预设数量不同类型的3D片源作为训练样本;其中,每个训练样本包含第一单目视图及与所述第一单目视图对应的第二单目视图;
视图对标定模块,用于分别标定各第一单目视图对应的第二单目视图,得到各视图对;
目标网络模型确定模块,用于分别将各所述视图对输入到预设网络模型中进行训练,得到所述目标网络模型。
9.根据权利要求8所述的装置,其特征在于,所述目标网络模型确定模块,包括:
视差图确定单元,用于在各所述视图对中选取一个视图对,将该视图对的第一单目视图输入到预设网络模型中,得到预测的左视差图和右视差图;
损失函数值确定单元,用于根据已选取的视图对的第一单目视图、左视差图、第二单目视图及右视差图,计算预设损失函数的当前数值;
参数值调整单元,用于按照所述预设损失函数的当前数值,调整所述预设网络模型中用于预测所述左视差图和右视差图的各参数值;
目标网络模型确定单元,用于返回所述视差图确定子模块继续执行,直至所述预设损失函数满足预设输出条件时得到所述目标网络模型。
10.根据权利要求6所述的装置,其特征在于,所述目标网络模型还包括激活函数,所述装置还包括:激活函数确定模块,用于获取拍摄所述3D片源的相机设备参数;根据所述相机设备参数,按照预设函数取值规则,确定所述激活函数的取值;
所述视差图确定模块,具体用于利用所述激活函数通过所述目标网络模型进行处理,得到所述第一单目视图对应的视差图;
其中,所述激活函数为双曲正切函数tanh,所述激活函数tanh的取值范围为[-1,1]。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910381407.6A CN109996056B (zh) | 2019-05-08 | 2019-05-08 | 一种2d视频转3d视频的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910381407.6A CN109996056B (zh) | 2019-05-08 | 2019-05-08 | 一种2d视频转3d视频的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109996056A CN109996056A (zh) | 2019-07-09 |
CN109996056B true CN109996056B (zh) | 2021-03-26 |
Family
ID=67136294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910381407.6A Active CN109996056B (zh) | 2019-05-08 | 2019-05-08 | 一种2d视频转3d视频的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109996056B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114119510A (zh) * | 2021-11-11 | 2022-03-01 | 北京奇艺世纪科技有限公司 | 一种2d视频帧的视差图像生成方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105979244A (zh) * | 2016-05-31 | 2016-09-28 | 十二维度(北京)科技有限公司 | 一种基于深度学习的2d图像转3d图像的方法及系统 |
CN107067452A (zh) * | 2017-02-20 | 2017-08-18 | 同济大学 | 一种基于全卷积神经网络的电影2d转3d方法 |
WO2018046964A1 (en) * | 2016-09-12 | 2018-03-15 | Ucl Business Plc | Predicting depth from image data using a statistical model |
CN108921942A (zh) * | 2018-07-11 | 2018-11-30 | 北京聚力维度科技有限公司 | 对图像进行2d转制3d的方法及装置 |
CN109191369A (zh) * | 2018-08-06 | 2019-01-11 | 三星电子(中国)研发中心 | 2d图片集转3d模型的方法、存储介质和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9990728B2 (en) * | 2016-09-09 | 2018-06-05 | Adobe Systems Incorporated | Planar region guided 3D geometry estimation from a single image |
-
2019
- 2019-05-08 CN CN201910381407.6A patent/CN109996056B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105979244A (zh) * | 2016-05-31 | 2016-09-28 | 十二维度(北京)科技有限公司 | 一种基于深度学习的2d图像转3d图像的方法及系统 |
WO2018046964A1 (en) * | 2016-09-12 | 2018-03-15 | Ucl Business Plc | Predicting depth from image data using a statistical model |
CN107067452A (zh) * | 2017-02-20 | 2017-08-18 | 同济大学 | 一种基于全卷积神经网络的电影2d转3d方法 |
CN108921942A (zh) * | 2018-07-11 | 2018-11-30 | 北京聚力维度科技有限公司 | 对图像进行2d转制3d的方法及装置 |
CN109191369A (zh) * | 2018-08-06 | 2019-01-11 | 三星电子(中国)研发中心 | 2d图片集转3d模型的方法、存储介质和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109996056A (zh) | 2019-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110324664B (zh) | 一种基于神经网络的视频补帧方法及其模型的训练方法 | |
CN111311629B (zh) | 图像处理方法、图像处理装置及设备 | |
CN110222758B (zh) | 一种图像处理方法、装置、设备及存储介质 | |
WO2020215644A1 (zh) | 视频图像处理方法及装置 | |
CN110111244B (zh) | 图像转换、深度图预测和模型训练方法、装置及电子设备 | |
CN108665415B (zh) | 基于深度学习的图像质量提升方法及其装置 | |
CN110751649A (zh) | 视频质量评估方法、装置、电子设备及存储介质 | |
CN110782412B (zh) | 图像处理方法及装置、处理器、电子设备及存储介质 | |
CN111402139A (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN110084742B (zh) | 一种视差图预测方法、装置及电子设备 | |
JP2022515517A (ja) | 画像深度推定方法および装置、電子機器、ならびに記憶媒体 | |
CN109934307B (zh) | 视差图预测模型训练方法、预测方法、装置及电子设备 | |
CN111932594A (zh) | 一种基于光流的十亿像素视频对齐方法及装置、介质 | |
CN109996056B (zh) | 一种2d视频转3d视频的方法、装置及电子设备 | |
CN110335228B (zh) | 一种图像视差的确定方法、装置及系统 | |
CN110113595B (zh) | 一种2d视频转3d视频的方法、装置及电子设备 | |
CN111754561B (zh) | 基于自监督深度学习的光场图像深度恢复方法及系统 | |
CN114782256B (zh) | 图像重建方法、装置、计算机设备和存储介质 | |
CN116486009A (zh) | 单目三维人体重建方法、装置以及电子设备 | |
CN116912148A (zh) | 图像增强方法、装置、计算机设备及计算机可读存储介质 | |
CN112203023B (zh) | 一种十亿像素视频生成方法及装置、设备、介质 | |
CN115375780A (zh) | 色差计算方法、装置、电子设备和存储介质、产品 | |
CN115170581A (zh) | 人像分割模型的生成方法、人像分割模型及人像分割方法 | |
CN114596349A (zh) | 深度估计方法、装置、电子设备及计算机可读存储介质 | |
CN118229674B (zh) | 视频质量评估方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |