CN115118977B - 针对360度视频的帧内预测编码方法、系统及介质 - Google Patents
针对360度视频的帧内预测编码方法、系统及介质 Download PDFInfo
- Publication number
- CN115118977B CN115118977B CN202211039982.6A CN202211039982A CN115118977B CN 115118977 B CN115118977 B CN 115118977B CN 202211039982 A CN202211039982 A CN 202211039982A CN 115118977 B CN115118977 B CN 115118977B
- Authority
- CN
- China
- Prior art keywords
- block
- intra
- mode
- division
- texture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000000638 solvent extraction Methods 0.000 claims description 19
- 238000005192 partition Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 11
- 238000013139 quantization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 23
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/149—Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/11—Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/119—Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/1883—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit relating to sub-band structure, e.g. hierarchical level, directional tree, e.g. low-high [LH], high-low [HL], high-high [HH]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/96—Tree coding, e.g. quad-tree coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种针对360度视频的帧内预测编码方法、系统及介质,属于视频编码领域,方法包括:对当前CU块进行帧内块划分时,将待划分CU块的特征输入各划分方式对应的神经网络中,并跳过神经网络输出小于相应输出阈值的划分方式,得到多种帧内块划分方案,待划分CU块为当前CU块或每次帧内块划分后得到的子CU块;帧内角度模式选择时,根据子CU块的编码单元特征和纹理特征确定其RMD候选列表的长度n来进行帧内角度模式选择,以对各帧内块划分方案进行像素填充;计算像素填充后各帧内块划分方案与当前CU块之间的RDO损失,并基于最小RDO损失对应的方案对当前CU块进行帧内预测编码。减少传统编码方法中不必要的过程,降低编码时间。
Description
技术领域
本发明属于视频编码领域,更具体地,涉及一种针对360度视频的帧内预测编码方法、系统及介质。
背景技术
随着多媒体技术的发展,人们对虚拟现实(Virtual Reality,VR)的需求日益提高,VR视频往往以超高清360度视频的格式存储,相比于传统二维视频,在超高的分辨率和投影导致的图像形变上有着较大差异。广泛使用的主流编码平台如H.264/H.265,以及AVS2逐渐难以满足人们不断增长的需求,因此多功能视频编码(Versatile Video Coding,VVC)被提出。VVC在各个模块均引入了很多压缩性能优异的新技术,这些新技术的引入提高了视频编码性能,但同时也使得其编码复杂度急剧升高。
在这些新技术中,嵌套多类型树的四叉树块划分(Quadtree with Nested Multi-type Tree,QTMTT)结构被引入用于帧内块划分,该技术使得VVC的编码单元具有更灵活的形状和更多样的尺寸,以便更好地贴合不同大小形状的图像。此外,在VVC中,帧内预测的角度模式的数量从HEVC中的33种增加到65种,DC和Planar模式保持不变,更多的角度模式使得像素的映射方式更加精细。然而,这些改进在提高VVC压缩性能的同时,极大地增加了编码的复杂度,导致编码时间过长。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种针对360度视频的帧内预测编码方法、系统及介质,其目的在于减少传统编码方法中不必要的过程,从而降低编码时间。
为实现上述目的,按照本发明的一个方面,提供了一种针对360度视频的帧内预测编码方法,包括:S1,对当前CU块进行帧内块划分时,将待划分CU块的编码单元特征、纹理特征和360度视频特征输入各划分方式对应的神经网络中,并跳过神经网络输出小于相应输出阈值的划分方式,根据未跳过的划分方式对待划分CU块进行帧内块划分,得到当前CU块的多种帧内块划分方案,帧内块划分方式包括QT、BTH、BTV、TTH和TTV,待划分CU块为当前CU块或每次帧内块划分后得到的子CU块;S2,为每一帧内块划分方案中的每一子CU块选择帧内角度模式时,根据子CU块的编码单元特征和纹理特征确定其RMD候选列表的长度n,并基于长度n的RMD候选列表进行帧内角度模式选择,得到其帧内角度模式,以对各帧内块划分方案进行像素填充;S3,分别计算像素填充后各帧内块划分方案与当前CU块之间的RDO损失,并基于最小RDO损失对应的帧内块划分方案对当前CU块进行帧内预测编码;S4,重复执行所述S1-S3,直至对360度视频帧的所有CU块进行帧内预测编码。
更进一步地,编码单元特征包括:CU块的宽度、高度、深度、四叉树深度、多叉树深度、块形状比例、量化参数、水平角度模式种类和竖直角度模式种类中的多种;纹理特征包括:CU块像素值的方差、归一化均方误差、横向纹理因子、纵向纹理因子、横纵纹理之间的权重和方向复杂度中的多种;360度视频特征包括:CU块的纬度以及各纬度下的采样因子。
更进一步地,所述横向纹理因子、纵向纹理因子、横纵纹理之间的权重和方向复杂度分别为:
其中,为横向纹理因子,为纵向纹理因子,为横纵纹理
之间的权重,为方向复杂度,、分别为CU块的宽度、高度,为横向Sobel
算子,为纵向Sobel算子,表示以坐标的像素为中心的3×3矩阵,为卷
积运算。
更进一步地,各纬度下的采样因子为:
更进一步地,当、、、且时,长度n为1;当
时,长度n为2;否则,长度n为3;其中,、分别为CU块的宽度、高度,、分别为CU
块像素值的方差、归一化均方误差,为方向复杂度,为横纵纹理之间的权重,、、、、分别为、、、、对应的阈值,为水平
角度模式阈值,为竖直角度模式阈值。
更进一步地,所述基于长度n的RMD候选列表进行帧内角度模式选择包括:基于长度n建立第一轮RMD候选列表,并对所述第一轮RMD候选列表中的模式值进行统一加1或统一减1操作,更新得到第二轮RMD候选列表;根据子CU块左侧CU的模式以及上侧CU的模式,计算得到MPM列表,将所述MPM列表并入所述第二轮RMD候选列表,得到RDO列表;对所述RDO列表中的模式进行RDO计算,以选择最优模式作为子CU块的帧内角度模式。
更进一步地,所述S1中根据未跳过的划分方式对待划分CU块进行帧内块划分,以及不对待划分CU块进行划分,来生成当前CU块的多种帧内块划分方案。
按照本发明的另一个方面,提供了一种针对360度视频的帧内预测编码系统,包括:快速划分模块,用于对当前CU块进行帧内块划分时,将待划分CU块的编码单元特征、纹理特征和360度视频特征输入各划分方式对应的神经网络中,并跳过神经网络输出小于相应输出阈值的划分方式,根据未跳过的划分方式对待划分CU块进行帧内块划分,得到当前CU块的多种帧内块划分方案,帧内块划分方式包括QT、BTH、BTV、TTH和TTV,待划分CU块为当前CU块或每次帧内块划分后得到的子CU块;模式选择模块,用于为每一帧内块划分方案中的每一子CU块选择帧内角度模式时,根据当前CU块的编码单元特征和纹理特征确定其RMD候选列表的长度n,并基于长度n的RMD候选列表进行帧内角度模式选择,得到其帧内角度模式,以对各帧内块划分方案进行像素填充;编码模块,用于分别计算像素填充后各帧内块划分方案与当前CU块之间的RDO损失,并基于最小RDO损失对应的帧内块划分方案对当前CU块进行帧内预测编码;并重复执行所述快速划分模块、模式选择模块和编码模块,直至对360度视频帧的所有CU块进行帧内预测编码。
按照本发明的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的针对360度视频的帧内预测编码方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)基于360度视频的特性,从编码单元特征、纹理特征和360度视频特征三个角度定义多个特征,这些特征是通过皮尔逊相关系数验证的有效特征,能够保证神经网络输出结果的高度可靠性,从而提高后续划分方式跳过判定的可靠性和准确度,缩短编码时间的同时保证编码可靠性;在保留关键特性的同时,减少了冗余特征的影响,在后续神经网络模型训练的过程中避免过拟合,提高模型的泛化性能;
(2)提出一种新的快速帧内角度模式选择算法,利用CU块的大小、纹理等特征对CU块进行分类,对于不同类型CU块的RMD候选列表进行不同程度的缩减,从而在保证编码可靠性的前提下进一步减少编码时间;
(3)训练的分类模型采用轻量级的神经网络(Lightweight Neural Network,LNN),利用神经网络强大的拟合能力来处理分类问题,相比于现有方法采用的例如决策树、随机森林等传统的机器学习模型,神经网络在模型搭建、训练、准确率上都有着明显的优势;此外,LNN以及预训练的模型可以被嵌入到VVC参考编码软件VTM中,无需额外的深度学习库函数。
附图说明
图1为本发明实施例提供的针对360度视频的帧内预测编码方法的流程图。
图2A、图2B、图2C、图2D、图2E分别为VVC中的QT、BTH、BTV、TTH、TTV帧内块划分方式的示意图。
图3为本发明实施例提供的神经网络示意图。
图4为本发明实施例提供的帧内角度模式选择的过程图。
图5为本发明实施例提供的针对360度视频的帧内预测编码系统的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
图1为本发明实施例提供的针对360度视频的帧内预测编码方法的流程图。参阅图1,结合图2A-图4,对本实施例中针对360度视频的帧内预测编码方法进行详细说明,方法包括操作S1-操作S4。
操作S1,对当前CU块进行帧内块划分时,将待划分CU块的编码单元特征、纹理特征和360度视频特征输入各划分方式对应的神经网络中,并跳过神经网络输出小于相应输出阈值的划分方式,根据未跳过的划分方式对待划分CU块进行帧内块划分,得到当前CU块的多种帧内块划分方案,帧内块划分方式包括QT、BTH、BTV、TTH和TTV,待划分CU块为当前CU块或每次帧内块划分后得到的子CU块。
本实施例中,考虑到360度视频与传统二维平面视频之间的差异和共性,预先定义编码单元特征、纹理特征和360度视频特征这三类特征。
本实施例中,基于预定义的特征制作数据集。由于VVC中有QT、BTH、BTV、TTH和TTV这5种帧内块划分方式,分别如图2A、图2B、图2C、图2D和图2E所示,为此对每一种划分方式构建单独的数据集和网络进行训练。通过对不同视频序列在不同量化参数下采用全帧内(All-Intra,AI)配置的VVC传统方法编码的过程中进行记录、处理、存储,最后得到数据集的数据。一条数据的存储形式应包含一个或多个特征以及标签,其中特征为预定义特征,标签为0或1,代表当前CU是否进行某一种划分。
为了评估特征的有效性,本实施例中,通过皮尔逊相关系数来计算特征与标签之间的相关性以及特征之间的相关性,选择的标准是特征与标签之间的相关性尽可能高,特征之间的相关性尽可能低,基于此为上述三类特征选取具体的合适的特征,实现数据降维,减小算法复杂度。
在视频编码中,一帧图像会被分为若干个矩形块,这些单元能被递归地调用,用以进行更加细致的划分,这些块的大小、形状等信息往往能作为重要的特征,该类特征形成为编码单元(Coding Unit,CU)特征。
根据本发明的实施例,编码单元特征包括:CU块的宽度、高度、深度、四叉树深度、多叉树深度、块形状比例、量化参数、水平角度模式种类和竖直角度模式种类中的多种。需要说明的是,帧内块划分过程中,此处的CU块为待划分CU块。本实施例中,引入量化参数(Quantization Parameter,QP)作为特征,通常情况下,QP较小时,编码器倾向于将CU继续划分为更小的子CU。
CU块的宽高比反映了CU块在进行划分时对不同划分的倾向程度,基于此,本实施
例中引入了自定义的块形状比例(Block Shape Ration,BSR)用来衡量CU块的形状,BTH和
TTH划分方式下,块形状比例BSR为;BTV和TTV划分方式下,块形状比例BSR为;QT划分方式下,块形状比例BSR为0.5;其中,、分别为CU块的宽度、高度。
考虑到在VVC中有67种帧内模式,包含DC模式、Planar 模式以及65种角度模式。65种角度模式对应了65种方向,这些角度模式在一定程度上能反映CU块的纹理方向。并且考虑到BT划分和TT划分具有横向纵向两个方向,将65种角度模式分为水平模式和竖直模式,通常情况下,将[2,34]定义为水平模式,将[35,66]定义为竖直模式。基于此,本实施例中,定义水平角度模式种类isHorMode来判断当前角度模式是否为水平模式,若是水平模式则为1,否则为0;以及定义竖直角度模式种类isVerMode来判断当前角度模式是否为竖直模式,若是竖直模式则为1,否则为0。
VVC中引入的帧内广角预测技术根据CU块的宽高比,自适应地将部分传统角度模
式替换成帧内广角预测模式,但是仍然使用原来的角度模式索引。也就是说,对于不同形状
的CU块,相同数值的角度模式不再对应相同的角度,进而可能导致在水平角度和竖直角度
分类上的不同。因此,本实施例中,根据CU块的形状对上述判断当前角度模式是否为水平模
式的方式进行修正,修正规则为:当CU块的宽度小于其高度时,将[2,34]以及
定义为水平模式,将定义为竖直模式;当CU块的宽度等于其高度时,将[2,34]定义
为水平模式,将[35,66]定义为竖直模式;当CU块的宽度大于其高度时,将[,34]定义为
水平模式,将[2,-1]以及[35,66]定义为竖直模式;其中,为水平角度模式阈值,
为竖直角度模式阈值,可以根据实际需要进行设定。本实施例中,既可以简单地根据CU长宽
的大小设定角度模式,也可以根据宽高比为2、4、8…分别进行更加精细化的设定。
CU块被划分为不同的大小和形状,是为了更加贴合视频图像中实际内容的纹理,通过对像素进行计算得到的纹理特征具有较好的性能。根据本发明的实施例,纹理特征包括:CU块像素值的方差、归一化均方误差、横向纹理因子、纵向纹理因子、横纵纹理之间的权重和方向复杂度中的多种。
CU块像素值的方差用来衡量CU块的全局复杂度,CU块像素值的归一化均方误差用来衡量CU块的局部复杂度。考虑到块划分的方向性,还引入了Sobel算子,Sobel算子与CU块像素值的卷积能衡量像素在水平方向和竖直方向上的分布,计算得到横向纹理因子和纵向纹理因子:
其中,为横向纹理因子,为纵向纹理因子,、分别为CU块的
宽度、高度,为横向Sobel算子,为纵向Sobel算子,表示以坐标
的像素为中心的3×3矩阵,为卷积运算。并且为了避免Sobel算子超出块的边界,算子仅在的块上移动,而不是。
为了在横向纹理跟纵向纹理均较高或者较低情况下,衡量整体的纹理更倾向于哪
个方向,提出了横纵纹理之间的权重,来衡量横向纹理跟纵向纹理之间的权重关
系。考虑到在VVC中的二叉树划分和三叉树划分只有横向和纵向两个方向,而CU块像素值的
方差、归一化均方误差用于衡量全局复杂度和局部复杂度,包含各个方向的纹理,或许在一
定程度上不能较好凸显纹理在特定方向上的复杂度,因此,本实施例中引入方向复杂度来衡量CU块的复杂度,横纵纹理之间的权重和方向复杂度
分别为:
360度视频往往以等角投影(Equi-Rectangular Projection,ERP)的形式存储,这
种投影方式简单直观,线性变换计算使其更易于操作,并且不会有面不连续的缺点,得到了
广泛应用。ERP格式视频的特点是在两极区域会有较为明显的拉伸形变,经过统计分析,两
极区域的CU块会更大、更平坦,并具有横向的纹理,这一特点有助于跳过一些不太可能的划
分模式。基于此,本实施例中,引入CU块中心点在整个画面中的纬度Latitude来衡量CU块的
位置。此外,考虑到画面水平拉伸导致的不同纬度的区域采样点不同的情况,还引入了采样
因子来对这一情况进行模拟。根据本发明的实施例,360度视频特征包括CU块的纬
度以及各纬度下的采样因子:
本实施例中,基于神经网络构建分类器模型,将提取的编码单元特征、纹理特征和360度视频特征输入各划分方式对应的分类器模型中,获得用于判断是否跳过相应划分方式的输出。本实施例中,引入多层感知器来构建轻量级的神经网络(Lightweight NeuralNetwork,LNN),在处理分类问题上实现高准确性的同时保证了模型的轻量化,其示意图如图3所示。参阅图3,该神经网络有三层,最左侧的节点代表输入,每一个节点对应一个预定义特征;最右侧的节点代表输出,根据输出用来判断是否跳过相应的划分方式;中间层的节点数不固定,可以根据网络的复杂度与准确率进行权衡选择。
神经网络的输出为0到1之间的浮点数,若要实现是否划分的二分类任务,需要设定输出阈值将(0,1)区间一分为二,输出阈值例如设置为0.5,也可根据实验效果进行微调,目的是能够较好地将神经网络的输出正确地分为两类。
对于CU划分来说,除了VVC中的QTMT五种划分外,不进行划分也是一种需要进行遍历的模式,并且不划分的尝试在QTMT之前进行。因此,在进行QTMT之前,能通过CU不划分的尝试提取CU编码过程中的信息并作为特征用于后续的QTMT划分跳过判断。根据本发明的实施例,S1中根据未跳过的划分方式对待划分CU块进行帧内块划分,以及不对待划分CU块进行划分,来生成当前CU块的多种帧内块划分方案。
360度视频包括多个CU块,对于任一CU块而言,对该CU块进行帧内块划分的过程中,基于编码单元特征、纹理特征和360度视频特征对应输出与输出阈值之间的大小关系判断是否跳过QT、BTH、BTV、TTH和TTV中的部分划分方式,基于未跳过的划分方式进行划分,对划分得到的子CU块再次进行上述方式的划分,直至最后得到的子CU块的最优划分方式均为不划分,从而为该CU块生成大量的帧内块划分方案。
操作S2,为每一帧内块划分方案中的每一子CU块选择帧内角度模式时,根据子CU块的编码单元特征和纹理特征确定其RMD候选列表的长度n,并基于长度n的RMD候选列表进行帧内角度模式选择,得到其帧内角度模式,以对各帧内块划分方案进行像素填充。
基于长度n的RMD候选列表进行帧内角度模式选择包括:第一轮粗略模式选择(Rough Mode Decision,RMD)过程、第二轮RMD过程、最可能模式(Most Probable Mode,MPM)过程和率失真优化(Rate Distortion Optimization,RDO)过程,如图4所示。具体地,第一轮RMD过程中,基于长度n建立第一轮RMD候选列表;第二轮RMD过程中,对第一轮RMD候选列表中的模式值进行统一加1或统一减1操作,更新得到第二轮RMD候选列表;MPM过程中,根据子CU块左侧CU的模式以及上侧CU的模式,计算得到MPM列表;RDO过程中,将MPM列表并入第二轮RMD候选列表,得到RDO列表;对RDO列表中的模式进行RDO计算,以选择最优模式作为子CU块的帧内角度模式。
根据相关实验的结果,在帧内角度模式选择过程中,RDO过程占据了绝大多数时间,大约90%,而MPM列表构建的时间几乎忽略不计,而两次RDM列表的构建时间也很低。因此,本实施例中,通过减少RDO列表长度来缩短角度模式选择时间,从而减少耗时的RDO过程,而MPM列表在实际编码中往往只有1~2个模式加入RMD列表,因此,一个可行的方法是减少RMD列表长度n。
对于纹理简单并且较大的CU块,模式比较单一,并且其与周围块的空间相关度较
高,在RMD列表较短的情况下仍能够从MPM列表中获取较优的模式。在这种情况下,将n设置
为1并不会造成较大的失真。这类CU块满足以下条件:、、、且,此时长度n为1。
而对于尺寸较小或者纹理方向不够明显的CU块,为了保证模式选择的准确性,n不进行缩小,仍然取3。即,对于不满足上述两类条件的CU块,长度n为3。
其中,、分别为CU块的宽度、高度,、分别为CU块像素值的方差、归一
化均方误差,为方向复杂度,为横纵纹理之间的权重,、、、、分别为、、、、对应的阈值,为水平角度模式阈
值,为竖直角度模式阈值。需要说明的是,帧内角度模式选择过程中,CU块为各待填充像
素的子CU块。以上的快速帧内模式选择算法能够通过修改不同CU块的RMD模式n的值,从而
减少RMD列表长度,进而减少耗时的RDO操作。
操作S3,分别计算像素填充后各帧内块划分方案与当前CU块之间的RDO损失,并基于最小RDO损失对应的帧内块划分方案对当前CU块进行帧内预测编码。
操作S4,重复执行操作S1-操作S3,直至对360度视频帧的所有CU块进行帧内预测编码。
本实施例中提供一种针对360度视频的帧内预测编码方法,基于360度视频的特点及其纹理分布提出了预定义的特征,并通过皮尔逊相关系数验证了这些特征的有效性;利用神经网络强大的拟合能力来处理帧内块划分问题,并结合具体使用场景对网络进行修改,在保证精度的情况下尽可能使网络轻量化,通过跳过不必要的划分方式来精简耗时的RDO过程;提出的快速帧内模式选择算法对于不同的CU设置不同的RDM列表构建参数,通过减少候选模式列表实现耗时的RDO过程的缩减。基于此,本实施例中提出的方法能够大幅节省编码时间。
图5为本发明实施例提供的针对360度视频的帧内预测编码系统的框图。参阅图5,该针对360度视频的帧内预测编码系统500包括快速划分模块510、模式选择模块520以及编码模块530。
快速划分模块510例如执行操作S1,用于对当前CU块进行帧内块划分时,将待划分CU块的编码单元特征、纹理特征和360度视频特征输入各划分方式对应的神经网络中,并跳过神经网络输出小于相应输出阈值的划分方式,根据未跳过的划分方式对待划分CU块进行帧内块划分,得到当前CU块的多种帧内块划分方案,帧内块划分方式包括QT、BTH、BTV、TTH和TTV,待划分CU块为当前CU块或每次帧内块划分后得到的子CU块。
模式选择模块520例如执行操作S2,用于为每一帧内块划分方案中的每一子CU块选择帧内角度模式时,根据子CU块的编码单元特征和纹理特征确定其RMD候选列表的长度n,并基于长度n的RMD候选列表进行帧内角度模式选择,得到其帧内角度模式,以对各帧内块划分方案进行像素填充。
编码模块530例如执行操作S3和操作S4,用于分别计算像素填充后各帧内块划分方案与当前CU块之间的RDO损失,并基于最小RDO损失对应的帧内块划分方案对当前CU块进行帧内预测编码;并重复执行快速划分模块510、模式选择模块520和编码模块530,直至对360度视频帧的所有CU块进行帧内预测编码。
针对360度视频的帧内预测编码系统500用于执行上述图1-图4所示实施例中的针对360度视频的帧内预测编码方法。本实施例未尽之细节,请参阅前述图1-图4所示实施例中的针对360度视频的帧内预测编码方法,此处不再赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述图1-图4所示实施例中的针对360度视频的帧内预测编码方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种针对360度视频的帧内预测编码方法,其特征在于,包括:
S1,对当前CU块进行帧内块划分时,将待划分CU块的编码单元特征、纹理特征和360度视频特征输入各划分方式对应的神经网络中,并跳过神经网络输出小于相应输出阈值的划分方式,根据未跳过的划分方式对待划分CU块进行帧内块划分,得到当前CU块的多种帧内块划分方案,帧内块划分方式包括QT、BTH、BTV、TTH和TTV,待划分CU块为当前CU块或每次帧内块划分后得到的子CU块;
编码单元特征包括:CU块的宽度、高度、深度、四叉树深度、多叉树深度、块形状比例、量化参数、水平角度模式种类和竖直角度模式种类中的多种;纹理特征包括:CU块像素值的方差、归一化均方误差、横向纹理因子、纵向纹理因子、横纵纹理之间的权重和方向复杂度中的多种;360度视频特征包括:CU块的纬度以及各纬度下的采样因子;
S2,为每一帧内块划分方案中的每一子CU块选择帧内角度模式时,根据子CU块的编码单元特征和纹理特征确定其RMD候选列表的长度n,并基于长度n的RMD候选列表进行帧内角度模式选择,得到其帧内角度模式,以对各帧内块划分方案进行像素填充;
S3,分别计算像素填充后各帧内块划分方案与当前CU块之间的RDO损失,并基于最小RDO损失对应的帧内块划分方案对当前CU块进行帧内预测编码;
S4,重复执行所述S1-S3,直至对360度视频帧的所有CU块进行帧内预测编码。
5.如权利要求1-4任一项所述的针对360度视频的帧内预测编码方法,其特征在于,所述基于长度n的RMD候选列表进行帧内角度模式选择包括:
基于长度n建立第一轮RMD候选列表,并对所述第一轮RMD候选列表中的模式值进行统一加1或统一减1操作,更新得到第二轮RMD候选列表;
根据子CU块左侧CU的模式以及上侧CU的模式,计算得到MPM列表,将所述MPM列表并入所述第二轮RMD候选列表,得到RDO列表;
对所述RDO列表中的模式进行RDO计算,以选择最优模式作为子CU块的帧内角度模式。
6.如权利要求1所述的针对360度视频的帧内预测编码方法,其特征在于,所述S1中根据未跳过的划分方式对待划分CU块进行帧内块划分,以及不对待划分CU块进行划分,来生成当前CU块的多种帧内块划分方案。
7.一种针对360度视频的帧内预测编码系统,其特征在于,包括:
快速划分模块,用于对当前CU块进行帧内块划分时,将待划分CU块的编码单元特征、纹理特征和360度视频特征输入各划分方式对应的神经网络中,并跳过神经网络输出小于相应输出阈值的划分方式,根据未跳过的划分方式对待划分CU块进行帧内块划分,得到当前CU块的多种帧内块划分方案,帧内块划分方式包括QT、BTH、BTV、TTH和TTV,待划分CU块为当前CU块或每次帧内块划分后得到的子CU块;
编码单元特征包括:CU块的宽度、高度、深度、四叉树深度、多叉树深度、块形状比例、量化参数、水平角度模式种类和竖直角度模式种类中的多种;纹理特征包括:CU块像素值的方差、归一化均方误差、横向纹理因子、纵向纹理因子、横纵纹理之间的权重和方向复杂度中的多种;360度视频特征包括:CU块的纬度以及各纬度下的采样因子;
模式选择模块,用于为每一帧内块划分方案中的每一子CU块选择帧内角度模式时,根据子CU块的编码单元特征和纹理特征确定其RMD候选列表的长度n,并基于长度n的RMD候选列表进行帧内角度模式选择,得到其帧内角度模式,以对各帧内块划分方案进行像素填充;
编码模块,用于分别计算像素填充后各帧内块划分方案与当前CU块之间的RDO损失,并基于最小RDO损失对应的帧内块划分方案对当前CU块进行帧内预测编码;并重复执行所述快速划分模块、模式选择模块和编码模块,直至对360度视频帧的所有CU块进行帧内预测编码。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一项所述的针对360度视频的帧内预测编码方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211039982.6A CN115118977B (zh) | 2022-08-29 | 2022-08-29 | 针对360度视频的帧内预测编码方法、系统及介质 |
US18/447,252 US12015767B2 (en) | 2022-08-29 | 2023-08-09 | Intra-frame predictive coding method and system for 360-degree video and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211039982.6A CN115118977B (zh) | 2022-08-29 | 2022-08-29 | 针对360度视频的帧内预测编码方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115118977A CN115118977A (zh) | 2022-09-27 |
CN115118977B true CN115118977B (zh) | 2022-11-04 |
Family
ID=83335773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211039982.6A Active CN115118977B (zh) | 2022-08-29 | 2022-08-29 | 针对360度视频的帧内预测编码方法、系统及介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US12015767B2 (zh) |
CN (1) | CN115118977B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115766963B (zh) * | 2022-11-11 | 2024-10-08 | 辽宁师范大学 | 一种基于自适应预测编码的加密图像可逆信息隐藏方法 |
CN115550645A (zh) * | 2022-12-02 | 2022-12-30 | 杭州未名信科科技有限公司 | 帧内预测模式的确定方法、装置、存储介质及电子设备 |
CN116489386A (zh) * | 2023-03-24 | 2023-07-25 | 重庆邮电大学 | 一种基于参考块的vvc帧间快速编码方法 |
CN117915080B (zh) * | 2024-01-31 | 2024-10-01 | 重庆邮电大学 | 一种适用于vvc scc的快速编码模式决策方法 |
CN118400528B (zh) * | 2024-02-29 | 2024-10-18 | 重庆邮电大学 | 一种多尺度360度视频帧内快速划分方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104581181A (zh) * | 2013-10-11 | 2015-04-29 | 中国科学院深圳先进技术研究院 | 一种基于备选模式列表优化的帧内编码方法 |
CN104756499A (zh) * | 2012-10-25 | 2015-07-01 | 高通股份有限公司 | 用于视频译码的参考图片状态 |
KR101902700B1 (ko) * | 2017-05-15 | 2018-09-28 | 홍익대학교 산학협력단 | Hevc 부호화 장치 및 그것을 이용한 화면 내 예측 부호화 처리 방법 |
CN109688414A (zh) * | 2018-12-19 | 2019-04-26 | 同济大学 | 一种vvc帧内编码单元候选预测模式缩减及块划分提前终止方法 |
CN110290383A (zh) * | 2019-06-25 | 2019-09-27 | 浙江大华技术股份有限公司 | 帧内预测模式选择方法、编码器及存储装置 |
CN111988628A (zh) * | 2020-09-08 | 2020-11-24 | 福州大学 | 基于强化学习的vvc的快速帧内编码方法 |
CN114071138A (zh) * | 2020-08-04 | 2022-02-18 | 中兴通讯股份有限公司 | 帧内预测编码方法、帧内预测编码装置和计算机可读介质 |
CN114222145A (zh) * | 2021-12-24 | 2022-03-22 | 杭州电子科技大学 | 一种低复杂度的快速vvc帧内编码方法 |
CN114286093A (zh) * | 2021-12-24 | 2022-04-05 | 杭州电子科技大学 | 一种基于深度神经网络的快速视频编码方法 |
CN114666592A (zh) * | 2022-03-22 | 2022-06-24 | 中山大学 | 基于avs3编码历史信息的cu块划分方法、装置及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105120292B (zh) * | 2015-09-09 | 2018-11-23 | 厦门大学 | 一种基于图像纹理特征的视频编码帧内预测方法 |
CN108259913A (zh) * | 2016-12-29 | 2018-07-06 | 北京大学深圳研究生院 | 一种用于帧间预测帧中的帧内预测方法 |
US20200154111A1 (en) * | 2017-01-17 | 2020-05-14 | Peking University Shenzhen Graduate School | Image mapping methods, apparatuses, device, and computer-readable memory medium |
CN107995489A (zh) * | 2017-12-20 | 2018-05-04 | 北京大学深圳研究生院 | 一种用于p帧或b帧的帧内帧间组合预测方法 |
-
2022
- 2022-08-29 CN CN202211039982.6A patent/CN115118977B/zh active Active
-
2023
- 2023-08-09 US US18/447,252 patent/US12015767B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104756499A (zh) * | 2012-10-25 | 2015-07-01 | 高通股份有限公司 | 用于视频译码的参考图片状态 |
CN104581181A (zh) * | 2013-10-11 | 2015-04-29 | 中国科学院深圳先进技术研究院 | 一种基于备选模式列表优化的帧内编码方法 |
KR101902700B1 (ko) * | 2017-05-15 | 2018-09-28 | 홍익대학교 산학협력단 | Hevc 부호화 장치 및 그것을 이용한 화면 내 예측 부호화 처리 방법 |
CN109688414A (zh) * | 2018-12-19 | 2019-04-26 | 同济大学 | 一种vvc帧内编码单元候选预测模式缩减及块划分提前终止方法 |
CN110290383A (zh) * | 2019-06-25 | 2019-09-27 | 浙江大华技术股份有限公司 | 帧内预测模式选择方法、编码器及存储装置 |
CN114071138A (zh) * | 2020-08-04 | 2022-02-18 | 中兴通讯股份有限公司 | 帧内预测编码方法、帧内预测编码装置和计算机可读介质 |
CN111988628A (zh) * | 2020-09-08 | 2020-11-24 | 福州大学 | 基于强化学习的vvc的快速帧内编码方法 |
CN114222145A (zh) * | 2021-12-24 | 2022-03-22 | 杭州电子科技大学 | 一种低复杂度的快速vvc帧内编码方法 |
CN114286093A (zh) * | 2021-12-24 | 2022-04-05 | 杭州电子科技大学 | 一种基于深度神经网络的快速视频编码方法 |
CN114666592A (zh) * | 2022-03-22 | 2022-06-24 | 中山大学 | 基于avs3编码历史信息的cu块划分方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
US12015767B2 (en) | 2024-06-18 |
US20240080439A1 (en) | 2024-03-07 |
CN115118977A (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115118977B (zh) | 针对360度视频的帧内预测编码方法、系统及介质 | |
US11252441B2 (en) | Hierarchical point cloud compression | |
KR101152576B1 (ko) | 비디오 데이터의 인코딩을 위한 인코딩 유형 및 예측 모드 선택 | |
US10003792B2 (en) | Video encoder for images | |
CN104244007B (zh) | 一种图像编码方法和装置及解码方法和装置 | |
CN110572655A (zh) | 一种基于邻居权重的参数选取和传递的点云属性编码和解码的方法及设备 | |
CN111242997A (zh) | 一种基于滤波器的点云属性预测方法及设备 | |
US20210067802A1 (en) | Video decoding method and device using cross-component prediction, and video encoding method and device using cross-component prediction | |
CN103338370B (zh) | 一种多视点深度视频快速编码方法 | |
CN109068142A (zh) | 基于纹理特征的360度视频帧内预测快速决策 | |
CN109587491A (zh) | 一种帧内预测方法、装置及存储介质 | |
CN111050183B (zh) | 一种帧内预测方法、编码器及存储介质 | |
Fu et al. | Efficient depth intra frame coding in 3D-HEVC by corner points | |
WO2021253373A1 (en) | Probabilistic geometric partitioning in video coding | |
KR20230173695A (ko) | 엔트로피 인코딩, 디코딩 방법 및 장치 | |
CN111988605B (zh) | 模式选择方法、装置、计算机可读存储介质及电子设备 | |
CN114143536B (zh) | 一种shvc空间可伸缩帧的视频编码方法 | |
CN1719900A (zh) | 选择编码模式的方法和设备 | |
WO2023023914A1 (zh) | 帧内预测、编解码方法及装置、编解码器、设备、介质 | |
CN110166774B (zh) | 帧内预测方法、视频编码方法、视频处理装置、存储介质 | |
CN111031303B (zh) | 基于贝叶斯决策定理的3d-hevc快速深度编码方法 | |
CN114071138A (zh) | 帧内预测编码方法、帧内预测编码装置和计算机可读介质 | |
CN113099223A (zh) | 一种针对h.266/vvc帧内预测编码的快速模式选择方法 | |
CN115412715A (zh) | 一种点云属性信息的预测编解码方法及装置 | |
WO2020140244A1 (zh) | 一种视频图像处理方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |