CN107483920B

CN107483920B - 一种基于多层级质量因子的全景视频评估方法及系统

Info

Publication number: CN107483920B
Application number: CN201710683578.5A
Authority: CN
Inventors: 王晶; 杨舒; 费泽松; 张博
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2018-12-21
Anticipated expiration: 2037-08-11
Also published as: CN107483920A

Abstract

本发明涉及一种基于多层级质量因子的全景视频评估方法及系统，属于多媒体技术领域。本发明将输入一段无损全景视频和一段同样内容的损伤视频，输出损伤视频的质量评估结果，实现对损伤视频的自动评估；其思想是基于多层级的感兴趣区域计算多个质量因子，以应对全景视频中的重要区域对视频质量影响较大的问题；然后通过融合模型将多层级质量因子进行融合，模型参数可由主观数据学习得到，以应对全景视频用户的主观能动性。本方法适用于全景视频质量评估：由于考虑并融合了多层级的用户感兴趣区域对视频质量的影响，得到的损伤视频的质量评价估值与主观实验的评价结果更一致，更适用于对全景视频质量的自动评价。

Description

一种基于多层级质量因子的全景视频评估方法及系统

技术领域

本发明涉及一种全景视频质量评估方法，特别涉及一种基于多层级质量因子的全景视频评估方法及系统，属于多媒体技术领域。

背景技术

随着虚拟现实(Virtual Reality,简称VR)技术的发展,普通的平面视频正逐渐被360度全景视频所取代。全景视频是指针对一个固定的观察点提供水平范围360度，垂直范围180度自由浏览的视频，可以给予VR用户更强的沉浸感以及更加身临其境的体验。随着这种新型多媒体业务的普及，全景视频的用户体验质量对于虚拟现实系统中关键技术的发展以及传输网络的优化具有重要意义。然而，全景视频质量评估是一个复杂问题，因为相比于普通平面视频，全景视频观看者的体验会受到多种因素的影响，包括更多的心理和生理因素的影响、感兴趣区域等主观因素的影响。传统的视频质量评估方法不能准确反映全景视频的质量。研究适用于全景视频的评估方法及系统对于VR技术的发展和普及具有重要意义。

发明内容

本发明的目的是对虚拟现实系统中的全景视频质量进行评估，提出一种基于多层级质量因子的全景视频评估方法及系统，该系统输入一段无损全景视频和一段同样内容的损伤视频，输出损伤视频的质量评估结果，实现对损伤视频的自动评估。

本发明的思想是基于多层级的感兴趣区域计算多个质量因子，以应对全景视频中的重要区域对视频质量影响较大的问题；然后通过融合模型将多层级质量因子进行融合，模型参数可由主观数据学习得到，以应对全景视频用户的主观能动性。

本发明的目的是通过以下技术方案解决的：一种基于多层级质量因子的全景视频评估方法及系统包括一种基于多层级质量因子的全景视频评估方法及一种基于多层级质量因子的全景视频评系统。

其中，一种基于多层级质量因子的全景视频评估方法，简称本方法；一种基于多层级质量因子的全景视频评系统，简称本系统。

本系统包括全景视频输入模块、感兴趣区域提取模块、多层级质量因子计算模块、时域处理模块和多层级质量因子融合模块。

本系统各模块的连接关系如下：

全景视频输入模块与感兴趣区域提取模块相连，感兴趣区域提取模块与多层级质量因子计算模块相连；多层级质量因子计算模块和时域处理模块相连；时域处理模块和多层级质量因子融合模块相连。

本系统各模块的功能如下：

全景视频输入模块的功能是对输入的视频文件进行解码得到全景帧图像对；感兴趣区域提取模块的功能是提取全景图像的多层级感兴趣区域矩阵；多层级质量因子计算模块的功能是根据感兴趣区域矩阵计算全景图像的质量因子；时域处理模块的功能是根据全景图像的质量因子计算全景视频的质量因子；多层级质量因子融合模块的功能是将全景视频的质量因子进行融合得到损伤视频的自动评估结果。

一种基于多层级质量因子的全景视频评估方法，包括以下步骤：

步骤一：全景视频输入模块对输入本系统的一对全景视频源文件进行视频处理和解码处理，得到全景帧图像对；

其中，输入的一对全景视频源文件中的全景视频为一段无损参考视频S′和一段与参考视频内容相同的损伤视频S，损伤视频S中的损伤包括人为引入的模糊、加噪以及编码为主的处理造成的损伤，也包括网络传输过程中由丢包以及误码为主的原因造成的损伤；

其中，无损参考视频也称为参考视频；

步骤1.1判断输入本系统的一对全景视频源文件是否具有相同的分辨率、帧率和时长，以及相同的映射格式，包括经纬图映射、六面体映射以及四棱锥映射为主的映射，并根据判断结果进行相应操作：

1.1A若输入本系统的一对全景视频源文件具有相同的分辨率、帧率和时长，以及相同的映射格式，则跳至步骤1.2；

1.1B输入本系统的一对全景视频源文件不具有相同的分辨率、帧率和时长，以及相同的映射格式，则在全景视频输入模块对损伤视频进行以像素插值、复制帧图像、映射变换为主的视频处理，使得损伤视频与参考视频具有相同的分辨率、帧率和时长，以及相同的映射格式；

步骤1.2使用以ffmpeg为主的解码工具，根据输入本系统的一对全景视频源文件的编码格式，进行解码处理，将每个全景视频解码为多帧图像，从而得到全景帧图像对，其中，全景视频源文件的视频帧数为N,得到的全景帧图像对为N组，包括由参考视频得到的N个参考帧图像和由损伤视频得到的N个损伤帧图像，每个全景帧图像的宽和高分别为W和H；

步骤二：感兴趣区域提取模块，采用图像处理和计算机视觉算法对步骤一输出的全景帧图像对进行感兴趣区域提取，输出多层级感兴趣区域矩阵集合；

具体的：步骤一输出的全景帧图像对中的参考帧图像I′进行感兴趣区域，即ROI提取；

其中，多层级感兴趣区域矩阵集合是低层级感兴趣区域矩阵集合中层级感兴趣区域矩阵集合高层级感兴趣区域矩阵集合时域层级感兴趣区域矩阵集合以及映射层级感兴趣区域矩阵M_p中的所有矩阵集合，其中M表示大小为H×W的二维矩阵，即图像I′的一个感兴趣区域矩阵，M中的元素取值范围为[0,1],M(i,j)的值即矩阵第i行第j列的数值越大，表示参考帧图像I’中对应位置的像素点I′(i,j)越容易被观看者注意到，对视频质量的影响程度越大；M的下角标l,m,h,t,p分别表示该矩阵是由低、中、高、时域和映射层级的感兴趣区域提取方法得到的，M的上角标1，2，…n表示该矩阵是由所在层级的第n种方法得到的，其中n_l,n_m,n_h,n_t取大于等于1的整数，表示低、中、高、时域层级可以采用一种或一种以上方法得到一个或一个以上感兴趣区域矩阵，而映射层级仅可以选用一种方法得到感兴趣区域矩阵；

以上对于感兴趣区域矩阵个数的说明是针对一个参考帧图像I′，对于步骤一输出的N组全景帧图像对中的N个参考帧图像，步骤二输出的感兴趣区域矩阵个数为(n_l+n_m+n_h+n_t+1)×N；

多层级感兴趣区域矩阵分别由步骤2.1到步骤2.5产生，具体为：

步骤2.1采用像素级别图像处理方法计算参考帧图像的低层级感兴趣区域，输出低层级感兴趣区域矩阵集合

其中，像素级别图像处理方法以颜色对比度和边缘检测为主；

步骤2.2采用超像素处理方法计算参考帧图像的中层级感兴趣区域，输出中层级感兴趣区域矩阵集合

其中，超像素处理方法以超像素块显著性排序为主；

步骤2.3采用计算机视觉方法计算参考帧图像的高层级感兴趣区域，通常为观看者容易关注的人、动物和车辆为主的区域，输出高层级感兴趣区域矩阵集合

其中，计算机视觉方法以目标分割和语义分割为主；

步骤2.4采用图像处理方法使用相邻两帧参考图像计算时域级别感兴趣区域，通常为观看者容易关注的运动物体，输出时域层级感兴趣区域矩阵集合

其中，图像处理方法以光流估计和运动估计为主；

步骤2.5根据输入本系统的一对全景视频源文件的映射格式，选择对应的权重矩阵，输出权重矩阵作为映射层级感兴趣区域矩阵M_p；

其对于经纬图映射格式，对应的权重矩阵的两极权重比赤道权重小，四棱锥映射格式对应的权重矩阵的底面权重比锥面权重大；

其中，步骤2.5输出的映射层级感兴趣区域矩阵只与视频映射格式有关，与帧图像本身无关，一旦确定输入的视频映射格式，则每一帧的感兴趣区域矩阵相同；

步骤三：多层级质量因子计算模块，采用质量评估算法，基于步骤二输出的多层级感兴趣区域矩阵集合，计算步骤一输出的全景帧图像对的加权差异，输出N组帧图像对的多层级质量因子集合；

其中，多层级质量因子集合是低层级质量因子集合中层级质量因子集合高层级质量因子集合时域层级质量因子集合以及映射层级质量因子集合f_p中的所有数值集合，其中f表示一个大于0的自然数，其上下角标与步骤二中的M的上下角标一致，表示该质量因子由对应的感兴趣区域矩阵得到该处理过程具体由以下步骤完成：

步骤3.1将步骤一输出的全景帧图像对，和步骤二输出的低、中、高、时域以及映射感兴趣区域矩阵，按照帧的顺序得到N组

每一组包含：一幅无损全景图、一幅有损全景图以及多层级感兴趣区域矩阵集合；

步骤3.2使用像素差异评估方法计算无损和有损全景图的质量差异矩阵D，D为H×W的二维矩阵，D(i,j)表示无损和有损全景图中(i,j)位置处像素点的颜色/亮度差异，可使用欧式距离方法计算得到；

步骤3.3将每个感兴趣区域矩阵M与差异矩阵D对应元素相乘，得到加权的差异矩阵集合

步骤3.4采用传统图像客观质量评估方法将加权的差异矩阵集合映射为损伤图像的多层级质量因子集合

其中，传统图像客观质量评估方法以MSE、PSNR和SSIM为主；

步骤四：时域处理模块，输入步骤三得到的N组图像多层级质量因子集合，按照时域处理方法，融合成为一组，输出视频S的多层级质量因子集合

其中，时域处理方法以平均以及加权平均为主；

步骤五：多层级质量因子融合模块，输入步骤四得到的多层级质量因子，采用融合模型融合为一个质量评价结果

输出该结果Q，即视频S的质量评价结果；

其中，融合模型以线性回归、非线性回归以及神经网络模型为主；

该融合模型的参数可以由经验设计得到，也可以通过机器学习的方式训练得到，其中基于机器学习的方法主要可以由以下步骤完成：首先设计一个BP神经网络结构，然后利用训练数据训练得到BP网络的参数，使得这些质量因子融合的结果尽可能地接近主观得分；

其中，利用的训练数据具体为通过主观实验得到的一些全景视频的质量得分，及通过步骤一到步骤四得到的视频质量因子；

至此，通过步骤一到步骤五，完成了本方法，即一种基于多层级质量因子的全景视频评估方法。

有益效果

本发明一种基于多层级质量因子的全景视频评估方法及系统，与现有技术相比，具有如下有益效果：

本方法适用于全景视频质量评估：与现有普通视频质量评估方法，以及现有全景视频质量评估方法相比，本发明的方法由于考虑并融合了多层级的用户感兴趣区域对视频质量的影响，得到的损伤视频的质量评价估值与主观实验的评价结果更一致，更适用于对全景视频质量的自动评价。

附图说明

图1是本发明一种基于多层级质量因子的全景视频质量评估系统的模块图；

图2是本发明一种基于多层级质量因子的全景视频评估方法及系统具体实施例中的第5帧全景图像及其多层级感兴趣区域图；

图3是本发明一种基于多层级质量因子的全景视频评估方法及系统具体实施例中的多层级质量因子融合模块的结构图。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明，同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

实施例1

本实施例是对本发明所述方法及系统基于两段4K分辨率的无损全景视频concert.mp4和有损全景视频concert_3M.mp4为例进行说明。

图1是本发明一种基于多层级质量因子的全景视频评估方法及系统基于多层级质量因子的全景视频质量评估系统模块图。

从图1中可以看出，本系统将参考视频和损伤视频输入全景视频输入模块进行解码处理，然后送入感兴趣区域提取模块，提取低层级、中层级、高层级、时域层级以及映射层级感兴趣区域，接着基于这些感兴趣区域矩阵，在多层级质量因子计算模块中计算全景图像对的低层级、中层级、高层级、时域层级以及映射层级质量因子集合，接着将这些质量因子送入时域处理模块，得到全景视频的多层级质量因子集合，最后在多层级质量因子融合模块中将这些质量因子融合为一个质量评分输出，即损伤视频的自动评估结果。

采用本系统所依托的一种基于多层级质量因子的全景视频评估方法对本实施例中的两段4K分辨率的无损全景视频concert.mp4和有损全景视频concert_3M.mp4进行处理，包括如下步骤：

步骤A：全景视频输入模块对输入的一对全景视频源文件进行解码处理，两个视频均为时长10秒，帧率30fps，分辨率4096*2048的经纬图格式全景视频，损伤视频是由无损视频经过H.264压缩编码后得到的，无损视频的码率为50Mbps，损伤视频的码率为3Mbps,二者经过解码后得到300对全景图，图像的宽高分别为4096和2048像素,其中图2(A)为无损视频第5帧全景图.

步骤B：感兴趣区域提取模块，对300张无损图像进行感兴趣区域提取，该处理过程具体由以下步骤完成：

步骤B.1采用颜色对比度计算显著图的方法，计算得到300张图像的300个低层级感兴趣区域矩阵矩阵大小为2048×4096，其中第5帧的结果映射到图像空间(将[0,1]范围的值乘以256)如图2(B)所示，此外添加另一个低层级感兴趣区域矩阵为一个2048×4096大小的全1矩阵；

步骤B.2将图像分割成超像素，然后使用两种超像素块显著性排序方法，计算参考帧图像的中层级感兴趣区域矩阵和映射到图像空间后如图2(C，D)所示；

步骤B.3采用全卷积神经网络的方法，对参考帧图像进行目标语义分割，将分割得到的掩模作为高层级感兴趣区域矩阵M_h，映射为二值图像如图2(E)，矩阵元素为1属于人、动物和车辆为主的目标区域，元素为0属于背景区域；

步骤B.4本实施例中没有使用帧间运动信息，因此本实施例中的时域层级感兴趣区域矩阵M_t为零矩阵；

步骤B.5根据输入视频的映射格式为经纬图，选择对应的权重矩阵M_p，映射到[0,255]如图2(F)所示，矩阵每个元素的值由纬度决定，如公式(1)所示；

步骤B.6本实施例在步骤B.1至步骤B.5共得到每帧图像6个感兴趣区域矩阵共1800个矩阵。

步骤C：多层级质量因子计算模块，本实例采用PSNR质量评估算法，基于步骤B输出的多层级感兴趣区域加权矩阵集合，计算300帧图像对的加权差异矩阵集合，输出多层级质量因子集合，该处理过程具体由以下步骤完成：

步骤C.1将步骤A输出的全景图像对，和步骤B输出的多个感兴趣区域矩阵，按照帧的顺序得到300组每一组包含：一幅无损全景图、一幅有损全景图、6个感兴趣区域矩阵；

步骤C.2计算两个图像像素之间加权差异矩阵集合，如公式(2)所示，I(i,j),I′(i,j)和M(i,j)分别为有损图像、无损图像和加权矩阵中各个元素的值，其中图像若为三通道则按照每个通道分别计算加权差异矩阵，得到

D(i,j)＝(I(i,j)-I′(i,j))²×M(i,j) (2)

步骤C.3使用计算质量因子集合如公式(3)所示，本实施例采用PSNR的计算方法，若为三通道图像，则取三通道质量因子的平均值作为损伤图像的质量因子；

步骤C.4由步骤C.1至步骤C.3可得到每帧损伤图像的6个质量因子，共300个这样的集合作为本模块的输出。

步骤D：时域处理模块，输入步骤C得到的300个多层级质量因子集合，本实例按照时域平均的处理方法，将每个集合中对应位置的质量因子取平均，即公式(4)所示，x，y分别表示质量因子的层级索引和该层级中的感兴趣区域方法索引，输出损伤视频concert_3M.mp4的多层级质量因子集合

步骤E：多层级质量因子融合模块，输入步骤D得到的多层级质量因子集合，采用BP神经网络进行融合，得到视频fengjing_3M.mp4最终的质量评估分数Q(I,I′)。

步骤E.1使用的BP神经网络如图3所示，网络拥有6个输入节点，分别接入步骤四得到的6个质量因子，10个隐藏节点，1个输出节点，输入[0,1]范围的质量评价结果；

步骤E.2该融合模型的参数是通过不包含测试视频concert_3M.mp4的全景视频数据集训练得到。

在本实例中，采用6个多层级质量因子融合方式得到的质量评估值与单因子结果相比，与主观结果更为线性相关。如表1所示，依次去掉每个层级的质量因子，得到与主观的斯皮尔曼秩相关系数SROCC比使用所有层级的质量因子的SROCC小。表格中的值采用12段原始视频及对应内容的288段损伤视频训练BP网络参数，然后使用另外4段原始视频及对应内容的96段损伤视频进行测试，得到的SROCC越大说明该自动评估方法越好。

表1多层级质量因子与减少某一层级质量因子对比

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多层级质量因子的全景视频评估系统，其特征在于：基于多层级的感兴趣区域计算多个质量因子，以应对全景视频中的重要区域对视频质量影响较大的问题；然后通过融合模型将多层级质量因子进行融合，模型参数可由主观数据学习得到，以应对全景视频用户的主观能动性；

本系统包括全景视频输入模块、感兴趣区域提取模块、多层级质量因子计算模块、时域处理模块和多层级质量因子融合模块；

本系统各模块的连接关系如下：

全景视频输入模块与感兴趣区域提取模块相连，感兴趣区域提取模块与多层级质量因子计算模块相连；多层级质量因子计算模块和时域处理模块相连；时域处理模块和多层级质量因子融合模块相连；

本系统各模块的功能如下：

2.一种基于多层级质量因子的全景视频评估方法，其特征在于:包括以下步骤：

步骤一中，输入的一对全景视频源文件中的全景视频为一段无损参考视频S′和一段与参考视频内容相同的损伤视频S，损伤视频S中的损伤包括人为引入的模糊、加噪以及编码为主的处理造成的损伤，也包括网络传输过程中由丢包以及误码为主的原因造成的损伤；

其中，无损参考视频也称为参考视频；

得到的全景帧图像对包含由参考视频得到的参考帧图像，和由损伤视频得到的损伤帧图像；

步骤二：感兴趣区域提取模块，采用图像处理和计算机视觉算法对步骤一输出的全景帧图像进行感兴趣区域提取，输出多层级感兴趣区域矩阵集合；

步骤四：时域处理模块，输入步骤三得到的N组图像多层级质量因子集合，按照时域处理方法，融合成为一组，输出损伤视频S的多层级质量因子集合

其中，时域处理方法以平均以及加权平均为主；

步骤五：多层级质量因子融合模块，输入步骤四得到的多层级质量因子集合，采用融合模型融合为一个质量评价结果

输出该结果Q，即损伤视频S的质量评价结果。

3.根据权利要求2所述的一种基于多层级质量因子的全景视频评估方法，其特征在于:步骤一中，输入的一对全景视频源文件中的全景视频为一段无损参考视频S′和一段与参考视频内容相同的损伤视频S，损伤视频S中的损伤包括人为引入的模糊、加噪以及编码为主的处理造成的损伤，也包括网络传输过程中由丢包以及误码为主的原因造成的损伤；

其中，无损参考视频也称为参考视频；

步骤1.2使用以ffmpeg为主的解码工具，根据输入本系统的一对全景视频源文件的编码格式，进行解码处理，将每个全景视频解码为多帧图像，从而得到全景帧图像对，其中，全景视频源文件的视频帧数为N,得到的全景帧图像对为N组，包括由参考视频得到的N个参考帧图像和由损伤视频得到的N个损伤帧图像，每个全景帧图像的宽和高分别为W和H。

4.根据权利要求2所述的一种基于多层级质量因子的全景视频评估方法，其特征在于:步骤二中，具体的：步骤一输出的全景帧图像对中的参考帧图像I′进行感兴趣区域，即ROI提取；多层级感兴趣区域矩阵集合是低层级感兴趣区域矩阵集合中层级感兴趣区域矩阵集合高层级感兴趣区域矩阵集合时域层级感兴趣区域矩阵集合以及映射层级感兴趣区域矩阵M_p中的所有矩阵集合，其中M表示大小为H×W的二维矩阵，即图像I′的一个感兴趣区域矩阵，M中的元素取值范围为[0,1],M(i,j)的值即矩阵第i行第j列的数值越大，表示参考帧图像I’中对应位置的像素点I′(i,j)越容易被观看者注意到，对视频质量的影响程度越大；M的下角标l,m,h,t,p分别表示该矩阵是由低、中、高、时域和映射层级的感兴趣区域提取方法得到的，M的上角标1，2，…n表示该矩阵是由所在层级的第n种方法得到的，其中n_l,n_m,n_h,n_t取大于等于1的整数；

其中，超像素处理方法以超像素块显著性排序为主；

其中，计算机视觉方法以目标分割和语义分割为主；

其中，图像处理方法以光流估计和运动估计为主；

其中，步骤2.5输出的映射层级感兴趣区域矩阵只与视频映射格式有关，与帧图像本身无关，一旦确定输入的视频映射格式，则每一帧的感兴趣区域矩阵相同。

5.根据权利要求2所述的一种基于多层级质量因子的全景视频评估方法，其特征在于:步骤三中，多层级质量因子集合是低层级质量因子集合中层级质量因子集合高层级质量因子集合时域层级质量因子集合以及映射层级质量因子集合f_p中的所有数值集合，其中f表示一个大于0的自然数，其上下角标与步骤2.4中的M的上下角标一致，表示该质量因子由对应的感兴趣区域矩阵得到；

步骤三的处理过程具体由以下步骤完成：

步骤3.3将每个感兴趣区域矩阵M与差异矩阵D对应元素相乘，得到加权的差异矩阵集合:

其中，传统图像客观质量评估方法以MSE、PSNR和SSIM为主。

6.根据权利要求2所述的一种基于多层级质量因子的全景视频评估方法，其特征在于:步骤五中，融合模型以线性回归、非线性回归以及神经网络模型为主；

其中，利用的训练数据具体为通过主观实验得到的一些全景视频的质量得分，及通过步骤一到步骤四得到的视频质量因子。