CN114930869A

CN114930869A - 用于视频编码和视频解码的方法、装置和计算机程序产品

Info

Publication number: CN114930869A
Application number: CN202080092285.XA
Authority: CN
Inventors: K·坎玛奇·斯雷德哈; M·安尼克塞拉; S·玛特; E·阿克苏
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2020-01-07
Filing date: 2020-12-30
Publication date: 2022-08-19
Anticipated expiration: 2040-12-30
Also published as: US20230062691A1; EP4088481A1; WO2021140274A1; EP4088481A4; CN114930869B; US11722751B2

Abstract

实施例涉及一种方法，该方法包括在容器文件中写入第一媒体实体(410)和第二媒体实体(420)；创建(430)具有第一表示和第二表示的媒体呈现描述(MPD)；表示属于适配集；表示与容器文件的媒体实体相关联；当表示中的一个表示属于作为视点的缩略图或覆盖图的缩略图的媒体实体时，该方法包括对应地在MPD文件中写入(440)上述一个表示与属于作为视点或覆盖层的媒体实体的另一表示的关联/对应性/分组信息。本实施例还涉及一种用于解析的方法以及一种用于实现该方法的技术设备。

Description

用于视频编码和视频解码的方法、装置和计算机程序产品

技术领域

本解决方案总体上涉及视频编码和视频解码。具体地，该解决方案涉及媒体呈现描述文件中的图像信令。

背景技术

自摄影和电影制片开始以来，最常见的图像和视频内容类型已经由具有相对狭窄视场的相机捕获，并且在平面(flat)显示器上显示为矩形场景。这样的内容在本申请中被称为“平面内容”或“平面图像”或“平面视频”。相机主要是定向的，因此它们仅捕获有限的角度视场(它们指向的视场)。

最近，新的图像和视频捕获设备已经可用。这些设备能够捕获它们周围的视觉和音频内容，即，它们可以捕获整个角度视场，有时称为360度视场。更准确地，它们可以捕获球形视场(即，所有空间方向的360度)。此外，已经发明和生产了新型输出技术，诸如头戴式显示器。这些设备让人们可以看到他/她周围的视觉内容，以给人一种“沉浸”在由360度相机捕获的场景中的感觉。新的捕获和显示范式(其中，视场为球形)通常被称为虚拟现实(VR)，并且被认为是人们未来体验媒体内容的常见方式。

发明内容

本发明的各种实施例所寻求的保护范围由独立权利要求规定。在本说明书中描述的不属于独立权利要求的范围的实施例和特征(如果有的话)将被解释为对理解本发明的各种实施例有用的示例。

各个方面包括一种方法、一种装置和一种包括存储在其中的计算机程序的计算机可读介质，其特征在于独立权利要求中所述的内容。在从属权利要求中公开了各种实施例。

根据第一方面，提供了一种方法，该方法包括在容器文件中写入第一媒体实体；在容器文件中写入第二媒体实体；其中第一媒体实体或第二媒体实体中的至少一个媒体实体是图像，其中当媒体实体中的一个媒体实体是图像时，其是视点或覆盖层(overlay)或封面图像或视点的缩略图，或者是覆盖层的缩略图，创建具有第一表示和第二表示的媒体呈现描述(MPD)；第一表示属于第一适配集，并且第二表示属于第二适配集；第一适配集的表示与容器文件的第一媒体实体相关联；并且第二适配集的表示与容器文件的第二媒体实体相关联；当表示中的一个表示属于作为视点的缩略图或覆盖层的缩略图的媒体实体时，对应地在MPD文件中写入表示与属于作为视点或覆盖层的媒体实体的另一表示的关联/对应性/分组信息。

根据第二方面，提供了一种方法，该方法包括从媒体呈现描述(MPD)中解析，属于第一适配集的第一表示和属于第二适配集的第二表示；第一适配集的第一表示与容器文件的第一媒体实体相关联；第二适配集的第二表示与容器文件的第二媒体实体相关联；其中第一表示或第二表示中的至少一个表示项与图像相关联；当表示中的一个表示与图像相关联时，其是视点表示或覆盖层表示或封面图像表示或视点的缩略图的表示；或者是覆盖层的缩略图的表示；从MPD中解析表示的关联/对应性/分组信息；选择与容器文件的第一媒体实体相关联的第一适配集的第一表示；并且选择与容器文件的第二媒体实体相关联的第二适配集的第二表示。

根据第三方面，提供了一种装置，该装置至少包括：用于在容器文件中写入第一媒体实体的部件；用于在容器文件中写入第二媒体实体的部件；其中第一媒体实体或第二媒体实体中的至少一个媒体实体是图像，其中当媒体实体中的一个媒体实体是图像时，其是视点或覆盖层或封面图像或视点的缩略图，或者是覆盖层的缩略图；用于创建具有第一表示和第二表示的媒体呈现描述(MPD)的部件；第一表示属于第一适配集，并且第二表示属于第二适配集；第一适配集的表示与容器文件的第一媒体实体相关联；第二适配集的表示与容器文件的第二媒体实体相关联；当表示中的一个表示属于作为视点的缩略图或覆盖层的缩略图的媒体实体时，用于对应地在MPD文件中写入表示与属于作为视点或覆盖层的媒体实体的另一表示的关联/对应性/分组信息的部件。

根据第四方面，提供了一种装置，该装置至少包括用于从媒体呈现描述(MPD)中解析属于第一适配集的第一表示和属于第二适配集的第二表示的部件；第一适配集的第一表示与容器文件的第一媒体实体相关联；第二适配集的第二表示与容器文件的第二媒体实体相关联；其中第一表示或第二表示中的至少一个表示与图像相关联；当表示中的一个表示与图像相关联时，其是视点表示或覆盖层表示或封面图像表示或视点的缩略图的表示；或者是覆盖层的缩略图的表示；用于从MPD中解析表示的关联/对应性/分组信息的部件；用于选择与容器文件的第一媒体实体相关联的第一适配集的第一表示的部件；用于选择与容器文件的第二媒体实体相关联的第二适配集的第二表示的部件。

根据一个实施例，第一媒体实体是以下中的一项：图像文件；以及项目；或媒体轨道。

根据一个实施例，第二媒体实体是以下中的一项：图像文件；以及项目；或媒体轨道。

根据第四方面，提供了一种包括计算机程序代码的计算机程序产品，该计算机程序代码被配置为当在至少一个处理器上执行时使装置或系统：在容器文件中写入第一媒体实体；在容器文件中写入第二媒体实体；其中第一媒体实体或第二媒体实体中的至少一个媒体实体是图像，其中当媒体实体中的一个媒体实体是图像时，其是视点或覆盖层或封面图像或视点的缩略图，或者是覆盖层的缩略图，创建具有第一表示和第二表示的媒体呈现描述(MPD)；第一表示属于第一适配集，并且第二表示属于第二适配集；第一适配集的表示与容器文件的第一媒体实体相关联；并且第二适配集的表示与容器文件的第二媒体实体相关联；当表示中的一个表示属于作为视点的缩略图或覆盖层的缩略图的媒体实体时，对应地在MPD文件中写入表示与属于作为视点或覆盖层的媒体实体的另一表示的关联/对应性/分组信息。

根据第五方面，提供了一种包括计算机程序代码的计算机程序产品，该计算机程序代码被配置为当在至少一个处理器上执行时使装置或系统：从媒体呈现描述(MPD)中解析，属于第一适配集的第一表示和属于第二适配集的第二表示；第一适配集的第一表示与容器文件的第一媒体实体相关联；第二适配集的第二表示与容器文件的第二媒体实体相关联；其中第一表示或第二表示中的至少一个表示与图像相关联；当表示中的一个表示与图像相关联时，其是视点表示或覆盖层表示或封面图像表示或视点的缩略图的表示；或者是覆盖层的缩略图的表示；从MPD中解析表示的关联/对应性/分组信息；选择与容器文件的第一媒体实体相关联的第一适配集的第一表示；并且选择与容器文件的第二媒体实体相关联的第二适配集的第二表示。

根据一个实施例，计算机程序产品体现在非瞬态计算机可读介质上。

根据第六方面，提供了一种装置，该装置包括至少一个处理器以及包括计算机程序代码的存储器，存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少执行以下操作：在容器文件中写入第一媒体实体；在容器文件中写入第二媒体实体；其中第一媒体实体或第二媒体实体中的至少一个媒体实体是图像，其中当媒体实体中的一个媒体实体是图像时，其是视点或覆盖层或封面图像或视点的缩略图，或者是覆盖层的缩略图，创建具有第一表示和第二表示的媒体呈现描述(MPD)；第一表示属于第一适配集，并且第二表示属于第二适配集；第一适配集的表示与容器文件的第一媒体实体相关联；并且第二适配集的表示与容器文件的第二媒体实体相关联；当表示中的一个表示属于作为视点的缩略图或覆盖层的缩略图的媒体实体时，对应地在MPD文件中写入表示与属于作为视点或覆盖层的媒体实体的另一表示的关联/对应性/分组信息。

根据第七方面，提供了一种装置，该装置包括至少一个处理器以及包括计算机程序代码的存储器，存储器和计算机程序代码被配置为与至少一个处理器使该装置至少执行以下操作：从媒体呈现描述(MPD)中解析，属于第一适配集的第一表示和属于第二适配集的第二表示；第一适配集的第一表示与容器文件的第一媒体实体相关联；第二适配集的第二表示与容器文件的第二媒体实体相关联；其中第一表示或第二表示中的至少一个表示与图像相关联；当表示中的一个表示与图像相关联时，其是视点表示或覆盖层表示或封面图像表示或视点的缩略图的表示；或者是覆盖层的缩略图的表示；从MPD中解析表示的关联/对应性/分组信息；选择与容器文件的第一媒体实体相关联的第一适配集的第一表示；并且选择与容器文件的第二媒体实体相关联的第二适配集的第二表示。

附图说明

在下文中，将参考附图更详细地描述各种实施例，在附图中

图1示出了OMAF系统架构的一个示例；

图2示出了根据一个实施例的用于内容创作的装置；

图3示出了根据一个实施例的用于内容消费的装置；

图4是示出根据一个实施例的方法的流程图；以及

图5是示出根据另一实施例的方法的流程图。

具体实施方式

本实施例涉及视频编码和解码。

可用的媒体文件格式标准包括国际标准组织(ISO)基本媒体文件格式(ISO/IEC14496-12，可以缩写为ISOBMFF)、运动图片专家组(MPEG)-4文件格式(ISO/IEC 14496-14、也称为MP4格式)、NAL(网络抽象层)单元结构化视频的文件格式(ISO/IEC 14496-15)。

下面将ISOBMFF的一些概念、结构和规范描述为容器文件格式的示例，基于此，可以实现一些实施例。本公开的方面不限于ISOBMFF，而是针对一种可能的基础给出描述，在该基础上可以部分地或完全地实现至少一些实施例。

ISO基本媒体文件格式中的基本构建块称为盒子(box)。每个盒子都有报头和有效载荷。盒子报头以字节为单位，表示盒子的类型和盒子的大小。盒子类型通常由无符号32位整数标识，解释为四字符代码(4CC)。盒子可以封装(enclose)其他盒子，并且ISO文件格式指定了在特定类型的盒子中允许哪些盒子类型。此外，每个文件中某些盒子的存在可能是强制性的，而其他盒子的存在可能是可选的。此外，对于某些盒子类型，可以允许文件中存在一个以上的盒子。因此，可以考虑ISO基本媒体文件格式来指定盒子的层次结构。

在符合ISO基本媒体文件格式的文件中，媒体数据可以在MediaDataBox(“mdat”)的一个或多个实例中提供，并且MovieBox(“moov”)可以用于封装定时媒体的元数据。在某些情况下，为了使文件可操作，可能需要同时存在“mdat”和“moov”盒子。“moov”盒子可以包括一个或多个轨道，并且每个轨道可以驻留在一个对应TrackBox(“trak”)中。每个轨道与处理程序相关联，处理程序由四字符代码标识，四字符代码指定轨道类型。视频、音频和图像序列轨道可以统称为媒体轨道，并且它们包含基本媒体流。其他轨道类型包括提示(hint)轨道和定时元数据轨道。

轨道包括样本，诸如音频或视频帧。对于视频轨道，媒体样本可以对应于编码图片或访问单元。

媒体轨道是指根据媒体压缩格式(及其对ISO基本媒体文件格式的封装)而格式化的样本(也可以称为媒体样本)。提示轨道是指提示样本，其包含用于构建分组以通过指示的通信协议进行传输的码元书指令。定时元数据轨道可以指描述所引用的媒体和/或提示样本的样本。

“trak”盒子在其盒子层次结构中包括SampleDescriptionBox，SampleDescriptionBox提供有关所使用的编码类型的细节、以及该编码所需要的任何初始化信息。SampleDescriptionBox包含条目计数和条目计数指示的尽可能多的样本条目。样本条目的格式是特定于轨道类型的，但源自通用类(例如，VisualSampleEntry、AudioSampleEntry)。使用哪种类型的样本条目形式来导出轨道类型特定样本条目格式是由轨道的媒体处理程序确定的。

轨道参考机制可以用于将轨道彼此关联。TrackReferenceBox包括(多个)盒子，每个盒子提供从包含轨道到一组其他轨道的引用。这些引用通过(多个)包含的盒子的盒子类型(例如，盒子的四字符代码)进行标记。

ISO基本媒体文件格式包含针对可以与特定样本相关联的定时元数据的三种机制：样本组、定时元数据轨道和样本辅助信息。导出规范可以通过这三种机制中的一种或多种机制提供类似的功能。

ISO基本媒体文件格式及其导出文件(诸如高级视频编码(AVC)文件格式和可扩展视频编码(SVC)文件格式)中的样本分组可以定义为基于分组标准将轨道中的每个样本分配为一个样本组的成员。样本分组中的样本组不限于连续样本，还可以包含不相邻的样本。由于轨道中的样本可能有一个以上的样本分组，因此每个样本分组可以具有类型字段以指示分组的类型。样本分组可以由两个链接的数据结构来表示：(1)SampleToGroupBox(“sbgp”盒子)表示将样本分配给样本组；以及(2)SampleGroupDescriptionBox(“sgpd”盒子)包含针对描述组的属性的每个样本组的样本组条目。基于不同分组标准，SampleToGroupBox和SampleGroupDescriptionBox可以具有多个实例。这些可以通过用于指示分组类型的类型字段来区分。SampleToGroupBox可以包括grouping_type_parameter字段，该字段可以用于例如指示分组的子类型。

在ISOMBFF中，编辑列表提供呈现时间线与媒体时间线之间的映射。除其他外，编辑列表提供轨道中样本呈现的线性偏移，提供空余时间的指示，并且提供要在特定时间段内停留的特定样本。可以相应地修改呈现时间线以提供循环，例如用于场景的各个区域的循环视频。下面提供了包括编辑列表的盒子的一个示例，EditListBox提供如下：

在ISOBMFF中，EditListBox可以被包含在EditBox中，EditBox被包含在TrackBox(“trak”)中。

在这个编辑列表盒子的示例中，flags指定了编辑列表的重复。举例来说，将盒子标志内的特定位(最低有效位，即ANSI-C表示中的flags&1，其中&表示按位与运算)设置为等于0指定编辑列表未重复，而将特定位(即，ANSI-C表示中的flags&1)设置为等于1指定编辑列表被重复。大于1的盒子标志的值可以定义为被保留用于将来的扩展。因此，当编辑列表盒子指示零个或一个样本的回放时，(flags&1)应当等于零。当编辑列表被重复时，由编辑列表产生的时间0处的媒体紧跟在由编辑列表产生的具有最大时间的媒体之后，从而无缝地重复编辑列表。

在ISOBMFF中，轨道组可以基于某些特性对轨道进行分组，或者组内的轨道具有特定的关系。但是，轨道分组不允许组中的任何图像项。

ISOBMFF中TrackGroupBox的语法如下：

track_group_type指示grouping_type，并且应当设置为以下值中的一个、或注册的值、或来自派生规范或注册的值：

“msrc”指示该轨道属于多源呈现。在track_group_type'msrc'的TrackGroupTypeBox内具有相同track_group_id值的轨道被映射为源自同一源。例如，视频电话通话的录像可以具有两个参与者的音频和视频两者，并且与一个参与者的音频轨道和视频轨道相关联的track_group_id值和与另一参与者的轨道相关联的track_group_id值不同。

track_group_id和track_group_type对标识文件中的轨道组。包含具有相同track_group_id和track_group_type值的特定TrackGroupTypeBox的轨道属于同一轨道组。

实体分组类似于轨道分组，但支持将轨道和图像项分组在同一组中。

ISOBMFF中EntityToGroupBox的语法如下。

group_id是分配给特定分组的非负整数，不应当等于任何其他EntityToGroupBox的任何group_id值、包含GroupsListBox的层次级别(文件、电影或轨道)的任何item_ID值、或任何track_ID值(当GroupsListBox被包含在文件级别中时)。

num_entities_in_group指定映射到该实体组的entity_id值的数目。

当item_ID等于entity_id的项存在于包含GroupsListBox的层次级别(文件、电影或轨道)中时，entity_id被解析为项，或者当track_ID等于entity_id的轨道存在并且GroupsListBox被包含在文件级别时，entity_id被解析为轨道。

符合ISOBMFF的文件可以在元盒子(四字符码：“meta”)中包含任何非定时对象，称为项、元项或元数据项。虽然元盒子的名称是指元数据，但项通常可以包含元数据或媒体数据。元盒子可以位于文件的顶级、电影盒子(四字符码：“moov”)内和轨道盒子(四字符码：“trak”)内，但在每个文件级别、电影级别或轨道级别可能出现最多一个元盒子。元盒子可能需要包含“hdlr”盒子，以指示“meta”盒子内容的结构或格式。元盒子可以列出和表征可以引用的任何数目的项，并且每个项可以与文件名相关联，并且通过项标识符(item_id)与文件唯一地标识，该项标识符是整数值。元数据项可以例如存储在元数据盒子的“idat”盒子中或在“mdat”盒子中或驻留在单独的文件中。如果元数据位于文件外部，则它的位置可以由DataInformationBox声明(四字符码：“dinf”)。在元数据使用可扩展标记语言(XML)语法格式化并且需要直接存储在MetaBox中的特定情况下，元数据可以封装到XMLBox(四字符码：“xml”)或BinaryXMLBox(四字符码：“bxml”)。项可以存储为连续的字节范围，或者可以存储在若干范围中，每个范围都是连续的字节范围。换言之，可以将项分段存储为范围，例如启用交错。范围是资源字节的连续子集。资源可以通过级联范围来形成。

ItemPropertiesBox可以将任何项与一组有序的项属性相关联。项属性可以被视为小数据记录。ItemPropertiesBox包括两部分：包含隐式索引的项属性列表的ItemPropertyContainerBox、以及将项与项属性相关联的一个或多个ItemPropertyAssociationBox。。

高效图像文件格式(HEIF)是由运动图像专家组(MPEG)开发的用于存储图像和图像序列的标准。除其他外，该标准促进了根据高效视频编码(HEVC)标准而编码的数据的文件封装。HEIF包括在所使用的ISO基本媒体文件格式(ISOBMFF)之上构建的特征。

ISOBMFF结构和特征在很大程度上被用于HEIF的设计。HEIF的基本设计包括存储为项的静止图像和存储为轨道的图像序列。

在HEIF的上下文中，以下盒子可以被包含在根级“meta”盒子内，并且可以如下所述使用。在HEIF中，“meta”盒子的Handler盒子的处理程序值是“pict”。包含编码媒体数据的资源(无论是在同一文件内，还是在由统一资源标识符标识的外部文件中)通过数据信息(“dinf”)盒子被解析，而项位置(“iloc”)盒子存储引用文件中每个项的位置和大小。项引用(“iref”)盒子使用类型化引用记录项之间的关系。如果项集合中有项在某种程度上被认为比其他项最重要，则该项由主要项(“pitm”)盒子发信号通知。除了这里提到的盒子外，“meta”盒子还可以灵活地包括描述项所需要的其他盒子。

同一文件中可以包括任何数目的图像项。给定使用“meta”盒子方法而存储的图像集合，限定图像之间的某些关系可能是重要的。这种关系的示例包括指示集合的封面图像、为集合中的一些或所有图像提供缩略图、以及将集合中的一些或所有图像与诸如阿尔法平面等辅助图像相关联。使用“pitm”盒子指示图像集合中的封面图像。缩略图或辅助图像分别使用“thmb”或“auxl”类型的项引用链接到主图像项。

用户可以消费作为视觉内容的视频和图像。然而，视频和图像的消费已经彼此独立。最近的应用(诸如沉浸式多媒体)的开发已经实现了用户同时消费视频和图像的新用例。

与2D内容的消费相比，沉浸式多媒体(诸如全方位内容消费)对最终用户而言更为复杂。这是由于最终用户可以获取更高的自由度。这种自由也导致了更多的不确定性。当渲染内容层时，情况会更加复杂，例如在覆盖层的情况下。

如本文中使用的，术语全向(omnidirectional)可以指代具有比渲染内容的设备的视场更大的空间范围的媒体内容。全向内容例如可以在水平维度上覆盖基本上360度，并且在垂直维度上覆盖基本上180度，但是全向也可以是指覆盖小于在水平方向上360度视图和/或在垂直方向上180度视图的内容。

覆盖水平360度视场和垂直180度视场的全景图像可以用球体表示，该球体已经使用例如等角投影(ERP)映射到二维图像平面。在ERP的情况下，水平坐标可以被认为等同于球体的经度，而垂直坐标可以被认为等同于纬度，而不应用任何变换或缩放。在某些情况下，具有360度水平视场但垂直视场小于180度的全景内容可以被视为等角投影的特殊情况，其中球体的极区没有被映射到二维图像平面上。在某些情况下，全景内容可以具有小于360度的水平视场和高达180度的垂直视场，而在其他方面具有等角投影格式的特性。

MPEG全向媒体格式(OMAF)v1标准化了单个3DoF内容的全向流式传输(其中观看者位于单位球体的中心并且具有三个自由度(偏航-俯仰-滚转)。标准化的下一阶段(MPEG-I阶段1b)正在进行中。预计该阶段将启用多个3DoF和3DoF+内容消费(视点)以及与用户交互的覆盖层支持。

在立方体贴图(cube map)投影格式中，球形视频被投影到立方体的六个面(也称为边)上。可以生成立方体贴图，例如通过首先从视点渲染球形场景六次，视图由表示每个立方体面的90度视锥体定义。立方体侧面可以被框架打包到同一框架中，或者每个立方体侧面可以单独地处理(例如，在编码中)。有很多可能的顺序可以将立方体侧面定位到框架上，和/或立方体侧面可以旋转或镜像。用于框架打包的框架宽度和高度可以被选择以“紧密”地配合立方体侧面，例如以3×2立方体侧面网格，或者可以包括未使用的组成框架，例如以4×3立方体侧面网格。

通常，360度内容可以映射到不同类型的固体几何结构上，诸如多面体(即，包含平面多边形面、直边和尖角或顶点的三维实体对象，例如立方体或金字塔)、圆柱体(通过将球面图像投影到圆柱体上，如上面使用等矩形投影所描述的那样)、圆柱体(不需要首先直接投影到球体上)、圆锥体等，然后展开到二维图像平面。二维图像平面也可以看作是一种几何结构。换言之，360度内容可以映射到第一几何结构，并且进一步展开到第二几何结构。然而，可以直接从原始360度内容或从其他宽视角视觉内容获取到第二几何结构的变换。通常，全向投影格式可以定义为用于在二维图像平面上表示(最多)360度内容的格式。全向投影格式的示例包括等矩形投影格式和立方体贴图投影格式。

OMAF定义了用于实现全向媒体访问和递送的格式。媒体组件分布在不同的比特流之间(例如，多个分辨率、比特率/质量)，以提供应用，在它们之间自由选择以解决各种系统挑战，诸如网络带宽、用户交互的时间和空间随机访问。

当前标准化的全向媒体格式(OMAF)v2支持使用多个全向和覆盖层视频和图像。需要支持图像内容的递送。

图1示出了OMAF系统架构的示例。如图1所示，全向媒体(A)被获取。全向媒体包括分别处理的图像数据(B_i)和音频数据(B_a)。

在图像拼接、旋转、投影和按区域打包中，作为输入(B_i)提供的源媒体的图像/视频被拼接以按照全局坐标轴在单位球体上生成球体图片。然后单位球体相对于全局坐标轴旋转。从局部坐标轴转换到全局坐标轴的旋转量可以由在RotationBox中指示的旋转角度指定。单位球体的局部坐标轴是已经旋转过的坐标系的轴。RotationBox的缺失表明局部坐标轴与全局坐标轴相同。然后，旋转后的单位球体上的球形图片被转换为二维投影图片，例如使用等角投影。当应用立体内容的空间打包时，两个视图的两个球形图片被转换为两个组成图片，之后，应用帧打包以将两个组成图片打包在一个投影图片上。然后，可以应用逐矩形区域打包以从投影图片中获取打包图片。然后，提供打包图片(D)以用于视频和图像编码，以产生编码图像(E_i)和/或编码视频流(E_v)。

源媒体的音频作为输入(B_a)被提供给音频编码，音频编码提供经编码音频(E_a)。然后，经编码数据(E_i、E_v、E_a)被封装到文件中以供回放(F)和递送(即，流式传输)(F_s)。

在OMAF播放器200中，文件解封装器处理文件(F'、F's)并且提取编码比特流(E'_i、E'_v、E'_a)，并且解析元数据。然后，音频、视频和/或图像被解码为经解码数据(D'、B'_a)。根据由头部/眼睛跟踪设备感测的视点和取向，解码后的图片(D')被投影到显示器上。同样，解码后的音频(B'_a)通过扬声器/耳机被渲染。

视口可以定义为适合显示和由用户查看的全向图像或视频区域。当前视口(有时可以简称为视口)可以定义为当前显示并且因此由(多个)用户可查看的球形视频的一部分。在任何时间点，由应用在头戴式显示器(HMD)上渲染的视频都会渲染360度视频的一部分，这称为视口。同样，当在常规显示器上查看360度内容的空间部分时，当前显示的空间部分是视口。视口是在经由渲染显示器而显示的全向视频中表示的360度世界上的窗口。视口的特征可以是水平视场(VHFoV)和垂直视场(VVFoV)。在下文中，视口的水平视场将缩写为HFoV，并且视口的垂直视场将缩写为VFoV。

球体区域可以定义为球体上的一个区域，该区域可以由四个大圆或两个方位角圆和两个仰角圆指定，另外还可以由倾斜角指定，该倾斜角指示沿从球体原点穿过球体区域的中心点的轴的旋转。大圆可以定义为球体与穿过球体的中心点的平面的交点。大圆也称为正交圆或黎曼圆。方位圆可以定义为球面上连接具有相同方位值的所有点的圆。高度圆可以定义为球体上连接具有相同高度值的所有点的圆。

全向媒体格式(“OMAF”)标准(ISO/IEC 23090-2)为球体区域指定了通用的定时元数据语法。定时元数据轨道的用途由轨道样本条目类型指示。所指定的球体区域的所有元数据轨道的样本格式以公共部分开始，并且后面可以是特定于元数据轨道的样本条目的扩展部分。每个样本指定球体区域。

在OMAF中指定的特定球体区域定时元数据轨道中的一个称为推荐的视口定时元数据轨道，该轨道指示当用户无法控制查看取向或已经释放对查看取向的控制时应当显示的视口。推荐的视口定时元数据轨道可以用于基于“导演剪辑”或基于查看统计的测量来指示推荐的视口。推荐的视口的文本描述可以在示例条目中提供。推荐的视口的类型可以在示例条目中指示，并且可以是以下各项：

a.每个导演剪辑的推荐的视口，例如，根据内容作者或内容提供者的创作意图而建议的视口；

b.基于观看统计数据的测量而选择的推荐的视口；

c.由应用或外部规范定义。

视点或观察点定义为用户观看场景的点；它通常对应于相机位置。轻微的头部运动并不意味不同的视点。

如本文中使用的，术语“观察点或视点”是指用于虚拟现实音频/视频获取或回放的三维空间中的体积。视点是围绕用于全向音频/视频获取的设备或装备的中心点以及观察者头部在音频和视频轨道所在的三维空间中的位置的轨迹，例如圆、区域或体积。在某些情况下，跟踪观察者的头部位置，并且针对头部旋转和头部运动调节渲染，然后可以将视点理解为观察者头部的初始或参考位置。在使用DASH(HTTP上的动态自适应流)的实现中，每个观察点可以由视点属性描述符定义为视点。该定义可以以ISOBMFF或OMAF类型的文件格式存储。除了DASH之外，传输还可以是HLS(HTTP实时流)、RTSP/RTP(实时流协议/实时传输协议)流。

如本文中使用的，术语“视点组”是指空间相关或逻辑相关的一个或多个视点。视点组中的视点可以基于相对于组的指定原点针对每个视点定义的相对位置来定义。每个视点组还可以包括默认视点，该默认视点反映当用户开始消费视点组中的视听内容而不选择视点进行回放时的默认回放起始点。默认视点可以与指定原点相同。在一些实施例中，一个视点可以被包括在多个视点组中。

如本文中使用的，术语“空间相关的视点组”是指具有在它们之间具有空间关系的内容的视点。例如，VR相机在同一篮球场在不同位置捕获的内容，或者从舞台上不同位置捕获的音乐会。

如本文中使用的，术语“逻辑相关的视点组”是指不具有明确空间关系但逻辑相关的相关视点。逻辑相关观点的相对位置基于创作意图来描述。例如，作为逻辑相关的视点组的成员的两个视点可以对应于来自表演区和更衣室的内容。另一示例可以是来自两个竞争球队更衣室的两个视点，它们形成一个逻辑相关的视点组，以允许用户在两个球队之间遍历以查看球员的反应。

如本文中使用的，术语“静态视点”是指在一个虚拟现实音频/视频获取和回放会话期间保持静止的视点。例如，静态视点可以对应于由固定相机执行的虚拟现实音频/视频获取。

如本文中使用的，术语“动态视点”是指在一个虚拟现实音频/视频获取和回放会话期间不保持静止的视点。例如，动态视点可以对应于由轨道上的移动相机或飞行无人机上的移动相机执行的虚拟现实音频/视频获取。

如本文中使用的，术语“观看设置”是指一个或多个视点和观看取向的设置。在只有一个视点可用的呈现的上下文中，不需要为观看设置明确指示或结束视点。如果呈现具有多个可用的视点，则将基于一个或多个视点组设置视点，并且每个视点组中的视点之间的空间或逻辑关系将在观看设置中指示。

术语“覆盖层(overlay)”是指在360度视频内容上渲染的视觉媒体。

视频和/或图像可以覆盖在全向视频和/或图像上。经编码的覆盖视频可以是单独的流或当前渲染的360度视频/图像的比特流的一部分。全向流式传输系统可以将视频/图像覆盖在正在渲染的全向视频/图像之上。覆盖的二维视频/图像可以具有矩形网格或非矩形网格。覆盖过程可以遮盖被覆盖的视频/图像或视频/图像的一部分，或者可以存在某种级别的透明度/不透明度或一个以上的级别的透明度/不透明度，其中被覆盖的视频/图像可以在覆盖的视频/图像下方看到但亮度较低。换言之，可能存在与前景覆盖中的视频/图像和背景中的视频/图像(VR场景的视频/图像)相对应的相关透明度级别。术语不透明度和透明度可以互换使用。

覆盖区域可以具有一个或一个以上的级别的透明度。例如，覆盖区域可以具有透明度不同的不同部分。根据一个实施例，透明度级别可以定义在某个范围内，例如从0到1，使得值越小透明度越小，反之亦然。

此外，内容提供方可以选择将同一全向视频的一部分覆盖在用户的当前视口之上。内容提供方可能想要基于用户的观看条件覆盖视频。例如，如果用户的视口与内容提供商推荐视口不匹配，则可以执行覆盖。在这种情况下，客户端播放器逻辑将内容提供方的推荐视口(作为预览窗口)覆盖在用户当前视口之上。如果用户的当前视口不匹配，也可以覆盖推荐的视口，使得覆盖视频的位置基于用户观看的方向。例如，如果推荐视口位于用户当前视口的左侧，则将推荐视口覆盖在显示器的左侧。也可以覆盖整个360度视频。又一示例是使用覆盖的视觉信息作为引导机制来引导用户朝向推荐视口，例如引导听力受损的人。

关于何时以及如何显示视觉覆盖层可能存在一个或多个条件。因此，渲染设备可能需要接收渲染设备可以用于执行由发信号通知的信息指示的覆盖的信息。

可以在单个视觉媒体轨道或单个图像项中携带一个或多个覆盖层。当在单个轨道或图像项中携带一个以上的覆盖层时，或者当覆盖层与其他媒体(例如，背景)一起携带时，可以提供从轨道或图像项的样本到覆盖层元数据的区域映射，例如在OverlayStruct中或与之相关联。

当若干轨道或图像项共同携带一个或多个覆盖层和/或背景视觉媒体时，一组轨道和图像项可以在容器文件中指示。例如，ISOBMFF的实体组可以用于该目的。

覆盖层可以位于用户视场(FOV)之外，即用户的视口与覆盖层不重叠。例如，在用户在全向媒体内容回放期间旋转之后，用户的视口变得与视觉覆盖层不重叠。根据具体情况，当用户没有观看覆盖层时，可能需要继续或暂停覆盖层的回放。例如，可能需要暂停覆盖层回放的时间线，直到覆盖层再次与用户的视口重叠。即使覆盖层在用户的视口之外，也可能需要继续回放覆盖层。因此，需要一种支持多条回放时间线的机制，进而支持独立于基本内容的自定义覆盖层回放/暂停。因此，根据示例实施例提供了一种方法、装置和计算机程序产品，以便在回放具有覆盖层的全向媒体内容时实现多时间线支持，这继而根据覆盖层是否与用户的视口重叠而实现定制的覆盖层回放行为。

Matroska文件格式能够(但不限于)将任何视频、音频、图片或字幕轨道存储在一个文件中。Matroska文件扩展名包括用于视频(带字幕和音频)的.mkv、用于立体视频的.mk3d、用于仅音频文件的.mka、和用于仅字幕的.mks。Matroska可以用作衍生文件格式(如WebM)的基础格式。

Matroska使用可扩展二进制元语言(EBML)作为基础。EBML指定了一种受XML原理启发的二进制和八位字节(字节)对齐的格式。EBML本身是对二进制标记技术的概括描述。Matroska文件由构成EBML“文档”的元素组成。元素包含元素ID、元素大小的描述符和二进制数据本身。元素可以嵌套。

Matroska的分段元素是用于其他顶级(1级)元素的容器。Matroska文件可以包括(但不限于由其组成)一个分段。Matroska文件中的多媒体数据以簇(或簇元素)的形式进行组织，每个簇通常包含几秒钟的多媒体数据。簇包括块组元素，而块组元素又包括块元素。开端(Cues)元素包括可以帮助随机访问或搜索的元数据，并且可以包括文件指针或搜索点的相应时间戳。

统一资源标识符(URI)可以定义为用于标识资源名称的字符串。这种标识能够使用特定协议通过网络与资源的表示进行交互。URI是通过为URI指定具体语法和相关协议的方案来定义的。统一资源定位符(URL)和统一资源名称(URN)是URI的形式。URL可以定义为URI，该URI标识网络资源并且指定作用于或获取资源表示的方式，以指定其主要访问机制和网络位置两者。URN可以定义为在特定命名空间中按名称标识资源的URI。URN可以用于标识资源而不暗示其位置或访问方式。

URL可以定义为具有以下语法：scheme://[user:password@]domain:port/path？query_string#fragment_id。该方案可以但不是必须指明协议的名称(例如，http)。Domain指示互联网协议地址或域名，其可以通过DNS(域名系统)协议进行解析。port number指示使用的互联网协议端口。path指示URL指向的资源，诸如文件。查询字符串(query string)包含要传递给解析URL的实体的数据。它可以包含由&号分隔的名称值对，例如？first_para＝123&second_para＝ABC。片段标识符(fragment identifier)指定资源的一部分。片段标识方案可以取决于资源的MIME类型。查询字符串可以由解析URL的实体解析，例如HTTP服务器，而片段标识符可以由请求由URL指定的资源的客户端解析。

超文本传输协议(HTTP)已经广泛用于通过互联网递送实时多媒体内容，例如在视频流应用中。已经推出了几种基于HTTP的自适应流媒体解决方案，例如

Smooth Streaming、

Adaptive HTTP Live Streaming和

DynamicStreaming，并且开展了标准化项目。自适应HTTP流(AHS)在第3代合作伙伴计划(3GPP)分组交换流(PSS)服务的版本9中首次标准化(3GPP TS26.234版本9：“Transparent end-to-endpacket-switched streaming service(PSS)；protocols and codecs”)。MPEG将3GPP AHS版本9作为MPEG DASH标准的起点(ISO/IEC 23009-1：“Dynamic adaptive streaming overHTTP(DASH)-Part 1:Media presentation description and segment formats”)。MPEGDASH和3GP-DASH在技术上彼此接近，并且因此可以统称为DASH。下面将DASH的一些概念、格式和操作描述为视频流传输系统的示例，其中可以实现实施例。本发明的方面不限于DASH，而是针对一种可能的基础给出描述，在该基础上，可以部分地或完全地实现本发明。

在DASH中，多媒体内容可以存储在HTTP服务器上，并且可以使用HTTP递送。内容可以分两部分存储在服务器上：媒体呈现描述(MPD)，它描述了可用内容的清单、其各种替代方案、它们的URL地址和其他特性；以及分段，它们包含单个或多个文件中的分块(chunk)形式的实际多媒体比特流。MPD为客户端提供必要的信息，以通过HTTP建立动态自适应流。MPD包含描述媒体呈现的信息，诸如每个分段的HTTP统一资源定位符(URL)，以发出GET分段请求。

为了播放内容，DASH客户端可以通过例如HTTP、电子邮件、U盘、广播或其他传输方法来获取MPD。通过解析MPD，DASH客户端可以了解程序时间、媒体内容可用性、媒体类型、分辨率、最小和最大带宽、以及多媒体组件的各种编码替代方案、可访问性特征和所需要的数字权限管理(DRM)、网络上的媒体组件位置和其他内容特性的存在。例如，使用该信息，DASH客户端可以选择适当的编码替代方案，并且通过使用HTTP GET请求取回分段来开始流式传输内容。在适当的缓冲以允许网络吞吐量变化之后，客户端可以继续取回后续分段并且监测网络带宽波动。客户端可以决定如何通过取回不同替代方案(具有更低或更高比特率)的分段来适应可用带宽，以保持足够的缓冲区。

在DASH的上下文中，可以使用以下定义：媒体内容组件或媒体组件可以被定义为具有分配的媒体组件类型的媒体内容的一个连续组件，该媒体组件类型可以单独地编码到媒体流中。媒体内容可以定义为一个媒体内容时段或媒体内容时段的连续序列。媒体内容组件类型可以定义为单一类型的媒体内容，例如音频、视频或文本。媒体流可以被定义为媒体内容组件的编码版本。

在DASH中，层次(hierarchical)数据模型用于如下构造媒体表示。媒体呈现由一个或多个时段的序列组成，每个时段包含一个或多个组，每个组包含一个或多个适配集(Adaptation Set)，每个适配集包含一个或多个表示，每个表示由一个或多个分段组成。组可以被定义为不期望同时呈现的适配集的集合。适配集可以定义为一个或若干媒体内容组件的一组可互换编码版本。表示是媒体内容或其子集的替代选择中的一项，其通常因编码选择而不同，例如比特率、分辨率、语言、编解码器等。分段包含一定持续时间的媒体数据、以及用于解码和呈现所包括的媒体内容的元数据。分段由URI标识，并且通常可以通过HTTPGET请求来请求。分段可以定义为与HTTP-URL相关联的数据单元，并且可选地，可以定义为由MPD指定的字节范围。

DASH MPD符合可扩展标记语言(XML)，并且因此通过XML中定义的元素和属性来指定。MPD可以使用以下约定来指定：XML文档中的元素可以由大写的第一字母标识，并且可以粗体呈现为Element。为了表示元素Element1被包含在另一元素Element2中，可以写为Element2.Element1。如果元素的名称由两个或更多个组合词组成，则可以使用驼峰命名法，例如ImportantElement。元素可以只出现一次，或者最小和最大出现次数可以由<minOccurs>...<maxOccurs>定义。XML文档中的属性可以用小写的首字母标识，也可以在它们前面加上“@”符号，例如@attribute，例如。为了指向元素中包含的特定属性@attribute，可以写为Element@attribute。如果属性的名称由两个或更多个组合词组成，则可以在第一词之后使用驼峰式大小写，诸如@veryImportantAttribute。属性可能已经在XML中分配了状态，如强制(M)、可选(O)、带默认值的可选(OD)和有条件强制(CM)。

在DASH中，所有描述符元素通常以相同的方式构造，因为它们包含@schemeIdUri属性，该属性提供用于标识方案的URI、以及可选属性@value和可选属性@id。元素的语义特定于所采用的方案。标识方案的URI可以是URN或URL。某些描述符在MPEG-DASH(ISO/IEC23009-1)中指定，而描述符可以另外地或替代地在其他规范中指定。当在MPEG-DASH以外的规范中指定时，MPD不提供有关如何使用描述符元素的任何特定信息。采用DASH格式利用适当方案信息来实例化描述元素取决于应用或规范。使用这些元素中的一个元素的应用或规范以URI的形式定义方案标识符，并且在使用该方案标识符时定义元素的值空间。方案标识符出现在@schemeIdUri属性中。在需要一组简单的枚举值的情况下，可以为每个值定义文本字符串，并且该字符串可以被包括在@value属性中。如果需要结构化数据，则可以在单独的命名空间中定义任何扩展元素或属性。@id值可以用于引用唯一描述符或一组描述符。在后一种情况下，可能要求属性@id具有相同值的描述符是同义的，即处理具有相同@id值的描述符中的一个就足够了。如果元素名称、@schemeIdUri的值和@value属性的值是等效的，则DescriptorType类型的两个元素是等效的。如果@schemeIdUri是URN，则等效性可以是指RFC2141第5条中定义的词法等效。如果@schemeIdUri是URL，则等效性可以是指在RFC3986的第6.2.1条中定义的逐字符的等效。如果@value属性不存在，则等效性可能仅由@schemeIdUri的等效确定。扩展名称空间中的属性和元素可能不会用于确定等效性。@id属性可以被忽略以用于等效性确定。

MPEG-DASH指定描述符EssentialProperty和SupplementalProperty。对于元素EssentialProperty，媒体呈现作者表达，描述符的成功处理对于正确使用包含该描述符的父元素中的信息是至关重要的，除非该元素与另一EssentialProperty元素共享相同的@id。如果EssentialProperty元素共享相同的@id，则处理具有相同@id值的EssentialProperty元素中的一个元素就足够了。每个不同的@id值至少有一个EssentialProperty元素预期会被处理。如果无法识别EssentialProperty描述符的方案或值，则DASH客户端应当忽略包含该描述符的父元素。MPD中可以存在多个EssentialProperty元素具有相同@id值和不同@id值。

对于元素SupplementalProperty，媒体呈现作者表达，描述符包含DASH客户端可以用于优化处理的补充信息。如果无法识别SupplementalProperty描述符的方案或值，则DASH客户端应当忽略该描述符。MPD中可以存在多个SupplementalProperty元素。

MPEG-DASH指定了被格式化为属性描述符的Viewpoint元素。Viewpoint元素的@schemeIdUri属性用于标识所采用的视点方案。包含非等效Viewpoint元素值的适配集包含不同的媒体内容组件。Viewpoint元素同样可以应用于不是视频的媒体内容类型。具有等效Viewpoint元素值的适配集旨在一起呈现。该处理应当同样适用于已经识别和未识别的@schemeIdUri值。

SRD(空间关系描述)在MPEG-DASH的规范性附录H中指定。以下包含SRD规范的一些摘录。

SRD方案允许媒体呈现描述作者表达空间对象之间的空间关系。空间对象由适配集或子表示表示。例如，空间关系可以表达，视频表示另一全帧视频的空间部分(例如，感兴趣的区域、或图块)。

@schemeIdUri等于“urn:mpeg:dash:srd:2014”的SupplementalProperty和/或EssentialProperty描述符用于提供与包含空间对象相关联的空间关系信息。SRD应当仅包含在这两个MPD元素(适配集(AdaptationSet)和子表示(SubRepresentation))中。

子表示级别SRD可以用于在一个表示中表示空间对象，例如HEVC切片流。在这种情况下，SRD描述符可以存在于适配集以及子表示级别。

使用SRD方案的SupplementalProperty或EssentialProperty元素的@value是逗号分隔的SRD参数值列表。SRD参数source_id、object_x、object_y、object_width和object_height必须存在，并且SRD参数total_width、total_height和spatial_set_id有条件地或可选地存在。

source_id是十进制表示的非负整数，以提供内容源的标识符。source_id参数在时段(Period)内为内容的来源提供唯一标识符。它隐含地定义了与该源相关联的坐标系。该坐标系使用任意原点(0；0)；x轴从左到右，y轴从上到下。共享相同source_id值的所有SRD具有相同的原点和轴取向。使用具有不同source_id值的SRD的空间对象的空间关系未定义。

对于给定source_id值，定义了参考空间，该参考空间对应于包含整个源内容的矩形区域，其左上角位于坐标系的原点。SRD中的total_width和total_height值提供了以任意单位表示的参考空间的大小。total_width是十进制表示的非负整数，表示参考空间的以任意单位的宽度。total_height是十进制表示的非负整数，表示参考空间的以任意单位的高度。允许MPD中没有覆盖整个内容源的空间对象，例如当整个源内容由两个单独的视频表示时。

object_x是十进制表示的非负整数，表示空间对象左上角的以任意单位的水平位置。object_y是十进制表示的非负整数，表示空间对象左上角的以任意单位的垂直位置。object_width是十进制表示的非负整数，以任意单位表示空间对象的宽度。object_height是十进制表示的非负整数，表示空间对象的以任意单位的高度。object_x和object_y参数(分别为object_width和object_height)表示相关空间对象在与源关联的坐标系中的2D位置(分别为2D大小)。object_x、object_y、object_width和object_height参数的值与上面定义的total_width和total_height参数的值相关。共享相同source_id值的SRD的位置(object_x,object_y)和大小(object_width,object_height)可以在考虑参考空间的大小后进行比较，即在object_x和object_width值除以total_width值并且object_y和object_height值除以其相应描述符的total_height值之后。在不同的描述符中可以使用不同的total_width和total_height值来为相同的参考空间提供不同单位的位置和大小信息。

spatial_set_id是十进制表示的非负整数，为一组空间对象提供标识符。当不存在时，与该描述符相关联的空间对象不属于任何空间集，并且不给出空间集信息。MPD作者可以使用spatial_set_id参数表示给定source_id内的某些空间对象具有特定的空间关系。例如，MPD作者可以将与同一分辨率级别的图块相对应的所有适配集分组。这样，DASH客户端可以使用spatial_set_id参数快速选择空间相关的空间对象。

初始化分段可以定义为包含元数据的分段，该元数据是呈现封装在媒体分段中的媒体流所必需的。在基于ISOBMFF的分段格式中，初始化分段可以包括电影盒子(“moov”)，该电影盒子可能不包括任何样本的元数据，即，样本的任何元数据都在“moof”盒子中提供。

媒体分段包含一定持续时间的媒体数据以正常速度回放，这种持续时间称为媒体分段持续时间或分段持续时间。内容生产方或服务提供方可以根据服务的期望特性来选择分段持续时间。例如，可以在实时服务中使用相对较短的分段持续时间来实现较短的端到端延迟。原因是，分段持续时间通常是DASH客户端感知的端到端延迟的下限，因为分段是为DASH生成媒体数据的离散单元。内容生成通常以使得整个媒体数据分段可供服务器使用的方式被完成。此外，很多客户端实现使用分段作为GET请求的单元。因此，在直播服务的典型布置中，只有当媒体分段的整个持续时间可用以及编码和封装到分段中时，DASH客户端才能请求分段。对于按需服务，可以使用不同的选择分段持续时间的策略。

例如，分段可以进一步分割为子分段以实现分多个部分下载分段。可能需要子分段包含完整的访问单元。子分段可以由分段索引盒子索引，该盒子包含针对每个子分段映射呈现时间范围和字节范围的信息。分段索引盒子还可以通过发信号通知它们的持续时间和字节偏移来描述分段中的子分段和流访问点。DASH客户端可以使用从(多个)分段索引盒子获取的信息，以使用字节范围HTTP请求对特定子分段发出HTTP GET请求。如果使用相对较长的分段持续时间，则可以使用子分段来保持HTTP响应的大小合理和灵活，以适应比特率。分段的索引信息可以放在分段开头的单个盒子中，也可以分布在分段中的多个索引盒子中。不同的传播方法是可能的，例如分层、菊花链和混合。这种技术可以避免在分段的开头添加一个大盒子，因此可以防止可能的初始下载延迟。

子表示嵌入在常规表示中，并且由SubRepresentation元素描述。SubRepresentation元素被包含在表示元素中。SubRepresentation元素描述嵌入在表示中的一个或多个媒体内容组件的属性。例如，它可以描述嵌入式音频组件(例如，编解码器、采样率等)、嵌入式字幕(例如，编解码器)的确切属性，或者它可以描述某个嵌入式质量较低的视频层(例如，某个较低的帧速率等)。子表示和表示共享一些公共属性和元素。如果SubRepresentation元素中存在@level属性，则以下情况适用：

子表示提供了访问包含它们的表示的较低质量版本的能力。在这种情况下，子表示例如允许在多路复用表示中提取音轨，或者如果被提供有较低帧速率，则可以允许有效的快进或倒带操作；

初始化分段和/或媒体分段和/或索引分段应当提供足够的信息，使得可以通过HTTP部分GET请求轻松访问数据。提供这样的信息的细节由使用的媒体格式定义。

当使用ISOBMFF分段时，以下内容适用：

初始化分段包含级别分配盒子。

每个子分段存在子分段索引盒子(“ssix”)。

属性@level指定所描述的子表示在子分段索引中关联到的级别。表示、子表示和级别分配(‘leva’)盒子中的信息包含有关将媒体数据分配到级别的信息。媒体数据应当具有顺序，使得每个级别与较低级别相比提供增强。

如果@level属性不存在，则子表示元素仅用于为嵌入在表示中的媒体流提供更详细的描述。

ISOBMFF包括所谓的级别机制来指定文件的子集。级别遵循依赖层次，使得映射到级别n的样本可以依赖于级别m的任何样本，其中m<＝n，并且不依赖于级别p的任何样本，其中p>n。例如，级别可以根据时间子层(例如，HEVC的TemporalId)来指定。级别可以在包含在电影扩展('mvex')盒子中的级别分配('leva')盒子中宣告。无法为初始电影指定级别。当级别分配盒子出现时，它适用于初始电影之后的所有电影片段。对于级别分配盒子的上下文，片段(fraction)定义为由一个或多个电影片段盒子和相关联的媒体数据盒子组成，可能仅包括最后的媒体数据盒子的初始部分。在一个片段内，每个级别的数据连续出现。片段内的级别数据以级别值的递增顺序出现。片段中的所有数据都分配给级别。级别分配盒子提供了从特征(例如，可扩展性层或时间子层)到级别的映射。特征可以通过轨道、轨道内的子轨道或轨道的样本分组来指定。例如，时间级别样本分组可以用于指示图片到时间级别的映射，时间级别相当于HEVC中的时间子层。即，某个TemporalId值的HEVC图片可以使用时间级别样本分组被映射到特定时间级别(并且可以对所有TemporalId值重复相同的操作)。然后，级别分配盒子可以参考到级别的所指示的映射中的时间级别样本分组。

子分段索引盒子(“ssix”)提供从级别(由级别分配盒子指定)到索引子分段的字节范围的映射。换言之，该盒子提供紧凑索引，用于说明如何根据级别将子分段中的数据排序为部分子分段。它使得客户端能够通过下载子分段中的数据范围轻松访问部分子分段的数据。当子分段索引盒子出现时，子分段中的每个字节都被分配到级别。如果范围不与级别分配中的任何信息相关联，则可以使用级别分配中未包括的任何级别。每个分段索引盒子存在0或1个子分段索引盒子，它们仅索引叶(leaf)分段，即仅索引子分段但没有分段索引。子分段索引盒子(如果有的话)是相关分段索引盒子之后的下一盒子。子分段索引盒子记录了紧接在前面的分段索引盒子中指示的子分段。每个级别可以确切地分配给一个部分子分段，即一个级别的字节范围是连续的。部分子分段的级别通过增加子分段内的数目来分配，即，部分子分段的样本可以取决于同一子分段中先前部分子分段的任何样本，但反之则不然。例如，每个部分子分段包含具有相同时间子层的样本，并且部分子分段在子分段内以增加的时间子层顺序出现。当以这种方式访问部分子分段时，最终的媒体数据盒子可能是不完整的，即，与媒体数据盒子指示的长度指示存在相比，访问的数据更少。媒体数据盒子的长度可能需要调节，或者可以使用填充。级别分配盒子中的padding_flag指示是否可以用零替换该丢失的数据。如果不是，则分配给未访问级别的样本的样本数据不存在，并且应当注意。

MPEG-DASH为ISOBMFF和MPEG-2传输流两者定义了分段容器格式。其他规范可以基于其他容器格式指定分段格式。例如，已经提出了一种基于Matroska容器文件格式的分段格式，其可以总结如下。当Matroska文件作为DASH分段或类似文件被承载时，DASH单元和Matroska单元的关联可以指定如下。(DASH的)子分段可以定义为Matroska封装内容的一个或多个连续集群。DASH的初始化分段可能需要包括EBML报头、分段报头(Matroska)、分段信息(Matroska)和轨道，并且可以可选地包括其他级别1(level1)元素和填充。DASH的分段索引可以包括Matroska的提示元素。

OMAF定义了用于关联各种DASH元素的MPEG-DASH元素。@schemeIdUri属性等于“urn:mpeg:mpegI:omaf:2018:assoc”的SupplementalProperty元素称为关联描述符。一个或多个关联描述符可以存在于适配集级别、表示级别、预选级别。被包括在适配集/表示/预选元素内的关联描述符指示该元素的描述符的父元素(即，适配集/表示/预选元素)与omaf2:Association元素中的XPath查询指示的MPD中的一个或多个元素和由omaf2:@associationKindList发信号通知的关联类型相关联。

在OMAF DASH MPD中，@schemeIdUri属性等于“urn:mpeg:mpegI:omaf:2018:vwpt”的Viewpoint元素被称为视点信息(VWPT)描述符。

在适配集级别最多可以存在一个VWPT描述符，并且在任何其他级别都不应存在VWPT描述符。当媒体呈现中没有适配集包含VWPT描述符时，媒体呈现被推断为仅包含一个视点。

@value指定视点的视点ID。ViewPointInfo是Container元素，其子元素和属性提供有关视点的信息。ViewPointInfo@label属性指定字符串，该字符串为视点提供人类可读标签。该元素的ViewPointInfo.Position属性指定视点的位置信息。

搜索预览和缩略图导航为DASH客户端提供了为UI清理实现缩略图的可能性。这可以使用单独的视频适配集和使用特技模式特征来实现。但是，该特征在播放器中实现可能相对复杂，并且需要双视频解码器。在更简单的方法中，可以使用20个图像图块(tiles)的序列，每个图像图块具有多个缩略图以提供这样的缩略图。

为了提供易于访问的带有时间的缩略图，可以在MPD中使用带有新@contentType＝"image"的AdaptationSet。一个典型的用例是利用视觉开端增强擦洗条(scrub bar)。所指的实际资产是时间上等距的缩略图的矩形图块，它们组合成一个jpeg或png图像。因此，从MPD时序的角度来看，图块与视频分段非常相似，但通常要长得多。对于视频，可以将不同的空间分辨率收集到一个AdapationSet中。为了限制实现工作，仅使用带有$Number$的SegmentTemplate来描述缩略图图块及其时间。

预计DASH客户端能够通过下载图像并且使用基于浏览器的处理将缩略图分配给媒体呈现时间线，来处理这样的适配集。

很多参数与视频相同，但对于缩略图图块来说是新的，矩形网格尺寸作为EssentialProperty的值给出，@schemeIdUri设置为“http://dashif.org/guidelines/thumbnail_tile”。

如果对“http://dashif.org/guidelines/thumbnail_tile”存在具有@schemeIdUriset的EssentialProperty描述符，则应使用AdaptationSet的以下属性和元素来描述图块化(tiling)，如下所示：描述符的值提供作为无符号整数的图块的水平和垂直数目，用“x”分隔。这两个值在下文中称为htiles和vtiles。

@duration，以@timescaleattritube的值(如果存在)提供的时间刻度表示媒体呈现时间轴中一个图块的持续时间，否则以秒为单位。该值在下文中称为tduration。

@bandwidth表示最大图块大小(以位为单位)除以tduration值提供的一个图块的持续时间。

@width和@height表示图块的空间分辨率。注意，JPEG图像的最大尺寸是64k的宽度和高度。

每个图块都分配了从1开始的编号。图块编号称为tnumber。

可以存在@startNumber以指示时段中的第一图块的编号。如果不存在，则第一编号默认为1。起始数字的值称为startnumber。

可以存在@presentationTimeOffset以指示缩略图序列在时段开始时的呈现时间。如果不存在，则第一编号默认为0。时间刻度由@timescaleattritube的值提供(如果存在)，否则以秒为单位。呈现时间偏移的值称为pto。

根据这些信息，可以得出以下信息：

·通过将htiles与vtiles相乘，获取关于一个图块中包括多少个缩略图的信息。这个数字被称为ttiles。

·可以在时段中请求的第一图块称为startnumber，startnumber用于分段模板中。

·每个图块在该时段内的呈现时间定义为(tnumber-1)＊tduration-pto。

·每个缩略图的持续时间定义为tduration/ttiles。该值称为thduration。

·缩略图排序是从左到右，逐行，从顶行开始。时段中的最后的图块可能有超出时间间隔的缩略图。内容提供方可以使用任何填充像素到这样的图块，例如添加黑色缩略图。图块中缩略图的编号称为thnumber。

·小图块内缩略图的呈现时间被定义为(thnumber-1)＊thduration，即时段内的呈现被定义为(tnumber-1)＊tduration+(thnumber-1)*thduration-pto。

·每个缩略图的垂直尺寸被定义为@height/vtiles，每个缩略图的水平尺寸被定义为@width/htiles。

·时段中的缩略图总数(简称为tthumbnails)是时段持续时间的上限除以thduration。

缩略图是以规则时间间隔拍摄的内容的小图像。它们是可视化擦洗和根据内容搜索的有效方式。

当前没有默认方法可以将缩略图支持添加到回放应用。并且没有开箱即用的浏览器支持。但是，由于缩略图是图像数据，因此浏览器具有客户端在应用中实现缩略图导航的所有功能。

生成缩略图的最常见方法是在固定的时间间隔内从主要内容中渲染一组图像，例如每10秒。然后需要将有关这些图像位置的信息传递给客户端，然后客户端可以请求并且加载给定回放位置的图像。为了更高效地加载，图像通常被合并成更大的网格(有时称为子画面(sprite))。这样，客户端只需要发出一个请求来加载一组缩略图，而不是针对每个图像的请求。

目前，DASH和HLS都没有指定直接从清单中引用缩略图的方法。但是，DASH-IF指南[DASHIFIOP]描述了引用缩略图图像的扩展。缩略图将显示为单个或网格的图像。加载和显示缩略图所需要的所有参数都包含在清单中。这种方法也适用于玩家定期更新的实时清单。以下示例示出了如何根据DASH-IF指南引用缩略图：

示例1：DASH-Manifest中的缩略图引用

角色描述符在MPEG DASH规范(ISO/IEC 23009-1)中指定。URN“urn:mpeg:dash:role:2011”在ISO/IEC 23009-1中定义，用于识别下表中定义的角色方案。注意，Role@value应当分配给包含与该角色相关联的媒体组件类型的适配集。

值为“urn:mpeg:dash:role:2011”的方案的Role@value属性

子集由包含在Period元素中的Subset元素描述。

子集提供了一种机制来限制活动适配集的组合，其中活动适配集是DASH客户端为其呈现至少一个包含的表示的适配集。

子集定义了一组一个或多个适配集。Period元素中Subset元素的存在表达了媒体呈现的创建者的意图，即客户端应按如下方式操作：在任何时候，活动的适配集的集合应是指定子集中的一个的适配集的子集。任何未显式地包含在任何子集元素中的适配集都隐含地包含在所有指定子集中。

这表示：

-不允许空子集。

-任何子集都不应包含所有适配集。

在@contains属性中为其提供@id值的每个适配集都包含在该子集中。

下表提供了子集中属性和元素的语义。

Subset元素语义

MPEG-DASH主要指定用于递送视频分段的格式，而不涉及图像的递送。

OMAF v2版本预计将包括附加的“层”，例如覆盖层和视点，以实现身临其境的互动式故事讲述。这样的附加层可能涉及需要以标准化方式递送给客户端的图像。

在目前的形式中，MPEG-DASH和OMAF都没有定义任何机制来支持封面图像。当MPD中定义了多个视点和多个缩略图时，DASH播放器无法解析缩略图与视点/覆盖层之间的对应性/关联/关系，除非它下载所有视点/覆盖层和缩略图文件。此外，当前版本的OMAF没有指定任何机制来递送在作为图像时的覆盖层和视点。

本实施例针对MPEG-DASH中的图像信令。在本实施例中，使用以下术语和定义：

-图像是由图像项或样本描述的不同颜色分量的一个或多个像素阵列。

–经编码图像是图像的编码表示。

-派生图像是将图像表示为对其他图像的操作。

-与样本数据相反，项是不需要定时处理的数据，并且由MetaBox中包含的盒子描述。

-图像项是经编码图像项或派生图像项。

-派生图像项是其数据是派生图像的项。

–经编码图像项是其数据是经编码图像的项。

图像文件可以包含图像或经编码图像或派生图像或图像项。例如，图像文件可以是符合HEIF、MIAF(多图像应用格式)或image/jpeg MIME类型的文件。在所呈现的实施例中，图像文件可以互换地指代存储在文件系统中的文件，或指代通过诸如URI等标识符可访问的资源。

可以为特定内容类型指定URL片段标识符(也可以称为URL形式)以访问由URL的基本部分(没有片段标识符)指示的资源的一部分，例如文件。URL片段标识符可以通过例如URL中的哈希('#')字符来标识。

尽管在本说明书中使用了术语“图像文件”，但需要理解，实施例另外地或替代地适用于图像文件内的图像或图像项。在一些实施例中，URL片段可以用于寻址图像文件内的单个图像或图像项。ISOBMFF和派生文件格式(例如，HEIF和MIAF)的URL片段方案在ISOBMFF的附件C中指定。图像项可以通过将URL片段item_ID＝<item_ID>添加到URI中来寻址。<item_id>是一个值(可以由以基于10的无符号整数的字符串表示)，它在具有给定item_id的文件级别标识MetaBox的项。URL片段被包括在URI中，使用分隔符“#”或“*”，后者表示应寻址或解析该片段。

在一个实施例中，URL查询字符串可以用于寻址图像文件内的单个图像或图像项。

在MPEG-DASH中指示图像文件

在下文中，将描述用于在MPEG-DASH中指示媒体实体的一些实施例。应当理解，示例实施例是作为示例提供的，因此实施例不限于MPEG-DASH。媒体实体可以是图像文件、项(例如，点云占用图)或媒体轨道(例如，音频轨道或视频轨道)。实施例涉及在相应设备中执行的内容创作和内容消费。用于内容创作的设备可以是编码和文件封装设备，例如内容服务器或内容捕获设备。用于内容消费的设备可以是解码和/或渲染设备，例如虚拟现实耳机、头戴式设备或能够消费沉浸式内容的任何其他设备。

图2中示出了用于内容创作的设备的示例，即根据实施例的装置。装置90包括主处理单元91、存储器92、用户接口94、通信接口93。图2所示的根据实施例的装置还包括相机模块95。替代地，该装置可以被配置为通过通信网络从外部相机设备接收图像和/或视频数据。存储器92在装置90中存储包括计算机程序代码的数据。计算机程序代码被配置为实现根据各种实施例的方法。相机模块95或通信接口93以图像或视频流的形式接收要由处理器91处理的数据。通信接口93将处理后的数据(即图像文件)转发到例如另一设备(诸如虚拟现实耳机)的显示器。当装置90是包括相机模块95的视频源时，用户输入可以从用户接口被接收。

图3中示出了用于内容消费的设备的示例，即根据另一实施例的装置。该示例中的装置是虚拟现实耳机，例如用于立体观看的头戴式显示器(HMD)300。头戴式显示器300包括两个屏幕部分或两个屏幕320、330，用于显示左眼图像和右眼图像。显示器320、330靠近眼睛，因此透镜用于使图像易于观看，并且用于散布图像以尽可能多地覆盖眼睛的视场。该设备附接到用户的头部，因此即使用户转动头部，它也能保持在原位。该设备可以具有用于确定头部运动和头部方向的取向检测模块310。头戴式显示器向用户提供记录/流式传输的图像文件的三维(3D)感知。

根据一个实施例，要发信号通知的图像文件可以类似于MPEG-DASH中的视频媒体类型。在一个实施例中，应将图像文件作为具有@mimeType＝“image/containerFormat”和@contentType＝“image”的适配集来发信号通知。@mimeType可以采用互联网分配编号机构指定的值。

根据一个实施例，一个适配集可以包含作为替代的多个表示，例如不同分辨率和/或编解码器但图像内容相同的图像。替代地，具有不同内容组件属性但具有相同图像内容的图像文件可以存在于多个适配集中。适配集与相同的非零@group属性值分组在一起。这样的分组提供了跨AdaptationSet的图像文件之间的无缝切换(例如，当播放器仅支持适配集之间的图像编解码器中的一个时)。

分段信息

根据一个实施例，当在@mimeType中将MIME类型的顶级媒体类型指示为“image”时，MPD中不存在用于表示的媒体分段信息，并且在MPD可以仅提供用于初始化分段的信息。初始化分段包含图像文件。

根据一个实施例，图像文件视为(例如，由DASH客户端或播放器)仅包含单个帧的视频表示，其持续时间等于包含该表示的时段的持续时间。

根据一个实施例，当图像文件仅是在表示中提供的单个媒体分段的一部分，并且媒体分段URL被包括在BaseURL元素中时，SegmentBase元素用于描述图像文件的分段信息。

根据一个实施例，如果包含图像文件的表示具有一个以上的媒体分段，则属性@duration或元素SegmentTimeline将存在。属性@duration和元素SegmentTimeline不应同时存在。

初始化分段

根据一个实施例，当图像文件由单个媒体分段表示时，不存在用于包含图像文件的表示的初始化分段。根据一个实施例，以下元素和属性未被包含在包含图像文件的表示中：

·SegmentBase.Initialization

·SegmentList.Initialization

·SegmentTemplate.Initialization元素，或

·SegmentTemplate@initialization属性。

根据一个实施例，如果对于包含图像文件的表示，既不存在初始化元素，也不存在SegmentTemplate@initialization属性，则表示内的媒体分段将是自初始化的。

根据一个实施例，MPD可以由作为适配集1的一部分的图像文件(例如，覆盖层)和作为适配集2的一部分的视频轨道(例如，背景媒体或视点)组成。根据一个实施例，如果来自适配集1和适配集2的表示要作为观看会话的一部分被一起查看，则适配集1中的表示应具有与适配集2中的表示的初始化分段不同的初始化分段。

ImageEntity描述符

根据一个实施例，ImageEntity描述符可以指示图像文件在适配集/表示中的存在。@schemeIdUri属性等于“urn:mpeg:mpeg:isobmff:2019:imen”的EssentialProperty或SupplementalPropertyImageEntity元素称为ImageEntity描述符。

根据一个实施例，在适配集级别和/或表示集级别可以存在至多一个ImageEntity描述符。在一个实施例中，在Period和MPD级别可以不存在ImageEntity描述符。

在示例实施例中，不应存在ImageEntity描述符的@value属性。ImageEntity描述符应当包括下表中指定的元素和属性。

在示例中，图像项的XML模式如下所示：

图像文件作为覆盖层和视点

在以下实施例中，将讨论使用图像文件作为覆盖层和视点的实施例。

根据一个实施例，属于具有@mimeType＝“image/containerFormat”和@contentType＝“image”的适配集并且具有覆盖层信息(OVLY)描述符的表示被称为覆盖层的表示(它是一个图像)，该OVLY描述符是@schemeIdUri属性等于“urn:mpeg:mpegI:omaf:2018:ovly”的EssentialProperty或SupplementalProperty元素。

替代地，属于如下适配集的表示被称为覆盖层的表示(它是一个图像)：该适配集具有ImageEntity描述符和覆盖层信息(OVLY)描述符，该ImageEntity描述符是@schemeUri属性等于“urn:mpeg:mpegI:isobmff:2019:imen”的EssentialProperty或SupplementalProperty ImageEntity元素，该OVLY描述符是@schemeIdUri属性等于“urn.mpeg:mpegI:omaf:2018:ovly”的EssentialProperty或SupplementalProperty元素。

根据一个实施例，属于具有@mimeType＝“image/containerFormat”和@contentType＝“image”的适配集并且具有视点信息(VWPT)描述符的表示被称为覆盖层的表示(它是一个图像)，该VWPT描述符是@schemeIdUri属性等于“urn:mpeg:mpegI:omaf:2018:vwpt”的EssentialProperty或SupplementalProperty元素。

替代地，属于如下适配集的表示被称为覆盖层的表示(它是一个图像)：该适配集具有ImageEntity描述符和视点信息(VWPT)描述符，该ImageEntity描述符是@schemeUri属性等于“urn:mpeg:mpegI:isobmff:2019:imen”的EssentialProperty或SupplementalProperty ImageEntity元素，该VWPT描述符是@schemeIdUri属性等于“urn:mpeg:mpegI:omaf:2018:vwpt”的EssentialProperty或SupplementalProperty元素。

封面图像

根据一个实施例，封面图像是在用户启动定时媒体的回放之前在观看会话开始时显示的图像。

在示例实施例中，URN“urn:mpeg:mpegI:role:2019”被定义为标识如下表中定义的封面图像的角色方案。注意，Role@value应分配给包含与该封面图像角色相关联的媒体组件类型的适配集：

值为“urn:mpeg:mpegI:role:2019”的方案的Role@value属性

Role@value	描述
		coverimage	当前观看会话的封面图像

替代地，ImageEntity描述符包含@ImageItemType属性，该属性指示由该描述符表示的图像项的类型。

根据一个实施例，等于“coverimage”的ImageEntity@ImageItemType指定适配集/表示集包含coverimage图像项。

具有@ImageItemType属性的ImageEntity描述符，如下表所示。

在示例中，图像项的XML模式如下所示：

在替代实施例中，为了支持封面图像，可以在MPD中使用具有新@contentType＝“image”的AdaptationSet。

根据一个实施例，期望MPEG-DASH客户端能够通过下载图像并且使用基于浏览器的处理将封面图像分配给媒体呈现时间线，来处理封面图像的适配集。

根据一个实施例，@schemeIdUri设置为‘urn:mpeg:mpegI:isobmff:2019:cvim’的EssentialProperty描述符指示适配集/表示集表示封面图像。

封面图像的分组

在示例实施例中，如果MPD中只有一个封面图像没有任何关联或分组信息，则封面图像属于MPD中的所有表示。

在示例实施例中，如果具有@schemeIdUri属性的EssentialProperty描述符等于“urn:mpeg:mpegI:isobmff:2019:vpci”，则可以将封面图像分组/关联到视点组。描述符的值提供了封面图像所属的视点组的groupId。

替代地，等于“vpci”的EntityGroup@group_type指定包含封面图像和封面图像所属的视点组的相应轨道和图像文件的表示。

根据一个实施例，至少一个封面图像存在于其中@group_type等于‘vpci’的EntityGroup中。

具有EntityGroup@group_type属性的EntityToGroup描述符在下表中指定：

EntityGroup@group_type

M

EntityGroup@group_type＝‘vpci’

在一个示例中，EntityGroup的XML模式如下所示：

在一些实施例中，实体分组可以携带在具有OMAF的关联描述符的MPD中。当包含封面图像的适配集与包含视点的一个或多个适配集相关联时，关联描述符应作为包含封面图像的每个AdaptationSet元素之下的子元素出现。在这种情况下，关联描述符应当包括以下两项：

Association元素中的Xpath字符串，其计算结果为包含视点组的一个或多个AdaptationSet元素。

针对Association元素的Association@associationKindList属性的仅一个的“vpci”值。在这种情况下：

当Association@associationKindList包括一个“vpci”值并且上述Association元素中的XPath字符串计算的(多个)元素数大于1时，封面图像共同应用于所有视点组。

当Association@associationKindList包括一个“vpci”值并且上述Association元素中的XPath字符串计算的元素数等于1时，封面图像将单独地应用于每个视点组。

在包含封面图像的适配集中可以存在多个这样的关联描述符。

为多个视点分组缩略图

在一个实施例中，属于视点k的缩略图的适配集与视点k的适配集分组在子集元素中。

根据一个实施例，如果属于视点k的缩略图的适配集和视点k的适配集具有所提供的@id的值，则子集元素的@contains属性包含属于视点k的缩略图的适配集和视点k的适配集的@id值。

在一个实施例中，属于视点的缩略图适配集使用EntityToGroup描述符与视点适配集进行分组。

在一个实施例中，等于‘thvp’的EntityGroup@group_type指定包含属于同一实体组中的视点的缩略图的表示。

在一个实施例中，@group_type等于‘thvp’的EntityGroup中存在最多一个缩略图适配集和一个视点适配集。

EntityGroup@group_type

M

EntityGroup@group_type＝‘thvp’

在一个示例中，EntityGroup的XML模式如下所示：

在一些实施例中，实体分组可以携带在具有OMAF的关联描述符的MPD中。当包含缩略图的适配集与包含视点的一个或多个适配集相关联时，关联描述符应在包含缩略图的每个AdaptationSet元素之下作为子元素出现。在这种情况下，关联描述符应当包括以下两项：

Association元素中的XPath字符串，其计算结果为包含视点的一个或多个AdaptationSet元素。

针对Association元素的Association@associationKindList属性的仅一个的“thvp”值。在这种情况下：

当Association@associationKindList包括一个“thvp”值并且上述Association元素中的XPath字符串计算的(多个)元素数大于1时，缩略图共同应用于所有视点。

当Association@associationKindList包括一个“thvp”值并且上述Association元素中的XPath字符串计算的元素数等于1时，缩略图将个体地应用于每个视点。

在包含缩略图的适配集中可以存在多个这样的关联描述符。

图4是示出根据实施例的方法的流程图。该实施例用于内容创作，其中该方法至少包括

在容器文件中写入410第一媒体实体；

在容器文件中写入420第二媒体实体；

创建430具有第一表示和第二表示的媒体呈现描述(MPD)；第一表示属于第一适配集，并且第二表示属于第二适配集；第一适配集的表示与容器文件的第一媒体实体相关联；第二适配集的表示与容器文件的第二媒体实体相关联，

当表示中的一个表示属于作为视点的缩略图或覆盖层的缩略图的媒体实体时，对应地在MPD文件中写入440表示与属于作为视点或覆盖层的媒体实体的另一表示的关联/对应性/分组信息。

第一媒体实体或第二媒体实体中的至少一个媒体实体是图像，其中当媒体实体中的一个媒体实体是图像时，其是视点或覆盖层或封面图像或视点的缩略图，或者是覆盖层的缩略图。

根据实施例的一种装置包括：用于在容器文件中写入第一媒体实体的部件；用于在容器文件中写入第二媒体实体的部件；其中第一媒体实体或第二媒体实体中的至少一个媒体实体是图像，其中当媒体实体中的一个媒体实体是图像时，其是视点或覆盖层或封面图像或视点的缩略图，或者是覆盖层的缩略图；用于创建具有第一表示和第二表示的媒体呈现描述(MPD)的部件；第一表示属于第一适配集，并且第二表示属于第二适配集；第一适配集的表示与容器文件的第一媒体实体相关联；第二适配集的表示与容器文件的第二媒体实体相关联，当表示中的一个表示属于作为视点的缩略图或覆盖层的缩略图的媒体实体时，用于对应地在MPD文件中写入表示与属于作为视点或覆盖层的媒体实体的另一表示的关联/对应性/分组信息的部件。该部件包括至少一个处理器和包括计算机程序代码的存储器，其中处理器还可以包括处理器电路系统。存储器和计算机程序代码被配置为与至少一个处理器一起使该装置执行根据各种实施例的方法。

图5是示出根据实施例的方法的流程图。本实施例用于内容消费，其中该方法至少包括

从媒体呈现描述(MPD)中解析，属于第一适配集的第一表示和属于第二适配集的第二表示；

从MPD中解析表示的关联/对应性/分组信息；

选择与容器文件的第一媒体实体相关联的第一适配集的第一表示；选择与容器文件的第二媒体实体相关联的第二适配集的第二表示。

第一适配集的第一表示与容器文件的第一媒体实体相关联，第二适配集的第二表示与容器文件的第二媒体实体相关联，其中第一表示或第二表示中的至少一个表示与图像相关联。当表示中的一个表示与图像相关联时，其是视点表示或覆盖层表示或封面图像表示或视点的缩略图表示；或者是覆盖层的缩略图表示；

根据实施例的一种装置包括：用于从媒体呈现描述(MPD)中解析属于第一适配集的第一表示和属于第二适配集的第二表示的部件；第一适配集的第一表示与容器文件的第一媒体实体相关联；第二适配集的第二表示与容器文件的第二媒体实体相关联；其中第一表示或第二表示中的至少一项与图像相关联；当表示中的一个表示与图像相关联时，其是视点表示或覆盖层表示或封面图像表示或视点的缩略图表示；或者是覆盖层的缩略图表示；用于从MPD中解析表示的关联/对应性/分组信息的部件；以及用于选择与容器文件的第一媒体实体相关联的第一适配集的第一表示并且选择与容器文件的第二媒体实体相关联的第二适配集的第二表示的部件。该部件包括至少一个处理器和包括计算机程序代码的存储器，其中处理器还可以包括处理器电路系统。存储器和计算机程序代码被配置为与至少一个处理器一起使该装置执行根据各种实施例的方法。

各种实施例可以借助驻留在存储器中并且使相关装置执行该方法的计算机程序代码来实现。例如，一种设备可以包括用于处理、接收和传输数据的电路系统和电子器件、存储器中的计算机程序代码、以及在运行计算机程序代码时引起该设备执行实施例的特征的处理器。此外，如服务器等网络设备可以包括用于处理、接收和传输数据的电路系统和电子器件、存储器中的计算机程序代码、以及在运行计算机程序代码时使网络设备执行实施例的特征的处理器。计算机程序代码包括一个或多个操作特性。上述操作特性由上述计算机基于上述处理器的类型通过配置来定义，其中系统可以通过总线连接到上述处理器，其中系统的可编程操作特性至少包括如图4或图5的流程图中指定的特征。

根据实施例的一种计算机程序产品可以体现在非瞬态计算机可读介质上。根据另一实施例，计算机程序产品可以通过网络以数据分组的形式下载。

如果需要，本文中讨论的不同功能可以以与其他功能不同的顺序和/或同时执行。此外，如果需要，上述功能和实施例中的一个或多个可以是可选的或者可以组合。

尽管在独立权利要求中阐述了实施例的各个方面，但其他方面包括来自所描述的实施例和/或从属权利要求的特征与独立权利要求的特征的其他组合，而不仅仅是权利要求中明确阐述的组合。

在此还应当注意，虽然以上描述了示例实施例，但这些描述不应当被视为限制性的。相反，在不脱离如所附权利要求中定义的本公开的范围的情况下，可以进行若干变化和修改。

Claims

1.一种方法，包括：

在容器文件中写入第一媒体实体；

在容器文件中写入第二媒体实体；

其中所述第一媒体实体或所述第二媒体实体中的至少一个媒体实体是图像；其中，

当所述媒体实体中的一个媒体实体是图像时，其是以下中的一项：视点或覆盖层或封面图像或视点的缩略图；或者覆盖层的缩略图；

创建具有第一表示和第二表示的媒体呈现描述(MPD)；所述第一表示属于第一适配集，并且所述第二表示属于第二适配集；其中所述第一适配集的所述表示与所述容器文件的所述第一媒体实体相关联；并且所述第二适配集的所述表示与所述容器文件的所述第二媒体实体相关联；

当所述表示中的一个表示属于作为视点的缩略图或覆盖层的缩略图的媒体实体时，所述方法包括：对应地在所述MPD文件中写入所述表示与属于作为视点或覆盖层的媒体实体的另一表示的对应性信息。

2.根据权利要求1所述的方法，其中所述第一媒体实体是以下中的一项：图像文件；以及项目；或媒体轨道。

3.根据权利要求1或2所述的方法，其中所述第二媒体实体是以下中的一项：图像文件；以及项目；或媒体轨道。

4.一种方法，包括：

从媒体呈现描述(MPD)中解析；属于第一适配集的第一表示和属于第二适配集的第二表示；

其中所述第一适配集的所述第一表示与容器文件的第一媒体实体相关联；并且其中所述第二适配集的所述第二表示与容器文件的第二媒体实体相关联；

其中所述第一表示或所述第二表示中的至少一个表示与图像相关联；

当所述表示中的一个表示与图像相关联时，其是以下中的一项：视点表示或覆盖层表示或封面图像表示或视点的缩略图的表示；或者覆盖层的缩略图的表示；

从所述MPD中解析所述表示的对应性信息；

选择与所述容器文件的所述第一媒体实体相关联的所述第一适配集的所述第一表示；并且选择与所述容器文件的所述第二媒体实体相关联的所述第二适配集的所述第二表示。

5.根据权利要求4所述的方法，其中所述第一媒体实体是以下中的一项：图像文件；以及项目；或媒体轨道。

6.根据权利要求4或5所述的方法，其中所述第二媒体实体是以下中的一项：图像文件；以及项目；或媒体轨道。

7.一种装置，至少包括：

用于在容器文件中写入第一媒体实体的部件；

用于在容器文件中写入第二媒体实体的部件；

用于创建具有第一表示和第二表示的媒体呈现描述(MPD)的部件；所述第一表示属于第一适配集，并且所述第二表示属于第二适配集；其中所述第一适配集的所述表示与所述容器文件的所述第一媒体实体相关联；并且所述第二适配集的所述表示与所述容器文件的所述第二媒体实体相关联；

当所述表示中的一个表示属于作为视点的缩略图或覆盖层的缩略图的媒体实体时，所述装置包括：用于对应地在所述MPD文件中写入所述表示与属于作为视点或覆盖层的媒体实体的另一表示的对应性信息的部件。

8.根据权利要求7所述的装置，其中所述第一媒体实体是以下之一：图像文件；以及项目；或媒体轨道。

9.根据权利要求7或8所述的装置，其中所述第二媒体实体是以下之一：图像文件；以及项目；或媒体轨道。

10.一种装置，至少包括：

用于从媒体呈现描述(MPD)中解析；属于第一适配集的第一表示和属于第二适配集的第二表示的部件；

用于从所述MPD解析所述表示的对应性信息的部件；

用于选择与所述容器文件的所述第一媒体实体相关联的所述第一适配集的所述第一表示的部件；以及用于选择与所述容器文件的所述第二媒体实体相关联的所述第二适配集的所述第二表示的部件。

11.根据权利要求10所述的装置，其中所述第一媒体实体是以下中的一项：图像文件；以及项目；或媒体轨道。

12.根据权利要求10或11所述的装置，其中所述第二媒体实体是以下中的一项：图像文件；以及项目；或媒体轨道。

13.一种计算机程序产品，包括计算机程序代码，所述计算机程序代码被配置为当在至少一个处理器上执行时，使装置或系统实现方法1至6中的任一项。