CN115361536B

CN115361536B - 全景图像压缩方法、装置、智能设备及存储介质

Info

Publication number: CN115361536B
Application number: CN202210882510.0A
Authority: CN
Inventors: 陈梓豪; 邹龙昊; 陈作舟; 薛雅利; 陈昊; 王彬彬; 陶小峰
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2023-06-06
Anticipated expiration: 2042-07-26
Also published as: CN115361536A

Abstract

本发明公开了一种全景图像压缩方法、装置、智能设备及存储介质，方法包括：获取待压缩全景图像；对上述待压缩全景图像进行语义分割并获得语义分割图像，语义分割图像中包括前景对象所对应的前景像素；获取目标投影格式及对应的初始投影坐标系，基于目标投影格式、初始投影坐标系和语义分割图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合；根据目标多自由度旋转角度集合对初始投影坐标系进行旋转并获得目标投影坐标系，根据目标投影格式和目标投影坐标系将待压缩全景图像投影成平面格式并进行压缩。本发明方案有利于提高图像压缩率。

Description

全景图像压缩方法、装置、智能设备及存储介质

技术领域

本发明涉及图像压缩技术领域，尤其涉及的是一种全景图像压缩方法、装置、智能设备及存储介质。

背景技术

随着科学技术的发展，各种图像的应用越来越广泛。其中，全景图像是一种提供全方位视野，允许用户自由选择任意方向进行观看的图像，能够给用户身临其境的感受。但全景图像通常较大，因此在全景图像的存储、传输过程中需要先进行压缩。

现有技术中，通常使用多种投影坐标系直接将全景图像投影成多面体格式，然后针对多面体的投影面直接进行压缩。现有技术的问题在于，在对全景图像进行投影时，全景图像内的前景对象会被分割到不同的投影面中，导致前景对象被割裂，从而不利于提高图像的压缩率。

因此，现有技术还有待改进和发展。

发明内容

本发明的主要目的在于提供一种全景图像压缩方法、装置、智能设备及存储介质，旨在解决现有技术中使用多种投影坐标系直接将全景图像投影成多面体格式，然后针对多面体的投影面直接进行压缩时，前景对象被割裂，不利于提高图像压缩率的问题。

为了实现上述目的，本发明第一方面提供一种全景图像压缩方法，其中，上述全景图像压缩方法包括：

获取待压缩全景图像；

对上述待压缩全景图像进行语义分割并获得语义分割图像，其中，上述语义分割图像中包括上述待压缩全景图像中的各个前景对象所对应的前景像素；

获取目标投影格式以及上述目标投影格式对应的初始投影坐标系，基于上述目标投影格式、上述初始投影坐标系和上述语义分割图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合，其中，上述目标多自由度旋转角度集合中包括多个与不同旋转方向对应的旋转角度，上述目标多自由度旋转角度集合用于限定上述初始投影坐标系的旋转角度以获得目标投影坐标系，当根据上述目标投影格式和上述目标投影坐标系对上述语义分割图像进行投影时属于同一前景对象的所有前景像素落入同一个投影平面时上述投影收益最大；

根据上述目标多自由度旋转角度集合对上述初始投影坐标系进行旋转并获得上述目标投影坐标系，根据上述目标投影格式和上述目标投影坐标系将上述待压缩全景图像投影成平面格式并进行压缩。

可选的，上述待压缩全景图像是等矩形投影格式的全景图像。

可选的，上述对上述待压缩全景图像进行语义分割并获得语义分割图像，包括：

通过预先设置的语义分割算法对上述待压缩全景图像进行语义分割，标识出上述待压缩全景图像中的各个前景对象以及各个前景对象所对应的前景像素；

根据上述前景对象和上述前景像素获得上述语义分割图像，其中，上述语义分割图像的尺寸与上述待压缩全景图像的尺寸相同。

可选的，上述预先设置的语义分割算法为预先设置的基于卷积神经网络的语义分割算法。

可选的，上述获取目标投影格式以及上述目标投影格式对应的初始投影坐标系，基于上述目标投影格式、上述初始投影坐标系和上述语义分割图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得多自由度旋转角度，包括：

获取目标投影格式，根据上述目标投影格式选择对应的初始投影坐标系；

根据上述目标投影格式和上述初始投影坐标系对上述语义分割图像进行投影，获得多个初始投影平面图像；

根据上述初始投影平面图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合。

可选的，上述根据上述初始投影平面图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合，包括：

将上述初始投影平面作为上述强化学习算法的输入，通过上述强化学习算法以投影收益最大为目标进行一次计算，并将上述强化学习算法输出的多自由度旋转角度作为上述目标多自由度旋转角度集合。

将上述初始投影平面作为上述强化学习算法在进行第1次计算时的输入，通过上述强化学习算法以投影目标最大为目标进行多次迭代计算，直到满足预设的迭代结束条件时停止迭代计算；

根据迭代计算过程中获得的所有的多自由度旋转角度集合获得一个目标多自由度旋转角度集合；

其中，上述强化学习算法在第i次计算时的输入数据为第i投影平面图像，上述第i投影平面图像是根据第i投影坐标系和上述目标投影格式对上述语义分割图像进行投影后获得的投影平面图像，上述第i投影坐标系是根据第i-1多自由度旋转角度集合对第i-1投影坐标系进行旋转后获得的投影坐标系，上述第i-1多自由度旋转角度集合是上述强化学习算法在第i-1次计算时输出的多自由度旋转角度集合，i为大于1的整数；第1投影坐标系为上述初始投影坐标系，第1投影平面为上述初始投影平面；

上述预设的迭代结束条件包括迭代计算次数达到预设的迭代次数阈值和/或上述强化学习算法输出的多自由度旋转角度集合中的所有角度都为0。

可选的，上述强化学习算法为预先设置的连续动作空间强化学习算法或离散动作空间强化学习算法。

可选的，上述目标投影格式为立方体投影格式。

可选的，上述根据上述目标投影格式和上述目标投影坐标系将上述待压缩全景图像投影成平面格式并进行压缩，包括：

根据上述目标投影格式和上述目标投影坐标系对上述待压缩全景图像进行投影，获得多个目标投影平面图像；

对所有上述目标投影平面图像进行拼接获得一个拼接平面图像；

对上述拼接平面图像进行图像压缩并存储。

本发明第二方面提供一种全景图像压缩装置，其中，上述全景图像压缩装置包括：

图像获取模块，用于获取待压缩全景图像；

语义分割模块，用于对上述待压缩全景图像进行语义分割并获得语义分割图像，其中，上述语义分割图像中包括上述待压缩全景图像中的各个前景对象所对应的前景像素；

角度计算模块，用于获取目标投影格式以及上述目标投影格式对应的初始投影坐标系，基于上述目标投影格式、上述初始投影坐标系和上述语义分割图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合，其中，上述目标多自由度旋转角度集合中包括多个与不同旋转方向对应的旋转角度，上述目标多自由度旋转角度集合用于限定上述初始投影坐标系的旋转角度以获得目标投影坐标系，当根据上述目标投影格式和上述目标投影坐标系对上述语义分割图像进行投影时属于同一前景对象的所有前景像素落入同一个投影平面时上述投影收益最大；

图像压缩模块，用于根据上述目标多自由度旋转角度集合对上述初始投影坐标系进行旋转并获得上述目标投影坐标系，根据上述目标投影格式和上述目标投影坐标系将上述待压缩全景图像投影成平面格式并进行压缩。

本发明第三方面提供一种智能终端，上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的全景图像压缩程序，上述全景图像压缩程序被上述处理器执行时实现上述任意一种全景图像压缩方法的步骤。

本发明第四方面提供一种计算机可读存储介质，上述计算机可读存储介质上存储有全景图像压缩程序，上述全景图像压缩程序被处理器执行时实现上述任意一种全景图像压缩方法的步骤。

由上可见，本发明方案中，获取待压缩全景图像；对上述待压缩全景图像进行语义分割并获得语义分割图像，其中，上述语义分割图像中包括上述待压缩全景图像中的各个前景对象所对应的前景像素；获取目标投影格式以及上述目标投影格式对应的初始投影坐标系，基于上述目标投影格式、上述初始投影坐标系和上述语义分割图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合，其中，上述目标多自由度旋转角度集合中包括多个与不同旋转方向对应的旋转角度，上述目标多自由度旋转角度集合用于限定上述初始投影坐标系的旋转角度以获得目标投影坐标系，当根据上述目标投影格式和上述目标投影坐标系对上述语义分割图像进行投影时属于同一前景对象的所有前景像素落入同一个投影平面时上述投影收益最大；根据上述目标多自由度旋转角度集合对上述初始投影坐标系进行旋转并获得上述目标投影坐标系，根据上述目标投影格式和上述目标投影坐标系将上述待压缩全景图像投影成平面格式并进行压缩。

与现有技术中使用多种投影坐标系直接将全景图像投影成多面体格式，然后针对多面体的投影面直接进行压缩的方案相比，本发明方案中，可以通过语义分割识别出待压缩全景图像中的前景对象，从而通过预先设置的强化学习算法计算出投影收益最大的目标多自由度旋转角度集合，从而基于目标多自由度旋转角度集合对初始投影坐标系进行旋转并获得目标投影坐标系，使得根据目标投影坐标系进行投影时属于同一前景对象的所有前景像素能够尽量落在同一个投影平面，即有利于保证前景对象在投影时不会被割裂，从而有利于提高图像压缩率，并提升压缩效果和提高压缩效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种全景图像压缩方法的流程示意图；

图2是本发明实施例提供的一种等矩形投影格式的全景图像示意图；

图3是本发明实施例图2对应的立方体投影格式的全景图像示意图；

图4是本发明实施例图1中步骤S200的具体流程示意图；

图5是本发明实施例提供的一种语义分割图像的示意图；

图6是本发明实施例图5根据立方体投影格式投影后获得的初始投影平面图像的示意图；

图7是本发明实施例提供的一种目标投影图像的示意图；

图8是本发明实施例图7在投影坐标系水平旋转90°后获得的目标投影图像的示意图；

图9是本发明实施例提供的一种进行全景图像压缩的具体流程示意图；

图10是本发明实施例提供的一种全景图像压缩装置的结构示意图；

图11是本发明实施例提供的一种智能终端的内部结构原理框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似的，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述的条件或事件]”或“响应于检测到[所描述条件或事件]”。

下面结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

现有技术中，通常使用多种投影坐标系直接将全景图像投影成多面体格式，然后针对多面体的投影面直接进行压缩。在一种应用场景中，还可以将多面体的投影面对应的图像拼接起来获得单张平面格式的图像，再使用传统的平面图像压缩技术进行压缩，例如jpeg图像编码标准等。

现有技术的问题在于，在对全景图像进行投影时，全景图像内的前景对象会被分割到不同的投影面中，导致前景对象被割裂，从而不利于提高图像的压缩率。

前景对象的空间不连续性不利于平面图像压缩技术的压缩过程，会导致其压缩率降低，占用更多的存储空间。具体的，前景对象通常包含复杂多样的像素分布，投影导致前景对象的像素落在投影面边缘。而投影面边缘的失真严重，将像素拉伸变形，进而使复杂的像素分布范围增大，不利于图像压缩，并且也会影响全景图像的压缩效率和效果。

为了解决上述多个问题中的至少一个问题，本发明方案中，获取待压缩全景图像；对上述待压缩全景图像进行语义分割并获得语义分割图像，其中，上述语义分割图像中包括上述待压缩全景图像中的各个前景对象所对应的前景像素；获取目标投影格式以及上述目标投影格式对应的初始投影坐标系，基于上述目标投影格式、上述初始投影坐标系和上述语义分割图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合，其中，上述目标多自由度旋转角度集合中包括多个与不同旋转方向对应的旋转角度，上述目标多自由度旋转角度集合用于限定上述初始投影坐标系的旋转角度以获得目标投影坐标系，当根据上述目标投影格式和上述目标投影坐标系对上述语义分割图像进行投影时属于同一前景对象的所有前景像素落入同一个投影平面时上述投影收益最大；根据上述目标多自由度旋转角度集合对上述初始投影坐标系进行旋转并获得上述目标投影坐标系，根据上述目标投影格式和上述目标投影坐标系将上述待压缩全景图像投影成平面格式并进行压缩。

示例性方法

如图1所示，本发明实施例提供一种全景图像压缩方法，具体的，上述方法包括如下步骤：

步骤S100，获取待压缩全景图像。

其中，上述待压缩全景图像是需要进行压缩的全景图像。本实施例中，上述待压缩全景图像是等矩形投影格式的全景图像，但不作为具体限定。实际使用过程中，上述待压缩全景图像还可以是其它投影格式的全景图像，如果上述待压缩全景图像是其它投影格式的全景图像，也可以将其转换为等矩形投影格式之后再进行后续处理，例如将任意一种投影格式的全景图像映射到球体内表面，然后再投影获得等矩形投影格式的全景图像。

图2是本发明实施例提供的一种等矩形投影格式的全景图像示意图，基于现有技术中的方案，可以将图2中的全景图像直接投影成多面体格式(例如立方体投影格式)从而进行压缩。图3是本发明实施例图2对应的立方体投影格式的全景图像示意图。基于现有技术的方案，将图2所示的全景图像投影转换并获得图3所示的立方体投影格式的全景图像，然后直接进行压缩。但如图2所示，实际投影的过程中，全景图像内的前景对象(如人物、钢琴、沙发等)会被分割到不同的投影面中。因此本实施例中，对于待压缩全景图像会进行语义分割、计算旋转角度并在旋转坐标系后再进行投影，以避免前景对象被分割到不同的投影面中。

需要说明的是，为保护隐私，本实施例中图2以及其它附图中人脸部分已做模糊处理，但不作为对本实施例方案的限定。

步骤S200，对上述待压缩全景图像进行语义分割并获得语义分割图像，其中，上述语义分割图像中包括上述待压缩全景图像中的各个前景对象所对应的前景像素。

其中，语义分割的目的是区分出待压缩全景图像中的不同对象以及不同对象对应的像素。本实施例中，前景对象是用户更为关注的对象，前景对象的类别可以预先设置，例如，可以设置图像中的人物、沙发、汽车、钢琴、动物等常见的受关注的对象为前景对象，需要说明的是，前景对象可以根据实际需求进行调整，在此不作具体限定。而前景像素是前景对象在图中对应的像素，即任意一个前景对象都由对应的前景像素构成。

本实施例中，如图4所示，上述步骤S200具体包括如下步骤：

步骤S201，通过预先设置的语义分割算法对上述待压缩全景图像进行语义分割，标识出上述待压缩全景图像中的各个前景对象以及各个前景对象所对应的前景像素。

步骤S202，根据上述前景对象和上述前景像素获得上述语义分割图像，其中，上述语义分割图像的尺寸与上述待压缩全景图像的尺寸相同。

具体的，将待压缩全景图像作为上述语义分割算法的输入，可以获得语义分割算法输出的语义分割图像(即语义分割结果)。上述语义分割算法可以从图像中标识前景对象所对应的像素。

其中，上述预先设置的语义分割算法为预先设置的基于卷积神经网络的语义分割算法。需要说明的是，上述语义分割算法可以是现有的算法，例如ugscnn算法，还可以使用其它语义分割算法，在此不作具体限定。在一种应用场景中，还可以基于预先训练的语义分割模型来对待压缩全景图像进行语义分割并获得语义分割图像。上述语义分割模型或语义分割算法中前景对象的具体类别可以根据实际需求进行设置和调整。

需要说明的是，上述语义分割图像可以是在待压缩全景图像上对前景像素进行标识的图像，也可以是根据前景对象和前景像素重新构建的不包含背景像素的图像(例如使用一个统一的像素值代替所有的背景像素)，或者是在待压缩全景图像上删除所有背景像素或使用一个统一的像素值代替所有的背景像素后获得的图像，上述背景像素是待压缩图像中除前景像素以外的像素。

上述语义分割图像的尺寸与上述待压缩全景图像的尺寸相同，且各上述前景对象在上述语义分割图像中所处的位置与在上述待压缩全景图像中所处的位置相同。本实施例中，使用的语义分割图像中不包括待压缩全景图像中的背景像素，从而可以提高处理效率。

图5是本发明实施例提供的一种语义分割图像的示意图，在一种应用场景中，将上述图2所示的图像作为待压缩全景图像，通过预先设置的语义分割算法后获得的语义分割图像如图5所示。图5中的每一个白色部分分别代表一个前景对象，且每一个白色部分分别由对应的前景像素构成。

需要说明的是，本实施例中，输入到语义分割算法中的待压缩全景图像的投影格式为等矩形投影格式，实际使用过程中，还可以是其它投影格式，例如立方体投影格式或正十二面体投影格式等，在此不作具体限定。

进一步的，在获得上述语义分割图像之后，可以将语义分割图像作为强化学习算法的输入，从而获得目标多自由度旋转角度集合。

步骤S300，获取目标投影格式以及上述目标投影格式对应的初始投影坐标系，基于上述目标投影格式、上述初始投影坐标系和上述语义分割图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合。

其中，上述目标多自由度旋转角度集合中包括多个与不同旋转方向对应的旋转角度，上述目标多自由度旋转角度集合用于限定上述初始投影坐标系的旋转角度以获得目标投影坐标系，当根据上述目标投影格式和上述目标投影坐标系对上述语义分割图像进行投影时属于同一前景对象的所有前景像素落入同一个投影平面时上述投影收益最大。

上述目标投影格式是在压缩上述待压缩图像时要使用的投影格式，本实施例中，上述目标投影格式为立方体投影格式，但不作为具体限定。实际使用过程中，上述目标投影格式可以为任意一种其它投影格式，例如，可以为正二十面体投影格式等。其中，目标多自由度旋转角度集合是最终确定的最优的多自由度旋转角度集合，多自由度旋转角度集合可以理解为多个自由度(或维度)上的旋转角度的集合，即包含了不同方向上的多个角度。

需要说明的是，不同的投影格式所对应的投影坐标系不同，对应的目标多自由度旋转角度集合中的旋转角度的个数也不同，因此本实施例中需要根据目标投影格式选择对应的初始投影坐标系。其中，选择的初始投影坐标系的自由度符合目标投影格式的要求即可。例如，立方体投影格式有三旋转轴，对应三自由度的坐标系，则对应的目标多自由度旋转角度集合中包括3个旋转角度；正二十面体有六旋转轴，对应六自由度的坐标系，则对应的目标多自由度旋转角度集合中包括6个旋转角度。具体的，目标多自由度旋转集合中的每一个旋转角度与投影坐标系的一个坐标轴维度对应，用于限定该坐标轴的旋转角度。进一步的，预先设置的强化学习算法也是与目标投影格式一一对应的。

需要说明的是，强化学习算法计算的目的投影收益最大，即找到一个最优的目标多自由度旋转角度集合，根据目标多自由度旋转角度集合对初始投影坐标进行空间旋转之后，获得的多个投影平面中，属于同一前景对象的所有前景像素都尽量落入同一个投影平面，即保证各个前景对象尽量不被割裂到不同的投影平面中，从而保证各个前景对象的连续性，提高全景图像压缩率。具体的，上述步骤S300包括如下具体步骤：

在一种应用场景中，通过上述预先设置的强化学习算法进行一次计算即可获得对应的目标多自由度旋转角度集合。此时，上述根据上述初始投影平面图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合，包括：将上述初始投影平面作为上述强化学习算法的输入，通过上述强化学习算法以投影收益最大为目标进行一次计算，并将上述强化学习算法输出的多自由度旋转角度作为上述目标多自由度旋转角度集合。

本实施例中，以目标投影格式为立方体投影格式为例进行说明，但不作为具体限定。图6是本发明实施例图5根据立方体投影格式投影后获得的初始投影平面图像的示意图。获得对应的初始投影平面图像后，可以将初始投影平面图像作为该目标投影格式对应的强化学习算法的输入，从而计算获得最优的旋转角度。

需要说明的是，上述强化学习算法可以是预先设置的根据实际需求调整好的强化学习算法，也可以采用现有的强化学习算法，在此不作具体限定。其中，上述强化学习算法为预先设置的连续动作空间强化学习算法(例如DDPG)或离散动作空间强化学习算法(例如DQN)。

在另一种应用场景中，考虑到旋转投影坐标系的过程中，可能存在多个合适的旋转角度，因此可以通过强化学习算法进行多次迭代计算，从而对初始投影坐标系进行多次迭代旋转，比较在旋转过程中获得的不同投影坐标系下全景图像的压缩率，或者比较在旋转过程中获得的不同投影坐标系下前景对象的分割情况，从而获得一个最优的旋转后的投影坐标系，以获得压缩率最高的方案，将对应的压缩率最高的压缩结果进行存储。

此时，上述根据上述初始投影平面图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合，包括：

具体的，实际使用过程中可能由于前景对象分割不完整或画面内容过于复杂等情况，导致多个旋转角度下图像压缩率非常近似。因此每次计算出旋转角度并将对应的投影坐标系进行旋转之后，可以将旋转后的投影坐标系所对应的投影平面图像重新作为强化学习方法的输入，再次计算旋转角度，直到满足预先设置的迭代结束条件。

具体的，在迭代停止之后，可以根据迭代计算过程中获得的所有的多自由度旋转角度集合获得一个目标多自由度旋转角度集合。

在一种应用场景中，当迭代是达到强化学习算法输出的多自由度旋转角度集合中的所有角度都为0的条件时停止时，可以根据第j投影坐标系、第j多自由度旋转角度集合以及上述初始投影坐标系计算获得上述目标多自由度旋转角度集合。j为上述强化学习算法的最后一次计算所对应的迭代次数值。具体的，根据第j多自由度旋转角度集合对第j投影坐标系进行旋转，获得第j+1投影坐标系；计算第j+1投影坐标系和初始坐标系之间的角度差距，作为目标多自由度旋转角度集合。需要说明的是，第j+1投影坐标系即为目标投影坐标系，因此也可以直接获得目标投影坐标系。

在另一种应用场景中，获取迭代过程中的每一个多自由度旋转角度集合，根据各个多自由度旋转角度集合所对应的投影平面确定对应的投影效果，选择效果最好的(即被割裂的前景对象数目最少)的一个多自由度旋转角度集合，例如是第k多自由度旋转角度集合，则根据初始投影坐标系以及迭代过程中第k多自由度旋转角度集合所对应的第k投影坐标系计算获得目标多自由度旋转角度集合。具体的，初始投影坐标系按照目标多自由度旋转角度集合进行旋转后获得的结果与第k投影坐标系按照第k多自由度旋转角度集合旋转后的结果相同，k为任意正整数。

在另一种应用场景中，还可以根据迭代过程中的各个多自由度旋转角度集合及其所对应的投影坐标系，计算获得对应的压缩率。例如，对于第k多自由度旋转角度集合，对第k投影坐标系按照第k多自由度旋转角度集合后获得第k+1投影坐标系，根据第k+1投影坐标系对待压缩全景图像进行压缩后获得对应的压缩率。进而选择压缩率最高的投影坐标系，也可以计算获得对应的目标多自由度旋转角度集合。

本实施例中，计算上述目标多自由度旋转角度集合的目的是使得一个前景对象尽量落在一个投影平面内。

需要说明的是，根据选择的目标投影格式的不同，投影平面图像的形状可以是矩形(例如使用立方体投影格式)、三角形(例如使用金字塔投影格式)等。矩形的投影平面头像可以直接输入到强化学习算法中，非矩形的投影平面图像可以先放入矩形的投影平面图像中，统一分辨率后再输入强化学习算法中。

需要说明的是，本实施例中将基于目标投影格式获得的所有投影平面图像都输入到强化学习算法中，以进行更好的计算。例如，对于立方体投影格式需要输入6个面的投影平面图像，对于正二十面体投影格式则需要输入20个面的投影平面图像，对于金字塔格式则需要输入5个面的投影平面图像，非矩形投影面可先预处理为矩形图像再输入。

同时，本实施例中根据目标投影格式所对应的旋转轴可以改变输出的目标多自由度旋转角度集合中的旋转角度的个数，例如立方体投影格式(3轴，基于立方体中心建立正交坐标系)即输出三个旋转角度(三个姿态角)。进一步的，为了能够输出多个旋转角度，强化学习算法的网络结构使用卷积网络从语义分割结果(输入)提取特征向量，然后使用若干个卷积或全连接操作分别输出多自由度旋转角度(具体的，可以采用STN网络)。

进一步的，在不同的应用场景中，上述强化学习算法的学习目标可以不同，即算法的奖励机制或损失函数定义不一样。在一种应用场景中，学习目标是减少前景对象失真，因此每次计算后通过观察前景对象像素落入投影面边缘情况判断旋转效果。在另一种应用场景中，学习目标是降低压缩率，因此每次计算后通过观察投影平面拼接后图像压缩率判断旋转效果。

步骤S400，根据上述目标多自由度旋转角度集合对上述初始投影坐标系进行旋转并获得上述目标投影坐标系，根据上述目标投影格式和上述目标投影坐标系将上述待压缩全景图像投影成平面格式并进行压缩。

具体的，上述根据上述目标投影格式和上述目标投影坐标系将上述待压缩全景图像投影成平面格式并进行压缩，包括：根据上述目标投影格式和上述目标投影坐标系对上述待压缩全景图像进行投影，获得多个目标投影平面图像；对所有上述目标投影平面图像进行拼接获得一个拼接平面图像；对上述拼接平面图像进行图像压缩并存储。

需要说明的是，在压缩过程中，也可以分别针对每一个目标投影平面图像进行压缩。本实施例中以对拼接后的拼接平面图像为例进行说明，从而提高压缩效率和压缩率，但不作为具体限定。

需要说明的是，上述目标多自由度旋转角度集合中包括的每一个角度分别与初始投影坐标系的一个坐标轴所在的维度对应，例如，对于立方体投影格式，可以在水平方向和垂直方向对初始投影坐标系进行空间旋转，然后根据旋转后获得的目标投影坐标系将待压缩全景图像进行投影和压缩。

在一种应用场景中，将图4所对应的投影坐标系作为初始投影坐标系，将初始坐标系在水平方向向左旋转15°之后获得目标投影坐标系，将图2所示的待压缩全景图像根据目标投影坐标系进行立方体投影，获得对应的目标投影平面图像。图7是本发明实施例提供的一种目标投影图像的示意图，如图7所示，图中的沙发、人、钢琴等前景对象较好地分别保存在单个投影平面图像中，进而有利于提高立方体投影格式全景图像的压缩率。需要说明的是，图7中仅展示单个方向旋转后的效果，实际上需要根据强化学习方法输出的多个旋转角度进行多个方向的旋转。

进一步的，本实施例中还基于多面体的异构性对强化学习算法输出的旋转角度的值进行限制。以立方体投影格式为例，图8是本发明实施例图7在投影坐标系水平旋转90°后获得的目标投影图像的示意图，如图8所示，水平旋转90°(或90°的整数倍)只会改变投影平面的排列顺序和方向，对压缩率不会有影响，因此本实施例中对强化学习算法的网络输出的数值进行限制。

具体的，根据目标投影格式进行限制，例如立方体投影格式水平方向旋转90°的整数倍，结果只是调换投影平面的摆放顺序，因此限制水平方向旋转角度为水平旋转周期为[0°,90°)。对应的，直接对网络输出的数值进行限制。以立方体投影格式为例，网络输出数值a，图像旋转的角度为(a％90)。

需要说明的是，对于不同的投影坐标系，其坐标轴之间是相互独立的，因此对于不同坐标轴所对应的自由度(或维度)其周期值的限定是相互独立的。例如，立方体投影格式有三个旋转轴(参考正交坐标系)，具有三个方向的旋转，可表示为三自由度，对于任意一个自由度都可以根据如下步骤进行处理：

依据旋转角度的周期性变化，得到一个周期内旋转角度的变化范围，以立方体投影格式为例，水平旋转周期为[0°,90°)；对强化学习方法输出的旋转角度，将其限制在一个周期的变化范围内；若限制后的空间旋转角度为0，结束当前全景图像的推理过程。

其中，旋转周期根据对应的目标投影格式确定，例如立方体投影格式水平方向旋转90°的整数倍，结果只是调换投影平面的摆放顺序，因此限制水平方向旋转角度为水平旋转周期为[0°,90°)，如果旋转过后不改变投影平面内容，只改变投影平面顺序或方向，则认为此次旋转仅为周期变化，产生周期变化的最小旋转角度为一个周期。

上述推理过程包括求解旋转角度(求解目标多自由度旋转集合)、对投影坐标系进行旋转和重新投影的整个过程。具体的，当求解出的旋转角度为0，则代表当前就是最佳的旋转角度，不需要再进行投影坐标系旋转和重新投影。

本实施例中，还基于一种具体的应用场景对上述全景图像压缩方法进行具体说明，图9是本发明实施例提供的一种进行全景图像压缩的具体流程示意图，如图9所示，获取待压缩全景图像并对其进行语义分割以获得语义分割结果，根据目标投影格式及其初始投影坐标系投影语义分割结果获得初始投影平面。将所有初始投影平面作为强化学习算法的输入，通强化学习算法输出目标多自由度旋转角度集合。根据目标多自由度旋转角度集合旋转初始投影坐标系获得目标投影坐标系，根据目标投影坐标系将待压缩全景图像投影成平面格式并进行压缩。

如此，本实施例中，根据待压缩全景图像的具体内容，对投影坐标系进行多自由度的空间旋转，旋转后获得一个最优的目标投影坐标系，然后使用目标投影坐标系将待压缩全景图像投影为平面格式并压缩图像，使得压缩后的全景图像所需存储空间减少。具体的，通过语义分割算法对待压缩全景图像进行语义分割，识别出其中的前景对象。然后将语义分割的结果作为输入，使用强化学习算法输出目标多自由度旋转角度集合，该目标多自由度旋转角度集合用于旋转投影坐标系，从而提高待压缩全景图像的压缩率。

由上可见，本实施例中，可以通过语义分割识别出待压缩全景图像中的前景对象，从而通过预先设置的强化学习算法计算出投影收益最大的目标多自由度旋转角度集合，从而基于目标多自由度旋转角度集合对初始投影坐标系进行旋转并获得目标投影坐标系，使得根据目标投影坐标系进行投影时属于同一前景对象的所有前景像素能够尽量落在同一个投影平面，即有利于保证前景对象在投影时不会被割裂，从而有利于提高图像压缩率，并提升压缩效果和提高压缩效率。

示例性设备

如图10中所示，对应于上述全景图像压缩方法，本发明实施例还提供一种全景图像压缩装置，上述全景图像压缩装置包括：

图像获取模块510，用于获取待压缩全景图像。

语义分割模块520，用于对上述待压缩全景图像进行语义分割并获得语义分割图像，其中，上述语义分割图像中包括上述待压缩全景图像中的各个前景对象所对应的前景像素。

角度计算模块530，用于获取目标投影格式以及上述目标投影格式对应的初始投影坐标系，基于上述目标投影格式、上述初始投影坐标系和上述语义分割图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合。

图像压缩模块540，用于根据上述目标多自由度旋转角度集合对上述初始投影坐标系进行旋转并获得上述目标投影坐标系，根据上述目标投影格式和上述目标投影坐标系将上述待压缩全景图像投影成平面格式并进行压缩。

具体的，本实施例中，上述全景图像压缩装置及其各模块的具体功能可以参照上述全景图像压缩方法中的对应描述，在此不再赘述。

需要说明的是，上述全景图像压缩装置的各个模块的划分方式并不唯一，在此也不作为具体限定。

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图11所示。上述智能终端包括处理器及存储器。该智能终端的存储器包括全景图像压缩程序，存储器为全景图像压缩程序的运行提供环境。该全景图像压缩程序被处理器执行时实现上述任意一种全景图像压缩方法的步骤。需要说明的是，上述智能终端还可以包括其它功能模块或单元，在此不作具体限定。

本领域技术人员可以理解，图11中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体地智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明实施例还提供一种计算机可读存储介质，上述计算机可读存储介质上存储有全景图像压缩程序，上述全景图像压缩程序被处理器执行时实现本发明实施例提供的任意一种全景图像压缩方法的步骤。

应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/智能终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/智能终端实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种全景图像压缩方法，其特征在于，所述方法包括：

获取待压缩全景图像；

对所述待压缩全景图像进行语义分割并获得语义分割图像，其中，所述语义分割图像中包括所述待压缩全景图像中的各个前景对象所对应的前景像素；

获取目标投影格式以及所述目标投影格式对应的初始投影坐标系，基于所述目标投影格式、所述初始投影坐标系和所述语义分割图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合，其中，所述目标多自由度旋转角度集合中包括多个与不同旋转方向对应的旋转角度，所述目标多自由度旋转角度集合用于限定所述初始投影坐标系的旋转角度以获得目标投影坐标系，当根据所述目标投影格式和所述目标投影坐标系对所述语义分割图像进行投影时属于同一前景对象的所有前景像素落入同一个投影平面时所述投影收益最大；

根据所述目标多自由度旋转角度集合对所述初始投影坐标系进行旋转并获得所述目标投影坐标系，根据所述目标投影格式和所述目标投影坐标系将所述待压缩全景图像投影成平面格式并进行压缩。

2.根据权利要求1所述的全景图像压缩方法，其特征在于，所述待压缩全景图像是等矩形投影格式的全景图像。

3.根据权利要求1所述的全景图像压缩方法，其特征在于，所述对所述待压缩全景图像进行语义分割并获得语义分割图像，包括：

通过预先设置的语义分割算法对所述待压缩全景图像进行语义分割，标识出所述待压缩全景图像中的各个前景对象以及各个前景对象所对应的前景像素；

根据所述前景对象和所述前景像素获得所述语义分割图像，其中，所述语义分割图像的尺寸与所述待压缩全景图像的尺寸相同。

4.根据权利要求3所述的全景图像压缩方法，其特征在于，所述预先设置的语义分割算法为预先设置的基于卷积神经网络的语义分割算法。

5.根据权利要求1所述的全景图像压缩方法，其特征在于，所述获取目标投影格式以及所述目标投影格式对应的初始投影坐标系，基于所述目标投影格式、所述初始投影坐标系和所述语义分割图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得多自由度旋转角度，包括：

获取目标投影格式，根据所述目标投影格式选择对应的初始投影坐标系；

根据所述目标投影格式和所述初始投影坐标系对所述语义分割图像进行投影，获得多个初始投影平面图像；

根据所述初始投影平面图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合。

6.根据权利要求5所述的全景图像压缩方法，其特征在于，所述根据所述初始投影平面图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合，包括：

将所述初始投影平面作为所述强化学习算法的输入，通过所述强化学习算法以投影收益最大为目标进行一次计算，并将所述强化学习算法输出的多自由度旋转角度作为所述目标多自由度旋转角度集合。

7.根据权利要求5所述的全景图像压缩方法，其特征在于，所述根据所述初始投影平面图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合，包括：

将所述初始投影平面作为所述强化学习算法在进行第1次计算时的输入，通过所述强化学习算法以投影目标最大为目标进行多次迭代计算，直到满足预设的迭代结束条件时停止迭代计算；

其中，所述强化学习算法在第i次计算时的输入数据为第i投影平面图像，所述第i投影平面图像是根据第i投影坐标系和所述目标投影格式对所述语义分割图像进行投影后获得的投影平面图像，所述第i投影坐标系是根据第i-1多自由度旋转角度集合对第i-1投影坐标系进行旋转后获得的投影坐标系，所述第i-1多自由度旋转角度集合是所述强化学习算法在第i-1次计算时输出的多自由度旋转角度集合，i为大于1的整数；第1投影坐标系为所述初始投影坐标系，第1投影平面为所述初始投影平面；

所述预设的迭代结束条件包括迭代计算次数达到预设的迭代次数阈值和/或所述强化学习算法输出的多自由度旋转角度集合中的所有角度都为0。

8.根据权利要求1-7任意一项所述的全景图像压缩方法，其特征在于，所述强化学习算法为预先设置的连续动作空间强化学习算法或离散动作空间强化学习算法。

9.根据权利要求1-7任意一项所述的全景图像压缩方法，其特征在于，所述目标投影格式为立方体投影格式。

10.根据权利要求1-7任意一项所述的全景图像压缩方法，其特征在于，所述根据所述目标投影格式和所述目标投影坐标系将所述待压缩全景图像投影成平面格式并进行压缩，包括：

根据所述目标投影格式和所述目标投影坐标系对所述待压缩全景图像进行投影，获得多个目标投影平面图像；

对所有所述目标投影平面图像进行拼接获得一个拼接平面图像；

对所述拼接平面图像进行图像压缩并存储。

11.一种全景图像压缩装置，其特征在于，所述装置包括：

图像获取模块，用于获取待压缩全景图像；

语义分割模块，用于对所述待压缩全景图像进行语义分割并获得语义分割图像，其中，所述语义分割图像中包括所述待压缩全景图像中的各个前景对象所对应的前景像素；

角度计算模块，用于获取目标投影格式以及所述目标投影格式对应的初始投影坐标系，基于所述目标投影格式、所述初始投影坐标系和所述语义分割图像，通过预先设置的强化学习算法以投影收益最大为目标进行至少一次计算并获得目标多自由度旋转角度集合，其中，所述目标多自由度旋转角度集合中包括多个与不同旋转方向对应的旋转角度，所述目标多自由度旋转角度集合用于限定所述初始投影坐标系的旋转角度以获得目标投影坐标系，当根据所述目标投影格式和所述目标投影坐标系对所述语义分割图像进行投影时属于同一前景对象的所有前景像素落入同一个投影平面时所述投影收益最大；

图像压缩模块，用于根据所述目标多自由度旋转角度集合对所述初始投影坐标系进行旋转并获得所述目标投影坐标系，根据所述目标投影格式和所述目标投影坐标系将所述待压缩全景图像投影成平面格式并进行压缩。

12.一种智能终端，其特征在于，所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的全景图像压缩程序，所述全景图像压缩程序被所述处理器执行时实现如权利要求1-10任意一项所述全景图像压缩方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有全景图像压缩程序，所述全景图像压缩程序被处理器执行时实现如权利要求1-10任意一项所述全景图像压缩方法的步骤。