CN113256744B - 一种图像编码、解码方法及系统 - Google Patents
一种图像编码、解码方法及系统 Download PDFInfo
- Publication number
- CN113256744B CN113256744B CN202010085235.0A CN202010085235A CN113256744B CN 113256744 B CN113256744 B CN 113256744B CN 202010085235 A CN202010085235 A CN 202010085235A CN 113256744 B CN113256744 B CN 113256744B
- Authority
- CN
- China
- Prior art keywords
- initial
- outputting
- inputting
- feature map
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种图像编码、解码方法及系统,基于变分自编码网络,由编码模型和解码模型构成,本发明通过变分自编码网络旨在编解码图片的过程中采用激活函数Softplus、relu以及leakyrelu,实现最佳拟合方差,降低计算误差,同时通过减低残差块的通道数和个数,更进一步减少用户使用的显存量和计算量,提高压缩性能,达到最佳的压缩效果。
Description
技术领域
本发明涉及图像识别技术领域,具体涉及一种图像编码、解码方法及系统。
背景技术
随着大数据信息时代的到来,图像信号正成为信息存储与传播的主体,在推动国民经济、保障社会安全、传播先进文化等方面发挥着极为重要的作用。
图像信号内部存在大量冗余,包括空间冗余、结构冗余以及视觉冗余等。正因为存在这样的冗余,图像数据才能够被压缩。而在互联网的发展中,人们通过观看视频和读取图片来获取信息,而视频和图片所占的空间非常大,会导致占用大量网络宽带,影响传输速度,因此,在图像信息的传输方面如何压缩图像数据以节省空间已经成为迫在眉睫需要解决的问题。
传统的图像编码算法bpg在随着量化级数的增加,容易导致计算量呈现指数上涨,增加计算复杂度,从而使得编码效率低,导致压缩性能低。
因此,现有技术有待于改进和发展。
发明内容
基于此,有必要针对上述的技术问题,提供一种图像编码、解码方法及系统,旨在将编码模型与解码模型所构成的变分自编码网络在编解码图片的过程中采用不同的激活函数Softplus、relu以及leakyrelu,实现最佳拟合方差,降低计算误差,同时通过减低残差块的通道数和个数,更进一步减少用户使用的显存量和计算量,提高压缩性能和压缩比,达到最佳的压缩效果。
为了达到上述目的,本发明采取了以下技术方案:
一种图像编码方法,所述图像编码方法包括以下步骤:
将原始图片作为输入图像,输入至有损编码网络,通过所述有损编码网络输出原始图片对应的初始特征图;
将所述初始特征图量化后得到的初始量化特征图输入至无损编码网络,通过所述无损编码网络输出初始量化特征图对应的初始概率图;
将初始量化特征图和初始概率图进行算术编码,得到压缩后的中间文件。
可选的,所述有损编码网络和所述无损编码网络构成编码模型,所述有损编码网络包括上采样模块、下采样模块以及连接模块;所述通过所述有损编码网络输出原始图片对应的初始特征图具体包括:
将原始图片输入至上采样模块,通过上采样模块输出原始图片对应的第一特征图;
将第一特征图输入至下采样模块,通过下采样模块输出若干第二特征图;
将第一特征图以及所述若干第二特征图输入所述连接模块,通过所述连接模块输出所述原始图片对应的初始特征图。
可选的,所述上采样模块包括若干第一卷积层,所述将原始图片输入至上采样模块,通过上采样模块输出原始图片对应的第一特征图具体包括:
将原始图片依次输入至各第一卷积层,通过各第一卷积层依次输出若干中间第一特征图;
直至通过最后一个第一卷积层输出原始图片对应的第一特征图。
可选的,所述下采样模块包括并列设置的若干第二卷积层,所述将第一特征图输入至下采样模块,通过下采样模块输出若干第二特征图具体包括:
获取各第一卷积层输出的若干中间第一特征图;
将若干中间第一特征图分别对应输入至若干第二卷积层,通过各第二卷积层输出若干第二特征图。
可选的,所述连接模块包括连接层和第三卷积层,所述将第一特征图以及所述若干第二特征图输入所述连接模块,通过所述连接模块输出所述原始图片对应的初始特征图具体包括:
获取原始图片对应的第一特征图以及若干第二特征图;
将所述第一特征图与所有的第二特征图输入至连接层,通过所述连接层输出第三特征图;
将所述第三特征图输入至所述第三卷积层,通过所述第三卷积层输出原始图片对应的初始特征图。
可选的,所述无损编码网络包括概率编码模块和先验估计模块,所述先验估计模块用于辅助所述概率编码模块,且根据所述初始量化特征图获取预估方差;所述概率编码模块包括第四卷积层和第五卷积层,
所述将所述初始特征图量化后得到的初始量化特征图输入至所述无损编码网络,通过所述无损编码网络输出初始量化特征图对应的初始概率图具体包括:
将所述初始特征图进行取整量化处理,得到初始量化特征图;
将所述初始量化特征图进行切片操作,得到各初始量化特征图对应的若干切片特征图;
将各切片特征图分别输入至第四卷积层,通过所述第四卷积层和leakyrelu激活函数,输出若干第一切片特征图;
将各第一切片特征图输入至第五卷积层,通过所述第五卷积层和softplus激活函数拟合所述预估方差,输出各初始量化特征图对应的初始概率图。
本发明还提供一种图像解码方法,所述图像解码方法包括以下步骤:
将待解压的中间文件输入至无损解码网络,通过所述无损解码网络输出初始量化特征图;其中,所述中间文件是基于如权利要求1所述的中间文件;
将所述初始量化特征图输入至有损解码网络,通过所述有损解码网络输出初始图片;
将所述初始图片输入至后增强网络,通过所述后增强网络输出原始图片。
可选的,所述无损解码网络、所述有损解码网络以及所述后增强网络构成解码模型,所述有损解码网络包括依次连接的若干第一残差块和若干第六卷积层,所述将所述初始量化特征图输入至有损解码网络,通过所述有损解码网络输出初始图片具体包括:
将所述初始量化特征图输入至第一残差块,通过所述第一残差块输出初始量化特征图对应的中间图;
将所述中间图输入至第六卷积层,通过第六卷积层和反归一操作,输出初始量化特征图对应的初始图片。
可选的,所述后增强网络包括两层第七卷积层,两层第七卷积层之间设置有若干第二残差块,所述将所述初始图片输入至后增强网络,通过所述后增强网络输出原始图片具体包括:
将获取的初始图片输入至第七卷积层,通过所述第七卷积层输出初始图片对应的第一增强图片;
将所述第一增强图片依次输入至各第二残差块,通过每个第二残差块输出所述第一增强图片对应的第二增强图片;
将所述第二增强图片输入至最后一层第七卷积层,通过所述最后一层第七卷积层输出初始图片对应的第三增强图片,即所述第三增强图片为原始图片。
本发明还提供一种系统,所述系统包括发送终端和接收终端,所述发送终端和所述接收终端均包括处理器与所述处理器连接的存储器,针对发送终端,所述存储器存储有并可在所述处理器上运行的图像编码程序,所述图像编码程序被所述处理器执行时实现上述所述的图像编码方法;针对接收终端,所述存储器存储有并可在所述处理器上运行的图像解码程序,所述图像解码程序被所述处理器执行时实现上述所述的图像解码方法的步骤。
有益效果:
相较于现有技术,本发明提供的一种图像编码、解码方法及系统,其编码模型与解码模型构成了变分自编码网络,本发明通过变分自编码网络旨在编解码图片的过程中采用激活函数Softplus、relu以及leakyrelu,实现最佳拟合方差,降低计算误差,同时通过减低残差块的通道数和个数,更进一步减少用户使用的显存量和计算量,提高压缩性能,达到最佳的压缩效果。
附图说明
图1为本发明提供的一种图像编码方法的流程图。
图2为本发明提供的编码模型和解码模型整体的结构框图。
图3为本发明提供的先验估计模块Z的结构框图。
图4为本发明提供的概率编码模块AE的功能原理框图。
图5为本发明提供的一种图像解码方法的流程图。
图6为本发明提供的第一残差块RB的结构框图。
图7为本发明提供的后处理增强网络的结构框图。
图8为本发明提供的后处理增强网络中的第二残差块的结构框图。
图9为本发明所提供的系统的功能原理框图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明所采用的图像编码方法和图像解码方法,是基于变分自编码网络的基础,所述变分自编码网络(VAE)是一种无监督的学习网络,可以自动从无标注的数据中学习特征,是一种以重构出与输入数据尽可能相似的数据为目标的神经网络,它可以给出比原始数据更好的特征描述,具有较强的特征学习能力,在深度学习中常用变分自编码网络生成的特征来取代原始数据,降低原始数据中的波段间的干扰,减少原始数据维度,以取得更好的效果,因此变分自编码网络在对图像编解码方面提供了一种较好的处理手段。本发明应用于图像处理、视频、多媒体等多领域。
实施例1
请参阅图1和图2,图1是本发明提供的一种图像编码方法的流程图,图2是本发明提供的一种图像编码方法和图像解码方法的整体框架图,应该说明的是,本发明实施方式的图像编码并不限于图1所示的流程图中的步骤及顺序,根据不同的需求,流程图中的步骤可以增加、移除或者改变顺序。
如图1和图2所示,本发明提供的图像编码方法包括以下步骤:
S10、将原始图片作为输入图像,输入至有损编码网络,通过所述有损编码网络输出原始图片对应的初始特征图。
如图2所示,搭建编码模型,并对其训练,得到训练好的编码模型,所述编码模型包括有损编码网络和无损编码网络,所述有损编码网络YE采用的是非线性编码网络,所述有损编码网络YE包括上采样模块1、下采样模块2以及连接模块3,所述通过所述有损编码网络输出原始图片对应的初始特征图具体包括:将原始图片输入至上采样模块1,通过上采样模块1输出原始图片对应的第一特征图;将第一特征图输入至下采样模块2,通过下采样模块2输出若干第二特征图;将第一特征图以及所述若干第二特征图输入所述连接模块3,通过所述连接模块3输出所述原始图片对应的初始特征图。
具体地,所述上采样模块1包括若干第一卷积层110,所述将原始图片输入至上采样模块1,通过上采样模块1输出原始图片对应的第一特征图具体包括:将原始图片依次输入至各第一卷积层110,通过各第一卷积层110依次输出若干中间第一特征图;直至通过最后一个第一卷积层110输出原始图片对应的第一特征图。
在本实施例中,如图2所示,第一卷积层110的个数为4个,每个第一卷积层110的结构和参数均相同,每个第一卷积层110的卷积核大小均为5*5,卷积移动步长为2,每个第一卷积层均采用的是192通道。
即将原始图片输入至第一个第一卷积层110进行卷积运算,输出原始图片对应的中间第一特征图,接着将所述中间第一特征图进行归一处理(GDN)后输入至第二个第一卷积层110,重新同样的操作,直到输入至第四个第一卷积层110仅进行卷积运算,不再进行归一化处理,输出原始图片对应的第一特征图。
这样,原始图片提取特征后进行归一处理,统一大小,提高训练结果的准确性以及提高处理效率。
所述下采样模块2包括并列设置的若干第二卷积层210,所述将第一特征图输入至下采样模块2,通过下采样模块2输出若干第二特征图具体包括:获取各第一卷积层110输出的若干中间第一特征图;将若干中间第一特征图分别对应输入至若干第二卷积层210,通过各第二卷积层210输出若干第二特征图。
在本实施例中,如图2所示,各第二卷积层210连接于相邻的第一卷积层110之间,第二卷积层210的个数比第一卷积层110的个数少1,因此,第二卷积层210的个数为3个,每个第二卷积层210的结构和参数均不同。其第一个第二卷积层的卷积核大小为9*9,卷积移动步长为8,第二个第二卷积层210的卷积核大小为5*5,卷积移动步长为4,第三个第二卷积层210的卷积核大小为3*3,卷积移动步长为2,所有的第二卷积层210处理192通道。
即将经过3次归一化处理后得到的3个中间特征图,分别输入至对应的第二卷积层210,通过3个第二卷积层210的卷积运算,分别输出3个第二特征图。
所述连接模块3包括连接层310和第三卷积层311,所述将第一特征图以及所述若干第二特征图输入所述连接模块3,通过所述连接模块3输出所述原始图片对应的初始特征图具体包括:获取原始图片对应的第一特征图以及若干第二特征图;将所述第一特征图与所有的第二特征图输入至连接层310,通过所述连接层310输出第三特征图;将所述第三特征图输入至所述第三卷积层311,通过所述第三卷积层311输出原始图片对应的初始特征图。
在本实施例中,如图2所示,第三卷积层311的卷积核大小为1*1,无卷积移动步长,其采用的是192通道。
即将第4个第一卷积层110输出的第一特征图与3个第二卷积层210输出的3个第二特征图输入至连接层310,进行拼接处理,得到第三特征图,接着输入至第三卷积层311进行卷积计算,提取特征,输出原始图片对应的初始特征图。
这样,本发明相对于现有的图像编码算法改变卷积核大小和个数,使得编码后的图像在指标峰值信噪比(psnr,Peak Signal to Noise Ratio)和指标多层级结构相似性(MS-SSIM,Multi-Scale-Structural Similarity Index)都有小幅度提高,psnr提高0.2,指标MS-SSIM提高0.0004。
需要说明的是,上述卷积层的个数、卷积核大小以及卷积移动步长并非限制的。
S20、将所述初始特征图量化后得到的初始量化特征图输入至所述无损编码网络,通过所述无损编码网络输出初始量化特征图对应的初始概率图。
具体地,将步骤S10得到的初始特征图进行量化处理,所述量化处理指的是取整量化(即Quantiz),即将初始特征图进行四舍五入取整处理,得到初始量化特征图YQ。
这样,本发明采用取整量化的方式,不同于现有采用加随机噪声的方式进行量化,使得指标峰值信噪比和指标多层级结构相似性再次更进一步地小幅度提高,即使得指标psnr提高0.5,指标MS-SSIM提高0.015。
如图3所示,所述无损编码网络包括概率编码模块AE和先验估计模块Z,所述先验估计模块Z用于辅助所述概率编码模块AE,且所述先验估计模块Z根据所述初始量化特征图获取预估方差;所述先验估计模块Z包括编码估计单元ZE和解码估计单元ZD,所述编码估计单元ZE包括依次连接的多个第八卷积层410,每两个第八卷积层410输入之前通过采用leaky relu激活函数,这样可以提高效率,降低计算维度。
具体实施中,所述编码估计单元ZE包括5个第八卷积层410,所有的第八卷积层410的卷积核大小均相同,均为3*3,均采用128通道,而仅第三个第八卷积层410(3)和最后一个第八卷积层410(5)的卷积移动步长为2,其他第八卷积层410均无卷积移动步长。
所述解码估计单元ZD与所述编码估计单元ZE的结构和参数均相同,所述解码估计单元ZD包括多个第九卷积层510,每两个第九卷积层510输入之后通过采用leaky relu激活函数,仅最后一个第九卷积层510输出通过softplus激活函数。
具体实施中,第九卷积层510的个数为5个,所有的第九卷积层510的卷积核大小均相同,均为3*3,均采用128通道,而仅第二个第九卷积层510(2)和第四个第九卷积层510(4)的卷积移动步长为2,其他第九卷积层510均无卷积移动步长。
所述先验估计模块Z根据所述初始量化特征图获取预估方差具体包括:
1、求取初始量化特征图YQ的先验估计特征图Z
即所述初始量化特征图YQ进行绝对值处理(即ABS),将处理后的YQ输入至第一个第八卷积层410进行卷积运算,输出的数据通过激活函数leaky relu后输入至第二个第八卷积层410和第三个第八卷积层410进行卷积运算后,输出的数据再次通过激活函数leakyrelu后输入至最后2个第八卷积层410分别进行卷积运算,一系列特征提取,得到初始量化特征图对应的先验估计特征图Z。
2、将先验估计特征图Z同样进行取整量化处理,得到量化先验估计特征图ZQ。
3、为了加快中间文件处理效率,将量化先验估计特征图ZQ输入至解码先验估计单元ZD求取预估方差σ。
具体地,将ZQ输入至前2个第九卷积层510进行卷积运算后,通过激活函数leakyrelu,接着再次输入2个第九卷积层510,重复执行卷积计算和采用激活函数leaky relu,直至输入至最后一个第九卷积层510进行卷积运算后,采用激活函数softplus,从而输出预估方差σ。
请参阅图4,如图4所示,所述概率编码模块AE包括第四卷积层420和第五卷积层520,所述将初始量化特征图输入至所述无损编码网络,通过所述无损编码网络输出初始量化特征图对应的初始概率图具体包括:将所述初始特征图进行量化处理,得到初始量化特征图;将所述初始量化特征图进行切片操作slice,得到各初始量化特征图对应的若干切片特征图;将各切片特征图分别输入至第四卷积层420,通过所述第四卷积层420和leakyrelu激活函数,输出若干第一切片特征图;将各第一切片特征图输入至第五卷积层520,通过所述第五卷积层520和softplus激活函数拟合所述预估方差σ,输出各初始量化特征图对应的初始概率图。
需要说明的是,概率编码模块AE的最后一层输出所采用的是softplus激活函数,能够很平滑的非线性拟合每个初始量化特征图的预估方差,而不同于现有技术中采用relu函数,其拟合值不是预估方差,其图像压缩效果差。
如图4所示,按照奇偶方式提取,提取出4个经切片操作的切片特征图,即z_1_00,z_1_11,z_1_01,z_1_10,本实施例中切片操作针对每个切片特征图仅进行2次切片操作,与现有技术中无限次切片,操作更简便,不仅降低计算维度和复杂度,同时提高效率,节省时间。例如,第一次切片操作,获取z_1_00,第二次切片操作,获取z_2_00,完成两次切片,不在分割,以作为概率计算的对象parameter。
如图4所示,在本实施例中,所述第四卷积层420和所述第五卷积层520的卷积核大小均为3*3,但是所述第四卷积层420采用的是32通道,所述第五卷积层520采用的是128通道,均无卷积移动步长值。
在一些实施例中,切片操作所得到的若干切片特征图有切片特征图的结构不能达到预期切片结构(不足)时,需要先补足后再进行概率计算,即自动通过程序和代码的设定,使其补足,这样,保持统一以进行概率计算,从而提高处理效率和数据的准确性。因此,在切片特征图输入概率编码模块AE前,需判断所有切片特征图是否存在不满足预期切片结构来确定采用哪一概率编码模块AE,若否,则所述概率编码模块AE的结构如前述,若是,则此时所选用的所述概率编码模块AE是:所述第四卷积层420和所述第五卷积层520的卷积核大小均为3*3,但是所述第四卷积层420采用的是32通道,所述第五卷积层520采用的是256通道,均无卷积移动步长值。
例如,如图4中,z_1_11和z_2_11通过设备pad补足一定结构的前缀方式至切片后的切片特征图,得到z_1_11_pad和z_2_11_pad。将同一次切片后的前一个切片特征图与当前经过补足后的切片特征图进行合并操作merge后,进行概率计算,以得到初始概率图。
下面具体说明得到初始概率图的技术方案,以z_1_00(切片结构满足)和z_1_11(切片结构不足)为例:
如图4所示,将切片后的切片特征图z_1_00送入至第四卷积层420进行卷积运算后,选用激活函数Leaky Relu进行拟合后送入至第五卷积层520进行卷积运算后,选用激活函数Softplus,结合预估方差σ拟合,根据公式(1)和(2)计算概率(用P或PDF表示),得到切片特征图z_1_00的概率值P_1_11。
同时,将初始量化特征图YQ直接输入至概率编码模块AE,结合上述预估方差σ,通过公式(2)计算初始量化特征图YQ的概率。
将切片特征图z_1_11通过设备pad补结构,得到预期切片特征图z_1_11_pad,与相邻的前一切片特征图z_1_00进行合并操作merge后,送入至第四卷积层420进行卷积运算,同样采用激活函数Leaky Relu进行拟合后送入至第五卷积层520进行卷积运算后,该最后一层采用激活函数Softplus,结合预估方差σ拟合,得到特征合并后的预期切片特征图的合并概率值(PDF),接着进入分类器,即需要进行分裂操作split,得到两个概率值即P_1_10和P_1_01。例如两个192通道经过merge之后,就是384通道,384通道经过split之后,分开出两个192通道。
S30、将初始量化特征图和初始概率图进行算术编码,得到压缩后的中间文件。
即获取步骤S20得到的初始量化特征图YQ对应的初始概率图以及获取步骤S10得到的初始量化特征图YQ,将YQ与初始概率图进行二进制转换,得到二进制格式的中间文件bits。
这样,本发明所得到的中间文件通过训练好的编码模型,在确保图像不失真情况下,提高压缩比,使得传输所占流量和宽带大幅度减小,提高传输效率。
实施例2
本发明还提供一种图像解码方法,如图5所示,所述图像解码方法包括以下步骤:
所述解码模型包括无损解码网络、有损解码网络以及后增强网络。S001,将待解压的中间文件输入至无损解码网络,通过所述无损解码网络输出初始量化特征图;其中,所述中间文件为上述步骤S40得到的中间文件。
如图2,搭建解码模型,并对其训练,得到训练好的解码模型,所述训练好的解码模型包括包括无损解码网络、有损解码网络以及后增强网络。其中,所述无损解码网络的结构和参数与实施例1中的无损编码网络的结构和参数相同。所述无损解码网络包括概率解码模块AD和先验估计模块Z,所述先验估计模块Z用于辅助所述概率解码模块AD,其结构也相同,故不在此赘述。
具体地,将中间文件输入至所述概率解码模块AD进行解码,解码出量化先验估计特征图ZQ,输入至先验估计模块Z,求取预估方差σ。接着根据上述实施例1中的公式(2),求取出初始量化特征图YQ对应的初始概率图,将初始概率图通过算术编码,得到初始量化特征图YQ。
S002,将所述初始量化特征图输入至有损解码网络,通过所述有损解码网络输出初始图片。
如图2所示,所述有损解码网络采用非线性解码网络,其包括依次连接的若干第一残差块RB和若干第六卷积层610,所述将所述初始量化特征图YQ输入至有损解码网络,通过所述有损解码网络输出初始图片具体包括:
将所述初始量化特征图输入至第一残差块RB,通过所述第一残差块RB输出初始量化特征图YQ对应的中间图;
将所述中间图输入至第六卷积层610,通过第六卷积层610和反归一操作,还原出所述初始量化特征图YQ对应的初始图片。
在本实施例中,如图2所示,所述第一残差块RB的个数为3个,每个第一残差块RB的结构和参数均相同,其每个第一残差块RB具体结构如图6所示,所述第一残差块RB包括两层残差卷积层,这两层残差卷积层的结构和参数相同,其卷积核大小均为3*3,处理192通道,无卷积移动步长值,在这两层残差卷积层之间输出的数据采用激活函数relu。本发明在输入至有损编码网络时增加3个第一残差块RB,不同于现有技术未额外添加第一残差块RB,这样,本发明可使得指标峰值信噪比和多层级结构相似性再更进一步小幅度地提高即=,即psnr提高0.4,指标MS-SSIM提高0.015,使得解压质量更好。
继续参阅图2,第六卷积层610的个数为8个,分为4组,例如第六卷积层1和第六卷积层2为1组,第六卷积层3和第六卷积层4为2组,依次类推,同一组内的2个第六卷积层的卷积核大小均为3*3,均处理192通道,但同一组内先输入的第六卷积层如第六卷积层1具有卷积移动步长,值为2,后输入的第六卷积层如第六卷积层2无需移动、分割。
当YQ经过3次第一残差块RB的处理后,输入至第1组的第六卷积层1和第六卷积层2进行卷积运算后,输出的数据进行反归一化处理(即IGDN),接着输入至第2组的第六卷积层3和第六卷积层4,进行卷积运算后反归一化处理,重复此操作,直至输入最后一个第六卷积层8进行卷积运算后输出初始量化特征图YQ对应的初始图片。
S003,将所述初始图片输入至后增强网络,通过所述后增强网络输出原始图片。
为了使得步骤S002输出的初始图片更接近原始图片,则需要将所述初始图片进行增强处理,以确保增强后的初始图片还原出原始图片。
具体地,如图7所示,所述后增强网络700包括两层第七卷积层710,两层第七卷积层710之间设置有若干第二残差块720,所述将所述初始图片输入至后增强网络700,通过所述后增强网络输出原始图片具体包括:将获取的初始图片输入至第七卷积层710,通过所述第七卷积层710输出初始图片对应的第一增强图片;将所述第一增强图片依次输入至各第二残差块720,通过每个第二残差块720输出所述第一增强图片对应的第二增强图片;将所述第二增强图片输入至最后一层第七卷积层710,通过所述最后一层第七卷积层710输出初始图片对应的第三增强图片,即所述第三增强图片为原始图片。
在本实施例中,两层第七卷积层710的结构和参数均相同,其卷积核大小均为3*3,均采用32通道,均无卷积移动步长。本发明中在两个第七卷积层710之间设置有3个第二残差块720,不同于现有技术。每个第二残差块720具有相同的结构和参数,每个所述第二残差块720的结构如图8所示,所述第二残差块720包括两层增强残差卷积层,这两层增强残差卷积层的结构和参数均相同,其卷积核大小均为3*3,均采用32通道,无卷积移动步长。在输入每个增强残差卷积层之前采用leakyrelu激活函数。
这样,后增强网络中的3个第二残差块相对于现有采用64通道减少通道数,且降低第二残差块个数,从而使得本发明更进一步降低计算复杂度,提高处理效率,同时减少显存量,方便用户。
其在训练过程中,在搭建好编码模型和解码模型,根据损失函数得到的损失值loss指导有损编码网络、无损编码网络、无损解码网络、有损解码网络以及后增强网络的参数学习,从而对编码模型和解码模型进行训练,得到训练好的编码模型和解码模型。
具体地,获取预先设定的若干权值λ,利用均方误差MSE(Mean Squared Error)和熵编码损失函数entropy计算原始图片和步骤S003得到的第三增强图片之间的损失值lossmse,接着根据公式(3)计算总损失值loss。其中,所述权值用于权衡压缩比和图像质量,λ越大,压缩比越小,但恢复出来的图像质量越好。
loss=λ*lossmse+lossentropy (3)
这样,将待压缩的原始图片输入至训练好的变分自编码网络后所得到的目标图片即为原始图片。
本发明的编码模型与解码模型构成为变分自编码网络,通过编解码图片的过程中采用激活函数Softplus、relu以及leakyrelu,实现最佳拟合预估方差,降低计算误差,同时通过减低残差块的通道数和个数,更进一步减少用户使用的显存量和计算量,提高压缩性能,达到最佳的压缩效果。
本发明通过实验以验证本发明所采用的方法有效性:
机器测试平台为:E5-2680处理器、128G内存、GTX1080TI 11G显卡以及linux系统。本实验是在50张1920x1280大小图片上测试,结果取平均值。其实验结果包括其中λ为640、2560和7680,如下表1所示。640权重、2560权重和7680权重均指的是本发明所采用的图像编解码算法。
名称类型 | PSNR | MS-SSIM | bpp |
640权重 | 36.2363 | 0.9808 | 0.2393 |
BPG | 36.520 | 0.980 | 0.250 |
2560权重 | 39.1225 | 0.9896 | 0.443 |
BPG | 39.779 | 0.989 | 0.464 |
7680权重 | 41.2722 | 0.9935 | 0.6842 |
BPG | 41.747 | 0.993 | 0.691 |
表1
表1是不同图像算法各平均指标的对比,其中psnr指的是峰值信噪比,MS-SSIM指的是多层级结构相似性,bpp(bitsperpixel)指的是像素位数、像素深度。BPG为现有的图像编码算法。
从表1可知,同等指标参数下(在同等bpp下,PSNR和Ms-ssim越高越好),本发明所采用的方法相对于现有技术更高质量,更高压缩比,减少计算复杂度和减小流量占用空间。
实施例3
基于上述图像编码、解码方法,本发明还相应提供了一种系统,如图9所示,所述系统包括发送终端800和接收终端900,针对发送终端800,所述发送终端处理器12与所述发送终端处理器12连接的发送终端存储器11,所述发送终端存储器11存储有并可在所述发送终端处理器12上运行的图像编码程序;针对接收终端900,所述接收终端900包括接收终端处理器112与所述接收终端处理器112连接的接收终端存储器111,所述接收终端存储器111存储有并可在所述接收终端处理器112上运行的图像解码程序。图9仅示出了系统的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述发送终端存储器11和接收终端存储器111在一些实施例中可以是对应终端的内部存储单元,例如终端的内存。所述所述发送终端存储器11和接收终端存储器111在另一些实施例中也可以是对应终端的外部存储设备,例如所述终端上配备的插接式U盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述所述发送终端存储器11和接收终端存储器111还可以既包括所述终端的内部存储单元也包括外部存储设备。所述所述发送终端存储器11和接收终端存储器111用于存储安装于终端的应用软件及各类数据,例如所述发送终端存储器11存储有图像编码程序、所述接收终端存储器111存储有图像解码程序等。所述发送终端存储器11和接收终端存储器111还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,发送终端存储器11和接收终端存储器111上对应存储有图像编码和解码程序,该图像编码和解码程序可被对应终端的处理器所执行,从而实现图像编码和解码方法,具体如上述方法所述。
所述发送终端处理器12和所述接收终端处理器112在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器,手机基带处理器或其他数据处理芯片,用于运行所述发送终端存储器11和接收终端存储器111中存储的程序代码或处理数据,例如执行所述图像编码和解码方法等,具体如上述方法所述。
综上所述,本发明提供了一种图像编码、解码方法及系统,其编码模型与解码模型构成了变分自编码网络,本发明通过变分自编码网络旨在编解码图片的过程中采用激活函数Softplus、relu以及leakyrelu,实现最佳拟合预估方差,降低计算误差,同时通过减低残差块的通道数和个数,更进一步减少用户使用的显存量和计算量,提高压缩性能,达到最佳的压缩效果。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (9)
1.一种图像编码方法,其特征在于,所述图像编码方法包括以下步骤:
将原始图片作为输入图像,输入至有损编码网络,通过所述有损编码网络输出原始图片对应的初始特征图;
将所述初始特征图量化后得到的初始量化特征图输入至无损编码网络,通过所述无损编码网络输出初始量化特征图对应的初始概率图;
将初始量化特征图和初始概率图进行算术编码,得到压缩后的中间文件;
所述有损编码网络和所述无损编码网络构成编码模型,所述有损编码网络包括上采样模块、下采样模块以及连接模块;
所述无损编码网络包括概率编码模块和先验估计模块,所述先验估计模块用于辅助所述概率编码模块,且根据所述初始量化特征图获取预估方差;所述概率编码模块包括第四卷积层和第五卷积层;
所述将所述初始特征图量化后得到的初始量化特征图输入至所述无损编码网络,通过所述无损编码网络输出初始量化特征图对应的初始概率图具体包括:
将所述初始特征图进行取整量化处理,得到初始量化特征图;
将所述初始量化特征图进行切片操作,得到各初始量化特征图对应的若干切片特征图;
将各切片特征图分别输入至第四卷积层,通过所述第四卷积层和leakyrelu激活函数,输出若干第一切片特征图;
将各第一切片特征图输入至第五卷积层,通过所述第五卷积层和softplus激活函数拟合所述预估方差,输出各初始量化特征图对应的初始概率图。
2.根据权利要求1所述的图像编码方法,其特征在于,所述通过所述有损编码网络输出原始图片对应的初始特征图具体包括:
将原始图片输入至上采样模块,通过上采样模块输出原始图片对应的第一特征图;
将第一特征图输入至下采样模块,通过下采样模块输出若干第二特征图;
将第一特征图以及所述若干第二特征图输入所述连接模块,通过所述连接模块输出所述原始图片对应的初始特征图。
3.根据权利要求2所述的图像编码方法,其特征在于,所述上采样模块包括若干第一卷积层,所述将原始图片输入至上采样模块,通过上采样模块输出原始图片对应的第一特征图具体包括:
将原始图片依次输入至各第一卷积层,通过各第一卷积层依次输出若干中间第一特征图;
直至通过最后一个第一卷积层输出原始图片对应的第一特征图。
4.根据权利要求3所述的图像编码方法,其特征在于,所述下采样模块包括并列设置的若干第二卷积层,所述将第一特征图输入至下采样模块,通过下采样模块输出若干第二特征图具体包括:
获取各第一卷积层输出的若干中间第一特征图;
将若干中间第一特征图分别对应输入至若干第二卷积层,通过各第二卷积层输出若干第二特征图。
5.根据权利要求4所述的图像编码方法,其特征在于,所述连接模块包括连接层和第三卷积层,所述将第一特征图以及所述若干第二特征图输入所述连接模块,通过所述连接模块输出所述原始图片对应的初始特征图具体包括:
获取原始图片对应的第一特征图以及若干第二特征图;
将所述第一特征图与所有的第二特征图输入至连接层,通过所述连接层输出第三特征图;
将所述第三特征图输入至所述第三卷积层,通过所述第三卷积层输出原始图片对应的初始特征图。
6.一种图像解码方法,其特征在于,所述图像解码方法包括以下步骤:
将待解压的中间文件输入至无损解码网络,通过所述无损解码网络输出初始量化特征图;其中,所述中间文件是基于如权利要求1所述的中间文件;
将所述初始量化特征图输入至有损解码网络,通过所述有损解码网络输出初始图片;
将所述初始图片输入至后增强网络,通过所述后增强网络输出原始图片。
7.根据权利要求6所述的图像解码方法,其特征在于,所述无损解码网络、所述有损解码网络以及所述后增强网络构成解码模型,所述有损解码网络包括依次连接的若干第一残差块和若干第六卷积层,所述将所述初始量化特征图输入至有损解码网络,通过所述有损解码网络输出初始图片具体包括:
将所述初始量化特征图输入至第一残差块,通过所述第一残差块输出初始量化特征图对应的中间图;
将所述中间图输入至第六卷积层,通过第六卷积层和反归一操作,输出初始量化特征图对应的初始图片。
8.根据权利要求7所述的图像解码方法,其特征在于,所述后增强网络包括两层第七卷积层,两层第七卷积层之间设置有若干第二残差块,所述将所述初始图片输入至后增强网络,通过所述后增强网络输出原始图片具体包括:
将获取的初始图片输入至第七卷积层,通过所述第七卷积层输出初始图片对应的第一增强图片;
将所述第一增强图片依次输入至各第二残差块,通过每个第二残差块输出所述第一增强图片对应的第二增强图片;
将所述第二增强图片输入至最后一层第七卷积层,通过所述最后一层第七卷积层输出初始图片对应的第三增强图片,即所述第三增强图片为原始图片。
9.一种系统,其特征在于,所述系统包括发送终端和接收终端,所述发送终端和所述接收终端均包括处理器与所述处理器连接的存储器,针对发送终端,所述存储器存储有并可在所述处理器上运行的图像编码程序,所述图像编码程序被所述处理器执行时实现如权利要求1-5任一项所述的图像编码方法;针对接收终端,所述存储器存储有并可在所述处理器上运行的图像解码程序,所述图像解码程序被所述处理器执行时实现如权利要求6-8任一项所述的图像解码方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010085235.0A CN113256744B (zh) | 2020-02-10 | 2020-02-10 | 一种图像编码、解码方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010085235.0A CN113256744B (zh) | 2020-02-10 | 2020-02-10 | 一种图像编码、解码方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113256744A CN113256744A (zh) | 2021-08-13 |
CN113256744B true CN113256744B (zh) | 2023-03-24 |
Family
ID=77219404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010085235.0A Active CN113256744B (zh) | 2020-02-10 | 2020-02-10 | 一种图像编码、解码方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113256744B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989174B (zh) * | 2021-10-29 | 2023-11-10 | 北京百度网讯科技有限公司 | 图像融合方法和图像融合模型的训练方法、装置 |
CN117544778A (zh) * | 2022-08-01 | 2024-02-09 | 深圳市中兴微电子技术有限公司 | 视频传输方法、电子设备及计算机存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4324079B2 (ja) * | 2004-11-15 | 2009-09-02 | キヤノン株式会社 | 画像符号化装置及び方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体 |
CN102598661B (zh) * | 2009-11-02 | 2015-04-15 | 松下电器(美国)知识产权公司 | 图像编码方法、图像解码方法、图像编码装置及图像解码装置 |
CN102547262B (zh) * | 2010-12-24 | 2016-08-17 | 盛乐信息技术(上海)有限公司 | 视频编码运动估计方法 |
US10510146B2 (en) * | 2016-10-06 | 2019-12-17 | Qualcomm Incorporated | Neural network for image processing |
CN109903351B (zh) * | 2019-03-02 | 2023-05-30 | 复旦大学 | 基于卷积神经网络和传统编码相结合的图像压缩方法 |
CN110348487B (zh) * | 2019-06-13 | 2021-07-20 | 武汉大学 | 一种基于深度学习的高光谱图像压缩方法及装置 |
CN110580704A (zh) * | 2019-07-24 | 2019-12-17 | 中国科学院计算技术研究所 | 基于卷积神经网络的et细胞图像自动分割方法及系统 |
CN110691243A (zh) * | 2019-10-10 | 2020-01-14 | 叠境数字科技(上海)有限公司 | 一种基于深度卷积网络的点云几何压缩方法 |
CN110730352A (zh) * | 2019-11-12 | 2020-01-24 | 智洋创新科技股份有限公司 | 基于变分自编码的输电线路图像解码方法 |
-
2020
- 2020-02-10 CN CN202010085235.0A patent/CN113256744B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113256744A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng et al. | Energy compaction-based image compression using convolutional autoencoder | |
CN111641832B (zh) | 编码方法、解码方法、装置、电子设备及存储介质 | |
US11221990B2 (en) | Ultra-high compression of images based on deep learning | |
CN112119408A (zh) | 获取画质增强网络的方法、图像画质增强方法、装置、可移动平台、相机及存储介质 | |
Sun et al. | Reduction of JPEG compression artifacts based on DCT coefficients prediction | |
US11893762B2 (en) | Method and data processing system for lossy image or video encoding, transmission and decoding | |
Song et al. | Compressed image restoration via artifacts-free PCA basis learning and adaptive sparse modeling | |
CN113256744B (zh) | 一种图像编码、解码方法及系统 | |
WO2022028197A1 (zh) | 一种图像处理方法及其设备 | |
Chen et al. | An entropy minimization histogram mergence scheme and its application in image compression | |
CN115361559A (zh) | 图像编码方法、图像解码方法、装置以及存储介质 | |
CN112714313A (zh) | 图像处理方法、装置、设备和存储介质 | |
CN113810717A (zh) | 图像处理方法及装置 | |
Thakker et al. | Lossy Image Compression-A Comparison Between Wavelet Transform, Principal Component Analysis, K-Means and Autoencoders | |
CN113727050B (zh) | 面向移动设备的视频超分辨率处理方法、装置、存储介质 | |
CN113949867B (zh) | 一种图像处理的方法及装置 | |
CN113554719B (zh) | 一种图像编码方法、解码方法、存储介质及终端设备 | |
CN116033159A (zh) | 特征处理方法、图像编码方法及装置 | |
CN115361555A (zh) | 图像编码方法、图像编码方法、装置以及计算机存储介质 | |
CN114004743A (zh) | 图像重建、编码解码方法、重建模型训练方法、相关装置 | |
CN113810058A (zh) | 数据压缩方法、数据解压缩方法、装置及电子设备 | |
CN113949868B (zh) | 一种熵编码方法及装置 | |
CN117459727B (zh) | 一种图像处理方法、装置、系统、电子设备及存储介质 | |
CN116668702B (zh) | 一种视频编码方法、装置、终端设备及存储介质 | |
CN114627143B (zh) | 一种图像处理方法、装置、终端设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |