[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN118947114A - 图像编码装置、图像解码装置、图像编码方法以及图像解码方法 - Google Patents

图像编码装置、图像解码装置、图像编码方法以及图像解码方法 Download PDF

Info

Publication number
CN118947114A
CN118947114A CN202380031418.6A CN202380031418A CN118947114A CN 118947114 A CN118947114 A CN 118947114A CN 202380031418 A CN202380031418 A CN 202380031418A CN 118947114 A CN118947114 A CN 118947114A
Authority
CN
China
Prior art keywords
image
filter
processing unit
information
encoding device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380031418.6A
Other languages
English (en)
Inventor
高晶英
张汉文
林宗顺
普拉文·库马尔·亚达夫
安倍清史
西孝启
远间正真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of CN118947114A publication Critical patent/CN118947114A/zh
Pending legal-status Critical Current

Links

Abstract

图像编码装置具备:滤波处理部,其通过对输入图像进行滤波处理来生成第1图像;和编码处理部,其通过对所述第1图像进行编码处理来生成比特流,将该比特流发送到图像解码装置,所述滤波处理部具有种类不同的多个滤波器,基于表示在所述图像解码装置侧的图像用途的用途信息来从所述多个滤波器选择一个滤波器并运用于所述输入图像。

Description

图像编码装置、图像解码装置、图像编码方法以及图像解码 方法
技术领域
本公开涉及图像编码装置、图像解码装置、图像编码方法以及图像解码方法。
背景技术
在专利文献1中,公开了利用自适应耦合前置滤波器以及后置滤波器的、视频编码以及解码方法。
在专利文献2中,公开了用于装载于人工智能(AI)集成电路的、图像数据的编码方法。
先行技术文献
专利文献
专利文献1:美国专利第9883207号说明书
专利文献2:美国专利第10452955号说明书
发明内容
本公开的目的在于,提升从图像编码装置向图像解码装置传输的比特流的比特效率。
本公开的一方式所涉及的图像编码装置具备:滤波处理部,其通过对输入图像进行滤波处理来生成第1图像;和编码处理部,其通过对所述第1图像进行编码处理来生成比特流,将该比特流发送到图像解码装置,所述滤波处理部具有种类不同的多个滤波器,基于表示在所述图像解码装置侧的图像用途的用途信息来从所述多个滤波器选择一个滤波器并运用于所述输入图像。
附图说明
图1是简化表示本公开的实施方式所涉及的图像处理系统的结构的图。
图2是简化表示任务处理部的结构的图。
图3是作为机器任务的一例而示出目标检测以及目标分割的图。
图4是作为机器任务的一例而示出目标跟踪、行为辨识以及姿势推定的图。
图5是简化表示滤波处理部的结构的图。
图6A是表示种类不同的多个滤波器的示例的图。
图6B是表示种类不同的多个滤波器的示例的图。
图6C是表示种类不同的多个滤波器的示例的图。
图6D是表示种类不同的多个滤波器的示例的图。
图6E是表示种类不同的多个滤波器的示例的图。
图6F是表示种类不同的多个滤波器的示例的图。
图6G是表示种类不同的多个滤波器的示例的图。
图6H是表示种类不同的多个滤波器的示例的图。
图6I是表示种类不同的多个滤波器的示例的图。
图7是表示规定基于用途信息的滤波器的选择的查找表的示例的图。
图8是表示滤波器的第1结构例的图。
图9是表示滤波器的第2结构例的图。
图10是表示滤波器的第3结构例的图。
图11是表示滤波器的第4结构例的图。
图12是表示比特流的数据构造的第1例的图。
图13是表示比特流的数据构造的第2例的图。
图14是表示与滤波器信息相关的SEI消息语法的第1例的图。
图15是表示与滤波器信息相关的SEI消息语法的第2例的图。
图16是用于说明设定部设定与IOU相关的阈值的情况的示例的图。
图17是表示图像编码装置所执行的处理的流程的流程图。
图18是表示图像解码装置所执行的处理的流程的流程图。
具体实施方式
(成为本公开的基础的见解)
现有的编码方式的目标在于,为了人类视觉而提供在比特率制约的条件下最优的影像。
通过与丰富的传感器相伴的基于机器学习或神经网络的应用的进展,能实现包括联网汽车、视频监视或智能都市等在内的处置大量的数据的许多智能化平台。由于始终生成大量的数据,因此,在流水线中包含人的现有的方法在延迟以及规模的点上变得没有效率且不现实。
进而,在传输以及存档系统中,担心要求更紧凑的数据表现以及低延迟的解决方案,为此导入VCM(Video Coding for Machines,面向机器的视频编码)。
在某情形下,存在机器彼此进行通信而没有人的介入就能执行任务的情况,或者,也有需要对被解冻了的特定的流实施人所进行的追加的处理的情况。例如是由人的“监督者”在监视摄像机中检索影像内的特定的人物或场景的情况等。
在其他情形下,还存在人以及机器双方使用对应的比特流的情况。在联网汽车的情况下,对于人而言,能在图像补正功能中利用特征,对于机器而言,能在目标的检测以及分割中利用特征。
一般的系统结构包含图像编码装置以及图像解码装置的对。系统的输入是动态图像、静止图像或特征量。作为机器任务的示例,能举出目标检测、目标分割、目标跟踪、行为辨识、姿势推定或这些的任意的组合。人类视觉有可能是能和机器任务一起利用的用例之一。
根据现有技术,由于从图像编码装置向图像解码装置始终传输设想了人类视觉的最高画质的比特流,因此,存在传输编码量增大、比特效率差这样的问题。
为了解决相关的问题,本发明的发明者得到如下见解而想到本公开:通过基于表示在图像解码装置侧的图像用途的用途信息而在图像编码装置侧对输入图像进行合适的滤波处理,能在从图像编码装置向图像解码装置的比特流的传输中提升比特效率。
接下来说明本公开的各方式。
本公开的第1方式所涉及的图像编码装置具备:滤波处理部,其通过对输入图像进行滤波处理来生成第1图像;和编码处理部,其通过对所述第1图像进行编码处理来生成比特流,将该比特流发送到图像解码装置,所述滤波处理部具有种类不同的多个滤波器,基于表示在所述图像解码装置侧的图像用途的用途信息来从所述多个滤波器选择一个滤波器并运用于所述输入图像。
根据第1方式,滤波处理部具有种类不同的多个滤波器,基于表示在图像解码装置侧的图像用途的用途信息来从多个滤波器选择一个滤波器并运用于输入图像。其结果,能在从图像编码装置向图像解码装置的比特流的传输中提升比特效率。
本公开的第2方式所涉及的图像编码装置在第1方式中,可以是,所述多个滤波器包含除噪声滤波器、锐化滤波器、比特深度变换滤波器、颜色空间变换滤波器、解析度变换滤波器以及利用了神经网络的滤波器的至少一者。
根据第2方式,滤波处理部能对应于在图像解码装置侧的图像用途来将合适的滤波器运用于输入图像。
本公开的第3方式所涉及的图像编码装置在第2方式中,可以是,所述除噪声滤波器包含低通滤波器、高斯滤波器、平滑化滤波器、平均化滤波器、双边滤波器以及中值滤波器的至少一者。
根据第3方式,通过将低通滤波器、高斯滤波器、平滑化滤波器、平均化滤波器、双边滤波器以及中值滤波器的至少一者运用于输入图像,能除去输入图像的噪声。
本公开的第4方式所涉及的图像编码装置在第2方式中,可以是,所述解析度变换滤波器包含与所述输入图像的解析度相比而削减所述第1图像的解析度的下采样滤波器。
根据第4方式,通过将下采样滤波器运用于输入图像,能削减编码量。
本公开的第5方式所涉及的图像编码装置在第1~第4方式的任一者中,可以是,所述图像用途包含至少一个机器任务、和人类视觉。
根据第5方式,能进行如下的选择,在图像用途为机器任务的情况下运用削减编码量的滤波器,在图像用途为人类视觉的情况下运用不比机器任务的情况更加削减编码量的滤波器。
本公开的第6方式所涉及的图像编码装置在第5方式中,可以是,在所述图像用途为所述机器任务的情况下,所述滤波处理部通过所述滤波处理以与所述输入图像的编码量相比而削减所述第1图像的编码量。
根据第6方式,通过在图像用途为机器任务的情况下运用削减编码量的滤波器,能在从图像编码装置向图像解码装置的比特流的传输中提升比特效率。
本公开的第7方式所涉及的图像编码装置在第6方式中,可以是,所述滤波处理部在所述输入图像内规定对所述机器任务而言不重要的非重要区域,通过将所述非重要区域的细节部分的信息删除,以与所述输入图像的编码量相比而削减所述第1图像的编码量。
根据第7方式,通过利用非重要区域的细节部分信息的删除来削减第1图像的编码量,从而不需要削减对机器任务而言重要的重要区域的编码量,因此,能在图像解码装置侧合适地执行机器任务。
本公开的第8方式所涉及的图像编码装置在第6或第7方式中,可以是,所述滤波处理部在所述输入图像内规定对所述机器任务而言重要的重要区域,通过所述滤波处理来强调所述重要区域。
根据第8方式,由于滤波处理部通过滤波处理来强调重要区域,因此,能在图像解码装置侧合适地执行机器任务。
本公开的第9方式所涉及的图像编码装置在第5方式中,可以是,在所述图像用途为所述人类视觉的情况下,所述滤波处理部并不通过所述滤波处理以相较于所述图像用途为所述机器任务的情况而削减所述第1图像的编码量。
根据第9方式,通过在图像用途为人类视觉的情况下运用不比机器任务的情况更加削减编码量的滤波器,能在图像解码装置侧合适地执行人类视觉。
本公开的第10方式所涉及的图像编码装置在第1~第9方式的任一者中,可以是,所述编码处理部将与所述滤波处理部对所述输入图像运用的所述滤波器相关的滤波器信息存放到所述比特流内。
根据第10方式,通过将与运用于输入图像的滤波器相关的滤波器信息存放到比特流内,能在图像解码装置侧的机器任务中活用滤波器信息。
本公开的第11方式所涉及的图像编码装置在第10方式中,可以是,所述编码处理部将所述滤波器信息存放到所述比特流的报头内。
根据第11方式,通过将滤波器信息存放到比特流的报头内,从而图像解码装置能从比特流容易地提取滤波器信息。
本公开的第12方式所涉及的图像编码装置在第11方式中,可以是,所述报头具有SEI区域,所述编码处理部将所述滤波器信息存放到所述SEI区域内。
根据第12方式,通过将滤波器信息存放到SEI区域内,能将滤波器信息作为附加信息来简易地进行处理。
本公开的第13方式所涉及的图像解码装置具备:解码处理部,其从图像编码装置接收包含被编码的图像的比特流,通过对该比特流进行解码来生成解码图像;和任务处理部,其基于所述解码图像来执行机器任务,所述比特流还包含与所述图像编码装置对应于所述机器任务而对输入图像运用的滤波器相关的滤波器信息,所述图像解码装置具备:设定部,其从所述比特流提取所述滤波器信息,基于该滤波器信息来设定所述任务处理部执行所述机器任务时使用的参数值。
根据第13方式,设定部从比特流提取滤波器信息,基于该滤波器信息来设定任务处理部执行机器任务时使用的参数值。其结果,能对应于图像编码装置对输入图像运用的滤波器,由任务处理部执行合适的任务处理。
在本公开的第14方式所涉及的图像编码方法中,图像编码装置通过对输入图像进行滤波处理来生成第1图像,通过对所述第1图像进行编码处理来生成比特流,将该比特流发送到图像解码装置,在所述滤波处理中,基于表示在所述图像解码装置侧的图像用途的用途信息来从种类不同的多个滤波器选择一个滤波器并运用于所述输入图像。
根据第14方式,在滤波处理中,基于表示在图像解码装置侧的图像用途的用途信息来从种类不同的多个滤波器选择一个滤波器并运用于输入图像。其结果,能在从图像编码装置向图像解码装置的比特流的传输中提升比特效率。
在本公开的第15方式所涉及的图像解码方法中,图像解码装置从图像编码装置接收包含被编码的图像的比特流,通过对该比特流进行解码来生成解码图像,基于所述解码图像来执行机器任务,其中,所述比特流还包含与所述图像编码装置对应于所述机器任务而对输入图像运用的滤波器相关的滤波器信息,从所述比特流提取所述滤波器信息,基于该滤波器信息来设定执行所述机器任务时使用的参数值。
根据第12方式,从比特流提取滤波器信息,基于该滤波器信息来设定执行机器任务时使用的参数值。其结果,能对应于图像编码装置对输入图像运用的滤波器来执行合适的任务处理。
(本公开的实施方式)
以下,使用附图来详细说明本公开的实施方式。另外,在不同的附图中标注相同的附图标记的要素表示相同或相应的要素。
另外,以下说明的实施方式均表示本公开的一具体例。以下的实施方式所示的数值、形状、构成要素、步骤、步骤的顺序等是一例,主旨并非是限定本公开。此外,关于以下的实施方式中的构成要素当中的未记载于表示最上位概念的独立权利要求的构成要素,说明为任意的构成要素。此外,还能在全部实施方式中组合各自的内容。
图1简化表示本公开的实施方式所涉及的图像处理系统的结构的图。图像处理系统具备图像编码装置10、网络Nw和图像解码装置20。
图像编码装置10具备滤波处理部11以及编码处理部12。输入图像的图像数据D1和表示在图像解码装置20侧的图像用途的用途信息D2被输入到滤波处理部11。在输入图像中包含动态图像、静止图像或特征量。滤波处理部11具有种类不同的多个滤波器。滤波处理部11基于用途信息D2从多个滤波器选择一个滤波器并运用于输入图像。滤波处理部11通过对输入图像进行利用了所选择的滤波器的滤波处理来生成第1图像,输出第1图像的图像数据D3。编码处理部12通过对第1图像进行编码处理来生成与编码图像相关的比特流D4,将该比特流D4经由网络Nw发送到图像解码装置20。
网络Nw是因特网、WAN(Wide Area Network,广域网)、LAN(Local Area Network,局域网)、或这些的任意的组合。此外,网络Nw不一定限定于双向通信网,也可以是发送地面数字广播或卫星广播等广播波的单向通信网。此外,网络Nw也可以是记录有比特流D4的DVD(Digital Versatile Disc,数字多功能盘)或BD(Blue-Ray Disc,蓝光盘)等记录介质。
图像解码装置20具备解码处理部21、设定部22以及任务处理部23。解码处理部21经由网络Nw从图像编码装置10接收比特流D4,通过对该比特流D4进行解码来生成解码图像,输出解码图像的图像数据D5。任务处理部23使用解码图像来执行与表示图像用途的用途信息D8相应的机器任务。在比特流D4中包含表示图像编码装置10对应于机器任务而对输入图像运用的滤波器的滤波器信息D6。设定部22从比特流D4提取滤波器信息D6,基于该滤波器信息D6来设定任务处理部23执行机器任务时使用的参数值,输出其设定信息D7。参数值包含与用于机器任务解析的可信度评分相关的阈值或与IOU(Intersection OverUnion,交并比)相关的阈值。任务处理部23使用设定信息D7所示的参数值来执行机器任务,输出推论结果等结果数据D9。另外,图1所示的图像解码装置20的结构是一例,并不限定于该示例。例如,也可以省略设定部22,将设定部22的功能安装到解码处理部21或任务处理部23。
图2是简化表示任务处理部23的结构的图。在图像解码装置20侧的图像用途包含至少一个机器任务、和人类视觉。在图2的示例中,图像用途包含多个机器任务30A~30C、和人类视觉30X。在用途信息D8例如选择机器任务30B的情况下,设定部22输出任务处理部23执行机器任务30B时使用的参数值的设定信息D7B。任务处理部23使用设定信息D7B所示的参数值,基于图像数据D5来执行机器任务30B,输出推论结果等结果数据D9B。
图3是作为机器任务的一例而示出目标检测以及目标分割的图。在目标检测中,检测输入图像中所含的目标的属性(该示例中是电视机以及人物)。也可以除了检测输入图像中所含的目标的属性以外,还检测输入图像中的目标的位置、个数。由此,例如,也可以对辨识对象的目标的位置进行范围缩小,或者将辨识对象以外的目标排除。作为具体的用途,例如考虑摄像机中的脸的检测、自动驾驶中的步行者等的检测。在目标分割中,将与目标对应的区域的像素分段化(即分区)。由此,例如,考虑如下等用途:在自动驾驶中将障碍物和道路分离,来进行汽车的安全的行驶的援助,或者,检测工厂中的产品的缺陷,或者,进行卫星图像中的地形的识别。
图4是作为机器任务的一例而示出目标跟踪、行为辨识以及姿势推定的图。在目标跟踪中,追踪被分配识别编号ID的目标的移动。作为用途,例如考虑店铺等的设施的利用者数的计数、体育运动选手的活动的分析这样的用途。若进一步将处理高速化,则能实时进行目标的追踪,或者还能应用到自动对焦等摄像机处理中。在行为辨识中,检测目标的动作的类别(在该示例中是“正在骑自行车”、“正在步行”)。例如,通过用在防止犯罪摄像机中,能运用于抢劫、偷窃等犯罪行动的防止以及检测、工厂中的作业遗忘防止这样的用途中。在姿势推定中,通过关键点以及关节的检测来检测目标的姿态。例如,考虑工厂中的作业效率的改善等产业领域、异常行动的探测这样的安全领域、医疗保健以及体育运动这样的领域中的活用。
图5是简化表示滤波处理部11的结构的图。滤波处理部11具有能对应于在图像解码装置20侧的图像用途而选择的种类不同的多个滤波器40。种类包含滤波器的形状、尺寸以及系数值的至少一者。在图5的示例中,滤波处理部11具有与机器任务30A~30C对应的滤波器40A~40C、和与人类视觉30X对应的滤波器40X。在用途信息D8例如选择机器任务30B的情况下,用途信息D2选择与机器任务30B对应的滤波器40B。在该情况下,滤波处理部11通过对输入图像进行利用了滤波器40B的滤波处理来生成第1图像,输出第1图像的图像数据D3B。
与机器任务对应的滤波器40A~40C是通过滤波处理以与输入图像的编码量相比而削减第1图像的编码量的滤波器。如后述那样,滤波器40A~40C也可以是在削减对机器任务而言不重要的非重要区域的编码量的同时、强调表示对机器任务而言重要的特征的重要区域的滤波器。与机器任务对应的滤波器40A~40C包含除噪声滤波器、锐化滤波器、比特深度变换滤波器、颜色空间变换滤波器、解析度变换滤波器以及利用了神经网络的滤波器的至少一者。除噪声滤波器包含通过削减输入图像的细节部分的信息来除去噪声的、低通滤波器、高斯滤波器、平滑化滤波器、平均化滤波器、双边滤波器以及中值滤波器的至少一者。锐化滤波器包含边缘检测滤波器或边缘强调滤波器,具体包含拉普拉斯滤波器、高斯拉普拉斯滤波器、索贝尔滤波器、Prewitt滤波器或Canny边缘检测滤波器。比特深度变换滤波器在输入图像与第1图像之间对亮度信号和/或颜色信号的比特深度进行变换。例如,通过舍弃第1图像的颜色信号的下位比特来将第1图像的比特深度变换得比输入图像的比特深度小,从而削减编码量。颜色空间变换滤波器在输入图像与第1图像之间对颜色空间进行变换。例如,通过将输入图像中的YUV444的颜色空间在第1图像中变换成YUV422、YUV420或YUV400的颜色空间,来削减编码量。解析度变换滤波器在输入图像与第1图像之间对图像的解析度进行变换。解析度变换滤波器包含与输入图像的解析度相比而削减第1图像的解析度的下采样滤波器。解析度变换滤波器也可以包含与输入图像的解析度相比而增大第1图像的解析度的上采样滤波器。另外,与机器任务对应的滤波器40A~40C例如也可以是H.266/VVC(Versatile Video Codec,多功能视频编解码器)中规定的去块滤波器、ALF滤波器、CCALF滤波器、SAO滤波器、LMCS滤波器或这些的任意的组合。
与人类视觉对应的滤波器40X是并不通过滤波处理以与输入图像的编码量相比而削减第1图像的编码量的滤波器。与人类视觉对应的滤波器40X包含将输入图像保持原样地作为第1图像输出的旁路用的滤波器。滤波器40X也可以是通过滤波处理以与输入图像的编码量相比而削减第1图像的编码量的滤波器,但编码量的削减效果与滤波器40A~40C相比更加被抑制。此外,滤波器40X也可以是强调输入图像的重要区域的滤波器,但强调效果与滤波器40A~40C相比更加被抑制。
图6A~6I是表示种类不同的多个滤波器40的示例的图。图6A表示N=5的一维水平滤波器。N是相当于滤波器系数值的数量的滤波器的尺寸。图6B表示N=7的一维垂直滤波器。图6C表示N=9的二维十字形滤波器。图6D表示N=25的二维正方形滤波器。图6E表示N=25的二维菱形滤波器。图6F以及图6G表示利用了5×5的高斯滤波器的除噪声滤波器,图6F的滤波器的滤波器强度比较强,图6G的滤波器的滤波器强度比较弱。图6H表示利用了7×7的高斯拉普拉斯滤波器的边缘检测滤波器。如此地,关于种类不同的多个滤波器40,可以是,滤波器的形状不同,也可以是,滤波器的尺寸不同,还可以是,滤波器的系数值不同。图6I表示利用了神经网络的滤波器。神经网络具有卷积层L1、池化层L2以及全连接层L3。通过对输入图像的图像数据D1运用卷积滤波器F1来生成卷积层L1的图像数据,通过对卷积层L1的图像数据运用池化滤波器F2来生成池化层L2的图像数据。从全连接层L3输出预测残差的图像数据D0,通过将图像数据D1和图像数据D0相加,来输出第1图像的图像数据D3。
图7是表示规定基于用途信息D2的滤波器的选择的查找表的示例的图。该查找表被滤波处理部11保持。在用途信息D2所示的图像用途为目标检测的机器任务的情况下,由于目标的详细信息重要,因此,滤波处理部11选择弱的除噪声滤波器以及弱的锐化滤波器。在用途信息D2所示的图像用途为目标分割的机器任务的情况下,由于在进行像素级的预测的目标分割模型(Mask R-CNN)中图像的详细情况重要,因此,滤波处理部11选择弱的除噪声滤波器。在用途信息D2所示的图像用途为目标跟踪的机器任务的情况下,由于目标的详细信息不重要,因此,滤波处理部11选择强的除噪声滤波器以及弱的锐化滤波器。在用途信息D2所示的图像用途为行为辨识的机器任务的情况下,滤波处理部11为了在除去背景等静态内容的冗余信息的同时强调目标的边缘等动态内容,选择强的除噪声滤波器以及强的锐化滤波器。在用途信息D2所示的图像用途为姿势推定的机器任务的情况下,由于姿势推定模型(HRNet)为了检测耳或眼等人的关键点而学习高解析度的图像,因此,滤波处理部11通过选择强的锐化滤波器来强调图像的细节部分。
作为一例,滤波处理部11在目标跟踪的机器任务中选择强的除噪声滤波器,在目标检测的机器任务中选择弱的除噪声滤波器。目标检测是检测图像中的对象目标的处理,目标跟踪是追踪影像中的连续帧中的目标的轨迹的处理。在该情况下,在目标跟踪中,目标的边缘以及形状不可或缺,在目标检测中,目标的详细信息不可或缺。为此,在目标跟踪中,运用强的除噪声滤波器来除去详细信息,在目标检测中,运用弱的除噪声滤波器而仅除去不需要的信息。
在其他示例中,滤波处理部11在目标跟踪的机器任务中选择大尺寸的除噪声滤波器,在目标检测的机器任务中选择小尺寸的除噪声滤波器。小尺寸的除噪声滤波器由于针对频率分量的控制性能较低,因此,能除去宽的范围的频率分量的噪声,大尺寸的除噪声滤波器由于针对频率分量的控制性能较高,因此,能除去特定的范围的频率分量的噪声。在某情形下,小尺寸的滤波器与大尺寸的滤波器相比而编码量的削减效果更小,在其他情形下,小尺寸的滤波器与大尺寸的滤波器相比而编码量的削减效果更大。
在其他示例中,滤波处理部11在目标跟踪的机器任务中,选择输出的色彩范围宽、大比特深度的滤波器,在目标检测的机器任务中,选择输出的色彩范围窄、小比特深度的滤波器。通过运用小比特深度的滤波器,能提高编码量的削减效果。
在其他示例中,滤波处理部11在目标跟踪的机器任务和目标检测的机器任务中选择不同的颜色空间滤波器。
在其他示例中,滤波处理部11在目标跟踪的机器任务中,选择输出的解析度大、小标度因数的下采样滤波器,在目标检测的机器任务中,选择输出的解析度小、大标度因数的下采样滤波器。
图5所示的各滤波器40可以由一个滤波器构成,也可以由多个滤波器构成,还可以由至少一个滤波器和至少一个图像处理部构成。
图8是表示滤波器40的第1结构例的图。滤波器40由一个滤波器51构成。滤波器51例如是高斯滤波器。滤波器51通过对图像数据D1运用高斯滤波器,来输出除去了噪声的图像数据D3。
图9是表示滤波器40的第2结构例的图。滤波器40由两个滤波器52、53、两个图像处理部61、62和加法运算处理部63构成。滤波器52例如是高斯拉普拉斯滤波器,滤波器53例如是高斯滤波器,图像处理部61例如是边缘提取处理部,图像处理部62例如是背景提取处理部。滤波器52通过对输入图像的图像数据D1运用高斯拉普拉斯滤波器,来输出表示图像内的边缘的部位的边缘图。滤波器53通过对输入图像的图像数据D1运用高斯滤波器,来输出除去了噪声的图像数据。图像处理部61通过基于图像数据D1和边缘图从输入图像提取边缘,来输出边缘图像。图像处理部62通过基于除去了噪声的图像数据和边缘图从输入图像提取背景,来输出背景图像。加法运算处理部63通过将边缘图像和背景图像相加,来输出第1图像的图像数据D3。在图9的示例中,滤波处理部11在输入图像内规定背景区域来作为对机器任务而言并重要的非重要区域,将背景区域的细节部分(即高频段)的信息利用滤波器53删除,由此,与输入图像的编码量相比而削减第1图像的编码量。
图10是表示滤波器40的第3结构例的图。滤波器40由两个滤波器54、55、一个图像处理部64和加法运算处理部65构成。滤波器54例如是利用了神经网络的脸检测滤波器,滤波器55例如是平均化滤波器,图像处理部64例如是区域分割处理部。滤波器54检测输入图像的图像数据D1中所含的人物的脸,输出对脸的位置坐标进行规定的脸的边界框。图像处理部64基于图像数据D1和脸的边界框将输入图像分离成脸以外的区域和脸的区域。滤波器55通过对脸的区域进行平均化,来输出模糊的脸的图像。加法运算处理部65通过将脸以外的区域的图像和模糊的脸的图像相加,来输出第1图像的图像数据D3。例如,由于在目标跟踪的机器任务中,脸的详细情况不重要,因此,通过将脸模糊,能削减编码量,并且能保护隐私。在图10的示例中,滤波处理部11在输入图像内规定脸的区域来作为对机器任务而言不重要的非重要区域,将脸的区域的细节部分(即高频段)的信息利用滤波器55删除,由此,与输入图像的编码量相比而能削减第1图像的编码量。
图11是表示滤波器40的第4结构例的图。滤波器40由三个滤波器56~58、一个图像处理部66和加法运算处理部67构成。滤波器56例如是利用了神经网络的前景检测滤波器,滤波器57例如是锐化滤波器,滤波器58例如是除噪声滤波器,图像处理部66例如是区域分割处理部。滤波器56检测输入图像的图像数据D1中所含的重要的相当于被摄体的前景,输出规定前景的位置坐标的前景的边界框。图像处理部66基于图像数据D1和前景的边界框,来将输入图像分离成前景区域和其以外的背景区域。滤波器57通过对前景区域进行锐化,来输出通过边缘强调等而锐化的前景图像。滤波器58通过对背景区域进行噪声除去处理,来输出除去了噪声的背景图像。加法运算处理部67通过将锐化的前景图像和除去了噪声的背景图像相加,来输出第1图像的图像数据D3。在图11的示例中,滤波处理部11在输入图像内规定背景区域来作为对机器任务而言不重要的非重要区域,将背景区域的细节部分(即高频段)的信息利用滤波器58删除,由此,与输入图像的编码量相比而削减第1图像的编码量。此外,在图11的示例中,滤波处理部11在输入图像内规定前景区域来作为表示对机器任务而言重要的特征的重要区域,将前景区域利用滤波器57来进行强调,由此提升行为辨识或姿势推定等机器任务的精度。
图12是表示比特流D4的数据构造的第1例的图。比特流D4具有存放管理信息等的报头H、和存放图像数据的载荷P。编码处理部12将表示图像编码装置10对应于机器任务而对输入图像运用的滤波器的滤波器信息D6的编码数据70存放到载荷P的给定的部位。
图13是表示比特流D4的数据构造的第2例的图。与图12同样,比特流D4具有报头H和载荷P。编码处理部12将滤波器信息D6的编码数据70存放到报头H的给定的部位。给定的部位例如是用于存放附加信息的SEI(Supplemental Enhancement Information,补充增强信息)区域。给定的部位也可以是VPS、SPS、PPS、PH、SH、APS或片报头(tile header)等。
图14是表示与滤波器信息D6相关的SEI消息语法的第1例的图。
prefilter_type_idc例如通过3比特的标记信息来指定滤波器的类型,例如在该值为“0”的情况下表示除噪声滤波器,在“1”的情况下表示锐化滤波器,在“2”的情况下表示比特深度变换滤波器,在“3”的情况下表示颜色空间变换滤波器,在“4”的情况下表示解析度变换滤波器,在“5”的情况下表示其他滤波器。
filter_strength_level_idc例如通过3比特的标记信息来指定滤波器的强度,在该值为“0”的情况下表示最弱的滤波器强度,该值越大则表示越强的滤波器强度。滤波器强度的最大值为“7”或任意的整数。
input_bit_depth_minus8例如通过3比特的标记信息来指定运用滤波处理之前的输入图像的比特深度,输入图像的比特深度为“8”、“10”、“12”或任意的整数。
input_color_format_idc例如通过3比特的标记信息来指定运用滤波处理之前的输入图像的颜色空间。能指定的颜色空间为单色、YUV444、YUV422、YUV420、YUV400或任意的颜色空间。
scale_factor指定输入图像的解析度与第1图像的解析度之比。例如,在输入图像的解析度为1920×1080、第1图像的解析度为960×540的情况下,纵向以及横向的解析度成为1/2,因此,scale_factor_nominator成为“1”,scale_factor_denominator成为“2”。scale_factor_nominator以及scale_factor_denominator分别是例如3比特的标记信息,能指定任意的整数。
图15是表示与滤波器信息D6相关的SEI消息语法的第2例的图。
prefilter_hint_size_y指定滤波器系数或相关排列的垂直方向的尺寸,例如是“1”到“15”的任意的整数。
prefilter_hint_size_x指定滤波器系数或相关排列的水平方向的尺寸,例如是“1”到“15”的任意的整数。
prefilter_hint_type例如通过2比特的标记信息来指定滤波器的类型,例如在该值为“0”的情况下表示二维FIR滤波器,在“1”的情况下表示两个一维FIR滤波器,在“2”的情况下表示互相关矩阵。
prefilter_hint_value指定滤波器系数或互相关矩阵的要素。
图16是用于说明设定部22设定与IOU相关的阈值作为执行机器任务时使用的参数值的情况的示例的图。IOU是为了在目标的检测中表现所预测的边界框与真正的边界框的重叠的程度而使用的值。在图16中,以虚线表示所预测的边界框,以一点划线表示真正的边界框。将IOU算出为包含双方的边界框的区域的面积(分子)相对于包含至少一方的边界框的区域的面积(分母)的比例。在将与IOU相关的阈值设定得接近于“1”的情况下,仅在双方的边界框大致重叠的情况下,检测结果成为“真”,在将与IOU相关的阈值设定得接近于“0”的情况下,即使是双方的边界框稍微重叠的情况,检测结果也成为“真”。设定部22从比特流D4提取滤波器信息D6,基于该滤波器信息D6来设定与IOU相关的阈值,将该设定信息D7输入到任务处理部23。任务处理部23使用与设定信息D7所示的IOU相关的阈值来执行机器任务。
图17是表示图像编码装置10所执行的处理的流程的流程图。
首先,在步骤SP101,滤波处理部11基于用途信息D2来从多个滤波器选择一个滤波器。
接下来,在步骤SP102,滤波处理部11通过将步骤SP101中选择的滤波器运用于输入图像而执行滤波处理,来生成第1图像。
接下来,在步骤SP103,编码处理部12通过对第1图像进行编码处理来生成比特流。这时,编码处理部12对表示滤波处理部11对输入图像运用的滤波器的滤波器信息D6进行编码,将滤波器信息D6的编码数据70存放到比特流D4内。编码处理部12将生成的比特流D4经由网络Nw发送到图像解码装置20。
图18是表示图像解码装置20所执行的处理的流程的流程图。
首先,在步骤SP201,解码处理部21经由网络Nw从图像编码装置10接收比特流D4,通过对该比特流D4进行解码,来生成解码图像。
接下来,在步骤SP202,设定部22从解码的比特流D4提取滤波器信息D6,基于该滤波器信息D6来设定任务处理部23执行机器任务时使用的参数值。
接下来,在步骤SP203,任务处理部23使用步骤SP201中解码的解码图像和步骤SP202中设定的参数值来执行机器任务,输出推论结果等结果数据D9。
根据本实施方式,滤波处理部11具有种类不同的多个滤波器,基于表示在图像解码装置20侧的图像用途的用途信息从多个滤波器选择一个滤波器并运用于输入图像。其结果,能在从图像编码装置10向图像解码装置20的比特流D4的传输中提升比特效率。
此外,根据本实施方式,滤波处理部11能对应于在图像解码装置20侧的图像用途而将合适的滤波器运用于输入图像。
此外,根据本实施方式,作为除噪声滤波器而将低通滤波器、高斯滤波器、平滑化滤波器、平均化滤波器、双边滤波器以及中值滤波器的至少一者运用于输入图像,由此能除去输入图像的噪声。
此外,根据本实施方式,通过将下采样滤波器运用于输入图像,能削减编码量。
此外,根据本实施方式,能进行如下的选择,在图像用途为机器任务的情况下运用削减编码量的滤波器,在图像用途为人类视觉的情况下运用不比机器任务的情况更加削减编码量的滤波器。
此外,根据本实施方式,通过在图像用途为机器任务的情况下运用削减编码量的滤波器,能在从图像编码装置10向图像解码装置20的比特流D4的传输中提升比特效率。
此外,根据本实施方式,通过非重要区域的细节部分信息的删除来削减第1图像的编码量,由此不需要削减对机器任务而言重要的重要区域的编码量,因此,能在图像解码装置20侧合适地执行机器任务。
此外,根据本实施方式,滤波处理部11由于通过滤波处理来强调重要区域,因此,能在图像解码装置20侧合适地执行机器任务。
此外,根据本实施方式,通过在图像用途为人类视觉的情况下运用不比机器任务的情况更加削减编码量的滤波器,能在图像解码装置20侧合适地执行人类视觉。
此外,根据本实施方式,通过将与运用于输入图像的滤波器相关的滤波器信息D6存放到比特流D4内,能在图像解码装置20侧的机器任务中活用滤波器信息D6。
此外,根据本实施方式,通过将滤波器信息D6存放到比特流D4的报头H内,从而图像解码装置20能从比特流D4容易地提取滤波器信息D6。
此外,根据本实施方式,通过将滤波器信息D6存放到SEI区域内,能将滤波器信息D6作为附加信息而简易地进行处理。
此外,根据本实施方式,设定部22从比特流D4提取滤波器信息D6,基于该滤波器信息D6来设定任务处理部23执行机器任务时使用的参数值。其结果,能对应于图像编码装置10对输入图像运用的滤波器,由任务处理部23执行合适的任务处理。
产业上的可利用性
本公开在对具备发送图像的图像编码装置和接收图像的图像解码装置的图像处理系统的运用中特别有用。

Claims (15)

1.一种图像编码装置,具备:
滤波处理部,其通过对输入图像进行滤波处理来生成第1图像;和
编码处理部,其通过对所述第1图像进行编码处理来生成比特流,将该比特流发送到图像解码装置,
所述滤波处理部具有种类不同的多个滤波器,基于表示在所述图像解码装置侧的图像用途的用途信息来从所述多个滤波器选择一个滤波器并运用于所述输入图像。
2.根据权利要求1所述的图像编码装置,其中,
所述多个滤波器包含除噪声滤波器、锐化滤波器、比特深度变换滤波器、颜色空间变换滤波器、解析度变换滤波器以及利用了神经网络的滤波器的至少一者。
3.根据权利要求2所述的图像编码装置,其中,
所述除噪声滤波器包含低通滤波器、高斯滤波器、平滑化滤波器、平均化滤波器、双边滤波器以及中值滤波器的至少一者。
4.根据权利要求2所述的图像编码装置,其中,
所述解析度变换滤波器包含与所述输入图像的解析度相比而削减所述第1图像的解析度的下采样滤波器。
5.根据权利要求1所述的图像编码装置,其中,
所述图像用途包含至少一个机器任务、和人类视觉。
6.根据权利要求5所述的图像编码装置,其中,
在所述图像用途为所述机器任务的情况下,所述滤波处理部通过所述滤波处理以与所述输入图像的编码量相比而削减所述第1图像的编码量。
7.根据权利要求6所述的图像编码装置,其中,
所述滤波处理部在所述输入图像内规定对所述机器任务而言不重要的非重要区域,通过将所述非重要区域的细节部分的信息删除,以与所述输入图像的编码量相比而削减所述第1图像的编码量。
8.根据权利要求6所述的图像编码装置,其中,
所述滤波处理部在所述输入图像内规定对所述机器任务而言重要的重要区域,通过所述滤波处理来强调所述重要区域。
9.根据权利要求5所述的图像编码装置,其中,
在所述图像用途为所述人类视觉的情况下,所述滤波处理部并不通过所述滤波处理以相较于所述图像用途为所述机器任务的情况而削减所述第1图像的编码量。
10.根据权利要求1所述的图像编码装置,其中,
所述编码处理部将与所述滤波处理部对所述输入图像运用的所述滤波器相关的滤波器信息存放到所述比特流内。
11.根据权利要求10所述的图像编码装置,其中,
所述编码处理部将所述滤波器信息存放到所述比特流的报头内。
12.根据权利要求11所述的图像编码装置,其中,
所述报头具有补充增强信息即SEI区域,
所述编码处理部将所述滤波器信息存放到所述SEI区域内。
13.一种图像解码装置,具备:
解码处理部,其从图像编码装置接收包含被编码的图像的比特流,通过对该比特流进行解码来生成解码图像;和
任务处理部,其基于所述解码图像来执行机器任务,
所述比特流还包含与所述图像编码装置对应于所述机器任务而对输入图像运用的滤波器相关的滤波器信息,
所述图像解码装置具备:设定部,其从所述比特流提取所述滤波器信息,基于该滤波器信息来设定所述任务处理部执行所述机器任务时使用的参数值。
14.一种图像编码方法,图像编码装置执行如下处理:
通过对输入图像进行滤波处理来生成第1图像,
通过对所述第1图像进行编码处理来生成比特流,将该比特流发送到图像解码装置,
在所述滤波处理中,基于表示在所述图像解码装置侧的图像用途的用途信息来从种类不同的多个滤波器选择一个滤波器并运用于所述输入图像。
15.一种图像解码方法,图像解码装置执行如下处理:
从图像编码装置接收包含被编码的图像的比特流,通过对该比特流进行解码来生成解码图像,
基于所述解码图像来执行机器任务,其中,所述比特流还包含与所述图像编码装置对应于所述机器任务而对输入图像运用的滤波器相关的滤波器信息,
从所述比特流提取所述滤波器信息,基于该滤波器信息来设定执行所述机器任务时使用的参数值。
CN202380031418.6A 2022-03-31 2023-03-23 图像编码装置、图像解码装置、图像编码方法以及图像解码方法 Pending CN118947114A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US63/325,925 2022-03-31

Publications (1)

Publication Number Publication Date
CN118947114A true CN118947114A (zh) 2024-11-12

Family

ID=

Similar Documents

Publication Publication Date Title
Garg Restoration of highly salt-and-pepper-noise-corrupted images using novel adaptive trimmed median filter
CN111445424B (zh) 图像处理和移动终端视频处理方法、装置、设备和介质
CN110111282B (zh) 一种基于运动矢量和cnn的视频去模糊方法
CN112150400B (zh) 图像增强方法、装置和电子设备
WO2023005740A1 (zh) 图像编码、解码、重建、分析方法、系统及电子设备
KR101684990B1 (ko) 양방향 필터의 시그마 변수를 이용한 차량 영상 디블러 방법
CN111182307A (zh) 一种用于k12教育阶段基于视频影像超低码流无损压缩方法
Kortli et al. Efficient implementation of a real-time lane departure warning system
WO2007132792A1 (en) Image processing apparatus, method and integrated circuit
CN103051891A (zh) 确定数据流内分块预测编码的视频帧的块的显著值的方法和装置
CN118947114A (zh) 图像编码装置、图像解码装置、图像编码方法以及图像解码方法
CN110536138B (zh) 一种有损压缩编码方法、装置和系统级芯片
WO2023190053A1 (ja) 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法
CN112241982A (zh) 一种图像处理方法、装置及机器可读存储介质
CN114359333A (zh) 运动目标提取方法、装置、计算机设备和存储介质
WO2023223901A1 (ja) 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法
KR101527962B1 (ko) 비디오 영상의 움직임 객체 추출 방법
KR101920740B1 (ko) 실시간 영상처리 시스템
WO2023238772A1 (ja) 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法
CN111698503B (zh) 一种基于预处理的视频高倍压缩方法
JPH07240924A (ja) 画像符号化装置及び画像符号化方法
CN104580831A (zh) 一种视频信号图像的增强方法和装置
CN115278226A (zh) 一种基于3d点云的实时压缩与远程监控方法及系统
EP1427215B1 (en) Method and device for smoothing of image data
Shelke et al. Study of Improved Median Filtering using adaptive window architecture

Legal Events

Date Code Title Description
PB01 Publication