CN116152334A

CN116152334A - 图像处理方法及相关设备

Info

Publication number: CN116152334A
Application number: CN202111348242.6A
Authority: CN
Inventors: 汪昊; 李炜明; 王强; 金知姸; 张现盛; 洪性勋
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2023-05-23
Also published as: KR20230071052A

Abstract

本申请实施例提供了一种图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，涉及图像处理和人工智能技术领域。其中，图像处理方法包括：基于彩色图像和深度图像，获取三维特征信息和二维特征信息；基于注意力机制，融合三维特征信息和二维特征信息，得到融合特征信息；基于融合特征信息进行图像处理。该方法的实施通过多模态信息进行图像处理，有利于提高图像处理的精度。同时，由电子设备执行的上述图像处理方法可以使用人工智能模型来执行。

Description

图像处理方法及相关设备

技术领域

本申请涉及图像处理和人工智能技术领域，具体而言，本申请涉及一种图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

在图像处理技术中，姿态估计、图像分割、对象识别等属于较为重要的研究方向。在现有技术中，一般仅采用单一模态的信息来进行图像处理。然而，面对复杂的实例，采用单一模态的信息进行图像处理，往往导致处理结果的精度非常低。

发明内容

本申请实施例提供了一种图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，可以解决相关技术中图像处理结果精度低的技术问题。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种图像处理方法，该方法包括：

基于彩色图像和深度图像，获取三维特征信息和二维特征信息；

基于注意力机制，融合所述三维特征信息和二维特征信息，得到融合特征信息；

基于所述融合特征信息进行图像处理。

根据本申请实施例的另一个方面，提供了一种图像处理装置，该装置包括：

获取模块，用于基于彩色图像和深度图像，获取三维特征信息和二维特征信息；

融合模块，用于基于注意力机制，融合所述三维特征信息和二维特征信息，得到融合特征信息；

处理模块，用于基于所述融合特征信息进行图像处理。

根据本申请实施例的另一个方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于：执行上述图像处理方法。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，所述计算机存储介质用于存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机可以执行上述图像处理方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现上述图像处理方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请提供一种图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，具体地，本申请针对输入图像，首先基于输入图像的彩色图像和深度图像获取三维特征信息和二维特征信息，继而将三维特征和二维特征信息进行特征融合后，可以得到融合特征信息，其中，特征融合采用注意力机制实现；进而，基于融合特征信息进行图像处理；该方案的实施通过特征融合获得多模态的融合特征信息，以实现基于多模态信息的图像处理，相对于基于单一模态信息的图像处理，本申请方案的实施有利于提高图像处理的精度。另外，在一些特定的场景，如增强现实的应用场景，本方案的实施还有利于提高对三维信息的感知能力，进而提高系统的处理效率和鲁棒性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种图像处理方法的流程示意图；

图2为本申请实施例提供的一种图像处理方法的流程框图；

图3a为本申请实施例提供的一种基于彩色图像和深度图像的类别级的物体6D姿态和尺寸估计方法的流程框图；

图3b为本申请实施例提供的一种基于彩色图像和深度图像的图像处理方法的流程框图；

图3c为本申请实施例提供的一种ARF-Net的框图；

图3d为本申请实施例提供的另一种ARF-Net的框图；

图4为本申请实施例提供的一种基于注意力机制的多尺度融合的物体姿态估计方法的流程框图；

图5为本申请实施例提供的一种基于注意力机制的深度特征融合方法的流程框图；

图6为本申请实施例提供的一种关于注意力机制的设计框图；

图7为本申请实施例提供的一种关于注意力机制的设计框图；

图8为本申请实施例提供的一种关于注意力机制的设计框图；

图9为本申请实施例提供的一种结合多模态融合的端到端的物体姿态估计方法的流程框图；

图10为本申请实施例提供的一种联合物体形状重建和分割任务的姿态估计方法的流程框图；

图11a为本申请实施例提供的一种运行环境示意图；

图11b为本申请实施例提供的一种输入图像的示意图；

图11c为本申请实施例提供的一种图像处理结果的示意图；

图12为本申请实施例提供的一种图像处理装置的结构示意图；

图13为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”指示实现为“A”，或者实现为“A”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面对本申请涉及的相关技术进行说明：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。在本申请中，可以涉及计算机视觉技术。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

具体地，本申请实施例提供的图像处理方法及相关设备可以应用于增强现实(Augmented Reality，AR)、图像处理、图像识别、对象识别、图像分割、6D姿态估计等的实例场景中。其中，在增强现实的场景中，一般通过在用户面前的现实场景中添加虚拟内容来为用户提供真实的场景体验；在三维空间中，依赖于增强现实技术的系统处理需要对周围物体的三维状态具有高精度的实时处理和理解，以完成在用户面前呈现高质量的虚实融合效果。

在相关技术中，一般仅采用单一模态的图像数据进行图像处理。如仅使用深度图像进行6D姿态估计，而RGB图像仅用于对象检测。在该技术基础下，对图像处理具有一定的限制，如传感器噪声、物体遮挡等可能会导致所预测的姿态模糊。另外，在图像处理中类别内形状变化是类别级姿态估计任务的一大挑战，形状的变化容易导致对对象的预测和定位的不准确。

本申请实施例提出一种图像处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品；具体地，本申请的实施通过输入包括色彩和深度信息的图像进行图像处理，有利于提高系统在增强现实等应用中的效率和鲁棒性；另外，同时融合色彩特征和深度特征，有利于提高模型对三维信息的感知能力，且有利于更好地处理类别级对象形状和尺度变化的问题。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

本申请实施例中提供了一种图像处理方法，如图1和图2所示，图1示出了本申请实施例提供的一种图像处理方法的流程示意图，图2示出了本申请实施例提供的一种图像处理方法的流程框图；其中，该方法可以由任一电子设备执行，如图11a所示，可以是用户终端100，也可以是服务器200，用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载设备、AR设备等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，但本申请并不局限于此。其中，终端100和服务器200之间可以进行通信。

具体地，如图1所示，本申请实施例提供的图像处理方法可以包括下述步骤S101-S103：

步骤S101：基于彩色图像和深度图像，获取三维特征信息和二维特征信息。

具体地，彩色图像和深度图像可以是针对输入的一张图像所包含的深度信息和彩色信息所分别对应的图像。输入的图像可以是带有色彩的深度图像，如彩色图像(RGB图像)和深度图像(Depth图像)的叠加(RGB-D图像)，也可以是灰度图像和深度图像的叠加。其中，输入图像可以表现如图11b所示。

其中，三维特征信息可以基于深度图像提取得到，二维特征信息可以基于彩色图像或灰度图像提取得到。具体地，输入的图像经物体检测器进行对象检测可以得到物体区域，针对该物体区域裁剪深度和彩色图像可以得到包含物体的彩色图像和深度图像。

其中，图像特征的提取采用从底层到高层的特征提取过程，如图11b所示，网络的底层提取的特征可能是桌子的轮廓特征，随着网络的深入提取的特征可能是桌子腿、桌子抽屉等更高的特征信息，而不同尺度的特征可以是指在网络的不同尺度提取得到特征。可选地，在本申请中，可以针对一个尺度的三维特征信息和二维特征信息进行处理，也可以针对多尺度的三维特征信息和二维特征信息进行处理。

步骤S102：基于注意力机制，融合所述三维特征信息和二维特征信息，得到融合特征信息。

其中，特征融合的处理是为了将从图像中提取得到的单一模态特征合并成比输入特征更具有判别能力的多模态特征。本申请实施例采用注意力机制实现三维特征信息和二维特征信息的融合。可以理解的是，在三维特征信息与二维特征信息融合后得到的融合特征信息中，特征之间实现互补，有利于降低单一模态特征固有缺陷的影响。

可选地，当提取得到多个尺度的三维特征信息和二维特征信息时，融合所得的融合特征信息为多尺度融合的特征信息。

步骤S103：基于所述融合特征信息进行图像处理。

具体地，基于融合特征信息进行图像处理可以实现在没有精确三维模型的情况下，解决图像处理的问题，从而能够更好地应对实际中复杂的应用场景(本申请实施例在现实世界的场景中可以采用不需要已知对象的模型的RGBD数据进行准确的AR交互)。其中，如图11c所示，为一种经本申请实施例提供的方法做图像处理后得到的结果图像，基于该结果图像可以控制增强现实系统中渲染的虚拟物体，让真实物体与虚拟物体产生真实自然的交互。

本申请实施例对三维特征和二维特征进行融合充分利用，其能够在计算存储资源和能耗受限的移动平台上具有高效的处理能力，且在三维物体处理和理解上满足了精度和鲁棒性的要求。

适应本申请实施例提供的图像处理方法，提出一种ARF-Net(Attention-guidedRGB-D Fusion Net，注意力引导的彩色深度融合网络)，该模型可以采用transformer机制融合多模态信息。具体地，ARF-Net可以通过attention机制自适应地将二维特征(从RGB图像中提取的表观特征)与三维特征(从深度图像或点云中提取的三维特征)进行融合，并能够充分探索物体结构特征，以区分不同实例的形状。本申请提出的ARF网络可以将RGB特征与点云特征融合，能够在多种特征提取器上取得性能上的提升。

下面针对基于输入图像获取三维特征信息和二维特征信息的过程进行说明。

在一实施例中，步骤S101中获取输入图像至少一个尺度的三维特征信息和二维特征信息，包括下述步骤A1-A2：

步骤A1：转化输入的深度图像为三维空间中的点云特征信息，基于点云特征信息进行编码得到至少一个尺度的三维特征信息。

具体地，如图3a所示，深度图像结合相机内参可以转化为三维空间中的点云特征信息(又称点云数据)，进而将点云特征信息作为三维特征编码器的输入，经三维特征编码器的处理，可以得到三维特征信息。

其中，三维特征信息可以使用三维特征提取网络(三维特征编码器)实现，如多层感知网络(MLP)编码器、三维体素网络，提取出对应于每个点的三维特征向量。其中，三维特征提取网络可以描述深度图像在三维空间中的三维结构特征。

步骤A2：基于输入的彩色图像或彩色深度图像进行编码，得到至少一个尺度的二维特征信息。

具体地，如图3a所示，可以将彩色图像、灰度图像、彩色深度图像、灰度深度图像等其中一种作为二维码特征编码器的输入，经二维码特征编码器处理，得到二维特征信息。其中，二维码编码器可以采用深度卷积神经网络实现，可以通过二维码编码器提取输入图像的二维表观特征。

在本申请实施例中，针对一个对齐的RGB-D场景，可以首先采用一种实例分割方法来检测和分割对象实例，经过掩码的深度信息和相机内参计算出的实例的点云数据，由对象边界框裁剪实例的RGB图像，这一对数据作为ARF网络的输入；如图3c和图3d所示，ARF-Net首先采用卷积神经网络(RGB网络)提取RGB特征，使用点云特征网络(point cloudnetwork)提取点云特征；然后通过注意力引导的RGB-D融合模块(ARF)来融合两个模态的特征，以进一步提高网络对物体规范形状的学习能力。基于融合模块，对象外观特征可以自适应地融合到物体几何特征中。在形状解码阶段，可以利用基于MLP的解码器来重建NOCS(Normalized Object Coordinate Space，归一化对象坐标空间)，该解码器以融合特征为输入。最后，利用相似变换，如梅山变换算法(Umeyama algorithm)，将预测的NOCS坐标与观测点进行匹配，得到物体的6D姿态和大小。

下面针对特征融合的具体处理过程进行说明。

具体地，如图3a所示，本申请实施例可以将通过三维特征编码器提取得到的三维特征信息，以及通过二维特征编码器提取得到的二维特征信息输入基于注意力机制的多尺度融合模块实现特征融合，并输出融合特征信息。也即，本申请实施例可以基于注意力机制，对至少一个尺度的三维特征信息和至少一个尺度的二维特征信息进行融合，得到融合特征信息。

在一实施例中，如图4所示，步骤S102中基于注意力机制，融合所述三维特征信息和二维特征信息，得到融合特征信息，包括步骤B1：

步骤B1：针对任一尺度的三维特征信息和二维特征信息执行以下操作：基于注意力机制对当前尺度的三维特征信息和当前尺度的二维特征信息进行特征融合，得到融合特征信息。

其中，当前尺度的三维特征信息根据执行上一尺度的融合特征信息以及上一尺度的三维特征信息确定；当前尺度的二维特征信息根据上一尺度的二维特征信息确定。

具体地，多尺度的特征融合为分别对不同尺度上提取的三维特征信息和二维特征信息进行融合。其中，融合可以采用基于注意力机制的融合方法，且可以采用级联的方式实现多个尺度的融合。可选地，每个尺度融合后的特征与上一尺度三维特征信息进行拼接后，可以作为下一尺度的三维特征编码器的输入；上一尺度的二维特征信息可以作为下一尺度的二维特征编码器的输入。

以图4所示3个尺度的融合方式为例说明：

针对尺度1，基于点云数据可以提取得到在该尺度下的第一三维特征信息，基于彩色图像可以提取得到在该尺度下的第一二维特征信息，采用基于注意力机制的融合1的模块对第一三维特征信息和第一二维特征信息进行融合，得到第一融合特征信息；

针对尺度2，基于第一三维特征信息、第一融合特征信息可以提取得到在该尺度下的第二三维特征信息，基于第一二维特征信息可以提取得到在该尺度下的第二二维特征信息，采用基于注意力机制的融合2的模块对第二三维特征信息和第二二维特征信息进行融合，得到第二融合特征信息；

针对尺度3，基于第二三维特征信息、第二融合特征信息可以提取得到在该尺度下的第三三维特征信息，基于第二二维特征信息可以提取得到在该尺度下的第三二维特征信息，采用基于注意力机制的融合3的模块对第三三维特征信息和第三二维特征信息进行融合，得到第三融合特征信息(也即，最终得到的融合特征)。

在一实施例中，步骤S102中基于注意力机制，融合所述三维特征信息和二维特征信息，得到融合特征信息，包括下述步骤B2-B4：

步骤B2：根据所述三维特征信息，获取点云体素特征信息和/或体素位置特征信息。

具体地，三维特征信息可以直接体素化后转换为点云体素特征信息。

其中，如图5所示，针对三维特征信息可以首先判断是否为体素特征，若是，则进行体素化后，通过体素特征编码得到体素位置特征信息和点云体素特征信息；若否，则直接基于三维特征信息转化为体素位置特征信息和点云体素特征信息。其中，体素(voxel)是体积元素(volume pixel)的简称。体素化(Voxelization)是将物体的几何形式表示转换成最接近该物体的体素表示形式。

步骤B3：根据所述二维特征信息，获取第一图像体素特征信息。

具体地，由于RGBD图像是经过对齐处理的，因此图像像素和点云三维点具有一一对应的位置关系，基于此，通过已知的2D-3D的位置关系可以将二维特征信息(图像特征)投影到与点云一致的体素空间中得到图像体素特征信息。

步骤B4：基于注意力机制，根据所述点云体素特征信息、体素位置特征信息和/或第一图像体素特征信息进行特征融合，得到融合特征信息。

具体地，可以将点云体素特征信息、第一图像体素特征信息、体素位置特征信息作为注意力模块的输入，以采用注意力机制实现特征信息的融合处理。

在一可行的实施例中，考虑到RGB的外观特征和点云的几何特征，本申请实施例提出的ARF-Net采用交叉注意力模块建立RGB特征与点云特征之间的相关性。融合模块可以通过跨模态的相关性计算来自适应地选择具有代表性的表观特征，以增强相应的点云特征。ARF-Net采用自注意力模块提取对象点云之间的内部空间关系，描述局部对象之间的全局空间结构关系。

具体地，在融合模块中，可以首先获得具有自注意力的结构感知几何特征，然后获得具有交叉注意的关系融合RGB特征。该融合模块可以单独使用，也可以多个叠加使用。

针对结构感知的点云特征，采用自注意力模块来建立点云之间的依赖关系。为了收集到多尺度的点云特征，可以将低层级的多个尺度的点云特征上采样到相同的分辨率，并进行特征拼接。如图3c和图3d所示，该处理将多尺度的特征拼接后，采用多层感知器将特征维度压缩成一个固定的特征维度。

其中，自注意力模块可以将点云特征作为输入，通过线性操作进行投影，产生查询query、键key和值value；具体可表示如下公式(1)-(4)：

其中，m是注意力头的数量，在多头注意力模块中，在多个头部中进行并行计算注意操作。在每个头部中，在投影嵌入空间中的每个局部特征之间计算一个注意力图A_m，将注意力图与V_m(值value)相乘，得到实例的增强点云特征；从每个头点云

后，将各个头部的特征连接(concat)起来，以全面建模对象结构。

其中，softmax()为激活函数，Q_m为查询向量，

为键向量，V_m为值向量，

和

分别为查询向量、键向量、值向量的权重系数；T、d为注意力计算中所涉及的相关参数。

针对关系感知的RGB特征，为了增强三维表示，考虑自适应地选择相应点云的相对RGB特征。由于RGB-D图像是对齐的，因此可以通过观测物体点位置获取每个点对应的RGB特征。在建立RGB特征与点云特征之间的相关性模型时，也采用多头注意力方式实现。如可以首先采用三维点云将低层级的多个尺度的像素级的RGB特征采样到点级表示，然后将多尺度特征进行拼接后，应用共享的多层感知器将其压缩到与上述点云特征相同的特征维度。由于点是稀疏的，在采用相邻像素中的上下文线索时，可以在每个像素的RGB特征映射上使用最大池化操作，在聚合操作之前聚合上下文特征。具体可以表示如下公式(5)所示：

F_r＝Multihead Attention(F_p,F_r)

......公式(5)

其中，多头注意操作(Multihead Attention)类似于上述的注意计算，但是输入会有所不同，以点级别的RGB特征F_r作为键key和值value，以点云特征F_p作为查询query。

另一方面，在交叉注意力操作中学习到的注意力中的每个元素表示第i个点的外观特征与第j个点的几何特征之间的关系分数。相关性越高意味着相应的外观特征对某一点的贡献越大。因此，将学习到的相关性作为突出重要外观信息的指导。将增强的F_r和F_p拼接在一起，然后馈入由一个线性变换层组成的前馈网络(FFN)，以获得对象实例的完整多模态特征。具体如下公式(6)所示：

F_p＝FFN(F_p+F_r)

......公式(6)

在本申请实施例中，采用两个多注意力模块从点和RGB特征中提取3D特征。通过RGBD融合模块对特征融合的处理，不仅增强了具有丰富语义外观特征的几何特征，而且还探索了全局结构信息。通过这种方式，网络可以利用局部和全局多模态信息来改进几何表示的学习，以实现准确的姿态估计。

具体地，在步骤B4中基于注意力机制，根据所述点云体素特征信息、体素位置特征信息和/或第一图像体素特征信息进行特征融合，得到融合特征信息，包括以下步骤B41-B44的其中一项：

步骤B41：针对所述第一图像体素特征信息，以及基于自注意力机制针对所述体素位置特征信息、点云体素特征信息和图像体素特征信息处理后输出的特征信息，通过交叉注意力机制进行特征融合，得到融合特征信息。

具体地，如图5所示，自注意力模块将体素位置特征信息以及将点云体素特征信息和第一图像体素特征信息拼接后的特征信息作为输入，并向交叉注意力模块输出处理后的特征信息。交叉注意力模块将自注意力模块输出的特征信息和第一图像体素特征作为输入。

可选地，在交叉注意力模块对输入进行融合后，将融合后的特征输入前向特征提取网络处理后输出融合特征信息。

步骤B42：针对所述第一图像体素特征信息，以及基于自注意力机制针对所述点云体素特征信息处理后输出的特征信息，通过交叉注意力机制进行特征融合，得到融合特征信息。

具体地，如图6所示，自注意力模块将点云体素特征作为输入，并向交叉注意力模块输出处理后的特征信息。交叉注意力模块将自注意力模块输出的特征信息以及第一图像体素特征作为输入。

可选地，将交叉注意力模块的输出输入前向特征提取网络，最后输出融合特征信息。

步骤B43：针对所述第一图像体素特征信息，以及基于交叉注意力机制针对所述点云体素特征信息处理后输出的特征信息，通过自注意机制进行特征融合，得到融合特征信息。

具体地，如图7所示，交叉注意力模块将点云体素特征作为输入，并向自注意力模块输出处理后的特征信息。自注意力模块将交叉注意力模块输出的特征信息以及第一图像体素特征作为输入。

可选地，将自注意力模块的输出输入前向特征提取网络，最后输出融合特征信息。

步骤B44：针对基于自注意机制针对所述第一图像体素特征信息处理后输出的特征信息，以及基于交叉注意力机制针对所述点云体素特征信息和第一图像体素特征信息处理后输出的特征信息，进行特征融合，得到融合特征信息。

具体地，如图8所示，交叉注意力模块将点云体素特征和第一图像体素特征作为输入，自注意力模块将第一图像体素特征作为输入。

可选地，将交叉注意力模块输出的特征信息和自注意力模块输出的特征信息进行特征拼接后，输入前向特征提取网络，最终输出融合特征信息。

其中，交叉注意力模块有两个输入特征可以分别作为键key或查询query处理。可选地，两个注意力模块中的特征映射方式可以采用MLP的方式、也可以采用基于图卷积的方式以建模体素之间的结构信息。其中，在经过N个注意力模块的处理后，可以再经过一个前向特征提取网络输出融合后的三维特征(融合特征信息)，并作为图像处理模块(又称预测模块)的特征输入。

下面针对本申请实施例中图像处理的具体内容进行说明。

在一实施例中，在步骤S103中基于所述融合特征信息进行图像处理，包括以下步骤C1-C2中的至少一项：

步骤C1：基于所述融合特征信息进行姿态估计和/或尺寸估计。

具体地，姿态估计所需解决的问题是确定某一三维目标物体的方向指向问题；在本申请实施例中，是基于融合特征信息来表征物体的结构和形状，并通过提取物体特征，在模型和图像之间建立对应关系，以实现物体空间姿态的估计。姿态估计后可以输出6自由度姿态，如三维旋转和三维平移。

具体地，尺寸估计用以估计物体的实际尺寸。尺寸估计后可以输出物体三维尺寸。

如图11c所示，为经姿态估计和尺寸估计后的效果显示图。

可选地，在进行姿态估计和/或尺寸估计时，除基于融合特征信息进行处理外，还可以结合三维特征信息进行处理，以更好地感知三维空间。

步骤C2：基于所述融合特征信息进行形状重建和/或分割。

具体地，形状重建和分割可以通过形状解码器进行，在本申请实施例中，形状解码器的处理流程可以作为辅助任务的分支，其基于融合特征信息进行处理后，可以输出形状重建结果和对象分割结果。

在一实施例中，步骤C1中基于所述融合特征信息进行姿态估计和/或尺寸估计，包括步骤C11-C13：

步骤C11：基于融合特征信息进行三维对象检测，确定各对象的检测信息。

具体地，如图9所示，在执行物体姿态估计中，可以将整图的RGBD图像作为二维特征编码器的输入。

其中，在提取点云数据时，无需采用物体检测器对输入图像进行检测以得到物体区域，也即并非仅针对单个物体空间关系进行处理，而可以采用端到端的模型捕获全局空间场景上下文和对象之间的关系。

具体地，基于注意力机制的多尺度融合得到的融合特征信息可以首先经过三维物体检测器检测场景中存在的三维物体。三维物体检测器可以定位三维物体并识别物体类别。可选地，三维物体检测器可以通过多个Tansformer模块构建，进而学习场景中物体空间关系。

步骤C12：基于所述检测信息对所述融合特征信息进行裁剪和采样，得到三维对象特征。

具体地，可以基于检测所得三维物体对融合特征信息进行裁剪，并采样为规整的三维对象特征。

步骤C13：基于所述三维对象特征进行姿态估计和/尺寸估计。

其中，所述检测信息包括位置信息和类别信息。

在一实施例中，步骤C13中基于所述三维对象特征进行姿态估计和/尺寸估计，包括步骤C131-C132：

步骤C131：将所述二维特征信息进行投影、裁剪和采样后转化为与所述融合特征信息所对应空间一致的第二图像体素特征信息。

具体地，如图9中虚线所示，将二维特征信息投影到三维空间，经过裁剪和采样处理为与融合特征信息所处空间一致的图像体素特征。

步骤C132：基于由所述三维对象特征和第二图像体素特征信息拼接后得到的特征进行姿态估计和/尺寸估计。

具体地，步骤C131得到的第二图像体素特征信息可以结合裁剪采样后的融合特征信息拼接后进行物体姿态估计和尺寸估计。

其中，裁剪和采样后的特征信息可以作为物体姿态特征提取器的输入。提取的特征输入到姿态估计器和尺寸估计器，输出物体6D姿态和三维尺寸。可选地，物体姿态特征提取器可以通过多个Transformer模块构建，进而学习物体之间的部分关系。

在一实施例中，步骤C2中基于所述融合特征信息进行形状重建和/或分割，包括下述步骤C21：

步骤C21：基于融合特征信息，执行形状重建和/或分割，得到重建后的形状信息和/或分割信息。

具体地，针对提出多尺度的特征时，可以采用级联的形状解码器实现形状重建和分割。以图10所示包含三个尺度的情况进行说明：三个尺度融合特征信息分别作为三个形状解码器的输入；其中，形状解码器1只有尺度1的融合特征信息输入，形状解码器2的输入包括形状解码器1的输出和尺度2的融合特征信息，形状解码器3的输入包括形状解码器2的输出和尺度3的融合特征信息；继而，形状解码器3作为最后一个形状解码器，其输出的形状和分割结果作为最终的网络输出结果。

可选地，如图3b所示，本申请实施例针对区域之间的空间依赖性和结构细节，提出一种结构感知注意力融合网络。其中，对象形状重建和分割作为一个辅助任务的分支可以用于指导网络学习对象的内部结构。其中，如图3b所示，在进行图像处理中的主姿态估计任务时，可以基于融合特征信息和二维特征信息，进行姿态估计和尺寸估计。

在一可行的实施例中，如图3c和图3d所示，考虑到辅助任务的设计可以逐步增加形状重建的置信度并减少形状偏差。通过添加分支，主干姿态估计网络学习到的多模态特征可以对类内物体形状的理解更加鲁棒，且可以学习到对象姿势和大小更具有辨别力的特征。可选地，形状编码器所对应的分支作为本申请实施例的辅助任务，可以选择性地使用，如在一些场景中，若无需输出物体形状和分割结果，网络推理时可以忽略该分支的计算，进而保证系统处理的效率。

其中，如图3c和图3d所示，N表征所采用ARF模块的数量；在一实施例中，N可以是3。其中，实例分割(Instance segmentation)可以通过MaskRCNN实现。

本申请实施例提出的ARF-Net可以用于基于RGBD的类级别6D姿态估计。具体地，包括一种基于结构感知注意力的融合模型，用于捕捉空间的依赖性和结构细节；还可以包括一种用于形状重建和图像分割的辅助任务分支，以更好地引导网络学习对象的内部结构，提高网络处理的精度和效率；另外，ARF-Net还可以适应于类别级6D姿态和尺寸估计的端到端注意力融合网络。

本申请实施例提供了一种图像处理装置，如图12所示，该图像处理装置1200可以包括：获取模块1201、融合模块1202、处理模块1203。

其中，获取模块1201，用于基于彩色图像和深度图像，获取三维特征信息和二维特征信息；融合模块1202，用于基于注意力机制，融合所述三维特征信息和二维特征信息，得到融合特征信息；处理模块1203，用于基于所述融合特征信息进行图像处理。

在一实施例中，融合模块1202用于执行基于注意力机制，融合所述三维特征信息和二维特征信息，得到融合特征信息时，具体用于：

基于注意力机制，对至少一个尺度的三维特征信息和至少一个尺度的二维特征信息进行融合，得到融合特征信息。

针对任一尺度的三维特征信息和二维特征信息执行以下操作：基于注意力机制对当前尺度的三维特征信息和当前尺度的二维特征信息进行特征融合，得到融合特征信息；

其中，当前尺度的三维特征信息根据上一尺度的融合特征信息以及上一尺度的三维特征信息确定；

当前尺度的二维特征信息根据上一尺度的二维特征信息确定。

根据所述三维特征信息，获取点云体素特征信息和/或体素位置特征信息；

根据所述二维特征信息，获取第一图像体素特征信息；

基于注意力机制，根据所述点云体素特征信息、体素位置特征信息和/或第一图像体素特征信息进行特征融合，得到融合特征信息。

在一实施例中，融合模块1202用于执行基于注意力机制，根据所述点云体素特征信息、体素位置特征信息和/或第一图像体素特征信息进行特征融合，得到融合特征信息时，具体用于执行以下其中一项：

针对所述第一图像体素特征信息，以及基于自注意力机制针对所述体素位置特征信息、点云体素特征信息和第一图像体素特征信息处理后输出的特征信息，通过交叉注意力机制进行特征融合，得到融合特征信息；

针对所述第一图像体素特征信息，以及基于自注意力机制针对所述点云体素特征信息处理后输出的特征信息，通过交叉注意力机制进行特征融合，得到融合特征信息；

针对所述第一图像体素特征信息，以及基于交叉注意力机制针对所述点云体素特征信息处理后输出的特征信息，通过自注意机制进行特征融合，得到融合特征信息；

针对基于自注意机制针对所述第一图像体素特征信息处理后输出的特征信息，以及基于交叉注意力机制针对所述点云体素特征信息和第一图像体素特征信息处理后输出的特征信息，进行特征融合，得到融合特征信息。

在一实施例中，处理模块1203用于执行基于所述融合特征信息进行图像处理时，具体用于执行以下至少一项：

基于所述融合特征信息进行姿态估计和/或尺寸估计；

基于所述融合特征信息进行形状重建和/或分割。

在一实施例中，处理模块1203用于执行基于所述融合特征信息进行形状重建和/或分割时，具体用于：

基于融合特征信息，执行形状重建和/或分割，得到重建后的形状信息和/或分割信息。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现图像处理方法的步骤，与现有技术相比可实现：本申请针对输入图像，首先基于输入图像的彩色图像和深度图像获取至少一个尺度的三维特征信息和二维特征信息，继而将三维特征和二维特征信息进行特征融合后，可以得到融合特征信息，其中，特征融合采用注意力机制实现；进而，基于融合特征信息进行图像处理；该方案的实施通过特征融合获得多模态的融合特征信息，以实现基于多模态信息的图像处理，相对于基于单一模态信息的图像处理，本申请方案的实施有利于提高图像处理的精度。另外，在一些特定的场景，如增强现实的应用场景，本方案的实施还有利于提高对三维信息的感知能力，进而提高系统的处理效率和鲁棒性。

在一个可选实施例中提供了一种电子设备，如图13所示，图13所示的电子设备1300包括：处理器1301和存储器1303。其中，处理器1301和存储器1303相连，如通过总线1302相连。可选地，电子设备1300还可以包括收发器1304，收发器1304可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器1304不限于一个，该电子设备1300的结构并不构成对本申请实施例的限定。

处理器1301可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1302可包括一通路，在上述组件之间传送信息。总线1302可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线1302可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1303可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器1303用于存储执行本申请实施例的计算机程序，并由处理器1301来控制执行。处理器1301用于执行存储器1303中存储的计算机程序，以实现前述方法实施例所示的步骤。

其中，电子设备包括但不限于：智能手机、平板电脑、笔记本电脑、智能音箱、智能手表、车载设备等。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请所提供的实施例中，由电子设备执行的上述设备的位姿估计方法可以使用人工智能模型来执行。

根据本申请的实施例，在电子设备中执行的该方法可以通过使用图像数据或视频数据作为人工智能模型的输入数据来获得识别图像或图像中的图像特征的输出数据。人工智能模型可以通过训练获得。这里，“通过训练获得”意味着通过训练算法用多条训练数据训练基本人工智能模型来获得被配置成执行期望特征(或目的)的预定义操作规则或人工智能模型。人工智能模型可以包括多个神经网络层。多个神经网络层中的每一层包括多个权重值，并且通过在前一层的计算结果与多个权重值之间的计算来执行神经网络计算。

视觉理解是一种用于像人类视觉一样识别和处理事物的技术，并且包括例如对象识别、对象跟踪、图像检索、人类识别、场景识别、3D重建/定位或图像增强。

本申请所提供的图像处理装置，可以通过AI模型来实现多个模块中的至少一个模块。可以通过非易失性存储器、易失性存储器和处理器来执行与AI相关联的功能。

该处理器可以包括一个或多个处理器。此时，该一个或多个处理器可以是通用处理器，(例如中央处理单元(CPU)、应用处理器(AP)等)、或者是纯图形处理单元，(例如，图形处理单元(GPU)、视觉处理单元(VPU)、和/或AI专用处理器，(例如，神经处理单元(NPU))。

该一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义的操作规则或人工智能(AI)模型来控制对输入数据的处理。通过训练或学习来提供预定义的操作规则或人工智能模型。

这里，通过学习来提供指的是通过将学习算法应用于多个学习数据来得到预定义的操作规则或具有期望特性的AI模型。该学习可以在其中执行根据实施例的AI的装置本身中执行，和/或可以通过单独的服务器/系统来实现。

该AI模型可以由包含多个神经网络层组成。每一层具有多个权重值，一个层的计算是通过前一层的计算结果和当前层的多个权重来执行的。神经网络的示例包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)、生成对抗网络(GAN)、以及深度Q网络。

学习算法是一种使用多个学习数据训练预定目标装置(例如，机器人)以使得、允许或控制目标装置进行确定或预测的方法。该学习算法的示例包括但不限于监督学习、无监督学习、半监督学习、或强化学习。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种图像处理方法，其特征在于，包括：

基于所述融合特征信息进行图像处理。

2.根据权利要求1所述的方法，其特征在于，所述基于注意力机制，融合所述三维特征信息和二维特征信息，得到融合特征信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于注意力机制，针对至少一个尺度的三维特征信息和至少一个尺度的二维特征信息进行融合，得到融合特征信息，包括：

针对任一尺度的三维特征信息和二维特征信息执行以下操作：

基于注意力机制对当前尺度的三维特征信息和当前尺度的二维特征信息进行特征融合，得到当前尺度的融合特征信息；其中，当前尺度的三维特征信息根据上一尺度的融合特征信息以及上一尺度的三维特征信息确定；

4.根据权利要求1所述的方法，其特征在于，所述基于注意力机制，融合所述三维特征信息和二维特征信息，得到融合特征信息，包括：

根据所述二维特征信息，获取第一图像体素特征信息；

5.根据权利要求4所述的方法，其特征在于，所述基于注意力机制，根据所述点云体素特征信息、体素位置特征信息和/或第一图像体素特征信息进行特征融合，得到融合特征信息，包括以下其中一项：

6.根据权利要求1所述的方法，其特征在于，所述基于所述融合特征信息进行图像处理，包括以下至少一项：

基于所述融合特征信息进行姿态估计和/或尺寸估计；

基于所述融合特征信息进行形状重建和/或分割。

7.根据权利要求6所述的方法，其特征在于，所述基于所述融合特征信息进行形状重建和/或分割，包括：

基于融合特征信息，执行形状重建和/或分割，得到形状信息和/或分割信息。

8.一种图像处理装置，其特征在于，包括：

处理模块，用于基于所述融合特征信息进行图像处理。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于：执行根据权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机可以执行上述权利要求1至7中任一项所述的方法。

11.一种计算机程序产品，包括计算机程序或指令，其特征在于，该计算机程序或指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。