CN109447169B

CN109447169B - 图像处理方法及其模型的训练方法、装置和电子系统

Info

Publication number: CN109447169B
Application number: CN201811306459.9A
Authority: CN
Inventors: 黎泽明; 俞刚
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2020-10-27
Anticipated expiration: 2038-11-02
Also published as: CN109447169A

Abstract

本发明提供了一种图像处理方法及其模型的训练方法、装置和电子系统；其中，该方法包括：通过特征提取网络和区域候选网络获取目标训练图像的候选区域；通过定位分割网络对候选区域进行实例定位和实例分割并计算损失值，得到包含有实例的定位区域、分割区域、定位损失值和分割损失值；通过分类网络对候选区域进行分类并计算损失值，得到候选区域的分类结果和分类损失值；根据各个损失值对上述各个网络进行训练，直至各个损失值均收敛，得到图像处理模型。本发明中，实例定位和实例分割采用同一个分支网络实现，使得实例定位和实例分割能够共享特征信息并相互促进，有利于提高实例定位和实例分割的准确度，进而提高了实例定位、分割和分类整体的准确度。

Description

图像处理方法及其模型的训练方法、装置和电子系统

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种图像处理方法及其模型的训练方法、装置和电子系统。

背景技术

实例分割(Instance Segmentation)是计算机视觉的一项重要任务，可以为图片中的各个目标提供实例级的检测和分割。实例分割为计算机更准确地理解图片提供了重要的线索，对自动驾驶等领域有着重要的作用。相关技术中，实例分割主要是基于经典的目标检测方法FPN(Feature Pyramid Network，特征金字塔网络)实现，并在FPN基础上扩展了实现实例分割的一个分支。这种方式将实例分割分为了检测部分和分割部分；其中，检测部分包括定位任务和分类任务，通过同一分支网络实现；分割部分通过单独的分支网络完成。

然而，上述方式通过简单的增加分支网络实现分割部分，并没有对各个任务的特性进行很好的整合。例如，对于分类任务和定位任务，两者之间具有很大的差异性，分类任务需要全局的语义信息，而定位任务则需要局部的边缘信息；二者通过同一分支网络实现，易造成信息缺失，导致最终的实例分割准确性较差。

发明内容

有鉴于此，本发明的目的在于提供一种图像处理方法及其模型的训练方法、装置和电子系统，以提高实例定位和实例分割的准确度，进而提高实例定位、分割和分类整体的准确度。

第一方面，本发明实施例提供了一种图像处理模型的训练方法，包括：通过预设的特征提取网络和区域候选网络获取目标训练图像的候选区域；通过预设的定位分割网络对候选区域进行实例定位和实例分割，并计算实例定位和实例分割的损失值，得到包含有实例的定位区域、分割区域、定位损失值和分割损失值；通过预设的分类网络对候选区域进行分类，并计算分类的损失值，得到候选区域的分类结果和分类损失值；根据定位损失值、分割损失值和分类损失值对特征提取网络、区域候选网络、定位分割网络和分类网络进行训练，直至定位损失值、分割损失值和分类损失值均收敛，得到图像处理模型。

在本发明较佳的实施例中，上述定位分割网络包括卷积网络；分类网络包括全连接网络。

在本发明较佳的实施例中，上述通过预设的特征提取网络和区域候选网络获取目标训练图像的候选区域的步骤，包括：通过预设的特征提取网络对目标训练图像进行特征提取处理，得到目标训练图像的初始特征图；对初始特征图进行特征融合处理，得到融合特征图；通过预设的区域候选网络，从融合特征图中提取候选区域。

在本发明较佳的实施例中，上述通过预设的定位分割网络对候选区域进行实例定位和实例分割的步骤，包括：将候选区域的尺寸调整至与卷积网络相匹配的尺寸；通过卷积网络对调整后的候选区域进行实例检测处理和实例分割处理，得到包含有完整实例的定位区域和分割区域；定位区域通过检测框标识；分割区域通过颜色标识。

在本发明较佳的实施例中，上述目标训练图像中携带有各实例对应的定位标签和分割标签；计算实例定位和实例分割的损失值的步骤，包括：将定位区域、定位区域包含的实例对应的定位标签代入至预设的定位损失函数中，得到定位损失值；将分割区域、分割区域包含的实例对应的分割标签代入至预设的分割损失函数中，得到分割损失值。

在本发明较佳的实施例中，上述通过预设的分类网络对候选区域进行分类的步骤，包括：将候选区域的尺寸调整至与全连接网络相匹配的尺寸；将调整后的候选区域输入至全连接网络中，输出候选区域的分类结果。

在本发明较佳的实施例中，上述目标训练图像中携带有各实例对应的分类标签；计算分类的损失值的步骤，包括：将候选区域的分类结果、候选区域中包含的实例对应的分类标签代入至预设的分类损失函数中，得到分类损失值。

第二方面，本发明实施例提供了一种图像处理方法，该方法应用于配置有图像处理模型的设备；图像处理模型为上述图像处理模型的训练方法训练得到的图像处理模型；该方法包括：获取待处理图像；将待处理图像输入至图像处理模型中，输出待处理图像中各个实例的定位区域、分割区域和分类结果。

在本发明较佳的实施例中，上述获取待处理图像的步骤，包括：通过车辆的摄像装置采集待处理图像；输出待处理图像中各个实例的定位区域、分割区域和分类结果的步骤之后，方法还包括：根据定位区域、分割区域和分类结果生成驾驶命令，以使车辆根据驾驶命令进行自动驾驶。

第三方面，本发明实施例提供了一种图像处理模型的训练装置，包括：区域获取模块，用于通过预设的特征提取网络和区域候选网络获取目标训练图像的候选区域；定位分割模块，用于通过预设的定位分割网络对候选区域进行实例定位和实例分割，并计算实例定位和实例分割的损失值，得到包含有实例的定位区域、分割区域、定位损失值和分割损失值；分类模块，用于通过预设的分类网络对候选区域进行分类，并计算分类的损失值，得到候选区域的分类结果和分类损失值；训练模块，用于根据定位损失值、分割损失值和分类损失值对特征提取网络、区域候选网络、定位分割网络和分类网络进行训练，直至定位损失值、分割损失值和分类损失值均收敛，得到图像处理模型。

第四方面，本发明实施例提供了一种图像处理装置，装置设置于配置有图像处理模型的设备；图像处理模型为上述图像处理模型的训练方法训练得到的图像处理模型；装置包括：图像获取模块，用于获取待处理图像；图像输入模块，用于将待处理图像输入至图像处理模型中，输出待处理图像中各个实例的定位区域、分割区域和分类结果。

第五方面，本发明实施例提供了一种电子系统，该电子系统包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取预览视频帧或图像数据；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行如上述图像处理模型的训练方法，或者执行如上述图像处理方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行如上述图像处理模型的训练方法，或者执行如上述图像处理方法的步骤。

本发明实施例带来了以下有益效果：

上述图像处理方法及其模型的训练方法、装置和电子系统，通过预设的特征提取网络和区域候选网络获取到目标训练图像的候选区域后，通过定位分割网络对候选区域进行实例定位和实例分割并计算对应的损失值，得到包含有实例的定位区域和分割区域；再通过分类网络对候选区域进行分类并计算对应的损失值，得到候选区域的分类结果；进而根据定位损失值、分割损失值和分类损失值对上述特征提取网络、区域候选网络定位分割网络和分类网络进行训练，直至各损失值均收敛，得到图像处理模型。该方式中，实例定位和实例分割采用同一个分支网络实现，使得实例定位和实例分割能够共享特征信息并相互促进，有利于提高实例定位和实例分割的准确度，进而提高了实例定位、分割和分类整体的准确度。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子系统的结构示意图；

图2为本发明实施例提供的一种图像处理模型的训练方法的流程图；

图3为本发明实施例提供的一种初始特征图的结构示意图；

图4为本发明实施例提供的一种图像处理模型的示意图；

图5为本发明实施例提供的现有技术中的一种图像处理模型的示意图；

图6为本发明实施例提供的一种图像处理方法的流程图；

图7为本发明实施例提供的一种图像处理模型的训练装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有的实例分割方式中，各任务分配不合理，使得最终的实例分割准确性较差的问题，本发明实施例提供了一种图像处理方法及其模型的训练方法、装置和电子系统，该技术可以应用于服务器、计算机、相机、手机、平板电脑、车辆中控设备等多种设备中，该技术可采用相应的软件和硬件实现，以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的图像处理方法及其模型的训练方法、装置和电子系统的示例电子系统100。

如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子系统100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子系统也可以具有其他组件和结构。

所述处理设备102可以是网关，也可以为智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对所述电子系统100中的其它组件的数据进行处理，还可以控制所述电子系统100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集设备110可以采集预览视频帧或图像数据，并且将采集到的预览视频帧或图像数据存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的图像处理方法及其模型的训练方法、装置和电子系统的示例电子系统中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集设备110设置于可以采集到目标图像的指定位置。当上述电子系统中的各器件集成设置时，该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车辆中控设备等。

实施例二：

本实施例提供了一种图像处理模型的训练方法，该方法由上述电子系统中的处理设备执行；该处理设备可以是具有数据处理能力的任何设备或芯片。该处理设备可以独立对接收到的信息进行处理，也可以与服务器相连，共同对信息进行分析处理，并将处理结果上传至云端。

上述图像处理模型主要用于实例分割，该实例分割通常包含实例的定位、分割和分类等操作；如图2所示，该图像处理模型的训练方法包括如下步骤：

步骤S202，通过预设的特征提取网络和区域候选网络获取目标训练图像的候选区域；

该特征提取网络可以通过VGG16网络、RseNet网络等经训练获得。通常，该目标训练图像中包含多种实例，如人物、动物、静物等；每种实例可以具有多个，如图像中包括三个人，分别为人物1、人物2、人物3等。上述图像处理模型的训练目的就是将图像中的多种实例，以及每种实例中的每个实例定位、分割并识别出类别。

上述候选区域可以通过预设大小的候选框标识，从目标训练图像或目标训练图像的特征图中选取多个可能包含有实例图像区域，以供后续实例定位、分类和分割使用；在提取候选区域时，上述候选框的规格可以具有多种，例如，对于目标训练图像或目标训练图像的特征图中的某一像素点，将该像素点作为候选框中心，该候选框的尺寸可以变化为2*7、3*6、5*5、6*3、7*2等多种，从而得到以该像素点为中心的多个图像区域；进而再以其他像素点为候选框中心，得到以该像素点为中心的多个图像区域。

得到多个图像区域后，通常还需要对这些图像区域进行分类、筛选等处理，以得到可能包含有实例图像区域，这些图像区域即为上述候选区域；该过程可以通过预先训练的神经网络实现。例如，在从目标训练图像的特征图中提取候选区域时，该神经网络可以为RPN(Region Proposal Network，区域候选网络)网络。

步骤S204，通过预设的定位分割网络对候选区域进行实例定位和实例分割，并计算实例定位和实例分割的损失值，得到包含有实例的定位区域、分割区域、定位损失值和分割损失值；

考虑到实例定位和实例分割的任务需要使用到位置敏感信息，如边缘特征信息、局部边缘特征信息等，而分类的任务需要用到全部的语义信息；因此，本实施例中将上述图像处理模型划分为两个分支网络，其中一个是用于实例定位和实例分割的定位分割网络，另一个是用于分类的分类网络。

这种划分方式中，定位分割网络可以集中提取各候选区域中的位置敏感信息，定位分割网络在完成实例定位和实例分割的任务时，可以共享提取出的特征图、特征信息等，使得该定位分割网络在完成实例定位和实例分割任务时，彼此任务之间具有相互促进的作用，如相互促进定位分割网络提高寻找边界的能力。分类网络可以集中提取各候选区域中的全局语义信息，无需再提取位置敏感信息。

相对于现有的相关方式中，实例定位和分类通过同一个网络分支实现，该网络分支需要同时提取位置敏感信息和全局语义信息，很容易造成部分特征信息的缺失，例如，如果该网络分支通过全连接网络实现，则易造成用于实例定位的边缘信息缺失，导致实例定位准确性较差；如果该网络分支通过卷积网络实现，则不利于提取全局语义信息，造成分类的准确性较差。另外，由于实例分割由另外的网络分支实现，该网络分支需要基于候选区域重新提取特征信息，难以实现与实例定位相关特征信息的信息共享。

具体到上述S204中，上述定位分割网络可以使用有利于提取位置敏感信息的神经网络实现，例如，卷积网络等；候选区域输入至该定位分割网络后，定位分割网络可以对该候选区域同时进行实例定位和实例分割，也可以先进行实例定位再进行实例分割，最终得到包含有实例的定位区域和分割区域；通常，定位区域由检测框标识，如矩形检测框，该检测框中通常包含了完整的实例；而分割区域的边缘即为实例的边缘，不同实例的分割区域可以通过不同的颜色进行区分。

在对图像处理模型的训练过程中，需要评价模型的准确性，因此，上述目标训练图像中通常预先标识有各实例的标准的定位区域和标准的分割区域，也可以称为定位标签和分割标签；定位分割网络在对目标训练图像的各个候选区域完成实例定位和实例分割后，输出各实例的定位区域和分割区域，再通过预设的损失函数计算各实例的定位区域和定位标签的差距，以得到上述定位损失值，计算各实例的分割区域和分割标签的差距，以得到上述分割损失值。

步骤S206，通过预设的分类网络对候选区域进行分类，并计算分类的损失值，得到候选区域的分类结果和分类损失值；

上述分类网络可以使用有利于提取全局语义信息的神经网络实现，例如，全连接网络等；候选区域输入至该分类网络后，分类网络通过语义分割等方式获取该候选区域上下文的语义信息，进而得到全局的语义信息；再基于全局语义信息对该候选区域进行分类，得到分类结果；该分类结果具体可以为分类标识，如人物、地面、杯子等。为了对模型的分类结果进行评价，可以将该分类结果与目标训练图像中携带的各实例的分类标签(即标准的分类结果)进行比较，具体可以通过预设的分类损失函数计算分类结果和分类标签之间的差距，以得到损失分类损失值。

步骤S208，根据定位损失值、分割损失值和分类损失值对特征提取网络、区域候选网络、定位分割网络和分类网络进行训练，直至定位损失值、分割损失值和分类损失值均收敛，得到图像处理模型。

在训练过程中，通过上述定位损失值、分割损失值和分类损失值可以对特征提取网络、区域候选网络、定位分割网络和分类网络的参数进行修改，以使上述各损失值均收敛，训练过程结束。上述训练过程中，所使用的目标训练图像可以为多张，例如，使用同一张目标训练图像反复训练，当上述各损失值均收敛后，再使用另一张目标训练图像反复训练，各损失值均收敛后，再使用第三张目标训练图像反复训练，依此类推，使模型的性能愈加趋于稳定。

上述图像处理模型的训练方法，获取到目标训练图像的候选区域后，通过预设的特征提取网络和区域候选网络获取到目标训练图像的候选区域后，通过定位分割网络对候选区域进行实例定位和实例分割并计算对应的损失值，得到包含有实例的定位区域和分割区域；再通过分类网络对候选区域进行分类并计算对应的损失值，得到候选区域的分类结果；进而根据定位损失值、分割损失值和分类损失值对上述特征提取网络、区域候选网络定位分割网络和分类网络进行训练，直至各损失值均收敛，得到图像处理模型。该方式中，实例定位和实例分割采用同一个分支网络实现，使得实例定位和实例分割能够共享特征信息并相互促进，有利于提高实例定位和实例分割的准确度，进而提高了实例定位、分割和分类整体的准确度。

实施例三：

本实施例提供了另一种图像处理模型的训练方法，该方法在上述实施例的基础上实现；本实施例中，重点描述获取目标训练图像的候选区域的具体实现方式；该方法包括如下步骤：

步骤302，通过预设的特征提取网络对目标训练图像进行特征提取处理，得到目标训练图像的初始特征图；

其中，训练该特征提取网络所使用的样本图像可以从ImageNet数据集或其他数据集中得到；训练该特征提取网络过程中，可以通过Top1分类误差函数评估网络的性能；该Top1分类误差函数具体可以表达为Top1＝正确标记与网络输出的最佳标记不同的样本数/总样本数。特征提取网络训练完毕后，将上述目标训练图像输入至该特征提取网络中，即可输出该目标训练图像的初始特征图。具体地，该步骤302还可以通过下述方式实现：

步骤1，将目标训练图像的尺寸调整至预设尺寸，对调整后的目标训练图像进行白化处理；

对于大多数的神经网络，通常仅能接收固定尺寸的图像数据；因此在输入至特征提取网络之前，需要对该目标训练图像的尺寸进行调整；具体调整方式可以为：如果目标训练图像的长或宽大于预设尺寸，将目标训练图像压缩至预设尺寸，或者删除多余的图像区域；如果目标训练图像的长或宽小于预设尺寸，将目标训练图像拉伸至预设尺寸，或者填补空缺的图像区域。

通常，目标训练图像在成像过程中会受环境照明强度、物体反射、拍摄相机等多因素的影响，为了从目标训练图像中剔除这些影响因素，使目标训练图像包含不受外界影响的恒定信息，需要对目标训练图像进行白化处理。因而，上述对调整后的目标训练图像进行白化处理，也可以理解为对调整后的目标训练图像降维的过程。在白化处理过程中，通常对目标训练图像的每个像素的像素值转化成零均值和单位方差的像素值。具体地，首先需要计算该目标训练图像的所有像素值的平均值μ和方差值δ，在通过下述公式对目标训练图像的每个像素进行转化：xij＝(pij-μ)/δ；其中，pij为目标训练图像第i行，第j列像素的原始像素值，xij为目标训练图像第i行，第j列像素的转化后的像素值。

步骤2，将处理后的目标训练图像输入至预设的特征提取网络中，输出指定层级数量的初始特征图。

在实际实现时，可以预先设置特征提取网络输出的特征图的层级数量，如该层级数量可以为五层，分别记为Conv1、Conv2、Conv3、Conv4、Conv5。由于当前层的初始特征图由该当前层的低一层的初始特征图通过预设的卷积核进行卷积计算得到(最底层的初始特征图由目标训练图像进行卷积计算得到)，当前层的初始特征图的尺度小于低一层的初始特征图；因此，特征提取网络输出的指定层级数量的初始特征图由底层至顶层的尺度由大变小，且彼此的尺度不同。

图3所示为初始特征图的结构示意图；图3中以五个层级的初始特征图为例进行说明，按照箭头的方向，位于底部的为最底层的初始特征图；位于顶部的为最顶层的初始特征图；上述特征提取网络中通常也设置有多层卷积层；上述目标训练图像输入至特征提取网络后，先经第一层卷积层进行卷积运算，得到最底层的初始特征图；最底层的初始特征图再经第二层卷积层进行卷积运算，得到第二层的初始特征图，直至经最后一层卷积层得到最顶层的初始特征图；通常，每层卷积层进行卷积运算所使用的卷积核可能不同；并且，除卷积层外，上述特征提取网络中通常还配置有池化层、全连接层等。

步骤304，对初始特征图进行特征融合处理，得到融合特征图；

由于每个层级的初始特征图通过不同的卷积核进行卷积运算得到，因此每个层级的初始特征图中包含目标训练图像不同种类或不同维度的特征；为了丰富各层级初始特征图包含的特征，需要将各层级的初始特征图进行融合处理。具体的融合过程可以有多种形式，如将当前层的初始特征图与当前层的上一层的初始特征图进行融合，得到当前层的融合特征图；再如，当前层的初始特征图与当前层的上一层的初始特征图进行融合之前，还可以与其他层或其他层组合的初始特征图进行融合，再将融合后的初始特征图与上一层的初始特征图进行融合。

由于初始特征图间尺度不同，在进行融合之前通常需要对相融合的初始特征图进行预处理(如卷积运算、差值运算等)，以使相融合的初始特征图间的尺度相互匹配；初始特征图间进行融合时，相应的特征点间可以进行点乘、点加或其他逻辑运算。

具体地，上述步骤304还可以通过下述方式实现：

步骤1，将最顶层级的初始特征图确定为最顶层级的融合特征图；

由于最顶层级的初始特征图不存在上一层极的初始特征图，因而在对每个层级的初始特征图进行融合过程中，最顶层级的初始特征图不再进行融合处理，直接将该初始特征图确定为最顶层级的融合特征图。

步骤2，除最顶层级以外，将当前层级的初始特征图和当前层级的上一层级的融合特征图进行融合，得到当前层级的融合特征图。

在实际实现时，可以通过预设的卷积核，对当前层级的初始特征图进行卷积运算，得到卷积运算后的初始特征图；其中，卷积核可以为3*3卷积核，当然也可以使用较大的卷积核，例如5*5卷积核、7*7卷积核等。再根据当前层级的初始特征图的尺度，对当前层级的上一层级的融合特征图进行插值运算，得到与当前层级的初始特征图的尺度相匹配的当前层级的上一层级的融合特征图。

由于当前层级的上一层级的融合特征图小于当前层级的初始特征图，为了便于融合，需要对当前层级的上一层级的融合特征图进行“拉伸”至与当前层级的初始特征图的尺度相同，该“拉伸”的过程即可通过上述插值运算实现。以线性插值为例，简单举例说明插值运算的过程，例如，初始特征图中的局部三个特征点的数值分别为5、7、9，为了使该初始特征图拉伸至预设尺度，需要将上述三个特征点扩展至五个特征点，此时可以将特征点5和特征点7的均值，即特征点6插入至特征点5和特征点7之间，将特征点7和特征点9的均值，即特征点9插入至特征点7和特征点9之间，至此即可将局部三个特征点扩展为五个特征点，分别为5、6、7、8、9。

除上述线性插值外，还可以使用其他插值算法，如双线性插值；双线性插值通常分别从x方向和y方向分别进行插值运算；具体而言，首先从初始特征图中选择四个特征点，分别为Q11、Q12、Q21和Q22，这四个特征点在初始特征图中呈矩形分布；在x方向，Q11和Q21的x坐标经线性插值后得到的一个插值点R1，Q12和Q22的x坐标经线性插值后得到的一个插值点R2；再在y方向，将插值点R1和插值点R2经线性插值后得到最终的差值点P，该点P即为一次双线性插值后的新增特征点。

上述插值运算完成后，再将插值运算后的当前层级的上一层级的融合特征图与当前层级的初始特征图进行相应特征点间的逐点相加运算，得到当前层级的融合特征图。当然也可以将当前层级的上一层级的融合特征图与当前层级的初始特征图进行相应特征点间的逐点相乘运算或其他逻辑运算。

步骤306，通过预设的区域候选网络，从上述融合特征图中提取候选区域。

其中，该区域候选网络具体可以为RPN网络，该RPN网络具体可以通过下述方式实现：在各层融合特征图上，使用一个n*n的滑窗(如n＝3时，即3*3大小的滑窗)生成一个长度为256或512维长度的全连接特征，然后在这个256维或512维的特征后产生两个分支的全连接层或卷积层，分别为reg-layer和cls-layer；其中，reg-layer用于预测候选区域的中心锚点对应的候选区域的坐标x，y和宽高w，h；而cls-layer用于判定该候选区域是前景还是背景，从而筛选得到可能包含有实例的候选区域。该候选区域也可以称为RoI(Region ofInterest，感兴趣区域)。

步骤308，通过预设的定位分割网络对候选区域进行实例定位和实例分割，并计算实例定位和实例分割的损失值，得到包含有实例的定位区域、分割区域、定位损失值和分割损失值；

步骤310，通过预设的分类网络对候选区域进行分类，并计算分类的损失值，得到候选区域的分类结果和分类损失值；

步骤312，根据定位损失值、分割损失值和分类损失值对特征提取网络、区域候选网络、定位分割网络和分类网络进行训练，直至定位损失值、分割损失值和分类损失值均收敛，得到图像处理模型。

上述图像处理模型的训练方法，通过特征提取网络提取到目标训练图像的初始特征图后，对该初始特征图进行特征融合处理，得到融合特征图；再通过区域候选网络从上述融合特征图中提取候选区域；进而再基于该候选区域，对上述定位分割网络和分类网络进行训练，得到图像处理模型。该方式中，实例定位和实例分割采用同一个分支网络实现，使得实例定位和实例分割能够共享特征信息并相互促进，有利于提高实例定位和实例分割的准确度，进而提高了实例定位、分割和分类整体的准确度。

实施例四：

本实施例提供了另一种图像处理模型的训练方法，该方法在上述实施例的基础上实现；本实施例中，重点描述对候选区域进行实例定位、实例分割和分类的具体实现方式。由于卷积网络更有利于获取候选区域中的位置敏感信息，如边缘上下文信息等；而全连接网络更有利于获取候选区域中的全局语音信息；因为本实施例中的定位分割网络通过卷积网络实现，分类网络通过全连接网络实现，以避免通过全连接网络进行实例定位造成的边缘上下文信息缺失的问题。

步骤402，通过预设的特征提取网络对目标训练图像进行特征提取处理，得到目标训练图像的初始特征图；

步骤404，对初始特征图进行特征融合处理，得到融合特征图；

步骤406，通过预设的区域候选网络，从上述融合特征图中提取候选区域。

步骤408，将候选区域的尺寸调整至与卷积网络相匹配的尺寸；

通常，卷积网络需要输入的图像数据具有固定的尺寸，如14*14、7*7等；如上述实施例所述，可以通过拉伸、压缩、删除多余区域、填补空缺区域等方式调整上述候选区域的尺寸，以使候选区域的尺寸与卷积网络的尺寸相匹配。

步骤410，通过卷积网络对调整后的候选区域进行实例检测处理和实例分割处理，得到包含有完整实例的定位区域和分割区域；该定位区域通过检测框标识；该分割区域通过颜色标识。

将尺寸调整后的候选区域输入至卷积网络后，该卷积网络通常会提取候选区域中的位置信息，以获得对该候选区域可能包含的实例的边缘信息；通过获取到的边缘信息，卷积网络对候选区域进行实例定位和分割，在大多情况下，实例定位和实例分割的任务可以同时进行。另外，对于较大的实例，候选区域可能不会包含完整的实例，此时卷积网络会查找与当前候选区域的锚点(Anchor，可以理解为候选区域的中心点)相同的候选区域，或锚点相邻的候选区域，将边缘信息相关度较大的候选区域进行合并，或者基于边缘信息相关度较大的候选区域对当前候选区域进行拉伸处理，得到包含有完整实例的区域；该区域可能相对于实例的尺寸较大，如该区域内，实例的周围包含有较多的背景区域，此时则需要对区域进行再次调整，以使实例的边缘靠近区域边缘，使得最终的检测框中恰好包含该完整的实例。

上述定位区域通过检测框标识，该检测框具体可以为矩形框；该检测框中包含有实例，以及该实例周边的背景区域；上述分割区域的边缘通常为实例的边缘轮廓，通常通过颜色填充的方式区别各实例；例如，目标训练图像中包含人物1、人物2、杯子和动物；此时经实例分割后，人物1可用蓝色标识，人物2用红色表示，杯子用绿色标识，动物用紫色标识。

上述卷积网络在训练过程中，需要通过损失函数计算卷积网络输出结果的损失值，以评价卷积网络的性能。因而，上述目标训练图像通常携带有各实例对应的定位标签和分割标签；该定位标签也可以用检测框标识，以表明该实例的准确的位置；该分割标签可以通过线条表明该实例的边缘轮廓，该线条组成该实例所占据的区域，该区域也可用颜色填充。

具体地，为了评价卷积网络的实例定位性能，需要计算定位损失值，具体可以将定位区域、该定位区域包含的实例对应的定位标签代入至预设的定位损失函数中，得到定位损失值；该定位损失函数可以为Bbox Loss函数或其他可以用于评价位置损失的函数。

为了评价卷积网络的实例分割性能，需要计算分割损失值，具体可以将分割区域、该分割区域包含的实例对应的分割标签代入至预设的分割损失函数中，得到分割损失值。该分割损失函数可以为交叉熵损失函数，如Mask Sigmoid Loss函数等；可以理解，该交叉熵损失函数也可以用于评价上述定位区域的定位损失。

步骤412，将候选区域的尺寸调整至与全连接网络相匹配的尺寸；

通常，全连接网络需要输入的图像数据也具有固定的尺寸，如7*7、14*14等；同样可以通过拉伸、压缩、删除多余区域、填补空缺区域等方式调整上述候选区域的尺寸，以使候选区域的尺寸与全连接网络的尺寸相匹配。

步骤414，将调整后的候选区域输入至全连接网络中，输出候选区域的分类结果。

将尺寸调整后的候选区域输入至全连接网络后，全连接网络通常会提取候选区域中的语义信息；通过获取到的语义信息，全连接网络对候选区域进行分类；对候选区域的分类大多基于该候选区域中包含的实例进行分类。由于同一锚点或相邻锚点的候选区域间存在重叠，这些候选区域很有可能包含同样的实例，此时，这些候选区域会被划分为同一类别。

在全连接网络输出的分类结果通常通过分类标识表达，该分类标识可以标识在每个实例的定位区域对应的检测框附近；因此，在确定每个检测框对应哪个分类标识时，可以在定位区域或分割区域确定完毕后，从分类结果中查找与该定位区域或分割区域位置相同或相近的候选区域的类别，该类别即可确定为该定位区域或分割区域对应检测框的分类标识。

另外，如果该定位区域或分割区域位置相同或相近的候选区域的类别为多个，可以从多个类型中选择权重较大的类别作为该定位区域或分割区域对应检测框的分类标识。

上述全连接网络在训练过程中，需要通过损失函数计算卷积网络输出结果的损失值，以评价卷积网络的性能。因而，上述目标训练图像通常携带有各实例对应的分类标签；该分类标签可以与上述实例的定位标签对应设置，也可以与实例的分割标签对应设置。

为了评价全连接网络的实例定位性能，需要计算分类损失值，具体可以将候选区域的分类结果、候选区域中包含的实例对应的分类标签代入至预设的分类损失函数中，得到分类损失值。该分类损失函数可以为log损失函数、平方损失函数、指数损失函数等。

步骤416，根据定位损失值、分割损失值和分类损失值对特征提取网络、区域候选网络、定位分割网络和分类网络进行训练，直至定位损失值、分割损失值和分类损失值均收敛，得到图像处理模型。

图4所示为该图像处理模型的一种示例；模型中的分类网络包括两层全连接层(两层全连接层仅为示例，并不作为对本实施例的限定)，定位分割网络包括五层卷积层(五层卷积层仅为示例，并不作为对本实施例的限定)，分别为CONV1、CONV2、CONV3、CONV4和DCONV；与图4中的分类网络相匹配的候选区域尺寸为7*7，与图4中的定位分割网络相匹配的候选区域为14*14。候选区域调整尺寸至7*7后，输入至分类网络，经两层全连接层处理后，输出分类结果和分类损失值；候选区域调整尺寸至14*14后，输入至定位分割网络，经五层卷积层处理后，输出定位区域、分割区域、定位损失值和分割损失值。

由图4可知，本实施例提供的图像处理模型，实例定位和实例分割任务由同一个卷积网络分支实现，分类任务由另外的全连接网络实现；对比而言，图5为现有技术中的一种图像处理模型，该模型可以通过Mask R-CNN网络模型实现；与图4中的模型不同的是，候选区域的分类和实例定位的任务由同一个全连接网络实现，而实例分割的任务由另外一个卷积网络实现。

为了进一步验证上述图4和图5两种模型的性能，本实施例进行了验证性实验，下述表1为实验结果；其中，AP代表掩码平均精度；而mmAP是一种MSCOCO(一种数据库名称)的评测方法，mmAP是AP在不同类别和不同尺度下的结果。表1中，分割mmAP为实例分割的掩码平均精度，检测mmAP为实例定位和分类任务的掩码平均精度；由于两个模型中，分类的方式没有变化，因此，表1中的数据对比可知，本实施例中的图像处理模型中的实例定位和实例分割任务的掩码平均精度相对于现有技术中的Mask R-CNN网络模型都有明显的提高。

表1

模型	分割mmAP	检测mmAP
			Mask R-CNN网络模型	34.4	37
本实施例中的图像处理模型	35.4	38.7

通常，全连接网络可以整合候选区域中全局的语义信息，但会损害到候选区域中的空间定位信息，因此图5中的模型将实例定位和分类通过同一网络实现，容易导致实例定位和分类相互冲突使得定位效果较差，准确性较低。相对于全连接网络，卷积网络对实例定位更加友好，卷积网络更适用于实例定位任务。基于此，本实施例中考虑到实例分割和实例定位均存在对物体边缘特征的依赖，通过同一个卷积网络实现实例分割和实例定位，并使用损失函数监督模型对于实例分割和实例定位的性能，使实例分割和实例定位任务能够相互促进，进而提高实例定位和实例分割的准确度。

上述图像处理模型的训练方法，通过预设的特征提取网络和区域候选网络获取到目标训练图像的候选区域后，通过卷积网络对候选区域进行实例定位和实例分割，得到包含有实例的定位区域和分割区域；再通过全连接网络对候选区域进行分类，得到候选区域的分类结果；进而根据定位损失值、分割损失值和分类损失值对上述特征提取网络、区域候选网络、定位分割网络和分类网络进行训练，直至各损失值均收敛，得到图像处理模型。该方式中，实例定位和实例分割采用同一个分支网络实现，使得实例定位和实例分割能够共享特征信息并相互促进，有利于提高实例定位和实例分割的准确度，进而提高了实例定位、分割和分类整体的准确度。

实施例五：

对应于上述实施例中提供的图像处理模型的训练方法，本实施例提供了一种图像处理方法，该方法应用于配置有图像处理模型的设备；该图像处理模型为上述实施例训练得到的图像处理模型；如图6所示，该方法包括如下步骤：

步骤S602，获取待处理图像；

步骤S604，将待处理图像输入至图像处理模型中，输出待处理图像中各个实例的定位区域、分割区域和分类结果。

基于上述图像处理方法，本实施例还提供一种具体的应用场景，即在自动驾驶的场景下，上述待处理图像的步骤，具体可以通过车辆的摄像装置采集得到；上述图像处理模型可以配置在车辆的中控系统中，摄像装置采集到待处理图像后，中控系统将该待处理图像输入至图像处理模型中，输出该待处理图像中各个实例的定位区域、分割区域和分类结果，例如，驾驶线、交通指示牌、交通灯等实例，根据这些实例的定位区域、分割区域和分类结果，中控系统即可分析出当前驾驶路况，出从而生成对应的驾驶命令，以使车辆根据驾驶命令进行自动驾驶。

上述图像处理方法，使用的图像处理模型中实例定位和实例分割采用同一个分支网络实现，使得实例定位和实例分割能够共享特征信息并相互促进，有利于提高实例定位和实例分割的准确度，进而提高了实例定位、分割和分类整体的准确度。

实施例六：

对应于上述方法实施例，参见图7所示的一种图像处理模型的训练装置的结构示意图，该装置包括：

区域获取模块70，用于通过预设的特征提取网络和区域候选网络获取目标训练图像的候选区域；

定位分割模块71，用于通过预设的定位分割网络对候选区域进行实例定位和实例分割，并计算实例定位和实例分割的损失值，得到包含有实例的定位区域、分割区域、定位损失值和分割损失值；

分类模块72，用于通过预设的分类网络对候选区域进行分类，并计算分类的损失值，得到候选区域的分类结果和分类损失值；

训练模块73，用于根据定位损失值、分割损失值和分类损失值对特征提取网络、区域候选网络、定位分割网络和分类网络进行训练，直至定位损失值、分割损失值和分类损失值均收敛，得到图像处理模型。

上述图像处理模型的训练装置，通过预设的特征提取网络和区域候选网络获取到目标训练图像的候选区域后，通过定位分割网络对候选区域进行实例定位和实例分割并计算对应的损失值，得到包含有实例的定位区域和分割区域；再通过分类网络对候选区域进行分类并计算对应的损失值，得到候选区域的分类结果；进而根据定位损失值、分割损失值和分类损失值对上述特征提取网络、区域候选网络定位分割网络和分类网络进行训练，直至各损失值均收敛，得到图像处理模型。该方式中，实例定位和实例分割采用同一个分支网络实现，使得实例定位和实例分割能够共享特征信息并相互促进，有利于提高实例定位和实例分割的准确度，进而提高了实例定位、分割和分类整体的准确度。

进一步地，上述定位分割网络包括卷积网络；分类网络包括全连接网络。

进一步地，上述区域获取模块，还用于：通过预设的特征提取网络对目标训练图像进行特征提取处理，得到目标训练图像的初始特征图；对初始特征图进行特征融合处理，得到融合特征图；通过预设的区域候选网络，从融合特征图中提取候选区域。

进一步地，上述定位分割模块，还用于：将候选区域的尺寸调整至与卷积网络相匹配的尺寸；通过卷积网络对调整后的候选区域进行实例检测处理和实例分割处理，得到包含有完整实例的定位区域和分割区域；定位区域通过检测框标识；分割区域通过颜色标识。

进一步地，上述目标训练图像中携带有各实例对应的定位标签和分割标签；上述定位分割模块，还用于：将定位区域、定位区域包含的实例对应的定位标签代入至预设的定位损失函数中，得到定位损失值；将分割区域、分割区域包含的实例对应的分割标签代入至预设的分割损失函数中，得到分割损失值。

进一步地，上述分类模块，还用于：将候选区域的尺寸调整至与全连接网络相匹配的尺寸；将调整后的候选区域输入至全连接网络中，输出候选区域的分类结果。

进一步地，上述目标训练图像中携带有各实例对应的分类标签；上述分类模块，还用于：将候选区域的分类结果、候选区域中包含的实例对应的分类标签代入至预设的分类损失函数中，得到分类损失值。

本实施例所提供的图像处理模型，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本实施例还提供一种图像处理装置，该装置设置于配置有图像处理模型的设备；该图像处理模型为上述图像处理模型的训练方法训练得到的图像处理模型；该装置包括：

图像获取模块，用于获取待处理图像；

图像输入模块，用于将待处理图像输入至图像处理模型中，输出待处理图像中各个实例的定位区域、分割区域和分类结果。

进一步地，上述图像获取模块，还用于：通过车辆的摄像装置采集待处理图像；

上述装置还包括：命令生成模块，用于根据所述定位区域、所述分割区域和所述分类结果生成驾驶命令，以使所述车辆根据所述驾驶命令进行自动驾驶。

上述图像处理装置，使用的图像处理模型中实例定位和实例分割采用同一个分支网络实现，使得实例定位和实例分割能够共享特征信息并相互促进，有利于提高实例定位和实例分割的准确度，进而提高了实例定位、分割和分类整体的准确度。

实施例七：

本发明实施例提供了一种电子系统，该电子系统包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取预览视频帧或图像数据；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行上述如图像处理模型的训练方法，或者执行上述如图像处理方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步地，本实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行上述如图像处理模型的训练方法，或者执行上述如图像处理方法。

本发明实施例所提供的一种图像处理方法及其模型的训练方法、装置和电子系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像处理模型的训练方法，其特征在于，包括：

通过预设的特征提取网络和区域候选网络获取目标训练图像的候选区域；其中，所述目标训练图像中包含多种实例，每种实例具有多个；

通过预设的定位分割网络对所述候选区域进行实例定位和实例分割，并计算所述实例定位和所述实例分割的损失值，得到包含有实例的定位区域、分割区域、定位损失值和分割损失值；

通过预设的分类网络对所述候选区域进行分类，并计算所述分类的损失值，得到所述候选区域的分类结果和分类损失值；

根据所述定位损失值、所述分割损失值和所述分类损失值对所述特征提取网络、所述区域候选网络、所述定位分割网络和所述分类网络进行训练，直至所述定位损失值、所述分割损失值和所述分类损失值均收敛，得到图像处理模型；

所述通过预设的特征提取网络和区域候选网络获取目标训练图像的候选区域的步骤，包括：

通过预设的特征提取网络对目标训练图像进行特征提取处理，得到所述目标训练图像的初始特征图；对所述初始特征图进行特征融合处理，得到融合特征图；通过预设的区域候选网络，从所述融合特征图中提取候选区域。

2.根据权利要求1所述的方法，其特征在于，所述定位分割网络包括卷积网络；所述分类网络包括全连接网络。

3.根据权利要求2所述的方法，其特征在于，通过预设的定位分割网络对所述候选区域进行实例定位和实例分割的步骤，包括：

将所述候选区域的尺寸调整至与所述卷积网络相匹配的尺寸；

通过所述卷积网络对调整后的所述候选区域进行实例检测处理和实例分割处理，得到包含有完整实例的定位区域和分割区域；所述定位区域通过检测框标识；所述分割区域通过颜色标识。

4.根据权利要求3所述的方法，其特征在于，所述目标训练图像中携带有各实例对应的定位标签和分割标签；

所述计算所述实例定位和所述实例分割的损失值的步骤，包括：将所述定位区域、所述定位区域包含的实例对应的定位标签代入至预设的定位损失函数中，得到定位损失值；

将所述分割区域、所述分割区域包含的实例对应的分割标签代入至预设的分割损失函数中，得到分割损失值。

5.根据权利要求2所述的方法，其特征在于，通过预设的分类网络对所述候选区域进行分类的步骤，包括：

将所述候选区域的尺寸调整至与所述全连接网络相匹配的尺寸；

将调整后的所述候选区域输入至所述全连接网络中，输出所述候选区域的分类结果。

6.根据权利要求5所述的方法，其特征在于，所述目标训练图像中携带有各实例对应的分类标签；

所述计算所述分类的损失值的步骤，包括：将所述候选区域的分类结果、所述候选区域中包含的实例对应的分类标签代入至预设的分类损失函数中，得到分类损失值。

7.一种图像处理方法，其特征在于，所述方法应用于配置有图像处理模型的设备；所述图像处理模型为权利要求1至6任一项所述方法训练得到的图像处理模型；所述方法包括：

获取待处理图像；

将所述待处理图像输入至所述图像处理模型中，输出所述待处理图像中各个实例的定位区域、分割区域和分类结果。

8.根据权利要求7所述的方法，其特征在于，获取待处理图像的步骤，包括：通过车辆的摄像装置采集待处理图像；

输出所述待处理图像中各个实例的定位区域、分割区域和分类结果的步骤之后，所述方法还包括：根据所述定位区域、所述分割区域和所述分类结果生成驾驶命令，以使所述车辆根据所述驾驶命令进行自动驾驶。

9.一种图像处理模型的训练装置，其特征在于，包括：

区域获取模块，用于通过预设的特征提取网络和区域候选网络获取目标训练图像的候选区域；其中，所述目标训练图像中包含多种实例，每种实例具有多个；

定位分割模块，用于通过预设的定位分割网络对所述候选区域进行实例定位和实例分割，并计算所述实例定位和所述实例分割的损失值，得到包含有实例的定位区域、分割区域、定位损失值和分割损失值；

分类模块，用于通过预设的分类网络对所述候选区域进行分类，并计算所述分类的损失值，得到所述候选区域的分类结果和分类损失值；

训练模块，用于根据所述定位损失值、所述分割损失值和所述分类损失值对所述特征提取网络、所述区域候选网络、所述定位分割网络和所述分类网络进行训练，直至所述定位损失值、所述分割损失值和所述分类损失值均收敛，得到图像处理模型；

所述区域获取模块还用于：通过预设的特征提取网络对目标训练图像进行特征提取处理，得到所述目标训练图像的初始特征图；对所述初始特征图进行特征融合处理，得到融合特征图；通过预设的区域候选网络，从所述融合特征图中提取候选区域。

10.一种图像处理装置，其特征在于，所述装置设置于配置有图像处理模型的设备；所述图像处理模型为权利要求1至6任一项所述方法训练得到的图像处理模型；所述装置包括：

图像获取模块，用于获取待处理图像；

图像输入模块，用于将所述待处理图像输入至所述图像处理模型中，输出所述待处理图像中各个实例的定位区域、分割区域和分类结果。

11.一种电子系统，其特征在于，所述电子系统包括：图像采集设备、处理设备和存储装置；

所述图像采集设备，用于获取预览视频帧或图像数据；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理设备运行时执行如权利要求1至6任一项所述的方法，或者执行如权利要求7或8所述的方法。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理设备运行时执行如权利要求1至6任一项所述的方法，或者执行如权利要求7或8所述的方法的步骤。