CN112101477A

CN112101477A - 目标检测方法及装置、电子设备、存储介质

Info

Publication number: CN112101477A
Application number: CN202011013573.XA
Authority: CN
Inventors: 秦永强; 高达辉
Original assignee: Innovation Qizhi Xi'an Technology Co ltd
Current assignee: Innovation Qizhi Xi'an Technology Co ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-18

Abstract

本申请提供一种目标检测方法及装置、电子设备、计算机可读存储介质，方法包括：将待识别图像输入已训练的特征提取网络，获得特征提取网络中检测特征提取网络输出的第一图像特征，以及特征提取网络中分类特征提取网络输出的第二图像特征；将第一图像特征和第二图像特征输入加权融合网络，获得第一图像特征和第二图像特征加权融合得到的检测图像特征和分类图像特征；将检测图像特征输入已训练的检测网络，获得检测网络输出的待识别图像中目标的位置信息；将分类图像特征和位置信息输入已训练的分类网络，获得分类网络输出的与位置信息对应的类别信息。本申请中，由于不存在特征冲突的问题，可以获得更准确的目标的位置信息和类别信息。

Description

目标检测方法及装置、电子设备、存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种目标检测方法及装置、电子设备、计算机可读存储介质。

背景技术

基于计算机视觉技术的目标检测算法可以分为两阶段(two-stage)算法和一阶段(one-stage)算法，前者有R-CNN(Region-based Convolutional Neural Networks，区域卷积神经网络)、Fast R-CNN(Fast Region-based Convolutional Neural Networks，快的区域卷积神经网络)等算法，后者有YOLO(You Only Look Once)、SSD(Single Shot MultiBoxDetector，单镜头多盒探测器)等算法。目标检测算法有检测图像中目标所在位置和识别目标类别两个任务。检测任务和分类任务所关注的信息存在差异，检测任务为了实现定位的准确性，通常更加关注图像上物体的边缘、形状等有助于定位的信息；分类任务为了区分不同类别的物体，通常更加关注图像上物体内部的纹理、图案等细节信息以及具有空间不变性的高层语义信息。

在两阶段算法中，由于检测任务和分类任务分别从图像中提取图像特征，不存在特征冲突的问题。然而，对于一阶段算法而言，由于检测任务和分类任务共享特征提取网络，在训练时，特征提取网络同时受检测任务训练分支和分类任务训练分支的控制，被要求按照各自最优方向改进。由于两个任务关注的信息存在差异，势必导致特征提取网络停留在一个折中的位置，无法充分发挥为检测任务和分类任务提取图像特征的性能。

相比两阶段算法而言，一阶段算法的运算量更小，因此被广泛应用于硬件性能较低或者对运行速度要求较高的场所。如果解决特征冲突的问题，可以极大地提高一阶段算法的目标检测效果。

发明内容

本申请实施例的目的在于提供一种目标检测方法及装置、电子设备、计算机可读存储介质，用于解决一阶段算法由于特征冲突而影响目标检测性能的问题。

一方面，本申请提供了一种目标检测方法，包括：

将待识别图像输入已训练的特征提取网络，获得所述特征提取网络中检测特征提取网络输出的第一图像特征，以及所述特征提取网络中分类特征提取网络输出的第二图像特征；

将所述第一图像特征和所述第二图像特征输入加权融合网络，获得所述第一图像特征和所述第二图像特征加权融合得到的检测图像特征和分类图像特征；

将所述检测图像特征输入已训练的检测网络，获得所述检测网络输出的所述待识别图像中目标的位置信息；

将所述分类图像特征和所述位置信息输入已训练的分类网络，获得所述分类网络输出的与所述位置信息对应的类别信息。

在一实施例中，所述特征提取网络包括低层特征提取网络、所述检测特征提取网络和所述分类特征提取网络；

所述将待识别图像输入已训练的特征提取网络，获得所述特征提取网络中检测特征提取网络输出的第一图像特征，以及所述特征提取网络中分类特征提取网络输出的第二图像特征，包括：

将所述待识别图像输入所述低层特征提取网络，获得所述低层特征提取网络输出的低层图像特征；

将所述低层图像特征分别输入所述检测特征提取网络和所述分类特征提取网络，获得所述第一图像特征和所述第二图像特征。

在一实施例中，所述将所述第一图像特征和所述第二图像特征输入加权融合网络，获得所述第一图像特征和所述第二图像特征加权融合得到的检测图像特征和分类图像特征，包括：

分别对所述第一图像特征和所述第二图像特征在通道方向上进行压缩和卷积计算，获得对应于所述第一图像特征的第一单通道图像特征，以及对应于所述第二图像特征的第二单通道图像特征；

基于所述加权融合网络中激活函数分别对所述第一单通道图像特征和所述第二单通道图像特征进行计算，获得对应于所述第一图像特征的第一权值因子，以及对应于所述第二图像特征的第二权值因子；

将与所述第一权值因子相乘的所述第一图像特征，与所述第二图像特征进行融合，得到所述分类图像特征；

将与所述第二权值因子相乘的所述第二图像特征，与所述第一图像特征进行融合，得到所述检测图像特征。

对所述第一图像特征和所述第二图像特征分别进行卷积计算，获得对应于所述第一图像特征的第三图像特征，以及对应于所述第二图像特征的第四图像特征；

基于所述加权融合网络中激活函数分别对所述第三图像特征和所述第四图像特征进行计算，获得对应于所述第一图像特征的第三权值因子，以及对应于所述第二图像特征的第四权值因子；

将与所述第三权值因子相乘的所述第一图像特征，与所述第二图像特征进行融合，得到所述分类图像特征；

将与所述第四权值因子相乘的所述第二图像特征，与所述第一图像特征进行融合，得到所述检测图像特征。

将与预设第五权值因子相乘的所述第一图像特征，与所述第二图像特征进行融合，得到所述分类图像特征；

将与预设第六权值因子相乘的所述第二图像特征，与所述第一图像特征进行融合，得到所述检测图像特征。

分别对所述第一图像特征和所述第二图像特征在通道方向上进行压缩和卷积，获得对应于所述第一图像特征的第一单通道图像特征，以及对应于所述第二图像特征的第二单通道图像；

分别计算所述第一权值因子中像素值的平均数和所述第二权值因子中像素值的平均数，获得对应于所述第一图像特征的第七权值因子，以及对应于所述第二图像特征的第八权值因子；

将与所述第七权值因子相乘的所述第一图像特征，与所述第二图像特征进行融合，得到所述分类图像特征；

将与所述第八权值因子相乘的所述第二图像特征，与所述第一图像特征进行融合，得到所述检测图像特征。

在一实施例中，在将所述待识别图像输入所述特征提取网络之前，所述方法还包括：

将预设样本数据集中样本图像输入目标检测网络，获得所述目标检测网络输出的预测类别信息和预测位置信息；其中，所述样本图像携带标签，所述标签包括实际类别信息和实际位置信息，所述目标检测网络包括所述特征提取网络、所述加权融合网络、所述检测网络和所述分类网络；

基于所述预测类别信息和所述实际类别信息之间的差异，以及所述预测位置信息和所述实际位置信息之间的差异，对所述目标检测网络的网络参数进行调整；

重复上述过程，直至所述目标检测网络收敛。

另一方面，本申请还提供了一种目标检测装置，包括：

提取模块，用于将待识别图像输入已训练的特征提取网络，获得所述特征提取网络中检测特征提取网络输出的第一图像特征，以及所述特征提取网络中分类特征提取网络输出的第二图像特征；

融合模块，用于将所述第一图像特征和所述第二图像特征输入加权融合网络，获得所述第一图像特征和所述第二图像特征加权融合得到的检测图像特征和分类图像特征；

检测模块，用于将所述检测图像特征输入已训练的检测网络，获得所述检测网络输出的所述待识别图像中目标的位置信息；

分类模块，用于将所述分类图像特征和所述位置信息输入已训练的分类网络，获得所述分类网络输出的与所述位置信息对应的类别信息。

进一步的，本申请还提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述目标检测方法。

另外，本申请还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述目标检测方法。

在本申请实施例中，特征提取网络包括关注用于检测任务的信息的检测特征提取网络、关注用于分类任务的信息的分类特征提取网络，检测特征提取网络和分类特征提取网络分别从待识别图像中提取到第一图像特征和第二图像特征后，经过加权融合，获得专用于检测任务的检测图像特征和专用于分类任务的分类图像特征；

由于不存在特征冲突的问题，这种一阶段算法可以获得更准确的目标的位置信息和类别信息。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请一实施例提供的目标检测方法的应用场景示意图；

图2为本申请一实施例提供的电子设备的结构示意图；

图3为本申请一实施例提供的目标检测网络的结构示意图；

图4为本申请一实施例提供的目标检测方法的流程示意图；

图5为本申请一实施例提供的检测分类的示意图；

图6为本申请一实施例提供的加权方法的流程示意图；

图7为本申请一实施例提供的加权流程示意图；

图8为本申请又一实施例提供的加权方法的流程示意图；

图9为本申请又一实施例提供的加权流程示意图；

图10为本申请另一实施例提供的加权方法的流程示意图；

图11为本申请又一实施例提供的加权方法的流程示意图；

图12为本申请一实施例提供的目标检测网络的训练方法的流程示意图；

图13为本申请一实施例提供的目标检测装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1为本申请实施例提供的目标检测方法的应用场景示意图。如图1所示，该应用场景包括服务端30和客户端20，客户端20可以是包含网络摄像机、与摄像机对接的主机，可向服务端30发送待识别图像；服务端30可以是服务器、服务器集群或者云计算中心，服务端30可以在接收到待识别图像后，对待识别图像中的目标进行识别。

如图2所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图2中以一个处理器11为例。处理器11和存储器12通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中，电子设备1可以是上述服务端30。

存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序可由处理器11执行以完成本申请提供的目标检测方法。

参见图3，为本申请一实施例提供的目标检测网络的结构示意图，如图3所示，目标检测网络可以包括特征提取网络、加权融合网络、检测网络和分类网络。

特征提取网络可以包括低层特征提取网络、检测特征提取网络和分类特征提取网络。服务端将待识别图像输入特征提取网络后，首先通过低层特征提取网络，从待识别图像中提取得到低层图像特征，并通过并联的检测特征提取网络和分类特征提取网络，分别从低层图像特征中提取到第一图像特征和第二图像特征。

服务端通过加权融合网络中的第一门控模块，将第一图像特征进行加权处理，并将加权后的第一图像特征与第二图像特征进行融合(图3中contact表示直接在通道方向连接两个图像特征)，获得分类图像特征。服务端通过加权融合网络中的第二门控模块，将第二图像特征进行加权处理，并将加权后的第二图像特征与第一图像特征进行融合，获得检测图像特征。

服务端将检测图像特征交由检测网络、将分类图像特征交由分类网络，从而获得包括目标的位置信息和类别信息的目标检测结果。

参见图4，为本申请一实施例提供的目标检测方法的流程示意图，如图4所示，该方法可以包括以下步骤410-步骤440。

步骤410：将待识别图像输入已训练的特征提取网络，获得特征提取网络中检测特征提取网络输出的第一图像特征，以及特征提取网络中分类特征提取网络输出的第二图像特征。

其中，待识别图像是接受目标检测的图像，待识别图像中可能存在目标。待识别图像可以由与服务端连接的客户端上传，或者，可以预先存储在服务端内存中。待识别图像中的目标视具体应用场景而定，示例性的，在对分销场所进行商品识别时，目标为多种类别的商品。

特征提取网络用于从待识别图像中提取图像特征。特征提取网络包括并联的检测特征提取网络和分类特征提取网络，检测特征提取网络更关注待识别图像上目标的边缘、形状等有助于定位的信息；分类特征提取网络更关注待识别图像上目标内部的纹理、图案等信息以及具有空间不变性的高层语义信息。特征提取网络可以采用已有的开源CNN(Convolutional Neural Networks，卷积神经网络)网络的网络层搭建得到；检测特征提取网络和分类特征提取网络可以采用相同的网络结构，也可以采用不同的网络结构。

第一图像特征是检测特征提取网络提取得到的图像特征，包含较多有助于定位的信息。第二图像特征是分类特征提取网络提取得到的图像特征，包含较多有助于分类的信息。

步骤420：将第一图像特征和第二图像特征输入加权融合网络，获得第一图像特征和第二图像特征加权融合得到的检测图像特征和分类图像特征。

加权融合网络用于对第一图像特征和第二图像特征执行加权融合，从而得到检测图像特征和分类图像特征。检测图像特征被用于实现识别目标在待识别图像中的位置信息。分类图像特征被用于实现识别目标在待识别图像中的类别信息。

经过加权融合得到的检测图像特征中，第一图像特征的权重大于第二图像特征的权重。经过加权融合得到的分类图像特征中，第二图像特征的权重大于第一图像特征的权重。

步骤430：将检测图像特征输入已训练的检测网络，获得检测网络输出的待识别图像中目标的位置信息。

步骤440：将分类图像特征和位置信息输入已训练的分类网络，获得分类网络输出的与位置信息对应的类别信息。

检测网络可以基于检测图像特征，计算出待识别图像中目标的位置信息。检测网络与现有一阶段算法YOLO、SSD的定位方式类似，对待识别图像划分出多个网格后，基于同样划分出多个网格的检测图像特征，针对每一网格预测中心点位于该网格内的目标。预测结果为目标中心点的坐标，以及包含目标的边界框的宽度和高度。其中，目标中心点坐标可以是以待识别图像建立的图像坐标系内相对于中心点所在网格的左上角顶点的相对坐标。

服务端可以将检测网络输出的预测结果作为待识别图像中目标的位置信息，并将上述位置信息和分类图像特征输入分类网络。分类网络可以基于位置信息和分类图像特征，判断待识别图像上位置信息对应的区域是否为前景(换而言之，该区域是否存在目标)，以及位置信息对应区域的目标的类别信息。

分类网络可以针对位置信息对应的边界框输出置信度，该置信度表示边界框内区域属于前景的概率。当置信度达到预设第一置信度阈值时，可以认定位置信息对应的边界框内区域属于前景，此时，可以根据目标的类别信息确定目标所属类别。当置信度未达到第一置信度阈值，可以认定位置信息对应的边界框内区域属于背景，此时，可以认定目标的类别信息无效。

参见图5，为本申请一实施例提供的检测分类的示意图，如图5所示，检测图像特征和分类图像特征被输入检测网络和分类网络后，被划分出多个网格，检测网络可以针对每一网格预测中心点位于网格内目标，预测结果(x，y)为中心点坐标，w为边界框的宽度，h为边界框的高度。分类网络的预测结果包括边界框的置信度(图中的objectness)和目标的类别信息(图中的prob_class)。

在一实施例中，特征提取网络可以包括低层特征提取网络、检测特征提取网络和分类提取网络。低层特征提取网络用于从待识别图像中提取低层高分辨率的共性特征，共性特征可以包括边缘、纹理等信息。

服务端在执行提取图像特征的步骤时，可以将待识别图像输入低层特征提取网络，获得低层特征提取网络输出低层图像特征。服务端可以将低层图像特征分别输入检测特征提取网络和分类特征提取网络，通过检测特征提取网络对低层图像特征进行处理，获得第一图像特征；通过分类特征提取网络对低层图像特征进行处理，获得第二图像特征。

通过该实施例的措施，可以降低并联的检测特征提取网络和分类特征提取网络提取共性特征时的计算量，提高特征提取的效率。

在一实施例中，参见图6，为本申请一实施例提供的加权方法的流程示意图，如图6所示，服务端在执行步骤420的加权融合过程时，可以执行以下步骤421A-步骤424A。

步骤421A：分别对第一图像特征和第二图像特征在通道方向上进行压缩和卷积计算，获得对应于第一图像特征的第一单通道图像特征，以及对应于第二图像特征的第二单通道图像特征。

第一图像特征和第二图像特征均为多通道的图像特征。服务端可以将第一图像特征在通道方向上进行压缩。示例性的，服务端可以将通道方向上对第一图像特征进行平均池化(average pooling)和最大池化(max pooling)，从而得到两个单通道图像特征。

如果以W*H*D表示第一图像特征的尺寸，W为每一通道图像特征在宽度方向上的像素数量，H为每一通道图像特征在高度方向上的像素数量，D为第一图像特征的通道数。在进行平均池化时，针对每一通道图像特征在任一位置的像素，计算像素值的平均数，从而获得平均池化后的单通道图像特征。该单通道图像特征的尺寸为W*H*1。比如：针对每一通道图像特征第一行第一列的像素计算像素值的平均值，获得平均池化后的单通道图像特征在第一行第一列像素的像素值；计算出所有像素在通道方向上的像素值平均数后，获得平均池化后的单通道图像特征。

在进行最大池化时，针对每一通道图像特征在任一位置的像素，选择最大的像素值，从而获得最大池化后的单通道图像特征。该单通道图像特征的尺寸为W*H*1。比如：从每一通道图像特征第一行第一列的像素中选择最大的像素值，作为最大池化后的单通道图像特征在第一行第一列像素的像素值。在选择出所有像素在通道方向上的最大像素值后，获得最大池化后的单通道图像特征。

从第一图像特征压缩得到上述两个单通道图像特征后，服务端可以基于加权融合网络中预设的卷积层，对叠加在一起的两个单通道图像特征进行卷积计算，从而得到对应于第一图像特征的第一单通道图像特征。该第一单通道图像特征的尺寸为W*H*1。

服务端可以对第二图像特征执行相同的操作，从而获得对应于第二图像特征的第二单通道图像特征。

步骤422A：基于加权融合网络中激活函数分别对第一单通道图像特征和第二单通道图像特征进行计算，获得对应于第一图像特征的第一权值因子，以及对应于第二图像特征的第二权值因子。

激活函数可以是Sigmoid函数，该函数的值域在0到1之间，可以将输入的任意数值映射到0到1之间的数值。

第一权值因子与第一单通道图像特征的尺寸相同，且第一权值因子中每一像素对应于第一单通道图像特征中同位置的像素。第二权值因子与第二单通道图像特征的尺寸相同，且第二权值因子中每一像素对应于第二单通道图像特征中同位置的像素。

服务端可以将第一单通道图像特征中每一像素值输入激活函数，获得第一权值因子中同位置像素的像素值。在根据激活函数对尺寸为W*H*1的第一单通道图像特征的每一像素值进行计算后，可以获得尺寸为W*H*1的第一权值因子。

服务端可以将第二单通道图像特征中每一像素值输入激活函数，获得第二权值因子中同位置像素的像素值。在根据激活函数对尺寸为W*H*1的第二单通道图像特征的每一像素值进行计算后，可以获得尺寸为W*H*1的第二权值因子。

步骤423A：将与第一权值因子相乘的第一图像特征，与第二图像特征进行融合，得到分类图像特征。

服务端可以将第一权值因子与第一图像特征相乘。第一权值因子与第一图像特征的每一通道图像特征的尺寸相同，可以认为第一权值因子中每一像素的像素值是各通道图像特征同位置像素的权值。针对第一图像特征中每一通道图像特征，服务端可以将第一权值因子与这一通道图像特征相乘。换而言之，针对每一通道图像特征的每一像素，服务端将该像素在第一权值因子中对应像素的像素值，与该像素的像素值相乘。第一图像特征中每一通道图像特征经第一权值因子相乘后，得到加权后的第一图像特征。加权后的第一图像特征的尺寸未发生变化。

服务端可以将加权后的第一图像特征与第二图像特征进行融合，得到分类图像特征。示例性的，服务端可以直接在通道方向上连接第二图像特征和加权后的第一图像特征。在这种情况下，两个尺寸为W*H*D的图像特征在通道方向连接后，得到W*H*2D的分类图像特征。示例性的，服务端可以通过预设卷积层分别对第二图像特征和加权后的第一图像特征进行卷积计算，并将卷积计算后的两个图像特征在通道方向上进行连接。在这种情况下，经过卷积计算后两个图像特征的尺寸可能发生变化。

步骤424A：将与第二权值因子相乘的第二图像特征，与第一图像特征进行融合，得到检测图像特征。

服务端可以将第二权值因子与第二图像特征相乘。第二权值因子与第二图像特征的每一通道图像特征的尺度相同，可以认为第二权值因子中每一像素的像素值是各通道图像特征同位置像素的权值。针对第二图像特征中每一通道图像特征，服务端可以将第二权值因子与这一通道图像特征相乘。换而言之，针对每一通道图像特征的每一像素，服务端将该像素在第二权值因子中对应像素的像素值，与该像素的像素值相乘。第二图像特征中每一通道图像特征经第二权值因子相乘后，得到加权后的第二图像特征。加权后的第二图像特征的尺寸未发生变化。

服务端可以将加权后的第二图像特征与第一图像特征进行融合，得到检测图像特征。示例性的，服务端可以直接在通道方向上连接第一图像特征和加权后的第二图像特征。在这种情况下，两个尺寸为W*H*D的图像特征在通道方向连接后，得到W*H*2D的检测图像特征。示例性的，服务端可以通过预设卷积层分别对第一图像特征和加权后的第二图像特征进行卷积计算，并将卷积计算后的两个图像特征在通道方向上进行连接。在这种情况下，经过卷积计算后两个图像特征的尺寸可能发生变化。

参见图7，为本申请一实施例提供的加权流程示意图，该加权流程是在图3中门控模块内执行。服务端可以将第一图像特征或第二图像特征在通道方向上进行平均池化和最大池化，获得两个单通道图像特征。连接这两个单通道图像特征后，进行卷积计算，得到与第一图像特征对应的第一单通道图像特征，或者，与第二图像特征对应的第二单通道图像特征。

服务端根据sigmoid函数对第一单通道图像特征中每一像素值进行计算后，获得第一权值因子，利用第一权值因子对第一图像特征进行加权处理，获得加权后的第一图像特征。服务端根据sigmoid函数对第二单通道图像特征中每一像素值进行计算后，获得第二权值因子，利用第二权值因子对第二图像特征进行加权处理，获得加权后的第二图像特征。

在一实施例中，参见图8，为本申请又一实施例提供的加权方法的流程示意图，服务端在执行步骤420的加权融合过程时，可以执行以下步骤421B-步骤424B。

421B：对第一图像特征和第二图像特征分别进行卷积计算，获得对应于第一图像特征的第三图像特征，以及对应于第二图像特征的第四图像特征。

服务端可以基于加权融合网络中预设的卷积层，对第一图像特征进行卷积计算，从而获得第三图像特征。该第三图像特征与第一图像特征的尺寸相同。

服务端可以基于加权融合网络中预设的卷积层，对第二图像特征进行卷积计算，从而获得第四图像特征。该第四图像特征与第一图像特征的尺寸相同。

422B：基于加权融合网络中激活函数分别对第三图像特征和第四图像特征进行计算，获得对应于第一图像特征的第三权值因子，以及对应于第二图像特征的第四权值因子。

第三权值因子与第一图像特征的尺寸相同，且第三权值因子中每一像素对应于第一图像特征中同位置的像素。第四权值因子与第二图像特征的尺寸相同，且第四权值因子中每一像素对应于第二图像特征中同位置的像素。

服务端可以将第一图像特征中每一像素值输入激活函数，获得第三权值因子中同位置像素的像素值。在根据激活函数对尺寸为W*H*D的第一图像特征的每一像素值进行计算后，可以获得尺寸为W*H*D的第三权值因子。

服务端可以将第二图像特征中每一像素值输入激活函数，获得第四权值因子中同位置像素的像素值。在根据激活函数对尺寸为W*H*D的第二图像特征的每一像素值进行计算后，可以获得尺寸为W*H*D的第四权值因子。

423B：将与第三权值因子相乘的第一图像特征，与第二图像特征进行融合，得到分类图像特征。

服务端可以将第三权值因子与第一图像特征相乘。第三权值因子与第一图像特征的尺寸相同，可以认为第三权值因子中每一像素的像素值是第一图像特征同位置像素的权值。针对第一图像特征的每一像素，服务端可以将该像素在第三权值因子中对应像素的像素值，与该像素的像素值相乘。第一图像特征经第三权值因子相乘后，得到加权后的第一图像特征。加权后的第一图像特征的尺寸未发生变化。

服务端可以将加权后的第一图像特征与第二图像特征进行融合，得到分类图像特征。示例性的，服务端可以直接在通道方向上连接第二图像特征和加权后的第一图像特征。示例性的，服务端可以通过预设卷积层分别对第二图像特征和加权后的第一图像特征进行卷积计算，并将卷积计算后的两个图像特征在通道方向上进行连接。

424B：将与第四权值因子相乘的第二图像特征，与第一图像特征进行融合，得到检测图像特征。

服务端可以将第四权值因子与第二图像特征相乘。第四权值因子与第二图像特征的尺寸相同，可以认为第四权值因子中每一像素的像素值是第二图像特征同位置像素的权值。针对第二图像特征的每一像素，服务端可以将该像素在第四权值因子中对应像素的像素值，与该像素的像素值相乘。第二图像特征经第四权值因子相乘后，得到加权后的第二图像特征。加权后的第二图像特征的尺寸未发生变化。

服务端可以将加权后的第二图像特征与第一图像特征进行融合，得到检测图像特征。示例性的，服务端可以直接在通道方向上连接第一图像特征和加权后的第二图像特征。示例性的，服务端可以通过预设卷积层分别对第一图像特征和加权后的第二图像特征进行卷积计算，并将卷积计算后的两个图像特征在通道方向上进行连接。

参见图9，为本申请又一实施例提供的加权流程示意图，该加权流程是在图3中门控模块内执行。服务端可以对第一图像特征进行卷积计算，获得与第一图像特征同尺寸的第三图像特征。或者，服务端可以对第二图像特征进行卷积计算，获得与第二图像特征同尺寸的第四图像特征。

服务端根据sigmoid函数对第三图像特征中每一像素值进行计算后，获得第三权值因子，利用该第三权值因子对第一图像特征进行加权处理，获得加权后的第一图像特征。服务端根据sigmoid函数对第四图像特征中每一像素值进行计算后，获得第四权值因子，利用该第四权值因子对第二图像特征进行加权处理，获得加权后的第二图像特征。

在一实施例中，参见图10，为本申请另一实施例提供的加权方法的流程示意图，如图10所示，服务端在执行步骤420的加权融合过程时，可以执行以下步骤421C-步骤422C。

步骤421C：将与预设第五权值因子相乘的第一图像特征，与第二图像特征进行融合，得到分类图像特征。

第五权值因子是一个数值，该数值在0到1之间，可以是预配置的经验值。

服务端可以将第五权值因子与第一图像特征中每一像素的像素值相乘，从而得到加权后的第一图像特征。

步骤422C：将与预设第六权值因子相乘的第二图像特征，与第一图像特征进行融合，得到检测图像特征。

第六权值因子是一个数值，该数值在0到1之间，可以是预配置的经验值。

服务端可以将第六权值因子与第二图像特征中每一像素的像素值相乘，从而得到加权后的第二图像特征。

在一实施例中，参见图11，为本申请又一实施例提供的加权方法的流程示意图，如图11所示，服务端在执行步骤420的加权融合过程时，可以执行以下步骤421D-步骤425D。

步骤421D：分别对第一图像特征和第二图像特征在通道方向上进行压缩和卷积，获得对应于第一图像特征的第一单通道图像特征，以及对应于第二图像特征的第二单通道图像。

步骤421D的执行过程与服务端执行前述步骤421A的过程相同，在此不再赘述。

步骤422D：基于加权融合网络中激活函数分别对第一单通道图像特征和第二单通道图像特征进行计算，获得对应于第一图像特征的第一权值因子，以及对应于第二图像特征的第二权值因子。

步骤422D的执行过程与服务端执行前述步骤422A的过程相同，在此不再赘述。

步骤423D：分别计算第一权值因子中像素值的平均数和第二权值因子中像素值的平均数，获得对应于第一图像特征的第七权值因子，以及对应于第二图像特征的第八权值因子。

第一权值因子的每一像素的像素值都在0到1之间，服务端计算第一权值因子所有像素值的平均数之后，可以得到对应于第一图像特征的第七权值因子。

第二权值因子的每一像素的像素值都在0到1之间，服务端计算第二权值因子所有像素值的平均数之后，可以得到对应于第二图像特征的第八权值因子。

步骤424D：将与第七权值因子相乘的第一图像特征，与第二图像特征进行融合，得到分类图像特征。

第七权值因子是一个数值。服务端可以将第七权值因子与第一图像特征中每一像素的像素值相乘，从而得到加权后的第一图像特征。服务端可以将加权后的第一图像特征与第二图像特征进行融合，得到分类图像特征。示例性的，服务端可以直接在通道方向上连接第二图像特征和加权后的第一图像特征。示例性的，服务端可以通过预设卷积层分别对第二图像特征和加权后的第一图像特征进行卷积计算，并将卷积计算后的两个图像特征在通道方向上进行连接。

步骤425D：将与第八权值因子相乘的第二图像特征，与第一图像特征进行融合，得到检测图像特征。

第八权值因子是一个数值。服务端可以将第八权值因子与第二图像特征中每一像素的像素值相乘，从而得到加权后的第二图像特征。服务端可以将加权后的第二图像特征与第一图像特征进行融合，得到检测图像特征。示例性的，服务端可以直接在通道方向上连接第一图像特征和加权后的第二图像特征。示例性的，服务端可以通过预设卷积层分别对第一图像特征和加权后的第二图像特征进行卷积计算，并将卷积计算后的两个图像特征在通道方向上进行连接。

在一实施例中，服务端在执行上述目标检测方法之前，首先可以训练得到目标检测网络。参见图12，为本申请一实施例提供的目标检测网络的训练方法的流程示意图，如图12所示，训练过程可以包括如下步骤401-步骤403。

步骤401：将预设样本数据集中样本图像输入目标检测网络，获得目标检测网络输出的预测类别信息和预测位置信息；其中，样本图像携带标签，标签包括实际类别信息和实际位置信息，目标检测网络包括特征提取网络、加权融合网络、检测网络和分类网络。

目标检测网络中，根据前述多种加权融合过程的差异，加权融合网络可以具有相应的网络结构。

样本数据集中样本图像的具体内容视目标检测实际应用场景而定。示例性的，样本图像可以是分销场所的场景图像，样本图像内包括多种类别的商品，且样本图像预先标注的标签指示了商品的实际类别信息和实际位置信息。

步骤402：基于预测类别信息和实际类别信息之间的差异，以及预测位置信息和实际位置信息之间的差异，对目标检测网络的网络参数进行调整。

步骤403：重复上述过程，直至目标检测网络收敛。

服务端可以基于预设的损失函数评估预测类别信息和实际类别信息之间的差异，以及预测位置信息和实际位置信息之间的差异，并依据评估结果调整目标检测网络的网络参数。这个过程反复迭代，直至损耗函数的函数值小于预设损失阈值，或者，训练次数达到预设次数阈值。

参见图13，为本申请一实施例提供的目标检测装置的框图，如图13所示，该框图可以包括：提取模块710、融合模块720、检测模块730、分类模块740。

提取模块710，用于将待识别图像输入已训练的特征提取网络，获得所述特征提取网络中检测特征提取网络输出的第一图像特征，以及所述特征提取网络中分类特征提取网络输出的第二图像特征。

融合模块720，用于将所述第一图像特征和所述第二图像特征输入加权融合网络，获得所述第一图像特征和所述第二图像特征加权融合得到的检测图像特征和分类图像特征。

检测模块730，用于将所述检测图像特征输入已训练的检测网络，获得所述检测网络输出的所述待识别图像中目标的位置信息。

分类模块740，用于将所述分类图像特征和所述位置信息输入已训练的分类网络，获得所述分类网络输出的与所述位置信息对应的类别信息。

上述装置中各个模块的功能和作用的实现过程具体详见上述目标检测方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述特征提取网络包括低层特征提取网络、所述检测特征提取网络和所述分类特征提取网络；

3.根据权利要求1所述的方法，其特征在于，所述将所述第一图像特征和所述第二图像特征输入加权融合网络，获得所述第一图像特征和所述第二图像特征加权融合得到的检测图像特征和分类图像特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述第一图像特征和所述第二图像特征输入加权融合网络，获得所述第一图像特征和所述第二图像特征加权融合得到的检测图像特征和分类图像特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述第一图像特征和所述第二图像特征输入加权融合网络，获得所述第一图像特征和所述第二图像特征加权融合得到的检测图像特征和分类图像特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述第一图像特征和所述第二图像特征输入加权融合网络，获得所述第一图像特征和所述第二图像特征加权融合得到的检测图像特征和分类图像特征，包括：

7.根据权利要求1所述的方法，其特征在于，在将所述待识别图像输入所述特征提取网络之前，所述方法还包括：

重复上述过程，直至所述目标检测网络收敛。

8.一种目标检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的目标检测方法。