CN112288074A

CN112288074A - 图像识别网络生成方法及装置、存储介质及电子设备

Info

Publication number: CN112288074A
Application number: CN202010789105.5A
Authority: CN
Inventors: 王亚昆; 周小三; 刘艺飞; 杜舒舒
Original assignee: Jingdong Allianz Property Insurance Co ltd
Current assignee: Jingdong Allianz Property Insurance Co ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2021-01-29

Abstract

本公开提供一种图像识别网络生成方法及装置、计算机可读存储介质及电子设备；涉及神经网络技术领域。所述方法包括：获取各原始图像及对应的标注文件，所述标注文件包括对所述原始图像的标注信息；依据所述标注信息得到所述原始图像的掩膜图像及类型标签，将所述原始图像、所述掩膜图像及所述类型标签作为训练数据，并基于所述训练数据对预搭建的神经网络进行训练，得到所述图像识别网络；其中，所述预搭建的神经网络的输出层包括所述原始图像的掩膜输出及类别输出。本公开在网络训练时，可以通过利用标注信息实现细粒度的检测分类，提高图像识别网络的准确度和泛化性能，还可以简化检测流程，提高效率。

Description

图像识别网络生成方法及装置、存储介质及电子设备

技术领域

本公开涉及神经网络技术领域，具体而言，涉及图像识别网络生成方法、图像识别网络生成装置、图像识别方法、图像识别装置、电子设备以及计算机可读存储介质。

背景技术

神经网络特有的非线性适应性信息处理能力克服了传统人工智能方法在处理直觉及非结构化信息等方面的缺陷，具有自适应、自组织和实时学习的特点，使得其在专家系统、模式识别、智能控制、组合优化、预测等领域得到了广泛的应用。

神经网络的训练对其应用有着重要的作用，适当的网络结构及训练算法可以得到准确度及泛化性能较好的神经网络，进而可以更好的完成对应的识别及分类等任务。

目前用于图像识别的神经网络存在信息利用不充分或检测流程繁琐等问题，因而，需要针对这一问题提供一种图像识别网络生成方法，该方法在进行网络训练时，既可以对标注信息充分利用，又可以保证端对端的检测，因而可以提高网络的准确度和泛化性能，且可以简化检测流程，提高检测效率。

上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例提供图像识别网络生成方法及装置、图像识别方法及装置、电子设备以及计算机可读存储介质，可以实现在进行网络训练时，既可以对标注信息充分利用，又可以保证端对端的检测，进而可以提高网络的准确度和泛化性能，简化检测流程，提高检测效率。

根据本公开的第一方面，提供一种图像识别网络生成方法，包括：

获取各原始图像及对应的标注文件，所述标注文件包括对所述原始图像的标注信息；

依据所述标注信息得到所述原始图像的掩膜图像及类型标签，将所述原始图像、所述掩膜图像及所述类型标签作为训练数据，并基于所述训练数据对预搭建的神经网络进行训练，得到所述图像识别网络；

其中，所述预搭建的神经网络的输出层包括所述原始图像的掩膜输出及类别输出。

在本公开的一种示例性实施例中，所述标注信息包括对所述原始图像的有效区域及类型进行的标注，所述有效区域包括待识别区域，所述待识别区域包含所述原始图像的类别特征。

在本公开的一种示例性实施例中，所述依据所述标注信息得到所述原始图像的掩膜图像，包括：

依据所述标注信息获取对所述有效区域及所述待识别区域的点标注，并基于所述点标注获取所述原始图像的掩膜图像。

在本公开的一种示例性实施例中，所述基于所述训练数据对预搭建的神经网络进行训练，得到所述图像识别网络，包括：

通过所述预搭建的神经网络的卷积层对所述原始图像进行特征提取，得到多个尺度特征图；

对各所述尺度特征图进行特征融合及归一化处理，得到所述原始图像的预测类别；

对各所述尺度特征图进行向上采样，得到与所述原始图像尺度相同的掩膜输出；

依据所述预测类别和所述类型标签，以及所述掩膜输出及所述掩膜图像对所述预搭建的神经网络进行参数迭代，直至得到所述图像识别网络。

在本公开的一种示例性实施例中，所述方法训练得到所述图像识别网络的主网络，所述图像识别网络还包括一个分类网络分支，所述得到所述原始图像的预测类别，包括：

通过所述分类网络分支的卷积层对所述原始图像进行特征提取，得到多个尺度特征图；

将所述分类网络分支得到的所述尺度特征图与所述主网络得到的所述尺度特征图进行特征融合及归一化处理，得到所述原始图像的预测类别。

在本公开的一种示例性实施例中，所述方法还包括：

裁剪所述预搭建的神经网络的掩膜输出及对应的掩膜预测分支；

将训练得到的参数迁移至裁剪后的神经网络，得到所述图像识别网络。

根据本公开的第二方面，提供一种图像识别方法，包括：

依据上述方法生成图像识别网络；

获取待识别图像并输入至所述图像识别网络，得到所述待识别图像的类别。

根据本公开的第三方面，提供一种图像识别网络生成装置，包括：

获取模块，用于获取各原始图像及对应的标注文件，所述标注文件包括对所述原始图像的标注信息；

生成模块，用于依据所述标注信息得到所述原始图像的掩膜图像及类型标签，将所述原始图像、所述掩膜图像及所述类型标签作为训练数据，并基于所述训练数据对预搭建的神经网络进行训练，得到所述图像识别网络；

根据本公开的第四方面，提供一种图像识别装置，包括：

网络生成模块，用于依据上述方法生成图像识别网络；

类型预测模块，获取待识别图像并输入至所述图像识别网络，得到所述待识别图像的类别。

根据本公开的第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述方法。

根据本公开的第六方面，提供一种电子设备，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述方法。

本公开示例性实施例可以具有以下部分或全部有益效果：

在本公开示例实施方式所提供的图像识别网络生成方法中，首先，获取各原始图像及对应的标注文件，标注文件包括对原始图像的标注信息；接着，依据标注信息得到原始图像对应的掩膜图像及类型标签，并将原始图像、掩膜图像及类型标签作为训练数据；最后，基于上述训练数据对预搭建的神经网络进行训练，得到图像识别网络，其中，上述预搭建的神经网络的输出层包括原始图像的掩膜输出及类别输出。一方面，本示例实施方式除了分类标签，还对原始图像的标注信息进行了利用，实现了对于信息的充分利用，进而可以提高图像分类的准确性，改善图像识别网络的泛化性能。另一方面，本公开通过上述标注信息得到原始图像的掩膜图像，并将该掩膜图像也作为训练数据，这使得模型训练的过程会更加关注标注区域，从而可以消除背景的影响，使得网络更加关注目标区域，改善对于细微目标的检测效果。同时，本公开所搭建的神经网络在充分利用标注信息的同时，还可以实现端到端的预测，简化了检测流程，进而提高了检测效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的一种图像识别网络生成方法及装置的示例性系统架构的示意图；

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本公开的一个实施例的图像识别网络生成方法的过程的流程图；

图4示意性示出了根据本公开的一个实施例的掩膜图像的示意图；

图5示意性示出了根据本公开的一个实施例的模型训练的过程的流程图；

图6示意性示出了根据本公开的一个实施例的图像识别方法的过程的流程图；

图7示意性示出了根据本公开的一个实施例的图像识别网络生成方法的具体应用场景示意图；

图8示意性示出了根据本公开的一个实施例的图像识别网络生成方法的具体应用场景的流程示意图；

图9示意性示出了根据本公开的一个实施例的图像识别网络生成装置的框图；

图10示意性示出了根据本公开的一个实施例的图像识别装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种图像识别网络生成方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的图像识别网络生成方法可以由终端设备101、102、103执行，相应地，图像识别网络生成装置可以设置于终端设备101、102、103中。本公开实施例所提供的图像识别网络生成方法也可以由服务器105执行，相应地，图像识别网络生成装置可以设置于服务器105中。本公开实施例所提供的图像识别网络生成方法还可以由终端设备101、102、103与服务器105共同执行，相应地，图像识别网络生成装置可以设置于终端设备101、102、103与服务器105中，本示例性实施例中对此不做特殊限定。

例如，在本示例实施方式中，可以通过终端设备101、102、103获取各原始图像及对应的标注文件，该标注文件包括对原始图像的标注信息；接着，终端设备101、102、103可以将获取到的各原始图像及对应的标注文件通过网络104发送至服务器105；服务器105基于上述标注文件中的标注信息获取上述原始图像对应的掩膜图像及类型标签，将上述原始图像、掩膜图像及类型标签作为训练数据，并基于训练数据对预搭建的神经网络进行训练，得到图像识别网络，其中，预搭建的神经网络的输出层包括原始图像的掩膜输出及类别输出。

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从储存部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的储存部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入储存部分208。

图像作为信息的载体，具有更生动形象的表达效果。依据实际需求对图像进行处理是利用图像的关键，图像识别及分类则是其中重要的一部分。为了实现上述分类功能，发明人示例性地提出了以下方法：

第一种方法为基于传统的机器学习方法实现图像分类，由于图像主要的信息存在于图像的边缘处，该方法利用特征描述算法获取图像的特征，具体而言，可以通过对图像中边缘信息的提取和统计，将图像表示为一个特征矩阵，然后再将得到的特征矩阵送入机器学习模型中进行分类。但该方法存在以下问题：(1)对图像特征的提取不够全面，只能提取图像表层的边缘梯度信息；(2)针对复杂背景下的分类任务，模型的泛化能力较弱；(3)分类器的性能受训练样本的影响较大。

第二种方法为基于深度学习的方法实现图像分类。深度学习可以对图像特征进行更为深度有效的提取，因此也更能表达图像信息。然而，基于深度学习的方法在特征提取方面虽然有所改善，但其自身也存在一些问题。例如，在更为细粒度的分类任务中，无法进行有效特征的提取，导致分类的准确度较低。其中，细粒度分类任务是针对不同类别样本间差异较小的问题提出的，通常是某一个类别的子类，例如，不同的花卉。不同的花卉之间的差别较小，因此分类难度较大。

具体而言，针对细粒度分类任务，发明人进一步提出了基于弱监督和基于强监督两种不同的基于深度学习的图像分类方法。

基于弱监督的方式只使用数据的分类标签进行网络的训练，不使用标注点或标注框。该方法主要思想为通过改进网络模型的结构，来提高模型的识别准确度。但其存在的问题是无法使用到图像的标注信息，比如，标注框信息，区域标注信息等，从而导致对信息的使用不够充分，使得分类模型的准确度和泛化性能受到影响。

基于强监督的方式不仅使用数据的分类标签，还使用标注点或标注框进行分类，该方式的实现主要是两阶段的检测，通过区域推荐网络或者语义分割网络进行对应区域的分割，比如，鸟类的分类会先通过语义分割或者区域推荐网络将鸟的躯干和鸟头区域分割出来；然后，将分割的区域和原始图像一起送入到模型中进行分类。该方法虽然可以充分利用图像的相关信息，但检测流程较为繁琐，且不能实现端到端的检测。

为了解决上述方法中存在的问题，在本示例实施方式中，发明人提出了一种新的技术方案，以下对本公开实施例的技术方案进行详细阐述：

本示例实施方式首先提供了一种图像识别网络生成方法，该图像识别网络生成方法，如图3所示，具体包括以下步骤：

步骤S310：获取各原始图像及对应的标注文件，所述标注文件包括对所述原始图像的标注信息；

步骤S320：依据所述标注信息得到所述原始图像的掩膜图像及类型标签，将所述原始图像、所述掩膜图像及所述类型标签作为训练数据，并基于所述训练数据对预搭建的神经网络进行训练，得到所述图像识别网络；其中，所述预搭建的神经网络的输出层包括所述原始图像的掩膜输出及类别输出。

在公开示例实施方式所提供的图像识别网络生成方法中，一方面，本示例实施方式除了分类标签，还对原始图像的标注信息进行了利用，实现了对于信息的充分利用，进而可以提高图像分类的准确性，改善图像识别网络的泛化性能。另一方面，本公开通过上述标注信息得到原始图像的掩膜图像，并将该掩膜图像也作为训练数据，这使得模型训练的过程会更加关注标注区域，从而可以消除背景的影响，使得网络更加关注目标区域，改善对于细微目标的检测效果。同时，本公开所搭建的神经网络在充分利用标注信息的同时，还可以实现端到端的预测，简化了检测流程，进而提高了检测效率。

下面，在另一实施例中，对上述步骤进行更加详细的说明。

在步骤S310中，获取各原始图像及对应的标注文件，所述标注文件包括对所述原始图像的标注信息。

在本示例实施方式中，原始图像为用于进行网络训练的图像，通过对各原始图像的特征及类别进行学习，得到图像识别网络。该原始图像可以为任意符合上述定义的图像。举例而言，该原始图像可以为花卉图像、也可以为移动终端电子屏幕的图片，还可以为鸟类图片，本示例实施方式对此不做特殊限定。

本示例实施方式所提供的图像识别网络生成方法对不仅可以利用图像类别，还可以对其他标注信息进行充分利用，标注文件即为对上述原始图像进行相关信息的标注得到的文件。该标注文件可以在网络训练前由人工进行标注，所标注的信息为对网络训练有用的信息，也可以通过其他方式获取，本示例实施方式对此不做特殊限定。

上述标注文件包含的与原始图像相关的标注信息可以包括对原始图像的类别标注信息及有效区域标注信息。其中，类别标注信息用于标注原始图像所属的类别，可以采用标注框的形式标注出该类型信息。有效区域为包含原始图像待识别区域的部分，该待识别区域包含有用于区分图像类别的关键信息。上述有效区域标注信息可以包括对原始图像中该区域及其包含的待识别区域进行的标注，该标注可以采取点标注的方式。此外，标注信息还可以包括其他与图像识别相关的信息，这都属于本示例实施方式的保护范畴。

上述原始图像、有效区域及待识别区域之间的关联，以鸟类图片为例，假设所要训练的图像识别网络用于对某一类鸟进行更细类别的划分，该更细类别的不同取决于鸟颈部羽毛的颜色，则带有景色背景的图片为原始图片，例如，涓涓细流边的杨柳树中穿梭着的一只鸟，则该画面整体为原始图像，鸟的轮廓所构成的区域为有效区域，其中鸟的颈部则为待识别区域。需要说明的是，上述场景只是一种示例性说明，本示例实施方式的保护范畴并不以此为限。

在本示例实施方式中，可以将预先采集到的原始图像训练集输入至移动终端，并通过移动终端对训练中的每张原始图像进行标注，该标注可以包括依据类别为各原始图像进行的分类标注，还可以包括对上述有效区域及其包含的待识别区域进行的点标注，其中，待识别区域可以不止一个。例如，若训练集为手机碎屏数据集，则有效区域为原始图像中的手机区域，待识别区域为碎屏区域，碎屏区域可以为多个。需要说明的是，上述场景只是一种示例性说明，本示例实施方式的保护范畴并不以此为限。

在步骤S320中，依据所述标注信息得到所述原始图像的掩膜图像及类型标签，将所述原始图像、所述掩膜图像及所述类型标签作为训练数据，并基于所述训练数据对预搭建的神经网络进行训练，得到所述图像识别网络；其中，所述预搭建的神经网络的输出层包括所述原始图像的掩膜输出及类别输出。

在获取原始图像及标注文件后，本示例实施方式所提供的图像识别网络可以依据上述标注信息得到原始图像的掩膜图像及类型标签，并将上述原始图像和得到的原始图像对应的掩膜图像及类型标签作为训练数据。

上述掩膜图像为由0和1组成的二进制图像，可以用于提取感兴趣的区域。如图4所示，通过掩膜操作可以获取上方的原始图像转化为对应的掩膜图像，其中，白色区域为关注区域，黑色区域为无关的背景或干扰区域。在本示例实施方式中，获取原始图像对应的掩膜图像的实现，举例而言，可以如下：依据上述标注信息获取对有效区域及其包含的待识别区域的点标注，并基于获取到的点标注信息，经过掩膜操作得到原始图像的掩膜图像。需要说明的是，上述场景只是一种示例性说明，本示例实施方式的保护范畴并不以此为限。

上述类型标签则可以通过对原始图像的分类标注获取该原始图像所属的类别，得到类型标签。以上述手机碎屏检测为例，可以依据上述标注文件中预先标注好的类别信息，得到碎屏或不碎屏的类型标签。需要说明的是，上述场景只是一种示例性说明，本示例实施方式的保护范畴并不以此为限。

在经过上述流程得到原始图像的类型标签和掩膜图像后，将得到的类型标签、掩膜图像及原始图像作为训练数据，并基于训练数据对预先搭建的神经网络进行训练。

上述预搭建的神经网络可以以卷积神经网络为基础框架搭建得到，例如，可以以Resnet50残差神经网络为预训练模型，也可以以densenet121密集连接卷积网络或Inception net神经网络为预训练模型，本示例实施方式对此不做特殊限定。

以Resnet50残差神经网络为例，本示例实施方式所搭建的神经网络对其进行了改进，改进后的神经网络的输出层包括类别输出及掩膜输出。通过增加掩膜输出及其对应的掩膜预测分支，可以使得网络训练过程更加关注掩膜区域，即上述有效区域及待识别区域，使得网络可以学习到与类别相关的关键信息所在的位置，进而可以提高分类预测的准确率，提高网络的泛化性能。

优选地，上述预搭建的神经网络的设计还可以采用FPN(feature pyramidnetworks for object detection，特征金字塔网络)的思想，并对其进行扩展改进，创新性地将特征图向上采样至于原始图像相同的大小，形成不同尺度特征图下的分类任务，提高了网络对小物体的检测准确率。

需要说明的是，上述场景只是一种示例性说明，本示例实施方式的保护范畴并不以此为限。

在本示例实施方式中，上述基于训练数据对预搭建的神经网络进行训练，得到图像识别网络的流程，如图5所示，可以包括以下步骤：

在步骤S510中，通过所述预搭建的神经网络的卷积层对所述原始图像进行特征提取，得到多个尺度特征图。

在本示例实施方式中，上述预搭建的神经网路以卷积神经网络为基础，包含输入层、隐含层及输出层，隐含层包含有卷积层、池化层和全连接层。其中，卷积层可以用于对原始图像进行特征提取，该特征提取的过程可以通过该卷积层包含的卷积核实现，通过定义不同的卷积核可以提取出不同的特征信息。举例而言，通过设置合适的卷积核，如robert、prewitt或sobel算子，可以实现图像边缘特征提取。此外，通过适当的卷积核选取，还可以提取原始图像的其他特征，这也属于本示例实施方式的保护范畴。

此外，卷积层参数包括卷积核大小、步长和填充，三者共同决定了卷积层输出特征图的尺寸。其中，卷积核大小可以指定为小于输入图像尺寸的任意值，卷积核越大，可提取的输入特征越复杂。卷积步长定义了卷积核相邻两次扫过特征图时位置的距离，卷积步长为1时，卷积核会逐个扫过特征图的元素，步长为n时会在下一次扫描跳过n-1个像素。且由卷积核的交叉相关计算可知，随着卷积层的堆叠，特征图的尺寸会逐步减小，例如16×16的输入图像在经过单位步长、无填充的5×5的卷积核后，会输出12×12的特征图。因此，在通过预搭建的神经网络的卷积层对原始图像进行特征提取的过程中，可以得到多个尺度依次递减的特征图。其中，特征图为原始图像经过各卷积核处理后得到的图像。

在步骤S520中，对各所述尺度特征图进行特征融合及归一化处理，得到所述原始图像的预测类别。

在本示例实施方式中，该步骤对应于上述预搭建的神经网络中的类别预测分支。对于卷积神经网络而言，不同的网络深度对应着不同层次的语义特征，浅层网络分辨率高，学的更多是细节特征，深层网络分辨率低，学的更多是语义特征。本示例方式采用了特征金字塔的思想，把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接，使得所有尺度下的特征都有丰富的语义信息并进行归一化处理，并依据归一化处理得到的一维向量得到预测类别。

在步骤S530中，对各所述尺度特征图进行向上采样，得到与所述原始图像尺度相同的掩膜输出。

在本示例实施方式中，该步骤对应于上述预搭建的神经网络中的掩膜预测分支。该分支将经上述卷积层的特征提取过程得到的各尺度特征图向上采样至与原始图像相同尺寸大小，得到对应的掩膜预测输出。

在步骤S540中，依据所述预测类别和所述类型标签，以及所述掩膜输出及所述掩膜图像对所述预搭建的神经网络进行参数迭代，直至得到所述图像识别网络。

在本示例实施方式中，该步骤用于对网络参数进行调整，以提高预测的准确度及网络模型的泛化性能。其中，参数调整的过程可以基于预测类别和类型标签，以及掩膜输出及掩膜图像进行，具体地，可以基于类别预测分支输出的预测类别和训练数据中类型标签的差别，以及掩膜预测分支输出的掩膜图像及训练数据中通过原始图像的标注信息得到的掩膜图像之间的差别，采用反向传播算法对网络参数进行迭代调整，直至得到网络模型收敛，得到的神经网络即为本示例实施方式所训练得到的图像识别网络。

为了防止通过上述过程生成的图像识别网络的分类预测出现较大误差，例如，在前期标注的过程中，标注信息出现错误对生成的图像识别网络的性能及准确度会带来影响。优选地，在本示例实施方式的一个具体实施例中，还可以将上述图像识别网络作为最终得到的网络的主网络，并在网络中再增加一分类预测分支网络，不采用标注信息，而只使用原始图像或原始图像经过卷积层得到的第一个尺度特征图为训练数据。

具体而言，该分类网络分支的训练过程可以如下：通过分类网络分支的卷积层对原始图像进行特征提取，得到多个尺度依次递减的尺度特征图；将分类网络分支得到的尺度特征图与上述主网络得到的尺度特征图进行特征融合及归一化处理，得到原始图像的预测类别。在该具体实施例中，通过将分类网络分支末端的特征图与主网络输出的特征图进行连接，可以汇合主干网络学习的特征信息，并最终在各个分类分支网络的尾部进行全连接层的连接，可以聚合不同分辨率下的识别结果。

当上述得到的图像识别网络用于分类任务时，为了加速模型的推理时间，可选地，本示例实施方式所提供的图像识别网络生成方法还可以裁剪掉上述掩膜预测分支。其具体实现可以为：裁剪预搭建的神经网络的掩膜预测输出及其对应的掩膜预测分支；并将训练得到的参数迁移至裁剪后的神经网络，得到图像识别网络。

在通过上述S310至S320的步骤训练得到图像识别网络后，本示例实施方式还提供了一种图像识别方法，以通过上述图像识别网络实现图像的分类识别。具体流程如图6所示，包括以下流程：

步骤S610：依据上述步骤S310至步骤S320所述的方法生成图像识别网络；

步骤S620：获取待识别图像并输入至所述图像识别网络，得到所述待识别图像的类别。

下面结合图7所示的神经网络，对本示例实施方式所提供的方法进行进一步的说明。

该具体应用场景所训练的图像识别网络用于判断手机是否碎屏。随着智能手机的不断普及，与之相关的保险服务也越来越收到人们的关注。在当前的手机碎屏险处理过程中，用户手机屏幕发生破碎时，保险公司或者电商售后人员需要根据用户拍摄并上传的手机图像进行分析，观察图像中的手机屏幕区域是否真的发生破碎来确定是否进行对应的赔付服务。但由于拍摄的手机图像背景复杂，如其拍摄背景中可能会有电脑屏幕或者反光物体(塑料)存在，由于基本特征和手机屏幕极为相似，受其影响会出现样本的误检。且一般情况下，手机屏幕发生屏幕裂损的位置多在图像的四个角，并且处于边角的这些裂纹较为微小，不易检测。

通过上述图像识别网络生成方法生成的网络，由于在训练过程中加入了掩膜信息，可以使得网络在分类预测的过程中更加关注手机区域及碎屏区域，减少背景的影响，同时由于可以利用标注信息，也可以提高分类的准确度及网络的泛化性能。

如图7所示，该网络可以包括掩膜预测分支对应的输出710、类别预测分支对应的输出720及分类网络分支730，其中，掩膜预测分支和类别预测分支构成主干网络，该主干网络通过对FPN网络进行改进得到，不仅能够输出多尺度上的特征图，还可以输出和原图同样大小的特征图，通过对该特征图进行处理，从而输出对应标注区域的掩模信息。分类网络分支730为分支网路。具体的训练过程，如图8所示，可以包括如下流程：

在步骤S810中，准备待训练数据集。

在本具体应该场景中，该步骤用于准备待训练的手机碎屏数据集，并对每张图像进行标注，不仅进行碎屏-不碎屏标签的分类标注，还要对每张图像中的手机区域以及碎屏区域进行点标注。

在步骤S820中，预搭建神经网络并获取训练数据。

在本具体应用场景中，该步骤用于以Resnet50为预训练网络搭建RPMC网络(Resolution Pyramid and Mask based CNN,一种基于分辨率金字塔和掩模的细粒度神经网络)，并步骤S810中的标注信息获取原始图像对应的掩膜图像，并将原始图像、原始图像的标签信息以及掩模图像作为训练数据。

在步骤S830中，基于训练数据对预搭建的神经网络进行训练，得到图像识别网络。

该步骤在上述图像识别网络生成方法中已进行了详细的阐述，故在此不再赘述。

在步骤S840中，裁剪掩膜预测分支。

在本具体应用场景中，该步骤用于对模型进行裁剪。由于最终的目的为图像分类，故为了加速模型的推理时间，裁去模型的掩膜预测分支，只保留模型的类别预测分支，并将训练得到的权重迁移至裁剪后的新模型重新保存。

此外，在本具体应用场景中，除了上述掩膜预测分支和类别预测分支构成的主干网络，还设计了一个分类分支网络，如图7所示，该分类分支网络在主干网络的第一个特征图单独以Densenet121为预训练网络模型为基础设计了一条分类网络分支，在Densenet121网络末端的特征图与主网络输出的特征图进行连接，以汇合主干网络学习的特征信息，并最终在各个分类分支网络的尾部进行全连接层的连接，以聚合不同分辨率下的识别结果。

在本具体应用场景中，一方面，在图像进行手机和碎屏区域掩模生成的过程中，神经网络会更加注意手机和碎屏区域，因此在后续分类过程中，网络模型也会更加关注手机区域和碎屏区域，忽略背景或者其他无关物体的影响，因此分类网络的分类准确率会更高。另一方面，通过对标注信息的学习，该网络可以自动关注图像中关键区域并做分类，其次，模型在不同的分辨率下同时进行了分类任务，并在最终的全连接层进行了级联，基于联合预测得到最终输出，使得模型的准确率更高，对微小目标物体的检测效果更好。

应当注意，上述应用场景只是一种示例性说明，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步地，本示例实施方式提供了一种图像识别网络生成装置。参考图9所示，该图像识别网络生成装置900可以包括获取模块910及生成模块920。其中：

获取模块910可以用于获取各原始图像及对应的标注文件，所述标注文件包括对所述原始图像的标注信息；

生成模块920可以用于依据所述标注信息得到所述原始图像的掩膜图像及类型标签，将所述原始图像、所述掩膜图像及所述类型标签作为训练数据，并基于所述训练数据对预搭建的神经网络进行训练，得到所述图像识别网络；

在本示例实施方式中，上述生成模块可以包括处理单元及训练单元。其中，处理单元用于依据上述标注信息得到原始图像的掩膜图像及类型标签，并得到训练数据。训练单元用于基于训练数据对预搭建的神经网络进行训练，得到图像识别网络。

上述图像识别网络生成装置中各模块或单元的具体细节已经在对应的图像识别网络生成方法中进行了详细的描述，因此此处不再赘述。

对应地，针对上述图像识别方法，本示例实施方式还提供了一种图像识别装置。参考图10所示，该图像识别装置1000可以包括网络生成模块1010和类型预测模块1020。其中：

网络生成模块1010可以用于依据上述方法生成图像识别网络；

类型预测模块1020可以获取待识别图像并输入至所述图像识别网络，得到所述待识别图像的类别。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述方法。例如，所述电子设备可以实现如图3～图8所示的各个步骤等。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别网络生成方法，其特征在于，包括：

2.根据权利要求1所述的图像识别网络生成方法，其特征在于，所述标注信息包括对所述原始图像的有效区域及类型进行的标注，所述有效区域包括待识别区域，所述待识别区域包含所述原始图像的类别特征。

3.根据权利要求2所述的图像识别方法，其特征在于，所述依据所述标注信息得到所述原始图像的掩膜图像，包括：

4.根据权利要求1所述的图像识别方法，其特征在于，所述基于所述训练数据对预搭建的神经网络进行训练，得到所述图像识别网络，包括：

5.根据权利要求4所述的图像识别方法，其特征在于，所述方法训练得到所述图像识别网络的主网络，所述图像识别网络还包括一个分类网络分支，所述得到所述原始图像的预测类别，包括：

6.根据权利要求1所述的图像识别方法，其特征在于，所述方法还包括：

7.一种图像识别方法，其特征在于，包括：

依据权利要求1-6任一项所述的方法生成图像识别网络；

8.一种图像识别网络生成装置，其特征在于，包括：

9.一种图像识别装置，其特征在于，包括：

网络生成模块，用于依据权利要求1-6任一项所述的方法生成图像识别网络；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。

11.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。