CN106339719A

CN106339719A - 一种图像识别方法及装置

Info

Publication number: CN106339719A
Application number: CN201610703925.1A
Authority: CN
Inventors: 杜康华; 王崇; 任文越
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2016-08-22
Filing date: 2016-08-22
Publication date: 2017-01-18

Abstract

本申请公开了一种图像识别方法及装置，先对各样本图像的与指定色调匹配的图像区域进行规范化处理，从而得到第一图像集中的各图像，然后通过该第一图像集训练该图像分类器，以得到训练完成的图像分类器，将该待识别图像输入该训练完成的图像分类器中，得到针对该待识别图像的识别结果。由于该第一图像集中的图像为对样本图像进行处理而得到的，使得该第一图像集各图像中与预设图像类别匹配的图像区域在该图像中所占比例相对提升，在对该图像进行缩放时减少图像中与预设图像类别匹配的图像区域的信息损失，可见通过本申请提供的方法，可有效地减少第一图像集中图像的数量，在减少成本的同时也提高了该图像分类器的训练效率。

Description

一种图像识别方法及装置

技术领域

本申请涉及信息技术领域，尤其涉及一种图像识别方法及装置。

背景技术

随着信息化社会的发展以及网络社交活动的增长，人们在进行网络社交活动时更倾向于使用不受地域和语言限制的图像取代文字作为传词达意的主要媒介，这使得网络中图像快速增加。如何利用网络中的海量图像就成为了近年来人们关注的热点之一。

由于图像区别于文字信息，其内容无法直接通过关键字进行检索、分类等操作，所以对于如何利用图像来说，首先要解决的问题就是对图像内容的识别，也即图像识别技术。

现有图像识别技术主要采用机器学习的方法，具体的，首先需要人工对图像进行分类，确定由不同内容的图像分别构成的图像集(如，风景图像构成的图像集、人脸图像构成的图像集、色情图像构成的图像集等等)，之后针对每一种内容的图像集，提取该图像集包含的各图像之间的共同特征(往往为特征向量)，并通过训练最终得到该图像集的特征模型，最后根据各种图像集分别对应的特征模型，对接收到的待识别图像进行图像识别，并确定该待识别图像所属类别。

由于相对于人工设置并提取特征向量进行图像识别，通过机器学习和训练得到的特征模型避免了人的主观因素的影响，并且可以通过训练不断优化，所以使得图像识别的准确率更高。

但是，对于机器学习的方法来说，若想要图像识别的准确率较高，首先需要大量的图像用于学习和训练不同内容的图像集对应的特征模型，若是用于学习和训练的图像太少，则确定的特征模型的准确度就会降低，影响图像识别的鲁棒性，而训练用的图像太多，又会导致机器学习的方法的资源增加，影响机器学习的效率。

其次，由于在于训练特征模型时，对于用于训练的图像尺寸有统一要求(如，统一图像尺寸为分辨率：100×100)，所以还需要对用于训练的图像尺寸进行调整(包括：放大、缩小、拉伸等操作)，如图1所示，而导致图像中包含的特征的损失，从而影响机器学习的准确性(即，影响最终得到的特征模型的准确性)，使得为了保证机器学习的准确性需要进一步增加训练用的图像。

图1为对高分辨率图像进行图像缩放导致的图像中包含的特征损失示意图。

其中，左侧为原始尺寸大小的图像，右侧为缩小图像尺寸之后的图像，为了体现该缩小图像尺寸之后的图像中特征的损失，将该缩小图像尺寸之后的图像再次放大到该图像的原始尺寸大小。可见，其中叶脉纹理已经模糊，若以叶脉纹理为需要提取的特征的话，该缩小图像尺寸之后的图像的特征已经出现了损失。

可见由于上述问题，现有的图像识别技术需要用于训练的图像数量较多，导致图像识别的成本高。

发明内容

本申请实施例提供一种图像识别方法，用于解决现有技术中，在采用机器学习的方法进行图像识别时，需要大量用于训练的图像，导致图像识别的成本增加的问题。

本申请实施例提供一种图像识别装置，用于解决现有技术中，在采用机器学习的方法进行图像识别时，需要大量用于训练的图像，导致图像识别的成本增加的问题。

本申请实施例采用下述技术方案：

一种图像识别方法，包括：

确定待识别图像；

将所述待识别图像输入预先训练完成的的图像分类器，得到所述图像分类器输出的针对所述待识别图像的识别结果，其中，所述图像分类器进行训练所用的第一图像集中的图像，是对样本图像中与指定色调匹配的图像区域进行规范化处理而得到的；

所述指定色调，根据预设图像类别的图像的色调确定。

一种图像识别装置，包括：

确定模块，确定待识别图像；

识别模块，将所述待识别图像输入预先训练完成的图像分类模块，得到所述图像分类器输出的针对所述待识别图像的识别结果，其中，所述图像分类模块进行训练所用的第一图像集中的图像，是对样本图像中与指定色调匹配的图像区域进行规范化处理而得到的；

所述指定色调，根据预设图像类别的图像的色调确定。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

先对各样本图像的与指定色调匹配的图像区域进行规范化处理，从而得到第一图像集中的各图像，然后通过该第一图像集训练该图像分类器，以得到训练完成的图像分类器，当对待识别图像进行图像识别时，将该待识别图像输入该训练完成的该图像分类器中，以得到该图像分类器输出的针对该待识别图像的识别结果。其中，由于该第一图像集中的图像为对样本图像进行处理而得到的，使得该第一图像集各图像中与指定色调匹配的图像区域在该图像中所占比例相对提升，使得即使需要对该图像进行缩放，也可减少图像中与指定色调匹配的图像区域的特征损失，增加了该图像分类器的训练结果的准确性，可见通过本申请提供的方法，可以在不影响训练效果的情况下，有效地降低对第一图像集中图像的数量的需求，在减少成本的同时也提高了该图像分类器的训练效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为对高分辨率图像进行图像缩放导致的图像中包含的特征损失示意图；

图2为本申请实施例提供的图像识别过程；

图3为本申请实施例提供的对该卷积神经网络模型进行训练的过程；

图4为本申请实施例提供的确定该样本图像中与所述指定色调匹配的图像区域，作为中间图像的示意图；

图5为本申请实施例提供的待训练的卷积神经网络模型的结构示意图；

图6是本申请实施例提供一种图像识别装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如前所述，由于采用机器学习的方法需要大量的用于训练的图像，并且在需要对用于训练的图像进行图像尺寸统一的情况下，所需的图像数量还需要进一步增加，所以导致现有技术中所需用于训练的图像数量大大增加。

进一步地，由于采用机器学习的方法，实际上是训练得到不同类的图像分别对应的特征模型，所以在现有技术中还需要预先将用于训练的图像进行分类，才可根据预先分类过的图像对特征模型进行调整，并最终得到图像识别正确率符合要求的特征模型(即，对特征模型进行训练的过程)。其中，预先对用于训练的图像进行分类通常依赖于人工进行，也就是说，需要由人工根据图像的内容对用于训练的图像集中的各图像进行分类。

但是，由于现有技术需要用于训练的图像较多，所以需要大量的人工进行图像分类工作，增加了运行成本。

更进一步地，由于人工在对图像进行分类时，主要依靠人的主观感觉，在对于有些可以同时分类至不同类别的图像，不同人对该图像的分类结果可能并不一致，若通过这种可以同时分类至不同类别的图像对特征模型进行训练，则可能对训练效果产生负面影响，但是由于现有技术需要用于训练的图像较多，要么增加人工对这种可以同时分类至不同类别的图像进行筛查，排除出用于训练的图像集中，要么需要进一步增加用于训练的图像。

基于以上内容，本申请实施例提供一种可以减少训练用图像，且不影响对特征模型训练效果的用于图像识别的技术方案。以下结合附图，详细说明本申请各实施例提供的技术方案。

图2为本申请实施例提供的图像识别过程，具体包括以下步骤：

S101：确定待识别图像。

在现有技术中，由于通常采用机器学习的方法训练特征模型所消耗的资源较多，所以一般由服务器进行训练该特征模型的过程，并可由终端或者该服务器根据训练完成的特征模型进行图像识别过程，在本申请中，以服务器进行图像识别过程为例进行说明。

于是，在本申请实施例中，该服务器可确定待识别图像，以便后续进行图像识别。其中，所述待识别图像可以是该服务器从本地存储的图像中确定的，也可是该服务器接收到的图像，例如，用户在通过终端发布图像时，需要通过该终端将该图像传输到该服务器中，再由该服务器将该图像发布上线，则此时该服务器可以在接收到该图像时，将该图像确定为待识别图像，并进行后续的图像识别过程。

进一步地，由于现在社会的信息化程度很高，每一时刻产生的图像也很多，所以该服务器在每一时刻接收到的图像数量也很庞大，所以在本申请中，该服务器也可对接收到的图像进行随机抽取，并将随机抽取到图像确定为该待识别图像，并进行后续的图像识别过程。并且，由于该服务器在接收到图像之后，可将图像存储在该服务器本地或者该服务器对应存储数据的数据库中，所以该服务器还可以在运行压力较小时，将已存储且未进行过图像识别的图像确定为待识别图像，并进行后续的图像识别过程，即，该服务器从本地存储的图像中确定的待识别图像，通过上述方法，可更好的利用该服务器接收到的以及存储的各类图像资源。

当然，上述确定该待识别图像的方法仅为本申请提供的实施例，在实际使用过程中，还可以使用与现有技术相同的多种确定该待识别图像的方法，并不限定采用本申请实施例中提供的方法，本申请对如何确定待识别图像不做具体限定。

更进一步地，由于对该待识别图像进行图像识别，主要出于以下两种目的：一是进行风险控制，二是对图像资源的利用，其中，由于进行风险控制相对来说对网络安全的影响更大，所以相对较为重要，所以本申请实施例后续以对该待识别图像进行图像识别以进行风险控制为例进行说明，具体的，本申请以对该图像是否是色情内容的图像进行图像识别为例进行后续的说明。

需要说明的是，在本申请中，也可以由终端进行图像识别过程，该终端可以是手机、个人电脑、平板电脑的设备，当通过服务器进行图像识别过程时，该服务器可以是单独的一台设备，或者由多台设备组成的网络，即，分布式服务器。为方便描述，后续以服务器进行图像识别过程为例进行说明。

例如，假设服务器A接收到了某终端发送的图像，且该服务器A确定该图像为待识别图像，其中该待识别图像尺寸的大小为：分辨率1000×1000。

S102：将所述待识别图像输入预先训练完成的图像分类器，得到所述图像分类器输出的针对所述待识别图像的识别结果。

在本申请实施例中，当该服务器在确定了该待识别图像之后，便可将该待识别图像输入训练完成的图像分类器中，使得该服务器可根据该图像分类器的输出，确定针对该待识别图像的识别结果。并且，该图像分类器进行训练所用的第一图像集中的图像，是对样本图像的与指定色调匹配的图像区域进行规范化处理而得到的。

具体的，在本申请中，由于该图像分类器可包括：卷积神经网络模型，所以当该图像分类器为卷积神经网络模型时，该服务器可通过将该待识别图像输入训练完成的卷积神经网络模型，以得到对该待识别图像的图像识别结果。

并且，如前所述的，现有技术中存在需要训练图像多，训练成本高的问题，而本申请本实施例提供的图像识别过程中，用于图像识别的图像分类器所需的用于训练用图像相对较少，并且不影响训练完成的该图像分类器的图像识别正确率，所以可以避免现有技术中存在的问题。后续，本申请以该图像分类器为卷积神经网络模型为例进行说明。

具体的，在本申请中，对该卷积神经网络模型进行训练主要通过如图3所述的过程。

图3为本申请是实施例供的对该卷积神经网络模型进行训练的过程，包括：

S1021：确定样本图像组成的第二图像集。

在本申请实施例中，该服务器可以先确定初始的用于训练该卷积神经网络模型的样本图像，并将由各样本图像构成的图像集作为该第二图像集。其中，以该卷积神经网络模型用于对色情图像进行图像识别为例，该第二图像集可以是由三种图像内容的样本图像构成的图像集，包括：色情内容的样本图像、非色情人物内容的样本图像以及非人物内容的样本图像。

其中，以人物内容图像的内容是否涉及色情内容来看，人物内容图像可分类为：色情内容图像以及非色情人物内容图像。也就是说，色情内容图像以及非色情人物内容图像，从图像内容上来看均是人物内容的图像，其区别仅在于图像内容是否涉及色情内容，而这一点区别正是训练该待训练的卷积神经网络模型时，希望该待训练的卷积神经网络模型可以学习到的，并在得到训练完成的卷积神经网络模型时，该训练完成的卷积神经网络模型可以对图像内容是否涉及色情做出识别，所以在本申请中，该第二图像中的样本图像可包括：色情内容的样本图像以及非色情人物内容的样本图像。

进一步地，由于若仅使用人物内容图像训练该待训练的卷积神经网络模型，则最终得到该训练完成的卷积神经网络模型在对图像进行识别时，仅对人物内容的待识别图像具有较高的识别正确率，而对于非人物内容的待识别图像的识别正确率则不可预知，所以在本申请中该第二图像集中的样本图像还可包括：非人物内容的样本图像。

进一步地，在本申请中，还可对该第二图像集中样本图像的数量进行限定，使该第二图像集中的样本图像的数量不大于预设的数量，例如，该预设数量为3000，则该服务器可确定3000张样本图像。

当然，具体的该第二图像集中的样本图像的数量可以根据需要确定，本申请实施例仅提供一种方案，并不构成对本申请的限定，同时需要说明的是，若选定该第二图像集中的样本数量太多(如，10000张、100000张)，则本申请实施例提供的方法就难以减少训练用的样本图像，并且本申请也无需大量的样本图像。

继续沿用上例，假设，该服务器A在训练用于识别色情图像的卷积神经网络模型时，需要先确定3000张样本图像，其中包括：色情内容的样本图像、非色情人物内容的样本图像以及非人物内容的样本图像。

S1022：对该第二图像集进行分类。

在本申请实施例中，与现有技术相同，该服务器需要对该第二图像集中的各样本图向进行分类，并根据各样本图像的分类结果对各样本图像添加标识。

具体的，由于在申请中该第二图像集可包含三种图像内容的样本图像，所以该服务器可以将该第二图像集中的各样本图像，以各样本图像的内容分为三类，如期望训练完成的卷积神经网络模型能够识别色情图像，那么，可将样本图像分为：色情内容的样本图像、非色情人物内容的样本图像以及非人物内容的样本图像三类图像。并且，该服务器还可以根据对该第二图像集中的各样本图像的分类结果，分别对每一类样本图像添加不同的标识，以使得在后续训练该卷积神经网络模型时，使该卷积神经网络模型可以根据不同的标识确定输入的图像的内容，并执行对应的操作(如，计算误差值、计算正确率以及反向调整参数等)。

进一步地，在本申请实施例中，由于对用于训练的样本图像的数量进行了限制，所以区别于现有技术，在本申请中该第二图像集中的三种图像内容的样本图像的数量需要保证一致，若在该第二图像集中的三种图像内容的样本图像的数量不一致，并且数量差异较大，则可能使得该卷积神经网络模型对某一种图像内容的特征学习不够完整，从而导致该卷积神经网络模型的图像识别正确率降低。例如，假设，该第二图像集中包含3000张样本图像，其中，三种图像内容的样本图像的数量分别为：1500、1200、300，则可见以该300张样本图像来说，该300张样本图像属于同种图像内容的样本图像，进一步假设该同种图像内容具有a、b、c、d一共4个特征，而由于该300张样本图像的数量较少，所以导致该图像内容的样本图像覆盖全部a、b、c、d特征的几率较小，也就是说，由于该样本图像的数量少，导致该图像内容的图像所包含的特征可能被遗漏，所以导致对该种内容图像的特征学习的不完整几率较大，容易造成该卷积神经网络模型的图像识别正确率的降低。所以在本申请中，沿用上例，该第二图像集中三种图像内容的样本图像的数量可分别为：1000、1000、1000，从而可以在训练该卷积神经网络模型时，使该卷积神经网络模型对该三种图像内容的特征得到充分的学习。

更进一步地，在对各样本图像添加标识时，该标识可以以统一的规则添加至该样本图像的文件名中，如，在文件名后添加3位数字标识，并以符号“-”作为与原文件名的分隔符，或者在文件名前添加3位英文字母标识等等，具体如何添加标识本申请并不做具体限定。

继续沿用上例，假设在步骤S1021中，该服务器A确定的第二图像集中的色情内容的样本图像、非色情人物内容的样本图像以及非人物内容的样本图像的数量均为1000张，则该服务器A可以根据各样本图像的内容对该第二图像集中的各样本图像进行分类，并且根据分类结果，对以上三类样本图像分别添加不同的标识，如表1所示。

样本图像类别	样本图像添加的标识
		色情内容的样本图像	001
非色情人物内容的样本图像	002
		非人物内容的样本图像	003

表1

其中，该标识可以添加至样本图像的文件名中，例如，某样本图像名为：92e8647ajw1exg20dc07hx6x.jpg，并且该样本图像的内容为色情内容，则添加标记后的该样本图像的文件便变为：92e8647ajw1exg20dc07hx6x-001.jpg.

S1023：对样本图像的与指定色调匹配的图像区域进行规范化处理，得到进行训练所用的该第一图像集中的图像。

其中，所述指定色调，通过现有技术或者人工经验，根据预设图像类别的图像的色调确定。

在本申请实施例中，该服务器在确定第二图像集并对该第二图像集中的各样本图像进行分类、添加标识之后，由于此时该第二图像集中的各样本图像的尺寸大小并未符合用于训练的输入图像的尺寸要求，还不能用于训练，所以该服务器还需要对该第二图像集中的各样本图像进行处理，以得到符合用于训练的输入图像的尺寸要求的，可进行训练用的第一图像集中的各图像。

具体的，由于现有技术中在统一各样本图像的尺寸大小时，只是对各样本图像进行拉伸以及缩放处理，如图1所示，可能导致各样本图像包含的特征损失，所以在本申请中，首先，该服务器可以针对该第二图像集中的每一个样本图像，确定该样本图像的色调饱和度明度(HueSaturationValue，HSV)颜色模型，即，确定该样本图像每一个像素点的色调、饱和度以及明度。其中，由于通常图像都是通过红色绿色蓝色(RedGreenBlue，RGB)颜色模型以红、绿、蓝三元色表示每一个像素点的值，所以为了得到该样本图像的HSV颜色模型，该服务器可以通过以下公式将该样本图像由RGB颜色模型转换为HSV颜色模型。

\{\begin{matrix} V = \frac{R + G + B}{3} \\ S = 1 - \frac{3 \times [\min (R, G, B)]}{R + G + B} \\ H = \arccos {\frac{[(R - G) + (R - B)] / 2}{\sqrt{{(R - G)}^{2} + (R - B) (G - B)}}} \end{matrix}

其中，min(R,G,B)表示，针对该样本图像中每一个像素点，取该像素点R、G、B三值中的最小值。

其次，根据该样本图像的HSV颜色模型，确定该样本图像的所述预设图像类别对应的色调匹配的图像区域，作为中间图像。其中，当该预设图像类别为色情内容图像类别时，与该色情内容图像类别对应的色调可根据人工经验设置为H∈[0，116]，则，确定与该色情内容图像类别对应的色调匹配的图像区域，就是确定该样本图像的色调值在0～116范围的像素点所对应的图像区域，并将该图像区域作为中间图像。并且，在确定该样本图像的该图像区域时，可以先确定的各色调值在0～116范围的各像素点的坐标值，并以确定的各像素点的x轴最大坐标值、x轴最大坐标值、x轴最大坐标值以及x轴最大坐标值，确定该样本图像对应的中间图像。如，图4所示。

图4为本申请实施例提供的确定该样本图像中与所述指定色调匹配的图像区域，作为中间图像的示意图。

可见，图4中，最大的矩形框为样本图像的图像边界，灰色区域为色调值在0～116范围的各像素点，最小的虚线矩形框为确定的中间图像，其中，该中间图像的边界，通过各色调值在0～116范围的各像素点的x轴最大坐标值、x轴最大坐标值、x轴最大坐标值以及x轴最大坐标值确定。

需要说明的是，当通过该样本图像确定对应的该中间图像时，可以视为该服务器根据该样本图像的与所述指定色调匹配的该图像区域，对该样本图像进行了截图操作，并得到该中间图像，即，如图4所示的该服务器截取了该样本图像中的最小的虚线矩形框的区域作为中间图像。

最后，当确定了该样本图像对应的该中间图像之后，假设此时该中间图像的图像尺寸存在不符合用于训练的输入图像的尺寸要求的情况，所以该服务器还可对各中间图像进行规范化处理，并将进行规范化处理后的各中间图像作为该第一图像集中的各图像，即，将中间图像进行规范化处理后得到用于训练的第一图像集中的图像。其中，进行规范化处理包括：根据预设的图像尺寸，采用与现有技术相同的方法对该中间图像进行缩放和拉伸，是该中间图像的图像尺寸符合预设的图像尺寸，例如，假设该预设的图像尺寸为分辨率256×256，而该中间图像的图像尺寸为分辨率300×400，则该服务器可对该中间图像进行缩放和拉伸将该中间图像的图像尺寸规范为分辨率256×256。

需要说明的是，在本申请中该色情内容图像类别，即是，色情内容的样本图像所对应的图像类别，也就是图像添加了标识为001的样本图像。

由于该第一图像集中的各图像都是分别通过该第二图像集中的各样本图像得到的，所以该第一图像集中的各图像与该第二图像集中的各样本图像存在一一对应的关系，所以可见通过本步骤S1023的处理，该服务器先将各样本图像中，与该预设图像类别(如，色情内容图像类别)对应的指定色调匹配的图像区域截取出来，使得对于该第一图像集中的每一个图像，扩大了该图像中与该指定色调匹配的图像区域，相比于与该图像一一对应的样本图像中与该指定色调匹配的图像区域，所占的比例。如图4所示，可见相对于最大的矩形框，该最小的虚线矩形框中该灰色区域所占的比例相对较大，所以即使该服务器再通过后续的规范化处理，对该中间图像进行拉伸以及缩放时，也可减少用于训练的各图像所包含的特征的损失。从而避免了现有技术中存在的，由于需要进行规范化处理而使得图像特征损失，而需要增加训练用的图像数量的弊端，使得该服务器即使使用少量的图像用于训练，也可以达到较好的训练效果。

进一步地，由于该服务器从该样本图像中提取出了该中间图像，所以可视为该服务器刨除了大量的干扰图像区域，如图4所示，在进行训练时，输入的图像为最小的虚线矩形框，相对于最大的矩形框，该最小的虚线矩形框刨除了大量的无用背景(即，干扰图像区域)，即该最大的矩形框比该最小的虚线矩形框多出的部分，使得进行训练时，可以减少了不与该指定色调匹配的图像区域对训练效果的影响。

例如，假设用于训练的色情内容图像均是白色背景的图像，若没有如本申请中所述的确定中间图像的操作，则在训练时，可能得到白色背景与色情内容图像关联很强的结果，而我们都知道图像的背景颜色与该图像是否为色情图像没有直接关联，从而使得训练得到该卷积神经网络模型的图像识别正确率降低。但是，当该服务器根据该指定色调匹配的图像区域，确定各中间图像后，用于训练的图像中白色背景的区域减少了很多，从而使得白色背景不再是一种主要的特征，从而不会影响对该卷积神经网络模型的训练，从而使得训练得到该卷积神经网络模型的图像识别正确率更高。

S1024：根据该第一图像集，对待训练的卷积神经网络模型进行训练，以得到该训练完成的卷积神经网络模型。

在本申请实施例中，当确定好该第一图像集之后，该服务器便可根据该第一图像集，训练该待训练的卷积神经网络模型，以得到该训练完成的卷积神经网络模型。

具体的，采用以下方法训练该卷积神经网络模型：

首先，该服务器确定待训练的卷积神经网络模型中的各层对应的初始化参数，作为该卷积神经网络模型的初始化模型。通常，该初始化参数为随机确定的，当然，也可由人工根据经验进行确定，本申请对此并不限定。

其次，该服务器循环执行下述步骤，直至该待训练的卷积神经网络模型输出的误差值达到第一阈值以及图像识别正确率达到第二阈值为止：

将该第一图像集中的各图像依次输入该待训练的卷积神经网络模型，使得通过该待训练的卷积神经网络模型对输入的该训练图像的特征进行向前传播至输出层，计算输出的该误差值以及该图像识别正确率，根据该误差值从输出层反向调整该待训练的卷积神经网络模型中的各层对应的参数。

于是，当该服务器确定计算输出的该误差值达到该第一阈值以及该图像识别正确率达到该第二阈值时，确定该待训练的卷积神经网络模型训练结束，得到该训练完成的卷积神经网络模型。

通过如图2所示的图像识别方法，由于该服务器训练该图像分类器所用的该第一图像集中的图像，是对样本图像的与指定色调匹配的图像区域进行规范化处理，而得到的，所以即使用于训练的该第一图像集中的图像经过了规范化处理(即，经过了缩放和拉伸处理)，该第一图像集中的各图像包含的特征损失也可大幅减少，使得即使用于训练的该第一图像集中的图像数量较少，也可训练得到图像识别正确率较高的该图像分类器，并且，由于用于训练的该第一图像集中的各图像数量的减少，使得图像识别的成本降低。

另外，在步骤S101中，本申请对于该待识别图像的尺寸并不做具体限定，但是对于图像尺寸较小的待识别图像，由于图像尺寸较小(例如，分辨率5×5)所以该待识别图像中包含的信息太少，难以利用，于是在本申请中，该服务器还可以根据图像的图像尺寸，将图像尺寸大于门限值的图像确定为待识别图像。

进一步地，在步骤S102中，具体在步骤S1024中该卷积神经网络模型的结构可如图5所示。

图5为本申请实施例提供的待训练的卷积神经网络模型的结构示意图。

需要说明的是，在图5中仅显示了一个激活层，但在实际应用过程中，每一个卷积层输出的数据还需要经过激活层进行激活后，才可通过该激活层进入下一层，如图5中第一卷积层、激活层、第一池化层的结构形式所示，输入该第一卷积层的数据(即，第一图像集中的图像)，在由该第一卷积层输出后，还可输入该激活层中进行激活并由该激活层中输出后，再输入该第一池化层。同理，该第一至第四卷积降维层以及该第一至第六卷积特征提取层输出的数据，也可先输入各自对应的激活层并由各自对应的激活层输出后，再输入后续的各层，而在图5中为了简化该待训练的卷积神经网络模型的结构，并未将各激活层全部显示出来。

另外，在图5中可见，该输入层用于将该第一图像集中的各图像依次输入该待训练的卷积神经网络模型中的各层，其中，各卷积降维层用于将输入该卷积层的数据进行参数降维，并输出至下一层。例如，输入的数据为128张分辨率为32×32的特征图像，则若直接对该输入进行卷积，并提取特征，假设用32个3×3的卷积核进行提取特征，则需要的配置的参数为128×32×3×3，而若采用一个卷积降维层的话，就可通过32个1×1的卷积核进行参数降维，则该卷积降维层需要参数为128×32×1×1，输出32个特征图，之后再用32个3×3的卷积核进行提取特征时，需要配置的参数就可降为32×32×3×3，对比如表2所示。

卷积层结构	需要配置参数
		直接进行特征提取	128×32×3×3
先降维再进行特征提取	128×32×1×1+32×32×3×3

表2

则通过图5所示的待训练的卷积神经网络模型结构示意图可见，用于对输入该卷积层的数据进行参数降维的卷积层与用于对输入该卷积层的数据进行特征提取的卷积层相邻，使得该待训练的卷积神经网络模型中总体所需的参数降低，可提高训练效率。

另外，在图5中可见第一至第四池化层，用于减少输入数据(如，特征图)进过卷积操作之后产生的信息冗余，以提高待训练的卷积神经网络模型算法的运行效率以及鲁棒性。

进一步地，该损失层用于计算该第一图像集全部输入该待训练的卷积神经网络模型后，该待训练的卷积神经网络模型输出的图像识别结果的误差值，该正确率层用于计算该第一图像集全部输入该待训练的卷积神经网络模型后，该待训练的卷积神经网络模型输出的图像识别结果的正确率，其中，该损失层以及该正确率层均需要根据该输入图像中添加的标识计算该误差值和该正确率，例如，在计算该正确率时，需要根据该待训练的卷积神经网络模型对每一张输入图像的图像识别结果与该输入图像的标识进行对比，若一致，则正确，若不一致，则错误，并最后确定所有输入的图像中识别正确的图像所占比例，即为该待训练的卷积神经网络模型的图像识别正确率。

更进一步地，该损失层根据误差值利用与现有技术一致的梯度下降法结合学习率(即，步长)，反向调整该待训练的卷积神经网络模型中各层的参数。

进一步地，该待训练的卷积神经网络模型可以判断该损失层计算出的误差值是否达到第一阈值以及该正确率层计算出的图像识别正确率达是否到第二阈值，若均是，则确定该待训练的卷积神经网络模型已经训练完成，得到该训练完成的卷积神经网络模型，若至少一项为否，则可通过该损失层调整反向调整各层参数，并再次将该第一图像集中的各图像输入该待训练的卷积神经网络模型中，直到该损失层计算出的误差值达到该第一阈值以及该正确率层计算出的图像识别正确率达到该第二阈值为止，其中该第一阈值以及该第二阈值均可根据需求进行设定，本申请对此并不做具体限定。

进一步地，如图5所示，该待训练的卷积神经网络模型通过以下公式调整学习率：

lr＝base_lr×γ×(floor(iter/stepsize))，其中，该lr为每次反向传播时的学习率(即，步长)，base_lr为初始化的学习率参数，stepsize和γ为常量，iter为迭代次数。

另外，在本申请中，当该服务器通过步骤S102，得到该待识别图像的图像识别结果之后，为了增加该第一图像集中预设图像类别的图像的数量，该服务器还可以根据该图像识别结果，当确定该待识别图像的图像识别结果为该预设图像类别时，根据该待识别图像的与该指定色调匹配的图像区域，确定该待识别图像对应的中间图像，对该待识别图像对应的中间图像进行规范化处理后，将进行规范化处理后的该待识别图像对应的中间图像添加至该第一图像集中。

当然，确定图像识别结果后，如何利用该图像识别结果本申请并不做具体限定，上述仅是一种实施方式，并不构成对本申请的限定。

进一步地，在本申请中并不限定该卷积神经网络模型中和各层的参数结构，如卷积层中的卷积核大小、卷积层的通道数量、池化层的通道数量、以及池化步长等等，也不限定具体的池化的方式，即，该卷积神经网络模型中各层参数结构可以根据需要进行设置，并申请对此并不限定。

需要说明的是，如图1所示的本申请实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也可由不同设备作为执行主体。比如，步骤S1021和步骤S1022的执行主体可以为设备1，步骤S1023的执行主体可以为设备2；又比如，步骤S1021的执行主体可以为设备1，步骤S1022和步骤S1023的执行主体可以为设备2；等等。

基于图2所示的图像识别过程，本申请实施例还对应提供一种图像识别装置，如图6所示。

图6是本申请实施例提供一种图像识别装置的结构示意图，包括：

确定模块201，确定待识别图像；

识别模块202，将所述待识别图像输入预先训练完成的图像分类器，得到所述图像分类器输出的针对所述待识别图像的识别结果，其中，所述图像分类器进行训练所用的第一图像集中的图像，是对样本图像中与指定色调匹配的图像区域进行规范化处理而得到的；

所述指定色调，根据预设图像类别的图像的色调确定。

所述装置还包括：

图像集确定模块203，确定由样本图像组成的第二图像集，针对每一个样本图像，根据该样本图像的HSV颜色模型，确定该样本图像中与所述指定色调匹配的图像区域，作为中间图像，对所有中间图像进行规范化处理，将所有进行规范化处理后的中间图像的集合，作为所述图像分类器进行训练所用的所述第一图像集。

所述图像分类器包括：卷积神经网络模型。

所述装置还包括：训练模块204，训练所述卷积神经网络模型：确定待训练的卷积神经网络对应的各层对应的初始化参数，循环执行下述步骤，直至所述待训练的卷积神经网络模型输出的误差值达到第一阈值以及图像识别正确率达到第二阈值为止，所述卷积神经网络模型训练完成：将所述第一图像集中的各图像依次输入所述待训练的卷积神经网络模型，使得通过所述待训练的卷积神经网络模型对输入的所述训练图像的特征进行向前传播至输出层，计算输出的所述误差值以及所述图像识别正确率，根据所述误差值从输出层反向调整所述待训练的卷积神经网络模型中的各层对应的参数。

所述卷积神经网络模型中包含至少一个卷积层，用于对输入所述卷积层的数据进行参数降维，针对每一个所述卷积层，与当前卷积层相邻的卷积层用于对输入本卷积层的数据进行特征提取。

所述图像集确定模块204，当所述识别模块202确定所述待识别图像的图像识别结果为所述预设图像类别时，将所述待识别图像中与所述指定色调匹配的图像区域进行规范化处理后，添加至所述第一图像集中，并使用添加了所述待识别图像的第一图像集重新训练所述图像分类器。

所述预设图像类别为色情图像类别，所述色情图像类别对应的所述指定色调的色调值范围为0至116。

具体的，上述如图6所示的图像识别装置可以位于一台设备中，也位于由多台设备组成的系统中。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种图像识别方法，其特征在于，包括：

确定待识别图像；

将所述待识别图像输入预先训练完成的图像分类器，得到所述图像分类器输出的针对所述待识别图像的识别结果，其中，所述图像分类器进行训练所用的第一图像集中的图像，是对样本图像中与指定色调匹配的图像区域进行规范化处理而得到的；

所述指定色调，根据预设图像类别的图像的色调确定。

2.如权利要求1所述的方法，其特征在于，所述第一图像集，采用下述方法得到：

确定由样本图像组成的第二图像集；

针对所述第二图像集中的每一个样本图像，根据该样本图像的色调饱和度明度HSV颜色模型，确定该样本图像中与所述指定色调匹配的图像区域；以及

根据该样本图像中与所述指定色调匹配的图像区域，确定与该样本图像对应的中间图像；

对所有中间图像进行规范化处理；

将所有进行规范化处理后的中间图像的集合，作为所述第一图像集。

3.如权利要求1所述的方法，其特征在于，所述图像分类器包括卷积神经网络模型。

4.如权利要求3所述的方法，其特征在于，采用下述方式，训练所述卷积神经网络模型：

确定待训练的卷积神经网络模型对应的各层初始化参数；

循环执行下述步骤，直至所述待训练的卷积神经网络模型模型输出的误差值达到第一阈值以及图像识别正确率达到第二阈值为止，所述卷积神经网络模型训练完成：

将所述第一图像集中的各图像依次输入所述待训练的卷积神经网络模型，使得通过所述待训练的卷积神经网络模型对输入的各图像的特征进行向前传播至输出层，计算输出的所述误差值以及所述图像识别正确率，根据所述误差值从输出层以初始化参数为基础反向调整所述待训练的卷积神经网络模型中的各层对应的参数。

5.如权利要求4所述的方法，其特征在于，所述卷积神经网络模型中包含至少一个卷积层，用于对输入所述卷积层的数据进行参数降维；

针对每一个所述卷积层，与当前卷积层相邻的卷积层用于对输入本卷积层的数据进行特征提取。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

当确定所述待识别图像的图像识别结果为所述待识别图像属于所述预设图像类别时，将所述待识别图像中与所述指定色调匹配的图像区域进行规范化处理后，添加至所述第一图像集中；并

使用添加了所述待识别图像的第一图像集重新训练所述图像分类器。

7.如权利要求1所述的方法，其特征在于，所述预设图像类别为色情图像类别；

所述色情图像类别对应的所述指定色调的色调值范围为0至116。

8.一种图像识别装置，其特征在于，包括：

确定模块，确定待识别图像；

识别模块，将所述待识别图像输入预先训练完成的图像分类器，得到所述图像分类器输出的针对所述待识别图像的识别结果，其中，所述图像分类器进行训练所用的第一图像集中的图像，是对样本图像中与指定色调匹配的图像区域进行规范化处理而得到的；

所述指定色调，根据预设图像类别的图像的色调确定。

9.如权利要求1所述的装置，其特征在于，所述装置还包括：

图像集确定模块，确定由样本图像组成的第二图像集，针对每一个样本图像，根据该样本图像的色调饱和度明度HSV颜色模型，确定该样本图像中与所述指定色调匹配的图像区域，以及根据该样本图像中与所述指定色调匹配的图像区域，确定与该样本图像对应的中间图像，对所有中间图像进行规范化处理，将所有进行规范化处理后的中间图像的集合，作为所述图像分类器进行训练所用的所述第一图像集。

10.如权利要求1所述的装置，其特征在于，所述图像分类器包括：卷积神经网络模型。