CN109472209B - 一种图像识别方法、装置和存储介质 - Google Patents
一种图像识别方法、装置和存储介质 Download PDFInfo
- Publication number
- CN109472209B CN109472209B CN201811191691.2A CN201811191691A CN109472209B CN 109472209 B CN109472209 B CN 109472209B CN 201811191691 A CN201811191691 A CN 201811191691A CN 109472209 B CN109472209 B CN 109472209B
- Authority
- CN
- China
- Prior art keywords
- image
- description information
- target
- sample
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 238000004590 computer program Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000005094 computer simulation Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 239000003086 colorant Substances 0.000 claims 2
- 238000011176 pooling Methods 0.000 description 17
- 239000013598 vector Substances 0.000 description 16
- 210000004027 cell Anatomy 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000008451 emotion Effects 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 239000000779 smoke Substances 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像识别方法,包括:获取目标图像;运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息;所述目标描述信息用以形容所述目标图像表现的内容;检测所述目标描述信息,根据检测结果确定所述目标图像是否为目标类图像。本发明还公开了一种图像识别装置和计算机可读存储介质。
Description
技术领域
本发明涉及机器学习技术,尤其涉及一种图像识别方法、装置和计算机可读存储介质。
背景技术
现有技术中,对不良图片的识别大都采用监督学习的传统方法,具体包括:采集不良图片,根据不良图片的类型对不良图片打上标签,然后进行训练得到分类器。这里,为识别不同类型的不良图片需要采集不同类型的不良图片并学习得到不同的分类器,再运用不同的分类器识别不同类型的不良图片,无法得到统一的识别方案,效果较差。
发明内容
有鉴于此,本发明的主要目的在于提供一种图像识别方法、装置和计算机可读存储介质。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种图像识别方法,所述方法包括:
获取目标图像;
运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息;所述目标描述信息用以形容所述目标图像表现的内容;
检测所述目标描述信息,根据检测结果确定所述目标图像是否为目标类图像。
上述方案中,所述方法还包括:生成所述图像识别模型;
所述生成所述图像识别模型,包括:
获取预设数量的样本图像,以及获取每个样本图像的样本描述信息;
分别提取每个样本图像的图像特征和所述每个样本图像对应的样本描述信息的文本词特征;
根据所述图像特征、所述文本词特征和所述样本描述信息训练计算模型,基于训练后的计算模型获得所述图像识别模型。
上述方案中,所述计算模型包括:时间递归神经网络(LSTM,Long Short-TermMemory);
所述根据所述图像特征、所述文本词特征和所述样本描述信息训练所述LSTM,包括:
将所述图像特征和所述文本词特征依次输入LSTM,获得结果特征;所述结果特征包括:根据所述图像特征获得的第一结果特征和根据所述文本词特征获得的第二结果特征;
对所述第一结果特征和所述第二结果特征进行分类,根据分类结果获得至少一个预测词,根据所述至少一个预测词生成预测描述信息;
比较所述预测描述信息和所述样本描述信息,根据比较结果优化所述LSTM。
上述方案中,提取所述样本图像对应的样本描述信息的文本词特征,包括:
对所述样本描述信息进行分词,获得至少一个样本描述词;根据所述样本描述词确定所述文本词特征。
上述方案中,所述运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息,包括:
运用预设的图像识别模型提取所述目标图像的图像特征,根据所述图像特征确定至少一个描述词;
根据所述至少一个描述词生成针对所述目标图像的目标描述信息。
上述方案中,所述检测所述目标描述信息,根据检测结果确定所述目标图像是否为目标类图像,包括:
检测所述目标描述信息是否包含预设的敏感词,确定所述目标描述信息包含预设的敏感词时,确定所述目标图像为目标类图像。
本发明实施例提供了一种图像识别装置,所述装置包括:第一处理模块、第二处理模块和第三处理模块;其中,
所述第一处理模块,用于获取目标图像;
所述第二处理模块,用于运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息;所述目标描述信息用以形容所述目标图像表现的内容;
所述第三处理模块,用于检测所述目标描述信息,根据检测结果确定所述目标图像是否为目标类图像。
上述方案中,所述装置还包括:预处理模块,用于生成所述图像识别模型;
所述预处理模块,具体用于获取预设数量的样本图像,以及获取每个样本图像的样本描述信息;分别提取每个样本图像的图像特征和所述每个样本图像对应的样本描述信息的文本词特征;根据所述图像特征、所述文本词特征和所述样本描述信息训练计算模型,基于训练后的计算模型获得所述图像识别模型。
本发明实施例提供了一种图像识别装置,所述装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行以上任一项所述图像识别方法的步骤。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以上任一项所述图像识别方法的步骤。
本发明实施例所提供的图像识别方法、装置和计算机可读存储介质,获取目标图像;运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息;所述目标描述信息用以形容所述目标图像表现的内容;检测所述目标描述信息,根据检测结果确定所述目标图像是否为目标类图像。本发明实施例中,识别目标图像以获得目标图像的描述信息,根据描述信息判断目标图像是否为目标类图像,无需训练多个分类器以进行图像识别,实现了一体化的图像识别方法,极大改善了识别效果。
附图说明
图1为本发明实施例提供的一种图像识别方法的流程示意图;
图2为本发明实施例提供的另一种图像识别方法的流程示意图;
图3为本发明实施例提供的一种ResNet50网络结构的示意图;
图4为本发明实施例提供的一种降采样模块的结构示意图;
图5为本发明实施例提供的一种卷积流程示意图;
图6为本发明实施例提供的一种最大值池化流程示意图;
图7为本发明实施例提供的一种计算模型的训练流程图;
图8为本发明实施例提供的一种LSTM记忆单元的基本结构示意图;
图9为本发明实施例提供的一种图像识别装置的结构示意图;
图10为本发明实施例提供的另一种图像识别装置的结构示意图。
具体实施方式
在本发明的各种实施例中,获取目标图像;运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息;所述目标描述信息用以形容所述目标图像表现的内容;检测所述目标描述信息,根据检测结果确定所述目标图像是否为目标类图像。
下面结合实施例对本发明再作进一步详细的说明。
图1为本发明实施例提供的一种图像识别方法的流程示意图;所述方法可以应用于服务器,如图1所示,所述方法包括:
步骤101、获取目标图像。
这里,所述目标图像为待识别图像。在一实施例中,所述目标图像可以保存在服务器中,由所述服务器读取自身保存的目标图像,即获取目标图像;在另一实施例中,可以由其他终端将目标图像发送给所述服务器,从而所述服务器获得所述目标图像。
步骤102、运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息;所述目标描述信息用以形容所述目标图像表现的内容。
本实施例中,所述方法还包括:生成所述图像识别模型。
具体来说,所述生成所述图像识别模型,包括:
获取预设数量的样本图像,以及获取每个样本图像的样本描述信息;
分别提取每个样本图像的图像特征和所述每个样本图像对应的样本描述信息的文本词特征;
根据所述图像特征、所述文本词特征和所述样本描述信息训练计算模型,基于训练后的计算模型获得所述图像识别模型。
所述图像特征和所述文本词特征为词向量形式。
具体地,所述计算模型包括:LSTM。
所述根据所述图像特征、所述文本词特征和所述样本描述信息训练所述LSTM,包括:
将所述图像特征和所述文本词特征依次输入LSTM,获得结果特征;所述结果特征包括:根据所述图像特征获得的第一结果特征和根据所述文本词特征获得的第二结果特征;
对所述第一结果特征和所述第二结果特征进行分类,根据分类结果获得至少一个预测词,根据所述至少一个预测词生成预测描述信息;
比较所述预测描述信息和所述样本描述信息,根据比较结果优化所述LSTM。
这里,通过上述步骤对所述LSTM反复优化,获得优化后的LSTM,根据优化后的LSTM获得所述计算模型。
所述计算模型,还包括:用于提取每个样本图像的图像特征的模块、用于提取所述每个样本图像对应的样本描述信息的文本词特征的模块,以及用于根据分类结果进行词预测以获得至少一个预测词的模块。
具体地,提取所述样本图像对应的样本描述信息的文本词特征,包括:
对所述样本描述信息进行分词,获得至少一个样本描述词;根据所述样本描述词确定所述文本词特征。
具体地,提取每个样本图像的图像特征,包括:
识别所述样本图像,对所述样本图像进行特征提取,以获得所述样本图像的图像特征。
本实施例中,所述运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息,包括:
运用预设的图像识别模型提取所述目标图像的图像特征,根据所述图像特征确定至少一个描述词;
根据所述至少一个描述词生成针对所述目标图像的目标描述信息。
步骤103、检测所述目标描述信息,根据检测结果确定所述目标图像是否为目标类图像。
具体地,所述检测所述目标描述信息,根据检测结果确定所述目标图像是否为目标类图像,包括:
检测所述目标描述信息是否包含预设的敏感词,确定所述目标描述信息包含预设的敏感词时,确定所述目标图像为目标类图像。
这里,所述目标描述信息用以形容所述目标图像表现的内容。例如:硝烟弥漫的黑夜中走来一队防爆警察、愤怒的抗议人群正在焚烧国旗、一名恐怖分子拿着两把枪、一群人在海边玩耍等。所述预设的敏感词包括:恐怖分子、抗议、防爆等;根据以上目标描述信息进行敏感词匹配,分别包含了敏感词“防爆”、“抗议”、“恐怖分子”的目标描述信息“硝烟弥漫的黑夜中走来一队防爆警察”、“愤怒的抗议人群正在焚烧国旗”、“一名恐怖分子拿着两把枪”对应的目标图像为目标类图像。
图2为本发明实施例提供的另一种图像识别方法的流程示意图;所述方法用于识别不良图像,所述方法可以应用于服务器中;如图2所示,所述方法包括:
步骤201、采集良好图像作为正样本。
具体地,所述步骤201包括:获取第一预设数量的良好图像作为正样本;所述良好图像对应有第一描述信息;所述第一描述信息可以包括:图像下载地址、图像的文件名、以及图像对应的五句中文描述。
步骤202、采集不良图像并添加中文描述作为负样本。
具体地,所述步骤202,包括:获取第二预设数量的不良图像作为负样本;确定所述不良图像的第二描述信息;所述第二描述信息可以包括:图像下载地址、图像的文件名、以及图像对应的五句中文描述。这里,所述不良图像可以包括:暴力、色情、恐怖等色彩的图像。所述第一预设数量和所述第二预设数量的比例可以在1/2-1/5之间,优选地为1/3。
步骤203、分别对正样本和负样本中的中文描述进行预处理。
具体来说,为了能够更好的提取图像特征,可分别对正样本和负样本的中文描述进行预处理,所述预处理包括以下至少一种:
中文分词,具体可以使用结巴(Jieba)分词工具对中文进行分词;
word2ix,即将每个词和词序号对应起来;
ix2word,即将词序号和词对应起来;
id2ix,即确定图像文件名对应的图像序号;
ix2id,即确定图像序号对应的图像文件名;
过滤低频词,即将文本描述中出现频率较低的词过滤掉,包括一些助词;
补齐等长,即将不同长度的数据补齐成一样长。
需要说明的是,将图像文件名或词与序号对应,相当于定义一个字典,可以通过词来查找相应的词序号或者通过词序号来查找相应的词。从而可以方便统计分词,而且还可以过滤低频分词。
步骤204、通过深度残差网络(ResNet)提取图像的图像特征。
具体来说,ResNet进行图像的语义空间到词向量的语义空间的转换,提取所述词向量的语义空间中的词向量,即所述图像特征。
这里,ResNet提取的是2048维向量,通过全连接层后变为256维的向量。ResNet提取到池化层输出,全连接层输入即倒数第二层的2048维特征向量,构造一个输入为2048维而输出为256维的全连接层,将提取到的特征向量输入该全连接层得到256维的向量,即完成图像的语义空间到词向量的语义空间的转换。
本实施例中,所述ResNet可以采用如图3所示的ResNet50;图3中的ResNet模块的结构如图4所示。
图4中,BN为Batch Normalization,即批规范化。RELU是修正线性单元(RectifiedLinear Unit)函数,RELU函数形式为:θ(x)=max(0,x)。CONV即为卷积层,卷积层是通过对图像进行卷积操作来提取图像特征。在卷积神经网络中,每个卷积层通常会包含多个可训练的卷积模板(即卷积核),不同的卷积模板对应不同的图像特征。卷积核和输入图像进行卷积操作之后,经过非线性激活函数,如Sigmoid函数、修正线性单元(RELU,RectifiedLinear Unit)函数、ELU函数等,便可以映射得到对应的特征图(Feature Map)。其中,卷积核的参数通常是采用特定的学习算法(如:随机梯度下降算法)计算得出的。所述卷积指的是用模板中的参数与图像对应位置的像素值进行加权求和的操作。一个典型的卷积过程可以如图5所示,通过滑动模板窗口,对输入图像中的所有位置进行卷积操作,之后便可以得到对应的特征图。
本实施例中,采用卷积神经网络作为基础,其优势在于:放弃传统神经网络中相邻层之间的“全连接”设计,采用局部连接和权值共享的方式,大大缩减需要训练的模型参数个数,减少计算量。所述局部连接指在卷积神经网络中每个神经元只与输入图像中的一个局部区域相连接,而不是与所有神经元全连接。所述权值共享指在输入图像的不同区域,共享连接参数(即卷积核参数)。另外,卷积神经网络的局部连接和权值共享的设计方式,使得网络提取出的特征具有高度的稳定性,对平移、缩放以及变形等不敏感。
池化层通常和卷积层成对出现,在卷积层之后,用来对输入特征图进行降采样操作。通常输入图像经过卷积操作后,会得到的大量特征图,特征维度过高会导致网络计算量剧增。池化层通过降低特征图的维度,大大减少了模型的参数个数。该方法一方面减少了网络运行的计算量,另一方面也降低了网络过拟合的风险。池化得到的特征图与卷积层的特征图是一一对应的,因此池化操作只是降低了特征图维度,其个数并没有变化。
本实施例中卷积神经网络所涉及的池化方法有:最大值池化(Max Pooling)、均值池化(Mean Pooling)和随机池化(Stochastic Pooling)。对于一个采样子区域来说,最大值池化指的是选取其中像素值最大的点作为该区域的输出结果;均值池化指的是计算其中所有像素点的均值,用该均值作为采样区域的输出;随机池化指的是从采样区域中随机选取一个像素值作为结果输出,通常像素值越大,被选择的几率就越高。最大值池化过程如下图6所示。
步骤205、根据预处理后的中文描述获得文本词特征。
具体来说,预处理后的中文描述经嵌入层(Embedding)后,获得文本词特征。其中,每个文本词特征为256维向量;常用的Embedding方法有Word2vec、GloVe等。
步骤206、根据所述图像特征和文本词特征训练计算模型,基于训练后的计算模型获得所述图像识别模型。
具体来说,所述计算模型包括LSTM。
所述步骤206包括:按顺序,将步骤204、205得到的图像对应的图像特征和文本词特征(即图7中的词向量),依次输入LSTM进行训练;计算每个词的词向量的输出,即获得根据所述图像特征获得的第一结果特征和根据所述文本词特征获得的第二结果特征;对所述第一结果特征和所述第二结果特征进行分类,根据分类结果获得至少一个预测词;以上具体过程如图7所示;
根据所述至少一个预测词生成预测描述信息;比较所述预测描述信息和所述样本描述信息,根据比较结果优化所述LSTM。
这里,可以将所述图像特征看成是第一个词的词向量,和其他词向量(即文本词特征)拼接在一起输入LSTM;所述LSTM的输出作为用来分类预测下一个词的序号的特征。
这里,LSTM记忆单元的基本结构如图8所示,其中,xt为当前时间点的输入,假设输入门单元和遗忘门单元的输入分别为it和ot,满足以下公式(1)和(2):
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (1)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (2)
其中,ft是遗忘门,则记忆细胞的状态Ct可以通过下式(3)进行计算:
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) (3)
输出门单元的值由当前的细胞状态决定,但是是经过滤波之后的细胞值。首先将细胞状态通过一个Sigmoid单元,接着利用双曲正切函数保证输出范围在-1到1之间,即:
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (4)
隐藏单元的输出ht由细胞状态和输出门单元共同决定,满足:
ht=ottanh(ct) (5)
以上,σ(·)表示Sigmoid函数,W表示各个单元之间连接的权值矩阵,b表示各个单元的偏置向量。
这里,对词的预测方法做进一步说明。本实施例中,利用每个词(指图像特征和文本词特征)的输出进行分类,根据分类结果预测下一个词。具体方法包括:利用前n-1个词作为输入,后n-1个词作为预测目标。本实施例中,考虑到使用贪心算法容易使搜索陷入局部最优,因此,使用动态规划的集束搜索(bean search)算法进行训练,每次搜索时,只记下最可能的n个词,然后继续搜索下一个词,找到n*n个序列,再下一个词找到n*n*n个序列,保存概率最大的n*n,如此不断搜索直至最后得到最优结果。
步骤207、获取待识别图像,运用所述图像识别模型识别所述待识别图像,获得针对所述待识别图像的目标描述信息;所述目标描述信息用以形容所述待识别图像表现的内容;检测所述目标描述信息,根据检测结果确定所述目标图像是否为不良图像。
具体地,所述步骤207包括:运用图像识别模型提取待识别图像的语义特征(即图像特征),根据所述语义特征获得所述待识别图像的目标描述信息,当目标描述信息中出现预设的敏感词时,则判定所述待识别图像为不良图像。
这里,所述敏感词可以预先保存在服务器中,所述敏感词可以包括恐怖、暴力、色情等不良词。服务器使用敏感词过滤算法(DFA)进行匹配,当匹配到所述目标描述信息出现敏感词时,即确定所述待识别图像为不良图像。
图9为本发明实施例提供的一种图像识别装置的结构示意图;如图9所示,所述装置包括:第一处理模块301、第二处理模块302和第三处理模块303。
所述第一处理模块301,用于获取目标图像。
所述第二处理模块302,用于运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息;所述目标描述信息用以形容所述目标图像表现的内容。
所述第三处理模块303,用于检测所述目标描述信息,根据检测结果确定所述目标图像是否为目标类图像。
具体地,所述装置还包括:预处理模块,用于生成所述图像识别模型。
所述预处理模块,具体用于获取预设数量的样本图像,以及获取每个样本图像的样本描述信息;分别提取每个样本图像的图像特征和所述每个样本图像对应的样本描述信息的文本词特征;根据所述图像特征、所述文本词特征和所述样本描述信息训练计算模型,基于训练后的计算模型获得所述图像识别模型。
这里,所述计算模型包括:LSTM。
所述预处理模块,具体用于将所述图像特征和所述文本词特征依次输入LSTM,获得结果特征;所述结果特征包括:根据所述图像特征获得的第一结果特征和根据所述文本词特征获得的第二结果特征;
对所述第一结果特征和所述第二结果特征进行分类,根据分类结果获得至少一个预测词,根据所述至少一个预测词生成预测描述信息;
比较所述预测描述信息和所述样本描述信息,根据比较结果优化所述LSTM。
具体地,所述预处理模块,具体用于对所述样本描述信息进行分词,获得至少一个样本描述词;根据所述样本描述词确定所述文本词特征。
具体地,所述第二处理模块302,具体用于运用预设的图像识别模型提取所述目标图像的图像特征,根据所述图像特征确定至少一个描述词;根据所述至少一个描述词生成针对所述目标图像的目标描述信息。
具体地,所述第三处理模块303,具体用于检测所述目标描述信息是否包含预设的敏感词,确定所述目标描述信息包含预设的敏感词时,确定所述目标图像为目标类图像。
需要说明的是:上述实施例提供的图像识别装置在进行图像识别时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的图像识别装置与图像识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图10为本发明实施例提供的另一种图像识别装置的结构示意图;所述图像识别装置可以应用于服务器;如图10所示,所述装置40包括:处理器401和用于存储能够在所述处理器上运行的计算机程序的存储器402;其中,所述处理器401用于运行所述计算机程序时,执行:获取目标图像;运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息;所述目标描述信息用以形容所述目标图像表现的内容;检测所述目标描述信息,根据检测结果确定所述目标图像是否为目标类图像。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:获取预设数量的样本图像,以及获取每个样本图像的样本描述信息;分别提取每个样本图像的图像特征和所述每个样本图像对应的样本描述信息的文本词特征;根据所述图像特征、所述文本词特征和所述样本描述信息训练计算模型,基于训练后的计算模型获得所述图像识别模型。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:将所述图像特征和所述文本词特征依次输入LSTM,获得结果特征;所述结果特征包括:根据所述图像特征获得的第一结果特征和根据所述文本词特征获得的第二结果特征;对所述第一结果特征和所述第二结果特征进行分类,根据分类结果获得至少一个预测词,根据所述至少一个预测词生成预测描述信息;比较所述预测描述信息和所述样本描述信息,根据比较结果优化所述LSTM。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:对所述样本描述信息进行分词,获得至少一个样本描述词;根据所述样本描述词确定所述文本词特征。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:运用预设的图像识别模型提取所述目标图像的图像特征,根据所述图像特征确定至少一个描述词;根据所述至少一个描述词生成针对所述目标图像的目标描述信息。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:检测所述目标描述信息是否包含预设的敏感词,确定所述目标描述信息包含预设的敏感词时,确定所述目标图像为目标类图像。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:确定所述第一识别结果符合第一预设条件时,确定所述第一图像为目标类图像;所述第一预设条件为所述第一识别结果中至少两个第一属性各自对应的置信度的和大于第一预设阈值;确定所述第一识别结果不符合第一预设条件时,确定所述至少一个第一属性各自对应的权重,根据所述至少一个第一属性各自对应的置信度和权重,获得第一置信度;根据所述第一置信度确定所述第一图像是否为目标类图像。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:识别所述第一图像,获得第二识别结果;所述第二识别结果包含所述第一图像表现的至少一种情感类型和所述至少一种情感类型各自对应的置信度;相应的,所述根据所述第一置信度确定所述第一图像是否为目标类图像,包括:根据所述第一置信度和所述第二识别结果,确定所述第一图像是否为目标类图像。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:确定所述第二识别结果符合第二预设条件时,确定所述第一图像为目标类图像;所述第二预设条件为所述第二识别结果中目标情感类型对应的置信度大于第二预设阈值;确定所述第二识别结果不符合第二预设条件时,确定所述至少一种情感类型各自对应的权重,根据所述至少一种情感类型各自对应的权重和置信度,确定第二置信度;结合所述第一置信度和所述第二置信度,确定所述第一图像是否为目标类图像。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:确定所述第一置信度对应的第一权重和所述第二置信度对应的第二权重;根据所述第一置信度、所述第一权重、所述第二置信度和所述第二权重获得目标置信度,根据所述目标置信度确定所述第一图像是否为目标类图像。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:确定所述第一图像包含人脸时,从所述第一图像中提取至少一个人脸图像;基于预设的第二图像识别模型识别所述人脸图像,获得第二识别结果;所述第二识别结果包含所述第一图像表现的至少一种人脸情感类型和所述至少一种人脸情感类型各自对应的置信度;确定所述第一图像不包含人脸时,从所述第一图像中提取场景特征;基于预设的第三图像识别模型识别所述场景特征,获得第二识别结果;所述第二识别结果包含所述第一图像表现的至少一种环境情感类型和所述至少一种环境情感类型各自对应的置信度。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:获取预设数量的样本图像,所述预设数量的样本图像中每个样本图像对应有至少一个第一属性;根据所述预设数量的样本图像以及每个样本图像对应的至少一个第一属性进行基于卷积神经网络的学习训练,获得所述第一图像识别模型。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:设定所述卷积神经网络采用Multi-label方式,且所述卷积神经网络的卷积层包括多个进行学习训练的卷积模块,不同的卷积模块对应不同的图像特征;根据所述预设数量的样本图像,运用多个卷积模块对所述至少一个第一属性中的每个第一属性分别进行学习训练;获得用于识别至少一个第一属性的所述第一图像识别模型。
需要说明的是:上述实施例提供的图像识别装置与图像识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
实际应用时,所述装置40还可以包括:至少一个网络接口403。图像识别装置40中的各个组件通过总线系统404耦合在一起。可理解,总线系统404用于实现这些组件之间的连接通信。总线系统404除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图10中将各种总线都标为总线系统404。其中,所述处理器404的个数可以为至少一个。网络接口403用于图像识别装置40与其他设备之间有线或无线方式的通信。
本发明实施例中的存储器402用于存储各种类型的数据以支持装置40的操作。
上述本发明实施例揭示的方法可以应用于处理器401中,或者由处理器401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器401可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,图像识别装置40可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行:获取目标图像;运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息;所述目标描述信息用以形容所述目标图像表现的内容;检测所述目标描述信息,根据检测结果确定所述目标图像是否为目标类图像。
在一实施例中,所述计算机程序被处理器运行时,执行:获取预设数量的样本图像,以及获取每个样本图像的样本描述信息;分别提取每个样本图像的图像特征和所述每个样本图像对应的样本描述信息的文本词特征;根据所述图像特征、所述文本词特征和所述样本描述信息训练计算模型,基于训练后的计算模型获得所述图像识别模型。
在一实施例中,所述计算机程序被处理器运行时,执行:将所述图像特征和所述文本词特征依次输入LSTM,获得结果特征;所述结果特征包括:根据所述图像特征获得的第一结果特征和根据所述文本词特征获得的第二结果特征;对所述第一结果特征和所述第二结果特征进行分类,根据分类结果获得至少一个预测词,根据所述至少一个预测词生成预测描述信息;比较所述预测描述信息和所述样本描述信息,根据比较结果优化所述LSTM。
在一实施例中,所述计算机程序被处理器运行时,执行:对所述样本描述信息进行分词,获得至少一个样本描述词;根据所述样本描述词确定所述文本词特征。
在一实施例中,所述计算机程序被处理器运行时,执行:运用预设的图像识别模型提取所述目标图像的图像特征,根据所述图像特征确定至少一个描述词;根据所述至少一个描述词生成针对所述目标图像的目标描述信息。
在一实施例中,所述计算机程序被处理器运行时,执行:检测所述目标描述信息是否包含预设的敏感词,确定所述目标描述信息包含预设的敏感词时,确定所述目标图像为目标类图像。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种图像识别方法,其特征在于,所述方法包括:
获取目标图像;
运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息;所述目标描述信息用以形容所述目标图像表现的内容;
检测所述目标描述信息,根据检测结果确定所述目标图像是否为不良图像;所述不良图像具体为包括暴力、色情或恐怖色彩的图像;
所述方法还包括:生成所述图像识别模型;
所述生成所述图像识别模型,包括:
获取第一预设数量的良好图像作为正样本以及获取第二预设数量的不良图像作为负样本,其中,各个良好图像和各个不良图像均对应有样本描述信息;所述第一预设数量与所述第二预设数量的比例为1:2~1:5之间;
分别提取各个正样本和负样本的图像特征,以及各个正样本和负样本对应的样本描述信息的文本词特征;其中,分别提取各个正样本和负样本的图像特征,包括:对各个正样本和负样本进行特征提取并降低提取的特征的维度,得到与文本词特征相应维度的图像特征;
根据所述图像特征、所述文本词特征和所述样本描述信息训练计算模型,基于训练后的计算模型获得所述图像识别模型。
2.根据权利要求1所述的方法,其特征在于,所述计算模型包括:时间递归神经网络LSTM;
所述根据所述图像特征、所述文本词特征和所述样本描述信息训练所述LSTM,包括:
将所述图像特征和所述文本词特征依次输入LSTM,获得结果特征;所述结果特征包括:根据所述图像特征获得的第一结果特征和根据所述文本词特征获得的第二结果特征;
对所述第一结果特征和所述第二结果特征进行分类,根据分类结果获得至少一个预测词,根据所述至少一个预测词生成预测描述信息;
比较所述预测描述信息和所述样本描述信息,根据比较结果优化所述LSTM。
3.根据权利要求1所述的方法,其特征在于,提取所述各个正样本和负样本对应的样本描述信息的文本词特征,包括:
对所述样本描述信息进行分词,获得至少一个样本描述词;根据所述样本描述词确定所述文本词特征。
4.根据权利要求1所述的方法,其特征在于,所述运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息,包括:
运用预设的图像识别模型提取所述目标图像的图像特征,根据所述图像特征确定至少一个描述词;
根据所述至少一个描述词生成针对所述目标图像的目标描述信息。
5.根据权利要求1所述的方法,其特征在于,所述检测所述目标描述信息,根据检测结果确定所述目标图像是否为目标类图像,包括:
检测所述目标描述信息是否包含预设的敏感词,确定所述目标描述信息包含预设的敏感词时,确定所述目标图像为目标类图像。
6.一种图像识别装置,其特征在于,所述装置包括:第一处理模块、第二处理模块和第三处理模块;其中,
所述第一处理模块,用于获取目标图像;
所述第二处理模块,用于运用预设的图像识别模型识别所述目标图像,获得针对所述目标图像的目标描述信息;所述目标描述信息用以形容所述目标图像表现的内容;
所述第三处理模块,用于检测所述目标描述信息,根据检测结果确定所述目标图像是否为不良图像;所述不良图像具体为包括暴力、色情或恐怖色彩的图像;
所述装置还包括:预处理模块,用于生成所述图像识别模型;
所述预处理模块,具体用于获取第一预设数量的良好图像作为正样本以及获取第二预设数量的不良图像作为负样本,其中,各个良好图像和各个不良图像均对应有样本描述信息;所述第一预设数量与所述第二预设数量的比例为1:2~1:5之间;分别提取各个正样本和负样本的图像特征,以及各个正样本和负样本对应的样本描述信息的文本词特征;其中,分别提取各个正样本和负样本的图像特征,包括:对各个正样本和负样本进行特征提取并降低提取的特征的维度,得到与文本词特征相应维度的图像特征;根据所述图像特征、所述文本词特征和所述样本描述信息训练计算模型,基于训练后的计算模型获得所述图像识别模型。
7.一种图像识别装置,其特征在于,所述装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行权利要求1至5任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811191691.2A CN109472209B (zh) | 2018-10-12 | 2018-10-12 | 一种图像识别方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811191691.2A CN109472209B (zh) | 2018-10-12 | 2018-10-12 | 一种图像识别方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109472209A CN109472209A (zh) | 2019-03-15 |
CN109472209B true CN109472209B (zh) | 2021-06-29 |
Family
ID=65663731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811191691.2A Active CN109472209B (zh) | 2018-10-12 | 2018-10-12 | 一种图像识别方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109472209B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162639A (zh) * | 2019-04-16 | 2019-08-23 | 深圳壹账通智能科技有限公司 | 识图知意的方法、装置、设备及存储介质 |
CN110705460B (zh) * | 2019-09-29 | 2023-06-20 | 北京百度网讯科技有限公司 | 图像类别识别方法及装置 |
CN111181835B (zh) * | 2019-10-17 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 一种消息监控方法、系统及服务器 |
CN112906726B (zh) * | 2019-11-20 | 2024-01-16 | 北京沃东天骏信息技术有限公司 | 模型训练方法、图像处理方法、装置、计算设备、介质 |
CN111241993B (zh) * | 2020-01-08 | 2023-10-20 | 咪咕文化科技有限公司 | 座位数的确定方法、装置、电子设备及存储介质 |
CN111291649B (zh) * | 2020-01-20 | 2023-08-25 | 广东三维家信息科技有限公司 | 图像识别方法、装置及电子设备 |
CN111931840A (zh) * | 2020-08-04 | 2020-11-13 | 中国建设银行股份有限公司 | 一种图片分类的方法、装置、设备及存储介质 |
CN111709406B (zh) * | 2020-08-18 | 2020-11-06 | 成都数联铭品科技有限公司 | 文本行识别方法及装置、可读存储介质、电子设备 |
CN112614568B (zh) * | 2020-12-28 | 2024-05-28 | 东软集团股份有限公司 | 检查图像的处理方法、装置、存储介质和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106846306A (zh) * | 2017-01-13 | 2017-06-13 | 重庆邮电大学 | 一种超声图像自动描述方法和系统 |
CN107133951A (zh) * | 2017-05-22 | 2017-09-05 | 中国科学院自动化研究所 | 图像篡改检测方法及装置 |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104680189B (zh) * | 2015-03-15 | 2018-04-10 | 西安电子科技大学 | 基于改进词袋模型的不良图像检测方法 |
US20170115853A1 (en) * | 2015-10-21 | 2017-04-27 | Google Inc. | Determining Image Captions |
CN107122806B (zh) * | 2017-05-16 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 一种敏感图像识别方法及装置 |
-
2018
- 2018-10-12 CN CN201811191691.2A patent/CN109472209B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
CN106846306A (zh) * | 2017-01-13 | 2017-06-13 | 重庆邮电大学 | 一种超声图像自动描述方法和系统 |
CN107133951A (zh) * | 2017-05-22 | 2017-09-05 | 中国科学院自动化研究所 | 图像篡改检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109472209A (zh) | 2019-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109472209B (zh) | 一种图像识别方法、装置和存储介质 | |
EP4035064B1 (en) | Object detection based on pixel differences | |
Alani et al. | Hand gesture recognition using an adapted convolutional neural network with data augmentation | |
CN109522925B (zh) | 一种图像识别方法、装置和存储介质 | |
CN109471944B (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
Chen et al. | Research on recognition of fly species based on improved RetinaNet and CBAM | |
CN111274922B (zh) | 基于多层次深度学习网络的行人重识别方法及系统 | |
Singh et al. | COVID 19: Identification of Masked Face using CNN Architecture | |
CN109657582B (zh) | 人脸情绪的识别方法、装置、计算机设备及存储介质 | |
WO2015196281A1 (en) | System and method for visual event description and event analysis | |
CN107871314B (zh) | 一种敏感图像鉴别方法和装置 | |
CN115443490A (zh) | 影像审核方法及装置、设备、存储介质 | |
CN111666873A (zh) | 一种基于多任务深度学习网络的训练方法、识别方法及系统 | |
CN111340213B (zh) | 神经网络的训练方法、电子设备、存储介质 | |
CN112784754A (zh) | 一种车辆再识别方法、装置、设备及存储介质 | |
CN114332893A (zh) | 表格结构识别方法、装置、计算机设备和存储介质 | |
CN114898266B (zh) | 训练方法、图像处理方法、装置、电子设备以及存储介质 | |
Zhou | IYOLO-NL: An improved you only look once and none left object detector for real-time face mask detection | |
CN107886093B (zh) | 一种字符检测方法、系统、设备及计算机存储介质 | |
Wang et al. | Multiparameter space decision voting and fusion features for facial expression recognition | |
Li et al. | Detection of partially occluded pedestrians by an enhanced cascade detector | |
CN112380369B (zh) | 图像检索模型的训练方法、装置、设备和存储介质 | |
Rachmad et al. | Comparison of CNN Architectures for Mycobacterium Tuberculosis Classification in Sputum Images | |
CN109460485A (zh) | 一种图像库建立方法、装置和存储介质 | |
CN116958615A (zh) | 图片识别方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |