CN110263730B

CN110263730B - 图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN110263730B
Application number: CN201910550592.7A
Authority: CN
Inventors: 张水发; 李岩; 王思博; 刘畅
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2022-01-21
Anticipated expiration: 2039-06-24
Also published as: US20200320352A1; CN110263730A; US11341376B2

Abstract

本公开关于一种图像识别方法、装置、电子设备及存储介质，该方法包括：获取待识别图像；将待识别图像输入到预先训练的目标算法模型中，得到待识别图像的潜在识别区域，其中，潜在识别区域为包含指定内容、且大小不大于预设阈值大小的区域；对潜在识别区域进行上采样；利用目标算法模型对上采样后的潜在识别区域进行分析，得到分类识别结果。本公开的图像识别方法，获取潜在识别区域，并对潜在识别区域进行上采样，进而得到潜在识别区域的分类识别结果，提高了对小物体识别的成功率。并且分类识别及潜在识别区域的识别均利用同一目标算法模型，能够有效减少计算量，并且大大降低了目标算法模型的复杂程度。

Description

图像识别方法、装置、电子设备及存储介质

技术领域

本公开涉及图像识别技术领域，尤其涉及图像识别方法、装置、电子设备及存储介质。

背景技术

随着计算机视觉技术的发展，图像中文字识别称为可能。尤其是在神经网络问世后，图像中文字识别技术得到了迅猛发展。相关技术中，虽然可以通过计算机视觉技术有效识别普通大小的文字，但是对于小文字，例如，像素小于16*16的文字，识别成功率低。

发明内容

本公开提供一种图像检测加速方法及装置，以至少解决相关技术小物体识别成功率低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供了一种图像识别方法，所述方法包括：

获取待识别图像；

将所述待识别图像输入到预先训练的目标算法模型中，得到所述待识别图像的潜在识别区域，其中，所述潜在识别区域为包含指定内容、且大小不大于预设阈值大小的区域；

对所述潜在识别区域进行上采样；

利用所述目标算法模型对上采样后的潜在识别区域进行分析，得到分类识别结果。

可选的，所述将所述待识别图像输入到预先训练的目标算法模型中，得到所述待识别图像的潜在识别区域，包括：

利用所述目标算法模型的特征提取网络，对所述待识别图像进行特征提取，得到第一特征图；

利用所述目标算法模型的区域生成网络，对所述第一特征图进行分析，得到所述第一特征图的建议检测框；

利用所述目标算法模型的区域池化网络，对所述第一特征图的建议检测框中的目标特征区域进行分析，得到所述目标特征区域的目标识别结果，其中，所述目标识别结果包括所述目标特征区域中不包含潜在识别区域，或所述目标识别结果包括所述目标特征区域中潜在识别区域的目标区域位置，所述潜在识别区域为所述目标特征区域中表示潜在识别区域的区域；

当所述目标识别结果为所述目标特征区域中潜在识别区域的目标区域位置时，在所述待识别图像中提取所述目标区域位置处的图像，得到所述潜在识别区域。

可选的，所述目标识别结果还包括：所述目标特征区域中除潜在识别区域外的其他区域的分类识别结果。

可选的，所述利用所述目标算法模型对上采样后的潜在识别区域进行分析，得到分类识别结果，包括：

利用所述目标算法模型的特征提取网络，对上采样后的潜在识别区域进行特征提取，得到第二特征图；

利用所述目标算法模型的区域生成网络，对所述第二特征图进行分析，得到所述第二特征图的建议检测框；

利用所述目标算法模型的区域池化网络，对所述第二特征图的建议检测框中的指定特征区域进行分析，得到所述指定特征区域的识别结果，其中，所述指定特征区域的识别结果包括分类识别结果。

可选的，预先训练的目标算法模型的步骤包括：

获取样本图像，标注所述样本图像中的指定内容及潜在识别区域；

将标注后的样本图像输入到初始算法模型中进行训练，得到预先训练的目标算法模型。

根据本公开实施例的第二方面，提供了一种图像识别装置，所述装置包括：

待识别图像获取模块，被配置为获取待识别图像；

潜在识别区域获取模块，被配置为将所述待识别图像输入到预先训练的目标算法模型中，得到所述待识别图像的潜在识别区域，其中，所述潜在识别区域为包含指定内容、且大小不大于预设阈值大小的区域；

图像上采样模块，被配置为对所述潜在识别区域进行上采样；

识别结果获取模块，被配置为利用所述目标算法模型对上采样后的潜在识别区域进行分析，得到分类识别结果。

可选的，所述潜在识别区域获取模块，具体用于：

可选的，所述识别结果获取模块，具体用于：

可选的，预先训练的目标算法模型的步骤包括：

根据本公开实施例的第三方面，提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面任一所述的图像识别方法。

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现述第一方面任一所述的图像识别方法。

根据本公开实施例的第五方面，提供了一种计算机程序产品，所述计算机程序被处理器执行时实现述第一方面任一所述的图像识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：获取潜在识别区域，并对潜在识别区域进行上采样，进而得到潜在识别区域的分类识别结果，提高了对小物体识别的成功率。并且分类识别及潜在识别区域的识别均利用同一目标算法模型，能够有效减少计算量，并且大大降低了目标算法模型的复杂程度。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的图像识别方法的第一种示意图；

图2为本申请实施例的图像识别方法的第二种示意图；

图3为本申请实施例的图像识别方法的第三种示意图；

图4为本申请实施例的图像识别方法的第四种示意图；

图5为本申请实施例的图像识别装置的一种示意图；

图6为本申请实施例的电子设备的一种示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了提高图像中小物体识别的成功率，本申请实施例提供了一种图像识别方法，参见图1，该方法包括：

S101，获取待识别图像。

本申请实施例的图像识别方法可以应用于电子设备，具体的电子设备可以为服务器或智能手机等。

电子设备获取待识别图像，在待识别图像的分辨率不为预设分辨率时，还可以将待识别图像调整为预设分辨率的大小。其中，预设分辨率为S102中预先训练的目标算法模型的输入分辨率，按照实际目标算法模型的需求进行设定。

S102，将上述待识别图像输入到预先训练的目标算法模型中，得到上述待识别图像的潜在识别区域，其中，上述潜在识别区域为包含指定内容、且大小不大于预设阈值大小的区域。

指定内容是指待识别的内容，例如，在待识别的内容为文字时，指定内容为文字；在待识别的内容为车辆时，指定内容为车辆等。预设阈值大小可以根据实际情况进行设定，例如，预设阈值大小设定为12*12、16*16或24*24等。

可选的，参见图2，上述将上述待识别图像输入到预先训练的目标算法模型中，得到上述待识别图像的潜在识别区域，包括：

S1021，利用上述目标算法模型的特征提取网络，对上述待识别图像进行特征提取，得到第一特征图。

S1022，利用上述目标算法模型的区域生成网络，对上述第一特征图进行分析，得到上述第一特征图的建议检测框。

利用目标算法模型的区域生成网络对第一特征图进行类别回归和检测框回归，根据类别回归和检测框回归的结果，再做nms(Non-Maximum Suppression，非极大值抑制)，得到建议检测框。

S1023，利用上述目标算法模型的区域池化网络，对上述第一特征图的建议检测框中的目标特征区域进行分析，得到上述目标特征区域的目标识别结果，其中，上述目标识别结果包括上述目标特征区域中不包含潜在识别区域，或上述目标识别结果包括上述目标特征区域中潜在识别区域的目标区域位置，上述潜在识别区域为上述目标特征区域中表示潜在识别区域的区域；

除了识别潜在识别区域外，目标算法模型还可以进行分类识别。在一种可能的实施方式中，上述目标识别结果还包括：上述目标特征区域中除潜在识别区域外的其他区域的分类识别结果。

S1024，当上述目标识别结果为上述目标特征区域中潜在识别区域的目标区域位置时，在上述待识别图像中提取上述目标区域位置处的图像，得到上述潜在识别区域。

S103，对上述潜在识别区域进行上采样。

电子设备对潜在识别区域进行上采样，并缩放为预设分辨率的大小。

S104，利用上述目标算法模型对上采样后的潜在识别区域进行分析，得到分类识别结果。

分类识别结果为内容的识别结果，例如在指定内容为文字时，分类识别结果为文字识别结果；在指定内容为人脸时，分类识别结果为人脸识别结果等。

可选的，参见图3，上述利用上述目标算法模型对上采样后的潜在识别区域进行分析，得到分类识别结果，包括：

S1041，利用上述目标算法模型的特征提取网络，对上采样后的潜在识别区域进行特征提取，得到第二特征图；

S1042，利用上述目标算法模型的区域生成网络，对上述第二特征图进行分析，得到上述第二特征图的建议检测框；

利用目标算法模型的区域生成网络对第二特征图进行类别回归和检测框回归，根据类别回归和检测框回归的结果，再做nms，得到建议检测框。

S1043，利用上述目标算法模型的区域池化网络，对上述第二特征图的建议检测框中的指定特征区域进行分析，得到上述指定特征区域的识别结果，其中，上述指定特征区域的识别结果包括分类识别结果。

在一种可能的实施方式中，若指定特征区域的识别结果中还包括指定特征区域中潜在识别区域的区域位置，则可以按照该区域位置在上采样后的潜在识别区域中提取新的潜在识别区域并输入到目标算法模型中进行分析，直至目标算法模型输出的识别结果为目标特征区域中不包含潜在识别区域。从而递归检测小物体，对于不同尺度的小物体有很好的适应性。

目标算法模型具有潜在识别区域提取及图像识别两种功能。在一种可能的实施方式中，预先训练的目标算法模型的步骤包括：

步骤一，获取样本图像，标注上述样本图像中的指定内容及潜在识别区域。

在获取到样本图像后，标注出样本图像中的潜在识别区域及样本图像包含的指定内容。例如，在标记groundtruth时，除了正常标记之外，还将包括指定物体且大小不大于预设阈值大小的区域，标记为当前尺度的潜在groundtruth，并且为了增加容错性。

步骤二，将标注后的样本图像输入到初始算法模型中进行训练，得到预先训练的目标算法模型。

将标注后的样本图像输入到初始算法模型中进行训练，在结果收敛或输入样本数量达到预设数量后，得到预先训练的目标算法模型。初始算法模型可以为faster rcnn(Regions with Convolutional Neural Networks)、yolo(You Only Look Once)、SSD(Single Shot MultiBox Detector)，rfcn(Region-based Fully ConvolutionalNetworks)或cascade rcnn等。

在本申请实施例中，获取潜在识别区域，并对潜在识别区域进行上采样，进而得到潜在识别区域的分类识别结果，提高了对小物体识别的成功率。并且分类识别及潜在识别区域的识别均利用同一目标算法模型，能够有效减少计算量，并且大大降低了目标算法模型的复杂程度。

参见图4，下面以两段式faster rcnn为例，对本申请实施例的图像识别方法进行具体说明。

将待识别图像缩放到预设分辨率的大小，输入到目标算法模型的特征提取网络，该特征提取网络可以是VGG16、InceptionV1、InceptionV2、resnet或Inception-resnet等网络，得到特征图。

将特征图输入rpn(Region Proposal Network，区域生成网络)网络中，进行类别回归和检测框回归，根据类别回归和检测框回归的结果，再做nms，得到建议检测框。

用建议检测框在特征图中截取对应区域的目标特征区域，输入ROI(region ofinterest，感兴趣区域)-pooling层，进行类别回归和检测框回归，得到识别结果，识别结果包括目标特征区域中潜在识别区域的目标区域位置及目标特征区域中除潜在识别区域外的其他区域的分类识别结果，在待识别图像中提取所述目标区域位置处的图像，得到潜在识别区域。

将检测到的潜在识别区域上采样后重新输入目标算法模型，重新检测，得到识别结果；重复直到没有检测到任何潜在物体区域。

本申请实施例还提供了一种图像识别装置，参见图5，该装置包括：

待识别图像获取模块501，被配置为获取待识别图像；

潜在识别区域获取模块502，被配置为将上述待识别图像输入到预先训练的目标算法模型中，得到上述待识别图像的潜在识别区域，其中，上述潜在识别区域为包含指定内容、且大小不大于预设阈值大小的区域；

图像上采样模块503，被配置为对上述潜在识别区域进行上采样；

识别结果获取模块504，被配置为利用上述目标算法模型对上采样后的潜在识别区域进行分析，得到分类识别结果。

可选的，上述潜在识别区域获取模块502，具体用于：

利用上述目标算法模型的特征提取网络，对上述待识别图像进行特征提取，得到第一特征图；

利用上述目标算法模型的区域生成网络，对上述第一特征图进行分析，得到上述第一特征图的建议检测框；

利用上述目标算法模型的区域池化网络，对上述第一特征图的建议检测框中的目标特征区域进行分析，得到上述目标特征区域的目标识别结果，其中，上述目标识别结果包括上述目标特征区域中不包含潜在识别区域，或上述目标识别结果包括上述目标特征区域中潜在识别区域的目标区域位置，上述潜在识别区域为上述目标特征区域中表示潜在识别区域的区域；

当上述目标识别结果为上述目标特征区域中潜在识别区域的目标区域位置时，在上述待识别图像中提取上述目标区域位置处的图像，得到上述潜在识别区域。

可选的，上述目标识别结果还包括：上述目标特征区域中除潜在识别区域外的其他区域的分类识别结果。

可选的，上述识别结果获取模块504，具体用于：

利用上述目标算法模型的特征提取网络，对上采样后的潜在识别区域进行特征提取，得到第二特征图；

利用上述目标算法模型的区域生成网络，对上述第二特征图进行分析，得到上述第二特征图的建议检测框；

利用上述目标算法模型的区域池化网络，对上述第二特征图的建议检测框中的指定特征区域进行分析，得到上述指定特征区域的识别结果，其中，上述指定特征区域的识别结果包括分类识别结果。

可选的，预先训练的目标算法模型的步骤包括：

获取样本图像，标注上述样本图像中的指定内容及潜在识别区域；

本申请实施例还提供了一种电子设备，包括：处理器及存储器；

上述存储器，用于存放计算机程序

上述处理器用于执行上述存储器存放的计算机程序时，实现如下步骤：

获取待识别图像；

将上述待识别图像输入到预先训练的目标算法模型中，得到上述待识别图像的潜在识别区域，其中，上述潜在识别区域为包含指定内容、且大小不大于预设阈值大小的区域；

对上述潜在识别区域进行上采样；

利用上述目标算法模型对上采样后的潜在识别区域进行分析，得到分类识别结果。

可选的，参见图6，本申请实施例的电子设备还包括通信接口602和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。

可选的，上述处理器用于执行上述存储器存放的计算机程序时，还能够实现上述任一图像识别方法。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现如下步骤：

获取待识别图像；

对上述潜在识别区域进行上采样；

可选的，上述计算机程序被处理器执行时，还能够实现上述任一图像识别方法。

本申请实施例还提供了一种计算机程序产品，上述计算机程序产品被处理器执行时实现如下步骤：

获取待识别图像；

对上述潜在识别区域进行上采样；

可选的，上述计算机程序产品被处理器执行时，还能够实现上述任一图像识别方法。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取待识别图像；

利用目标算法模型的特征提取网络，对所述待识别图像进行特征提取，得到第一特征图；

利用所述目标算法模型的区域池化网络，对所述第一特征图的建议检测框中的目标特征区域进行分析，得到所述目标特征区域的目标识别结果，其中，所述目标识别结果包括所述目标特征区域中不包含潜在识别区域，或所述目标识别结果包括所述目标特征区域中潜在识别区域的目标区域位置，所述潜在识别区域为所述目标特征区域中表示潜在识别区域的区域；所述目标识别结果还包括：所述目标特征区域中除潜在识别区域外的其他区域的分类识别结果；

当所述目标识别结果为所述目标特征区域中潜在识别区域的目标区域位置时，在所述待识别图像中提取所述目标区域位置处的图像，得到所述潜在识别区域，其中，所述潜在识别区域为包含指定内容、且大小不大于预设阈值大小的区域；

对所述潜在识别区域进行上采样；

利用所述目标算法模型对上采样后的潜在识别区域进行分析，得到分类识别结果；

所述利用所述目标算法模型对上采样后的潜在识别区域进行分析，得到分类识别结果，包括：

2.根据权利要求1所述的方法，其特征在于，预先训练的目标算法模型的步骤包括：

3.一种图像识别装置，其特征在于，所述装置包括：

待识别图像获取模块，被配置为获取待识别图像；

潜在识别区域获取模块，被配置为利用目标算法模型的特征提取网络，对所述待识别图像进行特征提取，得到第一特征图；利用所述目标算法模型的区域生成网络，对所述第一特征图进行分析，得到所述第一特征图的建议检测框；利用所述目标算法模型的区域池化网络，对所述第一特征图的建议检测框中的目标特征区域进行分析，得到所述目标特征区域的目标识别结果，其中，所述目标识别结果包括所述目标特征区域中不包含潜在识别区域，或所述目标识别结果包括所述目标特征区域中潜在识别区域的目标区域位置，所述潜在识别区域为所述目标特征区域中表示潜在识别区域的区域；所述目标识别结果还包括：所述目标特征区域中除潜在识别区域外的其他区域的分类识别结果；当所述目标识别结果为所述目标特征区域中潜在识别区域的目标区域位置时，在所述待识别图像中提取所述目标区域位置处的图像，得到所述潜在识别区域，其中，所述潜在识别区域为包含指定内容、且大小不大于预设阈值大小的区域；

识别结果获取模块，被配置为利用所述目标算法模型对上采样后的潜在识别区域进行分析，得到分类识别结果；

所述识别结果获取模块，具体用于：

4.根据权利要求3所述的装置，其特征在于，预先训练的目标算法模型的步骤包括：

5.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-2任一所述的图像识别方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-2任一所述的图像识别方法。