CN111753575B

CN111753575B - 文本识别方法、装置及设备

Info

Publication number: CN111753575B
Application number: CN201910234586.0A
Authority: CN
Inventors: 张鹏
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2024-10-18
Anticipated expiration: 2039-03-26
Also published as: CN111753575A

Abstract

本发明提供一种文本识别方法、装置及设备，该文本识别方法包括：从目标图像中提取文本区域图像，所述文本区域图像包括至少一个字符；从文本区域图像中提取单字符图像，每个单字符图像包括一个字符；对各单字符图像中的字符进行识别得到字符识别结果。保证识别字符的完整性，降低文本识别错误率，有利于提高鲁棒性。

Description

文本识别方法、装置及设备

技术领域

本发明涉及计算机视觉技术领域，尤其涉及的是一种文本识别方法、装置及设备。

背景技术

文本在各种场景中都可能出现，如商场标志、物品品牌、各种书籍、视频等，文本能够帮助我们更好地理解场景的相关情况，进而帮助做出相应决策，因而在较多的场景中都需要采集文本图像，并对图像中的文本进行识别。

相关的文本识别方式中，采集到文本图像后，从文本图像中提取出文本区域后，对文本区域进行语义分割，基于语义分割结果来识别文本区域中的字符。在一些比较复杂的场景下，文本布局会比较杂乱，无法构成规整的“行”，上述方式中，在较为复杂的场景下，比如字符歪斜、背景杂乱的场景，基于语义分割结果来识别文本区域中的字符时有些字符可能无法被完整识别，导致文本识别错误，鲁棒性较差。

发明内容

有鉴于此，本发明提供一种文本识别方法、装置及设备，保证识别字符的完整性，降低文本识别错误率，有利于提高鲁棒性。

本发明第一方面提供一种文本识别方法，包括：

从目标图像中提取文本区域图像，所述文本区域图像包括至少一个字符；

从文本区域图像中提取单字符图像，每个单字符图像包括一个字符；

对各单字符图像中的字符进行识别得到字符识别结果。

根据本发明的一个实施例，从目标图像中提取文本区域图像，包括：

将所述目标图像输入至已训练的第一神经网络中，以由所述第一神经网络从目标图像中确定出多个文本区域候选块、并计算各个文本区域候选块属于文本区域的置信度；

选择置信度大于第一预设阈值的文本区域候选块作为所述文本区域图像。

根据本发明的一个实施例，所述第一神经网络从目标图像中确定出多个文本区域候选块、并计算各个文本区域候选块属于文本区域的置信度，包括：

所述第一神经网络通过第一特征计算层对输入的目标图像进行特征提取得到第一特征图，并将所述第一特征图分别输出至所述第一神经网络的第一区域候选计算层、第一分类计算层；

所述第一神经网络通过第一区域候选计算层基于所述第一特征图从目标图像中确定出多个文本区域候选块；

所述第一神经网络通过所述第一分类计算层基于所述第一特征图中与各个文本区域候选块对应的特征区域计算文本区域候选块属于文本区域的置信度。

根据本发明的一个实施例，从文本区域图像中提取单字符图像，包括：

将所述文本区域图像输入至已训练的第二神经网络中，以由所述第二神经网络从文本区域图像中确定出多个单字符区域候选块、并计算各个单字符区域候选块属于单字符区域的置信度；

选择置信度大于第二预设阈值的单字符区域候选块作为所述单字符图像。

根据本发明的一个实施例，所述第二神经网络从文本区域图像中确定出多个单字符区域候选块、并计算各个单字符区域候选块属于单字符区域的置信度，包括：

所述第二神经网络通过第二特征计算层单元对输入的文本区域图像进行特征提取得到第二特征图，并将所述第二特征图分别输出至所述第二神经网络的第二区域候选计算层、第二分类计算层；

所述第二神经网络通过第二区域候选计算层基于所述第二特征图从文本区域图像中确定出多个单字符区域候选块；

所述第二神经网络通过所述第二分类计算层基于所述第二特征图中与各个单字符区域候选块对应的特征区域计算单字符区域候选块属于单字符区域的置信度。

根据本发明的一个实施例，对各单字符图像中的字符进行识别得到字符识别结果，包括：

将各单字符图像分别输入至已训练的第三神经网络中，以由所述第三神经网络的第三特征计算层对输入的单字符图像进行特征提取得到第三特征图，由所述第三分类计算层基于所述第三特征图计算并输出所述单字符图像中字符属于各预设字符类别的置信度；

选择置信度最大的预设字符类别对应的字符作为相应单字符图像的字符识别结果。

本发明第二方面提供一种文本识别装置，包括：

文本区域图像提取模块，用于从目标图像中提取文本区域图像，所述文本区域图像包括至少一个字符；

单字符图像提取模块，用于从文本区域图像中提取单字符图像，每个单字符图像包括一个字符；

字符识别模块，用于对各单字符图像中的字符进行识别得到字符识别结果。

根据本发明的一个实施例，所述文本区域图像提取模块包括：

目标图像处理单元，用于将所述目标图像输入至已训练的第一神经网络中，以由所述第一神经网络从目标图像中确定出多个文本区域候选块、并计算各个文本区域候选块属于文本区域的置信度；

文本区域图像确定单元，用于选择置信度大于第一预设阈值的文本区域候选块作为所述文本区域图像。

根据本发明的一个实施例，所述第一神经网络从目标图像中确定出多个文本区域候选块、并计算各个文本区域候选块属于文本区域的置信度时，具体用于：

根据本发明的一个实施例，所述单字符图像提取模块包括：

文本区域图像处理单元，用于将所述文本区域图像输入至已训练的第二神经网络中，以由所述第二神经网络从文本区域图像中确定出多个单字符区域候选块、并计算各个单字符区域候选块属于单字符区域的置信度；

单字符图像确定单元，用于选择置信度大于第二预设阈值的单字符区域候选块作为所述单字符图像。

根据本发明的一个实施例，所述第二神经网络从文本区域图像中确定出多个单字符区域候选块、并计算各个单字符区域候选块属于单字符区域的置信度时，具体用于：

根据本发明的一个实施例，所述字符识别模块包括：

单字符图像处理单元，用于将各单字符图像分别输入至已训练的第三神经网络中，以由所述第三神经网络的第三特征计算层对输入的单字符图像进行特征提取得到第三特征图，由所述第三分类计算层基于所述第三特征图计算并输出所述单字符图像中字符属于各预设字符类别的置信度；

字符确定单元，用于选择置信度最大的预设字符类别对应的字符作为相应单字符图像的字符识别结果。

本发明第三方面提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例所述的文本识别方法。

本发明第四方面提供一种机器可读存储介质，其上存储有程序，该程序被处理器执行时，实现如前述实施例所述的文本识别方法。

本发明实施例具有以下有益效果：

本发明实施例中，从目标图像中提取出文本区域图像后，再从文本区域图像中提取单字符图像，每个单字符图像包含一个字符，可以保证其中所需识别字符的完整性，场景的复杂并不影响对单字符图像中字符的识别，降低文本字符识别错误的可能性，有利于提升鲁棒性，可适用于更多复杂场景中的文字识别。

附图说明

图1是本发明一实施例的文本识别方法的流程示意图；

图2是本发明一实施例的文本识别装置的结构框图；

图3是本发明一实施例的第一神经网络的结构框图；

图4是本发明一实施例的第二神经网络的结构框图；

图5是本发明一实施例的第三神经网络的结构框图；

图6是本发明一实施例的电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种器件，但这些信息不应限于这些术语。这些术语仅用来将同一类型的器件彼此区分开。例如，在不脱离本发明范围的情况下，第一器件也可以被称为第二器件，类似地，第二器件也可以被称为第一器件。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使得本发明的描述更清楚简洁，下面对本发明中的一些技术术语进行解释：

深度学习：深度学习的概念源于人工神经网络的研究，是一种使用较深的神经网络来模拟人脑分析学习、并建立对应数据表征的方法。

神经网络：一种通过模仿大脑结构抽象而成的技术，该技术将大量简单的函数进行复杂的连接，形成一个网络系统，该系统可以拟合极其复杂的函数关系，一般可以包括卷积/反卷积操作、激活操作、池化操作，以及加减乘除、通道合并、元素重新排列等操作。使用特定的输入数据和输出数据对网络进行训练，调整其中的连接，可以让神经网络学习拟合输入和输出之间的映射关系。

端到端：由输入端的数据直接得到输出端的结果。

本发明实施例的文本识别方法可以应用于各种需要进行文字识别的场景中，比如可以用在视频文本识别、卡证文本识别、海报文本识别、车牌文本识别等等，具体不限。

下面对本发明实施例的文本识别方法进行更具体的描述，但不应以此为限。在一个实施例中，参看图1，一种文本识别方法，可以包括以下步骤：

S100：从目标图像中提取文本区域图像，所述文本区域图像包括至少一个字符；

S200：从文本区域图像中提取单字符图像，每个单字符图像包括一个字符；

S300：对各单字符图像中的字符进行识别得到字符识别结果。

本发明实施例的文本识别方法的执行主体可以为电子设备，进一步地可以为电子设备的处理器，其中，所述处理器可以为一个或多个，所述处理器可以为通用处理器或者专用处理器。电子设备例如是成像设备或其他具有图像处理能力的设备。

该目标图像中包含文本，可以是针对海报、车牌、卡证等具有文本的场景所采集的图像。目标图像中包含的文本可以是中文文本，也可以是英文文本，文本的具体语言类别不限。目标图像可以是由电子设备采集的，或者也可以是由外部成像设备采集后传输给电子设备的。

步骤S100中，从目标图像中提取文本区域图像，所述文本区域图像包括至少一个字符。

从目标图像中提取文本区域图像时，可以检测目标图像中文本所处区域，根据检测出的文本区域的位置信息从目标图像中提取出文本区域图像。

检测目标图像中文本所处区域的方式不限，可以基于深度学习的方法来实现，例如可以采用FASText(快速文本分类)模型来实现，只要能够检测出目标图像中的文本区域即可。文本区域的位置信息可以用包围该文字区域中所有文字的文本包围框的位置信息来表示，具体可以用该文本包围框的四个顶点的位置信息来表示。文本包围框的形状可以为四边形或多边形，形状可以是规则或不规则的。

依据文本包围框的四个顶点的位置信息可以在目标图像中提取文本包围框所包围的区域作为文本区域图像。

从目标图像中提取出的文本区域图像可为一个或两个以上，每个文本区域图像包含至少一个字符。在目标图像中的字符集中于一处时，提取出的文本区域图像为一个，当目标图像中的字符较为分散时，可提取出多个文本区域图像。

在步骤S200中，从文本区域图像中提取单字符图像，每个单字符图像包括一个字符。

从文本区域图像中提取单字符图像时，可以检测出文本区域图像中各字符所处区域，根据检测出的单字符区域的位置信息从文本区域图像中提取出单字符图像。

检测文本区域图像中各字符所处区域，可以采用基于深度学习的方式来实现，只要能够检测出各字符所处区域中各字符所处区域即可。与文本区域的位置信息类似的，单字符区域的位置信息可以用包围字符的字符包围框的位置信息来表示，具体可以用该字符包围框的四个顶点的位置信息来表示。字符包围框的形状可以包括四边形、多边形等规则或不规则形状，可根据场景中字符在文本区域图像中的形状而定，比如字符倾斜时，字符包围框可以是朝相同方向倾斜的平行四边形。

依据每个字符的字符包围框的四个顶点的位置信息在文本区域图像中截取字符包围框所包围的区域作为单字符图像。比如，文本区域图像中的文本为“火星人”，从中提取出了包含“火”的单字符图像、包含“星”的单字符图像、及包含“人”的单字符图像。

不同单字符图像之间当然也有可能存在交集，比如，包含“火”的单字符图像中可能存在“星”的部分笔画。但是，每个单字符图像中包含一个完整的字符，基于单字符图像可实现其中完整单字符的识别。

步骤S300中，对各单字符图像中的字符进行识别得到字符识别结果。

可以基于深度学习的方式来实现单个字符的识别，可从每个单字符图像中识别出一个其包含的字符作为字符识别结果，得到所有单字符图像的字符识别结构后，即完成了文本所有字符的识别。

比如，从包含“火”的单字符图像中可识别出“火”，从包含“星”的单字符图像中可识别出“星”，从包含“人”的单字符图像中可识别出“人”，得到文本的所有字符“火星人”。

本发明实施例中，由于可以提取单字符图像进行字符识别，在场景比较复杂，文本布局比较杂乱，无法构成规整的“行”，或者当前场景中要识别的字符包含形近字、生僻字(即类别数很多，大于20000)，或者文本可以成行、但一行包含的字符数量较多，如大于100个时，仍然可以实现单字符图像的准确提取，进而实现文本字符的准确识别。

在一个实施例中，上述方法流程可由文本识别装置执行，如图2所示，文本识别装置100可以包含3个模块：文本区域图像提取模块101、单字符图像提取模块102和字符识别模块103。文本区域图像提取模块101用于执行上述步骤S100，单字符图像提取模块102用于执行上述步骤S200，字符识别模块103用于执行上述步骤S300。

在一个实施例中，步骤S100中，从目标图像中提取文本区域图像，包括：

S101：将所述目标图像输入至已训练的第一神经网络中，以由所述第一神经网络从目标图像中确定出多个文本区域候选块、并计算各个文本区域候选块属于文本区域的置信度；

S102：选择置信度大于第一预设阈值的文本区域候选块作为所述文本区域图像。

第一神经网络输出的置信度可以表示文本区域候选块属于文本区域的可能性，置信度越高表明文本区域候选块属于文本区域的可能性越大。

在目标图像输入到第一神经网络中后，第一神经网络会从目标图像中确定出多个文本区域候选块。通过对文本区域候选块的特征分析，可以计算文本区域候选块属于文本区域的置信度。第一神经网络可以输出每个文本区域候选块属于文本区域的置信度及对应的位置信息(即该文本区域候选块的位置信息)。

选择置信度大于第一预设阈值的文本区域候选块作为所述文本区域图像时，可以遍历第一神经网络输出的所有置信度，判断遍历到的置信度是否大于第一预设阈值，如果是，那么将对应文本区域候选块作为所述文本区域图像，可以依据该置信度对应的位置信息从目标图像中截取出该文本区域候选块作为所述文本区域图像。

第一神经网络是预先训练好的，可以预存在电子设备中或者存储在外部设备中，在需要执行上述方法时电子设备可调用该第一神经网络。

对于第一神经网络的训练，可以通过获取文本图像样本和对应的文本图像样本中文本区域的位置信息样本作为训练样本集，将文本图像样本作为输入，将对应的文本区域的位置信息样本作为输出，对第一神经网络进行训练。文本图像样本中文本区域的位置信息样本可以通过人工标定，具体不限。

在一个实施例中，步骤S101中，所述第一神经网络从目标图像中确定出多个文本区域候选块、并计算各个文本区域候选块属于文本区域的置信度，包括：

步骤S1011：所述第一神经网络通过第一特征计算层对输入的目标图像进行特征提取得到第一特征图，并将所述第一特征图分别输出至所述第一神经网络的第一区域候选计算层、第一分类计算层；

步骤S1012：所述第一神经网络通过第一区域候选计算层基于所述第一特征图从目标图像中确定出多个文本区域候选块；

步骤S1013：所述第一神经网络通过所述第一分类计算层基于所述第一特征图中与各个文本区域候选块对应的特征区域计算文本区域候选块属于文本区域的置信度。

参看图3，第一神经网络200可以包括至少一层用于执行特征提取的第一特征计算层201、至少一层用于执行文本区域候选块的确定的第一区域候选计算层202、至少一层用于执行置信度的计算的第一分类计算层203。当然，第一神经网络还可以包括其他层，比如图3中示出的用于执行位置信息回归的第一回归计算层204。

第一特征计算层201可以采用至少一层卷积层实现，比如可以采用CNN(Convolutional Neural Network，卷积神经网络，是一种前馈的人工神经网络，其神经元可以响应有限覆盖范围内周围单元，并通过权值共享和特征汇聚，有效提取图像的特征信息)实现，当然也可以采用其他特征提取网络实现。

第一特征计算层201得到第一特征图之后，将第一特征图分别输出至第一区域候选计算层202、及第一分类计算层203。

第一区域候选计算层202可以通过RPN(Region Proposal Networks，区域候选网络)、RRPN(Rotation Region Proposal Networks，旋转区域候选网络)等算法实现。在第一区域候选计算层202中可以预设有多个锚点(anchor)及多个候选框，各个候选框的形状、尺寸、位置可不同，锚点可以用来定位候选框，每个候选框通过锚点在第一特征图中定位时可以选中第一特征图中的一块特征区域、在目标图像中定位时可选中目标图像中的一块区域，可以选中的特征区域来判断目标图像中位置对应的区域是否有可能属于文本区域，比如可以通过选中的特征区域中的特征与文本特征进行相似度比对来确定，如果是，则将目标图像中位置对应的区域确定为文本区域候选块。

第一区域候选计算层202中的锚点可以预先标定，可在目标图像中定位候选框以使其选中目标图像中相应区域，对于第一特征图也适用。当然，锚点也可以以随机的方式来确定。可选的，这些候选框选中的区域之间通常会存在交集，并且所有选中区域整体可以覆盖整个目标图像，避免漏掉可能的文本区域。

确定出的文本区域候选块并不一定就是所需的文本区域，因为可能存在以下情况：文本的部分比如80％落在某个文本区域候选块内而另一部分比如20％落在该文本区域候选块外。因而，需要继续确定出哪些是属于文本区域的文本区域候选块。

第一区域候选计算层202可以将确定出的文本区域候选块的位置信息输出至第一分类计算层203。在需要进行位置信息回归时，第一区域候选计算层202还可将文本区域候选块的位置信息输出至第一回归计算层204。文本区域候选块的位置信息可以是锚点定位的候选框的顶点在目标图像中的坐标来表示。

第一分类计算层203可以采用至少一个全连接层来实现，比如为2～3层全连接层，只要能够基于所述第一特征图中与各个文本区域候选块对应的特征区域计算文本区域候选块属于文本区域的置信度即可。第一分类计算层203是通过训练而具备计算该置信度的功能的，如果文本基本上都落在某个文本区域候选块中，那么该文本区域候选块属于文本区域的置信度就会较高，反之则会较低。第一分类计算层203可以输出各文本区域候选块属于文本区域的置信度，作为第一神经网络的输出结果。

第一回归计算层204可以采用能够实现坐标回归的回归层，回归的实现一般是对位置信息进行坐标变换，例如包括平移变换和/或尺度缩放变换，以确定出更精确的位置信息。第一回归计算层204对各文本区域候选块的位置信息回归之后，可将回归后的位置信息输出，作为第一神经网络的另一个输出结果。

第一神经网络200输出的各置信度与位置信息是对应的，如此，可以依据输出的位置信息确定目标图像中的对应文本区域候选块，同时依据对应的置信度确定该文本区域候选块是否属于文本区域。

在一个实施例中，步骤S200中，从文本区域图像中提取单字符图像，包括：

S201：将所述文本区域图像输入至已训练的第二神经网络中，以由所述第二神经网络从文本区域图像中确定出多个单字符区域候选块、并计算各个单字符区域候选块属于单字符区域的置信度；

S202：选择置信度大于第二预设阈值的单字符区域候选块作为所述单字符图像。

第二神经网络输出的置信度可以表示单字符区域候选块属于单字符区域的可能性，置信度越高表明单字符区域候选块属于单字符区域的可能性越大。

在文本区域图像输入到第二神经网络中后，第二神经网络会从文本区域图像中确定出多个单字符区域候选块。通过对单字符区域候选块的特征分析，可以计算单字符区域候选块属于单字符区域的置信度。第二神经网络可以输出每个单字符区域候选块属于单字符区域的置信度及对应的位置信息(即该单字符区域候选块的位置信息)。单字符区域即仅存在一个字符的图像区域。

选择置信度大于第二预设阈值的单字符区域候选块作为所述单字符图像时，可以遍历第二神经网络输出的所有置信度，判断遍历到的置信度是否大于第二预设阈值，如果是，那么将对应单字符区域候选块作为所述单字符图像，可以依据该置信度对应的位置信息从文本区域图像中截取出该单字符区域候选块作为所述单字符图像。

第二神经网络是预先训练好的，可以预存在电子设备中或者存储在外部设备中，在需要执行上述方法时电子设备可调用该第二神经网络。

对于第二神经网络的训练，可以通过获取单字符图像样本和对应的单字符图像样本中单字符区域的位置信息样本作为训练样本集，将单字符图像样本作为输入，将对应的单字符区域的位置信息样本作为输出，对第二神经网络进行训练。单字符图像样本中单字符区域的位置信息样本可以通过人工标定，具体不限。

在一个实施例中，步骤S201中，所述第二神经网络从文本区域图像中确定出多个单字符区域候选块、并计算各个单字符区域候选块属于单字符区域的置信度，包括：

S2011：所述第二神经网络通过第二特征计算层单元对输入的文本区域图像进行特征提取得到第二特征图，并将所述第二特征图分别输出至所述第二神经网络的第二区域候选计算层、第二分类计算层；

S2012：所述第二神经网络通过第二区域候选计算层基于所述第二特征图从文本区域图像中确定出多个单字符区域候选块；

S2013：所述第二神经网络通过所述第二分类计算层基于所述第二特征图中与各个单字符区域候选块对应的特征区域计算单字符区域候选块属于单字符区域的置信度。

参看图4，第二神经网络300可以包括至少一层用于执行特征提取的第二特征计算层301、至少一层用于执行文本区域候选块的确定的第二区域候选计算层302、至少一层用于执行置信度的计算的第二分类计算层303。当然，第二神经网络还可以包括其他层，比如图4中示出的用于执行位置信息回归的第二回归计算层304。

第二特征计算层301可以采用至少一层卷积层实现，比如可以采用CNN实现，当然也可以采用其他特征提取网络实现。第二特征计算层301得到第二特征图之后，将第二特征图分别输出至第二区域候选计算层302、及第二分类计算层303。

第二区域候选计算层302也可以通过RPN、RRPN等算法实现。在第二区域候选计算层302中可以预设有多个锚点及多个候选框，各个候选框的形状、尺寸、位置可不同，锚点可以用来定位候选框，每个候选框通过锚点在第二特征图中定位时可以选中第二特征图中的一块特征区域、在文本区域图像中定位时可选中文本区域图像中的一块区域，可以选中的特征区域来判断文本区域图像中位置对应的区域是否有可能属于单字符区域，比如可以通过选中的特征区域中的特征与字符特征进行相似度比对来确定，如果是，则将文本区域图像中位置对应的区域确定为单字符区域候选块。

第二区域候选计算层302中的锚点可以预先标定，可在文本区域图像中定位候选框以使其选中文本区域图像中相应区域，对于第二特征图也适用。当然，锚点也可以以随机的方式来确定。可选的，这些候选框选中的区域之间通常会存在交集，并且所有选中区域整体可以覆盖整个文本区域图像，避免漏掉可能的单字符区域。

确定出的单字符区域候选块并不一定就是所需的单字符区域，因为可能存在以下情况：某个字符的部分比如80％落在某个单字符区域内而另一部分比如20％落在该单字符区域外。因而，需要继续确定出哪些是属于单字符区域的单字符区域候选块。

第二区域候选计算层302可以将确定出的单字符区域候选块的位置信息输出至第二分类计算层303。在需要进行位置信息回归时，第二区域候选计算层302还可将单字符区域候选块的位置信息输出至第二回归计算层304。单字符区域候选块的位置信息可以是锚点定位的候选框的顶点在文本区域图像中的坐标来表示。

第二分类计算层303可以采用至少一个全连接层来实现，比如为2～3层全连接层，只要能够基于所述第二特征图中与各个单字符区域候选块对应的特征区域计算单字符区域候选块属于单字符区域的置信度即可。第二分类计算层303是通过训练而具备计算该置信度的功能的，如果某个字符基本上都落在某个单字符区域候选块中，那么该单字符区域候选块属于单字符区域的置信度就会较高，反之则会较低。第二分类计算层303可以输出各单字符区域候选块属于单字符区域的置信度，作为第二神经网络的输出结果。

第二回归计算层304可以采用能够实现坐标回归的回归层，回归的实现一般是对位置信息进行坐标变换，例如包括平移变换和/或尺度缩放变换，以确定出更精确的位置信息。第二回归计算层304对各单字符候选块的位置信息回归之后，可将回归后的位置信息输出，作为第二神经网络的另一个输出结果。

第二神经网络300输出的各置信度与位置信息是对应的，如此，可以依据输出的位置信息确定文本区域图像中的对应单字符区域候选块，同时依据对应的置信度确定该单字符区域候选块是否属于单字符区域。

第一神经网络和第二神经网络的层结构可以相同，当然网络参数是不同的。

在一个实施例中，步骤S300中，对各单字符图像中的字符进行识别得到字符识别结果，包括：

S301：将各单字符图像分别输入至已训练的第三神经网络中，以由所述第三神经网络的第三特征计算层对输入的单字符图像进行特征提取得到第三特征图，由所述第三分类计算层基于所述第三特征图计算并输出所述单字符图像中字符属于各预设字符类别的置信度；

S302：选择置信度最大的预设字符类别对应的字符作为相应单字符图像的字符识别结果。

参看图5，第三神经网络400可以包括至少一层用于执行特征提取的第三特征计算层401、及至少一层用于执行分类处理的第三分类计算层402。当然，第三神经网络还可以包括其他层。

第三特征计算层401可以采用性能较为突出的Inception网络(卷积神经网络的一种)或Inception-Resnet网络(卷积神经网络的一种)，当然也不限于此，也可以采用其他特征提取网络实现。第三特征计算层401对单字符图像进行特征提取得到第三特征图，该第三特征图可表征单字符图像中字符的特征，并将第三特征图输出至第三分类计算层402中。

第三分类计算层402可以采用用于执行卷积的卷积层、及用于执行全连接的全连接层实现，具体不限。第三分类计算层402可以基于第三特征图计算输入的单字符区域中的字符属于各预设字符类别的置信度，并输出计算出的各置信度。比如，第三分类计算层402输出了字符属于“火”对应预设字符类别的置信度、字符属于“星”对应预设字符类别的置信度、字符属于“人”对应预设字符类别的置信度，当然，第三分类计算层402中可以预设更多个预设字符类别，以满足大量字符识别需求。

针对输入的每个单字符图像，可以第三神经网络400输出的置信度中确定出最大的置信度，选择置信度最大的预设字符类别对应的字符作为该单字符图像的字符识别结果。比如置信度最大的预设字符类别对应的字符为“火”，则确定该单字符图像的字符识别结果为“火”。置信度最大的预设字符类别对应的字符可从预设的文本字符库中获取，完成该字符的识别。

第三神经网络400是预先训练好的，可以预存在电子设备中或者存储在外部设备中，在需要执行上述方法时电子设备再调用该第三神经网络。

对于第三神经网络400的训练，可以通过获取单字符区域图像样本和对应的单字符区域图像样本中字符的类别作为训练样本集，将单字符区域图像样本作为输入，将对应字符的类别作为输出，对第三神经网络400进行训练。

本发明还提供一种文本识别装置，参看图2，该文本识别装置100包括：

文本区域图像提取模块101，用于从目标图像中提取文本区域图像，所述文本区域图像包括至少一个字符；

单字符图像提取模块102，用于从文本区域图像中提取单字符图像，每个单字符图像包括一个字符；

字符识别模块103，用于对各单字符图像中的字符进行识别得到字符识别结果。

在一个实施例中，所述文本区域图像提取模块包括：

在一个实施例中，所述第一神经网络从目标图像中确定出多个文本区域候选块、并计算各个文本区域候选块属于文本区域的置信度时，具体用于：

在一个实施例中，所述单字符图像提取模块包括：

在一个实施例中，所述第二神经网络从文本区域图像中确定出多个单字符区域候选块、并计算各个单字符区域候选块属于单字符区域的置信度时，具体用于：

在一个实施例中，所述字符识别模块包括：

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。

本发明还提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例中所述的文本识别方法。

本发明文本识别装置的实施例可以应用在电子设备上。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，图6是本发明根据一示例性实施例示出的文本识别装置100所在电子设备的一种硬件结构图，除了图6所示的处理器510、内存530、接口520、以及非易失性存储器540之外，实施例中装置100所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

本发明还提供一种机器可读存储介质，其上存储有程序，该程序被处理器执行时，实现如前述实施例中任意一项所述的文本识别方法。

本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。机器可读存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种文本识别方法，其特征在于，包括：

将所述文本区域图像输入至已训练的第二神经网络中，所述第二神经网络包括至少一层第二特征计算层、至少一层第二区域候选计算层、至少一层第二分类计算层、第二回归计算层；

所述第二特征计算层单元对输入的文本区域图像进行特征提取得到第二特征图，并将所述第二特征图分别输出至所述第二区域候选计算层、第二分类计算层；

所述第二区域候选计算层基于所述第二特征图从文本区域图像中确定出多个单字符区域候选块的位置信息，并将确定出的单字符区域候选块的位置信息输出至所述第二分类计算层；

所述第二分类计算层基于所述第二特征图中与各个单字符区域候选块对应的特征区域，计算单字符区域候选块属于单字符区域的置信度；单个字符落在单字符区域候选块中部分越大，则该单字符区域候选块属于该单字符区域的置信度较高；

所述第二回归计算层对各单字符候选块的位置信息回归；

选择置信度大于第二预设阈值的单字符区域候选块作为单字符图像；每个单字符图像包括一个完整的字符，不同单字符图像之间存在交集或不存在交集；

对各单字符图像中的字符进行识别得到字符识别结果；

从目标图像中提取文本区域图像，包括：

选择置信度大于第一预设阈值的文本区域候选块作为所述文本区域图像；

其中，所述第一神经网络从目标图像中确定出多个文本区域候选块、并计算各个文本区域候选块属于文本区域的置信度，包括：

2.如权利要求1所述的文本识别方法，其特征在于，对各单字符图像中的字符进行识别得到字符识别结果，包括：

将各单字符图像分别输入至已训练的第三神经网络中，以由所述第三神经网络的第三特征计算层对输入的单字符图像进行特征提取得到第三特征图，由所述第三神经网络的第三分类计算层基于所述第三特征图计算并输出所述单字符图像中字符属于各预设字符类别的置信度；

3.一种文本识别装置，其特征在于，包括：

单字符图像提取模块，用于将所述文本区域图像输入至已训练的第二神经网络中，所述第二神经网络包括至少一层第二特征计算层、至少一层第二区域候选计算层、至少一层第二分类计算层、第二回归计算层；所述第二特征计算层单元对输入的文本区域图像进行特征提取得到第二特征图，并将所述第二特征图分别输出至所述第二区域候选计算层、第二分类计算层；所述第二区域候选计算层基于所述第二特征图从文本区域图像中确定出多个单字符区域候选块的位置信息，并将确定出的单字符区域候选块的位置信息输出至所述第二分类计算层；所述第二分类计算层基于所述第二特征图中与各个单字符区域候选块对应的特征区域，计算单字符区域候选块属于单字符区域的置信度；单个字符落在单字符区域候选块中部分越大，则该单字符区域候选块属于该单字符区域的置信度较高；所述第二回归计算层对各单字符候选块的位置信息回归；选择置信度大于第二预设阈值的单字符区域候选块作为单字符图像；每个单字符图像包括一个完整的字符，不同单字符图像之间存在交集或不存在交集；

字符识别模块，用于对各单字符图像中的字符进行识别得到字符识别结果；

所述文本区域图像提取模块包括：

文本区域图像确定单元，用于选择置信度大于第一预设阈值的文本区域候选块作为所述文本区域图像；

所述第一神经网络从目标图像中确定出多个文本区域候选块、并计算各个文本区域候选块属于文本区域的置信度时，具体用于：

4.一种电子设备，其特征在于，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如权利要求1-2中任意一项所述的文本识别方法。