CN111291759A

CN111291759A - 文字检测方法、装置、电子设备及存储介质

Info

Publication number: CN111291759A
Application number: CN202010055009.8A
Authority: CN
Inventors: 李楠; 段晨; 刘曦; 张睿
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-16

Abstract

本申请实施例公开了一种文字检测方法、装置、电子设备及存储介质，该方法包括：将待检测图像输入卷积神经网络，提取多层级特征；根据所述多层级特征，生成金字塔特征；针对所述金字塔特征的每层特征图，提取各个特征点之间的关联关系，得到相关性金字塔特征；确定所述相关性金字塔特征中每层相关性特征图对应的文字边界框；根据每层相关性特征图对应的文字边界框，确定所述待检测图像中的文字边界框。本申请实施例通过提取金字塔特征中每层特征图各个特征点之间的关联关系，得到的相关性金字塔特征中包括了全局信息，从而结合全局信息和局部信息，可以减少特征点回归错误的情况，从而可以提高检测结果的准确性。

Description

文字检测方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及目标检测技术领域，特别是涉及一种文字检测方法、装置、电子设备及存储介质。

背景技术

文字检测领域中常用的框架都是基于锚点(anchor-based)的，比如CTPN、FasterR-CNN等。基于锚点的检测方法在通过卷积得到的特征图上进行滑窗操作，滑窗的中心点在原图上的映射点称为锚点，以锚点为中心，生成k个不同大小、不同长宽比的目标候选区域。基于锚点的检测方法受锚点的数量，目标候选区域的长宽比及形状的限制，很难进行更深层次的提高。而anchor-free方法摆脱锚点的限制，是对每个特征点进行分类和回归，直接学习目标存在的可能性和边界框(bounding box)的坐标。

目前采用anchor-free检测方法的框架有FCOS，如图1所示，FCOS方法包括四个组件：1)特征提取主干网络，采用卷积神经网络(Convolutional Neural Networks，CNN)和特征金字塔网络(Feature Pyramid Networks，FPN)提取图片特征；2)分类分支，对特征金字塔网络中每层特征图上的特征点进行分类，用于区分是正样本还是负样本；3)回归分支，对分类分支判断为正样本的特征点进行坐标回归，估计目标对象的位置；(4)中心点(Centerness)分支，用于计算每个目标框内的点和目标框中心点的距离，使中心点的预测尽可能位于目标区域的中心。在训练与预测过程中，图片首先进入特征提取主干网络，提取出特征图；然后在每层特征图上通过分类分支、回归分支和中心点分支实现目标的分类与回归。

现有技术直接在金字塔特征的每层特征图上对每个特征点进行分类和回归，容易导致特征点分类回归错误，导致文字检测结果准确性低。

发明内容

本申请实施例提供一种文字检测方法、装置、电子设备及存储介质，有助于提高文字检测结果准确性。

为了解决上述问题，第一方面，本申请实施例提供了一种文字检测方法，包括：

将待检测图像输入卷积神经网络，提取多层级特征；

根据所述多层级特征，生成金字塔特征；

针对所述金字塔特征的每层特征图，提取各个特征点之间的关联关系，得到相关性金字塔特征；

确定所述相关性金字塔特征中每层相关性特征图对应的文字边界框；

根据每层相关性特征图对应的文字边界框，确定所述待检测图像中的文字边界框。

第二方面，本申请实施例提供了一种文字检测装置，包括：

多层级特征提取模块，用于将待检测图像输入卷积神经网络，提取多层级特征；

金字塔特征生成模块，用于根据所述多层级特征，生成金字塔特征；

关联关系提取模块，用于针对所述金字塔特征的每层特征图，提取各个特征点之间的关联关系，得到相关性金字塔特征；

层级边界框确定模块，用于确定所述相关性金字塔特征中每层相关性特征图对应的文字边界框；

检测结果确定模块，用于根据每层相关性特征图对应的文字边界框，确定所述待检测图像中的文字边界框。

第三方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的文字检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的文字检测方法的步骤。

本申请实施例公开的文字检测方法、装置、电子设备及存储介质，通过将待检测图像输入卷积神经网络，提取多层级特征，根据多层级特征生成金字塔特征，针对金字塔特征中的每层特征图，提取各个特征点之间的关联关系，得到相关性金字塔特征，确定相关性金字塔特征中每层相关性特征图对应的文字边界框，根据每层相关性特征图对应的文字边界框，确定待检测图像中的文字边界框，由于通过卷积神经网络提取的多层级特征，是针对局部信息进行提取的，而通过提取金字塔特征中每层特征图各个特征点之间的关联关系，得到的相关性金字塔特征中包括了全局信息，从而结合全局信息和局部信息，可以减少特征点回归错误的情况，从而可以提高检测结果的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中的anchor-free检测方法FCOS的框架；

图2是本申请实施例一的文字检测方法的流程图；

图3是本申请实施例中的文字检测模型的一种网络结构示意图；

图4是本申请实施例中的特征图融合得到金字塔特征的示意图；

图5是本申请实施例中的相关注意力机制的结构示意图；

图6是本申请实施例中的对边界框缩小的示意图；

图7是本申请实施例中采用FCOS确定的检测结果的示意图；

图8是本申请实施例中结合文本得分图确定的检测结果的示意图；

图9是本申请实施例二的文字检测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本实施例提供的一种文字检测方法，如图2所示，该方法包括：步骤210至步骤250。

步骤210，将待检测图像输入卷积神经网络，提取多层级特征。

其中，卷积神经网络为特征金字塔网络中的自下而上的路径，待检测图像经过卷积核计算提取的特征图越来越小，通常有许多层产生同样尺寸的输出图，这些层处于相同网络阶段，每一个阶段为一个金字塔等级，将每个阶段最后一层的输出作为参考特征图集，即得到多层级特征。多层级特征以多个参考特征图的形式表示，一个金字塔等级提取一个参考特征图，多个金字塔等级提取多个参考特征图，该多个参考特征图即为多层级特征。其中，卷积神经网络可以为VGG(Visual Geometry Group，超分辨率测试序列)卷积神经网络或深度ResNet(Residual Networks，残差网络)等深度卷积神经网络。

将待检测图像输入卷积神经网络，通过卷积神经网络提取待检测图像的多层级特征。即在提取多层级特征时，每个金字塔等级对应的卷积神经网络通过对上一个金字塔等级输出的参考特征图进行下采样，提取不同分辨率的特征图，得到多层级特征。

本申请实施例中的文字检测方法可以通过文字检测模型来实现，图3是本申请实施例中的文字检测模型的一种网络结构示意图，如图3所示，待检测图像输入卷积神经网络，提取到待检测图像的多层级特征C2、C3、C4和C5。

步骤220，根据所述多层级特征，生成金字塔特征。

对所述卷积神经网络提取的多层级特征由自上而下连接以及横向连接构建特征金字塔网络，具体将多层级特征中的最高层特征进行上采样，得到自上而下的路径，并将自上而下的路径中特征图与多层级特征中相同分辨率的特征图进行横向连接，得到特征金字塔网络，得到的特征金字塔网络中的所有层的特征图为金字塔特征。

其中，自上而下的路径从更高的金字塔等级上采样空间粗略但是语义健壮的特征图，来泛化更高的分辨率特征。每个横向连接融合来自自下而上的路径和自上而下的路径同样空间尺寸的特征图。

在本申请的一个实施例中，所述根据所述多层级特征，生成金字塔特征，包括：在将金字塔特征中的高层特征图进行上采样得到的特征图和所述多层级特征中的低层特征图融合时，对所述高层特征图进行通道注意力机制处理，得到通道权重向量；将所述通道权重向量与所述低层特征图相乘，得到通道特征图；将所述通道特征图与所述高层特征图上采样后的特征图进行相加运算，得到金字塔特征中的低层特征图。

其中，通道注意力机制也称为压缩奖惩注意力机制(Squeeze and ExcitationAttention，SE-Attention)，可以从全局信息出发来选择性的放大有价值的特征通道并且抑制无用的特征通道。高层特征图和低层特征图是相对而言的，高层特征图的层级相对低层特征图的层级高一级。

在将金字塔特征中的高层特征图进行上采样得到的特征图与多层级特征中的低层特征图融合时，由于高层特征图带有充足的语义信息，可以作为注意力(attention)来指导多层级特征中低层特征图的信息，之后再进行融合。图4是本申请实施例中的特征图融合得到金字塔特征的示意图，如图4所示，对金字塔特征中的高层特征图进行全局池化处理，来产生通道的统计信息，即得到一个一维的通道权重向量，通道数为C，之后对该通道权重向量进行1×1卷积处理，使之通道数与多层级特征图中低层特征图进行卷积处理后的通道数相等，将卷积处理后的通道权重向量与卷积处理后的低层特征图进行相乘，得到的特征图作为通道特征图，将通道特征图与金字塔特征中的高层特征图进行上采样后的特征图进行相加运算，实现低层特征图和高层特征图的融合，得到金字塔特征中的低层特征图，按照上述方式确定金字塔特征中的各层特征图，得到金字塔特征。其中，低层特征图进行卷积处理时的卷积核大小可以为3×3，当然，也可以根据需要确定卷积核大小。上采样的方式例如可以是反卷积或者尺寸变换等。

由于高层特征图的语义信息更丰富，从而将金字塔特征中上采样后的特征图和低层特征图融合时加入通道注意力机制，以高层特征图提供全局上下文信息来指导用于选择类别局部化细节的低层特征，可以使得融合得到的金字塔特征更加可以体现出重点突出的通道特征，从而可以进一步提高后续文字边界框回归的准确性。

如图3所示，在生成金字塔特征时，首先根据多层级特征中的最高层特征图生成金字塔特征中的相同等级的特征图，即根据多层级特征中的最高层特征图C5生成金字塔特征中的相同等级的特征图P5，P5与C5相等；对特征图P5进行两级下采样，分别得到特征图P6和特征图P7；在生成金字塔特征中的特征图P5以下层级的特征图时，通过高一层级的特征图来指导多层级特征中的低层特征图，即对特征图P5进行上采样得到的特征图进行通道注意力机制处理，得到对应的通道权重向量，将该通道权重向量与多层级特征中的特征图C4相乘，得到通道特征图，将该通道特征图与特征图P5上采样后的特征图进行相加运算，得到金字塔特征中的特征图P4，之后对特征图P4进行上采样得到的特征图进行通道注意力机制处理，得到对应的通道权重向量，将该通道权重向量与多层级特征中的特征图C3相乘，得到对应的通道特征图，将该通道特征图与特征图P4上采样后的特征图进行相加运算，得到金字塔特征中的特征图P3，特征图P3、P4、P5、P6和P7构成金字塔特征。

步骤230，针对所述金字塔特征的每层特征图，提取各个特征点之间的关联关系，得到相关性金字塔特征。

在生成金字塔特征后，对于金字塔特征中的每层特征图，分别通过相关注意力机制(Relation-attention)提取各个特征点之间的关联关系，可以提取到特征图中的全局信息，得到每层特征图对应的相关性特征图，各层相关性特征图组成相关性金字塔特征。由于通过卷积运算(卷积神经网络提取多层级特征时通过卷积运算提取)可以提取到局部信息，而再通过提取各个特征点之间的关联关系，可以提取到全局信息，通过在特征图上提取全局信息和局部信息可以减少后续特征点分类回归错误的情况。

在本申请的一个实施例中，所述针对所述金字塔特征的每层特征图，提取各个特征点之间的关联关系，得到相关性金字塔特征，包括：针对所述金字塔特征的当前层特征图，采用三个不同的卷积核对所述当前层特征图进行卷积处理，得到三个输出特征图；计算所述三个输出特征图中的两个输出特征图的关联关系，并对所述关联关系进行归一化处理，得到关联权重矩阵；将所述关联权重矩阵与所述三个输出特征图中的另一个特征图进行相乘运算，并对得到的结果进行卷积处理，得到卷积处理结果；将所述当前层特征图与所述卷积处理结果进行残差运算，得到当前层特征图对应的相关性特征图；将所述金字塔特征的各层特征图对应的相关性特征图作为所述相关性金字塔特征。

针对金字塔特征中的当前层特征图，通过如下公式对当前层特征图进行建模：

z_i＝W_zy_i+x_i

其中，第一个公式为非局部(non-local)操作公式，对于该公式，x是输入，y是输出，i和j分别表示输入的某个空间位置，f(x_i,x_j)是一个计算i、j两点相似关系的函数，f值越小，表示j位置对i影响越小，g(x_j)是一个映射函数，用于计算输入信号在j位置的特征值，C(x)是归一化函数，通过非局部操作公式可以提取到各个特征点之间的关联关系，即提取到全局信息。第二个公式中，W_z表示权重，可以通过网络的学习确定，z_i是与x_i相同位置的包含了与其他特征点之间关联关系的特征点。

其中，f(x_i,x_j)可以有多种形式，例如可以表示为如下公式：

其中，θ(x_i)＝W_θx_i，

这时，

W_θ和

可以通过网络学习得到。

上述公式可通过如图5所示的结构实现。图5是本申请实施例中的相关注意力机制的结构示意图。如图5所示，首先，将金字塔特征中的当前层特征图作为输入特征图，输入相关注意力机制的结构中，相关注意力机制采用三个分支对输入特征图进行卷积处理，得到三个输出特征图θ、φ、g，图6中以输入特征图的维度为T×H×W×1024为例进行说明，得到的三个输出特征图θ、φ、g的通道数均为输入特征图通道数的一半，三个分支采用尺寸均为1×1×1的卷积核，且三个分支的卷积核数量均为512；对三个输出特征图中的φ进行转置操作，将输出特征图θ与转置后的φ进行矩阵乘法运算，来计算这两个输出特征图的关联关系，之后对该关联关系进行softmax处理，实现对关联关系的归一化处理，得到关联权重矩阵；将关联权重矩阵与三个输出特征图中的另一个特征图g进行相乘运算，并对得到的结果经过卷积核数量为1024，尺寸为1×1×1的卷积层对该结果进行卷积处理，得到通道数和输入特征图通道数相同的卷积处理结果；将卷积处理结果和输入特征图即当前层特征图进行残差运算，得到当前层特征图对应的相关性特征图。金字塔特征中的各层特征图对应的相关性特征图组成相关性金字塔特征。得到的相关性金字塔特征中包含了全局信息和局部信息，从而可以减少后续特征点分类回归错误的情况。

如图3所示，通过对金字塔特征中的特征图P7提取各个特征点之间的关联关系，得到相关性金字塔特征中的特征图R7；通过对金字塔特征中的特征图P6提取各个特征点之间的关联关系，得到相关性金字塔特征中的特征图R6；通过对金字塔特征中的特征图P5提取各个特征点之间的关联关系，得到相关性金字塔特征中的特征图R5；通过对金字塔特征中的特征图P4提取各个特征点之间的关联关系，得到相关性金字塔特征中的特征图R4；通过对金字塔特征中的特征图P3提取各个特征点之间的关联关系，得到相关性金字塔特征中的特征图R3。特征图R3、R4、R5、R6和R7构成相关性金字塔特征。

步骤240，确定所述相关性金字塔特征中每层相关性特征图对应的文字边界框。

在得到相关性金字塔特征后，根据相关性金字塔特征，对每层相关性特征图进行文字边界框的回归处理，得到每层相关性特征图对应的文字边界框。确定文字边界框时，可以通过分类分支来对当前层相关性特征图上的特征点进行分类，区分各个特征点是正样本还是负样本；通过回归分支来对分类分支判断为正样本的特征点进行坐标回归，估计目标对象(即文字)的位置，得到文字边界框；通过中心点(Centerness)分支计算每个文字边界框内的点和文字边界框中心点的距离，使中心点的预测尽可能位于文字边界框的中心。根据中心点分支的结果和对应特征点的分类结果相乘，作为文字边界框的得分，使用该得分来对文字边界框进行排序，可以抑制低质量(即距离中心点较远)的文字边界框。

在本申请的一个实施例中，所述确定所述相关性金字塔特征中每层相关性特征图对应的文字边界框，包括：对所述相关性金字塔特征中当前层相关性特征图上的特征点进行分类，得到当前层相关性特征图对应的分类结果；将所述多层级特征中的第一层特征图输入全卷积网络，生成文本得分图；根据所述当前层相关性特征图对应的分类结果和所述文本得分图，确定当前层相关性特征图对应的文字边界框。

其中，文本得分图是目标区域的掩膜，可以用于标记每个特征点是否落在目标区域内，可以很好抑制低质量边界框的出现。

相关性金字塔特征中的每层特征图对应一个分类分支，通过分类分支对相关性金字塔特征中当前层相关性特征图上的特征点进行分类，得到当前层相关性特征图对应的分类结果，各个分类结果是各个特征点是正样本的概率；全卷积网络(Fully ConvolutionalNetworks，FCN)在训练阶段已训练完成，网络参数已收敛，通过该全卷积网络对多层级特征中的最底层特征即第一层特征图进行卷积处理，得到文本得分图(Text Score Map)；根据当前层特征图中各个特征点的分类结果和文本得分图来回归当前层相关性特征图对应的文字边界框。通过全卷积网络来生成文本得分图，并根据分类结果和全卷积网络来共同回归文字边界框，可以很好的抑制低质量检测框的出现。

在本申请的一个实施例中，所述根据所述当前层相关性特征图对应的分类结果和所述文本得分图，确定当前层相关性特征图对应的文字边界框，包括：根据所述当前层相关性特征图对应的分类结果和所述文本得分图，对当前层相关性特征图的特征点进行文字区域回归处理和中心点打分处理，得到当前层相关性特征图对应的初始文字框和中心点得分；根据当前层相关性特征图对应的中心点得分，对当前层相关性特征图对应的初始文字框进行筛选，得到当前层特征图对应的文字边界框。

根据当前层相关性特征图对应的分类结果和文本得分图，确定各个特征点是否在目标区域内。首先将当前层相关性特征图变换为和文本得分图相同尺寸的特征图，并确定变换后的特征图各个特征点的分类结果，之后基于变换后的特征图对应的分类结果和文本得分图，确定各个特征点是否在目标区域内。在确定各个特征点是否在目标区域内时，可以将各个特征点的分类结果和文本得分图中的该特征点对应的结果进行相乘，将该乘积与预设阈值进行比较，若乘积大于或等于预设阈值，则确定该特征点在目标区域内，若乘积小于预设阈值，则确定该特征点不在目标区域内；或者，还可以根据文本得分图确定特征图中为正样本的特征点，并将特征图中为正样本的各个特征点的分类结果分别与预设阈值进行比较，若该分类结果大于预设阈值，则确定该特征点在目标区域内，若该分类结果小于预设阈值，则确定该特征点不在目标区域内。将判定为不在目标区域内的特征点舍弃，对判定为在目标区域内的特征点进行文字区域回归处理和中心点打分处理，得到当前层相关性特征图对应的初始文字框和中心点得分。在回归边界框时通过结合文本得分图和分类结果来进行回归，可以提高回归结果的准确性，提高边缘点分类回归的准确性。

在本申请的一个实施例中，在将所述多层级特征中的第一层特征图输入全卷积网络，生成文本得分图之前，还包括：根据训练样本中的输入图像，生成与所述输入图像相同尺寸的矩阵；根据所述输入图像中标注的目标框，在所述矩阵中生成与所述目标框相同位置的边界框；将所述边界框向所述边界框的中心缩小预设比例，并将缩小后的边界框中各个像素赋值为1，将缩小后的边界框外各个像素赋值为0，得到输入图像对应的文本得分图；根据第一层特征图与所述输入图像的尺寸关系，将所述输入图像对应的文本得分图变换为第一层特征图对应的文本得分图，得到标注的文本得分图，其中，所述标注的文本得分图用于训练所述全卷积网络。

本申请实施例中，文字检测模型还包括掩膜(Mask)分支，用于生成文本得分图，掩膜分支由全卷积网络构成。在文字检测模型训练之前，要根据标注了目标框的大量训练样本，分别标注每个训练样本的文本得分图。在标注一个训练样本的文本得分图时，根据该训练样本中的输入图像，首先生成一个与输入图像相同尺寸的矩阵，并根据输入图像中标注的目标框在输入图像中的位置，在矩阵中生成与目标框相同位置的边界框，并对边界框进行处理，以生成目标框对应的掩膜，如图6所示，以该边界框的中心为基准，将所述边界框向中心缩小预设比例，并将缩小后的边界框中各个像素赋值为1，表示该像素为正样本，将缩小后的边界框外的各个像素赋值为0，表示这些像素为负样本，从而得到输入图像对应的文本得分图，由于在预测文本得分图时，是根据多层级特征中的最底层特征即第一层特征图来生成的，所以需要将与输入图像相同尺寸的文本得分图进行尺度变换，即根据第一层特征图与输入图像的尺寸关系，将输入图像对应的文本得分图变换为第一层特征图对应的文本得分图，得到训练样本对应的标注的文本得分图，通过该文本得分图与训练样本可以在训练文字检测模型时训练掩膜分支，即全卷积网络。例如，在第一层特征图的尺寸为输入图片尺寸的1/4时，在进行尺度变换时，可以对与输入图像相同尺寸的文本得分图每隔4个像素进行采样，从而生成第一层特征图对应的文本得分图，即得到标注的文本得分图。如图3所示，所述第一层特征图即图4所示的特征图C2，特征图C2作为全卷积网络的输入，通过全卷积网络的处理，得到对应的文本得分图。现有技术中，将目标框内的全部特征点都用于分类和回归，这会产生一个字生成多个框或多个字在一个框中的情况，如图7所示，导致检测准确性低，而本申请实施例由于通过添加文本得分图作为掩膜，并在生成文本得分图时，对目标框相同尺寸的边界框进行了一定范围内的收缩，并将在边界框范围内的特征点确定为在目标框内，从而可以区分特征点是否在目标框内，可以解决边缘点容易分类回归错误的问题，如图8所示，通过添加文本得分图提高了边缘点分类回归的准确性。

步骤250，根据每层相关性特征图对应的文字边界框，确定所述待检测图像中的文字边界框。

对每层相关性特征图对应的文字边界框进行合并，确定待检测图像中的文字边界框。

在本申请的一个实施例中，所述根据每层相关性特征图对应的文字边界框，确定所述待检测图像中的文字边界框，包括：

对每层相关性特征图对应的文字边界框进行非极大值抑制处理，得到所述待检测图像中的文字边界框。

其中，非极大值抑制是抑制非极大值的元素，可以理解为局部最大搜索，即搜索局部最大值，在目标检测、定位等领域是一种被广泛使用的方法。

在得到每层相关性特征图对应的文字边界框后，根据每层相关性特征图与待检测图像的尺寸关系，将每层相关性特征图对应的文字边界框变换为待检测图像对应的文字边界框，通过非极大值抑制对每层相关性特征图变换后的文字边界框进行处理，得到待检测图像中的文字边界框。通过非极大值抑制处理可以确定较为准确的文字边界框。

本申请实施例提供的文字检测方法，通过将待检测图像输入卷积神经网络，提取多层级特征，根据多层级特征生成金字塔特征，针对金字塔特征中的每层特征图，提取各个特征点之间的关联关系，得到相关性金字塔特征，确定相关性金字塔特征中每层相关性特征图对应的文字边界框，根据每层相关性特征图对应的文字边界框，确定待检测图像中的文字边界框，由于通过卷积神经网络提取的多层级特征，是针对局部信息进行提取的，而通过提取金字塔特征中每层特征图各个特征点之间的关联关系，得到的相关性金字塔特征中包括了全局信息，从而结合了全局信息和局部信息，可以减少特征点回归错误的情况，从而可以提高检测结果的准确性。

表1和表2是本申请实施例中的文字检测模型和Faster R-CNN的测试结果，表1使用的测试数据为ReCTS5000竞赛数据集，表2使用的测试数据为华为业务数据集。如表1所示，本申请实施例中文字检测模型相对于Faster R-CNN模型，召回率和F1均有很大提升，准确率比较接近。如表2所示，本申请实施例中文字检测模型相对于Faster R-CNN模型，召回率、准确率和F1均有很大提升。其中，F1表示如下：

其中，precision为准确率，recall为召回率。

表1 ReCTS5000竞赛数据集测试结果

表2华为业务数据集测试结果

实施例二

本实施例提供的一种文字检测装置，如图9所示，所述文字检测装置900包括：

多层级特征提取模块910，用于将待检测图像输入卷积神经网络，提取多层级特征；

金字塔特征生成模块920，用于根据所述多层级特征，生成金字塔特征；

关联关系提取模块930，用于针对所述金字塔特征的每层特征图，提取各个特征点之间的关联关系，得到相关性金字塔特征；

层级边界框确定模块940，用于确定所述相关性金字塔特征中每层相关性特征图对应的文字边界框；

检测结果确定模块950，用于根据每层相关性特征图对应的文字边界框，确定所述待检测图像中的文字边界框。

可选的，所述金字塔特征生成模块包括：

通道权重确定单元，用于在将金字塔特征中的高层特征图进行上采样得到的特征图和所述多层级特征中的低层特征图融合时，对所述高层特征图进行通道注意力机制处理，得到通道权重向量；

通道特征确定单元，用于将所述通道权重向量与所述低层特征图相乘，得到通道特征图；

金字塔特征确定单元，用于将所述通道特征图与所述高层特征图上采样后的特征图进行相加运算，得到金字塔特征中的低层特征图。

可选的，所述层级边界框确定模块包括：

分类单元，用于对所述相关性金字塔特征中当前层相关性特征图上的特征点进行分类，得到当前层相关性特征图对应的分类结果；

文本得分图生成单元，用于将所述多层级特征中的第一层特征图输入全卷积网络，生成文本得分图；

层级边界框确定单元，用于根据所述当前层相关性特征图对应的分类结果和所述文本得分图，确定当前层相关性特征图对应的文字边界框。

可选的，所述层级边界框确定单元具体用于：

根据所述当前层相关性特征图对应的分类结果和所述文本得分图，对当前层相关性特征图的特征点进行文字区域回归处理和中心点打分处理，得到当前层相关性特征图对应的初始文字框和中心点得分；

根据当前层相关性特征图对应的中心点得分，对当前层相关性特征图对应的初始文字框进行筛选，得到当前层特征图对应的文字边界框。

可选的，所述装置还包括：

矩阵生成模块，用于根据训练样本中的输入图像，生成与所述输入图像相同尺寸的矩阵；

边界框生成模块，用于根据所述输入图像中标注的目标框，在所述矩阵中生成与所述目标框相同位置的边界框；

矩阵赋值模块，用于将所述边界框向所述边界框的中心缩小预设比例，并将缩小后的边界框中各个像素赋值为1，将缩小后的边界框外各个像素赋值为0，得到输入图像对应的文本得分图；

文本得分图标注模块，用于根据第一层特征图与所述输入图像的尺寸关系，将所述输入图像对应的文本得分图变换为第一层特征图对应的文本得分图，得到标注的文本得分图，其中，所述标注的文本得分图用于训练所述全卷积网络。

可选的，所述关联关系提取模块包括：

第一卷积处理单元，用于针对所述金字塔特征的当前层特征图，采用三个不同的卷积核对所述当前层特征图进行卷积处理，得到三个输出特征图；

关联权重确定单元，用于计算所述三个输出特征图中的两个输出特征图的关联关系，并对所述关联关系进行归一化处理，得到关联权重矩阵；

第二卷积处理单元，用于将所述关联权重矩阵与所述三个输出特征图中的另一个特征图进行相乘运算，并对得到的结果进行卷积处理，得到卷积处理结果；

残差运算单元，用于将所述当前层特征图与所述卷积处理结果进行残差运算，得到当前层特征图对应的相关性特征图；

相关性特征确定单元，用于将所述金字塔特征的各层特征图对应的相关性特征图作为所述相关性金字塔特征。

可选的，所述检测结果确定模块具体用于：

本申请实施例提供的文字检测装置，用于实现本申请实施例一中所述的文字检测方法的各步骤，装置的各模块的具体实施方式参见相应步骤，此处不再赘述。

本申请实施例提供的文字检测装置，通过多层级特征提取模块将待检测图像输入卷积神经网络，提取多层级特征，金字塔特征生成模块根据多层级特征生成金字塔特征，关联关系提取模块针对金字塔特征中的每层特征图，提取各个特征点之间的关联关系，得到相关性金字塔特征，层级边界框确定模块确定相关性金字塔特征中每层相关性特征图对应的文字边界框，检测结果确定模块根据每层相关性特征图对应的文字边界框，确定待检测图像中的文字边界框，由于通过卷积神经网络提取的多层级特征，是针对局部信息进行提取的，而通过提取金字塔特征中每层特征图各个特征点之间的关联关系，得到相关性金字塔特征中包括了全局信息，从而结合全局信息和局部信息，可以减少特征点回归错误的情况，从而可以提高检测结果的准确性。

相应的，本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例一所述的文字检测方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例一所述的文字检测方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请实施例提供的一种文字检测方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims

1.一种文字检测方法，其特征在于，包括：

将待检测图像输入卷积神经网络，提取多层级特征；

根据所述多层级特征，生成金字塔特征；

2.根据权利要求1所述的方法，其特征在于，所述根据所述多层级特征，生成金字塔特征，包括：

在将金字塔特征中的高层特征图进行上采样得到的特征图和所述多层级特征中的低层特征图融合时，对所述高层特征图进行通道注意力机制处理，得到通道权重向量；

将所述通道权重向量与所述低层特征图相乘，得到通道特征图；

将所述通道特征图与所述高层特征图上采样后的特征图进行相加运算，得到金字塔特征中的低层特征图。

3.根据权利要求1所述的方法，其特征在于，所述确定所述相关性金字塔特征中每层相关性特征图对应的文字边界框，包括：

对所述相关性金字塔特征中当前层相关性特征图上的特征点进行分类，得到当前层相关性特征图对应的分类结果；

将所述多层级特征中的第一层特征图输入全卷积网络，生成文本得分图；

根据所述当前层相关性特征图对应的分类结果和所述文本得分图，确定当前层相关性特征图对应的文字边界框。

4.根据权利要求3所述的方法，其特征在于，所述根据所述当前层相关性特征图对应的分类结果和所述文本得分图，确定当前层相关性特征图对应的文字边界框，包括：

5.根据权利要求3所述的方法，其特征在于，在将所述多层级特征中的第一层特征图输入全卷积网络，生成文本得分图之前，还包括：

根据训练样本中的输入图像，生成与所述输入图像相同尺寸的矩阵；

根据所述输入图像中标注的目标框，在所述矩阵中生成与所述目标框相同位置的边界框；

将所述边界框向所述边界框的中心缩小预设比例，并将缩小后的边界框中各个像素赋值为1，将缩小后的边界框外各个像素赋值为0，得到输入图像对应的文本得分图；

根据第一层特征图与所述输入图像的尺寸关系，将所述输入图像对应的文本得分图变换为第一层特征图对应的文本得分图，得到标注的文本得分图，其中，所述标注的文本得分图用于训练所述全卷积网络。

6.根据权利要求1所述的方法，其特征在于，所述针对所述金字塔特征的每层特征图，提取各个特征点之间的关联关系，得到相关性金字塔特征，包括：

针对所述金字塔特征的当前层特征图，采用三个不同的卷积核对所述当前层特征图进行卷积处理，得到三个输出特征图；

计算所述三个输出特征图中的两个输出特征图的关联关系，并对所述关联关系进行归一化处理，得到关联权重矩阵；

将所述关联权重矩阵与所述三个输出特征图中的另一个特征图进行相乘运算，并对得到的结果进行卷积处理，得到卷积处理结果；

将所述当前层特征图与所述卷积处理结果进行残差运算，得到当前层特征图对应的相关性特征图；

将所述金字塔特征的各层特征图对应的相关性特征图作为所述相关性金字塔特征。

7.根据权利要求1所述的方法，其特征在于，所述根据每层相关性特征图对应的文字边界框，确定所述待检测图像中的文字边界框，包括：

8.一种文字检测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的文字检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7任意一项所述的文字检测方法的步骤。