CN106796647A

CN106796647A - 场景文本检测系统和方法

Info

Publication number: CN106796647A
Application number: CN201480081759.5A
Authority: CN
Inventors: 汤晓鸥; 黄韡林; 乔宇
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2014-09-05
Filing date: 2014-09-05
Publication date: 2017-05-31
Anticipated expiration: 2034-09-05
Also published as: WO2016033710A1; CN106796647B

Abstract

公开一种场景文本检测系统。该系统可包括最大稳定极值区域(MSER)检测器、经过训练的卷积神经网络(CNN)分类器、选择器和构造器。最大稳定极值区域(MSER)检测器可被配置成从图像中生成文本成分的集合，其中生成的文本成分排列成MSER树形结构。经过训练的卷积神经网络(CNN)分类器可被配置成将成分置信分数分配到文本成分的集合中的每个文本成分。选择器可被配置成从文本成分集合中选择具有所分配的成分置信分数中的较高成分置信分数的文本成分。构造器可被配置成使用所选择的文本成分来构造最终文本。也公开一种场景文本检测方法。

Description

场景文本检测系统和方法

技术领域

本申请总体涉及图像处理的领域，更具体地说，涉及场景文本检测系统和场景文本检测方法。

背景技术

近年来，随着高性能移动和可穿戴装置的快速发展和普及，场景文本检测和定位因其大量的潜在应用而受到越来越多的关注。图像中的文本通常含有重要的语义信息，所以文本的检测和识别对充分理解图像而言非常重要。

场景文本检测的挑战来自极端多样性的文本模式、高度复杂的背景信息和严重的现实世界影响。例如，出现在自然图像中的文本可以是非常小的尺寸或者相对于背景颜色的较低对比度，甚至常规文本都可因强烈照明、遮蔽或模糊而失真。此外，大量噪声和类文本异常(诸如，窗户、树叶和砖块)可被包括在图像背景中，并且经常导致检测处理中出现很多假警报。

近来，用于场景文本检测的方法主要有两组：基于滑动窗口的方法和基于连通成分的方法。基于滑动窗口的方法通过以多个尺度在图像的所有位置滑动子窗口来检测文本信息。文本和非文本信息随后由经过训练的分类器区分，该经过训练的分类器通常使用从窗口中提取的手动设计的低级特征，诸如，SIFT和方向梯度直方图。主要挑战在于用来处理文本的较大差异的局部特征的设计和用于扫描大量窗口的高度计算需求，该计算需求针对具有N个像素的图像可增加到N2。

基于连通成分的方法首先通过运行快速低级滤波器来将文本和非文本像素分开，随后将具有类似性质(例如，强度、笔画宽度或颜色)的文本像素分组，以构造文本成分候选。笔画宽度变换(SWT)和最大稳定极值区域(MSER)是近来取得巨大成功的适于场景文本检测的两个代表性底层滤波器。

MSER通常生成大量的非文本成分，导致MSER成分中的文本与非文本之间的模糊性较高。稳健地分开它们已经成为提高基于MSER的方法的性能的关键问题。尽管已经致力于处理这个问题，但目前多数用于MSER过滤的方法多集中在开发底层特征(诸如，启发特性或几何性质)，以过滤掉非文本成分。这些底层特征不够稳健或不够有辨别力，无法区分真正的文本和经常与真正的文本具有类似启发或几何性质的类文本异常。

发明内容

根据本申请的实施例，公开了场景文本检测系统。该系统可包括最大稳定极值区域(MSER)检测器、卷积神经网络(CNN)分类器、选择器和构造器。最大稳定极值区域(MSER)检测器可被配置成从图像中生成文本成分集合，其中生成的文本成分排序成MSER树形结构。卷积神经网络(CNN)分类器可被配置成将成分置信分数分配到文本成分集合中的每个文本成分。过虑选择器可被配置成从文本成分集合中选择具有所分配的成分置信分数中的较高成分置信分数的文本成分。构造器可被配置成使用所选择的文本成分来构造最终文本。

根据本申请的实施例，公开场景文本检测方法，并且该方法可包括：从图像中生成文本成分集合，其中生成的文本成分排序成树形结构；将成分置信分数分配到文本成分集合中的每个文本成分；从文本成分集合中选择具有所分配的成分置信分数中的较高的文本成分；以及使用所选择的文本成分来构造最终文本。

附图说明

下文参考附图描述本发明的示例性非限制实施例。附图是说明性的，并且一般不按确切比例。不同图上的相同或类似元件引用相同的参考编号。

图1是示出符合本申请的实施例的场景文本检测系统的示意图。

图2是示出符合一些公开实施例的场景文本检测系统在软件中实施时的示意图。

图3是示出符合一些公开实施例的卷积神经网络分类器的示意图。

图4是示出符合一些公开实施例的场景文本检测系统的选择器的示意图。

图5是示出符合一些公开实施例的选择器的分割装置的示意图。

图6是示出符合一些公开实施例的场景文本检测方法的示意流程图。

图7是示出符合一些公开实施例的选择文本成分的过程的示意流程图。

具体实施方式

现在将详细参考示例性实施例，这些实施例的示例将在附图中说明。在适当的时候，附图中相同的参考编号始终指代相同或相似部分。图1是示出符合一些公开实施例的示例性场景文本检测系统1000的示意图。

参考图1，在系统1000由硬件实施的情况下，它可包括最大稳定极值区域(MSER)检测器100、卷积神经网络(CNN)分类器200、选择器300和构造器400。

应了解，系统1000可使用某一硬件、软件或它们的组合来实施。此外，本发明的实施例可适于计算机程序产品，所述计算机程序产品体现在含有计算机程序代码的一个或多个计算机可读存储介质上(包括但不限于，磁盘存储器、CD-ROM、光学存储器等)。图2是示出符合一些公开实施例的场景文本检测系统1000在软件中实施时的示意图。

在用软件实施系统1000的情况下，系统1000可包括通用计算机、计算机集群、主流计算机、专用于提供在线内容的计算装置，或者计算机网络，所述计算机网络包括一组以集中或分布方式操作的计算机。如图2所示，系统1000可包括一个或多个处理器(处理器102、104、106等)、存储器112、存储装置116以及促进系统1000的各种装置之间的信息交换的总线。处理器102到106可包括中央处理单元(“CPU”)、图形处理单元(“GPU”)或者其他合适的信息处理装置。根据所使用的硬件的类型，处理器102到106可包括一个或多个印刷电路板和/或一个或多个微处理器芯片。处理器102到106可执行计算机程序指令的序列，以执行将在下文更详细地说明的各种方法。

存储器112可尤其包括随机存取存储器(“RAM”)和只读存储器(“ROM”)。计算机程序指令可由存储器112存储、访问和从该存储器中读取，以便由处理器102到106中的一个或多个处理器执行。例如，存储器112可存储一个或多个软件应用。此外，存储器112可存储整个软件应用或者只存储可由处理器102到106中的一个或多个处理器执行的软件应用的一部分。应注意，尽管图2中只示出一个框，但存储器112可包括安装在中央处理装置或不同计算装置上的多个物理装置。

在图1所示的实施例中，MSER检测器可被配置成从图像中生成文本成分集合，并且生成的文本成分排序成MSER树形结构。MSER将极值区域限定为这样一种图像的连通成分，即，该图像的像素相对于边界像素具有强度对比度。强度对比度通过增加强度值来测量，并且控制区域面积。低对比度值将生成大量的低级区域，所述低级区域通过像素之间的小的强度差被分开。当对比度值增加时，低级区域可以与当前级像素累积或者与其他更低级区域合并，以构造更高级区域。因此，当达到最大对比度时可构造极值区域树。如果极值区域的变化低于它的父节点和子节点，那么极值区域被限定为MSER。因此，MSER可被视作尺寸在一定范围的阈值上保持不变的特殊极值区域。

在实施例中，图像中的文本的每个单独字符可被MSER检测器检测为极值区域或MSER。两个显著的优点使MSER检测器在场景文本检测中取得巨大成功。第一，MSER检测器是快速检测器并且可在线性时间内计算图像中的像素数量。第二，它是有很强能力来处理低质量文本(诸如，低对比度、低分辨率和模糊)的强大检测器。通过这个能力，MSER能够检测自然图像中的绝大多数场景文本。

根据实施例，CNN分类器200可被配置成将成分置信分数分配到文本成分集合中的每个文本成分。如图3所示，CNN分类器200可包括至少一个卷积层、至少一个平均池化层、和支持向量机(SVM)分类器。每个卷积层之后是平均池化层，并且具有多个滤波器。例如，如图3所示，CNN分类器包括两个卷积层，并且第二层堆叠在第一层上。用于两个层的滤波器的数量分别是96和64。

在实施例中，CNN分类器使用预定训练集进行训练，以分配文本成分置信分数。当训练CNN分类器时，两个卷积层的第一卷积层的滤波器被配置成通过使用非监督K均值来根据预定训练集中提取的图像块(patch)集合进行学习以生成响应，并且两个卷积层的第二卷积层的滤波器被配置成通过反向传播从SVM分类器中生成的SVM分类误差来来基于所生成的响应进行学习以获取文本成分的置信分数。例如，在图3所示的训练过程期间，提取的图像块具有固定尺寸32×32。第一卷积层的滤波器被配置成通过使用非监督K均值来学习图像块集合，以生成响应。例如，如图所示，通过使用K均值的变体以非监督方式来训练第一层，以从8×8个图像块的集合中学习滤波器集合并且k是用于卷积的图像块的维度，此处是用于8×8的64。n1是第一层中的滤波器的数量96。第一层的响应(r)被计算为：

r＝max{0,|D^Tx-θ|} (1)

其中是8×8图像块的输入向量，并且θ＝0.5。所得的第一层响应图具有尺寸25×25×96。随后，将具有窗口尺寸5×5的平均池化应用到响应图，以得到具有尺寸5×5×96的减小图。

在实施例中，第二卷积层的滤波器被配置成通过反向传播从SVM分类器中生成的SVM分类误差来学习生成的响应，以获取文本成分的成分置信分数。两个层的最终输出是64维特征向量，该64维特征向量输入到SVM分类器以得到文本成分的最终置信分数。第二层中的参数全连通，并且通过反向传播SVM分类误差进行训练。

图4示出符合一些公开实施例的场景文本检测系统1000的选择器300。如图所示，选择器300可包括标定装置310和分割装置320。在实施例中，标定装置310可被配置成基于所分配的成分置信分数和MSER树形结构来标定出所选择的文本成分中的错误连接的文本成分。分割装置320可被配置成将错误连接的文本成分分割为具有较高置信分数的文本成分。

在图5所示的实施例中，分割装置还可包括调整尺寸单元321、扫描仪322和识别单元323。调整尺寸单元321可被配置成将所标定出的错误连接的文本成分调整到预定尺寸。扫描仪322可被配置成扫描调整尺寸后的文本成分，以通过滑动窗口来获取成分置信分数的一维阵列。识别单元323可被配置成基于一维阵列来识别错误连接的文本成分的峰位置，以将错误连接的文本成分分割为具有较高置信分数的文本成分。

在实施例中，错误连接的成分具有三个显著的特性。第一，它经常具有较高的纵横比，它的边界框的宽度比高度长得多。第二，区别于其他非文本成分，例如，通常被CNN分类器200评分为负置信值的长水平线或条，错误连接的成分实际上包括一些文本信息，但并不非常强，因为CNN分类器是在单字符成分上训练的。第三，MSER树的高层次中的成分通常包括多个文本字符，例如，在树的根部中的成分。这些成分中的多数已被它们的字节点成分正确分开，所述字节点成分通常具有比它们的父节点更高的置信分数。

因此，用于限定出错误连接的文本成分的条件包括：1)文本成分的宽度/高度的纵横比大于2；2)文本成分具有正置信分数；以及3)文本成分在MSER树形结构的端节点或者具有比MSER树形结构中的所有子节点大的置信分数。用于搜索和分割错误连接的成分的示例性算法给出如下。

根据实施例，构造器400还可包括配对单元和合并单元(未示出)。配对单元可被配置成将所选择的文本成分的具有类似几何和启发性质的两个文本成分配对。合并单元可被配置成按顺序将具有相同成分和类似取向的对合并，以构造最终文本。

图6是示出符合一些公开实施例的场景文本检测方法2000的示意流程图。下文可参考图6详细地描述方法2000。

在步骤S210处，从图像中生成文本成分集合。在实施例中，通过使用最大稳定极值区域(MSER)检测器从图像中生成文本成分集合。生成的文本成分排序成MSER树形结构。

在步骤S220处，将成分置信分数分配到文本成分集合中的每个文本成分。例如，由经过训练的卷积神经网络(CNN)分类器将成分置信分数分配到每个文本成分。在实施例中，卷积神经网络分类器使用预定训练集进行训练，以分配成分置信分数。

根据实施例，卷积神经网络分类器包括至少一个卷积层、至少一个平均池化和支持向量机(SVM)分类器，并且其中卷积层中的每个之后是平均池化层并且具有多个滤波器。例如，卷积神经网络分类器可包括两个卷积层。在训练过程期间，提取来自预定训练集的图像块集合。随后，两个卷积层的第一卷积层的滤波器通过使用非监督K均值来根据图像块集合进行学习以生成响应，并且两个卷积层的第二卷积层的滤波器通过反向传播由SVM分类器生成的SVM分类误差来基于所生成的响应进行学习，以获取文本成分的置信分数。

在步骤S230处，从文本成分集合中选择具有所分配的成分置信分数中的较高成分置信分数的文本成分。下面是选择具有较高置信分数的文本成分的可能方式。例如，如图7所示，基于所分配的成分置信分数和MSER树形结构，在所选择的文本成分之中标定出错误连接的文本成分。用于标定出错误连接的文本成分的条件包括：1)文本成分的宽度/高度的纵横比大于2；2)文本成分具有正置信分数；以及3)文本成分在MSER树形结构的端节点或者具有比MSER树形结构中的所有子节点大的置信分数。

如果成分属于错误连接的文本成分，那么它调整到预定尺寸。调整尺寸后的文本成分由(例如)滑动窗口扫描，以获取成分置信分数的一维阵列。例如，将非最大值抑制(NMS)方法应用到成分置信分数的一维阵列，以估计多个字符位置。基于一维阵列来识别错误连接的文本成分的峰位置，以便基于峰位置将错误连接的文本成分分割为具有较高置信分数的文本成分。

在步骤S240处，使用所选择的文本成分来构造最终文本。当构造最终文本时，将所选择的文本成分的具有类似几何和启发性质的两个文本成分配对，并且将具有相同成分和类似取向的按顺序以构造最终文本的对合并，以构造最终文本。

通过本申请的场景文本检测系统和方法，有效地利用了大容量的深度学习模型以解决用于文本检测的当前MSER方法的两个主要问题。此外，本申请的系统可具有较强稳健性和高辨别能力，以通过并入MSER检测器和经过训练的CNN分类器来区分文本与大量的非文本成分。滑动窗口模型与CNN分类器结合在一起，以进一步提高MSER检测器正确地定位挑战文本成分的能力。本申请的方法比当前方法在标准基准数据集中取得很大进步。

尽管已描述了本发明的优选示例，但在了解本发明基本概念后，本领域的技术人员可对这些示例进行变化或更改。所附权利要求书意图包括落入本发明的范围内的优选示例和所有变化或更改。

显然，在不脱离本发明的精神和范围的情况下，本领域的技术人员可对本发明进行变化或更改。因此，如果这些变化或更改属于权利要求书和等效技术的范围，那么它们也可落入本发明的范围内。

Claims

1.一种场景文本检测系统，其包括：

最大稳定极值区域(MSER)检测器，其被配置成从图像中生成文本成分集合，其中生成的文本成分排序成MSER树形结构；

卷积神经网络(CNN)分类器，其被配置成将成分置信分数分配到所述文本成分集合中的每个文本成分；

选择器，其被配置成从所述文本成分集合中选择具有分配的成分置信分数中的较高成分置信分数的文本成分；以及

构造器，其被配置成使用选择的文本成分来构造最终文本。

2.根据权利要求1所述的场景文本检测系统，其中所述CNN分类器使用预定训练集进行训练，以分配所述置信分数。

3.根据权利要求1所述的场景文本检测系统，其中所述CNN分类器包括至少一个卷积层、至少一个平均池化层、和支持向量机(SVM)分类器，以及

其中，所述每个卷积层之后是平均池化层和多个滤波器。

4.根据权利要求3所述的场景文本检测系统，其中所述至少一个卷积层包括两个卷积层。

5.根据权利要求4所述的场景文本检测系统，其中所述两个卷积层的第一卷积层的滤波器被配置成通过使用非监督K均值来根据从所述预定训练集中提取的图像块集合进行学习以生成响应，并且所述两个卷积层的第二卷积层的滤波器被配置成通过反向传播从所述SVM分类器中生成的SVM分类误差来基于生成的所述响应进行学习以获取所述文本成分的所述成分置信分数。

6.根据权利要求1所述的场景文本检测系统，其中所述选择器还包括：

标定装置，其被配置成基于所述分配的成分置信分数和所述MSER树形结构，从所述选择的文本成分中标定出错误连接的文本成分；以及

分割装置，其被配置成将所述错误连接的文本成分分割为具有较高成分置信分数的文本成分。

7.根据权利要求6所述的场景文本检测系统，其中所述分割装置还包括：

调整尺寸单元，其被配置成将所标定出的错误连接的文本成分调整到预定尺寸；

扫描仪，其被配置成扫描调整尺寸后的文本成分，以通过滑动窗口来获取成分置信分数的一维阵列；以及

识别单元，其被配置成基于所述一维阵列来识别所述错误连接的文本成分的峰位置，以将所述错误连接的文本成分分割为具有较高成分置信分数的文本成分。

8.根据权利要求6所述的场景文本检测系统，其中用于标定错误连接的文本成分的条件包括：

所述文本成分的宽度/高度的纵横比大于2；

所述文本成分具有正置信分数；以及

所述文本成分在所述MSER树形结构的端节点，或者具有比所述MSER树形结构中的所有子辈节点大的置信分数。

9.根据权利要求1所述的场景文本检测系统，其中所述构造器还包括：

配对单元，其被配置成将所述选择的文本成分中的具有类似几何和启发性质的两个文本成分配对；以及

合并单元，其被配置成按顺序将具有相同成分和类似方向的配对合并，以构造所述最终文本。

10.一种场景文本检测方法，其包括：

从图像中生成文本成分集合，其中生成的文本成分排序成树形结构；

将成分置信分数分配到所述文本成分集合中的每个文本成分；

从所述文本成分集合中选择具有分配的成分置信分数中的较高成分置信分数的文本成分；以及使用选取的文本成分来构造最终文本。

11.根据权利要求10所述的场景文本检测方法，其中从图像中生成文本成分集合包括：

通过使用最大稳定极值区域(MSER)检测器从所述图像中生成所述文本成分集合。

12.根据权利要求10所述的场景文本检测方法，其中将成分置信分数分配到每个文本成分还包括：

由经过训练的卷积神经网络(CNN)分类器将成分置信分数分配到所述文本成分集合中的每个文本成分。

13.根据权利要求12所述的场景文本检测方法，其还包括：

使用预定训练集来训练所述卷积神经网络分类器，以分配所述成分置信分数。

14.根据权利要求12所述的场景文本检测方法，其中所述卷积神经网络分类器包括至少一个卷积层、至少一个平均池化层、和支持向量机(SVM)分类器，并且其中所述每个卷积层之后是平均池化层并且具有多个滤波器。

15.根据权利要求14所述的场景文本检测方法，其中所述至少一个卷积层包括两个卷积层，并且使用预定训练集来训练所述卷积神经网络分类器以分配所述成分置信分数还包括：

从所述预定训练集中提取图像块集合；

由所述两个卷积层的第一卷积层的滤波器通过使用非监督K均值来根据所述图像块集合进行学习以生成响应；以及

由所述两个卷积层的第二卷积层的滤波器通过反向传播从所述SVM分类器中生成的SVM分类误差来根据生成的所述响应来进行学习以获取所述文本成分的所述成分置信分数。

16.根据权利要求10所述的场景文本检测方法，其中从所述文本成分集合中选择具有所述分配的成分置信分数中的较高成分置信分数的文本成分以构造最终文本还包括：

基于所述分配的成分置信分数和所述MSER树形结构来标定出所述选择的文本成分中的错误连接的文本成分；以及

将所述错误连接的文本成分分割为具有较高成分置信分数的文本成分。

17.根据权利要求16所述的场景文本检测方法，其中将所述错误连接的文本成分分割为具有较高成分置信分数的文本成分还包括：

将标定的错误连接的文本成分调整到预定尺寸；和

扫描调整尺寸后的文本成分，以通过滑动窗口来获取成分置信分数的一维阵列；以及

基于所述一维阵列来识别所述错误连接的文本成分的峰位置，以便基于所述峰位置将所述错误连接的文本成分分割成具有较高置信分数的文本成分。

18.根据权利要求16所述的场景文本检测方法，其中用于标定出错误连接的文本成分的条件包括：

所述文本成分的宽度/高度的纵横比大于2；

所述文本成分具有正置信分数；以及

19.根据权利要求10所述的场景文本检测方法，其中使用所述选择的文本成分来构造最终文本还包括：

将所述选择的文本成分的具有类似几何和启发性质的两个文本成分配对；以及

按顺序将具有相同成分和类似方向的文本配对合并，以构造所述最终文本。