CN111753839A

CN111753839A - 一种文本检测方法和装置

Info

Publication number: CN111753839A
Application number: CN202010421249.5A
Authority: CN
Inventors: 雷军; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-10-09

Abstract

本发明提供了一种文本检测方法和装置，属于数据处理技术领域。所述方法包括：将目标文本图像输入至预先训练的文本检测模型，获取目标文本图像的二值化图，文本检测模型包括：文本分割模块以及二值化模块，文本分割模块用于获取目标文本图像的像素概率图和像素阈值图，二值化模块用于根据像素概率图和像素阈值图获得二值化图；将二值化图进行聚合，获取目标文本图像的文本检测框图。本方案通过将文本分割模块输出的像素概率图和像素阈值图通过二值化模块聚合为二值化图后进行聚合得到所需的文本检测框图，使得在文本检测框图的聚合过程中各像素点均存在自适应的像素点阈值，无需人工对像素点阈值进行调试，提高了文本检测的效率。

Description

一种文本检测方法和装置

技术领域

本发明属于数据处理领域，特别是涉及一种文本检测方法和装置。

背景技术

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。其中文本检测过程是文本识别前的重要环节，通过该文本检测过程所确定文本图像中的文本区域的准确性直接影响到文本识别的效果。

现有技术中通常是采用渐进式扩展网络算法对文本图像中的文本区域进行检测，其中最终输出的特征图需要根据一个预先设定的像素点阈值来判断该特征图中的哪些像素点属于文本像素点，而该像素点阈值的取值完全取决于人工设定，不仅需要耗费大量的人力成本反复调整像素点阈值，而且该像素点阈值的设定的优劣完全取决于个人经验，降低了文本检测的效率。

发明内容

有鉴于此，本发明提供一种文本检测方法和装置，以便解决现有技术中如何在文本检测的过程中需要人工调整像素点阈值，降低文本检测效率的问题。

依据本发明的第一方面，提供了一种文本检测方法，所述方法包括：

将目标文本图像输入至预先训练的文本检测模型，获取所述目标文本图像的二值化图，所述文本检测模型包括：文本分割模块以及二值化模块，所述文本分割模块用于获取所述目标文本图像的像素概率图和像素阈值图，所述二值化模块用于根据所述像素概率图和像素阈值图获得二值化图；

将所述二值化图进行聚合，获取所述目标文本图像的文本检测框图。

可选的，所述预先训练的文本检测模型是通过以下步骤得到的：

获取预先标注的样本文本图像，所述预先标注的样本文本图像包括：样本像素概率标签、样本像素阈值标签和样本二值化标签；

将所述样本文本图像输入至待训练的文本检测模型进行训练，得到所述预先训练的文本检测模型。

可选的，所述将所述样本文本图像输入至待训练的文本检测模型进行训练，得到所述预先训练的文本检测模型，包括：

将所述样本文本图像输入至待训练的文本检测模型，并采用Tensorflow框架进行对所述待训练的文本检测模型进行训练，得到所述预先训练的文本检测模型。

可选的，所述获取预先标注的样本文本图像，包括：

获取初始文本图像；

根据多边形裁剪算法对所述初始文本图像进行缩放，获得样本文本图像；

将所述样本文本图像按照目标方式进行优化处理，所述目标方式至少包括：图像截取、色度调节、亮度调节、角度调节中的任一项。

可选的，所述文本分割模块是采用轻量级网络结构从所述目标文本图像中提取像素概率图和像素阈值图。

依据本发明的第二方面，提供了一种文本检测装置，所述装置包括：

处理模块，用于将目标文本图像输入至预先训练的文本检测模型，获取所述目标文本图像的二值化图，所述文本检测模型包括：文本分割模块以及二值化模块，所述文本分割模块用于获取所述目标文本图像的像素概率图和像素阈值图，所述二值化模块用于根据所述像素概率图和像素阈值图获得二值化图；

第一获取模块，用于将所述二值化图进行聚合，获取所述目标文本图像的文本检测框图。

可选的，所述预先训练的文本检测模型是通过以下模块得到的：

第二获取模块，用于获取预先标注的样本文本图像，所述预先标注的样本文本图像包括：样本像素概率标签、样本像素阈值标签和样本二值化标签；

训练模块，用于将所述样本文本图像输入至待训练的文本检测模型进行训练，得到所述预先训练的文本检测模型。

可选的，所述训练模块，还用于：

可选的，所述第二获取模块，还用于：

获取初始文本图像；

依据本发明第三方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一所述的文本检测方法。

依据本发明第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的文本检测方法。

针对现有技术，本发明具备如下优点：

本发明提供的第一种文本检测方法和装置，通过将文本分割模块输出的像素概率图和像素阈值图通过二值化模块聚合为二值化图后进行聚合得到所需的文本检测框图，使得在文本检测框图的聚合过程中各像素点均存在自适应的独立像素点阈值，无需人工对像素点阈值进行调试，提高了文本检测的效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种文本检测方法的步骤流程图；

图2是本发明实施例提供的现有文本分割方法的效果示意图；

图3是本发明实施例提供的一种二值化图像的获取方法的效果示意图；

图4是本发明实施例提供的一种文本检测模型的训练方法的步骤流程图；

图5是本发明实施例提供的一种样本文本图像的获取方法的步骤流程图；

图6是本发明实施例提供的一种文本检测装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种文本检测方法，所述方法包括：

步骤101，将目标文本图像输入至预先训练的文本检测模型，获取所述目标文本图像的二值化图，所述文本检测模型包括：文本分割模块以及二值化模块，所述文本分割模块用于获取所述目标文本图像的像素概率图和像素阈值图，所述二值化模块用于根据所述像素概率图和像素阈值图获得二值化图。

在本发明实施例中，目标文本图像是指包含有文字信息的图像。像素概率图包含有目标文本图像中每个像素点的出现概率。像素阈值图中包含有目标文本图像中每个像素点的阈值。文本检测模型包含有文本分割模块以及二值化模块，是通过在文本分割模型训练的过程中通过添加二值化网络模块一起进行训练得到的。其中文本分割模块可以基于PSENET网络的文本分割模型，也可以是基于其他常规文本分割算法的模型。所述二值化模块可以将文本分割模块所输出的特征图进行二值化处理，从而得到每个像素点均对应有像素点阈值的二值化图。

可以理解，在先技术中均是直接采用基于渐进式扩展网络算法的文本分割模型对文本图像进行检测，从而可以获得特征图，再由人工设置二值化阈值的方式对所得到的特征图进行筛选，以确定文本区域的像素点。这种人工设置二值化阈值的方式不仅需要耗费大量人力，而且准确率无法保证。而本方案通过在文本分割模型的训练过程中加入二值化模块，从而使得所得到的文本检测模型不仅可以输出目标文本图像的包含有像素点阈值的二值化图，从而使得每个像素点均对应有独立的像素点阈值，避免为了适应不用的文本图像需要手动调试二值化阈值的情况。并且通过本方案得到的二值化阈值时适应于所输入目标文本图像中每个像素点的，因此所得到的二值化图的鲁棒性更高，对于前景和背景的区分能力也更强。

具体的，参照图2，现有技术中的PSENET(Progressive Scale ExpansionNetwork，渐进式扩展网络)网络模型是将输入的目标文本图像通过下采样、特征融合，上采样，即FPN(feature pyramid networks，特征金字塔网络)，以通过F层输出与目标样本图像尺寸相同的特征图。其中通常情况下F层中的特征图S1,…，Sn-1，Sn，然后将所得到的特征图进行渐进式规模扩张(Progressive Scale Expansion)的后处理得到文本检测框图R。而本申请的方案并不是对F层所输出的特征图直接进后处理，而是输入至二值化模块将其中的像素概率图和像素阈值图聚合为二值化图，在进行后处理，从而减少生成文本检测框图过程中所需聚合的特征图的数量，并使得每个像素点均存在自适应的独立像素点阈值。

进一步的，二值化模块是可通过以下公式(1)将所得到的像素概率图和像素阈值图进行聚合，获取二值化图。

其中，

是指二值化图的像素值，P_i，j为像素概率图的像素值，T_i，j为像素阈值图的像素值，e为自然常数，k为方法因子。

参照图3，通过基于PSENET网络的文本分割模块F层输出的像素概率图(probability map)、像素阈值图(threshold map)进行聚合，得到二值化图(approximatebinary map)。

步骤102，将所述二值化图进行聚合，获取所述目标文本图像的文本检测框图。

在本发明实施例中，仅二值化图进行聚合的过程可参照常规的文本图像分割后的后处理过程，此处不再赘述。针对本现有技术中PSENET模型输出的特征图为偶数的特性，而本申请将所输出的像素概率图会对应有相对应的像素阈值图，通过二值化模块将像素概率图和像素阈值图进行聚合得到的二值化图可以将所得到的后续进行聚合的特征图数量缩减一半，从而减少后续聚合得到文本检测框图的数据处理量，从而可以提高文本检测的效率。例如：传统的基于PSENET的文本检测模型中推荐的特征图数量为6，通过本申请的二值化模块进行聚合后可以将所得到的6张特征图缩减到3张，可以明显减少后处理聚合的数据处理量。

可选的，参照图4，所述预先训练的文本检测模型是通过以下步骤201至步骤202得到的：

步骤201，获取预先标注的样本文本图像，所述预先标注的样本文本图像包括：样本像素概率标签、样本像素阈值标签和样本二值化标签。

在本发明实施例中，可以首先选取含有文本内容的样本图像，然后通过PSENT网络模型获取样本图像的特征图，具体包含有像素概率图和对应的像素阈值图，并将该像素概率图作为二值化图，最后将该像素概率图、像素阈值图和二值化图作为样本图像的标签，得到包含有样本像素概率标签、样本像素阈值标签和样本二值化标签的样本文本图像。

步骤202，将所述样本文本图像输入至待训练的文本检测模型进行训练，得到所述预先训练的文本检测模型。

在本发明实施例中，待训练的文本检测模型中含有基于PSENET的文本分割模型以及二值化模块，从而通过将样本文本图像进行输入并训练，即可得到可以输出二值化图的文本检测模型。

本发明实施例通过在文本分割模型的训练过程中加入二值化模块，使得所得到的文本检测模型可以直接输出包含各像素点的二值化阈值的二值化图，无需人工调试二值化阈值，提高了文本检测的效率。

可选的，所述步骤202，包括：将所述样本文本图像输入至待训练的文本检测模型，并采用Tensorflow(是一个采用数据流图，用于数值计算的开源软件库)框架进行对所述待训练的文本检测模型进行训练，得到所述预先训练的文本检测模型。

在本发明实施例中，可以采用Tensorflow框架带训练的文本检测模型进行训练，优化器使用adam(一种对随机目标函数执行一阶梯度优化的算法)，初始化学习率可以设置为0.001，每训练1000轮学习率衰减十分之一，从而提高模型训练的整体效率。

可选的，参照图5所述步骤201，包括：

子步骤2011，获取初始文本图像。

在本发明实施例中，初始文本图像可以是从互联网中随机采集到含有本文内容的图像，也可以是人工输入的包含有文本内容的图像。

子步骤2012，根据多边形裁剪算法对所述初始文本图像进行缩放，获得样本文本图像。

在本发明实施例中，可以采用vatti clipping(多边形裁剪)算法，将PSENET网络得到的各初始样本图像的像素概率图和像素阈值图作为gt，得到初始文本图像的标签，具体包含有样本像素概率标签、样本像素阈值标签以及样本二值化标签。

子步骤2013，将所述样本文本图像按照目标方式进行优化处理，所述目标方式至少包括：图像截取、色度调节、亮度调节、角度调节中的任一项。

在本发明实施例中，由于模型训练的过程中要求样本图像的尺寸一致，因此需要对样本文本图像进行裁剪，当然为了保证训练所得到的文本检测模型的效果，还可以对样本文本图像的色度、亮度、以及图像的角度进行一定程度的调整。

在本发明实施例中，当文本分割模块是基于PSENST网络时，特征金字塔结构提取采用的backbone骨架网络(一种帮助开发重量级的javascript应用的框架)可以修改为Shuffle Net V2(一种轻量级的，可用于移动设备的卷积神经网络)，从而提高特征提取的效率，以提高文本分割模块的处理效率。

本发明提供的第一种文本检测方法，通过将文本分割模块输出的像素概率图和像素阈值图通过二值化模块聚合为二值化图后进行聚合得到所需的文本检测框图，使得在文本检测框图的聚合过程中各像素点均存在自适应的独立像素点阈值，无需人工对像素点阈值进行调试，提高了文本检测的效率。

图6是本发明实施例提供的一种文本检测装置30，所述装置包括：

处理模块301，用于将目标文本图像输入至预先训练的文本检测模型，获取所述目标文本图像的二值化图，所述文本检测模型包括：文本分割模块以及二值化模块，所述文本分割模块用于获取所述目标文本图像的像素概率图和像素阈值图，所述二值化模块用于根据所述像素概率图和像素阈值图获得二值化图。

第一获取模块302，用于将所述二值化图进行聚合，获取所述目标文本图像的文本检测框图。

第二获取模块303，用于获取预先标注的样本文本图像，所述预先标注的样本文本图像包括：样本像素概率标签、样本像素阈值标签和样本二值化标签。

训练模块304，用于将所述样本文本图像输入至待训练的文本检测模型进行训练，得到所述预先训练的文本检测模型。

可选的，所述训练模块304，还用于：

可选的，所述第二获取模块303，还用于：

获取初始文本图像；

本发明提供了一种文本检测装置，通过将文本分割模块输出的像素概率图和像素阈值图通过二值化模块聚合为二值化图后进行聚合得到所需的文本检测框图，使得在文本检测框图的聚合过程中各像素点均存在自适应的独立像素点阈值，无需人工对像素点阈值进行调试，提高了文本检测的效率。

对于上述网关设备实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

另外，本发明实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在处理上运行的计算机程序，该计算机程序被处理器执行时实现上述一种文本检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述一种文本检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，可以为只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的一种文本检测方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种文本检测方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者网关设备程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干网关设备的单元权利要求中，这些网关设备中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种文本检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预先训练的文本检测模型是通过以下步骤得到的：

3.根据权利要求2所述的方法，其特征在于，所述将所述样本文本图像输入至待训练的文本检测模型进行训练，得到所述预先训练的文本检测模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述获取预先标注的样本文本图像，包括：

获取初始文本图像；

5.根据权利要求1所述的方法，其特征在于，所述文本分割模块是采用轻量级网络结构从所述目标文本图像中提取像素概率图和像素阈值图。

6.一种文本检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述预先训练的文本检测模型是通过以下模块得到的：

8.根据权利要求7所述的装置，其特征在于，所述训练模块，还用于：

9.根据权利要求7所述的装置，其特征在于，所述第二获取模块，还用于：

获取初始文本图像；

10.根据权利要求6所述的装置，其特征在于，所述文本分割模块是采用轻量级网络结构从所述目标文本图像中提取像素概率图和像素阈值图。