CN111368848B

CN111368848B - 一种复杂场景下的文字检测方法

Info

Publication number: CN111368848B
Application number: CN202010464622.5A
Authority: CN
Inventors: 朱浩; 张磊; 郑全新; 董小栋; 刘阳; 赵海波; 孟祥松; 张逞逞; 冯鑫; 江龙; 邓家勇; 刘婷婷
Original assignee: Beijing Tongfang Software Co Ltd
Current assignee: Beijing Tongfang Software Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-08-21
Anticipated expiration: 2040-05-28
Also published as: CN111368848A

Abstract

本发明涉及人工智能和计算机视觉技术领域，特别是基于深度学习实现复杂场景下的文字检测方法。它通过融合了分割模块和检测模块的网络结构（SDetNet）以及损失函数（Shape Loss）学习数据的空间分布特征，能降低文字的误检率，降低检测框的冗余度，具有很好的可解释性。一种复杂场景下的文字检测方法，它的方法步骤为：图像数据的场景预处理；网络模型设计；损失函数。

Description

一种复杂场景下的文字检测方法

技术领域

本发明涉及人工智能和计算机视觉技术领域，特别是基于深度学习实现复杂场景下的文字检测方法。

背景技术

光学字符识别（Optical Character Recognition, 简称OCR）是指将图像上的文字转化为计算机可编辑的文字内容。其中，最重要的一步是通过特征提取，找出图像中候选的文字区域特征，也就是文字检测。文字检测分为三个主流方法：基于文本框回归的算法；基于像素分割的算法；基于分割和回归结合的研究算法。目前，文字检测面临诸多挑战，文字方向多变性、文字分布的不规则性、文字大小的不唯一性。由于以上挑战，导致复杂场景中的文字检测易出现误检和检测框过度冗余两种情况，进而对文字识别造成不良的影响。

在计算机视觉领域，复杂场景的文字检测可以利用目标检测（Object Detection）和目标分割（Object Segmention）两种不同的检测思路。ZHI TIAN等人2016年发表的论文《Detecting Text in Natural Image with Connectionist Text Proposal Network》，该方法利用了目标检测的方式，首次把RNN引入到检测网络中。通过CNN获取图像的深度特征，然后用固定宽度的anchor来检测text proposal，并把同一行anchor对应的特征串成序列，输入到RNN中，最后用全连接层来分类或回归，并将正确的text proposal进行合并成文本线，这种把RNN和CNN无缝结合的方法提高了检测精度。Baoguang Shi等人2017年发表了《Detecting Oriented Text in Natural Images by Linking Segments》，该方法首先是检测生成一个一个的切片（segment），生成的切片表示的是文本行或单词的一部分，可能是一个字符、一个单词或者是几个字符。通过链接（link）的方式将属于同一个文本行或者单词的切片（segment）连接起来。链接是在两个有重叠切片的中心点进行相连，最终，通过合并算法，将这些切片、链接合并成一个完整的文本行，得出完整文本行的检测框位置和旋转角度。通过直接回归方法在场景文本检测上已经取得了不俗的表现，但是场景文本会遇到较大尺度、长宽比和方向的变化。Qiangpeng Yang等人2018年发表了《IncepText: A NewInception-Text Module with Deformable PSROI Pooling for Multi-Oriented SceneText Detection》提出了一个用于多方向场景文本检测的新的 Inception-Text 模块，使用可变形的 PSROI 池化模块来处理多方向的文本，用多个不同卷积核的卷积分支来处理不同长宽比比例的文本，在每个分支后面接一个可变形的卷积层以适应多方向文本，实现复杂场景下文字的检测。

综上所述，利用目标检测和目标分割算法实现自然场景文字检测是不同且有效的方法。然而，复杂场景下的文字检测还存在一定的不足，复杂的文字背景易造成文字的误检等情况。如何提高检测精度，降低误检也是复杂场景文字检测研究的热点。

复杂场景中，由于现实场景的多样化、文字分布的多样化、文字大小的差异等，导致文本检测过程中，出现一定的误检和检测框冗余的问题。同时，在图像尺度较大的情况下，文字像素占比较小，小目标容易出现漏检。利用单一的目标分割的算法，不仅存在复杂的后处理操作，而且存在误检情况；利用单一的目标检测的算法，在复杂场景中容易出现检测框的冗余和误检。

发明内容

针对上述现有技术中存在的不足，本发明的目的是提供一种复杂场景下的文字检测方法。它通过融合了分割模块和检测模块的网络结构（SDetNet）以及损失函数（ShapeLoss）学习数据的空间分布特征，能降低文字的误检率，降低检测框的冗余度，具有很好的可解释性。

为解决上述技术问题，本发明提供一种复杂场景下的文字检测方法，其特征在于，包括如下步骤：

步骤一：图像数据的场景预处理，先将原始复杂场景中的大像素图像，划分成几个小图像块，分别进行检测，再将检测结果融合。

步骤二：网络模型设计，通过设计一种融合了分割模块和检测模块的网络结构SDetNet，计算检测模块检测框和分割模块检测框的交并比IOU，再由合并模块利用交并比参数值和文本存在概率值，判断该场景中某些局部位置是否存在文字。采用公式（1）计算：

（1）

其中，Pre_Rect是分割模块和检测模块的交并比参数值，Label_Rect表示文字存在的真实分布区域。

步骤三：损失函数设计，把检测框和真实框的IOU参数值设定为动态的权值参数，作为模型最终的目标函数再进行CNN迭代训练，这种回归长、宽比的损失函数计算方法为：

设定坐标原点为（0，0）点，x、y分别表示文字框的长和宽，坐标中的点A（x1，y1）和点B（x2，y2）分别表示检测框的真值和模型预测出的结果值，θ参数作为点A和点B之间的夹角，可以衡量向量和的相似度。优化θ参数值，对检测框进行调节，公式如下（2）和（3）：

（2）

（3）

其中，θ为真值坐标A和预测坐标B的夹角，当θ的参数值变大时，cos函数将变大，-ln函数也会变大。通过梯度下降算法，有效的对模型进行调节，使θ参数值逐渐变小，AL是计算的向量方向差异度参数值。

利用真值框和预测框的交并比值设计一个动态的权重值，当IOU参数值比较大时，说明文字检测区域能更好的覆盖文字区域，设定较高的权值。当IOU参数值比较小时，说明文字检测区域覆盖文字区域效果较差，设定较低的权值；损失函数公式如下（4）：

(4)

在上述文字检测方法中，所述将原始复杂场景中图像划分为小图像块的数量为4个。

在上述文字检测方法中，所述检测模块学习文字区域分布和文字倾斜角度特征；所述分割模块学习文字分布概率和文字检测框特征。

本发明由于采用了上述方法，同现有技术相比，具有如下优点：

1、本发明中，融合了分割模块和检测模块的网络结构SDetNet，其中的分割分支可以有效的计算文字区域和文字存在概率，再结合检测分支能够有效的降低文字的误检率；

2、本发明中的目标框损失函数Shape Loss，利用文字分布具有规则的长、宽比先验特征，实现区域框检测的规范化，提高检测效率，降低检测的冗余度；

3、本发明方法利用交并比IOU参数，设计了一种动态权值参数。由于网络训练的初始阶段，模型的学习具有较高的随机性，会生成大量的文字检测框。通过IOU参数值，可以有效的获取检测框的正样本和负样本。当正样本存在时，说明对应的文本区域应该有更高的概率，对检测框的长、宽比进行调节。相反，当为负样本时，应该有较低的概率，对检测框的长、宽的比进行调节。通过这种有目的的约束，使模型能够好的对文字区域特征进行关注。因此，利用交并比IOU参数值，可以有效地、动态化地调节模型的学习。

下面结合附图和具体实施方式对本发明做进一步说明。

附图说明

图1为本发明方法流程图；

图2为本发明中的网络结构SDetNet图；

图3为本发明中的坐标图。

具体实施方式

参看图1，本发明一种复杂场景下的文字检测方法，它的步骤为：

步骤一：图像数据的场景预处理，原始复杂场景中像素大小为1920*1080的图像中，较小的文字所占的像素比较小。为了提高文字的像素占比，对原始图像划分为4个960*540图像块，进行分别检测，对检测结果进行融合。

步骤二：网络模型设计，参看图2，通过设计一种融合了分割模块和检测模块的网络结构SDetNet，分割模块和检测模块分别共享一个网络主干结构backbone，分割分支获取文字分布区域和概率，检测分支获取文字分布角度参数和区域。计算检测模块检测框和分割模块检测框的交并比IOU，再由合并模块利用交并比参数值和文本存在概率值，判断该场景中某些局部位置是否存在文字。采用公式（1）计算交并比IOU：

（1）

其中，Pre_Rect是分割模块和检测模块的交并比参数值，Label_Rect表示文字存在的真实分布区域；

图2中，输入图像大小为batchsize*3*512*512，每个模块输出的通道数目如下：

Conv：16

Conv Stage 1：64

Conv Stage 2：256

Conv Stage 3：384

DeConv Stage 1：128

DeConv Stage 2：64

DeConv Stage 3：32

DeConv：32

Detection Block: 5

Segmentation: 2

输出结果中的feature map大小为：

Score Map: batchsize*256 * 256 * 1

Box Geometry: batchsize*256 * 256 * 4

Rotation Angel: batchsize*256 * 256 * 1

如图2所示，获取三个结果：文字区域得分（Score Map）、文字框大小（BoxGeometry）和文字旋转角（Rotation Angel）。分割模块（Segmentation Block）和检测模块（Detection Block）共享一个U型的网络结构。

步骤三：损失函数设计，根据实际的业务需求，对收集到的样本进行筛选，对筛选出的特定场景样本实现文字区域多边形标注。复杂场景中，由于文字尺度、间距、分布位置具有多样性的特点以及交叉熵、IOU损失函数对较规则的长、宽框回归冗余度大等缺点。本发明设计了一种新的，可以回归长、宽比的损失函数。为了解决模型难收敛问题，把检测框和真实框的IOU参数值设定为一种动态的权值参数，作为模型最终的目标函数，最后进行CNN迭代训练，训练出的模型有效的降低了检测框的冗余度；

图1中的Shape Loss和IOU作用分别为：规范长、宽比；动态调节损失权重参数值。把检测框和真实框的IOU参数值设定为动态的权值参数，作为模型最终的目标函数再进行CNN迭代训练，这种回归长、宽比的损失函数计算方法为：

参看图3，设定坐标原点为（0，0）点，x、y分别表示文字框的长和宽，坐标中的点A（x1， y1）和点B（x2，y2）分别表示检测框的真值和模型预测出的结果值，θ参数作为点A和点B之间的夹角，可以衡量向量和的相似度；

优化θ参数值，对检测框进行调节，公式如下（2）和（3）：

（2）

（3）

由于网络训练的前期，会产生大量的检测框，单纯的最小化θ参数值会使模型难收敛。利用真值框和预测框的交并比值设计一个动态的权重值，当IOU参数值比较大时，说明文字检测区域能更好的覆盖文字区域，设定较高的权值；当IOU参数值比较小时，说明文字检测区域覆盖文字区域效果较差，设定较低的权值。损失函数公式（4）如下：

(4)

最后，利用非极大值抑制算法（NMS）去掉冗余的检测框，输出最终的检测结果。

在本发明技术方案基础上使用的如下替换，均应属于本发明保护范围：

1.本发明中使用卷积神经网络CNN模型的方案可替换为结合其他深度学习模型或者机器学习的方案；

2.本发明设计的分割和检测融合网络SDetNet可以更换为其他融合方法；

3.本发明设计的损失函数Shape Loss方法可以更换为其他方法；

4.本发明设计的动态阈值方案可以更换为其它的方法。