CN110751154B

CN110751154B - 一种基于像素级分割的复杂环境多形状文本检测方法

Info

Publication number: CN110751154B
Application number: CN201910929393.7A
Authority: CN
Inventors: 袁媛; 王�琦; 陈旺
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2022-04-08
Anticipated expiration: 2039-09-27
Also published as: CN110751154A

Abstract

本发明提供了一种基于像素级分割的复杂环境多形状文本检测方法。首先，对数据集中的图像进行增强等预处理，扩展数据集并得到不同大小的标注；然后，构建并训练基于全卷积网络的复杂环境文本分割模型；最后，利用训练好的模型对给定图像进行文本检测。本发明方法可以检测多种形状包括弧形的文本，有效解决不同尺度文本的检测问题，对于光照变化和复杂背景的情况更具鲁棒性，具有更高检测准确率和召回率。

Description

一种基于像素级分割的复杂环境多形状文本检测方法

技术领域

本发明属计算机视觉、图形处理技术领域，具体涉及一种基于像素级分割的复杂环境多形状文本检测方法。

背景技术

文字识别分为文字的检测和文字的识别两个具体步骤，两者缺一不可，文字检测是识别的前提。文本检测不是一件简单的任务，尤其是复杂场景下的文本检测，非常具有挑战性。但自然场景下的文字识别对智能交通、自动驾驶、图片翻译等有着重要作用。由于其具有很强的应用价值，因此也是计算机视觉领域的研究热点。

自然场景下的文本非常复杂，从文本本身来说，其倾斜角度、语言、排列、大小尺度以及字体等多种多样；而从拍摄的环境来说，因拍摄条件带来的图像明暗变化/模糊或是文本的变形，也增加了自然场景下文本的复杂性，加大了检测的难度。由于传统方法难以应对这种复杂的情况，机器学习的方法近年来更多应用于文本检测。

基于深度学习的场景文本检测方法主要基于卷积神经网络，大致分为两类：一类是基于回归的方法，通常基于通用对象检测框架。如“J.Ma,W.Shao,H.Ye,L.Wang,H.Wang,Y.Zheng,and X.Xue,"Arbitrary-oriented scene text detection via rotationproposals,"IEEE Transactions on Multimedia,vol.20,no.11,pp.3111-3122,2018.”提出了RRPN方法，即基于Faster R-CNN候选区域网络(RPN)生成旋转候选区域，来检测任意方向的文本。第二类是基于分割的方法，主要基于全卷积网络(FCN)。如“D.Deng,H.Liu,X.Li,and D.Cai,"Pixellink:Detecting Scene Text via Instance Segmentation,"Proc.AAAI Conference on Artificial Intelligence,2018.”提出了PixelLink方法，通过进行文本/分文本分类以及预测不同文本实例之间的像素连接，最后再进行连通域分析合并得到最终文本框。

以上方法在通用检测的基础上，克服了传统方法对倾斜文本难以检测的问题。但也有其局限性，如不能有效应对弯曲和尺度变化大的文本等。

发明内容

为了克服现有文本检测方法不能处理弯曲或尺度变化大的文本以及多行文本不能正确分离的不足，本发明提供一种基于像素级分割的复杂环境多形状文本检测方法。首先，对数据集中的图像进行增强等预处理，扩展数据集并得到不同大小的标注；然后，构建并训练基于全卷积网络的复杂环境文本分割模型；最后，利用训练好的模型对给定图像进行文本检测。本发明方法可以检测多种形状包括弧形的文本，有效解决不同尺度文本的检测问题，对于光照变化和复杂背景的情况更鲁棒，具有更高检测准确率和召回率。

一种基于像素级分割的复杂环境多形状文本检测方法，其特征在于步骤如下：

步骤1，数据预处理：

分别对数据集中的所有图像进行增强处理，并将增强处理后的图像和原数据集中的图像合并为新的图像数据集；将新的数据集中每幅图像的文本区域标注分别缩小到原来的1/2和1/4，加上原有标注得到三组标注；所述的增强处理包括图像旋转、亮度调整和缩放处理。

步骤2，构建并训练基于全卷积网络的复杂环境文本分割模型：

步骤2.1：将样本输入到ResNet50网络，分别抽取其pool2、pool3、pool4和pool5层的输出，得到4个不同尺度的特征，按尺度由小到大依次表示为f_1,f_2,f_3,f_4；

步骤2.2：将最小尺度特征f_1输入上池化层后与f_2进行级联，将级联后的特征输入到特征融合模块，得到融合后的变换特征一；将融合后的变换特征一输入上池化层后与f_3级联，将级联后的特征通过特征融合模块，得到融合后的变换特征二；将融合后的变换特征二输入上池化层后与f_4级联，将级联后的特征通过特征融合模块，最终得到融合了4个不同尺度特征的变换特征；所述的特征融合模块由卷积核大小为3×3的卷积层、BatchNormalization层和ReLU层组成；

步骤2.3：将步骤2.2最终融合后的变换特征输入卷积核大小为1x1的卷积层，再经Sigmoid函数激活层后，得到像素级分割图像；

步骤2.4：以图像的标注作为目标，使用交叉熵作为损失函数计算损失值对步骤2.1至2.3的模型进行训练，对于三组不同的标注训练得到三个分割模型；

步骤3，文本检测：

步骤3.1：将待检测文本图像分别输入到步骤2得到的三个分割模型，并将输出进行二值化后，得到三个分割结果A_1,A_2,A_3，分别对应1/4、1/2和原大小的文本区域分割图像；

步骤3.2：对A_1进行连通域分析，并将不同的连通区域用不同的正整数进行标记；将标记后的图像与A_2叠加，对叠加后图像进行连通域分析，并分别进行区域去除和拓展，得到1/2大小的分割图像〖A'〗_2；将〖A'〗_2与A_3叠加，对叠加后图像进行连通域分析，并分别进行区域去除和拓展，得到原大小的最终分割图像〖A'〗_3；其中，所述的区域去除是指对于最大值为1的连通区域，将像素值全设为0；所述的拓展是指区域去除后，将剩余值为1的像素设置为与其距离最近的值非0或1的像素的值；

步骤3.3：使用OpenCV轮廓检测函数对分割图像〖A'〗_3进行处理，得到不同文本区域的轮廓点坐标。

本发明的有益效果是：由于网络模型可以实现对不同尺度特征的融合，对于各种大小的文本都有比较好的检测效果。由于利用了图像分割技术，不仅能检测矩形文本区域，也能很好地检测出弯曲等异形的文本。由于对文本核心区域进行了拓展处理，能够很好地分开密集区域的多行文本，并且对于文本区域重叠地部分也能很好地分开相比于直接分割，可以降低误检率。本发明方法的深度网络能应对复杂背景下地文本检测任务，具有更高的检测准确率和更好的鲁棒性。

附图说明

图1是本发明的一种针对复杂环境下多形状文本的检测方法流程图

图2是本发明的复杂环境文本分割模型结构图

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种针对复杂环境下多形状文本的检测方法，其实现过程如下：

1、数据预处理

步骤1.1：首先对使用的ICDAR2015和Total-Text数据集中的图像进行数据增强以适应复杂场景，数据集的图片带有文本区域标注。将数据集中的图像通过旋转、调整亮度和缩放方式的组合进行图像数据增强，本实施例中旋转的角度从-90度到90度内随机生成，调整亮度的方式为将亮度随机增减50％，缩放方式为随机缩放1/2到2倍大小。对图像进行如上增强处理后，将处理后图像合并到原数据集，得到扩充后图像数据集，用于后续特征学习算法的训练样本，以应对复杂环境下光线变化以及拍摄角度的变化。

步骤1.2：将新的数据集中每幅图像的文本区域标注分别缩小到原来的1/2和1/4，对于每幅图像加上原有标注得到三组不同大小的标注。具体为：首先生成像素值全为0的图像(大小为原图片大小)，使用Opencv多边形填充算法将标注的文本区域填充为1，再使用Opencv的腐蚀算法，将文本区域分别腐蚀1/4和3/8的宽度(即四个角点距离的最小值)，使得新的文本标注变为原大小的1/2和1/4，加上原有标注，得到三组不同大小的像素级分割标注。

2、构建并训练基于全卷积网络的复杂环境文本分割模型

如图2所示，包括：

步骤2.1：构建基于特征金字塔网络(Feature Pyramid Networks，FPN)的多尺度特征提取器。使用ResNet50作为骨架网络，生成特征金字塔，使用其中pool2、pool3、pool4、pool5这4个层输出的特征，尺度由小到大分别表示为f_1,f_2,f_3,f_4。

其中，ResNet50网络记载在文献“Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun.Deep Residual Learning for Image Recognition[A].IEEE Conference onComputer Vision and Pattern Recognition[C].2016.1063-6919.”中。

步骤2.2：将f_1通过上池化层(方法为双线性上采样，尺度变为2倍)，与f_2级联。将级联后的特征通过由卷积核大小为3×3的卷积层，Batch Normalization层(批标准化层)以及ReLU层(线性整流激活函数层)组成的特征融合模块得到融合了f_1,f_2的变换特征。类似地，将得到的变换特征通过上池化层后，与f_3级联后通过特征融合模块，到融合了f_1,f_2,f_3的变换特征。将新的特征通过上池化层后，与f_4级联后通过特征融合模块，最终得到将4个不同尺度特征融合后的变换特征。

步骤2.3：使用卷积核大小为1x1的卷积层(Conv1x1)和Sigmoid函数激活层对融合后的变换特征进行分割，输出像素值为0到1的分割图像，对应每个像素在检测区域内的置信度。

步骤2.4：输入经过标注的图像对模型进行训练。使用交叉熵作为损失函数计算损失值，本实施例设定学习率为0.001批次大小为32，利用随机梯度下降法训练模型。对于三组不同标注，分别得到三个文本分割模型。

3、文本检测

步骤3.1：将需要检测的文本图像输入上面得到三个分割模型，将输出进行二值化处理，分别得到三个分割结果，即分别为每个文本区域的1/4大小、1/2大小和原大小的分割图像，分别表示为A_1,A_2,A_3。本实施例中设置二值化阈值为0.6。

步骤3.2：对A_1进行连通域分析，将不同的连通区域进行标记(标记方法为将区域内像素值全部设为不同的正整数)。将得到的图像与A_2叠加，即每个像素的值相加，并进行连通域分析。对于最大值为1的连通区域，将值全设为0，去可信度较低的文本区域；对剩下每个值为1的像素，设置为距离最近的值非0或1的像素的值，得到拓展到1/2大小的实例分割图像。类似地，将得到的图像与A_3的分割结果叠加，并进行与上述过程相同的操作，最终得到文本实例分割图像。

步骤3.3：使用OpenCV轮廓检测函数对上一步得到的分割图像进行处理，得到不同文本区域的轮廓点坐标，即为所需最终输出结果。

为验证本发明方法的有效性，在中央处理器为Intel(R)Core(TM)i7-6800K CPU@3.40GHz、内存64G、图形处理器为

Geforce 1080Ti GPU的Ubuntu18.04LTS操作系统上，利用Pytorch框架进行仿真实验。实验分别使用含倾斜文本的公开数据集ICDAR2015以及含弯曲文本的公开数据集Total-Text。

首先，使用训练集按照具体实施方式中的训练步骤学习特征；然后按照检测步骤将测试集中的图片进行检测，结合真实标记的结果计算出准确率P(检测结果的正确率)、召回率R(已有文本区域被检测到的比率)以及F值，其中，，F值综合了准确率和召回率，其值越大说明方法效果越好。

同时，选择了连通文本区域网络(CTPN)(文献“Z.Tian,W.Huang,T.He,P.He,andY.Qiao,"Detecting text in natural image with connectionist text proposalnetwork"In ECCV,2017”)，分割连接网络(SegLink)(文献“B.Shi,X.Bai,andS.Belongie,"Detecting oriented text in natural images by linking segments",InCVPR,2017”)与旋转候选区域网络(RRPN)(文献“J.Ma,W.Shao,H.Ye,L.Wang,H.Wang,Y.Zheng,and X.Xue,"Arbitrary-oriented scene text detection via rotationproposals",IEEE Transactions on Multimedia,2018”)的模型作为对比方法，在两个数据集上的计算结果分别如表1和表2所示。由计算结果可以看出，采用本发明方法对倾斜文本和弯曲文本的检测性能都有较好水平，特别是对弯曲文本的检测结果远优于其他方法，说明本发明方法对自然环境下的复杂文本检测具有良好的实用性与鲁棒性。

表1

方法	召回率	准确率	F值
				CTPN	51.56％	74.22％	60.85％
SegLink	76.8％	73.1％	75.0％
				RRPN	73.0％	82.0％	77.0％
本发明方法	73.62％	79.81％	76.6％

表2

方法	召回率	准确率	F值
				CTPN	20.7％	28.6％	24.0％
SegLink	23.8％	30.3％	26.7％
				RRPN	36.2％	40.2％	38.09％
本发明方法	69.54	77.02％	73.09％

Claims

1.一种基于像素级分割的复杂环境多形状文本检测方法，其特征在于步骤如下：

步骤1，数据预处理：

分别对数据集中的所有图像进行增强处理，并将增强处理后的图像和原数据集中的图像合并为新的图像数据集；将新的数据集中每幅图像的文本区域标注分别缩小到原来的1/2和1/4，加上原有标注得到三组标注；所述的增强处理包括图像旋转、亮度调整和缩放处理；

步骤2.1：将样本输入到ResNet50网络，分别抽取其pool2、pool3、pool4和pool5层的输出，得到4个不同尺度的特征，按尺度由小到大依次表示为f₁，f₂，f₃，f₄；

步骤2.2：将最小尺度特征f₁输入上池化层后与f₂进行级联，将级联后的特征输入到特征融合模块，得到融合后的变换特征一；将融合后的变换特征一输入上池化层后与f₃级联，将级联后的特征通过特征融合模块，得到融合后的变换特征二；将融合后的变换特征二输入上池化层后与f₄级联，将级联后的特征通过特征融合模块，最终得到融合了4个不同尺度特征的变换特征；所述的特征融合模块由卷积核大小为3×3的卷积层、BatchNormalization层和ReLU层组成；

步骤3，文本检测：

步骤3.1：将待检测文本图像分别输入到步骤2得到的三个分割模型，并将输出进行二值化后，得到三个分割结果A₁，A₂，A₃，分别对应1/4、1/2和原大小的文本区域分割图像；

步骤3.2：对A₁进行连通域分析，并将不同的连通区域用不同的正整数进行标记；将标记后的图像与A₂叠加，对叠加后图像进行连通域分析，并分别进行区域去除和拓展，得到1/2大小的分割图像A′₂；将A′₂与A₃叠加，对叠加后图像进行连通域分析，并分别进行区域去除和拓展，得到原大小的最终分割图像A′₃；其中，所述的区域去除是指对于最大值为1的连通区域，将像素值全设为0；所述的拓展是指区域去除后，将剩余值为1的像素设置为与其距离最近的值非0或1的像素的值；

步骤3.3：使用OpenCV轮廓检测函数对分割图像A′₃进行处理，得到不同文本区域的轮廓点坐标。