CN110276279B

CN110276279B - 一种基于图像分割的任意形状场景文本探测方法

Info

Publication number: CN110276279B
Application number: CN201910490243.0A
Authority: CN
Inventors: 杨静; 胡子凌
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2020-06-16
Anticipated expiration: 2039-06-06
Also published as: CN110276279A

Abstract

本发明公开了一种基于图像分割的任意形状场景文本探测方法，其特点是采用深度神经网络模型处理待测场景图片的方法，将得到的概率图和边框图结合得到收缩掩码图，在收缩图上应用算法得到实例级别分割，在得到候选文本区域进行过滤，得到文本探测结果。本发明与现有技术相比具有简单、易行，能够有效的对任意形状的场景文本进行探测，且不会引入大量无关背景，本文的数据主要通过深度神经网络得到，其余的处理步骤主要使用简单的数字图像处理方法和数学工具，且容易通过OpenCV实现，得到高精度的结果。

Description

一种基于图像分割的任意形状场景文本探测方法

技术领域

本发明涉及图像目标探测技术领域，尤其是一种基于图像分割的任意形状场景文本探测方法。

背景技术

在互联网世界中，图片是传递信息的重要媒介，特别是电子商务、社交和搜索等领域，每天都有数以亿兆级别的图像在传播，图片文字识别（OCR）在商业领域有重要的应用价值，是数据信息化和线上线下打通的基础，也是学术界的研究热点。与文档文字识别不同，自然场景中的文字识别----图像背景复杂、分辨率低、字体多样、分布随意等，传统光学字符识别在此类情况下无法应用。为了更好的进行自然场景文本识别，就需要准确的对场景文本进行探测，

场景文本探测作为场景文本识别的前置任务，需要在复杂的自然场景下对文本区域进行精确的定位。

目前，场景文本探测常用的手段是将目标探测的方法迁移到文本探测，相对于目标探测，自然场景中的文本具有大小变化大，长宽比变化大，具有变化较大的方向和多样的形状。为了解决场景文本探测问题，通常要将目标探测方法中常用的anchor进行改造。常用的方法是改变预设的大小，长宽比以及加入方向信息。

现有技术探测出的文本框大多数都是四边形，对于具有曲折形状的文本效果不佳，且会引入无需的背景信息。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于图像分割的任意形状场景文本探测方法，采用深度神经网络模型处理文本图片的方法，将自动获取图片中的文本区域和文本边框信息，并结合得到分隔开的文本区域，根据分隔开的文本区域通过OpenCV得到实例级别的图像分割，然后通过算法扩张分割、提取轮廓，完成文本探测，使得给出一张待探测图片，模型能自动地探测图片中任意形状的文本，能够有效的对任意形状的场景文本进行探测，且不会引入大量无关背景，方法简单、易行，能够保证深度神经网络得到充分训练，得到高精度的结果。

本发明的目的是这样实现的：一种基于图像分割的任意形状场景文本探测方法，其特点是采用深度神经网络模型处理待测场景图片的方法，将得到的概率图与边框图结合得到收缩掩码图，在收缩图上应用算法得到实例级别分割，得到候选文本区域，并对候选文本区域进行得分过滤，选取出最后的文本探测结果，其具体过程包括以下步骤：

a步骤：将待探测的场景图片利用深度卷积神经网络模型，分别得到文本边框图、文本区域概率图和文本区域得分图。

b步骤：上述文本边框图和文本区域概率图经阈值及二值化算法处理，将图中大于阈值的像素点作为文本区域，去除与边框图重合部分，得到收缩文本掩码图。

c步骤：对上述收缩文本掩码图和文本区域概率图采用数学形态学的销蚀滤噪处理算法进行实例级图像分割，并对分割区域采用广度优先搜索算法进行扩张，得到候选文本框集。

d步骤：将Sigmoid函数激活的文本区域得分图和候选文本框集经设定的评分参数，计算各个候选文本框的评分值，并根据评分值选出候选文本框，经评分过滤后的文本框即为文本探测结果。

本发明与现有技术相比具有简单、易行，能够有效的对任意形状的场景文本进行探测，且不会引入大量无关背景，本文的数据主要通过深度神经网络得到，其余的处理步骤主要使用简单的数字图像处理方法和数学工具，且容易通过OpenCV实现，随着应用需求的提高，许多机构和组织提出丰富的数据集，能够保证深度神经网络得到充分训练，得到高精度的结果。

附图说明

图1为本发明流程示意图。

具体实施方式

参阅附图1，本发明按下述步骤进行任意形状场景文本探测的：

下面以具体实施为例对本发明作进一步阐述：

实施例1

（一）通过深度神经网络模型获取初步信息

将图片送入深度神经网络模型中进行处理，得到文本区域概率图、文本边框图和文本得分图，通过设定阈值和二值化，即将大于等于阈值的像素点值设为1，小于阈值的像素点值设为0，其中文本区域概率图的阈值为0.6，文本边框图阈值为0.1，并且对文本得分图应用Sigmoid函数获取得分。

（二）通过图像处理方法得到实例级别分割结果

将文本区域概率图和文本区域边框图进行与运算，得到两者共有区域，再将文本区域概率图减去共有区域，得到收缩掩码图，收缩掩码图相对于文本区域概率图，图中较为紧密相连的文本区域将不容易粘连，可以减少分割结果的错误。之后，通过OpenCV实现的图像开运算，滤去收缩掩码图中较小的区域，然后再通过OpenCV获取收缩掩码图中的轮廓标签，得到实例级别的图像分割结果。

（三）文本探测结果获取

上一步骤中获取的实例级别的图像分割结果由于减去了文本边框部分，面积通常要小于真实的文本区域，因此通过基于广度优先搜索的算法将分割图进行膨胀，其具体操作是将所有分割图中标记的像素送入队列中，通过广度优先搜索算法标记文本区域概率图中所有未被标记的文本像素点，然后，采用OpenCV中的轮廓提取方法，在膨胀后的图像分割结果上获取文本区域的轮廓，作为探测结果。最后，通过结合文本区域得分图，滤去错误的文本探测结果，其具体操作是通过求出每个本文探测结果（即轮廓）内的所有像素点的得分均值，将均值小于预设阈值的文本框滤去，过滤后的文本框即为最终结果。

以上只是对本发明作进一步的说明，并非用以限制本专利，凡为本发明等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种基于图像分割的任意形状场景文本探测方法，其特征在于采用深度神经网络模型处理待测场景图片的方法，将得到的文本区域概率图与文本边框图结合得到收缩掩码图，在收缩掩码图上应用算法得到实例级别分割，得到候选文本区域，并对候选文本区域进行得分过滤，选取出最后的文本探测结果，其具体过程包括以下步骤：

a步骤：将待探测的场景图片利用深度卷积神经网络模型，分别得到文本边框图、文本区域概率图和文本区域得分图；

b步骤：上述文本边框图和文本区域概率图经阈值及二值化算法处理，将图中大于阈值的像素点作为文本区域，去除与文本边框图重合部分，得到收缩文本掩码图；

c步骤：对上述收缩文本掩码图和文本区域概率图采用数学形态学的销蚀滤噪处理算法进行实例级图像分割，并对分割区域采用广度优先搜索算法进行扩张，得到候选文本框集；