CN110276279B - 一种基于图像分割的任意形状场景文本探测方法 - Google Patents
一种基于图像分割的任意形状场景文本探测方法 Download PDFInfo
- Publication number
- CN110276279B CN110276279B CN201910490243.0A CN201910490243A CN110276279B CN 110276279 B CN110276279 B CN 110276279B CN 201910490243 A CN201910490243 A CN 201910490243A CN 110276279 B CN110276279 B CN 110276279B
- Authority
- CN
- China
- Prior art keywords
- text
- diagram
- score
- graph
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像分割的任意形状场景文本探测方法,其特点是采用深度神经网络模型处理待测场景图片的方法,将得到的概率图和边框图结合得到收缩掩码图,在收缩图上应用算法得到实例级别分割,在得到候选文本区域进行过滤,得到文本探测结果。本发明与现有技术相比具有简单、易行,能够有效的对任意形状的场景文本进行探测,且不会引入大量无关背景,本文的数据主要通过深度神经网络得到,其余的处理步骤主要使用简单的数字图像处理方法和数学工具,且容易通过OpenCV实现,得到高精度的结果。
Description
技术领域
本发明涉及图像目标探测技术领域,尤其是一种基于图像分割的任意形状场景文本探测方法。
背景技术
在互联网世界中,图片是传递信息的重要媒介,特别是电子商务、社交和搜索等领域,每天都有数以亿兆级别的图像在传播,图片文字识别(OCR)在商业领域有重要的应用价值,是数据信息化和线上线下打通的基础,也是学术界的研究热点。与文档文字识别不同,自然场景中的文字识别----图像背景复杂、分辨率低、字体多样、分布随意等,传统光学字符识别在此类情况下无法应用。为了更好的进行自然场景文本识别,就需要准确的对场景文本进行探测,
场景文本探测作为场景文本识别的前置任务,需要在复杂的自然场景下对文本区域进行精确的定位。
目前,场景文本探测常用的手段是将目标探测的方法迁移到文本探测,相对于目标探测,自然场景中的文本具有大小变化大,长宽比变化大,具有变化较大的方向和多样的形状。为了解决场景文本探测问题,通常要将目标探测方法中常用的anchor进行改造。常用的方法是改变预设的大小,长宽比以及加入方向信息。
现有技术探测出的文本框大多数都是四边形,对于具有曲折形状的文本效果不佳,且会引入无需的背景信息。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于图像分割的任意形状场景文本探测方法,采用深度神经网络模型处理文本图片的方法,将自动获取图片中的文本区域和文本边框信息,并结合得到分隔开的文本区域,根据分隔开的文本区域通过OpenCV得到实例级别的图像分割,然后通过算法扩张分割、提取轮廓,完成文本探测,使得给出一张待探测图片,模型能自动地探测图片中任意形状的文本,能够有效的对任意形状的场景文本进行探测,且不会引入大量无关背景,方法简单、易行,能够保证深度神经网络得到充分训练,得到高精度的结果。
本发明的目的是这样实现的:一种基于图像分割的任意形状场景文本探测方法,其特点是采用深度神经网络模型处理待测场景图片的方法,将得到的概率图与边框图结合得到收缩掩码图,在收缩图上应用算法得到实例级别分割,得到候选文本区域,并对候选文本区域进行得分过滤,选取出最后的文本探测结果,其具体过程包括以下步骤:
a步骤:将待探测的场景图片利用深度卷积神经网络模型,分别得到文本边框图、文本区域概率图和文本区域得分图。
b步骤:上述文本边框图和文本区域概率图经阈值及二值化算法处理,将图中大于阈值的像素点作为文本区域,去除与边框图重合部分,得到收缩文本掩码图。
c步骤:对上述收缩文本掩码图和文本区域概率图采用数学形态学的销蚀滤噪处理算法进行实例级图像分割,并对分割区域采用广度优先搜索算法进行扩张,得到候选文本框集。
d步骤:将Sigmoid函数激活的文本区域得分图和候选文本框集经设定的评分参数,计算各个候选文本框的评分值,并根据评分值选出候选文本框,经评分过滤后的文本框即为文本探测结果。
本发明与现有技术相比具有简单、易行,能够有效的对任意形状的场景文本进行探测,且不会引入大量无关背景,本文的数据主要通过深度神经网络得到,其余的处理步骤主要使用简单的数字图像处理方法和数学工具,且容易通过OpenCV实现,随着应用需求的提高,许多机构和组织提出丰富的数据集,能够保证深度神经网络得到充分训练,得到高精度的结果。
附图说明
图1为本发明流程示意图。
具体实施方式
参阅附图1,本发明按下述步骤进行任意形状场景文本探测的:
a步骤:将待探测的场景图片利用深度卷积神经网络模型,分别得到文本边框图、文本区域概率图和文本区域得分图。
b步骤:上述文本边框图和文本区域概率图经阈值及二值化算法处理,将图中大于阈值的像素点作为文本区域,去除与边框图重合部分,得到收缩文本掩码图。
c步骤:对上述收缩文本掩码图和文本区域概率图采用数学形态学的销蚀滤噪处理算法进行实例级图像分割,并对分割区域采用广度优先搜索算法进行扩张,得到候选文本框集。
d步骤:将Sigmoid函数激活的文本区域得分图和候选文本框集经设定的评分参数,计算各个候选文本框的评分值,并根据评分值选出候选文本框,经评分过滤后的文本框即为文本探测结果。
下面以具体实施为例对本发明作进一步阐述:
实施例1
(一)通过深度神经网络模型获取初步信息
将图片送入深度神经网络模型中进行处理,得到文本区域概率图、文本边框图和文本得分图,通过设定阈值和二值化,即将大于等于阈值的像素点值设为1,小于阈值的像素点值设为0,其中文本区域概率图的阈值为0.6,文本边框图阈值为0.1,并且对文本得分图应用Sigmoid函数获取得分。
(二)通过图像处理方法得到实例级别分割结果
将文本区域概率图和文本区域边框图进行与运算,得到两者共有区域,再将文本区域概率图减去共有区域,得到收缩掩码图,收缩掩码图相对于文本区域概率图,图中较为紧密相连的文本区域将不容易粘连,可以减少分割结果的错误。之后,通过OpenCV实现的图像开运算,滤去收缩掩码图中较小的区域,然后再通过OpenCV获取收缩掩码图中的轮廓标签,得到实例级别的图像分割结果。
(三)文本探测结果获取
上一步骤中获取的实例级别的图像分割结果由于减去了文本边框部分,面积通常要小于真实的文本区域,因此通过基于广度优先搜索的算法将分割图进行膨胀,其具体操作是将所有分割图中标记的像素送入队列中,通过广度优先搜索算法标记文本区域概率图中所有未被标记的文本像素点,然后,采用OpenCV中的轮廓提取方法,在膨胀后的图像分割结果上获取文本区域的轮廓,作为探测结果。最后,通过结合文本区域得分图,滤去错误的文本探测结果,其具体操作是通过求出每个本文探测结果(即轮廓)内的所有像素点的得分均值,将均值小于预设阈值的文本框滤去,过滤后的文本框即为最终结果。
以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。
Claims (1)
1.一种基于图像分割的任意形状场景文本探测方法,其特征在于采用深度神经网络模型处理待测场景图片的方法,将得到的文本区域概率图与文本边框图结合得到收缩掩码图,在收缩掩码图上应用算法得到实例级别分割,得到候选文本区域,并对候选文本区域进行得分过滤,选取出最后的文本探测结果,其具体过程包括以下步骤:
a步骤:将待探测的场景图片利用深度卷积神经网络模型,分别得到文本边框图、文本区域概率图和文本区域得分图;
b步骤:上述文本边框图和文本区域概率图经阈值及二值化算法处理,将图中大于阈值的像素点作为文本区域,去除与文本边框图重合部分,得到收缩文本掩码图;
c步骤:对上述收缩文本掩码图和文本区域概率图采用数学形态学的销蚀滤噪处理算法进行实例级图像分割,并对分割区域采用广度优先搜索算法进行扩张,得到候选文本框集;
d步骤:将Sigmoid函数激活的文本区域得分图和候选文本框集经设定的评分参数,计算各个候选文本框的评分值,并根据评分值选出候选文本框,经评分过滤后的文本框即为文本探测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490243.0A CN110276279B (zh) | 2019-06-06 | 2019-06-06 | 一种基于图像分割的任意形状场景文本探测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490243.0A CN110276279B (zh) | 2019-06-06 | 2019-06-06 | 一种基于图像分割的任意形状场景文本探测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110276279A CN110276279A (zh) | 2019-09-24 |
CN110276279B true CN110276279B (zh) | 2020-06-16 |
Family
ID=67960622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910490243.0A Active CN110276279B (zh) | 2019-06-06 | 2019-06-06 | 一种基于图像分割的任意形状场景文本探测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110276279B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728237B (zh) * | 2019-10-12 | 2022-06-07 | 创新奇智(成都)科技有限公司 | 不使用预先标定框的商品检测方法 |
CN111291759A (zh) * | 2020-01-17 | 2020-06-16 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN113222995A (zh) * | 2020-02-06 | 2021-08-06 | 阿里巴巴集团控股有限公司 | 视频处理方法、视频处理装置及电子设备 |
CN111666939B (zh) * | 2020-05-22 | 2021-02-26 | 华东师范大学 | 基于边距约束的任意形状的场景文本检测方法 |
CN113139534B (zh) * | 2021-05-06 | 2022-07-15 | 上海交通大学 | 两阶段安全多方计算的图片文本定位识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101782914B1 (ko) * | 2016-02-29 | 2017-09-28 | 한국항공대학교산학협력단 | 항공 영상 분류 장치 및 그 방법 |
CN108108731B (zh) * | 2016-11-25 | 2021-02-05 | 中移(杭州)信息技术有限公司 | 基于合成数据的文本检测方法及装置 |
CN107203606A (zh) * | 2017-05-17 | 2017-09-26 | 西北工业大学 | 基于卷积神经网络的自然场景下文本检测与识别方法 |
US10163022B1 (en) * | 2017-06-22 | 2018-12-25 | StradVision, Inc. | Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same |
CN107609549B (zh) * | 2017-09-20 | 2021-01-08 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN108345850B (zh) * | 2018-01-23 | 2021-06-01 | 哈尔滨工业大学 | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 |
CN108549893B (zh) * | 2018-04-04 | 2020-03-31 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109492230B (zh) * | 2019-01-11 | 2022-12-20 | 浙江大学城市学院 | 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 |
-
2019
- 2019-06-06 CN CN201910490243.0A patent/CN110276279B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
Non-Patent Citations (1)
Title |
---|
strokelets:A learned multi-scale representation for scene text recognition;Yao C等;《CVPR》;20141231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110276279A (zh) | 2019-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276279B (zh) | 一种基于图像分割的任意形状场景文本探测方法 | |
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
KR101403876B1 (ko) | 차량 번호판 인식 방법과 그 장치 | |
WO2018145470A1 (zh) | 一种图像检测方法和装置 | |
CN107133929B (zh) | 基于背景估计和能量最小化的低质量文档图像二值化方法 | |
CN103336961B (zh) | 一种交互式的自然场景文本检测方法 | |
CN110020692B (zh) | 一种基于印刷体模板的手写体分离与定位方法 | |
CN109241973B (zh) | 一种纹理背景下的字符全自动软分割方法 | |
CN110751655A (zh) | 一种基于语义分割和显著性分析的自动抠图方法 | |
CN104050471A (zh) | 一种自然场景文字检测方法及系统 | |
CN106503711A (zh) | 一种文字识别方法 | |
CN114419647B (zh) | 一种表格信息提取方法及系统 | |
CN108830857B (zh) | 一种自适应的汉字碑帖图像二值化分割方法 | |
EP3073415B1 (en) | Image processing apparatus and image processing method | |
Roy et al. | Wavelet-gradient-fusion for video text binarization | |
CN106504225A (zh) | 一种规则多边形的识别方法和装置 | |
CN114359538A (zh) | 一种水表读数定位与识别方法 | |
CN104598907A (zh) | 一种基于笔画宽度图的图像中文字数据提取方法 | |
Janani et al. | Recognition and analysis of Tamil inscriptions and mapping using image processing techniques | |
CN113642380A (zh) | 一种用于无线表格的识别技术 | |
Bhuvaneswari et al. | Automatic Detection and Inpainting of Text Images | |
CN116416624A (zh) | 一种基于版面校正的文档电子化方法、装置以及存储介质 | |
Zhang et al. | Video text extraction using the fusion of color gradient and Log-Gabor filter | |
Zhang et al. | A novel approach for binarization of overlay text | |
CN112069924A (zh) | 车道线检测方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |