CN111368848B - 一种复杂场景下的文字检测方法 - Google Patents
一种复杂场景下的文字检测方法 Download PDFInfo
- Publication number
- CN111368848B CN111368848B CN202010464622.5A CN202010464622A CN111368848B CN 111368848 B CN111368848 B CN 111368848B CN 202010464622 A CN202010464622 A CN 202010464622A CN 111368848 B CN111368848 B CN 111368848B
- Authority
- CN
- China
- Prior art keywords
- detection
- character
- value
- parameter value
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人工智能和计算机视觉技术领域,特别是基于深度学习实现复杂场景下的文字检测方法。它通过融合了分割模块和检测模块的网络结构(SDetNet)以及损失函数(Shape Loss)学习数据的空间分布特征,能降低文字的误检率,降低检测框的冗余度,具有很好的可解释性。一种复杂场景下的文字检测方法,它的方法步骤为:图像数据的场景预处理;网络模型设计;损失函数。
Description
技术领域
本发明涉及人工智能和计算机视觉技术领域,特别是基于深度学习实现复杂场景下的文字检测方法。
背景技术
光学字符识别(Optical Character Recognition, 简称OCR)是指将图像上的文字转化为计算机可编辑的文字内容。其中,最重要的一步是通过特征提取,找出图像中候选的文字区域特征,也就是文字检测。文字检测分为三个主流方法:基于文本框回归的算法;基于像素分割的算法;基于分割和回归结合的研究算法。目前,文字检测面临诸多挑战,文字方向多变性、文字分布的不规则性、文字大小的不唯一性。由于以上挑战,导致复杂场景中的文字检测易出现误检和检测框过度冗余两种情况,进而对文字识别造成不良的影响。
在计算机视觉领域,复杂场景的文字检测可以利用目标检测(Object Detection)和目标分割(Object Segmention)两种不同的检测思路。ZHI TIAN等人2016年发表的论文《Detecting Text in Natural Image with Connectionist Text Proposal Network》,该方法利用了目标检测的方式,首次把RNN引入到检测网络中。通过CNN获取图像的深度特征,然后用固定宽度的anchor来检测text proposal,并把同一行anchor对应的特征串成序列,输入到RNN中,最后用全连接层来分类或回归,并将正确的text proposal进行合并成文本线,这种把RNN和CNN无缝结合的方法提高了检测精度。Baoguang Shi等人2017年发表了《Detecting Oriented Text in Natural Images by Linking Segments》,该方法首先是检测生成一个一个的切片(segment),生成的切片表示的是文本行或单词的一部分,可能是一个字符、一个单词或者是几个字符。通过链接(link)的方式将属于同一个文本行或者单词的切片(segment)连接起来。链接是在两个有重叠切片的中心点进行相连,最终,通过合并算法,将这些切片、链接合并成一个完整的文本行,得出完整文本行的检测框位置和旋转角度。通过直接回归方法在场景文本检测上已经取得了不俗的表现,但是场景文本会遇到较大尺度、长宽比和方向的变化。Qiangpeng Yang等人2018年发表了《IncepText: A NewInception-Text Module with Deformable PSROI Pooling for Multi-Oriented SceneText Detection》提出了一个用于多方向场景文本检测的新的 Inception-Text 模块,使用可变形的 PSROI 池化模块来处理多方向的文本,用多个不同卷积核的卷积分支来处理不同长宽比比例的文本,在每个分支后面接一个可变形的卷积层以适应多方向文本,实现复杂场景下文字的检测。
综上所述,利用目标检测和目标分割算法实现自然场景文字检测是不同且有效的方法。然而,复杂场景下的文字检测还存在一定的不足,复杂的文字背景易造成文字的误检等情况。如何提高检测精度,降低误检也是复杂场景文字检测研究的热点。
复杂场景中,由于现实场景的多样化、文字分布的多样化、文字大小的差异等,导致文本检测过程中,出现一定的误检和检测框冗余的问题。同时,在图像尺度较大的情况下,文字像素占比较小,小目标容易出现漏检。利用单一的目标分割的算法,不仅存在复杂的后处理操作,而且存在误检情况;利用单一的目标检测的算法,在复杂场景中容易出现检测框的冗余和误检。
发明内容
针对上述现有技术中存在的不足,本发明的目的是提供一种复杂场景下的文字检测方法。它通过融合了分割模块和检测模块的网络结构(SDetNet)以及损失函数(ShapeLoss)学习数据的空间分布特征,能降低文字的误检率,降低检测框的冗余度,具有很好的可解释性。
为解决上述技术问题,本发明提供一种复杂场景下的文字检测方法,其特征在于,包括如下步骤:
步骤一:图像数据的场景预处理,先将原始复杂场景中的大像素图像,划分成几个小图像块,分别进行检测,再将检测结果融合。
步骤二:网络模型设计,通过设计一种融合了分割模块和检测模块的网络结构SDetNet,计算检测模块检测框和分割模块检测框的交并比IOU,再由合并模块利用交并比参数值和文本存在概率值,判断该场景中某些局部位置是否存在文字。采用公式(1)计算:
其中,Pre_Rect是分割模块和检测模块的交并比参数值,Label_Rect表示文字存在的真实分布区域。
步骤三:损失函数设计,把检测框和真实框的IOU参数值设定为动态的权值参数,作为模型最终的目标函数再进行CNN迭代训练,这种回归长、宽比的损失函数计算方法为:
设定坐标原点为(0,0)点,x、y分别表示文字框的长和宽,坐标中的点A(x1,y1)和点B(x2,y2)分别表示检测框的真值和模型预测出的结果值,θ参数作为点A和点B之间的夹角,可以衡量向量和的相似度。优化θ参数值,对检测框进行调节,公式如下(2)和(3):
其中,θ为真值坐标A和预测坐标B的夹角,当θ的参数值变大时,cos函数将变大,-ln函数也会变大。通过梯度下降算法,有效的对模型进行调节,使θ参数值逐渐变小,AL是计算的向量方向差异度参数值。
利用真值框和预测框的交并比值设计一个动态的权重值,当IOU参数值比较大时,说明文字检测区域能更好的覆盖文字区域,设定较高的权值。当IOU参数值比较小时,说明文字检测区域覆盖文字区域效果较差,设定较低的权值;损失函数公式如下(4):
在上述文字检测方法中,所述将原始复杂场景中图像划分为小图像块的数量为4个。
在上述文字检测方法中,所述检测模块学习文字区域分布和文字倾斜角度特征;所述分割模块学习文字分布概率和文字检测框特征。
本发明由于采用了上述方法,同现有技术相比,具有如下优点:
1、本发明中,融合了分割模块和检测模块的网络结构SDetNet,其中的分割分支可以有效的计算文字区域和文字存在概率,再结合检测分支能够有效的降低文字的误检率;
2、本发明中的目标框损失函数Shape Loss,利用文字分布具有规则的长、宽比先验特征,实现区域框检测的规范化,提高检测效率,降低检测的冗余度;
3、本发明方法利用交并比IOU参数,设计了一种动态权值参数。由于网络训练的初始阶段,模型的学习具有较高的随机性,会生成大量的文字检测框。通过IOU参数值,可以有效的获取检测框的正样本和负样本。当正样本存在时,说明对应的文本区域应该有更高的概率,对检测框的长、宽比进行调节。相反,当为负样本时,应该有较低的概率,对检测框的长、宽的比进行调节。通过这种有目的的约束,使模型能够好的对文字区域特征进行关注。因此,利用交并比IOU参数值,可以有效地、动态化地调节模型的学习。
下面结合附图和具体实施方式对本发明做进一步说明。
附图说明
图1为本发明方法流程图;
图2为本发明中的网络结构SDetNet图;
图3为本发明中的坐标图。
具体实施方式
参看图1,本发明一种复杂场景下的文字检测方法,它的步骤为:
步骤一:图像数据的场景预处理,原始复杂场景中像素大小为1920*1080的图像中,较小的文字所占的像素比较小。为了提高文字的像素占比,对原始图像划分为4个960*540图像块,进行分别检测,对检测结果进行融合。
步骤二:网络模型设计,参看图2,通过设计一种融合了分割模块和检测模块的网络结构SDetNet,分割模块和检测模块分别共享一个网络主干结构backbone,分割分支获取文字分布区域和概率,检测分支获取文字分布角度参数和区域。计算检测模块检测框和分割模块检测框的交并比IOU,再由合并模块利用交并比参数值和文本存在概率值,判断该场景中某些局部位置是否存在文字。采用公式(1)计算交并比IOU:
其中,Pre_Rect是分割模块和检测模块的交并比参数值,Label_Rect表示文字存在的真实分布区域;
图2中,输入图像大小为batchsize*3*512*512,每个模块输出的通道数目如下:
Conv:16
Conv Stage 1:64
Conv Stage 2:256
Conv Stage 3:384
DeConv Stage 1:128
DeConv Stage 2:64
DeConv Stage 3:32
DeConv:32
Detection Block: 5
Segmentation: 2
输出结果中的feature map大小为:
Score Map: batchsize*256 * 256 * 1
Box Geometry: batchsize*256 * 256 * 4
Rotation Angel: batchsize*256 * 256 * 1
如图2所示,获取三个结果:文字区域得分(Score Map)、文字框大小(BoxGeometry)和文字旋转角(Rotation Angel)。分割模块(Segmentation Block)和检测模块(Detection Block)共享一个U型的网络结构。
步骤三:损失函数设计,根据实际的业务需求,对收集到的样本进行筛选,对筛选出的特定场景样本实现文字区域多边形标注。复杂场景中,由于文字尺度、间距、分布位置具有多样性的特点以及交叉熵、IOU损失函数对较规则的长、宽框回归冗余度大等缺点。本发明设计了一种新的,可以回归长、宽比的损失函数。为了解决模型难收敛问题,把检测框和真实框的IOU参数值设定为一种动态的权值参数,作为模型最终的目标函数,最后进行CNN迭代训练,训练出的模型有效的降低了检测框的冗余度;
图1中的Shape Loss和IOU作用分别为:规范长、宽比;动态调节损失权重参数值。把检测框和真实框的IOU参数值设定为动态的权值参数,作为模型最终的目标函数再进行CNN迭代训练,这种回归长、宽比的损失函数计算方法为:
参看图3,设定坐标原点为(0,0)点,x、y分别表示文字框的长和宽,坐标中的点A(x1, y1)和点B(x2,y2)分别表示检测框的真值和模型预测出的结果值,θ参数作为点A和点B之间的夹角,可以衡量向量和的相似度;
优化θ参数值,对检测框进行调节,公式如下(2)和(3):
其中,θ为真值坐标A和预测坐标B的夹角,当θ的参数值变大时,cos函数将变大,-ln函数也会变大。通过梯度下降算法,有效的对模型进行调节,使θ参数值逐渐变小,AL是计算的向量方向差异度参数值。
由于网络训练的前期,会产生大量的检测框,单纯的最小化θ参数值会使模型难收敛。利用真值框和预测框的交并比值设计一个动态的权重值,当IOU参数值比较大时,说明文字检测区域能更好的覆盖文字区域,设定较高的权值;当IOU参数值比较小时,说明文字检测区域覆盖文字区域效果较差,设定较低的权值。损失函数公式(4)如下:
最后,利用非极大值抑制算法(NMS)去掉冗余的检测框,输出最终的检测结果。
在本发明技术方案基础上使用的如下替换,均应属于本发明保护范围:
1.本发明中使用卷积神经网络CNN模型的方案可替换为结合其他深度学习模型或者机器学习的方案;
2.本发明设计的分割和检测融合网络SDetNet可以更换为其他融合方法;
3.本发明设计的损失函数Shape Loss方法可以更换为其他方法;
4.本发明设计的动态阈值方案可以更换为其它的方法。
Claims (3)
1.一种复杂场景下的文字检测方法,其特征在于,包括如下步骤:
步骤一:图像数据的场景预处理,先将原始复杂场景中的大像素图像,划分成几个小图像块,分别进行检测,再将检测结果融合;
步骤二:网络模型设计,设计了一种融合了分割模块和检测模块的网络结构SDetNet,计算检测模块检测框和分割模块检测框的交并比IOU,再由合并模块利用交并比参数值和文本存在概率值,判断该场景中某些局部位置是否存在文字;采用公式(1)计算交并比IOU:
其中,Pre_Rect是分割模块和检测模块的交并比参数值,Label_Rect表示文字存在的真实分布区域;
步骤三:损失函数,把检测框和真实框的IOU参数值设定为动态的权值参数,作为模型最终的目标函数再进行CNN迭代训练,这种回归长、宽比的损失函数计算方法为:
设定坐标原点为(0,0)点,x、y分别表示文字框的长和宽,坐标中的点A(x1,y1)和点B(x2,y2)分别表示检测框的真值和模型预测出的结果值,θ参数作为点A和点B之间的夹角,可以衡量向量和的相似度;优化θ参数值,对检测框进行调节,公式如下(2)和(3):
其中,θ为真值坐标A和预测坐标B的夹角,当θ的参数值变大时,cos函数将变大,-ln函数也会变大;通过梯度下降算法,有效的对模型进行调节,使θ参数值逐渐变小,AL是计算的向量方向差异度参数值;
利用真值框和预测框的交并比值设计一个动态的权重值,当IOU参数值比较大时,说明文字检测区域能更好的覆盖文字区域,设定较高的权值;当IOU参数值比较小时,说明文字检测区域覆盖文字区域效果较差,设定较低的权值;损失函数ShapeLoss如下公式(4):
2.根据权利要求1所述复杂场景下的文字检测方法,其特征在于,所述将原始复杂场景中图像划分为小图像块的数量为4个。
3.根据权利要求1或2所述复杂场景下的文字检测方法,其特征在于,所述检测模块学习文字区域分布和文字倾斜角度特征;所述分割模块学习文字分布概率和文字检测框特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010464622.5A CN111368848B (zh) | 2020-05-28 | 2020-05-28 | 一种复杂场景下的文字检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010464622.5A CN111368848B (zh) | 2020-05-28 | 2020-05-28 | 一种复杂场景下的文字检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368848A CN111368848A (zh) | 2020-07-03 |
CN111368848B true CN111368848B (zh) | 2020-08-21 |
Family
ID=71212292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010464622.5A Active CN111368848B (zh) | 2020-05-28 | 2020-05-28 | 一种复杂场景下的文字检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368848B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733639B (zh) * | 2020-12-28 | 2023-01-06 | 贝壳技术有限公司 | 文本信息结构化提取方法及装置 |
CN112926637B (zh) * | 2021-02-08 | 2023-06-09 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种文本检测训练集的生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615237A (zh) * | 2018-05-08 | 2018-10-02 | 上海商汤智能科技有限公司 | 一种肺部图像处理方法及图像处理设备 |
CN109584251A (zh) * | 2018-12-06 | 2019-04-05 | 湘潭大学 | 一种基于单目标区域分割的舌体图像分割方法 |
CN110097568A (zh) * | 2019-05-13 | 2019-08-06 | 中国石油大学(华东) | 一种基于时空双分支网络的视频对象检测与分割方法 |
CN110428432A (zh) * | 2019-08-08 | 2019-11-08 | 梅礼晔 | 结肠腺体图像自动分割的深度神经网络算法 |
CN110689093A (zh) * | 2019-12-10 | 2020-01-14 | 北京同方软件有限公司 | 一种复杂场景下的图像目标精细分类方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480648B (zh) * | 2017-08-23 | 2020-03-27 | 南京大学 | 一种自然场景文字检测的方法 |
US10460214B2 (en) * | 2017-10-31 | 2019-10-29 | Adobe Inc. | Deep salient content neural networks for efficient digital object segmentation |
US10572760B1 (en) * | 2017-11-13 | 2020-02-25 | Amazon Technologies, Inc. | Image text localization |
CN109559300A (zh) * | 2018-11-19 | 2019-04-02 | 上海商汤智能科技有限公司 | 图像处理方法、电子设备及计算机可读存储介质 |
CN109815948B (zh) * | 2019-01-14 | 2023-05-30 | 辽宁大学 | 一种复杂场景下的试卷分割算法 |
CN110738207B (zh) * | 2019-09-10 | 2020-06-19 | 西南交通大学 | 一种融合文字图像中文字区域边缘信息的文字检测方法 |
CN110751154B (zh) * | 2019-09-27 | 2022-04-08 | 西北工业大学 | 一种基于像素级分割的复杂环境多形状文本检测方法 |
-
2020
- 2020-05-28 CN CN202010464622.5A patent/CN111368848B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615237A (zh) * | 2018-05-08 | 2018-10-02 | 上海商汤智能科技有限公司 | 一种肺部图像处理方法及图像处理设备 |
CN109584251A (zh) * | 2018-12-06 | 2019-04-05 | 湘潭大学 | 一种基于单目标区域分割的舌体图像分割方法 |
CN110097568A (zh) * | 2019-05-13 | 2019-08-06 | 中国石油大学(华东) | 一种基于时空双分支网络的视频对象检测与分割方法 |
CN110428432A (zh) * | 2019-08-08 | 2019-11-08 | 梅礼晔 | 结肠腺体图像自动分割的深度神经网络算法 |
CN110689093A (zh) * | 2019-12-10 | 2020-01-14 | 北京同方软件有限公司 | 一种复杂场景下的图像目标精细分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111368848A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112884064B (zh) | 一种基于神经网络的目标检测与识别方法 | |
CN112837330B (zh) | 基于多尺度双注意力机制和全卷积神经网络的叶分割方法 | |
CN111553837B (zh) | 一种基于神经风格迁移的艺术文本图像生成方法 | |
CN111160407B (zh) | 一种深度学习目标检测方法及系统 | |
CN108038846A (zh) | 基于多层卷积神经网络的输电线路设备图像缺陷检测方法及系统 | |
CN113627228B (zh) | 一种基于关键点回归与多尺度特征融合的车道线检测方法 | |
CN110807362B (zh) | 一种图像检测方法、装置和计算机可读存储介质 | |
CN115690542B (zh) | 一种基于改进yolov5的航拍绝缘子定向识别方法 | |
CN111401380B (zh) | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 | |
CN109948533B (zh) | 一种文本检测方法、装置、设备及可读存储介质 | |
CN113516126A (zh) | 一种基于注意力特征融合的自适应阈值场景文本检测方法 | |
CN114419413A (zh) | 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法 | |
CN111368848B (zh) | 一种复杂场景下的文字检测方法 | |
CN117037119A (zh) | 基于改进YOLOv8的道路目标检测方法及系统 | |
CN113888505B (zh) | 一种基于语义分割的自然场景文本检测方法 | |
CN113888461A (zh) | 基于深度学习的小五金件缺陷检测方法、系统及设备 | |
Jin et al. | Defect identification of adhesive structure based on DCGAN and YOLOv5 | |
Zhang et al. | A graph-voxel joint convolution neural network for ALS point cloud segmentation | |
CN114283431B (zh) | 一种基于可微分二值化的文本检测方法 | |
CN115439766A (zh) | 一种基于改进yolov5的无人机目标检测方法 | |
CN112560824B (zh) | 一种基于多特征自适应融合的人脸表情识别方法 | |
CN115079117A (zh) | 一种带定位精度预测的三维目标检测方法 | |
CN114359286A (zh) | 一种基于人工智能的绝缘子缺陷识别方法、设备及介质 | |
CN111476226B (zh) | 一种文本定位方法、装置及模型训练方法 | |
CN110348311B (zh) | 一种基于深度学习的道路交叉口识别系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |