CN110751154B - 一种基于像素级分割的复杂环境多形状文本检测方法 - Google Patents
一种基于像素级分割的复杂环境多形状文本检测方法 Download PDFInfo
- Publication number
- CN110751154B CN110751154B CN201910929393.7A CN201910929393A CN110751154B CN 110751154 B CN110751154 B CN 110751154B CN 201910929393 A CN201910929393 A CN 201910929393A CN 110751154 B CN110751154 B CN 110751154B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- pixel
- segmentation
- fused
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于像素级分割的复杂环境多形状文本检测方法。首先,对数据集中的图像进行增强等预处理,扩展数据集并得到不同大小的标注;然后,构建并训练基于全卷积网络的复杂环境文本分割模型;最后,利用训练好的模型对给定图像进行文本检测。本发明方法可以检测多种形状包括弧形的文本,有效解决不同尺度文本的检测问题,对于光照变化和复杂背景的情况更具鲁棒性,具有更高检测准确率和召回率。
Description
技术领域
本发明属计算机视觉、图形处理技术领域,具体涉及一种基于像素级分割的复杂环境多形状文本检测方法。
背景技术
文字识别分为文字的检测和文字的识别两个具体步骤,两者缺一不可,文字检测是识别的前提。文本检测不是一件简单的任务,尤其是复杂场景下的文本检测,非常具有挑战性。但自然场景下的文字识别对智能交通、自动驾驶、图片翻译等有着重要作用。由于其具有很强的应用价值,因此也是计算机视觉领域的研究热点。
自然场景下的文本非常复杂,从文本本身来说,其倾斜角度、语言、排列、大小尺度以及字体等多种多样;而从拍摄的环境来说,因拍摄条件带来的图像明暗变化/模糊或是文本的变形,也增加了自然场景下文本的复杂性,加大了检测的难度。由于传统方法难以应对这种复杂的情况,机器学习的方法近年来更多应用于文本检测。
基于深度学习的场景文本检测方法主要基于卷积神经网络,大致分为两类:一类是基于回归的方法,通常基于通用对象检测框架。如“J.Ma,W.Shao,H.Ye,L.Wang,H.Wang,Y.Zheng,and X.Xue,"Arbitrary-oriented scene text detection via rotationproposals,"IEEE Transactions on Multimedia,vol.20,no.11,pp.3111-3122,2018.”提出了RRPN方法,即基于Faster R-CNN候选区域网络(RPN)生成旋转候选区域,来检测任意方向的文本。第二类是基于分割的方法,主要基于全卷积网络(FCN)。如“D.Deng,H.Liu,X.Li,and D.Cai,"Pixellink:Detecting Scene Text via Instance Segmentation,"Proc.AAAI Conference on Artificial Intelligence,2018.”提出了PixelLink方法,通过进行文本/分文本分类以及预测不同文本实例之间的像素连接,最后再进行连通域分析合并得到最终文本框。
以上方法在通用检测的基础上,克服了传统方法对倾斜文本难以检测的问题。但也有其局限性,如不能有效应对弯曲和尺度变化大的文本等。
发明内容
为了克服现有文本检测方法不能处理弯曲或尺度变化大的文本以及多行文本不能正确分离的不足,本发明提供一种基于像素级分割的复杂环境多形状文本检测方法。首先,对数据集中的图像进行增强等预处理,扩展数据集并得到不同大小的标注;然后,构建并训练基于全卷积网络的复杂环境文本分割模型;最后,利用训练好的模型对给定图像进行文本检测。本发明方法可以检测多种形状包括弧形的文本,有效解决不同尺度文本的检测问题,对于光照变化和复杂背景的情况更鲁棒,具有更高检测准确率和召回率。
一种基于像素级分割的复杂环境多形状文本检测方法,其特征在于步骤如下:
步骤1,数据预处理:
分别对数据集中的所有图像进行增强处理,并将增强处理后的图像和原数据集中的图像合并为新的图像数据集;将新的数据集中每幅图像的文本区域标注分别缩小到原来的1/2和1/4,加上原有标注得到三组标注;所述的增强处理包括图像旋转、亮度调整和缩放处理。
步骤2,构建并训练基于全卷积网络的复杂环境文本分割模型:
步骤2.1:将样本输入到ResNet50网络,分别抽取其pool2、pool3、pool4和pool5层的输出,得到4个不同尺度的特征,按尺度由小到大依次表示为f_1,f_2,f_3,f_4;
步骤2.2:将最小尺度特征f_1输入上池化层后与f_2进行级联,将级联后的特征输入到特征融合模块,得到融合后的变换特征一;将融合后的变换特征一输入上池化层后与f_3级联,将级联后的特征通过特征融合模块,得到融合后的变换特征二;将融合后的变换特征二输入上池化层后与f_4级联,将级联后的特征通过特征融合模块,最终得到融合了4个不同尺度特征的变换特征;所述的特征融合模块由卷积核大小为3×3的卷积层、BatchNormalization层和ReLU层组成;
步骤2.3:将步骤2.2最终融合后的变换特征输入卷积核大小为1x1的卷积层,再经Sigmoid函数激活层后,得到像素级分割图像;
步骤2.4:以图像的标注作为目标,使用交叉熵作为损失函数计算损失值对步骤2.1至2.3的模型进行训练,对于三组不同的标注训练得到三个分割模型;
步骤3,文本检测:
步骤3.1:将待检测文本图像分别输入到步骤2得到的三个分割模型,并将输出进行二值化后,得到三个分割结果A_1,A_2,A_3,分别对应1/4、1/2和原大小的文本区域分割图像;
步骤3.2:对A_1进行连通域分析,并将不同的连通区域用不同的正整数进行标记;将标记后的图像与A_2叠加,对叠加后图像进行连通域分析,并分别进行区域去除和拓展,得到1/2大小的分割图像〖A'〗_2;将〖A'〗_2与A_3叠加,对叠加后图像进行连通域分析,并分别进行区域去除和拓展,得到原大小的最终分割图像〖A'〗_3;其中,所述的区域去除是指对于最大值为1的连通区域,将像素值全设为0;所述的拓展是指区域去除后,将剩余值为1的像素设置为与其距离最近的值非0或1的像素的值;
步骤3.3:使用OpenCV轮廓检测函数对分割图像〖A'〗_3进行处理,得到不同文本区域的轮廓点坐标。
本发明的有益效果是:由于网络模型可以实现对不同尺度特征的融合,对于各种大小的文本都有比较好的检测效果。由于利用了图像分割技术,不仅能检测矩形文本区域,也能很好地检测出弯曲等异形的文本。由于对文本核心区域进行了拓展处理,能够很好地分开密集区域的多行文本,并且对于文本区域重叠地部分也能很好地分开相比于直接分割,可以降低误检率。本发明方法的深度网络能应对复杂背景下地文本检测任务,具有更高的检测准确率和更好的鲁棒性。
附图说明
图1是本发明的一种针对复杂环境下多形状文本的检测方法流程图
图2是本发明的复杂环境文本分割模型结构图
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种针对复杂环境下多形状文本的检测方法,其实现过程如下:
1、数据预处理
步骤1.1:首先对使用的ICDAR2015和Total-Text数据集中的图像进行数据增强以适应复杂场景,数据集的图片带有文本区域标注。将数据集中的图像通过旋转、调整亮度和缩放方式的组合进行图像数据增强,本实施例中旋转的角度从-90度到90度内随机生成,调整亮度的方式为将亮度随机增减50%,缩放方式为随机缩放1/2到2倍大小。对图像进行如上增强处理后,将处理后图像合并到原数据集,得到扩充后图像数据集,用于后续特征学习算法的训练样本,以应对复杂环境下光线变化以及拍摄角度的变化。
步骤1.2:将新的数据集中每幅图像的文本区域标注分别缩小到原来的1/2和1/4,对于每幅图像加上原有标注得到三组不同大小的标注。具体为:首先生成像素值全为0的图像(大小为原图片大小),使用Opencv多边形填充算法将标注的文本区域填充为1,再使用Opencv的腐蚀算法,将文本区域分别腐蚀1/4和3/8的宽度(即四个角点距离的最小值),使得新的文本标注变为原大小的1/2和1/4,加上原有标注,得到三组不同大小的像素级分割标注。
2、构建并训练基于全卷积网络的复杂环境文本分割模型
如图2所示,包括:
步骤2.1:构建基于特征金字塔网络(Feature Pyramid Networks,FPN)的多尺度特征提取器。使用ResNet50作为骨架网络,生成特征金字塔,使用其中pool2、pool3、pool4、pool5这4个层输出的特征,尺度由小到大分别表示为f_1,f_2,f_3,f_4。
其中,ResNet50网络记载在文献“Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun.Deep Residual Learning for Image Recognition[A].IEEE Conference onComputer Vision and Pattern Recognition[C].2016.1063-6919.”中。
步骤2.2:将f_1通过上池化层(方法为双线性上采样,尺度变为2倍),与f_2级联。将级联后的特征通过由卷积核大小为3×3的卷积层,Batch Normalization层(批标准化层)以及ReLU层(线性整流激活函数层)组成的特征融合模块得到融合了f_1,f_2的变换特征。类似地,将得到的变换特征通过上池化层后,与f_3级联后通过特征融合模块,到融合了f_1,f_2,f_3的变换特征。将新的特征通过上池化层后,与f_4级联后通过特征融合模块,最终得到将4个不同尺度特征融合后的变换特征。
步骤2.3:使用卷积核大小为1x1的卷积层(Conv1x1)和Sigmoid函数激活层对融合后的变换特征进行分割,输出像素值为0到1的分割图像,对应每个像素在检测区域内的置信度。
步骤2.4:输入经过标注的图像对模型进行训练。使用交叉熵作为损失函数计算损失值,本实施例设定学习率为0.001批次大小为32,利用随机梯度下降法训练模型。对于三组不同标注,分别得到三个文本分割模型。
3、文本检测
步骤3.1:将需要检测的文本图像输入上面得到三个分割模型,将输出进行二值化处理,分别得到三个分割结果,即分别为每个文本区域的1/4大小、1/2大小和原大小的分割图像,分别表示为A_1,A_2,A_3。本实施例中设置二值化阈值为0.6。
步骤3.2:对A_1进行连通域分析,将不同的连通区域进行标记(标记方法为将区域内像素值全部设为不同的正整数)。将得到的图像与A_2叠加,即每个像素的值相加,并进行连通域分析。对于最大值为1的连通区域,将值全设为0,去可信度较低的文本区域;对剩下每个值为1的像素,设置为距离最近的值非0或1的像素的值,得到拓展到1/2大小的实例分割图像。类似地,将得到的图像与A_3的分割结果叠加,并进行与上述过程相同的操作,最终得到文本实例分割图像。
步骤3.3:使用OpenCV轮廓检测函数对上一步得到的分割图像进行处理,得到不同文本区域的轮廓点坐标,即为所需最终输出结果。
为验证本发明方法的有效性,在中央处理器为Intel(R)Core(TM)i7-6800K CPU@3.40GHz、内存64G、图形处理器为Geforce 1080Ti GPU的Ubuntu18.04LTS操作系统上,利用Pytorch框架进行仿真实验。实验分别使用含倾斜文本的公开数据集ICDAR2015以及含弯曲文本的公开数据集Total-Text。
首先,使用训练集按照具体实施方式中的训练步骤学习特征;然后按照检测步骤将测试集中的图片进行检测,结合真实标记的结果计算出准确率P(检测结果的正确率)、召回率R(已有文本区域被检测到的比率)以及F值,其中,,F值综合了准确率和召回率,其值越大说明方法效果越好。
同时,选择了连通文本区域网络(CTPN)(文献“Z.Tian,W.Huang,T.He,P.He,andY.Qiao,"Detecting text in natural image with connectionist text proposalnetwork"In ECCV,2017”),分割连接网络(SegLink)(文献“B.Shi,X.Bai,andS.Belongie,"Detecting oriented text in natural images by linking segments",InCVPR,2017”)与旋转候选区域网络(RRPN)(文献“J.Ma,W.Shao,H.Ye,L.Wang,H.Wang,Y.Zheng,and X.Xue,"Arbitrary-oriented scene text detection via rotationproposals",IEEE Transactions on Multimedia,2018”)的模型作为对比方法,在两个数据集上的计算结果分别如表1和表2所示。由计算结果可以看出,采用本发明方法对倾斜文本和弯曲文本的检测性能都有较好水平,特别是对弯曲文本的检测结果远优于其他方法,说明本发明方法对自然环境下的复杂文本检测具有良好的实用性与鲁棒性。
表1
方法 | 召回率 | 准确率 | F值 |
CTPN | 51.56% | 74.22% | 60.85% |
SegLink | 76.8% | 73.1% | 75.0% |
RRPN | 73.0% | 82.0% | 77.0% |
本发明方法 | 73.62% | 79.81% | 76.6% |
表2
方法 | 召回率 | 准确率 | F值 |
CTPN | 20.7% | 28.6% | 24.0% |
SegLink | 23.8% | 30.3% | 26.7% |
RRPN | 36.2% | 40.2% | 38.09% |
本发明方法 | 69.54 | 77.02% | 73.09% |
Claims (1)
1.一种基于像素级分割的复杂环境多形状文本检测方法,其特征在于步骤如下:
步骤1,数据预处理:
分别对数据集中的所有图像进行增强处理,并将增强处理后的图像和原数据集中的图像合并为新的图像数据集;将新的数据集中每幅图像的文本区域标注分别缩小到原来的1/2和1/4,加上原有标注得到三组标注;所述的增强处理包括图像旋转、亮度调整和缩放处理;
步骤2,构建并训练基于全卷积网络的复杂环境文本分割模型:
步骤2.1:将样本输入到ResNet50网络,分别抽取其pool2、pool3、pool4和pool5层的输出,得到4个不同尺度的特征,按尺度由小到大依次表示为f1,f2,f3,f4;
步骤2.2:将最小尺度特征f1输入上池化层后与f2进行级联,将级联后的特征输入到特征融合模块,得到融合后的变换特征一;将融合后的变换特征一输入上池化层后与f3级联,将级联后的特征通过特征融合模块,得到融合后的变换特征二;将融合后的变换特征二输入上池化层后与f4级联,将级联后的特征通过特征融合模块,最终得到融合了4个不同尺度特征的变换特征;所述的特征融合模块由卷积核大小为3×3的卷积层、BatchNormalization层和ReLU层组成;
步骤2.3:将步骤2.2最终融合后的变换特征输入卷积核大小为1x1的卷积层,再经Sigmoid函数激活层后,得到像素级分割图像;
步骤2.4:以图像的标注作为目标,使用交叉熵作为损失函数计算损失值对步骤2.1至2.3的模型进行训练,对于三组不同的标注训练得到三个分割模型;
步骤3,文本检测:
步骤3.1:将待检测文本图像分别输入到步骤2得到的三个分割模型,并将输出进行二值化后,得到三个分割结果A1,A2,A3,分别对应1/4、1/2和原大小的文本区域分割图像;
步骤3.2:对A1进行连通域分析,并将不同的连通区域用不同的正整数进行标记;将标记后的图像与A2叠加,对叠加后图像进行连通域分析,并分别进行区域去除和拓展,得到1/2大小的分割图像A′2;将A′2与A3叠加,对叠加后图像进行连通域分析,并分别进行区域去除和拓展,得到原大小的最终分割图像A′3;其中,所述的区域去除是指对于最大值为1的连通区域,将像素值全设为0;所述的拓展是指区域去除后,将剩余值为1的像素设置为与其距离最近的值非0或1的像素的值;
步骤3.3:使用OpenCV轮廓检测函数对分割图像A′3进行处理,得到不同文本区域的轮廓点坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910929393.7A CN110751154B (zh) | 2019-09-27 | 2019-09-27 | 一种基于像素级分割的复杂环境多形状文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910929393.7A CN110751154B (zh) | 2019-09-27 | 2019-09-27 | 一种基于像素级分割的复杂环境多形状文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110751154A CN110751154A (zh) | 2020-02-04 |
CN110751154B true CN110751154B (zh) | 2022-04-08 |
Family
ID=69277379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910929393.7A Active CN110751154B (zh) | 2019-09-27 | 2019-09-27 | 一种基于像素级分割的复杂环境多形状文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751154B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368848B (zh) * | 2020-05-28 | 2020-08-21 | 北京同方软件有限公司 | 一种复杂场景下的文字检测方法 |
CN112200181B (zh) * | 2020-08-19 | 2023-10-10 | 西安理工大学 | 一种基于粒子群优化算法的文字形状逼近方法 |
CN112926372B (zh) * | 2020-08-22 | 2023-03-10 | 清华大学 | 基于序列变形的场景文字检测方法及系统 |
CN112101355B (zh) * | 2020-09-25 | 2024-04-02 | 北京百度网讯科技有限公司 | 图像中文本检测方法、装置、电子设备以及计算机介质 |
CN113255646B (zh) * | 2021-06-02 | 2022-10-18 | 北京理工大学 | 一种实时场景文本检测方法 |
CN114049625B (zh) * | 2021-11-11 | 2024-02-27 | 西北工业大学 | 基于新型图像收缩方法的多方向文本检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN107784654A (zh) * | 2016-08-26 | 2018-03-09 | 杭州海康威视数字技术股份有限公司 | 图像分割方法、装置及全卷积网络系统 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108830855A (zh) * | 2018-04-02 | 2018-11-16 | 华南理工大学 | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 |
CN110008950A (zh) * | 2019-03-13 | 2019-07-12 | 南京大学 | 一种对形状鲁棒的自然场景中文本检测的方法 |
CN110059539A (zh) * | 2019-02-27 | 2019-07-26 | 天津大学 | 一种基于图像分割的自然场景文本位置检测方法 |
CN110232381A (zh) * | 2019-06-19 | 2019-09-13 | 梧州学院 | 车牌分割方法、装置、计算机设备及计算机可读存储介质 |
-
2019
- 2019-09-27 CN CN201910929393.7A patent/CN110751154B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784654A (zh) * | 2016-08-26 | 2018-03-09 | 杭州海康威视数字技术股份有限公司 | 图像分割方法、装置及全卷积网络系统 |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108830855A (zh) * | 2018-04-02 | 2018-11-16 | 华南理工大学 | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110059539A (zh) * | 2019-02-27 | 2019-07-26 | 天津大学 | 一种基于图像分割的自然场景文本位置检测方法 |
CN110008950A (zh) * | 2019-03-13 | 2019-07-12 | 南京大学 | 一种对形状鲁棒的自然场景中文本检测的方法 |
CN110232381A (zh) * | 2019-06-19 | 2019-09-13 | 梧州学院 | 车牌分割方法、装置、计算机设备及计算机可读存储介质 |
Non-Patent Citations (7)
Title |
---|
Arbitrary-Oriented Scene Text Detection via Rotation Proposals;Jianqi Ma et al.;《IEEE TRANSACTIONS ON MULTIMEDIA》;20181130;第20卷(第11期);第3111-3122页 * |
Detecting Oriented Text in Natural Images by Linking Segments;Baoguang Shi et al.;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171109;第3482-3490页 * |
Detecting Text in Natural Image with Connectionist Text Proposal Network;Zhi Tian et al.;《ECCV 2016》;20160917;第56-72页 * |
Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes;Pengyuan Lyu et al.;《arXiv》;20180801;第1-18页 * |
PixelLink: Detecting Scene Text via Instance Segmentation;Dan Deng et al.;《arXiv》;20180104;第1-8页 * |
TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes;Shangbang Long et al.;《ECCV 2018》;20181009;第19-35页 * |
基于语义分割技术的任意方向文字识别;王涛 等;《应用科技》;20180630;第45卷(第3期);第55-60页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110751154A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751154B (zh) | 一种基于像素级分割的复杂环境多形状文本检测方法 | |
CN108549893B (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
JP7113657B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN110334762B (zh) | 一种基于四叉树结合orb和sift的特征匹配方法 | |
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
Lee et al. | SNIDER: Single noisy image denoising and rectification for improving license plate recognition | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN113591719A (zh) | 一种自然场景任意形状文本检测方法、装置和训练方法 | |
Wu et al. | Text Detection and Recognition for Natural Scene Images Using Deep Convolutional Neural Networks. | |
Ahmed et al. | Traffic sign detection and recognition model using support vector machine and histogram of oriented gradient | |
CN113989604A (zh) | 基于端到端深度学习的轮胎dot信息识别方法 | |
Xu et al. | Based on improved edge detection algorithm for English text extraction and restoration from color images | |
Rajan et al. | Text detection and character extraction in natural scene images using fractional Poisson model | |
Rani et al. | Object Detection in Natural Scene Images Using Thresholding Techniques | |
Xu et al. | Tolerance Information Extraction for Mechanical Engineering Drawings–A Digital Image Processing and Deep Learning-based Model | |
Goud et al. | Text localization and recognition from natural scene images using ai | |
Hossen et al. | License plate detection and recognition system based on morphological approach and feed-forward neural network | |
Toaha et al. | Automatic signboard detection from natural scene image in context of Bangladesh Google street view | |
Zhu et al. | Chip surface character recognition based on improved LeNet-5 convolutional neural network | |
CN114049625B (zh) | 基于新型图像收缩方法的多方向文本检测方法 | |
CN118644515B (zh) | 基于机场细则aip图的线条合并方法、系统 | |
CN115984316B (zh) | 一种复杂环境的工业图像边缘提取方法及装置 | |
CN113159020B (zh) | 基于核尺度扩张的文本检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |