[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN107480648A - 一种自然场景文字检测的方法 - Google Patents

一种自然场景文字检测的方法 Download PDF

Info

Publication number
CN107480648A
CN107480648A CN201710728404.6A CN201710728404A CN107480648A CN 107480648 A CN107480648 A CN 107480648A CN 201710728404 A CN201710728404 A CN 201710728404A CN 107480648 A CN107480648 A CN 107480648A
Authority
CN
China
Prior art keywords
value
region
extremum
points
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710728404.6A
Other languages
English (en)
Other versions
CN107480648B (zh
Inventor
路通
王文海
牟星
涂庆红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Interconnect Technology Co Ltd
Nanjing University
Original Assignee
Shenzhen Interconnect Technology Co Ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Interconnect Technology Co Ltd, Nanjing University filed Critical Shenzhen Interconnect Technology Co Ltd
Priority to CN201710728404.6A priority Critical patent/CN107480648B/zh
Publication of CN107480648A publication Critical patent/CN107480648A/zh
Application granted granted Critical
Publication of CN107480648B publication Critical patent/CN107480648B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种用于自然场景文字检测的方法,包括以下步骤:步骤1,输入一张待检测文字的图片;步骤2,提取输入图片的极值区域,并通过极值区域的面积、周长、欧拉数和色彩分布来过滤掉多余的极值区域,得到字符候选区域;步骤3,提取每个字符候选区域的边缘图像,并计算边缘图像的COLD特征;步骤4,将字符候选区域的COLD特征输入预先训练好的随机森林分类器,判断该字符候选区域是不是真正的字符区域;步骤5,将字符区域合并,得到最终的文字区域,完成场景文字检测任务。本发明检测方法具有很强的鲁棒性,检测效率高,可以快速完成文字检测。

Description

一种自然场景文字检测的方法
技术领域
本发明涉及一种自然场景文字检测的方法,用来检测自然场景图片中的文字区域。
背景技术
近年来,移动互联网的迅猛发展和可拍照智能终端的广泛普及,自动理解用户拍摄图像或视频中的高层语义信息具有巨大的应用前景,而图像中的文字直接携带了语义信息,因此数字图像中文字自动检测的技术得到了国内外研究者的广泛关注。现阶段针对扫描文档的文字识别技术已经日趋成熟。然而,由于自然场景中文字的位置、尺寸、字体、光照、视角、形变的多样性以及背景的复杂性,自然场景中的文字检测仍存在诸多需要攻克的技术难点。
针对自然场景文字的类内多变性和背景的不确定性,本发明提出了一种对图像旋转、仿射形变及光照变化等具有强鲁棒性的自然场景文字检测的方法。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供提出了一种对图像旋转、仿射形变及光照变化具有强鲁棒性的自然场景文字检测的方法。
为了解决上述技术问题,本发明采用的技术方案是:
一种自然场景文字检测的方法,其特征在于:包括以下步骤:
步骤1,输入一张待检测文字的图片;
步骤2,提取输入图片的极值区域,并通过极值区域的面积、周长、欧拉数和像素值方差来过滤掉多余的极值区域,得到字符候选区域;
步骤3,提取每个字符候选区域的边缘图像,并计算边缘图像的COLD特征;
步骤4,将字符候选区域的COLD特征输入预先训练好的随机森林分类器,判断该字符候选区域是不是真正的字符区域;
步骤5,将字符区域合并,得到最终的文字区域,完成自然场景文字检测任务。
所述步骤2包括:
步骤21,将输入的图像转化为灰度图,R值图、G值图和B值图,分别记为Igray,IR,IG,IB
步骤22,分别对IR,IG,IB求极值区域:
R值图IR为的极值区域AR定义为:
IR(p)>θ≥IR(q)
其中IR(p)和IR(q)表示R值图中像素点p和q的值,θ表示极值区域的阈值,表示与极值区域AR相邻但不属于极值区域AR的像素集合;
G值图IG为的极值区域AG定义为:
IG(p)>θ≥IG(q)
其中IG(p)和IG(q)表示G值图中像素点p和q的值,θ表示极值区域的阈值,表示与极值区域AG相邻但不属于极值区域AG的像素集合;
B值图IB为的极值区域AB定义为:
IB(p)>θ≥IB(q)
其中IB(p)和IB(q)表示B值图中像素点p和q的值,θ表示极值区域的阈值,表示与极值区域AB相邻但不属于极值区域AB的像素集合;
步骤23,计算每个极值区域R的面积S、周长C、欧拉数E、像素值方差H,其中像素值方差H是通过灰度图Igray计算得到的,其计算公式为:
其中x表示一个像素,Igray(x)表示像素x的灰度值,a和b分别为极值区域R像素个数最多的颜色区间和像素个数次多的颜色区间,na和nb分别表示极值区域R中处于颜色区间a和b的像素个数,Ra和Rb分别表示极值区域R中处于颜色区间a和b的像素集合,μa和μb分别表示极值区域R中处于颜色区间a和b的像素值的平均值;
步骤24,通过每个极值区域的面积S、周长C、欧拉数E、像素值方差H过滤掉多余的极值区域,过滤掉多余的极值区域之后剩下的即为字符候选区域,过滤条件如下:
其中,S0,C0,E0,H0均为阈值。
所述步骤24中,S0具体数值在区间[80,120]内,C0具体数值在区间[30,50]内,E0具体数值在区间[0,1]内,H0具体数值在区间[100,200]内。
所述步骤3包括:
步骤31,通过Canny边缘检测算法对步骤2得到的字符候选区域进行边缘检测,得到边缘图像Icanny
步骤32,在边缘图像Icanny中找出所有轮廓C;对于任意轮廓c∈C,通过道格拉斯-普克算法对轮廓c进行拟合,拟合后得到的折线上的点集即为轮廓c的关键点集P;
步骤33,利用关键点集P计算COLD特征;其中COLD特征需要分两部分计算,分别为基于点的位置和基于点的方向的COLD特征;
基于点的位置的COLD特征的计算步骤如下:
(1)取步长l,对于任意点pi∈P,计算线段(pi,pi+l)的长度和它与水平线的夹角
其中点pi表示为坐标形式(xi,yi),的计算公式如下:
(2)把映射到一个二维矩阵上,用表示,其中对应矩阵的行,对应矩阵的列;统计落在每个上点的个数并归一化,得到基于点的位置的COLD特征;其中的计算公式如下:
其中ln为自然对数函数,表示向下取整操作;
基于点的方向的COLD特征的计算步骤如下:
(1)对于任意点pi∈P,取pi及其前后n个点,即pi-n,pi-n+1,pi-n+2,…,pi+n总共2n+1个点,通过主成分分析算法计算这2n+1个点的总体方向gi,方向gi可以表示为向量形式(gxi,gyi);
(2)取步长l,对于任意方向gi,计算向量差gi-gi+l的大小和它与水平线的夹角 的计算公式如下:
(3)把映射到一个二维矩阵上,用表示,其中对应矩阵的行,对应矩阵的列;统计落在每个上点的个数并归一化,得到基于点的方向的COLD特征;其中的计算公式如下:
其中ln为自然对数函数,表示向下取整操作;
步骤34,取步长l=1,2,3,…,m,分别计算这m种步长对应的基于点的位置的COLD特征和基于点的方向的COLD特征,得到2m个7×12的二维矩阵;把这2m个矩阵转化为一维数组然后拼接起来,得到大小为2m×7×12=168m的数组,作为最终的COLD特征。
所述步骤31中Canny边缘检测算法的步骤如下:
(1)把字符候选区域转化为灰度图;
(2)对得到的灰度图进行高斯滤波;
(3)计算梯度的幅值和方向;
(4)对梯度幅值进行非极大值抑制;
(5)用双阈值算法检测和连接边缘。
所述步骤32中道格拉斯-普克算法的步骤如下:
(1)在曲线首尾两点间虚连一条直线,求出所有点与该直线的距离,并找出最大距离值dmax
(2)用最大距离值dmax与阈值D相比,如果dmax<D,这条曲线上的中间点全部舍去,否则保留dmax对应的点;
(3)以保留的点为界,将已知曲线分成两部分处理,重复(1)、(2)步操作,迭代操作直到无点可舍去;整个算法执行完成后,得到一条满足阈值D的折线。
所述步骤5包括:
步骤51,对于步骤4中得到的字符区域S,计算所有si∈S的中心点ci
步骤52,对于任意字符区域si,sj∈S,如果它们的ci和cj之间的欧拉距离小于阈值F,则在它们的中心点ci和cj之间连一条直线li,j
步骤53,计算所有直线l的与水平线的夹角α,取所有夹角的众数αmode;保留夹角在区间[αmode-π/6,αmode+π/6]内的直线,其余直线去掉;
步骤54,合并有直线连接的字符区域,得到最终的文字区域。
与现有技术相比,本发明具有如下优点:
(1)本发明用COLD特征来描述字符候选区域,这个特征利用边缘图像的关键点的相对位置和方向向量的差来描述字符候选区域。因为图片旋转和仿射形变对关键点的相对位置和方向向量的差的影响不大,而且关键点的提取是基于边缘图像的,普通的光照变化对边缘图像的影响不大,所以这个特征对图像旋转、仿射形变及光照变化具有强鲁棒性。
(2)本发明涉及的自然场景文字检测的方法效率高,提取极值区域、计算COLD特征、判断字符区域和合并字符区域的算法复杂度都不高,所以完成文字检测流程只需1~2秒。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明。
图1为本发明流程图。
图2为待检测文字的图片。
图3为字符候选区域的图片。
图4为COLD特征的计算过程图片,其中(a)为字符候选区域,(b)为字符候选区域的边缘图像,(c)为边缘的关键点,(d)为步长l=1时的关键点对,(e)为步长l=1时基于点的位置的COLD特征的极坐标图,(f)为步长l=1时基于点的方向的COLD特征的极坐标图,(g)为步长l=2时的关键点对,(h)为步长l=2时基于点的位置的COLD特征的极坐标图,(i)为步长l=2时基于点的方向的COLD特征的极坐标图。
图5为字符区域的图片。
图6为字符区域合并后得到的文字区域的图片。
具体实施方式
下面结合附图,对本发明作详细说明:
如图1所示,本发明一种自然场景文字检测的方法,包括以下步骤:
步骤1:输入一张待检测文字的图片,待检测文字的图片参照图2;
步骤2:包括以下步骤:
首先,将输入的图像转化为灰度图,R值图、G值图和B值图,分别记为Igray,IR,IG,IB
其次,分别对IR,IG,IB求极值区域AR,AG,AB,极值区域指的是区域外边界的像素值严格大于区域内像素值的区域,以R值图IR为例,其极值区域AR可以定义为:
IR(p)>θ≥IR(q)
IR(p)>θ≥IR(q)
其中IR(p)和IR(q)表示R值图中像素点p和q的值,θ表示极值区域的阈值,表示与极值区域AR相邻但不属于极值区域AR的像素集合;
然后,计算每个极值区域R的面积S、周长C、欧拉数E、像素值方差H,其中像素值方差H是通过灰度图Igray计算得到的,其计算公式为:
其中x表示一个像素,Igray(x)表示像素x的灰度值,a和b分别为极值区域R像素个数最多的颜色区间和像素个数次多的颜色区间,na和nb分别表示极值区域R中处于颜色区间a和b的像素个数,Ra和Rb分别表示极值区域R中处于颜色区间a和b的像素集合,μa和μb分别表示极值区域R中处于颜色区间a和b的像素值的平均值。
最后,通过每个极值区域的面积S、周长C、欧拉数E、像素值方差H过滤掉多余的极值区域,过滤掉多余的极值区域之后剩下的即为字符候选区域。过滤条件如下:
其中,S0,C0,E0,H0都是通过大量的字符和非字符区域统计得到的阈值。S0具体数值在区间[80,120]内,C0具体数值在区间[30,50]内,E0具体数值在区间[0,1]内,H0具体数值在区间[100,200]内。
步骤2执行完成后得到的字符候选区域参照图3;
步骤3:包括如下步骤:
首先通过Canny边缘检测算法对步骤2得到的字符候选区域进行边缘检测,得到边缘图像Icanny。其中Canny边缘检测算法的步骤如下:
(1)把字符候选区域转化为灰度图;
(2)对得到的灰度图进行高斯滤波;
(3)计算梯度的幅值和方向;
(4)对梯度幅值进行非极大值抑制;
(5)用双阈值算法检测和连接边缘。
其次,在边缘图像Icanny中找出所有轮廓C。对于任意轮廓c∈C,通过道格拉斯-普克算法对轮廓c进行拟合,拟合后得到的折线上的点集即为轮廓c的关键点集P。其中道格拉斯-普克算法的算法步骤如下:
(1)在曲线首尾两点间虚连一条直线,求出所有点与该直线的距离,并找出最大距离值dmax
(2)用最大距离值dmax与阈值D相比,如果dmax<D,这条曲线上的中间点全部舍去,否则保留dmax对应的点;
(3)以保留的点为界,将已知曲线分成两部分处理,重复第1、2步操作,迭代操作直到无点可舍去。整个算法执行完成后,得到一条满足阈值D的折线。
然后,利用关键点集P计算COLD特征。其中COLD特征需要分两部分计算,分别为基于点的位置和基于点的方向的COLD特征。
基于点的位置的COLD特征的计算步骤如下:
(1)取步长l,对于任意点pi∈P,计算线段(pi,pi+l)的长度和它与水平线的夹角其中点pi可以表示为坐标形式(xi,yi),的计算公式如下:
(2)把映射到一个二维矩阵上,用表示,其中对应矩阵的行,对应矩阵的列。统计落在每个上点的个数并归一化,得到基于点的位置的COLD特征。其中的计算公式如下:
其中ln为自然对数函数,表示向下取整操作,由上面公式可以看出基于点的位置的COLD特征是一个7×12的二维矩阵。
基于点的方向的COLD特征的计算步骤如下:
(1)对于任意点pi∈P,取pi及其前后n个点,即pi-n,pi-n+1,pi-n+2,…,pi+n总共2n+1个点。在本实施例中,n取值3,即pi-3,pi-2,pi-1,…,pi+3总共7个点,通过主成分分析算法计算这7个点的总体方向gi,方向gi可以表示为向量形式(gxi,gyi)。
(2)取步长l,对于任意方向gi,计算向量差gi-gi+l的大小和它与水平线的夹角 的计算公式如下:
(3)把(dτiτi)映射到一个二维矩阵上,用表示,其中对应矩阵的行,对应矩阵的列。统计落在每个上点的个数并归一化,得到基于点的方向的COLD特征。其中的计算公式如下:
其中ln为自然对数函数,表示向下取整操作。由上面公式可以看出基于点的方向的COLD特征也是一个7×12的二维矩阵。
所以对于每个步长l,都能得到两个7×12的二维矩阵,分别代表基于点的位置的COLD特征和基于点的方向的COLD特征。
最后,取步长l=1,2,3,分别计算这三种步长对应的基于点的位置的COLD特征和基于点的方向的COLD特征,得到6个7×12的二维矩阵。把这6个矩阵转化为一维数组然后拼接起来,得到大小为6×7×12=504的数组,作为最终的COLD特征。
步骤3中COLD特征的计算过程参照图片4,其中(a)为字符候选区域,(b)为字符候选区域的边缘图像,(c)为边缘的关键点,(d)为步长l=1时的关键点对,(e)为步长l=1时基于点的位置的COLD特征的极坐标图,(f)为步长l=1时基于点的方向的COLD特征的极坐标图,(g)为步长l=2时的关键点对,(h)为步长l=2时基于点的位置的COLD特征的极坐标图,(i)为步长l=2时基于点的方向的COLD特征的极坐标图。
步骤4:将字符候选区域的COLD特征输入预先训练好的随机森林分类器,判断该字符候选区域是不是真正的字符区域;筛选掉非字符区域后的图参照图片5;
其中随机森林分类器的训练步骤如下:
(1)取通用场景文字检测数据集ICDAR 2013scene数据集,按照上述步骤1,2,3计算该数据集的所有候选字符区域的COLD特征,并以此作为训练集。
(2)把该训练集输入随机森林算法进行二分类问题训练。其中训练时随机森林算法的树的最大深度为8,叶子节点最少的样本数为3,叶子节点所需要的最小权值为0,决策树的个数为10。训练完成后保存得到的模型。
步骤5:包括以下步骤:
首先,对于步骤4中得到的字符区域S,计算所有si∈S的中心点ci
其次,对于任意字符区域si,sj∈S,如果它们的ci和cj之间的欧拉距离小于阈值F,在本实施例中,F取值5,则在它们的中心点ci和cj之间连一条直线li,j
然后,计算所有直线l的与水平线的夹角α,取所有夹角的众数αmode。保留夹角在区间[αmode-π/6,αmode+π/6]内的直线,其余直线去掉。
最后,合并有直线连接的字符区域,得到最终的文字区域。
步骤5得到最终文字区域的图参照图片6。

Claims (7)

1.一种自然场景文字检测的方法,其特征在于:包括以下步骤:
步骤1,输入一张待检测文字的图片;
步骤2,提取输入图片的极值区域,并通过极值区域的面积、周长、欧拉数和像素值方差来过滤掉多余的极值区域,得到字符候选区域;
步骤3,提取每个字符候选区域的边缘图像,并计算边缘图像的COLD特征;
步骤4,将字符候选区域的COLD特征输入预先训练好的随机森林分类器,判断该字符候选区域是不是真正的字符区域;
步骤5,将字符区域合并,得到最终的文字区域,完成自然场景文字检测任务。
2.根据权利要求1所述的方法,其特征在于:所述步骤2包括:
步骤21,将输入的图像转化为灰度图,R值图、G值图和B值图,分别记为Igray,IR,IG,IB
步骤22,分别对IR,IG,IB求极值区域:
R值图IR为的极值区域AR定义为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>I</mi> <mi>R</mi> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>&gt;</mo> <mi>&amp;theta;</mi> <mo>&amp;GreaterEqual;</mo> <msub> <mi>I</mi> <mi>R</mi> </msub> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mo>&amp;ForAll;</mo> <mi>p</mi> <mo>&amp;Element;</mo> <msub> <mi>A</mi> <mi>R</mi> </msub> <mo>,</mo> <mi>q</mi> <mo>&amp;Element;</mo> <mo>&amp;part;</mo> <msub> <mi>A</mi> <mi>R</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中IR(p)和IR(q)表示R值图中像素点p和q的值,θ表示极值区域的阈值,表示与极值区域AR相邻但不属于极值区域AR的像素集合;
G值图IG为的极值区域AG定义为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>I</mi> <mi>G</mi> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>&gt;</mo> <mi>&amp;theta;</mi> <mo>&amp;GreaterEqual;</mo> <msub> <mi>I</mi> <mi>G</mi> </msub> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mo>&amp;ForAll;</mo> <mi>p</mi> <mo>&amp;Element;</mo> <msub> <mi>A</mi> <mi>G</mi> </msub> <mo>,</mo> <mi>q</mi> <mo>&amp;Element;</mo> <mo>&amp;part;</mo> <msub> <mi>A</mi> <mi>G</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中IG(p)和IG(q)表示G值图中像素点p和q的值,θ表示极值区域的阈值,表示与极值区域AG相邻但不属于极值区域AG的像素集合;
B值图IB为的极值区域AB定义为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>I</mi> <mi>B</mi> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>&gt;</mo> <mi>&amp;theta;</mi> <mo>&amp;GreaterEqual;</mo> <msub> <mi>I</mi> <mi>B</mi> </msub> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mo>&amp;ForAll;</mo> <mi>p</mi> <mo>&amp;Element;</mo> <msub> <mi>A</mi> <mi>B</mi> </msub> <mo>,</mo> <mi>q</mi> <mo>&amp;Element;</mo> <mo>&amp;part;</mo> <msub> <mi>A</mi> <mi>B</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中IB(p)和IB(q)表示B值图中像素点p和q的值,θ表示极值区域的阈值,表示与极值区域AB相邻但不属于极值区域AB的像素集合;
步骤23,计算每个极值区域R的面积S、周长C、欧拉数E、像素值方差H,其中像素值方差H是通过灰度图Igray计算得到的,其计算公式为:
<mrow> <mi>H</mi> <mo>=</mo> <mfrac> <mrow> <msub> <mi>n</mi> <mi>a</mi> </msub> <mo>&amp;CenterDot;</mo> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>x</mi> <mo>&amp;Element;</mo> <msub> <mi>R</mi> <mi>a</mi> </msub> </mrow> </msub> <msup> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mrow> <mi>g</mi> <mi>r</mi> <mi>a</mi> <mi>y</mi> </mrow> </msub> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>-</mo> <msub> <mi>&amp;mu;</mi> <mi>a</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msub> <mi>n</mi> <mi>b</mi> </msub> <mo>&amp;CenterDot;</mo> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>x</mi> <mo>&amp;Element;</mo> <msub> <mi>R</mi> <mi>b</mi> </msub> </mrow> </msub> <msup> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mrow> <mi>g</mi> <mi>r</mi> <mi>a</mi> <mi>y</mi> </mrow> </msub> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>-</mo> <msub> <mi>&amp;mu;</mi> <mi>b</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <msub> <mi>n</mi> <mi>a</mi> </msub> <mo>+</mo> <msub> <mi>n</mi> <mi>b</mi> </msub> </mrow> </mfrac> </mrow>
其中x表示一个像素,Igray(x)表示像素x的灰度值,a和b分别为极值区域R像素个数最多的颜色区间和像素个数次多的颜色区间,na和nb分别表示极值区域R中处于颜色区间a和b的像素个数,Ra和Rb分别表示极值区域R中处于颜色区间a和b的像素集合,μa和μb分别表示极值区域R中处于颜色区间a和b的像素值的平均值;
步骤24,通过每个极值区域的面积S、周长C、欧拉数E、像素值方差H过滤掉多余的极值区域,过滤掉多余的极值区域之后剩下的即为字符候选区域,过滤条件如下:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mi>S</mi> <mo>&amp;le;</mo> <msub> <mi>S</mi> <mn>0</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>C</mi> <mo>&amp;le;</mo> <msub> <mi>C</mi> <mn>0</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>E</mi> <mo>&amp;le;</mo> <msub> <mi>E</mi> <mn>0</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>H</mi> <mo>&amp;GreaterEqual;</mo> <msub> <mi>H</mi> <mn>0</mn> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,S0,C0,E0,H0均为阈值。
3.根据权利要求2所述的方法,其特征在于:所述步骤24中,S0具体数值在区间[80,120]内,C0具体数值在区间[30,50]内,E0具体数值在区间[0,1]内,H0具体数值在区间[100,200]内。
4.根据权利要求2或3所述的方法,其特征在于:所述步骤3包括:
步骤31,通过Canny边缘检测算法对步骤2得到的字符候选区域进行边缘检测,得到边缘图像Icanny
步骤32,在边缘图像Icanny中找出所有轮廓C;对于任意轮廓c∈C,通过道格拉斯-普克算法对轮廓c进行拟合,拟合后得到的折线上的点集即为轮廓c的关键点集P;
步骤33,利用关键点集P计算COLD特征;其中COLD特征需要分两部分计算,分别为基于点的位置和基于点的方向的COLD特征;
基于点的位置的COLD特征的计算步骤如下:
(1)取步长l,对于任意点pi∈P,计算线段(pi,pi+l)的长度和它与水平线的夹角其中点pi表示为坐标形式(xi,yi),的计算公式如下:
<mrow> <msub> <mi>d</mi> <msub> <mi>&amp;epsiv;</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>
<mrow> <msub> <mi>&amp;theta;</mi> <msub> <mi>&amp;epsiv;</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>l</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>l</mi> </mrow> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mi>&amp;pi;</mi> <mn>2</mn> </mfrac> </mrow>
(2)把映射到一个二维矩阵上,用表示,其中对应矩阵的行,对应矩阵的列;统计落在每个上点的个数并归一化,得到基于点的位置的COLD特征;其中的计算公式如下:
其中ln为自然对数函数,表示向下取整操作;
基于点的方向的COLD特征的计算步骤如下:
(1)对于任意点pi∈P,取pi及其前后n个点,即pi-n,pi-n+1,pi-n+2,…,pi+n总共2n+1个点,通过主成分分析算法计算这2n+1个点的总体方向gi,方向gi可以表示为向量形式(gxi,gyi);
(2)取步长l,对于任意方向gi,计算向量差gi-gi+l的大小和它与水平线的夹角 的计算公式如下:
<mrow> <msub> <mi>d</mi> <msub> <mi>&amp;tau;</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>gx</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>gx</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>gy</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>gy</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>
<mrow> <msub> <mi>&amp;theta;</mi> <msub> <mi>&amp;tau;</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>gy</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>gy</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>l</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>gx</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>gx</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>l</mi> </mrow> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mi>&amp;pi;</mi> <mn>2</mn> </mfrac> </mrow>
(3)把映射到一个二维矩阵上,用表示,其中对应矩阵的行,对应矩阵的列;统计落在每个上点的个数并归一化,得到基于点的方向的COLD特征;其中的计算公式如下:
其中ln为自然对数函数,表示向下取整操作;
步骤34,取步长l=1,2,3,…,m,分别计算这m种步长对应的基于点的位置的COLD特征和基于点的方向的COLD特征,得到2m个7×12的二维矩阵;把这2m个矩阵转化为一维数组然后拼接起来,得到大小为2m×7×12=168m的数组,作为最终的COLD特征。
5.根据权利要求4所述的方法,其特征在于:所述步骤31中Canny边缘检测算法的步骤如下:
(1)把字符候选区域转化为灰度图;
(2)对得到的灰度图进行高斯滤波;
(3)计算梯度的幅值和方向;
(4)对梯度幅值进行非极大值抑制;
(5)用双阈值算法检测和连接边缘。
6.根据权利要求4所述的方法,其特征在于:所述步骤32中道格拉斯-普克算法的步骤如下:
(1)在曲线首尾两点间虚连一条直线,求出所有点与该直线的距离,并找出最大距离值dmax
(2)用最大距离值dmax与阈值D相比,如果dmax<D,这条曲线上的中间点全部舍去,否则保留dmax对应的点;
(3)以保留的点为界,将已知曲线分成两部分处理,重复(1)、(2)步操作,迭代操作直到无点可舍去;整个算法执行完成后,得到一条满足阈值D的折线。
7.根据权利要求4所述的方法,其特征在于:所述步骤5包括:
步骤51,对于步骤4中得到的字符区域S,计算所有si∈S的中心点ci
步骤52,对于任意字符区域si,sj∈S,如果它们的ci和cj之间的欧拉距离小于阈值F,则在它们的中心点ci和cj之间连一条直线li,j
步骤53,计算所有直线l的与水平线的夹角α,取所有夹角的众数αmode;保留夹角在区间[αmode-π/6,αmode+π/6]内的直线,其余直线去掉;
步骤54,合并有直线连接的字符区域,得到最终的文字区域。
CN201710728404.6A 2017-08-23 2017-08-23 一种自然场景文字检测的方法 Expired - Fee Related CN107480648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710728404.6A CN107480648B (zh) 2017-08-23 2017-08-23 一种自然场景文字检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710728404.6A CN107480648B (zh) 2017-08-23 2017-08-23 一种自然场景文字检测的方法

Publications (2)

Publication Number Publication Date
CN107480648A true CN107480648A (zh) 2017-12-15
CN107480648B CN107480648B (zh) 2020-03-27

Family

ID=60602156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710728404.6A Expired - Fee Related CN107480648B (zh) 2017-08-23 2017-08-23 一种自然场景文字检测的方法

Country Status (1)

Country Link
CN (1) CN107480648B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263631A (zh) * 2019-05-10 2019-09-20 南京大学 一种手写化学公式识别与配平方法
CN111368848A (zh) * 2020-05-28 2020-07-03 北京同方软件有限公司 一种复杂场景下的文字检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719142A (zh) * 2009-12-10 2010-06-02 湖南大学 基于分类字典的稀疏表示图片文字检测方法
WO2014129018A1 (ja) * 2013-02-25 2014-08-28 三菱重工業株式会社 文字認識装置、文字認識方法及び記録媒体
CN104050471A (zh) * 2014-05-27 2014-09-17 华中科技大学 一种自然场景文字检测方法及系统
US9286541B1 (en) * 2014-09-12 2016-03-15 Amazon Technologies, Inc. Fast multipass underline removal for camera captured OCR
CN106934386A (zh) * 2017-03-30 2017-07-07 湖南师范大学 一种基于自启发式策略的自然场景文字检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719142A (zh) * 2009-12-10 2010-06-02 湖南大学 基于分类字典的稀疏表示图片文字检测方法
WO2014129018A1 (ja) * 2013-02-25 2014-08-28 三菱重工業株式会社 文字認識装置、文字認識方法及び記録媒体
CN104050471A (zh) * 2014-05-27 2014-09-17 华中科技大学 一种自然场景文字检测方法及系统
US9286541B1 (en) * 2014-09-12 2016-03-15 Amazon Technologies, Inc. Fast multipass underline removal for camera captured OCR
CN106934386A (zh) * 2017-03-30 2017-07-07 湖南师范大学 一种基于自启发式策略的自然场景文字检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨彬 等,: ""自然场景多方向文本检测方法"", 《华中科技大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263631A (zh) * 2019-05-10 2019-09-20 南京大学 一种手写化学公式识别与配平方法
CN110263631B (zh) * 2019-05-10 2022-03-15 南京大学 一种手写化学公式识别与配平方法
CN111368848A (zh) * 2020-05-28 2020-07-03 北京同方软件有限公司 一种复杂场景下的文字检测方法

Also Published As

Publication number Publication date
CN107480648B (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110544251B (zh) 基于多迁移学习模型融合的大坝裂缝检测方法
CN107609549B (zh) 一种自然场景下证件图像的文本检测方法
CN106548182B (zh) 基于深度学习和主成因分析的路面裂纹检测方法及装置
CN109086714A (zh) 表格识别方法、识别系统及计算机装置
CN104299009B (zh) 基于多特征融合的车牌字符识别方法
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
CN104462494B (zh) 一种基于无监督特征学习的遥感图像检索方法及系统
WO2018086233A1 (zh) 一种字符分割方法和装置、及元件检测方法和装置
CN107665327B (zh) 一种车道线检测方法及装置
CN103093240A (zh) 书法字识别方法
CN101615244A (zh) 手写板坯号自动识别方法及识别装置
CN112307919B (zh) 一种基于改进YOLOv3的单证图像中数字信息区域识别方法
CN113111878B (zh) 一种复杂背景下的红外弱小目标检测方法
CN108038486A (zh) 一种文字检测方法
CN110390228A (zh) 基于神经网络的交通标志图片识别方法、装置及存储介质
CN115731257A (zh) 基于图像的叶片形态信息提取方法
CN104732534B (zh) 一种图像中显著目标的抠取方法及系统
CN111275040A (zh) 定位方法及装置、电子设备、计算机可读存储介质
CN104966054A (zh) 无人机可见光图像中的弱小目标检测方法
CN104361357A (zh) 基于图片内容分析的相片集分类系统及分类方法
CN108171229B (zh) 一种空心粘连验证码的识别方法及系统
CN107480648B (zh) 一种自然场景文字检测的方法
CN105512600A (zh) 一种基于互信息与特征提取的车牌识别方法
CN110766001B (zh) 基于cnn和rnn的银行卡卡号定位与端到端识别方法
CN114758139B (zh) 基坑积水检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200327

Termination date: 20210823

CF01 Termination of patent right due to non-payment of annual fee