CN109508716B - 一种图像文字的定位方法及装置 - Google Patents
一种图像文字的定位方法及装置 Download PDFInfo
- Publication number
- CN109508716B CN109508716B CN201811365864.8A CN201811365864A CN109508716B CN 109508716 B CN109508716 B CN 109508716B CN 201811365864 A CN201811365864 A CN 201811365864A CN 109508716 B CN109508716 B CN 109508716B
- Authority
- CN
- China
- Prior art keywords
- character
- unit
- target
- column
- connected domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 238000010845 search algorithm Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 102100035971 Molybdopterin molybdenumtransferase Human genes 0.000 description 1
- 101710119577 Molybdopterin molybdenumtransferase Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000049 pigment Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本发明实施例涉及图像处理技术领域,公开了一种图像文字的定位方法及装置。该方法包括:对文字图像进行连通域标记,获得至少一个文字连通域根据方位角对至少一个文字连通域进行行划分,获得至少一个行单元,方位角为任意两个文字连通域的中心点所在直线与水平线的夹角;根据域间距离对至少一个文字连通域进行列划分,获得至少一个列单元,域间距离为任意两个文字连通域的中心点间距;根据至少一个行单元以及至少一个列单元,确定出至少一个文字定位框,文字定位框用于指示文字图像中包含的文字位置,一个文字定位框对应一个文字。实施本发明实施例,能够提高图像文字定位的准确性。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种图像文字的定位方法及装置。
背景技术
在移动互联网时代,人们利用智能设备上的摄像头将日常看到的世界捕捉下来,导致图像和视频数据暴增,造就了图像大数据时代。如今,人们依靠图像识别,从所拍摄到的文字图像中提取文字信息的需求越来越大。比如,学生在学习过程中,也常常需要从拍摄到的文字图像中提取文字信息以搜索答案。而此过程中,文字图像识别任务可以分为两个比较主要的阶段,一是文字定位,二是文字识别。其中,文字定位是对图像中文字位置的确定,文字定位的精准度对文字识别的准确率具有深大的影响,简单来说,如果定位不准确,那么识别出来的文字自然也是不完整的。
目前,传统的文字定位主要是根据提取相关的文字特征来区分字段和背景,但该方法主要适用于印刷体的文字定位,通过印刷体文字的特征参数进行定位,准确率不高,且适用场景不够广。另外也出现了通过对深度神经网络进行训练,从而实现文本定位的方法,不过此种方法往往需要大量的人工标注数据用于训练,建模损耗的资源大,同时训练好的模型也很难直接扩展到更多其他的应用场景中。
发明内容
针对上述缺陷,本发明实施例公开了一种图像文字的定位方法及装置,可以提高图像文字定位的准确性。
本发明实施例第一方面公开一种图像文字的定位方法,包括:
对文字图像进行连通域标记,获得至少一个文字连通域;
根据方位角对所述至少一个文字连通域进行行划分,获得至少一个行单元,所述方位角为任意两个所述文字连通域的中心点所在直线与水平线的夹角;
根据域间距离对至少一个所述文字连通域进行列划分,获得至少一个列单元,所述域间距离为任意两个所述文字连通域的中心点间距;
根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框,所述文字定位框用于指示所述文字图像中包含的文字位置,一个所述文字定位框对应一个文字。
作为一种可选的实施方式,在本发明实施例第一方面中,所述根据方位角对所述至少一个文字连通域进行行划分,获得至少一个行单元,包括:
计算所述至少一个文字连通域对应的面积,将面积超过预设面积阈值的文字连通域过滤去掉,获得至少一个目标文字连通域;
按照某一个方向对所述至少一个目标文字连通域进行排序;
利用并查集算法,将所述至少一个目标文字连通域中方位角小于预设方位角阈值的目标文字连通域进行并查组合,获得至少一个行组合,以获得至少一个行单元,一个所述行单元对应一个所述行组合。
作为一种可选的实施方式,在本发明实施例第一方面中,所述根据域间距离对至少一个所述文字连通域进行列划分,获得至少一个列单元,包括:
根据所述至少一个目标文字连通域对应的面积,确定面积中位数;
将所述至少一个目标文字连通域中域间距离小于预设域间距离阈值、且第一面积总和与所述面积中位数的差值小于预设面积差值阈值的目标文字连通域进行并查组合,获得至少一个列组合,以获得至少一个列单元,一个所述列单元对应一个所述列组合,所述第一面积总和为任意两个所述目标文字连通域的面积总和。
作为一种可选的实施方式,在本发明实施例第一方面中,所述根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框之前,所述方法还包括:
将所述至少一个行单元中具有坐标包含关系的行单元进行合并,以获得至少一个目标行单元;
根据空白列对所述至少一个目标行单元进行列切分,以获得至少一个目标列单元;
计算所述至少一个目标列单元中初步确定为偏旁的目标列单元与其相邻目标列单元的第二面积总和以及目标文字连通域总数量,所述相邻目标列单元包括一个或两个目标列单元;
根据所述第二面积总和与所述目标文字连通域总数量,获得平均面积;
判断所述平均面积与所述面积中位数的差值是否小于所述预设面积差值阈值;
如果是,将所述初步确定为偏旁的目标列单元与其相邻目标列单元进行合并,以获得至少一个目标文字列单元;
所述根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框,包括:
根据所述至少一个目标行单元以及所述至少一个目标文字列单元,确定出至少一个文字定位框。
作为一种可选的实施方式,在本发明实施例第一方面中,所述根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框之后,所述方法还包括:
对所述至少一个文字定位框进行高噪声二值化处理,并对处理后的至少一个文字定位框进行连通域分析;
根据连通域分析结果,对处理后的至少一个文字定位框进行压缩,以获得至少一个目标文字定位框。
本发明实施例第二方面公开一种图像文字的定位装置,包括:
标记单元,用于对文字图像进行连通域标记,获得至少一个文字连通域;
划分单元,用于根据方位角对所述至少一个文字连通域进行行划分,获得至少一个行单元,所述方位角为任意两个所述文字连通域的中心点所在直线与水平线的夹角;以及根据域间距离对至少一个所述文字连通域进行列划分,获得至少一个列单元,所述域间距离为任意两个所述文字连通域的中心点间距;
定位单元,用于根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框,所述文字定位框用于指示所述文字图像中包含的文字位置,一个所述文字定位框对应一个文字。
作为一种可选的实施方式,在本发明实施例第二方面中,所述划分单元包括:
筛选子单元,用于计算所述至少一个文字连通域对应的面积,将面积超过预设面积阈值的文字连通域过滤去掉,获得至少一个目标文字连通域;
排序子单元,用于按照某一个方向对所述至少一个目标文字连通域进行排序;
行划分子单元,用于利用并查集算法,将所述至少一个目标文字连通域中方位角小于预设方位角阈值的目标文字连通域进行并查组合,获得至少一个行组合,以获得至少一个行单元,一个所述行单元对应一个所述行组合。
作为一种可选的实施方式,在本发明实施例第二方面中,所述划分单元还包括:
确定子单元,用于根据所述筛选子单元计算的所述至少一个目标文字连通域对应的面积,确定面积中位数;
列划分子单元,用于将所述至少一个目标文字连通域中域间距离小于预设域间距离阈值且第一面积总和与所述面积中位数的差值小于预设面积差值阈值的目标文字连通域进行并查组合,获得至少一个列组合,以获得至少一个列单元,一个所述列单元对应一个所述列组合,所述第一面积总和为任意两个所述目标文字连通域的面积总和。
作为一种可选的实施方式,在本发明实施例第二方面中,所述装置还包括:
行合并单元,用于在所述定位单元根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框之前,将所述至少一个行单元中具有坐标包含关系的行单元进行合并,以获得至少一个目标行单元;
列切分单元,用于根据空白列对所述至少一个目标行单元进行列切分,以获得至少一个目标列单元;
计算单元,用于计算所述至少一个目标列单元中初步确定为偏旁的目标列单元与其相邻目标列单元的第二面积总和以及目标文字连通域总数量,所述相邻目标列单元包括一个或两个目标列单元;以及根据所述第二面积总和与所述目标文字连通域总数量,获得平均面积;
判断单元,用于判断所述平均面积与所述面积中位数的差值是否小于所述预设面积差值阈值;
列合并单元,用于在所述判断单元判断出所述平均面积与所述面积中位数的差值小于所述预设面积差值阈值时,将所述初步确定为偏旁的目标列单元与其相邻目标列单元进行合并,以获得至少一个目标文字列单元;
所述定位单元,具体用于根据所述至少一个目标行单元以及所述至少一个目标文字列单元,确定出至少一个文字定位框。
作为一种可选的实施方式,在本发明实施例第二方面中,所述装置还包括:
处理单元,用于在所述定位单元根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框之后,对所述至少一个文字定位框进行高噪声二值化处理,并对处理后的至少一个文字定位框进行连通域分析;
压缩单元,用于根据连通域分析结果,对处理后的至少一个文字定位框进行压缩,以获得至少一个目标文字定位框。
本发明实施例第三方面公开一种图像文字的定位装置,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的一种图像文字的定位方法。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种图像文字的定位方法。
本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的全部或部分步骤。
本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的全部或部分步骤。
与现有技术相比,本发明实施例具有以下有益效果:
在本发明实施例中,通过从文字图像中提取至少一个文字连通域,根据方位角对至少一个文字连通域进行行划分,获得至少一个行单元,以及根据域间距离对至少一个文字连通域进行列划分,获得至少一个列单元,再根据行单元与列单元,截取至少一个文字定位框,文字定位框用于指示文字图像中包含的文字位置,且一个文字定位框对应一个文字,可以通过判断两个文字连通域的方位角大小,对文字连通域进行行划分,不需要建模,也可以克服传统的特征参数提取文字连通域的文字定位方法所存在的技术问题,能够提高图像文字定位的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种图像文字的定位方法的流程示意图;
图2是本发明实施例公开的另一种图像文字的定位方法的流程示意图;
图3是本发明实施例公开的又一种图像文字的定位方法的流程示意图;
图4是本发明实施例公开的一种图像文字的定位装置的结构示意图;
图5是本发明实施例公开的另一种图像文字的定位装置的结构示意图;
图6是本发明实施例公开的又一种图像文字的定位装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种图像文字的定位方法及装置,能够提高图像文字定位的准确性,以下结合附图进行详细描述。
实施例一
请参阅图1,图1是本发明实施例公开的一种图像文字的定位方法的流程示意图。其中,本发明实施例所示的方法适用于电子设备,例如智能手机、平板电脑以及台式电脑等,从拍摄到的文字图像中快速且准确地定位出每一个文字的位置,方便后续进行文字识别,达到从文字图像中提取文字信息的目的,本发明实施例所提供的图像文字的定位方法装置可以为上述电子设备。如图1所示,该图像文字的定位方法可以包括以下步骤:
101、对文字图像进行连通域标记,获得至少一个文字连通域。
本发明实施例中,在执行步骤101之前,可以获取用户输入的初始文字图像,对初始文字图像进行校正,并进行低噪声二值化,获得仅存在黑白两种色素的文字图像,对文字图像中的白色像素进行膨胀处理。其中,默认设置文字图像中的白色像素为特定文字内容。基于此,可以对文字图像中的每个白色像素进行标记,属于同一个连通域的白色像素标记相同,不同连通域的白色像素有不同的标记,从而能将文字图像中每个文字连通域提取出来,获得至少一个文字连通域。
作为一种可选的实施方式,对文字图像进行连通域标记可以采用记录等价对的标记方法,具体包括以下步骤:记录文字图像中的每一行的每一个白色像素序列的起始位置与终止位置;对第一行的每一个白色像素序列的起始位置与终止位置进行标号标记;判断除第一行以外的其余每一行是否分别与其上一行的白色像素序列有重叠;如果没有重叠,则分配一个新的标号进行标记;如果有一个重叠,则用与上一行的白色像素序列同样的标号进行标记;如果有一个以上的重叠,则用上一行的所有重叠白色像素序列中最小的标号进行标记,同时将其余的重叠白色像素序列标记为该最小的标号匹配的等价对,获得若干等价对,每一个等价对用于指示最小的标号对应的白色像素序列与其余的重叠白色像素序列是连通的;将每个等价对中的标号更新为同一个标号,以消除若干等价对;将拥有相同标号的白色像素序列进行组合,获得至少一个序列组合,以获得至少一个文字连通域,每一个序列组合对应一个文字连通域。
实施该实施方式,可以提高连通域标记的效率,进而提高图像文字定位的速度。
102、根据方位角对至少一个文字连通域进行行划分,获得至少一个行单元,方位角为任意两个文字连通域的中心点所在直线与水平线的夹角。
本发明实施例中,每一个文字连通域的中心点都对应有一个坐标,通过计算两个坐标的正切值,可以得到两个中心点所在直线与水平线的夹角。举例来说,若有任意两个文字连通域的中心点对应的坐标为A(x1,y1)、B(x2,y2),先求出正切值(y1-y2)除以(x1-x2),这个值就是经过两个中心点的直线与x轴正方向(水平向右)的夹角的正切值,通过该正切值就可以知道该直线与x轴正方向的夹角,即为方位角,通过方位角即可判断任意两个文字连通域是否处于同一行。基于此,可选地,步骤102可以包括以下步骤:将至少一个文字连通域在某一方向(X或Y轴正方向)进行排序,根据每一个文字连通域的中心点与其前一个文字连通域的中心点的坐标,计算对应的正切值;当对应的正切值小于预设正切值阈值时,将该文字连通域与其前一个文字连通域组合为同一行;遍历至少一个文字连通域后,获得至少一个行组合,每一个行组合对应一个行单元。
103、根据域间距离对至少一个文字连通域进行列划分,获得至少一个列单元,域间距离为任意两个文字连通域的中心点间距。
104、根据至少一个行单元以及至少一个列单元,确定出至少一个文字定位框,文字定位框用于指示文字图像中包含的文字位置,一个文字定位框对应一个文字。
可以理解地,本发明实施例所示的方法适用于从左到右顺序印刷的印刷体文字定位,也适用于从左到右顺序书写的手写体文字定位。另外,本发明实施例所示的方法适用于对图像进行中文汉字进行定位,同时也适用于对图像进行英文或者数字等其它类型字符的定位。并且,对于中文内容占比较大的图像,实施本发明实施例所描述的方法,定位成功率可以接近100%,且对于大尺寸图像的定位耗时控制在100ms以内。
可见,图1所描述的方法,通过从文字图像中提取至少一个文字连通域,根据方位角对至少一个文字连通域进行行划分,获得至少一个行单元,以及根据域间距离对至少一个文字连通域进行列划分,获得至少一个列单元,再根据行单元与列单元,截取至少一个文字定位框,文字定位框用于指示文字图像中包含的文字位置,且一个文字定位框对应一个文字,可以通过判断两个文字连通域的方位角大小,对文字连通域进行行划分,不需要建模,能够提高图像文字定位的准确性。
实施例二
请参阅图2,图2是本发明实施例公开的另一种图像文字的定位方法的流程示意图。如图2所示,该图像文字的定位方法可以包括以下步骤:
201、对文字图像进行连通域标记,获得至少一个文字连通域。
202、计算至少一个文字连通域对应的面积,将面积超过预设面积阈值的文字连通域过滤去掉,获得至少一个目标文字连通域。
本发明实施例中,面积超过预设面积阈值的文字连通域可以初步判定为非文字内容的连通域,可以图像中的图标所对应的连通域,因此需要将这些面积过大的文字连通域进行过滤处理。
203、按照某一个方向对至少一个目标文字连通域进行排序。
本发明实施例中,某一个方向可以是X或Y轴正方向,也可以是X或Y轴负方向,本发明在此不作限定。
204、利用并查集算法,将至少一个目标文字连通域中方位角小于预设方位角阈值的目标文字连通域进行并查组合,获得至少一个行组合,以获得至少一个行单元,一个行单元对应一个行组合,方位角为任意两个文字连通域的中心点所在直线与水平线的夹角。
本发明实施例中,将至少一个目标文字连通域中每一个目标文字连通域的所在集合都初始化为并查集,每一个目标文字连通域均作为所在并查集的唯一元素,且由于只有一个元素,所以每一个目标文字连通域都是所在并查集的末尾元素。从排序后的第一个目标文字连通域开始,判断下一个目标文字连通域与第一个目标文字连通域的方位角是否小于预设方位角阈值,若是,将下一个目标文字连通域所在并查集并到第一个目标文字连通域所在并查集中,组合成行并查集,且将下一个目标文字连通域作为该行并查集中的末尾元素,将任意一个与该行并查集中的所有目标文字连通域的方位角均不符合条件的目标文字连通域所在并查集作为新的行并查集。遍历至少一个目标文字连通域,遍历至少一个行并查集之后,获得至少一个行组合,以获得至少一个行单元,一个行单元对应一个行组合。
举例来说,比如有目标文字连通域A、目标文字连通域B和目标文字连通域C,并查集A1={A},并查集B1={B},并查集C1={C},且A、B、C按照X轴正方向进行排序。若A与B的方位角小于预设方位角阈值,将B1与A1合并成行并查集A2={A,B}。若C与B的方位角小于预设方位角阈值,那么更新行并查集A2={A,B,C};若C与B的方位角不小于预设方位角阈值,那么判断C与A的方位角是否小于预设方位角阈值,若C与A的方位角小于预设方位角阈值,更新行并查集A2={A,B,C}。同理,如果文字连通域C的下一个目标文字连通域D,D依次与行并查集A2中的C、B及A进行比较,只要与C、B及A中任一个满足条件,即可更新行并查集A2={A,B,C,D}。可以理解地,如果有目标文字连通域E,并查集E1={E},E依次与行并查集A2中的D、C、B及A进行比较,均不满足条件,则将并查集E1作为行并查集E2,遍历所有目标文字连通域,遍历所有行并查集,获得至少一个行组合,以获得至少一个行单元,一个行单元对应一个行组合。
205、根据至少一个目标文字连通域对应的面积,确定面积中位数。
206、将至少一个目标文字连通域中域间距离小于预设域间距离阈值、且第一面积总和与面积中位数的差值小于预设面积差值阈值的目标文字连通域进行并查组合,获得至少一个列组合,以获得至少一个列单元,一个列单元对应一个列组合,第一面积总和为任意两个目标文字连通域的面积总和,域间距离为任意两个文字连通域的中心点间距。
207、根据至少一个行单元以及至少一个列单元,确定出至少一个文字定位框,文字定位框用于指示文字图像中包含的文字位置,一个文字定位框对应一个文字。
208、对至少一个文字定位框进行高噪声二值化处理,并对处理后的至少一个文字定位框进行连通域分析。
作为一种可选的实施方式,对处理后的至少一个文字定位框进行连通域分析时,可以对至少一个文字定位框进分别进行水平投影和垂直投影,选取出长宽比(接近1:1)的文字定位框。
209、根据连通域分析结果,对处理后的至少一个文字定位框进行压缩,以获得至少一个目标文字定位框。
作为一种可选的实施方式,执行步骤209之后,可以利用预先通过深度神经网络进行训练得到的单字识别模型,对至少一个目标文字定位框所指示的至少一个文字进行识别,并输出识别出来的每一个文字。
实施该实施方式,可以对图像进行文字识别输出。
可见,图2所描述的方法,可以通过判断两个文字连通域的方位角大小,对文字连通域进行行划分,不需要建模,能够提高图像文字定位的准确性。
除此之外,利用并查集算法,还可以提高图像文字定位的速度。
此外,还能够对图像进行文字识别输出。
实施例三
请参阅图3,图3是本发明实施例公开的另一种图像文字的定位方法的流程示意图。如图3所示,该图像文字的定位方法可以包括以下步骤:
301~306。其中,步骤301~306与实施例二中所描述的步骤201~206相同,本发明在此不作限定。
307、将至少一个行单元中具有坐标包含关系的行单元进行合并,以获得至少一个目标行单元。
本发明实施例中,若两个目标行单元之间的间距太大,可以初步判定这两个目标行单元属于上下两段文字的内容,那么可以根据目标行单元的间距进行段划分。具体地,作为一种可选的实施方式,可以判断任意两个目标行单元之间的间距是否大于预设距离阈值;如果是,将上述的两个目标行单元进行划分,以得到两个段单元,遍历所有目标行单元之后,获得至少一个段单元。
实施该实施方式,可以对文字进行段划分,进而提高文字定位的准确性。
308、根据空白列对至少一个目标行单元进行列切分,以获得至少一个目标列单元。
309、计算至少一个目标列单元中初步确定为偏旁的目标列单元与其相邻目标列单元的第二面积总和以及目标文字连通域总数量,相邻目标列单元包一个或两个目标列单元。
310、根据第二面积总和与目标文字连通域总数量,获得平均面积。
311、判断平均面积与面积中位数的差值是否小于预设面积差值阈值。如果是,执行步骤312~313;反之,执行步骤314。
312、将初步确定为偏旁的目标列单元与其相邻目标列单元进行合并,以获得至少一个目标文字列单元。
313、根据至少一个目标行单元以及至少一个目标文字列单元,确定出至少一个文字定位框,文字定位框用于指示文字图像中包含的文字位置,一个文字定位框对应一个文字。
314、根据至少一个目标行单元以及至少一个目标列单元,确定出至少一个文字定位框,文字定位框用于指示文字图像中包含的文字位置,一个文字定位框对应一个文字。
本发明实施例中,可选地,执行步骤313或者步骤314之后,还可以执行实施例二中所描述的步骤208~209,本发明实施例在此不作赘述。
可见,图3所描述的方法,能够提高图像文字定位的准确性,并且利用并查集算法,还可以提高图像文字定位的速度。
此外,还能够对文字进行段划分,进而提高文字定位的准确性。
实施例四
请参阅图4,图4是本发明实施例公开的一种图像文字的定位装置的结构示意图。如图4所示,该图像文字的定位装置可以包括:
标记单元401,用于对文字图像进行连通域标记,获得至少一个文字连通域。
划分单元402,用于根据方位角对至少一个文字连通域进行行划分,获得至少一个行单元,方位角为任意两个文字连通域的中心点所在直线与水平线的夹角;以及根据域间距离对至少一个文字连通域进行列划分,获得至少一个列单元,域间距离为任意两个文字连通域的中心点间距。
定位单元403,用于根据至少一个行单元以及至少一个列单元,确定出至少一个文字定位框,文字定位框用于指示文字图像中包含的文字位置,一个文字定位框对应一个文字。
作为一种可选的实施方式,上述的划分单元402可以包括:
筛选子单元4021,用于计算至少一个文字连通域对应的面积,将面积超过预设面积阈值的文字连通域过滤去掉,获得至少一个目标文字连通域。
排序子单元4022,用于按照某一个方向对至少一个目标文字连通域进行排序。
行划分子单元4023,用于利用并查集算法,将至少一个目标文字连通域中方位角小于预设方位角阈值的目标文字连通域进行并查组合,获得至少一个行组合,以获得至少一个行单元,一个行单元对应一个行组合。
作为一种可选的实施方式,上述的划分单元402还可以包括:
确定子单元4024,用于根据筛选子单元4021计算的至少一个目标文字连通域对应的面积,确定面积中位数。
列划分子单元4025,用于将至少一个目标文字连通域中域间距离小于预设域间距离阈值且第一面积总和与面积中位数的差值小于预设面积差值阈值的目标文字连通域进行并查组合,获得至少一个列组合,以获得至少一个列单元,一个列单元对应一个列组合,第一面积总和为任意两个目标文字连通域的面积总和。
作为一种可选的实施方式,上述的标记单元401可以包括以下未图示的子单元:
记录子单元,用于记录文字图像中的每一行的每一个白色像素序列的起始位置与终止位置;
标记子单元,用于对第一行的每一个白色像素序列的起始位置与终止位置进行标号标记;
判断子单元,用于判断除第一行以外的其余每一行是否分别与其上一行的白色像素序列有重叠;
上述的标记子单元,还用于在判断子单元判断出除第一行以外的其余每一行是否分别与其上一行的白色像素序列没有重叠时,分配一个新的标号进行标记;以及在判断子单元判断出除第一行以外的其余每一行是否分别与其上一行的白色像素序列有一个重叠时,用与上一行的白色像素序列同样的标号进行标记;以及在判断子单元判断出除第一行以外的其余每一行是否分别与其上一行的白色像素序列有一个以上的重叠,用上一行的所有重叠白色像素序列中最小的标号进行标记,同时将其余的重叠白色像素序列标记为该最小的标号匹配的等价对,获得若干等价对,每一个等价对用于指示最小的标号对应的白色像素序列与其余的重叠白色像素序列是连通的;
消除子单元,用于将每个等价对中的标号更新为同一个标号,以消除若干等价对;
组合子单元,用于将拥有相同标号的白色像素序列进行组合,获得至少一个序列组合,以获得至少一个文字连通域,每一个序列组合对应一个文字连通域。
实施该实施方式,可以提高连通域标记的效率,进而提高图像文字定位的速度。
可见,图4所示的图像文字的定位装置,可以通过判断两个文字连通域的方位角大小,对文字连通域进行行划分,不需要建模,能够提高图像文字定位的准确性。
除此之外,利用并查集算法,还可以提高图像文字定位的速度。
此外,还能够提高连通域标记的效率,进而提高图像文字定位的速度。
实施例五
请参阅图5,图5是本发明实施例公开的另一种图像文字的定位装置的结构示意图。其中,图5所示的图像文字的定位装置是由图4所示的图像文字的定位装置进行优化得到的,与图4相比较,图5所示的图像文字的定位装置还可以包括:
行合并单元404,用于在上述的定位单元403根据至少一个行单元以及至少一个列单元,确定出至少一个文字定位框之前,将至少一个行单元中具有坐标包含关系的行单元进行合并,以获得至少一个目标行单元。
列切分单元405,用于根据空白列对至少一个目标行单元进行列切分,以获得至少一个目标列单元。
计算单元406,用于计算至少一个目标列单元中初步确定为偏旁的目标列单元与其相邻目标列单元的第二面积总和以及目标文字连通域总数量,相邻目标列单元包括一个或两个目标列单元。以及根据第二面积总和与目标文字连通域总数量,获得平均面积。
判断单元407,用于判断平均面积与面积中位数的差值是否小于预设面积差值阈值。
列合并单元408,用于在判断单元407判断出平均面积与面积中位数的差值小于预设面积差值阈值时,将初步确定为偏旁的目标列单元与其相邻目标列单元进行合并,以获得至少一个目标文字列单元。
上述的定位单元403,具体用于根据至少一个目标行单元以及至少一个目标文字列单元,确定出至少一个文字定位框。
处理单元409,用于在上述的定位单元403根据至少一个行单元以及至少一个列单元,确定出至少一个文字定位框之后,对至少一个文字定位框进行高噪声二值化处理,并对处理后的至少一个文字定位框进行连通域分析。
压缩单元410,用于根据连通域分析结果,对处理后的至少一个文字定位框进行压缩,以获得至少一个目标文字定位框。
作为一种可选的实施方式,图5所示的图像文字的定位装置还可以内置单字识别模块,用于利用预先通过深度神经网络进行训练得到的单字识别模型,对至少一个目标文字定位框所指示的至少一个文字进行识别,并输出识别出来的每一个文字。
实施该实施方式,可以对图像进行文字识别输出。
作为一种可选的实施方式,上述的判断单元407还可以用于判断任意两个目标行单元之间的间距是否大于预设距离阈值;
相应地,图5所示的图像文字的定位装置还可以包括段划分单元,用于在判断单元407判断出任意两个目标行单元之间的间距大于预设距离阈值时,将上述的两个目标行单元进行划分,以得到两个段单元,遍历所有目标行单元之后,获得至少一个段单元。
实施该实施方式,可以对文字进行段划分,进而提高文字定位的准确性。
可见,图5所示的图像文字的定位装置,能够提高图像文字定位的准确性及速度,还能够对图像进行文字识别输出,以及对文字进行段划分,进而提高文字定位的准确性。
实施例六
请参阅图6,图6是本发明实施例公开的又一种图像文字的定位装置的结构示意图。如图6所示,该图像文字的定位装置可以包括:
存储有可执行程序代码的存储器601;
与存储器601耦合的处理器602;
其中,处理器602调用存储器601中存储的可执行程序代码,执行图1~图3任意一种图像文字的定位方法。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行图1~图3任意一种图像文字的定位方法。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行如以上各方法实施例中的方法的全部或部分步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行如以上各方法实施例中的方法的全部或部分步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种图像文字的定位方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种图像文字的定位方法,其特征在于,包括:
对文字图像进行连通域标记,获得至少一个文字连通域;
根据方位角对所述至少一个文字连通域进行行划分,获得至少一个行单元,所述方位角为任意两个所述文字连通域的中心点所在直线与水平线的夹角;
根据域间距离对至少一个所述文字连通域进行列划分,获得至少一个列单元,所述域间距离为任意两个所述文字连通域的中心点间距;
根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框,所述文字定位框用于指示所述文字图像中包含的文字位置,一个所述文字定位框对应一个文字。
2.根据权利要求1所述的方法,其特征在于,所述根据方位角对所述至少一个文字连通域进行行划分,获得至少一个行单元,包括:
计算所述至少一个文字连通域对应的面积,将面积超过预设面积阈值的文字连通域过滤去掉,获得至少一个目标文字连通域;
按照某一个方向对所述至少一个目标文字连通域进行排序;
利用并查集算法,将所述至少一个目标文字连通域中方位角小于预设方位角阈值的目标文字连通域进行并查组合,获得至少一个行组合,以获得至少一个行单元,一个所述行单元对应一个所述行组合。
3.根据权利要求2所述的方法,其特征在于,所述根据域间距离对至少一个所述文字连通域进行列划分,获得至少一个列单元,包括:
根据所述至少一个目标文字连通域对应的面积,确定面积中位数;
将所述至少一个目标文字连通域中域间距离小于预设域间距离阈值、且第一面积总和与所述面积中位数的差值小于预设面积差值阈值的目标文字连通域进行并查组合,获得至少一个列组合,以获得至少一个列单元,一个所述列单元对应一个所述列组合,所述第一面积总和为任意两个所述目标文字连通域的面积总和。
4.根据权利要求3所述的方法,其特征在于,所述根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框之前,所述方法还包括:
将所述至少一个行单元中具有坐标包含关系的行单元进行合并,以获得至少一个目标行单元;
根据空白列对所述至少一个目标行单元进行列切分,以获得至少一个目标列单元;
计算所述至少一个目标列单元中初步确定为偏旁的目标列单元与其相邻目标列单元的第二面积总和以及目标文字连通域总数量,所述相邻目标列单元包括一个或两个目标列单元;
根据所述第二面积总和与所述目标文字连通域总数量,获得平均面积;
判断所述平均面积与所述面积中位数的差值是否小于所述预设面积差值阈值;
如果是,将所述初步确定为偏旁的目标列单元与其相邻目标列单元进行合并,以获得至少一个目标文字列单元;
所述根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框,包括:
根据所述至少一个目标行单元以及所述至少一个目标文字列单元,确定出至少一个文字定位框。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框之后,所述方法还包括:
对所述至少一个文字定位框进行高噪声二值化处理,并对处理后的至少一个文字定位框进行连通域分析;
根据连通域分析结果,对处理后的至少一个文字定位框进行压缩,以获得至少一个目标文字定位框。
6.一种图像文字的定位装置,其特征在于,包括:
标记单元,用于对文字图像进行连通域标记,获得至少一个文字连通域;
划分单元,用于根据方位角对所述至少一个文字连通域进行行划分,获得至少一个行单元,所述方位角为任意两个所述文字连通域的中心点所在直线与水平线的夹角;以及根据域间距离对至少一个所述文字连通域进行列划分,获得至少一个列单元,所述域间距离为任意两个所述文字连通域的中心点间距;
定位单元,用于根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框,所述文字定位框用于指示所述文字图像中包含的文字位置,一个所述文字定位框对应一个文字。
7.根据权利要求6所述的图像文字的定位装置,其特征在于,所述划分单元包括:
筛选子单元,用于计算所述至少一个文字连通域对应的面积,将面积超过预设面积阈值的文字连通域过滤去掉,获得至少一个目标文字连通域;
排序子单元,用于按照某一个方向对所述至少一个目标文字连通域进行排序;
行划分子单元,用于利用并查集算法,将所述至少一个目标文字连通域中方位角小于预设方位角阈值的目标文字连通域进行并查组合,获得至少一个行组合,以获得至少一个行单元,一个所述行单元对应一个所述行组合。
8.根据权利要求7所述的图像文字的定位装置,其特征在于,所述划分单元还包括:
确定子单元,用于根据所述筛选子单元计算的所述至少一个目标文字连通域对应的面积,确定面积中位数;
列划分子单元,用于将所述至少一个目标文字连通域中域间距离小于预设域间距离阈值且第一面积总和与所述面积中位数的差值小于预设面积差值阈值的目标文字连通域进行并查组合,获得至少一个列组合,以获得至少一个列单元,一个所述列单元对应一个所述列组合,所述第一面积总和为任意两个所述目标文字连通域的面积总和。
9.根据权利要求8所述的图像文字的定位装置,其特征在于,所述装置还包括:
行合并单元,用于在所述定位单元根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框之前,将所述至少一个行单元中具有坐标包含关系的行单元进行合并,以获得至少一个目标行单元;
列切分单元,用于根据空白列对所述至少一个目标行单元进行列切分,以获得至少一个目标列单元;
计算单元,用于计算所述至少一个目标列单元中初步确定为偏旁的目标列单元与其相邻目标列单元的第二面积总和以及目标文字连通域总数量,所述相邻目标列单元包括一个或两个目标列单元;以及根据所述第二面积总和与所述目标文字连通域总数量,获得平均面积;
判断单元,用于判断所述平均面积与所述面积中位数的差值是否小于所述预设面积差值阈值;
列合并单元,用于在所述判断单元判断出所述平均面积与所述面积中位数的差值小于所述预设面积差值阈值时,将所述初步确定为偏旁的目标列单元与其相邻目标列单元进行合并,以获得至少一个目标文字列单元;
所述定位单元,具体用于根据所述至少一个目标行单元以及所述至少一个目标文字列单元,确定出至少一个文字定位框。
10.根据权利要求6至9任一项所述的图像文字的定位装置,其特征在于,所述装置还包括:
处理单元,用于在所述定位单元根据所述至少一个行单元以及所述至少一个列单元,确定出至少一个文字定位框之后,对所述至少一个文字定位框进行高噪声二值化处理,并对处理后的至少一个文字定位框进行连通域分析;
压缩单元,用于根据连通域分析结果,对处理后的至少一个文字定位框进行压缩,以获得至少一个目标文字定位框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811365864.8A CN109508716B (zh) | 2018-11-16 | 2018-11-16 | 一种图像文字的定位方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811365864.8A CN109508716B (zh) | 2018-11-16 | 2018-11-16 | 一种图像文字的定位方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109508716A CN109508716A (zh) | 2019-03-22 |
CN109508716B true CN109508716B (zh) | 2021-03-30 |
Family
ID=65748711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811365864.8A Expired - Fee Related CN109508716B (zh) | 2018-11-16 | 2018-11-16 | 一种图像文字的定位方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109508716B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222695B (zh) * | 2019-06-19 | 2021-11-02 | 拉扎斯网络科技(上海)有限公司 | 一种证件图片处理方法及装置、介质、电子设备 |
CN110490190B (zh) * | 2019-07-04 | 2021-10-26 | 贝壳技术有限公司 | 一种结构化图像文字识别方法及系统 |
CN112149523B (zh) * | 2020-09-04 | 2021-05-28 | 开普云信息科技股份有限公司 | 基于深度学习和并查集算法识别并抽取图片的方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100158376A1 (en) * | 2008-10-17 | 2010-06-24 | Klosterman Peter S | Systems and methods for labeling and characterization of connected regions in a binary mask |
CN107403130A (zh) * | 2017-04-19 | 2017-11-28 | 北京粉笔未来科技有限公司 | 一种字符识别方法及字符识别装置 |
-
2018
- 2018-11-16 CN CN201811365864.8A patent/CN109508716B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN109508716A (zh) | 2019-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401371B (zh) | 一种文本检测识别方法、系统及计算机设备 | |
CN109241894B (zh) | 一种基于表格定位和深度学习的票据内容识别系统和方法 | |
CN110598686B (zh) | 发票的识别方法、系统、电子设备和介质 | |
CN113486828B (zh) | 图像处理方法、装置、设备和存储介质 | |
JP7026165B2 (ja) | テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 | |
CN110942004A (zh) | 基于神经网络模型的手写识别方法、装置及电子设备 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
US20180089525A1 (en) | Method for line and word segmentation for handwritten text images | |
CN108615058A (zh) | 一种字符识别的方法、装置、设备及可读存储介质 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN109508716B (zh) | 一种图像文字的定位方法及装置 | |
CN111191611A (zh) | 基于深度学习的交通标志标号识别方法 | |
CN112749696B (zh) | 一种文本检测方法及装置 | |
CN110196917B (zh) | 个性化logo版式定制方法、系统和存储介质 | |
CN111652140A (zh) | 基于深度学习的题目精准分割方法、装置、设备和介质 | |
Ayesh et al. | A robust line segmentation algorithm for Arabic printed text with diacritics | |
CN111209865A (zh) | 文件内容提取方法、装置、电子设备及存储介质 | |
CN111079749A (zh) | 一种带姿态校正的端到端商品价签文字识别方法和系统 | |
CN117218673A (zh) | 票据识别方法、装置、计算机可读存储介质及电子设备 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN111291756B (zh) | 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质 | |
CN116168380A (zh) | 一种目标识别方法、模型训练方法及电子设备 | |
Nguyen et al. | Enhanced character segmentation for format-free Japanese text recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210330 |