CN109670500B - 一种文字区域获取方法、装置、存储介质及终端设备 - Google Patents
一种文字区域获取方法、装置、存储介质及终端设备 Download PDFInfo
- Publication number
- CN109670500B CN109670500B CN201811451778.9A CN201811451778A CN109670500B CN 109670500 B CN109670500 B CN 109670500B CN 201811451778 A CN201811451778 A CN 201811451778A CN 109670500 B CN109670500 B CN 109670500B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- text region
- region
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000001914 filtration Methods 0.000 claims abstract description 22
- 230000002146 bilateral effect Effects 0.000 claims abstract description 20
- 238000004891 communication Methods 0.000 claims description 46
- 238000003708 edge detection Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000001788 irregular Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000005260 corrosion Methods 0.000 description 2
- 230000007797 corrosion Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理技术领域,尤其涉及一种文字区域获取方法、装置、存储介质及终端设备。所述方法包括:获取包含文字的预设图像,并采用均值漂移算法和双边滤波算法对预设图像进行背景去除;对去除背景后的预设图像进行灰度处理,得到预设图像的灰度图像;对灰度图像进行锐化操作,得到灰度图像的增强图像;使用最稳定极值区域MSER算法提取增强图像的各文字区域,并获取各文字区域的位置信息;根据各文字区域的位置信息进行文字区域的分类,并对同一类的文字区域进行合并,得到最终文字区域,通过联合采用均值漂移算法和双边滤波算法,提高背景去除效果,降低背景干扰,并通过进行文字区域的合并,减少文字区域数量,提高文字区域获取速度和效率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种文字区域获取方法、装置、存储介质及终端设备。
背景技术
现有很多的场景中都需要录入图像中的文字信息,比如录入身份证中的姓名、身份证号码、住址等文字信息,或者将发票上的财务信息录入至公司财务系统等等,若手工进行图像中文字信息录入的话,不仅需要耗费大量的人力财力,而且录入效率低,用户使用体验差。为提高身份证、发票等图像中文字信息的录入效率,OCR文字自动识别技术应运而生,通过OCR技术可自动识别图像中的文字信息,而OCR技术中文字信息的识别效果则取决于文字区域获取的准确性,但现有的OCR技术中,因存在图像背景复杂等原因,往往造成文字区域获取的准确率较低,而且获取效率也不高。
发明内容
本发明实施例提供了一种文字区域获取方法、装置、计算机可读存储介质及终端设备,能够准确获取图像中的文字区域,提高了文字区域获取的准确性和获取速度,极大地提高了文字区域的获取效率。
本发明实施例的第一方面,提供了一种文字区域获取方法,包括:
获取包含文字的预设图像,并采用均值漂移算法和双边滤波算法对所述预设图像进行背景去除;
对去除背景后的预设图像进行灰度处理,得到所述预设图像的灰度图像;
对所述灰度图像进行锐化操作,得到所述灰度图像的增强图像;
使用最稳定极值区域MSER算法提取所述增强图像的各文字区域,并获取各所述文字区域的位置信息;
根据各所述文字区域的位置信息进行文字区域的分类,并对同一类的文字区域进行合并,得到最终文字区域。
本发明实施例的第二方面,提供了一种文字区域获取装置,包括:
背景去除模块,用于获取包含文字的预设图像,并采用均值漂移算法和双边滤波算法对所述预设图像进行背景去除;
灰度处理模块,用于对去除背景后的预设图像进行灰度处理,得到所述预设图像的灰度图像;
锐化处理模块,用于对所述灰度图像进行锐化操作,得到所述灰度图像的增强图像;
位置获取模块,用于使用最稳定极值区域MSER算法提取所述增强图像的各文字区域,并获取各所述文字区域的位置信息;
区域获取模块,用于根据各所述文字区域的位置信息进行文字区域的分类,并对同一类的文字区域进行合并,得到最终文字区域。
本发明实施例的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如前述第一方面所述文字区域获取方法的步骤。
本发明实施例的第四方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
获取包含文字的预设图像,并采用均值漂移算法和双边滤波算法对所述预设图像进行背景去除;
对去除背景后的预设图像进行灰度处理,得到所述预设图像的灰度图像;
对所述灰度图像进行锐化操作,得到所述灰度图像的增强图像;
使用最稳定极值区域MSER算法提取所述增强图像的各文字区域,并获取各所述文字区域的位置信息;
根据各所述文字区域的位置信息进行文字区域的分类,并对同一类的文字区域进行合并,得到最终文字区域。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,在获取到包含文字的预设图像时,可首先联合采用均值漂移算法和双边滤波算法对预设图像进行背景去除,以提高背景去除效果,降低文字区域获取过程中的背景干扰;然后,可对去除背景后的预设图像进行灰度处理,得到预设图像的灰度图像,并可对灰度图像进行锐化操作得到灰度图像的增强图像,以使得增强图像中的文字区域更加突出和明显,从而方便最稳定极值区域MSER算法进行增强图像中各文字区域的提取,提高了文字区域提取的准确性,而在提取出各文字区域后,还可进一步获取各文字区域的位置信息,并可根据各文字区域的位置信息进行文字区域的分类,且对同一类的文字区域进行合并,得到最终文字区域,以减少文字区域的数量,提高文字区域获取速度和获取效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种文字区域获取方法的一个实施例流程图;
图2为本发明实施例中一种文字区域获取方法在一个应用场景下使用MSER算法所提取的文字区域的示意图;
图3为本发明实施例中一种文字区域获取方法在一个应用场景下进行文字区域分类的流程示意图;
图4为本发明实施例中一种文字区域获取方法在一个应用场景下获取文字区域的流程示意图;
图5为本发明实施例中一种文字区域获取方法在一个应用场景下进行膨胀处理后的示意图
图6为本发明实施例中一种文字区域获取装置的一个实施例结构图;
图7为本发明一实施例提供的一种终端设备的示意图。
具体实施方式
本发明实施例提供了一种文字区域获取方法、装置、计算机可读存储介质及终端设备,能够准确获取图像中的文字区域,提高了文字区域获取的准确性和获取速度,极大地提高了文字区域的获取效率。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供了一种文字区域获取方法,所述文字区域获取方法,包括:
步骤S101、获取包含文字的预设图像,并采用均值漂移算法和双边滤波算法对所述预设图像进行背景去除;
可以理解的是,所述预设图像的获取方式可以为拍照方式,还可以为扫描方式,如当需要获取某一身份证中的姓名、身份证号码、住址等文字信息时,可先通过拍照方式,或者通过扫描方式来获取该身份证的预设图像;又如当需要获取某一发票上的发票信息时,也可通过拍照方式或者扫描方式获取该发票的预设图像。
本发明实施例中,在获取到所述预设图像后,可联合采用均值漂移算法和双边滤波算法对所述预设图像进行背景去除,以去除所述预设图像中的图像背景,减少图像背景对文字区域获取的干扰。在此,对均值漂移算法和双边滤波算法的采用顺序不作任何限定,如可先采用均值漂移算法将所述预设图像的前景部分和图像背景进行分离,并获取分离出的前景部分,然后再通过双边滤波算法对分离出的前景部分进行进一步的背景去除;也可以先通过双边滤波算法去除所述预设图像的图像背景,然后再通过均值漂移算法进一步分离出所述预设图像的前景部分,以通过联合采用均值漂移算法和双边滤波算法来提高图像背景的去除效果,进而降低文字区域获取过程中图像背景的干扰,提高文字区域获取的准确性。
步骤S102、对去除背景后的预设图像进行灰度处理,得到所述预设图像的灰度图像;
可以理解的是,为了方便对所述预设图像进行后续的图像处理,本发明实施例中,在得到去除背景后的预设图像后,即在得到所述预设图像的前景部分后,可进一步对所述预设图像进行灰度处理,以得到所述预设图像的灰度图像。在此,本发明实施例中,可采用现有的任一灰度处理方式来对所述预设图像进行灰度处理,本发明实施例对灰度处理方式不作任何限定,只要能得到所述预设图像的灰度图像即可。
步骤S103、对所述灰度图像进行锐化操作,得到所述灰度图像的增强图像;
在此,为避免拍照光线不均匀等导致像素变化不明显而造成文字区域获取效果差的问题,本发明实施例中,在获取到所述预设图像的灰度图像后,可进一步对所述灰度图像执行锐化操作,以使得所述灰度图像中文字部分的像素更加突出,从而使得所得到的增强图像中文字区域更加突出和明显,提高文字区域获取的准确性。
进一步地,本发明实施例中,所述对所述灰度图像进行锐化操作,可以包括:
采用3*3的卷积核对所述灰度图像进行卷积处理,以对所述灰度图像进行锐化操作;
其中,所述3*3的卷积核为:
可以理解的是,本发明实施例中,可采用上述所述的3*3的卷积核与所述预设图像的灰度图像做卷积处理,以快速调整所述灰度图像中特定部位的对比度或者清晰度,从而可使得所述灰度图像中文字部分的像素更加突出与明显。
步骤S104、使用最稳定极值区域MSER算法提取所述增强图像的各文字区域,并获取各所述文字区域的位置信息;
本发明实施例中,在得到所述灰度图像的增强图像后,即在得到所述文字部分的像素更加突出、明显的图像后,可采用最稳定极值区域MSER算法来提取出所述增强图像中的文字区域,如在某一具体应用场景中,采用MSER算法所提取的文字区域如图2所示,其中,MSER算法所提取出的每一个不规则的多边形则可代表一个文字区域。在获取到MSER算法提取出的各文字区域后,可随即获取各文字区域的位置信息,即可随即获取各文字区域中各点的坐标信息。
步骤S105、根据各所述文字区域的位置信息进行文字区域的分类,并对同一类的文字区域进行合并,得到最终文字区域。
如图2所示,因MSER算法所提取出的文字区域往往包含有多个,如往往一个文字字符即可对应一个文字区域,因而,为提高文字区域的获取速度和获取效率,本发明实施例中,在获取了各文字区域的位置信息后,可进一步根据各文字区域的位置信息对文字区域进行聚类或者分类处理,并根据聚类或者分类结果将属于同一类的文字区域进行合并,从而得到最终文字区域,如将位于同一行的文字字符合并至同一个文字区域中,减少文字区域的获取数量,从而提高文字区域的获取速度和效率。
优选地,如图3所示,所述根据各所述文字区域的位置信息进行文字区域的分类,可以包括:
步骤S301、根据各所述文字区域的位置信息,确定各所述文字区域的中心点,并获取各所述中心点的中心点坐标;
步骤S302、将各所述中心点坐标之间满足第一预设条件的中心点确定为同一类,得到所述中心点的分类结果;
步骤S303、根据所述中心点的分类结果对各所述文字区域进行分类。
对于上述步骤S301至步骤S303,可以理解的是,在获取到各文字区域的位置信息后,如在获取到各文字区域中各点的坐标信息后,可根据各点的坐标信息确定出各文字区域的中心点,并可获取各中心点的中心点坐标,即可获取各中心点的横坐标和纵坐标,随后可根据各中心点的横坐标和纵坐标来对中心点进行分类,以根据中心点的分类结果对各文字区域进行分类。
其中,所述第一预设条件可以是纵坐标之间的差值满足预设阈值,所述预设阈值可以设置为零。当所述预设阈值为零时,表明可将纵坐标相同的中心点分为一类,即可将位于同一行的中心点确定为一类,如在某一具体应用场景中,中心点A与中心点B的纵坐标相同,中心点C、中心点D以及中心点E的纵坐标相同,中心点F、中心点G、中心点H以及中心点I的纵坐标相同,即表明中心点A与中心点B属于同一行,中心点C、中心点D以及中心点E属于同一行,而中心点F、中心点G、中心点H以及中心点I属于同一行,则可将中心点A与中心点B划分至一类,例如划分至类A,可将中心点C、中心点D以及中心点E划分至另一类,例如划分至类B,同时还可将中心点F、中心点G、中心点H以及中心点I划分至一类,例如划分至类C。
在此,在得到中心点的分类结果后,例如,得到上述的类A、类B以及类C后,则可将类A中各中心点所对应的文字区域划分为第一类,将类B中各中心点所对应的文字区域划分为第二类,将类C中各中心点所对应的文字区域划分为第三类,即可将中心点A所对应的文字区域A和中心点B所对应的文字区域B划分为第一类,将中心点C所对应的文字区域C、中心点D所对应的文字区域D以及中心点E所对应的文字区域E划分为第二类,将中心点F所对应的文字区域F、中心点G所对应的文字区域G、中心点H所对应的文字区域H以及中心点I所对应的文字区域I划分为第三类。
需要说明的是,所述预设阈值为零仅作示意性解释,不应理解为对本发明实施例的限制,本发明实施例中,所述预设阈值当然也可以为其他值,如可以为0.5或者1等等,当所述预设阈值为0.5时,即表明可将纵坐标之间的差值小于或者等于0.5的中心点划分为同一类。另外,本发明实施例中,所述第一预设条件可以是纵坐标之间的差值满足第一预设阈值的同时,横坐标之间的差值满足第二预设阈值,其中,横坐标之间的差值满足第二预设阈值的情形与前述描述的纵坐标之间的差值满足预设阈值相似,基本原理相同,为简明起见,在此不再赘述。
进一步地,本发明实施例中,当然也可以根据文字区域中其他点的位置信息来对文字区域进行分类,如可获取文字区域中最上点和最下点的纵坐标以及中心点的横坐标,并可将中心点横坐标相同、最上点纵坐标满足第三预设条件以及最下点纵坐标满足第四预设条件的文字区域划分为一类。其中,第三预设条件和第四预设条件可以是纵坐标之间的差值在预设值之内。
可选地,如图4所示,本发明实施例中,所述根据各所述文字区域的位置信息进行文字区域的分类,并对同一类的文字区域进行合并,得到最终文字区域,可以包括:
步骤S401、构建与所述增强图像的大小相同的空白画布;
需要说明的是,为防止过滤不干净的图像背景对文字区域获取的干扰,以进一步提高文字区域获取的准确性,本发明实施例中,在使用最稳定极值区域MSER算法提取出所述增强图像的各文字区域后,可首先构建一与所述增强图像大小相同的空白画布。
步骤S402、将所提取的各文字区域按照在所述增强图像中的排布位置,导入所述空白画布中;
在构建出所述空白画布后,可将MSER算法提取出的各文字区域导入所述空白画布中,其中,在将各文字区域导入所述空白画布时,需按照文字区域在所述增强图像中的排布位置进行导入,以使得在所述空白画布中导入各文字区域后所形成的图像与所述增强图像相同。
步骤S403、对位于所述空白画布中的各文字区域进行膨胀处理,得到膨胀后的各第一文字区域;
在此,MSER算法所提取出的文字区域往往为不规则的多边形,而文字区域获取中所需要的是行文本,即需要对同一行上的多边形进行拟合,若直接拟合不规则的多边形则较麻烦,因而,如图5所示,本发明实施例中,在对多边形进行拟合之前,可先对多边形进行膨胀处理,即可先对所述空白画布中的各文字区域进行膨胀处理,以使得文字区域联通在一起。在此,在对各文字区域进行膨胀处理后,还可以对各文字区域进行腐蚀处理,以通过先膨胀后腐蚀的操作来达到联通文字区域和平滑边界的作用。
步骤S404、对各所述第一文字区域进行边缘检测,确定相联通的第一文字区域,并将相联通的第一文字区域合并成联通区域;
步骤S405、获取各所述联通区域的最小外接矩形的位置信息;
步骤S406、根据各所述最小外接矩形的位置信息对各所述联通区域进行分类,并对同一类的联通区域进行合并,得到最终文字区域。
对于上述步骤S404至步骤S406,可以理解的是,本发明实施例中,在得到膨胀处理后的各所述第一文字区域后,可对各所述第一文字区域进行边缘检测,如可通过OpenCV中的findcontours()函数对各所述第一文字区域进行边缘检测,以根据检测结果确定相联通的第一文字区域,并可将相联通的第一文字区域合并成联通区域,同时检测得到各联通区域的最小外接矩形,所述最小外接矩形为包含相联通的各第一文字区域的最小的矩形,并获取各最小外接矩形的位置信息,从而可根据最小外接矩形的位置信息对各所述联通区域进行分类,并可对同一类的联通区域进行合并,得到最终文字区域。
在此,所述检测结果可包括相邻的第一文字区域之间的距离,本发明实施例中,可通过设置距离阈值来确定相邻的第一文字区域之间是否相联通,如在某一具体应用场景中,可将所述距离阈值设置为1cm,因而,当检测确定第一文字区域与第二文字区域之间的距离为0.6cm,而第二文字区域与第三文字区域之间的距离为0.7cm时,则可确定第一文字区域与第二文字区域相联通,第二文字区域与第三文字区域相联通,即可将第一文字区域、第二文字区域以及第三文字区域合并成联通区域。
需要说明的是,本发明实施例中,通过距离阈值的设置来确定相联通的第一文字区域仅作示意性解释,不应理解为对本发明实施例的限制,本发明实施例中,当然也可以采用其他任何可确定文字区域之间联通与否的方式来确定相联通的第一文字区域。
其中,所述根据各所述最小外接矩形的位置信息对各所述联通区域进行分类,可以包括:
步骤a、获取各所述最小外接矩形的对角坐标;
步骤b、根据各所述对角坐标,对各所述联通区域进行分类。
对于上述步骤a和步骤b,可以理解的是,本发明实施例中的获取各最小外接矩形的位置信息,可以是获取各最小外接矩形中对角点的坐标信息,如获取各最小外接矩形的左上点坐标和右下点坐标,以根据所述左上点坐标和所述右下点坐标对所有联通区域进行分类,如可将所有左上点纵坐标相同和右下点纵坐标相同的联通区域划分为一类,例如,当最小外接矩形A的左上点纵坐标与最小外接矩形B的左上点纵坐标相同,且最小外接矩形A的右下点纵坐标与最小外接矩形B的右下点纵坐标相同,同时最小外接矩形C的左上点纵坐标与最小外接矩形B的左上点纵坐标相同,且最小外接矩形C的右下点纵坐标与最小外接矩形B的右下点纵坐标相同时,则可将最小外接矩形A对应的联通区域A、最小外接矩形B对应的联通区域B以及最小外接矩形C对应的联通区域C划分为同一类。
需要说明的是,本发明实施例中,根据左上点纵坐标相同和右下点纵坐标相同来进行联通区域的分类仅作示意性解释,不应理解为对本发明实施例的限制,本发明实施例中,当然也可以设置左上点纵坐标之间的差值需满足的第四预设条件和右下点纵坐标之间的差值需满足的第五预设条件,以根据第四预设条件和第五预设条件来进行联通区域的分类。其中,第四预设条件和第五预设条件可以是纵坐标之间的差值在预设值之内。当然,本发明实施例中,还可以根据左下点纵坐标和右上点纵坐标来进行联通区域的分类。
进一步地,本发明实施例中,在根据最小外接矩形的位置信息对所有联通区域进行分类,得到多个类簇后,还可对各类簇内的联通区域执行筛选、过滤等操作,如可在各类簇中筛选出与该类簇中其他联通区域的距离大于预设距离阈值的联通区域,并从该类簇中过滤掉所筛选出的联通区域,即从对应的类簇中去除该联通区域;又或者在各类簇中筛选出区域面积大于预设面积阈值的联通区域,并从对应的类簇中过滤掉所筛选出的联通区域;再或者在各类簇中筛选出位于某一联通区域内的联通区域等等,以防止获取到不是文字的区域,或者防止文字区域的重复获取,从而提高分类准确性,提高文字区域获取效率和准确性。
优选地,在采用均值漂移算法和双边滤波算法对所述预设图像进行背景去除之前,还可以包括:
步骤c、采集所述预设图像中各像素点的RGB值;
步骤d、提取RGB值满足第二预设条件的像素点,并在所述预设图像中删除所提取的像素点。
对于上述步骤c和步骤d,可以理解的是,在进行有明显颜色区分的预设图像中的文字区域获取时,如在获取发票中的文字区域时,本发明实施例在获取发票的预设图像之后,可先采用颜色分离技术提取出该发票的预设图像中的干扰区域,如提取出该发票中的边框和印章等干扰区域,并在该发票的预设图像中删除该干扰区域的像素点,然后再采用均值漂移算法和双边滤波算法对删除干扰区域的像素点后的预设图像进行背景去除以及后续的步骤,以此进行文字区域的获取。在此,干扰区域可根据像素点的RGB值进行确定,而所述第二预设条件则可根据需要去除的干扰区域的具体颜色进行设置。
本发明实施例中,在获取到包含文字的预设图像时,可首先联合采用均值漂移算法和双边滤波算法对预设图像进行背景去除,以提高背景去除效果,降低文字区域获取过程中的背景干扰;然后,可对去除背景后的预设图像进行灰度处理,得到灰度图像,并可对灰度图像进行锐化操作得到增强图像,以使得增强图像中的文字区域更加突出和明显,从而方便最稳定极值区域MSER算法进行增强图像中各文字区域的提取,提高了文字区域提取的准确性,而在提取出各文字区域后,可进一步获取各文字区域的位置信息,并可根据各文字区域的位置信息进行文字区域的分类,且对同一类的文字区域进行合并,得到最终文字区域,以减少文字区域的数量,提高文字区域的获取速度和获取效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上面主要描述了一种文字区域获取方法,下面将对一种文字区域获取装置进行详细描述。
图6示出了本发明实施例中一种文字区域获取装置的一个实施例结构图。如图6所示,所述文字区域获取装置,包括:
背景去除模块601,用于获取包含文字的预设图像,并采用均值漂移算法和双边滤波算法对所述预设图像进行背景去除;
灰度处理模块602,用于对去除背景后的预设图像进行灰度处理,得到所述预设图像的灰度图像;
锐化处理模块603,用于对所述灰度图像进行锐化操作,得到所述灰度图像的增强图像;
位置获取模块604,用于使用最稳定极值区域MSER算法提取所述增强图像的各文字区域,并获取各所述文字区域的位置信息;
区域获取模块605,用于根据各所述文字区域的位置信息进行文字区域的分类,并对同一类的文字区域进行合并,得到最终文字区域。
进一步地,所述锐化处理模块603,具体用于采用3*3的卷积核对所述灰度图像进行卷积处理,以对所述灰度图像进行锐化操作;
其中,所述3*3的卷积核为:
优选地,所述区域获取模块605,可以包括:
中心点确定单元,用于根据各所述文字区域的位置信息,确定各所述文字区域的中心点,并获取各所述中心点的中心点坐标;
中心点分类单元,用于将各所述中心点坐标之间满足第一预设条件的中心点确定为同一类,得到所述中心点的分类结果;
文字区域分类单元,用于根据所述中心点的分类结果对各所述文字区域进行分类。
可选地,所述区域获取模块605,可以包括:
空白画布构建单元,用于构建与所述增强图像的大小相同的空白画布;
文字区域导入单元,用于将所提取的各文字区域按照在所述增强图像中的排布位置,导入所述空白画布中;
膨胀处理单元,用于对位于所述空白画布中的各文字区域进行膨胀处理,得到膨胀后的各第一文字区域;
边缘检测单元,用于对各所述第一文字区域进行边缘检测,确定相联通的第一文字区域,并将相联通的第一文字区域合并成联通区域;
位置信息获取单元,用于获取各所述联通区域的最小外接矩形的位置信息;
联通区域合并单元,用于根据各所述最小外接矩形的位置信息对各所述联通区域进行分类,并对同一类的联通区域进行合并,得到最终文字区域。
进一步地,所述联通区域合并单元,可以包括:
对角坐标获取子单元,用于获取各所述最小外接矩形的对角坐标;
联通区域合并子单元,用于根据各所述对角坐标,对各所述联通区域进行分类。
优选地,所述文字区域获取装置,还可以包括:
RGB值采集模块,用于采集所述预设图像中各像素点的RGB值;
像素点删除模块,用于提取RGB值满足第二预设条件的像素点,并在所述预设图像中删除所提取的像素点。
图7是本发明一实施例提供的终端设备的示意图。如图7所示,该实施例的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机可读指令72,例如文字区域获取程序。所述处理器70执行所述计算机可读指令72时实现上述各个文字区域获取方法实施例中的步骤,例如图1所示的步骤S101至步骤S105。或者,所述处理器70执行所述计算机可读指令72时实现上述各装置实施例中各模块/单元的功能,例如图6所示的模块601至模块605的功能。
示例性的,所述计算机可读指令72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令72在所述终端设备7中的执行过程。
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种文字区域获取方法,其特征在于,包括:
获取包含文字的预设图像,并采用均值漂移算法和双边滤波算法对所述预设图像进行背景去除;
对去除背景后的预设图像进行灰度处理,得到所述预设图像的灰度图像;
对所述灰度图像进行锐化操作,得到所述灰度图像的增强图像;
使用最稳定极值区域MSER算法提取所述增强图像的各文字区域,并获取各所述文字区域的位置信息;
构建与所述增强图像的大小相同的空白画布;
将所提取的各文字区域按照在所述增强图像中的排布位置,导入所述空白画布中;
对位于所述空白画布中的各文字区域进行膨胀处理,得到膨胀后的各第一文字区域;
对各所述第一文字区域进行边缘检测,确定相联通的第一文字区域,并将相联通的第一文字区域合并成联通区域;
获取各所述联通区域的最小外接矩形的位置信息,所述最小外接矩形的位置信息包括第一角点的纵坐标和第二角点的纵坐标,所述第一角点和所述第二角点为所述最小外接矩形的对角点;
将第一角点的纵坐标相同,且第二角点的纵坐标相同的各最小外接矩形对应的联通区域确定为同一类的联通区域,并对同一类的联通区域进行合并,得到最终文字区域。
2.根据权利要求1所述的文字区域获取方法,其特征在于,所述对所述灰度图像进行锐化操作,包括:
采用3*3的卷积核对所述灰度图像进行卷积处理,以对所述灰度图像进行锐化操作;
其中,所述3*3的卷积核为:
3.根据权利要求1至2中任一项所述的文字区域获取方法,其特征在于,在采用均值漂移算法和双边滤波算法对所述预设图像进行背景去除之前,还包括:
采集所述预设图像中各像素点的RGB值;
提取RGB值满足第二预设条件的像素点,并在所述预设图像中删除所提取的像素点。
4.一种文字区域获取装置,其特征在于,包括:
背景去除模块,用于获取包含文字的预设图像,并采用均值漂移算法和双边滤波算法对所述预设图像进行背景去除;
灰度处理模块,用于对去除背景后的预设图像进行灰度处理,得到所述预设图像的灰度图像;
锐化处理模块,用于对所述灰度图像进行锐化操作,得到所述灰度图像的增强图像;
位置获取模块,用于使用最稳定极值区域MSER算法提取所述增强图像的各文字区域,并获取各所述文字区域的位置信息;
区域获取模块,用于构建与所述增强图像的大小相同的空白画布;将所提取的各文字区域按照在所述增强图像中的排布位置,导入所述空白画布中;对位于所述空白画布中的各文字区域进行膨胀处理,得到膨胀后的各第一文字区域;对各所述第一文字区域进行边缘检测,确定相联通的第一文字区域,并将相联通的第一文字区域合并成联通区域;获取各所述联通区域的最小外接矩形的位置信息,所述最小外接矩形的位置信息包括第一角点的纵坐标和第二角点的纵坐标,所述第一角点和所述第二角点为所述最小外接矩形的对角点;将第一角点的纵坐标相同,且第二角点的纵坐标相同的各最小外接矩形对应的联通区域确定为同一类的联通区域,并对同一类的联通区域进行合并,得到最终文字区域。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至3中任一项所述文字区域获取方法的步骤。
6.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
获取包含文字的预设图像,并采用均值漂移算法和双边滤波算法对所述预设图像进行背景去除;
对去除背景后的预设图像进行灰度处理,得到所述预设图像的灰度图像;
对所述灰度图像进行锐化操作,得到所述灰度图像的增强图像;
使用最稳定极值区域MSER算法提取所述增强图像的各文字区域,并获取各所述文字区域的位置信息;
构建与所述增强图像的大小相同的空白画布;
将所提取的各文字区域按照在所述增强图像中的排布位置,导入所述空白画布中;
对位于所述空白画布中的各文字区域进行膨胀处理,得到膨胀后的各第一文字区域;
对各所述第一文字区域进行边缘检测,确定相联通的第一文字区域,并将相联通的第一文字区域合并成联通区域;
获取各所述联通区域的最小外接矩形的位置信息,所述最小外接矩形的位置信息包括第一角点的纵坐标和第二角点的纵坐标,所述第一角点和所述第二角点为所述最小外接矩形的对角点;
将第一角点的纵坐标相同,且第二角点的纵坐标相同的各最小外接矩形对应的联通区域确定为同一类的联通区域,并对同一类的联通区域进行合并,得到最终文字区域。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811451778.9A CN109670500B (zh) | 2018-11-30 | 2018-11-30 | 一种文字区域获取方法、装置、存储介质及终端设备 |
PCT/CN2019/091526 WO2020107866A1 (zh) | 2018-11-30 | 2019-06-17 | 一种文字区域获取方法、装置、存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811451778.9A CN109670500B (zh) | 2018-11-30 | 2018-11-30 | 一种文字区域获取方法、装置、存储介质及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109670500A CN109670500A (zh) | 2019-04-23 |
CN109670500B true CN109670500B (zh) | 2024-06-28 |
Family
ID=66143422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811451778.9A Active CN109670500B (zh) | 2018-11-30 | 2018-11-30 | 一种文字区域获取方法、装置、存储介质及终端设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109670500B (zh) |
WO (1) | WO2020107866A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670500B (zh) * | 2018-11-30 | 2024-06-28 | 平安科技(深圳)有限公司 | 一种文字区域获取方法、装置、存储介质及终端设备 |
CN110956739A (zh) * | 2019-05-09 | 2020-04-03 | 杭州睿琪软件有限公司 | 一种票据识别方法及装置 |
CN110472623B (zh) * | 2019-06-29 | 2022-08-09 | 华为技术有限公司 | 图像检测方法、设备以及系统 |
CN110717489B (zh) * | 2019-09-19 | 2023-09-15 | 平安科技(深圳)有限公司 | Osd的文字区域的识别方法、装置及存储介质 |
CN110852229A (zh) * | 2019-11-04 | 2020-02-28 | 泰康保险集团股份有限公司 | 图像中文本区域的位置确定方法、装置、设备及存储介质 |
CN112862694B (zh) * | 2019-11-12 | 2024-11-08 | 合肥欣奕华智能机器股份有限公司 | 屏幕位置矫正方法、装置、计算设备和存储介质 |
CN110929738A (zh) * | 2019-11-19 | 2020-03-27 | 上海眼控科技股份有限公司 | 证卡边缘检测方法、装置、设备及可读存储介质 |
CN110992353B (zh) * | 2019-12-13 | 2021-04-06 | 哈尔滨工业大学 | 基于智能感知的芯片涂层薄膜质量检测方法 |
CN112287933B (zh) * | 2019-12-20 | 2022-09-06 | 中北大学 | 一种汽车轮毂x射线图像文字干扰的去除方法及系统 |
CN111814785B (zh) * | 2020-06-11 | 2024-03-29 | 浙江大华技术股份有限公司 | 发票识别方法及相关模型的训练方法以及相关设备、装置 |
CN112132807B (zh) * | 2020-09-23 | 2024-02-23 | 泉州装备制造研究所 | 一种基于颜色相似度分割的焊缝区域提取方法和装置 |
CN112330553B (zh) * | 2020-10-30 | 2022-07-01 | 武汉理工大学 | 一种裂缝图像去噪方法、设备及存储介质 |
CN112418204A (zh) * | 2020-11-18 | 2021-02-26 | 杭州未名信科科技有限公司 | 基于纸质文档的文本识别方法、系统及计算机介质 |
CN112651399B (zh) * | 2020-12-30 | 2024-05-14 | 中国平安人寿保险股份有限公司 | 检测倾斜图像中同行文字的方法及其相关设备 |
CN113096099B (zh) * | 2021-04-14 | 2023-08-25 | 重庆交通大学 | 基于颜色通道合并的透水沥青混合料连通空隙识别方法 |
CN113033540B (zh) * | 2021-04-14 | 2024-08-02 | 易视腾科技股份有限公司 | 场景文字的轮廓拟合和校正方法、电子设备及存储介质 |
CN113627126A (zh) * | 2021-08-09 | 2021-11-09 | 平安医疗健康管理股份有限公司 | 基于网站语言的pdf文件生成方法、装置、设备及存储介质 |
CN113920295A (zh) * | 2021-10-30 | 2022-01-11 | 平安科技(深圳)有限公司 | 文字检测识别方法、装置、电子设备及存储介质 |
CN114298932A (zh) * | 2021-12-24 | 2022-04-08 | 江苏阿瑞斯智能设备有限公司 | 一种文字增强处理方法、装置、设备及介质 |
CN114898409B (zh) * | 2022-07-14 | 2022-09-30 | 深圳市海清视讯科技有限公司 | 数据处理方法和设备 |
CN115588202B (zh) * | 2022-10-28 | 2023-08-15 | 南京云阶电力科技有限公司 | 一种基于轮廓检测的电气设计图纸中文字提取方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102136064A (zh) * | 2011-03-24 | 2011-07-27 | 成都四方信息技术有限公司 | 一种图像文字识别系统 |
CN108038481A (zh) * | 2017-12-11 | 2018-05-15 | 江苏科技大学 | 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8103104B2 (en) * | 2002-01-11 | 2012-01-24 | Hewlett-Packard Development Company, L.P. | Text extraction and its application to compound document image compression |
CN101593277A (zh) * | 2008-05-30 | 2009-12-02 | 电子科技大学 | 一种复杂彩色图像中文本区域自动定位方法及装置 |
CN101901344B (zh) * | 2010-08-13 | 2012-04-25 | 上海交通大学 | 基于腐蚀方法和DoG算子检测文字图像局部特征的方法 |
CN104182722B (zh) * | 2013-05-24 | 2018-05-18 | 佳能株式会社 | 文本检测方法和装置以及文本信息提取方法和系统 |
CN107977658B (zh) * | 2017-12-27 | 2021-09-28 | 深圳Tcl新技术有限公司 | 图像文字区域的识别方法、电视机和可读存储介质 |
CN109670500B (zh) * | 2018-11-30 | 2024-06-28 | 平安科技(深圳)有限公司 | 一种文字区域获取方法、装置、存储介质及终端设备 |
-
2018
- 2018-11-30 CN CN201811451778.9A patent/CN109670500B/zh active Active
-
2019
- 2019-06-17 WO PCT/CN2019/091526 patent/WO2020107866A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102136064A (zh) * | 2011-03-24 | 2011-07-27 | 成都四方信息技术有限公司 | 一种图像文字识别系统 |
CN108038481A (zh) * | 2017-12-11 | 2018-05-15 | 江苏科技大学 | 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109670500A (zh) | 2019-04-23 |
WO2020107866A1 (zh) | 2020-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670500B (zh) | 一种文字区域获取方法、装置、存储介质及终端设备 | |
US10896349B2 (en) | Text detection method and apparatus, and storage medium | |
CN110414507B (zh) | 车牌识别方法、装置、计算机设备和存储介质 | |
CN110008809B (zh) | 表格数据的获取方法、装置和服务器 | |
JP5775225B2 (ja) | マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出 | |
US9047529B2 (en) | Form recognition method and device | |
JP5455038B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN108805128B (zh) | 一种字符分割方法和装置 | |
CN110097046A (zh) | 一种文字检测方法及装置、设备和计算机可读存储介质 | |
CN108108734B (zh) | 一种车牌识别方法及装置 | |
US20140193029A1 (en) | Text Detection in Images of Graphical User Interfaces | |
CN110647882A (zh) | 图像校正方法、装置、设备及存储介质 | |
US10169673B2 (en) | Region-of-interest detection apparatus, region-of-interest detection method, and recording medium | |
US11151402B2 (en) | Method of character recognition in written document | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN114049499A (zh) | 用于连续轮廓的目标对象检测方法、设备及存储介质 | |
CN110807457A (zh) | Osd字符识别方法、装置及存储装置 | |
CN113033562A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
Shi et al. | Image enhancement for degraded binary document images | |
CN110321887B (zh) | 文档图像处理方法、文档图像处理装置及存储介质 | |
JP5796107B2 (ja) | テキスト検出の方法及び装置 | |
JP4967045B2 (ja) | 背景判別装置、方法及びプログラム | |
CN112800824A (zh) | 扫描文件的处理方法、装置、设备及存储介质 | |
CN116434071A (zh) | 一种规整化建筑掩膜的确定方法、确定装置、设备及介质 | |
CN106469267B (zh) | 一种验证码样本收集方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |