CN111680635A - 一种文本识别的方法、装置、电子设备和存储介质 - Google Patents
一种文本识别的方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111680635A CN111680635A CN202010524228.6A CN202010524228A CN111680635A CN 111680635 A CN111680635 A CN 111680635A CN 202010524228 A CN202010524228 A CN 202010524228A CN 111680635 A CN111680635 A CN 111680635A
- Authority
- CN
- China
- Prior art keywords
- formula
- text
- text line
- frame
- box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 77
- 238000001914 filtration Methods 0.000 claims abstract description 20
- 238000012937 correction Methods 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000012015 optical character recognition Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 241000590419 Polygonia interrogationis Species 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明实施例涉及OCR技术领域,公开了一种文本识别的方法、装置、电子设备和存储介质。该方法包括:获取目标文本图像;得到目标文本图像的题号框、公式框和文本行轮廓;利用题号框对公式框进行过滤,利用文本行轮廓过滤题号框,将过滤后的公式框插入文本行轮廓中,得到文本位置信息;对插入公式框的文本行轮廓进行矫正;将矫正后的文本行轮廓中的文本送入中英文识别模型进行识别,将公式框中的公式送入公式识别模型;保存文本位置信息、公式识别结果和文字识别结果。实施本发明实施例,在文本行识别的基础上,引入题号检测和公式检测,丰富了OCR的功能,可以自动检测和识别出题号、公式和文本行的位置信息和文字信息。
Description
技术领域
本发明涉及OCR技术领域,具体涉及一种文本识别的方法、装置、电子设备和存储介质。
背景技术
传统的OCR识别是通过文本行检测后进行识别,这种方式在一般场景中的字符识别能够满足需求,但是在教育领域,例如试卷、练习册以及作业本等文本处理的光学文字识别场景中,其不同于通用OCR场景,需要对试卷文本中的题号和公式进行位置进行检测,并对题号和公式信息进行识别,现有技术无法满足这种需求。
发明内容
针对所述缺陷,本发明实施例公开了一种文本识别的方法、装置、电子设备和存储介质,其可以获取文本行、题号以及公式的位置信息,以及文本、题号以及公式的识别。
本发明实施例第一方面公开一种文本识别的方法,所述方法包括:
获取目标文本图像;
将所述目标文本图像并行输入题号检测网络模型、公式检测网络模型以及文本行检测网络模型,分别输出题号框、公式框和文本行轮廓;
利用所述题号框对所述公式框进行过滤,利用所述文本行轮廓过滤所述题号框,将过滤后的公式框插入文本行轮廓中,得到文本位置信息;
对所述插入公式框的文本行轮廓进行矫正,得到矫正后的文本行轮廓;
将所述矫正后的文本行轮廓中的文本送入中英文识别模型进行识别,将所述公式框中的公式送入公式识别模型,分别得到文字识别结果和公式识别结果;
保存所述文本位置信息、公式识别结果和文字识别结果。
作为一种可选的实施方式,在本发明实施例第一方面中,将所述目标文本图像并行输入题号检测网络模型、公式检测网络模型以及文本行检测网络模型,分别输出题号框、公式框和文本行轮廓,包括:
将所述目标文本图像并行输入YOLO题号检测网络模型、YOLO公式检测网络模型以及PseNet文本行检测网络模型,分别得到题号框、公式框和文本行轮廓。
作为一种可选的实施方式,在本发明实施例第一方面中,利用所述题号框对所述公式框进行过滤,包括:
计算任意一题号框与公式框的IOU;
在题号框和公式框的IOU大于第一预设阈值,则删除所述IOU大于第一预设阈值对应的公式框。
作为一种可选的实施方式,在本发明实施例第一方面中,利用所述文本行轮廓过滤所述题号框,包括:
计算所述题号框与任意文本行轮廓的交集面积;
在所述交集面积占所述题号框总面积的比例大于第二预设值时,删除所述题号框。
作为一种可选的实施方式,在本发明实施例第一方面中,将过滤后的公式框插入文本行轮廓中,包括:
检测过滤后的公式框与文本行中心线的交集;
在所述公式框与所有文本行中心线均无交集时,保留所述公式框;
在所述公式框与其中一个文本行中心线存在交集时,将所述公式框插入存在交集的文本行轮廓中;
在所述公式框与多个文本行中心线存在交集时,确定公式框与所述多个文本行中心线的交集像素点数量,将所述公式框插入该多个文本行中心线中交集像素点数量最大的文本行轮廓中。
作为一种可选的实施方式,在本发明实施例第一方面中,所述对所述插入公式框的文本行轮廓进行矫正,得到矫正后的文本行轮廓,包括:
将所述插入公式框的文本行轮廓输入TPS矫正网络进行矫正,得到矫正后的文本行轮廓。
本发明实施例第二方面公开一种文本识别的装置,所述装置包括:
获取单元,用于获取目标文本图像;
第一识别单元,用于将所述目标文本图像并行输入题号检测网络模型、公式检测网络模型以及文本行检测网络模型,分别输出题号框、公式框和文本行轮廓;
融合单元,用于利用所述题号框对所述公式框进行过滤,利用所述文本行轮廓过滤所述题号框,将过滤后的公式框插入文本行轮廓中,得到文本位置信息;
矫正单元,用于对所述插入公式框的文本行轮廓进行矫正,得到矫正后的文本行轮廓;
第二识别单元,用于将所述矫正后的文本行轮廓中的文本送入中英文识别模型进行识别,将所述公式框中的公式送入公式识别模型,分别得到文字识别结果和公式识别结果;
保存单元,用于保存所述文本位置信息、公式识别结果和文字识别结果。
作为一种可选的实施方式,在本发明实施例第二方面中,所述第一识别单元,包括:
将所述目标文本图像并行输入YOLO题号检测网络模型、YOLO公式检测网络模型以及PseNet文本行检测网络模型,分别得到题号框、公式框和文本行轮廓。
作为一种可选的实施方式,在本发明实施例第二方面中,所述融合单元,包括:
第一计算子单元,用于计算任意一题号框与公式框的IOU;
第一删除子单元,用于在题号框和公式框的IOU大于第一预设阈值,则删除所述IOU大于第一预设阈值对应的公式框。
作为一种可选的实施方式,在本发明实施例第二方面中,所述融合单元,还包括:
第二计算子单元,用于计算所述题号框与任意文本行轮廓的交集面积;
第二删除子单元,在所述交集面积占所述题号框总面积的比例大于第二预设值时,删除所述题号框。
作为一种可选的实施方式,在本发明实施例第二方面中,所述融合单元,还包括:
检测子单元,用于检测过滤后的公式框与文本行中心线的交集;
第一判断子单元,用于在所述公式框与所有文本行中心线均无交集时,保留所述公式框;
第二判断子单元,用于在所述公式框与其中一个文本行中心线存在交集时,将所述公式框插入存在交集的文本行轮廓中;
第三判断子单元,用于在所述公式框与多个文本行中心线存在交集时,确定公式框与所述多个文本行中心线的交集像素点数量,将所述公式框插入该多个文本行中心线中交集像素点数量最大的文本行轮廓中。
作为一种可选的实施方式,在本发明实施例第二方面中,所述矫正单元,包括:
将所述插入公式框的文本行轮廓输入TPS矫正网络进行矫正,得到矫正后的文本行轮廓。
本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的一种文本识别的方法的部分或全部步骤。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种文本识别的方法的部分或全部步骤。
本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种文本识别的方法的部分或全部步骤。
本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种文本识别的方法的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,获取目标文本图像;将所述目标文本图像并行输入题号检测网络模型、公式检测网络模型以及文本行检测网络模型,分别输出题号框、公式框和文本行轮廓;利用所述题号框对所述公式框进行过滤,利用所述文本行轮廓过滤所述题号框,将过滤后的公式框插入文本行轮廓中,得到文本位置信息;对所述插入公式框的文本行轮廓进行矫正,得到矫正后的文本行轮廓;将所述矫正后的文本行轮廓中的文本送入中英文识别模型进行识别,将所述公式框中的公式送入公式识别模型,分别得到文字识别结果和公式识别结果;保存所述文本位置信息、公式识别结果和文字识别结果。可见,实施本发明实施例,其在文本行识别的基础上,引入题号检测和公式检测,丰富了OCR的功能,可以自动检测和识别出题号、公式和文本行的位置信息和文字信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种文本识别的方法的流程示意图;
图2为本发明实施例公开的公式框插入文本行轮廓前的结构示意图;
图3为本发明实施例公开的公式框插入文本行轮廓后的结构示意图;
图4为本发明实施例公开的一种文本识别的装置的结构示意图;
图5为本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种文本识别的方法、装置、电子设备和存储介质,其在文本行识别的基础上,引入题号检测和公式检测,丰富了OCR的功能,可以自动检测和识别出题号、公式和文本行的位置信息和文字信息,以下结合附图进行详细描述。
实施例一
请参阅图1,图1是本发明实施例公开的一种文本识别方法的流程示意图。如图1所示,该文本识别方法包括以下步骤:
110、获取目标文本图像。
目标文本图像可以用户输入的图像,目标文本图像也可以是从网上下载得到,这里不对其来源进行限定。示例性地,用户可以通过图像采集装置例如摄像头等对承载体例如作业本、练习册以及试卷等进行拍照得到,图像采集装置可以集成于智能设备中,例如将承载体放置于点读机或家教机的前方,通过智能设备的前置摄像头对承载体进行拍照,或者图像采集装置为分立器件,其具有与智能设备通讯的能力。目标文本图像中存在一个或多个文本行,且目标文本图像中存在题号,部分目标文本图像可能存在公式。
获取目标文本图像后,可以对其进行预处理,预处理包括但不限于图像增强和形状矫正。其中,形状矫正主要是将目标文本图像的外形调整为矩形,其方法包括但不限于霍夫变换。当然,也可以使用传统方法对目标文本图像进行初步的文字矫正,例如使用角点检测、连通域检测、霍夫变换等进行矫正。最后得到的目标文本图像执行步骤120-160的操作。
120、将所述目标文本图像并行输入题号检测网络模型、公式检测网络模型以及文本行检测网络模型,分别输出题号框、公式框和文本行轮廓。
识别目标文本图像的题号框的方法可以有多种,示例性地,通过创建并训练的YOLO题号检测网络模型对题号信息进行识别。YOLO(You Only Look Once:Unified,Real-Time Object Detection),是Joseph Redmon和Ali Farhadi等人于2015年提出的基于单个神经网络的目标检测算法,其包括卷积层、目标检测层和NMS筛选层。对YOLO题号检测网络模型训练的样本可以是包含题号的文本图片,样本标签为标注于文本图片中的各个题号框。目标文本图像输入训练后的YOLO题号检测网络模型可以得到目标文本图像的各个题号框,这里称之为初始题号框。当然,还可以通过其他深度学习的目标检测方法对题号框进行识别,例如R-CNN、SSD、retinanet、AttentionNet以及FCOS等。
类似的方法对目标文本图像中的公式框进行识别,也可以采用YOLO算法构建的预先训练的YOLO题号检测网络模型,通过识别得到目标文本图像的公式框。
检测目标文本图像的文本行信息的方法也可以有多种,示例性地,通过PSEnet文本检测算法检测所述目标文本图像的文本行信息。PSEnet是一种实例分割网络,能够对任意形状的文本进行定位;而且该模型提出了一种渐进的尺度扩展算法,该算法可以成功地识别相邻文本实例,能够准确地将文本实例紧密地分开,尤其适用于用户自己拍照得到的可能存在倾斜、褶皱以及卷曲等情况的目标文本图像或目标文本图像的题目分布比较复杂的情况。
当然,在一些场景中,也可以应用其他深度学习模型对文本行信息进行检测,例如基于包围盒回归(Bounding Box Regression)或基于语义分割的卷积神经网络等。
文本行信息包括文本行轮廓和文本行中心线,其中,文本行轮廓用于获取对应的文字信息,文本行中心线用于后续的文本矫正和插入相应的公式框,文本行中心线可以通过文本行轮廓的边框收缩方式得到。
130、利用所述题号框对所述公式框进行过滤,利用所述文本行轮廓过滤所述题号框,将过滤后的公式框插入文本行轮廓中,得到文本位置信息。
为了进行过滤以及文本位置确定,需要将题号框、公式框以及文本行轮廓进行融合,融合的方式是将三者得到的掩码图合成,因为三者的掩码图均对应目标文本图像,因此,掩码图大小相等,进行简单合成即可。
融合后,可以先对公式框进行过滤。因为题号框是题号检测的结果,往往包含形如1.2.3.的题号,公式框是公式检测的结果,所以有时会存在公式框的误检,即把题号误检为公式。为了解决上述问题,本发明中使用IOU来判断,当公式框和题号框的交并比(IOU,可以同交集的像素点数和并集的像素点数的比值得到IOU)大于第一预设阈值例如0.3时,则判定为将题号误检成公式,则去掉公式框与题号框交并比大于第一预设阈值的公式框。二者交并比的方式是将公式框和题号框的检测结果融合。
公式框的检测可能会与文本行轮廓的检测结果相重合,此时就需要将公式检测的框插入到文本行轮廓中。具体而言要判断公式框与所有文本行中心线有无交集。若公式框与所有文本行中心线均无交集,则说明该公式框的检测结果并未与文本行轮廓的检测结果相重合,直接保留公式框即可,不需要调整其位置。
若公式框与其中一个文本行中心线交集,则将该公式框插入到该存在交集的文本行中心线对应的文本行轮廓中。
如果公式框与两个或两个以上的文本行中心线存在交集,则选取交集中像素点最多的一个文本行中心线对应的文本行轮廓中,作为目标文本行轮廓,将公式框插入该目标文本行轮廓中。
另外,题号会存在一定的误检,即将文本行中的标点符号误检为题号,因此判断题号框是否存在于文本行中,如果题号框与某一个文本行轮廓交集的面积除以题号框的总面积得到的比值大于第二预设阈值,说明将文本行中的数字或标点符号误检成题号,则去掉该比值大于第二预设阈值的题号框。
通过上述操作,可以得到最终题号、文本行以及公式的位置,即保存上述融合后的题号框、公式框以及文本行轮廓就可以确定文本位置信息,可以为每个边框设置一个编号和标签,标签对应边框的类型,例如,标签为1的边框为题号框,每个边框对应的文本位置信息可以是相应像素点构成的矩阵。
140、对所述插入公式框的文本行轮廓进行矫正,得到矫正后的文本行轮廓。
这一步的目的是为了将插入公式框后的文本行轮廓进行调整。在公式框插入之前,文本行轮廓是一个整体;插入公式框后,文本行轮廓被分割为至少三段,如下图2-3所示。其中,图2为插入公式框前的文本行轮廓,图3是插入公式框后的文本行轮廓。
插入公式框后的文本行轮廓可能会存在一定程度的变形(公式框也可能变形,因此,这里的矫正文本行轮廓是指对整个插入公式框的文本行轮廓和公式框进行矫正),这种情况下,如果直接用这个文本行轮廓去识别相应的文字或公式,则可能部分文字或公式位于文本行外侧,或者覆盖到其他行的文字或公式,造成识别不准确,因此,在本发明实施例中,还对插入公式框的文本行轮廓进行矫正。
具体地,可以采用TPS矫正网络实现,在每一个分割后的每一段文本行轮廓和公式框上均设置多个第一控制点,以及预设多个与第一控制点一一对应的第二控制点(优选相邻第二控制点的连续组成矩形形状),第二控制点对应TPS矫正网络输出的矫正文本行轮廓上的位置点,TPS矫正网络根据第一控制点和第二控制点确定TPS变换矩阵,基于TPS变换矩阵和原始文本行轮廓的连续插值方法得到矫正文本行轮廓,从而将插入公式框的文本行轮廓矫正为矩形。
150、将所述矫正后的文本行轮廓中的文本送入中英文识别模型进行识别,将所述公式框中的公式送入公式识别模型,分别得到文字识别结果和公式识别结果。
有些文本行轮廓和公式框可能不需要矫正,则可以直接将这些文本行轮廓中的文本送入中英文识别模型,得到文字识别结果,将公式框中的公式送入公式识别模型,得到公式识别结果。对于矫正的文本行轮廓,也可以将题号框对应的题号送入中英文识别模型,得到题号识别结果。类似的,将矫正后的文本行轮廓中文本送入中英文识别模型进行识别,得到文字识别结果,将矫正后的公式框中的公式送入公式识别模型,得到公式识别结果。
公式识别模型和中英文识别模型均可以采用基于神经网络的识别模型实现。当然,也可以采用其他常规的识别模型实现。
160、保存所述文本位置信息、公式识别结果和文字识别结果。
将上述步骤130经过过滤和融合后检测得到的文本位置信息以及步骤150得到的公式、文字以及题号识别结果打包封装为json格式,完成OCR服务的集成检测和识别。
实施本发明实施例,其在文本行识别的基础上,引入题号检测和公式检测,丰富了OCR的功能,可以自动检测和识别出题号、公式和文本行的位置信息和文字信息。
实施例二
请参阅图4,图4是本发明实施例公开的一种文本识别装置的结构示意图。如图4所示,该文本识别装置可以包括:
获取单元210,用于获取目标文本图像;
第一识别单元220,用于将所述目标文本图像并行输入题号检测网络模型、公式检测网络模型以及文本行检测网络模型,分别输出题号框、公式框和文本行轮廓;
融合单元230,用于利用所述题号框对所述公式框进行过滤,利用所述文本行轮廓过滤所述题号框,将过滤后的公式框插入文本行轮廓中,得到文本位置信息;
矫正单元240,用于对所述插入公式框的文本行轮廓进行矫正,得到矫正后的文本行轮廓;
第二识别单元250,用于将所述矫正后的文本行轮廓中的文本送入中英文识别模型进行识别,将所述公式框中的公式送入公式识别模型,分别得到文字识别结果和公式识别结果;
保存单元260,用于保存所述文本位置信息、公式识别结果和文字识别结果。
作为一种可选的实施方式,所述第一识别单元220,可以包括:
将所述目标文本图像并行输入YOLO题号检测网络模型、YOLO公式检测网络模型以及PseNet文本行检测网络模型,分别得到题号框、公式框和文本行轮廓。
作为一种可选的实施方式,所述融合单元230,可以包括:
第一计算子单元231,用于计算任意一题号框与公式框的IOU;
第一删除子单元232,用于在题号框和公式框的IOU大于第一预设阈值,则删除所述IOU大于第一预设阈值对应的公式框。
作为一种可选的实施方式,所述融合单元230,还可以包括:
第二计算子单元233,用于计算所述题号框与任意文本行轮廓的交集面积;
第二删除子单元234,在所述交集面积占所述题号框总面积的比例大于第二预设值时,删除所述题号框。
作为一种可选的实施方式,所述融合单元230,还可以包括:
检测子单元235,用于检测过滤后的公式框与文本行中心线的交集;
第一判断子单元236,用于在所述公式框与所有文本行中心线均无交集时,保留所述公式框;
第二判断子单元237,用于在所述公式框与其中一个文本行中心线存在交集时,将所述公式框插入存在交集的文本行轮廓中;
第三判断子单元238,用于在所述公式框与多个文本行中心线存在交集时,确定公式框与所述多个文本行中心线的交集像素点数量,将所述公式框插入该多个文本行中心线中交集像素点数量最大的文本行轮廓中。
作为一种可选的实施方式,所述矫正单元,可以包括:
将所述插入公式框的文本行轮廓输入TPS矫正网络进行矫正,得到矫正后的文本行轮廓。
图4所示的文本识别装置,其在文本行识别的基础上,引入题号检测和公式检测,丰富了OCR的功能,可以自动检测和识别出题号、公式和文本行的位置信息和文字信息。
实施例三
请参阅图5,图5是本发明实施例公开的一种电子设备的结构示意图。如图5所示,该电子设备可以包括:
存储有可执行程序代码的存储器310;
与存储器310耦合的处理器320;
其中,处理器320调用存储器310中存储的可执行程序代码,执行实施例一中文本识别的方法中的部分或全部步骤。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一中文本识别的方法中的部分或全部步骤。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中文本识别的方法中的部分或全部步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中文本识别的方法中的部分或全部步骤。
在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种文本识别的方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种文本识别的方法,其特征在于,包括:
获取目标文本图像;
将所述目标文本图像并行输入题号检测网络模型、公式检测网络模型以及文本行检测网络模型,分别输出题号框、公式框和文本行轮廓;
利用所述题号框对所述公式框进行过滤,利用所述文本行轮廓过滤所述题号框,将过滤后的公式框插入文本行轮廓中,得到文本位置信息;
对所述插入公式框的文本行轮廓进行矫正,得到矫正后的文本行轮廓;
将所述矫正后的文本行轮廓中的文本送入中英文识别模型进行识别,将所述公式框中的公式送入公式识别模型,分别得到文字识别结果和公式识别结果;
保存所述文本位置信息、公式识别结果和文字识别结果。
2.根据权利要求1所述的方法,其特征在于,将所述目标文本图像并行输入题号检测网络模型、公式检测网络模型以及文本行检测网络模型,分别输出题号框、公式框和文本行轮廓,包括:
将所述目标文本图像并行输入YOLO题号检测网络模型、YOLO公式检测网络模型以及PseNet文本行检测网络模型,分别得到题号框、公式框和文本行轮廓。
3.根据权利要求1所述的方法,其特征在于,利用所述题号框对所述公式框进行过滤,包括:
计算任意一题号框与公式框的IOU;
在题号框和公式框的IOU大于第一预设阈值,则删除所述IOU大于第一预设阈值对应的公式框。
4.根据权利要求1所述的方法,其特征在于,利用所述文本行轮廓过滤所述题号框,包括:
计算所述题号框与任意文本行轮廓的交集面积;
在所述交集面积占所述题号框总面积的比例大于第二预设值时,删除所述题号框。
5.根据权利要求1所述的方法,其特征在于,将过滤后的公式框插入文本行轮廓中,包括:
检测过滤后的公式框与文本行中心线的交集;
在所述公式框与所有文本行中心线均无交集时,保留所述公式框;
在所述公式框与其中一个文本行中心线存在交集时,将所述公式框插入存在交集的文本行轮廓中;
在所述公式框与多个文本行中心线存在交集时,确定公式框与所述多个文本行中心线的交集像素点数量,将所述公式框插入该多个文本行中心线中交集像素点数量最大的文本行轮廓中。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述对所述插入公式框的文本行轮廓进行矫正,得到矫正后的文本行轮廓,包括:
将所述插入公式框的文本行轮廓输入TPS矫正网络进行矫正,得到矫正后的文本行轮廓。
7.一种文本识别的装置,其特征在于,所述装置包括:
获取单元,用于获取目标文本图像;
第一识别单元,用于将所述目标文本图像并行输入题号检测网络模型、公式检测网络模型以及文本行检测网络模型,分别输出题号框、公式框和文本行轮廓;
融合单元,用于利用所述题号框对所述公式框进行过滤,利用所述文本行轮廓过滤所述题号框,将过滤后的公式框插入文本行轮廓中,得到文本位置信息;
矫正单元,用于对所述插入公式框的文本行轮廓进行矫正,得到矫正后的文本行轮廓;
第二识别单元,用于将所述矫正后的文本行轮廓中的文本送入中英文识别模型进行识别,将所述公式框中的公式送入公式识别模型,分别得到文字识别结果和公式识别结果;
保存单元,用于保存所述文本位置信息、公式识别结果和文字识别结果。
8.根据权利要求7所述的装置,其特征在于,所述第一识别单元,包括:
将所述目标文本图像并行输入YOLO题号检测网络模型、YOLO公式检测网络模型以及PseNet文本行检测网络模型,分别得到题号框、公式框和文本行轮廓。
9.根据权利要求7所述的装置,其特征在于,所述融合单元,包括:
第一计算子单元,用于计算任意一题号框与公式框的IOU;
第一删除子单元,用于在题号框和公式框的IOU大于第一预设阈值,则删除所述IOU大于第一预设阈值对应的公式框。
10.根据权利要求7所述的装置,其特征在于,所述融合单元,还包括:
第二计算子单元,用于计算所述题号框与任意文本行轮廓的交集面积;
第二删除子单元,在所述交集面积占所述题号框总面积的比例大于第二预设值时,删除所述题号框。
11.根据权利要求7所述的装置,其特征在于,所述融合单元,还包括:
检测子单元,用于检测过滤后的公式框与文本行中心线的交集;
第一判断子单元,用于在所述公式框与所有文本行中心线均无交集时,保留所述公式框;
第二判断子单元,用于在所述公式框与其中一个文本行中心线存在交集时,将所述公式框插入存在交集的文本行轮廓中;
第三判断子单元,用于在所述公式框与多个文本行中心线存在交集时,确定公式框与所述多个文本行中心线的交集像素点数量,将所述公式框插入该多个文本行中心线中交集像素点数量最大的文本行轮廓中。
12.根据权利要求7-11任一项所述的装置,其特征在于,所述矫正单元,包括:
将所述插入公式框的文本行轮廓输入TPS矫正网络进行矫正,得到矫正后的文本行轮廓。
13.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至6任一项所述的一种文本识别的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至6任一项所述的一种文本识别的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010524228.6A CN111680635B (zh) | 2020-06-10 | 2020-06-10 | 一种文本识别的方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010524228.6A CN111680635B (zh) | 2020-06-10 | 2020-06-10 | 一种文本识别的方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680635A true CN111680635A (zh) | 2020-09-18 |
CN111680635B CN111680635B (zh) | 2024-01-19 |
Family
ID=72454868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010524228.6A Active CN111680635B (zh) | 2020-06-10 | 2020-06-10 | 一种文本识别的方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680635B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095210A (zh) * | 2021-04-08 | 2021-07-09 | 北京一起教育科技有限责任公司 | 一种练习册页面检测的方法、装置及电子设备 |
CN113449728A (zh) * | 2021-07-21 | 2021-09-28 | 北京有竹居网络技术有限公司 | 一种文字识别方法及其相关设备 |
CN114565925A (zh) * | 2022-02-25 | 2022-05-31 | 北京鼎事兴教育咨询有限公司 | 文本信息获取方法、装置、存储介质及电子设备 |
CN118230330A (zh) * | 2024-03-24 | 2024-06-21 | 江苏新狮科技有限责任公司 | 一种试卷识别方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726661A (zh) * | 2018-12-21 | 2019-05-07 | 网易有道信息技术(北京)有限公司 | 图像处理方法及装置、介质和计算设备 |
CN110110581A (zh) * | 2019-03-14 | 2019-08-09 | 杭州笔声智能科技有限公司 | 一种基于人工智能的试卷批改方法和系统 |
CN110928996A (zh) * | 2019-11-29 | 2020-03-27 | 北大方正集团有限公司 | 公式序号检查系统、方法、装置和计算机可读存储介质 |
CN111062377A (zh) * | 2019-12-18 | 2020-04-24 | 广东小天才科技有限公司 | 一种题号检测方法、系统、存储介质及电子设备 |
-
2020
- 2020-06-10 CN CN202010524228.6A patent/CN111680635B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726661A (zh) * | 2018-12-21 | 2019-05-07 | 网易有道信息技术(北京)有限公司 | 图像处理方法及装置、介质和计算设备 |
CN110110581A (zh) * | 2019-03-14 | 2019-08-09 | 杭州笔声智能科技有限公司 | 一种基于人工智能的试卷批改方法和系统 |
CN110928996A (zh) * | 2019-11-29 | 2020-03-27 | 北大方正集团有限公司 | 公式序号检查系统、方法、装置和计算机可读存储介质 |
CN111062377A (zh) * | 2019-12-18 | 2020-04-24 | 广东小天才科技有限公司 | 一种题号检测方法、系统、存储介质及电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095210A (zh) * | 2021-04-08 | 2021-07-09 | 北京一起教育科技有限责任公司 | 一种练习册页面检测的方法、装置及电子设备 |
CN113449728A (zh) * | 2021-07-21 | 2021-09-28 | 北京有竹居网络技术有限公司 | 一种文字识别方法及其相关设备 |
CN114565925A (zh) * | 2022-02-25 | 2022-05-31 | 北京鼎事兴教育咨询有限公司 | 文本信息获取方法、装置、存储介质及电子设备 |
CN118230330A (zh) * | 2024-03-24 | 2024-06-21 | 江苏新狮科技有限责任公司 | 一种试卷识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111680635B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680635B (zh) | 一种文本识别的方法、装置、电子设备和存储介质 | |
CN110766014B (zh) | 票据信息定位方法、系统及计算机可读存储介质 | |
JP2020184109A (ja) | 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム | |
CN111652144B (zh) | 基于目标区域融合的题目分割方法、装置、设备和介质 | |
CN111737478B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN111160395A (zh) | 图像识别方法、装置、电子设备和存储介质 | |
CN111753120A (zh) | 一种搜题的方法、装置、电子设备和存储介质 | |
CN111652141A (zh) | 基于题号和文本行的题目分割方法、装置、设备和介质 | |
CN111652142A (zh) | 基于深度学习的题目分割方法、装置、设备和介质 | |
CN113762309A (zh) | 对象匹配方法、装置及设备 | |
CN114445843A (zh) | 固定版式的卡证图像文字识别方法和装置 | |
CN113762274B (zh) | 一种答题卡目标区域检测方法、系统、存储介质及设备 | |
CN111652140A (zh) | 基于深度学习的题目精准分割方法、装置、设备和介质 | |
CN111652145B (zh) | 一种公式检测的方法、装置、电子设备和存储介质 | |
CN114694161A (zh) | 一种特定版式证件的文本识别方法、设备及存储介质 | |
CN111798542B (zh) | 模型训练方法、数据处理方法及装置、设备、存储介质 | |
CN113936187A (zh) | 文本图像合成方法、装置、存储介质及电子设备 | |
CN116778032B (zh) | 答题卡生成方法、装置、设备和存储介质 | |
CN112308057A (zh) | 一种基于文字位置信息的ocr优化方法及系统 | |
CN112232335A (zh) | 对自动化分配和/或分拣寄送物的分配信息和/或分拣信息的确定 | |
CN115050025A (zh) | 基于公式识别的知识点抽取方法及装置 | |
CN112101479B (zh) | 一种发型识别方法及装置 | |
JPH11328306A (ja) | 文書画像の論理要素抽出方法、装置および記録媒体 | |
CN113449728B (zh) | 一种文字识别方法及其相关设备 | |
CN111652182B (zh) | 一种悬空手势识别的方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |