[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113537227A - 一种结构化文本识别方法及系统 - Google Patents

一种结构化文本识别方法及系统 Download PDF

Info

Publication number
CN113537227A
CN113537227A CN202110720402.9A CN202110720402A CN113537227A CN 113537227 A CN113537227 A CN 113537227A CN 202110720402 A CN202110720402 A CN 202110720402A CN 113537227 A CN113537227 A CN 113537227A
Authority
CN
China
Prior art keywords
text
line
image
recognition
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110720402.9A
Other languages
English (en)
Other versions
CN113537227B (zh
Inventor
张彦光
高飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110720402.9A priority Critical patent/CN113537227B/zh
Publication of CN113537227A publication Critical patent/CN113537227A/zh
Application granted granted Critical
Publication of CN113537227B publication Critical patent/CN113537227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种结构化文本识别方法及系统,不仅具有单行文本的识别效果,还能够进行多层次的文本分析以及结构性的文本组合。本发明针对文本的检测与识别难点,提出了具有针对性的解决方案。对于文本弯曲问题,提出了按中点轨迹分割的方案,以文本斜率为依据进行切分,实现了弯曲文本的分割。对于文本识别中的公式的分割难点,提出了公式的合并与分割策略。对于图像中表格的检测方法,提出了横竖线检测来进行表格切分与识别的方法。

Description

一种结构化文本识别方法及系统
技术领域
本发明属于自然语言处理领域,具体涉及一种结构化文本识别方 法及系统;本发明基于文本资料图像,建立了一个从图像到文字公式 等内容的结构化文本识别方法,涉及到了表格检测算法,图片检测算 法,文本检测算法,文本分割算法,文本合并算法以及文本识别算法。
背景技术
文本识别主要是针对带字符的文本资料图像,通过机器扫描或者 检查,然后用识别算法来进行文字公式和图像的提取方法。文本识别 的应用范围十分广阔,不仅包括学习领域,医疗领域,在大型企业的 实际产品研发过程中也有着大量应用。一个优秀的文本识别模型必须 具备识别速度快、误识率低、识别稳定并且具有易用性等特点。
近年来,随着信息自动化的高速发展,文本识别算法也取得了很 大的进展,传统的文本识别算法一般从图像的加工开始,通过二值化, 图像增强,倾斜校正等方法进行图像预处理,然后通过版面分析,图 像切分,文字分割,字符识别等手段进行文本信息提取。而对于深度 学习算法而言,在经过版面分析之后,就会使用一些文本检测网络, 如DB-Net来进行文本检测,然后使用字符识别方法。这些不同的检 测算法与识别算法,对不同样本的效果也就不一样,所以如何去进行 搭配,如何去设计算法,是文本识别技术的重点所在。
在实际生产中,文本识别技术在教育领域的应用最为广泛,如很 常见的拍照搜题app,都是由OCR技术对照片进行识别,然后再传入 到数据库中进行匹配,这样才能得到相似题型并进行解析。除此之外, 文本识别方法还能智能识别试卷中的姓名和学号等个人信息,对于老 师阅卷起到了很大的帮助,同时,文本识别方法甚至能对考生的答案 进行判断,并智能进行打分操作,节约了大量的批改时间。
如此智能的文本识别系统,就对文本识别算法本身提出了更严格 的要求,设计结构化的文本识别算法主要包括了以下几个方面的难点:
(1)对于数学学科而言,大量的公式堆叠,给文本检测造成了 极大的干扰,并且部分公式占据了两行空间,若是不进行处理,很有 可能会把一行公式识别为两行,造成文本结构的识别错误。同时,占 据了两行空间的公式需要进行合并操作,保证文本的顺序不受影响。
(2)对于文本检测部分,必须要保证检测到的文本框只包含单 行文字信息,若是检测到多行,就会造成识别的错误,同时,在拍照 图片的处理中,还涉及到弯曲文本的识别,以及公式与文字的分开识 别,针对这两个问题,就需要进行本文的切分,切分规则的确定也是 难点之一。
(3)图像中的表格需要和文字分开进行识别,所以首先需要进 行表格的识别,若是使用深度学习实现,对于普通的目标检测网络, 无法充分利用表格的空间特征信息,且对于后期的文字提取也毫无帮 助,所以需要找到合适的表格检测网络,并能通过图像方法进行表格 中文本的识别。图片检测模型参考论文为:CenterNet:Keypoint Triplets forObject Detection,以下简称为CenterNet,CenterNet为目标检测网 络的一种,与传统的目标检测网络不同的是,它是基于中心点的检测 网络,CenterNet的训练模式采用标准的监督训练,仅通过前向传播 网络推进得到结果,所以不存在传统目标检测网络所需要的后处理过 程,保证了本发明中图像检测的速度。
(4)中英文识别模型,参考论文为An End-to-End Trainable Neural Networkfor Image-based Sequence Recognition and Its Application to Scene TextRecognition,以下简称为CRNN,网络结构一共包括三个部 分,分别是特征提取部分-CNN,序列预测部分-RNN,翻译部分-CTC, 首先进行图片的缩放,将高缩放为32,然后使用CNN进行特征提取, 得到512*1*w的特征图,从此特征图中提取特征向量并放入双向 LSTM网络中进行训练,得到后验概率矩阵,对结果进行编码,然后 使用CTC解码得到文本信息。
(5)公式的识别模块参考论文为What You Get Is What You See:A VisualMarkup Decompiler,以下简称为WYGIWYS,区别于非结构化文 本的识别,它不仅需要识别出字符,并且还要找到字符之间的相对位 置、字符的大小以及公式中的Latex数学符号,公式的识别网络模型 在前期同样经过CNN进行特征提取,然后使用RNN对特征图进行按 行编码,对编码使用视觉注意机制进行处理然后得到输出,视觉注意 机制就是一个解码的过程,解码的模型也是RNN,从编码中产生的上 下文信息向量不断带入到RNN网络中进行解码,然后最后进入一个 全连接层输出one-hot向量,最终输出为具有结构化文本的Latex序列,组合得到所需的公式文本信息。
发明内容
本发明针对含有公式图表等结构性部分的文本,提出了一种结构 化文本识别方法及系统,不仅能应用于一般学科的文本识别,在数学 学科的识别上也有较好的效果。
一种结构化文本识别方法,步骤如下:
步骤(1)、表格检测与识别:
采用深度学习模型实现对于表格的检测,通过语义分割网络 U-Net预测并找到文档图片中的横竖线,用这些线段来提取图中的表 格。然后根据表格切分规则来对其中的文本信息进行提取与合成,再 通过表格判断规则进行判断,最终得到去表格图片。
步骤(2)、配图检测:
在前期操作中,除了排除表格的干扰,也需要对配图的位置信息 进行提取,以便于后期的文本检测操作中不会受到图片的影响,通过 目标检测网络CenterNet网络实现对于配图的检测,获得配图的位置 信息即图片坐标信息。
步骤(3)、文本检测:
采用以行为区域寻找识别区域的方法。对于已经去掉了表格的图 像而言,在图像中主要包含三个部分:文本行,配图和公式。首先先 将去表格图片转换为灰度图,然后使用阈值反二值化方法,将图片中 的文本部分的像素值置为255,背景部分置为0。然后,以7*7的核 对图像进行膨胀处理,然后按照8连通要求来求取膨胀后的图的连通 区域,求得连通区域的外接矩形属性,获得图像中的近似文本行,即 获得近似文本行图像。对近似文本行图像进行下划线去除,对剔除下 划线的文本行图像按文本框属性进行两次水平和垂直方向合并操作, 得到了最终的文本框。
步骤(4)、文本分割与合并:
首先对提取到的文本框获取文本区域中点的轨迹,根据文本的中 点轨迹来进行文本框的切分,完成对弯曲文本的切分,保证了文本框 的贴合性。然后对切分后的文本进行垂直方向的合并操作,按照具有 上下结构的公式文本特点进行合并,解决公式的检测问题。
步骤(5)、文本识别:
首先对步骤4最终得到的文本行,将带有双行公式的文本行分割 成了上下两行包括中间横线的多个文本框,对其进行水平方向的合并 操作保证公式的连贯性,通过文本框图像的宽高属性找到横线对应的 文本框并删除,完成一个双行公式到两个单行公式的转换,然后将其 位置标号并储存。对于单行公式与单行文本的分割,则采用另一种方 法:首先对文本标号,然后使用中英文识别模型进行识别,根据识别 结果对单行公式文本行进行遍历分割,按照遍历的方式对识别结果中 的每个字符进行判断,找到中文位置、数字位置、不是中英文的位置, 然后根据这些位置信息判断出中文字符位置间的非中文区域,排除掉长度小于2的单个变量的情况,统计所有的公式位置并储存,最后将 所有的公式文本与中英文文本分别放入WYGIWYS模型以及CRNN模 型中进行识别操作。
步骤(6)、后处理:
将所有的表格坐标信息,图片坐标信息,中英文文本信息与坐标 信息,公式文本信息与坐标信息结合,最终得到结构化文本信息。
步骤(1)所述的切分规则以及表格判断规则:
所述的切分规则,首先分别判断每对横线与竖线之间是否相交, 得到一个m*n的矩阵,m为横线个数,n为竖线个数,以此进行表格 结构分析,1代表相交,0代表没有相交,所以对于矩阵中的1而言, 能够计算出对应的交点坐标,同时,根据此矩阵进行表格中单元格的 标记,并储存单元格Box信息。
在进行表格切分之后,还需要对表格进行判断,认定为表格有两 个条件,条件一为横线与竖线必须有三条以上,条件二为左右两端线 段长距离近似等于,水平线段的最大X坐标值和最小X坐标值之差, 上下两端线段的距离近似等于垂直方向的最大Y坐标值和最小Y坐标 值之差。
步骤(3)所述的膨胀操作具体如下:
膨胀操作采用OpenCV中的dilate方法,目的是为了将字体加粗, 使一段不连通的文本行变得连通,方便后续的Box提取。第一次膨胀 使用的kernel为7*7,第二次的kernel为15*1。
步骤(3)所述的文本行中下划线去除规则具体如下:
首先,根据外接矩形属性得到近似文本行长宽值,通过长宽值得 到近似平均文本行高度MidianHeight,遍历所有外接矩形,筛选外接 矩形的高度小于0.1*MidianHeight得到目标外接矩形,在目标外接矩 形中通过LSD直线检测得到边缘线段,将这些边缘线段所在图像中的 的像素点置为0,得到去除直线的图像重新使用反二值化、膨胀和求 连通域方法得到去除线段的文本行。
步骤(3)所述的合并具体如下:
步骤(3)中一共经历了两次水平合并和垂直合并,第一次水平 和垂直方向合并,在同一行文本行中,由于标点符号的分割导致一段 文本提取连通区域时提取到了两段,所以按照Box的坐标特征将其合 并为一行同时,模糊的字体会导致单行文本识别为两行,所以进行了 垂直合并,首先对文本框按照X轴方向进行从小到大排序,将排序好 的外接矩形框两两合并,如果前一个外接矩形框X轴的最大值和后一 个外接矩形框的最小值小于0.5*MidianHeight,将两个矩形框进行合 并,以此类推。之后再从垂直方向合并一次,首先对文本框按照Y轴 方向进行从小到大排序,将排序好的外接矩形框两两合并,如果前一 个外接矩形框Y轴的最大值和后一个外接矩形框的最小值小于 0.3*MidianHeight,将两个矩形框进行合并,以此类推,最后得到一 次目标旋转矩形框,对于包含公式的文本行,第二次垂直合并的目的 是将重复框去除。经过上述处理之后的文本框,会漏检掉公式中的小 字符,需要再对在同一列的框进行一次水平方向的合并判断,首先对 经过一次目标旋转矩形框的角度进行计算,如果两个目标旋转矩形框 距离在0.3*MidianHeight,且角度偏差在5°以内,则进行合并,最 后再经过方向垂直方向判断,如果两个文本的目标旋转矩形的外接矩形框的IOU大于最小的外接矩形框的外接矩形面积的0.2则进行合并, 得到了最终的文本框。
步骤(4)所述的文本区域中点轨迹:
对于步骤(3)最终提取到的文本框进行反二值化、膨胀、求连 通区域的方法找到文本行对应的轮廓,根据轮廓坐标求得所有横坐标 对应的纵坐标中点值,得到一组文本区域中心的轨迹坐标,将这轨迹 线按横坐标平均切分为设定段数,使用最小二乘法拟合切分后的曲线, 判断拟合的曲线与真实值之间的误差关系,若误差大于设定阈值,则 设置该点为切分点,否则分析下一个点。
步骤(4)所述的切分规则:
按照文本区域中点轨迹横坐标进行切分。
步骤(4)所述的垂直方向合并规则:
检测后一个box的下界与前一个box的上界,若差小于文本框标 准高的三分之一,则将两个Box进行上下合并,要求合并后的矩形的 旋转角度小于合并前的矩形。
步骤(5)所述的双行文本的分割规则如下:
首先对文本框进行分割,通过膨胀求连通区域的方式将文本框中 的内容进行进一步的分割,分割后先进行一次水平方向的合并操作, 然后去掉中间的横线干扰,得到双行公式分割结果。
步骤(5)所述的遍历分割即文本行遍历的分割规则如下:
首先对中英文识别模型中CTC解码得到的文本信息,分析文本信 息,得到每一个字符在文本信息中第一次出现的位置,并进行标号, 对每一个字符进行判断,只对中文字符做序号连接,得到中文区域的 起始序列号和结束序列号,根据文本图像的宽度除以文本信息的序列 长度,得到每一个文本字符对应的图像宽度,然后乘以中文区域的序 列号,得到中文区域在图像中的大致位置信息CNBox,再将非公式文 本行图像处理中的字符位置Box,将Box与CNBox进行IOU计算,如 果IOU大于0,并合并组成新的CNBox,再送入到CRNN网络中进行 识别,如果其中有英文字符,则将新的CNBox缩减有英文字符一端的 一个字符位置,直至没有英文字符出现,最终得到中文区域,其他位 置均为英文或者公式区域,最终得到单行公式文本行中的公式和英文 位置信息。
本发明有益效果如下:
近年来,文本识别的应用愈发广泛,各种针对性的文本识别算法 层出不穷,针对目前市面上相对较少的学科科目文本识别算法,本发 明提出了一种结构化文本识别方法及系统,不仅具有单行文本的识别 效果,还能够进行多层次的文本分析以及结构性的文本组合。
同时,本发明针对文本的检测与识别难点,提出了具有针对性的 解决方案。对于文本弯曲问题,提出了按中点轨迹分割的方案,以文 本斜率为依据进行切分,实现了弯曲文本的分割。对于文本识别中的 公式的分割难点,提出了公式的合并与分割策略。对于图像中表格的 检测方法,提出了横竖线检测来进行表格切分与识别的方法。
附图说明
图1为本发明实施例示意图;
图2为本发明实施例切分示意图;
图3为本发明实施例合并模式示意图;
图4为本发明实施例双行文本分割流程图。
具体实施方式
以下结合附图与实施例对本发明技术方案进行进一步描述。
一种结构化文本识别方法,步骤如下:
步骤(1)、表格检测与识别:
在一般的文档图片中,除了文字之外,还存在着很多表格与图片, 如果直接对文档图片进行文本检测,可能会将图片和表格中的文本误 识别,并且对识别后的排版会有很大影响,所以在文本识别之前,将 图表单独拿出来,避免对后面的文本行检测造成干扰。表格有专门的 识别手段,而图片则完全不需要识别,只需要找到其准确位置就可以 了。采用深度学习模型实现对于表格的检测,通过语义分割网络U-Net 预测并找到文档图片中的横竖线,用这些线段来提取图中的表格。然 后根据表格切分规则来对其中的文本信息进行提取与合成,再通过表 格判断规则进行判断,最终得到去表格图片。
步骤(2)、配图检测:
在前期操作中,除了排除表格的干扰,也需要对配图的位置信息 进行提取,以便于后期的文本检测操作中不会受到图片的影响,通过 目标检测网络CenterNet网络实现对于配图的检测,获得配图的位置 信息即图片坐标信息。CenterNet区别于其他传统的目标检测网络, 它通过关键点估计找到目标中心点,并用回归的方式得到目标其他属 性,更简单,更快,更精确。
步骤(3)、文本检测:
文本行检测是识别中比较重要的部分,其检测的准确性直接影响 到后期识别的效果,此部分采用以行为区域寻找识别区域的方法。对 于已经去掉了表格的图像而言,在图像中主要包含三个部分:文本行, 配图和公式。首先先将去表格图片转换为灰度图,然后使用阈值反二 值化方法,将图片中的文本部分的像素值置为255,背景部分置为0。 然后,以7*7的核对图像进行膨胀处理,然后按照8连通要求来求取 膨胀后的图的连通区域,求得连通区域的外接矩形属性,获得图像中 的近似文本行,即获得近似文本行图像。对近似文本行图像进行下划 线去除,对剔除下划线的文本行图像按文本框属性进行两次水平和垂直方向合并操作,得到了最终的文本框。
步骤(4)、文本分割与合并:
针对文本中存在的弯曲文本和公式文本,上一步中的处理显然不 会准确的识别这种情况,弯曲文本在只用一行文本框的情况下,无法 对文本进行贴合的框选,影响了后续的识别操作,而对于公式文本而 言,有的公式文本会占据两行空间,所以涉及到文本的合并操作,以 保证不会把单个公式切分成上下两块。针对这两个问题,在步骤3的 基础上,开始进行文本的分割与合并操作,首先对提取到的文本框获 取文本区域中点的轨迹,根据文本的中点轨迹来进行文本框的切分, 完成对弯曲文本的切分,保证了文本框的贴合性。然后对切分后的文 本进行垂直方向的合并操作,按照具有上下结构的公式文本特点进行合并,解决公式的检测问题。
步骤(5)、文本识别:
文本的识别方法需要区分为中英文的文本识别方法以及公式的 文本识别方法,所以在识别的前期还需要对上一步中提取的box进行 进一步的分割。首先对步骤4最终得到的文本行,将带有双行公式的 文本行分割成了上下两行包括中间横线的多个文本框,对其进行水平 方向的合并操作保证公式的连贯性,通过文本框图像的宽高属性找到 横线对应的文本框并删除,完成一个双行公式到两个单行公式的转换, 然后将其位置标号并储存。对于单行公式与单行文本的分割,则采用 另一种方法:首先对文本标号,然后使用中英文识别模型进行识别, 根据识别结果对单行公式文本行进行遍历分割,按照遍历的方式对识 别结果中的每个字符进行判断,找到中文位置、数字位置、不是中英 文的位置,然后根据这些位置信息判断出中文字符位置间的非中文区 域,排除掉长度小于2的单个变量的情况,统计所有的公式位置并储 存,最后将所有的公式文本与中英文文本分别放入WYGIWYS模型以 及CRNN模型中进行识别操作。
步骤(6)、后处理:
将所有的表格坐标信息,图片坐标信息,中英文文本信息与坐标 信息,公式文本信息与坐标信息结合,最终得到结构化文本信息。
步骤(1)所述的切分规则以及表格判断规则:
所述的切分规则,首先分别判断每对横线与竖线之间是否相交, 得到一个m*n的矩阵,m为横线个数,n为竖线个数,以此进行表格 结构分析,如图2所示,图2矩阵中,1代表相交,0代表没有相交, 所以对于矩阵中的1而言,能够计算出对应的交点坐标,同时,根据此矩阵进行表格中单元格的标记,并储存单元格Box信息。
在进行表格切分之后,还需要对表格进行判断,认定为表格有两 个条件,条件一为横线与竖线必须有三条以上,条件二为左右两端线 段长距离近似等于,水平线段的最大X坐标值和最小X坐标值之差, 上下两端线段的距离近似等于垂直方向的最大Y坐标值和最小Y坐标 值之差。
步骤(3)所述的膨胀操作具体如下:
膨胀操作采用OpenCV中的dilate方法,目的是为了将字体加粗, 使一段不连通的文本行变得连通,方便后续的Box提取。第一次膨胀 使用的kernel为7*7,第二次的kernel为15*1,原因是第一次的膨胀 是为了提取图像中的干扰因素,如边缘线等,第二次的膨胀考虑到文 字段的一般形态特征,所以使用横框进行膨胀。
步骤(3)所述的文本行中下划线去除规则具体如下:
首先,根据外接矩形属性得到近似文本行长宽值,通过长宽值得 到近似平均文本行高度MidianHeight,遍历所有外接矩形,筛选外接 矩形的高度小于0.1*MidianHeight得到目标外接矩形,在目标外接矩 形中通过LSD直线检测得到边缘线段,将这些边缘线段所在图像中的 的像素点置为0,得到去除直线的图像重新使用反二值化、膨胀和求 连通域方法得到去除线段的文本行。
步骤(3)所述的合并具体如下:
步骤(3)中一共经历了两次水平合并和垂直合并,第一次水平 和垂直方向合并,在同一行文本行中,由于标点符号的分割导致一段 文本提取连通区域时提取到了两段,所以按照Box的坐标特征将其合 并为一行同时,模糊的字体会导致单行文本识别为两行,所以进行了 垂直合并,首先对文本框按照X轴方向进行从小到大排序,将排序好 的外接矩形框两两合并,如果前一个外接矩形框X轴的最大值和后一 个外接矩形框的最小值小于0.5*MidianHeight,将两个矩形框进行合 并,以此类推。之后再从垂直方向合并一次,首先对文本框按照Y轴 方向进行从小到大排序,将排序好的外接矩形框两两合并,如果前一 个外接矩形框Y轴的最大值和后一个外接矩形框的最小值小于 0.3*MidianHeight,将两个矩形框进行合并,以此类推,最后得到一 次目标旋转矩形框,对于包含公式的文本行,第二次垂直合并的目的 是将重复框去除。经过上述处理之后的文本框,会漏检掉公式中的小 字符,需要再对在同一列的框进行一次水平方向的合并判断,首先对 经过一次目标旋转矩形框的角度进行计算,如果两个目标旋转矩形框 距离在0.3*MidianHeight,且角度偏差在5°以内,则进行合并,最 后再经过方向垂直方向判断,如果两个文本的目标旋转矩形的外接矩形框的IOU大于最小的外接矩形框的外接矩形面积的0.2则进行合并, 得到了最终的文本框。
步骤(4)所述的文本区域中点轨迹:
对于步骤(3)最终提取到的文本框进行反二值化、膨胀、求连 通区域的方法找到文本行对应的轮廓,根据轮廓坐标求得所有横坐标 对应的纵坐标中点值,得到一组文本区域中心的轨迹坐标,将这轨迹 线按横坐标平均切分为设定段数,使用最小二乘法拟合切分后的曲线, 判断拟合的曲线与真实值之间的误差关系,若误差大于设定阈值,则 设置该点为切分点,否则分析下一个点。
所述的设定段数为4-5端。
步骤(4)所述的切分规则:
按照文本区域中点轨迹横坐标进行切分。
步骤(4)所述的垂直方向合并规则:
检测后一个box的下界与前一个box的上界,若差小于文本框标 准高的三分之一,则将两个Box进行上下合并,要求合并后的矩形的 旋转角度小于合并前的矩形。具体的合并模式如图3所示。
步骤(5)所述的双行文本的分割规则如下:
首先对文本框进行分割,通过膨胀求连通区域的方式将文本框中 的内容进行进一步的分割,分割后先进行一次水平方向的合并操作, 然后去掉中间的横线干扰,得到双行公式分割结果。具体流程如图4 所示。
步骤(5)所述的遍历分割即文本行遍历的分割规则如下:
首先对中英文识别模型中CTC解码得到的文本信息,分析文本信 息,得到每一个字符在文本信息中第一次出现的位置,并进行标号, 对每一个字符进行判断,只对中文字符做序号连接,得到中文区域的 起始序列号和结束序列号,根据文本图像的宽度除以文本信息的序列 长度,得到每一个文本字符对应的图像宽度,然后乘以中文区域的序 列号,得到中文区域在图像中的大致位置信息CNBox,再将非公式文 本行图像处理中的字符位置Box,将Box与CNBox进行IOU计算,如 果IOU大于0,并合并组成新的CNBox,再送入到CRNN网络中进行 识别,如果其中有英文字符,则将新的CNBox缩减有英文字符一端的 一个字符位置,直至没有英文字符出现,最终得到中文区域,其他位 置均为英文或者公式区域,最终得到单行公式文本行中的公式和英文 位置信息。
一种结构化文本识别系统,包括表格检测与识别模块、配图检测 模块、文本检测模块、文本分割与合并模块、文本识别模块以及后处 理模块。
所述的表格检测与识别模块采用深度学习模型实现对于表格的 检测,通过语义分割网络U-Net预测并找到文档图片中的横竖线,用 这些线段来提取图中的表格。然后根据表格切分规则来对其中的文本 信息进行提取与合成,再通过表格判断规则进行判断,最终得到去表 格图片。
所述的配图检测模块通过目标检测网络CenterNet网络实现对于 配图的检测,获得配图的位置信息即图片坐标信息。
所述的文本检测模块采用以行为区域寻找识别区域的方法进行 文本检测。首先先将去表格图片转换为灰度图,然后使用阈值反二值 化方法,将图片中的文本部分的像素值置为255,背景部分置为0。 然后,以7*7的核对图像进行膨胀处理,然后按照8连通要求来求取 膨胀后的图的连通区域,求得连通区域的外接矩形属性,获得图像中 的近似文本行,即获得近似文本行图像。对近似文本行图像进行下划 线去除,对剔除下划线的文本行图像按文本框属性进行两次水平和垂 直方向合并操作,得到了最终的文本框。
所述的文本分割与合并模块用于对文本检测模块检测到的文本 框进行分割与合并,首先对提取到的文本框获取文本区域中点的轨迹, 根据文本的中点轨迹来进行文本框的切分,完成对弯曲文本的切分, 然后对切分后的文本进行垂直方向的合并操作,按照具有上下结构的 公式文本特点进行合并。
所述的文本识别模块,采用WYGIWYS模型以及CRNN模型对公 式文本与中英文文进行识别操作。
所述的后处理模块用于将所有的表格坐标信息,图片坐标信息, 中英文文本信息与坐标信息,公式文本信息与坐标信息结合,最终得 到结构化文本信息。
实施例:
如图1所示,本发明具有以下几个步骤:
(1)表格检测与识别:
首先对表格提取结构化信息,找到表格的每一个交点坐标,然后 提取出表格中的文本,本文使用的U-Net网络分为的编码部分和解码 部分,编码部分采用YOLOV3模型,解码部分采用的是反向YOLOV3 模型,不同点在于最后一层卷积核输出的通道为2,使用的YOLO网 络属于目标检测网络,且它的第三代网络在前两代的基础上进行了 Bounding Box的聚类,这恰好适应了直线检测中的目标框长宽比,通 过YOLOV3网络进行图像中的横竖线检测,具有良好的识别效果,将 横竖线检测问题变为一个二分类问题,针对每个像素点都有两个特征 输出,分别是横线的置信度和竖线的置信度,对整幅图像按照以0.5 为标准按照此置信度进行二值化处理,最后求取连通区域得到对应的 横线与竖线。
本文使用U-Net网络模型,训练数据为人工标注,一共使用2000 张数据,其中训练数据为1700张,测试数据为300张,数据格式为 原图和与原图对应的直线的二值化图像,训练迭代次数为8个epoch, Loss最终收敛0.0012,在测试集上DICE为0.98。
(2)配图检测:
输入任意尺度的图像,使用CenterNet网络进行配图检测,输出 图像中配图中心点坐标以及宽高,训练数据为人工标注的图像位置 (x,y,width,height)和原始文本图像,共有10000张数据,其中配图 个数共有34210,训练迭代次数为10个epoch,Loss最终收敛0.013, 在测试集中的准确率为0.98。
(3)文本行检测、分割:
将图像中的表格位置与图片位置去掉,使用膨胀、求连通域的方 式找到文本行,然后根据文本的弯曲度进行文本切分,输出图像中所 有的文本框,根据公式的性质对文本框进行合并操作,输出合并后的 所有文本框。将合并后的双行文本框设置为公式文本,将其他单行文 本放入CRNN中测试,对于得到的结构进行公式判断,输出单行公式 文本框坐标信息。
(4)公式识别:
本文使用的是WYGIWYS,使用该论文中模型和方法,进行公式 文本识别,特征提取模块使用的是VGG16,该网络结构能够很好的提 取文本特征,并使用训练数据集IM2LATEX-100K,训练和测试数据比 例分别为7:3,训练10个epoch,Loss最终收敛在0.012,在测试数据集中的准确率为0.9。在本文中,将公式图片输入网络中,输出公 式文本Latex结构序列,存放进公式列表。
(5)中英文文本识别:
本文的中英文识别为CRNN网络结构,特征提取CNN使用VGG16, 其他模块与论文一致,在印刷体文本数据进行训练和测试。数据采集 共有100w张数据,所有数据集中的图像的高度为32,宽度不定长, 数据集中的每一张图片对应的文本字符个数为10,在本文中训练数 据和测试数据的比例为9:1,训练10个epoch,Loss最终收敛在0.00012, 在测试集中的识别准确率为0.995,在本文中使用训练好的CRNN网 络对中英文文本进行识别,输出文本信息以及文本对应的Box,存放 进中英文文本列表。
(6)后处理
将步骤(1)表格位置信息,步骤(2)配图位置信息,步骤(3) 文本框信息,步骤(5)文本识别结果信息,文本识别结果结合文本 框的位置信息进行放置,得到文本行识别信息,并对文本行按照文本 行的位置上下排序,表格位置信息结合文本识别结果得到表格识别信 息,结合配图位置信息在原图提取配图,并将这些信息进行组合,最 后得到结构化的文本信息。

Claims (10)

1.一种结构化文本识别方法,其特征在于,步骤如下:
步骤(1)、表格检测与识别:
采用深度学习模型实现对于表格的检测,通过语义分割网络U-Net预测并找到文档图片中的横竖线,用这些线段来提取图中的表格;然后根据表格切分规则来对其中的文本信息进行提取与合成,再通过表格判断规则进行判断,最终得到去表格图片;
步骤(2)、配图检测:
在前期操作中,除了排除表格的干扰,也需要对配图的位置信息进行提取,以便于后期的文本检测操作中不会受到图片的影响,通过目标检测网络CenterNet网络实现对于配图的检测,获得配图的位置信息即图片坐标信息;
步骤(3)、文本检测:
采用以行为区域寻找识别区域的方法;对于已经去掉了表格的图像而言,在图像中主要包含三个部分:文本行,配图和公式;首先先将去表格图片转换为灰度图,然后使用阈值反二值化方法,将图片中的文本部分的像素值置为255,背景部分置为0;然后,以7*7的核对图像进行膨胀处理,然后按照8连通要求来求取膨胀后的图的连通区域,求得连通区域的外接矩形属性,获得图像中的近似文本行,即获得近似文本行图像;对近似文本行图像进行下划线去除,对剔除下划线的文本行图像按文本框属性进行两次水平和垂直方向合并操作,得到了最终的文本框;
步骤(4)、文本分割与合并:
首先对提取到的文本框获取文本区域中点的轨迹,根据文本的中点轨迹来进行文本框的切分,完成对弯曲文本的切分,保证了文本框的贴合性;然后对切分后的文本进行垂直方向的合并操作,按照具有上下结构的公式文本特点进行合并,解决公式的检测问题;
步骤(5)、文本识别:
首先对步骤4最终得到的文本行,将带有双行公式的文本行分割成了上下两行包括中间横线的多个文本框,对其进行水平方向的合并操作保证公式的连贯性,通过文本框图像的宽高属性找到横线对应的文本框并删除,完成一个双行公式到两个单行公式的转换,然后将其位置标号并储存;对于单行公式与单行文本的分割,则采用另一种方法:首先对文本标号,然后使用中英文识别模型进行识别,根据识别结果对单行公式文本行进行遍历分割,按照遍历的方式对识别结果中的每个字符进行判断,找到中文位置、数字位置、不是中英文的位置,然后根据这些位置信息判断出中文字符位置间的非中文区域,排除掉长度小于2的单个变量的情况,统计所有的公式位置并储存,最后将所有的公式文本与中英文文本分别放入WYGIWYS模型以及CRNN模型中进行识别操作;
步骤(6)、后处理:
将所有的表格坐标信息,图片坐标信息,中英文文本信息与坐标信息,公式文本信息与坐标信息结合,最终得到结构化文本信息。
2.根据权利要求1所述的一种结构化文本识别方法,其特征在于,步骤(1)所述的切分规则以及表格判断规则:
所述的切分规则,首先分别判断每对横线与竖线之间是否相交,得到一个m*n的矩阵,m为横线个数,n为竖线个数,以此进行表格结构分析,1代表相交,0代表没有相交,所以对于矩阵中的1而言,能够计算出对应的交点坐标,同时,根据此矩阵进行表格中单元格的标记,并储存单元格Box信息;
在进行表格切分之后,还需要对表格进行判断,认定为表格有两个条件,条件一为横线与竖线必须有三条以上,条件二为左右两端线段长距离近似等于,水平线段的最大X坐标值和最小X坐标值之差,上下两端线段的距离近似等于垂直方向的最大Y坐标值和最小Y坐标值之差。
3.根据权利要求2所述的一种结构化文本识别方法,其特征在于,步骤(3)所述的膨胀操作具体如下:
膨胀操作采用OpenCV中的dilate方法,目的是为了将字体加粗,使一段不连通的文本行变得连通,方便后续的Box提取;第一次膨胀使用的kernel为7*7,第二次的kernel为15*1。
4.根据权利要求3所述的一种结构化文本识别方法,其特征在于,步骤(3)所述的文本行中下划线去除规则具体如下:
首先,根据外接矩形属性得到近似文本行长宽值,通过长宽值得到近似平均文本行高度MidianHeight,遍历所有外接矩形,筛选外接矩形的高度小于0.1*MidianHeight得到目标外接矩形,在目标外接矩形中通过LSD直线检测得到边缘线段,将这些边缘线段所在图像中的的像素点置为0,得到去除直线的图像重新使用反二值化、膨胀和求连通域方法得到去除线段的文本行。
5.根据权利要求4所述的一种结构化文本识别方法,其特征在于,步骤(3)所述的合并具体如下:
步骤(3)中一共经历了两次水平合并和垂直合并,第一次水平和垂直方向合并,在同一行文本行中,由于标点符号的分割导致一段文本提取连通区域时提取到了两段,所以按照Box的坐标特征将其合并为一行同时,模糊的字体会导致单行文本识别为两行,所以进行了垂直合并,首先对文本框按照X轴方向进行从小到大排序,将排序好的外接矩形框两两合并,如果前一个外接矩形框X轴的最大值和后一个外接矩形框的最小值小于0.5*MidianHeight,将两个矩形框进行合并,以此类推;之后再从垂直方向合并一次,首先对文本框按照Y轴方向进行从小到大排序,将排序好的外接矩形框两两合并,如果前一个外接矩形框Y轴的最大值和后一个外接矩形框的最小值小于0.3*MidianHeight,将两个矩形框进行合并,以此类推,最后得到一次目标旋转矩形框,对于包含公式的文本行,第二次垂直合并的目的是将重复框去除;经过上述处理之后的文本框,会漏检掉公式中的小字符,需要再对在同一列的框进行一次水平方向的合并判断,首先对经过一次目标旋转矩形框的角度进行计算,如果两个目标旋转矩形框距离在0.3*MidianHeight,且角度偏差在5°以内,则进行合并,最后再经过方向垂直方向判断,如果两个文本的目标旋转矩形的外接矩形框的IOU大于最小的外接矩形框的外接矩形面积的0.2则进行合并,得到了最终的文本框。
6.根据权利要求5所述的一种结构化文本识别方法,其特征在于,步骤(4)所述的文本区域中点轨迹:
对于步骤(3)最终提取到的文本框进行反二值化、膨胀、求连通区域的方法找到文本行对应的轮廓,根据轮廓坐标求得所有横坐标对应的纵坐标中点值,得到一组文本区域中心的轨迹坐标,将这轨迹线按横坐标平均切分为设定段数,使用最小二乘法拟合切分后的曲线,判断拟合的曲线与真实值之间的误差关系,若误差大于设定阈值,则设置该点为切分点,否则分析下一个点。
7.根据权利要求6所述的一种结构化文本识别方法,其特征在于,步骤(4)所述的垂直方向合并规则:
检测后一个box的下界与前一个box的上界,若差小于文本框标准高的三分之一,则将两个Box进行上下合并,要求合并后的矩形的旋转角度小于合并前的矩形。
8.根据权利要求7所述的一种结构化文本识别方法,其特征在于,步骤(5)所述的双行文本的分割规则如下:
首先对文本框进行分割,通过膨胀求连通区域的方式将文本框中的内容进行进一步的分割,分割后先进行一次水平方向的合并操作,然后去掉中间的横线干扰,得到双行公式分割结果。
9.根据权利要求8所述的一种结构化文本识别方法,其特征在于,步骤(5)所述的遍历分割即文本行遍历的分割规则如下:
首先对中英文识别模型中CTC解码得到的文本信息,分析文本信息,得到每一个字符在文本信息中第一次出现的位置,并进行标号,对每一个字符进行判断,只对中文字符做序号连接,得到中文区域的起始序列号和结束序列号,根据文本图像的宽度除以文本信息的序列长度,得到每一个文本字符对应的图像宽度,然后乘以中文区域的序列号,得到中文区域在图像中的大致位置信息CNBox,再将非公式文本行图像处理中的字符位置Box,将Box与CNBox进行IOU计算,如果IOU大于0,并合并组成新的CNBox,再送入到CRNN网络中进行识别,如果其中有英文字符,则将新的CNBox缩减有英文字符一端的一个字符位置,直至没有英文字符出现,最终得到中文区域,其他位置均为英文或者公式区域,最终得到单行公式文本行中的公式和英文位置信息。
10.一种结构化文本识别系统,其特征在于,包括表格检测与识别模块、配图检测模块、文本检测模块、文本分割与合并模块、文本识别模块以及后处理模块;
所述的表格检测与识别模块采用深度学习模型实现对于表格的检测,通过语义分割网络U-Net预测并找到文档图片中的横竖线,用这些线段来提取图中的表格;然后根据表格切分规则来对其中的文本信息进行提取与合成,再通过表格判断规则进行判断,最终得到去表格图片;
所述的配图检测模块通过目标检测网络CenterNet网络实现对于配图的检测,获得配图的位置信息即图片坐标信息;
所述的文本检测模块采用以行为区域寻找识别区域的方法进行文本检测;首先先将去表格图片转换为灰度图,然后使用阈值反二值化方法,将图片中的文本部分的像素值置为255,背景部分置为0;然后,以7*7的核对图像进行膨胀处理,然后按照8连通要求来求取膨胀后的图的连通区域,求得连通区域的外接矩形属性,获得图像中的近似文本行,即获得近似文本行图像;对近似文本行图像进行下划线去除,对剔除下划线的文本行图像按文本框属性进行两次水平和垂直方向合并操作,得到了最终的文本框;
所述的文本分割与合并模块用于对文本检测模块检测到的文本框进行分割与合并,首先对提取到的文本框获取文本区域中点的轨迹,根据文本的中点轨迹来进行文本框的切分,完成对弯曲文本的切分,然后对切分后的文本进行垂直方向的合并操作,按照具有上下结构的公式文本特点进行合并;
所述的文本识别模块,采用WYGIWYS模型以及CRNN模型对公式文本与中英文文进行识别操作;
所述的后处理模块用于将所有的表格坐标信息,图片坐标信息,中英文文本信息与坐标信息,公式文本信息与坐标信息结合,最终得到结构化文本信息。
CN202110720402.9A 2021-06-28 2021-06-28 一种结构化文本识别方法及系统 Active CN113537227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110720402.9A CN113537227B (zh) 2021-06-28 2021-06-28 一种结构化文本识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110720402.9A CN113537227B (zh) 2021-06-28 2021-06-28 一种结构化文本识别方法及系统

Publications (2)

Publication Number Publication Date
CN113537227A true CN113537227A (zh) 2021-10-22
CN113537227B CN113537227B (zh) 2024-02-02

Family

ID=78126005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110720402.9A Active CN113537227B (zh) 2021-06-28 2021-06-28 一种结构化文本识别方法及系统

Country Status (1)

Country Link
CN (1) CN113537227B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241492A (zh) * 2021-12-17 2022-03-25 黑盒科技(广州)有限公司 一种识别作文稿纸的手写文本识别并复现文本结构的方法
CN114266751A (zh) * 2021-12-23 2022-04-01 福州大学 基于ai技术的产品包装袋打码缺陷检测方法及系统
CN114529557A (zh) * 2022-01-27 2022-05-24 北京开拓鸿业高科技有限公司 数据录入方法、装置、存储介质及电子设备
CN114677691A (zh) * 2022-04-06 2022-06-28 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质
CN114693717A (zh) * 2022-02-24 2022-07-01 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN114896399A (zh) * 2022-05-09 2022-08-12 深圳市星桐科技有限公司 文本识别模型的训练方法、文本识别方法和电子设备
CN114898373A (zh) * 2022-06-08 2022-08-12 平安科技(深圳)有限公司 文件脱敏方法、装置、电子设备及存储介质
CN115100663A (zh) * 2022-05-11 2022-09-23 北京邮电大学 文档图像中文字高度的分布情况估计方法及装置
CN115909369A (zh) * 2023-02-15 2023-04-04 南京信息工程大学 一种汉字字体二值化切片图像的提取方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020192391A1 (zh) * 2019-03-22 2020-10-01 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN112836650A (zh) * 2021-02-05 2021-05-25 广东电网有限责任公司广州供电局 一种质量检验报告扫描图像表格语义解析方法与系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020192391A1 (zh) * 2019-03-22 2020-10-01 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN112836650A (zh) * 2021-02-05 2021-05-25 广东电网有限责任公司广州供电局 一种质量检验报告扫描图像表格语义解析方法与系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241492A (zh) * 2021-12-17 2022-03-25 黑盒科技(广州)有限公司 一种识别作文稿纸的手写文本识别并复现文本结构的方法
CN114266751A (zh) * 2021-12-23 2022-04-01 福州大学 基于ai技术的产品包装袋打码缺陷检测方法及系统
CN114529557A (zh) * 2022-01-27 2022-05-24 北京开拓鸿业高科技有限公司 数据录入方法、装置、存储介质及电子设备
CN114693717A (zh) * 2022-02-24 2022-07-01 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN114677691A (zh) * 2022-04-06 2022-06-28 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质
CN114677691B (zh) * 2022-04-06 2023-10-03 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质
CN114896399A (zh) * 2022-05-09 2022-08-12 深圳市星桐科技有限公司 文本识别模型的训练方法、文本识别方法和电子设备
CN115100663A (zh) * 2022-05-11 2022-09-23 北京邮电大学 文档图像中文字高度的分布情况估计方法及装置
CN114898373A (zh) * 2022-06-08 2022-08-12 平安科技(深圳)有限公司 文件脱敏方法、装置、电子设备及存储介质
CN114898373B (zh) * 2022-06-08 2024-09-27 平安科技(深圳)有限公司 文件脱敏方法、装置、电子设备及存储介质
CN115909369A (zh) * 2023-02-15 2023-04-04 南京信息工程大学 一种汉字字体二值化切片图像的提取方法及系统

Also Published As

Publication number Publication date
CN113537227B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN113537227B (zh) 一种结构化文本识别方法及系统
Mahdavi et al. ICDAR 2019 CROHME+ TFD: Competition on recognition of handwritten mathematical expressions and typeset formula detection
CN107346420B (zh) 一种基于深度学习的自然场景下文字检测定位方法
CN108764074B (zh) 基于深度学习的主观题智能阅卷方法、系统及存储介质
CN105608454B (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN113158808A (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN112464926B (zh) 联机中英文混合手写识别方法
Alghyaline Arabic Optical Character Recognition: A Review.
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
CN113516041A (zh) 一种藏文古籍文档图像版面分割、识别方法及系统
Ahmed et al. Printed Arabic text recognition
Al Ghamdi A novel approach to printed Arabic optical character recognition
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
CN115240210A (zh) 一种用于手写汉字辅助练习的系统及方法
Boraik et al. Characters segmentation from Arabic handwritten document images: hybrid approach
CN112329389B (zh) 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法
Madushanka et al. Sinhala handwritten character recognition by using enhanced thinning and curvature histogram based method
Silva et al. Segmenting sinhala handwritten characters
Shtaiwi et al. End-to-end machine learning solution for recognizing handwritten Arabic documents
Al Hamad et al. Improving the Segmentation of Arabic Handwriting Using Ligature Detection Technique.
Kaur et al. Heuristic-based text segmentation of bilingual handwritten documents for Gurumukhi-Latin scripts
Radzid et al. Framework of page segmentation for mushaf Al-Quran based on multiphase level segmentation
Kesaulya et al. Javanese Script Text Image Recognition Using Convolutional Neural Networks
Saudagar et al. Arabic character extraction and recognition using traversing approach.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant