CN113537227A

CN113537227A - 一种结构化文本识别方法及系统

Info

Publication number: CN113537227A
Application number: CN202110720402.9A
Authority: CN
Inventors: 张彦光; 高飞
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-10-22
Anticipated expiration: 2041-06-28
Also published as: CN113537227B

Abstract

本发明公开了一种结构化文本识别方法及系统，不仅具有单行文本的识别效果，还能够进行多层次的文本分析以及结构性的文本组合。本发明针对文本的检测与识别难点，提出了具有针对性的解决方案。对于文本弯曲问题，提出了按中点轨迹分割的方案，以文本斜率为依据进行切分，实现了弯曲文本的分割。对于文本识别中的公式的分割难点，提出了公式的合并与分割策略。对于图像中表格的检测方法，提出了横竖线检测来进行表格切分与识别的方法。

Description

一种结构化文本识别方法及系统

技术领域

本发明属于自然语言处理领域，具体涉及一种结构化文本识别方法及系统；本发明基于文本资料图像，建立了一个从图像到文字公式等内容的结构化文本识别方法，涉及到了表格检测算法，图片检测算法，文本检测算法，文本分割算法，文本合并算法以及文本识别算法。

背景技术

文本识别主要是针对带字符的文本资料图像，通过机器扫描或者检查，然后用识别算法来进行文字公式和图像的提取方法。文本识别的应用范围十分广阔，不仅包括学习领域，医疗领域，在大型企业的实际产品研发过程中也有着大量应用。一个优秀的文本识别模型必须具备识别速度快、误识率低、识别稳定并且具有易用性等特点。

近年来，随着信息自动化的高速发展，文本识别算法也取得了很大的进展，传统的文本识别算法一般从图像的加工开始，通过二值化，图像增强，倾斜校正等方法进行图像预处理，然后通过版面分析，图像切分，文字分割，字符识别等手段进行文本信息提取。而对于深度学习算法而言，在经过版面分析之后，就会使用一些文本检测网络，如DB-Net来进行文本检测，然后使用字符识别方法。这些不同的检测算法与识别算法，对不同样本的效果也就不一样，所以如何去进行搭配，如何去设计算法，是文本识别技术的重点所在。

在实际生产中，文本识别技术在教育领域的应用最为广泛，如很常见的拍照搜题app，都是由OCR技术对照片进行识别，然后再传入到数据库中进行匹配，这样才能得到相似题型并进行解析。除此之外，文本识别方法还能智能识别试卷中的姓名和学号等个人信息，对于老师阅卷起到了很大的帮助，同时，文本识别方法甚至能对考生的答案进行判断，并智能进行打分操作，节约了大量的批改时间。

如此智能的文本识别系统，就对文本识别算法本身提出了更严格的要求，设计结构化的文本识别算法主要包括了以下几个方面的难点：

(1)对于数学学科而言，大量的公式堆叠，给文本检测造成了极大的干扰，并且部分公式占据了两行空间，若是不进行处理，很有可能会把一行公式识别为两行，造成文本结构的识别错误。同时，占据了两行空间的公式需要进行合并操作，保证文本的顺序不受影响。

(2)对于文本检测部分，必须要保证检测到的文本框只包含单行文字信息，若是检测到多行，就会造成识别的错误，同时，在拍照图片的处理中，还涉及到弯曲文本的识别，以及公式与文字的分开识别，针对这两个问题，就需要进行本文的切分，切分规则的确定也是难点之一。

(3)图像中的表格需要和文字分开进行识别，所以首先需要进行表格的识别，若是使用深度学习实现，对于普通的目标检测网络，无法充分利用表格的空间特征信息，且对于后期的文字提取也毫无帮助，所以需要找到合适的表格检测网络，并能通过图像方法进行表格中文本的识别。图片检测模型参考论文为：CenterNet:Keypoint Triplets forObject Detection，以下简称为CenterNet，CenterNet为目标检测网络的一种，与传统的目标检测网络不同的是，它是基于中心点的检测网络，CenterNet的训练模式采用标准的监督训练，仅通过前向传播网络推进得到结果，所以不存在传统目标检测网络所需要的后处理过程，保证了本发明中图像检测的速度。

(4)中英文识别模型，参考论文为An End-to-End Trainable Neural Networkfor Image-based Sequence Recognition and Its Application to Scene TextRecognition，以下简称为CRNN，网络结构一共包括三个部分，分别是特征提取部分-CNN，序列预测部分-RNN，翻译部分-CTC，首先进行图片的缩放，将高缩放为32，然后使用CNN进行特征提取，得到512*1*w的特征图，从此特征图中提取特征向量并放入双向 LSTM网络中进行训练，得到后验概率矩阵，对结果进行编码，然后使用CTC解码得到文本信息。

(5)公式的识别模块参考论文为What You Get Is What You See:A VisualMarkup Decompiler，以下简称为WYGIWYS，区别于非结构化文本的识别，它不仅需要识别出字符，并且还要找到字符之间的相对位置、字符的大小以及公式中的Latex数学符号，公式的识别网络模型在前期同样经过CNN进行特征提取，然后使用RNN对特征图进行按行编码，对编码使用视觉注意机制进行处理然后得到输出，视觉注意机制就是一个解码的过程，解码的模型也是RNN，从编码中产生的上下文信息向量不断带入到RNN网络中进行解码，然后最后进入一个全连接层输出one-hot向量，最终输出为具有结构化文本的Latex序列，组合得到所需的公式文本信息。

发明内容

本发明针对含有公式图表等结构性部分的文本，提出了一种结构化文本识别方法及系统，不仅能应用于一般学科的文本识别，在数学学科的识别上也有较好的效果。

一种结构化文本识别方法，步骤如下：

步骤(1)、表格检测与识别：

采用深度学习模型实现对于表格的检测，通过语义分割网络 U-Net预测并找到文档图片中的横竖线，用这些线段来提取图中的表格。然后根据表格切分规则来对其中的文本信息进行提取与合成，再通过表格判断规则进行判断，最终得到去表格图片。

步骤(2)、配图检测：

在前期操作中，除了排除表格的干扰，也需要对配图的位置信息进行提取，以便于后期的文本检测操作中不会受到图片的影响，通过目标检测网络CenterNet网络实现对于配图的检测，获得配图的位置信息即图片坐标信息。

步骤(3)、文本检测：

采用以行为区域寻找识别区域的方法。对于已经去掉了表格的图像而言，在图像中主要包含三个部分：文本行，配图和公式。首先先将去表格图片转换为灰度图，然后使用阈值反二值化方法，将图片中的文本部分的像素值置为255，背景部分置为0。然后，以7*7的核对图像进行膨胀处理，然后按照8连通要求来求取膨胀后的图的连通区域，求得连通区域的外接矩形属性，获得图像中的近似文本行，即获得近似文本行图像。对近似文本行图像进行下划线去除，对剔除下划线的文本行图像按文本框属性进行两次水平和垂直方向合并操作，得到了最终的文本框。

步骤(4)、文本分割与合并：

首先对提取到的文本框获取文本区域中点的轨迹，根据文本的中点轨迹来进行文本框的切分，完成对弯曲文本的切分，保证了文本框的贴合性。然后对切分后的文本进行垂直方向的合并操作，按照具有上下结构的公式文本特点进行合并，解决公式的检测问题。

步骤(5)、文本识别：

首先对步骤4最终得到的文本行，将带有双行公式的文本行分割成了上下两行包括中间横线的多个文本框，对其进行水平方向的合并操作保证公式的连贯性，通过文本框图像的宽高属性找到横线对应的文本框并删除，完成一个双行公式到两个单行公式的转换，然后将其位置标号并储存。对于单行公式与单行文本的分割，则采用另一种方法：首先对文本标号，然后使用中英文识别模型进行识别，根据识别结果对单行公式文本行进行遍历分割，按照遍历的方式对识别结果中的每个字符进行判断，找到中文位置、数字位置、不是中英文的位置，然后根据这些位置信息判断出中文字符位置间的非中文区域，排除掉长度小于2的单个变量的情况，统计所有的公式位置并储存，最后将所有的公式文本与中英文文本分别放入WYGIWYS模型以及CRNN模型中进行识别操作。

步骤(6)、后处理：

将所有的表格坐标信息，图片坐标信息，中英文文本信息与坐标信息，公式文本信息与坐标信息结合，最终得到结构化文本信息。

步骤(1)所述的切分规则以及表格判断规则：

所述的切分规则，首先分别判断每对横线与竖线之间是否相交，得到一个m*n的矩阵，m为横线个数，n为竖线个数，以此进行表格结构分析，1代表相交，0代表没有相交，所以对于矩阵中的1而言，能够计算出对应的交点坐标，同时，根据此矩阵进行表格中单元格的标记，并储存单元格Box信息。

在进行表格切分之后，还需要对表格进行判断，认定为表格有两个条件，条件一为横线与竖线必须有三条以上，条件二为左右两端线段长距离近似等于，水平线段的最大X坐标值和最小X坐标值之差，上下两端线段的距离近似等于垂直方向的最大Y坐标值和最小Y坐标值之差。

步骤(3)所述的膨胀操作具体如下：

膨胀操作采用OpenCV中的dilate方法，目的是为了将字体加粗，使一段不连通的文本行变得连通，方便后续的Box提取。第一次膨胀使用的kernel为7*7，第二次的kernel为15*1。

步骤(3)所述的文本行中下划线去除规则具体如下：

首先，根据外接矩形属性得到近似文本行长宽值，通过长宽值得到近似平均文本行高度MidianHeight，遍历所有外接矩形，筛选外接矩形的高度小于0.1*MidianHeight得到目标外接矩形，在目标外接矩形中通过LSD直线检测得到边缘线段，将这些边缘线段所在图像中的的像素点置为0，得到去除直线的图像重新使用反二值化、膨胀和求连通域方法得到去除线段的文本行。

步骤(3)所述的合并具体如下：

步骤(3)中一共经历了两次水平合并和垂直合并，第一次水平和垂直方向合并，在同一行文本行中，由于标点符号的分割导致一段文本提取连通区域时提取到了两段，所以按照Box的坐标特征将其合并为一行同时，模糊的字体会导致单行文本识别为两行，所以进行了垂直合并，首先对文本框按照X轴方向进行从小到大排序，将排序好的外接矩形框两两合并，如果前一个外接矩形框X轴的最大值和后一个外接矩形框的最小值小于0.5*MidianHeight，将两个矩形框进行合并，以此类推。之后再从垂直方向合并一次，首先对文本框按照Y轴方向进行从小到大排序，将排序好的外接矩形框两两合并，如果前一个外接矩形框Y轴的最大值和后一个外接矩形框的最小值小于 0.3*MidianHeight，将两个矩形框进行合并，以此类推，最后得到一次目标旋转矩形框，对于包含公式的文本行，第二次垂直合并的目的是将重复框去除。经过上述处理之后的文本框，会漏检掉公式中的小字符，需要再对在同一列的框进行一次水平方向的合并判断，首先对经过一次目标旋转矩形框的角度进行计算，如果两个目标旋转矩形框距离在0.3*MidianHeight，且角度偏差在5°以内，则进行合并，最后再经过方向垂直方向判断，如果两个文本的目标旋转矩形的外接矩形框的IOU大于最小的外接矩形框的外接矩形面积的0.2则进行合并，得到了最终的文本框。

步骤(4)所述的文本区域中点轨迹：

对于步骤(3)最终提取到的文本框进行反二值化、膨胀、求连通区域的方法找到文本行对应的轮廓，根据轮廓坐标求得所有横坐标对应的纵坐标中点值，得到一组文本区域中心的轨迹坐标，将这轨迹线按横坐标平均切分为设定段数，使用最小二乘法拟合切分后的曲线，判断拟合的曲线与真实值之间的误差关系，若误差大于设定阈值，则设置该点为切分点，否则分析下一个点。

步骤(4)所述的切分规则：

按照文本区域中点轨迹横坐标进行切分。

步骤(4)所述的垂直方向合并规则：

检测后一个box的下界与前一个box的上界，若差小于文本框标准高的三分之一，则将两个Box进行上下合并，要求合并后的矩形的旋转角度小于合并前的矩形。

步骤(5)所述的双行文本的分割规则如下：

首先对文本框进行分割，通过膨胀求连通区域的方式将文本框中的内容进行进一步的分割，分割后先进行一次水平方向的合并操作，然后去掉中间的横线干扰，得到双行公式分割结果。

步骤(5)所述的遍历分割即文本行遍历的分割规则如下：

首先对中英文识别模型中CTC解码得到的文本信息，分析文本信息，得到每一个字符在文本信息中第一次出现的位置，并进行标号，对每一个字符进行判断，只对中文字符做序号连接，得到中文区域的起始序列号和结束序列号，根据文本图像的宽度除以文本信息的序列长度，得到每一个文本字符对应的图像宽度，然后乘以中文区域的序列号，得到中文区域在图像中的大致位置信息CNBox，再将非公式文本行图像处理中的字符位置Box，将Box与CNBox进行IOU计算，如果IOU大于0，并合并组成新的CNBox，再送入到CRNN网络中进行识别，如果其中有英文字符，则将新的CNBox缩减有英文字符一端的一个字符位置，直至没有英文字符出现，最终得到中文区域，其他位置均为英文或者公式区域，最终得到单行公式文本行中的公式和英文位置信息。

本发明有益效果如下：

近年来，文本识别的应用愈发广泛，各种针对性的文本识别算法层出不穷，针对目前市面上相对较少的学科科目文本识别算法，本发明提出了一种结构化文本识别方法及系统，不仅具有单行文本的识别效果，还能够进行多层次的文本分析以及结构性的文本组合。

同时，本发明针对文本的检测与识别难点，提出了具有针对性的解决方案。对于文本弯曲问题，提出了按中点轨迹分割的方案，以文本斜率为依据进行切分，实现了弯曲文本的分割。对于文本识别中的公式的分割难点，提出了公式的合并与分割策略。对于图像中表格的检测方法，提出了横竖线检测来进行表格切分与识别的方法。

附图说明

图1为本发明实施例示意图；

图2为本发明实施例切分示意图；

图3为本发明实施例合并模式示意图；

图4为本发明实施例双行文本分割流程图。

具体实施方式

以下结合附图与实施例对本发明技术方案进行进一步描述。

一种结构化文本识别方法，步骤如下：

步骤(1)、表格检测与识别：

在一般的文档图片中，除了文字之外，还存在着很多表格与图片，如果直接对文档图片进行文本检测，可能会将图片和表格中的文本误识别，并且对识别后的排版会有很大影响，所以在文本识别之前，将图表单独拿出来，避免对后面的文本行检测造成干扰。表格有专门的识别手段，而图片则完全不需要识别，只需要找到其准确位置就可以了。采用深度学习模型实现对于表格的检测，通过语义分割网络U-Net 预测并找到文档图片中的横竖线，用这些线段来提取图中的表格。然后根据表格切分规则来对其中的文本信息进行提取与合成，再通过表格判断规则进行判断，最终得到去表格图片。

步骤(2)、配图检测：

在前期操作中，除了排除表格的干扰，也需要对配图的位置信息进行提取，以便于后期的文本检测操作中不会受到图片的影响，通过目标检测网络CenterNet网络实现对于配图的检测，获得配图的位置信息即图片坐标信息。CenterNet区别于其他传统的目标检测网络，它通过关键点估计找到目标中心点，并用回归的方式得到目标其他属性，更简单，更快，更精确。

步骤(3)、文本检测：

文本行检测是识别中比较重要的部分，其检测的准确性直接影响到后期识别的效果，此部分采用以行为区域寻找识别区域的方法。对于已经去掉了表格的图像而言，在图像中主要包含三个部分：文本行，配图和公式。首先先将去表格图片转换为灰度图，然后使用阈值反二值化方法，将图片中的文本部分的像素值置为255，背景部分置为0。然后，以7*7的核对图像进行膨胀处理，然后按照8连通要求来求取膨胀后的图的连通区域，求得连通区域的外接矩形属性，获得图像中的近似文本行，即获得近似文本行图像。对近似文本行图像进行下划线去除，对剔除下划线的文本行图像按文本框属性进行两次水平和垂直方向合并操作，得到了最终的文本框。

步骤(4)、文本分割与合并：

针对文本中存在的弯曲文本和公式文本，上一步中的处理显然不会准确的识别这种情况，弯曲文本在只用一行文本框的情况下，无法对文本进行贴合的框选，影响了后续的识别操作，而对于公式文本而言，有的公式文本会占据两行空间，所以涉及到文本的合并操作，以保证不会把单个公式切分成上下两块。针对这两个问题，在步骤3的基础上，开始进行文本的分割与合并操作，首先对提取到的文本框获取文本区域中点的轨迹，根据文本的中点轨迹来进行文本框的切分，完成对弯曲文本的切分，保证了文本框的贴合性。然后对切分后的文本进行垂直方向的合并操作，按照具有上下结构的公式文本特点进行合并，解决公式的检测问题。

步骤(5)、文本识别：

文本的识别方法需要区分为中英文的文本识别方法以及公式的文本识别方法，所以在识别的前期还需要对上一步中提取的box进行进一步的分割。首先对步骤4最终得到的文本行，将带有双行公式的文本行分割成了上下两行包括中间横线的多个文本框，对其进行水平方向的合并操作保证公式的连贯性，通过文本框图像的宽高属性找到横线对应的文本框并删除，完成一个双行公式到两个单行公式的转换，然后将其位置标号并储存。对于单行公式与单行文本的分割，则采用另一种方法：首先对文本标号，然后使用中英文识别模型进行识别，根据识别结果对单行公式文本行进行遍历分割，按照遍历的方式对识别结果中的每个字符进行判断，找到中文位置、数字位置、不是中英文的位置，然后根据这些位置信息判断出中文字符位置间的非中文区域，排除掉长度小于2的单个变量的情况，统计所有的公式位置并储存，最后将所有的公式文本与中英文文本分别放入WYGIWYS模型以及CRNN模型中进行识别操作。

步骤(6)、后处理：

步骤(1)所述的切分规则以及表格判断规则：

所述的切分规则，首先分别判断每对横线与竖线之间是否相交，得到一个m*n的矩阵，m为横线个数，n为竖线个数，以此进行表格结构分析，如图2所示，图2矩阵中，1代表相交，0代表没有相交，所以对于矩阵中的1而言，能够计算出对应的交点坐标，同时，根据此矩阵进行表格中单元格的标记，并储存单元格Box信息。

步骤(3)所述的膨胀操作具体如下：

膨胀操作采用OpenCV中的dilate方法，目的是为了将字体加粗，使一段不连通的文本行变得连通，方便后续的Box提取。第一次膨胀使用的kernel为7*7，第二次的kernel为15*1，原因是第一次的膨胀是为了提取图像中的干扰因素，如边缘线等，第二次的膨胀考虑到文字段的一般形态特征，所以使用横框进行膨胀。

步骤(3)所述的文本行中下划线去除规则具体如下：

步骤(3)所述的合并具体如下：

步骤(4)所述的文本区域中点轨迹：

所述的设定段数为4-5端。

步骤(4)所述的切分规则：

按照文本区域中点轨迹横坐标进行切分。

步骤(4)所述的垂直方向合并规则：

检测后一个box的下界与前一个box的上界，若差小于文本框标准高的三分之一，则将两个Box进行上下合并，要求合并后的矩形的旋转角度小于合并前的矩形。具体的合并模式如图3所示。

步骤(5)所述的双行文本的分割规则如下：

首先对文本框进行分割，通过膨胀求连通区域的方式将文本框中的内容进行进一步的分割，分割后先进行一次水平方向的合并操作，然后去掉中间的横线干扰，得到双行公式分割结果。具体流程如图4 所示。

步骤(5)所述的遍历分割即文本行遍历的分割规则如下：

一种结构化文本识别系统，包括表格检测与识别模块、配图检测模块、文本检测模块、文本分割与合并模块、文本识别模块以及后处理模块。

所述的表格检测与识别模块采用深度学习模型实现对于表格的检测，通过语义分割网络U-Net预测并找到文档图片中的横竖线，用这些线段来提取图中的表格。然后根据表格切分规则来对其中的文本信息进行提取与合成，再通过表格判断规则进行判断，最终得到去表格图片。

所述的配图检测模块通过目标检测网络CenterNet网络实现对于配图的检测，获得配图的位置信息即图片坐标信息。

所述的文本检测模块采用以行为区域寻找识别区域的方法进行文本检测。首先先将去表格图片转换为灰度图，然后使用阈值反二值化方法，将图片中的文本部分的像素值置为255，背景部分置为0。然后，以7*7的核对图像进行膨胀处理，然后按照8连通要求来求取膨胀后的图的连通区域，求得连通区域的外接矩形属性，获得图像中的近似文本行，即获得近似文本行图像。对近似文本行图像进行下划线去除，对剔除下划线的文本行图像按文本框属性进行两次水平和垂直方向合并操作，得到了最终的文本框。

所述的文本分割与合并模块用于对文本检测模块检测到的文本框进行分割与合并，首先对提取到的文本框获取文本区域中点的轨迹，根据文本的中点轨迹来进行文本框的切分，完成对弯曲文本的切分，然后对切分后的文本进行垂直方向的合并操作，按照具有上下结构的公式文本特点进行合并。

所述的文本识别模块，采用WYGIWYS模型以及CRNN模型对公式文本与中英文文进行识别操作。

所述的后处理模块用于将所有的表格坐标信息，图片坐标信息，中英文文本信息与坐标信息，公式文本信息与坐标信息结合，最终得到结构化文本信息。

实施例：

如图1所示，本发明具有以下几个步骤：

(1)表格检测与识别：

首先对表格提取结构化信息，找到表格的每一个交点坐标，然后提取出表格中的文本，本文使用的U-Net网络分为的编码部分和解码部分，编码部分采用YOLOV3模型，解码部分采用的是反向YOLOV3 模型，不同点在于最后一层卷积核输出的通道为2，使用的YOLO网络属于目标检测网络，且它的第三代网络在前两代的基础上进行了 Bounding Box的聚类，这恰好适应了直线检测中的目标框长宽比，通过YOLOV3网络进行图像中的横竖线检测，具有良好的识别效果，将横竖线检测问题变为一个二分类问题，针对每个像素点都有两个特征输出，分别是横线的置信度和竖线的置信度，对整幅图像按照以0.5 为标准按照此置信度进行二值化处理，最后求取连通区域得到对应的横线与竖线。

本文使用U-Net网络模型，训练数据为人工标注，一共使用2000 张数据，其中训练数据为1700张，测试数据为300张，数据格式为原图和与原图对应的直线的二值化图像，训练迭代次数为8个epoch， Loss最终收敛0.0012，在测试集上DICE为0.98。

(2)配图检测：

输入任意尺度的图像，使用CenterNet网络进行配图检测，输出图像中配图中心点坐标以及宽高，训练数据为人工标注的图像位置 (x,y,width,height)和原始文本图像，共有10000张数据，其中配图个数共有34210，训练迭代次数为10个epoch，Loss最终收敛0.013，在测试集中的准确率为0.98。

(3)文本行检测、分割：

将图像中的表格位置与图片位置去掉，使用膨胀、求连通域的方式找到文本行，然后根据文本的弯曲度进行文本切分，输出图像中所有的文本框，根据公式的性质对文本框进行合并操作，输出合并后的所有文本框。将合并后的双行文本框设置为公式文本，将其他单行文本放入CRNN中测试，对于得到的结构进行公式判断，输出单行公式文本框坐标信息。

(4)公式识别：

本文使用的是WYGIWYS，使用该论文中模型和方法，进行公式文本识别,特征提取模块使用的是VGG16，该网络结构能够很好的提取文本特征，并使用训练数据集IM2LATEX-100K，训练和测试数据比例分别为7:3，训练10个epoch，Loss最终收敛在0.012，在测试数据集中的准确率为0.9。在本文中，将公式图片输入网络中，输出公式文本Latex结构序列，存放进公式列表。

(5)中英文文本识别：

本文的中英文识别为CRNN网络结构，特征提取CNN使用VGG16，其他模块与论文一致，在印刷体文本数据进行训练和测试。数据采集共有100w张数据，所有数据集中的图像的高度为32，宽度不定长，数据集中的每一张图片对应的文本字符个数为10，在本文中训练数据和测试数据的比例为9:1，训练10个epoch，Loss最终收敛在0.00012，在测试集中的识别准确率为0.995，在本文中使用训练好的CRNN网络对中英文文本进行识别，输出文本信息以及文本对应的Box，存放进中英文文本列表。

(6)后处理

将步骤(1)表格位置信息，步骤(2)配图位置信息，步骤(3) 文本框信息，步骤(5)文本识别结果信息，文本识别结果结合文本框的位置信息进行放置，得到文本行识别信息，并对文本行按照文本行的位置上下排序，表格位置信息结合文本识别结果得到表格识别信息，结合配图位置信息在原图提取配图，并将这些信息进行组合，最后得到结构化的文本信息。

Claims

1.一种结构化文本识别方法，其特征在于，步骤如下：

步骤(1)、表格检测与识别：

采用深度学习模型实现对于表格的检测，通过语义分割网络U-Net预测并找到文档图片中的横竖线，用这些线段来提取图中的表格；然后根据表格切分规则来对其中的文本信息进行提取与合成，再通过表格判断规则进行判断，最终得到去表格图片；

步骤(2)、配图检测：

在前期操作中，除了排除表格的干扰，也需要对配图的位置信息进行提取，以便于后期的文本检测操作中不会受到图片的影响，通过目标检测网络CenterNet网络实现对于配图的检测，获得配图的位置信息即图片坐标信息；

步骤(3)、文本检测：

采用以行为区域寻找识别区域的方法；对于已经去掉了表格的图像而言，在图像中主要包含三个部分：文本行，配图和公式；首先先将去表格图片转换为灰度图，然后使用阈值反二值化方法，将图片中的文本部分的像素值置为255，背景部分置为0；然后，以7*7的核对图像进行膨胀处理，然后按照8连通要求来求取膨胀后的图的连通区域，求得连通区域的外接矩形属性，获得图像中的近似文本行，即获得近似文本行图像；对近似文本行图像进行下划线去除，对剔除下划线的文本行图像按文本框属性进行两次水平和垂直方向合并操作，得到了最终的文本框；

步骤(4)、文本分割与合并：

首先对提取到的文本框获取文本区域中点的轨迹，根据文本的中点轨迹来进行文本框的切分，完成对弯曲文本的切分，保证了文本框的贴合性；然后对切分后的文本进行垂直方向的合并操作，按照具有上下结构的公式文本特点进行合并，解决公式的检测问题；

步骤(5)、文本识别：

首先对步骤4最终得到的文本行，将带有双行公式的文本行分割成了上下两行包括中间横线的多个文本框，对其进行水平方向的合并操作保证公式的连贯性，通过文本框图像的宽高属性找到横线对应的文本框并删除，完成一个双行公式到两个单行公式的转换，然后将其位置标号并储存；对于单行公式与单行文本的分割，则采用另一种方法：首先对文本标号，然后使用中英文识别模型进行识别，根据识别结果对单行公式文本行进行遍历分割，按照遍历的方式对识别结果中的每个字符进行判断，找到中文位置、数字位置、不是中英文的位置，然后根据这些位置信息判断出中文字符位置间的非中文区域，排除掉长度小于2的单个变量的情况，统计所有的公式位置并储存，最后将所有的公式文本与中英文文本分别放入WYGIWYS模型以及CRNN模型中进行识别操作；

步骤(6)、后处理：

2.根据权利要求1所述的一种结构化文本识别方法，其特征在于，步骤(1)所述的切分规则以及表格判断规则：

所述的切分规则，首先分别判断每对横线与竖线之间是否相交，得到一个m*n的矩阵，m为横线个数，n为竖线个数，以此进行表格结构分析，1代表相交，0代表没有相交，所以对于矩阵中的1而言，能够计算出对应的交点坐标，同时，根据此矩阵进行表格中单元格的标记，并储存单元格Box信息；

3.根据权利要求2所述的一种结构化文本识别方法，其特征在于，步骤(3)所述的膨胀操作具体如下：

膨胀操作采用OpenCV中的dilate方法，目的是为了将字体加粗，使一段不连通的文本行变得连通，方便后续的Box提取；第一次膨胀使用的kernel为7*7，第二次的kernel为15*1。

4.根据权利要求3所述的一种结构化文本识别方法，其特征在于，步骤(3)所述的文本行中下划线去除规则具体如下：

5.根据权利要求4所述的一种结构化文本识别方法，其特征在于，步骤(3)所述的合并具体如下：

步骤(3)中一共经历了两次水平合并和垂直合并，第一次水平和垂直方向合并，在同一行文本行中，由于标点符号的分割导致一段文本提取连通区域时提取到了两段，所以按照Box的坐标特征将其合并为一行同时，模糊的字体会导致单行文本识别为两行，所以进行了垂直合并，首先对文本框按照X轴方向进行从小到大排序，将排序好的外接矩形框两两合并，如果前一个外接矩形框X轴的最大值和后一个外接矩形框的最小值小于0.5*MidianHeight，将两个矩形框进行合并，以此类推；之后再从垂直方向合并一次，首先对文本框按照Y轴方向进行从小到大排序，将排序好的外接矩形框两两合并，如果前一个外接矩形框Y轴的最大值和后一个外接矩形框的最小值小于0.3*MidianHeight，将两个矩形框进行合并，以此类推，最后得到一次目标旋转矩形框，对于包含公式的文本行，第二次垂直合并的目的是将重复框去除；经过上述处理之后的文本框，会漏检掉公式中的小字符，需要再对在同一列的框进行一次水平方向的合并判断，首先对经过一次目标旋转矩形框的角度进行计算，如果两个目标旋转矩形框距离在0.3*MidianHeight，且角度偏差在5°以内，则进行合并，最后再经过方向垂直方向判断，如果两个文本的目标旋转矩形的外接矩形框的IOU大于最小的外接矩形框的外接矩形面积的0.2则进行合并，得到了最终的文本框。

6.根据权利要求5所述的一种结构化文本识别方法，其特征在于，步骤(4)所述的文本区域中点轨迹：

7.根据权利要求6所述的一种结构化文本识别方法，其特征在于，步骤(4)所述的垂直方向合并规则：

8.根据权利要求7所述的一种结构化文本识别方法，其特征在于，步骤(5)所述的双行文本的分割规则如下：

9.根据权利要求8所述的一种结构化文本识别方法，其特征在于，步骤(5)所述的遍历分割即文本行遍历的分割规则如下：

10.一种结构化文本识别系统，其特征在于，包括表格检测与识别模块、配图检测模块、文本检测模块、文本分割与合并模块、文本识别模块以及后处理模块；

所述的表格检测与识别模块采用深度学习模型实现对于表格的检测，通过语义分割网络U-Net预测并找到文档图片中的横竖线，用这些线段来提取图中的表格；然后根据表格切分规则来对其中的文本信息进行提取与合成，再通过表格判断规则进行判断，最终得到去表格图片；

所述的配图检测模块通过目标检测网络CenterNet网络实现对于配图的检测，获得配图的位置信息即图片坐标信息；

所述的文本检测模块采用以行为区域寻找识别区域的方法进行文本检测；首先先将去表格图片转换为灰度图，然后使用阈值反二值化方法，将图片中的文本部分的像素值置为255，背景部分置为0；然后，以7*7的核对图像进行膨胀处理，然后按照8连通要求来求取膨胀后的图的连通区域，求得连通区域的外接矩形属性，获得图像中的近似文本行，即获得近似文本行图像；对近似文本行图像进行下划线去除，对剔除下划线的文本行图像按文本框属性进行两次水平和垂直方向合并操作，得到了最终的文本框；

所述的文本分割与合并模块用于对文本检测模块检测到的文本框进行分割与合并，首先对提取到的文本框获取文本区域中点的轨迹，根据文本的中点轨迹来进行文本框的切分，完成对弯曲文本的切分，然后对切分后的文本进行垂直方向的合并操作，按照具有上下结构的公式文本特点进行合并；

所述的文本识别模块，采用WYGIWYS模型以及CRNN模型对公式文本与中英文文进行识别操作；