CN114581928A - 一种表格识别方法及系统 - Google Patents
一种表格识别方法及系统 Download PDFInfo
- Publication number
- CN114581928A CN114581928A CN202111632890.4A CN202111632890A CN114581928A CN 114581928 A CN114581928 A CN 114581928A CN 202111632890 A CN202111632890 A CN 202111632890A CN 114581928 A CN114581928 A CN 114581928A
- Authority
- CN
- China
- Prior art keywords
- image
- enhanced
- cells
- form image
- line segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000001514 detection method Methods 0.000 claims abstract description 91
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000013138 pruning Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000013526 transfer learning Methods 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000013461 design Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000002829 reductive effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004816 latex Substances 0.000 description 1
- 229920000126 latex Polymers 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/183—Tabulation, i.e. one-dimensional positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及数字图像处理技术领域,其目的在于提供一种表格识别方法及系统。其中的表格识别方法包括:获取文档图像,并从文档图像中,提取出仅包含表格的图像区域,得到表格图像;对表格图像进行预处理,得到预处理后表格图像;对预处理后表格图像中的表格线进行信号增强,得到增强后表格图像;提取增强后表格图像中表格内各交点的点集,并根据点集得到增强后表格图像的表格结构;对增强后表格图像进行文本检测,得到文本检测结果;对文本检测结果进行文字识别,得到文字识别结果;根据表格结构及文字识别结果,生成电子表格。本发明可针对版面复杂的保单等文档中的表格进行检测、识别和还原,便于对复杂文档进行表格自动录入和归档管理。
Description
技术领域
本发明涉及数字图像处理技术领域,特别是涉及一种表格识别方法及系统。
背景技术
自动化办公是现代企业必不可少的进程,尤其是在金融行业中,有大量的文档需要进行整理、录入和归档等操作,如人工录入,会耗费大量人力成本和时间成本。
在图像处理领域,一直都有和文档识别相关的研究工作,尤其是随着深度学习在计算机视觉的发展,文档识别技术取得了很大的进展。
然而,如保险单据等文档的版式非常复杂,其通常带有多个表格,而且不同保险公司和险种的排版也会大相径庭,在使用现有技术对此类文档的识别过程中,发明人发现现有技术至少存在如下问题,导致对文档中表格的自动录入和归档的效果无法达到用户要求:1)对版面复杂的文档无法分析;2)结构复杂的表格解析困难;3)若基于模板匹配的方法,泛化性能极差。
发明内容
本发明旨在至少在一定程度上解决上述技术问题,本发明提供了一种表格识别方法及系统。
本发明采用的技术方案是:
第一方面,本发明提供了一种表格识别方法,包括:
获取文档图像,并从所述文档图像中,提取出仅包含表格的图像区域,得到表格图像;
对所述表格图像进行预处理,得到预处理后表格图像;
对所述预处理后表格图像中的表格线进行信号增强,得到增强后表格图像;
提取所述增强后表格图像中表格内各交点的点集,并根据所述点集得到增强后表格图像的表格结构;
对所述增强后表格图像进行文本检测,得到文本检测结果;
对所述文本检测结果进行文字识别,得到文字识别结果;
根据所述表格结构及所述文字识别结果,生成电子表格。
本发明可针对版面复杂的保单等文档中的表格进行检测、识别和还原,便于对如保险单据等复杂文档进行表格自动录入和归档管理,解决了保单等文档中因类型多样、版面复杂而造成的表格识别困难的问题,同时可提高对保单等复杂文档中表格结构和内容识别的准确性,相对于现有技术,本发明降低了开发训练的难度,提升了检测识别速度,同时提高了对文档中表格识别的通用性和稳定性。
在一个可能的设计中,从所述文档图像中,提取出仅包含表格的图像区域,得到表格图像,包括:
构建目标检测模型;
获取样本集,并将样本集导入所述目标检测模型中,对目标检测模型进行多尺度训练,得到初次训练后目标检测模型;其中,所述样本集中样本包括含有表格的文档图像;
使用剪枝技术,对初次训练后目标检测模型进行简化,得到简化后目标检测模型;
基于迁移学习,对所述样本集进行标注,得到标注信息;
将标注信息输入简化后目标检测模型中,对简化后目标检测模型进行再次训练,得到最终训练后目标检测模型;
将所述文档图像输入最终训练后目标检测模型,得到表格图像。
在一个可能的设计中,所述目标检测模型采用FCOS模型。
在一个可能的设计中,对所述表格图像进行预处理,得到预处理后表格图像,包括:
将所述表格图像转化为灰度图像,再计算所述灰度图像的直方图,对所述直方图进行统计分析,得到所述灰度图像中背景像素的灰度平均值及灰度值范围;
对所述直方图的背景像素点进行过滤,得到过滤后直方图,再遍历所述直方图中剩下的目标像素点及其灰度值,得到所述目标像素点之间的最大类间方差对应的灰度值;
将所述最大类间方差对应的灰度值作为阈值,对所述表格图像进行二值化处理,得到预处理后表格图像。
在一个可能的设计中,对所述直方图的背景像素点进行过滤,得到过滤后直方图后,所述表格识别方法还包括:
将过滤后直方图导入训练后ESRGAN模型中,对所述灰度图像进行超分辨率转换。
在一个可能的设计中,对所述表格图像进行二值化处理后,所述表格识别方法还包括:
基于霍夫变换,得到二值化处理后表格图像中的第一线段集合;
计算所述第一线段集合的倾斜角平均值;
过滤所述第一线段集合中偏离倾斜角平均值的第二线段,得到第二线段集合;
获取第二线段集合的倾斜角平均值,得到所述二值化处理后表格图像的倾斜角度;
根据所述二值化处理后表格图像的倾斜角度,基于平面仿射变换,对所述二值化处理后表格图像进行校正。
在一个可能的设计中,提取所述增强后表格图像中表格内各交点的点集,并根据所述点集得到增强后表格图像的表格结构,包括:
通过矩阵相交的方法,提取述增强后表格图像中表格内每个交点的点集;
根据所述点集和增强后表格图像,确定所述增强后表格图像中所有单元格的结构;
根据所有单元格的结构,得到所述增强后表格图像的表格结构。
在一个可能的设计中,根据所述点集和增强后表格图像,确定所述增强后表格图像中所有单元格的结构,包括:
构建一个单元格类,其中单元格类的属性包括单元格的左上角坐标、单元格的右下角坐标及归属交点;
对增强后表格图像中表格内所有交点的点集进行筛选,从每个点集中选出唯一的交点,再分别对所有交点的横纵坐标进行排序,得到排序后交点;
根据所述排序后交点的横纵坐标,分别聚类出所有可能的单元格的长度和宽度;
根据所述增强后表格图像构建一个完整表格,所述完整表格不存在合并单元格;
对于完整表格中任意两个相邻的单元格的左上角坐标连线,按两个交点之间逐个像素构建垂直于两交点连线,且长度为预设值的第三线段,得到第三线段集合;
将所述增强后表格图像作为参考对象,判断所述第三线段集合中,是否存在至少一条第三线段的像素值之和为0,若是,则判定所述二值化处理后表格图像中与该第三线段对应的两个单元格为合并单元格,再修改该两个单元格中后一单元格的类属性,使其与前一个单元格归属于同一个交点,若否,则判定所述二值化处理后表格图像中与该第三线段对应的两个单元格为独立单元格;
遍历所述增强后表格图像中的所有单元格,直到得到所述增强后表格图像中所有单元格的结构。
在一个可能的设计中,对所述增强后表格图像进行文本检测,得到文本检测结果,包括:
基于训练后DB模型,对所述增强后表格图像进行文本检测,得到文本检测结果。
第二方面,本发明提供了一种表格识别系统,用于实现如上述任一项所述的表格识别方法;所述表格识别系统包括:
表格图像提取模块,用于获取文档图像,并从所述文档图像中,提取出仅包含表格的图像区域,得到表格图像;
表格图像预处理模块,通信连接于所述表格图像提取模块,用于对所述表格图像进行预处理,得到预处理后表格图像;
表格图像增强模块,通信连接于所述图像预处理模块,用于对所述预处理后表格图像中的表格线进行信号增强,得到增强后表格图像;
表格结构识别模块,通信连接于所述表格图像增强模块,用于提取所述增强后表格图像中表格内各交点的点集,并根据所述点集得到增强后表格图像的表格结构;
文本检测模块,通信连接于所述表格图像增强模块,用于对所述增强后表格图像进行文本检测,得到文本检测结果;
文字识别模块,通信连接于所述文本检测模块,用于对所述文本检测结果进行文字识别,得到文字识别结果;
电子表格生成模块,分别通信连接于所述表格结构识别模块和所述文字识别模块,用于根据所述表格结构及所述文字识别结果,生成电子表格。
附图说明
图1是本发明中一种表格识别方法的结构示意图;
图2是本发明中对目标检测模型进行标签匹配时的结构示意图;
图3是本发明中输入的文档图像的示例图(敏感信息经过处理);
图4是本发明中待进行预处理的表格图像的示例图(敏感信息经过处理);
图5是本发明中转化后的灰度图像的示例图;
图6是本发明中预处理后表格图像的示例图;
图7是本发明中增强后表格图像的示例图;
图8是本发明中生成的电子表格的示例图;
图9是本发明中表格识别系统的模块框图。
具体实施方式
下面结合附图及具体实施例来对本发明作进一步阐述。
应当理解,尽管本文可能使用术语第一、第二等等来描述各种单元,但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。
应当理解,还应当注意到在一些备选实施例中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
实施例1:
本实施例第一方面提供了一种表格识别方法及系统,可以但不限于由具有一定计算资源的计算机设备或虚拟机执行,例如由个人计算机(Personal Computer,PC,指一种大小、价格和性能适用于个人使用的多用途计算机;台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(Personal digitalassistant,PAD)或可穿戴设备等电子设备执行,或者由虚拟机Hypervisor执行,以便对如保险单据等复杂文档进行表格自动录入和归档管理。
如图1所示,一种表格识别方法及系统,可以但不限于包括有如下步骤:
S1.获取文档图像,并从所述文档图像中,提取出仅包含表格的图像区域,得到表格图像;本实施例中,文档图像可以但不仅限于为PDF、拍摄图像、扫描图等;
步骤S1中,从所述文档图像中,提取出仅包含表格的图像区域,得到表格图像,包括:
S101.构建目标检测模型;需要说明的是,所述目标检测模型可划分为特征提取模块、特征融合模块和分类检测模块,分别用以对接收的数据进行特征提取、特征融合及分类检测操作。
现有技术中,针对版面复杂的文档,会有大量的冗余信息和噪声干扰项,使用传统图像处理技术获取文档中的表格位置非常不稳定,不利于获取表格图像,为解决该技术问题,本实施例作出以下改进:所述目标检测模型采用FCOS 模型(Fully ConvolutionalOne-Stage Object Detection,全卷积单阶段的目标检测模型)。需要说明的是,通过采用FCOS模型,使用FCOS检测方法,可以大大提高标个位置检测的准确性;同时,FCOS检测方法为无锚框的检测方法,训练时间和开发难度都大幅减少,还可以减少训练参数和加快推理速度,并极大地减少需要训练的回归对象的数量,同时泛化性能更强。
S102.获取样本集,并将样本集导入所述目标检测模型中,对目标检测模型进行多尺度训练,得到初次训练后目标检测模型;其中,所述样本集中样本包括含有表格的文档图像;本实施例中,样本集采用开源的TableBank数据集,具体地,TableBank数据集为基于图像的表格检测和识别数据集,其是基于 Internet上的Word和Latex文档并利用新颖的弱监督机制来构建的,总共包含417234个高质量标记的表格以及它们在各个领域中的原始文档。应当理解的是,对目标检测模型进行多尺度训练后,只保留一种尺度的特征图。
本实施例中,对目标检测模型进行多尺度训练时,包括:得到多种不同尺度的特征图,再在不同尺度的特征图中匹配回归对象和真实标签的对应关系,以便实现特征提取和整合,并获取最终的特征向量。本实施例中,不同尺度的特征图设置为5种,多种不同尺度的特征图为将文档图像输入目标检测模型中的特征融合模块进行处理得到。在不同尺度的特征图中匹配回归对象和真实标签的对应关系时,如图2所示为标签匹配时的结构示意图,中侧图为8*8的特征图,其上每一像素点都按比例对应于原图上一块区域;原图上每一小块区域分别作为一个回归对象。每个回归对象与真实标签框进行位置比较,回归对象包含在真实标签框内的保留,否则去除。如图2中左侧图,第二行第四列的一小块区域A包含在一个真实标签内,而第三行第二列的一小块区域不包含于任何真实标签内,因此,A作为有效回归对象保留,而B则去除。更具体地,在本实施例中,构建候选回归对象的角点坐标的矩阵,构建真实标签框的角点坐标矩阵,利用矩阵减法,以便快速筛选有效回归对象。
本实施例中,对每个尺度特征图都可设定一个基于经验的比例尺寸;对于单一尺度的特征图,若真实标签框占原图的比例与该特征图对应的比例尺寸不匹配,则该特征图上的回归对象不需要关注该真实标签框。
匹配回归对象和真实标签的对应关系后,在任意单一尺度特征图内,仍可能出现一个回归对象匹配到多个真实标签框的情况,此时称回归对象为模糊样本。本实施例通过选取面积较小的真实标签框和这个模糊样本配对,作为这个模糊样本的回归目标,从而使得本实施例可以过滤掉绝大部分的候选回归对象,减少训练难度,加快推理速度。
S103.使用剪枝技术,对初次训练后目标检测模型进行简化,得到简化后目标检测模型;需要说明的是,本实施例使用剪枝技术,可对模型进行简化,适用于由于实际场景中,输入的保单等文档的大小整体差异较小的情况。
S104.基于迁移学习,对所述样本集进行标注,得到标注信息;需要说明的是,本实施例中,基于迁移学习对所述样本集进行标注,可降低模型训练前期的人工标注任务难度。应当理解的是,所述样本集的标注信息为人工对输入的保单等文档进行标注得到的。
S105.将标注信息输入简化后目标检测模型中,对简化后目标检测模型进行再次训练,得到最终训练后目标检测模型;
S106.将所述文档图像输入最终训练后目标检测模型,得到表格图像。如图3所示,为输入最终训练后目标检测模型中的文档图像。
S2.对所述表格图像进行预处理,得到预处理后表格图像;需要说明的是,预处理用于去除所述表格图像中如背景水印、落款红印章等噪音和干扰项,并对所述表格图像进行倾斜角校正等处理,以便得到清晰的表格图像;
当文档背景复杂(如背景颜色各异,水印颜色种类多)时,现有技术中,对所述表格图像进行预处理时,通常通过图像二值化的方法区别前景图像和背景水印等,然而,如图4和图5所示,当背景水印和背景之间的差异较大时,直接对表格图像进行二值化等预处理的效果非常差,导致很难同时区分出前景、背景和背景水印,原因是原始算法会把背景水印归类到前景的类别,从而无法达到区分前景的目的。为解决现有技术的上述问题,本实施例进一步作出以下改进:对所述表格图像进行预处理,得到预处理后表格图像,包括:
S201.将所述表格图像转化为灰度图像,再计算所述灰度图像的直方图,由于背景是图片中占比最大的部分,通过对所述直方图进行统计分析,可得到所述灰度图像中背景像素的灰度平均值及灰度值范围;本实施例中,待进行预处理的表格图像如图4所示,转化后的灰度图像如图5所示;
S202.对所述直方图的背景像素点进行过滤,得到过滤后直方图;
现有技术中,在过滤背景以及背景水印时,难免会对灰度图像造成轻微的信息损失,若输入的原始图片像素过低,并且在后续的检验过程中发现文字识别的置信度或准确率普遍较低时,会造成过滤后直方图清晰度过低。为解决该技术问题,本实施例中,对所述直方图的背景像素点进行过滤,得到过滤后直方图后,所述表格识别方法还包括:
S203.将过滤后直方图导入训练后ESRGAN(Enhanced Super-ResolutionGenerative Adversarial Networks,增强型超分辨率生成对抗网络)模型中,对低分辨率的所述灰度图像进行超分辨率转换。由此可对所述表格图像中的表格线及表格内容模糊的区域进行一定程度的修复,从而提高后续的表格识别和文字识别的准确率和稳定性。
本实施例中,训练后ESRGAN模型的获取流程如下:
构建ESRGAN模型;
获取一批表格图像,每个表格图像均包含一张高分辨率图片和一张低分辨率图片,其中,低分辨率图片是由高分辨率图片通过下采样而获得;
将该批表格图像输入到所述ESRGAN模型中进行训练,得到训练后ESRGAN 模型。
S204.遍历所述直方图中剩下的目标像素点及其灰度值,得到所述目标像素点之间的最大类间方差对应的灰度值;本实施例中,所述直方图中剩下的目标像素点及其灰度值,即所述直方图除去所述过滤后直方图后剩下的目标像素点及其灰度值;
S205.将所述最大类间方差对应的灰度值作为阈值,对所述表格图像进行二值化处理;
需要说明的是,二值化处理时,可针对表格横线,根据图像尺寸,使用相应尺度的形态学内核,经过二值图像的腐蚀膨胀操作,把表格竖线过滤掉,只保留表格中的横线。本实施例中,对所述表格图像进行二值化处理后,所述表格识别方法还包括:
S206.基于霍夫变换,得到二值化处理后表格图像中的第一线段集合;
S207.计算所述第一线段集合的倾斜角平均值;
S208.过滤所述第一线段集合中偏离倾斜角平均值的第二线段,得到第二线段集合;
S209.获取第二线段集合的倾斜角平均值,得到所述二值化处理后表格图像的倾斜角度;
S210.根据所述二值化处理后表格图像的倾斜角度,基于平面仿射变换,对所述二值化处理后表格图像进行校正;
需要说明的是,上述流程可实现对所述二值化处理后表格图像的倾斜校正,从而可实现对表格图像空间域的调整。
S211.得到预处理后表格图像,本实施例中,预处理后表格图像如图6所示。需要说明的是,预处理后表格图像可有效区分出前景图像及其他图像(其他图像包括背景、背景水印和其他噪音数据)。
现有技术中的大津算法通常通过穷举搜索,计算出使类内方差最小同时类间方差最大的阈值,本实施例通过改进大津阈值法,可实现阈值的自适应计算,可以适应不同公司或险种的保单等文档,避免使用预设模板,可稳定地过滤掉背景以及背景水印(包括红印章等),后续表格线提取的稳定性更高。
S3.对所述预处理后表格图像中的表格线进行信号增强,得到增强后表格图像;需要说明的是,对表格线进行信号增强时,可以采用传统的数字图像处理技术,包括但不限于形态学图像处理技术、霍夫变换处理技术等,此处不予限制;本实施例中,增强后表格图像如图7所示;
S4.提取所述增强后表格图像中表格内各交点的点集,并根据所述点集得到增强后表格图像的表格结构;
本实施例中,提取所述增强后表格图像中表格内各交点的点集,并根据所述点集得到增强后表格图像的表格结构,包括:
S401.通过矩阵相交的方法,提取述增强后表格图像中表格内每个交点的点集;对比传统的先计算拟合直线,再通过数学公式计算横竖线交点的方法,本实施例中,矩阵相交的方法可大大降低点集计算及提取的复杂度;
S402.根据所述点集和增强后表格图像,确定所述增强后表格图像中所有单元格的结构;
本实施例中,根据所述点集和增强后表格图像,确定所述增强后表格图像中所有单元格的结构,包括:
S4021.构建一个单元格类,其中单元格类的属性包括单元格的左上角坐标、单元格的右下角坐标及归属交点(假设归属于同一个交点,则为同一个单元格);
S4022.对增强后表格图像中表格内所有交点的点集进行筛选,从每个点集中选出唯一的交点,再分别对所有交点的横纵坐标进行排序,得到排序后交点;
S4023.根据所述排序后交点的横纵坐标,分别聚类出所有可能的单元格的长度和宽度;
S4024.根据所述增强后表格图像构建一个完整表格,所述完整表格不存在合并单元格,本实施例中,构建的完整表格为17行*11列;
S4025.对于完整表格中任意两个相邻的单元格的左上角坐标连线,按两个交点之间逐个像素构建垂直于两交点连线,且长度为预设值(本实施例中预设值为10pix)的第三线段,得到第三线段集合;
S4026.将所述增强后表格图像作为参考对象,判断所述第三线段集合中,是否存在至少一条第三线段的像素值之和为0,若是,则判定所述二值化处理后表格图像中与该第三线段对应的两个单元格为合并单元格,再修改该两个单元格中后一单元格的类属性,使其与前一个单元格归属于同一个交点,若否,则判定所述二值化处理后表格图像中与该第三线段对应的两个单元格为独立单元格;
以从左至右、从上至下的顺序,遍历所述增强后表格图像中的所有单元格,重复执行获取第三线段集合至判定单元格类型的步骤(即步骤S4025-S4026),直到得到所述增强后表格图像中所有单元格的结构。
本实施例中,获取增强后表格图像的表格结构的步骤,通过任意两个相邻单元格的顶点之间构建了一系列的线集,对线集的每个像素点进行统计分析,从而判断单元格的结构,最终得到增强后表格图像的表格结构,结果的容错率高。
S403.根据所有单元格的结构,得到所述增强后表格图像的表格结构。
S5.对所述增强后表格图像进行文本检测,得到文本检测结果;
现有技术中,对文本检测的方法可分为基于回归思想的方法和基于分割思想的方法。其中,基于回归思想的方法发展较早,可细分为基于对象框的方法和基于像素值回归的方法。基于对象框回归的方法对规则形状的文本检测效果尚可,但对不规则形状文本检测的效果差;基于像素值回归的方法可以处理不规则文本,但是实时性极差。而基于分割思想的方法同样是针对像素级别的文本检测,但分割网络只需要对每一个像素进行前景和背景的分类,训练和推理时间比基于像素回归的方法要大幅提升。基于此,本实施例中,对所述增强后表格图像进行文本检测,得到文本检测结果,包括:
基于训练后DB(differentiable binarization,可微二值化)模型,对所述增强后表格图像进行文本检测,得到文本检测结果。本实施例中,通过利用近似二值化的公式,把不可微的图像二值化过程变为可微过程,并使其成为网络训练的一部分,使阈值可以自适应训练,从而可提升文本块分割的性能,同时加快了训练和文本检测的速度。
S6.对所述文本检测结果进行文字识别,得到文字识别结果;需要说明的是,本实施例中,可以但不仅限于采用CRNN神经网络模型以及CTC损失函数进行文字识别,此处不予限制;
S7.根据所述表格结构及所述文字识别结果,生成电子表格。本实施例中,电子表格可以但不仅限于采用JSON格式或Excel格式,此处不予限制。本实施例中,生成的电子表格如图8所示。
本实施例可针对版面复杂的保单等文档中的表格进行检测、识别和还原,便于对如保险单据等复杂文档进行表格自动录入和归档管理,解决了保单等文档中因类型多样、版面复杂而造成的表格识别困难的问题,同时可提高对保单等复杂文档中表格结构和内容识别的准确性,相对于现有技术,本实施例降低了开发训练的难度,提升了检测识别速度,同时提高了对文档中表格识别的通用性和稳定性。
实施例2:
本实施例提供一种表格识别系统,用于实现实施例1中表格识别方法;如图9所示,所述表格识别系统包括:
表格图像提取模块,用于获取文档图像,并从所述文档图像中,提取出仅包含表格的图像区域,得到表格图像;
表格图像预处理模块,通信连接于所述表格图像提取模块,用于对所述表格图像进行预处理,得到预处理后表格图像;
表格图像增强模块,通信连接于所述图像预处理模块,用于对所述预处理后表格图像中的表格线进行信号增强,得到增强后表格图像;
表格结构识别模块,通信连接于所述表格图像增强模块,用于提取所述增强后表格图像中表格内各交点的点集,并根据所述点集得到增强后表格图像的表格结构;
文本检测模块,通信连接于所述表格图像增强模块,用于对所述增强后表格图像进行文本检测,得到文本检测结果;
文字识别模块,通信连接于所述文本检测模块,用于对所述文本检测结果进行文字识别,得到文字识别结果;
电子表格生成模块,分别通信连接于所述表格结构识别模块和所述文字识别模块,用于根据所述表格结构及所述文字识别结果,生成电子表格。
实施例3:
在实施例1或2的基础上,本实施例公开了一种电子设备,该设备可以是智能手机、平板电脑、笔记本电脑或者台式电脑等。电子设备可能被称为用于终端、便携式终端、台式终端等,电子设备包括:
存储器,用于存储计算机程序指令;以及,
处理器,用于执行所述计算机程序指令从而完成如实施例1中任一所述的表格识别方法的操作。
实施例4:
在实施例1至3任一项实施例的基础上,本实施例公开了一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,所述计算机程序指令被配置为运行时执行如实施例1所述的表格识别方法的操作。
需要说明的是,所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM, Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
最后应说明的是,本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。
Claims (10)
1.一种表格识别方法,其特征在于:包括:
获取文档图像,并从所述文档图像中,提取出仅包含表格的图像区域,得到表格图像;
对所述表格图像进行预处理,得到预处理后表格图像;
对所述预处理后表格图像中的表格线进行信号增强,得到增强后表格图像;
提取所述增强后表格图像中表格内各交点的点集,并根据所述点集得到增强后表格图像的表格结构;
对所述增强后表格图像进行文本检测,得到文本检测结果;
对所述文本检测结果进行文字识别,得到文字识别结果;
根据所述表格结构及所述文字识别结果,生成电子表格。
2.根据权利要求1所述的一种表格识别方法,其特征在于:从所述文档图像中,提取出仅包含表格的图像区域,得到表格图像,包括:
构建目标检测模型;
获取样本集,并将样本集导入所述目标检测模型中,对目标检测模型进行多尺度训练,得到初次训练后目标检测模型;其中,所述样本集中样本包括含有表格的文档图像;
使用剪枝技术,对初次训练后目标检测模型进行简化,得到简化后目标检测模型;
基于迁移学习,对所述样本集进行标注,得到标注信息;
将标注信息输入简化后目标检测模型中,对简化后目标检测模型进行再次训练,得到最终训练后目标检测模型;
将所述文档图像输入最终训练后目标检测模型,得到表格图像。
3.根据权利要求2所述的一种表格识别方法,其特征在于:所述目标检测模型采用FCOS模型。
4.根据权利要求1所述的一种表格识别方法,其特征在于:对所述表格图像进行预处理,得到预处理后表格图像,包括:
将所述表格图像转化为灰度图像,再计算所述灰度图像的直方图,对所述直方图进行统计分析,得到所述灰度图像中背景像素的灰度平均值及灰度值范围;
对所述直方图的背景像素点进行过滤,得到过滤后直方图,再遍历所述直方图中剩下的目标像素点及其灰度值,得到所述目标像素点之间的最大类间方差对应的灰度值;
将所述最大类间方差对应的灰度值作为阈值,对所述表格图像进行二值化处理,得到预处理后表格图像。
5.根据权利要求4所述的一种表格识别方法,其特征在于:对所述直方图的背景像素点进行过滤,得到过滤后直方图后,所述表格识别方法还包括:
将过滤后直方图导入训练后ESRGAN模型中,对所述灰度图像进行超分辨率转换。
6.根据权利要求4所述的一种表格识别方法,其特征在于:对所述表格图像进行二值化处理后,所述表格识别方法还包括:
基于霍夫变换,得到二值化处理后表格图像中的第一线段集合;
计算所述第一线段集合的倾斜角平均值;
过滤所述第一线段集合中偏离倾斜角平均值的第二线段,得到第二线段集合;
获取第二线段集合的倾斜角平均值,得到所述二值化处理后表格图像的倾斜角度;
根据所述二值化处理后表格图像的倾斜角度,基于平面仿射变换,对所述二值化处理后表格图像进行校正。
7.根据权利要求6所述的一种表格识别方法,其特征在于:提取所述增强后表格图像中表格内各交点的点集,并根据所述点集得到增强后表格图像的表格结构,包括:
通过矩阵相交的方法,提取述增强后表格图像中表格内每个交点的点集;
根据所述点集和增强后表格图像,确定所述增强后表格图像中所有单元格的结构;
根据所有单元格的结构,得到所述增强后表格图像的表格结构。
8.根据权利要求7所述的一种表格识别方法,其特征在于:根据所述点集和增强后表格图像,确定所述增强后表格图像中所有单元格的结构,包括:
构建一个单元格类,其中单元格类的属性包括单元格的左上角坐标、单元格的右下角坐标及归属交点;
对增强后表格图像中表格内所有交点的点集进行筛选,从每个点集中选出唯一的交点,再分别对所有交点的横纵坐标进行排序,得到排序后交点;
根据所述排序后交点的横纵坐标,分别聚类出所有可能的单元格的长度和宽度;
根据所述增强后表格图像构建一个完整表格,所述完整表格不存在合并单元格;
对于完整表格中任意两个相邻的单元格的左上角坐标连线,按两个交点之间逐个像素构建垂直于两交点连线,且长度为预设值的第三线段,得到第三线段集合;
将所述增强后表格图像作为参考对象,判断所述第三线段集合中,是否存在至少一条第三线段的像素值之和为0,若是,则判定所述二值化处理后表格图像中与该第三线段对应的两个单元格为合并单元格,再修改该两个单元格中后一单元格的类属性,使其与前一个单元格归属于同一个交点,若否,则判定所述二值化处理后表格图像中与该第三线段对应的两个单元格为独立单元格;
遍历所述增强后表格图像中的所有单元格,直到得到所述增强后表格图像中所有单元格的结构。
9.根据权利要求1所述的一种表格识别方法,其特征在于:对所述增强后表格图像进行文本检测,得到文本检测结果,包括:
基于训练后DB模型,对所述增强后表格图像进行文本检测,得到文本检测结果。
10.一种表格识别系统,其特征在于:用于实现如权利要求1至9中任一项所述的表格识别方法;所述表格识别系统包括:
表格图像提取模块,用于获取文档图像,并从所述文档图像中,提取出仅包含表格的图像区域,得到表格图像;
表格图像预处理模块,通信连接于所述表格图像提取模块,用于对所述表格图像进行预处理,得到预处理后表格图像;
表格图像增强模块,通信连接于所述图像预处理模块,用于对所述预处理后表格图像中的表格线进行信号增强,得到增强后表格图像;
表格结构识别模块,通信连接于所述表格图像增强模块,用于提取所述增强后表格图像中表格内各交点的点集,并根据所述点集得到增强后表格图像的表格结构;
文本检测模块,通信连接于所述表格图像增强模块,用于对所述增强后表格图像进行文本检测,得到文本检测结果;
文字识别模块,通信连接于所述文本检测模块,用于对所述文本检测结果进行文字识别,得到文字识别结果;
电子表格生成模块,分别通信连接于所述表格结构识别模块和所述文字识别模块,用于根据所述表格结构及所述文字识别结果,生成电子表格。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111632890.4A CN114581928A (zh) | 2021-12-29 | 2021-12-29 | 一种表格识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111632890.4A CN114581928A (zh) | 2021-12-29 | 2021-12-29 | 一种表格识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114581928A true CN114581928A (zh) | 2022-06-03 |
Family
ID=81771942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111632890.4A Pending CN114581928A (zh) | 2021-12-29 | 2021-12-29 | 一种表格识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114581928A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294588A (zh) * | 2022-08-17 | 2022-11-04 | 湖北鑫英泰系统技术股份有限公司 | 一种基于rpa流程机器人的数据处理方法及系统 |
CN116824611A (zh) * | 2023-08-28 | 2023-09-29 | 星汉智能科技股份有限公司 | 表格结构识别方法、电子设备、计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948507A (zh) * | 2019-03-14 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于检测表格的方法和装置 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN111626145A (zh) * | 2020-05-08 | 2020-09-04 | 西安工业大学 | 一种简捷有效的残缺表格识别及跨页拼接方法 |
CN113139445A (zh) * | 2021-04-08 | 2021-07-20 | 招商银行股份有限公司 | 表格识别方法、设备及计算机可读存储介质 |
KR20210140844A (ko) * | 2020-05-14 | 2021-11-23 | 지의소프트 주식회사 | 전자문서 내 테이블 정보 저장 시스템 및 그 방법 |
-
2021
- 2021-12-29 CN CN202111632890.4A patent/CN114581928A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948507A (zh) * | 2019-03-14 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于检测表格的方法和装置 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN111626145A (zh) * | 2020-05-08 | 2020-09-04 | 西安工业大学 | 一种简捷有效的残缺表格识别及跨页拼接方法 |
KR20210140844A (ko) * | 2020-05-14 | 2021-11-23 | 지의소프트 주식회사 | 전자문서 내 테이블 정보 저장 시스템 및 그 방법 |
CN113139445A (zh) * | 2021-04-08 | 2021-07-20 | 招商银行股份有限公司 | 表格识别方法、设备及计算机可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294588A (zh) * | 2022-08-17 | 2022-11-04 | 湖北鑫英泰系统技术股份有限公司 | 一种基于rpa流程机器人的数据处理方法及系统 |
CN115294588B (zh) * | 2022-08-17 | 2024-04-19 | 湖北鑫英泰系统技术股份有限公司 | 一种基于rpa流程机器人的数据处理方法及系统 |
CN116824611A (zh) * | 2023-08-28 | 2023-09-29 | 星汉智能科技股份有限公司 | 表格结构识别方法、电子设备、计算机可读存储介质 |
CN116824611B (zh) * | 2023-08-28 | 2024-04-05 | 星汉智能科技股份有限公司 | 表格结构识别方法、电子设备、计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943105B2 (en) | Document field detection and parsing | |
US8442319B2 (en) | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking | |
US20190385054A1 (en) | Text field detection using neural networks | |
JP5492205B2 (ja) | 印刷媒体ページの記事へのセグメント化 | |
US7653244B2 (en) | Intelligent importation of information from foreign applications user interface | |
CN107491730A (zh) | 一种基于图像处理的化验单识别方法 | |
CN115273115A (zh) | 一种文档元素标注方法、装置、电子设备和存储介质 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN109213886A (zh) | 基于图像分割和模糊模式识别的图像检索方法及系统 | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
Kataria et al. | CNN-bidirectional LSTM based optical character recognition of Sanskrit manuscripts: A comprehensive systematic literature review | |
EP3985527A1 (en) | Processing digitized handwriting | |
Sharma et al. | Primitive feature-based optical character recognition of the Devanagari script | |
Zheng et al. | Recognition of expiry data on food packages based on improved DBNet | |
CN114758340A (zh) | 物流地址智能识别方法、装置、设备及存储介质 | |
CN111414917B (zh) | 一种低像素密度文本的识别方法 | |
CN118135584A (zh) | 一种基于深度学习的手写表单自动识别方法和系统 | |
Xu et al. | Tolerance Information Extraction for Mechanical Engineering Drawings–A Digital Image Processing and Deep Learning-based Model | |
CN117076455A (zh) | 一种基于智能识别的保单结构化存储方法、介质及系统 | |
Naz et al. | Challenges in baseline detection of cursive script languages | |
Shirdhonkar et al. | Discrimination between printed and handwritten text in documents | |
El Makhfi | Handwritten text segmentation approach in historical Arabic documents | |
Salagar et al. | Analysis of PCA usage to detect and correct skew in document images | |
CN114202761B (zh) | 一种基于图片信息聚类的信息批量提取方法 | |
Kazdar et al. | Table Recognition in Scanned Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |