[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113642380A - 一种用于无线表格的识别技术 - Google Patents

一种用于无线表格的识别技术 Download PDF

Info

Publication number
CN113642380A
CN113642380A CN202110627128.0A CN202110627128A CN113642380A CN 113642380 A CN113642380 A CN 113642380A CN 202110627128 A CN202110627128 A CN 202110627128A CN 113642380 A CN113642380 A CN 113642380A
Authority
CN
China
Prior art keywords
fields
sequence
field
image
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110627128.0A
Other languages
English (en)
Inventor
裴郢珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deep Cross Nanjing Intelligent Technology Co ltd
Original Assignee
Deep Cross Nanjing Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deep Cross Nanjing Intelligent Technology Co ltd filed Critical Deep Cross Nanjing Intelligent Technology Co ltd
Priority to CN202110627128.0A priority Critical patent/CN113642380A/zh
Publication of CN113642380A publication Critical patent/CN113642380A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

本发明涉及电子文档格式转换技术领域,且公开了一种用于无线表格的识别技术,包括以下步骤:步骤101、图像预处理;步骤102、表格区域提取;步骤103、标准行的生成;步骤104、根据标准行提取表格结构;步骤105、OCR识别并写入EXCEL表格;解决了现有技术主要依赖于表格框线检测技术,对于表格框线很少或者没有表格框线的表格,不能很好的识别出来的问题。

Description

一种用于无线表格的识别技术
技术领域
本发明涉及电子文档格式转换技术领域,具体为一种用于无线表格的识 别技术。
背景技术
传统的表格识别技术主要聚焦于有完整表格线的表格的识别。这些技术 方案大多依赖于各种表格线检测算法,比如经典的霍夫变换,有向单连通链 [潘世言.通用表格识别系统的研究与实现[硕士学位论文].北京:清华大 学,1999.]等等,依据识别出的表格线之间的关系,确定表格的单元格,最后 将带有文字的单元格图片送入OCR(光学字符识别)识别出相应的文字。对于无 表格线或表格线非常少的表格,由于无法依赖于表格框线的检测,目前还没 有特别有效的技术方案。因此,便需要一种用于无线表格的识别技术来解决此类问题。
发明内容
本发明提供了一种用于无线表格的识别技术,具备转化方便,以及对无 线表格进行有效处理的优点,解决了现有技术主要依赖于表格框线检测技术, 对于表格框线很少或者没有表格框线的表格,不能很好的识别出来的问题。
本发明提供如下技术方案:一种用于无线表格的识别技术,包括以下步 骤:
步骤101、图像预处理:利用去印章算法去掉一些图像上的彩色印章,灰 度化后二值化处理,使得表格图像黑白分明,更清晰,再利用霍夫变换检测 出一条线,根据这条线与水平方向的夹角来旋转图片,达到倾斜图像矫正的 目的;
步骤102、表格区域提取:将图像输入CTPN,得到所有的表格字段s,表 格字段s由一个矩形的左上和右下的坐标组成,即:s={(x1,y1),(x2,y2)},在这个 矩形区域中,就是CTPN检测出的文字部分,再从所有的表格字段s中,选取 最小的x1,最小的y1,最大的x2和最大的y2,以这四个值组成新的大矩形区域 的坐标,来切分图片,提取表格的区域,生成新的裁剪后的图片;
步骤103、标准行的生成:先对横轴交叠区域HOR和纵轴交叠区域VOR进 行定义,对于任意两个表格字段
Figure BDA0003101958760000021
Figure BDA0003101958760000022
不失 一般性,假设:
Figure BDA0003101958760000023
那么HOR定义如下:
Figure BDA0003101958760000024
VOR定义如下:
Figure BDA0003101958760000025
其中relu函数的定义如下:
Figure BDA0003101958760000026
由定义可知VOR和HOR的范围是0到1,这两个指标刻画了两个表格字段 s横轴或纵轴的交叠程度,值越大表示交叠程度越大;
再对标准行进行定义,标准行是由一个表格字段s的序列S构成,数学形 式如下:
Figure BDA0003101958760000027
它必须满足:
对于序列中的任意两个表格字段
Figure BDA0003101958760000031
Figure BDA0003101958760000032
VOR(i,k)>to
to是人为设定的阈值,本发明中设置为0.9;
对于其他任意表格字段序列Sk,若将S内的坐标集体平移至Sk处,可以完 美覆盖Sk,具体的数学定义为:对于任意一个表格字段
Figure BDA0003101958760000033
必然存在一个 sj∈S使得
Figure BDA0003101958760000034
Figure BDA0003101958760000035
由于CTPN生成的表格字段s不是很好,故而很难求解出精确的标准行, 但通过设计相应的算法,可以算出大致满足需求的标准行;
步骤104、根据标准行提取表格结构:遍历所有其他表格字段序列S,对 于每个Sk,执行如下操作:依次遍历Sk中的元素
Figure BDA0003101958760000036
找出S中所有与
Figure BDA0003101958760000037
的HOR 大于to的元素集合T,仿照第三部分的第八步对
Figure BDA0003101958760000038
进行操作;
空格填充,对于一个表格字段序列Sk,如果对于某一个si∈S,不存在
Figure BDA0003101958760000039
使得
Figure BDA00031019587600000310
则将si的纵坐标Sk按照更改之后添加进Sk之中;
步骤105、OCR识别并写入EXCEL表格:得到了修正后的表格字段s之后, 将表格图片按照表格字段s切分为一张张的小图片,每个图片中有一段文字, 送入百度OCR的接口,识别出文字后,按照表格字段序列S1,S2,S3,...的顺序写 入EXCEL表格中,最终得到无线表格的识别结果。
优选的,所述步骤101中的一条线具体是指在无线表格中表头或表尾的 分割线。
优选的,所述步骤103中生成标准行的步骤如下:
a)、将步骤102中生成的表格区域图像重生成为(1289,784)的大小,方 便CTPN处理,将图像输入CTPN,生成所有的初始表格字段s;
b)、去除重复的交叠严重的表格字段s;
c)、通过排序与查找,生成若干“行”,即生成若干表格字段序列S1,S2,S3,... 每个序列内部任意两个表格字段s的VOR大于to
d)、对于每个表格字段序列S,再次根据序列内表格字段s的横坐标x1从 小到大排序;
e)、对于一个表格字段序列Sk,内部两个元素
Figure BDA0003101958760000041
Figure BDA0003101958760000042
Figure BDA0003101958760000043
的条件下, 可能存在
Figure BDA0003101958760000044
若存在,此时交换
Figure BDA0003101958760000045
Figure BDA0003101958760000046
f)、找出元素个数最多的一个表格字段序列S作为初始标准行;
g)、遍历所有其他表格字段序列S,对于每个Sk,执行如下操作:
依次遍历S中的元素si,找出Sk中所有与si的HOR大于to的元素集合T, 首先找出集合中最小的x1和最大的x2,重新赋值给si,若|T|=1,依据T的元素 扩充si,若|T|>1,则需要切分si
h)、此时的标准行内会出现步骤e)中的情况,故而再次对标准行进行一 次步骤e)操作;
i)、迭代2-3次步骤g)与步骤h)操作,得到最终的标准行。
优选的,所述步骤b)的具体做法为,若两个表格字段的HOR和VOR都大 于to,则删除长度较短的表格字段s。
优选的,所述步骤g)的具体做法为,初始一个滑动窗口,在si内滑动, 每滑动一次统计窗口内的黑色像素点个数,大于一定阈值说明窗口内有字, 如此类推,找出si内所有无字的区域,如果无字区域的横坐标中点在T内的某 两个元素之间,则按照无字区域的x1和x2来切分si
本发明具备以下有益效果:
一、该发明,可以有效处理结构简易,图像质量尚可的无线表格识别问 题,输入无线表格图像即可以自动化的得到识别之后的EXCEL表格,非常的 方便。
二、该发明,使用计算机视觉的目标检测算法代替传统方法中的表格框 线检测,来检测无线表格中的表格字段,解决了对于表格框线很少或者没有 表格框线的表格,现有的技术方案不能很好的识别出来的问题。
三、该发明,由于机器视觉生成的初始表格字段较为混乱,本发明提出 了若干围绕标准行概念的表格字段修正算法来最终提取表格结构。
具体实施方式
下面将结合本发明实施例中的技术方案进行清楚、完整地描述。
实施例一:
一种用于无线表格的识别技术,包括以下步骤:
步骤101、图像预处理:利用去印章算法去掉一些图像上的彩色印章,灰 度化后二值化处理,使得表格图像黑白分明,更清晰,再利用霍夫变换检测 出一条线,根据这条线与水平方向的夹角来旋转图片,达到倾斜图像矫正的 目的;
步骤102、表格区域提取:将图像输入CTPN,得到所有的表格字段s,表 格字段s由一个矩形的左上和右下的坐标组成,即:s={(x1,y1),(x2,y2)},在这个 矩形区域中,就是CTPN检测出的文字部分,再从所有的表格字段s中,选取 最小的x1,最小的y1,最大的x2和最大的y2,以这四个值组成新的大矩形区域 的坐标,来切分图片,提取表格的区域,生成新的裁剪后的图片;
步骤103、标准行的生成:先对横轴交叠区域HOR和纵轴交叠区域VOR进 行定义,对于任意两个表格字段
Figure BDA0003101958760000061
Figure BDA0003101958760000062
不失 一般性,假设:
Figure BDA0003101958760000063
那么HOR定义如下:
Figure BDA0003101958760000064
VOR定义如下:
Figure BDA0003101958760000065
其中relu函数的定义如下:
Figure BDA0003101958760000066
由定义可知VOR和HOR的范围是0到1,这两个指标刻画了两个表格字段 s横轴或纵轴的交叠程度,值越大表示交叠程度越大;
再对标准行进行定义,标准行是由一个表格字段s的序列S构成,数学形 式如下:
Figure BDA0003101958760000067
它必须满足:
对于序列中的任意两个表格字段
Figure BDA0003101958760000068
Figure BDA0003101958760000069
VOR(i,k)>to
to是人为设定的阈值,本发明中设置为0.9;
对于其他任意表格字段序列Sk,若将S内的坐标集体平移至Sk处,可以完 美覆盖Sk,具体的数学定义为:对于任意一个表格字段
Figure BDA0003101958760000071
必然存在一个 sj∈S使得
Figure BDA0003101958760000072
Figure BDA0003101958760000073
由于CTPN生成的表格字段s不是很好,故而很难求解出精确的标准行, 但通过设计相应的算法,可以算出大致满足需求的标准行;
步骤104、根据标准行提取表格结构:遍历所有其他表格字段序列S,对 于每个Sk,执行如下操作:依次遍历Sk中的元素
Figure BDA0003101958760000074
找出S中所有与
Figure BDA0003101958760000075
的HOR 大于to的元素集合T,仿照第三部分的第八步对
Figure BDA0003101958760000076
进行操作;
空格填充,对于一个表格字段序列Sk,如果对于某一个si∈S,不存在
Figure BDA0003101958760000077
使得
Figure BDA0003101958760000078
则将si的纵坐标Sk按照更改之后添加进Sk之中;
步骤105、OCR识别并写入EXCEL表格:得到了修正后的表格字段s之后, 将表格图片按照表格字段s切分为一张张的小图片,每个图片中有一段文字, 送入百度OCR的接口,识别出文字后,按照表格字段序列S1,S2,S3,...的顺序写 入EXCEL表格中,最终得到无线表格的识别结果。
上述步骤101中的一条线具体是指在无线表格中表头或表尾的分割线。
上述步骤103中生成标准行的步骤如下:
a)、将步骤102中生成的表格区域图像重生成为(1289,784)的大小,方 便CTPN处理,将图像输入CTPN,生成所有的初始表格字段s;
b)、去除重复的交叠严重的表格字段s;
c)、通过排序与查找,生成若干“行”,即生成若干表格字段序列S1,S2,S3,... 每个序列内部任意两个表格字段s的VOR大于to
d)、对于每个表格字段序列S,再次根据序列内表格字段s的横坐标x1从 小到大排序;
e)、对于一个表格字段序列Sk,内部两个元素
Figure BDA0003101958760000081
Figure BDA0003101958760000082
Figure BDA0003101958760000083
的条件下, 可能存在
Figure BDA0003101958760000084
若存在,此时交换
Figure BDA0003101958760000085
Figure BDA0003101958760000086
f)、找出元素个数最多的一个表格字段序列S作为初始标准行;
g)、遍历所有其他表格字段序列S,对于每个Sk,执行如下操作:
依次遍历S中的元素si,找出Sk中所有与si的HOR大于to的元素集合T, 首先找出集合中最小的x1和最大的x2,重新赋值给si,若|T|=1,依据T的元素 扩充si,若|T|>1,则需要切分si
h)、此时的标准行内会出现步骤e)中的情况,故而再次对标准行进行一 次步骤e)操作;
i)、迭代2-3次步骤g)与步骤h)操作,得到最终的标准行。
上述步骤b)的具体做法为,若两个表格字段的HOR和VOR都大于to,则 删除长度较短的表格字段s。
上述步骤g)的具体做法为,初始一个滑动窗口,在si内滑动,每滑动一 次统计窗口内的黑色像素点个数,大于一定阈值说明窗口内有字,如此类推, 找出si内所有无字的区域,如果无字区域的横坐标中点在T内的某两个元素之 间,则按照无字区域的x1和x2来切分si
实施例二:
与实施例一的区别在于:将步骤102中CTPN这个文本检测算法来生成初 始的表格字段,这一步骤可以用其他的文本检测算法来替代,比如PSE-Net 等
需要说明的是,OCR是光学字符识别;而CTPN是连续文本框建议域网络, 具体是一种基于FASTER-RCNN改进的文本字段检测技术,该技术可以初步检 测出表格图片中的表格字段;但CTPN初步识别出的表格字段较为混乱,无法 直接用于表格单元格的提取,好在表格的结构有较为严整的约束,可以设计 一些自动化的偏规则算法来裁剪,排列这些表格字段,使之可以用来确定表 格的单元格,综上所述,本发明的技术方案主要由预处理,CTPN检测表格字 段,后续表格字段处理算法,OCR识别表格文字四个部分组成。

Claims (5)

1.一种用于无线表格的识别技术,其特征在于:包括以下步骤:
步骤101、图像预处理:利用去印章算法去掉一些图像上的彩色印章,灰度化后二值化处理,使得表格图像黑白分明,更清晰,再利用霍夫变换检测出一条线,根据这条线与水平方向的夹角来旋转图片,达到倾斜图像矫正的目的;
步骤102、表格区域提取:将图像输入CTPN,得到所有的表格字段s,表格字段s由一个矩形的左上和右下的坐标组成,即:s={(x1,y1),(x2,y2)},在这个矩形区域中,就是CTPN检测出的文字部分,再从所有的表格字段s中,选取最小的x1,最小的y1,最大的x2和最大的y2,以这四个值组成新的大矩形区域的坐标,来切分图片,提取表格的区域,生成新的裁剪后的图片;
步骤103、标准行的生成:先对横轴交叠区域HOR和纵轴交叠区域VOR进行定义,对于任意两个表格字段
Figure FDA0003101958750000011
Figure FDA0003101958750000012
不失一般性,假设:
Figure FDA0003101958750000013
那么HOR定义如下:
Figure FDA0003101958750000014
VOR定义如下:
Figure FDA0003101958750000015
其中relu函数的定义如下:
Figure FDA0003101958750000016
由定义可知VOR和HOR的范围是0到1,这两个指标刻画了两个表格字段s横轴或纵轴的交叠程度,值越大表示交叠程度越大;
再对标准行进行定义,标准行是由一个表格字段s的序列S构成,数学形式如下:
Figure FDA0003101958750000021
它必须满足:
对于序列中的任意两个表格字段
Figure FDA0003101958750000022
Figure FDA0003101958750000023
VOR(i,k)>to
to是人为设定的阈值,本发明中设置为0.9;
对于其他任意表格字段序列Sk,若将S内的坐标集体平移至Sk处,可以完美覆盖Sk,具体的数学定义为:对于任意一个表格字段
Figure FDA0003101958750000024
必然存在一个sj∈S使得
Figure FDA0003101958750000025
Figure FDA0003101958750000026
由于CTPN生成的表格字段s不是很好,故而很难求解出精确的标准行,但通过设计相应的算法,可以算出大致满足需求的标准行;
步骤104、根据标准行提取表格结构:遍历所有其他表格字段序列S,对于每个Sk,执行如下操作:依次遍历Sk中的元素
Figure FDA0003101958750000027
找出S中所有与
Figure FDA0003101958750000028
的HOR大于to的元素集合T,仿照第三部分的第八步对
Figure FDA0003101958750000029
进行操作;
空格填充,对于一个表格字段序列Sk,如果对于某一个si∈S,不存在
Figure FDA00031019587500000210
使得
Figure FDA00031019587500000211
则将si的纵坐标Sk按照更改之后添加进Sk之中;
步骤105、OCR识别并写入EXCEL表格:得到了修正后的表格字段s之后,将表格图片按照表格字段s切分为一张张的小图片,每个图片中有一段文字,送入百度OCR的接口,识别出文字后,按照表格字段序列S1,S2,S3,...的顺序写入EXCEL表格中,最终得到无线表格的识别结果。
2.根据权利要求1所述的一种用于无线表格的识别技术,其特征在于:步骤101中的一条线具体是指在无线表格中表头或表尾的分割线。
3.根据权利要求1所述的一种用于无线表格的识别技术,其特征在于:步骤103中生成标准行的步骤如下:
a)、将步骤102中生成的表格区域图像重生成为(1289,784)的大小,方便CTPN处理,将图像输入CTPN,生成所有的初始表格字段s;
b)、去除重复的交叠严重的表格字段s;
c)、通过排序与查找,生成若干“行”,即生成若干表格字段序列S1,S2,S3,...每个序列内部任意两个表格字段s的VOR大于to
d)、对于每个表格字段序列S,再次根据序列内表格字段s的横坐标x1从小到大排序;
e)、对于一个表格字段序列Sk,内部两个元素
Figure FDA0003101958750000033
Figure FDA0003101958750000032
Figure FDA0003101958750000031
的条件下,可能存在
Figure FDA0003101958750000036
若存在,此时交换
Figure FDA0003101958750000034
Figure FDA0003101958750000035
f)、找出元素个数最多的一个表格字段序列S作为初始标准行;
g)、遍历所有其他表格字段序列S,对于每个Sk,执行如下操作:
依次遍历S中的元素si,找出Sk中所有与si的HOR大于to的元素集合T,首先找出集合中最小的x1和最大的x2,重新赋值给si,若|T|=1,依据T的元素扩充si,若|T|>1,则需要切分si
h)、此时的标准行内会出现步骤e)中的情况,故而再次对标准行进行一次步骤e)操作;
i)、迭代2-3次步骤g)与步骤h)操作,得到最终的标准行。
4.根据权利要求3所述的一种用于无线表格的识别技术,其特征在于:步骤b)的具体做法为,若两个表格字段的HOR和VOR都大于to,则删除长度较短的表格字段s。
5.根据权利要求3所述的一种用于无线表格的识别技术,其特征在于:步骤g)的具体做法为,初始一个滑动窗口,在si内滑动,每滑动一次统计窗口内的黑色像素点个数,大于一定阈值说明窗口内有字,如此类推,找出si内所有无字的区域,如果无字区域的横坐标中点在T内的某两个元素之间,则按照无字区域的x1和x2来切分si
CN202110627128.0A 2021-06-04 2021-06-04 一种用于无线表格的识别技术 Withdrawn CN113642380A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110627128.0A CN113642380A (zh) 2021-06-04 2021-06-04 一种用于无线表格的识别技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110627128.0A CN113642380A (zh) 2021-06-04 2021-06-04 一种用于无线表格的识别技术

Publications (1)

Publication Number Publication Date
CN113642380A true CN113642380A (zh) 2021-11-12

Family

ID=78415928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110627128.0A Withdrawn CN113642380A (zh) 2021-06-04 2021-06-04 一种用于无线表格的识别技术

Country Status (1)

Country Link
CN (1) CN113642380A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022888A (zh) * 2022-01-06 2022-02-08 上海朝阳永续信息技术股份有限公司 用于识别pdf表格的方法、设备和介质
CN114201620A (zh) * 2021-12-17 2022-03-18 上海朝阳永续信息技术股份有限公司 用于挖掘pdf文件中的pdf表格的方法、设备和介质
CN116311301A (zh) * 2023-02-17 2023-06-23 北京感易智能科技有限公司 无线表格识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201620A (zh) * 2021-12-17 2022-03-18 上海朝阳永续信息技术股份有限公司 用于挖掘pdf文件中的pdf表格的方法、设备和介质
CN114022888A (zh) * 2022-01-06 2022-02-08 上海朝阳永续信息技术股份有限公司 用于识别pdf表格的方法、设备和介质
CN114022888B (zh) * 2022-01-06 2022-04-08 上海朝阳永续信息技术股份有限公司 用于识别pdf表格的方法、设备和介质
CN116311301A (zh) * 2023-02-17 2023-06-23 北京感易智能科技有限公司 无线表格识别方法及系统
CN116311301B (zh) * 2023-02-17 2024-06-07 北京感易智能科技有限公司 无线表格识别方法及系统

Similar Documents

Publication Publication Date Title
US10896349B2 (en) Text detection method and apparatus, and storage medium
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
CN113642380A (zh) 一种用于无线表格的识别技术
CN103679678B (zh) 一种矩形文字特征碎纸片的半自动拼接复原方法
TWI284288B (en) Text region recognition method, storage medium and system
CN106503711A (zh) 一种文字识别方法
CN110276279B (zh) 一种基于图像分割的任意形状场景文本探测方法
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN112329641B (zh) 一种表格识别方法、装置、设备及可读存储介质
CN108009538A (zh) 一种汽车发动机缸体序列号智能识别方法
Roy et al. Wavelet-gradient-fusion for video text binarization
CN105930842A (zh) 字符识别方法及装置
CN108038482A (zh) 一种汽车发动机缸体序列号视觉智能识别系统
CN110889311A (zh) 金融电子传真文档识别系统及方法
CN113139535A (zh) 一种ocr文档识别方法
Zemouri et al. Enhancement of historical document images by combining global and local binarization technique
Gui et al. A fast caption detection method for low quality video images
CN109035285B (zh) 图像边界确定方法及装置、终端及存储介质
Shinde et al. Shirorekha extraction in character segmentation for printed Devanagri text in document image processing
Mangla et al. An end detection algorithm for segmentation of broken and touching characters in handwritten Gurumukhi word
Tian et al. Table frame line detection in low quality document images based on hough transform
Rajithkumar et al. Template matching method for recognition of stone inscripted Kannada characters of different time frames based on correlation analysis
Diamantatos et al. Binarization: a Tool for Text Localization
CN110807348A (zh) 基于贪婪算法的文档图像中干扰线的去除方法
Huang A novel video text extraction approach based on Log-Gabor filters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211112

WW01 Invention patent application withdrawn after publication