CN113642380A - 一种用于无线表格的识别技术 - Google Patents
一种用于无线表格的识别技术 Download PDFInfo
- Publication number
- CN113642380A CN113642380A CN202110627128.0A CN202110627128A CN113642380A CN 113642380 A CN113642380 A CN 113642380A CN 202110627128 A CN202110627128 A CN 202110627128A CN 113642380 A CN113642380 A CN 113642380A
- Authority
- CN
- China
- Prior art keywords
- fields
- sequence
- field
- image
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Character Input (AREA)
Abstract
本发明涉及电子文档格式转换技术领域,且公开了一种用于无线表格的识别技术,包括以下步骤:步骤101、图像预处理;步骤102、表格区域提取;步骤103、标准行的生成;步骤104、根据标准行提取表格结构;步骤105、OCR识别并写入EXCEL表格;解决了现有技术主要依赖于表格框线检测技术,对于表格框线很少或者没有表格框线的表格,不能很好的识别出来的问题。
Description
技术领域
本发明涉及电子文档格式转换技术领域,具体为一种用于无线表格的识 别技术。
背景技术
传统的表格识别技术主要聚焦于有完整表格线的表格的识别。这些技术 方案大多依赖于各种表格线检测算法,比如经典的霍夫变换,有向单连通链 [潘世言.通用表格识别系统的研究与实现[硕士学位论文].北京:清华大 学,1999.]等等,依据识别出的表格线之间的关系,确定表格的单元格,最后 将带有文字的单元格图片送入OCR(光学字符识别)识别出相应的文字。对于无 表格线或表格线非常少的表格,由于无法依赖于表格框线的检测,目前还没 有特别有效的技术方案。因此,便需要一种用于无线表格的识别技术来解决此类问题。
发明内容
本发明提供了一种用于无线表格的识别技术,具备转化方便,以及对无 线表格进行有效处理的优点,解决了现有技术主要依赖于表格框线检测技术, 对于表格框线很少或者没有表格框线的表格,不能很好的识别出来的问题。
本发明提供如下技术方案:一种用于无线表格的识别技术,包括以下步 骤:
步骤101、图像预处理:利用去印章算法去掉一些图像上的彩色印章,灰 度化后二值化处理,使得表格图像黑白分明,更清晰,再利用霍夫变换检测 出一条线,根据这条线与水平方向的夹角来旋转图片,达到倾斜图像矫正的 目的;
步骤102、表格区域提取:将图像输入CTPN,得到所有的表格字段s,表 格字段s由一个矩形的左上和右下的坐标组成,即:s={(x1,y1),(x2,y2)},在这个 矩形区域中,就是CTPN检测出的文字部分,再从所有的表格字段s中,选取 最小的x1,最小的y1,最大的x2和最大的y2,以这四个值组成新的大矩形区域 的坐标,来切分图片,提取表格的区域,生成新的裁剪后的图片;
那么HOR定义如下:
VOR定义如下:
其中relu函数的定义如下:
由定义可知VOR和HOR的范围是0到1,这两个指标刻画了两个表格字段 s横轴或纵轴的交叠程度,值越大表示交叠程度越大;
再对标准行进行定义,标准行是由一个表格字段s的序列S构成,数学形 式如下:
它必须满足:
VOR(i,k)>to
to是人为设定的阈值,本发明中设置为0.9;
由于CTPN生成的表格字段s不是很好,故而很难求解出精确的标准行, 但通过设计相应的算法,可以算出大致满足需求的标准行;
步骤105、OCR识别并写入EXCEL表格:得到了修正后的表格字段s之后, 将表格图片按照表格字段s切分为一张张的小图片,每个图片中有一段文字, 送入百度OCR的接口,识别出文字后,按照表格字段序列S1,S2,S3,...的顺序写 入EXCEL表格中,最终得到无线表格的识别结果。
优选的,所述步骤101中的一条线具体是指在无线表格中表头或表尾的 分割线。
优选的,所述步骤103中生成标准行的步骤如下:
a)、将步骤102中生成的表格区域图像重生成为(1289,784)的大小,方 便CTPN处理,将图像输入CTPN,生成所有的初始表格字段s;
b)、去除重复的交叠严重的表格字段s;
c)、通过排序与查找,生成若干“行”,即生成若干表格字段序列S1,S2,S3,... 每个序列内部任意两个表格字段s的VOR大于to;
d)、对于每个表格字段序列S,再次根据序列内表格字段s的横坐标x1从 小到大排序;
f)、找出元素个数最多的一个表格字段序列S作为初始标准行;
g)、遍历所有其他表格字段序列S,对于每个Sk,执行如下操作:
依次遍历S中的元素si,找出Sk中所有与si的HOR大于to的元素集合T, 首先找出集合中最小的x1和最大的x2,重新赋值给si,若|T|=1,依据T的元素 扩充si,若|T|>1,则需要切分si;
h)、此时的标准行内会出现步骤e)中的情况,故而再次对标准行进行一 次步骤e)操作;
i)、迭代2-3次步骤g)与步骤h)操作,得到最终的标准行。
优选的,所述步骤b)的具体做法为,若两个表格字段的HOR和VOR都大 于to,则删除长度较短的表格字段s。
优选的,所述步骤g)的具体做法为,初始一个滑动窗口,在si内滑动, 每滑动一次统计窗口内的黑色像素点个数,大于一定阈值说明窗口内有字, 如此类推,找出si内所有无字的区域,如果无字区域的横坐标中点在T内的某 两个元素之间,则按照无字区域的x1和x2来切分si。
本发明具备以下有益效果:
一、该发明,可以有效处理结构简易,图像质量尚可的无线表格识别问 题,输入无线表格图像即可以自动化的得到识别之后的EXCEL表格,非常的 方便。
二、该发明,使用计算机视觉的目标检测算法代替传统方法中的表格框 线检测,来检测无线表格中的表格字段,解决了对于表格框线很少或者没有 表格框线的表格,现有的技术方案不能很好的识别出来的问题。
三、该发明,由于机器视觉生成的初始表格字段较为混乱,本发明提出 了若干围绕标准行概念的表格字段修正算法来最终提取表格结构。
具体实施方式
下面将结合本发明实施例中的技术方案进行清楚、完整地描述。
实施例一:
一种用于无线表格的识别技术,包括以下步骤:
步骤101、图像预处理:利用去印章算法去掉一些图像上的彩色印章,灰 度化后二值化处理,使得表格图像黑白分明,更清晰,再利用霍夫变换检测 出一条线,根据这条线与水平方向的夹角来旋转图片,达到倾斜图像矫正的 目的;
步骤102、表格区域提取:将图像输入CTPN,得到所有的表格字段s,表 格字段s由一个矩形的左上和右下的坐标组成,即:s={(x1,y1),(x2,y2)},在这个 矩形区域中,就是CTPN检测出的文字部分,再从所有的表格字段s中,选取 最小的x1,最小的y1,最大的x2和最大的y2,以这四个值组成新的大矩形区域 的坐标,来切分图片,提取表格的区域,生成新的裁剪后的图片;
那么HOR定义如下:
VOR定义如下:
其中relu函数的定义如下:
由定义可知VOR和HOR的范围是0到1,这两个指标刻画了两个表格字段 s横轴或纵轴的交叠程度,值越大表示交叠程度越大;
再对标准行进行定义,标准行是由一个表格字段s的序列S构成,数学形 式如下:
它必须满足:
VOR(i,k)>to
to是人为设定的阈值,本发明中设置为0.9;
由于CTPN生成的表格字段s不是很好,故而很难求解出精确的标准行, 但通过设计相应的算法,可以算出大致满足需求的标准行;
步骤105、OCR识别并写入EXCEL表格:得到了修正后的表格字段s之后, 将表格图片按照表格字段s切分为一张张的小图片,每个图片中有一段文字, 送入百度OCR的接口,识别出文字后,按照表格字段序列S1,S2,S3,...的顺序写 入EXCEL表格中,最终得到无线表格的识别结果。
上述步骤101中的一条线具体是指在无线表格中表头或表尾的分割线。
上述步骤103中生成标准行的步骤如下:
a)、将步骤102中生成的表格区域图像重生成为(1289,784)的大小,方 便CTPN处理,将图像输入CTPN,生成所有的初始表格字段s;
b)、去除重复的交叠严重的表格字段s;
c)、通过排序与查找,生成若干“行”,即生成若干表格字段序列S1,S2,S3,... 每个序列内部任意两个表格字段s的VOR大于to;
d)、对于每个表格字段序列S,再次根据序列内表格字段s的横坐标x1从 小到大排序;
f)、找出元素个数最多的一个表格字段序列S作为初始标准行;
g)、遍历所有其他表格字段序列S,对于每个Sk,执行如下操作:
依次遍历S中的元素si,找出Sk中所有与si的HOR大于to的元素集合T, 首先找出集合中最小的x1和最大的x2,重新赋值给si,若|T|=1,依据T的元素 扩充si,若|T|>1,则需要切分si;
h)、此时的标准行内会出现步骤e)中的情况,故而再次对标准行进行一 次步骤e)操作;
i)、迭代2-3次步骤g)与步骤h)操作,得到最终的标准行。
上述步骤b)的具体做法为,若两个表格字段的HOR和VOR都大于to,则 删除长度较短的表格字段s。
上述步骤g)的具体做法为,初始一个滑动窗口,在si内滑动,每滑动一 次统计窗口内的黑色像素点个数,大于一定阈值说明窗口内有字,如此类推, 找出si内所有无字的区域,如果无字区域的横坐标中点在T内的某两个元素之 间,则按照无字区域的x1和x2来切分si。
实施例二:
与实施例一的区别在于:将步骤102中CTPN这个文本检测算法来生成初 始的表格字段,这一步骤可以用其他的文本检测算法来替代,比如PSE-Net 等
需要说明的是,OCR是光学字符识别;而CTPN是连续文本框建议域网络, 具体是一种基于FASTER-RCNN改进的文本字段检测技术,该技术可以初步检 测出表格图片中的表格字段;但CTPN初步识别出的表格字段较为混乱,无法 直接用于表格单元格的提取,好在表格的结构有较为严整的约束,可以设计 一些自动化的偏规则算法来裁剪,排列这些表格字段,使之可以用来确定表 格的单元格,综上所述,本发明的技术方案主要由预处理,CTPN检测表格字 段,后续表格字段处理算法,OCR识别表格文字四个部分组成。
Claims (5)
1.一种用于无线表格的识别技术,其特征在于:包括以下步骤:
步骤101、图像预处理:利用去印章算法去掉一些图像上的彩色印章,灰度化后二值化处理,使得表格图像黑白分明,更清晰,再利用霍夫变换检测出一条线,根据这条线与水平方向的夹角来旋转图片,达到倾斜图像矫正的目的;
步骤102、表格区域提取:将图像输入CTPN,得到所有的表格字段s,表格字段s由一个矩形的左上和右下的坐标组成,即:s={(x1,y1),(x2,y2)},在这个矩形区域中,就是CTPN检测出的文字部分,再从所有的表格字段s中,选取最小的x1,最小的y1,最大的x2和最大的y2,以这四个值组成新的大矩形区域的坐标,来切分图片,提取表格的区域,生成新的裁剪后的图片;
那么HOR定义如下:
VOR定义如下:
其中relu函数的定义如下:
由定义可知VOR和HOR的范围是0到1,这两个指标刻画了两个表格字段s横轴或纵轴的交叠程度,值越大表示交叠程度越大;
再对标准行进行定义,标准行是由一个表格字段s的序列S构成,数学形式如下:
它必须满足:
VOR(i,k)>to
to是人为设定的阈值,本发明中设置为0.9;
由于CTPN生成的表格字段s不是很好,故而很难求解出精确的标准行,但通过设计相应的算法,可以算出大致满足需求的标准行;
步骤105、OCR识别并写入EXCEL表格:得到了修正后的表格字段s之后,将表格图片按照表格字段s切分为一张张的小图片,每个图片中有一段文字,送入百度OCR的接口,识别出文字后,按照表格字段序列S1,S2,S3,...的顺序写入EXCEL表格中,最终得到无线表格的识别结果。
2.根据权利要求1所述的一种用于无线表格的识别技术,其特征在于:步骤101中的一条线具体是指在无线表格中表头或表尾的分割线。
3.根据权利要求1所述的一种用于无线表格的识别技术,其特征在于:步骤103中生成标准行的步骤如下:
a)、将步骤102中生成的表格区域图像重生成为(1289,784)的大小,方便CTPN处理,将图像输入CTPN,生成所有的初始表格字段s;
b)、去除重复的交叠严重的表格字段s;
c)、通过排序与查找,生成若干“行”,即生成若干表格字段序列S1,S2,S3,...每个序列内部任意两个表格字段s的VOR大于to;
d)、对于每个表格字段序列S,再次根据序列内表格字段s的横坐标x1从小到大排序;
f)、找出元素个数最多的一个表格字段序列S作为初始标准行;
g)、遍历所有其他表格字段序列S,对于每个Sk,执行如下操作:
依次遍历S中的元素si,找出Sk中所有与si的HOR大于to的元素集合T,首先找出集合中最小的x1和最大的x2,重新赋值给si,若|T|=1,依据T的元素扩充si,若|T|>1,则需要切分si;
h)、此时的标准行内会出现步骤e)中的情况,故而再次对标准行进行一次步骤e)操作;
i)、迭代2-3次步骤g)与步骤h)操作,得到最终的标准行。
4.根据权利要求3所述的一种用于无线表格的识别技术,其特征在于:步骤b)的具体做法为,若两个表格字段的HOR和VOR都大于to,则删除长度较短的表格字段s。
5.根据权利要求3所述的一种用于无线表格的识别技术,其特征在于:步骤g)的具体做法为,初始一个滑动窗口,在si内滑动,每滑动一次统计窗口内的黑色像素点个数,大于一定阈值说明窗口内有字,如此类推,找出si内所有无字的区域,如果无字区域的横坐标中点在T内的某两个元素之间,则按照无字区域的x1和x2来切分si。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110627128.0A CN113642380A (zh) | 2021-06-04 | 2021-06-04 | 一种用于无线表格的识别技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110627128.0A CN113642380A (zh) | 2021-06-04 | 2021-06-04 | 一种用于无线表格的识别技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113642380A true CN113642380A (zh) | 2021-11-12 |
Family
ID=78415928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110627128.0A Withdrawn CN113642380A (zh) | 2021-06-04 | 2021-06-04 | 一种用于无线表格的识别技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642380A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022888A (zh) * | 2022-01-06 | 2022-02-08 | 上海朝阳永续信息技术股份有限公司 | 用于识别pdf表格的方法、设备和介质 |
CN114201620A (zh) * | 2021-12-17 | 2022-03-18 | 上海朝阳永续信息技术股份有限公司 | 用于挖掘pdf文件中的pdf表格的方法、设备和介质 |
CN116311301A (zh) * | 2023-02-17 | 2023-06-23 | 北京感易智能科技有限公司 | 无线表格识别方法及系统 |
-
2021
- 2021-06-04 CN CN202110627128.0A patent/CN113642380A/zh not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114201620A (zh) * | 2021-12-17 | 2022-03-18 | 上海朝阳永续信息技术股份有限公司 | 用于挖掘pdf文件中的pdf表格的方法、设备和介质 |
CN114022888A (zh) * | 2022-01-06 | 2022-02-08 | 上海朝阳永续信息技术股份有限公司 | 用于识别pdf表格的方法、设备和介质 |
CN114022888B (zh) * | 2022-01-06 | 2022-04-08 | 上海朝阳永续信息技术股份有限公司 | 用于识别pdf表格的方法、设备和介质 |
CN116311301A (zh) * | 2023-02-17 | 2023-06-23 | 北京感易智能科技有限公司 | 无线表格识别方法及系统 |
CN116311301B (zh) * | 2023-02-17 | 2024-06-07 | 北京感易智能科技有限公司 | 无线表格识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10896349B2 (en) | Text detection method and apparatus, and storage medium | |
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
CN113642380A (zh) | 一种用于无线表格的识别技术 | |
CN103679678B (zh) | 一种矩形文字特征碎纸片的半自动拼接复原方法 | |
TWI284288B (en) | Text region recognition method, storage medium and system | |
CN106503711A (zh) | 一种文字识别方法 | |
CN110276279B (zh) | 一种基于图像分割的任意形状场景文本探测方法 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN112329641B (zh) | 一种表格识别方法、装置、设备及可读存储介质 | |
CN108009538A (zh) | 一种汽车发动机缸体序列号智能识别方法 | |
Roy et al. | Wavelet-gradient-fusion for video text binarization | |
CN105930842A (zh) | 字符识别方法及装置 | |
CN108038482A (zh) | 一种汽车发动机缸体序列号视觉智能识别系统 | |
CN110889311A (zh) | 金融电子传真文档识别系统及方法 | |
CN113139535A (zh) | 一种ocr文档识别方法 | |
Zemouri et al. | Enhancement of historical document images by combining global and local binarization technique | |
Gui et al. | A fast caption detection method for low quality video images | |
CN109035285B (zh) | 图像边界确定方法及装置、终端及存储介质 | |
Shinde et al. | Shirorekha extraction in character segmentation for printed Devanagri text in document image processing | |
Mangla et al. | An end detection algorithm for segmentation of broken and touching characters in handwritten Gurumukhi word | |
Tian et al. | Table frame line detection in low quality document images based on hough transform | |
Rajithkumar et al. | Template matching method for recognition of stone inscripted Kannada characters of different time frames based on correlation analysis | |
Diamantatos et al. | Binarization: a Tool for Text Localization | |
CN110807348A (zh) | 基于贪婪算法的文档图像中干扰线的去除方法 | |
Huang | A novel video text extraction approach based on Log-Gabor filters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211112 |
|
WW01 | Invention patent application withdrawn after publication |