CN111145124A - 一种图像倾斜的校正方法及装置 - Google Patents
一种图像倾斜的校正方法及装置 Download PDFInfo
- Publication number
- CN111145124A CN111145124A CN201911387689.7A CN201911387689A CN111145124A CN 111145124 A CN111145124 A CN 111145124A CN 201911387689 A CN201911387689 A CN 201911387689A CN 111145124 A CN111145124 A CN 111145124A
- Authority
- CN
- China
- Prior art keywords
- key
- corner
- point
- points
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000009466 transformation Effects 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 8
- 230000000694 effects Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本发明提供一种图像倾斜的校正方法及装置,包括以下步骤:形成关键角点预测网络模型;利用关键角点预测网络模型对待校正的文档图像进行预测,生成待校正的文档图像的16个关键点;拟合得到4个纸张角点;以4个纸张角点为原点,计算得到变换后的4个目标角点,通过透视变换原理,可以得到透视矩阵,使用透视变换,得到校正后的图像。本发明针对不同文档类型图像,采用不同的文档边界轮廓线发现和边缘点发现方法,能有效发现文档图像的边界轮廓和边界点,提高透视变换的效果,对提高文档图像的畸变校正具有很好的帮助。
Description
技术领域
本发明涉及图像识别技术领域,特别涉及一种图像倾斜的校正方法及装置。
背景技术
纸质文档转换为电子文档可有效节约文档管理费用、提高办公效率。在纸质文档转换为电子文档,通常采用扫描、拍照等的方式,在扫描或拍照的过程中,经常会出现文档扫描倾斜的情况。纸质档案的倾斜校正预处理工作,可有效提高光学字符识别的准确率,是文档数字化过程中的重要环节。在对图像进行识别的过程中,常存在识别的图像中文字的角度是倒置的,或是图像中的文字的倾斜角度呈现其他角度的情况,若直接对待识别图像,则容易出现图像识别失败或者识别不准确的情况,需要对图像进行校正。
中国专利申请公开号为CN104463126A,专利名称为“一种扫描文档图像的倾斜角自动检测方法”,利用区域边缘提取及文档书写方向判断,获取恰当的区域边缘图像,并对区域边缘进行区域增长、区域特征提取及直线有效性判断,获取有效直线,并提取扫描文档的倾斜度。
该公开文件能够处理各种图文混排、多种书写方向并存等复杂情形,但对于文档内图像的前景色与背景色很相近的文档效果不是很好,特别是边角被遮挡的情况下,区域边缘的获取比较困难,难以发现文档的倾斜度。
中国专利申请公开号为CN103413271A,专利名称为“基于局部信息的文档图像校正方法”,通过文档图像的平均梯度值确定文本行的尺度,然后通过空白行的自相似性进行文本行追踪,得到文本行的上下边界,然后再得到文本的四边形边界,依次进行倾斜形变校正以及局部双线性插值校正,完成对整幅图像的校正。
该公开文件利用文字行的特征进行文本区域的选择,然后进行倾斜形变校正,对于一些非文字的文档,比如表格文档和图形文档,很难去发现文字的边框。
另外,对于存在表格以及图形的文档,找到文档的纸张角点(左上角点、右上角点、右下角点、左下角点)也比较困难,另外,对于利用边缘检测来进行透视校正的方法,当文档前景色与背景色相近,特别是纸张角点部分或全部被遮挡时,通过常用的霍夫变换直线检测方法,也是很难发现纸张边缘与纸张角点的。
发明内容
有鉴于此,为了解决现有技术的问题,本发明的目的是提供一种图像倾斜的校正方法及装置,考虑到文档图像有可能存在边角被遮挡的情况,设计了文档边角点标注方法以及基于约束的边角点预测网络、边角点连线与拟合得到4条边,然后得到4个纸张角点,通过透视变换,可以完成倾斜图像的校正。
本发明的目的是通过以下技术方案实现的:
第一方面,本发明提供一种图像倾斜的校正方法,包括以下步骤:
步骤S1、形成关键角点预测网络模型;
步骤S2、利用关键角点预测网络模型对待校正的文档图像进行预测,生成待校正的文档图像的16个关键点;
步骤S3、对每条边上的6个关键点两两连接,并将连接后的曲线分别拟合得到4个边,延长所述4个边,得到4个纸张角点;
步骤S4、以4个纸张角点为原点,计算得到对应的纸张的最长的高度和宽度,以左上角点为基准,计算得到新的右上角点、右下角点和左下角点,然后得到变换后的4个目标角点,通过透视变换原理,可以得到透视矩阵,使用透视变换,得到校正后的图像。
进一步的,所述的形成关键角点预测网络模型的步骤包括:
步骤S101、使用文档边角点标注方法,标注每一张要训练的样本文档图像,形成文档边角点标注的训练集;
步骤S102、在文档边角点标注的训练集上,构建基于约束条件的关键角点预测网络模型。
进一步的,所述的文档边角点标注方法为:每张文档图像使用16个关键点进行标注,包括8个角点标注以及8个边内点的标注。
进一步的,当角点没有被遮挡时,其2个角点标注的位置重合。
进一步的,所述的8个边内点,由分别在4条边上各取的2个内点构成。
进一步的,每条边上的两个内点,分别在边长度的三分之一和三分之二处。
进一步的,所述的约束条件为:第二关键点、第三关键点、第四关键点和第五关键点在一条直线上;第六关键点、第七关键点、第八关键点和第九关键点在一条直线上;第十关键点、第十一关键点、第十二关键点和第十三关键点在一条直线上;第十四关键点、第十五关键点、第十六关键点和第一关键点在一条直线上。
第二方面,本发明提供一种图像倾斜的校正装置,包括获取模块、关键角点预测模块、纸张角点拟合模块和校正模块;获取模块的输入端获取待校正的文档图像;获取模块的输出端连接关键角点预测模块的输入端,关键角点预测模块的输出端连接纸张角点拟合模块的输入端;纸张角点拟合模块的输出端连接校正模块的输入端,校正模块的输出端输出校正后的文档图像。
进一步的,一种图像倾斜的校正装置,其特征在于:
获取模块:用于获取待校正的文档图像;
关键角点预测模块:存有关键角点预测模型,用于预测待校正的文档图像的16个关键点;
纸张角点拟合模块:根据文档图像的16个关键点,拟合生成文档图像的4个纸张角点;
校正模块:根据生成的4个纸张角点,计算得到4个目标角点,通过透视变换原理得到透视矩阵,使用透视变换,得到原文档图像的校正图像。
本发明的有益效果在于:
本发明针对不同文档类型图像,采用不同的内容轮廓线发现和边缘点发现方法,能有效发现文档图像的内容轮廓和边界点,提高透视变换的效果,对提高文档图像的畸变校正具有很好的帮助。
附图说明
图1为本发明的图像倾斜的校正方法的流程示意图;
图2为本发明的文档边角点标注示意图;
图3为本发明的图像倾斜的校正装置结构示意图。
具体实施例
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
实施例一
本发明首先构建了一个基于浅层卷积神经网络的边角预测网络,实现边角点的预测算法,并且这些关键点是满足一定的约束条件,即相近的关键点是属于同一个边的,由于一张文档图像的四个纸张角点有可能部分或全部被遮挡,当一个文档图像的角点被遮挡时,将需要使用2个边角点来刻画,因此可以使用8个边角点的方法,来刻画一个纸张各种情况下(包括被遮挡的角点个数分别为0,1,2,3,4,其中0表示没有被遮挡,1~4分别表示被遮挡的纸张角点个数)的全部角点,当边角点不存在遮挡,则对应的2个标注是位置重复的。同时,为了很好地刻画角点被遮挡时的边的方向,需要在每个边上分别取2个边内点,作为边方向的拟合辅助。
通过相应的文档图像角点标注算法,每张文档图像使用16个关键点进行标注,包括8个纸张角点标注以及8个边内点的标注,因此每条边上将有6个标注点,设计一个浅层卷积神经网络,完成基于约束条件的关键角点预测网络模型。
通过得到的边角点连线与拟合,可以得到文档的4个边(上边、右边、下边和左边),通过这4个边,可以获得4个角点,通过透视矩阵完成透视变换,可以完成文档图像的透视变换,得到规整的文档图像。
本实施例提供一种图像倾斜的校正方法,具体包括以下步骤:
步骤S1、形成关键角点预测网络模型;具体包括:
步骤S101、使用文档边角点标注方法,标注每一张要训练的样本文档图像,形成文档边角点标注的训练集。
文档边角点标注方法为:每张文档图像使用16个关键点进行标注,包括8个角点标注(左上角点、右上角点、右下角点、左下角点,没有遮挡时,两个编号标注的位置重合,如图2的1和2,9和10,分别表示同一个位置;有遮挡时,就采用顺序数字标号,如图2的5和6,13和14)以及8个边内点的标注(每条边上取2个内点,分别在边长度的三分之一和三分之二),这样每张文档图像需要标注16个边角点,每条边上将有6个边角点,如图2所示。
步骤S102、在文档边角点标注的训练集上,构建基于约束条件的关键角点预测网络模型:其中约束条件为角点(2,3,4,5)、(6,7,8,9)、(10,11,12,13)、(14,15,16,1)分别在一条直线上,即任意两点之间的方向是相同的(对应的6个直线的斜率相同),使用热力图关键点预测网络,预测网络结构包括6个卷积层与池化层的组合对,损失函数采用16个点的预测误差的平均值以及由24条边拟合生成的4条边(每条边上的4个关键点形成6个曲线,采用曲线拟合算法,完成4个边曲线的拟合)的误差的平均值,训练得到关键点预测网络模型。
步骤S2、利用关键角点预测网络模型对于未标注的待校正的文档图像进行预测,生成对应文档图像的16个关键点。
步骤S3、对每条边上的6个关键点两两连接,并将连接后的曲线分别拟合得到4个边,延长所述4个边,得到4个纸张角点。
对于文档图像生成的16个关键点,可以得到每个边上的6个关键点,由此得到任意2点的一条曲线,使用相似曲线拟合算法,可以得到每个边上的1条曲线。然后延长这4条边,得到4个交点,即4个纸张角点。
步骤S4、以4个纸张角点为原点,计算得到对应的纸张的最长的高度和宽度,以左上角点为基准,可以计算得到新的右上角点、右下角点和左下角点,然后得到变换后的4个目标角点,通过透视变换原理,可以得到透视矩阵,使用透视变换,得到原文档倾斜的校正图像。
实施例二
本实施例提供一种图像倾斜的校正装置,包括获取模块、关键角点预测模块、纸张角点拟合模块、校正模块;
获取模块:用于获取待校正的文档图像。
关键角点预测模块:存有关键角点预测模型,用于预测待校正的文档图像的16个关键点。
纸张角点拟合模块:根据文档图像的16个关键点,拟合生成文档图像的4个纸张角点。
校正模块:根据生成的4个纸张角点,计算得到4个目标角点,通过透视变换原理得到透视矩阵,使用透视变换,得到原文档图像的校正图像。
以上仅为说明本发明的实施方式,并不用于限制本发明,对于本领域的技术人员来说,凡在本发明的精神和原则之内,不经过创造性劳动所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种图像倾斜的校正方法,其特征在于:包括以下步骤:
步骤S1、形成关键角点预测网络模型;
步骤S2、利用关键角点预测网络模型对待校正的文档图像进行预测,生成待校正的文档图像的16个关键点;
步骤S3、对每条边上的6个关键点两两连接,并将连接后的曲线分别拟合得到4个边,延长所述4个边,得到4个纸张角点;
步骤S4、以4个纸张角点为原点,计算得到对应的纸张的最长的高度和宽度,以左上角点为基准,计算得到新的右上角点、右下角点和左下角点,然后得到变换后的4个目标角点,通过透视变换原理,可以得到透视矩阵,使用透视变换,得到校正后的图像。
2.根据权利要求1所述的一种图像倾斜的校正方法,其特征在于:所述的形成关键角点预测网络模型的步骤包括:
步骤S101、使用文档边角点标注方法,标注每一张要训练的样本文档图像,形成文档边角点标注的训练集;
步骤S102、在文档边角点标注的训练集上,构建基于约束条件的关键角点预测网络模型。
3.根据权利要求2所述的一种图像倾斜的校正方法,其特征在于:所述的文档边角点标注方法为:每张文档图像使用16个关键点进行标注,包括8个角点标注以及8个边内点的标注。
4.根据权利要求3所述的一种图像倾斜的校正方法,其特征在于:当角点没有被遮挡时,其2个角点标注的位置重合。
5.根据权利要求3所述的一种图像倾斜的校正方法,其特征在于:所述的8个边内点,由分别在4条边上各取的2个内点构成。
6.根据权利要求5所述的一种图像倾斜的校正方法,其特征在于:每条边上的两个内点,分别在边长度的三分之一和三分之二处。
7.根据权利要求2所述的一种图像倾斜的校正方法,其特征在于:所述的约束条件为:第二关键点、第三关键点、第四关键点和第五关键点在一条直线上;第六关键点、第七关键点、第八关键点和第九关键点在一条直线上;第十关键点、第十一关键点、第十二关键点和第十三关键点在一条直线上;第十四关键点、第十五关键点、第十六关键点和第一关键点在一条直线上。
8.一种图像倾斜的校正装置,其特征在于:包括获取模块、关键角点预测模块、纸张角点拟合模块和校正模块;获取模块的输入端获取待校正的文档图像;获取模块的输出端连接关键角点预测模块的输入端,关键角点预测模块的输出端连接纸张角点拟合模块的输入端;纸张角点拟合模块的输出端连接校正模块的输入端,校正模块的输出端输出校正后的文档图像。
9.根据权利要求8所述的获取模块:一种图像倾斜的校正装置,其特征在于:
获取模块:用于获取待校正的文档图像;
关键角点预测模块:存有关键角点预测模型,用于预测待校正的文档图像的16个关键点;
纸张角点拟合模块:根据文档图像的16个关键点,拟合生成文档图像的4个纸张角点;
校正模块:根据生成的4个纸张角点,计算得到4个目标角点,通过透视变换原理得到透视矩阵,使用透视变换,得到原文档图像的校正图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911387689.7A CN111145124A (zh) | 2019-12-30 | 2019-12-30 | 一种图像倾斜的校正方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911387689.7A CN111145124A (zh) | 2019-12-30 | 2019-12-30 | 一种图像倾斜的校正方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111145124A true CN111145124A (zh) | 2020-05-12 |
Family
ID=70521431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911387689.7A Withdrawn CN111145124A (zh) | 2019-12-30 | 2019-12-30 | 一种图像倾斜的校正方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111145124A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270656A (zh) * | 2020-09-10 | 2021-01-26 | 成都市精卫鸟科技有限责任公司 | 一种图像校正方法、装置、设备和介质 |
CN112949574A (zh) * | 2021-03-29 | 2021-06-11 | 中国科学院合肥物质科学研究院 | 一种基于深度学习的级联式文本关键字段检测方法 |
CN113077390A (zh) * | 2021-06-04 | 2021-07-06 | 中建电子商务有限责任公司 | 一种基于深度学习的图像摆正算法 |
CN113177885A (zh) * | 2021-03-30 | 2021-07-27 | 新东方教育科技集团有限公司 | 校正图像的方法、装置、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921804A (zh) * | 2018-07-04 | 2018-11-30 | 苏州大学 | 扭曲文档图像的校正方法 |
US20180365837A1 (en) * | 2017-06-14 | 2018-12-20 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and storage medium |
CN110378338A (zh) * | 2019-07-11 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种文本识别方法、装置、电子设备和存储介质 |
CN110598699A (zh) * | 2019-09-16 | 2019-12-20 | 华中科技大学 | 一种基于多光谱图像的防伪票据鉴伪系统和方法 |
-
2019
- 2019-12-30 CN CN201911387689.7A patent/CN111145124A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365837A1 (en) * | 2017-06-14 | 2018-12-20 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and storage medium |
CN108921804A (zh) * | 2018-07-04 | 2018-11-30 | 苏州大学 | 扭曲文档图像的校正方法 |
CN110378338A (zh) * | 2019-07-11 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种文本识别方法、装置、电子设备和存储介质 |
CN110598699A (zh) * | 2019-09-16 | 2019-12-20 | 华中科技大学 | 一种基于多光谱图像的防伪票据鉴伪系统和方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270656A (zh) * | 2020-09-10 | 2021-01-26 | 成都市精卫鸟科技有限责任公司 | 一种图像校正方法、装置、设备和介质 |
CN112270656B (zh) * | 2020-09-10 | 2022-02-22 | 成都市精卫鸟科技有限责任公司 | 一种图像校正方法、装置、设备和介质 |
CN112949574A (zh) * | 2021-03-29 | 2021-06-11 | 中国科学院合肥物质科学研究院 | 一种基于深度学习的级联式文本关键字段检测方法 |
CN113177885A (zh) * | 2021-03-30 | 2021-07-27 | 新东方教育科技集团有限公司 | 校正图像的方法、装置、存储介质及电子设备 |
CN113177885B (zh) * | 2021-03-30 | 2024-08-13 | 新东方教育科技集团有限公司 | 校正图像的方法、装置、存储介质及电子设备 |
CN113077390A (zh) * | 2021-06-04 | 2021-07-06 | 中建电子商务有限责任公司 | 一种基于深度学习的图像摆正算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111145124A (zh) | 一种图像倾斜的校正方法及装置 | |
CN109948510B (zh) | 一种文档图像实例分割方法及装置 | |
EP1999688B1 (en) | Converting digital images containing text to token-based files for rendering | |
CN111127339B (zh) | 一种文档图像的梯形畸变矫正方法及装置 | |
CN102790841B (zh) | 书籍的书脊区域中数字图像的检测和校正方法 | |
JP5387193B2 (ja) | 画像処理システム、画像処理装置およびプログラム | |
US8472727B2 (en) | Document comparison and analysis for improved OCR | |
CN110807454B (zh) | 基于图像分割的文字定位方法、装置、设备及存储介质 | |
US20120177291A1 (en) | Document comparison and analysis | |
CN102567300A (zh) | 图片文档的处理方法及装置 | |
WO2019056346A1 (zh) | 一种利用膨胀法校正文本图像倾斜的方法及装置 | |
CN102254171A (zh) | 一种基于文本边界的中文文档图像畸变校正方法 | |
JP4395188B2 (ja) | 文書画像認識装置および文書画像認識プログラムの記憶媒体 | |
KR20110105614A (ko) | 문자 인식 전처리 방법 및 장치 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN102419817A (zh) | 一种基于智能图像识别的自动文档扫描分析处理系统 | |
CN109508712A (zh) | 一种基于图像的汉语文字识别方法 | |
Lu et al. | A partition approach for the restoration of camera images of planar and curled document | |
CN112364863A (zh) | 证照文档的文字定位方法及系统 | |
CN102682457A (zh) | 一种对平面媒体图像进行适应屏幕阅读的重排方法 | |
CN110263784A (zh) | 智能的英语试卷成绩识别录入方法 | |
JP4208520B2 (ja) | 画像処理装置および画像処理方法、プログラムおよび記憶媒体 | |
KR20220019501A (ko) | 딥러닝 기반 전자책 자동변환 서비스 제공 방법 | |
KR100603618B1 (ko) | 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정장치 및 방법 | |
CN100363940C (zh) | 一种文稿图像几何畸变的校正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200512 |