CN114742722A - 文档矫正方法、装置、电子设备及存储介质 - Google Patents
文档矫正方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114742722A CN114742722A CN202210316683.6A CN202210316683A CN114742722A CN 114742722 A CN114742722 A CN 114742722A CN 202210316683 A CN202210316683 A CN 202210316683A CN 114742722 A CN114742722 A CN 114742722A
- Authority
- CN
- China
- Prior art keywords
- document image
- corrected
- coordinate
- coordinates
- blank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000003062 neural network model Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000013507 mapping Methods 0.000 claims description 27
- 238000006073 displacement reaction Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003702 image correction Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本申请提供一种文档矫正方法、装置、电子设备及存储介质,该方法包括先获取待矫正的文档图像;然后将所述待矫正的文档图像输入到训练获得的神经网络模型中,得到所述待矫正的文档图像的扭曲参数;基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像,从而可以通过神经网络高效的得到待矫正的文档图像的扭曲参数,并根据扭曲参数对所述待矫正的文档图像进行矫正,进而准确的得到平滑的矫正后的文档图像。
Description
技术领域
本申请涉及文档矫正技术领域,尤其涉及一种文档矫正方法、装置、电子设备及存储介质。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随机人工智能技术的发展,计算机视觉(Computer Vision,即CV)相关技术广泛应用于各类教育和效率工具类产品中。图像中纸质文档的信息提取是其中重要的技术之一,而现实场景中由于拍摄设备、环境、纸张状态等因素的多样性,使得计算机处理的文档图像中的文档纸张容易出现各种变形,如倾斜、褶皱、扭曲、卷曲等,从而严重影响计算机算法对文字识别的准确率和用户对文档图像的观感。文档图像矫正任务旨在去除输入图像中文档纸张所存在的上述形变,输出平整的、端正的文档图像。
发明内容
针对上述技术问题,亟需一种改进的方法,能够准确的对扭曲文档图像进行矫正。
基于上述目的,本申请提供了一种文档矫正方法,包括:
获取待矫正的文档图像;
将所述待矫正的文档图像输入到训练获得的神经网络模型中,得到所述待矫正的文档图像的扭曲参数;
基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像。
在一些示例性实施例中,训练所述神经网络模型的过程包括:
通过3D建模系统生成扭曲样本文档图像及所述扭曲样本文档图像对应的样本扭曲参数;
基于所述扭曲样本文档图像和所述样本扭曲参数训练所述神经网络模型的基准模型,得到所述神经网络模型。
在一些示例性实施例中,基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像,包括:
确定所述待矫正的文档图像对应的矫正空白文档图像;
基于所述扭曲参数确定所述矫正空白文档图像的空白像素点与所述待矫正的文档图像的原始像素点的坐标对应关系;
基于所述坐标对应关系将所述空白像素点的像素值替换为所述原始像素点的像素值,得到矫正后的文档图像。
在一些示例性实施例中,所述扭曲参数包括:图像边界像素点的坐标;确定所述待矫正的文档图像对应的矫正空白文档图像,包括:
基于所述图像边界像素点的坐标确定所述待矫正的文档图像对应的矫正空白文档图像。
在一些示例性实施例中,基于所述扭曲参数确定所述矫正空白文档图像的空白像素点与所述待矫正的文档图像的原始像素点的坐标对应关系;包括:
将所述空白像素点的坐标转化为三维空间中的空间矫正坐标;
基于所述扭曲参数确定所述待矫正的文档图像的像素点的矫正映射公式;
基于所述矫正映射公式确定所述空间矫正坐标对应的所述原始像素点的坐标;
将所述空白像素点的坐标与所述原始像素点的坐标进行关联。
在一些示例性实施例中,基于所述扭曲参数确定所述矫正空白文档图像的空白像素点与所述待矫正的文档图像的原始像素点的坐标对应关系;包括:
基于所述扭曲参数确定所述待矫正的文档图像的像素点的矫正映射公式;
基于所述矫正映射公式确定所述原始像素点的坐标对应的三维空间中的空间矫正坐标;
将所述空间矫正坐标转化为所述空白像素点的坐标;
将所述空白像素点的坐标与所述原始像素点的坐标进行关联。
在一些示例性实施例中,所述扭曲参数包括:缩放系数、相机焦距、三维纸张旋转矩阵以及三维纸张位移向量;所述矫正映射公式为:
其中,(α,β)表示原始像素点的坐标,(x,y,z)表示所述空间矫正坐标,(x,y)表示所述待矫正的文档图像的中心点坐标,f表示所述相机焦距,s表示所述缩放系数,R表示所述三维纸张旋转矩阵,t表示所述三维纸张位移向量。
在一些示例性实施例中,所述空间矫正坐标包括第一坐标、第二坐标以及第三坐标,所述空白像素点的坐标包括横坐标和纵坐标;所述扭曲参数包括:扭曲多项式系数,所述扭曲多项式系数用于确定所述第一坐标与所述第三坐标的关系;将所述空白像素点的坐标转化为三维空间中的空间矫正坐标,包括:
基于所述纵坐标确定所述第二坐标;
基于所述横坐标与所述扭曲多项式系数确定所述第一坐标和所述第三坐标。
在一些示例性实施例中,所述空间矫正坐标包括第一坐标、第二坐标以及第三坐标,所述空白像素点的坐标包括横坐标和纵坐标;将所述空间矫正坐标转化为所述空白像素点的坐标,包括:
基于所述第二坐标确定所述纵坐标;
在所述第一坐标对应的坐标轴以及所述第三坐标对应的坐标轴所在的平面绘制所述第一坐标与所述第三坐标的关系曲线,基于所述关系曲线的长度确定所述横坐标。
基于同一发明构思,本申请示例性实施例还提供了一种文档矫正装置,包括:
获取模块,获取待矫正的文档图像;
参数确定模块,将所述待矫正的文档图像输入到训练获得的神经网络模型中,得到所述待矫正的文档图像的扭曲参数;
矫正模块,基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像。
基于同一发明构思,本申请示例性实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述程序时实现如上所述的文档矫正方法。
基于同一发明构思,本申请示例性实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的文档矫正方法。
从上面所述可以看出,本申请提供的文档矫正方法、装置、电子设备及存储介质,先获取待矫正的文档图像;然后将所述待矫正的文档图像输入到训练获得的神经网络模型中,得到所述待矫正的文档图像的扭曲参数;基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像,从而可以通过神经网络高效的得到待矫正的文档图像的扭曲参数,并根据扭曲参数对所述待矫正的文档图像进行矫正,进而准确的得到平滑的矫正后的文档图像。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对示例性实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的示例性实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请示例性实施例的应用场景示意图;
图2为本申请示例性实施例的一种文档矫正方法的流程示意图;
图3为本申请示例性实施例的一种三维空间坐标系中文档图像的示意图;
图4为本申请示例性实施例的一种所述第一坐标与所述第三坐标的关系曲线的示意图;
图5为本申请示例性实施例的一种文档矫正装置的结构示意图;
图6为本申请示例性实施例的一种具体的电子设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
根据本申请的实施方式,提出了一种文档矫正方法、装置、电子设备及存储介质。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。
发明概述
现有技术中,不能准确的对扭曲的文档图像进行矫正,且得到的矫正后的文档图像不平滑。
本申请的发明人发现,造成上述现有技术中文档矫正缺陷的原因是:
现有技术中,针对文档图像矫正,一种方法是通过边缘检测或关键点检测算法获得图像中纸张的四边形轮廓(或近似计算出四边形轮廓),然后通过对原图应用透视变换得到矫正后的图像。但是,这种方法均假设图像中的文档是平整的,即无卷曲或褶皱的。因而无法处理现实场景中普遍存在的纸张卷曲问题,如摊开书本的书脊附近的纸张卷曲等。另一种方法是通过大量的样本数据训练深度学习模型,然后由深度学习模型直接将扭曲的文档图像矫正为平整的文档图像,但是,这种直接由深度学习模型输出的矫正后的文档图像往往不平滑,故会影响文档中内容识别的准确率和用户的观感。
为了解决上述问题,本申请提供了一种文档矫正方法,具体包括:
先获取待矫正的文档图像;然后将所述待矫正的文档图像输入到训练获得的神经网络模型中,得到所述待矫正的文档图像的扭曲参数;基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像,从而可以通过神经网络高效的得到待矫正的文档图像的扭曲参数,并根据扭曲参数对所述待矫正的文档图像进行矫正,进而准确的得到平滑的矫正后的文档图像。
在介绍了本申请的基本原理之后,下面具体介绍本申请的各种非限制性实施方式。
应用场景总览
参考图1,其为本申请示例性实施例提供的文档矫正方法的应用场景示意图。该应用场景包括终端设备101、服务器102、和数据存储系统103。其中,终端设备101、服务器102以及数据存储系统103之间均可通过有线或无线的通信网络连接。终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备视、个人数字助理(personal digital assistant,PDA)或其它能够实现上述功能的电子设备等。服务器102和数据存储系统103均可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
服务器102用于向终端设备101的用户提供文档矫正服务,终端设备101中安装有与服务器102通信的客户端,用户可通过该客户端进行矫正后的文档图像的获取。在文档矫正过程中,客户端通过调用终端设备101输入组件(如触摸屏、摄像机等)来获取待矫正的文档图像;客户端将待矫正的文档图像发送给服务器102。服务器102通过训练获得的神经网络模型,得到所述待矫正的文档图像的扭曲参数,并根据所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像。在获取到矫正后的文档图像后,将获取结果发送给终端设备101,从而准确的对待矫正的文档图像进行矫正。
数据存储系统103中存储有大量训练数据,每个训练数据包括一个待矫正的文档图像,以及该待矫正的文档图像对应的扭曲参数。服务器102可基于大量训练数据对神经网络模型进行训练,使得神经网络模型能够根据输入的待矫正的文档图像,得到所述待矫正的文档图像的扭曲参数。训练数据的来源包括但不限于已有的数据库、从互联网获取的数据或者在用户使用客户端时上传的数据。当神经网络模型的输出满足预定的要求时,服务器102可基于神经网络模型向用户提供文档图像的处理服务,同时,服务器102还可以基于新增的训练数据不断优化神经网络模型。
下面结合图1的应用场景,来描述根据本申请示例性实施方式的文档矫正方法。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
示例性方法
参考图2,本申请示例性实施例提供了一种文档矫正方法,该方法包括以下步骤:
S101,获取待矫正的文档图像。
具体实施时,先获取待矫正的文档图像,可选的,该待矫正的文档图像可以是直接拍摄的纸质文档的照片,也可以是从第三方获取的需要矫正的文档图像。
S102,将所述待矫正的文档图像输入到训练获得的神经网络模型中,得到所述待矫正的文档图像的扭曲参数。
具体实施时,在获取到待矫正的文档图像后,将该待矫正的文档图像输入到训练获得的神经网络模型中,得到该待矫正的文档图像的扭曲参数。可选的,该扭曲参数可以表示待矫正的文档图像的扭曲程度,通过该扭曲参数可以得到待矫正的文档图像上的像素点与矫正后的文档图像上的像素点的映射关系。可选的,该扭曲参数可以包括:图像边界像素点的坐标、缩放系数、相机焦距、扭曲多项式系数、三维纸张旋转矩阵以及三维纸张位移向量。
在一些实施中,训练所述神经网络模型的过程包括:
通过3D建模系统生成扭曲样本文档图像及所述扭曲样本文档图像对应的样本扭曲参数;
基于所述扭曲样本文档图像和所述样本扭曲参数训练所述神经网络模型的基准模型,得到所述神经网络模型。
具体实施时,可以在3D建模软件中生成平整的文档图像,然后对该平整图像进行扭曲变形,得到多个扭曲样本文档图像,并记录每个扭曲样本文档图像对应的样本扭曲参数。在根据所述扭曲样本文档图像和所述样本扭曲参数训练所述神经网络模型的基准模型时,可以采用标准的有监督训练框架进行训练。可选的,基准模型可以根据需要选择,具体的可以选择现有的任何一种网络模型作为基准模型,在此不做限定,例如可以选用卷积神经网络模型作为基准模型。可选的,训练神经网络模型时的损失函数可以根据需要进行选择,在此不做限定,例如可以选用L2损失函数,即把目标值与估计值的差值的平方和最小化。需要说明的是,训练好的神经网络模型输入为待矫正的文档图像,输出是扭曲参数,该扭曲参数可以包括多个维度相等的向量。
S103,基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像。
具体实施时,在得到扭曲参数后,由于该扭曲参数可以得到待矫正的文档图像上的像素点与矫正后的文档图像上的像素点的映射关系,通过该映射关系就可以对所述待矫正的文档图像进行矫正,得到矫正后的文档图像。由于该矫正后的文档图像并不是由神经网络模型直接输出的,而是由扭曲参数得到扭曲的文档图像与平整的文档图像的映射关系,然后根据该映射关系得到矫正后的文档图像,因此,该矫正后的文档图像更加平滑,具有较佳的用户观感,也更有利于OCR(Optical Character Recognition,光学字符识别)等技术对文档内容的识别提取。
在一些示例性实施例中,基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像,包括:
确定所述待矫正的文档图像对应的矫正空白文档图像;
基于所述扭曲参数确定所述矫正空白文档图像的空白像素点与所述待矫正的文档图像的原始像素点的坐标对应关系;
基于所述坐标对应关系将所述空白像素点的像素值替换为所述原始像素点的像素值,得到矫正后的文档图像。
具体实施时,在对待矫正的文档图像进行矫正时,先确定一个平整的空白文档图像,即矫正空白文档图像。可选的,该矫正空白文档图像的大小可以根据需要进行确定,例如将矫正空白文档图像确定为A4纸张大小。需要说明的是,该矫正空白文档图像的大小与最终得到的矫正后的文档图像的大小相同,即矫正后的文档图像是在该矫正空白文档图像的基础上生成的。在确定了矫正空白文档图像后,根据所述扭曲参数确定所述矫正空白文档图像的空白像素点与所述待矫正的文档图像的原始像素点的坐标对应关系;然后根据所述坐标对应关系将所述空白像素点的像素值替换为所述原始像素点的像素值,得到矫正后的文档图像。
在一些示例性实施例中,基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像,包括:
基于所述扭曲参数确定所述待矫正的文档图像的原始像素点与矫正后的文档图像的目标像素点的坐标对应关系;
基于所述坐标对应关系,将所述原始像素点移动到对应的所述目标像素点的位置,得到矫正后的文档图像。
需要说明的是,在通过扭曲参数得到矫正后的文档图像时,一种做法,可以直接确定出待矫正文档图像中每个像素点在矫正后的对应的位置,从而得到矫正后的文档图像,但是,由于文档图像在扭曲时,可能导致多个像素点的位置是重合的,这时若直接将重合的像素点作为一个像素点进行位移,可能会导致平整的文档图像上一些位置上没有像素点,因此还需要进一步对该平整的文档图像中的空白区域插入一些像素点,进而保证最终得到的矫正后的文档图像是平滑的。在通过扭曲参数得到矫正后的文档图像时,另一种做法,可以先确定一个平整的空白文档图像,即矫正空白文档图像,然后将该空白文档图像上的每个像素点的像素值替换为对应的待矫正的文档图像的原始像素点的像素值,从而得到矫正后的文档图像。由于空白文档图像上的所有像素点都会对应一个像素值,所以可以直接得到平滑的矫正后的文档图像,且不用再进行插入像素点的步骤。
在一些示例性实施例中,所述扭曲参数包括:图像边界像素点的坐标;确定所述待矫正的文档图像对应的矫正空白文档图像,包括:
基于所述图像边界像素点的坐标确定所述待矫正的文档图像对应的矫正空白文档图像。
具体实施时,图像边界像素点的坐标具体可以包括:Xmin,Xmax,Ymin,Ymax,四个坐标,其中,Xmin表示最小的横坐标,Xmax表示最大的横坐标,Ymin表示最小的纵坐标,Ymax表示最大的纵坐标,在确定矫正空白文档图像时,可以通过Xmin、Xmax、Ymin以及Ymax确定任意一个像素点的坐标是否落入矫正空白文档图像。也可以先确定出矫正空白文档图像四个边界点的坐标,即(Xmin,Ymin)、(Xmin,Ymax)、(Xmax,Ymin)以及(Xmax,Ymax),在确定四个边界点的坐标后,就可以根据该四个边界点的坐标确定出矫正空白文档图像的大小。
在一些示例性实施例中,基于所述扭曲参数确定所述矫正空白文档图像的空白像素点与所述待矫正的文档图像的原始像素点的坐标对应关系;包括:
将所述空白像素点的坐标转化为三维空间中的空间矫正坐标;
基于所述扭曲参数确定所述待矫正的文档图像的像素点的矫正映射公式;
基于所述矫正映射公式确定所述空间矫正坐标对应的所述原始像素点的坐标;
将所述空白像素点的坐标与所述原始像素点的坐标进行关联。
具体实施时,矫正空白文档图像的空白像素点为二维空间的坐标,需要将该二维空间的坐标转化为三维空间中的空间矫正坐标,然后根据所述扭曲参数确定所述待矫正的文档图像的像素点的矫正映射公式,并根据所述矫正映射公式确定所述空间矫正坐标对应的所述原始像素点的坐标。
在一些示例性实施例中,所述空间矫正坐标包括第一坐标、第二坐标以及第三坐标,所述空白像素点的坐标包括横坐标和纵坐标;所述扭曲参数包括:扭曲多项式系数,所述扭曲多项式系数用于确定所述第一坐标与所述第三坐标的关系;将所述空白像素点的坐标转化为三维空间中的空间矫正坐标,包括:
基于所述纵坐标确定所述第二坐标;
基于所述横坐标与所述扭曲多项式系数确定所述第一坐标和所述第三坐标。
具体实施时,所述空白像素点的坐标是二维空间的坐标,即只包括横坐标和纵坐标,当想要将所述空白像素点的坐标与所述原始像素点的坐标进行关联时,需要先将二维空间的坐标转化为三维空间的坐标,从而通过三维空间的坐标可以很好的还原出文档图像的扭曲情况,参考图3,为三维空间中扭曲的文档图像,可以看到在三维空间中,扭曲的文档图像会沿着三个维度的方向进行延伸,在将二维空间坐标转化为三维空间坐标时,可以假设三维世界中的纸张形态满足类圆柱体假设,即纸张的左右两边为平行的直线,上下两边为平行的曲线,且上下边的曲线可用多项式方程描述,在该假设下,可以基于所述纵坐标确定所述第二坐标,然后基于所述横坐标与所述扭曲多项式系数确定所述第一坐标和所述第三坐标,该扭曲多项式系数用于确定所述第一坐标与所述第三坐标的关系,例如,参考图4,其中,假设曲线对应的多项式方程为:z=g(x),g即为扭曲多项式系数,在得到扭曲多项式系数g之后就可以确定出第一坐标和第三坐标的对应关系曲线,图4中,曲线的长度就是二维空间坐标的横坐标,因此,可以基于横坐标与扭曲多项式系数确定所述第一坐标和所述第三坐标。
在一些示例性实施例中,基于所述扭曲参数确定所述矫正空白文档图像的空白像素点与所述待矫正的文档图像的原始像素点的坐标对应关系;包括:
基于所述扭曲参数确定所述待矫正的文档图像的像素点的矫正映射公式;
基于所述矫正映射公式确定所述原始像素点的坐标对应的三维空间中的空间矫正坐标;
将所述空间矫正坐标转化为所述空白像素点的坐标;
将所述空白像素点的坐标与所述原始像素点的坐标进行关联。
具体实施时,在确定所述矫正空白文档图像的空白像素点与所述待矫正的文档图像的原始像素点的坐标对应关系时,可以先基于所述扭曲参数确定所述待矫正的文档图像的像素点的矫正映射公式;然后基于所述矫正映射公式确定所述原始像素点的坐标对应的三维空间中的空间矫正坐标;在得到空间矫正坐标后,需要将该空间矫正坐标转化为所述空白像素点的坐标,需要说明的是,空白像素点的坐标为二维空间的坐标。
在一些示例性实施例中,所述空间矫正坐标包括第一坐标、第二坐标以及第三坐标,所述空白像素点的坐标包括横坐标和纵坐标;将所述空间矫正坐标转化为所述空白像素点的坐标,包括:
基于所述第二坐标确定所述纵坐标;
在所述第一坐标对应的坐标轴以及所述第三坐标对应的坐标轴所在的平面绘制所述第一坐标与所述第三坐标的关系曲线,基于所述关系曲线的长度确定所述横坐标。
具体实施时,参考图3,为三维空间中扭曲的文档图像的示意图,空间矫正坐标的第一坐标即文档图像沿x轴的坐标,第二坐标即文档图像沿y轴的坐标,第三坐标即文档图像沿z轴的坐标,在将所述空间矫正坐标转化为所述空白像素点的坐标时,可以先基于所述第二坐标(沿y轴的坐标)确定所述空白像素点的纵坐标,然后在所述第一坐标对应的坐标轴(x轴)以及所述第三坐标对应的坐标轴(z轴)所在的平面绘制所述第一坐标与所述第三坐标的关系曲线,并基于所述关系曲线的长度确定所述横坐标。由于将扭曲了的文档图像平整展开后就可以得到平整后的文档图像沿横坐标方向的长度。因此,图4中曲线的长度即为所述空白像素点的横坐标。
在一些示例性实施例中,所述扭曲参数包括:缩放系数、相机焦距、三维纸张旋转矩阵以及三维纸张位移向量;所述矫正映射公式为:
其中,(α,β)表示原始像素点的坐标,(x,y,z)表示所述空间矫正坐标,(x,y)表示所述待矫正的文档图像的中心点坐标,f表示所述相机焦距,s表示所述缩放系数,R表示所述三维纸张旋转矩阵,t表示所述三维纸张位移向量。
需要说明的是,上述矫正映射公式只是本申请实施提供的一种具体的矫正映射公式,本领域技术人员也可以根据需要设置其他的矫正映射公式,在此不做限定。例如将上述公式中的R替换为RT,即R的转置矩阵。
本申请提供的文档矫正方法,先获取待矫正的文档图像;然后将所述待矫正的文档图像输入到训练获得的神经网络模型中,得到所述待矫正的文档图像的扭曲参数;基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像,从而可以通过神经网络高效的得到待矫正的文档图像的扭曲参数,并根据扭曲参数对所述待矫正的文档图像进行矫正,进而准确的得到平滑的矫正后的文档图像。
示例性设备
基于同一发明构思,与上述任意示例性实施例方法相对应的,本申请还提供了一种文档矫正装置。
参考图5,所述文档矫正装置,包括:
获取模块201,获取待矫正的文档图像;
参数确定模块202,将所述待矫正的文档图像输入到训练获得的神经网络模型中,得到所述待矫正的文档图像的扭曲参数;
矫正模块203,基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述示例性实施例的装置用于实现前述任一示例性实施例中相应的文档矫正方法,并且具有相应的方法示例性实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意示例性实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一示例性实施例所述的文档矫正方法。
图6示出了本示例性实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器301、存储器302、输入/输出接口303、通信接口304和总线305。其中处理器301、存储器302、输入/输出接口303和通信接口304通过总线305实现彼此之间在设备内部的通信连接。
处理器301可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书示例性实施例所提供的技术方案。
存储器302可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器302可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书示例性实施例所提供的技术方案时,相关的程序代码保存在存储器302中,并由处理器301来调用执行。
输入/输出接口303用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口304用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线305包括一通路,在设备的各个组件(例如处理器301、存储器302、输入/输出接口303和通信接口304)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器301、存储器302、输入/输出接口303、通信接口304以及总线305,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书示例性实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述示例性实施例的电子设备用于实现前述任一示例性实施例中相应的文档矫正方法,并且具有相应的方法示例性实施例的有益效果,在此不再赘述。
示例性程序产品
基于同一发明构思,与上述任意示例性实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一示例性实施例所述的文档矫正方法。
本示例性实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述示例性实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一示例性实施例所述的文档矫正方法,并且具有相应的方法示例性实施例的有益效果,在此不再赘述。
所在领域的普通技术人员应当理解:以上任何示例性实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上示例性实施例或者不同示例性实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请示例性实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请示例性实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请示例性实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请示例性实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请示例性实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体示例性实施例对本申请进行了描述,但是根据前面的描述,这些示例性实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的示例性实施例。
本申请示例性实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请示例性实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.一种文档矫正方法,其特征在于,包括:
获取待矫正的文档图像;
将所述待矫正的文档图像输入到训练获得的神经网络模型中,得到所述待矫正的文档图像的扭曲参数;
基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像。
2.根据权利要求1所述的方法,其特征在于,训练所述神经网络模型的过程包括:
通过3D建模系统生成扭曲样本文档图像及所述扭曲样本文档图像对应的样本扭曲参数;
基于所述扭曲样本文档图像和所述样本扭曲参数训练所述神经网络模型的基准模型,得到所述神经网络模型。
3.根据权利要求1所述的方法,其特征在于,基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像,包括:
确定所述待矫正的文档图像对应的矫正空白文档图像;
基于所述扭曲参数确定所述矫正空白文档图像的空白像素点与所述待矫正的文档图像的原始像素点的坐标对应关系;
基于所述坐标对应关系将所述空白像素点的像素值替换为所述原始像素点的像素值,得到矫正后的文档图像。
4.根据权利要求3所述的方法,其特征在于,所述扭曲参数包括:图像边界像素点的坐标;确定所述待矫正的文档图像对应的矫正空白文档图像,包括:
基于所述图像边界像素点的坐标确定所述待矫正的文档图像对应的矫正空白文档图像。
5.根据权利要求3所述的方法,其特征在于,基于所述扭曲参数确定所述矫正空白文档图像的空白像素点与所述待矫正的文档图像的原始像素点的坐标对应关系;包括:
将所述空白像素点的坐标转化为三维空间中的空间矫正坐标;
基于所述扭曲参数确定所述待矫正的文档图像的像素点的矫正映射公式;
基于所述矫正映射公式确定所述空间矫正坐标对应的所述原始像素点的坐标;
将所述空白像素点的坐标与所述原始像素点的坐标进行关联。
6.根据权利要求3所述的方法,其特征在于,基于所述扭曲参数确定所述矫正空白文档图像的空白像素点与所述待矫正的文档图像的原始像素点的坐标对应关系;包括:
基于所述扭曲参数确定所述待矫正的文档图像的像素点的矫正映射公式;
基于所述矫正映射公式确定所述原始像素点的坐标对应的三维空间中的空间矫正坐标;
将所述空间矫正坐标转化为所述空白像素点的坐标;
将所述空白像素点的坐标与所述原始像素点的坐标进行关联。
8.根据权利要求5所述的方法,其特征在于,所述空间矫正坐标包括第一坐标、第二坐标以及第三坐标,所述空白像素点的坐标包括横坐标和纵坐标;所述扭曲参数包括:扭曲多项式系数,所述扭曲多项式系数用于确定所述第一坐标与所述第三坐标的关系;将所述空白像素点的坐标转化为三维空间中的空间矫正坐标,包括:
基于所述纵坐标确定所述第二坐标;
基于所述横坐标与所述扭曲多项式系数确定所述第一坐标和所述第三坐标。
9.根据权利要求6所述的方法,其特征在于,所述空间矫正坐标包括第一坐标、第二坐标以及第三坐标,所述空白像素点的坐标包括横坐标和纵坐标;将所述空间矫正坐标转化为所述空白像素点的坐标,包括:
基于所述第二坐标确定所述纵坐标;
在所述第一坐标对应的坐标轴以及所述第三坐标对应的坐标轴所在的平面绘制所述第一坐标与所述第三坐标的关系曲线,基于所述关系曲线的长度确定所述横坐标。
10.一种文档矫正装置,其特征在于,包括:
获取模块,获取待矫正的文档图像;
参数确定模块,将所述待矫正的文档图像输入到训练获得的神经网络模型中,得到所述待矫正的文档图像的扭曲参数;
矫正模块,基于所述扭曲参数对所述待矫正的文档图像进行矫正,得到矫正后的文档图像。
11.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述程序时实现如权利要求1至9中任意一项所述的方法。
12.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行根据权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210316683.6A CN114742722A (zh) | 2022-03-28 | 2022-03-28 | 文档矫正方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210316683.6A CN114742722A (zh) | 2022-03-28 | 2022-03-28 | 文档矫正方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114742722A true CN114742722A (zh) | 2022-07-12 |
Family
ID=82276913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210316683.6A Pending CN114742722A (zh) | 2022-03-28 | 2022-03-28 | 文档矫正方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114742722A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471846A (zh) * | 2022-09-22 | 2022-12-13 | 中电金信软件有限公司 | 一种图像矫正方法、装置、电子设备及可读存储介质 |
CN116453131A (zh) * | 2023-06-15 | 2023-07-18 | 荣耀终端有限公司 | 文档图像矫正方法、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778739A (zh) * | 2016-12-02 | 2017-05-31 | 中国人民解放军国防科学技术大学 | 一种曲面化变形文本页面图像矫正方法 |
CN113627428A (zh) * | 2021-08-11 | 2021-11-09 | Oppo广东移动通信有限公司 | 文档图像矫正方法、装置、存储介质及智能终端设备 |
CN113792730A (zh) * | 2021-08-17 | 2021-12-14 | 北京百度网讯科技有限公司 | 文档图像的矫正方法、装置、电子设备和存储介质 |
CN114187437A (zh) * | 2022-02-11 | 2022-03-15 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本识别方法、图像矫正方法、电子设备和存储介质 |
-
2022
- 2022-03-28 CN CN202210316683.6A patent/CN114742722A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778739A (zh) * | 2016-12-02 | 2017-05-31 | 中国人民解放军国防科学技术大学 | 一种曲面化变形文本页面图像矫正方法 |
CN113627428A (zh) * | 2021-08-11 | 2021-11-09 | Oppo广东移动通信有限公司 | 文档图像矫正方法、装置、存储介质及智能终端设备 |
CN113792730A (zh) * | 2021-08-17 | 2021-12-14 | 北京百度网讯科技有限公司 | 文档图像的矫正方法、装置、电子设备和存储介质 |
CN114187437A (zh) * | 2022-02-11 | 2022-03-15 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本识别方法、图像矫正方法、电子设备和存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471846A (zh) * | 2022-09-22 | 2022-12-13 | 中电金信软件有限公司 | 一种图像矫正方法、装置、电子设备及可读存储介质 |
CN115471846B (zh) * | 2022-09-22 | 2023-06-27 | 中电金信软件有限公司 | 一种图像矫正方法、装置、电子设备及可读存储介质 |
CN116453131A (zh) * | 2023-06-15 | 2023-07-18 | 荣耀终端有限公司 | 文档图像矫正方法、电子设备及存储介质 |
CN116453131B (zh) * | 2023-06-15 | 2023-10-20 | 荣耀终端有限公司 | 文档图像矫正方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110555795B (zh) | 高解析度风格迁移 | |
CN112823379B (zh) | 用于训练机器学习模型的方法和装置、用于视频风格转移的装置 | |
CN108198141B (zh) | 实现瘦脸特效的图像处理方法、装置及计算设备 | |
CN107566688B (zh) | 一种基于卷积神经网络的视频防抖方法、装置及图像对齐装置 | |
CN105765624B (zh) | 内容感知图像旋转 | |
CN114155546B (zh) | 一种图像矫正方法、装置、电子设备和存储介质 | |
CN112489114B (zh) | 图像转换方法、装置、计算机可读存储介质及电子设备 | |
CN110163786B (zh) | 一种去除水印的方法、装置及设备 | |
JP2017130929A (ja) | 撮像装置により取得された文書画像の補正方法及び補正装置 | |
CN111008935B (zh) | 一种人脸图像增强方法、装置、系统及存储介质 | |
JP2019117577A (ja) | プログラム、学習処理方法、学習モデル、データ構造、学習装置、および物体認識装置 | |
CN114742722A (zh) | 文档矫正方法、装置、电子设备及存储介质 | |
CN114511041B (zh) | 模型训练方法、图像处理方法、装置、设备和存储介质 | |
CN110827301B (zh) | 用于处理图像的方法和装置 | |
CN110956131A (zh) | 单目标追踪方法、装置及系统 | |
CN111325798A (zh) | 相机模型纠正方法、装置、ar实现设备及可读存储介质 | |
CN112837213A (zh) | 脸型调整图像生成方法、模型训练方法、装置和设备 | |
CN110210279B (zh) | 目标检测方法、装置及计算机可读存储介质 | |
CN113516697B (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN110660091A (zh) | 一种图像配准处理方法、装置和拍照批改作业系统 | |
CN111932466B (zh) | 一种图像去雾方法、电子设备及存储介质 | |
WO2022027191A1 (zh) | 平面矫正方法及装置、计算机可读介质和电子设备 | |
JP2002150280A (ja) | 歪み補正方式 | |
WO2023246403A1 (zh) | 模型的训练方法、水印复原方法及相关设备 | |
CN111833413A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |