[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111260586B - 扭曲文档图像的矫正方法和装置 - Google Patents

扭曲文档图像的矫正方法和装置 Download PDF

Info

Publication number
CN111260586B
CN111260586B CN202010066508.7A CN202010066508A CN111260586B CN 111260586 B CN111260586 B CN 111260586B CN 202010066508 A CN202010066508 A CN 202010066508A CN 111260586 B CN111260586 B CN 111260586B
Authority
CN
China
Prior art keywords
image
deformation
correction
document image
parameter prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010066508.7A
Other languages
English (en)
Other versions
CN111260586A (zh
Inventor
谢群义
钦夏孟
李煜林
韩钧宇
朱胜贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010066508.7A priority Critical patent/CN111260586B/zh
Publication of CN111260586A publication Critical patent/CN111260586A/zh
Priority to US17/151,783 priority patent/US11756170B2/en
Priority to KR1020210008087A priority patent/KR102428176B1/ko
Priority to EP21152493.9A priority patent/EP3839875B1/en
Priority to JP2021007302A priority patent/JP7108061B2/ja
Application granted granted Critical
Publication of CN111260586B publication Critical patent/CN111260586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Geometry (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

本发明实施例提供一种扭曲文档图像的矫正方法和装置,其中,扭曲文档图像的矫正方法包括:获取扭曲文档图像;将扭曲文档图像输入到矫正模型中,得到扭曲文档图像对应的矫正后的图像;其中,矫正模型是以图像样本集合为输入,以图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,图像样本存在扭曲。通过将待矫正的扭曲文档图像输入到矫正模型中,通过矫正模型可以获取扭曲文档图像对应的矫正后的图像,端到端的实现了文档图像矫正,提高了文档图像矫正的准确率,扩展了文档图像矫正的应用场景。

Description

扭曲文档图像的矫正方法和装置
技术领域
本发明实施例涉及大数据处理技术领域,尤其涉及一种扭曲文档图像的矫正方法和装置。
背景技术
文档图像矫正是将图像中褶皱或卷曲的文档恢复成平整状态的过程,可以简称为文档矫正。
文档矫正通常可以采用两种方法:全局形变参数预测和逐像素形变参数预测。前者只能预测得到一组唯一的形变参数,无法适用于像素点形变不一致的场景。后者可以针对所有像素点预测形变参数,但是,形变参数预测和图像恢复是两个独立的步骤。由于形变参数是稠密的,而且,图像恢复采用形变逆运算,根据形变参数的类型不同采用不同的方法,导致在图像恢复过程中产生大量的计算,文档图像矫正步骤繁琐,误差高,矫正效果差。
发明内容
本发明实施例提供一种扭曲文档图像的矫正方法和装置,提高了文档图像矫正的准确率,扩展了文档图像矫正的应用场景。
第一方面,本发明实施例提供一种扭曲文档图像的矫正方法,包括:
获取扭曲文档图像;
将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像;其中,所述矫正模型是以图像样本集合为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,所述图像样本存在扭曲。
可选的,所述矫正模型包括串联连接的形变参数预测模块和形变矫正模块;其中,所述形变参数预测模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,所述形变矫正模块是以所述图像样本集合和所述形变参数预测模块的输出结果为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型;
所述将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像,包括:
将所述扭曲文档图像输入到所述矫正模型中,通过所述形变参数预测模块输出中间结果,并根据所述中间结果通过所述形变矫正模块得到所述扭曲文档图像对应的矫正后的图像;所述中间结果包括所述扭曲文档图像中每个像素的形变参数。
可选的,所述形变参数预测模块包括至少两级串联连接的形变参数预测子模块;其中,第一级形变参数预测子模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,第二级形变参数预测子模块是以所述图像样本集合和所述第一级形变参数预测子模块的输出结果为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,以此类推;
所述中间结果为所述至少两级形变参数预测子模块中最后一级形变参数预测子模块的输出结果。
可选的,所述根据所述中间结果通过所述形变矫正模块得到所述扭曲文档图像对应的矫正后的图像,包括:
获取运行参数,所述运行参数指示并行进行矫正操作的像素的个数;
根据所述运行参数在所述扭曲文档图像中获取多个像素;
根据所述多个像素分别对应的形变参数通过所述形变矫正模块并行对所述多个像素进行矫正,得到矫正后的多个像素。
可选的,所述U型卷积神经网络模型包括编码单元和解码单元,所述编码单元和所述解码单元均包括多个卷积层,所述编码单元中的卷积层包括多次空洞卷积操作。
可选的,所述编码单元中的卷积层包括的多次空洞卷积操作之间的空洞比逐渐增大且互质。
可选的,所述U型卷积神经网络模型中在所述编码单元与所述解码单元之间还包括并行卷积单元,所述并行卷积单元用于对所述编码单元中最后一层卷积层输出的特征图并行执行多次空洞卷积操作,所述并行执行的多次空洞卷积操作之间的空洞比不同。
可选的,所述解码单元中的卷积层包括卷积操作和重组操作,所述卷积操作用于对特征图进行上采样,所述重组操作用于对上采样后的特征图进行矩阵的行数、列数、维数的重建。
第二方面,本发明实施例提供一种扭曲文档图像的矫正装置,包括:
获取模块,用于获取扭曲文档图像;
矫正模块,用于将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像;其中,所述矫正模型是以图像样本集合为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,所述图像样本存在扭曲。
可选的,所述矫正模型包括串联连接的形变参数预测模块和形变矫正模块;其中,所述形变参数预测模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,所述形变矫正模块是以所述图像样本集合和所述形变参数预测模块的输出结果为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型;
所述矫正模块具体用于:
将所述扭曲文档图像输入到所述矫正模型中,通过所述形变参数预测模块输出中间结果,并根据所述中间结果通过所述形变矫正模块得到所述扭曲文档图像对应的矫正后的图像;所述中间结果包括所述扭曲文档图像中每个像素的形变参数。
可选的,所述形变参数预测模块包括至少两级串联连接的形变参数预测子模块;其中,第一级形变参数预测子模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,第二级形变参数预测子模块是以所述图像样本集合和所述第一级形变参数预测子模块的输出结果为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,以此类推;
所述中间结果为所述至少两级形变参数预测子模块中最后一级形变参数预测子模块的输出结果。
可选的,所述矫正模块具体用于:
获取运行参数,所述运行参数指示并行进行矫正操作的像素的个数;
根据所述运行参数在所述扭曲文档图像中获取多个像素;
根据所述多个像素分别对应的形变参数通过所述形变矫正模块并行对所述多个像素进行矫正,得到矫正后的多个像素。
可选的,所述U型卷积神经网络模型包括编码单元和解码单元,所述编码单元和所述解码单元均包括多个卷积层,所述编码单元中的卷积层包括多次空洞卷积操作。
可选的,所述编码单元中的卷积层包括的多次空洞卷积操作之间的空洞比逐渐增大且互质。
可选的,所述U型卷积神经网络模型中在所述编码单元与所述解码单元之间还包括并行卷积单元,所述并行卷积单元用于对所述编码单元中最后一层卷积层输出的特征图并行执行多次空洞卷积操作,所述并行执行的多次空洞卷积操作之间的空洞比不同。
可选的,所述解码单元中的卷积层包括卷积操作和重组操作,所述卷积操作用于对特征图进行上采样,所述重组操作用于对上采样后的特征图进行矩阵的行数、列数、维数的重建。
第三方面,本发明实施例提供一种扭曲文档图像的矫正装置,包括:存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于调用所述存储器中存储的所述程序指令以实现本发明第一方面任一实施方式提供的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,包括:可读存储介质和计算机程序,所述计算机程序用于实现本发明第一方面任一实施方式提供的方法。
第五方面,本发明实施例提供一种程序产品,该程序产品包括计算机程序(即执行指令),该计算机程序存储在可读存储介质中。处理器可以从可读存储介质读取该计算机程序,处理器执行该计算机程序用于实现本发明第一方面任一实施方式提供的方法。
本发明实施例提供一种扭曲文档图像的矫正方法和装置,将待矫正的扭曲文档图像输入到矫正模型中,通过矫正模型可以获取扭曲文档图像对应的矫正后的图像,端到端的实现了文档图像矫正。由于矫正模型是根据大量样本训练出来的模型,因此,应用场景更加广泛,提高了文档图像矫正的准确率和效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的扭曲文档图像的矫正方法的一种流程图;
图2为本发明实施例提供的矫正模型的一种结构示意图;
图3为本发明实施例提供的形变参数预测模块的一种结构示意图;
图4为本发明实施例提供的U型卷积神经网络模型的一种结构示意图;
图5为本发明实施例提供的扭曲文档图像的矫正装置的一种结构示意图;
图6为本发明实施例提供的扭曲文档图像的矫正装置的另一种结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的扭曲文档图像的矫正方法的一种流程图。本实施例提供的扭曲文档图像的矫正方法,执行主体可以为扭曲文档图像的矫正装置。如图1所示,本实施例提供的扭曲文档图像的矫正方法,可以包括:
S101、获取扭曲文档图像。
其中,扭曲文档图像的内容存在扭曲现象,例如,存在褶皱现象、卷曲现象等。
需要说明,本实施例对扭曲文档图像的具体内容不做限定。可选的,扭曲文档图像的内容可以包括但不限于以下至少一项:表格、各种语言符号(如中文、英文、韩文、法文等的文字符号)、数字、图章、条形码、二维码或各种发票(如出租车发票、机票、油票、各种商品的税收发票等)。
S102、将扭曲文档图像输入到矫正模型中,得到扭曲文档图像对应的矫正后的图像。
其中,矫正模型是以图像样本集合为输入,以图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,图像样本存在扭曲。
具体的,矫正模型是以存在扭曲现象的大量的图像样本作为输入,以每个图像样本对应的矫正后的图像作为输出训练得到的。可选的,为了提升矫正模型的准确性,图像样本对应的矫正后的图像不存在扭曲现象。可选的,图像样本集合中图像样本对应的矫正后的图像不存在扭曲现象的比例可以大于预设比例,本实施例对预设比例的具体取值不做限定。由于矫正模型是通过大量样本训练出来的端到端的模型,当存在扭曲的图像中各个像素点具有不同形变时也具有很好的矫正效果,相比于现有技术中采用全局形变参数预测的方法实现文档图像矫正,显著提升了矫正效果,应用场景更加广泛。而且,由于矫正模型是端到端的模型,相比于现有技术中逐像素形变参数预测结合形变逆运算实现文档图像矫正,避免了矫正步骤繁琐、算法建模匹配以及计算量大的问题,提高了文档图像矫正的效率和效果。
需要说明的是,本实施例对矫正模型的类型不做限定。可选的,矫正模型的类型可以为下列中的任意一个:神经网络模型、深度算法模型和机器算法模型。可选的,神经网络模型可以包括但不限于全卷积网络(Fully Convolutional Networks,FCN)模型、卷积网络在生物医学图像分割中的应用(Convolutional Networks for Biomedical ImageSegmentation,U-net)模型。
需要说明的是,本实施例对于矫正模型的训练方法不做限定,根据模型类型的不同可以有所不同。
可见,本实施例提供一种扭曲文档图像的矫正方法,将待矫正的扭曲文档图像输入到矫正模型中,通过矫正模型可以获取扭曲文档图像对应的矫正后的图像,端到端的实现了文档图像矫正。由于矫正模型是根据大量样本训练出来的模型,因此,本实施例提供的扭曲文档图像的矫正方法,应用场景更加广泛,提高了文档图像矫正的准确率和效果。
在上述图1所示实施例的基础上,参见图2,图2为本发明实施例提供的矫正模型的一种结构示意图。矫正模型可以包括串联连接的形变参数预测模块21和形变矫正模块22。其中,形变参数预测模块21是以图像样本集合为输入,以图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型。形变矫正模块22是以图像样本集合和形变参数预测模块21的输出结果为输入,以图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型。
具体的,矫正模型在功能上划分为形变参数预测模块和形变矫正模块。形变参数预测模块和形变矫正模块都是通过训练得到的模型。其中,形变参数预测模块可以得到图像中每个像素的形变参数。形变参数用于指示每个像素的形变程度。形变矫正模块基于形变参数预测模块输出的像素级别的形变参数,可以实现对图像进行扭曲矫正。
基于图2示出的矫正模型,S102中,将扭曲文档图像输入到矫正模型中,得到扭曲文档图像对应的矫正后的图像,可以包括:
将扭曲文档图像输入到矫正模型中,通过形变参数预测模块输出中间结果,并根据中间结果通过形变矫正模块得到扭曲文档图像对应的矫正后的图像。其中,中间结果包括扭曲文档图像中每个像素的形变参数。
由于形变参数预测模块和形变矫正模块都是通过训练得到的模型,是可学习的,相比于现有技术中采用形变逆运算对图像进行恢复,避免了算法建模匹配以及计算量大的问题,通过可学习的形变矫正模块基于像素的形变参数对图像进行矫正,降低了矫正误差,提升了矫正效果。
下面,以形变矫正模块采用双线性插值算法作为示例,对图像矫正的原理进行说明。需要说明,形变矫正模块不限定采用双线性插值算法,还可以采用其他可学习的算法。
假设,扭曲文档图像S中像素的坐标表示为(u′,v'),扭曲文档图像S经过矫正后的图像D中与像素(u',v')对应的像素的坐标表示为(u,v)。文档图像矫正,可以理解为在扭曲文档图像S与矫正后的图像D之间建立一个坐标映射关系,使得矫正后的图像D中的每个像素(u,v)都能在扭曲文档图像S中找到对应的像素(u',v'),即满足:
D(u,v)=S(u′,v′)。
假设,在通过形变参数预测模块得到的中间结果中,像素的形变参数表示为(Δu,Δv)。其中,Δu表示像素在u方向上的偏移量,Δv表示像素在v方向上的偏移量。像素(u′,v′)与像素(u,v)之间满足:
u′=u+Δu,
v′=v+Δv,
假设,像素(u',v')是浮点型的,在扭曲文档图像S中无法直接获取其对应的像素值,因此,采用双线性插值的方法来得到目标像素值,即:
S(u',v')=w0*S([u'],[v'])+w1*S([u′]+1,[v′])+w2*S([u′],[v′]+1)+w3*S([u′]+1,[v']+1),
且,
Figure SMS_1
Figure SMS_2
Figure SMS_3
Figure SMS_4
w0=q0/(q0+q1+q2+q3),
w1=q1/(q0+q1+q2+q3),
w2=q2/(q0+q1+q2+q3),
w3=q3/(q0+q1+q2+q3).
由于双线性插值算法是可导的,因此,采用双线性插值算法的形变矫正模块是可学习的,保证了矫正模型端到端的梯度回传,降低了矫正误差,提升了矫正效果。
可选的,形变参数预测模块可以包括至少两级串联连接的形变参数预测子模块。其中,第一级形变参数预测子模块211是以图像样本集合为输入,以图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,第二级形变参数预测子模块212是以图像样本集合和第一级形变参数预测子模块211的输出结果为输入,以图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,以此类推。
中间结果为至少两级形变参数预测子模块中最后一级形变参数预测子模块的输出结果。
具体的,形变参数预测模块包括多个形变参数预测子模块,每个形变参数预测子模块都是通过训练得到的模型。第一级形变参数预测子模块是以图像样本集合为输入,以图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型。从第二级形变参数预测子模块开始,是以图像样本集合和上一级形变参数预测子模块的输出结果为输入,以图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型。
通过设置多个形变参数预测子模块,可以逐级进行更细粒度的回归,使得得到的像素的形变参数更为准确,进而提升了矫正模型端到端的图像矫正效果。
可选的,每个形变参数预测子模块在训练后可以通过相同的监督信息进行回归验证。在本实施例中,可以包括两种监督信息,一种是扭曲图像与非扭曲图像对应像素点的坐标偏移量,另一种是非扭曲图像。通过两种监督信息可以监督形变参数预测子模块学习像素坐标对之间的差值。在实际应用中,由于获取相互对应的扭曲图像和非扭曲图像对的难度较大,因此,也可以对非扭曲图像采用图像处理的方法合成非扭曲图像,并保存两者的坐标偏移量用于训练和监督。
需要说明,本实施例对形变参数预测子模块的数量不做限定。例如,可以为2个。
可选的,根据中间结果通过形变矫正模块得到扭曲文档图像对应的矫正后的图像,可以包括:
获取运行参数,运行参数指示并行进行矫正操作的像素的个数。
根据运行参数在扭曲文档图像中获取多个像素。
根据多个像素分别对应的形变参数通过形变矫正模块并行对多个像素进行矫正,得到矫正后的多个像素。
利用形变矫正模块,通过对多个像素并行执行矫正操作,提升了文档图像矫正的效率。
需要说明,本实施例对运行参数的取值不做限定,可以根据处理器能力的不同而有所不同。
下面,基于图2示出的矫正模型,结合图4,对其中的U型卷积神经网络模型进行示例性说明。图4为本发明实施例提供的U型卷积神经网络模型的一种结构示意图。示例性的,图4中的U型卷积神经网络模型可以为Unet模型。需要说明,各个示例中的具体参数取值并不对U型卷积神经网络模型的实现进行限定。
可选的,U型卷积神经网络模型可以包括编码单元和解码单元,编码单元和解码单元均包括多个卷积层,编码单元中的卷积层可以包括多次空洞卷积操作。
参见图4,图4中左侧示出了编码单元,右侧示出了解码单元。编码单元和解码单元均包括4个卷积层。其中,编码单元中的卷积层可以包括3次空洞卷积(Dilation Conv)操作。可选的,空洞卷积操作的卷积核可以为3*3。
通过设置U型卷积神经网络模型中的卷积操作为空洞卷积操作,可以在模型其他参数不变的情况下倍率的提升模型的感受野,从而提升模型运行的准确性。例如,卷积核为3*3,空洞卷积操作的空洞比(Dilation Ratio)为1时,其感受野为3*3,当空洞卷积操作的空洞比为2时,其感受野便扩大为5*5,以此类推。
需要说明,本实施例对编码单元和解码单元包括的卷积层的数目,每个卷积层包括的空洞卷积操作的数目不做限定。
需要说明,本实施例对卷积层的名称不做限定。例如,卷积层也可以称为块(block)。
可选的,编码单元中的卷积层包括的多次空洞卷积操作之间的空洞比逐渐增大且互质。
通过设置卷积层中多次空洞卷积操作之间的空洞比逐渐增大且互质,进一步扩大了模型的感受野,进一步提升了模型运行的准确性。
需要说明,本实施例对卷积层包括的空洞卷积操作的数目以及各个空洞卷积操作的空洞比的数值不做限定。例如,编码单元中的卷积层包括3次空洞卷积操作,3次空洞卷积操作之间的空洞比依次为1,2,3。
可选的,U型卷积神经网络模型中在编码单元与解码单元之间还包括并行卷积单元,并行卷积单元用于对编码单元中最后一层卷积层输出的特征图并行执行多次空洞卷积操作,并行执行的多次空洞卷积操作之间的空洞比不同。
通过设置并行卷积单元,通过并行执行空洞比不同的多次空洞卷积操作后,使得特征图具备多个尺度的感受野,进一步扩大了模型的整体感受野,提升了模型运行的准确性。
需要说明,本实施例对并行卷积单元中包括的并行执行的空洞卷积操作的数目以及各个空洞卷积操作的空洞比的数值不做限定。例如,并行执行的空洞卷积操作为4次,空洞比依次为3,6,9,12。
可选的,解码单元中的卷积层包括卷积操作和重组操作,卷积操作用于对特征图进行上采样,重组操作用于对上采样后的特征图进行矩阵的行数、列数、维数的重建。
具体的,在U型卷积神经网络模型的编码单元,模型通常通过降采样将输入的图像(也称为原图)编码成特征图,例如,通过4个2倍降采样block将输入的图像编码成一个1/16的特征图。而在U型卷积神经网络模型的解码单元,模型通常通过对应的升采样(或称为上采样)将编码单元输出的特征图恢复成原图大小的特征图。在这个过程中,上采样block的结构设计,直接决定了恢复得到的特征图的质量。在本实施例中,解码单元中的卷积层包括卷积操作和重组操作,上采样block为可学习模块。通过卷积操作实现对特征图进行上采样,例如,分辨率为H*W的特征图通过卷积操作得到分辨率为(r*H)*(r*W)的特征图,再通过重组操作(也称为reshape操作)实现对上采样后的特征图进行矩阵的行数、列数、维数的重建。
由于解码单元中的卷积层是可学习的,提升了模型运行的准确性。
图5为本发明实施例提供的扭曲文档图像的矫正装置的一种结构示意图。本实施例提供的扭曲文档图像的矫正装置,用于执行图1~图4所示实施例提供的扭曲文档图像的矫正方法。如图5所示,本实施例提供的扭曲文档图像的矫正装置,可以包括:
获取模块51,用于获取扭曲文档图像;
矫正模块52,用于将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像;其中,所述矫正模型是以图像样本集合为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,所述图像样本存在扭曲。
可选的,所述矫正模型包括串联连接的形变参数预测模块和形变矫正模块52;其中,所述形变参数预测模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,所述形变矫正模块52是以所述图像样本集合和所述形变参数预测模块的输出结果为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型;
所述矫正模块52具体用于:
将所述扭曲文档图像输入到所述矫正模型中,通过所述形变参数预测模块输出中间结果,并根据所述中间结果通过所述形变矫正模块52得到所述扭曲文档图像对应的矫正后的图像;所述中间结果包括所述扭曲文档图像中每个像素的形变参数。
可选的,所述形变参数预测模块包括至少两级串联连接的形变参数预测子模块;其中,第一级形变参数预测子模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,第二级形变参数预测子模块是以所述图像样本集合和所述第一级形变参数预测子模块的输出结果为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,以此类推;
所述中间结果为所述至少两级形变参数预测子模块中最后一级形变参数预测子模块的输出结果。
可选的,所述矫正模块52具体用于:
获取运行参数,所述运行参数指示并行进行矫正操作的像素的个数;
根据所述运行参数在所述扭曲文档图像中获取多个像素;
根据所述多个像素分别对应的形变参数通过所述形变矫正模块52并行对所述多个像素进行矫正,得到矫正后的多个像素。
可选的,所述U型卷积神经网络模型包括编码单元和解码单元,所述编码单元和所述解码单元均包括多个卷积层,所述编码单元中的卷积层包括多次空洞卷积操作。
可选的,所述编码单元中的卷积层包括的多次空洞卷积操作之间的空洞比逐渐增大且互质。
可选的,所述U型卷积神经网络模型中在所述编码单元与所述解码单元之间还包括并行卷积单元,所述并行卷积单元用于对所述编码单元中最后一层卷积层输出的特征图并行执行多次空洞卷积操作,所述并行执行的多次空洞卷积操作之间的空洞比不同。
可选的,所述解码单元中的卷积层包括卷积操作和重组操作,所述卷积操作用于对特征图进行上采样,所述重组操作用于对上采样后的特征图进行矩阵的行数、列数、维数的重建。
本实施例提供的扭曲文档图像的矫正装置,用于执行图1~图4所示实施例提供的扭曲文档图像的矫正方法,其技术原理和技术效果类似,此处不再赘述。
图6为本发明实施例提供的扭曲文档图像的矫正装置的另一种结构示意图。如图6所示,扭曲文档图像的矫正装置可以包括处理器61和存储器62。所述存储器62用于存储指令,所述处理器61用于执行所述存储器62中存储的指令,以使所述扭曲文档图像的矫正装置执行图1~图4所示实施例提供的扭曲文档图像的矫正方法,技术原理和技术效果相似,此处不再赘述。
可选的,处理器可以为图形处理器(Graphics Processing Unit,GPU)。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (18)

1.一种扭曲文档图像的矫正方法,其特征在于,包括:
获取扭曲文档图像;
将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像;其中,所述矫正模型是以图像样本集合为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,所述图像样本存在扭曲;
所述矫正模型包括串联连接的形变参数预测模块和形变矫正模块;所述将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像,包括:
将所述扭曲文档图像输入到所述矫正模型中,通过所述形变参数预测模块输出中间结果,并根据所述中间结果通过所述形变矫正模块得到所述扭曲文档图像对应的矫正后的图像;所述中间结果包括所述扭曲文档图像中每个像素的形变参数。
2.根据权利要求1所述的方法,其特征在于,所述形变参数预测模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,所述形变矫正模块是以所述图像样本集合和所述形变参数预测模块的输出结果为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型。
3.根据权利要求2所述的方法,其特征在于,所述形变参数预测模块包括至少两级串联连接的形变参数预测子模块;其中,第一级形变参数预测子模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,第二级形变参数预测子模块是以所述图像样本集合和所述第一级形变参数预测子模块的输出结果为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,以此类推;
所述中间结果为所述至少两级形变参数预测子模块中最后一级形变参数预测子模块的输出结果。
4.根据权利要求2所述的方法,其特征在于,所述根据所述中间结果通过所述形变矫正模块得到所述扭曲文档图像对应的矫正后的图像,包括:
获取运行参数,所述运行参数指示并行进行矫正操作的像素的个数;
根据所述运行参数在所述扭曲文档图像中获取多个像素;
根据所述多个像素分别对应的形变参数通过所述形变矫正模块并行对所述多个像素进行矫正,得到矫正后的多个像素。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述U型卷积神经网络模型包括编码单元和解码单元,所述编码单元和所述解码单元均包括多个卷积层,所述编码单元中的卷积层包括多次空洞卷积操作。
6.根据权利要求5所述的方法,其特征在于,所述编码单元中的卷积层包括的多次空洞卷积操作之间的空洞比逐渐增大且互质。
7.根据权利要求5所述的方法,其特征在于,所述U型卷积神经网络模型中在所述编码单元与所述解码单元之间还包括并行卷积单元,所述并行卷积单元用于对所述编码单元中最后一层卷积层输出的特征图并行执行多次空洞卷积操作,所述并行执行的多次空洞卷积操作之间的空洞比不同。
8.根据权利要求5所述的方法,其特征在于,所述解码单元中的卷积层包括卷积操作和重组操作,所述卷积操作用于对特征图进行上采样,所述重组操作用于对上采样后的特征图进行矩阵的行数、列数、维数的重建。
9.一种扭曲文档图像的矫正装置,其特征在于,包括:
获取模块,用于获取扭曲文档图像;
矫正模块,用于将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像;其中,所述矫正模型是以图像样本集合为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,所述图像样本存在扭曲;
所述矫正模型包括串联连接的形变参数预测模块和形变矫正模块,所述矫正模块具体用于:
将所述扭曲文档图像输入到所述矫正模型中,通过所述形变参数预测模块输出中间结果,并根据所述中间结果通过所述形变矫正模块得到所述扭曲文档图像对应的矫正后的图像;所述中间结果包括所述扭曲文档图像中每个像素的形变参数。
10.根据权利要求9所述的装置,其特征在于,其中,所述形变参数预测模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,所述形变矫正模块是以所述图像样本集合和所述形变参数预测模块的输出结果为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型。
11.根据权利要求10所述的装置,其特征在于,所述形变参数预测模块包括至少两级串联连接的形变参数预测子模块;其中,第一级形变参数预测子模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,第二级形变参数预测子模块是以所述图像样本集合和所述第一级形变参数预测子模块的输出结果为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的U型卷积神经网络模型,以此类推;
所述中间结果为所述至少两级形变参数预测子模块中最后一级形变参数预测子模块的输出结果。
12.根据权利要求10所述的装置,其特征在于,所述矫正模块具体用于:
获取运行参数,所述运行参数指示并行进行矫正操作的像素的个数;
根据所述运行参数在所述扭曲文档图像中获取多个像素;
根据所述多个像素分别对应的形变参数通过所述形变矫正模块并行对所述多个像素进行矫正,得到矫正后的多个像素。
13.根据权利要求10至12任一项所述的装置,其特征在于,所述U型卷积神经网络模型包括编码单元和解码单元,所述编码单元和所述解码单元均包括多个卷积层,所述编码单元中的卷积层包括多次空洞卷积操作。
14.根据权利要求13所述的装置,其特征在于,所述编码单元中的卷积层包括的多次空洞卷积操作之间的空洞比逐渐增大且互质。
15.根据权利要求13所述的装置,其特征在于,所述U型卷积神经网络模型中在所述编码单元与所述解码单元之间还包括并行卷积单元,所述并行卷积单元用于对所述编码单元中最后一层卷积层输出的特征图并行执行多次空洞卷积操作,所述并行执行的多次空洞卷积操作之间的空洞比不同。
16.根据权利要求13所述的装置,其特征在于,所述解码单元中的卷积层包括卷积操作和重组操作,所述卷积操作用于对特征图进行上采样,所述重组操作用于对上采样后的特征图进行矩阵的行数、列数、维数的重建。
17.一种扭曲文档图像的矫正装置,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于调用所述存储器中存储的所述程序指令以实现如权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,包括:可读存储介质和计算机程序,所述计算机程序用于实现如权利要求1-8中任一项所述的方法。
CN202010066508.7A 2020-01-20 2020-01-20 扭曲文档图像的矫正方法和装置 Active CN111260586B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010066508.7A CN111260586B (zh) 2020-01-20 2020-01-20 扭曲文档图像的矫正方法和装置
US17/151,783 US11756170B2 (en) 2020-01-20 2021-01-19 Method and apparatus for correcting distorted document image
KR1020210008087A KR102428176B1 (ko) 2020-01-20 2021-01-20 왜곡된 문서 이미지의 교정 방법과 장치
EP21152493.9A EP3839875B1 (en) 2020-01-20 2021-01-20 Method and apparatus for correcting distorted document image
JP2021007302A JP7108061B2 (ja) 2020-01-20 2021-01-20 歪んだドキュメント画像の矯正方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010066508.7A CN111260586B (zh) 2020-01-20 2020-01-20 扭曲文档图像的矫正方法和装置

Publications (2)

Publication Number Publication Date
CN111260586A CN111260586A (zh) 2020-06-09
CN111260586B true CN111260586B (zh) 2023-07-04

Family

ID=70952492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010066508.7A Active CN111260586B (zh) 2020-01-20 2020-01-20 扭曲文档图像的矫正方法和装置

Country Status (5)

Country Link
US (1) US11756170B2 (zh)
EP (1) EP3839875B1 (zh)
JP (1) JP7108061B2 (zh)
KR (1) KR102428176B1 (zh)
CN (1) CN111260586B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667556A (zh) * 2020-06-22 2020-09-15 深圳壹账通智能科技有限公司 表格矫正方法及装置
CN111783778A (zh) * 2020-08-18 2020-10-16 山东旗帜信息有限公司 一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法
CN112597998A (zh) * 2021-01-07 2021-04-02 天津师范大学 一种基于深度学习的扭曲图像矫正方法、装置和存储介质
CN113011144B (zh) * 2021-03-30 2024-01-30 中国工商银行股份有限公司 表单信息的获取方法、装置和服务器
CN113034406B (zh) * 2021-04-27 2024-05-14 中国平安人寿保险股份有限公司 扭曲文档恢复方法、装置、设备及介质
KR102440898B1 (ko) * 2021-05-10 2022-09-06 아주대학교산학협력단 이미지의 편위 수정 방법 및 시스템
WO2022239907A1 (ko) * 2021-05-10 2022-11-17 아주대학교산학협력단 이미지의 편위 수정 방법 및 시스템
CN113591846A (zh) * 2021-07-23 2021-11-02 作业帮教育科技(北京)有限公司 图像扭曲系数提取方法、扭曲矫正方法及系统、电子设备
CN113792730B (zh) * 2021-08-17 2022-09-27 北京百度网讯科技有限公司 文档图像的矫正方法、装置、电子设备和存储介质
CN113591832B (zh) * 2021-08-20 2024-04-05 杭州数橙科技有限公司 图像处理模型的训练方法、文档图像处理方法及设备
CN113724163B (zh) * 2021-08-31 2024-06-07 平安科技(深圳)有限公司 基于神经网络的图像矫正方法、装置、设备及介质
CN114202648B (zh) * 2021-12-08 2024-04-16 北京百度网讯科技有限公司 文本图像矫正方法、训练方法、装置、电子设备以及介质
CN114937271B (zh) * 2022-05-11 2023-04-18 中维建通信技术服务有限公司 一种通信数据智能录入校对方法
CN115497112B (zh) * 2022-09-20 2023-10-13 北京百度网讯科技有限公司 表单识别方法、装置、设备以及存储介质
CN116453131B (zh) * 2023-06-15 2023-10-20 荣耀终端有限公司 文档图像矫正方法、电子设备及存储介质
CN117468084B (zh) * 2023-12-27 2024-05-28 浙江晶盛机电股份有限公司 晶棒生长控制方法、装置、长晶炉系统和计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105118040A (zh) * 2015-09-18 2015-12-02 中国科学院自动化研究所 基于结构激光线的文档图像畸变矫正方法
CN106952236A (zh) * 2017-03-13 2017-07-14 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于bp神经网络的鱼眼镜头拍摄图像畸变矫正方法
CN108335266A (zh) * 2017-04-14 2018-07-27 陈思远 一种文档图像畸变的矫正方法
CN108510467A (zh) * 2018-03-28 2018-09-07 西安电子科技大学 基于深度可变形卷积神经网络的sar图像目标识别方法
CN109753971A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 扭曲文字行的矫正方法及装置、字符识别方法及装置
CN109993713A (zh) * 2019-04-04 2019-07-09 百度在线网络技术(北京)有限公司 车载平视显示系统图像畸变矫正方法和装置
CN110570373A (zh) * 2019-09-04 2019-12-13 北京明略软件系统有限公司 畸变校正方法和装置、计算机可读的存储介质及电子装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3093869B2 (ja) 1992-04-28 2000-10-03 オリンパス光学工業株式会社 画像取り込み装置
JPH118763A (ja) 1997-04-24 1999-01-12 Sharp Corp 画像読取装置
US9953246B2 (en) * 2014-12-16 2018-04-24 The Regents Of The University Of California Feature-preserving noise removal
JP2018067154A (ja) 2016-10-19 2018-04-26 ソニーセミコンダクタソリューションズ株式会社 演算処理回路および認識システム
JP6799325B2 (ja) 2017-05-29 2020-12-16 地方独立行政法人東京都立産業技術研究センター 画像補正装置、画像補正方法、注目点認識装置、注目点認識方法及び異常検知システム
CN107749048B (zh) * 2017-07-31 2021-06-08 中国银联股份有限公司 图像矫正系统及方法、色盲图像矫正系统及方法
CN114820494B (zh) 2017-08-30 2023-08-29 威里利生命科学有限责任公司 用于可视化流动的使用机器学习的散斑对比度分析
CN107609549B (zh) * 2017-09-20 2021-01-08 北京工业大学 一种自然场景下证件图像的文本检测方法
JP2019097055A (ja) 2017-11-24 2019-06-20 キヤノン株式会社 制御装置、撮像装置およびプログラム
CN108968916B (zh) * 2018-06-19 2021-04-16 艾瑞迈迪医疗科技(北京)有限公司 呼吸运动校正方法、装置、计算机设备和存储介质
US10311556B1 (en) * 2018-07-02 2019-06-04 Capital One Services, Llc Systems and methods for image data processing to remove deformations contained in documents
US11004183B2 (en) * 2018-07-10 2021-05-11 The Board Of Trustees Of The Leland Stanford Junior University Un-supervised convolutional neural network for distortion map estimation and correction in MRI
CN109598270B (zh) * 2018-12-04 2020-05-05 龙马智芯(珠海横琴)科技有限公司 扭曲文字的识别方法及装置、存储介质及处理器
CN109635714B (zh) * 2018-12-07 2023-05-30 光典信息发展有限公司 文档扫描图像的矫正方法及装置
CN109829437B (zh) * 2019-02-01 2022-03-25 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
US11024002B2 (en) * 2019-03-14 2021-06-01 Intel Corporation Generating gaze corrected images using bidirectionally trained network
CN109933756B (zh) * 2019-03-22 2022-04-15 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN110060313B (zh) * 2019-04-19 2023-12-19 上海联影医疗科技股份有限公司 一种图像伪影校正方法和系统
CN110136069B (zh) * 2019-05-07 2023-05-16 语联网(武汉)信息技术有限公司 文本图像矫正方法、装置与电子设备
CN110211048B (zh) * 2019-05-28 2020-06-16 国家电网有限公司 一种基于卷积神经网络的复杂档案图像倾斜矫正方法
CN110287960B (zh) * 2019-07-02 2021-12-10 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110427938A (zh) * 2019-07-26 2019-11-08 中科视语(北京)科技有限公司 一种基于深度学习的不规则文字识别装置和方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105118040A (zh) * 2015-09-18 2015-12-02 中国科学院自动化研究所 基于结构激光线的文档图像畸变矫正方法
CN106952236A (zh) * 2017-03-13 2017-07-14 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于bp神经网络的鱼眼镜头拍摄图像畸变矫正方法
CN108335266A (zh) * 2017-04-14 2018-07-27 陈思远 一种文档图像畸变的矫正方法
CN109753971A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 扭曲文字行的矫正方法及装置、字符识别方法及装置
CN108510467A (zh) * 2018-03-28 2018-09-07 西安电子科技大学 基于深度可变形卷积神经网络的sar图像目标识别方法
CN109993713A (zh) * 2019-04-04 2019-07-09 百度在线网络技术(北京)有限公司 车载平视显示系统图像畸变矫正方法和装置
CN110570373A (zh) * 2019-09-04 2019-12-13 北京明略软件系统有限公司 畸变校正方法和装置、计算机可读的存储介质及电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于神经网络的数字图像几何畸变矫正方法;陆懿 等;;计算机工程与设计(17);第4290-4292页 *

Also Published As

Publication number Publication date
EP3839875A1 (en) 2021-06-23
KR102428176B1 (ko) 2022-08-02
CN111260586A (zh) 2020-06-09
JP2021100247A (ja) 2021-07-01
KR20210037620A (ko) 2021-04-06
US11756170B2 (en) 2023-09-12
EP3839875B1 (en) 2022-06-29
US20210192696A1 (en) 2021-06-24
JP7108061B2 (ja) 2022-07-27

Similar Documents

Publication Publication Date Title
CN111260586B (zh) 扭曲文档图像的矫正方法和装置
CN112750082B (zh) 基于融合注意力机制的人脸超分辨率方法及系统
Ahn et al. Image super-resolution via progressive cascading residual network
CN110992270A (zh) 基于注意力的多尺度残差注意网络图像超分辨率重建方法
JP6275260B2 (ja) 入力低解像度(lr)画像を処理して出力高解像度(hr)画像にする方法
CN110490082B (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN112070670B (zh) 全局-局部分离注意力机制的人脸超分辨率方法及系统
CN111476719A (zh) 图像处理方法、装置、计算机设备及存储介质
CN111598087B (zh) 不规则文字的识别方法、装置、计算机设备及存储介质
CN114140786B (zh) 基于HRNet编码与双分支解码的场景文本识别方法
CN117391995B (zh) 渐进式人脸图像复原方法、系统、设备及存储介质
CN113538246A (zh) 基于无监督多阶段融合网络的遥感图像超分辨率重建方法
CN103473797B (zh) 基于压缩感知采样数据修正的空域可缩小图像重构方法
CN116797456A (zh) 图像超分辨率重建方法、系统、设备和存储介质
Liu et al. Facial image inpainting using multi-level generative network
CN113240584A (zh) 一种基于图片边缘信息的多任务手势图片超分辨率方法
CN109996085B (zh) 模型训练方法、图像处理方法、装置及电子设备
CN112634126B (zh) 人像减龄处理方法、训练方法、装置、设备及存储介质
CN104463793B (zh) 一种视频超分辨率重建方法及其系统
CN115187834A (zh) 一种票据识别的方法及装置
CN114445629A (zh) 模型生成、图像分割方法、系统、电子设备及存储介质
Li et al. Clustering based multiple branches deep networks for single image super-resolution
Chang et al. Multi-attention residual network for image super resolution
CN116523759B (zh) 基于频率分解与重启机制的图像超分辨率重建方法与系统
CN118644821B (zh) 基于注意力特征融合与多列特征增强的人群计数方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant