[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111914654B - 一种文本版面分析方法、装置、设备和介质 - Google Patents

一种文本版面分析方法、装置、设备和介质 Download PDF

Info

Publication number
CN111914654B
CN111914654B CN202010635621.2A CN202010635621A CN111914654B CN 111914654 B CN111914654 B CN 111914654B CN 202010635621 A CN202010635621 A CN 202010635621A CN 111914654 B CN111914654 B CN 111914654B
Authority
CN
China
Prior art keywords
resolution
stage
semantic features
features
text image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010635621.2A
Other languages
English (en)
Other versions
CN111914654A (zh
Inventor
王波
张百灵
周炬
朱华柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Auntec Co ltd
Original Assignee
Auntec Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Auntec Co ltd filed Critical Auntec Co ltd
Priority to CN202010635621.2A priority Critical patent/CN111914654B/zh
Publication of CN111914654A publication Critical patent/CN111914654A/zh
Application granted granted Critical
Publication of CN111914654B publication Critical patent/CN111914654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例公开了一种文本版面分析方法、装置、介质及电子设备,其中,该方法包括:获取待分析的文本图像,对所述文本图像进行预处理;将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素;其中,所述语义分割算法模型包含编码阶段和解码阶段;所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合;所述解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合,以确定所述文本图像中的版面元素。本发明实施例提高了版面分析的识别效果。

Description

一种文本版面分析方法、装置、设备和介质
技术领域
本发明实施例涉及基于深度学习的图像处理技术,尤其涉及一种文本版面分析方法、装置、设备和介质。
背景技术
随着大量电子文档的生产和储存需求呈指数级的上升,使得对文档进行自动化地检索和版面分析提出了更高要求,而复杂背景图像带来的图像鲁棒性和泛化性差从而限制插图识别等问题,使得越来越多的利用像素级别的语义分割方法来解决版面分析问题。
现有技术中语义分割技术能进行像素级别的精确定位,一般的语义分割网络分为编码阶段与解码阶段:编码阶段,为获取大视野图像进行降采样,导致空间信息丢失;解码阶段,为实现高精度和高效率的语义分割进行多层的跳层连接,导致特征融合效率低、低层低语义特征覆盖高层语义特征、内存访问慢、推理时间长等问题。
发明内容
本发明实施例提供一种文本版面分析方法、装置、设备和介质,以实现在版面分析过程中减少空间信息丢失,达到提高版面分析的识别结果。
第一方面,本发明实施例提供了一种文本版面分析方法,包括:
获取待分析的文本图像,对所述文本图像进行预处理;
将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素;
其中,所述语义分割算法模型包含编码阶段和解码阶段;
所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合;
所述解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合,以确定所述文本图像中的版面元素。
第二方面,本发明实施例提供了一种文本版面分析装置,包括:
预处理模块,用于获取待分析的文本图像,对所述文本图像进行预处理;
版面分析模块,将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素;
其中,所述语义分割算法模型包含编码阶段和解码阶段;
所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合;
所述解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合,以确定所述文本图像中的版面元素。
第三方面,本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的文本版面分析方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的文本版面分析方法。
本发明实施例通过一种文本版面分析方法,首先对待分析的文本图像进性预处理,再经语义分割算法模型进行版面分析,确定所述文本图像中的版面元素,达到了低层特征保持的同时,融入更多的高语义特征的技术效果,解决了现有版面分析技术中自顶向下跳层连接的特征融合方式导致低层语义特征遮盖语义特征,使得高层语义特征逐渐模糊的问题,提高了版面分析的识别效果。
附图说明
图1为本发明实施例一中的一种文本版面分析方法的流程图;
图2为本发明实施例一种的一种文本版面分析方法的结构示意图;
图3是本发明实施例二中的一种文本版面分析方法的流程图;
图4是本发明实施例三的一种文本版面分析方法的流程图;
图5是本发明实施例四中的一种文本版面分析方法的流程图;
图6是本发明实施例六中的一种文本版面分析装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文本版面分析方法的流程图,本实施例可适用于各种文本复杂背景版面分析场景中,该方法可以由文本版面分析的识别装置来执行,该装置可以通过软件和/或硬件的方式来实现,并具体可继承与具备存储和计算能力来进行文本版面分析的电子设备中。
如图1所示,提供一种文本版面分析方法,具体包括如下步骤:
步骤110、获取待分析的文本图像,对所述文本图像进行预处理;
文本图像可以为包含有多个元素、多结构、多尺度等复杂背景的文本图像,作为分析原图像,用于提取图像特征。
其中,所述文本图像进行预处理,可以为所述语义分割算法模型的训练过程,具体包括:对样本图像进行预处理;将预处理后的样本图像输入所述语义分割算法模型进行训练;如图2所示,其中,对文本图像进行的预处理包括下述至少一项:随机旋转、随机缩放、随机剪裁、随机翻转、随机进行对比度/亮度增强、随机RGB-灰度-RGB颜色空间转换、随机添加不同的高斯或椒盐噪声、图像归一化、以及高斯双边滤波。
需要说明的是,图2中所示的连接方式仅仅只是示例,并不是对顺序和组合的进一步限定。
步骤120、将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素;
其中,所述语义分割算法模型包含编码阶段和解码阶段;
所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合;
其中,编码阶段为所述语义分割算法模型中的部分算法,用于将预处理后所述文本图像进行编码处理,获得所述不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征,以元素相加的方式进行特征融合。在编码阶段,可以获取不同阶段的高语义特征,获取的每个阶段的高语义特征在高分辨率网络分支中都有与之对应的高分辨率语义特征。
其中,将所述残差网络模型中不同阶段为编码阶段所有阶段的高语义特征,而所述残差网络模型中不同阶段的高语义特征并不是同时提取,而是顺序提取。
其中,所述高分辨率网络分支中都有与之对应的高分辨率语义特征为所述不同阶段的高义特征的需要进行融合处理的语义特征,在未进行融合之前,所述高分辨率网络分支中都有与之对应的高分辨率语义特征可以是预处理后所述文本图像的高分辨率语义特征,在进行融合之后待融合语义特征可以是至少一个阶段高语义特征与对应的高分辨率语义特征融合后语义特征,具有高分辨率语义特征的属性。
其中,所述以元素相加的方式进行特征融合是对所述至少一个阶段高语义特征与对应的高分辨率语义特征,按照元素进行语义特征的对应添加过程。
所述解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合,以确定所述文本图像中的版面元素。
其中,解码阶段是述语义分割算法模型中的部分算法,可以是编码阶段提取的图像特征后续处理算法,具体的将所述编码阶段提取的最后一阶段的高语义特征进行上采样处理与最后一个特征融合单元输出的高分辨率语义特征进行拼接,根据所述编码阶段提取的最后一阶段的高语义特征进行上采样处理与最后一个特征融合单元输出的高分辨率语义特征拼接结果,以确定版面元素。
其中,所述版面元素进行图像语义分割算法模型之后获得的图像元素,可以是语义分割算法模型输出的图像特征,得到文本图像不同版面元素的分割识别结果。
本发明实施例通过一种文本版面分析方法,首先对待分析的文本图像进性预处理,再经语义分割算法模型进行版面分析,确定所述文本图像中的版面元素,达到了低层特征保持高分辨率的同时,融入更多的高语义特征的技术效果,解决了现有版面分析技术中自顶向下跳层连接的特征融合方式导致低层语义特征遮盖高层语义特征,使得高层语义特征逐渐模糊的问题,提高了版面分析的识别效果。
实施例二
本发明实施例,提供一种文本版面分析方法,具体包括如下步骤:
步骤210、获取待分析的文本图像,对所述文本图像进行预处理;
步骤211、在深度网络模型训练阶段对所述文本图像进行随机的数据增强操作;
步骤212对训练和测试文本图像进行图像归一化处理和高斯双边滤波处理。
步骤220、将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素;
其中,所述语义分割算法模型包含编码阶段和解码阶段;
所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合;
所述解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合,以确定所述文本图像中的版面元素。
其中,所述编码阶段为残差网络模型和DenseASPP模型组成,则通过所述残差网络模型提取不同阶段的高语义特征,包括:所述残差网络模型Resnet-50包含4个网络单元;每个网络单元,用于提取对应阶段的高语义特征;所述提取对应阶段的高语义特征,包括:4个不同阶段的网络单元分别包含多个瓶颈残差模块;前3个网络单元中的第1个瓶颈残差模块会对输入文本图像特征进行下采样,以更新当前网络单元输入特征的分辨率,其中,每个单元中的后续瓶颈残差模块提取高语义特征,将当前网络单元提取的高语义特征分别输入至下一个网络单元和特征融合单元,并作为第一阶段输出的高语义特征;第四个网络单元中的瓶颈残差模块采用膨胀/空洞卷积操作在保持第四阶段特征分辨率的同时扩大感受野;将第四个网络单元输出的高语义特征输入DenseASPP模型进行多尺度特征融合操作,以提取高语义特征。
其中,每个网络单元分别包含多个瓶颈残差模块,其中,可以是第一个网络单元包含3个瓶颈残差模块,第二个网络单元包含4个瓶颈残差模块,第三个网络单元包含6个瓶颈残差模块,第四个网络单元包含3个瓶颈残差模块。
如图3所示,所述语义分割算法模型中编码阶段,具体如下:
将经步骤S212后提取所述预处理后的文本图像特征输入FLN(Forward LadderNetwork,融合网络),将所述预处理后的文本图像特征经3层网络处理顺序为3×3卷积层、BN(Batch Normalization,正则化层)、Relu(Rectified Linear Units,激活层),经上述3层网络处理后将所述预处理后的文本图像的特征分别率降采样至1/4大小。接着,融合网络分成两路不同分辨率的网络分支,第一分支由残差网络模型和DenseASPP模型组成,第二分支由3个HFM(Highresolution feature forward fusion module,特征融合模块)组成,其中,将所述预处理后的文本图像的高语义特征输入Resnet-50的第一个网络单元,提取第一阶段输出的高语义特征,并将所述第一阶段输出的高语义特征作为输入,分别输入Resnet-50中的第二个网络单元与第一个HFM中。在第一个HFM中融合所述第一阶段的高语义特征与高分辨率网络分支中对应的高分辨率语义特征,将融合后的语义特征作为第二阶段对应的高分辨率语义特征,重复上述操作,提取第四阶段输出的高语义特征与第三个HFM输出的高分辨率语义特征。将第四个网络单元输出的高语义特征输入DenseASPP模型进行多尺度特征融合操作,以提取高语义特征。
其中,DenseASPP模型由基础网络层和一系列层叠的卷积层组成,DenseASPP模型结合了并行和级联使用空洞卷积层的优点,DenseASPP模型最终的输出特征图像不仅涵盖了大范围的语义信息,而且以非常密集的方式覆盖了该范围。
可选的,将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素之后,还包括:对确定的版面元素的像素进行二值化处理后,并进行相应膨胀腐蚀等形态学操作、附加最小面积及长宽高度阈值等条件,以确定各版面元素的类别及区域位置方框坐标。
本发明实施例通过一种文本版面分析方法,首先对待分析的文本图像进性预处理,再经语义分割算法模型进行版面分析,确定所述文本图像中的版面元素,达到了低层特征保持高分辨率的同时,融入更多的高语义特征的技术效果,解决了现有版面分析技术中自顶向下跳层连接的特征融合方式导致低层语义特征遮盖高层语义特征,使得高层语义特征逐渐模糊的问题,提高了版面分析的识别效果。
实施例三
本发明实施例,提供一种文本版面分析方法,具体包括如下步骤:
步骤310、获取待分析的文本图像,对所述文本图像进行预处理;
步骤320、将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素;
中,所述语义分割算法模型包含编码阶段和解码阶段;
所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合;
所述解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合,以确定所述文本图像中的版面元素。
如图4所示,所述特征融合模块的融合过程,具体如下:
将所述高分辨率网络分支的高分辨率特征通过3×3卷积层和BN正则化层后,获取待融合的高分辨率特征;同时,将残差网络模型中第一阶段输出的高语义特征通过1×1卷积层和BN正则化层,并将该所述高语义特征的通道数降维至与所述待融合的高分辨率特征通道数一致,再通过双线性插值上采样将高语义特征的大小与所述待融合的高分辨率特征的大小保持一致,获得处理后的第一阶段高分率融合语义特征;以元素相加的方式将所述处理后的第一阶段高分率融合语义特征与所述待融合的高分辨率语义特征进行融合后,获得融合高分辨率语义特征;将所述融合高分辨率语义特征通过Relu激活层后,依次输入3×3卷积层、BN正则化层和Relu激活层进行处理后,以作为第二阶段输入的高分辨率语义特征;循环上述步骤,获得残差网络模型中第四阶段输出的高语义特征,第三个特征融合单元输出的高分辨率语义特征;
将所述第四阶段输出的高语义特征输入DenseASPP模型进行处理,再经上采样后与所述第三个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合后,通过3×3卷积层、BN+Relu正则化激活层,以确定融合后输出图像特征。
可选的,所述解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率特征以拼接的方式进行特征融合之后,还包括:将融合后输出图像特征,经过2次的3×3卷积层+BN正化则层+Relu激活层操作后,再进行4倍的双线性插值上采样操作,使输出特征图像的分辨率恢复至所述文本图像的分辨率大小。
本发明实施例通过一种文本版面分析方法,首先对待分析的文本图像进性预处理,再经语义分割算法模型进行版面分析,确定所述文本图像中的版面元素,达到了低层特征保持高分辨率的同时,融入更多的高语义特征的技术效果,解决了现有版面分析技术中自顶向下跳层连接的特征融合方式导致低层语义特征遮盖高层语义特征,使得高层语义特征逐渐模糊的问题,提高了版面分析的识别效果。
实施例四
本发明实施例,提供一种文本版面分析方法,具体包括如下步骤:
步骤410、获取待分析的文本图像,对所述文本图像进行预处理;
步骤420、将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素;
其中,所述语义分割算法模型包含编码阶段和解码阶段;
所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合;
所述解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合,以确定所述文本图像中的版面元素。
其中,所述语义分割算法模型包含编码阶段和解码阶段;
可选的,Resnet-50中网络单元中Bottleneck模块可替代为方式进行下采样,具体如下:
如图5所示,Resnet-50中前3个网络单元中的第1个瓶颈残差模块会对输入文本图像特征进行下采样,包括:对所述输入文本图像特征采用步长为1的1×1卷积层进行通道扩展,对通道扩展后所述输入文本图像特征采用最大池化层或均值池化层进行2倍下采样操作,提取第一处理后输入文本图像特征;同时,对所述输入文本图像特征依次通过一个步长为1的1×1卷积层进行通道降维后接相应的BN正化则层和Relu激活层,一个步长为2的3×3卷积层进行2倍下采样后接相应的BN正化则层和Relu激活层,经一个步长为1的1×1卷积层进行通道扩展后接BN正化则层,提取第二处理后输入文本图像特征;将所述第一处理后输入文本图像特征与所述第二处理后输入文本图像特征以残差的方式接入Relu激活层,提取下采样后的特征。
本发明实施例通过一种文本版面分析方法,首先对待分析的文本图像进性预处理,再经语义分割算法模型进行版面分析,确定所述文本图像中的版面元素,达到了低层特征保持高分辨率的同时,融入更多的高语义特征的技术效果,解决了现有版面分析技术中自顶向下跳层连接的特征融合方式导致低层语义特征遮盖高层语义特征,使得高层语义特征逐渐模糊的问题,提高了版面分析的识别效果。
实施例五
本发明实施例提供了一种文本版面分析装置,包括:
预处理模块,用于获取待分析的文本图像,对所述文本图像进行预处理;
版面分析模块,将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素;
其中,所述语义分割算法模型包含编码阶段和解码阶段;
所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合;
所述解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合,以确定所述文本图像中的版面元素。
其中,所述预处理模块,对所述文本图像进行预处理,具体的包括:在深度网络模型训练阶段对所述文本图像进行随机的数据增强操作;对训练和测试文本图像进行图像归一化处理和高斯双边滤波处理。
其中,所述语义分割算法模型的训练过程,具体包括:对样本图像进行预处理;将预处理后的样本图像输入所述语义分割算法模型进行训练;其中,对样本图像进行的预处理包括下述至少一项项数据增强方法的随机组合:随机旋转、随机缩放、随机剪裁、随机翻转、随机进行对比度/亮度增强、随机RGB-灰度-RGB颜色空间转换、随机添加不同的高斯或椒盐噪声、图像归一化、以及高斯双边滤波。
其中,所述编码阶段为残差网络模型和DenseASPP模型组成,则通过所述残差网络模型提取不同阶段的高语义特征,包括:所述残差网络模型Resnet-50包含4个网络单元;每个网络单元,用于提取对应阶段的高语义特征;所述提取对应阶段的高语义特征,包括:4个不同阶段的网络单元分别包含多个瓶颈残差模块;前3个网络单元中的第1个瓶颈残差模块会对输入文本图像特征进行下采样,以提取网络单元输入特征不同分辨率的高语义特征,其中,每个单元中的后续瓶颈残差模块提取高语义特征,将当前网络单元提取的高语义特征分别输入至下一个网络单元和特征融合单元,并作为第一阶段输出的高语义特征;第四个网络单元中的瓶颈残差模块采用膨胀/空洞卷积操作在保持第四阶段特征分辨率的同时扩大感受野;将第四个网络单元输出的高语义特征输入DenseASPP模型进行多尺度特征融合操作,以提取高语义特征。
其中,所述残差网络模型Resnet-50包含4个网络单元,最后Resnet-50网络进行下采样后的特征分辨率降至原输入图像分辨率的1/32。
具体的,所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合,包括:将所述高分辨率网络分支的高分辨率特征通过3×3卷积层和BN正则化层后,获取待融合的高分辨率特征;同时,将残差网络模型中第一阶段输出的高语义特征通过1×1卷积层和BN正则化层,并将该所述高语义特征的通道数降维至与所述待融合的高分辨率特征通道数一致,再通过双线性插值上采样将高语义特征的大小与所述待融合的高分辨率特征的大小保持一致,获得处理后的第一阶段高分率融合语义特征;以元素相加的方式将所述处理后的第一阶段高分率融合语义特征与所述待融合的高分辨率语义特征进行融合后,获得融合高分辨率语义特征;将所述融合高分辨率语义特征通过Relu激活层后,依次输入3×3卷积层、BN正则化层和Relu激活层进行处理后,以作为第二阶段输入的高分辨率语义特征;循环上述步骤,获得残差网络模型中第四阶段输出的高语义特征,第三个特征融合单元输出的高分辨率特征;将所述第四阶段输出的高语义特征输入DenseASPP模型进行处理,再经上采样后与所述第三个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合后,通过3×3卷积层、BN+Relu正则化激活层,以确定融合后输出图像特征。
可选的,所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合之前,还包括:将文本图像特征通过3次依次相连的3×3卷积层+BN正化则层+Relu激活层操作,经过下采样后得到特征图的大小为所述文本图像原始分辨率大小的1/4。
可选的,所述解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率特征以拼接的方式进行特征融合之后,还包括:将融合后输出图像特征,经过2次的3×3卷积层+BN正化则层+Relu激活层操作后,再进行4倍的双线性插值上采样操作,使输出特征图像的分辨率恢复至所述文本图像的分辨率大小。
其中,Resnet-50中前3个网络单元中的第1个瓶颈残差模块会对输入文本图像特征进行下采样,包括:对所述输入文本图像特征采用步长为1的1×1卷积层进行通道扩展,对通道扩展后所述输入文本图像特征采用最大池化层或均值池化层进行2倍的下采样操作,提取第一处理后输入文本图像特征;同时,对所述输入文本图像特征依次通过一个步长为1的1×1卷积层进行通道降维后接相应的BN正化则层和Relu激活层,一个步长为2的3×3卷积层进行2倍的下采样后接相应的BN正化则层和Relu激活层,经一个步长为1的1×1卷积层进行通道扩展后接BN正化则层,提取第二处理后输入文本图像特征;将所述第一处理后输入文本图像特征与所述第二处理后输入文本图像特征以残差的方式接入Relu激活层,提取下采样后的特征。
可选的,将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素之后,还包括:对确定的版面元素的像素进行二值化处理后,并进行相应膨胀腐蚀等形态学操作、附加最小面积及长宽高度阈值等条件,以确定各版面元素的类别及区域位置方框坐标。
本发明实施例通过一种文本版面分析方法,首先对待分析的文本图像进性预处理,再经语义分割算法模型进行版面分析,确定所述文本图像中的版面元素,达到了低层特征保持高分辨率的同时,融入更多的高语义特征的技术效果,解决了现有版面分析技术中自顶向下跳层连接的特征融合方式导致低层语义特征遮盖高层语义特征,使得高层语义特征逐渐模糊的问题,提高了版面分析的识别效果。
实施例六
图6为本发明实施例6提供的一种设备/终端/服务器的结构示意图,如图6所示,该设备/终端/服务器包括处理器610、存储器620、输入装置630和输出装置640;设备/终端/服务器中处理器610的数量可以是一个或多个,图6中以一个处理器610为例;设备/终端/服务器中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或其他方式连接,图6中以通过总线连接为例。
存储器620作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的文本版面分析对应的程序指令/模块(例如,文本版面分析装置中的预处理模、版面分析模块)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块,从而执行设备/终端/服务器的各种功能应用以及数据处理,即实现上述的文本版面分析方法。
存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器620可进一步包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可用于接收输入的文本图像,以及产生与设备/终端/服务器的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
实施例七
本发明实施例七还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种文本版面分析方法,该方法包括:
获取待分析的文本图像,对所述文本图像进行预处理;
将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素;
其中,所述语义分割算法模型包含编码阶段和解码阶段;
所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合;
所述解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合,以确定所述文本图像中的版面元素。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本版面分析方法中的相关操作.
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种文本版面分析方法,其特征在于,包括:
获取待分析的文本图像,对所述文本图像进行预处理;
将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素;
其中,所述语义分割算法模型包含编码阶段和解码阶段;
所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合;
解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合,以确定所述文本图像中的版面元素;
所述编码阶段为残差网络模型和DenseASPP模型组成,则通过所述残差网络模型提取不同阶段的高语义特征,包括:
所述残差网络模型Resnet-50包含4个网络单元;
每个网络单元,用于提取对应阶段的高语义特征;
所述提取对应阶段的高语义特征,包括:
Resnet-50中4个不同阶段的网络单元分别包含多个瓶颈残差模块;
Resnet-50前3个网络单元中的第1个瓶颈残差模块会对输入文本图像特征进行下采样,以更新当前网络单元输入特征的分辨率,其中,每个单元中的后续瓶颈残差模块提取高语义特征,将当前网络单元提取的高语义特征分别输入至下一个网络单元和特征融合单元,并作为第一阶段输出的高语义特征;
Resnet-50中第四个网络单元中的瓶颈残差模块采用膨胀/空洞卷积操作在保持第四阶段特征分辨率的同时扩大感受野;
将Resnet-50中第四个网络单元输出的高语义特征输入DenseASPP模型进行多尺度特征融合操作,以提取高语义特征;
所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合,包括:
将所述高分辨率网络分支的高分辨率特征通过3×3卷积层和BN正则化层后,获取待融合的高分辨率特征;
同时,将残差网络模型中第一阶段输出的高语义特征通过1×1卷积层和BN正则化层,并将该所述高语义特征的通道数降维至与所述待融合的高分辨率特征通道数一致,再通过双线性插值上采样将高语义特征的大小与所述待融合的高分辨率语义特征的大小保持一致,获得处理后的第一阶段高分率融合语义特征;
以元素相加的方式将所述处理后的第一阶段高分率融合语义特征与所述待融合的高分辨率语义特征进行融合后,获得融合高分辨率语义特征;将所述融合高分辨率语义特征通过Relu激活层后,依次输入3×3卷积层、BN正则化层和Relu激活层进行处理后,以作为第二阶段输入的高分辨率语义特征;循环上述步骤,获得残差网络模型中第四阶段输出的高语义特征,第三个特征融合单元输出的高分辨率语义特征;
将所述第四阶段输出的高语义特征输入DenseASPP模型进行处理,再经上采样后与所述第三个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合后,通过3×3卷积层、BN正则化层、Relu激活层,以确定融合后输出图像特征。
2.根据权利要求1所述的方法,其特征在于,对所述文本图像进行预处理,包括:
在深度网络模型训练阶段对所述文本图像进行随机的数据增强操作;
对训练和测试文本图像进行图像归一化处理和高斯双边滤波处理。
3.根据权利要求1所述的方法,其特征在于,所述残差网络模型Resnet-50包含4个网络单元,最后Resnet-50网络进行下采样后的特征分辨率降至原输入图像分辨率的1/32。
4.根据权利要求1所述的方法,其特征在于,所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合之前,还包括:
将文本图像特征通过3次依次相连的3×3卷积层+BN正化则层+Relu激活层操作,经过下采样后得到特征图的大小为所述文本图像原始分辨率大小的1/4。
5.根据权利要求1所述的方法,其特征在于,所述解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率特征以拼接的方式进行特征融合之后,还包括:
将融合后输出图像特征,经过2次的3×3卷积层+BN正化则层+Relu激活层操作后,再进行4倍的双线性插值上采样操作,使输出特征图像的分辨率恢复至所述文本图像的分辨率大小。
6.根据权利要求1所述的方法,其特征在于,Resnet-50前3个网络单元中的第1个瓶颈残差模块会对输入文本图像特征进行下采样,包括:
对所述输入文本图像特征采用步长为1的1×1卷积层进行通道扩展,对通道扩展后所述输入文本图像特征采用最大池化层或均值池化层进行2倍下采样操作,提取第一处理后输入文本图像特征;
同时,对所述输入文本图像特征依次通过一个步长为1的1×1卷积层进行通道降维后接相应的BN正化则层和Relu激活层,一个步长为2的3×3卷积层进行2倍下采样后接相应的BN正化则层和Relu激活层,经一个步长为1的1×1卷积层进行通道扩展后接BN正化则层,提取第二处理后输入文本图像特征;
将所述第一处理后输入文本图像特征与所述第二处理后输入文本图像特征以残差的方式接入Relu激活层,提取下采样后的特征。
7.根据权利要求1所述的方法,其特征在于,还包括所述语义分割算法模型的训练过程,具体包括:
对输入文本图像进行预处理;
将预处理后的文本图像输入所述语义分割算法模型进行训练;
其中,对输入文本图像进行的预处理包括下述至少一项项数据增强方法的随机组合:
随机旋转、随机缩放、随机剪裁、随机翻转、随机进行对比度/亮度增强、随机RGB-灰度-RGB颜色空间转换、随机添加不同的高斯或椒盐噪声、图像归一化、以及高斯双边滤波。
8.根据权利要求1所述的方法,其特征在于,将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素之后,还包括:
对确定的版面元素的像素进行二值化处理后,并进行相应膨胀腐蚀等形态学操作、附加最小面积及长宽高度阈值等条件,以确定各版面元素的类别及区域位置方框坐标。
9.一种文本版面分析装置,其特征在于,包括:
预处理模块,用于获取待分析的文本图像,对所述文本图像进行预处理;
版面分析模块,将所述文本图像输入语义分割算法模型进行版面分析,以确定所述文本图像中的版面元素;
其中,所述语义分割算法模型包含编码阶段和解码阶段;
所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合;
解码器阶段,用于将所述编码阶段最后一个阶段提取的高语义特征上采样后与所述编码阶段最后一个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合,以确定所述文本图像中的版面元素;
所述编码阶段为残差网络模型和DenseASPP模型组成,则通过所述残差网络模型提取不同阶段的高语义特征,包括:
所述残差网络模型Resnet-50包含4个网络单元;
每个网络单元,用于提取对应阶段的高语义特征;
所述提取对应阶段的高语义特征,包括:
Resnet-50中4个不同阶段的网络单元分别包含多个瓶颈残差模块;
Resnet-50前3个网络单元中的第1个瓶颈残差模块会对输入文本图像特征进行下采样,以更新当前网络单元输入特征的分辨率,其中,每个单元中的后续瓶颈残差模块提取高语义特征,将当前网络单元提取的高语义特征分别输入至下一个网络单元和特征融合单元,并作为第一阶段输出的高语义特征;
Resnet-50中第四个网络单元中的瓶颈残差模块采用膨胀/空洞卷积操作在保持第四阶段特征分辨率的同时扩大感受野;
将Resnet-50中第四个网络单元输出的高语义特征输入DenseASPP模型进行多尺度特征融合操作,以提取高语义特征;
所述编码阶段,用于将残差网络模型中不同阶段的高语义特征与高分辨率网络分支中的高分辨率语义特征以元素相加的方式进行特征融合,包括:
将所述高分辨率网络分支的高分辨率特征通过3×3卷积层和BN正则化层后,获取待融合的高分辨率特征;
同时,将残差网络模型中第一阶段输出的高语义特征通过1×1卷积层和BN正则化层,并将该所述高语义特征的通道数降维至与所述待融合的高分辨率特征通道数一致,再通过双线性插值上采样将高语义特征的大小与所述待融合的高分辨率语义特征的大小保持一致,获得处理后的第一阶段高分率融合语义特征;
以元素相加的方式将所述处理后的第一阶段高分率融合语义特征与所述待融合的高分辨率语义特征进行融合后,获得融合高分辨率语义特征;将所述融合高分辨率语义特征通过Relu激活层后,依次输入3×3卷积层、BN正则化层和Relu激活层进行处理后,以作为第二阶段输入的高分辨率语义特征;循环上述步骤,获得残差网络模型中第四阶段输出的高语义特征,第三个特征融合单元输出的高分辨率语义特征;
将所述第四阶段输出的高语义特征输入DenseASPP模型进行处理,再经上采样后与所述第三个特征融合单元输出的高分辨率语义特征以拼接的方式进行特征融合后,通过3×3卷积层、BN正则化层、Relu激活层,以确定融合后输出图像特征。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的文本版面分析方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的文本版面分析方法。
CN202010635621.2A 2020-07-03 2020-07-03 一种文本版面分析方法、装置、设备和介质 Active CN111914654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010635621.2A CN111914654B (zh) 2020-07-03 2020-07-03 一种文本版面分析方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010635621.2A CN111914654B (zh) 2020-07-03 2020-07-03 一种文本版面分析方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN111914654A CN111914654A (zh) 2020-11-10
CN111914654B true CN111914654B (zh) 2024-05-28

Family

ID=73227378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010635621.2A Active CN111914654B (zh) 2020-07-03 2020-07-03 一种文本版面分析方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111914654B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634289B (zh) * 2020-12-28 2022-05-27 华中科技大学 一种基于非对称空洞卷积的快速可行域分割方法
CN112989970A (zh) * 2021-02-26 2021-06-18 北京百度网讯科技有限公司 文档版面分析方法、装置、电子设备及可读存储介质
CN113807218B (zh) * 2021-09-03 2024-02-20 科大讯飞股份有限公司 版面分析方法、装置、计算机设备和存储介质
CN115205164B (zh) * 2022-09-15 2022-12-13 腾讯科技(深圳)有限公司 图像处理模型的训练方法、视频处理方法、装置及设备
CN116665228B (zh) * 2023-07-31 2023-10-13 恒生电子股份有限公司 图像处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032998A (zh) * 2019-03-18 2019-07-19 华南师范大学 自然场景图片的文字检测方法、系统、装置和存储介质
CN110837811A (zh) * 2019-11-12 2020-02-25 腾讯科技(深圳)有限公司 语义分割网络结构的生成方法、装置、设备及存储介质
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11164067B2 (en) * 2018-08-29 2021-11-02 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for implementing a multi-resolution neural network for use with imaging intensive applications including medical imaging

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032998A (zh) * 2019-03-18 2019-07-19 华南师范大学 自然场景图片的文字检测方法、系统、装置和存储介质
CN110837811A (zh) * 2019-11-12 2020-02-25 腾讯科技(深圳)有限公司 语义分割网络结构的生成方法、装置、设备及存储介质
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
编码―解码结构的语义分割;韩慧慧;李帷韬;王建平;焦点;孙百顺;;中国图象图形学报;20200216(02);全文 *

Also Published As

Publication number Publication date
CN111914654A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
CN111080628B (zh) 图像篡改检测方法、装置、计算机设备和存储介质
CN110111334B (zh) 一种裂缝分割方法、装置、电子设备及存储介质
CN108664981B (zh) 显著图像提取方法及装置
CN111583097A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
WO2022105125A1 (zh) 图像分割方法、装置、计算机设备及存储介质
CN112907530B (zh) 基于分组反向注意力的伪装物体检测方法及系统
CN113139543B (zh) 目标对象检测模型的训练方法、目标对象检测方法和设备
CN112597918B (zh) 文本检测方法及装置、电子设备、存储介质
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN110020658B (zh) 一种基于多任务深度学习的显著目标检测方法
CN111932577B (zh) 文本检测方法、电子设备及计算机可读介质
CN112700460B (zh) 图像分割方法及系统
CN116311214B (zh) 车牌识别方法和装置
CN116994000A (zh) 零件边缘特征提取方法和装置、电子设备及存储介质
CN116266259A (zh) 图像文字结构化输出方法、装置、电子设备和存储介质
Zheng et al. Transformer-based hierarchical dynamic decoders for salient object detection
CN112132867B (zh) 一种遥感影像变化检测方法及装置
CN111709338B (zh) 一种用于表格检测的方法、装置及检测模型的训练方法
CN114445873B (zh) 人脸识别模型的训练、人脸识别方法及电子设备
CN112507933B (zh) 基于集中式信息交互的显著性目标检测方法及系统
CN115810152A (zh) 基于图卷积的遥感图像变化检测方法、装置和计算机设备
CN114283440A (zh) 户型图识别方法、装置、电子设备及存储介质
CN117523219A (zh) 图像处理方法及装置、电子设备、存储介质
CN115270841A (zh) 条码检测方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant