CN111814794B - 文本检测方法、装置、电子设备及存储介质 - Google Patents
文本检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111814794B CN111814794B CN202010963784.3A CN202010963784A CN111814794B CN 111814794 B CN111814794 B CN 111814794B CN 202010963784 A CN202010963784 A CN 202010963784A CN 111814794 B CN111814794 B CN 111814794B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- text region
- feature
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 103
- 238000012545 processing Methods 0.000 claims abstract description 90
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 75
- 238000000034 method Methods 0.000 claims description 42
- 230000015654 memory Effects 0.000 claims description 34
- 238000011176 pooling Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 230000009467 reduction Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 239000013604 expression vector Substances 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 13
- 238000000513 principal component analysis Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 238000012805 post-processing Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 230000002441 reversible effect Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 230000000306 recurrent effect Effects 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 5
- 230000001174 ascending effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请提出一种文本检测方法、装置、电子设备及存储介质。具体实现方案为:对文本图像进行特征提取,得到特征图像;利用卷积神经网络对特征图像进行处理,得到文本图像中的像素点属于文本区域的概率;利用序列模型对特征图像进行处理,得到文本图像中的文本区域的关键点位置;根据像素点属于文本区域的概率和文本区域的关键点位置,确定文本图像的文本区域检测结果。本申请实施例能够在提升文本检测的速度的同时,提升文本检测方法的抗干扰能力,使文本检测方法的鲁棒性更强。
Description
技术领域
本申请涉及信息技术领域,尤其涉及一种文本检测方法、装置、电子设备及存储介质。
背景技术
文本检测的应用范围十分广泛,是很多计算机视觉任务的前置步骤。比如,图像搜索、文字识别、身份认证和视觉导航等计算机视觉任务都需要将文本检测作为前置步骤。文本检测的主要目的是定位文本行或字符在图像中的位置。目前比较流行的文本检测方法,例如基于滑动窗口的文本检测方法或基于计算连通域的方法等,缺点是计算量过大,不仅需要耗费大量计算资源,而且会消耗大量时间,无法满足实际应用场景的速度需求。
发明内容
本申请实施例提供一种文本检测方法、装置、电子设备及存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种文本检测方法,包括:
对文本图像进行特征提取,得到特征图像;
利用卷积神经网络对特征图像进行处理,得到文本图像中的像素点属于文本区域的概率;
利用序列模型对特征图像进行处理,得到文本图像中的文本区域的关键点位置;
根据像素点属于文本区域的概率和文本区域的关键点位置,确定文本图像的文本区域检测结果。
在一种实施方式中,对文本图像进行特征提取,得到特征图像,包括:
利用残差神经网络对文本图像进行卷积操作,得到特征图像。
在一种实施方式中,利用卷积神经网络对特征图像进行处理,得到文本图像中的像素点属于文本区域的概率,包括:
利用特征金字塔增强模块对特征图像进行特征提取;
利用卷积神经网络对特征提取后的特征图像进行卷积操作,得到文本图像的文本区域的概率图像,文本区域的概率图像包括文本图像中的像素点属于文本区域的概率。
在一种实施方式中,利用卷积神经网络对特征提取后的特征图像进行卷积操作,得到文本图像的文本区域的概率图像,包括:
对特征提取后的特征图像进行上采样操作,并对上采样操作得到的图像进行串联操作;
利用卷积神经网络对串联操作得到的图像进行卷积操作和反卷积操作,得到文本图像的文本区域的概率图像。
在一种实施方式中,利用序列模型对特征图像进行处理,得到文本图像中的文本区域的关键点位置,包括:
利用特征金字塔网络对特征图像进行处理,得到特征向量;
利用序列模型对特征向量进行处理,得到文本图像中的文本区域的关键点坐标向量。
在一种实施方式中,利用特征金字塔网络对特征图像进行处理,得到特征向量,包括:
利用特征金字塔网络对特征图像进行池化操作;
对池化操作后的特征图像进行串联操作,得到特征向量。
在一种实施方式中,利用序列模型对特征向量进行处理,得到文本图像中的文本区域的关键点坐标向量,包括:
将特征向量输入序列模型,输出文本图像中的文本区域的关键点坐标的高维向量的低维表示向量;
利用主成分分析算法将低维表示向量升维还原,得到文本图像中的文本区域的关键点坐标向量。
在一种实施方式中,根据像素点属于文本区域的概率和文本区域的关键点位置,确定文本图像的文本区域检测结果,包括:
根据像素点属于文本区域的概率,得到文本图像中的属于文本区域的像素点;
在文本区域的关键点位置与属于文本区域的像素点相匹配的情况下,将文本区域的关键点位置所对应的文本区域作为文本图像的文本区域检测结果。
在一种实施方式中,根据像素点属于文本区域的概率,得到文本图像中的属于文本区域的像素点,包括:
对文本图像的文本区域的概率图像进行二值化操作,得到文本区域的二值图像;
根据文本区域的二值图像得到文本图像中的属于文本区域的像素点。
在一种实施方式中,文本区域的关键点位置与属于文本区域的像素点相匹配,包括以下至少之一:
文本区域的关键点位置的坐标与属于文本区域的像素点的坐标相同;
以文本区域的关键点位置为中心的预设领域内包括属于文本区域的像素点。
第二方面,本申请实施例提供了一种文本检测装置,包括:
提取单元,用于对文本图像进行特征提取,得到特征图像;
第一处理单元,用于利用卷积神经网络对特征图像进行处理,得到文本图像中的像素点属于文本区域的概率;
第二处理单元,用于利用序列模型对特征图像进行处理,得到文本图像中的文本区域的关键点位置;
确定单元,用于根据像素点属于文本区域的概率和文本区域的关键点位置,确定文本图像的文本区域检测结果。
在一种实施方式中,提取单元用于:
利用残差神经网络对文本图像进行卷积操作,得到特征图像。
在一种实施方式中,第一处理单元包括:
提取子单元,用于利用特征金字塔增强模块对特征图像进行特征提取;
第一处理子单元,用于利用卷积神经网络对特征提取后的特征图像进行卷积操作,得到文本图像的文本区域的概率图像,文本区域的概率图像包括文本图像中的像素点属于文本区域的概率。
在一种实施方式中,第一处理子单元用于:
对特征提取后的特征图像进行上采样操作,并对上采样操作得到的图像进行串联操作;
利用卷积神经网络对串联操作得到的图像进行卷积操作和反卷积操作,得到文本图像的文本区域的概率图像。
在一种实施方式中,第二处理单元包括:
第二处理子单元,用于利用特征金字塔网络对特征图像进行处理,得到特征向量;
第三处理子单元,用于利用序列模型对特征向量进行处理,得到文本图像中的文本区域的关键点坐标向量。
在一种实施方式中,第二处理子单元用于:
利用特征金字塔网络对特征图像进行池化操作;
对池化操作后的特征图像进行串联操作,得到特征向量。
在一种实施方式中,第三处理子单元用于:
将特征向量输入序列模型,输出文本图像中的文本区域的关键点坐标的高维向量的低维表示向量;
利用主成分分析算法将低维表示向量升维还原,得到文本图像中的文本区域的关键点坐标向量。
在一种实施方式中,确定单元包括:
第四处理子单元,用于根据像素点属于文本区域的概率,得到文本图像中的属于文本区域的像素点;
匹配子单元,用于在文本区域的关键点位置与属于文本区域的像素点相匹配的情况下,将文本区域的关键点位置所对应的文本区域作为文本图像的文本区域检测结果。
在一种实施方式中,第四处理子单元用于:
对文本图像的文本区域的概率图像进行二值化操作,得到文本区域的二值图像;
根据文本区域的二值图像得到文本图像中的属于文本区域的像素点。
在一种实施方式中,匹配子单元,用于在以下至少之一的情况下,确定文本区域的关键点位置与属于文本区域的像素点相匹配:
文本区域的关键点位置的坐标与属于文本区域的像素点的坐标相同;
以文本区域的关键点位置为中心的预设领域内包括属于文本区域的像素点。
第三方面,本申请实施例提供了一种电子设备,该设备包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:能够在提升文本检测的速度的同时,提升文本检测方法的抗干扰能力,使文本检测方法的鲁棒性更强。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为根据本申请实施例的文本检测方法的流程图;
图2为根据本申请另一实施例的文本检测方法的处理步骤的流程图;
图3为根据本申请另一实施例的文本检测方法的处理步骤的流程图;
图4为根据本申请另一实施例的文本检测方法的关键点识别步骤的流程图;
图5为根据本申请另一实施例的文本检测方法的关键点识别步骤的流程图;
图6为根据本申请另一实施例的文本检测方法的关键点识别步骤的流程图;
图7为根据本申请另一实施例的文本检测方法的文本区域的关键点示意图;
图8为根据本申请另一实施例的文本检测方法的后处理操作的流程图;
图9为根据本申请另一实施例的文本检测方法的流程图;
图10为根据本申请实施例的文本检测装置的结构示意图;
图11为根据本申请实施例的文本检测装置的第一处理单元的结构示意图;
图12为根据本申请实施例的文本检测装置的第二处理单元的结构示意图;
图13为根据本申请实施例的文本检测装置的确定单元的结构示意图;
图14为用来实现本申请实施例的电子设备的框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1为根据本申请实施例的文本检测方法的流程图。如图1所示,该文本检测方法可以包括:
步骤S110,对文本图像进行特征提取,得到特征图像;
步骤S120,利用卷积神经网络对特征图像进行处理,得到文本图像中的像素点属于文本区域的概率;
步骤S130,利用序列模型对特征图像进行处理,得到文本图像中的文本区域的关键点位置;
步骤S140,根据像素点属于文本区域的概率和文本区域的关键点位置,确定文本图像的文本区域检测结果。
文本检测可以定位文本行或字符在图像中的位置。相关技术的文本检测方法缺点包括计算量过大,耗费大量计算资源和大量时间,无法满足实际应用场景的速度需求。例如,目前比较流行的文本检测方法包括基于滑动窗口的文本检测方法和基于计算连通域的方法。在基于滑动窗口的文本检测方法中,需要设置大量不同长宽比、不同大小的锚点框。以这些锚点框为滑动窗口,在图像上或者在从图像上进行卷积操作,再在卷积操作得到的特征映射图上进行遍历搜索。对于每个搜索到的区域框,进行区域框内是否是文本的分类判定。上述基于滑动窗口的文本检测方法的缺点是计算量过大,不仅需要耗费大量计算资源,而且耗时较长。基于计算连通域的方法,也称基于分割思想的方法。它主要是先使用全卷积神经网络模型提取图像特征,然后对特征图像进行二值化处理并计算其连通域,然后根据不同的应用场景(即不同的训练数据集),使用一些特定的方法,判断文本行位置。这种方法的缺点是后处理操作的步骤繁琐,涉及大量的计算和调优。该方法不仅会消耗大量时间,同时后处理操作的策略是否合理有效也严格制约着算法的性能。
本申请实施例中,在步骤S110中对待检测的文本图像进行特征提取,得到特征图像。对于步骤S110中得到的特征图像分别进行两方面的处理,以获取文本图像中的文本区域的相关信息。一方面,在步骤S120中利用卷积神经网络对特征图像进行处理,可得到真实文本区域的概率图像。概率图像中包括文本图像中的每个像素点属于文本区域的概率。另一方面,在步骤S130中利用序列模型对特征图像进行处理,例如可利用长短期记忆网络对特征图像进行处理,得到文本图像中的用于标记文本区域的关键点位置。在一个示例中,文本图像中的某个文本区域是一个矩形的文本框,则矩形的四个顶点可以作为文本区域的关键点。
在步骤S140中,可根据步骤S120和步骤S130中网络输出后得到的结果执行后处理操作,以确定文本图像中的文本区域检测结果。例如,后处理操作可包括:根据步骤S120中得到的文本图像中的像素点属于文本区域的概率,判断步骤S130中得到的文本图像中的文本区域的关键点是否属于文本区域,也就是判断关键点是否在文本框内。在一个示例中,若步骤S130中得到的某个文本区域的所有关键点都属于文本区域,则确定该文本区域作为最终正确的检测结果。
在上述处理流程中,步骤S120和步骤S130可以顺序执行,也可以并行执行。在步骤S120和步骤S130顺序执行的情况下,本申请实施例对执行顺序不做限制,可以先执行步骤S120再执行步骤S130,也可以先执行步骤S130再执行步骤S120。
自然场景的文本图像的背景极其多样,例如文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理等,因此抗干扰能力强弱是衡量文本检测方法优劣的重要性能指示。本申请实施例中,首先得到文本区域的相关信息,在步骤S120中得到文本区域的关键点位置,步骤S130中得到像素点属于文本区域的概率。然后在后处理操作中将这两种文本区域的相关信息相结合。根据像素点属于文本区域的概率判断文本区域的关键点位置是否识别准确,可大大提升文本检测的准确度和抗干扰能力,使文本检测的鲁棒性更强。另外,以上后处理操作简单易行、计算量小,还可提升文本检测的速度。
在一种实施方式中,图1中的步骤S110,对文本图像进行特征提取,得到特征图像,可包括:
利用残差神经网络对文本图像进行卷积操作,得到特征图像。
本申请实施例中,可将待检测的文本图像输入残差神经网络模型(Resnet,Residual Network),得到特征图像。残差神经网络模型可用于目标分类等领域以及作为计算机视觉任务主干神经网络的一部分。残差神经网络模型包括resnet18、resnet50、resnet101等。其中,resnet18表示隐藏层是18层的残差神经网络模型。在一个示例中,可将Resnet18网络模型作为基础网络模型,对输入的文本图像进行卷积操作,通过卷积操作提取特征,得到特征图像。
图2为根据本申请另一实施例的文本检测方法的处理步骤的流程图。如图2所示,在一种实施方式中,图1中的步骤S120,利用卷积神经网络对特征图像进行处理,得到文本图像中的像素点属于文本区域的概率,具体可包括:
步骤S210,利用特征金字塔增强模块对特征图像进行特征提取;
步骤S220,利用卷积神经网络对特征提取后的特征图像进行卷积操作,得到文本图像的文本区域的概率图像,文本区域的概率图像包括文本图像中的像素点属于文本区域的概率。
本申请实施例中,在利用卷积神经网络对特征图像进行处理之前,可在步骤S210中,将步骤S110中提取到的特征图像使用特征金字塔增强模块(FPEM,Feature PyramidEnhancement Module)进行处理,以便获取更多更细致的特征信息。可使用一个或多个FPEM模块对特征图像进行处理,具体使用FPEM模块的个数可根据实际应用场景的具体情况而定。例如,可根据待检测的文本图像的特点确定使用FPEM模块的次数,也可通过实验确定使用几次FPEM模块能够达到最好的特征提取效果。
在一个示例中,可使用2个FPEM模块对特征图像进行处理。每个FPEM模块所做的处理是相同的,具体包括:对上一步骤得到的4组大小不同的多通道特征映射进行处理。其中,上一步骤得到的4组大小不同的多通道特征映射按照从大到小的次序,也就是按照上一步骤中模型输出结果的从前到后的次序,可以依次称为:正向第一组特征映射、正向第二组特征映射、正向第三组特征映射、正向第四组特征映射。
例如,在步骤S110中利用残差神经网络对文本图像进行处理,得到特征图像。残差神经网络模型输出的特征图像中,从前到后依次的输出结果为:正向第一组特征映射、正向第二组特征映射、正向第三组特征映射、正向第四组特征映射。
在第1个FFEM模块中,先对正向第四组特征映射进行2倍上采样,即将其大小扩大到原来的2倍。然后将上采样后的正向第四组特征映射与正向第三组特征映射按照通道逐点相加。再对相加的结果进行一次深度可分离卷积操作之后,再进行一次或一次以上卷积、批归一化和激活函数作用操作。通过以上各个操作可进一步提取特征,最后得到的结果称为反向第二组特征映射。其中,深度可分离卷积操作可包括:首先对每一个通道的特征图像进行标准的卷积操作,再利用卷积核融合以上每一个通道的经过卷积操作处理之后的信息。其中,可利用1*1的卷积核融合这些通道的信息。利用深度可分离卷积操作,可以减小运算量,进而可提升文本检测的速度。
总结以上操作的步骤,根据正向第四组特征映射与正向第三组特征映射得到反向第二组特征映射的操作包括:对正向第四组特征映射进行2倍上采样;将上采样后的正向第四组特征映射与正向第三组特征映射按照通道逐点相加;对相加的结果进行一次深度可分离卷积操作之后,再进行一次或一次以上卷积、批归一化和激活函数作用操作,得到的结果称为反向第二组特征映射。
在第1个FFEM模块中,接下来采用以上同样的操作,作用于反向第二组特征映射和正向第二组特征映射,得到反向第三组特征映射。然后采用以上同样的操作,作用于反向第三组特征映射和正向第一组特征映射,得到反向第四组特征映射。同时将正向第四组特征映射视为反向第一组特征映射。由此得到了四组反向特征映射。
在第1个FFEM模块中,接下来将第四组反向特征映射作为目标第一组特征映射,然后对目标第一组特征映射进行2倍下采样,即将其大小缩小到原来的2倍。然后将下采样后的目标第一组特征映射与反向第三组特征映射按通道逐点相加。再对相加的结果进行一次深度可分离卷积操作之后,再进行一次或一次以上卷积、批归一化和激活函数作用操作,得到的结果称为目标第二组特征映射。采用以上同样的操作,作用于目标第二组特征映射和反向第二组特征映射,得到目标第三组特征映射。然后采用以上同样的操作,作用于目标第三组特征映射和反向第一组特征映射,得到目标第四组特征映射。将目标第一组特征映射、目标第二组特征映射、目标第三组特征映射和目标第四组特征映射作为第1个FFEM模块的输出结果。
在第2个FFEM模块中,以第1个FFEM模块的输出结果作为输入信息。在第2个FFEM模块中进行与第1个FFEM模块同样的操作,得到第2个FFEM模块输出的四组特征映射。在使用2个FPEM模块对特征图像进行处理的情况下,可将第2个FFEM模块的输出结果作为步骤S210中利用特征金字塔增强模块对特征图像进行特征提取的结果。然后再在步骤S220中利用卷积神经网络得到文本图像的文本区域的概率图像。
图3为根据本申请另一实施例的文本检测方法的处理步骤的流程图。如图3所示,在一种实施方式中,图2中的步骤S220,利用卷积神经网络对特征提取后的特征图像进行卷积操作,得到文本图像的文本区域的概率图像,具体可包括:
步骤S310,对特征提取后的特征图像进行上采样操作,并对上采样操作得到的图像进行串联操作;
步骤S320,利用卷积神经网络对串联操作得到的图像进行卷积操作和反卷积操作,得到文本图像的文本区域的概率图像。
在步骤S310中,可对步骤S210处理之后的特征图像全部实施上采样操作,例如可将上述第2个FFEM模块的输出的四组特征映射,全部通过上采样得到大小是文本图像原图的1/4的特征图像。然后将这四个1/4大小的特征图像进行串联操作后,形成一个图像。其中,串联操作是将四个1/4大小的特征图像叠加在一起,四个1/4大小的特征图像分别作为一个通道形成串联操作之后的图像,则经过串联操作之后形成了一个四通道的图像。在一个示例中,如果上采样得到4个128*128*1的特征图像,则经过串联操作之后形成一个128*128*4的图像。其中,“128*128”表示图像的宽度和高度都是128像素,“1”和“4”表示图像的通道数,也就是图像的特征维度。
在步骤S320中可对串联操作得到的图像进一步提取特征。例如,可对串联操作得到的图像进行一次卷积操作和两次反卷积操作,得到一个大小与文本图像原图相同的1个通道的特征图像,也就是文本图像的文本区域的概率图像。文本区域的概率图像中包括文本图像中的像素点属于文本区域的概率。其中,利用卷积操作和反卷积操作可进一步提取图像特征。利用反卷积操作可起到还原图像的作用,可以恢复卷积操作前的图像信息,从而可以保留更多的图像信息。
参见图1,本申请实施例中,首先在步骤S110中对待检测的文本图像进行特征提取,得到特征图像。后续的处理流程分两个分支。第一个分支执行步骤S120,对利用卷积神经网络对特征图像进行处理,可得到真实文本区域的概率图像。第二个分支执行步骤S130,利用序列模型对特征图像进行处理,可得到文本图像中的用于标记文本区域的关键点位置。
图4为根据本申请另一实施例的文本检测方法的关键点识别步骤的流程图。如图4所示,在一种实施方式中,图1中的步骤S130,利用序列模型对特征图像进行处理,得到文本图像中的文本区域的关键点位置,具体可包括:
步骤S410,利用特征金字塔网络对特征图像进行处理,得到特征向量;
步骤S420,利用序列模型对特征向量进行处理,得到文本图像中的文本区域的关键点坐标向量。
其中,特征金字塔网络可解决文本检测中的多尺度问题。在网络的每一层预测所用的特征图像都融合了不同分辨率的特征,融合的不同分辨率的特征图像分别做对应分辨率大小的文本检测。利用特征金字塔网络可提升文本检测的性能且不增加额外的时间和计算量。
图5为根据本申请另一实施例的文本检测方法的关键点识别步骤的流程图。如图5所示,在一种实施方式中,图4中的步骤S410,利用特征金字塔网络对特征图像进行处理,得到特征向量,包括:
步骤S510,利用特征金字塔网络对特征图像进行池化操作;
步骤S520,对池化操作后的特征图像进行串联操作,得到特征向量。
在步骤S510中,可将步骤S110中提取到的特征图像采用特征金字塔网络进行池化操作,通过池化操作可以达到对特征进行降维的目的。在一个示例中,待检测的文本图像经过Restnet18网络之后,得到四组特征映射。每组特征映射的通道数均为128,大小分别是文本图像原图的1/4、1/8、1/16和1/32。然后对以上四组特征映射进行池化操作,具体可包括:对大小为文本图像原图的1/32的特征映射使用2*2的池化窗口进行池化操作;对大小为文本图像原图的1/16的特征映射使用4*4的池化窗口进行池化操作;对大小为文本图像原图的1/8的特征映射使用8*8的池化窗口进行池化操作;对大小为文本图像原图的1/4的特征映射使用16*16的池化窗口进行池化操作。上述“2*2”、“4*4”、“8*8”和“16*16”分别以像素为单位表示各个池化窗口的尺寸。以上各个池化操作可以是以并行的方式进行的,经过池化操作之后得到的特征映射的大小均为文本图像原图的1/64。
在步骤S520中,将池化操作之后得到的特征映射进行串联操作。例如,可将以上池化操作之后得到的四个大小均为文本图像原图的1/64的特征图像叠加在一起,四个1/64大小的特征图像分别作为一个通道形成串联操作之后的图像,则经过串联操作之后形成了一个四通道的图像。然后将四通道的图像按照通道的顺序排列成一个一维张量,排列后得到的一维张量也就是步骤S520最终得到的特征向量。
图6为根据本申请另一实施例的文本检测方法的关键点识别步骤的流程图。如图6所示,在一种实施方式中,图4中的步骤S420,利用序列模型对特征向量进行处理,得到文本图像中的文本区域的关键点坐标向量,具体可包括:
步骤S610,将特征向量输入序列模型,输出文本图像中的文本区域的关键点坐标的高维向量的低维表示向量;
步骤S620,利用主成分分析算法将低维表示向量升维还原,得到文本图像中的文本区域的关键点坐标向量。
输入或者输出中包含有序列数据的模型称为序列模型。例如长短期记忆网络(LSTM,Long Short-Term Memory)是一种序列模型,LSTM是循环神经网络的变体网络。循环神经网络是一种具有短期记忆能力的模型。在循环神经网络中,神经元能接收所有神经元的信息,也包括自身的信息,其参数可以通过随时间反向传播算法来学习,随时间反向传播算法按时间逆序将错误信息一步步向前传递。当输入序列比较长时,循环神经网络可能出现梯度爆炸或消失问题。为了解决这个问题,可对循环神经网络进行改进,例如引入门控机制。LSTM就是一种基于门控机制的循环神经网络。
本申请实施例中,利用序列模型可将文本图像中各个文本区域的信息相互结合,在此基础上可取得更好检测效果,提高文本检测的准确度。
在一个示例中,可采用一个一层的LSTM对步骤S520中得到的一维张量进行处理,也就是对特征向量进行处理。可根据一维张量的长度和LSTM的每个时间步的固定的输入张量长度设置LSTM的时间步数。例如,输入LSTM的一维张量的长度为1500,每个时间步的输入张量长度为10,也就是说在每个时间步将特征向量中的10个元素的值输入到LSTM中。根据一维张量的长度和LSTM的每个时间步的固定的输入张量长度,可确定LSTM的时间步数为150。在LSTM网络中,每个时间步的输入信息对应一个输出结果,每个输出结果对于应于文本图像中的一个文本区域,例如文本区域可以是矩形的文本框。在通常情况下,一张密集文本图像中可以包含一百多个文本框,本申请实施例中,可设置时间步数在150左右。
在步骤S610中,将步骤S520中得到的一维张量作为LSTM网络的输入信息。LSTM的每一个时间步对应的输出结果,都表示一个文本区域被预测到的关键点坐标。在一个示例中,文本区域是一个矩形的文本框,则关键点坐标就是矩形的4个顶点在文本图像中的位置坐标。在另一个示例中,文本区域是一个多边形的文本框,在LSTM的输出结果中该多边形由14个顶点表示,则关键点坐标就是多边形的14个顶点在文本图像中的位置坐标。
图7为根据本申请另一实施例的文本检测方法的文本区域的关键点示意图。图7中所示的矩形的文本框有4个顶点,其4个顶点的坐标分别为(5,10)、(10,10)、(5,20)和(10,20)。在以上坐标的表示方式中,4个顶点需要使用8个数值来表示,将以上8个数值组成的向量称为该文本区域的关键点坐标的高维向量。高维向量可以通过降维的方式转化为对应的低维表示向量,反之,低维表示向量也可以通过升维还原成对应的高维向量。在步骤S610中,LSTM网络的输出信息为一个向量,该向量表示文本图像中的文本区域的关键点坐标的高维向量的低维表示向量。例如,图7中所示的矩形的文本框的关键点坐标的高维向量的低维表示向量可以是(4.26,3.18)。
在步骤S620中,利用主成分分析算法将低维表示向量升维还原。在上述示例中,可将低维表示向量(4.26,3.18)升维还原,得到图7中所示的文本图像中的文本区域的关键点坐标向量,也就是矩形的文本框的4个顶点的坐标(5,10)、(10,10)、(5,20)和(10,20)。
主成分分析(PCA,Principal Components Analysis)算法可用于对数据进行降维和升维处理。在降维处理的算法中,该算法对于原有的所有变量进行处理,将重复的变量删去,例如可以将关系紧密的多个变量保留其中的一个变量而删去其他多余的变量。通过以上处理建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量能够反映的图像的信息且尽可能保持原有的图像信息。也就是说,用于降维处理的主成分分析算法是将原有变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量,尽可能多地反映原来变量的信息的统计方法。
综上,参见图1至图7,本申请实施例中,在步骤S110中得到特征图像之后的处理流程分两个分支。第一个分支执行步骤S120,输出的1个通道的真实文本区域的概率图像。第二个分支执行步骤S130,输出连续序列信息,连续序列信息中的每个输出结果都表示文本区域关键点坐标的高维向量的低维表示,再通过升维还原可得到文本图像中的用于标记文本区域的关键点位置。
在预先进行的针对第二个分支的模型训练的过程中,可先利用主成分分析算法将标注信息降维处理。例如,文本区域的关键点位置的标注信息包括:文本图像中的一个矩形的文本框的4个顶点的坐标(5,10)、(10,10)、(5,20)和(10,20)。则在模型训练之前,先利用主成分分析算法将上述标注信息降维处理,得到低维表示向量(4.26,3.18)。然后利用降维处理后的标注信息对第二个分支的LSTM模型进行训练优化。
在模型训练阶段,一方面,可采用交并比值作为目标损失函数对第一个分支输出的真实文本区域的概率图像进行训练优化。具体可采用戴斯系数差异函数(Dice Loss)来计算训练损失。在一个示例中,针对第一个分支的输出结果进行优化,可采用以下公式作为目标损失函数:
其中,表示第一个分支的损失值,表示第i个像素点属于文本区域的概率,表示文本区域的ground truth(正确的基准值)。ground truth是一个二进制图像,该二进制图像中文本像素为1,非文本像素为0。其中,文本像素是属于文本区域的像素点,非文本像素是不属于文本区域的像素点。
另一方面,可采用均方误差损失函数对第二个分支输出的文本区域的关键点坐标向量进行训练优化。
在一个示例中,在整个模型训练阶段,可将上述两个方面的模型训练过程作为多任务训练过程。也就是说两个分支的loss函数(损失函数)可以各自进行优化,而不是将两个分支作为一个整体进行优化。
图8为根据本申请另一实施例的文本检测方法的后处理操作的流程图。如图8所示,在一种实施方式中,图1中的步骤S140,根据像素点属于文本区域的概率和文本区域的关键点位置,确定文本图像的文本区域检测结果,具体可包括:
步骤S710,根据像素点属于文本区域的概率,得到文本图像中的属于文本区域的像素点;
步骤S720,在文本区域的关键点位置与属于文本区域的像素点相匹配的情况下,将文本区域的关键点位置所对应的文本区域作为文本图像的文本区域检测结果。
在这种实施方式中,在步骤S710中可根据上述第一个分支输出的真实文本区域的概率图像,得到文本图像中的属于文本区域的像素点。然后在步骤S720中,将第二个分支输出的文本区域关键点坐标与属于文本区域的像素点相匹配,将匹配成功的文本区域的关键点位置所对应的文本区域作为文本图像的文本区域检测结果。
在一种实施方式中,步骤S710,根据像素点属于文本区域的概率,得到文本图像中的属于文本区域的像素点,具体可包括:
对文本图像的文本区域的概率图像进行二值化操作,得到文本区域的二值图像;
根据文本区域的二值图像得到文本图像中的属于文本区域的像素点。
在这种实施方式中,首先将第一个分支输出的真实文本区域的概率图像进行二值化操作,得到文本区域的二值图像。二值化操作可包括:对概率图像中的每个像素点对应的概率值进行处理,将大于等于某个概率阈值的概率值设置为极大值,将小于某个概率阈值的概率值设置为极小值,从而实现二值化。在文本区域的二值图像中,可将概率值为极大值的像素点确定为属于文本区域的像素点,将概率值为极小值的像素点确定为不属于文本区域的像素点。从而根据文本区域的二值图像,可得到文本图像中的属于文本区域的像素点。
在一种实施方式中,文本区域的关键点位置与属于文本区域的像素点相匹配,包括以下至少之一:
文本区域的关键点位置的坐标与属于文本区域的像素点的坐标相同;
以文本区域的关键点位置为中心的预设领域内包括属于文本区域的像素点。
在一个示例中,可将步骤S130中得到的文本区域的关键点位置与文本区域的二值图像中属于文本区域的像素点相匹配。例如,在步骤S620中升维还原得到的文本区域的关键点坐标向量中包括的文本框的4个顶点的坐标为(5,10)、(10,10)、(5,20)和(10,20),则将上述4个顶点的坐标分别在文本区域的二值图像上进行匹配,分别判断上述4个顶点在文本区域的二值图像中是否是属于文本区域的像素点。若上述4个顶点在文本区域的二值图像中都是属于文本区域的像素点,则确定上述4个顶点对应的文本区域是正确的检测结果。若上述4个顶点在文本区域的二值图像中至少有一个不是属于文本区域的像素点,则确定上述4个顶点对应的文本区域不是正确的检测结果,也就是该文本区域的检测结果是不准确的。
在另一个示例中,在进行文本区域的关键点位置与属于文本区域的像素点的匹配时,可以设置一定的误差范围。例如可设置误差范围的半径r=3,以文本区域的关键点位置为中心,半径为3做一个圆形区域,这个圆形区域就是预设领域。如果可以检测到这个圆形区域内有属于文本区域的像素点,则确定该文本区域的关键点位置与属于文本区域的像素点匹配成功。如果通过LSTM输出得到的一个低维表示向量升维还原后的坐标点,全部都匹配成功,则确定该低维表示向量对应的文本区域是正确的检测结果。如果低维表示向量升维还原后得到的至少一个坐标点不能匹配成功,则认为该低维表示向量对应的文本区域的检测结果是不准确的。
在文本非常密集的实际应用场景中,现有技术的文本检测方法的速度受文本框数量的影响非常大。比如小学生的算术练习册中,一张图像上可能有一百多个文本区域。在相关技术的文本检测方法中,检测速度几乎是随着文本框数量的增长呈线性下降趋势。在这种情况下无法满足实际应用场景的速度需求。检测速度下降的原因主要是由于后处理过于复杂,耗费了大量时间。相比之下,本申请实施例在步骤S140中执行的后处理操作,仅仅需要判断关键点位置是不是属于文本区域的像素点。以上后处理操作简单易行、计算量小。尤其是在密集文本图像检测的应用场景中,可大大提升文本检测的速度。另外,根据像素点属于文本区域的概率判断文本区域的关键点位置是否识别准确,可大大提升文本检测的准确度和抗干扰能力,使文本检测的鲁棒性更强。
综上,本申请实施例利用残差神经网络和特征金字塔增强模块能够更好地提取图像特征的优势,结合序列模型能够时序建模的优势与主成分分析方法能够有效降低数据维度,同时能够精准还原数据的能力,同时采用了简单高效的后处理操作的方式,在保证文本检测效果的前提下,提升了文本检测的速度和鲁棒性。
图9为根据本申请另一实施例的文本检测方法的流程图。如图9所示,一个示例性的文本检测方法可包括以下步骤:
步骤1:输入待检测的文本图像。
步骤2:将Resnet18网络模型作为基础网络模型,对输入的文本图像进行提取特征,得到第一特征图像。
步骤3:使用2个FPEM模块对特征图像进行特征提取。将步骤1提取到的第一特征图像,经过两个FPEM模块再次提取特征,并得到第二特征图像对应的4组特征映射。
步骤4:将步骤3中得到的所有特征图全部上采样至文本图像原图的1/4大小,并对上采样操作得到的图像进行串联操作。
步骤5:将步骤4串联操作之后的图像进行一次卷积操作,两次反卷积操作。
步骤6:输出特征映射通道数为1且大小与原图大小一致的特征映射图,该图为表示真实文本区域的概率图像。
步骤7:将真实文本区域的概率图像转化为真实文本区域的二值图像。
步骤8:将步骤2提取到的第一特征图像,采用特征金字塔池化的方法,对特征进行降维处理后得到一维张量。具体操作步骤参见上述步骤S510的对应描述,在此不再赘述。
步骤9:将步骤8得到的一维张量作为一个一层结构的LSTM网络的输入信息。LSTM网络每个时间步输出一个向量,这个向量是表示文本框关键点坐标的高维向量的低维表示向量。
步骤10:输出表示文本框关键点坐标的高维向量的低维表示向量。
步骤11:将步骤10得到的低维表示向量升维还原,得到表示文本框的关键点坐标向量。根据步骤7得到的真实文本区域的二值图像判断关键点坐标向量中的坐标点是否属于文本区域。若表示文本框的关键点坐标向量中的所有坐标点都属于文本区域,则将该文本框确定为正确的检测结果。
图10为根据本申请实施例的文本检测装置的结构示意图。如图10所示,该装置可以包括:
提取单元100,用于对文本图像进行特征提取,得到特征图像;
第一处理单元200,用于利用卷积神经网络对特征图像进行处理,得到文本图像中的像素点属于文本区域的概率;
第二处理单元300,用于利用序列模型对特征图像进行处理,得到文本图像中的文本区域的关键点位置;
确定单元400,用于根据像素点属于文本区域的概率和文本区域的关键点位置,确定文本图像的文本区域检测结果。
在一种实施方式中,提取单元100用于:
利用残差神经网络对文本图像进行卷积操作,得到特征图像。
图11为根据本申请实施例的文本检测装置的第一处理单元的结构示意图。如图11所示,在一种实施方式中,第一处理单元200包括:
提取子单元210,用于利用特征金字塔增强模块对特征图像进行特征提取;
第一处理子单元220,用于利用卷积神经网络对特征提取后的特征图像进行卷积操作,得到文本图像的文本区域的概率图像,文本区域的概率图像包括文本图像中的像素点属于文本区域的概率。
在一种实施方式中,第一处理子单元220用于:
对特征提取后的特征图像进行上采样操作,并对上采样操作得到的图像进行串联操作;
利用卷积神经网络对串联操作得到的图像进行卷积操作和反卷积操作,得到文本图像的文本区域的概率图像。
图12为根据本申请实施例的文本检测装置的第二处理单元的结构示意图。如图12所示,在一种实施方式中,第二处理单元300包括:
第二处理子单元310,用于利用特征金字塔网络对特征图像进行处理,得到特征向量;
第三处理子单元320,用于利用序列模型对特征向量进行处理,得到文本图像中的文本区域的关键点坐标向量。
在一种实施方式中,第二处理子单元310用于:
利用特征金字塔网络对特征图像进行池化操作;
对池化操作后的特征图像进行串联操作,得到特征向量。
在一种实施方式中,第三处理子单元320用于:
将特征向量输入序列模型,输出文本图像中的文本区域的关键点坐标的高维向量的低维表示向量;
利用主成分分析算法将低维表示向量升维还原,得到文本图像中的文本区域的关键点坐标向量。
图13为根据本申请实施例的文本检测装置的确定单元的结构示意图。如图13所示,在一种实施方式中,确定单元400包括:
第四处理子单元410,用于根据像素点属于文本区域的概率,得到文本图像中的属于文本区域的像素点;
匹配子单元420,用于在文本区域的关键点位置与属于文本区域的像素点相匹配的情况下,将文本区域的关键点位置所对应的文本区域作为文本图像的文本区域检测结果。
在一种实施方式中,第四处理子单元410用于:
对文本图像的文本区域的概率图像进行二值化操作,得到文本区域的二值图像;
根据文本区域的二值图像得到文本图像中的属于文本区域的像素点。
在一种实施方式中,匹配子单元420,用于在以下至少之一的情况下,确定文本区域的关键点位置与属于文本区域的像素点相匹配:
文本区域的关键点位置的坐标与属于文本区域的像素点的坐标相同;
以文本区域的关键点位置为中心的预设领域内包括属于文本区域的像素点。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图14为用来实现本申请实施例的电子设备的框图。如图14所示,该电子设备包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行该计算机程序时实现上述实施例中的文本检测方法。存储器910和处理器920的数量可以为一个或多个。
该电子设备还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral ComponentInterconnect ,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture ,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图14中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory ,DRAM) 、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (18)
1.一种文本检测方法,其特征在于,包括:
对文本图像进行特征提取,得到特征图像;
利用卷积神经网络对所述特征图像进行处理,得到所述文本图像中的像素点属于文本区域的概率;
利用序列模型对所述特征图像进行处理,得到所述文本图像中的文本区域的关键点位置;
根据所述像素点属于文本区域的概率和所述文本区域的关键点位置,确定所述文本图像的文本区域检测结果;
其中,利用序列模型对所述特征图像进行处理,得到所述文本图像中的文本区域的关键点位置,包括:
利用特征金字塔网络对所述特征图像进行处理,得到特征向量;将所述特征向量输入序列模型,输出文本图像中的文本区域的关键点坐标的高维向量的低维表示向量;利用主成分分析算法将所述低维表示向量升维还原,得到所述文本图像中的文本区域的关键点坐标向量。
2.根据权利要求1所述的方法,其特征在于,对文本图像进行特征提取,得到特征图像,包括:
利用残差神经网络对所述文本图像进行卷积操作,得到所述特征图像。
3.根据权利要求1所述的方法,其特征在于,利用卷积神经网络对所述特征图像进行处理,得到所述文本图像中的像素点属于文本区域的概率,包括:
利用特征金字塔增强模块对所述特征图像进行特征提取;
利用卷积神经网络对特征提取后的特征图像进行卷积操作,得到所述文本图像的文本区域的概率图像,所述文本区域的概率图像包括所述文本图像中的像素点属于文本区域的概率。
4.根据权利要求3所述的方法,其特征在于,利用卷积神经网络对所述特征提取后的特征图像进行卷积操作,得到所述文本图像的文本区域的概率图像,包括:
对所述特征提取后的特征图像进行上采样操作,并对所述上采样操作得到的图像进行串联操作;
利用卷积神经网络对所述串联操作得到的图像进行卷积操作和反卷积操作,得到所述文本图像的文本区域的概率图像。
5.根据权利要求1所述的方法,其特征在于,利用特征金字塔网络对所述特征图像进行处理,得到特征向量,包括:
利用特征金字塔网络对所述特征图像进行池化操作;
对池化操作后的特征图像进行串联操作,得到特征向量。
6.根据权利要求3或4所述的方法,其特征在于,根据所述像素点属于文本区域的概率和所述文本区域的关键点位置,确定所述文本图像的文本区域检测结果,包括:
根据所述像素点属于文本区域的概率,得到所述文本图像中的属于文本区域的像素点;
在所述文本区域的关键点位置与属于所述文本区域的像素点相匹配的情况下,将所述文本区域的关键点位置所对应的文本区域作为所述文本图像的文本区域检测结果。
7.根据权利要求6所述的方法,其特征在于,根据所述像素点属于文本区域的概率,得到所述文本图像中的属于文本区域的像素点,包括:
对所述文本图像的文本区域的概率图像进行二值化操作,得到文本区域的二值图像;
根据所述文本区域的二值图像得到所述文本图像中的属于文本区域的像素点。
8.根据权利要求6所述的方法,其特征在于,所述文本区域的关键点位置与属于所述文本区域的像素点相匹配,包括以下至少之一:
所述文本区域的关键点位置的坐标与属于所述文本区域的像素点的坐标相同;
以所述文本区域的关键点位置为中心的预设领域内包括属于所述文本区域的像素点。
9.一种文本检测装置,其特征在于,包括:
提取单元,用于对文本图像进行特征提取,得到特征图像;
第一处理单元,用于利用卷积神经网络对所述特征图像进行处理,得到所述文本图像中的像素点属于文本区域的概率;
第二处理单元,用于利用序列模型对所述特征图像进行处理,得到所述文本图像中的文本区域的关键点位置;
确定单元,用于根据所述像素点属于文本区域的概率和所述文本区域的关键点位置,确定所述文本图像的文本区域检测结果;
其中,所述第二处理单元包括:第二处理子单元,用于利用特征金字塔网络对所述特征图像进行处理,得到特征向量;第三处理子单元,用于将所述特征向量输入序列模型,输出文本图像中的文本区域的关键点坐标的高维向量的低维表示向量;利用主成分分析算法将所述低维表示向量升维还原,得到所述文本图像中的文本区域的关键点坐标向量。
10.根据权利要求9所述的装置,其特征在于,所述提取单元用于:
利用残差神经网络对所述文本图像进行卷积操作,得到所述特征图像。
11.根据权利要求9所述的装置,其特征在于,所述第一处理单元包括:
提取子单元,用于利用特征金字塔增强模块对所述特征图像进行特征提取;
第一处理子单元,用于利用卷积神经网络对特征提取后的特征图像进行卷积操作,得到所述文本图像的文本区域的概率图像,所述文本区域的概率图像包括所述文本图像中的像素点属于文本区域的概率。
12.根据权利要求11所述的装置,其特征在于,所述第一处理子单元用于:
对所述特征提取后的特征图像进行上采样操作,并对所述上采样操作得到的图像进行串联操作;
利用卷积神经网络对所述串联操作得到的图像进行卷积操作和反卷积操作,得到所述文本图像的文本区域的概率图像。
13.根据权利要求9所述的装置,其特征在于,所述第二处理子单元用于:
利用特征金字塔网络对所述特征图像进行池化操作;
对池化操作后的特征图像进行串联操作,得到特征向量。
14.根据权利要求11或12所述的装置,其特征在于,所述确定单元包括:
第四处理子单元,用于根据所述像素点属于文本区域的概率,得到所述文本图像中的属于文本区域的像素点;
匹配子单元,用于在所述文本区域的关键点位置与属于所述文本区域的像素点相匹配的情况下,将所述文本区域的关键点位置所对应的文本区域作为所述文本图像的文本区域检测结果。
15.根据权利要求14所述的装置,其特征在于,所述第四处理子单元用于:
对所述文本图像的文本区域的概率图像进行二值化操作,得到文本区域的二值图像;
根据所述文本区域的二值图像得到所述文本图像中的属于文本区域的像素点。
16.根据权利要求14所述的装置,其特征在于,所述匹配子单元,用于在以下至少之一的情况下,确定文本区域的关键点位置与属于所述文本区域的像素点相匹配:
所述文本区域的关键点位置的坐标与属于所述文本区域的像素点的坐标相同;
以所述文本区域的关键点位置为中心的预设领域内包括属于所述文本区域的像素点。
17.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至8任一项所述的方法。
18.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010963784.3A CN111814794B (zh) | 2020-09-15 | 2020-09-15 | 文本检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010963784.3A CN111814794B (zh) | 2020-09-15 | 2020-09-15 | 文本检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814794A CN111814794A (zh) | 2020-10-23 |
CN111814794B true CN111814794B (zh) | 2020-12-04 |
Family
ID=72860123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010963784.3A Active CN111814794B (zh) | 2020-09-15 | 2020-09-15 | 文本检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814794B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967545B (zh) * | 2020-10-26 | 2021-02-26 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN112464798A (zh) * | 2020-11-24 | 2021-03-09 | 创新奇智(合肥)科技有限公司 | 文本识别方法及装置、电子设备、存储介质 |
CN112200191B (zh) * | 2020-12-01 | 2021-07-20 | 北京京东尚科信息技术有限公司 | 图像处理方法、装置、计算设备及介质 |
CN112287924B (zh) * | 2020-12-24 | 2021-03-16 | 北京易真学思教育科技有限公司 | 文本区域检测方法、装置、电子设备和计算机存储介质 |
CN112287931B (zh) * | 2020-12-30 | 2021-03-19 | 浙江万里学院 | 一种场景文本检测方法及系统 |
CN114821023A (zh) * | 2021-01-13 | 2022-07-29 | 中国电信股份有限公司 | 图像文本检测方法、装置、存储介质和计算机程序产品 |
CN112464940A (zh) * | 2021-02-03 | 2021-03-09 | 浙江驿公里智能科技有限公司 | 一种基于深度学习的车辆前挡风玻璃vin码识别方法及系统 |
CN112801030B (zh) * | 2021-02-10 | 2023-09-01 | 中国银联股份有限公司 | 一种目标文本区域的定位方法及装置 |
CN112990203B (zh) * | 2021-05-11 | 2022-01-28 | 北京世纪好未来教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN113362380B (zh) * | 2021-06-09 | 2024-07-02 | 北京世纪好未来教育科技有限公司 | 一种图像特征点检测模型训练方法、装置及其电子设备 |
CN113591719B (zh) * | 2021-08-02 | 2024-05-28 | 南京大学 | 一种自然场景任意形状文本检测方法、装置和训练方法 |
CN115631493B (zh) * | 2022-11-04 | 2023-05-09 | 金蝶软件(中国)有限公司 | 文本区确定方法、系统及相关装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1262907B1 (en) * | 2001-05-28 | 2007-10-03 | Honda Research Institute Europe GmbH | Pattern recognition with hierarchical networks |
CN109344822B (zh) * | 2018-09-03 | 2022-06-03 | 电子科技大学 | 一种基于长短期记忆网络的场景文本检测方法 |
CN111242125B (zh) * | 2020-01-14 | 2023-05-02 | 深圳大学 | 一种自然场景图像文本检测方法、存储介质及终端设备 |
CN111461114B (zh) * | 2020-03-03 | 2023-05-02 | 华南理工大学 | 一种基于分割的多尺度特征金字塔文本检测方法 |
CN111652218A (zh) * | 2020-06-03 | 2020-09-11 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
-
2020
- 2020-09-15 CN CN202010963784.3A patent/CN111814794B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111814794A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN111047551B (zh) | 一种基于U-net改进算法的遥感影像变化检测方法及系统 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN111652217B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN107784288B (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN111723841A (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN111274981A (zh) | 目标检测网络构建方法及装置、目标检测方法 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
JP2023527615A (ja) | 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム | |
CN114037640A (zh) | 图像生成方法及装置 | |
CN113781164B (zh) | 虚拟试衣模型训练方法、虚拟试衣方法和相关装置 | |
CN112348116A (zh) | 利用空间上下文的目标检测方法、装置和计算机设备 | |
CN116152334A (zh) | 图像处理方法及相关设备 | |
CN112132164B (zh) | 目标检测方法、系统、计算机装置及存储介质 | |
CN110879972A (zh) | 一种人脸检测方法及装置 | |
CN113743346A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN113704276A (zh) | 地图更新方法、装置、电子设备及计算机可读存储介质 | |
CN117765363A (zh) | 一种基于轻量型记忆库的图像异常检测方法及系统 | |
CN113569600A (zh) | 物体重识别的方法、装置、电子设备及存储介质 | |
CN116798041A (zh) | 图像识别方法、装置和电子设备 | |
CN116128792A (zh) | 图像处理方法及相关设备 | |
CN116704206A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN113095185B (zh) | 人脸表情识别方法、装置、设备及存储介质 | |
CN112785601B (zh) | 一种图像分割方法、系统、介质及电子终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |