CN110135446B - 文本检测方法及计算机存储介质 - Google Patents
文本检测方法及计算机存储介质 Download PDFInfo
- Publication number
- CN110135446B CN110135446B CN201810134880.XA CN201810134880A CN110135446B CN 110135446 B CN110135446 B CN 110135446B CN 201810134880 A CN201810134880 A CN 201810134880A CN 110135446 B CN110135446 B CN 110135446B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- text image
- neural network
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种文本检测方法及计算机存储介质,其中,文本检测方法包括:对待检测的原始文本图像进行预处理,获得预处理后的文本图像;获得预处理后的文本图像对应的方向梯度图和图像掩膜;将所述预处理后的文本图像和对应的方向梯度图输入设定的神经网络,其中,所述神经网络包括卷积神经网络CNN部分和循环神经网络RNN部分;通过所述神经网络按照所述图像掩膜的图像数据,对所述预处理后的文本图像和所述方向梯度图进行文本检测,获取所述文本检测的检测结果。通过本发明实施例,有效提高了对文本图像进行检测的精确度。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文本检测方法及计算机存储介质。
背景技术
随着计算机和互联网技术的发展,借助于计算机和互联网进行学习和教学已成为一种趋势。通过计算机和互联网,可以有效提高学生学习和教师教学和辅导的效率。
例如,可以将学生的答卷或问题拍照后上传至相应终端或服务器进行处理,如,先对照片中的文字(手写或非手写)进行检测,进而进行识别,然后将识别结果(如识别出的文字、公式等等)发送给教师端,以便于教师端的教师进行答疑或批改;或者,先对照片中的文字进行检测和识别,若根据检测和识别结果确定服务器中已存在相应内容,如服务器中存在题目答案,则可以直接向学生端返回相应内容或答案对错结果,而若服务器中不存在相应内容,则可以将识别结果发送给教师端,由教师端的教师进行进一步的处理。
目前的文本检测方法,虽然能够实现对文本图像的检测,但精确度不够,经常出现错检、漏检等现象,严重影响了文本检测效率。
发明内容
有鉴于此,本发明实施例提供了一种文本检测方法及计算机存储介质,以解决如何对文本图像进行精确检测的问题。
根据本发明实施例的第一方面,提供了一种文本检测方法,包括:对待检测的原始文本图像进行预处理,获得预处理后的文本图像;获得预处理后的文本图像对应的方向梯度图和图像掩膜;将所述预处理后的文本图像和对应的方向梯度图输入设定的神经网络,其中,所述神经网络包括卷积神经网络CNN部分和循环神经网络RNN部分;通过所述神经网络按照所述图像掩膜的图像数据,对所述预处理后的文本图像和所述方向梯度图进行文本检测,获取所述文本检测的检测结果。
根据本发明实施例的第二方面,还提供了一种计算机存储介质,所述计算机存储介质存储有:用于对待检测的原始文本图像进行预处理,获得预处理后的文本图像的指令;用于获得预处理后的文本图像对应的方向梯度图和图像掩膜的指令;用于将所述预处理后的文本图像和对应的方向梯度图输入设定的神经网络的指令,其中,所述神经网络包括卷积神经网络CNN部分和循环神经网络RNN部分;用于通过所述神经网络按照所述图像掩膜的图像数据,对所述预处理后的文本图像和所述方向梯度图进行文本检测,获取所述文本检测的检测结果的指令。
根据本发明实施例提供的方案,在使用神经网络进行文本检测前,先对原始文本图像进行预处理,获得预处理后的文本图像及与其相对应的方向梯度图和图像掩膜;进而,以预处理后的文本图像和方向梯度图作为神经网络的输入,结合图像掩膜数据通过神经网络中的CNN(Convolutional Neural Network,卷积神经网络)部分和RNN(RecurrentNeural Networks,循环神经网络)部分进行文本检测。其中,方向梯度图描述了文本图像中梯度的方向分布特征,将方向梯度图与预处理后的文本图像一起输入神经网络的CNN部分,可以使CNN部分从方向梯度图中获取文本图像的部分特征信息,从而提高CNN部分和整个神经网络的检测和收敛速度,提高精确度。此外,图像掩膜是由0和1组成的一个二进制图像,通过预处理后的文本图像的图像掩膜,可以控制文本图像的处理区域或处理过程。本发明实施例中,在CNN部分检测中加入图像掩膜数据,可以只对文本图像中的部分区域进行特征提取和检测,在保证检测精度的同时,还可以减少数据计算量。
可见,基于本发明实施例提供的文本检测方案,有效提高了对文本图像进行检测的精确度。以该精确检测的结果为基础,后续的文本识别也会更为精准。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一的一种文本检测方法的步骤流程图;
图2是根据本发明实施例二的一种文本检测方法的步骤流程图;
图3是根据本发明实施例三的一种文本检测方法的步骤流程图;
图4是图3所示实施例中的一种CNN结构的示意图。
具体实施方式
当然,实施本发明实施例的任一技术方案必不一定需要同时达到以上的所有优点。
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
实施例一
参照图1,示出了根据本发明实施例一的一种文本检测方法的步骤流程图。
本实施例的文本检测方法包括以下步骤:
步骤S102:对待检测的原始文本图像进行预处理,获得预处理后的文本图像。
其中,对原始文本图像的预处理可以由本领域技术人员根据实际需要采用适当的方式进行。对原始文本图像的预处理包括但不限于:进行灰度处理、SSR(Single ScaleRetinex,单尺度Retinex算法)处理等。
步骤S104:获得预处理后的文本图像对应的方向梯度图和图像掩膜。
方向梯度图描述了文本图像中梯度的方向分布特征,通常来说,在图像边缘和角点的梯度值很大,而边缘和角点包含了较多的物体形状信息,可以有效表征文本图像中目标对象的特征。
图像掩膜是由0和1组成的一个二进制图像,可以用来控制图像的处理区域或处理过程。例如,可以通过图像掩模对文本图像上的某些区域进行屏蔽,使其不参加处理;或者,仅对这些区域进行处理,屏蔽其它区域。从而,在保证检测精度的同时,还可以减少数据计算量。
本实施例中,本领域技术人员可以根据实际需要采用适当的方式获得文本图像对应的方向梯度图和图像掩膜。
步骤S106:将预处理后的文本图像和对应的方向梯度图输入设定的神经网络。
其中,所述神经网络包括CNN部分(如VGG16网络)和RNN(如BLSTM网络)部分,该神经网络可以是预先训练好的、具有文本检测功能的神经网络,也可以是第三方提供的,可以直接使用的神经网络。
本实施例中,与常规使用神经网络进行文本检测时,仅将文本图像作为输入不同,还增加了文本图像对应的方向梯度图,也即,将预处理后的文本图像和方向梯度图一起输入神经网络作为输入,以使神经网络从方向梯度图中获取文本图像中的部分特征信息,从而提高神经网络的检测和收敛速度,提高精确度。
步骤S108:通过神经网络按照图像掩膜的图像数据,对预处理后的文本图像和方向梯度图进行文本检测,获取文本检测的检测结果。
如前所述,图像掩膜是由0和1组成的一个二进制图像,可以用来控制图像的处理区域或处理过程。在神经网络的CNN部分对预处理后的文本图像和方向梯度图进行特征提取,以进行文本检测时,可以根据图像掩膜,仅对预处理后的文本图像中,存在文本的区域进行特征提取。一般来说,在考题答卷或问题问卷中,除了文本部分,还存在着大量的空白部分。因此,使用图像掩膜,针对文本部分进行处理,可以大大减少数据处理量,提高数据处理速度和效率。
根据本实施例,在使用神经网络进行文本检测前,先对原始文本图像进行预处理,获得预处理后的文本图像及与其相对应的方向梯度图和图像掩膜;进而,以预处理后的文本图像和方向梯度图作为神经网络的输入,结合图像掩膜数据通过神经网络中的CNN部分和RNN部分进行文本检测。其中,方向梯度图描述了文本图像中梯度的方向分布特征,将方向梯度图与预处理后的文本图像一起输入神经网络的CNN部分,可以使CNN部分从方向梯度图中获取文本图像的部分特征信息,从而提高CNN部分和整个神经网络的检测和收敛速度,提高精确度。此外,图像掩膜是由0和1组成的一个二进制图像,通过预处理后的文本图像的图像掩膜,可以控制文本图像的处理区域或处理过程。本发明实施例中,在CNN部分检测中加入图像掩膜数据,可以只对文本图像中的部分区域进行特征提取和检测,在保证检测精度的同时,还可以减少数据计算量。
可见,通过本实施例,有效提高了对文本图像进行检测的精确度。
本实施例的文本检测方法可以由任意适当的具有数据处理功能的设备实现,包括:各种终端设备及服务器等。
实施例二
参照图2,示出了根据本发明实施例二的一种文本检测方法的步骤流程图。
本实施例的文本检测方法包括以下步骤:
步骤S202:使用包含文本信息的样本图像,训练神经网络。
本实施例中,先对神经网络进行训练,以使其具有文本检测功能。本实施例中神经网络也包括输入层、CNN部分、RNN部分、全连接层和Softmax层等结构。其中,CNN部分采用经典卷积结构(如VGG16中的卷积层结构或其它类似CNN中的卷积层结构),RNN部分包括第一分支和第二分支,第一分支和第二分支为并列结构,本实施例中采用BLSTM(BidirectionalLong Short-term Memory,双向长短时记忆神经网络)结构。
训练时,将CNN部分提取的特征图中每个像素点的同一行和同一列像素分别传入RNN部分的第一分支和第二分支如两个BLSTM分支,最后通过全连接层连接两个BLSTM分支的输出,完成特征图中每个像素点对应原始文本图像感受野内的文本检测。在对某像素点进行文本检测时候,基于BLSTM加入了其周边像素点信息,能够有效提高检测精度。
在对CNN部分的训练中,可以采用anchor方式,anchor的具体数量可以由本领域技术人中根据实际需求适当设置。
基于上述设置,本实施例中,对该神经网络的训练包括:获取样本图像;对样本图像进行预处理,获得预处理样本图像;获得预处理样本图像的方向梯度图和图像掩膜;通过神经网络的输入层输入预处理样本图像和方向梯度图;通过CNN部分,基于图像掩膜的图像数据对预处理样本图像和方向梯度图进行特征提取,获得特征图;将特征图分别作为RNN部分的第一BLSTM分支和第二BLSTM分支的输入:将特征图中每个像素点的同一行像素输入第一BLSTM分支,将其同一列像素输入第二BLSTM分支;基于两个BLSTM分支的输出对每个像素点对应的原始文本图像感受野内多个anchor的位置和其文本置信度进行预测;基于预测结果和真实结果,对神经网络的训练参数进行调整。重复上述过程,直至达到训练结条件,如达到设定的训练次数或者损失值在设定范围内等。
上述训练过程中的大部分步骤与下文中使用该训练完成的神经网络进行文本检测过程中的步骤类似,相关部分的具体实现可参照下文描述。
步骤S204:对待检测的原始文本图像进行预处理,获得预处理后的文本图像;获得预处理后的文本图像对应的方向梯度图和图像掩膜。
在一种可行方式中,本步骤的实现可以包括以下子步骤:
子步骤1:将待检测的原始文本图像转换为灰度图像。
将原始文本图像转换为灰度图像,更便于后续获得方向梯度图和图像掩膜的处理,减少了数据处理量,提高了数据处理速度。当然,本子步骤为可选步骤,在实际应用中也可以不进行灰度处理,直接使用原始文本图像进行后续操作。
子步骤2:对待检测的原始文本图像进行SSR处理,获得SSR处理后的文本图像。
若原始文本图像进行了转换为灰度图像的处理,则本步骤中,对转换后的灰度图像进行SSR处理;若原始文本图像未进行转换为灰度图像的处理,则本步骤中,直接对原始文本图像进行SSR处理。
SSR(Single Scale Retinex,单尺度Retinex算法)是一种图像增强算法,可以用其降低图像中的光照影响。在图像处理领域,一幅给定的图像可以分解为两个不同的图像,即反射图像和亮度图像(也称为入射图像),SSR通过计算图像中像素点与周围区域的加权平均来估计图像中照度的变化,并将其去除,最后只保留图像中物体的反射属性,从而达到图像增强的目的。其中,SSR算法的具体实现可以由本领域技术人员采用常规手段实现。
但不限于SSR处理的方式,MSR(Multi Scale Retinex,多尺度Retinex算法)也同样适用。相较于MSR,SSR的数据处理速度更快。
子步骤3:计算获得SSR处理后的文本图像的水平方向梯度图和竖直方向梯度图;并且,根据大津算法获得SSR处理后的文本图像的图像掩膜。
其中,获得SSR处理后的图像的水平方向梯度图和竖直方向梯度图的具体实现可以由本领域技术人员根据实际需要采用任意适当方式实现,本发明实施例对此不作限制。采用两个方向的梯度图,可以更好地表征图像的梯度分布特征,更有效地促进CNN的收敛,加快CNN检测文本的速度和效率。
大津算法即OTSU算法,是一种自适应阈值确定的算法,也是一种基于全局的二值化算法。OTSU算法根据图像的灰度特性,将图像分为前景和背景两个部分。当取最佳阈值时,两部分之间的差别应该是最大的,在OTSU算法中所采用的衡量差别的标准就是最大类间方差。前景和背景之间的类间方差如果越大,就说明构成图像的两个部分之间的差别越大,当部分目标被错分为背景或部分背景被错分为目标,都会导致两部分差别变小,当所取阈值的分割使类间方差最大时就意味着错分概率最小。通过OTSU算法,可以有效实现图像的二值化,获得图像掩膜。
其中,在根据OTSU算法获得SSR处理后的图像的图像掩膜时,一种可行的具体实现方式包括:根据OTSU算法获得SSR处理后的文本图像的二值化图像;对所述二值化图像进行膨胀处理,获得所述图像掩膜。通过膨胀处理,可以提升图像的二值化效果。
基于上述过程,可以获得SSR处理后的文本图像对应的方向梯度图和图像掩膜,以通过神经网络进行后续处理。
步骤S206:将预处理后的文本图像和对应的方向梯度图输入设定的神经网络。
若前述步骤S202被执行,则本步骤中,将预处理后的文本图像如SSR处理后的文本图像及其对应的方向梯度图通过输入层一起输入神经网络中。
其中,所述神经网络包括CNN部分和RNN部分如BLSTM部分。
步骤S208:通过神经网络按照图像掩膜的图像数据,对预处理后的文本图像和方向梯度图进行文本检测,获取文本检测的检测结果。
在一种可行方式中,本步骤的实现可以包括以下子步骤:
子步骤1:通过CNN部分,根据图像掩膜的图像数据对预处理后的文本图像和方向梯度图进行特征提取,获得特征图。
根据步骤S202中训练的神经网络,其包含有CNN部分和RNN部分。其中,RNN部分包括第一分支和第二分支,第一分支和第二分支为并列的两个分支,这两个分支均为BLSTM分支。
通过CNN部分获得特征图时,可以在CNN部分中的每个卷积层进行特征提取时,根据图像掩膜的图像数据,确定待卷积位置;根据待卷积位置,对预处理后的文本图像和方向梯度图进行卷积处理,获得对应的特征图。如前所述,图像掩膜的图像数据可以指示图像中存在文本的区域和不存在文本的区域,通过图像掩膜可以屏蔽无用的图像区域,不对其进行处理,以减少数据处理量,提高数据处理速度。
可选地,可以在CNN部分中的每个卷积层进行特征提取时,根据每个卷积层所处理的图像的大小,将图像掩膜缩放至同样大小;根据缩放后的图像掩膜的图像数据,确定待卷积位置。将图像掩膜缩放至与卷积层所处理的图像同样大小,可以有效进行图像匹配,提高确定待处理的文本区域的效率。但不限于此,在实际应用中,也可以根据原始图像掩膜的图像数据和卷积层处理的图像大小,对该图像掩膜的图像数据进行适当处理后使用,等等。
基于图像掩膜,通过CNN部分对输入的图像进行处理,CNN部分的卷积层可以包括多个,其具体数量可以由本领域技术人员根据实际需求适当设置,如设置为5层,本发明实施例对此不作限制。每个卷积层处理后可获得一个卷积处理结果,可以表现为特征图的形式,其中,CNN部分的最后一个卷积层处理后获得的特征图可用于后续RNN部分的处理。
子步骤2:针对特征图中的每个像素点,将当前像素点同一行的所有像素输入RNN部分的第一分支如输入第一BLSTM分支,将当前像素点的同一列所有像素输入RNN部分的第二分支如输入第二BLSTM分支。
子步骤3:采用全连接将第一分支和第二分支的输出传入分类器,根据分类器的分类结果确定当前像素点在原始文本图像中对应的感受野内的文本检测结果。
如前所述,第一分支和第二分支为并列的两个分支,均为BLSTM分支,本实施例中,在对特征图的每个像素点进行文本检测时,将该像素点所在行和所在列的所有像素点分别传入两个BLSTM分支,最后通过全连接层连接两个BLSTM分支的输出,将该输出传入分类器,通过分类器对文本框位置和文本置信度进行预测,以确定当前像素点在原始文本图像中对应的感受野内的文本检测结果。因同时利用了水平和竖直方向信息进行文本检测,有效提高了检测精度。
与传统的通过CNN部分得到图像的特征图后,在对每个像素点进行文本检测时,将同一行像素点传入BLSTM,只利用了水平方向信息,而忽略了竖直方向信息相比,检测精度得到了大大提升。
子步骤4:根据所有像素点对应的文本检测结果,得到原始文本图像的最终文本检测结果。
根据本实施例,在使用神经网络进行文本检测前,先对原始文本图像进行预处理,获得预处理后的文本图像及与其相对应的方向梯度图和图像掩膜;进而,以预处理后的文本图像和方向梯度图作为神经网络的输入,结合图像掩膜数据通过神经网络中的CNN部分和RNN部分进行文本检测。其中,方向梯度图描述了文本图像中梯度的方向分布特征,将方向梯度图与预处理后的文本图像一起输入神经网络的CNN部分,可以使CNN部分从方向梯度图中获取文本图像的部分特征信息,从而提高CNN部分和整个神经网络的检测和收敛速度,提高精确度。此外,图像掩膜是由0和1组成的一个二进制图像,通过预处理后的文本图像的图像掩膜,可以控制文本图像的处理区域或处理过程。本发明实施例中,在CNN部分检测中加入图像掩膜数据,可以只对文本图像中的部分区域进行特征提取和检测,在保证检测精度的同时,还可以减少数据计算量。
可见,通过本实施例,有效提高了对文本图像进行检测的精确度。
本实施例的文本检测方法可以由任意适当的具有数据处理功能的设备实现,包括:各种终端设备及服务器等。
实施例三
参照图3,示出了根据本发明实施例三的一种文本检测方法的步骤流程图。
本实施例以一个具体实例的形式,对本发明实施例提供的文本检测方法进行说明。为便于理解,以下首先对本实施例中使用的神经网络的结构进行说明。
如图4所示,本实施例中神经网络的CNN部分采用VGG16网络,其中的卷积部分采用VGG16的前5个卷积层结构;RNN部分中的第一分支和第二分支并列,均为BLSTM分支;在RNN部分之后是全连接层;最后一层是输出层如Softmax层,输出检测结果和对应的置信度。
基于图4所示的神经网络结构,本实施例的文本检测方法包括以下步骤:
步骤S302:获取待检测的原始文本图像,并转换为灰度图像,记为I0。
例如,使用相机拍摄学生的手写作业图像或者答题试卷图像作为待检测的原始文本图像,并转换为灰度图像,记为I0。当然,待检测的原始文本图像也可以为非手写图像,如文本为打印文本的图像。
步骤S304:采用SSR算法对图像I0进行预处理,预处理后图像记为ISSR。
采用SSR算法对图像I0进行预处理,可以减少光照对图像产生的影响,并且,计算速度快。
步骤S306:求取图像ISSR的梯度图和mask图。
基于图像ISSR,求取其水平方向的梯度图和垂直方向的梯度图,以及,求取其mask图,即图像ISSR的图像掩膜。
其中,图像ISSR的梯度图的求解方法如下:
Gx(i,j)=ISSR(i,j)-ISSR(i,j-1)
Gy(i,j)=ISSR(i,j)-ISSR(i-1,j)
上述公式中,Gx为水平方向的梯度强度,Gy为竖直方向的梯度强度;i=1,2,…,M;j=1,2,…,N;M×N为图像ISSR的大小。
图像ISSR的mask图的求解方法如下:
1)首先采用OTSU算法计算图像ISSR的全局阈值TOTSU。
2)基于如下公式得到图像ISSR的局部阈值TLOCAL
TLOCAL(i,j)=TOTSU+L(i,j)
其中,GaussianBlur代表用高斯滤波器对图像ISSR进行滤波操作,估计图像ISSR的亮度;α表示亮度加权量,α一般小于等于20,α越大,得到的mask图包含原始图像的区域越大;L表示阈值补偿量;i=1,2,…,M;j=1,2,…,N;M×N为图像ISSR的大小。
通过本步骤的公式,可以得到图像ISSR的自适应局部阈值,在图像ISSR的较亮部分对应的局部阈值较高。
传统基于CNN和RNN的文本检测算法在进行文本检测时,提取图像中所有位置的特征,进行预测。本实施例首先采用SSR算法对图像进行预处理,降低光照影响,然后采用基于OSTU的二值化算法得到包含待处理区域如学生手写文本区域的mask图。通过在CNN部分中加入了mask层,只对图像中对应mask层中值为1的点进行特征提取和检测。由于待处理区域如学生手写文本占全图的比例经常很低,基于该方式能够有效减少计算量。
3)基于局部阈值TLOCAL,可以得到二值化后的预处理图像。对于预处理图像中的第一个像素点B(i,j):
对该二值化后的预处理图像进行膨胀操作,即可得到图像ISSR的mask图像。
步骤S308:根据图像ISSR、图像ISSR的梯度图和mask图,使用CNN+RNN网络进行文本检测。
传统基于CNN和RNN的文本检测算法只输入原始文本图像,本实施例输入为预处理后的图像ISSR、和其对应的水平和竖直方向梯度图。梯度为文本检测中使用的重要特征之一,将图像的梯度图传入神经网络能够有效提高神经网络收敛速度,提高精确度。
具体地,本步骤可以包括:
子步骤1:采用VGG16网络的前5个卷积层对原始文本图像和梯度图进行处理,得到特征图(W×H×C),其中,W为特征图的宽度,H为特征图的高度,C为特征图的通道数。
在每一个卷积层进行处理时,在每一个卷积层前面分别加入一个mask层。其中,第1层卷积层前加入的mask层(mask1)为步骤S306中得到的mask图,第1、2、3、4、5层卷积层加入的mask层定义如下:
maskn=resize(mask1,sizen)
其中,maskn为第n层卷积层前面加入的mask层,n=1,2,3,4,5。Resize()表示将第一层mask图尺寸缩放为sizen(第n层卷积层处理的特征图的尺寸)。有了各卷积层对应的maskn(n=1,2,3,4,5),在计算第n层特征图FMn中(i,j)位置的卷积时,先判断其对应的mask图中的值maskn(i,j),如果maskn(i,j)=0,则跳过该点,将其卷积值直接置为0。由于文本图像如学生手写作业图像中,往往有大量背景区域,这可以大幅减少计算量,提高检测速度。
需要说明的是,在CNN部分训练时,在第5层卷积层后得到的特征图中的每个位置上取1×1×C窗口的特征,这些特征将用于预测该位置k个anchor_box对应的位置和类别信息。anchor_box的宽度固定为16,高度可变。根据预测的位置和类别,可以对当前次检测操作的准确度进行判断,以进行后续训练的CNN和RNN训练参数的调整。
子步骤2:按照1×1×C的设置将每一像素行的所有像素(1×1×C×W)输入到RNN的第一BLSTM分支中,得到S×W的输出,其中,C表示通道数,W表示特征图的宽度,S表示BLSTM隐藏节点的数目。按照1×1×C的设置将每一像素列的所有像素(1×1×C×H)输入到RNN的第二BLSTM分支中,得到S×H的输出,其中,C表示通道数,H表示特征图的高度,S表示BLSTM隐藏节点的数目。
子步骤3:将两个BLSTM的输出接入512维的全连接层FC,对特征图的每个位置对应的k个anchor_box的位置信息(中心点)进行回归,并对其进行分类(文本或非文本)。BLSTM在对文本检测时,同时利用了特征点的左右信息和上下信息,能够有效提高检测精度。
传统基于CNN和RNN的文本检测算法通过CNN得到图像的特征图后,在对每个特征点对应位置进行文本检测时,将同一行特征传入BLSTM,只利用了水平方向信息,而忽略了竖直方向信息。本实施例提出的文本检测算法在对每个特征点对应位置进行文本检测时,将该特征点同一行和同一列特征分别传入两个BLSTM,最后通过全连接层FC连接两个BLSTM的输出,对文本框位置Coordinates和文本置信度Score进行预测。该方式能够同时利用水平和竖直方向信息进行文本检测,提高检测精度。
子步骤4:将检测到的文本框合并,得到最终检测结果。
通过本实施例,在使用神经网络进行文本检测前,先对原始文本图像进行预处理,获得预处理后的文本图像及与其相对应的方向梯度图和图像掩膜;进而,以预处理后的文本图像和方向梯度图作为神经网络的输入,结合图像掩膜数据通过神经网络中的CNN部分和RNN部分进行文本检测。其中,方向梯度图描述了文本图像中梯度的方向分布特征,将方向梯度图与预处理后的文本图像一起输入神经网络的CNN部分,可以使CNN部分从方向梯度图中获取文本图像的部分特征信息,从而提高CNN部分和整个神经网络的检测和收敛速度,提高精确度。此外,图像掩膜是由0和1组成的一个二进制图像,通过预处理后的文本图像的图像掩膜,可以控制文本图像的处理区域或处理过程。本发明实施例中,在CNN部分检测中加入图像掩膜数据,可以只对文本图像中的部分区域进行特征提取和检测,在保证检测精度的同时,还可以减少数据计算量。
本实施例的文本检测方法可以由任意适当的具有数据处理功能的设备实现,包括:各种终端设备及服务器等。
实施例四
本发明实施例还提供了一种计算机存储介质,该计算机存储介质存储有:用于对待检测的原始文本图像进行预处理,获得预处理后的文本图像的指令;用于获得预处理后的文本图像对应的方向梯度图和图像掩膜的指令;用于将预处理后的文本图像和对应的方向梯度图输入设定的神经网络的指令,其中,神经网络包括CNN部分和RNN部分;用于通过神经网络按照图像掩膜的图像数据,对预处理后的文本图像和方向梯度图进行文本检测,获取文本检测的检测结果的指令。
可选地,用于通过神经网络按照所述图像掩膜的图像数据,对预处理后的文本图像和方向梯度图进行文本检测,获取文本检测的检测结果的指令,包括:用于通过CNN部分,根据图像掩膜的图像数据对预处理后的文本图像和方向梯度图进行特征提取,获得特征图的指令;用于针对特征图中的每个像素点,将当前像素点同一行的所有像素输入RNN部分的第一分支;并且将当前像素点的同一列所有像素输入RNN部分的第二分支的指令;用于采用全连接将RNN部分的第一分支和第二分支的输出传入分类器,根据分类器的分类结果确定当前像素点在原始文本图像中对应的感受野内的文本检测结果的指令;用于根据所有像素点对应的文本检测结果,得到原始文本图像的最终文本检测结果的指令。
可选地,用于通过CNN部分,根据图像掩膜的图像数据对预处理后的文本图像和所述方向梯度图进行特征提取,获得特征图的指令,包括:用于在CNN部分中的每个卷积层进行特征提取时,根据图像掩膜的图像数据,确定待卷积位置;用于根据待卷积位置,对预处理后的文本图像和方向梯度图进行卷积处理,获得对应的特征图的指令。
可选地,用于在CNN部分中的每个卷积层进行特征提取时,根据图像掩膜的图像数据,确定待卷积位置的指令,包括:用于在CNN部分中的每个卷积层进行特征提取时,根据每个卷积层所处理的图像的大小,将图像掩膜缩放至同样大小的指令;用于根据缩放后的图像掩膜的图像数据,确定待卷积位置的指令。
可选地,第一分支和第二分支为并列的两个分支,第一分支和第二分支均为BLSTM分支。
可选地,用于对待检测的原始文本图像进行预处理,获得预处理后的文本图像的指令,包括:用于对待检测的原始文本图像进行SSR处理,获得SSR处理后的文本图像的指令;用于获得预处理后的文本图像对应的方向梯度图和图像掩膜的指令,包括:用于计算获得SSR处理后的文本图像的水平方向梯度图和竖直方向梯度图;并且,根据大津算法获得SSR处理后的文本图像的图像掩膜的指令。
可选地,用于根据大津算法获得SSR处理后的文本图像的图像掩膜的指令,包括:用于根据大津算法获得SSR处理后的文本图像的二值化图像的指令;用于对二值化图像进行膨胀处理,获得图像掩膜的指令。
可选地,所述计算机存储介质中还存储有:用于在对待检测的原始文本图像进行SSR处理之前,将待检测的原始文本图像转换为灰度图像的指令;用于对待检测的原始文本图像进行SSR处理的指令,包括:用于对灰度图像进行SSR处理的指令。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,所述计算机可读记录介质包括用于以计算机(例如计算机)可读的形式存储或传送信息的任何机制。例如,机器可读介质包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪速存储介质、电、光、声或其他形式的传播信号(例如,载波、红外信号、数字信号等)等,该计算机软件产品包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
本领域的技术人员应明白,本发明实施例的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (8)
1.一种文本检测方法,其特征在于,包括:
对待检测的原始文本图像进行预处理,获得预处理后的文本图像;
获得预处理后的文本图像对应的方向梯度图和图像掩膜;
将所述预处理后的文本图像和对应的方向梯度图输入设定的神经网络,其中,所述神经网络包括卷积神经网络CNN部分和循环神经网络RNN部分;
通过所述CNN部分,根据所述图像掩膜的图像数据对所述预处理后的文本图像和所述方向梯度图进行特征提取,获得特征图;
针对所述特征图中的每个像素点,将当前像素点同一行的所有像素输入所述RNN部分的第一分支;并且将当前像素点的同一列所有像素输入所述RNN部分的第二分支;
采用全连接将所述RNN部分的第一分支和第二分支的输出传入分类器,根据所述分类器的分类结果确定当前像素点在所述原始文本图像中对应的感受野内的文本检测结果;
根据所有像素点对应的文本检测结果,得到所述原始文本图像的最终文本检测结果。
2.根据权利要求1所述的方法,其特征在于,所述通过所述CNN部分,根据所述图像掩膜的图像数据对所述预处理后的文本图像和所述方向梯度图进行特征提取,获得特征图,包括:
在所述CNN部分中的每个卷积层进行特征提取时,根据所述图像掩膜的图像数据,确定待卷积位置;
根据所述待卷积位置,对所述预处理后的文本图像和所述方向梯度图进行卷积处理,获得对应的特征图。
3.根据权利要求2所述的方法,其特征在于,在所述CNN部分中的每个卷积层进行特征提取时,根据所述图像掩膜的图像数据,确定待卷积位置,包括:
在所述CNN部分中的每个卷积层进行特征提取时,根据每个卷积层所处理的图像的大小,将所述图像掩膜缩放至同样大小;
根据缩放后的图像掩膜的图像数据,确定待卷积位置。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述第一分支和所述第二分支为并列的两个分支,所述第一分支和所述第二分支均为双向长短时记忆BLSTM分支。
5.根据权利要求1所述的方法,其特征在于,
所述对待检测的原始文本图像进行预处理,获得预处理后的文本图像,包括:对待检测的原始文本图像进行SSR处理,获得SSR处理后的文本图像;
所述获得预处理后的文本图像对应的方向梯度图和图像掩膜,包括:计算获得SSR处理后的文本图像的水平方向梯度图和竖直方向梯度图;并且,根据大津算法获得SSR处理后的文本图像的图像掩膜。
6.根据权利要求5所述的方法,其特征在于,所述根据大津算法获得SSR处理后的文本图像的图像掩膜,包括:
根据大津算法获得SSR处理后的文本图像的二值化图像;
对所述二值化图像进行膨胀处理,获得所述图像掩膜。
7.根据权利要求5或6所述的方法,其特征在于,
在所述对待检测的原始文本图像进行SSR处理之前,所述方法还包括:将待检测的原始文本图像转换为灰度图像;
所述对待检测的原始文本图像进行SSR处理,包括:对所述灰度图像进行SSR处理。
8.一种计算机存储介质,其特征在于,所述计算机存储介质存储有:
用于对待检测的原始文本图像进行预处理,获得预处理后的文本图像的指令;
用于获得预处理后的文本图像对应的方向梯度图和图像掩膜的指令;
用于将所述预处理后的文本图像和对应的方向梯度图输入设定的神经网络的指令,其中,所述神经网络包括卷积神经网络CNN部分和循环神经网络RNN部分;
用于通过所述CNN部分,根据所述图像掩膜的图像数据对所述预处理后的文本图像和所述方向梯度图进行特征提取,获得特征图的指令;
用于针对所述特征图中的每个像素点,将当前像素点同一行的所有像素输入所述RNN部分的第一分支;并且将当前像素点的同一列所有像素输入所述RNN部分的第二分支的指令;
用于采用全连接将所述RNN部分的第一分支和第二分支的输出传入分类器,根据所述分类器的分类结果确定当前像素点在所述原始文本图像中对应的感受野内的文本检测结果的指令;
用于根据所有像素点对应的文本检测结果,得到所述原始文本图像的最终文本检测结果的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810134880.XA CN110135446B (zh) | 2018-02-09 | 2018-02-09 | 文本检测方法及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810134880.XA CN110135446B (zh) | 2018-02-09 | 2018-02-09 | 文本检测方法及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110135446A CN110135446A (zh) | 2019-08-16 |
CN110135446B true CN110135446B (zh) | 2021-01-22 |
Family
ID=67566993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810134880.XA Active CN110135446B (zh) | 2018-02-09 | 2018-02-09 | 文本检测方法及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135446B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647993A (zh) * | 2019-09-23 | 2020-01-03 | 南方科技大学 | 一种红外传感器掩膜制造方法、装置、系统及存储介质 |
CN110765733A (zh) * | 2019-10-24 | 2020-02-07 | 科大讯飞股份有限公司 | 一种文本规整方法、装置、设备及存储介质 |
US20210239485A1 (en) * | 2020-02-05 | 2021-08-05 | GM Global Technology Operations LLC | System and method for vehicle navigation using terrain text recognition |
CN111444834B (zh) * | 2020-03-26 | 2024-10-01 | 同盾控股有限公司 | 图像文本行检测方法、装置、设备及存储介质 |
CN111444876A (zh) * | 2020-04-08 | 2020-07-24 | 证通股份有限公司 | 一种图文处理方法、系统以及计算机可读存储介质 |
CN116311301B (zh) * | 2023-02-17 | 2024-06-07 | 北京感易智能科技有限公司 | 无线表格识别方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722871A (zh) * | 2012-05-24 | 2012-10-10 | 中山大学 | 一种快速有效的图像增强方法 |
CN104112138A (zh) * | 2013-12-17 | 2014-10-22 | 深圳市华尊科技有限公司 | 物体颜色分类方法及装置 |
US9569679B1 (en) * | 2012-12-04 | 2017-02-14 | A9.Com, Inc. | Adaptive image sampling for text detection |
CN106650789A (zh) * | 2016-11-16 | 2017-05-10 | 同济大学 | 一种基于深度lstm网络的图像描述生成方法 |
CN106796647A (zh) * | 2014-09-05 | 2017-05-31 | 北京市商汤科技开发有限公司 | 场景文本检测系统和方法 |
CN106778928A (zh) * | 2016-12-21 | 2017-05-31 | 广州华多网络科技有限公司 | 图像处理方法及装置 |
CN107305635A (zh) * | 2016-04-15 | 2017-10-31 | 株式会社理光 | 对象识别方法、对象识别装置和分类器训练方法 |
CN107346420A (zh) * | 2017-06-19 | 2017-11-14 | 中国科学院信息工程研究所 | 一种基于深度学习的自然场景下文字检测定位方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10701261B2 (en) * | 2016-08-01 | 2020-06-30 | International Business Machines Corporation | Method, system and computer program product for selective image capture |
-
2018
- 2018-02-09 CN CN201810134880.XA patent/CN110135446B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722871A (zh) * | 2012-05-24 | 2012-10-10 | 中山大学 | 一种快速有效的图像增强方法 |
US9569679B1 (en) * | 2012-12-04 | 2017-02-14 | A9.Com, Inc. | Adaptive image sampling for text detection |
CN104112138A (zh) * | 2013-12-17 | 2014-10-22 | 深圳市华尊科技有限公司 | 物体颜色分类方法及装置 |
CN106796647A (zh) * | 2014-09-05 | 2017-05-31 | 北京市商汤科技开发有限公司 | 场景文本检测系统和方法 |
CN107305635A (zh) * | 2016-04-15 | 2017-10-31 | 株式会社理光 | 对象识别方法、对象识别装置和分类器训练方法 |
CN106650789A (zh) * | 2016-11-16 | 2017-05-10 | 同济大学 | 一种基于深度lstm网络的图像描述生成方法 |
CN106778928A (zh) * | 2016-12-21 | 2017-05-31 | 广州华多网络科技有限公司 | 图像处理方法及装置 |
CN107346420A (zh) * | 2017-06-19 | 2017-11-14 | 中国科学院信息工程研究所 | 一种基于深度学习的自然场景下文字检测定位方法 |
Non-Patent Citations (3)
Title |
---|
"Detecting Text in Natural Image with Connectionist Text Proposal Network";Zhi Tian et al;《arXiv》;20160912;第1-16页 * |
"EAST: An Efficient and Accurate Scene Text Detector";Xinyu Zhou et al;《arXiv》;20170710;全文 * |
"基于梯度的多输入卷积神经网络";费建超等;《光电工程》;20150331;第42卷(第3期);第33-38页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110135446A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135446B (zh) | 文本检测方法及计算机存储介质 | |
US12067733B2 (en) | Video target tracking method and apparatus, computer device, and storage medium | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
US11475681B2 (en) | Image processing method, apparatus, electronic device and computer readable storage medium | |
CN110378297B (zh) | 基于深度学习的遥感图像目标检测方法、装置、及存储介质 | |
US11790499B2 (en) | Certificate image extraction method and terminal device | |
CN111259940A (zh) | 一种基于空间注意力地图的目标检测方法 | |
CN110796048A (zh) | 一种基于深度神经网络的船舰目标实时检测方法 | |
CN110781962B (zh) | 基于轻量级卷积神经网络的目标检测方法 | |
CN113822352B (zh) | 基于多特征融合的红外弱小目标检测方法 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
CN109426773A (zh) | 一种道路识别方法和装置 | |
CN113901924A (zh) | 一种文档表格的检测方法及装置 | |
CN111539456B (zh) | 一种目标识别方法及设备 | |
US20210256717A1 (en) | Edge-guided ranking loss for monocular depth prediction | |
CN114283431B (zh) | 一种基于可微分二值化的文本检测方法 | |
CN112990009B (zh) | 基于端到端的车道线检测方法、装置、设备及存储介质 | |
CN114821823A (zh) | 图像处理、人脸防伪模型的训练及活体检测方法和装置 | |
CN112837329B (zh) | 一种藏文古籍文档图像二值化方法及系统 | |
CN116612272A (zh) | 一种图像处理智能数字化的检测系统及其检测方法 | |
CN115035429A (zh) | 一种基于复合主干网络和多预测头的航拍目标检测方法 | |
CN109614841B (zh) | 嵌入式系统中的快速人脸检测方法 | |
CN118097397B (zh) | 一种声呐图像高精度快速目标检测方法及其模型搭建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |