CN111666931A - 基于混合卷积文字图像识别方法、装置、设备及存储介质 - Google Patents
基于混合卷积文字图像识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111666931A CN111666931A CN202010436538.2A CN202010436538A CN111666931A CN 111666931 A CN111666931 A CN 111666931A CN 202010436538 A CN202010436538 A CN 202010436538A CN 111666931 A CN111666931 A CN 111666931A
- Authority
- CN
- China
- Prior art keywords
- feature
- convolution
- character
- image
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000000605 extraction Methods 0.000 claims abstract description 56
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 238000010586 diagram Methods 0.000 claims abstract description 29
- 230000000306 recurrent effect Effects 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 230000017105 transposition Effects 0.000 claims description 64
- 238000012549 training Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 9
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及人工智能,提供一种基于混合卷积文字图像识别方法、装置、计算机设备及存储介质,通过获取待识别图像;获取包含混合卷积核的文字图像识别模型;将待识别图像输入至文字图像识别模型中,得到待识别图像对应的卷积特征图;将卷积特征图输入文字图像识别模型的循环神经网络中进行特征提取,得到序列特征;将序列特征输入至文字图像识别模型的全连接层,得到字符概率分布结果;采用预设的损失函数对字符概率分布结果进行误差损失计算,得到待识别图像的文字识别结果。通过在文字图像识别模型中采用混合卷积核来进行卷积特征提取,提高文字识别准确率。采用混合卷积核的方式,充分学习相邻文字区域,提高文字识别的准确率和覆盖率。
Description
技术领域
本发明涉及文字识别技术领域,尤其涉及一种基于混合卷积文字图像识别方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,自然语言处理领域(例如:文字检测、文字识别、语音识别或者文本翻译识别等领域)也相应快速发展。其中,文字检测和文字识别是应用场景非常广泛的,其在路牌检测识别、场景文字翻译或者图书文本识别提取等场景中均得到了广泛应用。
在现有技术中,大多数文字检测和文字识别的方法都是通过卷积神经网络来实现的。但现有技术中卷积神经网络在识别一些特殊字体,比如艺术字、手写字体或者不规则字体时,会极易出现误差,并且,一般的卷积神经网络仅仅只是可以对较小覆盖区域内的局部文字进行聚焦,如此,会导致识别范围较小,进而降低识别效率。
发明内容
本发明实施例提供一种基于混合卷积文字图像识别方法、装置、设备及存储介质,以解决文字识别误差高问题。
一种基于混合卷积文字图像识别方法,包括:
获取待识别图像,所述待识别图像中包含至少一个字符;
获取包含混合卷积核的文字图像识别模型,所述混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核;
将所述待识别图像输入至所述文字图像识别模型中,得到所述待识别图像对应的卷积特征图;
将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取,得到序列特征;
将所述序列特征输入至所述文字图像识别模型的全连接层,得到字符概率分布结果;
采用预设的损失函数,对所述字符概率分布结果进行误差损失计算,得到所述待识别图像的文字识别结果。
一种基于混合卷积文字图像识别装置,其特征在于,包括:
图像获取模块,用于获取待识别图像,所述待识别图像中包含至少一个字符;
模型获取模块,用于获取包含混合卷积核的文字图像识别模型,所述混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核;
卷积识别模块,用于将所述待识别图像输入至所述文字图像识别模型中,得到所述待识别图像对应的卷积特征图;
特征提取模块,用于将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取,得到序列特征;
字符分布模块,用于将所述序列特征输入至所述文字图像识别模型的全连接层,得到字符概率分布结果;
损失计算模块,用于采用预设的损失函数,对所述字符概率分布结果进行误差损失计算,得到所述待识别图像的文字识别结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于混合卷积文字图像识别方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于混合卷积文字图像识别方法。
上述基于混合卷积文字图像识别方法、装置、设备及存储介质,通过获取待识别图像,待识别图像中包含至少一个字符;获取包含混合卷积核的文字图像识别模型;混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核;将待识别图像输入至文字图像识别模型中,得到待识别图像对应的卷积特征图;将卷积特征图输入文字图像识别模型的循环神经网络中进行特征提取,得到序列特征;将序列特征输入至文字图像识别模型的全连接层,得到字符概率分布结果;采用预设的损失函数对字符概率分布结果进行误差损失计算,得到待识别图像的文字识别结果。通过上述步骤,在文字图像识别模型中采用混合卷积核来进行卷积特征提取,传统上仅使用单类卷积核进行卷积特征提取的方式仅仅只是对较小覆盖率区域内的局部文字进行聚焦,而当待识别图像中为艺术字体或者手写字体时候,就会出现覆盖率小的问题,从而使得文字识别准确率低。而采用混合卷积核的方式,利用规格大的卷积核感受视野大的特点,能够充分学习相邻文字区域,能够提高文字识别的准确率和覆盖率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于混合卷积文字图像识别方法的一应用环境示意图;
图2是本发明一实施例中基于混合卷积文字图像识别方法的一流程图;
图3是本发明一实施例中基于混合卷积文字图像识别方法中步骤S13的一流程图;
图4是本发明一实施例中基于混合卷积文字图像识别方法中步骤S14的一流程图;
图5是本发明一实施例中基于混合卷积文字图像识别装置的一原理框图;
图6是本发明一实施例中基于混合卷积文字图像识别装置中卷积识别模块的一原理框图;
图7是本发明一实施例中基于混合卷积文字图像识别装置中特征提取模块的一原理框图;
图8是本发明一实施例中计算机设备的一示意图。
具体实施方式
本发明实施例提供一基于混合卷积文字图像识别方法,该基于混合卷积文字图像识别方法可应用如图1所示的应用环境中。具体地,该基于混合卷积文字图像识别方法应用在基于混合卷积文字图像识别系统中,该基于混合卷积文字图像识别系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于数据孤岛问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种基于混合卷积文字图像识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S11:获取待识别图像,待识别图像中包含至少一个字符。
S12:获取包含混合卷积核的文字图像识别模型;混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核。
其中,待识别图像为等待进行识别的包含至少一个字符的图像。混合卷积核中包含多种卷积核,具体地,混合卷积核可以包含3*3卷积核、5*5卷积核、7*7卷积核或者11*11卷积核等。文字图像识别模型是用于对包含字符的图像进行识别的模型,该文字图像识别模型的卷积核采用的是混合卷积核。
具体地,获取一个原始图像,并对该原始图像进行字符检测,若该原始图像中包含至少一个字符,则将该原始图像作为待识别图像;在获取到待识别图像之后,获取文字图像识别模型,该文字图像识别模型的卷积核采用混合卷积核,该混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核等。
S13:将待识别图像输入至文字图像识别模型中,得到待识别图像对应的卷积特征图。
其中,卷积特征图为包含待识别图像中字符特征的特征图。
具体地,在获取到待识别图像和文字图像识别模型之后,将待识别图像输入至文字图像识别模型中,采用文字图像识别模型的混合卷积核分别对待识别图像进行卷积特征提取,在对各卷积核进行卷积特征提取后的图像进行合并,最后对合并后的图像进行特征融合,得到待识别图像对应的卷积特征图。
进一步地,采用混合卷积核能够有效利用大规格卷积核感受野大的特点,能够充分学习相邻文字区域,而不仅仅是聚焦局部区域。示例性地,假设待识别图像在卷积的原始宽度为800,在进行卷积特征提取的过程中,宽度会从800降为200,缩小4倍。若此时采用传统的单核3*3卷积核继续进行特征提取的话,3*3卷积核的感受野面积是12*12,12个像素有可能不能同时覆盖到相邻的字符,而7*7卷积核的感受野面积是28*28,在绝大多数情况下可以感知到足够大的区域,能够获取到更多的感知信息。
对于上述提到的增大感受野的方法还可以通过使用步长大于1的多层卷积层或者池化层技术手段。但是过多使用步长大于1的多层卷积层或者池化层技术手段,会导致提取得到的卷积特征图的宽度过小,影响后续步骤中循环神经网络对每个位置的特征信息提取预测。
S14:将卷积特征图输入文字图像识别模型的循环神经网络中进行特征提取,得到序列特征。
其中,循环神经网络用于对卷积特征图进行序列前后关系的特征提取。序列特征为具有序列前后关系特征的特征图。
具体地,在将待识别图像输入至文字图像识别模型中,得到待识别图像对应的卷积特征图之后,将该卷积特征图输入循环神经网络中,对卷积特征图进行序列前后关系的特征提取,得到序列特征。
可选地,循环神经网络的结构可以为RNN、LSTM、GRU或者BiLSTM结构。优选地,上述实施例中的循环神经网络采用BiLSTM结构。BiLSTM结构是由前向LSTM与后向LSTM组合而成,通过BiLSTM结构可以更好的捕捉双向的语义依赖,避免造成语义错误。
S15:将序列特征输入至文字图像识别模型的全连接层,得到字符概率分布结果。
其中,字符概率分布结果为字符在每一位置的分布概率。
在将卷积特征图输入循环神经网络进行特征提取,得到序列特征之后,将得到的序列特征输入文字图像识别模型的全连接层中,得到待识别图像中每一字符在任一位置的分布概率,即得到字符概率分布结果。
S16:采用预设的损失函数对字符概率分布结果进行误差损失计算,得到待识别图像的文字识别结果。
其中,预设的损失函数是用于衡量输入数据经过神经网络后与真实输出的数据之间的差异程度。文字识别结果待识别图像中的文字字符识别结果。
具体地,在将序列特征输入至文字图像识别模型的全连接层,得到字符概率分布结果之后,采用预设的损失函数对所述字符概率分布结果进行误差损失计算,得到待识别图像的文字识别结果。
可选地,预设的损失函数可以为CTC函数、Attention函数等。优选地,上述实施例中采用CTC函数。示例性地,假如待识别图像中的字符是手写的,手写时候生成的待识别图像往往会造成字符连在一起,或者字符区分太开。比如,手写to这个单词的时候,连笔的人会将t和o之间连接在一起,则可能得到“t-o”的结果,亦或者在手写时候某个字符占用位置较大,使得位置概率分布识别出多个同一字符,如将“to”识别为“ttooo”,,若此时不采用损失函数进行处理,则得到的文字识别结果为“t-o”;采用CTC函数首先会对得到的字符概率分布结果进行编码,再对编码后的结果进行损失计算,最后对进行损失计算后的结果进行解码,得到最终的待识别图像的文字识别结果,该文字识别结果为“to”,如此,不会因为手写字体的不规范,导致文字识别结果错误率提高。
在本实施例中,在文字图像识别模型中采用混合卷积核来进行卷积特征提取,传统上仅使用单类卷积核进行卷积特征提取的方式仅仅只是对较小覆盖率区域内的局部文字进行聚焦,而当待识别图像中为艺术字体或者手写字体时候,就会出现覆盖率小的问题,从而使得文字识别准确率低。而采用混合卷积核的方式,利用规格大的卷积核感受视野大的特点,能够充分学习相邻文字区域,能够提高文字识别的准确率和覆盖率。
在一实施例中,如图3所示,步骤S13中,也即将待识别图像输入至文字图像识别模型中,得到待识别图像对应的卷积特征图,具体包括如下步骤:
S131:将待识别图像输入至文字图像识别模型中,采用混合卷积核对所述待识别图像进行卷积特征提取,得到与混合卷积核中的每一类卷积核对应的特征图。
具体地,在获取到待识别图像和文字图像识别模型之后,将待识别图像输入至文字图像识别模型中;在文字图像识别模型中包含3*3卷积核、5*5卷积核和7*7卷积核,采用3*3卷积核、5*5卷积核和7*7卷积核分别对待识别图像进行卷积特征提取,得到与3*3卷积核对应的特征图、与5*5卷积核对应的特征图和与7*7卷积核对应的特征图。
示例性地,假设在文字图像识别模型中包含32个3*3卷积核,32个5*5卷积核和32个7*7卷积核,采用上述卷积核分别对待识别图像进行卷积特征提取,得到3个40*40*32的特征图。
S132:将与每一类卷积核对应的特征图进行特征图合并,得到合并特征图。
其中,合并特征图是多个特征图合并生成的特征图,该特征图常由多种不同卷积核生成的卷积特征图合并得到。
具体地,在采用混合卷积核对所述待识别图像进行卷积特征提取,得到与所述混合卷积核中的每一类卷积核对应的特征图之后,将上述中与3*3卷积核对应的特征图、与5*5卷积核对应的特征图和与7*7卷积核对应的特征图进行合并,得到合并特征图。
示例性地,假设采用32个3*3卷积核,32个5*5卷积核和32个7*7卷积核分别对待识别图像进行卷积特征提取,得到3个40*40*32的特征图之后,将3个40*40*32的特征图合并成40*40*96的合并特征图。
S133:采用1*1卷积核对合并特征图进行特征融合,得到卷积特征图。
其中,卷积特征图为对图像进行卷积特征提取、合并和融合特征图得到的特征图。
具体地,在将与每一类卷积核对应的特征图进行合并,得到合并特征图之后,采用1*1卷积核对该合并特征图进行特征融合,得到卷积特征图,
示例性地,假设在将3个40*40*32的特征图合并成40*40*96的合并特征图之后,采用64个1*1卷积核在40*40*96的合并特征图上进一步融合提取特征,得到40*40*64的卷积特征图。
在本实施例中,采用混合卷积核分别对待识别图像进行卷积特征提取,能够在待识别图像中的字符出现扭曲、字符为艺术字体或者字符为手写字体时,利用5*5卷积核或者7*7卷积核,能够在上述情况事,更好感知相邻两边的文字信息,提高文字识别的准确率。
在一实施例中,如图4所示,步骤S14中,也即将卷积特征图输入文字图像识别模型的循环神经网络中进行特征提取,得到序列特征,还包括以下步骤:
S141:分别对高度为4、2和1的卷积特征图进行特征转换,得到与高度为4的卷积特征图对应的第一转置特征、与高度为2的卷积特征图对应的第二转置特征和与高度为1的卷积特征图对应的第三转置特征。
其中,第一转置特征、第二转置特征和第三转置特征均为通过对原卷积特征图进行特征转换得到的,第一转置特征、第二转置特征和第三转置特征的实质为序列型特征。
具体地,在文字图像识别模型对待识别图像进行卷积特征提取的过程中,即在卷积减少待识别图像的高度过程中,分别对高度为4、2和1的卷积特征图进行特征转换,得到与高度为4的卷积特征图对应的第一转置特征、与高度为2的卷积特征图对应的第二转置特征和与高度为1的卷积特征图对应的第三转置特征。
示例性地,在将待识别图像输入至所述文字图像识别模型,对待识别图像进行卷积特征提取的过程中,假设当前提取到的中间特征图为8*200*C,此时,在后续卷积减少卷积特征图高度的过程中,在卷积特征图高度分别为4、2和1三个高度时,将高度为4对应的卷积特征图进行特征转换,得到200*4*C的第一转置特征;将高度为2对应的卷积特征图进行特征转换,得到200*2*C的第二转置特征;将高度为1对应的卷积特征图进行特征转换,得到200*1*C的第三转置特征。
其中,在8*200*C中,8表示图像的高度,200表示图像的宽度,C表示图像的特征通道数。
S142:将第一转置特征、第二转置特征和第三转置特征输入至循环神经网络,对第一转置特征、第二转置特征和第三转置特征进行全局特征提取,得到与第一转置特征对应的第一序列特征、与第二转置特征对应的第二序列特征以及与第三转置特征对应的第三序列特征。
其中,循环神经网络用于对是一类以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。循环神经网络用于对卷积特征图进行序列前后关系的特征提取。
具体地,在得到第一转置特征、第二转置特征和第三转置特征之后,将第一转置特征、第二转置特征和第三转置特征输入至循环神经网络中,对所述第一转置特征、所述第二转置特征和所述第三转置特征进行全局特征提取,得到与第一转置特征对应的第一序列特征、与第二转置特征对应的第二序列特征和第三转置特征对应的第三序列特征。
可选地,循环神经网络的结构包括RNN、LSTM、BiLSTM和GRU等结构。优选地,本实施方式中采用BiLSTM结构的循环神经网络。示例性地,在得到200*4*C的第一转置特征,200*2*C的第二转置特征和200*1*C的第三转置特征之后,分别采用BiLSTM结构的循环神经网络对第一转置特征、第二转置特征和第三转置特征进行全局特征提取,得到3个200*H的序列特征,即第一序列特征、第二序列特征和第三序列特征都为200*H。
其中,在200*H中,H表示BiLSTM结构中隐藏层的大小。
S143:将第一序列特征、第二序列特征和第三序列特征进行序列特征合并,得到序列特征。
其中,序列特征为具有序列前后关系特征的特征图。
具体地,在得到第一序列特征、第二序列特征和第三序列特征之后,将第一序列特征、第二序列特征和第三序列特征进行序列特征合并,得到序列特征。
示例性地,假设分别采用BiLSTM结构的循环神经网络对第一转置特征、第二转置特征和第三转置特征进行全局特征提取,得到3个200*H的序列特征之后,将第一序列特征、第二序列特征和第三序列特征进行序列特征合并,得到200*3H的序列特征。
在本实施例中,分别对高度为4、2和1的卷积特征图进行特征转换,能够在特征转换过程中,采用多尺度特征图进行监督的方式,而不仅仅是传统上直接使用卷积核卷积到最后一个尺度再进行判断。增加了卷积过程中的信息传递能力,并提高序列特征的鲁棒性。
在一实施例中,在步骤S13之前,也即在将待识别图像输入至文字图像识别模型中之前,还包括如下步骤:
根据待识别图像的宽度,确定待识别图像对应的最大序列长度,并根据最大序列长度,确定文字图像识别模型的混合卷积核的卷积步长。
其中,卷积步长为卷积核移动的长度。
具体地,在获取到待识别图像和文字图像处理模型之后,根据待识别图像的宽度,确定待识别图像实际序列最大长度,并根据待识别图像实际序列最大长度,确定待识别图像对应的最大序列长度;在确定最大序列长度之后,根据该最大序列长度,确定文字图像识别模型中混合卷积核的卷积步长。
示例性地,假设待识别图像的宽度为800,且实际序列最大长度为96,则根据实际序列最大长度确定最大序列长度为200。因为800/200为2的整数次方倍,如此在待识别图像输入至文字图像识别模型进行卷积特征提取过程中,只需要进行两次步长为2的卷积操作,以得到规律的特征图。
将待识别图像输入至文字图像识别模型中,采用混合卷积核对待识别图像进行卷积特征提取,得到与混合卷积核中的每一类卷积核对应的特征图,包括:
将待识别图像输入至文字图像识别模型中之后,根据卷积步长移动混合卷积核中的各类卷积核,并通过移动的各卷积核对待识别图像进行卷积特征提取,得到与各类卷积核对应的特征图。
具体地,在根据所述待识别图像的宽度,确定所述待识别图像对应的最大序列长度,并根据所述最大序列长度,确定文字图像识别模型的混合卷积核的卷积步长之后,将待识别图像输入至文字图像识别模型中,文字图像识别模型中的混合卷积核中的各类卷积核根据卷积步长进行移动,并在移动过程中,采用混合卷积核中各卷积核分别对待识别图像进行卷积特征提取,得到与各类卷积核对应的特征图。
在本实施例中,传统上对于最大序列长度的参数是任意设定的。而本实施方式是根据待识别图像的宽度来确定的,使用具有规则性的最大序列参数,使得卷积特征提取时,能够获取到更加规律的信息,提高文字识别的准确率。
在一实施例中,在步骤S12之前,即在获取包含混合卷积核的文字图像识别模型之前,还包括如下步骤:
获取训练样本集,训练样本集包括文字样本图像,每一文字样本图像都包含至少一个字符。
获取包含混合卷积核的初始文字图像识别模型,混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核。
其中,训练样本集是待训练的文字样本图像的集合。文字样本图像为待进行训练的文字图像,该文字样本图像都包含至少一个字符。初始文字图像识别模型是用于对包含字符的图像进行识别的基础模型。
具体地,获取多个不同场景下的文字样本图像,并对所有文字样本图像进行字符检测,若文字样本图像中包含至少一个字符,则将该文字样本图像存储至训练样本集中。在确定训练样本集之后,获取初始文字图像识别模型,该初始文字图像识别模型的卷积核采用的是混合卷积核,该混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核等。
将训练样本集输入至初始文字图像识别模型进行训练,得到文字图像识别模型。
其中,文字图像识别模型是以初始文字图像识别模型为基础,根据训练样本集进行训练后得到的模型。
文字图像识别模型建立的过程包括:将训练样本集输入至初始文字图像识别模型中;根据训练样本集中的文字样本图像,定义初始文字图像识别模型中混合卷积核移动步长;定义初始文字图像识别模型中卷积神经网络、循环神经网络和全连接层的结构,定义前向传播过程,利用定义好的前向传播过程对初始文字图像识别模型进行迭代训练,得到训练好的模型;对训练好的模型进行测试和验证,得到文字图像识别模型。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于混合卷积文字图像识别装置,该基于混合卷积文字图像识别装置与上述实施例中基于混合卷积文字图像识别方法一一对应。如图5所示,该基于混合卷积文字图像识别装置包括图像获取模块11、模型获取模块12、卷积识别模块13、特征提取模块14、字符分布模块15和损失计算模块16。各功能模块详细说明如下:
图像获取模块11,用于获取待识别图像,待识别图像中包含至少一个字符。
模型获取模块12,用于获取包含混合卷积核的文字图像识别模型,混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核。
卷积识别模块13,用于将待识别图像输入至文字图像识别模型中,得到待识别图像对应的卷积特征图。
特征提取模块14,用于将卷积特征图输入至文字图像识别模型的循环神经网络中进行特征提取,得到序列特征。
字符分布模块15,用于将序列特征输入至文字图像识别模型的全连接层,得到字符概率分布结果。
损失计算模块16,用于采用预设的损失函数,对字符概率分布结果进行误差损失计算,得到待识别图像的文字识别结果。
优选地,如图6所示,卷积识别模块13包括如下单元:
卷积特征提取单元131,用于将待识别图像输入至文字图像识别模型中,采用混合卷积核对所述待识别图像进行卷积特征提取,得到与混合卷积核中的每一类卷积核对应的特征图。
特征合并单元132,用于将与每一类卷积核对应的特征图进行特征图合并,得到合并特征图。
特征融合单元133,用于采用1*1卷积核对合并特征图进行特征融合,得到卷积特征图。
优选地,如图7所示,特征提取模块14包括如下单元:
特征转换单元141,用于分别对高度为4、2和1的卷积特征图进行特征转换,得到与高度为4的卷积特征图对应的第一转置特征、与高度为2的卷积特征图对应的第二转置特征和与高度为1的卷积特征图对应的第三转置特征。
全局特征提取单元142,用于将第一转置特征、第二转置特征和第三转置特征输入至循环神经网络,对第一转置特征、第二转置特征和第三转置特征进行全局特征提取,得到与第一转置特征对应的第一序列特征、与第二转置特征对应的第二序列特征以及与第三转置特征对应的第三序列特征。
序列特征合并单元143,用于将第一序列特征、第二序列特征和第三序列特征进行序列特征合并,得到序列特征。
优选地,基于混合卷积文字图像识别装置还包括如下模块:
卷积步长确定模块,用于根据待识别图像的宽度,确定待识别图像对应的最大序列长度,并根据最大序列长度,确定文字图像识别模型的混合卷积核的卷积步长。
优选地,基于混合卷积文字图像识别装置还包括如下模块:
训练样本集获取模块,用于获取训练样本集,训练样本集包括文字样本图像,每一文字样本图像都包含至少一个字符。
初始模型获取模块,用于获取包含混合卷积核的初始文字图像识别模型,混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核。
模型训练模块,用于将训练样本集输入至初始文字图像识别模型进行训练,得到文字图像识别模型。
关于基于混合卷积文字图像识别装置的具体限定可以参见上文中对于基于混合卷积文字图像识别方法的限定,在此不再赘述。上述基于混合卷积文字图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述基于混合卷积文字图像识别方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于混合卷积文字图像识别方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中基于混合卷积文字图像识别方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中数据处理模型生成方法,或处理器执行计算机程序时实现上述实施例中基于混合卷积文字图像识别方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于混合卷积文字图像识别方法,其特征在于,包括:
获取待识别图像,所述待识别图像中包含至少一个字符;
获取包含混合卷积核的文字图像识别模型,所述混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核;
将所述待识别图像输入至所述文字图像识别模型中,得到所述待识别图像对应的卷积特征图;
将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取,得到序列特征;
将所述序列特征输入至所述文字图像识别模型的全连接层,得到字符概率分布结果;
采用预设的损失函数,对所述字符概率分布结果进行误差损失计算,得到所述待识别图像的文字识别结果。
2.如权利要求1所述的基于混合卷积文字图像识别方法,其特征在于,所述文字图像识别模型还包括1*1卷积核,所述将所述待识别图像输入至所述文字图像识别模型中,得到所述待识别图像对应的卷积特征图包括:
将所述待识别图像输入至所述文字图像识别模型中,采用所述混合卷积核对所述待识别图像进行卷积特征提取,得到与所述混合卷积核中的每一类卷积核对应的特征图;
将与所述每一类卷积核对应的特征图进行特征图合并操作,得到合并特征图;
采用所述1*1卷积核对所述合并特征图进行特征融合操作,得到卷积特征图。
3.如权利要求1所述的基于混合卷积文字图像识别方法,其特征在于,所述将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取,得到序列特征,包括:
分别对高度为4、2和1的所述卷积特征图进行特征转换,得到与高度为4的卷积特征图对应的第一转置特征、与高度为2的卷积特征图对应的第二转置特征和与高度为1的卷积特征图对应的第三转置特征;
将所述第一转置特征、所述第二转置特征和所述第三转置特征输入至所述循环神经网络,对所述第一转置特征、所述第二转置特征和所述第三转置特征进行全局特征提取,得到与所述第一转置特征对应的第一序列特征、与所述第二转置特征对应的第二序列特征以及与所述第三转置特征对应的第三序列特征;
将所述第一序列特征、第二序列特征和第三序列特征进行序列特征合并,得到序列特征。
4.如权利要求1所述的基于混合卷积文字图像识别方法,其特征在于,在所述将所述待识别图像输入至所述文字图像识别模型中之前,还包括:
根据所述待识别图像的宽度,确定所述待识别图像对应的最大序列长度,并根据所述最大序列长度,确定所述文字图像识别模型的所述混合卷积核的卷积步长;
所述将所述待识别图像输入至所述文字图像识别模型中,采用混合卷积核对所述待识别图像进行卷积特征提取,得到与所述混合卷积核中的每一类卷积核对应的特征图,包括:
将所述待识别图像输入至所述文字图像识别模型中之后,根据所述卷积步长移动所述混合卷积核中的各类卷积核,并通过移动的各所述卷积核对所述待识别图像进行卷积特征提取,得到与各类卷积核对应的特征图。
5.如权利要求1所述的基于混合卷积文字图像识别方法,其特征在于,在所述获取包含混合卷积核的文字图像识别模型之前,还包括:
获取训练样本集,所述训练样本集包括文字样本图像,每一所述文字样本图像都包含至少一个字符;
将所述训练样本集输入至初始文字图像识别模型进行训练,得到文字图像识别模型。
6.一种基于混合卷积文字图像识别装置,包括:
图像获取模块,用于获取待识别图像,所述待识别图像中包含至少一个字符;
模型获取模块,用于获取包含混合卷积核的文字图像识别模型,所述混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核;
卷积识别模块,用于将所述待识别图像输入至所述文字图像识别模型中,得到所述待识别图像对应的卷积特征图;
特征提取模块,用于将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取,得到序列特征;
字符分布模块,用于将所述序列特征输入至所述文字图像识别模型的全连接层,得到字符概率分布结果;
损失计算模块,用于采用预设的损失函数,对所述字符概率分布结果进行误差损失计算,得到所述待识别图像的文字识别结果。
7.如权利要求6所述的基于混合卷积文字图像识别装置,其特征在于,所述混合卷积核还包括1*1卷积核,所述卷积识别模块包括:
卷积特征提取单元,用于将所述待识别图像输入至所述文字图像识别模型中,采用所述混合卷积核对所述待识别图像进行卷积特征提取,得到与所述混合卷积核中的每一类卷积核对应的特征图;
特征合并单元,用于将与所述每一类卷积核对应的特征图进行特征图合并操作,得到合并特征图;
特征融合单元,用于采用所述1*1卷积核对所述合并特征图进行特征融合操作,得到卷积特征图。
8.如权利要求6所述的基于混合卷积文字图像识别装置,其特征在于,所述特征提取模块包括:
特征转换单元,用于分别对高度为4、2和1的所述卷积特征图进行特征转换,得到与高度为4的卷积特征图对应的第一转置特征、与高度为2的卷积特征图对应的第二转置特征和与高度为1的卷积特征图对应的第三转置特征;
全局特征提取单元,用于将所述第一转置特征、所述第二转置特征和所述第三转置特征输入至所述循环神经网络,对所述第一转置特征、所述第二转置特征和所述第三转置特征进行全局特征提取,得到与所述第一转置特征对应的第一序列特征、与所述第二转置特征对应的第二序列特征以及与所述第三转置特征对应的第三序列特征;
序列特征合并单元,用于将所述第一序列特征、第二序列特征和第三序列特征进行序列特征合并,得到序列特征。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于混合卷积文字图像识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于混合卷积文字图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436538.2A CN111666931B (zh) | 2020-05-21 | 2020-05-21 | 基于混合卷积文字图像识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436538.2A CN111666931B (zh) | 2020-05-21 | 2020-05-21 | 基于混合卷积文字图像识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666931A true CN111666931A (zh) | 2020-09-15 |
CN111666931B CN111666931B (zh) | 2024-05-28 |
Family
ID=72384217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010436538.2A Active CN111666931B (zh) | 2020-05-21 | 2020-05-21 | 基于混合卷积文字图像识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666931B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329766A (zh) * | 2020-10-14 | 2021-02-05 | 北京三快在线科技有限公司 | 文字识别方法、装置、电子设备及存储介质 |
CN112418209A (zh) * | 2020-12-15 | 2021-02-26 | 润联软件系统(深圳)有限公司 | 文字识别方法、装置、计算机设备及存储介质 |
CN113537195A (zh) * | 2021-07-21 | 2021-10-22 | 北京数美时代科技有限公司 | 一种图像文本识别方法、系统和电子设备 |
WO2024088269A1 (zh) * | 2022-10-26 | 2024-05-02 | 维沃移动通信有限公司 | 文字识别方法、装置、电子设备及介质 |
CN118365968A (zh) * | 2024-06-18 | 2024-07-19 | 中山市人民医院 | 一种前列腺癌图像识别方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170220904A1 (en) * | 2015-04-02 | 2017-08-03 | Tencent Technology (Shenzhen) Company Limited | Training method and apparatus for convolutional neural network model |
CN110059694A (zh) * | 2019-04-19 | 2019-07-26 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
CN110659648A (zh) * | 2019-09-27 | 2020-01-07 | 北京猎户星空科技有限公司 | 一种字符识别方法及装置 |
-
2020
- 2020-05-21 CN CN202010436538.2A patent/CN111666931B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170220904A1 (en) * | 2015-04-02 | 2017-08-03 | Tencent Technology (Shenzhen) Company Limited | Training method and apparatus for convolutional neural network model |
CN110059694A (zh) * | 2019-04-19 | 2019-07-26 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
CN110659648A (zh) * | 2019-09-27 | 2020-01-07 | 北京猎户星空科技有限公司 | 一种字符识别方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329766A (zh) * | 2020-10-14 | 2021-02-05 | 北京三快在线科技有限公司 | 文字识别方法、装置、电子设备及存储介质 |
CN112418209A (zh) * | 2020-12-15 | 2021-02-26 | 润联软件系统(深圳)有限公司 | 文字识别方法、装置、计算机设备及存储介质 |
CN113537195A (zh) * | 2021-07-21 | 2021-10-22 | 北京数美时代科技有限公司 | 一种图像文本识别方法、系统和电子设备 |
WO2024088269A1 (zh) * | 2022-10-26 | 2024-05-02 | 维沃移动通信有限公司 | 文字识别方法、装置、电子设备及介质 |
CN118365968A (zh) * | 2024-06-18 | 2024-07-19 | 中山市人民医院 | 一种前列腺癌图像识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111666931B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241904B (zh) | 文字识别模型训练、文字识别方法、装置、设备及介质 | |
US11710293B2 (en) | Target detection method and apparatus, computer-readable storage medium, and computer device | |
CN111666931A (zh) | 基于混合卷积文字图像识别方法、装置、设备及存储介质 | |
CN110738090B (zh) | 使用神经网络进行端到端手写文本识别的系统和方法 | |
CN108710866B (zh) | 汉字模型训练方法、汉字识别方法、装置、设备及介质 | |
CN109583325B (zh) | 人脸样本图片标注方法、装置、计算机设备及存储介质 | |
CN109886077B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
WO2019201035A1 (zh) | 对图像中的对象节点的识别方法、装置、终端及计算机可读存储介质 | |
WO2019232853A1 (zh) | 中文模型训练、中文图像识别方法、装置、设备及介质 | |
CN110751134A (zh) | 目标检测方法、存储介质及计算机设备 | |
CN110516541B (zh) | 文本定位方法、装置、计算机可读存储介质和计算机设备 | |
WO2014205231A1 (en) | Deep learning framework for generic object detection | |
CN113486175B (zh) | 文本分类方法、文本分类装置、计算机设备及存储介质 | |
CN111738270B (zh) | 模型生成方法、装置、设备和可读存储介质 | |
CN111291794A (zh) | 字符识别方法、装置、计算机设备和计算机可读存储介质 | |
CN111242840A (zh) | 手写体字符生成方法、装置、计算机设备和存储介质 | |
CN111832581A (zh) | 肺部特征识别方法、装置、计算机设备及存储介质 | |
CN113487610A (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN111738269A (zh) | 模型训练方法、图像处理方法及装置、设备、存储介质 | |
CN112001399A (zh) | 基于局部特征显著化的图像场景分类方法和装置 | |
CN112241646A (zh) | 车道线识别方法、装置、计算机设备和存储介质 | |
CN114357174A (zh) | 基于ocr和机器学习的代码分类系统及方法 | |
CN112070086A (zh) | 文本识别系统的优化方法、计算机设备及存储介质 | |
CN111709338A (zh) | 一种用于表格检测的方法、装置及检测模型的训练方法 | |
CN110705509A (zh) | 人脸方向识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |