CN111178133A - 一种基于剪枝深度模型用于自然场景图像文本识别方法 - Google Patents
一种基于剪枝深度模型用于自然场景图像文本识别方法 Download PDFInfo
- Publication number
- CN111178133A CN111178133A CN201911221023.4A CN201911221023A CN111178133A CN 111178133 A CN111178133 A CN 111178133A CN 201911221023 A CN201911221023 A CN 201911221023A CN 111178133 A CN111178133 A CN 111178133A
- Authority
- CN
- China
- Prior art keywords
- pruning
- text recognition
- depth model
- text
- bbox
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于剪枝深度模型用于自然场景图像文本识别方法;主要涉及修剪深度网络(Yolo v3‑Darknet53)和修剪后的深度网络对自然场景图像中文本进行检测和识别;该方法包括对深度网络剪枝策略、过滤检测模型输出的特征图、使用VGG16网络对文本信息提取、微调包围框、对文本信息进行识别;本发明使用文本检测和识别通用的ICDAR2015作为训练集和测试集,可以有效地展现自然场景图像的多种复杂性;计算机视觉领域的CNN规模日渐庞大,本发明旨在缩减网络规模、节省训练时间、缓解硬件设备压力、减小对检测和识别准确率的影响。
Description
技术领域
本发明涉及到深度学习和目标识别领域,具体是一种基于剪枝深度模型用于自然场景图像文本识别方法。
背景技术
在人们日常的生产生活中每天会发送和收获大量的图像,而大多数图像中会包含大量的文本信息;例如在社交网络中人们常用的Instagram和Facebook每天会产生多达上亿张图像,而在国内微信、微博和邮箱等应用每天以图像的形式为大量用户传输信息;然而,环境的复杂性,灵活的图像采集方式和文本内容的变化带来了各种挑战;对图像进行处理时最好的就是卷积神经网络,但最近的CNN每一个层的卷积核输出通道层数加上填充数量越来越深大多数都是上百层,对网络消耗庞大,对设备要求较高;当网络模型过大的时,对用户会造成很大的困扰;这样深度网络,对于普通人而言,他们的设备大多内存不足,CPU和GPU的计算能力较差,在深度网络上的运算时间消耗较多;所以现有的技术需要一种能提高自然场景图像文本识别的速度和准确度的一种基于剪枝深度模型用于自然场景图像文本识别方法。
发明内容
本发明的目的在于提供种基于剪枝深度模型用于自然场景图像文本识别方法,以解决上述背景技术中所提到的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:包括以下步骤:
步骤S1:压缩Darknet53模型;
步骤S2:文本区域过滤和提取;
步骤S3:文本信息提取;
步骤S4:文本识别。
作为本发明进一步的方案:所述步骤S1包括:
①合并卷积层和BN层;
②引入比例因子γ,通道层次稀疏正则化;
③比例因子排序、剪枝。
作为本发明进一步的方案:所述步骤S2包括:
①对所有框的得分进行排序,选中最高分及其对应的框;
②遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,就将会此框删除;
③从未处理的框中继续选一个得分高的,重复上述过程。
作为本发明进一步的方案:所述步骤S3包括:
①VGG16的前5个Conv stage得到feature map;
②用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,界定出目标待选区域:
③通过分类或回归得到的输出。
作为本发明进一步的方案:所述步骤S4包括;
①对bbox进行处理,首先要计算bbox的角度;
②选择bbox框出的部分,并裁剪出来;
③将bbox旋转到正确的方向,送入识别网络。
作为本发明进一步的方案:所述步骤S1,压缩Darknet53模型,具体步骤包括:
合并卷积层和BN层:在神经网络训练网络模型时,BN层[31]能够加速网络收敛,并且能够控制过拟合现象的发生,一般放在卷积层之后,激活层之前;BN层将数据归一化后,能够有效解决梯度消失与梯度爆炸问题;虽然BN层在训练时起到了积极作用,然而,在网络Inference时多了一些层的运算,影响了模型的性能,且占用了更多的内存或者显存空间;因此,有必要将BN层的参数合并到卷积层,减少计算来提升模型Inference的速度。
在Yolo v3中,BN计算过程如下:
其中xout为BN计算结果,γ为缩放因子,μ为均值,β为偏置,xconv为卷积计算结果:
所述步骤S3,文本信息提取,具体步骤包括:
(1)首先,用VGG16的前5个Conv stage得到feature map
(2)用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,界定出目标待选区域。
(3)最后通过分类或回归得到的输出主要分为三部分,从上到下依次为2kvertical coordinates:表示选择框的高度和中心的y轴的坐标;2k scores:表示的是k个anchor的类别信息,说明其是否为字符;k side-refinement表示的是选择框的水平偏移量;其中anchor的水平宽度都是16个像素不变;使用的方法回归出来的y轴坐标结果如下:
其中标记*的表示为真值,v={vc,vh}表示一个预测的框选位置,因为长度固定(16像素)vc表示的是该预选框在y轴上的中心位置,vh表示这个预选框的高度。
与现有技术相比,本发明的有益效果是:
能提高自然场景图像文本识别的速度和准确度。
附图说明
图1为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法的步骤图;
图2为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法的流程图;
图3为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法的Darknet53网络意图;
图4为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法在ICDAR2015数据集上的检测结果;
图5为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法在ICDAR2015数据集上的识别结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~5,本发明实施例中,一种基于峰值帧和深度森林的微表情识别方法,包括以下步骤:
步骤S1:压缩Darknet53模型;
步骤S2:文本区域过滤和提取;
步骤S3:文本信息提取;
步骤S4:文本识别。
所述步骤S1包括:
①合并卷积层和BN层;
②引入比例因子γ,通道层次稀疏正则化;
③比例因子排序、剪枝。
所述步骤S2包括:
①对所有框的得分进行排序,选中最高分及其对应的框;
②遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,就将会此框删除;
③从未处理的框中继续选一个得分高的,重复上述过程。
所述步骤S3包括:
①VGG16的前5个Conv stage得到feature map;
②用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,界定出目标待选区域:
③通过分类或回归得到的输出。
所述步骤S4包括:
①对bbox进行处理,首先要计算bbox的角度;
②选择bbox框出的部分,并裁剪出来;
③将bbox旋转到正确的方向,送入识别网络。
所述步骤S1,压缩Darknet53模型,具体步骤包括:
合并卷积层和BN层:在神经网络训练网络模型时,BN层[31]能够加速网络收敛,并且能够控制过拟合现象的发生,一般放在卷积层之后,激活层之前;BN层将数据归一化后,能够有效解决梯度消失与梯度爆炸问题;虽然BN层在训练时起到了积极作用,然而,在网络Inference时多了一些层的运算,影响了模型的性能,且占用了更多的内存或者显存空间;因此,有必要将BN层的参数合并到卷积层,减少计算来提升模型Inference的速度。
在Yolo v3中,BN计算过程如下:
其中xout为BN计算结果,γ为缩放因子,μ为均值,β为偏置,xconv为卷积计算结果:
所述步骤S3,文本信息提取,具体步骤包括:
①首先,用VGG16的前5个Conv stage得到feature map
②用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,界定出目标待选区域。
③最后通过分类或回归得到的输出主要分为三部分,从上到下依次为2kvertical coordinates:表示选择框的高度和中心的y轴的坐标;2k scores:表示的是k个anchor的类别信息,说明其是否为字符;k side-refinement表示的是选择框的水平偏移量。其中anchor的水平宽度都是16个像素不变。使用的方法回归出来的y轴坐标结果如下:
其中标记*的表示为真值,v={vc,vh}表示一个预测的框选位置,因为长度固定(16像素)vc表示的是该预选框在y轴上的中心位置,vh表示这个预选框的高度。
在本发明的实施中,通过在ICDAR2015数据集上测试本发明的识别结果,并分别通过图4和图5展示。
由此图4和图5的数据可以证明,本发明可以在压缩网络模型后节省很大一部分训练时间,并且可以有效的检测文本位置;有效的过滤、提取和分割文本区域,为识别模型送入一个高效的特征文本序列。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内;不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (9)
1.一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:包括以下步骤:
步骤S1:压缩Darknet53模型;
步骤S2:文本区域过滤和提取;
步骤S3:文本信息提取;
步骤S4:文本识别。
2.根据权利要求1所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S1包括:
①合并卷积层和BN层;
②引入比例因子γ,通道层次稀疏正则化;
③比例因子排序、剪枝。
3.根据权利要求1所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S2包括:
①对所有框的得分进行排序,选中最高分及其对应的框;
②遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,就将会此框删除;
③从未处理的框中继续选一个得分高的,重复上述过程。
4.根据权利要求1所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S3包括:
①VGG16的前5个Conv stage得到feature map;
②用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,界定出目标待选区域:
③通过分类或回归得到的输出。
5.根据权利要求1所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S4包括:
①对bbox进行处理,首先要计算bbox的角度;
②选择bbox框出的部分,并裁剪出来;
③将bbox旋转到正确的方向,送入识别网络。
6.根据权利要求2所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S1:压缩Darknet53模型,具体步骤包括:在剪枝之前需要先对Yolo v3-Darknet 53网络结构进行修改——合并卷积层与BN层;为每个通道引入一个比例因子γ,它乘以该通道的输出;然后联合训练网络权重和这些比例因子,并对后者施加稀疏正则化;最后,修剪这些小因子通道,并调整修剪后的网络。
7.根据权利要求2所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S2,文本区域过滤和提取,具体步骤包括:首先过滤掉scores小于TEXT_PROPOSALS_MIN_SCORE的box,然后将scores展开排序,返回相应的index,将scores和boxes在水平方向上平铺,利用非极大抑制,将大于阈值的都淘汰掉,即过滤重复的box;非极大值抑制过程:(1)对所有框的得分进行排序,选中最高分及其对应的框;(2)遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,就将会此框删除;(3)从未处理的框中继续选一个得分高的,重复上述过程。
8.根据权利要求2所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S3,文本信息提取,具体步骤包括:首先,用VGG16的前5个Conv stage得到feature map,用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,界定出目标待选区域;最后通过分类或回归得到的输出。
9.根据权利要求2所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S4,文本识别,具体步骤包括:bbox进行处理,首先要计算bbox的角度,然后选择bbox框出的部分,并裁剪出来,最后把bbox旋转到正确的方向,送入识别网络;对每一个提取好的Feature map序列化,将每一个channel作为D=512的时间序列输入到LSTM中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911221023.4A CN111178133A (zh) | 2019-12-03 | 2019-12-03 | 一种基于剪枝深度模型用于自然场景图像文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911221023.4A CN111178133A (zh) | 2019-12-03 | 2019-12-03 | 一种基于剪枝深度模型用于自然场景图像文本识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111178133A true CN111178133A (zh) | 2020-05-19 |
Family
ID=70656273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911221023.4A Pending CN111178133A (zh) | 2019-12-03 | 2019-12-03 | 一种基于剪枝深度模型用于自然场景图像文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178133A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613387A (zh) * | 2020-12-18 | 2021-04-06 | 五邑大学 | 一种基于YOLOv3的交通标志检测方法 |
CN112836751A (zh) * | 2021-02-03 | 2021-05-25 | 歌尔股份有限公司 | 一种目标检测方法和装置 |
CN112861837A (zh) * | 2020-12-30 | 2021-05-28 | 北京大学深圳研究生院 | 一种基于无人机的红树林生态信息智慧提取方法 |
CN112926569A (zh) * | 2021-03-16 | 2021-06-08 | 重庆邮电大学 | 一种社交网络中的自然场景图像文本检测方法 |
-
2019
- 2019-12-03 CN CN201911221023.4A patent/CN111178133A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613387A (zh) * | 2020-12-18 | 2021-04-06 | 五邑大学 | 一种基于YOLOv3的交通标志检测方法 |
CN112861837A (zh) * | 2020-12-30 | 2021-05-28 | 北京大学深圳研究生院 | 一种基于无人机的红树林生态信息智慧提取方法 |
CN112861837B (zh) * | 2020-12-30 | 2022-09-06 | 北京大学深圳研究生院 | 一种基于无人机的红树林生态信息智慧提取方法 |
CN112836751A (zh) * | 2021-02-03 | 2021-05-25 | 歌尔股份有限公司 | 一种目标检测方法和装置 |
CN112926569A (zh) * | 2021-03-16 | 2021-06-08 | 重庆邮电大学 | 一种社交网络中的自然场景图像文本检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN111178133A (zh) | 一种基于剪枝深度模型用于自然场景图像文本识别方法 | |
CN112734775B (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
US20200057935A1 (en) | Video action detection method based on convolutional neural network | |
CN107358262B (zh) | 一种高分辨率图像的分类方法及分类装置 | |
CN112686223B (zh) | 一种表格识别方法、装置和计算机可读存储介质 | |
CN106778852A (zh) | 一种修正误判的图像内容识别方法 | |
CN112989995B (zh) | 文本检测方法、装置及电子设备 | |
US20230290118A1 (en) | Automatic classification method and system of teaching videos based on different presentation forms | |
US20240312181A1 (en) | Video detection method and apparatus, device, and storage medium | |
CN113850238B (zh) | 文档检测方法、装置、电子设备及存储介质 | |
CN111144411A (zh) | 一种基于显著图的不规则文本修正与识别方法及系统 | |
CN108090117B (zh) | 一种图像检索方法及装置,电子设备 | |
CN114187595A (zh) | 基于视觉特征和语义特征融合的文档布局识别方法及系统 | |
CN107832753B (zh) | 一种基于四值权重与多重分类的人脸特征提取方法 | |
CN102136074A (zh) | 一种基于mmi的木材图像纹理分析与识别方法 | |
CN112733665A (zh) | 一种基于轻量化网络结构设计的人脸识别方法及系统 | |
CN114399780B (zh) | 表格检测方法、表格检测模型训练方法及装置 | |
CN114155572A (zh) | 一种面部表情识别方法和系统 | |
CN114329050A (zh) | 视觉媒体数据去重处理方法、装置、设备和存储介质 | |
CN113850178A (zh) | 一种视频词云的生成方法及装置、存储介质及电子设备 | |
CN113870196A (zh) | 一种基于锚点切图的图像处理方法、装置、设备和介质 | |
CN113591858A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
CN114359742B (zh) | 一种优化小目标检测的加权损失函数计算方法 | |
CN113139423B (zh) | 一种用于场景图检测的关系图学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200519 |
|
WD01 | Invention patent application deemed withdrawn after publication |