CN113011431A

CN113011431A - 一种基于MaskRCNN的汉字笔画分割提取方法及系统

Info

Publication number: CN113011431A
Application number: CN202110347017.4A
Authority: CN
Inventors: 许勇; 谭艳鸿
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-22

Abstract

本发明公开了一种基于MaskRCNN的汉字笔画分割提取方法，包括以下步骤：构成笔画分割数据集，并解析字体，生成训练集和验证集；构建MaskRCNN网络模型，所述MaskRCNN网络模型包含骨干网络、区域建议网络、分支网络；预设MaskRCNN网络模型的初始参数和迭代次数，对训练集进行图像增强补充数据；训练MaskRCNN网络模型，通过训练集更新网络参数，并通过验证集选择最优参数并保存；将待测汉字图像输入训练好的网络模型，得到笔画分割提取结果；本发明创新地利用实例分割领域Mask RCNN算法于汉字的笔画分割提取任务中，对比笔画提取的方法，处理效果和效率大幅度提升。

Description

一种基于MaskRCNN的汉字笔画分割提取方法及系统

技术领域

本发明涉及图像分割的研究领域，特别涉及一种基于MaskRCNN的汉字笔画分割提取方法及系统。

背景技术

汉字是世界上最古老的文字之一，是我国文化得以生生不息的基础，而笔画是汉字的组成部分，研究汉字的结构构成、识别等离不开笔画，而汉字的笔画自动分割和提取是一个重要且挑战性的任务。汉字笔画分割提取的挑战性主要体现在汉字结构复杂，不同字体的笔画连接，笔画的形态和长短粗细各有不同，即使相同字体之间，笔画与笔画之间、部件与部件之间相对位置甚至笔画的倾斜角度也会发生变化。

目前的笔画提取方法大多根据汉字的骨架和汉字图像的轮廓，应用最广泛的方法是通过图像细化算法得到图像骨架，根据图像领域的PBOD曲线找出笔画交叉点，再根据笔画之间的连接关系将笔画交叉分离，最后利用图像的轮廓和标准库的笔画部件等信息，将分离后的骨架复原为完整的笔画，进而完成汉字的笔画提取。

目前的传统笔画提取方法设计的规则复杂，只利用到很局限的骨架和轮廓等特征，人为确定的参数阈值过多，同时对于复杂汉字的提取效果很不理想，在正确率和效率上都没能达到令人满意的效果。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于MaskRCNN的汉字笔画分割提取方法及系统，用于解决笔画分割提取不准确，提取效率慢等问题。

本发明的第一目的在于提供一种基于MaskRCNN的汉字笔画分割提取方法。

本发明的第二目的在于提供一种基于MaskRCNN的汉字笔画分割提取系统。

本发明的第一目的通过以下的技术方案实现：

一种基于MaskRCNN的汉字笔画分割提取方法，包括以下步骤：

通过数据获取模块获取笔画分割数据，构成笔画分割数据集，并解析字体，生成训练集和验证集；

构建MaskRCNN网络模型，所述MaskRCNN模型包含主干网络、区域建议网络、分支网络；

预设MaskRCNN网络模型的初始参数和迭代次数，对训练集进行图像增强补充数据；

训练MaskRCNN网络模型，通过训练集更新网络参数，并通过验证集选择最优参数并保存；

将待测汉字图像输入训练好的网络模型，得到笔画分割提取结果。

进一步地，所述通过数据获取模块获取笔画分割数据，构成笔画分割数据集，具体为：

解析汉字字体，通过第一字体生成训练集的汉字图像，通过第二字体生成验证集的常用汉字；

分别利用字体生成数据集的汉字图像，将笔画的标签分为横竖撇捺折五类，获取每个笔画的掩模，通过笔画掩模的包围矩形作为标记框；

根据汉字图像的标记数据：笔画掩模、包围矩形、笔画标签；生成json文件，json文件能被MaskRCNN算法直接调用。

进一步地，所述第一字体为楷体GB2312；所述第二字体为仿宋GB2312。

进一步地，所述构建MaskRCNN网络模型，具体为：所述MaskRCNN网络模型分为三部分：

主干网络，为一个标准的卷积神经网络，采用Resnet50+FPN主干网络，作为特征提取器；

区域建议网络，为一个轻量神经网络，用于滑动窗口扫描图像；

分支网络，掩码分支是卷积网络，分类网络分支是全连接神经网络。

进一步地，所述预设MaskRCNN网络模型的初始参数和迭代次数，对训练集进行图像增强补充数据，具体为：

设置模型的总迭代次数为15个epoch，每隔一个epoch保存中间模型参数；

图像增强方法为几何变换操作，具体包括随机的翻转，旋转，裁剪，缩放，以及随机的在某一个颜色空间通过增加或减少某些颜色分量，更改颜色通道顺序的颜色变换操作。

进一步地，所述训练MaskRCNN网络，通过训练集更新网络参数，并通过验证集选择最优参数并保存，具体为：

训练Mask RCNN网络，使用ADAM优化器处理损失函数，为不同的参数计算不同的自适应学习率，初始化学习率设置为0.001，动量设置为0.9；

训练阶段分别计算三个输出矩形包围框、类别和对应掩码与真实值的损失，更新网络参数，每训练一个epoch，输入验证集测试模型，不断保存验证集损失函数最小的模型直至训练结束，即为最优模型，此参数为后续应用时所用的网络模型。

进一步地，所述待测汉字为一级汉字或二级汉字的简体图像。

本发明的第二目的通过以下技术方案实现：

一种基于MaskRCNN的汉字笔画分割提取系统，基于汉字笔画分割提取方法实现，其特征在于，包括：

数据获取模块，用于获取笔画分割数据；

图像增强补充数据模块，用于扩充训练集数据，防止网络过拟合

神经网络模型构建模块，用于构建神经网络模块；

训练模块，用于更新网络参数，使网络输出越来越接近预期结果

最优参数获取模块，用于选取并保存验证集笔画提取效果最好的网络模型

笔画分割提取模块，用于接受待测汉字图像的输入，并直接输出汉字分割提取的结果。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明所有数据集均由互联网公开的数据直接或间接得到，无须人工标记，与其他监督学习方法对比，大大节省了人力成本；

2、本发明创新分借鉴实例分割技术，模型一旦训练好无须再调节，比传统方法的众多人为调节的参数相比简单易操作，特别是实际应用部署时，无须进行模型参数的调整，简单便捷。

3、本发明训练好的模型是学习到众多汉字图像的分割规律结果，无论简单汉字还是复杂汉字都能很好处理；同时模型泛化能力较强，即使测试图像与训练集相差交大，处理效果也令人满意；这两点是传统方法无法比拟的，也是该发明的主要突出优势。

4、本发明可以并行处理，即可同时处理多张图像，在模型比传统笔画分割提取法复杂的情况下还可大大提升了处理效率。

附图说明

图1是本发明所述一种基于MaskRCNN的汉字笔画分割提取方法的流程图。

图2是本发明所述实施例中笔画提取的结果示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

一种基于MaskRCNN的汉字笔画分割提取方法，如图1所示，包括以下步骤：

具体如下：

1.训练数据集的收集可以通过如下方式：

(1)目前公开汉字trur type字体只有仿宋GB2312和楷体GB 2312是按笔画存储的，利用楷体GB2312生成训练集6763个汉字包括一二级汉字，仿宋GB2312生成验证集3755个常用汉字。

(2)分别利用字体生成训练集的汉字图像，每个笔画的掩膜，利用笔画掩膜的包围矩形作为标记框，笔画是按笔顺存储的，每个笔画的标签由公开的笔顺数据集得到，笔画我们只分为横竖撇捺折五类。

(3)根据(2)的汉字图像及对应的三个标记数据，即每个笔画的掩膜、包围矩形和笔画的标签生成类似微软的MS coco的数据格式的json文件，能被MaskRCNN算法直接调用。

2.构建Mask RCNN网络模型，该模型分为三个部分：

(1)主干网络，这是一个标准的卷积神经网络，作为特征提取器。底层检测的是低级特征(边缘和角等)，较高层检测的是更高级的特征(汽车、人、天空等)。引入的特征金字塔网络(FPN)是对该主干网络的扩展，可以在多个尺度上更好地表征目标。FPN通过添加第二个金字塔提升了标准特征提取金字塔的性能，第二个金字塔可以从第一个金字塔选择高级特征并传递到底层上。通过这个过程，它允许每一级的特征都可以和高级、低级特征互相结合。我们实际采用的是Resnet50+FPN主干网络。经过主干网络的前向传播，图像从1024x1024x3(RGB)的张量被转换成形状为32x32x2048的特征图。该特征图将作为下一个阶段的输入。

(2)区域建议网络(RPN)，是一个轻量的神经网络，它用滑动窗口来扫描图像，并寻找存在目标的区域，RPN扫描的区域被称为anchor，这是在图像区域上分布的矩形，RPN为每个anchor生成两个输出：anchor类别和边框精调。

(3)分支网络。掩码分支是一个卷积网络，取RPN得到的ROI分类器选择的区域为输入，并生成它们的掩码。其生成的掩码是低分辨率的：28x28像素。分类网络，包括了物体检测最终的类别(class)和矩形包围框(bounding box)。该部分是利用了之前检测到了ROI进行分类和回归(是分别对每一个ROI进行)。

3.设置网络模型初始参数和迭代次数等参数，对训练集图像进行图像增强扩充数据。一次epoch是指将所有数据训练一遍的次数，总迭代次数为15个epoch，每隔一个epoch保存中间模型参数。运用图像增强扩充数据，对训练集进行随机的翻转，旋转，裁剪，缩放等几何变换操作，同时进行随机的在某一个颜色空间通过增加或减少某些颜色分量，或者更改颜色通道的顺序等颜色变换操作。

4.训练Mask RCNN网络模型，使用ADAM优化器处理损失函数，为不同的参数计算不同的自适应学习率，初始化学习率设置为0.001，动量(MOMENTUM)设置为0.9。输入图像为3通道的彩色图像，网络模型有三个输出分别为矩形包围框(bounding box)、类别(class)和对应掩码(mask)。训练阶段分别计算三个输出与真实值的损失，更新网络参数，每训练一个epoch，输入验证集测试模型，不断保存验证集损失函数最小的模型直至训练结束，即为最优网络模型，此参数为后续应用时所用的网络模型。

5.将待测汉字图像输入训练好的Mask RCNN网络得到笔画提取结果，结果实例如图2所示，此汉字图像为必须是简体字图像，且汉字必须是一级汉字或二级汉字。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于MaskRCNN的汉字笔画分割提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于MaskRCNN的汉字笔画分割提取方法，其特征在于，所述通过数据获取模块获取笔画分割数据，构成笔画分割数据集，具体为：

3.根据权利要求2所述的一种基于MaskRCNN的汉字笔画分割提取方法，其特征在于，所述第一字体为楷体GB2312；所述第二字体为仿宋GB2312。

4.根据权利要求1所述的一种基于MaskRCNN的汉字笔画分割提取方法，其特征在于，所述构建MaskRCNN网络模型，具体为：所述MaskRCNN模型分为三部分：

5.根据权利要求1所述的一种基于MaskRCNN的汉字笔画分割提取方法，其特征在于，所述预设MaskRCNN模型的初始参数和迭代次数，对训练集进行图像增强补充数据，具体为：

设置网络模型的总迭代次数为15个epoch，每隔一个epoch保存中间模型参数；

6.根据权利要求5所述的一种基于MaskRCNN的汉字笔画分割提取方法，其特征在于，所述训练MaskRCNN网络，通过训练集更新网络参数，并通过验证集选择最优参数并保存，具体为：

训练阶段分别计算三个输出矩形包围框、类别和对应掩码与真实值的损失，更新网络参数，每训练一个epoch，输入验证集测试模型，不断保存验证集损失函数最小的网络模型直至训练结束，即为最优网络模型，此参数为后续应用时所用的网络模型。

7.根据权利要求1所述的一种基于MaskRCNN的汉字笔画分割提取方法，其特征在于，所述待测汉字为一级汉字或二级汉字的简体图像。

8.一种基于MaskRCNN的汉字笔画分割提取系统，基于权利要求1至7所述的汉字笔画分割提取方法实现，其特征在于，包括：

数据获取模块，用于获取笔画分割数据；

图像增强补充数据模块，用于扩充训练集数据，防止网络过拟合；

神经网络模型构建模块，用于构建神经网络模块；

训练模块，用于更新网络参数，使网络输出越来越接近预期结果；

最优参数获取模块，用于选取并保存验证集笔画提取效果最好的网络模型；