CN116912845B

CN116912845B - 一种基于nlp与ai的智能内容识别与分析方法及装置

Info

Publication number: CN116912845B
Application number: CN202310726304.5A
Authority: CN
Inventors: 杜家兵; 王晶; 宋才华; 吴丽贤; 皇甫汉聪; 关兆雄; 陈旭宇; 庞伟林; 庞维欣; 李仰杰
Original assignee: Foshan Power Supply Bureau of Guangdong Power Grid Corp
Current assignee: Foshan Power Supply Bureau of Guangdong Power Grid Corp
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2024-03-19
Anticipated expiration: 2043-06-16
Also published as: CN116912845A

Abstract

本发明公开了一种基于NLP与AI的智能内容识别与分析方法及装置，其中所述方法包括：获取原始文件图像，并使用图像增强处理技术对该文件图像进行优化处理，获得优化处理后的文件图像；基于图像字符切割方法对优化处理后的文件图像进行处理，获得独立字符图像；基于二值图像的字符识别算法识别独立字符图像，获得文本信息；对文本信息进行数据预处理，获得预处理后的文本信息；基于特征提取方法对预处理后的文本信息进行文本向量化处理，获得特征向量；将特征向量输入语言模型中，并基于语言模型对文本信息进行分类与解析。本发明采用NLP与AI技术，实现了智能内容识别与分析，提供丰富的信息输入，从而为企业智慧运营提供大数据支撑。

Description

一种基于NLP与AI的智能内容识别与分析方法及装置

技术领域

本发明涉及自然语言处理与人工智能技术领域，尤其涉及一种基于NLP与AI的智能内容识别与分析方法及装置。

背景技术

现如今，AI技术蓬勃发展，AI产品已广泛地应用于人们的日常生活，在AI技术发展的过程中，还有一项技术起到了不可或缺的作用，那就是NLP技术。NLP技术是目前人工智能领域内的一个很重要的方向，它的目的是实现人和计算机程序之间使用自然语言进行有效通信。目前，在传统业务系统中采用将整个电子文件作为管理单元的粗放管理模式，为了改变这种模式，采用NLP与AI技术，实现了智能内容识别与分析，为各类业务系统提供了丰富的信息输入，从而为企业智慧运营提供大数据支撑。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于NLP与AI的智能内容识别与分析方法及装置，采用NLP与AI技术，实现了智能内容识别与分析，为各类业务系统提供了丰富的信息输入，从而为企业智慧运营提供大数据支撑。

为了解决上述技术问题，本发明实施例提供了一种基于NLP与AI的智能内容识别与分析方法，所述方法包括：

获取原始文件图像，并使用图像增强处理技术对所述原始文件图像进行优化处理，获得优化处理后的文件图像；

基于图像字符切割方法对优化处理后的文件图像进行处理，获得独立的字符图像；

基于二值图像的字符识别算法对所述独立字符图像进行识别处理，获得文本信息；

将所述文本信息进行数据预处理，获得预处理后的文本信息；

基于特征提取方法对预处理后的文本信息进行文本向量化处理，获得特征向量；

将所述特征向量输入语言模型中，并基于所述语言模型进行文本信息的分类与解析处理。

可选的，所述获取原始文件图像，并使用图像增强处理技术对所述原始文件图像进行优化处理，获得优化处理后的文件图像，包括：

获取原始文件图像，并使用中值滤波方法对所述原始文件图像进行去噪处理，获得去噪处理后的文件图像；

基于希尔伯特变换方法对去噪处理后的文件图像进行增强图像边缘处理，获得增强图像边缘处理后的文件图像；

基于偏移场方法对增强图像边缘处理后的文件图像进行弯曲矫正处理，获得弯曲矫正处理后的文件图像；

基于手写擦除聚类方法对弯曲矫正处理后的文件图像进行手写擦除处理，获得优化处理后的文件图像。

可选的，所述基于图像字符切割方法对优化处理后的文件图像进行处理，获得独立的字符图像，包括：

将优化处理后的文件图像进行二值化处理，获得二值化图像；

基于细化算法对所述二值化图像进行细化处理，获得字符骨架；

基于所述字符骨架使用自适应切割方法对所述优化处理后的文件图像进行自适应切割，获得独立的字符图像。

可选的，所述基于二值图像的字符识别算法对所述独立字符图像进行识别处理，获得文本信息，包括：

对所述独立字符图像进行二值化处理，获得二值化独立字符图像；

基于特征提取方法提取所述二值化独立字符图像的特征信息，其中，特征信息包括点阵特征、特征线和网格特征；

将所述二值化独立字符图像的特征信息输入BP神经网络进行字符的分类处理，获得分类后的字符；

基于层次识别算法对分类后的字符进行细分类识别处理，得到文本信息。

可选的，所述将所述文本信息进行数据预处理，获得预处理后的文本信息，包括：

对所述文本信息进行语料清洗处理，获得语料清洗处理后的文本信息；

对数据清洗后的文本信息进行分词处理，获得分词处理后的文本信息；

对分词处理后的文本信息进行词性标注处理，获得词性标注处理后的文本信息。

可选的，所述基于特征提取方法对预处理后的文本信息进行文本向量化处理，获得特征向量，包括：

采用Embedding算法对预处理后的文本信息进行数值化处理，获得词向量；

将所述词向量输入CNN模型中进行特征提取，获得特征向量。

可选的，所述CNN模型的结构，包括：

CNN模型结构包括输入层、卷积层、池化层与输出层，其中，所述输入层将所述词向量输入；所述卷积层使用过滤器对输入的词向量进行卷积处理，获得卷积后的词向量，其中使用的激活函数为Relu函数；所述池化层对卷积后的词向量进行池化处理，并添加dropout正则，获得特征向量；所述输出层输出提取的特征向量。

可选的，所述将所述特征向量输入语言模型中，并基于所述语言模型进行文本信息的分类与解析处理，包括：

构建TEXTCNN模型作为初始的语言模型，所述TEXTCNN模型的网络结构包括：输入层、卷积层、池化层、全连接层与输出层；

对所述初始的语言模型进行训练，获得训练好的语言模型；

将所述特征向量输入训练好的语言模型中，进行文本信息的分类与解析处理。

可选的，所述语言模型的训练过程，包括：

收集文本信息数据，对所述文本信息数据进行标注处理，获得带标注的文本信息数据；

将所述带标注的文本信息数据进行文本向量化处理，获得带标注的特征向量；

将所述带标注的特征向量导入初始的语言模型中；

将所述初始的语言模型中的带标注的特征向量划分成训练集、验证集和测试集；

使用训练集训练所述初始的语言模型，在每轮训练后使用验证集验证模型的准确率，并根据验证集的结果调整模型参数，获得训练好的语言模型；

使用测试集测试训练好的语言模型，验证训练好的语言模型的泛化能力和准确性；

基于测试集的结果对模型进行优化处理。

另外，本发明实施例还提供了一种基于NLP与AI的智能内容识别与分析装置，所述装置包括：

优化处理模块：获取原始文件图像，并使用图像增强处理技术对所述原始文件图像进行优化处理，获得优化处理后的文件图像；

字符切割模块：基于图像字符切割方法对优化处理后的文件图像进行处理，获得独立的字符图像；

字符识别模块：基于二值图像的字符识别算法对所述独立字符图像进行识别处理，获得文本信息；

预处理模块：将所述文本信息进行数据预处理，获得预处理后的文本信息；

特征提取模块：基于特征提取方法对预处理后的文本信息进行文本向量化处理，获得特征向量；

分类与解析模块：将所述特征向量输入语言模型中，并基于所述语言模型进行文本信息的分类与解析处理。

在本发明实施例中，采用NLP与AI技术，使识别文本内容获得更佳的识别准确度，极大程度的减少内容识别发生的错误，并基于深度学习的方法，通过“语料预处理-设计模型-模型训练”三个阶段来实现在短时间内对海量数据内容进行智能化分析和应用，通过对内容进行有效的集中整理和分类治理，提升了数据质量，减少手工录入工作和业务流程，提高了工作效率与降低了人力投入，并且为各类业务系统提供了丰富的信息输入，从而为企业智慧运营提供大数据支撑。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是一种基于NLP与AI的智能内容识别与分析方法的流程示意图；

图2是一种基于NLP与AI的智能内容识别与分析装置的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

请参阅图1，图1是本发明实施例中的一种基于NLP与AI的智能内容识别与分析方法的流程示意图。

如图1所述，一种基于NLP与AI的智能内容识别与分析方法，所述方法包括：

S11：获取原始文件图像，并使用图像增强处理技术对所述原始文件图像进行优化处理，获得优化处理后的文件图像；

在本发明具体实施过程中，所述获取原始文件图像，并使用图像增强处理技术对所述原始文件图像进行优化处理，获得优化处理后的文件图像，包括：获取原始文件图像，并使用中值滤波方法对所述原始文件图像进行去噪处理，获得去噪处理后的文件图像；基于希尔伯特变换方法对去噪处理后的文件图像进行增强图像边缘处理，获得增强图像边缘处理后的文件图像；基于偏移场方法对增强图像边缘处理后的文件图像进行弯曲矫正处理，获得弯曲矫正处理后的文件图像；基于手写擦除聚类方法对弯曲矫正处理后的文件图像进行手写擦除处理，获得优化处理后的文件图像。

具体的，获取原始文件图像，并使用中值滤波方法对所述原始文件图像进行去噪处理，其中使用中值滤波方法，把图像中一个点的值用该点的一个领域中的各点值的中值替代，让周围的像素值接近真实值，消除孤立的噪声点，获得去噪处理后的文件图像；基于希尔伯特变换方法对去噪处理后的文件图像进行增强图像边缘处理，首先对文件图像的物场进行频域的调制，对频域进行傅里叶变换，取傅里叶变换后频域的虚部，取绝对值，沿频率求和后计算1/n次幂，沿纵轴与横轴分别进行边缘增强，获得增强图像边缘处理后的文件图像；基于偏移场方法对增强图像边缘处理后的文件图像进行弯曲矫正处理，首先通过形变矫正网络形成偏移场，使偏移场对文件图像每个像素进行对应的位移，获得弯曲矫正处理后的文件图像；基于手写擦除聚类方法对弯曲矫正处理后的文件图像进行手写擦除处理，通过不断地取离图像质心最近均值的数据，自动将相似的对象归到同一个簇中，循环执行至完成聚类，聚类完成后对图像的需手写擦除的部分进行校正，获得优化处理后的文件图像；使用图像增强技术对图像进行处理，可以增强图像的有用信息，提高图像的质量，以便图像进一步的处理。

S12：基于图像字符切割方法对优化处理后的文件图像进行处理，获得独立的字符图像；

在本发明具体实施过程中，所述基于图像字符切割方法对优化处理后的文件图像进行处理，获得独立的字符图像，包括：将优化处理后的文件图像进行二值化处理，获得二值化图像；基于细化算法对所述二值化图像进行细化处理，获得字符骨架；基于所述字符骨架使用自适应切割方法对所述优化处理后的文件图像进行自适应切割，获得独立的字符图像。

具体的，将优化处理后的文件图像进行二值化处理，把图像灰度化，然后将256个亮度等级的灰度图像通过选取合适的阈值，阈值可以选取灰度值范围的一半或图像本身的平均值等，从而获得仍然可以反应图像整体和局部特征的二值化图像，将图像二值化后方便后续的细化算法的处理；基于细化算法对所述二值化图像进行细化处理，首先设置一个邻域模板，判断每一个二值化图像像素点是否满足以下条件，第一个条件位保证中心像素的黑色点数[2，6]之间，第二个条件使删除该像素点不会影响图像连通性，第三个条件是删除该像素点不会发生水平线断裂，第四个条件是删除该像素点不会发生竖直线断裂，满足四个条件则删除该像素点，重复执行删除操作至没有满足条件的像素点为止，获得字符骨架；使用细化算法得到字符骨架后，根据字符骨架定位交叉点，设定一个最优间距，按照字符图像位于原图的位置关系对其进行叠加，然后使用增厚处理，获得分割线，判断交叉点距离分割线的长度，定义一个对于长度的容错，在容错内的交叉点为必要的交叉点，排除不必要的交叉点，进行切割操作，获得独立的字符图像；对图像进行切割是为方便后续的字符识别做准备，使后续识别处理能更快速进行。

S13：基于二值图像的字符识别算法对所述独立字符图像进行识别处理，获得文本信息；

在本发明具体实施过程中，所述基于二值图像的字符识别算法对所述独立字符图像进行识别处理，获得文本信息，包括：对所述独立字符图像进行二值化处理，获得二值化独立字符图像；基于特征提取方法提取所述二值化独立字符图像的特征信息，其中，特征信息包括点阵特征、特征线和网格特征；将所述二值化独立字符图像的特征信息输入BP神经网络进行字符的分类处理，获得分类后的字符；基于层次识别算法对分类后的字符进行细分类识别处理，得到文本信息。

具体的，对所述独立字符图像进行二值化处理，把独立字符图像灰度化，然后将256个亮度等级的灰度图像通过选取合适的阈值，阈值可以选取灰度值范围的一半或图像本身的平均值等，从而获得仍然可以反应图像整体和局部特征的二值化独立字符图像，将图像二值化后才能继续后续的特征提取处理；基于特征提取方法提取所述二值化独立字符图像的点阵特征、特征线和网格特征，将二值化独立字符图像置于坐标系中，根据坐标系上像素的存在与否确定点值，将每八个像素值拼成字节，得到点阵特征，统计偶数行和列的线段数，组成二维特征向量，将点阵进行重组，得到特征线，将点阵结构分区，统计每一个分区内前景像素的个数作为统计特征，得到网格特征，点阵特征反应字符图像的整体特征，特征线和网格特征反应字符图像的局部特征，以上特征存在互补关系；使用BP神经网络和使用log sigmode线性函数来训练样本并设置最大迭代次数，其中，所述BP神经网络的结构包括输入层、隐藏层与输出层，将二值化独立字符图像的特征信息输入训练好的BP神经网络进行字符的分类处理，获得分类后的字符；基于层次识别算法对分类后的字符进行细分类识别处理，首先通过聚类处理进行划分类别，将分类后的字符图像输入对应的树结构的节点中，完成粗分类，然后使用Probabilistic averageing函数进行整合，再将粗分类的结果子节点进行进一步的分类，得到识别结果，获得文本信息，采取层次识别算法可以获得更佳的识别准确度。

S14：将所述文本信息进行数据预处理，获得预处理后的文本信息；

在本发明具体实施过程中，所述将所述文本信息进行数据预处理，获得预处理后的文本信息，包括：对所述文本信息进行语料清洗处理，获得语料清洗处理后的文本信息；对数据清洗后的文本信息进行分词处理，获得分词处理后的文本信息；对分词处理后的文本信息进行词性标注处理，获得词性标注处理后的文本信息。

具体的，对所述文本信息进行语料清洗处理，利用正则匹配规则将其中的字符串与符合规则的字符串进行匹配，去除特殊字符、重复数据和停用词，获得语料清洗处理后的文本信息；对数据清洗后的文本信息进行分词处理，利用字与字相邻出现的频率反映成词的可靠性，统计语料中相邻共同出现的各个字的组合的频率，当组合频率高于临界值时，可认为这个字的组合会构成一个词语，获得分词处理后的文本信息；对分词处理后的文本信息进行词性标注处理，将词性标注看作一个序列标注，给定一个单位序列，为序列中的每一个单元分配一个标签，计算可能的标签序列的概率分布，选择最佳标签序列，判断词最可能的词性，然后进行标注，得到词性标注处理后的文本信息；对文本信息进行预处理，可以使信息更加干净、准确和可靠。

S15：基于特征提取方法对预处理后的文本信息进行文本向量化处理，获得特征向量；

在本发明具体实施过程中，所述基于特征提取方法对预处理后的文本信息进行文本向量化处理，获得特征向量，包括：采用Embedding算法对预处理后的文本信息进行数值化处理，获得词向量；将所述词向量输入CNN模型中进行特征提取，获得特征向量。

具体的，采用Embedding算法对预处理后的文本信息进行数值化处理，通过one-hot函数将预处理后的文本信息的每一个词作为一个特征列，映射到词向量空间中，获得原始词向量，然后对原始词向量进行降维，获得可以输入CNN模型输入层的词向量；CNN模型结构包括输入层、卷积层、池化层与输出层，其中，所述输入层将所述词向量输入；所述卷积层使用过滤器对输入的词向量进行卷积处理，获得卷积后的词向量，其中使用的激活函数为Relu函数；所述池化层对卷积后的词向量进行池化处理，并添加dropout正则，获得特征向量；所述输出层输出提取的特征向量；将一维的文本信息转换成二维的输入向量，才能符合模型的输入要求。

S16：将所述特征向量输入语言模型中，并基于所述语言模型进行文本信息的分类与解析处理。

在本发明具体实施过程中，所述将所述特征向量输入语言模型中，并基于所述语言模型进行文本信息的分类与解析处理，包括：构建TEXTCNN模型作为初始的语言模型，所述TEXTCNN模型的网络结构包括：输入层、卷积层、池化层、全连接层与输出层；对所述初始的语言模型进行训练，获得训练好的语言模型；将所述特征向量输入训练好的语言模型中，进行文本信息的分类与解析处理。

具体的，语言模型的结构包括：输入层将特征向量输入，卷积层对输入的特征向量进行卷积处理，其中使用的激活函数为Relu函数，卷积层中包含若干个卷积核，卷积层中的卷积核只在一个方向上进行滑动；池化层对卷积后的特征向量进行最大池化处理，池化层只在一个方向上进行max-Pooling操作；全连接层对池化后的特征向量进行级联处理，其中添加dropout正则，防止过拟合；输出层使用softmax激活函数，将向量压缩类目个数的维度，获取文本分到不同类别的概率，并获得文本语义信息；TextCNN模型的优点在于模型较为简单且训练速度快，能达到不错的效果。

具体的，所述语言模型的训练过程，包括：收集文本信息数据，对所述文本信息数据进行标注处理，获得带标注的文本信息数据；将所述带标注的文本信息数据进行文本向量化处理，获得带标注的特征向量；将所述带标注的特征向量导入初始的语言模型中；将所述初始的语言模型中的带标注的特征向量划分成训练集、验证集和测试集；使用训练集训练所述初始的语言模型，在每轮训练后使用验证集验证模型的准确率，并根据验证集的结果调整模型参数，获得训练好的语言模型；使用测试集测试训练好的语言模型，验证训练好的语言模型的泛化能力和准确性；基于测试集的结果对模型进行优化处理，其中，优化模型的处理包括针对所述划分的数据集，在前向传播过程中，从输入层开始对每一层进行顺序计算以及加权，通过一个非线性函数，即激活函数，得到初步输出结果；使用损失函数计算误差值，根据误差值进行反向传播；在每个批次的处理结束时，使用优化器对模型的参数进行更新。

实施例二

请参阅图2，图2是本发明实施例中的一种基于NLP与AI的智能内容识别与分析装置的结构组成示意图。

如图2所述，一种基于NLP与AI的智能内容识别与分析方法，所述方法包括：

优化处理模块21：获取原始文件图像，并使用图像增强处理技术对所述原始文件图像进行优化处理，获得优化处理后的文件图像；

字符切割模块22：基于图像字符切割方法对优化处理后的文件图像进行处理，获得独立的字符图像；

字符识别模块23：基于二值图像的字符识别算法对所述独立字符图像进行识别处理，获得文本信息；

预处理模块24：将所述文本信息进行数据预处理，获得预处理后的文本信息；

特征提取模块25：基于特征提取方法对预处理后的文本信息进行文本向量化处理，获得特征向量；

分类与解析模块26：将所述特征向量输入语言模型中，并基于所述语言模型进行文本信息的分类与解析处理。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，ReadOnly Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于NLP与AI的智能内容识别与分析方法，其特征在于，所述方法包括：

基于二值图像的字符识别算法对所述独立字符图像进行识别处理，获得文本信息，所述基于二值图像的字符识别算法对所述独立字符图像进行识别处理，获得文本信息，包括：对所述独立字符图像进行二值化处理，获得二值化独立字符图像，基于特征提取方法提取所述二值化独立字符图像的特征信息，其中，特征信息包括点阵特征、特征线和网格特征，将所述二值化独立字符图像置于坐标系中，在坐标系中将所述二值化独立字符图像的像素值进行拼接，获得点阵特征，对由所述点阵特征生成的二维特征向量进行重组，获得特征线，对所述点阵特征进行结构分区处理，获得网格特征，将所述二值化独立字符图像的特征信息输入BP神经网络进行字符的分类处理，获得分类后的字符，基于层次识别算法对分类后的字符进行细分类识别处理，基于聚类方法对分类后的字符进行划分类别，将划分类别后的字符图像输入对应树结构的节点中进行粗分类，基于Probabilistic averageing函数将粗分类后的字符图像进行整合，将整合后的字符图像利用粗分类的结果子节点进行细分类，得到文本信息；

基于特征提取方法对预处理后的文本信息进行文本向量化处理，获得特征向量，所述基于特征提取方法对预处理后的文本信息进行文本向量化处理，获得特征向量，包括：采用Embedding算法对预处理后的文本信息进行数值化处理，基于one-hot函数将预处理后的文本信息中的每一个词作为特征列，将所述特征列映射至词向量空间中，获得原始词向量，对所述原始词向量进行降维处理，获得词向量，将所述词向量输入CNN模型中进行特征提取，获得特征向量；

2.根据权利要求1所述的一种基于NLP与AI的智能内容识别与分析方法，其特征在于，所述获取原始文件图像，并使用图像增强处理技术对所述原始文件图像进行优化处理，获得优化处理后的文件图像，包括：

3.根据权利要求1所述的一种基于NLP与AI的智能内容识别与分析方法，其特征在于，所述基于图像字符切割方法对优化处理后的文件图像进行处理，获得独立的字符图像，包括：

4.根据权利要求1所述的一种基于NLP与AI的智能内容识别与分析方法，其特征在于，所述将所述文本信息进行数据预处理，获得预处理后的文本信息，包括：

5.根据权利要求1所述的一种基于NLP与AI的智能内容识别与分析方法，其特征在于，所述CNN模型的结构，包括：

6.根据权利要求1所述的一种基于NLP与AI的智能内容识别与分析方法，其特征在于，所述将所述特征向量输入语言模型中，并基于所述语言模型进行文本信息的分类与解析处理，包括：

对所述初始的语言模型进行训练，获得训练好的语言模型；

7.根据权利要求6所述的一种基于NLP与AI的智能内容识别与分析方法，其特征在于，所述语言模型的训练过程，包括：

将所述带标注的特征向量导入初始的语言模型中；

基于测试集的结果对模型进行优化处理。

8.一种基于NLP与AI的智能内容识别与分析装置，其特征在于，所述装置包括：

字符识别模块：基于二值图像的字符识别算法对所述独立字符图像进行识别处理，获得文本信息，所述基于二值图像的字符识别算法对所述独立字符图像进行识别处理，获得文本信息，包括：对所述独立字符图像进行二值化处理，获得二值化独立字符图像，基于特征提取方法提取所述二值化独立字符图像的特征信息，其中，特征信息包括点阵特征、特征线和网格特征，将所述二值化独立字符图像置于坐标系中，在坐标系中将所述二值化独立字符图像的像素值进行拼接，获得点阵特征，对由所述点阵特征生成的二维特征向量进行重组，获得特征线，对所述点阵特征进行结构分区处理，获得网格特征，将所述二值化独立字符图像的特征信息输入BP神经网络进行字符的分类处理，获得分类后的字符，基于层次识别算法对分类后的字符进行细分类识别处理，基于聚类方法对分类后的字符进行划分类别，将划分类别后的字符图像输入对应树结构的节点中进行粗分类，基于Probabilisticaverageing函数将粗分类后的字符图像进行整合，将整合后的字符图像利用粗分类的结果子节点进行细分类，得到文本信息；

特征提取模块：基于特征提取方法对预处理后的文本信息进行文本向量化处理，获得特征向量，所述基于特征提取方法对预处理后的文本信息进行文本向量化处理，获得特征向量，包括：采用Embedding算法对预处理后的文本信息进行数值化处理，基于one-hot函数将预处理后的文本信息中的每一个词作为特征列，将所述特征列映射至词向量空间中，获得原始词向量，对所述原始词向量进行降维处理，获得词向量，将所述词向量输入CNN模型中进行特征提取，获得特征向量；