CN113505581A

CN113505581A - 基于apso-lstm网络的教育大数据文本分析方法

Info

Publication number: CN113505581A
Application number: CN202110849014.0A
Authority: CN
Inventors: 黄先开; 张佳玉; 张跃
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-10-15

Abstract

本申请公开了一种基于APSO‑LSTM网络的教育大数据文本分析方法，采集原始数据，形成数据集，数据集包括第一原始数据集和第二原始数据集；预处理第一原始数据集，得到文本数据集；利用Skip‑Gram模型训练文本数据集，得到词向量集；对词向量集标上情感标签，形成样本数据集，样本数据集包括训练集；利用训练集训练APSO‑LSTM网络模型，得到文本情感分析模型；将第二原始数据集输入至文本情感分析模型后，将第二原始数据集中的原始数据的分类结果各自保存成文本文件；利用Word2Vec模型训练文本文件得到正负情感倾向的关键词；根据关键词生成情感分析报告，为网络在线教育的改进提供依据。

Description

基于APSO-LSTM网络的教育大数据文本分析方法

技术领域

本发明涉及文本数据挖掘技术领域，尤其涉及一种基于APSO-LSTM网络的教育大数据文本分析方法。

背景技术

随着信息技术迅速发展，特别是互联网到移动互联网，创造了跨时空的生活、工作和学习方式，使知识获取的方式发生了根本变化。教与学可以不受时间、空间和地点条件的限制，尤其是疫情期间全国都实行了网上授课，知识获取渠道灵活与多样化。

所以学生的反馈对于评估学习课程的有效性至关重要。随着教育机构的增多，许多学生通过免费提供免费课程而着迷在线学习门户。每年都有大量的学习者参加这些大规模的在线课程，产生了大量对课程和老师的文本评论数据，但是对于这些文本数据并没有很好的利用并分析，以进一步想了解他们对课程内容和教育质量的看法，改进课程的质量。

发明内容

有鉴于此，本发明提供了一种基于APSO-LSTM网络的教育大数据文本分析方法，包括步骤：

采集原始数据，形成数据集，所述数据集包括第一原始数据集和第二原始数据集；

预处理所述第一原始数据集，得到文本数据集；

利用Skip-Gram模型训练所述文本数据集，得到词向量集；

对所述词向量集标上情感标签，形成样本数据集，所述样本数据集包括训练集；

利用所述训练集训练APSO-LSTM网络模型，得到文本情感分析模型；

将所述第二原始数据集输入至所述文本情感分析模型后，将所述第二原始数据集中的原始数据的分类结果各自保存成文本文件；

利用Word2Vec模型训练所述文本文件得到正负情感倾向的关键词；

根据所述关键词生成情感分析报告。

优选的，所述样本数据集还包括测试集；

利用所述训练集训练APSO-LSTM网络模型得到初始文本情感分析模型，将所述测试集输入至所述初始文本情感分析模型中，查看所述测试集的分类结果，所述分类结果超过阈值则完成训练形成文本情感分析模型，所述分类结果低于所述阈值则继续训练APSO-LSTM网络模型直至分类结果超过阈值，完成训练形成所述文本情感分析模型。

优选的，所述训练集中数据的数量与所述测试集中数据的数量的比例为8:2。

优选的，使用训练数据集对APSO-LSTM网络进行训练得到所述文本情感分析模型，包括步骤：

使用APSO算法所述对文本情感分析模型的权重参数进行优化。

优选的，APSO算法包括步骤：使用OBL初始化LSTM网络的权重；利用

和X_kd(t+1)＝X_kd(t)+V_kd(t+1)更新速度和位置；

其中，X_kd(t)为速度，V_kd(t)为第k个粒子的位置，d为维度空间，t为迭代，对于任何给定的粒子P速度，P_best为个人或局部最佳值，G_best为全局最佳值，c₁和c₂为加速度系数，r₁和r₂为[0，1]范围内的随机变量，w为惯性权重；

利用

F(i)＝Min(Loss(i))对文本情感分析模型的权重参数进行优化；

其中，H_t为LSTM网络实际的输出，T_t为LSTM网络期望的输出，N为从n个数据点的样本中生成的预测，F(i)为适应度值。

优选的，利用Word2Vec模型训练所述文本文件得到正负情感倾向的关键词，包括步骤：

对所述分类结果进行分词和词性标注的处理，保留具有正负情感倾向的单词，得到正负情感倾向的所述关键词。

优选的，所述预处理包括标记化、停用词去除和数据清洗。

优选的，所述情感标签包括正向、中性和负向。

与现有技术相比，本发明提供的一种基于APSO-LSTM网络的教育大数据文本分析方法，达到如下有益效果：

本发明提供的一种基于APSO-LSTM网络的教育大数据文本分析方法，通过训练APSO-LSTM网络模型，得到文本情感分析模型，将第二原始数据集输入至文本情感分析模型后，将第二原始数据集中的原始数据的分类结果各自保存成文本文件；利用Word2Vec模型训练文本文件得到正负情感倾向的关键词；后续利用关键词分析学生的听课情况并生成情感分析报告，为网络在线教育的改进提供依据，给教师们提供授课改善参考。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明提供的一种基于APSO-LSTM网络的教育大数据文本分析方法的流程图；

图2为本发明提供的一种APSO算法流程图；

图3为本发明提供的一种Skip-Gram的框图；

图4为本发明提供的一种Word2Vec词聚类关键词的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。应注意到，所描述的实施例实际上仅仅是本发明一部分实施例，而不是全部的实施例，且实际上仅是说明性的，决不作为对本发明及其应用或使用的任何限制。本申请的保护范围当视所附权利要求所界定者为准。

实施例1

结合图1所示，图1为本发明提供的一种基于APSO-LSTM网络的教育大数据文本分析方法的流程图。本实施例提供一种基于APSO-LSTM网络的教育大数据文本分析方法，包括步骤：

步骤S1：采集原始数据，形成数据集，数据集包括第一原始数据集和第二原始数据集；

步骤S2：预处理第一原始数据集，得到文本数据集；

步骤S3：利用Skip-Gram模型训练文本数据集，得到词向量集；

步骤S4：对词向量集标上情感标签，形成样本数据集，样本数据集包括训练集；

步骤S5：利用训练集训练APSO-LSTM网络模型，得到文本情感分析模型；

步骤S6：将第二原始数据集输入至文本情感分析模型后，将第二原始数据集中的原始数据的分类结果各自保存成文本文件；

步骤S7：利用Word2Vec模型训练文本文件得到正负情感倾向的关键词；

步骤S8：根据关键词生成情感分析报告。

其中，LSTM(Long Short-Term Memory)是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

可以理解的是，本发明提供的一种基于APSO-LSTM网络的教育大数据文本分析方法，基于APSO算法形成的LSTM模型，通过训练APSO-LSTM网络模型，得到文本情感分析模型，将第二原始数据集输入至文本情感分析模型后，将第二原始数据集中的原始数据的分类结果各自保存成文本文件；利用Word2Vec模型训练文本文件得到正负情感倾向的关键词；后续利用关键词分析学生的听课情况并生成情感分析报告，为网络在线教育的改进提供依据，给教师们提供授课改善参考。

实施例2

继续结合图1和图2所示，图2为本发明提供的一种APSO算法流程图，图3为本发明提供的一种Skip-Gram的框图，图4为本发明提供的一种Word2Vec词聚类关键词的流程图。

本实施例提供一种基于APSO-LSTM网络的教育大数据文本分析方法，包括步骤：

步骤S1：采集原始数据，形成数据集，数据集包括第一原始数据集和第二原始数据集。

在步骤S1中，数据集包括第一原始数据集和第二原始数据集，第一原始数据集和第二原始数据集为不同的数据集。利用第一原始数据集训练APSO-LSTM网络模型，得到文本情感分析模型后，将第二原始数据集代入文本情感分析模型，得到第二原始数据集中的数据的关键词，形成报告。

步骤S2：预处理第一原始数据集，得到文本数据集。

在步骤S2中，预处理包括标记化、停用词去除和数据清洗。其中，标记化，在这个过程中，句子被分成短语或符号、符号和单词；

停用词去除，使用NLTK(自然语言工具包)停用词列表从句子中删除诸如我、和、这、那等停用词；

数据清洗，在这个过程中，特殊字符如"'？！；:#$％&()*+/<>＝[]nˇ_{}|～从句子中删除；

步骤S3：利用Skip-Gram模型训练文本数据集，得到词向量集。

在步骤S3中，用Skip-Gram训练所述文本数据集，其中需要使用one-hot编码将单词表示为计算机可以读取的向量形式，得到词向量，进一步为：

继续结合图3所示，使用了Skip-Gram模型，因为它在提取语义词之间的关系时显示出更好的准确性，通过一个窗口逐一滑过语料库中的句子，中心词为“结束”的上下文语境词的概率表示，当窗口划向下一个词时，“这节”将变成中心词；

其中，one-hot编码是一种简单的用向量来表示单词的方法，该方法将每个单词表示为一个n维向量，其中n等同于词汇表中的词汇数量。在这向量中，单词所对应的位置元素是1，其他位置设为0。例如对“希望/快点/结束/这节/无聊/课程”进行编码表示。

步骤S4：对词向量集标上情感标签，形成样本数据集，样本数据集包括训练集。

在步骤S4中，对词向量集标上情感标签，情感标签包括，正向、中性、负向，形成样本数据集。

步骤S5：利用训练集训练APSO-LSTM网络模型，得到文本情感分析模型。

在步骤S5中，样本数据集还包括测试集；

利用训练集训练APSO-LSTM网络模型得到初始文本情感分析模型，将测试集输入至初始文本情感分析模型中，查看测试集的分类结果，分类结果超过阈值则完成训练形成文本情感分析模型，分类结果低于阈值则继续训练APSO-LSTM网络模型直至分类结果超过阈值，完成训练形成文本情感分析模型。其中，训练集中数据的数量与测试集中数据的数量的比例为8:2。但本发明不限于此，可以根据实际情况设置训练集中数据的数量与测试集中数据的数量的比例。使用测试集来验证初始文本情感分析模型的准确率，达到一定的标准，说明文本情感分析模型训练完成，否则增加训练集数据的大小或对参数进行调整。

进一步，使用APSO算法对文本情感分析模型的权重参数进行优化。使用OBL初始化LSTM网络的权重，即使用OBL初始化相反的解决方案，也即获取一个相反的权重。对于为神经网络选择的所有权重，将生成相反的权重。这个过程类似于遗传算法中的变异机制。要选择的权重的数量和选择它们的方式提供了各种各样的可检查的可行模式。使用该方法，选择最佳权重参数；利用

和X_kd(t+1)＝X_kd(t)+V_kd(t+1)更新速度和位置；其中，X_kd(t)为速度，V_kd(t)为第k个粒子的位置，d为维度空间，t为迭代，对于任何给定的粒子P速度，P_best为个人或局部最佳值，G_best为全局最佳值，c_1和c_2为加速度系数，r_1和r_2为[0，1]范围内的随机变量，w为惯性权重；利用

F(i)＝Min(Loss(i))对文本情感分析模型的权重参数进行优化；其中，H_t为LSTM网络实际的输出，T_t为LSTM网络期望的输出，N为从n个数据点的样本中生成的预测，F(i)为适应度值。

进一步，关于上述公式，其中X_kd(t)代表速度，V_kd(t)表示第k个粒子的位置。d表示维度空间，t是迭代。对于任何给定的粒子(P)速度。P_best代表个人或局部最佳值，G_best值代表全局最佳值。需要计算这两者的差异。首先计算(G_best-P)，然后计算(P_best-P)。c₁和c₂表示加速度系数。r₁和r₂表示[0，1]范围内的随机变量。w表示惯性权重。惯性权重用于搜索过程。惯性权重将减少，同时最大化迭代。以及H_t表示神经网络中实际的输出，其中T_t表示期望的输出，N是从n个数据点的样本中生成的预测。F(i)是表示适应度值，最优解是适应度值最小的解。

使用训练数据集对APSO-LSTM网络进行训练，其中包括使用APSO算法对权重参数进行优化，降低计算复杂度，提高LSTM的性能。

其中，结合图2所示，APSO算法包括初始化LSTM的候选方案或权重参数，使用OBL初始化相反的解决方案，使用公式

和X_kd(t+1)＝X_kd(t)+V_kd(t+1)更新速度和位置，根据等式

和条件F(i)＝Min(Loss(i))找到每个解决方案和相反解决方案的适配性，获得最佳解决方案或权重参数。

步骤S6：将第二原始数据集输入至文本情感分析模型后，将第二原始数据集中的原始数据的分类结果各自保存成文本文件。

在步骤S6中，获取第二原始数据，即获取未标注的数据集，对其进行预处理之后，使用所述训练好的文本情感分析模型对未标注的数据集集进行分类，将分类相同的结果汇总一起，即将第二原始数据集中的原始数据的分类结果各自保存成文本文件。

步骤S7：利用Word2Vec模型训练文本文件得到正负情感倾向的关键词。

在步骤S7中，包括步骤：对分类结果进行分词和词性标注的处理，保留具有正负情感倾向的单词，得到正负情感倾向的关键词。

具体为：利用基于Word2Vec词聚类关键词提取方法从分类结果中找到正负情感倾向文本的主要需求关键词，包括对分类结果中词的进行分词和词性标注的处理，只保留指定词性的单词，如名词、动词、形容词，即保留候选关键词。

通过K-Means算法对文本文件中的词进行聚类，选择聚类中心作为文本的一个主要关键词，计算其他词与聚类中心的距离即相似度，选择前五个距离聚类中心最近的词作为关键词，而这个词间相似度可用Word2Vec生成的向量计算得到。

进一步为：继续结合图4所示，包括步骤：

对文本文件进行Word2Vec模型训练，得到词向量文件；

对文本文件进行预处理获得N个候选关键词；

遍历候选关键词，从词向量文件中提取候选关键词的词向量表示；

对候选关键词进行K-Means聚类，得到各个类别的聚类中心；

计算各类别下，组内词语与聚类中心的距离(欧几里得距离或曼哈顿距离)，按聚类大小进行降序排序；

对候选关键词计算结果得到排名前5词语作为文本关键词。

具体的，基于Word2Vec词聚类关键词提取方法对APSO-LSTM模型分类出的带有正负情感标签的文档进行主题提取包括：

正向情感主题提取

将带有正向情感标记的文本使用Word2Vec词聚类关键词提取方法，输出结果如下表所示：

表1：正向情感主题提取结果数据表

	0	1	2	3	4	5
							主题	听懂	透彻	明白	谢谢	很好	清楚

负向情感主题提取

将带有负向情感标记的文本使用Word2Vec词聚类关键词提取方法，输出结果如下表所示：

表2：正向情感主题提取结果数据表

	0	1	2	3	4	5
							主题	不懂	难啊	费劲	无聊	傻了	救命

步骤S8：根据关键词生成情感分析报告。根据关键词分析学生的听课情况并生成情感分析报告，为网络在线教育的改善参考。

通过以上各实施例可知，本申请存在的有益效果是：

上面通过附图和实施例，对本发明的技术方案做虽然已经通过例子对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上例子仅是为了进行说明，而不是为了限制本发明的范围。尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。本发明的范围由所附权利要求来限定。

Claims

1.一种基于APSO-LSTM网络的教育大数据文本分析方法，其特征在于，包括步骤：

预处理所述第一原始数据集，得到文本数据集；

利用Skip-Gram模型训练所述文本数据集，得到词向量集；

根据所述关键词生成情感分析报告。

2.根据权利要求1所述的基于APSO-LSTM网络的教育大数据文本分析方法，其特征在于，所述样本数据集还包括测试集；

3.根据权利要求2所述的基于APSO-LSTM网络的教育大数据文本分析方法，其特征在于，所述训练集中数据的数量与所述测试集中数据的数量的比例为8:2。

4.根据权利要求1所述的基于APSO-LSTM网络的教育大数据文本分析方法，其特征在于，使用训练数据集对APSO-LSTM网络进行训练得到所述文本情感分析模型，包括步骤：

使用APSO算法所述对文本情感分析模型的权重参数进行优化。

5.根据权利要求4所述的基于APSO-LSTM网络的教育大数据文本分析方法，其特征在于，

APSO算法包括步骤：使用OBL初始化LSTM网络的权重；利用

和X_kd(t+1)＝X_kd(t)+V_kd(t+1)更新速度和位置；

利用

F(i)＝Min(Loss(i))对文本情感分析模型的权重参数进行优化；

6.根据权利要求1所述的基于APSO-LSTM网络的教育大数据文本分析方法，其特征在于，

利用Word2Vec模型训练所述文本文件得到正负情感倾向的关键词，包括步骤：

7.根据权利要求1所述的基于APSO-LSTM网络的教育大数据文本分析方法，其特征在于，所述预处理包括标记化、停用词去除和数据清洗。

8.根据权利要求1所述的基于APSO-LSTM网络的教育大数据文本分析方法，其特征在于，所述情感标签包括正向、中性和负向。