CN111259147A

CN111259147A - 基于自适应注意力机制的句子级情感预测方法及系统

Info

Publication number: CN111259147A
Application number: CN202010059024.XA
Authority: CN
Inventors: 周风余; 刘美珍; 贺家凯; 孙鸿昌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-09
Anticipated expiration: 2040-01-19
Also published as: CN111259147B

Abstract

本发明公开了一种基于自适应注意力机制的句子级情感预测方法及系统，包括：利用双向LSTM网络提取每个句子的前序特征信息和后序特征信息，将上下文特征信息整合到每个句子中，然后借用自注意机制，用不同的权重表示其他句子对目标句子的影响，其目的是给与情感极性关联度高的句子赋予较大的权重值，而对与情感极性不相关的句子赋予较小的权重值。本发明能有效的获得句子的特征表达，并具有较高的分类精度高，且算法的运行效率高，具有较强的实用性和有效性。

Description

基于自适应注意力机制的句子级情感预测方法及系统

技术领域

本发明涉及人工智能文本挖掘技术领域，尤其涉及一种基于自适应注意力机制的句子级情感预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着电子信息时代的发展，情感分类作为一门热门的研究课题，被广泛应用于电子商务系统和意见调查中的有用信息的提取，大大提高了情感分析的准确性。由于情感分类可以获得大量有价值的信息，如进行知识图谱中的知识发现和推理，以及电子商务中的服务推荐等，因此情感分类在自然语言处理领域得到了广泛的应用。然而，基于文本的情感分类却存在很多问题，比如文本较长时，信息挖掘的能力减弱造成文本信息缺失；或在分析文本时，无法结合上下文信息挖掘文本间的相互依赖关系。

基于此，一方面，研究学者致力于利用长-短期记忆网络(Long Short TermMemory,LSTM)来解决长期依赖性问题，然而，这种记忆通常以整句或几个关键词作为输入，从而忽略了文本语义连接，导致重要信息的丢失。另一方面，LSTM也受到文本序列信息传播的限制，单向的信息传播无法充分挖掘上下文之间的依赖关系。例如，“正是我所期望的。我对这台电脑没有任何抱怨”，前一个标签是肯定的，后一个也是肯定的，但事实上，当采用传统的LSTM来预测情感标签时，后者是中立的，因为传统的LSTM只是把它当作独立的句子来处理，没有考虑句子之间的相关性，则无法得到结合整个文本信息的句子特征表达。

近年来，深度学习在情感分类方面取得了很大的进展，研究者通常利用word2vec的两个模型CBOW(Continuous bag-of-words)和Skip gram或GloVe(Global Vectors forWord Representation)向量进行词嵌入表达以抽取文本情感特征，对全文、多个句子或单词进行有代表性的矢量表示。

句子级情感分类是将上下文信息整合起来，对文本中的句子进行情感预测，在处理电子商务中的观点调查、服务推荐等情感分析任务中，已经得到了广泛的应用。最近的研究利用长-短期记忆(LSTM)网络进行句子级情感分类。然而，由于序列信息传播的长期依赖性和丢失性，极大地限制了特征提取的有效性，且不能有效的提取句子之间对情感极性的影响较大的特征，从而忽略了情感语境的交互作用，导致重要信息的丢失。

发明内容

本发明目的是为了解决现有技术的不足，提出了一种基于自适应注意力机制的句子级情感预测方法及系统，其在采用双向LSTM网络进行句子的特征向量的提取，同时针对同一个评论文本中不同句子之间的影响设计了自适应注意力机制以获取不同句子对中心句子的情感影响值，从而更加准确的获取句子的语义信息；进一步针对情感分类，设计了改进SVM分类器，结合结构风险最小值与Fisher原则设计了分类器的分类决策函数，以提高句子情感极性的分类精度。

在一些实施方式中，采用如下技术方案：

一种基于自适应注意力机制的句子级情感预测方法，包括：

对带预测文本的句子组成进行分词、去停处理；

对句子的单词嵌入表达进行特征提取，得到每个句子的特征表达；

抽取同一序列文本的前向及后向的信息传递，得到融合文本序列信息的句子特征表达；

基于每个句子的查询向量与所有一致向量之间的相关性，确定目标句子特征向量与其他句子特征向量间相关性的权重，获得融合其他句子情感影响的句子特征表达；

基于得到的句子特征进行情感极性预测。

在另一些实施方式中，采用如下技术方案：

一种自适应支持向量机分类器，包括：

采用结构风险最小化原则和Fisher分类器的优化原则设计自适应支持向量机分类器的分类决策函数，具体为：

其中，

是句子表示

的情感标签；

的取值为(+1，-1)，

时表示情感极性为积极，-1即为其他情感极性，包括消极情感和中性情感；

是核函数，

为支持向量的常数系数；b^*是偏差。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的基于自适应注意力机制的句子级情感预测方法。

与现有技术相比，本发明的有益效果是：

(1)本发明针对现有的句子级情感分析的方法不能有效的提取句子间的情感关系以及LSTM网络具有文本长距离依赖的限制，提出了一种基于双向LSTM网络的自注意力机制特征提取方法，有效的获得融合了句子间情感关系的句子级特征表达。

(2)本发明结合了风险最小化原则与Fisher原则设计了自适应支持向量机分类器的决策函数，从而能平衡分类样本中的类间距离和类内距离，以自适应性地调整以进行样本分类，极大程度上提高了该分类算法的分类精度。

(3)本发明所提出的一种基于句子级的情感预测方法，其能有效的获得句子的特征表达，并具有较高的分类精度高，且算法的运行效率高，具有较强的实用性和有效性。

附图说明

图1为本发明实施例提供的LSTM网络单元的结构框图；

图2为本发明实施例提供的句子级自适应注意力机制的情感预测的流程图；

图3为本发明实施例提供的自注意力机制层的结构框图；

图4为本发明实施例提供的句子级自适应注意力机制的情感预测模型的结构图；

图5为本发明实施例提供的三种分类器在SemEval2015饭店数据集上的测试均方差对比曲线；

图6为本发明实施例提供的三种分类器在SemEval2015电脑数据集上的测试均方差对比曲线；

图7为本发明实施例提供的三种分类器在SemEval2016饭店数据集上的测试均方差对比曲线；

图8为本发明实施例提供的三种分类器在SemEval2016电脑数据集上的测试均方差对比曲线；

图9为本发明实施例提供的三种分类器在SemEval2015数据集上的测试精度对比箱型图；

图10为本发明实施例提供的三种分类器在SemEval2016数据集上的测试精度对比箱型图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

在一个或多个实施方式中，公开了一种基于自适应注意力机制的句子级情感预测方法，包括：

基于双向LSTM网络和自注意机制的特征提取架构，旨在解决特征提取过程中整个文本中每个句子对目标句子的情感影响权重的分配问题，在一定程度上也可以解决长距离文本依赖的问题，得到结合了整个文本句子情感影响的句子特征表达。

具体地说，利用双向LSTM网络提取每个句子的前序特征信息和后序特征信息，将上下文特征信息整合到每个句子中，然后借用自注意机制，用不同的权重表示其他句子对目标句子的影响，其目的是给与情感极性关联度高的句子赋予较大的权重值，而对与情感极性不相关的句子赋予较小的权重值。

更具体地说，包括如下过程：

对一段评论文本的句子组成进行分词、去停；

借助单向的LSTM网络对句子的单词嵌入表达进行特征提取，以得到每个句子的特征表达；

以上述获得的每个句子的特征向量表达，并利用双向的LSTM网络处理每个句子的特征向量，以抽取同一序列文本的前向及后向的信息传递，以得到融合了文本序列信息的句子特征表达；

进一步设计了自适应注意力机制，在进行注意力设计过程中，通过计算文本中每个句子的一致向量，并借助双曲正切函数(tanh函数)将句子对应的一致向量投影到(-1，+1)之间；并计算每个句子的查询向量，且将上述得到的映射值分别与查询向量相乘，以获得前者对后者的情感影响值，从而借用softmax函数计算文本中其他句子对该查询句子的情感权值分布，已获得最终融合了其他句子情感影响的句子特征表达。

图1为本实施例提供了句子级自适应注意力机制的情感预测的流程图，首先通过词嵌入获得句子的特征表达；然后经过双向LSTM网络，提取融合了上下文特征信息的句子特征表达；其次引入自注意机制来关注目标句子和文本中其他句子之间的关系以便更好地理解句子的更多语义信息；最后设计了自适应支持向量机分类器以提高句子级情感极性的分类精度。

如图1所示，本实施例句子级自适应注意力机制的情感预测方法，包括：

Step1:在自然语言处理领域，由于one-hot向量表示方法存在维数灾难和语义缺失的不足，而词嵌入法能获取更多语义和语法信息，因此通常采用分布式的词嵌入表示方法，Glove模型是训练句子向量的一种很好的选择。则假设样本集的大小为L，即样本中具有L个文本，且l-th的文本中包括了M个句子，则M个句子可表达为：

其中，

为第l个文本中，第m个句子。

且假设第m-th个句子，具有N个单词，则m-th个句子可表达为：

进一步经过LSTM网络单元可得到每个句子

的词嵌入表达

其中

表示在第m-th个句子中第n个单词的特征表达。

根据图2所示的LSTM网络单元的结构框图，对文本中每个句子的单词

进行特征抽取。由图2所示，假设f_t i_t o_t c_t分别表示t时刻时的遗忘门、输入门、输出门、存储单元的矢量值。其中x_t表示LSTM网络单元接收到的输入向量；h_t-1表示t-1时刻LSTM网络单元隐藏层的输出向量，另外⊙是点积的含义，具体地可由下述公式得到：

其中，σ是sigmoid回归函数；x_t是t时刻网络的输入向量，设其维数为d；h_t表示，第t时刻隐含层的输出，其维数为h；b_f,b_i,b_o,b_c表示每种门机制对应的偏差，其维数为p；W_f W_iW_o W_c分别表示遗忘门、输入门、输出门和存储单元的权重矩阵。同时，W_f,W_i,W_o,W_c∈R_p×d且U_f,U_i,U_o,U_c∈R_p×h；⊙表示点积运算。

Step2:将上述LSTM网络单元的隐含层获得的句子表征输入到双向LSTM网络中，以提取文本中的前序传递信息和后序传递信息，其中

表示同一个文本中的M个句子的前序传递时的句子特征表达，

表示同一个文本中的M个句子的后序传递时的句子特征表达，则经过双向LSTM网络后，句子的特征表达为：

其中，

表示第l-th个文本在t,(t＝1,2,…,M)时刻，句子特征表达；r_f以及r_b分别为常系数。

Step3:在自注意机制中，引入了查询矩阵W^Q和一致矩阵W^U两个矩阵，且W^U，

这两个矩阵都被赋予特定的不同权重值来计算每个句子的一致向量和查询向量，每个权重值表示整个文本中其他不同句子对目标句子的情感影响的重要性。首先，我们将评论文本中的每一个句子向量按行连接，则每一个句子特征表达即

可以组成为

则可由如下公式得到每个句子特征表达的一致向量，

U_M×w＝tanh(O^l×W^U+B_M×w) (5)

其中，B_M×w为偏差矩阵。U_M×w每一行都是每个句子的统一向量表征(u₁,u₂,…,u_M)^T。

其次，每个句子的查询向量可由下式计算得到：

Q_M×w＝O^l×W^Q (6)

其中，Q_M×w为每个句子的查询向量的组合，即(q₁,q₂,…,q_M)^T。

Step4:为了保证能有效地抽取目标句子的语义和情感信息，需进一步计算出每个句子的查询向量与所有一致向量之间的相关性，则引入得分函数，其公式可表达为：

score_ij＝q_i⊙u_j+b_i (7)

其中，i,j＝(1,2,3,…,M)，b_i表示修正参数。

因此目标句子的特征向量与其他句子特征向量间相关性的权重可以表述如下：

其中，α_ij表示第j个句子对第i个句子的情感影响值。

Step5:为得到每个句子对目标句子的语义和情感信息的影响的重要性，利用自注意机制可得到目标句子的最终表达：

通常，使用Softmax函数预测文本中目标句子的情感极性，因此可以通过以下公式得到预测概率：

其中，

为三维向量，每个维度都表示不同的情绪，包括积极情绪、中立情绪和消极情绪。W和b表示预测层的权重和偏差。

此外，我们使用Softmax函数计算评论文本中每个句子中属于不同情感极性(积极、中、消极)的不同句子情感标签的概率，公式如下：

其中，

为句子特征表达

属于三种情感极性概率。

最后，利用交叉熵函数来评估预测性能，如下式所示：

实施例二

本实施例中，由于支持向量机在小样本、高维空间上具有较高的分类精度，因此采用结构风险最小化原则和Fisher分类器的优化原则来设计自适应支持向量机分类器的分类决策函数，最终代替SoftMax函数进行情感极性预测。因此根据文本中的句子特征表示和每个句子的情感标签，使用上文设计的自适应支持向量机分类器来训练情感极性分类器。具体而言，支持向量机服从结构风险最小化的规则，因此融合Fisher规则来设计分类决策函数，其能平衡聚类距离和簇间距离，从而达到更好的分类性能。由于支持向量机是二分类器，因此需训练三种分类器以进行积极、中性、消极情感分类。

聚集数据集中的所有句子，并组成一个句子数据集，句子的数量为N。支持向量机服从结构风险最小化的规则，因此融合Fisher规则来设计分类决策函数，其在类间散度和类内散度的平衡中受益，从而达到更好的分类性能，则分类决策函数可以表示为：

其中，

是句子表示

的情感标签；

的取值为(+1，-1)，

是核函数，选择高斯函数作为核函数；

为支持向量的常数系数；b^*是偏差。

在结构风险最小化规则的基础上，引入fisher规则构造分类器的最优函数，公式定义为：

其中，

和||w||²是L₂正则化；λ是常数；C是惩罚参数；ξ_i≥0是弹性变量。S_w为正样本和负样本的类内散度；S_b是正样本和负样本的类间散度。

根据公式，我们可以得到：

S_b＝(μ¹-μ⁰)·(μ¹-μ⁰)^T (16)

其中，T⁰为自适应支持向量机分类器的消极样本；T¹为除消极样本之外的其他样本。μ⁰是消极样本向量集T⁰的平均向量；μ¹为其样本向量集的平均向量。k₀是样本T⁰的大小；k₁是样本T¹的大小。

因此，句子级自适应注意力机制的情感预测模型的结构图如图4所示。说明可以利用双向LSTM提取句子的上下文信息，然后利用自注意机制计算文本中每个句子与其他句子的关系，从而获得更多的句子语义和情感信息；最后应用自适应支持向量机分类器对句子的情感信息进行分类。

为验证本实施例提供的方法的正确性，本实施例基于在16GB内存的Intel(R)Core(TM)I5-8400cpu 2.80GHz和8GB图形内存的NVIDIA GeForce GTX1080平台上，分别针对SemEval2015和SemEval2016的数据集上进行了对比实验，验证了本实施例提出的句子级自注意力机制情感预测方法的有效性。

选取SemEval-2015任务12和SemEval-2016任务4作为实验数据集，主要包括餐厅和笔记本电脑领域，其语言为英语。这两个数据集都由大量的用户评论组成，每个评论包含几个句子，每个句子可能有一个或多个情感标签。如果正标签的数量大于负标签，那么句子应该标记为正标签，负标签也应该标记为正标签，如果正标签的数量等于负标签，那么句子应该标记为中性标签。

为说明本发明设计的基于句子级情感分类模型的有效性，设计对比实验，该对比的模型差别在于第二阶段的情感分类模型上，分别采用Softmax预测函数、传统SVM分类器以及本说明提出的自改进SVM(ASVM)分类器进行情感预测分类，则三种对比模型分别为SA-BiLSTM、SA-BiLSTM-SVM、SA-BiLSTM-ASVM。

一方面，采用精确性、召回率和F评分对3种情感分类模型的情感分类结果进行评价和比较。准确度是指所有预测正样本中实际正样本的概率，能够反映出对正样本的预测能力；召回率是指在实际正样本中被预测为正样本的概率。一般来说，精确性和召回率不能同时提高，因此为了提高精确性，召回率会有所下降。因此通常采用F分数来评价分类性能，即通过使用精确性和召回率的加权平均来实现的。

另一方面，准确性(Accuracy,Acc)和均方误差(Mean Square Error,MSE)是评价各种方法在情感数据集上性能的较好选择。准确率是指正确分类的百分比，MSE可以测量平均误差，MSE越小，说明情感分类的结果具有更好的性能。最后，使用两个评估准则来评估本发明提出的模型。

表1

表2

表3

表1表示为在SemEval2015上关于饭店和电脑数据集上，训练过程的精度值、召回率以及F分数的结果。

表2表示为在SemEval2016上关于饭店和电脑数据集上，训练过程的精度值、召回率以及F分数的结果。

表3表示基于SemEval2015和SemEval2016上关于饭店和电脑测试集上，关于三种模型实验后的均方差和精度的对比结果，从上述对比曲线图上以及结果表可看出，本实施例关于句子级自注意力机制情感预测方法具有较高的预测精度。

图5和图6分别为SemEval2015和SemEval2016的数据集上关于饭店评论的测试集上的均方差误差。

图7和图8分别为SemEval2015和SemEval2016的数据集上关于电脑评论的测试集上的均方差误差。

图9和图10分别为SemEval2015和SemEval2016的数据集上关于饭店和电脑测试集上的精度分布。

通过图5～8的MSE变化曲线的分析，可以得出SA-BiLSTM-ASVM方法的MSE值比SA-BiLSTM和SA-BiLSTM-SVM方法的MSE值最低，这表明无论在SemEval2015和SemEval2016的数据集中，采用改进支持向量机(ASVM)都具有较好的分类性能。除此之外，经过20个叠词轮次的训练，上述四个数据集的均方误差也呈现稳定趋势，说明本文提出的情感分类方法具有较好的鲁棒性。

在图9和10中，可知，使用SA-BiLSTM和SA-BiLSTM-SVM的测试精度分布通常很接近，并且具有几乎相同的精度分布比例，而这两种精度分布的区别仅仅在于使用SA-BiLSTM-ASVM的上五分位数精度分布高于SA-BiLSTM-SVM，因此SA-BiLSTM-ASVM的平均精度也高于SA-BiLSTM，这进一步证明了SA-BiLSTM-ASVM具有更好的性能。

综上所述，实验结果表明，本发明提出的方法适用于句子层次的情感极性分类，该算法能够考虑文档句子之间的关系，充分挖掘语义信息，从而提高句子表达的有效性和情感分类的准确性。

(1)本实施例考虑了目标句子的上下文信息，引入自注意机制提取出文本中每个句子的情感加权特征，融合了其他句子在双向LSTM网络的隐藏层的特征表达对目标句子的影响，使每个目标句子都具有上下文的语义信息。

(2)本实施例结合了Fisher原则设计决策函数，通过在4个数据集上训练自适应支持向量机分类器以实现情感分类，从而提高了情感分类精度。

实施例三

在一个或多个实施方式中，公开了一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行实施例一或者实施例二所述的基于自适应注意力机制的句子级情感预测方法。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。