CN114328934B

CN114328934B - 一种基于注意力机制的多标签文本分类方法及系统

Info

Publication number: CN114328934B
Application number: CN202210055580.9A
Authority: CN
Inventors: 邓维斌; 王智莹; 高荣壕
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2024-05-28
Anticipated expiration: 2042-01-18
Also published as: CN114328934A

Abstract

本发明涉及一种基于注意力机制的多标签文本分类方法及系统，属于计算机领域。该方法首先使用GloVe预训练嵌入模型对文本进行初始化，获得文本嵌入，利用Bi‑LSTM和自注意力机制提取文本语义信息，然后利用图注意力网络(GAT)来捕获标签之间的依赖关系并且使用标签注意力机制获取文本和标签之间的语义关系，最后添加额外的CorNet模块，该模块能够学习标签相关性，使用相关性知识增强原始标签预测，并输出增强的标签预测，从而提高多标签分类的预测精度。

Description

一种基于注意力机制的多标签文本分类方法及系统

技术领域

本发明属于计算机领域，涉及一种基于注意力机制的多标签文本分类方法及系统。

背景技术

文本数据往往包含着丰富的信息，作为一种人们容易接受的数据形式，它在网络中占有举足轻重的地位。探讨如何对文本进行有效的组织、管理、过滤、筛选，并对文本信息进行高效、准确的获取，为人们提供高质量、智能化的信息服务，己成为当今信息科学技术领域的一个重大挑战。

文本分类是自然语言处理(Natural Language Processing，NLP)中重要且经典的问题。在传统的文本分类问题中，每个样本只有一个类别标签，并且各个类别标签之间相互独立，分类粒度比较粗略，称为单标签文本分类。随着文本信息日益丰富，分类粒度细化程度越来越高，一个样本与多个类别的标签相关，同时类别标签之间存在一定的依赖关系，称为多标签文本分类。比如一篇新闻可能被同时认为是与“体育”和“教育”相关的新闻。多标签学习方法可以直观地反映出多义性对象所具有的多种语义信息。多标签文本分类方法已经逐渐取代单一标签文本分类方法，成为自然语言处理领域的一个研究课题，许多学者对此进行了广泛而深入的探索和研究。

多标签文本分类方法主要分为两大类：传统机器学习方法和基于深度学习的方法。传统机器学习方法包括问题转换方法和算法自适应方法。基于深度学习的方法是利用各种神经网络模型来处理多标签文本分类问题，根据网络的结构将其分为基于卷积神经网络(Convolutional Neural Network，CNN)结构、基于循环神经网络(Recurrent NeuralNetwork，RNN)结构和基于Transformer结构的多标签文本分类方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于注意力机制的多标签文本分类方法及系统。

为达到上述目的，本发明提供如下技术方案：

一种基于注意力机制的多标签文本分类方法，所述方法包括以下步骤：

S1：获取文本数据集，构建文本的训练数据集合T并对数据集进行预处理；

S2：对文本进行初始化，获得文本嵌入；

S3：利用Bi-LSTM和多标签注意力机制提取文本语义信息；

S4：然后利用图注意力网络GAT来捕获标签之间的依赖关系并且使用标签注意力机制获取文本和标签之间的语义关系；

S5：添加额外的CorNet模块，该模块能够学习标签相关性，使用相关性知识增强原始标签预测，并输出增强的标签预测。

可选的，所述S1中，预处理包括提取文本内容，去除文本中的英文字符、表情和乱码，对文本进行分句；使用分词工具去除停用词；对数据集进行整理并划分为训练集、验证集和测试集。

可选的，所述S2具体为：利用Glove预训练嵌入模型对文本进行初始化，获得文本嵌入。

可选的，所述S3具体为：

S31：为捕获每个单词的前后上下文信息，采用Bi-LSTM语言模型来学习每个输入文档的单词嵌入，并计算每个单词的隐状态：

为获得文档的整体表示，将文档中每个单词的隐状态串联，得到：

S32：一个文档中的单词对每个标签的贡献不同，采用自注意力机制提取最相关的文本语义信息。

A^(s)＝softmax(W₂tanh(W₁H))。

可选的，所述S4具体为：

S41：构建标签的邻接矩阵，将标签的邻接矩阵和标签嵌入作为图注意力网络的输入，利用图注意力网络GAT来捕获标签之间的依赖关系。

S42：使用标签注意力机制获取文本和标签之间的语义关系。

可选的，所述S5具体为：

添加额外的CorNet模块，将原有的标签预测作为CorNet模块的输入，该模块能够学习标签相关性，使用相关性知识增强原始标签预测，并输出增强的标签预测。

y＝F(x)+x

x,y分别是CorNet模块的输入和输出，F(x)是映射函数，x表示原始标签预测，y表示经过CorNet模块的增强标签预测。

F(x)＝W₂δ(W₁σ(x)+b₁)+b₂

w1,w2是权重矩阵，b1,b2是偏置，σ和δ分别是sigmoid和ELU激活函数

基于所述方法的基于注意力机制的多标签文本分类系统，所述系统包括数据集构建与预处理模块、文本初始化模块、获取文本语义信息模块、获取标签间依赖关系模块和标签预测模块；

所述数据集构建与预处理模块与文本初始化模块信号连接；

所述文本初始化模块一端与获取文本语义信息模块信号连接，另一端与标签间依赖关系模块信号连接；

所述文本语义信息模块和标签间依赖关系模块与标签预测模块信号连接。

本发明的有益效果在于：该方法首先使用GloVe预训练嵌入模型对文本进行初始化，获得文本嵌入，利用Bi-LSTM和自注意力机制提取文本语义信息，然后利用图注意力网络(GAT)来捕获标签之间的依赖关系并且使用标签注意力机制获取文本和标签之间的语义关系，最后添加额外的CorNet模块，该模块能够学习标签相关性，使用相关性知识增强原始标签预测，并输出增强的标签预测，从而提高多标签分类的预测精度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的流程示意图；

图2为本发明模型结构示意图；

图3为本发明的结构框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图3，为一种基于注意力机制的多标签文本分类方法，所述方法包括以下步骤：

S2：对文本进行初始化，获得文本嵌入；

S3：利用Bi-LSTM和多标签注意力机制提取文本语义信息；

可选的，所述S3具体为：

A^(s)＝softmax(W₂tanh(W₁H))。

可选的，所述S4具体为：

S42：使用标签注意力机制获取文本和标签之间的语义关系。

可选的，所述S5具体为：

y＝F(x)+x

F(x)＝W₂δ(W₁σ(x)+b₁)+b₂

所述数据集构建与预处理模块与文本初始化模块信号连接；

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于注意力机制的多标签文本分类方法，其特征在于：所述方法包括以下步骤：

S2：对文本进行初始化，获得文本嵌入；

S3：利用Bi-LSTM和多标签注意力机制提取文本语义信息；

所述S3具体为：

S32：一个文档中的单词对每个标签的贡献不同，采用自注意力机制提取最相关的文本语义信息；

A^(s)＝softmax(W₂tanh(W₁H))

S5：添加额外的CorNet模块，该模块能够学习标签相关性，使用相关性知识增强原始标签预测，并输出增强的标签预测；

所述S5具体为：

添加额外的CorNet模块，将原有的标签预测作为CorNet模块的输入，该模块能够学习标签相关性，使用相关性知识增强原始标签预测，并输出增强的标签预测；

y＝F(x)+x

x和y分别是CorNet模块的输入和输出，F(x)是映射函数，x表示原始标签预测，y表示经过CorNet模块的增强标签预测；

F(x)＝W₂δ(W₁σ(x)+b₁)+b₂

W₁,W₂是权重矩阵，b₁,b₂是偏置，σ,δ分别是sigmoid和ELU激活函数。

2.根据权利要求1所述的一种基于注意力机制的多标签文本分类方法，其特征在于：所述S1中，预处理包括提取文本内容，去除文本中的英文字符、表情和乱码，对文本进行分句；使用分词工具去除停用词；对数据集进行整理并划分为训练集、验证集和测试集。

3.根据权利要求1所述的一种基于注意力机制的多标签文本分类方法，其特征在于：所述S2具体为：利用Glove预训练嵌入模型对文本进行初始化，获得文本嵌入。

4.根据权利要求书1所述的一种基于注意力机制的多标签文本分类方法，其特征在于：所述S4具体为：

S41：构建标签的邻接矩阵，将标签的邻接矩阵和标签嵌入作为图注意力网络的输入，利用图注意力网络GAT来捕获标签之间的依赖关系；

S42：使用标签注意力机制获取文本和标签之间的语义关系。

5.基于权利要求1～4中任一项所述方法的基于注意力机制的多标签文本分类系统，其特征在于：所述系统包括数据集构建与预处理模块、文本初始化模块、获取文本语义信息模块、获取标签间依赖关系模块和标签预测模块；

所述数据集构建与预处理模块与文本初始化模块信号连接；