CN110032646A - 基于多源领域适应联合学习的跨领域文本情感分类方法 - Google Patents
基于多源领域适应联合学习的跨领域文本情感分类方法 Download PDFInfo
- Publication number
- CN110032646A CN110032646A CN201910380979.2A CN201910380979A CN110032646A CN 110032646 A CN110032646 A CN 110032646A CN 201910380979 A CN201910380979 A CN 201910380979A CN 110032646 A CN110032646 A CN 110032646A
- Authority
- CN
- China
- Prior art keywords
- task
- domain
- source
- target
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 230000008451 emotion Effects 0.000 claims abstract description 85
- 238000012549 training Methods 0.000 claims abstract description 69
- 230000006870 function Effects 0.000 claims abstract description 44
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000013508 migration Methods 0.000 claims abstract description 23
- 230000005012 migration Effects 0.000 claims abstract description 23
- 238000009826 distribution Methods 0.000 claims abstract description 19
- 230000002996 emotional effect Effects 0.000 claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 230000006978 adaptation Effects 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 62
- 230000003044 adaptive effect Effects 0.000 claims description 45
- 239000013598 vector Substances 0.000 claims description 30
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000002598 diffusion tensor imaging Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 2
- 230000000295 complement effect Effects 0.000 abstract 1
- 238000012797 qualification Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 5
- 238000013526 transfer learning Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010206 sensitivity analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明针对跨领域文本情感分类任务提出了一种多源领域适应联合学习方法与系统。此框架可以同时学习和训练多个领域的神经网络,可以从不同方面引入更丰富的监督信息。多个领域的任务可以相互补充,从而更容易得到更一般化的表示模型。特别地,本发明设计的联合训练的损失函数包括四个部分:情感分类损失、参数迁移损失、领域融合损失和防止过拟合的正则项。情感分类损失包含了源领域任务和目标领域任务上的情感分类损失,软参数迁移的方法可以有效地迁移源领域的情感知识到目标领域中,而深度领域融合可以保证在学习过程中不同领域的边际分布尽可能地相似。因此多源领域适应联合学习神经网络能够在有限的数据条件下实现更好的特征表示和泛化能力。我们在中文和英文的多领域数据集上验证了提出的多源领域适应联合学习框架,实验结果表明本发明提出的方法在跨领域文本情感分类准确率上有很大提升。
Description
技术领域
本发明涉及自然语言处理文本情感分析领域,提出了一种基于多源领域适应联合学习的跨领域文本情感分类方法。
背景技术
跨领域情感分类(Cross-domain sentiment classification)被定义为通过迁移源领域任务的情感信息到目标领域,利用相关的源领域带标签的数据学习一个精确的情感分类器,实现对目标领域不带标签数据的情感极性分类任务。跨领域文本情感分类作为自然语言处理任务中的重要分支,一直是产业界和学术界的研究热点和难点。根据可用的源领域的个数,可以分为单源领域和多源领域的跨领域情感分类。多源领域优势在于可以利用多个源领域的信息训练更鲁棒的模型,难点在于如何选择合适的源领域和如何融合多个多领域的情感信息。
大部分多源跨领域情感分类研究主要专注于目标领域数据样本稀缺问题和如何利用多个源领域数据,多采用基于实例迁移或者模型迁移的方法。从模型迁移的角度看,Tan等人定义了多视角和多源领域的迁移学习,提出了一种新的“协同利用不同视角和源领域的知识算法” (Statistical Analysis and Data Mining:The ASA Data ScienceJournal,2014,第7卷第4期),通过不同源领域互相协同训练的方法,可以弥补不同领域之间的分布差异。Ge等人提出了一种“快速的、可扩展的在线多领域迁移学习框架”(Proceedings of the ACM International Conference on Information and KnowledgeManagement,2013),此框架在凸优化的基础上,在目标领域的信息指导下从多个源领域中迁移知识。Wu等人在从不带标签的目标领域数据中词的情感极性关系的帮助下,提出了一种“基于情感图的领域相似性度量方法”(Proceedings of the Annual Meeting of theAssociation for Computational Linguistics,2016),相似的领域通常会共享共同的情感词和情感词对,目标领域和不同的源领域的相似性也被合并到适应性过程中。Yoshida等人提出了一种“新的贝叶斯概率模型处理多个源领域和多个目标领域的情况”(Proceedings of the AAAI Conference on Artificial Intelligence,2011),在此模型中,每个词有三个要素,分别是领域标签、领域独立/非独立、词的极性。
在已公布的迁移学习发明方面,主要的成果有:代明军等人提出一种“基于深度混合模型迁移学习的评论情感分类方法及系统”(2018年11月20日公布,公布号为CN109271522A 的中国发明专利申请),对商品评论的源领域数据样本集进行深度混合模型预训练,对目标领域样本集上进行微调。龙明盛等人提出一种“一种领域适应性网络的深度迁移学习方法”(2018 年4月24日公布,公布号为CN107958286A的中国发明专利申请),通过根据每一任务相关层对应的分布差异,分类错误率和错配度,确定领域适应性网络的损失函数的值。肖仰华等人提出“一种基于领域适应的自然语言处理任务的迁移学习系统和方法”(2018年2月2日公布,公布号为CN107657313A的中国发明专利申请),开放了领域部分模块和特定领域部分模块。传统跨领域情感分类任务实现的是单个源领域到目标领域的情感迁移,而在现实条件下,往往存在多个源领域的数据辅助目标领域的情感分类任务。传统的领域分布度量方法往往只考虑了领域差异,没有考虑领域内的类间和类内的分布。而且已有的硬参数迁移方法,忽略了领域特定的特征,有很强的限制条件。与已公布的发明明显不同,本发明利用双向门循环单元(Bidirectional gate recurrent unit,BiGRU)和卷积神经网络(Convolutional neural networks,ConvNets)进行深度特征提取,采用软参数迁移的方法进行领域参数共享。在考虑情感分类损失的同时,还考虑了领域融合损失。改进了传统的最大均值差异领域分布度量方法,引入了同一个领域内不同类的差异度和类内的紧致程度。采用软参数迁移的方法共享不同领域之间的参数,在异质空间任务上有更好的泛化性和适应性,较已公布的发明方法有较强的创新性。
已有的研究表明,额外领域的信息有助于共享的隐层学到更好的内部表示。我们假设不同领域的情感分类任务是相似相关的,而且不同领域的情感学习任务可以共享特征表示。针对多源跨领域情感分类任务,本发明提出了一种多源领域适应联合学习框架并应用到多源跨领域情感分类任务中。在此框架中,我们使用目标领域任务作为主任务,多个源领域任务作为辅助任务。在构建领域特定的模型时,使用双向门循环单元模型与卷积神经网络模型结合,提取有效的情感特征。构建了包含情感分类损失、参数共享损失、领域融合损失和正则项在内的联合损失函数,设计了多源领域适应联合学习训练算法,联合训练多个源领域和目标领域的带标签数据。
领域适应(Domain adaptation)是从一个或者多个源领域中获取知识和经验,适应到与源领域分布不同的目标领域的过程。领域适应机制是解决跨领域情感分类任务的重要方法。多源领域适应(Multi-source domain adaptation)方法在解决跨领域情感分类任务时需要解决以下两点问题:(1)如何共享不同领域间的情感知识表示?传统的知识表示和迁移策略往往是浅层的,不能共享不同领域的深层特征表示。而已有的硬参数迁移(Hardparameter sharing) 方法,忽略了特定领域的特征,有很强的限制条件。(2)如何融合多个源领域的知识到目标领域学习算法中?已有的领域适应方法往往只关注于单个源领域到目标领域,样本规模普遍较小。多个源领域之间的知识往往存在共性和交叉,有效利用和融合多个领域的情感知识可以提高目标领域分类的泛化性。
度量不同领域距离的一种比较流行的方法是最大均值差异(Maximum meandiscrepancies, MMD)方法及其变体方法。最大均值差异(MMD)是Borgwardt等人提出的一种“边际分布自适应方法”(Bioinformatics,2006,第22卷第14期)。MMD将源领域和目标领域的分布映射到再生希尔伯特空间中,目标是减少源领域和目标领域的边际分布距离。Duan等人提出了使用多核MMD方法和一种新的求解策略,提出了“领域迁移多核学习方法”(IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,第34卷第3期)。Tzeng等人将MMD度量加入到深度神经网络特征层中,并将度量损失加入到模型损失函数中(ArXiv PreprintArXiv:14123474v1,2014)。在本发明中,我们针对跨领域情感分类任务对MMD度量进行了改进。不仅考虑了不同领域映射后的边际分布距离,还考虑了同一个领域中的不同类的差异应该尽可能地大,同一类中的样本到类中心的距离应尽可能地小,并根据此原则设计了深度领域融合损失函数。
发明内容
本发明旨在多个源领域和目标领域数据有限的条件下,实现更好得情感迁移,提升泛化能力,实现多个源领域条件下的跨领域情感分类目标。
为达到上述目的,针对多源跨领域文本情感分类任务,本发明有效利用和融合多个领域的情感知识,提出了一种基于多源领域适应联合学习的跨领域文本情感分类方法,包括以下步骤:
S1,多源领域适应联合学习(Multi-source domain adaptation withjointlearning):我们迁移多个源领域任务TaskSk(1≤k≤K)的情感知识,并利用少量的目标领域带标签数据同时学习TaskSk和TaskT,得到假设目标是最小化经验损失提高目标领域任务上的分类效果;
S2,构建特定领域的BiGRU-ConvNets深度特征提取模型,使用在大量的无监督语料上得到的预训练词向量作为模型的输入。同时,词向量在针对特定的任务时可以微调;
S3,为了预训练BiGRU-ConvNets底层参数,使用源领域和目标领域的数据执行编码- 解码操作初始化BiGRU网络的参数,编码解码的操作流程为x→C→h;
S4,考虑到不同领域的情感分布的差异性,通过最小化参数迁移过程中的损失Lshare实现情感知识的迁移,目标是迁移多个源领域的知识到目标领域的特征表示中;
S5,在源领域任务和目标领域任务上的整体情感损失为
S6,源领域的特征表示记为目标领域TaskT的特征表示记为RT,我们希望经过核希尔伯特空间映射后源领域和目标领域的分布尽可能地相似,即
S7,定义联合损失函数L=Lsen+λLshare+ηLdomain+σReg,优化学习的目标函数是和参数集更新策略;
S8,对于每个源任务和目标任务,我们对每个组合对进行交替训练。通过以这种方式训练网络,可以提高每个任务的性能,而无需找到更多领域特定的训练数据。使用随机梯度下降法训练参数,使用迭代的方法获得最佳参数集θopt。
根据本发明实施例提出的基于多源领域适应联合学习的多源跨领域文本情感分类方法。在此框架中,我们使用目标领域任务作为主任务,多个源领域任务作为辅助任务。在构建领域特定的模型时,使用双向门循环单元模型与卷积神经网络模型结合,提取有效的情感特征。构建了包含情感分类损失、参数共享损失、领域融合损失和正则项在内的联合损失函数,设计了多源领域适应联合学习训练算法,联合训练多个源领域和目标领域的带标签数据。
根据本发明的一个实施例,所述步骤S1包括:
S11,在多源领域适应联合学习中,有三点值得注意,分别是:数据的表示、学习算法和共享的机制;
S12,在数据表示上,我们使用在大量语料上得到的词的分布式表示输入到BiGRU-ConvNets模型中,每个词被表示为低维连续的实值向量;
S13,在联合学习算法上,我们使用源领域任务和目标领域任务的组合对交替训练神经网络;
S14,在领域共享机制上,我们采用软参数共享的方法分层地抽取和迁移神经网络的参数。此方法既考虑了不同任务的共享结构,又考虑了领域的特定特征。
根据本发明的一个实施例,步骤S2还包括:
S21,在此模型中,输入为文本的词序列x={x1,x2,…xn},其中wi∈Rd为第i-th个词的嵌入式表示,d为词向量的维度;
S22,门循环单元(GRU)是一种LSTM的轻量变体,训练速度要快于LSTM。一个门循环单元细胞包含更新门zt,重置门rt,候选门和输出ht;
S23,BiGRU包含正向和反向两个隐层,两个方向的结果联合到最终的输出;
S24,BiGRU的输出序列h={h1,h2,…hn}作为卷积神经网络的输入。在ConvNets网络中,输入层BiGRU生成的特征向量自顶向下排列生成的矩阵W∈Rn×d。在卷积层中,卷积的窗口大小为N元语法,诸如一元语法、二元语法、三元语法等。wi∶i+m-1代表m个词,即wi, wi+1,和wi+m-1;
S25,新的特征gi由wi∶i+m-1生成,gi=ReLU(eT·wi∶i+m-1+b)。其中,ReLU为线性单元激活函数,e∈Rm×d为卷积核,b∈R为偏置项。可以得到卷积矩阵g=[g1,g2…gn-h+1];
S26,在Pooling层,我们使用Max-over-Pooling的方法对卷积层得到的特征映射抽取最大值。Pooling层输出为每个特征映射的最大值,即最终l个卷积核得到的特征向量为这不仅抽取出了句子中重要的情感信息,还保持了顺序信息;
S27,在情感分类阶段,在Pooling层后,输出的特征向量z通过全连接的方式被连接 Softmax层。
其中y为情感标签,w为全连接层的参数,为偏置项。我们在Softmax层引入Dropout机制减少过拟合。
根据本发明的一个实施例,步骤S3还包括:
S31,为了预训练BiGRU-ConvNets底层参数,我们使用源领域和目标领域的数据执行编码一解码操作初始化BiGRU网络的参数。编码通过BiGRU的非线性变换输入序列x={w1,w2…wn}到语义表示C,解码操作的输出为h={h1,h2…hn}。编码解码的操作流程为x→ C→h;
S32,目标是最小化重构损失为
在预训练BiGRU网络后,通过目标领域任务TaskT和其他源领域任务TaskSk的带标签数据实现训练整个神经网络的参数。
根据本发明的一个实施例,步骤S4还包括:
S41,我们定义软参数共享的损失为
其中WT(BiGRU)和WT(ConvNets)分别是在目标任务TaskT中BiGRU和ConvNets网络的参数,WSk(BiGRU)和WSk(ConvNets)分别是在第k-th个源任务TaskSk中BiGRU和 ConvNets网络的参数,为目标任务Softmax层的参数,是第k-th个源任务Softmax 层的参数;
S42,最小化损失项Lshare可以减少不同领域的模型参数的差异。通过软参数共享,我们不仅能得到源领域的情感表示,还可以通过微调和联合训练得到目标领域任务的共享表示;
根据本发明的一个实施例,步骤S5还包括:
S51,我们使用交叉熵损失函数作为损失函数。在源领域任务TaskSk上的损失函数为
其中,n为源领域的样本数,CSk为源领域的标签数,是真实标签,为预测标签;
S52,在目标领域任务TaskT上的损失函数为
其中,N为目标领域的样本数,CT为目标领域的标签数,是真实标签,为预测标签;
S53,在源领域任务和目标领域任务上的整体情感损失为
其中,ε为源任务情感分类损失的适应性权重参数。
根据本发明的一个实施例,步骤S6还包括:
S61,源领域任务和目标领域任务TaskT的分布距离为
其中,为领域的中心,为领域第c类的类中心。Center(DT)为领域DT的中心,为领域DT第c类的类中心。
S62,源领域和目标领域DT的距离适应性损失定义为
其中,为源领域中样本的个数,|DT|为目标领域DT中样本的个数。X→H为非线性变换,H为核希尔伯特空间。为源任务中标签的个数,CT为目标任务中标签的个数。
S63,源领域和目标领域间的领域融合损失记为
根据本发明的一个实施例,步骤S7还包括:
S71,为提高模型的泛化性和防止过拟合,设计正则项Reg如下:
S72,设计总的损失函数如下:
L=Lsen+λLshare+ηLdomain+σReg
其中λ为参数共享损失的权重,η为领域融合损失的权重,σ为正则项的权重。
S73,基于以上定义的损失函数,使用多个源领域任务和目标领域任务中的带标签数据对多源领域适应联合学习神经网络进行联合训练。优化的目标是
整个深度神经网络的参数集记为θ,包含WT(BiGRU)、WSk(BiGRU)、WT(ConvNets)、WSk(ConvNets)、和
S74,为了实现后向传播过程,参数通过随机梯度下降(Stochastic GradientDescent, SGD)的方法进行更新和训练:
其中μ为学习率。
S75,参数集θ的更新策略为
联合学习的目标是最小化损失函数并得到此时最优的参数集θopt,
其中,和为目标任务TaskT中BiGRU和ConvNets网络在第t+1次迭代的参数,和为BiGRU和ConvNets网络在第t次迭代的参数。
对于k=1,2…K,
其中,和为在源任务中BiGRU和ConvNets网络在第t+1次迭代的参数,和为BiGRU和ConvNets网络在第t次迭代的参数。
其中,和分别为目标任务TaskT和源任务在第t+1次迭代的参数,和分别为在第t次迭代的参数。
S76,四种损失函数的偏导数如下:
根据本发明的一个实施例,步骤S8还包括:
多源领域适应联合学习神经网络的训练算法中,预训练的过程包括了在多个源领域任务和目标领域任务的预训练任务。对于每个源任务和目标任务,我们对每个组合对(TaskSk,TaskT)进行交替训练。通过以这种方式训练网络,可以提高每个任务的性能,而无需找到更多领域特定的训练数据。使用随机梯度下降法训练参数,使用迭代的方法获得最佳参数集θopt。
与现有技术相比,本发明具有以下有益效果:(1)本发明针对多源跨领域情感分类任务提出了一种端到端的多源领域适应联合学习框架。此框架可以同时学习和训练多个领域的神经网络,同时训练可以从不同方面引入更丰富的监督信息;(2)我们设计的联合训练的损失函数包括四个部分:情感分类损失、参数迁移损失、领域融合损失和防止过拟合的正则项。情感分类损失包含了源领域任务和目标领域任务上的情感分类损失,软参数迁移的方法可以有效地迁移源领域的情感知识到目标领域中,而深度领域融合可以保证在学习过程中不同领域的边际分布尽可能地相似。因此多源领域适应联合学习神经网络能够在有限的数据条件下实现更好的特征表示和泛化能力;(3)在中文和英文的多领域数据集上比较了我们提出的多源领域适应联合学习框架和已有的方法,实验结果表明我们的方法在跨领域情感分类准确率上有很大提升。
附图说明
附图作为本发明的一部分,可以进一步帮助理解本发明的意图和发明步骤。
图1是针对跨领域情感分类任务的多源领域适应联合学习方法与系统流程图。
图2是多源领域适应联合学习框架图。
图3是领域特定的BiGRU-ConvNets深度特征提取模型。
图4是深度领域融合机制示意图(以情感二分类任务迁移到细粒度的情感分类任务为例)。
图5是中文多源跨领域情感分类数据集上词向量维度的影响。
图6是英文多源跨领域情感分类数据集上词向量维度的影响。
图7是中文数据集上的准确率相对于参数的敏感性(λ和η分别由0.2变化到1.0)。
图8是英文数据集上的准确率相对于参数的敏感性(λ和η分别由0.2变化到1.0)。
图9是不同方法在中文和英文多源跨领域情感分类任务上的平均准确率。
具体实施方式
下面结合附图1-图9来进一步描述本发明。
如图1所示,本发明框架主要分为以下八个步骤,它们逐层相接并最终将其进行融合。学习过程主要包括以下步骤:
下面首先给出本发明的基本符号标记和定义:
领域(Domain):领域被定义为具有相似主题文本的集合,例如对书籍、电影和笔记本电脑产品的评论,或者关于经济、军事、文化和体育等主题的文本。领域被记为D。
任务(Task):对于任务(Task),可以被定义为四元组Task=(D,X,P,f),其中D为领域, X为特征空间,P为在特征空间上的边际分布,f∶x→y是要学习的分类函数,其中x∈D,y∈ Y,Y是标签空间。任务学习的目标是尽可能地减少在训练集上损失函数,并提高f在测试集上的泛化能力。
源领域任务(Sourcedomaintask):源领域任务被定义为辅助的任务,是一些带标签的样本。第k个源领域任务记为TaskSk=(DSk,XSk,PSk,fSk)。
目标领域任务(Target domain task):目标领域任务为待分类的任务,可记为TaskT= (DT,XT,PT,fT)。DT为目标任务的样本集,DT=DL∪DU,DL为目标领域带标签样本集,DU为目标领域不带标签样本集。
S1,多源领域适应联合学习(Multi-source domain adaptation withjointlearning):我们迁移多个源领域任务TaskSk(1≤k≤K)的情感知识,并利用少量的目标领域带标签数据DL,同时学习TaskSk和TaskT,得到假设目标是最小化经验损失提高目标领域任务上的分类效果。
其中,步骤S1包括:S11,在多源领域适应联合学习中,有三点值得注意,分别是:数据的表示、学习算法和共享的机制;
S12,在数据表示上,我们使用在大量语料上得到的词的分布式表示输入到BiGRU-ConvNets模型中,每个词被表示为低维连续的实值向量;
S13,在联合学习算法上,我们使用源领域任务和目标领域任务的组合对交替训练神经网络;
S14,在领域共享机制上,我们采用软参数共享的方法分层地抽取和迁移神经网络的参数。此方法既考虑了不同任务的共享结构,又考虑了领域的特定特征。
S2,构建特定领域的BiGRU-ConvNets深度特征提取模型,使用在大量的无监督语料上得到的预训练词向量作为模型的输入。同时,词向量在针对特定的任务时可以微调;特定领域的BiGRU-ConvNets深度特征提取模型如图3所示。
步骤S2包括:S21,在此模型中,输入为文本的词序列x={x1,x2,…xn},其中wi∈Rd为第i-th个词的嵌入式表示,d为词向量的维度;
S22,门循环单元(GRU)是一种LSTM的轻量变体,训练速度要快于LSTM。一个门循环单元细胞包含更新门zt,重置门rt,候选门和输出ht;
S23,BiGRU包含正向和反向两个隐层,两个方向的结果联合到最终的输出;
S24,BiGRU的输出序列h={h1,h2,…hn}作为卷积神经网络的输入。在ConvNets网络中,输入层BiGRU生成的特征向量自顶向下排列生成的矩阵W∈Rn×d。在卷积层中,卷积的窗口大小为N元语法,诸如一元语法、二元语法、三元语法等。wi∶i+m-1代表m个词,即wi, wi+1,和wi+m-1;
S25,新的特征gi由wi:i+m-1生成,gi=ReLU(eT·wi:i+m-1+b)。其中,ReLU为线性单元激活函数,e∈Rm×d为卷积核,b∈R为偏置项。可以得到卷积矩阵g=[g1,g2…gn-h+1];
S26,在Pooling层,我们使用Max-over-Pooling的方法对卷积层得到的特征映射抽取最大值。Pooling层输出为每个特征映射的最大值,即最终l个卷积核得到的特征向量为这不仅抽取出了句子中重要的情感信息,还保持了顺序信息;
S27,在情感分类阶段,在Pooling层后,输出的特征向量z通过全连接的方式被连接 Softmax层。
其中y为情感标签,w为全连接层的参数,为偏置项。我们在Softmax层引入Dropout机制减少过拟合。
S3,为了预训练BiGRU-ConvNets底层参数,使用源领域和目标领域的数据执行编码- 解码操作初始化BiGRU网络的参数,编码解码的操作流程为x→C→h;
步骤S3包括:S31,为了预训练BiGRU-ConvNets底层参数,我们使用源领域和目标领域的数据执行编码-解码操作初始化BiGRU网络的参数。编码通过BiGRU的非线性变换输入序列x={w1,w2…wn}到语义表示C,解码操作的输出为h={h1,h2…hn}。编码解码的操作流程为x→C→h;
S32,目标是最小化重构损失为
在预训练BiGRU网络后,通过目标领域任务TaskT和其他源领域任务TaskSk的带标签数据实现训练整个神经网络的参数。
S4,考虑到不同领域的情感分布的差异性,通过最小化参数迁移过程中的损失Lshare实现情感知识的迁移,目标是迁移多个源领域的知识到目标领域的特征表示中;
步骤S4包括:S41,我们定义软参数共享的损失为
其中WT(BiGRU)和WT(ConvNets)分别是在目标任务TaskT中BiGRU和ConvNets网络的参数,WSk(BiGRU)和WSk(ConvNets)分别是在第k-th个源任务TaskSk中BiGRU和 ConvNets网络的参数,为目标任务Softmax层的参数,是第k-th个源任务Sofimax 层的参数;
S42,最小化损失项Lshare可以减少不同领域的模型参数的差异。通过软参数共享,我们不仅能得到源领域的情感表示,还可以通过微调和联合训练得到目标领域任务的共享表示;
S5,在源领域任务和目标领域任务上的整体情感损失为
步骤S5包括:S51,我们使用交叉熵损失函数作为损失函数。在源领域任务TaskSk上的损失函数为
其中,n为源领域的样本数,CSk为源领域的标签数,是真实标签,为预测标签;
S52,在目标领域任务TaskT上的损失函数为
其中,N为目标领域的样本数,CT为目标领域的标签数,是真实标签,为预测标签;
S53,在源领域任务和目标领域任务上的整体情感损失为
其中,ε为源任务情感分类损失的适应性权重参数。
S6,源领域TaskS的特征表示记为RS,目标领域TaskT的特征表示记为RT,我们希望经过核希尔伯特空间映射后源领域和目标领域的分布尽可能地相似,即RS≈RT。深度领域融合机制示意图如图4所示;
步骤S6包括:S61,源领域任务和目标领域任务TaskT的分布距离为
其中,为领域的中心,为领域第c类的类中心。Center(DT)为领域DT的中心,为领域DT第c类的类中心。
S62,源领域和目标领域DT的距离适应性损失定义为
其中,为源领域中样本的个数,|DT|为目标领域DT中样本的个数。X→H为非线性变换,H为核希尔伯特空间。为源任务中标签的个数,CT为目标任务中标签的个数。
S63,源领域和目标领域间的领域融合损失记为
S7,定义联合损失函数L=Lsen+λLshare+ηLdomain+σReg,优化学习的目标函数是和参数集更新策略;
步骤S7包括:S71,为提高模型的泛化性和防止过拟合,设计正则项Reg如下:
S72,设计总的损失函数如下:
L=Lsen+λLshare+ηLdomain+σReg
其中λ为参数共享损失的权重,η为领域融合损失的权重,σ为正则项的权重。
S73,基于以上定义的损失函数,使用多个源领域任务和目标领域任务中的带标签数据对多源领域适应联合学习神经网络进行联合训练。优化的目标是
整个深度神经网络的参数集记为θ,包含WT(BiGRU)、WSk(BiGRU)、WT(ConvNets)、WSk(ConvNets)、和
S74,为了实现后向传播过程,参数通过随机梯度下降(Stochastic GradientDescent, SGD)的方法进行更新和训练:
其中μ为学习率。
S75,参数集θ的更新策略为
联合学习的目标是最小化损失函数并得到此时最优的参数集θopt,
其中,和为目标任务TaskT中BiGRU和ConvNets网络在第t+1次迭代的参数,和为BiGRU和ConvNets网络在第t次迭代的参数。
对于k=1,2…K,
其中,和为在源任务中BiGRU和ConvNets网络在第t+1次迭代的参数,和为BiGRU和ConvNets网络在第t次迭代的参数。
其中,和分别为目标任务TaskT和源任务在第t+1次迭代的参数,和分别为在第t次迭代的参数。
S76,四种损失函数的偏导数如下:
S8,对于每个源任务和目标任务,我们对每个组合对(TaskSk,TaskT)进行交替训练。通过以这种方式训练网络,可以提高每个任务的性能,而无需找到更多领域特定的训练数据。使用随机梯度下降法训练参数,使用迭代的方法获得最佳参数集θopt。
具体地,在多源领域适应联合学习神经网络的训练算法中,预训练的过程包括了在多个源领域任务和目标领域任务的预训练任务。对于每个源任务和目标任务,我们对每个组合对 (TaskSk,TaskT)进行交替训练。通过以这种方式训练网络,可以提高每个任务的性能,而无需找到更多领域特定的训练数据。使用随机梯度下降法训练参数,使用迭代的方法获得最佳参数集θopt。多源领域适应联合学习训练算法如算法1所示。
算法1:多源领域适应联合学习训练算法
输入:源领域任务TaskSk=(DSk,XSk,PSk,fSk),目标领域任务TaskT=(DT,XT,PT,fT);
输出:最优参数集θopt和目标领域测试样本集DU情感标签;
1://预训练过程
2:初始化源领域任务和目标领域任务中BiGRU网络参数θ;
3:输入序列x={w1,w2…wn},输出序列为x={w1,w2…wn};
4:使用最小化重构损失;
5:得到源任务TaskSk的预训练表示RSk,目标任务TaskT的预训练表示RT;
6://多源领域适应网络交替训练过程
7:定义联合损失函数为L=Lsen+λLshare+ηLdomain+σReg;
8:整个神经网络的参数记为θ,包括WT(BiGRU)、WSk(BiGRU)、WT(ConvNets)、 WSk(ConvNets)、和
9:repeat
10:for 1≤k≤K do
11:使用随机梯度下降得到更新参数WT(BiGRU)、WSk(BiGRU)、WT(ConvNets)、 WSk(ConvNets)、和
12:iteration←iteration+1
13:end for
14:until网络收敛或者迭代次数iteration=1000;
15:return最优参数集θopt以及在θopt下测试样本的输出情感标签。
下面介绍本发明的模型参数设置及实验结果:
数据集:中文和英文的多领域情感分类数据集。我们使用5折交叉验证的方法,将目标领域随机分为5份,每次抽取1份作为训练数据,其余的数据作为测试集。重复5次将平均值作为最终的结果。使用两个源领域或者三个源领域的全部数据作为源领域任务。
预处理:在本章中,我们使用GloVe方法在2014年英文和中文维基百科语料上训练的词向量,词向量的维度为50-300维,中文和英文预训练的词向量中分别有598454和400000 个词汇。对于未登录词,我们将其词向量进行随机初始化。
参数设置:在BiGRU中,序列最大长度设置为600,隐层神经元数量设置为128,隐层数设置为2,在ConvNets中,Filters设置为32,Kernel窗口设置为1、2和3,Pool大小设置为2。对于整个神经网络,Epoch设置为10,批大小设置为128,全连接层的Dropout率设置为0.5,学习率设置为0.003,迭代次数设置为1000。情感分类损失的适应性权重参数ε设置为0.5。对于中文情感数据集,我们设置不同类型的损失权重为λ=0.8,η=0.4,σ=0.5。对于英文情感数据集,我们设置不同类型的损失权重为λ=0.6,η=0.6,σ=0.5。
评价指标:本章采取“准确率(Accuracy)=分类正确的文本数/测试文本的总数”作为实验结果的评价指标,评估基线方法和提出的多源领域适应联合学习框架的实验效果。
下面对本发明提出的模型进行参数敏感性分析:
词向量维度对跨领域情感分类准确率的影响:图5和图6分别展示了词向量的维度由50 变化到300时跨领域情感分类精度的变化。由图5和图6可以发现,跨领域情感分类的精度随着词向量维度的增加而增加,但是计算复杂度会随之上升。
权重选择对跨领域情感分类准确率的影响:损失函数中的权重参数λ=[0.2∶1],η=[0.2∶ 1]对于跨领域情感分类准确率的影响如图7和图8所示。对于中文情感数据集,我们设置λ=0.8,η=0.4,σ=0.5。对于英文情感数据集,我们设置λ=0.6,η=0.6,σ=0.5。
表1和表2分别展示了不同的领域适应性方法在中文和英文数据集上的准确率结果,整体的准确率比较如图9所示。
从表1、表2和图9,我们可以得出以下结论:
(1)在中文和英文数据集下,相比较HWS方法,本发明MDAJL方法在两个源领域下准确率分别提高了5.9%和6.2%,在三个源领域条件下准确率分别提高了5.1%和5.1%。这表明深度神经网络的隐层是可迁移的,软参数迁移方法较硬参数迁移方法可以取得更高的准确率。
(2)相比较EnDTL方法,本发明MDAJL方法在两个源领域下准确率分别提高了9.3%和5.0%,在三个源领域条件下准确率分别提高了3.5%和3.1%。EnDTL方法首先使用源域样本训练字符增强深度卷积神经网络模型,利用深度模型转移学习将情感知识从源域转移到目标域。然后我们采用集成学习集成多个模型,可以充分利用多个源域知识。与EnDTL方法不同,MTTL方法采用交替训练的方法训练目标领域任务和多个源领域任务,在考虑情感分类损失的同时,还考虑了参数共享损失和领域融合损失。
(3)相比较MMD方法,本发明MDAJL方法在两个源领域下准确率分别提高了5.4%和5.0%,在三个源领域条件下分别准确率提高了2.6%和4.0%。这表明在构建跨领域情感表示时,不仅要考虑源领域和目标领域分布的距离,还要考虑同一个领域内的不同类别的差异和类内的紧致程度。
(4)与三种变体方法(MDAJL-BiGRU、MDAJL-ConvNets和MDAJL-mixture)相比,在中文数据集下,本发明MDAJL方法在两个源领域的条件下准确率分别提高了5.3%、3.4%和3.9%,在三个源领域的条件下准确率分别提高了1.1%、3.9%和3.6%。在英文数据集下,MDAJL方法在两个源领域的条件下准确率分别提高了4.3%、3.5%和3.7%,在三个源领域的条件下准确率分别提高了4.4%、4.1%和4.0%。这表明BiGRU-ConvNets网络较单独使用BiGRU和ConvNets有更好的特征提取能力。较将多个源领域混合为一个领域进行多源领域适应联合学习,每个源领域单独与目标任务进行学习的方法可以更有效地抽取不同源领域的知识。
(5)相比较两个源领域的情况下,三个源领域条件下各种方法在中文数据集上的准确率分别提高了4.4%、9.4%、6.4%、7.8%、3.1%、3.9%和3.6%,在英文数据集上的准确率分别提高了4.3%、5.1%、4.2%、3.1%、2.6%、2.9%和3.2%,这说明更充分的源域数据可以提高跨领域情感分类的准确性和泛化能力。
综上所述,本发明的针对多源跨领域情感分类任务提出了一种端到端的多源领域适应联合学习框架,与同类代表性方法相比,有更高的跨领域情感分类准确率,可以在有限的数据条件下实现更好的特征表示和泛化能力。
本文结合说明书附图和具体实施例进行阐述只是用于帮助理解本发明的方法和核心思想。本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员依据本发明的方法和思想得出的其它实施方式,同样属于本发明的技术创新范围。本说明书内容不应理解为对本发明的限制。
表1在16个中文多源跨领域情感分类任务上的平均准确率±标准差(%)
表2在16个英文多源跨领域情感分类任务上的平均准确率±标准差(%)
Claims (9)
1.一种基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,包括以下步骤:
S1,多源领域适应联合学习(Multi-source domain adaptation with jointlearning):我们迁移多个源领域任务TaskSk(1≤k≤K)的情感知识,并利用少量的目标领域带标签数据DL,同时学习TaskSk和TaskT,得到假设目标是最小化经验损失提高目标领域任务上的分类效果;
S2,构建特定领域的BiGRU-ConvNets深度特征提取模型,使用在大量的无监督语料上得到的预训练词向量作为模型的输入。同时,词向量在针对特定的任务时可以微调;
S3,为了预训练BiGRU-ConvNets底层参数,使用源领域和目标领域的数据执行编码—解码操作初始化BiGRU网络的参数,编码解码的操作流程为x→C→h;
S4,考虑到不同领域的情感分布的差异性,通过最小化参数迁移过程中的损失Lshare实现情感知识的迁移,目标是迁移多个源领域的知识到目标领域的特征表示中;
S5,在源领域任务和目标领域任务上的整体情感损失为
S6,源领域TaskSk的特征表示记为RSk,目标领域TaskT的特征表示记为RT,我们希望经过核希尔伯特空间映射后源领域和目标领域的分布尽可能地相似,即RSk≈RT;
S7,定义联合损失函数L=Lsen+λLshare+ηLdomain+σReg,优化学习的目标函数是和参数集更新策略;
S8,对于每个源任务和目标任务,我们对每个组合对(TaskSk,TaskT)进行交替训练。通过以这种方式训练网络,可以提高每个任务的性能,而无需找到更多领域特定的训练数据。使用随机梯度下降法训练参数,使用迭代的方法获得最佳参数集θopt。
2.根据权利要求1所述的基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,所述步骤S1包括:
S11,在多源领域适应联合学习中,有三点值得注意,分别是:数据的表示、学习算法和共享的机制;
S12,在数据表示上,我们使用在大量语料上得到的词的分布式表示输入到BiGRU-ConvNets模型中,每个词被表示为低维连续的实值向量;
S13,在联合学习算法上,我们使用源领域任务和目标领域任务的组合对交替训练神经网络;
S14,在领域共享机制上,我们采用软参数共享的方法分层地抽取和迁移神经网络的参数。此方法既考虑了不同任务的共享结构,又考虑了领域的特定特征。
3.根据权利要求1所述的基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,所述步骤S2包括:
S21,在此模型中,输入为文本的词序列x={x1,x2,…xn},其中wi∈Rd为第i-th个词的嵌入式表示,d为词向量的维度;
S22,门循环单元(Gated recurrent units,GRU)是一种LSTM的轻量变体,训练速度要快于LSTM。一个门循环单元细胞包含更新门zt,重置门rt,候选门和输出ht;
S23,BiGRU包含正向和反向两个隐层,两个方向的结果联合到最终的输出;
S24,BiGRU的输出序列h={h1,h2,…hn}作为卷积神经网络的输入。在ConvNets网络中,输入层BiGRU生成的特征向量自顶向下排列生成的矩阵W∈Rn×d。在卷积层中,卷积的窗口大小为N元语法,诸如一元语法、二元语法、三元语法等。wi:i+m-1代表m个词,即wi,wi+1,和wi+m-1;
S25,新的特征gi由wi:i+m-1生成,gi=ReLU(eT·wi:i+m-1+b)。其中,ReLU为线性单元激活函数,e∈Rm×d为卷积核,b∈R为偏置项。可以得到卷积矩阵g=[g1,g2…gn-h+1];
S26,在Pooling层,我们使用Max-over-pooling的方法对卷积层得到的特征映射抽取最大值。Pooling层输出为每个特征映射的最大值,即最终l个卷积核得到的特征向量为这不仅抽取出了句子中重要的情感信息,还保持了顺序信息;
S27,在情感分类阶段,在Pooling层后,输出的特征向量z通过全连接的方式被连接Softmax层。
其中y为情感标签,w为全连接层的参数,为偏置项。我们在Softmax层引入Dropout机制减少过拟合。
4.根据权利要求1所述的基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,步骤S3还包括:
S31,为了预训练BiGRU-ConvNets底层参数,我们使用源领域和目标领域的数据执行编码—解码操作初始化BiGRU网络的参数。编码通过BiGRU的非线性变换输入序列x={w1,w2…wn}到语义表示C,解码操作的输出为h={h1,h2…hn}。编码解码的操作流程为x→C→h;
S32,目标是最小化重构损失为
在预训练BiGRU网络后,通过目标领域任务TaskT和其他源领域任务TaskSk的带标签数据实现训练整个神经网络的参数。
5.根据权利要求1所述的基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,步骤S4还包括:
S41,我们定义软参数共享的损失为
其中WT(BiGRU)和WT(ConvNets)分别是在目标任务TaskT中BiGRU和ConvNets网络的参数,WSk(BiGRU)和WSk(ConvNets)分别是在第k-th个源任务TaskSk中BiGRU和ConvNets网络的参数,为目标任务Softmax层的参数,是第k-th个源任务Softmax层的参数;
S42,最小化损失项Lshare可以减少不同领域的模型参数的差异。通过软参数共享,我们不仅能得到源领域的情感表示,还可以通过微调和联合训练得到目标领域任务的共享表示;
6.根据权利要求1所述的基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,步骤S5还包括:
S51,我们使用交叉熵损失函数作为损失函数。在源领域任务TaskSk上的损失函数为
其中,n为源领域的样本数,CSk为源领域的标签数,是真实标签,为预测标签;
S52,在目标领域任务TaskT上的损失函数为
其中,N为目标领域的样本数,CT为目标领域的标签数,是真实标签,为预测标签;
S53,在源领域任务和目标领域任务上的整体情感损失为
其中,ε为源任务情感分类损失的适应性权重参数。
7.根据权利要求1所述的基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,步骤S6还包括:
S61,源领域任务和目标领域任务TaskT的分布距离为
其中,为领域的中心,为领域第c类的类中心。Center(DT)为领域DT的中心,为领域DT第c类的类中心。
S62,源领域和目标领域DT的距离适应性损失定义为
其中,为源领域中样本的个数,|DT|为目标领域DT中样本的个数。为非线性变换,H为核希尔伯特空间。为源任务中标签的个数,CT为目标任务中标签的个数。
S63,源领域和目标领域间的领域融合损失记为
8.根据权利要求1所述的基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,步骤S7还包括:
S71,为提高模型的泛化性和防止过拟合,设计正则项Reg如下:
S72,设计总的损失函数如下:
L=Lsen+λLshare+ηLdomain+σReg
其中λ为参数共享损失的权重,η为领域融合损失的权重,σ为正则项的权重。
S73,基于以上定义的损失函数,使用多个源领域任务和目标领域任务中的带标签数据对多源领域适应联合学习神经网络进行联合训练。优化的目标是
整个深度神经网络的参数集记为θ,包含WT(BiGRU)、WSk(BiGRU)、WT(ConvNets)、WSk(ConvNets)、和
S74,为了实现后向传播过程,参数通过随机梯度下降(Stochastic GradientDescent,SGD)的方法进行更新和训练:
其中μ为学习率。
S75,参数集θ的更新策略为
联合学习的目标是最小化损失函数并得到此时最优的参数集θopt,
其中,和为目标任务TaskT中BiGRU和ConvNets网络在第t+1次迭代的参数,和为BiGRU和ConvNets网络在第t次迭代的参数。
对于k=1,2…K,
其中,和为在源任务中BiGRU和ConvNets网络在第t+1次迭代的参数,和为BiGRU和ConvNets网络在第t次迭代的参数。
其中,和分别为目标任务TaskT和源任务在第t+1次迭代的参数,和分别为在第t次迭代的参数。
S76,四种损失函数的偏导数如下:
9.根据权利要求1所述的基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,步骤S8还包括:
多源领域适应联合学习神经网络的训练算法中,预训练的过程包括了在多个源领域任务和目标领域任务的预训练任务。对于每个源任务和目标任务,我们对每个组合对(TaskSk,TaskT)进行交替训练。通过以这种方式训练网络,可以提高每个任务的性能,而无需找到更多领域特定的训练数据。使用随机梯度下降法训练参数,使用迭代的方法获得最佳参数集θopt。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910380979.2A CN110032646B (zh) | 2019-05-08 | 2019-05-08 | 一种基于多源领域适应联合学习的跨领域文本情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910380979.2A CN110032646B (zh) | 2019-05-08 | 2019-05-08 | 一种基于多源领域适应联合学习的跨领域文本情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110032646A true CN110032646A (zh) | 2019-07-19 |
CN110032646B CN110032646B (zh) | 2022-12-30 |
Family
ID=67241569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910380979.2A Expired - Fee Related CN110032646B (zh) | 2019-05-08 | 2019-05-08 | 一种基于多源领域适应联合学习的跨领域文本情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110032646B (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472244A (zh) * | 2019-08-14 | 2019-11-19 | 山东大学 | 一种基于Tree-LSTM和情感信息的短文本情感分类方法 |
CN110472052A (zh) * | 2019-07-31 | 2019-11-19 | 西安理工大学 | 一种基于深度学习的中文社交平台情感分析方法 |
CN110489753A (zh) * | 2019-08-15 | 2019-11-22 | 昆明理工大学 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
CN110659744A (zh) * | 2019-09-26 | 2020-01-07 | 支付宝(杭州)信息技术有限公司 | 训练事件预测模型、评估操作事件的方法及装置 |
CN110674849A (zh) * | 2019-09-02 | 2020-01-10 | 昆明理工大学 | 基于多源域集成迁移的跨领域情感分类方法 |
CN110879833A (zh) * | 2019-11-20 | 2020-03-13 | 中国科学技术大学 | 一种基于轻量级循环单元lru的文本预测方法 |
CN111079938A (zh) * | 2019-11-28 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 问答阅读理解模型获取方法、装置、电子设备及存储介质 |
CN111178526A (zh) * | 2019-12-30 | 2020-05-19 | 广东石油化工学院 | 一种基于元学习的变分随机特征的核方法 |
CN111259651A (zh) * | 2020-01-21 | 2020-06-09 | 北京工业大学 | 一种基于多模型融合的用户情感分析方法 |
CN111639661A (zh) * | 2019-08-29 | 2020-09-08 | 上海卓繁信息技术股份有限公司 | 文本相似度判别方法 |
CN111950736A (zh) * | 2020-07-24 | 2020-11-17 | 清华大学深圳国际研究生院 | 迁移集成学习方法、终端设备及计算机可读存储介质 |
CN112068866A (zh) * | 2020-09-29 | 2020-12-11 | 支付宝(杭州)信息技术有限公司 | 更新业务模型的方法及装置 |
CN112115725A (zh) * | 2020-07-23 | 2020-12-22 | 云知声智能科技股份有限公司 | 一种多领域机器翻译网络训练方法及系统 |
CN112241456A (zh) * | 2020-12-18 | 2021-01-19 | 成都晓多科技有限公司 | 基于关系网络与注意力机制的假新闻预测方法 |
CN112820301A (zh) * | 2021-03-15 | 2021-05-18 | 中国科学院声学研究所 | 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法 |
CN113031520A (zh) * | 2021-03-02 | 2021-06-25 | 南京航空航天大学 | 一种跨域预测的元不变特征空间学习方法 |
CN113204645A (zh) * | 2021-04-01 | 2021-08-03 | 武汉大学 | 一种基于知识引导的方面级情感分析模型训练方法 |
CN113239189A (zh) * | 2021-04-22 | 2021-08-10 | 北京物资学院 | 一种文本情感领域分类的方法及系统 |
CN113360633A (zh) * | 2021-06-09 | 2021-09-07 | 南京大学 | 一种基于深度域适应的跨域测试文档分类方法 |
CN113553849A (zh) * | 2020-04-26 | 2021-10-26 | 阿里巴巴集团控股有限公司 | 模型训练方法、识别方法、装置、电子设备和计算机存储介质 |
CN113590748A (zh) * | 2021-07-27 | 2021-11-02 | 中国科学院深圳先进技术研究院 | 基于迭代网络组合的情感分类持续学习方法及存储介质 |
US20210342551A1 (en) * | 2019-05-31 | 2021-11-04 | Shenzhen Institutes Of Advanced Technology, Chinese Academy Of Sciences | Method, apparatus, device, and storage medium for training model and generating dialog |
CN113806527A (zh) * | 2020-06-16 | 2021-12-17 | 百度(美国)有限责任公司 | 具有多视图迁移学习的跨语言无监督分类 |
CN113987187A (zh) * | 2021-11-09 | 2022-01-28 | 重庆大学 | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 |
CN114647724A (zh) * | 2022-02-22 | 2022-06-21 | 广东外语外贸大学 | 一种基于MPNet、Bi-LSTM和宽度学习的多源跨领域情绪分类方法 |
CN114757183A (zh) * | 2022-04-11 | 2022-07-15 | 北京理工大学 | 一种基于对比对齐网络的跨领域情感分类方法 |
US11423333B2 (en) | 2020-03-25 | 2022-08-23 | International Business Machines Corporation | Mechanisms for continuous improvement of automated machine learning |
CN115114409A (zh) * | 2022-07-19 | 2022-09-27 | 中国民航大学 | 一种基于软参数共享的民航不安全事件联合抽取方法 |
CN117172323A (zh) * | 2023-11-02 | 2023-12-05 | 知呱呱(天津)大数据技术有限公司 | 一种基于特征对齐的专利多领域知识抽取方法及系统 |
US12106197B2 (en) | 2020-03-25 | 2024-10-01 | International Business Machines Corporation | Learning parameter sampling configuration for automated machine learning |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649434A (zh) * | 2016-09-06 | 2017-05-10 | 北京蓝色光标品牌管理顾问股份有限公司 | 一种跨领域知识迁移的标签嵌入方法和装置 |
CN106649853A (zh) * | 2016-12-30 | 2017-05-10 | 儒安科技有限公司 | 一种基于深度学习的短文本聚类方法 |
CN108038492A (zh) * | 2017-11-23 | 2018-05-15 | 西安理工大学 | 一种基于深度学习的感性词向量及情感分类方法 |
CN108804417A (zh) * | 2018-05-21 | 2018-11-13 | 山东科技大学 | 一种基于特定领域情感词的文档级情感分析方法 |
CN109376239A (zh) * | 2018-09-29 | 2019-02-22 | 山西大学 | 一种用于中文微博情感分类的特定情感词典的生成方法 |
CN109492099A (zh) * | 2018-10-28 | 2019-03-19 | 北京工业大学 | 一种基于领域对抗自适应的跨领域文本情感分类方法 |
-
2019
- 2019-05-08 CN CN201910380979.2A patent/CN110032646B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649434A (zh) * | 2016-09-06 | 2017-05-10 | 北京蓝色光标品牌管理顾问股份有限公司 | 一种跨领域知识迁移的标签嵌入方法和装置 |
CN106649853A (zh) * | 2016-12-30 | 2017-05-10 | 儒安科技有限公司 | 一种基于深度学习的短文本聚类方法 |
CN108038492A (zh) * | 2017-11-23 | 2018-05-15 | 西安理工大学 | 一种基于深度学习的感性词向量及情感分类方法 |
CN108804417A (zh) * | 2018-05-21 | 2018-11-13 | 山东科技大学 | 一种基于特定领域情感词的文档级情感分析方法 |
CN109376239A (zh) * | 2018-09-29 | 2019-02-22 | 山西大学 | 一种用于中文微博情感分类的特定情感词典的生成方法 |
CN109492099A (zh) * | 2018-10-28 | 2019-03-19 | 北京工业大学 | 一种基于领域对抗自适应的跨领域文本情感分类方法 |
Non-Patent Citations (6)
Title |
---|
XEROX RESEARCH CENTRE INDIA: "Multi-Source Interative Adaptation for Cross-Domain Classification", 《PROCEEDINGS OF THE TWENTY-FIFTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE(IJCAI-16)》 * |
刘高军等: "基于BGRU-CNN的层次结构微博情感分析", 《北方工业大学学报》 * |
李大宇等: "面向电影评论的标签方面情感联合模型_", 《计算机科学与探索》 * |
汤雪: "基于深度学习的文本情感分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 * |
王静: "基于双向门控循环单元的评论文本情感分类", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 * |
赵传君等: "基于集成深度迁移学习的多源跨领域情感分类", 《山西大学学报(自然科学版)》 * |
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210342551A1 (en) * | 2019-05-31 | 2021-11-04 | Shenzhen Institutes Of Advanced Technology, Chinese Academy Of Sciences | Method, apparatus, device, and storage medium for training model and generating dialog |
US11875126B2 (en) * | 2019-05-31 | 2024-01-16 | Shenzhen Institutes Of Advanced Technology, Chinese Academy Of Sciences | Method, apparatus, device, and storage medium for training model and generating dialog |
CN110472052A (zh) * | 2019-07-31 | 2019-11-19 | 西安理工大学 | 一种基于深度学习的中文社交平台情感分析方法 |
CN110472244A (zh) * | 2019-08-14 | 2019-11-19 | 山东大学 | 一种基于Tree-LSTM和情感信息的短文本情感分类方法 |
CN110489753A (zh) * | 2019-08-15 | 2019-11-22 | 昆明理工大学 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
CN110489753B (zh) * | 2019-08-15 | 2022-06-14 | 昆明理工大学 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
CN111639661A (zh) * | 2019-08-29 | 2020-09-08 | 上海卓繁信息技术股份有限公司 | 文本相似度判别方法 |
CN110674849A (zh) * | 2019-09-02 | 2020-01-10 | 昆明理工大学 | 基于多源域集成迁移的跨领域情感分类方法 |
CN110659744A (zh) * | 2019-09-26 | 2020-01-07 | 支付宝(杭州)信息技术有限公司 | 训练事件预测模型、评估操作事件的方法及装置 |
CN110659744B (zh) * | 2019-09-26 | 2021-06-04 | 支付宝(杭州)信息技术有限公司 | 训练事件预测模型、评估操作事件的方法及装置 |
CN110879833A (zh) * | 2019-11-20 | 2020-03-13 | 中国科学技术大学 | 一种基于轻量级循环单元lru的文本预测方法 |
CN110879833B (zh) * | 2019-11-20 | 2022-09-06 | 中国科学技术大学 | 一种基于轻量级循环单元lru的文本预测方法 |
CN111079938B (zh) * | 2019-11-28 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 问答阅读理解模型获取方法、装置、电子设备及存储介质 |
CN111079938A (zh) * | 2019-11-28 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 问答阅读理解模型获取方法、装置、电子设备及存储介质 |
CN111178526A (zh) * | 2019-12-30 | 2020-05-19 | 广东石油化工学院 | 一种基于元学习的变分随机特征的核方法 |
CN111259651A (zh) * | 2020-01-21 | 2020-06-09 | 北京工业大学 | 一种基于多模型融合的用户情感分析方法 |
US12106197B2 (en) | 2020-03-25 | 2024-10-01 | International Business Machines Corporation | Learning parameter sampling configuration for automated machine learning |
US11423333B2 (en) | 2020-03-25 | 2022-08-23 | International Business Machines Corporation | Mechanisms for continuous improvement of automated machine learning |
CN113553849A (zh) * | 2020-04-26 | 2021-10-26 | 阿里巴巴集团控股有限公司 | 模型训练方法、识别方法、装置、电子设备和计算机存储介质 |
CN113806527A (zh) * | 2020-06-16 | 2021-12-17 | 百度(美国)有限责任公司 | 具有多视图迁移学习的跨语言无监督分类 |
CN112115725A (zh) * | 2020-07-23 | 2020-12-22 | 云知声智能科技股份有限公司 | 一种多领域机器翻译网络训练方法及系统 |
CN112115725B (zh) * | 2020-07-23 | 2024-01-26 | 云知声智能科技股份有限公司 | 一种多领域机器翻译网络训练方法及系统 |
CN111950736A (zh) * | 2020-07-24 | 2020-11-17 | 清华大学深圳国际研究生院 | 迁移集成学习方法、终端设备及计算机可读存储介质 |
CN111950736B (zh) * | 2020-07-24 | 2023-09-19 | 清华大学深圳国际研究生院 | 迁移集成学习方法、终端设备及计算机可读存储介质 |
CN112068866A (zh) * | 2020-09-29 | 2020-12-11 | 支付宝(杭州)信息技术有限公司 | 更新业务模型的方法及装置 |
CN112241456A (zh) * | 2020-12-18 | 2021-01-19 | 成都晓多科技有限公司 | 基于关系网络与注意力机制的假新闻预测方法 |
CN112241456B (zh) * | 2020-12-18 | 2021-04-27 | 成都晓多科技有限公司 | 基于关系网络与注意力机制的假新闻预测方法 |
CN113031520A (zh) * | 2021-03-02 | 2021-06-25 | 南京航空航天大学 | 一种跨域预测的元不变特征空间学习方法 |
CN113031520B (zh) * | 2021-03-02 | 2022-03-22 | 南京航空航天大学 | 一种跨域预测的元不变特征空间学习方法 |
CN112820301B (zh) * | 2021-03-15 | 2023-01-20 | 中国科学院声学研究所 | 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法 |
CN112820301A (zh) * | 2021-03-15 | 2021-05-18 | 中国科学院声学研究所 | 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法 |
CN113204645A (zh) * | 2021-04-01 | 2021-08-03 | 武汉大学 | 一种基于知识引导的方面级情感分析模型训练方法 |
CN113239189A (zh) * | 2021-04-22 | 2021-08-10 | 北京物资学院 | 一种文本情感领域分类的方法及系统 |
CN113360633B (zh) * | 2021-06-09 | 2023-10-17 | 南京大学 | 一种基于深度域适应的跨域测试文档分类方法 |
CN113360633A (zh) * | 2021-06-09 | 2021-09-07 | 南京大学 | 一种基于深度域适应的跨域测试文档分类方法 |
CN113590748B (zh) * | 2021-07-27 | 2024-03-26 | 中国科学院深圳先进技术研究院 | 基于迭代网络组合的情感分类持续学习方法及存储介质 |
CN113590748A (zh) * | 2021-07-27 | 2021-11-02 | 中国科学院深圳先进技术研究院 | 基于迭代网络组合的情感分类持续学习方法及存储介质 |
CN113987187A (zh) * | 2021-11-09 | 2022-01-28 | 重庆大学 | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 |
CN114647724A (zh) * | 2022-02-22 | 2022-06-21 | 广东外语外贸大学 | 一种基于MPNet、Bi-LSTM和宽度学习的多源跨领域情绪分类方法 |
CN114757183A (zh) * | 2022-04-11 | 2022-07-15 | 北京理工大学 | 一种基于对比对齐网络的跨领域情感分类方法 |
CN114757183B (zh) * | 2022-04-11 | 2024-05-10 | 北京理工大学 | 一种基于对比对齐网络的跨领域情感分类方法 |
CN115114409B (zh) * | 2022-07-19 | 2024-09-06 | 中国民航大学 | 一种基于软参数共享的民航不安全事件联合抽取方法 |
CN115114409A (zh) * | 2022-07-19 | 2022-09-27 | 中国民航大学 | 一种基于软参数共享的民航不安全事件联合抽取方法 |
CN117172323A (zh) * | 2023-11-02 | 2023-12-05 | 知呱呱(天津)大数据技术有限公司 | 一种基于特征对齐的专利多领域知识抽取方法及系统 |
CN117172323B (zh) * | 2023-11-02 | 2024-01-23 | 知呱呱(天津)大数据技术有限公司 | 一种基于特征对齐的专利多领域知识抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110032646B (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110032646B (zh) | 一种基于多源领域适应联合学习的跨领域文本情感分类方法 | |
Abid et al. | Sentiment analysis through recurrent variants latterly on convolutional neural network of Twitter | |
Zhu et al. | GL-GCN: Global and local dependency guided graph convolutional networks for aspect-based sentiment classification | |
Zhao et al. | Aggregated graph convolutional networks for aspect-based sentiment classification | |
US20210141863A1 (en) | Multi-perspective, multi-task neural network model for matching text to program code | |
Zhao et al. | Multi-source domain adaptation with joint learning for cross-domain sentiment classification | |
US20160247061A1 (en) | Systems and Methods for Neural Language Modeling | |
Heidarysafa et al. | An improvement of data classification using random multimodel deep learning (rmdl) | |
Qiang et al. | Discriminative deep asymmetric supervised hashing for cross-modal retrieval | |
Tiwari et al. | TermInformer: unsupervised term mining and analysis in biomedical literature | |
Zhang et al. | Sentiment classification for Chinese text based on interactive multitask learning | |
Yuan et al. | One-shot learning for fine-grained relation extraction via convolutional siamese neural network | |
Constum et al. | Recognition and Information Extraction in Historical Handwritten Tables: Toward Understanding Early 20 th Century Paris Census | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
Zhang et al. | Chinese medical relation extraction based on multi-hop self-attention mechanism | |
Lai et al. | Shared and private information learning in multimodal sentiment analysis with deep modal alignment and self-supervised multi-task learning | |
Bouraoui et al. | A comprehensive review of deep learning for natural language processing | |
Liang et al. | MUSEDA: multilingual unsupervised and supervised embedding for domain adaption | |
Zhang et al. | Improving Chinese clinical named entity recognition based on BiLSTM-CRF by cross-domain transfer | |
Sun et al. | Image-text matching using multi-subspace joint representation | |
Ou et al. | ContextAD: Context‐Aware Acronym Disambiguation with Siamese BERT Network | |
Kang et al. | MGMFN: Multi-graph and MLP-mixer fusion network for Chinese social network sentiment classification | |
Tao et al. | Multi-level knowledge distillation via dynamic decision boundaries exploration and exploitation | |
Pham | Multi-domain Neural Machine Translation | |
Yu et al. | Research on a Capsule Network Text Classification Method with a Self-Attention Mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221230 |