[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111368082A - 一种基于层次网络的领域自适应词嵌入的情感分析方法 - Google Patents

一种基于层次网络的领域自适应词嵌入的情感分析方法 Download PDF

Info

Publication number
CN111368082A
CN111368082A CN202010139629.XA CN202010139629A CN111368082A CN 111368082 A CN111368082 A CN 111368082A CN 202010139629 A CN202010139629 A CN 202010139629A CN 111368082 A CN111368082 A CN 111368082A
Authority
CN
China
Prior art keywords
word embedding
emotion analysis
text
domain
hierarchical network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010139629.XA
Other languages
English (en)
Inventor
李欣栩
杨春霞
张贺舒
瞿涛
吴佳君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202010139629.XA priority Critical patent/CN111368082A/zh
Publication of CN111368082A publication Critical patent/CN111368082A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于层次网络的领域自适应词嵌入的情感分析方法,预先获取文档级情感分析的用户评论数据集;对评论数据集进行无用字符清理;采用领域自适应词嵌入模块、双向长短期记忆网络以及注意力机制构建基于层次网络的领域自适应词嵌入的情感分析模型;对模型进行训练,数据沿着神经网络正向传播,所有网络在输出时进行多元信息的融合,反向传播时通过对损失函数求偏导对参数进行实时更新,在模型测试时利用训练过程中得到的已配置好参数的模型进行情感极性分析。本发明在传统情感分析的基础上,额外考虑了用户信息和产品信息,提高评论情感分析的效果;帮助商家和平台识别用户情感倾向,在电子商务领域有很广阔的应用前景。

Description

一种基于层次网络的领域自适应词嵌入的情感分析方法
技术领域
本发明属于文本情感分类技术领域,具体涉及一种基于层次网络的领域自适应词嵌入的情感分析方法,特别适用于如影评、餐评等情感文本的文本情感分析。
背景技术
随着现代化科学技术的不断发展,互联网已经成为现代人日常生活中必不可少的一部分,也成为当代人获取信息的最主要的来源,通过对情感文本进行处理可以更好的了解用户的情感倾向和关注要点,然而各大平台用户评价的不断激增致使以往对评论进行处理的方式成本消耗过大、错误率不容忽视,所以如何使用更先进的自动化分析工具对评论文本进行分析处理已经成为一个亟待解决的问题。
粗粒度情感分析模型是指对整个句子和整个篇章进行分析,然而对于用户评论来讲,在评论时不但有评论文本,还包括一些用户信息和产品信息,目前的情感分析模型并未考虑将这些用户信息包括到建模过程中;同时文本包括词级、句级、篇章级等特征,现有模型无法捕捉多层次文本信息。
发明内容
发明目的:本发明提供一种基于层次网络的领域自适应词嵌入的情感分析方法,能帮助商家和平台识别用户情感倾向,用作后续推荐系统的构建,在电子商务领域有很广阔的应用前景。
技术方案:本发明所述的一种基于层次网络的领域自适应词嵌入的情感分析方法,具体包括以下步骤:
(1)预先获取文档级情感分析的用户评论数据集;
(2)对评论数据集统一格式并进行无用字符清理;
(3)采用领域自适应词嵌入模块、双向长短期记忆网络以及注意力机制构建基于层次网络的领域自适应词嵌入的情感分析模型;
(4)对模型进行训练,数据沿着神经网络正向传播,所有网络在输出时进行多元信息的融合,反向传播时通过对损失函数求偏导对参数进行实时更新,在模型测试时利用训练过程中得到的已配置好参数的模型进行情感极性分析。
进一步地,所述步骤(2)实现过程如下:
将情感数据集表示为G=[(t1,y1),(t2,y2),…,(tn,yn)],其中ti表示数据集中第i个样本,yi是样本对应的标签,n是样本的总数;ti表示为{ui,pi,di}的形式,其中ui代表对应的用户信息,pi代表对应的产品信息,di代表对应的文本信息。
进一步地,所述步骤(3)包括以下步骤:
(31)将步骤(2)中处理好的评论文本送至领域自适应词嵌入模块,得到能体现用户偏好和产品信息的单词词向量;
(32)将单词向量送至双向长短期记忆网络进行文本特征提取;
(33)将文本特征通过注意力机制来按照重要性进行加权排序,获取句粒度文本特征;
(34)将步骤(33)处理后的句粒度文本特征再输入至(32)中来获取篇章粒度的文本特征;
(35)将步骤(34)处理后的篇章级文本特征通过注意力机制来按照重要性进行加权排序,得到所需篇章级文本特征。
进一步地,所述步骤(4)通过以下公式实现:
y=softmax(Wcd2+bc)
Figure BDA0002398611140000021
其中,softmax进行归一化,旨在求得一个概率,d2为原数据经处理后的得到的文本特征,Wc和bc分别为权重和偏差,Loss为最小交叉熵损失函数,N是总文本数,C是分类类别数,pj为实际类别,yj为预测类别,λ||Θ||2为正则化项。
进一步地,步骤(31)所述的领域自适应词嵌入模块是在不含用户信息和产品信息的词向量的基础上加入一个包含用户信息和产品信息的偏差。
有益效果:与现有技术相比,本发明的有益效果:1、在传统情感分析的基础上,额外考虑了用户信息和产品信息,提高评论情感分析的效果;2、帮助商家和平台识别用户情感倾向,可以用作后续推荐系统的构建,在电子商务领域有很广阔的应用前景。
附图说明
图1是本发明的方法流程图;
图2是基于层次网络的领域自适应词嵌入的情感分析模型结构示意图。
具体实施方式
下面结合附图对本发明作进一步的详细描述。
本实施方式采用开发平台选用Ubuntu16.04,深度学习开发框架选择pytorch3.6,如图1所示,具体包括以下步骤:
步骤1,获取一定量文档级情感分析的用户评论文本。
语料的获取过程如下所示:收集电商平台(如美团、淘宝、京东等),构建粗粒度情感分析用户评论数据集;或利用现有的符合标准的粗粒度情感分析数据集作为本发明的数据集,本发明所需数据集中每条数据需包含用户信息、产品信息、评论文本、评论极性。本实施方式的数据集直接采用现有的公开数据集IMDB,该数据集包含84919条评论,包含1310个用户信息,1635个产品信息,最终将评论文本分成10类。数据集中每条数据包含用户id、产品信息、情绪级别和评论文本。
步骤2,数据预处理。
将数据集中每条数据的用户id、产品信息、情绪级别、评论文本用空格符隔开,进行无用字符清理并将全部单词转换成小写。统一每条数据的格式:将情感数据集表示为G=[(t1,y1),(t2,y2),…,(tn,yn)],其中ti表示数据集中第i个样本,yi是样本对应的标签,n是样本的总数。ti表示为{ui,pi,di}的形式,其中ui代表对应的用户信息,pi代表对应的产品信息,di代表对应的文本信息,将文本表示成计算机可以识别和处理的计算机语言。将ui和pi按照均匀分布U(-0.01,0.01)随机初始化为一个多维词向量ui和pi;将评论di按符号分成m个句子,即di={s1,s2,…,sm},每个句子含n个词,即si={w1,w2,w3,…,wn},通过预训练的词向量最终将di转化为词向量矩阵di
步骤3,模型构建。
针对步骤2中处理好的评论文本构建一种基于层次网络的领域自适应词嵌入的情感分析模型,该模型采用领域自适应词嵌入模块、双向长短期记忆网络以及注意力机制,如图2所示,具体过程如下:
步骤3.1,将步骤2中处理好的评论文本送至领域自适应词嵌入模块,得到能体现用户偏好和产品信息的单词词向量。考虑词级偏好偏差,如对于用户来讲,用户更喜欢使用“terrible”当做一个积极副词而不是这个词更常见的使用场景,即表示一种消极情感。本发明在步骤2的基础上为原始词向量添加一个偏差,优选地,该偏差是利用用户信息和产品信息的相关特征在原始词向量的基础上进行一个非线性转换。
r=tanh(Wuwi+Wpwi)
wi=wi+r
其中,r是本文的词级偏好偏差,wi是原始词向量,Wu和Wp是对应用户和产品的权重向量。
步骤3.2,将步骤3.1中得到的词向量送至双向长短期记忆网络进行文本特征提取。
下面给出BiLSTM的具体结构和得到所需文本特征的具体计算流程:
Figure BDA0002398611140000041
其中σ代表sigmoid函数,ft,it,ot分别对应t时刻的遗忘门,输入门以及输出门,wt是t时刻的输入,ct是t时刻单元的状态,ht表示t时刻LSTM的输出,ht-1是t-1时刻LSTM的输出。BiLSTM由一个前向LSTM和一个后向LSTM组成,最后合并两个方向上LSTM的结果得到所需的文本特征。其中
Figure BDA0002398611140000042
Figure BDA0002398611140000043
表示两个方向上的LSTM,
Figure BDA0002398611140000044
Figure BDA0002398611140000045
表示t时刻两个方向上LSTM的输出,最终得到的ht表示t时刻BiLSTM的输出,ht-1是t-1时刻BiLSTM的输出。[…;…]是简单的连接操作符。
步骤3.3,将步骤3.2中得到的文本特征通过注意力机制来按照重要性进行加权排序。
Figure BDA0002398611140000051
其中,ht是t时刻BiLSTM输出的特征向量,首先根据ht生成目标注意力权重et,然后将其进行权重概率化得到对应的at,最后将所有权重分配给其对应的特征向量,最终得到句粒度文本表示d1
步骤3.4:将步骤3.3处理后的句粒度文本特征再输入至3.2中来获取篇章粒度的文本特征d2
步骤3.5:将步骤3.4处理后的篇章级文本特征通过注意力机制来按照重要性进行加权排序,得到所需篇章级文本特征。
步骤4,模型输出和训练。
在模型训练时,数据将沿着神经网络正向传播,所有网络在输出时进行情感极性类别概率的计算,计算公式如下所示,其中Wc和bc是对应的权重和偏差。生成对应10个类别的概率p1~p10,最终选取最大概率对应的极性类别作为句子的情感分类结果。
y=softmax(Wcd2+bc)
其中,softmax进行归一化,旨在求得一个概率,d2为原数据经处理后的得到的文本特征,Wc和bc分别为权重和偏差,其中下标c为分类类别数。
反向传播时通过对损失函数求偏导来为本发明的参数进行更新,在模型测试时利用训练过程中得到的已配置好参数的模型进行情感极性分析。优选地,本发明选择最小交叉熵损失函数,损失函数如下所示:
Figure BDA0002398611140000052
其中,N是总文本数,C是分类类别数,pj为实际类别,yj为预测类别,λ||Θ||2为正则化项。
本发明选择层次网络分别从词级、句级提取语义特征最后生成篇章级文本表示,本文的层次网络首先由BiLSTM和注意力交互机制生成句级的语义表示,得到的特征作为下一个BiLSTM层和注意力交互机制的输入,最后得到篇章级的文本特征。将评论中存在的用户信息和产品信息加入到建模过程中,通过添加附加信息来提高情感分析的效果,与以往直接使用词嵌入来将评论文本转换成计算机可以直接识别的向量矩阵不同,通过考虑词与用户信息和产品信息的关联来在原始词向量的基础上进行非线性转换,效果表现为在原始词向量的基础上添加一个额外的偏差。
以上实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明后,技术人员可以对发明作各种改动和修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (5)

1.一种基于层次网络的领域自适应词嵌入的情感分析方法,其特征在于,包括以下步骤:
(1)预先获取文档级情感分析的用户评论数据集;
(2)对评论数据集统一格式并进行无用字符清理;
(3)采用领域自适应词嵌入模块、双向长短期记忆网络以及注意力机制构建基于层次网络的领域自适应词嵌入的情感分析模型;
(4)对模型进行训练,数据沿着神经网络正向传播,所有网络在输出时进行多元信息的融合,反向传播时通过对损失函数求偏导对参数进行实时更新,在模型测试时利用训练过程中得到的已配置好参数的模型进行情感极性分析。
2.根据权利要求1所述的一种基于层次网络的领域自适应词嵌入的情感分析方法,其特征在于,所述步骤(2)实现过程如下:
将情感数据集表示为G=[(t1,y1),(t2,y2),…,(tn,yn)],其中ti表示数据集中第i个样本,yi是样本对应的标签,n是样本的总数;ti表示为{ui,pi,di}的形式,其中ui代表对应的用户信息,pi代表对应的产品信息,di代表对应的文本信息。
3.根据权利要求1所述的一种基于层次网络的领域自适应词嵌入的情感分析方法,其特征在于,所述步骤(3)包括以下步骤:
(31)将步骤(2)中处理好的评论文本送至领域自适应词嵌入模块,得到能体现用户偏好和产品信息的单词词向量;
(32)将单词向量送至双向长短期记忆网络进行文本特征提取;
(33)将文本特征通过注意力机制来按照重要性进行加权排序,获取句粒度文本特征;
(34)将步骤(33)处理后的句粒度文本特征再输入至(32)中来获取篇章粒度的文本特征;
(35)将步骤(34)处理后的篇章级文本特征通过注意力机制来按照重要性进行加权排序,得到所需篇章级文本特征。
4.根据权利要求1所述的一种基于层次网络的领域自适应词嵌入的情感分析方法,其特征在于,所述步骤(4)通过以下公式实现:
y=softmax(Wcd2+bc)
Figure FDA0002398611130000021
其中,softmax进行归一化,旨在求得一个概率,d2为原数据经处理后的得到的文本特征,Wc和bc分别为权重和偏差,Loss为最小交叉熵损失函数,N是总文本数,C是分类类别数,pj为实际类别,yj为预测类别,λ||Θ||2为正则化项。
5.根据权利要求3所述的一种基于层次网络的领域自适应词嵌入的情感分析方法,其特征在于,步骤(31)所述的领域自适应词嵌入模块是在不含用户信息和产品信息的词向量的基础上加入一个包含用户信息和产品信息的偏差。
CN202010139629.XA 2020-03-03 2020-03-03 一种基于层次网络的领域自适应词嵌入的情感分析方法 Pending CN111368082A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010139629.XA CN111368082A (zh) 2020-03-03 2020-03-03 一种基于层次网络的领域自适应词嵌入的情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010139629.XA CN111368082A (zh) 2020-03-03 2020-03-03 一种基于层次网络的领域自适应词嵌入的情感分析方法

Publications (1)

Publication Number Publication Date
CN111368082A true CN111368082A (zh) 2020-07-03

Family

ID=71206704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010139629.XA Pending CN111368082A (zh) 2020-03-03 2020-03-03 一种基于层次网络的领域自适应词嵌入的情感分析方法

Country Status (1)

Country Link
CN (1) CN111368082A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163372A (zh) * 2020-09-21 2021-01-01 上海玫克生储能科技有限公司 一种动力电池的soc估算方法
CN112434161A (zh) * 2020-11-24 2021-03-02 哈尔滨工程大学 一种采用双向长短期记忆网络的方面级情感分析方法
CN112464281A (zh) * 2020-11-29 2021-03-09 哈尔滨工程大学 基于隐私分组和情感识别的网络信息分析方法
CN112699679A (zh) * 2021-03-25 2021-04-23 北京沃丰时代数据科技有限公司 情绪识别方法、装置、电子设备及存储介质
CN113688204A (zh) * 2021-08-16 2021-11-23 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
CN118154281A (zh) * 2024-05-08 2024-06-07 山东理工职业学院 一种基于人工智能的电子商务评论分析方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163372A (zh) * 2020-09-21 2021-01-01 上海玫克生储能科技有限公司 一种动力电池的soc估算方法
CN112434161A (zh) * 2020-11-24 2021-03-02 哈尔滨工程大学 一种采用双向长短期记忆网络的方面级情感分析方法
CN112434161B (zh) * 2020-11-24 2023-01-03 哈尔滨工程大学 一种采用双向长短期记忆网络的方面级情感分析方法
CN112464281A (zh) * 2020-11-29 2021-03-09 哈尔滨工程大学 基于隐私分组和情感识别的网络信息分析方法
CN112464281B (zh) * 2020-11-29 2022-11-18 深圳市索迪统计科技有限公司 基于隐私分组和情感识别的网络信息分析方法
CN112699679A (zh) * 2021-03-25 2021-04-23 北京沃丰时代数据科技有限公司 情绪识别方法、装置、电子设备及存储介质
CN112699679B (zh) * 2021-03-25 2021-06-29 北京沃丰时代数据科技有限公司 情绪识别方法、装置、电子设备及存储介质
CN113688204A (zh) * 2021-08-16 2021-11-23 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
CN113688204B (zh) * 2021-08-16 2023-04-25 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
CN118154281A (zh) * 2024-05-08 2024-06-07 山东理工职业学院 一种基于人工智能的电子商务评论分析方法及系统

Similar Documents

Publication Publication Date Title
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
Shilpa et al. Sentiment analysis using deep learning
CN108363743A (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN111368086A (zh) 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
Kawintiranon et al. PoliBERTweet: a pre-trained language model for analyzing political content on Twitter
CN111538841B (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN117094291B (zh) 基于智能写作的自动新闻生成系统
Ahanin et al. A multi-label emoji classification method using balanced pointwise mutual information-based feature selection
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
Abdussalam et al. BERT implementation on news sentiment analysis and analysis benefits on branding
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
Suresh Kumar et al. Local search five‐element cycle optimized reLU‐BiLSTM for multilingual aspect‐based text classification
CN115374789A (zh) 基于预训练模型bert的多粒度融合方面级情感分析方法
Wang et al. Joint Learning on Relevant User Attributes in Micro-blog.
CN118278543A (zh) 答案评价模型训练方法、评价方法、装置、设备及介质
Douka et al. Sentiment Analysis with the Use of Transformers and BERT
Bouarara Sentiment analysis using machine learning algorithms and text mining to detect symptoms of mental difficulties over social media
Islam et al. Sentiment analysis of Bangla language using a new comprehensive dataset BangDSA and the novel feature metric skipBangla-BERT
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN115391534A (zh) 文本情感原因识别方法、系统、设备及存储介质
Pustokhina et al. Benchmarking Machine Learning for Sentimental Analysis of Climate Change Tweets in Social Internet of Things.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200703

RJ01 Rejection of invention patent application after publication