CN114266241A - 基于文本和情感极性的评论有用性预测方法、设备及介质 - Google Patents
基于文本和情感极性的评论有用性预测方法、设备及介质 Download PDFInfo
- Publication number
- CN114266241A CN114266241A CN202210000533.4A CN202210000533A CN114266241A CN 114266241 A CN114266241 A CN 114266241A CN 202210000533 A CN202210000533 A CN 202210000533A CN 114266241 A CN114266241 A CN 114266241A
- Authority
- CN
- China
- Prior art keywords
- comment
- vector
- loss function
- usefulness
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000008451 emotion Effects 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 80
- 230000006870 function Effects 0.000 claims abstract description 41
- 239000013604 expression vector Substances 0.000 claims abstract description 26
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000012552 review Methods 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 230000002996 emotional effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供基于文本和情感极性的评论有用性预测方法、设备及介质,方法如下,获取评论数据,对所述评论数据进行编码处理,所述编码处理包括基于词级注意力机制对评论词进行编码获取评论词所在评论句子的表示向量,以及基于句子级注意力机制对评论句子进行编码获取评论的表示向量;将评论的表示向量送入预测模型的两个全连接层,分别获取评论的有用性预测概率和评论情感极性预测概率,并基于交叉熵损失函数构建评论有用性概率预测的第一损失函数和评论情感极性概率预测的第二损失函数,再对所述第一损失函数与第二损失函数进行优化;本申请将评论内容与评论的情感极性结合,通过多任务学习的方式进行模型训练,实现高效率的评论有用性预测。
Description
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及基于文本和情感极性的评论有用性预测方法、设备及介质。
背景技术
网上购物时用户无法直接接触到商品,只能通过图片或商品介绍来了解商品。但这些信息是有限的,消费者在做出购买决定之前,难以从多个角度了解商品;因此商品的评论成为用户了解商品的一个最为重要的渠道。毫无疑问,评论是电子商务网站中宝贵的财富,其中不仅包含了用户对商品特征的详细描述,还囊括了商品或服务的改进意见。
然而,随着电商网站商品和评论的增加,消费者需要花费大量精力去区分评论的质量,这显然是一项耗时且费力的工作,同时大大影响了用户体验。另一方面,企业也希望从评论中获得用户有价值的反馈信息,用于改进商品或服务,提升竞争力在未来的竞争中获得成功,这也是电子商务客户服务的一项关键工作。高质量的评论是反馈信息的重要来源,然而由于评论数量大,质量良莠不齐,这些问题也大大影响了企业从评论中获取信息的效率和质量,由此给电子商务客户服务带来了诸多困难。
因此,能够自动预测评论的有用性将会是一件非常有意义的工作。目前的研究主要是从评论的内容入手,现有的研究团队认为评论内容丰富则将会是比较有用的。但通过大量阅读评论发现,大部分有价值的评论的情感极性是极度正面或者负面的。换句话说,当用户认为一个商品比较好或比较差时,他们更有可能写出有价值的评论。因此,本申请从这个角度入手,将评论的内容和评论的情感极性结合起来用以预测评论的有用性。
发明内容
本发明的目的在于提供基于文本和情感极性的评论有用性预测方法、设备及介质,其通过将评论内容与评论的情感极性相结合,并通过多任务学习的方式进行模型训练,高效的获取进行了评论的有用性预测;同时通过对评论表示向量的分类,进一步提高了评论有用性预测的效率。
本发明的实施例通过以下技术方案实现:
第一方面,提供基于文本和情感极性的评论有用性预测方法,包括如下步骤,
将评论的表示向量送入预测模型的两个全连接层,分别获取评论的有用性预测概率和评论情感极性预测概率,并基于交叉熵损失函数构建评论有用性概率预测的第一损失函数和评论情感极性概率预测的第二损失函数,再对所述第一损失函数与第二损失函数进行优化。
进一步的,所述基于词级注意力机制对评论词进行编码获取评论词所在评论句子的表示向量,包括:
获取评论句子中词的序列,其中l∈[1,L],L表示评论中有L条评论句子,T表示评论句子l中词的数量,通过词嵌入矩阵得到词的表示向量,其中m为词典中词的综述,为表示词向量维度的参数,,,再将评论句子l中的词向量序列送入第一双向GRU网络中,其中第一时间步的计算如下式(1)、(2)所示,
进一步的,所述基于句子级注意力机制对评论句子进行编码获取评论的表示向量,包括:
进一步的,所述评论的有用性预测概率的获取如下式(11)所示,
进一步的,所述评论情感极性预测概率采用softmax函数获取概率分布,如下式(12)所示,
所述对所述第一损失函数与第二损失函数进行优化如下式(15)所示,
进一步的,在将评论的表示向量送入预测模型之前还包括,将所有评论的表示向量基于相似度进行分类,在被分在同一类的评论中选取一条评论,用被选择评论的表示向量代表其所在的评论分类进行评论的有用性预测以及评论情感极性预测。
进一步的,所述将所有评论的表示向量基于相似度进行分类包括,预设相似度阈值区间,当两条评论的向量相似度位于所述相似度阈值区间时,两条评论判定为同一分类。
第二方面,提供一种电子设备,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于文本和情感极性的评论有用性预测方法。
第三方面,一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于文本和情感极性的评论有用性预测方法。
本发明实施例的技术方案至少具有如下优点和有益效果:
本申请通过将评论内容与评论的情感极性相结合,并通过多任务学习的方式进行模型训练,高效的获取进行了评论的有用性预测;同时通过对评论表示向量的分类,进一步提高了评论有用性预测的效率。
附图说明
图1为本发明实施例1提供方法流程示意图;
图2为本发明实施例2提供方法流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
网络购物的评论是购买者了解商品的有用信息之一,也是商家了解用户反馈的重要渠道,但是目前存在大量的刷评论以及无用评论,获取有用评论愈发的困难,基于此,本申请期望通过评论文本与评论的情感极性相结合,并采用多任务学习的方式得到评论有用性预测模型,进而能够在大量评论中快速高效的筛选出有用的评论。
实施例1
本实施例提供基于文本和情感极性的评论有用性预测方法,包括如下步骤,
获取评论数据,并对所述评论数据进行编码处理,所述编码处理包括基于词级注意力机制对评论词进行编码获取评论词所在评论句子的表示向量;其中,所述基于词级注意力机制对评论词进行编码获取评论词所在评论句子的表示向量,包括:
获取评论句子中词的序列,其中l∈[1,L],L表示评论中有L条评论句子,T表示评论句子l中词的数量,通过词嵌入矩阵得到词的表示向量,其中其中m为词典中词的综述,为表示词向量维度的参数,,,再将评论句子l中的词向量序列送入第一双向GRU网络中,其中第一时间步的计算如下式(1)、(2)所示,
由于评论的情感极性对评论有用性预测具有帮助,即评论越是正面或负面,其有用的概率越大,因此我们希望评论的表示向量中能包括评论情感极性的信息,因此我们将评论的表示向量送入预测模型的一全连接层计算情感极性预测概率,具体如下。
所述评论情感极性预测概率采用softmax函数获取概率分布,如下式(12)所示,
再基于交叉熵损失函数构建评论有用性概率预测的第一损失函数和评论情感极性概率预测的第二损失函数;其中,构建评论有用性概率预测的第一损失函数具体为,采用二元交叉熵损失函数构建第一损失函数,如下式(13)所示,
最后再对所述第一损失函数与第二损失函数进行优化如下式(15)所示,
实施例2
在本实施例在实施例1的基础上,考虑了如何增加预测效率的问题,由于很多低质量评论是通过复制粘贴评论的,因此存在大量的评论相同或相似度极高,因此我们可以提前将评论的表示向量进行分类,进而可以将相同或相似度极高的评论归在一个分类中,预测时仅需预测一个分类中的某一个评论即可,即用分类中的一个评论的有用性预测概率来代表该分类的有用性预测概率。
本实施例的具体实施方式如下,在将评论的表示向量送入预测模型之前,将所有评论的表示向量基于相似度进行分类,在被分在同一类的评论中选取一条评论,用被选择评论的表示向量代表其所在的评论分类进行评论的有用性预测以及评论情感极性预测。
可以知晓的是,上述分类可以采用的方法包括:余弦相似度、欧式距离、汉明距离等;将所有的评论的表示向量通过上述方法之一进行分类。
另外需要说明的是,当多个评论的向量相同时,即为相同评论,相同评论必定被分在同一分类中,但是对于相似的评论,其相似度是作为其分类的依据,由于本申请的分类有别于对异常的筛选分类,因此在本申请中,会预设相似度阈值区间,当两条评论的向量相似度位于所述相似度阈值区间时,两条评论判定为同一分类。
如采用余弦相似度进行分类时,当两评论的表示向量的余弦取值在[0.95~1]中时,则被判定为同一分类,其中[0.95~1]为相似度阈值区间;可以知晓的是,相似度阈值区间可根据实际情况进行预设。
当采用欧式距离时,当两评论的表示向量的距离在[0~0.05]中时,则被判定为同一分类,其中[0~0.05]为相似度阈值区间;同样,此时相似度阈值区间可根据实际情况进行预设。
实施例3
本实施例提供一种电子设备,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行实施例1或实施例2所述的基于文本和情感极性的评论有用性预测方法。
实施例4
本实施例提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现实施例1或实施例2所述的基于文本和情感极性的评论有用性预测方法。
本申请通过将评论内容与评论的情感极性相结合,并通过多任务学习的方式进行模型训练,高效的获取进行了评论的有用性预测;同时通过对评论表示向量的分类,进一步提高了评论有用性预测的效率。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
2.根据权利要求1所述的基于文本和情感极性的评论有用性预测方法,其特征在于,所述基于词级注意力机制对评论词进行编码获取评论词所在评论句子的表示向量,包括:
获取评论句子中词的序列,其中l∈[1,L],L表示评论中有L条评论句子,T表示评论句子l中词的数量,通过词嵌入矩阵得到词的表示向量,其中m为词典中词的综述,为表示词向量维度的参数,,,再将评论句子l中的词向量序列送入第一双向GRU网络中,其中第一时间步的计算如下式(1)、(2)所示,
3.根据权利要求2所述的基于文本和情感极性的评论有用性预测方法,其特征在于,所述基于句子级注意力机制对评论句子进行编码获取评论的表示向量,包括:
8.根据权利要求7所述的基于文本和情感极性的评论有用性预测方法,其特征在于,所述将所有评论的表示向量基于相似度进行分类包括,预设相似度阈值区间,当两条评论的向量相似度位于所述相似度阈值区间时,两条评论判定为同一分类。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一项所述的基于文本和情感极性的评论有用性预测方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于文本和情感极性的评论有用性预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210000533.4A CN114266241A (zh) | 2022-01-04 | 2022-01-04 | 基于文本和情感极性的评论有用性预测方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210000533.4A CN114266241A (zh) | 2022-01-04 | 2022-01-04 | 基于文本和情感极性的评论有用性预测方法、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114266241A true CN114266241A (zh) | 2022-04-01 |
Family
ID=80832502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210000533.4A Pending CN114266241A (zh) | 2022-01-04 | 2022-01-04 | 基于文本和情感极性的评论有用性预测方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114266241A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115168677A (zh) * | 2022-06-09 | 2022-10-11 | 天翼爱音乐文化科技有限公司 | 一种评论分类方法、装置、设备及存储介质 |
CN115329775A (zh) * | 2022-10-14 | 2022-11-11 | 成都晓多科技有限公司 | 一种语句中方面类别及情感极性联合识别的方法及系统 |
-
2022
- 2022-01-04 CN CN202210000533.4A patent/CN114266241A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115168677A (zh) * | 2022-06-09 | 2022-10-11 | 天翼爱音乐文化科技有限公司 | 一种评论分类方法、装置、设备及存储介质 |
CN115329775A (zh) * | 2022-10-14 | 2022-11-11 | 成都晓多科技有限公司 | 一种语句中方面类别及情感极性联合识别的方法及系统 |
CN115329775B (zh) * | 2022-10-14 | 2023-03-24 | 成都晓多科技有限公司 | 一种语句中方面类别及情感极性联合识别的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | A context-aware user-item representation learning for item recommendation | |
Ishaq et al. | Aspect-based sentiment analysis using a hybridized approach based on CNN and GA | |
Shilpa et al. | Sentiment analysis using deep learning | |
CN114266241A (zh) | 基于文本和情感极性的评论有用性预测方法、设备及介质 | |
Rauf et al. | Using BERT for checking the polarity of movie reviews | |
CN111738807B (zh) | 用于推荐目标对象的方法、计算设备和计算机存储介质 | |
Jahan et al. | Sentiment analysis of e-commerce consumer based on product delivery time using machine learning | |
Elzeheiry et al. | Sentiment analysis for e-commerce product reviews: Current trends and future directions | |
Ganganwar et al. | Employing synthetic data for addressing the class imbalance in aspect-based sentiment classification | |
Chen et al. | Question-driven purchasing propensity analysis for recommendation | |
Chatterjee et al. | Class-biased sarcasm detection using BiLSTM variational autoencoder-based synthetic oversampling | |
Bharathi et al. | Twitter Text Sentiment Analysis of Amazon Unlocked Mobile Reviews Using Supervised Learning Techniques | |
Hariguna et al. | Adaptive sentiment analysis using multioutput classification: a performance comparison | |
Kang et al. | Label definitions augmented interaction model for legal charge prediction | |
Zafar Ali Khan et al. | Hybrid collaborative fusion based product recommendation exploiting sentiments from implicit and explicit reviews | |
Almazroi et al. | Enhancing aspect-based multi-labeling with ensemble learning for ethical logistics | |
Symum et al. | Sentimental analysis of customer product Reviews to understand customer needs using machine learning | |
Shedekar et al. | Enhancing E-Commerce Insights: Sentiment Analysis Using Machine Learning and Ensemble Techniques | |
Gao | MOOCs video recommendation using low-rank and sparse matrix factorization with inter-entity relations and intra-entity affinity information | |
Bari et al. | Analyzing the Performance of Improved Random Forest Based Amazon Product Review Sentiment Analysis | |
Hawladar et al. | Amazon product reviews sentiment analysis using supervised learning algorithms | |
Kumar et al. | Efficient hotel rating prediction from reviews using ensemble learning technique | |
De Oliveira Silveira et al. | An Unsupervised Algorithm for Qualitative Coding of Text Data: Artifact Design, Application, and Evaluation | |
Rachayya Mathapati | Comparative Study Between Deep Learning and Traditional Machine Learning Models for Sentiment Analysis | |
Deborah et al. | Sentiment Analysis and Machine Learning Algorithm Implementation on Flipkart Product Customer Reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |