CN110888983B

CN110888983B - 一种正负面情感分析方法、终端设备及存储介质

Info

Publication number: CN110888983B
Application number: CN201911171315.1A
Authority: CN
Inventors: 马涛; 栾江霞; 章正道; 徐晓文
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2022-07-15
Anticipated expiration: 2039-11-26
Also published as: CN110888983A

Abstract

本发明涉及一种正负面情感分析方法、终端设备及存储介质，该方法中包括：S1：构建和维护对应不同行业的行业关键词规则和行业情感词典；S2：判断待分析的文本数据中是否包含行业关键词规则中所包含的关键词，如果包含，进入S3；否则，进入S4；S3：根据关键词所属的行业和行业所对应的行业关键词规则，判断该文本数据所属的所有行业后，根据每个行业对应的行业情感词典计算每个行业的情感得分，进而获得该文本数据的情感正负面分析结果；S4：通过训练后的机器学习模型得到该文本数据的情感正负面分析结果。本发明采用基于行业情感词与机器学习模型融合的情感分析方法，将网络文本分而治之，提高分析效果。

Description

一种正负面情感分析方法、终端设备及存储介质

技术领域

本发明涉及文本分析技术领域，尤其涉及一种正负面情感分析方法、终端设备及存储介质。

背景技术

爆发式增长的网络数据对数据的分析提出了更多和更高的要求。文本分析和挖掘技术是目前被广泛应用的一项技术，通过相应的技术和方法对文本的语义内容进行抽取，进而对文本进行分类、聚类、情感正负面分析等一系列操作，主要用于商品推荐，舆情分析，文本搜索等领域。

在舆情分析中，需要对网络中舆情在不同的主题下进行整理和分析，例如对采集到的文本进行情感正负面分析，自动识别出贴文的情感正负面倾向，让企业、政府更好的把握网络舆情的发展情况，为之后舆论引导提供基础。因此，对于采集到的文本进行文本情感正负面分析是舆情分析中一个相对重要的环节。

在文本分类相关技术中，目前的情感分析主要分为基于词典和基于机器学习两种方法。基于情感词典的方法主要需要可靠的情感词典等知识库，基于机器学习的方法需要较大量的标注样本。舆情领域需要分析的文本数据非常庞杂，其根据业务需求大体可以分为通用领域与行业领域。在通用领域，高质量的通用领域情感词典非常少，加之基于情感词典基于规则的算法特性，没有充分考虑语义信息，故在通用领域使用基于情感词典的算法效果不理想。而基于机器学习的算法，尤其是深度学习近年兴起，能够很好的结合语义信息，加之通用领域有很多质量不错的开源样本或者开源模型，使得通用领域的情感分析在基于深度学习算法表现尚可。但在特殊行业领域，人工收集高质量的情感知识库变得可能，特殊行业中的情感分析对于语义依赖相对较少，通过情感知识库就能获得不错的效果，而收集大量的行业标注样本费时费力。

发明内容

基于上述问题，本发明提出了一种正负面情感分析方法、终端设备及存储介质，采用基于行业情感词与机器学习模型融合的情感分析方法，将网络文本分而治之，行业领域数据(如财经等)通过基于行业情感词典的算法分析，通用领域数据通过机器学习模型的算法分析，提高整体的分析效果。

具体方案如下：

一种正负面情感分析方法，包括以下步骤：

S1：构建和维护对应不同行业的行业关键词规则和行业情感词典，所述行业情感词典中包含能够表示该行业的类型的主体词和能够表示该行业情感的情感词；

S2：判断待分析的文本数据中是否包含行业关键词规则中所包含的关键词，如果包含，进入S3；否则，进入S4；

S3：根据关键词所属的行业和行业所对应的行业关键词规则，判断该文本数据所属的所有行业后，根据每个行业对应的行业情感词典计算每个行业的情感得分，进而获得该文本数据的情感正负面分析结果；

S4：通过训练后的机器学习模型得到该文本数据的情感正负面分析结果。

进一步的，步骤S3中判断文本数据所属的所有行业的方法为：根据文本数据包含的所有关键词，计算每个行业对应的行业关键词规则的布尔运算结果，根据结果来判断是否属于该行业。

进一步的，每个行业对应一个行业关键词规则，当该行业关键词规则的布尔运算结果为真时，判定属于该行业，结果为假时，判定不属于该行业。

进一步的，每个行业对应多个行业关键词规则，当有一个行业关键词规则的布尔运算结果为真时，判定属于该行业，所有结果均为假时，判定不属于该行业。

进一步的，所述行业关键词规则为多个关键词之间的布尔运算。

进一步的，文本数据在每个行业下的情感得分的计算过程为：

将文本数据划分为多个句子，根据文本数据所属的行业对应的行业情感词典，识别每个句子中包含的情感词和主体词，计算每个句子的情感得分Score_sentence：

其中，下标w表示情感词，Score_w表示行业情感词典中记录的该情感词w的情感得分，d_w表示主体词与情感词w的词间距离；

根据每个句子的情感得分Score_sentence和文本数据的文本长度，计算文本数据的情感得分Score_content：

其中：len_content表示文本数据的文本长度。

进一步的，根据文本数据的情感得分获得该文本数据的情感正负面分析结果的方法为：

当文本数据只属于一个行业时，当情感得分为正时，为正面情感；当情感得分为负时，为负面情感；当情感得分为零时，为中间情感；

当文本数据属于至少两个行业时，计算每个行业下的情感得分，再根据投票法判定文本数据属于正面情感、中间情感或负面情感。

进一步的，所述机器学习模型为BiLSTM深度循环网络模型。

一种正负面情感分析终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，通过基于行业情感词与机器学习模型融合的情感分析方法，将网络文本分而治之，行业领域数据(如财经等)通过基于行业情感词典的算法分析，只需维护一套行业关键词规则与行业情感词典，不同行业加载不同的情感词典与引入主体词和词间距，有效提高行业文本的情感分析效果；通用领域文本则采用目前流程的机器学习模型算法，提高整体的情感分析效果。

附图说明

图1所示为本发明实施例一的流程图。

图2所示为本发明实施例一中BiLSTM深度循环网络模型的工作流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种正负面情感分析方法，如图1所示，所述方法包括以下步骤：

S1：构建和维护对应不同行业的行业关键词规则和行业情感词典。

所述行业情感词典中包含能够表示该行业的类型的主体词，如涉警行业的主体词包括：警察、jc、交警等等，和能够表示该行业情感的情感词。

每个行业可以对应一个或多个行业关键词规则，每个行业关键词规则均为多个关键词之间的布尔运算，如该实施例中设定的行业关键词规则的格式为：词1||词2||词3&&词4&&！词5，其中：||表示逻辑或运算，&&表示逻辑与运算，！表示逻辑非运算，逻辑运算符之间可以用“()”指定运算优先级。

S2：判断待分析的文本数据中是否包含行业关键词规则中所包含的关键词，如果包含，进入S3；否则，进入S4。

该实施例中通过AC自动机算法来判断文本数据中是否包含关键词。

S3：根据关键词所属的行业和行业所对应的行业关键词规则，判断该文本数据所属的所有行业后，根据每个行业对应的行业情感词典计算每个行业的情感得分，进而获得该文本数据的情感正负面分析结果。

(1)行业判定

判断文本数据所属的所有行业的方法为：根据文本数据包含的所有关键词，计算每个行业对应的行业关键词规则的布尔运算结果，根据结果来判断是否属于该行业。

该实施例中，将行业关键词规则中的关键词用“真”或“假”替换，将文本数据中包含的关键词设为真，没有包含的关键词设为假，如文本数据中包含词1、词3、词5，没有包含词2与词4，则将规则改写成：真||假||真&&假&&！真，之后对改写后的结果进行布尔运算得到最终结果。该实施例中采用高效的FEL布尔运算引擎进行布尔运算。

当每个行业对应一个行业关键词规则，当该行业关键词规则的布尔运算结果为真时，判定属于该行业，结果为假时，判定不属于该行业。

当每个行业对应至少两个行业关键词规则，当有一个行业关键词规则的布尔运算结果为真时，判定属于该行业，所有结果均为假时，判定不属于该行业。

(2)情感得分计算

文本数据在每个行业下的情感得分的计算过程为：

A.将文本数据划分为多个句子，根据文本数据所属的行业对应的行业情感词典，识别每个句子中包含的情感词和主体词，计算每个句子的情感得分Score_sentence：

其中，下标w表示情感词，Score_w表示行业情感词典中记录的该情感词w的情感得分，d_w表示主体词与情感词w的词间距离。

句子中情感词离主体词越近权重越高。若长句中不包含主体词，则情感词的权重为0或者一个小于包含主体词权重的值，该实施例中优选设置为0。

该实施例中，所述句子的划分为通过“。”来进行划分。

B.根据每个句子的情感得分Score_sentence和文本数据的文本长度，计算文本数据的情感得分Score_content：

其中：len_content表示文本数据的文本长度。

(3)感正负面分析结果的判定

情感得分为正数时，通常为正面情感，越大则表示为正面的概率越大；

情感得分为负数时，通常为负面情感，越小则表示为正面的概率越大。

因此，该实施例中设定正面情感阈值和负面情感阈值，针对每一个行业，当文本数据的情感得分大于正面情感阈值时为正面情感，小于负面情感阈值为负面情感，介于正面情感阈值和负面情感阈值之间时为中间情感。

当文本数据属于至少两个行业时，通过投票法进行判定，即当文本数据属于该行业的正面情感的行业个数大于文本数据属于该行业的负面情感的行业个数时，为正面情感；当文本数据属于该行业的正面情感的行业个数小于文本数据属于该行业的负面情感的行业个数时，为负面情感；当文本数据属于该行业的正面情感的行业个数等于文本数据属于该行业的负面情感的行业个数时，为中间情感。

所述训练为通过互联网上查找的大量带标注的文本数据进行训练。

该实施例中所述机器学习模型采用BiLSTM深度循环网络模型。

BiLSTM深度循环网络模型，结合文本的正反两个方向的语序与深度语义信息，也通过LSTM门控结果，解决了长时依赖问题，是目前在自然语言处理领域使用最广泛的一种结构。

如图2所示，该实施例中首先对该文本数据进行分词处理，然后通过embedding层将每个词表示为一个稠密的向量，然后通过正反两个LSTM网络模块，得到两个隐含层向量，将两个隐含层向量做concat操作以拼接，最终通过softmax层得到该文本数据的情感正负面分析结果。

本发明实施例一通过基于行业情感词与机器学习模型融合的情感分析方法，将网络文本分而治之，行业领域数据(如财经等)通过基于行业情感词典的算法分析，只需维护一套行业关键词规则与行业情感词典，不同行业加载不同的情感词典与引入主体词和词间距，有效提高行业文本的情感分析效果；通用领域文本则采用目前流程的机器学习模型算法，基于BiLSTM深度模型的算法分析，提高整体的情感分析效果。具体具有以下有益效果：

(1)引入行业关键词规则，将文本划分到具体的行业分类中，再加载具体行业的情感词，实现文本与行业情感词关联分析的目的，提高特定行业的情感分析准确率，后期可根据实际效果方便的添加相关行业的情感词与行业关键词规则，提升分类效果。

(2)引入BiLSTM深度循环网络模型，此模型结合文本的正反两个方向的语序信息，也有效的解决了长时依赖问题，提升模型的预测效果。可以在互联网上找到相关语料训练模型，亦可找到相关通用领域的初始模型，后期可以根据不断的样本累加，在原有模型的基础上，运用迁移学习技术优化训练模型，提升模型预测效果。

(3)将基于行业情感词与基机器学习模型的方法融合，命中行业关键词规则的通过情感词典预测，其他数据通过机器学习模型预测。

实施例二：

本发明还提供一种正负面情感分析终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述正负面情感分析终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述正负面情感分析终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述正负面情感分析终端设备的组成结构仅仅是正负面情感分析终端设备的示例，并不构成对正负面情感分析终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述正负面情感分析终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述正负面情感分析终端设备的控制中心，利用各种接口和线路连接整个正负面情感分析终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述正负面情感分析终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述正负面情感分析终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种正负面情感分析方法，其特征在于，包括以下步骤：

S3：根据关键词所属的行业和行业所对应的行业关键词规则，判断该文本数据所属的所有行业后，根据每个行业对应的行业情感词典计算每个行业的情感得分，进而获得该文本数据的情感正负面分析结果；文本数据在每个行业下的情感得分的计算过程为：

其中：len_content表示文本数据的文本长度；

根据文本数据的情感得分获得该文本数据的情感正负面分析结果的方法为：当文本数据只属于一个行业时，根据情感得分与设定的阈值的大小关系来判定文本数据属于正面情感、中间情感或负面情感；当文本数据属于至少两个行业时，计算每个行业下的情感得分，再根据投票法判定文本数据属于正面情感、中间情感或负面情感；

2.根据权利要求1所述的正负面情感分析方法，其特征在于：判断文本数据所属的所有行业的方法为：根据文本数据包含的所有关键词，计算每个行业对应的行业关键词规则的布尔运算结果，根据结果来判断是否属于该行业。

3.根据权利要求2所述的正负面情感分析方法，其特征在于：每个行业对应一个行业关键词规则，当该行业关键词规则的布尔运算结果为真时，判定属于该行业，结果为假时，判定不属于该行业。

4.根据权利要求2所述的正负面情感分析方法，其特征在于：每个行业对应至少两个行业关键词规则，当有一个行业关键词规则的布尔运算结果为真时，判定属于该行业，所有结果均为假时，判定不属于该行业。

5.根据权利要求1所述的正负面情感分析方法，其特征在于：所述行业关键词规则为多个关键词之间的布尔运算。

6.根据权利要求1所述的正负面情感分析方法，其特征在于：所述机器学习模型为BiLSTM深度循环网络模型。

7.一种正负面情感分析终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～6中任一所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～6中任一所述方法的步骤。