CN111950273A

CN111950273A - 基于情感信息抽取分析的网络舆情突发事件自动识别方法

Info

Publication number: CN111950273A
Application number: CN202010757144.7A
Authority: CN
Inventors: 顾学海; 贺成龙; 梁增玉; 陈晓琳; 尹晓阳; 李惠柯; 刘蛰; 高峰
Original assignee: Nanjing Laiwangxin Technology Research Institute Co ltd
Current assignee: Nanjing Laiwangxin Technology Research Institute Co ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-17
Anticipated expiration: 2040-07-31
Also published as: CN111950273B

Abstract

本发明提供了基于情感信息抽取分析的网络舆情突发事件自动识别方法，包括：根据社交媒体采集方法获取海量社交媒体数据以及进行数据过滤清洗等数据预处理；根据历史社交媒体数据训练情感模型，形成情感识别模型；根据情感识别模型，对社交媒体中突发情感进行检测与分析；提取突发情感对应社交媒体标签，通过分词处理识别突发情感对应标签的事件原始关键词，形成事件原始关键词库；提取社交媒体事件关键词，并与关键词库进行匹配，关键词完全匹配并情感状态为未负面时，获取对应事件基本信息，形成突发事件描述。本发明适用于多种社交媒体突发事件的识别，可拓展性高，复用性好，开发代价低，可根据业务需求多维度应用。

Description

基于情感信息抽取分析的网络舆情突发事件自动识别方法

技术领域

本发明涉及自然语言处理与大数据分析领域，特别涉及基于情感信息抽取分析的网络舆情突发事件自动识别方法。

背景技术

互联网技术的不断进步带动了社交网络的蓬勃发展，新浪、微博、脸书等社交网络平台的用户日趋增长，用户通过发表相关新闻事件观点或个人动态，通过关注机制分享简短实时信息，具有一定的时效性和广泛的传播性。大量的社交网络信息中包含了用户对相关事件的观点和态度，通过深度分析此类数据，可以识别出用户的情感倾向和隐含信息，相关分析结果可以协助政府了解民众对相关政策的理解和适应程度，帮助企业识别产品的评价、提高高校对学生动态的认知能力，并对部分突发事件进行识别和提前处置。

现有的突发事件的抽取技术主要通过事件关键词和特征抽取，通过已构建的事件抽取模板实现事件的抽取。现有传统方法存在以下问题(1)社交网络平台信息表述各异，对于事件抽取模板的维护工作量太大(2)社交网络平台所提及的事件种类和内容纷繁复杂，对重点突发事件的识别和判断效果不佳。

发明内容

为解决上述社交网络平台通过事件抽取方式识别突发事件的工作量大和对识别重点突发事件效果不佳的问题，本发明提供了基于情感信息抽取分析的网络舆情突发事件自动识别方法，包括如下步骤：

步骤1，根据社交媒体采集方法获取历史社交媒体数据，并进行数据预处理；

步骤2，根据历史社交媒体数据训练情感模型，形成情感识别模型；

步骤3，根据情感识别模型，对社交媒体中突发情感进行检测与分析；

步骤4，提取突发情感对应社交媒体标签，通过分词处理识别突发情感对应标签的事件原始关键词，形成事件原始关键词库；

步骤5，提取社交媒体事件关键词，并与事件原始关键词库进行匹配，关键词完全匹配并情感状态为未负面时，获取对应事件基本信息，形成突发事件描述，所述事件基本信息包括事件名称、时间、地点、人物。

步骤1包括如下步骤：

步骤1-1，采集历史社交媒体数据，对所采集的历史社交媒体数据通过基于内容的过滤算法，构建URL和内容双重过滤模型，在数据预处理服务器缓存引擎上对URL进行过滤用，同时进行内容过滤处理；

步骤1-2，将经过步骤1-1处理后的数据通过现有成熟的摘要生成模型(参考文献：基于最大边界相关度的抽取式文本摘要模型研究，余传明、郭亚静、朱星宇、安璐)，构建基于语句特征和基于聚类方法的抽取式摘要生成模型，抽取接入文本数据的内容摘要。

步骤1-1包括：

步骤1-1-1：在数据预处理服务器上建立对URL(URL表示网址)进行过滤用的数据库，数据库包括合法URL表White List和非法URL表Black List，两张表均包含URL名和访问次数两个属性，同时分别对两张表建立索引；

步骤1-1-2：在据预处理服务器缓存引擎上进行URL匹配时，使用现有散列函数匹配方法(参考文献：基于散列函数的模式匹配算法，周庆勋)；数据预处理服务器缓存空间满的时候实施URL缓存替换，将最近时间段内未被访问时间间隔最长的URL替换出去；

步骤1-1-3：在数据预处理服务器对应的合法URL表中未发现URL后，如果在数据预处理服务器对应的非法URL表中发现则返回警告并进行过滤；如果未在数据预处理服务器对应的非法URL表中发现则标记为可疑，并进行下一步内容过滤处理。

步骤1-1-4：对于标记为可疑的接入社交媒体页面，通过现有潜在语义索引算法(参考文献：一种潜在语义索引差异模型及其应用，米晓芳)的内容过滤处理后，如果发现信息是合法的则进行输出，同时页面缓存和白名单表进行刷新。

步骤1-1-5：对于标记为可疑的接入社交媒体页面，通过现有潜在语义索引算法(参考文献：一种潜在语义索引差异模型及其应用，米晓芳)的内容过滤处理后，如果信息为广告、导航、娱乐等无用信息，则返回警告，并更新黑名单，不进行信息输出。

步骤2包括如下步骤：

步骤2-1，选取文本摘要提取预处理后社交媒体数据，通过现有句子抽取技术(参考文献：文本摘要问题中的句子抽取方法研究，张龙凯，王厚峰)得到包含主要情感相关信息的句子；

步骤2-2，从步骤2-1得到的句子中抽取结构化文本信息，汇集形成语料；

步骤2-3，基于深度学习方法构建序列标注模型，对结构化文本信息进行情感序列标注，形成情感标注信息；

步骤2-4，通过情感标注信息和情感词的情感权重值计算构建情感词典，并定义情感序列，通过情感词典和情感序列生成情感识别模型。

步骤2-2中，基于Bi-LSTM-CRF网络从步骤2-1得到的句子中抽取结构化信息，具体包括：

步骤2-2-1，利用Word2Vec预训练的词向量解决有监督标注语料不足的问题，使用Skip-gram语言模型在包含情感相关信息的句子上进行词向量的训练，为后续步骤中文本分类和提取结构化文本信息提供基础；

步骤2-2-2，采用现有BiLSTM-CRF模型，通过Bi-LSTM层自动进行文本分类，并提取包含情感相关信息句子的特征，将句子中每个词的词向量序列作为Bi-LSTM层的各个时间状态的输人，再将正向的LSTM输出的隐状态序列和反向LSTM输出的各位置隐状态序列进行位置的拼接；

步骤2-2-3，使用现有查找节点信息方法结合触发词集的局部句子结构规则，提取结构化文本信息，汇集形成语料。

步骤2-4-1，针对步骤2-2中得到的语料，设定C_i表示一个字，C₁...C_n表示一个情感候选词，S^*表示情感词，Freq表示语料中出现情感词的频率，则

其中P(C_i|S^*)表示任一情感词S*中每个组成字C_i的概率，Freq(S^*，C_i)表示语料中出现任一情感词S^*和字C_i的频率，Freq(S^*)表示语料中出现S*的频率；

通过

计算语料中情感词的分布，P(S^*)表示情感词S*的概率，N表示语料中词的集合，W_i表示任一词，通过P(C_i|S^*)和P(S^*)计算情感权重值

其中S表示情感词的情感权重值，

表示正面情感权重，

表示负面情感权重，当S>0时表示正情感词，S<0时表示负情感词，计算出情感候选词的情感权重后，对情感倾向性程度进行排序，重复上述过程最终形成情感词典；

步骤2-4-2，设定Q＝<q1,q2…qn>表示情感序列，则qn表示第n种情感，

其中Q_d表示社交媒体文章d所表达的情感序列，

表示文章d包含情感qn的情况，

的取值为1或0，当d中包含情感qn时为1，否则为0；

步骤2-4-3，对应于突发情感函数f(q)^t表示在时间t处的情感q的情感权重取值，通过对情感识别模型的训练得到当

时表示有突发情感，其中n表示分析时间窗口数。

步骤3包括：根据情感自动识别模型对波动情感特征进行检测分析，识别突发情感，并根据2-4-1中情感权重计算方法分析正面、负面情感倾向。

步骤4包括：

步骤4-1，根据步骤3获得突发情感，提取包含突发情感语料中对应社交媒体标签；

步骤4-2，通过分词处理识别突发情感对应标签的事件原始关键词，形成事件原始关键词库。

步骤4-2包括：

步骤4-2-1，分析并抽取各个词条的词性及出现的次数，以构造一个前缀词典，用于对句子分词的词图扫描，生成句子中所有汉字所可能成词情况所构成的有向无环图；

步骤4-2-2，基于有向无环图，根据各个词条出现的概率求得每一种分词情况的概率，选取最大概率作为分词的结果。

步骤4-2-3，正则处理将待分词语句切分成连续的中文字符或者英文字符，继而构成句子的短语列表，生成短句，用于进行后续的查词典分词；

步骤4-2-4，通过词图扫描将正则处理后的短句根据已有词典，转化成所有可能成词情况所构成的有向无环图，通过计算最大概率路径，获得事情原始关键词分词结果，形成事件原始关键词库。

步骤5包括：

步骤5-1，采用与步骤4-2相同的方法提取社交媒体相关事件关键词；

步骤5-2，将所提取的事件关键词与事件原始关键词库进行匹配对比；

步骤5-3，如果关键词匹配，则通过情感识别模型，识别波动情感，并计算情感权重，识别分析正面、负面情感倾向；

步骤5-4，如果情感状态为负面，获取对应社交媒体文本中事件基本信息，形成突发事件描述。

步骤5-4包括：

步骤5-4-1：对社交媒体数据中带词性的词序列，通过现有卷积神经网络语义特征提取技术提取语义特征；

步骤5-4-2：进行社交媒体数据中句子权重计算和排序；

步骤5-4-3：对社交媒体数据中有序的句子通过现有冗余度计算和多文本文摘选取技术，形成事件摘要。

本发明使用情感识别模型，提取突发情感，构建突发情感对应事件关键词库，对社交信息进行情感和事件关键词提取并与关键词库进行匹配。从而识别突发事件，提出了基于情感信息抽取分析的网络舆情突发事件自动识别方法，包括步骤如下：根据社交媒体采集方法获取海量社交媒体数据以及进行数据过滤清洗等数据预处理；根据历史社交媒体数据训练情感模型，形成情感识别模型；构造情感向量，根据情感识别模型，对社交媒体中突发情感进行检测与分析；提取突发情感对应社交媒体标签，通过分词处理识别突发情感对应标签的事件原始关键词，形成事件原始关键词库；提取社交媒体事件关键词，并与关键词库进行匹配，关键词完全匹配并情感状态为未负面时，获取对应事件基本信息(事件名称、时间、地点、人物)，形成突发事件描述。

本发明的社交媒体数据预处理包括对所采集社交媒体数据通过基于内容过滤算法，构建URL-内容双重过滤模型，在缓存引擎上建立对URL进行过滤用的数据库，同时进行内容过滤处理。将上述处理后的数据通过现有摘要生成模型，构建基于语句特征和基于聚类方法的抽取式摘要生成模型，抽取接入文本数据的内容摘要。

本发明的社交媒体数据情感识别模型训练与构建包括选取文本主题提取预处理后社交媒体数据，通过句子抽取技术得到包含主要情感相关信息的句子。从提取到的句子中抽取结构化信息，基于Bi-LSTM-CRF网络的结构化信息抽取，可以看作情感序列标注任务。基于深度学习方法构建序列标注模型，可以不依赖规则人工制定特征模板，生成情感识别模型。

本发明的基于情感信息抽取分析的网络舆情突发事件识别涉及基于关键词提取的自动摘要，通过谱聚类方法进行事件关键词抽取，通过情感特征检测分析模型识别波动情感，并与事件原始关键词库对比，实现突发事件识别。

有益效果：本发明提出一种基于情感信息抽取分析的网络突发事件自动识别技术可应用于互联网社交媒体数据分析应用场景，可提供多领域多种社交媒体的的突发事件识别。适用于多种社交媒体突发事件的识别，可拓展性高，复用性好，开发代价低，可根据业务需求多维度应用，便于从社交媒体大数据中自动识别可能发生的突发事件，为各领域部门领导及时发现和掌控突发事件，为应急处置提供辅助决策的数据依据。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的突发事件识别整体流程图。

图2是本发明的URL、内容双重过滤模型。

图3是本发明的节点内容提取流程图。

图4是本发明的结构化信息抽取BiLSTM-CRF模型图。

图5是本发明的情感词典构建过程图。

图6是本发明的分词示意图。

具体实施方式

本发明提供了基于情感信息抽取分析的网络舆情突发事件自动识别方法，图1是本发明方法整体流程图。本发明的目的是解决社交网络平台通过事件抽取方式识别突发事件的工作量大和对识别重点突发事件效果不佳的问题，提出了基于情感信息抽取分析的网络舆情突发事件自动识别方法。如图1所示，该方法通过以下五个步骤实现，1)海量社交媒体数据预处理；2)情感识别模型构建与训练；3)构造情感向量，根据情感识别模型，对社交媒体中突发情感进行检测与分析；4)提取突发情感对应社交媒体标签，通过分词处理识别突发情感对应标签的事件原始关键词，形成事件原始关键词库；5)提取社交媒体事件关键词，并与关键词库进行匹配，关键词完全匹配并情感状态为未负面时，获取对应事件基本信息(事件名称、时间、地点、人物)，形成突发事件描述。

下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述，以微博数据相关处理为例。

步骤1：使用数据预处理算法对社交媒体数据进行数据过滤和文本主题提取的预处理。具体包括以下步骤：

步骤1.1：使用基于URL、内容双重过滤模型进行数据过滤如图2所示，具体数据过滤步骤如下：

步骤1.1.1：在微博数据预处理引擎上建立对URL进行过滤用的数据库，包括合法URL表(White List)和非法URL表(Black List)，两者均包含URL名和访问次数两个属性，同时分别对两张表建立索引。

步骤1.1.2：在微博数据预处理缓冲区中进行URL匹配时，使用散列匹配方法，提高匹配效率；缓冲区空间满的时候实施LRU(Least RecentlyUsed)缓冲区替换算法将最近时间段内未被访问时间间隔最长的URL替换出去；

步骤1.1.3：在微博合法URL白名单中未发现URL后若在黑名单中发现则返回警告并进行过滤。若未在黑名单中发现则标记为可疑，并进行下一步内容过滤处理。

步骤1.1.4：对于标记为可疑的接入社交媒体页面，经内容过滤处理后，若发现信息是合法的则进行输出，同时页面缓存和白名单也按一定规则进行刷新。

步骤1.1.5：若信息判定为垃圾信息，则返回警告，并更新黑名单，不进行信息输出。

步骤1.2：将上述处理后的微博数据通过现有成熟摘要生成模型，构建基于语句特征和基于聚类方法的抽取式摘要生成模型抽取接入文本数据的微博内容摘要。

步骤2：根据历史社交媒体数据经过步骤1数据预处理后数据训练情感模型，形成情感识别模型，具体步骤包括如下：

步骤2.1：选取文本主题提取预处理后微博社交媒体数据，通过句子抽取技术得到包含主要情感相关信息的句子，如“拒绝毒品”，“抵制外货”等，如图3所示，具体句子抽取步骤如下：

步骤2.1.1：微博社交媒体句子抽取技术利用CatalogTree的树状结构便于抽取节点信息的特性，自定义抽取节点信息方法，结合标题规则与句子触发词集进行特定标题下的句子抽取。

步骤2.1.2：调用文档结构树封装好的方法，根据标题规则得到所有符合规则的标题节点，从而进一步提取包含微博特定字段信息的节点内容。

步骤2.2：从提取到的句子中抽取结构化信息，基于Bi-LSTM-CRF网络的结构化信息抽取，实现微博信息中情感序列标注任务，结构化信息抽取原理如图4所示，具体抽取步骤包括如下：

步骤2.2.1：利用Word2Vec预训练的微博词向量解决有监督标注语料不足的问题。使用Skip-gram语言模型在无标注语料上进行微博词向量的训练。

步骤2.2.2：通过Bi-LSTM层，自动提取微博信息中句子特征。将句子中每个词的词向量序列作为Bi-LSTM的各个时间状态的输人，再将正向的LSTM输出的隐状态序列和反向LSTM输出的各位置隐状态序列进行位置的拼接。

步骤2.2.3：使用查找节点信息方法及触发词集的局部句子结构规则，能够快速便捷提取到微博信息句，CRF层的参数是一个矩阵A，A_i+j表示的是从第i个标签到第j个标签的转移得分。

步骤2.3：通过基于深度学习方法构建序列标注模型，此方法可以不依赖规则人工制定特征模板。

步骤2.4：通过微博情感词典构建和情感序列定义生成情感识别模型。具体步骤如下：

步骤2.4.1：情感词典构建涉及现给定语料及一部情感词典，设定C_i表示字，C₁...C_n表示一个情感候选词，S^*表示情感词，Freq表示语料中出现的频率，则

通过

计算语料中情感词的分布，N表示语料中词的集合，W_i表示任一词，通过P(C_i|S^*)和P(S^*)计算情感权重值

当S>0时表示正情感词，S<0时表示负情感词，如图5所示是情感词典构建过程图，针对互联网采集的微博信息语料进行数据预处理后，首先通过词频统计构建情感词典，计算出字的情感权重，然后选取情感候选词，统计候选情感词的分布从而计算出候选情感词的情感权重，最后通过情感倾向判断对情感倾向进行排序，重复上述过程最终形成情感词典。

步骤2.4.2：微博情感序列定义与识别涉及设定Q＝<q1,q2…qn>表示情感序列，则qj表示某一种情感。社交网络内容为d，

其中

的取值为1或0，当d中包含情感qn时为1，不包含时为0。对应于突发情感函数f(q)^t表示qjz在时间t处的情感取值。

步骤2.4.3：通过对微博情感识别模型的训练得到当

时表示有突发情感，其中n表示分析时间窗口数。

步骤3：通过构建的微博情感向量和情感识别模型，对社交媒体微博中突发情感进行检测与分析，识别突发情感，并分析正面、负面情感倾向。

步骤4：事件原始关键词库的构建，具体步骤包括如下：

步骤4.1：提取突发情感对应微博社交媒体标签。

步骤4.2：通过分词处理识别突发情感对应标签的事件原始关键词，形成事件原始关键词库。其中分词处理如图6所示，具体步骤包括如下：

步骤4.2.1：分析并抽取各个词条的词性及出现的次数，以构造一个前缀词典，用于对句子分词的词图扫描，生成句子中所有汉字所可能成词情况所构成的有向无环图。

步骤4.2.2：对于所有可能情况的有向无环图，根据各个词条出现的概率求得每一种分词情况的概率，选取最大概率作为分词的结果。

步骤4.2.3：将待分词语句切分成连续的中文字符，英文字符等，继而构成句子的短语列表，用于进行后续的查词典分词。切分的方式可以根据空格、标点符号、特殊符号。

步骤4.2.4：通过词图扫描将正则处理后的语句根据上述词典，转化成所有可能成词情况所构成的有向无环图，即几种可能的句子切分。通过计算最大概率路径，获得分词结果。

步骤5：获取事件信息，形成突发事件描述，具体步骤如下：

步骤5.1：提取社交媒体微博相关事件关键词；

步骤5.2：将所提取的事件关键词与关键词库进行匹配对比；

步骤5.3：若关键词匹配，并且情感状态为未负面，通过情感特征检测分析模型识别波动情感。

步骤5.4：若情感状态为负面，获取对应事件基本信息(事件名称、时间、地点、人物)，形成突发事件描述。具体步骤如下：

步骤5.4.1：通过对带词性的词序列进行语义特征提取；

步骤5.4.2：句子权重计算和排序；

步骤5.4.3：对有序的句子进行句子冗余度计算和文摘句选取，形成事件摘要。

本发明提供了基于情感信息抽取分析的网络舆情突发事件自动识别方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。