[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111950273A - 基于情感信息抽取分析的网络舆情突发事件自动识别方法 - Google Patents

基于情感信息抽取分析的网络舆情突发事件自动识别方法 Download PDF

Info

Publication number
CN111950273A
CN111950273A CN202010757144.7A CN202010757144A CN111950273A CN 111950273 A CN111950273 A CN 111950273A CN 202010757144 A CN202010757144 A CN 202010757144A CN 111950273 A CN111950273 A CN 111950273A
Authority
CN
China
Prior art keywords
emotion
social media
word
event
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010757144.7A
Other languages
English (en)
Other versions
CN111950273B (zh
Inventor
顾学海
贺成龙
梁增玉
陈晓琳
尹晓阳
李惠柯
刘蛰
高峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Laiwangxin Technology Research Institute Co ltd
Original Assignee
Nanjing Laiwangxin Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Laiwangxin Technology Research Institute Co ltd filed Critical Nanjing Laiwangxin Technology Research Institute Co ltd
Priority to CN202010757144.7A priority Critical patent/CN111950273B/zh
Publication of CN111950273A publication Critical patent/CN111950273A/zh
Application granted granted Critical
Publication of CN111950273B publication Critical patent/CN111950273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了基于情感信息抽取分析的网络舆情突发事件自动识别方法,包括:根据社交媒体采集方法获取海量社交媒体数据以及进行数据过滤清洗等数据预处理;根据历史社交媒体数据训练情感模型,形成情感识别模型;根据情感识别模型,对社交媒体中突发情感进行检测与分析;提取突发情感对应社交媒体标签,通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库;提取社交媒体事件关键词,并与关键词库进行匹配,关键词完全匹配并情感状态为未负面时,获取对应事件基本信息,形成突发事件描述。本发明适用于多种社交媒体突发事件的识别,可拓展性高,复用性好,开发代价低,可根据业务需求多维度应用。

Description

基于情感信息抽取分析的网络舆情突发事件自动识别方法
技术领域
本发明涉及自然语言处理与大数据分析领域,特别涉及基于情感信息抽取分析的网络舆情突发事件自动识别方法。
背景技术
互联网技术的不断进步带动了社交网络的蓬勃发展,新浪、微博、脸书等社交网络平台的用户日趋增长,用户通过发表相关新闻事件观点或个人动态,通过关注机制分享简短实时信息,具有一定的时效性和广泛的传播性。大量的社交网络信息中包含了用户对相关事件的观点和态度,通过深度分析此类数据,可以识别出用户的情感倾向和隐含信息,相关分析结果可以协助政府了解民众对相关政策的理解和适应程度,帮助企业识别产品的评价、提高高校对学生动态的认知能力,并对部分突发事件进行识别和提前处置。
现有的突发事件的抽取技术主要通过事件关键词和特征抽取,通过已构建的事件抽取模板实现事件的抽取。现有传统方法存在以下问题(1)社交网络平台信息表述各异,对于事件抽取模板的维护工作量太大(2)社交网络平台所提及的事件种类和内容纷繁复杂,对重点突发事件的识别和判断效果不佳。
发明内容
为解决上述社交网络平台通过事件抽取方式识别突发事件的工作量大和对识别重点突发事件效果不佳的问题,本发明提供了基于情感信息抽取分析的网络舆情突发事件自动识别方法,包括如下步骤:
步骤1,根据社交媒体采集方法获取历史社交媒体数据,并进行数据预处理;
步骤2,根据历史社交媒体数据训练情感模型,形成情感识别模型;
步骤3,根据情感识别模型,对社交媒体中突发情感进行检测与分析;
步骤4,提取突发情感对应社交媒体标签,通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库;
步骤5,提取社交媒体事件关键词,并与事件原始关键词库进行匹配,关键词完全匹配并情感状态为未负面时,获取对应事件基本信息,形成突发事件描述,所述事件基本信息包括事件名称、时间、地点、人物。
步骤1包括如下步骤:
步骤1-1,采集历史社交媒体数据,对所采集的历史社交媒体数据通过基于内容的过滤算法,构建URL和内容双重过滤模型,在数据预处理服务器缓存引擎上对URL进行过滤用,同时进行内容过滤处理;
步骤1-2,将经过步骤1-1处理后的数据通过现有成熟的摘要生成模型(参考文献:基于最大边界相关度的抽取式文本摘要模型研究,余传明、郭亚静、朱星宇、安璐),构建基于语句特征和基于聚类方法的抽取式摘要生成模型,抽取接入文本数据的内容摘要。
步骤1-1包括:
步骤1-1-1:在数据预处理服务器上建立对URL(URL表示网址)进行过滤用的数据库,数据库包括合法URL表White List和非法URL表Black List,两张表均包含URL名和访问次数两个属性,同时分别对两张表建立索引;
步骤1-1-2:在据预处理服务器缓存引擎上进行URL匹配时,使用现有散列函数匹配方法(参考文献:基于散列函数的模式匹配算法,周庆勋);数据预处理服务器缓存空间满的时候实施URL缓存替换,将最近时间段内未被访问时间间隔最长的URL替换出去;
步骤1-1-3:在数据预处理服务器对应的合法URL表中未发现URL后,如果在数据预处理服务器对应的非法URL表中发现则返回警告并进行过滤;如果未在数据预处理服务器对应的非法URL表中发现则标记为可疑,并进行下一步内容过滤处理。
步骤1-1-4:对于标记为可疑的接入社交媒体页面,通过现有潜在语义索引算法(参考文献:一种潜在语义索引差异模型及其应用,米晓芳)的内容过滤处理后,如果发现信息是合法的则进行输出,同时页面缓存和白名单表进行刷新。
步骤1-1-5:对于标记为可疑的接入社交媒体页面,通过现有潜在语义索引算法(参考文献:一种潜在语义索引差异模型及其应用,米晓芳)的内容过滤处理后,如果信息为广告、导航、娱乐等无用信息,则返回警告,并更新黑名单,不进行信息输出。
步骤2包括如下步骤:
步骤2-1,选取文本摘要提取预处理后社交媒体数据,通过现有句子抽取技术(参考文献:文本摘要问题中的句子抽取方法研究,张龙凯,王厚峰)得到包含主要情感相关信息的句子;
步骤2-2,从步骤2-1得到的句子中抽取结构化文本信息,汇集形成语料;
步骤2-3,基于深度学习方法构建序列标注模型,对结构化文本信息进行情感序列标注,形成情感标注信息;
步骤2-4,通过情感标注信息和情感词的情感权重值计算构建情感词典,并定义情感序列,通过情感词典和情感序列生成情感识别模型。
步骤2-2中,基于Bi-LSTM-CRF网络从步骤2-1得到的句子中抽取结构化信息,具体包括:
步骤2-2-1,利用Word2Vec预训练的词向量解决有监督标注语料不足的问题,使用Skip-gram语言模型在包含情感相关信息的句子上进行词向量的训练,为后续步骤中文本分类和提取结构化文本信息提供基础;
步骤2-2-2,采用现有BiLSTM-CRF模型,通过Bi-LSTM层自动进行文本分类,并提取包含情感相关信息句子的特征,将句子中每个词的词向量序列作为Bi-LSTM层的各个时间状态的输人,再将正向的LSTM输出的隐状态序列和反向LSTM输出的各位置隐状态序列进行位置的拼接;
步骤2-2-3,使用现有查找节点信息方法结合触发词集的局部句子结构规则,提取结构化文本信息,汇集形成语料。
步骤2-4-1,针对步骤2-2中得到的语料,设定Ci表示一个字,C1...Cn表示一个情感候选词,S*表示情感词,Freq表示语料中出现情感词的频率,则
Figure BDA0002611956880000031
其中P(Ci|S*)表示任一情感词S*中每个组成字Ci的概率,Freq(S*,Ci)表示语料中出现任一情感词S*和字Ci的频率,Freq(S*)表示语料中出现S*的频率;
通过
Figure BDA0002611956880000032
计算语料中情感词的分布,P(S*)表示情感词S*的概率,N表示语料中词的集合,Wi表示任一词,通过P(Ci|S*)和P(S*)计算情感权重值
Figure BDA0002611956880000041
其中S表示情感词的情感权重值,
Figure BDA0002611956880000042
表示正面情感权重,
Figure BDA0002611956880000043
表示负面情感权重,当S>0时表示正情感词,S<0时表示负情感词,计算出情感候选词的情感权重后,对情感倾向性程度进行排序,重复上述过程最终形成情感词典;
步骤2-4-2,设定Q=<q1,q2…qn>表示情感序列,则qn表示第n种情感,
Figure BDA0002611956880000044
其中Qd表示社交媒体文章d所表达的情感序列,
Figure BDA0002611956880000045
表示文章d包含情感qn的情况,
Figure BDA0002611956880000046
的取值为1或0,当d中包含情感qn时为1,否则为0;
步骤2-4-3,对应于突发情感函数f(q)t表示在时间t处的情感q的情感权重取值,通过对情感识别模型的训练得到当
Figure BDA0002611956880000047
时表示有突发情感,其中n表示分析时间窗口数。
步骤3包括:根据情感自动识别模型对波动情感特征进行检测分析,识别突发情感,并根据2-4-1中情感权重计算方法分析正面、负面情感倾向。
步骤4包括:
步骤4-1,根据步骤3获得突发情感,提取包含突发情感语料中对应社交媒体标签;
步骤4-2,通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库。
步骤4-2包括:
步骤4-2-1,分析并抽取各个词条的词性及出现的次数,以构造一个前缀词典,用于对句子分词的词图扫描,生成句子中所有汉字所可能成词情况所构成的有向无环图;
步骤4-2-2,基于有向无环图,根据各个词条出现的概率求得每一种分词情况的概率,选取最大概率作为分词的结果。
步骤4-2-3,正则处理将待分词语句切分成连续的中文字符或者英文字符,继而构成句子的短语列表,生成短句,用于进行后续的查词典分词;
步骤4-2-4,通过词图扫描将正则处理后的短句根据已有词典,转化成所有可能成词情况所构成的有向无环图,通过计算最大概率路径,获得事情原始关键词分词结果,形成事件原始关键词库。
步骤5包括:
步骤5-1,采用与步骤4-2相同的方法提取社交媒体相关事件关键词;
步骤5-2,将所提取的事件关键词与事件原始关键词库进行匹配对比;
步骤5-3,如果关键词匹配,则通过情感识别模型,识别波动情感,并计算情感权重,识别分析正面、负面情感倾向;
步骤5-4,如果情感状态为负面,获取对应社交媒体文本中事件基本信息,形成突发事件描述。
步骤5-4包括:
步骤5-4-1:对社交媒体数据中带词性的词序列,通过现有卷积神经网络语义特征提取技术提取语义特征;
步骤5-4-2:进行社交媒体数据中句子权重计算和排序;
步骤5-4-3:对社交媒体数据中有序的句子通过现有冗余度计算和多文本文摘选取技术,形成事件摘要。
本发明使用情感识别模型,提取突发情感,构建突发情感对应事件关键词库,对社交信息进行情感和事件关键词提取并与关键词库进行匹配。从而识别突发事件,提出了基于情感信息抽取分析的网络舆情突发事件自动识别方法,包括步骤如下:根据社交媒体采集方法获取海量社交媒体数据以及进行数据过滤清洗等数据预处理;根据历史社交媒体数据训练情感模型,形成情感识别模型;构造情感向量,根据情感识别模型,对社交媒体中突发情感进行检测与分析;提取突发情感对应社交媒体标签,通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库;提取社交媒体事件关键词,并与关键词库进行匹配,关键词完全匹配并情感状态为未负面时,获取对应事件基本信息(事件名称、时间、地点、人物),形成突发事件描述。
本发明的社交媒体数据预处理包括对所采集社交媒体数据通过基于内容过滤算法,构建URL-内容双重过滤模型,在缓存引擎上建立对URL进行过滤用的数据库,同时进行内容过滤处理。将上述处理后的数据通过现有摘要生成模型,构建基于语句特征和基于聚类方法的抽取式摘要生成模型,抽取接入文本数据的内容摘要。
本发明的社交媒体数据情感识别模型训练与构建包括选取文本主题提取预处理后社交媒体数据,通过句子抽取技术得到包含主要情感相关信息的句子。从提取到的句子中抽取结构化信息,基于Bi-LSTM-CRF网络的结构化信息抽取,可以看作情感序列标注任务。基于深度学习方法构建序列标注模型,可以不依赖规则人工制定特征模板,生成情感识别模型。
本发明的基于情感信息抽取分析的网络舆情突发事件识别涉及基于关键词提取的自动摘要,通过谱聚类方法进行事件关键词抽取,通过情感特征检测分析模型识别波动情感,并与事件原始关键词库对比,实现突发事件识别。
有益效果:本发明提出一种基于情感信息抽取分析的网络突发事件自动识别技术可应用于互联网社交媒体数据分析应用场景,可提供多领域多种社交媒体的的突发事件识别。适用于多种社交媒体突发事件的识别,可拓展性高,复用性好,开发代价低,可根据业务需求多维度应用,便于从社交媒体大数据中自动识别可能发生的突发事件,为各领域部门领导及时发现和掌控突发事件,为应急处置提供辅助决策的数据依据。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的突发事件识别整体流程图。
图2是本发明的URL、内容双重过滤模型。
图3是本发明的节点内容提取流程图。
图4是本发明的结构化信息抽取BiLSTM-CRF模型图。
图5是本发明的情感词典构建过程图。
图6是本发明的分词示意图。
具体实施方式
本发明提供了基于情感信息抽取分析的网络舆情突发事件自动识别方法,图1是本发明方法整体流程图。本发明的目的是解决社交网络平台通过事件抽取方式识别突发事件的工作量大和对识别重点突发事件效果不佳的问题,提出了基于情感信息抽取分析的网络舆情突发事件自动识别方法。如图1所示,该方法通过以下五个步骤实现,1)海量社交媒体数据预处理;2)情感识别模型构建与训练;3)构造情感向量,根据情感识别模型,对社交媒体中突发情感进行检测与分析;4)提取突发情感对应社交媒体标签,通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库;5)提取社交媒体事件关键词,并与关键词库进行匹配,关键词完全匹配并情感状态为未负面时,获取对应事件基本信息(事件名称、时间、地点、人物),形成突发事件描述。
下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述,以微博数据相关处理为例。
步骤1:使用数据预处理算法对社交媒体数据进行数据过滤和文本主题提取的预处理。具体包括以下步骤:
步骤1.1:使用基于URL、内容双重过滤模型进行数据过滤如图2所示,具体数据过滤步骤如下:
步骤1.1.1:在微博数据预处理引擎上建立对URL进行过滤用的数据库,包括合法URL表(White List)和非法URL表(Black List),两者均包含URL名和访问次数两个属性,同时分别对两张表建立索引。
步骤1.1.2:在微博数据预处理缓冲区中进行URL匹配时,使用散列匹配方法,提高匹配效率;缓冲区空间满的时候实施LRU(Least RecentlyUsed)缓冲区替换算法将最近时间段内未被访问时间间隔最长的URL替换出去;
步骤1.1.3:在微博合法URL白名单中未发现URL后若在黑名单中发现则返回警告并进行过滤。若未在黑名单中发现则标记为可疑,并进行下一步内容过滤处理。
步骤1.1.4:对于标记为可疑的接入社交媒体页面,经内容过滤处理后,若发现信息是合法的则进行输出,同时页面缓存和白名单也按一定规则进行刷新。
步骤1.1.5:若信息判定为垃圾信息,则返回警告,并更新黑名单,不进行信息输出。
步骤1.2:将上述处理后的微博数据通过现有成熟摘要生成模型,构建基于语句特征和基于聚类方法的抽取式摘要生成模型抽取接入文本数据的微博内容摘要。
步骤2:根据历史社交媒体数据经过步骤1数据预处理后数据训练情感模型,形成情感识别模型,具体步骤包括如下:
步骤2.1:选取文本主题提取预处理后微博社交媒体数据,通过句子抽取技术得到包含主要情感相关信息的句子,如“拒绝毒品”,“抵制外货”等,如图3所示,具体句子抽取步骤如下:
步骤2.1.1:微博社交媒体句子抽取技术利用CatalogTree的树状结构便于抽取节点信息的特性,自定义抽取节点信息方法,结合标题规则与句子触发词集进行特定标题下的句子抽取。
步骤2.1.2:调用文档结构树封装好的方法,根据标题规则得到所有符合规则的标题节点,从而进一步提取包含微博特定字段信息的节点内容。
步骤2.2:从提取到的句子中抽取结构化信息,基于Bi-LSTM-CRF网络的结构化信息抽取,实现微博信息中情感序列标注任务,结构化信息抽取原理如图4所示,具体抽取步骤包括如下:
步骤2.2.1:利用Word2Vec预训练的微博词向量解决有监督标注语料不足的问题。使用Skip-gram语言模型在无标注语料上进行微博词向量的训练。
步骤2.2.2:通过Bi-LSTM层,自动提取微博信息中句子特征。将句子中每个词的词向量序列作为Bi-LSTM的各个时间状态的输人,再将正向的LSTM输出的隐状态序列和反向LSTM输出的各位置隐状态序列进行位置的拼接。
步骤2.2.3:使用查找节点信息方法及触发词集的局部句子结构规则,能够快速便捷提取到微博信息句,CRF层的参数是一个矩阵A,Ai+j表示的是从第i个标签到第j个标签的转移得分。
步骤2.3:通过基于深度学习方法构建序列标注模型,此方法可以不依赖规则人工制定特征模板。
步骤2.4:通过微博情感词典构建和情感序列定义生成情感识别模型。具体步骤如下:
步骤2.4.1:情感词典构建涉及现给定语料及一部情感词典,设定Ci表示字,C1...Cn表示一个情感候选词,S*表示情感词,Freq表示语料中出现的频率,则
Figure BDA0002611956880000081
通过
Figure BDA0002611956880000082
计算语料中情感词的分布,N表示语料中词的集合,Wi表示任一词,通过P(Ci|S*)和P(S*)计算情感权重值
Figure BDA0002611956880000091
当S>0时表示正情感词,S<0时表示负情感词,如图5所示是情感词典构建过程图,针对互联网采集的微博信息语料进行数据预处理后,首先通过词频统计构建情感词典,计算出字的情感权重,然后选取情感候选词,统计候选情感词的分布从而计算出候选情感词的情感权重,最后通过情感倾向判断对情感倾向进行排序,重复上述过程最终形成情感词典。
步骤2.4.2:微博情感序列定义与识别涉及设定Q=<q1,q2…qn>表示情感序列,则qj表示某一种情感。社交网络内容为d,
Figure BDA0002611956880000092
其中
Figure BDA0002611956880000093
的取值为1或0,当d中包含情感qn时为1,不包含时为0。对应于突发情感函数f(q)t表示qjz在时间t处的情感取值。
步骤2.4.3:通过对微博情感识别模型的训练得到当
Figure BDA0002611956880000094
时表示有突发情感,其中n表示分析时间窗口数。
步骤3:通过构建的微博情感向量和情感识别模型,对社交媒体微博中突发情感进行检测与分析,识别突发情感,并分析正面、负面情感倾向。
步骤4:事件原始关键词库的构建,具体步骤包括如下:
步骤4.1:提取突发情感对应微博社交媒体标签。
步骤4.2:通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库。其中分词处理如图6所示,具体步骤包括如下:
步骤4.2.1:分析并抽取各个词条的词性及出现的次数,以构造一个前缀词典,用于对句子分词的词图扫描,生成句子中所有汉字所可能成词情况所构成的有向无环图。
步骤4.2.2:对于所有可能情况的有向无环图,根据各个词条出现的概率求得每一种分词情况的概率,选取最大概率作为分词的结果。
步骤4.2.3:将待分词语句切分成连续的中文字符,英文字符等,继而构成句子的短语列表,用于进行后续的查词典分词。切分的方式可以根据空格、标点符号、特殊符号。
步骤4.2.4:通过词图扫描将正则处理后的语句根据上述词典,转化成所有可能成词情况所构成的有向无环图,即几种可能的句子切分。通过计算最大概率路径,获得分词结果。
步骤5:获取事件信息,形成突发事件描述,具体步骤如下:
步骤5.1:提取社交媒体微博相关事件关键词;
步骤5.2:将所提取的事件关键词与关键词库进行匹配对比;
步骤5.3:若关键词匹配,并且情感状态为未负面,通过情感特征检测分析模型识别波动情感。
步骤5.4:若情感状态为负面,获取对应事件基本信息(事件名称、时间、地点、人物),形成突发事件描述。具体步骤如下:
步骤5.4.1:通过对带词性的词序列进行语义特征提取;
步骤5.4.2:句子权重计算和排序;
步骤5.4.3:对有序的句子进行句子冗余度计算和文摘句选取,形成事件摘要。
本发明提供了基于情感信息抽取分析的网络舆情突发事件自动识别方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.基于情感信息抽取分析的网络舆情突发事件自动识别方法,其特征在于,包括如下步骤:
步骤1,根据社交媒体采集方法获取历史社交媒体数据,并进行数据预处理;
步骤2,根据历史社交媒体数据训练并形成情感识别模型;
步骤3,根据情感识别模型,对社交媒体中突发情感进行检测与分析;
步骤4,提取突发情感对应的社交媒体标签,通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库;
步骤5,提取社交媒体数据中事件关键词,并与事件原始关键词库进行匹配,关键词完全匹配并情感状态为负面时,获取对应事件基本信息,形成突发事件描述,所述事件基本信息包括事件名称、时间、地点、人物。
2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:
步骤1-1,采集历史社交媒体数据,对所采集的历史社交媒体数据通过基于内容的过滤算法,构建URL和内容双重过滤模型,对URL进行过滤用,同时进行内容过滤处理;
步骤1-2,将经过步骤1-1处理后的数据通过摘要生成模型,构建基于语句特征和基于聚类方法的抽取式摘要生成模型,抽取接入文本数据的内容摘要。
3.根据权利要求2所述的方法,其特征在于,步骤1-1包括:
步骤1-1-1:在数据预处理服务器上建立对URL进行过滤用的数据库,数据库包括合法URL表White List和非法URL表Black List,两张表均包含URL名和访问次数两个属性,同时分别对两张表建立索引;
步骤1-1-2:进行URL匹配时,使用散列函数匹配方法;数据预处理服务器缓存空间满的时候实施URL缓存替换,将最近时间段内未被访问时间间隔最长的URL替换出去;
步骤1-1-3:在数据预处理服务器对应的合法URL表中未发现URL后,如果在数据预处理服务器对应的非法URL表中发现则返回警告并进行过滤;如果未在数据预处理服务器对应的非法URL表中发现则标记为可疑,并进行下一步内容过滤处理;
步骤1-1-4:对于标记为可疑的接入社交媒体页面,通过现有潜在语义索引算法的内容过滤处理后,如果发现信息是合法的则进行输出,同时页面缓存和白名单表进行刷新;
步骤1-1-5:对于标记为可疑的接入社交媒体页面,通过现有潜在语义索引算法的内容过滤处理后,如果信息为无用信息,则返回警告,并更新黑名单,不进行信息输出。
4.根据权利要求3所述的方法,其特征在于,步骤2包括如下步骤:
步骤2-1,选取文本摘要提取预处理后社交媒体数据,通过现有句子抽取技术得到包含主要情感相关信息的句子;
步骤2-2,从步骤2-1得到的句子中抽取结构化文本信息,汇集形成语料;
步骤2-3,基于深度学习方法构建序列标注模型,对结构化文本信息进行情感序列标注,形成情感标注信息;
步骤2-4,通过情感标注信息和情感词的情感权重值计算构建情感词典,并定义情感序列,通过情感词典和情感序列生成情感识别模型。
5.根据权利要求4所述的方法,其特征在于,步骤2-2中,基于Bi-LSTM-CRF网络从步骤2-1得到的句子中抽取结构化信息,具体包括:
步骤2-2-1,利用Word2Vec预训练的词向量解决有监督标注语料不足的问题,使用Skip-gram语言模型在包含情感相关信息的句子上进行词向量的训练;
步骤2-2-2,采用现有BiLSTM-CRF模型,通过Bi-LSTM层自动进行文本分类,并提取包含情感相关信息句子的特征,将句子中每个词的词向量序列作为Bi-LSTM层的各个时间状态的输人,再将正向的LSTM输出的隐状态序列和反向LSTM输出的各位置隐状态序列进行位置的拼接;
步骤2-2-3,使用现有查找节点信息方法结合触发词集的局部句子结构规则,提取结构化文本信息,汇集形成语料。
6.根据权利要求5所述的方法,其特征在于,步骤2-4包括:
步骤2-4-1,针对步骤2-2中得到的语料,设定Ci表示一个字,C1...Cn表示一个情感候选词,S*表示情感词,Freq表示语料中出现情感词的频率,则
Figure FDA0002611956870000021
其中P(Ci|S*)表示任一情感词S*中每个组成字Ci的概率,Freq(S*,Ci)表示语料中出现任一情感词S*和字Ci的频率,Freq(S*)表示语料中出现S*的频率;
通过
Figure FDA0002611956870000031
计算语料中情感词的分布,P(S*)表示情感词S*的概率,N表示语料中词的集合,Wi表示任一词,通过P(Ci|S*)和P(S*)计算情感权重值
Figure FDA0002611956870000032
其中S表示情感词的情感权重值,
Figure FDA0002611956870000033
表示正面情感权重,
Figure FDA0002611956870000034
表示负面情感权重,当S>0时表示正情感词,S<0时表示负情感词,计算出情感候选词的情感权重后,对情感倾向性程度进行排序,重复上述过程最终形成情感词典;
步骤2-4-2,设定Q=<q1,q2…qn>表示情感序列,则qn表示第n种情感,
Figure FDA0002611956870000035
其中Qd表示社交媒体文章d所表达的情感序列,
Figure FDA0002611956870000036
表示文章d包含情感qn的情况,
Figure FDA0002611956870000037
的取值为1或0,当d中包含情感qn时为1,否则为0;
步骤2-4-3,对应于突发情感函数f(q)t表示在时间t处的情感q的情感权重取值,通过对情感识别模型的训练得到当
Figure FDA0002611956870000038
时表示有突发情感,其中n表示分析时间窗口数。
7.根据权利要求6所述的方法,其特征在于,步骤3包括:根据情感自动识别模型对波动情感特征进行检测分析,识别突发情感,并根据2-4-1中情感权重计算方法分析正面、负面情感倾向。
8.根据权利要求7所述的方法,其特征在于,步骤4包括:
步骤4-1,根据步骤3获得突发情感,提取包含突发情感语料中对应社交媒体标签;
步骤4-2,通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库。
9.根据权利要求8所述的方法,其特征在于,步骤4-2包括:
步骤4-2-1,分析并抽取各个词条的词性及出现的次数,以构造一个前缀词典,用于对句子分词的词图扫描,生成句子中所有汉字所可能成词情况所构成的有向无环图;
步骤4-2-2,基于有向无环图,根据各个词条出现的概率求得每一种分词情况的概率,选取最大概率作为分词的结果;
步骤4-2-3,正则处理将待分词语句切分成连续的中文字符或者英文字符,继而构成句子的短语列表,生成短句,用于进行后续的查词典分词;
步骤4-2-4,通过词图扫描将正则处理后的短句根据已有词典,转化成所有可能成词情况所构成的有向无环图,通过计算最大概率路径,获得事情原始关键词分词结果,形成事件原始关键词库。
10.根据权利要求9所述的方法,其特征在于,步骤5包括:
步骤5-1,提取社交媒体相关事件关键词;
步骤5-2,将所提取的事件关键词与事件原始关键词库进行匹配对比;
步骤5-3,如果关键词匹配,则通过情感识别模型,识别波动情感,并计算情感权重,识别分析正面、负面情感倾向;
步骤5-4,如果情感状态为负面,获取对应社交媒体文本中事件基本信息,形成突发事件描述;
步骤5-4包括:
步骤5-4-1:对社交媒体数据中带词性的词序列,通过现有卷积神经网络语义特征提取技术提取语义特征;
步骤5-4-2:进行社交媒体数据中句子权重计算和排序;
步骤5-4-3:对社交媒体数据中有序的句子通过现有冗余度计算和多文本文摘选取技术,形成事件摘要。
CN202010757144.7A 2020-07-31 2020-07-31 基于情感信息抽取分析的网络舆情突发事件自动识别方法 Active CN111950273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010757144.7A CN111950273B (zh) 2020-07-31 2020-07-31 基于情感信息抽取分析的网络舆情突发事件自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010757144.7A CN111950273B (zh) 2020-07-31 2020-07-31 基于情感信息抽取分析的网络舆情突发事件自动识别方法

Publications (2)

Publication Number Publication Date
CN111950273A true CN111950273A (zh) 2020-11-17
CN111950273B CN111950273B (zh) 2023-09-01

Family

ID=73338966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010757144.7A Active CN111950273B (zh) 2020-07-31 2020-07-31 基于情感信息抽取分析的网络舆情突发事件自动识别方法

Country Status (1)

Country Link
CN (1) CN111950273B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559844A (zh) * 2020-12-17 2021-03-26 北京邮电大学 自然灾害舆情分析方法和装置
CN112612895A (zh) * 2020-12-29 2021-04-06 中科院计算技术研究所大数据研究院 一种主体话题态度指数的计算方法
CN112632277A (zh) * 2020-12-15 2021-04-09 五八同城信息技术有限公司 一种目标内容对象的资源处理方法和装置
CN112860841A (zh) * 2021-01-21 2021-05-28 平安科技(深圳)有限公司 一种文本情感分析方法、装置、设备及存储介质
CN113127640A (zh) * 2021-03-12 2021-07-16 嘉兴职业技术学院 一种基于自然语言处理的恶意垃圾评论攻击识别方法
CN113158082A (zh) * 2021-05-13 2021-07-23 聂佼颖 一种基于人工智能的媒体内容真实度分析方法
CN113378565A (zh) * 2021-05-18 2021-09-10 北京邮电大学 多源数据融合的事件分析方法、装置、设备及存储介质
CN113505581A (zh) * 2021-07-27 2021-10-15 北京工商大学 基于apso-lstm网络的教育大数据文本分析方法
CN113569008A (zh) * 2021-07-20 2021-10-29 南京市栖霞区民政事务服务中心 一种基于社区治理数据的大数据分析方法及系统
CN113742452A (zh) * 2021-09-08 2021-12-03 平安科技(深圳)有限公司 基于文本分类的舆情监测方法、装置、设备及介质
CN114330294A (zh) * 2021-12-30 2022-04-12 中国电子科技集团公司第二十八研究所 一种基于文本句法分析的人物言论抽取方法
CN114970553A (zh) * 2022-07-29 2022-08-30 北京道达天际科技股份有限公司 基于大规模无标注语料的情报分析方法、装置及电子设备
CN115062107A (zh) * 2022-06-10 2022-09-16 浙江嘉兴数字城市实验室有限公司 社会场景自动识别及其检查计划动态生成方法
CN116050401A (zh) * 2023-03-31 2023-05-02 云南师范大学 基于Transformer问题关键词预测的多样性问题自动生成方法
CN118013022A (zh) * 2024-02-19 2024-05-10 深圳振华数据信息技术有限公司 一种社交媒体数据聚合分析系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015043075A1 (zh) * 2013-09-29 2015-04-02 广东工业大学 面向微博的情感实体搜索系统
CN106547875A (zh) * 2016-11-02 2017-03-29 哈尔滨工程大学 一种基于情感分析和标签的微博在线突发事件检测方法
CN108897784A (zh) * 2018-06-08 2018-11-27 北京航空航天大学 一个基于社交媒体的突发事件多维分析系统
CN109271512A (zh) * 2018-08-29 2019-01-25 中国平安保险(集团)股份有限公司 舆情评论信息的情感分析方法、装置及存储介质
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
WO2020101477A1 (en) * 2018-11-14 2020-05-22 Mimos Berhad System and method for dynamic entity sentiment analysis

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015043075A1 (zh) * 2013-09-29 2015-04-02 广东工业大学 面向微博的情感实体搜索系统
CN106547875A (zh) * 2016-11-02 2017-03-29 哈尔滨工程大学 一种基于情感分析和标签的微博在线突发事件检测方法
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN108897784A (zh) * 2018-06-08 2018-11-27 北京航空航天大学 一个基于社交媒体的突发事件多维分析系统
CN109271512A (zh) * 2018-08-29 2019-01-25 中国平安保险(集团)股份有限公司 舆情评论信息的情感分析方法、装置及存储介质
WO2020101477A1 (en) * 2018-11-14 2020-05-22 Mimos Berhad System and method for dynamic entity sentiment analysis

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
JUNHAO ZHOU等: "Sentiment Analysis of Chinese Microblog Based on Stacked Bidirectional LSTM", ACCESS 2019, pages 38856 - 38866 *
吴鹏;刘恒旺;沈思;: "基于深度学习和OCC情感规则的网络舆情情感识别研究", 情报学报, no. 09, pages 106 - 114 *
孙小川;吴警;尹浩然;芦天亮;: "一种面向微博的突发事件触发词识别方法研究", 中国人民公安大学学报(自然科学版), no. 04, pages 42 - 48 *
尹兰;雷霈;周竞;: "基于关键词图的社交话题抽取及情感极性判别", 贵州师范大学学报(自然科学版), no. 02, pages 76 - 79 *
朱岩;刘扬;李丹丹;时鹏;: "面向舆情的社交媒体文本倾向性分析", 信息安全研究, no. 09, pages 15 - 28 *
李卫疆;漆芳;: "基于多通道双向长短期记忆网络的情感分析", 中文信息学报, no. 12, pages 123 - 132 *
王浩;: "基于多维度的公安舆情分析模型构建", 情报探索, no. 03, pages 29 - 34 *
谢法举等: "在线评论情感分析研究综述", 软件导刊, pages 1 - 5 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632277A (zh) * 2020-12-15 2021-04-09 五八同城信息技术有限公司 一种目标内容对象的资源处理方法和装置
CN112559844A (zh) * 2020-12-17 2021-03-26 北京邮电大学 自然灾害舆情分析方法和装置
CN112612895A (zh) * 2020-12-29 2021-04-06 中科院计算技术研究所大数据研究院 一种主体话题态度指数的计算方法
CN112860841A (zh) * 2021-01-21 2021-05-28 平安科技(深圳)有限公司 一种文本情感分析方法、装置、设备及存储介质
CN112860841B (zh) * 2021-01-21 2023-10-24 平安科技(深圳)有限公司 一种文本情感分析方法、装置、设备及存储介质
CN113127640A (zh) * 2021-03-12 2021-07-16 嘉兴职业技术学院 一种基于自然语言处理的恶意垃圾评论攻击识别方法
CN113158082B (zh) * 2021-05-13 2023-01-17 和鸿广科技(上海)有限公司 一种基于人工智能的媒体内容真实度分析方法
CN113158082A (zh) * 2021-05-13 2021-07-23 聂佼颖 一种基于人工智能的媒体内容真实度分析方法
CN113378565A (zh) * 2021-05-18 2021-09-10 北京邮电大学 多源数据融合的事件分析方法、装置、设备及存储介质
CN113378565B (zh) * 2021-05-18 2022-11-04 北京邮电大学 多源数据融合的事件分析方法、装置、设备及存储介质
CN113569008A (zh) * 2021-07-20 2021-10-29 南京市栖霞区民政事务服务中心 一种基于社区治理数据的大数据分析方法及系统
CN113505581A (zh) * 2021-07-27 2021-10-15 北京工商大学 基于apso-lstm网络的教育大数据文本分析方法
CN113742452A (zh) * 2021-09-08 2021-12-03 平安科技(深圳)有限公司 基于文本分类的舆情监测方法、装置、设备及介质
CN113742452B (zh) * 2021-09-08 2023-07-18 平安科技(深圳)有限公司 基于文本分类的舆情监测方法、装置、设备及介质
CN114330294A (zh) * 2021-12-30 2022-04-12 中国电子科技集团公司第二十八研究所 一种基于文本句法分析的人物言论抽取方法
CN115062107A (zh) * 2022-06-10 2022-09-16 浙江嘉兴数字城市实验室有限公司 社会场景自动识别及其检查计划动态生成方法
CN114970553B (zh) * 2022-07-29 2022-11-08 北京道达天际科技股份有限公司 基于大规模无标注语料的情报分析方法、装置及电子设备
CN114970553A (zh) * 2022-07-29 2022-08-30 北京道达天际科技股份有限公司 基于大规模无标注语料的情报分析方法、装置及电子设备
CN116050401A (zh) * 2023-03-31 2023-05-02 云南师范大学 基于Transformer问题关键词预测的多样性问题自动生成方法
CN116050401B (zh) * 2023-03-31 2023-07-25 云南师范大学 基于Transformer问题关键词预测的多样性问题自动生成方法
CN118013022A (zh) * 2024-02-19 2024-05-10 深圳振华数据信息技术有限公司 一种社交媒体数据聚合分析系统及方法

Also Published As

Publication number Publication date
CN111950273B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN111950273B (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
Karim et al. Classification benchmarks for under-resourced bengali language based on multichannel convolutional-lstm network
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN110334178B (zh) 数据检索方法、装置、设备及可读存储介质
US7295967B2 (en) System and method of analyzing text using dynamic centering resonance analysis
CN112749341B (zh) 重点舆情推荐方法、可读存储介质及数据处理装置
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN111914087B (zh) 一种舆情分析方法
CN104820629A (zh) 一种智能的舆情突发事件应急处理系统及方法
Al-Nabki et al. Improving named entity recognition in noisy user-generated text with local distance neighbor feature
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
Whitney et al. Don’t want to get caught? don’t say it: The use of emojis in online human sex trafficking ads
CN112256939A (zh) 一种针对化工领域的文本实体关系抽取方法
Faruque et al. Ascertaining polarity of public opinions on Bangladesh cricket using machine learning techniques
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN111626050A (zh) 基于表情词典与情感常识的微博情感分析方法
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
Sandhiya et al. A review of topic modeling and its application
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
Tahrat et al. Text2geo: from textual data to geospatial information
CN117149859B (zh) 一种基于政务用户画像的城市易涝点信息推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant