CN116361472B - 社交网络评论热点事件舆情大数据分析方法 - Google Patents
社交网络评论热点事件舆情大数据分析方法 Download PDFInfo
- Publication number
- CN116361472B CN116361472B CN202310482637.8A CN202310482637A CN116361472B CN 116361472 B CN116361472 B CN 116361472B CN 202310482637 A CN202310482637 A CN 202310482637A CN 116361472 B CN116361472 B CN 116361472B
- Authority
- CN
- China
- Prior art keywords
- emotion
- text
- classification
- words
- comment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 230000008451 emotion Effects 0.000 claims abstract description 333
- 238000004458 analytical method Methods 0.000 claims abstract description 88
- 230000002787 reinforcement Effects 0.000 claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 81
- 230000008909 emotion recognition Effects 0.000 claims abstract description 40
- 239000013598 vector Substances 0.000 claims description 77
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 3
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 230000002349 favourable effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 11
- 238000007405 data analysis Methods 0.000 abstract description 5
- 230000003044 adaptive effect Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 8
- 238000011835 investigation Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 230000003867 tiredness Effects 0.000 description 1
- 208000016255 tiredness Diseases 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出高效精准的社交网络评论热点事件舆情大数据分析方法,首先对社交网络评论内容的抽取,然后基于评论特征设计了一种抽取评论中候选感情词的方法,在第一种即基于情感解析的方法中选取了二十对褒贬基准词,然后结合深层启发学习对网络语的情感倾向性计算来对情感词典进行扩充,利用情感解析进行评论文本分类。第二种强化学习法将评论中的情感词作为特征对网络评论进行感情识别,两种方法均展现出较好的感情识别结果,针对二者缺陷将两种方法进一步结合,基于情感解析在对情感词典扩充后分类,将正确率高的一部分作为训练集对分类正确率低的部分再分类,整合两次分类得到最终结果,舆情分析质量和效率都有明显提高。
Description
技术领域
本申请涉及一种微博微信热点事件舆情分析系统,特别涉及一种社交网络评论热点事件舆情大数据分析方法,属于网络舆情大数据分析技术领域。
背景技术
随着互联网特别是移动互联网的高速发展,网民通过互联网获取信息相互交流越来越频繁。社交网络也紧随着互联网的发展一直在悄悄演进。从电子邮件诞生开始到BBS更进一步,再到即时通讯QQ和微信。而微博作为社交网络的典型应用,现已成为网民发布、获取信息的重要平台。
网络舆情指的是网民在互联网上对各种事件热点的观点或态度的表达,近些年来,各种热点事件的频发,广大网民借助微博等社交网络这个平台,基于其快速传播的优势,在短时间内就能将局部事件推动成大范围的公共话题。网络舆情在其中爆发出了巨大的能量,对社会产生了重要的影响。
微博作为大量网民发表观点意见的平台,对网民生活有着很深的影响。微博有着140字的字数限制,同时却没有时间地点的限制,使用社交网络的门槛较低,无需华丽的辞藻来进行长篇累述。任何人都可以在社交网络上发表意见、分享生活,并能实现随时随地的联系与沟通。这些优势使得微博成为最大的社交网络平台之一,渗透到社会生活的方方面面。
在日常生活方面,社交网络不仅能帮助民众记录心情分享喜悦,更是民众维权和寻求帮助的有效工具。在社会重大活动方面,社交网络更是最重要的互联网信息传播渠道,要进行某热点事件的舆情分析,即要分析网民的态度。在以前往往求助于传统的调查公司,调查公司指派人员通过阅读相关的评论信息对评论者的态度作出判断,而在面对海量互联网信息时,这样会耗费大量的人力,消耗大量的时间,同时分析结果也很大程度上取决于调查公司员工的敬业程度。因此当前迫切需要找到一种方法能对大量的互联网信息进行快速、精确、自动的情感性分析。
综上,现有技术的社交网络评论热点事件舆情分析存在一些问题和缺陷,本申请需要解决的问题和关键技术难点包括:
(1)热点事件的舆情分析需要分析网民的态度,现有技术往往求助于传统的调查公司,调查公司指派人员通过阅读相关的评论信息对评论者的态度作出判断,而在面对海量互联网信息时,这样会耗费大量的人力,消耗大量的时间,同时分析结果也很大程度上取决于调查公司员工的敬业程度,而后现有技术出现了基于计算机的网络舆情分析系统,但由于计算机很难准确把握人的语言情感特征,无法准确提取网络热点舆情导向,对于这项重要工作有时甚至起到适得其反的作用,加上网络热点事件数据量越来愈大,现有技术的计算机舆情分析系统面对海量复杂的带有各类主观情感色彩的语言文字很难准确分析出热点舆情方向,因此当前迫切需要找到一种方法能对大量的互联网信息进行快速、精确、自动的情感性分析。
(2)当前社交网络的舆情分析较为困难,文本较短、内容多样、表达自由、语言杂乱等都是社交网络文本所存在的问题,给热点事件舆情自动化分析带来了很大难度,伴随着广大网民社会参与意识的提高和一些社会热点事件、突发事件的传播,网络舆情爆发了巨大的能量,基于社交网络快速传播的优势,可以在极短时间内凝聚网民意见,其在社会中所起的作用越来越大,其数据量也越来越大,但现有技术缺少一套高效精准的社交网络评论舆情大数据分析系统,缺少抓取社交网络评论页面的方法,无法基于社交网络评论页面进行解析,缺少针对抓取的HTML源代码分析抽取关键评论信息;缺少基于深层启发学习构建词的特征向量来计算候选情感词的情感倾向度来判断其词性,再人工筛选后加入到情感词典中的方法,一些方法倾向于将社交网络评论文本划分到负面类别中,且误判较多存在于评论的情感倾向不明显的情况;另一些方法需要大量的人工来标注文本集进行训练,人工工作量大且对结果有直接影响,现有技术缺少一套既准确灵敏,又高效省力的社交网络评论舆情大数据分析系统。
(3)本申请先后提出了基于情感解析采用现有的语言资源对文本的情感极性进行量化计算,而基于强化学习将感情识别视为一种特殊的文本分类,运用人工标注的训练集和强化学习模型对文本进行感情识别,但基于情感解析的方法便捷,效率高,但不够客观,且过于依赖情感词典的精确度,受词典以及社交网络评论特点的影响,更倾向于将文本划分到负面一类;而强化学习方法需要大量的人工标注的文本集,训练以及分类的时间都相对较长,但具有很强的适应性,基于算法本身特征选取时的缺陷更倾向于将文本划分到正面一类,因此亟需针对两种方法各自的特点,进一步将两种方法融合,研发一种自适应监督模型以克服上述缺点。
发明内容
针对现有技术的不足,本申请创造性的引入深层启发学习来基于语义将词汇转化为文本空间向量,选取合适的基准词并基于词汇的空间向量表示提出了一种计算词汇情感倾向性的方法,首先采取网络爬虫抓取社交网络评论页面,基于社交网络评论页面的AJAX刷新进行解析,针对抓取的HTML源代码分析抽取关键评论信息;然后基于知网HowNet作为情感词典的基础,同时从中选取部分情感词作为基准词,在语料中抽取部分候选情感词,基于深层启发学习构建词的特征向量然后计算候选情感词的情感倾向度来判断其词性,再人工筛选后加入到情感词典中;最后对社交网络评论的情感倾向性分类,通过情感词的褒贬倾向,并结合程度副词,否定词,标点符号基于社交网络评论的情感解析判断其情感倾向,在社交网络评论中选取情感词作为特征构建文本空间向量,再放入强化学习分类器中分类,将两种方法结合起来提出了一种自适应监督模型,克服了二者各自的缺点,且能获得更高的社交网络舆情大数据分析识别准确率。
为实现以上技术效果,本申请所采用的技术方案如下:
社交网络评论热点事件舆情大数据分析方法,首先采取网络爬虫抓取社交网络评论页面,基于社交网络评论页面的AJAX刷新进行解析,针对抓取的HTML源代码分析抽取关键评论信息;然后基于HowNet作为情感词典的基础,同时从中选取部分情感词作为基准词,在语料中抽取部分候选情感词,基于深层启发学习构建词的特征向量然后计算候选情感词的情感倾向度来判断其词性,再人工筛选后加入到情感词典中;最后对社交网络评论的情感倾向性分类,首先通过情感词的褒贬倾向,并结合程度副词,否定词,标点符号基于社交网络评论的情感解析判断其情感倾向,在社交网络评论中选取情感词作为特征构建文本空间向量,再放入强化学习分类器中分类,将两种方法结合起来提出了一种自适应监督模型;
本申请提出将社交网络评论文本进行两步分类的方法,先将明确情感极性的文本挖掘出来,然后对这类文本进行训练,然后再对剩余情感倾向模糊的文本进行基于强化学习的分类,采用一种自适应监督分类模型融合两种分类方法的优势提高分类效果,分类模型分为两部分:
第1部分利用基于情感解析的社交网络评论感情识别方法:计算每条社交网络评论的情感值,基于情感值得到情感倾向更为显著的文本,且具有较高的分类正确率,第1部分首先利用词汇的情感倾向计算式计算社交网络评论文本中的备选情感词的倾向性,进行情感词典的扩充后,基于对文本情感解析的理解计算每条评论文本的具体情感值,最后将情感值绝对值较大即情感倾向更显著的文本放入确定集合中,其余文本保存到一个不确定集合中;
第2部分采用基于强化学习的社交网络评论感情识别方法:将第1部分得到的确定集合文本作为训练集,对其余不确定集中的文本进行分类,最后再将第1部分中不确定集合的分类结果与第2部分中不确定集的分类结果进行整合。
进一步的,基于深层启发学习的词汇情感分析:首先将未知词以及情感词典中的词都转化为词向量,词向量是根据词汇所在上下文计算的,网络语通过计算向量空间上的余弦相似度充分表示文本语义上的相似度;
通过训练将每个词映射成K维实数向量,通过词之间的距离来判断它们之间的语义相似度,具体训练过程如下:
第一步:准备训练语料库,融合wiki和百度中文语料库,首先转化成简体字,然后进行去重、分词、去掉非汉语多余字符的处理;
第二步:对处理后的语料进行训练分词;
第三步:得到训练后的向量文本向量维度介于400-600,词向量个数介于550000-754560个;
第四步:词汇情感倾向计算,深层启发学习生成文本向量作为每一个维度代表一个语义,在获得两个基于语义所构成的文本向量时,通过夹角余弦来计算其语义相似度;
采用多选取一些基准词来排除其它语义的干扰,同时这些基准词表达的情感倾向不但强烈,且尽可能在不同的方面表达正面和负面情感,融入多对基准词后的词汇w词汇情感倾向计算式如下:
k是基准词对数,key-pi是第i个正面基准词,key-nj是第j个反面基准词,若T(w)>0,则该词汇为正面情感词汇,反之为负面情感词汇;将HowNet情感词典放入wiki分词后的语料遍历,将出现次数从大到小排序,然后从中按照情感倾向程度,以及尽量从多方面的角度考虑人工选取,同时褒义词贬义词按对选取尽量来排除其它语义的干扰,最后挑选出基准词。
进一步的,基于强化学习的社交网络评论感情识别:通过计算机利用强化学习方法从训练文本集中抽取规则,建立分类器,然后将训练得到的分类器应用于对未知文本分类,基于强化学习的社交网络感情识别,解决的问题包括:一是社交网络评论特征选取;还有文本的表示问题;最后则是分类算法实现;
基于情感词典的特征选取:通过扩充后的情感词典筛选,得到s个词的特征词列,即为最终选取的特征F=(t1,t2,…,ts)。
进一步的,社交网络评论文本的形式化表示:将其表示为适应的结构化模型来方便计算机利用强化学习进行处理,文本空间向量将每个评论中出现的所有特征词对应词向量相加然后取平均值表示如下式:
其中wk表示第k个特征词的词向量,l表示该文本中特征词的个数,得到文本向量后,将其转化为利于强化学习的格式,训练和测试文本集表示为一个矩阵形式:即行表示文本、列表示特征及权重,如下:
其中,每一行表示一个文本,第一列label为文本的类别id,其余列为文本特征,i代表序号,w代表权重,label∈{-1,1},-1为负面,1为正面;0<index<l,1代表文本向量的维度;w为每个维度上的权值,利用两个文本在向量空间中的距离来表示其相似性,距离计算的夹角余弦值视为内积的归一化,采用深层启发学习来转化评论文本向量。
进一步的,基于强化学习的社交评论分类方法:对词向量形式的文本进行训练,训练好分类器后,然后对测试文本进行类别判断,步骤如下:
第1步:按照强化学习要求格式准备文本集;
第2步:选取最佳参数,对训练文本集进行训练以获取最佳的分类;
第3步:利用获取的分类器对测试文本集进行分类测试,得到结果;
强化学习数据格式如下:
<label><index>:<value><index2>:<value2>…
其中:<label>表示训练数据集的值,在二分类情况下采用1和-1;<index>表示数据的索引值,以1开头的整数,必须是升序出现,可以不连续;<value>表示数据的特征值以实数表示,在不同的特征值之间以空格隔开。
进一步的,强化学习径向因子:对于线性可分的数据可以画出一条直线将元组分开,对于非线性不可分的数据,选取一个径向因子,通过将数据映射到高维空间来解决在原始空间中线性不可分的问题;
建立非线性学习器分为两步:首先使用一个非线性映射将数据变换到一个特征空间F,然后在特征空间使用线性学习器分类;采用线性径向因子在特征空间中直接计算内积,将两个步骤融合到一起建立一个非线性的学习器。
进一步的,强化学习惩罚函数:在选取线性径向因子后,参数选取惩罚函数C,惩罚函数表明对离群点的重视程度,C越大说明越重视,越不想丢弃这些离群点,采用格搜索法选取最佳分类效果的惩罚函数C,具体过程如下:
首先设定C的取值范围,C取2的指数,设定其指数范围为[m,n],步增step为st,C的取值分别为2m,2m+st,…,2n;其次,取不同的C值进行交叉验证,得到不同的分类精度;最后,将取得最佳分类精度的C值作为最佳惩罚函数。
进一步的,融合情感解析与强化学习的评论感情识别方法:该模型由两个过程组成,采用基于情感解析和强化学习相结合的自监督分类模型,整个分类过程分为两部分,第一部分基于情感解析在对情感词典扩充后进行分类,第二部分将第一部分中正确率高的一部分作为训练集对分类正确率低的部分进行再分类,最终整合两次分类结果得到最终结果;
第一阶段,首先抽取出社交网络评论文本,进行文本的预处理,然后利用20对褒贬强烈的基准词基于深层启发学习对评论文本中的候选情感词进行情感倾向计算来对情感词典进行扩充,然后基于情感词典以及对评论文本情感解析的理解对每个评论计算出一个情感值,再将情感值除以文本的长度以此来消除文本长度的影响,从而得到一个综合的评论情感得分,情感值或情感得分大于0的为正面情感,小于0的为负面情感,最后将评论情感得分取绝对值进行排序,将绝对值较高的部分作为确定分类集,较低的作为不确定分类集;
第二阶段中利用第一阶段的分类结果,构建基于强化学习的强化学习模块,利用情感词典进行特征选取,再将确定分类集中的数据作为训练集,对不确定分类集进行再分类,这一部分数据的最终分类结果由两阶段的分类结果整合确定。
进一步的,融合情感解析与强化学习的文本感情识别方法:由两部分构成,第一部分在对情感词典扩充后基于情感解析计算文本情感得分,划分确定分类集和不确定分类集;
第一阶段分为几个模块,首先将社交网络评论文本进行预处理,然后利用基于深层启发学习的词汇情感倾向计算方法进行候选词词汇情感计算后扩充情感词典,最后基于情感解析计算出评论的情感值,得分大于0的划分为正面,得分小于0的划分为负面;
然后将评论情感得分的绝对值进行从大到小排列,情感得分绝对值|0|>K的为确定分类集,反之为不确定分类集;
第二阶段利用第一阶段的分类结果,将确定分类集中的数据作为训练集,对不确定分类集进行再分类;
通过第一阶段基于情感解析的分类,获得分类正确率极高的确定分类集,和分类正确率较低的不确定分类集,搭建基于强化学习的分类器,利用对精确分类集的训练对不确定分类集进行分类。
利用强化学习对不确定集合分类后,对不确定集合在两个阶段中的分类结果进行整合处理,以此来提高这些情感倾较为不明确的文本的分类正确率,如果两次分类结果相同,则结果为最终分类结果;如果两次分类结果不同,则不同的结果均视为正面情感。
与现有技术相比,本申请的创新点和优势在于:
(1)本申请创造性的引入深层启发学习来基于语义将词汇转化为文本空间向量,选取合适的基准词并基于词汇的空间向量表示提出了一种计算词汇情感倾向性的方法,首先采取网络爬虫抓取社交网络评论页面,基于社交网络评论页面的AJAX刷新进行解析,针对抓取的HTML源代码分析抽取关键评论信息;然后基于知网HowNet作为情感词典的基础,同时从中选取部分情感词作为基准词,在语料中抽取部分候选情感词,基于深层启发学习构建词的特征向量然后计算候选情感词的情感倾向度来判断其词性,再人工筛选后加入到情感词典中;最后对社交网络评论的情感倾向性分类,通过情感词的褒贬倾向,并结合程度副词,否定词,标点符号基于社交网络评论的情感解析判断其情感倾向,在社交网络评论中选取情感词作为特征构建文本空间向量,再放入强化学习分类器中分类,将两种方法结合起来提出了一种自适应监督模型,克服了二者各自的缺点,且能获得更高的社交网络舆情大数据分析识别准确率。
(2)本申请针对社交网络分析较为困难,存在文本较短、内容多样、表达自由、语言杂乱等一系列困难,设计了一套高效精准的社交网络评论热点事件舆情大数据分析方法,首先对社交网络评论内容的抽取,然后基于社交网络评论的特征设计了一种抽取评论中候选感情词的方法,在第一种即基于情感解析的方法中首先选取了二十对褒贬基准词,然后结合深层启发学习提出了一种对网络语的情感倾向性计算的方法来对情感词典进行扩充,然后利用情感解析进行评论文本的分类。在第二种强化学习的方法将评论中的情感词作为特征使用强化学习对社交网络评论进行了感情识别,这两种方法均展现出了较好的感情识别结果,针对二者缺陷本申请创造性的将两种方法进一步结合起来,第一部分基于情感解析在对情感词典扩充后进行分类,第二部分将第一部分中正确率高的一部分作为训练集对分类正确率低的部分进行再分类,最终整合两次分类结果得到最终结果,舆情分析质量和效率都有明显提高。
(3)本申请不仅提出了基于情感解析的社交网络评论感情识别和基于强化学习的社交网络评论感情识别两种方案,还进一步将二者结合提出将社交网络评论文本进行两步分类的方法,先将明确情感极性的文本挖掘出来,然后对这类文本进行训练,然后再对剩余情感倾向模糊的文本进行基于强化学习的分类,该模型为一种自适应监督分类模型,融合两种分类方法的优势来提高分类效果,通过实验结果的比较证实,在没有人工标注训练集的情感下,本申请提出的自适应监督模型取得了极高的精确率,该自适应监督模型中大部分的文本分类在第一阶段完成,与基于情感解析的方法相比,结合强化学习的方法在对剩下的情感倾向较为模糊的文本感情识别进行优化,从结果也可以看出,自适应监督模型的分类精确率对比基于情感解析的分类结果都更高,实现了微博等社交网络评论热点事件舆情大数据准确高效分析。
附图说明
图1是于深层启发学习的词汇情感分析挑选出的基准词示例图。
图2是词汇情感倾向计算解析的部分词汇倾向值示意图。
图3是词汇情感倾向计算的情感词典情感倾向计算结果示意图。
图4是基于强化学习的社交网络评论感情识别流程图。
图5是四种不同规模的评论感情分类结果图。
图6是融合情感解析与强化学习的评论感情识别流程图。
图7是基于情感解析计算文本情感得分流程图。
图8是融合情感解析后基于强化学习的文本感情识别流程图。
具体实施方式
下面结合附图,对本申请提供的社交网络评论热点事件舆情大数据分析方法的技术方案进行进一步的描述,使本领域的技术人员能够更好的理解本申请并能够予以实施。
伴随着广大网民社会参与意识的提高和一些社会热点事件、突发事件的传播,网络舆情爆发了巨大的能量,基于社交网络快速传播的优势,可以在极短时间内凝聚网民意见。因此在社交网络中针对各种事件进行情感分析具有极为突出的作用。但社交网络的分析较为困难:文本较短、内容多样、表达自由、语言杂乱都是社交网络文本所存在的问题。
本申请首先采取网络爬虫抓取社交网络评论页面,基于社交网络评论页面的AJAX刷新进行解析,然后针对抓取的HTML源代码分析抽取出关键的评论信息;
然后基于知网HowNet作为情感词典的基础,同时从中选取部分情感词作为基准词,在语料中抽取部分候选情感词,基于深层启发学习构建词的特征向量然后计算候选情感词的情感倾向度来判断其词性,再人工筛选后加入到情感词典中。
最后在对社交网络评论的情感倾向性分类中,首先通过情感词的褒贬倾向,并结合程度副词,否定词,标点符号基于社交网络评论的情感解析来判断其情感倾向,该方法更倾向于将社交网络评论文本划分到负面类别中,且误判较多存在于评论的情感倾向不明显的情况;然后在社交网络评论中选取情感词作为特征来构建文本空间向量,再放入强化学习分类器中进行分类,该方法作为一种监督学习方法,需要大量的人工来标注文本集进行训练,但使用范围广,且更加客观。针对两种方法各自的特点,将两种方法结合起来提出了一种自适应监督模型,从而克服了上述缺点,且增加了对情感倾向判别的准确率。
一、基于情感解析的社交网络评论感情识别
对微博评论的舆情分析是分析网民对待某个事件在评论中所反映出来的态度、立场、观点,判断出网民在评论中的感情是消极还是积极是负面还是正面。
基于情感解析的感情识别通过中英文情感词汇库,同时辅以大量的文本资源,建立网民情感分析知识库即一个正负面(或褒贬义)情感词典,通过该情感词典来对文本中的情感词进行识别,从而达到对文本分类的目的。该方法便捷直观,第一步创建情感词典,采用人工采集的方法,首先对情感词汇库进行融合筛选,同时辅以大量的文本资源进行进一步筛选,从文本资源中手动抽取情感词并标注网络语情感倾向性,能很好的减轻人工负担,通过计算文本中网络语与基准词集合的相似度来基于相似度判断网络语的情感倾向性再添加到情感词典中,基于计算学习的方法方便快捷,且准确率并不下于人工识别,这样既可以不用花费大量时间精力,也能获得较高的准确率。
构建情感词典后,再对文本中的网络语在情感词典中检索,计算文本中正负面情感词汇的数量,并判断出文本的情感倾向性,将文本的上下文、情感程度副词、否定词和标点符号一起考虑进去,与情感词典融合,才能在文本的情感倾向性识别中取得较好的效果。
(一)社交网络评论文本抽取加工
首先抓取社交网络页面中评论信息,第一步是抓取评论页的页面,然后对页面进行分析和分解,将需要的内容抽取,剔除无关的内容,将网页的html源代码转化成需要的评论信息。
文本加工将计算机无法识别的、大量非结构化的文本进行处理,包括文本的去重、机械压缩去词、分词以及词性标注,通过情感解析对社交网络评论进行情感分析时,将评论中的情感词、程度副词、否定词以及标点符号作为特征,从非结构化的文本中很方便的抽取特征。
(二)基于语义的网络语情感倾向性分类
1.定义语义倾向
定义语义倾向为一个词与其根本义项的偏离度,采用两个维度衡量,一个是偏离方向,一个是偏离强度,偏离方向在感情识别中指一个网络语是赞成还是反对,偏离强度是该词汇所表达的正面或负面倾向的强度。
考虑语义倾向在情感上偏离方向,首先将每个词基于语义转化为文本空间向量,然后将未知的词与已知的情感词典中的词进行对比计算出一个度量值,将度量值规定为(-1,1)之间的实数,再确定某个临界值判别倾向性。
2.基于深层启发学习的词汇情感分析
为了度量未知词与已知情感词典中情感词的相似度,首先将未知词以及情感词典中的词都转化为词向量,词向量是根据词汇所在上下文计算的,网络语通过计算向量空间上的余弦相似度充分表示文本语义上的相似度。
通过训练将每个词映射成K维实数向量,通过词之间的距离来判断它们之间的语义相似度,具体训练过程如下:
第一步:准备训练语料库,融合wiki和百度中文语料库,首先转化成简体字,然后进行去重、分词、去掉非汉语多余字符的处理;
第二步:对处理后的语料进行训练分词;
第三步:得到训练后的向量文本向量维度介于400-600,词向量个数介于550000-754560个;
第四步:词汇情感倾向计算,深层启发学习生成文本向量作为每一个维度代表一个语义,在获得两个基于语义所构成的文本向量时,通过夹角余弦来计算其语义相似度;
网络语的情感倾向由该词与基准词的语义关联的紧密程度决定,基准词是褒贬态度非常明显、强烈且具有代表性的网络语,与褒义基准词联系越紧密,则网络语的褒义倾向越强烈,与贬义基准词联系越紧密,则网络语贬义倾向越明显。
但经过测试,如果单纯的选取某个基准词,并不是说对所有网络语来说,与褒义词联系紧密,则网络语的褒义倾向越强烈,与褒义联系不紧密,则网络语的褒义倾向不强烈。因为所构建的文本向量有400-600个维度,里面包含了大量的语义信息,并不只有情感倾向性这么便捷。如“快乐”和“悲伤”都是描述人的心情,从这个角度来看它们的语义相似度大联系紧密就可以理解了。
基于以上原因,采用多选取一些基准词来排除其它语义的干扰,同时这些基准词表达的情感倾向不但强烈,且尽可能在不同的方面表达正面和负面情感,融入多对基准词后的词汇w词汇情感倾向计算式如下:
k是基准词对数,key-pi是第i个正面基准词,key-nj是第j个反面基准词,若T(w)>0,则该词汇为正面情感词汇,反之为负面情感词汇;将HowNet情感词典放入wiki分词后的语料遍历,将出现次数从大到小排序(基于语料越多,构建的向量越精准来考虑),然后从中按照情感倾向程度,以及尽量从多方面的角度考虑人工选取,同时褒义词贬义词按对选取尽量来排除其它语义的干扰,最后挑选出的基准词如图1所示。
3.词汇情感倾向计算解析
首先第一步准备数据,排除掉通过wiki语料训练后HowNet情感词典中没能生成语义词向量的网络语,在对HowNet词典作清理和筛选后剩下的正面网络语1747条,负面词汇1465条一共3212条词汇构成情感词典,通过对情感词典中词汇进行网络语倾向计算,得到部分词汇的倾向值以及整个情感词典的情感倾向计算结果,如图2和图3所示。
通过评估结果得到基于语义的方法通过深层启发学习得到的特征词向量,经过词汇语义倾向性计算方法计算词汇倾向性是有效的,准确率都远在百分之80以上,特别是负面情感词汇的识别率达到了95%,从图2中可以看出,例如“低端”计算的结果为0.0006869,误差极小。虽然计算错误,但误差极小;再比如“霸气”该词的计算结果为0.0586152355369,看似误差较大,但是这个词虽然在情感词典中为负面情感词,但事实上很多时候它的情感倾向难以判断,也经常用“霸气”来赞赏一个人。经过计算,错误地识别成负面情感词汇语义相似度的平均值为-0.0317,正面的为0.0213,从表可以看到正面情感词汇的识别率较低,如果对精度要求很高的话,对精度在(-0.03,0.02)之间的进行二次人工识别。
二、基于强化学习的社交网络评论感情识别
通过计算机利用强化学习方法从训练文本集中抽取规则,建立分类器,然后将训练得到的分类器应用于对未知文本分类,基于强化学习的社交网络感情识别,解决的问题包括:一是社交网络评论特征选取;还有文本的表示问题;最后则是分类算法实现。基于强化学习的社交网络评论感情识别算法如图4所示。
(一)基于情感词典的特征选取
社交网络评论中存在着大量的特征词汇,如果将分词后的社交网络文本中的词汇全部作为特征词,空间维数甚至会高达上万维,高维性将直接带来数据稀疏性的问题,同时这样的特征空间有很多噪声词汇,这些噪声词汇和社交网络评论的情感倾向无关,社交网络评论文本的情感倾向通过情感词加以传递,因此,情感词是文本感情识别的最重要的特征。
通过扩充后的情感词典筛选,得到s个词的特征词列,即为最终选取的特征F=(t1,t2,…,ts)。
(二)社交网络评论文本的形式化表示
通过特征抽取出能代表社交网络文本的特征词汇,接下来将其表示为适应的结构化模型来方便计算机利用强化学习进行处理,文本空间向量将每个评论中出现的所有特征词对应词向量相加然后取平均值表示如下式:
其中wk表示第k个特征词的词向量(基于深层启发学习训练wiki语料得到的),l表示该文本中特征词的个数,得到文本向量后,将其转化为利于强化学习的格式,训练和测试文本集表示为一个矩阵形式:即行表示文本、列表示特征及权重,如下:
其中,每一行表示一个文本,第一列label为文本的类别id,其余列为文本特征,i代表序号,w代表权重,label∈{-1,1},-1为负面,1为正面;0<index<l,1代表文本向量的维度;w为每个维度上的权值,利用两个文本在向量空间中的距离来表示其相似性,距离计算的夹角余弦值视为内积的归一化,采用深层启发学习来转化评论文本向量。
(三)基于强化学习的社交评论分类方法
强化学习分类来对这些词向量形式的文本进行训练,训练好分类器后,然后对测试文本进行类别判断,步骤如下:
第1步:按照强化学习要求格式准备文本集;
第2步:选取最佳参数,对训练文本集进行训练以获取最佳的分类;
第3步:利用获取的分类器对测试文本集进行分类测试,得到结果;
强化学习数据格式如下:
<label><index>:<value><index2>:<value2>…
其中:<label>表示训练数据集的值,在二分类情况下采用1和-1;<index>表示数据的索引值,以1开头的整数,必须是升序出现,可以不连续;<value>表示数据的特征值以实数表示,在不同的特征值之间以空格隔开。
(四)径向因子以及惩罚函数的设置
1.强化学习径向因子
对于线性可分的数据可以画出一条直线将元组分开。对于非线性不可分的数据,选取一个径向因子,通过将数据映射到高维空间来解决在原始空间中线性不可分的问题。
建立非线性学习器分为两步:首先使用一个非线性映射将数据变换到一个特征空间F,然后在特征空间使用线性学习器分类;采用线性径向因子在特征空间中直接计算内积,将两个步骤融合到一起建立一个非线性的学习器。
2.强化学习惩罚函数
在选取线性径向因子后,参数选取惩罚函数C,惩罚函数表明对离群点的重视程度,C越大说明越重视,越不想丢弃这些离群点,采用格搜索法选取最佳分类效果的惩罚函数C,具体过程如下:
首先设定C的取值范围,C取2的指数,设定其指数范围为[m,n],步增step为st,C的取值分别为2m,2m+st,…,2n;其次,取不同的C值进行交叉验证,得到不同的分类精度;最后,将取得最佳分类精度的C值作为最佳惩罚函数。
(五)基于强化学习的社交网络评论感情识别实验结果及分析
为了测试不同规模的训练集对分类精度的影响,本申请共计7000条评论文本,首先随机抽取部分构成4种规模不同的训练集,分别为400,800,1600,3200:其余1000条为测试集,测试结果如图5所示。
从表中可以看出:当训练规模较小时,分类精度不高,远不如情感解析方法。然后随着训练规模的增大,分类精度虽然略有些波动、但整体处于增大趋势。然后为了测试评论来源主题对准确率的影响,将不同事件分开训练测试。首先选取1000条A事件的评论作为训练集和1000条A事件的评论作为测试集。然后保持训练集不变,测试集变为1000条B事件的评论。最后训练集分别选取500条A事件和500条B事件,测试集也一样。
以上结果可以看出该系统对分类的来源较为敏感。原因应该是在不同的热点事件中,情感特征词的差别较大,会影响到分类结果。整体的负面评论识别准确率要低于正面评论识别的准确率。应该是因为在特征选取的时候不够完善,没有考虑标点符号、否定词,反问句问题,例如问号作为重要的负面特征标识经常会完全改变整个评论的情感倾向性,对这些评论特征的忽略会导致很多负面评论被误判为正面评论。
三、基于情感解析与强化学习的社交网络评论感情识别
基于情感解析采用现有的语言资源对文本的情感极性进行量化计算,而基于强化学习将感情识别视为一种特殊的文本分类,运用人工标注的训练集和强化学习模型对文本进行感情识别。
基于情感解析的方法便捷,效率高,但不够客观,且过于依赖情感词典的精确度,受词典以及社交网络评论特点的影响,更倾向于将文本划分到负面一类;而强化学习方法需要大量的人工标注的文本集,训练以及分类的时间都相对较长,但具有很强的适应性,基于算法本身特征选取时的缺陷更倾向于将文本划分到正面一类。本申请针对两种方法各自的特点,进一步将两种方法融合,提出一种自适应监督模型,可以较好的克服上述一些缺点,且在实验中取得了较好的结果。
(一)融合情感解析与强化学习的感情识别架构
强化学习和特征加权的方法,因为有人工标注的训练集,往往能得到比较高的分类精确率。而基于情感解析的分类是无监督的基于规则方法,对一些有明确情感倾向的文本有较高的分类精度,但对于一些情感倾向较为含糊的文本,即文中正面情感词和负面情感词同时存在且数量差不多时,不能有效区分。
在基于强化学习的方法中,首先对文本集进行情感标注,再放入训练器中进行训练,文本的情感倾向性由学习器自动计算。但训练的效果受到训练文本的规模的制约,而训练文本规模又受到人工的制约。
基于情感解析和基于强化学习的两种方法有着不同的分类倾向。而且,基于情感解析的方法对于情感倾向较为含糊的评论文本分类能力不够,而对情感极性较为明确的评论文本有着较高的分类正确率,但如果将两种文本同时作为训练集进行训练时,综合准确率不高会影响到模型的构建。
因此本申请提出将社交网络评论文本进行两步分类的方法,先将明确情感极性的文本挖掘出来,然后对这类文本进行训练,然后再对剩余情感倾向模糊的文本进行基于强化学习的分类,该模型为一种自适应监督分类模型,融合两种分类方法的优势来提高分类效果。分类模型分为两部分:
第1部分利用基于情感解析的文本情感分析方法计算每条社交网络评论的情感值,基于情感值得到情感倾向更为显著的文本,且具有较高的分类正确率,第1部分首先利用词汇的情感倾向计算式计算社交网络评论文本中的备选情感词的倾向性,进行情感词典的扩充后,基于对文本情感解析的理解计算每条评论文本的具体情感值,最后将情感值绝对值较大即情感倾向更显著的文本放入确定集合中,其余文本保存到一个不确定集合中。
第2部分采用基于强化学习感情识别方法,将第1部分得到的确定集合文本作为训练集,对其余不确定集中的文本进行分类。最后再将第1部分中不确定集合的分类结果与第2部分中不确定集的分类结果进行整合。
(二)融合情感解析与强化学习的评论感情识别方法
该模型由两个过程组成,如图6所示。本申请采用基于情感解析和强化学习相结合的自监督分类模型,整个分类过程分为两部分,第一部分基于情感解析在对情感词典扩充后进行分类,第二部分将第一部分中正确率高的一部分作为训练集对分类正确率低的部分进行再分类。最终整合两次分类结果得到最终结果。
第一阶段,首先抽取出社交网络评论文本,进行文本的预处理,然后利用20对褒贬强烈的基准词基于深层启发学习对评论文本中的候选情感词进行情感倾向计算来对情感词典进行扩充,然后基于情感词典以及对评论文本情感解析的理解对每个评论计算出一个情感值,再将情感值除以文本的长度以此来消除文本长度的影响,从而得到一个综合的评论情感得分,情感值或情感得分大于0的为正面情感,小于0的为负面情感。最后将评论情感得分取绝对值进行排序,将绝对值较高的部分作为确定分类集,较低的作为不确定分类集。
第二阶段中利用第一阶段的分类结果,构建基于强化学习的强化学习模块,利用情感词典进行特征选取,再将确定分类集中的数据作为训练集,对不确定分类集进行再分类,这一部分数据的最终分类结果由两阶段的分类结果整合确定。
(三)融合情感解析与强化学习的文本感情识别方法
本系统由两部分构成,第一部分在对情感词典扩充后基于情感解析计算文本情感得分,划分确定分类集和不确定分类集。具体流程如图7所示。
第一阶段分为几个模块,首先将社交网络评论文本进行预处理,然后利用基于深层启发学习的词汇情感倾向计算方法进行候选词词汇情感计算后扩充情感词典,最后基于情感解析计算出评论的情感值,得分大于0的划分为正面,得分小于0的划分为负面;
然后将评论情感得分的绝对值进行从大到小排列,情感得分绝对值|0|>K的为确定分类集,反之为不确定分类集;
第二阶段利用第一阶段的分类结果,将确定分类集中的数据作为训练集,对不确定分类集进行再分类,分类流程如图8所示。
通过第一阶段基于情感解析的分类,获得分类正确率极高的确定分类集,和分类正确率较低的不确定分类集,搭建基于强化学习的分类器,利用对精确分类集的训练对不确定分类集进行分类。
利用强化学习对不确定集合分类后,对不确定集合在两个阶段中的分类结果进行整合处理,以此来提高这些情感倾较为不明确的文本的分类正确率,如果两次分类结果相同,则结果为最终分类结果;如果两次分类结果不同,则不同的结果均视为正面情感。
(四)实验及结果分析
本申请采用前文中抓取的社交网络评论文本作为基础文本集,采用精确率来验证该方法在感情识别中起到的作用。
通过实验结果的比较,可以清楚的看到,在没有人工标注训练集的情感下,提出的自适应监督模型取得了极高的精确率。因为该自适应监督模型中大部分的文本分类在第一阶段完成,与基于情感解析的方法相比,结合强化学习的方法在对剩下的情感倾向较为模糊的文本感情识别进行优化,从结果也可以看出,自适应监督模型的分类精确率对比基于情感解析的分类结果都更高。
Claims (7)
1.社交网络评论热点事件舆情大数据分析方法,其特征在于,首先采取网络爬虫抓取社交网络评论页面,基于社交网络评论页面的AJAX刷新进行解析,针对抓取的HTML源代码分析抽取关键评论信息;然后基于HowNet作为情感词典的基础,同时从中选取部分情感词作为基准词,在语料中抽取部分候选情感词,基于深层启发学习构建词的特征向量然后计算候选情感词的情感倾向度来判断其词性,再人工筛选后加入到情感词典中;最后对社交网络评论的情感倾向性分类,首先通过情感词的褒贬倾向,并结合程度副词,否定词,标点符号基于社交网络评论的情感解析判断其情感倾向,在社交网络评论中选取情感词作为特征构建文本空间向量,再放入强化学习分类器中分类,将基于情感解析的社交网络评论感情识别方法和基于强化学习的社交网络评论感情识别方法结合起来提出了一种自适应监督模型;
第一阶段首先将社交网络评论文本进行预处理,然后利用基于深层启发学习的词汇情感倾向计算方法进行候选词词汇情感计算后扩充情感词典,最后基于情感解析计算出评论的情感值,得分大于0的划分为正面,得分小于0的划分为负面;然后将评论情感得分的绝对值进行从大到小排列,情感得分绝对值|O|>K的为确定分类集,反之为不确定分类集;
第二阶段利用第一阶段的分类结果,将确定分类集中的数据作为训练集,对不确定分类集进行再分类;通过第一阶段基于情感解析的分类,获得分类正确率极高的确定分类集,和分类正确率低的不确定分类集,搭建基于强化学习的分类器,利用对精确分类集的训练对不确定分类集进行分类;利用强化学习对不确定集合分类后,对不确定集合在两个阶段中的分类结果进行整合处理,以此来提高这些情感倾不明确的文本的分类正确率,如果两次分类结果相同,则结果为最终分类结果;如果两次分类结果不同,则不同的结果均视为正面情感;
基于情感词典的特征选取:通过扩充后的情感词典筛选,得到s个词的特征词列,即为最终选取的特征F=(t1,t2,…,ts),社交网络评论文本的形式化表示:将其表示为适应的结构化模型来方便计算机利用强化学习进行处理,文本空间向量将每个评论中出现的所有特征词对应词向量相加然后取平均值表示如下式:其中wk表示第k个特征词的词向量,l表示该文本中特征词的个数,得到文本向量后,将其转化为利于强化学习的格式,训练和测试文本集表示为一个矩阵形式:即行表示文本、列表示特征及权重,如下:/>其中,每一行表示一个文本,第一列label为文本的类别id,其余列为文本特征,i代表序号,w代表权重,label∈{-1,1},-1为负面,1为正面;利用两个文本在向量空间中的距离来表示其相似性,距离计算的夹角余弦值视为内积的归一化,采用深层启发学习来转化评论文本向量;
采用格搜索法选取最佳分类效果的惩罚函数C,首先设定C的取值范围,C取2的指数,设定其指数范围为[m,n],步增step为st,C的取值分别为2m,2m+st,…,2n;其次,取不同的C值进行交叉验证,得到不同的分类精度;最后,将取得最佳分类精度的C值作为最佳惩罚函数。
2.根据权利要求1所述社交网络评论热点事件舆情大数据分析方法,其特征在于,基于深层启发学习的词汇情感分析:首先将未知词以及情感词典中的词都转化为词向量,词向量是根据词汇所在上下文计算的,网络语通过计算向量空间上的余弦相似度充分表示文本语义上的相似度;
通过训练将每个词映射成K维实数向量,通过词之间的距离来判断它们之间的语义相似度,具体训练过程如下:
第一步:准备训练语料库,融合wiki和百度中文语料库,首先转化成简体字,然后进行去重、分词、去掉非汉语多余字符的处理;
第二步:对处理后的语料进行训练分词;
第三步:得到训练后的向量文本向量维度介于400-600,词向量个数介于550000-754560个;
第四步:词汇情感倾向计算,深层启发学习生成文本向量作为每一个维度代表一个语义,在获得两个基于语义所构成的文本向量时,通过夹角余弦来计算其语义相似度;
采用多选取一些基准词来排除其它语义的干扰,同时这些基准词表达的情感倾向不但强烈,且在不同的方面表达正面和负面情感,融入多对基准词后的词汇w词汇情感倾向计算式如下:
k是基准词对数,key-pi是第i个正面基准词,key-nj是第j个反面基准词,若T(w)>0,则该词汇为正面情感词汇,反之为负面情感词汇;将HowNet情感词典放入wiki分词后的语料遍历,将出现次数从大到小排序,然后从中按照情感倾向程度,以及尽量从多方面的角度考虑人工选取,同时褒义词贬义词按对选取尽量来排除其它语义的干扰,最后挑选出基准词。
3.根据权利要求1所述社交网络评论热点事件舆情大数据分析方法,其特征在于,基于强化学习的社交网络评论感情识别:通过计算机利用强化学习方法从训练文本集中抽取规则,建立分类器,然后将训练得到的分类器应用于对未知文本分类,基于强化学习的社交网络感情识别,解决的问题包括:一是社交网络评论特征选取;还有文本的表示问题;最后则是分类算法实现。
4.根据权利要求1所述社交网络评论热点事件舆情大数据分析方法,其特征在于,基于强化学习的社交评论分类方法:对词向量形式的文本进行训练,训练好分类器后,然后对测试文本进行类别判断,步骤如下:
第1步:按照强化学习要求格式准备文本集;
第2步:选取最佳参数,对训练文本集进行训练以获取最佳的分类;
第3步:利用获取的分类器对测试文本集进行分类测试,得到结果;
强化学习数据格式如下:
<label><index>:<value><index2>:<value2>…
其中:<label>表示训练数据集的值,在二分类情况下采用1和-1;<index>表示数据的索引值,以1开头的整数,必须是升序出现,可以不连续;<value>表示数据的特征值以实数表示,在不同的特征值之间以空格隔开。
5.根据权利要求1所述社交网络评论热点事件舆情大数据分析方法,其特征在于,强化学习径向因子:对于线性可分的数据可以画出一条直线将元组分开,对于非线性不可分的数据,选取一个径向因子,通过将数据映射到高维空间来解决在原始空间中线性不可分的问题;
建立非线性学习器分为两步:首先使用一个非线性映射将数据变换到一个特征空间F,然后在特征空间使用线性学习器分类;采用线性径向因子在特征空间中直接计算内积,将两个步骤融合到一起建立一个非线性的学习器。
6.根据权利要求1所述社交网络评论热点事件舆情大数据分析方法,其特征在于,强化学习惩罚函数:在选取线性径向因子后,参数选取惩罚函数C,惩罚函数表明对离群点的重视程度,C越大说明越重视,越不想丢弃这些离群点。
7.根据权利要求1所述社交网络评论热点事件舆情大数据分析方法,其特征在于,融合情感解析与强化学习的评论感情识别方法:该模型由两个过程组成,采用基于情感解析和强化学习相结合的自监督分类模型,整个分类过程分为两部分,第一部分基于情感解析在对情感词典扩充后进行分类,第二部分将第一部分中正确率高的一部分作为训练集对分类正确率低的部分进行再分类,最终整合两次分类结果得到最终结果;
第一阶段,首先抽取出社交网络评论文本,进行文本的预处理,然后利用20对褒贬强烈的基准词基于深层启发学习对评论文本中的候选情感词进行情感倾向计算来对情感词典进行扩充,然后基于情感词典以及对评论文本情感解析的理解对每个评论计算出一个情感值,再将情感值除以文本的长度以此来消除文本长度的影响,从而得到一个综合的评论情感得分,情感值或情感得分大于0的为正面情感,小于0的为负面情感,最后将评论情感得分取绝对值进行排序,将绝对值高的部分作为确定分类集,低的作为不确定分类集;
第二阶段中利用第一阶段的分类结果,构建基于强化学习的强化学习模块,利用情感词典进行特征选取,再将确定分类集中的数据作为训练集,对不确定分类集进行再分类,这一部分数据的最终分类结果由两阶段的分类结果整合确定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310482637.8A CN116361472B (zh) | 2023-05-02 | 2023-05-02 | 社交网络评论热点事件舆情大数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310482637.8A CN116361472B (zh) | 2023-05-02 | 2023-05-02 | 社交网络评论热点事件舆情大数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116361472A CN116361472A (zh) | 2023-06-30 |
CN116361472B true CN116361472B (zh) | 2024-05-03 |
Family
ID=86905100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310482637.8A Active CN116361472B (zh) | 2023-05-02 | 2023-05-02 | 社交网络评论热点事件舆情大数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361472B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217218B (zh) * | 2023-11-08 | 2024-01-23 | 中国科学技术信息研究所 | 科技风险事件相关舆情的情感词典构建方法及装置 |
CN118036589B (zh) * | 2023-11-10 | 2024-07-23 | 兰州大学 | 对生态环境公众满意度的文本分析方法、装置及介质 |
CN117271710B (zh) * | 2023-11-17 | 2024-01-30 | 山东接力教育集团有限公司 | 一种基于大数据的教辅热点数据智能分析系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
KR101851788B1 (ko) * | 2017-06-23 | 2018-04-24 | 주식회사 마인드셋 | 텍스트 감성 분석의 감정사전 업데이트 장치 및 방법 |
CN110390093A (zh) * | 2018-04-20 | 2019-10-29 | 普天信息技术有限公司 | 一种语言模型建立方法及装置 |
CN111931516A (zh) * | 2020-08-25 | 2020-11-13 | 汪金玲 | 一种基于强化学习的文本情感分析方法及系统 |
CN112046484A (zh) * | 2020-09-21 | 2020-12-08 | 吉林大学 | 一种基于q学习的车辆变道超车路径规划方法 |
CN112507520A (zh) * | 2020-11-12 | 2021-03-16 | 深圳慧拓无限科技有限公司 | 一种基于强化学习的路径规划方法及装置 |
CN113761910A (zh) * | 2021-03-17 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种融合情感特征的评论文本细粒度情感分析方法 |
CN114701517A (zh) * | 2022-04-07 | 2022-07-05 | 南京大学 | 基于强化学习的多目标复杂交通场景下自动驾驶解决方法 |
CN115878752A (zh) * | 2021-09-29 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 文本情感的分析方法、装置、设备、介质及程序产品 |
-
2023
- 2023-05-02 CN CN202310482637.8A patent/CN116361472B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
KR101851788B1 (ko) * | 2017-06-23 | 2018-04-24 | 주식회사 마인드셋 | 텍스트 감성 분석의 감정사전 업데이트 장치 및 방법 |
CN110390093A (zh) * | 2018-04-20 | 2019-10-29 | 普天信息技术有限公司 | 一种语言模型建立方法及装置 |
CN111931516A (zh) * | 2020-08-25 | 2020-11-13 | 汪金玲 | 一种基于强化学习的文本情感分析方法及系统 |
CN112046484A (zh) * | 2020-09-21 | 2020-12-08 | 吉林大学 | 一种基于q学习的车辆变道超车路径规划方法 |
CN112507520A (zh) * | 2020-11-12 | 2021-03-16 | 深圳慧拓无限科技有限公司 | 一种基于强化学习的路径规划方法及装置 |
CN113761910A (zh) * | 2021-03-17 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种融合情感特征的评论文本细粒度情感分析方法 |
CN115878752A (zh) * | 2021-09-29 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 文本情感的分析方法、装置、设备、介质及程序产品 |
CN114701517A (zh) * | 2022-04-07 | 2022-07-05 | 南京大学 | 基于强化学习的多目标复杂交通场景下自动驾驶解决方法 |
Non-Patent Citations (6)
Title |
---|
A.Haroon,T.Mahmood,R.Ashraf,M.Asif,S.Naseem,A.W.Khan.A Comprehensive Survey of Sentiment Analysis Based on User Opinion.2021 4th International Conference on Computing & Information Sciences(ICCIS).2021,1-6. * |
一种基于情感计算与层次化多头注意力机制的负面新闻识别方法;张仰森;周炜翔;张禹尧;吴云芳;;电子学报(第09期);1720-1728 * |
基于对抗训练策略的语言模型数据增强技术;张一珂;张鹏远;颜永红;;自动化学报(第05期);891-900 * |
基于情感词典扩充技术的网络舆情倾向性分析;杨超;《中国优秀硕士学位论文全文数据库·信息科技辑》(第03期);63 * |
基于情感词典扩展技术的网络舆情倾向性分析;杨超 等;小型微型计算机系统;第31卷(第04期);691-695 * |
特定事件下网络舆情的情感分析与可视化方法;习海旭 等;情报理论与实践;第43卷(第09期);132-136+143 * |
Also Published As
Publication number | Publication date |
---|---|
CN116361472A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116361472B (zh) | 社交网络评论热点事件舆情大数据分析方法 | |
CN113435179B (zh) | 一种作文评阅方法、装置、设备及存储介质 | |
CN106886580B (zh) | 一种基于深度学习的图片情感极性分析方法 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN111651606B (zh) | 一种文本处理方法、装置及电子设备 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN116775874B (zh) | 一种基于多重语义信息的资讯智能分类方法及系统 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
CN116108190A (zh) | 一种面向智能运维的电力变压器知识图谱构建方法 | |
CN115713072A (zh) | 一种基于提示学习和上下文感知的关系类别推断系统及方法 | |
CN115757775B (zh) | 基于文本蕴含的无触发词文本事件检测方法及系统 | |
CN113641788B (zh) | 一种基于无监督的长短影评细粒度观点挖掘方法 | |
CN113361252B (zh) | 基于多模态特征和情感词典的文本抑郁倾向检测系统 | |
CN118313385B (zh) | 一种融合多种情感极性的文本讽刺识别方法 | |
CN114579709A (zh) | 一种基于知识图谱的智能问答意图识别方法 | |
CN113934814A (zh) | 古诗文主观题自动评分方法 | |
CN112667819A (zh) | 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置 | |
Cherrat et al. | Sentiment Analysis from Texts Written in Standard Arabic and Moroccan Dialect based on Deep Learning Approaches. | |
CN117291190A (zh) | 一种基于情感词典和lda主题模型的用户需求计算方法 | |
CN112749278B (zh) | 一种建筑工程变更指令的分类方法 | |
BOUGHACI et al. | An improved N-grams based Model for Authorship Attribution | |
CN118410797B (zh) | 一种基于语料库的儿童语言语气词汇识别系统及方法 | |
Nogales et al. | Moral Disagreement over Serious Matters: Discovering the Knowledge Hidden in the Perspectives | |
CN118170919B (zh) | 一种文学作品的分类方法及系统 | |
CN114357990B (zh) | 文本数据标注方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240410 Address after: 115/117, 1st Floor, Building 2, No.1 Shangdi 7th Street, Haidian District, Beijing, 100080 Applicant after: Pulse Online (Beijing) Information Technology Co.,Ltd. Country or region after: China Address before: No. 11 Panlongshan Road, Jizhou District, Tianjin City, 301900 Applicant before: Zhou Wei Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |