CN112926307A - 基于依存关系的评价对象情感分析方法及存储介质 - Google Patents
基于依存关系的评价对象情感分析方法及存储介质 Download PDFInfo
- Publication number
- CN112926307A CN112926307A CN202110297976.XA CN202110297976A CN112926307A CN 112926307 A CN112926307 A CN 112926307A CN 202110297976 A CN202110297976 A CN 202110297976A CN 112926307 A CN112926307 A CN 112926307A
- Authority
- CN
- China
- Prior art keywords
- words
- word
- evaluation object
- emotion
- dependency relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 335
- 230000008451 emotion Effects 0.000 title claims abstract description 178
- 238000004458 analytical method Methods 0.000 title claims description 25
- 230000002996 emotional effect Effects 0.000 claims abstract description 83
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000000034 method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000001953 sensory effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 239000003607 modifier Substances 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
一种基于依存关系的评价对象情感分析方法及存储介质,其中方法包括如下步骤,S1、对文本进行分词处理,与情感词典进行匹配,判断其是否为情感词,提取情感词;S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象;S3、抽取与情感词有直接依存关系的词与知网程度词典、知网否定词典进行匹配,判断其是否为程度副词、否定词,并分别计算情感词、程度副词、否定词分数;S4、对各评价对象进行情感倾向计算。上述方案,可用于对评价文本中的各评价对象进行情感倾向性量化。
Description
技术领域
本发明涉及语义识别领域,尤其涉及基于依存关系的评价对象情感分析方法。
背景技术
在现有的语义分析技术方案中,如专利号201610537567.1的技术方案,用于基于依存关系进行评价对象的选取,以及申请号2017107837114的技术方案,用于基于依存关系进行评价对象抽取。上述对象能够对句子的语义进行分析,并提取其中的评价对象。我们的技术方案在现有技术方案的基础上上,尝试对评价对象的情感分析进行进一步的改进。
发明内容
为此,需要提供一种能够在基于依存关系的评价对象提取后建立评价体系的方法,以解决在现有技术中对评价对象情感分析的问题;
为实现上述目的,发明人提供了一种基于依存关系的评价对象情感分析方法,包括如下步骤,
S1、对文本进行分词处理,与情感词典进行匹配,判断其是否为情感词,提取情感词;
S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象;
S3、抽取与情感词有直接依存关系的词与程度词典、否定词典进行匹配,判断其是否为程度副词、否定词,并分别计算情感词分数、程度副词分数、否定词分数;
S4、根据计算情感词分数、程度副词分数、否定词分数对各评价对象进行情感倾向计算。
具体地,所述步骤S2具体实现如下:
S21、定义观点评价对象词与情感词之间的直接、间接依存关系:
(1)定义观点评价对象词与情感词之间的直接依存关系,即:观点评价对象词与情感词之间存在依存关系,且在依存路径上没有依赖其他词;观点评价对象词与情感词之间的直接依存关系包括:父亲关系、儿子关系;
(2)定义观点评价对象词与情感词之间的间接依存关系,即:观点评价对象词与情感词通过其他词产生依存关系;观点评价对象词与情感词之间的间接依存关系包括:兄弟关系、夫妻关系、祖父关系、孙子关系、远亲关系;
S22、基于步骤S21定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板;
(1)根据观点评价对象词与情感词之间的直接依存关系,构建观点评价对象词与情感词之间的直接依存关系模板,具体表示为(dp,target,relate,opinion),其中:dp表示观点评价对象词与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感词之间的依存关系形式,并用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点评价对象词是情感词的儿子节点;opinion指情感词;
(2)根据观点评价对象词与情感词之间的间接依存关系,构建观点评价对象词与情感词之间的间接依存关系模板,具体表示为(dp1,target,relate1,middle1)+…+(dpk-1,middlek-1,relatek-1,middlek)+(dpk,middlek,relatek,opinion),其中:dp1表示第1个观点评价对象词与第1个中间词的依存关系;relate1表示第1个观点评价对象词与第1个中间词之间的依存关系形式,用-1或+1表示;middlek指第k个中间词;dpk表示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关系形式,用-1或+1表示;
S23、基于依存关系模板抽取观点评价对象;
(1)候选观点评价对象词预处理:
a、词性过滤:仅将名词或名词短语作为候选评价对象词;
b、停用词过滤:过滤停用词;
c、位置过滤:过滤不存在情感词的分句中的观点评价对象词;
(2)候选观点评价对象词分数计算:
设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},取X×Y的一个子集R构造一个从X到Y的匹配关系,若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj;若即称xi与yj没有匹配关系,记作
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示依存关系模板个数;v表示候选观点评价对象词候选个数;
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1;
而后通过公式①计算第j个候选观点评价对象词分数
若swj大于0.0025,则该第j个候选观点评价对象词即为观点评价对象种子词;
(3)候选依存关系模板分数计算:
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式②算第s个候选依存关系模板分数
若sps大于0.05,则该第s个候选依存关系模板即为依存关系种子模板;
(4)基于依存关系的观点评价对象边界识别规则:
ATT规则:若当前词是观点评价对象词,前一个词或后一个词与该词具有定中关系ATT或数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词;
合并规则:若当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对象词,则前一个词或后一个词扩展为观点评价对象词;
所述步骤(3)候选依存关系模板分数计算、(4)基于依存关系的观点评价对象边界识别规则之间还包括一步骤,即:由步骤(2)、(3)得到的观点评价对象种子词、依存关系种子模板重新对步骤(1)处理的候选观点评价对象词进行训练,直至没有新的观点评价对象种子词产生。
进一步地,所述步骤S3具体实现如下:
S31、否定词的分数计算;
S32、程度副词的分数计算;
S33、情感词的分数计算;
所述步骤S31具体实现如下:
S31、否定词的分数计算;
抽取与情感词有直接依存关系的词与知网否定词典进行匹配,判断其是否为否定词。如果存在否定词,该词分数设为-1,如果不存在否定词,分数设为1。
S32、程度副词的分数计算;
(1)在知网程度词典中,程度副词分为5个等级,1级是程序最高,5级是程度最低,再补充一个没有程度副词的情况,将这6个级别归一化处理,得到每个程度级别的分数{0.325,0.225,0.18,0.135,0.09,0.045}。
(2)抽取与情感词有直接依存关系的词与知网程度词典进行匹配,判断其是否为程度词,并根据词典对应的等级设置分数;
S33、情感词的分数计算;
将积极情感词分数设置为1、消极情感词分数设置为–1。
具体地,所述步骤S4具体实现如下:
S41、对各个评价对象的情感进行分数计算;
由于一个评价对象可能有多个情感词、多个程度副词对其进行评价。因此对评价对象的每组情感词、程度词、否定词分数进行叠加计算得到该评价对象的分数。分数计算如公式③:
其中,i表示修饰评价对象的第i组词,包含情感词、程度副词、否定词,negval(i)表示第i组否定词;degree(i)表示第i组程度副词;sentiment(i)表示第i组情感词;
S42、各评价对象的情感倾向性分析
根据得到的分数值,将其转换成百分比数值从而得到该评价对象的情感倾向性,所述分数值为正数则是对该评价对象的正面评价,否则是负面评价,分数值得绝对值越高说明情感倾向程度越高。
一种基于依存关系的评价对象情感分析存储介质,存储有计算机程序,所述计算机程序在被执行时进行包括如下步骤:
S1、对文本进行分词处理,与情感词典进行匹配,判断其是否为情感词,提取情感词;
S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象;
S3、抽取与情感词有直接依存关系的词与程度词典、否定词典进行匹配,判断其是否为程度副词、否定词,并分别计算情感词分数、程度副词分数、否定词分数;
S4、根据计算情感词分数、程度副词分数、否定词分数对各评价对象进行情感倾向计算。
具体地,所述计算机程序在被执行时进行的步骤S2具体实现如下:
S21、定义观点评价对象词与情感词之间的直接、间接依存关系:
(1)定义观点评价对象词与情感词之间的直接依存关系,即:观点评价对象词与情感词之间存在依存关系,且在依存路径上没有依赖其他词;观点评价对象词与情感词之间的直接依存关系包括:父亲关系、儿子关系;
(2)定义观点评价对象词与情感词之间的间接依存关系,即:观点评价对象词与情感词通过其他词产生依存关系;观点评价对象词与情感词之间的间接依存关系包括:兄弟关系、夫妻关系、祖父关系、孙子关系、远亲关系;
S22、基于步骤S21定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板;
(1)根据观点评价对象词与情感词之间的直接依存关系,构建观点评价对象词与情感词之间的直接依存关系模板,具体表示为(dp,target,relate,opinion),其中:dp表示观点评价对象词与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感词之间的依存关系形式,并用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点评价对象词是情感词的儿子节点;opinion指情感词;
(2)根据观点评价对象词与情感词之间的间接依存关系,构建观点评价对象词与情感词之间的间接依存关系模板,具体表示为(dp1,target,relate1,middle1)+…+(dpk-1,middlek-1,relatek-1,middlek)+(dpk,middlek,relatek,opinion),其中:dp1表示第1个观点评价对象词与第1个中间词的依存关系;relate1表示第1个观点评价对象词与第1个中间词之间的依存关系形式,用-1或+1表示;middlek指第k个中间词;dpk表示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关系形式,用-1或+1表示;
S23、基于依存关系模板抽取观点评价对象;
(1)候选观点评价对象词预处理:
a、词性过滤:仅将名词或名词短语作为候选评价对象词;
b、停用词过滤:过滤停用词;
c、位置过滤:过滤不存在情感词的分句中的观点评价对象词;
(2)候选观点评价对象词分数计算:
设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},取X×Y的一个子集R构造一个从X到Y的匹配关系,若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj;若即称xi与yj没有匹配关系,记作
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示依存关系模板个数;v表示候选观点评价对象词候选个数;
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1;
而后通过公式①计算第j个候选观点评价对象词分数
若swj大于0.0025,则该第j个候选观点评价对象词即为观点评价对象种子词;
(3)候选依存关系模板分数计算:
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式②算第s个候选依存关系模板分数
若sps大于0.05,则该第s个候选依存关系模板即为依存关系种子模板;
(4)基于依存关系的观点评价对象边界识别规则:
ATT规则:若当前词是观点评价对象词,前一个词或后一个词与该词具有定中关系ATT或数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词;
合并规则:若当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对象词,则前一个词或后一个词扩展为观点评价对象词;
所述步骤(3)候选依存关系模板分数计算、(4)基于依存关系的观点评价对象边界识别规则之间还包括一步骤,即:由步骤(2)、(3)得到的观点评价对象种子词、依存关系种子模板重新对步骤(1)处理的候选观点评价对象词进行训练,直至没有新的观点评价对象种子词产生。
进一步地,所述计算机程序在被执行时进行的步骤S3具体实现如下:
S31、否定词的分数计算;
S32、程度副词的分数计算;
S33、情感词的分数计算;
所述步骤S31具体实现如下:
S31、否定词的分数计算;
抽取与情感词有直接依存关系的词与知网否定词典进行匹配,判断其是否为否定词。如果存在否定词,该词分数设为-1,如果不存在否定词,分数设为1。
S32、程度副词的分数计算;
(1)在知网程度词典中,程度副词分为5个等级,1级是程序最高,5级是程度最低,再补充一个没有程度副词的情况,将这6个级别归一化处理,得到每个程度级别的分数{0.325,0.225,0.18,0.135,0.09,0.045}。
(2)抽取与情感词有直接依存关系的词与知网程度词典进行匹配,判断其是否为程度词,并根据词典对应的等级设置分数;
S33、情感词的分数计算;
将积极情感词分数设置为1、消极情感词分数设置为–1。
具体地,所述计算机程序在被执行时进行的步骤S4具体实现如下:
S41、对各个评价对象的情感进行分数计算;
由于一个评价对象可能有多个情感词、多个程度副词对其进行评价。因此对评价对象的每组情感词、程度词、否定词分数进行叠加计算得到该评价对象的分数。分数计算如公式③:
其中,i表示修饰评价对象的第i组词,包含情感词、程度副词、否定词,negval(i)表示第i组否定词;degree(i)表示第i组程度副词;sentiment(i)表示第i组情感词;
S42、各评价对象的情感倾向性分析
根据得到的分数值,将其转换成百分比数值从而得到该评价对象的情感倾向性,所述分数值为正数则是对该评价对象的正面评价,否则是负面评价,分数值得绝对值越高说明情感倾向程度越高。
通过上述方案,我们构建了一个在识别句子中的评价对象后,对该评价对象的情感倾向性的评价体系,得到的分数值为正则为正面评价,分数值为负则为负面评价,同时得分越高说明倾向性越高。解决了现有技术中无法对评价对象进行情感倾向性量化的问题。
附图说明
图1为具体实施方式所述的基于依存关系的评价对象情感分析方法流程图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,一种基于依存关系的评价对象情感分析方法,包括如下步骤,对文本进行预处理抽取情感词,再抽取与该情感词有依存关系的评价对象、程度词、否定词,并对各评价对象进行情感倾向计算。
S1、对文本进行分词处理,与情感词典进行匹配,判断其是否为情感词,提取情感词;这里的情感词典可以选用现有技术的情感词典,如知网情感词典。
S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象;
S3、抽取与情感词有直接依存关系的词与知网程度词典、知网否定词典进行匹配,判断其是否为程度副词、否定词,并分别计算情感词、程度副词、否定词分数;
S4、对各评价对象进行情感倾向计算。
在进一步的实施例中,所述步骤S2具体实现如下:
S21、定义观点评价对象词与情感词之间的直接、间接依存关系:
(1)定义观点评价对象词与情感词之间的直接依存关系,即:观点评价对象词与情感词之间存在依存关系,且在依存路径上没有依赖其他词;观点评价对象词与情感词之间的直接依存关系包括:父亲关系、儿子关系;
(2)定义观点评价对象词与情感词之间的间接依存关系,即:观点评价对象词与情感词通过其他词产生依存关系;观点评价对象词与情感词之间的间接依存关系包括:兄弟关系、夫妻关系、祖父关系、孙子关系、远亲关系。
S22、基于步骤S11定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板;
(1)根据观点评价对象词与情感词之间的直接依存关系,构建观点评价对象词与情感词之间的直接依存关系模板,具体表示为(dp,target,relate,opinion),其中:dp表示观点评价对象词与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感词之间的依存关系形式,并用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点评价对象词是情感词的儿子节点;opinion指情感词;
(2)根据观点评价对象词与情感词之间的间接依存关系,构建观点评价对象词与情感词之间的间接依存关系模板,具体表示为(dp1,target,relate1,middle1)+…+(dpk-1,middlek-1,relatek-1,middlek)+(dpk,middlek,relatek,opinion),其中:dp1表示第1个观点评价对象词与第1个中间词的依存关系;relate1表示第1个观点评价对象词与第1个中间词之间的依存关系形式,用-1或+1表示;middlek指第k个中间词;dpk表示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关系形式,用-1或+1表示;
S23、基于依存关系模板抽取观点评价对象;
(1)候选观点评价对象词预处理:
a、词性过滤:仅将名词或名词短语作为候选评价对象词;
b、停用词过滤:过滤停用词;
c、位置过滤:过滤不存在情感词的分句中的观点评价对象词;
(2)候选观点评价对象词分数计算:
设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},取X×Y的一个子集R构造一个从X到Y的匹配关系,若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj;若即称xi与yj没有匹配关系,记作
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示依存关系模板个数;v表示候选观点评价对象词候选个数;
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1;
而后通过公式①计算第j个候选观点评价对象词分数
若swj大于0.0025,则该第j个候选观点评价对象词即为观点评价对象种子词;
(3)候选依存关系模板分数计算:
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式②算第s个候选依存关系模板分数
若sps大于0.05,则该第s个候选依存关系模板即为依存关系种子模板;
(4)基于依存关系的观点评价对象边界识别规则:
ATT规则:若当前词是观点评价对象词,前一个词或后一个词与该词具有定中关系ATT或数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词;
合并规则:若当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对象词,则前一个词或后一个词扩展为观点评价对象词;
所述步骤(3)、(4)之间还包括一步骤,即:由步骤(2)、(3)得到的观点评价对象种子词、依存关系种子模板重新对步骤(1)处理的候选观点评价对象词进行训练,直至没有新的观点评价对象种子词产生,再执行步骤(4)。
所述步骤S3具体实现如下:
S31、否定词的分数计算;
S32、程度副词的分数计算;
S33、情感词的分数计算;
所述步骤S31具体实现如下:
S31、否定词的分数计算;
抽取与情感词有直接依存关系的词与否定词典进行匹配,判断其是否为否定词。如果存在否定词,该词分数设为-1,如果不存在否定词,分数设为1。这里的否定词典可以采用现有技术中的否定词典设计,本例以知网否定词典为例。
S32、程度副词的分数计算;
接下来所要提到的程度词典可以采用现有技术中的程度词典设计,本文以知网程度词典为例,下同。
(1)在知网程度词典中,程度副词分为5个等级,1级是程序最高,5级是程度最低。我们再补充一个没有程度副词的情况,将这6个级别归一化处理,得到每个程度级别的分数{0.325,0.225,0.18,0.135,0.09,0.045}。在遇到不同程度词典的实施例中,也可以根据不同的程度副词等级设定进行不同的归一化设置。
(2)抽取与情感词有直接依存关系的词与知网程度词典进行匹配,判断其是否为程度词,并根据词典对应的等级设置分数。比如:“还可以,这个价格真的很便宜!”。该语句中有两个情感词“可以”和“便宜”对评价对象“价格”进行修饰。与情感词“可以”有依存关系的词是“还”,该词在知网程度词典中存在,且是一个3级程度的副词。因此该程度词的分数设为0.18。与情感词“便宜”有依存关系的程度词有“真的”、“很”,但只有“很”这个词在知网程度词典中存在且程度级别为2级,所以,该程度词的分数设为0.225。
S33、情感词的分数计算;
知网情感词典将情感词分为积极词和消极词。积极词又分为正面评价词和正面情感词,消极词又分为负面评价词和负面情感词。积极情感词分数设置为1、消极情感词分数设置为-1。比如:“还可以,这个价格真的很便宜!”。该语句中修饰评价对象“价格”的两个情感词“可以”和“便宜”都是积极情感词分数都是1。
在具体的实施例中,所述步骤S4具体实现如下:
S41、对各个评价对象的情感进行分数计算;
由于一个评价对象可能有多个情感词、多个程度副词对其进行评价。因此对评价对象的每组情感词、程度词、否定词分数进行叠加计算得到该评价对象的分数。分数计算如公式3:
其中,i表示修饰评价对象的第i组词,包含情感词、程度副词、否定词,negval(i)表示第i组否定词;degree(i)表示第i组程度副词;sentiment(i)表示第i组情感词。比如:“还可以,这个价格真的很便宜!”。该语句中修饰评价对象“价格”有两个情感词“可以”和“便宜”,第一组修饰词情感分数为0.18。第二组修饰词情感分数为0.24。因此评价对象“价格”的情感倾向分数是0.42。
S42、各评价对象的情感倾向性分析
根据得到的分数值,将其转换成百分比数值从而得到该评价对象的情感倾向性。如果是正数认为是对该评价对象的正面评价,否则是负面评价。分数越高说明情感倾向程度越高。比如:“还可以,这个价格真的很便宜!”。该语句中评价对象“价格”的情感倾向分数是0.42,说明评论者对“价格”这个评价对象给予较正面积极的评价。
通过上述方案,我们构建了一个在识别句子中的评价对象后,对该评价对象的情感倾向性的评价体系,得到的分数值为正则为正面评价,分数值为负则为负面评价,同时得分越高说明倾向性越高。解决了现有技术中无法对评价对象进行情感倾向性量化的问题。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。
Claims (8)
1.一种基于依存关系的评价对象情感分析方法,其特征在于,包括如下步骤,
S1、对文本进行分词处理,与情感词典进行匹配,判断其是否为情感词,提取情感词;
S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象;
S3、抽取与情感词有直接依存关系的词与程度词典、否定词典进行匹配,判断其是否为程度副词、否定词,并分别计算情感词分数、程度副词分数、否定词分数;
S4、根据计算情感词分数、程度副词分数、否定词分数对各评价对象进行情感倾向计算。
2.根据权利要求1所述的基于依存关系的评价对象情感分析方法,其特征在于,所述步骤S2具体实现如下:
S21、定义观点评价对象词与情感词之间的直接、间接依存关系:
(1)定义观点评价对象词与情感词之间的直接依存关系,即:观点评价对象词与情感词之间存在依存关系,且在依存路径上没有依赖其他词;观点评价对象词与情感词之间的直接依存关系包括:父亲关系、儿子关系;
(2)定义观点评价对象词与情感词之间的间接依存关系,即:观点评价对象词与情感词通过其他词产生依存关系;观点评价对象词与情感词之间的间接依存关系包括:兄弟关系、夫妻关系、祖父关系、孙子关系、远亲关系;
S22、基于步骤S21定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板;
(1)根据观点评价对象词与情感词之间的直接依存关系,构建观点评价对象词与情感词之间的直接依存关系模板,具体表示为(dp,target,relate,opinion),其中:dp表示观点评价对象词与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感词之间的依存关系形式,并用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点评价对象词是情感词的儿子节点;opinion指情感词;
(2)根据观点评价对象词与情感词之间的间接依存关系,构建观点评价对象词与情感词之间的间接依存关系模板,具体表示为(dp1,target,relate1,middle1)+…+(dpk-1,middlek-1,relatek-1,middlek)+(dpk,middlek,relatek,opinion),其中:dp1表示第1个观点评价对象词与第1个中间词的依存关系;relate1表示第1个观点评价对象词与第1个中间词之间的依存关系形式,用-1或+1表示;middlek指第k个中间词;dpk表示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关系形式,用-1或+1表示;
S23、基于依存关系模板抽取观点评价对象;
(1)候选观点评价对象词预处理:
a、词性过滤:仅将名词或名词短语作为候选评价对象词;
b、停用词过滤:过滤停用词;
c、位置过滤:过滤不存在情感词的分句中的观点评价对象词;
(2)候选观点评价对象词分数计算:
设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},取X×Y的一个子集R构造一个从X到Y的匹配关系,若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj;若即称xi与yj没有匹配关系,记作
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示依存关系模板个数;v表示候选观点评价对象词候选个数;
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1;
而后通过公式①计算第j个候选观点评价对象词分数
若swj大于0.0025,则该第j个候选观点评价对象词即为观点评价对象种子词;
(3)候选依存关系模板分数计算:
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式②算第s个候选依存关系模板分数
若sps大于0.05,则该第s个候选依存关系模板即为依存关系种子模板;
(4)基于依存关系的观点评价对象边界识别规则:
ATT规则:若当前词是观点评价对象词,前一个词或后一个词与该词具有定中关系ATT或数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词;
合并规则:若当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对象词,则前一个词或后一个词扩展为观点评价对象词;
步骤(3)候选依存关系模板分数计算、(4)基于依存关系的观点评价对象边界识别规则之间还包括一步骤,即:由步骤(2)、(3)得到的观点评价对象种子词、依存关系种子模板重新对步骤(1)处理的候选观点评价对象词进行训练,直至没有新的观点评价对象种子词产生。
3.根据权利要求1所述的基于依存关系的评价对象情感分析方法,其特征在于,所述步骤S3具体实现如下:
S31、否定词的分数计算;
S32、程度副词的分数计算;
S33、情感词的分数计算;
所述步骤S31具体实现如下:
S31、否定词的分数计算;
抽取与情感词有直接依存关系的词与知网否定词典进行匹配,判断其是否为否定词,如果存在否定词,该词分数设为-1,如果不存在否定词,分数设为1;
S32、程度副词的分数计算;
(1)在知网程度词典中,程度副词分为5个等级,1级是程序最高,5级是程度最低,再补充一个没有程度副词的情况,将这6个级别归一化处理,得到每个程度级别的分数{0.325,0.225,0.18,0.135,0.09,0.045};
(2)抽取与情感词有直接依存关系的词与知网程度词典进行匹配,判断其是否为程度词,并根据词典对应的等级设置分数;
S33、情感词的分数计算;
将积极情感词分数设置为1、消极情感词分数设置为-1。
4.根据权利要求1所述的基于依存关系的评价对象情感分析方法,其特征在于,所述步骤S4具体实现如下:
S41、对各个评价对象的情感进行分数计算;
对评价对象的每组情感词、程度词、否定词分数进行叠加计算得到该评价对象的分数;分数计算如公式③:
其中,i表示修饰评价对象的第i组词,包含情感词、程度副词、否定词,negval(i)表示第i组否定词;degree(i)表示第i组程度副词;sentiment(i)表示第i组情感词;
S42、各评价对象的情感倾向性分析
根据得到的分数值,将其转换成百分比数值从而得到该评价对象的情感倾向性,所述分数值为正数则是对该评价对象的正面评价,否则是负面评价,分数值得绝对值越高说明情感倾向程度越高。
5.一种基于依存关系的评价对象情感分析存储介质,其特征在于,存储有计算机程序,所述计算机程序在被执行时进行包括如下步骤:
S1、对文本进行分词处理,与情感词典进行匹配,判断其是否为情感词,提取情感词;
S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象;
S3、抽取与情感词有直接依存关系的词与程度词典、否定词典进行匹配,判断其是否为程度副词、否定词,并分别计算情感词分数、程度副词分数、否定词分数;
S4、根据计算情感词分数、程度副词分数、否定词分数对各评价对象进行情感倾向计算。
6.根据权利要求5所述的基于依存关系的评价对象情感分析存储介质,其特征在于,所述计算机程序在被执行时进行的步骤S2具体实现如下:
S21、定义观点评价对象词与情感词之间的直接、间接依存关系:
(1)定义观点评价对象词与情感词之间的直接依存关系,即:观点评价对象词与情感词之间存在依存关系,且在依存路径上没有依赖其他词;观点评价对象词与情感词之间的直接依存关系包括:父亲关系、儿子关系;
(2)定义观点评价对象词与情感词之间的间接依存关系,即:观点评价对象词与情感词通过其他词产生依存关系;观点评价对象词与情感词之间的间接依存关系包括:兄弟关系、夫妻关系、祖父关系、孙子关系、远亲关系;
S22、基于步骤S21定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板;
(1)根据观点评价对象词与情感词之间的直接依存关系,构建观点评价对象词与情感词之间的直接依存关系模板,具体表示为(dp,target,relate,opinion),其中:dp表示观点评价对象词与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感词之间的依存关系形式,并用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点评价对象词是情感词的儿子节点;opinion指情感词;
(2)根据观点评价对象词与情感词之间的间接依存关系,构建观点评价对象词与情感词之间的间接依存关系模板,具体表示为(dp1,target,relate1,middle1)+…+(dpk-1,middlek-1,relatek-1,middlek)+(dpk,middlek,relatek,opinion),其中:dp1表示第1个观点评价对象词与第1个中间词的依存关系;relate1表示第1个观点评价对象词与第1个中间词之间的依存关系形式,用-1或+1表示;middlek指第k个中间词;dpk表示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关系形式,用-1或+1表示;
S23、基于依存关系模板抽取观点评价对象;
(1)候选观点评价对象词预处理:
a、词性过滤:仅将名词或名词短语作为候选评价对象词;
b、停用词过滤:过滤停用词;
c、位置过滤:过滤不存在情感词的分句中的观点评价对象词;
(2)候选观点评价对象词分数计算:
设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},取X×Y的一个子集R构造一个从X到Y的匹配关系,若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj;若即称xi与yj没有匹配关系,记作
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示依存关系模板个数;v表示候选观点评价对象词候选个数;
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1;
而后通过公式①计算第j个候选观点评价对象词分数
若swj大于0.0025,则该第j个候选观点评价对象词即为观点评价对象种子词;
(3)候选依存关系模板分数计算:
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式②算第s个候选依存关系模板分数
若sps大于0.05,则该第s个候选依存关系模板即为依存关系种子模板;
(4)基于依存关系的观点评价对象边界识别规则:
ATT规则:若当前词是观点评价对象词,前一个词或后一个词与该词具有定中关系ATT或数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词;
合并规则:若当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对象词,则前一个词或后一个词扩展为观点评价对象词;
步骤(3)候选依存关系模板分数计算、(4)基于依存关系的观点评价对象边界识别规则之间还包括一步骤,即:由步骤(2)、(3)得到的观点评价对象种子词、依存关系种子模板重新对步骤(1)处理的候选观点评价对象词进行训练,直至没有新的观点评价对象种子词产生。
7.根据权利要求5所述的基于依存关系的评价对象情感分析存储介质,其特征在于,所述计算机程序在被执行时进行的步骤S3具体实现如下:
S31、否定词的分数计算;
S32、程度副词的分数计算;
S33、情感词的分数计算;
所述步骤S31具体实现如下:
S31、否定词的分数计算;
抽取与情感词有直接依存关系的词与知网否定词典进行匹配,判断其是否为否定词,如果存在否定词,该词分数设为-1,如果不存在否定词,分数设为1;
S32、程度副词的分数计算;
(1)在知网程度词典中,程度副词分为5个等级,1级是程序最高,5级是程度最低,再补充一个没有程度副词的情况,将这6个级别归一化处理,得到每个程度级别的分数{0.325,0.225,0.18,0.135,0.09,0.045};
(2)抽取与情感词有直接依存关系的词与知网程度词典进行匹配,判断其是否为程度词,并根据词典对应的等级设置分数;
S33、情感词的分数计算;
将积极情感词分数设置为1、消极情感词分数设置为-1。
8.根据权利要求5所述的基于依存关系的评价对象情感分析存储介质,其特征在于,所述计算机程序在被执行时进行的步骤S4具体实现如下:
S41、对各个评价对象的情感进行分数计算;
对评价对象的每组情感词、程度词、否定词分数进行叠加计算得到该评价对象的分数,分数计算如公式③:
其中,i表示修饰评价对象的第i组词,包含情感词、程度副词、否定词,negval(i)表示第i组否定词;degree(i)表示第i组程度副词;sentiment(i)表示第i组情感词;
S42、各评价对象的情感倾向性分析:
根据得到的分数值,将其转换成百分比数值从而得到该评价对象的情感倾向性,所述分数值为正数则是对该评价对象的正面评价,否则是负面评价,分数值得绝对值越高说明情感倾向程度越高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110297976.XA CN112926307A (zh) | 2021-03-19 | 2021-03-19 | 基于依存关系的评价对象情感分析方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110297976.XA CN112926307A (zh) | 2021-03-19 | 2021-03-19 | 基于依存关系的评价对象情感分析方法及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112926307A true CN112926307A (zh) | 2021-06-08 |
Family
ID=76175242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110297976.XA Pending CN112926307A (zh) | 2021-03-19 | 2021-03-19 | 基于依存关系的评价对象情感分析方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926307A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092793A1 (en) * | 2014-09-26 | 2016-03-31 | Thomson Reuters Global Resources | Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts |
CN107480142A (zh) * | 2017-09-01 | 2017-12-15 | 闽江学院 | 一种基于依存关系抽取评价对象的方法 |
CN109101478A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种面向电商评论文本的Aspect级情感分析方法 |
CN110362679A (zh) * | 2019-06-05 | 2019-10-22 | 北京大学(天津滨海)新一代信息技术研究院 | 一种基于情感词典的金融领域评论情感分类方法及系统 |
CN110598219A (zh) * | 2019-10-23 | 2019-12-20 | 安徽理工大学 | 一种面向豆瓣网电影评论的情感分析方法 |
-
2021
- 2021-03-19 CN CN202110297976.XA patent/CN112926307A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092793A1 (en) * | 2014-09-26 | 2016-03-31 | Thomson Reuters Global Resources | Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts |
CN107480142A (zh) * | 2017-09-01 | 2017-12-15 | 闽江学院 | 一种基于依存关系抽取评价对象的方法 |
CN109101478A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种面向电商评论文本的Aspect级情感分析方法 |
CN110362679A (zh) * | 2019-06-05 | 2019-10-22 | 北京大学(天津滨海)新一代信息技术研究院 | 一种基于情感词典的金融领域评论情感分类方法及系统 |
CN110598219A (zh) * | 2019-10-23 | 2019-12-20 | 安徽理工大学 | 一种面向豆瓣网电影评论的情感分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Raunak et al. | Effective dimensionality reduction for word embeddings | |
Al-Amin et al. | Sentiment analysis of Bengali comments with Word2Vec and sentiment information of words | |
JP6618735B2 (ja) | 質問応答システムの訓練装置及びそのためのコンピュータプログラム | |
CN105988990A (zh) | 用于汉语中的零指代消解的装置和方法以及模型训练方法 | |
CN109697288B (zh) | 一种基于深度学习的实例对齐方法 | |
CN108345583B (zh) | 基于多语注意力机制的事件识别及分类方法及装置 | |
Poostchi et al. | BiLSTM-CRF for Persian named-entity recognition ArmanPersoNERCorpus: the first entity-annotated Persian dataset | |
CN108363688B (zh) | 一种融合先验信息的命名实体链接方法 | |
CN111191446B (zh) | 交互信息处理方法、装置、计算机设备和存储介质 | |
Ahmed et al. | Named entity recognition by using maximum entropy | |
CN114329225A (zh) | 基于搜索语句的搜索方法、装置、设备及存储介质 | |
CN112765357A (zh) | 文本分类方法、装置和电子设备 | |
Barriere et al. | Opinion dynamics modeling for movie review transcripts classification with hidden conditional random fields | |
US20240330711A1 (en) | Natural language processing method and apparatus, device, and readable storage medium | |
US20240338524A1 (en) | Natural language processing method and apparatus, device, and readable storage medium | |
Agathangelou et al. | Mining domain-specific dictionaries of opinion words | |
CN112926307A (zh) | 基于依存关系的评价对象情感分析方法及存储介质 | |
Papalampidi et al. | Dialogue act semantic representation and classification using recurrent neural networks | |
Rafi et al. | A linear sub-structure with co-variance shift for image captioning | |
CN113722431A (zh) | 命名实体关系识别方法、装置、电子设备及存储介质 | |
CN115496066A (zh) | 文本分析系统、方法、电子设备及存储介质 | |
CN110069780B (zh) | 一种基于特定领域文本的情感词识别方法 | |
CN107480142B (zh) | 一种基于依存关系抽取评价对象的方法 | |
Chavez et al. | Umcc_dlsi_semsim: Multilingual system for measuring semantic textual similarity | |
Agarwal et al. | Emplite: A lightweight sequence labeling model for emphasis selection of short texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210608 |