CN107832290B - 中文语义关系的识别方法及装置 - Google Patents
中文语义关系的识别方法及装置 Download PDFInfo
- Publication number
- CN107832290B CN107832290B CN201710980063.1A CN201710980063A CN107832290B CN 107832290 B CN107832290 B CN 107832290B CN 201710980063 A CN201710980063 A CN 201710980063A CN 107832290 B CN107832290 B CN 107832290B
- Authority
- CN
- China
- Prior art keywords
- chinese
- word
- detected
- preset
- semantic relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 135
- 238000013145 classification model Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 23
- 230000015654 memory Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 241000723353 Chrysanthemum Species 0.000 description 2
- 235000007516 Chrysanthemum Nutrition 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 208000003028 Stuttering Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理领域,具体涉及一种中文语义关系的识别方法及装置,旨在解决中文语义关系识别准确率低的问题。为此目的,本发明中的中文语义关系识别方法,包括下述步骤:步骤1,判断预设的语义词典中是否包含待检测中文词语词对:若是则依据所述预设的语义词典确定所述待检测中文词语词对的语义关系,若否则进行步骤2;步骤2,利用所述待检测中文词语词对的词向量,获取其第一语义关系;步骤3,利用所述待检测中文词语词对的词语结构特征,获取其第二语义关系,并根据所述第二语义关系调整所述第一语义关系,得到最终的语义关系。通过本发明可以从多个维度考量词语,高效、快速、准确地识别中文词语语义关系。
Description
技术领域
本发明涉及自然语言技术领域,具体涉及一种中文语义关系的识别方法和装置。
背景技术
随着大数据时代的发展以及深度学习方面的技术突破,自然语言处理(NaturalLanguage Processing,NLP)逐步变成了计算机应用与人工智能研究领域的热点,而语义关系的自动识别又是自然语言处理领域的巨大的挑战。在进行词汇学习时,需要将具有不同语义关系的词区分开。
语义关系识别技术主要包括基于语义词典的语义识别方法和基于词向量的语义识别方法。其中,基于语义词典的语义识别方法,如同义词词林和知网HowNet等,具有分类明确和分类过程较快的优点,但是该方法依赖语义词典的构建,耗费大量人力、物力以及财力且有后期更新困难,更无法处理语义词典之外的词汇。
基于词向量的语义识别方法通过自然语言模型将词汇语义转化成词向量,进而通过词向量之间的计算,或者基于词向量建立模型识别中文语义关系,该方法虽然无需构建语义词典但是识别精度有限,仅能在一定程度上识别中文词语的语义关系。
发明内容
为了解决现有技术中的上述问题,即为了解决中文语义关系识别精准度低的技术问题,本发明提供了一种中文语义关系的识别方法及装置。
在第一方面,本发明中的中文语义关系的识别方法,包括:
步骤1,判断预设的语义词典中是否包含待检测中文词语词对:若是则依据所述预设的语义词典确定所述待检测中文词语词对的语义关系,若否则进行步骤2;
步骤2,利用所述待检测中文词语词对的词向量,获取其第一语义关系;
步骤3,利用所述待检测中文词语词对的词语结构特征,获取其第二语义关系,并根据所述第二语义关系调整所述第一语义关系,得到最终的语义关系。
优选地,“利用所述待检测中文词语词对的词向量,获取其第一语义关系”的步骤具体包括:
根据预设词向量字典获取待检测中文词语词对的词向量;
提取所述词向量的特征,并依据所述词向量的特征和所述待检测中文词语词对的词性信息构建组合向量;
利用预设softmax分类模型获取所述组合向量对应的各预设语义关系的概率,并将概率值最大的语义关系作为所述待检测中文词语词对的第一语义关系。
优选地,“提取所述词向量的特征,并依据所述词向量的特征和所述待检测中文词语词对的词性信息构建组合向量”的步骤具体包括:
计算所述待检测中文词语词对对应的词向量的相似度;
计算所述待检测中文词语词对对应的词向量的差向量;
获取待检测中文词语的词性,并对所述词性进行编码得到对应的词性信息;
融合所述词向量的相似度、差向量以及所述待检测中文词语词对的词性信息,构成组合向量。
优选地,“根据所述第二语义关系调整所述第一语义关系,得到最终的语义关系”的步骤具体包括:
判断所述第一语义关系与第二语义关系是否一致,若一致则不调整所述第一语义关系;若不一致则将所述组合向量对应的各预设语义关系中概率第二大的语义关系作为所述待检测中文词语词对的第一语义关系。
优选地,所述词语结构特征包括词性特征、特殊字特征、结构特征和单字特征;“利用所述待检测中文词语词对的词语结构特征,获取其第二语义关系”的步骤具体包括:
判断所述待检测中文词语词对是否满足预设的词性判断条件,若满足则依据所述预设的词性判断条件得到第二语义关系,若不满足则判断所述待检测中文词语词对是否包含预设的特殊中文字;
当所述待检测中文词语词对包含预设的特殊中文字,则删除所述预设的特殊中文字,并判断修改后的待检测中文词语词对是否满足预设的结构判断条件,否则直接判断所述待检测中文词语词对是否满足预设的结构判断条件;
当所述待检测中文词语词对满足预设的结构判断条件时,依据所述预设的结构判断条件得到第二语义关系;当所述待检测中文词语对不满足预设的结构判断条件时,则判断所述待检测中文词语对是否满足预设的单字判断条件;
当所述待检测中文词语对满足预设的单字判断条件时,依据该预设的单字判断条件得到第二语义关系;
其中,所述预设的词性判断条件包括:若所述待检测中文词语词对中两个中文词语均为形容词或动词则其第二语义关系为反义词;
所述预设的结构判断条件包括:若所述待检测中文词语词对中两个中文词语的结构特征分别为ab和bc,或者分别为a和ba,则所述的两个中文词语为整体与部分关系;若所述的两个中文词语的结构特征分别为a和ac,则所述的两个中文词语为上位与下位关系;a、b和c均为互不相同的单个中文字;
所述预设的单字判断条件包括:若所述待检测中文词语词对中两个中文词语均为互不相同的单个中文字,则所述的两个中文词语为反义词。
在第二方面,本发明中的中文语义关系的识别装置包括:
判断模块,配置为判断预设的语义词典中是否包含待检测中文词语词对:若是则依据所述预设的语义词典确定所述待检测中文词语词对的语义关系;
获取模块,配置为在所述判断模块判断为所述预设的语义词典中不包含所述待检测中文词语词对之后,利用所述待检测中文词语词对的词向量,获取其第一语义关系;
调整模块,配置为利用所述待检测中文词语词对的词语结构特征,获取其第二语义关系,并根据所述第二语义关系调整所述第一语义关系,得到最终的语义关系。
优选地,所述获取模块包括:
词向量获取单元,配置为根据预设词向量字典获取待检测中文词语词对的词向量;
提取构建单元,配置为提取所述词向量的特征,并依据所述词向量的特征和所述待检测中文词语词对的词性信息构建组合向量;
语义关系获取单元,配置为利用预设softmax分类模型获取所述组合向量对应的各预设语义关系的概率,并将概率值最大的语义关系作为所述待检测中文词语词对的第一语义关系。
优选地,所述提取构建单元包括:
相似度计算子单元,配置为计算所述待检测中文词语词对对应的词向量的相似度;
差向量计算子单元,配置为计算所述待检测中文词语词对对应的词向量的差向量;
词性获取子单元,配置为获取待检测中文词语的词性,并对所述词性进行编码得到对应的词性信息;
融合子单元,配置为融合所述词向量的相似度、差向量以及所述待检测中文词语词对的词性信息,构成组合向量。
优选地,所述调整模块包括判断单元;所述判断单元配置为判断所述第一语义关系与第二语义关系是否一致,若一致则不调整所述第一语义关系;若不一致则将所述组合向量对应的各预设语义关系中概率第二大的语义关系作为所述待检测中文词语词对的第一语义关系。
优选地,所述词语结构特征包括词性特征、特殊字特征、结构特征和单字特征;所述调整模块还包括:
词性判断单元,配置为判断所述待检测中文词语词对是否满足预设的词性判断条件,若满足则依据所述预设的词性判断条件得到第二语义关系;
特殊字判断单元,配置为在所述词性判断单元不能得到第二语义关系时判断所述待检测中文词语是否包含预设的特殊中文字,若包含则删除所述预设的特殊中文字,并将修改后的待检测中文词语词对输入至所述结构判断单元;若不包含,则直接将所述待检测中文词语词对输入至结构判断单元;
结构判断单元,配置为在所述词性判断单元不能得到第二语义关系时判断所述待检测中文词语词对是否满足预设的结构判断条件,且当所述待检测中文词语词对满足预设的结构判断条件时,依据所述预设的结构判断条件得到第二语义关系;
单字判断单元,配置为在所述结构判断单元不能得到第二语义关系时判断所述待检测中文词语对是否满足预设的单字判断条件,且当所述待检测中文词语对满足预设的单字判断条件时,依据该预设的单字判断条件得到第二语义关系;
其中,所述预设的词性判断条件包括:若所述待检测中文词语词对中两个中文词语均为形容词或动词则其第二语义关系为反义词;
所述预设的结构判断条件包括:若所述待检测中文词语词对中两个中文词语的结构特征分别为ab和bc,或者分别为a和ba,则所述的两个中文词语为整体与部分关系;若所述的两个中文词语的结构特征分别为a和ac,则所述的两个中文词语为上位与下位关系;a、b和c均为互不相同的单个中文字;
所述预设的单字判断条件包括:若所述待检测中文词语词对中两个中文词语均为互不相同的单个中文字,则所述的两个中文词语为反义词。
与最接近的现有技术相比,上述技术方案至少具有以下有益效果:
1.本发明的中文语义关系的识别方法中,通过采用语义词典、机器学习模型、语言学相结合的方式构建了一个中文语义关系分类系统,从三个维度考量词语的语义关系,使中文语义关系的识别准确度得到大大的提高。
2.本发明的中文语义关系的识别方法中,通过从词语之间的相似性程度、差异性程度以及词性角度对词语进行分类,使得中文语义关系的识别准确度得到提升。
附图说明
图1是本发明实施例的中文语义关系识别方法的主要步骤流程示意图;
图2是本发明实施例的中文语义关系识别方法中的步骤S3的主要步骤示意图;
图3是本发明实施例的中文语义关系识别方法中的步骤S4的主要步骤示意图;
图4是本发明实施例的中文词语词对的中文语义关系识别方法的主要流程。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明中中文语义关系识别方法融合语义词典、基于词向量构建模型、以及语言学知识为一体,将三者构建为了一个中文词语语义关系识别系统,该中文语义关系识别方法吸取语义词典的优势,以基于词向量为特征构建的模型为主题,然后融合语言学知识,多角度度量中文词语语义关系。
下面结合附图,对本发明实施例中中文语义关系的识别方法进行说明。
参阅图1,图1示例性地示出了中文语义关系的识别方法的主要步骤。如图1所示,本实施例中中文语义关系的识别方法可以包括步骤S1,步骤S2,步骤S3以及步骤S4。
步骤S1,判断预设的语义词典中是否包含待检测中文词语词对:若是则进行步骤S2,若否则进行步骤S3。
步骤S2,依据预设的语义词典确定待检测中文词语词对的语义关系。
具体地,本实施例中预设的语义词典包括同义词词林和反义词词典,其中同义词词林可以为哈工大信息检索研究中心公开的同义词词林,反义词词典可以为基于常用反义词构建的反义词词典。本实施例中可以根据预设的语义词典编写词典程序,以判断给定的中文词语词对是否包含在预设的语义词典中,如果是,则确定该中文词语词对的语义关系。
步骤S3,利用待检测中文词语词对的词向量,获取其第一语义关系。
参阅附图2,图2示例性地示出了本实施中的中文词语词对的识别方法中的步骤S3的主要步骤,如图2所示,本实施例中中文语义关系的识别方法中的步骤S3包括步骤S31,步骤S32以及步骤S33。
步骤S31,根据预设词向量字典获取待检测中文词语词对的词向量。
进一步地,本实施例中构建预设词向量字典可以包括步骤S311和步骤S312。
步骤S311,利用分词工具对预设中文语料进行分词得到中文词汇。
具体地,本实施例中预设中文语料为15.3G的大规模百度百科中文语料,利用分词工具,如结巴分词工具,对该语料进行中文分词,得到中文词汇。
步骤S312,利用预设词向量工具对中文词汇进行训练得到预设词向量字典。
具体地,本实施例中的预设词向量工具可以为Word2vec工具,通过使用Word2vec工具训练步骤S311中得到的中文词汇,得到词向量字典,其中每个词语都对应一个词向量。
步骤S32,提取词向量的特征,并依据词向量的特征和待检测中文词语词对的词性信息构建组合向量。
进一步地,本实施例中步骤S32主要包括以下步骤:
步骤S321,计算待检测中文词语词对对应的词向量的相似度。
步骤S322,计算待检测中文词语词对对应的词向量的差向量。
步骤S323,获取待检测中文词语的词性,并对词性进行编码得到对应的词性信息。
步骤S324,融合词向量的相似度、差向量以及待检测中文词语词对的词性信息,构成组合向量。
具体地,在本实施例的一个优选的技术方案中,对于给定的一对中文词语A和B,通过步骤S31得到中文词汇A和B的词向量,分别记作W(A)和W(B),对W(A)与W(B)进行主成分分析,对其进行降维(PCA)处理,降维后的向量记作W(A1)与W(B1),通过计算W(A1)与W(B1)的相似度即可得到中文词语A和B的相似度,中文词语A和B的相似度COSS如下式(1)所示:
单纯的利用cosine相似度计算A与B的相似性,并不能够很好的刻画每对词语之间的相似程度。为了获取中文词语A和B的相似度的精准数据,对词向量W(A)和W(B)进行主成分降维处理,主成分分析方法利用线性变换思想,在确保损失很少信息的前提下把多个指标转化成几个综合指标(主成分),且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能,从而简化系统结构。所以,通过主成分降维,中文词语A与B的相似性度量得到一定程度的提高。
W(A)与W(B)的差向量W,如下式(2)所示:
W=W(A)-W(B) (2)
获取中文词语A和B的词性,并分别对其进行编码,其中中文词语的编码方式为:若中文词语A的词性为形容词,则P1=1;若中文词语A的词性为动词,则P1=2;若中文词语A的词性为名词,则P1=3;若中文词语A的词性为除形容词、动词、名词之外的其他词性,则P1=4;根据该编码方式,编码后中文词语A和B分别记作P1和P2,融合词向量的相似度、差向量以及待检测中文词语词对的词性信息,构成的组合向量x如下式(3)所示:
x=(W,COSS,P1,P2) (3)
步骤S33,利用预设softmax分类模型获取组合向量对应的各预设语义关系的概率,并将概率值最大的语义关系作为待检测中文词语词对的第一语义关系。
具体地,预设softmax分类模型依据深度学习卷积神经网络构建而成,可以以网络搜索的方式选取850对中文词语作为训练集来训练softmax分类模型,可以在NLPCCtask1发布的数据中选取200对中文词语作为验证集。利用预设softmax分类模型获取的组合向量x对应的各预设语义关系的概率hθ(xi)的计算函数如下式(4)所示:
其中,i=1,2,…,m.其中m为样本量,y为分类标签,k为分类标签数,θ=(θ1,θ2,…,θk)为参数,T为转置。
预设softmax分类模型的输出结果介于0到1之间,所有中文词语词对语义关系类别概率之和为1,将通过上述公式(4)计算得到的概率值最大的语义关系作为待检测中文词语词对的第一语义关系。
本发明的中文语义关系的识别方法中,通过采用机器学习算法softmax分类器对语义关系进行分类,在此过程中,从三个维度特征考量了中文词语的语义关系,COSS特征描述了词语之间的相似性程度,W特征描述了词语之间的差异性程度,P1和P2则从词性角度对词语进行分类,使得本发明中得到的第一语义关系的准确性大大提高。
步骤S4,利用待检测中文词语词对的词语结构特征,获取其第二语义关系,并根据第二语义关系调整第一语义关系,得到最终的语义关系。
具体地,中文词语词对的词语结构特征主要包括词性特征、结构特征、特殊字特征以及单字特征。词性特征是指汉语词性的类别,汉语词性主要分为名词、动词、形容词、数量词、代词、副词等,中文语义关系为反义词的很少出现名词,更多属于动词、形容词。
结构特征是指中文词语词对在结构上的特征。根据中文词汇特点,形如ab,bc或a,ba类词语词对,如汽车和车胎、花和花蕾,这类中文词语词对在较多情况下的语义关系为整体与部分。形如a,ac类词语词对,如花和菊花,这类词语词对的语义关系为通常为上位与下位关系,其中a、b、c均为互不相同的单个中文字。
特殊字特征是指中文词语中包含没有实际意义的字,特殊字不影响中文词语的语义关系。中文词语中,有很多字并没有实际的意义,比如椅子的子。对该类词,可提取对应特征。比如椅子与椅背。将子去掉则可提取结构特点。
单字特征是指单个中文字。根据中文词汇特点,单字词语如大和小,较多情况下属于反义词。
进一步地,参阅附图3,图3示例性地示出了本发明实施例的中文语义关系识别方法中的步骤S4的主要步骤,如图3所示,步骤S4包括步骤S41,步骤S42、步骤S43、步骤S44以及步骤S45。
步骤S41,判断待检测中文词语词对是否满足预设的词性判断条件,若满足则依据预设的词性判断条件得到第二语义关系,若不满足则执行步骤S42。
具体地,本实施例中预设的词性判断条件包括:若待检测中文词语词对中两个中文词语均为形容词或动词则其第二语义关系为反义词。
步骤S42,判断待检测中文词语词对是否包含预设的特殊中文字,若包含则删除预设的特殊中文字,并判断修改后的待检测中文词语词对是否满足预设的结构判断条件;否则执行步骤S43。
具体地,本实施例中预设的特殊中文字为中文词语中包含没有实际意义的字,特殊字不影响中文词语的语义关系。若修改后的待检测中文词语词对满足预设的结构判断条件,则依据预设的结构判断条件得到第二语义关系;当修改后的检测中文词语对不满足预设的结构判断条件时,则执行步骤S44。
步骤S43,判断待检测中文词语词对是否满足预设的结构判断条件,当待检测中文词语词对满足预设的结构判断条件时,依据预设的结构判断条件得到第二语义关系;当所检测中文词语对不满足预设的结构判断条件时,则执行步骤S44。
本实施例中预设的结构判断条件包括:若待检测中文词语词对中两个中文词语的结构特征分别为ab和bc,或者分别为a和ba,则两个中文词语为整体与部分关系;若两个中文词语的结构特征分别为a和ac,则两个中文词语为上位与下位关系;a、b和c均为互不相同的单个中文字。例如,a和ba类的词语“花”和“菊花”的中文语义关系为上位与下位关系;ab和bc类的词语,如“汽车”和“车胎”的中文语义关系为整体与部分关系。
步骤S44,判断待检测中文词语对是否满足预设的单字判断条件,当待检测中文词语词对满足预设的单字条件时,依据该预设的单字条件得到第二语义关系。
具体地,本实施例中预设的单字条件包括若待检测中文词语词对中两个中文词语均为互不相同的单个中文字,则两个中文词语为反义词,否则为同义词。
步骤S44,判断第一语义关系与第二语义关系是否一致,若一致则不调整第一语义关系;若不一致则将组合向量对应的各预设语义关系中概率第二大的语义关系作为检测中文词语词对的第一语义关系。
下面结合附图对本发明的一个优选地实施例进行详细的描述。参阅附图4,图4示例性地示出了中文词语词对的中文语义关系识别方法的主要流程。本实施中可以选取NLPCC2017task1发布的数据作为测试集,如图4所示,首先在词典区判断中文词语词对测试集是否在预设的语义词典中,如是,则输入中文词语词对测试集对应的中文语义关系;如否,则进入到模型区。
在本实施例中,首先根据预设词向量字典获取中文词语词对测试集各自对应的词向量,然后提取词向量特征,并与词性信息进行融合构成组合向量,利用预设softmax分类模型获取中文词语词对测试集中每对中文词语词对的第一语义关系。
在实施例中首先进入词典区,根据预设的语义词典判断中文词语A和B是否包含在预设的语义词典中,如是,则得到中文词语A和B的语义关系;如否,则进入到模型区。
本实施例中,根据预设词向量字典分别获取中文词语A和B的词向量,然后提取中文词语A和B词向量特征,融合中文词语A和B词向量特征和词性信息得到组合向量,利用预设softmax分类模型获取中文词语A和B的第一语义关系。
本实施例中,在词语特征区分别提取中文词语词对测试集中每对中文词语词对的词性特征、特殊字特征、结构特征、以及单字特征作为词语结构特征,获取各自中文词语词对的第二语义关系。
本实施例中,利用测试集中各中文词语词对的第二语义关系调整第一语义关系,最终得出各中文词语词对的语义关系。
将测试集中文中词语词对语义关系的预测结果与实际结果进行对比,可以得出本发明预测中文语义关系的准确程度,如表1所示:
表1
其中,F1值表示P和R的调和值,F1=2PR/(P+R),P表示准确率,R表示召回率。
本发明的预测结果和评测单位反馈的评测结果如下表表2所示:
项目 | F1值 |
本发明方法 | 0.859 |
各方法平均值 | 0.515 |
各方法最优值 | 0.859 |
表2
基于与上述中文语义关系的识别方法实施例相同的技术构思,本发明实施例还提供了一种中文语义关系的识别装置。下面对该中文语义关系的识别装置进行具体说明。
本实施中中文语义关系的识别装置可以包括判断模块、获取模块以及调整模块。
其中,判断模块可以配置为判断预设的语义词典中是否包含待检测中文词语词对:若是则依据预设的语义词典确定待检测中文词语词对的语义关系。
获取模块可以配置为在判断模块判断为预设的语义词典中不包含待检测中文词语词对之后,利用待检测中文词语词对的词向量,获取其第一语义关系。
调整模块可以配置为利用待检测中文词语词对的词语结构特征,获取其第二语义关系,并根据第二语义关系调整第一语义关系,得到最终的语义关系。
进一步地,本实施例中获取模块可以包括词向量获取单元、提取构建单元以及语义关系获取单元。
其中,词向量获取单元可以配置为根据预设词向量字典获取待检测中文词语词对的词向量。
提取构建单元可以配置为提取词向量的特征,并依据词向量的特征和待检测中文词语词对的词性信息构建组合向量。
语义关系获取单元可以配置为利用预设softmax分类模型获取组合向量对应的各预设语义关系的概率,并将概率值最大的语义关系作为待检测中文词语词对的第一语义关系。
进一步地,本实施例中提取构建单元可以包括相似度计算子单元、差向量计算子单元、词性获取子单元以及融合子单元。
其中,相似度计算子单元可以配置为计算待检测中文词语词对对应的词向量的相似度。
差向量计算子单元可以配置为计算待检测中文词语词对对应的词向量的差向量。
词性获取子单元可以配置为获取待检测中文词语的词性,并对词性进行编码得到对应的词性信息。
融合子单元可以配置为融合词向量的相似度、差向量以及待检测中文词语词对的词性信息,构成组合向量。
进一步地,本实施例中调整模块还可以包括判断单元;判断单元可以配置为判断第一语义关系与第二语义关系是否一致,若一致则不调整第一语义关系;若不一致则将组合向量对应的各预设语义关系中概率第二大的语义关系作为待检测中文词语词对的第一语义关系。
进一步地,本实施例中,词语结构特征包括词性特征、特殊字特征、结构特征和单字特征;调整模块还包括词性判断单元、特殊字判断单元、结构判断单元以及单字判断单元。
词性判断单元可以配置为判断待检测中文词语词对是否满足预设的词性判断条件,若满足则依据预设的词性判断条件得到第二语义关系。
特殊字判断单元可以配置为在所述词性判断单元不能得到第二语义关系时判断所述待检测中文词语是否包含预设的特殊中文字,若包含则删除所述预设的特殊中文字,并将修改后的待检测中文词语词对输入至所述结构判断单元;若不包含,则直接将所述待检测中文词语词对输入至结构判断单元。
结构判断单元可以配置为在所述词性判断单元不能得到第二语义关系时判断所述待检测中文词语词对是否满足预设的结构判断条件,且当待检测中文词语词对满足预设的结构判断条件时,依据预设的结构判断条件得到第二语义关系。
单字判断单元可以配置为在所述结构判断单元不能得到第二语义关系时判断所述待检测中文词语对是否满足预设的单字判断条件,且当待检测中文词语对满足预设的单字判断条件时,依据该预设的单字判断条件得到第二语义关系。
具体地,本实施例中预设的词性判断条件包括:若待检测中文词语词对中两个中文词语均为形容词或动词则其第二语义关系为反义词。
预设的结构判断条件包括:若待检测中文词语词对中两个中文词语的结构特征分别为ab和bc,或者分别为a和ba,则两个中文词语为整体与部分关系;若两个中文词语的结构特征分别为a和ac,则两个中文词语为上位与下位关系;a、b和c均为互不相同的单个中文字。
预设的单字判断条件包括:若待检测中文词语词对中两个中文词语均为互不相同的单个中文字,则两个中文词语为反义词。
上述中文语义关系的识别方法的实施例,其技术原理、所解决的技术问题及产生的技术效果相似,所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的中文语义关系的识别装置的具体工作过程及有关说明,可以参考前述中文语义关系的识别方法,在此不再赘述。
本领域技术人员可以理解,上述中文语义关系的识别方法还包括一些其他公知结构,例如处理器、控制器、存储器等,其中,存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等,处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处理器等,为了不必要地模糊本公开的实施例,这些公知的结构未示出。
本领域技术人员可以理解,可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述中文语义关系的识别方法实施例中的对应过程,在此不再赘述。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器、客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,PC程序和PC程序产品)。这样的实现本发明的程序可以存储在PC可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在本发明的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的PC来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种中文语义关系的识别方法,其特征在于,所述方法包括:
步骤1,判断预设的语义词典中是否包含待检测中文词语词对:若是则依据所述预设的语义词典确定所述待检测中文词语词对的语义关系,若否则进行步骤2;
步骤2,利用所述待检测中文词语词对的词向量,获取其第一语义关系;
步骤3,利用所述待检测中文词语词对的词语结构特征,获取其第二语义关系,并根据所述第二语义关系调整所述第一语义关系,得到最终的语义关系。
2.根据权利要求1所述的方法,其特征在于,“利用所述待检测中文词语词对的词向量,获取其第一语义关系”的步骤具体包括:
根据预设词向量字典获取待检测中文词语词对的词向量;
提取所述词向量的特征,并依据所述词向量的特征和所述待检测中文词语词对的词性信息构建组合向量;
利用预设softmax分类模型获取所述组合向量对应的各预设语义关系的概率,并将概率值最大的语义关系作为所述待检测中文词语词对的第一语义关系。
3.根据权利要求2所述的方法,其特征在于,“提取所述词向量的特征,并依据所述词向量的特征和所述待检测中文词语词对的词性信息构建组合向量”的步骤具体包括:
计算所述待检测中文词语词对对应的词向量的相似度;
计算所述待检测中文词语词对对应的词向量的差向量;
获取待检测中文词语的词性,并对所述词性进行编码得到对应的词性信息;
融合所述词向量的相似度、差向量以及所述待检测中文词语词对的词性信息,构成组合向量:
x=(W,COSS,P1,P2)
其中W=W(A)-W(B)为两个词向量的差向量,COSS为词语A和B降维后的词向量的cosine相似度,P1和P2为词语A和词语B编码后的值。
4.根据权利要求2所述的方法,其特征在于,“根据所述第二语义关系调整所述第一语义关系,得到最终的语义关系”的步骤具体包括:
判断所述第一语义关系与第二语义关系是否一致,若一致则不调整所述第一语义关系;若不一致则将所述组合向量对应的各预设语义关系中概率第二大的语义关系作为所述待检测中文词语词对的第一语义关系。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述词语结构特征包括词性特征、特殊字特征、结构特征和单字特征;“利用所述待检测中文词语词对的词语结构特征,获取其第二语义关系”的步骤具体包括:
判断所述待检测中文词语词对是否满足预设的词性判断条件,若满足则依据所述预设的词性判断条件得到第二语义关系,若不满足则判断所述待检测中文词语词对是否包含预设的特殊中文字;
当所述待检测中文词语词对包含预设的特殊中文字,则删除所述预设的特殊中文字,并判断修改后的待检测中文词语词对是否满足预设的结构判断条件,否则直接判断所述待检测中文词语词对是否满足预设的结构判断条件;
当所述待检测中文词语词对满足预设的结构判断条件时,依据所述预设的结构判断条件得到第二语义关系;当所述待检测中文词语词对不满足预设的结构判断条件时,则判断所述待检测中文词语词对是否满足预设的单字判断条件;
当所述待检测中文词语词对满足预设的单字判断条件时,依据该预设的单字判断条件得到第二语义关系;
其中,所述预设的词性判断条件包括:若所述待检测中文词语词对中两个中文词语均为形容词或动词则其第二语义关系为反义词;
所述预设的结构判断条件包括:若所述待检测中文词语词对中两个中文词语的结构特征分别为ab和bc,或者分别为a和ba,则所述的两个中文词语为整体与部分关系;若所述的两个中文词语的结构特征分别为a和ac,则所述的两个中文词语为上位与下位关系;a、b和c均为互不相同的单个中文字;
所述预设的单字判断条件包括:若所述待检测中文词语词对中两个中文词语均为互不相同的单个中文字,则所述的两个中文词语为反义词。
6.一种中文语义关系的识别装置,其特征在于,所述装置包括:
判断模块,配置为判断预设的语义词典中是否包含待检测中文词语词对:若是则依据所述预设的语义词典确定所述待检测中文词语词对的语义关系;
获取模块,配置为在所述判断模块判断为所述预设的语义词典中不包含所述待检测中文词语词对之后,利用所述待检测中文词语词对的词向量,获取其第一语义关系;
调整模块,配置为利用所述待检测中文词语词对的词语结构特征,获取其第二语义关系,并根据所述第二语义关系调整所述第一语义关系,得到最终的语义关系。
7.根据权利要求6所述的装置,其特征在于,所述获取模块包括:
词向量获取单元,配置为根据预设词向量字典获取待检测中文词语词对的词向量;
提取构建单元,配置为提取所述词向量的特征,并依据所述词向量的特征和所述待检测中文词语词对的词性信息构建组合向量;
语义关系获取单元,配置为利用预设softmax分类模型获取所述组合向量对应的各预设语义关系的概率,并将概率值最大的语义关系作为所述待检测中文词语词对的第一语义关系。
8.根据权利要求7所述的装置,其特征在于,所述提取构建单元包括:
相似度计算子单元,配置为计算所述待检测中文词语词对对应的词向量的相似度;
差向量计算子单元,配置为计算所述待检测中文词语词对对应的词向量的差向量;
词性获取子单元,配置为获取待检测中文词语的词性,并对所述词性进行编码得到对应的词性信息;
融合子单元,配置为融合所述词向量的相似度、差向量以及所述待检测中文词语词对的词性信息,构成组合向量。
9.根据权利要求7所述的装置,其特征在于,所述调整模块包括判断单元;所述判断单元配置为判断所述第一语义关系与第二语义关系是否一致,若一致则不调整所述第一语义关系;若不一致则将所述组合向量对应的各预设语义关系中概率第二大的语义关系作为所述待检测中文词语词对的第一语义关系。
10.根据权利要求6-9中任意一项所述的装置,其特征在于,所述词语结构特征包括词性特征、特殊字特征、结构特征和单字特征;所述调整模块还包括:
词性判断单元,配置为判断所述待检测中文词语词对是否满足预设的词性判断条件,若满足则依据所述预设的词性判断条件得到第二语义关系;
特殊字判断单元,配置为在所述词性判断单元不能得到第二语义关系时判断所述待检测中文词语是否包含预设的特殊中文字,若包含则删除所述预设的特殊中文字,并将修改后的待检测中文词语词对输入至结构判断单元;若不包含,则直接将所述待检测中文词语词对输入至结构判断单元;
结构判断单元,配置为判断所述待检测中文词语词对是否满足预设的结构判断条件,且当所述待检测中文词语词对满足预设的结构判断条件时,依据所述预设的结构判断条件得到第二语义关系;
单字判断单元,配置为在所述结构判断单元不能得到第二语义关系时判断所述待检测中文词语词对是否满足预设的单字判断条件,且当所述待检测中文词语词对满足预设的单字判断条件时,依据该预设的单字判断条件得到第二语义关系;
其中,所述预设的词性判断条件包括:若所述待检测中文词语词对中两个中文词语均为形容词或动词则其第二语义关系为反义词;
所述预设的结构判断条件包括:若所述待检测中文词语词对中两个中文词语的结构特征分别为ab和bc,或者分别为a和ba,则所述的两个中文词语为整体与部分关系;若所述的两个中文词语的结构特征分别为a和ac,则所述的两个中文词语为上位与下位关系;a、b和c均为互不相同的单个中文字;
所述预设的单字判断条件包括:若所述待检测中文词语词对中两个中文词语均为互不相同的单个中文字,则所述的两个中文词语为反义词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710980063.1A CN107832290B (zh) | 2017-10-19 | 2017-10-19 | 中文语义关系的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710980063.1A CN107832290B (zh) | 2017-10-19 | 2017-10-19 | 中文语义关系的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107832290A CN107832290A (zh) | 2018-03-23 |
CN107832290B true CN107832290B (zh) | 2020-02-28 |
Family
ID=61648450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710980063.1A Expired - Fee Related CN107832290B (zh) | 2017-10-19 | 2017-10-19 | 中文语义关系的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832290B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959247B (zh) * | 2018-06-19 | 2022-09-09 | 深圳市元征科技股份有限公司 | 一种数据处理方法、服务器及计算机可读介质 |
CN109408814B (zh) * | 2018-09-30 | 2020-08-07 | 中国地质大学(武汉) | 基于释义基元词的中英跨语言词汇表征学习方法及系统 |
CN109598000B (zh) * | 2018-12-28 | 2023-06-16 | 百度在线网络技术(北京)有限公司 | 语义关系识别方法、装置、计算机设备和存储介质 |
CN110377694A (zh) * | 2019-06-06 | 2019-10-25 | 北京百度网讯科技有限公司 | 标注文本对逻辑关系的方法、装置、设备和计算机存储介质 |
CN111444905B (zh) * | 2020-03-24 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像识别方法和相关装置 |
CN112883957B (zh) * | 2020-09-23 | 2022-04-22 | 浙江浩腾电子科技股份有限公司 | 一种车胎文本检测和识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006164103A (ja) * | 2004-12-10 | 2006-06-22 | Mitsubishi Electric Information Systems Corp | 特徴語抽出システム及びプログラム |
CN106649783A (zh) * | 2016-12-28 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 一种同义词挖掘方法和装置 |
CN106776503A (zh) * | 2016-12-22 | 2017-05-31 | 东软集团股份有限公司 | 文本语义相似度的确定方法及装置 |
CN106844571A (zh) * | 2017-01-03 | 2017-06-13 | 北京齐尔布莱特科技有限公司 | 识别同义词的方法、装置和计算设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8180633B2 (en) * | 2007-03-08 | 2012-05-15 | Nec Laboratories America, Inc. | Fast semantic extraction using a neural network architecture |
-
2017
- 2017-10-19 CN CN201710980063.1A patent/CN107832290B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006164103A (ja) * | 2004-12-10 | 2006-06-22 | Mitsubishi Electric Information Systems Corp | 特徴語抽出システム及びプログラム |
CN106776503A (zh) * | 2016-12-22 | 2017-05-31 | 东软集团股份有限公司 | 文本语义相似度的确定方法及装置 |
CN106649783A (zh) * | 2016-12-28 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 一种同义词挖掘方法和装置 |
CN106844571A (zh) * | 2017-01-03 | 2017-06-13 | 北京齐尔布莱特科技有限公司 | 识别同义词的方法、装置和计算设备 |
Non-Patent Citations (2)
Title |
---|
Improving vector space word representations using multilingual correlation;Manaal Faruqui et al;《Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics》;20140426;第462-471页 * |
面向迁移学习的文本特征对齐算法;魏晓聪 等;《计算机工程》;20170215;第43卷(第2期);第215-219、226页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107832290A (zh) | 2018-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832290B (zh) | 中文语义关系的识别方法及装置 | |
CN111898366B (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
CN107180023B (zh) | 一种文本分类方法及系统 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN109471942B (zh) | 基于证据推理规则的中文评论情感分类方法及装置 | |
CN106776562A (zh) | 一种关键词提取方法和提取系统 | |
CN112862569B (zh) | 基于图像和文本多模态数据的产品外观风格评价方法和系统 | |
CN111221939A (zh) | 评分方法、装置和电子设备 | |
CN106372061A (zh) | 基于语义的短文本相似度计算方法 | |
CN111460247A (zh) | 网络图片敏感文字自动检测方法 | |
CN111597328B (zh) | 一种新事件主题提取方法 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
CN110209818A (zh) | 一种面向语义敏感词句的分析方法 | |
CN108280057A (zh) | 一种基于blstm的微博谣言检测方法 | |
CN113221882A (zh) | 一种面向课程领域的图像文本聚合方法及系统 | |
CN111814476A (zh) | 一种实体关系的抽取方法和装置 | |
CN113672731A (zh) | 基于领域信息的情感分析方法、装置、设备及存储介质 | |
CN110019822A (zh) | 一种少样本关系分类方法及系统 | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
CN117807259A (zh) | 基于深度学习技术的跨模态哈希检索方法 | |
CN113610080B (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 | |
CN113988085B (zh) | 文本语义相似度匹配方法、装置、电子设备及存储介质 | |
US20220262268A1 (en) | Computer implemented description analysis for topic-domain mapping | |
CN105183807A (zh) | 一种基于结构句法的情绪原因事件识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200228 |
|
CF01 | Termination of patent right due to non-payment of annual fee |