CN106649783B - 一种同义词挖掘方法和装置 - Google Patents
一种同义词挖掘方法和装置 Download PDFInfo
- Publication number
- CN106649783B CN106649783B CN201611233743.9A CN201611233743A CN106649783B CN 106649783 B CN106649783 B CN 106649783B CN 201611233743 A CN201611233743 A CN 201611233743A CN 106649783 B CN106649783 B CN 106649783B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- clustering
- vector
- individual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种同义词挖掘方法和装置,所述方法包括:对获取的语料数据进行分词处理,得到多个单独词;计算所述单独词的词向量;根据所述词向量对所述单独词进行聚类处理,得到同义词集。本发明使用词向量的方法来表征词的含义,然后,利用聚类算法对得到的词向量进行语义聚类,能够有效的实现广义同义词集的挖掘,为自然语言处理中解决同义词挖掘的难题提供新的思路和方法。并且,当将挖掘的同义词集应用于自然语言处理领域时,可以提高知识点过滤任务、关键词提取任务、文本分类任务、语义聚类任务等的准确性。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种同义词挖掘方法和装置。
背景技术
多词同义和一词多义是语言中广泛存在的现象,例如“程序”既可以是“手续”的同义词,也可以是“代码”(在计算机领域)的同义词,这就给自然语言处理带来很大的困难。例如,智能问答知识库中包括了多个知识点,当需要根据特征词进行知识点过滤时,输入的特征词是否全面,对过滤结果的准确性和全面性都起着非常重要的作用。而当某特征词存在同义词时,如果只输入该特征词不考虑其同义词,必然会影响过滤结果。所以,如何进行同义词挖掘,以将挖掘的同义词应用于所需的各个领域,成为本发明所要解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种解决上述问题的同义词挖掘方法和装置。
依据本发明的一个方面,提供一种同义词挖掘方法,包括:
对获取的语料数据进行分词处理,得到多个单独词;
计算所述单独词的词向量;
根据所述词向量对所述单独词进行聚类处理,得到同义词集。
依据本发明的另一个方面,还提供一种同义词挖掘装置,包括:
分词模块,用于对获取的语料数据进行分词处理,得到多个单独词;
向量计算模块,用于计算所述单独词的词向量;
聚类处理模块,用于根据所述词向量对所述单独词进行聚类处理,得到同义词集。
本发明有益效果如下:
本发明使用词向量的方法来表征词的含义,然后,利用聚类算法对得到的词向量进行语义聚类,能够有效的实现广义同义词集的挖掘,为自然语言处理中解决同义词挖掘的难题提供新的思路和方法。并且,当将挖掘的同义词集应用于自然语言处理领域时,可以提高知识点过滤任务、关键词提取任务、文本分类任务、语义聚类任务等的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明第一实施例提供的一种同义词挖掘方法的流程图;
图2为本发明第二实施例提供的一种同义词挖掘方法的流程图;
图3为本发明第二实施例提供的一种同义词挖掘方法的又一流程图;
图4为本发明第三实施例提供的一种同义词挖掘装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提出一种同义词挖掘方法和装置,本发明实施例考虑到词的具体含义是和其上下文有密切的关系的,所以使用词向量的方法来表征其含义,然后,利用聚类算法对得到的词向量进行语义聚类即可得到广义同义词集。较佳地,本发明实施例在得到广义同义词集后,还可通过编辑距离确定出同一同义词集中的缩略语和完整词之间的对应关系,得到缩略同义词集。本发明为自然语言处理中解决同义词挖掘的难题提供新的思路和方法。
下面通过几个具体实施例对本发明的具体实施例过程进行详尽的说明。
在本发明的第一实施例中,提供一种同义词挖掘方法,如图1所示,所述方法包括如下步骤:
步骤S101,对获取的语料数据进行分词处理,得到多个单独词;
在本发明实施例中,所述的语料数据可以但不限于为规范的新闻语料以及从互联网爬取的语料数据等。
在本发明的一个具体实施例中,在进行分词前,对所述语料数据进行预处理,所述预处理至少包括如下处理之一:
去除获取的语料数据中无效格式的数据,并将剩余语料数据的格式统一为文本格式,以及过滤掉语料数据中的禁用词,所述禁用词可以包括敏感词和/或脏词。
在本发明的又一具体实施例中,通过如下方式进行分词处理:
将语料数据按照语料中的特定标点划分为多句;
根据分词词典对各句数据进行分词处理,得到各句数据中的单独词。
在实际应用中,上述特定标点可以是问号、叹号、分号或句号,也就是说,可以将语料数据按照问号、叹号、分号或句号划分为多句。
在本发明的一个较佳实施例中,在将语料数据按照语料中的特定标点划分为多句后,先通过新词发现算法,获取各句数据中的新词,并根据获取的新词,更新分词词典,然后,根据更新后的分词词典对各句数据进行分词处理,得到各句数据中的单独词。本实施例中,预先通过新词发现算法进行新词发现,更新分词词典,利用更新后的分词词典增加了分词处理的准确性。
本发明实施例中,分词处理可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种进行。新词发现方法具体可以包括:互信息、共现概率、信息熵等方法。
需要说明的是,在本发明实施例中,进行预处理和分词后得到的单独词尽量保持词的顺序不变,从而保证后续计算词向量的准确性。
步骤S102,计算所述单独词的词向量;
在本发明的一个具体实施例中,计算所述单独词的词向量的方式包括:将各单独词顺序输入到设定的向量模型,获取所述向量模型输出的各所述单独词的词向量。
在实际应用中,上述向量模型可以但不限于为:word2vector模型。
在本发明的又一具体实施例中,在计算所述单独词的词向量之前或者之后,还可以进一步对单独词进行过滤处理,具体的:
获取各单独词的词性,并根据词性对各单独词进行过滤,保留词性为名词的单独词;和/或,获取各单独词的词频,根据词频对各单独词进行过滤,保留词频大于设定词频阈值的单独词。其中,词频是指单独词在语料数据中出现的频率。利用词频和/或词性特征对单独词进行过滤可以降低维度。
步骤S103,根据所述词向量对所述单独词进行聚类处理,得到同义词集。
本发明实施例中,本领域技术人员可以根据自己的需要灵活选择所需的聚类算法以进行聚类处理,例如,可以采用k-means聚类算法。
然而,本发明实施例中考虑到传统的k-means算法中有几大难题,其中K值的选择就是其中之一,它通常是通过经验来确定的。因此,传统的k-means更适合于待聚类数据属于较少类别(K<10)的情况。但是,本发明目的是进行同义词的挖掘,不同领域同义词的类别更是数以百或千计,所以,为了提高聚类的效率和适用性,在本发明的一个具体实施例中对传统的k-means算法进行改进,改进的算法避免了K值的选择难题,具有更好的适用性。
具体的,假定共有T个词向量QT,则根据T个词向量QT对各单独词进行聚类处理,包括:
初始化K值、中心点PK-1、以及聚类问题集{K,[PK-1]},其中,K表示聚类的类别数,K的初始值为1,中心点PK-1的初始值为P0,P0=Q1,Q1表示第一个单独词的词向量,聚类问题集的初始值为{1,[Q1]};
从第二个单独词的词向量开始,依次对剩下的词向量进行聚类,计算当前词向量与每个聚类问题集的中心点的相似度,如果当前词向量与某个聚类问题集的中心点的相似度大于或等于预设值,则将当前词向量聚类到相应的聚类问题集中,保持K值不变,将相应的中心点更新为聚类问题集中所有词向量的向量平均值,相应的聚类问题集为{K,[聚类问题集中所有词向量的向量平均值]};如果当前词向量与所有聚类问题集中的中心点的相似度均小于预设值,则令K=K+1,增加新的中心点,所述新的中心点的值为当前词向量,并增加新的聚类问题集{K,[当前词向量]}。
下面以对Q2聚类进行举例说明:计算Q2与Q1的语义相似度I,若相似度I大于设定预设值(可根据需求灵活设定),则认为Q2和Q1属于同一个类,此时K=1不变,P0更新为Q1和Q2的向量平均值,聚类的问题集为{1,[Q1,Q2]};若相似度I小于设定阈值,则Q2和Q1属于不同的类,此时K=2,P0=Q1,P1=Q2,聚类的问题集为{1,[Q1]},{2,[Q2]}。
采用上述方法依次对剩余其他问句进行聚类完成的同时可以得到K最终值。
可见,改进的k-means算法避免了传统的k-means算法中K值选择难的问题。该算法采用动态调整中心点的方法,它是对每个单独词的分类都会更新对应类的语义中心点,即各个类的中心点是所有属于该类的平均。因此,各个类的中心点只有一个,可以提高效率;并且,待聚类单独词和各个类别之间的语义距离是计算该单独词和各个类别的语义中心点的距离,因此准确率较高。
进一步地,在本发明的一个较佳实施例中,为了提高聚类处理的正确率,在得到同义词集后,还可以计算聚类处理的准确率,当确定出聚类处理的准确率小于预定准确率阈值时,调整聚类处理所采用的聚类算法中的指定参数值,更或者是调整分词词典。在本发明实施例中,计算聚类处理的准确率时,可以依据给出的每个聚类处理是否正确的指示来确定聚类处理的准确率。
例如,如果聚类处理的准确率小于预定准确率阈值,则可能是由于聚类算法中设定的“预设值”设置的不准确,可以调整该预设值,也可能是在分词时出现问题,导致相似度计算的不准确,此时可以调整分词词典,这些处理都可以使聚类处理更加准确。
综上可知,本发明实施例所述方法,对语料数据进行预处理后分词,利用词频和/或词性特征对分词结果进行过滤,并利用word2vector模型得到待聚类问题集的词向量,且根据词向量,利用设定的聚类算法进行聚类处理,得到所需的同义词集。按照本发明实施例所述方法挖掘得到的广义同义词集,可以应用于自然语言处理过程中,例如应用于自然语言处理中的关键词提取、文本分类、语义聚类以及信息检索等任务中,可以提高各任务的处理准确性。
在本发明第二实施例中,提供一种同义词挖掘方法,如图2所示,具体包括如下步骤:
步骤S201,对获取的语料数据进行分词处理,得到多个单独词;
步骤S202,计算所述单独词的词向量;
步骤S203,根据所述词向量对所述单独词进行聚类处理,得到同义词集;
步骤S204,计算同一同义词集中两两单独词之间的编辑距离,根据编辑距离,确定两个单独词间是否为缩略同义词,即是否为缩略词与完整词的关系,例如:邮政编码与邮编为缩略词和完整词对应关系,同时二者也属于广义同义词的关系;
步骤S205,针对于同义词集内,将包括相同单独词的缩略同义词进行合并,得到缩略同义词集。
可以针对每个同义词集内,将包括相同单独词的缩略同义词进行合并,得到缩略同义词集,以得到语料中全部的缩略同义词集。
本发明实施例中,关于步骤S201至S203的具体实施例过程可以参见第一实施例,本实施例在此不再赘述。
本发明实施例中,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。并且,定义对一个字符的不同编辑操作所对应的编辑距离值,当由一个字串转换成另一个字串时,计算所有编辑操作的编辑距离值的和值,该和值即为两个字串之间的编辑距离。例如,定义插入或删除一个字符的编辑距离为1,替换一个字符的编辑距离为1000。农行与中国农业银行之间的编辑距离是4,而与招行的编辑距离是1000。
所以,本实施例中,计算同一同义词集中两两单独词之间的编辑距离的方式包括:
确定两个单独词中由一个单独词变换到另一个单独词所需的编辑操作;
根据预先设置的对一个字符的不同编辑操作与编辑距离值的对应关系,计算确定的各编辑操作对应的编辑距离值的和值,并以该和值作为两个单独词之间的编辑距离。
本发明实施例中,在得到两词之间的编辑距离后,判断编辑距离是否小于等于预设阈值,若是,则说明两个单独词为缩略同义词,否则,说明两个单独词为非缩略同义词。
本发明实施例所述方法,使用词向量的方法来表征词的含义,然后,利用聚类算法对得到的词向量进行语义聚类,能够有效的实现广义同义词集的挖掘,为自然语言处理中解决同义词挖掘的难题提供新的思路和方法。并且,当将挖掘的同义词集应用于自然语言处理领域时,可以提高知识点过滤任务、关键词提取任务、文本分类任务、语义聚类任务等的准确性;
另外,本发明在实现广义同义词集的挖掘后,还可以基于该广义同义词集进行缩略词-完整词对的挖掘,当将挖掘的具有缩略词-完整词对的同义词集应用于自然语言处理领域时,可以进一步提高其相应任务的执行准确性。
为了更清楚的说明本发明的实施过程,下面通过一个具体实例,对本发明的实施过程进行说明。如图3所示,本实例提供的同义词挖掘方法包括:
步骤S301,开始。
步骤S302,对获取的语料数据进行预处理。具体的,将获取的语料格式统一为文本格式,并过滤无效的格式,去除敏感词和脏词,并对预处理后的语料数据按大标点,例如“?!。”分割成句保存。
步骤S303,针对分割成句的语料数据,利用新词发现算法获取领域内的词语,并根据获取的词语更新分词词典。
步骤S304,利用更新的分词词典,按句进行分词处理。
步骤S305,对分词处理得到的各单独词进行词性标注后按句保存。
步骤S306,将分词处理得到的各单独词输入到词向量模型,训练得到所有词的词向量并保存、待用。
步骤S307,按照词性和词频过滤,得到有意义的词及其词向量。具体的,将步骤S305步处理后得到的单独词,按照词性和词频过滤,得到词频较大(即词频>p,p为经验值)且词性为名词(包括地名、人名、机构名等)的词作为同义词候选词。
步骤S308,利用聚类算法对候选词的词向量聚类,得到同义词集。具体的,将步骤S307得到的候选词的词向量输入到聚类算法模型(例如第一实施例所述的改进的kmeans算法模型)中实现聚类,即得到广义同义词集。
步骤S309,针对每一个同义词集,计算集合内两两词之间的编辑距离,得到集合内为缩略词和完整词关系的词对。
具体的,对每一个同义词集内的词分别计算两两之间的编辑距离,若小于阈值(阈值可以是小于1000的正数)则认为是缩略词和完整词对应关系,否则认为是广义同义词,例如:邮政编码与邮编为缩略词和完整词对应关系,也属于广义同义词;而夫人与妻子、自由游与蝶泳均属于广义同义词。
步骤S310,将具有相同词的词对(包括缩略词和完整词对应关系)进行合并,得到包含有缩略词与完整词对应关系的同义词集。例如:两个同义词对“华师”和“华师大”、“华师大”和“华东师范大学”合并成一个包含“华师”“华师大”“华东师范大学”同义词集。
步骤S311,结束。
综上可知,利用本发明实施例所述方法,可直接对新数据进行广义同义词集和缩略词与完整词对应关系的挖掘。
在本发明的第三实施例中,提供一种同义词挖掘装置,如图4所示,包括:
分词模块410,用于对获取的语料数据进行分词处理,得到多个单独词;
向量计算模块420,用于计算所述单独词的词向量;
聚类处理模块430,用于根据所述词向量对所述单独词进行聚类处理,得到同义词集。
在本发明的一个可选实施例中,所述装置还包括:
编辑距离计算模块440,用于计算同一同义词集中两两单独词之间的编辑距离,其中:编辑距离小于预设阈值的两个单独词为缩略同义词、编辑距离大于所述预设阈值的两个单独词为非缩略同义词。
合并模块450,用于针对于同义词集内,将包括相同单独词的缩略同义词进行合并,得到缩略同义词集。
可以针对每个同义词集内,将包括相同单独词的缩略同义词进行合并,得到缩略同义词集。以得到语料中全部的缩略同义词集。
基于上述结构框架及实施原理,下面给出在上述结构下的几个具体及优选实施方式,用以细化和优化本发明所述装置的功能,以使本发明方案的实施更方便,准确。具体涉及如下内容:
本发明实施例中,所述的语料数据可以但不限于为规范的新闻语料以及从互联网爬取的语料数据等。
在本发明的一个具体实施例中,在进行分词前,还通过预处理模块460对所述语料数据进行预处理。
预处理模块460,用于去除获取的所述语料数据中无效格式的数据,并将剩余语料数据的格式统一为文本格式,以及过滤掉禁用词,所述禁用词可以包括敏感词和/或脏词。
在本发明的又一具体实施例中,分词模块410通过如下方式进行分词处理:
将语料数据按照语料中的特定标点划分为多句,通过新词发现算法,获取各句数据中的新词,并根据获取的新词,更新分词词典,根据更新后的分词词典对各句数据进行分词处理,得到各句数据中的单独词。本实施例中,预先通过新词发现算法进行新词发现,更新分词词典,利用更新后的分词词典增加了分词处理的准确性。
在实际应用中,上述特定标点可以是问号、叹号、分号或句号,也就是说,可以将语料数据按照问号、叹号、分号或句号划分为多句。
进一步地,本发明实施例中,分词处理可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种进行。新词发现方法具体可以包括:互信息、共现概率、信息熵等方法。
需要说明的是,在本发明实施例中,进行预处理和分词后得到的单独词尽量保持词的顺序不变,从而保证后续计算词向量的准确性。
在本发明的又一具体实施例中,向量计算模块420将各单独词顺序输入到设定的向量模型,获取所述向量模型输出的各所述单独词的词向量。在实际应用中,上述向量模型可以但不限于为:word2vector模型。
在本发明的又一具体实施例中,在计算所述单独词的词向量之前或者之后,还可以通过过滤模块470进一步对单独词进行过滤处理,具体的:
过滤模块470,用于获取各单独词的词性,并根据词性对各单独词进行过滤,保留词性为名词的单独词;和/或,获取各单独词的词频,根据词频对各单独词进行过滤,保留词频大于设定词频阈值的单独词。其中,词频是指单独词在语料数据中出现的频率。利用词频和/或词性特征对单独词进行过滤可以降低维度。
进一步地,本发明实施例中,本领域技术人员可以根据自己的需要灵活选择所需的聚类算法以进行聚类处理,例如,可以采用k-means聚类算法。
然而,本发明实施例中考虑到传统的k-means算法中有几大难题,其中K值的选择就是其中之一,它通常是通过经验来确定的。因此,传统的k-means更适合于待聚类数据属于较少类别(K<10)的情况。但是,本发明目的是进行同义词的挖掘,不同领域同义词的类别更是数以百或千计,所以,为了提高聚类的效率和适用性,在本发明的一个具体实施例中对传统的k-means算法进行改进,改进的算法避免了K值的选择难题,具有更好的适用性。
具体的,假定共有T个词向量QT,则根据T个词向量QT对各单独词进行聚类处理,聚类处理模块430包括初始化单元和聚类集生成单元,包括:
初始化单元,用于初始化K值、中心点PK-1、以及聚类问题集{K,[PK-1]},其中,K表示聚类的类别数,K的初始值为1,中心点PK-1的初始值为P0,P0=Q1,Q1表示第一个单独词的词向量,聚类问题集的初始值为{1,[Q1]};
聚类集生成单元,用于从第二个单独词的词向量开始,依次对剩下的词向量进行聚类,计算当前词向量与每个聚类问题集的中心点的相似度,如果当前词向量与某个聚类问题集的中心点的相似度大于或等于预设值,则将当前词向量聚类到相应的聚类问题集中,保持K值不变,将相应的中心点更新为聚类问题集中所有词向量的向量平均值,相应的聚类问题集为{K,[聚类问题集中所有词向量的向量平均值]};如果当前词向量与所有聚类问题集中的中心点的相似度均小于预设值,则令K=K+1,增加新的中心点,所述新的中心点的值为当前词向量,并增加新的聚类问题集{K,[当前词向量]}。
下面以对Q2聚类进行举例说明:计算Q2与Q1的语义相似度I,若相似度I大于设定预设值(可根据需求灵活设定),则认为Q2和Q1属于同一个类,此时K=1不变,P0更新为Q1和Q2的向量平均值,聚类的问题集为{1,[Q1,Q2]};若相似度I小于设定阈值,则Q2和Q1属于不同的类,此时K=2,P0=Q1,P1=Q2,聚类的问题集为{1,[Q1]},{2,[Q2]}。
采用上述方法依次对剩余其他问句进行聚类完成的同时可以得到K最终值。
可见,改进的k-means算法避免了传统的k-means算法中K值选择难的问题。该算法采用动态调整中心点的方法,它是对每个单独词的分类都会更新对应类的语义中心点,即各个类的中心点是所有属于该类的平均。因此,各个类的中心点只有一个,可以提高效率;并且,待聚类单独词和各个类别之间的语义距离是计算该单独词和各个类别的语义中心点的距离,因此准确率较高。
进一步地,在本发明的一个较佳实施例中,所述装置还包括:优化模块480,该优化模块480为了提高聚类处理的正确率,在得到同义词集后,还可以计算聚类处理的准确率,当确定出聚类处理的准确率小于预定准确率阈值时,调整聚类处理所采用的聚类算法中的指定参数值,更或者是调整分词词典。在本发明实施例中,计算聚类处理的准确率时,可以依据给出的每个聚类处理是否正确的指示来确定聚类处理的准确率。
例如,如果聚类处理的准确率小于预定准确率阈值,则可能是由于聚类算法中设定的“预设值”设置的不准确,可以调整该预设值,也可能是在分词时出现问题,导致相似度计算的不准确,此时可以调整分词词典,这些处理都可以使聚类处理更加准确。
进一步地,在本发明的一个具体实施例中,编辑距离计算模块440,具体用于确定两个单独词中由一个单独词到另一个单独词所需的编辑操作,根据预先设置的对一个字符的不同编辑操作与编辑距离值的对应关系,计算确定的各编辑操作对应的编辑距离值的和值,并以该和值作为两个单独词之间的编辑距离。
综上可知,本实施例所述装置,使用词向量的方法来表征词的含义,然后,利用聚类算法对得到的词向量进行语义聚类,能够有效的实现广义同义词集的挖掘,为自然语言处理中解决同义词挖掘的难题提供新的思路和方法。并且,当将挖掘的同义词集应用于自然语言处理领域时,可以提高知识点过滤任务、关键词提取任务、文本分类任务、语义聚类任务等的准确性;
另外,本发明实施例在实现广义同义词集的挖掘后,还可以基于该广义同义词集进行缩略词-完整词对的挖掘,当将挖掘的具有缩略词-完整词对的同义词集应用于自然语言处理领域时,可以进一步提高其相应任务的执行准确性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
总之,以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种同义词挖掘方法,其特征在于,包括:
去除获取的语料数据中无效格式的数据,并将剩余语料数据的格式统一为文本格式,以及过滤掉禁用词,所述禁用词包括敏感词和/或脏词;
对经上述处理后的语料数据进行分词处理,得到多个单独词;
计算所述单独词的词向量;
在计算所述单独词的词向量之前或之后,获取各所述单独词的词性,并根据词性对所述单独词进行过滤,保留词性为名词的单独词;和/或,获取各所述单独词的词频,根据词频对所述单独词进行过滤,保留词频大于设定词频阈值的单独词;
根据所述词向量对所述单独词进行聚类处理,得到同义词集;
计算同一同义词集中两两单独词之间的编辑距离,其中:编辑距离小于预设阈值的两个单独词为缩略同义词、编辑距离大于等于所述预设阈值的两个单独词为非缩略同义词;
针对于同义词集内,将包括相同单独词的缩略同义词进行合并,得到缩略同义词集;
所述计算同一同义词集中两两单独词之间的编辑距离,包括:
确定两个单独词中由一个单独词变换到另一个单独词所需的编辑操作;
根据预先设置的对一个字符的不同编辑操作与编辑距离值的对应关系,计算确定的各编辑操作对应的编辑距离值的和值,并以该和值作为两个单独词之间的编辑距离;
所述编辑操作包括:插入、删除或替换,其中:插入一个字符的编辑距离为1,替换一个字符的编辑距离为1000,删除一个字符的编辑距离为1;
所述根据所述词向量对所述单独词进行聚类处理,包括:
初始化K值、中心点PK-1、以及聚类问题集{K,[PK-1]},其中,K表示聚类的类别数,K的初始值为1,中心点PK-1的初始值为P0,P0=Q1,Q1表示第一个单独词的词向量,聚类问题集的初始值为{1,[Q1]};
从第二个单独词的词向量开始,依次对剩下的词向量进行聚类,计算当前词向量与每个聚类问题集的中心点的相似度,如果当前词向量与某个聚类问题集的中心点的相似度大于或等于预设值,则将当前词向量聚类到相应的聚类问题集中,保持K值不变,将相应的中心点更新为聚类问题集中所有词向量的向量平均值,相应的聚类问题集为{K,[聚类问题集中所有词向量的向量平均值]};如果当前词向量与所有聚类问题集中的中心点的相似度均小于预设值,则令K=K+1,增加新的中心点,所述新的中心点的值为当前词向量,并增加新的聚类问题集{K,[当前词向量]}。
2.如权利要求1所述的方法,其特征在于,对获取的语料数据进行分词处理,得到多个单独词,包括:
将语料数据按照语料中的特定标点划分为多句;
通过新词发现算法,获取各句数据中的新词,并根据获取的新词,更新分词词典;
根据更新后的分词词典对各句数据进行分词处理,得到各句数据中的单独词。
3.如权利要求1所述的方法,其特征在于,所述计算所述单独词的词向量具体包括:将所述单独词输入到设定的向量模型,获取所述向量模型输出的所述单独词的词向量。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
当确定出聚类处理的准确率小于预定准确率阈值时,调整聚类处理所采用的聚类算法中的指定参数值。
5.一种同义词挖掘装置,其特征在于,包括:
预处理模块,用于去除获取的语料数据中无效格式的数据,并将剩余语料数据的格式统一为文本格式,以及过滤掉禁用词,所述禁用词包括敏感词和/或脏词;
分词模块,用于对获取的语料数据进行分词处理,得到多个单独词;
向量计算模块,用于计算所述单独词的词向量;
过滤模块,用于获取所述分词模块得到的各所述单独词的词性,并根据词性对所述单独词进行过滤,保留词性为名词的单独词;和/或,获取所述分词模块得到的各所述单独词的词频,根据词频对所述单独词进行过滤,保留词频大于设定词频阈值的单独词;
聚类处理模块,用于根据所述词向量对所述单独词进行聚类处理,得到同义词集;编辑距离计算模块,用于计算同一同义词集中两两单独词之间的编辑距离,其中:编辑距离小于预设阈值的两个单独词为缩略同义词、编辑距离大于等于所述预设阈值的两个单独词为非缩略同义词;
合并模块,针对于同义词集内,将包括相同单独词的缩略同义词进行合并,得到缩略同义词集;
所述计算同一同义词集中两两单独词之间的编辑距离,包括:
确定两个单独词中由一个单独词变换到另一个单独词所需的编辑操作;
根据预先设置的对一个字符的不同编辑操作与编辑距离值的对应关系,计算确定的各编辑操作对应的编辑距离值的和值,并以该和值作为两个单独词之间的编辑距离;
所述编辑操作包括:插入、删除或替换,其中:插入一个字符的编辑距离为1,替换一个字符的编辑距离为1000,删除一个字符的编辑距离为1;
所述聚类处理模块,包括:初始化单元,用于初始化K值、中心点PK-1、以及聚类问题集{K,[PK-1]},其中,K表示聚类的类别数,K的初始值为1,中心点PK-1的初始值为P0,P0=Q1,Q1表示第一个单独词的词向量,聚类问题集的初始值为{1,[Q1]};
聚类集生成单元,用于从第二个单独词的词向量开始,依次对剩下的词向量进行聚类,计算当前词向量与每个聚类问题集的中心点的相似度,如果当前词向量与某个聚类问题集的中心点的相似度大于或等于预设值,则将当前词向量聚类到相应的聚类问题集中,保持K值不变,将相应的中心点更新为聚类问题集中所有词向量的向量平均值,相应的聚类问题集为{K,[聚类问题集中所有词向量的向量平均值]};如果当前词向量与所有聚类问题集中的中心点的相似度均小于预设值,则令K=K+1,增加新的中心点,所述新的中心点的值为当前词向量,并增加新的聚类问题集{K,[当前词向量]}。
6.如权利要求5所述的装置,其特征在于,所述分词模块,具体用于将语料数据按照标点划分为多句,通过新词发现算法,获取各句数据中的新词,并根据获取的新词,更新分词词典,根据更新后的分词词典对各句数据进行分词处理,得到各句数据中的单独词。
7.如权利要求5所述的装置,其特征在于,所述向量计算模块,具体用于将所述单独词输入到设定的向量模型,获取所述向量模型输出的所述单独词的词向量。
8.如权利要求5所述的装置,其特征在于,还包括:
优化模块,用于当确定出聚类处理的准确率小于预定准确率阈值时,调整聚类处理所采用的聚类算法中的指定参数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611233743.9A CN106649783B (zh) | 2016-12-28 | 2016-12-28 | 一种同义词挖掘方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611233743.9A CN106649783B (zh) | 2016-12-28 | 2016-12-28 | 一种同义词挖掘方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106649783A CN106649783A (zh) | 2017-05-10 |
CN106649783B true CN106649783B (zh) | 2022-12-06 |
Family
ID=58833208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611233743.9A Active CN106649783B (zh) | 2016-12-28 | 2016-12-28 | 一种同义词挖掘方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649783B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203504B (zh) * | 2017-05-18 | 2021-02-26 | 北京京东尚科信息技术有限公司 | 字符串替换方法和装置 |
CN107451126B (zh) * | 2017-08-21 | 2020-07-28 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN107832290B (zh) * | 2017-10-19 | 2020-02-28 | 中国科学院自动化研究所 | 中文语义关系的识别方法及装置 |
CN110196905A (zh) * | 2018-02-27 | 2019-09-03 | 株式会社理光 | 一种生成词表示的方法、装置及计算机可读存储介质 |
CN108536674A (zh) * | 2018-03-21 | 2018-09-14 | 上海蔚界信息科技有限公司 | 一种基于语义的典型意见聚合方法 |
CN108491393B (zh) * | 2018-03-29 | 2022-05-20 | 国信优易数据股份有限公司 | 一种情感词情感强度确定方和装置 |
CN108920458A (zh) * | 2018-06-21 | 2018-11-30 | 武汉斗鱼网络科技有限公司 | 一种标签归一化方法、装置、服务器和存储介质 |
CN109086265B (zh) * | 2018-06-29 | 2022-10-25 | 厦门快商通信息技术有限公司 | 一种语义训练方法、短文本中多语义词消歧方法 |
CN109033084B (zh) * | 2018-07-26 | 2022-10-28 | 国信优易数据股份有限公司 | 一种语义层次树构建方法以及装置 |
CN109299610B (zh) * | 2018-10-02 | 2021-03-30 | 复旦大学 | 安卓系统中不安全敏感输入验证识别方法 |
CN110569498B (zh) * | 2018-12-26 | 2022-12-09 | 东软集团股份有限公司 | 一种复合词识别方法及相关装置 |
CN109871530B (zh) * | 2018-12-28 | 2023-10-31 | 广州索答信息科技有限公司 | 一种菜谱领域种子词自动提取实现方法及存储介质 |
CN109753569A (zh) * | 2018-12-29 | 2019-05-14 | 上海智臻智能网络科技股份有限公司 | 一种多义词发现的方法及装置 |
CN110532547A (zh) * | 2019-07-31 | 2019-12-03 | 厦门快商通科技股份有限公司 | 语料库构建方法、装置、电子设备及介质 |
CN112560455A (zh) * | 2019-09-26 | 2021-03-26 | 北京国双科技有限公司 | 一种数据的融合方法及相关系统 |
CN110991168B (zh) * | 2019-12-05 | 2024-05-17 | 京东方科技集团股份有限公司 | 同义词挖掘方法、同义词挖掘装置及存储介质 |
CN113761905A (zh) * | 2020-07-01 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种领域建模词汇表的构建方法和装置 |
CN112800758A (zh) * | 2021-04-08 | 2021-05-14 | 明品云(北京)数据科技有限公司 | 一种文本中近义词判别方法、系统、设备和介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095204B (zh) * | 2014-04-17 | 2018-12-14 | 阿里巴巴集团控股有限公司 | 同义词的获取方法及装置 |
US10095784B2 (en) * | 2015-05-29 | 2018-10-09 | BloomReach, Inc. | Synonym generation |
CN105224521B (zh) * | 2015-09-28 | 2018-05-25 | 北大方正集团有限公司 | 主题词提取方法及使用其获取相关数字资源的方法及装置 |
CN106126494B (zh) * | 2016-06-16 | 2018-12-28 | 上海智臻智能网络科技股份有限公司 | 同义词发现方法及装置、数据处理方法及装置 |
-
2016
- 2016-12-28 CN CN201611233743.9A patent/CN106649783B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106649783A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
CN109299480B (zh) | 基于上下文语境的术语翻译方法及装置 | |
CN109710947B (zh) | 电力专业词库生成方法及装置 | |
CN111310470B (zh) | 一种融合字词特征的中文命名实体识别方法 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN108804423B (zh) | 医疗文本特征提取与自动匹配方法和系统 | |
CN112256860A (zh) | 客服对话内容的语义检索方法、系统、设备及存储介质 | |
Mandal et al. | Clustering-based Bangla spell checker | |
CN110008473B (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN110929510A (zh) | 一种基于字典树的中文未登录词识别方法 | |
CN111401012A (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN103927176A (zh) | 一种基于层次主题模型的程序特征树的生成方法 | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
CN112287077A (zh) | 用于文档的结合rpa和ai的语句提取方法、装置、存储介质及电子设备 | |
Seon et al. | Named Entity Recognition using Machine Learning Methods and Pattern-Selection Rules. | |
CN112651590B (zh) | 一种指令处理流程推荐的方法 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
CN110069780B (zh) | 一种基于特定领域文本的情感词识别方法 | |
CN114528824A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN113392189A (zh) | 基于自动分词的新闻文本处理方法 | |
Kasthuri et al. | An improved rule based iterative affix stripping stemmer for Tamil language using K-mean clustering | |
CN113158693A (zh) | 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |