[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110929510A - 一种基于字典树的中文未登录词识别方法 - Google Patents

一种基于字典树的中文未登录词识别方法 Download PDF

Info

Publication number
CN110929510A
CN110929510A CN201911196602.8A CN201911196602A CN110929510A CN 110929510 A CN110929510 A CN 110929510A CN 201911196602 A CN201911196602 A CN 201911196602A CN 110929510 A CN110929510 A CN 110929510A
Authority
CN
China
Prior art keywords
words
word
dictionary
mutual information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911196602.8A
Other languages
English (en)
Inventor
陈刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI YANSHU COMPUTER TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI YANSHU COMPUTER TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI YANSHU COMPUTER TECHNOLOGY Co Ltd filed Critical SHANGHAI YANSHU COMPUTER TECHNOLOGY Co Ltd
Priority to CN201911196602.8A priority Critical patent/CN110929510A/zh
Publication of CN110929510A publication Critical patent/CN110929510A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于字典树的中文未登录词识别方法,包括以下步骤:步骤一:将文本输入,将一些标点符号等问题进行去除,建立中文文本库;步骤二:将文本库构造成字典树,在这个任务中需要构造两颗Trie树,表示正向和反向两个字符字段集;步骤三:计算词语左右信息熵的最小值,与信息熵阈值进行比较,保留可能成词的候选词;步骤四:计算词语互信息,与互信息阈值进行比较,将大于互信息阈值的词保留;步骤五:将之前保留的词语和词典进行比较,将原词典中没有的词加入作为词典的一部分,消除未登录词。有益效果:本发明不需预先通过词典进行分词,字典树的时间复杂度和存储字符串的数据量无关只与查询的字符串长度有关,在一定程度上能加速算法。

Description

一种基于字典树的中文未登录词识别方法
技术领域
本发明涉及中文词识别技术领域,具体来说,涉及一种基于字典树的中文未登录词识别方法。
背景技术
随着Web2.0时代的到来,互联网飞速发展,信息的产生呈现一种爆炸增长方式,而怎么样处理这些信息就成为一个很重要的问题。而自然语言处理就是对文本信息处理的一种最有效方法之一。而在自然语言处理中就不可能回避未登录词的问题。顾名思义,未登录词即没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等。在当代互联网中每天产生各种各样的未登录词,所以未登录词的识别变得越来越重要。
在一般中文未登录词处理中一般的流程为预处理-分词-运用算法、模型找到新词-和词典比较将新词加入词典。在一般的流程中在分词阶段十分依赖词典的作用,当对于词典的内容不够准确、词典的数量不足时,这其中会存在很多的问题。同时,如果在一个比较新的领域还没有形成一套完备的词典时,依赖词典的分词方法会有重大问题。
且现有其他未登录词算法的有以下缺点:
1.太依赖分词来进行发现备选词语,但有时分词的过程中也会产生一定的错误;
2.用哈希表等方式来进行词频计算每有一个词语的时候就要计算一次,在语料库很大的情况下时间复杂度和空间复杂度都是一个问题;
3.对词典有一定的依赖,但在发现新词的过程中词典的作用不大。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供一种基于字典树的中文未登录词识别方法,主要是采用字典树的方法,将输入文本直接以字典树的形式将整篇文本输入电脑中,因此本方法并不需要进行分词处理,属于一种无监督学习方法。在使用字典树方法时我们只需将文本直接输入,然后计算机将会自己不需要分词的发现所有的新词,和一般的有监督学习方法依赖词典完全不同,同时字典树的时间复杂度和存储字符串的数据量无关只与查询的字符串长度有关,在一定程度上能加速算法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于字典树的中文未登录词识别方法,包括以下步骤:
步骤一:将文本输入,将一些标点符号等问题进行去除,建立中文文本库;
步骤二:将文本库构造成字典树,在这个任务中需要构造两颗Trie树,表示正向和反向两个字符字段集,为了方便接下来要进行的左右信息熵等值的计算;
步骤三:将字典树上的词提取出来,计算它的左右信息熵,公式为: H(x)=-∑P(xj)log(P(xj));计算完该词的左右熵之后取两个值中的最小值,然后将该词与信息熵阈值做比较,如果最小值小于阈值则该词被排除,反之将该词保留;
步骤四:单单使用左右熵来寻找新词不够准确,接下来计算上一步骤中保留的词语的互信息,以此来计算该词的凝固度,互信息的计算公式为:
Figure RE-GDA0002361891400000021
通常互信息越大则说明该词经常出现在一起,而不是经常单独出现,所以如果词的互信息小于互信息阈值则将该词排除,反之将该词保留;
步骤五:将之前保留的词语和词典进行比较,将原词典中没有的词加入作为词典的一部分,消除未登录词。
进一步的,所述步骤二中将文本输入后,计算机识别一些符号例如:“,”“。”等将语料分成很多句子,然后以句子的形式将一个一个词形成树的形式从上至下依次排下来,再计算每个词的频数等对之后需要计算的信息。。
进一步的,所述步骤三中H(x)是邻接字符的信息熵,P(xj)是邻接字符取xj的概率。
进一步的,所述步骤四中PMI(x,y)表示为互信息,p(x,y)表示x,y 两个词(字)一起出现的概率,p(x)、p(y)表示x、y出现的概率。
与现有技术相比,本发明具有以下有益效果:
(1)本发明使用了字典树的方法,字典树的时间复杂度和存储字符串的数据量无关只与查询的字符串长度有关,在一定程度上能加速算法;
(2)本发明省去了分词这一步骤,中文分词一直是中文文本处理的一个大问题,精准度并不是那么的高,省去分词步骤可以避免在分词阶段出现的一些错误等问题;
(3)本发明为无监督学习方法,省去了分词过程,在过程中减少了对词典的依赖,在词典不够完备或者缺乏词典的情况下,一般的方法都很难使用,本方法在这种情况下得到充分利用,当然,在一般的情况下本方法也是能发挥它的特点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于字典树的中文未登录词识别方法的步骤流程图。
具体实施方式
下面,结合附图以及具体实施方式,对发明做出进一步的描述:
请参阅图1,根据本发明实施例的一种基于字典树的中文未登录词识别方法,包括以下步骤:
步骤一:将文本输入,将一些标点符号等问题进行去除,建立中文文本库;
步骤二:将文本库构造成字典树,在这个任务中需要构造两颗Trie树,表示正向和反向两个字符字段集,为了方便接下来要进行的左右信息熵等值的计算;
步骤三:将字典树上的词提取出来,计算它的左右信息熵,公式为: H(x)=-∑P(xj)log(P(xj));计算完该词的左右熵之后取两个值中的最小值,然后将该词与信息熵阈值做比较,如果最小值小于阈值则该词被排除,反之将该词保留;
步骤四:单单使用左右熵来寻找新词不够准确,接下来计算上一步骤中保留的词语的互信息,以此来计算该词的凝固度,互信息的计算公式为:
Figure RE-GDA0002361891400000041
通常互信息越大则说明该词经常出现在一起,而不是经常单独出现,所以如果词的互信息小于互信息阈值则将该词排除,反之将该词保留;
步骤五:将之前保留的词语和词典进行比较,将原词典中没有的词加入作为词典的一部分,消除未登录词。
通过本发明的上述方案,步骤二中将文本输入后,计算机识别一些符号例如:“,”“。”等将语料分成很多句子,然后以句子的形式将一个一个词形成树的形式从上至下依次排下来,再计算每个词的频数等对之后需要计算的信息,在这个方法中我们建立了正反两颗树,将更有利于计算左右信息熵将句子从正反两个方向来排列;步骤三中H(x)是邻接字符的信息熵,P(xj)是邻接字符取xj的概率。步骤四中PMI(x,y)表示为互信息,p(x,y)表示x,y两个字一起出现的概率,p(x)、p(y)表示x、y出现的概率。
综上所述,(1)本发明使用了字典树的方法,字典树的时间复杂度和存储字符串的数据量无关只与查询的字符串长度有关,在一定程度上能加速算法;(2)本发明省去了分词这一步骤,中文分词一直是中文文本处理的一个大问题,精准度并不是那么的高,省去分词步骤可以避免在分词阶段出现的一些错误等问题;(3)本发明为无监督学习方法,省去了分词过程,在过程中减少了对词典的依赖,在词典不够完备或者缺乏词典的情况下,一般的方法都很难使用,本方法在这种情况下得到充分利用,当然,在一般的情况下本方法也是能发挥它的特点。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限定本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于字典树的中文未登录词识别方法,其特征在于,包括以下步骤:
步骤一:将文本输入,将一些标点符号等问题进行去除,建立中文文本库;
步骤二:将文本库构造成字典树,在这个任务中需要构造两颗Trie树,表示正向和反向两个字符字段集,为了方便接下来要进行的左右信息熵等值的计算;
步骤三:将字典树上的词提取出来,计算它的左右信息熵,公式为:H(x)=-∑O(xi)log(P(xi));计算完该词的左右熵之后取两个值中的最小值,然后将该词与信息熵阈值做比较,如果最小值小于阈值则该词被排除,反之将该词保留;
步骤四:单单使用左右熵来寻找新词不够准确,接下来计算上一步骤中保留的词语的互信息,以此来计算该词的凝固度,互信息的计算公式为:
Figure FDA0002294804720000011
通常互信息越大则说明该词经常出现在一起,而不是经常单独出现,所以如果词的互信息小于互信息阈值则将该词排除,反之将该词保留;
步骤五:将之前保留的词语和词典进行比较,将原词典中没有的词加入作为词典的一部分,消除未登录词。
2.根据权利要求1所述的一种基于字典树的中文未登录词识别方法,其特征在于,所述步骤二中将文本输入后,计算机识别一些符号例如:“,”“。”等将语料分成很多句子,然后以句子的形式将一个一个词形成树的形式从上至下依次排下来,再计算每个词的频数等对之后需要计算的信息。
3.根据权利要求1所述的一种基于字典树的中文未登录词识别方法,其特征在于,所述步骤三中H(x)是邻接字符的信息熵,P(xi)是邻接字符取xi的概率。
4.根据权利要求1所述的一种基于字典树的中文未登录词识别方法,其特征在于,所述步骤四中PMI(x,y)表示为互信息,p(x,y)表示x,y两个词(字)一起出现的概率,p(x)、p(y)表示x、y出现的概率。
CN201911196602.8A 2019-11-29 2019-11-29 一种基于字典树的中文未登录词识别方法 Pending CN110929510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911196602.8A CN110929510A (zh) 2019-11-29 2019-11-29 一种基于字典树的中文未登录词识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911196602.8A CN110929510A (zh) 2019-11-29 2019-11-29 一种基于字典树的中文未登录词识别方法

Publications (1)

Publication Number Publication Date
CN110929510A true CN110929510A (zh) 2020-03-27

Family

ID=69847735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911196602.8A Pending CN110929510A (zh) 2019-11-29 2019-11-29 一种基于字典树的中文未登录词识别方法

Country Status (1)

Country Link
CN (1) CN110929510A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460170A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种词语识别方法、装置、终端设备及存储介质
CN112199943A (zh) * 2020-09-24 2021-01-08 东北大学 一种基于最大凝聚系数和边界熵的未登录词识别方法
CN112966501A (zh) * 2021-02-22 2021-06-15 广州寄锦教育科技有限公司 一种新词发现方法、系统、终端及介质
CN117473983A (zh) * 2023-12-27 2024-01-30 苏州元脑智能科技有限公司 一种基于模糊匹配和互信息的未登录词收集方法、装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020022A (zh) * 2012-11-20 2013-04-03 北京航空航天大学 一种基于改进信息熵特征的中文未登录词识别系统及方法
CN106528527A (zh) * 2016-10-14 2017-03-22 深圳中兴网信科技有限公司 未登录词的识别方法及识别系统
CN107622051A (zh) * 2017-09-14 2018-01-23 马上消费金融股份有限公司 一种新词筛选方法及装置
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020022A (zh) * 2012-11-20 2013-04-03 北京航空航天大学 一种基于改进信息熵特征的中文未登录词识别系统及方法
CN106528527A (zh) * 2016-10-14 2017-03-22 深圳中兴网信科技有限公司 未登录词的识别方法及识别系统
CN107622051A (zh) * 2017-09-14 2018-01-23 马上消费金融股份有限公司 一种新词筛选方法及装置
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460170A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种词语识别方法、装置、终端设备及存储介质
CN111460170B (zh) * 2020-03-27 2024-02-13 深圳价值在线信息科技股份有限公司 一种词语识别方法、装置、终端设备及存储介质
CN112199943A (zh) * 2020-09-24 2021-01-08 东北大学 一种基于最大凝聚系数和边界熵的未登录词识别方法
CN112199943B (zh) * 2020-09-24 2023-10-03 东北大学 一种基于最大凝聚系数和边界熵的未登录词识别方法
CN112966501A (zh) * 2021-02-22 2021-06-15 广州寄锦教育科技有限公司 一种新词发现方法、系统、终端及介质
CN117473983A (zh) * 2023-12-27 2024-01-30 苏州元脑智能科技有限公司 一种基于模糊匹配和互信息的未登录词收集方法、装置
CN117473983B (zh) * 2023-12-27 2024-03-19 苏州元脑智能科技有限公司 一种基于模糊匹配和互信息的未登录词收集方法、装置

Similar Documents

Publication Publication Date Title
CN108874878B (zh) 一种知识图谱的构建系统及方法
CN108875040B (zh) 词典更新方法及计算机可读存储介质
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN104008166B (zh) 一种基于形态和语义相似度的对话短文本聚类方法
CN108573045B (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
CN108460011B (zh) 一种实体概念标注方法及系统
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110502642B (zh) 一种基于依存句法分析与规则的实体关系抽取方法
CN110929510A (zh) 一种基于字典树的中文未登录词识别方法
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
CN105279149A (zh) 一种中文文本自动校正方法
US11113470B2 (en) Preserving and processing ambiguity in natural language
US20180089169A1 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
CN111460170B (zh) 一种词语识别方法、装置、终端设备及存储介质
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN106528524A (zh) 一种基于MMseg算法与逐点互信息算法的分词方法
CN112417891A (zh) 一种基于开放式信息抽取的文本关系自动标注方法
CN110188359B (zh) 一种文本实体抽取方法
CN113553410B (zh) 长文档处理方法、处理装置、电子设备和存储介质
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
CN112883718B (zh) 基于汉字音形相似性的拼写纠错方法、装置以及电子设备
CN107168953A (zh) 海量文本中基于词向量表征的新词发现方法及系统
Fusayasu et al. Word-Error Correction of Continuous Speech Recognition Based on Normalized Relevance Distance.
CN110874408A (zh) 模型训练方法、文本识别方法、装置及计算设备
CN114218921B (zh) 一种优化bert的问题语义匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200327