CN110929510A - 一种基于字典树的中文未登录词识别方法 - Google Patents
一种基于字典树的中文未登录词识别方法 Download PDFInfo
- Publication number
- CN110929510A CN110929510A CN201911196602.8A CN201911196602A CN110929510A CN 110929510 A CN110929510 A CN 110929510A CN 201911196602 A CN201911196602 A CN 201911196602A CN 110929510 A CN110929510 A CN 110929510A
- Authority
- CN
- China
- Prior art keywords
- words
- word
- dictionary
- mutual information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000000717 retained effect Effects 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007711 solidification Methods 0.000 claims description 3
- 230000008023 solidification Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract description 19
- 230000008569 process Effects 0.000 description 7
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于字典树的中文未登录词识别方法,包括以下步骤:步骤一:将文本输入,将一些标点符号等问题进行去除,建立中文文本库;步骤二:将文本库构造成字典树,在这个任务中需要构造两颗Trie树,表示正向和反向两个字符字段集;步骤三:计算词语左右信息熵的最小值,与信息熵阈值进行比较,保留可能成词的候选词;步骤四:计算词语互信息,与互信息阈值进行比较,将大于互信息阈值的词保留;步骤五:将之前保留的词语和词典进行比较,将原词典中没有的词加入作为词典的一部分,消除未登录词。有益效果:本发明不需预先通过词典进行分词,字典树的时间复杂度和存储字符串的数据量无关只与查询的字符串长度有关,在一定程度上能加速算法。
Description
技术领域
本发明涉及中文词识别技术领域,具体来说,涉及一种基于字典树的中文未登录词识别方法。
背景技术
随着Web2.0时代的到来,互联网飞速发展,信息的产生呈现一种爆炸增长方式,而怎么样处理这些信息就成为一个很重要的问题。而自然语言处理就是对文本信息处理的一种最有效方法之一。而在自然语言处理中就不可能回避未登录词的问题。顾名思义,未登录词即没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等。在当代互联网中每天产生各种各样的未登录词,所以未登录词的识别变得越来越重要。
在一般中文未登录词处理中一般的流程为预处理-分词-运用算法、模型找到新词-和词典比较将新词加入词典。在一般的流程中在分词阶段十分依赖词典的作用,当对于词典的内容不够准确、词典的数量不足时,这其中会存在很多的问题。同时,如果在一个比较新的领域还没有形成一套完备的词典时,依赖词典的分词方法会有重大问题。
且现有其他未登录词算法的有以下缺点:
1.太依赖分词来进行发现备选词语,但有时分词的过程中也会产生一定的错误;
2.用哈希表等方式来进行词频计算每有一个词语的时候就要计算一次,在语料库很大的情况下时间复杂度和空间复杂度都是一个问题;
3.对词典有一定的依赖,但在发现新词的过程中词典的作用不大。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供一种基于字典树的中文未登录词识别方法,主要是采用字典树的方法,将输入文本直接以字典树的形式将整篇文本输入电脑中,因此本方法并不需要进行分词处理,属于一种无监督学习方法。在使用字典树方法时我们只需将文本直接输入,然后计算机将会自己不需要分词的发现所有的新词,和一般的有监督学习方法依赖词典完全不同,同时字典树的时间复杂度和存储字符串的数据量无关只与查询的字符串长度有关,在一定程度上能加速算法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于字典树的中文未登录词识别方法,包括以下步骤:
步骤一:将文本输入,将一些标点符号等问题进行去除,建立中文文本库;
步骤二:将文本库构造成字典树,在这个任务中需要构造两颗Trie树,表示正向和反向两个字符字段集,为了方便接下来要进行的左右信息熵等值的计算;
步骤三:将字典树上的词提取出来,计算它的左右信息熵,公式为: H(x)=-∑P(xj)log(P(xj));计算完该词的左右熵之后取两个值中的最小值,然后将该词与信息熵阈值做比较,如果最小值小于阈值则该词被排除,反之将该词保留;
步骤四:单单使用左右熵来寻找新词不够准确,接下来计算上一步骤中保留的词语的互信息,以此来计算该词的凝固度,互信息的计算公式为:通常互信息越大则说明该词经常出现在一起,而不是经常单独出现,所以如果词的互信息小于互信息阈值则将该词排除,反之将该词保留;
步骤五:将之前保留的词语和词典进行比较,将原词典中没有的词加入作为词典的一部分,消除未登录词。
进一步的,所述步骤二中将文本输入后,计算机识别一些符号例如:“,”“。”等将语料分成很多句子,然后以句子的形式将一个一个词形成树的形式从上至下依次排下来,再计算每个词的频数等对之后需要计算的信息。。
进一步的,所述步骤三中H(x)是邻接字符的信息熵,P(xj)是邻接字符取xj的概率。
进一步的,所述步骤四中PMI(x,y)表示为互信息,p(x,y)表示x,y 两个词(字)一起出现的概率,p(x)、p(y)表示x、y出现的概率。
与现有技术相比,本发明具有以下有益效果:
(1)本发明使用了字典树的方法,字典树的时间复杂度和存储字符串的数据量无关只与查询的字符串长度有关,在一定程度上能加速算法;
(2)本发明省去了分词这一步骤,中文分词一直是中文文本处理的一个大问题,精准度并不是那么的高,省去分词步骤可以避免在分词阶段出现的一些错误等问题;
(3)本发明为无监督学习方法,省去了分词过程,在过程中减少了对词典的依赖,在词典不够完备或者缺乏词典的情况下,一般的方法都很难使用,本方法在这种情况下得到充分利用,当然,在一般的情况下本方法也是能发挥它的特点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于字典树的中文未登录词识别方法的步骤流程图。
具体实施方式
下面,结合附图以及具体实施方式,对发明做出进一步的描述:
请参阅图1,根据本发明实施例的一种基于字典树的中文未登录词识别方法,包括以下步骤:
步骤一:将文本输入,将一些标点符号等问题进行去除,建立中文文本库;
步骤二:将文本库构造成字典树,在这个任务中需要构造两颗Trie树,表示正向和反向两个字符字段集,为了方便接下来要进行的左右信息熵等值的计算;
步骤三:将字典树上的词提取出来,计算它的左右信息熵,公式为: H(x)=-∑P(xj)log(P(xj));计算完该词的左右熵之后取两个值中的最小值,然后将该词与信息熵阈值做比较,如果最小值小于阈值则该词被排除,反之将该词保留;
步骤四:单单使用左右熵来寻找新词不够准确,接下来计算上一步骤中保留的词语的互信息,以此来计算该词的凝固度,互信息的计算公式为:通常互信息越大则说明该词经常出现在一起,而不是经常单独出现,所以如果词的互信息小于互信息阈值则将该词排除,反之将该词保留;
步骤五:将之前保留的词语和词典进行比较,将原词典中没有的词加入作为词典的一部分,消除未登录词。
通过本发明的上述方案,步骤二中将文本输入后,计算机识别一些符号例如:“,”“。”等将语料分成很多句子,然后以句子的形式将一个一个词形成树的形式从上至下依次排下来,再计算每个词的频数等对之后需要计算的信息,在这个方法中我们建立了正反两颗树,将更有利于计算左右信息熵将句子从正反两个方向来排列;步骤三中H(x)是邻接字符的信息熵,P(xj)是邻接字符取xj的概率。步骤四中PMI(x,y)表示为互信息,p(x,y)表示x,y两个字一起出现的概率,p(x)、p(y)表示x、y出现的概率。
综上所述,(1)本发明使用了字典树的方法,字典树的时间复杂度和存储字符串的数据量无关只与查询的字符串长度有关,在一定程度上能加速算法;(2)本发明省去了分词这一步骤,中文分词一直是中文文本处理的一个大问题,精准度并不是那么的高,省去分词步骤可以避免在分词阶段出现的一些错误等问题;(3)本发明为无监督学习方法,省去了分词过程,在过程中减少了对词典的依赖,在词典不够完备或者缺乏词典的情况下,一般的方法都很难使用,本方法在这种情况下得到充分利用,当然,在一般的情况下本方法也是能发挥它的特点。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限定本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于字典树的中文未登录词识别方法,其特征在于,包括以下步骤:
步骤一:将文本输入,将一些标点符号等问题进行去除,建立中文文本库;
步骤二:将文本库构造成字典树,在这个任务中需要构造两颗Trie树,表示正向和反向两个字符字段集,为了方便接下来要进行的左右信息熵等值的计算;
步骤三:将字典树上的词提取出来,计算它的左右信息熵,公式为:H(x)=-∑O(xi)log(P(xi));计算完该词的左右熵之后取两个值中的最小值,然后将该词与信息熵阈值做比较,如果最小值小于阈值则该词被排除,反之将该词保留;
步骤四:单单使用左右熵来寻找新词不够准确,接下来计算上一步骤中保留的词语的互信息,以此来计算该词的凝固度,互信息的计算公式为:通常互信息越大则说明该词经常出现在一起,而不是经常单独出现,所以如果词的互信息小于互信息阈值则将该词排除,反之将该词保留;
步骤五:将之前保留的词语和词典进行比较,将原词典中没有的词加入作为词典的一部分,消除未登录词。
2.根据权利要求1所述的一种基于字典树的中文未登录词识别方法,其特征在于,所述步骤二中将文本输入后,计算机识别一些符号例如:“,”“。”等将语料分成很多句子,然后以句子的形式将一个一个词形成树的形式从上至下依次排下来,再计算每个词的频数等对之后需要计算的信息。
3.根据权利要求1所述的一种基于字典树的中文未登录词识别方法,其特征在于,所述步骤三中H(x)是邻接字符的信息熵,P(xi)是邻接字符取xi的概率。
4.根据权利要求1所述的一种基于字典树的中文未登录词识别方法,其特征在于,所述步骤四中PMI(x,y)表示为互信息,p(x,y)表示x,y两个词(字)一起出现的概率,p(x)、p(y)表示x、y出现的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911196602.8A CN110929510A (zh) | 2019-11-29 | 2019-11-29 | 一种基于字典树的中文未登录词识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911196602.8A CN110929510A (zh) | 2019-11-29 | 2019-11-29 | 一种基于字典树的中文未登录词识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110929510A true CN110929510A (zh) | 2020-03-27 |
Family
ID=69847735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911196602.8A Pending CN110929510A (zh) | 2019-11-29 | 2019-11-29 | 一种基于字典树的中文未登录词识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929510A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460170A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种词语识别方法、装置、终端设备及存储介质 |
CN112199943A (zh) * | 2020-09-24 | 2021-01-08 | 东北大学 | 一种基于最大凝聚系数和边界熵的未登录词识别方法 |
CN112966501A (zh) * | 2021-02-22 | 2021-06-15 | 广州寄锦教育科技有限公司 | 一种新词发现方法、系统、终端及介质 |
CN117473983A (zh) * | 2023-12-27 | 2024-01-30 | 苏州元脑智能科技有限公司 | 一种基于模糊匹配和互信息的未登录词收集方法、装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020022A (zh) * | 2012-11-20 | 2013-04-03 | 北京航空航天大学 | 一种基于改进信息熵特征的中文未登录词识别系统及方法 |
CN106528527A (zh) * | 2016-10-14 | 2017-03-22 | 深圳中兴网信科技有限公司 | 未登录词的识别方法及识别系统 |
CN107622051A (zh) * | 2017-09-14 | 2018-01-23 | 马上消费金融股份有限公司 | 一种新词筛选方法及装置 |
CN108829658A (zh) * | 2018-05-02 | 2018-11-16 | 石家庄天亮教育科技有限公司 | 新词发现的方法及装置 |
-
2019
- 2019-11-29 CN CN201911196602.8A patent/CN110929510A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020022A (zh) * | 2012-11-20 | 2013-04-03 | 北京航空航天大学 | 一种基于改进信息熵特征的中文未登录词识别系统及方法 |
CN106528527A (zh) * | 2016-10-14 | 2017-03-22 | 深圳中兴网信科技有限公司 | 未登录词的识别方法及识别系统 |
CN107622051A (zh) * | 2017-09-14 | 2018-01-23 | 马上消费金融股份有限公司 | 一种新词筛选方法及装置 |
CN108829658A (zh) * | 2018-05-02 | 2018-11-16 | 石家庄天亮教育科技有限公司 | 新词发现的方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460170A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种词语识别方法、装置、终端设备及存储介质 |
CN111460170B (zh) * | 2020-03-27 | 2024-02-13 | 深圳价值在线信息科技股份有限公司 | 一种词语识别方法、装置、终端设备及存储介质 |
CN112199943A (zh) * | 2020-09-24 | 2021-01-08 | 东北大学 | 一种基于最大凝聚系数和边界熵的未登录词识别方法 |
CN112199943B (zh) * | 2020-09-24 | 2023-10-03 | 东北大学 | 一种基于最大凝聚系数和边界熵的未登录词识别方法 |
CN112966501A (zh) * | 2021-02-22 | 2021-06-15 | 广州寄锦教育科技有限公司 | 一种新词发现方法、系统、终端及介质 |
CN117473983A (zh) * | 2023-12-27 | 2024-01-30 | 苏州元脑智能科技有限公司 | 一种基于模糊匹配和互信息的未登录词收集方法、装置 |
CN117473983B (zh) * | 2023-12-27 | 2024-03-19 | 苏州元脑智能科技有限公司 | 一种基于模糊匹配和互信息的未登录词收集方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874878B (zh) | 一种知识图谱的构建系统及方法 | |
CN108875040B (zh) | 词典更新方法及计算机可读存储介质 | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
CN104008166B (zh) | 一种基于形态和语义相似度的对话短文本聚类方法 | |
CN108573045B (zh) | 一种基于多阶指纹的比对矩阵相似度检索方法 | |
CN108460011B (zh) | 一种实体概念标注方法及系统 | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
CN110929510A (zh) | 一种基于字典树的中文未登录词识别方法 | |
CN111310470B (zh) | 一种融合字词特征的中文命名实体识别方法 | |
CN105279149A (zh) | 一种中文文本自动校正方法 | |
US11113470B2 (en) | Preserving and processing ambiguity in natural language | |
US20180089169A1 (en) | Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated | |
CN111460170B (zh) | 一种词语识别方法、装置、终端设备及存储介质 | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN106528524A (zh) | 一种基于MMseg算法与逐点互信息算法的分词方法 | |
CN112417891A (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN113553410B (zh) | 长文档处理方法、处理装置、电子设备和存储介质 | |
CN106610949A (zh) | 一种基于语义分析的文本特征提取方法 | |
CN112883718B (zh) | 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 | |
CN107168953A (zh) | 海量文本中基于词向量表征的新词发现方法及系统 | |
Fusayasu et al. | Word-Error Correction of Continuous Speech Recognition Based on Normalized Relevance Distance. | |
CN110874408A (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN114218921B (zh) | 一种优化bert的问题语义匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200327 |