CN104268200A

CN104268200A - 一种基于深度学习的非监督命名实体语义消歧方法

Info

Publication number: CN104268200A
Application number: CN201410488048.1A
Authority: CN
Inventors: 余雷; 邓攀; 闫碧莹; 袁伟; 李玉成; 万安格
Original assignee: SINOPARADOFT (BEIJING) PARALLEL SOFTWARE Co Ltd
Current assignee: SINOPARADOFT (BEIJING) PARALLEL SOFTWARE Co Ltd
Priority date: 2013-09-22
Filing date: 2014-09-22
Publication date: 2015-01-07

Abstract

本发明提供了一种基于深度学习的非监督命名实体语义消歧方法，针对某一特定领域，在垂直网站上抓取评论数据并进行预处理；对评论数据中文分词；利用主题模型对词进行主题聚类，生成包含主题信息的文档主题词分布；对词集合中的所有词，使用基于深度学习的词聚类方法word2vec进行关键词聚类，提取和关键词语义接近的词；使用条件随机场该模型识别评论数据中的命名实体；根据步骤4主题聚类的聚类结果，构建不同主题下的词集合，计算文档和词集合的相似度，选取文档主题，得出文档中命名实体的语境含义，从而消除语义岐义。本发明实现了以比较高的可解释度和精确度来进行命名实体消歧，满足了特定领域且需要大量的知识库的要求。

Description

一种基于深度学习的非监督命名实体语义消歧方法

技术领域

本发明属于互联网信息技术领域，涉及命名实体消歧，具体是一种非监督的基于语义的方法对命名实体进行语义消歧的技术。

背景技术

随着互联网行业的快速发展，人们的生活越来越离不开互联网，人们利用互联网搜索引擎搜索关注的信息，搜索商品信息，利用电商网站搜索想要购买的物品，搜索方面的需求量逐渐增大,在情感分析领域，获取用户中的评论数据，词语的含义不仅影响分词和命名实体的准确性，还影响情感分析的准确性。但是互联网的快速发展和中文本身的特点给这些操作带来了困难，由于中文存在很多近义词和多义词，对这些词的识别率造成了很大的影响，因此对具有多义词的词语进行歧义消除是亟需解决的问题。

一般的论文研究主要基于知识库、Wordnet语义网络和基于统计进行研究，基于知识的语义消歧包括基于规则和基于词典的方法，基于知识库的消歧方法主要依赖语言学家的语言知识构造知识库，通过分析多义词所在上下文，选取其中满足某一项规则的义项。基于Wordnet语义网络主要是根据Wordnet中词和词在网络中的关系进行分析。基于统计的方法则需要以大型语料库作为知识源，从标注或者未标注的数据中学习消歧特征。这些方法中需要的知识和语料库获取过程不仅长而且可信度比较低，也不具有领域通用性，在特定领域下，效果就变得很差，不能有效实现命名实体语义消歧的目的。

发明内容

本发明针对现有的命名实体语义消歧方法无法满足特定领域的需求而且需要大量的知识库的现状，提供了一种基于深度学习的非监督命名实体语义消歧方法，旨在实现以比较高的可解释度和精确度来进行命名实体消歧。

本发明提供的基于深度学习的非监督命名实体语义消歧方法，针对某一特定领域，包括如下步骤：

步骤1：构建爬虫程序，在垂直网站上抓取领域内的评论数据；

步骤2：对评论数据进行预处理，包括：去重处理，根据数据长度进行清洗，去除垃圾广告，去除评论数据中的网址，去除自动评论数据；将预处理后的评论数据用于下面步骤；

步骤3：对评论数据进行中文分词，去除停用词，获取词集合；

步骤4：对词集合中的词建立索引，利用主题模型对词进行主题聚类，生成包含主题信息的文档主题词分布；

步骤5：对词集合中的所有词，使用基于深度学习的词聚类方法word2vec进行关键词聚类，提取和关键词语义接近的前X个关键词；

步骤6：使用条件随机场模型识别评论数据中的命名实体；

步骤7：根据步骤4主题聚类的聚类结果，构建不同主题下的词集合，计算文档和词集合的相似度，取相似度最高的前Y个主题，作分析和比较，得出文档中命名实体的语境含义，从而消除语义岐义，X和Y均为正整数。

相对于现有技术，本发明的非监督命名实体语义消歧方法，其优点和积极效果在于：

(1)利用Bloom filter技术对抓取的海量评论数据去重，数据处理效率高；基于给定的规则集对评论数据进行清洗，有效精简数据；

(2)利用基于深度学习的word2vec技术提取词语的近义词集，对海量数据处理的效率高、准确度高；

(3)利用条件随机场模型进行命名实体识别，可有效识别命名实体；利用非监督的主题聚类模型对命名实体进行语义主题聚类，采用基于上下文窗口技术进行命名实体语义理解，实现了以比较高的可解释度和精确度来进行命名实体消歧。

附图说明

图1是本发明的非监督命名实体语义消歧方法的整体流程图；

图2是本发明的非监督命名实体语义消歧方法中抓取评论数据的流程图；

图3是本发明的非监督命名实体语义消歧方法步骤2～4的流程示意图；

图4是本发明的非监督命名实体语义消歧方法命名实体语义消歧模块流程图；

图5是本发明方法中步骤4中利用LDA主题模型获取字分布概率的示意图；

图6是给定词“佛教”在词上的分布概率示意图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提供的一种基于深度学习的非监督命名实体语义消歧方法，可以比较准确地理解不同的词语在不同语境下的真正含义。本发明通过对命名实体识别，通过语义聚类方式构建主题聚类，得到命名实体所属某一主题的概率，结合谷歌提出的利用深度学习技术的word2vec技术构建主题向量，计算在不同主题下的相似度。同时根据所属同一主题的其他命名实体，在进行语义消歧的时候，联系上下文，根据上下文中词在同一个主题中的共现概率进行语义理解，正确的理解命名实体在不同语境下的真实含义。

本发明实施例中针对汽车网站数据，根据汽车网站的评论数据，采用条件随机场模型对命名实体识别，采用非监督聚类模型和基于上下文的分析技术对命名实体进行语义消歧。如图1所示，具体本发明的非监督命名实体语义消歧方法通过如下步骤1～步骤7实现。

步骤1：构建爬虫程序，抓取汽车行业的评论数据，这里主要包括汽车之家等垂直网站的数据。本步骤分为如下两个子步骤，如图2所示：

步骤101：构建分布式爬虫程序，对汽车网站数据进行页面抓取；

步骤102：根据抓取到的html页面生成页面的Dom树结构，根据标签提取爬到页面中包含的评论数据。

步骤2：对评论数据进行预处理，去除噪音。本步骤中(1)利用Bloom filter方法对海量数据进行处理，Bloom filter处理速度很快，避免了普通方法中的两两比较，因而是线性复杂度，适合处理海量数据。(2)利用下面的规则集对行业评论数据进一步预处理：规则1:评论数据长度小于5；规则2：评论数据中含有特定的广告词；规则3：基于网络特定回复模板的自动回复；规则4：评论数据中含有网址的，去除网址，然后再重新判断是否符合规则1～3。步骤2可分为步骤201～步骤204。将预处理后的评论数据用于下面步骤中。

步骤201：根据评论数据长度进行清洗，利用正则表达式和制定的规则集去除垃圾广告信息。

步骤202：利用Bloom filter首先对评论数据利用N个hash函数映射到位数组中，然后对后面的评论计算N个hash值，进而判断该评论数据是否已经存在，如果存在就过滤掉。

步骤203：设计匹配网址的正则表达式，去除评论数据中的网址，再次计算句子的长度，然后在此基础上进行二次清洗，主要清洗长度不满足规则中设置的条件的。

步骤204：统计网络自动评论模板，然后根据自动评论模板去除评论数据中包含的自动评论。

步骤3：对评论数据进行中文分词处理，获取对应的词集合。对所有评论数据进行中文分词，去除停用词，获取分词结果。步骤3包括步骤301和302。

步骤301：调用中文分词程序分词，然后根据停用词表去除停用词，对其中包含的英文词进行形态变换，转换到统一形式。

步骤302：计算词的文档频率df、词频tf和逆向文件频率idf，设词的权值使用计算公式log(tf/(idf+1)+1)得到，然后根据设定的权值阈值进行词集筛选，提取权值大于设定的权值阈值的词，从而提取到能够体现评论特征的词集合，同时通过词集筛选后也适当地降低了词集合的维度。

步骤4：利用主题模型对步骤3得到的词集合中的词进行主题聚类，生成包含主题信息的文档主题词分布，如图3所示。每条评论为一个文档。

步骤401：对所有词建立索引，创建文档和词对应的数据文件。

步骤402：使用基于吉布斯抽样方法(Gibbs Sampling)的LDA(latent dirichlet allocation)主题模型对词进行主题聚类。LDA是一个三层贝叶斯概率模型，包含词、主题和文档三层结构。文档到主题服从狄利克雷(Dirichlet)分布，主题到词服从多项式分布。LDA是一种非监督机器学习技术，可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。

从主题模型的角度，对于一篇文档，生成包含主题信息的文档主题词分布如下：

1.设文档的长度为N，N服从Poisson(ε)分布；Poisson(ε)表示泊松分布，ε是该分布的参数；

2.选择θ，θ服从Dirichlet分布Dir(α)，θ是列向量，代表的是各主题发生的概率，α是Dirichlet分布的参数；

3.对文档N个单词中的每一个单词：

a)选择主题Z_i，Z_i服从多项分布Multinomial(θ)。Z_i代表当前选择的主题。θ是多项分布的参数；i＝1,2,…,K，K表示主题的数量；

b)选择单词W_j，根据P(W_j|Z_i；β_i,j)，得到在Z_i条件下的多项分布。P(W_j|Z_i；β_i,j)表示在主题Zi下生成单词W_j的概率β_i,j，n＝1,2,…,N。

设β是K×W的矩阵，W表示所有文档的单词数量，β记录了某个主题条件下生成某个单词的概率。

如图5所示，T表示主题空间，设共有K个主题，D表示文档空间，设共有D个文档，N_d表示某个文档对应的词空间，T,D,N_d均表示为矩阵向量形式，各主题Z发生的概率分布为θ，各主题下生成的单词的概率分布为是一个自变量为主题和单词的函数。

在LDA主题模型中，有下面公式：

其中，w表示单词，z表示主题，P(w,z|α,β)表示给定α,β时，w和z的联合概率；θ为各主题发生的概率分布，是各主题下生成的单词的概率分布，表示给定α,β时，w、z、θ和的联合概率分布；主题k＝1,2,…K，文档d＝1,2,…,D；Δ表示变化量；n_k表示取主题k下每个单词的概率，n_k＝(n._k1,n._k2,…n._kW,)^T，n._ki表示取主题k下单词i的概率，i＝1,2,…W，W为单词个数；n_d表示取文档d中每个单词的概率，n_d＝(n_d1.,n_d2.,…n_dW.,)^T，n_di.表示取文档d的单词i的概率。

该模型使用吉布斯抽样方法进行参数推断。假设给定α,β，吉布斯抽样方法的流程是积出变量θ,φ，然后根据这三个变量从后验概率P(z|w,d,α,β)中抽样主题z。在抽样的每一轮过程中，根据下面公式来抽样：

P (z_{i} | w, z_{- i}, α, β) \frac{Δ (β + n_{k})}{Δ (β + n_{k - i})} \frac{Δ (α + n_{d})}{Δ (α + n_{d - i})}

P(z_i|w,z_-i,α,β)表示在词w、主题z_-i和参数α,β的前提下抽取主题z_i的概率。z_i表示第i次抽取的主题，z_-i表示不在第i次抽取的主题。小脚标-i表示不在第i次抽取。

其中

\frac{Δ (β + n_{k})}{Δ (β + n_{k - i})} = \frac{β_{w} + {n .}_{kw} - 1}{Σ_{w} (β_{w} + {n .}_{kw}) - 1}

\frac{Δ (α + n_{k})}{Δ (α + n_{d - i})} = \frac{α_{t} + n_{dt .} - 1}{Σ_{t} (α_{t} + n_{dt .}) - 1}

β_w表示词w的主题分布，n_k-i表示不在第i次抽取的主题k下每个单词的概率，n_d-i表示不在第i次抽取的文档d中每个单词的概率，n_dt.表示取文档d中单词t的概率，α_t表示抽取单词t时对应的α值。w,t＝1,2,…,W。

所以有

P (z_{i} | w, z_{- i}, α, β) &Proportional; \frac{β_{w} + {n .}_{kw} - 1}{Σ_{w} (β_{w} + {n .}_{kw}) - 1} \frac{α_{t} + n_{dt .} - 1}{Σ_{t} (α_{t} + n_{dt .}) - 1}

这个公式是Markov Chain Monte Carlo(MCMC)的一种实例，它可以被看作从一条马尔科夫链中抽样，最终平稳分布为后验概率的马尔科夫过程。该方法的最大优点是实现起来比较简单，只需要两个矩阵

在吉布斯抽样方法循环进行一段时间后，从θ，φ矩阵中可以计算出主题-词分布和文档-情感分布θ_dk。

经过主题模型聚类，生成<主题,词索引>模型。

步骤403:将生成的<主题,词索引>模型进行索引转换，转换成词本身，得到不同词属于不同主题的概率分布。

步骤5：对词集合中的所有词，使用基于深度学习(deep learning)的词聚类方法word2vec进行关键词聚类，提取和关键词语义接近的前X个关键词。本发明实施例中X取值为50。

word2vec(word to vector)是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。word2vec为计算向量词提供了一种有效的连续词袋(bag-of-words)和skip-gram架构实现，Word2vec可以计算词和词之间的距离，知道了距离，就可以对词进行聚类，而且word2vec本身也提供了聚类功能。Word2vec使用到了deep learning技术，不仅有着非常高的准确度，同时效率非常高，适合处理海量数据，根据实验，10亿数据在CPU为4核的计算机上进行词到向量的转换，时间大约在一个小时。如图6所示，为计算词“佛教”在其他词上的分布概率示例。

步骤6：进行命名实体抽取，获取评论数据中的命名实体。

步骤601：获取预处理后的评论数据。

步骤602：利用条件随机场模型对评论数据进行处理，识别其中的命名实体，本发明实施例主要包括汽车名称，人名，汽车属性名称，地域名称等命名实体。

条件随机场(CRF)由Lafferty等人于2001年提出，结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。本发明方法使用条件随机场模型CRFs，该模型在命名实体识别的时候达到了很好的效果。

步骤7：根据步骤4主题聚类的聚类结果，在不同主题下构建词向量集合，计算和文档的相似度，本发明方法采用的是余弦相似度，最后取前10个作分析和比较，得出文档中命名实体的语境含义，从而消除语义岐义。

步骤701：根据主题模型聚类结果，构建不同主题下的词集合，利用上下文信息和word2vec重新计算集合中每个词的权重值。

步骤702：对于某个文档的词集合，利用上下文信息，计算词之间的互信息，同时根据位置信息对该文档词集合中词的权重值进行更新。

步骤703：根据步骤701中word2vec聚类结果和步骤702中语义分析的结果，应用到构建词集合过程中，更新词的权重。将步骤701的某个词集合和步骤702得到的词集合求并集，然后进行步骤704，利用余弦相似度计算两个文档的相似度。

步骤704：利用余弦相似度计算文档和不同主题构成的词集合的相似度，取相似度最高的前Y个主题进行结果分析，得出文档中命名实体的语境含义，从而消除语义岐义。本发明实施例中Y取值为10。经试验验证，在本发明语义岐义消除过程中，X取值50和Y取值10能取得较好的效果，可得到合理的数据量处理，以及准确的语义。

Claims

1.一种基于深度学习的非监督命名实体语义消歧方法，针对某一特定领域，其特征在于，进行如下步骤：

步骤5：使用基于深度学习的词聚类方法word2vec进行关键词聚类，提取和关键词语义接近的前X个关键词；X为正整数；

步骤6：使用条件随机场该模型识别评论数据中的命名实体；

步骤7：根据步骤4主题模型的聚类结果，构建不同主题下的词集合，计算文档和词集合的相似度，取相似度最高的前Y个主题作分析和比较，得出文档中命名实体的语境含义，从而消除语义岐义；Y为正整数。

2.根据权利要求1所述的非监督命名实体语义消歧方法，其特征在于，所述的步骤2，利用下面的规则集对评论数据进行预处理，去除符合规则1～3中任意一条规则的评论数据：

规则1：评论数据的长度小于5个字；

规则2：评论数据中含有特定的广告词；

规则3：基于网络特定回复模板的自动回复；

规则4：评论数据中含有网址，去除网址后再重新判断是否符合规则1～3。

3.根据权利要求1所述的非监督命名实体语义消歧方法，其特征在于，所述的步骤3获取词集合时，计算词的逆向文件频率idf和词频tf，得到词的权值log(tf/(idf+1)+1)，提取权值大于设定的权值阈值的词形成词集合。

4.根据权利要求1所述的非监督命名实体语义消歧方法，其特征在于，所述的步骤5中X取值为50。

5.根据权利要求1所述的非监督命名实体语义消歧方法，其特征在于，所述的步骤7中Y取值为10。