CN104268200A - 一种基于深度学习的非监督命名实体语义消歧方法 - Google Patents
一种基于深度学习的非监督命名实体语义消歧方法 Download PDFInfo
- Publication number
- CN104268200A CN104268200A CN201410488048.1A CN201410488048A CN104268200A CN 104268200 A CN104268200 A CN 104268200A CN 201410488048 A CN201410488048 A CN 201410488048A CN 104268200 A CN104268200 A CN 104268200A
- Authority
- CN
- China
- Prior art keywords
- word
- comment data
- words
- named entity
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于深度学习的非监督命名实体语义消歧方法,针对某一特定领域,在垂直网站上抓取评论数据并进行预处理;对评论数据中文分词;利用主题模型对词进行主题聚类,生成包含主题信息的文档主题词分布;对词集合中的所有词,使用基于深度学习的词聚类方法word2vec进行关键词聚类,提取和关键词语义接近的词;使用条件随机场该模型识别评论数据中的命名实体;根据步骤4主题聚类的聚类结果,构建不同主题下的词集合,计算文档和词集合的相似度,选取文档主题,得出文档中命名实体的语境含义,从而消除语义岐义。本发明实现了以比较高的可解释度和精确度来进行命名实体消歧,满足了特定领域且需要大量的知识库的要求。
Description
技术领域
本发明属于互联网信息技术领域,涉及命名实体消歧,具体是一种非监督的基于语义的方法对命名实体进行语义消歧的技术。
背景技术
随着互联网行业的快速发展,人们的生活越来越离不开互联网,人们利用互联网搜索引擎搜索关注的信息,搜索商品信息,利用电商网站搜索想要购买的物品,搜索方面的需求量逐渐增大,在情感分析领域,获取用户中的评论数据,词语的含义不仅影响分词和命名实体的准确性,还影响情感分析的准确性。但是互联网的快速发展和中文本身的特点给这些操作带来了困难,由于中文存在很多近义词和多义词,对这些词的识别率造成了很大的影响,因此对具有多义词的词语进行歧义消除是亟需解决的问题。
一般的论文研究主要基于知识库、Wordnet语义网络和基于统计进行研究,基于知识的语义消歧包括基于规则和基于词典的方法,基于知识库的消歧方法主要依赖语言学家的语言知识构造知识库,通过分析多义词所在上下文,选取其中满足某一项规则的义项。基于Wordnet语义网络主要是根据Wordnet中词和词在网络中的关系进行分析。基于统计的方法则需要以大型语料库作为知识源,从标注或者未标注的数据中学习消歧特征。这些方法中需要的知识和语料库获取过程不仅长而且可信度比较低,也不具有领域通用性,在特定领域下,效果就变得很差,不能有效实现命名实体语义消歧的目的。
发明内容
本发明针对现有的命名实体语义消歧方法无法满足特定领域的需求而且需要大量的知识库的现状,提供了一种基于深度学习的非监督命名实体语义消歧方法,旨在实现以比较高的可解释度和精确度来进行命名实体消歧。
本发明提供的基于深度学习的非监督命名实体语义消歧方法,针对某一特定领域,包括如下步骤:
步骤1:构建爬虫程序,在垂直网站上抓取领域内的评论数据;
步骤2:对评论数据进行预处理,包括:去重处理,根据数据长度进行清洗,去除垃圾广告,去除评论数据中的网址,去除自动评论数据;将预处理后的评论数据用于下面步骤;
步骤3:对评论数据进行中文分词,去除停用词,获取词集合;
步骤4:对词集合中的词建立索引,利用主题模型对词进行主题聚类,生成包含主题信息的文档主题词分布;
步骤5:对词集合中的所有词,使用基于深度学习的词聚类方法word2vec进行关键词聚类,提取和关键词语义接近的前X个关键词;
步骤6:使用条件随机场模型识别评论数据中的命名实体;
步骤7:根据步骤4主题聚类的聚类结果,构建不同主题下的词集合,计算文档和词集合的相似度,取相似度最高的前Y个主题,作分析和比较,得出文档中命名实体的语境含义,从而消除语义岐义,X和Y均为正整数。
相对于现有技术,本发明的非监督命名实体语义消歧方法,其优点和积极效果在于:
(1)利用Bloom filter技术对抓取的海量评论数据去重,数据处理效率高;基于给定的规则集对评论数据进行清洗,有效精简数据;
(2)利用基于深度学习的word2vec技术提取词语的近义词集,对海量数据处理的效率高、准确度高;
(3)利用条件随机场模型进行命名实体识别,可有效识别命名实体;利用非监督的主题聚类模型对命名实体进行语义主题聚类,采用基于上下文窗口技术进行命名实体语义理解,实现了以比较高的可解释度和精确度来进行命名实体消歧。
附图说明
图1是本发明的非监督命名实体语义消歧方法的整体流程图;
图2是本发明的非监督命名实体语义消歧方法中抓取评论数据的流程图;
图3是本发明的非监督命名实体语义消歧方法步骤2~4的流程示意图;
图4是本发明的非监督命名实体语义消歧方法命名实体语义消歧模块流程图;
图5是本发明方法中步骤4中利用LDA主题模型获取字分布概率的示意图;
图6是给定词“佛教”在词上的分布概率示意图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明提供的一种基于深度学习的非监督命名实体语义消歧方法,可以比较准确地理解不同的词语在不同语境下的真正含义。本发明通过对命名实体识别,通过语义聚类方式构建主题聚类,得到命名实体所属某一主题的概率,结合谷歌提出的利用深度学习技术的word2vec技术构建主题向量,计算在不同主题下的相似度。同时根据所属同一主题的其他命名实体,在进行语义消歧的时候,联系上下文,根据上下文中词在同一个主题中的共现概率进行语义理解,正确的理解命名实体在不同语境下的真实含义。
本发明实施例中针对汽车网站数据,根据汽车网站的评论数据,采用条件随机场模型对命名实体识别,采用非监督聚类模型和基于上下文的分析技术对命名实体进行语义消歧。如图1所示,具体本发明的非监督命名实体语义消歧方法通过如下步骤1~步骤7实现。
步骤1:构建爬虫程序,抓取汽车行业的评论数据,这里主要包括汽车之家等垂直网站的数据。本步骤分为如下两个子步骤,如图2所示:
步骤101:构建分布式爬虫程序,对汽车网站数据进行页面抓取;
步骤102:根据抓取到的html页面生成页面的Dom树结构,根据标签提取爬到页面中包含的评论数据。
步骤2:对评论数据进行预处理,去除噪音。本步骤中(1)利用Bloom filter方法对海量数据进行处理,Bloom filter处理速度很快,避免了普通方法中的两两比较,因而是线性复杂度,适合处理海量数据。(2)利用下面的规则集对行业评论数据进一步预处理:规则1:评论数据长度小于5;规则2:评论数据中含有特定的广告词;规则3:基于网络特定回复模板的自动回复;规则4:评论数据中含有网址的,去除网址,然后再重新判断是否符合规则1~3。步骤2可分为步骤201~步骤204。将预处理后的评论数据用于下面步骤中。
步骤201:根据评论数据长度进行清洗,利用正则表达式和制定的规则集去除垃圾广告信息。
步骤202:利用Bloom filter首先对评论数据利用N个hash函数映射到位数组中,然后对后面的评论计算N个hash值,进而判断该评论数据是否已经存在,如果存在就过滤掉。
步骤203:设计匹配网址的正则表达式,去除评论数据中的网址,再次计算句子的长度,然后在此基础上进行二次清洗,主要清洗长度不满足规则中设置的条件的。
步骤204:统计网络自动评论模板,然后根据自动评论模板去除评论数据中包含的自动评论。
步骤3:对评论数据进行中文分词处理,获取对应的词集合。对所有评论数据进行中文分词,去除停用词,获取分词结果。步骤3包括步骤301和302。
步骤301:调用中文分词程序分词,然后根据停用词表去除停用词,对其中包含的英文词进行形态变换,转换到统一形式。
步骤302:计算词的文档频率df、词频tf和逆向文件频率idf,设词的权值使用计算公式log(tf/(idf+1)+1)得到,然后根据设定的权值阈值进行词集筛选,提取权值大于设定的权值阈值的词,从而提取到能够体现评论特征的词集合,同时通过词集筛选后也适当地降低了词集合的维度。
步骤4:利用主题模型对步骤3得到的词集合中的词进行主题聚类,生成包含主题信息的文档主题词分布,如图3所示。每条评论为一个文档。
步骤401:对所有词建立索引,创建文档和词对应的数据文件。
步骤402:使用基于吉布斯抽样方法(Gibbs Sampling)的LDA(latent dirichlet allocation)主题模型对词进行主题聚类。LDA是一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从狄利克雷(Dirichlet)分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。
从主题模型的角度,对于一篇文档,生成包含主题信息的文档主题词分布如下:
1.设文档的长度为N,N服从Poisson(ε)分布;Poisson(ε)表示泊松分布,ε是该分布的参数;
2.选择θ,θ服从Dirichlet分布Dir(α),θ是列向量,代表的是各主题发生的概率,α是Dirichlet分布的参数;
3.对文档N个单词中的每一个单词:
a)选择主题Zi,Zi服从多项分布Multinomial(θ)。Zi代表当前选择的主题。θ是多项分布的参数;i=1,2,…,K,K表示主题的数量;
b)选择单词Wj,根据P(Wj|Zi;βi,j),得到在Zi条件下的多项分布。P(Wj|Zi;βi,j)表示在主题Zi下生成单词Wj的概率βi,j,n=1,2,…,N。
设β是K×W的矩阵,W表示所有文档的单词数量,β记录了某个主题条件下生成某个单词的概率。
如图5所示,T表示主题空间,设共有K个主题,D表示文档空间,设共有D个文档,Nd表示某个文档对应的词空间,T,D,Nd均表示为矩阵向量形式,各主题Z发生的概率分布为θ,各主题下生成的单词的概率分布为是一个自变量为主题和单词的函数。
在LDA主题模型中,有下面公式:
其中,w表示单词,z表示主题,P(w,z|α,β)表示给定α,β时,w和z的联合概率;θ为各主题发生的概率分布,是各主题下生成的单词的概率分布,表示给定α,β时,w、z、θ和的联合概率分布;主题k=1,2,…K,文档d=1,2,…,D;Δ表示变化量;nk表示取主题k下每个单词的概率,nk=(n.k1,n.k2,…n.kW,)T,n.ki表示取主题k下单词i的概率,i=1,2,…W,W为单词个数;nd表示取文档d中每个单词的概率,nd=(nd1.,nd2.,…ndW.,)T,ndi.表示取文档d的单词i的概率。
该模型使用吉布斯抽样方法进行参数推断。假设给定α,β,吉布斯抽样方法的流程是积出变量θ,φ,然后根据这三个变量从后验概率P(z|w,d,α,β)中抽样主题z。在抽样的每一轮过程中,根据下面公式来抽样:
P(zi|w,z-i,α,β)表示在词w、主题z-i和参数α,β的前提下抽取主题zi的概率。zi表示第i次抽取的主题,z-i表示不在第i次抽取的主题。小脚标-i表示不在第i次抽取。
其中
βw表示词w的主题分布,nk-i表示不在第i次抽取的主题k下每个单词的概率,nd-i表示不在第i次抽取的文档d中每个单词的概率,ndt.表示取文档d中单词t的概率,αt表示抽取单词t时对应的α值。w,t=1,2,…,W。
所以有
这个公式是Markov Chain Monte Carlo(MCMC)的一种实例,它可以被看作从一条马尔科夫链中抽样,最终平稳分布为后验概率的马尔科夫过程。该方法的最大优点是实现起来比较简单,只需要两个矩阵
在吉布斯抽样方法循环进行一段时间后,从θ,φ矩阵中可以计算出主题-词分布和文档-情感分布θdk。
经过主题模型聚类,生成<主题,词索引>模型。
步骤403:将生成的<主题,词索引>模型进行索引转换,转换成词本身,得到不同词属于不同主题的概率分布。
步骤5:对词集合中的所有词,使用基于深度学习(deep learning)的词聚类方法word2vec进行关键词聚类,提取和关键词语义接近的前X个关键词。本发明实施例中X取值为50。
word2vec(word to vector)是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。word2vec为计算向量词提供了一种有效的连续词袋(bag-of-words)和skip-gram架构实现,Word2vec可以计算词和词之间的距离,知道了距离,就可以对词进行聚类,而且word2vec本身也提供了聚类功能。Word2vec使用到了deep learning技术,不仅有着非常高的准确度,同时效率非常高,适合处理海量数据,根据实验,10亿数据在CPU为4核的计算机上进行词到向量的转换,时间大约在一个小时。如图6所示,为计算词“佛教”在其他词上的分布概率示例。
步骤6:进行命名实体抽取,获取评论数据中的命名实体。
步骤601:获取预处理后的评论数据。
步骤602:利用条件随机场模型对评论数据进行处理,识别其中的命名实体,本发明实施例主要包括汽车名称,人名,汽车属性名称,地域名称等命名实体。
条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。本发明方法使用条件随机场模型CRFs,该模型在命名实体识别的时候达到了很好的效果。
步骤7:根据步骤4主题聚类的聚类结果,在不同主题下构建词向量集合,计算和文档的相似度,本发明方法采用的是余弦相似度,最后取前10个作分析和比较,得出文档中命名实体的语境含义,从而消除语义岐义。
步骤701:根据主题模型聚类结果,构建不同主题下的词集合,利用上下文信息和word2vec重新计算集合中每个词的权重值。
步骤702:对于某个文档的词集合,利用上下文信息,计算词之间的互信息,同时根据位置信息对该文档词集合中词的权重值进行更新。
步骤703:根据步骤701中word2vec聚类结果和步骤702中语义分析的结果,应用到构建词集合过程中,更新词的权重。将步骤701的某个词集合和步骤702得到的词集合求并集,然后进行步骤704,利用余弦相似度计算两个文档的相似度。
步骤704:利用余弦相似度计算文档和不同主题构成的词集合的相似度,取相似度最高的前Y个主题进行结果分析,得出文档中命名实体的语境含义,从而消除语义岐义。本发明实施例中Y取值为10。经试验验证,在本发明语义岐义消除过程中,X取值50和Y取值10能取得较好的效果,可得到合理的数据量处理,以及准确的语义。
Claims (5)
1.一种基于深度学习的非监督命名实体语义消歧方法,针对某一特定领域,其特征在于,进行如下步骤:
步骤1:构建爬虫程序,在垂直网站上抓取领域内的评论数据;
步骤2:对评论数据进行预处理,包括:去重处理,根据数据长度进行清洗,去除垃圾广告,去除评论数据中的网址,去除自动评论数据;将预处理后的评论数据用于下面步骤;
步骤3:对评论数据进行中文分词,去除停用词,获取词集合;
步骤4:对词集合中的词建立索引,利用主题模型对词进行主题聚类,生成包含主题信息的文档主题词分布;
步骤5:使用基于深度学习的词聚类方法word2vec进行关键词聚类,提取和关键词语义接近的前X个关键词;X为正整数;
步骤6:使用条件随机场该模型识别评论数据中的命名实体;
步骤7:根据步骤4主题模型的聚类结果,构建不同主题下的词集合,计算文档和词集合的相似度,取相似度最高的前Y个主题作分析和比较,得出文档中命名实体的语境含义,从而消除语义岐义;Y为正整数。
2.根据权利要求1所述的非监督命名实体语义消歧方法,其特征在于,所述的步骤2,利用下面的规则集对评论数据进行预处理,去除符合规则1~3中任意一条规则的评论数据:
规则1:评论数据的长度小于5个字;
规则2:评论数据中含有特定的广告词;
规则3:基于网络特定回复模板的自动回复;
规则4:评论数据中含有网址,去除网址后再重新判断是否符合规则1~3。
3.根据权利要求1所述的非监督命名实体语义消歧方法,其特征在于,所述的步骤3获取词集合时,计算词的逆向文件频率idf和词频tf,得到词的权值log(tf/(idf+1)+1),提取权值大于设定的权值阈值的词形成词集合。
4.根据权利要求1所述的非监督命名实体语义消歧方法,其特征在于,所述的步骤5中X取值为50。
5.根据权利要求1所述的非监督命名实体语义消歧方法,其特征在于,所述的步骤7中Y取值为10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410488048.1A CN104268200A (zh) | 2013-09-22 | 2014-09-22 | 一种基于深度学习的非监督命名实体语义消歧方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310431754.8 | 2013-09-22 | ||
CN201310431754 | 2013-09-22 | ||
CN201410488048.1A CN104268200A (zh) | 2013-09-22 | 2014-09-22 | 一种基于深度学习的非监督命名实体语义消歧方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104268200A true CN104268200A (zh) | 2015-01-07 |
Family
ID=52159722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410488048.1A Pending CN104268200A (zh) | 2013-09-22 | 2014-09-22 | 一种基于深度学习的非监督命名实体语义消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104268200A (zh) |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657514A (zh) * | 2015-03-24 | 2015-05-27 | 成都知数科技有限公司 | 基于电商用户行为数据的近义词识别方法 |
CN104778161A (zh) * | 2015-04-30 | 2015-07-15 | 车智互联(北京)科技有限公司 | 基于Word2Vec和Query log抽取关键词方法 |
CN105468780A (zh) * | 2015-12-18 | 2016-04-06 | 北京理工大学 | 一种微博文本中产品名实体的规范化方法及装置 |
CN105760363A (zh) * | 2016-02-17 | 2016-07-13 | 腾讯科技(深圳)有限公司 | 文本文件的词义消歧方法及装置 |
CN105938481A (zh) * | 2016-04-07 | 2016-09-14 | 北京航空航天大学 | 一种城市多模式文本数据的异常检测方法 |
CN106156340A (zh) * | 2016-07-12 | 2016-11-23 | 浪潮(北京)电子信息产业有限公司 | 一种命名实体链接方法 |
CN106294314A (zh) * | 2016-07-19 | 2017-01-04 | 北京奇艺世纪科技有限公司 | 主题挖掘方法及装置 |
CN106294313A (zh) * | 2015-06-26 | 2017-01-04 | 微软技术许可有限责任公司 | 学习用于实体消歧的实体及单词嵌入 |
CN106383816A (zh) * | 2016-09-26 | 2017-02-08 | 大连民族大学 | 基于深度学习的中文少数民族地区地名的识别方法 |
CN106484915A (zh) * | 2016-11-03 | 2017-03-08 | 国家电网公司信息通信分公司 | 一种海量数据的清洗方法和系统 |
CN106682220A (zh) * | 2017-01-04 | 2017-05-17 | 华南理工大学 | 一种基于深度学习的在线中医文本命名实体识别方法 |
CN107122444A (zh) * | 2017-04-24 | 2017-09-01 | 北京科技大学 | 一种法律知识图谱自动构建方法 |
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN107832781A (zh) * | 2017-10-18 | 2018-03-23 | 扬州大学 | 一种面向多源数据的软件缺陷表示学习方法 |
CN108415896A (zh) * | 2017-02-09 | 2018-08-17 | 北京京东尚科信息技术有限公司 | 深度学习模型训练方法、分词方法、训练系统和分词系统 |
CN108491382A (zh) * | 2018-03-14 | 2018-09-04 | 四川大学 | 一种半监督生物医学文本语义消歧方法 |
CN108536676A (zh) * | 2018-03-28 | 2018-09-14 | 广州华多网络科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN108628906A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 短文本模板挖掘方法、装置、电子设备和可读存储介质 |
CN108717411A (zh) * | 2018-05-23 | 2018-10-30 | 安徽数据堂科技有限公司 | 一种基于大数据的调查问卷设计辅助系统 |
CN108874997A (zh) * | 2018-06-13 | 2018-11-23 | 广东外语外贸大学 | 一种面向电影评论的人名命名实体识别方法 |
CN108959461A (zh) * | 2018-06-15 | 2018-12-07 | 东南大学 | 一种基于图模型的实体链接方法 |
CN109214000A (zh) * | 2018-08-23 | 2019-01-15 | 昆明理工大学 | 一种基于主题模型词向量的神经网络柬语实体识别方法 |
CN109214007A (zh) * | 2018-09-19 | 2019-01-15 | 哈尔滨理工大学 | 一种基于卷积神经网络的汉语句子词义消岐方法 |
CN109359300A (zh) * | 2018-10-12 | 2019-02-19 | 北京大学第三医院 | 基于深度学习的医学文献中关键词筛选方法及装置 |
CN109540160A (zh) * | 2018-10-18 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 一种基于语音交互的最佳路径分析方法及相关设备 |
CN109558494A (zh) * | 2018-10-29 | 2019-04-02 | 中国科学院计算机网络信息中心 | 一种基于异质网络嵌入的学者名字消歧方法 |
CN109840324A (zh) * | 2019-01-09 | 2019-06-04 | 武汉大学 | 一种语义强化主题模型及主题演化分析方法 |
CN109902298A (zh) * | 2019-02-13 | 2019-06-18 | 东北师范大学 | 一种自适应学习系统中领域知识建模及知识水平估测方法 |
CN109977414A (zh) * | 2019-04-01 | 2019-07-05 | 中科天玑数据科技股份有限公司 | 一种互联网金融平台用户评论主题分析系统及方法 |
CN110020438A (zh) * | 2019-04-15 | 2019-07-16 | 上海冰鉴信息科技有限公司 | 基于序列识别的企业或组织中文名称实体消歧方法和装置 |
CN110083817A (zh) * | 2018-01-25 | 2019-08-02 | 华为技术有限公司 | 一种命名排歧方法、装置、计算机可读存储介质 |
CN110209830A (zh) * | 2018-02-12 | 2019-09-06 | 株式会社理光 | 实体链接方法、装置、设备、计算机可读存储介质 |
CN110348001A (zh) * | 2018-04-04 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 一种词向量训练方法和服务器 |
CN110399606A (zh) * | 2018-12-06 | 2019-11-01 | 国网信息通信产业集团有限公司 | 一种无监督电力文档主题生成方法及系统 |
CN110650156A (zh) * | 2019-10-23 | 2020-01-03 | 北京天融信网络安全技术有限公司 | 网络实体的关系聚类方法、装置及网络事件的识别方法 |
CN111241837A (zh) * | 2020-01-04 | 2020-06-05 | 大连理工大学 | 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法 |
CN111368532A (zh) * | 2020-03-18 | 2020-07-03 | 昆明理工大学 | 一种基于lda的主题词嵌入消歧方法及系统 |
WO2020215694A1 (zh) * | 2019-04-22 | 2020-10-29 | 平安科技(深圳)有限公司 | 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备 |
CN111966780A (zh) * | 2019-05-20 | 2020-11-20 | 天津科技大学 | 一种基于词向量建模和信息检索的回顾性队列选择方法及装置 |
CN111967263A (zh) * | 2020-07-30 | 2020-11-20 | 北京明略软件系统有限公司 | 一种基于实体话题关联度的领域命名实体去噪方法及系统 |
CN112699240A (zh) * | 2020-12-31 | 2021-04-23 | 荆门汇易佳信息科技有限公司 | 中文情感特征词智能动态发掘和归类方法 |
US11068554B2 (en) | 2019-04-19 | 2021-07-20 | Microsoft Technology Licensing, Llc | Unsupervised entity and intent identification for improved search query relevance |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120166438A1 (en) * | 2010-12-23 | 2012-06-28 | Yahoo! Inc. | System and method for recommending queries related to trending topics based on a received query |
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
CN103177126A (zh) * | 2013-04-18 | 2013-06-26 | 中国科学院计算技术研究所 | 用于搜索引擎的色情用户查询识别方法及设备 |
-
2014
- 2014-09-22 CN CN201410488048.1A patent/CN104268200A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120166438A1 (en) * | 2010-12-23 | 2012-06-28 | Yahoo! Inc. | System and method for recommending queries related to trending topics based on a received query |
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
CN103177126A (zh) * | 2013-04-18 | 2013-06-26 | 中国科学院计算技术研究所 | 用于搜索引擎的色情用户查询识别方法及设备 |
Non-Patent Citations (3)
Title |
---|
RITTER A,ET AL.: "Named Entity Recognition in Tweets: an experimental study", 《PROCEEDING OF THE 2011 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 * |
崔凯: "基于LDA的主题演化研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王英帅等: "一种基于LDA和上下文摘要的Web人名消歧方法", 《计算机应用与软件》 * |
Cited By (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657514A (zh) * | 2015-03-24 | 2015-05-27 | 成都知数科技有限公司 | 基于电商用户行为数据的近义词识别方法 |
CN104657514B (zh) * | 2015-03-24 | 2018-05-25 | 成都知数科技有限公司 | 基于电商用户行为数据的近义词识别方法 |
CN104778161B (zh) * | 2015-04-30 | 2017-07-07 | 车智互联(北京)科技有限公司 | 基于Word2Vec和Query log抽取关键词方法 |
CN104778161A (zh) * | 2015-04-30 | 2015-07-15 | 车智互联(北京)科技有限公司 | 基于Word2Vec和Query log抽取关键词方法 |
CN106294313A (zh) * | 2015-06-26 | 2017-01-04 | 微软技术许可有限责任公司 | 学习用于实体消歧的实体及单词嵌入 |
CN105468780A (zh) * | 2015-12-18 | 2016-04-06 | 北京理工大学 | 一种微博文本中产品名实体的规范化方法及装置 |
CN105468780B (zh) * | 2015-12-18 | 2019-01-29 | 北京理工大学 | 一种微博文本中产品名实体的规范化方法及装置 |
CN105760363A (zh) * | 2016-02-17 | 2016-07-13 | 腾讯科技(深圳)有限公司 | 文本文件的词义消歧方法及装置 |
CN105938481A (zh) * | 2016-04-07 | 2016-09-14 | 北京航空航天大学 | 一种城市多模式文本数据的异常检测方法 |
CN106156340A (zh) * | 2016-07-12 | 2016-11-23 | 浪潮(北京)电子信息产业有限公司 | 一种命名实体链接方法 |
CN106294314A (zh) * | 2016-07-19 | 2017-01-04 | 北京奇艺世纪科技有限公司 | 主题挖掘方法及装置 |
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN106383816A (zh) * | 2016-09-26 | 2017-02-08 | 大连民族大学 | 基于深度学习的中文少数民族地区地名的识别方法 |
CN106383816B (zh) * | 2016-09-26 | 2018-11-30 | 大连民族大学 | 基于深度学习的中文少数民族地区地名的识别方法 |
CN106484915A (zh) * | 2016-11-03 | 2017-03-08 | 国家电网公司信息通信分公司 | 一种海量数据的清洗方法和系统 |
CN106682220A (zh) * | 2017-01-04 | 2017-05-17 | 华南理工大学 | 一种基于深度学习的在线中医文本命名实体识别方法 |
CN108415896B (zh) * | 2017-02-09 | 2022-03-04 | 北京京东尚科信息技术有限公司 | 深度学习模型训练方法、分词方法、训练系统和分词系统 |
CN108415896A (zh) * | 2017-02-09 | 2018-08-17 | 北京京东尚科信息技术有限公司 | 深度学习模型训练方法、分词方法、训练系统和分词系统 |
CN108628906B (zh) * | 2017-03-24 | 2021-01-26 | 北京京东尚科信息技术有限公司 | 短文本模板挖掘方法、装置、电子设备和可读存储介质 |
CN108628906A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 短文本模板挖掘方法、装置、电子设备和可读存储介质 |
CN107122444A (zh) * | 2017-04-24 | 2017-09-01 | 北京科技大学 | 一种法律知识图谱自动构建方法 |
CN107832781B (zh) * | 2017-10-18 | 2021-09-14 | 扬州大学 | 一种面向多源数据的软件缺陷表示学习方法 |
CN107832781A (zh) * | 2017-10-18 | 2018-03-23 | 扬州大学 | 一种面向多源数据的软件缺陷表示学习方法 |
CN110083817A (zh) * | 2018-01-25 | 2019-08-02 | 华为技术有限公司 | 一种命名排歧方法、装置、计算机可读存储介质 |
CN110083817B (zh) * | 2018-01-25 | 2023-09-12 | 华为技术有限公司 | 一种命名排歧方法、装置、计算机可读存储介质 |
CN110209830B (zh) * | 2018-02-12 | 2023-06-06 | 株式会社理光 | 实体链接方法、装置、设备、计算机可读存储介质 |
CN110209830A (zh) * | 2018-02-12 | 2019-09-06 | 株式会社理光 | 实体链接方法、装置、设备、计算机可读存储介质 |
CN108491382A (zh) * | 2018-03-14 | 2018-09-04 | 四川大学 | 一种半监督生物医学文本语义消歧方法 |
CN108536676A (zh) * | 2018-03-28 | 2018-09-14 | 广州华多网络科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN108536676B (zh) * | 2018-03-28 | 2020-10-13 | 广州华多网络科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN110348001A (zh) * | 2018-04-04 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 一种词向量训练方法和服务器 |
CN110348001B (zh) * | 2018-04-04 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 一种词向量训练方法和服务器 |
CN108717411A (zh) * | 2018-05-23 | 2018-10-30 | 安徽数据堂科技有限公司 | 一种基于大数据的调查问卷设计辅助系统 |
CN108717411B (zh) * | 2018-05-23 | 2022-04-08 | 安徽数据堂科技有限公司 | 一种基于大数据的调查问卷设计辅助系统 |
CN108874997A (zh) * | 2018-06-13 | 2018-11-23 | 广东外语外贸大学 | 一种面向电影评论的人名命名实体识别方法 |
CN108959461A (zh) * | 2018-06-15 | 2018-12-07 | 东南大学 | 一种基于图模型的实体链接方法 |
CN108959461B (zh) * | 2018-06-15 | 2021-07-27 | 东南大学 | 一种基于图模型的实体链接方法 |
CN109214000A (zh) * | 2018-08-23 | 2019-01-15 | 昆明理工大学 | 一种基于主题模型词向量的神经网络柬语实体识别方法 |
CN109214007A (zh) * | 2018-09-19 | 2019-01-15 | 哈尔滨理工大学 | 一种基于卷积神经网络的汉语句子词义消岐方法 |
WO2020074017A1 (zh) * | 2018-10-12 | 2020-04-16 | 北京大学第三医院 | 基于深度学习的医学文献中关键词筛选方法及装置 |
CN109359300A (zh) * | 2018-10-12 | 2019-02-19 | 北京大学第三医院 | 基于深度学习的医学文献中关键词筛选方法及装置 |
CN109540160A (zh) * | 2018-10-18 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 一种基于语音交互的最佳路径分析方法及相关设备 |
CN109558494A (zh) * | 2018-10-29 | 2019-04-02 | 中国科学院计算机网络信息中心 | 一种基于异质网络嵌入的学者名字消歧方法 |
CN110399606B (zh) * | 2018-12-06 | 2023-04-07 | 国网信息通信产业集团有限公司 | 一种无监督电力文档主题生成方法及系统 |
CN110399606A (zh) * | 2018-12-06 | 2019-11-01 | 国网信息通信产业集团有限公司 | 一种无监督电力文档主题生成方法及系统 |
CN109840324B (zh) * | 2019-01-09 | 2023-03-24 | 武汉大学 | 一种语义强化主题模型构建方法及主题演化分析方法 |
CN109840324A (zh) * | 2019-01-09 | 2019-06-04 | 武汉大学 | 一种语义强化主题模型及主题演化分析方法 |
CN109902298B (zh) * | 2019-02-13 | 2023-04-18 | 东北师范大学 | 一种自适应学习系统中领域知识建模及知识水平估测方法 |
CN109902298A (zh) * | 2019-02-13 | 2019-06-18 | 东北师范大学 | 一种自适应学习系统中领域知识建模及知识水平估测方法 |
CN109977414A (zh) * | 2019-04-01 | 2019-07-05 | 中科天玑数据科技股份有限公司 | 一种互联网金融平台用户评论主题分析系统及方法 |
CN109977414B (zh) * | 2019-04-01 | 2023-03-14 | 中科天玑数据科技股份有限公司 | 一种互联网金融平台用户评论主题分析系统及方法 |
CN110020438A (zh) * | 2019-04-15 | 2019-07-16 | 上海冰鉴信息科技有限公司 | 基于序列识别的企业或组织中文名称实体消歧方法和装置 |
CN110020438B (zh) * | 2019-04-15 | 2020-12-08 | 上海冰鉴信息科技有限公司 | 基于序列识别的企业或组织中文名称实体消歧方法和装置 |
US11960554B2 (en) | 2019-04-19 | 2024-04-16 | Microsoft Technology Licensing, Llc | Unsupervised entity and intent identification for improved search query relevance |
US11068554B2 (en) | 2019-04-19 | 2021-07-20 | Microsoft Technology Licensing, Llc | Unsupervised entity and intent identification for improved search query relevance |
WO2020215694A1 (zh) * | 2019-04-22 | 2020-10-29 | 平安科技(深圳)有限公司 | 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备 |
CN111966780A (zh) * | 2019-05-20 | 2020-11-20 | 天津科技大学 | 一种基于词向量建模和信息检索的回顾性队列选择方法及装置 |
CN110650156A (zh) * | 2019-10-23 | 2020-01-03 | 北京天融信网络安全技术有限公司 | 网络实体的关系聚类方法、装置及网络事件的识别方法 |
CN110650156B (zh) * | 2019-10-23 | 2021-12-31 | 北京天融信网络安全技术有限公司 | 网络实体的关系聚类方法、装置及网络事件的识别方法 |
CN111241837B (zh) * | 2020-01-04 | 2022-09-20 | 大连理工大学 | 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法 |
CN111241837A (zh) * | 2020-01-04 | 2020-06-05 | 大连理工大学 | 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法 |
CN111368532B (zh) * | 2020-03-18 | 2022-12-09 | 昆明理工大学 | 一种基于lda的主题词嵌入消歧方法及系统 |
CN111368532A (zh) * | 2020-03-18 | 2020-07-03 | 昆明理工大学 | 一种基于lda的主题词嵌入消歧方法及系统 |
CN111967263A (zh) * | 2020-07-30 | 2020-11-20 | 北京明略软件系统有限公司 | 一种基于实体话题关联度的领域命名实体去噪方法及系统 |
CN111967263B (zh) * | 2020-07-30 | 2024-08-23 | 北京明略软件系统有限公司 | 一种基于实体话题关联度的领域命名实体去噪方法及系统 |
CN112699240A (zh) * | 2020-12-31 | 2021-04-23 | 荆门汇易佳信息科技有限公司 | 中文情感特征词智能动态发掘和归类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104268200A (zh) | 一种基于深度学习的非监督命名实体语义消歧方法 | |
CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
Wu et al. | Towards building a high-quality microblog-specific Chinese sentiment lexicon | |
Kamal et al. | Cat-bigru: Convolution and attention with bi-directional gated recurrent unit for self-deprecating sarcasm detection | |
CN103473280B (zh) | 一种网络可比语料的挖掘方法 | |
CN104199972A (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN104268197A (zh) | 一种行业评论数据细粒度情感分析方法 | |
Suleiman et al. | Comparative study of word embeddings models and their usage in Arabic language applications | |
CN105701084A (zh) | 一种基于互信息的文本分类的特征提取方法 | |
CN103294664A (zh) | 开放领域新词发现的方法及系统 | |
Murshed et al. | Enhancing big social media data quality for use in short-text topic modeling | |
Çakir et al. | Text mining analysis in Turkish language using big data tools | |
Abujar et al. | An approach for bengali text summarization using word2vector | |
CN101957812A (zh) | 基于事件本体的动词语义信息提取方法 | |
Singh et al. | Sentiment analysis using lexicon based approach | |
Ay et al. | Turkish abstractive text document summarization using text to text transfer transformer | |
Jia et al. | A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth | |
Jindal et al. | U-struct: A framework for conversion of unstructured text documents into structured form | |
Deshmukh et al. | Sentiment analysis of Marathi language | |
Putra et al. | Sentence boundary disambiguation for Indonesian language | |
Tawong et al. | Economic news using LSTM and GRU models for text summarization in deep learning | |
Hajjem et al. | Building comparable corpora from social networks | |
Wu et al. | ParsingPhrase: parsing-based automated quality phrase mining | |
CN111753540A (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150107 |
|
RJ01 | Rejection of invention patent application after publication |