[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN107885719B - 基于人工智能的词汇类别挖掘方法、装置及存储介质 - Google Patents

基于人工智能的词汇类别挖掘方法、装置及存储介质 Download PDF

Info

Publication number
CN107885719B
CN107885719B CN201710854428.6A CN201710854428A CN107885719B CN 107885719 B CN107885719 B CN 107885719B CN 201710854428 A CN201710854428 A CN 201710854428A CN 107885719 B CN107885719 B CN 107885719B
Authority
CN
China
Prior art keywords
vocabulary
category
sentence
subject
main
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710854428.6A
Other languages
English (en)
Other versions
CN107885719A (zh
Inventor
赵岷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710854428.6A priority Critical patent/CN107885719B/zh
Publication of CN107885719A publication Critical patent/CN107885719A/zh
Application granted granted Critical
Publication of CN107885719B publication Critical patent/CN107885719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于人工智能的词汇类别挖掘方法、装置及存储介质,其中方法包括:从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立词汇与其所在主语句之间的对应关系;从挖掘出的主语句中筛选出主语描述句,主语描述句为能够体现其对应的词汇所属类别的主语句;针对每个词汇,分别通过对词汇对应的主语描述句进行分析,确定出词汇所属的类别。应用本发明所述方案,能够节省人力成本,提高挖掘效率,并具有普遍适用性。

Description

基于人工智能的词汇类别挖掘方法、装置及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及基于人工智能的词汇类别挖掘方法、装置及存储介质。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
随着人工智能的发展,文本理解技术变得越来越重要,文本理解技术中很重要的一点就是要理解文本中每个词汇的含义,其中,建立词汇的上位类别是词汇理解的基础。比如,在资讯推荐系统中,词汇类别可用于精准理解资讯主题,在对话系统中,词汇类别可用于精准理解用户意图。
相应地,则需要进行词汇类别挖掘,常用的词汇类别挖掘方式主要有以下两种:
1)文本关系抽取方式:即从显式描述了词汇关系的句子中直接抽取词汇关系,比如,可从句子“苦瓜是一种蔬菜”中抽取出词汇“苦瓜”所属的类别为“蔬菜”;
2)领域词表构建方式:即人工构建领域词汇关系,或从领域文本中挖掘领域词汇,比如,从菜谱中可以挖掘出食材、菜品类词汇。
但是,上述两种方式在实际应用中均会存在一定的问题,如对于方式1)来说,需要待挖掘语料如句子中显式地描述了词汇关系,否则该方式则不适用,即该方式具有很大的局限性,对于方式2)来说,由于需要涉及到人工操作,因此增大了人力成本,且效率低下。
【发明内容】
有鉴于此,本发明提供了基于人工智能的词汇类别挖掘方法、装置及存储介质,能够节省人力成本,提高挖掘效率,并具有普遍适用性。
具体技术方案如下:
一种基于人工智能的词汇类别挖掘方法,包括:
从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立所述词汇与其所在主语句之间的对应关系;
从挖掘出的主语句中筛选出主语描述句,所述主语描述句为能够体现其对应的词汇所属类别的主语句;
针对每个词汇,分别通过对所述词汇对应的主语描述句进行分析,确定出所述词汇所属的类别。
根据本发明一优选实施例,所述从挖掘出的主语句中筛选出主语描述句包括:
针对每个主语句,分别利用预先设定的规则集来确定出所述主语句是否为主语描述句;
或者,针对每个主语句,分别利用预先训练得到的二分类模型,确定出所述主语句是否为主语描述句。
根据本发明一优选实施例,所述针对每个词汇,分别通过对所述词汇对应的主语描述句进行分析,确定出所述词汇所属的类别包括:
针对每个词汇,分别进行以下处理:
根据所述词汇对应的主语描述句进行粗粒度分类,确定出所述词汇所属的粗粒度类别;
根据所述词汇对应的主语描述句对所述粗粒度类别进行细化,确定出所述词汇所属的细粒度类别;
所述细粒度类别为所述粗粒度类别的下位类别。
根据本发明一优选实施例,所述根据所述词汇对应的主语描述句进行粗粒度分类,确定出所述词汇所属的粗粒度类别包括:
根据所述词汇对应的主语描述句,通过预先训练得到的第一分类模型,确定出所述词汇所属的粗粒度类别。
根据本发明一优选实施例,所述根据所述词汇对应的主语描述句对所述粗粒度类别进行细化,确定出所述词汇所属的细粒度类别包括:
利用所述粗粒度类别的下位类别构成一个集合A;
确定所述词汇对应的主语描述句中是否包含所述集合A中的类别名称;
如果是,则利用文本关系抽取方式,从所述词汇对应的主语描述句中抽取出所述词汇所属的细粒度类别;
如果否,则根据所述词汇对应的主语描述句,通过预先训练得到的第二分类模型,确定出所述词汇所属的细粒度类别。
一种基于人工智能的词汇类别挖掘装置,包括:获取单元、筛选单元以及分类单元;
所述获取单元,用于从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立所述词汇与其所在主语句之间的对应关系;
所述筛选单元,用于从挖掘出的主语句中筛选出主语描述句,所述主语描述句为能够体现其对应的词汇所属类别的主语句;
所述分类单元,用于针对每个词汇,分别通过对所述词汇对应的主语描述句进行分析,确定出所述词汇所属的类别。
根据本发明一优选实施例,
所述筛选单元针对每个主语句,分别利用预先设定的规则集来确定出所述主语句是否为主语描述句;
或者,所述筛选单元针对每个主语句,分别利用预先训练得到的二分类模型,确定出所述主语句是否为主语描述句。
根据本发明一优选实施例,所述分类单元中包括:第一分类子单元以及第二分类子单元;
所述第一分类子单元,用于针对每个词汇,分别根据所述词汇对应的主语描述句进行粗粒度分类,确定出所述词汇所属的粗粒度类别;
所述第二分类子单元,用于针对每个词汇,分别在所述粗粒度分类的基础上,根据所述词汇对应的主语描述句对所述粗粒度类别进行细化,确定出所述词汇所属的细粒度类别;
所述细粒度类别为所述粗粒度类别的下位类别。
根据本发明一优选实施例,所述第一分类子单元根据所述词汇对应的主语描述句,通过预先训练得到的第一分类模型,确定出所述词汇所属的粗粒度类别。
根据本发明一优选实施例,所述第二分类子单元利用所述粗粒度类别的下位类别构成一个集合A,确定所述词汇对应的主语描述句中是否包含所述集合A中的类别名称,如果是,则利用文本关系抽取方式,从所述词汇对应的主语描述句中抽取出所述词汇所属的细粒度类别,如果否,则根据所述词汇对应的主语描述句,通过预先训练得到的第二分类模型,确定出所述词汇所属的细粒度类别。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可首先从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立词汇与其所在主语句之间的对应关系,之后可进一步从挖掘出的主语句中筛选出主语描述句,进而针对每个词汇,分别通过对其对应的主语描述句进行分析,确定出词汇所属的类别,相比于现有技术,本发明所述方案中无需涉及人工操作,从而节省了人力成本,并提高了挖掘效率,而且不再局限于从显式地描述了词汇关系的待挖掘语料中进行词汇类别挖掘,具有普遍适用性。
【附图说明】
图1为本发明所述基于人工智能的词汇类别挖掘方法第一实施例的流程图。
图2为本发明所述基于人工智能的词汇类别挖掘方法第二实施例的流程图。
图3为本发明所述通用类别体系的示意图。
图4为本发明所述基于人工智能的词汇类别挖掘装置实施例的组成结构示意图。
图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
针对现有技术中存在的问题,本发明中提出一种通用高效的词汇类别挖掘方式,首先获取与词汇相关的主语描述句,然后通过对主语描述句进行分析等,确定出词汇所属的类别,即确定出词汇的上位类别。
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述基于人工智能的词汇类别挖掘方法第一实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立词汇与其所在主语句之间的对应关系。
在102中,从挖掘出的主语句中筛选出主语描述句,主语描述句为能够体现其对应的词汇所属类别的主语句。
在103中,针对每个词汇,分别通过对词汇对应的主语描述句进行分析,确定出词汇所属的类别。
可以看出,为实现上述实施例所述方案,需要首先进行待挖掘语料的获取,待挖掘语料的来源可包括百科文本、文档资料、新闻资讯、可信网页等等。
原则上任意文本资源均可使用,但为了保障后续挖掘结果的准确性,可尽量采用可信度比较高的文本资源,或者是任务相关的语料如对话语料等。
在获取到待挖掘语料之后,可对其进行一系列处理,从而从中挖掘出主语句。
如可先将待挖掘语料中的文本等处理为句子,之后分别对每个句子进行句法分析,从中抽取出包含主语的句子,将抽取出的句子作为主语句,并将每个主语句中的主语分别作为一个词汇,建立词汇与其所在主语句之间的对应关系。
之后,可从挖掘出的主语句中进一步筛选出主语描述句,主语描述句为能够体现其对应的词汇所属类别的主语句。
以主语a为例,主语描述句是对主语a的一句话描述,可以通过这个句子(不依赖外部信息)判定出主语a所属的类别,主语描述句既可以是对主语a的显式定义句,如,“a是一个演员”,也可以不是显式定义句,如,“a主演了**电影”,只要基于常识能够从中推断出主语a的类别即可。
在筛选出主语描述句之后,可针对每个词汇,分别通过对词汇对应的主语描述句进行分析,确定出词汇所属的类别。
较佳地,针对每个词汇,可首先根据词汇对应的主语描述句进行粗粒度分类,确定出词汇所属的粗粒度类别,之后,可根据词汇对应的主语描述句对确定出的粗粒度类别进行细化,进一步确定出词汇所属的细粒度类别,细粒度类别为粗粒度类别的下位类别。
比如,粗粒度类别可为“人物”,细粒度类别可为“演员”、“歌手”等,“演员”、“歌手”均为“人物”的下位类别。
基于上述介绍,图2为本发明所述基于人工智能的词汇类别挖掘方法第二实施例的流程图。如图2所示,包括以下具体实现方式。
在201中,获取待挖掘语料。
待挖掘语料的来源可包括百科文本、文档资料、新闻资讯、可信网页等等。
原则上任意文本资源均可使用,但为了保障后续挖掘结果的准确性,可尽量采用可信度比较高的文本资源,或者是任务相关的语料如对话语料等。
在202中,从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立词汇与其所在主语句之间的对应关系。
如可先将待挖掘语料中的文本等处理为句子,之后分别对每个句子进行句法分析,从中抽取出包含主语的句子,将抽取出的句子作为主语句。
本实施例中所述的主语句通常为只包含一个主语的主语句。
并且,可将每个主语句中的主语分别作为一个词汇,建立词汇与其所在主语句之间的对应关系。
比如,针对每个词汇,可分别生成一个<词汇,主语句,来源>的三元组。
在203中,从挖掘出的主语句中筛选出主语描述句。
如前所述,主语描述句为能够体现其对应的词汇所属类别的主语句。
对于每个<词汇,主语句,来源>的三元组,分别确定其中的主语句是否为对应词汇的一个主语描述句,以区分普通陈述句与蕴含主语归类关系的主语描述句。
具体地,针对每个主语句,可分别利用预先设定的规则集来确定出该主语句是否为主语描述句。
规则集中可预先定义好符合哪种句法规则的主语句为主语描述句,或包含哪些内容要素的主语句为主语描述句等。
或者,针对每个主语句,也可分别利用预先训练得到的二分类模型(二分类的文本分类模型),确定出该主语句是否为主语描述句。
二分类模型可通过训练样本训练得到,训练完成之后,将主语句输入给二分类模型,即可得到输出的分类结果,分类结果包括是主语描述句以及不是主语描述句,如何训练得到二分类模型为现有技术。
在204中,针对每个词汇,分别根据词汇对应的主语描述句进行粗粒度分类,确定出词汇所属的粗粒度类别。
可预先构建一个通用类别体系,如图3所示,图3为本发明所述通用类别体系的示意图,可以看出,这是一个有向无环图结构的类别层次网络,网络中的每个节点分别为一个类别,节点间的边表示类别上下位关系,如图3所示,“演员”和“歌手”分别为“人物”的下位类别,“人物”为“事物”的下位类别。
对主语描述句进行粗粒度分类,分类方法可使用有监督分类模型,为降低训练样本构建难度,分类类别可为通用类别体系中的上层类别,比如,粗粒度类别可为“人物”这一层类别。
相应地,针对每个词汇,可分别根据词汇对应的主语描述句,通过预先训练得到的第一分类模型,确定出词汇所属的粗粒度类别。
第一分类模型可为常用的文本分类模型,比如支持向量机模型、卷积神经网络模型等,如何训练得到第一分类模型为现有技术。
通过上述处理,针对每个词汇,可分别得到如下四元组<词汇,主语描述句,来源,类别>。
在205中,针对每个词汇,分别根据词汇对应的主语描述句对确定出的词汇所属的粗粒度类别进行细化,确定出词汇所属的细粒度类别。
在确定出词汇所属的粗粒度类别之后,还需要进一步对其进行细化,从而确定出词汇所属的细粒度类别,细粒度类别来自于通用类别体系中词汇所属的粗粒度类别的下位类别构成的集合,以保证细化结果的准确性等。
另外,在根据词汇对应的主语描述句对确定出的粗粒度类别进行细化,以确定出词汇所属的细粒度类别时,可根据词汇对应的主语描述句中包含的内容的不同,采用不同的处理方式。
比如,当主语描述句中包含上述集合中的类别名称时,可采用显示关系抽取方法来确定出词汇所属的细粒度类别,当主语描述句中未包含上述集合中的类别名称时,可采用隐式关系判别方法来确定出词汇所属的细粒度类别。
基于上述介绍,针对每个词汇,可分别进行以下处理:
利用词汇所属的粗粒度类别的下位类别构成一个集合A;
确定词汇对应的主语描述句中是否包含集合A中的类别名称;
如果是,则采用显示关系抽取方法来确定出词汇所属的细粒度类别,如可利用现有的文本关系抽取方式,从词汇对应的主语描述句中抽取出词汇所属的细粒度类别;
如果否,则采用隐式关系判别方法来确定出词汇所属的细粒度类别,如可根据词汇对应的主语描述句,通过预先训练得到的第二分类模型,确定出词汇所属的细粒度类别。
比如,词汇所属的粗粒度类别为“人物”,那么词汇所属的粗粒度类别的下位类别构成的集合A中则包括“演员”、“歌手”等。
假设主语描述句为“S是一名演员”,其中直接包含集合A中的类别名称“演员”,那么则可采用显示关系抽取方法来确定出词汇S所属的细粒度类别“演员”。
假设主语描述句为“S主演了**电影“,其中不直接包含集合A中的类别名称,那么则可采用隐式关系判别方法来确定出词汇S所属的细粒度类别“演员”。
第二分类模型可为常用的文本分类模型,如卷积神经网络模型等,如何训练得到第二分类模型为现有技术。
通过上述方式,可分别获取到每个词汇所属的细粒度类别。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
总之,采用上述各方法实施例所述方案,可首先从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立词汇与其所在主语句之间的对应关系,之后可进一步从挖掘出的主语句中筛选出主语描述句,进而针对每个词汇,分别通过对词汇对应的主语描述句进行分析,确定出词汇所属的类别,相比于现有技术,上述各方法实施例所述方案中无需人工进行领域词表构建等,从而节省了人力成本,并提高了挖掘效率,而且不再局限于从显式地描述了词汇关系的待挖掘语料中进行词汇类别挖掘,具有普遍适用性。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图4为本发明所述基于人工智能的词汇类别挖掘装置实施例的组成结构示意图。如图4所示,包括:获取单元401、筛选单元402以及分类单元403。
获取单元401,用于从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立词汇与其所在主语句之间的对应关系。
筛选单元402,用于从挖掘出的主语句中筛选出主语描述句,主语描述句为能够体现其对应的词汇所属类别的主语句。
分类单元403,用于针对每个词汇,分别通过对词汇对应的主语描述句进行分析,确定出词汇所属的类别。
可以看出,为实现本实施例所述方案,获取单元401需要首先进行待挖掘语料的获取,待挖掘语料的来源可包括百科文本、文档资料、新闻资讯、可信网页等等。
原则上任意文本资源均可使用,但为了保障后续挖掘结果的准确性,可尽量采用可信度比较高的文本资源,或者是任务相关的语料如对话语料等。
在获取到待挖掘语料之后,获取单元401可对其进行一系列处理,从而从中挖掘出主语句。
如获取单元401可先将待挖掘语料中的文本等处理为句子,之后分别对每个句子进行句法分析,从中抽取出包含主语的句子,将抽取出的句子作为主语句,并将每个主语句中的主语分别作为一个词汇,建立词汇与其所在主语句之间的对应关系。
之后,筛选单元402可从挖掘出的主语句中进一步筛选出主语描述句,主语描述句为能够体现其对应的词汇所属类别的主语句。
以主语a为例,主语描述句是对主语a的一句话描述,可以通过这个句子(不依赖外部信息)判定出主语a所属的类别,主语描述句既可以是对主语a的显式定义句,如,“a是一个演员”,也可以不是显式定义句,如,“a主演了**电影”,只要基于常识能够从中推断出主语a的类别即可。
具体地,筛选单元402可针对每个主语句,分别利用预先设定的规则集来确定出主语句是否为主语描述句,或者,针对每个主语句,分别利用预先训练得到的二分类模型,确定出主语句是否为主语描述句。
在筛选出主语描述句之后,分类单元403可针对每个词汇,分别通过对词汇对应的主语描述句进行分析,确定出词汇所属的类别。
较佳地,针对每个词汇,分类单元403可首先根据词汇对应的主语描述句进行粗粒度分类,确定出词汇所属的粗粒度类别,之后,可根据词汇对应的主语描述句对确定出的粗粒度类别进行细化,进一步确定出词汇所属的细粒度类别,细粒度类别为粗粒度类别的下位类别。
相应地,如图4所示,分类单元403中可进一步包括:第一分类子单元4031以及第二分类子单元4032。
第一分类子单元4031,用于针对每个词汇,分别根据词汇对应的主语描述句进行粗粒度分类,确定出词汇所属的粗粒度类别。
第二分类子单元4032,用于针对每个词汇,分别在粗粒度分类的基础上,根据词汇对应的主语描述句对粗粒度类别进行细化,确定出词汇所属的细粒度类别。
具体地,第一分类子单元4031可根据词汇对应的主语描述句,通过预先训练得到的第一分类模型,确定出词汇所属的粗粒度类别。
第一分类模型可为常用的文本分类模型,比如支持向量机模型、卷积神经网络模型等。
在确定出词汇所属的粗粒度类别之后,还需要进一步对其进行细化,从而确定出词汇所属的细粒度类别,细粒度类别来自于词汇所属的粗粒度类别的下位类别构成的集合,以保证细化结果的准确性等。
另外,在根据词汇对应的主语描述句对确定出的粗粒度类别进行细化,以确定出词汇所属的细粒度类别时,可根据词汇对应的主语描述句中包含的内容的不同,采用不同的处理方式。
比如,当主语描述句中包含上述集合中的类别名称时,可采用显示关系抽取方法来确定出词汇所属的细粒度类别,当主语描述句中未包含上述集合中的类别名称时,可采用隐式关系判别方法来确定出词汇所属的细粒度类别。
为此,第二分类子单元4032可针对每个词汇,分别进行以下处理:
利用词汇所属的粗粒度类别的下位类别构成一个集合A;
确定词汇对应的主语描述句中是否包含集合A中的类别名称;
如果是,则采用显示关系抽取方法来确定出词汇所属的细粒度类别,如可利用现有的文本关系抽取方式,从词汇对应的主语描述句中抽取出词汇所属的细粒度类别;
如果否,则采用隐式关系判别方法来确定出词汇所属的细粒度类别,如可根据词汇对应的主语描述句,通过预先训练得到的第二分类模型,确定出词汇所属的细粒度类别。
比如,词汇所属的粗粒度类别为“人物”,那么词汇所属的粗粒度类别的下位类别构成的集合A中则包括“演员”、“歌手”等。
假设主语描述句为“S是一名演员”,其中直接包含集合A中的类别名称“演员”,那么则可采用显示关系抽取方法来确定出词汇S所属的细粒度类别“演员”。
假设主语描述句为“S主演了**电影“,其中不直接包含集合A中的类别名称,那么则可采用隐式关系判别方法来确定出词汇S所属的细粒度类别“演员”。
图4所示装置实施例的具体工作流程请参照前述各方法实施例中的相关说明,不再赘述。
图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图5显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1或2所示实施例中的方法,即从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立词汇与其所在主语句之间的对应关系,从挖掘出的主语句中筛选出主语描述句,主语描述句为能够体现其对应的词汇所属类别的主语句,针对每个词汇,分别通过对词汇对应的主语描述句进行分析,确定出词汇所属的类别等。
具体实现请参照前述各实施例中的相关说明,不再赘述。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1或2所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种基于人工智能的词汇类别挖掘方法,其特征在于,包括:
从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立所述词汇与其所在主语句之间的对应关系;
从挖掘出的主语句中筛选出主语描述句,所述主语描述句为能够体现其对应的词汇所属类别的主语句;
针对每个词汇,分别通过对所述词汇对应的主语描述句进行分析,确定出所述词汇所属的类别,包括:根据预先构建的通用类别体系确定出所述词汇所属的类别,所述通用类别体系为有向无环图结构的类别层次网络,网络中的每个节点分别为一个类别,节点间的边表示类别上下位关系,所述词汇所属的类别为所述通用类别体系中的类别。
2.根据权利要求1所述的方法,其特征在于,
所述从挖掘出的主语句中筛选出主语描述句包括:
针对每个主语句,分别利用预先设定的规则集来确定出所述主语句是否为主语描述句;
或者,针对每个主语句,分别利用预先训练得到的二分类模型,确定出所述主语句是否为主语描述句。
3.根据权利要求1所述的方法,其特征在于,
所述针对每个词汇,分别通过对所述词汇对应的主语描述句进行分析,确定出所述词汇所属的类别包括:
针对每个词汇,分别进行以下处理:
根据所述词汇对应的主语描述句进行粗粒度分类,确定出所述词汇所属的粗粒度类别;
根据所述词汇对应的主语描述句对所述粗粒度类别进行细化,确定出所述词汇所属的细粒度类别;
所述细粒度类别为所述粗粒度类别的下位类别。
4.根据权利要求3所述的方法,其特征在于,
所述根据所述词汇对应的主语描述句进行粗粒度分类,确定出所述词汇所属的粗粒度类别包括:
根据所述词汇对应的主语描述句,通过预先训练得到的第一分类模型,确定出所述词汇所属的粗粒度类别。
5.根据权利要求3所述的方法,其特征在于,
所述根据所述词汇对应的主语描述句对所述粗粒度类别进行细化,确定出所述词汇所属的细粒度类别包括:
利用所述粗粒度类别的下位类别构成一个集合A;
确定所述词汇对应的主语描述句中是否包含所述集合A中的类别名称;
如果是,则利用文本关系抽取方式,从所述词汇对应的主语描述句中抽取出所述词汇所属的细粒度类别;
如果否,则根据所述词汇对应的主语描述句,通过预先训练得到的第二分类模型,确定出所述词汇所属的细粒度类别。
6.一种基于人工智能的词汇类别挖掘装置,其特征在于,包括:获取单元、筛选单元以及分类单元;
所述获取单元,用于从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立所述词汇与其所在主语句之间的对应关系;
所述筛选单元,用于从挖掘出的主语句中筛选出主语描述句,所述主语描述句为能够体现其对应的词汇所属类别的主语句;
所述分类单元,用于针对每个词汇,分别通过对所述词汇对应的主语描述句进行分析,确定出所述词汇所属的类别,包括:根据预先构建的通用类别体系确定出所述词汇所属的类别,所述通用类别体系为有向无环图结构的类别层次网络,网络中的每个节点分别为一个类别,节点间的边表示类别上下位关系,所述词汇所属的类别为所述通用类别体系中的类别。
7.根据权利要求6所述的装置,其特征在于,
所述筛选单元针对每个主语句,分别利用预先设定的规则集来确定出所述主语句是否为主语描述句;
或者,所述筛选单元针对每个主语句,分别利用预先训练得到的二分类模型,确定出所述主语句是否为主语描述句。
8.根据权利要求6所述的装置,其特征在于,
所述分类单元中包括:第一分类子单元以及第二分类子单元;
所述第一分类子单元,用于针对每个词汇,分别根据所述词汇对应的主语描述句进行粗粒度分类,确定出所述词汇所属的粗粒度类别;
所述第二分类子单元,用于针对每个词汇,分别在所述粗粒度分类的基础上,根据所述词汇对应的主语描述句对所述粗粒度类别进行细化,确定出所述词汇所属的细粒度类别;
所述细粒度类别为所述粗粒度类别的下位类别。
9.根据权利要求8所述的装置,其特征在于,
所述第一分类子单元根据所述词汇对应的主语描述句,通过预先训练得到的第一分类模型,确定出所述词汇所属的粗粒度类别。
10.根据权利要求8所述的装置,其特征在于,
所述第二分类子单元利用所述粗粒度类别的下位类别构成一个集合A,确定所述词汇对应的主语描述句中是否包含所述集合A中的类别名称,如果是,则利用文本关系抽取方式,从所述词汇对应的主语描述句中抽取出所述词汇所属的细粒度类别,如果否,则根据所述词汇对应的主语描述句,通过预先训练得到的第二分类模型,确定出所述词汇所属的细粒度类别。
11.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~5中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~5中任一项所述的方法。
CN201710854428.6A 2017-09-20 2017-09-20 基于人工智能的词汇类别挖掘方法、装置及存储介质 Active CN107885719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710854428.6A CN107885719B (zh) 2017-09-20 2017-09-20 基于人工智能的词汇类别挖掘方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710854428.6A CN107885719B (zh) 2017-09-20 2017-09-20 基于人工智能的词汇类别挖掘方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN107885719A CN107885719A (zh) 2018-04-06
CN107885719B true CN107885719B (zh) 2021-06-11

Family

ID=61780776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710854428.6A Active CN107885719B (zh) 2017-09-20 2017-09-20 基于人工智能的词汇类别挖掘方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN107885719B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287318B (zh) * 2019-06-06 2021-09-17 秒针信息技术有限公司 业务操作的检测方法及装置、存储介质、电子装置
CN110263342A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 实体的上下位关系的挖掘方法和装置、电子设备
CN110888971B (zh) * 2019-11-29 2022-05-24 支付宝(杭州)信息技术有限公司 机器人客服与用户的多轮交互方法和装置
CN112966109B (zh) * 2021-03-09 2023-04-18 北京邮电大学 一种多层级的中文文本的分类方法及其系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7970766B1 (en) * 2007-07-23 2011-06-28 Google Inc. Entity type assignment
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7970766B1 (en) * 2007-07-23 2011-06-28 Google Inc. Entity type assignment
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AFET: Automatic Fine-Grained Entity Typing by Hierarchical Partial-Label Embedding;Xiang Ren et al.;《Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing》;20161101;第1369-1378页 *

Also Published As

Publication number Publication date
CN107885719A (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
CN110287278B (zh) 评论生成方法、装置、服务器及存储介质
US11379548B2 (en) Analyzing concepts over time
CN113807098B (zh) 模型训练方法和装置、电子设备以及存储介质
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
US20180341698A1 (en) Method and apparatus for parsing query based on artificial intelligence, and storage medium
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN107885719B (zh) 基于人工智能的词汇类别挖掘方法、装置及存储介质
US9817821B2 (en) Translation and dictionary selection by context
US9619209B1 (en) Dynamic source code generation
US11157444B2 (en) Generating index entries in source files
US20170220327A1 (en) Dynamic source code generation
US20200125671A1 (en) Altering content based on machine-learned topics of interest
US20230305863A1 (en) Self-Supervised System for Learning a User Interface Language
US10360280B2 (en) Self-building smart encyclopedia
US10546063B2 (en) Processing of string inputs utilizing machine learning
Shruthi et al. A prior case study of natural language processing on different domain
CN112181429A (zh) 信息处理方法、装置以及电子设备
CN118378631B (zh) 文本审查方法、装置、设备及存储介质
US10372816B2 (en) Preprocessing of string inputs in natural language processing
KR101713612B1 (ko) 지능형 스토리텔링 지원 시스템
CN112231444A (zh) 结合rpa和ai的语料数据的处理方法、装置和电子设备
CN111368561A (zh) 平行语料获取方法、装置、电子设备、及存储介质
CN115795058A (zh) 一种威胁建模方法、系统、电子设备及存储介质
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN112052678B (zh) 一种模型训练、语料处理方法、装置以及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant