CN108573025B - 基于混合模板抽取句子分类特征的方法及装置 - Google Patents
基于混合模板抽取句子分类特征的方法及装置 Download PDFInfo
- Publication number
- CN108573025B CN108573025B CN201810201961.7A CN201810201961A CN108573025B CN 108573025 B CN108573025 B CN 108573025B CN 201810201961 A CN201810201961 A CN 201810201961A CN 108573025 B CN108573025 B CN 108573025B
- Authority
- CN
- China
- Prior art keywords
- template
- candidate
- word
- templates
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/24765—Rule-based classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于混合模板抽取句子分类特征的方法及装置,其中,该方法包括:获取预设文本;对预设文本中的每个预设句子分别进行分析处理,确定预设句子的每个词语的词语参数;根据所有词语的词语参数生成预设句子的候选模板,候选模板包括依次排列的所有词语的一项词语参数;并生成正例模板集和负例模板集;统计所有候选模板的正例次数和负例次数,并根据候选模板的正例次数和负例次数选取有效模板;根据有效模板对待测句子进行分类。该方法生成的有效模板可以是词、词性、命名实体和句法依赖关系的混合表达,可以更加充分地刻画一个句子中存在的语言规律,模板匹配能力更强,分类效果更好。
Description
技术领域
本发明涉及句子模板挖掘技术领域,特别涉及一种基于混合模板抽取句子分类特征的方法及装置。
背景技术
句子分类主要是判断一个待测的句子是什么类型,比如判断一个句子是不是疑问句。现在句子分类方法主要是基于词、或词性特征训练一个分类模型,然后对输入的待测句子应用这个分类模型,通过这个分类模型预测这个待测句子的类别。
现有方法只是基于词、或词性特征对句子进行分类,该分类方式采用的分类模型表达能力和匹配能力有限,导致分类效果受到限制。
发明内容
本发明提供一种基于混合模板抽取句子分类特征的方法及装置,用以解决句子分类方法效果不佳的缺陷。
本发明实施例提供的一种基于混合模板抽取句子分类特征的方法,包括:
获取预设文本,所述预设文本包括正例文本和负例文本;
对所述预设文本中的每个预设句子分别进行分析处理,确定所述预设句子的每个词语的词语参数,所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项;
根据所有词语的词语参数生成所述预设句子的候选模板,所述候选模板包括依次排列的所有词语的一项词语参数;根据所述正例文本中所有预设句子的候选模板生成正例模板集,根据所述负例文本中所有预设句子的候选模板生成负例模板集;
统计所有候选模板的正例次数和负例次数,并根据候选模板的正例次数和负例次数选取有效模板,所述正例次数为所述候选模板在所述正例模板集中出现的次数,所述负例次数为所述候选模板在所述负例模板集中出现的次数;
根据所述有效模板对待测句子进行分类。
在一种可能的实现方式中,所述根据候选模板的正例次数和负例次数选取有效模板,包括:
根据正例次数和负例次数确定所述候选模板的频次和置信度,所述频次为所述正例次数和所述负例次数之和,所述置信度为所述正例次数与所述负例次数的比值;
将所述频次大于预设阈值、且置信度最大的一个或多个候选模板作为选取的有效模板。
在一种可能的实现方式中,所述预设阈值为根据所述正例模板集中的模板数量和所述负例模板集中的模板数量确定的数值。
在一种可能的实现方式中,所述根据所有词语的词语参数生成所述预设句子的候选模板,包括:
选取所有词语的一项词语参数,并添加句子标记,根据所有词语的一项词语参数和所述句子标记生成所述预设句子的候选模板,所述句子标记包括开始标记和/或结束标记。
在一种可能的实现方式中,所述预设文本中每个预设句子包含的词语数量相同,且所述正例文本中每个预设句子包含的词语数量与所述负例文本中每个预设句子包含的词语数量相同。
在一种可能的实现方式中,在所述根据候选模板的正例次数和负例次数选取有效模板之后,还包括:
根据所有词语的词语参数生成所述预设句子的二级候选模板,所述二级候选模板包括依次排列的所有词语的一项或多项词语参数,且所述二级候选模板中至少包括一个词语的多项词语参数;
确定所述二级候选模板所包含的子候选模板,所述子候选模板为根据所有词语的所述二级候选模板包含的一项词语参数生成的候选模板;
当所述二级候选模板中所有的子候选模板均为有效模板时,将所述二级候选模板作为二级有效模板;并判断当前二级有效模板所包含的所有子候选模板是否是其他二级有效模板的子候选模板集的子集;若是,则删除当前二级有效模板;
将最终保留的二级有效模板作为所述预设句子最终选取的二级有效模板。
基于同样的发明构思,本发明实施例提供一种基于混合模板抽取句子分类特征的装置,包括:
获取模块,用于获取预设文本,所述预设文本包括正例文本和负例文本;
分词模块,用于对所述预设文本中的每个预设句子分别进行分析处理,确定所述预设句子的每个词语的词语参数,所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项;
生成模块,用于根据所有词语的词语参数生成所述预设句子的候选模板,所述候选模板包括依次排列的所有词语的一项词语参数;根据所述正例文本中所有预设句子的候选模板生成正例模板集,根据所述负例文本中所有预设句子的候选模板生成负例模板集;
选取模块,用于统计所有候选模板的正例次数和负例次数,并根据候选模板的正例次数和负例次数选取有效模板,所述正例次数为所述候选模板在所述正例模板集中出现的次数,所述负例次数为所述候选模板在所述负例模板集中出现的次数;
分类模块,用于根据所述有效模板对待测句子进行分类。
在一种可能的实现方式中,所述选取模块包括:
确定单元,用于根据正例次数和负例次数确定所述候选模板的频次和置信度,所述频次为所述正例次数和所述负例次数之和,所述置信度为所述正例次数与所述负例次数的比值;
选取单元,用于将所述频次大于预设阈值、且置信度最大的一个或多个候选模板作为选取的有效模板。
在一种可能的实现方式中,所述预设阈值为根据所述正例模板集中的模板数量和所述负例模板集中的模板数量确定的数值。
在一种可能的实现方式中,所述生成模块根据所有词语的词语参数生成所述预设句子的候选模板,包括:
选取所有词语的一项词语参数,并添加句子标记,根据所有词语的一项词语参数和所述句子标记生成所述预设句子的候选模板,所述句子标记包括开始标记和/或结束标记。
在一种可能的实现方式中,所述预设文本中每个预设句子包含的词语数量相同,且所述正例文本中每个预设句子包含的词语数量与所述负例文本中每个预设句子包含的词语数量相同。
在一种可能的实现方式中,该装置还包括:处理模块;
在所述选取模块根据候选模板的正例次数和负例次数选取有效模板之后,所述处理模块用于:
根据所有词语的词语参数生成所述预设句子的二级候选模板,所述二级候选模板包括依次排列的所有词语的一项或多项词语参数,且所述二级候选模板中至少包括一个词语的多项词语参数;
确定所述二级候选模板所包含的子候选模板,所述子候选模板为根据所有词语的所述二级候选模板包含的一项词语参数生成的候选模板;
当所述二级候选模板中所有的子候选模板均为有效模板时,将所述二级候选模板作为二级有效模板;并判断当前二级有效模板所包含的所有子候选模板是否是其他二级有效模板的子候选模板集的子集;若是,则删除当前二级有效模板;
将最终保留的二级有效模板作为所述预设句子最终选取的二级有效模板。
本发明实施例提供的一种基于混合模板抽取句子分类特征的方法及装置,通过确定预设句子每个词语的多项词语参数,并根据所有词语的词语参数可以生成该预设句子的多个候选模板,进而统计每一种候选模板的正例次数和负例次数,并确定可能包含多种词语参数的有效模板,进而通过该有效模板可以更加准确地对待测句子进行分类。同现有技术相比,生成的候选模板或有效模板表达能力大大增强,不仅仅兼容现有的纯字符串或者是纯词性序列的模板表达,而且还可以是词、词性、命名实体和句法依赖关系的混合表达;利用生成的有效模板可以更加充分地刻画一个句子中存在的语言规律,模板匹配能力更强,分类效果更好。通过候选模板的频次和置信度来确定该候选模板是否可以作为有效模板,可以有效选取出最能反映句子语法规律的有效模板,使得后续句子分类时分类结果更加准确。通过生成二级有效模板,可以利用句子的更多属性参数判断句子的类型;同时删除涵盖范围较小的二级有效模板,可以减少所需的二级有效模板的数量,且使得最终生成的二级有效模板能够更加全面、有效地反映句子中存在的语言规律,之后利用二级有效模板挖掘其他待测句子的语言规律时更加准确。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中基于混合模板抽取句子分类特征的方法流程图;
图2为本发明实施例中基于混合模板抽取句子分类特征的装置结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供的一种基于混合模板抽取句子分类特征的方法,参见图1所示,包括步骤101-105:
步骤101:获取预设文本,预设文本包括正例文本和负例文本。
本发明实施例中,预先选取正例文本和负例文本,每个文本中包含多行,一行对应一个句子(即预设句子)。例如,当需要选取疑问句模板时,该正例文本中可以包含多个疑问句结构的句子,而负例文本中包含多个不是疑问句的句子(比如陈述句等)。
步骤102:对预设文本中的每个预设句子分别进行分析处理,确定预设句子的每个词语的词语参数,词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项。
本发明实施例中,通过分析处理对预设文本中每个预设句子进行处理,进而确定预设句子中每个词语的词语参数。具体的,该分析处理可以为自然语言理解处理(NaturalLanguage Understanding,NLU),其包括分词处理、词性标注处理、命名实体识别和句法分析,在对预设句子进行分析处理后即可以确定每个词语的分词结果等,即可以确定预设句子分析处理后的每个词语的词语参数。同时,词性包括名词、动词、形容词、副词、介词、代词等;命名实体用于表示该分词结果的实体分类,比如“北京”的命名实体属于“地名”,当某一分词结果没有标记分类时,命名实体标记为“null”或“不是实体”。依赖关系表示分词结果在该预设句子中的语法关系,依赖关系具体包括:主语、谓语、宾语、定语、状语、补语等。例如,预设句子“北京在哪里?”分词后得到三个词语,三个词语的分词结果分别为“北京”、“在”、“哪里”,分词得到的词语参数具体如下表1所示:
表1
分词结果 | 北京 | 在 | 哪里 |
词性 | 名词 | 介词 | 代词 |
命名实体 | 地名 | 不是实体 | 不是实体 |
依赖关系 | 主语 | 谓语 | 宾语 |
步骤103:根据所有词语的词语参数生成预设句子的候选模板,候选模板包括依次排列的所有词语的一项词语参数;根据正例文本中所有预设句子的候选模板生成正例模板集,根据负例文本中所有预设句子的候选模板生成负例模板集。
本发明实施例中,当词语的词语参数包括分词结果、词性、命名实体和依赖关系时,则该词语的词语参数可以包括四项参数,即:分词结果、词性、命名实体和依赖关系。为方便说明,下面以所有词语均有上述四项词语参数为例。在生成候选模板时,选择一个词语的一项词语参数,之后再选取下一个词语的一项词语参数,不同词语可以选用相同的词语参数,也可以不同;通过选择该预设句子所有词语的一项词语参数生成该预设句子的一个候选模板,一个预设句子可以生成多个候选模板。
以上面的表1为例。对于预设句子“北京在哪里”,可以选用每个词语的分词结果作为选择的词语参数,则此时该候选模板为“北京在哪里”;若词语“北京”选用词性(即名词)、词语“在”选用分词结果(即“在”)、词语“哪里”选用依赖关系(即宾语),则此时生成的候选模板为“名字在宾语”。以表1所示,最多可以生成4×4×4=64个候选模板。
同时,本发明实施例中,一个句子可以生成多个候选模板,同时一个预设文本中包含多个句子,故对于一个预设文本所生成的所有候选模板中含有重复的模板。比如很多句子的候选模板均可能包括“主语谓语宾语”。因此,根据正例文本所有句子的候选模板生成正例模板集,根据负例文本所有句子的候选模板生成负例模板集,该正例模板集和负例模板集中均有可能存在大量的重复的候选模板。例如,正例文本中包含十个句子,每个句子都有64个候选模板,且这十个句子均是主谓宾结构,则该正例模板集包含10×64=640个候选模板,且其中包含十个相同的候选模板“主语谓语宾语”。
可选的,上述“根据所有词语的词语参数生成预设句子的候选模板”,具体包括:选取所有词语的一项词语参数,并添加句子标记,根据所有词语的一项词语参数和句子标记生成预设句子的候选模板,句子标记包括开始标记和/或结束标记。
本发明实施例中,在词语参数的基础上添加开始标记和/或结束标记,用来区分不同的候选模板。比如,“北京在代词句子结束”、“地名在哪里句子结束”、“句子开始主语在哪里”、“句子开始地名在哪里”等。
步骤104:统计所有候选模板的正例次数和负例次数,并根据候选模板的正例次数和负例次数选取有效模板,正例次数为候选模板在正例模板集中出现的次数,负例次数为候选模板在负例模板集中出现的次数。
本发明实施例中,需要统计预设文本的所有候选模板。如上所述,由于存在重复的候选模板,对于一种候选模板会有多个,则该候选模板在正例模板集中的数量为正例次数,在负例模板集中的数量为负例次数。之后根据正例次数和负例次数即可从候选模板中选取有效模板;正例次数越大,说明该候选模板越能表现该类预设句子含有的语法规律,越有可能作为有效模板。
步骤105:根据有效模板对待测句子进行分类。
本发明实施例中,在确定有效模板后,即可对待测句子进行分类,判断该待测句子是否符合与有效模板对应的类别。例如正例文本为疑问句文本,则选取的有效模板用来表示该待测句子是否为疑问句。具体的,对待测句子也按照步骤102和103中的过程确定待测句子的候选模板,若待测句子的候选模板包含该有效模板,则确定该待测句子与有效模板对应的类别相匹配。
本发明实施例提供的一种基于混合模板抽取句子分类特征的方法,通过确定预设句子每个词语的多项词语参数,并根据所有词语的词语参数可以生成该预设句子的多个候选模板,进而统计每一种候选模板的正例次数和负例次数,并确定可能包含多种词语参数的有效模板,进而通过该有效模板可以更加准确地对待测句子进行分类。同现有技术相比,生成的候选模板或有效模板表达能力大大增强,不仅仅兼容现有的纯字符串或者是纯词性序列的模板表达,而且还可以是词、词性、命名实体和句法依赖关系的混合表达;利用生成的有效模板可以更加充分地刻画一个句子中存在的语言规律,模板匹配能力更强,分类效果更好。
本发明另一实施例提供一种基于混合模板抽取句子分类特征的方法,该方法包括上述实施例中的步骤101-105,其实现原理以及技术效果参见图1对应的实施例。同时,本发明实施例中,步骤104“根据候选模板的正例次数和负例次数选取有效模板”,具体包括步骤A1-A2:
步骤A1:根据正例次数和负例次数确定候选模板的频次和置信度,频次为正例次数和负例次数之和,置信度为正例次数与负例次数的比值。
步骤A2:将频次大于预设阈值、且置信度最大的一个或多个候选模板作为选取的有效模板。
本发明实施例中根据候选模板的频次和置信度来确定该候选模板是否可以作为有效模板。若频次大于预设阈值,说明该候选模板出现的次数足够多,初步判断其可以作为有效模板。进一步的,若需要选取一个有效模板,则将置信度最大的候选模板作为有效模板;若需要选取多个有效模板,则将置信度最大的多个候选模板作为有效模板。例如,需要选取3个有效模板,按照置信度从大到小的排列顺序,候选模板的置信度分别为10、9、8.8、6……,则将置信度为10、9、8.8的三个候选模板作为三个有效模板。通过候选模板的频次和置信度来确定该候选模板是否可以作为有效模板,可以有效选取出最能反映句子语法规律的有效模板,使得后续句子分类时分类结果更加准确。
可选的,预设阈值为根据正例模板集中的模板数量和负例模板集中的模板数量确定的数值。一般可以只考虑正例模板集中的模板数量和负例模板集中的模板数量之和,即考虑所有候选模板的总数量,模板总数量越多,该预设阈值越大。或者,基于正例模板集中的模板数量以及正例模板集中的模板数量和负例模板集中的模板数量的比值确定预设阈值,正例模板集中的模板数量越大,该预设阈值越大;且正例模板集中的模板数量和负例模板集中的模板数量的比值越大,该预设阈值越大。
在上述实施例的基础上,预设文本中每个预设句子包含的词语数量相同,且正例文本中每个预设句子包含的词语数量与负例文本中每个预设句子包含的词语数量相同。
本发明实施例中,预先根据预设句子中词语的数量对正例文本和负例文本进行区分或分类,从而使得生成的候选模板和有效模板均具有相同数量的组成部分。当需要对一个待测句子进行分类时,根据该待测句子的词语数量即可以有约束地选择合适的有效模板,减少句子分类时因句子模板(有效模板)数量过多造成处理量过大且效率低下的问题。
在上述实施例的基础上,在步骤104根据候选模板的正例次数和负例次数选取有效模板之后,该方法还包括完善有效模板的过程,该过程具体包括步骤B1-B4:
步骤B1:根据所有词语的词语参数生成预设句子的二级候选模板,二级候选模板包括依次排列的所有词语的一项或多项词语参数,且二级候选模板中至少包括一个词语的多项词语参数。
本发明实施例中,为了能够更加完整地刻画预设句子包含的语法规律,根据所有词语的词语参数生成预设句子的二级候选模板,该二级候选模板中其中的一个词语至少包含了多项词语参数,且每个词语包含词语参数的项数是互不影响的,项数可以相同,也可以不同。仍然以上述表1为例,假如生成的一个二级候选模板的第一个词语包含两项词语参数:分词结果和词性,其他词语包含一项词语参数,则该二级候选模板可以是“(北京+名词)谓语代词”等。对于表1,步骤103中生成的候选模板和二级候选模板的总数量为24×24×24。可选的,为了降低计算量,该二级候选模板中的一个词语最多包含两项词语参数,这样总候选模板数量为10×10×10。
步骤B2:确定二级候选模板所包含的子候选模板,子候选模板为根据所有词语的二级候选模板包含的一项词语参数生成的候选模板。
本发明实施例中,二级候选模板实际上可以当做由多个候选模板(即子候选模板)组成,即将二维候选模板包含的多项词语参数拆分成一个词语参数即可。例如,二级候选模板“(北京+名词)谓语代词”包含两个子候选模板,分别是“北京谓语代词”和“名词谓语代词”。
步骤B3:当二级候选模板中所有的子候选模板均为有效模板时,将二级候选模板作为二级有效模板;并判断当前二级有效模板所包含的所有子候选模板是否是其他二级有效模板的子候选模板集的子集;若是,则删除当前二级有效模板。
本发明实施例中,根据耳机候选模板所包含的所有子候选模板是否为有效模板来确定二级候选模板是否有效。例如,子候选模板“北京谓语代词”和“名词谓语代词”均是有效模板,则该二级候选模板“(北京+名词)谓语代词”也为有效模板,即二级有效模板。只要二级候选模板中存在不是有效模板的子候选模板时,则舍弃该二级候选模板。可选的,可以在生成所有句子的二级候选模板后,合并并生成不含有重复二级候选模板的二级模板列表,之后依次判断该二级模板列表中的二级候选模板是否有效。
同时,二级有效模板实际是由多个子候选模板组成的集合,若其中一个二级有效模板是另一个二级有效模板的子集,则后者的二级有效模板更能反映句子的语法规律,故可以舍弃前者的二级有效模板。例如,二级有效模板A为“(北京+名词)谓语代词”,二级有效模板B为“(北京+名词)(介词+谓语)代词”,则显然二级有效模板B包含了二级有效模板A所有的子候选模板,故可以删除该二级有效模板A;当然,若有其他二级有效模板包含了二级有效模板B的所有子候选模板,则也需要删除二级有效模板B。
步骤B4:将最终保留的二级有效模板作为预设句子最终选取的二级有效模板。
本发明实施例中,通过生成二级有效模板,可以利用句子的更多属性参数判断句子的类型;同时删除涵盖范围较小的二级有效模板,可以减少所需的二级有效模板的数量,且使得最终生成的二级有效模板能够更加全面、有效地反映句子中存在的语言规律,之后利用二级有效模板挖掘其他待测句子的语言规律时更加准确。
本发明实施例提供的一种基于混合模板抽取句子分类特征的方法,通过确定预设句子每个词语的多项词语参数,并根据所有词语的词语参数可以生成该预设句子的多个候选模板,进而统计每一种候选模板的正例次数和负例次数,并确定可能包含多种词语参数的有效模板,进而通过该有效模板可以更加准确地对待测句子进行分类。同现有技术相比,生成的候选模板或有效模板表达能力大大增强,不仅仅兼容现有的纯字符串或者是纯词性序列的模板表达,而且还可以是词、词性、命名实体和句法依赖关系的混合表达;利用生成的有效模板可以更加充分地刻画一个句子中存在的语言规律,模板匹配能力更强,分类效果更好。通过候选模板的频次和置信度来确定该候选模板是否可以作为有效模板,可以有效选取出最能反映句子语法规律的有效模板,使得后续句子分类时分类结果更加准确。
以上详细介绍了基于混合模板抽取句子分类特征的方法流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供一种基于混合模板抽取句子分类特征的装置,参见图2所示,包括:
获取模块21,用于获取预设文本,所述预设文本包括正例文本和负例文本;
分词模块22,用于对所述预设文本中的每个预设句子分别进行分析处理,确定所述预设句子的每个词语的词语参数,所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项;
生成模块23,用于根据所有词语的词语参数生成所述预设句子的候选模板,所述候选模板包括依次排列的所有词语的一项词语参数;根据所述正例文本中所有预设句子的候选模板生成正例模板集,根据所述负例文本中所有预设句子的候选模板生成负例模板集;
选取模块24,用于统计所有候选模板的正例次数和负例次数,并根据候选模板的正例次数和负例次数选取有效模板,所述正例次数为所述候选模板在所述正例模板集中出现的次数,所述负例次数为所述候选模板在所述负例模板集中出现的次数;
分类模块25,用于根据所述有效模板对待测句子进行分类。
在一种可能的实现方式中,所述选取模块24包括:
确定单元,用于根据正例次数和负例次数确定所述候选模板的频次和置信度,所述频次为所述正例次数和所述负例次数之和,所述置信度为所述正例次数与所述负例次数的比值;
选取单元,用于将所述频次大于预设阈值、且置信度最大的一个或多个候选模板作为选取的有效模板。
在一种可能的实现方式中,所述预设阈值为根据所述正例模板集中的模板数量和所述负例模板集中的模板数量确定的数值。
在一种可能的实现方式中,所述生成模块23根据所有词语的词语参数生成所述预设句子的候选模板,包括:
选取所有词语的一项词语参数,并添加句子标记,根据所有词语的一项词语参数和所述句子标记生成所述预设句子的候选模板,所述句子标记包括开始标记和/或结束标记。
在一种可能的实现方式中,所述预设文本中每个预设句子包含的词语数量相同,且所述正例文本中每个预设句子包含的词语数量与所述负例文本中每个预设句子包含的词语数量相同。
在一种可能的实现方式中,该装置还包括:处理模块;
在所述选取模块24根据候选模板的正例次数和负例次数选取有效模板之后,所述处理模块用于:
根据所有词语的词语参数生成所述预设句子的二级候选模板,所述二级候选模板包括依次排列的所有词语的一项或多项词语参数,且所述二级候选模板中至少包括一个词语的多项词语参数;
确定所述二级候选模板所包含的子候选模板,所述子候选模板为根据所有词语的所述二级候选模板包含的一项词语参数生成的候选模板;
当所述二级候选模板中所有的子候选模板均为有效模板时,将所述二级候选模板作为二级有效模板;并判断当前二级有效模板所包含的所有子候选模板是否是其他二级有效模板的子候选模板集的子集;若是,则删除当前二级有效模板;
将最终保留的二级有效模板作为所述预设句子最终选取的二级有效模板。
本发明实施例提供的一种基于混合模板抽取句子分类特征的装置,通过确定预设句子每个词语的多项词语参数,并根据所有词语的词语参数可以生成该预设句子的多个候选模板,进而统计每一种候选模板的正例次数和负例次数,并确定可能包含多种词语参数的有效模板,进而通过该有效模板可以更加准确地对待测句子进行分类。同现有技术相比,生成的候选模板或有效模板表达能力大大增强,不仅仅兼容现有的纯字符串或者是纯词性序列的模板表达,而且还可以是词、词性、命名实体和句法依赖关系的混合表达;利用生成的有效模板可以更加充分地刻画一个句子中存在的语言规律,模板匹配能力更强,分类效果更好。通过候选模板的频次和置信度来确定该候选模板是否可以作为有效模板,可以有效选取出最能反映句子语法规律的有效模板,使得后续句子分类时分类结果更加准确。通过生成二级有效模板,可以利用句子的更多属性参数判断句子的类型;同时删除涵盖范围较小的二级有效模板,可以减少所需的二级有效模板的数量,且使得最终生成的二级有效模板能够更加全面、有效地反映句子中存在的语言规律,之后利用二级有效模板挖掘其他待测句子的语言规律时更加准确。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于混合模板抽取句子分类特征的方法,其特征在于,包括:
获取预设文本,所述预设文本包括正例文本和负例文本;
对所述预设文本中的每个预设句子分别进行分析处理,确定所述预设句子的每个词语的词语参数,所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项;
根据所有词语的词语参数生成所述预设句子的候选模板,选择一个词语的一项词语参数,之后再选取下一个词语的一项词语参数,通过选择该预设句子所有词语的一项词语参数生成该预设句子的一个候选模板,一个预设句子生成多个候选模板,所述候选模板包括依次排列的所有词语的一项词语参数;根据所述正例文本中所有预设句子的候选模板生成正例模板集,根据所述负例文本中所有预设句子的候选模板生成负例模板集;
统计所有候选模板的正例次数和负例次数,并根据候选模板的正例次数和负例次数选取有效模板,所述正例次数为所述候选模板在所述正例模板集中出现的次数,所述负例次数为所述候选模板在所述负例模板集中出现的次数;
根据所述有效模板对待测句子进行分类。
2.根据权利要求1所述的方法,其特征在于,所述根据候选模板的正例次数和负例次数选取有效模板,包括:
根据正例次数和负例次数确定所述候选模板的频次和置信度,所述频次为所述正例次数和所述负例次数之和,所述置信度为所述正例次数与所述负例次数的比值;
将所述频次大于预设阈值、且置信度最大的一个或多个候选模板作为选取的有效模板。
3.根据权利要求2所述的方法,其特征在于,所述预设阈值为根据所述正例模板集中的模板数量和所述负例模板集中的模板数量确定的数值。
4.根据权利要求1所述的方法,其特征在于,所述根据所有词语的词语参数生成所述预设句子的候选模板,包括:
选取所有词语的一项词语参数,并添加句子标记,根据所有词语的一项词语参数和所述句子标记生成所述预设句子的候选模板,所述句子标记包括开始标记和/或结束标记。
5.根据权利要求1所述的方法,其特征在于,在所述根据候选模板的正例次数和负例次数选取有效模板之后,还包括:
根据所有词语的词语参数生成所述预设句子的二级候选模板,所述二级候选模板包括依次排列的所有词语的一项或多项词语参数,且所述二级候选模板中至少包括一个词语的多项词语参数;
确定所述二级候选模板所包含的子候选模板,所述子候选模板为根据所有词语的所述二级候选模板包含的一项词语参数生成的候选模板;
当所述二级候选模板中所有的子候选模板均为有效模板时,将所述二级候选模板作为二级有效模板;并判断当前二级有效模板所包含的所有子候选模板是否是其他二级有效模板的子候选模板集的子集;若是,则删除当前二级有效模板;
将最终保留的二级有效模板作为所述预设句子最终选取的二级有效模板。
6.一种基于混合模板抽取句子分类特征的装置,其特征在于,包括:
获取模块,用于获取预设文本,所述预设文本包括正例文本和负例文本;
分词模块,用于对所述预设文本中的每个预设句子分别进行分析处理,确定所述预设句子的每个词语的词语参数,所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项;
生成模块,用于根据所有词语的词语参数生成所述预设句子的候选模板,选择一个词语的一项词语参数,之后再选取下一个词语的一项词语参数,通过选择该预设句子所有词语的一项词语参数生成该预设句子的一个候选模板,一个预设句子生成多个候选模板,所述候选模板包括依次排列的所有词语的一项词语参数;根据所述正例文本中所有预设句子的候选模板生成正例模板集,根据所述负例文本中所有预设句子的候选模板生成负例模板集;
选取模块,用于统计所有候选模板的正例次数和负例次数,并根据候选模板的正例次数和负例次数选取有效模板,所述正例次数为所述候选模板在所述正例模板集中出现的次数,所述负例次数为所述候选模板在所述负例模板集中出现的次数;
分类模块,用于根据所述有效模板对待测句子进行分类。
7.根据权利要求6所述的装置,其特征在于,所述选取模块包括:
确定单元,用于根据正例次数和负例次数确定所述候选模板的频次和置信度,所述频次为所述正例次数和所述负例次数之和,所述置信度为所述正例次数与所述负例次数的比值;
选取单元,用于将所述频次大于预设阈值、且置信度最大的一个或多个候选模板作为选取的有效模板。
8.根据权利要求7所述的装置,其特征在于,所述预设阈值为根据所述正例模板集中的模板数量和所述负例模板集中的模板数量确定的数值。
9.根据权利要求6所述的装置,其特征在于,所述生成模块根据所有词语的词语参数生成所述预设句子的候选模板,包括:
选取所有词语的一项词语参数,并添加句子标记,根据所有词语的一项词语参数和所述句子标记生成所述预设句子的候选模板,所述句子标记包括开始标记和/或结束标记。
10.根据权利要求6所述的装置,其特征在于,还包括:处理模块;
在所述选取模块根据候选模板的正例次数和负例次数选取有效模板之后,所述处理模块用于:
根据所有词语的词语参数生成所述预设句子的二级候选模板,所述二级候选模板包括依次排列的所有词语的一项或多项词语参数,且所述二级候选模板中至少包括一个词语的多项词语参数;
确定所述二级候选模板所包含的子候选模板,所述子候选模板为根据所有词语的所述二级候选模板包含的一项词语参数生成的候选模板;
当所述二级候选模板中所有的子候选模板均为有效模板时,将所述二级候选模板作为二级有效模板;并判断当前二级有效模板所包含的所有子候选模板是否是其他二级有效模板的子候选模板集的子集;若是,则删除当前二级有效模板;
将最终保留的二级有效模板作为所述预设句子最终选取的二级有效模板。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810201961.7A CN108573025B (zh) | 2018-03-12 | 2018-03-12 | 基于混合模板抽取句子分类特征的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810201961.7A CN108573025B (zh) | 2018-03-12 | 2018-03-12 | 基于混合模板抽取句子分类特征的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108573025A CN108573025A (zh) | 2018-09-25 |
CN108573025B true CN108573025B (zh) | 2021-07-02 |
Family
ID=63573888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810201961.7A Active CN108573025B (zh) | 2018-03-12 | 2018-03-12 | 基于混合模板抽取句子分类特征的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108573025B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558584B (zh) * | 2018-10-26 | 2024-08-20 | 平安科技(深圳)有限公司 | 企业关系预测方法、装置、计算机设备和存储介质 |
CN112183096A (zh) * | 2020-08-21 | 2021-01-05 | 南京中新赛克科技有限责任公司 | 基于无监督模型与状态感知机的命名实体抽取系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101876987A (zh) * | 2009-12-04 | 2010-11-03 | 中国人民解放军信息工程大学 | 一种面向类间交叠的两类文本分类方法 |
CN102323944A (zh) * | 2011-09-02 | 2012-01-18 | 苏州大学 | 基于极性转移规则的情感分类方法 |
CN104572628A (zh) * | 2015-02-05 | 2015-04-29 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于句法特征的学术定义自动抽取系统及方法 |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN105608070A (zh) * | 2015-12-21 | 2016-05-25 | 中国科学院信息工程研究所 | 一种面向新闻标题的人物关系抽取方法 |
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
CN107403017A (zh) * | 2017-08-09 | 2017-11-28 | 上海数旦信息技术有限公司 | 一种智能分析实时新闻对金融市场影响的方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9894312B2 (en) * | 2013-02-22 | 2018-02-13 | The Directv Group, Inc. | Method and system for controlling a user receiving device using voice commands |
JP5904559B2 (ja) * | 2013-12-20 | 2016-04-13 | 国立研究開発法人情報通信研究機構 | シナリオ生成装置、及びそのためのコンピュータプログラム |
CN104049755B (zh) * | 2014-06-18 | 2017-01-18 | 中国科学院自动化研究所 | 信息处理方法及装置 |
JP5963328B2 (ja) * | 2014-10-30 | 2016-08-03 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、生成方法、およびプログラム |
-
2018
- 2018-03-12 CN CN201810201961.7A patent/CN108573025B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101876987A (zh) * | 2009-12-04 | 2010-11-03 | 中国人民解放军信息工程大学 | 一种面向类间交叠的两类文本分类方法 |
CN102323944A (zh) * | 2011-09-02 | 2012-01-18 | 苏州大学 | 基于极性转移规则的情感分类方法 |
CN104572628A (zh) * | 2015-02-05 | 2015-04-29 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于句法特征的学术定义自动抽取系统及方法 |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN105608070A (zh) * | 2015-12-21 | 2016-05-25 | 中国科学院信息工程研究所 | 一种面向新闻标题的人物关系抽取方法 |
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
CN107403017A (zh) * | 2017-08-09 | 2017-11-28 | 上海数旦信息技术有限公司 | 一种智能分析实时新闻对金融市场影响的方法 |
Non-Patent Citations (2)
Title |
---|
Analysis of different approaches to sentence-level sentiment classification;V.S.Jagtap等;《International Journal of Scientific Engneering and Technology》;20130401;第2卷(第3期);164-170页 * |
基于短语本位语法体系的混合模板汉语生成;方志炜等;《第二届全国学生计算语言学研讨会论文集》;20040801;203-208页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108573025A (zh) | 2018-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lytvyn et al. | Development of a method for determining the keywords in the slavic language texts based on the technology of web mining | |
US10503828B2 (en) | System and method for answering natural language question | |
US10824816B2 (en) | Semantic parsing method and apparatus | |
US10503830B2 (en) | Natural language processing with adaptable rules based on user inputs | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN111079029B (zh) | 敏感账号的检测方法、存储介质和计算机设备 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN110781673B (zh) | 文档验收方法、装置、计算机设备及存储介质 | |
CN110929520A (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
CN111832281A (zh) | 作文评分方法、装置、计算机设备及计算机可读存储介质 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN108573025B (zh) | 基于混合模板抽取句子分类特征的方法及装置 | |
CN112818110A (zh) | 文本过滤方法、设备及计算机存储介质 | |
CN113157887B (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
CN115129859A (zh) | 意图识别方法、装置、电子装置及存储介质 | |
CN103019924B (zh) | 输入法智能性评测系统和方法 | |
CN113011162A (zh) | 一种指代消解方法、装置、电子设备及介质 | |
CN109977391A (zh) | 一种文本数据的信息抽取方法及装置 | |
CN109800430B (zh) | 一种语义理解方法及系统 | |
CN108563617B (zh) | 汉语句子混合模板的挖掘方法及装置 | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
Silva et al. | Automatic expansion of a social judgment lexicon for sentiment analysis | |
CN116719950A (zh) | 基于知识图谱子图检索的智能问答方法及系统 | |
CN114580417A (zh) | 一种命名实体识别方法、装置、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096 Applicant after: Yunzhisheng Intelligent Technology Co.,Ltd. Address before: 12 / F, Guanjie building, building 1, No. 16, Taiyanggong Middle Road, Chaoyang District, Beijing Applicant before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |