CN105677779B - 一种基于评分机制的反馈型问题类型分类器系统及其工作方法 - Google Patents
一种基于评分机制的反馈型问题类型分类器系统及其工作方法 Download PDFInfo
- Publication number
- CN105677779B CN105677779B CN201511025769.XA CN201511025769A CN105677779B CN 105677779 B CN105677779 B CN 105677779B CN 201511025769 A CN201511025769 A CN 201511025769A CN 105677779 B CN105677779 B CN 105677779B
- Authority
- CN
- China
- Prior art keywords
- training sample
- phrase
- module
- unit
- scoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于评分机制的反馈型问题类型分类器系统及其工作方法,属于自然语言处理领域。该系统包括:训练样本问题集模块、分词模块、评分模块、词向量模块、分类模块、词库模块及类别比较模块,分词模块用于对训练样本问题分词获得带词性标注的词组集;评分模块用于对带词性标注的词组集进行分析,得到词组的评分权重;词向量模块用于生成该分词词组集对应的词向量;分类模块将对分类器进行迭代、训练,得到类别判别结果,并于目标类别标注相比较,将其结果并反馈到评分模块。本发明公布的问题类型分类器结合评分机制和反馈机制,可达到较为准确识别问题类型的目的。
Description
技术领域
本发明涉及一种基于评分机制的反馈型问题类型分类器系统及其工作方法,属于自然语言处理的技术领域。
背景技术
问答系统是信息检索系统的一种高级形式。它能用准确、简洁的自然语言回答用户用自然语言提出的问题。它能够满足人们对快速、准确地获取信息的需求。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。
问题分析即通过对问题句法、语义结构等进行解析,获取该问题的关键词,提取问题的焦点,确定问题类型和答案类型等。问题分析部分主要完成以下几部分的工作:确定问题类型、提取问题的关键词、依据问题的类型等因素对关键词进行适当的扩展。自动问答系统都以问题分析作为起始阶段,并且几乎所有的自动问答系统的组件在某种程度上都依赖于信息产生的问题分析;而确定问题类型是问题分析的首要阶段,问答系统能否准确的回答问题与问题类型是否能正确判定有着非常紧密的关系。
发明内容
针对现有技术的不足,本发明提供了一种基于评分机制的反馈型问题类型分类器系统;
本发明还提供了上述系统的工作方法;
本发明通过对训练样本问题的分词词组间的依赖关联关系的强弱进行分析,建立一套适用于判别问题提问类型的评分机制;并结合命名实体识别的词性标注,降低词库模板向量和样本词向量的维度,提高训练样本问题类型的识别效率,同时将分类类别的判断误差反馈于评分模块,得到高精确度的反馈型问题类型分类器。反馈机制的加入使问题类型分类器系统更精准化、智能化。
本发明技术方案为:
一种基于评分机制的反馈型问题类型分类器系统,包括:训练样本问题集模块、分词模块、评分模块、词向量模块、分类模块、词库模块及类别比较模块,所述训练样本问题集模块、所述分词模块、所述评分模块、所述词向量模块、所述分类模块、所述类别比较模块依次连接,所述分词模块、所述词库模块、所述词向量模块依次连接,所述分词模块连接所述词向量模块,所述训练样本问题集模块连接所述类别比较模块,所述类别比较模块连接所述评分模块;
所述训练样本问题集模块用于:对每个训练样本问题人工划分类别,得到训练样本问题集;并人工标注得到所述训练样本问题集中的每个训练样本问题的类别标注;所述分词模块用于:对训练样本问题集中的训练样本问题进行分词,获得带词性标注的词组集,并将带词性标注的词组集分别发送给所述评分模块及所述词向量模块;所述词库模块用于:存储所述分词模块中全部训练样本问题的无重复的分词词组及相应词性,并发送到所述词向量模块;所述评分模块用于:对带词性标注的词组集进行句法分析,获得词组间的依赖关系,生成词图,得到词组的评分权重;所述词向量模块用于:接收词库模块中分词词组及相应词性,与所述词向量模块当前处理的带词性标注的词组集对比,生成当前处理的带词性标注的词组集对应的词向量,并将得到的词向量发送至所述分类模块;所述分类模块用于:对词向量进行迭代、训练,收敛到最优类别判别结果;所述类别比较模块用于:将最优类别判别结果与所述训练样本问题集中相应训练样本问题的类别标注相比较,其结果并反馈到所述评分模块。
根据本发明优选的,所述分词模块包括依次连接的分词单元、词性标注单元、词性纠正单元、过滤停止词单元、命名实体识别单元;所述分词单元用于:根据训练样本问题的具体语境含义拆分成一系列词组,所述训练样本问题是指所述训练样本问题集中的单个训练样本问题;所述词性标注单元用于:为每个词组标注一个正确的词性;即:确定每个词是名词、动词、形容词或其他词性的过程;所述词性纠正单元用于:结合训练样本问题的具体语境,对多词性词组分析词组成分及各词组间的依赖关系,最终确定该词组词性;例如,“教授教授学生知识”,词性标注结果为“教授/n.,教授/n.,学生/n.,知识/n.”,其中“教授”有两个词性,此时需要结合语境纠正词性,词性纠正后的分词结果为“教授/n.,教授/v.,学生/n.,知识/n.”;所述过滤停止词单元用于:过滤无具体含义的词或词组;为后续处理减少干扰,提高准确度;所述命名实体识别单元用于:识别训练样本问题中具有特定意义的实体,依据特殊名词与对应的词性表,为其赋予相应的词性标注。所述具有特定意义的实体,例如,人名、地名、机构名、专有名词等。
根据本发明优选的,所述评分模块包括依次连接的句法分析单元、词图单元以及加权评分单元;所述句法分析单元用于:根据得到的带词性标注的词组集,分析词组间句法与语义上的依赖关系;所述词图单元用于:判断组间是否存在的依赖关系,若两词组间存在依赖关系,则这两词组间用无向边表示,否则,不作任何处理;以此类推,生成训练样本问题的词图;为所述加权评分单元的词组评分提供支持;所述加权评分单元用于:根据所述词图单元生成的训练样本问题的词图,得到:各词组间的依赖关系,根据某一词组与其他词组依赖关系的强弱,给该词组赋值相应大小的评分权重,依序进行,得到各词组的评分权重;所得到的各词组的评分权重发送到所述词向量模块,与所述词向量模块生成的所述词向量相加权。以保留所述训练样本的重要信息。
根据本发明优选的,所述词向量模块包括:依次连接的词库模板单元及样本词向量单元;所述词库模板单元用于:根据特殊名词与对应的词性表,将由所述词库模块中得到的全部训练样本问题的无重复的分词词组中的特殊名词用相应的词性转换,从而得到包含词性标注的词库模板,用特殊名词的词性来代替相应的特殊名词;降低了词库模板的维度,加快了所述分类模块的分类速度,提高了所述训练样本的类别判别效率。所述样本词向量单元用于:将所述训练样本问题中的分词词组集赋予所述加权评分单元对应的评分权重,将所述训练样本问题中的分词词组集中含有所述命名实体识别单元中识别的特殊名词用其相应的词性代替,将得到的转换后的分词词组集与所述词库模板单元生成的词库模板匹配,若匹配则该位置赋值为对应词组或其词性的权值,从而得到所述训练样本问题的加权样本词向量。
根据本发明优选的,所述分类模块包括:分类训练单元和类别判别单元;所述分类训练单元用于:将所述加权样本词向量作为输入,以所述训练样本问题集模块中的所述训练样本问题的类别标注作为目标类别,结合Softmax回归和梯度下降算法进行有监督的分类训练,并不断更新所述训练样本问题分类器的内参,直至收敛;所述类别判别单元用于:将所述分类训练单元得到的所述训练样本问题的类别判别结果与所述训练样本问题集模块中的所述训练样本问题的类别标注作比较,将比较结果发送到所述评分模块。
上述分类器系统的工作方法,具体步骤包括:
(1)收集训练样本问题集
(2)目标类别标注
人工判别步骤(1)收集的训练样本问题集中的训练样本问题的目标类别,得到包含目标类别标注的训练样本问题集;
(3)分词
所述分词单元根据训练样本问题的具体语境含义拆分成一系列词组;分词结果要尽可能保留符合所述训练样本所在的上下文的贴切含义;
(4)词性标注
所述词性标注单元为步骤(3)得到的每个词组标注一个正确的词性;
(5)过滤停止词
所述过滤停止词单元过滤步骤(3)得到的每个词组中无具体含义的词或词组;为后续如命名实体识别,句法分析等步骤减少干扰,提高准确度;
(6)命名实体识别
所述命名实体识别单元识别训练样本问题中具有特定意义的实体,依据特殊名词与对应的词性表,为其赋予相应的词性标注。所述具有特定意义的实体,例如,人名、地名、机构名、专有名词等。
(7)句法分析
所述句法分析单元根据得到的带词性标注的词组集,分析词组间句法与语义上的依赖关系;
(8)计算权重
所述词图单元判断组间是否存在的依赖关系,若两词组间存在依赖关系,则这两词组间用无向边表示,否则,不作任何处理;以此类推,生成训练样本问题的词图;为所述加权评分单元的词组评分提供支持;所述加权评分单元根据所述词图单元生成的训练样本问题的词图,得到:各词组间的依赖关系,根据某一词组与其他词组依赖关系的强弱,给该词组赋值相应大小的评分权重,依序进行,得到各词组的评分权重;所得到的各词组的评分权重发送到所述词向量模块,与所述词向量模块生成的所述词向量相加权。以保留所述训练样本的重要信息。
(9)获取词库
根据所述分词模块对所述全部训练样本问题的无重复的分词词组的集合,构成词库;
(10)获得词库模板
根据特殊名词与对应的词性表,将由所述词库模块中得到的全部训练样本问题的无重复的分词词组中的特殊名词用相应的词性转换,从而得到包含词性标注的词库模板;
(11)得到加权样本词向量
将所述训练样本问题中的分词词组集赋予所述加权评分单元对应的评分权重,将所述训练样本问题中的分词词组集中含有所述命名实体识别单元中识别的特殊名词用其相应的词性代替,将得到的转换后的分词词组集与所述词库模板单元生成的词库模板匹配,若匹配则该位置赋值为对应词组或其词性的权值,从而得到所述训练样本问题的加权样本词向量;
(12)类别训练
将所述加权样本词向量作为输入,以所述训练样本问题集模块中的所述训练样本问题的类别标注作为目标类别,结合Softmax回归和梯度下降算法进行有监督的分类训练,并不断更新所述训练样本问题分类器的内参,直至收敛;
(13)类别判别结果
将所述分类训练单元得到的所述训练样本问题的类别判别结果与所述训练样本问题集模块中的所述训练样本问题的类别标注作比较;
(14)判别比较
若分类器判别的结果与目标类别不同,则结合TextRank算法调整所述评分模块的评分权重,更新评分权重,送入分类器训练;若相同,则不需要调整所述评分模型的权重参数;
(15)反馈类别判别结果
将比较结果发送到所述评分模块。
本发明的有益效果为:
1、所述评分模块完成了对所述训练样本问题的分词及词性标注结果进行词组与词组间句法与语义上的依赖关系的分析,并生成所述训练样本问题的词图,建立了所述训练样本问题分词词组间的整体关联关系,根据所述词图中各分词词组与其他分词词组的关联的紧密程度,进行评分,从而得到所述训练样本问题分词词组的权重,基于所述训练样本问题分词词组间的关联紧密度进行加权,凸显了所述训练样本问题的关键信息,有助于系统做出正确的推理,进而精确地对所述训练样本问题的类型进行判别。
2、本发明在所述生成词库模板向量和样本词向量中利用了词与相应词性转换,降低了所述词库模板向量和所述样本词向量的维度与计算复杂度,提高了识别效率。
3、本发明在问题分类器系统中加入了用户反馈机制,所述分类模块完成了判别所述训练样本问题类型的识别,结合所述训练样本问题集中每个训练样本标注的目标类别作比较,并将比较结果反馈与评分模块,以适当调整词向量的权重参数,对所述分类模块的训练样本单元加以修正,不断迭代,直至判别误差在容许范围内,可对训练样本问题的类型达到精确识别。
附图说明
图1为本发明基于评分机制的反馈型问题类型分类器系统的结构框架图。
图2为本发明基于评分机制的反馈型问题类型分类器系统的组成单元及连接关系图。
图3为本发明基于评分机制的反馈型问题类型分类器系统的工作流程图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于评分机制的反馈型问题类型分类器系统,包括:训练样本问题集模块、分词模块、评分模块、词向量模块、分类模块、词库模块及类别比较模块,所述训练样本问题集模块、所述分词模块、所述评分模块、所述词向量模块、所述分类模块、所述类别比较模块依次连接,所述分词模块、所述词库模块、所述词向量模块依次连接,所述分词模块连接所述词向量模块,所述训练样本问题集模块连接所述类别比较模块,所述类别比较模块连接所述评分模块;
所述训练样本问题集模块用于:对每个训练样本问题人工划分类别,得到训练样本问题集;并人工标注得到所述训练样本问题集中的每个训练样本问题的类别标注;所述分词模块用于:对训练样本问题集中的训练样本问题进行分词,获得带词性标注的词组集,并将带词性标注的词组集分别发送给所述评分模块及所述词向量模块;所述词库模块用于:存储所述分词模块中全部训练样本问题的无重复的分词词组及相应词性,并发送到所述词向量模块;所述评分模块用于:对带词性标注的词组集进行句法分析,获得词组间的依赖关系,生成词图,得到词组的评分权重;所述词向量模块用于:接收词库模块中分词词组及相应词性,与所述词向量模块当前处理的带词性标注的词组集对比,生成当前处理的带词性标注的词组集对应的词向量,并将得到的词向量发送至所述分类模块;所述分类模块用于:对词向量进行迭代、训练,收敛到最优类别判别结果;所述类别比较模块用于:将最优类别判别结果与所述训练样本问题集中相应训练样本问题的类别标注相比较,其结果并反馈到所述评分模块。
所述分词模块包括依次连接的分词单元、词性标注单元、词性纠正单元、过滤停止词单元、命名实体识别单元;所述分词单元用于:根据训练样本问题的具体语境含义拆分成一系列词组,所述训练样本问题是指所述训练样本问题集中的单个训练样本问题;所述词性标注单元用于:为每个词组标注一个正确的词性;即:确定每个词是名词、动词、形容词或其他词性的过程;所述词性纠正单元用于:结合训练样本问题的具体语境,对多词性词组分析词组成分及各词组间的依赖关系,最终确定该词组词性;例如,“教授教授学生知识”,词性标注结果为“教授/n.,教授/n.,学生/n.,知识/n.”,其中“教授”有两个词性,此时需要结合语境纠正词性,词性纠正后的分词结果为“教授/n.,教授/v.,学生/n.,知识/n.”;所述过滤停止词单元用于:过滤无具体含义的词或词组;为后续处理减少干扰,提高准确度;所述命名实体识别单元用于:识别训练样本问题中具有特定意义的实体,依据特殊名词与对应的词性表,为其赋予相应的词性标注。所述具有特定意义的实体,例如,人名、地名、机构名、专有名词等。
所述评分模块包括依次连接的句法分析单元、词图单元以及加权评分单元;所述句法分析单元用于:根据得到的带词性标注的词组集,分析词组间句法与语义上的依赖关系;所述词图单元用于:判断组间是否存在的依赖关系,若两词组间存在依赖关系,则这两词组间用无向边表示,否则,不作任何处理;以此类推,生成训练样本问题的词图;为所述加权评分单元的词组评分提供支持;所述加权评分单元用于:根据所述词图单元生成的训练样本问题的词图,得到:各词组间的依赖关系,根据某一词组与其他词组依赖关系的强弱,给该词组赋值相应大小的评分权重,依序进行,得到各词组的评分权重;所得到的各词组的评分权重发送到所述词向量模块,与所述词向量模块生成的所述词向量相加权。以保留所述训练样本的重要信息。
所述词向量模块包括:依次连接的词库模板单元及样本词向量单元;所述词库模板单元用于:根据特殊名词与对应的词性表,将由所述词库模块中得到的全部训练样本问题的无重复的分词词组中的特殊名词用相应的词性转换,从而得到包含词性标注的词库模板,用特殊名词的词性来代替相应的特殊名词;降低了词库模板的维度,加快了所述分类模块的分类速度,提高了所述训练样本的类别判别效率。所述样本词向量单元用于:将所述训练样本问题中的分词词组集赋予所述加权评分单元对应的评分权重,将所述训练样本问题中的分词词组集中含有所述命名实体识别单元中识别的特殊名词用其相应的词性代替,将得到的转换后的分词词组集与所述词库模板单元生成的词库模板匹配,若匹配则该位置赋值为对应词组或其词性的权值,从而得到所述训练样本问题的加权样本词向量。
所述分类模块包括:分类训练单元和类别判别单元;所述分类训练单元用于:将所述加权样本词向量作为输入,以所述训练样本问题集模块中的所述训练样本问题的类别标注作为目标类别,结合Softmax回归和梯度下降算法进行有监督的分类训练,并不断更新所述训练样本问题分类器的内参,直至收敛;所述类别判别单元用于:将所述分类训练单元得到的所述训练样本问题的类别判别结果与所述训练样本问题集模块中的所述训练样本问题的类别标注作比较,将比较结果发送到所述评分模块,并反馈于所述评分模块。
实施例2
一种基于评分机制的反馈型问题类型分类器系统的工作方法,具体步骤包括:
(1)收集训练样本问题集
训练样本问题1:牛顿是哪国科学家?
训练样本问题2:《红楼梦》是谁的作品?
(2)目标类别标注
人工判别步骤(1)收集的训练样本问题集中的训练样本问题的目标类别,得到包含目标类别标注的训练样本问题集;训练样本问题1的问题类型为“地名”;训练样本问题2的问题类型为“人名”;
(3)分词
所述分词单元根据训练样本问题的具体语境含义拆分成一系列词组;分词结果要尽可能保留符合所述训练样本所在的上下文的贴切含义;训练样本问题1的分词结果:[牛顿,是,哪,国,科学家];训练样本问题2的分词结果:[红楼梦,是,谁,的,作品];
(4)词性标注
所述词性标注单元为步骤(3)得到的每个词组标注一个正确的词性;训练样本问题1的词性标注结果:[牛顿/nr,是/v,哪/ry,国/n,科学家/nnt];训练样本问题2的词性标注结果:[红楼梦/n,是/v,谁/ry,的/ude1,作品/n];
(5)过滤停止词
所述过滤停止词单元过滤步骤(3)得到的每个词组中无具体含义的词或词组;为后续如命名实体识别,句法分析等步骤减少干扰,提高准确度;训练样本问题2过滤停止词后的分词结果为:[红楼梦/n,是/v,谁/ry,作品/n];
(6)命名实体识别
所述命名实体识别单元识别训练样本问题中具有特定意义的实体,依据特殊名词与对应的词性表,为其赋予相应的词性标注。所述具有特定意义的实体;训练样本问题1中[牛顿/nr]识别为人名,对应词性为[nr];[科学家/nnt]识别为职务职称,对应词性为[nnt];
(7)句法分析
所述句法分析单元根据得到的带词性标注的词组集,分析词组间句法与语义上的依赖关系;
训练样本问题1的句法依存关系为:
[top(是-2,牛顿-1),root(ROOT-0,是-2),det(国-4,哪-3),nn(科学家-5,国-4),attr(是-2,科学家-5)]
训练样本问题2的句法依存关系为:
[advmod(是-2,红楼梦-1),root(ROOT-0,是-2),assmod(作品-5,谁-3),assm(谁-3,的-4),attr(是-2,作品-5)]
(8)计算权重
所述词图单元判断组间是否存在的依赖关系,若两词组间存在依赖关系,则这两词组间用无向边表示,否则,不作任何处理;以此类推,生成训练样本问题的词图;为所述加权评分单元的词组评分提供支持;所述加权评分单元根据所述词图单元生成的训练样本问题的词图,得到:各词组间的依赖关系,根据某一词组与其他词组依赖关系的强弱,给该词组赋值相应大小的评分权重,依序进行,得到各词组的评分权重;所得到的各词组的评分权重发送到所述词向量模块,与所述词向量模块生成的所述词向量相加权。以保留所述训练样本的重要信息。对训练样本问题1的权重:[牛顿/1,哪/2,国/3,科学家/2];对训练样本问题的权重:[红楼梦/1,谁/2,作品/2];
(9)获取词库
根据所述分词模块对所述全部训练样本问题的无重复的分词词组的集合,构成词库;由训练样本问题1和训练样本问题2构成的训练样本问题集对应的词库为:[牛顿/nr,哪/ry,国/n,科学家/nnt,红楼梦/n,谁/ry,作品/n]
(10)获得词库模板
根据特殊名词与对应的词性表,将由所述词库模块中得到的全部训练样本问题的无重复的分词词组中的特殊名词用相应的词性转换,从而得到包含词性标注的词库模板;词库模板为[nr,哪,国,nnt,红楼梦,谁,作品]
(11)得到加权样本词向量
将所述训练样本问题中的分词词组集赋予所述加权评分单元对应的评分权重,将所述训练样本问题中的分词词组集中含有所述命名实体识别单元中识别的特殊名词用其相应的词性代替,将得到的转换后的分词词组集与所述词库模板单元生成的词库模板匹配,若匹配则该位置赋值为对应词组或其词性的权值,从而得到所述训练样本问题的加权样本词向量;训练样本问题1的加权样本词向量:[1,2,3,2,0,0,0];训练样本问题2的加权样本词向量:[0,0,0,0,1,2,2];
(12)类别训练
将所述加权样本词向量作为输入,以所述训练样本问题集模块中的所述训练样本问题的类别标注作为目标类别,结合Softmax回归和梯度下降算法进行有监督的分类训练,并不断更新所述训练样本问题分类器的内参,直至收敛;
(13)类别判别结果
将所述分类训练单元得到的所述训练样本问题的类别判别结果与所述训练样本问题集模块中的所述训练样本问题的类别标注作比较;
(14)判别比较
若分类器判别的结果与目标类别不同,则结合TextRank算法调整所述评分模块的评分权重,更新评分权重,送入分类器训练;若相同,则不需要调整所述评分模型的权重参数。
(15)反馈类别判别结果
将比较结果发送到所述评分模块。
Claims (6)
1.一种基于评分机制的反馈型问题类型分类器系统,其特征在于,包括:训练样本问题集模块、分词模块、评分模块、词向量模块、分类模块、词库模块及类别比较模块,所述训练样本问题集模块、所述分词模块、所述评分模块、所述词向量模块、所述分类模块、所述类别比较模块依次连接,所述分词模块、所述词库模块、所述词向量模块依次连接,所述分词模块连接所述词向量模块,所述训练样本问题集模块连接所述类别比较模块,所述类别比较模块连接所述评分模块;
所述训练样本问题集模块用于:对每个训练样本问题人工划分类别,得到训练样本问题集;并人工标注得到所述训练样本问题集中的每个训练样本问题的类别标注;所述分词模块用于:对训练样本问题集中的训练样本问题进行分词,获得带词性标注的词组集,并将带词性标注的词组集分别发送给所述评分模块及所述词向量模块;所述词库模块用于:存储所述分词模块中全部训练样本问题的无重复的分词词组及相应词性,并发送到所述词向量模块;所述评分模块用于:对带词性标注的词组集进行句法分析,获得词组间的依赖关系,生成词图,得到词组的评分权重;所述词向量模块用于:接收词库模块中分词词组及相应词性,与所述词向量模块当前处理的带词性标注的词组集对比,生成当前处理的带词性标注的词组集对应的词向量,并将得到的词向量发送至所述分类模块;所述分类模块用于:对词向量进行迭代、训练,收敛到最优类别判别结果;所述类别比较模块用于:将最优类别判别结果与所述训练样本问题集中相应训练样本问题的类别标注相比较,其结果并反馈到所述评分模块。
2.根据权利要求1所述的一种基于评分机制的反馈型问题类型分类器系统,其特征在于,所述分词模块包括依次连接的分词单元、词性标注单元、词性纠正单元、过滤停止词单元、命名实体识别单元;所述分词单元用于:根据训练样本问题的具体语境含义拆分成一系列词组,所述训练样本问题是指所述训练样本问题集中的单个训练样本问题;所述词性标注单元用于:为每个词组标注一个正确的词性;所述词性纠正单元用于:结合训练样本问题的具体语境,对多词性词组分析词组成分及各词组间的依赖关系,最终确定该词组词性;所述过滤停止词单元用于:过滤无具体含义的词或词组;所述命名实体识别单元用于:识别训练样本问题中具有特定意义的实体,依据特殊名词与对应的词性表,为其赋予相应的词性标注。
3.根据权利要求2所述的一种基于评分机制的反馈型问题类型分类器系统,其特征在于,所述评分模块包括依次连接的句法分析单元、词图单元以及加权评分单元;所述句法分析单元用于:根据得到的带词性标注的词组集,分析词组间句法与语义上的依赖关系;所述词图单元用于:判断组间是否存在依赖关系,若两词组间存在依赖关系,则这两词组间用无向边表示,否则,不作任何处理;以此类推,生成训练样本问题的词图;为所述加权评分单元的词组评分提供支持;所述加权评分单元用于:根据所述词图单元生成的训练样本问题的词图,得到:各词组间的依赖关系,根据某一词组与其他词组依赖关系的强弱,给该词组赋值相应大小的评分权重,依序进行,得到各词组的评分权重;所得到的各词组的评分权重发送到所述词向量模块,与所述词向量模块生成的所述词向量相加权。
4.根据权利要求3所述的一种基于评分机制的反馈型问题类型分类器系统,其特征在于,所述词向量模块包括:依次连接的词库模板单元及样本词向量单元;所述词库模板单元用于:根据特殊名词与对应的词性表,将由所述词库模块中得到的全部训练样本问题的无重复的分词词组中的特殊名词用相应的词性转换,从而得到包含词性标注的词库模板,用特殊名词的词性来代替相应的特殊名词;所述样本词向量单元用于:将所述训练样本问题中的分词词组集赋予所述加权评分单元对应的评分权重,将所述训练样本问题中的分词词组集中含有所述命名实体识别单元中识别的特殊名词用其相应的词性代替,将得到的转换后的分词词组集与所述词库模板单元生成的词库模板匹配,若匹配则该位置赋值为对应词组或其词性的权值,从而得到所述训练样本问题的加权样本词向量。
5.根据权利要求4所述的一种基于评分机制的反馈型问题类型分类器系统,其特征在于,所述分类模块包括:分类训练单元和类别判别单元;所述分类训练单元用于:将所述加权样本词向量作为输入,以所述训练样本问题集模块中的所述训练样本问题的类别标注作为目标类别,结合Softmax回归和梯度下降算法进行有监督的分类训练,并不断更新所述训练样本问题分类器的内参,直至收敛;所述类别判别单元用于:将所述分类训练单元得到的所述训练样本问题的类别判别结果与所述训练样本问题集模块中的所述训练样本问题的类别标注作比较,将比较结果发送到所述评分模块。
6.权利要求5所述的一种基于评分机制的反馈型问题类型分类器系统的工作方法,其特征在于,具体步骤包括:
(1)收集训练样本问题集
(2)目标类别标注
人工判别步骤(1)收集的训练样本问题集中的训练样本问题的目标类别,得到包含目标类别标注的训练样本问题集;
(3)分词
所述分词单元根据训练样本问题的具体语境含义拆分成一系列词组;
(4)词性标注
所述词性标注单元为步骤(3)得到的每个词组标注一个正确的词性;
(5)过滤停止词
所述过滤停止词单元过滤步骤(3)得到的每个词组中无具体含义的词或词组;
(6)命名实体识别
所述命名实体识别单元识别训练样本问题中具有特定意义的实体,依据特殊名词与对应的词性表,为其赋予相应的词性标注;
(7)句法分析
所述句法分析单元根据得到的带词性标注的词组集,分析词组间句法与语义上的依赖关系;
(8)计算权重
所述词图单元判断组间是否存在依赖关系,若两词组间存在依赖关系,则这两词组间用无向边表示,否则,不作任何处理;以此类推,生成训练样本问题的词图;所述加权评分单元根据所述词图单元生成的训练样本问题的词图,得到:各词组间的依赖关系,根据某一词组与其他词组依赖关系的强弱,给该词组赋值相应大小的评分权重,依序进行,得到各词组的评分权重;所得到的各词组的评分权重发送到所述词向量模块,与所述词向量模块生成的所述词向量相加权;
(9)获取词库
全部训练样本问题经所述分词模块分词,组成无重复的分词词组集合,构成词库;
(10)获得词库模板
根据特殊名词与对应的词性表,将由所述词库模块中得到的全部训练样本问题的无重复的分词词组中的特殊名词用相应的词性转换,从而得到包含词性标注的词库模板;
(11)得到加权样本词向量
将所述训练样本问题中的分词词组集赋予所述加权评分单元对应的评分权重,将所述训练样本问题中的分词词组集中含有所述命名实体识别单元中识别的特殊名词用其相应的词性代替,将得到的转换后的分词词组集与所述词库模板单元生成的词库模板匹配,若匹配则该位置赋值为对应词组或其词性的权值,从而得到所述训练样本问题的加权样本词向量;
(12)类别训练
将所述加权样本词向量作为输入,以所述训练样本问题集模块中的所述训练样本问题的类别标注作为目标类别,结合Softmax回归和梯度下降算法进行有监督的分类训练,并不断更新所述训练样本问题分类器的内参,直至收敛;
(13)类别判别结果
将所述分类训练单元得到的所述训练样本问题的类别判别结果与所述训练样本问题集模块中的所述训练样本问题的类别标注作比较;
(14)判别比较
若分类器判别的结果与目标类别不同,则结合TextRank算法调整所述评分模块的评分权重,更新评分权重,送入分类器训练;若相同,则不需要调整所述评分模型的权重参数;
(15)反馈类别判别结果
将比较结果发送到所述评分模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511025769.XA CN105677779B (zh) | 2015-12-30 | 2015-12-30 | 一种基于评分机制的反馈型问题类型分类器系统及其工作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511025769.XA CN105677779B (zh) | 2015-12-30 | 2015-12-30 | 一种基于评分机制的反馈型问题类型分类器系统及其工作方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105677779A CN105677779A (zh) | 2016-06-15 |
CN105677779B true CN105677779B (zh) | 2018-10-30 |
Family
ID=56189858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511025769.XA Active CN105677779B (zh) | 2015-12-30 | 2015-12-30 | 一种基于评分机制的反馈型问题类型分类器系统及其工作方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105677779B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503236B (zh) * | 2016-10-28 | 2020-09-11 | 北京百度网讯科技有限公司 | 基于人工智能的问题分类方法以及装置 |
CN106897384B (zh) * | 2017-01-23 | 2020-09-11 | 科大讯飞股份有限公司 | 一种要点题自动评价方法及装置 |
CN108090127B (zh) * | 2017-11-15 | 2021-02-12 | 北京百度网讯科技有限公司 | 建立问答文本评价模型与评价问答文本的方法、装置 |
CN108363687A (zh) * | 2018-01-16 | 2018-08-03 | 深圳市脑洞科技有限公司 | 主观题评分及其模型的构建方法、电子设备及存储介质 |
CN108255813B (zh) * | 2018-01-23 | 2021-11-16 | 重庆邮电大学 | 一种基于词频-逆文档与crf的文本匹配方法 |
CN109271524B (zh) * | 2018-08-02 | 2021-10-15 | 中国科学院计算技术研究所 | 知识库问答系统中的实体链接方法 |
CN109543030B (zh) * | 2018-10-12 | 2023-04-07 | 平安科技(深圳)有限公司 | 客服机器人会话文本分类方法及装置、设备、存储介质 |
CN109657056B (zh) * | 2018-11-14 | 2021-04-06 | 金色熊猫有限公司 | 目标样本获取方法、装置、存储介质及电子设备 |
CN110826555B (zh) * | 2019-10-12 | 2021-05-04 | 天津大学 | 一种人机协同的图像目标检测数据半自动标注方法 |
CN110992127B (zh) * | 2019-11-14 | 2023-09-29 | 北京沃东天骏信息技术有限公司 | 一种物品推荐方法及装置 |
CN112883737B (zh) * | 2021-03-03 | 2022-06-14 | 山东大学 | 基于中文命名实体识别的机器人语言指令分析方法及系统 |
CN113312482B (zh) * | 2021-06-01 | 2024-06-28 | 平安证券股份有限公司 | 问题分类方法、装置、电子设备及可读存储介质 |
CN113127624B (zh) * | 2021-06-16 | 2021-11-16 | 北京金山数字娱乐科技有限公司 | 问答模型的训练方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251862A (zh) * | 2008-03-25 | 2008-08-27 | 北京百问百答网络技术有限公司 | 一种基于内容的问题自动分类方法及其系统 |
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
CN103458056A (zh) * | 2013-09-24 | 2013-12-18 | 贵阳世纪恒通科技有限公司 | 自动外呼系统基于自动分类技术的语音意图判定方法 |
CN105045924A (zh) * | 2015-08-26 | 2015-11-11 | 苏州大学张家港工业技术研究院 | 一种问题分类方法及系统 |
-
2015
- 2015-12-30 CN CN201511025769.XA patent/CN105677779B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251862A (zh) * | 2008-03-25 | 2008-08-27 | 北京百问百答网络技术有限公司 | 一种基于内容的问题自动分类方法及其系统 |
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
CN103458056A (zh) * | 2013-09-24 | 2013-12-18 | 贵阳世纪恒通科技有限公司 | 自动外呼系统基于自动分类技术的语音意图判定方法 |
CN105045924A (zh) * | 2015-08-26 | 2015-11-11 | 苏州大学张家港工业技术研究院 | 一种问题分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于句法结构分析的中文问题分类;文勖等;《中文信息报》;20060430;第20卷(第2期);第33-39页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105677779A (zh) | 2016-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105677779B (zh) | 一种基于评分机制的反馈型问题类型分类器系统及其工作方法 | |
CN107239446B (zh) | 一种基于神经网络与注意力机制的情报关系提取方法 | |
CN108846104B (zh) | 一种基于教育知识图谱的问答分析与处理方法及系统 | |
CN109388700A (zh) | 一种意图识别方法及系统 | |
CN108363687A (zh) | 主观题评分及其模型的构建方法、电子设备及存储介质 | |
CN110287494A (zh) | 一种基于深度学习bert算法的短文本相似匹配的方法 | |
CN107562918A (zh) | 一种数学题知识点发现与批量标签获取方法 | |
Abujar et al. | A heuristic approach of text summarization for Bengali documentation | |
CN106202543A (zh) | 基于机器学习的本体匹配方法和系统 | |
CN106257455B (zh) | 一种基于依存关系模板抽取观点评价对象的Bootstrapping方法 | |
CN105260356A (zh) | 基于多任务学习的中文交互文本情感与话题识别方法 | |
CN109213856A (zh) | 一种语义识别方法及系统 | |
CN111274814B (zh) | 一种新型的半监督文本实体信息抽取方法 | |
CN104391885A (zh) | 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法 | |
CN106547733A (zh) | 一种面向特定文本的命名实体识别方法 | |
CN110175585A (zh) | 一种简答题自动批改系统及方法 | |
CN114048327A (zh) | 一种基于知识图谱的主观题自动评分方法及系统 | |
Omran et al. | Automatic essay grading system for short answers in English language | |
CN111523328B (zh) | 一种智能客服语义处理方法 | |
JP7268849B2 (ja) | 記述式試験採点プログラム及び記述式試験採点方法 | |
CN109346108A (zh) | 一种作业检查方法及系统 | |
Wang et al. | Research on the design of computer scoring system for Chinese college students’ English translation | |
CN107562774A (zh) | 小语种词嵌入模型的生成方法、系统及问答方法和系统 | |
CN116611447A (zh) | 一种基于深度学习方法的信息抽取和语义匹配系统及方法 | |
CN110674871B (zh) | 面向翻译译文的自动评分方法及自动评分系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |