发明内容
鉴于上述状况,有必要解决现有的基于对抗学习的方法,仅停留在特征抽取层迁移知识,且识别性能不是较为理想的问题。
本发明实施例提供了一种基于知识蒸馏和多任务学习的篇章关系识别方法,其中,所述方法包括如下步骤:
以标注了连接词与隐式篇章关系类别的隐式篇章关系实例作为训练实例;
基于双向注意力机制分类模型构造连接词加强的教师模型,以所述连接词作为额外输入,对所述连接词加强的教师模型对应的代价函数进行迭代最小化处理直至收敛,以得到训练好的教师模型;
基于所述双向注意力机制分类模型构造多任务学习学生模型,引入连接词分类作为辅助任务,以确定基于多任务学习的代价函数,利用所述训练好的教师模型计算训练实例的特征和预测结果,以确定基于知识蒸馏的代价函数,继而确定学生模型总代价函数;
迭代最小化所述学生模型总代价函数直至收敛,以输出训练好的学生模型,进而用于识别测试实例的隐式篇章关系。
本发明提出的基于知识蒸馏和多任务学习的篇章关系识别方法,以标注了连接词和类别的隐式篇章关系实例作为训练实例,目的是充分利用语料标注时插入的连接词信息;首先基于双向注意力机制分类模型构造连接词加强的教师模型,以连接词作为额外的输入,迭代最小化其代价函数直至收敛,以得到训练好的教师模型;然后对所构建的多任务学习学生模型进行训练,基于多任务学习和知识蒸馏的方法构建总代价函数,对总代价函数进行最小化迭代处理直至收敛,从而输出训练好的多任务学习学生模型。本发明提出的基于知识蒸馏和多任务学习的篇章关系识别方法,一方面,基于参数共享的方式(共享的特征抽取层)在连接词分类辅助任务和隐式篇章关系识别主任务之间共享知识;另一方面,将连接词增强的教师模型中的知识基于知识蒸馏技术从特征抽取层和分类层迁移到相应的隐式篇章关系识别模型(多任务学习学生模型)中;以充分利用语料标注时插入的连接词信息提高学生模型的识别性能。本发明提出的方法,在常用PDTB数据集的第一级和第二级隐式篇章关系上,比同类方法取得了更好的识别性能。
所述基于知识蒸馏和多任务学习的篇章关系识别方法,其中,在所述训练实例中,标注了所述连接词与所述隐式篇章关系类别的隐式篇章关系实例表示为
;
其中,
表示所述隐式篇章关系训练实例的两个论元,
表示标注的连接词,
表示标注的隐式篇章关系类别。
所述基于知识蒸馏和多任务学习的篇章关系识别方法,其中,在所述连接词加强的教师模型中,输入为
,对应的代价函数表示为:
其中,
为教师模型的参数,
为标注的隐式篇章关系类别
对应的独热编码,
表示预测结果关于标记类别的期望值,
表示经所述连接词加强的教师模型的分类层后得到的预测结果,
为训练实例集。
所述基于知识蒸馏和多任务学习的篇章关系识别方法,其中,在所述多任务学习学生模型中,所述学生模型总代价函数表示为:
其中,
为所述学生模型总代价函数,
为学生模型的参数,
分别为基于多任务学习的代价函数和基于知识蒸馏的代价函数的权重系数;
所述基于多任务学习的代价函数包括两部分:
为对应于隐式篇章关系识别的交叉熵代价函数,
为对应于连接词分类的交叉熵代价函数;所述基于知识蒸馏的代价函数包括两部分:
为对应于特征抽取层知识蒸馏的代价函数,
为对应于分类层知识蒸馏的代价函数。
所述基于知识蒸馏和多任务学习的篇章关系识别方法,其中,在所述多任务学习学生模型中,输入为
,对应于隐式篇章关系识别的交叉熵代价函数表示为:
其中,
为学生模型的参数,
为标注的隐式篇章关系类别
对应的独热编码,
表示预测结果关于标记类别的期望值,
表示经学生模型分类层1后得到的对应于隐式篇章关系识别的预测结果,
为训练实例集。
所述基于知识蒸馏和多任务学习的篇章关系识别方法,其中,所述多任务学习学生模型中对应于连接词分类的交叉熵代价函数表示为:
其中,
为学生模型的参数,
为标注的连接词
对应的独热编码,
表示预测结果关于标注连接词的期望值,
表示经学生模型分类层2后得到的对应于连接词分类的预测结果,
为训练实例集。
所述基于知识蒸馏和多任务学习的篇章关系识别方法,其中,所述多任务学习学生模型中对应于特征抽取层知识蒸馏的代价函数表示为:
其中,
表示均方误差,
表示经所述连接词加强的教师模型特征抽取层后得到的特征,
表示经所述多任务学习学生模型的特征抽取层后得到的特征,
为训练实例集。
所述基于知识蒸馏和多任务学习的篇章关系识别方法,其中,所述多任务学习学生模型中对应于分类层知识蒸馏的代价函数表示为:
其中,
表示两个概率分布之间的KL距离,
表示经所述连接词加强的教师模型分类层后得到的预测结果,
表示经所述多任务学习学生模型分类层1后得到的预测结果。
所述基于知识蒸馏和多任务学习的篇章关系识别方法,其中,所述双向注意力机制分类模型包括编码层、交互层、聚合层以及分类层,其中所述编码层用于学习论元中的词在上下文中的表示,所述编码层表示为:
其中,
分别为论元1中的第
个词的词向量及其在上下文中的表示,
分别为论元2中的第
个词的词向量及其上下文中的表示,
和
分别是两个论元中词的个数,
均为双向长短时记忆网络。
本发明还提出一种基于知识蒸馏和多任务学习的篇章关系识别装置,其中,所述装置包括:
训练输入模块,用于以标注了连接词与隐式篇章关系类别的隐式篇章关系实例作为训练实例;
第一构造模块,用于基于双向注意力机制分类模型构造连接词加强的教师模型,以所述连接词作为额外输入,对所述连接词加强的教师模型对应的代价函数进行迭代最小化处理直至收敛,以得到训练好的教师模型;
第二构造模块,用于基于所述双向注意力机制分类模型构造多任务学习学生模型,引入连接词分类作为辅助任务,以确定基于多任务学习的代价函数,利用所述训练好的教师模型计算训练实例的特征和预测结果,以确定基于知识蒸馏的代价函数,继而确定学生模型总代价函数;
训练输出模块,用于迭代最小化所述学生模型总代价函数直至收敛,以输出训练好的学生模型,进而用于识别测试实例的隐式篇章关系。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
现有的基于对抗学习的方法对连接词信息的利用并不充分,仅停留在特征抽取层迁移知识,且识别性能不是较为理想。
为了解决这一技术问题,本发明提出一种基于知识蒸馏和多任务学习的篇章关系识别方法,请参阅图1至图3,所述方法包括如下步骤:
S101,以标注了连接词与隐式篇章关系类别的隐式篇章关系实例作为训练实例。
具体的,训练语料中标注有连接词和关系类别的任一隐式篇章关系训练实例可表示为
。其中,
表示隐式篇章关系训练实例的两个论元,
表示标注时插入的连接词,即真实的连接词标记,
表示标注的隐式篇章关系类别,即真实的类别标记。
S102,基于双向注意力机制分类模型构造连接词加强的教师模型,以所述连接词作为额外输入,对所述连接词加强的教师模型对应的代价函数进行迭代最小化处理直至收敛,以得到训练好的教师模型。
需要指出的是,教师模型是一个连接词加强的隐式篇章关系识别模型,以论元
和标注时插入的连接词
为输入。经特征抽取层后得到的教师模型特征表示为
,经分类层后得到的教师模型预测结果表示为
。
训练教师模型时,在训练语料上最小化教师模型代价函数(交叉熵分类代价函数)。其中,教师模型代价函数表示为:
其中,
为教师模型的参数,
为标注的隐式篇章关系类别,
为标注的隐式篇章关系类别
对应的独热编码(One-hot Encoding),
表示标注的连接词,
表示预测结果关于标记类别的期望值,
表示经所述连接词加强的教师模型的分类层后得到的预测结果,
为训练实例集。
在此需要补充说明的是,连接词加强的教师模型模拟了人类标注隐式篇章关系的过程。在插入连接词
的辅助下,其识别性能远高于仅以论元
作为输入的多任务学习学生模型(例如,在PDTB语料的第一级隐式篇章关系分类任务上的准确率可以达到85%以上),这充分说明连接词加强的教师模型能很好地融合语料标注时插入的连接词信息。
S103,基于所述双向注意力机制分类模型构造多任务学习学生模型,引入连接词分类作为辅助任务,以确定基于多任务学习的代价函数,利用所述训练好的教师模型计算训练实例的特征和预测结果,以确定基于知识蒸馏的代价函数,继而确定学生模型总代价函数。
对多任务学习学生模型而言,其是一个基于多任务学习的篇章关系识别模型。以连接词分类作为辅助任务,即给定隐式篇章关系实例
,预测一个适合连接两个论元的连接词;以隐式篇章关系识别作为主任务。两个相关任务(隐式篇章关系识别任务以及连接词分类任务)的模型共享特征抽取层,并分别使用各自的分类层。具体的,请参见图3,分类层1用于隐式篇章关系识别任务,分类层2用于连接词分类任务。通过共享的特征抽取层,两个相关任务的模型可以交换信息,从而达到共同促进的效果。多任务学习学生模型仅以论元
作为输入,经过共享的特征抽取层后得到的学生模型特征表示为
,经分类层1后得到的多任务学习学生模型对应于隐式篇章关系识别的预测结果表示为
,经分类层2后得到的多任务学习学生模型对应于连接词分类的预测结果表示为
。
在训练多任务学习学生模型时,为了让模型能够尽可能地拟合训练实例
,需要最小化基于多任务学习的代价函数,即同时最小化对应于隐式篇章关系识别的交叉熵分类代价函数和其对应于连接词分类的交叉熵分类代价函数。
具体的,对应于隐式篇章关系识别的交叉熵分类代价函数表示为:
其中,
为学生模型的参数,
为标注的隐式篇章关系类别,
表示标注的隐式篇章关系类别
对应的独热编码,
表示预测结果关于标记类别的期望值,
表示经学生模型分类层1后得到关于隐式篇章关系的预测结果,
为训练实例集。
对应于连接词分类的交叉熵分类代价函数表示为:
其中,
为多任务学习学生模型的参数,
表示标注的连接词,
表示标注的连接词
对应的独热编码,
表示预测结果关于标注连接词的期望值,
表示经学生模型分类层2后得到关于连接词的预测结果,
为训练实例集。
为了从教师模型中学习融合了连接词信息的分类知识,本发明采用知识蒸馏的方法,基本思想是让学生模型尽可能地模拟教师模型的行为。
一方面,希望多任务学习学生模型和连接词加强的教师模型学到的特征
和
能尽可能地接近,从而实现两个模型在特征抽取层的知识迁移。从教师模型在PDTB数据集上的识别性能远高于学生模型可以看出,教师模型特征
含有比学生模型特征
更多的对隐式篇章关系识别有用的信息。
具体地,定义学生模型中对应于特征抽取层知识蒸馏的代价函数为:
其中,
表示均方误差,
为学生模型的参数,
表示经所述连接词加强的教师模型特征抽取层后得到的特征,
表示经所述多任务学习学生模型特征抽取层后得到的特征,
为训练实例集。
另一方面,希望多任务学习学生模型和连接词加强的教师模型最终的预测结果
和
能尽可能地接近,从而实现两个模型在分类层的知识迁移。以独热编码表示的真实类别标记
可看作是一种硬标记(Hard Label),而教师模型的预测结果
可以看作是一种软标记(Soft Label),通常认为软标记含有更多的类别信息。例如,类别之间的相似度信息。具体地,定义多任务学习学生模型中对应于分类层知识蒸馏的代价函数为:
其中,
表示两个概率分布之间的KL(Kullback-Leibler)距离,
为带连接词信息的隐式篇章关系训练实例,
表示经所述连接词加强的教师模型分类层后得到的预测结果,
表示所述多任务学习学生模型分类层1后得到的预测结果。
最后,多任务学习学生模型总代价函数定义为基于多任务学习的代价函数和基于知识蒸馏的代价函数的线性求和。
具体的,多任务学习学生模型总代价函数表示为:
其中,
为学生模型的参数,
分别为基于多任务学习的代价函数和基于知识蒸馏的代价函数的权重系数;基于多任务学习的代价函数包括两部分:
为对应于隐式篇章关系识别的交叉熵代价函数,
为对应于连接词分类的交叉熵代价函数;基于知识蒸馏的代价函数包括两部分:
为对应于特征抽取层知识蒸馏的代价函数,
为对应于分类层知识蒸馏的代价函数。
S104,迭代最小化所述学生模型总代价函数直至收敛,以输出训练好的学生模型,进而用于识别测试实例的隐式篇章关系。
算法1描述了基于知识蒸馏和多任务学习的篇章关系识别方法的训练过程。
具体的,整个训练过程分成两个阶段:第一阶段基于代价函数
训练连接词加强的教师模型(步骤1~5),第二阶段基于代价函数
训练多任务学生模型(步骤6~12)。为了简洁,算法1中省略了基于验证数据集判定模型是否收敛的步骤,最终训练好的多任务学习学生模型就是需要的隐式篇章关系识别模型。
算法1 训练算法
输出:训练好的多任务学习学生模型
2. 重复以下步骤:
4. 最小化连接词加强的教师模型代价函数
,更新参数
7. 重复以下步骤:
9. 基于训练好的连接词加强的教师模型计算对应的特征
10. 基于训练好的连接词加强的教师模型计算对应的预测结果
11. 最小化多任务学习学生模型代价函数
,更新参数
与此同时,在本发明中,对上述的双向注意力机制分类模型而言,其常用于建模两个句子之间的语义关系,例如,文本蕴含识别、自动问答和句子语义匹配等。
请参阅图4,具体的,上述双向注意力机制分类模型包括编码层、交互层、聚合层以及分类层。其中,上述的特征抽取层由编码层、交互层以及聚合层组成。此外,所述编码层用于学习论元中的词在上下文中的表示,所述编码层表示为:
其中,
分别为论元1中的第
个词的词向量及其在上下文中的表示,
分别为论元2中的第
个词的词向量及其上下文中的表示,
和
分别是两个论元中词的个数,
均为双向长短时记忆网络。
所述交互层表示为:
其中,
为一个全连接的多层前馈神经网络,
为论元1中第
个词和论元2中第
个词的相关性权重;
为与论元1中第
个词相关的论元2中的词的表示,
为与论元2中第
个词相关的论元1中的词的表示,
为另一个全连接的多层前馈神经网络,
表示向量的拼接操作,
和
可看作是学到的局部语义关系表示。
上述的聚合层基于局部语义关系表示计算全局语义关系
。其表达式具体如下所示:
其中,
表示经特征抽取层抽取后得到的特征,在学生模型和教师模型中分别表示为
和
。
此外,分类层用于计算最终的分类结果。具体如下所示:
其中,
由一个全连接的多层前馈神经网络和一个
层组成;
是最终的分类结果。
对连接词加强的教师模型而言,可直接基于上述双向注意力机制分类模型构建,仅需以连接词加强输入,即模型的输入为
,具体地,把连接词
拼接在
中论元2的开头,作为新的论元2。学习到的特征表示为
,预测结果表示为
。
对多任务学习学生模型而言,需要简单扩展上述双向注意力机制分类模型构建,隐式篇章关系识别任务和连接词分类任务共享特征抽取层,但分别使用各自的分类层。具体地,对输入实例
,经过共享特征抽取层得到的特征为
,然后,基于分类层1计算对应于隐式篇章关系识别的预测结果为:
其中,
由一个全连接的多层前馈神经网络和一个
层组成;基于分类层2计算对应于连接词分类的预测结果为:
其中,
由一个全连接的多层前馈神经网络和一个
层组成。
本发明提出的基于知识蒸馏和多任务学习的篇章关系识别方法,以标注了连接词和类别的隐式篇章关系实例作为训练实例,目的是充分利用语料标注时插入的连接词信息;首先基于双向注意力机制分类模型构造连接词加强的教师模型,以连接词作为额外的输入,迭代最小化其代价函数直至收敛,以得到训练好的教师模型;然后对所构建的多任务学生模型进行训练,基于多任务学习和知识蒸馏的方法构建总代价函数,对总代价函数进行最小化迭代处理直至收敛,从而输出训练好的多任务学习学生模型。
本发明提出的基于知识蒸馏和多任务学习的篇章关系识别方法,一方面,基于参数共享的方式(共享的特征抽取层)在连接词分类辅助任务和隐式篇章关系识别主任务之间共享知识,另一方面,将连接词增强的教师模型中的知识基于知识蒸馏技术从特征抽取层和分类层迁移到相应的隐式篇章关系识别模型(多任务学习学生模型)中,以充分利用语料标注时插入的连接词信息提高学生模型的识别性能。本发明提出的方法,在常用PDTB数据集的第一级和第二级隐式篇章关系上,比同类方法取得了更好的识别性能。
请参阅图5,对于本发明第二实施例提出的基于知识蒸馏和多任务学习的篇章关系识别装置,其中,所述装置包括依次连接的训练输入模块111、第一构造模块112、第二构造模块113以及训练输出模块114;
其中所述训练输入模块111具体用于:
以标注了连接词与隐式篇章关系类别的隐式篇章关系实例作为训练实例;
所述第一构造模块112具体用于:
基于双向注意力机制分类模型构造连接词加强的教师模型,以所述连接词作为额外输入,对所述连接词加强的教师模型对应的代价函数进行迭代最小化处理直至收敛,以得到训练好的教师模型;
所述第二构造模块113具体用于:
基于所述双向注意力机制分类模型构造多任务学习学生模型,引入连接词分类作为辅助任务,以确定基于多任务学习的代价函数,利用所述训练好的教师模型计算训练实例的特征和预测结果,以确定基于知识蒸馏的代价函数,继而确定学生模型总代价函数;
所述训练输出模块114具体用于:
迭代最小化所述学生模型总代价函数直至收敛,以输出训练好的学生模型,进而用于识别测试实例的隐式篇章关系。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。