CN117648915A

CN117648915A - 一种基于知识图谱的问答题评分方法及系统

Info

Publication number: CN117648915A
Application number: CN202311427669.4A
Authority: CN
Inventors: 牟昊; 黄于晏; 何宇轩; 徐亚波; 李旭日
Original assignee: Guangdong Hengqin Shushushuo Story Information Technology Co ltd
Current assignee: Guangdong Hengqin Shushushuo Story Information Technology Co ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-03-05

Abstract

本发明公开了一种基于知识图谱的问答题评分方法及系统，涉及自动评测领域。所述方法包括：采用监督学习方法训练知识点关系联合抽取模型；通过知识点关系联合抽取模型分别抽取参考答案与候选答案中的知识点及关系，构建成对的句子级知识图谱；训练图结构相似度衡量模型，以用于计算图结构相似度分值；训练句子对表述相似度衡量模型，以用于计算句子对相似度分值；获取目标问答题的参考答案和回答答案，利用知识点关系联合抽取模型、图结构相似度衡量模型和句子对表述相似度衡量模型，得到图结构相似度分值和句子对相似度分值进而输出回答答案相对于参考答案的总得分。相较于现有技术，本发明充分利用了逻辑关系与结构信息，提高了反馈质量和效率。

Description

一种基于知识图谱的问答题评分方法及系统

技术领域

本发明涉及自动评测技术领域，更具体地，涉及一种基于知识图谱的问答题评分方法及系统。

背景技术

问答题，是一种考察答题者的基础能力、语句能力、概括能力和逻辑能力的可靠方法，其回答属于开放性和发挥性题目，没有唯一的标准答案，因此，问答题的批阅过程相对复杂，并需要考察多个知识点。而针对答题者答题内容的反馈本身是一件需要消耗大量时间成本的工作，反馈者除了对答题情况进行评分外，有时还要通过答题情况对答题者的知识点掌握情况进行判断，根据薄弱的部分给出针对性的意见和建议，并通过人工的评分方法对成千上万中答案进行反馈，耗时耗力，且存在答案错误类别相似，但仍然需要重复给出相似反馈的情况。

随着人工智能大模型的广泛应用，推动了其在教育行业中的普及使用，大模型的问答能力能在一定程度上作为反馈者为答题者进行答疑和评估。现有技术通常是基于句子的表面信息或意思信息，如句子情感、句子顺序、句子部分、句法结构、关键词和词性，利用自然语言处理技术构建模型框架，比较回答答案与参考答案之间的意思相似度，但其忽视了问答题中所包含的大量逻辑关系与结构信息。

发明内容

本发明为克服上述现有技术未有效利用逻辑关系与结构信息的缺陷，提供一种基于知识图谱的问答题评分方法及系统。

为解决上述技术问题，本发明的技术方案如下：

第一方面，一种基于知识图谱的问答题评分方法，包括：

采用监督学习方法训练知识点关系联合抽取模型；

通过所述知识点关系联合抽取模型分别抽取关于问答题的参考答案与候选答案中的知识点及关系，构建成对的句子级知识图谱；构建图结构相似度衡量模型，并利用所述句子级知识图谱训练所述图结构相似度衡量模型，以用于计算图结构相似度分值；

构建句子对表述相似度衡量模型并对其进行训练，以用于计算关于各个所述知识点的句子对相似度分值；

获取目标问答题的参考答案和回答答案，利用所述知识点关系联合抽取模型、所述图结构相似度衡量模型和所述句子对表述相似度衡量模型，得到关于所述回答答案的所述图结构相似度分值和所述句子对相似度分值，根据所述图结构相似度分值和所述句子对相似度分值输出所述回答答案相对于所述参考答案的总得分。

第二方面，一种基于知识图谱的问答题评分系统，包括：

知识点关系抽取模块，用于搭载完成训练的知识点关系联合抽取模型；还用于抽取关于目标问答题的参考答案与回答答案中的知识点及关系，构建成对的句子级知识图谱；

图结构相似度衡量模块，用于搭载完成训练的图结构相似度衡量模型；还用于基于所述句子级知识图谱，计算所述参考答案与所述回答答案间的图结构相似度分值；

句子对表述相似度衡量模块，用于搭载完成训练的句子对表述相似度衡量模型；还用于计算所述参考答案与所述回答答案间关于各个所述知识点的句子对相似度分值；

反馈模块，用于基于所述图结构相似度分值和所述句子对相似度分值输出回答答案相对于所述参考答案的总得分。

与现有技术相比，本发明技术方案的有益效果是：

本发明公开了一种基于知识图谱的问答题评分方法及系统，所述方法基于文本挖掘原理，通过训练得到的知识点关系联合抽取模型抽取问答题的参考答案与候选答案中的知识点和关系，并构建句子级知识图谱后由图结构相似度衡量模型计算图结构相似度分值，由句子对表述相似度衡量模型计算得到句子对相似度分值，根据图结构相似度分值与句子对相似度分值得到回答答案相对于参考答案的总得分。相较于现有技术，本发明挖掘了答案中的知识信息和逻辑关系，结合语义匹配和逻辑图匹配，即匹配了目标文本(候选答案或回答答案)和样例文本(参考答案)的语义和逻辑关系，充分利用逻辑关系与结构信息，具有泛化性，可适用于跨学科场景及模型能力评测场景，提高了问答题评分的质量和效率。

附图说明

图1为本发明实施例1中基于知识图谱的问答题评分方法的流程示意图；

图2为本发明实施例1及实施例2中反馈流程示例图；

图3为本发明实施例1中知识点及关系抽取的流程示意图；

图4为本发明实施例1中图结构相似度分值的获取流程示意图；

图5为本发明实施例1中句子对相似度分值的获取流程示意图；

图6为本发明实施例2中另一基于知识图谱的问答题评分方法的流程示意图；

图7为本发明实施例3中一种基于知识图谱的问答题评分系统的结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提出一种基于知识图谱的问答题评分方法，包括：

采用监督学习方法训练知识点关系联合抽取模型；

该实施例通过分别训练知识点关系联合抽取模型、图结构相似度衡量模型和句子对表述相似度衡量模型，并构建了句子级知识图谱，使得它们可分别具备抽取知识点及关系、计算图结构相似度分值，以及计算句子对相似度分值的能力，进而可挖掘出答案中的知识信息和逻辑关系，结合语义匹配和逻辑图匹配，即匹配了目标文本(候选答案或回答答案)和样例文本(参考答案)的语义和逻辑关系，实现对问答题的自动评分校验，充分利用逻辑关系与结构信息，具有泛化性，可适用于跨学科场景(如跨学科教育)，提高了问答题评分的质量和效率。

本领域技术人员应当理解，所述问答题可以是论述题、主观题(自由应答题)，也可以是其它带有逻辑信息和知识点的问答任务；该实施例中所述候选答案为训练模型时使用的答案，一个问答题可以只有一个候选答案，也可以有若干个候选答案，且所述候选答案可以与参考答案完全相同，可以与参考答案不完全相同，也可以与参考答案完全不相同，由本领域技术人员根据实际自行设定；所述回答答案为将模型用于推理和生成时使用的答案，其可以与训练时所使用的候选答案完全相同，可以与候选答案不完全相同，也可以与候选答案完全不相同。此外，所述候选答案和/或回答答案可以是由大模型生成的，也可以是由人类(如学生)提供的，本领域技术人员应当理解，本实施例可用于对大模型进行能力评测。同样地，所述目标问答题指代各个模型用于推理时所处理的问答题，其可以与训练时使用的问答题完全一致，也可以不一致。

需要说明的是，针对目标问答题的参考答案和回答答案，所述利用所述知识点关系联合抽取模型、所述图结构相似度衡量模型和所述句子对表述相似度衡量模型，得到关于所述回答答案的所述图结构相似度分值和所述句子对相似度分值，包括：

利用所述知识点关系联合抽取模型分别抽取所述参考答案和所述回答答案的知识点及关系，并构建对应的所述句子级知识图谱；

根据所述知识点及关系，以及所述句子级知识图谱，利用所述图结构相似度衡量模型和所述句子对表述相似度衡量模型，得到关于所述回答答案的所述图结构相似度分值和所述句子对相似度分值。

其中，利用所述知识点关系联合抽取模型分别抽取所述参考答案和所述回答答案的知识点及关系，并构建对应的所述句子级知识图谱，其生成结果有所述参考答案的知识点及关系、所述回答答案的知识点及关系、所述参考答案对应的句子级知识图谱，和所述回答答案对应的句子级知识图谱。

作为非限制性示例，本领域技术人员可以根据实际情况采用包括但不限于乘法融合法(Multiplicative Fusion)、加法融合法(Additive Fusion)、最大值融合法(MaximumFusion)中的至少之一，以根据所述图结构相似度分值和所述句子对相似度分值输出所述回答答案相对于所述参考答案的总得分。

需要说明的是，所述乘法融合法包括将图结构相似度分值和句子对相似度分值相乘，然后将乘积作为总评分；

所述加法融合法包括将图结构相似度分值和句子对相似度分值相加，然后将和作为总评分；

所述最大值融合法包括将图结构相似度分值和句子对相似度分值中较高的一个作为总评分。

在一些示例中，当所述图结构相似度分值与所述句子对相似度分值间存在正相关关系时，采用乘法融合法；

在一些示例中，当所述图结构相似度分值与所述句子对相似度分值间相关性为独立时(即一个分值的高低不会影响另一个分值的高低)，采用加法融合法；

在另一些示例中，当所述图结构相似度分值与所述句子对相似度分值间存在“天花板效应”时(即如果一个分值非常高，那么另一个分值即使不太高，也会被选择用于输出总评分)，采用最大值融合法。

在一具体实施过程中，采用加法融合法，参阅图2，对于回答答案，通过所述图结构相似度衡量模型计算得到一个针对参考答案的图结构相似度分值Score_logit；通过句子对表述相似度衡量模型计算得到一个针对N个知识点的句子对相似度分值，记录为字典Knowledge_point_dict，字典的key为知识点、value为对应得分，具体为Knowledge_point_dict＝

{知识点1:Score₁，知识点2:Score₂……知识点N:Score_N}，由于不同问答题的知识点数量不同，采用加权平均方法得到所述句子对相似度分值的总值(即全部知识点的得分)Score_knowledge_point；根据图结构相似度分值Score_logit和句子对相似度分值的总值Score_knowledge_point得到一个总评分，其表达式为：

总得分＝Score_logit*a+Score_knowledge_point*b

式中，a、b表示权重系数，由本领域技术人员根据实际自行设定。

作为非限制性示例，a、b均为0.5。

在一优选实施例中，所述采用监督学习方法训练知识点关系联合抽取模型，参阅图3，包括：

获取知识点关系联合抽取数据集；其中，所述知识点关系联合抽取数据集包括参考答案和候选答案，所述参考答案和候选答案标注有关于知识点的实体标注及关于对应关系的关系标注，所述实体标注包括每个实体的起始位置、结束位置以及实体类型标签，所述关系标注包括关系及关系类型标签(如“工作于”、“居住在”等)；

采用第一预训练模型作为基础模型层，在其上添加实体识别层和关系抽取层，作为所述知识点关系联合抽取模型；

采用前向传播，将所述知识点关系联合抽取数据集依次通过基础模型层进行向量表示编码、通过实体识别层进行实体识别并预测实体类型标签，以及通过关系抽取层识别实体对间的关系并为每对关系预测关系类型标签；

使用第一损失函数计算预测标签与实际标签间的损失，包括实体识别损失和关系抽取损失，采用SGD(Stochastic gradient descent，随机梯度下降)经反向传播更新所述知识点关系联合抽取模型的权重参数，以最小化第一损失函数，直至训练结束。

该优选实施例中采用了监督学习方法，所述知识点关系联合抽取模型通过学习带有标注的数据(即知识点关系联合抽取数据集)，主动归纳不同输出类别对应的输入特征，使得其具备从文本中同时识别命名实体和它们之间的关系的能力，并应用到新数据的预测。

需要说明的是，该优选实施例中，实体可以理解为知识点，关系代表知识点之间的关系，所述参考答案和候选答案为包含有实体和关系的文本。

在一些示例中，所述知识点关系联合抽取数据集中，所述实体类型标签包括但不限于人名、组织名、学科名、原理名称、公式等。

本领域技术人员应当理解，所述第一预训练模型可以是基于transformer的模型，也可以不是基于transformer的模型，其输出通常是每个输入token的向量表示，用于后续的实体关系抽取任务。在一些示例中，所述第一预训练模型包括但不限于BERT、Retnet和Roberta中的至少一种。

此外，本领域技术人员还应当理解，token(标记)是根据NLP任务的需要定义的最小文本单位，它可以是单词、子词或字符，取决于任务的要求和文本的语言。在NLP模型中，文本通常首先被分解成token，然后这些token被编码成向量以供模型处理。

在针对中文的Transformer或其他自然语言处理模型中，token通常是一个汉字词组或一个中文字符。在中文文本中，通常将一个中文字符或词组为一个token，部分情况下可能出现一个中文字符或词组对应多个token。例如，在句子"我爱中国"中，有三个词组("我"、"爱"、"中国")，因此有三个token。

在一些示例中，所述实体识别层中采用CRF(条件随机场)为每个token分配实体类型标签。

在一些示例中，在训练所述知识点关系联合抽取模型时，将所述知识点关系联合抽取数据集按8:1:1的比例划分训练集、测试集和验证集；利用测试集来评估模型性能，包括实体识别和关系抽取的精度、召回率、F1分数等指标；当模型在验证集上表现良好或者达到预设训练轮次时停止训练。在训练过程中，可以使用如批次归一化、学习率衰减、数据增强等方法来提高模型性能，具体方法由本领域技术人员根据业务需求和数据情况自行设定。

在一优选实施例中，构建所述句子级知识图谱，以及利用所述句子级知识图谱训练所述图结构相似度衡量模型，参阅图4，包括：

获取图谱基础数据；其中，所述图谱基础数据包括成对的参考答案和候选答案，所述候选答案标注有真实图结构相似度分值和真实相关性标签；

利用所述知识点关系联合抽取模型对参考答案和候选答案分别抽取知识点及关系，构建成对的由实体节点和关系边组成的句子级知识图谱；所述句子级知识图谱中，每个知识点表示一个实体节点，每个关系表示一条边；

对于每个所述句子级知识图谱，利用第二预训练模型将知识点表示成节点向量、将知识点间的关系表示成边向量，并为每个所述句子级知识图谱构建邻接矩阵和节点特征矩阵；

构建所述图结构相似度衡量模型，基于所述句子级知识图谱构建邻接矩阵和节点特征矩阵，得到参考答案图谱向量表征和候选答案图谱向量表征；其中，所述图结构相似度衡量模型包括输入层和GCN层；所述输入层用于接收所述句子级知识图谱的对应所述邻接矩阵和所述节点特征矩阵；所述GCN层为多层结构，每一层用于更新节点表示，从而逐渐聚合邻近节点的信息，得到对应所述句子级知识图谱的最终表示；

基于余弦相似度计算成对的所述参考答案图谱向量表征和候选答案图谱向量表征间的图结构相似度分值；

将所述参考答案图谱向量表征和候选答案图谱向量表征拼接后输入至一个分类器中进行二分类，生成相关性标签，用于表示成对的所述参考答案和候选答案间的文本相关性；

使用第二损失函数计算预测的图结构相似度分值与真实图结构相似度分值间的损失，使用第三损失函数计算预测的相关性标签与真实相关性标签间的损失，并通过反向传播结合SGD进行模型权重参数更新，使得所述图结构相似度分值尽量逼近所述真实图结构相似度分值，直至训练结束。

该优选实施例中，成对的所述句子级知识图谱为利用所述知识点关系联合抽取模型对参考答案和候选答案分别抽取知识点及关系，构建得到的两个小型的知识图谱，为由实体节点和关系边组成的图结构，表示了答案中的实体及其相互关系。

需要说明的是，所述图结构相似度衡量模型(sentence-GCN)中，每个所述输入层的输入为一个所述句子级知识图谱的邻接矩阵和节点特征矩阵。在该优选实施例中，采用两个输入层对应基于参考答案得到的句子级知识图谱和基于候选答案得到的句子级知识图谱，随后通过双塔的GCN(Graph Convolutional Network，图卷积网络)层分别接收输入层输出的图谱特征。

本领域技术人员应当理解，双塔结构为双分支模型，该优选实施例中，每个分支包含一个输入层、若干层GCN，输出图谱的整体表示，即参考答案图谱向量表征和候选答案图谱向量表征。

需要强调的是，所述GCN层的层数由本领域技术人员根据实际自行设定。在一些示例中，所述GCN层为三层式结构。

此外，本领域技术人员应当理解，GCN是一种基于图的神经网络，它可以对图中的节点和边进行编码。在输入邻接矩阵和节点特征矩阵后，GCN会通过多层卷积操作来更新节点的特征表示，同时保留节点之间的关系。具体来说，GCN会对每个节点的特征向量进行线性变换，然后将其与邻居节点的特征向量进行加权平均。这个加权平均的过程可以通过邻接矩阵来实现，邻接矩阵中的每个元素表示两个节点之间是否存在边。在加权平均的过程中，GCN会对邻接矩阵进行归一化，以避免节点度数对加权平均的影响。在每一层卷积操作之后，GCN会应用非线性激活函数来增加模型的表达能力。最终，GCN会输出更新后的节点特征矩阵，其中每一行对应一个节点的特征表示(即图谱向量表征)。总的来说，GCN通过多层卷积操作来编码节点和节点关系，同时保留图的结构信息，这使得GCN在处理图数据时具有很好的表达能力和泛化能力。

本领域技术人员还应当理解，所述图结构相似度衡量模型在完成训练后用于推理时，输出为参考答案图谱向量表征和回答答案图谱向量表征；在将句子级知识图谱输入所述图结构相似度衡量模型前，需要对所述句子级知识图谱进行向量化表示，并转换成对应的邻接矩阵和节点特征矩阵。

还需要说明的是，一个包含实体节点特征的节点特征矩阵n为实体节点个数，矩阵的每个元素是节点经过第二预训练模型(如bert、albert等)输出的D维语义特征向量，D和第二预训练模型的种类大小有关；在一些示例中，采用768维。

此外，一个包含实体关系特征的邻接矩阵n为实体节点个数，矩阵的元素是一个分数，代表实体之间的关系信息，其构建过程如下：

首先将语料库中全部的实体类型的组成一个词典，R＝{relation1:1,relation2:2,…,relationt:t}；然后用图谱中的的实体构建一个n×n的矩阵e_ij代表第i个实体和第j个实体之间的关系类型，通过词典R将实体关系类型转换成实体关系的索引数字；然后加入一个向量化的操作emb(e)，将矩阵中每种实体关系类型转换成一个d_L维度的关系嵌入向量，最后再和/>和/>两个可学习的参数矩阵相乘，再进行归一化操作，得到一个邻接矩阵A^er，A^er＝emb(e)W_LW_S。

在一些示例中，根据图谱进行分组，将所有的候选答案和参考答案两两构成一组，通过候选答案的真实图结构相似度分值归一化表示一个候选答案和参考答案的相似度，如70分表示相似度为70％，或者采用0.7分表示相似度为70％。

在一些示例中，设定阈值80％，当候选答案和参考答案间的相似度大于等于阈值时，对所述候选答案标记真实相关性标签“1”代表文本相关，当候选答案和参考答案间的相似度低于阈值时，对所述候选答案标记真实相关性标签“0”代表文本不相关，用于此后的二分类任务。

需要说明是，所述分类器用于将模型的输出转换为分类结果。在一些示例中，所述分类器包括一个全连接层和一个Softmax层，用于根据成对的两个图谱向量表征(即所述参考答案图谱向量表征和候选答案图谱向量表征)生成一个分类结果，如“0”或“1”，表示对应的两个句子级知识图谱是否相似。

本领域技术人员应当理解，全连接层的作用是将模型的输出转换为分类结果的得分，即对每个类别都计算一个得分值，全连接层的输入是图结构相似度衡量模型的输出，输出是一个向量，向量的每个元素对应一个类别的得分值；Softmax层的作用是将得分值转换为概率值，即对每个类别都计算一个概率值。Softmax层的输入是全连接层的输出，输出是一个向量，向量的每个元素对应一个类别的概率值。

该优选实施例中的总损失L＝L1+L2，以最小化总损失(即分别最小化L1和L2)为目标来更新所述图结构相似度衡量模型；在一些示例中，采用MSE(Mean Squared Error)均方误差作为第二损失函数L1，采用交叉熵作为第三损失函数L2。

需要强调的是，若仅采用第二损失函数L1来更新所述图结构相似度衡量模型，即仅进行文本相似度训练，则模型生成的图结构相似度分值逼近真实图结构相似度分值的任务难度大，模型难以收敛。而该优选实施例通过增加一个句子对相关与否的二分类任务，同时训练文本相似度和文本相关性分类任务，能够加强对模型的约束，使得模型能够加强对相似和不相似答案的区分，在这一基础上再进行相似度分值的逼近，模型更易收敛，学习难度明显下降。

本领域技术人员应当理解，所述分类器会在训练过程中进行更新，但在利用所述图结构相似度衡量模型进行推理时，不需要使用所述分类器。

此外，针对模型用于推理时所处理的目标问答题，本领域技术人员应当理解，在构建得到所述参考答案和所述回答答案的句子级知识图谱后，需要为每个所述句子级知识图谱构建邻接矩阵和节点特征矩阵再输入到所述图结构相似度衡量模型的输入层中。

在一优选实施例中，所述构建句子对表述相似度衡量模型并对其进行训练，参阅图5，包括：

构建句子对数据集；所述句子对数据集包括若干个命中相同知识点的句子对，每个所述句子对标注有真实句子对相似度分值标签及句子中包含的知识点的对应首尾索引；

利用所述首尾索引对所述句子对中的知识点进行掩码处理，得到掩码向量；

采用基于transformer的第三预训练模型接收所述掩码向量以控制所述第三预训练模型的注意力机制计算，并将所述句子对编码为成对的句子向量表示；

基于余弦相似度计算成对的所述句子向量表示间的句子对相似度分值；

使用第四损失函数计算预测的句子对相似度分值与真实句子对相似度分值标签间的损失，并通过反向传播结合SGD进行模型权重参数更新，最小化第四损失函数，直至训练结束，将完成训练的所述第三预训练模型作为所述句子对表述相似度衡量模型(Sentence-transformer)。

在一些示例中，所述第三预训练模型包括但不限于BERT、RoBERTa、DistilBERT中的至少一种。

在一些示例中，所述句子对数据集按8:1:1的比例划分为训练集、验证集和测试集，用于后续所述第三预训练模型的训练、调优和性能评估。

需要说明的是，所述真实句子对相似度分值标签为满分或零分，表示所述句子对的相似结果为相似或不相似。

在一些示例中，句子对表述相似的真实句子对相似度分值标签为1、不相似的真实句子对相似度分值标签为0，则所述句子对表述相似度衡量模型生成的句子对相似度分值为一个0-1的概率小数。

在一些示例中，采用MSE作为所述第四损失函数。

在一可选实施例中，所述构建句子对数据集，包括：

对所述参考答案和所述候选答案进行分句，分别得到第一分句结果和第二分句结果；

利用所述知识点对所述第一分句结果和所述第二分句结果进行匹配，将包含有相同知识点的任一所述第一分句结果与任一所述第二分句结果组合为成对的句子对，并对所述句子对中知识点的首尾索引进行标注；

对所述句子对分配真实句子对相似度分值标签，以表示所述句子对中的所述第一分句结果与所述第二分句结果的相似程度，完成所述句子对数据集的构建。

该可选实施例中，将包含有相同知识点的句子(即分句结果)构建为句子对，进而后续通过第三预训练模型进行编码，生成语义丰富的句子表示。其中。所述第一分句结果对应参考答案，所述第二分句结果对应候选答案(推理时对应回答答案)。

在一可选实施例中，所述利用所述首尾索引对所述句子对中的知识点进行掩码处理，包括：

引入与所述句子对对应的二元向量作为所述掩码向量，根据所述首尾索引指定所述掩码向量中的元素值；

所述第三预训练模型根据所述掩码向量对所述句子对中的知识点进行掩码，即将其编码为指定标志。

本领域技术人员应当理解，该可选实施例中，借助知识点文本所在的索引，将知识点文本中的单词或子词替换为"[MASK]"符号。所述掩码向量通常是与输入文本长度相同的二元向量，用于指示哪些token是MASK(知识点文本)，哪些token不是。在一些示例中，采用“0”表示MASK，“1”表示非MASK。

在一些示例中，所述候选答案/回答答案为“这是一个关于【知识点】的问题”，那么相应的掩码向量可以是[1,1,1,1,0,0,0,1,1,1]，其中“0”对应于知识点文本的位置。

进一步地，所述第三预训练模型中，将所述句子对编码为成对的句子向量表示，包括：

将所述句子对编码为初始句子向量；

根据所述掩码向量，采用注意力机制对所述初始句子向量计算排除掩码后的注意力矩阵，其表达式为：

Amasked＝A⊙M

式中，⊙表示逐元素相乘；M表示掩码向量，A表示初始的注意力矩阵，Amasked表示经掩码处理后的注意力矩阵；

对经掩码处理后的注意力矩阵Amasked使用softmax函数进行归一化，将所述注意力矩阵中每一行的注意力分数转化为概率分布，得到注意力权重矩阵；

利用所述注意力权重矩阵对所述初始句子向量进行线性加权，生成对应的所述句子向量表示。

本领域技术人员可以理解，所述句子向量表示为加权句子向量表示。

需要说明的是，在基于transformer的模型中，通常会计算一个注意力矩阵，用于表示输入句子中每个token与其他token之间的相关性。这个注意力矩阵是一个方阵，其维度等于输入句子的长度。对于每一对token，都会计算一个相关性分数。该实施例中引入了一个控制机制，将句子中的知识点进行掩码处理，即将其token为指定标志(如[MASK])，这样在注意力机制计算时，模型会忽略这些token本身的语义，以确保模型在计算句子对相似度时更加关注候选答案/回答答案文本和参考答案文本的表述方式，同时降低了知识点文本对模型的影响。基于该方式，可提高所述句子对表述相似度衡量模型的学科泛化性，兼容不同的学科知识点，确保模型在处理文本对时不受知识点文本的干扰，更好地关注表述方式的相同与否。

实施例2

本实施例在实施例1的基础上进一步提出一种基于知识图谱的问答题评分方法，参阅图2、图6，包括：

构建问答题知识图谱；

采用监督学习方法训练知识点关系联合抽取模型；

构建评语生成模型，利用所述问答题知识图谱和所述句子对相似度分值训练所述评语生成模型；

获取目标问答题的参考答案和回答答案，利用所述知识点关系联合抽取模型分别抽取所述参考答案和所述回答答案的知识点及关系，并构建对应的所述句子级知识图谱；

根据所述知识点及关系，以及所述句子级知识图谱，利用所述图结构相似度衡量模型和所述句子对表述相似度衡量模型，得到关于所述回答答案的所述图结构相似度分值和所述句子对相似度分值，根据所述图结构相似度分值和所述句子对相似度分值输出所述回答答案相对于所述参考答案的总得分；

利用所述评语生成模型和所述问答题知识图谱，根据所述回答答案生成拟定学习计划和/或拟定答题评语。

在一优选实施例中，所述构建问答题知识图谱，包括：

获取问答题的关联语料数据；

对所述关联语料数据依次进行文本预处理，得到语料数据库；

对所述语料数据库进行事件抽取和事件共指融合，构建事理图谱；

对所述语料数据库进行知识点和关系抽取、知识聚合和本体构建，构建知识图谱；

将所述事理图谱和所述知识图谱进行关联融合，形成所述问答题知识图谱并存储；

所述利用所述问答题知识图谱和所述句子对相似度分值训练所述评语生成模型，包括：

将所述句子对相似度分值不满足预设相似度阈值的对应知识点作为薄弱知识点，利用所述问答题知识图谱检索出每个薄弱知识点对应的关联知识点及关系；

获取问答题评语数据集，包括成对的输入数据和输出数据；其中，所述输入数据包括薄弱知识点、关联知识点与对应关系，以及相应的答题情况概述，所述输出数据包括对应的真实学习计划和/或真实答题评语；

利用所述问答题评语数据集对第四预训练模型进行微调训练，令所述第四预训练模型生成拟定学习计划和/或拟定答题评语；

使用交叉熵作为第五损失函数，并通过反向传播结合梯度下降算法进行模型权重参数更新，最小化第五损失函数，直至训练结束，将训练完毕的所述第四预训练模型作为所述评语生成模型。

需要说明的是，所述薄弱知识点、关联知识点与对应关系包括薄弱知识点本身、关联知识点本身，以及薄弱知识点与关联知识点间的关系、不同薄弱知识点间的关系、不同关联知识点间的关系；其中，所述关联知识点表示通过问答题知识图谱寻找到的与所述薄弱知识点相关的上下游知识点。

在一些示例中，通过爬虫技术获取与问答题相关的关联语料数据构建所述语料数据库；

在另一些示例中，采用开源的知识图谱数据构建语料数据库。

在一些示例中，所述文本预处理包括但不限于分词、词性标注。

需要说明的是，所述事理图谱的构建过程本质上是挖掘事件之间关系的过程，而从自然语言处理的角度理解，就是挖掘代表事件的名词或者名词性短语及其内部关系的过程，因此可以看作一个序列标注的问题。

在一些示例中，采用W2Ner的模型框架，并结合预训练模型Retnet(RetentiveNetworks)，先进行因果对抽取，在找到事件和相应关系后，再通过层次聚类的方法进行事件共指融合，即通过聚类方式对图谱中节点进行调整，得到示例图谱。

在一些示例中，采用Roberta-base+globalPointer的模型框架对语料数据库进行实体和关系抽取，采用可传输的句法图模型得到实体对之间关系；进一步地，由于语料数据库中可能存在实体消歧和共指消解的问题，可以采用人工方式解决以完成知识融合，确保知识的准确性；最后针对不同领域知识进行相应本体构建，以过滤之前得到的知识。

在一些示例中，采用图数据库Neo4j对所述事理图谱和所述知识图谱进行融合存储，得到所述问答题知识图谱。本领域技术人员应当理解，所述问答题知识图谱可编辑，可随着数据增加或者外部知识图谱进行不断的扩充。

在一些示例中，所述句子对相似度分值以字典形式记录为Knowledge_point_dict，字典内各知识点的得分为0-1的概率小数，设置相似度阈值为0.8，将低于0.8的知识点作为薄弱知识点，通过前述构建的所述问答题知识图谱进行检索得到关联知识点及其关系。

作为非限制性示例，关联知识点及其关系的检索方式包括以下至少之一：

(1)直接在所述问答题知识图谱的对应数据库中进行检索，如在neo4j中基于特定查询语法进行检索；

(2)采用向量表征模型(如图卷积模型)将所述问答题知识图谱中的节点和关系转换成向量表征，并将所有的向量表征存储在向量检索库(如faiss)中，薄弱知识点也经过向量表征模型转化为向量，在向量检索库中检索最相关的指定数量的实体和关系；

(3)将(1)和(2)的结果取交集。

在一些示例中，所述第四预训练模型包括但不限于LLaMA、Palm、GLM、BLOOM、GPT中的至少之一。

本领域技术人员应当理解，在训练过程中，需要将数据集中的样本转化为模型可接受的输入格式，如将输入的薄弱知识点、关联知识点和答题情况的概述转化为文本序列；在一些示例中，将数据转换为json格式。

在所述第四预训练模型的微调训练过程中，本领域技术人员可以通过设置合适的超参数，如学习率、批处理大小等，以优化模型的性能。

实施例3

本实施例提出一种知识图谱的问答题评分系统，应用实施例1或实施例2提出的方法，参阅图7，包括：

在一优选实施例中，所述系统还包括问答题知识图谱存储模块，用于存储和检索问答题知识图谱；所述反馈模块还搭载有完成训练的评语生成模型，用于针对所述回答答案生成拟定学习计划和/或拟定答题评语。

需要说明的是，上述模块中搭载的模型的对应训练方法可参阅实施例1和/或实施例2，在此不再重复描述。可以理解，本实施例的系统对应于上述实施例1和/或实施例2的方法，上述实施例1和/或实施例2中的可选项同样适用于本实施例，故在此不再重复描述。

实施例4

本实施例提出一种计算机可读存储介质，所述存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，使得所述处理器执行实施例1或实施例2中所述方法的部分或全部步骤。

可以理解，所述存储介质可以是瞬时性的，也可以是非瞬时性的。示范性地，所述存储介质包括但不限于U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机访问存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

示范性地，所述处理器可以为中央处理器(Central ProcessingUnit，CPU)、微处理器(Microprocessor Unit，MPU)、数字信号处理器(Digital SignalProcessor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

在一些示例中提供一种计算机程序产品，具体可以通过硬件、软件或其结合的方式实现。作为非限制性示例，所述计算机程序产品可以体现为所述存储介质，还可以体现为软件产品，例如SDK(Software Development Kit，软件开发包)等。

在一些示例中提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现所述方法中的部分或全部步骤。

本实施例还提出一种电子设备，包括存储器和处理器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述处理器执行所述至少一条指令、至少一段程序、代码集或指令集时实现如实施例1或2中所述方法的部分或全部步骤。

在一些示例中提供一种所述电子设备的硬件实体，包括：处理器、存储器和通信接口；其中，所述处理器通常控制所述电子设备的总体操作；所述通信接口用于使所述电子设备通过网络与其他终端或服务器通信；所述存储器配置为存储由处理器可执行的指令和应用，还可以缓存待处理器以及电子设备中各模块待处理或已经处理的数据(包括但不限于图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(RAM，Random Access Memory)实现。

进一步地，处理器、通信接口和存储器之间可以通过总线进行数据传输，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。

可以理解，上述实施例1或实施例2中的可选项同样适用于本实施例，故在此不再重复描述。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。应理解，在本公开的各种实施例中，上述各步骤/过程的序号的大小并不意味着执行顺序的先后，各步骤/过程的执行顺序应以其功能和内在逻辑确定，而不应对实施例的实施过程构成任何限定。还应理解，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于知识图谱的问答题评分方法，其特征在于，包括：

采用监督学习方法训练知识点关系联合抽取模型；

2.根据权利要求1所述的一种基于知识图谱的问答题评分方法，其特征在于，所述采用监督学习方法训练知识点关系联合抽取模型，包括：

获取知识点关系联合抽取数据集；其中，所述知识点关系联合抽取数据集包括参考答案和候选答案，所述参考答案和候选答案标注有关于知识点的实体标注及关于对应关系的关系标注，所述实体标注包括每个实体的起始位置、结束位置以及实体类型标签，所述关系标注包括关系及关系类型标签；

使用第一损失函数计算预测标签与实际标签间的损失，包括实体识别损失和关系抽取损失，采用SGD经反向传播更新所述知识点关系联合抽取模型的权重参数，以最小化第一损失函数，直至训练结束。

3.根据权利要求1所述的一种基于知识图谱的问答题评分方法，其特征在于，构建所述句子级知识图谱，以及利用所述句子级知识图谱训练所述图结构相似度衡量模型，包括：

使用第二损失函数计算预测的图结构相似度分值与所述真实图结构相似度分值间的损失，使用第三损失函数计算预测的所述相关性标签与所述真实相关性标签间的损失，并通过反向传播结合SGD进行模型权重参数更新，使得所述图结构相似度分值尽量逼近所述真实图结构相似度分值，直至训练结束。

4.根据权利要求1所述的一种基于知识图谱的问答题评分方法，其特征在于，所述构建句子对表述相似度衡量模型并对其进行训练，包括：

使用第四损失函数计算预测的句子对相似度分值与真实句子对相似度分值标签间的损失，并通过反向传播结合SGD进行模型权重参数更新，最小化第四损失函数，直至训练结束，将完成训练的所述第三预训练模型作为所述句子对表述相似度衡量模型。

5.根据权利要求4所述的一种基于知识图谱的问答题评分方法，其特征在于，所述构建句子对数据集，包括：

6.根据权利要求4所述的一种基于知识图谱的问答题评分方法，其特征在于，所述利用所述首尾索引对所述句子对中的知识点进行掩码处理，包括：

7.根据权利要求6所述的一种基于知识图谱的问答题评分方法，其特征在于，所述第三预训练模型中，将所述句子对编码为成对的句子向量表示，包括：

将所述句子对编码为初始句子向量；

Amasked＝A⊙M

8.根据权利要求1-7任一项所述的一种基于知识图谱的问答题评分方法，其特征在于，所述方法还包括构建问答题知识图谱，以及构建评语生成模型后利用所述问答题知识图谱和所述句子对相似度分值训练所述评语生成模型，用于生成拟定学习计划和/或拟定答题评语。

9.根据权利要求8所述的一种基于知识图谱的问答题评分方法，其特征在于，所述构建问答题知识图谱，包括：

获取问答题的关联语料数据；

采用第四预训练模型作为初始的评语生成模型，利用所述问答题评语数据集对所述评语生成模型进行微调训练，令所述第四预训练模型生成拟定学习计划和/或拟定答题评语；

使用交叉熵作为第五损失函数，并通过反向传播结合梯度下降算法进行模型权重参数更新，最小化第五损失函数，直至训练结束。

10.一种基于知识图谱的问答题评分系统，应用权利要求1-9任一项所述方法，其特征在于，包括：