CN114282513A

CN114282513A - 文本语义相似度的匹配方法、系统、智能终端及存储介质

Info

Publication number: CN114282513A
Application number: CN202111620100.0A
Authority: CN
Inventors: 吴闯; 马明珠
Original assignee: Tongcheng Network Technology Co Ltd
Current assignee: Tongcheng Network Technology Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-05

Abstract

本申请涉及人工智能领域中的自然语言处理技术，尤其是一种文本语义相似度的匹配方法、系统、智能终端及存储介质，其中方法包括获取历史数据作为训练样本集，所述训练样本集包括真样本、正样本和负样本；计算所述真样本与所述正样本之间的余弦相似度以及所述真样本和所述负样本之间的余弦相似度，基于计算结果训练预设的文本语义相似度匹配模型；将所述文本语义相似度匹配模型部署到线上平台；基于所述文本语义相似度匹配模型匹配标准问题并反馈至所述线上平台。本申请能够改善客服问题匹配的准确率较低的问题。

Description

文本语义相似度的匹配方法、系统、智能终端及存储介质

技术领域

本申请涉及人工智能领域中的自然语言处理技术，尤其是一种文本语义相似度的匹配方法、系统、智能终端及存储介质。

背景技术

随着计算机互联网络的飞速发展，文本相似度计算在许多领域有着广泛的应用，尤其在现阶段客服问题匹配场景中；客服问题匹配场景的过程如下：客服针对用户提出的问题，通过判断问题的文本相似度，在数据库中检索与之相似的问题，并将检索到的问题反馈给用户。现阶段客服问题匹配场景中，判断文本相似度的方法主要是基于词频评估文本相似度，即统计两个文本中每个词语出现的次数，根据词语出现的次数构建文本向量，再通过计算两个文本向量之间的余弦相似度，反映两个文本之间的相似度。

在实现本申请的过程中，发明人发现上述技术至少存在以下问题：现阶段客服问题匹配场景中，基于词频评估文本相似度脱离了语言环境所带来的语义变化，忽略了用户的语言习惯，从而容易影响文本相似度的判断，导致客服问题匹配的准确率较低。

发明内容

为了改善客服问题匹配的准确率较低的问题，本申请提供一种文本语义相似度的匹配方法、系统、智能终端及存储介质。

第一方面，本申请提供一种文本语义相似度的匹配方法，采用如下的技术方案：

一种文本语义相似度的匹配方法，包括以下步骤：

获取历史数据作为训练样本集，所述训练样本集包括真样本、正样本和负样本；

计算所述真样本与所述正样本之间的余弦相似度以及所述真样本和所述负样本之间的余弦相似度，基于计算结果训练预设的文本语义相似度匹配模型；

将所述文本语义相似度匹配模型部署到线上平台；

基于所述文本语义相似度匹配模型匹配标准问题并反馈至所述线上平台。

通过采用上述技术方案，获取历史数据作为训练样本集，训练样本集包括真样本、正样本和负样本；再基于真样本与正样本的余弦相似度以及真样本与负样本的余弦相似度对文本语义相似度匹配模型进行训练，训练后将文本语义相似度匹配模型部署到线上平台并将标准问题反馈至线上平台，通过对文本语义相似度匹配模型进行训练从而提升用户实际输入的问题与反馈给用户的标准问题的相似度，进而提高客服问题匹配的准确率。

在一个具体的可实施方案中，所述真样本包括用户线上真实输入的问题；所述正样本包括用户选取的所述标准问题和客服针对用户的真实输入配置的所述标准问题；所述负样本包括用户没有选取的所述标准问题；

通过采用上述技术方案，构建足够的训练样本并对样本进行细致地划分，便于模型进行训练从而提升客服问题匹配的准确度。

在一个具体的可实施方案中，所述计算所述真样本与所述正样本之间的余弦相似度以及所述真样本和所述负样本之间的余弦相似度，基于计算结果训练预设的文本语义相似度匹配模型包括：

分别计算所述真样本与所述正样本之间的余弦相似度以及所述真样本与所述负样本之间的余弦相似度，余弦相似度计算公式如下：

C0 = Cosine(T,P)；

C1 = Cosine(T,N1)；

Ck = Cosine(T,Nk)；

其中T代表真样本，P代表正样本，N代表负样本，k代表负样本的个数；

约束所述真样本与所述正样本之间的余弦相似度大于等于所述真样本和所述负样本之间的余弦相似度，约束公式如下：

C0 = Max(C0,C1,…,Ck)。

通过采用上述技术方案，由于在脱离语义环境时有时会出现真样本与负样本的余弦相似度大于真样本与正样本的余弦相似度的情况，因此在文本语义相似度匹配模型的训练过程中需要始终满足真样本与正样本的余弦相似度大于等于真样本与负样本的余弦相似度。

在一个具体的可实施方案中，选取Softmax函数将所述约束公式施加到所述余弦相似度计算公式得到Softmax（C0）：

Softmax(C0) = Max(Softmax(C0), Softmax(C1),…, Softmax(Ck))；

将用户输入的真实问题与用户选取的所述标准问题之间的误差定义为Loss，在Loss的计算过程中，约束所述真样本与所述正样本的余弦相似度始终大于等于所述真样本与所述负样本的余弦相似度，Loss的计算公式如下：

Loss = - log(Softmax(C0))。

通过采用上述技术方案，Loss能够更加形象地表示真样本与正样本的余弦相似度高于真样本与负样本的余弦相似度，当文本语义相似度匹配模型的Loss越小时，则认为文本语义相似度匹配模型预测的结果越准确，通过对文本语义相似度匹配模型训练使Loss能够达到最小值，从而实现模型训练的最终目的。

在一个具体的可实施方案中，基于标注数据对所述文本语义相似度匹配模型进行有监督训练，所述标注数据包括用户真实点击的所述标准问题和用户真实输入的问题。

通过采用上述技术方案，通过标注数据有监督训练文本语义相似度匹配模型，能够使得模型具有对未知数据进行预测和分类的能力。

在一个具体的可实施方案中，随机抽取所述标注数据作为所述真样本与所述正样本相对的所述负样本。

通过采用上述技术方案，随机抽取标注数据作为真样本与正样本相对的负样本，通过随机抽取标注数据作为负样本，提高了负样本与真样本之间的相似度，由于真样本与正样本的相似度总是大于等于真样本与负样本的相似度，使得正样本与真样本之间的相似度进一步地提高，从而增强文本语义相似度模型的训练效果。

在一个具体的可实施方案中，所述文本语义相似度匹配模型包括所述真样本与所述正样本计算模块以及所述真样本与所述负样本计算模块；

所述部署所述文本语义相似度匹配模型到线上平台之前还包括：

对所述文本语义相似度匹配模型进行切割并保留所述真样本和所述正样本计算模块。

通过采用上述技术方案，文本语义相似度匹配模型是由真样本与正样本的计算模块和真样本与负样本的计算模块组合而成，通过去除文本语义相似度匹配模型中的真样本与负样本的计算模块，便于直接调用真样本与正样本的计算模块从而在正样本集合中进行文本相似度的匹配，能够有效缩短文本的相似度匹配时间和检索时间，提升匹配效率。

第二方面，本申请提供一种文本语义相似度的匹配系统，采用如下的技术方案：

一种文本语义相似度的匹配系统，包括：

数据获取模块，用于获取历史数据作为训练样本集，所述训练样本集包括真样本、正样本和负样本；

模型训练模块，用于计算所述真样本与所述正样本之间的余弦相似度以及所述真样本和所述负样本之间的余弦相似度，基于计算结果训练预设的文本语义相似度匹配模型；

模型部署模块，用于将所述文本语义相似度匹配模型部署到线上平台；

数据反馈模块，用于基于所述文本语义相似度匹配模型匹配标准问题并反馈至所述线上平台。

第三方面，本申请提供一种智能终端，采用如下的技术方案：

一种智能终端，所述智能终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面任一所述的一种文本语义相似度的匹配方法。

通过采用上述技术方案，智能终端中的处理器可以根据存储器中存储的相关计算机程序，实现上述一种文本语义相似度的匹配方法，从而提高文本语义相似度的精确度，进而提高客服问题匹配的准确率。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面任一所述的一种文本语义相似度的匹配方法。

通过采用上述技术方案，能够存储相应的程序，从而提高文本语义相似度的精确度，进而提高客服问题匹配的准确率。

综上所述，本申请包括以下至少一种有益技术效果：

1.获取历史数据作为训练样本集，训练样本集包括真样本、正样本和负样本；再基于真样本与正样本的余弦相似度以及真样本与负样本的余弦相似度对文本语义相似度匹配模型进行训练，训练后将文本语义相似度匹配模型部署到线上平台并将标准问题反馈至线上平台，通过对文本语义相似度匹配模型进行训练从而提升用户实际输入的问题与反馈给用户的标准问题的相似度，进而提高客服问题匹配的准确率；

2.随机抽取标注数据作为真样本与正样本相对的负样本，通过随机抽取标注数据作为负样本，提高了负样本与真样本之间的相似度，由于真样本与正样本的相似度总是大于等于真样本与负样本的相似度，使得正样本与真样本之间的相似度进一步地提高，从而增强文本语义相似度模型的训练效果；

3.文本语义相似度匹配模型是由真样本与正样本的计算模块和真样本与负样本的计算模块组合而成，通过去除文本语义相似度匹配模型中的真样本与负样本的计算模块，便于直接调用真样本与正样本的计算模块从而在正样本集合中进行文本相似度的匹配，能够有效缩短文本的相似度匹配时间和检索时间，提升匹配效率。

附图说明

图1是本申请实施例中文本语义相似度的匹配方法的流程示意图。

图2是本申请实施例中文本语义相似度的匹配系统的结构框图。

图3是本申请实施例中文本语义相似度的匹配方法的流程示意图。

附图标记说明：100、数据获取模块；200、模型训练模块；300、模型部署模块；400、数据反馈模块。

具体实施方式

以下结合附图对本申请作进一步详细说明。

本申请实施例公开一种文本语义相似度的匹配方法，该方法可以应用于智能终端中，以智能终端为执行主体，用于实现在客服问题的匹配场景下，根据用户线上真实输入的实际问题，提取实际问题中的文本语义特征并在标准问题库中检索与之相似的标准问题，通过文本语义相似度判断最为相似的标准问题并将检索到相似度最高的若干标准问题反馈给用户供用户进行选取。其中，文本语义相似度是指在依据文本字词的基础上提取文本的高维度的语义特征，然后通过相似度计算，从而能够衡量不同文本间的相似程度。

参照图1，文本语义相似度的匹配方法包括以下步骤：

S101、获取历史数据作为训练样本集，训练样本集包括真样本、正样本和负样本。

在实施中，首先要获取历史数据作为训练样本集，训练样本集包括真样本、正样本和负样本；真样本是用户在线上平台真实输入的问题，正样本是用户线上选取的标准问题或者客服工作人员针对用户的真实输入而配置的标准问题，负样本是在线上平台反馈的标准问题中用户没有选取的标准问题。

S102、计算真样本与正样本之间的余弦相似度以及真样本和负样本之间的余弦相似度，基于计算结果训练预设的文本语义相似度匹配模型。

在实施中，首先通过预设的文本语义相似度匹配模型从真样本、正样本和负样本中提取高维语义特征，文本语义相似度匹配模型中使用Albert作为训练样本集的高维语义特征提取的基础结构，Albert是一种提取文本特征的深度预训练模型，相较于其他较常用的训练模型，Albert中使用了参数降低技术用来减少内存消耗从而提高模型的训练速度。

在实施中，模型训练是按照正样本：负样本为1:4的比例进行训练。通过文本语义相似度匹配模型提取完真样本、正样本和负样本的语义特征后，利用余弦相似度公式分别计算真样本与正样本的余弦相似度以及真样本与负样本的余弦相似度。余弦相似度是衡量文本之间相似度的标准，余弦相似度越接近1，则表示两者相似度越高，越接近0，则表示两者越独立。

由于在脱离语义环境时有时会出现真样本与负样本的余弦相似度大于真样本与正样本的余弦相似度的情况，因此在文本语义相似度匹配模型的训练过程中需要始终满足真样本与正样本的余弦相似度大于等于真样本与负样本的余弦相似度。

为了更加形象地表示真样本与正样本的余弦相似度高于真样本与负样本的余弦相似度，将深度学习中用户输入的真实问题与用户选取的标准问题之间的误差定义为Loss，当文本语义相似度匹配模型的Loss越小时，则认为文本语义相似度匹配模型预测的结果越准确，通过对文本语义相似度匹配模型训练使Loss能够达到最小值。其中，Loss在计算时，真样本与正样本的余弦相似度始终大于等于真样本与负样本的余弦相似度。

具体的，Loss的计算过程为，首先分别计算真样本（T）与正样本（P）之间的余弦相似度以及真样本（T）与负样本（N）之间的余弦相似度，其中k是负样本（N）的数量，余弦相似度的计算公式如下：

C0 = Cosine(T,P)；

C1 = Cosine(T,N1)；

Ck = Cosine(T,Nk)；

为了保证真样本与正样本的相似度大于等于真样本与负样本的相似度，对余弦相似度的计算公式进行约束，约束公式如下：

C0 = Max(C0,C1,…,Ck)；

通过约束得到的C0是计算得到的C0，C1，…，Ck所组成的数集中最大的值，其中约束公式中的C0代表真样本与正样本之间的余弦相似度，从而能够保证真样本与正样本之间的余弦相似度总是大于真样本与负样本之间的余弦相似度。举例来说，C1，…，Ck中最大值为0.8，C0的值为0.6，C0会被约束公式赋值为最大值即为0.8，以此来满足真样本与正样本之间的余弦相似度总是大于等于真样本与负样本之间的余弦相似度。

具体的，由于余弦相似度取值的范围为0-1，因此选取同样是函数且取值范围同样为0-1的Softmax函数将约束公式施加到C0的余弦相似度计算公式中，并得到Softmax（C0），将之前计算得到的C0置换成Softmax（C0）来作为真样本（T）与正样本（P）之间的余弦相似度，Softmax（C0）的计算公式如下：

Softmax(C0) = Max(Softmax(C0), Softmax(C1),…, Softmax(Ck))；

由于Softmax的值最大为1，所以最终需要让Softmax(C0)无线趋近于1，这样就满足了真样本（T）与正样本（P）之间的余弦相似度是最大值且总是大于等于真样本（T）与负样本（N）之间的余弦相似度。

由于模型训练的最终目的为让Loss达到最小值，此时真样本（T）与正样本（P）之间的余弦相似度即Softmax（C0）为最大值，因此Loss的计算公式如下：

Loss = - log(Softmax(C0))；

在一个实施例中，基于训练样本集对文本语义相似度匹配模型训练的过程为有监督训练，而有监督训练需要依赖于标注数据，标注数据包括用户真实点击的标准问题和用户真实输入的问题。举例来说，用户在智能终端上输入了“怎么退飞机票”的问题后，智能终端反馈给用户五个相似度最高的标准问题供用户进行选取，用户选取其中一个标准问题，则对用户选取的标准问题和用户真实输入的问题进行标注并作为一组标注数据。通过标注数据有监督训练文本语义相似度匹配模型，能够使得模型具有对未知数据进行预测和分类的能力。

在一个实施例中，为了提升文本语义相似度模型的训练效果，使得客服问题匹配的准确率升高，可以随机抽取标注数据作为真样本与正样本相对的负样本，通过随机抽取标注数据作为负样本，提高了负样本与真样本之间的相似度，由于真样本与正样本的相似度总是大于等于真样本与负样本的相似度，使得正样本与真样本之间的相似度进一步地提高，从而增强文本语义相似度模型的训练效果。

S103、将文本语义相似度匹配模型部署到线上平台。

具体的，文本语义相似度匹配模型包括真样本与正样本计算模块以及真样本与负样本计算模块，真样本与正样本计算模块具体为计算出的真样本与正样本之间的余弦相似度的数值集合，真样本与负样本计算模块具体为计算出的真样本与负样本之间的余弦相似度的数值集合。在实施中，去除文本语义相似度匹配模型中的真样本与负样本计算模块并保留真样本与正样本计算模块，便于直接调用真样本与正样本计算模块从而在正样本集合中进行文本相似度的匹配，能够有效缩短文本的相似度匹配时间和检索时间，提升匹配效率。

S104、基于文本语义相似度匹配模型匹配标准问题并反馈至线上平台。

具体的，用户在线上平台输入问题后，首先文本语义相似度匹配模型提取能够用户输入问题的语义特征，随后在正样本集合中提取正样本的语义特征并与用户问题的语义特征进行匹配，最后匹配出相似度最高的五个标准问题并反馈给用户供其选取。

图3示出了文本语义相似度的匹配方法的流程示意图，文本语义相似度模型首先获取真样本、正样本和负样本作为训练样本集，随后文本语义相似度匹配模型使用Albert作为基础结构分别提取真样本、正样本和负样本的高维语义特征，随后分别计算真样本与正样本的余弦相似度以及真样本与负样本的余弦相似度，并约束真样本与正样本的余弦相似度大于等于真样本与负样本的余弦相似度对文本语义相似度匹配模型进行有监督训练，模型训练结束后会将真样本、正样本和负样本之间计算得出的数值进行反向传播并存储到模型中。在将文本语义相似度匹配模型应用到线上平台时，只保留真样本与正样本计算模块并部署到线上平台。用户在线上平台输入问题后，对用户输入的问题提取文本语义特征并在正样本集合中自动搜寻最为相似的正样本语义特征，获得最为相似的五个正样本即五个标准问题并反馈至用户供其选取，以此完成文本语义相似度的匹配过程。

本申请实施例还公开一种文本语义相似度的匹配系统。参照图2，文本语义相似度的匹配系统包括：

数据获取模块100，用于获取历史数据作为训练样本集，训练样本集包括真样本、正样本和负样本；真样本是用户在线上平台真实输入的问题，正样本是用户线上选取的标准问题或者客服工作人员针对用户的真实输入而配置的标准问题，负样本是在线上平台反馈的标准问题中用户没有选取的标准问题。

模型训练模块200，用于计算真样本与正样本之间的余弦相似度以及真样本和负样本之间的余弦相似度，基于计算结果训练预设的文本语义相似度匹配模型；计算真样本与正样本之间的余弦相似度以及真样本和负样本之间的余弦相似度，基于计算结果训练预设的文本语义相似度匹配模型包括：

分别计算真样本与正样本之间的余弦相似度以及真样本与负样本之间的余弦相似度，余弦相似度计算公式如下：

C0 = Cosine(T,P)；

C1 = Cosine(T,N1)；

Ck = Cosine(T,Nk)；

约束真样本与正样本之间的余弦相似度大于等于真样本和负样本之间的余弦相似度，约束公式如下：

C0 = Max(C0,C1,…,Ck)。

选取Softmax函数将约束公式施加到余弦相似度计算公式得到Softmax（C0）：

Softmax(C0) = Max(Softmax(C0), Softmax(C1),…, Softmax(Ck))；

将用户输入的真实问题与用户选取的标准问题之间的误差定义为Loss，在Loss的计算过程中，约束真样本与正样本的余弦相似度始终大于等于真样本与负样本的余弦相似度，Loss的计算公式如下：

Loss = - log(Softmax(C0))。

模型部署模块300，用于将文本语义相似度匹配模型部署到线上平台；

数据反馈模块400，用于基于文本语义相似度匹配模型匹配标准问题并反馈至线上平台。

可选的，模型部署模块300之前包括：

模型切割模块，用于对文本语义相似度匹配模型进行切割并保留真样本和正样本计算模块。

可选的，文本语义相似度的匹配系统还包括：

监督训练模块，用于基于标注数据对文本语义相似度匹配模型进行有监督训练。标注数据包括用户真实点击的标准问题和用户真实输入的问题。

可选的，监督训练模块包括：

数据增强子模块，用于随机抽取标注数据作为真样本与正样本相对的负样本。

本申请实施例还公开一种智能终端，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述文本语义相似度的匹配方法的步骤。此处一种文本语义相似度的匹配方法的步骤可以是上述一种文本语义相似度的匹配方法中的步骤。

本申请实施例还公开一种计算机可读存储介质，包括能够被处理器加载执行时实现上述一种文本语义相似度的匹配方法流程中的各个步骤。

计算机可读存储介质例如包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

所属领域的技术人员可以清楚地了解到，为描述的方便和简化，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本申请的方法及其核心思想，不应理解为对本申请的限制。本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种文本语义相似度的匹配方法，其特征在于，包括以下步骤：

将所述文本语义相似度匹配模型部署到线上平台；

2.根据权利要求1所述的文本语义相似度的匹配方法，其特征在于：所述真样本包括用户线上真实输入的问题；所述正样本包括用户选取的所述标准问题和客服针对用户的真实输入配置的所述标准问题；所述负样本包括用户没有选取的所述标准问题。

3.根据权利要求2所述的文本语义相似度的匹配方法，其特征在于：所述计算所述真样本与所述正样本之间的余弦相似度以及所述真样本和所述负样本之间的余弦相似度，基于计算结果训练预设的文本语义相似度匹配模型包括：

C0 = Cosine(T,P)；

C1 = Cosine(T,N1)；

Ck = Cosine(T,Nk)；

C0 = Max(C0,C1,…,Ck)。

4.根据权利要求3所述的文本语义相似度的匹配方法，其特征在于：选取Softmax函数将所述约束公式施加到所述余弦相似度计算公式得到Softmax（C0）：

Softmax(C0) = Max(Softmax(C0), Softmax(C1),…, Softmax(Ck))；

Loss = - log(Softmax(C0))。

5.根据权利要求3所述的文本语义相似度的匹配方法，其特征在于：基于标注数据对所述文本语义相似度匹配模型进行有监督训练，所述标注数据包括用户真实点击的所述标准问题和用户真实输入的问题。

6.根据权利要求5所述的文本语义相似度的匹配方法，其特征在于：随机抽取所述标注数据作为所述真样本与所述正样本相对的所述负样本。

7.根据权利要求6所述的文本语义相似度的匹配方法，其特征在于：

所述文本语义相似度匹配模型包括所述真样本与所述正样本计算模块以及所述真样本与所述负样本计算模块；

8.一种文本语义相似度的分析系统，其特征在于，包括：

数据获取模块（100），用于获取历史数据作为训练样本集，所述训练样本集包括真样本、正样本和负样本；

模型训练模块（200），用于计算所述真样本与所述正样本之间的余弦相似度以及所述真样本和所述负样本之间的余弦相似度，基于计算结果训练预设的文本语义相似度匹配模型；

模型部署模块（300），用于将所述文本语义相似度匹配模型部署到线上平台；

数据反馈模块（400），用于基于所述文本语义相似度匹配模型匹配标准问题并反馈至所述线上平台。

9.一种智能终端，其特征在于，所述智能终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的一种文本语义相似度的匹配方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的一种文本语义相似度的匹配方法。