CN113239697A

CN113239697A - 实体识别模型训练方法、装置、计算机设备及存储介质

Info

Publication number: CN113239697A
Application number: CN202110611212.3A
Authority: CN
Inventors: 于凤英; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-08-10
Anticipated expiration: 2041-06-01
Also published as: CN113239697B

Abstract

本发明公开一种实体识别模型训练方法、装置、计算机设备及存储介质，该实体识别模型训练方法采用词频算法，对训练标准实体和每一训练同义实体进行向量相似度计算，获取每一训练同义实体与训练标准实体的稀疏相似度；采用语义识别模型，对训练标准实体和每一训练同义实体进行向量相似度计算，得到每一训练同义实体对应的密集相似度；根据稀疏相似度和密集相似度，从训练同义实体中筛选得到目标同义实体；采用批量梯度下降法对目标同义实体进行处理，获取多个分批训练集；依次采用分批训练集，对biobert模型进行分批训练，优化biobert模型中的损失函数，获取实体识别模型，以提高实体识别模型的性能。

Description

实体识别模型训练方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种实体识别模型训练方法、装置、计算机设备及存储介质。

背景技术

随着各种文化知识的不断发展，实体词汇拥有越来越多的同义词或者缩写等，由此，给用户阅读或者理解带来较大的难度，现有的技术方案大多采用模型进行识别，但是现有模型准确率较低。

发明内容

本发明实施例提供一种实体识别模型训练方法、装置、计算机设备及存储介质，以解决现有模型准确率较低的问题。

一种实体识别模型训练方法，包括：

获取训练样本，所述训练样本包括训练标准实体和与每一所述训练标准实体相对应的多个训练同义实体；

采用词频算法，对所述训练标准实体和每一所述训练同义实体进行向量相似度计算，获取每一所述训练同义实体与所述训练标准实体的稀疏相似度；

采用语义识别模型，对所述训练标准实体和每一所述训练同义实体进行向量相似度计算，得到每一所述训练同义实体对应的密集相似度；

根据所述稀疏相似度和密集相似度，从所述训练同义实体中筛选得到目标同义实体；

采用批量梯度下降法对所述目标同义实体进行处理，获取多个分批训练集；

依次采用所述分批训练集，对biobert模型进行分批训练，优化所述biobert模型中的损失函数，获取实体识别模型。

一种实体识别模型训练装置，包括：

训练样本获取模块，用于获取训练样本，所述训练样本包括训练标准实体和与每一所述训练标准实体相对应的多个训练同义实体；

稀疏相似度获取模块，用于采用词频算法，对所述训练标准实体和每一所述训练同义实体进行向量相似度计算，获取每一所述训练同义实体与所述训练标准实体的稀疏相似度；

密集相似度获取模块，用于采用语义识别模型，对所述训练标准实体和每一所述训练同义实体进行向量相似度计算，得到每一所述训练同义实体对应的密集相似度；

目标同义实体获取模块，用于根据所述稀疏相似度和密集相似度，从所述训练同义实体中筛选得到目标同义实体；

分批训练集获取模块，用于采用批量梯度下降法对所述目标同义实体进行处理，获取多个分批训练集；

实体识别模型获取模块，用于依次采用所述分批训练集，对biobert模型进行分批训练，优化所述biobert模型中的损失函数，获取实体识别模型。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实体识别模型训练方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述实体识别模型训练方法的步骤。

上述实体识别模型训练方法、装置、计算机设备及存储介质，采用词频算法，对所述训练标准实体和每一所述训练同义实体进行向量相似度计算，获取每一所述训练同义实体与所述训练标准实体的稀疏相似度，通过词频算法得到训练同义实体和训练标准实体之间的稀疏相似度，以便利用稀疏相似度较高的训练同义实体训练模型，以确保训练得到的模型准确率较高。采用语义识别模型，对所述训练标准实体和每一所述训练同义实体进行向量相似度计算，得到每一所述训练同义实体对应的密集相似度，利用语义识别模型快速得到密集相似度，以便于后续找到与训练标准实体在语义上相似程度较高的训练同义实体，可以为后续的模型训练提供技术支持，以确保训练得到的模型准确率较高。根据所述稀疏相似度和密集相似度，从所述训练同义实体中筛选得到目标同义实体，以充分考虑训练同义实体的语义信息和形态信息，保证利用目标同义实体训练得到的实体识别模型性能更好，准确率更高，且模型训练时间可以大大缩短。采用批量梯度下降法对所述目标同义实体进行处理，获取多个分批训练集，以减少计算的开销，降低随机性。依次采用所述分批训练集，对biobert模型进行分批训练，优化所述biobert模型中的损失函数，获取实体识别模型，可以减少运算量，降低随机性，由于目标同义实体具有较高的语音信息和形态信息，可以确保训练得到的实体识别模型的准确性高，性能较佳。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中实体识别模型训练方法的一应用环境示意图；

图2是本发明一实施例中实体识别模型训练方法的一流程图；

图3是本发明一实施例中实体识别模型训练方法的另一流程图；

图4是本发明一实施例中实体识别模型训练方法的另一流程图；

图5是本发明一实施例中实体识别模型训练方法的另一流程图；

图6是本发明一实施例中实体识别模型训练方法的另一流程图；

图7是本发明一实施例中实体识别模型训练方法的另一流程图；

图8是本发明一实施例中实体识别模型训练方法的另一流程图；

图9是本发明一实施例中实体识别模型训练装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的实体识别模型训练方法，该实体识别模型训练方法可应用如图1所示的应用环境中。具体地，该实体识别模型训练方法应用在实体识别模型训练系统中，该实体识别模型训练系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于实现实体识别模型训练，提高模型的准确率。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图1所示，提供一种实体识别模型训练方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S201：获取训练样本，训练样本包括训练标准实体和与每一训练标准实体相对应的多个训练同义实体。

其中，训练样本是指用于训练实体识别模型的样本。训练标准实体是行业内统一命名的实体。训练同义实体是训练标准实体的别名或者与训练标准实体形态相近的实体。例如，当训练样本为与医学相关的样本时，该训练标准实体可以为COVID-19；训练同义实体可以是covid-19和MERS。

S202：采用词频算法，对训练标准实体和每一训练同义实体进行向量相似度计算，获取每一训练同义实体与训练标准实体的稀疏相似度。

其中，词频算法是用于情报检索与文本挖掘的常用加权技术，用以评估一个词对于一个语料库中的一个领域文件集的重复程度。

稀疏相似度是用于表示每一训练同义实体和训练标准实体的形态相似程度。可以理解地，若一个训练同义实体对应的稀疏相似度较高，则该训练同义实体与训练标准实体在形态上越相似。

本实施例中，通过词频算法得到训练同义实体和训练标准实体之间的稀疏相似度，以便利用稀疏相似度较高的训练同义实体训练模型，以确保训练得到的模型准确率较高。

S203：采用语义识别模型，对训练标准实体和每一训练同义实体进行向量相似度计算，得到每一训练同义实体对应的密集相似度。

其中，语义识别模型是预先训练好的，用于对训练标准实体和训练同义实体进行识别的模型。该语义模型可以为预训练的BERT模型。

密集相似度用于表示每一训练同义实体和训练标准实体的语义相似程度。可以理解地，若一个训练同义实体对应的密集相似度较高，则该训练同义实体与训练标准实体在语义上越相似。

本实施例利用语义识别模型快速得到密集相似度，以便于后续找到与训练标准实体在语义上相似程度较高的训练同义实体，可以为后续的模型训练提供技术支持，以确保训练得到的模型准确率较高。

S204：根据稀疏相似度和密集相似度，从训练同义实体中筛选得到目标同义实体。

其中，目标同义实体是用于训练实体识别模型的训练同义实体。本实施例中，目标同义实体为密集相似度和稀疏相似度均较大的训练同义实体，以充分考虑训练同义实体的语义信息和形态信息，保证利用目标同义实体训练得到的实体识别模型性能更好，准确率更高，且模型训练时间可以大大缩短。

本实施例中，通过密集相似度和稀疏相似度从训练同义实体中选择出用于训练模型的目标同义实体，因此可以有效缩短模型的训练时长，且目标同义实体所携带的语义信息和形态信息与训练标准实体较为相似，保证利用目标同义实体训练得到的实体识别模型性能更好，准确率更高。

S205：采用批量梯度下降法对目标同义实体进行处理，获取多个分批训练集。

其中，批量梯度下降法是将目标同义实体划分为多个分批训练集的算法，以利用分批训练更新模型的参数，以减少计算的开销，降低随机性。分批训练集是指对目标同义实体进行分批处理得到的目标同义实体的集合。例如，目标同义实体的数量为5千个，将目标同一实体划分为5个分批训练集，每一分批训练集中目标同义实体的数量为1千个。

S206：依次采用分批训练集，对biobert模型进行分批训练，优化biobert模型中的损失函数，获取实体识别模型。

其中，损失函数是预训练的biobert模型对应的模型。

本实施例中，通过对目标同义实体进行划分，以实现分批为调预训练的biobert模型，可以减少运算量，降低随机性，由于目标同义实体具有较高的语音信息和形态信息，可以确保训练得到的实体识别模型的准确性高，性能较佳。

本实施例所提供的实体识别模型训练方法，采用词频算法，对训练标准实体和每一训练同义实体进行向量相似度计算，获取每一训练同义实体与训练标准实体的稀疏相似度，通过词频算法得到训练同义实体和训练标准实体之间的稀疏相似度，以便利用稀疏相似度较高的训练同义实体训练模型，以确保训练得到的模型准确率较高。采用语义识别模型，对训练标准实体和每一训练同义实体进行向量相似度计算，得到每一训练同义实体对应的密集相似度，利用语义识别模型快速得到密集相似度，以便于后续找到与训练标准实体在语义上相似程度较高的训练同义实体，可以为后续的模型训练提供技术支持，以确保训练得到的模型准确率较高。根据稀疏相似度和密集相似度，从训练同义实体中筛选得到目标同义实体，以充分考虑训练同义实体的语义信息和形态信息，保证利用目标同义实体训练得到的实体识别模型性能更好，准确率更高，且模型训练时间可以大大缩短。采用批量梯度下降法对目标同义实体进行处理，获取多个分批训练集，以减少计算的开销，降低随机性。训练过程较为简单，依次采用分批训练集，对biobert模型进行分批训练，优化biobert模型中的损失函数，获取实体识别模型，可以减少运算量，降低随机性，由于目标同义实体具有较高的语音信息和形态信息，可以确保训练得到的实体识别模型的准确性高，性能较佳。

作为一实施例，如图3所示，步骤S202，采用词频算法，对训练标准实体和每一训练同义实体进行向量相似度计算，获取每一训练同义实体与训练标准实体的稀疏相似度，包括：

S301：采用词频算法分别对训练标准实体和每一训练同义实体进行向量转化处理，获取训练标准实体的标准稀疏向量，以及每一训练同义实体的同义稀疏向量。

S302：将每一同义稀疏向量分别与标准稀疏向量进行内积处理，获取每一同义稀疏向量与标准稀疏向量的稀疏相似度。

其中，标准稀疏向量是与训练标准实体对应的稀疏向量，该标准稀疏向量用于表示训练标准实体的形态信息。其中，稀疏向量是指向量中数值为0的元素数目多于数值不为0的元素数目。

同义稀疏向量是与训练同义实体对应的稀疏向量，该同义稀疏向量用于表示训练同义实体的形态信息。

本实施例中，通过词频算法得到同义稀疏向量与标准稀疏向量，以便根据同义稀疏向量与标准稀疏向量得到稀疏相似度，从而确保可以找到与训练标准实体在形态上相似程度较高的训练同义实体，可以为后续的模型训练提供技术支持。

本实施例所提供的实体识别模型训练方法，采用词频算法分别对训练标准实体和每一训练同义实体进行向量转化处理，获取训练标准实体的标准稀疏向量，以及每一训练同义实体的同义稀疏向量。将每一同义稀疏向量分别与标准稀疏向量进行内积处理，获取每一同义稀疏向量与标准稀疏向量的稀疏相似度，从而确保可以找到与训练标准实体在形态上相似程度较高的训练同义实体，可以为后续的模型训练提供技术支持。

作为一实施例，如图4所示，步骤S301，即采用词频算法分别对训练标准实体和每一训练同义实体进行向量转化处理，获取训练标准实体的标准稀疏向量，以及每一训练同义实体的同义稀疏向量，包括：

S401：对训练标准实体和每一训练同义实体均进行分割处理，分别得到训练标准实体对应的多元分割字符和所有训练同义实体对应的多元分割字符。

其中，多元分割字符是对训练标准实体和每一训练同义实体进行字符分割得到字符，例如，训练标准实体为COVID-19，对训练标准实体进行分割处理，得到的多元分割字符可以为CO、VI、D-和19；或者COVI和D-19等。本实施例的多元分割字符为2元分割字符，即对训练标准实体为COVID-19进行分割处理，得到的多元分割字符可以为CO、VI、D-和19。

本实施例中，通过对训练标准实体和每一训练同义实体进行字符级别的分割处理，为后续从字符级别上计算训练标准实体和每一训练同义实体的相似度提高技术支持，保证后续得到的同义稀疏向量更加精准，保证训练得到的模型更加准确。

S402：采用TF-IDF算法对训练标准实体对应的多元分割字符进行处理，获取训练标准实体对应的标准稀疏向量；采用TF-IDF算法对每一训练同义实体对应的多元分割字符进行处理，获取每一训练同义实体的同义稀疏向量。

其中，TF-IFD算法是针对关键词的统计分析方法，用于评估一个词对一个文件集或者一个语料库的重要程度。本实施例中，利用TF-IFD算法确定的是每一个训练同义实体或者训练标准实体的稀疏向量，可以清楚反映出训练同义实体或者训练标准实体的形态相似度，后续结合训练同义实体或者训练标准实体的语义相似度训练模型，提高模型的性能。

本实施例所提供的实体识别模型训练方法，对训练标准实体和每一训练同义实体均进行分割处理，分别得到训练标准实体对应的多元分割字符和所有训练同义实体对应的多元分割字符，通过对训练标准实体和每一训练同义实体进行字符级别的分割处理，为后续从字符级别上计算训练标准实体和每一训练同义实体的相似度提高技术支持，保证后续得到的同义稀疏向量更加精准，保证训练得到的模型更加准确。采用TF-IDF算法对训练标准实体对应的多元分割字符进行处理，获取训练标准实体对应的标准稀疏向量；采用TF-IDF算法对每一训练同义实体对应的多元分割字符进行处理，获取每一训练同义实体的同义稀疏向量，后续结合训练同义实体或者训练标准实体的语义相似度训练模型，提高模型的性能。

作为一实施例，如图5所示，步骤S402，即采用TF-IDF算法对多元分割字符进行处理，获取训练标准实体对应的标准稀疏向量和每一训练同义实体的同义稀疏向量，包括：

S501：采用TF-IDF算法对训练标准实体对应的多元分割字符进行处理，获取训练标准实体中包含的多元分割字符对应的词频和逆文档频率；采用TF-IDF算法对每一训练同义实体对应的多元分割字符进行处理，获取同义实体中包含的多元分割字符对应的词频和逆文档频率。

S502：基于训练标准实体中包含的多元分割字符对应的词频和逆文档频率，获取训练标准实体对应的标准稀疏向量。

S502：基于训练同义实体中包含的多元分割字符对应的词频和逆文档频率，获取训练同义实体对应的同义稀疏向量。

其中，词频是指表示多元分割字符在训练样本中的出现次数。逆文档频率是指是一个多元分割字符普遍重要性的度量。一个多元分割字符的逆文档频率可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。一个多元分割字符的逆文档频率为

其中，f是指训练标准实体和训练同义实体的总数；d是指包含有该多元分割字符的训练标准实体和训练同义实体的数量。

具体地，根据多元分割字符构建字符库；确定每一多元分割字符在字符库中的字符位置；根据字符位置确定训练标准实体中包含的每一多元分割字符对应的词频；将训练标准实体中包含的所有多元分割字符对应的词频组合在一起，得到词频向量；根据逆文档频率函数计算训练标准实体中包含的每一多元分割字符对应的逆文档频率；将训练标准实体中包含的所有多元分割字符对应的逆文档频率组合在一起，得到逆文档频率向量；对词频向量和逆文档频率向量进行乘积，得到训练标准实体对应的对应的标准稀疏向量。其中，字符库是指包含有多元分割字符的数据库。获取训练同义实体对应的同义稀疏向量的过程与获取训练标准实体对应的对应的标准稀疏向量的过程相同，在此不再赘述。

示例性地，训练标准实体为COVID-19；训练同义词为MERS和SARS-COV2，则对训练标准实体和训练同义词进行2元分割得到字符库，此时字符库为CO,1；VI,2；D-,3；19,4；ME,5；RS,6；SA,7；RS,8；-C,9；OV,10和V2,11；其中，1和2等数字表示多元分割字符在字符库中的位置。此时，训练标准实体的词频为组成该训练标准实体的多元分割字符对应的词频所形成的向量为[1 1 1 1 0 0 0 0 0 0]。训练标准实体对应的逆文档频率为组成该训练标准实体的多元分割字符对应的逆文档频率所形成形成的向量。

本实施例所提供的实体识别模型训练方法，通过TF-IDF算法确定训练标准实体的标准稀疏向量和训练同义实体的同义稀疏向量，可以大大减少训练样本的数量，加快获取模型训练速度，且可以从字符级别确定训练标准实体和训练同义实体的相似度，确保相似度准确度更高。以便后续可以更好地确定训练标准实体和训练同义实体的相似度，确保相似度的准确度更好。

作为一实施例，如图6所示，步骤S203，即采用语义识别模型，对训练标准实体和每一训练同义实体进行向量相似度计算，得到每一训练同义实体对应的密集相似度，包括：

S601：采用语义识别模型对训练标准实体进行向量转化处理，获取训练标准实体的标准密集向量。

其中，标准密集向量是与训练标准实体对应的密集向量，该标准密集向量用于表示训练标准实体的语义信息，其中，密集向量与稀疏向量意思相反的向量，密集向量中数值为0的元素数目少于数值不为0的元素数目。

S602：采用语义识别模型对每一训练同义实体进行向量转化处理，获取每一训练同义实体的同义密集向量；

其中，同义密集向量是与训练同义实体对应的密集向量，该标准密集向量用于表示训练同义实体的语义信息。

S603：将每一同义密集向量分别与标准密集向量进行内积处理，获取每一同义密集向量与标准密集向量的密集相似度。

本实施例中，根据训练标准实体对应的标准密集向量和训练同义实体对应的同义密集向量得到密集相似度，以便后续可以筛选出与训练标准实体在语义上更为相似的训练同义实体，训练模型，以保证训练得到的模型具有较高的准确率。

本实施例所提供的实体识别模型训练方法，采用语义识别模型获取训练标准实体的标准密集向量和每一训练同义实体的同义密集向量，可以快速得到标准密集向量和同义密集向量，以提高训练效率。将每一同义密集向量分别与标准密集向量进行内积处理，获取每一同义密集向量与标准密集向量的密集相似度，以便后续可以筛选出与训练标准实体在语义上更为相似的训练同义实体，训练模型，以保证训练得到的模型具有较高的准确率。

作为一实施例，如图7所示，步骤S204，即根据稀疏相似度和密集相似度，从训练同义实体中筛选得到目标同义实体，包括：

S701：获取目标参数，目标参数包括获取数量参数和比例参数；

其中，目标参数是用于筛选训练同义实体中筛选出目标同义实体的参数。

数量参数是表示所需目标同义实体数量的参数。比例参数是表示根据密集相似度确定的目标同义实体在所有目标同义实体中所占比例的参数。该比例参数可以为0.78，该同义实体数量可以为10万。

S702：将密集相似度最高的前a个训练同义实体放入第一候选实体集，其中，a为数量参数和比例参数的积。

其中，第一候选实体集是根据密集相似度的大小从所有训练同义实体筛选得到的实体集，该第一候选实体集中包含有密集相似度最高的前a个训练同义实体，有利于提高模型的准确度。

示例性地，设同义实体数量参数为k、比例参数为α，则第一候选实体集中包含的训练同义实体为αk个。

S703：将稀疏相似度最高的前b个训练同义实体放入第二候选实体集，其中，b为数量参数减去a的差；

其中，第二候选实体集是根据稀疏相似度的大小从所有训练同义实体筛选得到的实体集，该第二候选实体集中包含有稀疏相似度的前b个训练同义实体，有利于提高模型的准确度。

示例性地，设同义实体数量参数为k、比例参数为α，则第二候选实体集中包含的训练同义实体为k-αk个。

S704：根据第一候选实体集和第二候选实体集获取与数量参数对应的目标同义实体。

本实施例中，第一候选实体集中的训练同义实体和第二候选实体集中的训练同义实体确定为目标同义实体，从而可以有效减少模型训练的样本，提高模型训练的效率，且目标同义实体为与训练标准实体的稀疏相似度和密集相似度较高的实体，可以有效提高模型的准确度。

进一步地，S704，包括：判断第一候选实体集和第二候选实体集中是否存在相同的训练同义实体；若第一候选实体集和第二候选实体集中存在相同的训练同义实体，则将相同的训练同义实体从第一候选实体集中删除，获取第三候选实体集；统计第一候选实体集和第二候选实体集中相同的训练同义实体对应的实体数量；根据密集相似度从除第一候选实体集和第二候选实体集外的训练同义实体中，获取与实体数量相应的候选同义实体，根据候选同义实体、第二候选实体集和第三候选实体集获取目标同义实体。

其中，第三候选实体集是第一候选实体集中删除了相同的训练同义实体得到的实体集。实体数量是第一候选实体集和第二候选实体集中相同的训练同义实体对应的数量。

本实施例中，将除第一候选实体集和第二候选实体集外的训练同义实体，按照密集相似度由高到低的顺序进行排序；将排序在前的，与实体数量对应的训练同义实体作为候选同义实体，将候选同义实体，第二候选实体集和第三候选实体集中的训练同义实体确定为目标同义实体。本实施例中，得到更多的密集相似度较高的目标同义实体，确保后续训练得到的模型性能更好。

示例性地，当第一候选实体集中包含训练同义实体MERS，第二候选实体集中训练同义实体MERS，则第一候选实体集和第二候选实体集中存在相同的训练同义实体。当第一候选实体集中不包含训练同义实体MERS，第二候选实体集中训练同义实体MERS，则第一候选实体集和第二候选实体集中不存在相同的训练同义实体。

本实施例所提供的实体识别模型训练方法，将密集相似度最高的前a个训练同义实体确定为第一候选实体集，有利于提高模型的准确度。根据同义实体数量参数和比例参数，将稀疏相似度最高的前b个训练同义实体确定为第二候选实体集，有利于提高模型的准确度。根据第一候选实体集和第二候选实体集获取与同义实体数量参数对应的目标同义实体，从而可以有效减低模型训练的样本，提高模型训练的效率，且目标同义实体为与训练标准实体的稀疏相似度和密集相似度较高的实体，可以有效提高模型的准确度。

作为一实施例，如图8所示，在步骤S206之前，即在依次采用分批训练集，对biobert模型进行分批训练，优化biobert模型中的损失函数，获取实体识别模型之前，方法还包括：

S801：基于每一训练同义实体对应的稀疏相似度和密集相似度计算训练同义词对应的目标相似度。

其中，目标相似度是根据稀疏相似度和密集相似度得到的相似度，可以理解地，由于目标相似度考虑了稀疏相似度和密集相似度，因此，后续训练模型可以平衡稀疏相似度和密集相似度的重要性，可以有效提高训练得到的模型的准确率。

具体地，采用相似度函数s(m，n)＝s₁(m，n)+λs₂(m，n)计算得到目标相似度。其中，m是指标准同义实体；n是指训练同义实体；s(m，n)是指目标相似度，s₁(m，n)是指密集相似度；s₂(m，n)是指标准密集相似度；λ是指权值标量，该权值标量是利用逻辑回归训练得到的标量，可以更好地平衡稀疏相似度和密集相似度的重要性，以有效提高训练得到的模型的准确率。

S802：根据训练同义实体对应的目标相似度和目标同义实体对应的目标相似度确定每一训练同义实体的概率，基于训练同义实体的概率确定训练同义实体的边际概率。

其中，训练同义实体的概率为

其中，N_1：K为目标同义实体的个数，即目标同义实体的个数为1到k，其中，k可以理解为数量参数，n_x为目标同义实体。训练同义实体的边际概率为

S803：基于每一训练同义实体的边际概率，获取损失函数。

本实施例中，根据

其中，M为训练标准实体的数量。本实施例中，在确定损失函数时，利用了稀疏相似度和密集相似度均比较高的目标训练实体，以保证模型可以学习到更好地形态信息和语义信息，提高模型的准确率。

本实施例所提供的实体识别模型训练方法，基于每一训练同义实体对应的稀疏相似度和密集相似度计算训练同义词对应的目标相似度；根据训练同义实体对应的目标相似度和目标同义实体对应的目标相似度确定每一训练同义实体的概率，基于训练同义实体的概率确定训练同义实体的边际概率；基于每一训练同义实体的边际概率，获取损失函数，在确定损失函数时，利用了稀疏相似度和密集相似度均比较高的目标训练实体，以保证模型可以学习到更好地形态信息和语义信息，提高模型的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种实体识别模型训练装置，该实体识别模型训练装置与上述实施例中实体识别模型训练方法一一对应。如图9所示，该实体识别模型训练装置包括训练样本获取模块901、稀疏相似度获取模块902、密集相似度获取模块903、目标同义实体获取模块904、分批训练集获取模块905和实体识别模型获取模块906。各功能模块详细说明如下：

训练样本获取模块901，用于获取训练样本，训练样本包括训练标准实体和与每一训练标准实体相对应的多个训练同义实体。

稀疏相似度获取模块902，用于采用词频算法，对训练标准实体和每一训练同义实体进行向量相似度计算，获取每一训练同义实体与训练标准实体的稀疏相似度。

密集相似度获取模块903，用于采用语义识别模型，对训练标准实体和每一训练同义实体进行向量相似度计算，得到每一训练同义实体对应的密集相似度。

目标同义实体获取模块904，用于根据稀疏相似度和密集相似度，从训练同义实体中筛选得到目标同义实体。

分批训练集获取模块905，用于采用批量梯度下降法对目标同义实体进行处理，获取多个分批训练集。

实体识别模型获取模块906，用于依次采用分批训练集，对biobert模型进行分批训练，优化biobert模型中的损失函数，获取实体识别模型。

优选地，稀疏相似度获取模块902，包括：稀疏向量获取单元和第一内积获取单元。

稀疏向量获取单元，用于采用词频算法分别对训练标准实体和每一训练同义实体进行向量转化处理，获取训练标准实体的标准稀疏向量，以及每一训练同义实体的同义稀疏向量。

第一内积获取单元，用于将每一同义稀疏向量分别与标准稀疏向量进行内积处理，获取每一同义稀疏向量与标准稀疏向量的稀疏相似度。

优选地，稀疏向量获取单元，包括：字符获取单元和处理单元。

字符获取单元，用于对训练标准实体和每一训练同义实体均进行分割处理，分别得到训练标准实体对应的多元分割字符和所有训练同义实体对应的多元分割字符。

处理单元，用于采用TF-IDF算法对训练标准实体对应的多元分割字符进行处理，获取训练标准实体对应的标准稀疏向量；采用TF-IDF算法对每一训练同义实体对应的多元分割字符进行处理，获取每一训练同义实体的同义稀疏向量。

优选地，处理单元，包括：词频获取子单元、第一稀疏子单元和第二稀疏子单元。

词频获取子单元，用于采用TF-IDF算法对训练标准实体对应的多元分割字符进行处理，获取训练标准实体中包含的多元分割字符对应的词频和逆文档频率；采用TF-IDF算法对每一训练同义实体对应的多元分割字符进行处理，获取同义实体中包含的多元分割字符对应的词频和逆文档频率。

第一稀疏子单元，用于基于训练标准实体中包含的多元分割字符对应的词频和逆文档频率，获取训练标准实体对应的标准稀疏向量。

第二稀疏子单元，用于基于训练同义实体中包含的多元分割字符对应的词频和逆文档频率，获取训练同义实体对应的同义稀疏向量。

优选地，密集相似度获取模块903，包括：第一密集向量单元、第二密集向量单元和密集相似度获取单元。

第一密集向量单元，用于采用语义识别模型对训练标准实体进行向量转化处理，获取训练标准实体的标准密集向量。

第二密集向量单元，用于采用语义识别模型对每一训练同义实体进行向量转化处理，获取每一训练同义实体的同义密集向量。

密集相似度获取单元，用于将每一同义密集向量分别与标准密集向量进行内积处理，获取每一同义密集向量与标准密集向量的密集相似度。

优选地，目标同义实体获取模块904，包括：目标参数获取单元、第一候选实体集获取单元、第二候选实体集获取单元和目标同义实体获取单元。

目标参数获取单元，用于获取目标参数，目标参数包括获取数量参数和比例参数。

第一候选实体集获取单元，用于将密集相似度最高的前a个训练同义实体放入第一候选实体集，其中，a为数量参数和比例参数的积。

第二候选实体集获取单元，用于将稀疏相似度最高的前b个训练同义实体放入第二候选实体集，其中，b为数量参数减去a的差。

目标同义实体获取单元，用于根据第一候选实体集和第二候选实体集获取与数量参数对应的目标同义实体。

优选地，在实体识别模型获取模块906之前，方法还包括：目标相似度获取模块、概率获取模块和损失函数获取模块。

目标相似度获取模块，用于基于每一训练同义实体对应的稀疏相似度和密集相似度计算训练同义词对应的目标相似度。

概率获取模块，用于根据训练同义实体对应的目标相似度和目标同义实体对应的目标相似度确定每一训练同义实体的概率，基于训练同义实体的概率确定训练同义实体的边际概率。

损失函数获取模块，用于基于每一训练同义实体的边际概率，获取损失函数。

关于实体识别模型训练装置的具体限定可以参见上文中对于实体识别模型训练方法的限定，在此不再赘述。上述实体识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种实体识别模型训练方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中实体识别模型训练方法的步骤，例如图2所示的步骤S201-S206，或者图3至图8中所示的步骤，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现实体识别模型训练装置这一实施例中的各模块/单元的功能，例如图9所示的训练样本获取模块901、稀疏相似度获取模块902、密集相似度获取模块903、目标同义实体获取模块904、分批训练集获取模块905和实体识别模型获取模块906的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中实体识别模型训练方法的步骤，例如图2所示的步骤S201-S206，或者图3至图8中所示的步骤，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现实体识别模型训练装置这一实施例中的各模块/单元的功能，例如图9所示的训练样本获取模块901、稀疏相似度获取模块902、密集相似度获取模块903、目标同义实体获取模块904、分批训练集获取模块905和实体识别模型获取模块906的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种实体识别模型训练方法，其特征在于，包括：

根据所述稀疏相似度和所述密集相似度，从所述训练同义实体中筛选得到目标同义实体；

2.如权利要求1所述的实体识别模型训练方法，其特征在于，所述采用词频算法，对所述训练标准实体和每一所述训练同义实体进行向量相似度计算，获取每一所述训练同义实体与所述训练标准实体的稀疏相似度，包括：

采用词频算法分别对训练标准实体和每一所述训练同义实体进行向量转化处理，获取所述训练标准实体的标准稀疏向量，以及每一所述训练同义实体的同义稀疏向量；

将每一所述同义稀疏向量分别与所述标准稀疏向量进行内积处理，获取每一所述同义稀疏向量与所述标准稀疏向量的稀疏相似度。

3.如权利要求1所述的实体识别模型训练方法，其特征在于，所述采用词频算法分别对训练标准实体和每一所述训练同义实体进行向量转化处理，获取所述训练标准实体的标准稀疏向量，以及每一所述训练同义实体的同义稀疏向量，包括：

对所述训练标准实体和每一所述训练同义实体均进行分割处理，分别得到所述训练标准实体对应的多元分割字符和所有所述训练同义实体对应的多元分割字符；

采用TF-IDF算法对所述训练标准实体对应的多元分割字符进行处理，获取训练标准实体对应的标准稀疏向量；采用TF-IDF算法对每一所述训练同义实体对应的多元分割字符进行处理，获取每一所述训练同义实体的同义稀疏向量。

4.如权利要求3所述的实体识别模型训练方法，其特征在于，所述采用TF-IDF算法对所述训练标准实体对应的多元分割字符进行处理，获取训练标准实体对应的标准稀疏向量；采用TF-IDF算法对每一所述训练同义实体对应的多元分割字符进行处理，获取每一所述训练同义实体的同义稀疏向量，包括：

采用TF-IDF算法对所述训练标准实体对应的多元分割字符进行处理，获取所述训练标准实体中包含的多元分割字符对应的词频和逆文档频率；采用TF-IDF算法对每一所述训练同义实体对应的多元分割字符进行处理，获取所述同义实体中包含的多元分割字符对应的词频和逆文档频率；

基于所述训练标准实体中包含的多元分割字符对应的词频和逆文档频率，获取训练标准实体对应的标准稀疏向量；

基于所述训练同义实体中包含的多元分割字符对应的词频和逆文档频率，获取训练同义实体对应的同义稀疏向量。

5.如权利要求1所述的实体识别模型训练方法，其特征在于，所述采用语义识别模型，对所述训练标准实体和每一所述训练同义实体进行向量相似度计算，得到每一所述训练同义实体对应的密集相似度，包括：

采用语义识别模型对训练标准实体进行向量转化处理，获取所述训练标准实体的标准密集向量；

采用语义识别模型对每一所述训练同义实体进行向量转化处理，获取每一所述训练同义实体的同义密集向量；

将每一所述同义密集向量分别与所述标准密集向量进行内积处理，获取每一所述同义密集向量与所述标准密集向量的密集相似度。

6.如权利要求1所述的实体识别模型训练方法，其特征在于，所述根据所述稀疏相似度和密集相似度，从所述训练同义实体中筛选得到目标同义实体，包括：

获取目标参数，所述目标参数包括获取数量参数和比例参数；

将密集相似度最高的前a个训练同义实体放入第一候选实体集，其中，a为所述数量参数和比例参数的积；

将稀疏相似度最高的前b个训练同义实体放入第二候选实体集，其中，b为所述数量参数减去a的差；

根据第一候选实体集和第二候选实体集获取与所述数量参数对应的目标同义实体。

7.如权利要求1所述的实体识别模型训练方法，其特征在于，在所述依次采用所述分批训练集，对biobert模型进行分批训练，优化所述biobert模型中的损失函数，获取实体识别模型之前，所述方法还包括：

基于每一所述训练同义实体对应的所述稀疏相似度和所述密集相似度计算所述训练同义词对应的目标相似度；

根据所述训练同义实体对应的目标相似度和所述目标同义实体对应的目标相似度确定每一所述训练同义实体的概率，基于所述训练同义实体的概率确定所述训练同义实体的边际概率；

基于每一所述训练同义实体的边际概率，获取损失函数。

8.一种实体识别模型训练装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述实体识别模型训练方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述实体识别模型训练方法的步骤。