CN111708882A

CN111708882A - 基于Transformer的中文文本信息缺失的补全方法

Info

Publication number: CN111708882A
Application number: CN202010476968.7A
Authority: CN
Inventors: 黑新宏; 焦瑞; 朱磊; 赵钦; 姬文江; 孟海宁; 姚燕妮; 董林靖; 彭伟
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-25
Anticipated expiration: 2040-05-29
Also published as: CN111708882B

Abstract

本发明公开了基于Transformer编码器的中文文本信息缺失的补全方法，对待处理的中文文本公开语料的人工预处理，通过计算机识别句号，将文本分割为以句为分割的大量短句语料，短句通过minibatch的方式转变为Bert词向量，产生的词向量将传入SVM进行文本二分类任务，模型将通过训练决定缺失位置的信息补全结果；采用大量遮盖[mask]标签产生的噪声，对模型进行训练，使得模型具有文本的生成能力，对文本缺失信息位置生成机器预测的缺失文本结果；本发明完成对中文文本的信息缺失的检测、信息缺失的补全任务，来帮助中文自然语言处理的文本预处理更加规范，使中文自然语言处理任务准确率进一步提高。

Description

基于Transformer的中文文本信息缺失的补全方法

技术领域

本发明属于计算机人工神经网络自然语言处理技术领域，具体涉及基于Transformer编码器的中文文本信息缺失的补全方法。

背景技术

随着自然语言处理技术的逐步发展，各式各样的自然语言处理任务进入了人们的视野，人们使用这些自然语言处理技术来辅助人们处理多项任务，例如：文本分类、智能问答、知识库自动构建、自然语言机器阅读理解、自然语言生成等。而这些任务的核心，都在于使机器能够尽可能的学习文本的语义信息，获得知识。在中文文本中，大致有36％的主语缺失现象，而英文文本仅具有4％。相比于完整的短文本句子结构，缺失主语的现象虽然不会使人类在对文本语义理解方面产生影响，但却对中文的自然语言处理产生了巨大的影响，极大的阻碍了机器对于自然语言文本的理解。大部分情况下，机器在面对自然语言文本时，由于缺乏先验知识，会仅仅根据整句话的上下文语境信息来判断某个词或者某个字的语义，但由于中文文本中大量存在的信息缺失，使得机器的理解产生相应的偏差，从而影响下游任务的准确性，例如，在问答方面，错误语义信息的理解使得问答结果的反馈产生错误。

发明内容

本发明的目的在于提供一种基于Transformer编码器的中文文本信息缺失补全方法，解决中文文本中大量存在的文本缺失现象，使得中文自然语言处理变得更加精准。

本发明所采用的技术方案是，基于Transformer编码器的中文文本信息缺失的补全方法，包括以下步骤：

步骤1：对待处理的中文文本公开语料的人工预处理，以形成供模型训练的监督数据；标记主要采用对中文文本输入关键词的方法；对于一个给定的未处理的自然文本语料，通过计算机识别句号，将文本分割为以句为分割的大量短句语料，然后对每一句语料人工判断是否存在主语缺失现象，如果存在，则在文本的末尾处添加[tag]标识，表示文本需要进行文本信息缺失补全处理；另外，每一条短句中的前半句和后半句将添加[sep]标识符为本句的短句分割标签；

步骤2：短句通过minibatch的方式转变为Bert词向量，产生的词向量将传入SVM进行文本二分类任务，分类结果将决定文本是否进行信息缺失补全；采用SVM对标记的文本进行学习，最终将文本分类为合理的分类为“不需要进行实体补全”和“需要进行实体补全”两类；

步骤3：通过大量标记文本的训练，SVM会将数据合理的分类为“不需要进行实体补全”和“需要进行实体补全”两类，其中被分类为“需要进行实体补全”的文本batch，将被输入进入文本信息缺失补全模型，所述文本信息缺失补全模型采用MLM遮盖预训练思想和TransformerEncoder编码器构建的，模型将通过训练决定缺失位置的信息补全结果；采用大量遮盖[mask]标签产生的噪声，对模型进行训练，使得模型具有文本的生成能力，对文本缺失信息位置生成机器预测的缺失文本结果；一方面，在模型训练阶段，结果的产生被用于计算交叉熵来完成模型的训练，另一方面，在模型使用阶段，结果的产生被用于文本缺失信息的最终生成；

步骤4：文本缺失信息预测生成的结果被优化方法进行模型的训练；优化方法采用SGD随机梯度下降，SGD将避免模型的目标函数的求解陷入局部最优解，使得模型求解的结果逼近全局最优解，实现文本信息的补全。

步骤1中，所述预处理包括数据规范化和数据标记。

步骤1中，所述文本标记的方法，主要采用BERT模型的文本标记方法。

步骤2中，词向量采用了基于维基百科语料训练的基础版BERT词向量，分类器采用SVM，SVM核函数的选取采用高斯核，高斯核函数使得SVM可以将任意数据映射为空间可分的维度；为避免分类器过拟合导致模型失效，需要在模型训练中控制参数。

步骤3中，通过模型1传出的文本词向量将被传入到模型2，传入后，加入了位置向量信息postionEncoding；最终形成供模型2使用的短句文本向量；[sep]分隔符将通过查词典表转化为int型数值信息，最终形成文本短句的Tensor张量；模型在训练前，将进行随机的[mask]标签替换，替换采用随机数的形式，对文本单词序号进行随机，随机的结果将遮盖这个词或字，并替换为[mask]标签。

本发明的有益效果在于：

一种基于Transformer编码器的中文文本信息缺失补全方法通过使用自编码模型AE和MLM训练思想，构建出了一个标准的用于中文文本信息缺失补全的模型，可以识别出一条中文短句是否需要进行缺失信息补全，并能生成补全结果，方便进行下游自然语言处理任务的数据处理，完善自然语言处理文本语义信息，避免下游任务在数据导入模型前文本数据的语义偏差。本发明有效的完善了自然语言处理数据预处理的步骤，得益于Transformer自注意力机制的优异表现能力，本发明提高了机器对自然语言的语义理解能力。本发明完成对中文文本的信息缺失的检测、信息缺失的补全任务，来帮助中文自然语言处理的文本预处理更加规范，使中文自然语言处理任务准确率进一步提高。

附图说明

图1是本发明基于Transformer编码器的中文文本信息缺失的补全方法主要流程。

图2是本发明基于Transformer编码器的中文文本信息缺失的补全方法模型具体输入和训练细节。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于Transformer编码器的中文文本信息缺失的补全方法，包括以下步骤：

步骤1：对中文文本公开语料的人工预处理，以形成供模型训练的监督数据。标记主要采用对中文文本输入关键词的方法。对于一个给定的未处理的自然文本语料，通过计算机识别句号，将文本分割为以句为分割的大量短句语料，然后对每一句语料人工判断是否存在主语缺失现象，如果存在，则在文本的末尾处添加[tag]标识，表示文本需要进行文本信息缺失补全处理。另外，每一条短句中的前半句和后半句将通过自动化的方式，添加[sep]标识符为本句的短句分割标签。

步骤2：短句通过minibatch(一种自然语言处理方法)的方式转变为BERT词向量(一种深度学习自然语言处理方法)，产生的词向量将传入SVM(支持向量机)进行文本二分类任务，分类结果将决定文本是否进行信息缺失补全。

步骤3：被分类为“需要进行实体补全”的文本batch，将被输入进入本文提出的文本信息缺失补全模型，这个模型是基于MLM遮盖预训练思想和TransformerEncoder编码器构建的，模型将通过训练决定缺失位置的信息补全结果；其本质是采用大量遮盖[mask]标签产生的噪声，对模型进行训练，使得模型具有文本的生成能力，对文本缺失信息位置生成机器预测的缺失文本结果；一方面，在模型训练阶段，结果的产生被用于计算交叉熵来完成模型的训练，另一方面，在模型的测试和使用阶段，结果的产生被用于文本缺失信息的最终生成。

步骤4：文本缺失信息预测生成的结果被优化方法进行模型的训练。优化方法采用SGD随机梯度下降，SGD将避免模型的目标函数的求解陷入局部最优解，使得模型求解的结果逼近全局最优解。

步骤1中，文本标记的方法，主要采用BERT模型的文本标记方法；这样的标记方法相比于BIO标记方法，降低了人工标记的复杂度，提升了人工标记效率。

步骤2中，词向量采用BERT，分类器采用SVM，SVM核函数选取高斯核，高斯核函数使得SVM可以将任意数据映射为空间可分的维度；为避免分类器过拟合导致模型失效，需要在模型训练中合理控制参数。

数据进入模型1处理过程如下，例如，对于“建筑施工时，住宅的楼梯的梯段的净宽度不应小于1.1m，梯段的一边设有栏杆时，梯段的净宽度不应小于1m。”这样一句自然语言文本。

a、首先通过计算机查表，找出这句话中每一个单字在词典中的int数值，这个数值代表了这个单字在词表中的位置信息，查表后，将形成[327,112,5123,4345,12341,22313,564,2543,8567,2345……]的1*46维向量，这个向量中的每一个数值代表了这句话的单字，而46代表了这句话的文本长度，长度不包括单句中的标点符号。

b、将这个向量输入进入BERT模型，模型的输出将产生一个n*46*768维的张量，其中n代表了当前句子的标号，46代表了当前短句的长度，768则表示了词嵌入维度，形成的张量如下所示：

Tensor([

[4516,6253,5676,3438,4596,2483,3745,9503,5567,2345,6235……]

[1111,5546,7805,5861,9674,868,4686,6567,5926,4583……]

[1351,4693,8469,2355,8457,8563,9235,759,3468,0845……]

......

],46*768)

c、在经过上述过程后，形成的句子张量被传入到LR或SVM分类器中，并形成最终机器预测的分类结果，分类结果是一个概率和为1的概率分布，较大的数值代表了最终的分类结果，分类结果为“True”的单句，将被传入模型2进行缺失信息生成。

步骤3中，通过模型1传出的文本词向量将被传入到模型2，传入后，加入了位置向量信息postionEncoding。最终形成供模型2使用的短句文本向量。[sep]分隔符将通过查词典表转化为int型数值信息，最终形成文本短句的Tensor张量。模型在训练前，将进行随机的[mask]标签替换，替换采用随机数的形式，对文本单词序号进行随机，随机的结果将遮盖这个词或字，并替换为[mask]标签。

由步骤2中模型1传出的张量，将被传入到模型2中，传入后，将进行位置信息、段位置信息的拼接。拼接示例如下：

a、对位置向量信息的拼接，拼接主要采用了对应词嵌入维度大小的初始化向量拼接，对原本的n*46*768维张量进行拼接。使得张量最终形成n*768*46*768维的张量，拼接的1代表了位置维度，位置初始为0，将随着模型的训练进行数值的变化。

b、padding操作。为了让模型具有更好的语义表示能力，将词向量变为n*46*768维，最后一维的数值多出的部分进行padding为0的操作。

c、对文本短句的张量的词进行随机mask操作，[mask]标签对应的向量值将对短句中的词或字进行替换，替换采用随机数产生的办法，产生的随机数数值决定替换词或字的位置，原则上对每个单句仅替换2个[mask]标签，这是考虑过多噪声的引入将使得模型的学习能力变差。

d、[sep]标签的引入，[sep]标签主要引入位置为三个：

1、短句中的前半句子句和后半句子句之间

2、短句中的顿号后

3、短句中“和”标识符后

这主要是考虑中文信息缺失主要发生在以上位置，[sep]标签的引入是为了模型对当前位置文本信息的生成。

步骤4中，SGD随机梯度下降方法避免了模型陷入局部最优解。

通过模型的学习，将生成如下例所示规格的短句结果：

“[建筑]施工时，住宅的楼梯的梯段的净宽度不应小于1.1m，[住宅的楼梯]梯段的一边设有栏杆时，[住宅的楼梯]梯段的净宽度不应小于1m。”

[住宅的楼梯]括号中的信息为模型对[sep]标签的替换生成，[建筑]为模型对[mask]标签的替换生成。生成的结果将通过模型目标函数进行计算，并将结果传入交叉熵损失函数进行自监督计算，计算出的损失值传入模型进行迭代。

模型的目标函数定义如下，其目标在于通过上下文信息预测[mask]和[seq]并将其生成的正确的结果的概率进行最大化：

其中:

x_m代表了未被替换为[mask]标签的上下文。

x_r代表了被替换为[mask]标签的单字。

x_q代表了[seq]标签需要预测的单字。

x_s代表了除[seq]标签以外的上下文表示。

通过推导，可以得到如下目标函数的最终形式：

其中：

m_t代表了当前字位置是否进行了[mask]标签替换。

n_t代表了当前句是否进行了需要进行信息缺失预测。

H_θ代表了除去[mask]的上下文的嵌入表示。

表示除去[seq]以外的上下文表示。

对于构造好的目标函数，通过SGD随机梯度下降法，对输出文本的张量中的归一化的概率分布进行交叉熵运算，即可完成损失值的计算，优化模型的参数。

通过不断迭代训练的模型最终将具有文本信息缺失补全的能力，对于上述示例，将产生“建筑施工时，住宅的楼梯的梯段的净宽度不应小于1.1m，住宅的楼梯梯段的一边设有栏杆时，住宅的楼梯梯段的净宽度不应小于1m。”的最终结果，每一个子句的缺失信息都得以补全。这样一来，在自然语言处理的下游任务进行时，句子的语义信息就具有更加完整语义的特性，方便下游任务的进行。

Claims

1.基于Transformer编码器的中文文本信息缺失的补全方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于Transformer编码器的中文文本信息缺失的补全方法，其特征在于，步骤1中，所述预处理包括数据规范化和数据标记。

3.根据权利要求1所述的基于Transformer编码器的中文文本信息缺失的补全方法，其特征在于，步骤1中，所述文本标记的方法，主要采用BERT模型的文本标记方法。

4.根据权利要求1所述的基于Transformer编码器的中文文本信息缺失的补全方法，其特征在于，步骤2中，所述词向量采用了基于维基百科语料训练的基础版BERT词向量，分类器采用SVM，SVM核函数的选取采用高斯核，高斯核函数使得SVM可以将任意数据映射为空间可分的维度；为避免分类器过拟合导致模型失效，需要在模型训练中控制参数。

5.根据权利要求1所述的基于Transformer编码器的中文文本信息缺失的补全方法，其特征在于，步骤3中，所述通过模型1传出的文本词向量将被传入到模型2，传入后，加入了位置向量信息postionEncoding；最终形成供模型2使用的短句文本向量；[sep]分隔符将通过查词典表转化为int型数值信息，最终形成文本短句的Tensor张量；模型在训练前，将进行随机的[mask]标签替换，替换采用随机数的形式，对文本单词序号进行随机，随机的结果将遮盖这个词或字，并替换为[mask]标签。