CN109344399B

CN109344399B - 一种基于堆叠双向lstm神经网络的文本相似度计算方法

Info

Publication number: CN109344399B
Application number: CN201811075571.6A
Authority: CN
Inventors: 覃勋辉; 杜若; 向海; 侯聪; 刘科
Original assignee: Chongqing Xiezhi Technology Co ltd
Current assignee: Guangzhou Youyi Information Technology Co ltd
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2023-02-03
Anticipated expiration: 2038-09-14
Also published as: CN109344399A

Abstract

本发明申请公开了一种基于堆叠双向lstm神经网络的文本相似度计算方法，涉及自然语言处理领域，包括以下步骤：步骤一，将输入句子分词并计算词向量，得到的词向量作为输入词向量；步骤二，将输入词向量以网络堆叠的方式输入到lstm神经网络中，得到输入句子向量；步骤三，按照步骤一和步骤二得到两个输入句子的句子向量；将两个输入句子的句子向量输入到分类器中，得到这两个句子的相似度。本发明申请能够准确进行文本相似度计算。

Description

一种基于堆叠双向lstm神经网络的文本相似度计算方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于堆叠双向lstm神经网络的文本相似度计算方法。

背景技术

在自然语言处理过程中，经常会涉及到如何度量两个文本之间的相似性，我们都知道文本是一种高维的语义空间，如何对其进行抽象分解，从而能够站在数学角度去量化其相似性。文本相似度算法用途广泛，如在信息检索中查询与输入语句相关的内容、在智能问答系统中判断输入问句和知识库问句意义是否一致，阅读理解任务中判断输入句子和文档句子的相关程度。所以，提高文本相似度算法的准确性对自然语言处理领域相关应用具有重要的意义。

传统的计算文本相似度算法主要有集合距离、编辑距离、SimHash、lda、lsi、tf-idf等。自然语言本身具有表述的多样性，由于文本对中出现的大量同义词、同义短语等，传统算法中并未有相应的处理机制，导致传统的文本相似度算法的准确性并不高。近年来，随着深度学习技术的发展，出现了基于词向量距离的wmd算法、基于句向量doc2vec算法、Siamese模型等。这些方法在一定程度的提高文本相似度算法的准确性。

发明内容

本发明意在提供一种能够准确进行文本相似度计算的基于堆叠双向lstm神经网络的文本对比算法。

本发明中的基于堆叠双向lstm神经网络的文本对比算法，包括以下步骤：

步骤一，将输入词向量以网络堆叠的方式输入到lstm神经网络中，得到输入句子向量；

步骤二，按照前面步骤得到两个输入句子的句子向量；将两个输入句子的句子向量输入到分类器中，得到这两个句子的相似度。

名词解释：

lstm神经网络：lstm(long short-term memory)神经网络是长短期记忆网络，是一种时间递归神经网络。

本发明的优点在于：

本发明方法采用了一种短路连接的双向lstm网络结构，即输入词向量以网络堆叠的方式输入到lstm神经网络模型中，网络堆叠指输入词向量跨层输入到lstm神经网络模型的每一层中；通过网络堆叠，使lstm神经网络的反向传播机制在运作时，能够有效减小传播梯度消失而导致的训练梯度消失。

每个输入词向量不仅作为被对比的对象，也作为lstm神经网络进行训练的样本，能够随着该算法的使用而使算法本身逐渐趋于完善，这样形成的网络结构具备一定的记忆上下文能力，并且训练收敛速度快，使经过本算法得到的相似度更加准确。

进一步，在步骤一之前，将输入句子分词并计算词向量，得到的词向量作为输入词向量。

输入词向量直接由输入文本中的输入句子中得到，输入文本以输入句子的形式存在，然后，经过对输入句子的分词后获得词向量，使所有输入文本都量化成一个个词向量，为两个文本的相似度对比提供了条件。

进一步，在步骤一之前，将带有相似度标签的语料文本分词，得到的词向量作为目标词向量；将目标词向量以网络堆叠的方式输入到lstm神经网络中，得到目标句子向量；将与输入句子向量具有相同语义的目标句子向量作为正样本，将除此之外的其他目标句子向量作为负样本；通过正样本、负样本和输入句子向量训练lstm神经网络模型和分类器，分别得到lstm神经网络参数和分类器的全连接层参数。

通过建立正样本和负样本，能够针对输入句子向量对lstm神经网络和分类器进行训练，使lstm网络参数和分类器的全连接层参数能够被不断更新，使得到的lstm神经网络模型和分类器能够更加准确，使在实际进行文本对比时能够得到更加准确的相似度。

进一步，所述相似度分别针对正样本或者负样本，所述相似度包括针对同一样本相似和不相似的二维概率。

通过正样本和负样本两个维度的相似性，能够更加准确地判断一个句子与其他句子的相似性。

进一步，在分词后得到词向量时，采用word2vec进行词向量计算。

Word2vec是一种比较成熟的词向量处理算法，使用较为方便。采用了word2vec词向量方法，该方法能够找出给定词语的大量相关词语，一定层度的克服了同义词和同义短语带来的问题。

进一步，所述分类器包括依次连接的输入层、批处理层、拼接层、全连接层以及概率层；

所述输入层，用来输入包括输入句子向量特征、正样本和负样本在内的句子向量特征；

所述批处理层，用来对输入的句子向量特征进行批量归一化处理；

所述拼接层，用来将归一化处理后的句子向量拼接成为行向量；

所述全连接层，用来将行向量按照正样本和负样本进行二维对比；

所述概率层，用来得到行向量分别与正样本和负样本的相似概率。

输入层、批处理层、全连接层和概率层，都能够直接从现有技术中得到对应的内容，而拼接层的不同，则会直接关系到计算的相似度。

进一步，所述拼接层拼接形成的行向量为：

[u,v,abs(u-v),element-wise product(u⊙v),cos similarity(u,v)]；

其中，u为句子1的输入句子向量特征，v为句子2的输入句子向量特征；

abs(u-v)代表u-v向量的绝对值；

element-wise product(u⊙v)代表u,v向量的元素积；

cos similarity(u,v)代表u,v向量的cos相似度。

通过这样设置的拼接层，使构造得到的分类器比只用cos相似度的方法具有更高的准确率。

进一步，建立目标优化函数，优化lstm神经网络参数和分类器的全连接层参数；所述目标优化函数为交叉熵或者Adam迭代优化方法。

在优化lstm神经网络参数和分类器的全连接层参数时，采用交叉熵或者Adam迭代优化方法这些相对成熟的目标优化函数，能够尽快达到训练目的。

附图说明

图1为本发明实施例中通过lstm网络计算句子向量的流程图。

图2为本发明实施例中通过分类器进行句子向量相似性对比的流程图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例：

本实施例中的基于堆叠双向lstm神经网络的文本相似度计算方法，包括以下步骤：

首先，通过爬虫从网络上爬取，或者通过收集现有语料文本典籍，准备无标签的大语料文本，按照现有技术根据设定的相关规则将语料文本分词，将分词计算得到词向量。其中，得到词向量的方法采用Word2vec或者其他现有算法。将无标签语料文本得到的词向量，作为输入词向量。

然后，准备带有相似度标签的语料文本，将这些语料文本分词并计算得到词向量。将带有相似度标签的语料文本得到的词向量作为目标词向量，从目标词向量中选取多个目标词向量组成目标句子词向量，将与输入句子语义基本一致的目标句子词向量作为正样本，将其他目标句子向量都作为负样本。

第三步，构建特征表达模块。如图1所示，特征表达模块包括至少1层双向短路连接形成的lstm网络，本实施例中为4层。一个句子所有的词向量以网络堆叠的方式，分别输入到lstm网络的每一层中，经过最大池化的方法计算后得到句子向量。当输入特征表达模块的是输入词向量时得到的是输入句子向量，当输入的是目标词向量时，得到的是目标句子向量。

当一个自然语句被输入到特征表达模块后，自动将该语句以最小词语信息为单位进行划分，根据每层双向短路连接逐层计算每个词语的对应特征，进而将一个语句当中的词语特征按照最大池化的方法计算得到一个向量作为该句子的向量特征。

第四步，构建分类器模块。如图2所示，分类器包括用来进行句子向量输入的输入层，批量归一化处理的批处理层Batch normalize layer，以及与批处理层连接的拼接层，与处理层连接的全连接层fully connected layer，以及与全连接层连接的概率层softmaxlayer。其中，输入层、批处理层、全连接层和概率层都是现在常用的层结构，其各项参数基本相同。而本实施例中的拼接层形成的行向量为：

[u,v,abs(u-v),element-wise product(u⊙v),cos similarity(u,v)]；

abs(u-v)代表u-v向量的绝对值；

element-wise product(u⊙v)代表u,v向量的元素积；

cos similarity(u,v)代表u,v向量的cos相似度。

第五步，对特征表达模块和分类器模块进行训练，优化lstm神经网络参数和分类器的全连接层参数。建立目标优化函数，如交叉熵或者Adam迭代优化方法，使每次的输入句子的输入词向量或者输入句子向量分别于目标词向量或者目标句子向量进行比较，进而不断优化对应参数。

本发明采用了word2vec词向量方法，该方法能够找出给定词语的大量相关词语，一定层度的克服了同义词和同义短语带来的问题。

本发明方法采用了一种短路连接的双向lstm网络结构，该网络结构具备一定的记忆上下文能力，并且训练收敛速度快。

本发明构造的分类器比只用cos相似度的方法具有更高的准确率。对新领域的文本相似度计算，可以在原有模型上继续训练，提高在新领域的准确性。

具体实施过程如下：

在具体使用时，假设需要计算句子A：“还款银行怎么才能够修改”和句子B“如何变更还款卡”的相似性时。

首先，将句子A分词为“还款、银行、怎么、才、能够、修改”，将句子B分词为“如何、变更、还款卡”，通过word2vec对分词分别计算出输入词向量。

然后，通过如图1所示的lstm神经网络，将句子A的所有输入词向量和句子B的所有输入词向量输入到4层双向短路连接的lstm网络中，lstm的每个时序输出作为词向量重新编码，最后将重新编码的多个向量采用行最大池化的方法，输出每一维度的最大值，使句子A得到句子向量u，句子B得到句子向量v。

将待比较的句子向量u和v输入到Batch normalize layer经过批量归一化处理后更新u和v，将更新的u和v按照拼接层的公式进行数学向量拼接，形成行向量[u,v,abs(u-v),element-wise product(u⊙v),cos similarity(u,v)]；将拼接后的行向量输入到全连接层中，对比两个行向量，通过softmaxlayer得到这两个句子的相似度，即(不相似、相似)的概率。

当句子A和句子B语义一致时，其中一个为另一个的正样本；当句子A和B语义不一致时，其中一个为另一个的负样本。

本实施例采用了word2vec词向量方法，该方法能够找出给定词语的大量相关词语，一定层度的克服了同义词和同义短语带来的问题。采用了一种短路连接的双向lstm网络结构，该网络结构具备一定的记忆上下文能力，并且训练收敛速度快。构造的分类器比只用cos相似度的方法具有更高的准确率。对新领域的文本相似度计算，可以在原有模型上继续训练，提高在新领域的准确性。

本实施例能够在更短的时间内更加精准地计算出两个文本的相似度，能够使自然语言处理及其相关领域在文本比对上的速度得到显著提高。此外，根据不同的应用场景，合理设置lstm网络的层数，能够通过堆叠的方式跨层输入训练向量，能够训练得到贴合当前场景的lstm神经网络，有利于针对不同的场景针对性训练用来计算文本相似度的模型，进而达到能够在任何场景快速完成文本相似度计算的目的。

证明例1：

按照本实施例的方法，与现有的文本对比方法进行比较：

分别采用本实施例中的方法，以及现有的wmd、tfidf和编辑相似度的方法，在经过同样语料文本的训练后，对句子A“还款银行怎么才能够修改”和句子B“如何变更还款卡”计算相似度。有如下相似度计算结果：

表1

方法	本实施例	Wmd	tfidf	编辑相似度
					相似度	0.77	0.34	0	0.22

通过表1的计算结果，不难看出，采用本实施例方法的相似度更高，更符合实际情况，计算的相似度更加准确。

证明例2：

在证明例1的条件下，通过实施例中的方法，以及现有的wmd、tfidf和编辑相似度的方法，针对CCKS 2018微众银行智能客服问句匹配大赛的数据进行相似度对比处理，得到如表2所示结果，其中，准确率,采用f1评测指标:

表2

方法	本实施例	Wmd	tfidf	编辑距离
					F1值	0.81	0.68	0.63	0.47

从表2能够直接看出，运用本实施例方法来进行数据对比匹配时的准确率远高于现有方法的对比结果，充分说明。本方法计算的相似度更加准确。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种基于堆叠双向lstm神经网络的文本相似度计算方法，其特征在于：包括以下步骤：

步骤二，按照前面步骤得到两个输入句子的句子向量；将两个输入句子的句子向量输入到分类器中，得到这两个句子的相似度；

在步骤一之前，将带有相似度标签的语料文本分词，得到的词向量作为目标词向量；将目标词向量以网络堆叠的方式输入到lstm神经网络中，得到目标句子向量；将与输入句子向量具有相同语义的目标句子向量作为正样本，将除此之外的其他目标句子向量作为负样本；通过正样本、负样本和输入句子向量训练lstm神经网络模型和分类器，分别得到lstm神经网络参数和分类器的全连接层参数；

所述分类器包括依次连接的输入层、批处理层、拼接层、全连接层以及概率层；

2.根据权利要求1所述的基于堆叠双向lstm神经网络的文本相似度计算方法，其特征在于：在步骤一之前，将输入句子分词并计算词向量，得到的词向量作为输入词向量。

3.根据权利要求1所述的基于堆叠双向lstm神经网络的文本相似度计算方法，其特征在于：所述相似度分别针对正样本或者负样本，所述相似度包括针对同一样本相似和不相似的二维概率。

4.根据权利要求2所述的基于堆叠双向lstm神经网络的文本相似度计算方法，其特征在于：在分词后得到词向量时，采用word2vec进行词向量计算。

5.根据权利要求1所述的基于堆叠双向lstm神经网络的文本相似度计算方法，其特征在于：所述拼接层拼接形成的行向量为：

[u,v,abs(u-v),element-wise product(u⊙v), cos similarity(u,v)]；

abs(u-v)代表u-v向量的绝对值；

element-wise product(u⊙v)代表u,v向量的元素积；

cos similarity(u,v)代表u,v向量的cos相似度。

6.根据权利要求1所述的基于堆叠双向lstm神经网络的文本相似度计算方法，其特征在于：建立目标优化函数，优化lstm神经网络参数和分类器的全连接层参数；所述目标优化函数为交叉熵或者Adam 迭代优化方法。